大数据是否能够改造你的行业
本文内容主要来源于该知乎 live,主要介绍了深度学习为什么能在大数据的环境下有效,并描述了大数据的三个特点:行为数据、全量加工和自动化应用。
深度学习为何有效
![机器学习的发展](https://wulc.me/imgs/image_1bibon900cpa18bnft25jm1v1l9.png)
深度学习属于表示表示学习的一种,将特征提取和模型训练放到一起,消除了领域知识(特征工程)的影响
深度学习有效的原因
1)深度学习的表达能力更强,模型能够容纳更多的数据 2)深度学习的模型很早就提出了,但是一直缺乏有效的优化方法(求解方法),无法将桶灌满,直到 GPU 的出现,相当于图中的水管的出现 3)能够获取的数据量变得更大(水源)
![深度学习模型](https://wulc.me/imgs/image_1biboqno31et14vufm3jqanogm.png)
行为数据、全量加工、自动化应用
能够利用大数据改造的产业必须要有以下三个特点
1)具有行为数据 2)需要进行全量加工 3)能够部署自动化应用
行为数据 v.s 交易数据
![交易数据和行为数据](https://wulc.me/imgs/image_1bibpk6le148m1kbm1cobs68lpi1g.png)
由于两者的特点不同,交易数据和行为数据的加工方式差别很大
全量加工 v.s 采样加工
问题属性决定采用哪种加工
![采样分析和全量加工](https://wulc.me/imgs/image_1bibq50b31boak2s1ntfktrmf41t.png)
全量加工是大数据的一个根本特点
CTR 预估是一个全量加工的问题,但是实际中往往要对负样本抽样以解决正负样本不平衡问题
洞察应用 v.s 全自动化应用
洞察指的是根据大量数据生成报表,然后通过人观察这些报表并作出决策
全自动化指的是数据的产生,加工,交易形成闭环
![全自动化应用](https://wulc.me/imgs/image_1bibqfpl114vp1h9s15nak9t1ftq2a.png)
因此,要将大数据应用到业务中,需要回答这三个问题
1)行为数据从哪里来? 2)要全量加工的问题是什么? 3)如何做到自动化
下面是根据大数据的三个特点介绍的三个应用场景,其中广告行业是已经发展的比较成熟的了,而保险行业和医疗行业则是未来有这种发展趋势的
![广告行业](https://wulc.me/imgs/image_1bibr8ek9gd7cecftn1fm3mqg2n.png)
![保险行业](https://wulc.me/imgs/image_1bibreoiq1c3cm561ausnqpvc534.png)
![大数据医疗行业](https://wulc.me/imgs/image_1bibsfvk3100ns471bdd3abq023h.png)
自动化系统一般框架
上面提到了在大数据的环境下需要将处理自动化,下面以发展得较为成熟的计算广告为例讲述自动化系统的一般框架
这个系统的分解以及各部分的作用如下所示,更详细的可参考这里
![自动化系统一般框架](https://wulc.me/imgs/image_1bibuiuc31d6h77k188415gs16m23u.png)
由于开源软件的发展,搭建这样的系统难度不大,开源软件的几个优势和顾虑如下所示
![搭建系统](https://wulc.me/imgs/image_1bibusqjp1ud23h118qaqdes0t4b.png)
核心业务的迭代应该是非常快而且非常重要的,不能被开源软件的开发进度控制。
最后,在具体的业务中应用到数据时,一定要遵循以下准则:数据高于经验,让数据来决策,不能只是先入为主做假设,有些现象是想不到的