大数据是否能够改造你的行业

本文内容主要来源于该知乎 live,主要介绍了深度学习为什么能在大数据的环境下有效,并描述了大数据的三个特点:行为数据、全量加工和自动化应用

深度学习为何有效

机器学习的发展

深度学习属于表示表示学习的一种,将特征提取和模型训练放到一起,消除了领域知识(特征工程)的影响

深度学习有效的原因

1)深度学习的表达能力更强,模型能够容纳更多的数据 2)深度学习的模型很早就提出了,但是一直缺乏有效的优化方法(求解方法),无法将桶灌满,直到 GPU 的出现,相当于图中的水管的出现 3)能够获取的数据量变得更大(水源)

深度学习模型

行为数据、全量加工、自动化应用

能够利用大数据改造的产业必须要有以下三个特点

1)具有行为数据 2)需要进行全量加工 3)能够部署自动化应用

行为数据 v.s 交易数据

交易数据和行为数据

由于两者的特点不同,交易数据和行为数据的加工方式差别很大

全量加工 v.s 采样加工

问题属性决定采用哪种加工

采样分析和全量加工

全量加工是大数据的一个根本特点

CTR 预估是一个全量加工的问题,但是实际中往往要对负样本抽样以解决正负样本不平衡问题

洞察应用 v.s 全自动化应用

洞察指的是根据大量数据生成报表,然后通过人观察这些报表并作出决策

全自动化指的是数据的产生,加工,交易形成闭环

全自动化应用

因此,要将大数据应用到业务中,需要回答这三个问题

1)行为数据从哪里来? 2)要全量加工的问题是什么? 3)如何做到自动化

下面是根据大数据的三个特点介绍的三个应用场景,其中广告行业是已经发展的比较成熟的了,而保险行业和医疗行业则是未来有这种发展趋势的

广告行业
保险行业
大数据医疗行业

自动化系统一般框架

上面提到了在大数据的环境下需要将处理自动化,下面以发展得较为成熟的计算广告为例讲述自动化系统的一般框架

这个系统的分解以及各部分的作用如下所示,更详细的可参考这里

自动化系统一般框架

由于开源软件的发展,搭建这样的系统难度不大,开源软件的几个优势和顾虑如下所示

搭建系统

核心业务的迭代应该是非常快而且非常重要的,不能被开源软件的开发进度控制。

最后,在具体的业务中应用到数据时,一定要遵循以下准则:数据高于经验,让数据来决策,不能只是先入为主做假设,有些现象是想不到的