有价值的数据应该如何交易
本文的内容主要来源于该知乎 live,主要介绍了哪些行为数据是有价值的,以及广告领域中数据是如何交易的,最后还讨论了数据隐私的问题。
有价值的数据分类
数据有价值密度之分,并不是说数据量越多就一定越有效
这里的数据主要指的是用户的行为数据和用户的标识数据,而有价值的用户行为数据主要有: 决策行为、主动行为、半主动行为、被动行为,这些行为的价值递减,但是数据的量递增,因为有价值的数据一般量都不大
决策行为
决策行为对应着转化 (conversion) 或预转化 (pre-conversion), 也就是购买了商品或将商品加入了购物车。这些行为对应着非常明确的用户兴趣,价值也非常高
主动行为
主动行为对应着搜索(search)、广告点击(Ad Click)、搜索点击(Search Click),这种行为表明了用户已经有了明确的意图,但是最终决定还不清楚,价值也很高。
需要注意的是,这些行为里面往往会有作弊的流量在里面,需要去除掉。
半主动行为
半主动行为对应着分享(share),网页浏览(page view), 这种数据的量最大,用户意图较弱,因为用户可能只是随意在浏览,这些数据也有一定价值。
被动行为
被动行为是强加给用户的行为,如广告的浏览(注意不是点击,而是强推给用户浏览),这种行为甚至会有负面作用,价值基本可以忽略
社交关系
社交关系指的是不直接利用用户的行为数据(有可能是用户的行为数据过于稀疏),而是利用与其在社交网络(微博、Facebook 等)上有关联的的用户的信息进行定向。
这种方法在某个人的行为不足而无法进行精准的行为定向时有效。
用户 ID
用户 ID ,也就是用户标示,是最重要的数据,因为所有的行为数据有效的前提是需要先确认这些行为数据是属于哪个用户的,标识一个用户的 ID 在不同的环境下有不同的方法,下面是常见的场景和方法
- web/wap 环境:使用 cookie,生命周期短(1~2 周),存续性差,但是跨域名的时候需要映射
- ios 应用:使用 IDFA(ID For Advertiser),存续性好于 cookie,但 ios10 有更严格的政策
- 安卓应用:使用 Android ID,存续好于 IDFA;有些也使用 IMEI(手机标识),但是 Google Play 上是不给用的
- 无以上 ID 场景:使用 FingerPrint(IP+UserAgent -> hash),存在 http 头中,可作缺省标识; 但是在移动端使用效果不是很好,因为几乎每个应用都有一个内置的浏览器
三方数据划分
下面以广告中用到的用户数据为例讲述三方数据的划分,在广告中根据数据来源的不同可以将数据划分为第一方数据,第二方数据和第三方数据。
如下图所示,第一方和第二方分别是指广告主和广告平台,而不直接参与广告交易的其他数据提供方统称为第三方。
数据管理平台 (DMP)
第一方数据的收集和加工是广告市场上非常重要的环节,不过对于没有这方面技术积累的广告主而言,专门设团队进行数据加工是没有必要的,因此市场上出现了 数据管理平台(DMP), 专门从事此业务,而 DMP 又可划分为第一方 DMP 和第三方 DMP。
第一方 DMP
第一方 DMP 的目的是对广告主提供的第一方数据(也可结合公开市场第三方数据)进行加工,进而得到广告主指定的用户标签,用于支持网站业务运营和广告投放。
需要注意的是第一方 DMP 只能加工第一方数据,而不能使用第一方的数据,也就是不能把数据进行售卖(除非与广告主达成协议)
因此,第一方的 DMP 的商业模式如下
第三方 DMP
对于中小网站,其规模不大,没有利用数据的能力,只是单纯想将数据卖给需要数据的广告主,同时也没有加工数据的能力,因此产生了满足中小网站的这项需求的第三方 DMP。
第三方 DMP 与第一方 DMP 的一个不同点在于服务对象的不同,另外一个不同点则是两者的加工标签的逻辑不一样,第一方 DMP 是根据广告主的需求进行标签的加工,而第三方 DMP 则是根据 DMP 其自己的逻辑进行加工然后售卖。
第三方的 DMP 的商业模式如下所示
数据的交易
上面提到的 DMP 的一个重要功能就是售卖标签,实际上就是一种数据交易,这些标签一般售卖的对象是广告主,而广告主往往由于缺乏相应的技术而将手中定向委托给其他平台也就是 DSP(Demand Side Platform),因此交易发生在 DMP 和 DSP 之间。
同时由于往往存在着多个 DMP 和多个 DSP,假如 DMP 和 DSP 间都要一一连接的话,那么通信的代价会非常大,因此在实际中往往是通过广告交易平台也就是 ADX(AD Exchange) 将两者联系起来,从而降低通信代价。整个数据交易的过程如下所示
通过 ADX 进行 DMP 和 DSP 间的通信避免了 DMP 和 DSP 直接通信的开销,因为实时竞价的时候 ADX 本来就要跟 DSP 发生通信,因此没有增加二次通信。
上面简单提到数据交易时的收费是按照实际的广告展示次数付费的,目前来说这种市场化的定价方式是唯一的选择,这种方式并没有限制数据供给次数,直觉上似乎是利润最大化的。
但是这有可能间接地抬高了流量价格,而低估了数据价格。因为不限量地售卖标签,会导致竞价同一次展示的广告主的数目增加,因为有了标签,各个广告主能够更精准地定向到更多用户,因此更多的广告主的竞价抬高了流量的价格, 而假如广告主的预算是一定的情况下,购买流量需要更多的钱,因此用于购买数据支出会变少。当然这只是宏观上的探讨,目前业界对此并没有一套完善的理论来指导。
如果采用限量的售卖,那就要采用竞价的方式,而有了竞价,整个市场的活跃程度和价值会最大化。
数据隐私
在数据交易过程中不可避免地会设计到数据隐私的问题。针对数据隐私,欧盟负责隐私保护条例指定的委员会 A29 制定了以下相关原则
- Personal Identifiable Information(PII)不能使用,PII 指的是可以主动接触到用户的信息,比如手机号、QQ 号、微信号、e-mail 等都不能使用
- 用户可以要求系统停止记录和使用自己的行为数据,比如说网站会在网页上说明收集到的用户数据的作用,同时可让用户选择是否允许收集其数据,实际上对商业影响非常小,因为选择不允许收集的用户比例不大
- 不能长期保存和使用用户的行为数据,实际上数据也具有时效性,时间太久远的数据基本上无价值
另外一个数据隐私问题就是稀疏的行为数据带来的挑战,一个典型的例子就是 Netflix 推荐大赛中,有人从数据集里面发现了自己的同时是同性恋,原因是数据的稀疏性使得个人的行为数据更加容易被熟悉这个人的其他人所辨识。
目前对于这个领域相关的研究课题是差分隐私(differential privacy)。