计算广告笔记 (5)-- 搜索广告与广告网络 Demand 技术
本文是刘鹏老师的计算广告学中的一些笔记。本文是第五章: 搜索广告与广告网络 Demand 技术。主要介绍搜索广告中的几个典型问题以及广告网络中 demand 端需要用到的技术
搜索广告的特点
搜索广告与显示广告不同的特点在于
- 用户定向标签 \(f(u)\): 远远弱于上下文影响(query),一般可以忽略
- Session 内的短时用户搜索行为作用很重要
- 上下文定向标签 \(f(c)\): 关键词
搜索广告是一种典型的位置竞价模式,如下是搜索广告中常见的三种位置
根据上图,可知搜索广告中的位置一般分为北,南,东三个广告区块,根据各位置的 reference ctr 决定,各位置在竞价系统中的位次 reference ctr 可以通过 ε 流量较准确测定出
搜索广告的典型问题
搜索广告中需要考虑的几个典型问题如下
- 查询词扩展 (Query Expansion)
- 用户相关的搜索广告决策
- 短时用户行为反馈
查询词扩展 (Query Expansion)
目的是 supply 端为了赚取更多的利润,同时拓展了广告主的竞价范围,常见的思路有以下三种
(1)基于推荐的方法:挖掘 (session, query) 矩阵找到相关 query, 可类比 (user, item) 矩阵,这种方法利用的是搜索数据 (2)基于语义的方法:用 topic model 或概念化的方法中找语义相关 query,这种方法利用的是其他文档数据 (3)基于收益的方法:根据实际 eCPM 统计得到变现能力最好的相关 query,这种方法利用的是广告数据
用户相关的搜索广告决策
首先需要明确结果个性化对于搜索广告作用有限,原因是上下文信息 (c) 太强, 个人兴趣基本可以忽略;同时搜索页上的结果需要保证主题上某种一致性
但是广告展示条数是可以深度个性化的,因为约一半的用户无法明确区分广告与搜索结果,在平均广告条数的约束下,可以对每个用户的广告条数进行个性化,以最大化营收。因此这又一个约束优化问题!
另外可以根据同一 session 内的行为调整广告结果,如在第一页没点的广告是否要放到第二页。
短时用户行为反馈
短时用户行为的定义如下,狭义来说是用户在一个 session 内的行为,广义来说是 用户在短时间 (一般为一到两天) 内的行为
通过短时用户行为反馈,可以实现: (1)短时受众定向: 根据短时行为为用户打上的标签 (2)短时点击反馈: 根据短时广告交互计算的动态特征
而短时用户行为计算需要准实时 (分钟级) 对用户行为进行加工,不适合在 Hadoop 上进行 可以利用流式计算 (stream computing) 平台 , 如 S4(雅虎开源的一个流式计算平台), Storm 等
流式计算平台
前面提到了流式计算平台,下面以 storm 为例简单讲述
Storm 是一个大规模实时数据处理框架,能够自动完成数据分发和可靠性管理,开发者只需要关注处理逻辑,数据流基本在网络和内存进行(极端情况下会有磁盘调度)
Storm 计算逻辑类似 Map/Reduce, 区别在调度数据而非调度计算,其拓扑及任务分配如下(spout 是输入,根据输入的 key 分发到不同的 Bolt 上处理,最后将结果组成)
广告网络 demand 端技术
广告购买平台 (Trading Desk) 是 demand 端的一种产品,其目的是 >Allows advertisers buy audience across publishers and ad networks
其关键特征有
- 连接到不同媒体和广告网络,为广告商提供 universal marketplace
- 非实时竞价 campaign 的 ROI 优化能力
- 经常由代理公司孵化出来
ROI 优化能力
ROI 优化目标是给定总预算,在多广告网络中采买并优化 ROI
ROI 优化其中若干关键问题有
(1)在合适的流量 segment 上投放广告;如 SEM 中的选词、显示广告网络中的标签组合选择等
(2)在每个投放上合理地出价以优化 ROI;与实时竞价不同,采买方无法控制每次展示的出价 (因此一般采用每次点击固定价格的策略),但是因为 \(u, c\) 的取值未知,需要在各流量分割上估计其分布并合理出价
(3)对每个 segment 的量以及 Market price 进行预估,以完成整体的优化
在这个领域有代表性的公司有 EfficientFrontier,这个公司的核心业务是为搜索广告主提供大量关键词情形下的 ROI 优化服务,并收取固定比例的提成;广告主只需要提供预算、关键词、受众类型等信息即可,EfficientFrontier 会通过计算为其提供最优方案
其核心技术为 Portfolio Optimization,原是金融领域内的一个优化算法,目前正在向显示广告领域扩张,需要注意的是除了算法以外,长时间数据积累也很重要