搜索相关性：从建模到排序机制

发表于 2025-07-20 标签计算广告，机器学习，搜索

最近一段时间在研究搜索的相关性问题，一个颇有搜索特色的问题。搜索场景下的相关性，指的是展示给用户的内容，跟用户输入的 query 必须满足一定的关联关系，比如说搜 “肯德基”，就不应该出现 “麦当劳” 的内容

不同于在 feed 场景下，用户对内容基本无预期，feed 场景的推荐算法可以基于用户历史浏览兴趣、最近热点内容等做 exploit，或是通过探索用户的一些新兴趣做 explore。但在 search 场景下，用户主动搜索输入的 query 往往是有强意图的，出的内容也是要符合用户的这个预期的，否则这些搜索就是无效的，进而会造成搜索留存（LT）的损失。而在用户视角下，如果平台搜索的算法做得足够好，应该在第一页就能够找到自己想要的内容，而这这其实也导致了单 pv 下 search 浏览深度会远比 feed 要低

场景上的差异，会导致 search 相较于 feed 的优化目标也有不小差异。比如说搜索 LT 的度量中，时长并不是最重要的指标；从排序角度，增加了相关性的约束，导致特定 query 下可被用来排序的候选有限（相较于 feed），同时排序公式中往往也要加入相关性因子来达成相关性目标，对最大化原目标（如广告就是收入）的效率造成干扰

排序的相关性约束，也是导致了很多在 feed 下有效的 ranking 迭代，在 search 中效果不优甚至无效的原因，比如说这个问题里提到的现象为什么搜索系统技术文章很少，但推荐系统技术文章很多？，一个很重要的原因是给定 query，相关性候选不足导致了 ranking 搜索空间不足，而 ranking 本身的收益应该是随着候选量增加的边际效率是递增的

本文主要探讨下搜索场景下的相关性问题的解决思路。如果粗略地划分，相关性往往会涉及到两部分：相关性的建模，以及相关性模型预估分的作用机制，本文尝试对这部分的内容详细展开做一些讨论

排序机制

有了相关性预估分后，需要考虑的就是在线上如何应用这个预估分了。在系统中往往通过以下两个手段来保证相关性：相关性门槛和排序公式增加相关性项

相关性门槛：固定值，用于过滤低相关性广告候选
排序公式增加相关性项：动态变化值，控制投后相关性目标达标

搜索的相关性根本的目标是保证约定的 badcase 率约束不超，而相关性分的 label 如果定义为是否 badcase，那预估分的物理含义即为是否 badcase 的概率，就成了一个很常规的二分类任务了。则当模型预估准确的时候，通过控制投后的预估均值等于某个目标，即可控制 badcase 率在固定值附近。如 badcase 目标是 5%，相关性预估值准确情况下，让相关性预估均值保持为 0.95，即可达成这个目标

那这个在系统中的排序机制应该是怎么样的，下面会针对这个问题提供一个解决思路

最优排序公式

首先是最优排序公式的推导，通过下面的推导把问题形式化，这里以广告场景最大化 ecpm 为例

假设有 \(n\) 条请求，第 \(i\) 条请求曝光的广告的相关性预估分位 \(predict\_rel\_score_i\)，广告价值为 \(ecpm_i\)，相关性均值的目标为 target。则需要求解的问题的可形式化表达为如下形式（其中决策变量 \(x\) 为广告选择策略）

\[\begin{align} \max_x &\sum_{i=0}^{n-1} ecpm_i \\ s.t. \frac{1}{n} &\sum_{i=0}^{n-1} predict\_rel\_score_i=target \end{align}\]

问题建模

由于每条请求往往会有多条广告，上述问题可进一步细化到如下形式

假设每个请求 \(i\) 有 \(m_i\) 个候选广告。对于广告 \(k\) 在请求 \(i\) 上，定义：

\(ecpm_{ik}\)：广告的 eCPM 值
\(s_{ik}\)：广告的相关性预估分数（即 \(predict\_rel\_score\)）
\(x_{ik}\)：引入二元决策变量，\(x_{ik}=1\) 表示在请求 \(i\) 上选择广告 \(k\)，否则 \(x_{ik}=0\)

则问题可表述成如下形式

\[\begin{align} \max &\sum_{i=0}^{n-1} \sum_{k} x_{ik} \cdot ecpm_i \\ s.t. &\sum_{i=0}^{n-1} \sum_{k} x_{ik} \cdot s_{ik} = (\sum_{i=0}^{n-1} \sum_{k} x_{ik}) \cdot target \\ & x_{ik} \in \{0,1\} \quad \forall i,k \end{align}\]

问题求解

1. 拉格朗日松弛

由于约束是等式且全局，使用拉格朗日乘数法将约束融入目标函数。引入拉格朗日乘数 \(\lambda\)，构造拉格朗日函数 \(L\)：

\[\begin{align} L(\mathbf{x}, \lambda) &= \sum_{i=0}^{n-1} \sum_{k} x_{ik} \cdot \text{ecpm}_{ik} + \lambda \left( \sum_{i=0}^{n-1} \sum_{k} x_{ik} \cdot s_{ik} - (\sum_{i=0}^{n-1} \sum_{k} x_{ik}) \cdot \text{target} \right) \\ &= \sum_{i=0}^{n-1} \sum_{k} x_{ik} \cdot (\text{ecpm}_{ik} + \lambda \cdot (s_{ik} - \text{target})) \end{align}\]

这里的 \(\lambda\) 可以解释为相关性约束的 “影子价格”，表示每单位相关性分数变化对总 eCPM 的边际影响，则最大化 \(L\) 等价于最大化

\[\begin{align} \max L(\mathbf{x}, \lambda) \iff \max \sum_{i=0}^{n-1} \sum_{k} x_{ik} \cdot (\text{ecpm}_{ik} + \lambda \cdot (s_{ik} - \text{target})) \end{align}\]

2. 问题分解

对于每个请求 \(i\)，最大化 \(\sum_{k} x_{ik} \cdot (\text{ecpm}_{ik} + \lambda \cdot (s_{ik} - \text{target}))\)，等价于选择广告 \(k\) 使得 \(\text{ecpm}_{ik} + \lambda \cdot (s_{ik} - \text{target})\) 最大

\[\begin{align} k_i^* = \arg\max_{k} (\text{ecpm}_{ik} + \lambda \cdot (s_{ik} - \text{target})) \end{align}\]

因此，最优决策是对于每个请求 \(i\)，独立选择广告 \(k\) 以最大化以下线性组合，同时也是每条请求的排序公式

\[\begin{align} score_{ik}=\text{ecpm}_{ik} + \lambda \cdot (s_{ik} - \text{target}) \end{align}\]

3. \(\lambda\) 求解

在数学上，\(\lambda\) 是拉格朗日乘数，通过求解约束方程获得。实际系统中，\(\lambda\) 可以通过迭代方法调整（如二分搜索、梯度下降或在线学习），如可以使用二分搜索方法（因为 \(s_i(\lambda)\) 是关于 \(\lambda\) 是单调递增的函数），步骤如下

初始化 \(\lambda_{low}\) 和 \(\lambda_{high}\)
对于每个 \(\lambda\)，计算所有请求的选择（最大化 \(\text{ecpm}_{ik} + \lambda \cdot s_{ik}\)) 并计算平均 \(s_i\)
如果平均 \(s_i > \text{target}\)，则减小 \(\lambda\)（降低相关性权重）；反之增大 \(\lambda\)
重复直到平均 \(s_i\) 收敛到 target

上述方法需要我们获取的所有的流量和候选才能执行，相当于回放过去一段时间的流量得到的历史最优兑换比 \(\lambda\)。但这跟最优出价比较类似，实际中比较难直接应用。因为这里有两个前提：（1）获取到当天所有流量的数据（2）改变实际竞胜的广告不会影响竞价环境。在实际中这俩往往是难以满足

更常见的实际做法是基于过去一段时间搜集的相关性预估值均值，然后基于 pid 来做实时调控调整 \(\lambda\) 的值，pacing 的目标就是相关性均值等于 target。这部分其实跟出价调控比较类似，与计划最优出价类似，这也导致了实际的兑换比与理论最优兑换比有 gap，需要通过各种手段逼近理论最优的兑换比

逼近理论最优

如果进一步分析，会发现实际通过 pid 等控制器调控的方式，相较于流量回放直接解决最优化问题，差异在于调控过程中是否感知到了流量价值即 ecpm

因为在解决最优化问题时，有最大化 ecpm 这一目标在约束求解过程，会去寻找刚好满足 target 达成的 \(\lambda\)。但在实际的控制器调控中，只能感知到当前相关性均值是否达标了，当相关性不达标的时候会把 \(\lambda\) 调得非常大，导致 ecpm 项在排序中发挥的作用非常小，这就导致了 ecpm 非最优

比如说在两个连续的时间片内，前一个时间相关性是不达标的状态，但有高 ecpm 的候选，这个时候只考虑相关性，会把 \(\lambda\) 调的很大，导致高 ecpm 候选出不去（因为相关性项占了主导），而接着下一个时间片相关性有缓解了（因为前一个时间片出了高相关性广告），但候选没有高 ecpm 的，此时降低相关性项的权重，但出的广告 ecpm 也不是最优的了；但如果反过来，在前一个时间片降低 \(\lambda\) 后一个时间片升高 \(\lambda\)，是可以做到打平相关性最大化 ecpm 的，而这需要的就是调控感知流量价值

在调控 \(\lambda\) 过程中感知到流量价值即 ecpm，最直观的就是用过去一段时间 \(t\) 内搜集到的流量和广告候选，然后直接通过上面提到的二分法直接求解这个最优化问题，求得最优的兑换比 \(\lambda^*\)，用作下一个时间片的兑换比。但这里有一个比较强的假设是过去过去一段时间 \(t\) 的流量和候选分布，跟下一个时间片的类似（或者说差异不大），才能有效，否则约束比较难达成

除了上面的方法，还有一种更直观的方法，就是在调控过程中直接基于流量价值动态调整兑换比。如果把流量按照价值和相关性两个维度划分，可以划分为如下四个象限

对于这四类流量，如果直观来看，可以先验给出如下的兑换原则

（1）高价值高相关性的流量，降低兑换比，尽可能多出高 ecpm 广告
（2）低价值高相关性的流量，提高兑换比，尽可能多出高相关性广告来填补高相关性
（3）高价值低相关性的流量，降低兑换比，但兑换比要比（1）更高，防止相关性不达标
（4）低价值低相关性的流量，提高兑换比，兑换比（2）要更高，尽量不出广告

这里的做法跟前面的理论最优推导出来的结论 “全局最优的兑换比是一个固定的 \(\lambda\)” 有点矛盾。因为这里相当于是给高价值流量和低价值流量不同的兑换比，而不是全局统一的；但事实上理论最优的假设（看到所有流量）是没法满足的，而我们当前本身就是在做理论最优解的逼近，所以不一定要遵循理论最优的固定的 \(\lambda\) 的这个结论

另外这个方法有效也有两个重要假设:1）高价值流量损失的相关性可以从低价值流量上找补回来；2）单位相关性在高价值流量上的兑换效率比低价值流量的更高。1）比较好理解，因为如果找补不回来那相关性就无法达成，而 2）指的是 ecpm 和相关性分数的分布在高低价值是不一样的，或者更直观地说：在高价值流量上获取单位相关性损失的 \(\Delta ecpm\) 会比低价值流量更大，而这其实取决于实际的库存分布（即 ecpm 和相关性分的分布），从实际系统来看，这个假设成立的概率还是不小的

另外，在实际调控中，需要考虑对这些兑换比调整后，大盘的 target 是能达到的。从这个角度来看，其实方案 2 比方案 1 是更能达成这一点的，因为可以基于统一的调控系数来做扰动。方案二的解决思路类似出价中的 “保浅优深” 的扰动策略，在保证大盘 target 目标达成的前提下，基于流量价值对 \(\lambda\) 做扰动；但是与出价不同的是，出价往往是在计划维度做这个事情，但相关性是大盘维度的，没法做在计划维度，一是 target 是大盘约束，没法很好拆解到各个计划上，二是做在计划维度上也不是最优的，因为做在计划上要求每个计划都有一个 target，这样计划之间就不好做兑换了，或者说要约束更多了，求解空间更小了。关于出价问题上类似的解决思路，可以参考这篇文章《Bid Optimization by Multivariable Control in Display Advertising》

小结

本文从搜索与推荐场景的差异出发，探讨了相关性建模的技术演进与排序机制中的最优控制策略，试图为这一经典问题提供系统性的解决思路。搜索场景的强意图特性决定了相关性问题的特殊性：与推荐场景的 “无目的性浏览” 不同，用户搜索带有明确预期，这要求结果必须精准匹配查询意图。从技术视角上可以分为相关性建模和排序机制两部分

在相关性建模中，基本的迭代经历了从文本匹配到深度语义匹配的演进。当前主流方法可分为基于表示（Representation-based）和基于交互（Interaction-based）两类范式，两者在精度与性能间各有权衡。而引入预训练模型及 RAG 技术后，模型对语义的理解深度和泛化能力得到了显著提升。关于相关性建模有两点值得关注，一是基于大模型的语义理解与生成：大语言模型（LLM）在语义理解、意图推理和内容生成方面展现出强大能力，未来有望深入应用 LLM 进行查询意图的深层解析、扩展与归一化，甚至直接生成或增强相关内容摘要，进一步提升相关性判断的准确性和可解释性；二是个性化相关性理解：搜索意图有群体共性，但亦存在个体差异；虽然当前的相关性与 context 不相关，但未来的相关性模型可能需要更好地融合用户个性化上下文（如历史行为、实时偏好），在保证基础相关性的前提下，提供更契合个体需求的精准结果

在排序机制中。通过最优化问题形式化推导了带相关性约束的排序公式 \(score =\text{ecpm} + \lambda \cdot \text{rel_score}\)。其中的拉格朗日乘数 \(\lambda\) 可视为相关性约束的 “影子价格”，通过调控 \(\lambda\) 可实现相关性目标的达成与 ecpm 最大化间的平衡

当前 \(\lambda\) 调控多基于大盘均值，难以感知流量价值差异。理想状态应实现分流量价值层的精细化调控，对高价值高相关性流量降低 \(\lambda\) 以提升 ecpm，对低价值高相关性流量提高 \(\lambda\) 以保证相关体验。同时需要考虑在不破坏大盘目标的前提下实现这种动态调控

搜索广告的相关性，归根结底是在用户意图、广告主诉求和平台价值三者间寻求最佳平衡的艺术与科学。它既需要深入的技术建模与算法优化，也离不开对用户搜索心理和广告主业务目标的深刻洞察。未来的搜索广告系统，或许将更加智能与自适应，能够动态感知不同场景、不同用户对相关性的差异化期望，并精准调控商业与体验的平衡点

搜索相关性：从建模到排序机制

相关性建模

演进路线

多阶段训练

排序机制

最优排序公式

问题建模

问题求解

逼近理论最优

小结