1、搜索系统常见指标和评估方式
搜索系统的优化是一场指标驱动的系统工程,核心在于找准业务指标和中间指标的传导路径,实现策略的高效迭代。
一个典型的搜索系统指标传导路径可以表示为:
底层技术指标 → 中间过程指标 → 业务核心指标
示例路径:
-
优化点击率(CTR)路径
- 特征工程优化 → CTR模型精度提升 → 用户点击更多结果 → GMV提升
-
提升相关性(Relevance)路径
- Query-Doc匹配优化 → NDCG提升 → 用户停留时间增加 → 用户满意度提高
-
用户体验优化路径
- 降低搜索时延 → 提升搜索响应速度 → 用户体验改善 → 留存率提升
搜索策略和算法的优化需要找准业务指标和中间指标,将它们作为优化的 “指挥棒”,确保搜索系统的优化方向正确,实现优化和目标的对齐。
2、业务核心指标
业务核心指标(北极星指标)直接反映搜索系统对业务的贡献,是业务发展的关键指引,通常是公司业务决策层重点关注的指标。业务核心指标关注用户规模、活跃度、留存、交易转化等,即从用户参与度、长期粘性以及商业变现的角度,全面衡量了业务的健康程度和发展潜力。这些指标的提升直接关系到业务的成功与可持续发展。
2.1、用户规模指标
用户规模指标衡量搜索引擎在用户层面上的覆盖程度和增长情况,反映搜索引擎的用户基础和市场渗透率。
2.1.1、DAU
DAU(日活跃用户,Daily Active Users) 表示每天访问并使用产品的独立用户数量。“独立用户” 通常依据设备 ID、用户账号等具有唯一性的标识来统计,同一个用户无论在当天内访问多少次,都只计为一个活跃用户:
\[\text{DAU} = 当天登录或使用产品的独立用户数量\]DAU 反映了产品在日常层面的用户活跃情况,是衡量产品短期用户活跃度的重要指标。当终端产品不仅包含搜索业务,还具备推荐业务时,则需要对 DAU 进行区分,即衡量搜索业务的 SDAU 和推荐业务的 RDAU/FDAU。
2.1.2、SDAU
SDAU(搜索日活跃用户,Search Daily Active Users)特指在搜索引擎业务中每天进行过搜索操作的独立用户数量,反映了用户在搜索引擎上主动搜索信息的活跃程度,是衡量搜索功能有效性的重要指标:
\[\text{SAU} = 当天进行过搜索操作的独立用户数量\]2.1.3、SDAU 占比(搜索渗透率)
SDAU占比 指搜索活跃用户在整体活跃用户(DAU)中的占比,反映了用户在访问平台时,选择进行主动搜索的频率和占比,即搜索渗透率:
\[\text{SDAU占比} = \frac{\text{SDAU}}{\text{DAU}} \times 100\%\]SDAU占比高 则用户对搜索功能依赖性强,搜索成为用户获取信息的重要途径。反之,SDAU占比低 则用户可能更多依赖推荐流或其他内容分发方式,而非主动搜索。
2.1.4、搜索 Query 量 / 人均 Query 量
搜索 Query 量 指在特定时间范围内,用户在搜索引擎中发起的搜索请求总次数:
\[\text{搜索 Query 量} = \text{所有用户在特定时间内的搜索次数总和}\]搜索 Query 量高 表示用户搜索需求旺盛,平台满足信息检索需求的能力较强。反之,搜索 Query 量低 可能是搜索结果不佳、用户搜索习惯降低,或者平台推荐机制分流了用户搜索需求。
人均 Query 量 是指在特定时间范围内,每个活跃搜索用户平均发起的搜索请求次数,反映了用户在搜索引擎上搜索行为的活跃程度和搜索需求的深度:
\[\text{人均 Query 量} = \frac{\text{搜索 Query 量}}{\text{搜索活跃用户数}}\]人均 Query 量高 反映用户搜索需求较高,对搜索功能依赖性强,可能在深入探索信息。反之,人均 Query 量低 可能是用户难以找到想要的结果,搜索体验不佳,或信息获取途径转移到推荐流等其他渠道。
在搜索策略优化中,提升搜索 Query 量与人均 Query 量,并确保它们的增长是基于高质量搜索结果和良好用户体验,是搜索引擎持续迭代和成功的关键。
2.2、用户留存指标
2.2.1、搜索 LT30
LT30 指的是在过去 30天周期 内,累计搜索活跃天数 与 去重搜索活跃人数 的比值。
- 累计搜索活跃天数:过去30天内,所有用户累计进行搜索的天数总和
- 去重搜索活跃人数:过去30天内,至少进行过1次搜索的独立用户数
LT30 高 表示用户在30天内频繁使用搜索功能,搜索行为具有高黏性。反之,LT30 低:表示用户使用搜索功能的频率较低,黏性较差,可能依赖其他信息获取方式(例如推荐流)。
2.2.2、搜索次 n 日留存率
搜索次N留存(Next-N Retention) 衡量用户在首次触发搜索后的持续活跃程度的重要指标,即用户在一定时间窗口内(N日内) 是否 至少再次触发搜索行为。
\[\text{Next-N Retention Rate} = \frac{|U_N|}{|U_0|}\]其中:
- $U_0$:在当天 $T$ 内首次完成首次搜索的用户集合
- $U_N$:在时间窗口 $T+N$ 内,完成首次搜索后又至少完成一次搜索行为的用户集合
在新策略上线后,次N留存可以衡量用户在短期和中期内的衡量用户活跃度和功能黏性。
2.3、商业转化指标
对于电商搜索,用户规模是基础,核心在于成交与变现。
- 搜索大盘 GMV (Gross Merchandise Volume): 搜索入口引导的最终成交总额
- 搜索 RPM (Revenue Per Mille, 千次搜索收益): 衡量搜索流量变现效率的核心指标,代表每 1000 次搜索请求能为平台带来多少广告或抽佣收入
3、中间过程指标
业务指标 是搜索系统的最终目标,但它们往往不能直接指导策略和算法的优化。算法团队在进行 A/B 测试时,需要更敏感、更聚焦的中间指标进行细化和分解。此外,业务指标的提升是比较困难的,大部分策略和算法优化通常很难直接显著提升用户规模和用户留存,为了验证实验效果,中间过程指标(代理指标/次级指标)变得尤为重要。这些指标可以更快速地评估新功能或优化措施的效果,而不需要等待长期的数据积累来观察最终业务结果的变化。

4、人工评估
人工体验评估是指通过专业评审员对搜索引擎的搜索结果进行主观打分或评价,以此衡量搜索结果的相关性、质量和用户满意度。人工评估通常作为机器指标的补充,提供更精细和直观的反馈。
4.1、GSB 评估
通过 对比两套搜索结果(如A版本与B版本),由评审员或专业标注员直接对A、B两个版本的搜索结果列表中相同位置下的文档进行 对比评估,从而判断哪一套搜索结果更优(Side by Side)。在 Side by Side 评估中,采用 GSB 评价标准:
- Good(好) :新的搜索策略或算法版本相比旧版本,搜索结果质量有所提升
- Same(相同) :新的搜索策略或算法版本相比旧版本,搜索结果质量没有显著变化
- Bad(差):新的搜索策略或算法版本相比旧版本,搜索结果质量有所下降
在搜索引擎的 GSB(Good, Same, Bad) 评估中,为了确保数据集的全面性和代表性,通常会从 头部、腰部、尾部检索词 中进行抽样,并在 对照组(旧策略) 和 实验组(新策略) 下,分别取出 Top N 条检索结果 进行对比分析。
4.2、DCG 评估
DCG(Discounted Cumulative Gain,折扣累积增益) 是一种常用的搜索引擎排名质量评价指标,主要用于衡量搜索结果中文档的综合满意度与排序位置之间的关系。
对于一个搜索结果列表,DCG 的公式如下:
\[\text{DCG} = \sum_{i=1}^{N} \frac{\text{score}_i}{\log_2(i+1)}\]- $N$:搜索结果中总共返回的文档数量
- $\text{score}_i$:第 $i$ 个文档的综合满意度得分(人工基于相关性、内容质量、时效性、个性化等综合评审)
- $i$:文档在搜索结果列表中的位置,即当前搜索引擎算法给出的真实排序中的位置
- $\log_2(i+1)$:对排名位置进行折扣,位置越靠后,权重越小
4.3、NDCG 评估
在实际评估中,由于不同的 Query 召回的文档数量不同,且相关文档的绝对数量和质量也不同,这会导致即使两个 Query 都给出了完美的排序,它们的 DCG 绝对分值也可能相差巨大。因此,DCG 分数在不同的 Query 之间是无法直接比较和求平均的。
为了解决跨 Query 不可比的问题,需要对 DCG 进行归一化(Normalization),这就引入了 IDCG(Ideal DCG,理想折扣累积增益) 的概念。
4.3.1、IDCG 评估
IDCG 指的是在理想状态下,当前这组搜索结果所能达到的 DCG 理论最大值。IDCG 的计算公式与 DCG 完全一模一样,使用的也是同一批人工打分。它们唯一的区别在于文档的排列顺序,IDCG 代表了当前 Query 排序的 “天花板”:
- 收集打分:获取当前 Query 召回的候选文档集,以及评审员给这些文档打出的真实分数
- 构建完美排序:将这些文档严格按照人工打分从高到低进行降序排列。如果出现同分文档,相对顺序随意
- 计算理想收益:对这个重新排好序的 “完美列表”,套用与 DCG 完全相同的公式计算累积增益,得到的结果即为 IDCG
假设某个 Query 召回了 3 个文档(A, B, C),评审员给出的客观人工打分分别是:A=1分,B=3分,C=2分。
- 当前算法的真实排序(计算 DCG):
- 引擎把它们排成了
[A, C, B]。此时处于第 1、2、3 位的分数分别是1, 2, 3 - \[\text{DCG@3} = \frac{1}{\log_2(2)} + \frac{2}{\log_2(3)} + \frac{3}{\log_2(4)} \approx 3.76\]
- 引擎把它们排成了
- 理想的完美排序(计算 IDCG):
- 如果按人工打分降序排列,完美的顺序应该是
[B, C, A]。此时处于第 1、2、3 位的分数变成了3, 2, 1 - \[\text{IDCG@3} = \frac{3}{\log_2(2)} + \frac{2}{\log_2(3)} + \frac{1}{\log_2(4)} \approx 4.76\]
- 如果按人工打分降序排列,完美的顺序应该是
4.3.2、NDCG 的计算与意义
有了 IDCG 作为该 Query 的满分基准,NDCG(Normalized DCG) 就是系统实际 DCG 与 IDCG 的比值:
\[\text{NDCG@K} = \frac{\text{DCG@K}}{\text{IDCG@K}}\]在上例中,$\text{NDCG@3} = 3.76 / 4.76 \approx 0.79$。通过归一化,$\text{NDCG@K}$ 的取值被严格压缩到了 $[0, 1]$ 之间。分值越接近 1,说明当前算法排出的顺序越接近人类心智中的 “完美排序”。由于量纲被统一,可以将成千上万个长短不一、难度各异的 Query 的 NDCG 分数直接进行算术平均(Mean NDCG),从而科学地衡量某次精排/重排 A/B 实验对整个搜索大盘排序质量的综合提升。
5、总结
搜索系统的优化离不开一套清晰、全面的指标体系,其中业务指标决定战略方向,中间指标反映执行效果。通过业务核心指标、中间过程指标和人工评估指标的结合,来量化用户满意度、系统性能和业务目标的达成情况,并以此建立从业务指标 → 中间指标 → 策略调整 → 效果反馈的完整数据闭环,实现全方位评估搜索效果,设定正确的系统优化方向。