瓦尔登湖小酒馆

「酒神和日神」

[置顶] 搜索算法概要

相关链接 Query理解 搜索召回 搜索排序 前言 众所周知,系统架构由组织结构决定,纵然如此,作为一个复杂系统,搜索引擎仍然可以抽象出相对统一的方法论,其体系下算法...

排序-精排

1、精排 精排 的核心目标是从粗排阶段筛选出的候选集内(通常是几百个到几千个候选文档),依据更加细致的相关性、用户行为、时效性等因素,对文档进行细粒度的排序,以确保最相关的文档排在前面,最大化...

排序-粗排

1、粗排 粗排 是搜索系统中排序环节的第一层,主要目标是从大量候选文档中快速筛选出一小部分高潜相关的文档,为后续的精排提供输入。粗排阶段通常需要在较低的计算成本下实现高召回率和初步的排序能力,...

排序-相关性

1、相关性 搜索相关性是搜索引擎的核心,它决定了用户查询Query和系统返回结果Doc之间的匹配度。这种匹配度的高低,对于搜索用户体验有着至关重要的影响。 2、相关性标准 做好相关性需要一...

召回-召回聚合

1、召回聚合 用户的查询意图往往是复杂多样的,可能涉及到不同的领域、主题和语义层面。因此,召回体系中通常通过多路召回的方式从不同角度去理解和满足用户的查询需求。此外,多路召回通过各召回通道并行...

召回-向量召回

1、向量召回 当前搜索业内主流和主力的召回通路无疑是向量召回,相较于传统的关键词匹配,向量检索能够捕捉语义相似性,使其在应对模糊查询时也能有不错的检索效果,比传统的基于关键词的检索方法更具容错...

召回-协同过滤召回

1、协同过滤召回 协同过滤 (Collaborative Filtering, CF) 是一种常用的推荐算法,主要基于用户的历史行为数据来预测用户对物品的偏好,从而实现个性化推荐。 在搜索领...

召回-倒排召回

1、倒排召回 倒排召回 (Inverted Index Retrieval) 是搜索系统中最经典、广泛应用的一种召回技术,其核心是利用倒排索引的高效结构,在海量文档中快速找到包含查询关键词的文...

QP-意图识别

1、意图识别 Query 意图识别用于帮助理解用户在提交查询时的真正需求或目标,即将用户模糊或不完整的查询映射为系统能够理解的需求类型。意图识别通常依赖和服务于搜索相关产品,如:交易查询意图(...

QP-Query 类目

1、Query 类目 Query 类目指的是根据查询内容将查询词 Query 归类到某个特定的分类体系中。这个体系通常是多级的,能够将查询词从更广泛的类别逐渐细分到更具体的子类目,这个体系通常...

QP-Query 纠错

1、Query 纠错 Query 纠错本质上是 Query 改写中的子集,其主要针对用户输入中的拼写、语法、或格式错误,自动将错误的查询改正为正确的形式。通常来说,在通用搜索领域中,错误的 Q...

QP-Query 改写

1、Query 改写 不同于词替换的 Term 改写,Query 改写是指在 Query 粒度下,将用户的原始 Query 改写为新的 Query,即 Query2Query。Query 改写...

QP-Term 改写

1、Term 改写 改写是 QP 中的重要组成部分,在搜索系统中,用户输入的查询词(Query)和文档之间可能存在用词不一致的情况,或者同一意思可以通过不同的表达方式传达。通过同义改写,检索系...

QP-词权重

1、词权重(Term Weighting) 词权重(Term Weighting)指搜索引擎在处理用户查询时,用于衡量用户查询(Query)中每个词(Term)的重要程度。这种重要程度的评估对...

QP-Query 切词

1、Query 分词(切词) 分词指将一段连续的文本切成一个个独立且有意义的词汇,在文本召回中会对 Doc 文本内容分词以构建索引,并通过对查询词 Query 分词后去做检索。Query 分词...

搜索-排序

搜索排序 排序 是整个搜索链路中的最后一个、也是对业务结果影响最直接的阶段。面对召回模块初步筛选出的数千至数万个候选文档,排序系统普遍采用多级级联漏斗架构,以此平衡效率和效果,并为业务需求提供...

搜索-召回

搜索召回 召回 是整个检索流程的核心组成部分之一,其主要任务是从大规模文档集合中初步筛选出一批可能与用户查询相关的文档。对于召回的整体定位和要求应当为: 快速缩小范围:从海量文档中选出...

搜索-Query 解析

搜索 Query 解析 Query 解析 是搜索链路中的关键环节,用于理解用户的查询并为后续处理(如检索和排序)提供清晰的结构化输入。它的核心任务是将用户输入的、非结构化的自然语言查询,转化为...

关于写搜索算法系列的动机

为什么要写搜索算法系列 本博客意在梳理搜索算法近年来的技术发展脉络,希望可以从中抽象出其方法论。从专家策略、传统算法到机器学习,在技术迭代的过程中,与时俱新的,搜索算法完成了一系列汰换、沉淀、...