瓦尔登湖小酒馆

「酒神和日神」

[置顶] 搜索算法概要

相关链接 Query理解 搜索召回 搜索排序 前言 众所周知,系统架构由组织结构决定,纵然如此,作为一个复杂系统,搜索引擎仍然可以抽象出相对统一的方法论,其体系下算法...

LLM:强化学习

在大规模语言模型(LLM)中,强化学习扮演了重要的角色。具体来说,强化学习的一个重要应用是在模型训练中的 RLHF。在这阶段,模型生成的文本被人类评估并给出反馈。这些反馈通常以奖励信号的形式传递...

LLM:大语言模型结构

1、大语言模型 大语言模型是通过无监督学习训练的神经网络模型,特别是在大量的文本数据上进行预训练。其核心思想是让模型从上下文中预测词汇或子词的概率分布,进而捕捉语言的语法、语义、上下文信息等。...

LLM:DeepSeek 系列

1、DeepSeek LLM DeepSeek LLM 发布于 2023 年 11 月,收集了 2 万亿个词元用于预训练。在模型层面沿用了 LLaMA 的架构,将余弦退火学习率调度器替换为多步...

LLM:Qwen 系列

1、Qwen 1 Qwen 1 发布于 2023 年 8 月,Qwen 是一个全面的大型语言模型系列,涵盖了具有不同参数数量的不同模型,包括 Qwen 基础预训练语言模型和 Qwen-Chat...

LLM:LLaMA 系列

LLaMA(Large Language Model Meta AI)是发布于 2023 年 2 月 的开源预训练大型语言模型,与 GPT 等生成模型类似,LLaMA 也只使用了 Transfo...

LLM:GPT 系列

GPT(Generative Pre-trained Transformer)是生成式预训练语言模型,基于 Transformer 架构,专注于通过自回归的方式生成自然语言文本,即给定一个输入序...

搜索-搜索排序多目标预估和多目标融合

搜索排序多目标预估和多目标融合 在搜索排序中,用户的行为和目标往往是多样化的,比如点击、收藏、分享、停留时长等。单一的目标优化可能导致整体效果的偏差,因此需要通过多目标预估与多目标融合来更全面...

搜索-搜索系统常见指标和评估方式

1、搜索系统常见指标和评估方式 搜索系统的优化是一场指标驱动的系统工程,核心在于找准业务指标和中间指标的传导路径,实现策略的高效迭代。 一个典型的搜索系统指标传导路径可以表示为: 底层技术...

排序-重排

1、重排 重排 是精排后的一个阶段,主要负责在最终展示结果前对精排后的排序列表进行进一步优化和调整(微调)。重排核心目标是保证一定相关性的前提下,提高结果的多样性,从而提升用户体验,满足用户在...

排序-精排

1、精排 精排 的核心目标是从粗排阶段筛选出的候选集内(通常是几百个到几千个候选文档),依据更加细致的相关性、用户行为、时效性等因素,对文档进行细粒度的排序,以确保最相关的文档排在前面,最大化...

排序-粗排

1、粗排 粗排 是搜索系统中排序环节的第一层,主要目标是从大量候选文档中快速筛选出一小部分高潜相关的文档,为后续的精排提供输入。粗排阶段通常需要在较低的计算成本下实现高召回率和初步的排序能力,...

排序-相关性

1、相关性 搜索相关性是搜索引擎的核心,它决定了用户查询Query和系统返回结果Doc之间的匹配度。这种匹配度的高低,对于搜索用户体验有着至关重要的影响。 2、相关性标准 做好相关性需要一...

召回-召回聚合

1、召回聚合 用户的查询意图往往是复杂多样的,可能涉及到不同的领域、主题和语义层面。因此,召回体系中通常通过多路召回的方式从不同角度去理解和满足用户的查询需求。此外,多路召回通过各召回通道并行...

召回-向量召回

1、向量召回 当前搜索业内主流和主力的召回通路无疑是向量召回,相较于传统的关键词匹配,向量检索能够捕捉语义相似性,使其在应对模糊查询时也能有不错的检索效果,比传统的基于关键词的检索方法更具容错...

召回-协同过滤召回

1、协同过滤召回 协同过滤(Collaborative Filtering, CF)是一种常用的推荐算法,主要基于用户的历史行为数据来预测用户对物品的偏好,从而实现个性化推荐。 在搜索领域,...

召回-倒排召回

1、倒排召回 倒排召回(Inverted Index Retrieval)是搜索系统中最经典、广泛应用的一种召回技术,其核心是利用倒排索引的高效结构,在海量文档中快速找到包含查询关键词的文档集...

QP-意图识别

1、意图识别 Query意图识别用于帮助理解用户在提交查询时的真正需求或目标,即将用户模糊或不完整的查询映射为系统能够理解的需求类型。意图识别通常依赖和服务于搜索相关产品,如:交易查询意图(如...

QP-Query类目

1、Query 类目 Query类目指的是根据查询内容将查询词Query归类到某个特定的分类体系中。这个体系通常是多级的,能够将查询词从更广泛的类别逐渐细分到更具体的子类目,这个体系通常在电商...

QP-Query纠错

1、Query 纠错 Query纠错本质上是Query改写中的子集,其主要针对用户输入中的拼写、语法、或格式错误,自动将错误的查询改正为正确的形式。通常来说,在通用搜索领域中,错误的Query...

QP-Query改写

1、Query 改写 不同于词替换的Term改写,Query改写是指在Query粒度下,将用户的原始Query改写为新的Query,即Query2Query。Query改写不依赖分词,改写结果...