在大型语言模型(LLM)时代,搜索与推荐领域正经历从「信息匹配」到「智能决策」的范式变革。LLM 凭借其强大的语义理解、知识推理和生成能力,不仅重构了传统搜索推荐的技术架构,还催生了多模态交互、动态记忆检索、智能体协作等新形态。
本文翻译整理自综述:A Survey of Generative Search and Recommendation in the Era of Large Language Models
1、引言
随着网络信息爆炸,信息科学领域的一个基础性问题愈发重要:从海量信息中筛选出满足用户需求的相关内容。当前,两种信息获取模式 —— 搜索与推荐 —— 构成了信息服务的基础设施。搜索的目标是根据用户显式的查询词检索出文档列表(如网页文档、推特帖子、答案等)。与之相对,推荐系统旨在通过用户画像和历史交互数据隐式推断用户兴趣,从而推荐物品(如电商商品、短视频、新闻等)。目前,搜索与推荐系统已广泛应用于电商、社交媒体、医疗健康、教育等多个场景和领域。
搜索与推荐是同一枚硬币的两面:搜索是用户通过显式查询主动获取信息的过程,而推荐则是为用户进行被动的信息过滤。尽管二者目标不同,但从技术视角来看,均可统一为 “匹配” 问题:搜索可建模为查询与文档的匹配,推荐可视为用户与物品的匹配。这种共有的匹配特性推动了搜索与推荐系统在技术范式上的同步变革。具体来说:
- 基于机器学习的搜索与推荐。相关研究(广义上称为 “学习匹配”)利用机器学习技术(如排序学习和矩阵分解)学习匹配函数,以估计
查询-文档
对或用户-物品
对的相关度得分 - 基于深度学习的搜索与推荐。随着 CNN、RNN、GNN 和 Transformer 等各类神经网络的重大进展,搜索与推荐已进入基于深度学习的范式。该范式借助深度学习方法强大的表征能力,将输入(即查询、文档、用户、物品)编码为潜在空间中的稠密向量,并学习非线性匹配函数
- 生成式搜索与推荐。随着生成式大型语言模型(LLM)的兴起,搜索与推荐领域出现了新范式:生成式搜索(检索)与推荐。区别于此前的判别式匹配范式,生成式搜索与推荐旨在直接生成目标文档或物品以满足用户信息需求
拥抱生成式搜索与推荐为该领域带来了新优势与机遇。具体而言:
- LLM 天然具备强大能力,如海量知识、语义理解、交互技能和指令遵循能力,这些能力可迁移或直接应用于搜索与推荐任务,从而提升信息检索效果;
- LLM 的巨大成功源于其生成式学习,将生成式学习深度融入搜索与推荐,可从根本上革新信息检索方法,而非仅停留在 LLM 的工具化使用;
- 基于 LLM 的生成式 AI 应用(如 ChatGPT)正逐渐成为用户访问网络内容的新入口,发展生成式搜索与推荐可更好地融入这类生成式 AI 生态。
2、传统范式
2.1、基于机器学习的搜索与推荐
- 基于机器学习的搜索:在机器学习时代,搜索的核心问题是学习一个有效函数以预测查询与文档的相关度得分。一系列经典研究(如潜在空间正则化匹配(RMLS)和监督语义索引(SSI))探索了映射函数,将查询和文档的特征转换到 “潜在空间”。同时,“排序学习” 系列算法被提出,为基于机器学习的搜索方法设计有效的排序损失函数:
- pointwise: 将排序转化为单个文档的回归或分类问题;
- pairwise: 将排序视为文档对的分类问题;
- listwise: 直接建模排序问题,克服前两种方法的缺陷。
- 基于机器学习的推荐:在推荐系统中,
用户-物品
匹配通常依赖协同过滤(CF),其假设具有相似交互(如评分、点击)的用户对物品有相似偏好。早期研究基于记忆方法,通过记忆相似用户或物品的评分预测用户交互。随后,受 Netflix Prize 推动,矩阵分解(MF)成为最具代表性的 CF 方法之一:MF 将用户-物品
交互分解为用户和物品在潜在空间的隐因子,通过内积计算隐因子匹配度以预测交互。MF 之后,BMF、FISM 等同样在潜在空间进行匹配的方法相继提出。除 CF 方法外,另一类研究聚焦基于内容的技术,通过编码用户/物品特征实现匹配,例如因子分解机(FM)将用户和物品特征表示为隐因子,建模高阶交互以实现匹配。
2.2、基于深度学习的搜索与推荐
- 基于深度学习的搜索:深度学习驱动的搜索主要依赖各类神经架构对查询和文档进行有效表征。前馈神经网络最早用于生成查询和文档的语义表示,深度结构化语义模型(DSSM)通过深度神经网络表征查询和文档。流行的卷积神经网络(CNN)也被用于捕捉语义嵌入。鉴于查询和文档均为序列文本,循环神经网络(RNN)自然被用于其表征。随着 Transformer 架构和预训练 BERT 模型的兴起,基于 BERT 的稠密检索器在大规模场景中表现优异。
- 基于深度学习的推荐:由于深度神经网络在多领域展现出卓越学习能力,推荐系统中出现利用深度学习建模复杂
用户-物品
交互模式的趋势。基于深度学习的用户-物品
匹配可分为两大方向:- 匹配函数学习:利用深度学习技术学习复杂匹配函数,例如神经协同过滤(NCF)通过多层感知机(MLP)实现表达性强的匹配函数,有效建模含噪声的隐式反馈数据,提升推荐性能;
- 表征学习:通过神经网络将用户和物品特征转换为利于匹配的潜在空间,例如 Bert4Rec 利用深度双向自注意力机制将用户历史序列转换为潜在空间表征,用于序列推荐任务;Caser 提出卷积序列模型,通过水平和垂直卷积核捕捉复杂历史交互序列。受
用户-物品
交互图结构启发,图神经网络(GNN)被用于推荐任务,利用高阶邻居信息增强用户/物品
表征,如 NGCF 和 LightGCN。
3、搜索与推荐的生成式范式
本节首先明确生成式搜索与推荐的范畴(包括与历史范式及其他基于 LLM 方法的对比),然后抽象其统一框架。
3.1、范畴界定

与历史范式对比:如图 1 所示,搜索与推荐的三类范式通过不同技术实现同一目标(为 查询/用户
提供相关 文档/物品
)。机器学习和深度学习范式将任务视为判别式问题,聚焦计算 查询/用户
与 文档/物品
的相似度;生成式范式则将任务建模为生成问题,直接基于 查询/用户
生成目标 文档/物品
。需说明两点:
- 深度学习是机器学习的子集,神经生成模型是深度学习的子集。尽管存在子概念包含关系,各范式边界清晰且发展方向独立(例如深度学习兴起后,搜索与推荐中出现基于神经网络的特征提取新方法;生成模型流行后,大量研究聚焦生成式搜索与推荐)。
- 术语 “范式转换” 反映领域潜在关注趋势,而非实际历史进程。生成式搜索与推荐在研究界仍属较新方向,其有效性尚未经长期验证。
与基于 LLM 的判别式方法对比:本研究将生成式搜索与推荐定义为 “完全通过生成模型完成搜索/推荐任务” 的方法。这一特定定义排除了部分研究 —— 例如某些工作使用生成式语言模型提取 查询/用户
和 文档/物品
的特征,但整体范式仅将原编码器替换为生成式语言模型,与历史方法无本质区别。本研究聚焦完全依赖生成式范式完成任务的工作。
3.2、统一框架
得益于生成范式的简洁性,我们可以将生成式搜索(generative search)和生成式推荐(generative recommendation)总结为一个统一框架。
以生成方式完成搜索和推荐任务,需遵循四个核心步骤:
- 查询 / 用户建模(Query / User Formulation): 该步骤旨在确定生成模型的输入。对于搜索任务,通常无需复杂的查询建模;对于推荐任务,用户建模至关重要 —— 需将用户信息转化为文本序列
- 文档 / 项目标识符(Document / Item Identifiers): 实际应用中,直接生成完整文档或项目几乎不可行,因此采用称为 “标识符” 的短文本序列来表示文档或项目
- 训练(Training): 一旦确定生成模型的输入(查询 / 用户建模结果)和输出(文档 / 项目标识符),即可通过生成损失(generation loss)轻松完成训练
- 推理(Inference): 训练完成后,生成模型接收查询 / 用户信息以预测文档 / 项目标识符,该标识符可映射到对应的文档或项目
尽管整体流程看似简单,实现高效的生成式搜索和推荐并非易事。上述四个步骤中,需考虑并平衡诸多细节。在第 4 节和第 5 节,我们将总结生成式搜索和生成式推荐方法,重点分析它们在框架中对特定环节的关注。
4、生成式搜索
4.1、概述
生成式搜索旨在利用生成模型(尤其是生成式语言模型)完成传统的搜索与检索过程,目标仍是实现文档与给定查询的匹配。与传统范式不同,生成式搜索在接收查询时,直接生成所需的目标文档。
4.2、查询建模
在搜索任务中,用户通常通过文本查询表达信息需求。这与生成式推荐不同 —— 后者需通过 “用户建模” 步骤将用户历史转化为文本序列。在大多数检索任务中,文本查询可直接输入生成式语言模型,有时仅需添加 “query: ” 等简单前缀。但在对话式问答(conversational QA)和多跳问答(multi-hop QA)等特定检索任务中,查询需结合对话上下文或前序跳的答案。
4.3、文档标识符
理想情况下,生成式搜索希望针对给定查询直接生成完整的目标文档。然而实际中,由于文档内容长度和无关信息的存在,大型语言模型(LLM)难以完成这一任务。因此,当前生成式搜索方法通常借助标识符表示文档 —— 这些标识符是简洁的字符串,能有效捕捉文档内容的核心。我们总结当前生成式搜索中使用的标识符,并分析其优缺点如下:
数字 ID(Numeric ID)
语料库中的每个文档可分配唯一的数字 ID(如 “12138”)。推理阶段,LLM 接收查询作为输入,通过波束搜索生成单个或列表形式的数字 ID。由于每个文档对应唯一数字 ID,预测的 ID 即可表示检索到的文档。
但数字 ID 存在以下问题:
- 泛化性: 数字 ID 缺乏语义关联,模型难以泛化到未见数据。尽管 LLM 可有效记忆训练集中段落的数字 ID,但测试集性能显著下降。NCI 通过在测试集段落中加入伪查询缓解了这一问题
- 语料库更新: 基于数字 ID 的方法难以更新语料库 —— LLM 将文档与 ID 的映射关系存储在参数中,而精确编辑这些参数不可行。通过增量学习部分解决了添加段落的问题
- 大规模语料库: 随着语料库规模扩大,模型记忆文档与 ID 映射的难度增加。研究发现,生成式搜索在小语料库中可与先进的双编码器模型竞争,但扩展到百万级段落仍是未解决的挑战
文档标题(Document titles)
在特定场景中,文档标题可作为有效标识符。例如,维基百科中每个页面的标题唯一且简洁概括内容,与文档语义关联并一一对应。2021 年,Cao 等人探索了将标题用作实体检索和文档检索的标识符。类似标题的标识符还包括 URL、关键词和摘要。
但标题的局限性在于:
- 段落级检索中,文档常被分割为段落,基于标题设计段落标识符难度大。2023 年,Li 等人尝试将文档标题与章节标题结合作为段落标识符,但仅适用于维基百科语料库。
- 网页检索中,网页标题质量低、可能重复或缺失,导致生成式搜索性能落后于传统方法。
N-grams
文档内容具有语义,但直接生成完整文档不可行(因含无关内容)。受此启发,与查询语义相关的文档 N-grams 可作为潜在标识符。2022 年,训练 LLM 以查询为输入生成目标 N-grams(基于词重叠筛选),再通过启发式函数将预测的 N-grams 转换为段落排名列表。该方法在 NQ 和 TriviaQA 等通用数据集上进行了评估。
局限性:
- 区分度低于数字 ID:N-grams 无法直接一一对应文档,需依赖转换函数(如 SEAL 中通过汇总文档包含的 N-grams 得分计算文档分数),导致无法实现端到端检索。
- 训练阶段 N-grams 的选择需人工调整,灵活性高但稳定性低。
码本(Codebook)
文本码本(即 token)是 LLM 的基础,LLM 通过预测下一个 token 获取知识。类似地,可学习专门用于文档的码本,以更高效地表示文档。2023 年,Sun 等人提出为生成式搜索学习文档码本,还有研究则提出端到端框架自动搜索最优标识符。
但学习文档码本过程复杂,通常需将文档编码为稠密向量、离散化后通过解码器重构文档,且需谨慎调整码本大小和序列长度。此外,与标题和 N-grams 相比,码本缺乏可解释性。
多视图标识符(Multiview identifiers)
上述标识符各有局限:数字 ID 需额外记忆且不适用于大规模语料库,标题和子串仅为段落片段、缺乏上下文信息。更重要的是,段落需从不同视角回答查询,而单一标识符仅代表单一视角。因此,2023 年 Li 等人提出 MINDER 框架,融合标题、N-grams、伪查询和数字 ID 等多种标识符,实验验证了其在不同检索领域的有效性和鲁棒性。
缺点与 N-grams 类似:无法一一对应文档,需转换函数;推理阶段需生成多种类型标识符,降低效率。
文档标识符总结
为清晰呈现不同标识符的特性,表 1 从语义性、区分度、更新难度、训练复杂度和适用检索领域进行了总结。码本在各维度展现潜力,但训练过程复杂;多视图标识符训练较简单,但区分度不足且依赖转换函数。

4.4、训练
与传统检索方法相比,生成式搜索的训练流程显著更简单。我们将其分为生成式训练和判别式训练两类。
生成式训练:一旦确定输入(查询)和输出(标识符),即可训练 LLM 预测下一个 token。主要有两个训练方向:
- 查询到标识符训练(Query-to-identifier training):训练 LLM 针对给定查询生成对应的标识符。大多数标识符类型(如文档标题、N-grams、多视图标识符)仅需此训练方向。
- 文档到标识符训练(Document-to-identifier training):LLM 以文档为输入,学习预测对应的标识符。这对数字 ID 和码本等标识符至关重要 —— 它们需与文档语义对齐(码本训练可视为特殊的文档到标识符训练)。值得注意的是,搜索场景中并非所有文档都有标签(查询),导致 LLM 难以记忆文档。为此,部分生成式搜索方法利用伪样本对扩展训练数据,增强文档记忆能力。
判别式训练:生成式搜索将传统判别式检索范式转化为生成式范式,通过生成损失训练检索模型(生成式语言模型)。但相关研究指出,判别式训练在生成式搜索中仍具重要性 —— 实验表明,判别式训练可进一步提升训练良好的生成模型性能。这一发现对生成式搜索和传统检索范式均有意义:传统检索研究已开发大量判别式损失(排序损失)和负样本挖掘方法,这些成果可通过调整用于增强生成式搜索。后续工作进一步验证了引入判别式训练的有效性。
4.5、推理
训练完成后,生成式搜索模型可用于检索任务。
自由生成(Free generation):推理阶段,训练好的 LLM 可基于用户查询预测标识符,过程类似训练阶段。由于 LLM 生成无约束,可能输出任意文本 —— 这些标识符可能直接对应特定文档,或需通过启发式函数(根据标识符类型)映射到文档。这是生成式搜索的独特之处:允许通过生成直接检索文档。但实际应用中,仅有少数方法采用自由生成,因标识符范围有限而生成空间无限,LLM 可能输出语料库中不存在的无效标识符。
受限生成(Constrained generation):多数生成式搜索方法采用受限生成,确保 LLM 生成有效标识符。具体通过后处理屏蔽无效 token,仅允许生成属于标识符的有效 token,需借助 Trie、FM_index 等数据结构:
- FM_index 支持 LLM 从标识符的任意位置生成有效 token;
- Trie 仅支持从标识符的首 token 开始生成。
这些结构对 LLM 准确生成有效标识符至关重要。预测的标识符可直接对应文档,或通过启发式函数映射,最终以生成式方式输出文档排序列表。
4.6、总结
方法总结

表 2 从标识符、主干模型、受限生成和数据集四方面总结当前生成式搜索方法:
- 标识符:不同标识符需不同训练策略和推理流程(详见前文及表 1)。
- 主干模型:几乎所有方法均采用 BART、T5 等预训练语言模型,因它们具备丰富语言知识。但当前极少使用 ChatGPT、LLaMA 等先进大模型 —— 一方面单纯增大模型规模难有显著贡献,另一方面闭源模型难以适配受限生成。
- 受限生成:几乎所有方法均采用受限生成保证有效标识符生成。多视图和 N-gram 标识符需 FM_index,其他标识符需 Trie 结构辅助。
- 数据集:主要聚焦文档级和段落级检索,部分涉及对话式 QA、多跳 QA 和跨语言检索。但受限于标识符类型,部分方法需重构数据集(如 NQ320k、TriviaQA 子集、MSMARCO 子集),虽凸显生成式搜索优势,却可能偏离真实应用场景。基于多视图标识符的方法在通用检索数据集上优势显著。
时间线总结
图 2 简要梳理生成式搜索发展历程,重点标注首次引入新标识符或训练方案的工作:
- 首个生成式搜索工作为 GENRE,虽聚焦实体检索而非文档检索,但首次采用自回归生成范式完成检索任务并引入受限波束搜索。
- 2022 年起,新标识符类型持续涌现。
- 2023 年,判别式训练被引入,后续工作进一步探索。
4.7、生成式搜索之外的 LLM 检索应用
除生成式搜索外,LLM 在文本检索中的其他潜力探索包括:
- LLM 用于查询扩展:如 Query2Doc 利用 LLM 生成合成文档,融入传统检索系统提升性能
- LLM 作为特征提取器:密集检索器通常基于 BERT 等仅编码器模型,近期工作尝试用生成式大模型优化文档表示
- LLM 用于重排序:重排序模型需优化检索候选顺序,LLM 已被用于文档重排序
5、生成式推荐
5.1、概述
推荐系统旨在筛选与用户兴趣相关的项目,需在自然语言空间实现匹配,涉及两个核心组件:用户建模(user formulation) 和 项目标识符(item identifiers),分别对应生成式搜索中的查询建模和文档标识符。具体而言:
- 用户建模:作为生成模型的输入,整合用户历史交互、用户画像等多元信息,以自然语言序列表示用户,建模其兴趣
- 项目标识符生成:生成式推荐系统通过生成相关项目的标识符,实现自然语言空间的用户兴趣匹配
5.2、用户建模
推荐系统中无显式 “查询”,用户建模是实现个性化推荐的关键步骤。生成式推荐系统主要通过四类信息构建用户表示(以自然语言表达):任务描述、用户关联信息、上下文信息、外部知识,具体通过预定义提示模板整合单/多类信息。
任务描述(Task description)
利用生成模型的强理解能力,通过任务描述引导模型完成 “下一项预测” 推荐任务。例如:
- 电影推荐中,任务描述可为 “给定用户最近观看的十部电影,请推荐用户可能喜欢的新电影。”
- 采用 “已知用户的购买历史为…,我想知道接下来该推荐什么,请协助决策” 作为提示模板,插入用户历史交互信息
- 结合历史交互和用户偏好:“用户历史交互为…,其偏好如下…,请提供推荐。”
用户历史交互(User’s historical interactions)
作为用户对项目的隐式反馈,历史交互序列是建模用户行为的核心,隐含用户对项目的偏好。常见做法是用项目 ID 构建交互序列,但相关研究指出,生成模型擅长捕捉项目语义细节,却在捕获协同信息上存在局限。为此,两类改进方向:
- 融合项目侧信息增强语义理解:一些工作在历史交互中融入项目描述、标题、属性等丰富语义信息。例如,列出历史交互时加入项目描述,利用项目标题和属性提升用户偏好理解。
- 引入 ID 嵌入增强协同信息:LLaRA 在项目标题的 token 嵌入后附加 ID 嵌入,帮助模型理解用户行为。随着多模态 LLM 发展,部分工作尝试融入项目视觉特征,补充文本交互信息。
用户画像(User profile)
整合用户画像(人口统计、偏好等信息)是增强用户建模的有效方式。人口统计信息(如性别、年龄)可直接从平台获取,与描述性文本结合(如 “用户描述:女性,25-34 岁,从事销售/营销”)。例如:
- 利用年龄和性别提示 ChatGPT,基于先验知识增强用户特征理解
- 通过定制提示,让 LLM 从历史交互中推断用户意图和整体偏好;用 LLM 总结历史交互中的用户偏好
- 但受用户隐私限制,部分研究改用用户 ID 捕捉协同信息或舍弃画像信息。
上下文信息(Context information)
环境上下文(如时间、地点)影响用户决策,融入后可提升模型匹配准确性。例如,冬季服装推荐中用户更可能购买外套而非 T 恤。实际应用中:
- 在药物推荐中纳入诊断和治疗流程
- 通过可学习软提示融入上下文,捕捉未观测的上下文信号
外部知识(External knowledge)
尽管生成模型基于用户关联信息已表现良好,近期研究尝试引入外部知识提升性能:
- 将用户-项目图结构信息转化为自然语言,传播高阶邻居信息以捕捉复杂关系;
- 将传统推荐模型的预测结果以自然语言形式融入,实现传统模型与生成模型的协同;
- 部分工作引入候选项目集缩小搜索空间,缓解幻觉问题并提升准确性。
5.3、项目标识符
与生成式搜索类似,生成式推荐模型需基于用户建模结果生成相关项目。然而,推荐平台中的项目通常包含多模态的辅助信息(如短视频缩略图、音乐音频、新闻标题等),这些复杂数据要求项目标识符在语言空间中体现项目特征。如相关研究指出,优质项目标识符至少需满足两个标准:
- 区分度,强调从用户行为中学习到的项目显著特征;
- 语义性,聚焦预训练语言模型中先验知识的利用,以支持冷启动和跨域推荐的强泛化能力。
现有研究通常通过以下四种策略构建项目标识符,分别满足不同标准。
数字 ID(Numeric ID)
鉴于数字 ID 在传统推荐模型中捕捉协同信息的有效性,生成式推荐框架的直接策略是采用数字 ID 表示项目。但传统推荐模型的 ID 设置无法直接应用于生成式推荐模型 —— 传统模型将每个项目视为独立 “token”,不可进一步分词且严格对应独立嵌入,这要求:1)大内存存储所有项目嵌入;2)充足交互数据训练项目嵌入。生成式推荐模型通过将项目标识符设计为 token 序列解决此问题:数字 ID 可进一步分词,并关联多个 token 嵌入,从而用有限 token 表示无限项目。
为通过 token 序列有效表示数字 ID 项目,前期研究探索了不同的 ID 分配策略。相关研究采用顺序索引直观捕捉协同信息,按时间顺序用连续数字 ID(如 “11138”,“11139”,…,“11405”)表示用户项目,捕捉同一用户交互项目的共现性,但可能存在数据泄漏问题。有研究修正此问题并探索融入项目先验信息(如语义和协同知识)的非平凡索引方法,例如基于层次结构的项目类别构建 ID,使同类别项目拥有相似 ID,经验证在生成式推荐中有效。类似地,SEATER 提出基于树的层次化数字 ID 标识符,使交互相似的项目拥有相似 ID。此外,相关研究还尝试基于项目共现矩阵构建 ID,共现次数多的项目 ID 更相似,有助于生成合适推荐。
尽管区分性数字 ID 在生成式推荐中有效,但其通常缺乏语义信息,导致冷启动问题,且无法利用 LLM 等强生成模型中编码的世界知识。
项目文本元数据(Item’s textual metadata)
为克服数字 ID 的语义缺失,其他研究利用项目文本元数据(如标题),借助 LLM 参数中编码的世界知识,基于项目文本描述的语义更好地理解项目特征。例如:
- 使用电影标题;
- 使用产品名称;
- 使用书名;
- 采用新闻标题;
- 使用歌曲标题;
- 使用项目摘要文本;
- 同时包含在线产品的标题和描述。
尽管利用项目文本元数据显著缓解冷启动问题,但用于有效推荐仍非最优:文本元数据(尤其是描述)可能过长,导致 “语料外” 问题(生成的 token 序列无法匹配任何有效项目标识符)。尽管通过基于距离的方法将生成 token 锚定到现有项目是潜在解决方案,但这会回到基于深度学习的推荐(需计算生成项目与语料库中项目的匹配分数)。
码本(Codebook)
为同时利用语义性并追求唯一短 token 序列,有研究提出在生成式推荐中学习码本构建项目标识符。与生成式搜索中文档标识符的码本类似,推荐领域相关研究聚焦开发专门针对项目的码本。典型地,RQ-VAEs 用于学习码本:输入是从预训练语言模型(如 LLaMA)提取的项目语义表示,输出是生成的 token 序列。码本训练的整体流程与生成式搜索类似(见4.3节)。
沿此方向,TIGER 是代表性工作,通过码本基于项目文本描述生成项目语义ID;LC-Rec 进一步增强生成 ID 的表示,使其与用户偏好和项目文本描述的语义对齐。
然而,基于码本的标识符虽满足语义性和区分度,却存在语义相关性与交互相关性的错位:码本本质上捕捉项目语义相关性(语义相似的项目 ID 相似),ID 表示通过推荐数据训练优化以捕捉交互相关性,但编码相似的项目未必交互相似,从而影响用户行为学习。
多维度标识符(Multi-facet identifier)
为克服先前标识符策略的问题,多维度标识符被提出,旨在兼顾语义性和区分度,同时缓解语义相关性与交互相关性的错位。融入语义(如项目标题)可利用生成模型中编码的世界知识,使用唯一数字 ID 确保区分度以捕捉关键协同信息。此外,为避免文本元数据过长,TransRec 允许生成元数据的子串。子串的使用遵循 4.3 节讨论的 “一对多” 对应关系,可能降低推理效率。
项目标识符总结

表 3 从语义性、区分度、更新难度和训练过程等方面总结不同类型项目标识符的特征。从中可发现:
- 融入语义性使生成式语言模型更好利用世界知识,且标识符更新更简单,有助于提升泛化性和实际部署中的实用性
- 码本和多维度标识符同时实现语义性和区分度,展现出利用预训练生成式语言模型语义和从用户-项目交互中学习协同信息的潜力
然而,码本需额外的 “项目到标识符” 训练和辅助对齐以赋予生成标识符语言模型中的语义,而多维度标识符天然利于结合数字 ID 和描述以改进生成式推荐。
5.4、训练
在推荐数据上训练生成式推荐模型涉及两个主要步骤:文本数据构建和模型优化。
- 文本数据构建:将推荐数据转换为带文本输入输出的样本,输入输出的选择取决于学习目标。多数方法可直接基于预定义项目标识符构建文本数据,而基于码本的方法需在文本数据构建前进行“项目到标识符”训练(通常利用RQ-VAE将项目内容表示映射为量化码词作为项目标识符)。
- 模型优化:现有研究通常利用语言建模中的生成式训练优化模型 —— 给定构建的文本输入输出样本,生成式训练最大化目标输出 token 在输入条件下的对数似然。根据学习目标,生成式推荐的生成式训练分为两类:
- 用户到标识符训练(user-to-identifier training):训练生成模型学习匹配能力,输入为用户建模结果,输出为下一个项目标识符,是生成式推荐的核心训练方向,所有生成式推荐方法均用于项目检索。
- 辅助对齐(auxiliary alignment):针对利用码本学习语义感知项目标识符的方法,量化码词与自然语言语义可能存在鸿沟,需额外训练样本构建以强化项目内容与标识符的对齐,大致分为两类:
- 内容到标识符或标识符到内容:输入输出对为同一项目的标识符和文本内容,二者可互换输入输出
- 用户到内容:通过将用户建模结果与下一个项目内容配对,隐式对齐项目标识符与内容
尽管各种训练策略有效适配生成模型于推荐任务,但训练成本通常高昂(尤其对 LLaMA 等 LLM)。近期研究聚焦模型架构修改和基于 LLM 的推荐数据修剪以提升训练效率。
5.5、推理
为实现项目推荐,生成模型在推理阶段执行生成锚定(generation grounding):基于自然语言用户建模结果,通过波束搜索自回归生成项目标识符。生成分为两类:
自由生成(Free generation)
每一步生成时,模型在整个词表中搜索,选择概率最高的前 $K$ 个 token 作为下一步输入。但搜索整个词表可能导致生成语料外标识符,使推荐无效。早期研究利用精确匹配锚定,生成后简单丢弃无效标识符,但因无效标识符导致准确率低下(尤其对基于文本元数据的标识符)。BIGRec 提出通过生成 token 序列表示与项目表示的 L2 距离,将生成标识符锚定到有效项目,确保每个生成标识符对应有效项目标识符。
受限生成(Constrained generation)
相关研究探索受限生成:
- 利用 Trie(前缀树)确保生成有效标识符,但严格从首 token 开始生成,推荐准确率高度依赖前几个生成 token 的准确性
- TransRec 利用 FM-index 实现无位置限制的受限生成,允许从有效标识符的任意位置生成 token,生成的有效 token 通过多视图聚合锚定到有效标识符
除要求生成现有项目的典型推荐外,另一研究方向利用模型生成能力创造全新项目(如生成个性化服装,为时尚工厂提供指导)。此场景采用自由生成,使推荐系统充分释放生成潜力。
5.6、总结
方法总结
从用户建模、项目标识符、主干模型、生成方式、数据集和推荐领域总结当前生成式推荐方法:
- 用户建模:现有方法通常融入任务描述和用户历史交互,部分方法额外利用用户画像、上下文信息和外部知识。
- 项目标识符:不同标识符类型满足 5.3 节讨论的不同标准,采用更大规模 LLM 的方法通常使用文本元数据作为标识符,以利用 LLM 中编码的丰富世界知识。
随着跨领域推荐数据集的探索,生成式推荐方法在实际应用中展现出强适用性和泛化能力。
时间线总结

如图所示,项目标识符是生成式推荐的关键组件,其演化经历四个阶段:
- 文本元数据标识符:最早的生成式推荐工作 LMRecSys 采用项目标题作为标识符
- 数字 ID 标识符:2022 年 P5 引入数字 ID,提出多任务训练的统一生成式推荐框架
- 改进的数字 ID 标识符:2023 年出现 RecSysLLM(带掩码语言建模)、SEATER(树状数字ID)等
- 多维度标识符:2023 年末 TransRec 提出兼顾语义性和区分度的多维度标识符
2023 年 ChatGPT 诞生后,生成式推荐研究激增,围绕四类标识符在训练策略(如 GenRec、BIGRec)、用户建模(如 InstructRec)、受限生成(如 TransRec)和训练效率(如 DEALRec)等方向展开广泛探索。
生成式推荐之外的 LLM 推荐应用
- LLM 作为特征提取器:
- 为传统推荐模型获取增强特征
- 通过最后 token 的线性映射预测项目概率分数,等价于将 LLM 隐藏状态作为用户表示
- LLM 用于点击率(CTR)任务:输入用户和目标项目信息,输出 “yes” 或 “no” 表示正负样本,推理时对输出层的两个 token 执行 softmax,取 “yes” 概率作为预测分数。
6、讨论
6.1、生成式搜索与推荐的区别
- 输入长度差异:
- 生成式搜索输入为短查询,附加处理少;生成式推荐需关键的 “用户建模” 步骤,需将任务描述、历史交互、用户画像等信息转换为尽可能保留原始信息的文本序列,且输入通常冗长(如图 4(a) 所示,生成式推荐的输入 token 数显著多于生成式搜索),对训练计算资源和推理效率(尤其对 LLM)提出更高挑战
- 交互密度差异:
- 搜索数据中仅部分文档有查询标签,而推荐数据中几乎所有项目均有用户交互(除冷启动项目)。如图 4(b) 所示,每个文档关联的查询数 < 1,而每个项目平均交互数 > 10。高交互密度使生成式推荐可充分训练每个项目,而生成式搜索因文档交互密度低,难以记忆未曝光文档,导致性能受限
- “语义” 含义差异:
- 搜索中查询与文档的相关性依赖语义相似性;推荐中项目内容重要性低于协同信息,二者 “语义” 内涵不同,导致标识符要求不同——生成式搜索的标识符需准确表示文档内容,而生成式推荐的标识符应强调项目协同信息(如生成式搜索中 “学习分词文档内容” 有效,但生成式推荐需在分词阶段融入额外协同信息)
6.2、生成式搜索与推荐的开放性问题
- LLM 中文档和项目的更新:
LLM 依赖训练时记忆的文档/项目与标识符映射,难以检索或推荐未见过的新文档/项目。重新训练 LLM 需大量计算资源,而搜索和推荐系统每日新增海量内容,亟需高效方法更新 LLM 记忆。 - 多模态和跨模态生成式搜索与推荐:
当前生成范式主要依赖语言模型,难以处理图像、音频、视频等多模态信息检索(如基于查询检索图像/视频、生成式多模态检索含图文的网页、多模态推荐)。尽管等初步尝试,仍需更多研究。 - 生成式搜索与推荐的上下文学习:
LLM 的上下文学习能力(少样本/零样本学习)尚未充分应用于生成式搜索与推荐——当前方法仍依赖领域数据微调,随 LLM 规模增大,微调成本高昂。挑战在于探索零样本/少样本方法,减少对大规模微调的依赖。 - 大规模召回:
生成式搜索与推荐通常用波束搜索生成列表(波束大小为 $k$ 时生成 $k$ 个结果),但自回归生成效率随 $k$ 增大而下降,导致当前系统无法实现大规模召回,需探索新的解码策略。
6.3、未来信息获取范式展望:内容生成
搜索和推荐系统的传统范式是从有限集合中检索/推荐项目,而生成式 AI 的发展引入新范式——直接生成内容(如文档、图像、个性化项目),即使其此前未存在于网络中:
- 搜索引擎 vs 生成式语言模型:
生成式模型(如 ChatGPT、Gemini)可提供更精准的多页内容总结和对话式交互,但存在信息更新滞后和幻觉问题。 - 图像搜索 vs 图像生成:
生成模型(如 GAN、扩散模型)可根据用户需求生成个性化图像,尤其适合创意场景,但可能生成不符合物理规则的内容。 - 推荐中的项目生成:
通过内容改编(如按用户偏好修改现有项目)或内容创造(生成全新个性化项目),补充传统推荐中的人类生成内容,推动个性化 AI 生成内容(AIGC)发展。