LLM:巨人的肩膀 -- 经验和教训

Posted by OAA on April 22, 2025

本系列关注 AI 领域内大师观点前瞻

1、欢迎来到经验时代

本章节翻译自:Welcome to the Era of Experience

1.1、摘要

我们正站在人工智能新时代的门槛上,这个时代有望实现前所未有的能力水平。新一代智能体将通过主要从经验中学习,获得超越人类的能力。本文探讨了定义这一即将到来的时代的关键特征。

1.2、人类数据时代

近年来,人工智能(AI)通过对海量人类生成数据的训练,以及基于人类专家示例和偏好的微调,取得了显著进步。大型语言模型(LLM)便是这种方法的典型代表,它们已实现了广泛的通用性。单个 LLM 如今能执行从写诗、解决物理问题到诊断医疗问题、总结法律文件等多种任务。

然而,尽管模仿人类足以将许多人类能力复制到胜任水平,但仅靠这种方法,在许多重要主题和任务上尚未(且可能无法)实现超人智能。在数学、编程和科学等关键领域,从人类数据中提取的知识正迅速接近极限。大多数高质量数据源——那些真正能提升强大智能体性能的数据源——要么已被耗尽,要么即将被耗尽。仅依赖人类数据的监督学习所推动的进步速度显然正在放缓,这表明需要一种新方法。此外,新定理、新技术或科学突破等有价值的新洞见,超出了人类当前的理解边界,无法被现有人类数据捕获。

1.3、经验时代

要实现重大突破,需要新的数据来源。这种数据的生成方式必须随着智能体能力的增强而持续改进;任何静态的合成数据生成程序都会很快被超越。这可以通过让智能体从自身经验中持续学习来实现——即通过智能体与环境交互生成的数据。人工智能正处于一个新时期的边缘,经验将成为能力提升的主要媒介,并最终使当今系统中使用的人类数据规模相形见绌。

这一转变可能已经开始,即使对于代表 “以人类为中心” AI 的大型语言模型也是如此。数学领域的一个例子是 AlphaProof,它最近成为首个在国际数学奥林匹克竞赛中获奖的程序,超越了以人类数据为中心的方法。最初接触人类数学家多年来创建的约十万个形式证明后,AlphaProof 的强化学习(RL)算法通过与形式证明系统的持续交互,又生成了数亿个证明。这种对交互经验的关注使 AlphaProof 能够探索现有形式证明之外的数学可能性,从而发现新的挑战性问题的解决方案。非形式数学领域也通过用自我生成的数据取代专家生成的数据取得了成功;例如,DeepSeek 的最新研究 “凸显了强化学习的力量与美感:我们无需明确教导模型如何解决问题,只需为其提供正确的激励,它就能自主开发高级问题解决策略。”

我们认为,一旦充分利用经验学习的潜力,将涌现出令人难以置信的新能力。这个经验时代的特征可能包括:智能体和环境除了从海量经验数据中学习外,还将在以下几个维度突破以人类为中心的AI系统的局限:

  • 智能体将沉浸在连续的经验流中,而非碎片化的交互片段
  • 它们的行动和观察将深度锚定在环境中,而非仅通过人类对话交互
  • 它们的奖励将基于对环境的经验,而非人类的先入之见
  • 它们将针对经验进行规划和/或推理,而非仅以人类语言进行推理

我们相信,当今的技术辅以恰当选择的算法,已为实现这些突破提供了足够强大的基础。此外,AI 社区对这一目标的追求将推动相关方向的新创新,迅速将 AI 推向真正的超人智能。

1.4、经验流

经验驱动的智能体可以在整个 “生命周期” 中持续学习。在人类数据时代,基于语言的 AI 主要关注短交互片段:例如,用户提问后(可能经过几步思考或工具使用),智能体给出响应。通常,片段之间几乎没有信息传递,无法实现随时间的适应。此外,智能体仅以当前片段内的结果为目标,例如直接回答用户问题。相比之下,人类(及其他动物)存在于持续多年的行动和观察流中。信息在整个经验流中传递,其行为通过过往经验进行自我纠正和改进。此外,目标可能涉及经验流中远期的行动和观察,例如人类可能选择行动以实现改善健康、学习语言或取得科学突破等长期目标。

强大的智能体应拥有类似人类的长期经验流。这使它们能够采取行动实现未来目标,并随时间持续适应新的行为模式。例如,连接用户可穿戴设备的健康管理智能体可在数月内监测睡眠模式、活动水平和饮食习惯,进而提供个性化建议、鼓励,并根据长期趋势和用户特定健康目标调整指导方案。类似地,个性化教育智能体可跟踪用户的语言学习进度,识别知识缺口,适应其学习风格,并在数月甚至数年内调整教学方法。此外,科学研究智能体可追求发现新材料或减少二氧化碳等宏大目标,通过长期分析真实世界观测数据、开发和运行模拟,以及建议实际实验或干预措施来实现目标。

在上述案例中,智能体采取一系列步骤以最大化长期目标的成功。单个步骤可能不会立即产生效益,甚至短期内可能有害,但总体上有助于长期成功。这与当前仅对请求提供即时响应、无法衡量或优化行动对环境的长期影响的 AI 系统形成鲜明对比。

1.5、行动与观察

经验时代的智能体将在现实世界中自主行动。人类数据时代的 LLM 主要关注 “人类特权” 的行动和观察——向用户输出文本并接收用户输入的文本。这与自然智能显著不同:动物通过运动控制和传感器与环境交互,其与其他动物的交流(包括人类)也通过与其他感知运动控制相同的接口进行,而非特权通道。

长期以来,人们认识到 LLM 也可在数字世界中执行操作(例如调用 API)。最初,这些能力主要来自人类工具使用的示例,而非智能体自身的经验。但编码和工具使用能力正越来越依赖执行反馈 —— 智能体实际运行代码并观察结果。最近,新一代原型智能体开始通过人类操作计算机的通用接口与计算机交互,标志着从完全依赖人类特权通信向智能体自主交互的转变。这类智能体能够主动探索世界、适应变化的环境,并发现人类可能从未想到的策略。这些更丰富的交互将提供自主理解和控制数字世界的手段。

智能体可能使用 “人类友好” 的行动和观察(如用户界面)以自然促进与用户的沟通协作,也可能采取 “机器友好” 的行动(如执行代码和调用 API)以自主实现目标。在经验时代,智能体还将通过数字接口与现实世界交互,例如科学智能体可监测环境传感器、远程操作望远镜或控制实验室机械臂以自主进行实验。

1.6、奖励

如果经验驱动的智能体可以从外部事件和信号(而非仅人类偏好)中学习,会发生什么?以人类为中心的LLM通常基于人类先入之见优化奖励:专家观察智能体的行动并判断其优劣,或从多个候选行动中选择最佳方案。例如,专家可能评判健康智能体的建议、教育助手的教学或科学智能体的实验提议。这些奖励或偏好在未考虑行动对环境影响的情况下由人类决定,意味着它们未直接锚定现实世界。依赖人类先入之见通常会为智能体性能设置不可逾越的上限:智能体无法发现人类评估者未重视的更好策略。要发现超越人类现有知识的新思想,必须使用 “基于现实的奖励” —— 来自环境本身的信号。

例如,健康助手可将用户的健康目标转化为基于静息心率、睡眠时长和活动水平等信号的奖励;教育助手可使用考试成绩为语言学习提供现实奖励。类似地,以减少全球变暖为目标的科学智能体可基于二氧化碳水平的实测数据设置奖励,以发现更强材料为目标的智能体可结合材料模拟器的拉伸强度、杨氏模量等测量值设置奖励。

基于现实的奖励可能来自作为智能体环境一部分的人类(经验与人类数据并非完全对立。例如,狗完全通过经验学习,而人类互动是其经验的一部分)。例如,用户可反馈蛋糕是否美味、运动后疲劳程度或头痛疼痛程度,使助手智能体能够优化食谱、调整健身建议或改进用药推荐。此类奖励衡量智能体行动在环境中的实际后果,最终应比人类专家对食谱、运动计划或治疗方案的先验评判提供更好的帮助。

如果奖励不来自人类数据,那它们从何而来?一旦智能体通过丰富的行动和观察空间与世界连接(见上文),将不乏基于现实的信号作为奖励基础。事实上,世界充满了成本、错误率、饥饿感、生产力、健康指标、气候指标、利润、销量、考试成绩、成功率、访问量、产量、库存、点赞数、收入、愉悦/痛苦、经济指标、准确性、功率、距离、速度、效率、能耗等大量信号。此外,特定事件的发生或原始行动-观察序列的特征还会产生无数其他信号。

原则上,可创建多种不同智能体,每个针对一种基于现实的信号优化奖励。有一种观点认为,即使是单一奖励信号,若优化得当,也足以催生广泛的智能能力(“奖励即足够” 假说认为,智能及其相关能力可通过奖励最大化自然涌现。这可能包括包含人类互动的环境,以及基于人类反馈的奖励)。这是因为在复杂环境中实现简单目标通常需要掌握多种技能。

然而,单一奖励信号的优化表面上似乎无法满足通用 AI 的需求 —— 通用 AI 需可靠地导向用户期望的任意行为。那么,对基于现实(非人类)奖励信号的自主优化是否与现代 AI 系统的需求相悖?我们认为未必如此,并简要提出一种可能满足这些需求的方法(其他方法也可能存在)。

核心思想是在用户引导下,基于现实信号灵活调整奖励。例如,奖励函数可由神经网络定义,该网络将智能体与用户和环境的交互作为输入,输出标量奖励。这使奖励能够根据用户目标选择或组合环境信号。例如,用户设定“改善健康”的宽泛目标,奖励函数可返回基于心率、睡眠时长和步数的函数;用户设定 “帮助我学习西班牙语”,奖励函数可返回用户的西班牙语考试成绩。

此外,用户可在学习过程中提供反馈(如满意度),用于微调奖励函数。奖励函数随时间适应,改进信号选择或组合方式,并识别和纠正偏差。这也可理解为双层优化过程:顶层目标是优化用户反馈,底层是优化来自环境的现实信号(在这种情况下,人们也可将基于现实的人类反馈视为构成智能体整体目标的单一奖励函数 —— 通过构建和优化基于丰富现实反馈的内在奖励函数,该目标得以最大化)。通过这种方式,少量人类数据可促进大量自主学习。

1.7、规划与推理

经验时代会改变智能体的规划和推理方式吗?近年来,LLM 通过 “思维链” 推理取得显著进展 —— 在输出响应前进行一系列思考。从概念上讲,LLM 可作为通用计算机:通过在上下文中添加标记,LLM 可在输出最终结果前执行任意算法。在人类数据时代,这些推理方法被明确设计为模仿人类思维过程,例如提示 LLM 生成类似人类的思维链、模仿人类思考轨迹,或强化匹配人类示例的思考步骤。推理过程还可进一步微调,以生成符合人类专家判定的正确答案的思考轨迹。

然而,人类语言极不可能是通用计算机的最优实例。必然存在更高效的思维机制,可能使用符号、分布式、连续或可微计算等非人类语言。自学习系统原则上可通过从经验中学习如何思考,发现或改进此类方法。例如,AlphaProof 以与人类数学家截然不同的方式学习形式证明复杂定理。此外,通用计算机原理仅涉及智能体的内部计算,未将其与外部世界的现实连接。训练来模仿人类思维或匹配人类专家答案的智能体,可能继承数据中根深蒂固的错误思维方式(如错误假设或固有偏见)。例如,若智能体基于 5000 年前的人类思维和专家答案训练,可能用泛灵论推理物理问题;1000 年前用有神论;300 年前用牛顿力学;50 年前用量子力学。超越每种思维方式都需要与现实世界交互:提出假设、进行实验、观察结果并相应更新原理。类似地,智能体必须锚定现实世界数据以推翻错误思维,这种锚定提供了反馈循环,使其能对照现实检验继承的假设,并发现不受当前人类主流思维限制的新原理。没有这种锚定,无论多复杂的智能体都将成为现有人类知识的 “回音室”。要突破这一点,智能体必须主动与世界互动、收集观测数据,并利用这些数据迭代完善理解——这在许多方面类似于推动人类科学进步的过程。

将思维直接锚定外部世界的一种可能方法是构建 “世界模型”,预测智能体行动对世界的影响(包括奖励预测)。例如,健康助手考虑推荐本地健身房或健康播客时,其世界模型可预测用户心率或睡眠模式随后的变化,以及未来与用户的对话。这使智能体能够基于自身行动及其对世界的因果影响进行规划。随着智能体在经验流中持续与世界交互,其动态模型不断更新以纠正预测误差。有了世界模型,智能体可应用可扩展规划方法,提升预测性能。

规划与推理方法并非互斥:智能体可在规划过程中使用内部 LLM 计算选择每个行动,或模拟评估这些行动的后果。

1.8、为何是现在?

从经验中学习并非新事物。强化学习系统此前已在模拟器中掌握大量复杂任务(这些任务具有明确的奖励信号,可大致称为 “模拟时代”,见下图)。例如,RL 方法通过自我对弈在双陆棋、围棋、国际象棋、扑克、军棋等棋盘游戏,Atari、星际争霸II、Dota 2、GT 赛车等电子游戏,魔方还原等灵巧操作任务,以及数据中心冷却等资源管理任务中达到或超越人类水平。此外,AlphaZero 等强大 RL 智能体在神经网络规模、交互经验数量和思考时间上展现出令人印象深刻且可能无限的扩展性。然而,基于该范式的智能体未能跨越从模拟(具有单一明确奖励的封闭问题)到现实(具有多元模糊奖励的开放问题)的鸿沟。

人工智能主导范式的简要时间线。纵轴表示该领域专注于强化学习的总努力和计算资源的比例

人类数据时代提供了一个有吸引力的解决方案:海量人类数据包含针对多样化任务的自然语言示例,基于这些数据训练的智能体实现了比模拟时代更广泛的能力。因此,经验 RL 方法被普遍放弃,转向更通用的以人类为中心的 AI。

但这一转变也让我们失去了一些东西:智能体自主发现知识的能力。例如,AlphaZero 为国际象棋和围棋发现了根本性的新策略,改变了人类的游戏方式。经验时代将把这种能力与人类数据时代实现的任务通用性结合起来。如前所述,当智能体能够在现实世界的经验流中自主行动和观察,且奖励可灵活连接到大量基于现实的信号时,这一目标将成为可能。能够与复杂现实行动空间交互的自主智能体,以及可在丰富推理空间中解决开放问题的强大 RL 方法的出现,表明向经验时代的过渡已迫在眉睫。

1.9、强化学习方法

强化学习(RL)有着深厚的自主学习根基,智能体通过与环境的直接交互自我学习。早期 RL 研究催生了一系列强大的概念和算法,例如时间差分学习使智能体能够估计未来奖励,推动双陆棋等任务达到超人性能;基于乐观或好奇心的探索技术帮助智能体发现创造性新行为,避免陷入次优常规;Dyna 算法等方法使智能体能够构建和学习世界模型,规划和推理未来行动;选项(option)和选项内/间学习等概念促进了时间抽象,使智能体能够在更长时间尺度上推理,并将复杂任务分解为可管理的子目标。

然而,以人类为中心的 LLM 的兴起将焦点从自主学习转向利用人类知识。RLHF(人类反馈强化学习)和语言模型与人类推理对齐的方法等技术被证明极其有效,推动了 AI 能力的快速进步。这些方法虽强大,却常绕过 RL 的核心概念:RLHF 通过引入人类专家替代机器估计值,规避了值函数的需求;人类数据的强先验减少了对探索的依赖;以人类为中心的推理降低了对世界模型和时间抽象的需求。

但这种范式转变可谓 “把婴儿和洗澡水一起倒掉”。以人类为中心的 RL 虽实现了前所未有的行为广度,却也为智能体性能设置了新上限——智能体无法超越人类现有知识。此外,人类数据时代主要关注为短片段、非锚定的人类交互设计的 RL 方法,不适合长期、锚定的自主交互流。

经验时代为重新审视和改进经典 RL 概念提供了机会。这个时代将带来基于观测数据灵活锚定奖励函数的新方法,重新审视值函数及其从未完成的长经验流中估计的方法,开发发现与人类先验截然不同的新行为的现实探索方法,构建捕捉锚定交互复杂性的新型世界模型,以及使智能体能够在更长时间尺度上基于经验推理的时间抽象新方法。通过在 RL 基础上构建并将其核心原理适应新时代的挑战,我们可释放自主学习的全部潜力,为真正的超人智能铺平道路。

1.10、影响

经验时代的到来 —— AI 智能体通过与世界的交互学习 —— 预示着一个与我们所见截然不同的未来。这一新范式在带来巨大潜力的同时,也提出了需要谨慎考虑的重要风险和挑战,包括但不限于以下几点。

积极方面,经验学习将解锁前所未有的能力。在日常生活中,个性化助手将利用连续的经验流,适应个人的健康、教育或职业需求,在数月或数年的时间尺度上追求长期目标。最具变革性的可能是科学发现的加速:AI 智能体将自主设计和开展材料科学、医学或硬件设计等领域的实验,通过从自身实验结果中持续学习,快速探索知识新前沿,以前所未有的速度开发新材料、药物和技术。

然而,这一新时代也带来了重大且新颖的挑战。人类能力的自动化虽有望提高生产力,但也可能导致失业。智能体甚至可能展现此前被认为是人类专属的能力,如长期问题解决、创新和对现实世界后果的深刻理解。

此外,尽管存在对任何 AI 潜在滥用的普遍担忧,能够长期自主与世界交互以实现长期目标的智能体可能引发更高风险。默认情况下,这减少了人类干预和调节智能体行动的机会,因此需要极高的信任和责任标准。脱离人类数据和思维模式也可能使未来 AI 系统更难解释。

然而,在承认经验学习会增加某些安全风险、需要进一步研究以确保向经验时代的安全过渡的同时,我们也应认识到它可能带来的重要安全益处:

  1. 环境适应性:经验驱动的智能体知晓自身所处环境,其行为可随环境变化而适应。任何预编程系统(包括固定 AI 系统)可能忽视环境背景,无法适应部署后的变化世界(如关键硬件故障、疫情引发的社会快速变革、新科学发现引发的技术爆发)。相比之下,经验智能体可观察并学习规避故障硬件、适应社会变革或接纳新科技,甚至识别自身行为引发的人类担忧、不满或痛苦,并适应性调整以避免负面后果
  2. 奖励函数迭代修正:智能体的奖励函数可通过经验适应(如前文所述的双层优化)。重要的是,错位的奖励函数可通过试错逐步修正。例如,无需盲目优化 “最大化回形针” 等信号,奖励函数可在回形针生产耗尽地球资源前,基于人类担忧的迹象进行调整。这类似于人类相互设定目标,并在观察到系统被滥用、忽视长期福祉或引发不良后果时调整目标(尽管与人类目标设定一样,无法保证完全对齐)
  3. 现实约束:依赖物理经验的进步本质上受限于在现实世界执行行动和观察后果的时间。例如,即使有AI辅助设计,新药开发仍需现实世界试验,无法一蹴而就。这可能为AI自我改进的速度提供自然制动

1.11、结论

经验时代标志着 AI 发展的关键时刻。在当今强大基础上,智能体将超越人类数据的局限,越来越多地从与世界的交互中学习。它们将通过丰富的观察和行动自主与环境交互,在终身经验流中持续适应,目标可导向任何基于现实的信号组合,利用强大的非人类推理,并构建基于行动对环境影响的规划。最终,经验数据将在规模和质量上超越人类生成的数据。

这一范式转变,辅以 RL 算法的进步,将在许多领域解锁超越人类的新能力。

2、苦涩的教训

本章节翻译自:The Bitter Lesson

从 70 年的人工智能研究中可以汲取的最大教训是:利用计算的通用方法最终会成为最有效的手段,而且优势巨大。其根本原因在于摩尔定律 —— 或者更广义地说,在于单位计算成本持续呈指数级下降的趋势。大多数 AI 研究在开展时,仿佛假定智能体可用的计算资源是恒定的(在这种情况下,利用人类知识似乎成为提升性能的唯一途径之一),但只要时间稍长于一个典型研究项目的周期,海量的额外计算资源必然会涌现出来。为了在短期内实现显著改进,研究者往往试图利用自己对特定领域的人类知识,但从长远来看,唯一重要的是对计算资源的利用。这两者未必相互对立,但在实践中往往如此:投入到一方的时间必然无法用于另一方,人们在心理上也倾向于对某一种方法产生执着。而且,依赖人类知识的方法往往会让技术复杂化,使其更难适配利用计算的通用方法。AI 研究者后来才痛彻领悟这一教训的案例不胜枚举,回顾其中最典型的几个颇具启发意义。

在计算机国际象棋领域,1997 年击败世界冠军卡斯帕罗夫的方法基于大规模深度搜索。当时,大多数计算机国际象棋研究者对这种方法深感失望 —— 他们此前一直致力于利用人类对国际象棋特殊结构理解的方法。当一种结合专用软硬件的简单搜索方法被证明远胜一筹时,这些依赖人类知识的研究者并未坦然接受失败。他们声称 “蛮力” 搜索或许这次赢了,但绝非通用策略,况且人类下棋并非如此。这些研究者希望基于人类输入的方法获胜,未能如愿时便倍感失望。

类似的研究轨迹在计算机围棋领域再次上演,只是延迟了 20 年。最初人们耗费大量精力试图通过人类知识或围棋的特殊规则规避搜索,但一旦大规模有效搜索被应用,所有这些努力都显得无关紧要,甚至适得其反。同样重要的是通过自我对弈学习价值函数的方法(这在许多其他游戏甚至国际象棋中都有应用,尽管 1997 年首胜世界冠军的程序中学习的作用并不显著)。自我对弈学习以及广义上的学习,与搜索一样,都能让海量计算发挥作用。搜索和学习是AI研究中利用海量计算的两类最重要技术。在计算机围棋和国际象棋中,研究者最初都致力于利用人类理解(以减少搜索需求),而许久之后,拥抱搜索与学习才带来了更大的成功。

在语音识别领域,20 世纪 70 年代 DARPA 赞助的早期竞赛中,参赛者提出了大量利用人类知识的特殊方法——涉及词汇、音位、人类声道等知识。另一边则是基于隐马尔可夫模型(HMM)、更具统计性质且需要更多计算的新方法。统计方法再次击败了依赖人类知识的方法,这引发了整个自然语言处理领域的重大变革。数十年来,统计与计算逐渐主导了该领域。近年来语音识别中深度学习的崛起,正是这一持续趋势的最新阶段。深度学习方法更少依赖人类知识,而是利用更多计算资源和大规模训练数据,打造出显著更优的语音识别系统。与游戏领域类似,研究者总是试图让系统按照他们想象中人类大脑的工作方式运行 —— 将自身知识嵌入系统 —— 但最终证明这适得其反:当摩尔定律带来海量计算资源,且人们找到有效利用方式时,这种做法不仅浪费了研究者的大量时间,还阻碍了进步。

计算机视觉领域也经历了相似历程。早期方法将视觉理解为边缘检测、广义圆柱体建模或 SIFT 特征提取,但如今这些已被摒弃。现代深度学习神经网络仅使用卷积和某些不变性概念,却表现得更为出色。

这是一个深刻的教训。作为一个领域,我们尚未彻底领悟这一点,因为仍在重复同样的错误。要认清并有效避免这些错误,我们必须理解它们的吸引力。我们必须铭记这个苦涩的教训:从长远来看,将人类自认为的思维方式嵌入系统行不通。这一教训基于历史观察:

  1. AI研究者常试图将知识内置到智能体中
  2. 这在短期内总能见效,且让研究者获得个人满足感
  3. 但长远来看,性能会陷入瓶颈,甚至阻碍进一步发展
  4. 最终突破往往来自相反的路径——通过搜索和学习扩展计算规模

这种成功带着苦涩滋味,且常未被充分理解,因为它颠覆了备受青睐的以人为中心的方法。

从这一苦涩教训中应领悟的第一点,是通用方法的强大力量 —— 这类方法能随着计算资源的增加持续扩展,即便可用计算量变得极大。目前看来,能以这种方式无限扩展的两类方法正是搜索和学习。第二点是:人类心智的实际内容极其复杂,且无法简化;我们应当停止寻找思考心智内容的 “简单方式”,比如关于空间、物体、多智能体或对称性的简单理论。所有这些都是外部世界中任意的、本质复杂的组成部分,不应被内置到系统中 —— 它们的复杂性无穷无尽。相反,我们只需内置能够发现和捕捉这种任意复杂性的元方法。这些方法的核心在于能够找到良好的近似,但寻找过程应由方法自身完成,而非人类代劳。我们希望 AI 智能体能像人类一样自主发现知识,而非装载人类已有的发现。内置人类的发现只会让我们更难理解 “发现过程” 本身该如何实现。

参考文献

  1. The Bitter Lesson
  2. Welcome to the Era of Experience