夜上海论坛｜2025魔都夜生活全攻略：夜上海品茶工作室实时更新

LLM将是又一个“惨痛教训”？强化学习之父Sutton再放炮：万亿美金AI泡沫可能破裂

炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！

（来源：网易科技）

LLM将是又一个“惨痛教训”？强化学习之父Sutton再放炮：万亿美金AI泡沫可能破裂

Sutton老爷子最新采访讨论《LLM是否吸取了‘惨痛教训’？》，这次讨论算是前一段时间老爷子《LLM是死路一条》的采访的补充

参与讨论的嘉宾：

Sutton老爷子

Sendhil Mullainathan：麦克阿瑟天才奖获得者、麻省理工学院教授

Niamh Gavin：应用人工智能科学家、Emergent Platforms 首席执行官

Suzanne Gildert：Nirvanic Consciousness Technologies 创始人兼首席执行官

LLM将是又一个“惨痛教训”？强化学习之父Sutton再放炮：万亿美金AI泡沫可能破裂

LLMs是否真正遵循了“惨痛教训” (The Bitter Lesson) 的原则，从而能够实现其被大肆宣传的巨大潜力？图灵奖得主，强化学习之父 Richard Sutton认为答案是否定的。他主张，LLMs 过度依赖于模仿和提炼有限的人类知识（例如整个互联网的文本数据），并且需要大量的人工雕琢与微调。这种方法违背了“惨痛教训”的核心思想——即真正可扩展的、强大的 AI 来自于那些能够充分利用巨大计算能力的通用方法（如搜索和学习），而非依赖于人类的先验知识。因此，Sutton 预测，LLMs 的发展将很快遇到瓶颈，其能力上限远比人们想象的要近，当前围绕它们产生的巨大投资和期望，最终可能导致泡沫的破灭

LLM是否吸取了“惨痛教训”？

这场被主持人 Ajay Agrawal 形容为“万亿美元级别观点冲突”的讨论，源于 AI 社区内部一个深刻的理念分歧。辩论的核心是一个术语：“惨痛教训信徒” (bitter lesson pilled)，这个词源自 Sutton 老爷子在 2019 年发表的一篇影响深远的文章——《惨痛教训》(The Bitter Lesson)

什么是“惨痛教训”？

根据 Sutton 的阐述，The Bitter Lesson总结了 AI 研究七十年来的一个反复出现的模式：

研究人员最初总是试图将人类的知识、直觉和理解构建到 AI 系统中。例如，在计算机视觉领域，早期研究者会尝试为系统编写关于边缘、纹理和形状的明确规则；在棋类游戏中，他们会编写复杂的评估函数来体现人类棋手的策略

然而，从长远来看，这些依赖人类知识的方法最终总会被那些更通用的、利用大规模计算能力的方法所超越。这些通用方法主要包括两大类：搜索 (Search) 和学习 (Learning)

搜索是指系统通过探索海量的可能性来找到最优解，就像 AlphaGo 探索无数种棋局走法一样。学习则是指系统从原始数据或与环境的交互中自动提取模式和知识，而无需人类为其预设规则

惨痛的教训在于，研究人员花费大量心血构建的精巧知识体系，其扩展性非常有限。而随着计算成本的持续指数级下降（摩尔定律），那些能够充分利用计算能力进行大规模搜索和学习的“蛮力”方法，最终总是能取得更好的性能。Sutton 明确指出，如果你将所有的赌注都押在人类知识这个篮子里，那就需要格外小心，因为人类知识本身是无法像计算那样无限扩展的

LLMs 为何被认为未能吸取“惨痛教训”？

Sutton 在前段时间与 Dwarkesh Patel 的播客访谈中明确表示，他认为当前的 LLMs 并未充分吸取这一教训。他的论点可以分解为以下几个层面：

对人类数据的根本依赖：LLMs 的基础训练数据是整个互联网的文本和代码，这本质上是人类知识和行为的集合。它们通过预测下一个词元 (token) 的方式，学习模仿人类的语言模式。这与“惨痛教训”所警示的“依赖人类知识”的做法高度一致

大量的人工雕琢与微调：一个原始的、仅通过预测下一个词元训练出来的 LLM，并不能成为一个好用的工具。为了让它成为一个有用的摘要器、翻译器或问答系统，需要进行大量的后续工作。这包括指令微调 (fine-tuning) 和基于人类反馈的强化学习 (Reinforcement Learning from Human Feedback, RLHF)。在这个过程中，人类操作员会花费大量时间来评估模型的输出、编写高质量的范例，从而将模型“雕琢”成符合人类期望的样子。Sutton 认为，这种对人类专家进行“ad nauseam”（令人厌烦地反复）微调的依赖，是其不可扩展性的一个关键标志

有限的数据源：尽管互联网的数据量极其庞大，但它终究是有限的。Sutton 和其他嘉宾暗示，随着模型规模的增长，LLMs 很快就会耗尽高质量的互联网数据，从而触及其性能的天花板。当模型的发展受限于一个静态、有限的数据集时，它就陷入了“惨痛教训”所描述的困境。

因此，Sutton 的核心观点是，LLMs 当前的成功路径，本质上是又一个将宝押在人类知识上的案例。尽管其规模空前，但其基本方法论存在脆弱性。他预测，这种对人类知识和输入的依赖，将使其在未来被那些能够通过与环境直接交互、从经验中持续学习的系统所超越。这也就引出了关于强化学习与当前主流方法的对比

强化学习与模仿学习

在讨论中，特邀嘉宾 Suzanne Gildert 提出了一个问题，：我们为什么不能构建一个像松鼠大脑一样学习的 AI？

Sutton 曾在播客中提到，如果我们能造出一个心智水平相当于松鼠的系统，那么我们距离实现AGI的目标就已经不远了。这个观点让人感到困惑，因为人类能登上月球，而松鼠只会藏坚果，两者之间似乎存在着天壤之别。然而，Gildert 和 Sutton 的观点是，构建松鼠心智的难度，可能远高于构建一个基于现有方法的、看似强大的 LLM

松鼠心智的核心能力：自主学习

松鼠和当前 AI 系统之间最根本的区别在于学习能力本身

一个真正的智能体，比如松鼠，当你把它放入一个全新的、从未见过的环境中时，它能够自主地开始学习。它会探索环境，理解其中的因果关系，并形成自己的行为策略以达成生存目标（如寻找食物、躲避天敌）

相比之下，我们今天所有的 AI 系统，包括最先进的 LLMs，都不具备这种能力。它们在被部署之前，已经通过一个庞大的静态数据集完成了学习过程。如果你把一个 LLM 放入一个它训练数据中从未包含过的新场景或新用例中，它无法自主地学习和适应。它的能力是“已经学到了什么”，而不是“如何学习新东西”

因此，关键的区别在于“学习”这个动作本身。松鼠的智能体现在其持续学习和适应的能力，而 LLMs 的“智能”则体现在它对已经见过的海量数据的模式识别和复现能力上

强化学习的挑战与现状

理论上，强化学习正是致力于解决这种自主学习问题的框架。RL 的核心思想是让一个智能体在环境中通过试错来学习，通过最大化某种累积的“奖励” (reward) 信号来优化其行为策略。然而，在实践中实现“纯粹的 RL”是极其困难甚至不可能的

奖励函数的定义难题：最大的障碍在于我们无法定义一个通用的、适用于所有情境的奖励函数。奖励函数告诉智能体什么行为是好的，什么是坏的。对于一个特定任务（如下棋），定义奖励很简单（赢了就奖励，输了就惩罚）。但对于一个像松鼠一样需要在复杂现实世界中生存的通用智能体，我们该如何定义“奖励”？是食物、安全感，还是其他更复杂的目标？这个问题的悬而未决，导致纯粹的 RL 难以落地

向模仿学习的退化：由于定义通用奖励函数的困难，研究人员们在实践中往往会退而求其次，采用模仿学习。他们不再让智能体自己探索，而是为其提供专家的演示数据（例如人类驾驶员的驾驶记录），让智能体去模仿这些专家的行为。目前所有看似在进行 RL 的工作，最终都或多或少地变成了模仿学习

整个 LLM 的发展路径可以看作是一种极端形式的模仿。为了解决从零开始学习的“冷启动问题” ，研究人员选择了一个代理方案：直接消化整个互联网。他们假设，人类的书写是思维的良好体现，语言是区分人类与其他物种的关键，因此模仿人类语言应该是一个不错的起点。然而，这种方法从一开始就侧重于利用现有的知识，而非探索未知的世界，这导致了系统更擅长模式识别而非真正的理解，更倾向于模仿而非直觉思维

总而言之，松鼠的智慧代表了一种理想的 AI 范式：一个能够在任何新环境中自主学习的通用智能体。而当前以 LLMs 为代表的系统，则更接近于一种高级的、大规模的监督学习或模仿学习，它们的核心是复现和内化已存在的人类知识，而非从与世界的直接交互中生成新的理解。

模仿输出 vs. 模仿行动：人与 LLM 的根本认知差异

MacArthur 天才奖得主 Sendhil Mullainathan 进一步深化了关于模仿的讨论，他引用了一条 Rich Sutton 转发并高度认可的推文，揭示了人类与 LLM 在模仿方式上的一个微妙而深刻的区别。这个区别或许是理解两者能力差异的关键所在

这条推文的核心思想是：

当人类模仿时，他们模仿的是“输出” (output)，但必须自己“发现” (discover) 达成该输出所需的“行动” (action)

当 LLMs 模仿时，它们直接模仿的是“行动” (action) 本身

Mullainathan 认为，这个区别的核心在于“发现”这个词

人类的模仿：一个构建内在模型的过程

为了阐释这个观点，Mullainathan 举了几个例子：

斑胸草雀 (Zebra Finch) 的鸣唱：一只幼鸟听到成年鸟的歌声（输出），它想要模仿这种声音。但它无法直接看到或感知到成年鸟是如何控制其声带、呼吸和肌肉来发出这种声音的（行动）。因此，幼鸟必须通过自己的声带进行反复的试错和练习，逐步“发现”能够产生同样声音的肌肉控制方法。在这个过程中，它被迫在自己的大脑中建立一个关于“声带肌肉运动”与“产生的声音”之间关系的内在模型

代数证明：一个学生看到老师在黑板上完成了一个代数证明（输出）。即便老师解释了每一步，学生看到的仍然是表层结果。为了真正理解，学生必须用自己的认知机制去思考：老师是如何想到第一步的？为什么选择这个引理而不是另一个？学生需要自己“发现”通往最终答案的逻辑路径。这个过程迫使学生构建关于代数规则和解题策略的内在心智模型

冯·诺依曼与苍蝇问题：Mullainathan 提到了一个关于数学家冯·诺依曼的轶事。在一个经典的谜题中（两辆火车相向而行，一只苍蝇在中间来回飞），冯·诺依曼立刻给出了正确答案。当被问及是否发现了那个可以简化问题的“技巧”时，他回答说：“什么技巧？” 原来，他直接用蛮力计算了那个无穷级数。这个故事说明，即使是面对同一个问题和同一个答案（输出），不同的人可能会通过完全不同的内部认知过程（行动）来达到

在所有这些例子中，人类的模仿都不是简单的复制。我们面对的是一个结果，然后必须调动我们自身的认知或生理器官，去探索和发现能够产生这个结果的一系列行动。这个“发现”的过程，强制我们建立起关于世界如何运作的、更深层次的、具有生成能力的模型

LLMs 的模仿：表层序列的复现

相比之下，LLMs 的模仿方式是根本不同的。当一个 LLM 被训练来预测文本序列中的下一个词元时，它实际上是在直接模仿“行动”。这里的“行动”就是人类作者写下的一个又一个词。它不需要去构建一个关于世界如何运作的复杂模型来“生成”这些词；它只需要学习在给定上文的情况下，哪个词出现的概率最高

Niamh Gavin 指出，LLMs 的自回归机制本质上就像是神经网络的顺序展开，是一个接一个的序列模式激活，而不是一个基于真正目标的、可以被长期优化的函数

Mullainathan 总结说，正因为 LLMs 没有强制去思考在某个行动空间中，哪些行动能够产生我们看到的输出，所以我们有理由怀疑它们是否拥有一个真正稳健的世界模型

当然，在某些领域，AI 确实被迫建立了世界模型，例如在国际象棋或围棋中。在这些领域，算法必须从行动空间（落子）映射到结果空间（胜负），并且通过自我对弈等方式从经验中学习。而这恰恰不是在静态文本语料库上训练的语言模型的主要学习方式

这个关于模仿方式的深刻区别，为 Sutton 的“惨痛教训”论点提供了认知层面的解释：仅仅模仿人类行为的表层序列，可能永远无法通向对世界因果关系的真正理解，而后者正是AGI的核心

万亿美元的观点冲突

这场讨论不仅仅是技术路线之争，更深刻地反映了 AI 领域的社会学和经济学动态。正如主持人 Ajay Agrawal 所言，这不仅仅是学术观点的分歧，而是一场“万亿美元级别的观点冲突”。巨额的资本投入正在深刻地影响着科学研究的方向和节奏

资本驱动下的“时尚”与路径依赖

Rich Sutton 坦言，当他谈论“惨痛教训”时，他不仅在做一个科学论断，更是在评论这个领域的社会学。他观察到，AI 领域存在着时尚，某些思想和方法会在特定时期变得极具经济实力，从而主导整个领域的发展

LLMs 作为主导范式：当前，LLMs 就是这种主导范式。数千亿美元的资金正涌入这一领域，这种经济力量改变了科学讨论的格局。传统 AI 思想中，目标和经验一直是核心；而 LLM 的兴起带来了一种全新的、甚至是激进的主张：我们不需要明确的目标，只需要足够大规模地模仿人类，某种质变就会发生，从而涌现出理解和推理能力

话语权的转变：Sutton 认为，“通过模仿就能获得理解”是一种需要非凡证据来支持的非凡主张。然而，在当前的舆论环境中，坚持经验和目标重要性的传统观点，反而被视为是极端的。讨论的中心已经无可避免地转移到了 LLMs 上

投资回报的压力与泡沫风险：巨大的投资带来了巨大的回报压力。有人表示，如果 AI 的投资需要在 15 年后才能看到回报，那将是一场灾难。因为已经许下了太多承诺，如果这些技术不能在 3 年内产生足够的回报，就可能引发一场信心的崩盘和泡沫的破裂。Sutton 认为，这正是我们目前所处的境地。LLMs 无疑会在某些方面非常有用，但它们很可能无法证明投入其中的巨额资本是合理的，从而导致一场期望的破灭

工程与研究的张力：创新者的困境

Niamh Gavin 作为身处行业前沿的实践者，为这种现象提供了一个内部视角。她指出了研究和工程之间存在的持续张力，这种张力解释了为什么整个行业似乎会“梦游般地走向自己的灭亡”，反复陷入相似的困境

修补而非重构：当模型在实践中遇到瓶颈或限制时，理想的做法是退后一步，从根本上重新思考和设计模型架构。然而，在商业化和产品迭代的压力下，工程师的本能反应通常是我能修复它。他们会设计出各种工程上的变通方案来支撑这个有局限性的模型

走向脆弱和过拟合：这种不断修补的迭代方式，而不是彻底的创新，导致系统变得越来越复杂、越来越脆弱，并且对训练数据过拟合。它阻碍了对全新、可能更具扩展性的方法的探索

创新者的困境：这正是典型的创新者困境。一个已经投入巨资并围绕某种技术路径建立了整个生态系统的组织，很难去拥抱一种可能颠覆现有路径的、全新的、不确定的技术。他们倾向于在既有路径上进行渐进式改进，直到整个系统变得不再可扩展，最终被迫进行重构

Gavin 认为，LLM 领域也正在经历这个过程。从业者们已经看到了纯粹依赖 Transformer 架构和计算扩展定律的局限性，并开始逐步转向更复杂的、基于推理的方法（如思维链，Chain of Thought），并试图将其与类似 RL 的环境相结合。然而，这种转变是在现有框架下的修补，而非彻底的范式革命。这场万亿美元的豪赌，其背后蕴含着深刻的路径依赖和商业惯性，这或许是“惨痛教训”难以被真正吸取的主要原因

承认 LLM 的非凡成就，但需正确定义

尽管对 LLMs 的最终潜力及其是否符合“惨痛教训”存在激烈辩论，但参与讨论大大佬也一致承认，LLMs 本身是一项了不起的技术成就。Sendhil Mullainathan 提出，当前讨论中的一个悲剧，在于我们将对 LLMs 的两种评判混为一谈了

区分潜力推断与实际能力

Mullainathan 认为，我们需要清晰地区分两件事：

1.人们通过观察 LLMs 的行为而推断出的、其未来可能达到的能力（例如，通往通用人工智能 AGI）

他认为，将 LLMs 的现有能力外推至通用智能的水平，很可能是一种误导。然而，这并不意味着 LLMs 本身没有价值。恰恰相反，它们的能力是惊人的

一个被错误命名的奇迹

Mullainathan 指出，真正的悲剧不在于 LLMs 有其局限性，而在于我们对它产生了错误的期望，并因此无法公正地评价它已经取得的成就

纯粹模仿产生的涌现属性：一个核心的、令人着迷的科学问题是：为什么纯粹的、大规模的模仿学习能够产生如此多、如此惊人的涌现属性？我们是如何从简单的“预测下一个词”任务中，得到能够进行一定程度推理、翻译和代码生成的能力的？这本身就是一个值得深入研究的奇迹

价值在于其本身，而非其是否是“智能”：历史上出现过许多伟大的创新，它们为人类带来了巨大的价值，但它们并不是智能。Mullainathan 觉得，LLMs 也是如此。如果我们给它换个名字，不叫它人工智能，而是称之为一种强大的算法工具，或许我们就能更客观地看待它的价值和用途

这场讨论最终回归到一个更为冷静和建设性的视角。虽然 LLMs 可能不是通往 AGI 的康庄大道，也可能再次印证了“惨痛教训”，但这并不妨碍它们成为一种极具变革性的工具。当前公众和资本市场的巨大热情，或许源于一种概念上的混淆。与其纠结于它是否是真正的智能，不如将注意力集中在理解其能力的来源、探索其应用的边界，并承认它作为一种前所未有的算法奇迹所具有的非凡价值。这或许是穿越炒作周期、实现技术长期健康发展的关键

LLM将是又一个“惨痛教训”？强化学习之父Sutton再放炮：万亿美金AI泡沫可能破裂

LLM将是又一个“惨痛教训”？强化学习之父Sutton再放炮：万亿美金AI泡沫可能破裂

最新

栏目

在瑞士，王毅外长提到一个人

林襄，这身材简直绝了！

AI浪潮下，重塑数据分析学习与认知的全新引擎

标签

服务

链接