LLM将是又一个“惨痛教训”?强化学习之父Sutton再放炮:万亿美金AI泡沫可能破裂
炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!
(来源:网易科技)
Sutton老爷子最新采访讨论《LLM是否吸取了‘惨痛教训’?》,这次讨论算是前一段时间老爷子《LLM是死路一条》的采访的补充
参与讨论的嘉宾:
Sutton老爷子
Sendhil Mullainathan:麦克阿瑟天才奖获得者、麻省理工学院教授
Niamh Gavin:应用人工智能科学家、Emergent Platforms 首席执行官
Suzanne Gildert:Nirvanic Consciousness Technologies 创始人兼首席执行官
LLMs是否真正遵循了“惨痛教训” (The Bitter Lesson) 的原则,从而能够实现其被大肆宣传的巨大潜力?图灵奖得主,强化学习之父 Richard Sutton认为答案是否定的。他主张,LLMs 过度依赖于模仿和提炼有限的人类知识(例如整个互联网的文本数据),并且需要大量的人工雕琢与微调。这种方法违背了“惨痛教训”的核心思想——即真正可扩展的、强大的 AI 来自于那些能够充分利用巨大计算能力的通用方法(如搜索和学习),而非依赖于人类的先验知识。因此,Sutton 预测,LLMs 的发展将很快遇到瓶颈,其能力上限远比人们想象的要近,当前围绕它们产生的巨大投资和期望,最终可能导致泡沫的破灭
LLM是否吸取了“惨痛教训”?
这场被主持人 Ajay Agrawal 形容为“万亿美元级别观点冲突”的讨论,源于 AI 社区内部一个深刻的理念分歧。辩论的核心是一个术语:“惨痛教训信徒” (bitter lesson pilled),这个词源自 Sutton 老爷子 在 2019 年发表的一篇影响深远的文章——《惨痛教训》(The Bitter Lesson)
什么是“惨痛教训”?
根据 Sutton 的阐述,The Bitter Lesson总结了 AI 研究七十年来的一个反复出现的模式:
研究人员最初总是试图将人类的知识、直觉和理解构建到 AI 系统中。例如,在计算机视觉领域,早期研究者会尝试为系统编写关于边缘、纹理和形状的明确规则;在棋类游戏中,他们会编写复杂的评估函数来体现人类棋手的策略
然而,从长远来看,这些依赖人类知识的方法最终总会被那些更通用的、利用大规模计算能力的方法所超越。这些通用方法主要包括两大类:搜索 (Search) 和 学习 (Learning)
搜索是指系统通过探索海量的可能性来找到最优解,就像 AlphaGo 探索无数种棋局走法一样。学习则是指系统从原始数据或与环境的交互中自动提取模式和知识,而无需人类为其预设规则
惨痛的教训在于,研究人员花费大量心血构建的精巧知识体系,其扩展性非常有限。而随着计算成本的持续指数级下降(摩尔定律),那些能够充分利用计算能力进行大规模搜索和学习的“蛮力”方法,最终总是能取得更好的性能。Sutton 明确指出,如果你将所有的赌注都押在人类知识这个篮子里,那就需要格外小心,因为人类知识本身是无法像计算那样无限扩展的
LLMs 为何被认为未能吸取“惨痛教训”?
Sutton 在前段时间与 Dwarkesh Patel 的播客访谈中明确表示,他认为当前的 LLMs 并未充分吸取这一教训。他的论点可以分解为以下几个层面:
对人类数据的根本依赖:LLMs 的基础训练数据是整个互联网的文本和代码,这本质上是人类知识和行为的集合。它们通过预测下一个词元 (token) 的方式,学习模仿人类的语言模式。这与“惨痛教训”所警示的“依赖人类知识”的做法高度一致
大量的人工雕琢与微调:一个原始的、仅通过预测下一个词元训练出来的 LLM,并不能成为一个好用的工具。为了让它成为一个有用的摘要器、翻译器或问答系统,需要进行大量的后续工作。这包括指令微调 (fine-tuning) 和基于人类反馈的强化学习 (Reinforcement Learning from Human Feedback, RLHF)。在这个过程中,人类操作员会花费大量时间来评估模型的输出、编写高质量的范例,从而将模型“雕琢”成符合人类期望的样子。Sutton 认为,这种对人类专家进行“ad nauseam”(令人厌烦地反复)微调的依赖,是其不可扩展性的一个关键标志
有限的数据源:尽管互联网的数据量极其庞大,但它终究是有限的。Sutton 和其他嘉宾暗示,随着模型规模的增长,LLMs 很快就会耗尽高质量的互联网数据,从而触及其性能的天花板。当模型的发展受限于一个静态、有限的数据集时,它就陷入了“惨痛教训”所描述的困境。
因此,Sutton 的核心观点是,LLMs 当前的成功路径,本质上是又一个将宝押在人类知识上的案例。尽管其规模空前,但其基本方法论存在脆弱性。他预测,这种对人类知识和输入的依赖,将使其在未来被那些能够通过与环境直接交互、从经验中持续学习的系统所超越。这也就引出了关于强化学习与当前主流方法的对比
强化学习与模仿学习
在讨论中,特邀嘉宾 Suzanne Gildert 提出了一个问题,:我们为什么不能构建一个像松鼠大脑一样学习的 AI?
Sutton 曾在播客中提到,如果我们能造出一个心智水平相当于松鼠的系统,那么我们距离实现AGI的目标就已经不远了。这个观点让人感到困惑,因为人类能登上月球,而松鼠只会藏坚果,两者之间似乎存在着天壤之别。然而,Gildert 和 Sutton 的观点是,构建松鼠心智的难度,可能远高于构建一个基于现有方法的、看似强大的 LLM
松鼠心智的核心能力:自主学习
松鼠和当前 AI 系统之间最根本的区别在于学习能力本身
一个真正的智能体,比如松鼠,当你把它放入一个全新的、从未见过的环境中时,它能够自主地开始学习。它会探索环境,理解其中的因果关系,并形成自己的行为策略以达成生存目标(如寻找食物、躲避天敌)
相比之下,我们今天所有的 AI 系统,包括最先进的 LLMs,都不具备这种能力。它们在被部署之前,已经通过一个庞大的静态数据集完成了学习过程。如果你把一个 LLM 放入一个它训练数据中从未包含过的新场景或新用例中,它无法自主地学习和适应。它的能力是“已经学到了什么”,而不是“如何学习新东西”
因此,关键的区别在于“学习”这个动作本身。松鼠的智能体现在其持续学习和适应的能力,而 LLMs 的“智能”则体现在它对已经见过的海量数据的模式识别和复现能力上
强化学习的挑战与现状
理论上,强化学习正是致力于解决这种自主学习问题的框架。RL 的核心思想是让一个智能体在环境中通过试错来学习,通过最大化某种累积的“奖励” (reward) 信号来优化其行为策略。然而,在实践中实现“纯粹的 RL”是极其困难甚至不可能的
奖励函数的定义难题:最大的障碍在于我们无法定义一个通用的、适用于所有情境的奖励函数 。奖励函数告诉智能体什么行为是好的,什么是坏的。对于一个特定任务(如下棋),定义奖励很简单(赢了就奖励,输了就惩罚)。但对于一个像松鼠一样需要在复杂现实世界中生存的通用智能体,我们该如何定义“奖励”?是食物、安全感,还是其他更复杂的目标?这个问题的悬而未决,导致纯粹的 RL 难以落地
向模仿学习的退化:由于定义通用奖励函数的困难,研究人员们在实践中往往会退而求其次,采用模仿学习。他们不再让智能体自己探索,而是为其提供专家的演示数据(例如人类驾驶员的驾驶记录),让智能体去模仿这些专家的行为。目前所有看似在进行 RL 的工作,最终都或多或少地变成了模仿学习
整个 LLM 的发展路径可以看作是一种极端形式的模仿。为了解决从零开始学习的“冷启动问题” ,研究人员选择了一个代理方案:直接消化整个互联网。他们假设,人类的书写是思维的良好体现,语言是区分人类与其他物种的关键,因此模仿人类语言应该是一个不错的起点。然而,这种方法从一开始就侧重于利用 现有的知识,而非探索未知的世界,这导致了系统更擅长模式识别而非真正的理解,更倾向于模仿而非直觉思维
总而言之,松鼠的智慧代表了一种理想的 AI 范式:一个能够在任何新环境中自主学习的通用智能体。而当前以 LLMs 为代表的系统,则更接近于一种高级的、大规模的监督学习或模仿学习,它们的核心是复现和内化已存在的人类知识,而非从与世界的直接交互中生成新的理解。
模仿输出 vs. 模仿行动:人与 LLM 的根本认知差异
MacArthur 天才奖得主 Sendhil Mullainathan 进一步深化了关于模仿的讨论,他引用了一条 Rich Sutton 转发并高度认可的推文,揭示了人类与 LLM 在模仿方式上的一个微妙而深刻的区别。这个区别或许是理解两者能力差异的关键所在
这条推文的核心思想是:
当人类模仿时,他们模仿的是“输出” (output),但必须自己“发现” (discover) 达成该输出所需的“行动” (action)
当 LLMs 模仿时,它们直接模仿的是“行动” (action) 本身
Mullainathan 认为,这个区别的核心在于“发现”这个词
人类的模仿:一个构建内在模型的过程
为了阐释这个观点,Mullainathan 举了几个例子:
斑胸草雀 (Zebra Finch) 的鸣唱:一只幼鸟听到成年鸟的歌声(输出),它想要模仿这种声音。但它无法直接看到或感知到成年鸟是如何控制其声带、呼吸和肌肉来发出这种声音的(行动)。因此,幼鸟必须通过自己的声带进行反复的试错和练习,逐步“发现”能够产生同样声音的肌肉控制方法。在这个过程中,它被迫在自己的大脑中建立一个关于“声带肌肉运动”与“产生的声音”之间关系的内在模型
代数证明:一个学生看到老师在黑板上完成了一个代数证明(输出)。即便老师解释了每一步,学生看到的仍然是表层结果。为了真正理解,学生必须用自己的认知机制去思考:老师是如何想到第一步的?为什么选择这个引理而不是另一个?学生需要自己“发现”通往最终答案的逻辑路径。这个过程迫使学生构建关于代数规则和解题策略的内在心智模型
冯·诺依曼与苍蝇问题:Mullainathan 提到了一个关于数学家冯·诺依曼的轶事。在一个经典的谜题中(两辆火车相向而行,一只苍蝇在中间来回飞),冯·诺依曼立刻给出了正确答案。当被问及是否发现了那个可以简化问题的“技巧”时,他回答说:“什么技巧?” 原来,他直接用蛮力计算了那个无穷级数。这个故事说明,即使是面对同一个问题和同一个答案(输出),不同的人可能会通过完全不同的内部认知过程(行动)来达到
在所有这些例子中,人类的模仿都不是简单的复制。我们面对的是一个结果,然后必须调动我们自身的认知或生理器官,去探索和发现能够产生这个结果的一系列行动。这个“发现”的过程,强制我们建立起关于世界如何运作的、更深层次的、具有生成能力的模型
LLMs 的模仿:表层序列的复现
相比之下,LLMs 的模仿方式是根本不同的。当一个 LLM 被训练来预测文本序列中的下一个词元时,它实际上是在直接模仿“行动”。这里的“行动”就是人类作者写下的一个又一个词。它不需要去构建一个关于世界如何运作的复杂模型来“生成”这些词;它只需要学习在给定上文的情况下,哪个词出现的概率最高
Niamh Gavin 指出,LLMs 的自回归机制本质上就像是神经网络的顺序展开,是一个接一个的序列模式激活,而不是一个基于真正目标的、可以被长期优化的函数
Mullainathan 总结说,正因为 LLMs 没有强制去思考在某个行动空间中,哪些行动能够产生我们看到的输出,所以我们有理由怀疑它们是否拥有一个真正稳健的世界模型
当然,在某些领域,AI 确实被迫建立了世界模型,例如在国际象棋或围棋中。在这些领域,算法必须从行动空间(落子)映射到结果空间(胜负),并且通过自我对弈等方式从经验中学习。而这恰恰不是在静态文本语料库上训练的语言模型的主要学习方式
这个关于模仿方式的深刻区别,为 Sutton 的“惨痛教训”论点提供了认知层面的解释:仅仅模仿人类行为的表层序列,可能永远无法通向对世界因果关系的真正理解,而后者正是AGI的核心
万亿美元的观点冲突
这场讨论不仅仅是技术路线之争,更深刻地反映了 AI 领域的社会学和经济学动态。正如主持人 Ajay Agrawal 所言,这不仅仅是学术观点的分歧,而是一场“万亿美元级别的观点冲突”。巨额的资本投入正在深刻地影响着科学研究的方向和节奏
资本驱动下的“时尚”与路径依赖
Rich Sutton 坦言,当他谈论“惨痛教训”时,他不仅在做一个科学论断,更是在评论这个领域的社会学。他观察到,AI 领域存在着时尚,某些思想和方法会在特定时期变得极具经济实力,从而主导整个领域的发展
LLMs 作为主导范式:当前,LLMs 就是这种主导范式。数千亿美元的资金正涌入这一领域,这种经济力量改变了科学讨论的格局。传统 AI 思想中,目标 和经验一直是核心;而 LLM 的兴起带来了一种全新的、甚至是激进的主张:我们不需要明确的目标,只需要足够大规模地模仿人类,某种质变就会发生,从而涌现出理解和推理能力
话语权的转变:Sutton 认为,“通过模仿就能获得理解”是一种需要非凡证据来支持的非凡主张。然而,在当前的舆论环境中,坚持经验和目标重要性的传统观点,反而被视为是极端的。讨论的中心已经无可避免地转移到了 LLMs 上
投资回报的压力与泡沫风险:巨大的投资带来了巨大的回报压力。有人表示,如果 AI 的投资需要在 15 年后才能看到回报,那将是一场灾难。因为已经许下了太多承诺,如果这些技术不能在 3 年内产生足够的回报,就可能引发一场信心的崩盘和泡沫的破裂。Sutton 认为,这正是我们目前所处的境地。LLMs 无疑会在某些方面非常有用,但它们很可能无法证明投入其中的巨额资本是合理的,从而导致一场期望的破灭
工程与研究的张力:创新者的困境
Niamh Gavin 作为身处行业前沿的实践者,为这种现象提供了一个内部视角。她指出了研究和工程之间存在的持续张力,这种张力解释了为什么整个行业似乎会“梦游般地走向自己的灭亡”,反复陷入相似的困境
修补而非重构:当模型在实践中遇到瓶颈或限制时,理想的做法是退后一步,从根本上重新思考和设计模型架构。然而,在商业化和产品迭代的压力下,工程师的本能反应通常是我能修复它。他们会设计出各种工程上的变通方案 来支撑这个有局限性的模型
走向脆弱和过拟合:这种不断修补的迭代方式,而不是彻底的创新,导致系统变得越来越复杂、越来越脆弱,并且对训练数据过拟合。它阻碍了对全新、可能更具扩展性的方法的探索
创新者的困境 :这正是典型的创新者困境。一个已经投入巨资并围绕某种技术路径建立了整个生态系统的组织,很难去拥抱一种可能颠覆现有路径的、全新的、不确定的技术。他们倾向于在既有路径上进行渐进式改进,直到整个系统变得不再可扩展,最终被迫进行重构
Gavin 认为,LLM 领域也正在经历这个过程。从业者们已经看到了纯粹依赖 Transformer 架构和计算扩展定律的局限性,并开始逐步转向更复杂的、基于推理的方法(如思维链,Chain of Thought),并试图将其与类似 RL 的环境相结合。然而,这种转变是在现有框架下的修补,而非彻底的范式革命。这场万亿美元的豪赌,其背后蕴含着深刻的路径依赖和商业惯性,这或许是“惨痛教训”难以被真正吸取的主要原因
承认 LLM 的非凡成就,但需正确定义
尽管对 LLMs 的最终潜力及其是否符合“惨痛教训”存在激烈辩论,但参与讨论大大佬也一致承认,LLMs 本身是一项了不起的技术成就。Sendhil Mullainathan 提出,当前讨论中的一个悲剧,在于我们将对 LLMs 的两种评判混为一谈了
区分潜力推断与实际能力
Mullainathan 认为,我们需要清晰地区分两件事:
1.人们通过观察 LLMs 的行为而推断出的、其未来可能达到的能力(例如,通往通用人工智能 AGI)
他认为,将 LLMs 的现有能力外推至通用智能的水平,很可能是一种误导 。然而,这并不意味着 LLMs 本身没有价值。恰恰相反,它们的能力是惊人的
一个被错误命名的奇迹
Mullainathan 指出,真正的悲剧不在于 LLMs 有其局限性,而在于我们对它产生了错误的期望,并因此无法公正地评价它已经取得的成就
纯粹模仿产生的涌现属性:一个核心的、令人着迷的科学问题是:为什么纯粹的、大规模的模仿学习能够产生如此多、如此惊人的涌现属性?我们是如何从简单的“预测下一个词”任务中,得到能够进行一定程度推理、翻译和代码生成的能力的?这本身就是一个值得深入研究的奇迹
价值在于其本身,而非其是否是“智能”:历史上出现过许多伟大的创新,它们为人类带来了巨大的价值,但它们并不是智能。Mullainathan 觉得,LLMs 也是如此。如果我们给它换个名字,不叫它人工智能,而是称之为一种强大的算法工具,或许我们就能更客观地看待它的价值和用途
这场讨论最终回归到一个更为冷静和建设性的视角。虽然 LLMs 可能不是通往 AGI 的康庄大道,也可能再次印证了“惨痛教训”,但这并不妨碍它们成为一种极具变革性的工具。当前公众和资本市场的巨大热情,或许源于一种概念上的混淆。与其纠结于它是否是真正的智能,不如将注意力集中在理解其能力的来源、探索其应用的边界,并承认它作为一种前所未有的算法奇迹所具有的非凡价值。这或许是穿越炒作周期、实现技术长期健康发展的关键