AI即将进入下半场

今天给大家推荐阅读的这篇文章为就职于OpenAI的一位研究者姚顺雨近日发布于github的一篇博文。作者一直致力于智能体的研究,在ICLR、NeurIPS等国际顶会发表了许多研究成果,其中多篇被评为Oral论文(top 5%)。在文章中,作者提到了几个非常犀利的观点和思考:
- 以开发新的训练方法和模型、攀登更难的基础测试为核心游戏规则的AI上半场已接近尾声,这个过程中诞生了DeepBlue、AlphaGo、GPT-4以及o系列等一系列里程碑。
- 是什么带来了AI上半场的终结——基于“算法+环境+先验知识”的综合“配方”,强化学习实现了泛化。这套配方已经将“基准测试攀爬”标准化并工业化,不论面对多难的基准测试,很快(甚至越来越快)也会被这套配方所解决。
- 现在将进入了AI的第二个阶段:从解决问题转向定义问题。在这个新时代,“评估”的意义将超越训练本身,我们应该从根本上重新思考“评估”的方式——“我们究竟应该训练AI做什么,以及如何衡量实际的进步?” 在AI的下半场,我们需要成为一个好的产品经理。换句话说,在AI的下半场,我们需要成为一个好的产品经理。
文章逻辑清晰,对AI发展历程及未来方向进行了深刻洞察,无论是AI领域专业人士还是对该领域感兴趣的读者,都能从中获得启发,值得一读。
source:https://ysymyth.github.io/The-Second-Half/
我们正处于AI的中场休息阶段。
几十年来,AI主要集中在开发新的训练方法和模型上,并且,这一策略奏效了:从击败国际象棋和围棋的世界冠军,到在SAT和律师考试中超越绝大多数人类,再到获得国际数学奥林匹克竞赛(IMO)和国际信息学奥林匹克竞赛(IOI)的金牌。这些里程碑背后——像是DeepBlue、AlphaGo、GPT-4以及o系列——体现的是AI方法上的基础性创新:搜索、深度强化学习(RL)、规模化以及推理能力。事物总是在不断变好的过程中。
那么,现在突然有什么不同了吗?
用一句话来概括:强化学习(RL)终于奏效了。更准确地说,RL终于实现了泛化。在经历了数次重大曲折和里程碑事件之后,我们终于掌握了一套可解决多种RL任务的有效“配方”,结合语言和推理的力量。即使在一年前,如果你告诉大多数AI研究人员,单一的一种方法可以胜任软件工程、创意写作、IMO级别数学、鼠标和键盘操作以及长篇问答等任务——他们会嘲笑你有“幻觉”。但是,这一切真的发生了。
那么接下来呢?从现在开始,我们进入了AI的第二阶段:从解决问题转向定义问题。在这个新时代,评估的意义将超越训练本身。我们不再只是问“我们能否训练模型解决X问题?”,而是问“我们究竟应该训练AI做什么,以及如何衡量实际的进步?”要在第二阶段中取得成功,我们需要及时转变思维方式和技能体系,这些可能更接近产品经理的职责定位。
上半场 The First Half要理解上半场的意义,不妨来看一看它的赢家。你认为到目前为止,最具影响力的AI论文有哪些?
我试过了斯坦福224N课程中的测试,答案并不让人意外:Transformer、AlexNet、GPT-3等等。这些论文有什么共同点?它们在如何训练更好的模型方面提出了一些基础性的突破。此外,它们还通过在某些基准测试上展示(显著的)改进而成功发表了论文。
不过,还有一个潜在的共性:这些“赢家”都是训练方法或模型,而非基准测试或任务。即使是可以说最具影响力的基准测试——ImageNet,其引用量还不到AlexNet的三分之一。方法与基准之间的对比在其他领域更加鲜明——例如,Transformer的主要基准测试WMT’14,其会议报告大约有1,300次引用,而Transformer的论文引用量已超过160,000次。

这充分说明了AI上半场的“游戏规则”:重心在于构建新的模型和方法,而评估和基准测试只是次要角色(尽管为了发表论文体系的运转依然是必要的)。
为什么会这样?一个重要原因是,在AI的上半场,方法的开发比任务的定义更困难也更让人兴奋。从零开始创造一个新的算法或模型架构——比如反向传播算法、卷积网络(AlexNet)或GPT-3中使用的Transformer——需要非凡的洞察力和工程技术。相比之下,为AI定义任务往往显得相对更简单:我们只是把人类已经在做的事情(例如翻译、图像识别或者国际象棋)转化为基准测试,几乎不需要什么深刻的洞见甚至工程化的努力。
另一方面,方法往往比单个任务更具有普适性和广泛应用价值,这使得方法显得尤为重要。例如,Transformer架构最终推动了计算机视觉(CV)、自然语言处理(NLP)、强化学习(RL)以及许多其他领域的进步——远远超出了它最初在WMT’14翻译数据集上证明自身价值的范围。一个优秀的新方法可以在多个不同的基准上取得进展,因为它足够简单、通用,其影响通常能够超越单一任务的限制。
这种模式已持续数十年,并催生了改变世界的创意和突破,这些成果通过在各个领域不断刷新基准测试表现得以呈现。那么,为什么这套“游戏规则”会发生改变?因为所有这些创意和突破的累积,已经在解决任务的过程中产生了质的飞跃,为建立一套通用、有效的解决方法提供了基础。
配方 The Recipe
什么是这套“配方”?它的组成部分并不意外,包括大规模的语言预训练、数据与计算的规模化,以及推理与行动的理念。这些可能听起来像是你在旧金山每天都会听到的流行词汇,但为什么要称它为“配方”呢?
通过强化学习(RL)的视角可以理解这一点。RL通常被认为是AI的“终局”——毕竟,从理论上讲,RL可以保证在游戏中获胜,而从经验上看,没有强化学习,很难想象像AlphaGo这样的超人类系统会存在。
在RL中,有三个关键要素:算法、环境和先验。长期以来,RL研究人员主要专注于算法(例如REINFORCE、DQN、TD-learning、actor-critic、PPO、TRPO等)——也就是智能体学习的核心方法——而将环境和先验视为固定或者最小化的部分。例如,Sutton和Barto的经典教材几乎全篇都在讲算法,而对环境或先验涉及甚少。

然而,在深度强化学习(deep RL)的时代,经验表明环境的重要性:一个算法的性能通常高度依赖于它开发和测试的环境。如果忽视环境,你可能会构建一个“最佳”的算法,但它只能在玩具般的设定中表现出色。那么,为什么我们不先确定我们真正想要解决的环境,再寻找最适合解决该环境的算法呢?
这正是OpenAI的初始计划。他们构建了Gym,这是一个标准的强化学习环境,用于各种游戏;然后是World of Bits和Universe项目,尝试将互联网或计算机变成一个“大型游戏”。这个计划听起来很不错,对吧?一旦我们将所有的数字世界转化为一个环境,再用聪明的强化学习算法解决它,我们就能实现数字版的通用人工智能(digital AGI)。
一个好计划,但并非完全奏效。OpenAI在这条道路上取得了巨大进展,用强化学习解决了Dota、机器人手臂等问题。但它从未接近解决计算机使用或网页导航的问题,而且一个领域中工作的强化学习代理无法迁移到另一个领域。显然,有什么东西缺失了。
直到GPT-2或GPT-3发布后,人们才意识到,缺失的部分是“先验知识”(priors)。你需要强大的语言预训练将通用的常识和语言知识蒸馏到模型中,然后再对其进行微调,变成网页代理(WebGPT)或聊天代理(ChatGPT),并最终改变世界。事实证明,强化学习中最重要的部分可能不是强化学习算法本身或环境,而是先验知识——而这些先验知识的获取方式完全可以和强化学习无关。
语言预训练为聊天代理创建了很好的先验知识,但在控制计算机或玩视频游戏的方面却表现得不尽如人意。为什么呢?因为这些领域距离互联网上的文本分布更远,单纯在这些领域上进行有监督微调(SFT)或强化学习(RL)无法实现良好的泛化。
我第一次注意到这一问题是在2019年,当时GPT-2刚刚推出,我尝试在其基础上进行SFT和RL以解决文字冒险游戏问题——CALM成为世界上第一个基于预训练语言模型构建的代理。但代理需要经历数百万次强化学习步骤才能爬过一个游戏,而且无法迁移到新的游戏。这虽然是强化学习本身的典型特性,并不令强化学习研究者感到奇怪,但我却觉得很诡异,因为我们人类可以轻松玩一个新游戏,而且在零样本情况下表现显著更好。然后,我迎来了人生中第一次“灵光一现”的时刻——我们人类能泛化,因为我们不仅可以选择“去柜子2”或“用钥匙1打开宝箱3”或“拿剑杀死地牢里的怪物”,我们还能选择思考:“地牢很危险,我需要一把武器对付它。眼前没有可见的武器,所以我可能需要在上锁的箱子或宝箱里找到一件。宝箱3在柜子2里,我得先去那里把它打开。”

思考,或者说推理,是一种奇怪的行动形式——它不会直接影响外部世界,但推理的空间却是开放且组合无限的。你可以思考一个单词、一句话、一段文字,甚至是10000个随机的英语单词,但周围的世界不会立刻因此发生变化。在经典的强化学习(RL)理论中,这是一桩糟糕的交易,并让决策变得不可能。
想象一下,你需要在两个箱子中选择一个,其中一个箱子里有100万美元,而另一个是空的。你的预期收益是50万美元。现在,假设我加入了无数个空箱子,那么你的预期收益就会变成零。
然而,如果将推理作为任何强化学习环境中行动空间的一部分,就能利用语言预训练先验知识来实现泛化,同时我们还能够为不同的决策提供灵活的测试时计算资源。这真是太神奇了,我为自己没办法将这种想法完全解释清楚而感到抱歉,可能需要另写一篇博客专门探讨它。如果有兴趣,可以阅读ReAct了解关于智能体推理的最初讨论,同时也可以了解我当时的一些思考。在这里,我只能给出一种直观的解释:即使加入了无数个空箱子,但你在各种游戏中已经见过无数这样的选择,而选择这些箱子反而能够帮助你在任何特定的游戏中更好地找到装有钱的箱子。抽象的解释则是:语言通过智能体中的推理实现了泛化。
一旦我们拥有了正确的强化学习先验知识(语言预训练)和适当的强化学习环境(将语言推理作为行动引入),最终可能发现,强化学习算法反而成了最不重要的部分。这就是为什么我们现在拥有了o系列、R1、深度研究、计算机操作智能体等等,未来还会有更多的进展。这是一个多么讽刺的局面!长期以来,RL研究者对算法的关注远远超过了对环境的关注,同时几乎没有人在意先验知识——几乎所有的RL实验都从零开始。但我们却花了数十年的弯路才意识到,也许我们的关注点从一开始就应该完全相反。
正如史蒂夫·乔布斯所说:“你无法在向前看的时候把点点滴滴连贯起来;你只能在回顾时连接它们。”
下半场 The Second Half
这套“配方”正在彻底改变游戏规则。回顾上半场的游戏:
- 我们开发了新的训练方法或模型,用以攀登基准测试的高度。
- 我们创建了更难的基准测试,并继续重复这一循环。
然而,这种游戏正在被破坏,因为:
- 这套配方本质上已经将“基准测试攀爬”标准化并工业化,而不再需要太多新的想法。随着配方具备更好的扩展性与泛化能力,你为特定任务设计的新方法可能只能提升5%的效果,而下一个o系列模型却能无目标地直接提升30%。
- 即使我们创建了更难的基准测试,很快(甚至越来越快)它们就会被这套配方所解决。我同事Jason Wei制作了一张很漂亮的图,形象地呈现了这一趋势:

那么,在下半场还有什么值得去玩?如果新方法不再需要,更难的基准测试也会被越来越快地解决,那我们应该做些什么?
我认为,我们应该从根本上重新思考“评估”的方式。这不仅意味着去创建新的、更难的基准测试,还需要彻底质疑现有的评估设置,并构建全新的评估框架,以迫使我们不得不超越已有配方发明新的方法。这样的任务很难,因为人类具有“惯性”,很少质疑基本假设——你仅仅将它们视为理所当然,而没有意识到它们其实只是“假设”,而不是“定律”。
为了说明这种惯性,假设你基于人类考试发明了历史上最成功的评估之一。在2021年,这可能是一个极具胆识的创意,但三年后,它已经饱和。你会怎么做?很可能是设计一个难度更高的考试。又或者你解决了一些简单的编程任务。你会怎么做?大概率是寻找更难的编程任务来完成,直到达到了国际信息学奥林匹克竞赛(IOI)金牌的水平。
惯性是自然的,但问题在于,AI已经在国际象棋、围棋上击败了世界冠军,在SAT考试和律师资格考试中超过了大部分人类,并达到了IOI和国际数学奥林匹克竞赛(IMO)金牌水平。然而,从经济学和GDP的角度看,世界并没有发生太大的改变。
我称之为“效用问题”(the utility problem),并认为这是AI领域最重要的问题。
或许我们很快就能解决效用问题,或许不会。但无论如何,这个问题的根本原因可能看似简单而具有迷惑性:我们的评估设置与现实世界的设置在许多基本方面是不同的。举两个例子:
- 评估“应该”是自动运行的,因此通常一个智能体(agent)会接收任务输入,独立完成任务,然后获得任务奖励。而在现实中,智能体必须在整个任务中与人类交互。比如,当你向客户服务发送一段超长的信息,等待10分钟后,你不会指望得到一个能够解决所有问题的详细回复。通过对这种设置提出质疑,引发了新的基准测试的发明,例如主动与真人互动的Chatbot Arena,或者将用户模拟纳入评估的tau-bench。

- 评估“应该”是独立同分布(i.i.d.)进行的。如果你有一个包含500个任务的测试集,你可以独立处理每个任务,计算各任务的平均指标,得到一个整体指标。但现实中,任务的解决往往是顺序进行的,而不是并行完成的。比如,一名Google软件工程师在处理google3项目中的问题时,会随着对代码库的熟悉程度提高而表现得越来越好;但一个软件工程智能体处理同一项目中的许多问题时,却无法获得这样的熟悉程度。显然,我们需要引入长期记忆的方法(其实已经有一些方法存在),但学术界却没有合适的基准来证明这种需求,也缺乏足够的勇气去质疑作为机器学习基础的i.i.d.假设。
这些假设“从来”就是这样的。在人工智能的上半场,这些假设下的发展基准是合理的,因为当智能水平较低时,提升智能通常就能带来实际应用价值的提升。但如今,通用的配方已经能够在这些假设下奏效。所以,要玩下半场的新游戏,我们的方式是:
- 开发崭新的评估设置或任务,以追求真实世界的实际价值。
- 使用已有的配方来解决这些任务,或通过新组件对配方进行增强。然后不断循环。
这种游戏之所以困难,是因为它陌生。但它也令人兴奋。在上半场,玩家专注于解决电子游戏和考试的挑战,而在下半场,玩家则有机会通过将智能转化为实用产品打造价值百亿或万亿美元的公司。在上半场,填满的是增量的方法和模型;而在下半场,这些增量方法会被大幅筛选。如果你不能创造出打破通用配方的新假设,那你的增量方法将被碾压。但如果你能打破这些假设,那你就有机会做出真正改变游戏规则的研究。