资讯配图
编译 | 褚杏娟

Anthropic 联合创始人 Jared Kaplan 是一名理论物理学家,研究兴趣广泛,涉及有效场论、粒子物理、宇宙学、散射振幅以及共形场论等。过去几年,他还与物理学家、计算机科学家们合作开展机器学习研究,包括神经模型以及 GPT-3 语言模型的 Scaling Law。

近期,他在 YC 分享了 Scaling Law 未来如何影响大模型发展,以及对 Claude 等模型的意义。他在演讲中透露,Scaling Law 的发现源于他物理研究中的习惯:问更基本的、看似“愚蠢”的问题。

在 Jared Kaplan 看来,AI 的大部分价值可能还是来自最强模型。他认为,目前 AI 的发展非常不平衡:AI 在快速进步、事情在迅速变化,模型能力尚未完全解锁,但我们在释放越来越多的功能。他认为的平衡状态是 AI 发展速度变慢、成本极低。而 AI 的快速进化会让人优先关注能力,而非成本。

他建议大家去构建那些“现在还没法完全跑通”的产品、用 AI 更好地“集成” AI,并快速找到 AI 大规模应用的突破口。这些思考背后,一定程度上也与 Anthropic 的运营策略是相符的。

我们翻译并整理了 Jared Kaplan 的分享和他与主持人 Diana 的对话,以飨读者。

一个物理学家转型 AI 赛道

其实我做 AI 的时间并不长,大概才六年。在那之前,我的大部分职业生涯都在学术界,是一名理论物理学家。

我为什么会转行做 AI 呢?简单来说,我一开始之所以学物理,是因为我妈妈是一位科幻小说作家,我小时候就一直想搞清楚到底能不能造出超光速飞行装置,而物理看起来是实现这个目标的路径。

我也对理解宇宙本身特别感兴趣,比如事物是如何运作的、我们周围所见的各种现象背后有哪些宏观规律?宇宙从何而来,是决定论吗?人有没有自由意志?我对这些问题都非常着迷。

幸运的是,从事物理研究的那段时间里,我认识了很多非常聪明、非常有深度的人,其中就包括现在我在 Anthropic 共事的一些创始人。我对他们做的事情非常感兴趣,因此也一直都关注着。

与此同时,我也换了很多物理学的研究方向,从大型强子对撞机的高能粒子物理,到宇宙学、弦理论等等,但我渐渐有些沮丧,也觉得有点无聊,因为进展太慢了。

而我身边很多朋友都跟我说“AI 正在变得非常重要”。起初我是不信的,我很怀疑,认为 AI 已经搞了五十年了,支持向量机(SVM)那类东西其实也没那么有趣。在 2005 年、2009 年我上学的时候,能接触到的 AI 基本就是这些。

不过后来我被说服了,觉得 AI 也许真的是一个值得投入的领域。也算是运气好,认识了一些对的人,然后事情就这么发展下来了。

“Scaling Law 源于我问的一个蠢问题”

接下来,我想简单介绍一下当代 AI 模型是怎么运作的,以及为什么“Scaling Law”能让它们不断变得更好。

像 Claude、ChatGPT 这样的 AI 模型训练过程可以分为两个主要阶段:第一个阶段是预训练(pre-training)。在这个阶段,我们训练模型模仿人类写的文本,并理解其中的统计关联。

这张图非常“复古”,来自最早期的 GPT-3 playground:

资讯配图

可以看到,比如“作为一个期刊俱乐部的发言人,你大概会希望我说出某些话”,这里的“elephant ”一词就非常不符合上下文。而预训练的目标,就是让模型知道什么样的词在什么语境下更可能出现。现在的模型已经不再局限于文本了,还可以处理多模态数据,比如图片、音频等。

第二个阶段是强化学习(reinforcement learning)。2022 年早期,我们正在收集用户反馈数据,当时还在训练最初的 Claude 0 ,甚至 Claude 负一代版本。当时,早期用户或者说我们聘请的人工标注员与 Claude 对话,然后选择哪个回答更好,我们用这些反馈信号去优化模型,强化那些被认为是“好”的行为,比如有帮助的、诚实的、无害的内容,反之则抑制“坏”的行为。

所以,整个训练流程本质上其实就两件事:预测下一个词,然后通过强化学习完成有用的任务。而且,这两个阶段其实都有非常清晰的“Scaling Law”。

这张图是我们大概五、六年前做的,它展示了只要扩大预训练的规模,模型性能就会持续变好。

资讯配图

这源于我当时问了一个“非常蠢”的问题。

作为物理学家,从全局出发,提出最简单、最基础的问题,是我们的习惯了。当时有个流行的说法是“大数据很重要”,那我就想知道:到底多大才叫大?数据到底有多重要?帮助到底有多大?类似地,有人观察到模型越大效果越好,那我们就继续问:那到底会好多少?增长是不是线性的?有没有规律?

后来,我们发现了一个非常精确又令人惊讶的现象:AI 训练背后确实存在着类似于物理或天文中的“规律性趋势”。这让我们非常震惊,也让我们对 AI 的持续进步充满信心。

早在 2019 年我们就研究了计算量、数据集大小和网络规模等多个数量级的不同情况。按照物理学的经验,只要某个规律在足够多数量级下成立,那它大概率会继续成立下去。所以,我认为这是 AI 不断进步背后的一个基本因素。

另一个比较关键的点其实很早就显露出来了,但最近几年才真正展现出巨大影响力,那就是:强化学习阶段也存在 Scaling Law。

大概四年前,有位研究员开始研究 AlphaGo 的 Scaling Law,他把 AI 领域的两个重要成果联系在一起:GPT-3 的预训练 Scaling 和 AlphaGo 的 RL Scaling。这位研究员就是 Andy Jones,当时他一个人做研究,设备可能就只有一张 GPU,毕竟 AlphaGo 成本太高他用不起,于是选择研究一个更简单的棋类游戏 Hex(六子棋),并制作了大家现在看到的这张图:

资讯配图

现在大家对 ELO 分数(国际象棋评分)已经比较熟悉了,但在当时其实没那么广为人知。ELO 分数本质上就是衡量一个棋手战胜另一个棋手的概率。如今,我们也用它来衡量 AI 模型的能力,比如在 A/B 测试中,看人类更偏好哪一个模型的回答。但那时候,ELO 还只是一个经典的象棋评分系统。

Andy 当时训练了一些模型去玩 Hex,这是一种比围棋更简单的棋类游戏。他观察不同模型在 Hex 上的表现,并发现了非常清晰的线性趋势。

在科学研究中,发现这些简单但规律性的趋势是很重要的技能。但我觉得当时大家并没有足够重视 RL(强化学习)阶段的 Scaling 趋势,后来才慢慢被发现。可以看到,无论是在预训练阶段,还是在强化学习阶段,只要加大计算资源的投入,模型性能就会持续提升。

我认为,这正是推动 AI 不断进步的核心动力。并不是因为 AI 研究人员突然变得更聪明了,而是我们找到了一种非常简单的方法可以系统性提升 AI 的性能,我们现在就是在不断重复运行这套“Scaling 机器”。

Scaling 的实际意义

那这样的 Scaling 正在解锁哪些能力呢?我习惯用两个维度来理解 AI 的能力。

第一个维度是 AI 的“适应性”,也就是它能多大程度地“贴近”我们的使用场景。这其实很重要,但我认为这不是最有意思的那个维度。比如 AlphaGo 在下围棋这件事上比任何人都强,但它仅限于围棋盘这个“宇宙”,如果放到下面坐标系中,它在 Y 轴上的位置是很低的。

资讯配图

Claude:Flexibility And Time Saved

但自从大模型出现之后,我们开始看到 AI 能处理越来越多人类所能处理的多种模态,虽然还没做到嗅觉,但我觉得也快了。所以,我们正在往 Y 轴更高的方向发展,也就是说,AI 能在真实世界中做的事情越来越多。

不过,我认为更有意思的是 X 轴,也就是 AI 可以完成的任务时长。我们观察到,随着 AI 能力的提升,这个时间在不断拉长。

Metr.org 做过这方面的系统研究,发现了一个很有意思的 Scaling 趋势:AI 模型可以处理的任务时长大约每 7 个月翻一倍。也就是说,AI 的智能随着预训练和 RL 阶段算力的不断扩大,在可预见的方向上变得越来越“能干”,可以处理的任务时间跨度也越来越长。

资讯配图

如果我们顺着这个趋势推演下去会怎么样呢?《AI 2027》报告里也做过类似的预测。这意味着,接下来的几年里,AI 可能不仅能完成几分钟、几小时的任务,甚至能处理需要几天、几周、几个月、甚至几年才能完成的复杂任务。

资讯配图

Length of Tasks Al can complete Autonomously

最终,我们可以想象,可能会有成千上万个 AI 模型协作就能完成现在一个完整人类组织才能完成的工作,甚至可以完成整个科学界几十年才能推进的研究。比如理论物理领域,很多时候你不需要实验设备,只需要思考。那么我们可以设想,未来的 AI 系统通过协作,也许在几天或几周内就能完成学界 50 年才能取得的进展。

三个建议

那问题来了,如果 Scaling 趋势真的能带我们走得这么远,那接下来还缺什么?

资讯配图

我觉得剩下的部分其实并不复杂。其中一个关键就是具备真实的“组织知识”。也就是说,AI 模型不能永远像现在这样如同一张白纸从零学起,它们需要像在一个公司、组织甚至政府机构里工作了多年的人那样,具备相关背景知识。所以,我认为 AI 模型必须能真正地处理“知识”。

它们还需要“记忆”。什么是记忆?从某种角度说,它也是知识。但这里我做一个区分:当 AI 在执行一个非常长期的任务时,它必须能持续追踪任务的进度,建立相关的记忆,并且能调用这些记忆继续执行任务。我们其实已经在 Claude 4 中开始构建这类能力了,未来这方面会变得更加重要。

第三个关键点是监督能力。也就是说,AI 要能理解更细微的语境,解决那些模糊、不明确的问题。

目前来说,像编程、数学这类任务比较容易提升,因为“对”和“错”非常清晰,强化学习的反馈信号明确,优化也容易。但我们真正需要的,是能够帮助我们生成更复杂、更细腻奖励信号的模型,这样才能用强化学习去训练 AI 讲真正有趣的笑话、写出真正有感染力的诗、做出在科研中“有品位”的判断。

除了这三点,还有一些更“简单”的需求,比如我们要让 AI 模型能执行越来越复杂的任务,从文本模型逐步拓展到多模态、再到机器人控制等更多场景。我相信未来几年我们还会在这些领域继续看到“Scaling”带来的巨大收益。

那么,我们该如何面对这种变化和可能的未来?我有几个建议:

  • 去构建那些“现在还没法完全跑通”的产品。
     这其实一直是个不错的策略,但现在尤其重要。因为 AI 模型正在非常快速地进化。你今天做的产品可能因为 Claude 4 还不够聪明而无法真正跑通,但等 Claude 5 来了,它可能就会成为杀手级应用。所以,我一直建议大家在 AI 的能力边界上做实验,因为这些边界在迅速变化。
  • 用 AI 来帮助我们更好地“集成” AI。
     现在 AI 发展的瓶颈之一就是它发展得太快,我们没有时间将其融入到产品、公司和科研事业中。为了加快这一进程,用 AI 来辅助产品化、集成化是非常有价值的。
  • 快速找到 AI 大规模应用的突破口。
     编程已经是一个爆发点了,软件工程是 AI 的绝佳应用领域。但下一个可以像软件工程一样在极短时间内迅速爆发的领域是什么?我不知道,但希望你们能找到它。
资讯配图
Claude 4 的核心优化

主持人:刚才的演讲很精彩,尤其关于 Scaling Laws 最近的进展。Anthropic 也发布了 Claude 4,现在已经可以使用了。很好奇,在接下来的 12 个月里,随着模型能力持续叠加,会带来哪些新的可能?

Jared Kaplan: 如果 12 个月内没有比 Claude 4 更强的模型出来,那我们可能就麻烦了。不过说正经的,Claude 3.7 Sonnet 其实在写代码方面已经很不错了,用起来挺让人兴奋。但大家也注意到,它有时候太急于求成了,特别想帮你把测试跑通,甚至会做一些你不想要的东西,比如到处用 try-except 语句之类的。

所以,到了 Claude 4,我们主要提升了它作为“智能体”的表现,尤其在编程任务上,但也扩展到了搜索和其他应用场景,同时也提升了它对“监督”信号的理解能力,就是我刚才提到的那种“细致控制”。换句话说,它更听你的话了,代码质量也应该会更好。

另外,我们还加强了 Claude 4 的记忆能力。它现在可以在处理复杂任务时保存“记忆”,比如把某些信息存成文件或记录,然后在未来的对话或任务中重新调用。这样,即使超出了一次上下文的范围,它也能继续完成长流程任务。

但我觉得,Claude 4 的意义还不仅是这些具体的提升,而是它体现了“Scaling Law”所描述的那种平稳且持续的进步曲线。每次发布新模型,我们都会看到多方面的能力增长,最终朝着类人水平前进。

主持人:有什么特性是观众们一听就会觉得兴奋,或者你认为是 Claude 4 新 API 中大家会特别喜欢的点?

Jared Kaplan:“记忆”功能是我最感兴趣的,这为 AI 解锁了越来越长时间跨度的任务处理能力。随着时间推移,Claude 会越来越像一个靠谱的协作者,承担越来越多的工作量。

“广度型”的 AI 非常有用

主持人:你之前也说过,未来的 AI 模型会处理越来越复杂的任务,那现在大概能处理的是“以小时为单位”的任务?

Jared Kaplan:是的,这虽然是一个不太精确的说法,但你可以参考软件工程中的一些实际任务,仪表盘上显示了人们完成各种任务所需的时间,我认为这是一个以“小时”为单位的时间尺度。

我认为,大多数质疑 AI 的人会指出一个问题,那就是 AI 虽然能做出惊人的成果,但也会犯一些很愚蠢的错误。AI 的基本特征之一就是,人类虽然不能做某些事,但至少我们能判断某件事做得对不对,而 AI 的“判断能力”和“生成能力”几乎是在同一个水平线上,这就导致人类在使用 AI 时,很重要的一个角色就是“管理者”,需要帮 AI 检查工作成果是否靠谱。

主持人:很有意思。我们在去年 YC 孵化器看到的趋势是,很多 AI 初创公司都在做“copilot”产品,比如客服辅助系统,需要人类最终确认后才能发给用户。但在今年春季的一批创业公司中,很多团队已经开始直接提供完整的流程替代方案。你认为这会如何影响在座各位想要开发的东西呢?

Jared Kaplan: 有很多可能,我觉得这取决于你对“表现成功”的接受度。可能某些任务只要达到 70% 正确率就够用了,而另一些任务可能要求 99.9%。说实话,我觉得做那些 70%、80% 正确率就足够用的应用会更有趣,因为这样你可以尽情探索 AI 能力的前沿。但我们也在努力提升 AI 的可靠性,未来我们会看到越来越多这样的情况。

我认为,“人类 +AI”的协作会是一个很重要的发展方向。对于最前沿的任务,人类确实有必要参与其中,但从长远来看,未来将会有越来越多的任务能够完全自动化。

主持人:能否详细谈谈,你对“人机协作”未来的愿景?Dario 曾写过一篇文章“Machines of Loving Grace”,描绘了一个非常乐观的未来。从中可以窥探哪些细节?

Jared Kaplan: 其实现在我们就已经在某些领域看到这种协作的雏形了。比如我跟生物医学研究的人交流时发现,只要流程安排得当,现在的前沿模型已经能给药物研发带来一些有价值的发现。这对生物医药领域来说很有意义。

另一方面,我想智能有两种类型:一种是“深度型”的,比如数学,可能你十年只攻一个定理,像是黎曼猜想或费马大定理;另一种是“广度型”的,比如生物学、心理学或历史,这些领域往往是靠拼图式地组合大量信息形成洞察力。

而 AI 在预训练阶段,本质上已经“吸收”了人类文明的几乎所有知识。它拥有的“广度”已经远远超过任何一个人类专家。所以我相信,在这些“需要组合多个知识领域”的任务上,AI 有很大潜力,比如生物学研究中,整合不同领域的专业知识来获取见解,会有很大的收获。

我们在让人工智能处理复杂深度任务方面已取得重大进展,比如复杂的编程或高难度的数学问题。但我认为,在某些特殊领域仍有一些悬而未决的问题,它们的解决需要整合人类专家都未曾掌握的知识,但“广度型”的 AI 是非常有用的。

听起来,我们会更多地利用人工智能知识的广度。至于具体如何实现,我真的不知道。预测未来非常困难。但 Scaling Law 给我们提供了一种预测方法,它表明这个趋势会继续下去。像经济增长、GDP 这些确实是比较稳定的预测工具,但在实现层面该具体怎么做,我真说不好。

主持人:那你觉得哪些领域是目前模型能力已经解锁,但开发者还没有充分探索的“空白地带”?

Jared Kaplan: 我是做研究出身的,不太懂商业上的机会,但一般来说,凡是那些“技术门槛高”、“主要靠电脑和数据打交道”的领域,我觉得都很值得关注。比如金融、Excel 重度使用者、法律(虽然有很多监管限制)都是潜力很大的方向。

还有一点就是,怎么把 AI 集成到现有的业务中。我觉得可以借鉴“电力革命”的例子:电力出现时,有一个很长的采用周期,最初、最简单的使用方式不一定是最好的。大家不只想用电力替换蒸汽机,而是重塑了整个工厂的运作方式。同样地,尽快将 AI 深度整合到经济的各个部分中的话,会产生更多的“杠杆”。

“傻”问题带来巨大价值

主持人:你本身是物理学出身,也是最早发现“Scaling Law”的人之一。这种思维方式对你在 AI 研究中有什么帮助?

Jared Kaplan: 我觉得物理研究带给我的好处是:去寻找最大的图景、最宏观的趋势,然后试着把它们精准可量化。我以前经常碰到很厉害的 AI 研究者说:“学习在以指数级速度收敛。”但我会问一个特别“笨”的问题:你确定是指数?会不会其实是幂律、二次函数呢?

虽然问题听起来傻,但其实正是这种“较真”带来了巨大的价值。因为你只有把趋势弄得足够精确,才能真的理解“怎么做才能突破”,也才能知道你有没有真正做到。比如在 Scaling Law 中,最理想的情况就是找到了让性能随计算增长更快的方法,那意味着你投入更多算力就能比别人进步得更快。

但在你弄清楚你看到的趋势之前,你其实并不确切知道该如何超越它、能超越多少以及如何系统地判断你是否达到了目标。这就是我所使用的方法,并不一定是像将量子场论直接应用到人工智能中那么具体。

主持人:那在你观察和衡量这些趋势时,有没有一些物理学上的启发,比如重整化或对称性之类的理论,对你特别有帮助?

Jared Kaplan: 你如果观察一下 AI 模型,会发现它们很“庞大”,神经网络参数量巨大,现在已经到了万亿级别。这意味着它们由非常大的矩阵构成。在物理和数学中,其实早就有一套研究“大矩阵近似”的方法。我们发现,把神经网络视作无限大的系统来研究确实是有用的。这是一个在物理学中早就被用过的方法,现在也被应用到 AI 中。

但我觉得,总体而言,最有用的还是去问一些“特别蠢”的基础问题。AI 其实是个非常新的领域,我们现在使用的训练方法大概也就发展了 10 到 15 年。很多最基本的问题都还没被解决,比如可解释性问题、AI 模型内部到底是怎么运作的。所以我认为,在这个层面上有很多东西需要学习,而不是应用非常花哨的技术。

主持人:那关于可解释性,你有没有应用过物理学的某些工具?

Jared Kaplan: 其实我觉得可解释性更像是生物学或者神经科学领域。它更像是在研究“大脑的工作机制”。当然也有数学上的一些方法,但我觉得整体上还是偏“生物式”的研究。

相比神经科学来说,AI 有个巨大的优势是我们可以“测量一切”。你无法观察人脑中每一个突触或神经元的活动,但在 AI 模型里你可以。所以我们有更多的数据去“逆向工程”这些系统。

Scaling Law 失效?

可能是训练方法出了问题

主持人:关于“Scaling Law”,现在已经在五个数量级层面上成立,这非常了不起。那我想反过来问个问题:什么样的实证迹象会让你相信这个规律“失效了”?

Jared Kaplan: 这是个很难的问题。对我来说,“Scaling Law”更多是一个用来判断训练是否正常的诊断工具。因此,当你观察到一个非常有说服力的趋势时,研究它在哪些方面不成立就会变得非常有趣。

但我通常的第一反应是:如果 Scaling Law 不再成立,很可能是我们在训练过程中“搞砸了”,比如可能是网络架构设计错了,或者训练过程存在某种瓶颈,或者使用的算法在精度上出了问题。所以,如果真要说服我相信 Scaling Law 不再适用,那可能得有非常强的证据。因为过去五年我的经验是:每次我们以为 Scaling Law 失效的时候,其实都是我们的训练方法出现了问题。

主持人:有趣。那我追问一个更具体的问题。要继续沿着这条规模曲线走下去,我们需要大量算力。如果将来算力越来越紧缺,你们会在精度上探索到什么程度?比如探索 FP4、三值表示之类的路径?

Jared Kaplan: 是的,这个问题非常关键。现在的 AI 其实是非常“低效”的。但因为 AI 的价值很高,所以大家都在争先恐后地去“解锁最强模型”。Anthropic 和其他公司也在努力让训练和推理都更高效,同时也在尽量逼近能力上限。

长期来看,我认为我们会显著降低训练和推理的成本。现在每年在算法上,我们通常能看到 3 倍到 10 倍的效益提升,计算规模有所扩大,推理效率也提高了。有个玩笑说,“我们终有一天会让 AI 回归二进制运算。” 所以我认为,我们将看到精度大幅降低,降低精度成为提高效率的众多途径之一。

不过,目前 AI 的发展非常不平衡。AI 在快速进步、事情在迅速变化,模型能力没有完全解锁,但我们在释放越来越多的功能。等哪一天 AI 的发展速度变慢,我们也许才会看到成本极低的 AI,我认为这是平衡的状态,但现在很难说是否会到那一步。也许 AI 会一直快速进化,以至于我们更关心能力的提升,而不是去追求更低的计算精度。

主持人:这其实就像“杰文斯悖论”,当 AI 智能越来越强,人们反而会越来越依赖它,需求增长速度可能会超过成本下降。

Jared Kaplan : 没错。而且我认为,未来 AI 越能代替人类完成各种工作,我们就越愿意为“能力顶尖”的模型买单。

我一直在思考一个问题:AI 的大部分价值是否都集中在“前沿模型”上?有没有可能“低配版 AI”也能创造大量价值?我觉得有个重要的维度是“时间跨度”:简单的任务有很多,但用能力强的模型去做复杂任务,会比我们用弱模型一点点拆分更高效。所以我确实认为,大部分价值可能还是来自最强模型。但也不排除我看错了,也许这取决于“AI 整合者”能不能用弱模型实现高效协作。

主持人:今天观众大多数还处于职业早期,你觉得未来在 AI 越来越强的时代,他们该如何保持“不可替代”?

Jared Kaplan: 我觉得,如我前面说的,了解这些模型的工作原理,并能高效地将其整合到实际场景中,将是非常宝贵的技能。此外,能够在“能力前沿”构建产品也是一种巨大的价值。

观众提问

观众 1: 我想问一个关于 Scaling Law 的问题。你展示了模型性能提升和计算资源之间是线性关系,也就是说计算呈指数增长,但模型能力提升是线性的。但是在你最后一张幻灯片上,你却展示了一个“时间节省量”突然呈现指数增长的趋势。为什么前面是线性,而后面突然是指数?

Jared Kaplan: 好问题!老实说,我也不知道(笑)。这个现象主要是来自经验观察。我的理解是,要完成更复杂、更长时间跨度的任务,真正需要的是“自我纠错”的能力。你要能够发现自己的错误:你制定了一个计划,然后开始执行,但执行过程中总会出问题,这时你要能意识到错误,并进行修正。

所以,我认为决定模型能完成的任务时间跨度,很大程度上就是它们发现自己出错并纠正错误的能力。这不一定需要并不需要大量的信息,也不一定需要智能有巨大的提升,有时候只需要多识别出一两次错误并修正,就能把任务推进得更远,比如你本来做到一半就卡住了,现在能坚持的时间可以延长了一倍。这种小幅度能力增长可能会带来指数级的“时间任务跨度”提升。

当然这只是我的一种理解,真正有趣的其实是这些经验趋势本身。也许我们以后能建模出更合理的解释,但现在,我和你一样,只能说这是我们的猜测。

观众 2: 我也有一个关于“任务时间跨度”的问题。我理解神经网络就是“你想让它做什么,就用这样的数据去训练它”。所以如果你想延长时间跨度,那就要有更长周期的监督信号。比如 Claude Agent,通过实际部署获得验证信号,然后不断用这些数据来改进模型。我的问题是,这个方法在代码领域很有效,因为代码产品足够好,可以上线后回收信号。但在其他领域我们该怎么做?难道只能持续扩大标签数据集直到实现 AGI?有没有更好的方法?

Jared Kaplan: 这是个很好的问题。其实每当有人问我“你为什么认为我们能实现类人智能”时,我的回答就是你刚说的那条路——虽然很繁琐,但理论上是可行的:你持续构建更复杂的任务,延长时间跨度,然后不断地用 RL 去训练模型来完成这些任务。最坏的情况下,我们能用这种“纯人力堆叠”的方式来实现突破。考虑到现在 AI 投入的规模和潜在的巨大价值,我相信即使很麻烦,也会有人去做。

话虽如此,我认为肯定有更好的方法,比如训练一个 AI 去监督另一个 AI。就像在训练 Claude 时,让另一个模型来监督,它不只是判断你是否正确完成了极其复杂的任务。打个比方,你是否能成为一名终身教授可能需要六七年的时间验证,但这放在模型训练上的话就太荒谬了,效率太低了。相反,它可以提供更详细的监督,告诉你哪些地方做得好,哪些地方做得不好。这种细粒度监督能力,会让我们在训练“长时间任务”时效率大大提升。我们现在其实已经在这么做了。

观众 3: 当你们构建这些 RL 任务时,会不会尝试用大型语言模型自动生成任务?还是说目前仍主要依靠人类?

Jared Kaplan : 好问题。我们现在是“混合”模式:尽可能用 AI 来辅助构建任务,比如生成代码任务,但我们也会请人类参与任务设计。未来,AI 越强,我们就越能依赖它来构建训练数据。不过,随着任务难度提升,人类仍然会发挥重要作用。

声明:本文为 AI 前线翻译整理,不代表平台观点,未经许可禁止转载。

直播预告

AI 不只是炫技,更在重构产品与体验。来自 Plaud、Rokid、拂曦科技的硬核创业者联袂分享,揭秘 AI 硬件从出货百万到持续进化的底层逻辑。扫码预约直播。

资讯配图

会议推荐

首届 AICon 全球人工智能开发与应用大会(深圳站)将于 8 月 22-23 日正式举行!本次大会以 “探索 AI 应用边界” 为主题,聚焦 Agent、多模态、AI 产品设计等热门方向,围绕企业如何通过大模型降低成本、提升经营效率的实际应用案例,邀请来自头部企业、大厂以及明星创业公司的专家,带来一线的大模型实践经验和前沿洞察。一起探索 AI 应用的更多可能,发掘 AI 驱动业务增长的新路径!

资讯配图

今日荐文

双“雷”暴击!Trae 被曝资源黑洞、Claude背刺超级付费党,开发者们被“刀”惨了

从被100家VC拒绝到英伟达、字节抢着投,AI视频独角兽CEO揭秘“奇葩”用人哲学:不招精英

字节扣子 Coze 开源;饿了么前CEO被抓审讯画面公开;华为首次展出“算力核弹”真机|AI周报

996 工作制席卷硅谷!招聘启事惊现“加班警告”:接受就是年薪翻倍+股权暴增,不接受就滚蛋

“AI大神”李沐终于开源新模型,爆肝6个月,上线迅速斩获3.6k stars!

资讯配图

你也「在看」吗?👇