编者按:本文将探讨为何具有前瞻性的AI建设者,已从RAG转向「推理+强化学习」的新路径,并分享他们为后来者绘制的蓝图。

2025年7月26日


在不久前举行的ICML(国际机器学习大会)上,面向大语言模型的强化学习技术,成为了全场的核心议题。

这印证了我近几个月的观察:AI创业者的重心,已从知识检索(RAG),转向了更深层的推理与决策。

周一发生的一件事,让我对这一趋势有了切身体会:谷歌和OpenAI利用先进的推理与强化学习技术,在国际数学奥林匹克竞赛中双双夺金。

这是AI系统有史以来首次企及这一高峰,也无可辩驳地证明了「推理+强化学习」这一组合的强大威力。

强化学习并非新技术。那么,它为何突然复兴?更重要的是,这对AI领域的创业者们,究竟意味着什么?

推理+强化学习让软件吞噬服务

答案很简单:强化学习之所以重回舞台中央,是因为我们要求AI系统为实现商业目标去思考、行动和适应。

大规模的预训练,已为现代大语言模型绘制了广阔的语言地图。下一个前沿,是让它们真正地去完成工作。

这意味着,我们必须教会它们如何推理,以及如何为了一个目标,执行连贯的多步行动。

这正是强化学习的用武之地。它通过反馈与奖励机制来训练模型,使其能从结果中学习,并持续优化决策

在经典的强化学习设定中,AI智能体每采取一个行动,环境都会返回一个奖励信号,用以评估该行动的优劣。久而久之,智能体会不断调整策略,以求获得更多理想的结果。

在过去九个月里,从OpenAI的“o”系列到DeepSeek的R1,再到谷歌的Gemini 2.0,强化学习是催生这一系列新推理模型的关键。

伴随着新一代基础模型的浪潮,这套「推理+强化学习」的配方,也正在驱动一类以代理、工具使用和长远决策为核心的新型AI应用。

正如Kabir所说,真实世界的企业流程,常常横跨数十个系统和数千个条件步骤。在关键时刻的一个微小决策,就可能让结果产生数量级的差异。

我们需要的,是能够规划、适应和行动的模型,而不仅仅是会思考的模型。推理与强化学习的结合,正在有效地教会它们做到这一点。

强化学习的时机已到

为何我们现在看到强化学习,作为AI发展的核心向量再度崛起?为何是它,而不是合成数据或新的模型架构?

答案是多方面的,但以下几个因素至关重要:

回归OpenAI的初心

远在ChatGPT问世之前,OpenAI就在致力于构建游戏智能体,教机器人还原魔方,并深耕强化学习算法。如今,钟摆又摆回了那个方向。

如果引领这股潮流的是另一家公司,比如Meta,我们今天听到的或许会更多是关于社交数据或个性化的故事。

预训练与微调的瓶颈

过去一年,单纯依靠扩大预训练规模带来的性能提升已开始放缓。预测下一个词,并不能直接优化解决复杂问题的能力

像GPT-4这类模型虽知识渊博,但在长任务中仍会犯下简单的推理错误。对特定领域数据进行微调,虽能提升专业性,却无法从根本上教会模型如何解决新问题。

而强化学习,恰恰能推动模型在这些能力上走得更远。

对新数据的渴求

到2023年,模型几乎消化了整个互联网。这意味着,通过预训练能获取的新知识已所剩无几。

强化学习通过与真实世界的交互来为特定目标进行优化,从而生成了它自己的训练数据。

从建设者的视角看,它回答了一个关键问题:如何为我的应用获取最相关的数据?答案是,不要凭空捏造,而要让模型在你的应用场景中直接训练,从真实的决策里学习。

强化学习技术的精进

AI社区发现,给模型更多时间去思考,能产出更好的结果。为了利用这一点,我们需要更有效的方法来管理思考过程。

这一认识催生了新的研究方向,例如将大语言模型与新颖的强化学习算法(如DeepSeek团队的GRPO)融合。

这使得模型能在一个充满可能性的空间中探索不同路径,并学会判断哪种策略的成功率最高。强化学习方法的成熟,让挑战推理能力的极限成为可能。

AI应用的演进之路

许多早期的AI应用,不过是围绕搜索引擎或向量数据库的简单封装。开发者的工作,主要是设计检索策略,再让大语言模型合成答案。

如今,一个推理代理可以将任务分解为多个步骤,规划路径,按需收集信息,并最终整合出结果。

关键在于,整个工作流的学习和处理,都可以由模型自己完成。

让我们用一个具体例子来说明。假设用户提问:Gong和Clari这两种产品有何区别?

RAG的方式(旧方法)

基于RAG的系统会接收这个查询,然后在网上搜索提及Gong与Clari对比的页面。假设它找到了10篇相关文章,便将这些文章的片段喂给大语言模型,并生成一份摘要。

如果答案不理想,开发者会通过优化搜索、增加上下文或扩展查询(例如搜索Gong定价或Clari功能)来改进。本质上,这是开发者在手动调整检索策略。

这与谷歌等搜索引擎多年来的焦点相似:根据用户查询,找到并排序最相关的结果,最后由大语言模型一次性总结。

推理代理的方式(新方法)

一个推理代理会通过自主思考来解决这个问题。它可能会在内部规划:用户想比较Gong和Clari。我应该分别查找它们的功能、定价和用户评价,以及任何直接的对比文章。

随后,代理会生成一系列行动:执行多次搜索(如Gong产品特性、Clari与Gong案例分析),每次都阅读结果并决定下一步。它甚至可能根据新发现,分支探索更多细节。

最后,它将所有发现综合成一个完整的答案。这一切,从规划到执行再到综合,都由模型自身的推理策略驱动。

简而言之,控制逻辑正在从人类转移到AI。

最前沿的建设者们,正将时间从优化提示词工程和检索策略,转向训练AI系统本身去处理这些逻辑

这对AI建设者意味着什么

这一切对创业者而言意味着什么?以下是我们观察到的一些早期最佳实践:

1. 将推理视为你产品的超能力

推理模型起初是前沿但缓慢的研究原型。但我们都清楚技术演进的规律:今天的昂贵模型,数月后就会普及。

优化工作正全面展开,旨在让推理模型更高效、更小巧,并能在专用硬件上运行。很快,那些曾因延迟或成本而无法实现的应用场景将向我们敞开大门。

这意味着,你应为按需推理成为产品的核心功能做好准备。找出那些因AI反应浅薄而让用户失望的环节。

思考一下,在哪些地方,如果AI能分解复杂请求、追求子目标并跨越多步整合信息,你的产品体验会实现10倍的飞跃?

2. 专注于领域特有的理解与评估

在过去的范式中,拥有海量数据(如保险公司的理赔指南)就意味着护城河。你可以通过微调或RAG,打造一个领域专家机器人。

但在新范式中,静态数据已不再足够。我们预见,构建高性能推理代理最艰难的部分,将是为你的特定领域设计出卓越的评估体系和奖励函数。

你的核心知产,将是那个能精准捕捉用户成功的评估框架,以及从用户交互中源源不断产生的动态数据

在编码或数学等领域,评估成功与否相对直接。但在购物推荐、文章写作等模糊领域,则需要创造力。

可以考虑评级系统、人类偏好对比、或代理指标(如点击率)。关键在于,将你的产品直觉转化为清晰、可优化的信号。这没有通用模板,一切始于对你所在领域成功的深刻理解。

3. 从第一天起就为持续改进而构建

在基于强化学习的系统中,每一次用户交互都在加速你的数据飞轮

假设你正在构建一个AI编码助手。每次调试,都会产生丰富的反馈信号:Bug解决了吗?测试通过了吗?开发者的接受度如何?这些结果会立刻成为你强化学习回路的养料。

这创造了一种强大的复利优势:更好的推理带来更满意的用户,更多的使用带来更多的反馈数据,从而催生出更强的推理能力

一个缺乏你这种持续学习能力的竞争对手,即便起点相同,也将被日益拉开差距。

为了利用这一点,从设计之初就要考虑如何捕捉结果并反馈给模型。找到用户体验中的关键决策点,并确保你记录下它们。即便你尚未准备好训练模型,现在就开始收集数据吧,未来你会为此感到庆幸。

4. 用流程数据启动你的推理代理

在RAG范式中,你可能会将一个知识库导入向量存储。而在「推理+强化学习」范式中,你应当构建一个流程知识库。

例如,若要自动化仓库库存管理,你需要收集顶尖运营经理处理复杂问题的完整演练,这可以是带注释的步骤示例、对话记录或工作流程。

这里对领域专业知识的要求远高于RAG。你需要提炼出专家实际会怎么做。一旦拥有这些,你的代理学习效率将大幅提升

请记住:AI系统的优劣,取决于它获得的反馈和指导。提供一些推理的黄金路径示例,是你所能给予的最好指导之一。

5. 为新的失败模式做好准备

基于强化学习的系统会带来新的故障模式,建设者需保持警惕。一个典型问题是奖励投机,即AI找到一个获得高分但违背你初衷的捷径。

为缓解此问题,你需要精心设计奖励函数,并通常包含多重目标或约束。领域知识在此至关重要,它能帮你预见并防范代理可能出现的偏离

另一个问题是不可预测性。强化学习训练的代理,可能会以意想不到的方式解决问题——有时是神来之笔,有时则荒谬可笑。这使得调试比单轮问答系统更为棘手。

在高风险领域,保留「人类在环路中」至关重要。例如,AI代理起草分析报告,但最终决策(如资金转移)必须由人类批准。

你需要内置熔断机制和升级路径。同时,要善用推理过程的透明性:不同于只输出答案的黑箱模型,一个会出声思考的推理代理能让你及时发现并纠正问题。

推理+强化学习的未来展望

我们仍处在这一新范式的黎明时分,但它正以惊人的速度演进。随着行业全面拥抱「推理+强化学习」,我们预计未来一年将出现以下趋势:

更高效的推理器

目前,前沿的推理模型体量庞大且计算昂贵。未来的研究和工程将聚焦于提升效率。

这意味着需要开发更智能的算法来管理模型的思考过程,从而让模型更聪明地利用它们的思考时间。

面向开放任务的更优强化学习技术

我们期待看到更多在语言领域样本高效且鲁棒的强化学习算法。

想象一下,能够从每一次人类反馈或每一次环境试错中榨取最多学习成果的方法。基于模型的强化学习技术也可能成为主流,即AI在行动前先在脑海中模拟结果。

用于反馈和评估的专业工具

我们可能会看到新一代产品和工具的涌现,专门支持「推理+强化学习」的开发流程。

例如,帮助你定义和自动化代理性能评估的平台,或能无缝接入应用以捕捉用户反馈的服务。

任何能降低在新领域中实施反馈闭环门槛的工具,都将极具价值。

推理时代,已然来临

我们正在创造的,是能够自己想明白事情的软件,而不仅仅是知道事情

拥抱推理+强化学习范式的建设者,将创造出下一代脱颖而出的AI产品。

而那些固守RAG的人,或许某天醒来会发现,自己的产品已然过时,就像一个什么都知道,却解不开任何谜题的万事通。

当服务逐渐化为软件,解决谜题的能力,正是价值的核心所在。


一键三连点赞」「转发」「小心心

欢迎在评论区留下你的想法!