论文题目:VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks

论文地址:https://arxiv.org/pdf/2504.05118

创新点

  • 首个在长链式推理(long-CoT)任务中全面超越价值模型无关方法的“价值-模型”框架;仅用 5 000 步就将 Qwen-32B 在 AIME24 上的平均得分从 5 提到 60.4,领先 DAPO 10 分以上。

  • 提出 Length-adaptive GAE:根据响应长度 l 动态调整 λpolicy = 1-1/(αl),一举解决长短序列在偏差-方差权衡上的需求冲突。

  • 引入 Decoupled-GAE:把价值网络更新 λcritic 设为 1.0(无偏)而策略网络仍用较小 λpolicy,切断长轨迹上的奖励衰减链,显著减少训练崩溃。

方法

本文以“价值模型增强的近端策略优化(VAPO)”为核心,把长链式推理任务形式化为 token-level MDP,先固定策略用 Monte-Carlo 回报预训练价值网络 50 步以消除初始化偏差;随后在 PPO 框架内采用双通道 GAE——价值更新用 λ=1 的完整回报,策略更新用长度自适应 λpolicy=1−1/(αl) 的动态系数——为长短不一的响应提供一致的偏差-方差权衡;同时把样本级损失改为 token 级损失,保证长序列每 token 权重平等;在稀疏奖励场景下,组合 Clip-Higher(εhigh=0.28, εlow=0.2)防熵塌陷、正样本 NLL 损失(权重 0.1)强化对正确答案的利用,以及“512 提示×16 次重复”的 Group-Sampling 策略提升对比信号;

AIME 2024 性能曲线:VAPO 与 DAPO 步数-得分对比图

本图横坐标为梯度更新步数,纵坐标为 AIME 2024 平均得分。红色曲线代表 VAPO,蓝色曲线代表此前最佳无价值模型方法 DAPO。图中可见 VAPO 在约 3000 步时已追平 DAPO 的 50 分终点,随后继续上升至 60.4 分并保持平稳;而 DAPO 在 5000 步附近才达到 50 分,直观展示了 VAPO 在训练效率和最终性能上的双重优势。

VAPO 训练动力学三指标曲线

  • (a) 平均响应长度:VAPO(红线)随步数持续增长至 2 000 tokens 左右,DAPO(蓝线)则在中后期趋于平坦,显示 VAPO 能稳定激发更长推理链。
  • (b) 奖励分数:VAPO 曲线上升更快、更平滑,且最终稳定在 0.7 以上;DAPO 则抖动明显、收敛更慢。
  • (c) 生成熵:VAPO 的熵值先快速下降后保持在适中水平,既抑制了过度探索又未出现熵塌陷;DAPO 熵值下降更剧烈,后期几近塌缩,对应其性能 plateau。三幅子图共同刻画了 VAPO 在长度扩展、奖励增长与探索稳定性上的综合优势。

实验

本表提供了 VAPO 算法在 AIME24 基准测试上的消融研究结果,详细展示了各个关键组件对最终性能的贡献。表中列出了从基础的 Vanilla PPO 算法到完整 VAPO 算法的各个版本在 AIME24 上的平均得分。Vanilla PPO 由于价值模型学习崩溃,最终得分仅为 5 分,表现为响应长度急剧缩短,模型直接给出答案而跳过推理过程。而完整的 VAPO 算法最终达到了 60 分,相较于基础 PPO 有了显著提升。结果表明,VAPO 中的每一项改进都对最终的高性能有着不可或缺的贡献,且这些改进相互协作,共同提升了算法的整体性能。

-- END --


最后对强化学习创新感兴趣的可公众号后台私信‘加群’或者扫描下方👇二维码进入强化学习交流群!
图片

关注“学姐带你玩AI”公众号,回复“RL优化

领取2025强化学习优化方案合集+开源代码

往期推荐:





强化学习+组合优化创新!快速学会登上CCF-A的热门组合


强化学习+多目标优化,get到这种思路,发一区TOP就不远了!


强化学习的大杀器!登上《Nature》正刊!


爽!强化学习+注意力机制,吞吐量提升了10多倍!


发论文idea来了!强化学习+Transformer,29个创新点汇总



ACCEPT
据说点赞的都Accept了!
图片