建议大模型RL训练的都来看看字节VAPO

论文题目：VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks

论文地址：https://arxiv.org/pdf/2504.05118

创新点

首个在长链式推理（long-CoT）任务中全面超越价值模型无关方法的“价值-模型”框架；仅用 5 000 步就将 Qwen-32B 在 AIME24 上的平均得分从 5 提到 60.4，领先 DAPO 10 分以上。
提出 Length-adaptive GAE：根据响应长度 l 动态调整 λpolicy = 1-1/(αl)，一举解决长短序列在偏差-方差权衡上的需求冲突。
引入 Decoupled-GAE：把价值网络更新 λcritic 设为 1.0（无偏）而策略网络仍用较小 λpolicy，切断长轨迹上的奖励衰减链，显著减少训练崩溃。

方法

本文以“价值模型增强的近端策略优化（VAPO）”为核心，把长链式推理任务形式化为 token-level MDP，先固定策略用 Monte-Carlo 回报预训练价值网络 50 步以消除初始化偏差；随后在 PPO 框架内采用双通道 GAE——价值更新用 λ=1 的完整回报，策略更新用长度自适应 λpolicy=1−1/(αl) 的动态系数——为长短不一的响应提供一致的偏差-方差权衡；同时把样本级损失改为 token 级损失，保证长序列每 token 权重平等；在稀疏奖励场景下，组合 Clip-Higher（εhigh=0.28, εlow=0.2）防熵塌陷、正样本 NLL 损失（权重 0.1）强化对正确答案的利用，以及“512 提示×16 次重复”的 Group-Sampling 策略提升对比信号；

AIME 2024 性能曲线：VAPO 与 DAPO 步数-得分对比图

本图横坐标为梯度更新步数，纵坐标为 AIME 2024 平均得分。红色曲线代表 VAPO，蓝色曲线代表此前最佳无价值模型方法 DAPO。图中可见 VAPO 在约 3000 步时已追平 DAPO 的 50 分终点，随后继续上升至 60.4 分并保持平稳；而 DAPO 在 5000 步附近才达到 50 分，直观展示了 VAPO 在训练效率和最终性能上的双重优势。

VAPO 训练动力学三指标曲线

(a) 平均响应长度：VAPO（红线）随步数持续增长至 2 000 tokens 左右，DAPO（蓝线）则在中后期趋于平坦，显示 VAPO 能稳定激发更长推理链。
(b) 奖励分数：VAPO 曲线上升更快、更平滑，且最终稳定在 0.7 以上；DAPO 则抖动明显、收敛更慢。
(c) 生成熵：VAPO 的熵值先快速下降后保持在适中水平，既抑制了过度探索又未出现熵塌陷；DAPO 熵值下降更剧烈，后期几近塌缩，对应其性能 plateau。三幅子图共同刻画了 VAPO 在长度扩展、奖励增长与探索稳定性上的综合优势。

实验

本表提供了 VAPO 算法在 AIME24 基准测试上的消融研究结果，详细展示了各个关键组件对最终性能的贡献。表中列出了从基础的 Vanilla PPO 算法到完整 VAPO 算法的各个版本在 AIME24 上的平均得分。Vanilla PPO 由于价值模型学习崩溃，最终得分仅为 5 分，表现为响应长度急剧缩短，模型直接给出答案而跳过推理过程。而完整的 VAPO 算法最终达到了 60 分，相较于基础 PPO 有了显著提升。结果表明，VAPO 中的每一项改进都对最终的高性能有着不可或缺的贡献，且这些改进相互协作，共同提升了算法的整体性能。

-- END --

最后对强化学习创新感兴趣的可公众号后台私信‘加群’或者扫描下方👇二维码进入强化学习交流群！

关注“学姐带你玩AI”公众号，回复“RL优化”

领取2025强化学习优化方案合集+开源代码

往期推荐:

强化学习+组合优化创新！快速学会登上CCF-A的热门组合

强化学习+多目标优化，get到这种思路，发一区TOP就不远了！

强化学习的大杀器！登上《Nature》正刊！

爽！强化学习+注意力机制，吞吐量提升了10多倍！

发论文idea来了！强化学习+Transformer，29个创新点汇总

ACCEPT

据说点赞的都Accept了！

声明：本文内容及配图由入驻作者撰写或合作网站授权转载。文章观点仅代表作者本人，不代表科技区角网立场。仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。点击这里

点赞 (0)
分享
微信扫一扫
加入群聊
扫码加入群聊