Qwen2.5-1.5B-distill 模型的 RL 优化（二）：代码和数学训练的相互提升

大模型之心Tech
2025-07-30 08:00:00

作者 | Kangkang 编辑 | 大模型之心Tech
原文链接：https://zhuanlan.zhihu.com/p/1923452055974057469

点击下方卡片，关注“大模型之心Tech”公众号

本文只做学术分享，如有侵权，联系删文，自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

最近给自己当前做的事情写了个使命：

The Archer series focuses on research into RL algorithms and training for medium and small-scale models, aiming to deepen the community's understanding of the fundamental principles of reinforcement learning (RL) on large language models (LLMs). All released content will be comprehensively open-sourced to advance community research development.

目前的实验主要集中在 1.5B 模型上，之前主要搞代码，这两周连着数学一起跑了，idea太多，一点一点整理share 吧。。。

目前行业内以 DeepSeek-R1-Distill-Qwen-1.5B 为 Base model 进行 RL 训练的工作，结果比较靠前的应该就两个：

Agentica-project 的 rllm https://huggingface.co/agentica-org
数学模型：https://huggingface.co/agentica-org/DeepScaleR-1.5B-Preview
代码模型：https://huggingface.co/agentica-org/DeepCoder-1.5B-Preview
Nvidia 的 ProRLhttps://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B，是个数学+代码的综合模型

也是我们工作的主要对比对象，其中 rllm 人家是把代码，数据，日志，模型都开源出来了，ProRL好像只开源了最终的模型。

老规矩，先上下评测结果，表格里所有的模型默认以 temp=0.8 top_p=1.0 n=32 进行评测，另外也补充了Nvidia ProRL的 Nemotron-1.5B temp=0.6 top_p=0.95 n=16 的结果，以和论文里的评测结果对齐（lcb的评测都采样 4 次，表里的结果是我最近跑的，所以和上一篇文章里的数值上有点小差异）；

模型0: 是所有工作的base model， DeepSeek-R1-Distill-Qwen-1.5B 的评测效果；
模型1: 是 agentica 的数学模型 deepscaler；
模型2: 是 agentica 的代码模型 deepcoder；
模型3: 是 nvidiia 的 ProRL，综合了数学+代码训练；
模型4: 是我们训的数学模型；
模型5: 是我们训的代码模型；
模型6: 是我们的数学+代码整合的模型，在数学模型的基础上，继续代码的训练（还在训，出结果了补充上来）；

然后整理下从评测结果上的几点观察思考 ：

一、单独进行 代码训练 ，代码效果提升的同时，也能够同步 显著提升数学上的表现 ，对比0和2，以及0和5，2和5都是单纯的代码训练，但是最后模型在 aime2024 和 aime2025 上的表现相比 base model 0 都有显著的提升;

1.1 aime2024—— 0.2802->0.4177, 0.2802->0.3958，分别提升了 13.7 和 11.5 个点；

1.2. aime2025—— 0.2240->0.2823, 0.2240->0.2615，提升 5.83 和 3.75；

二、相应的，单独的 数学训练 ，也能给代码带来一定的提升，对比0和1，以及0和4，lcb 都提升了4个点左， RL训练所带来的能力提升确实有一定的迁移性 ；

三、 Pass@N 上的提升 : RL 训练后的模型，虽然在pass@1上都有不同幅度的提升，但是在pass@N的提升表现上不同测试集上有所差异。

在 aime2025 和 Lcb v5上 pass@N，还是有一定的提升的，一定程度上可以说明模型的能力是有提升的；
但是在 aime2024上，pass@32几乎没有任何提升，相比于base模型，RL训练只是提升的采样的准确性；
qwen2.5 预训练阶段大概率是见过 aime2024 中的题了 ，要不然怎么会 pass@1上的提升显著高于在 aime2025 和 lcb 上的提升幅度，而在pass@N 却不如两者呢，细品一下，是不是这么个事；

最后，我想说的是：

第一，从我自己这边以及其他开源的工作来看，RL训练是能够带来模型推理能力的提升是没问题的，这种 提升来自于通过反思、规划等思考方式对基座模型基础能力的整合，而不是对模型的原始知识记忆的修改或者加减乘除之类的原子能力的提升 ；
第二，显而易见，对于基座模型本身多次采样就可以回答上来的题，RL训练能够显著提升top1的准确性，这一点在落地时也是大有用处的。

四、对于 数学和代码，先后训练 的问题，在此前的工作中，大家采用的多是先数学，后代码的两阶段训练方式，例如 nvidia 的另一篇工作 AceReason-Nemotron 。但是从上面的结果上看，先训练代码，数学上也会有显著的提升，所以先训练哪个两种方式我都准备实验下，再对比分析下差异，后续有结果再同步出来。

大模型之心Tech知识星球交流社区

我们创建了一个全新的学习社区 —— “大模型之心Tech”知识星球，希望能够帮你把复杂的东西拆开，揉碎，整合，帮你快速打通从0到1的技术路径。

星球内容包含：每日大模型相关论文/技术报告更新、分类汇总（开源repo、大模型预训练、后训练、知识蒸馏、量化、推理模型、MoE、强化学习、RAG、提示工程等多个版块）、科研/办公助手、AI创作工具/产品测评、升学&求职&岗位推荐，等等。

星球成员平均每天花费不到0.3元，加入后3天内不满意可随时退款，欢迎扫码加入一起学习一起卷！

资讯配图

声明：本文内容及配图由入驻作者撰写或合作网站授权转载。文章观点仅代表作者本人，不代表科技区角网立场。仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。点击这里

点赞 (0)
分享
微信扫一扫
加入群聊
扫码加入群聊