为什么不推荐研究生搞强化学习研究？

大模型之心Tech
2025-07-20 08:00:00

作者 | Kit Kitkat 编辑 | 大模型之心Tech
原文链接：https://www.zhihu.com/question/1900927726795334198

点击下方卡片，关注“大模型之心Tech”公众号

戳我-> 领取大模型巨卷干货

>>点击进入→大模型没那么大Tech技术交流群

本文只做学术分享，如有侵权，联系删文，自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

写在前面

我已经很久没答学术上的问题了，因为最近审的申请书一半都是强化学习相关的？所以知乎老给我推强化学习的各种东西……我就来简单的谈一谈强化学习吧。

强化学习如果说你要是读到硕士研究生为止，哪怕你读的是清华北大的，最重要的基本功就是调包，搞清楚什么时候该调什么包就可以了，其次就是怎么排列组合，怎么缩小解空间，对一些算法只需要有个基本的流程性了解就好了。

如果你读的是博士，建议换个方向，我觉得在现在的强化学习上雕花就是浪费时间和生命，当然你要是以发很多papers，混个教职当然可以，就是你可能很久都做不出真正很好的工作来，混口饭吃也不注重这个。

我对强化学习的感受就是古老且原始，感觉就好像现在我还拿着一个iphone 初代在用，没有原生多任务，有好多研究者给这个上头魔改了一下做了个伪的多任务，但是仍然改变不了它的本体是2g手机的本质，所以在上面折腾来折腾去的意义有限。

或者从另一个角度来看，我耳边响起了星际穿越这部电影的配音。

强化学习主线

强化学习的主线，可以按照两种方法来分：

A. Model based/ Model Free B. Value-based/Policy-based （+混合 AxC），数学上掌握起来不难，一般懂的人给讲一讲一个周基本上各种各样的算法全部都能掌握了，本质都差不多的。

写的具体一点就是：

1.1 Value-based
1.2 Policy-based

Model-based

2.1 Value-based
2.2 Policy-based
2.3 Actor-Critic

Model-free

这些方法都建立在MDP这个上头，说的更加符合课本一点，其基础就是贝尔曼公式、时序差分、蒙特卡洛这个东西，后面对RL的所有攻击基本上都是基于这三个最核心的内容。

为什么不推荐搞强化学习研究？

说说为啥我不推荐搞强化学习研究，我发现极少人愿意去讲强化学习的这些问题，可能是怕说了以后影响门派香火吧：

我先提一提本质上的第1个问题：样本利用效率低

我原来最早入门机器学习的课本是概率图模型（PGMs），所以对这些比较敏感一点，我感觉强化学习就是利用蒙特卡洛（MC）或时序差分（TD）方法，近似地做动态规划。所以PGMs当年遇到的样本利用效率极低的问题，强化学习也跑不了。

所以很多解决方案一看就很熟悉了，就是把当年PGMs里面那一套移植了一下：

模型学习与结构化建模：像PGM一样显式学习环境动态的概率结构（如状态转移和奖励分布），利用模型生成“虚拟经验”或做规划。流派：Model-based RL等。
变分推断与贝叶斯方法：借鉴PGM的变分推断和贝叶斯推断，建模策略/价值函数/环境参数的不确定性，用于高效探索和样本复用。流派：Bayesian DQN、Bayesian Policy Optimization、Soft Actor-Critic等。
重要性采样与加权经验复用：利用PGM里的重要性采样思想，对采集到的经验进行加权复用，提高样本利用率。流派：离线RL、优先经验回放等。
层次化结构与因果推断：借鉴PGM的层次化和因果建模思想，分层抽象决策和归因，提升泛化与数据利用率。流派：Hierarchical RL等。
消息传递与结构化规划：PGM中的信念传播和结构化推断，可在RL的多智能体、网络化环境等情形下提升局部决策效率和样本共享。流派：某些多智能体RL。

最终结论：当年PGMs搞这个搞定了没有？明显没有！这些东西可能在强化学习里面看起来很复杂，但是这个是PGMs的基础理论，要是不会我上头说的这些推导，你基本上等于没有学过PGM。你说RL能在这个框架下搞定样本利用率低的问题吗，我个人觉得，显然不能，这个是框架决定了上限，你和我说一个2G手机改改能和5G的上网一样快？如果真的可以，我反而觉得PGMs的复活会比RL更早。

我再说说第2个问题吧：泛化能力堪忧！

这个我们在做PGMs的时候也同样遇到的，RL事实上问题的症结也是类似的，就是假设太强了。

PGM的强假设很多体现在公式“背后”, PGM的很多假设体现在模型结构、推断过程和理论证明里，往往是“间接”的。

独立同分布（IID）：虽然所有采样和期望都假设样本独立，但PGM推断/估计过程中很少会在主公式上直接写出IID，而是隐含在分布分解与采样机制里。

马尔可夫性：PGM的马尔可夫假设（如一阶马尔可夫链、马尔可夫网络等），更多作为结构约束体现在图结构里，不总是在损失/目标函数上显式出现。

共轭分布：选择共轭分布主要是为了推断可解和计算方便，也很少在优化目标里直接体现，而是在参数更新和边缘化步骤才用上。

RL的强假设往往更“显式”更“硬”, RL中的这些假设常常作为更新规则的直接依据，公式“表面”就能看到，一旦假设被破坏，算法很容易失效。

马尔可夫性：Bellman方程、策略评估、TD误差等都直接假定下一步只由当前状态和动作决定，这在所有RL的核心公式里明晃晃地写着。

IID与经验复用：很多RL方法在采样或经验回放时，直接要求数据独立且分布不变，但现实中经验池、环境变化导致分布漂移问题极其突出。

奖励函数与环境动力学：RL几乎所有公式都假定奖励和状态转移分布是已知或能被模型学到的，现实中常常难以满足。

结论：首先，这些假设是在是太强了，根本不符合实际，其次，相比之下我觉得PGM会稍好一点，RL可以改的和PGM差不多，把PGM那个东西也可以移植一部分进来，那一弄不就是PGM的翻版了。同样的，当年PGMs解决这个问题了吗，没有没有没有！

别的问题我就不多说了，就是这两个问题事实上是RL当前遇到大困境的来源，那怎么办，解决的方案其实就是把RL自己的命给革了，这个就是Bellman equation，TD， MC带来的本质性问题。如果RL的发展方向是搞各种算法移植PGMs的思想的话，那PGM的昨天不就是RL的明天吗？RL其实最应该做的就是重新思考大框架，就像手机一样，2G时代终将落幕，希望今后的研究者带我们进入一个新的世界。

最后再说一句

其实RL也没有那么不行，当年做统计机器学习的时候不也是有很多很好的应用，在有限的条件下可以用RL。

RL的具体思路和深度学习的思路不太一致，这个从我上面的分析中也能看出来，因此RL可以作为辅助性方法，千万不要把RL当成一个主方法，当你用其他方法真的没法解决的时候，用一下RL死马当活马搞一下看看。
如果要真的用RL，其中最关键的是要严格定义RL的搜索空间，缓解采样效率低的问题，另外最好能根据先验限制RL的应用环境，避免泛化性能弱的问题。

大模型之心Tech知识星球交流社区

我们创建了一个全新的学习社区 —— “大模型之心Tech”知识星球，希望能够帮你把复杂的东西拆开，揉碎，整合，帮你快速打通从0到1的技术路径。

星球内容包含：每日大模型相关论文/技术报告更新、分类汇总（开源repo、大模型预训练、后训练、知识蒸馏、量化、推理模型、MoE、强化学习、RAG、提示工程等多个版块）、科研/办公助手、AI创作工具/产品测评、升学&求职&岗位推荐，等等。

星球成员平均每天花费不到0.3元，加入后3天内不满意可随时退款，欢迎扫码加入一起学习一起卷！

声明：本文内容及配图由入驻作者撰写或合作网站授权转载。文章观点仅代表作者本人，不代表科技区角网立场。仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。点击这里

点赞 0
分享
微信扫一扫
加入群聊
扫码加入群聊