【AI】Transformer终结者！谷歌DeepMind全新MoR架构问世，新一代魔王来了

【导读】Transformer杀手来了？KAIST、谷歌DeepMind等机构刚刚发布的MoR架构，推理速度翻倍、内存减半，直接重塑了LLM的性能边界，全面碾压了传统的Transformer。网友们直呼炸裂：又一个改变游戏规则的炸弹来了。

就在刚刚，KAIST、Mila和谷歌DeepMind团队等放出重磅炸弹——

一个名为Mixture-of-Recursions的全新LLM模型架构。

这个崭新的架构，被业内认为有潜力成为Transformer杀手！

它的推理速度提升2倍，训练FLOP减少，KV缓存内存直接减半。

最终，在135M到1.7B的参数规模下，MoR直接划出了一个新的帕累托前沿：相同的训练FLOPs，但困惑度更低、小样本准确率更高，并且吞吐量提升超过2倍。

全面碾压传统的Transformer！

论文链接：https://arxiv.org/abs/2507.10524

其实，学界很早就发现，Transformer复杂度太高，算力需求惊人。

比如最近CMU大牛、Mamba架构作者Albert Gu就表示，Transformer模型能力的局限太大，所谓token就是胡扯。

而谷歌产品负责人Logan Kilpatrick公开指出了注意力机制的缺陷——不可能实现无限上下文，还强调必须要在核心架构层进行全面创新。

今天谷歌DeepMind的这项研究，和这些大牛的观点不谋而合了。

对此，网友们纷纷表示实在炸裂。

有人预测，潜在空间推理可能会带来下一个重大突破。

显然，对于代码、数学、逻辑这类分层分解问题的任务，MoR都是一个改变游戏规则的重磅炸弹。

甚至还有人评论道：看起来像是Hinton的胶囊网络重生了。

谷歌DeepMind放大招

递归魔法让LLM瘦身还提速

LLM发展到如今，接下来该怎样做？靠堆参数、加层数，让它更聪明吗？

这项研究告诉我们：真正的高手，从来都不是靠堆料，而是靠设计的艺术。

这次他们做出的MoR全新架构，直译出来是「递归混合体」，直接让LLM推理速度噌噌翻倍！

所以，MoR究竟做了什么？

简而言之，它做了以下两点。

1. 不对所有token一视同仁

LLM在处理文本时，会把句子拆成一个个token，不过，像「的」「是」「在」这种词，并不需要多高深的推理，只需要一次前向传播就够了。而复杂的token，则需多次经过同一层栈。

MoR的聪明之处就在于，因token而异。

MoR的秘密武器是小型路由器，会为每个token的隐藏状态打分，仅高分token的会继续循环，其余的则提前退出。

2. 循环复用：一个模块搞定全部

传统Transformer的思路就是不断「堆层」，堆得越高，处理能力越强。但这样的代价，就是内存和算力：模型会越来越慢，越来越贵。

而MoR则反其道而行之，专门设计了共享块，每个token最多循环4次，只要路由器说「完成」，就提前跳出循环。

总之，如果说Transformer是一个庞大的工厂流水线，那MoR就更像一支高效的特种部队。未来的AI，恐怕不会再比拼谁更重，而是谁更会分工调度、节省力气。

而谷歌DeepMind，已经敏锐地把握到了这一点，给我们演示了这一趋势的早期范本。

真自适应计算

只靠Scaling law，把语言模型做大，确实能让它能力暴涨，但训练、部署所需的算力和成本也跟着暴涨。

现在常见的「瘦身」招数，要么是把参数共享（省显存），要么是按需计算（省算力）。

但目前仍缺乏一种能将两者有机融合的架构。

「递归混合」(Mixture-of-Recursions, MoR)，充分发挥了递归Transformer的潜力（见图1），成功融合了两者。

图1：递归混合（Mixture-of-Recursions,MoR）概览

（左）每个递归步骤包含固定层堆栈和决定token是否继续递归的路由器（中间灰框区域）。

（中）完整模型结构，其中共享递归步骤根据路由决策对每个token最多应用𝑁𝑟次。

（右）展示token级递归深度的路由模式示例，颜色越深表示该token在递归块中的计算越活跃。底部数字以不同颜色标注各文本token的递归步数：1步、2步和3步。

在统一的架构中，MoR同时实现了三种效率优化：

通过共享权重压缩参数量；通过动态路由减少冗余计算；通过智能缓存减少内存开销。

递归混合架构

在预训练和推理过程中，MoR为每个token动态调整递归步骤，依赖两大组件：

路由机制和KV缓存策略。

路由机制：专家选择vs.token选择

受top-k门控机制的启发，研究人员提出了专家选择路由（Expert-choice routing）（见图2a）。

在这种模式下，递归深度可看作「专家」，每轮递归时这些专家会挑选它们认为最值得处理的top-k个token。

为了让递归更具一致性，团队还引入了分层筛选机制（hierarchical filtering）：只有在第r层中被选中的token，才有资格参与第r+1层的评估。

这一设计模拟了早退出机制，让模型在训练初期就能自动「筛选」出需要深度处理的token，把算力集中到最困难的token上。

与前者不同，token选择路由（token-choice routing）（见图2b），在一开始就决定了每个token要走多少次递归流程。

具体来说，根据第1层的隐藏状态，模型会计算每个专家的打分（如通过softmax或sigmoid）。

假设有𝑁𝑟个专家，每个专家对应一次递归，那么模型将token分配给得分最高的专家。 token将被送入前i层递归，每层都按顺序进行处理。

在这种方式中，token在进入网络时就确定好递归深度，同时避免了每一层的重新选择，提升了推理效率。

表2左比较了两种方法：

expert-choice路由的优点在于，它可以实现理想的计算负载均衡。然而，它容易信息泄露。

相比之下，token-choice路由天然不会泄露信息。但这种方式负载分配不均。

表2：路由策略与键值缓存策略的比较。(左)两种路由策略总结：专家选择与令牌选择；(右)缓存策略相对于普通Transformer的相对成本效率

图2：混合递归（MoR）的架构组件。(a)专家选择路由；(b)token自主选择路由；(c)KV缓存策略

KV缓存策略：按递归层缓存vs.跨层共享

针对MoR模型，研究人员提出了两种KV缓存策略：按递归层缓存和跨递归共享。

1.按递归层缓存（见图2c上）是「选择性缓存」：只有被路由到某一递归层的Token，才会在该层生成并存储它的KV对。

注意力计算仅在当前递归层的缓存内进行，这种设计有助于实现局部化计算，显著提升了内存使用效率，并减少I/O负担。

2.跨递归共享（见图2c）：只在第一个递归层生成并缓存KV对，然后在之后所有层中重复使用。这种机制下，每一层参与注意力计算的Query数量可能会减少。

也就是说，所有Token无论在后续层是否继续参与计算，都可以完整地访问历史上下文，无需重新计算。

表2右对比了两种缓存策略：

按递归层缓存：KV内存与I/O负担，被压缩为原来的一半左右。
跨递归共享：只能线性压缩注意力计算量，而且KV的读写次数较高，可能会成为性能瓶颈。

表3：在等计算量与等token数条件下，MoR、递归Transformer、普通Transformer的比较

实验

研究者从零开始预训练模型，采用基于Llama的Transformer架构，参考了SmolLM开源模型的配置，在FineWeb-Edu的验证集和六个few-shot基准测试集上进行了评估。

主要结果

在相同训练计算预算下，MoR以更少参数优于基线模型

在相同的训练预算（16.5e18 FLOPs）下，研究者将MoR模型与标准Transformer和递归Transformer进行了对比。

在四种模型规模（135M、360M、730M和1.7B参数）下，不同计算预算对应的验证损失对如图

如表3所示，MoR模型采用专家选择路由和两次递归（Nr=2），不仅在验证损失上更低，在few-shot平均准确率上也优于标准基线。

这得益于MoR更高的计算效率，使其在相同FLOPs预算下能处理更多的训练token。

在相同数据量下，MoR用更少计算量仍优于基线模型

为了隔离架构差异的影响，研究者在固定训练token数量（20B）的前提下进行分析。

结果证实，在少了25%训练FLOPs的情况下，MoR模型（𝑁𝑟=2）仍然实现了更低的验证损失和更高的准确率，超越了标准和递归基线。

与标准基线相比，MoR模型的训练时间减少了19%，峰值内存使用量降低了25%。

这就要归功于专门设计的分层过滤机制和按递归进行的注意力机制。

此外，MoR的性能也会受路由与缓存策略的影响。

IsoFLOP分析

评估一种新模型架构设计的核心标准之一，是其在模型规模和计算量增长时，性能是否能持续提升。

因此，研究团队全面对比了MoR与标准Transformer（Vanilla）和递归Transformer。

实验设置

实验的模型规模有四种：135M、360M、730M 和1.7B 参数。

对于递归Transformer和MoR配置，递归次数统一设为3。

在三个不同的计算预算下，进行预训练：2e18、5e18和16.5e18 FLOPs。

MoR架构：可扩展且参数高效

如图3所示，在所有参数规模和算预算力下，MoR始终优于递归基线模型。

尽管在最小规模（135M）时，MoR表现略逊于标准Transformer，但随着模型规模扩大，这一差距迅速缩小。

当参数规模超过360M时，MoR不仅能够与标准Transformer持平，甚至在低计算量和中等计算预算下，表现更加优越。

总体而言，这些结果表明，MoR具备良好可扩展性和高参数效率，可替代旧架构。

推理吞吐量评估

通过参数共享，MoR能利用连续深度批处理技术，在推理阶段显著提升了吞吐量。

这种机制在解码过程中，旧序列完成后立刻填入新tokens，持续保持了GPU的高利用率。

实验设置

在360M参数规模下，在不同递归深度（2、3和4）下，团队测试了MoR模型。

利用深度批处理，MoR显著提升推理吞吐量

如图4a所示，在两种设置下，MoR变体的推理吞吐量都超过了普通Transformer。

递归深度越高，越多tokens会提早退出，从而减少KV缓存的使用，进一步大幅提升了推理速度。例如，在最大批设置（𝐵=Max）下，MoR-4速度可提升2.06倍。

实验表明，结合深度批处理机制与提前退出策略，可大幅加速MoR模型在实际的推理速度。

消融实验等更多内容和细节，请参阅原文。

参考资料：

https://arxiv.org/abs/2507.10524

https://x.com/rohanpaul_ai/status/1945342236310561091

https://www.rohan-paul.com/p/landmark-research-from-google-deepmind

☟☟☟

☞人工智能产业链联盟筹备组征集公告☜

☝

精选报告推荐：

11份清华大学的DeepSeek教程，全都给你打包好了，直接领取：

【清华第一版】DeepSeek从入门到精通

【清华第二版】DeepSeek如何赋能职场应用？

【清华第三版】普通人如何抓住DeepSeek红利？

【清华第四版】DeepSeek+DeepResearch让科研像聊天一样简单？

【清华第五版】DeepSeek与AI幻觉

【清华第六版】DeepSeek赋能家庭教育

【清华第七版】文科生零基础AI编程：快速提升想象力和实操能力

【清华第八版】DeepSeek政务场景应用与解决方案

【清华第九版】迈向未来的AI教学实验

【清华第十版】DeepSeek赋能品牌传播与营销

【清华第十一版】2025AI赋能教育：高考志愿填报工具使用指南

10份北京大学的DeepSeek教程

【北京大学第一版】DeepSeek与AIGC应用

【北京大学第二版】DeepSeek提示词工程和落地场景

【北京大学第三版】Deepseek 私有化部署和一体机

【北京大学第四版】DeepSeek原理与落地应用

【北京大学第五版】Deepseek应用场景中需要关注的十个安全问题和防范措施

【北京大学第六版】DeepSeek与新媒体运营

【北京大学第七版】DeepSeek原理与教育场景应用报告

【北京大学第八版】AI工具深度测评与选型指南

【北京大学第九版】AI+Agent与Agentic+AI的原理和应用洞察与未来展望

【北京大学第十版】DeepSeek在教育和学术领域的应用场景与案例(上中下合集)

8份浙江大学的DeepSeek专题系列教程

浙江大学DeepSeek专题系列一--吴飞：DeepSeek-回望AI三大主义与加强通识教育

浙江大学DeepSeek专题系列二--陈文智：Chatting or Acting-DeepSeek的突破边界与浙大先生的未来图景

浙江大学DeepSeek专题系列三--孙凌云：DeepSeek：智能时代的全面到来和人机协作的新常态

浙江大学DeepSeek专题系列四--王则可：DeepSeek模型优势：算力、成本角度解读

浙江大学DeepSeek专题系列五--陈静远：语言解码双生花：人类经验与AI算法的镜像之旅

浙江大学DeepSeek专题系列六--吴超：走向数字社会：从Deepseek到群体智慧

浙江大学DeepSeek专题系列七--朱朝阳：DeepSeek之火，可以燎原

浙江大学DeepSeek专题系列八--陈建海：DeepSeek的本地化部署与AI通识教育之未来

4份51CTO的《DeepSeek入门宝典》

51CTO：《DeepSeek入门宝典》：第1册-技术解析篇

51CTO：《DeepSeek入门宝典》：第2册-开发实战篇

51CTO：《DeepSeek入门宝典》：第3册-行业应用篇

51CTO：《DeepSeek入门宝典》：第4册-个人使用篇

5份厦门大学的DeepSeek教程

【厦门大学第一版】DeepSeek大模型概念、技术与应用实践

【厦门大学第二版】DeepSeek大模型赋能高校教学和科研

【厦门大学第三版】DeepSeek大模型及其企业应用实践

【厦门大学第四版】DeepSeek大模型赋能政府数字化转型

【厦门大学第五版】DeepSeek等大模型工具使用手册-实战篇

10份浙江大学的DeepSeek公开课第二季专题系列教程

【精选报告】浙江大学公开课第二季：《DeepSeek技术溯源及前沿探索》（附PDF下载）

【精选报告】浙江大学公开课第二季：2025从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例（附PDF下载）

【精选报告】浙江大学公开课第二季：智能金融——AI驱动的金融变革（附PDF下载）

【精选报告】浙江大学公开课第二季：人工智能重塑科学与工程研究（附PDF下载）

【精选报告】浙江大学公开课第二季：生成式人工智能赋能智慧司法及相关思考(附PDF下载）

【精选报告】浙江大学公开课第二季：AI大模型如何破局传统医疗（附PDF下载）

【精选报告】浙江大学公开课第二季：2025年大模型：从单词接龙到行业落地报告（附PDF下载）

【精选报告】浙江大学公开课第二季：2025大小模型端云协同赋能人机交互报告（附PDF下载）

【精选报告】浙江大学公开课第二季：DeepSeek时代：让AI更懂中国文化的美与善（附PDF下载）

【精选报告】浙江大学公开课第二季：智能音乐生成：理解·反馈·融合（附PDF下载）

6份浙江大学的DeepSeek公开课第三季专题系列教程

【精选报告】浙江大学公开课第三季：走进海洋人工智能的未来（附PDF下载）

【精选报告】浙江大学公开课第三季：当艺术遇见AI：科艺融合的新探索（附PDF下载）

【精选报告】浙江大学公开课第三季：AI+BME，迈向智慧医疗健康——浙大的探索与实践（附PDF下载）

【精选报告】浙江大学公开课第三季：心理学与人工智能（附PDF下载）

【精选报告】浙江大学公开课第三季：人工智能赋能交通运输系统——关键技术与应用（附PDF下载）

【精选报告】浙江大学公开课第三季：人工智能与道德进步（附PDF下载）

相关阅读

干货推荐：

【AI加油站】第一部：《大型语言模型应用检索增强生成：改变搜索、推荐和 AI 助手》附下载

【AI加油站】第二部：《程序员的自我修炼手册》（附下载）

【AI加油站】第三部：《大规模语言模型：从理论到实践》（附下载）

【AI加油站】第四部：《使用生成式人工智能和Python开始数据分析》（附下载）

【AI加油站】第五部：《使用生成式人工智能和Python开始数据分析》（附下载）

【AI加油站】第六部：《时间序列：建模、计算与推断》（附下载）

【AI加油站】第七部：《因果关系的逻辑理论的好书-A Logical Theory of Causality》（附下载）

【AI加油站】第八部：《模式识别（第四版）-模式识别与机器学习》（附下载）

【AI加油站】第九部：《Python深度学习（中文版）》（附下载）

【AI加油站】第十部：《机器学习方法》（附下载）

【AI加油站】第十一部：《深度学习》（附下载）

【AI加油站】第十二部：《从零开始的机器学习》（附下载）

【AI加油站】第十三部：《Transformer入门到精通》（附下载）

【AI加油站】第十四部：《LLM 应用开发实践笔记》（附下载）

【AI加油站】第十五部：《大模型基础完整版》（附下载）

【AI加油站】第十六部：《从头训练大模型最佳实践》（附下载）

【AI加油站】第十七部：《大语言模型》（附下载）

【AI加油站】第十八部：《深度强化学习》（附下载）

【AI加油站】第十九部：清华大学《大模型技术》（附下载）

【AI加油站】第二十部：Prompt入门神书-《Prompt 学习指南》（附下载）

【AI加油站】第二十一部：吴恩达&open AI联合推出《大模型通关指南》（附下载）

【AI加油站】第二十二部：《李宏毅深度学习教程》值得反复阅读的神书！（附下载）

【AI加油站】第二十三部：Prompt经典中文教程-《提示工程指南》（附下载）

【AI加油站】第二十四部：爆火下载28万次！MIT最新神书《理解深度学习》（附下载）

【AI加油站】第二十五部：LLM4大名著，OpenAI专家强推《深度解析：大语言模型理论与实践》（附下载）

【AI加油站】第二十六部：NLP大牛Thomas Wolf等新书《Transformer自然语言处理》（附下载）

【AI加油站】第二十七部：哈工大博士耗时一年整理《PyTorch常用函数手册》，轻松掌握PyTorch的各种操作（附PDF下载）

【AI加油站】第二十八部：大模型炼丹大师必备《深度学习调优指南中文版-系统性优化模型》（附下载）

【AI加油站】第二十九部：炸裂发布！《大语言模型：导论》重磅发布！（附下载）

【AI加油站】第三十部：最值得读的LLM书！下载量10w+！《基于Transformer和扩散模型的生成式AI》（附下载）

【AI加油站】第三十一部：RL稀缺宝典！《强化学习的艺术》（附下载）

面试推荐：

【AI加油站】AI面试专题一：BIO,NIO,AIO,Netty面试题（附下载）

【AI加油站】AI面试专题二：Git常用命令面试题（附下载）

【AI加油站】AI面试专题三：Java常用面试题（附下载）

【AI加油站】AI面试专题四：Linux系统的面试题集（附下载）

【AI加油站】AI面试专题五：Memcached 面试题集（附下载）

【AI加油站】AI面试专题六：MyBatis框架的面试题（附下载）

【AI加油站】AI面试专题七：MySQL相关的面试题资料（附下载）

【AI加油站】AI面试专题八：Netty面试题资料（附下载）

【AI加油站】AI面试专题九：Nginx的面试题资料（附下载）

【AI加油站】AI面试专题十：RabbitMQ的面试题资料（附下载）

【AI加油站】AI面试专题十一：Redis的面试题资料（附PDF下载）

【AI加油站】AI面试专题十二：Spring的面试题资料（附PDF下载）

【AI加油站】AI面试专题十三：Apache Tomcat的面试题资料（附PDF下载）

【AI加油站】AI面试专题十四：Zookeeper的面试题资料（附PDF下载）

【AI加油站】AI面试专题十五：《阿里巴巴Java开发手册》终极版的面试题资料（附PDF下载）

【AI加油站】AI面试专题十六：大数据技术面试题资料（附PDF下载）

【AI加油站】AI面试专题十七：Java并发多线程面试题资料（附PDF下载）

【AI加油站】AI面试专题十八：设计模式的面试题资料（附PDF下载）

【AI加油站】AI面试专题十九：Java虚拟机（JVM）的面试题资料（附PDF下载）

【AI加油站】AI面试专题二十：Elasticsearch的面试题资料（附PDF下载）

人工智能产业链联盟高端社区

精选主题推荐：

Manus学习手册

从零开始了解Manus

DeepSeek 高级使用指南，建议收藏

一次性说清楚DeepSeek，史上最全（建议收藏）

DeepSeek一分钟做一份PPT

用DeepSeek写爆款文章？自媒体人必看指南

【5分钟解锁DeepSeek王炸攻略】顶级AI玩法，解锁办公+创作新境界！

DeepSeek接入个人微信！24小时智能助理，随时召唤！

PS×Deepseek：一句话编写PS脚本，搞定PS批量导出图层

如何让AI给自己打工，10分钟创作一条爆款视频？

荐：

【中国风动漫】《姜子牙》刷屏背后，藏着中国动画100年内幕！

【中国风动漫】除了《哪吒》，这些良心国产动画也应该被更多人知道！

【中国风动漫】《雾山五行》大火，却很少人知道它的前身《岁城璃心》一个拿着十米大刀的男主夭折！

声明

免责声明：部分文章和信息来源于互联网，不代表本订阅号赞同其观点和对其真实性负责。如转载内容涉及版权等问题，请立即与小编联系（微信号：913572853），我们将迅速采取适当的措施。本订阅号原创内容，转载需授权，并注明作者和出处。如需投稿请与小助理联系（微信号：AI480908961）

编辑：Zero

声明：本文内容及配图由入驻作者撰写或合作网站授权转载。文章观点仅代表作者本人，不代表科技区角网立场。仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。点击这里

点赞 (0)
分享
微信扫一扫
加入群聊
扫码加入群聊