·聚焦:人工智能、芯片等行业

欢迎各位客官关注、转发






前言
大语言模型(LLMs)规模庞大但效率低下的问题长期备受关注。

尽管模型参数持续增长,其在长文本处理中的性能衰减、计算资源消耗等问题始终未能有效解决。

谷歌DeepMind最新提出的MoR架构,可能为这一困境提供了新的解决路径。



作者 | 方文三
图片来源 |  网 络 


传统模型的困境局限当前性能发展


长期以来,Transformer架构始终作为大型语言模型的核心架构,然而随着研究的深入,其固有局限性亦逐渐显现。


Transformer依赖堆叠网络层数以增强模型性能,但该机制导致计算资源呈现平均分配特征,无论输入token的复杂程度如何。


简单token(如连词、助词)与复杂token(如专业术语、长句)均被施以同等处理流程,导致大量冗余计算产生。


此外,在处理长文本序列时,其键值缓存(KV缓存)机制需占用大量内存空间,进一步制约模型效率的提升。


针对上述问题,研究者们正持续探索两个关键方向:其一通过权重共享机制提升参数利用效率,其二依据输入复杂度动态分配计算资源,旨在实现自适应计算能力。


当模型规模扩展至数千亿参数量级,训练与推理成本已成为制约其广泛落地的核心瓶颈。


传统Transformer架构对所有输入信息采用均质化计算的处理模式,被证实存在显著资源冗余。


从理论到实践的转变:替代Transformer潜力


基于Transformer的这些局限性,许多非Transformer架构应运而生,如中国的RWKV、Meta的Mega、微软亚研的 Retnet、Mamba、DeepMind团队的Hawk和Griffin等。


它们大多在RNN的基础上,针对Transformer的缺陷进行改进,试图研究出更高效的模型结构。


就在最近,KAIST、Mila和谷歌DeepMind团队等放出重磅炸弹——一个名为Mixture-of-Recursions(MoR)的全新LLM模型架构,被业内认为有潜力成为“Transformer 杀手”。


MoR首次在单一框架内实现了参数共享与自适应计算的协同优化,解决了传统方法只能二者择一的局限。


该框架将动态token级路由机制集成至参数高效的递归Transformer中,形成一种协同架构,有望达成“在避免大型模型成本的同时获得其质量”的目标。


简而言之,MoR框架能够依据每个token的需求,动态且精确地分配所需计算资源,在避免资源浪费的同时确保任务高效完成。


MoR框架(Mixture-of-Recursions)是一个统一框架,其充分发掘了递归Transformer的能力特性,在预训练与推理阶段为每个词元动态调整递归步骤。


该框架的核心在于两个关键组件:轻量级路由机制与KV缓存策略。


其中,轻量级路由机制引入了端到端训练的轻量级路由器,负责为每个词元分配特定的递归深度。


这意味着模型可依据词元所需的处理深度,决定共享参数模块的递归调用频次,从而将计算资源精确导向需求最为迫切之处。



在技术实现层面,MoR通过端到端训练轻量级路由模块,为每个token动态分配专属的递归深度。


该机制依据每个token所需的处理深度,决定共享参数模块对其递归应用的次数,从而实现计算资源的精准投放。


此种基于token的动态递归机制,天然支持递归层级的键值(KV)缓存。


该缓存可根据各token所分配的递归深度,选择性存储并检索对应的键值对,显著降低内存带宽压力,无需后处理即可提升推理吞吐量。


综上所述,MoR在统一架构中同时实现了三项关键优化:参数共享、计算路由与递归级缓存。


此外,采用KV缓存共享策略虽会轻微影响性能,但能显著提升内存效率。


在内存资源受限的部署场景中,此种性能与资源消耗之间的权衡是可接受的。


这意味着模型能够依据每个词元的处理需求,精准地分配计算资源,从而规避冗余的计算消耗。


MoR既能显著降低验证集困惑度(Perplexity)并提升少样本(Few-shot)准确率,亦可在同等训练计算量与更小模型规模的前提下,相较现有模型提供更高的吞吐量。


在少样本学习、长文本处理等任务中的表现已接近Transformer,且计算效率更具优势,被视作替代Transformer架构的有力竞争者。



实验结果来看MoR的性能表现亮眼


研究团队在1.35亿1.7亿参数的多个模型规模上进行了测试。


结果表明,在相同训练计算预算下,采用MoR架构的模型,其参数量虽较基准Transformer模型减少近一半,但在多项少样本学习任务中的平均准确率达到43.1%,优于基准模型的42.3%。


尤为重要的是,MoR架构具备更高的计算效率,使其能够在相同计算预算内处理更多训练数据,从而进一步提升模型性能。


在固定训练数据量的对比实验中,特定MoR配置仅需使用基准模型75%的训练计算量,性能即超越基准模型,同时训练时间缩短19%,峰值内存占用降低25%。


在推理性能方面,MoR架构的优势更为显著。


其采用的连续深度批处理技术,可将处于不同计算阶段的token组合至同一批次进行处理,因其共享相同参数块。


该技术与模型的早期退出机制协同作用,显著提升了处理吞吐量。


3.6亿参数规模的模型测试中,MoR-4配置在特定测试条件下实现了高达2.06倍的推理加速。


尤其值得注意的是,尽管模型参数量缩减近50%,MoR仍展现出更优性能。


该优势源于其显著提升的计算效率,从而能够在相同FLOPs预算下处理更多训练token。



MoR的提出意味着LLM发展逻辑的根本性变革


MoR的出现标志着AI模型从[规模扩张][智能计算]的演进趋势。


其动态路由机制模拟了人类认知的[选择性注意]特性,为开发更具生物启发性的AI系统提供了新思路。


通过动态路由、参数共享与智能缓存的三重优化机制,MoR重新定义了大模型的效率边界。


推理速度倍增与内存占用减半的突破性进展,不仅显著降低了部署成本,更为复杂任务处理确立了新范式。


尽管在大规模验证与多模态扩展领域仍需深入探索,但MoR已展现出替代Transformer的实质性潜力,或将引领下一代AI模型的架构革新。


尤为重要的是,MoR为开发更具认知启发性的AI系统奠定了基石。


该框架在生成过程中能够按每个token自适应分配[思考深度]的特性,与语言模型潜在推理及内部思考机制的新兴研究高度契合。


这表明MoR可作为关键平台,用于探索模型如何在保持常规任务效率的同时,逐步学会对复杂问题进行更深入的思考。


尾:


MoR延续并深化了这些研究对AI效率优化的探索路径,即从单一维度的优化转向参数、计算及内存等多维度的协同优化。


这对于降低大语言模型的部署与应用成本具有显著的实践价值。


总体而言,当前阶段尚难以断言MoR能否全面取代Transformer架构,但其确实为未来语言模型的设计提供了在性能与效率层面均极具发展潜力的演进方向。


部分资料参考:炎炎星球:《谷歌DeepMind发布MoR架构,推理速度翻倍、内存减半,或成Transformer替代方案》,算家云:《Transformer霸权终结?谷歌DeepMind推出颠覆性架构:推理2倍速、参数减半》,AINLPer:《Google等提出递归混合框架:MoR,大幅提升LLM计算效率》,AI帝国:《Google发布MoR架构:2倍推理速度,节省50%内存》


本公众号所刊发稿件及图片来源于网络,仅用于交流使用,如有侵权请联系回复,我们收到信息后会在24小时内处理。



END


推荐阅读:


商务合作请加微信勾搭:
18948782064

请务必注明:

「姓名 + 公司 + 合作需求」