ResNet凉了?效能提升240%!MUDDFormer
- 2025-07-24 18:06:00

论文题目:MUDDFormer: Breaking Residual Bottlenecks in Transformers via Multiway Dynamic Dense Connections
论文地址:https://arxiv.org/pdf/2502.12170
代码地址:https://github.com/ Caiyun-AI/MUDDFormer

创新点
传统稠密连接(如DenseFormer)使用静态且共享的权重,而MUDD通过动态生成的权重矩阵,为每个序列位置和解耦的输入流(Query、Key、Value、Residual)独立计算连接权重,实现更灵活的跨层信息聚合。
将Transformer块的单一输入拆分为Query、Key、Value、Residual四个独立流(图2(e)),每个流通过专属的DA模块(Depth-wise Aggregate)聚合前层输出,避免传统残差流的通信瓶颈。
通过线性插值调整FFN的隐藏层维度(公式9),使上层层获得更大容量以处理稠密连接带来的信息量增加,总参数量保持不变。
方法
本文提出一种名为多路动态稠密连接(MUDD)的方法,通过在每个 Transformer 块后插入轻量的深度聚合模块(DA),将以往仅依赖残差连接的逐层传递,扩展为对所有前置层输出的动态加权融合;具体地,该模块先用一个小型 MLP 根据当前隐藏状态为每个序列位置实时生成四组权重矩阵,分别对应 Query、Key、Value 和 Residual 四个解耦的输入流,再以这些权重对历史上所有层的输出做加权求和,形成新的四路输入送入下一层。为缓解深层网络的信息过载,作者还将 FFN 的隐维度按层深线性递增重分配;同时提供可选的前后 RMSNorm 归一化与残差捷径来稳定训练。整个设计不改变原模型参数总量,仅需约千分之几的额外计算,却显著增强了跨层信息流动与上下文学习能力。
不同规模 Pythia 与 MUDDPythia 下游任务平均准确率对比

本图展示了在 0-shot 与 5-shot 两种评测条件下,参数量从 1.4 B 到 12 B 的 Pythia 系列基线模型与仅引入 MUDD 连接的 MUDDPythia 模型在 11 个下游任务上的平均准确率随计算量变化曲线。可见 MUDDPythia-2.8 B 在 5-shot 场景下已逼近 Pythia-12 B 的表现,而实际仅用了不到一半的计算预算,直观验证了 MUDD 结构在提升样本利用率与扩展效率上的显著收益。
MUDD 连接架构演进示意图

本图 (a) 描绘传统稠密连接方式,所有前层输出被静态加权后送入当前层;(b) 将静态权重简化为每层可学习的标量向量;(c) 进一步把标量扩展为随输入动态生成的位置相关权重矩阵;(d) 最终把单一路径拆成 Query、Key、Value、Residual 四条独立动态稠密连接,实现“多路”跨层信息流;(e) 上部为标准 Transformer 块的单输入复用方式,下部为四路解耦输入的 MUDD 块示意,清晰展示了从残差到 MUDD 的完整演进过程。
Pile 验证集损失随计算量变化的扩展曲线

本图对比了 405 M、834 M、1.4 B 三种规模的 Transformer、Transformer++、DenseFormer、Hyper-Connections、DDFormer 与 MUDDFormer 在相同训练 token 数下的验证困惑度。MUDDFormer 曲线始终位于最下方,表明在相同算力下取得更低损失;以 834 M 模型为例,其损失与用 1.89 倍算力训练的 Transformer++ 持平,说明 MUDD 带来的性能增益随模型规模保持稳健。
实验

本表汇总了MUDDPythia与Pythia在1.4 B、2.8 B、6.9 B、12 B四个规模上,经过300 B token预训练后在Pile验证困惑度、FLAN子集困惑度以及涵盖LAMBADA、PIQA、WinoGrande、ARC、SciQ、LogiQA、BoolQ、HellaSwag、RACE等十一项下游任务0-shot与5-shot评测结果。整体来看,MUDDPythia在同等参数规模下全面领先:1.4 B模型平均准确率提升0.9~1.3个百分点,2.8 B提升1.9~2.9个百分点;更关键的是,MUDDPythia-2.8 B在Pile ppl和下游平均准确率上已打平甚至略优于用2.46倍算力训练的Pythia-6.9 B,在5-shot场景下与Pythia-12 B差距缩小到可忽略范围,且在侧重指令遵循与链式推理的FLAN评测中优势更大,充分说明MUDD连接在强化上下文学习等涌现能力方面具有显著且可扩展的收益。
-- END --

关注“学姐带你玩AI”公众号,回复“135”
领取Transformer155个创新合集+开源代码


- 点赞 (0)
-
分享
微信扫一扫
-
加入群聊
扫码加入群聊