DeepSeek R2 还没来,但 DeepSeek 下一代模型的更新,已经提前在今年的  ACL 最佳论文中「剧透」了。
资讯配图
昨天,全球自然语言处理领域的顶级会议 ACL 公布了今年的最佳论文。
这个会议堪称自然语言处理领域的「世界杯」,不仅是未来一两年大语言模型的风向标,而且从这里走出的顶尖技术,往往会迅速被全行业采纳。当年颠覆了整个 AI 领域的 Transformer 架构,最初就是在这里崭露头角的。
而今年,一篇由 DeepSeek 和北京大学联合完成的论文斩获了「最佳论文奖」:《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》。
论文地址🔗 https://arxiv.org/abs/2502.11089
从标题就能看出,这是一篇非常硬核的技术论文,关键词密度拉满:Sparse Attention(稀疏注意力)、Hardware-Aligned(硬件对齐)、Trainable(可训练)……
但即便如此,它依然值得所有关注大模型未来的人认真读一遍,因为它首次把稀疏注意力从理论推理带进了完整训练流程,在保持模型性能的同时,还带来了高达 11 倍的推理加速。
资讯配图
论文第一作者北京大学硕转博研究生袁境阳(左三),导师张铭(右一),图片来源:https://x.com/aclmeeting/status/1950745647214161930
对 DeepSeek 来说,这不仅是一次学术认可,更可能是下一代模型落地的技术预演
为什么「长文本」这么难?AI 的「注意力涣散症」
要理解 DeepSeek 这个技术的牛 X 之处,得先知道现在大模型处理长文本的「痛」。
目前,所有大模型的核心技术之一都叫「注意力机制」(Attention),这也是大语言模型的奠基之作「Attention Is All You Need」。
关于注意力机制,你可以把它想象成一个学生在课堂上听讲。
传统的「全注意力」(Full Attention)机制,就像一个记忆力超群但效率极低的学生。老师每说一个新词(Query),他都要把这个词和从开学第一天到现在说过的每一个词(Keys/Values)都重新比对一遍,来理解新词的含义。
资讯配图
论文中的对比图显示,NSA(红色)在各项基准测试中性能均优于或持平全注意力(橙色),同时在解码、前向和后向传播等各个阶段都实现了巨大的速度提升。
当文本很短时,这没问题。
但当文本长达几十万字时,这种「每个字都和前面所有字比对」的计算量会呈平方级暴增 。这不仅让模型响应变得巨慢,训练和推理的成本也高到离谱。
这就是为什么我们现在用的大模型,虽然上下文窗口越来越大,但一旦接近极限,速度就会明显变慢,API 价格也更贵。
论文里面也提到传统的注意力机制,在 64k 上下文长度下,softmax attention(传统注意力机制中的一个模块)的计算占据了整个推理延迟的 70%–80%。
DeepSeek 的解法:像人一样「抓重点」
为了解决这个问题,过去一段时间,诞生了各种稀疏 attention 技术。
从这个月 Kimi K2 技术报告里面提到,使用自动调节的 QK-Clip 机制,做到「万亿总参数,激活参数仅百亿,保持在训练友好的稀疏度」。
到 Manus 在这个月也发布了一篇博客,提到了「六大上下文工程法则」,提高 KV-Cache 命中率,用文件系统承载持久上下文。
资讯配图
2024 年的一篇论文提到当时的大语言模型上下文长度情况
但无论是 token 距离限制,还是 KV cache 剪枝,它们大多都还有两个问题:
1.
只能用在推理阶段,训练阶段还得用 full attention。
2.
稀疏注意力在理论上快,但实际跑得慢,尤其是在多卡部署、A100/V100 上。
科学家们提出了「稀疏注意力」(Sparse Attention),想法很简单:没必要看每一个字,只关注重要的部分就行。但这说起来容易做起来难,很多旧方法要么是速度提不上去,要么是丢掉了关键信息导致性能下降 。
资讯配图
图片来源:https://x.com/casper\_hansen\_/status/1950649481617342803
而 DeepSeek 和北大的这篇最佳论文提出的 NSA(Natively Sparse Attention,原生稀疏注意力)就是解决这些问题。它的核心思想是模仿人类阅读长篇报告时的智慧:
粗读摘要(Token Compression):首先,NSA 会将长文本中较早的内容打包成一个个「压缩块」,像阅读章节摘要一样,快速把握全局的粗略信息 。这保证了模型不会忘记百八十页之前提到的关键前提。
精读重点(Token Selection):在理解了全局大意后,模型会根据当前需要处理的内容,回头去「选中」之前那些最相关的原文细节块进行精读 。比如,在回答关于第三章的问题时,就重点去看第三章的原文,而不是全文扫视。
强记最近(Sliding Window):就像我们总能清晰记得刚刚读过的那几段话,NSA 也会专门保留一个「滑动窗口」,对最近的上下文信息保持最精细的注意力 。
资讯配图
NSA 架构概述图,NSA 像一个聪明的读者,通过三种方式(Compression 压缩、Selection 选择、Sliding 滑动窗口)来处理信息,并通过一个「门控」机制动态决定哪部分信息更重要。
最妙的是,NSA 通过一个「门控机制」动态地学习如何平衡这三种阅读策略。
此外,NSA 是「原生可训练」的 ,意味着模型从预训练开始就在学习这种高效的注意力分配方法,而不是等模型长大了(推理阶段)再强行给它加装一个稀疏机制。
这使得 NSA 的稀疏模式和模型的其他部分能够完美协同,最终实现了性能和效率的双重飞跃。
实测结果:训练更快,推理更强,性能不降反升
DeepSeek 在论文中用详尽的实验数据证明了 NSA 的强大实力。
性能不降反升:在 MMLU、GSM8K 等一系列通用知识、推理和代码能力的标准测试中,搭载了 NSA 的 27B 模型在 9 项指标中的 7 项都击败了传统的全注意力模型 。
资讯配图
尤其在考验推理能力的 DROP 和 GSM8K 测试中,提升显著 。这说明,通过稀疏化滤除噪声信息,反而可能让模型更专注于关键逻辑 。
长文本理解能力拔尖:在经典的「大海捞针」测试中,NSA 在 64k(约 8 万字)的超长文本中做到了 100% 的信息检索准确率,无论信息藏在哪个角落都能精准找到 。
资讯配图
在更复杂的 LongBench 评测中,NSA 的平均分也超越了包括全注意力在内的大部分基线方法 。
资讯配图
速度快到飞起:这是最令人兴奋的部分。与目前最高效的全注意力实现 FlashAttention-2 相比,NSA 在处理 64k 长度的序列时:
资讯配图
基于 Triton 的 NSA 内核与基于 Triton 的 FlashAttention-2 内核的比较。NSA 的实现显著降低了所有上下文长度下的延迟,并且随着输入长度的增加,改进效果更加明显。
训练速度:前向计算加速 9.0 倍,反向传播加速 6.0 倍 。这意味着训练新模型的效率大大提高。
推理速度:用户最关心的生成回复阶段(解码),速度提升了惊人的 11.6 倍 。
资讯配图
这意味着,过去你需要等半分钟才能获得的长篇分析,未来可能几秒钟就搞定了。
DeepSeek 的未来:更快、更强、更便宜?
上下文长度正在成为大模型新能力的战场。无论是跨文件代码补全、长文档摘要,还是多轮复杂对话,模型都需要在 10 万甚至百万 Token 级别的上下文中快速定位、理解、推理。
这项由 DeepSeek 和北大的研究员主导完成的研究,几乎可以肯定,NSA 技术将成为未来 DeepSeek 系列大模型的核心竞争力之一。
资讯配图
NSA Kernel 设计,保证了 GPU 总是在其最快的内存上进行计算
NSA 已经跑完了在 27B、MoE 架构上的完整预训练验证,训练框架也基于 DeepSeek 自研的 MoE 系统,兼容 GQA 架构、FlashAttention-2 内核,并使用 Triton(英伟达开源的推理服务框架) 重写了关键 kernel。
这意味着,它不仅仅是一个「可以做」的研究,而是一个「准备好落地」的系统模块。
对于我们普通用户来说,未来可以直接将整本书、几十份财报、一个完整的 GitHub 项目代码库扔给 AI,让它进行深度分析、总结和问答,而无需手动拆分。
DeepSeek 的响应速度也会更快,而计算效率的巨大提升,最终会传导到 API 的价格上,我们的使用成本也会更低。
资讯配图
部分模型定价对比,图片来源:https://artificialanalysis.ai/
从「价格屠夫」到技术引领者,DeepSeek 正在通过像 NSA 这样坚实的技术创新,一步步构建自己的护城河。
这看起来不仅是学术界的胜利,更是整个 AI 应用生态即将迎来又一次提速的号角。
接下来就拭目以待,看看搭载了「原生稀疏注意力」的下一代 DeepSeek 大模型,会给我们带来怎样的惊喜。
资讯配图
欢迎加入 APPSO AI 社群,一起畅聊 AI 产品,获取#AI有用功,解锁更多 AI 新知👇
资讯配图
我们正在招募伙伴
📮 简历投递邮箱hr@ifanr.com
✉️ 邮件标题「姓名+岗位名称」(请随简历附上项目/作品或相关链接)
更多岗位信息请点击这里🔗
资讯配图