【AI】无Tokenizer时代真要来了？Mamba作者再发颠覆性论文，挑战Transformer

人工智能产业链union
2025-07-19 08:00:00

Tokenization，一直是实现真正端到端语言模型的最后一个障碍。

我们终于摆脱 tokenization 了吗？

答案是：可能性无限大。

最近，Mamba 作者之一 Albert Gu 又发新研究，他参与的一篇论文《 Dynamic Chunking for End-to-End Hierarchical Sequence Modeling 》提出了一个分层网络 H-Net，其用模型内部的动态分块过程取代 tokenization，从而自动发现和操作有意义的数据单元。

「这一研究预示着 Tokenizers 正在退场，智能字节分块（Smart Byte Chunks）开始登场。或许无需 Tokenizer 训练的时代真的要来了 —— 可能性无限大。」X 知名博主 Rohan Paul 表示道。

现阶段，Tokenization 仍然是语言模型和其他顺序数据不可或缺的组成部分，因为它能够压缩和缩短序列。然而 Tokenization 存在许多缺点，如可解释性差，在处理复杂语言（如中文、代码、DNA 序列）时性能下降等。

迄今为止，尚未有任何端到端的无 tokenizer 模型在计算预算相匹配的情况下超越基于 tokenizer 的语言模型的表现。最近，已经有研究开始致力于在自回归序列模型中突破 Tokenization 限制。

在此背景下，来自 CMU、 Cartesia AI 等机构的研究者提出了一系列新技术，通过动态分块机制实现内容与上下文自适应的分割策略，该机制可与模型其他部分联合学习。将这一机制融入显式分层网络（H-Net）后，原本隐含分层的「tokenization–LM–detokenization」流程可被完全端到端的单一模型取代。

在计算资源和数据量对等的条件下，仅采用单层字节级分层的 H-Net 模型，其表现已优于基于 BPE token 的强 Transformer 语言模型。通过多级分层迭代建模不同抽象层级，模型性能得到进一步提升 —— 这不仅展现出更优的数据规模效应，更能媲美两倍规模的基于 token 的 Transformer 模型。

在英语预训练中，H-Net 展现出显著增强的字符级鲁棒性，并能定性学习有意义的、数据依赖的分块策略，全程无需启发式规则或显式监督。

最后，在 tokenization 启发式方法效果较弱的语言和模态（如中文、代码或 DNA 序列）中，H-Net 相比 tokenization 流程的优势进一步扩大（数据效率较基线提升近 4 倍），这证明了真正端到端模型从未经处理数据中实现更优学习和扩展的潜力。

论文地址：https://arxiv.org/pdf/2507.07955v1

没有 Tokenization 的端到端序列建模

本文提出了一种端到端的分层网络（H-Net），通过递归、数据依赖的动态分块（DC，dynamic chunking）过程压缩原始数据（见图 1）。H-Net 在保持与 token 化流程相同效率的同时，通过用从数据中学习的内容感知和上下文依赖的分割替代手工启发式方法，显著提高了建模能力。

分层处理

H-Net 采用了分层架构，其工作流程分为三步：

精细处理：先用小型编码器网络处理原始数据（如逐个字节 / 字符）；
压缩抽象：将数据压缩下采样后，交给主网络（可理解为大脑核心）处理；
还原输出：最后上采样并通过解码器还原到原始精度。

这种设计形成了天然的认知分层 —— 外层捕捉细粒度的模式，内层处理抽象概念。

关键是，主网络包含了大部分参数，并且可以适配任何标准架构，例如 Transformer 或状态空间模型（SSM）。

动态分块

H-Net 的核心是动态分块（DC）机制，它位于主网络与编码器 / 解码器网络之间，用于学习如何分割数据，同时使用标准的可微优化方法。DC 由两种互补的新技术组成：

(i) 路由模块，通过相似度评分预测相邻元素之间的边界；

(ii) 平滑模块，使用路由器的输出插值表示，通过减弱不确定边界的影响，显著提高学习能力。

通过将这些技术与一个新的辅助损失函数结合，并利用现代基于梯度的离散选择学习技术，DC 使得 H-Net 能够以完全端到端的方式学习如何压缩数据。

信号传播

本文还引入了几种架构和训练技术，以提高端到端优化过程中的稳定性和可扩展性。这些技术包括：(i) 精心布置的投影层和归一化层，以平衡交互子网络之间的信号传播；(ii) 根据每层的维度和有效批次大小调整其优化参数。

总的来说，H-Net 学习了与主干网络联合优化的分割策略，基于上下文信息动态地将输入向量压缩成有意义的数据块。

H-Net 代表了第一个真正的端到端、无 tokenizer 的语言模型：通过一个动态分块阶段，字节级的 H-Net 在超过 10 亿参数的规模下，达到了与强大的 BPE token 化 Transformer 相当的困惑度和下游性能。

从经验上看，动态分块模块自然地将数据压缩到与 BPE tokenizer 相似的分辨率（每块 4.5-5 字节），并且在没有任何外部监督或启发式方法的情况下，定性地学习到有意义的边界。

实验及结果

实验中，本文采用的主要语言模型架构如下所示，如 MambaByte 是使用纯 Mamba-2 层的各向同性模型。

Training Curves. Figure 3 presents validation BPB metrics throughout training for both Large and XL model scales

训练曲线。图 3 显示了 Large 和 XL 规模模型在整个训练过程中的验证 BPB 指标。

在较大规模上，本文注意到：

所有各向同性模型在性能上都远逊色于分层模型。在这些模型中，MambaByte 明显优于 LlamaByte。

SpaceByte 明显逊色于 SpaceByte++，这一结果验证了本文在外部网络中使用 Mamba 的有效性。SpaceByte++ 又比 H-Net（space）差，表明本文提出的改进信号传播技术的有效性。

H-Net（space）是一个非常强大的模型，达到了与 BPE Transformer 相当的性能，验证了数据依赖的分块策略与精心设计的分层架构的效果。

表 2 展示了不同模型在多个下游基准测试上的零样本准确率。

SpaceByte++、H-Net（space）和 H-Net（1-stage）在大规模上与 BPE Transformer 的性能相似，在 XL 规模上稍微超越了 BPE Transformer。

表 3 评估了模型在 HellaSwag 上的鲁棒性。与所有基准模型相比，H-Net（2-stage）显著提高的鲁棒性。

图 4 提供了 H-Net（1-stage）和 H-Net（2-stage）动态绘制的边界的可视化图。这些可视化提供了关于模型如何决定边界的几个重要见解。

即使使用 Llama3 tokenizer，本文发现 H-Net（2-stage）在中文和代码处理上，比 BPE Transformer 和 H-Net（space）具有更好的扩展性（图 5），并且在衰退阶段后实现了更低的压缩率（表 4）。

之前的研究已经证明，SSM 在 DNA 序列建模上比 Transformer 表现更好。实验（表 5）也验证了这一点：即使换成 Mamba-2 作为主网络，SSM 的优势仍然存在。

实际上，通过直接比较训练稳定阶段的困惑度曲线（图 6），本文发现 H-Net 模型在数据量仅为 3.6 倍的情况下，能够达到与各向同性模型相似的性能，这一发现适用于两种主网络架构的选择。

最后，Albert 还撰写了精彩的博客文章，介绍关于 H-Net 的幕后故事和精彩见解。感兴趣的读者可以前去阅读。

博客地址：https://goombalab.github.io/blog/2025/hnet-past/

☟☟☟

☞人工智能产业链联盟筹备组征集公告☜

☝

精选报告推荐：

11份清华大学的DeepSeek教程，全都给你打包好了，直接领取：

【清华第一版】DeepSeek从入门到精通

【清华第二版】DeepSeek如何赋能职场应用？

【清华第三版】普通人如何抓住DeepSeek红利？

【清华第四版】DeepSeek+DeepResearch让科研像聊天一样简单？

【清华第五版】DeepSeek与AI幻觉

【清华第六版】DeepSeek赋能家庭教育

【清华第七版】文科生零基础AI编程：快速提升想象力和实操能力

【清华第八版】DeepSeek政务场景应用与解决方案

【清华第九版】迈向未来的AI教学实验

【清华第十版】DeepSeek赋能品牌传播与营销

【清华第十一版】2025AI赋能教育：高考志愿填报工具使用指南

10份北京大学的DeepSeek教程

【北京大学第一版】DeepSeek与AIGC应用

【北京大学第二版】DeepSeek提示词工程和落地场景

【北京大学第三版】Deepseek 私有化部署和一体机

【北京大学第四版】DeepSeek原理与落地应用

【北京大学第五版】Deepseek应用场景中需要关注的十个安全问题和防范措施

【北京大学第六版】DeepSeek与新媒体运营

【北京大学第七版】DeepSeek原理与教育场景应用报告

【北京大学第八版】AI工具深度测评与选型指南

【北京大学第九版】AI+Agent与Agentic+AI的原理和应用洞察与未来展望

【北京大学第十版】DeepSeek在教育和学术领域的应用场景与案例(上中下合集)

8份浙江大学的DeepSeek专题系列教程

浙江大学DeepSeek专题系列一--吴飞：DeepSeek-回望AI三大主义与加强通识教育

浙江大学DeepSeek专题系列二--陈文智：Chatting or Acting-DeepSeek的突破边界与浙大先生的未来图景

浙江大学DeepSeek专题系列三--孙凌云：DeepSeek：智能时代的全面到来和人机协作的新常态

浙江大学DeepSeek专题系列四--王则可：DeepSeek模型优势：算力、成本角度解读

浙江大学DeepSeek专题系列五--陈静远：语言解码双生花：人类经验与AI算法的镜像之旅

浙江大学DeepSeek专题系列六--吴超：走向数字社会：从Deepseek到群体智慧

浙江大学DeepSeek专题系列七--朱朝阳：DeepSeek之火，可以燎原

浙江大学DeepSeek专题系列八--陈建海：DeepSeek的本地化部署与AI通识教育之未来

4份51CTO的《DeepSeek入门宝典》

51CTO：《DeepSeek入门宝典》：第1册-技术解析篇

51CTO：《DeepSeek入门宝典》：第2册-开发实战篇

51CTO：《DeepSeek入门宝典》：第3册-行业应用篇

51CTO：《DeepSeek入门宝典》：第4册-个人使用篇

5份厦门大学的DeepSeek教程

【厦门大学第一版】DeepSeek大模型概念、技术与应用实践

【厦门大学第二版】DeepSeek大模型赋能高校教学和科研

【厦门大学第三版】DeepSeek大模型及其企业应用实践

【厦门大学第四版】DeepSeek大模型赋能政府数字化转型

【厦门大学第五版】DeepSeek等大模型工具使用手册-实战篇

10份浙江大学的DeepSeek公开课第二季专题系列教程

【精选报告】浙江大学公开课第二季：《DeepSeek技术溯源及前沿探索》（附PDF下载）

【精选报告】浙江大学公开课第二季：2025从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例（附PDF下载）

【精选报告】浙江大学公开课第二季：智能金融——AI驱动的金融变革（附PDF下载）

【精选报告】浙江大学公开课第二季：人工智能重塑科学与工程研究（附PDF下载）

【精选报告】浙江大学公开课第二季：生成式人工智能赋能智慧司法及相关思考(附PDF下载）

【精选报告】浙江大学公开课第二季：AI大模型如何破局传统医疗（附PDF下载）

【精选报告】浙江大学公开课第二季：2025年大模型：从单词接龙到行业落地报告（附PDF下载）

【精选报告】浙江大学公开课第二季：2025大小模型端云协同赋能人机交互报告（附PDF下载）

【精选报告】浙江大学公开课第二季：DeepSeek时代：让AI更懂中国文化的美与善（附PDF下载）

【精选报告】浙江大学公开课第二季：智能音乐生成：理解·反馈·融合（附PDF下载）

6份浙江大学的DeepSeek公开课第三季专题系列教程

【精选报告】浙江大学公开课第三季：走进海洋人工智能的未来（附PDF下载）

【精选报告】浙江大学公开课第三季：当艺术遇见AI：科艺融合的新探索（附PDF下载）

【精选报告】浙江大学公开课第三季：AI+BME，迈向智慧医疗健康——浙大的探索与实践（附PDF下载）

【精选报告】浙江大学公开课第三季：心理学与人工智能（附PDF下载）

【精选报告】浙江大学公开课第三季：人工智能赋能交通运输系统——关键技术与应用（附PDF下载）

【精选报告】浙江大学公开课第三季：人工智能与道德进步（附PDF下载）

相关阅读

干货推荐：

【AI加油站】第一部：《大型语言模型应用检索增强生成：改变搜索、推荐和 AI 助手》附下载

【AI加油站】第二部：《程序员的自我修炼手册》（附下载）

【AI加油站】第三部：《大规模语言模型：从理论到实践》（附下载）

【AI加油站】第四部：《使用生成式人工智能和Python开始数据分析》（附下载）

【AI加油站】第五部：《使用生成式人工智能和Python开始数据分析》（附下载）

【AI加油站】第六部：《时间序列：建模、计算与推断》（附下载）

【AI加油站】第七部：《因果关系的逻辑理论的好书-A Logical Theory of Causality》（附下载）

【AI加油站】第八部：《模式识别（第四版）-模式识别与机器学习》（附下载）

【AI加油站】第九部：《Python深度学习（中文版）》（附下载）

【AI加油站】第十部：《机器学习方法》（附下载）

【AI加油站】第十一部：《深度学习》（附下载）

【AI加油站】第十二部：《从零开始的机器学习》（附下载）

【AI加油站】第十三部：《Transformer入门到精通》（附下载）

【AI加油站】第十四部：《LLM 应用开发实践笔记》（附下载）

【AI加油站】第十五部：《大模型基础完整版》（附下载）

【AI加油站】第十六部：《从头训练大模型最佳实践》（附下载）

【AI加油站】第十七部：《大语言模型》（附下载）

【AI加油站】第十八部：《深度强化学习》（附下载）

【AI加油站】第十九部：清华大学《大模型技术》（附下载）

【AI加油站】第二十部：Prompt入门神书-《Prompt 学习指南》（附下载）

【AI加油站】第二十一部：吴恩达&open AI联合推出《大模型通关指南》（附下载）

【AI加油站】第二十二部：《李宏毅深度学习教程》值得反复阅读的神书！（附下载）

【AI加油站】第二十三部：Prompt经典中文教程-《提示工程指南》（附下载）

【AI加油站】第二十四部：爆火下载28万次！MIT最新神书《理解深度学习》（附下载）

【AI加油站】第二十五部：LLM4大名著，OpenAI专家强推《深度解析：大语言模型理论与实践》（附下载）

【AI加油站】第二十六部：NLP大牛Thomas Wolf等新书《Transformer自然语言处理》（附下载）

【AI加油站】第二十七部：哈工大博士耗时一年整理《PyTorch常用函数手册》，轻松掌握PyTorch的各种操作（附PDF下载）

【AI加油站】第二十八部：大模型炼丹大师必备《深度学习调优指南中文版-系统性优化模型》（附下载）

【AI加油站】第二十九部：炸裂发布！《大语言模型：导论》重磅发布！（附下载）

面试推荐：

【AI加油站】AI面试专题一：BIO,NIO,AIO,Netty面试题（附下载）

【AI加油站】AI面试专题二：Git常用命令面试题（附下载）

【AI加油站】AI面试专题三：Java常用面试题（附下载）

【AI加油站】AI面试专题四：Linux系统的面试题集（附下载）

【AI加油站】AI面试专题五：Memcached 面试题集（附下载）

【AI加油站】AI面试专题六：MyBatis框架的面试题（附下载）

【AI加油站】AI面试专题七：MySQL相关的面试题资料（附下载）

【AI加油站】AI面试专题八：Netty面试题资料（附下载）

【AI加油站】AI面试专题九：Nginx的面试题资料（附下载）

【AI加油站】AI面试专题十：RabbitMQ的面试题资料（附下载）

【AI加油站】AI面试专题十一：Redis的面试题资料（附PDF下载）

【AI加油站】AI面试专题十二：Spring的面试题资料（附PDF下载）

【AI加油站】AI面试专题十三：Apache Tomcat的面试题资料（附PDF下载）

【AI加油站】AI面试专题十四：Zookeeper的面试题资料（附PDF下载）

【AI加油站】AI面试专题十五：《阿里巴巴Java开发手册》终极版的面试题资料（附PDF下载）

【AI加油站】AI面试专题十六：大数据技术面试题资料（附PDF下载）

【AI加油站】AI面试专题十七：Java并发多线程面试题资料（附PDF下载）

【AI加油站】AI面试专题十八：设计模式的面试题资料（附PDF下载）

人工智能产业链联盟高端社区

精选主题推荐：

Manus学习手册

从零开始了解Manus

DeepSeek 高级使用指南，建议收藏

一次性说清楚DeepSeek，史上最全（建议收藏）

DeepSeek一分钟做一份PPT

用DeepSeek写爆款文章？自媒体人必看指南

【5分钟解锁DeepSeek王炸攻略】顶级AI玩法，解锁办公+创作新境界！

DeepSeek接入个人微信！24小时智能助理，随时召唤！

PS×Deepseek：一句话编写PS脚本，搞定PS批量导出图层

如何让AI给自己打工，10分钟创作一条爆款视频？

荐：

【中国风动漫】《姜子牙》刷屏背后，藏着中国动画100年内幕！

【中国风动漫】除了《哪吒》，这些良心国产动画也应该被更多人知道！

【中国风动漫】《雾山五行》大火，却很少人知道它的前身《岁城璃心》一个拿着十米大刀的男主夭折！

声明

免责声明：部分文章和信息来源于互联网，不代表本订阅号赞同其观点和对其真实性负责。如转载内容涉及版权等问题，请立即与小编联系（微信号：913572853），我们将迅速采取适当的措施。本订阅号原创内容，转载需授权，并注明作者和出处。如需投稿请与小助理联系（微信号：AI480908961）

编辑：Zero

声明：本文内容及配图由入驻作者撰写或合作网站授权转载。文章观点仅代表作者本人，不代表科技区角网立场。仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。点击这里

点赞 0
分享
微信扫一扫
加入群聊
扫码加入群聊