允中 发自 凹非寺
量子位 | 公众号 QbitAI

AI的下一个战场,不在云端,而在你的口袋里。

iPhone、华为、三星、小米、OPPO等各大手机厂商几乎都在将大模型塞进手机,端侧AI已然成为兵家必争之地。

背后的逻辑清晰而坚定:最懂你的AI,必须能安全地访问你的个人数据——邮件、照片、日程,而这一切的前提,就是将计算留在本地,将隐私还给用户

然而,想让AI在本地流畅运行,远比想象的要难得多。最好的证据,莫过于财力雄厚、软硬一体的苹果,其雄心勃勃的Apple Intelligence计划也未能如期而至,核心AI功能不得不推迟到明年。

这无疑向整个行业释放了一个清晰的信号:端侧AI,是一块难啃的硬骨头

正当全球科技巨头在端侧AI的道路上艰难探索时,一股产学研深度融合的新兴力量,给出了独有的解决路线。

今天,上海交通大学IPADS研究所、上海交通大学人工智能学院联合初创公司本智激活(Zenergize AI),在HuggingFace开源了端侧原生大模型SmallThinker

该系列模型采用为端侧算力、内存、存储特性而原生设计的模型架构,并从零开始预训练,具体包含两个尺寸的稀疏模型,分别是SmallThinker-4B-A0.6B和SmallThinker-21B-A3B,模型也已开源,链接如下。

  • https://huggingface.co/PowerInfer/SmallThinker-21BA3B-Instruct

  • https://huggingface.co/PowerInfer/SmallThinker-4BA0.6B-Instruct

其显著特征,就是用端侧CPU即可快速推理,不再依赖高端GPU
其中,4B模型在1GB峰值内存下的推理速度达到惊人的19.41 tokens/s

而更令人瞩目的是,21B旗舰稀疏模型,在一块百元级的国产RK3588开发板上,实现了相较于同等能力的主流模型(Qwen-14B)高达21倍的推理加速,将同类解决方案远远甩在身后。

SmallThinker:端侧原生大模型

主流大模型,从出生起就是为云端成千上万TOPS算力、TB级显存的GPU集群“量身定制”的。想把它们塞进算力、内存等都不到云端5%的端侧设备,传统方法只有“压缩”。

这就好比让一个“博士生”模型,通过蒸馏、量化等手段,强行“降智”,最终变成一个只会简单问答的“小学生”,牺牲了太多智能。

是否存在一种不做“模型降智”,而是一步到位的选择?

为了实现这一目标,SmallThinker系列针对端侧的弱算力、小内存、慢存储,设计了创新的大模型架构,并从零开始预训练,实现了与端侧硬件的“精巧匹配”。

资讯配图

具体来说,这一端侧原生的大模型架构主要拥有三大核心技术特性:

第一,端侧算力原生的双层稀疏架构,稀疏度提升5倍

传统的MoE(混合专家模型)只在专家层面是稀疏的。而SmallThinker在此基础上,增加了专家内部的神经元稀疏

这就好比,模型不仅能精准调用最相关的专家知识,还能只激活专家知识库里最核心的部分,避免“复述全部所学”,对端侧算力的要求大大降低。

资讯配图

第二,端侧存储原生的专家路由前置,显著隐藏IO开销 

在内存资源受限的端侧,通常模型权重不能完全放置在内存里,需要在推理过程中动态从慢速存储(比如SSD、UFS等)加载模型专家权重,而在这个过程中,端侧的慢速I/O会严重影响推理速度。

传统方案是算完注意力,再计算路由,最后排队等待加载专家。

而SmallThinker在模型架构中就原生提供了机制,帮助预判需要哪个专家,在进行注意力计算的同时,就去异步加载专家

做到了“边检查边传唤”,将I/O等待时间隐藏在注意力计算的过程中。

资讯配图

第三,端侧内存原生的混合稀疏注意力,KV缓存占用下降76% 

针对长文本场景,SmallThinker设计了“略读”+“精读”的混合注意力机制。它使用滑动窗口注意力(Sliding Window)进行高效的“略读”,同时保留全局注意力的能力进行“精读”

两种方式组合,在处理16K文本时,相比传统GQA机制,KV缓存占用降低76%,让端侧设备也能轻松处理长文档

资讯配图

生态兼容性与极致性能:SmallThinker与PowerInfer的完美结合

一个真正优秀的开源模型,不仅自身要强大,更要拥抱广阔的开放生态。
SmallThinker模型系列在设计上充分考虑了开发者的使用习惯,能够无缝兼容HuggingFace Transformers、vLLM、SGLang、llama.cpp、KTransformers等一系列主流推理框架

在硬件适配上,它实现了对英特尔、英伟达、高通等主流芯片,甚至已经可以在国产鸿蒙操作系统上进行推理。这种开箱即用的灵活性,极大地降低了开发者的使用门槛。

而要体验SmallThinker最极致的端侧加速与内存优化效果,则需要使用团队为其量身打造的端侧原生Infra——PowerInfer(https://github.com/SJTU-IPADS/PowerInfer/blob/main/smallthinker/README.md)

PowerInfer是团队于2023年12月开源的业界首个稀疏大模型端侧推理框架,发布后迅速获得全球开发者的高度关注,目前GitHub星标已达8.2K,并曾连续两天蝉联GitHub全球项目趋势榜第一。

它能够深度激活SmallThinker原创的双层稀疏架构,在推理时只调用必要的专家及神经元,并能在不影响推理速度的情况下降低内存占用。

它就像是为SmallThinker这台“F1赛车”专门打造的引擎,为开发者提供了一套从模型到部署、真正完整的全栈优化解决方案。

SmallThinker模型智力与推理性能兼具

理论再好,也要看疗效。SmallThinker团队交出的,是一份模型能力与端侧推理性能兼备的答卷。

为了真正实现“端侧原生”,团队从零开始预训练,基于高质量数据语料,训练了两种规模的模型:

  • SmallThinker-4B-A0.6B:基于2.5T Tokens数据预训练,拥有40亿参数,激活6亿参数,主打极速响应

  • SmallThinker-21B-A3B:基于7.5T Tokens数据预训练,拥有210亿参数,激活30亿参数,主打旗舰性能。它能够在百元级RK3588上流畅部署,全内存情况下的CPU推理速度也能达到10.84 tokens/s。

口说无凭,评测见真章。

在MMLU、GPQA等多个权威评测基准上,SmallThinker的智力水平均超越了同尺寸甚至更大尺寸的开源模型,充分证明了其“原生”架构设计的优越性。

资讯配图

而在更关键的实际运行性能上,当SmallThinker与PowerInfer结合时,其在内存约束场景下的优势尽显。团队在旗舰移动平台和个人电脑PC上,对业界主流模型进行了正面硬刚。

场景一: 手机极限内存瓶颈 (1GB RAM)

在主流手机上,SmallThinker-4B-A0.6B模型的Q4量化版本,在仅调用4个CPU核心的情况下,推理速度便高达79 tokens/s

而在对模型架构与推理框架构成终极考验的极限内存瓶颈(1GB)场景下,SmallThinker的优势则体现得淋漓尽致4B模型依然跑出了19.91 tokens/s的流畅速度。

作为对比,Qwen3-1.7B模型速度仅为1.07 tokens/s,几乎无法正常使用。

近19倍的性能差距,充分证明了SmallThinker在极端资源受限环境下的卓越运行能力。这不仅是一次技术的胜利,更是将高端AI平民化的关键一步。

场景二: 主流PC配置(8GB RAM)

当内存放宽到旗舰PC的8GB时,SmallThinker的架构优势依然显著。

SmallThinker-21B-A3B的4核CPU(Intel i9 14990K)推理速度达到20.30 tokens/s,而Qwen3-30B-A3B4核CPU速度为 10.11 tokens/s,加速比达到2倍。

未来展望:不止于此,通往端侧原生智能

在这训练过程中,团队发现;即使在如此庞大的数据投喂之后,模型的loss曲线仍在稳步下降,仍未达到饱和

未来,团队会围绕两条路线演进。

第一条路线,继续Scaling:更大更强

既然模型尚未“吃饱”,那么最直接的路径就是——继续投喂。

团队的下一步计划,将继续遵循被验证有效的Scaling Law,利用更多的高质量Tokens进行进一步训练。进一步压榨模型潜力,在知识储备、逻辑推理和代码生成等核心能力上,将SmallThinker推向新的高度,打造出更强大的端侧基础模型。

第二条路线,打造“个人贾维斯”:从模型到可信赖的智能体

如果说Scaling Law是让模型变得更“博学”,那么团队的终极野心,则是打造一个真正属于每个人的“贾维斯式”智能体。

这个智能体的独特之处在于,它完全运行在你的个人设备上,能够安全、完整地理解你的全部数字生命——从邮件、日程,到聊天记录和相册。正是在这片独一无二的私有数据土壤之上,才能生长出“千人千面”、真正懂你的可信赖AI。

相信未来,随着端侧原生AI能力的不断进步,未来的AI能力就会像今天的水和空气一样,主动融入我们每个人的日常工作和生活,提供安全私密、成本低廉、充满智慧的AI体验。

*本文系量子位获授权刊载,观点仅为原作者所有。


一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

🌟 点亮星标 🌟

科技前沿进展每日见