百元级硬件流畅运行百亿参数大模型！上交&本智激活开源端侧原生大模型

量子位
2025-07-27 17:01:31

允中发自凹非寺
量子位 | 公众号 QbitAI

AI的下一个战场，不在云端，而在你的口袋里。

iPhone、华为、三星、小米、OPPO等各大手机厂商几乎都在将大模型塞进手机，端侧AI已然成为兵家必争之地。

背后的逻辑清晰而坚定：最懂你的AI，必须能安全地访问你的个人数据——邮件、照片、日程，而这一切的前提，就是将计算留在本地，将隐私还给用户。

然而，想让AI在本地流畅运行，远比想象的要难得多。最好的证据，莫过于财力雄厚、软硬一体的苹果，其雄心勃勃的Apple Intelligence计划也未能如期而至，核心AI功能不得不推迟到明年。

这无疑向整个行业释放了一个清晰的信号：端侧AI，是一块难啃的硬骨头。

正当全球科技巨头在端侧AI的道路上艰难探索时，一股产学研深度融合的新兴力量，给出了独有的解决路线。

今天，上海交通大学IPADS研究所、上海交通大学人工智能学院联合初创公司本智激活（Zenergize AI），在HuggingFace开源了端侧原生大模型SmallThinker。

该系列模型采用为端侧算力、内存、存储特性而原生设计的模型架构，并从零开始预训练，具体包含两个尺寸的稀疏模型，分别是SmallThinker-4B-A0.6B和SmallThinker-21B-A3B，模型也已开源，链接如下。

https://huggingface.co/PowerInfer/SmallThinker-21BA3B-Instruct
https://huggingface.co/PowerInfer/SmallThinker-4BA0.6B-Instruct

其显著特征，就是用端侧CPU即可快速推理，不再依赖高端GPU。
其中，4B模型在1GB峰值内存下的推理速度达到惊人的19.41 tokens/s。

而更令人瞩目的是，21B旗舰稀疏模型，在一块百元级的国产RK3588开发板上，实现了相较于同等能力的主流模型（Qwen-14B）高达21倍的推理加速，将同类解决方案远远甩在身后。

SmallThinker：端侧原生大模型

主流大模型，从出生起就是为云端成千上万TOPS算力、TB级显存的GPU集群“量身定制”的。想把它们塞进算力、内存等都不到云端5%的端侧设备，传统方法只有“压缩”。

这就好比让一个“博士生”模型，通过蒸馏、量化等手段，强行“降智”，最终变成一个只会简单问答的“小学生”，牺牲了太多智能。

是否存在一种不做“模型降智”，而是一步到位的选择？

为了实现这一目标，SmallThinker系列针对端侧的弱算力、小内存、慢存储，设计了创新的大模型架构，并从零开始预训练，实现了与端侧硬件的“精巧匹配”。

资讯配图

具体来说，这一端侧原生的大模型架构主要拥有三大核心技术特性：

第一，端侧算力原生的双层稀疏架构，稀疏度提升5倍。

传统的MoE（混合专家模型）只在专家层面是稀疏的。而SmallThinker在此基础上，增加了专家内部的神经元稀疏。

这就好比，模型不仅能精准调用最相关的专家知识，还能只激活专家知识库里最核心的部分，避免“复述全部所学”，对端侧算力的要求大大降低。

资讯配图

第二，端侧存储原生的专家路由前置，显著隐藏IO开销。

在内存资源受限的端侧，通常模型权重不能完全放置在内存里，需要在推理过程中动态从慢速存储（比如SSD、UFS等）加载模型专家权重，而在这个过程中，端侧的慢速I/O会严重影响推理速度。

传统方案是算完注意力，再计算路由，最后排队等待加载专家。

而SmallThinker在模型架构中就原生提供了机制，帮助预判需要哪个专家，在进行注意力计算的同时，就去异步加载专家。

做到了“边检查边传唤”，将I/O等待时间隐藏在注意力计算的过程中。

资讯配图

第三，端侧内存原生的混合稀疏注意力，KV缓存占用下降76%。

针对长文本场景，SmallThinker设计了“略读”+“精读”的混合注意力机制。它使用滑动窗口注意力（Sliding Window）进行高效的“略读”，同时保留全局注意力的能力进行“精读”。

两种方式组合，在处理16K文本时，相比传统GQA机制，KV缓存占用降低76%，让端侧设备也能轻松处理长文档

资讯配图

生态兼容性与极致性能：SmallThinker与PowerInfer的完美结合

一个真正优秀的开源模型，不仅自身要强大，更要拥抱广阔的开放生态。
SmallThinker模型系列在设计上充分考虑了开发者的使用习惯，能够无缝兼容HuggingFace Transformers、vLLM、SGLang、llama.cpp、KTransformers等一系列主流推理框架。

在硬件适配上，它实现了对英特尔、英伟达、高通等主流芯片，甚至已经可以在国产鸿蒙操作系统上进行推理。这种开箱即用的灵活性，极大地降低了开发者的使用门槛。

而要体验SmallThinker最极致的端侧加速与内存优化效果，则需要使用团队为其量身打造的端侧原生Infra——PowerInfer（https://github.com/SJTU-IPADS/PowerInfer/blob/main/smallthinker/README.md）。

PowerInfer是团队于2023年12月开源的业界首个稀疏大模型端侧推理框架，发布后迅速获得全球开发者的高度关注，目前GitHub星标已达8.2K，并曾连续两天蝉联GitHub全球项目趋势榜第一。

它能够深度激活SmallThinker原创的双层稀疏架构，在推理时只调用必要的专家及神经元，并能在不影响推理速度的情况下降低内存占用。

它就像是为SmallThinker这台“F1赛车”专门打造的引擎，为开发者提供了一套从模型到部署、真正完整的全栈优化解决方案。

SmallThinker模型智力与推理性能兼具

理论再好，也要看疗效。SmallThinker团队交出的，是一份模型能力与端侧推理性能兼备的答卷。

为了真正实现“端侧原生”，团队从零开始预训练，基于高质量数据语料，训练了两种规模的模型：

SmallThinker-4B-A0.6B：基于2.5T Tokens数据预训练，拥有40亿参数，激活6亿参数，主打极速响应。
SmallThinker-21B-A3B：基于7.5T Tokens数据预训练，拥有210亿参数，激活30亿参数，主打旗舰性能。它能够在百元级RK3588上流畅部署，全内存情况下的CPU推理速度也能达到10.84 tokens/s。

口说无凭，评测见真章。

在MMLU、GPQA等多个权威评测基准上，SmallThinker的智力水平均超越了同尺寸甚至更大尺寸的开源模型，充分证明了其“原生”架构设计的优越性。

而在更关键的实际运行性能上，当SmallThinker与PowerInfer结合时，其在内存约束场景下的优势尽显。团队在旗舰移动平台和个人电脑PC上，对业界主流模型进行了正面硬刚。

场景一：手机极限内存瓶颈（1GB RAM）

在主流手机上，SmallThinker-4B-A0.6B模型的Q4量化版本，在仅调用4个CPU核心的情况下，推理速度便高达79 tokens/s。

而在对模型架构与推理框架构成终极考验的极限内存瓶颈（1GB）场景下，SmallThinker的优势则体现得淋漓尽致；4B模型依然跑出了19.91 tokens/s的流畅速度。

作为对比，Qwen3-1.7B模型速度仅为1.07 tokens/s，几乎无法正常使用。

近19倍的性能差距，充分证明了SmallThinker在极端资源受限环境下的卓越运行能力。这不仅是一次技术的胜利，更是将高端AI平民化的关键一步。

场景二：主流PC配置（8GB RAM）

当内存放宽到旗舰PC的8GB时，SmallThinker的架构优势依然显著。

SmallThinker-21B-A3B的4核CPU（Intel i9 14990K）推理速度达到20.30 tokens/s，而Qwen3-30B-A3B的4核CPU速度为 10.11 tokens/s，加速比达到2倍。

未来展望：不止于此，通往端侧原生智能

在这训练过程中，团队发现；即使在如此庞大的数据投喂之后，模型的loss曲线仍在稳步下降，仍未达到饱和。

未来，团队会围绕两条路线演进。

第一条路线，继续Scaling：更大更强。

既然模型尚未“吃饱”，那么最直接的路径就是——继续投喂。

团队的下一步计划，将继续遵循被验证有效的Scaling Law，利用更多的高质量Tokens进行进一步训练。进一步压榨模型潜力，在知识储备、逻辑推理和代码生成等核心能力上，将SmallThinker推向新的高度，打造出更强大的端侧基础模型。

第二条路线，打造“个人贾维斯”：从模型到可信赖的智能体。

如果说Scaling Law是让模型变得更“博学”，那么团队的终极野心，则是打造一个真正属于每个人的“贾维斯式”智能体。

这个智能体的独特之处在于，它完全运行在你的个人设备上，能够安全、完整地理解你的全部数字生命——从邮件、日程，到聊天记录和相册。正是在这片独一无二的私有数据土壤之上，才能生长出“千人千面”、真正懂你的可信赖AI。

相信未来，随着端侧原生AI能力的不断进步，未来的AI能力就会像今天的水和空气一样，主动融入我们每个人的日常工作和生活，提供安全私密、成本低廉、充满智慧的AI体验。

*本文系量子位获授权刊载，观点仅为原作者所有。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

🌟 点亮星标 🌟

科技前沿进展每日见

声明：本文内容及配图由入驻作者撰写或合作网站授权转载。文章观点仅代表作者本人，不代表科技区角网立场。仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。点击这里

开源

点赞 (0)
分享
微信扫一扫
加入群聊
扫码加入群聊

允中 发自 凹非寺量子位 | 公众号 QbitAI

SmallThinker：端侧原生大模型

生态兼容性与极致性能：SmallThinker与PowerInfer的完美结合

SmallThinker模型智力与推理性能兼具

场景一： 手机极限内存瓶颈 （1GB RAM）

场景二： 主流PC配置（8GB RAM）

未来展望：不止于此，通往端侧原生智能

允中发自凹非寺
量子位 | 公众号 QbitAI

场景一：手机极限内存瓶颈（1GB RAM）

场景二：主流PC配置（8GB RAM）