端边算力再升级,后摩智能 160TOPS 端边大模型AI芯片正式发布
- 2025-07-29 17:15:17
近日,后摩智能正式发布全新端边大模型 AI 芯片——后摩漫界®M50,同步推出力擎™系列 M.2卡、力谋®系列加速卡及计算盒子等硬件组合,形成覆盖移动终端与边缘场景的完整产品矩阵。

后摩智能创始人兼CEO 吴强博士现场发布
M50 芯片产品矩阵发布
M50 芯片实现了160TOPS@INT8、100TFLOPS@bFP16 的物理算力,搭配最大 48GB 内存与153.6 GB/s 的超高带宽,典型功耗仅 10W,相当于手机快充的功率,就能让PC、智能语音设备、机器人等智能移动终端高效运行1.5B 到 70B 参数的本地大模型,真正实现了"高算力、低功耗、即插即用"。
除了 M50 芯片,后摩智能此次发布的产品矩阵形成了覆盖端侧到边缘的多元算力方案。力擎™️LQ50 M.2 卡以口香糖大小的标准 M.2 规格,为 AI PC、AI Stick、陪伴机器人等移动终端提供 "即插即用" 的端侧 AI 能力,支持 7B/8B 模型推理超 25tokens/s;力擎™️LQ50 Duo M.2 卡集成双 M50 芯片,以 320TOPS 算力突破 14B/32B 大模型端侧部署瓶颈;力谋®LM5050 加速卡与力谋®LM5070 加速卡分别集成 2 颗、4 颗 M50 芯片,为单机及超大模型推理提供高密度算力,最高达 640TOPS;BX50 计算盒子则以紧凑机身适配边缘场景,支持 32 路视频分析与本地大模型运行。

些产品可广泛应用于消费终端、智能办公、智能工业等多元领域,且均能在离线状态下实现全流程本地处理,从源头杜绝数据联网传输风险。
存算一体领先企业
端侧设备对低功耗、低延迟、高隐私性有极高要求,而传统冯·诺依曼架构下“数据搬运”带来的功耗和延迟成为瓶颈。存算一体通过在存储单元内完成计算,大幅减少数据搬移,能效提升可达10~100倍。
存算一体正成为端侧AI芯片的“新标配”,其在极低功耗场景下的能效优势与边缘AI的爆发需求高度匹配,预计将在2025年后迎来大规模应用,特别是在AI PC、智能学习机、智能语音设备等领域率先普及。
后摩智能是全球存算一体大算力AI芯片的先行者和落地者,2020年由吴强博士在南京创立。
后摩智能创始人吴强博士表示,后摩智能选择存算一体赛道出于两个朴素原因:从学术端看,我的论文方向是高能效比计算芯片与编译器,一路跑数据、跑仿真后,发现传统架构的功耗墙和存储墙几乎无解,唯一能让能效量级的跃迁,只有把计算“搬进”存储阵列。从产业端看,创业之初就要面对英伟达这样的国际巨头,正面拼工艺、拼生态几乎没胜算,只能做别人没做过的架构,才能另辟蹊径,实现“弯道超车”。于是,我们一头扎进这条当时还偏冷门的赛道,埋头干了四年多。
在大模型里,Prefill 阶段算力占主导,Decoding 阶段带宽占主导,两者轮番成为瓶颈。存算一体天生把计算塞进存储阵列,既抬高了片上算力密度,又把访存带宽拉到极致,恰好一次解决“算”与“存”的双重饥渴。吴强博士表示,大模型正在从“训练为王”转向“推理为王”; 主战场正从云端滑向端边——90 % 的计算将发生在端和边,仅 10 % 的重度训练留在云端。
这意味着端边侧将出现一个前所未有的“大模型真空地带”:它需要实时响应、要低到地板的 TCO、必须本地闭环保护隐私,还要把用户体验做到极致。谁先填上这个真空,谁就能让 AI 真正变成“更懂你的 AI”。
存算一体第二代IPU专为大模型重构
后摩智能围绕“存算一体”已完成两代核心 IP 的自主研发,并同步迭代了配套的 IPU 处理器架构与软件工具链,形成了从 IP → 芯片 → 工具链的完整自研闭环。
后摩智能基于自研的高效存算IP,正式发布第二代IPU架构——天璇。针对大模型时代对算力密度与能效比的极致需求,天璇从底层架构到微架构全面重构,围绕大模型的核心特征(如高并行、高带宽、低延迟、稀疏计算等)进行了深度优化:

自适应计算或者弹性加速。这是存算一体和我们的IPU架构给我们带来的一个额外的优势,所以我们算的比别人更快。后摩智能通过按 bit 级粒度进行优化,带来了前所未有的灵活性与效率提升。得益于存算一体架构,我们不再受限于传统整字节(8bit)的量化步长,而是可以精细到单个 bit 调整计算位宽。这不仅为弹性加速创造了更多机会,也让常规量化拥有更细粒度的空间:7bit、6bit、5bit……任意位宽随场景自由配置,从而进一步挖掘性能与功耗的优化潜力。
存算上进行浮点运算。在基于存算的架构做浮点运算,并把它量产,后摩智能在业内应该是第一个。好处是可以对这些开源或者FP16的浮点模型可以直接运行,然后来提升适配和应用的效率,只有特殊需要的情况下才会做额外的量化,这一步大大的加快了我们芯片的应用落地的容易程度。
无论是存算的IP还是所谓IPU的核,其实都还是硬件,很多老师知道硬件离不开软件,软件需要一个好的硬件,需要一个好的编译器工具链去把它的能力充分发挥出来。M50配备的是我们新一代编译器工具链——后摩大道。
面向未来,后摩智能已启动下一代 DRAM-PIM 技术研发,通过将计算单元直接嵌入 DRAM 阵列,使计算与存储的协同更加紧密高效。该技术将突破 1TB/s 片内带宽,能效较现有水平再提升三倍,推动百亿参数大模型在终端设备实现普及,让更强大的 AI 算力能够融入 PC、平板等日常设备。
- End -

- 点赞 (0)
-
分享
微信扫一扫
-
加入群聊
扫码加入群聊