资讯配图资讯配图

多模态卷王发力推理模型!
作者 |  程茜
编辑 |  漠影

智东西7月25日报道,在世界人工智能大会正式开幕前一天,阶跃星辰在发布会上接连放出一系列重磅消息。

首先,阶跃发布新一代主力基座模型Step 3,并宣布将于7月31日面向全球企业和开发者开源,为开源世界贡献最强多模态推理模型。Step 3的野心是打造推理时代最适合应用的模型,实现了行业领先的推理解码效率。它在国产芯片上的推理效率最高可达DeepSeek-R1的300%,且对所有芯片友好

这也引出了第二个重磅,阶跃宣布联合近10家芯片及基础设施厂商,共同发起“模芯生态创新联盟”,致力于通过底层联合创新提升大模型适配性和算力效率,加速大模型应用落地,包括华为昇腾、沐曦、壁仞科技、燧原科技、天数智芯、无问芯穹在内的多家顶级国产芯片大佬罕见地在阶跃发布会同台亮相。

与基础大模型能力进阶同频的,是阶跃星辰在大模型商业化应用落地上势如破竹——根据官方披露的数据,2025年上半年,阶跃星辰的收入快速增长,全年收入预计接近10亿元

阶跃星辰创始人、CEO姜大昕谈道,随着大模型进入到强化学习发展阶段,新一代推理模型成为主流,模型性能的提升固然显著,但这是否完全等同于模型价值?什么样的推理模型是最适合商业化应用的?如何联动模型、芯片、基础设施全技术链条的力量,一起加速大模型的应用落地?基础大模型公司如何通过技术创新找到健康可持续的商业化路径?

阶跃在这场发布会对这一系列问题交出了有行业启发性的答卷。


01.
多榜单超主流开源模型
推理效率可达DeepSeek-R1 300%


推理模型已然成为今年大模型产业的热词。

但当下推理模型的可用性仍被多重现实瓶颈制约:能支撑其流畅运行的高性能芯片供给有限,多数企业面临模型跑得起却用不起的算力困境;开源生态的不完善让技术迭代受限,闭源模式下用户既难验证推理逻辑的可靠性,也难以针对场景深度调优;更关键的是,大量推理模型仍困于单一模态的“信息孤岛”,缺乏兼具文本、图像、视频、语音的综合多模态能力,难以应对真实世界的复杂交互需求。

但如今能同时处理文本、图像、音频、视频、传感器数据等多种模态信息,并进行跨模态理解与推理的多模态推理模型,其重要性正随着技术发展和应用深化愈发凸显。

这一背景下,阶跃星辰新一代多模态推理旗舰模型Step 3应运而生。 Step 3是阶跃星辰首个全尺寸、原生多模态推理模型,兼顾模型效果与推理成本,是在模型架构创新、算法工程协同设计上的一次大胆尝试与Scale Up。Step 3采用MoE架构,总参数量321B,激活参数量38B。

在现场,Step 3模型通过我们常见的色盲测试接受了感知能力考验,模型准确识别出了图形中隐藏的“STEP3”,并且还在推理过程中提到“它知道自己也叫Step 3,这可能是一个有趣的巧合”。

▲色盲测试

下一个难题面临的场景更为复杂。一份包含多人在微信群里有讨论购买零食和酒水的聊天记录,还有一份购买的小票,Step 3需要结合小票和聊天记录,最后算出群里的成员如何分账。Step 3就可以快速理清如何分账,将视觉和推理能力相结合,最后算出每个人要出的总价格。

与人工计算结果相比,Step 3的答案仅有0.03元差异,是由于四舍五入的规则不同导致的。


推理时代让模型可用的先决条件扩展到了多模态、够聪明。

Step 3作为多模态推理模型,具备视觉感知和复杂推理能力,可完成跨领域的复杂只是理解、数学与视觉信息的交叉分析、日常生活中的各类视觉分析问题等。

在智能方面,Step 3拥有强大的视觉感知和复杂推理能力,可准确完成跨领域的复杂知识理解、数学与视觉信息的交叉分析,以及日常生活中的各类视觉分析问题。Step 3在MMMU、MathVision、SimpleVQA、AIME25、LiveCodeBench(2024.08-2025.05)等榜单上取得了开源多模态推理模型的SOTA成绩

资讯配图

此外,Step 3还有两大亮点优势:开源和成本效益高。开源毫无疑问可以帮助契合和开发者降低使用门槛,并加速模型迭代。而成本效益高则是考验着对模型性能与成本巧妙平衡。

根据原理分析,Step 3在国产芯片上的推理效率最高可达DeepSeek-R1的300%,且对所有芯片友好,在基于NVIDIA Hopper架构的芯片进行分布式推理时,相较DeepSeek-R1的吞吐量提升超70%

资讯配图

值得注意的是,这一实测结果都是在不牺牲模型激活参数量、不降低注意力容量的条件下实现的。

随着大模型技术迈向推理时代,阶跃星辰给出了,最适合实际应用的大模型需要满足强智能、低成本、可开源和多模态四个特征。这四个维度缺一不可,因为单点能力强,无法满足用户对于模型的综合需求。唯有模型全面发展,才能让模型真正用起来。

以Step 3为代表的多模态推理模型正推动单一模态大模型向类人认知能力的方向进化,从而使得AI能在更为复杂的场景落地。

作为“多模态卷王”阶跃星辰在当下大模型应用爆发节点交出的最新答卷,它的设计理念使其走向规模化应用成为可能。

究其根源,是阶跃星辰在多模态模型赛道的不断深耕。阶跃星辰成立两年多以来,已经构建起“1+N”的Step系列大模型矩阵,共发布23款模型。“1”是指Step 3基础大模型,“N”则为Step系列的多模态大模型矩阵,广泛覆盖语音、视觉理解、图像编辑、图像和视频生成、音乐等领域,其模型已经多次在LMSYS、OpenCompass、MATH-Vision等国内外权威基准测试榜上位列中国大模型第一。


02.
联动头部芯片天团
组建模芯创新生态联盟


与此同时,多模态推理模型在实际场景中对应用适配性的严苛要求,进一步强化了其与芯片深度适配的必要性。

在此基础上,阶跃星辰将Step 3模型对几乎所有芯片进行了适配,在设计Step 3模型架构的时候,就已经考虑了国产芯片的硬件特点。

其采用的策略是“内外联动”,即对内通过系统技术创新来降低模型推理成本、发力开源,对外则深度联动芯片企业和基础设施厂商,形成全技术链条协同的底层创新模式。

多模态推理模型需要处理图像、音频、视频、点云等多种异构数据,这些数据的存储格式、处理流程、计算强度差异极大,对芯片的算力结构、内存带宽、硬件加速单元等提出了远超单一模态的挑战。

而没有针对性适配的芯片,多模态推理模型要么因算力不足无法落地,要么因效率太低难以商业化。

当下降低大模型的推理成本,已经成为决定大模型应用渗透率的关键课题,其本质就是提升算力的应用效率。因此,从一定程度上看,芯片适配是多模态推理模型走向商业化落地的核心前提。

今日,阶跃星辰联合华为昇腾、沐曦、壁仞科技、燧原科技、天数智芯、无问芯穹、寒武纪、摩尔线程、硅基流动等近10家芯片、基础设施厂商发起成立“模芯创新生态联盟”,打通芯片、模型和平台全链路技术。

资讯配图

目前,华为昇腾芯片已率先实现Step 3的搭载和运行,沐曦、天数智芯和燧原已初步实现运行Step 3。其它联盟厂商的适配工作正在开展。

模型与芯片企业的联动最直观的优势就是,可以提升模型性能和效率,模型与硬件深度适配可以在降低资源消耗的同时充分发挥模型性能,而这种协同研发的新模式,正是模型、芯片互相驱动升级形成正向循环的必然结果。

从更长远的角度看,这可以降低成本推动规模化商业落地,成为打破推理模型成本居高不下桎梏的一条有效路径。


03.
多模态能力触达多元智能终端
阶跃星辰全年营收冲刺10亿


在研发思路中致力于让大模型真正可用的阶跃星辰,在商业化应用落地上也突飞猛进。

2025年上半年,阶跃星辰的收入快速增长,全年收入冲刺10亿元

资讯配图

这是阶跃星辰将大模型能力深度融入手机、汽车以及各类IoT设备和当下被称为制造业皇冠明珠的人形机器人的阶段性成效,贯穿新兴产业与已拥有海量用户基础的赛道。

在智能终端Agent应用侧,阶跃星辰开放平台数据显示,其上半年来自智能终端的多模态模型调用次数和调用量,环比增长均超800%。

具体在手机方面,阶跃星辰已经和超半数头部国产手机厂商达成合作,多模态能力落地荣耀、OPPO等品牌的旗舰机型;汽车层面,阶跃联合吉利推出AI智能座舱,成功实现行业内端到端语音大模型首次量产上车;面向IoT终端,阶跃星辰通过生态开放的方式,与包括TCL在内的一系列IoT平台和设备厂商紧密协作,推动设备间的智能化升级和体验的无缝连接。

除了直接在不同终端落地的Agent,阶跃星辰还亮出了垂类Agent以适配用户更为细分的应用场景。阶跃AI作为阶跃星辰基于自研模型能力打造的智能助手,具备文本、图像、语音等多模态交互能力和推理能力,可以在科研场景帮助用户核查信息、视觉理解生成、视频通话等。

Agent被认为是大模型的下一个焦点,其既是大模型目前应用落地的绝佳载体之一,同时是企业探索AGI的主要路径。从阶跃星辰的布局可以看出,其已经将多模态大模型的能力内化到千行百业,在各类智能终端设备上落地。

在这样的全栈布局下,阶跃星辰在基础模型、智能终端Agent、垂类Agent领域三管齐下,成为大模型应用落地率先冲出的一家创企。其半年时间落地应用成果已遍地开发,不仅催生出众多实际落地的智能终端设备,更构建起健康协同的商业模式,形成了良性发展生态。


04.
结语:大模型商业化落地竞速开启


随着大模型发展迈入下半场,行业竞争的焦点已从基座模型的性能比拼,深度延伸至商业化落地的速度与质量,阶跃星辰已然趟出一条商业化与模型研发共进的路径。

阶跃超级模型+超级应用战略的双轮驱动,使其在大模型下半场的竞争中占据了独特优势,模型研发为商业化提供能用、好用的技术底座,商业化落地为模型迭代注入源源不断的场景数据与需求灵感,二者协同勾勒出大模型从技术创新到产业价值转化的清晰路径。

资讯配图
(本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)

资讯配图