资讯配图

作者 | 梁昌均

编辑 | 杨锦

面对汹涌的具身智能热潮,商汤也打算入局了。

在今年的WAIC期间,这家公司宣布推出具身智能平台“悟能”,定位具身大脑,其以具身世界模型为核心引擎,可以为机器人、智能设备等智能终端提供赋能。

商汤CEO徐立提到,过去十年,AI从感知智能迈向生成智能,现在迎来具身智能。“从感知世界到更好地理解世界,才能生成世界,最后和现实的硬件交互来改变世界。”

这背后是商汤对大模型技术的演化路径的判断。从最初以计算机视觉起家,到入局大语言模型、多模态模型,再到此次布局具身模型,商汤不断拓展自身技术边界。

“从达到AGI的角度来说,要让智能走出数字空间,实现和数字空间跟物理空间的连接。”商汤联合创始人、首席科学家林达华对搜狐科技表示。

自去年以来,具身智能和人形机器人热潮翻涌,吸引了不少玩家进入。正如林达华所说,具身智能市场正在快速成长,商汤希望去捕捉这个机会。

不过,具身智能也面临不少挑战,业内关注焦点在于数据,并形成了真机派和仿真派的两种路线。

在林达华看来,仅靠真机获取数据会有物理瓶颈,不是快速迭代的路径。他认可的做法是在强大的多模态基座上,用少量真机数据去做牵引,从而形成更好的能力。

目前,商汤与傅利叶智能、松应科技、归墟机器人等企业达成合作,并通过旗下的国香资本投资了宇树科技、银河通用、众擎机器人等十多家具身智能企业。

除发布具身智能平台,商汤在WAIC期间还更新了日日新V6.5大模型,其多模态推理与交互性能大幅提升,成本降至最初的30%,智能体能力也有所升级。

林达华认为,语言模型是大模型通向AGI比较容易切入的第一步,但最终要通向AGI,多模态是必经之路,而接下来要把多模态的融合从理解层面,延伸到思考层面。

“下一步最重要的突破点是泛化性,就是推理的性能能不能从单一领域,拓展到广泛的生产、工作和生活领域。如果做到,我觉得距AGI就靠近了一大步。”

另一个需要突破的则是模型的空间理解能力。林达华提到,Gemini 2.5等国际顶尖的多模态模型,空间感特别弱。如果这块不突破,未来会成为具身智能落地的重要障碍。

谈及今年爆火的智能体(Agent),林达华认为,Agent是AI落地很重要甚至是很终极的一种形态,但现在很多号称具备Agent能力的模型,在真正落地时还是有比较大的距离。

“Agent最终要走通的关键是,基础模型的能力要有比较强的指令跟随、意图反思、编程推理等能力,最终一定是围绕打穿场景去迭代,否则Agent的价值不能落地。”

以下是对话精编:

一、具身智能市场正在快速成长,不能只依赖真机数据

媒体:商汤发布具身智能平台,定位具身大脑,现在布局是出于什么考虑?

林达华:AGI在我们看来有三个重要的发展阶段,第一是语言跟多模态融合,第二是多模态思考,这两个阶段都是在数字空间去进行信息处理和判断。

从达到AGI的角度来说,要让智能走出数字空间,实现和数字空间跟物理空间的连接。打破这个边界,才能最终到达智能的AGI彼岸。

商汤做了多年的计算机视觉,做了多模态模型,做智能驾驶也积累了很多如何让模型去做规划、控制的技术体系,这些能够让智能体去理解空间、进行规划和行动控制。

我们这次会提出具身智能平台,就是想让这些能力以平台化的方式去支持智能的发展。具身智能市场正在快速成长,商汤也希望从商业的角度去捕捉这个机会。

媒体:您怎么看具身智能的技术挑战?业内说的比较多的是数据,不同企业做法也不同,商汤是如何考虑的?

林达华:大模型所需的海量数据可以从互联网获得,并能通过深加工等提升质量去做训练。具身数据好像得通过操作才能获得,但受限于机器人个数,操作很慢,吞吐非常低。

因此,通过真机操作去获取数据,会有物理瓶颈。所以,这要真正做好,不能只依赖真机操作的数据,数量级差得太远,不是在当前阶段快速迭代的路径。

所以只能用真机操作的数据作为种子,去校正模型,就是先通过大量互联网数据,形成强大的多模态基座,然后再用少量真机操作数据去做牵引,才能形成好的能力。

这也是为什么我们要做世界模型,这种结合很大程度上可以解决数据问题,商汤已把世界模型用于训练自动驾驶,把这个事走通。

媒体:商汤做具身智能主要定位大脑,未来会考虑做本体或者是和小脑的结合吗?

林达华:我觉得未来有很多可能性,会在跟客户和生态接触的过程中,逐渐丰富和完善我们的技术体系。但是具体做哪些,我们会随着时间不断地调整我们的判断,与时俱进。

媒体:大模型和具身智能的研发都需要较长投入,商汤如何平衡短期回报和长期布局?

林达华:最重要的是研发跟最终的商业愿景要对齐。研发大模型就是点科技树,不同的年份点不同的点,如Kimi早期会点长文本,商汤会把多模态作为主轴。

这种选择跟我们对模型最终产生闭环价值,需要突破哪些关键点的判断有关系。为什么商汤没有做奥赛金牌,因为没法商业落地,我们不会走这个路径。

具身智能跟基础模型,不是完全去分资源的概念,具身智能、世界模型就建立在我们的积累的多模态基础之上,这会使得我们在具身智能本身的额外投入没有想象中那么大。

二、多模态是AGI的必经之路,泛化性和空间理解能力是突破点

媒体:现在国内外模型的竞争还是非常激烈,您怎么看大模型的演化趋势?

林达华:AI本质是要构建一种智能。真正的智能是什么呢?就像人是一个智能体一样,能跟真实的世界进行自主的交互,这是智能的终极目标。但它细分会有很多的维度,比如要做感知、做推理、做判断、做决策等。

为什么语言模型会成为这一波大模型打响的第一枪?因为人类几千年积累的丰富知识,是以语言的方式为主存在的,但语言并不是整个世界的本身。

所以从智能本质来说,需要对各种模态的信息进行跨模态的关联,才能完成对世界的理解和建模。从某种意义上,语言模型是大模型通向AGI比较容易切入的第一步,但最终要通向AGI,多模态的能力不可缺少。

媒体:现在统一的大模型似乎还没有,GPT-5还没发,多模态会往更加融合的方向去走吗?

林达华:多模态发展最早是计算机视觉,是上一个时代的浪潮。到了23年、24年,多模态模型最初的架构是语言模型,再接上视觉编码器,把视觉信号跟语言合并处理。

这种架构天花板比较低,融合也比较浅。直到2024年年底,像Gemini模型,比较早提出所谓的原生多模态的概念,这个天花板更高。现在往下去走,就是要把多模态的融合从理解层面,延伸到思考层面。

当有效进行融合训练之后,一个多模态模型能够在纯语言的任务上表现地比一个纯语言模型更好。当能做到这一步的时候,单独的语言模型就不再是必要的。所以商汤从日日新6.0开始,到这次发布的日日新6.5,没有单独的语言模型,全部都是多模态模型。

据我了解,现在国内厂商,可能在今年下半年,陆陆续续也会开始这么走。比如字节跳动今年开源的一些模型,也是这条路径。

媒体:去年就有Scaling law撞墙的谈论,从技术上来说,AGI是不是真的遇到了瓶颈,需要在哪些方面去突破?

林达华:最近有个消息,谷歌在IMO上面拿到金牌。如果只是拿金牌,这个事情意义有限。就像AlphaGo,下围棋打败了世界冠军,都是在一个非常狭窄的领域做到了突破。

现在所有的推理模型,能力强主要体现在做数学题、编程上。下一步最重要的突破点是泛化性,就是推理性能能不能从单科、单一领域,拓展到广泛的生产、工作和生活领域,做到跟人一样能够自由去推理的水平。如果做到这一点,我觉得距AGI就靠近了一大步。

第二个,我觉得很重要的是空间理解能力。我们内部研究,包括Gemini 2.5等国际顶尖的多模态模型,空间感特别弱。这不突破的话,未来会成为具身智能落地的重要障碍。

媒体:今年被称为是Agent爆发的一年,您觉得Agent哪些领域最具代表性,还需要解决哪些关键的问题?

林达华:我觉得Agent是AI落地很重要甚至是很终极的一种形态,要做成依赖非常强的推理能力、反思能力、规划能力、决策能力,这些都是大模型需要提供的基础能力。

为什么2023年大家不怎么谈Agent,到了今年才说Agent是元年?因为那会的大模型能力还没有到这个水平,今年达到了,能支撑真正的Agent起来。

但我呼吁大家要保持一个更加客观的态度,很多模型说具备Agent的能力,在相关评测榜单上面分数也很高,但真正落地的时候,还是有比较大的距离。

我觉得Agent最终要走通的关键是,基础模型的能力要有比较强的指令跟随、意图反思、编程推理等等能力,最终一定是围绕打穿场景去迭代,否则Agent的价值不能落地。

///全文完///

运营编辑|李阳

资讯配图
资讯配图