资讯配图
从人工智能诞生之初,一个核心命题便贯穿始终:智能到底从哪里来?
人类的智能起源于对世界的持续自主探索,在与物理空间的交互中沉淀并进化;机器智能的进化,依赖于人类积累的有限知识,仅靠这些,似乎难以真正触达并融入物理空间。
随着单一模态的进化触及边界,AI的演进路径是什么?
资讯配图
商汤科技董事长兼CEO徐立,在2025世界人工智能大会主论坛上发表主旨演讲《人工智能的十年演进》,以下为演讲全文:


大家好,很高兴有机会在这里分享一下我们关于人工智能演进的一些思考。

题目是《人工智能的十年演进》,原因在于过往的十年,是人工智能认知变化最快的十年,商汤科技成立十年所以正好谈谈这十年

智能跃迁:

从感知AI到生成式AI

谷歌搜索趋势清晰显示过往十来年人工智能热度有数次跃升,这标志着大众认知在这三个时间点发生了显著变化。
资讯配图

最初是感知AI——2011到2012年深度学习在视觉领域兴起,随着 CNN、ResNet 等算法迭代共同推动了第一波认知升级和产业落地 2017-2018 年,伴随Transformer 及自然语言模型的发展进入了生成式AI的阶段带动行业发展并逐步重塑大众认知至当前高峰,从GPT智能体、多模态大模型,乃至到现在第三个热点高峰旨在改变现实世界的具身AI与世界模型。

资讯配图

我们始终在思考一个核心问题:在这几个阶段中,智能本身从何而来?算法迭代与生产力爆发(包括GPU 发展)固然重要,但还有一个本质问题在于:AI 和机器学习,究竟学习的是什么?

感知AI时代,受益于互联网上对现实世界的大量“拷贝”——图片、视频等数据已广泛存在。因此,感知时代的智能主要来自人工标注:AI是通过学习人工标注获得能力。大量标注数据被用于训练一个个垂直领域模型,例如我们当时推出的“商汤方舟”产品平台,便集成了一万多个感知模型,可以做很多不同垂直领域的识别任务。
感知模型的能力源于学习特定数量级的标注数据。以2012 年 Hinton 团队在 ImageNet 上的突破性成果为例(使用约 1400 万张图片),若换算成一个人标注,大约需要 10 年。这看似数据庞大,但仅凭单人 10 年的知识,模型的泛化能力仍受局限。因此,彼时 AI 的工具属性明显,局限于各垂直领域的感知任务,也就是在很多垂直的方向上,我们需要做专属的模型。

资讯配图

那么,生成式(或更通用的)人工智能有何不同?一个关键区别在于:现在说得更通用的 AI 根植于自然语言。互联网文本天然蕴含知识,无需后期标注加工。虽然图片、视频数量远超文本,但可以认为文本的知识密度更高。以GPT-3 处理 7500 亿 token 为例,若由一个人创作这些文本,需耗时约十万年。可见,从 10 年到 10 万年,数据量相差万倍。正是自然语言的高知识密度,促成了模型的强大泛化与通用能力,成为当今通用AI 发展的关键基石。
当然,我们已意识到:此类数据或将被消耗殆尽。图片标注依赖人工;而自然语言数据据预测,可能在2027-2028 年耗尽——事实上是其产生速度远落后于算力增长速度,造成模型数据需求的“倒挂”。能否从原始、无序的视频图像中挖掘更多知识?有可能,但这仍需更多更深入的工作。
资讯配图
我们选择了一条自然路径:融合视觉感知与语言能力,构建原生多模态系统。具体而言,建立更自然的图文关联,形成更长的多模态思维链。借助这种思维链持续激发模型能力,智能是被激发出来的,难以在毫无基础的环境中凭空产生。虽然如今模型亦有可进行递归自学习推进,但本质上,我们仍需构建一条系统化的基础模型进化路径。
当我们加入大量图文数据甚至高阶多模态思维链时,观察到一个有趣现象,同一模型在音频交互、多模态推理能力俱佳的同时,其文本推理能力也大幅提升。这正得益于引入充足而丰富的多模态思维链。该现象表明:存在能将互联网多模态数据中的知识提炼出来,融入文本模型,从而提升文本模型对特定任务,比如空间和物理世界的理解力;这样的模型亦能更精准地控制生成,甚至引导图像与视频的生成。

破局之道:

攻克主动交互数据稀缺难题

资讯配图

然而,人类终将面临一个根本性问题:当书本与互联网知识穷尽时,下一代的智能将从何处获取?第一阶段靠标注,第二阶段靠语言,接下来呢?
让我们审视人类的学习方式:人类自诞生起,便通过与现实世界的不断互动探索获得智能,而非始于语言或监督的认知学习。这种与世界的交互是智能增长的重要源泉。这自然启示我们:与现实世界互动产生的大量数据可以带来智能。
资讯配图

真实世界的数据采集

为何要大量的数据?因为探索需要覆盖多样化的物理空间。当前机器人及具身智能的潜在瓶颈,正在于对此类高质量数据采集的巨大需求。
有个有趣的工作,1963 年的“主动猫与被动猫”实验——两只猫通过转轴相连,一只可自由活动、可以与现实世界互动,另一只不能动,仅被动观察相同视觉画面,也就说同样的视觉输入,那只会互动的猫显然成长的速度会非常的快。这也是具身理念的来源,强调与现实世界的探索与交互至关重要。

资讯配图

但还会面临问题,机器实体真实地与复杂庞大的现实世界互动,探索空间极其广阔,具身亦采用模拟平台,但也必然面临“模拟到现实(Sim-to-Real)”的差距。那有没有可能通过所谓的对于现实世界的理解来做理解生成统一的世界模型。是会有,但也会面临挑战。

例如,使用模型生成数据(目前主要用于自动驾驶领域)效果显著。但它可能违反物理规律, 例如出现车辆“幽灵穿越”十字路口或难以控制的随机事故。此外,即便最优的视频生成模型,其响应速度也通常较慢。若需实时交互,往往需要等待很久才有生成结果,甚至可能“抽卡”(意指随机采样)——生成内容无法预知。

“抽卡”视频1:十字路口,灵魂穿车

“抽卡”视频2:白车从黑车上面“开过去”了

“抽卡”视频3:loading了很久才生成的视频,却是体重差巨大的大象与小松鼠在“玩”跷跷板

世界模型,推动AI迈入真正与物理世界交互时代

那接下来怎么办?需要强大的现实世界理解模型+ 深度 3D 理解模型来协同提升该能力。

那么,我们推出自己的“开悟”世界模型,由日日新V6.5赋能。“开悟”世界模型也是视频生成模型,但它考虑了时间、空间的一致性。

资讯配图

我们举个简单的例子。自动驾驶需采集大量复杂视角(如七路摄像头typo数据)。而我们模型能仅凭自然语言描述,即可生成右侧逼真的七路摄像头视角模拟数据。

资讯配图

「开悟」世界模型生成的多视角视频



我们看下细节,首先,车辆运动时,其在各镜头中的位置变化精准同步, 时间一致性也可以得到保障:车辆无论远近,各摄像头捕捉到的不同时刻影像中细节(如车牌)均保持一致。倘若视频引擎对于物理世界的规律没有足够理解,方向盘转动可能导致视野突变(例如路旁树木位置错乱),就无法保障时空可控性。

资讯配图
资讯配图
资讯配图

空间一致性↑理解遮挡、前后层级,让同一物体在不同视角下呈现一致外观

资讯配图
资讯配图
资讯配图


时间一致性↑理解时序和运动规律,让物体(如车牌)在时间推移中保持自然连贯的变化

我们来看生成自动驾驶里的一个“长尾场景”——汽车加塞儿(Cut-in),在驾驶里普遍,对于人类驾驶来讲也是个难题,新手畏难,老手则冒风险。自动驾驶系统必须学习应对:太保守则影响通行效率,太激进易引发碰撞。以两辆自动驾驶车辆为例,两车试图加塞却相互牵制,陷入博弈循环。而真实路况中大量采集此类高危险性加塞数据极为困难且占比低。

自动驾驶“加塞儿”现场

“开悟”世界模型能生成七路摄像头视角的加塞视频吗?当然可以。

资讯配图

「开悟」世界模型生成的多视角视频

如图中描述大型车辆的加塞方向、时间、角度,模型生成的视频确保了时空一致性,尤其可贵的是能稳定生成大量、多样化且可控的场景——可调节光照(白天、黑夜)、天气(晴、阴、雨)、道路结构(直道、弯道、甚至 F1 赛道)、车流密度、车速以及车型(小到大)等变量。


晴天

资讯配图

天气

阴天

资讯配图


资讯配图


弯道

资讯配图

道路结构

直道

资讯配图


路口

资讯配图


慢速(15km/h以下)

资讯配图

车速

中速(15-60km/h)

资讯配图


快速(60km/h以上)

资讯配图


白天

资讯配图

可照光线

傍晚

资讯配图


凌晨

资讯配图


公交车

资讯配图

车型

大型货车

资讯配图


小型货车

资讯配图


这意味着,基于可控生成的视频,我们开启了AI通过模拟进行真实世界探索的可能性。早期做自动驾驶时,我们曾开发模拟器(类似机器人强化学习平台)用于模拟演练后投入现实,但存在 Sim-to-Real Gap。

商汤绝影的辅助驾驶3D模拟器

现在,随着基模型能力增强、对世界理解加深,理解与生成的统一开创了新的交互可能性。

这是个特殊的例子,输入为方向盘、刹车和油门来控制这个视频的生成,却驱动生成逼真的七摄像头视角驾驶模拟。

用户仿佛在真实的街道场景中玩“极品飞车”——手握方向盘控制方向,环境光照与车辆条件多变,每个摄像头有不同的视角,各视角图像一致统一。这一功能将为众多行业赋能,对真实世界的探索有更大的可能性。能否用部分数据生成更多数据,甚至实现一定程度的AI Self Learning,是极其值得探索的课题。

“举一反千”,今天我们正式推出开悟世界模型产品平台。现在,任何人都可以通过自然语言描述场景,生成符合3D 物理规则的、特定视角的视频片段。我们要求的不是视频的质量达到电影级别,而是它符合物理的规则、物理的定律,并且能够真正意义切进用户的使用场景,让你在真实的世界中开上极品飞车。而这部分能力,完全可以扩展到机器人的学习和应用中,非常值得期待。 
我们也期待和大家一起经历AI发展的三个变化,感知世界,进而更好地理解世界生成世界,最后与现实的硬件交互来改变我们的世界。

谢谢!



资讯配图
资讯配图
资讯配图
资讯配图
资讯配图

资讯配图

点击阅读原文查看WAIC 2025精彩!