资讯配图
资讯配图
智元机器人首席科学家、具身研究中心主任、
上海创智学院副教授 罗剑岚

出品|搜狐科

作者郑松毅

编辑|杨   锦

7月27日,由智元机器人主办的“智启具身论坛”在上海世博展览馆举行。

会上,智元机器人发布了行业首个真正面向真实世界双臂机器人的世界模型开源平台——Genie Envisioner。该平台融合了预测、控制、评测三大核心能力,为机器人从“看见”到“行动”提供了端到端、一体化的解决方案。

此外,智元预告,精灵系列下一代机器人本体精灵 G2 即将发布。相较于上一代,G2 在运动精度、场景适配性上全面升级,具备原生数采能力,进一步拓宽具身智能的应用边界。

会后,围绕具身智能机器人发展趋势、产业机遇等话题,智元机器人首席科学家、具身研究中心主任、上海创智学院副教授罗剑岚,与搜狐科技等媒体坐在一起聊了聊。

罗剑岚表示,“机器人行业已经过了秀demo的阶段,正从炫技向产业闭环模式演进。”

纵观中美之间具身智能发展差异,罗剑岚认为,“美国更注重于算法创新和开源生态建设,中国在工程集成和应用落地方面会更快一些。中国是市场驱动性更强一点,适合快速推动规模部署,而美国会在基础科学上更有探索性一点。”

不少人在观望,具身智能机器人何时会迎来“ChatGPT时刻”?

在罗剑岚看来,达成“ChatGPT时刻”没什么意义。什么时候能让机器人在不损失性能表现的情况下同时兼备泛化性,也就是达到后训练优化后的DeepSeek R1水平,把幻觉率降低,即做每项任务的成功率都接近100%,这才真正让机器人变得在真实物理世界有用。

以下为对话实录(经整理编辑)

媒体:业界对机器人优劣的评估至今未达成统一标准,您觉得有必要建立一个像大模型评估一样的benchmark吗?

罗剑岚:过去10年,各家使用的硬件条件不一样,测试环境也不一样,难以达成一个统一的benchmark。各家现在测试仍大部分依赖于自建平台,当然也有一些工作去做分布式测试。这个需要大家共同努力。

媒体:那当前如何客观地评价一款机器人的优劣呢?

罗剑岚:主要是看泛化性和性能。泛化性指个体在不同情境下应用技能的能力,而性能指的是机器人完成任务的成功率和速度。

媒体:相较于去年的机器人市场,您觉得今年有什么变化?

罗剑岚:去年的话大家更多还是处于秀demo的阶段,现在已经从炫技正向产业闭环模式演进。

去年大家还有很多功能拼接,现在逐渐往统一的大模型融合,形成一个比较统一的范式化。智元现在也在做,从数据到策略再到系统部署这样一个全栈进程。

媒体:有出现什么新的技术挑战吗?

罗剑岚:技术挑战始终存在,包括科学工程上的复杂性,还有多模态的一致性,这些都是我们最后实际落地时会考虑的东西。

媒体:有一段时间业内对VLA(视觉语言动作模型)技术路线讨论热度很高,但最近有质疑声音出现,您怎么看?

罗剑岚:VLA不是终局,这是我反复 强调过的。

和大模型不同,机器人对于性能的要求度非常高。如果任务执行成功率只有50%、60%,这样的机器人是没法在现实世界应用的。

好比机器人给你倒水,倒两次就洒一次,肯定大家不接受。

VLA存在概率性输出(即幻觉)情况,难以满足严苛的性能标准。刚才说的成功率也好,速度也好,一定还要在技术上做很多优化。

媒体:这次展厅特地展示了机器人在各种场景下执行任务,具体任务部署流程是怎样的?

罗剑岚:现在有了比较通用的大模型,任务部署简化许多。大体分四步:任务建模,场景迁移,场景适配,和安全验证。

媒体:您之前有在美国工作的经历,现在是在国内具身智能头部厂商,您觉得中美在机器人发展路线上存在哪些差异?

罗剑岚:美国更注重于算法创新和开源生态建设,中国在工程集成和应用落地方面会更快一些。中国是市场驱动性更强一点,适合快速推动规模部署,而美国会在基础科学上更有探索性一点。

媒体:您判断机器人率先实现大规模落地应用的场景会是哪里?

罗剑岚:应该是在工业和商业场景,因为场景结构化的程度相对高,商业需求也比较明确。大家对于机器人的期待比较高,从长期来看,家庭侧应用对于具身智能来说是更大的市场。

媒体:说到期待,大家都在关注机器人领域的“ChatGPT时刻”何时到来?您怎么看?

罗剑岚:“ChatGPT时刻”没什么意义,达到后训练优化后的DeepSeek R1时刻才是目标。

最新版本优化后的DeepSeek R1幻觉率已降得很低,基本做数学题的成功率接近100%。

换句话说,要力争像DeepSeek一样,做到不损失性能下的泛化。对于机器人来说,性能要求标准非常高,即执行任务的成功率和速度,这样才能让机器人变得有用。

举个例子,人是很泛化的,做不同事情的成功率都很高,机器人也要如此。不能说光知道系鞋带的原理,但实际操作只有10%的成功率,这样三个小时也出不了家门。

媒体:最后一个问题,机器人和人类学习一直在做类比,机器人的“大脑”到底该如何构建?

罗剑岚:计算机和生物大脑的不同之处在于,生物大脑的传递介质是化学物质,计算机实行的是固定逻辑,我们现在在做的是把计算换成物理能力。

我觉得未来10年,人类会去触及智能和神经科学的真正本质,去回答AI领域最深度的一个问题:“为什么AI可以打败围棋的世界冠军,却做不了3岁小孩都能够做的事情?”这也是比较重要的科学问题,我们也在探讨。

资讯配图

资讯配图
资讯配图

运营编辑 曹倩  审核莎莎

资讯配图
资讯配图
资讯配图

资讯配图

资讯配图

资讯配图资讯配图