点击下方卡片,关注“具身智能之心”公众号
资讯配图

具身智能之心受邀参加WAIC 2025智启具身论坛,并有幸采访到了智元机器人首席科学家罗剑岚博士。以下为采访过程中罗博重点提到和探讨的问题。

资讯配图

具身智能数据讨论

1. 大家都知道数数据是提升智能燃料,然后传感器又是采集数据的关键,想问一下智元在传感器的研发采购上有什么规划?如何增加产品数据的使用性?

罗剑岚:我们已与多家传感器供应商展开合作,重点聚焦视觉触觉与高密度传感器的联合研发。同时,我们正在构建跨平台的数据采集 API,实现任务语义的统一映射,为模型训练提供标准化、可训练的数据输入。

2. 因为你刚才说的世界模型挺有用的,加入世界模型以后,加一些采集数据可以让它变好了,我想知道完成这一步之后距离应用还有多远,从采集完数据到应用之间还有什么门槛?

罗剑岚:还有性能,机器人的性能要很高,真正变得有用,在你家里,给一个机器人扫地也好,或者装洗碗机的机器人,要有95%的成功率,在100万家庭里面,这是很难的问题。

3. Sergey Levine他有发过最新的一篇文章,提出了一个Sporks of AGI观点。仿真会阻碍具身智能的scale。我想知道您怎么看待仿真环境的数据跟真实数据的使用整个比例,然后它们各自起到的作用是怎么样的?然后怎么去看待这个观点?

罗剑岚:仿真确实是高效迭代模型的关键工具,我们也与多家仿真厂商合作购买其数据资产。但我们所有多模态大模型(包括 VLA 世界模型)训练时,100% 使用真机真实数据。我基本赞同他的观点所强调的:人为设计的仿真流水线,在扩展性上存在瓶颈,最终成为性能的限制环节。

4. 数据方面的问题之前跟你聊的时候你也提到坚持,包括智元也是坚持物理真实数据,其实真实世界也有很多企业用合成数据比较好,你们有和提供合成数据的厂商有合作的,想问一下你们合成数据和物理数据比例怎么样?在什么阶段使用真实数据,什么情况下使用合成数据?

合成与仿真数据用于工程迭代与模型调试,但大模型训练阶段 100% 使用真机真实数据。仿真用于早期测试,真正发布与部署阶段依赖真实场景的数据支持。

追问:测试模型阶段比较前期的阶段需要用到?

罗剑岚:主要用于工程迭代,仿真肯定是迭代比较快一些,但是我们的大模型都是100%用真机训练。

资讯配图

5. 真实数据的问题,在真实场景100%采集数据,成本这一块怎么样?把这些数据的成本下降,现在有没有新的一些?

罗剑岚:真机数据难的核心不是价格,而是缺乏“数据工厂”式的标准化机制。我们正尝试远程摇操、自动部署机器人、机器人自主数据采集等方式,建立自动化、规模化的机器人基础设施,实现闭环数据流。

6. 自动驾驶的类比与机器人数据瓶颈

罗剑岚:自动驾驶与机器人虽有相似性,但也不同。自动驾驶要求几乎 99.99% 的安全水平才能上路;机器人在操作开放环境时也需要高成功率。当前瓶颈是数据稀缺、性能优化难度大,同时涉及工程与伦理多方面挑战。

具身大模型评估

1. 想问一个比较技术性的问题,因为我有聊过很多企业,但是他们对于具身智能大模型的评估没有很好的一个标准,生成大模型那种,目前来说您从外界来说,你觉得有没有必要建立这样的benchmark,这个benchmark怎么建立?

罗剑岚:过去十年,企业软硬件环境差异大,测试平台也不统一,因此尚无通用 benchmark。目前大多依赖自建平台,在各自场景中进行评测。然而,也已有部分尝试建立分布式真实环境下的标准化真机测试平台。我们也计划搭建一个统一的真机测试场,供不同模型共同评估,对此需要行业共同努力。

2. 目前来说,如何评判一个,包括他们家的工作做得比较好,我们有哪些不足?你们是怎么评价不同的大模型的表现优劣?

罗剑岚:主要从两个维度评估:

  • 泛化能力:测试情景语义变化、物体变化下的适用性;
  • 性能表现:关注任务成功率与执行速度和鲁棒性。在足够多且广的测试场景中,这些数据才更具统计意义。

具身技术路线

1. 相较于去年觉得今年的机器人在整个技术理论方向上有没有什么变化?以及现阶段有什么新的机器人技术的挑战来解决?

罗剑岚:去年还处于 “秀 Demo” 阶段,许多功能是拼接而成;今年开始从 Demo 炫技转向产业闭环。从数据、策略到系统部署、模型融合,智元已进入全栈一体化阶段,但仍面临工程复杂性、多模态一致性、系统部署等挑战。

2. 还是问刚才那个问题,他们现在在发世界模型,你们这个世界模型和其他的世界模型有什么不同?

罗剑岚:我们的世界模型基于统一平台,既能生成视频,也能评测模型自身,还能训练策略。我们处理复杂场景(如平整盒子的叠放)较容易,并将在近期发布详细工作成果。

3. VLA路线,有一段时间它成为主流了,但是近段时间受到质疑,因为它不够完善,你怎么看?

罗剑岚:VLA 不是最终解决方案。机器人执行要求远高于 ChatGPT 的 50%–60% 准确率——那是不够的。未来的路线必须是“大模型 + 优化”,通过性能指标(成功率、速度等)持续优化,而不仅仅是数据。

4. 中美在具身智能领域应用领域或者技术路线方面大家有什么共识或者非共识?

美国更注重算法创新与开源生态,中国在工程集成、供应链与规模部署上更具优势。中国市场驱动性强,产业化推进速度快,美国则更偏基础科学探索。

遥操作vs自主决策

1. 之前您有聊过机器人的遥控跟自主决策这方面的区别,现在有一些机器人动起来是需要遥控的,我们对话驱动的那种,您觉得这两个方式它的区别在哪儿?其实实现自主决策它的门槛是在哪儿?

遥控如同人类开车与自动驾驶的差别。自主决策要求机器人理解世界、生成策略、执行任务,真正摆脱遥控依赖。关键技术门槛在于多模态信息融合、任务泛化能力以及环境中高成功率执行。

2. 这种非遥操的,如果有自主意识,其实现在已经有自主意识了,如果插一个电池也可以自己动的话,这个是不是也有一些安全隐患?

目前所谓“失控”更多是软件设计不完善的问题,而非机器人具备意识。我们通过模拟产线测试人与环境干扰,并设置安全兜底机制,确保软硬件与现场协同运行安全。

追问:是通用的还是通过垂直特定场景?

罗剑岚:在数据缺乏的情景下先通过各种垂直场景不断积累逐渐变成通用,我们没有办法一上来就通用什么都不知道。

资讯配图

具身智能应用场景与落地

1. 请教一下这次展厅特地展示了各种场景的机器人在执行任务,具体场景部署它的工程流程大概是什么样子?在这个过程中如何做一些人机协同安全保障方面的工作?

流程可归纳为四步:任务建模 → 场景迁移 → 场景适配 → 安全验证。我们强调软硬件协同、人机友好、安全保障层级齐备,包括仿真验证+现场兜底确保系统安全稳定。

追问:这四步大概需要多少时间,已经成为行业固定标准?

目前各家厂商仍处于早期阶段。每个场景的工程量极大,交付周期长。但未来通过“软件定义硬件”与大模型通用性将显著缩短部署时间、降低集成成本。

2. 我听到一个厂商说把高成功率做到可落地,就是非常有成就的,你同意这个观点吗?

罗剑岚:部分赞同。高成功率是关键,但更大的挑战是开放世界操作的科学与工程难题。成功率高不是唯一指标,还需在泛化能力、鲁棒性、实时性能等方面齐头并进

3. 在工厂落地,在哪个场景里面比较快一些,比较接近成功的是哪些?

罗剑岚:相对结构化的工业环境更易落地,数据采集容易、场景可控,但工厂要求近乎 100% 的性能与节拍一致性。我们在半开放环境中同步构建部署机制,但工程挑战依旧存在。

4. 具身智能最快大规模落地的场景是在哪里,是在家庭还是在其他没有意识到的?

罗剑岚:应该是在工商业先落地,因为工业制造服务场景这些比较受限,或者说半开放的这些环境里面,这些场景结构化的程度相对比较高,需求也比较明确,商业需求比较明确,大家现在也对具身智能抱有比较大的期待,因为现在是短期,是比较理想的技术跳板,长期来看家庭来说具身智能是更大市场。

资讯配图

5. 受限空间结构化操作,工业场景落地VLA和传统的跨越智能这种视觉方案它现在有什么差异?

罗剑岚:单靠 VLA 无法完全落地,应结合大模型与优化策略。相比传统依赖高精度定位与工装设备的方案,我们的系统具备更强的泛化范围、更低的调试成本与更短的换线周期。

6. 目前人形机器人的技术路线并没有收敛,想问一下智元在关节驱动和感知能力方面是如何抉择的?关于行业的,未来行业遍天下轻量化,强调取代设计,现在有没有供应链能够适配?关节驱动和感知能力方面智元这方面是怎么选择的?

罗剑岚:我们同时依赖外部厂商与自研技术,在寻找模块化、通用化的关节和传感器标准。未来如 USB Type C 那样的可插拔标准尚需行业共同建设生态。

7. 家庭比较复杂,每一个家庭甚至户型摆放都不一样,对于具身的发展来说,你怎么看这种家庭的复杂性?

罗剑岚:家庭环境异质性巨大,工程与科学挑战复杂,且涉及社会与隐私问题。但我们的目标是通过不断积累数据,从垂直场景逐步演化出通用能力。

8. 展区里面打爆米花和拿饮料的动作很慢,技术上还不能提速吗?还是说提速不能那么准确,为什么速度这么慢?不是咱们智元的机器人。

罗剑岚:如果系统仅依赖模仿学习,那么执行速度受限于摇操速度。如要提升速度和成功率,就必须引入专门的优化训练,而不是仅模仿数据中的原始操作。

资讯配图

具身未来展望

1. 下一阶段具身泛化能力的发展目标

我们追求的是 DeepSeek moment ——不是仅仅类似 ChatGPT 的泛化能力,而是具备接近 100% 成功率及高速执行能力的大模型系统,而非妥协在 50%、60%。

2. 你刚才其实有提到对机器人来说ChatGPT moment这个没有那么重要,我们要做DeepSeek moment这种?

罗剑岚:DeepSeek 重在 高成功率 + 泛化能力 + 速度 的统一提升。就象系鞋带或打字,人类几乎可达 99 100% 成功率,机器人真正有用的时刻,是执行日常任务接近人类标准,而非仅仅能做很多任务但成功率却很低。

3. 是否 Data Driven 是科学正名?

罗剑岚:是的,我们已迈入数据驱动的范式时代。不再依赖传统假设-证明路径,而是通过大规模数据与统计显著性验证建立科学结论,这是 AI 的一大转变。

4. 您觉得未来的模型,世界模型和transformer哪个更接近?

罗剑岚:成果层面,我们更追求类似 AlphaGo 的 moment:兼具泛化能力与性能,做到日常任务接近 100% 成功率。底层架构目前主流是 Transformer,但其计算效率与多模态能力仍有提升空间。未来可能会出现更符合具身智能需求的计算模型。

5. 你刚才提到bit lesson,到具身智能里面,会不会越多传感器对于具身智能越好,越多传感器对于智元智能的成功率或者说泛化能力,会有这样一个现象?

罗剑岚:不是越多越好,关键是“对的传感器”。不同场景需求不同,核心在于方法论与算法架构,而不在于堆砌更多传感器。

6. 还有一个小问题,机器人和人类学习做了类比,也有一块做类脑,模拟大脑,这个相比transformer会不会更适合机器人的?

罗剑岚:类脑架构确实有潜力,更贴近生物大脑处理模型。我们也在尝试将“计算”与“身体能力”结合,探索超越传统 Transformer 的真正智能系统,这也是未来十年机器人科研的核心课题。

具身软硬件协同

1. 现在有很多创业公司专门做跨文体交互系统,想请教一下我们这边各家核心的一些差异是什么?以及目前我们最新的一些尝试过的进展是什么?

罗剑岚:我们正在构建一个平台化操作系统(类似“机器人 Android”),为各类硬件、传感器、终端设备提供统一接口。与纯软件平台厂商更多是合作共建而非对立。

2. 有专门做这种软件系统的话,和他们之间会有竞争的关系吗?

罗剑岚:我觉得更多是开放包容的关系,因为这个事情不太可能是一家能够做的,智元不可能把所有事情都做了。一定要有一个平台公司牵引,因为你光做操作系统,你的真实的落地,软硬件也没有,这个是肯定行不通。

3. 模型的创新,单靠软件操作系统没有办法满足?

罗剑岚:操作系统是基础设施一部分,但真正的突破在算法与模型层面。现有研究在真实世界中已开始探索,而光凭系统平台并不足以推动性能级模型创新。