南京大学等8大单位联合编撰 | 从虚拟仿真到认知建模：具身智能学习研究综述

欢迎关注具身智能大讲堂

当下，随着机器人与人工智能技术的飞速进展，“具身智能”（Embodied Intelligence）已成为业界与学界共同关注的核心课题。与纯感知或生成任务不同，具身智能要求智能体在复杂环境中自主感知、预测并执行动作，才能真正迈向通用智能（AGI）。而要实现这一宏大目标，物理模拟器与世界模型的深度融合被认为是最具潜力的路径：前者通过高度可控的虚拟环境，为算法训练提供安全、高效的多场景试错土壤；后者则模拟了从感知到决策的“脑内演算”过程，使智能体能够在动作之前，先在内部进行环境预测与策略规划。

这篇南京大学、香港大学、中南大学、地平线机器人、中国科学院计算技术研究所、上海交通大学、慕尼黑工业大学和清华大学的联合研究团队撰写的综述论文——A Survey: Learning Embodied Intelligence from Physical Simulators and World Models，使用25张图、6张表格、超400篇参考系统地梳理了两大技术如何协同推动机器人从“会做”向“会想”演进的全貌。

图1

研究的主要创新点包括：

智能机器人能力分级标准：提出一个涵盖自主性、任务处理能力、环境适应能力与社会认知能力四个关键维度的五级能力分级体系（IR-L0 至 IR-L4）。

机器人学习技术分析：系统回顾智能机器人在腿式运动（如双足行走、摔倒恢复）、操作控制（如灵巧操作、双手协调）与人机交互（如认知协作、社会嵌入）方面的最新技术进展。

主流物理模拟器分析：全面对比Webots、Gazebo、MuJoCo、Isaac Gym/Sim/Lab 等主流模拟器的物理仿真能力、渲染质量与传感器支持能力。

世界模型的最新进展：首先回顾世界模型的代表性架构及其潜在作用，例如作为可控模拟器、动态建模器与奖励模型在具身智能中的应用。进一步探讨专为自动驾驶与关节型机器人设计的最新世界模型方案。

•论文链接:https://arxiv.org/abs/2507.00917

•仓库地址：https://github.com/NJU3DV-LoongGroup/Embodied-World-Models-Survey

论文作者团队由多所知名高校和研究机构的专家学者组成，具体包括：

• 南京大学：龙霄潇、赵清锐、芦毅、姚遥、沈秋、李伟、曹汛

•香港大学：刘雨萌、舒政杰、潘佳

• 中南大学：王守政

• 地平线机器人：尹伟

• 中国科学院计算技术研究所：张子豪、魏歆哲

• 上海交通大学：杨睿刚

• 慕尼黑工业大学：王鼎瑞

• 清华大学：戴琼海院士、张凯文

通讯作者由南京大学电子科学与工程学院通信工程系主任曹汛教授担任。

图2

▍ 机器人智能等级体系研究

随着人工智能、机械工程、传感器融合和人机交互等技术的持续发展，智能机器人正逐步从实验室研究转向实际应用场景。在老年护理、医疗辅助、灾害救援和教育等领域，智能机器人展现出日益重要的应用价值。与传统的工业机器人相比，现代智能机器人更注重通过类人结构实现复杂的认知、感知和执行功能。这种技术演进使得机器人在动态、不确定环境中稳定运行和智能决策成为关键研究课题。

图3

针对这一需求，建立科学合理的能力分级体系显得尤为重要。这类体系不仅能够为技术发展提供清晰的路线指引，还能为行业监管和安全评估建立客观标准。研究团队通过分析提出了一个用于评估机器人自主性的智能机器人能力分级模型（IR-L0至IR-L4），该模型系统性地覆盖了从基础机械操作到高级社交交互的全技术发展路径。

智能机器人五级能力分级（IR-L0 ～ IR-L4）

智能机器人能力分级体系（IR-L0至IR-L4）从技术实现角度对机器人智能水平进行了客观划分。

以下是各等级的具体特征和技术要求：

IR-L0：基础执行——完全依赖人类指令，无环境感知。

IR-L0处于系统的基础执行级别，呈现完全非智能、程序驱动的特征。此级别机器人专注于工业焊接、固定路径物料搬运等高度重复、机械化且确定性的任务。其运行模式为“低感知 - 高执行”，完全依赖预先定义的程序指令或实时远程操作，缺乏环境感知、状态反馈和自主决策能力，形成“命令输入 - 机械执行”的单向闭环系统。其技术特征表现为：

IR-L1：规则响应——有限的传感器驱动，能在封闭环境下执行预设任务。

IR-L1机器人具备有限的基于规则的反应能力，可在封闭环境下执行预设任务序列，如清洁和接待机器人的任务。这些系统利用红外、超声波和压力传感器等基础传感器触发特定行为模式，但无法处理复杂或不可预见的事件，仅在规则明确的封闭任务环境中能保持操作稳定性，体现了“有限感知 - 有限执行”的范式，是基础机器人智能的开端。其技术特征表现为：

IR-L2：感知自适应——引入视觉、LiDAR 等多模态，具备基本路径规划与避障能力。

IR-L2机器人具备初步的环境感知和自主能力，是机器人智能的重大进步。它能够响应环境变化，在多种任务模式间切换，如服务机器人可基于语音命令执行“送水”或“导航”任务，并在路径执行中避开障碍物。这需要集成感知模块（摄像头、麦克风阵列、激光雷达）和基本的行为决策框架，如有限状态机 (FSM) 或行为树。虽然人工监督仍必不可少，但IR - L2机器人相比IR - L1系统展现出更高的执行灵活性，正朝着真正的“情境理解”迈进。其技术特征表现为：

IR-L3：类人协作——多轮对话、情感识别，能在动态场景中与人类协同工作。

IR-L3机器人在复杂动态环境中展现出自主决策能力，支持复杂的多模态人机交互。它能够推断用户意图，调整自身行为，并在既定的道德约束范围内运行。例如在老年护理应用中，可分析语音模式和面部表情，检测老年患者情绪状态变化，并采取安抚措施或发出紧急警报。其技术特征表现为：

IR-L4：完全自主——具备自我生成目标、长期学习与伦理决策能力。

IR-L4代表了智能机器人技术的巅峰，系统在感知、决策和执行方面拥有完全自主权，可在任何环境下独立运行，无需人工干预。这些机器人具备自我进化的道德推理能力、高级认知能力、同理心和长期自适应学习能力，不仅能处理开放式任务，还能进行复杂的社交互动，包括多轮自然语言对话、情感理解、文化适应和多智能体协作。其技术特征表现为：

▍ 机器人核心技术回顾

近年来，机器学习技术的快速发展推动了机器人全身控制和通用操控领域的重大突破。本章首先概述智能机器人技术的基本技术方法，然后回顾机器人运动和操控领域的最新进展，最后探讨旨在实现自然直观的人机交互的持续研究。

机器人运动和操控技术进展

机器人运动的目标是实现自然流畅的运动模式，涵盖行走、跑步和跳跃等动作。通过整合感知、规划和控制等多个领域的技术，具备运动能力的机器人可归类为IR - L2级别。这种整合赋予了机器人动态适应变化地形、应对外部干扰和不可预见事件的能力，从而实现稳健的双足运动。同时，机器人在意外事件中自主恢复的能力，减少了对人类干预的依赖，为迈向更高智能和自主性奠定了基础。

1）足式运动控制领域研究进展

a. 足式运动控制

双足机器人在复杂地形运动、模拟人类行为以及融入以人为中心的环境方面具有独特优势。双足运动控制研究主要分为两大方向：非结构化环境适应和高动态运动。

非结构化环境适应：

“非结构化环境”指复杂的自然或人造地形，如崎岖山路、碎石地面、湿滑草地、楼梯及不可预测的障碍物等。非结构化环境适应，强调在复杂、未知或动态环境中保持稳定行走的能力。

图表4 非结构化环境适应发展历程

高动态运动：

跑步和跳跃等高动态运动对双足机器人的控制系统提出了更高要求，机器人需在极短时间内完成快速支撑转换、姿势调整和精确的力控制。高动态运动，侧重于在跑步和跳跃等高速动态运动中实现稳定性与敏捷性的平衡。

高动态运动发展历程

b. 防坠落和恢复

人形机器人易发生失稳和跌倒，导致硬件损坏或运行中断，因此跌倒防护和跌倒后有效恢复站立姿势成为研究热点。

图5：Tao Huang 等人提出的 HOST ，使Unitree G1机器人能够在复杂环境下以多种姿势站立。

2）机器人操作能力研究进展

从简单的拾取物体到复杂的组装或烹饪等，机器人操作任务范围广泛。本节回顾了机器人操控的研究进展，重点关注不同任务所需的协调性，从使用单个末端执行器的操控逐步发展到双手协调，最终探讨全身操控任务。

a.单臂操作

单臂操作使用单个末端执行器（如平行夹持器或灵巧机械手）与物体交互并操控。任务涵盖从基本的拾取和放置操作到推动、插入、使用工具以及操控可变形或铰接式物体等，其复杂性取决于末端执行器的功能及交互环境。

基于夹持器的操作：

平行双指夹持器是最常见的末端执行器，用于抓取、放置和使用工具等操作任务，依赖简单的开合动作。早期研究侧重于精确的物理模型和预编程，在结构化设置中有效，但在非结构化环境、物体多样性和复杂相互作用中的适应性较差。

图6：DexCap 是一种便携式动作捕捉系统，可以收集人类的手部动作，使机器人能够完成从简单的挑选到泡茶等复杂操作的任务。

灵巧手操作：

灵巧操作旨在使机器人以类似人手的复杂、精确方式与物理世界互动，是机器人技术长期面临的核心挑战。

图7：（1）ALOHA系列采用低成本开源硬件系统，能够学习细粒度、复杂且长视界的移动双手操作任务，例如装电池和煮虾。这为后续研究奠定了机器人平台基础。（2）RoboTwin 2.0通过在模拟器中生成模拟数据来增强双臂操作。它提供了 50 个双臂任务、731 个不同的对象以及 5 个实施例，可供全面研究和开发。

b. 双臂协作

双手操作需协调使用两个手臂，使机器人能执行合作运输、精确装配以及处理柔性或可变形物体等复杂操作。与单臂操作相比，双手任务面临更大挑战，包括高维状态动作空间、手臂间和环境碰撞的可能性，以及有效的双手协调和动态角色分配的必要性。

图8：由江云帆等人提出的 BRS，使人形机器人能够执行各种需要全身操纵控制的复杂家务，例如清洁厕所、倒垃圾和整理架子。

c. 全身操作控制

全身操控指人形机器人利用整个身体（包括双臂）、躯干、带轮子或腿的底座及其他组件与物体互动和操控物体的能力。

图9：三种常见人形机器人操作框架的图示：传统、分层和端到端，显示输入⟶动作数据流和结构差异。

人机交互

人机交互（HRI）旨在让机器人能够理解并响应人类的需求与情感，以促进机器人在高效合作、陪伴以及个性化服务等方面的表现，其应用广泛覆盖家庭、医疗保健、教育和娱乐等诸多领域。为准确解读并适应人类多样化的行为，机器人需具备多模态感知、自然语言处理以及协调控制等近似人类的能力。

目前，人机交互的研究主要聚焦于三个维度，即认知协作、物理可靠性和社会嵌入性。这三个维度分别着眼于机器人如何感知和理解人类的认知模式、协调身体动作，以及如何有效地融入人类的社会环境。以机器人在拥挤环境中导航为例，“认知协作”体现为机器人识别行人的潜在紧急程度；“物理可靠性”表现为机器人调整速度和轨迹以避免碰撞；“社会嵌入”则是机器人主动运用语言提示或肢体语言协商通行权，建立临时社交协议。这些综合能力的具备，使机器人能够无缝融入人类的日常活动，提升交互的自然性与效率。

▍ 通用物理仿真器技术

本节聚焦当代机器人研究主流物理仿真器，先介绍广泛应用的模拟平台（Webots, Gazebo, Pybullet, Mujoco, CoppeliaSim, Isaac Sim/Gym/Lab, SAPIEN, Genesis, Newton），再对比其物理模拟特性、渲染功能、传感器/关节组件支持能力等丰富功能，最后就当前发展状况进行了总结并探讨了未来研究方向。

--仿真器仿真能力对比--

仿真器渲染能力对比--

仿真器关节类型与传感器支持对比--

▍ 世界模型架构技术演进

“世界模型是生成式人工智能模型，能够表征现实世界的动态特性，包括物理规律与空间关系。”——NVIDIA世界基础模型

世界模型作为人工智能领域的核心框架，其理论根基可追溯至Yann LeCun提出的自监督学习体系。该模型类比人类认知机制，通过构建环境内部表征实现未来状态预测与行动规划。2018年，David Ha与Jürgen Schmidhuber首次系统阐述世界模型概念，证实AI可通过压缩生成模型模拟环境体验，从而减少对真实世界交互的依赖。这一成果使得强化学习无需直接与现实世界互动，为人工智能的发展开辟了新的路径。此后，世界模型逐渐成为人工智能领域的关键框架，受到广泛关注。

世界模型的代表性架构

在对主流仿真平台展开广泛比较研究后，我们探索了世界模型从简单循环架构迈向复杂基础级系统的演变历程。为有效捕捉复杂环境的动态变化，世界模型已发展出多样化的架构范式，每种范式都从不同角度反映了如何表示和预测世界。从早期紧凑的潜在动态模型到当下强大的生成架构，这些模型在状态编码、时间依赖性处理以及未来观察模拟等方面存在差异。部分方法着重于有效状态抽象和潜在空间中的预测学习，另一些则聚焦于高保真生成未来感官输入，如视频或3D 场景。同时，序列建模、自监督学习和生成建模领域的进步，尤其是 Transformer 和扩散模型的出现，对现代世界模型的设计产生了深远影响。

图10：世界模型的代表性架构及应用

世界模型的在智能系统中的应用

除架构设计外，深入理解世界模型在智能系统中的作用至关重要。作为环境通用表示，世界模型在众多领域扮演关键角色，其抽象和预测环境动态的能力，使其能够支持远超简单重建任务的下游应用。

1) 世界模型作为神经模拟器（Neural Simulator）：开启复杂可控环境模拟新篇

生成世界模型的兴起，为在视觉和行动领域模拟复杂可控环境带来新契机。这些模型能够合成时间连贯且语义丰富的视频，并可基于文本、图像和轨迹等多样化输入进行条件设定，为自动驾驶、机器人和虚拟代理提供可扩展的训练与评估方案。

2) 世界模型作为动态模型（dynamic model）：助力基于模型的强化学习高效决策

在基于模型的强化学习（MBRL）中，代理构建环境内部模型，通常包括动态模型、奖励模型和策略模型。代理借助该模型模拟与环境交互，以做出更明智决策。如图14所示，代理不再单纯依赖现实世界交互，而是从收集的经验中学习动态模型和奖励模型，再在模拟环境中进行规划或策略学习。这种环境建模与策略优化的解耦显著提高了样本效率，在数据收集成本高、速度慢或风险高的场景中价值凸显。

3) 世界模型作为奖励模型（Reward Model）：破解强化学习奖励设计难题

设计有效的奖励信号仍是强化学习（RL）的一项基本挑战，尤其在开放式或复杂环境中。传统方法依赖手动设计的奖励函数，成本高昂且可能无法捕捉有意义的行为线索。这促使人们开发从弱监督或未标记数据（如原始视频）中自动推断奖励的方法。

▍世界模型在具身智能中的应用

自动驾驶汽车与关节型机器人（涵盖机械臂、四足及人形机器人）作为人工智能与具身智能的核心应用领域，对环境建模提出了差异化且严苛的要求。自动驾驶系统需实时解析复杂动态道路场景，其感知-预测-规划链条对物理交互的建模精度要求极高。例如，Uber 2018年自动驾驶事故暴露了模块化架构中感知误差的级联放大效应，凸显了端到端建模的必要性。

关节机器人领域则侧重于以人为中心环境中的精细操作，机械臂抓取任务要求模型同时理解物体几何特性与接触力学。特斯拉FSD与Optimus机器人共享的视觉编码架构印证了感知技术的共性需求，而世界模型通过整合多模态时空数据，为两类系统提供了统一的建模框架。

世界模型在自动驾驶中的应用

图11：世界模型在自动驾驶中的三个作用：神经模拟器、动力学模型和奖励模型。

在自动驾驶机器人领域，传统架构采用模块化设计，将感知、预测、规划和控制等模块独立设置。这种设计虽利于开发与测试，但存在明显局限性：感知模块中的错误在处理过程中易加剧放大；长期依赖关系的时间建模颇具挑战；在不熟悉场景中性能会显著下降，2018 年 Uber 自动驾驶汽车事故便是例证，尽管系统在撞击前 5.6 秒检测到行人，却多次未能正确识别。

特斯拉在自动驾驶和机器人研发方面采用类似的视觉编码架构，体现了感知技术的共性。当下，基于视频生成的世界模型成为自动驾驶研究重点，从早期基础模型发展到如今在场景生成、多视角一致性、闭环仿真和推理等方面取得显著进展的成熟系统。与通用视频生成世界模型不同，面向自动驾驶的视频生成世界模型更注重交通场景的独特特征与安全需求，催生出诸多值得关注的技术方法与应用范例。

--自动驾驶领域的世界模型代表性工作汇总--