点击下方卡片,关注“具身智能之心”公众号


作者丨Haitong Wang等

编辑丨具身智能之心

本文只做学术分享,如有侵权,联系删文



>>点击进入→具身智能之心技术交流群

更多干货,欢迎加入国内首个具身智能全栈学习社区具身智能之心知识星球(戳我)这里包含所有你想要的。

写在前面&概述

现有导航方法多针对特定机器人形态设计,导致在不同平台间的通用性受限。为此,本文提出的X-Nav框架实现了端到端跨形态导航,单一通用策略可部署于轮式和四足机器人。其核心是两阶段学习机制:先通过深度强化学习(DRL)在大量随机生成的机器人形态上训练多个专家策略,再借助导航动作分块 transformer(Nav-ACT)将这些专家策略提炼为单一通用策略,最终实现对未知形态机器人和逼真环境的零样本迁移。

核心问题与现有局限

导航任务要求机器人从起始位置到目标位置,在未知复杂环境中完成无碰撞移动,依赖视觉观测(深度图像)、目标位置和本体感受(如关节位置、速度)等信息。但现有方法存在明显局限:

  • 模仿学习(IL)方法依赖形态特定控制器跟踪路径点或速度,需为每个机器人单独调参;
  • 深度强化学习(DRL)方法依赖特定模块(如动力学模型),且侧重运动的方法仅能跟踪速度指令,需人工遥控或外部规划器。

这些局限使得跨形态通用导航难以实现,而X-Nav通过端到端设计,直接将观测映射为低阶控制命令,摆脱了对形态特定模块的依赖。

X-Nav架构详解

架构分为两个核心阶段(figure 3):

阶段1:专家策略学习

在随机生成的机器人形态上,用DRL训练多个专家策略。

  • 观测与动作空间:观测包含上一动作、本体感受、目标位置、剩余时间及特权观测(形态参数、地形高度扫描);动作对轮式机器人是线速度和角速度,对四足机器人是12个关节目标位置。
  • 形态随机化:生成随机轮式和四足机器人,四足采用Full-Elbow(FE)和Front-Elbow-Back-Knee(FEBK)两种常见腿部结构,通过模板计算PD增益以确保扭矩充足。
  • 训练细节:采用PPO算法,策略网络为多层感知器(MLP),并行训练多个机器人;奖励函数包含任务奖励(鼓励向目标移动、停止在目标处)和正则化奖励(惩罚碰撞、动作突变等),轮式和四足的正则化奖励不同(table I)。

阶段2:通用策略提炼

通过模仿学习,将专家策略提炼为单一通用策略,核心是Nav-ACT transformer模型。

  • 统一观测与动作空间:统一观测包含目标位置、机器人尺寸、统一本体感受(轮式用零填充缺失的关节数据)、历史观测/动作、激光雷达数据;统一动作是14维向量,前2维对应轮式速度,后12维对应四足关节位置。
  • 演示数据收集:每个专家策略生成与训练形态数量相同的演示数据,包含成功 episode 中的统一观测和动作序列。
  • Nav-ACT训练:transformer解码器接收观测序列和位置嵌入,生成动作序列,采用均方误差(MSE)损失:
    推理时,轮式机器人用时间集成(TE)平滑动作,四足直接采用序列首动作。

训练设置

  • 专家策略:训练3个专家策略,分别对应小型四足(质量<30kg)、大型四足(质量>30kg)和轮式机器人,各用4096个随机形态,在Isaac Sim模拟器中训练4000个 epoch。
  • 通用策略:Nav-ACT含4个transformer层和4个注意力头,嵌入维度256,用256 batch size、0.0001学习率训练100个 epoch。

实验验证

对比研究

在未见过的商用机器人(轮式:Jackal、Dingo、Create3;四足:A1、Go2、ANYmal B)上测试,与行为克隆(BC)、带transformer的行为克隆(BCT)、扩散策略(DP)、一致性策略(CP)对比。结果显示,X-Nav在成功率(SR)和成功率加权路径长度(SPL)上均最优(table V),例如Jackal的SR达90.4%,SPL达0.84,远超其他方法。

可扩展性研究

测试X-Nav-128、X-Nav-1024、X-Nav-4096(训练用的随机形态数量)在Matterport3D逼真环境中的表现,发现随着形态数量增加,SR和SPL显著提升(figure 6),说明接触更多形态能提高对未知机器人的适配能力。

消融研究

验证设计选择的有效性:

  • 用L1损失替代MSE会降低性能,因对大误差惩罚不足;
  • 执行完整动作块(EC)会延迟四足对动态变化的适应;
  • 轮式不用TE会导致动作粗糙,四足用TE会降低响应速度(table VI)。

真实世界实验

在室内(走廊、门口)和室外(公园)环境中,用TurtleBot2(Kinect相机)和Jackal(ZED 2相机)测试,成功率85%,SPL 0.79,验证了在真实环境和不同传感器配置下的通用性(figure 7)。

参考

[1]X-Nav: Learning End-to-End Cross-Embodiment  Navigation for Mobile Robots