X-Nav:端到端跨平台导航框架,通用策略实现零样本迁移
- 2025-07-23 08:00:00

点击下方卡片,关注“具身智能之心”公众号
作者丨Haitong Wang等
编辑丨具身智能之心
本文只做学术分享,如有侵权,联系删文
更多干货,欢迎加入国内首个具身智能全栈学习社区:具身智能之心知识星球(戳我),这里包含所有你想要的。
写在前面&概述
现有导航方法多针对特定机器人形态设计,导致在不同平台间的通用性受限。为此,本文提出的X-Nav框架实现了端到端跨形态导航,单一通用策略可部署于轮式和四足机器人。其核心是两阶段学习机制:先通过深度强化学习(DRL)在大量随机生成的机器人形态上训练多个专家策略,再借助导航动作分块 transformer(Nav-ACT)将这些专家策略提炼为单一通用策略,最终实现对未知形态机器人和逼真环境的零样本迁移。
核心问题与现有局限
导航任务要求机器人从起始位置到目标位置,在未知复杂环境中完成无碰撞移动,依赖视觉观测(深度图像)、目标位置和本体感受(如关节位置、速度)等信息。但现有方法存在明显局限:
模仿学习(IL)方法依赖形态特定控制器跟踪路径点或速度,需为每个机器人单独调参; 深度强化学习(DRL)方法依赖特定模块(如动力学模型),且侧重运动的方法仅能跟踪速度指令,需人工遥控或外部规划器。
这些局限使得跨形态通用导航难以实现,而X-Nav通过端到端设计,直接将观测映射为低阶控制命令,摆脱了对形态特定模块的依赖。
X-Nav架构详解
架构分为两个核心阶段(figure 3):

阶段1:专家策略学习
在随机生成的机器人形态上,用DRL训练多个专家策略。
观测与动作空间:观测包含上一动作、本体感受、目标位置、剩余时间及特权观测(形态参数、地形高度扫描);动作对轮式机器人是线速度和角速度,对四足机器人是12个关节目标位置。 形态随机化:生成随机轮式和四足机器人,四足采用Full-Elbow(FE)和Front-Elbow-Back-Knee(FEBK)两种常见腿部结构,通过模板计算PD增益以确保扭矩充足。 训练细节:采用PPO算法,策略网络为多层感知器(MLP),并行训练多个机器人;奖励函数包含任务奖励(鼓励向目标移动、停止在目标处)和正则化奖励(惩罚碰撞、动作突变等),轮式和四足的正则化奖励不同(table I)。

阶段2:通用策略提炼
通过模仿学习,将专家策略提炼为单一通用策略,核心是Nav-ACT transformer模型。
统一观测与动作空间:统一观测包含目标位置、机器人尺寸、统一本体感受(轮式用零填充缺失的关节数据)、历史观测/动作、激光雷达数据;统一动作是14维向量,前2维对应轮式速度,后12维对应四足关节位置。 演示数据收集:每个专家策略生成与训练形态数量相同的演示数据,包含成功 episode 中的统一观测和动作序列。 Nav-ACT训练:transformer解码器接收观测序列和位置嵌入,生成动作序列,采用均方误差(MSE)损失:推理时,轮式机器人用时间集成(TE)平滑动作,四足直接采用序列首动作。
训练设置
专家策略:训练3个专家策略,分别对应小型四足(质量<30kg)、大型四足(质量>30kg)和轮式机器人,各用4096个随机形态,在Isaac Sim模拟器中训练4000个 epoch。 通用策略:Nav-ACT含4个transformer层和4个注意力头,嵌入维度256,用256 batch size、0.0001学习率训练100个 epoch。
实验验证
对比研究
在未见过的商用机器人(轮式:Jackal、Dingo、Create3;四足:A1、Go2、ANYmal B)上测试,与行为克隆(BC)、带transformer的行为克隆(BCT)、扩散策略(DP)、一致性策略(CP)对比。结果显示,X-Nav在成功率(SR)和成功率加权路径长度(SPL)上均最优(table V),例如Jackal的SR达90.4%,SPL达0.84,远超其他方法。
可扩展性研究
测试X-Nav-128、X-Nav-1024、X-Nav-4096(训练用的随机形态数量)在Matterport3D逼真环境中的表现,发现随着形态数量增加,SR和SPL显著提升(figure 6),说明接触更多形态能提高对未知机器人的适配能力。

消融研究
验证设计选择的有效性:
用L1损失替代MSE会降低性能,因对大误差惩罚不足; 执行完整动作块(EC)会延迟四足对动态变化的适应; 轮式不用TE会导致动作粗糙,四足用TE会降低响应速度(table VI)。

真实世界实验
在室内(走廊、门口)和室外(公园)环境中,用TurtleBot2(Kinect相机)和Jackal(ZED 2相机)测试,成功率85%,SPL 0.79,验证了在真实环境和不同传感器配置下的通用性(figure 7)。

参考
[1]X-Nav: Learning End-to-End Cross-Embodiment Navigation for Mobile Robots

- 点赞 (0)
-
分享
微信扫一扫 -
加入群聊
扫码加入群聊