X-Nav：端到端跨平台导航框架，通用策略实现零样本迁移

具身智能之心
2025-07-23 08:00:00

点击下方卡片，关注“具身智能之心”公众号

作者丨Haitong Wang等
编辑丨具身智能之心
本文只做学术分享，如有侵权，联系删文

更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球(戳我)，这里包含所有你想要的。

写在前面&概述

现有导航方法多针对特定机器人形态设计，导致在不同平台间的通用性受限。为此，本文提出的X-Nav框架实现了端到端跨形态导航，单一通用策略可部署于轮式和四足机器人。其核心是两阶段学习机制：先通过深度强化学习（DRL）在大量随机生成的机器人形态上训练多个专家策略，再借助导航动作分块 transformer（Nav-ACT）将这些专家策略提炼为单一通用策略，最终实现对未知形态机器人和逼真环境的零样本迁移。

核心问题与现有局限

导航任务要求机器人从起始位置到目标位置，在未知复杂环境中完成无碰撞移动，依赖视觉观测（深度图像）、目标位置和本体感受（如关节位置、速度）等信息。但现有方法存在明显局限：

模仿学习（IL）方法依赖形态特定控制器跟踪路径点或速度，需为每个机器人单独调参；
深度强化学习（DRL）方法依赖特定模块（如动力学模型），且侧重运动的方法仅能跟踪速度指令，需人工遥控或外部规划器。

这些局限使得跨形态通用导航难以实现，而X-Nav通过端到端设计，直接将观测映射为低阶控制命令，摆脱了对形态特定模块的依赖。

X-Nav架构详解

架构分为两个核心阶段（figure 3）：

阶段1：专家策略学习

在随机生成的机器人形态上，用DRL训练多个专家策略。

观测与动作空间：观测包含上一动作、本体感受、目标位置、剩余时间及特权观测（形态参数、地形高度扫描）；动作对轮式机器人是线速度和角速度，对四足机器人是12个关节目标位置。
形态随机化：生成随机轮式和四足机器人，四足采用Full-Elbow（FE）和Front-Elbow-Back-Knee（FEBK）两种常见腿部结构，通过模板计算PD增益以确保扭矩充足。
训练细节：采用PPO算法，策略网络为多层感知器（MLP），并行训练多个机器人；奖励函数包含任务奖励（鼓励向目标移动、停止在目标处）和正则化奖励（惩罚碰撞、动作突变等），轮式和四足的正则化奖励不同（table I）。

阶段2：通用策略提炼

通过模仿学习，将专家策略提炼为单一通用策略，核心是Nav-ACT transformer模型。

统一观测与动作空间：统一观测包含目标位置、机器人尺寸、统一本体感受（轮式用零填充缺失的关节数据）、历史观测/动作、激光雷达数据；统一动作是14维向量，前2维对应轮式速度，后12维对应四足关节位置。
演示数据收集：每个专家策略生成与训练形态数量相同的演示数据，包含成功 episode 中的统一观测和动作序列。
Nav-ACT训练：transformer解码器接收观测序列和位置嵌入，生成动作序列，采用均方误差（MSE）损失：
推理时，轮式机器人用时间集成（TE）平滑动作，四足直接采用序列首动作。

训练设置

专家策略：训练3个专家策略，分别对应小型四足（质量<30kg）、大型四足（质量>30kg）和轮式机器人，各用4096个随机形态，在Isaac Sim模拟器中训练4000个 epoch。
通用策略：Nav-ACT含4个transformer层和4个注意力头，嵌入维度256，用256 batch size、0.0001学习率训练100个 epoch。

实验验证

对比研究

在未见过的商用机器人（轮式：Jackal、Dingo、Create3；四足：A1、Go2、ANYmal B）上测试，与行为克隆（BC）、带transformer的行为克隆（BCT）、扩散策略（DP）、一致性策略（CP）对比。结果显示，X-Nav在成功率（SR）和成功率加权路径长度（SPL）上均最优（table V），例如Jackal的SR达90.4%，SPL达0.84，远超其他方法。