资讯配图

点击下方卡片,关注“具身智能之心”公众号


作者丨Xuhui Kang等

编辑丨具身智能之心

本文只做学术分享,如有侵权,联系删文



>>点击进入→具身智能之心技术交流群

更多干货,欢迎加入国内首个具身智能全栈学习社区具身智能之心知识星球(戳我)这里包含所有你想要的。

写在前面&出发点

在物理世界中,人类协作时能快速适应物体的物理属性(如大小、形状、重量)和环境约束(如狭窄通道、受力要求),这种能力对机器人等具身智能体与人类高效协作至关重要。然而,现有研究多聚焦于离散空间或任务层面的人机协作,简化了交互动态,难以应对物理接地场景中连续状态-动作空间的复杂性、多样的物理约束及人类行为的多样性(Figure 1)。

资讯配图

例如,AI-AI协作可通过自博弈实现良好性能,但这类智能体往往难以适应人类伙伴的多样且不可预测的行为,尤其是在物理场景中,人类动作的微小变化(如抬升角度、施加的力)都可能显著影响结果。因此,亟需一个能仿真物理交互和多样协作场景的基准,以及相应的方法来提升智能体的适应性和泛化能力。

核心创新点

  1. 引入Moving Out基准:一个基于物理的人机协作环境,仿真了多种受物理属性和约束影响的协作模式,如共同搬运重物、协调动作绕过拐角等,填补了现有基准在连续物理交互场景上的空白。
  2. 设计两类评估任务:针对智能体适应人类行为多样性和泛化到未知物理属性的能力,设计了相应任务并收集了人类协作数据,为模型训练和评估提供了基础。
  3. 提出BASS方法:通过行为增强(Behavior Augmentation)、仿真(Simulation)和选择(Selection)三个模块,提升智能体在物理环境中的协作性能,显著优于现有方法。

主要工作

Moving Out环境设计

基于2D物理仿真平台Magical构建,要求两个智能体协作将物体搬运至目标区域(Figure 2),核心设计包括:

资讯配图
  • 物理变量:包含可移动物体(形状、大小、质量多样)、墙壁(引入摩擦)、目标区域(需精确放置物体)。例如,物体大小影响移动难度,大型物体需协作搬运,小型物体可单独快速移动。
  • 布局类型:12张地图分为三种协作模式:
    • 协调(Coordination):含狭窄通道,需传递物体或避让,如Map 4要求 agents 协调优先级选择。
    • 感知(Awareness):无固定最优顺序,需判断何时协助伙伴,如Map 6中 agents 需决定优先处理近/远物体。
    • 动作一致性(Action Consistency):需持续同步动作,如Map 10要求协作旋转大型物体通过狭窄通道。

任务与数据集

  1. 任务1:适应人类行为多样性
    固定12张地图的物理属性,收集36名参与者的1000+对人类协作数据,涵盖相同任务的多样行为。训练模型需泛化到未见过的人类策略。

  2. 任务2:泛化到未知物理约束
    随机化物体物理属性(质量、大小、形状),由4名专家提供720对演示数据(每地图60次)。训练模型需理解物理约束而非记忆,在未知属性场景中表现良好。

数据收集经IRB批准,采用 joystick 控制,环境运行频率10Hz,单地图平均耗时30秒(300时间步)。

BASS方法

针对物理环境中连续状态-动作空间和约束转换的挑战,BASS包含三个核心模块:

  1. 行为增强

  • 伙伴姿态扰动:对轨迹中伙伴的姿态添加高斯噪声(),增强对微小行为变化的鲁棒性。
  • 子轨迹重组:当两个轨迹中 agent 的子轨迹起止状态匹配时,交换伙伴的子序列生成新轨迹,丰富训练数据中伙伴行为的多样性。
  • 仿真与动作选择

    • latent 动力学模型:通过两个自编码器将状态编码到 latent 空间,动力学模型基于当前 latent 状态和双方动作预测下一状态(),其中为预测的伙伴动作。
    • 动作选择:基于预测的下一状态,计算所有物体到目标区域的归一化最终距离(NFD)作为奖励,选择奖励最高的动作()。

    实验结果

    1. 评估指标:任务完成率(TCR,加权物体送达比例)、归一化最终距离(NFD,衡量部分进度)、等待时间(WT,等待协助的时间)、动作一致性(AC,力的对齐程度)。

    2. 对比实验:与MLP、GRU、Diffusion Policy(DP)、MAPPO等基线对比,BASS在AI-AI和人机协作中均表现更优(Figure 6)。例如,在任务2中,BASS的TCR和NFD显著高于DP,表明其更好理解物理约束。

    资讯配图
    1. 消融实验:Table 1显示,行为增强和仿真模块均能提升性能,完整BASS效果最佳。
    资讯配图
    1. 人类反馈:用户研究表明,BASS在“有用性”和“物理理解”上显著优于DP(Figure 7),减少了物体交接失败、未及时协助等问题。
    资讯配图

    相关工作

    现有人类-AI协作研究存在局限:

    • 环境层面:OvercookedAI、LBF等为离散环境,物理属性有限;It Takes Two限制 agent 自由移动,缺乏独立分工;HumanTHOR、Habitat 3.0聚焦任务级协作。
    • 学习策略:行为克隆(BC)依赖专家数据,RL方法(如MAPPO)通过自博弈训练,但难以适应人类行为;部分工作结合BC与RL,但未充分考虑物理约束。
    • 评估方法:多关注任务性能,部分涉及信任、协作性等主观指标,但缺乏对物理交互的专门评估。

    Moving Out通过物理接地环境、多样协作模式及连续状态-动作空间,弥补了这些不足。

    参考

    [1]Moving Out: Physically-grounded Human-AI Collaboration

    资讯配图