点击下方卡片,关注“具身智能之心”公众号


作者丨Junhao Shi等

编辑丨具身智能之心

本文只做学术分享,如有侵权,联系删文



>>点击进入→具身智能之心技术交流群

更多干货,欢迎加入国内首个具身智能全栈学习社区具身智能之心知识星球(戳我)这里包含所有你想要的。

——开源LVLM新框架WAP登顶EmbodiedBench榜单

1. 引言(Introduction)

视觉-语言-大模型(LVLMs)正迅速成为具身规划领域的新核心,但现有方法大多采用环境无关的模仿学习:把一句简化指令直接映射到动作序列,训练时既不关心房间布局,也不回顾历史观测。一旦遇到陌生场景、多步目标或含糊措辞,模型便“盲人骑瞎马”,要么过度依赖外部反馈,要么陷入重复错误。

为破解这一瓶颈,复旦大学与上海创新研究院提出 World-Aware Planning Narrative Enhancement(WAP)。核心思想是:

  1. 在数据层面注入四维认知叙事(视觉、空间、功能、句法),让模型先“看得全”再“想得深”;
  2. 采用闭环观察(仅 RGB + 指令,无任何动作成功信号)和三阶段课程学习,逐级培养环境理解与长程推理能力。

在 EB-ALFRED 基准上,7B 级开源 Qwen2.5-VL 成功率由 2 → 62.7(+60.7pp),超越 GPT-4o 与 Claude-3.5-Sonnet,验证了世界感知对高水平规划的决定性作用。


2. 相关工作(Related Work)

  • 文本元数据 → 动作:早期方法依赖环境符号标签,缺乏视觉感知,难落地真实场景。
  • 视觉管线级联:随后引入语义地图或分割网络,但需外部模块,部署复杂。
  • LVLM Planner:近期直接用大模型处理 RGB,却常借助“动作成功”“任务进度”等特权信号,与现实机器人脱节。

WAP 与现有工作最大区别:在数据层显式绑定指令-环境上下文,且全程仅靠视觉闭环,无需特权信息。


3. 技术方法(Method)

3.1 问题定义

给定自然语言指令 I 与按时间排序的第一人称观测序列,模型需预测下一步动作。难点在于:

  • 部分可见、连续变化的环境;
  • 长时依赖与隐式需求(如“冰镇后切片”)。

3.2 四维认知叙事增强

维度
目标
示例(原 → 增强)
视觉 Visual
物体外观
“放刀进盒”→“放 20 cm 银色厨刀 入蓝色塑料盒”
空间 Spatial
精确定位
“…进柜子”→“…进 水池右侧贴墙的白柜
功能 Functional
工具-对象抽象
“放喷壶”→“放 用于喷洒的容器
句法 Syntactic
复杂指代
“放生菜进冰箱”→“那颗洗净的生菜,记得冷藏”

生成后通过 自验证器 判定与原任务等价,保证质量。

3.3 step-wise推理标注

对轨迹中每个动作生成理由,包括所见、指令关联与全局目标贡献,为模型提供显式“思考链”监督。由此得到

3.4 三阶段课程学习

  1. Base:原始指令-轨迹对,学基础感知-动作映射;
  2. Env-Aware:加入视觉+空间增强,学习场景理解;
  3. Concept-Aware:进一步加入功能+句法+全链推理,攻克高阶语义与长程规划。

损失采用动作交叉熵,整过程仅用 RGB观测,无特权反馈。


4. 实验(Experiments)

4.1 主结果

  • Qwen2.5-VL +60.7 平均成功率提升,长程任务成功率 0→ 70, 超越Claude-3.5等闭源模型;
  • InternVL3-8B 同样从 6→ 61.0,长程任务成功率 x17.5;
  • 标准差STD更低 → 能力更平衡;

4.3 消融实验

  • 仅视觉/空间增强:Avg 46.7,Std 17.1 → 过拟合感知,语义薄弱。
  • +部分推理:Avg 54.0,Std 9.3 → 能力趋稳但仍缺长程一致性。
  • 完整四维 + 课程:62.7 / 6.3 → 兼顾性能与稳健。

4.4 案例分析

指令:“把冰镇的苹果切块后扔进垃圾桶”

WAP-Qwen 拆解出 18 步(取刀-切-冷藏-丢弃),且中途安全放置刀具;基线模型直接将整苹果丢桶导致失败,显示 WAP 对隐式条件、因果顺序的掌控优势。


5. 结论与展望

WAP 显式把“世界知识”写进数据与推理链,用四维叙事 + 课程学习让小规模开源 LVLM 在纯视觉闭环下刷新 EB-ALFRED 纪录,首次越级击败商业大模型。

未来工作:

  1. 下沉连续控制,连接低层执行;
  2. 拓展工业/户外动态场景;
  3. 探索自监督叙事自进化,实现数据-模型闭环迭代。

一句话:WAP 证明——当机器人“大模型”真正“看懂世界”后,规划不必靠外挂,也能技高一筹
论文标题:World-aware Planning Narratives Enhance Large Vision-Language Model Planner
代码开源地址:https://github.com/sjh0354/World-Aware-Planning
数据集开源地址:https://huggingface.co/datasets/Michael0354/World-Aware-Planning