小模型逆袭!复旦&创智邱锡鹏团队造出「世界感知」具身智能体,代码数据完全开源!
- 2025-07-17 08:00:00

点击下方卡片,关注“具身智能之心”公众号
作者丨Junhao Shi等
编辑丨具身智能之心
本文只做学术分享,如有侵权,联系删文
——开源LVLM新框架WAP登顶EmbodiedBench榜单
1. 引言(Introduction)
视觉-语言-大模型(LVLMs)正迅速成为具身规划领域的新核心,但现有方法大多采用环境无关的模仿学习:把一句简化指令直接映射到动作序列,训练时既不关心房间布局,也不回顾历史观测。一旦遇到陌生场景、多步目标或含糊措辞,模型便“盲人骑瞎马”,要么过度依赖外部反馈,要么陷入重复错误。
为破解这一瓶颈,复旦大学与上海创新研究院提出 World-Aware Planning Narrative Enhancement(WAP)。核心思想是:
在数据层面注入四维认知叙事(视觉、空间、功能、句法),让模型先“看得全”再“想得深”; 采用闭环观察(仅 RGB + 指令,无任何动作成功信号)和三阶段课程学习,逐级培养环境理解与长程推理能力。
在 EB-ALFRED 基准上,7B 级开源 Qwen2.5-VL 成功率由 2 → 62.7(+60.7pp),超越 GPT-4o 与 Claude-3.5-Sonnet,验证了世界感知对高水平规划的决定性作用。
2. 相关工作(Related Work)
文本元数据 → 动作:早期方法依赖环境符号标签,缺乏视觉感知,难落地真实场景。 视觉管线级联:随后引入语义地图或分割网络,但需外部模块,部署复杂。 LVLM Planner:近期直接用大模型处理 RGB,却常借助“动作成功”“任务进度”等特权信号,与现实机器人脱节。
WAP 与现有工作最大区别:在数据层显式绑定指令-环境上下文,且全程仅靠视觉闭环,无需特权信息。
3. 技术方法(Method)
3.1 问题定义
给定自然语言指令 I 与按时间排序的第一人称观测序列,模型需预测下一步动作。难点在于:
部分可见、连续变化的环境; 长时依赖与隐式需求(如“冰镇后切片”)。
3.2 四维认知叙事增强
生成后通过 自验证器 判定与原任务等价,保证质量。
3.3 step-wise推理标注
对轨迹中每个动作生成理由,包括所见、指令关联与全局目标贡献,为模型提供显式“思考链”监督。由此得到

3.4 三阶段课程学习
Base:原始指令-轨迹对,学基础感知-动作映射; Env-Aware:加入视觉+空间增强,学习场景理解; Concept-Aware:进一步加入功能+句法+全链推理,攻克高阶语义与长程规划。
损失采用动作交叉熵,整过程仅用 RGB观测,无特权反馈。
4. 实验(Experiments)
4.1 主结果

Qwen2.5-VL +60.7 平均成功率提升,长程任务成功率 0→ 70, 超越Claude-3.5等闭源模型; InternVL3-8B 同样从 6→ 61.0,长程任务成功率 x17.5; 标准差STD更低 → 能力更平衡;
4.3 消融实验
仅视觉/空间增强:Avg 46.7,Std 17.1 → 过拟合感知,语义薄弱。 +部分推理:Avg 54.0,Std 9.3 → 能力趋稳但仍缺长程一致性。 完整四维 + 课程:62.7 / 6.3 → 兼顾性能与稳健。

4.4 案例分析
指令:“把冰镇的苹果切块后扔进垃圾桶”
WAP-Qwen 拆解出 18 步(取刀-切-冷藏-丢弃),且中途安全放置刀具;基线模型直接将整苹果丢桶导致失败,显示 WAP 对隐式条件、因果顺序的掌控优势。

5. 结论与展望
WAP 显式把“世界知识”写进数据与推理链,用四维叙事 + 课程学习让小规模开源 LVLM 在纯视觉闭环下刷新 EB-ALFRED 纪录,首次越级击败商业大模型。
未来工作:
下沉连续控制,连接低层执行; 拓展工业/户外动态场景; 探索自监督叙事自进化,实现数据-模型闭环迭代。
★一句话:WAP 证明——当机器人“大模型”真正“看懂世界”后,规划不必靠外挂,也能技高一筹!
论文标题:World-aware Planning Narratives Enhance Large Vision-Language Model Planner
代码开源地址:https://github.com/sjh0354/World-Aware-Planning
数据集开源地址:https://huggingface.co/datasets/Michael0354/World-Aware-Planning

- 点赞 0
-
分享
微信扫一扫
-
加入群聊
扫码加入群聊