中科院自动化所！视觉-触觉-语言-动作模型方案与数据集制作分享

具身智能之心
2025-07-30 08:00:00

点击下方卡片，关注“具身智能之心”公众号

点击按钮预约直播

尽管视觉语言模型（VLM）已取得显著进展，但其在语言条件机器人操作中的应用——尤其是超越视觉主导抓取场景的接触密集型任务——仍尚未充分探索。为填补这一空白，本文提出视觉-触觉-语言-动作模型（VTLA）。本框架通过跨模态语言对齐，融合视觉与触觉输入，在接触密集型任务中生成鲁棒策略。本文在仿真环境中构建了一个低成本多模态数据集，包含专为指尖插入任务设计的视觉-触觉-动作-指令对。此外，引入直接偏好优化（DPO），为VTLA模型提供类回归监督，弥合了基于分类的下一词预测损失与连续机器人任务之间的差距。实验表明，VTLA在未知孔型上成功率超过90%，显著优于传统模仿学习方法（如扩散策略）及现有多模态基线（TLA/VLA）。最后，通过真实世界孔轴装配实验验证了VTLA卓越的仿真到现实（Sim2Real）迁移能力。

论文标题：VTLA: Vision-Tactile-Language-Action Model with Preference Learning for Insertion Manipulation

论文链接：https://arxiv.org/abs/2505.09577

分享介绍