中科院自动化所!视觉-触觉-语言-动作模型方案与数据集制作分享
- 2025-07-30 08:00:00
>>直播和内容获取转到→具身智能之心知识星球
点击按钮预约直播
尽管视觉语言模型(VLM)已取得显著进展,但其在语言条件机器人操作中的应用——尤其是超越视觉主导抓取场景的接触密集型任务——仍尚未充分探索。为填补这一空白,本文提出视觉-触觉-语言-动作模型(VTLA)。本框架通过跨模态语言对齐,融合视觉与触觉输入,在接触密集型任务中生成鲁棒策略。本文在仿真环境中构建了一个低成本多模态数据集,包含专为指尖插入任务设计的视觉-触觉-动作-指令对。此外,引入直接偏好优化(DPO),为VTLA模型提供类回归监督,弥合了基于分类的下一词预测损失与连续机器人任务之间的差距。实验表明,VTLA在未知孔型上成功率超过90%,显著优于传统模仿学习方法(如扩散策略)及现有多模态基线(TLA/VLA)。最后,通过真实世界孔轴装配实验验证了VTLA卓越的仿真到现实(Sim2Real)迁移能力。
论文标题:VTLA: Vision-Tactile-Language-Action Model with Preference Learning for Insertion Manipulation
论文链接:https://arxiv.org/abs/2505.09577

更多精彩回顾
🚀 直播精华看不够?完整版深度内容已独家上线知识星球「具身智能之心」!涵盖所有技术细节、QA及未公开彩蛋。深度解析!
重磅分享!VR-Robo:real2sim2real助力真实场景下的机器人导航和运动控制
重磅直播!CVPR冠军方案BridgeVLA,真机性能提升32%
UniVLA:高效利用多源异构数据,构建通用可扩展的机器人动作空间
干货满满,快来加入

- 点赞 (0)
-
分享
微信扫一扫
-
加入群聊
扫码加入群聊