点击下方卡片,关注“具身智能之心”公众号

>>直播和内容获取转到具身智能之心知识星球

点击按钮预约直播

尽管视觉语言模型(VLM)已取得显著进展,但其在语言条件机器人操作中的应用——尤其是超越视觉主导抓取场景的接触密集型任务——仍尚未充分探索。为填补这一空白,本文提出视觉-触觉-语言-动作模型(VTLA)。本框架通过跨模态语言对齐,融合视觉与触觉输入,在接触密集型任务中生成鲁棒策略。本文在仿真环境中构建了一个低成本多模态数据集,包含专为指尖插入任务设计的视觉-触觉-动作-指令对。此外,引入直接偏好优化(DPO),为VTLA模型提供类回归监督,弥合了基于分类的下一词预测损失与连续机器人任务之间的差距。实验表明,VTLA在未知孔型上成功率超过90%,显著优于传统模仿学习方法(如扩散策略)及现有多模态基线(TLA/VLA)。最后,通过真实世界孔轴装配实验验证了VTLA卓越的仿真到现实(Sim2Real)迁移能力。

论文标题VTLA: Vision-Tactile-Language-Action Model with Preference Learning for Insertion Manipulation 

论文链接https://arxiv.org/abs/2505.09577

分享介绍
资讯配图

更多精彩回顾

🚀 直播精华看不够?完整版深度内容已独家上线知识星球「具身智能之心」!涵盖所有技术细节、QA及未公开彩蛋。深度解析!

重磅分享!VR-Robo:real2sim2real助力真实场景下的机器人导航和运动控制

重磅直播!CVPR冠军方案BridgeVLA,真机性能提升32%

【圆桌正当时】机器人不能没有方向盘,你的遥操够丝滑吗?

UniVLA:高效利用多源异构数据,构建通用可扩展的机器人动作空间

干货满满,快来加入

END