加州大学等联合Sharpa联合发布触觉视觉双融合ViTacFormer,这款AI能2.5分钟自制汉堡
- 2025-07-10 10:54:05
摘要
Abstract
灵巧作是机器人系统的基础能力,旨在以类似人类的方式与物理世界交互。尽管基于视觉的方法发展迅速,但触觉传感对于精细控制仍然至关重要,尤其是在非结构化或视觉遮挡的环境中。ViTacFormer系统通过触觉-视觉跨模态融合与自回归触觉预测,首次实现拟人化机械手长达2.5分钟的高精度连续操作(如11步汉堡制作),任务成功率提升50%,突破视觉遮挡限制,为工业制造与服务机器人提供全新解决方案。

项目地址:
https://roboverseorg.github.io/ViTacFormerPage/#framework
在机器人技术领域,如何让机械手像人类一样灵活操作物体,始终是科研攻关的难点。现有主流方案依赖视觉识别,但在遮挡、复杂物体操作场景中却频频失效。最新研究通过跨模态感知技术,为机器装上了“真实的触觉”,让拟人化机器人手首次实现了持续2.5分钟的高精度操作——甚至能完成包含11个步骤的汉堡制作全流程。
触觉+视觉:给机器装上“仿生神经系统”
灵巧操作的本质是机器与物理世界的动态交互。ViTacFormer突破性地将高分辨率视觉(腕部鱼眼镜头+全局立体摄像头)与指尖触觉传感器(分辨率达320×240)深度融合,构建起类人的感知系统。
其核心在于交叉注意力编码器——如同人类神经系统的信息整合中枢,动态关联视觉场景与触觉反馈。

更具创新性的是自回归触觉预测头设计:系统不仅能感知当前接触状态,更能预测未来0.5秒内的触觉信号变化。这使得机械手在抓取蛋黄酱瓶时,能预判挤出力度;折叠蛋卷时,可提前感知破裂风险。这种主动式感知打破了传统被动触觉的局限,让操作策略具备预见性。
硬件与训练双突破:打造真实世界操作能力
为支撑技术落地,团队构建了顶级硬件平台:

方法
(1)两台Realman机器人臂搭载17自由度仿生灵巧手
(2)四重感知系统:腕部鱼眼镜头(操作视野)、俯视立体摄像头(全局路径)、五指尖触觉阵列(力度反馈)
(3)通过外骨骼远程操作系统收集专家数据,操作员佩戴力反馈手套,沉浸式VR界面实时叠加视觉与触觉信号,实现人机操作的精准映射
在训练机制上,独创渐进式难度课程:从单一物体抓取到多物体组合操作,系统在数百万次跨模态交互中不断优化潜在表征空间。实验显示,新方法在螺钉拧紧、易碎品转移等4项短期任务中,成功率较现有最优系统(如ACT、DP)提升超50%,在视觉遮挡场景下仍保持稳定操作。
里程碑突破:2.5分钟连续执行11步操作
最令人振奋的成果体现在长周期复杂操作中。在汉堡制作挑战中,机器人需要连续完成:
1.开面包盒→2. 取面包片→3. 挤酱料→4. 夹生菜→5. 放番茄片→6. 翻烤肉饼→7. 组合食材→8. 盖顶层面包→9. 插固定签→10. 装盒→11. 关盒封装
ViTacFormer系统成功完成全流程11个阶段操作,持续时长约2.5分钟,成为首个实现拟人手机械手长时程高精度操作的自主系统。当机械指腹感知到酱料瓶剩余量不足时,它能自动调整挤压角度;组合多层食材时,通过实时触觉反馈动态分配指关节压力,避免压碎生菜或挤出酱料。
此项突破标志着机器人操作技术迈入新纪元——当机器拥有了类似人类的视觉-触觉协同能力,工业制造、医疗康复、危险环境作业等领域或将迎来颠覆性变革。

往期文章
全球首篇自动驾驶VLA模型综述重磅发布!麦吉尔&清华&小米团队解析VLA自驾模型的前世今生
字节跳动Seed实验室发布ByteDexter灵巧手:解锁人类级灵巧操作
具身专栏(三)| 具身智能中VLA、VLN、VA中常见训练(training)方法
具身专栏(二)| 具身智能中VLA、VLN分类与发展线梳理
具身专栏(一)| VLA、VA、VLN概述
π0.5:突破视觉语言模型边界,首个实现开放世界泛化的VLA诞生!
斯坦福&英伟达最新论文:CoT-VLA模型凭"视觉思维链"实现复杂任务精准操控
RoboTwin2.0全面开源!多模态大模型驱动的双臂操作Benchmark ,支持代码生成!
开源!Maniskill仿真器上LeRobot的sim2real的RL训练代码开源(附教程)
迈向机器人领域ImageNet,大牛PieterAbbeel领衔北大、通院、斯坦福发布RoboVerse大一统仿真平台
CVPR 北大、清华最新突破:机器人操作新范式,3.3万次仿真模拟构建最大灵巧手数据集
人形机器人四级分类:你的人形机器人到Level 4了吗?(附L1-L4技术全景图)建议收藏!
斯坦福最新论文:使用人类动作的视频数据,摆脱对机器人硬件的需求
爆发在即!养老机器人如何守护2.2亿老人?产业链+政策一览,建议收藏!


- 点赞 0
-
分享
微信扫一扫
-
加入群聊
扫码加入群聊