摘要

Abstract


当操作环境复杂多变——存在遮挡、光照变化或人为扰动时,仅凭视觉的机器人往往束手无策。精细任务单靠一双“眼睛”显然不够。如今,一个集成了视觉与高精度触觉感知的便携式触觉夹持器(Visuo-Tactile Gripper)及其背后的智能学习系统,在刚刚结束的机器人顶会RSS 2025上斩获最佳演示奖,它向我们证明:“触摸”的力量,在复杂“野外”环境中至关重要。



项目地址:https://binghao-huang.github.io/touch_in_the_wild/



硬件是基础,感知融合是核心

硬件集成: 独特的便携式设计将视觉与触觉传感器融合在一个可移动的夹持单元内,便于部署到各种真实(野外)环境。

视觉触觉夹持器设计

多模态感知:硬件协同产生视觉图像+触觉图像的成对数据,为深度模型提供融合视觉外观与微观接触特性的基础。

目标价值:突破视觉在遮挡、反射、精确力控等场景下的感知局限,为智能决策提供更全面、更本底的输入。

让机器人积累“触觉经验”

为了教会机器人理解复杂触觉信息,研究团队进行了规模空前的真实环境野外数据收集。

海量真实交互:在12个不同的室内外环境中,通过人工示范完成了超过2,700次任务演示,涵盖了43种操作任务。这带来了超过260万对视觉-触觉数据点。

预训练构建感知基础:利用交叉注意力机制对海量图像-触觉对进行预训练。模型的核心任务是:给定一个部分被掩盖(掩蔽)的触觉输入和对应的相机图像,能够重建出完整的触觉图像。

学习融合表征:这种预训练过程让模型学会了强大的联合视觉-触觉表征。在下游应用中,这个融合表征与机器人自身的本体感觉状态结合,成为驱动精细操作策略的输入。

精细操作与鲁棒性双重验证

该系统训练出的策略在多种需要精确“手内”状态感知和精细力控制的挑战性任务中表现卓越,尤其在面对人为干扰时展现出远超纯视觉策略的鲁棒性(Robustness)。

任务演示与优势:

需要精确“手内”状态感知的任务 (依赖重定向):

试管操作:机器人从盒中取出试管,利用试管架巧妙重定向,再精确插入目标孔位。

铅笔插入卷笔刀:面对初始倾斜抓握的铅笔,机器人能感知状态并完成必要的重定向调整,使其与夹持器平行,最终精准插入。

优势: 在人为干扰(如轻推试管/铅笔)下,策略能根据实时触觉反馈(感知物体倾斜还是直立)自主决定是继续重定向还是执行插入,任务成功率显著高于纯视觉方案。

需要精细力信息控制的任务:

流体移液:机器人需稳稳抓住移液器,施加足够但不过度的压力抽取液体(避免滑落),再移动到目标容器上方轻柔释放液体。这对抓握力度和挤出控制的要求极高。

白板擦除:机器人使用软橡皮擦清除双笔迹文字,需要在整个行程中保持一致且适中的压力——压力过大可能损坏系统,过小则擦不干净。

优势:触觉直接提供力反馈闭环,确保力控精准。

稳健型评估:抗干扰性进一步凸显

在擦除任务中,即使有人在机器人执行过程中写上新的文字,基于触觉的策略也能稳定地检测并清除所有目标笔迹,展现了强大的实时适应性。

在所有展示任务以及与纯视觉策略(Vision-Only Baseline) 的性能对比中,该视觉触觉融合策略表现出压倒性的优势,特别是在存在遮挡、光照变化或最关键的人为干扰条件下。触觉反馈提供的本质物理信息,为机器人在复杂、动态的真实环境中执行精细操作提供了无可替代的稳健性与可靠性。

这项研究不仅是硬件设计的突破,更是展示了在真实、复杂环境中收集触觉交互数据并利用先进学习框架(如预训练)构建强大多模态表征的巨大潜力。

往期文章

全球首篇自动驾驶VLA模型综述重磅发布!麦吉尔&清华&小米团队解析VLA自驾模型的前世今生

字节跳动Seed实验室发布ByteDexter灵巧手:解锁人类级灵巧操作

π0.5:突破视觉语言模型边界,首个实现开放世界泛化的VLA诞生!

具身专栏(三)| 具身智能中VLA、VLN、VA中常见训练(training)方法

具身专栏(二)| 具身智能中VLA、VLN分类与发展线梳理

具身专栏(一)| VLA、VA、VLN概述

斯坦福&英伟达最新论文:CoT-VLA模型凭"视觉思维链"实现复杂任务精准操控

RoboTwin2.0全面开源!多模态大模型驱动的双臂操作Benchmark ,支持代码生成!

开源!Maniskill仿真器上LeRobot的sim2real的RL训练代码开源(附教程)

迈向机器人领域ImageNet,大牛PieterAbbeel领衔北大、通院、斯坦福发布RoboVerse大一统仿真平台

CVPR 北大、清华最新突破:机器人操作新范式,3.3万次仿真模拟构建最大灵巧手数据集

人形机器人四级分类:你的人形机器人到Level 4了吗?(附L1-L4技术全景图)建议收藏!

斯坦福最新论文:使用人类动作的视频数据,摆脱对机器人硬件的需求

爆发在即!养老机器人如何守护2.2亿老人?产业链+政策一览,建议收藏!