点击下方卡片,关注“AI生成未来

如您有工作需要分享,欢迎联系:aigc_to_future

转载自:human five

如有侵权,联系删稿

实现类人灵巧机器人操作仍然是机器人领域的核心目标和关键挑战。人工智能(AI)的发展使得机器人操作取得了快速进步。本综述总结了机器人操作从机械编程到具身智能的演变,以及从简单夹持器到多指灵巧手的转变,概述了关键特征和主要挑战。聚焦于当前具身灵巧操作阶段,重点介绍了两个关键领域的最新进展:灵巧操作数据收集(通过仿真、人类演示和遥操作)和技能学习框架(模仿学习和强化学习)。然后,基于对现有数据收集范式和学习框架的概述,总结并讨论了限制灵巧机器人操作发展的三个关键挑战。

一、引言

让机器人具备类人灵巧操作能力一直是机器人技术发展的核心目标[1]。然而,与人工智能在模仿人类认知和学习能力方面取得的巨大成就相比,致力于模仿人类与物理环境交互的机器人灵巧操作进展相对缓慢。机器人操作是指机器人控制自身执行器与环境交互,从而影响物理世界的行为[2]。自诞生以来,人们就期望机器人具备类人操作能力。但受限于感知和认知能力,机器人在很大程度上仅应用于结构化工业场景,执行基本且重复的抓取和放置任务。

图片

近年来,机器人技术取得了巨大进步。为机器人灵巧操作奠定坚实基础,不仅需要机器人变得更具柔顺性和稳定性,还需要末端执行器更加灵巧。如图1所示,机器人已从传统工业机械臂逐渐发展到协作机械臂[3],能够与人类和不确定环境进行交互。同时,也出现了一些专门设计的机器人,如连续体机械臂[4],可以连续变形到所需形状,以及由特殊软材料制成的软体机械臂[5]。机器人的末端执行器也从最简单的平行夹持器演变为多指夹持器[6]、软体欠驱动手[7]、刚性灵巧手[8]和具有全驱动设计的高度拟人化手[9]。同时,随着软体机器人技术的发展,一些软体夹持器和软体手逐渐走向成熟[10][11]。这些进展为机器人灵巧操作提供了坚实的硬件基础,极大地提升了机器人的操作能力。

然而,即便在今天,机器人操作仍然是一个尚未解决的开放性问题。机器人操作的性能与人类的期望仍有较大差距,尤其是在手部灵巧操作方面[12][13]。因此,机器人操作仍面临诸多挑战,是机器人领域前沿的热点课题。

为了找到实现灵巧机器人操作的最佳解决方案,Liu等人[14]总结了深度强化学习(DRL)算法在解决机器人操作控制应用问题方面的最新进展。此外,Mohammed等人[15]将基于DRL的杂乱环境下机器人操作任务分为三类进行综述。Fang等人[16]从演示、表示和学习算法三个方面综述了机器人操作的模仿学习(IL)技术。但这些综述仅关注孤立的学习算法,缺乏对机器人操作发展和挑战更全面的总结。

Yu等人[17]全面综述了多指机器人手灵巧操作方法,从基于模型的方法到基于强化学习(RL)的最新研究。Han等人[18]总结了基于学习的机器人操作任务方法的最新进展。他们研究了将这些算法应用于机器人操作任务时出现的问题以及已提出的各种解决方案。尽管他们全面总结了机器人操作的方法,但过于关注实现机器人操作本身的算法,而忽略了训练所需的操作数据收集,这是实现基于学习方法良好效果的重要基石。Liu等人[19]根据数据集的不同收集方式,将最新的机器人操作技能学习方法分为三类进行综述,但仍未涉及数据收集方法。Newbury等人[20]系统综述了深度学习方法在机器人物体抓取中的应用,包括学习方法、数据集、基准测试等。然而,他们主要总结了简单的两指或三指夹持器的使用,很少考虑拟人化手,且更多关注数据集设计而非数据收集方法。因此,需要更系统的概述,不仅要全面探讨机器人灵巧操作学习的最新进展,还要分析机器人操作的发展和挑战,为未来发展提供更清晰的路径。

本文的主要贡献如下:

  • 按时间顺序总结了机器人操作的发展过程,将其分为三个阶段:机械编程阶段、闭环控制阶段和具身智能操作阶段。同时,给出了每个阶段的特点,并分析了实现灵巧机器人操作面临的挑战。
  • 聚焦当前具身灵巧操作阶段,从数据收集方法和操作技能学习框架两个方面系统列举了最新进展。
  • 在分析现有方法的基础上,总结了灵巧机器人操作的三个关键挑战,认为这些挑战对未来实现类人灵巧操作的研究至关重要。

本文的其余部分组织如下:第二部分总结了机器人操作的发展历程。第三部分分析了当前阶段面临的挑战。第四部分和第五部分分别回顾了灵巧操作的数据收集方法和学习框架的当前进展,并讨论了典型场景及其优缺点和开放问题。第六部分总结了机器人操作当前发展过程中的挑战。第七部分对本综述进行总结。

二、机器人操作的历史阶段

近年来,人们达成共识:没有物理实体的非具身智能最终会达到瓶颈,而具有物理实体(如机器人)与世界交互的具身智能是实现通用人工智能的唯一途径[21]。机器人操作的发展可分为三个阶段,如图2所示。

图片

第一阶段是机械编程阶段。工业机器人,如Unimate和PUMA560,配备平行夹持器,可在预编程控制器下在工业生产线实现抓取-放置操作[22]。但此阶段的机器人没有外部感知能力,缺乏适应外部变化的能力(如工件位置和形状的变化)。

第二阶段是基于视觉伺服的闭环控制阶段。通过手眼相机或眼在手外相机将视觉反馈引入控制回路,实现基于特征跟踪的闭环控制。这使得机器人操作对任务和环境的变化具有一定的适应性。典型成果如ABB YuMi双臂协作机器人[23],可在半结构化环境中完成组件装配任务。但此阶段机器人的控制仍依赖于对外部环境或被操作工件的精确建模。例如,在基于模型的抓取任务中,力封闭检测是判断能否形成稳定抓取的必要条件。然而,模型的不准确性会极大降低操作性能,而非结构化环境中总是存在大量难以预先建模的物体和干扰。

随着人工智能的发展,机器人操作逐渐进入强调端到端“感知-决策-执行”闭环的具身智能操作阶段[24]。具身智能操作使机器人能够基于视觉、力觉、触觉等多模态传感器信息增强对周围环境的理解,有望使机器人适应动态非结构化环境。这是目前赋予机器人类人灵巧操作能力最有前景的技术路线。

三、灵巧操作的挑战:从夹持器到多指手

图片

在具身智能操作阶段,与物理世界交互的复杂性是机器人操作面临严峻挑战的主要来源。随着机器人走出结构化工厂环境,其操作的物体也从传统刚性工件转变为难以感知或建模的复杂物体。如图3所示,机器人操作线性物体(如电缆)[25]、透明物体(如玻璃杯)[26]、柔软物体(如布料)[27][28]和可变形物体(如医疗手术中的人体组织)[29]具有挑战性。机器人与物理世界交互时,除了被操作物体越来越复杂,机器人操作的类型也更加多样化。除了基本的抓取和放置操作,交互还需要多种机器人操作类型,如依赖单点接触实现复杂物体移动的点触滑动操作[30]、推拉操作(如拨算盘、开关阀门)[31]、仅依靠一只手实现物体旋转的在手操作[32]以及各种场景下的灵巧操作(如开关阀门、抓取物体、使用工具)[33]。复杂的物体和多样的操作使机器人操作面临建模困难、高不确定性、大干扰和感知能力有限等挑战,极大地影响了机器人技术的进一步拓展和应用。

如何解决这些问题是当前研究的前沿和热点。然而,当前机器人操作研究主要集中在两指夹持器上。例如,谷歌提出的机器人大语言模型(LLM)RT-X系列[34]和结合LLM与视觉-语言模型(VLM)的VoxPoser[35]用于机器人操作。尽管简单的两指夹持器可以完成许多操作任务,但这种末端执行器有两个缺点,严重限制了其在机器人操作中的发展。首先,两指夹持器在交互过程中只能提供较少的接触点,在某些任务中无法提供稳定可靠的抓取。其次,两指夹持器本身自由度较少,无法完成复杂的操作任务,如在手旋转和使用工具。高度拟人化的多指灵巧手可以弥补两指夹持器的不足。

与简单的两指夹持器相比,多指灵巧手的操作技能学习尤为困难。首先,多指灵巧手具有更高的自由度(DoF)和更可变的交互空间,这大大增加了强化学习等算法在高维空间中的搜索难度。其次,在执行操作任务过程中,多指灵巧手与物体存在多个接触点,导致更复杂多样的力学特性。这进一步增加了多指灵巧手技能学习的难度。

赋予多指灵巧手类人灵巧操作能力,对推动机器人技术发展具有重要意义。作为人类运动执行的重要器官,人类的大部分日常工作都必须使用灵巧的双手,如穿衣、端盘子、取食物等。Lepora[36]也指出“未来在于一双有触觉的手”。因此,赋予机器人手类人灵巧操作能力可以增强机器人,特别是类人机器人执行复杂任务的应用潜力。这可以促进机器人和人工智能进一步提高生产力,深刻改变人类的生产生活方式,重塑全球产业发展格局。同时,也有研究表明,人类手臂和手的进化极大地促进了人类大脑的进化,是人类进化为高等动物的关键因素之一。因此,研究多指灵巧手的灵巧操作技能学习具有重要意义,可以推动强人工智能的早日到来。

四、灵巧操作的数据收集范式

从机械编程阶段、闭环控制阶段到具身智能阶段,在人工智能的支持下,机器人操作取得了显著成果。海量高质量数据集是当前基于深度神经网络的人工智能框架的重要基石。当人工智能从局限于网络空间的非具身智能扩展到强调与真实物理世界交互的具身智能时,如何获取海量交互数据成为具身智能的关键。如表1所示,收集海量交互数据有三种范式,即:基于仿真平台的数据生成、基于人类演示的数据收集和基于遥操作演示的数据收集。

图片

A. 基于仿真平台的数据生成

面对复杂、多样且高度不确定的应用场景,传统依赖“机器人-环境”交互获取智能的学习方法通常需要数百万次迭代才能学习到有用的技能,效率普遍较低。因此,最常见的方法是通过仿真平台生成大量数据以提高效率。基于仿真平台的数据生成具有一些独特优势。首先,在仿真平台上生成数据可以避免在真实世界中重复实验的高昂成本和潜在危险。其次,仿真平台可以高效、经济且可重复地生成大量具有比较意义的谱系数据。这可以增强数据集的多样性,提高生成数据的质量。最后,仿真平台可以通过改变仿真环境中的时间流速,加快在真实物理世界中可能需要更长时间的数据收集速度。目前,已经开发了一些基于物理引擎的仿真数据集,如Genesis[50]、Isaac Sim、PyBullet[51]和MoJoCo[52]。例如,GraspM3[37]仿真数据集提供了数百万条抓取轨迹,涵盖了使用Shadow Hand对8152个物体的抓取。生成式机器人代理RoboGen[38]可以自动生成多样化的任务、场景和训练监督。Wang等人[39]为Shadow Hand生成了大规模仿真数据集DexGraspNet,包含133类5355个物体的132万条抓取数据。上海人工智能实验室[40]发布了城市级具身智能仿真平台GRPtopia,可以提供89个功能场景和10万条高质量的交互数据用于机器人训练。

这些工作极大地促进了机器人操作能力,特别是抓取能力的提升。然而,这种范式的缺点也非常明显。首先,仿真环境与真实环境之间存在各种偏差,如摩擦建模和空气阻力建模不准确。这不可避免地引入了仿真到现实(Sim2Real)的差距,使得通过仿真数据训练的模型难以直接迁移到真实机器人上。其次,对于一些复杂物体的仿真,如可变形物体和柔性物体,当前物理引擎的性能仍然不尽如人意。而且,对这些物体的计算通常需要大量的计算资源和计算时间。因此,基于仿真平台生成数据的范式仍然难以替代从真实世界收集的数据。

B. 基于人类演示的数据收集

机器人操作的最终目标是赋予机器人类人灵巧操作能力。因此,直接从人类演示动作中学习操作技能成为一种有吸引力的解决方案。尽管基于人类运动演示的数据收集规模无法与仿真生成的数据相比,但与真实机器人的重复试验相比,难度显著降低,并且不需要机器人硬件即可扩大数据收集范围。同时,与仿真生成的数据相比,人类演示数据是在物理环境中产生的真实交互数据,可以大大减小Sim2Real差距。例如,Bahl等人[41][42]提出从互联网上已广泛存在的数十亿视频数据中提取人类运动和关键交互元素,以实现基于人类演示的操作数据收集。Liu等人[43][44]也开发了视觉-触觉融合的人类运动捕捉系统,构建了VTDexManip数据集。这些工作增强了机器人在真实物理环境中的操作能力。

然而,当前的机电系统在传动效率和能量密度方面仍无法与人类肌肉骨骼系统相比。因此,机器人系统与人体之间存在显著的形态差异,特别是人手与机器人手之间。在有限空间内实现与人类手相当的高自由度仍然极具挑战性。当前的机器人灵巧手与人类手在结构上仍有很大差异。例如,Allegro Hand只有四个手指,每个手指都比人类手指大得多。尽管Shadow Hand的手指与人类手一样纤细,但其后部有一个巨大的驱动箱,严重限制了手的可达空间。这些多指灵巧手与人类手的比较如图4所示。很明显,人类手与多指灵巧手在手指大小和结构上存在巨大差距。由于人类和机器人之间存在这些差异,很难将人类演示数据直接复现到机器人上,从而产生了人-机差距。

图片

C. 基于遥操作演示的数据收集

为了解决Sim2Real差距和人-机差距,遥操作机器人系统成为一种更有效的解决方案。遥操作系统可以通过人机共享控制将人类智能融入机器人操作[53],同时严格遵守机器人固有的运动学/动力学约束。这可以有效缓解其他数据收集范式中固有的Sim2Real和人-机差距。近年来,多个团队基于遥操作系统开发了数据采集系统。然而,现有系统仍面临以下问题。首先,当前的遥操作系统大多是仅基于视觉反馈的“弱耦合”系统,缺乏对人类的力觉和触觉反馈。例如,MIT和UCSD联合开发的Open-TeleVision系统[45]、NVIDIA的GR00T[46]系统(利用Vision Pro)以及DexCap系统[47]。但在一些接触丰富的任务中,人类的力觉和触觉经验难以有效融入收集的数据中[54][55]。其次,当前的遥操作系统大多基于两指夹持器,缺乏来自多指灵巧手的高自由度数据集,如Mobile ALOHA[48]和π0[49]。然而,如何在有限空间内实现对具有20多个自由度的人类手部的精确运动捕捉和力反馈仍然是一个具有挑战性的问题[56]。与仅涉及末端执行器力交互的传统遥操作系统不同,多指灵巧遥操作引入了机器人手指与物体之间的多点接触和复杂动态交互。这种复杂性给系统稳定性和透明度分析带来了新的挑战,迫切需要新的理论框架和分析方法。最后,现有遥操作系统的延迟超过数十毫秒,系统敏捷性远远不足。作为机器人领域最早的研究方向之一,传统遥操作系统往往专注于处理长距离通信引起的延迟问题[57]。然而,具身智能操作的数据收集对遥操作系统的敏捷性提出了新的要求。如何确保遥操作系统的敏捷性仍然是一个研究不足的关键问题[58][59]。

五、灵巧操作技能的学习框架

机器人操作技能学习框架主要分为两类:模仿学习(IL)和强化学习(RL)。本节考察了这两种范式的研究现状及其面临的挑战。不同IL和RL的特点如表2所示。

图片

A. 模仿学习

IL可分为两个子类别。第一类是使用高斯混合模型(GMM)和高斯混合回归(GMR)对人类演示数据进行概率建模。在技能再现过程中,对轨迹进行参数化和优化,以匹配学习到的概率模型,确保再现的运动保留人类特征。与深度学习和强化学习相比,这种方法需要的训练数据最少,不需要先验知识,同时避免依赖大型神经网络,具有更好的数学可解释性。常用的方法包括动态运动基元(DMP)[60]、稳定动力系统估计器(SEDS)[61]、概率运动基元(ProMP)[62]、任务参数化高斯混合模型(TPGMM)[63]和核化运动基元(KMP)[64]。然而,这些方法主要适用于简单的轨迹再现,难以处理涉及复杂视觉-触觉信息的交互任务。它们的应用也主要局限于机械臂和两指夹持器的单任务学习,很少扩展到多指灵巧手。

IL的第二个子类别采用深度学习训练模仿人类专家决策的策略网络。与RL不同,这种方法不依赖环境交互或奖励,而是从预先收集的数据集学习。常见的方法包括行为克隆(BC)[65]-[67]、[71]、逆强化学习(IRL)[68]、[69]和生成对抗模仿学习(GAIL)[70]。一个关键限制是,这些方法仅从演示数据中学习静态行为,无法像RL那样超越人类性能。

此外,当遇到训练分布之外的状态时,它们的性能会显著下降,存在鲁棒性问题。

B. 强化学习

强化学习已成为机器人灵巧操作技能学习的主要方法,它能使智能体与环境交互,并通过奖励反馈来优化策略。近年来的研究开发了专门的仿真环境(如用于双灵巧手操作的Bi-DexHands)[72]以及用于机器人控制的强化学习方法。与传统的反馈控制方法相比,强化学习成功解决了一些具有挑战性的操作技能问题[73]、[74]、[85]。然而,将强化学习应用于多指灵巧手存在独特的挑战,这源于其高自由度和复杂的接触动力学[86]。纯粹依赖智能体与环境交互的强化学习往往面临奖励稀疏和样本效率低的问题,通常需要数百万次迭代才能学习到有用的行为。探索过程还可能导致不连贯或不安全的动作,难以实现预期的学习效果。为了提高学习效率,近年来的研究利用预训练模型提取的特征来指导下游机器人任务[75]、[76]。利用现有的预训练模型,结合海量的互联网数据,能够快速高效地学习新任务。在机器人强化学习中,这种预训练范式有一个关键优势:机器人可以通过利用公开可用的数据和预训练模型,以最少的人工干预获取新技能。与模仿学习一样,触觉信息也非常有用。Su等人利用强化学习训练机器人,仅通过本体感觉和触觉信息就能将物体旋转到目标方向[77]。Liu等人提出了一种名为TactileAIRL的新框架,用于机器人灵巧操作的技能学习。该方法将基于模型的技术和内在好奇心融入强化学习过程,利用基于视觉的触觉感知提取有意义的接触特征。这种设计使TactileAIRL能够扩展到许多涉及触觉反馈的操作任务学习中[78]。Zhou等人提出了一种名为T-TD3的强化学习框架,该框架利用触觉先验信息实现对可变形物体的稳定抓取[79]。Aslam等人提出了一种名为DartBot的机器人,它集成了触觉探索和强化学习,通过投掷任务实现了物体传递中的稳健投掷技能[80]。

除了上述方法,为了提高强化学习的学习效率,近年来的研究重点关注将人类先验知识融入强化学习中。一些研究利用高质量的专家演示来加速训练,如Rajeswaran等人提到的DAPG方法[81]。其他研究,如DexH2R[82],采用人在环框架,操作员在训练过程中提供纠正反馈。同样,加州大学伯克利分校的交互系统也采用了这种方法,在学习过程中,系统不断检查人类操作员可能的纠正,如果检测到调整,则离线更新策略[87]。研究表明,这种人类干预能使机器人更有效地从错误中学习,显著提高其性能。尽管这些方法提高了学习效率,但当前的实现依赖于弱耦合、离散的人类监督,而不是连续、紧密集成的指导。

大多数强化学习方法侧重于单任务学习,难以应对需要组合技能的长序列任务。长序列任务由相互关联的单任务组成。然而,强化学习关注最终结果(如最大化奖励或实现目标),难以学习任务之间的过渡条件。近年来的研究开始探索长序列任务中的技能组合,如语言引导的技能组合。Meng等人提出了用于终身学习的LEGION框架,该框架利用贝叶斯非参数模型和语言嵌入方法。这种方法使机器人能够在连续执行任务的过程中增量式地积累知识。通过有效整合和重用已获取的知识,该框架有助于解决复杂的长期任务。然而,这些进展仍局限于简单的夹持器,而多指灵巧手的技能组合研究仍在很大程度上未被探索。对于多指灵巧手,有人提出了Helix框架,该框架结合了系统1(快速反应控制)和系统2(较慢的深思熟虑推理)来模仿人类的认知系统。但这种框架的机制以及如何实现该框架仍存在挑战。如何为多指灵巧手建立技能库,如何实现多种技能的组合,这些都是有待进一步研究的问题。

六、开放挑战与新趋势

赋予机器人类人灵巧操作能力一直是机器人领域研究人员的重要目标。从早期Unimate机器人在结构化工厂环境中执行预编程的抓取和放置任务开始,机器人灵巧操作经历了三个关键阶段:机械编程阶段、闭环控制阶段和具身灵巧操作阶段。尽管每个阶段都取得了显著进展,但机器人的灵巧操作能力仍远不及人类,特别是多指手的操作能力。有几个关键挑战阻碍了其发展,这些挑战总结于图5中、。

图片

首先,多指灵巧手的高质量数据集不足。1)仅通过“机器人-环境”交互构建的数据集信息熵低,通常需要数百万次迭代才能学习到有用的知识。例如,在仿真环境中生成的数据集本身就面临着从仿真到现实的差距,限制了其在现实世界中的应用。2)除了仿真环境生成的数据集外,通过人类演示等其他方式收集的数据存在人-机差距。尽管这些数据集内容丰富,但它们必须应对人类和机器人系统之间的运动学和动力学不匹配问题,这使得从人类到机器人的技能转移变得困难。3)大多数现有的操作技能数据集是基于简单的两指夹持器收集的。而基于高自由度多指灵巧手收集的数据集则不足。4)现有的基于遥操作的数据收集系统可以解决从仿真到现实和人-机的差距。然而,它们也存在一些局限性:i)现有系统仅依赖视觉反馈,导致“人-机器人”耦合较弱。这种方法无法纳入关键的力觉和触觉反馈,严重限制了将人类的触觉经验融入操作任务中。ii)现有系统的延迟通常为几毫秒,对于许多需要敏捷性的精细操作来说速度较慢。

考虑到上述挑战,实现对人类手部20多个自由度的精确捕捉仍然是一个极具挑战性的问题。因此,为了获取多指灵巧手的高质量数据集,一个有前景的趋势是构建具有紧密“人-机器人-环境”耦合的高自由度力触觉敏捷遥操作机器人系统。这样的系统有助于弥合多指灵巧操作中的从仿真到现实和人-机差距。此外,除了视觉模态外,整合其他模态的感知(如力觉、触觉)可以丰富接触信息,从而提高操作性能、。

其次,静态学习框架的鲁棒性较弱。1)当前基于强化学习/模仿学习的操作技能学习框架只能从现有数据集中静态地提取操作技能,无法动态调整所学技能。2)将人类有效融入学习循环也是一个挑战。在现有方法中,人类的监督和指导耦合较弱,无法及时应用于学习过程,难以准确反映人类对技能学习的满意度。3)由于强化学习/模仿学习的机制,当环境或任务超出数据集的覆盖范围时,它们的性能会显著下降。因此,为了克服静态学习框架的局限性,一个有前景的趋势是将人类纳入学习循环,使机器人能够获得更鲁棒的操作技能。然而,挑战在于如何将人类的意图反映到学习循环中。实现这一目标的可行方法是将人类的反馈融入学习循环。人类的反馈可以通过能够反映人类意图的生理特性(如身体刚度、眼动追踪)来量化。在所有生理特性中,身体刚度特别合适,因为它易于获取,并且能很好地反映人类的肌肉活动。利用基于刚度的意图识别,机器人可以及时接收反馈,这有助于技能学习,并促进从人类到机器人的技能转移。

第三,端到端学习框架的泛化能力不足。1)当前机器人操作技能学习主要采用端到端学习框架。然而,这种学习框架存在任务耦合度高和可解释性差等问题。这些问题使得端到端学习框架难以适应长序列任务场景。2)近年来,虽然一些研究开始探索长序列任务的技能组合,但它仍局限于简单的机械臂和两指夹持器结构。关于多指灵巧手的组合技能研究仍处于早期阶段。科学研究[88]表明,人类在学习执行长序列任务时并不遵循端到端框架。相反,当面临长序列任务时,人类自然地进行任务分解,然后自动且无意识地执行基本技能。受这一机制的启发,有人提出了一种新的机器人操作学习框架——Helix框架。该框架结合了系统1(快速反应控制)和系统2(较慢的深思熟虑推理)。然而,尽管提出了上述框架,但该框架的机制以及如何实现该框架仍有待进一步研究。因此,一个有前景的趋势是使机器人能够模拟人类认知系统的组合机制。构建混合智能系统可能是机器人在长序列任务场景中进行灵巧操作学习的可行方法。上述系统集成了上层决策模块,并利用多模态感知作为外部感知。这些能力将促进决策过程、。

七、结论

本综述系统地回顾了灵巧操作领域的最新进展和挑战。依次讨论了机器人操作的历史发展、当前研究的主要瓶颈、当代数据收集方法和学习框架,以及它们各自的优势和局限性。基于最新的进展和挑战,我们认为本综述捕捉了机器人操作的最重要特征。同时,提出了一些未来的思考:赋予多指灵巧手类人操作能力可以增强机器人,特别是类人机器人执行复杂任务的潜力。这一进步将同时推动机器人和人工智能技术的发展,进而显著提高生产力。同时,拓展多指灵巧手的技能学习方法研究可以加深对人类大脑决策功能的理解。这些进展将极大地推动机器人技术的发展,使我们更接近实现真正的人工智能技术和具身智能。

参考文献

The Developments and Challenges towards Dexterous and Embodied Robotic Manipulation: A Survey


技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!