PI联合创始人，机器人大神！详解VLA+强化学习，催生更强大的系统

具身智能之心
2025-07-30 14:02:47

资讯配图

点击下方卡片，关注“具身智能之心”公众号

>>点击进入→具身智能之心技术交流群

更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球(戳我)，这里包含所有你想要的。

7月27日，在2025 WAIC上，由智元机器人主办的「智启具身论坛」如期举办。在其重量级嘉宾阵容中，我们首先编译整理了Sergey Levine的演讲内容，供大家参考：

开端：RT-2的「视觉问答」

“几年前，基于首个机器人基础模型，我的学生凯文·布莱克发送了一个指令——‘把茄子放进锅里’。当时的基础模型运行在远程服务器上，且运行的是一个我们没有开发、也不太清楚工作原理的模型。凯文能够向这个模型发送指令，然后机器人就完成了任务。”

在演讲的开头，Levine回忆道，像这样简单的任务，却已经让凯文研究了很长一段时间。因此，这一指令的成功，让他们看到了新型系统势的能力，以及其不可阻挡的趋势：

“随着我们开发出可远程调用的机器人基础模型，这将释放出一种力量，使任何机器人都能执行任何任务。”

他介绍称，首个机器人VLA模型是RT-2（谷歌DeepMind 于2023 年7 月推出）。RT-2 其实是一个非常简单的模型，它基于能够处理图像的大语言模型，并进一步训练以实现机器人控制，所以它仍属于语言模型，并可以处理「视觉问答」类任务——向它们展示一张图片，问一个问题，模型就会尝试回答问题。

“为了使模型适应机器人操控，我们只需将机器人的规控表述为一个问题，而问题的答案就是应该发送给机器人的电机指令。RT-2基于 PaLI-X 和 PaLM-E两种预训练的VLM，构建出一个相当复杂的VLA模型，它可以执行各种基础的语言指令。”Levine说道。

但是，要充分释放机器人基础模型的潜力，还需要一些其他条件——合适的数据集。

RT-X带来质变

“我认为，朝着这一目标迈出的另一步意义重大，那就是RT-X数据集的开发。”（编者注：DeepMind于2023年发布了RT-X通用大模型，并开放了训练数据集Open X-Embodiment。）

Levine表示，RT-X的数据集是一个跨具身数据集，其数据来自34个不同的研究实验室、22种不同类型的机器人。

在这一数据集中，可以看到各种各样不同的机械臂、场景及任务。如今，这个数据集具备了训练机器人基础模型所需的多样性和可变性的雏形。

“我们通过RT-X发现的一个非常有趣的现象是，基于这些数据训练的通用模型，其表现能够优于那些专门针对特定场景进行调整的专业模型。”

Levine表示，平均而言，跨具身模型在这些实验室中的表现比各自单独研发的模型要好约50%。

“这相当令人振奋，因为每个实验室都在研发最适合自身场景的模型。而这个包含来自所有其他机器人数据的跨具身模型，表现反而更出色。所以，这在一定程度上体现了我们在自然语言处理和计算机视觉等其他领域所期望看到的通用性优势的开端。”

他指出，对于分布外指令（即训练数据中未涵盖的指令），RT-X的表现比仅基于单个机器人数据训练的模型好约3 倍。

VLA的模型的迭代

RT-2实际上是第一代VLA模型，它的设计方法很简单，只是将机器人控制问题构建成问答问题，这是一种相当直接简单的实现方式。

现在，行业已经有了性能好得多的模型，它们能够更出色地处理复杂且多样的任务。Levine对于这些模型也进行了介绍——

首先，从语言模型说起：语言模型是一个大型的Transformer，用于预测文本中后续的Token。

为了让大语言模型也能处理图像，可以将图像嵌入到与文本相同的嵌入空间中，这样就得到了视觉语言模型。

而第一代VLA模型，是简单地将视觉语言模型的输出后缀，替换为用离散Token的机器人指令，来进行训练。

“第一代VLA模型的架构与VLM的架构完全相同。而在开发第二代的VLA模型时，人们意识到动作并非离散Token，而是连续的。因此，第二代VLA模型采用了连续动作分布，通常由高容量的多模态模型来表示，例如扩散模型或流匹配模型。”

这些模型能够利用基础VLM的内部表示，同时生成连续动作，通常是以动作片段的时间跨度形式生成，这意味着它们能同时生成多个未来动作步骤，从而显著提升了性能。

第二代VLA的设计方法

如今，第二代VLA模型有着多种不同的设计方法。但它们有个共同点——都采用了单独的生成机制，这种机制更适合生成连续动作，通常适用于实现更高频率和更灵活精细的控制。

它们拥有专门的连续采样机制，能够专门针对运动控制进行优化，就像是一种虚拟的运动皮层。

在此背景下，Levine向大家介绍了PI（Physical Intelligence）的第二代VLA模型——π0，它基于拥有30亿参数的Polyglot – LLM（多语言大语言模型）开发，并在此基础上增加了动作专家模块。

而且，它们可以采用专家混合模型，即利用不同的权重为不同的Token生成输出。

在π0模型中，有一个独立的动作专家模块，不过这个模块比专门用于生成连续动作片段的基础VLM要小很多。

π0模型的输入根据机器人的具体形态而定，包括1-3张图像和一条语言指令。动作专家模块会关注基础语言模型中的所有内部激活状态，同时处理像关节角度这样的连续信息，并输出一个包含50个时间步的动作片段，其维度足够高，能够控制数据集中的任何机器人。

π0的数据集

现在，π0的模型只是机器人基础模型整体设计中的一小部分，另一部分则是用于训练π0的数据集。

“我们已经收集了一个规模非常大的数据集，包含来自各种不同机器人的约10,000小时数据，并将其与之前收集的数据集（如RT-X的数据集）进行合并。一旦在这个数据集上进行训练，我们就能快速将模型微调至新任务，包括非常复杂的任务。”

Levine展示了一个相关的任务示例——将一个盒子进行折叠，使其完全组装好。从视频来看，只需将盒子放在机器人面前，它便开始工作。

这是一个极具挑战性的任务，因为它需要机器人具备极高的灵活性。而且，在折叠盒子时，机器人需要利用桌面来支撑盒子，并且在恰当的时机正确施力。

资讯配图

不过，Levine坦言，这一方案远非完美，所以有时也会犯错。但它确实能在多种不同的位置成功折叠盒子。根据实际测试，在三项任务中的两项里，通过预训练获得了非常大的性能提升。

据他介绍，现在，π0还能执行较为复杂的任务，例如折叠衣物：它能相当可靠地折叠各种衣物，包括短裤、T恤等等。它会犯一些错误，但最终能恢复过来并正确折叠衣物。

并能在多种不同的环境中完成这项任务，也能用不同的机器人来完成。

“真正令人兴奋的一点是，它能从预训练中吸收大量知识，这意味着它能够从干扰中恢复过来。”

在一些视频中可以看到，在机器人折叠衣物时，旁边的人会在桌上添加衣物、或者去摆弄衣物，但机器人最终都能从干扰中恢复过来。

基于π0的机器人，可以将多个不同的任务，组合成一个连续的的执行过程。例如，机器人可以先把衣物从烘干机里拿出来，带到折叠桌旁，然后按顺序折叠所有的衣物。

π0.5：可执行长期持续任务

至于最新的版本——π0.5，也融合了许多其他功能。

据Levine介绍，π0.5的设计目标，是在全新环境中执行非常长期的任务。例如清理卧室——让机器人进入全新的家中，收拾地上衣物、扔掉垃圾以及整理床铺等。

资讯配图

为了这些长期任务，PI对π0.5增加了高层和低层推理的能力——与直接收简单指令、输出动作的π0不同，π0.5可以接收类似「打扫卧室」这样的高层指令，然后进行高层推理，在任务执行的当前节点选择合适的子步骤；接着，它将这个低层指令传递给模型的其余部分，继续选择合适的动作。

“这也是一种从海量网络数据中进行训练、从而更有效地迁移知识的方法。因为推断这些语义步骤是VLM应该非常擅长的。我们为π0.5使用了非常复杂的任务组合，其中包含了许多不同机器人的数据。同时，我们采用了多种训练目标，包括对问答问题、边界框检测问题以及机器人任务（如预测语义子步骤和预测动作）进行训练。”

在进行总结后，Levine还指出了一点：移动操作类数据仅占 π0.5训练数据集的3%。这类数据很难获取，因为这些机器人都很复杂。

实际上，绝大多数数据（97%）来自非移动机器人形态，包括可以放置在各种不同位置的更简单的机械臂、在实验室收集的机器人数据等等。

尽管如此，π0.5却能在现实场景中进行广泛应用。例如，在真实的厨房里叠毛巾、进行清洁工作等等。这些实验都是在训练数据中未出现过的场景中进行的，是全新的住宅环境。

未来的VLA：与强化学习结合

尽管现在的机器人已经有了通用模型，且该模型在一系列复杂的任务中表现出色，但仍存在一些不足之处。

其中一点不足在于，这个模型完全是通过模仿学习进行训练的，它并没有真正直接针对任务成功、鲁棒性和速度进行优化。

“更具前瞻性的是即将出现的强化学习技术，我们可以将其纳入未来的VLA模型，以大大提高其鲁棒性和性能。”

Levine打了个比方，在训练标准基础模型(比如LLMs和VLMs)时，通常分两个阶段进行：

首先，是预训练阶段，也就是从网络上收集大量数据。这个阶段的目的并非让模型真正地执行任务，而是将大量知识融入模型中。

接着，是后训练阶段，也叫对齐阶段——使用高质量的监督微调（SFT）数据集，或者采用某种强化学习方法。这一阶段的目的不一定是获取新知识，而是专门教导模型如何执行用户的任务，以及如何稳健、高效地执行这些任务。

资讯配图

“我认为，在机器人基础模型中，我们也会看到同样的阶段划分，会有预训练阶段和后训练阶段。在后训练阶段，目标是利用强化学习和高质量数据，让机器人能够出色地完成各项任务。”

Levine表示，经过过去几年的研究，他们发现现实世界中的强化学习，能够通过「带先验数据的RLPD算法」变得非常高效。

资讯配图

它是一种离策略（off - policy）的演员- 评论家（Actor - Critic）方法，且通过示范数据进行初始化。

例如，主要观测数据来自机械臂腕部摄像头的原始图像，使用预训练的视觉编码器至关重要。

而奖励机制由一个图像分类器构成，该分类器只需判断机器人是否成功完成任务，因此这是一个非常稀疏的奖励。

因此，为了提高效率，也可以将人工干预纳入系统，即当机器人任务失败时，人员可以介入并提出修正建议，这既能提供额外的奖励信号，也能提供额外的数据。训练过程中的人工干预，能让学习过程高效得多。

这就像一位老师，在指导机器人如何执行任务的同时，也让它自己尝试完成任务。这套系统在学习各种单个任务时非常有效。

Levine指出，VLA是一种通用型架构，而强化学习（RL，Reinforcement Learning）系统实际上是一个用于训练「专家」的系统，不过它也能为各种广泛的任务训练出非常出色的专家。

这些任务包括给齿轮安装正时皮带、组装家具、翻煎蛋，还有一些高度动态的任务。这些都是相当复杂、难以学习的任务。

将VLA与DLA整合互补

VLA的这种能力与DLA（Deep Learning Architecture）具有很强的互补性，PI真正想做的是将它们整合在一起。这样，专家数据就可以指导通用型体系，使其变得更出色。

从视频演示来看，当机器人给齿轮安装正时皮带时，即便面对干扰，机器人也恢复得相当专业。

“目前，如何将这些专家整合到一个通用型体系中，仍然是一个尚未解决的问题。不过，我们已经朝着解决这个问题迈出了初步的步伐。”

其中一步所采用的方法，即为RLDG（编者注：Robotic Generalist Policy Distillation via Reinforcement Learning，一种通过强化学习蒸馏提升机器人通才策略的方法）。该方法直接利用强化学习Agent，来生成用于训练VLA的数据。

“我认为，就这类研究而言，目前仍处于早期阶段，但我认为它极具潜力。在我们的RLDG原型中，成功训练出了用于插入各种连接器的专才策略，比如VGA连接器、USB连接器等等。”

之后，Levine利用来自这些「专家数据」对VLA进行训练，结果发现，VLA能够将这些所学知识泛化到全新的Agent上。类似叠衣服、搭盒子那样的任务，只是初步的进展。

“未来，我们会在将强化学习与VLA相结合，并取得大量进展。这或许会催生出性能更可靠、更出色的系统。”

他认为，目前已经出现了非常高效的强化学习算法，以及将强化学习技能提炼到VLA中的方法，但仍存在一些尚未解决的问题。

“我们仍然没有一套稳定、有效且可靠的端到端训练流程，用于借助强化学习训练VLA。我认为，在借助VLA促进探索和随机应变能力，以切实辅助强化学习上，我们还有大量的系统构建工作有待完成。”

更多内容欢迎加入我们的具身智能求职社区，具身智能之心知识星球，和近2000人、200家公司机构成员交流！

声明：本文内容及配图由入驻作者撰写或合作网站授权转载。文章观点仅代表作者本人，不代表科技区角网立场。仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。点击这里

机器人

点赞 (0)
分享
微信扫一扫
加入群聊
扫码加入群聊