点击下方卡片,关注“具身智能之心”公众号


编辑丨具身智能之心

本文只做学术分享,如有侵权,联系删文



>>点击进入→具身智能之心技术交流群

更多干货,欢迎加入国内首个具身智能全栈学习社区具身智能之心知识星球(戳我)这里包含所有你想要的。

出发点与工作背景

视觉 - 语言 - 动作(VLA)模型是机器人技术的变革性突破,其核心是将视觉感知、自然语言理解与具身控制整合到单一学习框架中。本综述聚焦机器人操作与指令驱动自主性,全面梳理了 102 个 VLA 模型、26 个基础数据集和 12 个仿真平台,它们共同推动了 VLA 模型的发展与评估。模型被归为不同架构范式,体现了视觉、语言和控制在机器人系统中整合的多样策略。对于基础数据集,基于任务复杂性、模态多样性和规模建立新评估标准,还通过二维框架按语义丰富度和多模态对齐进行组织,揭示了数据领域的未探索区域。仿真环境的评估围绕大规模数据生成效率、虚实迁移能力及任务多样性展开。综合学术与工业界成果,明确了当前挑战,并指出可扩展预训练协议、模块化架构设计和稳健多模态对齐策略等发展方向。本综述兼具技术参考价值与概念路线图意义,涵盖从数据集生成到通用机器人代理现实部署的全流程见解。相关 VLA 模型、数据集和模拟器的总结可参考公共存储库:https://github.com/Muhayyuddin/VLAs。

一些介绍

人工智能与机器人技术的发展,智能体与物理世界的交互成为研究核心。具身智能强调通过与环境的物理交互实现感知、行动和认知,使机器人能基于物理世界反馈调整行为与认知,是通往通用智能的重要部分,其意义不止于物理任务执行,更通过感官输入、运动控制和认知处理的闭环整合,构成真正自主性和适应性的基础。在智能机器人广泛部署于养老护理等现实场景的背景下,其在动态不确定环境中自主安全运行的能力至关重要,而建立科学合理的机器人智能分级系统需求迫切。尽管近期有相关评估方案、标准及综述,但缺乏整合智能认知、自主行为和社交交互维度的综合分级系统。为此,该工作提出智能机器人能力分级模型,包含从基本机械执行到高级完全自主社交智能的五个渐进级别(IR-L0 到 IR-L4),涵盖自主性、任务处理能力等关键维度,为评估和指导智能机器人发展提供统一框架。如图 1 所示,开发此类模型的趋势正在不断增长。

有效的 VLA 模型开发依赖于大规模、多样化的多模态数据集和逼真的仿真平台,这对训练能稳健理解语言指令、感知视觉环境并生成有意义动作序列的模型至关重要。例如,Open X-Embodiment数据集以共享动作空间统一了 22 个机器人实体和 500 多个任务的数据,支持 RT-1-X 等基础模型预训练,增强跨机器人泛化能力;DROID 数据集利用互联网规模数据,结合人类标注语言与复杂操作场景的机器人视频演示。这些数据集推动了 VLA 训练和基准测试的数据生态,使其能在家庭和工业环境中学习各类任务,并提供演示轨迹、对象状态转换、多样化自然语言提示等丰富标注。但现实世界数据收集劳动强度大、成本高且多样性有限,凸显了仿真的重要性。

仿真环境能在多种设置、对象类型、光照条件和代理实体中扩展数据生成。Habitat、Isaac Gym和 RoboSuite等平台提供可编程、逼真的环境及物理交互,助力模仿学习和强化学习。iGibson、AI2-THOR等工具新增对以人为中心、自然对象排列的室内环境的支持,提升语义真实性。仿真可自动生成动作轨迹、对象状态、自然语言指令等多模态标注,这对对齐视觉、语言和运动模态关键。近期研究还强调与任务语义对齐的合成语言生成(如 VLN-CE、ALFRED),以保证语言多样性和指令复杂性。因此,整合仿真与大规模合成数据集对构建稳健、可扩展且适用于现实部署的 VLA 系统至关重要。

该领域发展迅速,大量架构、数据集和框架不断涌现。尽管研究成果增多,但文献中仍缺乏对架构基础、基准数据集、仿真平台及评估协议的全面系统综合,而这些共同塑造了当前 VLA 格局。明确当前技术水平,识别新兴模式、局限性和机遇至关重要。本研究将作为技术参考和概念路线图,加速具身基础模型和通用机器人智能的研究。

视觉 - 语言 - 动作模型

VLA 模型是机器人智能的新前沿,能让机器人感知视觉环境、理解自然语言指令并执行有意义的动作,弥合了图像、传感器数据、人类指令和低级机器人控制指令等多模态输入的语义差距。在非结构化和动态环境中,传统基于规则的编程不可行,VLA 架构尤为重要,它借助深度学习、表征对齐和顺序决策,实现物体操作、导航和交互等任务的泛化。

VLA 架构

图 7 所示的 VLA 架构代表了一种端到端的框架,是 RT-2、OpenVLA、CLIP-RT、Octo和 RT-1等领先 VLA 系统的典型代表,这些系统均采用基于 Transformer 的视觉和语言骨干网络,并通过跨模态注意力机制进行融合。

该架构将视觉、语言和本体感受三个并行编码器流统一到生成控制命令的传输扩散骨干网络中。视觉编码器(如 ViT、DINOv2)处理工作空间原始图像,生成固定长度特征tokens;语言编码器(如 PaLM、LLaMA)将自然语言指令(无论高级目标还是详细步骤)tokenize并嵌入同一维度空间;状态编码器通过 MLP 或小型 Transformer,将机器人本体感受和运动学状态嵌入为额外tokens,辅助可达性推理、避撞和反馈校正。

所有tokens拼接后输入 Transformer 模型生成动作嵌入,可采用扩散策略(如 Diffusion Policy、VLAFlow 中对噪声潜在轨迹迭代去噪)或直接策略(单次传递预测嵌入)。推理时,动作嵌入经轻量级输出头或完整扩散采样,转换为连续控制信号(如末端执行器速度、关节扭矩),部分实现中还可解码为想象的下一帧图像,形成闭环执行的 “想象并验证” 循环。

OpenVLA、Octo 等模型进一步整合本体感受tokens,PerAct、Helix 等系统支持实时反馈循环持续校正。这类架构发展迅速且具即插即用的模块化特性,可替换更强的 ViT、更大语言模型或更具表现力的扩散采样器,为通用机器人系统的指令驱动自主性开辟新方向。

架构趋势

图 8 展示了 VLA 模型组件的综合分类法,围绕视觉编码器、语言编码器和动作解码器三个关联模块构建。视觉编码器中,基于 CLIP 和 SigLIP 的编码器因对比学习带来的强视觉文本对齐能力受青睐,应用于 CLIPort、RevLA、Edge VLA 等模型;DINOv2、Qwen2 VIT 等 ViT 变体因能建模长距离空间依赖和高级视觉语义,用于 Gato、Octo、HybridVLA、Chain-of-Affordance 等模型;ResNet、EfficientNet 等基于 CNN 的编码器则出现在 CLIPort、ACT、RT-1、QUAR-VLA 等模型中。

语言编码器架构多样:LLaMA 和 Vicuna 系列用于 RevLA、OpenVLA 等模型,支持指令理解和零样本推理;T5 风格模型应用于 VIMA、Octo 等,提供灵活的编码器 - 解码器结构;GPT 和 Qwen 系列在 VoxPoser 等模型中平衡泛化能力与紧凑部署;Gemma-2B 用于 Pi-0、FAST;CLIP 文本编码器则在 CLIPort 等中完成基础对齐任务。

动作解码器中,基于扩散的 Transformer 是 Octo 等模型首选,通过迭代去噪实现细粒度、平滑控制;自回归 Transformer 头在 Gato 等中逐步生成动作序列,优化实时响应;VoxPoser 等模型嵌入模型预测控制或规划头支持动态决策;MLP 或tokens预测器头用于 OpenVLA 等实现高效低级控制。

对 VLA 架构的评估显示,各核心组件算法丰富:视觉编码器多采用 CLIP 和 SigLIP 基于的 ViT 骨干网络;语言领域以 LLaMA 家族为主;动作解码中基于扩散的 Transformer 头因建模复杂多模态动作分布能力最受青睐。数据方面,虽多依赖私人操作演示,但 Open X-Embodiment 是最广泛使用的公开数据集。

VLA 训练数据集

VLA 模型依赖高质量、多样化的训练数据集,它们让模型接触真实与模拟环境全貌,确保视觉、语言指令和控制的紧密结合,使模型能学习复杂跨模态相关性(如 “轻轻放置” 对运动平滑度的影响),无需依赖手动编写的启发式方法。本文先介绍 VLA 训练管道的统一数据集架构,再调查最具影响力的公共数据集,最后通过全面基准测试策略评估各数据集的规模、模态覆盖范围和复杂性。

数据集格式

图 9 展示了 VLA 训练管道中常用的通用数据集格式的结构化概述。它突出了多模态数据系统地组织为三个主要流:视觉、语言和动作 / 控制,这些共同促进了 VLA 模型的训练和评估。

视觉流包含原始 RGB 帧、视频片段及可选的深度图和分割掩码,为感知模块提供空间和上下文数据,以 JPEG、PNG 等图像格式或 MP4 等视频格式存储。语言流结合自然语言指令或对话与分词数据,对指导机器人动作至关重要,以 JSON 或纯文本等结构化格式存储,便于高效文本处理及与 Transformer 语言模型集成。动作 / 控制标签包括 “向前移动” 等离散动作标记和关节位置等连续控制向量,为模型输出提供监督信号,存储为 NumPy 数组或编码在结构化数据容器中。三模态流集成到标准化情节级目录(如 episode/),视觉数据在 rgb/、depth / 等子目录,配 lang.json、actions.npy 和 states.npy。每个情节文件夹可序列化为 JSON(轻量可读元数据)、TFRecord/TF-Example(高通量分片训练)或 HDF5(高效随机访问同步数组),平衡训练管道的可读性、I/O 性能和可扩展性。

主要 VLA 数据集

早期的 EmbodiedQA、R2R 等数据集聚焦受限环境中的离散决策,提供简单状态 - 动作映射,适用于评估 PACMAN 等基线策略架构。2020-2022 年,ALFRED、RLBench、CALVIN 等数据集引入更长时间跨度的任务,以及融合 RGB、深度、本体感受和自然语言指令的更丰富感官流,用于测试 C2F-ARM 等分层规划和子目标分解方法,这些中期数据集弥合了符号规划器与端到端学习的差距,可在模拟动力学下对基于模型的控制与学习策略进行比较分析。2023 年起,该领域转向真正的多模态控制挑战。DROID、Open X-Embodiment 等数据集嵌入同步的 RGBD、语言和多技能轨迹,便于评估传感器融合策略和实时反馈控制器;Ego4D、CoVLA 等大规模以自我为中心的语料库提供真实世界视觉流,推动不可预测动力学下鲁棒感知 - 动作循环的研究。近期富含接触的数据集如 ARIO、TLA 等,将高频触觉和力 / 扭矩反馈与视觉、语言集成,实现可变形物体操作的细粒度阻抗控制和混合模型预测方案。Kaiwu、PLAICraft 等高度多模态和大规模数据集,支持具有触觉、音频等多样化传感器套件的开放式、长时间跨度及真实世界任务。这些数据集通过标准化注释格式(HDF5 包等),并配对 SayCan 等代表性基线。

基准 VLA 数据集

为了进行基准测试,我们将每个主要的 VLA 数据集映射到一个由任务复杂性和模态丰富度构成的二维平面上,如图 10 所示。x 轴反映了每个数据集的操作任务的挑战性,范围从简单的单步动作到长时间跨度、多技能的序列。y 轴表示模态丰富度,从最小(双模态:文本和图像)到全面(包括音频、视频、机器人本体感受、控制、深度、触觉和语言等多达七种模态)。

为了系统地量化这些维度,我们为每个数据集分配标量分数,以反映其任务复杂性和模态丰富度。任务复杂性,记为 ,包括:

  • 每个情节中低级动作的平均数量(T):这反映了在一个典型任务中组合在一起的原始控制命令的数量(例如,抓取、提起、移动)。
  • 不同高级技能的数量(S):这列举了不同的语义子任务(例如,打开抽屉、拿起物体)。
  • 顺序任务依赖程度(D):这表示需要严格子任务顺序的任务的比例;D ∈ [0,1]。
  • 语言抽象水平(L):量化指令集的平均语言复杂性(例如,词汇量大小或句法深度);L ∈ R⁺。 这些属性通过以下加权模型进行整合:

其中,对于 i = 1, ..., 4, > 0 是将每个项归一化到相应尺度的权重,可以进行调整以反映对动作长度、技能多样性、顺序结构或语言复杂性的重视程度。在我们的基准测试中,我们将所有权重设置为 1。

模态丰富度,由分数  表示,整合了四个反映感官输入范围和质量的因素:

  • 不同模态的数量(M),如视觉、深度、触觉和语言。

  • 平均质量,其中对于 i = 1, ..., M,是特定模态的质量分数。可以通过专家注释、自动信噪比分析或根据数据集文档和先前的基准研究来确定。在本研究中,我们使用经验审查和已发布的规范相结合的方法,在 [0.6, 0.95] 范围内分配分数,反映了公共数据集的典型范围。

  • 跨模态时间对齐的保真度(A),衡量模态之间的同步紧密程度(例如,帧精确的视觉 - 语言配对),A ∈ [0,1]。

  • 推理关键模态的存在(R),如对象掩码或场景图,能够实现更高级别的推理,R ∈ {0,1}。

这个评分机制被形式化为:  其中,模态敏感度权重  > 0(i = 1, ..., 4)调整模态数量、信号质量、时间对齐和支持推理的注释的相对重要性。在我们的基准测试中,我们将所有权重设置为 1。最后,为了便于在不同的基准测试之间进行直接比较,对原始分数进行了归一化处理。任务复杂性归一化到标准化的 [1, 5] 尺度,模态丰富度归一化到 [2, 5] 尺度。这种映射确保了可解释性:具有最低复杂性或模态丰富度的数据集获得 1 或 2 分(“非常低”/“最小”),最高的获得 5 分(“非常高”/“全面”),中间值反映了相应的位置。气泡大小则编码了相对数据集规模(例如,情节数量或小时数),提供了对领先的 VLA 基准测试的范围和全面性的直观总结。得到的可视化有效地对数据集进行了分类,同时也突出了当前基准测试中存在的关键差距,特别是结合高度复杂任务和广泛多模态整合的代表性不足的区域。这一差距凸显了未来数据集开发的一个有前景的方向,旨在推进能够进行复杂现实世界感知和规划的真正通用机器人代理的发展。

基准测试分析

图 10 显示,当前多数 VLA 基准测试分布在 x 轴(任务复杂性,从低到高)和 y 轴(模态丰富度,从最小到丰富)的范围内。早期导航和问答数据集(如 EmbodiedQA、R2R)任务复杂性极低、模态最简化,对应受限环境中的简单离散决策;中期数据集(如 RLBench、Ego4D)多为低到中等复杂性、中等模态丰富度,侧重导航、基础操作等有限模态任务。

随着发展,ALFRED、REASSEMBLE 等数据集进入中等复杂性、丰富模态区域,整合深度、语言等额外感官流,可评估复杂策略学习与多步骤规划;Iref-VLA、Open X-Embodiment 等少数数据集兼具高复杂性和丰富模态,各有侧重(如 Robo360 聚焦多视图视觉保真度,TLA 侧重接触丰富的装配对齐)。

Kaiwu 是唯一位于两轴极端的数据集,兼具极高任务复杂性和最全面模态(含视觉、触觉等);AgiBot World 在极高复杂性象限中模态多样性中等,强调大规模长时间双臂任务。当前存在关键差距:VLA 基准测试尚未完全整合长时间跨度、多技能控制与详尽多模态输入(如音频、场景图),限制了通用机器人代理开发。未来需聚焦右上象限,创建高任务难度、高模态多样性的新基准,加速通用具身智能发展。

仿真工具

仿真环境是 VLA 研究的重要部分,能生成规模远超物理世界的大规模、可重复且标注丰富的数据。AI2-THOR、Habitat、NVIDIA Isaac Sim 等现代平台具备高精度物理效果、逼真渲染和可定制多模态传感器(含 RGBD 相机、力 / 扭矩探测器等),并配有精细时间分辨率的语言接口。

仿真器通过程序性场景生成等方式,可自动合成数十万条轨迹,附带对象姿态、语义地图等精确标注。其内置场景脚本和领域随机化工具包有助于研究不同条件下的泛化能力,轻量级 GPU 加速后端支持新数据集快速迭代。总之,VLA 仿真器生态系统加速了控制算法与基准数据集的协同开发,确保多模态感知等方面的进展能在受控、可复现框架中评估完善后,再部署到真实机器人平台。

表 3概述了用于生成 VLA 数据集的当前最先进的仿真平台。该表总结了每个仿真器支持的感官模态、主要用例、核心能力以及依赖它们的数据集。这些工具涵盖了从逼真室内导航、灵巧操作到大规模强化学习等多个领域,物理真实性程度各不相同。

AI2-THOR、Habitat 等平台提供逼真的 RGB、深度和语义流,适用于具身导航和视觉问答基准(如 ALFRED、R2R)。NVIDIA Isaac Sim、Gazebo 等支持激光雷达、IMU 等,对大规模强化学习、虚实迁移和多代理协调至关重要(如 Open X-Embodiment)。

PyBullet、MuJoCo 等接触丰富型仿真器能提供精确力、扭矩和触觉反馈,支持 DexGraspNet 等灵巧操作数据集。Unity ML-Agents、RoboSuite 等新兴平台强调 GPU 并行展开等能力,可创建含视觉、语言等多模态的下一代 VLA 数据集。

该表映射 15 个仿真器的四方面特性,为选择数据集生成后端提供参考,阐明渲染质量与处理速度的权衡,识别仿真器功能可增强的差距,以促进更详细的 VLA 基准测试。

视觉 - 语言 - 动作模型的应用与评估

应用领域

表 4 将 VLA 模型分为六个广泛的应用领域,以下对这些领域进行说明。

操作与任务泛化领域涵盖的模型将视觉感知和语言指令统一为单一控制策略,用于从简单抓取、放置到复杂装配的各种对象级任务,重点是在有限再训练的情况下保持对新对象、配置和机器人模型的适应性。自主移动领域中,模型将高级语言目标转换为轮式、腿部或空中平台的安全、高效导航计划。它们结合场景理解(识别地标、障碍物和路点)与运动规划,以遵循口头或书面导航指令。在人类辅助与交互应用领域,智能体解读人类命令和上下文以执行协作任务,处理工具、应请求操作家用对象,或通过多轮对话自动化图形用户界面工作流程,在与人协作时优先考虑响应性和安全性。机器人平台类别专注于特定硬件(四足机器人、类人机器人、定制机械臂)的控制器模型,整合了平台感知的感知和动作模块,这些模块考虑每个机器人的运动学、动力学和传感器能力。虚拟环境包括纯软件智能体,用于自动化图形用户界面、玩视频游戏或作为基准测试框架。该领域凸显了 VLA 技术如何在模拟或桌面环境中超越物理机器人进行泛化。边缘和低功耗部署专注于为 CPU 或嵌入式处理器上的即时推理优化的轻量级架构,表明成功的 VLA 集成可以在有限的计算和能源约束下运行。

VLA 模型的选择与评估

由于操作和任务泛化仍然是 VLA 研究中的主要挑战,我们选择了十个最能体现高操作技能和广泛任务泛化能力的模型。这些模型的选择依据如下:(1)任务覆盖的广度,包括处理未见过的问题的能力;(2)对新实体和环境的零样本或少样本泛化能力;(3)稳健的真实机器人验证;(4)融合或解码机制的架构新颖性;(5)关于推理速度和资源使用的计算实用性。

我们的评估框架采用三个标准化指标:成功率、零样本泛化能力和真实机器人验证,以便在不同 VLA 架构之间进行直接比较。表 5 总结了十个代表性模型,列出了每个模型的名称及其主要基准数据集。成功率列将平均任务完成度分为高(≥90%)、中(70-90%)或低(<70%)。零样本能力估计中,在未见过的任务上成功率≥80% 为高,50-80% 为中,<50% 为低。最后,真实机器人部署表明模型是否已在物理硬件上验证(是)或仅在模拟中(否)。这种统一的指标框架允许在架构和数据集之间进行直接比较。

RT-2 通过在互联网规模 VQA 数据和机器人轨迹上共同微调,实现跨多机器人数十项任务的零样本迁移;Pi-0 表明轻量级 3B 参数模型能在 200Hz 以上运行且泛化到新任务和机器人;CLIPort 利用 CLIP 增强的传输图引入密集语义接地,在桌面操作任务上获最优结果;VIMA 证明单一基于提示的多模态策略可在统一模型中执行六项接地任务;RoboAgent 通过动作分解和语义增强,在真实厨房环境实现高成功率泛化;OpenVLA 提供 LoRA 微调的开源方案,以低开销匹配竞争性能;Octo 首次在 22 个机器人平台的 400 多万条轨迹上训练基于扩散的通用策略,实现稳健虚实迁移;DexVLA 用插件式扩散专家快速适应不同实体;TLA 引入首个语言 - 触觉模型,在接触丰富任务中成功率超 85%;Gato 建立统一tokens策略,涵盖视觉、语言和机器人控制,零样本迁移能力强。

这些模型体现 VLA 领域两大发展轨迹:一是大型通用架构(如 RT-2、Octo 等),用大规模 Transformer 骨干和扩散解码器,在数百万条多样轨迹上训练,零样本泛化能力强;二是模块化和任务专用系统(如 DexVLA、CLIPort 等),通过目标模块提升特定操作技能的稳健性和数据效率。这表明规模和预训练带来广泛泛化能力,而专用管道对弥合虚实差距、实现高精度现实性能仍至关重要。

挑战与未来方向

架构挑战

VLA 模型依赖统一 Transformer 骨干网络处理高分辨率图像、视频帧及自然语言指令,输出特定平台动作命令,这种端到端方法面临源于机器人控制异质性、规模和物理多样性的核心架构挑战。

分词与词汇对齐:VLA 模型需处理自然语言、图像块和连续机器人状态等异质输入,而文本 BPE、视觉固定块嵌入等标准技术难以捕捉视觉和本体感受信号复杂性,导致tokens分布不一致和跨模态注意力退化。近期方法通过统一tokenization 方案解决,如 Perceiver IO 用共享潜在数组融合多模态,BLIP-2 引入 Q-former 选择兼容语言模型的视觉tokens,基于适配器的量化层实现各模态流灵活离散化。但仍存在高效编码高维传感器流、动态调整词汇表、低延迟tokens生成及设计可解释tokens空间等挑战。

模态融合:简单连接视觉和语言特征或基础跨注意力难以对齐像素级和词级表示的不同统计特性,导致视觉接地较弱。近期进展采用 “先对齐后融合” 范式,如基于动量的对比学习预对齐视觉和语言模态,VLMo 在 Transformer 块中引入多模态专家层自适应平衡各流贡献。但仍面临有效融合异步感官流、整合力 / 扭矩等额外模态、域转移下动态重新加权模态重要性、提高跨注意力层可解释性及实现低延迟资源高效融合等挑战。

跨实体泛化:固定动作词汇表和刚性运动学绑定限制 VLA 模型在不同机器人模型间的迁移能力。近期方法通过将动作生成与机器人特定描述符或可供性模型条件化解决,如 PaLM-E 编码显式硬件嵌入,RT-2 冻结视觉 - 语言规划模块并委托特定实体控制给轻量级动作适配器,DexVLA 用扩散专家模块实现即插即用跨实体适应。但仍存在全新机器人模型零样本泛化退化、仿真到现实迁移不稳定及生成适配不同平台的平滑兼容轨迹等问题。

操纵器运动平滑性:许多 VLA 模型忽略连续运动轨迹质量,而这对平滑、安全和精确操作至关重要。近期方法如 Diffusion Policy 将视觉运动控制重构为条件去噪过程,扩散 Transformer 策略将大型 Transformer 架构集成到扩散框架,提升稳定性和泛化能力。但仍面临用延迟敏感扩散模型实现实时推理、确保稳健避撞、平衡轨迹平滑性和快速反应及耦合扩散控制器与高级语言规划器等挑战。

数据集挑战

全面、多样且组织良好的数据集是 VLA 模型开发的基础,但当前数据集存在显著限制,阻碍稳健通用 VLA 模型发展。

任务多样性:现有数据集高度专业化,多聚焦狭窄、短视距任务(如 ALFRED、CALVIN 侧重抓取放置,R2R 专注导航),极少整合需空间推理、导航和细粒度操作的长视距任务规划,限制了智能体在现实场景中无缝切换移动与操作任务的能力。

模态不平衡:多数数据集以 RGB 图像和文本注释为主,常缺失深度图、力 / 扭矩信号等关键传感器模态,即便存在,采样率或分辨率也不一致,制约了能在环境不确定性下实现稳健传感器融合的模型发展。

注释质量和成本:获取准确标签需大量资源和时间,依赖手动注释或不可靠半自动管道;仿真环境虽能提供大规模完美注释,但域差距降低虚实迁移效果,且当前自监督和自动标记方法在不同任务域中仍不可靠。

真实性和规模:Open X-Embodiment 等真实世界数据集保真度高,但受成本和时间限制,记录时长有限;仿真平台可高效生成数百万条轨迹,却难复制复杂现实动态,这种真实性与规模的权衡是模型泛化的瓶颈。

解决这些限制需协同努力,包括建立长视距跨域基准、收集丰富同步的多模态数据集、通过自监督和自动化降低注释成本、借助混合仿真 - 真实数据管道弥合真实性 - 规模差距,这对 VLA 模型具备现实部署所需的稳健性和适应性至关重要。

仿真挑战

仿真器为 VLA 模型生成训练数据提供了可扩展、可控的环境,但要确保仿真性能可靠迁移到现实世界,需解决以下关键限制。

物理准确性和接触建模:MuJoCo、PyBullet 等流行物理引擎依赖基础库仑摩擦模型和点接触近似简化物理交互,虽实现稳定快速仿真,却无法捕捉软体变形等关键动态,导致仿真训练的策略在现实中表现不佳,出现对象滑动等问题。

视觉真实性和吞吐量权衡:AI2-THOR 等低保真平台渲染逼真、资产多样,适合视觉密集型任务,但帧率低、GPU 需求高,限制大规模强化学习等应用;轻量级渲染器支持高通量仿真,却在纹理等方面存在域差距,降低域随机化策略的现实部署有效性。

缺乏内置语言接地 API:多数仿真器不原生支持将自然语言命令接地到智能体行为,需创建自定义注释管道(如 ALFRED、TEACh),这引入开发开销,限制可重复性,导致数据格式碎片化和非标准化。

多机器人和智能体支持能力:不同仿真器对多机器人的支持差异大,Isaac Sim 等平台可灵活导入机器人描述,促进多机器人协调;Webots 等平台针对特定机器人系列优化,限制泛化和可重用性,使跨平台预训练复杂化,损害跨硬件设置的可重复性。

克服这些挑战需推进富接触物理建模、优化渲染管道兼顾保真度和吞吐量、开发标准化语言接地接口及统一多智能体仿真支持,这对生成真实、可扩展且可迁移的数据集以训练通用 VLA 模型至关重要。

未来方向

为推进下一代 VLA 模型,未来系统应整合可学习的模态感知分词器(如向量量化 VAE、神经字典),联合离散化连续传感器流(如本体感受、力 / 扭矩)及视觉和文本输入;通过动态融合块(如门控网络)基于任务需求重新加权各模态,提升灵活性与稳健性;采用分层架构扩展长序列,由轻量级前端下采样高帧率输入,再传递给稀疏 Transformer 层高效建模长程关系;将基于扩散的轨迹生成器与可微分安全过滤器集成,生成与任务规划对齐的平滑运动。

数据集方面,仿真器中的程序性任务语法可自动生成长视距、开放式场景;需用标准化多模态捕获管道,以兼容采样率同步多模态流,通过跨模态合成增强缺失模态;借助自监督等技术减少注释负担,自动提取对象掩码等信息;利用混合合成 - 真实管道弥合真实性 - 规模差距,提升仿真数据对物理环境的泛化性。

仿真平台需通过可微分接触模型改进物理保真度,处理软体变形等;采用混合渲染管道在不牺牲速度的前提下保证真实性;建立仿真器无关的语言接地 API,直接映射自然语言指令与场景图、智能体行为;支持多机器人和多智能体场景,自动导入模型并共享协议,实现异构平台上的一致策略预训练。

结论

视觉 - 语言 - 动作(VLA)模型通过整合学习策略结合感知、语言和动作,正改变机器人智能体的操作范围。本综述从架构设计、数据集生态系统、仿真平台和评估方法四个关键维度系统梳理了当前 VLA 领域,分析显示能响应多模态输入、遵循指令的智能体发展迅速,在任务、实体和环境间的泛化能力不断提升。尽管进展显著,该领域在可扩展预训练、仿真到物理环境的可靠迁移及安全关键场景中透明决策等方面仍面临关键挑战。

解决这些限制需在可组合学习系统、数据高效适应策略及基准测试和部署标准化流程等方面取得突破。VLA 研究的未来在于将基础模型与现实应用结合,使智能体在复杂开放环境中推理、行动和适应。本综述通过综合核心架构原理、学习范式和部署基础设施提供支持,同时概述了能塑造下一代视觉 - 语言接地机器人智能的开放性问题。

参考

[1] Vision Language Action Models in Robotic Manipulation: A Systematic Review