【自动驾驶】自动驾驶典型VLA架构

1、Waymo EMMA：开创性的端到端多模态自动驾驶模型

作为早期开创性模型，EMMA 模型架构较为简单，主要由编码器+大语言模型构成。感知部分，EMMA 模型开创性的同时处理文本（导航指令、自车历史状态）、图像（摄像头视频感知）等多模态输入，并利用视觉-语言框架将所有的输入和输出表示为普通文本，将驾驶任务转化为视觉问答（VQA）问题，充分利用其 Gemini 大语言模型储备的大量知识，更好的理解驾驶任务中的动态变化；推理输出方面，为了增强模型的推理能力使之更符合自驾需求，EMMA 对原有大语言模型进行了微调，通过混合训练来实现更多自驾能力，具体而言，其将感知任务拆分为空间推理、道路图估计、场景理解等多个子任务，使微调的LLM模型能够更好的生成各种运动规划和驾驶控制信号。

EMMA 框架具有三大特性。1）EMMA 将所有的输入和输出表示为自然语言文本形式，所有任务共享统一文本表示空间，可以最大限度的调用语言模型的知识储备并提供了将其余驾驶任务继续融入系统的拓展性；2）引入 CoT 增强模型的可解释性，EMMA将CoT融入到轨迹生成中，要求模型在预测时阐明相关理由，例如将推理过程结构化为场景描述、关键物体描述、关键物体行为描述、驾驶决策输出四个子任务，数据集测试结果显示，引入CoT的模型相较于基准模型整体性能提升了 6.7%，在驾驶决策和关键物体识别的能力上分别提升3.0%和 1.5%；3）自监督模型，模型训练唯一需要监督数据的是自车未来位置，其余数据不需要专门人工标签，提高了数据来源的可拓展性。

EMMA 在公开数据集的开环测试取得了较好效果。EMMA 采用最小尺寸基座模型Gemini1.0 Nano-1 分别在 WOMD 和 nuscens 数据集上进行了端到端轨迹预测的测试。在WOMD数据集中，经过内部预训练的 EMMA+模型在短时间窗口上的ADE（平均位移误差）性能超越了基准模型，但在较长时间窗口表现较差，主要是 EMMA 只有摄像头输入，基准模型结合了激光雷达，深度感知能力更好；在 nuscens 数据集中，自监督的EMMA+取得了SOTA效果，比参与测评的监督基准模型平均性能提高 6.4%，比自监督的基准模型性能提高17.1%。

作为自动驾驶 VLA 的初步尝试，EMMA 距离工程部署尚有距离：1）模型仅能处理有限帧数，难以捕获驾驶任务所需的长时间依赖关系，自动驾驶性能较差；2）依赖预训练的多模态模型，但该模型未集成与点云相关的编码器，3D 空间感知和多模态能力受到限制；3）当前测评基于公共数据集上的开环测试，模型闭环性能不清晰，距离工程部署尚有距离；4）参数规模庞大的语言模型在车端部署对端侧芯片算力、带宽带来挑战，车端推理实时性不足，需要在模型大小、推理质量、推理效率之间实现平衡。

2、Open Drive VLA 框架的贡献在于模型3D环境感知和交互

Open Drive VLA 是专为自动驾驶设计的端到端 VLA 模型，主要包含一个预训练的视觉编码器和一个开源 VLM 模型。模型首先利用预训练的编码器从多视图图像中提取中间特征；然后分层视觉语言特征对齐模块将图像 token 对齐到文本域；其次在VLM推理空间中进行车辆-环境-自车交互推理和输出高层次的驾驶指令，最后根据高层次指令给出自车的未来轨迹。架构的创新在于 1）引入以视觉为中心的查询模块和分层视觉-语言特征对齐模块，提升模型3D 感知能力；2）引入条件车辆运动预测任务，提升自车复杂环境下交互能力。

3D 环境感知与对齐：传统的 VLM 模型通常依赖于 2D 视觉编码器，视觉token的选择和注意力权重通过语言监督间接引导，模型缺乏足够的 3D 空间感知能力会造成严重的多模态输出幻觉（即语言模型的反应与图像输入内容不一致）。针对此问题，OpenDriveVLA在感知环节采用了以视觉为中心的查询模块，使模型重点关注与驾驶相关的物体和3D地图信息，具体而言在模型获得 BEV 特征表示后，会用三个视觉查询模块（Track、Map、Scence）以空间定位的方式捕捉动态车辆行为和静态地图结构，以获得3D 中间特征表示。

并利用分层视觉-语言对齐机制弥补不同空间的模态差距，即指针对三个特定的查询模块引入三个特定的可训练投影机制进行视觉嵌入，使得不同模块的视觉信息都有详细的语言描述与之对应，达到对齐视觉和语言模态的效果，例如对于 Map 信息，以真实标注数据训练的文本转化机制可以将车道分隔线、人行横道和道路边界等地图元素都转化为描述性文本。

轨迹生成与环境交互：Open Drive VLA 引入了条件车辆运动预测任务，作为3D车辆-环境-自车交互建模的代理任务，使模型能够学习不同物体在空间中的运动模式，即模型能够在给定场景描述、地图结构以及自车状态后，在推理空间中直接预测每个实体相对于自车的未来位移，并给出自车在此条件下的未来运动轨迹预测。该任务的引入增强了模型轨迹生成能力，并改善了复杂交通场景中的决策能力。从开环评测效果角度，如下图所示，相较于UniAD模型，Open Drive VLA 对环境的感知能力更强，没有对周遭车辆的过度反应，生成的轨迹更为平滑。

引入条件车辆运动预测任务后，预测通过时延更低

资料来源：《Open Drive VLA: Towards End-to-end Autonomous Driving with Large VisionLanguageAction Model》_ Xingcheng Zhou 等，华源证券研究

所注：下图为 OpenDrive VLA 模型效果图，上图 UniAD 对周遭环境有过度反应（颜色更多，预测阻碍时长越长），而OpenDriveVLA有效保持了轨迹平滑性和环境感知能力，展现出其在处理复杂驾驶场景时更强的能力

OpenDrive VLA 仍面临诸多问题。1）为了平衡模型推理速度和计算开销，LLM模型采用隐式推理，缺乏明确的 CoT 过程，导致模型在复杂场景中的推理能力和模型的可解释性较差；2）目前的测评仍是开环评测，后续的闭环测试和仿真场景搭建预计仍然存在困难；3）模型的自回归特性阻碍了高速场景中的实时推理。

3、小米 ORION 框架引入QT-Former 模块实现了长时序记忆

小米 ORION 架构是典型三段式 VLA 架构，主要由三个关键组件构成：QT-Former、LLM及生成式规划器。首先通过视觉编码器对图像编码；其次 QT-Former 实现长期上下文提取并连接视觉空间与 LLM 模型的推理空间；LLM 将场景特征、历史视觉信息、用户指令等多模态信息结合执行推理任务并预测一个规划标记；最后生成式规划器生成由规划标记条件约束的多模态轨迹。

该框架利用 QT-Former 和生成式规划器分别连接了视觉-推理、推理-动作空间，实现了从图像感知到视觉问答再到动作规划的统一端到端优化，模型创新之处在于QT-Former 动态记忆模块的引进一定程度解决了长时序记忆问题以及VAE模块优化了轨迹生成。

QT-Former 模块实现图像压缩和长时序建模。通常 VLM 模型要求输入的都是高分辨率图像，但高分辨率图像 token 化后计算量较高，不能保证端侧模型输出的实时性，因此小米引入了 QT-Former，其类似一个信息筛选机制，负责提取对语言文本生成最有用的图像特征并压缩转化为 LLM 可以理解的 token。长时序建模层面，传统VLM模型一般利用拼接多帧图像进行时序记忆，这种方法受制于 Token 长度，QT-Former 引入了动态记忆模块和历史查询机制一定程度上解决了长时序记忆的问题。

其运作机理为初始化感知Query 与场景Query，首先原始感知 Query 与场景 Query 先通过自注意力模块交换信息；然后与带有3D位置编码的图像特征执行交叉注意力并分别获得感知结果及新的场景Query，其中感知结果被输入至任务头用于各项任务，新的场景 Query 与 long-term Memory Bank（记忆库）中的历史Query再执行交叉注意力以不断地更新历史 Query 并按照先进先出的替换原则再存储到记忆库中。

其创新之处在于，不同于以往记忆模块只简单存储压缩后信息而不关注提取当前场景信息的机械机制，小米通过初始化少量历史 Query，能够进一步提取与历史信息最密切相关的当前场景特征，增强了模型的长期记忆能力。

小米 ORION 架构的工程化部署面临挑战。根据小米公开数据，ORION架构在Bench2Drive 数据集上获得了较好的闭环测试性能，获得了77.74 的驾驶分数和54.62%的成功率，相较于 SOTA 方法分别增长 14.28 分和 19.61pct 的成功率。但我们认为其距离商用落地仍有较多工作：1）基座模型使用开源模型 Vicuna v1.5，没有针对自动驾驶做微调，不同模块间的配合及针对自驾任务的性能可能不足；2）LLM 模型参数规模庞大，端侧推理实时性难以保证。目前可行的路径之一是将 QT-Former 与 VAE 模型连接，将LLM模型用作辅助推理，形成实质的双系统模式，在端侧芯片能力足够和模型运算效率优化以后再部署全局端到端；3）图像编码器或仍沿用传统的 2D 网络，模型的 3D 空间理解能力较弱影响模型性能。

4、理想 Mind VLA：深度融合空间、语言及行为智能

Mind VLA 六大关键技术，构建自驾模型新范式。24 年10 月理想汽车双系统架构正式推送，但彼时的模型架构尚存在诸多问题，例如双系统联合优化困难、基于开源的VLM模型在3D 空间理解能力上仍然不足、模型的多模态性处理不足（输出方式为Transformer 回归建模，难以处理驾驶行为多模态性）、人类价值观对齐不足等。

基于双系统实践和对前沿技术的吸收，理想汽车推出了自研 Mind VLA 模型，提出了 6 大关键技术：3D 空间理解能力构建、基础语言模型构建、语言模型推理效率优化、Diffuison 轨迹生成、RLHF、云端worldmodel 强化学习。其模型方案可以理解为：利用 3D 空间编码器编码环境特征输入至语言空间，语言空间利用逻辑推理能力和空间理解能力将输入信息处理后给出合理的高层级actiontoken，然后通过 diffusion 模型进一步优化出最佳的驾驶轨迹，实现空间智能、语言智能、行为智能的统一。

基础语言模型重构、RLHF、云端 world model 强化学习主要解决模型计算效率与类人性问题。除了从算法优化的角度提升模型计算效率，从模型自身构建角度是更为根本的解决方法，当前 VLM 一般是由开源 LLM+预训练 Vision encoder 构建，这类方法简便易行，但基于互联网数据训练却限制了模型 VL 部分的实现效果，一方面是开源LLM虽经过微调与后训练，但模型构成中仍有大量与自驾无关的参数占用硬件资源；另一方面是基于开源数据训练的Vision encoder 无法充分利用自驾领域成熟的感知网络。

理想重新配比了3D数据、自动驾驶相关图文数据与文史类数据的比例，从零训练语言模型并自定义自驾专用LLMinputtokenizer，根本上选择了更为困难但上限更高的路径以解决模型效率问题。RLHF 与云端世界模型强化训练是模型后训练环节，主要解决模型类人性问题。RLHF方法是通过筛选大量 NOA 接管数据（不符合人类预期的表现）以建立人类偏好数据集，使模型从特定的偏好数据中学习对齐人类行为，提升模型的安全下限。

同时MindVLA基于自研的重建+生成云端统一世界模型，深度融合重建模型的三维场景还原能力与生成模型的新视角补全，以及未见视角预测能力，构建接近真实世界的仿真环境实现了基于仿真环境的大规模闭环强化学习，并利用工程化能力将 3D GS 的训练速度提升了7 倍以上。通过创新性的预训练与后训练方式，Mind VLA 实现了优秀的模型表现与泛化能力，预计将成为部署与量产最快的车端 VLA 模型。

☟☟☟

☞人工智能产业链联盟筹备组征集公告☜

☝

精选报告推荐：

11份清华大学的DeepSeek教程，全都给你打包好了，直接领取：

【清华第一版】DeepSeek从入门到精通

【清华第二版】DeepSeek如何赋能职场应用？

【清华第三版】普通人如何抓住DeepSeek红利？

【清华第四版】DeepSeek+DeepResearch让科研像聊天一样简单？

【清华第五版】DeepSeek与AI幻觉

【清华第六版】DeepSeek赋能家庭教育

【清华第七版】文科生零基础AI编程：快速提升想象力和实操能力

【清华第八版】DeepSeek政务场景应用与解决方案

【清华第九版】迈向未来的AI教学实验

【清华第十版】DeepSeek赋能品牌传播与营销

【清华第十一版】2025AI赋能教育：高考志愿填报工具使用指南

10份北京大学的DeepSeek教程

【北京大学第一版】DeepSeek与AIGC应用

【北京大学第二版】DeepSeek提示词工程和落地场景

【北京大学第三版】Deepseek 私有化部署和一体机

【北京大学第四版】DeepSeek原理与落地应用

【北京大学第五版】Deepseek应用场景中需要关注的十个安全问题和防范措施

【北京大学第六版】DeepSeek与新媒体运营

【北京大学第七版】DeepSeek原理与教育场景应用报告

【北京大学第八版】AI工具深度测评与选型指南

【北京大学第九版】AI+Agent与Agentic+AI的原理和应用洞察与未来展望

【北京大学第十版】DeepSeek在教育和学术领域的应用场景与案例(上中下合集)

8份浙江大学的DeepSeek专题系列教程

浙江大学DeepSeek专题系列一--吴飞：DeepSeek-回望AI三大主义与加强通识教育

浙江大学DeepSeek专题系列二--陈文智：Chatting or Acting-DeepSeek的突破边界与浙大先生的未来图景

浙江大学DeepSeek专题系列三--孙凌云：DeepSeek：智能时代的全面到来和人机协作的新常态

浙江大学DeepSeek专题系列四--王则可：DeepSeek模型优势：算力、成本角度解读

浙江大学DeepSeek专题系列五--陈静远：语言解码双生花：人类经验与AI算法的镜像之旅

浙江大学DeepSeek专题系列六--吴超：走向数字社会：从Deepseek到群体智慧

浙江大学DeepSeek专题系列七--朱朝阳：DeepSeek之火，可以燎原

浙江大学DeepSeek专题系列八--陈建海：DeepSeek的本地化部署与AI通识教育之未来

4份51CTO的《DeepSeek入门宝典》

51CTO：《DeepSeek入门宝典》：第1册-技术解析篇

51CTO：《DeepSeek入门宝典》：第2册-开发实战篇

51CTO：《DeepSeek入门宝典》：第3册-行业应用篇

51CTO：《DeepSeek入门宝典》：第4册-个人使用篇

5份厦门大学的DeepSeek教程

【厦门大学第一版】DeepSeek大模型概念、技术与应用实践

【厦门大学第二版】DeepSeek大模型赋能高校教学和科研

【厦门大学第三版】DeepSeek大模型及其企业应用实践

【厦门大学第四版】DeepSeek大模型赋能政府数字化转型

【厦门大学第五版】DeepSeek等大模型工具使用手册-实战篇

10份浙江大学的DeepSeek公开课第二季专题系列教程

【精选报告】浙江大学公开课第二季：《DeepSeek技术溯源及前沿探索》（附PDF下载）

【精选报告】浙江大学公开课第二季：2025从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例（附PDF下载）

【精选报告】浙江大学公开课第二季：智能金融——AI驱动的金融变革（附PDF下载）

【精选报告】浙江大学公开课第二季：人工智能重塑科学与工程研究（附PDF下载）

【精选报告】浙江大学公开课第二季：生成式人工智能赋能智慧司法及相关思考(附PDF下载）

【精选报告】浙江大学公开课第二季：AI大模型如何破局传统医疗（附PDF下载）

【精选报告】浙江大学公开课第二季：2025年大模型：从单词接龙到行业落地报告（附PDF下载）

【精选报告】浙江大学公开课第二季：2025大小模型端云协同赋能人机交互报告（附PDF下载）

【精选报告】浙江大学公开课第二季：DeepSeek时代：让AI更懂中国文化的美与善（附PDF下载）

【精选报告】浙江大学公开课第二季：智能音乐生成：理解·反馈·融合（附PDF下载）

6份浙江大学的DeepSeek公开课第三季专题系列教程

【精选报告】浙江大学公开课第三季：走进海洋人工智能的未来（附PDF下载）

【精选报告】浙江大学公开课第三季：当艺术遇见AI：科艺融合的新探索（附PDF下载）

【精选报告】浙江大学公开课第三季：AI+BME，迈向智慧医疗健康——浙大的探索与实践（附PDF下载）

【精选报告】浙江大学公开课第三季：心理学与人工智能（附PDF下载）

【精选报告】浙江大学公开课第三季：人工智能赋能交通运输系统——关键技术与应用（附PDF下载）

【精选报告】浙江大学公开课第三季：人工智能与道德进步（附PDF下载）

相关阅读

干货推荐：

【AI加油站】第一部：《大型语言模型应用检索增强生成：改变搜索、推荐和 AI 助手》附下载

【AI加油站】第二部：《程序员的自我修炼手册》（附下载）

【AI加油站】第三部：《大规模语言模型：从理论到实践》（附下载）

【AI加油站】第四部：《使用生成式人工智能和Python开始数据分析》（附下载）

【AI加油站】第五部：《使用生成式人工智能和Python开始数据分析》（附下载）

【AI加油站】第六部：《时间序列：建模、计算与推断》（附下载）

【AI加油站】第七部：《因果关系的逻辑理论的好书-A Logical Theory of Causality》（附下载）

【AI加油站】第八部：《模式识别（第四版）-模式识别与机器学习》（附下载）

【AI加油站】第九部：《Python深度学习（中文版）》（附下载）

【AI加油站】第十部：《机器学习方法》（附下载）

【AI加油站】第十一部：《深度学习》（附下载）

【AI加油站】第十二部：《从零开始的机器学习》（附下载）

【AI加油站】第十三部：《Transformer入门到精通》（附下载）

【AI加油站】第十四部：《LLM 应用开发实践笔记》（附下载）

【AI加油站】第十五部：《大模型基础完整版》（附下载）

【AI加油站】第十六部：《从头训练大模型最佳实践》（附下载）

【AI加油站】第十七部：《大语言模型》（附下载）

【AI加油站】第十八部：《深度强化学习》（附下载）

【AI加油站】第十九部：清华大学《大模型技术》（附下载）

【AI加油站】第二十部：Prompt入门神书-《Prompt 学习指南》（附下载）

【AI加油站】第二十一部：吴恩达&open AI联合推出《大模型通关指南》（附下载）

【AI加油站】第二十二部：《李宏毅深度学习教程》值得反复阅读的神书！（附下载）

【AI加油站】第二十三部：Prompt经典中文教程-《提示工程指南》（附下载）

【AI加油站】第二十四部：爆火下载28万次！MIT最新神书《理解深度学习》（附下载）

【AI加油站】第二十五部：LLM4大名著，OpenAI专家强推《深度解析：大语言模型理论与实践》（附下载）

【AI加油站】第二十六部：NLP大牛Thomas Wolf等新书《Transformer自然语言处理》（附下载）

【AI加油站】第二十七部：哈工大博士耗时一年整理《PyTorch常用函数手册》，轻松掌握PyTorch的各种操作（附PDF下载）

【AI加油站】第二十八部：大模型炼丹大师必备《深度学习调优指南中文版-系统性优化模型》（附下载）

面试推荐：

【AI加油站】AI面试专题一：BIO,NIO,AIO,Netty面试题（附下载）

【AI加油站】AI面试专题二：Git常用命令面试题（附下载）

【AI加油站】AI面试专题三：Java常用面试题（附下载）

【AI加油站】AI面试专题四：Linux系统的面试题集（附下载）

【AI加油站】AI面试专题五：Memcached 面试题集（附下载）

【AI加油站】AI面试专题六：MyBatis框架的面试题（附下载）

【AI加油站】AI面试专题七：MySQL相关的面试题资料（附下载）

【AI加油站】AI面试专题八：Netty面试题资料（附下载）

【AI加油站】AI面试专题九：Nginx的面试题资料（附下载）

【AI加油站】AI面试专题十：RabbitMQ的面试题资料（附下载）

【AI加油站】AI面试专题十一：Redis的面试题资料（附PDF下载）

【AI加油站】AI面试专题十二：Spring的面试题资料（附PDF下载）

【AI加油站】AI面试专题十三：Apache Tomcat的面试题资料（附PDF下载）

【AI加油站】AI面试专题十四：Zookeeper的面试题资料（附PDF下载）

【AI加油站】AI面试专题十五：《阿里巴巴Java开发手册》终极版的面试题资料（附PDF下载）

【AI加油站】AI面试专题十六：大数据技术面试题资料（附PDF下载）

【AI加油站】AI面试专题十七：Java并发多线程面试题资料（附PDF下载）

人工智能产业链联盟高端社区

精选主题推荐：

Manus学习手册

从零开始了解Manus

DeepSeek 高级使用指南，建议收藏

一次性说清楚DeepSeek，史上最全（建议收藏）

DeepSeek一分钟做一份PPT

用DeepSeek写爆款文章？自媒体人必看指南

【5分钟解锁DeepSeek王炸攻略】顶级AI玩法，解锁办公+创作新境界！

DeepSeek接入个人微信！24小时智能助理，随时召唤！

PS×Deepseek：一句话编写PS脚本，搞定PS批量导出图层

如何让AI给自己打工，10分钟创作一条爆款视频？

荐：

【中国风动漫】《姜子牙》刷屏背后，藏着中国动画100年内幕！

【中国风动漫】除了《哪吒》，这些良心国产动画也应该被更多人知道！

【中国风动漫】《雾山五行》大火，却很少人知道它的前身《岁城璃心》一个拿着十米大刀的男主夭折！

声明

免责声明：部分文章和信息来源于互联网，不代表本订阅号赞同其观点和对其真实性负责。如转载内容涉及版权等问题，请立即与小编联系（微信号：913572853），我们将迅速采取适当的措施。本订阅号原创内容，转载需授权，并注明作者和出处。如需投稿请与小助理联系（微信号：AI480908961）

编辑：Zero

声明：本文内容及配图由入驻作者撰写或合作网站授权转载。文章观点仅代表作者本人，不代表科技区角网立场。仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。点击这里

点赞 0
分享
微信扫一扫
加入群聊
扫码加入群聊