在架构设计方面,随着特斯拉 TSDv12 端到端发布后展示出良好的效果,业界快速从传统模块化架构转向端到端架构,其具有信息无损、全局优化等优势,推动智驾达到更好的拟人化驾驶效果和更低的维护成本。

在训练范式方面,当前正从规则驱动范式走向数据驱动范式,驱动智驾逐步达到“老司机”的驾驶要求,并带动城市 NOA 等 L2+高阶智驾的渗透率快速提升;下一阶段,基于对真实世界物理规律理解和思维链推理的知识驱动范式成为落地重点,并在理想汽车、小马智能等领先企业快速落地。长久来看,知识驱动的范式有望成为智能驾驶走向 L4 的重要技术基础。

架构升级:端到端架构具备数据驱动/全局优化优势,替代模块化架构成为主流

传统模块化架构及其限制

模块化架构通常采用模块化的流水线结构,将环境感知、行为决策和运动控制等功能串联起来。在感知阶段,系统通过摄像头、雷达、激光雷达等传感器进行目标检测、分割与跟踪,基于感知结构和高精度地图进行路径规划与行为决策;在控制阶段形成具体的加减速、转向等控制指令。

模块化架构通常包含以下几个核心模块:

感知模块(Perception):感知模块负责收集和解释车辆周围环境的信息。包括使用各种传感器,如摄像头、激光雷达(LiDAR)、毫米波雷达和超声波传感器来检测和识别周围的物体,如其他车辆、行人、交通信号和道路标志。感知模块需要处理来自这些传感器的数据,并将其转化为车辆可以理解的环境模型。传统的感知模块的输出更多是基于人类的定义,如对于周边障碍物的检测,对于边界以及区域的分割等等。传统的感知系统要保证其输出能够为人所理解,代表了人类对于环境的一种抽象;

定位模块(Localization):定位模块的任务是确定车辆在环境中的精确位置。这通常涉及到使用全球定位系统(GPS)、惯性测量单元(IMU)和传感器数据来估计车辆的全局位置。此外,还可以使用基于地图的定位技术,如将车辆的传感器数据与预先制作的详细地图进行匹配;

预测模块(Prediction):预测模块用于预测其他道路使用者的行为和意图,如预测其他车辆的行驶轨迹和人的移动。这有助于自动驾驶系统提前做出决策,以避免潜在的碰撞和冲突;

决策与规划模块(Decision and Planning):决策模块负责根据感知和预测的信息来制定车辆的行驶策略。这包括选择最佳的行驶路径、决定合适变道或超车,以及如何应对复杂的交通情况。规划模块则负责生成详细的行驶轨迹,确保车辆能够安全、高效地从当前位置行驶到目的地;

控制模块(Control):控制模块是执行决策与规划模块输出的实际车辆控制命令的系统。它负责精确控制车辆的油门、刹车和转向,以实现平滑和安全的驾驶。

根据腾讯科技分析,模块化架构的优缺点如下:

优点:可解释、可验证、易于调试因为每个模块都是相对独立的,所以当车辆出现问题时,可以回溯究竟是哪个模块出了问题;在出现问题后,我们只需要在原有代码规则的基础上调整对应的参数即可。

缺点:传递过程中信息损耗、任务多且散导致低效、存在复合误差、规则难以穷尽导致构建和维护成本高。

信息在传递过程中存在损耗:传感器的信息从进入感知模块再到控制模块输出,中间经历多个环节,信息在传递过程中不仅效率变低,也不可避免会有信息损耗。

规则难以穷尽导致构建和维护成本高:模块化架构是基于规则的,车辆在道路上做的所有决策都是基于一条一条的规则,车辆在对应驾驶情况的时候根据写好的规则遍历所有可能选出的最优解进行决策。然而真实的物理世界可能出现的状况种类非常多,为应对各类小概率极端事件,导致规则体系建立起来成本极大。

特斯拉提出端到端架构,因其效果较佳被广泛采用

为解决如上模块化架构的问题,特斯拉于 2023 年提出数据驱动的端到端架构,受到业内广泛关注。

端到端架构是什么?

目前行业内对于端到端自动驾驶的定义仍存在一定模糊性。一般而言,端到端自动驾驶指的是从原始传感器数据输入,直接到控制指令输出的连续决策过程,即将原先串联的感知、定位、预测、规划等模块融为一个整体。其核心理念是避免信息在传递过程中的损耗。

端到端为什么快速发展?

特斯拉 FSD v12 的口碑和数据论证了端到端架构的优势。特斯拉 CEO 埃隆·马斯克(Elon Musk)在 2023 年 5 月公开提出,特斯拉 FSD v12 开始是端到端架构,通过实测数据显示,特斯拉智驾的性能有了大幅度提升。2024 年 3 月,特斯拉在北美地区大范围推送 FSD v12 版本,用户舆论和实测数据均体现了本次端到端架构的较大优势。

舆论方面,许多用户表示,特斯拉 FSD v12 在施工路段、无保护左转、拥挤的环岛以及为后方车辆挪动空间时都表现优异。数据方面,根据第三方网站 Tesla FSD Tracker 统计数据显示,特斯拉车辆接管里程数和无接管行程比例得到大幅提升,平均接管里程 MPI(Miles PerIntervention)从端到端架构之前的 98.7 公里,在端到端架构发布后不断迭代提升至 370.1 公里;无接管驾驶行程比例亦从 30%提升到 81%。

端到端的优势在哪?

根据甲子光年《自动驾驶行业报告-“端到端”渐行渐近》报告分析,端到端架构的主要优点如下:

数据驱动。端到端架构的感知、规划决策与控制模块均由数据驱动,无需或仅需少量手写规则就能够实现,开发流程简化;同时,通过提升数据的质量与规模,可不断提升端到端系统能力的上限;

全局最优。相较于模块化架构的单独优化,仅能做到局部最优,端到端架构是一体化架构,能够以汽车行驶任务为全局统一目标进行联合训练;同时,无需频繁的 patch 和参数调整修正;

延迟/消除减少。端到端架构能减少信息传递的延迟、加快系统反应;同时能消除各模块间信息传递的误差累积,全栈神经网络的上下层之间可以做到全量信息传递。

端到端架构的挑战是什么?

作为一种新型的架构,端到端架构也有一些问题有待解决。根据辰韬资本在《端到端自动驾驶行业研究报告》中分析,端到端落地面临的挑战主要包括技术路线、数据、算力需求、测试验证、组织资源投入等。其中,技术路线将再下一章详细分析,本部分先论述其他几个挑战。

1. 对训练数据的挑战。对训练数据的挑战可以分为数据量、数据标注、数据质量、数据分布几方面。

数据量。根据辰韬资本援引特斯拉的分析,其 FSD 训练需要用到上千万个视频片段,假设每个视频片段时长为 30~60 秒,以此作为参考,训练端到端模型起码需要几万小时的视频数据。而特斯拉的几万小时的自动驾驶数据,是从超过 20 亿英里的 FSD 里程数据中挖掘出来的。这需要智能驾驶开发商获取较大规模的非公开数据。

数据标注。由于端到端没有感知-决策规划的中间接口,模块化架构常用的面向感知的标注需求,将变成面向规划的标注需求,对现有的 3D 目标检测、车道线检测、路面标识的语义分割等标注需求将大大减少。但目前大部分智能驾驶开发商的数据标注,仍主要是面向感知的中间结果做标注和监督。

数据质量。由于智能驾驶的目标是学习老司机开车,很多驾驶员的驾驶行为并不能达到“老司机”水平,因此需要一套数据管理和处理流程,提取优秀司机在特定场景下的高质量驾驶数据,难度较大。

数据分布。全面和多样化的数据对于端到端智能驾驶的学习较为重要,例如环境因素包含各种天气和光线、道路情况等。许多智能驾驶公司采集的数据是在受控环境中获得的,可能无法代表真实世界的复杂性数据。如何调整长尾场景在训练数据中的百分比仍然是较大挑战。

2. 对训练算力的挑战。随着自动驾驶系统的 AI 模型化程度越来越高,其对训练算力的需求越来越大。量产研发阶段需要考虑团队分工和模型迭代效率问题,企业所拥有的训练算力越大,完成端到端模型训练的时间就越短,越能抢占市场先机。小鹏汽车的董事长、CEO 何小鹏认为:“训练算力是下一个时代中做好 AI 汽车的第一标准。智能驾驶做得好不好,首先要看多大的算力,其次才是跑了多大的模型。”

3. 对验证测试方法的挑战。传统模块化架构的测试方法较为成熟,感知模块采用回灌数据进行离线的开环测试,规控算法基于模拟器进行闭环测试。但是这些测试方法用于测试端到端架构显得不足,若基于数据回灌进行开环测试,无法实现端到端系统与环境交互,因此测试效果不佳;若基于模拟器进行闭环测试,现有模拟器在传感器一致性和保真度上仍距离真实世界有较大差距,测试效果也有待提升。

4. 对组织资源布局的挑战。端到端架构将重塑智能驾驶团队的组织,大部分团队都将削减团队规模,并将重心调整到大模型和数据基建方向,对团队管理者的资源调配能力有较高要求。

端到端架构的发展阶段

根据辰韬资本《端到端自动驾驶行业研究报告》分析,端到端自动驾驶的发展路径或将经过四个阶段:

第一阶段:感知“端到端”。这一阶段,自动驾驶架构被拆分成了感知与预测决策规划两个主要模块,其中,感知模块已经通过基于多传感器融合的 BEV(Bird Eye View,鸟瞰图视角融合)技术实现了模块级别的“端到端”,通过引入 Transformer 以及跨传感器的 Cross Attention 方案,感知输出检测结果的精度以及稳定性相对之前的感知方案有较大的提升。在这个阶段,规划决策模块仍以Rule-based 为主;

第二阶段:决策规划模型化。这个阶段,整个自动驾驶架构仍然被分成感知和预测决策规划两个模块,其中,感知端仍保持上一代的解决方案,但预测决策规划模块的变动比较大。在此阶段,从预测到决策到规划的功能模块已经被集成到同一个神经网络中。但是,感知和预测规划决策模块之间的接口是基于人类的理解定义(如障碍物位置、道路边界等),并且两个模块仍然独立训练;

第三阶段:模块化端到端。从结构上讲,这一阶段的结构和上一阶段类似,区别在于网络结构的细节和训练方式。感知模块和预测规划决策模块之间的接口不再依赖人类理解定义,更多是通过隐式的特征向量来传递信息。在训练方式上,这个阶段的模型必须支持跨模块的梯度传导——因而这两个模块无法独立训练,必须通过梯度传导的方式同时进行;

第四阶段:One Model/单一模型端到端。这一阶段,不再有感知、决策规划等功能的明确划分。从原始输入到最终规划轨迹的输出直接采用同一个深度学习模型。基于实现方案的不同,这一阶段的One Model 是可以基于强化学习(Reinforcement Learning,RL)或模仿学习(Imitation,IL)的端到端模型,也可以通过世界模型这类生成式模型衍生而来。

从模块化端到端走向 One Model 端到端。相比模块化端到端方案,One Model 端到端虽然训练及调试更复杂,但在理论上,其效果具有更高的天花板,因为 One Model 端到端方案的训练过程能够涵盖更广范围的数据、能够将真实世界的知识和认知应用于自动驾驶,因而可以实现更好的泛化效果,是产业界的方向。

范式演进:从规则驱动走向数据驱动/知识驱动,数据/算力/模型成为车企竞争壁垒虽然端到端架构逐渐流行,但究其本质而言,是因为背后的技术范式发生了变化。从人为设定规则的弱泛化能力,转变成依靠大规模优秀司机的驾驶数据拥有了初步泛化能力、再到依靠对物理规律的认识有了高度泛化能力。具体而言,分为规则驱动、数据驱动、知识驱动三种不断迭代的范式。

规则驱动:corner case 难以穷尽,导致智驾团队臃肿、维护成本高昂

规则驱动范式指什么?

规则驱动范式(Rule-based)的底层逻辑,是智驾的设计研发团队将一些特定的场景和规则转成代码,编写到智驾辅助系统当中。一旦用户在行车场景触发了与原本代码条件相符的状况,这时候驾驶系统就会及时介入并发挥作用,从而在一定程度上降低了用户的心理负担。该技术范式衍生于传统的机器人架构,由定位、感知、预测、规划、控制等子模块组成。

该范式中各子模块独立研发,问题排查较便捷、可解释性较高,但由于规则是人工设定的,很多长尾问题难以发现并解决,且拓展性较差,比如高速/中低速(城区)/低速(地库/泊车)等不同场景变化、城市/国家等不同区域变化,需要海量人力投入适配调整。

架构其实是一个闭环系统,这个闭环本身又分了好几个层次,从最底层的控制循环(Control Layer)往上到安全层的循环(SafetyLayer)再到本地层循环(Local Layer)再到全局的循环(Global Layer),这样的层层闭环来做到对车辆的控制。

更多行业研究分析请参考思瀚产业研究院官网,同时思瀚产业研究院亦提供行研报告、可研报告(立项审批备案、银行贷款、投资决策、集团上会)、产业规划、园区规划、商业计划书(股权融资、招商合资、内部决策)、专项调研、建筑设计、境外投资报告等相关咨询服务方案。

图片 关 于 我 们  图片
思瀚产业研究院
 Chinasihan.com
中国产业研究领导者
添柴鹏城  未来之城  创新之都  励精图治

报告订购定制化联系方式:
 · 联系电话:4008087939    0755-28709360
· 客 服 微 信:g15361035605 
· 客 服 Q Q :454058156
· 邮箱:chinasihan@126.com

·官方网站: Chinasihan.com