开源!清华StyleDrive:首个为个性化端到端自动驾驶设计的真实世界数据集与评测体系~
- 2025-07-05 08:05:00
点击下方卡片,关注“自动驾驶之心”公众号
今天自动驾驶之心为大家带来清华AIR团队最新发布的成果——StyleDrive:首个真实世界带有风格标注的端到端个性化自动驾驶数据集与评测体系!如果您有相关工作需要分享,请在文末联系我们!自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询
>>自动驾驶前沿信息获取→自动驾驶之心知识星球
论文作者 | Ruiyang Hao等
编辑 | 自动驾驶之心

导读
在端到端自动驾驶(E2EAD)飞速发展的今天,大多数研究仍聚焦于“平均驾驶策略”的性能提升,忽视了用户个性化需求的关键价值。但事实上——人们对自动驾驶的期望在于:不仅希望它“能开”,更希望它“按我的方式开”!然而,真正将“个性化”融入E2EAD系统,有两个挑战:1. 缺乏具备风格标注的真实世界数据集:人在环仿真的个性化驾驶虽然能够捕捉不同的驾驶风格,但场景与控制的不真实感对现实世界的应用带来挑战;现有真实世界驾驶倾向数据集往往场景单一,且不能支撑个性化E2EAD系统的训练与测评。2. 个性化融入的方式更多体现在结构化输入的自驾算法中:鲜有研究探索在E2EAD系统中融入个性化倾向,不利于海量驾驶数据的scale up。为填补这项空白,清华大学AIR研究院联合曼大与港大,推出全新开源项目——StyleDrive!
🔗论文:https://arxiv.org/abs/2506.23982
🔗代码:https://github.com/AIR-THU/StyleDrive
🔗主页:https://styledrive.github.io/
🔗数据集:https://huggingface.co/datasets/Ryhn98/StyleDrive-Dataset


研究背景
个性化一直被认为是提升用户体验和建立自动驾驶系统信任感的关键因素。在传统模块化自动驾驶架构中(如路径规划、轨迹预测与决策),已经涌现出大量支持个体偏好的定制化方法。然而,这些方法大多依赖场景特定的设计或模拟环境中的人工交互,导致在真实、复杂、动态的交通场景中难以泛化。相比之下,端到端自动驾驶(E2EAD)将感知、规划与控制统一建模,具备更强的集成能力和泛化潜力。但当前研究普遍忽略了个性化建模,使得车辆行为趋于“平均化”,难以体现用户的风格偏好。这不仅限制了系统的适应性,也阻碍了个性化、以人为本的自动驾驶愿景落地。要解决这一问题,首先需要一个大规模、真实世界、具备细粒度风格标注的数据集,同时配套标准化的评测基准,以系统地推动个性化E2EAD的发展。
为此,我们提出了 StyleDrive,这是首个为个性化端到端自动驾驶设计的真实世界数据集与评测体系:
✔️构建了一个包含 30,000+ 驾驶片段的大规模数据集,覆盖丰富交通场景,并提供客观行为+主观偏好的分层风格标签;
✔️提出了一套多阶段标注流程,结合行为分析、规则启发、多模态大模型(VLM)推理与人工验证,确保风格标注的一致性与高质量;
✔️建立了首个面向个性化 E2EAD 的评测基准,提出SM-PDMS指标,支持不同模型在风格感知行为上的可量化对比;
✔️实验表明,引入风格建模后,多个主流架构在行为可控性与人类一致性方面均显著提升,验证了个性化对E2E系统的实际价值。
StyleDrive数据集
StyleDrive 数据集基于大规模真实世界自动驾驶数据集 OpenScene 构建,包含近 30,000 个带有驾驶风格标签的驾驶场景。在保留原始 OpenScene 标注的基础上,我们进一步扩展了道路拓扑信息,并提出了一套统一的个性化驾驶风格建模与标注框架。
为了实现可靠且可解释的风格分析,我们构建了一个分层的建模与标注流程(如图2所示)。该流程首先从真实道路拓扑中提取静态环境特征,从车辆运动数据中提取动态环境特征;随后通过微调后的视觉语言模型(VLM)推理动态上下文语义实现更细粒度的场景构建;在静动态场景构建基础上,我们通过驾驶行为分布分析与规则启发方法生成客观风格标注;同时,为应对驾驶风格中的主观性问题,我们进一步利用 VLM 联合建模场景语义与驾驶行为,生成主观风格判断。最终,融合上述两类标注并进行人工校核,确保数据集中风格标签的准确性与一致性。
该数据集为实现个性化端到端自动驾驶提供了坚实的数据基础,并为风格感知的E2EAD模型的训练与评估奠定了关键支撑。



StyleDrive基准测评
为了推进对个性化E2EAD的研究,我们推出了Styledrive基准测评平台,这是一个半闭环评估框架,用于评估在现实情况下驾驶偏好的契合程度和驾驶性能,即评估是否可以产生与目标驾驶方式保持一致的行为,同时确保安全和驾驶合规性。
测评指标:测评体系的核心是 Style-Modulated Predictive Driver Model Score(SM-PDMS),该指标引入了行为对齐模块,用于反映驾驶风格偏好。 其设计具备以下特点:
✔️在不同风格下保持统一的安全性评估指标(如碰撞、可行区域等);
✔️根据标注的驾驶风格偏好,动态调整对风格敏感的子指标;
对“舒适度”指标设定风格相关阈值,以适应不同风格下对加速度、弯道变化率的容忍程度; “自车前进程度”指标与驾驶风格中的“果断程度”相匹配; “碰撞预警时间(TTC)”区间根据风格的风险容忍度进行调整。
Benchmark方法:我们在四种经典的端到端自动驾驶(E2EAD)架构上引入驾驶风格向量作为条件输入,构建风格感知模型,并在 StyleDrive Benchmark 中进行统一评估:
AD-MLP-Style:基于经典多层感知机(MLP),输入为自车特征与风格向量的拼接,输出风格条件化的轨迹预测结果,结构简洁、易于解释。 TransFuser-Style:基于图像与激光雷达融合的多模态架构,在轨迹查询向量中附加风格编码,并通过 MLP 映射后输入到预测模块,实现风格调控能力。 DiffusionDrive-Style:扩展自扩散式规划器 DiffusionDrive,将风格向量与代理特征融合,并通过两阶段迭代优化生成目标轨迹,具备较强的表达能力。 WoTE-Style:基于 BEV 世界建模的轨迹预测模型,在偏移预测模块中引入风格条件,实现对驾驶风格的控制与建模。
测评主要结果


主要结论:
我们的实验证明风格建模在端到端自动驾驶中的显著价值,主要体现在以下三个方面:
风格条件输入显著提升了倾向对齐能力与全方位的驾驶性能: 评测结果也间接验证了风格标注的质量 风格作为条件拉近了模型预测结果与真实人类行为的差距
风格影响的定性案例研究:为进一步展示风格条件输入对模型行为的影响,图 3 展示了 DiffusionDrive-Style 模型在相同场景下、不同风格输入下的轨迹预测结果。图左对比激进与正常风格(A vs. N),图右对比保守与正常风格(C vs. N)。这些可视化结果清楚地表明:即便采用相同的模型结构,通过引入风格可实现多样化的人类风格行为输出,充分体现了风格建模机制在行为可控性与表达能力上的潜力。

图3 风格影响的定性案例研究:在相同驾驶场景下,在不同倾向条件下进行DiffusionDrive-Style模型预测的定性说明。左:激进与正常;右:保守与正常。红线表示在给定样式条件下模型的预测轨迹;绿线表示人类轨迹演示。可以看到随着风格变化出现明确的行为差异。
自动驾驶之心
论文辅导来啦
知识星球交流社区
近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

独家专业课程
端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频
学习官网:www.zdjszx.com

- 点赞 0
-
分享
微信扫一扫
-
加入群聊
扫码加入群聊