结合机器学习和基于规则算法的安全框架

牛喀网
2025-07-15 09:30:15

简介

尽管基于人工智能的方法存在透明度不足的问题，但基于规则的方法在安全关键系统中仍占主导地位。然而，后者在应对多种需求的鲁棒性方面无法与前者相比，例如，无法同时满足安全性、舒适性和效率等要求。因此，为了充分利用这两种方法的优势，必须将它们整合到一个系统中。本文提出了一种决策与控制框架，该框架既能利用基于规则和基于机器学习技术的优势，又能弥补它们的不足。所提出的方法包含两个并行运行的控制器，分别称为安全控制器和学习控制器。基于规则的切换逻辑从两个控制器传输的动作中选择一个。每当学习控制器不满足安全约束时，安全控制器都具有优先级，并且安全控制器还直接参与安全学习控制器的训练。本文选择自动驾驶中的决策与控制作为系统案例研究，其中自动驾驶车辆学习多任务策略以安全通过无保护交叉口。为车辆运行设定了多项要求（即安全性、效率和舒适性）。对所提出的框架进行了数值模拟验证，成功证明了其满足要求的能力和对环境变化的鲁棒性。

一、引言

人类容易出现疲劳、嗜睡、分心等多种基于人为因素的特征，这些特征往往会导致严重的事故。然而，人工智能在安全关键决策和控制系统中具有巨大的潜力，可以取代人类，在这些系统中，人为因素引起的错误是不可接受的。人工智能在许多方面模仿人类学习，包括知识获取和技能提升。

然而，基于机器学习（ML）的系统存在决策过程透明度不足的问题（即它们通常充当 “黑箱”）。因此，这些方法在自动驾驶汽车（AV）等安全关键应用中经常面临挑战，因为追踪自主决策和控制的每个环节对于防止由设计或优化错误引起的事故至关重要。尽管如此，机器学习对复杂性具有鲁棒性，并且能够实现高效的策略泛化和扩展。

相反，基于规则（RB）的方法在安全关键系统中占主导地位。这主要归功于其 “可读性” 特征：它们适用于透明且易于理解的决策和控制定义。由于人类知识是隐性的，与机器学习相比，基于规则的方法在满足多个独立标准（例如安全性、效率、舒适性）、处理复杂的系统扩展性或应对不确定性方面存在不足。此外，设计通用的手工规则极其复杂，且容易出现隐藏错误。

结合强化学习和机器学习方法的目的是在复杂系统中利用每种技术的优势，同时满足透明度和可扩展性的要求。将基于规则的安全约束融入机器学习中，可以实现对安全关键系统的学习控制。然而，如今需要一个全面的决策和控制架构，该架构能够满足系统的多项性能要求，不仅确保机器学习模型的安全使用，还能实现智能体的安全训练。

本文的主要贡献有三点：

· 提出了一种结合基于规则和机器学习技术的安全关键决策与控制框架（图 1），该框架利用了两种技术的优势（即透明度和可扩展性），不仅在模型使用期间，而且在训练期间都能满足系统的安全要求。

· 基于机器学习的控制器旨在同时满足多项要求（即安全性、舒适性和效率），而并行运行的基于规则的安全控制器则不惜一切代价确保安全，并有助于长期持续学习和机器学习策略的改进。

所提出的框架在自动驾驶汽车案例研究中进行了适配和验证，该案例中自动驾驶汽车学习多任务策略以安全通过无保护左转交叉口。

图1：决策与控制系统框图：a-动作；安全控制员的安全措施；学习控制器的学习动作；r——奖励；s-工厂状态；s∗-开关逻辑的状态；sref——参考状态；es——状态错误；t-时间步长

本文的其余部分结构如下：第二节分析了相关工作，并列出了所提出框架相对于这些工作的独特元素。第三节描述了所开发的系统。第四节解释了自动驾驶汽车应用的案例研究。第五节展示了学习控制器的训练结果。第六节专门用于框架的实验验证。第七节对本文进行了总结。

二、相关工作

该领域的相关工作可分为混合方法（机器学习方法与基于规则或计算智能算法相结合）、博弈论（GT）、（深度）强化学习（依赖于奖励函数中表达的专家知识）和安全强化学习。

1. 混合方法：计算智能领域深入研究了结合基于规则和机器学习的挑战。文献提出了一种基于规则的进化机器学习系统的参数设置机制，该机制能够为各种具有二元属性的合成分类问题找到合适的参数值。He 等人提出了一种基于动态添加的未标记数据的在线基于规则分类器学习框架。文献提出了基于字典优化的模型预测控制器伦理决策系统。上述解决方案在算法透明度和持续优化方面表现出色，但它们没有解决可扩展性问题，而这在现代机器人系统中至关重要，尤其是当系统复杂性不断增加时。

模糊逻辑（FL）是建模专家知识的强大工具。最终，模糊逻辑与其他机器学习方法有效地结合在一起。一种混合学习算法包括带有二型模糊逻辑人工神经网络（ANN）的训练数据集。在文献中，使用扩展卡尔曼滤波器训练二型模糊逻辑系统的参数。强化学习被证明是优化控制器的最强大工具之一。另一种模糊逻辑 Q 学习方法在复杂的协作多智能体系统上进行了测试。尽管如此，这些系统在满足过程的多项要求方面仍然面临挑战。此外，它们主要用于控制器调优，而不是决策系统开发。

2.博弈论：源于经济学学科的合作与非合作博弈论在复杂的多智能体环境中被广泛用作决策系统，用于同时处理安全性、快速性和舒适性指标。文献开发了基于博弈论的控制器，用于安全关键的自动驾驶汽车轨迹跟踪。基于纳什均衡概念的博弈论模型也广泛用于决策。在实践中应用博弈论的最大瓶颈是其他智能体行为预测带来的不确定性。这在安全关键系统中尤其具有挑战性。例如，对于自动驾驶汽车，车对车通信虽然能显著提高预测准确性，但仍属于未来的技术，更不用说首批自动驾驶汽车将在混合交通中运行。

3.（深度）强化学习：通过强化学习训练的人工神经网络被广泛用作决策和控制模型。一种流行的方法是直接从人类专家的知识中塑造人工神经网络参数。更先进的方法将强化学习与进化计算或模型预测控制相结合。文献提出了一种基于强化学习的在线进化框架，用于提前检测和修正控制器不完善的决策。深度强化学习在复杂任务上具有性能提升的特点。Hoe 等人开发了一种结合规划和学习概念的战术决策通用框架。在文献中，开发了用于具有挑战性的城市自动驾驶汽车驾驶场景的无模型深度强化学习。文献对自动驾驶汽车的深度强化学习进行了全面综述。尽管所展示的结果很有前景，但所有上述方法都不适用于安全关键系统。也就是说，它们允许智能体在训练过程中犯错，以便学习在模型应用时如何不犯错。例如，对于自动驾驶汽车，这意味着它需要多次碰撞才能知道必须避免碰撞。这在实践中是不可行的，因为训练成本会非常高，更不用说在训练过程中可能导致的伤亡，除非添加安全驾驶员来确保强化学习的安全动作，而这实际上只会增加系统成本。

4.安全（深度）强化学习：最终，研究朝着探索安全（深度）强化学习技术的新方向发展。文献研究了如何使用预测进行安全学习。为了应对现有基于规则和强化学习方法的挑战，文献提出了一种模块化决策算法。文献描述了一个由两个模型（即基于规则的启发式模块和基于数据驱动的机器学习模块）组成的安全系统。文献描述了一种安全强化学习算法 —— 并行约束策略优化，该算法确保策略在学习过程中是安全的，并提高了收敛速度。文献开发了一种结合安全验证的无模型离线强化学习方法。深度强化学习也必须关注安全性。文献提出了将深度强化学习与专家演示相结合的方法，并应用于自动驾驶汽车的运动控制。在文献中，提出了一种考虑安全性和安全性的对抗性深度强化学习用于鲁棒控制。文献的作者利用人工势场为深度强化学习开发了一种基于安全的控制器。在安全强化学习中，安全监督器（例如人类驾驶员模型）用于确保安全探索和利用。这些模型旨在预测人类行为，从而最大限度地降低不确定性。然而，令人惊讶的是，这些研究报告称训练后仍发生了多次碰撞。这意味着这些方法即使在模型收敛后也无法确保安全性，更不用说在训练期间了。因此，它们只是近似安全的。

此外，大多数决策和控制系统需要满足多个独立的要求。例如，文献描述了将人类决策模型融入强化学习中，用于系统的安全高效控制，该模型基于从人类表现中收集的数据。在文献中，强化学习在多智能体场景中学习舒适且安全的控制。在文献中，使用深度强化学习开发的速度控制解决了安全性、效率和舒适性等多个特征。Xu等人开发了一种具有价值函数近似和特征学习的强化学习方法，用于智能车辆的自主决策，同时考虑安全性、平稳性和快速性。

1. 所提出框架的独特特征：在本文中，提出了一种安全关键决策与控制框架（图 1），相对于相关工作，该框架同时具有以下特征：
通过明确定义的基于规则模型，不仅在学习模型收敛后，而且在训练过程中保证安全性；
实现多任务策略学习或现有策略的长期改进，从而应对系统的不确定性；
在自动驾驶汽车案例研究中得到验证，支持可扩展性：不仅保障自动驾驶汽车和环境的安全，还同时提供效率和舒适性。

三、决策与控制系统

所提出的决策与控制系统的框图如图 1 所示。它由两个主要部分组成：学习算法以及带有决策切换逻辑的控制器。学习控制器成功收敛后，可以从循环中关闭学习算法。实际上，学习算法也可以保留用于持续学习。

注 1：在本文中，由于案例研究的性质，没有探索持续学习。因此，训练过程后从循环中移除学习算法。

A. 控制器

该控制器包含两个控制器：安全控制器和学习控制器。第一个控制器旨在保证任何情况下系统的整体安全。因此，为确保其鲁棒性和功能性，将其设计为基于规则或基于模型的函数。安全控制器优先考虑安全性，因此可能会轻易牺牲效率和舒适性。

学习控制器是基于数据的模型，例如人工神经网络。它需要预先收集的数据或随机数据采样方法，例如强化学习。图 1 中特别强调了后者，其中包含的奖励函数在每个时间步 t 后修改学习控制器的形状。安全控制器还通过系统的附加状态参与学习控制器的训练。

该控制器采用闭环控制方案。它接收误差 eₛ，该误差计算为参考状态 s^ref 与时间 t 的实际状态 s 之间的差值。s 由一个或多个变量组成，这些变量通过适当的传感器直接测量或从可用信号中估计。控制器将控制信号或动作 a 直接发送到被控对象。

安全控制器和学习控制器同时并行运行，它们分别输出安全动作 a^safe 和学习动作 a^learn。然而，每次迭代中只有一个信号馈送到被控对象。关于所选动作 a 的决策在切换逻辑子块中做出，该子块是所述控制器的重要组成部分。

切换逻辑需要两个控制器的动作和被控对象的状态作为输入。根据状态 s，切换逻辑决定将两个控制动作中的哪一个发送到被控对象。根据下一节中描述的策略，奖励函数还包括安全控制器激活的惩罚，因此切换逻辑每次在学习控制器的动作与安全动作不冲突时优先选择学习动作 a^learn。因此，简而言之，切换逻辑允许学习控制器学习如何选择不会导致安全控制器激活的动作策略。

最终，尽管切换逻辑在训练过程中使用，但在控制器应用期间仍然有效。当学习控制器传输的学习动作 a^learn 与当前状态 s 下所需的安全性不一致时，这一点非常重要。例如，当控制器从被控对象观察到完全陌生的状态时，可能会发生这种情况。因此，学习控制器无法确保动作 a 的安全性。在这种情况下，切换逻辑将简单地选择安全动作 a^safe。如果学习算法仍在循环中，则可以根据新观察到的状态相应地调整学习控制器。这反过来又允许学习控制器在系统中充当 “黑箱”，因为当训练好的策略不满足安全期望时，切换逻辑只需使用安全控制器。

B. 学习算法

学习算法的任务是重塑学习控制器，使其按照期望的规格执行。例如，在强化学习中，这些规格被定义为奖励和惩罚函数或其他类似约束的组合。因此，学习算法输入状态和来自切换逻辑块的附加反馈 s*。输出信号是累积奖励 R，它在学习控制器训练中起主要作用。

奖励评估状态并告知学习控制器其动作的结果。在强化学习框架中，学习控制器试图通过采样不同的动作来最大化其奖励。理想情况下，奖励函数同时包含安全性、舒适性、效率和其他性能要求。

四、案例研究

在本文中，研究了所提出的决策与控制框架在自动驾驶汽车安全关键操作中的应用。案例研究场景如图 2 所示。自车（从南方驶来）是一辆自动驾驶汽车。它要在混合交通环境中在交叉路口执行无保护左转操作，不期望有车对车通信。它与从交叉路口北侧驶来的非自动驾驶汽车（非自车）相互作用。

图2：案例研究场景：无保护左转

根据路段交通规则，非自车直行，具有通行优先权。因此，自动驾驶汽车必须让行非自车。然而，停在路中间等待非自车离开并非最佳选择。在交叉路口入口前等待，仅在其他冲突方向没有车辆驶近时才进入路口，这也不是最有效的方式。

因此，控制自车自动驾驶汽车运动的最佳方式是施加适当的速度，以通过交叉路口，既不过慢导致停车，也不过快与非自车的路径发生冲突。此外，非自车和自车到达交叉路口的时间不同（即各种状态 s）。从自动驾驶汽车的角度来看，非自车可能出现得更早或更晚：决策成为多任务。这意味着在某些状态下，自车应让行非自车，在其他状态下，当与非自车之间有足够的时间且安全时，自车可以直接从非自车前方通过。

简而言之，对智能体性能设定了多项要求：

· 不惜一切代价保持安全，即避免碰撞（安全性）；

· 尽可能快地通过交叉路口，并在可能的情况下避免停车（效率）；

· 保持期望的加速度，即横向和纵向加速度（舒适性）；

· 遵循期望的轨迹（安全性、效率）。

同时满足所有列出的要求使得仅通过一系列明确定义的规则来解决该问题变得非常复杂和具有挑战性。同时，这些要求可以很容易地在强化学习中表示为单独的成本或奖励函数。学习算法使人工神经网络按照必要的要求收敛。

案例研究控制框图如图 3 所示，该框图由作为学习算法的强化学习以及作为控制器的比例 - 积分 - 微分（PID）和人工神经网络组合组成。切换逻辑是紧急制动高级驾驶辅助系统（ADAS）。它是根据一组严格定义的规则设计的。

图3：决策和控制系统框图：基于规则的紧急制动ADAS和基于RL的训练ANN

A. 控制器

1. 安全控制器：PIDb：安全控制器采用传统的 PID 控制器。其任务是控制制动踏板位移。制动控制器 PIDb 将自车自动驾驶汽车的实际纵向减速度 aₗₒₙᵉ与期望的最大减速度 aₗₒₙᵐₐₓ进行比较，例如由用户或车辆制造商选择。动作信号归一化在 [0 1] 之间。

PID 控制规则计算如下：

其中 u 是输出，e 和 de/dt 是输入误差及其时间导数，kₚ、kᵢ和 k_d 分别是比例、积分和微分系数。仿真频率 dt 为 50Hz。

除制动控制器外，自车还配备节气门 PIDth 和车道保持能力（LKA）PIDlka 控制器。第一个控制器用于将自动驾驶汽车加速到路段的参考速度限制 v^lim。第二个 PIDlka 通过操纵方向盘来保证跟踪规定的轨迹。在本文中，使用 A * 搜索算法生成自动驾驶汽车到达最终目的地所要遵循的一组航点。表1列出了所选的 PID 增益、误差变量和控制信号范围。

表1：PID 控制器

2.学习控制器：人工神经网络：学习控制器是人工神经网络，在训练阶段通过学习算法进行塑造。理想情况下，基于人工智能的模型根据非自车接近交叉路口的时间步长，学习多任务动作 a^learn，即超车或让行。因此，人工神经网络必须足够大以保证其多任务响应。

经过多次实验，前馈人工神经网络的规模确定为三个隐藏层，每个层有 128 个神经元。输入的激活函数是整流线性单元。人工神经网络的输入层直接从被控对象（即自车自动驾驶汽车）接收状态 s，其连续输出层的控制信号是归一化在 [0 1] 范围内的节气门踏板位移。输出层的激活函数是双曲正切函数。

1. 切换逻辑：紧急制动高级驾驶辅助系统：控制器的核心元素是切换逻辑（图 1）。对于本案例研究，切换逻辑的目标是选择安全动作 a^safe，确保与非自车避免碰撞。只有当算法识别出在当前状态下，与其他非自车的碰撞不可避免时，才应用安全动作。

在无保护左转过程中，存在一个潜在的冲突点，自车和非自车可能在此处发生碰撞。该航点（(x^c, y^c)）在图 2 中用红色突出显示。每当两辆车在交叉路口相遇时，从高清地图中提取该冲突位置。两辆车通过交叉路口时，它们的全局规划轨迹中总有至少一个相同的航点。

在本案例研究中，由于车辆的路线在交叉路口交叉，冲突航点属于自动驾驶汽车和非自车要遵循的航点列表。这是一个大致位置，如果两辆车都遵守交通规则并保持在各自的车道上，自车的路径与非自车的路径会在此处冲突。冲突航点是从交叉路口的静态信息（即形状、类型、规则等）中提取的。车辆不得在该位置相遇，因此，必要时，自车必须在冲突航点前停车让行非自车，或者在非自车到达之前通过。在本案例研究中，切换逻辑采用算法 1 所示的紧急制动高级驾驶辅助系统的形式。

当自动驾驶汽车进入交叉路口时，计算自车和非自车的到达时间（TTR）变量，该变量取决于它们的位置和行驶速度。到达时间被广泛用于操作安全性评估 [39]，应用于自适应巡航控制和碰撞避免等车辆安全系统。该指标允许估计两个移动物体在路线交叉时发生碰撞的时间。计算到达时间的简化方法如下：

其中 d_c 是从车辆当前位置到冲突航点的距离，v 是车辆速度。

距离 d_c 通过相邻航点之间的欧氏距离之和计算。因此，它也适用于在左转过程中行驶曲线轨迹的自车。

一般来说，到达时间指标指出车辆以给定速度到达路线上特定位置的时间段。当两辆车由于轨迹交叉而有可能发生碰撞时，到达时间可用于评估每辆车到达冲突位置所需的时间。因此，两个值之间的差异（即自车和非自车的到达时间之间的差异）可用于评估给定速度下可能发生的碰撞。引入阈值来评估自动驾驶汽车是否有足够的时间从非自车前方超车。

紧急制动高级驾驶辅助系统确保当无法超车时，自动驾驶汽车在冲突航点前的航点停车，方法是应用安全动作。为此，它计算最小安全距离 d_safe，从该距离开始，自动驾驶汽车必须始终切换到安全控制器并应用 a^safe，以确保以最大期望速率制动，并且不会超过冲突航点前的航点。使用以下公式：

其中 aₗₒₙᵐₐₓ是最大纵向加速度，vᵢ和 vբ分别是自动驾驶汽车的初始速度和最终速度。在算法 1 中，初始速度是自车速度 v^e。

然后，将最小安全距离提取为自车路线上相邻航点之间的欧氏距离之和，这能够考虑自动驾驶汽车的曲线轨迹。因此，自车知道在其路径上的确切位置应用制动，以便在交叉路口的冲突航点前停车。例如，假设安全距离为 10 米，自动驾驶汽车轨迹航点之间的距离为 2 米。因此，忽略车辆的横向动力学，自车将在距离期望停车位置 5 个航点处（例如，冲突航点前 1 个航点）应用紧急制动。

接下来，将自车当前位置与交叉路口冲突航点位置之间的距离 d_c^e（作为自动驾驶汽车前方相邻航点之间的欧氏距离之和）与计算出的安全距离 d_safe 进行比较。最后，当算法 1 判断 d_safe 小于 d_c（在冲突车辆都在交叉路口的情况下，不制动就不可避免地发生碰撞）时，它向自动驾驶汽车应用紧急制动动作 a^safe，否则应用学习控制器动作 a^learn。当两辆车都在交叉路口时，算法 1 在每个时间步 t 运行。最终控制动作 a 被发送到被控对象。

B. 学习算法

学习算法基于强化学习，并采用近端策略优化（PPO）算法。近端策略优化是最流行的强化学习算法之一，因为它被证明对超参数的初始化具有鲁棒性。它是一种策略梯度方法，使用替代损失函数更新策略，以避免性能显著下降。

每个强化学习算法的主要步骤之一是奖励函数的设计。虽然对于某些问题可以应用默认超参数，但用户仍然必须调整或从头设计奖励函数。此外，如果要解决的问题非常复杂，即必须考虑多项要求，那么单独的奖励函数在策略的成功收敛中起着重要作用。

如本节前面所述，交叉路口通行是一个非常复杂的问题，因为它有多项要完成的要求。即，最大化自动驾驶汽车的速度关乎效率，因为降低速度可能被视为由于轮胎与路面之间的摩擦力而产生的能量损失。不激活安全控制器和保持轨迹线（精确遵循航点）共同表明安全性。最后，将横向和纵向加速度保持在期望限值以下是为了保障车辆乘员的舒适性和防止晕动病。

1. 状态：状态 s 由可用车载传感器组测量的多个变量组成。它包括自车和非自车的速度 v 以及 x、y 位置：s=(x^e, y^e, v^e, x^n, y^n, v^n)。该状态也是人工神经网络的输入层。

注 2：自车自动驾驶汽车的感知和定位不是本工作的一部分，也不是状态的一部分。尽管如此，自动驾驶汽车必须首先识别其他动态交通参与者，然后才能估计它们的相对位置和速度。

2.奖励：紧急制动高级驾驶辅助系统的激活在奖励函数中起主要作用。因此，切换逻辑块输出附加状态 s*，该状态不是从被控对象传输的主要状态 s 的一部分。高级驾驶辅助系统奖励 R_ADAS 对安全控制器的激活给予惩罚：

其余与速度 Rᵥ、车道保持能力 R_lka、纵向 R_aₗₒₙ和横向 R_aₗₐₜ加速度相关的奖励如图 4 所示。最终累积奖励 r 表示为所有五个奖励的总和：

自动驾驶汽车速度奖励（图4a）需要路段的速度限制。在本案例研究中，该值限制为 25 公里 / 小时。当自动驾驶汽车达到该速度时，给予最大奖励。此外，为了激励自动驾驶汽车尽可能快地行驶，但不超过速度限制，奖励随着速度的降低而减少。此外，奖励还对非常低的速度（在本设计中低于 5 公里 / 小时）给予惩罚。最后，奖励允许超速，但仅比道路速度限制高 5 公里 / 小时。自动驾驶汽车的速度超过 35 公里 / 小时（速度限制加上允许的超速）会受到惩罚。

另一个负责安全性的奖励是车道保持能力（图 4b）。它允许自动驾驶汽车的中心偏离其轨迹中线左右 1.5 米。虽然不属于学习控制器的 PIDlka 负责车道保持能力操作，但控制器动作 a^learn 直接影响横向控制的稳定性。因此，车道保持能力奖励在一定程度上有助于确保人工神经网络找到不会对汽车横向控制产生负面影响的动作（即保持稳定性）。

图4：奖励函数：（a）速度（效率）；（b）车道保持能力（安全性）；（c）纵向加速度；（d）横向加速度（舒适性）

最后，提出了负责操作舒适性的纵向（图 4c）和横向（图 4d）加速度奖励。它们限于乘用车舒适性的一般指南，即纵向加速度和横向加速度分别为 5m/s² 和 3m/s²。

五、训练结果

A. 仿真环境

对于决策与控制系统的案例研究，使用了在 Linux 操作系统上运行的开源 CARLA 模拟器（0.9.5）。该模拟器允许在不同天气和道路条件下测试各种复杂场景。该模拟器适用于自动驾驶算法的数值验证。它具有客户端 - 服务器架构，客户端采用 Python 编程语言实现。通过施加转向、加速和制动命令来调节车辆的运动。

基于强化学习的人工神经网络使用 Stable Baselines 开源库进行训练，该库由法国巴黎高等技术学院（ENSTA-ParisTech）的 INRIA Flowers 团队机器人实验室 U2IS 创建。该库允许在自定义环境中直接使用最先进的强化学习算法，采用自定义或默认策略。在本案例研究中，由于近端策略优化算法在解决各种复杂控制和决策问题方面的简单性和有效性，因此应用了该强化学习算法。

每个强化学习算法的超参数选择对训练效果非常重要。表2列出了近端策略优化算法的选定值以及人工神经网络超参数。

表2：近端策略优化超参数

B. 训练结果

累积奖励和各个奖励的训练结果如图 5 所示。非归一化累积奖励（图 5a）是学习模型验证的主要标准。理想情况下，在成功学习期间，它应尽可能大。然而，有时人工神经网络会探索导致安全控制器激活的新动作，累积值会显著下降。

由于高级驾驶辅助系统奖励（图 5b）是对激活紧急制动系统的惩罚，因此算法倾向于不激活它。在前 220000 毫秒内，强化学习探索自动驾驶汽车的速度最大化（图 5d）。然而，在这些情况下，横向加速度奖励显著下降（图 5f）。因此，算法找到满足这两项要求的最优解决方案。最后，在训练结束时，学习到的行为最大限度地减少了车道保持能力所犯的错误（图 5c），降低了横向（图 5f）和纵向（图 5e）加速度的影响，并确定了自动驾驶汽车的最大可能速度（图 5d）。

图5：奖励：（a）累积（非标准化）；（b）ADAS；（c）车道保持能力；（d）速度；（e）纵向加速度；（f）横向加速度

六、评估结果

在案例研究中，自动驾驶汽车学习多任务策略。根据输入状态，它选择策略动作，要么从非自车前方超车，要么让行非自车。非自车以模拟器中嵌入的自动驾驶模式行驶。然而，在该模式下，让行其他车辆的功能被关闭。为了证明多任务人工神经网络的鲁棒性，下面呈现不同状态的结果。

注 3：本文不提交横向控制（即车道保持能力和来自 PIDlka^e 的方向盘控制信号），因为它不是所研究的决策与控制系统的一部分。

A. 策略 1 - 超车

自车自动驾驶汽车从非自车前方超车的实验结果如图 6 所示。非自车较晚到达交叉路口，这使自动驾驶汽车有机会不等候，安全地从非自车前方通过交叉路口。

图 6a 中绘制了控制信号（即动作 a^learn - 节气门和 a^safe - 制动）。可以清楚地看到，整个操作过程中，来自 PID 的安全动作 a^safe（制动信号）未被激活，这表明人工神经网络学习到了避免紧急制动高级驾驶辅助系统开启的策略动作。此外，学习控制器的输出是平滑连续的节气门踏板控制动作。

图6：北车前方切割实验结果：（a）控制信号；（b）速度；（c）加速度（水平虚线强调了纵向和横向加速度的训练约束）。垂直虚线突出显示了AV位于十字路口的时段

图 6b 显示了车辆的速度。非自车的速度没有显著变化。这表明它不需要在自车前方停车让行。尽管奖励函数（图 4a）要求如此，但自动驾驶汽车的速度远低于路段的速度限制（即 6.9 米 / 秒或 25 公里 / 小时）。这是因为在优化过程中，自动驾驶汽车寻求累积奖励的最大化。由于并不总是能够达到最大可能的累积奖励，自车会牺牲速度以满足其他训练约束设定的要求，即安全控制器的激活或横向和纵向加速度。

此外，尽管节气门踏板为正，制动踏板为零（图 6a），但自动驾驶汽车的速度在交叉路口的短时间内略有下降。这是由于模拟器中嵌入的车辆动力学模型，即所需的驱动扭矩（即节气门踏板）不足以克服摩擦力，因此自动驾驶汽车的速度下降。尽管如此，训练后的智能体在不了解精确被控对象模型的情况下考虑了车辆动力学。

图 6c 绘制了自车的纵向和横向加速度。根据设定的要求（即纵向 5m/s² 和横向 3m/s²），人工神经网络试图将自动驾驶汽车保持在这些限值内。虽然自动驾驶汽车的纵向加速度性能在可接受范围内，但横向加速度仍然略微接近其要求边界。

B. 策略 2 - 让行

为了进一步证明该方法的鲁棒性，报告了两个让行非自车的案例。揭示状态差异对人工神经网络响应的影响至关重要。即，非自车在不同时间到达交叉路口，但在这两种情况下，自动驾驶汽车都没有足够的时间安全地从非自车前方超车。因此，它必须调整速度，并且最好不要像训练阶段奖励函数所要求的那样在交叉路口中间完全停车。

为了体现鲁棒性，图 7 和图 8 展示了两个案例。同样，可以注意到，在两次运行中，来自安全控制器的制动信号都未被请求（图 7a 和图 8a）。此外，来自学习到的人工神经网络的节气门控制信号是平滑连续的。

图7：屈服于北车状态1的实验结果：（a）控制信号；（b）速度；（c）加速度（水平虚线强调了纵向和横向加速度的训练约束）。垂直虚线突出显示了AV位于十字路口的时段

图8：屈服于北车状态2的实验结果：（a）控制信号；（b）速度；（c）加速度（水平虚线强调了纵向和横向加速度的训练约束）。垂直虚线突出显示了AV位于十字路口的时段

图 7b 和图 8b 显示了速度图。在这两个案例中可以发现差异。虽然在这两种情况下非自车都保持其速度，但在第一个案例研究中（图 7b），自车能够通过交叉路口而不完全停车。然而，在第二个演示中（图 8b），自动驾驶汽车将速度降至完全停止几毫秒，允许非自车通过，然后立即加速至期望速度。这表明非自车比第一个案例更晚到达交叉路口：这要求自动驾驶汽车在交叉路口行驶得更慢，直到在极短的时间内完全停止。

最后，纵向和横向加速度率证明了所研究示例中自动驾驶汽车乘客的平稳舒适操作（图 7c 和图 8c）。这两个变量都在要求的限值内，可防止激进操作，并保持车道跟随稳定性。

简而言之，超车和让行操作都展示了人工神经网络学习多任务策略的能力。此外，仿真结果表明，所提出的系统能够满足用户设定的多项要求，例如安全性、效率和舒适性。因此，所提供的方法在解决复杂的多任务决策与控制挑战方面特别有用。

注 4：如建议，更长时间的训练可能会产生更精确的策略，更好地满足多项要求，例如超车场景中的横向加速度。然而，本文的目的只是所提出的决策与控制框架的概念验证，其中对学习算法中超参数调整的详细研究不在当前研究范围内。

C. 切换逻辑影响演示

为了证明切换逻辑参与学习控制器训练的积极影响，额外训练了一个人工神经网络模型。从公式 5 中移除了来自切换逻辑的紧急制动高级驾驶辅助系统奖励 R_ADAS。为了进行比较分析，结果如图 9 所示。为了进行适当的分析，讨论了让行案例，因为在从非自车前方超车场景中，高级驾驶辅助系统的激活无法保证。

学习控制器确实为被控对象控制找到了连续策略。这意味着收敛的模型满足所有要求，但主要的安全性要求除外。然而，在让行非自车时，它仍然会导致制动踏板激活（图 9a）。本案例研究模拟了学习控制器失效时，基于规则的安全控制器介入以避免交通事故的情况。制动踏板致动请求表明切换逻辑传递了来自安全控制器的信号，并且在此期间学习控制器被停用。因此，由于强大的基于规则的功能，可以保证安全性。尽管如此，车辆还是完全停止（图 9b），但对运动效率损失产生负面影响，更不用说制动系统的激活会增加制动颗粒排放。此外，由于制动器的激活，自动驾驶汽车的舒适性显著降低（图 9c）。

图9：去除雷达后训练ANN的实验结果：（a）控制信号；（b）速度；（c）加速度（水平虚线强调了纵向和横向加速度的训练约束）。垂直虚线突出显示了AV位于十字路口的时段

然而，与第一个模型的让行结果（图 8）相比，在第一个模型中自车也完全停止，但制动踏板的激活仍然对整体性能产生负面影响。它不能每次都确保满足设定的要求。此外，它总是会影响行程的效率，因为在制动过程中，大量能量浪费在热量上。

D. 局限性

必须提及所开发的决策与控制系统的几个重要局限性。首先，为方法实验验证选择的案例研究相对简单，但是可以重新设计用于更复杂的试验，例如多个非自动驾驶汽车从交叉路口的每个单独入口到达的情况。其次，为了成功实施所提出的解决方案，开发人员依赖于精确的安全控制器和切换逻辑设计。最后，尽管学习控制器受到安全控制器的保护，但它仍然充当 “黑箱”，这使其在实际应用中可能无法满足某些功能安全要求。

七、结论

在本文中，提出了一种决策与控制框架。它结合了机器学习算法和基于规则的控制方法：学习控制器和安全控制器。安全控制器负责不惜一切代价确保安全，从而牺牲被控对象性能的舒适性和效率。学习控制器旨在同时满足多项要求：

舒适性、效率和安全性。它基于机器学习，因为对于现代控制系统而言，设计能够实现可扩展性的基于规则的控制器是一项负担。

所提出的方法包括切换逻辑。参考状态，其作用是识别有安全威胁的情况，并在安全控制器和学习控制器之间进行切换。每当学习控制器的安全运行不确定时，安全控制器具有优先级。在训练阶段，学习控制器寻找动作输出，该输出能够不激活安全控制器，同时满足其他相关约束（例如舒适性和效率）。仿真结果表明，所提出的方法成功满足了自动驾驶汽车行为的既定要求：它同时最大化了效率、舒适性和安全性。最后，该方法不仅在应用过程中，而且在人工神经网络训练期间，都能满足安全约束（即避免碰撞）。

本文由豆包软件翻译，如有不当之处请参照原文
下载请扫二维码：