用马尔可夫模型进行自动驾驶安全分析

牛喀网
2025-07-23 09:35:59

简介

随着自动驾驶汽车即将引发一场革命，对可靠的独立驾驶功能和整体车辆的需求日益增长。此类系统的经典评估技术包括失效模式、影响及诊断分析（FMEDA）或经典马尔可夫模型，这些技术假定未来状态仅取决于当前状态，且IEC 61508 标准、ISO 26262 标准以及IS0 21448 标准也对其进行了推荐。像马尔可夫链的蒙特卡洛模拟这类无记忆方法则更为现实，然而，这些方法计算成本高昂。作为评估自动驾驶汽车安全性的在环组件，马尔可夫模型实质上成为了工具链的瓶颈。在此背景下，经过训练的神经网络是复制马尔可夫模型行为的绝佳工具，这使它们成为优秀的在环组件。为此，当前研究表明，深度学习模型能够学习并推广马尔可夫模型的行为。

1、引言

汽车行业正逐渐从手动驾驶汽车向自动驾驶汽车过渡。这种范式转变不仅是为了减少人为错误，也是为了实现能源的高效利用、减少排放、提高安全性以及获得其他经济效益。在该技术的研发方面投入巨大。然而，近期涉及无人驾驶汽车的事故影响了公众对这类车辆使用的看法。这促使我们必须及时且严格地评估自动驾驶汽车的安全性。

马尔可夫模型在推动自动驾驶（AD）技术发展方面发挥了重要作用。例如，隐马尔可夫模型（HMM）用于在碰撞前场景中准确估计驾驶员状态。其进一步的应用包括风险和不确定性评估、故障检测与诊断以及人机交互。

其中一种方法是将马尔可夫模型与蒙特卡洛方法相结合，通过随机模拟识别漏洞和故障场景。如第 3 节所述，该方法从系统的初始状态定义开始，执行马尔可夫模型以预测故障概率。对于这样一种方法，计算具有数千个状态的大型马尔可夫模型实质上可能成为工具链的瓶颈。这促使我们寻找马尔可夫过程的计算成本更低的替代方案。

为解决这一问题，引入了深度神经网络。神经网络（NN）代表了一种替代计算范式，在这种范式中，问题的解决方案是从一组示例中学习得到的。神经网络提供了一系列用于解决模式识别、控制和数据分析等问题的技术。其优势包括处理速度快，并且能够从非常复杂的模式集中学习，而这些模式在手动模式匹配中可能会被遗漏。对于神经网络而言，训练是计算成本最高的步骤。然而，一旦完成训练，网络就能快速处理新数据。当前研究的范围是建立一种深度学习方法，以替代现代自动驾驶车辆组件故障分析中的马尔可夫过程。

该方法是利用给定状态数量的现有马尔可夫模型为神经网络生成训练数据。训练完成后，神经网络会模拟马尔可夫链，并能够针对给定的转移矩阵（这是收敛的马尔可夫模型的输出）预测正确的状态概率分布。

本文进一步分为五个部分。第 2 节总结了马尔可夫模型在自动驾驶中的应用以及神经网络在类似问题中的应用。第 3 节简要说明了使用马尔可夫模型状态转移矩阵和状态概率训练神经网络的方法。第 4 节介绍了马尔可夫过程的设置，以及神经网络训练所需的输入和输出数据的具体信息以及神经网络设计细节。第 5 节讨论了神经网络预测的训练和收敛结果，并将其与马尔可夫模型的结果进行了比较。最后，第 6 节总结了本文并探讨了该研究的未来前景。

2、相关工作

随着行业的发展，汽车对电子组件的依赖程度不断提高。ISO 26262 是一项关于道路车辆电气和电子（E/E）组件功能安全的标准。马尔可夫模型在这一应用中得到了广泛研究。例如，在文献中，提出了一种用于电气和电子系统的通用马尔可夫模型。在文献中，作者使用半马尔可夫过程分析自动驾驶车辆的安全性。文献使用隐马尔可夫模型分析道路交叉口附近的驾驶员行为。类马尔可夫模型方法已被用于建模自动驾驶功能的安全性。

另一方面，机器学习在自动驾驶车辆领域也得到了广泛应用。在文献中，作者总结了自动驾驶车辆中使用的深度学习技术和不同方面。这包括感知器、卷积神经网络（CNN）、基于长短期记忆（LSTM）的模型以及基于强化学习的模型。卷积神经网络和长短期记忆网络已被用于解决复杂问题，如转向角和速度控制、用于车道保持的循环神经网络以及避障。

在提到上述方法的同时，在模拟马尔可夫模型行为方面所做的工作有限。在当前研究中，我们提出了一种基于多层感知器的神经网络来学习马尔可夫模型的行为，用于自动驾驶车辆的功能安全分析。基于这一动机，本文尝试使用神经网络模拟收敛的马尔可夫过程。

3、方法

连续时间马尔可夫链（CTMC）本质上是多个具有不同转移率参数的离散时间马尔可夫链的集合。图 1 展示了一个两状态非齐次连续时间马尔可夫链的简化模型。对于给定的状态空间配置，输入是随时间变化的状态转移矩阵Q(t)，输出是状态空间分布，即P(t)，实质上记录了每个时间步在每个状态中的概率。如果将时间轴解耦，模型输出表示给定转移矩阵的状态分布。

图 1：具有两种可能转移的两状态连续时间马尔可夫链模型

基于这一思路，本文提出了一种基于多层感知器的深度学习架构，该架构在使用蒙特卡洛马尔可夫链（MCMC）生成的稀疏数据上进行训练。如图 2 所示，该网络的输入是转移矩阵，输出是状态空间分布。

图 2：方法图，展示了两种方法的相似之处。橙色突出显示的是马尔可夫方法，绿色突出显示的是深度学习方法

为了生成训练数据，执行随机离散蒙特卡洛马尔可夫链模拟。每个模拟对应一个数据点。对于具有数千个状态的大型网络，数据生成是资源密集型的。在神经网络方法中，这是一个部署前步骤，可以独立于其他在环组件完成。一旦神经网络完成训练（这是另一个资源密集型阶段，但在部署前阶段完成），只需一个前馈步骤就可以估计状态分布。

4、设置

在当前研究中，我们提出了一个具有五个状态的状态空间模型，如图 3a 所示。图 3b 中的图表显示了针对随机生成的初始转移矩阵的状态分布随时间的演变。由于我们处理的是随时间变化的转移率，每个时间步的后续转移矩阵是使用威布尔风险函数（参见公式（1））得出的，其中形状参数α = 2为常数，尺度参数为λij，qij是 Q 矩阵的条目：

（a）五状态的状态空间模型。（b）状态随时间的演变。

图 3：具有五个状态的状态空间模型以及针对随机生成的转移矩阵的概率分布的样本时间演变。转移率使用威布尔分布更新

本文中使用的多层感知器具有 25 个特征节点，对应于转移矩阵的每个元素，以及五个输出节点，对应于给定转移矩阵的稳态概率。神经网络的整体配置如图 4 所示。它有四个隐藏层，均使用 sigmoid 激活函数。所有特征（即转移率）在输入到网络之前都进行了归一化。最后一层包含 softmax 激活函数，该函数将输出归一化为概率分布。

多层感知器的配置和结构在很大程度上决定了预测的准确性。本文重点关注在可接受的误差范围内复制马尔可夫链行为的方法。需要进一步研究超参数优化以实现精确的状态估计。

图 4：具有层配置的深度神经网络架构

5、结果与讨论

使用马尔可夫模型，共生成了 240800 个数据点，随后将其用于神经网络的训练、验证和测试。为了训练和验证后的测试，保留了 10% 的数据作为独立数据。其余数据用于训练和交叉验证，交叉验证拆分比例为 30%。

图 5：学习曲线，显示训练和交叉验证均方误差随 epoch 数量的演变和相应减少

神经网络以 1000 个数据点的批量大小训练了 65 个 epoch。为防止过拟合，我们使用了早停法，早停耐心值为 2 个 epoch。如图 5 所示，训练误差以及相应的交叉验证误差随着 epoch 数量的增加而减少，这表明网络能够发现并学习数据中的模式。

图 6：相对于图 3a 所示的马尔可夫模型每个状态的真实值的预测均方误差（MSE）估计。蓝色条显示均方误差的平均值，黑色限制线显示平均值周围的分布（标准差）

然后，使用经过训练的模型在测试数据集上进行预测估计。图 6 绘制了所引入的马尔可夫模型的所有五个状态的概率分布的均方误差（MSE）。结果表明，所有状态的平均均方误差均低于 1e-03。

图 7：预测状态概率与相应真实值之间的误差值（Δ）的直方图

图 7 绘制了误差值（Δ）的分布，即预测状态概率与相应真实值之间的差异。每个状态的所有误差点的分布几乎遵循均值接近零的高斯分布。这些分布表明了所提出的使用神经网络复制马尔可夫链行为的方法的准确性。尽管在本文中未使用此类分布，但潜在的应用是在后期处理阶段使用它们来提高预测准确性。

图 8：使用图 4 所示的深度学习模型复制连续时间马尔可夫链过程，对图 3a 所示的状态空间模型的状态概率估计的端到端应用

图 8a 展示的结果与真实值有非常轻微的偏差。另一方面，图 8b 表明结果也可能与真实值相差甚远，这表明需要对深度学习模型进行超参数优化。

6、结论与展望

在这项研究中，我们提出了一种使用深度学习（特别是多层感知器）复制连续时间马尔可夫链行为的方法。为了生成神经网络训练的数据，我们使用了一个具有五个状态的状态空间模型，其中转移矩阵（即互连）是随机生成的。

我们表明，深度学习方法能够有效地学习与马尔可夫链相对应的模式，并能够在可接受的误差范围内生成状态的概率分布。使用这种方法，我们能够替换那些使用传统方法进行马尔可夫链模拟可能成为瓶颈的在环组件。该方法的应用不仅限于自动驾驶车辆，还可以扩展到其他大量应用马尔可夫链的领域，例如电力和制造业的组件失效分析。

尽管该方法是成功的，但仍有更多工作要做。深度学习模型的超参数优化以及施加一些初始条件可以进一步提高预测准确性。另一种尝试是使用误差分布在后期处理步骤中进一步优化预测。

本文由豆包软件翻译，如有不当之处请参照原文
下载请扫二维码：