摘要

深度学习(DL)技术是大多数未来先进的基于关键自主人工智能系统(CAIS)中高级软件功能的核心,同时也是其主要竞争因素。因此,CAIS 行业(如汽车、航天、铁路)的经济成功取决于它们在有限的精力 / 成本下设计、实现、验证和认证基于 DL 的软件产品的能力。然而,CAIS 的功能安全(FUSA)要求与 DL 解决方案的特性之间存在根本差距。这一差距源于 DL 库的开发过程,并影响到高级安全概念,例如:(1)可解释性和可追溯性;(2)对不同安全要求的适应性;(3)符合 FUSA 的实现;(4)实时约束。事实上,DL 算法的数据依赖性和随机性与当前的 FUSA 实践相冲突,而当前的 FUSA 实践基于确定性、可验证且基于通过 / 失败测试的软件。SAFEXPLAIN 项目应对这些挑战和目标,通过提供一种灵活的方法,允许在 CAIS 中认证(进而采用)基于 DL 的解决方案,该方法基于:(1)提供端到端可追溯性的 DL 解决方案,采用特定方法解释预测是否可信,以及达到(并证明)正确操作的策略,符合认证标准;(2)针对不同关键性和容错要求的 DL,设计替代的、日益复杂的设计安全模式;(3)符合安全要求的 DL 库实现;(4)计算平台配置,以恢复确定性,以及概率时序分析,以处理剩余的非确定性。


一、引言

CAIS 行业(如汽车、铁路和航天)对基于 DL 的技术表现出越来越浓厚的兴趣。这一趋势是由以下几个原因驱动的:

CAIS 的数字化:被电子元件增强或完全取代的机械子系统的数量正在增加,先进的软件功能正变得无处不在,用于控制 CAIS 的各个方面,安全相关系统也不例外。CAIS 的数字化可以为社会带来巨大好处,例如:(1)更安全的道路、天空和机场,每年可防止 90% 的碰撞;(2)不同类型车辆的二氧化碳(CO₂)排放大幅减少高达 80%;(3)通过减少人们驾驶或等待火车和航班延误的时间,以及使原本因残疾或经济原因无法使用车辆的人能够使用车辆,从而改善生活质量。

人工智能技术的有效性:人工智能技术(尤其是 DL)是实现高级软件功能的核心,如用于目标检测和跟踪的计算机视觉、路径规划、驾驶员监控系统、手势激活的 AI 助手以及基于语音的命令和控制。因此,AI 解决方案是未来先进(完全)自主系统开发的基石。因此,AI 被认为是在最先进的自动驾驶汽车中提供功能关键特性(如感知(障碍物检测)、路径 / 轨迹规划和车辆跟踪)的关键。

自主操作是 CAIS 中 AI 安全相关应用的缩影,它体现了对日益提高的计算性能的需求,同时要求 AI 解决方案符合 FUSA 要求。

CAIS 的故障可能导致不可接受的后果,无论是经济上的,还是对环境和人类的影响,甚至造成人员伤亡。因此,CAIS 的开发遵循一系列关于其功能和非功能行为的过程和分析要求,旨在将危险事件的风险控制在可接受的水平以下。这些要求由通用(如 IEC 61508)和特定领域的认证标准定义,如汽车领域的 ISO 26262和铁路领域的 EN5012x。在安全过程中,软件的可解释性和需求的可追溯性是强制性的,无论是隐含的还是明确的。基于 DL 的高级软件功能也不例外,必须符合 CAIS 认证要求。补充标准,如 ISO/PAS 21448和 ANSI/UL 4600等,也正在开发中,以解决使用 AI 的自主系统的安全问题。然而,这些新标准仍处于起步阶段,例如,汽车领域的 ISO/PAS 21448(又名 SOTIF)侧重于系统工程期间应涵盖的内容,但未说明如何实现这些目标。

安全相关的开发过程建立在 FUSA 要求的明确规范和以下步骤之上:

1.满足安全要求的确定性算法,

2.这些算法的可验证实现,

3.测试活动,以验证安全要求不会因通过 / 失败测试而被违反。

然而,当前 DL 的实践与这些 FUSA 相关过程正面冲突,因为:

1.DL 软件是控制(模型配置,如使用哪些层、顺序如何等)和数据(算法参数通过特定数据集的训练获得)的组合,具有随机性和数据依赖性。

2.缺乏足够的可解释性和可追溯性:没有正确说明为什么使用每个 DL 层、其语义以及为什么按特定顺序部署层(即它们的组合语义),以便需求可以端到端追溯。也没有说明应用范围(如有效输入数据范围),以及对获得的预测可以达到的置信度(如通过检测遮挡)。

3.预测准确性是随机的,测试活动最多只能提供与特定测试数据集相关的成功率,因此在许多情况下会暴露于依赖数据集的测试结论。

4.执行 DL 解决方案的高性能硬件的可预测性很差,这对确定性时序分析技术的使用提出了挑战。在实现方面,DL 库的设计也不符合任何 FUSA 标准,并使用了安全标准通常不鼓励的功能(如指针和动态内存),这对认证构成了挑战。

本文介绍了 SAFEXPLAIN,这是一个新启动的地平线欧洲项目(2022 年 10 月 - 2025 年 9 月),处于其初始阶段。SAFEXPLAIN 利用了向完全自主系统的过渡将是渐进的这一事实,越来越多的安全相关功能由 AI 软件控制,直到达到完全自主(如汽车的 5 级)。这为认证创造了一个不断发展和复杂的环境,因为安全需求将随着自主化的每个增量而变化。这导致 AI 软件的不同 AI(实际上是 DL)使用级别(即安全要求)。

SAFEXPLAIN 通过以下方式应对上述挑战,目标是采用一种新颖灵活的方法,允许在 CAIS 中认证(进而采用)基于 DL 的解决方案:

仔细分析当前 FUSA 开发过程与现有硬件和软件 DL 解决方案之间的差距。

为不同的 DL 使用级别(即具有不同的安全要求)设计安全模式,以允许在任何 CAIS 功能中使用 DL,适用于不同的关键性和容错级别。安全模式将允许开发一种渐进式安全方法,以适应 AI(DL)软件每个使用级别的需求,直到达到自主操作。

架构 DL 解决方案,使其能够解释为什么满足 FUSA 要求,具有端到端的可追溯性,具有解释预测是否可信的解决方案,以及根据认证标准达到(并证明)正确操作的策略。

提出 MPSoC 配置,以尽可能恢复可预测性,以及概率时序分析,以处理剩余的非确定性时序行为。这与有利于认证和时序分析的 DL 实现相辅相成。

本文的其余部分组织如下。第二节展示了 SAFEXPLAIN 研究与 DATE 主题的相关性。第三节分析了在 CAIS 中使用 DL 软件的挑战。第四和第五节分别介绍了 SAFEXPLAIN 的方法和方法论。第六节总结了本文。

图片


二、与 DATE 会议的相关性

SAFEXPLAIN 与多个 DATE 2023 主题和特别会议保持一致。主要共同点源于 AI 软件在信息物理系统(CPS)中获得的吸引力,这涉及到硬件和软件的安全相关挑战。表1列出了 SAFEXPLAIN 可以贡献或从中受益的一些 DATE 2023 主题。

表1:SAFEXPLAIN 的主要目标与 DATE 2023 主题的关系


如表所示,SAFEXPLAIN 与新兴主题特别日相关,特别是与寻求解决 “可靠自主系统的设计和验证” 挑战的自主系统设计相关。它在 E2 中与通过智能计算平台配置和新颖的概率时序分析技术实现的软件时序相关方面有关。SAFEXPLAIN 还可以受益于硬件资源(如 NoC)中的任何硬件技术(D8 和 D9)来恢复时间确定性。SAFEXPLAIN 处理在关键自主 CPS 中安全使用 DL 的问题,因此自然适合与 DL 和 CPS 相关的主题 E3、E4 和 E5。最后但并非最不重要的是,FUSA 开发过程在验证阶段具有强大的测试组件,并且在架构设计期间通过部署安全措施来管理不同类型的故障,因此与 T3 主题匹配。


三、挑战

CAIS 的 FUSA 要求与用于实现 CAIS 功能的 DL 解决方案的特性之间存在根本差距。DL 软件缺乏可解释性和可追溯性,以及数据依赖性和随机性,与 CAIS 所需的确定性、可验证和基于通过 / 失败测试的软件解决方案相冲突。本节提供了本文的第一个贡献,包括对 FUSA-DL 差距的影响分析。

A. 支持可解释性和可追溯性的 DL 算法的规范和实现

DL 算法提供具有一定准确性和置信度的结果,这与 FUSA 相关系统中使用的其他类型控制软件不同,后者提供确定性和按构造正确的结果(见图 1 中的 1)。因此,一般来说,基于 DL 算法的系统的软件架构设计和验证方法不再适用,因为即使 DL 软件按预期运行,结果也可能不确定或只是错误的。此外,非 DL 软件以算法形式开发,其中可追溯性是可行的,并且软件在不同抽象级别(如指令、基本块、函数)的不同部分产生可解释的结果。相反,DL 软件附带通过训练从数据生成的参数,因此缺乏可解释性。最后,由于 DL 软件是数据依赖训练过程的结果,它在很大程度上表现为一个黑盒,最终对可追溯性构成挑战。

图1:DL解决方案对传统FUSA开发过程带来的挑战示意图


确定基于 DL 的软件认证面临的挑战是一个非常新的研究主题。沿着这条线,已经做出了一些努力,以系统和一致的方式就这些挑战的定义达成共识,评估工业和实际实施的软件的遵守情况,并根据特定领域的安全标准,特别是 ISO 26262,提供解决一些已识别问题的指导方针。然而,这些努力没有将安全需求的可解释性和端到端可追溯性作为 DL 算法实现和规范的一部分。值得注意的是,这些差距正在阻碍基于 DL 的解决方案在 CAIS 中的安全采用。Pullum 等人的工作提供了关于神经网络验证和确认(V&V)的一些初步考虑和指导。此外,Tabani 等人试图评估自动驾驶(AD)系统对 ISO 26262 要求的遵守情况。然而,尽管有这些初步尝试,DL 和 FUSA 之间的差距仍远未填补。

图片

B. DL 算法的置信度、安全性和鲁棒性

基于 DL 的系统的鲁棒性意味着该系统需要应对嘈杂和不确定的输入数据,同时即使在遇到意外输入数据时也能够表达其对输出的置信度(见图 1 中的和)。

鲁棒性和安全性还要求基于 DL 的软件对输入的对抗性篡改具有鲁棒性,从随机扰动到通用对抗性补丁,以完全改变图像理解。该领域的当前工作侧重于检测对各种形式的卷积神经网络(CNN)的图像输入的有针对性或非针对性攻击,并与添加到输入的随机噪声进行比较。集成技术和不确定性度量是有希望的起点,但它们也缺乏一些精度和可解释性,此外还存在固有的安全问题。可理解性和自我监控在中得到了详细阐述,其中自解释模型分阶段开发,逐步将线性分类器推广到复杂但架构明确的模型。

C. DL 软件的安全认证

截至今天,最先进的 AI 解决方案似乎与安全和认证不可调和,因为基于 DL 的软件开发涉及相对于传统系统开发和安全认证的重大范式转变。最近的一些工作分析了 AI 的安全影响,确定了一些需要在方法、安全需求规范、验证、确认和测试以及整个安全生命周期方面解决的限制和阻碍因素。在汽车领域,早期的一项工作分析了 ISO 26262 与 DL 的明显不兼容性,并提出了一套关于如何可能改善这种兼容性差距的初步建议。最近发布的 ISO/PAS 21448,这是一项公开可用的规范(PAS),而不是完整的标准,承认 DL 与当前标准(在参考领域)的不兼容性,并提供了一般但不足的指导。其他相关标准也在最近发布(ANSI/UL 4600,ISO/TR 4804)或目前正在开发中(ISO/IEC TR 5469,ISO/AWI PAS 8800,ISO/AWI TS 5083,ISO/IEC AWI TS 6254)。

D. 解决在 CAIS 中安全部署 DL 软件的性能和平台级问题

基于 DL 的 CAIS 解决方案的计算要求只能通过复杂、高性能的异构平台来满足。使用先进的高性能商用现货(COTS)平台已知会妨碍系统的可分析性,并由于访问硬件共享资源(如内存和缓存)的竞争而导致显著的性能问题,最近已经提出了一些有限的解决方案。然而,据我们所知,没有 COTS 硬件可以排除所有干扰源。在不同领域已经提出了一些解决方案来处理软件级的时序干扰,但没有一个被证明是万能的解决方案,即使对于单个领域也是如此。作为 SAFEXPLAIN 的预期成果,额外的可解释 DL 结构可能需要更多的计算资源,尤其是对于时间关键型应用。


四、SAFEXPLAIN 方法

在下面,我们将说明 SAFEXPLAIN 将遵循的方法来应对前一节中确定的宏观挑战。

A. 支持可解释性和可追溯性的 DL 算法的规范和实现

SAFEXPLAIN 将为 DL 软件设计一种数据驱动的软件规范方法,以开发传统软件规范技术不足的高级软件。特别是,这种规范将考虑训练数据如何确定算法的行为,处理这些数据需要哪些步骤(特别是选择哪种 DNN 架构),以及这些步骤如何允许证明 DL 组件执行其功能。最终,这种规范将支持安全需求的端到端跟踪。

B. DL 算法的置信度、安全性和鲁棒性

SAFEXPLAIN 将致力于定义新一代技术,用于重新设计和调整现有 DL 组件和架构,以提高可解释性、可追溯性、鲁棒性和可理解性。SAFEXPLAIN 还将研究工具、模型、模型集成和自我监控,用于 CAIS 的工程。为了使基于 AI 的软件实现 FUSA 兼容性(包括与 AI 相关的安全标准),有必要确定系统的 AI 功能应如何管理,更具体地说,这些功能如何在工程和保证工具中处理,在模型中表示,并纳入监控器和自我监控机制,以最终使这些技术的认证成为可能。

C. DL 软件的安全认证

SAFEXPLAIN 将朝着调和 FUSA 和 DL 要求迈出重要一步,这仍然是一个开放的挑战。它将通过遵循以 FUSA 为中心的方法来应对集成基于 DL 的解决方案以实现高级功能和限制性安全认证影响的冲突需求。虽然该主题的主流文献被动地尝试将当前人工智能研究范式映射到标准,SAFEXPLAIN 将主动选择特定安全标准作为基础,为其技术奠定基础,并考虑端到端的软件开发流程(从设计到验证,见图 1)。SAFEXPLAIN 将通过基于安全模式的渐进式 FUSA 策略,为日益复杂的 DL 使用级别铺平未来 DL 解决方案可认证的道路。该方法的可行性将通过其在工业工具集原型中的集成进行评估和演示,从而提供证据表明 SAFEXPLAIN 解决方案未来可达到技术就绪水平(TRL)5 以上。

D. 解决在 CAIS 中安全部署 DL 软件的性能和平台级问题

SAFEXPLAIN 专注于定制 DL 软件并将其便捷地部署在 COTS 硬件上,同时保留 DL 软件的功能和非功能特性,并实现所需的性能。解决方案将侧重于调整和优化 DL 软件以深度利用硬件性能,利用 COTS 硬件的可观测性和可控性旋钮来提高可预测性,以及使用适当的统计和概率分析为软件时序预测附加保证。


五、方法论

SAFEXPLAIN 的方法论建立在四大支柱之上。其中两个主要研究支柱中,可解释性和可追溯性对于基于 DL 系统的认证起着核心作用:

· 支柱 1:DL 感知的功能安全认证。

· 支柱 2:FUSA 感知的深度学习解决方案。

以及两个将支柱 1 和 2 与实际工具、系统和应用连接的支持支柱:

· 支柱 3:平台和工具集级支持。

· 支柱 4:工业案例研究。

A. 整体方法论

CAIS 的开发流程始于安全分析,我们接下来将概述这一点,因为它塑造了 SAFEXPLAIN 的方法论。

安全分析识别和评估系统危害,并定义缓解策略。FUSA 标准定义了一个安全生命周期,其中每个产品项从功能安全的角度进行评估和管理:从分析、规范、开发到操作和退役。在软件开发阶段,标准在典型的 V 模型中完善安全生命周期(见图 1 中蓝色中央 “V”)。在这些模型中,V 左侧的设计阶段与右侧的测试阶段相匹配,底部为实现阶段。

软件功能的关键级别(即安全完整性等级(SIL)或汽车 SIL(ASIL))越高,标准对 V 模型每个步骤活动的要求就越严格。这将故障风险降低到所需的(可忽略的)水平,即 SIL 4 安全功能在 10⁻⁹次 / 小时的运行中出现危险故障的概率。

对软件的 FUSA 要求直接源自功能和技术安全要求。对于高完整性功能,可追溯性至关重要,其中所有设计、实现决策和测试都应至少映射到一个需求3。因此,必须为软件产品(及其部分)提供格式良好的规范,作为评估架构和详细设计正确性的基准。该规范应提供执行的静态和动态方面的详细描述,并对计算资源使用(时序、内存、通信)提出可靠的界限。根据 IEC 61508,在安全需求规范期间,评估软件的系统安全完整性需要以下理想特性:完整性和正确性、无内在规范缺陷(包括无歧义)、安全需求的可理解性和可追溯性,以及为验证和确认(V&V)及相关测试提供基础的能力。

在实现阶段,要求软件符合其安全需求,简单、可读、可解释、可预测且可测试,建议通过遵循一套限制性的编码规则和实践来实现(例如不使用动态软件功能,如指针,避免递归,强制强类型)。然后集成不同的软件部分,确保它们按预期协同工作。

验证(系统符合需求)和确认(系统按预期用途正确工作)活动在安全生命周期中扮演重要角色。因此,架构和实现软件使其具有可解释性、可追溯性、鲁棒性、安全性和可靠性至关重要。

尽管 DL 方法为处理 CAIS 中软件日益复杂的功能提供了一条有前途的路径,但在 DL 能有效应用于安全关键型 CAIS 之前,仍有几个挑战尚未解决。SAFEXPLAIN 的总体方法包括结合跨学科专业知识来应对这些问题,包括 AI、CAIS 认证、高性能混合关键型硬件平台及相应的工具集,研究和审查最先进的案例研究。在此框架下,SAFEXPLAIN 建立在四大支柱之上:功能安全认证、深度学习方法、平台和工具集级支持以及案例研究。这些支柱的主要组成部分如图 2 所示。

图2:SAFEXPLAIN方法论,包括其4个支柱


B. 跨支柱的整体方法论

FUSA 将构成 SAFEXPLAIN 方法论的支柱:该项目将采用渐进式方法论将 DL 软件引入安全关键系统,其中 DL 在被分析系统中以不同的角色和重要性引入。因此,SAFEXPLAIN 将从探索更保守的解决方案开始,即 DL 软件不被视为安全组件,并可基于当前版本的安全标准集成到关键系统中,直至实现用于高关键性安全功能的基于 DL 的软件,预计此时需要更新当前标准。

针对这些场景,SAFEXPLAIN 将基于对安全标准的持续分析、工业合作伙伴和 AI 专家的输入以及与认证专家的对话,生成安全模式。每种模式将形成 SAFEXPLAIN 中应采用的技术、限制、要求和规则的集合。

对于每种确定的安全模式,SAFEXPLAIN 将执行图 2 所示的主要循环,包括以下阶段:

FUSA 技术阶段:特定的安全模式从 FUSA 角度生成一组高级需求和建议。这些需求被制定为 DL 应用程序和库开发周期中不同阶段的一组特定需求:规范和设计、实现以及 V&V。关于后者,SAFEXPLAIN 将设计新的测试方法,以支持执行的功能和非功能方面的 V&V 活动。

DL 算法和实现:从 FUSA 角度产生的一组需求在开发的所有方面(仍支持特定安全模式)的新的或修改的解决方案的定义中被考虑。此阶段将对 DL 软件提出新要求,以支持可解释性、可追溯性、鲁棒性、安全性和容错性。较简单的模式(例如不涉及安全功能的模式)将需要对当前实践进行较少的修改:不同 SIL 下施加的约束有所不同。例如,在当前标准中,某些功能(如指针的使用)不建议用于高完整性级别功能(如 ASIL C/D)。遵循相同的理念,根据安全模式(进而对 DL 的安全要求),可能需要对 DL 软件进行不同的更改以达到合规性。因此,在这部分工作中,我们将根据安全模式中的规范调整 DL 软件,并评估这些更改对性能的影响。

平台和工具集级支持。我们的方法包括功能和非功能方面:

非功能方面(平台可预测性):FUSA 需求与混合关键性需求相结合,将要求实施不同的平台配置以提高可预测性和可分析性。必须提供解决方案以支持为特定安全模式设计的分析技术。作为常见的初步步骤,必须在选定的平台上对干扰通道进行分析和分类。在平台级别,必须控制其他应用程序(可能具有不同的关键程度)对被分析应用程序的影响。对于 DL 软件承担某些安全要求的模式,采用关于剩余软件故障的统计观点,可能需要更低的故障率。

功能方面(用于验证的工业工具集):基于 DL 的解决方案将集成到工业工具集中,这将允许自动化测试和分析结果数据,例如目标检测中的假阳性和假阴性。由于这些系统在安全相关行业中的新颖性,工业工具集仍处于原型阶段。因此,基于 DL 的解决方案将在针对每个案例研究的逐案直接集成和测试活动中进行评估,并在工具集的范围内进行评估,工具集反过来将与案例研究一起使用,以找到促进测试自动化和结果数据分析的最佳集成方法。

案例研究:SAFEXPLAIN 方法论迭代的结果将在汽车、铁路和航天领域的工业案例研究中进行评估,为其有效性和工业可行性提供有价值的反馈。案例研究的基于 DL 的功能侧重于不同场景下基于摄像头的目标检测,并具有不同的时间和精度要求,因为道路 / 街道导航、火车自动停车和信号检测以及外太空导航尽管名义上相似,但确实构成了高度多样化的问题。例如,火车的目标检测必须高度专业化,以识别铁路中的信号和意外物体。相反,外太空的目标检测必须对接非常精确,并能处理非常黑暗的环境。最后,汽车的目标检测必须考虑最广泛的场景,因此在所有场景中权衡精度。案例研究将根据需要进行调整,以匹配所考虑的 FUSA 场景,并捕捉所确定的安全模式的特殊性。这允许评估每种模式下的 SAFEXPLAIN 收益。

FUSA 指南。在执行所有安全模式的迭代后,将 FUSA 和 DL 需求相结合的结果将综合成一组 FUSA 指南,技术解决方案(或其子集)将接受进一步的外部评估。特别是:

安全指南。整个项目中获得的与 FUSA 相关的 SAFEXPLAIN 成果将整合为安全指南。为此,SAFEXPLAIN 将遵循技术和概念评估的审查流程,首先由项目合作伙伴 EXIDA 的内部认证专家进行,他们将参与认证方法的完善,最后由外部认证专家针对选定的工业安全标准(如 IEC 61508、ISO 26262、ECSS 和 EN5012x)在汽车、航天和铁路领域进行审查。

技术评估和审查。SAFEXPLAIN 选定的技术贡献将由汽车(ISO 26262,SOTIF)、航天(ECSS)和铁路(EN 5012x)领域的认证专家(CE)进行审查。这些审查旨在评估所定义的生命周期活动中安全模式子集和 FUSA 技术选择的技术适用性。

概念评估。然后,将根据安全认证,通过基于代表性案例研究的安全概念,评估 SAFEXPLAIN 的 FUSA 感知解决方案及其在(混合)关键系统上的复杂异构平台上的集成选择。该概念将包括对安全威胁(如对抗性攻击)及其对 DL 算法和系统安全的影响的分析。因此,将与外部认证专家进行概念审查,并针对选定的工业安全标准(如 IEC 61508、ISO 26262、SOTIF)生成一组综合的安全指南。


六、结论

DL 软件的随机性和数据依赖性与 FUSA 开发流程不一致,因此挑战了 DL 解决方案在 CAIS 中的采用,这是自主操作所必需的。因此,需要新的范式和实用方法来克服这一差距。SAFEXPLAIN 将通过构建提供可解释性和可追溯性的 DL 解决方案来应对这一挑战,将其作为实现 FUSA 兼容开发流程的支柱。此外,SAFEXPLAIN 将克服当前不了解 DL 的 FUSA 标准所施加的限制,提供了解 DL 的 FUSA 指南,允许在各种具有不同要求的安全模式中使用 DL 解决方案,同时保留最佳 DL 解决方案的高精度和高置信度等特性,以及足够高的性能,使其能够在对性能要求高的应用中使用,例如在汽车、航天和铁路等领域中用于驾驶和导航的基于摄像头的目标检测。


本文由豆包软件翻译,如有不当之处请参照原文
下载请扫二维码:


图片

往期精彩