汽车CAN和以太网数据集的数据质量评估
- 2025-07-11 09:26:24

简介
本文对两个标准的公开可用汽车入侵检测系统数据集进行数据质量评估,即 SOME/IP 攻击数据集和生存分析数据集(SAD)。数据质量评估以全面的 ISO/IEC 5259 数据质量标准系列的数据质量模型为指导,并融入了与汽车网络相关的特定领域要求和数据使用场景。汽车网络数据质量要求与《人工智能法案》第 10 条中关于数据和数据治理的规定相一致,该规定强调用于人工智能模型训练的可信数据的重要性。本文呈现了对这两个数据集的主要发现和思考,以增进理解、确保合规,并支持它们在基于人工智能 / 机器学习的汽车入侵检测系统的开发和验证中的应用。
1、标准化数据质量评估
1.1 《人工智能法案》高层数据质量要求
欧盟的《人工智能法案》,特别是第 102 条,规定用于人工智能系统训练、测试和验证的数据必须符合高质量标准,以确保公平性、可靠性和可问责性。这包括确保数据集无错误、完整、相关且足以代表人工智能系统的预期用途:1)无错误:数据中的错误,如不正确的标签、重复记录或异常值,可能会扭曲人工智能模型的性能。应采用严格的验证和清洗流程来检测和纠正此类问题;2)完整性:数据集必须包含所有必要且有意义的数据点,以准确反映问题领域。缺失或不完整的数据可能导致有偏见的人工智能模型或错误的结论;3)相关性:数据应与人工智能系统的预期用途直接相关。不相关或多余的数据可能会引入噪声、低效率或不准确性,最终影响模型性能和公平性;4)代表性:为了减轻偏见并促进公平性,数据集必须代表所建模的人群或领域的多样性和特征。这包括确保在适用情况下,人口统计、地理和背景变量的代表性均衡。解决这些差距对于合规至关重要。
根据欧盟委员会联合研究中心(JRC)的技术文,ISO/IEC 5259 系列主要涉及与分析和机器学习相关的数据方面,其中第 3 部分专门涵盖与《人工智能法案》中数据治理要求相关的内容。在数据质量方面,该系列的第 2 部分提供了广泛的质量属性列表,其中大部分与《人工智能法案》的要求相关。然而,需要进一步的实施措施,以便根据《人工智能法案》概述的风险,适当选择和优先考虑这些属性。目前,该系列中的标准从广泛的角度将数据质量定义为 “满足组织要求的数据”。
1.2 数据质量标准 ISO/IEC 5259 系列
如前一节所述,ISO/IEC 5259 系列关于分析和机器学习的数据质量标准有效地支持了《人工智能法案》规定的数据质量要求。该系列提供了一个全面的框架,用于评估和管理人工智能系统内的数据质量。该系列的第 2 部分提供了详细的质量属性目录,这些属性与《人工智能法案》的要求密切一致。这些属性作为评估数据质量的基础,涉及相关性、完整性、代表性和无错误性。尽管 ISO/IEC 5259 系列将数据质量广泛定义为 “满足组织要求的数据”,但还需要额外的实施指南。这些指南应根据与人工智能系统预期用途相关的领域知识,确定质量属性的优先级并进行选择。为支持这一点,ISO/IEC 5259-2 引入了结构化的数据质量模型,便于数据质量要求的规范和评估。

图 1. ISO/IEC 5259-2 数据质量模型
ISO/IEC 5259-2 数据质量模型 5 由关键要素组成:数据质量主体,指受数据质量影响的实体;数据质量特征,包括准确性、完整性和精确性等属性;以及数据质量要求,定义了数据的特定属性以及为其预期用途量身定制的验收标准。这些要素旨在与应用场景相契合,特别是在分析和机器学习任务中,例如训练神经网络根据营销策略预测产品销量。如将在下一节进一步讨论和阐述的,该模型通过统一建模语言(UML)图来表示,强调了背景在定义和实现数据质量目标中的关键作用。它使组织能够选择适当的数据质量属性和措施来满足特定需求。此外,该框架内的数据质量要求可以用定量、定性或依赖于上下文的术语来表达,确保数据适用于特定应用。
2、汽车入侵检测系统(IDS)中的数据质量评估
2.1 汽车入侵检测系统数据集
汽车入侵检测系统(IDS)数据集对于开发和评估保护车载网络免受网络威胁的安全机制至关重要。这些数据集通常包括从汽车通信协议(如控制器局域网(CAN)和最近的汽车以太网,例如 SOME/IP(基于 IP 的可扩展面向服务中间件)等)收集的网络流量数据。一般来说,这些数据集包含正常和攻击场景,帮助研究人员分析入侵模式、检测异常并改进现代车辆的网络安全措施。在本数据质量文中,我们研究了两个标准的公开可用汽车入侵检测系统数据集,即作为汽车以太网数据源的 SOME/IP 攻击数据集和作为 CAN 数据源的生存分析数据集。
SOME/IP 入侵检测系统数据集包含与 SOME/IP 协议相关的网络流量数据,该协议广泛用于汽车以太网通信。该数据集包括标记的样本数据,捕获正常和异常流量,有助于训练和评估入侵检测模型。

图 2. 不同的 SOME/IP 客户端和服务器通过汽车以太网总线交换 SOME/IP 服务,其中客户端电子控制单元(ECU)正被中间人(MITM)攻击者攻击
与汽车以太网网络中使用的 SOME/IP 协议漏洞相关的攻击场景包括多种威胁。一种特定的攻击是 “无响应请求”,即发送请求后未收到任何响应,这可能表明消息被拦截或丢失。另一种威胁是 “无请求响应”,即在没有相应请求的情况下发送响应,这表明存在未经请求的或恶意的响应。“错误叠加错误” 场景是指在响应其他错误消息时发送错误消息,这违反了协议标准。同样,“事件叠加错误” 是指在响应事件通知时发送错误消息,在正常的协议操作下,这种操作不应触发错误。
生存分析数据集提供了支持生存分析的网络入侵数据,生存分析是一种用于估计网络攻击发生时间的统计技术。该数据集包括时间戳和基于事件的信息,帮助研究人员分析网络环境中攻击的持续性和时间规律。

图 3. CAN 中的泛洪攻击、模糊攻击和故障攻击
生存分析数据集(SAD)由从三辆不同车辆(现代索纳塔、起亚秀尔和雪佛兰斯帕可)收集的 CAN 总线数据组成。该数据集包括各种攻击场景,如泛洪攻击、模糊攻击和故障攻击,这些攻击会严重干扰车载功能。泛洪攻击旨在通过持续占用 CAN 总线资源、保持主导地位并阻止合法的 ECU 消息传输来使 CAN 总线过载。这种攻击可以通过垄断通信通道有效地禁用关键车辆功能。模糊攻击包括向网络中迭代注入随机的 CAN 数据包。通过引入不可预测的和畸形的消息,这种攻击可能导致系统行为异常、车辆出现意外响应,或者使无法处理异常数据的 ECU 崩溃。故障攻击专门针对从车辆中提取的选定 CAN ID。这种攻击在操纵数据字段的同时,注入随机选择的 CAN ID。通过将字节的数据字段修改为 00 或其他任意数值,该攻击迫使车辆进入异常行为,导致意外操作、性能下降甚至关键系统故障。这些攻击类型不仅可能损害车辆系统的正常运行,还可能加剧攻击的严重性并扩大由此产生的影响。
2.2 汽车入侵检测系统数据质量需求
汽车入侵检测系统数据质量对于确保车辆中入侵检测系统的准确性和可靠性至关重要。高质量的数据必须具备诸如攻击覆盖的完整性、关键特征的完整性、格式的一致性、符合目的的语义和句法准确性以及与有效检测和缓解网络安全威胁相关的相关性等特征。数据治理实践,包括适当的标记和验证,对于最大限度地减少可能导致误报或漏报的噪声和不一致性至关重要。此外,质量属性的选择和优先级排序应与汽车环境带来的特定需求和挑战相匹配,例如实时处理要求和车载网络的动态特性。确保强大的数据质量是提高汽车入侵检测系统解决方案性能和可信度的基础。
2.3 汽车入侵检测系统数据集的数据质量模型
如前所述,ISO/IEC 5259-2 讨论了数据质量模型,该模型作为理解和管理数据质量属性的基础。这种标准化的数据质量模型将数据质量背景与特定要求、特征和实体联系起来。在本文中,我们将汽车入侵检测系统(IDS)数据集的要求、选定和优先考虑的特征、数据质量主体和数据使用背景映射到这一标准化数据质量模型上,以进行数据质量评估。
图 4 说明了 ISO/IEC 5259 系列数据质量模型在评估和改进汽车领域车载入侵检测系统(IDS)数据质量中的应用。该模型有助于评估和整合:1)数据质量要求:定义数据的属性或特征以及为数据使用背景量身定制的特定验收标准。这些要求可以是定量的、定性的或描述性的,包括 IP(互联网协议)格式、MAC(媒体访问控制)格式、端口有效范围、协议有效范围、消息 ID 长度、有效载荷长度范围。这些要求以特定领域标准为指导,确保入侵检测系统数据符合可靠性和功能性的必要基准;2)数据质量特征:入侵检测系统数据的关键数据质量属性类别,如准确性(A)、完整性(CS)、一致性(C)、多样性(D)、可信度(CD)、时效性(CN)。这些属性确保入侵检测系统数据对于其预期应用是稳健和可靠的;3)数据质量主体:代表受数据质量影响的实体。例如,专注于分析和理解数据以提高入侵检测系统有效性的入侵检测系统数据研究人员、关注将入侵检测系统数据整合到车辆安全和安保中的汽车行业,以及最终受入侵检测系统输出质量(如警报或建议)影响的终端用户;4)数据使用背景:定义数据使用的范围,如识别车载攻击或检测汽车系统中的异常。这有助于为数据质量要求建立明确的期望和目标。

图4:车载IDS数据的数据质量模型
我们通过确保入侵检测系统数据质量评估有效所需的不同专业知识进一步完善数据质量模型。图 4 强调了有效实施数据质量模型所需的三种关键专业知识:1)领域专业知识(DOEX):关于入侵检测系统数据、车载攻击和异常的知识;2)数据专业知识(DAEX):关于数据质量属性和实现目标数据质量的方法的理解;3)标准专业知识(SAEX):熟悉 ISO/IEC 5259 和其他特定领域标准,以确保合规性。
该模型弥合了数据质量管理理论与汽车领域实际应用之间的差距。通过使入侵检测系统数据与特定质量要求保持一致,并利用领域、数据和标准专业知识,这种方法确保入侵检测系统能够有效识别车载攻击和汽车系统中的异常,从而增强车辆网络安全和用户信任。
对于汽车入侵检测系统的数据质量评估,我们重点评估和优先考虑固有的数据质量特征 —— 准确性、完整性、一致性、多样性、可信度和时效性。选择这些特征的理由基于对特定用例要求的分析,分析表明所有固有的数据质量特征对于数据质量评估都是同等重要的。此外,对多样性(包括数据记录的分布)的评估也是必要的,因为它们在提高汽车入侵检测系统的性能方面起着至关重要的作用。特别是,多样性确保数据集涵盖广泛的可能场景,减少偏差并提高系统对各种攻击模式的稳健性。我们不评估依赖于系统的数据质量特征,因为假设这些要求在数据收集和处理阶段已经得到解决。因此,对它们的评估不在本评估范围内。
3、性能评估
3.1 准确性
准确性定义为观测值与真实值或参考值之间的一致程度,是汽车入侵检测系统(IDS)的关键数据质量特征。根据 ISO/IEC 5259 系列,准确性的评估可分为不同维度:
1)句法准确性是指数据值与特定领域内预定义集合的接近程度,确保格式和结构的一致性;
2)语义准确性则评估数据值在给定上下文中反映其预期含义的程度;
3)数据准确性保证涉及测量数据集中准确数据的覆盖范围,确保全面验证;
4)数据集不准确性风险由存在的异常值数量决定,这可能表明潜在的数据可靠性问题;
5)数据准确性范围评估数据值是否落在所需区间内,确保在可接受范围内的一致性。
此外,确保准确性涉及解决与领域和数据相关的问题。其中一个关键方面是汽车数据集的真实性,强调数据需要在真实环境中记录,并在适用情况下使用多种来源。这增强了数据集在现实世界场景中的适用性,以提高入侵检测系统模型的有效性。另一个重要因素是转换和匿名化,其中对数据的修改(如匿名化技术)可能会影响其现实适用性,并给实现入侵检测系统的准确性带来挑战。

表 1. SOME/IP 准确性评估

表 2. SAD 准确性评估
对 SOME/IP 和 SAD 数据集的评估涵盖了多个准确性指标,包括句法准确性、语义准确性、数据准确性保证、数据集不准确性风险和数据准确性范围,如表 1 和表 2 所示。结果表明,SAD 数据集在所有准确性指标上都达到 100% 的准确性。数据长度代码(DLC)的数据准确性范围得分为 100%,没有发现超出 DLC 预期区间(即 0 到 8 字节)的值。在 SOME/IP 数据集的情况下,句法准确性、语义准确性、数据准确性保证也为 100%,数据集不准确性风险为 0%,因为未发现显著异常值,且如数据准确性范围所示,所有值都在所需区间内。例如,错误率的数据准确性范围设置为 0 到 1,因为它是请求未得到响应的概率。所有值都在 0 到 1 范围内。这些发现确保了这两个数据集总体上都符合基本的数据质量标准。
SOME/IP 数据集是通过使用专门的工具生成的,该工具基于 AUTOSAR 规范模拟正常和攻击场景,确保了其对现实世界汽车环境的真实性和适用性。该数据集是根据定义其结构和特征的特定配置参数生成的。这些参数包括所涉及设备的数量和类型,由 8 个服务器、8 个客户端和 1 个攻击者组成。此外,数据集还指定了 3 个提供和请求的服务。对于客户端、服务以及该服务中的方法的每种组合,生成 50 个数据包,确保网络流量的结构化分布。实施 “错误叠加错误”“事件叠加错误”“缺失请求” 和 “缺失响应” 等攻击场景,以评估入侵检测系统(IDS)在真实条件下的性能。此外,攻击者的响应时间配置为最小值 1 毫秒和最大值 3 毫秒,以模拟真实系统中常见的变化。生成的数据集存储在名为 output.pcap 的输出文件中,以便进一步分析。为了应对入侵检测系统中可变长度序列预测的挑战,数据集经过转换过程以确保序列长度的一致性。每个序列最多包含 60 个数据包,如果序列包含的数据包较少,则用零填充。这种转换通过保持固定的输入长度,促进了一致的分析和模型训练。由于该数据集是由模拟器生成的,因此预计不会使用匿名化技术。
SAD 数据集通过使用真实车辆生成数据包,展示了高度的真实性,提供了紧密反映现实世界汽车环境的真实数据。这种方法增强了该数据集在评估入侵检测系统(IDS)方面的适用性,能够代表真实的驾驶和操作条件。使用实际车辆数据有助于捕捉汽车网络中固有的复杂性和可变性,使该数据集适用于实际的入侵检测系统开发和测试。关于转换和匿名化,数据集文档中未提及具体技术。这意味着该数据集保留了其原始结构和内容,没有对敏感信息进行修改或掩盖。没有转换确保数据反映其原始状态,这有助于准确评估入侵检测系统在检测真实网络异常和攻击场景方面的性能。
3.2 完整性
完整性定义为数据集中特征或属性的存在或缺失情况,是汽车入侵检测系统(IDS)的关键数据质量特征。它包括数据遗漏(缺失或不完整的数据)和数据冗余(额外或不相关的数据),确保数据集充分支持预期的分析。根据 ISO/IEC 5259,完整性的评估可分为不同维度:
1)值完整性是指具有非空值的数据项的比例,确保最大限度地减少缺失数据;
2)值出现完整性评估给定数据值的出现次数是否与预期分布一致,确保某些事件或特征不会被低估;
3)特征完整性衡量所有预期特征是否包含有意义的数据,确保关键属性不会从数据集中遗漏;
4)记录完整性评估是否存在空记录,确保所有数据集条目都包含有效信息;
5)标签完整性是指每个数据实例是否存在正确且完全分配的标签,确保没有条目保持未标记或分类模糊的状态。
确保完整性需要解决特定领域和数据相关的问题。一个关键因素是数据集大小,它决定了数据集是否包含足够数量的样本和相关特征,以支持全面的入侵检测系统评估。另一个重要方面是攻击完整性,确保包含足够数量的攻击实例,涵盖各种场景,以便有效地进行模型训练和验证。此外,开放系统互连(OSI)层表示在入侵检测系统数据集完整性中起着重要作用,因为它确保从与入侵检测相关的适当网络层捕获数据。

表 3. SOME/IP 完整性评估

表 4. SAD 完整性评估
SOME/IP 数据集通过模拟针对 SOME/IP 协议关键漏洞的攻击场景来确保完整性,这对于评估汽车以太网通信中的入侵检测至关重要。其 OSI 层表示侧重于 OSI 模型的 5 到 7 层,这些是受基于网络的 SOME/IP 攻击影响的主要层。通过覆盖这些层,数据集确保了入侵尝试的有效和结构化表示,使其与汽车入侵检测系统研究相关。该数据集包含 5974 个训练数据点和 6091 个测试数据点,每个数据点有 35 个特征,且没有空值。“无响应请求” 攻击发生在消息被拦截、阻塞或丢失时,会干扰通信或暴露数据,可能导致拒绝服务和信息泄露。“无请求响应” 攻击涉及发送恶意响应,用虚假数据误导系统,这属于欺骗和篡改攻击。“错误叠加错误” 攻击通过响应其他错误注入错误消息,违反协议标准,并可能导致网络不稳定,属于篡改和拒绝服务(DoS)攻击。同样,“事件叠加错误” 攻击也被归类为篡改和拒绝服务攻击,它在响应合法事件通知时发送虚假错误消息,用不必要的干扰淹没系统。虽然该数据集有效地表示了网络层协议攻击,但它没有明确涵盖权限提升攻击,因为这些攻击通常利用认证机制而非消息级漏洞。该数据集非常适合评估汽车以太网系统中基于网络的威胁的入侵检测系统模型。
SAD 数据集通过包含来自多辆汽车(现代索纳塔、起亚秀尔和雪佛兰斯帕可)的数据展示了很强的完整性,确保了车辆来源的覆盖范围。该数据集捕获了车载功能和低层 CAN 总线消息,增强了其 OSI 层表示(即 1 到 2 层),使其非常适合全面的入侵检测系统分析。该数据集包含 1735840 个数据点,每个数据点有 14 个特征,且没有空值。特别是,该数据集主要涵盖拒绝服务攻击、欺骗攻击和篡改攻击,使其与评估 CAN 网络中基于注入的威胁的入侵检测系统模型高度相关。泛洪攻击被归类为拒绝服务攻击,它通过注入大量带有 CAN ID 0x000(11 位标识符的十六进制表示)的消息来干扰正常的 ECU 通信,淹没 CAN 总线并阻塞合法消息。模糊攻击包括欺骗、篡改和拒绝服务,通过高频注入随机生成的 CAN 数据包,同时改变 CAN ID 和数据字段。这可能诱使车辆响应虚假消息(欺骗)、修改系统行为(篡改)或用无效数据淹没总线,导致拒绝服务。故障攻击属于欺骗和篡改类别,它涉及向来自真实车辆的选定 CAN 消息中注入操纵的数据。故障攻击针对从特定车辆可提取的 CAN ID 中的选定 ID,导致车辆意外响应。此外,该数据集还包括无攻击状态,代表正常驾驶条件,作为比较的基准。该数据集缺乏明确的与隐私相关的或权限升级场景。
总体而言,这两个数据集在数据集大小、攻击覆盖范围和 OSI 层表示方面都表现出较高的完整性,确保了它们在汽车领域入侵检测研究中的适用性。如 3.4 节中进一步探讨的分布和多样性所示,这两个数据集的值出现完整性都较低,显示出分布不平衡。
3.3 一致性
一致性是指数据遵循逻辑规则和关系的程度,确保数据集结构合理、无错误且可可靠用于分析。对一致性的评估涉及格式正确性、文件格式一致性、数据记录一致性、数据值分布、数据格式一致性和语义一致性。格式正确性确保数据存储无错误且不包含重复记录,保持数据集的完整性。文件格式一致性保证每种数据类型都遵循标准化结构,使数据集能够在不同系统中轻松解释。数据集以适当的格式呈现,如 PCAP(数据包捕获)、CSV(逗号分隔值)、TXT(文本文件)或 JSON(JavaScript 对象表示法),以支持人类可读和机器可读的处理。
1)数据记录一致性通过识别和减少重复记录来评估,确保冗余或冲突的条目不会损害数据集的可靠性;
2)数据值分布检查特征值的统计分布,确保属性保持预期的变化,不会引入可能影响机器学习模型的偏差或不一致;
3)数据格式一致性侧重于确保不同数据文件中的属性保持一致,以进行格式验证;
4)语义一致性验证数据值是否符合预定义的语义规则,确保属性正确反映其预期含义。
这两个数据集都没有重复记录,且语义准确性都达到 100%。SOME/IP 的格式一致性为 94.12%,因为一些值(如 client_min 和 client_max)被识别为浮点值,而规则规定应为整数。对于生存分析数据集(SAD),数据格式一致性为 100%,文件格式正确性得到保持,因为数据集以 txt 格式存储,没有明显问题,确保其可机器读取。文件格式一致性得到保证,因为所有文件都遵循格式标准,使数据处理和集成变得简单,如表 6 所示。

表5:一些/IP一致性

表6:SAD一致性
SOME/IP 数据集通过数据模拟来维持格式正确性,确保符合 AUTOSAR 规范。这保证了数据集遵循汽车以太网网络的预期结构。如 5 所示,数据集以 CSV 格式提供,保持了文件格式一致性,确保与汽车以太网入侵检测系统(IDS)中使用的标准工具兼容。通过最大限度地减少重复记录,保持了数据记录一致性。
图示SOME/IP 数据特征分布。


图5: SOME/IP数据特征分布

图6:SAD数据特征分布
图 5 和图 6 显示了 SOME/IP 和 SAD 数据集的特征分布。数据值的分布确保属性表现出预期的变化,没有可能影响模型训练的偏差。遵循 ISO/IEC 2502410 标准的数据格式一致性确保了文件间数据表示的统一性。最后,通过验证数据值是否符合预定义的语义规则来保持语义一致性,确保它们在基于 AI 的汽车入侵检测系统应用环境中的正确性。
3.4 多样性
多样性是指数据集中样本之间的差异,确保数据充分代表不同的条件、类别和攻击场景。在汽车入侵检测系统中,保持多样性对于防止模型偏差和确保在各种现实世界安全威胁中的通用性至关重要。多样性通过多个关键方面进行评估,包括标签丰富度、相对标签丰度和类别大小多样性。标签丰富度衡量数据集中不同标签的数量,确保不同的攻击类型和正常流量条件都得到充分代表。相对标签丰度评估标签的分布,确保没有单一类别在数据集中占主导地位,否则可能导致模型性能偏差。类别大小多样性量化分类样本的平衡性,识别某些攻击或正常流量类别是否代表性不足。
表 7 和表 8 显示了 SOME/IP 和 SAD 的多样性结果。SOME/IP 有 5 个标签(4 种攻击和 1 种非攻击标签),SAD 有 4 个标签(3 种攻击和 1 种来自索纳塔、起亚和斯帕可车辆的非攻击标签)。如图 7 和图8 所示,对于 SOME/IP 和 SAD 数据集,两类(即 0 代表正常,1 代表攻击)之间的标签分布都非常不平衡。此外,每个文件中每个类别的类别大小多样性为 50%,低于 50% 的阈值。

表 7. SOME/IP 多样性

表 8. SAD 多样性

图7:某些/IP标签分布


图8:SAD标签分布
确保足够的类别表示至关重要,特别是在攻击与正常分类中,或者在更精细的评估中,如特定攻击类型(例如,欺骗攻击与拒绝服务攻击)。数据集必须包含足够不同的类别,以支持有效的入侵检测系统模型训练,同时防止模型过度拟合到更频繁出现的标签。
3.5 可信度
可信度定义为数据属性在特定使用环境中被认为可信和可靠的程度,在确保用于入侵检测系统(IDS)的数据集的可信赖性方面起着关键作用。根据 ISO/IEC 25024,可信度基于值可信度和来源可信度进行评估。值可信度评估数据集是否遵循预期的行为模式和领域专业知识。SOME/IP 数据集基于反映 AUTOSAR 标准行为的合成数据开发。同样,SAD 数据集来自通过车载 OBD-II 端口收集的真实车辆运行数据,确保准确反映汽车以太网系统中的网络通信。
SOME/IP 数据集来源于巴黎电信学院,这是一家公认的在汽车网络安全研究方面做出贡献的知名机构。对于可信度而言,数据集文档很重要,因为它提供了关于数据来源、攻击场景、收集方法和标准合规性的详细见解。来源可信度确保数据集来自合格且知名的组织。SAD 分析数据集由韩国大学网络安全学院的黑客与对策研究实验室(HCRL)开发,由 Huy Kang Kim 教授领导,该教授在 2024 年被评为斯坦福 / 爱思唯尔排名前 2% 的科学家,这增强了其在学术和工业应用中的可信度。SOME/IP 数据集提供了关于模拟程序、攻击类型和符合 AUTOSAR 规范的详细信息。SAD 数据集包含关于 CAN 总线数据来源和攻击方法的全面文档。此外,两个数据集都展示了明确的目标和可解析性,通过确保数据集结构与其预期的安全应用一致并适用于汽车入侵检测系统研究,提高了可信度。这些因素共同验证了数据集在评估和改进汽车网络入侵检测机制方面的稳健性、可靠性和实际相关性。
3.6 时效性
时效性是指数据样本记录时间与使用时间之间的时间差(ΔT),确保数据集与不断发展的技术标准和新兴网络安全威胁保持相关。这一特征对于评估数据集是否符合现代安全挑战和系统行为至关重要。时效性基于特征时效性和记录时效性进行评估,5 年和 15 年的阈值作为确定数据集是否适用于当代威胁环境的基准。
特征时效性评估各个数据特征是否在所需的新鲜度窗口内。记录时效性评估数据集中的所有数据记录是否保持在所需的时间窗口内。SAD 数据集创建于 2018 年,在 2025 年评估时,其特征和记录时效性仍在 15 年阈值内,但超过了 5 年阈值,这表明它可能无法完全捕捉当今最新的攻击行为或漏洞。汽车技术的最新进展在 CAN 总线系统中引入了新的漏洞。例如,2022 年的一起汽车盗窃事件展示了窃贼如何通过 headlights 线路访问 CAN 总线,无需钥匙即可启动发动机。相比之下,SOME/IP 数据集创建于 2023 年,仍在 5 年阈值内,确保其特征和记录符合当前的技术标准以及汽车以太网入侵检测系统(IDS)的最新发展。假设行业变化缓慢,这两个数据集都在 15 年阈值内。
总体而言,SOME/IP 数据集比 SAD 数据集表现出更高的时效性,因为它反映了更新的基于网络的入侵检测挑战。然而,SAD 数据集仍具有历史分析价值,提供了关于 CAN 总线攻击模式和入侵检测系统有效性的长期趋势见解。虽然 SOME/IP 数据集与现代网络安全应用更相关,但 SAD 数据集仍然是研究遗留系统和历史攻击行为的宝贵资源。
4、观察与结论
对 SAD 和 SOME/IP 数据集的评估突出了汽车入侵检测数据质量的关键优势和待改进领域。准确性和完整性评估表明,这两个数据集都满足异常检测的基本质量标准;然而,扩展 SOME/IP 和 SAD 数据集的攻击场景范围将提高其完整性。多样性分析表明,如果某些攻击类型的代表性不足,SOME/IP 和 SAD 数据集可以更加平衡,确保模型训练的类别分布公平。关于可信度,扩展数据集文档(特别是 SOME/IP 的文档)将提高信任度和可用性。最后,时效性仍然是一个关键因素;更新 SAD 数据集,补充更多最新的 CAN 总线数据并纳入现代攻击模式,将确保其在不断变化的网络安全环境中持续具有相关性。SAD 和 SOME/IP 数据集对于自动驾驶汽车研究和入侵检测具有很高的价值。然而,一些差距,特别是在攻击多样性和数据分布偏差方面,应该得到解决,以完全满足《人工智能法案》的要求。这些数据集与 ISO/IEC 数据质量标准的一致性,增强了它们在汽车网络安全应用中的可理解性、可靠性和整体可信度。
本文由豆包软件翻译,如有不当之处请参照原文
下载请扫二维码:





- 点赞 0
-
分享
微信扫一扫
-
加入群聊
扫码加入群聊