CN116756051B

CN116756051B - 一种基于要素分解的神经网络测试充分性评估方法

Info

Publication number: CN116756051B
Application number: CN202311041164.4A
Authority: CN
Inventors: 缪寅宵; 刘弋菲; 杨平; 张修建; 程中浩; 张龙; 弯天琪; 陈皓一; 孙静; 丁亦嘉
Original assignee: Beijing Aerospace Institute for Metrology and Measurement Technology
Current assignee: Beijing Aerospace Institute for Metrology and Measurement Technology
Priority date: 2023-08-18
Filing date: 2023-08-18
Publication date: 2023-11-07
Anticipated expiration: 2043-08-18
Also published as: US12306745B2; US20240095159A1; CN116756051A

Abstract

一种基于要素分解的深度神经网络测试充分性评估方法，主要步骤包括：测试要素分解，测试参数提取，重要性聚类，突变测试，指标计算，指标评价。该方法通过对黑盒测试与白盒测试方法的要素分解，融合两类方法，完善测试充分性评价机制，同时，结合模型可视化方法，使神经网络决策逻辑更加直观，加强评价的可解释性。该方法能够实现对深度神经网络测试充分性的有效评价，有利于牵引支撑人工智能技术的发展。

Description

一种基于要素分解的神经网络测试充分性评估方法

技术领域

本发明属于计算机软件测试技术领域，特别涉及一种面向深度神经网络的基于要素分解的测试充分性评估方法，主要应用于深度神经网络的测试过程。

背景技术

测试充分性概念最早在软件测试中提出，测试充分性准则是一组可用于判断是否进行了充分的测试的规则，也可用于指导测试数据的选择，明确地说明如何选择测试数据。使用不同的充分性准则进行测试，所付出的测试开销和得到的软件质量是不同的。传统软件测试已经形成了完整的、系统的测试方法，并且有众多的手工和自动化测试工具支持这些方法。当前对于神经网络的测试充分性准则大多由传统软件测试迁移而来，根据神经网络的模型结构和学习特性，产生了神经元覆盖、神经激活路径覆盖、惊讶充分性等方法进行度量。

高质量与高可靠性是神经网络应用期望获得的质量要求，而测试则是这两项要求的重要保障。随着智能技术的不断发展及其测评方法不断涌现，对于神经网络测试充分性进行准确评价已成为迫切的需求。虽然当前已经产生了一些神经网络测试充分性评估方法，但仍然存在许多亟需解决的问题：

首先，相较于传统软件测试，神经网络模型的神经元结构参数通过训练数据习得，而非由程序员手动设置确定，其参数状态随着学习的进行发生变换，其学习结果具有不可解释、难以预测的特点。经研究分析，现有的结构化测试充分性准则与神经网络决策逻辑相关性低，对测试充分性的表征可靠性存疑，因此需要加强测试充分性准则的可解释性。

然后，对神经网络测试充分性的概念较为模糊，在黑盒测试中基本等同于对抗样本检测能力，而白盒测试中的测试充分性准则与检错能力的相关性不高，两者定义存在不一致的情况。

发明内容

为了可靠地评价测试充分性，保障神经网络应用的质量，并且对智能技术的发展具有牵引的作用，本公开提出一种基于要素分解的神经网络测试充分性评价方法，用于解决当前测试充分性在深度神经网络测试的应用过程中概念划分不清晰、与神经网络决策逻辑相关性低的问题。

通过对黑盒测试与白盒测试方法的要素分解，融合两类方法，完善测试充分性评价机制，结合模型可视化方法，获得具有语义特征的测试充分性的评估结果，以加强评价的可解释性，实现对测试充分性的有效评价。

本公开提供的基于要素分解的深度神经网络测试充分性评估方法，主要包括以下步骤：测试要素分解，测试参数提取，重要性聚类，突变测试，指标计算，指标评价。

S1、测试要素分解，指按照神经网络测试过程对关键要素进行分解。

从测试是否针对软件系统内部结构和具体实现算法的角度来看，可分为白盒测试和黑盒测试。

黑盒测试也称功能测试或数据驱动测试，是从用户观点出发的测试。在测试时，把程序看作一个不能打开的黑盆子，在完全不考虑程序内部结构和内部特性的情况下，测试者在程序接口进行测试，它只检查程序功能是否按照需求规格说明书的规定正常使用，程序是否能适当地接收输入数锯而产生正确的输出信息，并且保持外部信息（如数据库或文件）的完整性。

黑盒测试包括四个部分：功能覆盖测试，性能测试，强度测试，应用安全性测试。

（1）功能覆盖测试根据软件需求规格说明中明确规定的软件系统功能，明确软件系统完成功能的准则，是软件测试充分性的保障，并具有指导作用。

（2）性能测试是要检查系统是否满足在需求说明书中规定的性能，需要事先对被测软件提出性能指标。

（3）强度测试是要检查在系统运行环境不正常乃至发生故障的情况下，系统可以运行到何种程度的测试。

（4）安全性测试检查系统对非法侵入的防范能力。

白盒测试也称结构测试或逻辑驱动测试，通过测试来检测产品内部动作是否按照规格说明书的规定正常进行，按照程序内部的结构测试程序，检验程序中的每条通路是否都能按预定要求正确工作，而不顾它的总体功能。在使用这一方案时，测试者必须检查程序的内部结构，从检查程序的逻辑着手，得出测试数据。

神经网络根据其结构及测试过程，可将测试要素分解为四个部分：测试用例、训练数据、模型结构以及程序实现。

（1）神经网络的训练数据测试充分性即测试数据覆盖训练数据的程度，其中被训练数据覆盖的那部分输入空间称作神经网络的主要功能空间。

（2）神经网络的测试用例测试充分性即测试数据覆盖应用需求真实数据的程度，其范围往往大于主要功能空间。

（3）神经网络的模型结构测试充分性即测试数据激活神经网络模型结构的程度。

（4）神经网络的程序测试充分性度量方式与传统软件类似，可通过包括语句覆盖、判定覆盖、条件覆盖、判定/条件覆盖和路径覆盖等方法进行度量。

S2、测试参数提取，即在测试过程中对深度神经网络每一层网络参数进行提取，网络参数中包括权重矩阵和偏置向量，测试参数包括神经元激活的最大值与最小值。

S3、重要性聚类分为两步。首先基于测试参数提取模块提取出的权重参数以及激活值，反向计算每一个测试用例下每一层网络神经元的重要性。然后，通过k-means的方法对每一层神经元重要性聚类，获得每一层的聚类结果。其中第一层神经元对应输入数据，聚类时应复合像素重要性信息及位置信息。基于聚类结果，画出每一层神经元的对应重要性统计热力图，即可进行模型可视化。

S4，所述突变测试，指按照聚类结果对原模型突变，包括输入数据突变以及模型权重突变。对突变后模型再次进行测试，再次使用测试参数提取模块，获得突变后模型测试过程参数与结果。使用重要性聚类中的重要性计算，可以画出突变后模型的重要性统计热力图。

S5，所述指标计算，指根据测试要素分解中的各要素测试充分性计算方法进行计算。

S6，所述指标评价，包括纠错能力评价与测试开销评价，对S5计算出的指标进行评价。

与现有技术相比，本公开的有益效果是：（1）根据神经网络测试的特点，构造融合了黑盒测试与白盒测试的神经网络测试充分性评价方法，完善测试充分性评价机制；（2）结合了神经网络模型可视化技术，使神经网络决策逻辑更加直观；（3）为当前神经网络测试充分性提供通用评价流程，有利于牵引支撑人工智能技术的发展。

附图说明

通过结合附图对本公开示例性实施例进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施例方式中，相同的参考标号通常代表相同部件。

图1为根据本公开的神经网络测试充分性评估方法流程图；

图2为实施例中的测试要素分解示意图；

图3为实施例中的被测神经网络重要性计算示意图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本公开提供了一种针对神经网络测试充分性的评价方法，该方法采用神经网络测试要素分解的手段，通过对神经网络的结构、训练、测试、应用的要素进行分析总结，在传统软件测试充分性评估中融合神经网络的特点，应用神经网络可视化可解释技术，实现神经网络的测试充分性多维度多层次的可解释评价。

根据本公开的示例性实施例流程图如附图1所示。

第一步，将神经网络测试要素进行分解。从测试是否针对软件系统内部结构和具体实现算法的角度来看，可分为白盒测试和黑盒测试。

黑盒测试是从用户观点出发的测试，检查程序功能是否按照需求规格说明书的规定正常使用，程序是否能适当地接收输入数锯而产生正确的输出信息，并且保持外部信息的完整性。黑盒测试包括四个部分：功能覆盖测试，性能测试，强度测试，应用安全性测试。

（1）功能覆盖测试根据软件需求规格说明中明确规定的软件系统功能,明确软件系统完成功能的准则,是软件测试充分性的保障,并具有指导作用。软件测试的功能要求通常为：①按照相关文档完成设计功能；②对控制流程的正确性、合理性等进行验证。若明确规定的软件系统功能均能达成，即认为此项测试充分。

（2）性能测试是要检查系统是否满足在需求说明书中规定的性能，需要事先对被测软件提出性能指标，如传输连接的最长时限、传输的错误率、计算的精度、记录的精度、响应的时限和恢复时限等。性能指标均能测得，即认为该项测试充分。

（3）强度测试是要检查在系统运行环境不正常乃至发生故障的情况下，系统可以运行到何种程度的测试。例如：①把输入数据速率提高一个数量级，确定输入功能将如何响应；②设计需要占用最大存储量或其它资源的测试用例进行测试。认为找到故障情况越多，该项测试越充分。

（4）安全性测试检查系统对非法侵入的防范能力。例如，①使一部分测试输入丢失；②在测试集中加入对抗样本；③增加与被测功能无关的数据；④更改数据标签等等。认为找到故障情况越多，该项测试越充分。

白盒测试也称结构测试或逻辑驱动测试，通过测试来检测产品内部动作是否按照规格说明书的规定正常进行，按照程序内部的结构测试程序，检验程序中的每条通路是否都有能按预定要求正确工作，而不顾它的总体功能。在使用这一方案时，测试者必须检查程序的内部结构，从检查程序的逻辑着手，得出测试数据。

（1）神经网络的训练数据测试充分性，即测试数据覆盖训练数据的程度，其中被训练数据覆盖的那部分输入空间称作神经网络的主要功能空间。惊讶充分性用于衡量新用例相对于训练集中用例的多样性程度，可作为该项的充分性指标。

（2）神经网络的测试用例测试充分性，即测试数据覆盖应用需求真实数据的程度，其范围往往大于主要功能空间。测试数据对应用所需真实数据的覆盖程度，可作为该项的充分性指标。

（3）神经网络的模型结构测试充分性，即测试数据激活神经网络模型结构的程度。例如常用的神经元覆盖、边界覆盖的指标。

（4）神经网络的程序测试充分性，度量方式与传统软件类似，可通过包括语句覆盖、判定覆盖、条件覆盖、判定/条件覆盖和路径覆盖等方法进行度量。

第二步为测试参数提取，即在测试过程中对深度神经网络每一层网络参数进行提取，网络参数中包括权重矩阵和偏置向量，测试参数包括神经元激活的最大值与最小值。

假如被测神经网络为全连接神经网络，可以对每一层的网络参数进行提取，其中/>表示在第/>个测试用例下第/>层网络的参数，网络参数中包括权重矩阵/>和偏置向量/>，其中/>和/>的维度由网络神经元的个数决定，如果第/>层网络神经元个数为/>，如果第/>层网络神经元个数为/>，则/>是/>维的矩阵，/>是/>维的矩阵。此时，是/>维的矩阵，如下式所示：

；

在测试过程中可以对测试过程参数进行提取，其中/>表示在第/>个测试用例下第/>层网络的测试过程参数，包括该层神经元激活的最大值/>与最小值/>，如果第/>层网络神经元个数为/>，则最大值/>与最小值/>均是/>维的矩阵，此时/>是/>维的矩阵，如下式所示：

。

第三步为重要性聚类。首先基于测试参数提取模块提取出的权重参数，反向计算每一个测试用例下每一层网络神经元的重要性。例如图3，设/>为第/>层网络第/>个神经元，/>为在第/>个测试用例下激活值，/>为其重要性。即第/>个测试用例下，最后一层的激活值为/>，其神经元重要性与激活值相同。假设第3层神经元激活值分别为/>，/>神经元激活值为/>，则第3层神经元重要性为，其中/>表示/>权重矩阵的第/>个元素。

然后，通过k-means的方法对每一层神经元重要性聚类，获得每一层的聚类结果，其中第一层对应输入数据的重要性聚类，聚类时应复合像素重要性信息及位置信息。画出每一层神经元的对应重要性统计热力图，即可进行模型可视化。

第四步为突变测试。对原模型突变，包括输入数据突变以及模型权重突变。输入数据突变即对聚类后的数据块随机选择，进行同样程度的突变，例如对于图像输入，同时调高一定程度的对比度。模型权重突变即同时对随机选择的一类神经元权重同时乘一个系数，例如1.1或0.9，等比例突变。对突变后模型再次进行测试，再次使用测试参数提取，获得突变后模型测试过程参数与结果。使用重要性聚类中的重要性计算，可以画出突变后模型的重要性统计热力图。

第五步为指标计算，根据测试要素分解步骤中的各要素测试充分性计算方法进行计算。

第六步为指标评价，包括纠错能力评价与测试开销评价，对指标计算模块的指标进行评价。

测试开销和测试充分性准则选取相关，可以用测试集合的大小来衡量测试开销，该准则下需要使用的测试集合越大，认为开销越大。

测试揭错能力是测试充分性准则有效性的最直接度量，可以通过实验统计的方法计算揭错能力，对于注入同样数量混淆数据的数据集，能识别出的混淆数据越多，认为该测试充分性准则揭错能力越强。

上述技术方案只是本发明的示例性实施例，对于本领域内的技术人员而言，在本发明公开了应用方法和原理的基础上，很容易做出各种类型的改进或变形，而不仅限于本发明上述具体实施例所描述的方法，因此前面描述的方式只是优选的，而并不具有限制性的意义。

Claims

1.一种基于要素分解的神经网络测试充分性评估方法，包括以下步骤：

S1，将神经网络测试分为黑盒测试和白盒测试，分别对黑盒测试和白盒测试进行关键要素分解，对这些关键要素的测试充分性进行定义；

S2，在测试过程中对深度神经网络每层的网络参数进行提取，其中：网络参数中包括权重矩阵和偏置向量，测试参数包括神经元激活的最大值与最小值；

S3，基于步骤S2提取出的权重参数以及激活值，反向计算每个测试用例下每层网络神经元的重要性；对每层神经元的重要性进行聚类；基于每层的聚类结果，得到每层神经元重要性统计热力图；

S4，按照聚类结果对原模型进行突变，对突变后模型再次进行测试，再次进行测试参数提取及重要性计算和聚类，获得突变后模型的重要性统计热力图；

S5，根据步骤S1中得到的各要素测试充分性计算方法进行指标计算；

S6，对步骤S5计算出的指标进行评价；

其中，所述步骤S2的具体方法包括：

对于全连接被测神经网络，对每一层的网络参数进行提取：其中，/>表示在第/>个测试用例下第/>层网络的参数，网络参数中包括权重矩阵/>和偏置向量/>，其中/>和的维度由网络神经元的个数决定，设第/>层网络神经元个数为/>，第/>层网络神经元个数为/>，则/>为/>维的矩阵，/>是/>维的矩阵，此时，/>为/>维的矩阵：；

在测试过程中，对测试过程参数进行提取：其中，/>表示在第/>个测试用例下第/>层网络的测试过程参数，包括该层神经元激活的最大值/>与最小值/>，设第/>层网络神经元个数为/>，则最大值/>与最小值/>均是/>维的矩阵，此时/>为/>维的矩阵：。

2.根据权利要求1所述的方法，其特征在于，所述步骤S1中，黑盒测试的关键要素包括：功能覆盖测试，性能测试，强度测试，应用安全性测试；其对应的测试充分性分别为：

功能覆盖测试充分性，指测试数据覆盖检测软件系统功能是否符合需求的程度；

性能测试充分性，指测试数据覆盖检测系统性能是否符合需求的程度；

强度测试充分性，指测试数据对系统运行环境异常及发生故障的覆盖程度；

安全性测试充分性，指测试数据覆盖系统非法入侵的程度；

白盒测试的关键要素包括：测试用例、训练数据、模型结构以及程序实现，其对应的测试充分性分别为：

训练数据测试充分性，指测试数据覆盖训练数据的程度；测试用例测试充分性，指测试数据覆盖应用需求真实数据的程度；

模型结构测试充分性，指测试数据激活神经网络模型结构的程度；

程序实现测试充分性，其度量方式与传统软件类似，通过包括语句覆盖、判定覆盖、条件覆盖、判定/条件覆盖和路径覆盖中的一种或多种方法进行度量。

3.根据权利要求1所述的方法，其特征在于，所述步骤S3的具体方法包括：

设为第/>层网络第/>个神经元，/>为在第/>个测试用例下激活值，/>为其重要性，即第/>个测试用例下，则第j层神经元重要性为

，其中/>表示/>权重矩阵的第个元素；

利用k-means的方法对每一层神经元重要性聚类，获得每一层的聚类结果，其中第一层对应输入数据的重要性聚类，聚类时应复合像素重要性信息及位置信息；

绘制每一层神经元的对应重要性统计热力图。

4.根据权利要求1所述的方法，其特征在于，所述步骤S4中，对原模型进行的突变包括：输入数据突变以及模型权重突变，其中：

输入数据突变包括：对聚类后的数据块随机选择，进行同样程度的突变；

模型权重突变包括：同时对随机选择的一类神经元权重同时乘一个系数，进行等比例突变。

5.根据权利要求1-4中任一所述的方法，其特征在于，所述步骤S6中，对步骤S5计算出的指标进行的评价包括：纠错能力评价与测试开销评价，其中：

测试开销的评价方法包括：用测试集合的大小来衡量测试开销，测试充分性准则下需要使用的测试集合越大，认为开销越大；

纠错能力的评价方法包括：通过实验统计的方法计算揭错能力，对于注入同样数量混淆数据的数据集，能识别出的混淆数据越多，认为该测试充分性准则揭错能力越强。