CN118379565A

CN118379565A - 基于信息瓶颈与因果学习的因果子图提取方法、装置

Info

Publication number: CN118379565A
Application number: CN202410825090.1A
Authority: CN
Inventors: 唐永强; 苑瑞文; 张文生
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2024-06-25
Filing date: 2024-06-25
Publication date: 2024-07-23
Anticipated expiration: 2044-06-25
Also published as: CN118379565B

Abstract

本发明提供一种基于信息瓶颈与因果学习的因果子图提取方法、装置，涉及基于特定计算模型的计算机系统技术领域，包括：获取待处理图数据，待处理图数据中包括因果子图，且待处理图数据中还包括噪音子图和伪相关子图中的至少一种；将待处理图数据输入因果子图提取模型进行子图提取处理，得到因果子图；其中，因果子图提取模型是基于因果学习损失函数、分类损失函数和对比损失函数进行迭代训练得到的，因果学习损失函数用于消除待处理图数据中的伪相关子图，分类损失函数和对比损失函数用于消除待处理图数据中的噪音子图。本发明使用的因果子图提取模型，可以针对图结构中的噪音子图和伪相关子图进行针对性消除，提升了提取的因果子图的可信性。

Description

基于信息瓶颈与因果学习的因果子图提取方法、装置

技术领域

本发明涉及基于特定计算模型的计算机系统技术领域，尤其涉及一种基于信息瓶颈与因果学习的因果子图提取方法、装置。

背景技术

近年来基于图神经网络的图分类技术快速发展，已广泛应用于生物化学、社交网络以及计算视觉等领域。但是，仅仅获取拥有良好分类性能的神经网络可能并不足以使其在一些领域中实际应用，因为很多场景中还对预测结果的可信性有较高的要求，即能够给出对预测结果的解释。例如在生物医药领域，发现能够导致固定特性的关键子结构相比于特性预测结果更有助于对新药的探索与研发。因此，识别用于解释和进一步提升分类结果的关键子图结构具有较强的现实意义。

为了提取可解释子图结构，需要从本质上探究子图与标签之间的因果性，提取出有因果效应的子结构作为可解释结果。但是，在实际场景中准确识别因果子图具有很强的挑战性。首先，输入图的组成成分复杂且未知，除了因果部分，剩余的干扰部分也很可能会被错误纳入到提取的因果子图。由于干扰结构与标签之间没有对应的因果关系，因此将干扰结构纳入提取的可解释子图中将极大地降低解释结果的可信性。

干扰结构通常包含噪音子结构以及伪相关子结构，其中噪音子结构与图的标签不相关，而伪相关子结构通常在数据生成过程中由于与因果结构存在某种概率依赖而与标签之间存在伪相关。当前有部分方法通过保持提取子图预测能力的同时，限制提取子图与原图之间的互信息以消除噪音，但是忽略了可能存在的伪相关子结构同样与标签相关而具有一定的预测能力，从而导致结果中包含部分伪相关结构。另一类方法着手于因果关系以去除伪相关部分，但是对噪音子图没有明确的约束，导致得到的因果子图会混有噪音。因此，面对更加通用场景下可能同时存在噪音以及伪相关结构的问题，若获取真实的可解释子结构，模型必须同时具备能够消除噪音以及伪相关子结构的能力。

发明内容

本发明提供一种基于信息瓶颈与因果学习的因果子图提取方法、装置，用以解决现有技术从图结构数据中提取可解释子图时易受到噪音子图和伪相关子图干扰的缺陷，实现了针对噪音子图和伪相关子图进行针对性消除，从而有效提升了提取的因果子图的可信性。

本发明提供一种基于信息瓶颈与因果学习的因果子图提取方法，包括如下步骤。

获取待处理图数据，所述待处理图数据中包括因果子图，且所述待处理图数据中还包括噪音子图和伪相关子图中的至少一种；

将所述待处理图数据输入因果子图提取模型进行子图提取处理，得到所述因果子图；

其中，所述因果子图提取模型是基于因果学习损失函数、分类损失函数和对比损失函数进行迭代训练得到的，所述因果学习损失函数用于消除所述待处理图数据中的伪相关子图，所述分类损失函数和对比损失函数用于消除所述待处理图数据中的噪音子图。

根据本发明提供的一种基于信息瓶颈与因果学习的因果子图提取方法，所述因果子图提取模型的训练方法包括：

构建样本图数据集和初始因果子图提取模型，其中，所述样本图数据集中包括至少一个批次的样本图；

对所述样本图进行特征提取处理，得到所述样本图的整图表征、因果子图表征和伪相关子图表征，其中，所述因果子图表征是所述样本图的因果子图的特征表示，所述伪相关子图表征是所述样本图的伪相关子图的特征表示；

针对同一批次的样本图，基于所述因果子图表征和所述伪相关子图表征进行特征融合处理，得到干预样本表征；

将所述因果子图表征、所述伪相关子图表征和所述干预样本表征分别输入初始因果子图提取模型进行预测处理，得到第一预测标签值，并基于所述第一预测标签值与真实标签值确定因果学习损失函数；

基于所述整图表征和所述因果子图表征确定样本对，并基于所述样本对确定对比损失函数；

将所述整图表征输入所述初始因果子图提取模型进行预测处理，得到第二预测标签值，并基于所述第二预测标签值与所述真实标签值确定分类损失函数；

基于所述因果学习损失函数、所述对比损失函数和所述分类损失函数，对所述初始因果子图提取模型的参数进行迭代更新，得到所述因果子图提取模型。

根据本发明提供的一种基于信息瓶颈与因果学习的因果子图提取方法，所述基于所述因果子图表征和所述伪相关子图表征进行特征融合处理，得到干预样本表征，包括：

将所述因果子图表征进行随机乱序处理，得到乱序的因果子图表征；

将乱序的因果子图表征与所述伪相关子图表征进行特征拼接，得到所述干预样本表征。

根据本发明提供的一种基于信息瓶颈与因果学习的因果子图提取方法，所述样本对包括正样本对和负样本对，基于所述整图表征和所述因果子图表征确定样本对，并基于所述样本对确定对比损失函数，包括：

将所述因果子图表征和所述整图表征输入映射器进行特征映射处理，得到同一特征空间的所述因果子图表征和所述整图表征；

针对同一特征空间的所述因果子图表征和所述整图表征，将同一所述样本图分别对应的所述因果子图表征与所述整图表征组合为所述正样本对；

将不同的所述样本图对应的所述因果子图表征与所述整图表征组合为所述负样本对；

以最小化所述正样本对之间的相似度得分和最大化所述负样本对之间的相似度得分为优化目标，得到所述对比损失函数。

根据本发明提供的一种基于信息瓶颈与因果学习的因果子图提取方法，所述基于所述因果学习损失函数、所述对比损失函数和所述分类损失函数，对所述初始因果子图提取模型的参数进行迭代更新，得到因果子图提取模型，包括：

固定所述初始因果子图提取模型中除映射器的参数之外的其他模型参数，并以最大化所述对比损失函数为目标，对所述映射器的参数进行迭代更新；

固定迭代更新后的所述映射器的参数，并以最小化所述因果学习损失函数和所述分类损失函数为目标，通过反向传播与梯度下降算法对所述初始因果子图提取模型的参数进行迭代更新，得到所述因果子图提取模型。

根据本发明提供的一种基于信息瓶颈与因果学习的因果子图提取方法，所述对所述样本图进行特征提取处理，得到所述样本图的整图表征、因果子图表征和伪相关子图表征，包括：

将所述样本图输入图神经网络进行特征编码处理，得到所述样本图的各节点对应的节点表征；

对所述节点表征进行池化处理，得到所述样本图的整图表征；

对所述节点表征进行特征拼接处理，得到节点对应的边的表征；

将所述边的表征输入特征判别器进行权重判定，得到每条边的重要性权重，并将所述重要性权重大于或等于权重阈值的边作为所述因果子图，将所述重要性权重小于所述权重阈值的边作为所述伪相关子图；

对所述因果子图和所述伪相关子图分别进行特征提取处理，得到所述因果子图表征和所述伪相关子图表征。

根据本发明提供的一种基于信息瓶颈与因果学习的因果子图提取方法，所述对所述因果子图和所述伪相关子图分别进行特征提取处理，得到所述因果子图表征和所述伪相关子图表征，包括：

分别将所述因果子图和所述伪相关子图输入所述图神经网络进行特征编码处理，得到所述因果子图的各节点对应的因果节点表征，以及所述伪相关子图的各节点对应的伪相关节点表征；

分别对所述因果节点表征和所述伪相关节点表征进行池化处理，得到所述因果子图表征和所述伪相关子图表征。

本发明还提供一种基于信息瓶颈与因果学习的因果子图提取装置，包括如下模块：

获取模块，用于获取待处理图数据，所述待处理图数据中包括因果子图，且所述待处理图数据中还包括噪音子图和伪相关子图中的至少一种；

处理模块，用于将所述待处理图数据输入因果子图提取模型进行子图提取处理，得到所述因果子图；

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于信息瓶颈与因果学习的因果子图提取方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于信息瓶颈与因果学习的因果子图提取方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述基于信息瓶颈与因果学习的因果子图提取方法。

本发明提供的基于信息瓶颈与因果学习的因果子图提取方法，由于因果子图提取模型是基于因果学习损失函数、分类损失函数和对比损失函数进行迭代训练得到的，而因果学习损失函数用于消除待处理图数据中的伪相关子图，分类损失函数和对比损失函数用于消除待处理图数据中的噪音子图，因此本发明提供的因果子图提取模型可以有效消除图数据中的伪相关子图和噪音子图的影响，进而将待处理图数据输入因果子图提取模型进行子图提取处理时，得到的因果子图的可信性更高。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的基于信息瓶颈与因果学习的因果子图提取方法的流程示意图之一。

图2是本发明提供的因果子图提取模型的训练流程示意图。

图3是本发明提供的基于信息瓶颈与因果学习的因果子图提取方法的流程示意图之二。

图4是本发明提供的图数据生成过程中的因果图的示意图。

图5是本发明提供的测试结果中的一个因果子图的示意图。

图6是本发明提供的基于信息瓶颈与因果学习的因果子图提取装置的结构示意图。

图7是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明提供的基于信息瓶颈与因果学习的因果子图提取方法的流程示意图之一，如图1所示，该方法包括如下步骤101至步骤102。

步骤101、获取待处理图数据。

所述待处理图数据中包括因果子图，且所述待处理图数据中还包括噪音子图和伪相关子图中的至少一种。图数据是一种非结构化的数据，包含若干个节点，节点之间通过边连接。噪音子图指的是图数据中与其他数据不一致或不相关的数据点，这些噪音可能来源于数据采集过程中的错误、传输过程中的干扰或数据处理过程中的失误；伪相关子图是指在图数据分析中，某些节点或子图与目标标签之间存在虚假的相关性，在实际数据收集过程中，可能会由于收集者的主观偏见而导致某些无关特征与目标标签产生关联。例如，在分子属性分析中，实际上决定该分子属性的是-OH官能团，但由于收集数据时的偏见，在该分子的其他部分中可能也存在与其标注的属性具有相关性的特征；因果子图是指在图神经网络（Graph Neural Networks，GNN）中，通过解耦和识别因果关系来提取的子图，因果子图能够帮助模型更好地理解和利用图数据中的因果信息，从而提高预测的准确性和可解释性。

参见图4，图4是本发明提供的图数据生成过程中的因果图的示意图，图4中的G表示图数据，S表示伪相关子结构（即伪相关子图），C表示因果结构（即因果子图），N表示噪音子结构（即噪音子图），Y表示标签。正常情况下，图的标签Y只由它的因果部分C直接决定，而伪相关子结构S由于在数据生成过程中与C产生某种概率关联，导致其与Y之间存在某种伪关联。

步骤102、将所述待处理图数据输入因果子图提取模型进行子图提取处理，得到所述因果子图。

在一些实施例中，参见图2，图2是本发明提供的因果子图提取模型的训练流程示意图，如图2所示，因果子图提取模型的训练方法包括如下步骤201至步骤207。

步骤201、构建样本图数据集和初始因果子图提取模型。

具体地，首先需要构建样本图数据集，包括训练集和测试集两部分，训练集中包含伪相关子结构与噪音子结构的图数据集，对于数据集中的每张图，将其初始特征表示为一个由所有节点特征组成的矩阵，并对每张图进行标注。对于图数据集中的真实的因果可解释子图（即因果子图）进行标注，以便后续对模型性能评估。另外，还需将图数据集中所有图划分为多个批次（batch），并将每个batch内的多张图预处理成一张大图，以便在训练过程中对于一个batch内的数据进行整体处理，也即样本图数据集中包括至少一个批次的样本图。

步骤202、对所述样本图进行特征提取处理，得到所述样本图的整图表征、因果子图表征和伪相关子图表征。

在一些实施例中，因果子图表征是样本图的因果子图的特征表示，伪相关子图表征是样本图的伪相关子图的特征表示。

在一些实施例中，步骤202可以通过以下方式实现：将所述样本图输入图神经网络进行特征编码处理，得到所述样本图的各节点对应的节点表征；对所述节点表征进行池化处理，得到所述样本图的整图表征；对所述节点表征进行特征拼接处理，得到节点对应的边的表征；将所述边的表征输入特征判别器进行权重判定，得到每条边的重要性权重，并将所述重要性权重大于或等于权重阈值的边作为所述因果子图，将所述重要性权重小于所述权重阈值的边作为所述伪相关子图；对所述因果子图和所述伪相关子图分别进行特征提取处理，得到所述因果子图表征和所述伪相关子图表征。

在一些实施例中，对所述因果子图和所述伪相关子图分别进行特征提取处理，得到所述因果子图表征和所述伪相关子图表征，可以通过以下方式实现：分别将所述因果子图和所述伪相关子图输入所述图神经网络进行特征编码处理，得到所述因果子图的各节点对应的因果节点表征，以及所述伪相关子图的各节点对应的伪相关节点表征；分别对所述因果节点表征和所述伪相关节点表征进行池化处理，得到所述因果子图表征和所述伪相关子图表征。

具体地，对于一个batch内的一张输入样本图，假设其节点集合表示为，边集合表示为。首先通过图神经网络对样本图进行特征编码处理，得到样本图的各个节点对应的节点表征，其中，d表示特征维度；然后再将节点表征通过如下特征拼接处理，生成节点对应的边的表征。

其中，和分别表示输入样本图的特征和邻接矩阵，和表示任意节点，表示由节点和组成的边，节点表征用于生成掩码矩阵完成后续子图筛选过程。

并将节点表征进行池化处理，得到样本图的整图表征，其中。

然后将边的表征输入到一个多层感知机组成的特征判别器中进行特征重要性判别，输出边掩码矩阵，用于提取因果子结构，生成因果子图的邻接矩阵为，其中，图中剩余的部分为伪相关子图，其邻接矩阵表示为，其中，具体计算方式如下所示：

其中，，表示整个子图结构提取器。

获取提取的因果子图和伪相关子图后，引入两个图神经网络编码器和分别对提取的和进行特征编码计算处理，得到伪相关子图的各节点对应的伪相关节点表征，其中，以及因果子图的各节点对应的因果节点表征，其中，计算公式如下所示：

然后分别对因果节点表征和伪相关节点表征进行池化处理，以对节点表征进行信息读取，分别得到因果子图表征和伪相关子图表征，其中，，，计算公式如下：

其中，Readout（）函数表示将节点表示的信息进行压缩得到全图表征的池化函数。

由于图表征可以综合地表示图的语义信息，而对于图进行实际操作通常较为困难，因此后续对于图的操作即使用图的表征进行替代，从而使得后续对图的操作更加方便快捷。

步骤203、针对同一批次的样本图，基于所述因果子图表征和所述伪相关子图表征进行特征融合处理，得到干预样本表征。

在一些实施例中，步骤203可以通过以下方式实现：将所述因果子图表征进行随机乱序处理，得到乱序的因果子图表征；将乱序的因果子图表征与所述伪相关子图表征进行特征拼接，得到所述干预样本表征。

为了优化模型参数使得提取出的因果子图中可以完全包含因果部分的同时，将其与伪相关子图部分完全分离，本发明采用了因果干预的方法，根据图4中左侧的因果图所示，部分是标签的唯一母亲节点，因此需要最大化因果子图与标签之间的互信息，另外，由于伪相关子图也对标签有一定的预测能力，因此为了防止伪相关子图部分进入提取的因果子结构中，需要同时最大化伪相关子图与标签之间的互信息，以使得最终优化后伪相关部分能够与因果部分彻底分离。

在同时最大化因果子图与标签之间，以及伪相关子图部分与标签之间的互信息后，需要进一步保证提取的因果子图和伪相关子图不会互相混杂并接近真实的因果子图与伪相关子图部分。本发明采用干预伪相关子图部分的操作，即如图4中右侧所示，通过干预操作，改变的分布，使得与之间的关联关系被破坏，进而使与之间的伪关联被切断，被切断后的伪相关部分则与标签无关，因此失去预测原标签的能力。最小化干预样本预测的条件概率公式如下所示：

该操作通过最小化干预样本与标签之间的互信息，并与前述两个优化目标（最大化因果子与标签之间的互信息、最大化伪相关子图与之间的互信息）结合，即可使提取的因果子图和伪相关子图完全反映因果图中与的性质，从而使提取的因果子图收敛到的真实的因果子结构。

具体地，对于一个batch内的所有样本，需要对所有样本的因果子图部分进行随机乱序，然后将乱序的因果子图部分与不变的伪相关子图进行拼接，以此完成上述对伪相关部分的干预操作。由于拼接子图较为困难，此处使用步骤202计算的因果子图表征进行乱序和拼接操作。对于因果子图表征，将其乱序后得到，其中表示batch的大小。将与不变的结合得到，该新产生的样本由于破坏了原始数据中因果部分的分布，即可将其视作上述干预样本表征。

步骤204、将所述因果子图表征、所述伪相关子图表征和所述干预样本表征分别输入初始因果子图提取模型进行预测处理，得到第一预测标签值，并基于所述第一预测标签值与真实标签值确定因果学习损失函数。

具体地，由于通过步骤203得到的干预样本与标签无关，因此应通过分类任务训练使其丢失预测原标签的能力。另外，对于最大化提取的因果子图与标签之间的互信息，以及最大化提取伪相关子图与标签之间的互信息，由于互信息不易直接优化，近似操作为使提取的因果子图表征与伪相关子图表征进行分类任务，通过最小化其分类损失完成二者互信息的最大化，因此因果学习部分的因果学习损失函数如下：

其中、和为损失系数，用于控制每项损失函数发挥的作用。表示第一预测标签，表示真实标签，表示和因果子图部分采用一样乱序的标签，表示交叉熵损失。

步骤205、基于所述整图表征和所述因果子图表征确定样本对，并基于所述样本对确定对比损失函数。

在一些实施例中，样本对包括正样本对和负样本对，步骤205可以通过以下方式实现：将所述因果子图表征和所述整图表征输入映射器进行特征映射处理，得到同一特征空间的所述因果子图表征和所述整图表征；针对同一特征空间的所述因果子图表征和所述整图表征，将同一所述样本图分别对应的所述因果子图表征与所述整图表征组合为所述正样本对；将不同的所述样本图对应的所述因果子图表征与所述整图表征组合为所述负样本对；以最小化所述正样本对之间的相似度得分和最大化所述负样本对之间的相似度得分为优化目标，得到所述对比损失函数。

在去除伪相关子图后，仍不能保证模型可以获取真实的因果子图，因为仍可能存在图4中所示的噪音子结构。因此需要引入信息瓶颈原理，即在最大化因果子结构与标签之间互信息的同时，最小化提取因果子结构与原图之间的互信息，以防止与标签无关的噪音子结构进入最终提取的可解释因果子图中。

具体地，步骤204中已经包含最大化因果子图与标签之间互信息的优化目标，因此该步骤主要实现最小化提取的因果子图与全图之间的互信息。由于图之间的互信息不易计算，此处仍使用子图表征和原图表征之间的互信息近似估计图之间的互信息。并且由于互信息不易直接优化，引入基于InfoNCE的对比学习对互信息进行估计，该对比学习方法可提供互信息的一个有效下界作为优化目标。

对比学习将一个batch内来自同一个图的因果子图表征与全图表征视作正样本对，将来自不同图的因果子图表征和全图表征视作负样本对，同时为了计算正样本对以及负样本对之间的相似度，引入一个由多层感知机组成的映射器将全图表征与因果子图表征映射到同一空间中，再通过最小化正样本对之间的相似度以及最大化负样本对之间的相似度得到对比损失函数，从而近似估计二者的互信息最小化。对比损失函数的计算公式如下：

其中，为计算两个向量余弦相似度的函数，表示对比学习所需的温度系数，表示映射器的映射处理。

步骤206、将所述整图表征输入所述初始因果子图提取模型进行预测处理，得到第二预测标签值，并基于所述第二预测标签值与所述真实标签值确定分类损失函数。

在一些实施例中，为了保证全图表征的质量，进而保证对比学习对于互信息优化的近似，将整图表示进行图分类并优化其分类损失，其计算公式如下：

其中，表示第二预测标签，表示真实标签，表示交叉熵损失。

因此，为了消除噪音子结构，整体的损失如下：

其中，和是损失系数。

步骤207、基于所述因果学习损失函数、所述对比损失函数和所述分类损失函数，对所述初始因果子图提取模型的参数进行迭代更新，得到所述因果子图提取模型。

在一些实施例中，步骤207可以通过以下方式实现：固定所述初始因果子图提取模型中除映射器的参数之外的其他模型参数，并以最大化所述对比损失函数为目标，对所述映射器的参数进行迭代更新；固定迭代更新后的所述映射器的参数，并以最小化所述因果学习损失函数和所述分类损失函数为目标，通过反向传播与梯度下降算法对所述初始因果子图提取模型的参数进行迭代更新，得到所述因果子图提取模型。

具体地，由于InfoNCE中的映射器的优化需要最大化估计因果子图与全图表征之间的互信息，而整体的优化目标需要最小化该互信息，因此本发明采用了双层优化（Bi-level）策略，首先固定除映射器的参数之外的其他所有参数，通过最大化对比损失以优化映射器，使其能够将二者映射到一个适合对比学习计算相似度的空间中；然后固定该映射器参数，通过最小化总体损失以优化模型中的子图神经网络编码器，子图提取器以及分类器的参数，该优化策略可如下表示：

其中，表示所有子图神经网络编码器和分类器的参数，表示映射器的参数。

然后通过反向传播与梯度下降算法对模型参数进行迭代更新，待模型收敛后即可得到因果子图提取模型，该模型可以对于未见的测试图数据，通过子图提取器提取出可解释的因果子图，并可用于完成分类任务。如图5所示，图5是本发明提供的测试结果中的一个因果子图的示意图，图5给出了分子是否有诱变性的图分类数据集的一个例子，其中“-NO₂”结构为真实的因果可解释子图。

在本发明的一个具体的实施例中，参见图3，图3是本发明提供的基于信息瓶颈与因果学习的因果子图提取方法的流程示意图之二，如图3所示，首先构建通用场景的图分类数据集，使数据集中的图尽可能同时包含噪音与伪相关子结构。同时，对于可以预先获取真实可解释因果子结构的数据集，将该因果子结构进行标注，以便后续直接对可解释结果的衡量与评估。

对于输入图数据，使用图神经网络作为编码器获取节点的隐空间表征，节点的隐空间表征包含节点的语义特征。此后使用节点表征通过拼接的方式生成节点对应边的表征。同样，边的表征可表示边的语义，可用于后续对于图中边重要性的计算与筛选。

然后引入一个由多层感知机组成的特征重要性判别器，将边的表征作为输入，获取图中每一条边的重要性权重，进而将权重高的边进行筛选作为提取的因果子结构。同时，将剩余部分作为伪相关子结构用于后续训练过程中的计算。

根据提取的因果子结构和伪相关子结构，分别引入一个新的图神经网络编码器计算子图节点表征，并使用节点表征进一步采用池化方法获取整个子图的全图表征。由于子图表征包含子图中的丰富语义，因此可以近似替代子图做后续的干预操作。

针对图数据中可能包含的伪相关子结构，采用因果干预操作，对伪相关子结构部分进行干预。首先保持一个训练batch内所有图数据的伪相关子图表征不变，打乱该batch内所有因果子图表征，并随机与不变的伪相关子图表征结合，通过此操作破坏数据生成过程中因果与伪相关部分的关联。此后，将伪相关子图表征和重新结合后的干预数据表征输入到分类器中，通过控制伪相关样本具有分类能力同时保证干预样本无分类能力，有效促进因果部分与伪相关部分的分离，从而促进提取的因果子图更接近真实可解释结果。

针对图数据中可能包含的噪音子结构，引入信息瓶颈原理，在保持因果子图分类能力的同时降低提取的因果子图与整图之间的互信息。具体地，将生成的因果子图输入到分类器中，提升因果子图的分类能力。同时应用节点表征生成全图表征，再利用对比学习近似估计互信息，首先引入一个映射器将因果子图和全图表征映射到同一空间，再将来自相同图的因果子图表征与全图表征视为正样本对，将因果子图与不同图的全图表征视为负样本对，通过最小化正样本对之间的相似度同时最大化负样本对之间的相似度，最小化对比损失，实现因果子图与原图之间的互信息最小化。

使用优化分类能力产生的分类损失与对比损失构造联合损失函数，对模型联合优化。由于对比学习过程中引入的映射器的优化目标与总体优化目标相反，因此本发明采用双层优化策略，首先固定其他参数不变，通过最大化对比损失训练映射器，此后固定映射器参数，最小化联合损失函数，通过反向传播及梯度下降算法，更新整个模型中图神经网络编码器，子图提取器和分类器的参数，提升模型提取真实因果子图的能力。

本发明在真实世界中的数据集以及人工合成数据集上进行测试，其图分类性能使用准确率衡量，子图可解释性能使用Precision@5衡量置信排名度前5的边与真实的可解释因果子图的匹配度。本发明与其他关键子图提取的对比方法结果分别如表1和表2所示。

从表1中可以看出，本发明的方法在所有数据集上均取得了最优的图分类性能，并且根据表2，本发明提取的因果子图相比于对比方法可以更准确地匹配实际的因果子图，由此验证了本发明在面对更加复杂、通用的场景下时，能实现同时对伪相关部分和噪音部分进行移除，在获取准确的可解释子图方面有显著优势，能更好地促进对图分类任务的理解和性能的提升。

表1：本发明和其他对比方法在测试集上的图分类结果

表2：本发明和其他对比方法在测试集上的Precision@5结果

下面对本发明提供的基于信息瓶颈与因果学习的因果子图提取装置进行描述，下文描述的基于信息瓶颈与因果学习的因果子图提取装置与上文描述的基于信息瓶颈与因果学习的因果子图提取方法可相互对应参照。

参见图6，图6是本发明提供的基于信息瓶颈与因果学习的因果子图提取装置的结构示意图，如图6所示，本发明提供的基于信息瓶颈与因果学习的因果子图提取装置600包括获取模块601和处理模块602，其中，获取模块601用于获取待处理图数据，所述待处理图数据中包括因果子图，且所述待处理图数据中还包括噪音子图和伪相关子图中的至少一种；处理模块602用于将所述待处理图数据输入因果子图提取模型进行子图提取处理，得到所述因果子图；其中，所述因果子图提取模型是基于因果学习损失函数、分类损失函数和对比损失函数进行迭代训练得到的，所述因果学习损失函数用于消除所述待处理图数据中的伪相关子图，所述分类损失函数和对比损失函数用于消除所述待处理图数据中的噪音子图。

图7示例了一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器（processor）710、通信接口（Communications Interface）720、存储器（memory）730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行基于信息瓶颈与因果学习的因果子图提取方法，该方法包括：获取待处理图数据，所述待处理图数据中包括因果子图，且所述待处理图数据中还包括噪音子图和伪相关子图中的至少一种；将所述待处理图数据输入因果子图提取模型进行子图提取处理，得到所述因果子图；其中，所述因果子图提取模型是基于因果学习损失函数、分类损失函数和对比损失函数进行迭代训练得到的，所述因果学习损失函数用于消除所述待处理图数据中的伪相关子图，所述分类损失函数和对比损失函数用于消除所述待处理图数据中的噪音子图。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的基于信息瓶颈与因果学习的因果子图提取方法，该方法包括：获取待处理图数据，所述待处理图数据中包括因果子图，且所述待处理图数据中还包括噪音子图和伪相关子图中的至少一种；将所述待处理图数据输入因果子图提取模型进行子图提取处理，得到所述因果子图；其中，所述因果子图提取模型是基于因果学习损失函数、分类损失函数和对比损失函数进行迭代训练得到的，所述因果学习损失函数用于消除所述待处理图数据中的伪相关子图，所述分类损失函数和对比损失函数用于消除所述待处理图数据中的噪音子图。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的基于信息瓶颈与因果学习的因果子图提取方法，该方法包括：获取待处理图数据，所述待处理图数据中包括因果子图，且所述待处理图数据中还包括噪音子图和伪相关子图中的至少一种；将所述待处理图数据输入因果子图提取模型进行子图提取处理，得到所述因果子图；其中，所述因果子图提取模型是基于因果学习损失函数、分类损失函数和对比损失函数进行迭代训练得到的，所述因果学习损失函数用于消除所述待处理图数据中的伪相关子图，所述分类损失函数和对比损失函数用于消除所述待处理图数据中的噪音子图。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于信息瓶颈与因果学习的因果子图提取方法，其特征在于，包括：

2.根据权利要求1所述的基于信息瓶颈与因果学习的因果子图提取方法，其特征在于，所述因果子图提取模型的训练方法包括：

3.根据权利要求2所述的基于信息瓶颈与因果学习的因果子图提取方法，其特征在于，所述基于所述因果子图表征和所述伪相关子图表征进行特征融合处理，得到干预样本表征，包括：

4.根据权利要求2所述的基于信息瓶颈与因果学习的因果子图提取方法，其特征在于，所述样本对包括正样本对和负样本对，基于所述整图表征和所述因果子图表征确定样本对，并基于所述样本对确定对比损失函数，包括：

5.根据权利要求2所述的基于信息瓶颈与因果学习的因果子图提取方法，其特征在于，所述基于所述因果学习损失函数、所述对比损失函数和所述分类损失函数，对所述初始因果子图提取模型的参数进行迭代更新，得到所述因果子图提取模型，包括：

6.根据权利要求2所述的基于信息瓶颈与因果学习的因果子图提取方法，其特征在于，所述对所述样本图进行特征提取处理，得到所述样本图的整图表征、因果子图表征和伪相关子图表征，包括：

7.根据权利要求6所述的基于信息瓶颈与因果学习的因果子图提取方法，其特征在于，所述对所述因果子图和所述伪相关子图分别进行特征提取处理，得到所述因果子图表征和所述伪相关子图表征，包括：

8.一种基于信息瓶颈与因果学习的因果子图提取装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述基于信息瓶颈与因果学习的因果子图提取方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于信息瓶颈与因果学习的因果子图提取方法。