CN116386729A

CN116386729A - 一种基于图神经网络的scRNA-seq数据降维方法

Info

Publication number: CN116386729A
Application number: CN202211716676.1A
Authority: CN
Inventors: 王树林; 孙鸿福
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2022-12-23
Filing date: 2022-12-23
Publication date: 2023-07-04

Abstract

本发明涉及生物信息学中的数据挖掘，特别是涉及对单细胞RNA测序数据的挖掘。具体涉及通过深度学习的方法对单细胞RNA测序数据进行维度压缩以及聚类，来达到有效识别细胞种群的目的。本发明的方法包括对scRNA‑seq数据进行收集和预处理；构建图神经网络模型；使用构建的模型对预处理过的数据进行降维；对降维后的结果进行聚类分析。我们的模型约束了数据结构，并通过图神经网络模块进行降维，并在降维结果中同时保留细胞‑细胞关系和基因‑基因关系。以标准化互信息和调整兰德指数作为评价指标，在五个真实的scRNA‑seq数据集上进行的实验表明，本方法具有不错的性能。

Description

一种基于图神经网络的scRNA-seq数据降维方法

技术领域

本发明涉及生物信息学中的数据挖掘，特别是涉及对单细胞RNA测序数据的挖掘。具体涉及通过对单细胞RNA测序数据进行维度压缩以及聚类，来达到有效识别细胞种群的目的。

背景技术

随着近年来单细胞RNA测序(scRNAseq)技术的爆炸式增长，出现了前所未有的单细胞转录分析机会。传统的批量RNA测序方法对数百万个细胞的混合物进行测序。这导致一个基因的基因表达反映了所有细胞中基因表达的平均值，而忽略了细胞之间的异质性。与bulk RNAseq不同，scRNAseq第一步分离细胞，第二步对每个细胞的数千个基因进行测序。根据不同的测序方案，每个基因收集了数以百万计的表达值，从而可以识别新的细胞类型，确定基因调控机制，解决发育过程的细胞动力学问题。

单细胞RNA测序(scRNA-seq)是研究细胞间变异的理想方法。主成分分析(PCA)和t-分布式随机邻域嵌入(t-SNE)等常规降维技术在scRNA-seq数据上实施，用于可视化和下游分析，显着增加了我们对细胞异质性和发育进度的理解。最近出现的大规模并行scRNA-seq(例如液滴平台)使得能够对复杂生物系统中的数百万个细胞进行测序，这为组织和细胞微环境的解剖、稀有/新细胞类型的鉴定、发育谱系的推断以及细胞对刺激的反应机制的阐明提供了极好的潜力。然而，大规模并行scRNA-seq生成的数据具有高dropout、高噪声、结构复杂等特点，给降维带来了一系列挑战。特别是，保留细胞间复杂的拓扑结构是一个巨大的挑战。

在过去的几年中，已经开发或引入了许多用于scRNA-seq数据分析的降维方法。最近开发的竞争方法包括DCA、scVI、scDeepCluster、PHATE、SAUCIE、scGNN、ZINB-WaVE和Ivis。其中，深度学习显示出最大的潜力。例如，DCA、scDeepCluster、Ivis和SAUCIE调整了自动编码器以对scRNA-seq数据进行降噪、可视化和聚类。然而，这些基于深度学习的模型只嵌入了不同的细胞特征而忽略了细胞与细胞之间的关系，这限制了它们揭示细胞间复杂拓扑结构的能力，也使它们难以阐明发育轨迹。最近提出的图自动编码器非常有前途，因为它保留了潜在空间中数据之间的长距离关系。

然而，研究表明，基因调控网络或蛋白质-蛋白质相互作用(PPI)网络中涉及的基因相互作用在不同的生物学背景下具有丰富的信息。此外，之前的研究表明，将scRNA-seq数据与先前的基因相互作用信息联合分析可以导致对数据的有意义的理解。NetNMF-sc是一种专为scRNA-seq分析设计的网络正则化非负矩阵分解，它利用先验基因网络获得更有意义的基因低维表示。相对应的，scRNA-seq数据也包含丰富的信息来推断基因-基因相互作用。

受上述理解的启发，我们提出了scTPGAE，这是一种基于图神经网络的计算方法，它利用两个图神经网络同时将细胞-细胞关系，基因-基因关系保留到降维结果中，以达到更好的下游分析结果。

发明内容

本发明针对以上方法存在的问题与scRNA-seq数据的复杂性，我们提出了一种基于图神经网络的scRNA-seq数据降维方法。本发明的方法可以有效的解决现有降维方法存在的重要信息丢失，特征提取不充分等问题，并在降维结果中同时保留了细胞-细胞关系和基因-基因关系，并获得了更好的聚类精度。所叙述方法的步骤包括：

1.数据预处理

首先，假设我们有一个原始的scRNA-seq计数矩阵C，它过滤掉了任何细胞中没有计数的基因。C可以表示为P乘N维矩阵，其中P被定义为基因总数，N被定义为细胞总数，C_ij表示细胞j中基因i的表达值。

在这项工作中，我们首先对原始scRNA-seq计数数据进行预处理，包括对数转换和z分数归一化。我们有一个归一化输出X，公示如下

X＝zscore(X′)

其中S_j是每个细胞j的大小因子。数据预处理的优点是保留数据大小差异的影响，并将离散值转换为连续值，从而为后续建模提供更大的灵活性。

图神经网络需要的输入除了上述的基因-细胞关系矩阵外，还需要细胞-细胞关系图和基因-基因交互网络。

其中，细胞-细胞关系图由Scikit-learn Python包中的K最近邻(KNN)算法构建。默认K在本研究中预定义为35，并根据我们实验中的数据集进行调整。生成的邻接矩阵是一个0-1的矩阵，1代表连通，0代表不连通。

基因-基因交互网络则可以利用现有的数据，我们收集了七种不同的人类基因相互作用网络和一种小鼠基因相互作用网络来评估scTPGAE的性能。最著名的基因相互作用网络之一是STRING数据库，这是一个PPI网络，它从文献和实验等多种资源中收集和整合蛋白质-蛋白质关联信息。HumanNet是一个人类功能基因网络，它通过贝叶斯统计框架整合了多种类型的组学数据。HumanNet包括人类基因网络的层次结构，即人类衍生的PPI、共功能链接、共引用和来自其他物种的互斥。具体来说，我们使用了两个版本的HumanNet，HumanNet-CF和HumanNet-PI，它们分别由协同功能网络和PPI网络组成。FunCoup是全基因组功能关联网络，使用独特的冗余加权贝叶斯积分来组合10种不同类型的功能关联数据。GeneMANIA通过对多重功能基因组数据集进行加权来创建组合基因网络。此外，我们从pgWalk收集了两个功能相似矩阵，它们分别来自KEGG通路和Gene Ontology生物过程。接下来，我们通过过滤掉那些相似度值小于某个阈值(即0.9)的基因对，将这两个相似度矩阵转换为基因网络。这两个网络分别称为pgWalk-kegg和pgWalk-gobp。

2.构建用于降维的图神经网络

(1)保留细胞-细胞关系的图神经网络G1

图自动编码器是一种用于对图结构数据进行无监督表示学习的人工神经网络。图形自动编码器具有低维瓶颈层，因此可以用作降维模型。假设输入是节点矩阵X和邻接矩阵A的细胞-细胞关系图。在我们的联合图自动编码器中，有一个编码器E用于整个图，两个解码器D_X和D_A分别用于节点和边。在实践中，我们首先将输入图编码为潜在变量h＝E(X,a)，然后将h解码为重构的节点矩阵x_r＝D_X(h)和重构的邻接矩阵A_r＝D_A(h)。学习过程的目标是最小化重建损失

其中权重是超参数。在我们的实验中，设置为0.6。

我们使用Python包Spektral32来实现我们的模型。有许多类型的图形神经网络可以用作编码器或解码器。因此，为了借助于节点的邻居来提取节点的特征，我们在编码器中应用图注意力层为默认值。其他图形神经网络如GCN、GraphSAGE和TAGCN也可以作为scTPGAE中的编码器实现。特征解码器D_X是一个四层完全连接的神经网络，在隐藏层中有64、256、512个节点。

边缘解码器由一个完全连接的层组成，然后是象限化和激活的组成：

A_r＝D_A(h)＝σ(ZZ^T)

其中Z＝σ(Wh)作为具有权重矩阵W的完全连接层的输出,σ(x)＝max(0,x)是直线线性单位。

(2)保留基因-基因关系的图神经网络G2

我们注意到，当将基因相互作用网络应用于某个数据集时，只有那些在该数据集中出现两个相互作用基因的相互作用对被保留，其余对被丢弃。换句话说，不同数据集的基因相互作用网络的相互作用对的数量可能彼此不同。为了捕获一对基因中的两个调控方向及其相应的强度，基因相互作用网络被认为是有向图，因此对于来自无向基因网络的A基因和B基因的边，例如STRING PPI网络，我们将其视为一对边(即从A到B的边和从B到A的边)。

具体的图神经网络构建方式与保留细胞-细胞关系的图神经网络的构建方式相同，只不过图神经网络的输入由细胞-细胞关系图转换为了基因-基因关系的PPI交互网络。基因之间的相互作用关系可以自发地以图形格式呈现，其中应用图形神经网络对这种关系进行建模。在图卷积层中，每个节点代表一个基因，两个节点之间的边代表这两个对应基因的关系。图表示模块设计为一个图卷积层，通过聚合其邻居节点的信息来更新每个节点。

3.对scRNA-seq数据降维

利用构建的图神经网络对预处理过的scRNA-seq数据进行降维。

将基因-细胞计数矩阵和细胞-细胞关系输入到图神经网络G1中，得到降维后的细胞特征θ1。

将将基因-细胞计数矩阵和基因-基因交互网络输入到图神经网络G2中，得到降维后的细胞特征θ2。

将学习到的细胞特征连接起来作为后续下游分析的降维结果。

4.K-means算法聚类

本方法使用了ZINB条件似然来重构scRNA-seq数据的解码器输出，ZINB分布被证明是一种可以较好的描述scRNA-seq数据的模型，并且是一种普遍接受的基因表达分布结构。

为了评估方法的有效性，我们应用了k-means聚类算法对降维后的数据进行聚类，并用标准化互信息这一指标进行评价。假设X是预测的聚类结果，Y是带有真实标签的细胞类型，NMI分数计算如下：

MI是X和Y之间的互熵，H是香农熵。

从上面所述可以看出，本说明书一个或多个实施例提供的基于图神经网络的scRNA-seq数据降维方法，在降维结果中同时保留了细胞-细胞关系和基因-基因关系。我们的模型约束了数据结构，并通过两个图神经网络模块进行降维。在五个真实的scRNA-seq数据集上进行的实验表明，本方法能够提供更准确的scRNA-seq数据的低维表示。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实验，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

1.数据集概述

为了评估scTPGAE的性能，我们关注相对较大的数据集；选择具有已知细胞类型的五个真实scRNA-seq数据集。下表总结了五个真实数据集的基本信息，下面我们将描述这些数据集。

(i)10X PBMC数据集，10X scRNA-seq平台提供，数据采集自一个健康人类；(ii)小鼠胚胎干细胞数据集，描述了白血病抑制因子(LIF)退出消除后小鼠胚胎干细胞异质分化的转录组；(iii)小鼠膀胱细胞数据集来自小鼠细胞图谱项目GSE108097。从原始计数矩阵中，我们选择了约2700个来自膀胱组织的细胞；(iv)蠕虫神经元细胞数据集通过单细胞组合索引RNA测序进行分析，该测序来自L2幼虫期秀丽隐杆线虫；(v)Zeisel数据集包含3005个细胞，这些细胞来自小鼠皮层和海马体GSE60361。

2.实验环境及参数设置

硬件环境主要是一台PC主机。其中，PC主机的CPU 11th Gen Intel(R)Core(TM)i5-1135G7，2.42GHz，内存为16GB RAM，64位操作系统。软件以Windows 10为平台，在Pycharm环境下用Python语言实现，python版本为3.5.0，Tensorflow版本为1.4.0。

我们使用Python包Spektral32来实现我们的模型。有许多类型的图形神经网络可以用作编码器或解码器。因此，为了借助于节点的邻居来提取节点的特征，我们在编码器中应用图注意力层作为默认值。其他图神经网络如GCN、GraphSAGE和TAGCN也可以作为scTPGAE中的编码器实现。特征解码器D_X是一个四层完全连接的神经网络，在隐藏层中有64、256、512个节点。

A_r＝D_A(h)＝σ(ZZ^T)

基因-基因交互网络则可以利用现有的数据，我们收集了七种不同的人类基因相互作用网络和一种小鼠基因相互作用网络来评估scTPGAE的性能。

3.评价指标

为了使不同方法的结果易于比较，我们采用K均值进行聚类分析，并将参数K设置为每个数据集中的真实聚类数。在我们的实验中，使用标准化互信息(NMI)和调整兰德指数(ARI)这两个指标来评估scTPGAE模型，这两个指标被广泛用于无监督学习场景的模型性能评估中。

4.实验结果分析

在这里，主要将本方法在五个真实数据集上进行了实验，得到的归一化互信息和调整兰德指数如下表所示。

归一化互信息(NMI)

调整兰德指数(ARI)

上述实验结果表明，基于图神经网络的scTPGAE方法是一种很有前途的新方法。本方法在五个真实数据集上，均获得了较好的性能，这表明本方法能够提供更准确的scRNA-seq数据的低维表示。

可见，我们提出的scTPGAE方法，是一种用于对单细胞RNA-seq数据进行降维、聚类分析的方法，该方法具有以下几个优势，首先，scTPGAE将潜在空间分布与选择的先验进行匹配；其次，scTPGAE在降维结果中保留了细胞-细胞之间的关系；再次，scTPGAE方法在保留了细胞-细胞关系的同时保留了基因-基因之间的关系；最后，本方法考虑了深度神经网络框架中的并行和可扩展特性。我们的模型约束了数据结构，并通过图神经网络模块进行降维。以标准化互信息和调整兰德指数作为评价指标，在五个真实的scRNA-seq数据集上进行的实验表明，本方法具有不错的性能。

附图说明

图1：基于图神经网络的scRNA-seq数据降维方法的流程示意图；

图2：以归一化互信息(NMI)作为衡量指标的实验结果；

图3：以调整兰德指数(ARI)作为衡量指标的实验结果。

Claims

1.一种基于图神经网络的scRNA-seq数据降维方法，其特征在于实施步骤:

(1)数据预处理；收集来自不同物种、不同类型、不同细胞数量的scRNA-seq数据集；对收集到的原始的scRNA-seq数据采用对数转换和z分数归一化方法进行预处理，并利用零膨胀负二项分布对输入的数据进行重建，得到无噪音数据；

(2)构建用于降维的图神经网络，是一个由深度编码器、中间隐藏层和深度解码器构成的自动编码器框架；可同时在降维结果中保留细胞之间的拓补结构和基因之间的拓补结构；

(3)利用构建的图神经网络对预处理过的scRNA-seq数据进行降维，利用自动编码器的中间隐藏层学习到隐藏层特征向量，并对隐藏层特征向量的先验分布进行约束，将隐藏层特征向量与所选的先验分布进行匹配；将两个图神经网络中学习到的隐藏层特征向量进行连接，以便于后续的下游分析；

(4)应用k-means聚类算法对降维后的数据进行聚类，得到标准化互信息分数和调整兰德指数。

2.根据权利要求1所述的一种基于图神经网络的scRNA-seq数据降维方法，其特征在于收集数据并对收集到的单细胞RNA测序数据进行预处理：

我们收集了来自不同物种、不同类型、不同细胞数量、真实的五个scRNA-seq数据集，然后使用对数转换和z分数归一化的方法对收集的数据进行了预处理。

具体的，我们对以下五个数据集进行了数据预处理的操作。

(1)10X PBMC数据集，10X scRNA-seq平台提供，数据采集自一个健康人类；

(2)小鼠胚胎干细胞数据集，描述了白血病抑制因子(LIF)退出消除后小鼠胚胎干细胞异质分化的转录组；

(3)小鼠膀胱细胞数据集来自小鼠细胞图谱项目GSE108097。从原始计数矩阵中，我们选择了约2700个来自膀胱组织的细胞；

(4)蠕虫神经元细胞数据集通过单细胞组合索引RNA测序进行分析，该测序来自L2幼虫期秀丽隐杆线虫；

(5)Zeisel数据集包含3005个细胞，这些细胞来自小鼠皮层和海马体GSE60361。

3.根据权利要求1所述的一种基于图神经网络的scRNA-seq数据降维方法，其特征在于构建一个图神经网络，是一个由深度编码器、中间隐藏层和深度解码器构成的自动编码器框架，具体包括：

(1)保留细胞-细胞关系的图神经网络G1

图自动编码器是一种用于对图结构数据进行无监督表示学习的人工神经网络。图形自动编码器具有低维瓶颈层，因此可以用作降维模型。假设输入是节点矩阵X和邻接矩阵A的细胞-细胞关系图。在我们的联合图自动编码器中，有一个编码器E用于整个图，两个解码器D_X和D_A分别用于节点和边。在实践中，我们首先将输入图编码为潜在变量h＝E(X，a)，然后将h解码为重构的节点矩阵x_r＝D_X(h)和重构的邻接矩阵A_r＝D_A(h)。学习过程的目标是最小化重建损失

其中权重是超参数。在我们的实验中，设置为0.6。

我们使用Python包Spektral32来实现我们的模型。有许多类型的图形神经网络可以用作编码器或解码器。因此，为了借助于节点的邻居来提取节点的特征，我们在编码器中应用图注意力层为默认值。其他图神经网络如GCN、GraphSAGE和TAGCN也可以作为scTPGAE中的编码器实现。特征解码器D_X是一个四层完全连接的神经网络，在隐藏层中有64、256、512个节点。

A_r＝D_A(h)＝σ(ZZ^T)

其中Z＝σ(Wh)作为具有权重矩阵W的完全连接层的输出，σ(x)＝max(0，x)是直线线性单位。

(2)保留基因-基因关系的图神经网络G2

4.根据权利要求1所述的一种基于图神经网络的scRNA-seq数据降维方法，其特征在于利用构建的图神经网络对预处理过的scRNA-seq数据进行降维，具体包括：

利用构建的图神经网络对预处理过的scRNA-seq数据进行降维。

5.根据权利要求1所述的一种基于图神经网络的scRNA-seq数据降维方法，其特征在于应用k-means聚类算法对降维后的数据进行聚类。具体包括：

为了评估方法的有效性，我们应用了k-means聚类算法对降维后的数据进行聚类，并用标准化互信息和调整兰德指数作为评价指标。在五个真实的scRNA-seq数据集上进行的实验表明，本方法能够提供更准确的scRNA-seq数据的低维表示。