[go: up one dir, main page]

CN116386729A - 一种基于图神经网络的scRNA-seq数据降维方法 - Google Patents

一种基于图神经网络的scRNA-seq数据降维方法 Download PDF

Info

Publication number
CN116386729A
CN116386729A CN202211716676.1A CN202211716676A CN116386729A CN 116386729 A CN116386729 A CN 116386729A CN 202211716676 A CN202211716676 A CN 202211716676A CN 116386729 A CN116386729 A CN 116386729A
Authority
CN
China
Prior art keywords
cell
data
neural network
scrna
gene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211716676.1A
Other languages
English (en)
Inventor
王树林
孙鸿福
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202211716676.1A priority Critical patent/CN116386729A/zh
Publication of CN116386729A publication Critical patent/CN116386729A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及生物信息学中的数据挖掘,特别是涉及对单细胞RNA测序数据的挖掘。具体涉及通过深度学习的方法对单细胞RNA测序数据进行维度压缩以及聚类,来达到有效识别细胞种群的目的。本发明的方法包括对scRNA‑seq数据进行收集和预处理;构建图神经网络模型;使用构建的模型对预处理过的数据进行降维;对降维后的结果进行聚类分析。我们的模型约束了数据结构,并通过图神经网络模块进行降维,并在降维结果中同时保留细胞‑细胞关系和基因‑基因关系。以标准化互信息和调整兰德指数作为评价指标,在五个真实的scRNA‑seq数据集上进行的实验表明,本方法具有不错的性能。

Description

一种基于图神经网络的scRNA-seq数据降维方法
技术领域
本发明涉及生物信息学中的数据挖掘,特别是涉及对单细胞RNA测序数据的挖掘。具体涉及通过对单细胞RNA测序数据进行维度压缩以及聚类,来达到有效识别细胞种群的目的。
背景技术
随着近年来单细胞RNA测序(scRNAseq)技术的爆炸式增长,出现了前所未有的单细胞转录分析机会。传统的批量RNA测序方法对数百万个细胞的混合物进行测序。这导致一个基因的基因表达反映了所有细胞中基因表达的平均值,而忽略了细胞之间的异质性。与bulk RNAseq不同,scRNAseq第一步分离细胞,第二步对每个细胞的数千个基因进行测序。根据不同的测序方案,每个基因收集了数以百万计的表达值,从而可以识别新的细胞类型,确定基因调控机制,解决发育过程的细胞动力学问题。
单细胞RNA测序(scRNA-seq)是研究细胞间变异的理想方法。主成分分析(PCA)和t-分布式随机邻域嵌入(t-SNE)等常规降维技术在scRNA-seq数据上实施,用于可视化和下游分析,显着增加了我们对细胞异质性和发育进度的理解。最近出现的大规模并行scRNA-seq(例如液滴平台)使得能够对复杂生物系统中的数百万个细胞进行测序,这为组织和细胞微环境的解剖、稀有/新细胞类型的鉴定、发育谱系的推断以及细胞对刺激的反应机制的阐明提供了极好的潜力。然而,大规模并行scRNA-seq生成的数据具有高dropout、高噪声、结构复杂等特点,给降维带来了一系列挑战。特别是,保留细胞间复杂的拓扑结构是一个巨大的挑战。
在过去的几年中,已经开发或引入了许多用于scRNA-seq数据分析的降维方法。最近开发的竞争方法包括DCA、scVI、scDeepCluster、PHATE、SAUCIE、scGNN、ZINB-WaVE和Ivis。其中,深度学习显示出最大的潜力。例如,DCA、scDeepCluster、Ivis和SAUCIE调整了自动编码器以对scRNA-seq数据进行降噪、可视化和聚类。然而,这些基于深度学习的模型只嵌入了不同的细胞特征而忽略了细胞与细胞之间的关系,这限制了它们揭示细胞间复杂拓扑结构的能力,也使它们难以阐明发育轨迹。最近提出的图自动编码器非常有前途,因为它保留了潜在空间中数据之间的长距离关系。
然而,研究表明,基因调控网络或蛋白质-蛋白质相互作用(PPI)网络中涉及的基因相互作用在不同的生物学背景下具有丰富的信息。此外,之前的研究表明,将scRNA-seq数据与先前的基因相互作用信息联合分析可以导致对数据的有意义的理解。NetNMF-sc是一种专为scRNA-seq分析设计的网络正则化非负矩阵分解,它利用先验基因网络获得更有意义的基因低维表示。相对应的,scRNA-seq数据也包含丰富的信息来推断基因-基因相互作用。
受上述理解的启发,我们提出了scTPGAE,这是一种基于图神经网络的计算方法,它利用两个图神经网络同时将细胞-细胞关系,基因-基因关系保留到降维结果中,以达到更好的下游分析结果。
发明内容
本发明针对以上方法存在的问题与scRNA-seq数据的复杂性,我们提出了一种基于图神经网络的scRNA-seq数据降维方法。本发明的方法可以有效的解决现有降维方法存在的重要信息丢失,特征提取不充分等问题,并在降维结果中同时保留了细胞-细胞关系和基因-基因关系,并获得了更好的聚类精度。所叙述方法的步骤包括:
1.数据预处理
首先,假设我们有一个原始的scRNA-seq计数矩阵C,它过滤掉了任何细胞中没有计数的基因。C可以表示为P乘N维矩阵,其中P被定义为基因总数,N被定义为细胞总数,Cij表示细胞j中基因i的表达值。
在这项工作中,我们首先对原始scRNA-seq计数数据进行预处理,包括对数转换和z分数归一化。我们有一个归一化输出X,公示如下
Figure SMS_1
X=zscore(X′)
其中Sj是每个细胞j的大小因子。数据预处理的优点是保留数据大小差异的影响,并将离散值转换为连续值,从而为后续建模提供更大的灵活性。
图神经网络需要的输入除了上述的基因-细胞关系矩阵外,还需要细胞-细胞关系图和基因-基因交互网络。
其中,细胞-细胞关系图由Scikit-learn Python包中的K最近邻(KNN)算法构建。默认K在本研究中预定义为35,并根据我们实验中的数据集进行调整。生成的邻接矩阵是一个0-1的矩阵,1代表连通,0代表不连通。
基因-基因交互网络则可以利用现有的数据,我们收集了七种不同的人类基因相互作用网络和一种小鼠基因相互作用网络来评估scTPGAE的性能。最著名的基因相互作用网络之一是STRING数据库,这是一个PPI网络,它从文献和实验等多种资源中收集和整合蛋白质-蛋白质关联信息。HumanNet是一个人类功能基因网络,它通过贝叶斯统计框架整合了多种类型的组学数据。HumanNet包括人类基因网络的层次结构,即人类衍生的PPI、共功能链接、共引用和来自其他物种的互斥。具体来说,我们使用了两个版本的HumanNet,HumanNet-CF和HumanNet-PI,它们分别由协同功能网络和PPI网络组成。FunCoup是全基因组功能关联网络,使用独特的冗余加权贝叶斯积分来组合10种不同类型的功能关联数据。GeneMANIA通过对多重功能基因组数据集进行加权来创建组合基因网络。此外,我们从pgWalk收集了两个功能相似矩阵,它们分别来自KEGG通路和Gene Ontology生物过程。接下来,我们通过过滤掉那些相似度值小于某个阈值(即0.9)的基因对,将这两个相似度矩阵转换为基因网络。这两个网络分别称为pgWalk-kegg和pgWalk-gobp。
2.构建用于降维的图神经网络
(1)保留细胞-细胞关系的图神经网络G1
图自动编码器是一种用于对图结构数据进行无监督表示学习的人工神经网络。图形自动编码器具有低维瓶颈层,因此可以用作降维模型。假设输入是节点矩阵X和邻接矩阵A的细胞-细胞关系图。在我们的联合图自动编码器中,有一个编码器E用于整个图,两个解码器DX和DA分别用于节点和边。在实践中,我们首先将输入图编码为潜在变量h=E(X,a),然后将h解码为重构的节点矩阵xr=DX(h)和重构的邻接矩阵Ar=DA(h)。学习过程的目标是最小化重建损失
Figure SMS_2
其中权重是超参数。在我们的实验中,设置为0.6。
我们使用Python包Spektral32来实现我们的模型。有许多类型的图形神经网络可以用作编码器或解码器。因此,为了借助于节点的邻居来提取节点的特征,我们在编码器中应用图注意力层为默认值。其他图形神经网络如GCN、GraphSAGE和TAGCN也可以作为scTPGAE中的编码器实现。特征解码器DX是一个四层完全连接的神经网络,在隐藏层中有64、256、512个节点。
边缘解码器由一个完全连接的层组成,然后是象限化和激活的组成:
Ar=DA(h)=σ(ZZT)
其中Z=σ(Wh)作为具有权重矩阵W的完全连接层的输出,σ(x)=max(0,x)是直线线性单位。
(2)保留基因-基因关系的图神经网络G2
我们注意到,当将基因相互作用网络应用于某个数据集时,只有那些在该数据集中出现两个相互作用基因的相互作用对被保留,其余对被丢弃。换句话说,不同数据集的基因相互作用网络的相互作用对的数量可能彼此不同。为了捕获一对基因中的两个调控方向及其相应的强度,基因相互作用网络被认为是有向图,因此对于来自无向基因网络的A基因和B基因的边,例如STRING PPI网络,我们将其视为一对边(即从A到B的边和从B到A的边)。
具体的图神经网络构建方式与保留细胞-细胞关系的图神经网络的构建方式相同,只不过图神经网络的输入由细胞-细胞关系图转换为了基因-基因关系的PPI交互网络。基因之间的相互作用关系可以自发地以图形格式呈现,其中应用图形神经网络对这种关系进行建模。在图卷积层中,每个节点代表一个基因,两个节点之间的边代表这两个对应基因的关系。图表示模块设计为一个图卷积层,通过聚合其邻居节点的信息来更新每个节点。
3.对scRNA-seq数据降维
利用构建的图神经网络对预处理过的scRNA-seq数据进行降维。
将基因-细胞计数矩阵和细胞-细胞关系输入到图神经网络G1中,得到降维后的细胞特征θ1。
将将基因-细胞计数矩阵和基因-基因交互网络输入到图神经网络G2中,得到降维后的细胞特征θ2。
将学习到的细胞特征连接起来作为后续下游分析的降维结果。
4.K-means算法聚类
本方法使用了ZINB条件似然来重构scRNA-seq数据的解码器输出,ZINB分布被证明是一种可以较好的描述scRNA-seq数据的模型,并且是一种普遍接受的基因表达分布结构。
为了评估方法的有效性,我们应用了k-means聚类算法对降维后的数据进行聚类,并用标准化互信息这一指标进行评价。假设X是预测的聚类结果,Y是带有真实标签的细胞类型,NMI分数计算如下:
Figure SMS_3
MI是X和Y之间的互熵,H是香农熵。
从上面所述可以看出,本说明书一个或多个实施例提供的基于图神经网络的scRNA-seq数据降维方法,在降维结果中同时保留了细胞-细胞关系和基因-基因关系。我们的模型约束了数据结构,并通过两个图神经网络模块进行降维。在五个真实的scRNA-seq数据集上进行的实验表明,本方法能够提供更准确的scRNA-seq数据的低维表示。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实验,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
1.数据集概述
为了评估scTPGAE的性能,我们关注相对较大的数据集;选择具有已知细胞类型的五个真实scRNA-seq数据集。下表总结了五个真实数据集的基本信息,下面我们将描述这些数据集。
Figure SMS_4
(i)10X PBMC数据集,10X scRNA-seq平台提供,数据采集自一个健康人类;(ii)小鼠胚胎干细胞数据集,描述了白血病抑制因子(LIF)退出消除后小鼠胚胎干细胞异质分化的转录组;(iii)小鼠膀胱细胞数据集来自小鼠细胞图谱项目GSE108097。从原始计数矩阵中,我们选择了约2700个来自膀胱组织的细胞;(iv)蠕虫神经元细胞数据集通过单细胞组合索引RNA测序进行分析,该测序来自L2幼虫期秀丽隐杆线虫;(v)Zeisel数据集包含3005个细胞,这些细胞来自小鼠皮层和海马体GSE60361。
2.实验环境及参数设置
硬件环境主要是一台PC主机。其中,PC主机的CPU 11th Gen Intel(R)Core(TM)i5-1135G7,2.42GHz,内存为16GB RAM,64位操作系统。软件以Windows 10为平台,在Pycharm环境下用Python语言实现,python版本为3.5.0,Tensorflow版本为1.4.0。
我们使用Python包Spektral32来实现我们的模型。有许多类型的图形神经网络可以用作编码器或解码器。因此,为了借助于节点的邻居来提取节点的特征,我们在编码器中应用图注意力层作为默认值。其他图神经网络如GCN、GraphSAGE和TAGCN也可以作为scTPGAE中的编码器实现。特征解码器DX是一个四层完全连接的神经网络,在隐藏层中有64、256、512个节点。
边缘解码器由一个完全连接的层组成,然后是象限化和激活的组成:
Ar=DA(h)=σ(ZZT)
其中Z=σ(Wh)作为具有权重矩阵W的完全连接层的输出,σ(x)=max(0,x)是直线线性单位。
图神经网络需要的输入除了上述的基因-细胞关系矩阵外,还需要细胞-细胞关系图和基因-基因交互网络。
其中,细胞-细胞关系图由Scikit-learn Python包中的K最近邻(KNN)算法构建。默认K在本研究中预定义为35,并根据我们实验中的数据集进行调整。生成的邻接矩阵是一个0-1的矩阵,1代表连通,0代表不连通。
基因-基因交互网络则可以利用现有的数据,我们收集了七种不同的人类基因相互作用网络和一种小鼠基因相互作用网络来评估scTPGAE的性能。
3.评价指标
为了使不同方法的结果易于比较,我们采用K均值进行聚类分析,并将参数K设置为每个数据集中的真实聚类数。在我们的实验中,使用标准化互信息(NMI)和调整兰德指数(ARI)这两个指标来评估scTPGAE模型,这两个指标被广泛用于无监督学习场景的模型性能评估中。
4.实验结果分析
在这里,主要将本方法在五个真实数据集上进行了实验,得到的归一化互信息和调整兰德指数如下表所示。
归一化互信息(NMI)
Figure SMS_5
调整兰德指数(ARI)
Figure SMS_6
上述实验结果表明,基于图神经网络的scTPGAE方法是一种很有前途的新方法。本方法在五个真实数据集上,均获得了较好的性能,这表明本方法能够提供更准确的scRNA-seq数据的低维表示。
可见,我们提出的scTPGAE方法,是一种用于对单细胞RNA-seq数据进行降维、聚类分析的方法,该方法具有以下几个优势,首先,scTPGAE将潜在空间分布与选择的先验进行匹配;其次,scTPGAE在降维结果中保留了细胞-细胞之间的关系;再次,scTPGAE方法在保留了细胞-细胞关系的同时保留了基因-基因之间的关系;最后,本方法考虑了深度神经网络框架中的并行和可扩展特性。我们的模型约束了数据结构,并通过图神经网络模块进行降维。以标准化互信息和调整兰德指数作为评价指标,在五个真实的scRNA-seq数据集上进行的实验表明,本方法具有不错的性能。
附图说明
图1:基于图神经网络的scRNA-seq数据降维方法的流程示意图;
图2:以归一化互信息(NMI)作为衡量指标的实验结果;
图3:以调整兰德指数(ARI)作为衡量指标的实验结果。

Claims (5)

1.一种基于图神经网络的scRNA-seq数据降维方法,其特征在于实施步骤:
(1)数据预处理;收集来自不同物种、不同类型、不同细胞数量的scRNA-seq数据集;对收集到的原始的scRNA-seq数据采用对数转换和z分数归一化方法进行预处理,并利用零膨胀负二项分布对输入的数据进行重建,得到无噪音数据;
(2)构建用于降维的图神经网络,是一个由深度编码器、中间隐藏层和深度解码器构成的自动编码器框架;可同时在降维结果中保留细胞之间的拓补结构和基因之间的拓补结构;
(3)利用构建的图神经网络对预处理过的scRNA-seq数据进行降维,利用自动编码器的中间隐藏层学习到隐藏层特征向量,并对隐藏层特征向量的先验分布进行约束,将隐藏层特征向量与所选的先验分布进行匹配;将两个图神经网络中学习到的隐藏层特征向量进行连接,以便于后续的下游分析;
(4)应用k-means聚类算法对降维后的数据进行聚类,得到标准化互信息分数和调整兰德指数。
2.根据权利要求1所述的一种基于图神经网络的scRNA-seq数据降维方法,其特征在于收集数据并对收集到的单细胞RNA测序数据进行预处理:
我们收集了来自不同物种、不同类型、不同细胞数量、真实的五个scRNA-seq数据集,然后使用对数转换和z分数归一化的方法对收集的数据进行了预处理。
具体的,我们对以下五个数据集进行了数据预处理的操作。
(1)10X PBMC数据集,10X scRNA-seq平台提供,数据采集自一个健康人类;
(2)小鼠胚胎干细胞数据集,描述了白血病抑制因子(LIF)退出消除后小鼠胚胎干细胞异质分化的转录组;
(3)小鼠膀胱细胞数据集来自小鼠细胞图谱项目GSE108097。从原始计数矩阵中,我们选择了约2700个来自膀胱组织的细胞;
(4)蠕虫神经元细胞数据集通过单细胞组合索引RNA测序进行分析,该测序来自L2幼虫期秀丽隐杆线虫;
(5)Zeisel数据集包含3005个细胞,这些细胞来自小鼠皮层和海马体GSE60361。
3.根据权利要求1所述的一种基于图神经网络的scRNA-seq数据降维方法,其特征在于构建一个图神经网络,是一个由深度编码器、中间隐藏层和深度解码器构成的自动编码器框架,具体包括:
(1)保留细胞-细胞关系的图神经网络G1
图自动编码器是一种用于对图结构数据进行无监督表示学习的人工神经网络。图形自动编码器具有低维瓶颈层,因此可以用作降维模型。假设输入是节点矩阵X和邻接矩阵A的细胞-细胞关系图。在我们的联合图自动编码器中,有一个编码器E用于整个图,两个解码器DX和DA分别用于节点和边。在实践中,我们首先将输入图编码为潜在变量h=E(X,a),然后将h解码为重构的节点矩阵xr=DX(h)和重构的邻接矩阵Ar=DA(h)。学习过程的目标是最小化重建损失
Figure FDA0004014338180000021
其中权重是超参数。在我们的实验中,设置为0.6。
我们使用Python包Spektral32来实现我们的模型。有许多类型的图形神经网络可以用作编码器或解码器。因此,为了借助于节点的邻居来提取节点的特征,我们在编码器中应用图注意力层为默认值。其他图神经网络如GCN、GraphSAGE和TAGCN也可以作为scTPGAE中的编码器实现。特征解码器DX是一个四层完全连接的神经网络,在隐藏层中有64、256、512个节点。
边缘解码器由一个完全连接的层组成,然后是象限化和激活的组成:
Ar=DA(h)=σ(ZZT)
其中Z=σ(Wh)作为具有权重矩阵W的完全连接层的输出,σ(x)=max(0,x)是直线线性单位。
(2)保留基因-基因关系的图神经网络G2
我们注意到,当将基因相互作用网络应用于某个数据集时,只有那些在该数据集中出现两个相互作用基因的相互作用对被保留,其余对被丢弃。换句话说,不同数据集的基因相互作用网络的相互作用对的数量可能彼此不同。为了捕获一对基因中的两个调控方向及其相应的强度,基因相互作用网络被认为是有向图,因此对于来自无向基因网络的A基因和B基因的边,例如STRING PPI网络,我们将其视为一对边(即从A到B的边和从B到A的边)。
具体的图神经网络构建方式与保留细胞-细胞关系的图神经网络的构建方式相同,只不过图神经网络的输入由细胞-细胞关系图转换为了基因-基因关系的PPI交互网络。基因之间的相互作用关系可以自发地以图形格式呈现,其中应用图形神经网络对这种关系进行建模。在图卷积层中,每个节点代表一个基因,两个节点之间的边代表这两个对应基因的关系。图表示模块设计为一个图卷积层,通过聚合其邻居节点的信息来更新每个节点。
4.根据权利要求1所述的一种基于图神经网络的scRNA-seq数据降维方法,其特征在于利用构建的图神经网络对预处理过的scRNA-seq数据进行降维,具体包括:
利用构建的图神经网络对预处理过的scRNA-seq数据进行降维。
将基因-细胞计数矩阵和细胞-细胞关系输入到图神经网络G1中,得到降维后的细胞特征θ1。
将将基因-细胞计数矩阵和基因-基因交互网络输入到图神经网络G2中,得到降维后的细胞特征θ2。
将学习到的细胞特征连接起来作为后续下游分析的降维结果。
5.根据权利要求1所述的一种基于图神经网络的scRNA-seq数据降维方法,其特征在于应用k-means聚类算法对降维后的数据进行聚类。具体包括:
本方法使用了ZINB条件似然来重构scRNA-seq数据的解码器输出,ZINB分布被证明是一种可以较好的描述scRNA-seq数据的模型,并且是一种普遍接受的基因表达分布结构。
为了评估方法的有效性,我们应用了k-means聚类算法对降维后的数据进行聚类,并用标准化互信息和调整兰德指数作为评价指标。在五个真实的scRNA-seq数据集上进行的实验表明,本方法能够提供更准确的scRNA-seq数据的低维表示。
CN202211716676.1A 2022-12-23 2022-12-23 一种基于图神经网络的scRNA-seq数据降维方法 Pending CN116386729A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211716676.1A CN116386729A (zh) 2022-12-23 2022-12-23 一种基于图神经网络的scRNA-seq数据降维方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211716676.1A CN116386729A (zh) 2022-12-23 2022-12-23 一种基于图神经网络的scRNA-seq数据降维方法

Publications (1)

Publication Number Publication Date
CN116386729A true CN116386729A (zh) 2023-07-04

Family

ID=86975628

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211716676.1A Pending CN116386729A (zh) 2022-12-23 2022-12-23 一种基于图神经网络的scRNA-seq数据降维方法

Country Status (1)

Country Link
CN (1) CN116386729A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116665786A (zh) * 2023-07-21 2023-08-29 曲阜师范大学 一种基于图卷积神经网络的rna分层嵌入聚类方法
CN116825204A (zh) * 2023-08-30 2023-09-29 鲁东大学 一种基于深度学习的单细胞rna序列基因调控推断方法
CN117854597A (zh) * 2024-01-15 2024-04-09 杭州电子科技大学 一种基于对比学习特征降维的轨迹预测方法
CN118335192A (zh) * 2024-06-13 2024-07-12 杭州电子科技大学 一种基于自注意力网络和对比学习的单细胞测序数据聚类方法
CN118645154A (zh) * 2024-08-12 2024-09-13 中国医学科学院基础医学研究所 一种基于单细胞RNA表达数据的单细胞Hi-C图谱预测方法
CN118969078A (zh) * 2024-07-09 2024-11-15 上海交通大学 一种基于图神经网络的空间组学肿瘤进化预测方法及系统
CN119132389A (zh) * 2024-08-14 2024-12-13 东北林业大学 一种单细胞测序数据的生成方法
CN119252341A (zh) * 2024-09-10 2025-01-03 桂林电子科技大学 一种添加的掩码的scRNA-seq测序数据PCA降维方法
WO2025007301A1 (zh) * 2023-07-05 2025-01-09 深圳理工大学(筹) 图神经网络构建方法、装置、电子设备及存储介质
CN119323992A (zh) * 2024-09-20 2025-01-17 东北林业大学 一种基于多组学数据识别细胞通讯的方法
CN119400249A (zh) * 2024-10-12 2025-02-07 哈尔滨工程大学 一种基于图自动编码器的scRNA-seq数据特征学习方法
CN119601090A (zh) * 2024-11-19 2025-03-11 广东药科大学 一种基于图卷积神经网络的基因共表达网络识别方法和系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114067915A (zh) * 2021-11-22 2022-02-18 湖南大学 一种基于深度对抗变分自编码器的scRNA-seq数据降维方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114067915A (zh) * 2021-11-22 2022-02-18 湖南大学 一种基于深度对抗变分自编码器的scRNA-seq数据降维方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
廖明辉: "基于图卷积神经网络的scRNA-seq数据分析研究", 《中国优秀硕士学位论文全文数据库 基础科学辑》, 26 October 2022 (2022-10-26), pages 1 - 70 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2025007301A1 (zh) * 2023-07-05 2025-01-09 深圳理工大学(筹) 图神经网络构建方法、装置、电子设备及存储介质
CN116665786A (zh) * 2023-07-21 2023-08-29 曲阜师范大学 一种基于图卷积神经网络的rna分层嵌入聚类方法
CN116825204A (zh) * 2023-08-30 2023-09-29 鲁东大学 一种基于深度学习的单细胞rna序列基因调控推断方法
CN116825204B (zh) * 2023-08-30 2023-11-07 鲁东大学 一种基于深度学习的单细胞rna序列基因调控推断方法
CN117854597A (zh) * 2024-01-15 2024-04-09 杭州电子科技大学 一种基于对比学习特征降维的轨迹预测方法
CN118335192A (zh) * 2024-06-13 2024-07-12 杭州电子科技大学 一种基于自注意力网络和对比学习的单细胞测序数据聚类方法
CN118969078A (zh) * 2024-07-09 2024-11-15 上海交通大学 一种基于图神经网络的空间组学肿瘤进化预测方法及系统
CN118645154B (zh) * 2024-08-12 2024-11-08 中国医学科学院基础医学研究所 一种基于单细胞RNA表达数据的单细胞Hi-C图谱预测方法
CN118645154A (zh) * 2024-08-12 2024-09-13 中国医学科学院基础医学研究所 一种基于单细胞RNA表达数据的单细胞Hi-C图谱预测方法
CN119132389A (zh) * 2024-08-14 2024-12-13 东北林业大学 一种单细胞测序数据的生成方法
CN119252341A (zh) * 2024-09-10 2025-01-03 桂林电子科技大学 一种添加的掩码的scRNA-seq测序数据PCA降维方法
CN119323992A (zh) * 2024-09-20 2025-01-17 东北林业大学 一种基于多组学数据识别细胞通讯的方法
CN119323992B (zh) * 2024-09-20 2025-07-22 东北林业大学 一种基于多组学数据识别细胞通讯的方法
CN119400249A (zh) * 2024-10-12 2025-02-07 哈尔滨工程大学 一种基于图自动编码器的scRNA-seq数据特征学习方法
CN119601090A (zh) * 2024-11-19 2025-03-11 广东药科大学 一种基于图卷积神经网络的基因共表达网络识别方法和系统

Similar Documents

Publication Publication Date Title
CN116386729A (zh) 一种基于图神经网络的scRNA-seq数据降维方法
Wen et al. CellPLM: Pre-training of cell language model beyond single cells
CN113393911B (zh) 一种基于深度学习的配体化合物快速预筛选方法
CN113571125A (zh) 基于多层网络与图编码的药物靶点相互作用预测方法
CN111276187B (zh) 一种基于自编码器的基因表达谱特征学习方法
CN110335160B (zh) 一种基于分组和注意力改进Bi-GRU的就医迁移行为预测方法及系统
CN119763665B (zh) 一种基于图表示学习的基因调控网络推断方法及系统
CN115881232A (zh) 一种基于图神经网络和特征融合的scRNA-seq细胞类型注释方法
CN119763673A (zh) 一种基于迭代筛选的半监督单细胞rna测序数据聚类方法
CN118196490A (zh) 一种基于图注意自动编码器的单细胞类型注释方法
CN117611974A (zh) 基于多种群交替进化神经结构搜索的图像识别方法及系统
CN117476252A (zh) 一种基于知识图谱的病因病理预测方法
Wu et al. AAE-SC: A scRNA-seq clustering framework based on adversarial autoencoder
CN112071362B (zh) 一种融合全局和局部拓扑结构的蛋白质复合体的检测方法
Darmawahyuni et al. Health-related data analysis using metaheuristic optimization and machine learning
CN119400252A (zh) 基于共享单元的环状rna和疾病关联预测模型的构建方法、预测系统和预测方法
CN117594132A (zh) 基于鲁棒性残差图卷积网络的单细胞rna序列数据聚类方法
CN117951603A (zh) 一种基于增强图卷积自编码器的多组学数据分类方法
Chen et al. A deep graph convolution network with attention for clustering scrna-seq data
CN119400249B (zh) 一种基于图自动编码器的scRNA-seq数据特征学习方法
Zhang et al. HGLA: Biomolecular Interaction Prediction Based on Mixed High-Order Graph Convolution With Filter Network via LSTM and Channel Attention
Li et al. Single-cell Curriculum Learning-based Deep Graph Embedding Clustering
Kuang et al. Subtype-DCGCN: an unsupervised approach for cancer subtype diagnosis based on multi-omics data
CN116884486B (zh) 基于深度学习的mlncs预测方法
Wen Single Cells Are Biological Tokens: Towards Cell Language Models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination