[go: up one dir, main page]

CN116312792B - 基于互近邻的单细胞转录组批次矫正方法 - Google Patents

基于互近邻的单细胞转录组批次矫正方法 Download PDF

Info

Publication number
CN116312792B
CN116312792B CN202310372606.7A CN202310372606A CN116312792B CN 116312792 B CN116312792 B CN 116312792B CN 202310372606 A CN202310372606 A CN 202310372606A CN 116312792 B CN116312792 B CN 116312792B
Authority
CN
China
Prior art keywords
data
encoder
batch
bio
correction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310372606.7A
Other languages
English (en)
Other versions
CN116312792A (zh
Inventor
高琳
梁涛
许晗
胡宇轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202310372606.7A priority Critical patent/CN116312792B/zh
Publication of CN116312792A publication Critical patent/CN116312792A/zh
Application granted granted Critical
Publication of CN116312792B publication Critical patent/CN116312792B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Epidemiology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Public Health (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于互近邻单细胞转录组批次矫正方法,主要解决现有基于互近邻批次矫正方搜索到的MNN对数量少,矫正效果差的问题。其实现方案为:对单细胞转录组数据的基因特征进行筛选,筛选出高表达的基因;构建由编码器和解码器组成的自编码器,使用单细胞转录组数据筛选出高表达的基因对该编码器与解码器进行交叉训练;使用训练好的自编码器提取单细胞转录组数据筛选出高表达基因的特征,获得单细胞低维嵌入无批次信息数据;在单细胞低维嵌入无批次信息数据中搜索互近邻对,并利用其计算出一个矫正向量;使用矫正向量对数据进行批次矫正;本发明搜索到的MNN对多,批次矫正效果好,可用于生物信息学实验中对单细胞转录组数据的预处理。

Description

基于互近邻的单细胞转录组批次矫正方法
技术领域
本发明属于数据挖掘技术领域,具体涉及一种单细胞转录组批次矫正方法,可用于生物信息学实验中对单细胞转录组数据的预处理。
背景技术
随着单细胞测序技术的发展和测序成本的下降,越来越多的单细胞数据被产生。在生物信息学中,多源scRNA-seq数据集的集成对于解释复杂生物系统中细胞间的异质性和相互作用至关重要。然而,多源数据之间往往存在着批次效应,这种效应很难去除但可以缩小。如果效应比较小是可以接受的,但如果批次效应很严重,就可能会与真实的生物学差异相混淆。
为了解决这一问题,已经有很多方法被提出,其中有很多批次矫正方法是基于互近邻策略的。基于互近邻策略的方法在时间效率上有着显著优势,许多基于互近邻的方法批次矫正的结果非常好。但是互近邻策略使用局部匹配的MNN对进行全局矫正,因此基于互近邻策略的方法的批次矫正效果依赖于MNN对匹配的数量和准确性。
2018年Haghverdi等人在Nature biotechnology期刊上发表的文章中提出了MNNcorrect方法。该方法是一种互近邻策略的批次矫正方法,其实现方案是在单细胞转录组数据原始表达空间搜索MNN对,然后利用搜索到的MNN对计算出一个矫正向量,对待矫正批次的每个数据都加上这个矫正向量完成单细胞转录组数据的批次矫正。该方法搜索MNN对的效率很低,准确性不高且数量也不多。
2019年Haghverdi等人在MNNcorrect的基础上提出了FastMNN方法。该方法先对单细胞转录组数据进行PCA降维,再在PCA空间中搜索MNN对。该方法搜索MNN对效率比较高,搜索到的MNN对数量也远超在原始空间中搜索到的MNN对,但存在的不足是搜索到的MNN对的准确率不够高。
2021年Yang等人在Briefings in bioinformatics期刊上提出了iSMNN方法,该方法为了提高搜索到的MNN对准确率,采用先对单细胞转录组每个批次数据进行聚类,再在相同细胞类型中搜索MNN对,最后使用搜索到的MNN对进行批次矫正的技术方案。该方法通过迭代矫正,直到评价阈值局部收敛完成对单细胞转录组数据的批次矫正,所以可能存在过度矫正问题。
2021年Wang等人在Genome biology期刊上提出了iMAP。该方法在低维空间中搜索MNN对,再利用搜索到的MNN对训练一个GAN网络,最后使用训练得到的GAN网络进行批次矫正。该方法不存在对数据过度矫正的问题,但该方法时间复杂度较高。
发明内容
本发明的目的在于克服上述现有技术的不足,提出一种基于互近邻的单细胞转录组批次矫正方法,以能更加准确地寻找MNN对,提高批次矫正的效果,降低时间复杂度,提高批次矫正效率。
本发明的技术方案是:首先对单细胞转录组数据中的基因进行特征筛选,再训练一个自编码器对单细胞转录组数据进行特征提取和初步批次矫正,最后在上一步的基础上搜索MNN对,用搜索到的MNN对计算矫正向量再次对数据进行批次矫正。其实现步骤包括如下:
(1)使用单细胞转录组测序技术对样本中的每一个细胞测量其基因表达值,产生多批次单细胞转录组数据;
(2)对单细胞转录组数据中的基因进行特征选择,即从数据的基因中筛选出方差最大的前2000个基因作为高表达基因;
(3)构建一个由编码器和解码器组成自编码器;
(4)构建自编码器的损失函数:
(4a)从每个批次数据中随机抽取一个细胞构成训练样本集x:
x=(x1,x2,...,xi,...,xm),其中xi表示来自第i个批次的细胞数据,i取值范围为1到m,m为批次数量;
(4b)每次给自编码器输入一个训练样本集,自编码器中的编码器将xi编码成低维嵌入无批次信息zi_bio和批次噪声zi_nio
zbio=(z1_bio,z2_bio,...,zi_bio,...,zm_bio),
znio=(z1_nio,z2_nio,...,zi_nio,...,zm_nio);
其中,zi_nio使用one-hot-vector表示,维度为批次数量m;zi_nio的维度为1和0,即第i个维度为1,其他维度都是0;
(4c)将从编码器获得的zbio和znio作为解码器部分的输入,通过解码器将zbio还原成原始维度的数据为原始伪细胞;
(4d)根据原始样本集x和伪细胞计算自编码器的重构损失:
(4e)对从编码器获得的zbio添加随机噪声znio_ran,并将zbio和znio_ran输入到解码器中,得到随机噪声伪细胞再把输入到编码器中,获得去除随机噪声后的低维嵌入无批次信息zbio_c
(4f)利用zbio和zbio_c计算自编码器的内容损失:Lc=||zbio-zbio_c||;
(4g)根据自编码器的重构损失Lr和自编码器的内容损失Lc,构建自编码器损失函数为
(5)使用m个批次单细胞转录组数据对自编码器中编码器与解码器进行交叉训练,直到损失函数L收敛为止,得到训练好的自编码器;
(6)将m个批次单细胞转录组数据输入到训练好的自编码器进行特征提取和初步批次矫正,得到低维嵌入无批次信息数据集Z=(Z1,Z2,...,Zi,...,Zm),其中Zi表示第i个批次数据经过编码器特征提取后的维嵌入无批次信息数据。
(7)对低维嵌入无批次信息数据集Z进行迭代矫正:
(7a)选取数据集Z中细胞数量最多的一个批次数据作为参考数据集Zref
(7b)在剩余的数据集Z-Zref中选择细胞数量最多的数据集Zmax
(7c)在所述Zref和所述Zmax之间搜索互近邻MNN对(xref,xmax),利用搜索到的MNN对计算矫正向量V,并将Zmax中所有数据加上向量V,完成Zmax的矫正;
(7d)将矫正之后的Zmax与Zref合并作为新的参考数据集,并将Zmax从剩余批次数据集中删除;
(7e)重复(7b)-(7d)直到把所有数据集合并到参考数据集中得到矫正后的低维嵌入无批次信息数据集Z′=(Z′1,Z′2,...,Z′i,...,Z′m),其中Z′i表示第i个批次数据矫正之后的结果。
本发明与现有技术相比,具有如下优点:
第一,本发明由于设计了自编码器模型结构对数据进行特征提取,并且在训练自编码器过程中添加了随机噪声,因此可以在对数据特征提取的时候进行初步的批次矫正,提高了批次矫正效果。
第二,本发明由于在特征提取阶段对数据进行了初步的批次矫正,故能高效的搜索到MNN对,且搜索到的MNN对数量更多、准确性更高,提高了批次矫正效果。
第三,本发明由于对编码器与解码器进行交叉训练,并在训练过程中添加了随机噪声,所以运行时间不受数据规模影响,且运行时间只会随着数据规模增长而略微增长,可实现对大规模数据集的批次矫正。
附图说明
图1为本发明的实现流程图;
图2为本发明中的自编码器结构图;
图3为本发明对真实数据集DC进行批次矫正的仿真结果图。
图4为本发明对真实数据集Cell line进行批次矫正的仿真结果图。
具体实施方式
以下结合附图对本发明的实施例和效果做进一步详细说明。
本实施例以splatter工具生成的模拟数据集为例。该数据集中有三个批次的数据,每个批次数据有3000个细胞,每个细胞有20000个基因。
参照图1、本实例基于互近邻的单细胞转录组批次矫正方法,实现步骤如下:
步骤1,获取单细胞转录组数据集。
使用现有的开源splatter软件包生成一个单细胞转录组模拟数据集,该数据集中有三个批次的数据,每个批次数据有3000个细胞,每个细胞有20000个基因。
步骤2,对单细胞转录组数据集中每个细胞的20000个基因进行特征筛选。
通过开源的scanpy包中的pp.highly_variable_genes函数计算数据集中每个基因的方差,并提方差排名前2000的高表达基因。
步骤3,构建自编码器。
参照图2本步骤具体实现:
3.1)建立由三层全连接网络构成的编码器,其第一层结点数为1024,第二层结点数为512,第三层结点数为259,并将该第一层结点与第二层结点之间边的权重初始化为0.025,将第二层结点与第三层结点之间边的权重初始化为0.036;
3.2)建立由3层全连接网络构成的解码器,其第1层结点数为259,第2层结点数为512,第3层结点数为1024;并将该第1层结点与第2层结点之间边的权重初始化为0.036,将该第2层结点与第3层结点之间边的权重初始化为0.025;
3.3)用上述建立的编码器和解码器组成自编码器。
步骤4,构建自编码器的损失函数。
4.1)从每个批次数据中随机抽取一个细胞构成训练样本集x:
x=(x1,x2,x3),
其中x1表示来自第1个批次的细胞数据,x2表示来自第2个批次的细胞数据,x3表示来自第3个批次的细胞数据;
4.2)每次给自编码器输入一个训练样本集x,自编码器中的编码器将x编码成低维嵌入无批次信息zbio和批次噪声znio
zbio=(z1_bio,z2_bio,z3_bio)
znio=(z1_nio,z2_nio,z3_nio)
其中z1_nio表示第1个批次数据的噪声,其第1个维度为1,其他维度都是0;z2_nio表示第2个批次数据的噪声,其第2个维度为1,其他维度都是0;z3_nio表示第3个批次数据的噪声,其第3个维度为1,其他维度都是0;
4.3)将从编码器获得的zbio和znio作为解码器部分的输入,通过解码器将zbio还原成原始维度的数据为原始伪细胞;
4.4)根据原始样本集x和伪细胞计算自编码器的重构损失:
4.5)对从编码器获得的zbio添加随机噪声znio_ran,并将zbio和znio_ran输入到解码器中,得到随机噪声伪细胞再把输入到编码器中,获得去除随机噪声后的低维嵌入无批次信息zbio_c
4.6)利用zbio和zbio_c计算自编码器的内容损失:Lc=||zbio-zbio_c||;
4.7)根据自编码器的重构损失Lr和自编码器的内容损失Lc,构建自编码器损失函数为
步骤5,使用单细胞转录组数据集对自编码器中编码器与解码器进行交叉训练。
5.1)固定解码器的参数,对训练数据计算损失函数L,使用损失函数对编码器的三层全连接网络参数进行更新,直到损失函数L局部收敛;
5.2)固定编码器的参数,对训练数据计算损失函数L,使用损失函数对解码器的3层全连接网络参数进行更新,直到损失函数L局部收敛;
5.3)重复(5.1)-(5.2)直到损失函数达到用户设置的收敛阈值,得到训练好的自编码器。
步骤6,对单细胞转录组数据集进行特征提取,得到低维嵌入无批次信息数据集。
将单细胞转录组数据集输入到训练好的自编码器进行特征提取和初步批次矫正,得到低维嵌入无批次信息数据集Z:
Z=(Z1,Z2,Z3)
其中,Z1表示第1个批次数据经过编码器特征提取后的维嵌入无批次信息数据,Z2表示第2个批次数据经过编码器特征提取后的维嵌入无批次信息数据,Z3表示第3个批次数据经过编码器特征提取后的低维嵌入无批次信息数据集。
步骤7,对低维嵌入无批次信息数据集Z进行矫正。
7.1)选取低维嵌入无批次信息数据集Z中Z1作为参考数据集Zref
7.2)在剩余的数据集(Z2,Z3)中选择Z2作为待矫正数据集Zmax
7.3)在所述Zref和所述Zmax之间搜索互近邻MNN对(xref,xmax),利用搜索到的MNN对计算矫正向量V,并将Zmax中所有数据加上向量V,完成Zmax的矫正;
7.4)将矫正之后的Zmax与Zref合并作为新的参考数据集,并将Zmax从剩余数据集中删除;
7.5)在剩余的数据集(Z3)中选择Z3作为待矫正数据集Zmax
7.6)在Zref和Zmax之间搜索互近邻MNN对(xref,xmax),利用搜索到的MNN对计算矫正向量V,并将Zmax中所有数据加上向量V,完成Zmax的矫正;
7.7)将矫正之后的Zmax与Zref合并作为新的参考数据集,并将Zmax从剩余数据集中删除,得到矫正后的低维嵌入无批次信息数据集。
本实例中,共有3个批次,每个批次有3000细胞,每个细胞有20000个基因的单细胞转录组模拟数据完成了批次矫正。
以下结合模拟实验,对本发明的技术效果进行描述。
一.仿真条件:
仿真实验的计算机硬件CPU为Intel Core (TM)i7-7700、计算机硬件内存为16G;
计算机软件:WINDOWS 10系统上Conda集成开发软件。
二.仿真内容:
仿真1:将本发明与现有的7种方法LIGER、iMAP、DESC、Harmony、Scanorama、FastMNN、Seurat分别在人类外周血树突细胞数据集DC中进行批次矫正,并使用LISI、KBET、ARI作为评价指标对其批次矫正效果进行比较,结果如表1:
表1本发明和现有7种方法在DC数据集中批次矫正的评价
表1中所有评价指标都是经过量化之后的得分,得分越高说明批次矫正结果越好。从表1可以看出,本发明的矫正结果在所有批次矫正评价指标上得分都是最好的,达到了较好的批次去除的目的。
仿真2:将本发明与现有的7种方法LIGER、iMAP、DESC、Harmony、Scanorama、FastMNN、Seurat分别在Cell line数据集中进行批次矫正,并使用LISI、KBET、ARI作为评价指标对其批次矫正效果进行比较,结果如表2:
表2本发明和现有7种方法在Cell line数据集中批次矫正的评价
从表2可以看出,本发明本在评价指标LISI上得分是最高的,在KBET中仅次于LISI。所有方法在评价指标ARI上没有很大的区分度。综上所述,本发明在Cell line数据集上矫正效果很好,且结果优于其他方法。
仿真3:在数据集DC中使用UMAP可视化工具展示本发明的批次矫正效果,结果如图3所示,其中图3a是数据集DC矫正前的可视化结果,图3b为数据集DC矫后的可视化结果。
从图3可见,在未矫正之前数据存在很明显的批次效应,通过本发明进行批次矫正后可很好的将不同批次的数据聚集在一起,去除了批次效应,获得无批次效应的单细胞转录组数据。
仿真4:在数据集Cell line中使用UMAP可视化工具展示本发明的批次矫正效果,结果如图4所示,其中图4a是数据集Cell line矫正前的可视化结果,图4b为数据集Cellline矫后的可视化结果。
从图4可见,在未矫正之前数据存在很明显的批次效应,通过本发明进行批次矫正后可很好的将不同批次的数据聚集在一起,去除了批次效应,获得无批次效应的单细胞转录组数据。

Claims (6)

1.一种基于互近邻单细胞转录组批次矫正方法,其特征在于,包括如下步骤:
(1)使用单细胞转录组测序技术对样本中的每一个细胞测量其基因表达值,产生多批次单细胞转录组数据;
(2)对单细胞转录组数据中的基因进行特征选择,即从数据的基因中筛选出方差最大的前2000个基因作为高表达基因;
(3)构建一个由编码器和解码器组成自编码器;
(4)构建自编码器的损失函数:
(4a)从每个批次数据中随机抽取一个细胞构成训练样本集x:
x=(x1,x2,…,xi,…,xm),其中xi表示来自第i个批次的细胞数据,i取值范围为1到m,m为批次数量;
(4b)每次给自编码器输入一个训练样本集,自编码器中的编码器将xi编码成低维嵌入无批次信息zi_bio和批次噪声zi_nio
zbio=(z1_bio,z2_bio,…,zi_bio,…,zm_bio),
znio=(z1_nio,z2_nio,…,zi_nio,…,zm_nio);
其中,zi_nio使用one-hot-vector表示,维度为批次数量m;zi_nio的维度为1和0,即第i个维度为1,其他维度都是0;
(4c)将从编码器获得的zbio和znio作为解码器部分的输入,通过解码器将zbio还原成原始维度的数据为原始伪细胞;
(4d)根据原始样本集x和伪细胞计算自编码器的重构损失:
(4e)对从编码器获得的zbio添加随机噪声znio_ran,并将zbio和znio_ran输入到解码器中,得到随机噪声伪细胞再把输入到编码器中,获得去除随机噪声后的低维嵌入无批次信息zbio_c
(4f)利用zbio和zbio_c计算自编码器的内容损失:Lc=||zbio-zbio_c||;
(4g)根据自编码器的重构损失Lr和自编码器的内容损失Lc,构建自编码器损失函数为
(5)使用m个批次单细胞转录组数据对自编码器中编码器与解码器进行交叉训练,直到损失函数L收敛为止,得到训练好的自编码器;
(6)将m个批次单细胞转录组数据输入到训练好的自编码器进行特征提取和初步批次矫正,得到低维嵌入无批次信息数据集Z=(Z1,Z2,…,Zi,…,Zm),其中Zi表示第i个批次数据经过编码器特征提取后的维嵌入无批次信息数据;
(7)对低维嵌入无批次信息数据集Z进行迭代矫正:
(7a)选取数据集Z中细胞数量最多的一个批次数据作为参考数据集Zref
(7b)在剩余的数据集Z-Zref中选择细胞数量最多的数据集Zmax
(7c)在所述Zref和所述Zmax之间搜索互近邻MNN对(xref,xmax),利用搜索到的MNN对计算矫正向量V,并将Zmax中所有数据加上向量V,完成Zmax的矫正;
(7d)将矫正之后的Zmax与Zref合并作为新的参考数据集,并将Zmax从剩余批次数据集中删除;
(7e)重复(7b)-(7d)直到把所有数据集合并到参考数据集中得到矫正后的低维嵌入无批次信息数据集Z=(Z 1,Z 2,…,Z i,…,Z m),其中Z i表示第i个批次数据矫正之后的结果。
2.根据权利要求1所述的方法,其特征在于,(2)中选择转录组数据的前2000个高可变基因,是通过scanpy包中的pp.highly_variable_genes函数提取单细胞转录组数据中前2000个高表达基因。
3.根据权利要求1所述的方法,其特征在于,步骤(4)构建自编码器中的编码器,其由一个三层全连接网络构成,第一层结点数为1024,第二层结点数为512,第三层结点数为256+m,m为输入数据的批次数量;第一层结点与第二层结点之间边的权重初始化为0.025,第二层结点与第三层结点之间边的权重初始化为0.036。
4.根据权利要求1所述的方法,其特征在于,步骤(4)构建自编码器中的解码器,其由一个三层全连接网络构成,第一层结点数为256+m,m为输入数据的批次数量,第二层结点数为512,第三层结点数为1024;第一层结点与第二层结点之间边的权重初始化为0.036,第二层结点与第三层结点之间边的权重初始化为0.025。
5.根据权利要求1所述的方法,其特征在于,步骤(5)中使用m个批次单细胞转录组数据对自编码器中编码器与解码器进行交叉训练,实现如下:
(5a)固定解码器的参数,对训练数据计算损失函数L,使用损失函数对编码器网络参数进行更新,直到损失函数L局部收敛;
(5b)固定编码器的参数,对训练数据计算损失函数L,使用损失函数对解码器网络参数进行更新,直到损失函数L局部收敛;
(5c)重复(5a)-(5b)直到损失函数达到用户设置的收敛阈值,得到训练好的自编码器。
6.根据权利要求1所述的方法,其特征在于,步骤(7)中在参考数据集Zref和待矫正数据集Zmax之间搜索MNN对,实现如下:
(7a)将参考数据集Zref中每一个数据ai在待矫正数据集Zmax中搜索与其距离最近的20个数据,构成ai的最近邻集合;
(7b)对待矫正数据集Zmax中每一个数据bi在参考数据集Zref中搜索与其距离最近的20个数据,构成bi的最近邻集合;
(7c)遍历所有数据的最近邻集合,如果ai存在于bi的最近邻集合中,且bi存在于ai的最近邻集合中,则获得一组MNN对。
CN202310372606.7A 2023-04-10 2023-04-10 基于互近邻的单细胞转录组批次矫正方法 Active CN116312792B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310372606.7A CN116312792B (zh) 2023-04-10 2023-04-10 基于互近邻的单细胞转录组批次矫正方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310372606.7A CN116312792B (zh) 2023-04-10 2023-04-10 基于互近邻的单细胞转录组批次矫正方法

Publications (2)

Publication Number Publication Date
CN116312792A CN116312792A (zh) 2023-06-23
CN116312792B true CN116312792B (zh) 2025-07-01

Family

ID=86785117

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310372606.7A Active CN116312792B (zh) 2023-04-10 2023-04-10 基于互近邻的单细胞转录组批次矫正方法

Country Status (1)

Country Link
CN (1) CN116312792B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6463438B1 (en) * 1994-06-03 2002-10-08 Urocor, Inc. Neural network for cell image analysis for identification of abnormal cells
CN114400047A (zh) * 2022-01-17 2022-04-26 中国石油大学(华东) 基于连通图和生成式对抗网络的数据批次效应矫正方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113604544B (zh) * 2021-08-03 2023-03-10 北京大学口腔医学院 一种生物材料功能预测评价方法
US20250125014A1 (en) * 2021-08-27 2025-04-17 NEC Laboratories Europe GmbH Method and system for deconvolution of bulk rna-sequencing data
CN114240836B (zh) * 2021-11-12 2024-06-25 杭州迪英加科技有限公司 一种鼻息肉病理切片分析方法、系统和可读存储介质
CN114494489A (zh) * 2022-01-05 2022-05-13 电子科技大学长三角研究院(衢州) 一种基于深度孪生网络的自监督属性可控图像生成方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6463438B1 (en) * 1994-06-03 2002-10-08 Urocor, Inc. Neural network for cell image analysis for identification of abnormal cells
CN114400047A (zh) * 2022-01-17 2022-04-26 中国石油大学(华东) 基于连通图和生成式对抗网络的数据批次效应矫正方法

Also Published As

Publication number Publication date
CN116312792A (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
CN106446600B (zh) 一种基于CRISPR/Cas9的sgRNA的设计方法
CA2424031C (en) System and process for validating, aligning and reordering genetic sequence maps using ordered restriction map
CN112837753B (zh) 一种基于多模态堆叠自动编码机的microRNA-疾病关联预测方法
CN112466404A (zh) 一种宏基因组重叠群无监督聚类方法及系统
CN116153402B (zh) 基于深度学习模型进行密码子序列设计的方法和装置
CN113178233A (zh) 大规模单细胞转录组数据高效聚类方法
CN111584010B (zh) 一种基于胶囊神经网络和集成学习的关键蛋白质识别方法
CN119397309B (zh) 海量单细胞数据的自监督聚类方法
CN103838820A (zh) 基于近邻传播的进化多目标优化社区检测方法
CN116504315A (zh) 一种基于改进的began网络的单细胞rna测序数据缺失的插补方法
CN116312792B (zh) 基于互近邻的单细胞转录组批次矫正方法
CN105590039A (zh) 一种基于bso优化的蛋白质复合物识别方法
CN110766072A (zh) 一种基于结构相似性的计算图进化ai模型自动生成方法
CN118866104A (zh) 一种基因组长序列的比对方法、系统、设备和存储介质
CN116403650A (zh) 一种基于元分析构建基因调控网络的方法
CN118628437A (zh) 一种用于表征全幅病理切片的多示例超图构造方法及系统
CN113571134B (zh) 基于骨干粒子群算法的基因数据特征选择方法及装置
CN112817959B (zh) 基于多度量指标权重的古生物形态系统发育树构建方法
CN111402205B (zh) 一种基于多层感知机的乳腺肿瘤数据清洗方法
CN118212989B (zh) 一种基于生成流网络的基因调控网络构建方法
CN113642661A (zh) 基于mRMR-IAGA的混合式特征选择方法
CN110070908B (zh) 一种二项树模型的模体搜索方法、装置、设备与存储介质
CN119741975B (zh) 基于蛋白质语言模型的非模式物种代谢模型自动构建方法
Zacharia et al. Microarray image analysis based on an evolutionary approach
CN112819161A (zh) 基于变长基因遗传算法的神经网络构建系统、方法及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant