CN116312792B

CN116312792B - 基于互近邻的单细胞转录组批次矫正方法

Info

Publication number: CN116312792B
Application number: CN202310372606.7A
Authority: CN
Inventors: 高琳; 梁涛; 许晗; 胡宇轩
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2023-04-10
Filing date: 2023-04-10
Publication date: 2025-07-01
Anticipated expiration: 2043-04-10
Also published as: CN116312792A

Abstract

本发明公开了一种基于互近邻单细胞转录组批次矫正方法，主要解决现有基于互近邻批次矫正方搜索到的MNN对数量少，矫正效果差的问题。其实现方案为：对单细胞转录组数据的基因特征进行筛选，筛选出高表达的基因；构建由编码器和解码器组成的自编码器，使用单细胞转录组数据筛选出高表达的基因对该编码器与解码器进行交叉训练；使用训练好的自编码器提取单细胞转录组数据筛选出高表达基因的特征，获得单细胞低维嵌入无批次信息数据；在单细胞低维嵌入无批次信息数据中搜索互近邻对，并利用其计算出一个矫正向量；使用矫正向量对数据进行批次矫正；本发明搜索到的MNN对多，批次矫正效果好，可用于生物信息学实验中对单细胞转录组数据的预处理。

Description

基于互近邻的单细胞转录组批次矫正方法

技术领域

本发明属于数据挖掘技术领域，具体涉及一种单细胞转录组批次矫正方法，可用于生物信息学实验中对单细胞转录组数据的预处理。

背景技术

随着单细胞测序技术的发展和测序成本的下降，越来越多的单细胞数据被产生。在生物信息学中，多源scRNA-seq数据集的集成对于解释复杂生物系统中细胞间的异质性和相互作用至关重要。然而，多源数据之间往往存在着批次效应，这种效应很难去除但可以缩小。如果效应比较小是可以接受的，但如果批次效应很严重，就可能会与真实的生物学差异相混淆。

为了解决这一问题，已经有很多方法被提出，其中有很多批次矫正方法是基于互近邻策略的。基于互近邻策略的方法在时间效率上有着显著优势，许多基于互近邻的方法批次矫正的结果非常好。但是互近邻策略使用局部匹配的MNN对进行全局矫正，因此基于互近邻策略的方法的批次矫正效果依赖于MNN对匹配的数量和准确性。

2018年Haghverdi等人在Nature biotechnology期刊上发表的文章中提出了MNNcorrect方法。该方法是一种互近邻策略的批次矫正方法，其实现方案是在单细胞转录组数据原始表达空间搜索MNN对，然后利用搜索到的MNN对计算出一个矫正向量，对待矫正批次的每个数据都加上这个矫正向量完成单细胞转录组数据的批次矫正。该方法搜索MNN对的效率很低，准确性不高且数量也不多。

2019年Haghverdi等人在MNNcorrect的基础上提出了FastMNN方法。该方法先对单细胞转录组数据进行PCA降维，再在PCA空间中搜索MNN对。该方法搜索MNN对效率比较高，搜索到的MNN对数量也远超在原始空间中搜索到的MNN对，但存在的不足是搜索到的MNN对的准确率不够高。

2021年Yang等人在Briefings in bioinformatics期刊上提出了iSMNN方法，该方法为了提高搜索到的MNN对准确率，采用先对单细胞转录组每个批次数据进行聚类，再在相同细胞类型中搜索MNN对，最后使用搜索到的MNN对进行批次矫正的技术方案。该方法通过迭代矫正，直到评价阈值局部收敛完成对单细胞转录组数据的批次矫正，所以可能存在过度矫正问题。

2021年Wang等人在Genome biology期刊上提出了iMAP。该方法在低维空间中搜索MNN对，再利用搜索到的MNN对训练一个GAN网络，最后使用训练得到的GAN网络进行批次矫正。该方法不存在对数据过度矫正的问题，但该方法时间复杂度较高。

发明内容

本发明的目的在于克服上述现有技术的不足，提出一种基于互近邻的单细胞转录组批次矫正方法，以能更加准确地寻找MNN对，提高批次矫正的效果，降低时间复杂度，提高批次矫正效率。

本发明的技术方案是：首先对单细胞转录组数据中的基因进行特征筛选，再训练一个自编码器对单细胞转录组数据进行特征提取和初步批次矫正，最后在上一步的基础上搜索MNN对，用搜索到的MNN对计算矫正向量再次对数据进行批次矫正。其实现步骤包括如下：

(1)使用单细胞转录组测序技术对样本中的每一个细胞测量其基因表达值，产生多批次单细胞转录组数据；

(2)对单细胞转录组数据中的基因进行特征选择，即从数据的基因中筛选出方差最大的前2000个基因作为高表达基因；

(3)构建一个由编码器和解码器组成自编码器；

(4)构建自编码器的损失函数：

(4a)从每个批次数据中随机抽取一个细胞构成训练样本集x：

x＝(x₁，x₂，...，x_i，...，x_m)，其中x_i表示来自第i个批次的细胞数据，i取值范围为1到m，m为批次数量；

(4b)每次给自编码器输入一个训练样本集，自编码器中的编码器将x_i编码成低维嵌入无批次信息z_{i_bio}和批次噪声z_{i_nio}：

z_bio＝(z_{1_bio}，z_{2_bio}，...，z_{i_bio}，...，z_{m_bio})，

z_nio＝(z_{1_nio}，z_{2_nio}，...，z_{i_nio}，...，z_{m_nio})；

其中，z_{i_nio}使用one-hot-vector表示，维度为批次数量m；z_{i_nio}的维度为1和0，即第i个维度为1，其他维度都是0；

(4c)将从编码器获得的z_bio和z_nio作为解码器部分的输入，通过解码器将z_bio还原成原始维度的数据称为原始伪细胞；

(4d)根据原始样本集x和伪细胞计算自编码器的重构损失：

(4e)对从编码器获得的z_bio添加随机噪声z_{nio_ran}，并将z_bio和z_{nio_ran}输入到解码器中，得到随机噪声伪细胞再把输入到编码器中，获得去除随机噪声后的低维嵌入无批次信息z_{bio_c}；

(4f)利用z_bio和z_{bio_c}计算自编码器的内容损失：L_c＝||z_bio-z_{bio_c}||；

(4g)根据自编码器的重构损失L_r和自编码器的内容损失L_c，构建自编码器损失函数为

(5)使用m个批次单细胞转录组数据对自编码器中编码器与解码器进行交叉训练，直到损失函数L收敛为止，得到训练好的自编码器；

(6)将m个批次单细胞转录组数据输入到训练好的自编码器进行特征提取和初步批次矫正，得到低维嵌入无批次信息数据集Z＝(Z₁，Z₂，...，Z_i，...，Z_m)，其中Z_i表示第i个批次数据经过编码器特征提取后的维嵌入无批次信息数据。

(7)对低维嵌入无批次信息数据集Z进行迭代矫正：

(7a)选取数据集Z中细胞数量最多的一个批次数据作为参考数据集Z_ref；

(7b)在剩余的数据集Z-Z_ref中选择细胞数量最多的数据集Z_max；

(7c)在所述Z_ref和所述Z_max之间搜索互近邻MNN对(x_ref，x_max)，利用搜索到的MNN对计算矫正向量V，并将Z_max中所有数据加上向量V，完成Z_max的矫正；

(7d)将矫正之后的Z_max与Z_ref合并作为新的参考数据集，并将Z_max从剩余批次数据集中删除；

(7e)重复(7b)-(7d)直到把所有数据集合并到参考数据集中得到矫正后的低维嵌入无批次信息数据集Z′＝(Z′₁，Z′₂，...，Z′_i，...，Z′_m)，其中Z′_i表示第i个批次数据矫正之后的结果。

本发明与现有技术相比，具有如下优点：

第一，本发明由于设计了自编码器模型结构对数据进行特征提取，并且在训练自编码器过程中添加了随机噪声，因此可以在对数据特征提取的时候进行初步的批次矫正，提高了批次矫正效果。

第二，本发明由于在特征提取阶段对数据进行了初步的批次矫正，故能高效的搜索到MNN对，且搜索到的MNN对数量更多、准确性更高，提高了批次矫正效果。

第三，本发明由于对编码器与解码器进行交叉训练，并在训练过程中添加了随机噪声，所以运行时间不受数据规模影响，且运行时间只会随着数据规模增长而略微增长，可实现对大规模数据集的批次矫正。

附图说明

图1为本发明的实现流程图；

图2为本发明中的自编码器结构图；

图3为本发明对真实数据集DC进行批次矫正的仿真结果图。

图4为本发明对真实数据集Cell line进行批次矫正的仿真结果图。

具体实施方式

以下结合附图对本发明的实施例和效果做进一步详细说明。

本实施例以splatter工具生成的模拟数据集为例。该数据集中有三个批次的数据，每个批次数据有3000个细胞，每个细胞有20000个基因。

参照图1、本实例基于互近邻的单细胞转录组批次矫正方法，实现步骤如下：

步骤1，获取单细胞转录组数据集。

使用现有的开源splatter软件包生成一个单细胞转录组模拟数据集，该数据集中有三个批次的数据，每个批次数据有3000个细胞，每个细胞有20000个基因。

步骤2，对单细胞转录组数据集中每个细胞的20000个基因进行特征筛选。

通过开源的scanpy包中的pp.highly_variable_genes函数计算数据集中每个基因的方差，并提方差排名前2000的高表达基因。

步骤3，构建自编码器。

参照图2本步骤具体实现：

3.1)建立由三层全连接网络构成的编码器，其第一层结点数为1024，第二层结点数为512，第三层结点数为259，并将该第一层结点与第二层结点之间边的权重初始化为0.025，将第二层结点与第三层结点之间边的权重初始化为0.036；

3.2)建立由3层全连接网络构成的解码器，其第1层结点数为259，第2层结点数为512，第3层结点数为1024；并将该第1层结点与第2层结点之间边的权重初始化为0.036，将该第2层结点与第3层结点之间边的权重初始化为0.025；

3.3)用上述建立的编码器和解码器组成自编码器。

步骤4，构建自编码器的损失函数。

4.1)从每个批次数据中随机抽取一个细胞构成训练样本集x：

x＝(x₁，x₂，x₃)，

其中x₁表示来自第1个批次的细胞数据，x₂表示来自第2个批次的细胞数据，x₃表示来自第3个批次的细胞数据；

4.2)每次给自编码器输入一个训练样本集x，自编码器中的编码器将x编码成低维嵌入无批次信息z_bio和批次噪声z_nio：

z_bio＝(z_{1_bio}，z_{2_bio}，z_{3_bio})

z_nio＝(z_{1_nio}，z_{2_nio}，z_{3_nio})

其中z_{1_nio}表示第1个批次数据的噪声，其第1个维度为1，其他维度都是0；z_{2_nio}表示第2个批次数据的噪声，其第2个维度为1，其他维度都是0；z_{3_nio}表示第3个批次数据的噪声，其第3个维度为1，其他维度都是0；

4.3)将从编码器获得的z_bio和z_nio作为解码器部分的输入，通过解码器将z_bio还原成原始维度的数据称为原始伪细胞；

4.4)根据原始样本集x和伪细胞计算自编码器的重构损失：

4.5)对从编码器获得的z_bio添加随机噪声z_{nio_ran}，并将z_bio和z_{nio_ran}输入到解码器中，得到随机噪声伪细胞再把输入到编码器中，获得去除随机噪声后的低维嵌入无批次信息z_{bio_c}；

4.6)利用z_bio和z_{bio_c}计算自编码器的内容损失：L_c＝||z_bio-z_{bio_c}||；

4.7)根据自编码器的重构损失L_r和自编码器的内容损失L_c，构建自编码器损失函数为

步骤5，使用单细胞转录组数据集对自编码器中编码器与解码器进行交叉训练。

5.1)固定解码器的参数，对训练数据计算损失函数L，使用损失函数对编码器的三层全连接网络参数进行更新，直到损失函数L局部收敛；

5.2)固定编码器的参数，对训练数据计算损失函数L，使用损失函数对解码器的3层全连接网络参数进行更新，直到损失函数L局部收敛；

5.3)重复(5.1)-(5.2)直到损失函数达到用户设置的收敛阈值，得到训练好的自编码器。

步骤6，对单细胞转录组数据集进行特征提取，得到低维嵌入无批次信息数据集。

将单细胞转录组数据集输入到训练好的自编码器进行特征提取和初步批次矫正，得到低维嵌入无批次信息数据集Z：

Z＝(Z₁，Z₂，Z₃)

其中，Z₁表示第1个批次数据经过编码器特征提取后的维嵌入无批次信息数据，Z₂表示第2个批次数据经过编码器特征提取后的维嵌入无批次信息数据，Z₃表示第3个批次数据经过编码器特征提取后的低维嵌入无批次信息数据集。

步骤7，对低维嵌入无批次信息数据集Z进行矫正。

7.1)选取低维嵌入无批次信息数据集Z中Z₁作为参考数据集Z_ref；

7.2)在剩余的数据集(Z₂，Z₃)中选择Z₂作为待矫正数据集Z_max；

7.3)在所述Z_ref和所述Z_max之间搜索互近邻MNN对(x_ref，x_max)，利用搜索到的MNN对计算矫正向量V，并将Z_max中所有数据加上向量V，完成Z_max的矫正；

7.4)将矫正之后的Z_max与Z_ref合并作为新的参考数据集，并将Z_max从剩余数据集中删除；

7.5)在剩余的数据集(Z₃)中选择Z₃作为待矫正数据集Z_max；

7.6)在Z_ref和Z_max之间搜索互近邻MNN对(x_ref，x_max)，利用搜索到的MNN对计算矫正向量V，并将Z_max中所有数据加上向量V，完成Z_max的矫正；

7.7)将矫正之后的Z_max与Z_ref合并作为新的参考数据集，并将Z_max从剩余数据集中删除，得到矫正后的低维嵌入无批次信息数据集。

本实例中，共有3个批次，每个批次有3000细胞，每个细胞有20000个基因的单细胞转录组模拟数据完成了批次矫正。

以下结合模拟实验，对本发明的技术效果进行描述。

一.仿真条件：

仿真实验的计算机硬件CPU为Intel Core (TM)i7-7700、计算机硬件内存为16G；

计算机软件：WINDOWS 10系统上Conda集成开发软件。

二.仿真内容：

仿真1：将本发明与现有的7种方法LIGER、iMAP、DESC、Harmony、Scanorama、FastMNN、Seurat分别在人类外周血树突细胞数据集DC中进行批次矫正，并使用LISI、KBET、ARI作为评价指标对其批次矫正效果进行比较，结果如表1：

表1本发明和现有7种方法在DC数据集中批次矫正的评价

表1中所有评价指标都是经过量化之后的得分，得分越高说明批次矫正结果越好。从表1可以看出，本发明的矫正结果在所有批次矫正评价指标上得分都是最好的，达到了较好的批次去除的目的。

仿真2：将本发明与现有的7种方法LIGER、iMAP、DESC、Harmony、Scanorama、FastMNN、Seurat分别在Cell line数据集中进行批次矫正，并使用LISI、KBET、ARI作为评价指标对其批次矫正效果进行比较，结果如表2：

表2本发明和现有7种方法在Cell line数据集中批次矫正的评价

从表2可以看出，本发明本在评价指标LISI上得分是最高的，在KBET中仅次于LISI。所有方法在评价指标ARI上没有很大的区分度。综上所述，本发明在Cell line数据集上矫正效果很好，且结果优于其他方法。

仿真3：在数据集DC中使用UMAP可视化工具展示本发明的批次矫正效果，结果如图3所示，其中图3a是数据集DC矫正前的可视化结果，图3b为数据集DC矫后的可视化结果。

从图3可见，在未矫正之前数据存在很明显的批次效应，通过本发明进行批次矫正后可很好的将不同批次的数据聚集在一起，去除了批次效应，获得无批次效应的单细胞转录组数据。

仿真4：在数据集Cell line中使用UMAP可视化工具展示本发明的批次矫正效果，结果如图4所示，其中图4a是数据集Cell line矫正前的可视化结果，图4b为数据集Cellline矫后的可视化结果。

从图4可见，在未矫正之前数据存在很明显的批次效应，通过本发明进行批次矫正后可很好的将不同批次的数据聚集在一起，去除了批次效应，获得无批次效应的单细胞转录组数据。

Claims

1.一种基于互近邻单细胞转录组批次矫正方法，其特征在于，包括如下步骤：

(3)构建一个由编码器和解码器组成自编码器；

(4)构建自编码器的损失函数：

(4a)从每个批次数据中随机抽取一个细胞构成训练样本集x：

x＝(x₁，x₂，…，x_i，…，x_m)，其中x_i表示来自第i个批次的细胞数据，i取值范围为1到m，m为批次数量；

z_bio＝(z_{1_bio}，z_{2_bio}，…，z_{i_bio}，…，z_{m_bio})，

z_nio＝(z_{1_nio}，z_{2_nio}，…，z_{i_nio}，…，z_{m_nio})；

(4d)根据原始样本集x和伪细胞计算自编码器的重构损失：

(6)将m个批次单细胞转录组数据输入到训练好的自编码器进行特征提取和初步批次矫正，得到低维嵌入无批次信息数据集Z＝(Z₁，Z₂，…，Z_i，…，Z_m)，其中Z_i表示第i个批次数据经过编码器特征提取后的维嵌入无批次信息数据；

(7)对低维嵌入无批次信息数据集Z进行迭代矫正：

(7b)在剩余的数据集Z-Z_ref中选择细胞数量最多的数据集Z_max；

(7e)重复(7b)-(7d)直到把所有数据集合并到参考数据集中得到矫正后的低维嵌入无批次信息数据集Z^′＝(Z^′ ₁，Z^′ ₂，…，Z^′ _i，…，Z^′ _m)，其中Z^′ _i表示第i个批次数据矫正之后的结果。

2.根据权利要求1所述的方法，其特征在于，(2)中选择转录组数据的前2000个高可变基因，是通过scanpy包中的pp.highly_variable_genes函数提取单细胞转录组数据中前2000个高表达基因。

3.根据权利要求1所述的方法，其特征在于，步骤(4)构建自编码器中的编码器，其由一个三层全连接网络构成，第一层结点数为1024，第二层结点数为512，第三层结点数为256+m，m为输入数据的批次数量；第一层结点与第二层结点之间边的权重初始化为0.025，第二层结点与第三层结点之间边的权重初始化为0.036。

4.根据权利要求1所述的方法，其特征在于，步骤(4)构建自编码器中的解码器，其由一个三层全连接网络构成，第一层结点数为256+m，m为输入数据的批次数量，第二层结点数为512，第三层结点数为1024；第一层结点与第二层结点之间边的权重初始化为0.036，第二层结点与第三层结点之间边的权重初始化为0.025。

5.根据权利要求1所述的方法，其特征在于，步骤(5)中使用m个批次单细胞转录组数据对自编码器中编码器与解码器进行交叉训练，实现如下：

(5a)固定解码器的参数，对训练数据计算损失函数L，使用损失函数对编码器网络参数进行更新，直到损失函数L局部收敛；

(5b)固定编码器的参数，对训练数据计算损失函数L，使用损失函数对解码器网络参数进行更新，直到损失函数L局部收敛；

(5c)重复(5a)-(5b)直到损失函数达到用户设置的收敛阈值，得到训练好的自编码器。

6.根据权利要求1所述的方法，其特征在于，步骤(7)中在参考数据集Z_ref和待矫正数据集Z_max之间搜索MNN对，实现如下：

(7a)将参考数据集Z_ref中每一个数据a_i在待矫正数据集Z_max中搜索与其距离最近的20个数据，构成a_i的最近邻集合；

(7b)对待矫正数据集Z_max中每一个数据b_i在参考数据集Z_ref中搜索与其距离最近的20个数据，构成b_i的最近邻集合；

(7c)遍历所有数据的最近邻集合，如果a_i存在于b_i的最近邻集合中，且b_i存在于a_i的最近邻集合中，则获得一组MNN对。