CN116721698A

CN116721698A - 染色体核型的预测系统、构建方法、装置、设备及存储介质

Info

Publication number: CN116721698A
Application number: CN202310778877.2A
Authority: CN
Inventors: 林戈; 王声鹏; 冷丽智; 商周春; 顾亦凡; 刘龙奇
Original assignee: BGI Shenzhen Co Ltd; Reproductive and Genetic Hospital of CITIC Xiangya Co Ltd
Current assignee: BGI Shenzhen Co Ltd; Reproductive and Genetic Hospital of CITIC Xiangya Co Ltd
Priority date: 2023-06-29
Filing date: 2023-06-29
Publication date: 2023-09-08

Abstract

本发明提供了一种染色体核型的预测系统、构建方法、装置、设备及存储介质。所述染色体核型的预测系统的构建方法，包括如下步骤：获取覆盖目标生物全部类型的非整倍体核型囊胚单细胞的转录组数据；将各类非整倍体核型囊胚单细胞的转录组数据分别与二倍体囊胚单细胞的转录组数据进行基因表达差异分析，获取各类非整倍体核型的差异表达基因集；对每个囊胚单细胞分别根据各类非整倍体核型对应的所述差异表达基因集的表达水平进行打分，生成得分矩阵；及基于所述得分矩阵利用分类器构建所述染色体拷贝数变异的预测系统。基于上述构建方法构建的预测系统，用于预测单细胞的染色体核型时具有高精确度、高灵敏度等优点。

Description

染色体核型的预测系统、构建方法、装置、设备及存储介质

技术领域

本发明涉及生物技术领域，特别是涉及一种染色体核型的预测系统、构建方法、装置、设备及存储介质。

背景技术

染色体拷贝数变异是指染色体数目发生变异，即在正常染色体数目的(46条)基础上，某些染色体的数目增加或减少了一条或多条。这种变异可能涉及到单个染色体或多个染色体，也可能涉及到整个染色体组。染色体拷贝数变异是最常见的人类染色体异常，也是导致人类疾病的重要原因之一。染色体非整倍体胚胎在临床中发生率极高，由此造成了极高的流产率和新生儿出生缺陷，是辅助生殖领域面临的一大问题。

非整倍体的检测是产前基因检测中的一个重要内容，可以帮助孕妇了解胎儿是否存在染色体异常，从而进行相应的干预和治疗。目前，非整倍体的检测主要依靠基因芯片、测序等技术。胚胎着床前染色体筛检(Preimplantation Genetic Testing forAneuploidy,PGT-A)是一种用于检测胚胎染色体异常的技术，可以检测胚胎是否存在非整倍体、染色体缺失或重复等异常。该技术主要通过取出胚胎的一部分细胞进行基因检测，然后选择染色体正常的胚胎进行移植，从而提高移植胚胎的着床率和妊娠率。PGT-A技术虽然具有很高的准确性和可靠性，但仍然存在一些局限性：在进行PGT-A检测前，需要对检测的风险和局限性进行充分的了解和评估，以便做出正确的决策。

基于二代测序技术平台开发的单细胞转录组测序技术问世以来，高通量单细胞测序技术得到迅速发展，使得能够在单个细胞中分析基因组、转录组及表观基因组等多组学特征。目前，单细胞测序技术已经被广泛应用于生殖医学、肿瘤学、神经科学等领域的研究中，成为生命科学领域的研究热点之一。单细胞转录组CNV(copy number variation,拷贝数变异)分析是一种用于检测单个细胞转录组和染色体拷贝数变异的技术。该技术主要应用于早期胚胎的基因检测和肿瘤细胞的分析，可以帮助研究人员了解单个细胞的基因表达和基因组结构，从而深入研究疾病的发生和发展机制。目前基于单细胞转录组进行CNV分析的方法大多是基于统计模型结合基因的表达水平、位置及SNP(single nucleotidepolymorphism,单核苷酸多态性)信息等特征来推断细胞的染色体拷贝数变异，如inferCNV，Numbat，CopyKAT等。然而单细胞转录具有较强的异质性，存在较强的背景噪音，无法精确的区分出每个细胞的染色体核型，尤其在早期胚胎发育过程，受细胞数量影响，单细胞转录的检测灵敏度显著降低。

因此，丞需对染色体核型的预测方法进行改进。

发明内容

基于此，本发明提供了一种准确度高、灵敏度高、应用范围广的染色体核型的预测系统、构建方法、装置、设备及存储介质。

具体技术方案如下：

根据本发明的一个方面，提供了一种染色体核型的预测系统的构建方法，包括如下步骤：

获取覆盖目标生物全部类型的非整倍体核型囊胚单细胞的转录组数据；

将各类非整倍体核型囊胚单细胞的转录组数据分别与二倍体囊胚单细胞的转录组数据进行基因表达差异分析，获取各类非整倍体核型的差异表达基因集；

对每个囊胚单细胞分别根据各类非整倍体核型对应的所述差异表达基因集的表达水平进行打分，生成每种非整倍体核型的得分矩阵；及

基于所述得分矩阵利用分类器构建所述染色体核型的预测系统。

在其中一个实施例中，所述非整倍体核型囊胚单细胞的筛选方法包括以下步骤：

获取PGT-A鉴定核型为非整倍体的胚胎的囊胚单细胞；

采用inferCNV分析每个囊胚单细胞的核型；

筛选出inferCNV分析与PGT-A鉴定核型一致的囊胚单细胞。

在其中一个实施例中，采用差异分析函数分别对各类非整倍体核型囊胚单细胞的转录组数据和二倍体囊胚单细胞的转录组数据进行处理，计算每个基因在非整倍体核型囊胚单细胞中相对于二倍体囊胚单细胞的组间表达差异显著性，将满足预设标准的基因判定为差异表达基因；

所述差异分析函数为glmer.nb、edgeR或FindMarkers。

在其中一个实施例中，还包括以下步骤：

通过p.adjust函数采用Benjamini-Hochberg方法对所述组间表达差异显著性的P值进行校正；所述预设标准为：adjustP<0.05且|logFC|>0.25；

其中，在单体核型中logFC<-0.25，在三体核型中logFC>0.25。

在其中一个实施例中，通过Seurat的AddModuleScore函数对每个囊胚单细胞分别根据各类非整倍体核型对应的所述差异表达基因集的表达水平进行打分，生成所述得分矩阵。

在其中一个实施例中，所述分类器为随机森林分类器；

所述随机森林分类器中，所述得分矩阵作为输入特征矩阵，囊胚单细胞的染色体核型作为输出标签向量，ntree参数为200，importance参数和proximity参数均为TRUE。

一种染色体核型的预测系统，采用上述的构建方法构建得到。

一种用于构建染色体核型的预测系统的装置，包括：

数据获取模块，用于获取覆盖目标生物全部类型的非整倍体核型囊胚单细胞的转录组数据；

比较分析模块，用于将各类非整倍体核型囊胚单细胞的转录组数据分别与二倍体囊胚单细胞的转录组数据进行比较分析，获取各类非整倍体核型的差异表达基因集；

打分模块，用于对每个囊胚单细胞分别根据各类非整倍体核型对应的差异表达基因集的表达水平进行打分，生成得分矩阵；

输出预测模块，用于根据得分矩阵输出预测每个囊胚单细胞的染色体核型。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述的构建方法的步骤。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述的构建方法的步骤。

与传统技术相比，本发明具有如下有益效果：

一方面，采用本发明的构建方法构建的染色体核型的预测系统，可以有效地降低因转录异质性造成的背景噪音对染色体核型的鉴定的干扰，并能够极大地提高检测的准确性，测试准确率达到97.1％。另一方面，本发明的构建方法基于单个细胞的每条染色体的全部染色体核型，筛选出非整倍体核型上受剂量影响的差异表达基因集，该基因集更能反映细胞发生染色体拷贝数变异后对特定染色体上基因表达的影响。

此外，本发明的预测系统可以用于预测单个细胞的染色体核型，具有较高的灵敏性。上述预测系统在早期人胚胎发育过程中的染色体核型鉴定等方面具有广泛的应用前景。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为实施例1中单细胞转录组数据获取的步骤示意图；

图2为非整倍体核型中发生拷贝数变化的染色体上剂量效应基因的分布示意图；

图3为基于差异表达数据集(剂量效应基因集)生成的得分矩阵示意图；

图4为实施例1的预测系统对测试集数据的预测结果示意图；

图5为实施例1中对囊胚胚胎的预测结果示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似改进，因此本发明不受下面公开的具体实施例的限制。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。除非另有特别说明，本发明中用到的各种原材料、试剂、仪器和设备等均可通过市场购买得到或者可通过现有方法制备得到。

本发明的一些实施方式提供了一种染色体核型的预测系统的构建方法。

在其中一些实施方式中，上述染色体核型的预测系统的构建方法，包括步骤S10～S40。

S10：获取覆盖目标生物全部类型的非整倍体核型囊胚单细胞的转录组数据；

S20：将各类非整倍体核型囊胚单细胞的转录组数据分别与二倍体囊胚单细胞的转录组数据进行基因表达差异分析，获取各类非整倍体核型的差异表达基因集；

S30：对每个囊胚单细胞分别根据各类非整倍体核型对应的差异表达基因集的表达水平进行打分，生成每种非整倍体核型的得分矩阵；及

S40：基于得分矩阵利用分类器构建染色体核型的预测系统。

采用上述构建方法构建的染色体核型的预测系统，基于确定核型的单细胞转录组数据筛选出差异表达基因集(cis-DEGs)，可以有效地降低因转录异质性造成的背景噪音对染色体核型的鉴定的干扰，提高检测的准确性。此外，上述的构建方法是基于单个细胞的1～22号染色体的全部染色体核型，筛选出非整倍体核型上受剂量影响的差异表达基因集，该基因集更能反映细胞发生染色体拷贝数变异后对特定染色体上基因表达的影响。

差异表达基因集(cis Dosage effected genes,cis-DEGs)指在拷贝数变异染色体上的基因，相对二倍体细胞差异表达且变化倍数跟染色体拷贝数成正比。

为了去除数据可能产生的噪音干扰，通过对数据充分分析，筛选出各核型中最具代表性的差异表达基因集(cis-DEGs)，并采用打分策略对每个细胞中各核型对应的cis-DEGs的表达特征进行打分，生成得分矩阵；得分矩阵相对基因表达矩阵具有更显著的特征，能够提高模型的预测效果。

可理解地，步骤S10中获取的囊胚单细胞的转录组数据覆盖了目标生物的全部染色体的全部非整倍体核型，该转录组数据覆盖面广、精确度高，基于此进行染色体核型的精准预测，提高了非整倍体检测的准确性和灵敏度。

在其中一些实施方式中，步骤S10中，非整倍体核型囊胚单细胞的筛选方法包括以下步骤：

获取PGT-A鉴定核型为非整倍体的胚胎的囊胚单细胞；

采用inferCNV分析每个囊胚单细胞的核型；

筛选出inferCNV分析与PGT-A鉴定核型一致的囊胚单细胞。

通过PGT-A和inferCNV分析，对用于构建预测系统的囊胚单细胞的染色体核型进行双重验证，进一步分析揭示各染色体拷贝数变异所引起的细胞基因表达变化的典型特征，提取这些特征用于训练并构建预测系统。通过精确的细胞染色体核型以及大量的单细胞转录组数据筛选出典型的差异表达基因集，结合机器学习的策略从而能够高效、精准地预测出细胞的染色体核型。

可理解地，上述的囊胚单细胞是从未经过体内发育的受精14天以内的人类或动物胚胎分离或者获取的。或者，上述的囊胚单细胞还可以是从未经过体内发育的受精14天以内的已经死亡的人类或动物胚胎分离或者获取的。

在其中一些实施方式中，步骤S20中，采用差异分析函数分别对各类非整倍体核型囊胚单细胞的转录组数据和二倍体囊胚单细胞的转录组数据进行处理，计算每个基因在非整倍体核型囊胚单细胞中相对于二倍体囊胚单细胞的组间表达差异显著性，将满足预设标准的基因判定为差异表达基因。

在其中一些具体示例中，差异分析函数为glmer.nb、edgeR或FindMarkers。

在其中一些实施方式中，步骤S20中，还包括以下步骤：

通过p.adjust函数采用Benjamini-Hochberg方法对表达组间差异显著性的P值进行校正；预设标准为：adjustP<0.05且|logFC|>0.25。

在其中一些具体示例中，步骤S20中，预设标准为：adjustP<0.05，且在单体核型中logFC<-0.25，在三体核型中logFC>0.25。

在其中一些实施方式中，可以通过提高预设标准的数值，筛选出更加特异的基因构成差异表达基因集。

在其中一些实施方式中，步骤S30中，通过Seurat的AddModuleScore函数对每个囊胚单细胞分别根据各类非整倍体核型对应的差异表达基因集的表达水平进行打分，生成得分矩阵。

采用Seurat包中的AddModuleScore函数考虑了差异表达基因的综合表达权重，使得最终构建的预测系统更加合理可靠。

在其中一些实施方式中，步骤S40中，分类器为随机森林分类器。

在其中一些实施方式中，步骤S40中，在随机森林分类器中，将得分矩阵作为输入特征矩阵，囊胚单细胞的染色体核型作为输出标签向量，ntree参数为200，importance参数和proximity参数均为TRUE。

在其中一些实施方式中，步骤S40中，在随机森林分类器中，将差异表达基因集的表达矩阵作为输入特征矩阵。

可理解地，还可以选择其他分类模型进行训练，同样可达到较好的预测效果。

上述的染色体核型的预测系统的构建方法至少具有如下优点：

(1)精确度和灵敏度高：结合PGT-A和inferCNV分析方法，能够从多个维度充分评估胚胎细胞的染色体核型，并锁定在发生拷贝数变异的染色体上受染色体剂量效应影响的差异表达基因集；基于该差异表达基因集构建的预测系统具有更高的精度和灵敏度；

(2)检测能力更全面：该构建方法的转录组数据覆盖了1～22号染色体及性染色体的三体和单体，能够全面检测胚胎细胞的染色体核型，检测能力更加全面。

本发明的另一些实施方式提供了一种采用上述任一实施方式的构建方法构建得到的染色体核型的预测系统。

上述的染色体核型的预测系统具有较高的准确性和可靠性，在产前基因检测、生殖医学、肿瘤学等领域都有广泛的应用前景。在产前基因检测领域，该预测系统可以用于检测胚胎染色体异常，帮助孕妇了解胎儿是否存在染色体异常，从而进行相应的干预和治疗。在生殖医学领域，该预测系统可以用于筛选出染色体正常的胚胎进行移植，提高移植胚胎的着床率和妊娠率。在肿瘤学领域，该预测系统可以用于分析肿瘤细胞的染色体拷贝数变异，从而为肿瘤的治疗提供有力的依据。

基于与上述方法相同的构思，本发明的另一些实施方式还提供了一种用于构建染色体核型的预测系统的装置，包括：

在其中一些实施方式中，数据获取模块包括第一核型鉴定单元、第二核型鉴定单元和筛选单元。

在其中一些具体示例中，第一核型鉴定单元用于获取PGT-A鉴定核型为非整倍体的胚胎的囊胚单细胞。

在其中一些具体示例中，第二核型鉴定单元用于通过inferCNV分析每个囊胚单细胞的核型。

在其中一些具体示例中，筛选单元用于筛选出inferCNV分析与PGT-A鉴定核型一致的囊胚单细胞。

本发明的另一些实施方式还提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述任一实施方式的构建方法的步骤。

本领域普通技术人员可以理解实现上述方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性的计算机可读取存储介质中，如本发明实施例中，该程序可存储于计算机系统的存储介质中，并被该计算机系统中的至少一个处理器执行，以实现包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccess Memory，RAM)等。

本发明的另一些实施方式还提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时实现上述任一实施方式的构建方法的步骤。

下面将结合具体实施例和对比例对本发明作进一步说明，但不应将其理解为对本发明保护范围的限制。

实施例1：

(1)构建覆盖人体全部染色体(包括1～22号染色体以及性染色体)的单体和三体的囊胚单细胞转录图谱，参阅图1：

1.1对供试胚胎(8930个单体细胞、5521个三体细胞以及1508个二倍体细胞)细胞进行PGT-A检测，确定每个胚胎细胞的染色体核型。

1.2利用smart-seq2单细胞全长转录组测序技术对每个胚胎细胞进行建库并测序获取转录组数据。

1.3对获取的所有细胞数据进行质控，标准化(TPM)，并利用seurat软件进行降维聚类；进一步采用inferCNV软件进行分析，推测出每个细胞的染色体核型，并筛选出与PGT-A检测结果一致的细胞，最终筛选出覆盖1～22号染色体及性染色体的单体和三体在内的11225个胚胎细胞。

本实施例的单细胞图谱数据具有高覆盖度、高精确度等特征，能够为预测系统的构建提供精确的数据支撑。

(2)对每条染色体的单体、三体以及二倍体细胞采用lmerTest包中的glmer.nb函数拟合负二项分布的广义线性混合效应模型(GLMM)，统计每个基因在非整倍体细胞中相对二倍体细胞的组间表达差异显著性，并使用p.adjust函数采用Benjamini-Hochberg方法对P值进行校正。最终定义在两组间的|logFC|>0.25且adjust P＜0.05的基因为差异表达基因，筛选得到在非整倍体染色体上受剂量影响的基因。进一步，筛选出在各条染色体的单体中logFC＜-0.25的特征基因，在各条染色体的三体中logFC＞0.25的基因为差异表达基因，将筛选到的各染色体剂量效应影响的差异表达基因构成差异表达基因集(cis-DEGs)。

图2为各个染色体的非整倍体核型中发生拷贝数变化染色体上差异表达基因的logFC结果分布图。

(3)根据筛选到的差异表达基因集(cis-DEGs)，采用Seurat的AddModuleScore函数对每个细胞的基因表达水平进行打分，计算每个染色体的单体和三体的CNV得分矩阵；1～22号染色体的三体和单体的得分情况如图3所示。

上述结果表明：各非整倍体细胞在1～22号染色体的三体和单体类型得分能够较好的反映细胞的染色体拷贝数变异特征，二倍体细胞在所有非整倍体类型得分都较均一，而特定染色体的三体则在对应染色体的三体和单体得分都相对较高，特定染色体的单体则在对应染色体的三体和单体得分都相对较低。

(4)基于步骤(3)的得分矩阵，采用R软件中的randomForest包构建随机森林分类器模型。首先，将供试细胞按照8:2的比例随机分成两组，80％的细胞作为训练集数据，20％的细胞作为测试集数据。利用randomForest函数对训练集数据进行构建预测系统，其中，将各非整倍体的得分矩阵作为输入特征矩阵，而细胞的染色体核型作为输出标签向量，随机森林中树的数量ntree参数为200，importance参数和proximity参数为TRUE。

(5)完成模型训练后使用测试数据对模型进行评估。采用predict函数对测试数据的染色体核型进行评估，将步骤(4)中训练好的模型作为输入随机森林模型，测试集数据细胞在非整倍体的得分矩阵作为输入特征矩阵。基于测试细胞的实际染色体核型和本模型预测的细胞染色体核型，统计预测系统的准确率。采用pROC包中的multiclass.roc函数来统计ROC曲线并计算模型的AUC值来指征模型的分类效果。

利用步骤(3)构建的预测系统对测试集数据细胞的染色体核型进行预测，结果如图4所示，模型预测准确性达到97.1％，AUC值达到0.97，充分说明该预测系统的预测结果具有较高的可信度。

进一步地，使用步骤(3)构建的预测系统对一个体外培养到第8天的囊胚胚胎(PGT-A检测为4M，共63个细胞)进行预测，结果如图5所示，其中有60个细胞被预测为4M，仅有三个细胞被错误预测为1T，3T和7T，整体的预测准确性高达95.23％。上述结果表明本发明的预测系统对于预测其他时间段的早期胚胎的细胞核型同样具有较好的效果。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种染色体核型的预测系统的构建方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的染色体核型的预测系统的构建方法，其特征在于，所述非整倍体核型囊胚单细胞的筛选方法包括以下步骤：

获取PGT-A鉴定核型为非整倍体的胚胎的囊胚单细胞；

采用inferCNV分析每个囊胚单细胞的核型；

筛选出inferCNV分析与PGT-A鉴定核型一致的囊胚单细胞。

3.根据权利要求1所述的染色体核型的预测系统的构建方法，其特征在于，采用差异分析函数分别对各类非整倍体核型囊胚单细胞的转录组数据和二倍体囊胚单细胞的转录组数据进行处理，计算每个基因在非整倍体核型囊胚单细胞中相对于二倍体囊胚单细胞的组间表达差异显著性，将满足预设标准的基因判定为差异表达基因；

所述差异分析函数为glmer.nb、edgeR或FindMarkers。

4.根据权利要求3所述的染色体核型的预测系统的构建方法，其特征在于，还包括以下步骤：

通过p.adjust函数采用Benjamini-Hochberg方法对所述组间表达差异显著性的P值进行校正；所述预设标准为：adjust P<0.05且|logFC|>0.25；

其中，在单体核型中logFC<-0.25，在三体核型中logFC>0.25。

5.根据权利要求1～4任一项所述的染色体核型的预测系统的构建方法，其特征在于，通过Seurat的AddModuleScore函数对每个囊胚单细胞分别根据各类非整倍体核型对应的所述差异表达基因集的表达水平进行打分，生成所述得分矩阵。

6.根据权利要求1～4任一项所述的染色体核型的预测系统的构建方法，其特征在于，所述分类器为随机森林分离器；

7.一种染色体核型的预测系统，其特征在于，采用权利要求1～6任一项所述的构建方法构建得到。

8.一种用于构建染色体核型的预测系统的装置，其特征在于，包括：

打分模块，用于对每个囊胚单细胞分别根据各类非整倍体核型对应的所述差异表达基因集的表达水平进行打分，生成得分矩阵；

输出预测模块，用于根据所述得分矩阵输出预测每个囊胚单细胞的染色体核型。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1～6任一项所述的构建方法的步骤。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1～6任一项所述的构建方法的步骤。