WO2018137496A1

WO2018137496A1 - 确定生物样本中预定来源的游离核酸比例的方法及装置

Info

Publication number: WO2018137496A1
Application number: PCT/CN2018/072045
Authority: WO
Inventors: 袁玉英; 柴相花; 王书元; 陈丽娜; 周丽君; 刘强; 张红云; 王威; 刘娜; 尹烨
Original assignee: BGI Genomics Co Ltd
Current assignee: BGI Genomics Co Ltd
Priority date: 2017-01-24
Filing date: 2018-01-10
Publication date: 2018-08-02
Anticipated expiration: 2019-07-24
Also published as: HRP20240709T1; CN110191964B; RS65618B1; ES2981092T3; EP3575407A1; CN110191964A; EP3575407B1; EP3575407A4; PL3575407T3; HUE067465T2

Abstract

本发明公开了确定生物样本中预定来源的游离核酸比例的方法及装置，包括：(1)对含有游离核酸的生物样本进行核酸测序，以便获得由多个测序数据构成的测序结果；(2)将所述测序结果与参照序列比对，以便确定所述测序结果中落入预定窗口的测序数据的数目；以及(3)基于所述落入预定窗口的测序数据的数目，确定所述生物样本中预定来源的游离核酸比例。

Description

确定生物样本中预定来源的游离核酸比例的方法及装置

技术领域

本发明涉及生物技术领域，特别是无创产前基因检测和肿瘤基因检测，具体地涉及确定生物样本中预定来源的游离核酸比例的方法及装置。

背景技术

自1977年，研究者先后在肿瘤患者的外周血中发现了癌源性DNA，还证实了孕妇血浆中存在cff-DNA，而检测估算出肿瘤患者的外周血中的癌源性DNA，以及孕妇血浆中游离的胎儿DNA比例，即确定生物样本中预定来源的游离核酸比例，意义重大。

然而，目前确定生物样本中预定来源的游离核酸比例的方法仍有待改进。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明的一个目的在于提出一种能够准确高效地确定生物样本中预定来源的游离核酸比例的方法。

需要说明的是，本发明是基于发明人的下列发现而完成的：

目前，用来估算外周血中胎儿游离的DNA比例主要有四个方向：1)利用母体外周血单核细胞中来自母体和来自胎儿游离DNA片段对特定标记物甲基化的不同反应进行估算；2)利用单核苷酸多态性(SNPs)位点表现的差异性，选择多个具有代表性的SNPs位点进行估算；3)利用母血循环中胎儿与母亲DNA片段的差异情况进行估算；4)利用Y染色体估计怀男胎孕妇的胎儿浓度。这四种方法都存在一定的局限性：方法1)需要的血浆量比较大；方法2)需要探针捕获和高测序深度或是需要获得父源性信息；方法3)需要测序出片段的长度会增加一定的测序成本，并且测序结果准确性一般；方法4)仅限于怀男胎的孕妇，无法估计女胎的胎儿浓度。

为了克服以上方法的局限性，发明人研发出了一种胎儿浓度估计的方法，其仅利用目前NIPT检测的测序数据，不需要增加额外的测序数据。也即，该方法可以通过低覆盖度测序数据精确定量外周血胎儿DNA浓度。该方法的研发主要是基于一种发现，即常染色体按照一定窗口划分后观察到每个窗口中的reads(读段)数与胎儿浓度均有一定的相关性，进行胎儿浓度估计，该方法不但可以估计女胎的胎儿浓度，而且准确性也很高。

而发明人经过进一步研究发现，该方法应用性广，能应用到游离的不同来源DNA的领域，例如该方法还适用于肿瘤患者、疑似肿瘤患者或者肿瘤筛查者外周血中的游离肿瘤核酸或非肿瘤来源的游离核酸的比例的确定，并且，同样能够通过低覆盖度测序数据得到准确可靠的结果。

因而，根据本发明的一个方面，本发明提供了一种确定生物样本中预定来源的游离核酸比例的方法。根据本发明的实施例，该方法包括：(1)对含有游离核酸的生物样本进行核酸测序，以便获得由多个测序数据构成的测序结果；(2)将所述测序结果与参照序列比对，以便确定所述测序结果中落入预定窗口的测序数据的数目；以及(3)基于所述落入预定窗口的测序数据的数目，确定所述生物样本中预定来源的游离核酸比例。

发明人惊奇地发现，利用本发明的方法能够准确高效地确定生物样本中预定来源的游离核酸比例，尤其适用于确定孕妇外周血中的游离胎儿核酸，以及肿瘤患者、疑似肿瘤患者或者肿瘤筛查者外周血中游离肿瘤核酸的比例。

根据本发明的另一方面，本发明还提供了一种用于确定生物样本中预定来源的游离核酸比例的设备。根据本发明的实施例，该设备包括：测序装置，所述测序装置用于对含有游离核酸的生物样本进行核酸测序，以便获得由多个测序数据构成的测序结果；计数装置，所述计数装置与所述测序装置相连，用于将所述测序结果与参照序列比对，以便确定所述测序结果中落入预定窗口的测序数据的数目；以及游离核酸比例确定装置，所述游离核酸比例确定装置与所述计数装置相连，用于基于所述落入预定窗口的测序数据的数目，确定所述生物样本中预定来源的游离核酸比例。

根据本发明的实施例，本发明的设备适于实施前面所述的本发明的确定生物样本中预定来源的游离核酸比例的方法，进而利用本发明的设备能够准确高效地确定生物样本中预定来源的游离核酸的比例，尤其适用于确定孕妇外周血中的游离胎儿核酸，以及肿瘤患者、疑似肿瘤患者或者肿瘤筛查者外周血中的游离肿瘤核酸的比例。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本发明一个实施例的确定生物样本中预定来源的游离核酸比例的方法的流程示意图；

图2是根据本发明一个实施例的确定落入预定窗口的测序数据的数目的流程示意图；

图3是根据本发明一个实施例的用于确定生物样本中预定来源的游离核酸比例的设备的结构示意图；

图4是根据本发明一个实施例的计数装置200的结构示意图；

图5是根据本发明一个实施例，运用岭回归统计模型进行权重估计获得的权重分布图；

图6是根据本发明一个实施例，运用岭回归统计模型确定的测试集样本的胎儿浓度估计结果与利用Y染色体进行的胎儿浓度估计结果的相关性分析图；图中Male为男性样本，Female为女性样本，ChrY-based为基于Y染色体进行胎儿游离核酸比例估计值，Ridge Regreession为基于本发明运用岭回归统计模型进行胎儿游离核酸比例估计值。

图7是根据本发明一个实施例，运用神经网络模型进行权重估计获得的权重分布图；

图8是根据本发明一个实施例，运用神经网络模型确定的测试集样本的胎儿浓度估计结果与利用Y染色体进行的胎儿浓度估计结果的相关性分析图。图中Male为男性样本， Female为女性样本，ChrY-based为基于Y染色体进行胎儿游离核酸比例估计值，FF-QuantSC为基于本发明运用神经网络模型进行胎儿游离核酸比例估计值。

图9是根据本发明一个实施例，运用岭回归统计模型和神经网络模型分别对女胎胎儿浓度估计结果之间的相关性分析图；图中Ridge Regreession为基于本发明运用岭回归统计模型进行胎儿游离核酸比例估计值，FF-QuantSC为基于本发明运用神经网络模型进行胎儿游离核酸比例估计值。

具体实施方式

下面详细描述本发明的实施例。下面描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

确定生物样本中游离核酸比例的方法

根据本发明的一个方面，本发明提供了一种确定生物样本中预定来源的游离核酸比例的方法。发明人惊奇地发现，利用本发明的方法能够准确高效地确定生物样本中游离核酸的比例，尤其适用于确定孕妇外周血中的胎儿核酸，以及肿瘤患者外周血中肿瘤核酸的比例。

需要说明的是，在本文中所采用的表达方式“生物样本中预定来源的游离核酸比例”是指在生物样本中特定来源的游离核酸分子数占总游离核酸分子数的比例。例如，当所述生物样本为孕妇外周血，所述预定来源的游离核酸为游离胎儿核酸时，“生物样本中预定来源的游离核酸比例”即游离胎儿核酸比例，表示孕妇外周血中含有的游离胎儿核酸分子数占总游离核酸分子数的比例，有时，也可以称之为“孕妇外周血中的游离胎儿DNA浓度”或者游离胎儿DNA比例。再例如，当所述生物样本为肿瘤患者、疑似肿瘤患者或者肿瘤筛查者外周血，所述预定来源的游离核酸为游离肿瘤核酸时，“生物样本中预定来源的游离核酸比例”即游离肿瘤核酸比例，表示肿瘤患者、疑似肿瘤患者或者肿瘤筛查者外周血中含有的游离肿瘤核酸分子数占总游离核酸分子数的比例。根据本发明的实施例，参照图1，该方法包括：

S100：核酸测序

对含有游离核酸的生物样本进行核酸测序，以便获得由多个测序数据构成的测序结果。根据本发明的实施例，所述生物样本为外周血。根据本发明的实施例，所述预定来源的游离核酸为选自下列的至少之一：孕妇外周血中的游离胎儿核酸；孕妇外周血中母亲来源的游离核酸；以及肿瘤患者、疑似肿瘤患者或者肿瘤筛查者外周血中的游离肿瘤核酸或非肿瘤来源的游离核酸。由此，能够容易地确定孕妇外周血中的游离胎儿核酸或目前来源的游离核酸的比例，或者肿瘤患者、疑似肿瘤患者或者肿瘤筛查者外周血中游离肿瘤核酸的比例。根据本发明的实施例，所述测序为双末端测序、单末端测序或单分子测序。根据本发明的一些具体示例，所述核酸为DNA。需要说明的是，本文中所使用的术语“测序数据”即sequence reads，对应测序的核酸分子。

S200：确定落入预定窗口的测序数据的数目

将所述测序结果与参照序列比对，以便确定所述测序结果中落入预定窗口的测序数据的数目。

根据本发明的实施例，所述参照序列为参考基因组序列，优选hg19。

根据本发明的实施例，所述预定窗口是通过对参考基因组序列的预定染色体进行连续划分而获得的。

根据本发明的实施例，所述预定染色体包括常染色体，优选地，所述常染色体不包括第13、18和21号染色体的至少之一。

根据本发明的实施例，所述预定窗口的长度为60K。

其中，预定窗口的划分需要使每个窗口内reads保持均一，也即保证窗口内Reads均一性。需要说明的是，“窗口内Reads均一性”指每个窗口内的reads数基本上相同，即方差接近0。

根据本发明的实施例，参照图2，S200进一步包括：

S210：将测序结果与参考基因组进行比对。具体地，将测序结果与参考基因组进行比对，以便构建唯一比对测序数据集，所述唯一比对测序数据集中的每一个测序数据仅能够与所述参考基因组的一个位置匹配；

S220：确定参考基因组位置。具体地，确定所述唯一比对测序数据集中各测序数据所对应的参考基因组位置；以及

S230：确定落入预定窗口的测序数据的数目。具体地，确定落入所述预定窗口的测序数据的数目。

由此，能够容易地确定测序结果中落入预定窗口的测序数据的数目，且结果准确可靠，重复性好。

S300：确定游离核酸比例

基于落入预定窗口的测序数据的数目，确定所述生物样本中预定来源的游离核酸比例。

根据本发明的实施例，在步骤(3)中，利用各预定窗口的权重，确定所述生物样本中预定来源的游离核酸比例。根据本发明的一些具体示例，步骤(3)中，所述各预定窗口的权重是通过利用训练样品预先确定的。由此，结果准确可靠，可重复性好。其中，根据本发明的实施例，所述权重是利用岭回归统计模型和神经网络模型的至少之一确定的。根据本发明的一些实施例，所述神经网络模型采用TesnsorFlow学习系统。根据本发明的一些具体示例，所述TesnsorFlow学习系统的参数包括：采用常染色体的各窗口的测序数据数目作为输入层；采用胎儿浓度作为输出层；神经元类型采用ReLu；优化算法采用选自Adam、SGD和Ftrl的至少之一；优选Ftrl。优选地，Tesnsor Flow学习系统的参数进一步包括：学习速率设置为0.002；隐藏层的层数为1；隐藏层中神经元数为200。由此，结果准确可靠。需要说明的是，本文中所使用的术语“权重”是一个相对的概念，针对某一指标而言。某一指标的权重是指该指标在整体评价中的相对重要程度。例如，某一个“预定窗口的权重”指某一个预订窗口在所有预定窗口中的相对重要程度。某一个“连接权重”指某一个两个不同层连接在所有两个不同层连接中的相对重要程度。

根据本发明的实施例，所述训练样品为已知游离胎儿核酸比例的孕妇外周血样本。由此，能够有效确定待测孕妇外周血样本中游离胎儿或母亲来源的游离核酸比例。根据本发明的一些具体示例，所述训练样品为已知游离胎儿核酸比例的怀有正常男胎的孕妇外周血样本。由此，对待测孕妇外周血样本中游离胎儿或母亲来源的游离核酸比例的确定结果更准确可靠。

根据本发明的实施例，利用岭回归统计模型确定所述权重，所述岭回归统计模型的计算公式如下：

其中

为胎儿浓度模型预测值，x _j为窗口reads数，

为各窗口权重，

为偏差，

与

是在训练模型时得到。

根据本发明的另一些实施例，利用神经网络模型确定所述权重，所述神经网络模型的计算公式如下：

其中l为网络的层的序号，第一层为输入层，最后一层为输出层(只有一个神经元)，中间为隐藏层。

为第l层第j个神经元的数值，

为第l-1层第k个神经元的数值，

为第l-1层第k个神经元到第l层第j个神经元的连接权重，

为第l层第j个神经元的输入偏差。函数f的最常用形式为rectified linear unit，亦即f(x)＝max(0，x)，w与b在训练模型时得到。

其中，应用神经网络模型时，按照以上公式逐层计算神经元的数值，最后一层的神经元数值即为胎儿浓度模型预测值。

也即，根据本发明的实施例，所述利用神经网络模型确定权重包括：按照所述神经网络模型的计算公式逐层计算神经元的数值，其中最后一层的神经元数值即为胎儿浓度模型预测值。

根据本发明的实施例，在进行步骤(3)之前，预先对所述落入预定窗口的测序数据的数目进行GC校正，以便获得落入所述预定窗口的有效测序数目。由此，确定的落入预定窗口的测序数据的数目准确可靠。

优选地，根据本发明的一些实施例，按照以下步骤进行所述GC校正：

a)对于某个样本，记第i个窗口的有效序列数为ER _i，记reference在该窗口的GC含量为GC _i，记预定染色体上所有窗口有效序列数均值为

b)利用预定染色体所有窗口的有效序列数及GC含量进行拟合得到二者之间的关系式：ER＝f(gc)；

c)对所有染色体的窗口进行校正：

记第i个窗口GC校正后的有效序列数为ERA _i。

根据本发明的实施例，在进行步骤(3)之前，预先确定所述胎儿的性别，优选通过Y染色体的测序数据占总测序数据的比例进行确定。由此，对待测孕妇外周血样本中游离胎儿或母亲来源的游离核酸比例的确定结果更准确可靠。

此外，根据本发明的一些具体示例，利用本发明的方法，运用岭回归统计模型和TensorFlow库的神经网络模型对已测序样本进行胎儿浓度估计的具体步骤分别如下：

1、运用岭回归统计模型对已测序样本进行胎儿浓度估计：

1)将reference(hg19)按固定长度(本方法使用60K)连续划分相邻的窗口，过滤掉N区内的窗口，统计窗口内GC含量，得到参照窗口文件hg19.gc；

2)比对。将基于CG平台SE测序之后的序列(28bp)比对(BWA V0.7.7-r441)到reference(hg19)；

3)过滤及初步统计。根据比对结果选择唯一完全比对的序列，去掉重复序列和存在碱基错配的序列得到有效序列，然后按照hg19.gc文件中窗口统计各个窗口的有效序列数和其GC含量；

4)GC校正。具体步骤如下：

a)对于某个样本，记第i个窗口的有效序列数为ER _i，记reference在该窗口的GC含量为GC _i(hg19.gc文件中记录)，记常染色体(1～22号染色体)上所有窗口有效序列数均值为

b)利用常染色体所有窗口的有效序列数及GC含量进行拟合(本方法中使用三次样条拟合)得到二者之间的关系式：ER＝f(gc)；

c)对所有染色体的窗口进行校正：

记第i个窗口GC校正后的有效序列数为ERS _i。

5)确认胎儿性别

根据Y染色体有效序列数占总有效序列数的比值(ER％)确认胎儿性别；指定阈值a(a的取值范围为【0.001,0.003】)，Y染色体ER％大于等于a时为男性，小于a时为女性；

6)运用岭回归模型进行胎儿浓度估计。具体步骤如下：

a)选择男胎的样本作为训练集；选择一批样本作为测试集(可使怀男胎和女胎的样本数相同)。

b)运用岭回归模型对常染色体(排除13、18、21号染色体)每个窗口进行权重估计(该权重在岭回归模型中等同于回归系数β)。得到预估的的权重分布。

c)运用已知权重对测试集样本进行胎儿浓度估计。

2、运用TensorFlow库的神经网络模型对已测序样本进行胎儿浓度估计

前5个步骤与前述的岭回归统计模型法完全一样。

6)运用TensorFlow库的神经网络模型进行胎儿浓度估计。具体步骤如下：

a)选择男胎的样本作为训练集；选择一批男胎的样本作为测试集(可使怀男胎和女胎的样本数相同)。将所有数据标准化，亦即对每个变量作线性变换，使得该变量在全样本中的均值为0，标准差为1。

b)构建神经网络，以相对稳定的常染色体每个窗口的有效序列数为输入层，以单个神经元为输出层(对应胎儿浓度)，无隐藏层。神经元类型选用ReLU，优化算法选用Adam。

c)在训练集中运用该神经网络预测胎儿浓度，依每轮学习效果的变化调整学习速率，使得在保证训练集学习效果不出现往复波动的情况下学习速率最大。

d)在运算能力允许的情况下训练尽可能多的轮次，直到学习效果饱和。

e)换用其他的优化算法(SGD,Ftrl等)、重复b-d各步骤，根据学习效果选择最优的优化算法。

f)尝试在神经网络中加入二阶正则化项并调节大小，看加入前后、调节大小时学习效果如何。

g)加入一层隐藏层，调整隐藏层中神经元个数，重复b-f各步骤，根据学习效果选择最优的隐藏层架构。

h)将优化完毕的神经网络在训练集上训练。得到最优的参数和各窗口的权重(每个输入层神经元至隐藏层的平均权重)分布。

i)运用训练完毕的神经网络对测试集样本进行胎儿浓度估计。

其中，为方便理解，对本发明所述的各模型的基本原理进行简介如下：

(1)岭回归统计模型

岭回归是对最小二乘法的改良，通过加入二阶正则化项来降低模型的过拟合。

数学形式上，最小二乘法是求使残差平方和最小的β ₀、β ₁、β ₂……：

其中RSS为残差平方和，y _i为因变量，x _ij为自变量。

若对以上目标函数加入二阶正则化项进行修正，则为岭回归，亦即求出使以下目标函数最小的β ₀、β ₁、β ₂……：

其中λ的值需要指定，一般做法是取若干个值，以交叉验证法找出使验证集目标函数最小的λ。

(2)人工神经网络

人工神经网络(即神经网络模型)是一种非线性机器学习方法。其基本组成单元为神经元，每个神经元对若干输入x _j进行带偏差的加权平均：

z＝Σ _j(w _j+x _j+w ₀)，

其中w _j为权重，w ₀为偏差，并依据加权平均的结果输出f(z)。目前最常用的函数形式为rectified linear unit,亦即f(z)＝max(0，z)。

若干神经元组成一个多层网络，其中第一层(输入层)以数据的自变量为输入，而前一层的输出为后一层的输入，依此类推，直至最后一层(输出层)仅有一个神经元与一个输出(模型预测值)。输入、输出层以外的层称为隐藏层。

神经网络的基本参数为每层的权重及偏差，一般由反向传播法(backpropagation)训练。此外还有学习速率、神经元类型、优化算法(optimizer)、隐藏层层数、隐藏层中神经元个数、正则化系数等参数，一般依经验预设，再结合训练效果反复调整。

用于确定生物样本中游离核酸比例的设备

根据本发明的另一方面，本发明还提供了一种用于确定生物样本中预定来源的游离核酸比例的设备。发明人惊奇地发现，本发明的设备适于实施前面所述的本发明的确定生物样本中预定来源的游离核酸比例的方法，进而利用本发明的设备能够准确高效地确定生物样本中预定来源的游离核酸的比例，尤其适用于确定孕妇外周血中的游离胎儿核酸和母亲来源的游离核酸，以及肿瘤患者、疑似肿瘤患者或者肿瘤筛查者外周血中游离肿瘤核酸的比例。

根据本发明的实施例，参照图3，该设备包括：测序装置100、计数装置200和游离核酸比例确定装置300。

具体地，测序装置100用于对含有游离核酸的生物样本进行核酸测序，以便获得由多个测序数据构成的测序结果；计数装置200与所述测序装置100相连，用于将所述测序结果与参照序列比对，以便确定所述测序结果中落入预定窗口的测序数据的数目；游离核酸比例确定装置300与所述计数装置200相连，用于基于所述落入预定窗口的测序数据的数目，确定所述生物样本中预定来源的游离核酸比例。

根据本发明的实施例，所述生物样本的种类不受特别限制。根据本发明的具体示例，所述生物样本为外周血。根据本发明的实施例，所述预定来源的游离核酸为选自下列的至少之一：孕妇外周血中的游离胎儿核酸；孕妇外周血中母亲来源的游离核酸；以及肿瘤患者、疑似肿瘤患者或者肿瘤筛查者外周血中的游离肿瘤核酸或非肿瘤来源的游离核酸。由此，能够容易地确定孕妇外周血中的游离胎儿核酸或母亲来源的游离核酸的比例，或者肿瘤患者、疑似肿瘤患者或者肿瘤筛查者外周血中游离肿瘤核酸的比例。

根据本发明的实施例，所述核酸为DNA。

根据本发明的实施例，所述测序为双末端测序、单末端测序或单分子测序。由此，有利于后续步骤的进行。

根据本发明的实施例，所述预定窗口是通过对参考基因组序列的预定染色体进行连续划分而获得的。根据本发明的一些具体示例，所述预定染色体包括常染色体，优选地，所述常染色体不包括第13、18和21号染色体的至少之一。根据本发明的一些优选实施例，所述预定窗口的长度为60K。

根据本发明的实施例，参照图4，所述计数装置200进一步包括：比对单元210、位置确定单元220和数目确定单元230。具体地，比对单元210用于将所述测序结果与参考基因组进行比对，以便构建唯一比对测序数据集，所述唯一比对测序数据集中的每一个测序数据仅能够与所述参考基因组的一个位置匹配位置确定单元220与比对单元210相连，用于确定所述唯一比对测序数据集中各测序数据所对应的参考基因组位置；数目确定单元230与位置确定单元220相连，用于确定落入所述预定窗口的测序数据的数目。由此，能够容易地确定落入预定窗口的测序数据的数目，且结果准确可靠，重复性好。

根据本发明的实施例，所述游离核酸比例确定装置300适于利用各预定窗口的权重，确定所述生物样本中预定来源的游离核酸比例。根据本发明的一些具体示例，所述各预定窗口的权重是通过利用训练样品预先确定的。由此，结果准确可靠，可重复性好。其中，根据本发明的实施例，所述权重是利用岭回归统计模型和神经网络模型的至少之一确定的。根据本发明的一些实施例，所述神经网络模型采用Tesnsor Flow学习系统。根据本发明的一些具体示例，所述Tesnsor Flow学习系统的参数包括：采用常染色体的各窗口的测序数据数目作为输入层；采用胎儿浓度作为输出层；神经元类型采用ReLu；优化算法采用选自Adam、SGD和Ftrl的至少之一；优选Ftrl。优选地，Tesnsor Flow学习系统的参数进一步包括：学习速率设置为0.002；隐藏层的层数为1；隐藏层中神经元数为200。由此，结果准确可靠。

其中

为胎儿浓度模型预测值，x _j为窗口reads数，

为各窗口权重，

为偏差，

与

是在训练模型时得到。

为第l层第j个神经元的数值，

为第l-1层第k个神经元的数值，

为第l-1层第k个神经元到第l层第j个神经元的连接权重，

根据本发明的实施例，所述利用神经网络模型确定权重包括：按照所述神经网络模型的计算公式逐层计算神经元的数值，其中最后一层的神经元数值即为胎儿浓度模型预测值。

根据本发明的实施例，进一步包括GC校正装置(图中未示出)，所述GC校正装置分别与所述计数装置200和所述游离核酸比例确定装置300相连，用于在确定所述生物样本中预定来源的游离核酸比例之前，预先对所述落入预定窗口的测序数据的数目进行GC校正，以便获得落入所述预定窗口的有效测序数目。由此，确定的落入预定窗口的测序数据的数目准确可靠。

优选地，根据本发明的一些实施例，所述GC校正装置适于按照以下步骤进行所述GC校正：

b)利用预定染色体所有窗口的有效序列数及GC含量进行拟合得到二者之间的关系式： ER＝f(gc)；

c)对所有染色体的窗口进行校正：

记第i个窗口GC校正后的有效序列数为ERA _i。

根据本发明的实施例，进一步包括胎儿性别确定装置(图中未示出)，所述胎儿性别确定装置与所述游离核酸比例确定装置300相连，用于预先确定所述胎儿的性别，优选通过Y染色体的测序数据占总测序数据的比例进行确定。由此，对待测孕妇外周血样本中游离胎儿或母亲来源的游离核酸比例的确定结果更准确可靠。

需要说明的是，在本文中所使用的表达方式“正常男胎/女胎/胎”是指胎儿染色体正常，例如，“正常男胎”是指染色体正常的男胎。并且，“正常男胎/女胎/胎”可以为单胎或者双胎，例如，“正常男胎”可以是正常单男胎，也可以为正常双男胎；“正常胎儿”则不限定胎儿的性别，也不限定是单胎还是双胎。

下面将结合实施例对本发明的实施方案进行详细描述，但是本领域技术人员将会理解，下列实施例仅用于说明本发明，而不应视为限定本发明的范围。实施例中未注明具体条件者，按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者，均为可以通过市场获得的常规产品。

实施例1

运用岭回归统计模型对1400例已测序样本进行胎儿浓度估计，具体步骤如下：

1)将reference(hg19)按固定长度(本实施例使用60K)连续划分相邻的窗口，过滤掉N区内的窗口，统计窗口内GC含量，得到参照窗口文件hg19.gc；

4)GC校正。具体步骤如下：

b)利用常染色体所有窗口的有效序列数及GC含量进行拟合(本实施例中使用三次样条拟合)得到二者之间的关系式：ER＝f(gc)；

c)对所有染色体的窗口进行校正：

记第i个窗口GC校正后的有效序列数为ERA _i。

5)确认胎儿性别。

根据Y染色体有效序列数占总有效序列数的比值(ER％)确认胎儿性别；指定阈值【0.001，0.003】，Y染色体ER％大于等于0.003时为男性，小于0.001时为女性；

6)运用岭回归模型进行胎儿浓度估计。具体步骤如下：

a)选择男胎的样本作为训练集，样本数为1000；选择一批样本作为测试集，样本数为400，其中怀男胎和女胎的样本数分别为200。

b)运用岭回归模型对常染色体(排除13、18、21号染色体)每个窗口进行权重估计。估计的方法为，寻找偏差β ₀及权重β _j使得

取最小值，其中

yi为以Y染色体估计的胎儿浓度，xij为窗口reads数，λ为二阶正则化项的系数，需以交叉验证法找出使验证集目标函数最小的λ。估计出来的权重分布图见附图(见图5)。

c)运用已知权重对测试集样本进行胎儿浓度估计。估计的方法为，

其中

为胎儿浓度模型预测值，x _j为窗口reads数，

为各窗口权重，

为偏差。

与

在训练模型时得到。

胎儿浓度估计结果与Y染色体进行的胎儿浓度估计值相关性见附图(见图6)，从图中可以看出相关性极强(r＝0.92；p value<1e-10)，说明使用本发明方法对胎儿游离核酸浓度进行估算，所获得的结果准确可靠。

实施例2

运用TensorFlow库的神经网络模型对1400例已测序样本进行胎儿浓度估计，具体步骤如下：

前5个步骤与实施例1完全一样。

a)选择男胎的样本作为训练集，样本数为1000；选择一批样本作为测试集，样本数为400，其中怀男胎和女胎的样本数分别为200。将所有数据标准化，亦即对每个变量作线性变换，使得该变量在全样本中的均值为0，标准差为1。

c)在训练集中运用该神经网络预测胎儿浓度(学习)，依每轮学习效果的变化调整学习速率，使得在保证训练集学习效果不出现往复波动的情况下学习速率最大。学习的方法是，根据各个窗口的reads数

依据以下公式逐层计算各个神经元的数值

为第l层第j个神经元的数值，

为第l-1层第k个神经元的数值，

为第l-1层第k个神经元到第l层第j个神经元的连接权重，

为第l层第j个神经元的输入偏差。函数f的最常用形式为rectified linear unit,亦即f(x)＝max(0，x)。

对所有样本{s}，比较输出层神经元的数值

与依据Y染色体估计的胎儿浓度y _s，调整各层的权重

及偏差

以使

最小。

f)尝试在神经网络中加入二阶正则化项λ并调节大小，看加入前后、调节大小时学习效果如何。二阶正则化项的意义为，学习过程中不再寻求使

最小，而寻求使

最小。

h)将优化完毕的神经网络在训练集上训练。最优的参数见下表1。各窗口的权重(每个输入层神经元至隐藏层的平均权重)分布见附图(见图7)。

表1 运用TensorFlow库的神经网络模型最优参数

i)运用训练完毕的神经网络对测试集样本进行胎儿浓度估计。估计的方法为，根据各个窗口的reads数

依据以下公式逐层计算各个神经元的数值

最后一层的神经元数值即为胎儿浓度模型预测值。

胎儿浓度估计结果与Y染色体进行的胎儿浓度估计值相关性见附图(见图8)，从图中可以看出相关性极强(r＝0.982；p value<1e-10)，说明使用本发明方法对胎儿游离核酸浓度进行估算，所获得的结果准确可靠。

最终，发明人比较了两种模型对女胎胎儿浓度估计的相关性，结果如图9所示。可以明显看出两种模型所得到的胎儿浓度值相关性极强(r＝0.935；p value<1e-10)。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

一种确定生物样本中预定来源的游离核酸比例的方法，其特征在于，包括：

(1)对含有游离核酸的生物样本进行核酸测序，以便获得由多个测序数据构成的测序结果；

(2)将所述测序结果与参照序列比对，以便确定所述测序结果中落入预定窗口的测序数据的数目；以及

(3)基于所述落入预定窗口的测序数据的数目，确定所述生物样本中预定来源的游离核酸比例。
根据权利要求1所述的方法，其特征在于，所述生物样本为外周血。
根据权利要求2所述的方法，其特征在于，所述预定来源的游离核酸为选自下列的至少之一：

孕妇外周血中的游离胎儿核酸；

孕妇外周血中母亲来源的游离核酸；以及

肿瘤患者、疑似肿瘤患者或者肿瘤筛查者外周血中的游离肿瘤核酸或非肿瘤来源的游离核酸。
根据权利要求1所述的方法，其特征在于，所述测序为双末端测序、单末端测序或单分子测序。
根据权利要求1所述的方法，其特征在于，所述核酸为DNA。
根据权利要求1～5任一项所述的方法，其特征在于，所述参照序列为参考基因组序列。
根据权利要求6所述的方法，其特征在于，所述参照序列为hg19。
根据权利要求6所述的方法，其特征在于，所述预定窗口是通过对参考基因组序列的预定染色体进行连续划分而获得的。
根据权利要求8所述的方法，其特征在于，所述预定染色体包括常染色体。
根据权利要求9所述的方法，其特征在于，所述常染色体不包括第13、18和21号染色体的至少之一。
根据权利要求8所述的方法，其特征在于，所述预定窗口的长度为60K。
根据权利要求8所述的方法，其特征在于，步骤(2)进一步包括：

(2-1)将所述测序结果与参考基因组进行比对，以便构建唯一比对测序数据集，所述唯一比对测序数据集中的每一个测序数据仅能够与所述参考基因组的一个位置匹配；

(2-2)确定所述唯一比对测序数据集中各测序数据所对应的参考基因组位置；以及

(2-3)确定落入所述预定窗口的测序数据的数目。
根据权利要求8所述的方法，其特征在于，在步骤(3)中，利用各预定窗口的权重，确定所述生物样本中预定来源的游离核酸比例。
根据权利要求13所述的方法，其特征在于，步骤(3)中，所述各预定窗口的权重是通过利用训练样品预先确定的。
根据权利要求13或14所述的方法，其特征在于，所述权重是利用岭回归统计模型和神经网络模型的至少之一确定的。
根据权利要求15所述的方法，其特征在于，所述神经网络模型采用TesnsorFlow学习系统。
根据权利要求16所述的方法，其特征在于，所述Tesnsor Flow学习系统的参数包括：

采用常染色体的各窗口的测序数据数目作为输入层；

采用胎儿浓度作为输出层；

神经元类型采用ReLu；

优化算法采用选自Adam、SGD和Ftrl的至少之一。
根据权利要求17所述的方法，其特征在于，所述优化算法为Ftrl。
根据权利要求17所述的方法，其特征在于，所述Tesnsor Flow学习系统的参数进一步包括：

学习速率设置为0.002；

隐藏层的层数为1；

隐藏层中神经元数为200。
根据权利要求14所述的方法，其特征在于，所述训练样品为已知游离胎儿核酸比例的孕妇外周血样本。
根据权利要求20所述的方法，其特征在于，所述训练样品为已知游离胎儿核酸比例的怀有正常男胎的孕妇外周血样本。
根据权利要求20所述的方法，其特征在于，利用岭回归统计模型确定权重，所述岭回归统计模型的计算公式如下：

其中
为胎儿浓度模型预测值，x _j为窗口reads数，
为各窗口权重，
为偏差，
与
是在训练模型时得到。
根据权利要求20所述的方法，其特征在于，利用神经网络模型确定权重，所述神经网络模型的计算公式如下：

其中l为网络的层的序号，
为第l层第j个神经元的数值，
为第l-1层第k个神经元的数值，
为第l-1层第k个神经元到第l层第j个神经元的连接权重，
为第l层第j个神经元的输入偏差，w与b是在训练模型时得到。
根据权利要求23所述的方法，其特征在于，所述利用神经网络模型确定权重包括：

按照所述神经网络模型的计算公式逐层计算神经元的数值，其中最后一层的神经元数值即为胎儿浓度模型预测值。
根据权利要求1所述的方法，其特征在于，在进行步骤(3)之前，预先对所述落入预定窗口的测序数据的数目进行GC校正，以便获得落入所述预定窗口的有效测序数目。
根据权利要求25所述的方法，其特征在于，按照以下步骤进行所述GC校正：

a)对于某个样本，记第i个窗口的有效序列数为ER _i，记reference在该窗口的GC含量为GC _i，记预定染色体上所有窗口有效序列数均值为

b)利用预定染色体所有窗口的有效序列数及GC含量进行拟合得到二者之间的关系式：ER＝f(gc)；

c)对所有染色体的窗口进行校正：
记第i个窗口GC校正后的有效序列数为ERA _i。
根据权利要求1所述的方法，其特征在于，在进行步骤(3)之前，预先确定所述胎儿的性别。
根据权利要求27所述的方法，其特征在于，通过Y染色体的测序数据占总测序数据的比例确定所述胎儿的性别。
一种用于确定生物样本中预定来源的游离核酸比例的设备，其特征在于，包括：

测序装置，所述测序装置用于对含有游离核酸的生物样本进行核酸测序，以便获得由多个测序数据构成的测序结果；

计数装置，所述计数装置与所述测序装置相连，用于将所述测序结果与参照序列比对，以便确定所述测序结果中落入预定窗口的测序数据的数目；以及

游离核酸比例确定装置，所述游离核酸比例确定装置与所述计数装置相连，用于基于所述落入预定窗口的测序数据的数目，确定所述生物样本中预定来源的游离核酸比例。
根据权利要求29所述的设备，其特征在于，所述生物样本为外周血。
根据权利要求30所述的设备，其特征在于，所述预定来源的游离核酸为选自下列的至少之一：

孕妇外周血中的游离胎儿核酸；

孕妇外周血中母亲来源的游离核酸；以及

肿瘤患者、疑似肿瘤患者或者肿瘤筛查者外周血中的游离肿瘤核酸或非肿瘤来源的游离核酸。
根据权利要求29所述的设备，其特征在于，所述测序为双末端测序、单末端测序或单分子测序。
根据权利要求29所述的设备，其特征在于，所述核酸为DNA。
根据权利要求29～33任一项所述的设备，其特征在于，所述参照序列为参考基因组序列。
根据权利要求34所述的设备，其特征在于，所述参照序列为hg19。
根据权利要求34所述的设备，其特征在于，所述预定窗口是通过对参考基因组序列的预定染色体进行连续划分而获得的。
根据权利要求36所述的设备，其特征在于，所述预定染色体包括常染色体。
根据权利要求37所述的设备，其特征在于，所述常染色体不包括第13、18和21号染色体的至少之一。
根据权利要求36所述的设备，其特征在于，所述预定窗口的长度为60K。
根据权利要求36所述的设备，其特征在于，所述计数装置进一步包括：

比对单元，所述比对单元用于将所述测序结果与参考基因组进行比对，以便构建唯一比对测序数据集，所述唯一比对测序数据集中的每一个测序数据仅能够与所述参考基因组的一个位置匹配；

位置确定单元，所述位置确定单元与所述比对单元相连，用于确定所述唯一比对测序数据集中各测序数据所对应的参考基因组位置；以及

数目确定单元，所述数目确定单元与所述位置确定单元相连，用于确定落入所述预定窗口的测序数据的数目。
根据权利要求36所述的设备，其特征在于，所述游离核酸比例确定装置适于利用各预定窗口的权重，确定所述生物样本中预定来源的游离核酸比例。
根据权利要求41所述的设备，其特征在于，所述各预定窗口的权重是通过利用训练样品预先确定的。
根据权利要求41或42所述的设备，其特征在于，所述权重是利用岭回归统计模型和神经网络模型的至少之一确定的。
根据权利要求43所述的设备，其特征在于，所述神经网络模型采用Tesnsor Flow学习系统。
根据权利要求44所述的设备，其特征在于，所述Tesnsor Flow学习系统的参数包括：

采用常染色体的各窗口的测序数据数目作为输入层；

采用胎儿浓度作为输出层；

神经元类型采用ReLu；

优化算法采用选自Adam、SGD和Ftrl的至少之一。
根据权利要求45所述的设备，其特征在于，所述优化算法为Ftrl。
根据权利要求46所述的设备，其特征在于，所述Tesnsor Flow学习系统的参数进一步包括：

学习速率设置为0.002；

隐藏层的层数为1；

隐藏层中神经元数为200。
根据权利要求42所述的设备，其特征在于，所述训练样品为已知游离胎儿核酸比例的孕妇外周血样本。
根据权利要求48所述的设备，其特征在于，所述训练样品为已知游离胎儿核酸比例的怀有正常男胎的孕妇外周血样本。
根据权利要求41所述的设备，其特征在于，利用岭回归统计模型确定权重，所述岭回归统计模型的计算公式如下：

其中
为胎儿浓度模型预测值，x _j为窗口reads数，
为各窗口权重，
为偏差，
与
是在训练模型时得到。
根据权利要求41所述的设备，其特征在于，利用神经网络模型确定权重，所述神经网络模型的计算公式如下：

其中l为网络的层的序号，
为第l层第j个神经元的数值，
为第l-1层第k个神经元的数值，
为第l-1层第k个神经元到第l层第j个神经元的连接权重，
为第l层第j个神经元的输入偏差，w与b是在训练模型时得到。
根据权利要求51所述的设备，其特征在于，所述利用神经网络模型确定权重包括：

按照所述神经网络模型的计算公式逐层计算神经元的数值，其中最后一层的神经元数值即为胎儿浓度模型预测值。
根据权利要求29所述的设备，其特征在于，进一步包括GC校正装置，所述GC校正装置分别与所述计数装置和所述游离核酸比例确定装置相连，用于在确定所述生物样本中预定来源的游离核酸比例之前，预先对所述落入预定窗口的测序数据的数目进行GC校正，以便获得落入所述预定窗口的有效测序数目。
根据权利要求53所述的设备，其特征在于，所述GC校正装置适于按照以下步骤进行所述GC校正：

a)对于某个样本，记第i个窗口的有效序列数为ER _i，记reference在该窗口的GC含量为GC _i，记预定染色体上所有窗口有效序列数均值为

b)利用预定染色体所有窗口的有效序列数及GC含量进行拟合得到二者之间的关系式：ER＝f(gc)；

c)对所有染色体的窗口进行校正：
记第i个窗口GC校正后的有效序列数为ERA _i。
根据权利要求29所述的设备，其特征在于，进一步包括胎儿性别确定装置，所述胎儿性别确定装置与所述游离核酸比例确定装置相连，用于预先确定所述胎儿的性别。
根据权利要求55所述的设备，其特征在于，通过Y染色体的测序数据占总测序数据的比例确定所述胎儿的性别。