CN108319813B

CN108319813B - 循环肿瘤dna拷贝数变异的检测方法和装置

Info

Publication number: CN108319813B
Application number: CN201711321172.9A
Authority: CN
Inventors: 郭昊; 韩天澄; 于佳宁; 林小静; 宋雪
Original assignee: Wuxi Zhenhe Biotechnology Co ltd
Current assignee: Wuxi Zhenhe Biotechnology Co ltd
Priority date: 2017-11-30
Filing date: 2017-12-12
Publication date: 2020-12-25
Anticipated expiration: 2037-12-12
Also published as: CN108319813A

Abstract

本发明公开了一种循环肿瘤DNA拷贝数变异的检测方法和装置。其中，该方法包括：分别通过正常人群基因数据和待测目标基因数据，确定正常人群测序结果和待测目标测序结果；获取第一捕获区间参数和第二捕获区间参数；分别对第一捕获区间参数和第二捕获区间参数进行标准化处理，得到第一捕获区间参数的第一深度和第二捕获区间参数的第二深度；根据第一深度确定第一拷贝数变异得分；根据第一深度和第二深度确定第二拷贝数变异得分；根据第一拷贝数变异得分和第二拷贝数变异得分确定待测目标基因数据的拷贝数变异检测结果。本发明解决了现有技术中循环肿瘤DNA拷贝数变异检测准确度差的技术问题。

Description

循环肿瘤DNA拷贝数变异的检测方法和装置

技术领域

本发明涉及基因领域，具体而言，涉及一种循环肿瘤DNA拷贝数变异的检测方法和装置。

背景技术

循环肿瘤DNA(circulating tumor DNA，ctDNA)是一种无细胞状态的胞外DNA，存在于血液、滑膜液、胸腹水和脑脊液等体液中，尤其是血浆游离DNA(cell-free DNA，cfDNA)中含量丰富。其主要是由单链或双链DNA以及单链与双链DNA的混合物组成。它是一种具备广泛应用前景、高敏感性、高特异性的肿瘤标志物，且适用于多种肿瘤。通过ctDNA可以对肿瘤进行分期、预后的评估，以及动态监测。它携带的肿瘤信息也可用于用药指导，不光取样简单，还能更全面的掌握肿瘤的信息。目前，针对肿瘤患者血浆cfDNA的液体活检技术对肿瘤临床治疗和靶向药物用药指导已产生重要的监控和指导意义。

DNA片段的拷贝数变异(copy number variation，CNV)是一种常见的基因组结构性变异形式，在人群中普遍存在。某些特定基因的CNV被认为可作为肿瘤进展和预后的临床指标，并具有指导肿瘤患者用药的潜力。目前，检测CNV的常用方式主要包括两大类实验方法：低通量分子生物学实验技术,包括：染色体显带、荧光原位杂交技术(FISH)、微滴式数字PCR(ddPCR)等；和高通量二代基因测序技术(next generation sequencing，NGS)，该技术可以在全基因组范围或者目标基因区间探测DNA片段的CNV。

但上述几种拷贝数变异检测方式均存在一定缺陷，下面依次进行具体说明：

低通量分子生物学实验技术主要缺陷包括：分辨率低，操作复杂，检测通量低，偏差大，具体的，

染色体显带：分辨率低，无法检测到长度小于5Mb的变异，当细胞分裂指数低或染色体形态学表型差时，准确率较低。并且，在操作上需要进行细胞培养，耗时较长；

FISH：目前临床病理检验基因CNV的金标准方法。相比染色体显带，虽然大大提升了分辨率，但探针数量有限，通量小、时间长。每次检测只能分析少数位点，需要在检测前对CNV的类型的位置有先验判断，所以只适合于针对个别位点进行验证，而非筛查。此外，不同实验室和检测机构对结果判断存在较大的偏差；

ddPCR：在计算待测基因拷贝数变异时，会选取待测位置以外的点作为参考点，计算待测基因相对于参考基因的拷贝倍数，如果参考基因的拷贝数不为2(假设基因组为二倍体)，待测基因的拷贝数检测结果也会产生偏差。与捕获测序相比，通量较小，探针可选取的位点有限，探针覆盖区间较短，难以确认断点位置，且仅能检测设计探针区间的基因，成本较高，适合用于验证而非筛查。

相比之下，捕获测序在肿瘤组织样本CNV检测上具有较高的灵敏度，分辨率较高，但分析过程较为复杂。高通量捕获测序检测CNV技术的主要缺陷：无专门针对ctDNA进行捕获测序检测CNV的算法，现有分析方法过程复杂，灵敏度较低，结果稳定性差。例如：

CNVkit：输出结果没有提示统计学意义，且较难解释。对于长基因，经常会出现单个基因被分入不同的CNV片段且推算的拷贝数不同的情况。此外，CNVkit仅给出一个对拷贝数的相对变化幅度(log2Ratio)的估计，对于片段是否为CNV并不进行检验，需要使用者自行设置阈值进行判断；

Control-FREEC：最终的输出结果将拷贝数取整，所以对肿瘤细胞比例不明确或者比例比较低的样本检测效果不佳，并且该算法无法检测到拷贝数在2.5以下的CNV，对于ctDNA的CNV检测较为不利。虽然软件可以计算肿瘤DNA的纯度，并采用该百分比对最终的拷贝数结果进行校正，但由于对纯度的估计不准确，最终推定出的拷贝数结果可能会与实际情况存在较大的偏差。因此，该软件不适用于对ctDNA的鉴定。

由此可知，目前针对捕获数据的分析软件，部分仅适用于全外显子测序，适用于非全外显子捕获数据的软件各自也存在一些缺陷。其中，并没有一款软件是针对ctDNA检测CNV设计的，对于扩增或缺失倍数细微的样本，灵敏度较低。由于ctDNA在血浆cfDNA里面含量比例较少，通常含量在1％一下，因此迫切需要开发一种灵敏度高，准确性高的CNV检测方法。

针对现有技术中循环肿瘤DNA拷贝数变异检测准确度差的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种循环肿瘤DNA拷贝数变异的检测方法和装置，以至少解决现有技术中循环肿瘤DNA拷贝数变异检测准确度差的技术问题。

根据本发明实施例的一个方面，提供了一种循环肿瘤DNA拷贝数变异的检测方法，包括：分别通过正常人群基因数据和待测目标基因数据，确定正常人群测序结果和待测目标测序结果；获取第一捕获区间参数和第二捕获区间参数，其中，第一捕获区间参数用于表征正常人群测序结果在捕获区间上的参数，第二捕获区间参数用于表征待测目标测序结果在捕获区间上的参数；分别对第一捕获区间参数和第二捕获区间参数进行标准化处理，得到第一捕获区间参数的第一深度和第二捕获区间参数的第二深度；根据第一深度确定第一拷贝数变异得分，其中，第一拷贝数变异得分用于表征正常人群基因数据发生拷贝数变异的波动范围；根据第一深度和第二深度确定第二拷贝数变异得分，其中，第二拷贝数变异得分用于表征待测目标基因数据发生拷贝数变异的波动情况；将第二拷贝数变异得分和第一拷贝数变异得分进行比对，确定待测目标基因数据的拷贝数变异检测结果。

根据本发明实施例的另一方面，还提供了一种拷贝数变异的检测装置，包括：确定模块，用于分别通过正常人群基因数据和待测目标基因数据，确定正常人群测序结果和待测目标测序结果；获取模块，用于获取第一捕获区间参数和第二捕获区间参数，其中，第一捕获区间参数用于表征正常人群测序结果在捕获区间上的参数，第二捕获区间参数用于表征待测目标测序结果在捕获区间上的参数；标准化处理模块，用于分别对第一捕获区间参数和第二捕获区间参数进行标准化处理，得到第一捕获区间参数的第一深度和第二捕获区间参数的第二深度；第一打分模块，用于根据第一深度确定第一拷贝数变异得分，其中，第一拷贝数变异得分用于表征正常人群基因数据发生拷贝数变异的波动范围；第二打分模块，用于根据第一深度和第二深度确定第二拷贝数变异得分，其中，第二拷贝数变异得分用于表征待测目标基因数据发生拷贝数变异的波动情况；检测打分模块，用于根据第一拷贝数变异得分和第二拷贝数变异得分确定待测目标基因数据的拷贝数变异检测结果。

根据本发明实施例的另一方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述的循环肿瘤DNA拷贝数变异的检测方法。

根据本发明实施例的另一方面，还提供了一种处理器，处理器用于运行程序，其中，程序运行时执行上述的循环肿瘤DNA拷贝数变异的检测方法。

在本发明实施例中，在计算正常人群的基因拷贝数变异得分，根据正常人群的基因拷贝数变异得分确定正常人群的拷贝数变异的得分范围，从而根据这一拷贝数变异得分确定的范围来检测待测目标的基因拷贝数，进而解决了由于设置不合适的拷贝数阈值所导致的现有技术中循环肿瘤DNA拷贝数变异检测准确度差的技术问题，达到了提高循环肿瘤DNA拷贝数变异检测准确度的目的。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的拷贝数变异的检测方法的流程图；

图2是根据本申请实施例的一种循环肿瘤DNA拷贝数变异的检测方法的示意图；

图3是根据本申请实施例的一种CNV鉴定结果展示的示意图；

图4是根据本发明实施例的一种拷贝数变异的检测装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面，为了便于对本方案的理解，对本申请下述实施例出现的一些专有名词进行解释：

ctDNA：循环肿瘤DNA，肿瘤细胞在进行分裂增值过程当中，主动向体液中分泌的已经经历过基因突变的DNA片段。

GC含量：在DNA的四种碱基中，鸟嘌呤和胞嘧啶所占的比率为GC含量。

bam文件：sam文件的二进制压缩格式，用来存储测序序列回贴到参考基因组的结果，其中，sam是一种序列比对格式，用来存储测序序列回贴到参考基因组的结果。

bed文件：bed文件中包含至少4列信息：染色体信息、基因组起始位置，基因组结束位置，所在基因信息(例如：基因名称)，其中，目标捕获区间bed文件的每一行代表一个捕获区间。

reads：测序读长，测序仪测到的基因组或转录组序列片段。

fasta：一种基于文本用于表示核苷酸序列或氨基酸序列的格式。

fastq：一种常见的高通量测序文件类型，通常原始测序数据都是以该文件类型储存的。

bwa：一种比对方法软件，用于查找测序序列在人类基因参考序列中的位置,可输出bam格式结果文件。

GCS(gene-specific-score)：针对基因给出的，总结了某一基因在各捕获区间的统计信息的统计量，用于进行统计检验。

samtools：一种处理bam/sam文件的工具。

picard：一种处理高通量测序数据的工具，可用于处理sam/bam等比对结果文件。

比对质量：用于量化比对到错误位置的可能性，值越高表示可能性越低。

实施例1

根据本发明实施例，提供了一种拷贝数变异的检测方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的拷贝数变异的检测方法的流程图，如图1所示，该方法包括如下步骤：

步骤S11，分别通过正常人群基因数据和待测目标基因数据，确定正常人群测序结果和待测目标测序结果。

具体的，上述正常人群基因数据可以是健康人群的捕获测序fastq数据，待测目标可以为待测人群中的任意一个，待测目标基因数据可以为待测肿瘤患者血浆cfDNA样本的捕获测序fastq数据。

此处需要说明的是，上述正常人群或待测目标的基因数据可以从正常人群或待测目标的血液中提取，也可以从正常人群或待测目标的腹水、胸水以及脑脊液等其他体液中提取，此处不做限定。

在一种可选的实施例中，获取健康人群的捕获测序fastq数据，以及待测肿瘤患者血浆cfDNA样本的捕获测序fastq数据，分别将两个fastq数据与预设的人类参考基因组fasta数据进行比对，并将比对结果进行排序和标记重复处理，得到上述正常人群测序结果和待测目标测序结果，正常人群测序结果和待测目标测序结果均可以为bam文件。

步骤S13，获取第一捕获区间参数和第二捕获区间参数，其中，第一捕获区间参数用于表征正常人群测序结果在捕获区间上的参数，第二捕获区间参数用于表征待测目标测序结果在捕获区间上的参数。

具体的，上述第一捕获区间参数和第一捕获区间参数都可以包括：测序读长数目(reads count，RC)、GC含量以及区间长度。

在一种可选的实施例中，上述步骤可以由本方案提出的bed文件处理模块执行，向bed文件处理模块输入目标捕获区间bed文件和人类参考基因组序列fasta文件，通过bed文件处理模块处理目标捕获区间bed文件，则能够获取每一个捕获区间的GC含量，区间长度和所在基因信息，并根据染色体和基因组位置进行排序。

具体的处理方法可以为：人类参考基因组序列(fasta文件)包含了人类所有染色体的序列组成信息，包括A、T、C、G碱基分布和每一个碱基的位置信息。bed文件处理模块可以将bed文件中的每一个捕获区间回贴到人类参考基因组序列上，并统计捕获区间起点至终点之间长度(终点减去起点)、序列GC含量百分比(G和C碱基数量和/捕获区间长度)，该模块同时提取每一个捕获区间的唯一所在基因名称得到基因信息。

步骤S15，分别对第一捕获区间参数和第二捕获区间参数进行标准化处理，得到第一捕获区间参数深度和第二捕获区间深度。

具体的，上述标准化处理用于将减少多个捕获区间参数之间的影响。在一种可选的实施例中，以捕获区间参数包括RC、GC含量以及区间长度进行说明，可以利用捕获区间参数中的GC含量和区间长度对RC进行标准化处理。

步骤S17，根据第一深度确定第一拷贝数变异得分，其中，第一拷贝数变异得分用于表征正常人群基因数据发生拷贝数变异的波动范围。

具体的，上述步骤用于建立正常人群的拷贝数基线水平。正常人群中具有多个正常人单体，根据正常人群中每个正常人单体的第一拷贝数变异得分，既能够得到正常人群基因数据发生拷贝数变异的波动范围。

步骤S19，根据第一深度和第二深度确定第二拷贝数变异得分，其中，第二拷贝数变异得分用于表征待测目标基因数据发生拷贝数变异的波动情况。

具体的，在上述步骤中，通过第一深度和第二深度共同确定第二拷贝数变异得分，能够确定待测目标在捕获区间的拷贝数与正常人群基线水平的偏离程度，从而用这一第二拷贝数变异的得分作为检测待测目标拷贝数变异的基准。

步骤S111，将第二拷贝数变异得分和第一拷贝数变异得分进行比对，确定待测目标基因数据的拷贝数变异检测结果。

此处需要说明的是，在解读DNA拷贝数变异结果时，使用者实际更关心的是基因层面上的拷贝数突变。目前所有的拷贝数变异鉴定软件最终的输出结果都不以基因作为拷贝数变异的单位，而是通过算法确定每一突变的断点，因此无法给出针对基因的拷贝数变异结果。此外，这些软件在进行鉴定时，主要依靠设置拷贝数阈值的方式，根据待测样本拷贝数是否超出阈值来判断是否存在变异，对于ctDNA浓度较低的cfDNA样本的鉴定非常不利，灵敏度很低。本发明上述方案则以拷贝数在人群中的分布情况为标准，通过统计检验鉴定是否存在拷贝数变异。当样本基因通过了统计检验、证明待测样本与参考人群组在某一基因上的拷贝数存在显著性差异时，其会给出拷贝数突变的鉴定结果，从而避免了在未知ctDNA浓度的情况下，因为设置了不合适的拷贝数阈值而导致的检测低灵敏度的问题，进而能够保证每一个由其鉴定出的拷贝数变异都是可靠的。

由上可知，本申请上述实施例在计算正常人群的基因拷贝数变异得分，根据正常人群的基因拷贝数变异得分确定正常人群的拷贝数变异的得分范围，从而根据这一拷贝数变异得分确定的范围来检测待测目标的基因拷贝数，进而解决了由于设置不合适的拷贝数阈值所导致的现有技术中循环肿瘤DNA拷贝数变异检测准确度差的技术问题，达到了提高循环肿瘤DNA拷贝数变异检测准确度的目的。

可选的，根据本申请上述实施例，捕获区间参数包括：测序读长数目、GC含量和区间长度，其中，测序读长数目、GC含量和区间长度对应的深度分别为：覆盖度、GC含量深度和区间长度深度，分别对第一捕获区间参数和第二捕获区间参数进行标准化处理，得到第一捕获区间参数的第一深度和第二捕获区间参数的第二深度，包括：

步骤S151，对每个捕获区间的测序读长数目进行标准化处理，得到第一捕获区间参数的覆盖度和第二捕获区间参数的覆盖度。

步骤S153，根据覆盖度和GC含量对GC含量进行标准化处理，得到第一捕获区间参数的GC含量深度和第二捕获区间参数的GC含量深度。

步骤S155，根据GC含量深度和区间长度对区间长度进行标准化处理，得到第一捕获区间参数的区间长度深度和第二捕获区间参数的区间长度深度。

在上述步骤中，将常染色体测序覆盖数据标准化，GC含量标准化和捕获区间长度标准化。由于本发明采用RC作为捕获区间覆盖度的度量，会受到GC含量与捕获区间长度的影响。为避免两种因素对覆盖度的估计造成偏误，本发明针对每个捕获区间计算了区间GC含量与区间长度，利用该信息对RC进行标准化处理。

此处需要说明的是，现有技术中存在采用人群组作为参考样本的鉴定软件，但其通常采取中值或均值的做法，将参考人群组在每个片段上的覆盖情况汇总为一个数值，虽然这个数值能够反映一部分整体分布情况的信息，但却丢失了覆盖情况在人群组的波动的相关信息，且当参考人群组样本数越多时，被丢失的信息也就越多。而本申请上述方案中，通过对测序读长数据进行标准化处理得到覆盖度，保留了这部分信息，从而使得待测目标与参考人群组基线水平的偏离程度能够被更加准确地衡量，人群组样本越多，其相对于现有技术中的鉴定软件的优势就越明显。

下面，对上述三种数据的标准化方法依次进行说明。

可选的，根据本申请上述实施例，对每个捕获区间的测序读长数目进行标准化处理，得到第一捕获区间参数的覆盖度和第二捕获区间参数的覆盖度，包括：

步骤S1511，通过如下公式对每个捕获区间的测序读长数目进行标准化处理，得到第一捕获区间参数的覆盖度和第二捕获区间参数的覆盖度：

DepthA_i＝log2(RC_i)-log2(RC_m)；

其中，DepthA_i是第i个捕获区间的测序读长数目标准化以后的覆盖度；RC_i是第i个捕获区间上覆盖的测序读长数目；RC_m为所有捕获区间中位于常染色体的捕获区间的测序读长数目中位数。

可选的，根据本申请上述实施例，根据覆盖度和GC含量对GC含量进行标准化处理，得到第一捕获区间参数的GC含量深度和第二捕获区间参数的GC含量深度，包括：

步骤S1531，通过如下公式对GC含量进行标准化处理，得到第一捕获区间参数的GC含量深度和第二捕获区间参数的GC含量深度：

DepthB_i＝DepthA_i-rolling_median(All_region_GC)_i；

其中，DepthB_i是第i个捕获区间的GC含量标准化以后的GC含量深度；DepthA_i是第i个捕获区间的测序读长数目标准化以后的深度；rolling_median(All_region_GC）_i是所有捕获区间按照GC含量由大至小排序后，第i个区间的测序读长数目标准化后的深度的滑动中值。

可选的，根据本申请上述实施例，根据GC含量深度和区间长度对区间长度进行标准化处理，得到第一捕获区间参数的区间长度深度和第二捕获区间参数的区间长度深度，包括：

步骤S1551，通过如下公式区间长度进行标准化处理，得到第一捕获区间参数的区间长度深度和第二捕获区间参数的区间长度深度：

DepthC_i＝DepthB_i-rolling_median(All_region_size)_i；

其中，DepthC_i是第i个捕获区间的区间长度标准化以后的区间长度深度；DepthB_i是第i个捕获区间GC含量标准化以后的深度；rolling_median(All_region_size)_i是所有捕获区间按照区间长度由大至小排序以后，第i个区间的GC含量标准化后的深度的滑动中值。

可选的，根据本申请上述实施例，根据第一深度确定第一拷贝数变异得分，包括：

步骤S171，根据第一深度确定正常人群的第三拷贝数变异得分，其中，第三拷贝数变异得分用于表征正常人群基因数据在每个捕获区间内发生拷贝数变异的波动范围；

步骤S173，根据第三拷贝数变异得分确定第一拷贝数变异得分。

上述步骤可以通过reference模块执行，用于分析正常人群bam文件，获得正常人群捕获区间上的基因发生CNV事件的基线水平和波动统计以及每个捕获区间的标准化后的reads计数(reads count，RC)，即正常人群的第一拷贝数变异得分(例如：GSC(gene-specific-score)文件)和正常人群血浆捕获区间覆盖度(例如：COV文件)。

可选的，根据本申请上述实施例，根据第一深度确定正常人群的第三拷贝数变异得分，包括：

步骤S1711，通过如下公式确定正常人群的第三拷贝数变异得分：

其中，RZ_i是正常人群单一样本第i个捕获区间的第三拷贝数变异得分；Depth C_i是正常人群单一样本第i个捕获区间标准化以后的区间长度深度；mean(Depth_{nc_i})是所有正常人群在第i个捕获区间标准化后区间长度深度的均值；std(Depth_{nc_i})是所有正常人群在第i个捕获区间标准化后区间长度深度的标准差。

可选的，根据本申请上述实施例，根据第三拷贝数变异得分确定第一拷贝数变异得分，包括：

步骤S1731，通过如下公式根据第三拷贝数变异得分确定第一拷贝数变异得分：

其中，GCS_g是正常人群单一样本基因g的第一拷贝数变异得分，n是g具有的个捕获区间的数量。

可选的，根据本申请上述实施例，根据第一深度和第二深度确定第二拷贝数变异得分，包括：

步骤S175，根据第一深度和第二深度确定待测目标的第四拷贝数变异得分，其中，第四拷贝数变异得分用于表征待测目标基因数据在每个捕获区间内发生拷贝数变异的波动范围；

步骤S177，根据第四拷贝数变异得分确定第二拷贝数变异得分。

上述步骤可以通过利用sigtest模块执行，sigtest模块用于统计分析待测cfDNA样本中基因CNV变化水平与正常人群基线CNV水平的差异和波动统计打分，得到待测cfDNA样本的基因拷贝数变异统计打分GCS文件(第二拷贝数变异得分)和捕获区间统计打分RZ文件(即第四拷贝数变异得分)。

可选的，根据本申请上述实施例，根据第一深度和第二深度确定正常人群的第四拷贝数变异得分，包括：

步骤S1751，通过如下公式计算确定正常人群的第四拷贝数变异得分：

其中，RZ′_i是待测目标第i个捕获区间的第四拷贝数变异得分；Depth′C_i是待测目标第i个捕获区间标准化以后的区间长度深度；mean(Depth_{nc_i})是正常人群在第i个捕获区间标准化后区间长度深度的均值；std(Depth_{nc_i})是正常人群样本在第i个捕获区间标准化后区间长度深度的标准差。

可选的，根据本申请上述实施例，根据第四拷贝数变异得分确定第二拷贝数变异得分，包括：

步骤S1771，通过如下公式根据第四拷贝数变异得分确定第二拷贝数变异得分：

其中，GCS_g′是待测目标样本基因g的第二拷贝数变异得分，n是基因g具有的捕获区间的数量。

可选的，根据本申请上述实施例，根据第一拷贝数变异得分和第二拷贝数变异得分确定待测目标基因数据的拷贝数变异检测结果，包括：

步骤S191，判断第二拷贝数变异得分是否属于根据第一拷贝数变异得分确定的波动范围。

具体的，正常人群中的每个样本都能够获得一个第一拷贝数变异得分，可以根据正常人群中每个单一样本的第一拷贝数变异得分，确定波动范围，然后判断待测目标的第二拷贝数变异得分是否属于正常人群确定的波动范围。

步骤S193，在判断结果为不属于的情况下，确定待测目标的拷贝数突变。

在上述步骤中，在判断结果为不属于的情况下，确定该待测目标与正常人群在某这一基因上的拷贝数存在显著性差异，得到的检测结果为，该基因的拷贝数突变。

可选的，根据本申请上述实施例，分别通过正常人群基因数据和待测目标基因数据，确定正常人群测序结果和待测目标测序结果，包括：

步骤S113，分别将正常人群基因数据和待测目标基因数据与人类参考基因组数据进行比对，得到正常人群基因数据的第一比对结果和待测目标基因数据的第二比对结果。

步骤S115，分别对第一比对结果和第二比对结果进行排序和标记重复处理，得到正常人群测序结果和待测目标测序结果。

具体的，上述人类参考基因组数据可以为fasta文件，通过上述比对来确定正常人群的基因和待测目标的基因在人类参考基因组中的位置。

可选的，根据本申请上述实施例，在根据第一拷贝数变异得分和第二拷贝数变异得分确定待测目标基因数据的拷贝数变异检测结果之后，上述方法还包括：

步骤S117，根据第一拷贝数变异得分和第二拷贝数变异得分确定待测目标相对于正常人群的拷贝数比值。

步骤S119，根据拷贝数比值和正常人群基因数据在捕获区间中的拷贝数，确定待测目标基因数据在捕获区间中的拷贝数。

通过在上述步骤的运算，最终输出的检测结果可以包括第二拷贝数变异得分，拷贝数比值以及具体的拷贝数。

进一步的，还可以对捕获区间数量和第二拷贝数变异得分进行过滤，例如：过滤条件可以为：region number>5,GCS>正常人群GCS的95％分位数，最终输出包含被认定存在拷贝数变异的基因和这些基因在捕获区间上的详细信息的文件。可以将这些被认定存在拷贝数变异的基因及其在捕获区间上的详细信息作为待测目标的具有统计学意义的信息，制作为拷贝数变异基因列表，并绘制待测目标cfDNA样本基因捕获区间的拷贝数变异在不同人类染色体上的位置和拷贝数分布情况。

可选的，根据本申请上述实施例，在根据第一拷贝数变异得分和第二拷贝数变异得分确定待测目标基因数据的拷贝数变异检测结果之后，上述方法还包括：根据待测目标的第二深度，确定待测目标的性别参数。

在上述步骤中，可以通过对正常人群组在每个目标捕获区间的RC进行统计，利用待测目标在性染色体上的RC分布对待测目标的性别进行判断和结果输出。判断标准可以为：女性：X染色体拷贝数>1.8&Y染色体拷贝数小于0.2；男性：X染色体拷贝数>0.6&Y染色体拷贝数大于0.5。

本申请实施例提出的上述方案，基于捕获测序能够在不同基因的捕获目标区间(target region)捕获不同的reads数量。通过样本数据量标准化矫正来排除批次和样本质量对基因区间捕获reads数量的影响；通过GC含量标准化过程矫正来排除不同DNA序列对捕获效率的影响；通过捕获区间长度进行数据量标准化来排除不同基因的不同长度目标区间捕获到的reads数量差异偏性。首先利用矫正后的捕获目标区间标准化reads数量计算未患有癌症的正常人群的血浆各基因的CNV的基准水平波动范围及统计学打分，然后计算癌症患者血浆样本与正常人群基线相比CNV变化倍数及统计学打分，最后判断打分是否显著，综合考虑各基因的捕获区间数量，并输出拷贝数具有显著改变的基因列表。

图2是根据本申请实施例的一种循环肿瘤DNA拷贝数变异的检测方法的示意图，下面结合图2所示，进行循环肿瘤DNA拷贝数变异的检测方法进行说明，主要包括以下几个步骤：

1.获取正常人群基线DNA捕获测序fastq数据、待测肿瘤患者血浆cfDNA样本的捕获测序fastq数据，利用基因组比对软件bwa mem，将正常人群基线DNA捕获测序fastq数据、待测肿瘤患者血浆cfDNA样本的捕获测序fastq数据与人类参考基因组fasta文件进行序列比对，利用samtools和picard软件对比对后的bam文件进行排序和标记重复处理，得到标记排序后的正常人群测序结果bam文件和待测cfDNA样本的测序结果bam文件；

2.输入目标捕获区间bed文件和人类参考基因组序列fasta文件，利用ctCNV算法bed文件处理模块处理目标捕获区间bed文件，获取每一个捕获区间的GC含量，区间长度和所在基因信息，并根据染色体和基因组位置进行排序；

3.利用ctCNV算法reference模块分析正常人群bam文件，获得正常人群捕获区间上的基因发生CNV事件的基线水平和波动统计以及每个捕获区间的标准化后的reads计数(reads count，RC)，即正常人群血浆基因CNV统计打分GCS文件和正常人群血浆捕获区间覆盖度COV文件；

4.利用ctCNV算法coverage模块分析待测血浆cfDNA样本的bam文件和步骤2处理得到的捕获区间信息，输出待测样本的捕获区间标准化RC，即待测cfDNA样本的捕获区间覆盖度COV文件；

5.利用ctCNV算法sigtest模块统计分析待测cfDNA样本中基因CNV变化水平与正常人群基线CNV水平的差异和波动统计打分，得到待测cfDNA样本的基因拷贝数变异统计打分GCS文件和捕获区间统计打分RZ文件；

6.利用ctCNV算法call模块筛选具有统计学意义且捕获区间数量足够的基因拷贝数变异，得到待测cfDNA样本中具有统计学意义的拷贝数变异基因列表；

7.可以选择性使用ctCNV算法scatter模块绘制待测cfDNA样本基因捕获区间的拷贝数变异在不同人类染色体上的位置和拷贝数分布情况；

使用上述实施例提供的方案，需要的输入文件包括：待测样本与各参考人群组样本经过比对、排序、过滤、标记重复等步骤后生成的测序数据文件(bam格式，包含每条测序片段的名称、SAM标记、位置信息、比对质量信息、CIGAR字串、mate pair信息、片段序列、测序质量等)、目标捕获区间文件(bed格式，包含染色体、目标捕获区间起始点、终止点与基因四列信息)、人类参考基因组序列(fasta格式)；

使用上述实施例提供的方案，得到的输出文件包括：用户自构建参考人群组的COV文件(包含人群组在目标捕获区间里的每个区间上的覆盖度信息)与GCS文件(包含人群组的拷贝数变异统计打分，以基因为单位)、待测样本的COV文件(包含参考人群组与待测样本在每个捕获区间上的覆盖度信息)、RZ文件(包含待测样本在每个捕获区间上的拷贝数变异统计打分)、GCS文件(包含待测样本的拷贝数变异统计打分，以基因为单位)、拷贝数鉴定结果SCNA文件(包含待测样本的基因拷贝数鉴定结果)、经过过滤的拷贝数变异鉴定结果SCNA文件(包含待测样本的基因拷贝数变异鉴定结果)与展示拷贝数变异结果的图像文件。

下面对上述实施例中出现的模块进行描述，本发明使用python语言(版本号2.7.13)实现全过程。算法主要包含reference模块、coverage模块、sigtest模块、call模块、autocall模块、scatter模块和guessex模块。

首先，需要说明的是，除了上述模块，还包括目标捕获区间bed文件处理模块，该模块为内嵌模块，其基本功能在reference模块和coverage模块都被使用到。输入参数由reference模块或者coverage模块提供(目标捕获区间bed文件和人类参考基因组序列fasta文件)，主要实现对目标捕获区间bed文件里包含的每一个基因组捕获区间统计GC含量，区间长度和所在基因信息，并根据染色体和基因组位置进行排序。

参考人群组矩阵构建模块(reference)：该模块要求输入最低比对质量(不输入则默认为0)、输出文件夹路径、输出文件前缀、参考人群组的bam文件、目标捕获区间bed文件与人类参考基因组序列fasta文件。通过使用bed文件处理模块和reference模块，对参考人群组在每个目标捕获区间的RC进行统计，并利用该数据计算每个样本在每个区间的数据量标准化、GC含量标准化、捕获区间长度标准化后的测序深度。由RC和标准化后测序深度共同构成矩阵并输出成COV文件格式。具体标准化方法如上述步骤S151-S155以及这几个步骤的子步骤S1511、S1531、S151所示，此处不再赘述。

在计算参考人群组各样本各区间标准化后测序深度的基础上，参考人群组矩阵构建模块(reference)还用于计算出以目标捕获区间为单位的Z-score(Region Z-score，RZ)，再将覆盖同一基因的目标捕获区间的RZ值进行合并，计算基因水平的测序深度的波动打分(Gene Centered Score，GCS)，根据预置的置信水平计算出针对基因水平的GCS阈值，形成GCS矩阵，输出GCS文件。输出的COV文件与GCS文件输出路径与输出文件名的前缀由输入参数指定。具体方法如上述步骤S1711、S1731所示，此处不再赘述。

待测样本COV矩阵构建模块(coverage)：该模块要求输入最低比对质量(不输入则默认为0)、输出文件前缀、参考人群组的bam文件、目标捕获区间bed文件与人类参考基因组序列fasta文件的路径。通过使用bed文件处理模块，对待测样本在每个目标捕获区间的RC进行统计，并利用该数据计算每个样本在每个区间的数据量标准化、GC含量标准化、捕获区间长度标准化后的测序深度，由RC和标准化后测序深度共同构成矩阵输出COV文件。区间标准化测序深度计算方法同reference模块。输出路径为当前文件夹，输出文件前缀由输入参数指定。

待测样本GCS计算模块(sigtest)：该模块要求输入输出文件前缀、参考人群组和待测样本COV文件的路径。其利用参考人群组和待测样本的COV矩阵，计算出以目标捕获区间为单位的Z-score，生成RZ文件，再利用Z-score计算出以基因为单位的GCS，生成待测样本的GCS文件。RZ和GCS计算方法同reference模块。输出路径为当前文件夹，输出文件前缀由输入参数指定。具体方法如上述步骤S1751、步骤S1771所示，此处不再赘述。

结果输出模块(call)：该模块要求输入输出文件前缀、参考人群组和待测样本GCS文件的路径。其利用参考人群组和待测样本GCS等信息，以基因为单位，计算出待测样本相对于参考人群组的拷贝数比值，输出包含GCS、拷贝数比值(log2Ratio)、待测样本的基因拷贝数(copy number)和各基因目标捕获区间数量(region number)等信息在内的SCNA文件。此模块还在此基础上，通过对各基因目标捕获区间数量和GCS的过滤(过滤条件：regionnumber>5,GCS>正常人群GCS的95％分位数)，最终输出包含被其认定存在拷贝数变异的基因和这些基因在捕获区间上的详细信息的文件。输出路径为当前文件夹，输出文件前缀由输入参数指定。

自动化拷贝数变异鉴定模块(autocall)：其整合了上述的待测样本COV矩阵构建模块、待测样本GCS计算模块与结果输出模块，通过一次性输入所有上述三个模块所要求的信息，可以一次性完成所有的鉴定步骤(coverage模块+sigtest模块+call模块)，输出拷贝数鉴定结果。

变异鉴定结果可视化模块(scatter)：该模块要求输入参考人群组、待测样本的COV文件与待测样本过滤后的拷贝数变异结果(SCNA)文件的路径。其利用输入文件里提供的信息，以染色体为横轴(目标捕获区间为单位)、拷贝数为纵轴，绘制散点图展示各目标捕获区间的拷贝数，使拷贝数扩增与缺失的基因在各染色体上的分布一目了然，方便对鉴定结果进行解释。

性别判断模块(guessex)：该模块要求输入最低比对质量(不输入则默认为0)、输出文件前缀、参考人群组的bam文件、目标捕获区间bed文件与人类参考基因组序列fastq文件的路径。其通过调用bed文件处理模块，对参考人群组在每个目标捕获区间的RC进行统计，利用待测样本在性染色体上的RC分布对样本的性别进行判断和结果输出。输出路径为当前文件夹，输出文件前缀由输入参数指定。

本发明提供两种拷贝数检测运行模式。第一种即分别运行待测样本COV矩阵构建模块(coverage模块)、待测样本GCS计算模块(sigtest模块)与结果输出模块(call模块)；第二种为运行整合了上述三个模块的自动化拷贝数变异鉴定模块(autocall模块)，单线程运行，一次仅可鉴定一个待测样本。

从上述实施例可以知晓，本方案结合了参考正常人群基线基因CNV及其波动水平、捕获区间上的RC数值标准化与基因水平拷贝数统计打分，可以有效提高血浆ctDNA的CNV检测灵敏性和准确性。

下面，通过实例对上述实施例提供的方案进行验证。

1、细胞系培养

细胞系NCI-N87(ATCC CRL-5822)和BEAS-2B(ATCC CRL-9609)购买自南京科佰生物科技有限公司，按照提供的说明书进行细胞培养，即RPMI-1640培养基中加入10％胎牛血清，在37度条件下进行培养。

2、细胞DNA提取

收集细胞悬液后，常温300g离心5分钟后弃上清，用200uLPBS重悬细胞，然后用QIAamp DNA Mini Kit(货号为51304；Qiagen,Germany)进行基因组DNA提取。经过裂解后过柱纯化，最后用low-TE缓冲液洗脱DNA。

3、用ddPCR的方法确定两种细胞系中ERBB2的拷贝数

用细胞提取的基因组DNA作为模板，进行ddPCR的实验。ddPCR用伯乐的仪器、商品化探针和反应体系。反应体系组成为：10ul ddPCR supermix for probes(no dUTP),1ulERBB2探针,1ul EIF2C1探针，以及20ng待测DNA。配制好反应体系后，按照仪器使用方法进行乳糜生成，吸取乳糜至96孔PCR板，用Pierceable Foil Heat Seal进行热封。PCR反应的条件为：酶激活95度，8min；94度30s解链，55度1min退火延伸，共39个循环；酶失活98度10min；4度保温。PCR扩增之后，伯乐的微滴读取仪读取每个反应孔中的带有荧光的微滴数目。每批次反应用超纯水作为阴性对照。每个待测DNA做三个复孔作为技术重复。

BEAS-2B的ERBB2的拷贝数为2.16，而NCI-N87的ERBB2的拷贝数为125。

4、ERBB2拷贝数梯度样本的制备

按照表一中的质量百分比混合两种细胞系，模拟血浆cfDNA样本，制备10个样本，并计算预期的ERBB2拷贝数。

表一

	NCI-N87	BEAS-2B	预期CNV
				sample1	100％	0.000％	125
sample 2	20％	80.000％	26.6
				sample 3	10％	90.000％	14.3
sample 4	5％	95.000％	8.15
				sample 5	2％	98.000％	4.46
sample 6	1％	99.000％	3.23
				sample 7	0.50％	99.500％	2.615
sample 8	0.20％	99.800％	2.246
				sample 9	0.10％	99.900％	2.123
sample 10	0％	100％	2

5、ERBB2拷贝数梯度样本的ddPCR

用同样的方法进行上表中10个样本的ddPCR实验，得到的实验结果可如表二所示，用按质量比例混合的细胞系DNA样本作为模板，每个反应体系中加入20ng样本DNA，每个样本做三个复孔作为技术重复。

表二

6、ERBB2拷贝数梯度样本的文库构建、捕获和测序

将以上10个样本DNA首先用covaris超声打断成200bp左右的DNA片段，qubit荧光定量后，取用20ng片段化的DNA作为起始量采用KAPA hyper preparation kit(罗氏公司)进行文库构建，经过末端修复、3’端加polyA、连接测序接头、进行9个cycles的无偏向扩增，之后进行纯化获得文库。详述如下：

6.1、末端平齐并在3’末端加A，反应体系如表三所示：

表三

试剂	体积
		Fragmented,double-stranded DNA	50μL
End Repair&A-Tailing Buffer	7μL
		End Repair&A-Tailing Enzyme Mix	3μL
总体积	60μL

Buffer和酶应预先在EP管中混匀，与DNA涡旋混匀后按以下反应进行。反应步骤如表四所示：

表四

该步操作将PCR管盖温度设为85℃，而非105℃。若该操作结束后立即进行下步实验，应将终止温度设为20℃，而非4℃。

6.2、连接接头，根据建库说明书的指导，20ng DNA应该采用7.5uM接头。按照表五配制反应体系：表五

试剂	体积
		反应产物	60μL
接头体积	5μL
		超纯水	5μL
连接Buffer	30μL
		DNA连接酶	10μL
总体积	110μL

Buffer和酶预先在EP管中混匀，涡旋震荡后离心，20℃孵育15分钟。

6.3、连接后纯化：在上一步反应体系(110ul)中加入Agencourt AMPure XP纯化磁珠88ul，充分涡旋振荡，轻微离心。室温吸附5-15分钟，使DNA与磁珠充分结合EP管放至磁力架吸附至液体澄清缓慢吸取EP管中上清并丢弃。EP管中加入200μL80％乙醇孵育30秒缓慢吸取EP管中乙醇并丢弃。重复一次乙醇洗磁珠。EP管室温干燥3-5分钟至乙醇完全挥发。从磁力架取下EP管，加入22μL超纯水，涡旋振荡，轻微离心室温孵育2分钟洗脱DNA，EP管放至磁力架吸附至液体澄清,上清转移至新的EP管，取1μL上清测DNA浓度，剩余的进行扩增。

6.4、PCR扩增：按照表六配制PCR体系。

表六

试剂	体积
		KAPA HiFi HotStart ReadyMix(2X)	25μL
KAPA Library Amplification Primer Mix	5μL
		(10X)*
接头连接文库	20μL
		总体积	50L

在充分震荡后快速离心之后，按照表七条件进行PCR反应。

表七

步骤	温度	时间	循环数
				预变性	98℃	45Sec	1
变性	98℃	15Sec
				退火	60℃	30Sec	9
延伸	72℃	30Sec
				最后延伸	72℃	1min	1
保存	4℃	∞	1

6.5、扩增后纯化：加入与PCR反应体系同等体积的Agencourt AMPure XP纯化磁珠(50ul)，充分涡旋振荡，轻微离心，室温吸附5-15分钟，使DNA与磁珠充分结合。EP管放至磁力架吸附至液体澄清，缓慢吸取EP管中上清并丢弃。EP管中加入200μL80％乙醇孵育30秒，缓慢吸取EP管中乙醇并丢弃。重复一次乙醇洗磁珠。EP管室温干燥3-5分钟至乙醇完全挥发。从磁力架取下EP管，加入52μL超纯水，涡旋振荡，轻微离心。室温孵育2分钟洗脱DNA，EP管放至磁力架吸附至液体澄清,上清转移至新的EP管，取1μL上清测DNA浓度。

6.6、在测序前采用探针捕获的方法，用Roche NimbleGen探针将包含ERBB2基因的目的区间进行富集和进一步扩增，获得目的区间的文库。经过q-PCR定量后进行上机测序。

7、处理下机fastq数据为各软件可使用的输入文件

数据下机后，首先将下机数据从fastq文件处理成bam文件，具体使用的软件和步骤如下：

7.1、比对

调用bwa-0.7.12mem将每一对fastq文件都作为paired reads比对到hg19人类参考基因组序列，除-M参数与指定Reads Group的ID外，不使用其余参数选项,生成初始bam文件；

7.2排序

调用picard-2.1.0的SortSam模块，对初始bam文件按照染色体位置进行排序，参数设置为“SORT_ORDER＝coordinate”。

7.3、筛选

调用samtools-1.3 view对排序后的bam文件进行筛选，采用“-F 0x900”作为参数。

7.4、建立索引

调用samtools-1.3的index模块对最终生成的bam文件建立索引，生成与标记重复后的bam文件配对的bai文件。

7.5、标记重复

调用picard-2.1.0的MarkDuplicates模块，对筛选后bam文件中的重复序列进行标记，后续的拷贝数分析时，会过滤这部分重复序列，采用去重后的数据进行分析；

8、用其他软件对ERBB2拷贝数梯度样本的拷贝数进行鉴定

8.1、CNVkit

挑选出拷贝数无异常情况的血细胞样本30个作为参考样本组，采用相同的方式对其进行捕获测序与测序数据的预处理。将30个样本的bam文件与记录捕获区间的bed文件、人类参考基因组序列fasta文件和每个ERBB2拷贝数梯度样本的bam文件作为输入文件，采用默认参数，分别对每一个ERBB2拷贝数梯度样本的拷贝数进行鉴定，获得每个样本相对于参考样本组拷贝数的log2 Ratio。由于CNVkit没有以基因为单位的鉴定结果，故取包含ERBB2基因的CNV片段的log2 Ratio作为鉴定结果。将log2Ratio转换为拷贝数。结果如表八所示：

表八

与ddPCR的鉴定结果相比，sample 1的鉴定结果偏低，sample 2-6的结果相对较为准确，sample 6-9的结果相差较大。对于拷贝数在3以下的样本，CNVkit的灵敏度较差。

8.2、Control-FREE

在鉴定拷贝数变异时，使用sample 10(即BEAS-2B细胞系)作为参考样本，采用该样本的bam文件、记录捕获区间的bed文件、人类参考基因组序列fasta文件和每个ERBB2拷贝数梯度样本的bam文件作为输入文件。所有参数均采用Control-FREE官方针对捕获测序数据的推荐参数，分别尝试无校正鉴定与按纯度校正鉴定结果两种方式。由于没有以基因为单位的鉴定结果，故取包含ERBB2基因的CNV片段的结果作为ERBB2的鉴定结果。结果如表九所示：

表九

9、与ddPCR的鉴定结果相比，无校正情况下，sample 1-6的结果相对较准，sample7的三次重复中，有一次未被鉴定到，sample 8与sample 9均未被鉴定出CNV。对于拷贝数在3以下的样本，Control-FREE的灵敏度较差。此外，当估计纯度并按照纯度校正结果时，Control-FREE对纯度的鉴定与实际情况偏差较大，校正后的结果与ddPCR的结果较无校正的情况下相差更大，可信度很差。

用本发明对ERBB2拷贝数梯度样本的拷贝数进行鉴定

挑选出拷贝数无异常情况的血细胞样本30个作为参考人群组样本，采用相同的方式对其进行捕获测序与测序数据的预处理。将30个样本的bam文件与记录捕获区间的bed文件、人类参考基因组序列fasta文件作为输入文件，采用本发明的reference模块，生成参考人群组的COV与GCS文件。

输入ERBB2拷贝数梯度样本的bam文件与参考人群组COV、GCS文件，采用本发明的autocall模块，分别对各样本被捕获区间覆盖的基因的拷贝数进行鉴定，获得各样本的RZ、COV、GCS文件与最终的两个SCNA结果文件。

根据SCNA结果文件，本发明对各浓度梯度样本ERBB2基因拷贝数的鉴定结果如表十所示：

表十

由表八、表九和表十对比可得，使用本发明提供的方案，可以稳定鉴定到sample1-9中的ERBB2拷贝数扩增，且除sample 1的结果与ddPCR的结果有一定的偏差外，sample2-9的结果都很准确。即使对于拷贝数很低的样本，本发明依旧能够稳定鉴定出拷贝数，并且对GCS进行统计检验，并给出可靠、灵敏的检验结果。与其余CNV鉴定算法相比，本算法更加稳定，无论是对高、低拷贝数CNV的鉴定，都具有更高的灵敏度，检测下限也更低，更适合针对ctDNA样本的CNV鉴定。

进一步地，还可以使用scatter模块，对sample 3与sample 5的CNV鉴定结果进行染色体分区拷贝数变异展示，图3是根据本申请实施例的一种CNV鉴定结果展示的示意图，结合图3可以知晓，在该图中纵坐标用于表示拷贝数(copy number)，横坐标用于表示CNV样本，17号染色体上能明显看到ERBB2的CNV，其中sample 3的ERBB2拷贝数约为7，sample 5的ERBB2拷贝数约为4。

实施例2

根据本发明实施例，提供了一种拷贝数变异的检测装置，图4是根据本发明实施例的一种拷贝数变异的检测装置的示意图，结合图4所示，该装置包括：

确定模块40，用于分别通过正常人群基因数据和待测目标基因数据，确定正常人群测序结果和待测目标测序结果。

获取模块42，用于获取第一捕获区间参数和第二捕获区间参数，其中，第一捕获区间参数用于表征正常人群测序结果在捕获区间上的参数，第二捕获区间参数用于表征待测目标测序结果在捕获区间上的参数。

标准化处理模块44，用于分别对第一捕获区间参数和第二捕获区间参数进行标准化处理，得到第一捕获区间参数的第一深度和第二捕获区间参数的第二深度。

第一打分模块46，用于根据第一深度确定第一拷贝数变异得分，其中，第一拷贝数变异得分用于表征正常人群基因数据发生拷贝数变异的波动范围。

第二打分模块48，用于根据第一深度和第二深度确定第二拷贝数变异得分，其中，第二拷贝数变异得分用于表征待测目标基因数据发生拷贝数变异的波动情况。

检测模块50，用于根据第一拷贝数变异得分和第二拷贝数变异得分确定待测目标基因数据的拷贝数变异检测结果。

实施例3

根据本发明实施例，提供了一种存储介质，存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行实施例1所述的循环肿瘤DNA拷贝数变异的检测方法。

实施例4

根据本发明实施例，提供了一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执实施例1所述的循环肿瘤DNA拷贝数变异的检测方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种循环肿瘤DNA拷贝数变异的检测方法，其特征在于，包括：

分别通过正常人群基因数据和待测目标基因数据，确定所述正常人群测序结果和所述待测目标测序结果；

获取第一捕获区间参数和第二捕获区间参数，其中，所述第一捕获区间参数用于表征所述正常人群测序结果在捕获区间上的参数，所述第二捕获区间参数用于表征所述待测目标测序结果在所述捕获区间上的参数；

分别对所述第一捕获区间参数和所述第二捕获区间参数进行标准化处理，得到第一捕获区间参数的第一深度和所述第二捕获区间参数的第二深度；

根据所述第一深度确定第一拷贝数变异得分，其中，所述第一拷贝数变异得分用于表征所述正常人群基因数据发生拷贝数变异的波动范围；

根据所述第一深度和所述第二深度确定第二拷贝数变异得分，其中，所述第二拷贝数变异得分用于表征所述待测目标基因数据发生拷贝数变异的波动情况；

将所述第二拷贝数变异得分和所述第一拷贝数变异得分进行比对，确定所述待测目标基因数据的拷贝数变异检测结果；

其中，所述捕获区间参数包括：测序读长数目、GC含量和区间长度，其中，所述测序读长数目、所述GC含量和所述区间长度对应的深度分别为：覆盖度、GC含量深度和区间长度深度，分别对所述第一捕获区间参数和所述第二捕获区间参数进行标准化处理，得到第一捕获区间参数的第一深度和第二捕获区间参数的第二深度，包括：

对每个捕获区间的测序读长数目进行标准化处理，得到所述第一捕获区间参数的覆盖度和所述第二捕获区间参数的覆盖度；

根据所述覆盖度和所述GC含量对所述GC含量进行标准化处理，得到所述第一捕获区间参数的GC含量深度和所述第二捕获区间参数的GC含量深度；

根据所述GC含量深度和所述区间长度对所述区间长度进行标准化处理，得到所述第一捕获区间参数的区间长度深度作为所述第一深度和所述第二捕获区间参数的区间长度深度作为所述第二深度。

2.根据权利要求1所述的方法，其特征在于，对每个捕获区间的测序读长数目进行标准化处理，得到所述第一捕获区间参数的覆盖度和所述第二捕获区间参数的覆盖度，包括：

通过如下公式对每个捕获区间的测序读长数目进行标准化处理，得到所述第一捕获区间参数的覆盖度和所述第二捕获区间参数的覆盖度：

；

其中，

是第i个捕获区间的测序读长数目标准化以后的覆盖度；

是第i个捕获区间上覆盖的测序读长数目；

为所有捕获区间中位于常染色体的捕获区间的测序读长数目中位数。

3.根据权利要求2所述的方法，其特征在于，根据所述覆盖度和所述GC含量对所述GC含量进行标准化处理，得到所述第一捕获区间参数的GC含量深度和所述第二捕获区间参数的GC含量深度，包括：

通过如下公式对所述GC含量进行标准化处理，得到所述第一捕获区间参数的GC含量深度和所述第二捕获区间参数的GC含量深度：

；

其中，

是第i个捕获区间的GC含量标准化以后的GC含量深度；

是第i个捕获区间的测序读长数目标准化以后的深度；

是所有捕获区间按照GC含量由大至小排序后，第i个区间的测序读长数目标准化后的深度的滑动中值。

4.根据权利要求3所述的方法，其特征在于，根据所述GC含量深度和所述区间长度对所述区间长度进行标准化处理，得到所述第一捕获区间参数的区间长度深度和所述第二捕获区间参数的区间长度深度，包括：

通过如下公式对所述区间长度进行标准化处理，得到所述第一捕获区间参数的区间长度深度和所述第二捕获区间参数的区间长度深度：

；

其中，

是第i个捕获区间的区间长度标准化以后的区间长度深度；

是第i个捕获区间GC含量标准化以后的深度；

是所有捕获区间按照区间长度由大至小排序以后，第i个区间的GC含量标准化后的深度的滑动中值。

5.根据权利要求1所述的方法，其特征在于，根据所述第一深度确定第一拷贝数变异得分，包括：

根据所述第一深度确定所述正常人群的第三拷贝数变异得分，其中，所述第三拷贝数变异得分用于表征所述正常人群基因数据在每个捕获区间内发生拷贝数变异的波动范围；

根据所述第三拷贝数变异得分确定所述第一拷贝数变异得分。

6.根据权利要求5所述的方法，其特征在于，根据所述第一深度确定所述正常人群的第三拷贝数变异得分，包括：

通过如下公式根据所述第一深度确定所述正常人群的第三拷贝数变异得分：

；

其中，

是所述正常人群单一样本第i个捕获区间的第三拷贝数变异得分；

是所述正常人群单一样本第i个捕获区间标准化以后的区间长度深度；

是所有正常人群在第i个捕获区间标准化后区间长度深度的均值；

是所有正常人群在第i个捕获区间标准化后区间长度深度的标准差。

7.根据权利要求6所述的方法，其特征在于，根据所述第三拷贝数变异得分确定所述第一拷贝数变异得分，包括：

通过如下公式根据所述第三拷贝数变异得分确定所述第一拷贝数变异得分：

；

其中，

是所述正常人群单一样本基因g的第一拷贝数变异得分，n是基因g具有的捕获区间的数量。

8.根据权利要求1所述的方法，其特征在于，根据所述第一深度和所述第二深度确定所述第二拷贝数变异得分，包括：

根据所述第一深度和所述第二深度确定所述待测目标的第四拷贝数变异得分，其中，所述第四拷贝数变异得分用于表征所述待测目标基因数据在每个捕获区间内发生拷贝数变异的波动范围；

根据所述第四拷贝数变异得分确定所述第二拷贝数变异得分。

9.根据权利要求8所述的方法，其特征在于，根据所述第一深度和所述第二深度确定所述待测目标的第四拷贝数变异得分，包括：

通过如下公式计算确定所述正常人群的第四拷贝数变异得分：

；

其中，

是待测目标第i个捕获区间的第四拷贝数变异得分；

是待测目标第i个捕获区间标准化以后的区间长度深度；

是所述正常人群在第i个捕获区间标准化后区间长度深度的均值；

是所述正常人群样本在第i个捕获区间标准化后区间长度深度的标准差。

10.根据权利要求9所述的方法，其特征在于，根据所述第四拷贝数变异得分确定所述第二拷贝数变异得分，包括：

通过如下公式根据所述第四拷贝数变异得分确定所述第二拷贝数变异得分：

；

其中，

是待测目标样本基因g的第二拷贝数变异得分，n是基因g具有的捕获区间的数量。

11.根据权利要求1所述的方法，其特征在于，根据所述第一拷贝数变异得分和所述第二拷贝数变异得分确定所述待测目标基因数据的拷贝数变异检测结果，包括：

判断所述第二拷贝数变异得分是否属于根据所述第一拷贝数变异得分确定的波动范围；

在判断结果为不属于的情况下，确定所述待测目标基因数据的拷贝数突变。

12.根据权利要求1所述的方法，其特征在于，分别通过正常人群基因数据和待测目标基因数据，确定所述正常人群测序结果和所述待测目标测序结果，包括：

分别将所述正常人群基因数据和所述待测目标基因数据与人类参考基因组数据进行比对，得到所述正常人群基因数据的第一比对结果和所述待测目标基因数据的第二比对结果；

分别对所述第一比对结果和所述第二比对结果进行排序和标记重复处理，得到所述正常人群测序结果和所述待测目标测序结果。

13.根据权利要求1所述的方法，其特征在于，在根据所述第一拷贝数变异得分和所述第二拷贝数变异得分确定所述待测目标基因数据的拷贝数变异检测结果之后，所述方法还包括：

根据所述第一拷贝数变异得分和所述第二拷贝数变异得分确定所述待测目标相对于所述正常人群的拷贝数比值；

根据所述拷贝数比值和所述正常人群基因数据在所述捕获区间中的拷贝数，确定所述待测目标基因数据在所述捕获区间中的拷贝数。

14.根据权利要求1至13中任一项所述的方法，其特征在于，在根据所述第一拷贝数变异得分和所述第二拷贝数变异得分确定所述待测目标基因数据的拷贝数变异检测结果之后，所述方法还包括：根据所述待测目标的第二深度，确定所述待测目标的性别参数。

15.一种拷贝数变异的检测装置，其特征在于，包括：

确定模块，用于分别通过正常人群基因数据和待测目标基因数据，确定正常人群测序结果和所述待测目标测序结果；

获取模块，用于获取第一捕获区间参数和第二捕获区间参数，其中，所述第一捕获区间参数用于表征所述正常人群测序结果在捕获区间上的参数，所述第二捕获区间参数用于表征所述待测目标测序结果在所述捕获区间上的参数；

标准化处理模块，用于分别对所述第一捕获区间参数和所述第二捕获区间参数进行标准化处理，得到第一捕获区间参数的第一深度和第二捕获区间参数的第二深度；

第一打分模块，用于根据所述第一深度确定第一拷贝数变异得分，其中，所述第一拷贝数变异得分用于表征所述正常人群基因数据发生拷贝数变异的波动范围；

第二打分模块，用于根据所述第一深度和所述第二深度确定第二拷贝数变异得分，其中，所述第二拷贝数变异得分用于表征所述待测目标基因数据发生拷贝数变异的波动情况；

检测模块，用于根据所述第一拷贝数变异得分和所述第二拷贝数变异得分确定所述待测目标基因数据的拷贝数变异检测结果；

其中，所述捕获区间参数包括：测序读长数目、GC含量和区间长度，其中，所述测序读长数目、所述GC含量和所述区间长度对应的深度分别为：覆盖度、GC含量深度和区间长度深度，其中，所述标准化处理模块还用于对每个捕获区间的测序读长数目进行标准化处理，得到所述第一捕获区间参数的覆盖度和所述第二捕获区间参数的覆盖度；根据所述覆盖度和所述GC含量对所述GC含量进行标准化处理，得到所述第一捕获区间参数的GC含量深度和所述第二捕获区间参数的GC含量深度；根据所述GC含量深度和所述区间长度对所述区间长度进行标准化处理，得到所述第一捕获区间参数的区间长度深度作为所述第一深度和所述第二捕获区间参数的区间长度深度作为所述第二深度。

16.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至14中任意一项所述的循环肿瘤DNA拷贝数变异的检测方法。

17.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至14中任意一项所述的循环肿瘤DNA拷贝数变异的检测方法。