CN106367512A

CN106367512A - 一种鉴定样本中肿瘤负荷的方法和系统

Info

Publication number: CN106367512A
Application number: CN201610842333.8A
Authority: CN
Inventors: 薄世平; 梁覃斯; 任军; 陆思嘉
Original assignee: Shanghai Xukang Medical Technology Co Ltd
Current assignee: Yikon Genomics Shanghai Co ltd
Priority date: 2016-09-22
Filing date: 2016-09-22
Publication date: 2017-02-01
Also published as: TW201814290A; TWI670495B; WO2018054254A1

Abstract

本发明提供了一种鉴定样本中肿瘤负荷的方法和系统，具体地，本发明提供了一种非诊断性地鉴定样本中肿瘤负荷的方法，包括步骤：(i)提供一待测样本；(ii)对所述待测样本进行测序，从而获得所述样本的基因组序列；(iii)将步骤(ii)获得的基因组序列与参考基因组进行比对，从而获得基因组序列在参考基因组上的位置信息；(iv)将所述的参考基因组分成M个区域片段，其中每个区域片段为一个窗口b，计算每个窗口b的拷贝数；(v)对步骤(iv)的每个窗口b进行Z检验，从而计算每个窗口b的Z值；和(vi)根据步骤(v)所得到的Z值，计算基因组混乱度(GAS)，基于基因组混乱度的数值鉴定所述待测样本中的肿瘤负荷。本发明的方法和系统可提高肿瘤检测的灵敏性和通用性。

Description

一种鉴定样本中肿瘤负荷的方法和系统

技术领域

本领域涉及生物技术领域，具体地，涉及一种鉴定样本中肿瘤负荷的方法和系统。

背景技术

在生物医学的科学研究及临床应用领域，肿瘤患者的肿瘤细胞经常有大量的基因组拷贝数变异。拷贝数变异可存在于肿瘤组织、体液(如血液、组织间隙液、淋巴液、脑脊液、尿液、唾液等)中，体液中具体存在于游离的循环肿瘤细胞(CTC)、细胞外游离DNA(cfDNA)、外泌体等。体液中基因组拷贝数变异的情况是鉴定肿瘤负荷的重要指标，鉴定肿瘤负荷可应用于肿瘤早期筛查、诊断，患者的病情监控、预后治疗等。

目前检测肿瘤基因组拷贝数变异的主要方法有：比较基因组杂交(comparativegenomic hybridization,CGH)，荧光定量PCR(realtime fluorescence quantitativePCR，RTFQ PCR)，荧光原位杂交(fluorescence in situ hybridization,FISH)，多重连接探针扩增技术(multiplex ligation-dependent probe amplification,MLPA)。

然而，比较基因组杂交分辨率比较低，Mb级，通量低，成本高；荧光定量PCR同样通量低，成本高，一次只能测一个拷贝数变异；荧光原位杂交，只针对特定位置，分辨率低，探针杂交效率不稳定；多重连接探针扩增技术，操作复杂，通量低，成本高，覆盖度小，易造成PCR污染。除上述技术上的缺陷，以上技术检测大部分只针对基因组上特定的区域，而肿瘤异质性很强，特定的一个或几个位点不能有效综合评价体液中肿瘤的负荷。

因此，本领域迫切需要开发一种能够更有效综合评价体液中肿瘤的负荷，提高肿瘤检测的灵敏性和通用性的方法和设备。

发明内容

本发明提供一种能够更有效综合评价体液中肿瘤的负荷，提高肿瘤检测的灵敏性和通用性的方法和设备。

本发明第一方面提供了一种非诊断性地鉴定样本中肿瘤负荷的方法，包括步骤：

(i)提供一待测样本；

(ii)对所述待测样本进行测序，从而获得所述样本的基因组序列；

(iii)将步骤(ii)获得的基因组序列与参考基因组进行比对，从而获得基因组序列在参考基因组上的位置信息；

(iv)将所述的参考基因组分成M个区域片段，其中每个区域片段为一个窗口b，计算每个窗口b的拷贝数；

(v)对步骤(iv)的每个窗口b进行Z检验，从而计算每个窗口b的Z值；和

(vi)根据步骤(v)所得到的Z值，计算基因组混乱度(GAS)，基于基因组混乱度的数值鉴定所述待测样本中的肿瘤负荷。

在另一优选例中，所述参考基因组可以是连续的，也可以是不连续的。

在另一优选例中，所述参考基因组包括全基因组。

在另一优选例中，所述参考基因组指该物种(如人)所有染色体的全长、单条或多条染色体的全长、单条或多条染色体的一部分、或其组合。

在另一优选例中，所述参考基因组的覆盖率达到全基因组的50％以上，较佳地，60％以上，更佳地，70％以上，更佳地，80％以上，最佳地，95％以上。

在另一优选例中，所述样本来自待检测个体。

在另一优选例中，所述待检测个体为人或非人哺乳动物。

在另一优选例中，所述样本为固体样本或液体样本。

在另一优选例中，所述样本包括体液样本。

在另一优选例中，所述样本选自下组：血液、血浆、组织间隙液、淋巴液、脑脊液、尿液、唾液、房水、精液、或其组合。

在另一优选例中，所述样本选自下组：游离的循环肿瘤细胞(CTC)、细胞外游离DNA(cfDNA)、外泌体、或其组合。

在另一优选例中，所述测序选自下组：单端测序、双端测序、或其组合。

在另一优选例中，所述步骤(iv)还包括校正每个窗口b的拷贝数，计算每个窗口b校正后的拷贝数的步骤。

在另一优选例中，所述校正方法选自下组：Loess校正、权重法、残差法、或其组合。

在另一优选例中，根据基因组序列在参考基因组上的位置信息，统计落到每个窗口b的序列数目、碱基分布、参考基因组的碱基分布。

在另一优选例中，根据每个窗口b的序列及碱基含量，校正每个窗口b的拷贝数。

在另一优选例中，用下述公式计算每个窗口b的Z值：

Z_{i} = \frac{x_{i} - μ_{i}}{σ_{i}};

其中，i为1至M的任意正整数；M为参考基因组分成的窗口的总数量，其中M为≥50的正整数，较佳地，50≤M≤10⁵，更佳地，100≤M≤10⁵，最佳地，200≤M≤10⁵；x_i为所述待测样本在第i个窗口b_i检测的拷贝数值；b_i为第i个窗口；μ_i为正常对照样本在窗口b_i的拷贝数的算术平均值，用如下公式计算：

μ_{i} = \frac{Σ_{j = 1}^{N} x_{j}}{N};

其中，j为1至N的任意正整数；N为正常对照样本的总数量，其中N为≥30的正整数，较佳地，30≤N≤10⁸，更佳地，50≤N≤10⁷，最佳地，100≤N≤10⁴；X_j指第j个正常对照样本在所述窗口b_i检测的拷贝数值；σ_i为正常对照样本在所述窗口b_i的拷贝数的标准差，用如下公式计算：

σ_{i} = \sqrt{\frac{1}{N} Σ_{j = 1}^{N} {(x_{j} - μ_{i})}^{2}};

式中，N、j、X_j和μ_i的定义如上。

在另一优选例中，所述正常对照样本指同一物种的正常人的同类样本。

在另一优选例中，用下述公式计算基因组混乱度：

G A S = Σ_{i = m_{b}}^{p_{b}} | Z_{i} |;

其中，m_b为排序在第m％的窗口，p_b为排序在第p％的窗口，m为30-98，较佳地，40-97，更佳地，60-96，最佳地，80-95，最佳地，95，p为80-100，较佳地，85-100，更佳地，90-100，最佳地，100，且p-m≥2(较佳地，≥5，更佳地，≥10，更佳地，≥15，最佳地，≥20)。

在另一优选例中，所述计算基因组混乱度之前，包括如下步骤：

(a)根据参考基因组序列特征去除基因组上着丝粒、端粒、随体、异染色质等高通量测序测不到的区域，去除基因组上着丝粒、端粒、随体、异染色质附近L长度的区域，L为小于3M的任何长度；或

(b)根据样本的拷贝数特征去除基因组上着丝粒、端粒、随体、异染色质等高通量测序测不到的区域。

在另一优选例中，所述步骤(v)之前还包括如下步骤：

(iv1)根据步骤(iv)的每个窗口b的拷贝数，计算正常对照样本中每个窗口b的变异系数CV_i；和

(iv2)将所述CV_i从小到大排序，去除最大的前n％的窗口，其中，n为大于0，小于等于5的任意数值，较佳地，n＝1、2、2.5、3、3.1、4、4.2或5。

在另一优选例中，所述变异系数CV_i用下述公式进行计算：

{CV}_{i} = \frac{σ_{i}}{μ_{i}};

其中，μ_i为正常对照样本拷贝数的算术平均值，用如下公式计算：

μ_{i} = \frac{Σ_{j = 1}^{N} x_{j}}{N};

σ_i为正常对照样本拷贝数的标准差，用如下公式计算：

σ_{i} = \sqrt{\frac{1}{N} Σ_{j = 1}^{N} {(x_{j} - μ_{i})}^{2}};

式中，N、j、X_j、μ_i和σ_i的定义如上。

本发明第二方面提供了一种用于鉴定样本中肿瘤负荷的系统(设备)，包括：

测序单元，所述测序单元用于对待测样本进行核酸测序，从而获得所述样本的基因组序列；

比对单元，所述比对单元与所述测序单元相连，用于将获得的所述样本的基因组序列与参考基因组进行比对，从而获得基因组序列在参考基因组上的位置信息；

计算与检验单元，所述计算与检验单元和所述比对单元相连，用于计算所述参考基因组的每个窗口b的拷贝数，并对每个窗口进行Z检验，从而计算每个窗口b的Z值；以及

鉴定单元，所述鉴定单元和所述计算与检验单元相连，用于根据所得到Z的值，计算基因组混乱度(GAS)，并基于基因组混乱度的数值鉴定样本中的肿瘤负荷。

在另一优选例中，所述系统还包括校正单元，所述校正单元和所述计算与检验单元相连，用于校正所述参考基因组的每个窗口b的拷贝数，从而计算每个窗口b校正后的拷贝数。

在另一优选例中，在所述计算与检验单元中，在对每个窗口b进行Z检验前，可根据每个窗口b的拷贝数，计算每个窗口b的变异系数CV_i，并将所述CV_i从小到大排序，去除最大的前n％的窗口，其中，n为大于0，小于等于5的任意数值，较佳地，n＝1、2、2.5、3、3.1、4、4.2或5。

应理解，在本发明范围内中，本发明的上述各技术特征和在下文(如实施例)中具体描述的各技术特征之间都可以互相组合，从而构成新的或优选的技术方案。限于篇幅，在此不再一一累述。

附图说明

图1显示了体液中鉴定肿瘤负荷的分析方法流程图。

图2显示了患者不同临床用药周期的肿瘤负荷检测结果。

图3显示了S1-7全基因组拷贝数变异及对应的GAS。

具体实施方式

本发明人通过广泛而深入的研究，首次建立了一种有效且可提高肿瘤检测的灵敏性和通用性的鉴定样本中肿瘤负荷的方法，具体地，通过计算基因组混乱度(GAS)，从而基于基因组混乱度的数值鉴定样本中的肿瘤负荷。

此外，本发明还提供了一种鉴定样本中肿瘤负荷的系统(设备)，所述系统(设备)包括：测序单元；比对单元；计算与检验单元和鉴定单元。在本发明的一个优选例中，还包括校正单元。在此基础上，本发明人完成了本发明。

术语

如本文所用，术语“拷贝数变异(Copy Number Variations，CNV)”是指样本基因组染色体或染色体片段拷贝数异常，包括但不限于染色体非整倍体、缺失、重复，大于1000bp碱基的微缺失、微重复。

如本文所用，术语“基因组混乱度值(Genomic Abnormality Score，GAS)”是根据样本基因组染色体或染色体片段拷贝数异常计算得到的分值，分值检测范围包括但不限于全基因组、特定的染色体、染色体片段、特定基因。

如本文所用，术语“Z值(Z-score)”也叫标准分值(standard score),是一个数值与平均数的差再除以标准差的过程。用公式表示为：

Z score＝(x-μ)/σ

其中x为某一具体数值，μ为算术平均值，σ为标准差；Z值代表着原始数值和参考平均值之间的距离，是以标准差为单位计算。

如本文所用，术语“部分缓解(PR,partial response)”指靶病灶最大径之和减少≥30％，至少维持4周。

如本文所用，术语“疾病进展(PD,progressive disease)”指靶病灶最大径之和至少增加≥20％，或出现新病灶。

如本文所用，术语“系统”、“设备”为相同含义。

参考基因组

在本发明中，以人为例，所述参考基因组可以是全基因组，也可以是部分基因组。并且，所述参考基因组可以是连续的，也可以是不连续的。当所述参考基因组为部分基因组时，所述参考基因组的总覆盖率(F)为全基因组的50％以上，较佳地，较佳地，60％以上，更佳地，70％以上，更佳地，80％以上，最佳地，95％以上，其中，所述总覆盖率(F)指参考基因组占全基因组的百分比。

在一优选实施方式中，所述参考基因组为全基因组。

在一优选实施方式中，所述参考基因组为该物种(如人)所有染色体的全长、单条或多条染色体的全长、单条或多条染色体的一部分、或其组合。

肿瘤负荷

在本发明中，所述“肿瘤负荷”指肿瘤对机体的危害程度，比如肿瘤的大小，肿瘤的活跃程度，肿瘤的转移情况，不同部位的肿瘤对机体的危险程度。一些评价肿瘤负荷的指标包括(但不限于)：肿瘤大小、肿瘤标记物高低、临床症状(喘憋、疼痛等等)、相关并发症(上腔静脉综合征等)、消耗情况(贫血、低蛋白血症等)。

测序

在本发明中，可用常规的测序技术和平台进行测序。测序平台不受特别限制，其中第二代测序平台包括(但不限于)：Illumina公司的GA、GAII、GAIIx、HiSeq1000/2000/2500/3000/4000、X Ten、X Five、NextSeq500/550、MiSeq、MiSeqDx、MiSeq FGx、MiniSeq；AppliedBiosystems的SOLiD；Roche的454FLX；Thermo Fisher Scientific(Life Technologies)的Ion Torrent、Ion PGM、Ion Proton I/II；华大基因的BGISEQ1000、BGISEQ500、BGISEQ100；博奥生物集团的BioelectronSeq 4000；中山大学达安基因股份有限公司的DA8600；贝瑞和康的NextSeq CN500；紫鑫药业旗下子公司中科紫鑫的BIGIS；华因康基因HYK-PSTAR-IIA。

第三代单分子测序平台包括(但不限于)：Helicos BioSciences公司的HeliScope系统，Pacific Bioscience的SMRT系统，Oxford Nanopore Technologies的GridION、MinION。测序类型可为单端(Single End)测序或双端(Paired End)测序，测序长度可为30bp、40bp、50bp、100bp、300bp等大于30bp的任意长度，测序深度可为基因组的0.01、0.02、0.1、1、5、10、30倍等大于0.01的任意倍数。

在本发明中，优选Illumina公司的HiSeq2500高通量测序平台，测序类型为单端(Single End)测序，测序长度41bp，测序数据量为5M。

数据处理

在本发明中，数据处理通常包括以下步骤：

(a)对待测样本的基因组进行核酸提取、测序，以获得基因组序列；

(b)将所述样本的基因组序列比对到参考基因组，得到序列在参考基因组上的位置；

(c)将参考基因组分成一定长度的窗口，计算每个窗口b的拷贝数；

(d)对每个窗口b进行Z检验，计算每个窗口的Z值；和

(e)计算基因组混乱度(GAS)。

其中，在步骤(a)中，具体还包括：所述待测样本的类型为体液，体液可以是血液、组织间隙液(简称组织液或细胞间液)、淋巴液、脑脊液、尿液、唾液，检测目标为体液中含有的DNA，DNA具体存在于游离的循环肿瘤细胞(CTC)、细胞外游离DNA(cfDNA)、外泌体等。所述待测样本DNA的提取方式包括(但不限于)：柱式提取、磁珠提取。对样本进行文库构建，采用高通量测序平台，对样本进行测序。

其中，在步骤(b)中，具体还包括：将测序结果去掉接头及低质量数据，比对到参考基因组。参考基因组可为全基因组、任意染色体、染色体的一部分。参考基因组通常选择已被公认确定的序列，如人的基因组可为NCBI或UCSC的hg18(GRCh18)、hg19(GRCh19)、hg38(GRCh38)，或任意一条染色体及染色体的一部分。比对软件可用任何一种免费或商业软件，如BWA(Burrows-Wheeler Alignment tool)、SOAPaligner/soap2(Short OligonucleotideAnalysis Package)、Bowtie/Bowtie2。将序列比对到参考基因组，得到序列在基因组上的位置。可以选择在基因组上唯一比对的序列，去除基因组上多处比对的序列，消除重复序列对拷贝数计算带来的误差。

其中，在步骤(c)中，具体还包括：将基因组分成一定长度的窗口，根据测的数据量，窗口长度也可以为100bp-3,000,000bp(3M)范围内相同或不同的整数。窗口的数量可以是1,000-30,000,000范围内的任意整数。根据测的序列在基因组上的位置，统计落到每个窗口的序列数目、碱基分布、参考基因组的碱基分布。根据每个窗口的序列及碱基GC含量，校正每个窗口的拷贝数，校正方法包括但不限于Loess校正，计算每个窗口校正后的拷贝数。

其中，在步骤(d)中，具体还包括：取N(N为不少于30的自然数)个正常人的样本，同样的提取、建库、测序条件，重复上述步骤(a)-(c)，作为参考数据集。对于每个窗口b_i，都对应N个正常拷贝数值。

计算正常对照样本拷贝数的算术平均值μ_i，算术平均值μ_i计算公式为：

μ_{i} = \frac{Σ_{j = 1}^{N} x_{j}}{N};

计算正常对照样本拷贝数的标准差σ_i，标准差的计算公式为：

σ_{i} = \sqrt{\frac{1}{N} Σ_{j = 1}^{N} {(x_{j} - μ_{i})}^{2}};

X₁,X₂,X₃,......X_j为正常样本的拷贝数值。

计算待检测样本每个窗口b_i的Z值，Z值的计算公式为：

Z_{i} = \frac{x_{i} - μ_{i}}{σ_{i}};

x_i为窗口b_i检测的拷贝数值。

其中，在步骤(e)中，具体还包括：在整个基因组、某条染色体、染色体片段或基因周围存在高重复区域，如近着丝粒、端粒、随体、异染色质等区域。首先去除高重复区域，以消除对混乱度计算的影响。

在一优选实施方式中，去除的方法包括(但不限于)：

a.根据参考基因组序列特征去除

去除基因组上着丝粒、端粒、随体、异染色质等高通量测序测不到的区域，去除基因组上着丝粒、端粒、随体、异染色质附近L长度的区域，L可以为小于3M的任何长度；或

b.根据正常样本的拷贝数特征去除

对于每个窗口bi，计算正常对照样本在这个窗口的变异系数CV_i(Coefficient ofVariation)，CV_i计算公式为：

{CV}_{i} = \frac{σ_{i}}{μ_{i}};

μ_i为正常对照样本拷贝数的算术平均值，σ_i为正常对照样本拷贝数的标准差。

CV从小到大排序，去除最大的前n％的窗口，n可以为大于0，小于等于5的任意数值。

其中，在步骤(e)中，具体还包括基因组混乱度(GAS)的计算方式：

首先确定混乱度的检测范围，检测范围包括但不限于整个基因组、特定染色体、特定染色体片段或特定的基因等1M到基因组长度(如人的基因组约3G)范围内的任意值。在混乱度检测范围内，去除重复序列影响的窗口的Z值取绝对值，Z值绝对值从小到大排序，并将排好序的Z值绝对值平均分配到0％-100％范围内，其中Z值绝对值最小值被分配至0％，Z值绝对值的最大值被分配给100％。计算对应于第m％到第p％范围内的各窗口Z值绝对值的累计值，其中，m为30-98，较佳地，40-97，更佳地，60-96，最佳地，80-95，最佳地，95；p为80-100，较佳地，85-100，更佳地，90-100，最佳地，100，且p-m≥2(较佳地≥5，更佳地≥10，更佳地≥15，最佳地≥20)，所述的累计值即为基因组混乱度(GAS)，计算公式为：

G A S = Σ_{i = m_{b}}^{p_{b}} | Z_{i} |;

m_b为排序在第m％的窗口，p_b为排序在第p％的窗口。用GAS的值鉴定体液中肿瘤负荷。

鉴定样本中肿瘤负荷的方法

在本发明中，提供了一种有效且可提高肿瘤检测的灵敏性和通用性的鉴定样本中肿瘤负荷的方法，包括步骤：

(i)提供一待测样本；

在本发明的一个优选例中，所述方法包括步骤：

(a)对样本基因组进行核酸提取、测序，以获得基因组序列；

(b)将序列比对到参考基因组，得到序列在基因组上的位置；

(c)将参考基因组分成一定长度的窗口b，计算每个窗口b的拷贝数；以及

(d)对每个窗口b进行Z检验，计算每个窗口b的Z值；计算基因组混乱度(GAS)，从而基于基因组混乱度的数值鉴定样本中的肿瘤负荷。

鉴定样本中肿瘤负荷的系统(设备)

在本发明中，还提供了一种鉴定样本中肿瘤负荷的系统(设备)，包括：

在一优选实施方式中，所述系统还包括校正单元，所述校正单元和所述计算与检验单元相连，用于校正所述参考基因组的每个窗口b的拷贝数，从而计算每个窗口b校正后的拷贝数。

本发明的主要优点包括：

(1)本发明首次建立一种鉴定样本中肿瘤负荷的方法和系统，本发明的方法和系统可准确、有效的鉴定样本中肿瘤负荷。

(2)本发明的方法和系统可提高肿瘤检测的灵敏性和通用性。

(3)本发明的方法和系统可减少肿瘤患者检测时取样带来的痛苦，实现无创检测。

(4)本发明的方法和系统可有效的检测某些常规检测无法取样的患者；

(5)本发明的方法和系统可对肿瘤患者实时检测，监测用药疗效，对医生用药、治疗做出一定的指导。

下面结合具体实施例，进一步陈述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。下列实施例中未注明详细条件的实验方法，通常按照常规条件如Sambrook等人，分子克隆：实验室手册(New York:Cold Spring Harbor LaboratoryPress,1989)中所述的条件，或按照制造厂商所建议的条件。除非另外说明，否则百分比和份数按重量计算。

除非有特别说明，否则实施例所用的材料均为市售产品。

实施例1

本发明已经应用到15个例子，并取得良好的效果。为了使本发明的用法和效果更加易于理解和掌握，下面将举一个实例进行进一步的阐述。实施的简要流程图如图1所示，详细实施过程如下：

1.对样本基因组进行核酸提取、测序

在本实施例中，检测样本来源为某胃癌患者血液，提取血液中游离DNA(cfDNA)及白细胞。核酸提取采用康为世纪生物科技有限公司的CW2603核酸提取试剂盒，提取方法按照康为世纪生物科技有限公司提供的产品说明书操作。

采用康为世纪生物科技有限公司的CW2185建库试剂盒进行文库构建，上机测序。上机测序采用Illumina公司的HiSeq2500高通量测序平台，按照Illumina公司提供的说明书操作。测序类型为单端(Single End)测序，测序长度41bp，测序数据量为5M。

2.将序列比对到参考基因组，得到序列在基因组上的位置

将测序结果去掉接头及低质量数据，比对到参考基因组。参考基因组为人的基因组UCSC的hg19(GRCh19)，比对软件为BWA(Burrows-Wheeler Alignment tool)，采用默认参数，将序列比对到参考基因组，得到序列在基因组上的位置，选择在基因组上唯一比对的序列。

3.将参考基因组分成一定长度的窗口，计算每个窗口的拷贝数

将基因组分成15489个窗口b(区域)，每个窗口b长度为200K，根据序列在基因组上的位置，统计落到每个窗口b的序列数目、碱基分布、参考基因组的碱基分布。根据每个窗口b的序列及碱基GC含量，校正每个窗口b的拷贝数，校正方法为Loess，计算每个窗口b校正后的拷贝数。

4.计算每个窗口的CV值

取100个正常人的样本，同样的提取、建库、测序条件，重复上述1、2、3步骤，获得正常对照样本数据，作为参考数据集，计算待检测样本每个窗口b_i的CV值。

对于每个窗口b_i，都对应N(本实施例N＝100)个正常拷贝数值。

μ_{i} = \frac{Σ_{j = 1}^{N} x_{j}}{N};

σ_{i} = \sqrt{\frac{1}{N} Σ_{j = 1}^{N} {(x_{j} - μ_{i})}^{2}};

X₁,X₂,X₃,......X_j为正常样本的拷贝数值。

计算待检测样本每个窗口b_i的CV值，CV值的计算公式为：

{CV}_{i} = \frac{σ_{i}}{μ_{i}} .

5.对每个窗口进行Z检验，计算每个窗口的Z值

计算待检测样本每个窗口b_i的Z值，Z值的计算公式为：

Z_{i} = \frac{x_{i} - μ_{i}}{σ_{i}};

x_i为窗口b_i检测的拷贝数值，μ_i为正常对照样本拷贝数的算术平均值，σ_i为正常对照样本拷贝数的标准差，计算公式同步骤4。

6.计算基因组混乱度(GAS)

在本实施例中，每个窗口CV从小到大排序，去除最大的前5％的窗口，不参与以下混乱度计算。混乱度的检测范围为整个基因组；Z值取绝对值，并从小到大排序，计算第m％到第p％窗口Z值绝对值的累计值，其累计值即为基因组混乱度(GAS)。计算公式为：

G A S = Σ_{i = m_{b}}^{p_{b}} | Z_{i} |;

m_b为排序在第m％的窗口，p_b为排序在第p％的窗口，其中，m为95，p为100。用GAS的值鉴定体液中肿瘤负荷。

7.检测结果

对十几个样本进行检测。一个典型病理的情况如下所示。

检测结果如表1、图2和图3所示。

表1 实施例1对某胃癌患者的临床用药效果做肿瘤负荷检测结果

结果显示，患者临床用药前，确诊为胃癌，此时cfDNA拷贝数严重异常(图3 S1)，全基因组混乱度为999.84，血液中肿瘤负荷较严重。

伴随着用药，到第四周期cfDNA拷贝数正常，全基因组混乱度为728.80，和正常白细胞729.86接近。

用本实施例相同的方法，计算上述100例正常人的全基因组混乱度，正常范围为722.87-739.89，算数平均值733.22，本实施例第四用药周期及白细胞的全基因组混乱度值在正常范围内，说明血液中肿瘤负荷很小，与其临床评效结果PR(部分缓解)是对应的。

伴随进一步用药，肿瘤产生抗药性，cfDNA拷贝数异常情况又变严重，全基因组混乱度分值变大，血液中肿瘤负荷变严重，到用药第七周期，全基因组混乱度最高，与其临床评效结果PD(疾病进展)是对应的。

结果表明，基因组混乱度可有效鉴定体液中的肿瘤负荷。

在本发明提及的所有文献都在本申请中引用作为参考，就如同每一篇文献被单独引用作为参考那样。此外应理解，在阅读了本发明的上述讲授内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

Claims

1.一种非诊断性地鉴定样本中肿瘤负荷的方法，其特征在于，包括步骤：

(i)提供一待测样本；

2.如权利要求1所述的方法，其特征在于，所述参考基因组包括全基因组。

3.如权利要求1或2所述的方法，其特征在于，所述参考基因组的覆盖率达到全基因组的50％以上，较佳地，60％以上，更佳地，70％以上，更佳地，80％以上，最佳地，95％以上。

4.如权利要求1所述的方法，其特征在于，所述样本选自下组：血液、血浆、组织间隙液、淋巴液、脑脊液、尿液、唾液、房水、精液、或其组合。

5.如权利要求1所述的方法，其特征在于，所述步骤(iv)还包括校正每个窗口b的拷贝数，计算每个窗口b校正后的拷贝数的步骤。

6.如权利要求1所述的方法，其特征在于，用下述公式计算每个窗口b的Z值：

Z_{i} = \frac{x_{i} - μ_{i}}{σ_{i}};

μ_{i} = \frac{Σ_{j = 1}^{N} x_{j}}{N};

σ_{i} = \sqrt{\frac{1}{N} Σ_{j = 1}^{N} {(x_{j} - μ_{i})}^{2}};

式中，N、j、X_j和μ_i的定义如上。

7.如权利要求1所述的方法，其特征在于，用下述公式计算基因组混乱度：

G A S = Σ_{i = m_{b}}^{p_{b}} | Z_{i} |;

8.如权利要求1所述的方法，其特征在于，所述步骤(v)之前还包括如下步骤：

(iv1)根据步骤(iv)的每个窗口b的拷贝数，计算正常对照样本中每个窗口b的变异系数CV_i；

9.如权利要求8所述的方法，其特征在于，所述变异系数CV_i用下述公式进行计算：

{CV}_{i} = \frac{σ_{i}}{μ_{i}};

μ_{i} = \frac{Σ_{j = 1}^{N} x_{j}}{N};

σ_i为正常对照样本拷贝数的标准差，用如下公式计算：

σ_{i} = \sqrt{\frac{1}{N} Σ_{j = 1}^{N} {(x_{j} - μ_{i})}^{2}};

式中，N、j、X_j、μ_i和σ_i的定义如上。

10.一种用于鉴定样本中肿瘤负荷的系统，其特征在于，包括：