[go: up one dir, main page]

CN106367512A - 一种鉴定样本中肿瘤负荷的方法和系统 - Google Patents

一种鉴定样本中肿瘤负荷的方法和系统 Download PDF

Info

Publication number
CN106367512A
CN106367512A CN201610842333.8A CN201610842333A CN106367512A CN 106367512 A CN106367512 A CN 106367512A CN 201610842333 A CN201610842333 A CN 201610842333A CN 106367512 A CN106367512 A CN 106367512A
Authority
CN
China
Prior art keywords
window
genome
sample
copy number
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610842333.8A
Other languages
English (en)
Inventor
薄世平
梁覃斯
任军
陆思嘉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yikon Genomics Shanghai Co ltd
Original Assignee
Shanghai Xukang Medical Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Xukang Medical Technology Co Ltd filed Critical Shanghai Xukang Medical Technology Co Ltd
Priority to CN201610842333.8A priority Critical patent/CN106367512A/zh
Publication of CN106367512A publication Critical patent/CN106367512A/zh
Priority to PCT/CN2017/101573 priority patent/WO2018054254A1/zh
Priority to TW106131581A priority patent/TWI670495B/zh
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Biotechnology (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Evolutionary Biology (AREA)
  • Biochemistry (AREA)
  • Genetics & Genomics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了一种鉴定样本中肿瘤负荷的方法和系统,具体地,本发明提供了一种非诊断性地鉴定样本中肿瘤负荷的方法,包括步骤:(i)提供一待测样本;(ii)对所述待测样本进行测序,从而获得所述样本的基因组序列;(iii)将步骤(ii)获得的基因组序列与参考基因组进行比对,从而获得基因组序列在参考基因组上的位置信息;(iv)将所述的参考基因组分成M个区域片段,其中每个区域片段为一个窗口b,计算每个窗口b的拷贝数;(v)对步骤(iv)的每个窗口b进行Z检验,从而计算每个窗口b的Z值;和(vi)根据步骤(v)所得到的Z值,计算基因组混乱度(GAS),基于基因组混乱度的数值鉴定所述待测样本中的肿瘤负荷。本发明的方法和系统可提高肿瘤检测的灵敏性和通用性。

Description

一种鉴定样本中肿瘤负荷的方法和系统
技术领域
本领域涉及生物技术领域,具体地,涉及一种鉴定样本中肿瘤负荷的方法和系统。
背景技术
在生物医学的科学研究及临床应用领域,肿瘤患者的肿瘤细胞经常有大量的基因组拷贝数变异。拷贝数变异可存在于肿瘤组织、体液(如血液、组织间隙液、淋巴液、脑脊液、尿液、唾液等)中,体液中具体存在于游离的循环肿瘤细胞(CTC)、细胞外游离DNA(cfDNA)、外泌体等。体液中基因组拷贝数变异的情况是鉴定肿瘤负荷的重要指标,鉴定肿瘤负荷可应用于肿瘤早期筛查、诊断,患者的病情监控、预后治疗等。
目前检测肿瘤基因组拷贝数变异的主要方法有:比较基因组杂交(comparativegenomic hybridization,CGH),荧光定量PCR(realtime fluorescence quantitativePCR,RTFQ PCR),荧光原位杂交(fluorescence in situ hybridization,FISH),多重连接探针扩增技术(multiplex ligation-dependent probe amplification,MLPA)。
然而,比较基因组杂交分辨率比较低,Mb级,通量低,成本高;荧光定量PCR同样通量低,成本高,一次只能测一个拷贝数变异;荧光原位杂交,只针对特定位置,分辨率低,探针杂交效率不稳定;多重连接探针扩增技术,操作复杂,通量低,成本高,覆盖度小,易造成PCR污染。除上述技术上的缺陷,以上技术检测大部分只针对基因组上特定的区域,而肿瘤异质性很强,特定的一个或几个位点不能有效综合评价体液中肿瘤的负荷。
因此,本领域迫切需要开发一种能够更有效综合评价体液中肿瘤的负荷,提高肿瘤检测的灵敏性和通用性的方法和设备。
发明内容
本发明提供一种能够更有效综合评价体液中肿瘤的负荷,提高肿瘤检测的灵敏性和通用性的方法和设备。
本发明第一方面提供了一种非诊断性地鉴定样本中肿瘤负荷的方法,包括步骤:
(i)提供一待测样本;
(ii)对所述待测样本进行测序,从而获得所述样本的基因组序列;
(iii)将步骤(ii)获得的基因组序列与参考基因组进行比对,从而获得基因组序列在参考基因组上的位置信息;
(iv)将所述的参考基因组分成M个区域片段,其中每个区域片段为一个窗口b,计算每个窗口b的拷贝数;
(v)对步骤(iv)的每个窗口b进行Z检验,从而计算每个窗口b的Z值;和
(vi)根据步骤(v)所得到的Z值,计算基因组混乱度(GAS),基于基因组混乱度的数值鉴定所述待测样本中的肿瘤负荷。
在另一优选例中,所述参考基因组可以是连续的,也可以是不连续的。
在另一优选例中,所述参考基因组包括全基因组。
在另一优选例中,所述参考基因组指该物种(如人)所有染色体的全长、单条或多条染色体的全长、单条或多条染色体的一部分、或其组合。
在另一优选例中,所述参考基因组的覆盖率达到全基因组的50%以上,较佳地,60%以上,更佳地,70%以上,更佳地,80%以上,最佳地,95%以上。
在另一优选例中,所述样本来自待检测个体。
在另一优选例中,所述待检测个体为人或非人哺乳动物。
在另一优选例中,所述样本为固体样本或液体样本。
在另一优选例中,所述样本包括体液样本。
在另一优选例中,所述样本选自下组:血液、血浆、组织间隙液、淋巴液、脑脊液、尿液、唾液、房水、精液、或其组合。
在另一优选例中,所述样本选自下组:游离的循环肿瘤细胞(CTC)、细胞外游离DNA(cfDNA)、外泌体、或其组合。
在另一优选例中,所述测序选自下组:单端测序、双端测序、或其组合。
在另一优选例中,所述步骤(iv)还包括校正每个窗口b的拷贝数,计算每个窗口b校正后的拷贝数的步骤。
在另一优选例中,所述校正方法选自下组:Loess校正、权重法、残差法、或其组合。
在另一优选例中,根据基因组序列在参考基因组上的位置信息,统计落到每个窗口b的序列数目、碱基分布、参考基因组的碱基分布。
在另一优选例中,根据每个窗口b的序列及碱基含量,校正每个窗口b的拷贝数。
在另一优选例中,用下述公式计算每个窗口b的Z值:
Z i = x i - μ i σ i ;
其中,i为1至M的任意正整数;M为参考基因组分成的窗口的总数量,其中M为≥50的正整数,较佳地,50≤M≤105,更佳地,100≤M≤105,最佳地,200≤M≤105;xi为所述待测样本在第i个窗口bi检测的拷贝数值;bi为第i个窗口;μi为正常对照样本在窗口bi的拷贝数的算术平均值,用如下公式计算:
μ i = Σ j = 1 N x j N ;
其中,j为1至N的任意正整数;N为正常对照样本的总数量,其中N为≥30的正整数,较佳地,30≤N≤108,更佳地,50≤N≤107,最佳地,100≤N≤104;Xj指第j个正常对照样本在所述窗口bi检测的拷贝数值;σi为正常对照样本在所述窗口bi的拷贝数的标准差,用如下公式计算:
σ i = 1 N Σ j = 1 N ( x j - μ i ) 2 ;
式中,N、j、Xj和μi的定义如上。
在另一优选例中,所述正常对照样本指同一物种的正常人的同类样本。
在另一优选例中,用下述公式计算基因组混乱度:
G A S = Σ i = m b p b | Z i | ;
其中,mb为排序在第m%的窗口,pb为排序在第p%的窗口,m为30-98,较佳地,40-97,更佳地,60-96,最佳地,80-95,最佳地,95,p为80-100,较佳地,85-100,更佳地,90-100,最佳地,100,且p-m≥2(较佳地,≥5,更佳地,≥10,更佳地,≥15,最佳地,≥20)。
在另一优选例中,所述计算基因组混乱度之前,包括如下步骤:
(a)根据参考基因组序列特征去除基因组上着丝粒、端粒、随体、异染色质等高通量测序测不到的区域,去除基因组上着丝粒、端粒、随体、异染色质附近L长度的区域,L为小于3M的任何长度;或
(b)根据样本的拷贝数特征去除基因组上着丝粒、端粒、随体、异染色质等高通量测序测不到的区域。
在另一优选例中,所述步骤(v)之前还包括如下步骤:
(iv1)根据步骤(iv)的每个窗口b的拷贝数,计算正常对照样本中每个窗口b的变异系数CVi;和
(iv2)将所述CVi从小到大排序,去除最大的前n%的窗口,其中,n为大于0,小于等于5的任意数值,较佳地,n=1、2、2.5、3、3.1、4、4.2或5。
在另一优选例中,所述变异系数CVi用下述公式进行计算:
CV i = σ i μ i ;
其中,μi为正常对照样本拷贝数的算术平均值,用如下公式计算:
μ i = Σ j = 1 N x j N ;
σi为正常对照样本拷贝数的标准差,用如下公式计算:
σ i = 1 N Σ j = 1 N ( x j - μ i ) 2 ;
式中,N、j、Xj、μi和σi的定义如上。
本发明第二方面提供了一种用于鉴定样本中肿瘤负荷的系统(设备),包括:
测序单元,所述测序单元用于对待测样本进行核酸测序,从而获得所述样本的基因组序列;
比对单元,所述比对单元与所述测序单元相连,用于将获得的所述样本的基因组序列与参考基因组进行比对,从而获得基因组序列在参考基因组上的位置信息;
计算与检验单元,所述计算与检验单元和所述比对单元相连,用于计算所述参考基因组的每个窗口b的拷贝数,并对每个窗口进行Z检验,从而计算每个窗口b的Z值;以及
鉴定单元,所述鉴定单元和所述计算与检验单元相连,用于根据所得到Z的值,计算基因组混乱度(GAS),并基于基因组混乱度的数值鉴定样本中的肿瘤负荷。
在另一优选例中,所述系统还包括校正单元,所述校正单元和所述计算与检验单元相连,用于校正所述参考基因组的每个窗口b的拷贝数,从而计算每个窗口b校正后的拷贝数。
在另一优选例中,在所述计算与检验单元中,在对每个窗口b进行Z检验前,可根据每个窗口b的拷贝数,计算每个窗口b的变异系数CVi,并将所述CVi从小到大排序,去除最大的前n%的窗口,其中,n为大于0,小于等于5的任意数值,较佳地,n=1、2、2.5、3、3.1、4、4.2或5。
应理解,在本发明范围内中,本发明的上述各技术特征和在下文(如实施例)中具体描述的各技术特征之间都可以互相组合,从而构成新的或优选的技术方案。限于篇幅,在此不再一一累述。
附图说明
图1显示了体液中鉴定肿瘤负荷的分析方法流程图。
图2显示了患者不同临床用药周期的肿瘤负荷检测结果。
图3显示了S1-7全基因组拷贝数变异及对应的GAS。
具体实施方式
本发明人通过广泛而深入的研究,首次建立了一种有效且可提高肿瘤检测的灵敏性和通用性的鉴定样本中肿瘤负荷的方法,具体地,通过计算基因组混乱度(GAS),从而基于基因组混乱度的数值鉴定样本中的肿瘤负荷。
此外,本发明还提供了一种鉴定样本中肿瘤负荷的系统(设备),所述系统(设备)包括:测序单元;比对单元;计算与检验单元和鉴定单元。在本发明的一个优选例中,还包括校正单元。在此基础上,本发明人完成了本发明。
术语
如本文所用,术语“拷贝数变异(Copy Number Variations,CNV)”是指样本基因组染色体或染色体片段拷贝数异常,包括但不限于染色体非整倍体、缺失、重复,大于1000bp碱基的微缺失、微重复。
如本文所用,术语“基因组混乱度值(Genomic Abnormality Score,GAS)”是根据样本基因组染色体或染色体片段拷贝数异常计算得到的分值,分值检测范围包括但不限于全基因组、特定的染色体、染色体片段、特定基因。
如本文所用,术语“Z值(Z-score)”也叫标准分值(standard score),是一个数值与平均数的差再除以标准差的过程。用公式表示为:
Z score=(x-μ)/σ
其中x为某一具体数值,μ为算术平均值,σ为标准差;Z值代表着原始数值和参考平均值之间的距离,是以标准差为单位计算。
如本文所用,术语“部分缓解(PR,partial response)”指靶病灶最大径之和减少≥30%,至少维持4周。
如本文所用,术语“疾病进展(PD,progressive disease)”指靶病灶最大径之和至少增加≥20%,或出现新病灶。
如本文所用,术语“系统”、“设备”为相同含义。
参考基因组
在本发明中,以人为例,所述参考基因组可以是全基因组,也可以是部分基因组。并且,所述参考基因组可以是连续的,也可以是不连续的。当所述参考基因组为部分基因组时,所述参考基因组的总覆盖率(F)为全基因组的50%以上,较佳地,较佳地,60%以上,更佳地,70%以上,更佳地,80%以上,最佳地,95%以上,其中,所述总覆盖率(F)指参考基因组占全基因组的百分比。
在一优选实施方式中,所述参考基因组为全基因组。
在一优选实施方式中,所述参考基因组为该物种(如人)所有染色体的全长、单条或多条染色体的全长、单条或多条染色体的一部分、或其组合。
肿瘤负荷
在本发明中,所述“肿瘤负荷”指肿瘤对机体的危害程度,比如肿瘤的大小,肿瘤的活跃程度,肿瘤的转移情况,不同部位的肿瘤对机体的危险程度。一些评价肿瘤负荷的指标包括(但不限于):肿瘤大小、肿瘤标记物高低、临床症状(喘憋、疼痛等等)、相关并发症(上腔静脉综合征等)、消耗情况(贫血、低蛋白血症等)。
测序
在本发明中,可用常规的测序技术和平台进行测序。测序平台不受特别限制,其中第二代测序平台包括(但不限于):Illumina公司的GA、GAII、GAIIx、HiSeq1000/2000/2500/3000/4000、X Ten、X Five、NextSeq500/550、MiSeq、MiSeqDx、MiSeq FGx、MiniSeq;AppliedBiosystems的SOLiD;Roche的454FLX;Thermo Fisher Scientific(Life Technologies)的Ion Torrent、Ion PGM、Ion Proton I/II;华大基因的BGISEQ1000、BGISEQ500、BGISEQ100;博奥生物集团的BioelectronSeq 4000;中山大学达安基因股份有限公司的DA8600;贝瑞和康的NextSeq CN500;紫鑫药业旗下子公司中科紫鑫的BIGIS;华因康基因HYK-PSTAR-IIA。
第三代单分子测序平台包括(但不限于):Helicos BioSciences公司的HeliScope系统,Pacific Bioscience的SMRT系统,Oxford Nanopore Technologies的GridION、MinION。测序类型可为单端(Single End)测序或双端(Paired End)测序,测序长度可为30bp、40bp、50bp、100bp、300bp等大于30bp的任意长度,测序深度可为基因组的0.01、0.02、0.1、1、5、10、30倍等大于0.01的任意倍数。
在本发明中,优选Illumina公司的HiSeq2500高通量测序平台,测序类型为单端(Single End)测序,测序长度41bp,测序数据量为5M。
数据处理
在本发明中,数据处理通常包括以下步骤:
(a)对待测样本的基因组进行核酸提取、测序,以获得基因组序列;
(b)将所述样本的基因组序列比对到参考基因组,得到序列在参考基因组上的位置;
(c)将参考基因组分成一定长度的窗口,计算每个窗口b的拷贝数;
(d)对每个窗口b进行Z检验,计算每个窗口的Z值;和
(e)计算基因组混乱度(GAS)。
其中,在步骤(a)中,具体还包括:所述待测样本的类型为体液,体液可以是血液、组织间隙液(简称组织液或细胞间液)、淋巴液、脑脊液、尿液、唾液,检测目标为体液中含有的DNA,DNA具体存在于游离的循环肿瘤细胞(CTC)、细胞外游离DNA(cfDNA)、外泌体等。所述待测样本DNA的提取方式包括(但不限于):柱式提取、磁珠提取。对样本进行文库构建,采用高通量测序平台,对样本进行测序。
其中,在步骤(b)中,具体还包括:将测序结果去掉接头及低质量数据,比对到参考基因组。参考基因组可为全基因组、任意染色体、染色体的一部分。参考基因组通常选择已被公认确定的序列,如人的基因组可为NCBI或UCSC的hg18(GRCh18)、hg19(GRCh19)、hg38(GRCh38),或任意一条染色体及染色体的一部分。比对软件可用任何一种免费或商业软件,如BWA(Burrows-Wheeler Alignment tool)、SOAPaligner/soap2(Short OligonucleotideAnalysis Package)、Bowtie/Bowtie2。将序列比对到参考基因组,得到序列在基因组上的位置。可以选择在基因组上唯一比对的序列,去除基因组上多处比对的序列,消除重复序列对拷贝数计算带来的误差。
其中,在步骤(c)中,具体还包括:将基因组分成一定长度的窗口,根据测的数据量,窗口长度也可以为100bp-3,000,000bp(3M)范围内相同或不同的整数。窗口的数量可以是1,000-30,000,000范围内的任意整数。根据测的序列在基因组上的位置,统计落到每个窗口的序列数目、碱基分布、参考基因组的碱基分布。根据每个窗口的序列及碱基GC含量,校正每个窗口的拷贝数,校正方法包括但不限于Loess校正,计算每个窗口校正后的拷贝数。
其中,在步骤(d)中,具体还包括:取N(N为不少于30的自然数)个正常人的样本,同样的提取、建库、测序条件,重复上述步骤(a)-(c),作为参考数据集。对于每个窗口bi,都对应N个正常拷贝数值。
计算正常对照样本拷贝数的算术平均值μi,算术平均值μi计算公式为:
μ i = Σ j = 1 N x j N ;
计算正常对照样本拷贝数的标准差σi,标准差的计算公式为:
σ i = 1 N Σ j = 1 N ( x j - μ i ) 2 ;
X1,X2,X3,......Xj为正常样本的拷贝数值。
计算待检测样本每个窗口bi的Z值,Z值的计算公式为:
Z i = x i - μ i σ i ;
xi为窗口bi检测的拷贝数值。
其中,在步骤(e)中,具体还包括:在整个基因组、某条染色体、染色体片段或基因周围存在高重复区域,如近着丝粒、端粒、随体、异染色质等区域。首先去除高重复区域,以消除对混乱度计算的影响。
在一优选实施方式中,去除的方法包括(但不限于):
a.根据参考基因组序列特征去除
去除基因组上着丝粒、端粒、随体、异染色质等高通量测序测不到的区域,去除基因组上着丝粒、端粒、随体、异染色质附近L长度的区域,L可以为小于3M的任何长度;或
b.根据正常样本的拷贝数特征去除
对于每个窗口bi,计算正常对照样本在这个窗口的变异系数CVi(Coefficient ofVariation),CVi计算公式为:
CV i = σ i μ i ;
μi为正常对照样本拷贝数的算术平均值,σi为正常对照样本拷贝数的标准差。
CV从小到大排序,去除最大的前n%的窗口,n可以为大于0,小于等于5的任意数值。
其中,在步骤(e)中,具体还包括基因组混乱度(GAS)的计算方式:
首先确定混乱度的检测范围,检测范围包括但不限于整个基因组、特定染色体、特定染色体片段或特定的基因等1M到基因组长度(如人的基因组约3G)范围内的任意值。在混乱度检测范围内,去除重复序列影响的窗口的Z值取绝对值,Z值绝对值从小到大排序,并将排好序的Z值绝对值平均分配到0%-100%范围内,其中Z值绝对值最小值被分配至0%,Z值绝对值的最大值被分配给100%。计算对应于第m%到第p%范围内的各窗口Z值绝对值的累计值,其中,m为30-98,较佳地,40-97,更佳地,60-96,最佳地,80-95,最佳地,95;p为80-100,较佳地,85-100,更佳地,90-100,最佳地,100,且p-m≥2(较佳地≥5,更佳地≥10,更佳地≥15,最佳地≥20),所述的累计值即为基因组混乱度(GAS),计算公式为:
G A S = Σ i = m b p b | Z i | ;
mb为排序在第m%的窗口,pb为排序在第p%的窗口。用GAS的值鉴定体液中肿瘤负荷。
鉴定样本中肿瘤负荷的方法
在本发明中,提供了一种有效且可提高肿瘤检测的灵敏性和通用性的鉴定样本中肿瘤负荷的方法,包括步骤:
(i)提供一待测样本;
(ii)对所述待测样本进行测序,从而获得所述样本的基因组序列;
(iii)将步骤(ii)获得的基因组序列与参考基因组进行比对,从而获得基因组序列在参考基因组上的位置信息;
(iv)将所述的参考基因组分成M个区域片段,其中每个区域片段为一个窗口b,计算每个窗口b的拷贝数;
(v)对步骤(iv)的每个窗口b进行Z检验,从而计算每个窗口b的Z值;和
(vi)根据步骤(v)所得到的Z值,计算基因组混乱度(GAS),基于基因组混乱度的数值鉴定所述待测样本中的肿瘤负荷。
在本发明的一个优选例中,所述方法包括步骤:
(a)对样本基因组进行核酸提取、测序,以获得基因组序列;
(b)将序列比对到参考基因组,得到序列在基因组上的位置;
(c)将参考基因组分成一定长度的窗口b,计算每个窗口b的拷贝数;以及
(d)对每个窗口b进行Z检验,计算每个窗口b的Z值;计算基因组混乱度(GAS),从而基于基因组混乱度的数值鉴定样本中的肿瘤负荷。
鉴定样本中肿瘤负荷的系统(设备)
在本发明中,还提供了一种鉴定样本中肿瘤负荷的系统(设备),包括:
测序单元,所述测序单元用于对待测样本进行核酸测序,从而获得所述样本的基因组序列;
比对单元,所述比对单元与所述测序单元相连,用于将获得的所述样本的基因组序列与参考基因组进行比对,从而获得基因组序列在参考基因组上的位置信息;
计算与检验单元,所述计算与检验单元和所述比对单元相连,用于计算所述参考基因组的每个窗口b的拷贝数,并对每个窗口进行Z检验,从而计算每个窗口b的Z值;以及
鉴定单元,所述鉴定单元和所述计算与检验单元相连,用于根据所得到Z的值,计算基因组混乱度(GAS),并基于基因组混乱度的数值鉴定样本中的肿瘤负荷。
在一优选实施方式中,所述系统还包括校正单元,所述校正单元和所述计算与检验单元相连,用于校正所述参考基因组的每个窗口b的拷贝数,从而计算每个窗口b校正后的拷贝数。
本发明的主要优点包括:
(1)本发明首次建立一种鉴定样本中肿瘤负荷的方法和系统,本发明的方法和系统可准确、有效的鉴定样本中肿瘤负荷。
(2)本发明的方法和系统可提高肿瘤检测的灵敏性和通用性。
(3)本发明的方法和系统可减少肿瘤患者检测时取样带来的痛苦,实现无创检测。
(4)本发明的方法和系统可有效的检测某些常规检测无法取样的患者;
(5)本发明的方法和系统可对肿瘤患者实时检测,监测用药疗效,对医生用药、治疗做出一定的指导。
下面结合具体实施例,进一步陈述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。下列实施例中未注明详细条件的实验方法,通常按照常规条件如Sambrook等人,分子克隆:实验室手册(New York:Cold Spring Harbor LaboratoryPress,1989)中所述的条件,或按照制造厂商所建议的条件。除非另外说明,否则百分比和份数按重量计算。
除非有特别说明,否则实施例所用的材料均为市售产品。
实施例1
本发明已经应用到15个例子,并取得良好的效果。为了使本发明的用法和效果更加易于理解和掌握,下面将举一个实例进行进一步的阐述。实施的简要流程图如图1所示,详细实施过程如下:
1.对样本基因组进行核酸提取、测序
在本实施例中,检测样本来源为某胃癌患者血液,提取血液中游离DNA(cfDNA)及白细胞。核酸提取采用康为世纪生物科技有限公司的CW2603核酸提取试剂盒,提取方法按照康为世纪生物科技有限公司提供的产品说明书操作。
采用康为世纪生物科技有限公司的CW2185建库试剂盒进行文库构建,上机测序。上机测序采用Illumina公司的HiSeq2500高通量测序平台,按照Illumina公司提供的说明书操作。测序类型为单端(Single End)测序,测序长度41bp,测序数据量为5M。
2.将序列比对到参考基因组,得到序列在基因组上的位置
将测序结果去掉接头及低质量数据,比对到参考基因组。参考基因组为人的基因组UCSC的hg19(GRCh19),比对软件为BWA(Burrows-Wheeler Alignment tool),采用默认参数,将序列比对到参考基因组,得到序列在基因组上的位置,选择在基因组上唯一比对的序列。
3.将参考基因组分成一定长度的窗口,计算每个窗口的拷贝数
将基因组分成15489个窗口b(区域),每个窗口b长度为200K,根据序列在基因组上的位置,统计落到每个窗口b的序列数目、碱基分布、参考基因组的碱基分布。根据每个窗口b的序列及碱基GC含量,校正每个窗口b的拷贝数,校正方法为Loess,计算每个窗口b校正后的拷贝数。
4.计算每个窗口的CV值
取100个正常人的样本,同样的提取、建库、测序条件,重复上述1、2、3步骤,获得正常对照样本数据,作为参考数据集,计算待检测样本每个窗口bi的CV值。
对于每个窗口bi,都对应N(本实施例N=100)个正常拷贝数值。
计算正常对照样本拷贝数的算术平均值μi,算术平均值μi计算公式为:
μ i = Σ j = 1 N x j N ;
计算正常对照样本拷贝数的标准差σi,标准差的计算公式为:
σ i = 1 N Σ j = 1 N ( x j - μ i ) 2 ;
X1,X2,X3,......Xj为正常样本的拷贝数值。
计算待检测样本每个窗口bi的CV值,CV值的计算公式为:
CV i = σ i μ i .
5.对每个窗口进行Z检验,计算每个窗口的Z值
计算待检测样本每个窗口bi的Z值,Z值的计算公式为:
Z i = x i - μ i σ i ;
xi为窗口bi检测的拷贝数值,μi为正常对照样本拷贝数的算术平均值,σi为正常对照样本拷贝数的标准差,计算公式同步骤4。
6.计算基因组混乱度(GAS)
在本实施例中,每个窗口CV从小到大排序,去除最大的前5%的窗口,不参与以下混乱度计算。混乱度的检测范围为整个基因组;Z值取绝对值,并从小到大排序,计算第m%到第p%窗口Z值绝对值的累计值,其累计值即为基因组混乱度(GAS)。计算公式为:
G A S = Σ i = m b p b | Z i | ;
mb为排序在第m%的窗口,pb为排序在第p%的窗口,其中,m为95,p为100。用GAS的值鉴定体液中肿瘤负荷。
7.检测结果
对十几个样本进行检测。一个典型病理的情况如下所示。
检测结果如表1、图2和图3所示。
表1 实施例1对某胃癌患者的临床用药效果做肿瘤负荷检测结果
结果显示,患者临床用药前,确诊为胃癌,此时cfDNA拷贝数严重异常(图3 S1),全基因组混乱度为999.84,血液中肿瘤负荷较严重。
伴随着用药,到第四周期cfDNA拷贝数正常,全基因组混乱度为728.80,和正常白细胞729.86接近。
用本实施例相同的方法,计算上述100例正常人的全基因组混乱度,正常范围为722.87-739.89,算数平均值733.22,本实施例第四用药周期及白细胞的全基因组混乱度值在正常范围内,说明血液中肿瘤负荷很小,与其临床评效结果PR(部分缓解)是对应的。
伴随进一步用药,肿瘤产生抗药性,cfDNA拷贝数异常情况又变严重,全基因组混乱度分值变大,血液中肿瘤负荷变严重,到用药第七周期,全基因组混乱度最高,与其临床评效结果PD(疾病进展)是对应的。
结果表明,基因组混乱度可有效鉴定体液中的肿瘤负荷。
在本发明提及的所有文献都在本申请中引用作为参考,就如同每一篇文献被单独引用作为参考那样。此外应理解,在阅读了本发明的上述讲授内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。

Claims (10)

1.一种非诊断性地鉴定样本中肿瘤负荷的方法,其特征在于,包括步骤:
(i)提供一待测样本;
(ii)对所述待测样本进行测序,从而获得所述样本的基因组序列;
(iii)将步骤(ii)获得的基因组序列与参考基因组进行比对,从而获得基因组序列在参考基因组上的位置信息;
(iv)将所述的参考基因组分成M个区域片段,其中每个区域片段为一个窗口b,计算每个窗口b的拷贝数;
(v)对步骤(iv)的每个窗口b进行Z检验,从而计算每个窗口b的Z值;和
(vi)根据步骤(v)所得到的Z值,计算基因组混乱度(GAS),基于基因组混乱度的数值鉴定所述待测样本中的肿瘤负荷。
2.如权利要求1所述的方法,其特征在于,所述参考基因组包括全基因组。
3.如权利要求1或2所述的方法,其特征在于,所述参考基因组的覆盖率达到全基因组的50%以上,较佳地,60%以上,更佳地,70%以上,更佳地,80%以上,最佳地,95%以上。
4.如权利要求1所述的方法,其特征在于,所述样本选自下组:血液、血浆、组织间隙液、淋巴液、脑脊液、尿液、唾液、房水、精液、或其组合。
5.如权利要求1所述的方法,其特征在于,所述步骤(iv)还包括校正每个窗口b的拷贝数,计算每个窗口b校正后的拷贝数的步骤。
6.如权利要求1所述的方法,其特征在于,用下述公式计算每个窗口b的Z值:
Z i = x i - μ i σ i ;
其中,i为1至M的任意正整数;M为参考基因组分成的窗口的总数量,其中M为≥50的正整数,较佳地,50≤M≤105,更佳地,100≤M≤105,最佳地,200≤M≤105;xi为所述待测样本在第i个窗口bi检测的拷贝数值;bi为第i个窗口;μi为正常对照样本在窗口bi的拷贝数的算术平均值,用如下公式计算:
μ i = Σ j = 1 N x j N ;
其中,j为1至N的任意正整数;N为正常对照样本的总数量,其中N为≥30的正整数,较佳地,30≤N≤108,更佳地,50≤N≤107,最佳地,100≤N≤104;Xj指第j个正常对照样本在所述窗口bi检测的拷贝数值;σi为正常对照样本在所述窗口bi的拷贝数的标准差,用如下公式计算:
σ i = 1 N Σ j = 1 N ( x j - μ i ) 2 ;
式中,N、j、Xj和μi的定义如上。
7.如权利要求1所述的方法,其特征在于,用下述公式计算基因组混乱度:
G A S = Σ i = m b p b | Z i | ;
其中,mb为排序在第m%的窗口,pb为排序在第p%的窗口,m为30-98,较佳地,40-97,更佳地,60-96,最佳地,80-95,最佳地,95,p为80-100,较佳地,85-100,更佳地,90-100,最佳地,100,且p-m≥2(较佳地,≥5,更佳地,≥10,更佳地,≥15,最佳地,≥20)。
8.如权利要求1所述的方法,其特征在于,所述步骤(v)之前还包括如下步骤:
(iv1)根据步骤(iv)的每个窗口b的拷贝数,计算正常对照样本中每个窗口b的变异系数CVi
(iv2)将所述CVi从小到大排序,去除最大的前n%的窗口,其中,n为大于0,小于等于5的任意数值,较佳地,n=1、2、2.5、3、3.1、4、4.2或5。
9.如权利要求8所述的方法,其特征在于,所述变异系数CVi用下述公式进行计算:
CV i = σ i μ i ;
其中,μi为正常对照样本拷贝数的算术平均值,用如下公式计算:
μ i = Σ j = 1 N x j N ;
σi为正常对照样本拷贝数的标准差,用如下公式计算:
σ i = 1 N Σ j = 1 N ( x j - μ i ) 2 ;
式中,N、j、Xj、μi和σi的定义如上。
10.一种用于鉴定样本中肿瘤负荷的系统,其特征在于,包括:
测序单元,所述测序单元用于对待测样本进行核酸测序,从而获得所述样本的基因组序列;
比对单元,所述比对单元与所述测序单元相连,用于将获得的所述样本的基因组序列与参考基因组进行比对,从而获得基因组序列在参考基因组上的位置信息;
计算与检验单元,所述计算与检验单元和所述比对单元相连,用于计算所述参考基因组的每个窗口b的拷贝数,并对每个窗口进行Z检验,从而计算每个窗口b的Z值;以及
鉴定单元,所述鉴定单元和所述计算与检验单元相连,用于根据所得到Z的值,计算基因组混乱度(GAS),并基于基因组混乱度的数值鉴定样本中的肿瘤负荷。
CN201610842333.8A 2016-09-22 2016-09-22 一种鉴定样本中肿瘤负荷的方法和系统 Pending CN106367512A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201610842333.8A CN106367512A (zh) 2016-09-22 2016-09-22 一种鉴定样本中肿瘤负荷的方法和系统
PCT/CN2017/101573 WO2018054254A1 (zh) 2016-09-22 2017-09-13 一种鉴定样本中肿瘤负荷的方法和系统
TW106131581A TWI670495B (zh) 2016-09-22 2017-09-14 一種鑑定樣本中腫瘤負荷的方法和系統

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610842333.8A CN106367512A (zh) 2016-09-22 2016-09-22 一种鉴定样本中肿瘤负荷的方法和系统

Publications (1)

Publication Number Publication Date
CN106367512A true CN106367512A (zh) 2017-02-01

Family

ID=57898089

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610842333.8A Pending CN106367512A (zh) 2016-09-22 2016-09-22 一种鉴定样本中肿瘤负荷的方法和系统

Country Status (3)

Country Link
CN (1) CN106367512A (zh)
TW (1) TWI670495B (zh)
WO (1) WO2018054254A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106755547A (zh) * 2017-03-15 2017-05-31 上海亿康医学检验所有限公司 一种膀胱癌的无创检测及其复发监测方法
WO2018054254A1 (zh) * 2016-09-22 2018-03-29 上海亿康医学检验所有限公司 一种鉴定样本中肿瘤负荷的方法和系统
CN108229103A (zh) * 2018-01-15 2018-06-29 臻和(北京)科技有限公司 循环肿瘤dna重复序列的处理方法及装置
CN108319817A (zh) * 2018-01-15 2018-07-24 臻和(北京)科技有限公司 循环肿瘤dna重复序列的处理方法及装置
WO2018148903A1 (zh) * 2017-02-16 2018-08-23 上海亿康医学检验所有限公司 泌尿系统肿瘤的辅助诊断方法
CN108595918A (zh) * 2018-01-15 2018-09-28 臻和(北京)科技有限公司 循环肿瘤dna重复序列的处理方法及装置
CN111583992A (zh) * 2020-05-11 2020-08-25 广州金域医学检验中心有限公司 Rna水平融合基因突变导致肿瘤的负荷分析系统和方法
CN114582427A (zh) * 2022-03-22 2022-06-03 成都基因汇科技有限公司 一种渐渗区段鉴定方法及计算机可读存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109182526A (zh) * 2018-10-10 2019-01-11 杭州翱锐生物科技有限公司 用于早期肝癌辅助诊断的试剂盒及其检测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104313136A (zh) * 2014-09-30 2015-01-28 江苏亿康基因科技有限公司 一种无创人肝癌早期检测与鉴别诊断方法及系统
CN105574361A (zh) * 2015-11-05 2016-05-11 上海序康医疗科技有限公司 一种检测基因组拷贝数变异的方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12180549B2 (en) * 2007-07-23 2024-12-31 The Chinese University Of Hong Kong Diagnosing fetal chromosomal aneuploidy using genomic sequencing
PL2772549T3 (pl) * 2011-12-31 2019-12-31 Bgi Genomics Co., Ltd. Sposób wykrywania zmienności genetycznej
WO2013166517A1 (en) * 2012-05-04 2013-11-07 Complete Genomics, Inc. Methods for determining absolute genome-wide copy number variations of complex tumors
EP4253558B1 (en) * 2013-03-15 2025-07-02 The Board of Trustees of the Leland Stanford Junior University Identification and use of circulating nucleic acid tumor markers
CN105844116B (zh) * 2016-03-18 2018-02-27 广州市锐博生物科技有限公司 测序数据的处理方法和处理装置
CN106367512A (zh) * 2016-09-22 2017-02-01 上海序康医疗科技有限公司 一种鉴定样本中肿瘤负荷的方法和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104313136A (zh) * 2014-09-30 2015-01-28 江苏亿康基因科技有限公司 一种无创人肝癌早期检测与鉴别诊断方法及系统
CN105574361A (zh) * 2015-11-05 2016-05-11 上海序康医疗科技有限公司 一种检测基因组拷贝数变异的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
REBECCA J. LEARY等: "Detection of Chromosomal Alterations in the Circulation of Cancer Patients with Whole-Genome Sequencing", 《SCI TRANSL MED.》 *
SARAH-JANE DAWSON等: "Analysis of Circulating Tumor DNA to Monitor Metastatic Breast Cancer", 《THE NEW ENGLAND JOURNAL OF MEDICINE》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018054254A1 (zh) * 2016-09-22 2018-03-29 上海亿康医学检验所有限公司 一种鉴定样本中肿瘤负荷的方法和系统
WO2018148903A1 (zh) * 2017-02-16 2018-08-23 上海亿康医学检验所有限公司 泌尿系统肿瘤的辅助诊断方法
WO2018166476A1 (zh) * 2017-03-15 2018-09-20 上海亿康医学检验所有限公司 检测样本中突变位点的方法
TWI679280B (zh) * 2017-03-15 2019-12-11 大陸商上海億康醫學檢驗所有限公司 一種膀胱癌的無創檢測及其復發監測方法
CN106755547A (zh) * 2017-03-15 2017-05-31 上海亿康医学检验所有限公司 一种膀胱癌的无创检测及其复发监测方法
CN108595918A (zh) * 2018-01-15 2018-09-28 臻和(北京)科技有限公司 循环肿瘤dna重复序列的处理方法及装置
CN108319817A (zh) * 2018-01-15 2018-07-24 臻和(北京)科技有限公司 循环肿瘤dna重复序列的处理方法及装置
CN108229103A (zh) * 2018-01-15 2018-06-29 臻和(北京)科技有限公司 循环肿瘤dna重复序列的处理方法及装置
CN108319817B (zh) * 2018-01-15 2020-12-25 无锡臻和生物科技有限公司 循环肿瘤dna重复序列的处理方法及装置
CN108229103B (zh) * 2018-01-15 2020-12-25 无锡臻和生物科技有限公司 循环肿瘤dna重复序列的处理方法及装置
CN108595918B (zh) * 2018-01-15 2021-03-16 无锡臻和生物科技有限公司 循环肿瘤dna重复序列的处理方法及装置
CN111583992A (zh) * 2020-05-11 2020-08-25 广州金域医学检验中心有限公司 Rna水平融合基因突变导致肿瘤的负荷分析系统和方法
CN111583992B (zh) * 2020-05-11 2023-08-29 广州金域医学检验中心有限公司 Rna水平融合基因突变导致肿瘤的负荷分析系统和方法
CN114582427A (zh) * 2022-03-22 2022-06-03 成都基因汇科技有限公司 一种渐渗区段鉴定方法及计算机可读存储介质

Also Published As

Publication number Publication date
TW201814290A (zh) 2018-04-16
TWI670495B (zh) 2019-09-01
WO2018054254A1 (zh) 2018-03-29

Similar Documents

Publication Publication Date Title
TWI670495B (zh) 一種鑑定樣本中腫瘤負荷的方法和系統
CN105392894B (zh) 确定样本基因组中是否存在拷贝数变异的方法、系统和计算机可读介质
US20220093212A1 (en) Size-based analysis of fetal dna fraction in plasma
KR102521842B1 (ko) 암 검출을 위한 혈장 dna의 돌연변이 분석
CN109767810B (zh) 高通量测序数据分析方法及装置
US12054776B2 (en) Diagnosing fetal chromosomal aneuploidy using massively parallel genomic sequencing
CN109880910A (zh) 一种肿瘤突变负荷的检测位点组合、检测方法、检测试剂盒及系统
TW201833329A (zh) 腫瘤檢測之方法及系統
TWI679280B (zh) 一種膀胱癌的無創檢測及其復發監測方法
CN107849569B (zh) 肺腺癌生物标记物及其应用
CN116356001A (zh) 一种基于血液循环肿瘤dna的双重背景噪声突变去除方法
HK1231138A1 (zh) 一種鑒定樣本中腫瘤負荷的方法和系統
HK1231138A (zh) 一种鉴定样本中肿瘤负荷的方法和系统
CN117877574B (zh) 一种基于单肿瘤样本检测微卫星不稳定性的微卫星位点组合及其应用
JP2024536893A (ja) 疾患の再発を予測するためのウイルスdnaの配列決定
WO2018148903A1 (zh) 泌尿系统肿瘤的辅助诊断方法
HK40056499A (zh) 用於癌症检测的血浆dna突变分析
HK40041430B (zh) 母体血浆中胎儿dna分数的基於大小的分析
HK40019612B (zh) 基於大小的dna 分析用於癌症分类
CN109988833A (zh) 宫颈癌的判断方法及系统
HK1235834A (zh) 一种膀胱癌的无创检测及其复发监测方法
HK1235834A1 (zh) 一種膀胱癌的無創檢測及其復發監測方法
HK1251020B (zh) 肺癌标志物及其应用
HK1261405B (zh) 用於癌症分类的基於大小的dna分析
HK1215454B (zh) 确定样本基因组中是否存在拷贝数变异的方法、系统和计算机可读介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20170711

Address after: 201499 Shanghai Road, Fengxian District, Lane 1698, Lane 17, building 26

Applicant after: YIKON GENOMICS (SHANGHAI) Co.,Ltd.

Address before: 201403 Shanghai, Fengxian District Jin Qi Road, room 868, No. 5232

Applicant before: SHANGHAI XUKANG MEDICAL SCIENCE & TECHNOLOGY Co.,Ltd.

REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1231138

Country of ref document: HK

REG Reference to a national code

Ref country code: HK

Ref legal event code: WD

Ref document number: 1231138

Country of ref document: HK

RJ01 Rejection of invention patent application after publication

Application publication date: 20170201