一种评估肿瘤异质性的方法及系统
技术领域
本发明属于生物技术领域,更具体而言本发明涉及评估肿瘤异质性的方法和系统。
背景技术
肿瘤是一种由基因改变引起的疾病。肿瘤往往涉及到多种遗传学变异类型,包括单核苷酸变异(Single Nucleotide Variations,SNV)、短的插入缺失(small insertionsand deletions,indel)、拷贝数变异(Copy Number Variations,CNV)、结构变异(Structure Variations,SV)等。从肿瘤细胞形成第一个变异开始,便开始了变异积累的过程。随着时间推进和肿瘤的演化,先发生的有害变异为后发生的变异营造有利的维持条件,使肿瘤细胞不断获得或者增强诸如抑制凋亡、无限复制、免疫逃逸等方面的能力,因此肿瘤细胞的变异累积的速度比正常细胞快得多。最终形成的肿瘤其实是具有不同遗传学特性的细胞群体的混合:有些细胞仅携带早期变异,有些则还同时携带后期变异;在这些肿瘤细胞中,变异所涉及的细胞比例也随着其发生时间由早至晚而由大变小;在一个细胞同时发生的变异在肿瘤进化过程中共存亡,涉及的细胞比例相同。肿瘤中的变异的细胞比例分布的复杂性能够反映肿瘤异质性,后者是肿瘤复杂程度的最直接和最重要的体现,其与肿瘤患者预后和生存时间息息相关。
目前评估肿瘤异质性多采用同一肿瘤患者的多位点采样和高通量测序的方法,即通过对患者的组织多个位置或多个病灶进行病理取样后,通过高通量测序的方法分析每个取样部位的变异,并对共有变异及变异所对应的细胞比例进行描述和分级统计。该方法有如下缺点:(1)多位点的临床取样存在偏倚性,只能代表所取部位的分子变异特征,不能代表整体肿瘤的复杂度;(2)具有一定的临床风险;(3)部分类型的转移灶难以获取,如胸腹膜转移病灶;(4)不准确性,通过共有变异进行的异质性分析方法,将共有变异辨识为同一层级,并未对共有变异进行具体划分,从而导致部分分析结果不准确(Gerlinger,M.etal.Intratumor heterogeneity and branched evolution revealed by multiregionsequencing.The New England journal of medicine 366,883-892,doi:10.1056/NEJMoa1113205(2012);Hao,J.J.et al.Spatial intratumoral heterogeneity andtemporal clonal evolution in esophageal squamous cell carcinoma.Naturegenetics,doi:10.1038/ng.3683(2016))。此外,也有方法只通过单点采样的拷贝数变异结果对肿瘤异质性进行评估(Oesper,L.,Satas,G.&Raphael,B.J.Quantifying tumorheterogeneity in whole-genome and whole-exome sequencing data.Bioinformatics30,3532-3540,doi:10.1093/bioinformatics/btu651(2014)),该方法除了存在取样偏倚性的缺点外,还存在人群覆盖度低的缺点,即只能覆盖部分存在大量拷贝数变异的癌肿或人群。
因此,本领域中需要更准确评估肿瘤的异质性的分析方法,以有效地辅助肿瘤预后和治疗方案制定。
发明内容
为了更准确评估肿瘤的异质性,本发明提出了一种分子克隆(Molecular Clone,mClone)分析方法,该方法基于高通量测序在循环肿瘤DNA(circulating tumor DNA,ctDNA)中的多种类型变异检测结果,将所有变异划分为不同的分子克隆,利用分子克隆层级评估肿瘤的异质性。本发明的方法实现以ctDNA高通量变异检测为基础的肿瘤异质性评估,以有效辅助肿瘤预后和治疗方案制定。
因此,在第一方面,本发明提供了一种评估肿瘤异质性的方法,所述方法包括:
1)对患者的游离DNA(cell-free DNA,cfDNA)进行测序(优选高通量测序),获得测序信息;
2)利用所述测序信息确定ctDNA变异,根据所述测序信息和所述确定的ctDNA变异,计算变异等位频率,确定变异所在区域的实际总拷贝数,计算ctDNA占cfDNA的比例;
3)根据所述步骤2)中确定的比例以及ctDNA变异的测序信息和拷贝数信息对所述ctDNA变异进行聚类,聚类得到的每一个簇确定为一个分子克隆,得到聚类的克隆层级;
4)根据所述患者的克隆层级对其肿瘤异质性进行评估,所述患者的克隆层级越多,其肿瘤异质性越高。
在第二方面,本发明提供了一种比较不同患者肿瘤异质性的方法,所述方法包括:
利用本发明第一方面的方法的步骤1)-3)对所述每个患者计算分子克隆层级,对于不同患者,克隆层级越多,其肿瘤异质性越高。
在本发明第一或第二方面的一个实施方案中,步骤2)包括:
2.1)利用所述测序信息获得变异V(所述变异V选自SNV、indel和SV)(Vi,i=1,…,n)的参考等位测序深度(Ri)、变异等位测序深度(Mi),并计算变异等位频率(VariantAllele Fraction,VAFi),
其中,参考等位测序深度(Ri)是测序结果中在相应位点未发生该变异的正常序列的条数;变异等位测序深度(Mi)是测序结果中在相应位点发生该变异的变异序列的条数;
2.2)利用变异Vi所在区域的CNV(CNVi,i=1,…,n),计算变异Vi所在区域的参考拷贝数(rCNi)和实际总拷贝数(CNi),
如果在步骤1)中使用精确的CNV检测方法(如使用SNP芯片检测),对于不在男性性染色体上的变异,会得到两条染色体上的等位特异的拷贝数变异(CNVi,major,CNVi,minor,CNVi,major≥CNVi,minor)信息,从而获取实际的等位特异的拷贝数(CNi,major,CNi,minor),
2.3)ctDNA比例评估:以最大的变异等位频率来评估cfDNA中ctDNA所占比例(CTF),
CTF=max(VAFi),i=1,…,n (公式5)
在一个实施方案中,本发明的方法的步骤3)中,通过预测的变异细胞比例,对变异进行聚类,例如采用PyClone(v0.13,当前最新版本,如非特别注明,以下均指该版本)软件。
在一个实施方案中,本发明的方法的步骤3)中,变异V(SNV/indel/SV)的参考和变异等位深度数据(Ri,Mi):用于与CTF和CNV一块评估变异肿瘤细胞比例。在一个实施方案中,本发明的方法的步骤3)中,采用PyClone软件对每个所述变异所在细胞群占所有肿瘤细胞的比例进行预测,软件参数可以设定如下:总体肿瘤细胞比例(CTF)=变异等位基因频率的最高值;迭代次数=20000;其他参数为默认。
在一个实施方案中,本发明的方法的步骤3)中,使用PyClone对检出的n个变异V(SNV/indel/SV)进行聚类,除以下几个参数外,均采用默认参数:
(a)--tumour_contentsCTF;
(b)--num_iters 20000;
(c)--prior total_copy_number,当采用等位特异的CNV数据作为输入
时,该参数设置为parental_copy_number;
(d)--density pyclone_beta_binomial,当步骤1)采用的是测序深度较低的全基因组测序技术时,该参数设置为pyclone_binomial;
(e)--in_files patient.tsv,patient.tsv文件是以制表符为分割符的文件;除标题行外,每行包含一个变异V(SNV/indel/SV)的信息;内含六列,依次为:mutation_id、ref_counts、var_counts、normal_cn、minor_cn和major_cn。
在第三方面,本发明提供了一种评估肿瘤异质性的系统,所述系统包括:
1)用于测序(优选高通量测序)患者的cfDNA的模块;
2)用于执行如下步骤的模块:
a)接收来自模块1)的测序信息;
b)通过与正常基因序列的序列信息比较,获得cfDNA中的ctDNA变异;
c)根据所述测序信息和所述ctDNA变异,计算变异等位频率,确定变异所在区域的实际总拷贝数或实际的等位特异的拷贝数,计算ctDNA占cfDNA的比例;
d)根据所述步骤c)中确定的比例以及ctDNA变异的测序信息和拷贝数信息对所述ctDNA变异进行聚类,确定分子克隆,并计算分子克隆层级;
3)结果输出模块:
根据所述患者的分子克隆层级输出肿瘤异质性的结果,所述患者的克隆层级越多,其肿瘤异质性越高。
在第四方面,本发明提供了一种比较不同患者肿瘤异质性的系统,所述系统包括:
1)用于测序(优选高通量测序)患者的cfDNA的模块;
2)用于执行如下步骤的模块:
a)接收来自模块1)的测序信息;
b)通过与正常基因序列的序列信息比较,获得cfDNA中的ctDNA变异;
c)根据所述测序信息和所述变异结果,计算变异等位频率,确定变异所在区域的实际总拷贝数或实际的等位特异的拷贝数,计算ctDNA占cfDNA的比例;
d)根据所述步骤c)中确定的比例以及ctDNA变异的测序信息和拷贝数信息对所述ctDNA变异进行聚类,确定分子克隆,并计算分子克隆层级;
3)结果输出模块:
对不同患者的分子克隆层级进行比较,输出不同患者的肿瘤异质性比较的结果,患者的克隆层级越多,其肿瘤异质性越高。
在本发明第三或第四方面的一个实施方案中,模块2)的步骤c)包括步骤:
c.1)利用所述测序信息获得变异V(所述变异V选自SNV、indel和SV)(Vi,i=1,…,n)的参考等位测序深度(Ri)、变异等位测序深度(Mi),并计算变异等位频率(VariantAllele Fraction,VAFi),
其中,参考等位测序深度(Ri)是测序结果中在相应位点未发生该变异的正常序列的条数;变异等位测序深度(Mi)是测序结果中在相应位点发生该变异的变异序列的条数;
c.2)利用变异Vi所在区域的CNV(CNVi,i=1,…,n),计算变异Vi所在区域的参考拷贝数(rCNi)和实际总拷贝数(CNi),
如果在步骤1)中使用精确的CNV检测方法(如使用SNP芯片检测),对于不在男性性染色体上的变异,会得到两条染色体上的等位特异的拷贝数变异(CNVi,major,CNVi,minor,CNVi,major≥CNVi,minor)信息,从而获取实际的等位特异的拷贝数(CNi,major,CNi,minor),
c.3)ctDNA比例评估:以最大的变异等位频率来评估cfDNA中ctDNA所占比例(CTF),
CTF=max(VAFi),i=1,…,n (公式5)
在本发明第三或第四方面的一个实施方案中,模块2)为执行所述步骤的多条指令的计算机可读介质。模块3)为执行所述步骤的指令的计算机可读介质。
在一个实施方案中,本发明的系统的模块2)的步骤d)中,变异V(SNV/indel/SV)的参考和变异等位深度数据(Ri,Mi):用于与CTF和CNV一块评估变异肿瘤细胞比例。在一个实施方案中,本发明的系统的模块2)的步骤d)中,采用PyClone软件对每个所述变异所在细胞群占所有肿瘤细胞的比例进行预测,软件参数可以设定如下:总体肿瘤细胞比例(CTF)=变异等位基因频率的最高值;迭代次数=20000;其他参数为默认。
在一个实施方案中,本发明的系统的模块2)的步骤d)中,通过预测的变异细胞比例,对变异进行聚类,例如采用PyClone软件。
在一个实施方案中,本发明的系统的模块2)的步骤d)中,使用PyClone对检出的n个变异V(SNV/indel/SV)进行聚类,除以下几个参数外,均采用默认参数:
(a)--tumour_contentsCTF;
(b)--num_iters 20000;
(c)--prior total_copy_number,当采用等位特异的CNV数据作为输入
时,该参数设置为parental_copy_number;
(d)--density pyclone_beta_binomial,当模块1)中采用的是测序深度较低的全基因组测序技术时,该参数设置为pyclone_binomial;
(e)--in_files patient.tsv,patient.tsv文件是以制表符为分割符的文件;除标题行外,每行包含一个变异V(SNV/indel/SV)的信息;内含六列,依次为:mutation_id、ref_counts、var_counts、normal_cn、minor_cn和major_cn。
本发明基于肿瘤进化的理论和ctDNA的高通量变异检测技术,从克隆层面分析肿瘤变异,提供了更符合肿瘤发生发展规律的异质性评估方法。
本发明发现,较高的肿瘤异质性具有更高的肿瘤进展风险。
相对于其他分析方法,本发明的优势如下:
1)信息全面性:相对于单位点或多位点的组织取样偏倚性,ctDNA能反应更全面的肿瘤分子特征;
2)取样便捷性:组织取样通常来源于手术或穿刺,相比于组织取样,尤其是多位点组织取样,ctDNA的检测仅需要无创采血,在临床上更容易可行;
3)高度准确性:充分利用变异信息,涵盖SNV、indel和SV,保留变异的具体频率而非利用检出/未检出的二元值,基于肿瘤进化理论,从克隆层面而非变异层面对异质性进行评估。
借助以上三点,本发明的方法和系统可以更准确和合理的评估肿瘤的异质性。
附图说明
通过以下附图对本发明进行说明。
图1mClone分析流程图,带*标志的步骤为对每个患者分别进行。
图2生存分析,左边曲线为高异质性,右边曲线为低异质性。
具体实施方式
在本发明中,基因名称均采用NCBI-Gene里的官方命名(Official Symbol),采用本领域通用表示法表示基因突变和蛋白质突变。例如,c.518T>C(p.V173A)表示错义突变,表示编码区第518位的T碱基改变为C碱基,从而导致173位的氨基酸由组氨酸V突变为精氨酸A;c.2235_2249delGGAATTAAGAGAAGC(p.E746_A750del)表示小片段缺失,表示编码区第2235位到2249位的碱基GGAATTAAGAGAAGC缺失,从而导致第746位到750位的5个氨基酸缺失;c.2663+1G>A表示剪切突变,表示编码区第2663位所在外显子3端紧连内含子的第一个碱基由G改变为A;c.7081C>T(p.Q2361*)表示无义突变,编码区第7081位的C碱基改变为T碱基,从而导致第2361位的Q变为终止密码子。
在本发明中,数学符号ceil是指向上取整。
在本发明中,cfDNA还可以是血液(血浆)、唾液、胸腹腔积液、尿液、粪便等样本DNA。
在本发明中,所述肿瘤选自但不限于:肺癌、结直肠癌、胃癌、乳腺癌、肾癌、胰腺癌、卵巢癌、子宫内膜癌、甲状腺癌、宫颈癌、食管癌和肝癌。在一个具体的实施方案中,所述肿瘤是肺癌,所述变异是表1中列出的变异。
本发明的方法流程图如图1所示,对每位受试患者,在利用高通量测序对ctDNA变异进行检测后,根据ctDNA变异的测序结果,评估ctDNA占cfDNA的比例;上述比例和检出的变异一起,作为输入,对变异进行聚类,聚类得到的每一个簇确定为一个分子克隆,然后计算克隆层级,最后根据所有患者的克隆层级对每位患者的肿瘤异质性进行评估。本发明人发现,对于肺癌而言,克隆层级大于3.5为异质性高的患者,克隆层级小于3.5为异质性低的患者。
以下为本发明的方法的主要技术流程与原理介绍:
1.高通量测序检测ctDNA变异
首先,对选定数个同癌种患者作为受试对象,对每个患者进行变异检测和参数计算:
1)通过全基因组、全外显子组或探针捕获测序等高通量测序技术及相应的信息学分析方法,对受试者cfDNA进行测序,获取ctDNA中包含的变异,包括SNV、indel、SV、CNV等;
2)根据步骤1)中的测序结果,获得变异V(变异V选自SNV、indel和SV)(Vi,i=1,…,n)的参考等位测序深度(Ri)、变异等位测序深度(Mi),并计算变异等位频率(VariantAllele Fraction,VAFi),
其中,参考等位测序深度(Ri)是测序结果中在相应位点未发生该变异的正常序列的条数;变异等位测序深度(Mi)是测序结果中在相应位点发生该变异的变异序列的条数;
3)利用变异Vi所在区域的CNV(CNVi,i=1,…,n),计算变异Vi所在区域的参考拷贝数(rCNi)和实际总拷贝数(CNi),
如果在1)中使用精确的CNV检测方法(如使用SNP芯片检测),对于不在男性性染色体上的变异,会得到两条染色体上的等位特异的拷贝数变异(CNVi,major,CNVi,minor,CNVi,major≥CNVi,minor)信息,从而获取实际的等位特异的拷贝数(CNi,major,CNi,minor),
精确的CNV检测是指获得两条染色体的等位特异的拷贝数变异,例如使用SNP芯片检测。
2.变异聚类及克隆层级计算
然后,对每位患者,依据1中得到的参数,将检测到的变异进行聚类分析和克隆层级计算:
1)ctDNA比例评估:以最大的变异等位频率来评估cfDNA中ctDNA所占比例(CTF),
CTF=max(VAFi),i=1,…,n (公式5)
2)变异聚类:
对于任一变异(SNV/indel/SV)而言,cfDNA的来源细胞被分为三类:正常细胞(N)、不携带该变异的肿瘤细胞(C0)、携带该变异的肿瘤细胞(C1),携带该变异的肿瘤细胞(C1)占所有肿瘤细胞(C1+C0)的比例称为变异肿瘤细胞比例,如果两个或以上变异的变异肿瘤细胞比例相当,那么他们发生的时间近似,会被赋予相同的簇标签,聚类成一簇,即一个分子克隆。
因此,对变异聚类需要用到以下数据:
a)变异V(SNV/indel/SV)的参考和变异等位深度数据(Ri,Mi):用于与CTF和CNV一块评估变异肿瘤细胞比例;
b)步骤1.3)中的参考拷贝数(rCNi)和实际总拷贝数(CNi)或实际的等位特异的拷贝数(CNi,major,CNi,minor):对于某一变异,该变异等位的拷贝数扩增或缺失会造成变异肿瘤细胞比例估计值的假性升高或假性降低,因此加入拷贝数变化数据会更准确的判断C1细胞的基因型,校正变异频率,正确评估变异肿瘤细胞比例;
c)CTF:用以估计cfDNA来源细胞的构成,即所有细胞(N+C0+C1)中肿瘤细胞(C0+C1)所占的比例,该参数的准确设置有助于正确计算来自正常细胞的参考等位和来自肿瘤细胞的参考等位的数量比例。
例如,使用PyClone v0.13(当前最新版本)对检出的n个变异V(SNV/indel/SV)进行聚类,除以下几个参数外,均采用默认参数:
(a)--tumour_contentsCTF;
(b)--num_iters 20000;
(c)--prior total_copy_number,当采用等位特异的CNV数据作为输入
时,该参数设置为parental_copy_number;
(d)--density pyclone_beta_binomial,当1.1)采用的是测序深度较低的全基因组测序技术时,该参数设置为pyclone_binomial;
(e)--in_files patient.tsv,patient.tsv文件是以制表符为分割符的文件;除标题行外,每行包含一个变异V(SNV/indel/SV)的信息;内含六列,依次为:mutation_id、ref_counts、var_counts、normal_cn、minor_cn和major_cn。
PyClone(Roth,A.et al.PyClone:statistical inference of clonal
population structure in cancer.Nature methods 11,396-398,
doi:10.1038/nmeth.2883(2014).)根据变异V(SNV/indel/SV)和CNV信息估计Vi所在的细胞占所有肿瘤细胞的比例,并依此对每个变异赋予一个簇标签(Ci,i=1,…,n,Ci∈{1,…,c},c为簇的个数)。
对变异聚类还可以采用PyClone的其他版本或其他变异聚类软件。
3)克隆层级计算:
克隆层级,即变异聚成的分子克隆数目c。肿瘤在不断进展的过程中,肿瘤进化发生树的结构也逐渐变得庞大和复杂,分子克隆也会更多,克隆层级不断加深,因此克隆层级的大小与肿瘤异质性密切相关。
3.肿瘤异质性评估
取所有受试患者的克隆层级中位数作为判断每位患者肿瘤异质性高/低的阈值;克隆层级低于该阈值的患者,其肿瘤异质性较低,反之则肿瘤异质性较高。
由于癌种之间基因组变异情况会有明显差异,因此本发明的方法不建议跨癌种比较异质性。
在本发明的方法中,除了测序步骤之外,其他步骤可以以指令的形式存在于计算机可读介质中,只需要将所述测序结果输入计算设备,所述计算设备就可以读取所述计算机可读介质中的指令,完成本发明方法的其他步骤。所述计算设备包括但不限于计算机、便携式计算机、PAD、智能手机、智能手腕等。
实施例
在本实施例中,以10例肺癌患者为例,对本发明进行说明。需要说明的是,该实施例仅仅是为了说明目的,而不能以任何方式解释成对本申请的限制。
1.ctDNA高通量测序检测出的变异列表
1)变异V(SNV/indel/SV)
10例肺癌患者分别检出2-8个变异,变异V(SNV/indel/SV)检出列表见表1。
表1变异V(SNV/indel/SV)检出列表
2)CNV
10例肺癌患者中,只有S5检出EGFR扩增,扩增倍数为1.73,见表2。因此,S5中检出的EGFR Deletion变异对应的实际总拷贝数被估计为4。
表2CNV检出列表
| 样品编号 |
基因 |
拷贝数变异状态 |
拷贝数变异倍数 |
| S5 |
EGFR |
gain |
1.73 |
2.mClone分析结果统计
Pyclone聚类
使用PyClone v0.13对检出的变异进行聚类,除以下几个参数外,均采用默认参数:
a)--tumour_contents
b)--num_iters 20000
c)--prior total_copy_number
d)--density pyclone_beta_binomial
e)--in_files
参数a)和e)分别指定CTF及输入文件。每例患者的CTF及输入文件的内容见表3:
表3Pyclone输入数据
其中,mutation_id表示变异编号,ref_counts表示参考计数,var_counts表示变异计数,normal_cn表示正常拷贝数,即CNi,minor_cn表示小拷贝数,即CNi,minor,major_cn表示大拷贝数,即CNi,major。
利用本发明的方法进行的mClone分析的结果及后续随访数据如表4所示,取所有克隆层级的中位数,即cut-off=3.5,克隆层级大于3.5为异质性高的患者,克隆层级小于3.5为异质性低的患者。
表4mClone分析结果与临床信息对照表
| 样品编号 |
克隆层级 |
肿瘤异质性 |
无进展生存期(周) |
| S1 |
2 |
低 |
54 |
| S2 |
1 |
低 |
49 |
| S3 |
4 |
高 |
11 |
| S4 |
4 |
高 |
27 |
| S5 |
6 |
高 |
9 |
| S6 |
6 |
高 |
17 |
| S7 |
3 |
低 |
17 |
| S8 |
3 |
低 |
34 |
| S9 |
5 |
高 |
22 |
| S10 |
2 |
低 |
36 |
对这批样品进行生存分析(见图2),发现利用克隆层级评估的肿瘤异质性结果,对患者预后(无进展生存期)有显著的预测效果(p,0.044),较高的肿瘤异质性具有更高的进展风险(风险比为9.386)。该结果验证了利用mClone分析技术评估肿瘤异质性的有效性和准确性。
本发明的分子克隆mClone分析方法得到的分子克隆层级可以用于评估肿瘤的异质性,而肿瘤的异质性代表了肿瘤的发展阶段,异质性越大表示患者处于肿瘤的越后期,患者的肿瘤近期继续发展风险越大。以上实验数据证实了这一点。