发明内容
因此,本发明的目的在于提供一种基于单样本的肿瘤突变负荷检测方法和装置。同时,本发明还提供一种探针组合物、一种捕获芯片和一种人肿瘤多基因检测试剂盒。
一种探针组合物,包括捕获表1所示基因的外显子区域的探针,捕获表2所示基因的内含子、启动子、融合断点区域的探针,以及捕获表3所示基因的编码区区域的探针。
本发明提供的一种捕获芯片,包括所述的探针组合物。
本发明提供的一种人肿瘤多基因检测试剂盒,包括靶序列捕获组分;
所述靶序列捕获组分包括所述的探针组合物。
所述试剂盒还包括核酸纯化组分、文库构建与质控组分;
所述靶序列捕获组分还包括杂交反应液、洗脱反应液、引物、接头和DNA聚合酶反应液。
本发明提供一种基于单样本的肿瘤突变负荷检测方法,包括,
利用所述的人肿瘤多基因检测试剂盒对待测肿瘤样本进行核酸纯化、文库构建和探针捕获,所得捕获序列上机测序,获取待测肿瘤样本的目标区域测序数据;
将所述测序数据与参考基因组比对,获得比对结果;
基于所述比对结果,以正常基线数据库作为其中一个输入文件,进行变异位点检测,得到原始变异结果;
过滤所述原始变异结果中与正常样本正常基线数据库重合的位点,即过滤掉含有panel of normals标签的突变位点,得到第一体细胞突变数据集;
过滤所述第一体细胞突变数据集中的高频率生殖突变位点,得到第二体细胞突变数据集;
筛选出所述第二体细胞突变数据集中的克隆类型体细胞突变位点;
计算肿瘤突变负荷TMB,TMB=s/n;
所述n为编码区碱基百万数,s为克隆类型体细胞突变位点的数量。
所述的基于单样本的肿瘤突变负荷检测方法,还包括,
对所述测序数据进行过滤及质控:过滤测序数据中的接头序列,并对过滤后数据的碱基质量大于20的百分比(Q20)、碱基质量大于30的百分比(Q30)、GC含量、N含量(N_Rate)、平均读长长度(Average_read_length)和过滤后碱基占比(Clean_base_ratio)进行筛选,选择符合设定阈值的数据;
对所述比对结果进行质控:比对结果进行去重和排序处理,并对比对上的数据进行比对率、捕获效率、污染率、目标区域平均测序深度的筛选,选择符合设定阈值的数据;
所述对比对上参考基因组的数据进行筛选之前,还包括利用GATKRealignerTargetCreator和IndelRealigner模块对比对过程中发现的有潜在序列插入或者序列删除的区域进行重新比对,并应用GATK BaseRecalibrator模块对重新比对后的文件进行碱基质量值校正。
其中,上述各参数的设定阈值可以根据试验需求而定。
所述变异位点包括单核苷酸位点突变和/或插入缺失突变;
所述变异位点检测使用GATK MuTect2单样本模式和/或Freebayes软件,采用目标捕获区域和/或非目标捕获区域组合模式;
所述变异位点检测时,进行变异位点深度阈值过滤;所述阈值≤该突变位点的测序深度。
正常样本正常基线数据库的构建包括:获取正常样本的测序数据,将所述测序数据与参考基因组比对,所得比对结果构建正常样本的正常基线数据库;优选地,使用GATK的CreateSomaticPanelOfNormals模块构建正常基线数据库;
所述正常基线数据库内的突变位点含有panel of normals标签;
所述正常样本为非肿瘤血液样本和/或组织样本;
所述正常样本的测序数据与所述待测肿瘤样本的测序数据采用的试剂盒、测序平台、测序读长相同;
所述正常样本的测序深度≥目标捕获区域平均测序深度/5。
所述正常样本的测序数据进行与所述待测肿瘤样本相同的过滤和质控、比对及质控。
对所述第一体细胞突变数据集进行数据库注释,以过滤所述第一体细胞突变数据集中的高频率生殖突变位点;
所述数据库为人群数据库;所述人群数据库包括ESP6500数据库、千人基因组计划数据库、ExAC人类外显子组整合数据库、COSMIC肿瘤基因体细胞突变的数据库和GENOMAD;
对任一所述数据库中人群频率为n的突变位点进行注释并做标记,1‰≤n≤5%。其中,n根据具体分析需求而定。
所述克隆类型体细胞突变位点的筛选包括,
对第二体细胞突变数据集计算肿瘤纯度和拷贝数,从而将这两个信号作为absCN-seq、ABSOLUTE、ASCAT、PureCN单个或组合软件的输入,计算突变在肿瘤组织中的比例;根据突变在肿瘤组织中的比例,对所述第二体细胞突变数据集的克隆和亚克隆判断、体细胞突变位点的最大似然值、先验概率、不可靠性及突变位点位置是否在目标捕获区域同时进行筛选,获得符合设定阈值的可靠的克隆类型体细胞突变位点。
进一步地,所述肿瘤纯度和拷贝数的计算步骤包括,
选择第二体细胞突变数据集,将碱基频率小于30%或大于70%的单核苷酸位点突变位点定义为纯合位点,将剔除纯合位点的单核苷酸位点突变作为计算位点,用LogR来表示位点总的信号强度,用BAF表示B碱基的频率,将这两个信号作为absCN-seq、ABSOLUTE、ASCAT、PureCN单个或组合软件的输入,得到肿瘤纯度和拷贝数;
假设单核苷酸位点突变位点有A、B两种碱基组成,则:
其中,i表示单核苷酸位点突变位点,nA,i表示i位点的A碱基的深度,nB,i表i位点的B碱基的深度,D表示突变肿瘤的平均深度,BAF表示B碱基的频率。
本发明还提供一种基于单样本的肿瘤突变负荷检测装置,包括,
实验模块,使用人肿瘤多基因检测试剂盒对待测肿瘤样本进行核酸纯化、文库构建和探针捕获,获取捕获序列;
测序模块,应用Gene+Seq系列测序平台对所述捕获序列进行测序,获取待测肿瘤样本的测序数据;
比对模块,用于将所述测序数据与参考基因组进行比对,获取比对结果;
原始变异结果提取模块,用于对所述比对结果进行变异位点检测,获取原始变异结果;
第一过滤模块,用于过滤所述原始变异结果中与正常样本正常基线数据库重合的位点,获取第一体细胞突变数据集;
第二过滤模块,用于过滤所述第一体细胞突变数据集中人群数据库包含的高频率生殖突变位点,获取第二体细胞突变数据集;
第三过滤模块,用于筛选第二体细胞突变数据集中的克隆类型体细胞突变位点;
计算模块,用于计算肿瘤突变负荷TMB,TMB=s/n;所述n为编码区碱基百万数,s为克隆类型体细胞突变位点的数量。
所述测序模块包括过滤及质控单元,用于过滤样本测序数据中的接头序列,并对过滤后数据的碱基质量大于20的百分比(Q20)、碱基质量大于30的百分比(Q30)、GC含量、N含量(N_Rate)、平均读长长度(Average_read_length)和过滤后碱基占比(Clean_base_ratio)进行筛选,选择符合设定阈值的数据。
所述比对模块包括第一质控单元,用于对比对结果进行去重和排序处理,并对比对上的数据进行对比对率、捕获效率、污染率、目标区域平均测序深度进行筛选,选择符合设定阈值的数据。
所述比对模块还包括第二质控单元,用于在所述比对上的数据进行筛选之前,将比对过程中发现的有潜在序列插入或者序列删除的区域进行重新比对,并对重新比对后的文件进行碱基质量值校正。
所述第一过滤模块包括正常样本正常基线数据库构建单元;
所述第二过滤模块包括数据库注释单元,用于对所述第一体细胞突变数据集进行数据库注释,以过滤所述第一体细胞突变数据集中的高频率生殖突变位点;
所述第三过滤模块包括克隆类型体细胞突变位点筛选单元,用于对所述第二过滤模块获得的第二体细胞突变数据集的克隆和亚克隆判断、体细胞突变位点的最大似然值、先验概率、不可靠性及突变位点位置是否在目标捕获区域同时进行筛选,获得符合设定阈值的克隆类型体细胞突变位点。
本发明技术方案,具有如下优点:
1、本发明提供的探针组合物,包括捕获表1所示基因的外显子区域的探针,捕获表2所示基因的内含子、启动子、融合断点区域的探针,以及捕获表3所示基因的编码区区域的探针,该探针组合物能够定性检测样本中1021个基因的改变,包括碱基置换(SNV)、插入缺失(Indel)等突变类型,实现对基因组特征进行准确检测。
2、本发明提供的基于单样本的肿瘤突变负荷检测方法包括,利用所述的人肿瘤多基因检测试剂盒对待测肿瘤样本进行核酸纯化、文库构建和探针捕获,所得捕获序列上机测序,获取待测肿瘤样本的目标区域测序数据;将所述测序数据与参考基因组比对,获得比对结果;基于所述比对结果,进行变异位点检测,得到原始变异结果;过滤所述原始变异结果中与正常样本正常基线数据库重合的位点,得到第一体细胞突变数据集;过滤所述第一体细胞突变数据集中的高频率生殖突变位点,得到第二体细胞突变数据集;筛选出所述第二体细胞突变数据集中的可靠克隆类型体细胞突变位点;计算肿瘤突变负荷。该检测方法在无配对样本的情况下,也能准确地检测肿瘤样本的TMB。且该检测方法不需要做检测体细胞突变所必须的对照样本及分析体细胞突变,节省了对照样本的实验、测序及分析的步骤,从而大幅度降低了实验、分析及解读的复杂度,节约成本,减少分析时间。
3、本发明提供的基于单样本的肿瘤突变负荷检测方法采用目标捕获区域和/或非目标捕获区域组合模式分析数据,最大限度利用了测序数据;利用经过相同流程处理的非肿瘤组织和/或血液样本正常基线数据库(normal of panel)的系统性偏差作为背景过滤器,使得基于panel的单样本TMB检测结果和配对样本保持高度一致;选择性的注释人群数据库,排除了人群中肿瘤发生发展相关的高频率生殖突变位点;基于纯度估计预测模型及拷贝数对体细胞突变位点进行克隆和亚克隆分类,过滤假阳性变异,提高了预测一致性;建立筛选机制,保留了肿瘤重要突变类型,准确地对肺癌样本的TMB指标进行检测。
具体实施方式
提供下述实施例是为了更好地进一步理解本发明,并不局限于所述最佳实施方式,不对本发明的内容和保护范围构成限制,任何人在本发明的启示下或是将本发明与其他现有技术的特征进行组合而得出的任何与本发明相同或相近似的产品,均落在本发明的保护范围之内。
除非另有说明,否则本文使用的所有技术和科学术语具有本发明所述领域的常规技术人员通常理解的相同含义。
本发明中的术语及其缩写含义如下:
肿瘤突变负荷(Tumor Mutation Burden,TMB)
靶向捕获(panel)
目标捕获区域(on target)
非目标捕获区域(off target)
生殖突变位点(germline mutation)
过滤后的碱基占比(Clean_base_ratio)
正常基线数据库(normal of panel)
单核苷酸位点(SNP)
插入缺失突变(INDEL)
所测肿瘤组织中的比例(cancer cell fraction)
BAF(B Allele Frequency)
细胞程序性死亡蛋白1(Programmed Cell Death protein 1,PD-1)
免疫检查点抑制(immune checkpoint inhibitor,ICI)
微卫星不稳定(microsatellite instability,MSI)
错配基因修复缺失(Mismatch Repair,MMR)
实施例1
本发明提供一种探针组合物,包括捕获表1所示312个基因的全部4847外显子区域的探针,捕获表2所示38个基因的内含子、启动子、融合断点区域的探针,以及捕获表3所示709个其它相关基因的1778个编码区区域的探针。可以理解地,本发明的关键在于探针捕获区域的设计,在确定捕获区域后,具体的探针设计可以参考现有的捕获探针设计方案,在此不累述。
表1 312个基因的全部4847外显子区域
| ABL1 |
ACVR1B |
AKT1 |
AKT2 |
AKT3 |
ALK |
APC |
AR |
| ARAF |
ARID1A |
ARID1B |
ARID2 |
ASXL1 |
ATM |
ATR |
ATRX |
| AURKA |
AURKB |
AXIN1 |
AXIN2 |
AXL |
B2M |
BAP1 |
BARD1 |
| BCL2 |
BCL2L1 |
BCOR |
BLM |
BMPR1A |
BRAF |
BRCA1 |
BRCA2 |
| BRD4 |
BRIP1 |
BTK |
CARD11 |
CASP8 |
CBFB |
CBL |
CCND1 |
| CCND2 |
CCND3 |
CCNE1 |
CD274 |
CDC73 |
CDH1 |
CDK12 |
CDK4 |
| CDK6 |
CDK8 |
CDKN1A |
CDKN1B |
CDKN2A |
CDKN2B |
CDKN2C |
CEBPA |
| CHEK1 |
CHEK2 |
CIC |
CREBBP |
CRKL |
CSF1R |
CTCF |
CTNNA1 |
| CTNNB1 |
CUL3 |
CYLD |
DAXX |
DDR1 |
DDR2 |
DICER1 |
DNMT3A |
| DOT1L |
EGFR |
EIF1AX |
EMSY |
EP300 |
EPAS1 |
EPCAM |
EPHA2 |
| EPHA3 |
EPHA5 |
EPHB1 |
EPHB6 |
ERBB2 |
ERBB3 |
ERBB4 |
ERCC1 |
| ERCC3 |
ERCC4 |
ERCC5 |
ERG |
ERRFI1 |
ESR1 |
EXT1 |
EXT2 |
| EZH2 |
FAM123B |
FAM175A |
FANCA |
FANCC |
FANCD2 |
FANCE |
FANCF |
| FANCG |
FANCL |
FANCM |
FAS |
FAT1 |
FAT2 |
FBXW7 |
FGF19 |
| FGF3 |
FGF4 |
FGFR1 |
FGFR2 |
FGFR3 |
FGFR4 |
FH |
FLCN |
| FLT1 |
FLT3 |
FLT4 |
FOXA1 |
FOXL2 |
FOXP1 |
FUBP1 |
GALNT12 |
| GATA3 |
GNA11 |
GNAQ |
GNAS |
GRIN2A |
GRM3 |
HDAC1 |
HGF |
| HNF1A |
HOXB13 |
HRAS |
IDH1 |
IDH2 |
IFNG |
IFNGR1 |
IGF1R |
| IKBKE |
IKZF1 |
IL7R |
INPP4B |
IRF2 |
IRS2 |
JAK1 |
JAK2 |
| JAK3 |
JUN |
KDM5A |
KDM5C |
KDM6A |
KDR |
KEAP1 |
KIT |
| KRAS |
LRP1B |
MAF |
MAP2K1 |
MAP2K2 |
MAP2K4 |
MAP3K1 |
MAPK1 |
| MAX |
MCL1 |
MDM2 |
MDM4 |
MED12 |
MEF2B |
MEN1 |
MET |
| MITF |
MLH1 |
MLH3 |
MLL |
MLL2 |
MLL3 |
MPL |
MRE11A |
| MS4A1 |
MSH2 |
MSH3 |
MSH6 |
MST1R |
MTOR |
MUTYH |
MYC |
| MYCL1 |
MYCN |
MYD88 |
NBN |
NCOR1 |
NF1 |
NF2 |
NFE2L2 |
| NFKB1A |
NKX2-1 |
NOTCH1 |
NOTCH2 |
NOTCH3 |
NPM1 |
NRAS |
NSD1 |
| NTHL1 |
NTRK1 |
NTRK2 |
NTRK3 |
PALB2 |
PARK2 |
PARP1 |
PAX5 |
| PBRM1 |
PCK1 |
PDCD1 |
PDCD1LG2 |
PDGFRA |
PDGFRB |
PDK1 |
PIK3CA |
| PIK3CB |
PIK3CG |
PIK3R1 |
PIK3R2 |
PMS1 |
PMS2 |
POLD1 |
POLE |
| POT1 |
PPP2R1A |
PRDM1 |
PRKAR1A |
PTCH1 |
PTCH2 |
PTEN |
PTPN11 |
| PTPRD |
RAC1 |
RAD50 |
RAD51 |
RAD51B |
RAD51C |
RAD51D |
RAD52 |
| RAD54L |
RAF1 |
RARA |
RB1 |
RBM10 |
RECQL |
RECQL4 |
RET |
| RHOA |
RICTOR |
RINT1 |
RNF43 |
ROS1 |
RPTOR |
RUNX1 |
SDHA |
| SDHAF2 |
SDHB |
SDHC |
SDHD |
SERPINB3 |
SERPINB4 |
SETD2 |
SF3B1 |
| SLX4 |
SMAD2 |
SMAD3 |
SMAD4 |
SMARCA4 |
SMARCB1 |
SMO |
SOCS1 |
| SOX2 |
SOX9 |
SPOP |
SRC |
STAG2 |
STAT3 |
STK11 |
SUFU |
| SYK |
TBX3 |
TCF7L2 |
TERC |
TET2 |
TGFBR2 |
TMEM127 |
TMPRSS2 |
| TNFAIP3 |
TNFRSF14 |
top1 |
top2A |
TP53 |
TSC1 |
TSC2 |
TSHR |
| U2AF1 |
VEGFA |
VHL |
WRN |
WT1 |
XPO1 |
XRCC2 |
ZMAT3 |
表2 38个基因内含子、启动子、融合断点区域
表3 709个其它相关基因的1778个编码区区域
实施例2
一种人肿瘤多基因检测试剂盒,包括靶序列捕获组分、核酸纯化组分、文库构建与质控组分。其中,靶序列捕获组分包括捕获表1所示312个基因的全部4847外显子区域的探针,捕获表2所示38个基因的内含子、启动子、融合断点区域的探针,以及捕获表3所示709个其它相关基因的1778个编码区区域的探针。该探针组合物命名为cd3探针。对于探针组合物,可以选择常规的方法对其设计。其中,靶序列捕获组分还包括杂交反应液、洗脱反应液、引物和接头以及DNA聚合酶反应液。
在一个示例性实施方案中,所述试剂盒包括的组分如表4所示。
表4人肿瘤多基因检测试剂盒的组分
**注:不同批号试剂盒中各组分不可互换;
上述表4中人肿瘤多基因检测试剂盒的组分均为市售产品,虽然不同批号不同厂家的组分可能略有不同,但只要能够起到预期作用,能够实施即可。
实施例3
本实施例基于单样本的肿瘤突变负荷检测方法的流程图如图1所示,包括如下步骤:
(1)实验及测序步骤
选取241例肺腺癌肿瘤样本,提取待测肿瘤样本的DNA,并使用实施例2中人肿瘤多基因检测试剂盒(表4)的核酸纯化组分对待肿瘤样本的DNA进行纯化,使用文库构建与质控组分实现文库构建,包括DNA修复、DNA片段化、末端修复及加A碱基,接头连接和文库扩增;使用靶序列捕获组分对文库进行杂交捕获,所得捕获产物进行扩增。应用Gene+Seq-2000测序平台进行100bp序列长度双端测序,获取待测肿瘤样本的目标区域测序数据。
上述核酸纯化、文库构建与质控、杂交、捕获、洗脱、捕获产物扩增,可以选择本领域常用的方法进行。
(2)测序数据质控及过滤步骤
所得测序数据去除测序接头序列,得到过滤数据,所得过滤数据使用fastp软件进行质控,选择符合以下设定阈值的数据:Q20>90%、Q30>85%、GC含量>40%并且<60%、N含量<10.00%、平均读长长度>90bp并且<=110bp和Clean_base_ratio>80%。
(3)序列比对及质控步骤
将步骤(2)中质控后数据通过BWA-mem软件比对到人的参考基因组(GRCh37),比对结果直接进行去重和排序处理;再利用GATK RealignerTargetCreator和IndelRealigner模块将比对过程中发现的有潜在序列插入或者序列删除的区域进行重新比对,并应用GATKBaseRecalibrator模块对重新比对后的文件进行碱基质量值校正;再通过BamQC软件对比对结果文件进行质控,从比对上的数据中,选择符合以下设定阈值的数据:比对率>90%、捕获效率>60%、污染率<10%、目标区域平均测序深度>500X。
(4)变异位点检测步骤
对步骤(3)中质控后数据进行变异位点检测。使用GATK MuTect2单样本模式对241例肺腺癌肿瘤样本进行变异位点检测,包含发生单核苷酸位点突变及插入缺失突变。本发明采用on和/或off target组合模式分析数据,以达到最大限度利用测序数据的目的,但target区域和off target区域测序深度存在显著差异,本实施例对变异检测位点的测序深度进行15X过滤,得到原始变异结果。
(5)第一体细胞突变数据集获取步骤
利用相同的引物和/或探针,使用同一平台,获得同一测序读长的241例肺腺癌正常血液样本的测序数据,深度大于等于200X。将正常样本捕获到的测序数据比对人的参考基因组(GRCh37)。使用GATK的CreateSomaticPanelOfNormals模块构建正常样本正常基线数据库。正常基线数据库内的突变位点含有panel of normals标签。
过滤原始变异结果中与正常样本正常基线数据库重合的位点,即过滤掉含有panel of normals标签的突变位点,得到第一体细胞突变数据集。
(6)第二体细胞突变数据集获取步骤
对第一体细胞突变数据集进行人群数据库注释,包括ESP6500数据库、千人基因组计划数据库(1000G)、ExAC人类外显子组整合数据库以及COSMIC肿瘤基因体细胞突变数据库、GENOMAD,在任意一个数据库中出现频率n突变位点进行标记(n≥1‰),以去除在人群中出现频率较高的germline突变位点,得到第二体细胞突变数据集。
(7)克隆类型体细胞突变位点筛选步骤
应用PureCN软件计算拷贝数和肿瘤纯度估计。具体选择第二体细胞突变数据集,将碱基频率小于30%或大于70%的SNP位点定义为纯合位点,将踢掉纯合位点后的SNP作为计算位点。用LogR来表示位点总的信号强度,用BAF表示B碱基的频率,将这两个信号作为软件的输入。
假设SNP位点有A、B两种碱基组成,则它们的关系表示如下面的公式:
其中,i表示SNP位点,nA,i表示i位点的A碱基的深度,nB,i表i位点的B碱基的深度,D表示突变肿瘤的平均深度,BAF表示B碱基的频率。
根据肿瘤纯度以及拷贝数,量化突变在所测肿瘤组织中的比例。根据突变在肿瘤组织中的比例,对所述第二体细胞突变数据集的克隆条件判定(SOMATIC.M0)>0、体细胞突变位点的最大似然值(ML.SOMATIC)为TRUE、先验概率(POSTERIOR.SOMATIC)>0.8、不可靠性(FLAGGED)为FALSE及其突变位点位置位于目标捕获区域(on.target)=1共五个判定条件同时进行筛选,获得位于目标捕获区域的可靠克隆类型体细胞突变位点。
表5为样本190008331FD肿瘤纯度估算结果,共10个体细胞突变位点符合过滤标准。
表5样本190008331FD肿瘤纯度估计结果
(8)肿瘤突变负荷计算步骤
肿瘤突变负荷为每百万碱基的平均突变数量。计算公式为:TMB=s/n。
其中,n为编码区碱基百万数,其计算为将各个被设计用来捕获相关基因的探针之间去除重叠部分后累计得到;s为克隆类型体细胞突变位点的数量,其为符合筛选阈值的克隆类型体细胞突变位点的数量。
采用本实施例方法,样本190008331FD的TMB计算结果为10.42。
实施例4
本实施例提供基于单样本的肿瘤突变负荷检测装置,包括,
实验模块,使用人肿瘤多基因检测试剂盒对待测肿瘤样本进行核酸纯化、文库构建和探针捕获,获取捕获序列;杂交捕获使用的探针组合物,包括捕获表1所示312个基因的全部4847外显子区域的探针,捕获表2所示38个基因的内含子、启动子、融合断点区域的探针,以及捕获表3所示709个其它相关基因的1778个编码区区域的探针.该探针组合物命名为cd3探针。
测序模块,应用Gene+Seq系列测序平台对所述捕获序列进行测序,获取待测肿瘤样本的测序数据;
比对模块,用于将所述测序数据与参考基因组进行比对,获取比对结果;
原始变异结果提取模块,用于对所述比对结果进行变异位点检测,获取原始变异结果;
第一过滤模块,用于过滤所述原始变异结果中与正常样本正常基线数据库重合的位点,获取第一体细胞突变数据集;
第二过滤模块,用于过滤所述第一体细胞突变数据集中的高频率生殖突变位点,获取第二体细胞突变数据集;
第三过滤模块,用于筛选第二体细胞突变数据集中的克隆类型体细胞突变位点;
计算模块,用于计算肿瘤突变负荷TMB,TMB=s/n;所述n为编码区碱基百万数,s为克隆类型体细胞突变位点的数量。
所述获取模块包括过滤及质控单元,用于过滤样本测序数据中的接头序列,并对过滤后数据的Q20、Q30、GC含量、N含量、平均读长长度和Clean_base_ratio进行筛选,选择符合设定阈值的数据。
所述比对模块包括第一质控单元,用于对比对结果进行去重和排序处理,并对比对上的数据进行对比对率、捕获效率、污染率、目标区域平均测序深度进行筛选,选择符合设定阈值的数据。
所述比对模块还包括第二质控单元,用于在所述比对上的数据进行筛选之前,将比对过程中发现的有潜在序列插入或者序列删除的区域进行重新比对,并对重新比对后的文件进行碱基质量值校正。
所述第一过滤模块包括正常样本正常基线数据库构建单元。
所述第二过滤模块包括数据库注释单元,用于对所述第一体细胞突变数据集进行数据库注释,以过滤所述第一体细胞突变数据集中的高频率生殖突变位点。
所述第三过滤模块包括克隆类型体细胞突变位点筛选单元,用于对所述第二过滤模块获得的第二体细胞突变数据集的克隆和亚克隆判断、体细胞突变位点的最大似然值、先验概率、不可靠性及突变位点位置是否在目标捕获区域同时进行筛选,获得符合设定阈值的克隆类型体细胞突变位点。
对比例1
241例肺腺癌样本常规配对样本模式下,肿瘤突变负荷检测包括如下步骤:
(1)实验及测序步骤
选取241例肺腺癌肿瘤样本及其配对正常样本(此处正常样本包含但不局限于组织,血浆及白细胞),提取待测肿瘤样本及其配对正常样本的DNA,并使用实施例2中人肿瘤多基因检测试剂盒(表4)的核酸纯化组分对待肿瘤样本的DNA进行纯化,使用文库构建与质控组分实现文库构建,包括DNA修复、DNA片段化、末端修复及加A碱基,接头连接和文库扩增;使用靶序列捕获组分对文库进行杂交捕获,所得捕获产物进行扩增。应用Gene+Seq-2000测序平台进行100bp序列长度双端测序,获取待测肿瘤样本的目标区域测序数据。
上述核酸纯化、文库构建与质控、杂交、捕获、洗脱、捕获产物扩增,可以选择本领域常用的方法进行。与本发明实施例3采用相同的方法。
(2)测序数据质控及过滤步骤
所得测序数据去除测序接头序列,得到过滤数据,所得过滤数据使用fastp软件进行质控,选择符合以下设定阈值的数据:Q20>90%、Q30>85%、GC含量>40%并且<60%、N含量<10.00%、平均读长长度>90bp并且<=110bp和Clean_base_ratio>80%。
(3)序列比对及质控步骤
将步骤(2)中质控后数据通过BWA-mem软件比对到人的参考基因组(GRCh37),比对结果直接进行去重和排序处理;再利用GATK RealignerTargetCreator和IndelRealigner模块将比对过程中发现的有潜在序列插入或者序列删除的区域进行重新比对,并应用GATKBaseRecalibrator模块对重新比对后的文件进行碱基质量值校正;再通过BamQC软件对比对结果文件进行质控,从比对上的数据中,选择符合以下设定阈值的数据:比对率>90%、捕获效率>60%、污染率<10%、肿瘤样本目标区域平均测序深度>500X、配对正常样本目标区域平均测序深度>200X。
(4)变异位点检测步骤
对步骤(3)中质控后数据进行变异位点检测。使用GATK MuTect2配对样本模式对241例肺腺癌肿瘤样本进行变异位点检测,包含发生单核苷酸位点突变及插入缺失突变。本实施例对变异检测位点的测序深度进行15X过滤,得到原始变异结果。
(5)体细胞突变数据集获取步骤
对原始变异结果数据集进行人群数据库注释,包括ESP6500数据库、千人基因组计划数据库(1000G)、ExAC人类外显子组整合数据库以及COSMIC肿瘤基因体细胞突变数据库、GENOMAD,在任意一个数据库中出现频率n突变位点进行标记(n≥1‰),以去除在人群中出现频率较高的germline突变位点。
(6)肿瘤突变负荷计算步骤
肿瘤突变负荷为每百万碱基的平均突变数量。计算公式为:TMB=s/n。
其中,n为编码区碱基百万数,其计算为将各个被设计用来捕获相关基因的探针之间去除重叠部分后累计得到;s为体细胞突变的数量,其为符合筛选阈值的体细胞突变的数量。
采用本对比例方法,样本190008331FD的TMB计算结果为10.42。
表6为241例肺腺肿瘤样本在单样本模式下(实施例3)与配对样本模式下(对比例1)计算的TMB数值表,其中Single_TMB为单样本计算结果,Pair_TMB为配对样本计算结果。
表6 241例肺腺肿瘤样本单样本模式下与配对样本模式下计算的TMB数值表
实验例
根据表6,对比实施例3中241例肺腺肿瘤样本单样本模式下计算的肿瘤突变负荷与对比例1中241例肺腺肿瘤样本配对样本模式下计算的肿瘤突变负荷的结果,计算皮尔逊相关系数,结果如图2所示。x轴为实施例3方法计算的TMB,y轴为对比例1方法计算的TMB;从图中可知,二者相关性为0.9936。
结果表明,实施例3基于单样本的肿瘤突变负荷检测方法对TMB预估的准确性高,在无配对样本的情况下,也能准确地检测肿瘤样本的TMB,故可通过TMB对患者进行用药指导。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。