CN108388773B

CN108388773B - 一种肿瘤新生抗原的鉴定方法

Info

Publication number: CN108388773B
Application number: CN201810101691.2A
Authority: CN
Inventors: 莫凡; 陈荣昌; 罗凯; 马志明; 周秀卿; 黄灵灵
Original assignee: Hangzhou New Ann Tianjin Biological Technology Co Ltd
Current assignee: Hangzhou New Ann Tianjin Biological Technology Co Ltd
Priority date: 2018-02-01
Filing date: 2018-02-01
Publication date: 2019-11-19
Anticipated expiration: 2038-02-01
Also published as: CN108388773A

Abstract

本发明提供了一种能够从NGS数据中分析出个体样本的肿瘤特异性抗原的方法；本发明能够利用NGS数据，快速准确的分析出个体样本的肿瘤特异性抗原，为医生的诊断和分析提供参考依据，并且可同步进行正常细胞和肿瘤细胞与人类参考基因组的比对，分析时间短，分析效率高。

Description

一种肿瘤新生抗原的鉴定方法

技术领域

本发明涉及一种使用生物信息学方法鉴定肿瘤新生抗原的技术领域。

背景技术

在肿瘤免疫治疗中，鉴定肿瘤组织细胞产生的新抗原(neoantigen)是决定下游临床治疗的关键步骤。正常细胞在癌变过程中，由于遗传物质发生改变，导致其DNA序列与其他正常细胞有差异，因此会产生肿瘤相关抗原(肿瘤细胞高表达)或肿瘤特异性抗原(只在肿瘤细胞中表达)。这些抗原由于具有标识肿瘤细胞的特异性抗原决定簇，理论上可以被抗原呈递细胞上的人类白细胞抗原(HLA)识别，然后与TCR结合，进而激活T细胞，启动免疫反应，是肿瘤免疫治疗潜在的靶点。通过对病人肿瘤组织和正常组织NGS数据的分析，可以鉴定出该组织的体细胞突变，例如点突变、插入缺失突变、结构变异、基因融合等。从这些突变事件可以预测肿瘤细胞在下游转录与表达过程发生的变化，进而推测出可能存在的新抗原，为临床治疗提供依据。

发明内容

本发明的目的在于提供一种能够从NGS数据中分析出个体样本的肿瘤特异性抗原的方法。

本发明解决其技术问题所采用的技术方案是：

一种肿瘤新生抗原的鉴定方法，包括以下步骤：

S1：获取肿瘤患者的正常细胞DNA测序结果和肿瘤细胞DNA测序结果；

S2：分别将正常细胞测序的短读段序列和肿瘤细胞测序的短读段序列比对到人类参考基因组，分别获得正常细胞的比对结果和肿瘤细胞的比对结果；

S3：从短读段的比对结果中检出所有可信的突变并进行功能注释，突变包含胚系突变和体细胞突变，

S4：根据突变的注释结果，针对每一个突变事件编辑相应转录本序列，获得一条包含所有突变的多肽序列，将多肽序列按照HLA分型结合需要的长度截取成短肽段；

S5：鉴定正常细胞的HLA(人类白细胞抗原)分型和肿瘤细胞的HLA分型，预测S4获得的短肽与正常细胞的HLA分型、短肽与肿瘤细胞的HLA分型的结合能力，；

S6：优选出与与肿瘤细胞HLA分型具有结合能力的短肽作为肿瘤抗原的候选数据。

进一步，步骤S2获得比对结果后，对比对结果进行质控，质控的内容包含：整个捕获区域的覆盖度，平均测序深度，比对率，重复序列的比重和唯一比对短读段的比重；若比对结果符合质控要求，则进入S3；若比对结果不符合质控要求，则重新获取样本，重复步骤S1和S2。

进一步，对步骤S2获得的比对结果进行优化，优化包括针对插入缺失区域的重新比对和目标区域碱基质量的修正，得到肿瘤细胞的优化比对结果和正常细胞的优化比对结果。

进一步，步骤S2中，正常细胞测序结果的短读段序列比对到人类参考基因组和肿瘤细胞测序结果的短读段序列比对到人类参考基因组同步进行。

进一步，步骤S3功能注释的范围包含突变区域，基因，转录本，碱基变化，氨基酸变化，clinvar，千人基因组，esp6500，dbsnp，cosmic,polyphen,sift，膜蛋白结构，癌症相关基因。

进一步，步骤S3检出所有可信的突变的方法为：

S3.1、得到肿瘤细胞的优化比对结果和正常细胞的优化比对结果，检测肿瘤细胞和正常细胞的胚系突变位点；

S3.2、对得到的胚系突变位点和体细胞突变位点进行过滤获得可信的突变；

S3.3、对筛选出的体细胞突变和胚系突变进行注释。

进一步，步骤S4包含所有突变的多肽序列的方法为：

S4.1、根据转录本编号从ensembl数据库中找出正常的核苷酸序列，按照突变的功能注释将核苷酸序列上相应位置的核苷酸做出修改，得到一条包含所有突变的核苷酸序列；如功能注释给出的是G100A，则将拼接核苷酸序列的第100位的碱基G修改为A。

S4.2、将包含所有突变的转录本核苷酸序列翻译成多肽序列；

S4.3、顺序获取多肽序列上的突变为当前突变，以当前突变为中心、向前截取n个氨基酸和向后截取m个氨基酸获得多肽序列，n为HLA分型所能呈递的最大长度，m为HLA分型所能呈递的最大长度、或者m为从当前突变到第一个终止密码子的长度；

S4.4，在多肽序列依次截取长度为N的短肽，N为HLA分型结合需要的长度；将包含当前突变的N条短肽用于步骤S6。例如：HLA分型结合需要的长度为8，N为8；从突变位置开始向前截取7个氨基酸、与该突变位置形成一条长度为8个氨基酸的短肽；从突变位置开始向前截取6个氨基酸，向后截取1个氨基酸，这7个氨基酸与突变位置形成第2条长度为8个氨基酸的短肽，以此类推，一共能够获得8条含有该突变的短肽。

进一步，步骤S4.1中形成核苷酸序列的方法为：按照转录本编号从数据库中找出CDS序列，在CDS序列后拼接上3’UTR区域的序列形成核苷酸序列。

进一步，步骤S4.3的截取的规则为：

A、对于点突变：以发生突变的位置为中心，向前截取n个氨基酸，向后截取m个氨基酸，n＝m＝HLA分型所能呈递的最长肽段，若前段或后段长度不足时，则有多少截多少；如果点突变属于stop loss，则m为从当前突变到第一个终止密码子的长度；

B、对于非移码突变：非移码插入要从插入序列的第一个氨基酸向前截取n个氨基酸；从插入序列的最后一个氨基酸向后截取m氨基酸，n＝m＝HLA分型所能呈递的最长肽段；以插入序列为中心，插入序列、插入序列之前的n个氨基酸和插入序列之后的m个氨基酸和共同组成多肽序列；

非移码缺失则以缺失位点为中心，分别向前截取n个氨基酸，向后截取m个氨基酸，n＝m＝HLA分型所能呈递的最长肽段；

C、对于移码突变：从开始移码突变的第一个氨基酸为中心，向前截取n个氨基酸，n＝HLA分型所能呈递的最长肽段；向后截取m个氨基酸，m为从当前突变到第一个终止密码子的长度，即向后截取至第一个终止密码子。

本发明的优点在于：

1.整个分析过程从fastq文件开始，使用者无需准备其他输入文件。

2.所有分析步骤均有相应质控步骤，提高了结果的准确性。

3.对于突变位点的鉴定更加全面，不仅考虑单个细胞的情况，也考虑整块组织的突变分布。

4.有多组学分析结果的印证。

5.关键步骤都有多种算法同时进行，既可相互验证，也降低了结果的假阴性。

6.对于耗时较长的步骤进行了算法优化和并行处理，加快了单个样本分析的速度。

附图说明

图1是本发明的流程图。

具体实施方式

如图1所示，一种肿瘤新生抗原的鉴定方法，包括以下步骤：

S2：分别将正常细胞测序结果的短读段序列和肿瘤细胞测序结果的短读段序列比对到人类参考基因组，分别获得正常细胞的比对结果和肿瘤细胞的比对结果；

S3：从短读段的比对结果中检出所有可信的突变并进行功能注释，突变包含胚系突变和体细胞突变，使用GATK的haplotypecaller功能分别检测肿瘤细胞和正常细胞的胚系突变位点；使用Mutect(1.1.7)等工具分别检测肿瘤细胞和正常细胞的体细胞突变位点；。

功能注释的范围包含突变区域，基因，转录本，碱基变化，氨基酸变化，clinvar，千人基因组，esp6500，dbsnp，cosmic,polyphen,sift，膜蛋白结构，癌症相关基因；

S4：根据突变的注释结果，获得一条包含所有突变的多肽序列，将多肽序列按照HLA分型结合需要的长度截取成短肽段；

S4.1、首先根据转录本编号从ensembl数据库找出对应的CDS区域核苷酸序列，然后拼接上3’UTR区域的序列生成野生型的转录本序列。按照突变的功能注释将核苷酸序列上相应位置的核苷酸做出修改，得到一条包含所有突变的核苷酸序列。如功能注释给出的是G100A，则将拼接核苷酸序列的第100位的碱基G修改为A。

S4.2、将包含所有突变的核苷酸序列翻译成多肽序列；

S4.4，在多肽序列依次截取长度为N的短肽，N为HLA分型结合需要的长度；将包含当前突变的短肽用于步骤S5。以N＝11为例，将获得11个包含当前突变的短肽。如果多肽序列中除了当前突变以外，还包含其他突变，并且在N个短肽中具有某些短肽同时包含当前突变和其他突变，则成为具有突变组合的短肽。

S5：鉴定正常细胞的HLA(人类白细胞抗原)分型和肿瘤细胞的HLA分型，预测S4获得的短肽与正常细胞的HLA分型、短肽与肿瘤细胞的HLA分型的结合能力。

肿瘤细胞的HLA有可能发生改变，比较正常细胞HLA分型和肿瘤细胞HLA分型的差异，比较野生型肽段(正常细胞表达)与HLA结合能力和突变型肽段(肿瘤细胞表达)与HLA结合能力的差异，获知肿瘤细胞与正常细胞的差异，为后续新生抗原的优选积累依据。

使用SOAP-HLA等工具预测正常组织样本和肿瘤组织样本的HLA分型，获得HLA_I型(A,B,C)和HLA_II型(DR,DQ,DP)。

S6：优选出与与肿瘤细胞HLA分型具有结合能力的短肽作为作为肿瘤抗原的候选数据。

分别使用多个HLA分型亲和力预测软件进行亲和力预测，如针对HLA I型(netMHC4.0等)，针对HLA II型(netMHCII 2.2等)，所有参数均为默认。预测结果会给出每一个HLA分型和每一条新生多肽的亲和力，筛选出其中亲和力较强(NM<500)的多肽。

在一个实施例中，步骤S2获得比对结果后，对比对结果进行质控，质控的内容包含：整个捕获区域的覆盖度，平均测序深度，比对率，重复序列的比重和唯一比对reads的比重；若比对结果符合质控要求，则进入S3；若比对结果不符合质控要求，则重新获取样本，重复步骤S1和S2。

一般来说我们要求Q30>80％，即测序错误率小于千分之一的reads超过80％，GC含量50％左右，链偏向性小于70％，则认为当前获得的正常细胞测序结果和肿瘤细胞测序结果能够用于之后步骤的分析。

在一个实施例中，对步骤S2获得的比对结果进行优化，优化包括针对插入缺失区域的重新比对和目标区域碱基质量的修正，得到肿瘤细胞的优化比对结果和正常细胞的优化比对结果。

步骤S2中，正常细胞测序结果的短读段序列比对到人类参考基因组和肿瘤细胞测序结果的短读段序列比对到人类参考基因组同步进行。

步骤S3检出所有可信的突变的方法为：

S3.3、对筛选出的体细胞突变和胚系突变进行注释。

在一个实施例中，突变类型为点突变时，步骤S4.3的截取的规则为：以发生突变的位置为中心，向前截取n个氨基酸，向后截取m个氨基酸，n＝m＝HLA分型所能呈递的最长肽段，若前段或后段长度不足时，则有多少截多少；如果点突变属于stop loss(丢失终止密码子)，则m为从当前突变到第一个终止密码子的长度。

如此，针对每一个突变，都可以模拟出肿瘤细胞中所有可能含有这个突变的短肽，最后通过与该患者HLA分型的结合力预测，筛选出有结合能力的短肽，作为肿瘤抗原的候选数据。

目前，HLA分型结合需要的最大长度为HLA II型结合需要的16个氨基酸，因此，n＝m＝16。

以HLA分型结合需要的长度为8，N＝8为例；从当前点突变开始向前截取7个氨基酸、与当前点突变形成一条长度为8个位点的短肽；从当前点突变开始向前截取6个氨基酸，向后截取1个氨基酸，这7个氨基酸与当前点突变形成第2条长度为8个位点的短肽，以此类推，一共能够获得8条含有当前点突变的短肽。

在一个实施例中，突变类型为非移码突变时，步骤S4.3的截取的规则为：非移码插入要从插入序列的第一个氨基酸向前截取n个氨基酸；从插入序列的最后一个氨基酸向后截取m氨基酸，n＝m＝HLA分型所能呈递的最长肽段；以插入序列为中心，插入序列、插入序列之前的n个氨基酸和插入序列之后的m个氨基酸和共同组成多肽序列。

非移码缺失则以缺失位点为中心，分别向前截取n个氨基酸，向后截取m个氨基酸，n＝m＝HLA分型所能呈递的最长肽段。

在一个实施例中，突变类型为移码突变时，步骤S4.3的截取的规则为：从开始移码突变的第一个氨基酸为中心，向前截取n个氨基酸，n＝HLA分型所能呈递的最长肽段；向后截取m个氨基酸，m为从当前突变到第一个终止密码子的长度，即向后截取至第一个终止密码子。

目前，HLA分型结合需要的最大长度为HLA II型结合需要的16个氨基酸，因此，n＝16。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员，在不脱离本发明构思的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明保护范围内。

Claims

1.一种肿瘤新生抗原的鉴定方法，包括以下步骤：

S1：获取肿瘤患者的正常细胞测序结果和癌变细胞测序结果；

S2：分别将正常细胞测序结果的短读段序列和癌变细胞测序结果的短读段序列比对到人类参考基因组，分别获得正常细胞的比对结果和癌变细胞的比对结果；

S3：从短读段的比对结果中检出所有可信的突变并进行功能注释，突变包含胚系突变和体细胞突变，功能注释的范围包含所有突变；

S4：根据突变的注释结果，罗列出所有由这些突变或突变的组合而产生的抗原肽段；

S4.1、根据转录本编号从ensembl数据库中找出正常的核苷酸序列，按照突变的功能注释将核苷酸序列上相应位置的核苷酸做出修改，得到一条包含所有突变的核苷酸序列；

S4.2、将包含所有突变的转录本核苷酸序列翻译成多肽序列；

S4.3、顺序获取多肽序列上的突变为当前突变，以当前突变为中心、向前截取n个氨基酸和向后截取m个氨基酸获得多肽序列，n为HLA分型所能呈递的最大长度，m为HLA分型所能呈递的最大长度、或者m为从当前突变到第一个终止密码子的长度；m≥n；

S4.4、在多肽序列依次截取长度为N的短肽，N为HLA分型结合需要的长度，将包含当前突变的N条短肽用于步骤6；

S5：从步骤S1中的正常细胞测序结果获得正常细胞的HLA分型，和从步骤S1中的癌变细胞测序结果获得癌变细胞的HLA（人类白细胞抗原）分型，分别预测正常细胞的HLA分型和癌变细胞的HLA分型与步骤S4获得抗原肽段在细胞环境的结合能力；

S6：筛选出与患者HLA分型结合能力好的抗原肽段；

S7：从步骤S6筛选出的抗原肽段中找出肿瘤抗原。

2.根据权利要求1所述的一种肿瘤新生抗原的鉴定方法，其特征在于：步骤S2获得比对结果后，对比对结果进行质控，质控的内容包含：整个捕获区域的覆盖度，平均测序深度，比对率，重复序列的比重和唯一比对短读段的比重；若比对结果符合质控要求，则进入S3；若比对结果不符合质控要求，则重新获取样本，重复步骤S1和S2。

3.根据权利要求2所述的一种肿瘤新生抗原的鉴定方法，其特征在于：对步骤S2获得的比对结果进行优化，优化包括针对插入缺失区域的重新比对和目标区域碱基质量的修正，得到肿瘤细胞的优化比对结果和正常细胞的优化比对结果。

4.根据权利要求3所述的一种肿瘤新生抗原的鉴定方法，其特征在于：步骤S2中，正常细胞测序结果的短读段序列比对到人类参考基因组和肿瘤细胞测序结果的短读段序列比对到人类参考基因组同步进行。

5.根据权利要求书1所述的一种肿瘤新生抗原的鉴定方法，其特征在于：步骤S3功能注释的范围包含突变区域，基因，转录本，碱基变化，氨基酸变化，clinvar，千人基因组，esp6500，dbsnp，cosmic,polyphen,sift，膜蛋白结构，癌症相关基因。

6.根据权利要求5所述的一种肿瘤新生抗原的鉴定方法，其特征在于：步骤S3检出所有可信的突变的方法为：

S3.3、对筛选出的体细胞突变和胚系突变进行注释。

7.根据权利要求1所述的一种肿瘤新生抗原的鉴定方法，其特征在于：步骤S4.1中形成核苷酸序列的方法为：按照转录本编号从数据库中找出CDS序列，在CDS序列后拼接上3’UTR区域的序列形成核苷酸序列。

8.根据权利要求7所述的一种肿瘤新生抗原的鉴定方法，其特征在于：步骤S4.3的截取的规则为：

A、对于点突变：以发生突变的位置为中心，向前截取n个氨基酸，向后截取m个氨基酸，n＝m＝HLA分型所能呈递的最长肽段，若前段或后段长度不足时，则有多少截多少；如果点突变属于stoploss，则m为从当前突变到第一个终止密码子的长度；

B、对于非移码突变：非移码插入要从插入序列的第一个氨基酸向前截取n个氨基酸；从插入列的最后一个氨基酸向后截取m氨基酸，n＝m＝HLA分型所能呈递的最长肽段；以插入序列为中心，插入序列、插入序列之前的n个氨基酸和插入序列之后的m个氨基酸和共同组成多肽序列；