CN110636852A

CN110636852A - 新抗原的鉴别、制造及使用

Info

Publication number: CN110636852A
Application number: CN201880026206.8A
Authority: CN
Inventors: T·鲍彻; B·布里克-沙利文; J·巴斯比; R·耶冷斯凯
Original assignee: Millstone Cancer Biotech Corp
Current assignee: Seattle Project Co
Priority date: 2017-04-19
Filing date: 2018-04-19
Publication date: 2019-12-31
Also published as: JP7217711B2; BR112019021782A2; CO2019012345A2; IL269855A; JP2023055775A; US20250316334A1; CA3060569A1; JP7530455B2; AU2018254526B2; SG11201909652WA; AU2024202903A1; IL269855B1; AU2018254526A1; KR20190140935A; IL269855B2; MX2019012433A; US20210113673A1; KR20250120444A; KR102841050B1; EP3612965A1

Abstract

本文公开了一种用于确定如基于个体的肿瘤突变确定的等位基因、新抗原及疫苗组合物的系统和方法。还公开了用于从肿瘤获得高质量测序数据的系统和方法。此外，本文也描述了用于在多态性基因组数据中鉴别体细胞变化的系统和方法。最后，本文描述了独特的癌症疫苗。

Description

新抗原的鉴别、制造及使用

背景技术

基于肿瘤特异性新抗原的治疗性疫苗作为新一代个性化癌症免疫疗法具有广阔的前景。^1-3鉴于产生新抗原的可能性相对较高，具有高突变负荷的癌症，如非小细胞肺癌(NSCLC)和黑素瘤成为此类疗法的特别值得关注的靶标。^4，5早期有证据显示，基于新抗原的疫苗接种能够引起T细胞反应⁶并且靶向新抗原的细胞疗法在某些情况下能够在选择的患者中引起肿瘤消退。⁷MHC I类和II类MHC都对T细胞响应具有影响^70-71。

新抗原疫苗设计的一个问题是在受试者肿瘤内存在的众多编码突变中，哪种突变可以产生“最佳的”治疗性新抗原，例如能够引起抗肿瘤免疫并使肿瘤消退的抗原。

提出的初步方法并入了使用下一代测序的基于突变的分析、RNA基因表达及候选新抗原肽的MHC结合亲和力预测⁸。然而，提出的这些方法都无法模拟整个表位产生过程，该过程除含有基因表达和MHC结合外，还含有许多步骤(例如TAP转运、蛋白酶体裂解、MHC结合、将肽-MHC复合物转运至细胞表面和/或TCR对MHC-I的识别；内吞或自噬、通过细胞外或溶酶体蛋白酶(例如组织蛋白酶)裂解、与CLIP肽竞争HLA-DM催化的HLA结合、将肽-MHC复合物转运至细胞表面和/或TCR对MHC-II的识别)⁹。因此，现有的方法可能会有低阳性预测值(PPV)降低的问题。(图1A)

事实上，多个研究团队所进行的关于由肿瘤细胞呈递的肽的分析显示，预计使用基因表达和MHC结合亲和力呈递的肽中不到5％可以在肿瘤表面MHC上发现^10，11(图1B)。近期观察到的仅针对突变数量的检查点抑制剂反应无法提高对结合受限的新抗原的预测准确性进一步支持了结合预测与MHC呈递之间的这一低相关性。¹²

现有的呈递预测方法的这一低阳性预测值(PPV)提出了有关基于新抗原的疫苗设计的问题。如果使用PPV低的预测方法来设计疫苗，则大多数患者不太可能接受治疗性新抗原，且少数患者可能要接受一种以上新抗原(即使假设所有呈递的肽都具有免疫原性)。因此，用当前方法进行新抗原疫苗接种不太可能在众多具有肿瘤的受试者中取得成功。(图1C)

此外，先前的方法仅使用顺式作用突变来产生候选新抗原，而在很大程度上忽视了考虑neo-ORF的其它来源，包括在多种肿瘤类型中出现且导致许多基因异常剪接的剪接因子突变¹³，及产生或移除蛋白酶裂解位点的突变。

最后，由于文库构建、外显子组和转录组捕捉、测序或数据分析的条件并非最佳条件，故肿瘤基因组和转录组分析的标准方法可能会遗漏产生候选新抗原的体细胞突变。同样，标准肿瘤分析方法可能会无意中促成序列伪影或生殖系多态现象作为新抗原，而分别导致疫苗能力的低效使用或自身免疫的风险。

发明内容

本文公开了一种鉴别和选择用于个性化癌症疫苗的新抗原的优化方法。首先，提出了使用下一代测序(NGS)鉴别新抗原候选物的优化的肿瘤外显子组和转录组分析方法。这些方法建立在标准NGS肿瘤分析方法的基础之上，以确保在所有类别的基因组变化内推进最高敏感性和特异性的新抗原候选物。其次，提出了选择高PPV新抗原的新颖方法来克服特异性问题并确保打算包括在疫苗中的新抗原较大可能地引发抗肿瘤免疫。取决于实施方案，这些方法包括训练的统计回归或非线性深度学习模型，这些模型共同地模拟肽-等位基因定位以及多种长度的肽的独立等位基因基元(per-allele motif)，在不同长度的肽中共有统计强度。非线性深度学习模型可以专门设计和训练用于将同一细胞中的不同MHC等位基因处理为独立的，由此解决了线性模型所具有的不同MHC等位基因会相互干扰的问题。最后，解决了基于新抗原的个性化疫苗设计和制造的其它需要考虑的问题。

附图说明

参照以下描述和附图将更好地理解本发明的这些和其它特征、方面及优势，在附图中：

图1A显示当前用于鉴别新抗原的临床方法。

图1B显示＜5％的预测结合肽被呈递在肿瘤细胞上。

图1C显示新抗原预测特异性问题的影响。

图1D显示结合预测不足以进行新抗原鉴别。

图1E显示MHC-I呈递的机率随肽长度的变化。

图1F显示由Promega动态范围标准(dynamic range standard)生成的示例性肽谱。图公开了SEQ ID NO：1。

图1G显示添加特征如何增加模型阳性预测值。

图2A是根据一个实施方案，用于鉴别患者体内肽呈递的可能性的环境的概述。

图2B和2C示出了根据一个实施方案的获得呈递信息的方法。图2B公开了SEQ IDNO：3。图2C按照出现顺序分别公开了SEQ ID NO 3-8。

图3是一个高级框图，示出了根据一个实施方案的呈递鉴别系统的计算机逻辑组件。

图4示出了根据一个实施方案的一组示例训练数据。图按出现顺序分别公开了如SEQ ID NO 10-13的“肽序列”和如SEQ ID NO 14、19-20和20的“C-侧接序列”。

图5示出了与MHC等位基因相关联的示例网络模型。

图6A示出了根据一个实施方案的MHC等位基因共享的示例网络模型NN_H(·)。

图6B示出了根据另一个实施方案的MHC等位基因共享的示例网络模型NN_H(·)。

图7示出了使用示例网络模型生成与一个MHC等位基因相关联的肽的呈递可能性。

图8示出了使用示例网络模型生成与一个MHC等位基因相关联的肽的呈递可能性。

图9示出了使用示例网络模型生成与多个MHC等位基因相关联的肽的呈递可能性。

图10示出了使用示例网络模型生成与多个MHC等位基因相关联的肽的呈递可能性。

图11示出了使用示例网络模型生成与多个MHC等位基因相关联的肽的呈递可能性。

图12示出了使用示例网络模型生成与多个MHC等位基因相关联的肽的呈递可能性。

图13A是使用质谱法从人肿瘤细胞和肿瘤浸润淋巴细胞(TIL)上的II类MHC等位基因洗脱的肽的长度的直方图。

图13B示出了对于两个示例数据集的mRNA定量与每个残基呈递的肽之间的依赖性。

图13C比较了使用两个示例数据集训练和测试的示例呈递模型的性能结果。

图13D是直方图，其描绘了对总共39个包含II类HLA分子的样品中的每个样品使用质谱法测序的肽的量。

图13E是直方图，其描绘了其中鉴别出特定的II类MHC分子等位基因的样品的量。

图13F是直方图，其描绘了对于一系列肽长度中的每个肽长度，由39个总样品中的II类MHC分子呈递的肽的比例。

图13G是线图，其描绘了对于存在于39个样品中的基因，基因表达与II类MHC分子对基因表达产物的呈递的普遍性之间的关系。

图13H是线图，其比较了具有不同输入的相同模型在预测肽的测试数据集中的肽将由II类MHC分子呈递的可能性时的性能。

图13I是线图，其比较了四个不同模型在预测肽的测试数据集中的肽将由II类MHC分子呈递的可能性时的性能。

图13J是线图，其比较了使用两个不同的标准的同类最佳现有技术模型与具有两个不同输入的本文所公开的呈递模型在预测肽的测试数据集中的肽将由II类MHC分子呈递的可能性时的性能。

图14示出了用于实施图1和3中所示实体的示例计算机。

具体实施方式

I.定义

一般说来，权利要求书和说明书中使用的术语意图解释为具有与本领域普通技术人员所理解的普通含义。为清楚起见，以下定义某些术语。如果普通含义与所提供的定义之间存在矛盾，应使用所提供的定义。

如本文所使用，术语“抗原”是诱导免疫反应的物质。

如本文所使用，术语“新抗原”是具有至少一个使其不同于相应野生型亲本抗原的变化的抗原，例如，该变化是肿瘤细胞突变或肿瘤细胞特异性翻译后修饰。新抗原可以包括多肽序列或核苷酸序列。突变可以包括移码或非移码插入缺失、错义或无义取代、剪接位点变化、基因组重排或基因融合，或产生neoORF的任何基因组或表达变化。突变还可以包括剪接变体。肿瘤细胞特异性翻译后修饰可以包括异常磷酸化。肿瘤细胞特异性翻译后修饰还可以包括蛋白酶体产生的剪接抗原。参见Liepe等人，A large fraction of HLA class Iligands are proteasome-generated spliced peptides；Science.2016 Oct 21；354(6310)：354-358。

如本文所使用，术语“肿瘤新抗原”是存在于受试者的肿瘤细胞或组织中但不存在于受试者的相应正常细胞或组织中的新抗原。

如本文所使用，术语“基于新抗原的疫苗”是基于一个或多个新抗原，例如多个新抗原的疫苗构建体。

如本文所使用，术语“候选新抗原”是产生可以代表新抗原的新序列的突变或其它异常。

如本文所使用，术语“编码区”是基因中编码蛋白质的部分。

如本文所使用，术语“编码突变”是在编码区中存在的突变。

如本文所使用，术语“ORF”是指开放阅读框。

如本文所使用，术语“NEO-ORF”是由突变或其它异常如剪接而产生的肿瘤特异性ORF。

如本文所使用，术语“错义突变”是导致一个氨基酸被另一个氨基酸取代的突变。

如本文所使用，术语“无义突变”是导致一个氨基酸被终止密码子取代的突变。

如本文所使用，术语“移码突变”是导致蛋白质框架改变的突变。

如本文所使用，术语“插入缺失”是一个或多个核酸的插入或缺失。

如本文在两个或更多个核酸或多肽序列的情况下使用的术语“同一性”百分比是指当比较并对准达到最大对应性时，如使用以下描述的序列比较算法(例如BLASTP和BLASTN，或技术人员可用的其它算法)之一测量或通过目测检查得到的两个或更多个序列或子序列具有指定百分比的核苷酸或氨基酸残基是相同的。取决于应用，“同一性”百分比可以存在于所比较的序列的某一区域内，例如在功能结构域内，或者存在于待比较的两个序列的全长内。

为进行序列比较，通常，一个序列充当参考序列，以与测试序列相比较。当使用序列比较算法时，将测试序列和参考序列输入计算机，必要时指定子序列座标，并且指定序列算法程序参数。然后，序列比较算法基于指定的程序参数计算测试序列相对于参考序列的序列同一性百分比。或者，可以通过组合在所选序列位置(例如序列基元)处特定核苷酸，或对于翻译的序列来说特定氨基酸的存在或不存在来确定序列相似性或不相似性。

用于比较的最佳序列比对可以例如通过Smith和Waterman，Adv.Appl.Math.2：482(1981)的局部同源性算法；Needleman和Wunsch，J.Mol.Biol.48：443(1970)的同源性比对算法；Pearson和Lipman，Proc.Nat′l.Acad.Sci.USA 85：2444(1988)的相似性搜索方法；这些算法的计算机化实施(Wisconsin Genetics软件包中的GAP、BESTFIT、FASTA和TFASTA；Genetics Computer Group，575 Science Dr.，Madison，Wis.)；或通过目测检查(一般参见Ausubel等人，见下文)来进行。

适于测定序列同一性和序列相似性百分比的算法的一个实例是Altschul等人，J.Mol.Biol.215：403-410(1990)中描述的BLAST算法。执行BLAST分析的软件通过NationalCenter for Biotechnology Information公开可用。

如本文所使用，术语“无终止或通读”是导致天然终止密码子移除的突变。

如本文所使用，术语“表位”是抗原中通常由抗体或T细胞受体结合的特定部分。

如本文所使用，术语“免疫原性”是例如通过T细胞、B细胞或两者引发免疫反应的能力。

如本文所使用，术语“HLA结合亲和力”、“MHC结合亲和力”意思指特定抗原与特定MHC等位基因之间的结合亲和力。

如本文所使用，术语“诱饵(bait)”是用于自样品富集特定DNA或RNA序列的核酸探针。

如本文所使用，术语“变体”是受试者的核酸与用作对照的参考人基因组之间的差异。

如本文所使用，术语“变体识别(variant call)”是对通常由测序确定的变体存在的算法确定。

如本文所使用，术语“多态现象”是生殖系变体，即，在个体的所有带有DNA的细胞中所发现的变体。

如本文所使用，术语“体细胞变体”是在个体的非生殖系细胞中产生的变体。

如本文所使用，术语“等位基因”是基因的一种形式，或是基因序列的一种形式，或是蛋白质的一种形式。

如本文所使用，术语“HLA型”是HLA基因等位基因的互补序列。

如本文所使用，术语“无义介导的衰变”或“NMD”是由过早终止密码子引起的细胞对mRNA的降解。

如本文所使用，术语“躯干突变”是起源于肿瘤发展早期且存在于大多数肿瘤细胞中的突变。

如本文所使用，术语“亚克隆突变”是起源于肿瘤发展后期且仅存在于一小部分肿瘤细胞中的突变。

如本文所使用，术语“外显子组”是编码蛋白质的基因组的子组。外显子组可以是基因组的全体外显子。

如本文所使用，术语“逻辑回归”是由统计得到的二进制数据的回归模型，其中因变量等于1的机率的分对数被建模为因变量的线性函数。

如本文所使用，术语“神经网络”是用于分类或回归的机器学习模型，由多层线性变换，继之以通常通过随机梯度下降和反向传播训练的逐元素非线性组成。

如本文所使用，术语“蛋白质组”是由细胞、细胞群或个体表达和/或翻译的所有蛋白质的集合。

如本文所使用，术语“肽组”是由MHC-I或MHC-II呈递于细胞表面上的所有肽的集合。肽组可以指一个细胞或一组细胞(例如肿瘤肽组，意思指构成肿瘤的所有细胞的肽组的联合)的特性。

如本文所使用，术语“ELISPOT”意思指酶联免疫吸附斑点测定，这是一种用于监测人和动物的免疫反应的常用方法。

如本文所使用，术语“dextramer”是在流式细胞术中用于抗原特异性T细胞染色的基于葡聚糖的肽-MHC多聚体。

如本文所使用，术语“耐受性或免疫耐受性”是对一种或多种抗原，例如自身抗原免疫无反应性的状态。

如本文所使用，术语“中枢耐受性”是通过缺失自身反应性T细胞克隆或通过促进自身反应性T细胞克隆分化成免疫抑制性调控性T细胞(Treg)而在胸腺中经历的耐受性。

如本文所使用，术语“外周耐受性”是通过使经历中枢耐受性而存活的自身反应性T细胞下调或无反应性(anergizing)，或通过促进这些T细胞分化成Treg而在外周经历的耐受性。

术语“样品”可以包括借助于包括静脉穿刺、排泄、射精、按摩、活组织检查、针抽吸、灌洗样品、刮取、手术切口或干预在内的手段，或本领域中已知的其它手段从受试者获取单个细胞或多个细胞，或细胞碎片，或体液等分试样。

术语“受试者”涵盖细胞、组织或生物体、人或非人，无论是体内、离体还是体外，雄性还是雌性的。术语受试者包括含人在内的哺乳动物。

术语“哺乳动物”涵盖人和非人两种，并且包括但不限于人、非人灵长类动物、犬科动物、猫科动物、鼠科动物、牛科动物、马科动物及猪科动物。

术语“临床因素”是指受试者状况，例如疾病活动性或严重程度的量度。“临床因素”涵盖受试者健康状况的所有标志物，包括非样品标志物，和/或受试者的其它特征，如但不限于年龄和性别。临床因素可以是能通过在确定条件下评价来自受试者的一个样品(或样品群)或受试者而获得的分数、一个值或一组值。临床因素也可以由标志物和/或如基因表达替代物之类其它参数进行预测。临床因素可以包括肿瘤类型、肿瘤亚型和吸烟史。

缩写：MHC：主要组织相容性复合物；HLA：人白细胞抗原或人MHC基因座；NGS：下一代测序；PPV：阳性预测值；TSNA：肿瘤特异性新抗原；FFPE：福尔马林固定、石蜡包埋；NMD：无义介导的衰变；NSCLC：非小细胞肺癌；DC：树突状细胞。

除非上下文另外清楚地规定，否则如本说明书和所附权利要求中所使用，单数形式“一个(种)(a/an)”和“所述”包括多个参照物。

本文中未直接定义的任何术语应理解为具有与本发明领域内所理解的通常与之相关的含义。本文论述的某些术语是为了向从业人员描述本发明各方面的组合物、装置、方法等以及其制备或使用提供额外的指导。应了解，相同的事物可以按超过一种方式表示。因此，替代性措辞和同义词可以用于本文所论述的任一个或多个术语。无论本文中是否阐述或论述术语都无关紧要。提供了一些同义词或可取代的方法、材料等。除非明确陈述，否则对一个或数个同义词或等效物的叙述不排除其它同义词或等效物的使用。实例，包括术语实例的使用只是出于说明的目的，且并非在本文中限制本发明各方面的范围和含义。

说明书正文内引用的所有参考文献、颁布的专利和专利申请都是以引用的方式整体并入本文中用于所有目的。

II.鉴别新抗原的方法

本文公开了用于鉴别来自受试者肿瘤的新抗原的方法，这些新抗原可能被呈递于肿瘤细胞或免疫细胞(包括专职抗原呈递细胞如树突状细胞)表面和/或可能是免疫原性的。举个例子，一种此类方法可以包括以下步骤：从受试者的肿瘤细胞获得外显子组、转录组或全基因组肿瘤核苷酸测序数据中的至少一种，其中该肿瘤核苷酸测序数据被用于获得代表新抗原集合中每一新抗原的肽序列的数据，并且其中每一种新抗原的肽序列包含至少一个使其不同于相应野生型亲本肽序列的变化；将每一种新抗原的肽序列输入一个或多个呈递模型中以产生所述新抗原各自被一个或多个MHC等位基因呈递于受试者肿瘤细胞的肿瘤细胞表面或肿瘤中存在的细胞上的数字可能性集合，该数字可能性集合已被至少基于接收到的质谱数据进行鉴别；及基于该数字可能性集合选择该新抗原集合的子集，以产生选定的新抗原的集合。

呈递模型可以包括针对包含相应标记集合的参考数据集合(又称为训练数据集)训练的统计回归或机器学习(例如深度学习)模型，其中该参考数据集合是从多个不同受试者中的每一个获得，其中任选地，一些受试者可以患有肿瘤，且其中该参考数据集合包含以下至少一个：代表来自肿瘤组织的外显子组核苷酸序列的数据、代表来自正常组织的外显子组核苷酸序列的数据、代表来自肿瘤组织的转录组核苷酸序列的数据、代表来自肿瘤组织的蛋白质组序列的数据和代表来自肿瘤组织的MHC肽组序列的数据，以及代表来自正常组织的MHC肽组序列的数据。参考数据可以另外包括工程改造成表达预定MCH等位基因且随后暴露于合成蛋白质的单等位基因细胞系、正常和肿瘤人细胞系，以及新鲜和冷冻原始样品的质谱数据、测序数据、RNA测序数据和蛋白质组数据，以及T细胞测定(例如ELISPOT)。在某些方面，参考数据集合包括每种形式的参考数据。

呈递模型可以包含至少部分自参考数据集合得到的特征集合，并且其中该特征集合包含等位基因依赖性特征和等位基因非依赖性特征中的至少一种。在某些方面，包括每一特征。

本文还公开了用于通过鉴别来自受试者的一种或多种肿瘤细胞的一种或多种可能被呈递于肿瘤细胞表面的新抗原来产生用于构建个性化癌症疫苗的输出的方法。例如，一种这样的方法可以包括以下步骤：从受试者的肿瘤细胞和正常细胞获得外显子组、转录组或全基因组核苷酸测序数据中的至少一种，其中核苷酸测序数据被用于获得代表通过比较来自肿瘤细胞的核苷酸测序数据和来自正常细胞的核苷酸测序数据鉴别的新抗原集合中每一种新抗原的肽序列的数据，并且其中每一种新抗原的肽序列包含至少一个使其不同于从受试者的正常细胞鉴别的相应野生型肽序列的变化；将每种新抗原的肽序列编码成相应的数字矢量，每个数字矢量包含有关构成该肽序列的多个氨基酸和肽序列中氨基酸的位置集合的信息；使用计算机处理器将所述数字矢量输入到深度学习呈递模型中，以产生对于该新抗原集合的呈递可能性集合，该集合中的每个呈递可能性代表了相应新抗原由受试者的肿瘤细胞表面的一个或多个II类MHC等位基因呈递的可能性，深度学习呈递模；基于呈递可能性集合选择新抗原集合的子集，以产生选定的新抗原的集合；以及基于选定的新抗原的集合产生用于构建个性化癌症疫苗的输出。

在一些实施方案中，呈递模型包括至少基于训练数据集鉴别的多个参数以及代表作为输入接收的数字矢量和根据数字矢量和参数作为输出生成的呈递可能性之间的关系的函数。在某些实施方案中，训练数据集包含通过质谱测量与被鉴别为存在于多个样品中的至少一个样品中的至少一种II类MHC等位基因结合的肽的存在获得的标记；编码为包含有关构成该肽序列的多个氨基酸和肽序列中氨基酸的位置集合的信息的数字矢量的训练肽序列；及与训练肽信息相关的至少一个HLA等位基因。

树突状细胞呈递天然T细胞特征可以包括以下至少一种：以上描述的特征。疫苗中抗原的剂量和类型(例如肽、mRNA、病毒等)：(1)树突状细胞(DC)摄取抗原类型的途径(例如内吞作用、微胞吞作用)；和/或(2)抗原被DC摄取的功效。疫苗中佐剂的剂量和类型。疫苗抗原序列的长度。疫苗施用的次数和部位。基线患者免疫功能(例如，通过近期感染史、血液计数等度量)。对于RNA疫苗：(1)树突状细胞中mRNA蛋白质产物的转换率；(2)如在体外或体内实验中测量的在树突状细胞吸收后mRNA的翻译速率；和/或(3)如在体内或体外实验中测量的在树突状细胞吸收后mRNA翻译的数量或次数。肽中蛋白酶裂解基元的存在，任选地对通常在树突状细胞中表达的蛋白酶提供额外权重(如通过RNA-seq或质谱法测量)。典型的活化树突状细胞中蛋白酶体和免疫蛋白酶体的表达水平(可以通过RNA-seq、质谱法、免疫组织化学或其它标准技术测量)。相关个体中特定MHC等位基因的表达水平(例如通过RNA-seq或质谱法测量)，任选具体地在活化树突状细胞或其它免疫细胞中测量。在表达特定MHC等位基因的其他个体中特定MHC等位基因呈递肽的机率，任选具体地在活化树突状细胞或其它免疫细胞中测量。在其他个体中由同一家族分子(例如HLA-A、HLA-B、HLA-C、HLA-DQ、HLA-DR、HLA-DP)中的MHC等位基因呈递肽的机率，任选具体地在活化树突状细胞或其它免疫细胞中测量。

免疫耐受逃避特征可以包括以下至少一种：通过对一种或数种细胞类型进行蛋白质质谱直接测量自身肽组。通过采用自身蛋白质所有k-mer(例如5-25)子串的联合来估计自身肽组。使用与上述应用于所有非突变自身蛋白质的呈递模型类似的呈递模型估计自身肽组，任选地考虑生殖系变体。

排序可以至少部分基于数字可能性，使用由至少一个模型提供的多种新抗原来进行。在排序后，可以根据选择标准进行选择，以选出排序的新抗原的子集。在选择后，可以提供排序的肽的子集作为输出。

选定的新抗原的集合的数量可以是20。

呈递模型可以表示以下两项之间的依赖性：MHC等位基因中的一对特定等位基因和在肽序列特定位置处特定氨基酸的存在；与在肿瘤细胞表面上由该对MHC等位基因中的特定等位基因呈递在该特定位置处包含特定氨基酸的此类肽序列的可能性。

本文公开的方法还可以包括将一个或多个呈递模型应用于相应新抗原的肽序列以生成一个或多个MHC等位基因各自的依赖性分数，所述依赖性分数指示该MHC等位基因是否将至少基于相应新抗原的肽序列中氨基酸的位置呈递相应新抗原。

本文公开的方法还可以包括变换依赖性分数以产生每一MHC等位基因的相应独立等位基因可能性，由此指示相应MHC等位基因将呈递相应新抗原的可能性；及组合独立等位基因可能性以产生数字可能性。

该变换依赖性分数的步骤可以将相应新抗原的肽序列的呈递建模为相互排斥的。

本文公开的方法还可以包括变换依赖性分数的组合以产生数字可能性。

该变换依赖性分数的组合的步骤可以将相应新抗原的肽序列的呈递建模为在MHC等位基因之间存在干扰。

该数字可能性集合可以通过至少一个等位基因非相互作用特征进一步鉴别，并且本文公开的方法也可以包括将不与一个或多个呈递模型中的一个相互作用的等位基因应用于等位基因非相互作用特征以产生等位基因非相互作用特征的依赖性分数，所述依赖性分数指示相应新抗原的肽序列是否将基于等位基因非相互作用特征而被呈递。

本文公开的方法也可以包括将该一个或多个MHC等位基因中每一MHC等位基因的依赖性分数与等位基因非相互作用特征的依赖性分数组合；变换每一MHC等位基因的组合的依赖性分数以产生该MHC等位基因的相应独立等位基因可能性，由此指示相应MHC等位基因将呈递相应新抗原的可能性；及组合独立等位基因可能性以产生数字可能性。

本文公开的方法还可以包括变换每一MHC等位基因的依赖性分数与等位基因非相互作用特征的依赖性分数的组合以产生数字可能性。

呈递模型的数字参数集合可以基于训练数据集进行训练，该训练数据集包括被鉴别为存在于多个样品中的至少一个训练肽序列集合以及与每一训练肽序列相关的一个或多个MHC等位基因，其中训练肽序列是通过对从来源于该多个样品的MHC等位基因洗脱的分离的肽进行质谱法来鉴别。

样品也可以包括工程改造成表达单个I类或II类MHC等位基因的细胞系。

样品还可以包括工程改造成表达多个I类或II类MHC等位基因的细胞系。

样品还可以包括从多个患者获得或得到的人细胞系。

样品还可以包括从多个患者获得的新鲜或冷冻的肿瘤样品。

样品还可以包括从多个患者获得的新鲜或冷冻的组织样品。

样品还可以包括使用T细胞测定鉴别的肽。

训练数据集可以另外包括与以下相关的数据：样品中存在的训练肽集合的肽丰度；样品中训练肽集合的肽长度。

训练数据集可以通过经由比对，将训练肽序列的集合与包含已知蛋白质序列的集合的数据库相比较而产生，其中训练蛋白质序列的集合比训练肽序列长并且包括训练肽序列。

训练数据集可以基于对细胞系进行或已进行核苷酸测序以获得来自细胞系的外显子组、转录组或全基因组测序数据中的至少一种来产生，该测序数据包括至少一个含变化的核苷酸序列。

训练数据集可以基于获得来自正常组织样品的外显子组、转录组或全基因组测序数据中的至少一种来产生。

训练数据集可以另外包括与样品相关的蛋白质组序列相关的数据。

训练数据集可以另外包括与样品相关的MHC肽组序列相关的数据。

训练数据集可以另外包括与分离的肽中的至少一个的肽-MHC结合亲和力测量值相关的数据。

训练数据集可以另外包括与分离的肽中的至少一个的肽-MHC结合稳定性测量值相关的数据。

训练数据集可以另外包括与样品相关的转录组相关的数据。

训练数据集可以另外包括与样品相关的基因组相关的数据。

训练肽序列的长度可以在k-mer范围内，其中k对于I类MHC介于8-15之间(包括端点在内)或对于II类MHC介于6-30之间(包括端点在内)。

本文公开的方法还可以包括使用独热编码方案(one-hot encoding scheme)编码肽序列。

本文公开的方法还可以包括使用左填充独热编码方案编码训练肽序列。

治疗患有肿瘤的受试者的方法包括进行权利要求1所述的步骤，并且还包括获得包含选定的新抗原的集合的肿瘤疫苗，及将该肿瘤疫苗施用给受试者。

本文中公开的方法还可以包括鉴别对子集中的至少一种新抗原具有抗原特异性的一种或多种T细胞。在一些实施方案中，所述鉴别包括在扩增所述一种或多种抗原特异性T细胞的条件下，将所述一种或多种T细胞与所述子集中的一种或多种新抗原共同培养。在另外的实施方案中，鉴别包括在允许T细胞与四聚体之间结合的条件下，使一种或多种T细胞与包含所述子集中一种或多种新抗原的四聚体接触。在另外的实施方案中，本文公开的方法还可包括鉴别一种或多种鉴别的T细胞的一种或多种T细胞受体(TCR)。在某些实施方案中，鉴别一种或多种T细胞受体包括对一种或多种鉴别的T细胞的T细胞受体序列进行测序。本文公开的方法可以进一步包括对多个T细胞进行基因工程改造以表达一种或多种鉴别的T细胞受体中的至少一种；在使多个T细胞扩增的条件下培养多个T细胞；及将扩增的T细胞输注至受试者体内。在一些实施方案中，对多个T细胞进行基因工程改造以表达一种或多种鉴别的T细胞受体中的至少一种包括将一种或多种鉴别的T细胞的T细胞受体序列克隆到表达载体中；及用表达载体转染多个T细胞中的每一个。在一些实施方案中，本文公开的方法进一步包括在扩增所述一种或多种鉴别的T细胞的条件下培养所述一种或多种鉴别的T细胞；及将扩增的T细胞输注至受试者体内。

本文还公开了对子集中的至少一种选定的新抗原具有抗原特异性的分离的T细胞。

本文还公开了一种用于制造肿瘤疫苗的方法，该方法包括以下步骤：自受试者的肿瘤细胞获得外显子组、转录组或全基因组肿瘤核苷酸测序数据中的至少一种，其中该肿瘤核苷酸测序数据被用于获得代表新抗原集合中每一新抗原的肽序列的数据，并且其中每一种新抗原的肽序列包含至少一个使其不同于相应野生型亲本肽序列的突变；将每一新抗原的肽序列输入一个或多个呈递模型中以产生所述新抗原各自被一个或多个MHC等位基因呈递于受试者肿瘤细胞的肿瘤细胞表面上的数字可能性集合，该数字可能性集合已被至少基于接收到的质谱数据进行鉴别；及基于该数字可能性集合选择该新抗原集合的子集，以产生选定的新抗原的集合；以及制造或制得包含该选定的新抗原的集合的肿瘤疫苗。

本文还公开了一种包括选定的新抗原的集合的肿瘤疫苗，该选定的新抗原的集合是通过进行包括以下步骤的方法选择：自受试者的肿瘤细胞获得外显子组、转录组或全基因组肿瘤核苷酸测序数据中的至少一种，其中该肿瘤核苷酸测序数据被用于获得代表新抗原集合中每一种新抗原的肽序列的数据，并且其中每一新抗原的肽序列包含至少一个使其不同于相应野生型亲本肽序列的突变；将每一新抗原的肽序列输入一个或多个呈递模型中以产生新抗原各自被一个或多个MHC等位基因呈递于受试者肿瘤细胞的肿瘤细胞表面上的数字可能性集合，该数字可能性集合已被至少基于接收到的质谱数据进行鉴别；及基于该数字可能性集合选择该新抗原集合的子集，以产生选定的新抗原的集合；以及制造或制得包含该选定的新抗原的集合的肿瘤疫苗。

肿瘤疫苗可以包含核苷酸序列、多肽序列、RNA、DNA、细胞、质粒或载体中的一种或多种。

肿瘤疫苗可以包括呈递于肿瘤细胞表面上的一种或多种新抗原。

肿瘤疫苗可以包含在受试者体内具有免疫原性的一种或多种新抗原。

肿瘤疫苗不包含诱导针对受试者体内的正常组织的自体免疫反应的一种或多种新抗原。

肿瘤疫苗可以包含佐剂。

肿瘤疫苗可以包含赋形剂。

本文公开的方法还可以包括基于呈递模型，选择在肿瘤细胞上呈递的可能性相对于未被选择的新抗原有所增加的新抗原。

本文公开的方法还可以包括基于呈递模型，选择能够在受试者体内诱导肿瘤特异性免疫反应的可能性相对于未被选择的新抗原有所增加的新抗原。

本文公开的方法还可以包括基于呈递模型，选择能够被专职抗原呈递细胞(APC)呈递至天然T细胞的可能性相对于未被选择的新抗原有所增加的新抗原，任选地其中该APC是树突状细胞(DC)。

本文公开的方法还可以包括基于呈递模型，选择经历中枢或外周耐受性抑制的可能性相对于未被选择的新抗原有所降低的新抗原。

本文公开的方法还可以包括基于呈递模型，选择能够在受试者体内诱导针对正常组织的自体免疫反应的可能性相对于未被选择的新抗原有所降低的新抗原。

外显子组或转录组核苷酸序列数据可以通过对肿瘤组织进行测序来获得。

测序可以是下一代测序(NGS)或任何大规模平行测序方法。

数字可能性集合可以通过至少MHC等位基因相互作用特征进一步鉴别，这些特征包括以下中的至少一种：预测的MHC等位基因与新抗原编码肽结合的亲和力；预测的新抗原编码肽-MHC复合物的稳定性；新抗原编码肽的序列和长度；如通过质谱蛋白组学或其它手段所评估的在来自表达特定MHC等位基因的其他个体的细胞中呈递具有类似序列的新抗原编码肽的机率；在相关受试者中特定MHC等位基因的表达水平(例如通过RNA-seq或质谱法测量)；在表达特定MHC等位基因的其他不同受试者中不依赖于总体新抗原编码肽序列而由特定MHC等位基因呈递的机率；在其他不同受试者中不依赖于总体新抗原编码肽序列而由同一家族分子(例如HLA-A、HLA-B、HLA-C、HLA-DQ、HLA-DR、HLA-DP)中的MHC等位基因呈递的机率。

数字可能性集合通过至少MHC等位基因非相互作用特征进一步鉴别，这些特征包括以下中的至少一种：在源蛋白质序列内侧接新抗原编码肽的C末端和N末端序列；新抗原编码肽中蛋白酶裂解基元的存在，任选地根据相应蛋白酶在肿瘤细胞中的表达(如通过RNA-seq或质谱法测量)进行加权；如在适当细胞类型中测量的源蛋白的转换率；通过RNA-seq或蛋白质组质谱法测量，或根据在DNA或RNA序列数据中检测到的生殖系或体细胞剪接突变的注释所预测的源蛋白的长度，任选地考虑在肿瘤细胞中表达水平最高的特定剪接变体(“同功型”)；肿瘤细胞中蛋白酶体、免疫蛋白酶体、胸腺蛋白酶体或其它蛋白酶的表达水平(可以通过RNA-seq、蛋白质组质谱法或免疫组织化学法测量)；新抗原编码肽的源基因的表达(例如通过RNA-seq或质谱法测量)；在细胞周期各阶段期间新抗原编码肽的源基因的典型组织特异性表达；源蛋白和/或其结构域的综合特征目录，如例如可见于uniProt或PDBhttp：//www.rcsb.org/pdb/home/home.do中；描述含有该肽的源蛋白结构域的特性的特征，例如：二级或三级结构(例如α螺旋对比β折叠)；选择性剪接；在其他不同受试者中来自相关新抗原编码肽的源蛋白的肽的呈递机率；由于技术偏差而不会被质谱法检测到或过量表示肽的机率；通过RNASeq测量(无需含有该肽的源蛋白)的提供有关肿瘤细胞、基质或肿瘤浸润淋巴细胞(TIL)的状态的信息的各种基因模块/路径的表达；肿瘤细胞中新抗原编码肽的源基因的拷贝数；肽结合至TAP的机率或该肽与TAP的结合亲和力的测量值或预测值；肿瘤细胞中TAP的表达水平(可以通过RNA-seq、蛋白质组质谱法、免疫组织化学法测量)；肿瘤突变的存在或不存在，这些突变包括但不限于：已知癌症驱动基因如EGFR、KRAS、ALK、RET、ROS1、TP53、CDKN2A、CDKN2B、NTRK1、NTRK2、NTRK3中，及编码抗原呈递机器中所涉及的蛋白质的基因(例如B2M、HLA-A、HLA-B、HLA-C、TAP-1、TAP-2、TAPBP、CALR、CNX、ERP57、HLA-DM、HLA-DMA、HLA-DMB、HLA-DO、HLA-DOA、HLA-DOB、HLA-DP、HLA-DPA1、HLA-DPB1、HLA-DQ、HLA-DQA1、HLA-DQA2、HLA-DQB1、HLA-DQB2、HLA-DR、HLA-DRA、HLA-DRB1、HLA-DRB3、HLA-DRB4、HLA-DRB5或编码蛋白酶体或免疫蛋白酶体的组分的任何基因)中的突变。呈递依赖于在肿瘤中经历功能丧失性突变(loss-of-function mutation)的抗原呈递机器组分的肽具有降低的呈递机率；功能性生殖系多态性的存在或不存在，包括但不限于：在编码抗原呈递机器中所涉及的蛋白质的基因(例如B2M、HLA-A、HLA-B、HLA-C、TAP-1、TAP-2、TAPBP、CALR、CNX、ERP57、HLA-DM、HLA-DMA、HLA-DMB、HLA-DO、HLA-DOA、HLA-DOB、HLA-DP、HLA-DPA1、HLA-DPB1、HLA-DQ、HLA-DQA1、HLA-DQA2、HLA-DQB1、HLA-DQB2、HLA-DR、HLA-DRA、HLA-DRB1、HLA-DRB3、HLA-DRB4、HLA-DRB5或编码蛋白酶体或免疫蛋白酶体的组分的任何基因)中的功能性生殖系多态性；肿瘤类型(例如NSCLC、黑素瘤)；临床肿瘤亚型(例如鳞状肺癌对比非鳞状肺癌)；吸烟史；相关肿瘤类型或临床亚型中肽的源基因的典型表达；任选地通过驱动突变进行分层。

该至少一个突变可以包括移码或非移码插入缺失、错义或无义取代、剪接位点变化、基因组重排或基因融合，或产生neoORF的任何基因组或表达变化。

肿瘤细胞可以选自由以下组成的组：肺癌、黑素瘤、乳癌、卵巢癌、前列腺癌、肾癌、胃癌、结肠癌、睾丸癌、头颈癌、胰腺癌、脑癌、B细胞淋巴瘤、急性骨髓性白血病、慢性骨髓性白血病、慢性淋巴细胞性白血病和T细胞淋巴细胞性白血病、非小细胞肺癌和小细胞肺癌。

本文公开的方法还可以包括获得包括该选定的新抗原的集合或其子集的肿瘤疫苗，任选地还包括将该肿瘤疫苗施用给受试者。

当呈多肽形式时，该选定的新抗原的集合中的至少一种新抗原可以包括以下至少一项：以低于1000nM的IC50值的与MHC的结合亲和力；对于I类MHC多肽，长度是8-15个，即8、9、10、11、12、13、14或15个氨基酸，对于II类MHC多肽，长度是6-30个，即6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个氨基酸；在亲本蛋白质序列中该多肽内或附近促进蛋白酶体裂解的序列基元的存在；及促进TAP转运的序列基元的存在。对于II类MHC，肽内或附近促进通过细胞外或溶酶体蛋白酶(例如，组织蛋白酶)的切割或HLA-DM催化的HLA结合的序列基元的存在。

本文还公开了产生用于鉴别可能在肿瘤细胞的肿瘤细胞表面上呈递的一种或多种新抗原的模型的方法，所述方法包括以下步骤：接收质谱数据，该质谱数据包括与从来源于多个样品的主要组织相容性复合物(MHC)洗脱的多个分离肽相关的数据；通过至少鉴别样品中存在的训练肽序列的集合和与各训练肽序列相关的一个或多个MHC来获得训练数据集；使用包含训练肽序列的训练数据集来训练呈递模型的数字参数集合，该呈递模型提供来自肿瘤细胞的肽序列被一个或多个MHC等位基因呈递于肿瘤细胞表面上的多个数字可能性。

呈递模型可以表示以下两者之间的依赖性：在肽序列的特定位置处特定氨基酸的存在；与在肿瘤细胞上由MHC等位基因中的一个呈递特定位置处包含特定氨基酸的肽序列的可能性。

样品还可以包括从多个患者获得或得到的人细胞系。

样品还可以包括从多个患者获得的新鲜或冷冻的肿瘤样品。

样品还可以包括使用T细胞测定鉴别的肽。

本文公开的方法也可以包括基于训练肽序列，通过经由比对将训练肽序列集合与包含已知蛋白质序列的集合的数据库相比较来获得训练蛋白质序列的集合，其中该训练蛋白质序列的集合比训练肽序列长并且包括训练肽序列。

本文公开的方法还可以包括对细胞系进行或已进行质谱法以从该细胞系获得外显子组、转录组或全基因组核苷酸测序数据中的至少一种，该核苷酸测序数据包括至少一个含突变的蛋白质序列。

本文公开的方法还可以包括：使用独热编码方案编码训练肽序列。

本文公开的方法还可以包括由正常组织样品获得外显子组、转录组和全基因组正常核苷酸测序数据中的至少一种，及使用正常核苷酸测序数据训练呈递模型的参数集合。

训练数据集可以另外包含与样品相关的蛋白质组序列有关的数据。

训练数据集可以另外包含与样品相关的MHC肽组序列有关的数据。

训练数据集可以另外包含与分离肽中的至少一个的肽-MHC结合亲和力测量值相关的数据。

训练数据集可以另外包含与分离肽中的至少一个的肽-MHC结合稳定性测量值相关的数据。

训练数据集可以另外包含与样品相关的转录组相关的数据。

训练数据集可以另外包含与样品相关的基因组相关的数据。

本文公开的方法还可以包括对参数集合进行逻辑回归。

本文公开的方法还可以包括使用深度学习算法确定该参数集合的值。

本文公开了用于鉴别可能在肿瘤细胞的肿瘤细胞表面上呈递的一种或多种新抗原的方法，所述方法包括执行以下步骤：接收质谱数据，该质谱数据包括与从来源于多个新鲜或冷冻肿瘤样品的主要组织相容性复合物(MHC)洗脱的多个分离肽相关的数据；通过至少鉴别存在于肿瘤样品中并且被呈递于一个或多个与每一训练肽序列相关的MHC等位基因上的训练肽序列的集合来获得训练数据集；基于训练肽序列获得训练蛋白质序列集合；及使用训练蛋白质序列和训练肽序列来训练呈递模型的数字参数集合，该呈递模型提供来自肿瘤细胞的肽序列被一个或多个MHC等位基因呈递于肿瘤细胞表面上的多个数字可能性。

呈递模型可以表示以下两项之间的依赖性：MHC等位基因中的一对特定等位基因和肽序列特定位置处特定氨基酸的存在；与在肿瘤细胞表面上由该对MHC等位基因中的特定等位基因呈递在该特定位置处包含特定氨基酸的此类肽序列的可能性。

本文公开的方法还可以包括选择新抗原子集，其中选择该新抗原子集是因为相对于一个或多个不同的肿瘤新抗原，其各自在肿瘤细胞表面上呈递的可能性较高。

本文公开的方法还可以包括选择新抗原子集，其中选择该新抗原子集是因为相对于一个或多个不同的肿瘤新抗原，其各自能够在受试者体内诱导肿瘤特异性免疫反应的可能性较高。

本文公开的方法还可以包括选择新抗原子集，其中选择该新抗原子集是因为相对于一个或多个不同的肿瘤新抗原，其各自能够被专职抗原呈递细胞(APC)呈递于天然T细胞的可能性较高，任选地其中该APC是树突状细胞(DC)。

本文公开的方法还可以包括选择新抗原子集，其中选择该新抗原子集是因为相对于一个或多个不同的肿瘤新抗原，其各自经历中枢或外周耐受性抑制的可能性较低。

本文公开的方法还可以包括选择新抗原子集，其中选择该新抗原子集是因为相对于一个或多个不同的肿瘤新抗原，其各自能够在受试者体内诱导针对正常组织的自体免疫反应的可能性较低。

本文公开的方法还可以包括选择新抗原子集，其中选择该新抗原子集是因为其各自在肿瘤细胞中以不同于APC的方式进行翻译后修饰的可能性较低，任选地其中该APC是树突状细胞(DC)。

除非另外指示，否则本文中方法的实践将采用在本领域的技术范围内的蛋白质化学、生物化学、重组DNA技术及药理学的常规方法。这些技术在文献中有完整解释。参见例如，T.E.Creighton，Proteins：Structures and Molecular Properties(W.H.Freeman andCompany，1993)；A.L.Lehninger，Biochemistry(Worth Publishers，Inc.，现行版)；Sambrook等人，Molecular Cloning：A Laboratory Manual(第2版，1989)；Methods InEnzymology(S.Colowick和N.Kaplan编辑，Academic Press，Inc.)；Remington′sPharmaceutical Sciences，第18版(Easton，Pennsylvania：Mack Publishing Company，1990)；Carey和Sundberg Advanced Organic Chemistry第3版(Plenum Press)第A和B卷(1992)。

III.鉴别新抗原中的肿瘤特异性突变

本文还公开了用于鉴别某些突变(例如癌细胞中存在的变体或等位基因)的方法。确切地说，这些突变可以存在于患有癌症的受试者的癌细胞的基因组、转录组、蛋白质组或外显子组中，但不存在于受试者的正常组织中。

若肿瘤中的基因突变仅导致肿瘤中蛋白质的氨基酸序列改变，则认为这些突变可用于免疫靶向肿瘤。有用的突变包括：(1)导致蛋白质中的氨基酸不同的非同义突变；(2)通读突变，其中终止密码子被修饰或缺失，导致翻译得到在C末端具有新肿瘤特异性序列的较长蛋白质；(3)导致在成熟mRNA中包括内含子且由此产生独特肿瘤特异性蛋白质序列的剪接位点突变；(4)产生在2种蛋白质的接合处具有肿瘤特异性序列的嵌合蛋白的染色体重排(即，基因融合)；(5)产生具有新肿瘤特异性蛋白质序列的新开放阅读框的移码突变或缺失。突变还可以包括非移码插入缺失、错义或无义取代、剪接位点变化、基因组重排或基因融合，或产生neoORF的任何基因组或表达变化中的一种或多种。

在肿瘤细胞中具有突变的肽或由例如剪接位点突变、移码突变、通读突变或基因融合突变产生的突变多肽可以通过对肿瘤和正常细胞中的DNA、RNA或蛋白质进行测序来鉴别。

突变还可以包括先前鉴别的肿瘤特异性突变。已知的肿瘤突变可以见于癌症体细胞突变目录(Catalogue of Somatic Mutations in Cancer，COSMIC)数据库。

多种方法可用于检测个体的DNA或RNA中特定突变或等位基因的存在。本领域中的改进之处在于提供准确、容易且便宜的大规模SNP基因分型。举例来说，已描述若干技术，包括动态等位基因特异性杂交(DASH)、微板阵列对角线凝胶电泳(microplate arraydiagonal gel electrophoresis，MADGE)、焦磷酸测序、寡核苷酸特异性连接、TaqMan系统以及各种DNA“芯片”技术，如Affymetrix SNP芯片。这些方法通常通过PCR扩增靶基因区。一些其它的方法基于通过侵袭式裂解产生小信号分子，随后进行质谱法或固定化挂锁探针(padlock probe)和滚环扩增。本领域中已知用于检测特定突变的若干方法概述于下。

基于PCR的检测手段可以包括同时多重扩增多个标志物。举例来说，本领域中众所周知，选择PCR引物产生尺寸不重叠且可以同时分析的PCR产物。或者，可用以不同方式标记且由此可以通过不同方式检测的引物扩增不同标志物。当然，基于杂交的检测手段能够以不同方式检测样品中的多个PCR产物。本领域中已知能够多重分析多个标志物的其它技术。

已经开发出数种方法来促进基因组DNA或细胞RNA中单核苷酸多态性的分析。举例来说，可以通过使用专用的核酸外切酶抗性核苷酸检测单碱基多态性，如例如Mundy，C.R.(美国专利第4,656,127号)中所公开的。根据该方法，与紧靠多态性位点3′端的等位基因序列互补的引物能够与从特定动物或人获得的靶分子杂交。如果靶分子上的多态性位点含有与存在的特定核酸外切酶抗性核苷酸衍生物互补的核苷酸，则该衍生物将被合并至杂交引物的末端上。此类合并使得引物对核酸外切酶具有抗性，并由此允许其检测。由于样品的核酸外切酶抗性衍生物的身份是已知的，故引物对核酸外切酶产生抗性的发现披露，靶分子多态性位点中存在的核苷酸与反应中使用的核苷酸衍生物互补。该方法的优势在于，它不需要测定大量无关的序列数据。

可以使用基于溶液的方法来确定多态性位点的核苷酸的身份。Cohen，D.等人(法国专利2,650,840；PCT申请第WO91/02087号)。如在美国专利第4,656,127号的Mundy方法中所述，采用与紧靠多态性位点3′端的等位基因序列互补的引物。该方法使用标记过的双脱氧核苷酸衍生物来确定该位点的核苷酸的身份，如果与多态性位点的核苷酸互补，则该核苷酸将被合并至引物末端上。

Goelet，P.等人(PCT申请第92/15712号)描述了一种替代性方法，称为遗传位点分析(Genetic Bit Analysis)或GBA。Goelet，P.等人的方法使用了标记过的终止子和与在多态性位点3′端的序列互补的引物的混合物。由此通过存在于所评价靶分子的多态性位点中的核苷酸来确定合并的标记过的终止子并且该终止子与存在于所评价靶分子的多态性位点中的核苷酸互补。与Cohen等人(法国专利2,650,840；PCT申请第WO91/02087号)的方法相比，Goelet，P.等人的方法可以是非均相测定，其中引物或靶分子被固定于固相。

已描述数种引物引导的用于测定DNA中的多态性位点的核苷酸并入程序(Komher，J.S.等人，Nucl.Acids.Res.17：7779-7784(1989)；Sokolov，B.P.，Nucl.Acids Res.18：3671(1990)；Syvanen，A.-C.等人，Genomics 8：684-692(1990)；Kuppuswamy，M.N.等人，Proc.Natl.Acad.Sci.(U.S.A.)88：1143-1147(1991)；Prezant，T.R.等人，Hum.Mutat.1：159-164(1992)；Ugozzoli，L.等人，GATA 9：107-112(1992)；Nyren，P.等人，Anal.Biochem.208：171-175(1993))。这些方法与GBA的不同之处在于，它们利用并入经过标记的脱氧核苷酸来区别多态性位点处的碱基。在此类形式中，由于信号与并入的脱氧核苷酸的数量成比例，故在同一核苷酸的操作中出现的多态现象可以产生与该操作的长度成比例的信号(Syvanen，A.-C.等人，Amer.J.Hum.Genet.52：46-59(1993))。

许多方案直接从数百万个独立DNA或RNA分子中并行获得序列信息。实时单分子边合成边测序技术依赖于荧光核苷酸的检测，因为这些核苷酸被并入与测序模板互补的新生DNA链中。在一种方法中，将30-50个碱基长度的寡核苷酸以5′端共价锚定至玻璃盖玻片上。这些锚定链执行两种功能。首先，如果模板被配置成具有与表面结合的寡核苷酸互补的捕捉尾部，则其充当靶模板链的捕捉位点。这些锚定链还充当模板引导的引物延伸的引物，形成序列读取的基础。捕捉引物用作固定位点以便使用多个合成、检测以及染料-连接子化学裂解以移除染料的循环进行序列测定。每个循环由添加聚合酶/标记过得核苷酸混合物、冲洗、成像及染料裂解组成。在一种替代方法中，聚合酶被修饰成具有荧光供体分子并且被固定于玻璃载片上，而各核苷酸用附接至γ-磷酸的受体萤光部分进行颜色编码。当核苷酸被并入从头合成的链中时，该系统检测荧光标记的聚合酶与荧光修饰的核苷酸之间的相互作用。还存在其它边合成边测序技术。

任何适合的边合成边测序平台都可以用于鉴别突变。如上文所描述，目前有四个主要的边合成边测序平台：来自Roche/454 Life Sciences的基因组测序仪、来自Illumina/Solexa的1G分析仪、来自Applied BioSystems的SOLiD系统以及来自HelicosBiosciences的Heliscope系统。Pacific BioSciences和VisiGen Biotechnologies也描述过边合成边测序平台。在一些实施方案中，使所测序的多个核酸分子结合至支撑物(例如固体支撑物)上。为了将核酸固定于支撑物上，可以在模板的3′和/或5′端添加捕捉序列/通用引发位点。可以通过使捕捉序列与共价附接至支撑物的互补序列杂交而使核酸结合至支撑物。捕捉序列(又称为通用捕捉序列)是与附接至支撑物的序列互补的核酸序列，该序列还可以充当通用引物。

作为捕捉序列的替代，可以将偶合对(如抗体/抗原、受体/配体，或抗生物素-生物素对，如例如美国专利申请第2006/0252077号中所述)的一个成员连接至各片段以将其捕捉在涂有该偶合对的相应第二成员的表面上。

在捕捉后，可以例如实施例和美国专利第7,283,337号中所描述，通过例如单分子检测/测序，包括模板依赖性边合成边测序对该序列进行分析。在边合成边测序时，使表面结合的分子在聚合酶存在下暴露于多个标记过得核苷酸三磷酸。模板序列由并入正在生长的链的3′端的标记过的核苷酸的顺序决定。这可以实时进行或者可以按分步重复模式进行。对于实时分析，可以将不同光学标记并入各核苷酸并且可以利用多种激光器刺激并入的核苷酸。

测序还可以包括其它大规模平行测序或下一代测序(NGS)技术和平台。大规模平行测序技术和平台的其它实例有Illumina HiSeq或MiSeq、Thermo PGM或Proton、Pac BioRS II或Sequel、Qiagen公司的Gene Reader及Oxford Nanopore MinION。可以使用当前其它类似的大规模平行测序技术，以及这些技术的改进形式。

所有细胞类型或组织都可以用于获得用于本文所描述的方法中的核酸样品。举例来说，DNA或RNA样品可以从肿瘤或体液，例如利用已知技术(例如静脉穿刺)获得的血液，或唾液获得。或者，可以对干燥样品(例如毛发或皮肤)进行核酸测试。此外，可以从肿瘤获得一份测序样品，并且可以从正常组织获得另一份测序样品，其中正常组织与肿瘤同属相同组织类型。可以从肿瘤获得一份测序样品，并且可以从正常组织获得另一份测序样品，其中正常组织与肿瘤属于不同组织类型。

肿瘤可以包括以下一种或多种：肺癌、黑素瘤、乳癌、卵巢癌、前列腺癌、肾癌、胃癌、结肠癌、睾丸癌、头颈癌、胰腺癌、脑癌、B细胞淋巴瘤、急性骨髓性白血病、慢性骨髓性白血病、慢性淋巴细胞性白血病和T细胞淋巴细胞性白血病、非小细胞肺癌和小细胞肺癌。

或者，可以使用蛋白质质谱法鉴别或验证结合至肿瘤细胞上的MHC蛋白质的突变肽的存在。肽可以用酸从肿瘤细胞或从自肿瘤免疫沉淀的HLA分子洗脱，并且接着使用质谱法鉴别。

IV.新抗原

新抗原可以包括核苷酸或多肽。举例来说，新抗原可以是编码多肽序列的RNA序列。因此，可用于疫苗中的新抗原包括核苷酸序列或多肽序列。

本文公开了包含通过本文所公开的方法鉴别的肿瘤特异性突变的分离的肽、包含已知肿瘤特异性突变的肽，以及通过本文所公开的方法鉴别的突变多肽或其片段。新抗原肽可以在其编码序列背景下描述，其中新抗原包括编码相关多肽序列的核苷酸序列(例如DNA或RNA)。

由新抗原核苷酸序列编码的一个或多个多肽可以包含以下至少一种：以低于1000nM的IC50值的与MHC的结合亲和力；对于长度是8-15个，即8、9、10、11、12、13、14或15个氨基酸的I类MHC肽，在该肽内或附近存在促进蛋白酶体裂解的序列基元；及存在促进TAP转运的序列基元。对于长度是6-30个，即6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个氨基酸的II类MHC肽，在该肽内或附近存在促进通过细胞外或溶酶体蛋白酶(组织蛋白酶)的切割或HLA-DM催化的HLA结合的序列基元。

一个或多个新抗原可以被呈递于肿瘤表面上。

一个或多个新抗原可以在患肿瘤的受试者中具有免疫原性，例如能够在该受试者体内引起T细胞反应或B细胞反应。

在产生用于患肿瘤的受试者的疫苗的情况下，可以考虑排除在受试者体内诱导自体免疫反应的一个或多个新抗原。

至少一个新抗原肽分子的尺寸可以包括但不限于约5个、约6个、约7个、约8个、约9个、约10个、约11个、约12个、约13个、约14个、约15个、约16个、约17个、约18个、约19个、约20个、约21个、约22个、约23个、约24个、约25个、约26个、约27个、约28个、约29个、约30个、约31个、约32个、约33个、约34个、约35个、约36个、约37个、约38个、约39个、约40个、约41个、约42个、约43个、约44个、约45个、约46个、约47个、约48个、约49个、约50个、约60个、约70个、约80个、约90个、约100个、约110个、约120个或更多个氨基分子残基，以及由其中可衍生的任何范围。在特定实施例方案中，新抗原肽分子等于或少于50个氨基酸。

新抗原肽和多肽可以：对于I类MHC是15个或更少残基长度并且通常由介于约8个与约11个之间的残基，特别是9个或10个残基组成；对于II类MHC是6-30个残基(包括端点在内)。

必要时，可以通过若干方式设计出更长的肽。在一种情况下，当预测出或已知肽在HLA等位基因上呈递的可能性时，较长的肽可以由以下任一种组成：(1)朝各相应基因产物的N末端和C末端延伸2-5个氨基酸的个别呈递的肽；(2)一些或全部呈递肽与各自的延伸序列的串接。在另一情况下，当测序披露在肿瘤中存在较长的(＞10个残基)新表位序列(例如由产生新颖肽序列的移码、通读或包括内含子引起)时，较长的肽将由以下组成：(3)由新颖肿瘤特异性氨基酸组成的整个延伸段，由此绕过了对基于计算或体外测试来选择HLA呈递最强的较短肽的需求。在两种情况下，较长链的使用使患者细胞能够进行内源性加工并且可以产生更有效的抗原呈递和T细胞反应的诱导作用。

新抗原肽和多肽可以被呈递于HLA蛋白质上。在一些方面，新抗原肽和多肽是以高于野生型肽的亲和力呈递于HLA蛋白质上。在一些方面，新抗原肽或多肽的IC50值可以是至少低于5000nM、至少低于1000nM、至少低于500nM、至少低于250nM、至少低于200nM、至少低于150nM、至少低于100nM、至少低于50nM或更低。

在一些方面，新抗原肽和多肽当施用给受试者时不会诱导自体免疫反应和/或激发免疫耐受性。

还提供了包含至少两个或更多个新抗原肽的组合物。在一些实施方案中，该组合物含有至少两个不同的肽。至少两个不同的肽可以来源于同一多肽。不同的多肽意味着，该肽的长度、氨基酸序列或两者不同。这些肽来源于已知或被发现含有肿瘤特异性突变的任何多肽。可以作为新抗原肽的来源的适合多肽可以见于例如COSMIC数据库。COSMIC策划了有关人癌症中的体细胞突变的全面信息。肽含有肿瘤特异性突变。在一些方面，肿瘤特异性突变是特定癌症类型的驱动突变。

具有所希望的活性或特性的新抗原肽和多肽可以被修饰成用于提供某些所希望的属性，例如改良的药理学特征，同时增加或至少保持未修饰肽的大体上所有生物活性以结合所希望的MHC分子并活化适当T细胞。举例来说，新抗原肽和多肽可以经历各种变化，如保守性或非保守性取代，其中此类变化可能在其使用中提供某些优势，如改良的MHC结合、稳定性及呈递。保守性取代意思指氨基酸残基被在生物上和/或化学上类似的另一氨基酸残基置换，例如一个疏水性残基被另一个置换，或一个极性残基被另一个置换。取代包括如Gly、Ala；Val、Ile、Leu、Met；Asp、Glu；Asn、Gln；Ser、Thr；Lys、Arg；及Phe、Tyr等的组合。单氨基酸取代的影响还可以使用D-氨基酸探测。此类修饰可以使用众所周知的肽合成程序进行，如例如Merrifield，Science 232：341-347(1986)，Barany&Merrifield，The Peptides，Gross&Meienhofer编辑(N.Y.，Academic Press)，第1-284页(1979)；及Stewart和Young，Solid Phase Peptide Synthesis，(Rockford，Ill.，Pierce)，第2版(1984)中所述。

用各种氨基酸模拟物或非天然氨基酸修饰肽和多肽特别适用于增加该肽和多肽的体内稳定性。稳定性可以通过多种方式测定。举例来说，使用肽酶和各种生物介质如人血浆和血清测试稳定性。参见例如，Verhoef等人，Eur.J.Drug Metab Pharmacokin.11：291-302(1986)。肽的半衰期可以使用25％人血清(v/v)测定，按常规方式测定。方案大致如下。在使用前，通过离心使汇集的人血清(AB型，未热灭活)脱脂。接着，用RPMI组织培养基将该血清稀释至25％并用于测试肽稳定性。按预定时间间隔，取出少量反应溶液并添加至6％三氯乙酸水溶液或乙醇中。冷却混浊的反应样品(4℃)，保持15分钟，然后离心以使沉淀的血清蛋白聚结。接着，通过反相HPLC，使用稳定性特异性色谱条件测定肽的存在。

这些肽和多肽可以经过修饰以提供除改良的血清半衰期外的所希望的属性。举例来说，可以通过将这些肽连接至含有至少一个能够诱导T辅助细胞反应的表位的序列来增强其诱导CTL活性的能力。免疫原性肽/T辅助偶联物可以借助于间隔子分子连接。间隔子通常包含在生理条件下大体上不带电荷的相对较小的中性分子，如氨基酸或氨基酸模拟物。这些间隔子通常选自例如Ala、Gly或由非极性氨基酸或中性极性氨基酸组成的其它中性间隔子。应理解，任选存在的间隔子无需包含相同残基且因此可以是异低聚物或同低聚物。当存在时，间隔子通常是至少一个或二个残基，更通常是三个至六个残基。或者，可以在无间隔子情况下将肽连接至T辅助肽。

新抗原肽可以直接地或通过间隔子在肽的氨基或羧基末端连接至T辅助细胞。新抗原肽或T辅助肽的氨基末端可以被酰基化。示例性T辅助肽包括破伤风类毒素830-843、流感307-319、疟疾环子孢子382-398和378-389。

蛋白质或肽可以通过本领域技术人员已知的任何技术制备，包括通过标准分子生物学技术表达蛋白质、多肽或肽、从天然来源分离蛋白质或肽，或化学合成蛋白质或肽。先前已公开对应于各种基因的核苷酸和蛋白质、多肽和肽序列，并且可以见于本领域普通技术人员已知的计算机化数据库。一种此类数据库是位于美国国家卫生研究院(NationalInstitutes of Health)网站的国家生物技术信息中心(National Center forBiotechnology Information)的Genbank和GenPept数据库。已知基因的编码区可以使用本文所公开或本领域普通技术人员已知的技术扩增和/或表达。或者，本领域技术人员已知蛋白质、多肽和肽的各种市售制剂。

在另一方面，新抗原包括了编码新抗原肽或其部分的核酸(例如多核苷酸)。该多核苷酸可以是例如单链和/或双链DNA、cDNA、PNA、CAN、RNA(例如mRNA)，或多核苷酸的天然或稳定化形式，如例如具有硫代磷酸酯主链的多核苷酸，或其组合，并且该多核苷酸可以含有或可以不含内含子。又另一方面提供了一种能够表达多肽或其部分的表达载体。用于不同细胞类型的表达载体是本领域众所周知的并且可以在无过度实验情况下进行选择。一般来说，将DNA以适当取向和正确的表达阅读框插入表达载体，如质粒中。必要时，可以将DNA连接至能被所希望的宿主识别的适当转录和翻译调控性控制核苷酸序列，不过此类控制一般在表达载体中可用。接着，通过标准技术将载体插入宿主中。相关指导可见于例如Sambrook等人(1989)Molecular Cloning，A Laboratory Manual，Cold Spring HarborLaboratory，Cold Spring Harbor，N.Y.

IV.疫苗组合物

本文还公开了一种能够引起特异性免疫反应，例如肿瘤特异性免疫反应的免疫原性组合物，例如疫苗组合物。疫苗组合物通常包含多个例如使用本文所描述的方法选择的新抗原。疫苗组合物又可以称为疫苗。

疫苗可以含有个数在1个与30个之间的肽，即2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个不同的肽；6、7、8、9、10 11、12、13或14个不同肽；或12、13或14个不同的肽。肽可以包括翻译后修饰。疫苗可以含有个数在1个与100个之间或更多个核苷酸序列，即2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94，95、96、97、98、99、100或更多个不同的核苷酸序列；6、7、8、9、10 11、12、13或14个不同的核苷酸序列；或12、13或14个不同的核苷酸序列。疫苗可以含有个数在1个与30个之间的新抗原序列，即2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94，95、96、97、98、99、100或更多个不同的新抗原序列；6、7、8、9、10 11、12、13或14个不同的新抗原序列；或12、13或14个不同的新抗原序列。

在一个实施方案中，不同肽和/或多肽或编码其的核苷酸序列的选择使得这些肽和/或多肽能够与不同MHC分子，如不同的I类MHC分子和/或不同的II类MHC分子缔合。在一些方面，一种疫苗组合物包含能够与最常出现的I类MHC分子和/或II类MHC分子缔合的肽和/或多肽的编码序列。因此，疫苗组合物可以包含能够与至少2个优选的、至少3个优选的或至少4个优选的I类MHC分子和/或II类MHC分子缔合的不同片段。

该疫苗组合物能够引起特异性细胞毒性T细胞反应和/或特异性辅助T细胞反应。

疫苗组合物还可以包含佐剂和/或载剂。有用的佐剂和载剂的实例提供于下文中。组合物可以与载剂缔合，如例如蛋白质或抗原呈递细胞，如能够将肽呈递至T细胞的树突状细胞(DC)。

佐剂是混合至疫苗组合物中增加或以其它方式改变针对新抗原的免疫反应的任何物质。载剂可以是能够与新抗原缔合的支架结构，例如多肽或多糖。任选地，佐剂是共价或非共价缀合的。

佐剂增加针对抗原的免疫反应的能力通常通过免疫介导的反应的显著或实质上增加，或疾病症状的减少来表现。举例来说，体液免疫的增加通常表现为针对抗原所产生的抗体的效价的显著增加，并且T细胞活性增加通常表现为细胞增殖，或细胞毒性，或细胞因子分泌的增加。佐剂也可以通过例如将主要体液或Th反应变成主要细胞或Th反应来改变免疫反应。

适合的佐剂包括但不限于，1018 ISS、矾、铝盐、Amplivax、AS15、BCG、CP-870,893、CPG7909、CyaA、dSLIM、GM-CSF、IC30、IC31、咪喹莫特(Imiquimod)、ImuFact IMP321、ISPatch、ISS、ISCOMATRIX、JuvImmune、LipoVac、MF59、单磷酰脂质A、Montanide IMS 1312、Montanide ISA 206、Montanide ISA 50V、Montanide ISA-51、OK-432、OM-174、OM-197-MP-EC、ONTAK、PepTel载体系统、PLG微粒、雷西莫特(resiquimod)、SRL172、病毒颗粒和其它类病毒颗粒、YF-17D、VEGF捕捉剂、R848、β-葡聚糖、Pam3Cys、Aquila的来源于皂素的QS21刺激子(Aquila Biotech，Worcester，Mass.，USA)、分枝杆菌提取物和合成细菌细胞壁模拟物，以及其它专用佐剂，如Ribi的Detox.Quil或Superfos。佐剂，如不完全弗氏佐剂或GM-CSF是有用的。先前已描述若干专用于树突状细胞的免疫佐剂(例如MF59)和其制备方法(DupuisM等人，Cell Immunol.1998；186(1)：18-27；Allison A C；Dev Biol Stand.1998；92：3-11)。也可以使用细胞因子。若干细胞因子与以下直接相关：影响树突状细胞向淋巴组织(例如TNF-α)的迁移；加速树突状细胞成熟成为T淋巴细胞的有效抗原呈递细胞(例如GM-CSF、IL-1及IL-4)(美国专利第5,849,589号，特定地以引用的方式整体并入本文中)及充当免疫佐剂(例如IL-12)(Gabrilovich D I等人，J Immunother Emphasis Tumor Immunol.1996(6)：414-418)。

也已经报导过CpG免疫刺激性寡核苷酸能增强佐剂在疫苗环境中的作用。也可以使用其它TLR结合分子，如RNA结合性TLR 7、TLR 8和/或TLR 9。

有用佐剂的其它实例包括但不限于，化学修饰的CpG(例如CpR、Idera)、聚(I：C)(例如聚i：CI2U)、非CpG细菌DNA或RNA以及免疫活性小分子和抗体，如环磷酰胺、舒尼替尼(sunitinib)、贝伐单抗(bevacizumab)、西乐葆(celebrex)、NCX-4016、西地那非(sildenafil)、他达那非(tadalafil)、伐地那非(vardenafil)、索拉非尼(sorafinib)、XL-999、CP-547632、帕佐盘尼(pazopanib)、ZD2171、AZD2171、伊匹单抗(ipilimumab)、曲美单抗(tremelimumab)及SC58175，这些可以起到治疗作用和/或充当佐剂。佐剂和添加剂的量和浓度可以由熟练技术人员容易地确定，无需过度实验。其它佐剂包括集落刺激因子，如粒细胞巨噬细胞集落刺激因子(GM-CSF，沙格司亭(sargramostim))。

疫苗组合物可以包含超过一种不同的佐剂。此外，治疗组合物可以包含任何佐剂物质，包括上述任一种或其组合。另外，预期疫苗和佐剂可以一起施用或按任何适当的次序分开施用。

载剂(或赋形剂)可以独立于佐剂而存在。载剂的功能可以是例如增加特定突变体的分子量以增加活性或免疫原性；赋予稳定性、增加生物活性或增加血清半衰期。此外，载剂可以帮助将肽呈递至T细胞。载剂可以是本领域技术人员已知的任何适合的载剂，例如蛋白质或抗原呈递细胞。载剂蛋白可以是但不限于匙孔血蓝蛋白、血清蛋白如转铁蛋白、牛血清白蛋白、人血清白蛋白、甲状腺球蛋白或卵白蛋白、免疫球蛋白或激素，如胰岛素或棕榈酸。对于人的免疫，载剂一般是对人生理学上可接受的载剂并且是安全的。不过，破伤风类毒素及/或白喉类毒素是适合的载剂。或者，载剂可以是葡聚糖，例如琼脂糖。

细胞毒性T细胞(CTL)识别呈结合至MHC分子的肽形式的抗原，而非整个外来抗原本身。MHC分子本身位于抗原呈递细胞的细胞表面上。因此，如果存在肽抗原、MHC分子和APC的三聚体复合物，则可能活化CTL。相应地，如果该肽不仅用于活化CTL，而且如果另外添加具有相应MHC分子的APC，则其可以增强免疫反应。因此，在一些实施方案中，疫苗组合物另外含有至少一种抗原呈递细胞。

新抗原也可以被包括在基于病毒载体的疫苗平台中，如牛痘、禽痘、自复制型α病毒、马拉巴病毒(marabavirus)、腺病毒(参见例如Tatsis等人，Adenoviruses，MolecularTherapy(2004)10，616-629)或慢病毒，包括但不限于第二代、第三代和/或混合第二/第三代慢病毒和设计成靶向特定细胞类型或受体的任何一代重组慢病毒(参见例如，Hu等人，Immunization Delivered by Lentiviral Vectors for Cancer and InfectiousDiseases，Immunol Rev.(2011)239(1)：45-61；Sakuma等人，Lentiviral vectors：basicto translational，Biochem J.(2012)443(3)：603-18；Cooper等人，Rescue of splicing-mediated intron loss maximizes expression in lentiviral vectors containingthe human ubiquitin C promoter，Nucl.Acids Res.(2015)43(1)：682-690；Zufferey等人，Self-Inactivating Lentivirus Vector for Safe and Efficient In Vivo GeneDelivery，J.Virol.(1998)72(12)：9873-9880)。取决于以上提到的基于病毒载体的疫苗平台的包装能力，此方法可以递送编码一个或多个新抗原肽的一个或多个核苷酸序列。这些序列可以侧接非突变序列，可以由连接子分开，或者可以在前面具有一个或多个靶向亚细胞区室的序列(参见例如，Gros等人，Prospective identification of neoantigen-specific lymphocytes in the peripheral blood of melanoma patients，Nat Med.(2016)22(4)：433-8；Stronen等人，Targeting of cancer neoantigens with donor-derived T cell receptor repertoires，Science.(2016)352(6291)：1337-41；Lu等人，Efficient identification of mutated cancer antigens recognized by T cellsassociated with durable tumor regressions，Clin Cancer Res.(2014)20(13)：3401-10)。在引入宿主中后，受感染的细胞表达新抗原，并由此引起针对肽的宿主免疫(例如CTL)反应。可用于免疫方案的牛痘载体和方法描述于例如美国专利第4,722,848号中。另一载体是卡介苗(Bacille Calmette Guerin，BCG)。BCG载体描述于Stover等人(Nature 351：456-460(1991))中。根据本文的描述，本领域技术人员将显而易见可用于新抗原的治疗性施用或免疫的多种其它疫苗载体，例如，伤寒沙门氏菌(Salmonella typhi)载体。

IV.A.有关疫苗设计和制造的其它考虑因素

IV.A.1.确定涵盖所有肿瘤亚克隆的肽集合

躯干肽(Truncal peptide)，意思指由所有或大部分肿瘤亚克隆呈递的肽，将优先被包括在疫苗中。⁵³任选地，如果不存在预测会以较高机率呈递并具有免疫原性的躯干肽，或者如果预测能够以较高机率呈递并具有免疫原性的躯干肽的数量足够小以致可以在疫苗中包括其它非躯干肽，则可以通过估计肿瘤亚克隆的数量和属性并选择肽以使该疫苗所涵盖的肿瘤亚克隆的数量最大来对其它肽进行优先排序。⁵⁴

IV.A.2.新抗原优先排序

与疫苗技术可以支持的量相比，在应用所有以上新抗原过滤器后，仍有许多候选新抗原可包括在疫苗中。另外，可以保留有关新抗原分析的各个方面的不确定性，并且在候选疫苗新抗原的不同特性之间可能存在折中。因此，可以考虑用整合式多维模型代替在选择过程的每个步骤中的预定过滤器，该多维模型将候选新抗原放入具有至少以下轴的空间中并使用整合方法优化选择。

1.自体免疫或耐受的风险(生殖系的风险)(通常优选较低的自体免疫风险)。

2.测序伪影的机率(通常优选较低的伪影机率)。

3.免疫原性的机率(通常优选较高的免疫原性机率)。

4.呈递机率(通常优选较高的呈递机率)。

5.基因表达(通常优选较高表达)。

6.HLA基因的覆盖率(参与呈递新抗原集合的HLA分子数量增多可以降低肿瘤通过HLA分子下调或突变而逃避免疫攻击的机率)。HLA类别的覆盖率(同时覆盖HLA-I和HLA-II可能会增加治疗反应的几率并降低肿瘤逃逸的几率)。

另外，任选地，如果新抗原预测为由被在患者的全部或部分肿瘤中丢失或失活的HLA等位基因呈递，则可以将新抗原从疫苗中去优先级(例如，排除)。HLA等位基因的丢失可能是由于体细胞突变、杂合性丢失或基因座纯合缺失所致。用于检测HLA等位基因体细胞突变的方法是本领域众所周知的，例如(Shukla等人，2015)。同样很好地描述了检测体细胞LOH和纯合缺失(包括对于HLA基因座)的方法。(Carter等人，2012；McGranahan等人，2017；Van Loo等人，2010)。

V.治疗和制造方法

还提供了一种通过向受试者施用一个或多个新抗原，如使用本文所公开的方法鉴别的多个新抗原来诱导受试者的肿瘤特异性免疫反应、针对肿瘤接种疫苗、治疗和或缓解受试者的癌症症状的方法。

在一些方面，受试者被诊断患有癌症或有发生癌症的风险。受试者可以是需要肿瘤特异性免疫反应的人、狗、猫、马或任何动物。肿瘤可以是任何实体肿瘤，如乳房肿瘤、卵巢肿瘤、前列腺肿瘤、肺肿瘤、肾肿瘤、胃肿瘤、结肠肿瘤、睾丸肿瘤、头颈部肿瘤、胰腺肿瘤、脑肿瘤、黑素瘤及其它组织器官肿瘤；以及血液肿瘤，如淋巴瘤和白血病，包括急性骨髓性白血病、慢性骨髓性白血病、慢性淋巴细胞性白血病、T细胞淋巴细胞性白血病及B细胞淋巴瘤。

新抗原的施用量应足以诱导CTL反应。

新抗原可以单独施用或与其它治疗剂组合施用。治疗剂是例如化学治疗剂、放射或免疫疗法。针对特定癌症的任何适合的治疗性治疗都可以施用。

此外，还可以向受试者施用抗免疫抑制/免疫刺激剂，如检查点抑制剂。举例来说，还可以向受试者施用抗CTLA抗体或抗PD-1或抗PD-L1。抗体阻断CTLA-4或PD-L1可以增强针对患者体内癌细胞的免疫反应。确切地说，经显示，当遵循疫苗接种方案时，有效阻断CTLA-4。

可以确定包括在疫苗组合物中的各新抗原的最佳量和最佳剂量方案。举例来说，可以制备供静脉内(i.v.)注射、皮下(s.c.)注射、皮内(i.d.)注射、腹膜内(i.p.)注射、肌肉内(i.m.)注射的新抗原或其变体。注射方法包括皮下(s.c.)、皮内(i.d.)、腹腔(i.p.)、肌内(i.m.)及静脉内。DNA或RNA注射方法包括皮内、肌内、皮下、腹腔及静脉内。本领域技术人员已知施用疫苗组合物的其它方法。

疫苗可以被设计成使得组合物中存在的新抗原的选择、数量和/或量具有组织、癌症和/或患者特异性。举例来说，肽的确切选择可以由给定组织中亲本蛋白质的表达模式来指导。该选择可以取决于癌症的具体类型、疾病状态、先前的治疗方案、患者的免疫状态及当然要考虑的患者的HLA单倍型。此外，根据特定患者的个人需要，疫苗还可以含有个性化组分。实例包括根据特定患者体内新抗原的表达来改变新抗原的选择或遵循第一轮治疗方案调整后续治疗。

对于打算用作癌症疫苗的组合物，在正常组织中大量表达的具有类似正常自身肽的新抗原应当避免或以少量存在于本文所描述的组合物中。另一方面，如果已知患者的肿瘤大量表达某一新抗原，则用于治疗此癌症的相应药物组合物可以大量存在和/或可以包括超过一种对于此特定新抗原或此新抗原的路径具有特异性的新抗原。

可以将包含新抗原的组合物施用给患上癌症的个体。在治疗应用中，组合物是以足以引起针对肿瘤抗原的有效CTL反应及治愈或至少部分停滞症状和/或并发症的量施用给患者。适于实现此目的的量定义为“治疗有效剂量”。有效用于此用途的量将取决于例如组成、施用方式、所治疗的疾病的分期和严重程度、患者的体重和一般健康状态，以及处方医师的判断。应了解，组合物一般可以用于严重疾病状态，也就是说，危及生命或可能危及生命的状况，特别是当癌症已经转移的时候。在此类情况下，考虑到要使外来物质最少以及新抗原的相对无毒性质，治疗医师有可能并且会感觉需要施用大体上过量的这些组合物。

对于治疗用途，施用可以在检测到或手术移除肿瘤时开始。这之后是增加剂量，直到至少症状大体上减轻并且之后持续一段时间。

用于治疗性治疗的药物组合物(例如疫苗组合物)意图用于肠胃外、表面、鼻、口或局部施用。药物组合物可以通过肠胃外施用，例如静脉内、皮下、皮内或肌肉内施用。这些组合物可以施用到手术切除的部位处以诱导针对肿瘤的局部免疫反应。本文公开了供肠胃外施用的组合物，这些组合物包含新抗原溶液并且疫苗组合物被溶解或悬浮于可接受的载剂，例如水性载剂中。可以使用多种水性载剂，例如水、缓冲水、0.9％生理盐水、0.3％甘氨酸、透明质酸等。这些组合物可以通过众所周知的常规灭菌技术灭菌，或者可以经历无菌过滤。由此得到的水溶液可以被包装起来按原样使用，或者被冻干；冻干的制剂在施用之前与无菌溶液组合。必要时，这些组合物可以含有药学上可接受的辅助物质以接近生理条件，如pH调节剂和缓冲剂、张力调节剂、润湿剂等，例如乙酸钠、乳酸钠、氯化钠、氯化钾、氯化钙、脱水山梨糖醇单月桂酸酯、三乙醇胺油酸酯等。

新抗原还可以通过脂质体施用，使脂质体靶向特定细胞组织，如淋巴组织。脂质体还可用于增加半衰期。脂质体包括乳液、泡沫状物、胶束、不溶性单层、液晶、磷脂分散体、薄层状层等。在这些制剂中，待递送的新抗原是单独或与结合至例如淋巴细胞间普遍存在的受体的分子如结合至CD45抗原的单克隆抗体，或与其它治疗或免疫原性组合物缀合作为脂质体的一部分并入。因此，填充有所希望的新抗原的脂质体可以被引导至淋巴细胞部位，接着脂质体递送所选治疗性/免疫原性组合物。脂质体可以由标准囊泡形成脂质形成，这些脂质一般包括中性和带负电的磷脂以及固醇如胆固醇。脂质的选择一般通过考虑例如脂质体尺寸、酸不稳定性和脂质体在血流中的稳定性来指导。如例如Szoka等人，Ann.Rev.Biophys.Bioeng.9；467(1980)；美国专利第4,235,871号、第4,501,728号、第4,501,728号、第4,837,028号及第5,019,369号中所述，有多种可用于制备脂质体的方法。

为靶向免疫细胞，打算并入脂质体中的配体可以包括例如对所希望的免疫系统细胞的细胞表面决定子具有特异性的抗体或其片段。脂质体悬浮液可以经静脉内、局部、表面等途径施用，其剂量尤其根据施用方式、所递送的肽及所治疗疾病的分期等而变化。

出于治疗或免疫接种目的，还可以向患者施用编码肽的核酸和任选地一种或多种本文所描述的肽。常常使用多种方法将核酸递送给患者。举例来说，核酸可以直接被递送，如“裸DNA”。这一方法描述于例如Wolff等人，Science 247：1465-1468(1990)以及美国专利第5,580,859号和第5,589,466号。核酸还可以使用例如美国专利第5,204,253号中所描述的冲击递送法(ballistic delivery)施用。可以施用仅包含DNA的粒子。或者，可以使DNA附着至粒子，如金粒子。用于递送核酸序列的方法可以包括病毒载体、mRNA载体及DNA载体，利用或不利用电穿孔。

核酸也可以与阳离子性化合物，如阳离子性脂质形成复合物来递送。脂质介导的基因递送方法描述于例如9618372WOAWO96/18372；9324640WOAWO 93/24640；Mannino和Gould-Fogerite，BioTechniques 6(7)：682-691(1988)；美国专利第5,279,833号；Rose美国专利第5,279,833号；9106309WOAWO 91/06309；及Felgner等人，Proc.Natl.Acad.Sci.USA 84：7413-7414(1987)。

新抗原也可以被包括在基于病毒载体的疫苗平台中，如牛痘、禽痘、自复制型α病毒、马拉巴病毒、腺病毒(参见例如Tatsis等人，Adenoviruses，Molecular Therapy(2004)10，616-629)或慢病毒，包括但不限于第二代、第三代和/或混合第二/第三代慢病毒和设计成靶向特定细胞类型或受体的任何一代重组慢病毒(参见例如，Hu等人，ImmunizationDelivered by Lentiviral Vectors for Cancer and Infectious Diseases，ImmunolRev.(2011)239(1)：45-61；Sakuma等人，Lentiviral vectors：basic to translational，Biochem J.(2012)443(3)：603-18；Cooper等人，Rescue of splicing-mediated intronloss maximizes expression in lentiviral vectors containing the humanubiquitin C promoter，Nucl.Acids Res.(2015)43(1)：682-690；Zufferey等人，Self-Inactivating Lentivirus Vector for Safe and Efficient In Vivo Gene Delivery，J.Virol.(1998)72(12)：9873-9880)。取决于以上提到的基于病毒载体的疫苗平台的包装能力，此方法可以递送编码一个或多个新抗原肽的一个或多个核苷酸序列。这些序列可以侧接非突变序列，可以由连接子分开，或者可以在前面具有一个或多个靶向亚细胞区室的序列(参见例如，Gros等人，Prospective identification of neoantigen-specificlymphocytes in the peripheral blood of melanoma patients，Nat Med.(2016)22(4)：433-8；Stronen等人，Targeting of cancer neoantigens with donor-derived T cellreceptor repertoires，Science.(2016)352(6291)：1337-41；Lu等人，Efficientidentification of mutated cancer antigens recognized by T cells associatedwith durable tumor regressions，Clin Cancer Res.(2014)20(13)：3401-10)。在引入宿主中后，受感染的细胞表达新抗原，并由此引起针对肽的宿主免疫(例如CTL)反应。可用于免疫方案的牛痘载体和方法描述于例如美国专利第4,722,848号中。另一载体是卡介苗(BCG)。BCG载体描述于Stover等人(Nature 351：456-460(1991))中。根据本文的描述，本领域技术人员将显而易见可用于新抗原的治疗性施用或免疫的多种其它疫苗载体。

施用核酸的方式使用了编码一个或多个表位的微型基因构建体。为了产生用于在人细胞中表达的编码所选CTL表位的DNA序列(微型基因)，对这些表位的氨基酸序列进行逆翻译。使用人密码子用法表指导各氨基酸的密码子选择。将这些表位编码DNA序列直接邻接，产生连续多肽序列。为了优化表达和/或免疫原性，可以将另外的元件并入微型基因设计中。可以被逆翻译并且包括在微型基因序列中的氨基酸序列的实例包括：辅助T淋巴细胞、表位、前导(信号)序列及内质网滞留信号。此外，通过邻近CTL表位包括合成(例如聚丙氨酸)或天然存在的侧接序列可以改善CTL表位的MHC呈递。通过组装编码微型基因正链和负链的寡核苷酸，将微型基因序列转化成DNA。使用众所周知的技术，在适当条件下合成、磷酸化、纯化重叠寡核苷酸(30-100个碱基长)并使其退火。使用T4DNA连接酶接合寡核苷酸的末端。接着，可以将这一编码CTL表位多肽的合成微型基因克隆至所希望的表达载体中。

可以使用多种配制物制备注射用纯化质粒DNA。这些方法中最简单的方法是在无菌磷酸盐缓冲生理盐水(PBS)中使冻干的DNA复水。多种方法已有描述，并且新技术也可以使用。如上文所述，核酸宜用阳离子性脂质配制。此外，还可以使统称为保护性、相互作用性、非缩合性(PINC)的糖酯、促融脂质体、肽和化合物与纯化的质粒DNA形成复合物以影响各种变量，如稳定性、肌肉内分散或向特定器官或细胞类型的运输。

还公开了一种制造肿瘤疫苗的方法，该方法包括执行本文所公开的方法的各个步骤；及产生包含多个新抗原或该多个新抗原的子集的肿瘤疫苗。

本文所公开的新抗原可以使用本领域中已知的方法制造。举例来说，本文所公开的产生新抗原或载体(例如包括至少一个编码一个或多个新抗原的序列的载体)的方法可以包括在适于表达该新抗原或载体的条件下培养宿主细胞，其中该宿主细胞包含至少一个编码该新抗原或载体的多核苷酸；及纯化该新抗原或载体。标准纯化方法包括色谱技术、电泳技术、免疫技术、沉淀、透析、过滤、浓缩及等电聚焦技术。

宿主细胞可以包括中国仓鼠卵巢(CHO)细胞、NS0细胞、酵母或HEK293细胞。宿主细胞可以用一个或多个多核苷酸转化，该一个或多个多核苷酸包含至少一个编码本文所公开的新抗原或载体的核酸序列，任选地其中分离的多核苷酸另外包含可操作地连接到该至少一个编码新抗原或载体的核酸序列的启动子序列。在某些实施方案中，该分离的多核苷酸可以是cDNA。

V.A.MHC/肽靶标反应性T细胞和TCR的鉴别

可以从患者的血液、淋巴结或肿瘤中分离T细胞。可以例如通过分选抗原-MHC四聚体结合细胞或通过分选在T细胞和抗原冲击的抗原呈递细胞的体外共培养中刺激的活化细胞来富集T细胞的抗原特异性T细胞。用于抗原特异性T细胞鉴别的多种试剂在本领域中是已知的，包括负载抗原的四聚体和其他基于MHC的试剂。

可以通过抗原特异性T细胞的TCR的单细胞测序来鉴别抗原相关的α-β(或γ-δ)TCR二聚体。或者，可以进行抗原特异性T细胞的整体TCR测序，并且可以使用本领域已知的TCR配对方法确定具有高匹配概率的α-β对。

替代地或另外地，可以通过来自健康供体的幼稚T细胞的体外引发来获得抗原特异性T细胞。从PBMC、淋巴结或脐带血获得的T细胞可通过抗原冲击的抗原呈递细胞反复刺激以引发经历抗原的T细胞分化。然后可以按照与上文关于来自患者的抗原特异性T细胞描述的类似方法鉴别TCR。

VI.新抗原鉴别

VI.A新抗原候选物的鉴别。

有关以NGS分析肿瘤和正常外显子组和转录组的研究方法已有描述且被应用于新抗原鉴别邻域中。^6，14，15以下实施例考虑了在临床环境中对于新抗原鉴别具有较高灵敏度和特异性的某些优化措施。这些优化措施可以分为两个领域，即与实验室方法有关的优化和与NGS数据分析有关的优化。

VI.A.1.实验室方法优化

此处提出的方法改进通过将所开发的有关可靠地评估靶癌症组中的癌症驱动基因的概念¹⁶扩展至新抗原鉴别所需的全外显子组和全转录组环境，解决了从肿瘤含量较低并且体积较小的临床试样中高准确性发现新抗原的难题。确切地说，这些改进包括：

1.靶向整个肿瘤外显子组的深度(＞500×)独特平均覆盖率，以检测由于肿瘤含量低或处于亚克隆状态而以低突变等位基因频率存在的突变。

2.靶向整个肿瘤外显子组的均匀覆盖率，其中在＜100×下覆盖＜5％的碱基，由此通过例如以下方式使遗漏新抗原的可能性最低：

a.采用基于DNA的捕捉探针和个别探针QC¹⁷

b.包括针对覆盖较少的区域的额外诱饵

3.靶向整个正常外显子组的均匀覆盖率，其中在＜20×下覆盖＜5％的碱基，由此对于体细胞/生殖系状态可能有最少的新抗原未被分类(并因此不能用作TSNA)

4.为了使需要测序的总量减到最少，序列捕捉探针应被设计成仅针对基因编码区，因为非编码RNA不会产生新抗原。其它优化包括：

a.针对HLA基因的补充探针，这些基因富含GC并且通过标准外显子组测序很难捕捉¹⁸

b.排除由于如表达水平不足、蛋白酶体消化欠佳或不常见的序列特征等因素而被预测产生极少或不产生候选新抗原的基因。

5.肿瘤RNA将通常同样在高深度(＞100M个读段)下测序，以便能够进行变体检测、基因和剪接变体(“同功型”)表达水平的定量，及融合物检测。来自FFPE样品的RNA将使用基于探针的富集方法¹⁹，使用与捕捉DNA中的外显子组相同或类似的探针进行提取。

VI.A.2.NGS数据分析优化

分析方法的改进解决了常用研究突变调用方法灵敏度和特异性欠佳的问题，并且特别考虑到了在临床环境中与新抗原鉴别相关的定制。这些包括：

1.使用HG38参考人基因组或后续版本进行比对，因为相对于先前的基因组版本，该基因组含有多个MHC区域组装体，较佳地反映了群体多态性。

2.通过合并由不同程序得到的结果⁵，克服单个变体调用程序的局限性²⁰

a.利用一套工具，检测肿瘤DNA、肿瘤RNA及正常DNA中的单核苷酸变体和插入缺失，该套工具包括：基于肿瘤与正常DNA的比较的程序，如Strelka²¹和Mutect²²；和并入了肿瘤DNA、肿瘤RNA及正常DNA的程序，如UNCeqR，特别适用于低纯度样品²³。

b.插入缺失将利用执行局部再组装的程序测定，如Strelka和ABRA²⁴。

c.结构重排将使用专用工具测定，如Pindel²⁵或Breakseq²⁶。

3.为了检测并防止样品调换，将在选定的多态性位点数量下，比较来自同一患者的样品中的变体调用。

4.针对伪调用的广泛过滤将例如通过以下方式进行：

a.移除在正常DNA中发现的变体，在低覆盖率下可能使用不严格的检测参数，并且在插入缺失情况下使用容许的接近标准。

b.移除由低定位质量或低碱基质量引起的变体²⁷。

c.移除来源于反复出现的测序伪影的变体，即使在相应的正常情况下未观察到²⁷。实例包括主要在一条链上检测到的变体。

d.移除不相关的对照物集合中检测到的变体²⁷

5.使用seq2HLA²⁸、ATHLATES²⁹或Optitype之一，从正常外显子组中准确地调用HLA，并且还将外显子组与RNA测序数据组合²⁸。其它可能的优化包括采用专用于HLA分型的分析，如长读段DNA测序³⁰，或调适用于接合RNA片段的方法以保持连续性³¹。

6.针对由肿瘤特异性剪接变体产生的neo-ORF的稳健检测将通过使用CLASS³²、Bayesembler³³、StringTie³⁴或类似程序以其参考引导的模式，根据RNA-seq数据组装转录物来进行(即，使用已知的转录物结构而非尝试在每个实验中重新构建整个转录物)。尽管Cufflinks³⁵通常被用于此目的，但它常常会不合情理地产生大量剪接变体，其中有许多比全长基因要短得多，并且无法回收简单的阳性对照。编码序列及无义介导的衰变可能性将通过如SpliceR³⁶和MAMBA³⁷等工具，利用重新引入的突变序列测定。基因表达将利用如Cufflinks³⁵或Express(Roberts和Pachter，2013)等工具测定。野生型和突变体特异性表达计数和/或相对水平将利用开发用于这些目的的工具，如ASE³⁸或HTSeq³⁹测定。可能的过滤步骤包括：

a.移除被认为表达不足的候选neo-ORF。

b.移除被预测会触发无义介导的衰变(NMD)的候选neo-ORF。

7.仅在RNA中观察到的无法直接验证为肿瘤特异性抗原的候选新抗原(例如neoORF)将根据额外参数，例如通过考虑以下因素而归类为可能是肿瘤特异性的：

a.存在仅支持肿瘤DNA的顺式作用移码或剪接位点突变

b.在剪接因子中存在仅证实肿瘤DNA的反式作用突变。举例来说，在利用R625突变型SF3B1进行的三个独立公布的实验中，尽管一个实验检查到葡萄膜黑素瘤患者⁴⁰，第二个实验检查到葡萄膜黑素瘤细胞系⁴¹，而第三个实验检查到乳癌患者⁴²，但展现最大剪接差异的基因是一致的。

c.对于新剪接同功型，在RNASeq数据中存在确证的“新”剪接-接合读段。

d.对于新重排，有确证在肿瘤DNA中存在而在正常DNA中不存在的近似外显子读段

e.基因表达概略中缺乏，如GTEx⁴³(即，使得不太可能为生殖系起源)

8.通过直接比较组装的DNA肿瘤与正常读段(或来自这些读段的k-mer)来补充基于参考基因组比对的分析以避免基于比对和注释的错误和伪影。(例如对于在生殖系变体或重复序列插入缺失附近出现的体细胞变体)

在具有聚腺苷酸化RNA的样品中，RNA-seq数据中病毒和微生物RNA的存在将使用RNA CoMPASS⁴⁴或类似方法评估，以鉴别可以预测患者响应的其它因素。

VI.B.HLA肽的分离和检测

HLA-肽分子的分离在溶胞和溶解组织样品之后，使用经典免疫沉淀(IP)方法进行^55-58。使用澄清的溶解产物进行HLA特异性IP。

免疫沉淀是使用偶合至珠粒的抗体进行，其中该抗体对HLA分子具有特异性。对于全I类HLA免疫沉淀，使用全I类CR抗体，对于II类HLA-DR，使用HLA-DR抗体。在过夜培育期间，将抗体共价连接至NHS-琼脂糖珠粒。在共价连接后，洗涤珠粒并等分试样用于IP。^59，60免疫沉淀也可以使用未共价结合至磁珠的抗体进行。通常，使用包被有蛋白A和/或蛋白G的琼脂糖或磁珠将抗体固定在色谱柱上来完成此操作。下面列出了一些可用于选择性富集MHC/肽复合物的抗体。

抗体名称	特异性
		W6/32	I类HLA-A，B，C
L243	II类-HLA-DR
		Tu36	II类-HLA-DR
LN3	II类-HLA-DR
		Tu39	II类-HLA-DR，DP，DQ

将澄清的组织溶解产物添加至抗体珠粒中进行免疫沉淀。免疫沉淀后，从溶解产物移除珠粒，并储存溶解产物用于另外的实验，包括另外的IP。洗涤IP珠粒以移除非特异性结合并使用标准技术，从珠粒洗脱下HLA/肽复合物。使用分子量旋转柱或C18分级分离，从肽移除蛋白质组分。通过SpeedVac蒸发使所得肽变干并且在一些情形中在-20C下储存以待MS分析。

干燥的肽在适于反相色谱法的HPLC缓冲液中复水并装载至C-18微毛细管HPLC柱上以在Fusion Lumos质谱仪(Thermo)中进行梯度洗脱。在Orbitrap检测器中在高分辨率下收集肽质/荷比(m/z)的MS1谱，随后在所选离子经历HCD片段化后，在离子阱检测器中收集MS2低分辨率扫描谱。另外，可以使用CID或ETD片段化方法，或三种技术的任何组合获得MS2谱，以达到该肽的较高氨基酸覆盖率。还可以在Orbitrap检测器中用高分辨率质量精度测量MS2谱。

使用Comet^61，62，针对蛋白质数据库搜索由各分析得到的MS2谱并使用Percolator^63-65对肽鉴别进行评分。可以使用PEAKS studio(Bioinformatics SolutionsInc.)进行另外的测序，并且可以使用其他搜索引擎或其他测序方法，包括光谱匹配和从头测序⁷⁵。

VI.B.1.支持全面HLA肽测序的MS检测限研究.

使用肽YVYVADVAAK(SEQ ID NO：1)，利用装载至LC柱上的不同量的肽确定检测限。测试肽的量是1pmol、100fmol、10fmol、1fmol及100amol。(表1)结果显示于图1F中。这些结果表明，最低检测限(LoD)是埃摩尔(attomol)范围(10^-18)，动态范围跨五个数量级，并且信噪比看来足以在低飞摩尔(femtomol)范围(10^-15)内进行测序。

肽m/z	装载于柱上	在1e9个细胞中的拷贝数/细胞
			566.830	1pmol	600
562.823	100fmol	60
			559.816	10fmol	6
556.810	1fmol	0.6
			553.802	100amol	0.06

VII.呈递模型

VII.A.系统综述

图2A是根据一个实施方案，用于鉴别患者体内肽呈递的可能性的环境100的概述。环境100提供背景以便引入呈递鉴别系统160，该系统本身包括呈递信息存储器165。

呈递鉴别系统160是一个或多个在如以下关于图14所论述的计算系统中体现的计算机模型，其接收与MHC等位基因集合有关的肽序列并测定这些肽序列将被该相关MHC等位基因集合中的一个或多个MHC等位基因呈递的可能性。呈递鉴别系统160可以应用于I类和II类MHC等位基因两者。这在多种情形中都适用。呈递鉴别系统160的一个具体使用情形是，它能够接收与来自患者110的肿瘤细胞的MHC等位基因集合有关的候选新抗原的核苷酸序列，并测定这些候选新抗原将被该肿瘤的相关MHC等位基因中的一个或多个呈递和/或在患者110的免疫系统中诱导免疫原性反应的可能性。可以选出被系统160测定具有高可能性的候选新抗原用于包括在疫苗118中，此类抗肿瘤免疫反应可以由提供肿瘤细胞的患者110的免疫系统引发。

呈递鉴别系统160通过一个或多个呈递模型测定呈递可能性。确切地说，呈递模型生成给定肽序列是否将由相关MHC等位基因集合呈递的可能性，并且这是基于存储在存储器165中的呈递信息生成的。举例来说，呈递模型可以生成肽序列“YVYVADVAAK(SEQ ID NO：1)”是否将由等位基因HLA-A*02：01、HLA-A*03：01、HLA-B*07：02、HLA-B*08：03、HLA-C*01：04的集合呈递于样品的细胞表面上的可能性。呈递信息165含有关于肽是否结合至不同类型的MHC等位基因以使得这些肽被MHC等位基因呈递的信息，该信息在模型中是根据肽序列中氨基酸的位置确定。呈递模型可以基于呈递信息165预测未被识别的肽序列的呈递是否会与相关MHC等位基因集合相关联。如前所述，呈递模型可以应用于I类和II类MHC等位基因两者。

VII.B.呈递信息

图2示出了根据一个实施方案的获得呈递信息的方法。呈递信息165包括两个通用信息类别：等位基因相互作用信息和等位基因非相互作用信息。等位基因相互作用信息包括影响与MHC等位基因的类型相关的肽序列的呈递的信息。等位基因非相互作用信息包括影响与MHC等位基因的类型无关的肽序列的呈递的信息。

VII.B.1.等位基因相互作用信息

等位基因相互作用信息主要包括经过鉴别的肽序列，已知这些肽序列已经被来自人、小鼠等的一个或多个经过鉴别的MHC分子呈递。值得注意的是，这可能包括或可能不包括从肿瘤样品获得的数据。可以从表达单个MHC等位基因的细胞鉴别出所呈递的肽序列。在这一情形中，所呈递的肽序列一般是从单个等位基因细胞系收集，这些细胞系被工程改造成表达预定MHC等位基因并且随后暴露于合成蛋白质。在MHC等位基因上呈递的肽是通过如酸洗脱等技术分离并通过质谱法鉴别。图2B示出了这一情形的一个实施例，其中分离出在预定MHC等位基因HLA-DRB1*12：01上呈递的示例肽YEMFNDKSQRAPDDKMF(SEQ ID NO：2)并通过质谱法鉴别。由于在此情况下，肽是通过被工程改造成表达单一预定MHC蛋白质的细胞鉴别，故呈递的肽与其所结合的MHC蛋白质之间的直接关联是确定已知的。

也可以从表达多个MHC等位基因的细胞收集所呈递的肽序列。通常，在人体中，一种细胞表达6种不同类型的MHC-I和至多12种不同类型的MHC-II分子。如此呈递的肽序列可以从被工程改造成表达多个预定MHC等位基因的多等位基因细胞系鉴别到。还可以从组织样品，如正常组织样品或肿瘤组织样品鉴别如此呈递的肽序列。特别就这一情形来说，MHC分子可以从正常或肿瘤组织免疫沉淀。在多个MHC等位基因上呈递的肽可类似地通过如酸洗脱等技术分离并通过质谱法鉴别。图2C示出了此种情形的一个实施例，其中将六个示例肽YEMFNDKSF(SEQ ID NO：3)、HROEIFSHDFJ(SEQ ID NO：4)、FJIEJFOESS(SEQ ID NO：5)、NEIOREIREI(SEQ ID NO：6)、JFKSIFEMMSJDSSUIFLKSJFIEIFJ(SEQ ID NO：7)及KNFLENFIESOFI(SEQ ID NO：8)呈递于所鉴别的I类MHC等位基因HLA-A*01：01、HLA-A*02：01、HLA-B*07：02、HLA-B*08：01及II类MHC等位基因HLA-DRB1*10：01、HLA-DRB1：11：01并且分离，并通过质谱法鉴别。相对于单等位基因细胞系，呈递的肽与其所结合的MHC蛋白质之间的直接关联可能是未知的，因为结合肽是在鉴别之前与MHC分子分离。

等位基因相互作用信息还可以包括质谱离子流，其取决于肽-MHC分子复合物的浓度和肽电离效率。电离效率以序列依赖性方式随肽而变化。一般来说，电离效率随肽而在约两个数量级内变化，而肽-MHC复合物的浓度在比其更大的范围内变化。

等位基因相互作用信息还可以包括给定MHC等位基因与给定肽之间结合亲和力的测量或预测。(72，73，74)一个或多个亲和力模型可以生成此类预测。举例来说，再看回图1D中所示的实施例，呈递信息165可以包括肽YEMFNDKSF(SEQ ID NO：3)与等位基因I类HLA-A*01：01之间的1000nM的结合亲和力预测值。IC50＞1000nm的肽很少被MHC呈递，且较低的IC50值使呈递机率增加。呈递信息165可以包括肽KNFLENFIESOFI和II类等位基因HLA-DRB1：11：01之间的结合亲和力预测。

等位基因相互作用信息也可以包括该MHC复合物稳定性的测量或预测。一个或多个稳定性模型可以生成此类预测。较稳定的肽-MHC复合物(即，半衰期较长的复合物)比较可能在肿瘤细胞上及在遭遇疫苗抗原的抗原呈递细胞上以高拷贝数呈递。举例来说，再看回图2C中所示的实施例，呈递信息165可以包括I类分子HLA-A*01：01的半衰期是1小时的稳定性预测值。呈递信息165可以包括II类分子HLA-DRB1：11：01的半衰期的稳定性预测值。

等位基因相互作用信息也可以包括测量或预测的肽-MHC复合物的形成反应速率。以较高速率形成的复合物比较可能以高浓度呈递于细胞表面上。

等位基因相互作用信息还可以包括肽的序列和长度。I类MHC分子通常偏好呈递长度介于8与15个肽之间的肽。所呈递的肽中有60-80％的长度是9个。II类MHC分子通常更优先呈递介于6到30个肽之间的肽。

等位基因相互作用信息还可以包括新抗原编码肽上激酶序列基元的存在，以及新抗原编码肽上特定翻译后修饰的不存在或存在。激酶基元的存在会影响翻译后修饰的机率，该翻译后修饰可能增强或干扰MHC结合。

等位基因相互作用信息还可以包括翻译后修饰过程中所涉及的蛋白质，例如激酶的表达水平或活性水平(如由RNA seq、质谱法或其它方法所测量或预测)。

等位基因相互作用信息还可以包括来自表达特定MHC等位基因的其他个体的细胞中具有相似序列的肽的呈递机率，这可通过质谱蛋白组学或其它手段评估。

等位基因相互作用信息还可以包括所讨论的个体中特定MHC等位基因的表达水平(例如，如通过RNA-seq或质谱法测量)。相较于最强地结合至以低水平表达的MHC等位基因的肽，最强地结合至以高水平表达的MHC等位基因的肽比较可能被呈递。

等位基因相互作用信息还可以包括不依赖于总体新抗原编码肽序列而在表达特定MHC等位基因的其他个体中由特定MHC等位基因呈递的机率。

等位基因相互作用信息还可以包括不依赖于总体肽序列而在其他个体中由同一家族分子(例如HLA-A、HLA-B、HLA-C、HLA-DQ、HLA-DR、HLA-DP)中的MHC等位基因呈递的机率。举例来说，HLA-C分子的表达水平通常低于HLA-A或HLA-B分子，且由此可推断，由HLA-C呈递肽的机率低于由HLA-A或HLA-B呈递的机率。再举一个例子，HLA-DP的表达水平通常低于HLA-DR或HLA-DQ，且由此可推断，由HLA-DP呈递肽的机率低于由HLA-DR或HLA-DQ呈递的机率。

等位基因相互作用信息还可以包括特定MHC等位基因的蛋白质序列。

以下部分中所列的任何MHC等位基因非相互作用信息也可以按MHC等位基因相互作用信息的方式进行建模。

VII.B.2.等位基因非相互作用信息

等位基因非相互作用信息可以包括在源蛋白质序列内侧接新抗原编码肽的C末端序列。对于MHC-I，C末端侧接序列可能影响肽的蛋白酶体加工。不过，C末端侧接序列是在肽转运至内质网并遇到细胞表面上的MHC等位基因之前，在蛋白酶体作用下自该肽裂解得到。因此，MHC分子接收不到有关C末端侧接序列的信息，且由此，C末端侧接序列的影响不会随MHC等位基因类型而变化。举例来说，再参看图2C中所示的实施例，呈递信息165可以包括从肽的源蛋白鉴别到的呈递肽FJIEJFOESS的C末端侧接序列FOEIFNDKSLDKFJI(SEQ ID NO：9)。

等位基因非相互作用信息也可以包括mRNA定量测量。举例来说，可以获得与提供质谱训练数据相同的样品的mRNA定量数据。如稍后参照图13G所描述，RNA表达水平被鉴别为肽呈递的强预测因子。在一个实施方案中，mRNA定量测量值是由软件工具RSEM鉴别得到。有关RSEM软件工具的详细实施方式可见于Bo Li及Colin N.Dewey.RSEM：accuratetranscript quantification from RNA-Seq data with or without a referencegenome.BMC Bioinformatics，12：323，2011年8月。在一个实施方案中，mRNA定量是以每一百万条定位读段数中每千碱基转录物的片段数(FPKM)为单位度量。

等位基因非相互作用信息还可以包括在源蛋白质序列内侧接所述肽的N末端序列。

等位基因非相互作用信息还可以包括肽序列的源基因。可以将源基因定义为肽序列的Ensembl蛋白家族。在另一些例子中，源基因可以被定义为肽序列的源DNA或源RNA。可以例如将源基因表示为编码蛋白质的一串核苷酸，或者基于已知编码特定蛋白质的已知DNA或RNA序列的命名集合将更直接地表示。在另一个例子中，等位基因非相互作用信息还可以包括从数据库如Ensembl或RefSeq中提取的肽序列的源转录本或同工型或潜在的源转录本或同工型的集合。

等位基因非相互作用信息还可以包括在该肽中蛋白酶裂解基元的存在，任选地根据肿瘤细胞中相应蛋白酶的表达(如通过RNA-seq或质谱法测量)加权。含有蛋白酶裂解基元的肽不太可能被呈递，因为这些肽比较容易被蛋白酶降解，并因此在细胞内不太稳定。

等位基因非相互作用信息还可以包括如在适当细胞类型中测量的源蛋白的转换率。转换率较快(即，半衰期较短)会增加呈递机率；不过，如果在不相似的细胞类型中测量，则此特征的预测能力较低。

等位基因非相互作用信息还可以包括如通过RNA-seq或蛋白质组质谱法所测量，或如根据在DNA或RNA序列数据中检测到的生殖系或体细胞剪接突变的注释所预测的源蛋白的长度，任选地考虑在肿瘤细胞中表达水平最高的特定剪接变体(“同功型”)。

等位基因非相互作用信息还可以包括肿瘤细胞中蛋白酶体、免疫蛋白酶体、胸腺蛋白酶体或其它蛋白酶的表达水平(可以通过RNA-seq、蛋白质组质谱法或免疫组织化学分析测量)。不同的蛋白酶体具有不同的裂解位点偏好。与表达水平成比例的各类型蛋白酶体的裂解偏好将被给予较大权重。

等位基因非相互作用信息还可以包括肽的源基因的表达水平(例如通过RNA-seq或质谱法测量)。可能的优化措施包括调整表达水平测量值以说明肿瘤样品内基质细胞和肿瘤浸润淋巴细胞的存在。来自表达水平较高的基因的肽比较可能被呈递。来自表达水平不可检测的基因的肽可以不予考虑。

等位基因非相互作用信息还可以包括如由无义介导的衰变模型，例如来自Rivas等人，Science 2015的模型所预测的新抗原编码肽的源mRNA将经历无义介导的衰变的机率。

等位基因非相互作用信息还可以包括在各种细胞周期阶段期间肽的源基因的典型肿瘤特异性表达水平。以总体较低水平表达(如通过RNA-seq或质朴蛋白质组学所测量)但已知在特定细胞周期阶段期间高水平表达的基因所产生的呈递肽可能多于以极低水平稳定表达的基因。

等位基因非相互作用信息还可以包括例如uniProt或PDB http：//www.rcsb.org/pdb/home/home.do中提供的源蛋白特征的综合目录。这些特征尤其可以包括：蛋白质的二级和三级结构、亚细胞定位11、基因本体(Gene ontology，GO)项。确切地说，这一信息可以含有在蛋白质水平上起作用的注释，例如5’UTR长度；及在特定残基水平上起作用的注释，例如在残基300与310之间的螺旋基元。这些特征还可以包括转角基元、折叠基元和无序残基。

等位基因非相互作用信息还可以包括描述含有该肽的源蛋白的结构域的特性的特征，例如：二级或三级结构(例如α螺旋对比β折叠)；选择性剪接。

等位基因非相互作用信息还可以包括描述在该肽的源蛋白中该肽的位置处存在或不存在呈递热点的特征。

等位基因非相互作用信息还可以包括其他个体中来自相关肽的源蛋白的肽的呈递机率(在调整这些个体中源蛋白的表达水平及这些个体的不同HLA类型的影响之后)。

等位基因非相互作用信息还可以包括由于技术偏差而无法通过质谱法检测到或过量表示该肽的机率。

通过基因表达测定如RNASeq、微阵列、靶向组如Nanostring所测量的各种基因模块/路径的表达，或通过如RT-PCR等测定(无需含有该肽的源蛋白)所测量的基因模块的单基因/多基因代表提供了有关肿瘤细胞、基质或肿瘤浸润淋巴细胞(TIL)的状态的信息。

等位基因非相互作用信息还可以包括肿瘤细胞中肽的源基因的拷贝数。举例来说，在肿瘤细胞中经历纯合子缺失的基因的肽可以指定为呈递机率是零。

等位基因非相互作用信息还可以包括肽结合至TAP的机率或肽与TAP的结合亲和力测量值或预测值。比较可能结合至TAP的肽，或以较高亲和力结合TAP的肽比较可能被MHC-I呈递。

等位基因非相互作用信息还可以包括肿瘤细胞中TAP的表达水平(可以通过RNA-seq、蛋白质组质谱法、免疫组织化学分析测量)。对于较高的TAP表达水平会增加所有肽的呈递机率。

等位基因非相互作用信息还可以包括肿瘤突变的存在或不存在，包括但不限于：

i.已知癌症驱动基因，如EGFR、KRAS、ALK、RET、ROS1、TP53、CDKN2A、CDKN2B、NTRK1、NTRK2、NTRK3中的驱动突变

ii.编码抗原呈递机器中所涉及的蛋白质的基因(例如B2M、HLA-A、HLA-B、HLA-C、TAP-1、TAP-2、TAPBP、CALR、CNX、ERP57、HLA-DM、HLA-DMA、HLA-DMB、HLA-DO、HLA-DOA、HLA-DOBHLA-DP、HLA-DPA1、HLA-DPB1、HLA-DQ、HLA-DQA1、HLA-DQA2、HLA-DQB1、HLA-DQB2、HLA-DR、HLA-DRA、HLA-DRB1、HLA-DRB3、HLA-DRB4、HLA-DRB5或编码蛋白酶体或免疫蛋白酶体的组分的任何基因)中的突变。呈递依赖于肿瘤中经历功能丧失性突变的抗原呈递机器组分的肽具有降低的呈递机率。

存在或不存在功能性生殖系多态现象，包括但不限于：

i.编码抗原呈递机器中所涉及的蛋白质的基因(例如B2M、HLA-A、HLA-B、HLA-C、TAP-1、TAP-2、TAPBP、CALR、CNX、ERP57、HLA-DM、HLA-DMA、HLA-DMB、HLA-DO、HLA-DOA、HLA-DOBHLA-DP、HLA-DPA1、HLA-DPB1、HLA-DQ、HLA-DQA1、HLA-DQA2、HLA-DQB1、HLA-DQB2、HLA-DR、HLA-DRA、HLA-DRB1、HLA-DRB3、HLA-DRB4、HLA-DRB5或编码蛋白酶体或免疫蛋白酶体的组分的任何基因)中的功能性生殖系多态现象

等位基因非相互作用信息还可以包括肿瘤类型(例如NSCLC、黑素瘤)。

等位基因非相互作用信息还可以包括HLA等位基因的已知功能，如由例如HLA等位基因的后缀所反映。举例来说，等位基因名称HLA-A*24：09N中的N后缀指示未表达并因此不可能呈递表位的无效等位基因；完整HLA等位基因后缀命名法描述于https：//www.ebi.ac.uk/ipd/imgt/hla/nomenclature/suffixes.html。

等位基因非相互作用信息还可以包括临床肿瘤亚型(例如鳞状肺癌对比非鳞状肺癌)。

等位基因非相互作用信息也可以包括吸烟史。

等位基因非相互作用信息还可以包括晒伤史、太阳曝晒史或暴露于其它诱变剂的历史。

等位基因非相互作用信息还可以包括肽的源基因在相关肿瘤类型或临床亚型中的典型表达，任选地利用驱动基因突变分层。通常在相关肿瘤类型中高水平表达的基因比较可能被呈递。

等位基因非相互作用信息还可以包括所有肿瘤中，或同一类型肿瘤中，或来自具有至少一个共有MHC等位基因的个体的肿瘤中，或具有至少一个共有MHC等位基因的个体体内的同一类型肿瘤中的突变频率。

就突变的肿瘤特异性肽而言，用于预测呈递机率的特征清单也可以包括突变注释(例如错义、通读、移码突变、融合等)或预测该突变是否会引起无义介导的衰变(NMD)。举例来说，来自因纯合子早期终止突变而在肿瘤细胞中不翻译的蛋白质区段的肽可以指定为呈递机率是零。NMD使mRNA翻译减少，由此降低呈递机率。

VII.C.呈递鉴别系统

图3是一个高级框图，示出了根据一个实施方案的呈递鉴别系统160的计算机逻辑组件。在本示例实施方案中，呈递鉴别系统160包括数据管理模块312、编码模块314、训练模块316及预测模块320。呈递鉴别系统160还包括训练数据存储器170和呈递模型存储器175。该模型管理系统160的一些实施方案具有与此处所描述不同的模块。类似地，这些模块的功能分布可能不同于此处描述的模块。

VII.C.1.数据管理模块

数据管理模块312根据呈递信息165生成数组训练数据170。每组训练数据含有多个数据实例，其中每个数据实例i含有一组自变量zⁱ，这些自变量包括至少一个呈递或不呈递肽序列pⁱ、一个或多个与该肽序列pⁱ相关联的相关MHC等位基因aⁱ；和一个因变量yⁱ，该因变量表示呈递鉴别系统160有意预测自变量的新值的信息。

在本说明书其余部分通篇提到的一个特定的实施方式中，因变量yⁱ是一种二元标记，指示肽pⁱ是否被该一个或多个相关MHC等位基因aⁱ呈递。不过，应理解，在其它实施方式中，取决于自变量zⁱ，因变量yⁱ可以表示呈递鉴别系统160有意进行预测的任何其它类别的信息。举例来说，在另一实施方案中，因变量yⁱ还可以是指示所鉴别的数据实例的质谱离子电流的数值。

数据实例i的肽序列pⁱ是具有k_i个氨基酸的序列，其中k_i可以在随数据实例i而在一定范围内变化。举例来说，该范围对于I类MHC可以是8-15，或对于II类MHC是6-30。在系统160的一个具体实施方案中，一个训练数据集中的所有肽序列pⁱ可以具有相同长度，例如9。肽序列中氨基酸的数量可以取决于MHC等位基因的类型(例如人体中的MHC等位基因等)而变化。数据实例i的MHC等位基因aⁱ指示存在的与相应肽序列pⁱ相关的MHC等位基因。

数据管理模块312还可以包括另外的等位基因相互作用变量，如与训练数据170中所包含的肽序列pⁱ和相关MHC等位基因aⁱ有关的结合亲和力bⁱ和稳定性预测值sⁱ。举例来说，训练数据170可以含有肽pⁱ与以aⁱ指示的各相关MHC分子之间的结合亲和力预测值bⁱ。在另一个实施例中，训练数据170可以含有以aⁱ指示的各MHC等位基因的稳定性预测值sⁱ。

数据管理模块312还可以包括等位基因非相互作用变量wⁱ，如与肽序列pⁱ有关的C末端侧接序列和mRNA定量测量值。

数据管理模块312还鉴别不被MHC等位基因呈递的肽序列，以生成训练数据170。一般来说，这涉及在呈递之前，鉴别包括呈递肽序列在内的源蛋白的“较长”序列。当呈递信息含有工程改造的细胞系时，数据管理模块312鉴别这些细胞所暴露的合成蛋白质中未呈递于细胞的MHC等位基因上的一系列肽序列。当呈递信息含有组织样品时，数据管理模块312鉴别作为呈递肽序列的来源的源蛋白，并且鉴别源蛋白中未呈递于组织样品细胞的MHC等位基因上的一系列肽序列。

数据管理模块312还可以利用随机氨基酸序列人工产生肽，并将所产生的序列鉴别为不呈递于MHC等位基因上的肽。这可以通过随机产生肽序列实现，使得数据管理模块312能够容易地生成大量有关不呈递于MHC等位基因上的肽的合成数据。由于实际上，只有少量肽序列被MHC等位基因呈递，故合成产生的肽序列很有可能不会被MHC等位基因呈递，即使这些序列被包括在细胞加工的蛋白质中。

图4示出了根据一个实施方案的一组示例性训练数据170A。确切地说，训练数据170A中的前3个数据实例指示由包含等位基因HLA-C*01：03以及3个肽序列QCEIOWAREFLKEIGJ(SEQ ID NO：10)、FIEUHFWI(SEQ ID NO：11)及FEWRHRJTRUJR(SEQ IDNO：12)的单等位基因细胞系得到的肽呈递信息。训练数据170A中的第四个数据实例指示由包含等位基因HLA-B*07：02、HLA-C*01：03、HLA-A*01：01和一个肽序列QIEJOEIJE(SEQ IDNO：13)的多等位基因细胞系得到的肽信息。第一个数据实例指示，肽序列QCEIOWARE(SEQID NO：10)不被等位基因HLA-DRB3：01：01呈递。如前两段所论述，阴性标记的肽序列可以由数据管理模块312随机产生，或从呈递肽的源蛋白鉴别得到。训练数据170A还包括肽序列-等位基因对的1000nM的结合亲和力预测值以及半衰期是1小时的稳定性预测值。训练数据170A还包括等位基因非相互作用变量，如肽FJELFISBOSJFIE(SEQ ID NO：14)的C末端侧接序列，以及10²TPM的mRNA定量测量值。第四个数据实例指示，肽序列QIEJOEIJE(SEQ ID NO：13)被等位基因HLA-B*07：02、HLA-C*01：03或HLA-A*01：01之一呈递。训练数据170A还包括各等位基因的结合亲和力预测值和稳定性预测值，以及该肽的C末端侧接序列和该肽的mRNA定量测量值。

VII.C.2.编码模块

编码模块314将训练数据170中所包含的信息编码成可以用于产生一个或多个呈递模型的数字表示。在一个实施方案中，编码模块314在预定的20字母氨基酸字母表内独热编码序列(例如肽序列或C末端侧接序列)。确切地说，具有k_i个氨基酸的肽序列pⁱ表示为具有20·k_i个元素的行向量，其中pⁱ _20·(j-1)+1，pⁱ _20·(j-1)+2，...，Pⁱ _20·j当中对应于字母表中在肽序列第j位的氨基酸的单一元素的值是1。另外，其余元素的值是0。举个例子，对于给定的字母表{A，C，D，E，F，G，H，I，K，L，M，N，P，Q，R，S，T，V，W，Y}，数据实例i的具有3个氨基酸的肽序列EAF可以由具有60个元素的行向量表示pⁱ＝[0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 00 0]。C末端侧接序列cⁱ，以及MHC等位基因的蛋白质序列d_h和呈递信息中的其它序列数据都可以按与上文所描述类似的方式编码。

当训练数据170含有氨基酸长度不同的序列时，编码模块314也可以通过添加PAD字符以扩充预定字母表，将肽编码成相等长度的向量。举例来说，这可以通过用PAD字符对肽序列进行左侧填充，直到该肽序列的长度达到训练数据170中具有最大长度的肽序列来进行。因此，当具有最大长度的肽序列具有k_max个氨基酸时，编码模块314将各序列以数字方式表示为具有(20+1)·k_max个元素的行向量。举个例子，对于扩充的字母表{PAD，A，C，D，E，F，G，H，I，K，L，M，N，P，Q，R，S，T，V，W，Y}和k_max＝5的最大氨基酸长度，该具有3个氨基酸的相同示例肽序列可以由具有105个元素的行向量表示：pⁱ＝[1 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 00 0 0 0 0 0 0 0 0 0 0 0 0]。C末端侧接序列cⁱ或其它序列数据可以按与上文描述类似的方式编码。因此，肽序列pⁱ或cⁱ的每个自变量或每一列表示在该序列特定位置处特定氨基酸的存在。

尽管以上编码序列数据的方法是参照具有氨基酸序列的序列描述，但该方法可以类似地扩展至其它类型的序列数据，如DNA或RNA序列数据等。

编码模块314还将数据实例i的一个或多个MHC等位基因aⁱ编码成具有m个元素的行向量，其中每个元素h＝1，2，...，m对应于唯一鉴别的MHC等位基因。对应于所鉴别的数据实例i的MHC等位基因的元素的值是1。另外，其余元素的值是0。举个例子，m＝4种唯一鉴别的MHC等位基因类型{HLA-A*01：01，HLA-C*01：08，HLA-B*07：02，HLA-DRB1*10：01}当中对应于多等位基因细胞系的数据实例i的等位基因HLA-B*07：02和HLA-DRB1*10：01可以由具有4个元素的行向量表示：aⁱ＝[0 0 1 1]，其中a₃ ⁱ＝1和a₄ ⁱ＝1。尽管本文中用4种鉴别的MHC等位基因类型描述该实施例，但MHC等位基因类型的数量实际上可以是数百或数千。如先前所论述，每个数据实例i通常含有最多6种不同的与肽序列p_i相关的I类MHC等位基因类型和/或至多4种不同的与肽序列p_i相关的II类MHC DR等位基因类型，和/或至多12种不同的与肽序列p_i相关的II类MHC等位基因类型。

编码模块314还将每个数据实例i的标记y_i编码为具有来自集合{0，1}的值的二元变量，其中值1指示肽xⁱ由相关的MHC等位基因aⁱ中的一个呈递，而值0指示肽xⁱ不被任何相关的MHC等位基因aⁱ呈递。当因变量y_i表示质谱离子电流时，编码模块314可以另外使用各种函数，如对[0，∞)之间的离子电流具有(-∞，∞)范围的对数函数等缩放这些值。

编码模块314可以将有关肽p_i和相关MHC等位基因h的一对等位基因相互作用变量x_h ⁱ表示为行向量，其中等位基因相互作用变量的数字表示相继地串接。举例来说，编码模块314可以将x_h ⁱ表示为等于[pⁱ]、[pⁱ b_h ⁱ]、[pⁱ s_h ⁱ]或[pⁱ b_h ⁱ s_h ⁱ]的行向量，其中b_h ⁱ是肽p_i和相关MHC等位基因h的结合亲和力预测值，并且类似地s_h ⁱ是关于稳定性。或者，等位基因相互作用变量的一个或多个组合可以个别地存储(例如以个别向量或矩阵形式)。

在一个实例中，编码模块314通过将结合亲和力的测量值或预测值并入等位基因相互作用变量x_h ⁱ中来表示结合亲和力信息。

在一个实例中，编码模块314通过将结合稳定性的测量值或预测值并入等位基因相互作用变量x_h ⁱ中来表示结合稳定性信息。

在一个实例中，编码模块314通过将结合缔合速率的测量值或预测值并入等位基因相互作用变量x_h ⁱ中来表示结合缔合速率信息。

在一个实例中，对于由I类MHC分子呈递的肽，编码模块314将肽长度表示为向量其中是指示函数，并且L_k表示肽p_k的长度。向量T_k可以被包括在等位基因相互作用变量x_h ⁱ中。在另一个实例中，对于由II类MHC分子呈递的肽，编码模块314将肽长度表示为向量其中是指示函数，并且L_k表示肽p_k的长度。向量T_k可以被包括在等位基因相互作用变量x_h ⁱ中。

在一个实例中，编码模块314通过将基于RNA-seq的MHC等位基因表达水平并入等位基因相互作用变量x_h ⁱ中来表示MHC等位基因的RNA表达信息。

类似地，编码模块314可以将等位基因非相互作用变量wⁱ表示为行向量，其中等位基因非相互作用变量的数字表示相继地串接。举例来说，wⁱ可以是等于[cⁱ]或[cⁱ mⁱ wⁱ]的行向量，其中wⁱ是除肽pⁱ的C末端侧接序列和与该肽相关的mRNA定量测量值mⁱ外，还表示任何其它等位基因非相互作用变量的行向量。或者，等位基因非相互作用变量的一个或多个组合可以个别地存储(例如以个别向量或矩阵形式)。

在一实例中，编码模块314通过将转换率或半衰期并入等位基因非相互作用变量wⁱ中来表示肽序列的源蛋白的转换率。

在一个实例中，编码模块314通过将蛋白质长度并入等位基因非相互作用变量wⁱ中来表示源蛋白或同功型的长度。

在一个实例中，编码模块314通过将包括β1_i、β2_i、β5_i亚单元在内的免疫蛋白酶体特异性蛋白酶体亚单元的平均表达水平并入等位基因非相互作用变量wⁱ中来表示免疫蛋白酶体的活化情况。

在一个实例中，编码模块314通过将源蛋白的丰度并入等位基因非相互作用变量wⁱ中来表示肽的源蛋白或者肽的基因或转录物的RNA-seq丰度(通过如RSEM等技术以FPKM、TPM为单位定量)。

在一个实例中，编码模块314通过将利用Rivas等人，Science，2015中的模型估计的肽的源转录物会经历无义介导的衰变(NMD)的机率并入等位基因非相互作用变量wⁱ中来表示此机率。

在一个实例中，编码模块314例如通过使用例如路径中每个基因的RSEM，以TPM为单位定量该路径中基因的表达水平，接着计算该路径中所有基因的概括统计量，例如平均值，以此表示经RNA-seq评估的基因模块或路径的活化状态。该平均值可以并入等位基因非相互作用变量wⁱ中。

在一个实例中，编码模块314通过将拷贝数并入等位基因非相互作用变量wⁱ中来表示源基因的拷贝数。

在一个实例中，编码模块314通过将测量的或预测的TAP结合亲和力值例如以纳摩尔浓度为单位)包括在等位基因非相互作用变量wⁱ中来表示TAP结合亲和力。

在一个实例中，编码模块314通过将利用RNA-seq测量(并利用例如RSEM，以TPM为单位定量)的TAP表达水平包括在等位基因非相互作用变量wⁱ中来表示TAP表达水平。

在一个实例中，编码模块314在等位基因非相互作用变量wⁱ中将肿瘤突变表示为指示变量的向量(即，如果肽p^k来自具有KRAS G12D突变的样品，则d^k＝1，否则是0)。

在一个实例中，编码模块314将抗原呈递基因中的生殖系多态性表示为指示变量的向量(即，如果肽p^k来自在TAP中具有物种生殖系多态性的样品，则d^k＝1)。这些指示变量都可以被包括在等位基因非相互作用变量wⁱ中。

在一个实例中，编码模块314根据肿瘤类型(例如NSCLC、黑素瘤、结肠直肠癌等)的字母表将肿瘤类型表示为长度一独热编码的向量。这些独热编码的变量都可以被包括在等位基因非相互作用变量wⁱ中。

在一个实例中，编码模块314通过用不同后缀处理有4个数字的HLA等位基因来表示MHC等位基因后缀。举例来说，出于该模型的目的，HLA-A*24：09N被认为是与HLA-A*24：09不同的等位基因。或者，由于以N后缀结尾的HLA等位基因不表达，故可以将以N为后缀的MHC等位基因对所有肽的呈递机率设置成零。

在一个实例中，编码模块314根据肿瘤亚型(例如肺腺癌、肺鳞状细胞癌等)的字母表将肿瘤亚型表示为长度一独热编码的向量。这些独热编码的变量都可以被包括在等位基因非相互作用变量wⁱ中。

在一个实例中，编码模块314将吸烟史表示为二元指示变量(如果患者有吸烟史，则d^k＝1，否则是0)，该变量可以包括在等位基因非相互作用变量wⁱ中。或者，可以根据吸烟严重程度的字母表，将吸烟史编码为长度一独热编码的变量。举例来说，吸烟状态可以在1-5级量表上评级，其中1指示非吸烟者，并且5指示当前多量吸烟者。由于吸烟史主要与肺部肿瘤相关，故当训练有关多种肿瘤类型的模型时，此变量也可以在患者有吸烟史时定义为等于1并且肿瘤类型是肺部肿瘤，否则是零。

在一个实例中，编码模块314将晒伤史表示为二元指示变量(如果患者有重度晒伤史，则d^k＝1，否则是0)，该变量可以包括在等位基因非相互作用变量wⁱ中。由于重度晒伤主要与黑素瘤相关，故当训练有关多种肿瘤类型的模型时，此变量也可以在患者有重度晒伤史时定义为等于1并且肿瘤类型是黑素瘤，否则是零。

在一个实例中，编码模块314通过使用参考数据库如TCGA将有关人基因组中各基因或转录物的特定基因或转录物的表达水平分布表示为表达水平分布的概括统计量(例如平均值、中值)。确切地说，对于肿瘤类型是黑素瘤的样品中的肽p^k，不仅可以将肽p^k的源基因或转录物的基因或转录物表达水平测量值包括在等位基因非相互作用变量wⁱ中，而且还包括通过TCGA测量的黑素瘤中肽p^k的源基因或转录物的平均和/或中值基因或转录物表达水平。

在一个实例中，编码模块314根据突变类型(例如错义突变、移码突变、NMD诱导的突变等)的字母表将突变类型表示为长度一独热编码的变量。这些独热编码的变量都可以被包括在等位基因非相互作用变量wⁱ中。

在一个实例中，编码模块314在等位基因非相互作用变量wⁱ中将蛋白质的蛋白质水平特征表示为源蛋白的注释值(例如5’UTR长度)。在另一个实例中，编码模块314通过在等位基因非相互作用变量wⁱ中包括指示变量来表示pⁱ的残基水平的源蛋白注释，即，如果肽pⁱ与螺旋基元重叠则等于1，否则是0，或者如果肽pⁱ完全包含在螺旋基元内则等于1。在另一个实例中，表示肽pⁱ中包含在螺旋基元注释内的残基的比例的特征可以包括在等位基因非相互作用变量wⁱ中。

在一个实例中，编码模块314将肽pⁱ的源基因G＝gene(pⁱ)表示为具有L个可能类别的分类变量，其中L表示索引的源基因1、2、...L的数目的上限。

在一个实例中，编码模块314将人蛋白质组中蛋白质或同功型的类型表示为指示向量o^k，该向量的长度等于人蛋白质组中蛋白质或同功型的数量，并且如果肽p^k来自蛋白质i，则相应元素o^k _i是1，否则是0。

编码模块314还可以将有关肽p_i和相关MHC等位基因h的变量zⁱ的总体集合表示为行向量，其中等位基因相互作用变量xⁱ和等位基因非相互作用变量wⁱ的数字表示相继地串接。举例来说，编码模块314可以将z_h ⁱ表示为等于[x_h ⁱ wⁱ]或[w_i x_h ⁱ]的行向量。

VIII.训练模块

训练模块316构建一个或多个呈递模型，这些模型生成肽序列是否会被与这些肽序列相关的MHC等位基因呈递的可能性。确切地说，给定肽序列p^k及与肽序列p^k相关联的一组MHC等位基因a^k，每个呈递模型生成估计值u_k，指示肽序列p^k会被与一个或多个相关MHC等位基因a^k呈递的可能性。

VIII.A.综述

训练模块316基于由存储在165中的呈递信息产生的存储于存储器170中的训练数据集来构建一个或多个呈递模型。一般来说，不管呈递模型的具体类型如何，所有呈递模型都捕捉训练数据170中自变量与因变量之间的相关性以使损失函数减到最小。确切地说，损失函数表示训练数据170中一个或多个数据实例S的因变量y_i∈S与由呈递模型生成的数据实例S的估计可能性u_i∈S值之间的偏差。在本说明书其余部分通篇所提到的一个特定实施方式中，损失函数(y_i∈S，u_i∈S；θ)是由以下等式(1a)提供的负对数可能性函数：

不过，实际上，可以使用另一损失函数。举例来说，当对质谱离子电流进行预测时，损失函数是由以下等式1b提供的均方损失：

呈递模型可以是一种参数模型，其中一个或多个参数θ在数学上指明自变量与因变量之间的相关性。通常，使损失函数(y_i∈S，u_i∈S；θ)最小的参数型呈递模型的各种参数是通过基于梯度的数值优化算法，如批量梯度算法、随机梯度算法等来确定。或者，呈递模型可以是非参数模型，其中模型结构是由训练数据170决定并且并不严格基于固定参数集合。

VIII.B.独立等位基因模型

训练模块316可以在独立等位基因(per-allele)基础上构建呈递模型以预测肽的呈递可能性。在此情况下，训练模块316可以基于由表达单个MHC等位基因的细胞产生的训练数据170中的数据实例S训练呈递模型。

在一个实施方式中，训练模块316通过下式使特定等位基因h对于肽p^k的估计呈递可能性u_k建模：

其中肽序列x_h ^k表示编码的有关肽p^k和相应MHC等位基因h的等位基因相互作用变量，f(·)是任何函数，并且为便于说明，在本文通篇称为变换函数。此外，g_h(·)是任何函数，为便于说明，在本文通篇称为相关性函数(dependency function)，并且基于所测定的MHC等位基因h的一组参数θ_h产生等位基因相互作用变量x_h ^k的相关性分数。有关各MHC等位基因h的参数集合θ_h的值可以通过使关于θ_h的损失函数减到最小来测定，其中i是由表达单个MHC等位基因h的细胞所产生的训练数据170的子集S中的每个实例。

相关性函数g_h(x_h ^k；θ_h)的输出值表示至少基于等位基因相互作用特征x_h ^k，并且确切地说，基于肽p^k的肽序列中氨基酸的位置的针对MHC等位基因h的相关性分数，其指示MHC等位基因h将呈递相应新抗原。举例来说，如果MHC等位基因h可能呈递肽p^k，则MHC等位基因h的相关性分数可能具有较高值，而如果不可能呈递，则可能具有较低值。变换函数f(·)将输入，并且更确切地说，在此情形中将由g_h(x_h ^k；θ_h)生成的相关性分数变换成适当值以指示肽p^k将由MHC等位基因呈递的可能性。

在本说明书其余部分通篇提到的一个特定实施方式中，f(·)是对于适当域范围具有在[0，1]内的范围的函数。在一个实施例中，f(·)是由下式提供的expit函数：

作为另一个实施例，当域z的值等于或大于0时，f(·)也可以是由下式提供的双曲正切函数：

f(z)＝tanh(z) (5)

或者，当质谱离子电流的预测值超出范围[0，1]时，f(·)可以是任何函数，如恒等函数、指数函数、对数函数等。

因此，可以通过将有关MHC等位基因h的相关性函数g_h(·)应用于肽序列p^k的编码形式以产生相应相关性分数来产生肽序列p^k将由MHC等位基因h呈递的独立等位基因可能性。相关性分数可以由变换函数f(·)变换以产生肽序列p^k将由MHC等位基因h呈递的独立等位基因可能性。

VIII.B.1有关等位基因相互作用变量的相关性函数

在本发明通篇提到的一个特定实施方案中，相关性函数g_h(·)是由下式提供的仿射函数：

该函数将x_h ^k中的每个等位基因相互作用变量与所测定的相关MHC等位基因h的参数集合θ_h中的相应参数线性地组合。

在本说明书通篇提到的另一个特定实施方式中，相关性函数g_h(·)是由下式提供的网络函数：

以具有分一层或多层布置的一系列节点的网络模型NN_h(·)表示。一个节点可以通过连接而连接至其它节点，这些连接各自在参数集合θ_h中具有相关参数。在一个特定节点处的值可以表示为通过与该特定节点相关联的激活函数所映射的相关参数加权的连接至该特定节点的节点值的总和。由于呈递模型可以并入具有不同氨基酸序列长度的非线性和工艺数据，与仿射函数相比，网络模型是有利的。确切地说，通过非线性建模，网络模型可以捕捉在肽序列不同位置处的氨基酸之间的相互作用以及这一相互作用如何影响肽呈递。

一般来说，网络模型NN_h(·)可以被构造成前馈网络，如人工神经网络(ANN)、卷积神经网络(CNN)、深度神经网络(DNN)，和/或循环网络，如长短期记忆网络(LSTM)、双向循环网络、深度双向循环网络等。

在本说明书其余部分通篇提到的一个实例中，h＝1，2，...，m中的每个MHC等位基因与独立网络模型相关联，并且NN_h(·)表示来自与MHC等位基因h相关联的网络模型的输出。

图5示出了与任意MHC等位基因h＝3相关联的示例网络模型NN₃(·)。如图5中所示，关于MHC等位基因h＝3的网络模型NN₃(·)包括在层l＝1处的三个输入节点、在层l＝2处的四个节点、在层l＝3处的两个节点及在层l＝4处的一个输出节点。网络模型NN₃(·)与一组十个参数θ₃(1)，θ₃(2)，...，θ₃(10)相关。网络模型NN₃(·)接收关于MHC等位基因h＝3的三个等位基因相互作用变量x₃ ^k(1)、x₃ ^k(2)及x₃ ^k(3)的输入值(包括编码的多肽序列数据和所用任何其它训练数据的个别数据实例)并输出值NN₃(x₃ ^k)。网络函数还可以包括一个或多个网络模型，每个网络模型采用不同的等位基因相互作用变量作为输入。

在另一个实施例中，鉴别的MHC等位基因h＝1，2，...，m与单个网络模型NN_H(·)相关联，并且NN_h(·)表示与MHC等位基因h相关的单个网络模型的一个或多个输出。在此类实例中，参数集合θ_h可以对应于该单个网络模型的一组参数，并因此，参数集合θ_h可以是所有MHC等位基因共有的。

图6A示出了MHC等位基因h＝1，2，...，m共享的示例网络模型NN_H(·)。如图6A中所示，网络模型NN_H(·)包括m个输出节点，各自对应于MHC等位基因。网络模型NN₃(·)接收有关MHC等位基因h＝3的等位基因相互作用变量x₃ ^k并输出m值，包括对应于MHC等位基因h＝3的值NN₃(x₃ ^k)。

在又另一实例中，单个网络模型NN_H(·)可以是在给定MHC等位基因h的等位基因相互作用变量x_h ^k和编码的蛋白质序列d_h情况下，输出相关性分数的网络模型。在此类实例中，参数集合θ_h也可以对应于该单个网络模型的一组参数，并因此，参数集合θ_h可以是所有MHC等位基因共有的。因此，在此类实例中，NN_h(·)可以表示在给定该单个网络模型的输入[x_h ^k d_h]情况下，该单个网络模型NN_H(·)的输出。由于训练数据中未知的MHC等位基因的肽呈递可能性只能通过鉴别其蛋白质序列进行预测，故此类网络模型是有利的。

图6B示出了MHC等位基因共享的示例网络模型NN_H(·)。如图6B中所示，网络模型NN_H(·)接收MHC等位基因h＝3的等位基因相互作用变量和蛋白质序列作为输入，并输出对应于MHC等位基因h＝3的相关性分数NN₃(x₃ ^k)。

在又另一个实施例中，相关性函数g_h(·)可以表示为：

其中g’_h(x_h ^k；θ’_h)是具有一组参数θ’_h的仿射函数、网络函数等，其中有关MHC等位基因的等位基因相互作用变量的一组参数的偏差参数θ_h ⁰表示MHC等位基因h的基线呈递机率。

在另一个实施方式中，偏差参数θ_h ⁰可以是MHC等位基因h的基因家族共有的。也就是说，MHC等位基因h的偏差参数θ_h ⁰可以等于θ_基因(h) ⁰，其中基因(h)是MHC等位基因h的基因家族。举例来说，I类MHC等位基因HLA-A*02：01、HLA-A*02：02及HLA-A*02：03可以指定给“HLA-A”基因家族，并且这些MHC等位基因各自的偏差参数θ_h ⁰可以是共有的。作为另一个实例，II类MHC等位基因HLA-DRB1：10：01、HLA-DRB1：11：01及HLA-DRB3：01：01可以指定给“HLA-DRB”基因家族，并且这些MHC等位基因各自的偏差参数θ_h ⁰可以是共有的。

再回到等式(2)，作为一个实施例，在使用仿射相关性函数g_h(·)鉴别的m＝4种不同的MHC等位基因当中，肽p^k将由MHC等位基因h＝3呈递的可能性可以由下式得到：

其中x₃ ^k是鉴别的MHC等位基因h＝3的等位基因相互作用变量，并且θ₃是通过损失函数最小化测定的MHC等位基因h＝3的参数集合。

作为另一个实施例，在使用独立网络变换函数g_h(·)鉴别的m＝4种不同的MHC等位基因当中，肽p^k将由MHC等位基因h＝3呈递的可能性可以由下式得到：

其中x₃ ^k是鉴别的MHC等位基因h＝3的等位基因相互作用变量，并且θ₃是测定的与MHC等位基因h＝3相关联的网络模型NN₃(·)的参数集合。

图7示出了使用示例网络模型NN₃(·)生成与MHC等位基因h＝3相关联的肽p^k的呈递可能性。如图7中所示，网络模型NN₃(·)接收有关MHC等位基因h＝3的等位基因相互作用变量x₃ ^k并生成输出NN₃(x₃ ^k)。该输出由函数f(·)映射以产生估计的呈递可能性u_k。

VIII.B.2.具有等位基因非相互作用变量的独立等位基因

在一个实施方式中，训练模块316并入等位基因非相互作用变量并通过下式使肽p^k的估计呈递可能性u_k建模：

其中w^k表示肽p^k的编码的等位基因非相互作用变量，g_w(·)是基于测定的等位基因非相互作用变量的一组参数θ_w的等位基因非相互作用变量w^k的函数。确切地说，有关各MHC等位基因h的参数集合θ_h和有关等位基因非相互作用变量的参数集合θ_w的值可以通过使关于θ_h和θ_w的损失函数减到最小来测定，其中i是由表达单个MHC等位基因的细胞所产生的训练数据170的子集S中的每个实例。

相关性函数g_w(w^k；θ_w)的输出表示基于等位基因非相互作用变量的影响的等位基因非相互作用变量的相关性分数，其指示肽p^k是否会由一个或多个MHC等位基因呈递。举例来说，如果肽p^k与已知会积极地影响肽p^k的呈递的C末端侧接序列相关，则等位基因非相互作用变量的相关性分数可能具有较高值，并且如果肽p^k与已知会不利地影响肽p^k的呈递的C末端侧接序列相关，则可能具有较低值。

根据等式(8)，可以通过将有关MHC等位基因h的函数g_h(·)应用于肽序列p^k的编码形式以产生等位基因相互作用变量的相应相关性分数来产生肽序列p^k将由MHC等位基因h呈递的独立等位基因可能性。有关等位基因非相互作用变量的函数g_w(·)也应用于等位基因非相互作用变量的编码形式以产生等位基因非相互作用变量的相关性分数。将两个分数合并，并通过变换函数f(·)变换该合并的分数以产生肽序列p^k将由MHC等位基因h呈递的独立等位基因可能性。

或者，训练模块316可以通过将等位基因非相互作用变量w^k添加至等式(2)中的等位基因非相互作用变量x_h ^k中，来将等位基因非相互作用变量w^k包括在预测值中。因此，呈递可能性可以由下式得到：

VIII.B.3有关等位基因非相互作用变量的相关性函数

与有关等位基因相互作用变量的相关性函数g_h(·)类似，有关等位基因非相互作用变量的相关性函数g_w(·)可以是仿射函数或网络函数，其中独立网络模型与等位基因非相互作用变量w^k相关联。

确切地说，相关性函数g_w(·)是由下式提供的仿射函数：

g_w(w^k；θ_w)＝w^k·θ_w。

该函数将等位基因非相互作用变量w^k与参数集合θ_w中的相应参数线性地组合。

相关性函数g_w(·)还可以是由下式提供的网络函数：

g_h(w^k；θ_w)＝NN_w(w^k；θ_w)。

该函数是由具有参数集合θ_w中的相关参数的网络模型NN_w(·)表示。网络函数可能还包括一个或多个网络模型，每个网络模型采用不同的等位基因非相互作用变量作为输入。

在另一个实施例中，有关等位基因非相互作用变量的相关性函数g_w(·)可以由下式提供：

其中g’_w(w^k；θ’_w)是仿射函数，具有等位基因非相互作用参数集合θ’_w的网络函数等，m^k是肽p^k的mRNA定量测量值，h(·)是变换该定量测量值的函数，并且θ_w ^m是有关等位基因非相互作用变量的参数集合中的一个参数，该参数与mRNA定量测量值组合以生成有关mRNA定量测量值的相关性分数。在本说明书其余部分通篇所提到的一个特定实施方案中，h(·)是对数函数，不过实际上，h(·)可以是多种不同函数中的任一种。

在又另一个实例中，有关等位基因非相互作用变量的相关性函数g_w(·)可以由下式提供：

其中g’_w(w^k；θ’_w)是仿射函数、具有等位基因非相互作用参数集合θ’_w的网络函数等，o^k是部分描述的表示人蛋白质组中有关肽p^k的蛋白质和同功型的指示向量，并且θ_w ^o是有关等位基因非相互作用变量的参数集合中的一组参数，其与指示向量组合。在一种变化形式中，当o^k的维度和参数集合θ_w ^o明显较高时，可以在测定参数值时将参数正则项，如添加至损失函数中，其中||·||表示L1范数、L2范数、组合等。超参数λ的最佳值可以通过适当方法测定。

其中g’_w(w^k；θ’_w)是仿射函数、具有等位基因非相互作用参数集合θ’_w的网络函数等，是指示函数，如上文对于等位基因非相互作用变量所述，如果肽p^k来自源基因l，则其等于1，并且θ_w ^l是指示源基因l的“抗原性”的参数。在一种变化形式中，当L显著较高并且因此参数θ_w ^{l＝1，2，...，L}数量也显著较高时，可以在测定参数值时将参数正则项，如添加至损失函数中，其中||·||表示L1范数、L2范数、组合等。可以通过适当的方法来确定超参数λ的最优值。

实际上，等式(10)、(11)和(12)中的任一个的附加项可以组合以产生等位基因非相互作用变量的相关性函数g_w(·)。例如，可以将等式(10)中表示mRNA定量测量的项h(·)i和等式(12)中表示源基因抗原性的项与任何其他仿射或网络函数一起相加，以生成等位基因非相互作用变量的相关性函数。

再回到等式(8)，作为一个实施例，在使用仿射变换函数g_h(·)、g_w(·)鉴别的m＝4种不同的MHC等位基因当中，肽p^k将由MHC等位基因h＝3呈递的可能性可以由下式产生：

其中w^k是所鉴别的肽p^k的等位基因非相互作用变量，并且θ_w是测定的等位基因非相互作用变量的参数的集合。

作为另一个实施例，在使用网络变换函数g_h(·)、g_w(·)鉴别的m＝4种不同的MHC等位基因当中，肽p^k将由MHC等位基因h＝3呈递的可能性可以由下式得到：

其中w^k是所鉴别的肽p^k的等位基因相互作用变量，并且θ_w是测定的等位基因非相互作用变量的参数的集合。

图8示出了使用示例网络模型NN₃(·)和NN_w(·)生成与MHC等位基因h＝3相关联的肽p^k的呈递可能性。如图8中所示，网络模型NN₃(·)接收有关MHC等位基因h＝3的等位基因相互作用变量x₃ ^k并生成输出NN₃(x₃ ^k)。网络模型NN_w(·)接收有关肽p^k的等位基因非相互作用变量w^k并生成输出NN_w(w^k)。将输出合并，并由函数f(·)映射以产生估计的呈递可能性u_k。

VIII.C.多等位基因模型

训练模块316还可以在存在两个或更多个MHC等位基因的多等位基因环境中构建呈递模型以预测肽的呈递可能性。在此情况下，训练模块316可以基于由表达单个MHC等位基因的细胞、表达多个MHC等位基因的细胞或其组合产生的训练数据170中的数据实例S训练呈递模型。

VIII.C.1.实施例1：独立等位基因模型的最大值

在一个实施方式中，训练模块316使与一组多个MHC等位基因H相关联的肽p^k的估计呈递可能性u_k随基于表达单等位基因的细胞所测定的集合H中每个MHC等位基因h的呈递可能性u_k ^h∈H的变化建模，如上文结合等式(2)-(11)所描述。确切地说，呈递可能性u_k可以是u_k ^h∈H的任何函数。在一个实施方式中，如等式(12)中所示，该函数是最大值函数，并且呈递可能性u_k可以测定为集合H中每个MHC等位基因h的呈递可能性最大值。

VIII.C.2.实施例2.1：和的函数(Funciton-of-Sums)模型

在一个实施方式中，训练模块316通过下式使肽p^k的估计呈递可能性u_k建模：

其中元素a_h ^k对于与肽序列p^k相关的多个MHC等位基因H是1，并且x_h ^k表示编码的有关肽p^k和相应MHC等位基因的等位基因相互作用变量。有关各MHC等位基因h的参数集合θ_h的值可以通过使关于θ_h的损失函数减到最小来测定，其中i是由表达单个MHC等位基因的细胞和/或表达多个MHC等位基因的细胞所产生的训练数据170的子集S中的每个实例。相关性函数g_h可以呈以上VIII.B.1部分中介绍的相关性函数g_h中的任一种的形式。

根据等式(13)，可以通过将相关性函数g_h(·)应用于有关MHC等位基因H中的每一个的肽序列p^k的编码形式以产生等位基因相互作用变量的相应分数来产生肽序列p^k将由一个或多个MHC等位基因h呈递的呈递可能性。将每个MHC等位基因h的分数合并，并通过变换函数f(·)变换以产生肽序列p^k将由MHC等位基因集合H呈递的呈递可能性。

等式(13)的呈递模型与等式(2)的独立等位基因模型的不同之处在于，每个肽p^k的相关等位基因的数量可以大于1。换句话说，对于与肽序列p^k相关的多个MHC等位基因H，a_h ^k中超过一个元素值可以是1。

举个例子，在使用仿射变换函数g_h(·)鉴别的m＝4种不同的MHC等位基因当中，肽p^k将由MHC等位基因h＝2、h＝3呈递的可能性可以由下式得到：

其中x₂ ^k、x₃ ^k是鉴别的MHC等位基因h＝2、h＝3的等位基因相互作用变量，并且θ₂、θ₃是测定的MHC等位基因h＝2、h＝3的参数的集合。

作为另一个实例，在使用网络变换函数g_h(·)、g_w(·)鉴别的m＝4种不同的MHC等位基因当中，肽p^k将由MHC等位基因h＝2、h＝3呈递的可能性可以由下式得到：

其中NN₂(·)、NN₃(·)是鉴别的MHC等位基因h＝2、h＝3的网络模型，并且θ₂、θ₃是测定的MHC等位基因h＝2、h＝3的参数的集合。

图9示出了使用示例网络模型NN₂(·)和NN₃(·)生成与MHC等位基因h＝2、h＝3相关联的肽p^k的呈递可能性。如图9中所示，网络模型NN₂(·)接收有关MHC等位基因h＝2的等位基因相互作用变量x₂ ^k并生成输出NN₂(x₂ ^k)，并且网络模型NN₃(·)接收有关MHC等位基因h＝3的等位基因相互作用变量x₃ ^k并生成输出NN₃(x₃ ^k)。将输出合并，并由函数f(·)映射以产生估计的呈递可能性u_k。

VIII.C.3.实施例2.2：利用等位基因非相互作用变量的和的函数模型

其中w^k表示编码的有关肽p^k的等位基因非相互作用变量。确切地说，有关各MHC等位基因h的参数集合θ_h和有关等位基因非相互作用变量的参数集合θ_w的值可以通过使关于θ_h和θ_w的损失函数减到最小来测定，其中i是由表达单个MHC等位基因的细胞和/或表达多个MHC等位基因的细胞所产生的训练数据170的子集S中的每个实例。相关性函数g_w可以呈以上VIII.B.3部分中介绍的相关性函数g_w中的任一种的形式。

因此，根据等式(14)，可以通过将函数g_h(·)应用于有关MHC等位基因H中的每一个的肽序列p^k的编码形式以产生有关每个MHC等位基因h的等位基因相互作用变量的相应相关性分数来产生肽序列p^k将由一个或多个MHC等位基因H呈递的呈递可能性。有关等位基因非相互作用变量的函数g_w(·)也应用于等位基因非相互作用变量的编码形式以产生等位基因非相互作用变量的相关性分数。将分数合并，并通过变换函数f(·)变换该合并的分数以产生肽序列p^k将由MHC等位基因H呈递的呈递可能性。

在等式(14)的呈递模型中，每个肽p^k的相关等位基因的数量可以大于1。换句话说，对于与肽序列p^k相关的多个MHC等位基因H，a_h ^k中超过一个元素的值可以是1。

举个例子，在使用仿射变换函数g_h(·)、g_w(·)鉴别的m＝4种不同的MHC等位基因当中，肽p^k将由MHC等位基因h＝2、h＝3呈递的可能性可以由下式得到：

作为另一个实施例，在使用网络变换函数g_h(·)、g_w(·)鉴别的m＝4种不同的MHC等位基因当中，肽p^k将由MHC等位基因h＝2、h＝3呈递的可能性可以由下式得到：

图10示出了使用示例网络模型NN₂(·)、NN₃(·)及NN_w(·)生成与MHC等位基因h＝2、h＝3相关联的肽p^k的呈递可能性。如图10中所示，网络模型NN₂(·)接收有关MHC等位基因h＝2的等位基因相互作用变量x₂ ^k并生成输出NN₂(x₂ ^k)。网络模型NN₃(·)接收有关MHC等位基因h＝3的等位基因相互作用变量x₃ ^k并生成输出NN₃(x₃ ^k)。网络模型NN_w(·)接收有关肽p^k的等位基因非相互作用变量w^k并生成输出NN_w(w^k)。将输出合并，并由函数f(·)映射以产生估计的呈递可能性u_k。

或者，训练模块316可以通过将等位基因非相互作用变量w^k添加至等式(15)的等位基因非相互作用变量x_h ^k中，来将等位基因非相互作用变量w^k包括在预测值中。因此，呈递可能性可以由下式得到：

VIII.C.4.实施例3.1：使用隐式独立等位基因可能性的模型

在另一个实施方式中，训练模块316通过下式使肽p^k的估计呈递可能性u_k建模：

其中元素a_h ^k对于与肽序列p^k相关联的多个MHC等位基因h∈H是1，u’_k ^h是MHC等位基因h的隐式独立等位基因呈递可能性，向量v是其中元素v_h对应于a_h ^k·u’_k ^h的向量，s(·)是映射元素v的函数，并且r(·)是限幅函数(clipping function)，其将输入值削减至给定范围中。如以下更详细地描述，s(·)可以是求和函数或二阶函数，但应理解在其它实施方案中，s(·)可以是任何函数，如最大值函数。有关隐式独立等位基因可能性的参数集合θ的值可以通过使关于θ的损失函数减到最小来测定，其中i是由表达单个MHC等位基因的细胞和/或表达多个MHC等位基因的细胞所产生的训练数据170的子集S中的每个实例。

使等式(17)的呈递模型中的呈递可能性随各自对应于肽p^k将由个别MHC等位基因h呈递的可能性的隐式独立等位基因呈递可能性u’_k ^h的变化建模。隐式独立等位基因可能性与VIII.B部分的独立等位基因呈递可能性的不同之处在于，有关隐式独立等位基因可能性的参数可以从多等位基因环境习得，其中除单等位基因环境外，呈递肽与相应MHC等位基因之间的直接关联也是未知的。因此，在多等位基因环境中，呈递模型不仅可以估计肽p^k是否会由作为整体的一组MHC等位基因H呈递，而且还可以提供指示最可能呈递肽p^k的MHC等位基因h的个别可能性u’_k ^h∈H。其优势在于，呈递模型可以在无有关表达单MHC等位基因的细胞的训练数据存在下产生隐式可能性。

在本说明书其余部分通篇提到的一个特定实施方式中，r(·)是具有范围[0，1]的函数。举例来说，r(·)可以是限幅函数：

r(z)＝min(max(z，0)，1)，

其中选择z与1之间的最小值作为呈递可能性u_k。在另一个实施方式中，当域z的值等于或大于0时，r(·)是由下式提供的双曲正切函数：

r(z)＝tanh(z)。

VIII.C.5.实施例3.2：函数的和(Sum-of-Functions)模型

在一个特定实施方式中，s(·)是求和函数，并且呈递可能性是通过对隐式独立等位基因呈递可能性求和得到：

在一个实施方式中，MHC等位基因h的隐式独立等位基因呈递可能性是由下式得到：

由此通过下式估计出呈递可能性：

根据等式(19)，可以通过将函数g_h(·)应用于有关MHC等位基因H中的每一个的肽序列p^k的编码形式以产生等位基因相互作用变量的相应相关性分数来产生肽序列p^k将由一个或多个MHC等位基因H呈递的呈递可能性。每个相关性分数都先通过函数f(·)变换以产生隐式独立等位基因呈递可能性u’_k ^h。将独立等位基因可能性u’_k ^h合并，并且可以将限幅函数应用于合并的可能性以将值削减至范围[0，1]中以产生肽序列p^k将由MHC等位基因集合H呈递的呈递可能性。相关性函数g_h可以呈以上VIII.B.1部分中介绍的相关性函数g_h中的任一种的形式。

图11示出了使用示例网络模型NN₂(·)和NN₃(·)生成与MHC等位基因h＝2、h＝3相关联的肽p^k的呈递可能性。如图9中所示，网络模型NN₂(·)接收有关MHC等位基因h＝2的等位基因相互作用变量x₂ ^k并生成输出NN₂(x₂ ^k)，并且网络模型NN₃(·)接收有关MHC等位基因h＝3的等位基因相互作用变量x₃ ^k并生成输出NN₃(x₃ ^k)。每个输出由函数f(·)映射以产生估计的呈递可能性u_k。

在另一个实施方式中，当预测质谱离子电流的对数时，r(·)是对数函数并且f(·)是指数函数。

VIII.C.6.实施例3.3：利用等位基因非相互作用变量的函数的和模型

由此通过下式产生呈递可能性：

以并入等位基因非相互作用变量对肽呈递的影响。

根据等式(21)，可以通过将函数g_h(·)应用于有关MHC等位基因H中的每一个的肽序列p^k的编码形式以产生有关每个MHC等位基因h的等位基因相互作用变量的相应相关性分数来产生肽序列p^k将由一个或多个MHC等位基因H呈递的呈递可能性。有关等位基因非相互作用变量的函数g_w(·)也应用于等位基因非相互作用变量的编码形式以产生等位基因非相互作用变量的相关性分数。将等位基因非相互作用变量的分数与等位基因相互作用变量的各个相关性分数合并。每个合并的分数都通过函数f(·)变换以产生隐式独立等位基因呈递可能性。将隐式可能性合并，并且可以将限幅函数应用于合并的输出以将值削减至范围[0，1]中以产生肽序列p^k将由MHC等位基因集合H呈递的呈递可能性。相关性函数g_w可以呈以上VIII.B.3部分中介绍的相关性函数g_w中的任一种的形式。

图12示出了使用示例网络模型NN₂(·)、NN₃(·)及NN_w(·)生成与MHC等位基因h＝2、h＝3相关联的肽p^k的呈递可能性。如图12中所示，网络模型NN₂(·)接收有关MHC等位基因h＝2的等位基因相互作用变量x₂ ^k并生成输出NN₂(x₂ ^k)。网络模型NN_w(·)接收有关肽p^k的等位基因非相互作用变量并生成输出NN_w(w^k)。将输出合并，并且通过函数f(·)映射。网络模型NN₃(·)接收有关MHC等位基因h＝3的等位基因相互作用变量x₃ ^k并生成输出NN₃(x₃ ^k)，再次将该输出与同一网络模型NN_w(·)的输出NN_w(w^k)合并，并且通过函数f(·)映射。将两个输出合并以产生估计的呈递可能性u_k。

在另一个实施方式中，MHC等位基因h的隐式独立等位基因呈递可能性由下式得到：

由此通过下式得到呈递可能性：

VIII.C.7.实施例4：二阶模型

在一个实施方式中，s(·)是二阶函数，并且肽p^k的估计呈递可能性u_k是由下式得到：

其中元素u’_k ^h是MHC等位基因h的隐式独立等位基因可能性。有关隐式独立等位基因可能性的参数集合θ的值可以通过使关于θ的损失函数减到最小来测定，其中i是由表达单个MHC等位基因的细胞和/或表达多个MHC等位基因的细胞所产生的训练数据170的子集S中的每个实例。隐式独立等位基因呈递可能性可以呈以上描述的等式(18)、(20)及(22)中所示的任何形式。

在一方面，等式(23)的模型可以暗示存在肽p^k将同时由两个MHC等位基因呈递的可能，其中两个HLA等位基因的呈递在统计学上是独立的。

根据等式(23)，肽序列p^k将由一个或多个MHC等位基因H呈递的呈递可能性可以通过组合隐式独立等位基因呈递可能性并自总和中减去每对MHC等位基因将同时呈递肽p^k的可能性以产生肽序列p^k将由MHC等位基因H呈递的呈递可能性来产生。

举个例子，在使用仿射变换函数g_h(·)鉴别的m＝4种不同的HLA等位基因当中，肽p^k将由HLA等位基因h＝2、h＝3呈递的可能性可以由下式得到：

其中x₂ ^k、x₃ ^k是鉴别的HLA等位基因h＝2、h＝3的等位基因相互作用变量，并且θ₂、θ₃是测定的HLA等位基因h＝2、h＝3的参数的集合。

作为另一个实施例，在使用网络变换函数g_h(·)、g_w(·)鉴别的m＝4种不同的HLA等位基因当中，肽p^k将由HLA等位基因h＝2、h＝3呈递的可能性可以由下式得到：

其中NN₂(·)、NN₃(·)是鉴别的HLA等位基因h＝2、h＝3的网络模型，并且θ₂、θ₃是测定的HLA等位基因h＝2、h＝3的参数的集合。

IX.实施例5：预测模块

预测模块320接收序列数据并使用呈递模型在序列数据中选择候选新抗原。确切地说，序列数据可以是从患者的肿瘤组织细胞中提取的DNA序列、RNA序列和/或蛋白质序列。预测模块320将序列数据处理成对于具有8-15个氨基酸或对于的多个肽序列p^k。举例来说，预测模块320可以将给定序列“IEFROEIFJEF(SEQ ID NO：15)”处理成具有9个氨基酸的三个肽序列“IEFROEIFJ(SEQ IDNO：16)”、“EFROEIFJE(SEQ ID NO：17)”及“FROEIFJEF(SEQ ID NO：18)”。在一个实施方案中，预测模块320可以通过将从患者的正常组织细胞提取的序列数据与从患者的肿瘤组织细胞提取的序列数据相比较以鉴别含有一个或多个突变的部分，由此鉴别出作为突变肽序列的候选新抗原。

呈递模块320将一个或多个呈递模型应用于处理的肽序列以估计这些肽序列的呈递可能性。确切地说，预测模块320可以通过将呈递模型应用于候选新抗原来选择一个或多个可能被呈递于肿瘤HLA分子上的候选新抗原肽序列。在一个实施方式中，呈递模块320选出估计呈递可能性超过预定阈值的候选新抗原序列。在另一个实施方式中，呈递模块选出N个具有最高估计呈递可能性的候选新抗原序列(其中N一般是可以在疫苗中递送的表位的最大数量)。包括选择用于给定患者的候选新抗原的疫苗可以注射到患者体内以诱导免疫反应。

X.实施例6：显示出示例呈递模型性能的实验结果

基于测试数据T测试以上描述的各种呈递模型的有效性，测试数据是未用于训练呈递模型的训练数据170的子集或来自训练数据170的具有与训练数据170类似的变量和数据结构的独立数据集。

指示呈递模型的性能的相关度量是：

其指示正确预测的会在相关HLA等位基因上呈递的肽实例的数量与预测会在HLA等位基因上呈递的肽实例的数量的比率。在一个实施方式中，如果相应可能性估计值u_i大于或等于给定阈值t，则预测测试数据T中的肽pⁱ会在一个或多个相关HLA等位基因上呈递。指示呈递模型的性能的另一相关度量是：

其指示正确预测的会在相关HLA等位基因上呈递的肽实例的数量与已知会在HLA等位基因上呈递的肽实例的数量的比率。指示呈递模型的性能的另一相关度量是接受者操作特征曲线(receiver operating characteristic，ROC)的曲线下面积(AUC)。ROC将召回率相对于假阳性率(FPR)作图，FPR是由下式提供：

X.A.基于质谱数据的呈递模型性能

X.A.1.实施例1

图13A是使用质谱法从人肿瘤细胞和肿瘤浸润淋巴细胞(TIL)上的II类MHC等位基因洗脱的肽的长度的直方图。具体地，对HLA-DRB1*12：01纯合子等位基因(“数据集1”)和HLA-DRB1*12：01、HLA-DRB1*10：01多等位基因样品(“数据集2”)进行质谱肽组学。结果表明，从II类MHC等位基因洗脱的肽的长度为6-30个氨基酸。图13A中所示的频率分布与使用参考文献69的图1C所示的现有技术质谱技术从II类MHC等位基因洗脱的肽长度的频率分布类似。

图13B示出了对于数据集1和数据集2，mRNA定量与每个残基呈递的肽之间的依赖性。结果表明，对于II类MHC等位基因，在mRNA表达与肽呈递之间存在强烈的依赖性。

具体地，图13B中的水平轴指示以log₁₀每百万条读段数的转录物数(TPM)bin表示的mRNA表达。图13B中的垂直轴指示作为对应于10^-2＜log₁₀TPM＜10^-1的mRNA表达的最低bin的倍数的每残基肽呈递。一条实线是关于数据集1的mRNA定量和肽呈递的图，另一条是关于数据集2的图。如图13B中所示，在mRNA表达与相应基因中每残基肽呈递之间存在强的正相关。具体地，来自RNA表达为10¹＜log₁₀TPM＜10²的基因的肽比最低bin的可能呈递的高5倍。

结果表明，通过引入mRNA定量测量，可以极大改善呈递模型的性能，因为这些测量强烈预测了肽呈递。

图13C比较了使用数据集1和数据集2训练和测试的示例呈递模型的性能结果。对于示例呈递模型的每个模型特征集合，图13C描绘了当模型特征集合中的特征被分类为等位基因相互作用特征时或者当模型特征集合中的特征被分类为等位基因非相互作用特征变量时召回率为10％的PPV值。从图13C看到，对于示例呈递模型的每个模型特征集合，当模型特征集合中的特征被鉴别为等位基因相互作用特征时鉴别的召回率为10％的PPV值显示在左侧，而当模型特征集合中的特征被鉴别为等位基因非相互作用特征时鉴别的召回率为10％的PPV值显示在右侧。注意，出于图13C的目的，肽序列的特征总是被分类为等位基因相互作用特征。结果表明，呈递模型实现了从14％到29％不等的召回率为10％的PPV值，其显著高于随机预测的PPV(约500倍)。

对于该实验，考虑了长度为9-20的肽序列。数据分为训练集、验证集和测试集。将来自数据集1和数据集2的50个残基段的肽段分配给训练和测试集。除去了在蛋白质组中任何地方重复的肽，确保在训练集和测试集中均未出现肽序列。通过去除未呈递的肽，训练集和测试集中肽呈递的发生率增加了50倍。这是因为数据集1和数据集2来自其中只有一小部分细胞是II类HLA等位基因的人类肿瘤样品，因此肽产量比II类HLA等位基因纯样品低约10倍，由于不完善的质谱灵敏度，这依然是低估的。训练组包含1,064个呈递肽和3,810,070个非呈递肽。测试集包含314个呈递肽和807,400个非呈递肽。

示例模型1是使用网络相关性函数g_h(·)、expit函数f(·)和恒等函数r(·)的等式(22)中的函数的和模型。网络相关性函数g_h(·)被构造为具有256个隐藏节点和修正线性单元(ReLU)激活的多层感知器(MLP)。除肽序列外，等位基因相互作用变量w还包含独热编码的C末端和N末端侧接序列，指示肽pⁱ的源基因G＝gene(pⁱ)的索引的分类变量，和指示mRNA定量测量的变量。示例模型2与示例模型1相同，只是从等位基因相互作用变量中省略了C末端和N末端侧接序列。示例模型3与示例模型1相同，只是从等位基因相互作用变量中省略了源基因的索引。示例模型4与示例模型1相同，只是从等位基因相互作用变量中省略了mRNA定量测量。

示例模型5是等式(20)中的函数的和模型，其具有等式(12)的网络相关性函数g_h(·)、expit函数f(·)、恒等函数r(·)和网络相关性函数g_w(·)。相关性函数g_w(·)还包括以mRNA定量测量作为输入，构造为具有16个隐藏节点和ReLU激活的MLP的网络模型，以及以C侧接序列作为输入，构造为具有32个隐藏节点和ReLU激活的MLP的网络模型。网络相关性函数g_h(·)构造为具有256个隐藏节点和修正线性单元(ReLU)激活的多层感知器。示例模型6与示例模型5相同，只是省略了C末端和N末端侧接序列的网络模型。示例模型7与示例模型5相同，只是从等位基因非相互作用变量中省略了源基因的索引。示例模型8与示例模型5相同，只是省略了用于mRNA定量测量的网络模型。

测试集中呈递的肽的普遍度约为1/2400，因此，随机预测的PPV也为约1/2400＝0.00042。如图13C所示，表现最佳的呈递模型的PPV值为约29％，比随机预测的PPV值高约500倍。

X.A.2.实施例2

图13D是直方图，其描述了对于总共39个包含II类HLA分子的样品中的每个样品使用质谱法测序的肽的量。此外，对于多个样品中的每个样品，图13D中所示的直方图描绘了使用质谱在不同的q值阈值处测序的肽的量。具体地，对于多个样品中的每个样品，图13D描绘了使用质谱法以q值小于0.01、q值小于0.05和q值小于0.2测序的肽的量。

如上所述，图13D的39个样品中的每个样品都包含II类HLA分子。更具体地，图13D的39个样品中的每个样品都包含HLA-DR分子。HLA-DR分子是一种类型的II类HLA分子。甚至更具体地，图13D的39个样品中的每个样品都包含HLA-DRB1分子、HLA-DRB3分子、HLA-DRB4分子和/或HLA-DRB5分子。HLA-DRB1分子、HLA-DRB3分子、HLA-DRB4分子和HLA-DRB5分子是HLA-DR分子类型。

虽然使用包含HLA-DR分子，尤其是HLA-DRB1分子、HLA-DRB3分子、HLA-DRB4分子和HLA-DRB5分子的样品进行了该特定实验，但是在替代实施方案中，可以使用包含一种或多种任何类型的II类HLA分子的样品进行实验。例如，在替代实施方案中，可以使用包含HLA-DP和/或HLA-DQ分子的样品进行相同的实验。使用相同的技术对任何类型的II类MHC分子建模并且仍然获得可靠的结果的能力是本领域技术人员周知的。例如，Jensen，KamillaKjaergaard等人⁷⁶是最近的科学论文的一个例子，其用相同的方法对对于HLA-DR分子以及HLA-DQ和HLA-DP分子的结合亲和力进行建模。因此，本领域技术人员将理解，本文所述的实验和模型不仅可以用于对HLA-DR分子，而且可以对任何其他II类MHC分子进行单独或同时建模，同时仍产生可靠的结果。

为了对39个总样品中每个样品的肽进行测序，对每个样品进行了质谱法。然后，用Comet搜索样品的所得的质谱图，并用Percolator评分以对肽进行测序。然后，对于多个不同的Percolator q值阈值，鉴别样品中测序的肽数量。具体地，对于样品，确定以小于0.01的Percolator q值，小于0.05的Percolator q值和小于0.2的Percolator q值测序的肽的量。

对于39个样品中的每个样品，在每个不同的Percolator q值阈值测序的肽的量描述在图13D。例如，如图13D所示，对于第一个样品，使用质谱法对q值小于0.2的约4000个肽进行了测序，使用质谱法对q值小于0.05的约2800个肽进行了测序，并且使用质谱法对q值小于0.01的约2300个肽进行了测序。

总之，图13D证明使用质谱法在低q值下对来自含有II类MHC分子的样品中的大量肽进行测序的能力。换句话说，图13D中描述的数据证明了使用质谱法对由II类MHC分子呈递的肽进行可靠测序的能力。

图13E是直方图，其描绘了其中鉴别出特定的II类MHC分子等位基因的样品的量。更具体地，对于总共39个包含II类HLA分子的样品，图13E描绘了其中鉴别出某些II类MHC分子等位基因的样品的量。

如以上关于图13D所讨论的，图13D的39个样品中的每个样品都包含HLA-DRB1分子、HLA-DRB3分子、HLA-DRB4分子和/或HLA-DRB5分子。因此，图13E描绘了其中鉴别出HLA-DRB1、HLA-DRB3、HLA-DRB4和HLA-DRB5分子的某些等位基因的样品的量。为了鉴别样品中存在的HLA等位基因，对样品进行II类HLA DR分型。然后，为了鉴别其中鉴别出特定HLA等位基因的样品的量，将使用II类HLA DR分型鉴别出HLA等位基因的样品的量简单相加。例如，如图13E所示，39个总样品中的19个样品包含II类HLA分子等位基因HLA-DRB4*01：03。换句话说，39个样品的19个样品包含HLA-DRB4分子的等位基因HLA-DRB4*01：03。总之，图13E描绘了从包含II类HLA分子的39个样品中鉴别广泛的II类HLA分子等位基因的能力。

图13F是直方图，其描绘了对于一系列肽长度中的每个肽长度，由39个总样品中的II类MHC分子呈递的肽的比例。为了确定39个总样品中每个样品中每个肽的长度，如上文关于图13D所讨论的，使用质谱法对每个肽进行测序，然后简单地定量测序的肽中的残基数目。

如上所述，II类MHC分子通常呈递长度为9-20个氨基酸的肽。因此，图13F描绘了对于9-20个氨基酸(包括端点在内)的每个肽长度，39个样品中由II类MHC分子呈递的肽的比例。例如，如图13F所示，在39个样品中由II类MHC分子呈递的肽中约22％包含14个氨基酸的长度。

基于图13F中描绘的数据，鉴别出39个样品中由II类MHC分子呈递的肽的模态长度为14和15个氨基酸长度。鉴别出39个样品中由II类MHC分子呈递的肽的这些模态长度与先前报道的由II类MHC分子呈递肽的模态长度一致。另外，也与先前的报道一致，图13F的数据表明来自39个样品的II类MHC分子所呈递的肽中超过60％包含14和15个氨基酸以外的长度。换句话说，图13F表明尽管由II类MHC分子呈递的肽的长度最经常是14或15个氨基酸，但是大比例的由II类MHC分子呈递的肽不是14或15个氨基酸的长度。因此，一个错误的假设是假定所有长度的肽都具有相同的由II类MHC分子呈递的概率，或者假定只有长度为14或15个氨基酸的肽由II类MHC分子呈递。如以下关于图13J详细讨论的，这些错误的假设当前被用于许多现有技术的模型中以预测II类MHC分子的肽呈递，因此由这些模型预测的呈递概率通常是不可靠的。

图13G是线图，其描绘了对于存在于39个样品中的基因，基因表达与II类MHC分子对基因表达产物的呈递的普遍性之间的关系。更具体地，图13G描绘了基因表达与由基因表达得到的形成由II类MHC分子呈递的肽的N末端的残基的比例之间的关系。为了定量39个样品中每个样品的基因表达，对每个样品中包含的RNA进行了RNA测序。在图13G中，通过RNA测序以每百万条读段数的转录物数(TPM)为单位测量基因表达。为了鉴别39个样品中每个样品的基因表达产物的呈递普遍性，对每个样品进行II类HLA DR肽数据的鉴别。

如图13G中所示，对于39个样品，在基因表达水平和II类MHC分子对表达的基因产物的残基的呈递之间存在很强的相关性。具体地，如图13G所示，与由最多表达基因的表达得到的肽相比，由最少表达基因的表达得到的肽以低超过100倍的可能性由II类MHC分子呈递。简单来说，更高表达基因的产物更频繁由II类MHC分子呈递。

图13H-J是线图，其比较了多种呈递模型在预测肽的测试数据集中的肽被测试数据集中存在的至少一种II类MHC分子呈递的可能性时的性能。如图13H-J所示，通过鉴别对于通过模型进行的每个预测的真阳性率与假阳性率之比，确定了模型在预测肽被测试数据集中存在的至少一种II类MHC分子呈递的可能性时的性能。对于给定模型确定的这些比率可以在线图中可视化为ROC(受试者工作特征)曲线，其中X轴定量假阳性率，并且Y轴定量真阳性率。曲线下面积(AUC)用于定量模型的性能。具体来说，相对于具有较小AUC的模型，具有更大AUC的模型具有更高的性能(即，更高的准确性)。在图13H-J中，斜率为1(即真阳性率与假阳性率之比为1)的黑色虚线描绘了用于肽呈递的随机猜测可能性的预期曲线。虚线的AUC为0.5。关于上面X部分的顶部，详细讨论了ROC曲线和AUC度量。

图13H是线图，其比较了在考虑等位基因相互作用和等位基因非相互作用变量的不同集合的情况下五种示例呈递模型在预测肽的测试数据集中的肽由II类MHC分子呈递的可能性时的性能。换句话说，图13H定量了多种等位基因相互作用和等位基因非相互作用变量对于预测肽将由II类MHC分子呈递的可能性的相对重要性。

用于生成图13H的线图的ROC曲线的五个示例呈递模型的每个示例呈递模型的模型体系结构包括5个S型和的模型的汇集。汇集中的每个S型和的模型被配置为对每个样品最多四个独特的HLA-DR等位基因的肽呈递进行建模。此外，汇集中的每个S型和的模型被配置为基于以下等位基因相互作用和等位基因非相互作用变量对肽呈递可能性进行预测：肽序列、侧接序列、以TPM为单位的RNA表达、基因标识符和样品标识符。汇集中每个S型和的模型的等位基因相互作用成分是单隐藏层MLP，其中ReLu激活作为256个隐藏单位。

在使用示例模型预测肽的测试数据集中的肽将由II类MHC分子呈递的可能性之前，对示例模型进行训练和验证。为了训练、验证并最终测试示例模型，以上针对39个样品描述的数据被分为训练、验证和测试数据集。

为了确保没有肽出现在超过一个训练、验证和测试数据集中，进行了以下程序。首先，除去39个总样品中出现在蛋白质组中多于一个位置的所有肽。然后，将来自39个样品的肽分成10个相邻肽段。来自总共39个样品的每个肽段被唯一地分配给训练数据集、验证数据集或测试数据集。这样，没有肽出现在训练、验证和测试数据集中的多于一个数据集中。

在总共39个样品中的28,081,944个肽中，训练数据集包含来自总共39个样品中38个的由II类MHC分子呈递的21,077个肽。包含在训练数据集中的21,077个肽的长度为9至20个氨基酸(包括端点在内)。使用ADAM优化程序并提前停止，将用于生成图13H中的ROC曲线的示例模型在训练数据集中进行训练。

验证数据集由来自用于训练数据集的相同的38个样品的由II类MHC分子呈递的2,346个肽组成。验证集仅用于提前停止。

测试数据集包含使用质谱法从肿瘤样品中鉴别的由II类MHC分子呈递的肽。具体来说，测试数据集包含从肿瘤样品鉴别的由II类MHC分子(特别是由HLA-DRB1*07：01、HLA-DRB1*15：01、HLA-DRB4*01：03和HLA-DRB5*01：01分子)呈递的203个肽。测试数据集中包含的肽不包含在上述训练数据集中。

如上所述，图13H定量了各种等位基因相互作用变量和等位基因非相互作用变量对于预测肽将由II类MHC分子呈递的可能性的相对重要性。同样如上所述，用于生成图13H的线图的ROC曲线的示例模型被配置为基于以下等位基因相互作用和等位基因非相互作用变量对肽呈递可能性进行预测：肽序列、侧接序列、以TPM为单位的RNA表达、基因标识符和样品标识符。为了定量这五个变量中的四个变量(肽序列、侧接序列、RNA表达和基因标识符)对于预测肽将由II类MHC分子呈递的可能性的相对重要性，利用四个变量的不同组合使用来自测试数据集的数据测试上述五个示例模型中的每个示例模型。具体地，对于测试数据集的每个肽，示例模型1基于肽序列、侧接序列、基因标识符和样品标识符但没有RNA表达来生成肽呈递可能性的预测。类似地，对于测试数据集的每个肽，示例模型2基于肽序列、RNA表达、基因标识符和样品标识符但没有侧接序列来生成肽呈递可能性的预测。类似地，对于测试数据集的每个肽，示例模型3基于侧接序列、RNA表达、基因标识符和样品标识符但没有肽序列来生成肽呈递可能性的预测。类似地，对于测试数据集的每个肽，示例模型4基于侧接序列、RNA表达、肽序列和样品标识符但没有基因标识符来生成肽呈递可能性的预测。最后，对于测试数据集的每个肽，示例模型5基于全部5个变量即侧接序列、RNA表达、肽序列、样品标识符和基因标识符来生成肽呈递可能性的预测。

这五个示例模型中的每一个的性能在图13H的线图中示出。具体地，五个示例模型中的每一个都与ROC曲线相关联，该ROC曲线描述了由该模型做出的每个预测的真阳性率与假阳性率之比。例如，图13H描绘了示例模型1的曲线，其基于肽序列、侧接序列、基因标识符和样品标识符但没有RNA表达来生成肽呈递可能性的预测。图13H描绘了示例模型2的曲线，其基于肽序列、RNA表达、基因标识符和样品标识符但没有侧接序列来生成肽呈递可能性的预测。图13H还描绘了示例模型3的曲线，其基于侧接序列、RNA表达、基因标识符和样品标识符但没有肽序列来生成肽呈递可能性的预测。图13H还描绘了示例模型4的曲线，其基于侧接序列、RNA表达、肽序列和样品标识符但没有基因标识符来生成肽呈递可能性的预测。并且最后，图13H描绘了示例模型5的曲线，其基于全部5个变量侧接序列、RNA表达、肽序列、样品标识符和基因标识符来生成肽呈递可能性的预测。

如上所述，通过鉴别ROC曲线的AUC来定量模型在预测肽将由II类MHC分子呈递的可能性时的性能，该ROC曲线描述了对于由模型所做的每个预测的真阳性率与假阳性率之比。相对于具有较小AUC的模型，具有较大AUC的模型具有更高的性能(即，更高的准确性)。如图13H所示，基于全部5个变量即侧接序列、RNA表达、肽序列、样品标识符和基因标识符来生成肽呈递可能性的预测的示例模型5的曲线实现了0.98的最高AUC。因此，使用全部五个变量生成肽呈递的预测的示例模型5获得了最佳性能。基于肽序列、RNA表达、基因标识符和样品标识符但没有侧接序列来生成肽呈递可能性的预测的示例模型2的曲线实现了0.97的第二最高AUC。因此，可以将侧接序列鉴别为对于预测肽将由II类MHC分子呈递的可能性最不重要的变量。基于侧接序列、RNA表达、肽序列和样品标识符但没有基因标识符来生成肽呈递可能性的预测的示例模型4的曲线实现了0.96的第三最高AUC。因此，可以将基因标识符鉴别为对于预测肽将由II类MHC分子呈递的可能性第二最不重要的变量。基于侧接序列、RNA表达、基因标识符和样品标识符但没有肽序列来生成肽呈递可能性的预测的示例模型3的曲线实现了0.88的最低AUC。因此，可以将肽序列鉴别为对于预测肽将由II类MHC分子呈递的可能性最重要的变量。基于肽序列、侧接序列、基因标识符和样品标识符但没有RNA表达来生成肽呈递可能性的预测的示例模型1的曲线实现了0.95的第二最低AUC。因此，可以将RNA表达鉴别为对于预测肽将由II类MHC分子呈递的可能性第二最重要的变量。

图13I是线图，其比较了四个不同呈递模型在预测肽的测试数据集中的肽将由II类MHC分子呈递的可能性时的性能。

图13I中测试的第一模型在本文中被称为“完全非相互作用模型”。完全非相互作用模型是上述呈递模型的一个实施方案，其中将等位基因非相互作用变量w^k和等位基因相互作用变量x_h ^k输入到诸如神经网络的单独的相关性函数中，然后将这些单独的相关性函数的输出相加。具体地，完全非相互作用模型是上述呈递模型的一个实施方案，其中将等位基因非相互作用变量w^k输入到相关性函数g_w中，将等位基因相互作用变量x_h ^k输入到单独的相关性函数g_h中，并且将相关性函数g_w和相关性函数g_h的输出相加。因此，在一些实施方案中，完全非相互作用模型使用如上所示的等式8确定肽呈递的可能性。此外，其中将等位基因非相互作用变量w^k输入到相关性函数g_w中，将等位基因相互作用变量x_h ^k输入到单独的相关性函数g_h中，并且将相关性函数g_w和相关性函数g_h的输出相加的完全非相互作用模型的实施方案在上文关于VIII.B.2部分的顶部部分、VIII.B.3部分的底部部分、VIII.C.3部分的顶部部分和VIII.C.6部分的顶部部分中进行了详细讨论。

在图13I中测试的第二模型在本文中被称为“完全相互作用模型”。完全相互作用模型是上述呈递模型的一个实施方案，其中等位基因非相互作用变量w^k与等位基因相互作用变量x_h ^k直接串联，然后输入诸如神经网络的相关性函数。因此，在一些实施方案中，完全相互作用模型使用如上所述的等式9确定肽呈递的可能性。此外，其中将等位基因非相互作用变量w^k与等位基因相互作用变量x_h ^k直接串联，然后将变量输入相关性函数的完全相互作用模型的实施方案在上文关于VIII.B.2部分的底部，VIII.C.2部分的底部和VIII.C.5部分的底部进行了详细讨论。

在图13I中测试的第三模型在本文中被称为“CNN模型”。CNN模型包括卷积神经网络，并且类似于上述的完全非相互作用模型。但是，CNN模型的卷积神经网络的层与完全非相互作用模型的神经网络的层不同。具体来说，CNN模型的卷积神经网络的输入层接受20聚体肽串，然后将20聚体肽串嵌入为(n，20，21)张量。CNN模型的卷积神经网络的接下来的层包括大小为5、步幅为1的1-D卷积核层，全局最大汇集层，p＝0.2的退出层，以及最后具有ReLu激活的密集的34节点层。

图13I中测试的第四和最终模型在本文中被称为“LSTM模型”。LSTM模型包括长短期记忆神经网络。LSTM模型的长短期记忆神经网络的输入层接受20聚体肽串，然后将20聚体肽串嵌入为(n，20，21)张量。LSTM模型的长期短期记忆神经网络的接下来的层包括具有128个节点的长期短期记忆层，p＝0.2的退出层，以及最后具有ReLu激活的密集的34节点层。

在使用图13I的四个模型的每一个来预测肽的测试数据集中的肽将由II类MHC分子呈递的可能性之前，使用上述的38个样品训练数据集对模型进行了训练，并使用了上述的验证数据集对模型进行了验证。在这种训练和验证模型之后，使用上述提出的第39个样品测试数据集对四个模型中的每个模型进行了测试。具体来说，对于四个模型中的每个模型，将测试数据集的每个肽输入模型，然后模型随后输出该肽的呈递可能性。

四个模型中的每个模型的性能在图13I中的线图中描绘。具体来说，四个模型中的每个模型都与ROC曲线相关联，该曲线描述了由该模型做出的每个预测的真阳性率与假阳性率之比。例如，图13I描绘了CNN模型的ROC曲线，完全相互作用模型的ROC曲线，LSTM模型的ROC曲线和完全非相互作用模型的ROC曲线。

如上所述，通过鉴别ROC曲线的AUC来定量模型在预测肽将由II类MHC分子呈递的可能性时的性能，该ROC曲线描述了由模型做出的每个预测的真阳性率与假阳性率之比。相对于具有较小AUC的模型，具有较大AUC的模型具有更高的性能(即，更高的准确性)。如图13I所示，完全相互作用模型的曲线实现了0.982的最高AUC。因此，完全相互作用模型实现了最佳性能。完全非相互作用模型的曲线实现了0.977的第二最高AUC。因此，完全非相互作用模型实现了第二最佳性能。CNN模型的曲线实现了0.947的最低AUC。因此，CNN模型实现了最差性能。LSTM模型的曲线实现了0.952的第二最低AUC。因此，LSTM模型实现了第二最差性能。但是，注意到在图13I中测试的所有模型具有大于0.9的AUC。因此，尽管它们之间在体系结构上存在差异，但是在图13I中测试的所有模型能够实现相对准确的肽呈递预测。

图13J是线图，其比较了使用两个不同的标准的两个示例同类最佳现有技术模型与使用等位基因相互作用和等位基因非相互作用变量的两个不同集合的两个示例呈递模型在预测肽的测试数据集中的肽将由II类MHC分子呈递的可能性时的性能。具体地，图13J是线图，其比较了使用最小NetMHCII 2.3预测的结合亲和力作为标准来生成预测的示例同类最佳现有技术模型(示例模型1)，使用最小NetMHCII 2.3预测的结合排名作为标准来生成预测的示例同类最佳现有技术模型(示例模型2)，基于II类MHC分子类型和肽序列生成肽呈递可能性的预测的示例呈递模型(示例模型4)，以及基于II类MHC分子类型、肽序列、RNA表达、基因标识符和侧接序列生成肽呈递可能性的预测(示例模型3)。

用作图13J中的示例模型1和示例模型2的同类最佳的现有技术模型是NetMHCII2.3模型。NetMHCII 2.3模型基于II类MHC分子类型和肽序列生成肽呈递可能性的预测。使用NetMHCII 2.3网站(www.cbs.dtu.dk/services/NetMHCII/，PMID 29315598)⁷⁶测试NetMHCII 2.3模型。

如上所述，根据两个不同的标准测试NetMHCII 2.3模型。具体来说，示例模型1模型根据最小NetMHCII 2.3预测的结合亲和力生成肽呈递可能性的预测，示例模型2根据最小NetMHCII 2.3预测的结合排名生成肽呈递可能性的预测。

用作示例模型3和示例模型4的呈递模型是本文公开的呈递模型的实施方案，其使用经由质谱法获得的数据训练。如上所述，呈递模型基于等位基因相互作用变量和等位基因非相互作用变量的两个不同集合生成肽呈递可能性的预测。具体来说，示例模型4基于II类MHC分子类型和肽序列(NetMHCII 2.3模型使用的相同变量)生成肽呈递可能性的预测，而示例模型3基于II类MHC分子类型、肽序列、RNA表达、基因标识符和侧接序列生成肽呈递可能性的预测。

在使用图13J的示例模型预测肽的测试数据集中的肽将由II类MHC分子呈递的可能性之前，对模型进行了训练和验证。NetMHCII 2.3模型(示例模型1和示例模型2)使用其自身的训练和验证数据集进行了训练和验证，该数据集基于存放在免疫表位数据库(IEDB，www.iedb.org)中的HLA-肽结合亲和力测定法。已知用于训练NetMHCII 2.3模型的训练数据集几乎只包含15聚体肽。另一方面，将示例模型3和4使用以上关于图13H描述的训练数据集进行训练，并使用上面关于图13H描述的验证数据集进行验证。

在训练和验证模型之后，使用测试数据集对每个模型进行测试。如上所述，NetMHCII 2.3模型在几乎仅包含15聚体肽的数据集进行训练，这意味着NetMHCII 3.2不具有为不同重量的肽赋予不同优先级的能力，从而降低了NetMHCII 3.2对于包含所有长度的肽II类HLA呈递质谱数据的预测性能。因此，为了在不受可变肽长度影响的模型之间提供公平的比较，测试数据集仅包含15聚体肽。具体来说，测试数据集包含933个15聚体肽。测试数据集中的933种肽中有40种是由II类MHC分子呈递，特别是由HLA-DRB1*07：01、HLA-DRB1*15：01、HLA-DRB4*01：03和HLA-DRB5*01：01分子呈递。测试数据集中包含的肽不包含在上述训练数据集中。

为了使用测试数据集对示例模型进行测试，对于每个示例模型，对于测试数据集中的933个肽中的每个肽，模型生成了肽的呈递可能性的预测。具体来说，对于测试数据集中的每种肽，示例1模型通过用测试数据集中四种II类HLA DR等位基之间最小NetMHCII2.3预测结合亲和力对肽进行排名，使用II类MHC分子类型和肽序列生成了II类MHC分子对肽的呈递评分。类似地，对于测试数据集中的每种肽，示例2模型通过用测试数据集中四种II类HLA DR等位基之间最小NetMHCII 2.3预测结合排名(即，分位数归一化结合亲和力)对肽进行排名，使用II类MHC分子类型和肽序列生成了II类MHC分子对肽的呈递评分。对于测试数据集中的每个肽，示例4模型基于II类MHC分子类型和肽序列生成了II类MHC分子对肽的呈递可能性。类似地，对于测试数据集中的每种肽，示例模型3基于II类MHC分子类型、肽序列、RNA表达、基因标识符和侧接序列生成了II类MHC分子对肽的呈递可能性。

四个示例模型中的每一个的性能在图13J中的线图中示出。具体地，四个示例模型中的每一个都与ROC曲线相关联，该ROC曲线描述了该模型做出的每个预测的真阳性率与假阳性率之比。例如，图13J描绘了利用最小NetMHCII 2.3预测结合亲和力来生成预测的示例1模型的ROC曲线，利用最小NetMHCII 2.3预测结合排名来生成预测的示例2模型的ROC曲线，基于II类MHC分子类型和肽序列生成肽呈递可能性的示例4模型的ROC曲线，以及基于II类MHC分子类型、肽序列、RNA表达、基因标识符和侧接序列生成肽呈递可能性的示例3模型的ROC曲线。

如上所述，通过鉴别ROC曲线的AUC来定量模型在预测肽将由II类MHC分子呈递的可能性时的性能，该ROC曲线描述了由模型做出的每个预测的真阳性率与假阳性率之比。相对于具有较小AUC的模型，具有较大AUC的模型具有更高的性能(即，更高的准确性)。如图13J所示，基于II类MHC分子类型、肽序列、RNA表达、基因标识符和侧接序列生成肽呈递可能性的示例3模型的曲线实现了0.95的最高AUC。因此，基于II类MHC分子类型、肽序列、RNA表达、基因标识符和侧接序列生成肽呈递可能性的实施例3模型实现了最佳性能。基于II类MHC分子类型和肽序列生成肽呈递可能性的示例4模型的曲线获得了0.91的第二最高AUC。因此，基于II类MHC分子类型和肽序列生成肽呈递可能性的示例4模型获得了第二最佳性能。使用最小NetMHCII 2.3预测结合亲和力来生成预测的示例1模型的曲线实现了0.75的最低AUC。因此，利用最小NetMHCII 2.3预测结合亲和力来生成预测的示例1模型实现了最差的性能。使用最小NetMHCII 2.3预测结合排名来生成预测的示例2模型的曲线实现了0.76的第二最低AUC。因此，使用最小NetMHCII 2.3预测结合排名来生成预测的示例2模型实现了第二最差性能。

如图13J所示，示例模型1和2与示例模型3和4之间的性能差异很大。具体来说，NetMHCII 2.3模型(利用最小NetMHCII 2.3预测结合亲和力或最小NetMHCII 2.3预测结合排名的标准)的性能比本文公开的呈递模型(基于II类MHC分子类型和肽序列或者基于II类MHC分子类型、肽序列、RNA表达、基因标识符和侧接序列生成肽呈递可能性)的性能低差不多25％。因此，图13J证明了本文公开的呈递模型比当前同类最佳的现有技术模型NetMHCII2.3模型能够实现更为准确的呈递预测。

更进一步地，如上所述，在几乎仅包含15聚体肽训练数据集上训练NetMHCII 2.3模型。结果，未训练NetMHCII 2.3模型来学习哪些肽长度最有可能由II类MHC分子呈递。因此，NetMHCII 2.3模型不会根据肽的长度对其II类MHC分子的肽呈递可能性的预测进行加权。换句话说，对于长度超出15个氨基酸的模态肽长度的肽，NetMHCII 2.3模型不会修改其对II类MHC分子的肽呈递可能性的预测。结果，NetMHCII 2.3模型高估了长度大于或小于15个氨基酸的肽的呈递可能性。

另一方面，将本文公开的呈递模型使用通过质谱法获得的肽数据来训练，并且因此可以在包含所有不同长度的肽的训练数据集上进行训练。结果，本文公开的呈递模型能够学习哪些肽长度更可能由II类MHC分子呈递。因此，本文公开的呈递模型可以根据肽的长度对II类MHC分子的肽呈递可能性的预测进行加权。换句话说，本文公开的呈递模型能够修改其对于长度超出15个氨基酸的模态肽长度的肽的II类MHC分子的肽呈递可能性的预测。结果，与当前同类最佳的现有技术模型NetMHCII 2.3模型相比，本文公开的呈递模型能够对长度大于或小于15个氨基酸的肽实现明显更准确的呈递预测。这是使用本文公开的呈递模型来预测II类MHC分子的肽呈递可能性的一个优点。

X.B.对于MHC等位基因确定的参数的实例

下面显示了对于生成II类MHC等位基因HLA-DRB1*12：01和HLA-DRB1*10：01的隐式独立等位基因呈递可能性的各种多等位基因呈递模型(等式(16))确定的参数集合：

u＝expit(relu(X·W¹+b¹)·W²+b²)，

其中relu(·)是修正线性单元(RELU)函数，W¹、b¹、W²及b²是测定的该模型的参数θ的集合。等位基因相互作用变量X包含在1x399)矩阵中，该矩阵由每个输入肽1行独热编码和中间填充的肽序列组成。W¹的维度是(399x256)，b¹的维度是(1x256)，W²的维度是(256x2)，并且b²的维度是(1x2)。输出的第一列指示肽序列由等位基因HLA-DRB1*12：01呈递的隐式等位基因概率，并且输出的第二列指示肽序列由等位基因HLA-DRB1*10：01呈递的隐式独立等位基因。出于展示目的，下面列出了b¹、b²、W¹及W²的值。

b¹：

b²：

W¹：

W²：

XI.示例计算机

图14示出了用于实施图1和3中所示实体的示例计算机1400。计算机1400包括耦合至芯片组1404的至少一个处理器1402。芯片组1404包括内存控制器集线器1420和输入/输出(I/O)控制器集线器1422。内存1406和图形适配器1412耦合至内存控制器集线器1420，并且显示器1418耦合至图形适配器1412。存储装置1408、输入装置1414和网络适配器1416耦合至I/O控制器集线器1422。计算机1400的其它实施方案具有不同的架构。

存储装置1408是非暂时性计算机可读存储介质，如硬盘驱动器、致密光盘只读存储器(CD-ROM)、DVD或固态内存装置。内存1406保存处理器1402所使用的指令和数据。输入接口1414是触摸屏界面、鼠标、轨迹球或其它类型的指向装置、键盘或其某一组合，并且用于将数据输入计算机1400中。在一些实施方案中，计算机1400可以被配置成通过用户的示意动作从输入接口1414接收输入(例如，命令)。图形适配器1412将图像和其它信息显示于显示器1418上。网络适配器1416将计算机1400耦合至一个或多个计算机网络。

计算机1400被调适成执行计算机程序模块以提供本文所述的功能。如本文所使用，术语“模块”是指用于提供指定功能的计算机程序逻辑。因此，模块可以在硬件、固件和/或软件中实施。在一个实施方案中，程序模块被存储于存储装置1408上，装载至内存1406中并由处理器1402执行。

图1的实体所使用的计算机1400的类型可以根据实施方案和实体所需的处理能力而变化。举例来说，呈递鉴别系统160可以在单一计算机1400或在通过网络，如在服务器群中彼此通信的多台计算机1400中运行。计算机1400可以缺少以上描述的组件中的一些，如图形适配器1412和显示器1418。

参考文献

1. Desrichard，A.，Snyder.A.&Chan，T.A.Cancer Neoantigens andApplications for Immunotherapy.Clin.Cancer Res.Off.J.Am.Assoc.Cancer Res.(2015).doi：10.1158/1078-0432.CCR-14-3175

2. Schumacher，T.N.&Schreiber，R.D.Neoantigens in cancerimmunotherapy.Science 348，69-74(2015).

3. Gubin，M.M.，Artyomov，M.N.，Mardis，E.R.&Schreiber，R.D.Tumorneoantigens：building a framework for personalized cancerimmunotherapy.J.Clin.Invest.125，3413-3421(2015).

4. Rizvi，N.A.et al.Cancer immunology.Mutational landscape determinessensitivity to PD-1 blockade in non-small cell lung cancer.Sctence 348，124-128(2015).

5. Snyder，A.et al.Genetic basis for clinical response to CTLA-4blockade in melanoma.N.Engl.J.Med.371，2189-2199(2014).

6. Carreno，B.M.et al.Cancer immunotherapy.A dendritic cell vaccineincreases the breadth and diversity of melanoma neoantigen-specific Tcells.Science 348，803-808(2015).

7. Tran， E.et al.Cancer immunotherapy based on mutation-specific CD4+T cells in a patient with epithelial cancer.Science 344，641-645(2014).

8. Hacohen，N.&Wu，C.J.-Y.United States Patent Application：0110293637-COMPOSITIONS AND METHODS OF IDENTIFYING TUMOR SPECIFIC NEOANTIGENS.(A1).at<http：//appftl.uspto.gov/netacgi/nph-Parser？Sect1＝PTO1&Sect2＝HITOFF&d＝PG01&p＝1&u＝/netahtml/PTO/srchnum.html&r＝1&f＝G&1＝50&s1＝20110293637.PGNR.>

9. Lundegaard，C.，Hoof，I.，Lund，O.&Nielsen，M.State of the art andchallenges in sequence based T-cell epitope prediction.Immunome Res.6 Suppl2，S3 (2010).

10. Yadav，M.et al.Predicting immunogenic tumour mutations bycombining mass spectrometry and exome sequencing.Nature 515，572-576(2014).

11. Bassani-Sternberg，M.，Pletscher-Frankild，S.，Jensen，L.J.&Mann，M.Mass spectrometry of human leukocyte antigen class I peptidomes revealsstrong effects of protein abundance and turnover on antigen presentation.Mol.Cell.Proteomics MCP 14，658-673(2015).

12. Van Allen，E.M.et al.Genomic correlates of response to CTLA-4blockade in metastatic melanoma.Science 350，207-211(2015).

13. Yoshida，K.&Ogawa，S.Splicing factor mutations and cancer.WileyInterdiscip.Rev.RNA 5，445-459(2014).

14. Cancer Genome Atlas Research Network.Comprehensive molecularprofiling of lung adenocarcinoma.Nature 511，543-550(2014).

15. Rajasagi，M.et al.Systematic identification of personal tumor-specific neoantigens in chronic lymphocytic leukemia.Blood 124，453-462(2014).

16. Downing，S.R.et al.United States Patent Application：0120208706-OPTIMIZATION OF MULTIGENE ANALYSIS OF TUMOR SAMPLES.(A1).at<http：//appftl.uspto.gov/netacgi/nph-Parser？Sect1＝PTO1&Sect2＝HITOFF&d＝PG01&p＝1&u＝/netahtml/PTO/srchnum.html&r＝1&f＝G&1＝50&s1＝20120208706.PGNR.>

17. Target Capture for NextGen Sequencing-IDT.at<http：//www.idtdna.com/pages/products/nextgen/target-capture>

18. Shukla，S.A.et al.Comprehensive analysis of cancer-associatedsomatic mutations in class I HLA genes.Nat.Biotechnol.33，1152-1158(2015).

19. Cieslik，M.et al.The use of exome capture RNA-seq for highlydegraded RNA with application to clinical cancer sequcncing.Genome Res.25，1372-1381(2015).

20. Bodini，M.et al.The hidden genomic landscape of acute myeloidleukemia：subclonal structure revealed by undetected mutations.Blood 125，600-605(2015).

21. Saunders，C.T.et al.Strelka：accurate somatic small-variant callingfrom sequenced tumor-normal sample pairs.Bioinforma.Oxf.Engl.28，1811-1817(2012).

22. Cibulskis，K.et al.Sensitive detection of somatic point mutationsin impure and heterogeneous cancer samples.Nat.Biotechnol.31，213-219(2013).

23. Wilkerson，M.D.et al.Integrated RNA and DNA sequencing improvesmutation detection in low purity tumors.Nucletc Acids Res.42，e107(2014).

24. Mose，L.E.，Wilkerson，M.D.，Hayes，D.N.，Perou，C.M.&Parker，J.S.ABRA：improved coding indel detection via assembly-based realignment.Bioinforma.Oxf.Engl.30，2813-2815(2014).

25. Ye，K.，Scbulz，M.H.，Long，Q.，Apweiler，R.&Ning，Z.Pindel：a pattemgrowth approach to detect break points of large deletions and medium sizedinsertions from paired-end short reads.Bioinforma.Oxf.Engl.25，2865-2871(2009).

26. Lam，H.Y.K.et al.Nucleotide-resolution analysis of structuralvariants using BreakSeq and a breakpoint library.Nat.Biotechnol.28，47-55(2010).

27. Frampton，G.M.et al.Development and validation of a clinicalcancer genomic profiling test based on massively parallel DNAsequencing.Nat.Biotechnol.31，1023-1031(2013).

28. Boegel，S.et al.HLA typing from RNA-Seq sequence reads.GenomeMed.4，102(2012).

29. Liu，C.et al.ATHLATES：accurate typing of human leukocyte antigenthrough exome sequencing.Nucleic Acids Res.41，e142(2013).

30. Mayor，N.P.et al.HLA Typing for the Next Generation.PloS One 10，e0127153(2015).

31. Roy，C.K.，Olson，S.，Graveley，B.R.，Zamore，P.D.&Moore，M.J.Assessinglong-distance RNA sequence connectivity via RNA-templated DNA-DNAligation.eLife 4，(2015).

32. Song，L.&Florea，L.CLASS：constrained transcript assembly of RNA-seqreads.BMC Bioinformatics 14 Suppl 5，S14(2013).

33. Maretty，L.，Sibbesen，J.A.&Krogh，A.Bayesian transcriptomeassembly.Genome Biol.15，501(2014).

34. Pertea，M.et al.StringTie enables improved reconstruction of atranscriptome from RNA-seq reads.Nat.Biotechnol.33，290-295(2015).

35. Roberts，A.，Pimentel，H.，Trapnell，C.&Pachter，L.Identification ofnovel transcripts in annotated genomes using RNA-Seq.Bioinforma.Oxf.Engl.(2011).doi：10.1093/bioinformatics/btr355

36. Vitting-Seerup，K.，Porse，B.T.，Sandelin，A.&Waage，J.spliceR：an Rpackage for classification of altemative splicing and prediction of codingpotential from RNA-seq data.BMC Bioinformatics 15，81(2014).

37. Rivas，M.A.et al.Human genomics.Effect of predicted protein-truncating genetic variants on the human transcriptome.Science 348，666-669(2015).

38. Skelly，D.A.，Johansson，M.，Madeoy，J.，Wakefield，J.&Akey，J.M.Apowerful and flexible statistical framework for testing hypotheses of allele-specific gene expression from RNA-seq data.Genome Res.21，1728-1737(2011).

39. Anders，S.，Pyl，P.T.&Huber，W.HTSeq-a Python framework to work withhigh-througbput sequencing data.Bioinforma.Oxf.Engl.31，166-169(2015).

40. Furney，S.J.et al.SF3B1 mutations are associated with alternativesplicing in uveal melanoma.Cancer Discov.(2013).doi：10.1158/2159-8290.CD-13-0330

41. Zhou，Q.et al.A chemical genetics approach for the functionalassessment of novel cancer genes.Cancer Res.(2015).doi：10.1158/0008-5472.CAN-14-2930

42. Maguire，S.L.et al.SF3B1 mutations constitute a novel therapeutictarget in breast cancer.J.Pathol.235，571-580(2015).

43. Carithers，L.J.et al.A Novel Approacb to High-Quality PostmortemTissue Procurement：The GTEx Project.Biopreservation Biobanking 13，311-319(2015).

44. Xu，G.et al.RNA CoMPASS：a dual approach for pathogen and hosttranscriptome analysis of RNA-seq datasets.PloS One 9，e89445(2014).

45. Andreatta.M.&Nielsen，M.Gapped sequence alignment using artificialneural networks：application to the MHC class I system.Bioinforma.Oxf.Engl.(2015).doi：10.1093/bioinformatics/btv639

46. Jorgensen，K.W.，Rasmussen，M.，Buus，S.&Nielsen，M.NetMHCstab-predicting stability of peptide-MHC-I complexes；impacts for cytotoxic Tlymphocyte epitope discovery.Immunology 141，18-26(2014).

47. Larsen，M.V.et al.An integrative approach to CTL epitopeprediction：a combined algorithm integrating MHC class I binding，TAP transportefficiency，and proteasomal cleavage predictions.Eur.J.Immunol.35，2295-2303(2005).

48. Nielsen，M.，Lundegaard，C.，Lund.O.&Kesmir，C.The role of theproteasome in generating cytotoxic T-cell epitopes：insights obtained fromimproved predictions of proteasomal cleavage.Immunogenetics 57，33-41(2005).

49. Boisvert，F.-M.et al.A Quantitative Spatial Proteomics Analysis ofProteome Tumover in Human Cells.Mol.Cell.Proteomics 11，M111.011429-M111.011429(2012).

50. Duan，F.et al.Genomic and bioinformatic profiling of mutationalneoepitopes reveals new rules to predict anticancerimmunogenicity.J.Exp.Med.211，2231-2248(2014).

51. Janeway’s Immunobiology：9780815345312：Medicine&Health ScienceBooks@Amazon.com.at<http：//www.amazon.com/Janeways-Immunobiology-Kenneth-Murphy/dp/0815345313>

52. Calis，J.J.A.et al.Properties of MHC Class l Presented PcptidesThat Enhance Immunogenicity.PLoS Comput.Biol.9，e1003266(2013).

53. Zhang，J.et al.Intratumor heterogeneity in localized lungadenocarcinomas delineated by multiregion sequencing.Science 346，256-259(2014)

54. Walter，M.J.et al.Clonal architecture of secondary acute myeloidleukemia.N.Engl.J.Med.366，1090-1098(2012).

55. Hunt DF，Henderson RA，Shabanowitz J，Sakaguchi K，Michel H，SevilirN，Cox AL，Appella E，Engelhard VH.Characterization of peptides bound to theclass I MHC molecule HLA-A2.1 by mass spectrometry.Science 1992.255：1261-1263.

56. Zarling AL，Polefrone JM，Evans AM，Mikesh LM，Shabanowitz J，LewisST，Engelhard VH，Hunt DF.Identification of class I MHC-associatedphosphopeptides as targets for cancer immunotherapy.Proc Natl Acad SciUSA.2006 Oct 3；103(40)：14889-94.

57. Bassani-Stemberg M，Pletscher-Frankild S.Jensen LJ.Mann M.Massspectrinetry of human leukocyte antigen class I peptidomes reveals strongeffects of protein abundance and turnover on antigen presentation.Mol CellProteomics.2015 Mar，14(3)：658-73.doi：10.1074/mcp.M114.042812.

58. Abelin JG，Trantham PD，Penny SA，Patterson AM，Ward ST，HildebrandWH，Cobbold M，Bai DL，Shabanowitz J，Hunt DF.Complementary IMAC enrichmentmethods for HLA-associated phosphopeptide identification by massspectrometry.Nat Protoc.2015 Sep；10(9)：1308-18.doi：10.1038/nprot.2015.086.Epub 2015 Aug 6

59. Barnstable CJ，Bodmer WF，Brown G，Galfre G，Milstein C，Williams AF，Ziegler A.Production of monoclonal antibodies to group A erythrocytes，HLA andother human cell surface antigens-new tools for genetic analysis.Cell.1978May；14(1)：9-20.

60. Goldman JM，Hibbin J，Keamey L，Orchard K，Th′ng KH.HLA-DR monoclonalantibodies inhibit the proliferation of normal and chronic granulocyticleukaemia myeloid progenitor cells.Br J Haematol.1982 Nov；52(3)：411-20.

61. Eng JK，Jahan TA，Hoopmann MR.Comet：an open-source MS/MS sequencedatabase search tool.Proteomics.2013 Jan；13(1)：22-4.doi：10.1002/pmic.201200439.Epub 2012 Dec 4.

62. Eng JK，Hoopmann MR，Jahan TA，Egertson JD，Noble WS，MacCoss MJ.Adeeper look into Comet--implementation and features.J Am Soc MassSpectrom.2015 Nov；26(11)：1865-74.doi：10.1007/s13361-015-1179-x.Epub 2015 Jun27.

63. LukasJesse Canterbury，Jason Weston，William Stafford Noble andMichael J.MacCoss.Semi-supervised learning for peptide identification fromshotgun proteomics datasets.Nature Methods 4：923-925，November 2007

64. LukasJohn D.Storey，Michael J.MacCoss and William StaffordNoble.Assigning confidence measures to peptides identified by tandem massspectrometry.Journal of Proteome Research，7(1)：29-34，January 2008

65. LukasJohn D.Storey and William Stafford Noble.Nonparametricestimation of posterior error probabilities associated with peptidesidentified by tandem mass spectrometry.Bioinformatics，24(16)：i42-i48，August2008

66. Bo Li and C.olin N.Dewey.RSEM：accurate transcript quantificationfrom RNA-Seq data with or without a referenfe genome.BMC Bioinformatics，12：323，August 2011

67. Hillary Pearson，Tariq Daouda，Diana Paola Granados，ChantalDurette，Eric Bonneil，Mathieu Courcelles，Anja Rodenbrock，Jean-PhilippeLaverdure，CarolineSylvie Mader，Sébastien Lemieux，Pierre Thibault，andClaude Perreault.MHC class I-associated peptides derive from selectiveregions of the human genome.The Journal of Clinical Investigation，2016，

68. Juliane Liepe，Fabio Marino，John Sidney，Anita Jeko，DanielE.Bunting，Alessandro Sette，Peter M.Kloetzel，Michael P.H.Stumpf，AlbertJ.R.Heck，Michele Mishto.A large fraction of HLA class I ligands areproteasome-generated spliced peptides.Science，21，October 2016.

69. Mommen GP.，Marino，F.，Meiring HD.，Poelen，MC.，van Gaans-van denBrink，JA.，Mohammed S.，Heck AJ.，and van Els CA.Sampling From the Proteome tothe Human Leukocyte Antigen-DR(HLA-DR)Ligandome Proceeds Via HighSpecificity.Mol Cell Proteomics 15(4)：1412-1423，April 2016.

70. Sebastian Kreiter，Mathias Vormehr，Niels van de Roemer，MustafaDiken，MartinJan Diekmann，Sebastian Boegel，BarbaraFulvia Vascotto，John C.Castle，Arbel D.Tadmor，Stephen P.Schoenberger，Christoph Huber，Türeci，and Ugur Sahin.Mutant MHC class II epitopes drive therapeutic immuneresponses to caner.Nature 520，692-696，April 2015.71.Tran E.，Turcotte S.，GrosA.，Robbins P.F.，Lu Y.C.，Dudley M.E.，Wunderlich J.R.，Somerville R.P.，Hogan K.，Hinrichs C.S.，Parkhurst M.R.，Yang J.C.，Rosenberg S.A.Cancer immunotherapybased on mutation-specific CD4+T cells in a patient with epithelialcancer.Science 344(6184)641-645，May 2014.72.Andreatta M.，Karosiene E.，Rasmussen M.，Stryhn A.，Buus S.，Nielsen M.Accurate pan-specific prediction ofpeptide-MHC class II binding affinity with improved binding coreidentification.Immunogenetics 67(11-12)641-650，November 2015.

73. Nielsen，M.，Lund，O.NN-align.An artificial neural network-basedalignment algorithm for MHC class II peptide binding prediction.BMCBioinformatics 10：296，September 2009.

74. Nielsen，M.，Lundegaard，C.，Lund，O.Prediction of MHC class IIbinding affinity using SMM-align，a novel stabilization matrix alignmentmethod.BMC Bioinformatics 8：238，July 2007.

75. Zhang，J.，et al.PEAKS DB：de novo sequencing assisted databasesearch for sensitive and accurate peptide identification.Molecular&CellularProteomics.11(4)：1-8.1/2/2012.

76. Jensen，Kamilla Kjaergaard，et al.“Improved Methods for PreditingPeptide Binding Affinity to MHC Class II Molecules.”Immunology，2018，doi：10.1111/imm.12889.

77. Carter，S.L.，Cibulskis，K.，Helman，E.，McKenna，A.，Shen，H.，Zack，T.，Laird，P.W.，Onofrio，R.C.，Winckler，W.，Weir，B.A.，et al.(2012).Absolutequantification of somatic DNA alterations in human cancer.Nat.Biotechnol.30，413-421

78. McGranahan，N.，Rosenthal，R.，Hiley，C.T.，Rowan，A.J.，Watkins，T.B.K.，Wilson，G.A.，Birkbak，N.J.，Veeriah，S.，Van Loo，P.，Herrero，J.，et al.(2017).Allele-Specific HLA Loss and Immune Escape in Lung Cancer Evolution.Cell171，1259-1271.ell.

79. Shukla，S.A.，Rooney，M.S.，Rajasagi，M.，Tiao，G.，Dixon，P.M.，Lawrence，M.S.，Stevens，J.，Lane，W.J.，Dellagatta，J.L.，Steelman，S.，et al.(2015).Comprehensive analysis of cancer-associated somatic mutations in class I HLAgenes.Nat.Biotechnol.33，1152-1158.

80. Van Loo，P.，Nordgard，S.H.，O.C.，Russnes，H.G.，Rye，I.H.，Sun，W.，Weigman，V.J.，Marynen，P.，Zetterberg，A.，Naume，B.，et al.(2010).Allele-specific copy number analysis of tumors.Proc.Natl.Acad.Sci.U.S.A.107，16910-16915.

81. Van Loo，P.，Nordgard，S.H.，O.C.，Russnes，H.G.，Rye，I.H.，Sun，W.，Weigman，V.J.，Marynen，P.，Zetterberg，A.，Naume，B.，et al.(2010).Allele-specific copy number analysis of tumors.Proc.Natl.Acad.Sci.U.S.A.107，16910-16915.

Claims

1.一种用于通过鉴别来自受试者的一种或多种肿瘤细胞的可能呈递于所述肿瘤细胞表面上的一种或多种新抗原来产生用于构建个性化癌症疫苗的输出的方法，包括以下步骤：

从所述受试者的所述肿瘤细胞和正常细胞获得外显子组、转录组或全基因组核苷酸测序数据中的至少一种，其中所述核苷酸测序数据被用于获得代表通过比较来自所述肿瘤细胞的核苷酸测序数据和来自所述正常细胞的核苷酸测序数据鉴别的新抗原集合中每一种新抗原的肽序列的数据，并且其中每一种新抗原的肽序列包含至少一个使其不同于从所述受试者的正常细胞鉴别的相应野生型肽序列的变化；

将每种新抗原的肽序列编码成相应的数字矢量，每个数字矢量包含有关构成所述肽序列的多个氨基酸和所述肽序列中氨基酸的位置集合的信息；

使用计算机处理器将所述数字矢量输入到深度学习呈递模型中，以产生对于该新抗原集合的呈递可能性集合，该集合中的每个呈递可能性代表了相应新抗原由受试者的肿瘤细胞表面上的一个或多个II类MHC等位基因呈递的可能性，所述深度学习呈递模包含：

至少基于训练数据集鉴别的多个参数，所述训练数据集包含：

通过质谱测量与被鉴别为存在于多个样品中的至少一个样品中的至少一种II类MHC等位基因结合的肽的存在获得的标记；

编码为包含有关构成所述肽序列的多个氨基酸和所述肽序列中氨基酸的位置集合的信息的数字矢量的训练肽序列；及

与所述训练肽序列相关的至少一个HLA等位基因；及

代表作为输入接收的所述数字矢量和根据所述数字矢量和所述参数作为输出生成的所述呈递可能性之间的关系的函数，

基于所述呈递可能性集合选择所述新抗原集合的子集，以产生选定的新抗原的集合；及

基于所述选定的新抗原的集合产生用于构建个性化癌症疫苗的输出。

2.根据权利要求1所述的方法，其中编码所述肽序列包括使用独热编码方案编码所述肽序列。

3.根据权利要求1至2中任一项所述的方法，其中将所述数字矢量输入所述深度学习呈递模型包括：

将所述深度学习呈递模型应用于所述新抗原的肽序列，以基于所述肽序列的特定位置处的特定氨基酸生成所述一个或多个II类MHC等位基因各自的依赖性分数，所述依赖性分数指示所述II类MHC等位基因是否会呈递所述新抗原。

4.根据权利要求3所述的方法，其中将所述数字矢量输入所述深度学习呈递模型另外包括：

变换所述依赖性分数以得到每一II类MHC等位基因的相应独立等位基因可能性，由此指示相应II类MHC等位基因会呈递所述相应新抗原的可能性；及

将所述独立等位基因可能性组合以产生所述新抗原的呈递可能性。

5.根据权利要求4所述的方法，其中所述变换所述依赖性分数将所述新抗原的呈递建模为在一个或多个II类MHC等位基因之间是相互排斥的。

6.根据权利要求3所述的方法，其中将所述数字矢量输入所述深度学习呈递模型另外包括：

变换所述依赖性分数的组合以产生所述呈递可能性，其中所述变换所述依赖性分数的组合将所述新抗原的呈递建模为在一个或多个II类MHC等位基因之间存在干扰。

7.根据权利要求3所述的方法，其中所述呈递可能性集合通过至少一个或多个等位基因非相互作用特征进一步鉴别，并且另外包括：

将所述呈递模型应用于所述等位基因非相互作用特征，以产生所述等位基因非相互作用特征的依赖性分数，所述依赖性分数指示所述相应新抗原的肽序列是否将基于所述等位基因非相互作用特征而被呈递。

8.根据权利要求7所述的方法，其另外包括：

将所述一个或多个II类MHC等位基因中每个II类MHC等位基因的依赖性分数与所述等位基因非相互作用特征的依赖性分数组合；及

变换每个II类MHC等位基因的所述组合的依赖性分数以产生每个II类MHC等位基因的独立等位基因可能性，由此指示所述相应II类MHC等位基因将呈递所述相应新抗原的可能性；及

组合所述独立等位基因可能性以产生所述呈递可能性。

9.根据权利要求8所述的方法，其另外包括：

变换所述II类MHC等位基因中每一个的所述依赖性分数与所述等位基因非相互作用特征的所述依赖性分数的组合以产生所述呈递可能性。

10.根据权利要求1至9中任一项所述的方法，其中所述一个或多个II类MHC等位基因包括两个或更多个II类MHC等位基因。

11.根据权利要求1至10中任一项所述的方法，其中所述至少一个II类MHC等位基因包括两个或更多个不同类型的II类MHC等位基因。

12.根据权利要求1至11中任一项所述的方法，其中所述多个样品包括以下至少一种：

(a)被工程改造成表达单个II类MHC等位基因的一个或多个细胞系；

(b)被工程改造成表达多个II类MHC等位基因的一个或多个细胞系；

(c)从多个患者获得或得到的一个或多个人细胞系；

(d)从多个患者获得的新鲜或冷冻的肿瘤样品；以及

(e)从多个患者获得的新鲜或冷冻的组织样品。

13.根据权利要求1至12中任一项所述的方法，其中所述训练数据集还包含以下至少一种：

(a)与所述分离的肽中的至少一个的肽-MHC结合亲和力测量值相关的数据；及

(b)与所述分离的肽中的至少一个的肽-MHC结合稳定性测量值相关的数据。

14.根据权利要求1至13中任一项所述的方法，其中所述呈递可能性集合进一步通过至少由RNA-seq或质谱法测量的所述受试者中一种或多种II类MHC等位基因的表达水平鉴别。

15.根据权利要求1至14中任一项所述的方法，其中所述呈递可能性集合通过至少MHC等位基因相互作用特征进一步鉴别，所述特征包括以下中的至少一种：

(a)预测的所述新抗原集合中的新抗原与一个或多个MHC等位基因之间的亲和力；及

(b)预测的新抗原编码的肽-MHC复合物的稳定性。

16.根据权利要求1至15中任一项所述的方法，其中所述数字可能性集合通过至少MHC等位基因非相互作用特征进一步鉴别，所述特征包括以下中的至少一种：

(a)在其源蛋白质序列内侧接所述新抗原编码肽的C末端序列；及

(b)在其源蛋白质序列内侧接所述新抗原编码肽的N末端序列。

17.根据权利要求1至16中任一项所述的方法，其中选择所述选定的新抗原的集合包括基于所述呈递模型，选择在所述肿瘤细胞表面上呈递的可能性相对于未选择的新抗原有所增加的新抗原。

18.根据权利要求1至17中任一项所述的方法，其中选择所述选定的新抗原的集合包括基于所述呈递模型，选择能够在所述受试者体内诱导肿瘤特异性免疫反应的可能性相对于未选择的新抗原有所增加的新抗原。

19.根据权利要求1至18中任一项所述的方法，其中选择所述选定的新抗原的集合包括基于所述呈递模型，选择能够被专职抗原呈递细胞(APC)呈递至天然T细胞的可能性相对于未选择的新抗原有所增加的新抗原，任选地其中所述APC是树突状细胞(DC)。

20.根据权利要求1至19中任一项所述的方法，其中选择所述选定的新抗原的集合包括基于所述呈递模型，选择经历中枢或外周耐受性抑制的可能性相对于未选择的新抗原有所降低的新抗原。

21.根据权利要求1至20中任一项所述的方法，其中选择所述选定的新抗原的集合包括基于所述呈递模型，选择能够在所述受试者体内诱导针对正常组织的自体免疫反应的可能性相对于未选择的新抗原有所降低的新抗原。

22.根据权利要求1至21中任一项所述的方法，其中所述一种或多种肿瘤细胞选自由以下组成的组：肺癌、黑素瘤、乳癌、卵巢癌、前列腺癌、肾癌、胃癌、结肠癌、睾丸癌、头颈癌、胰腺癌、脑癌、B细胞淋巴瘤、急性骨髓性白血病、慢性骨髓性白血病、慢性淋巴细胞性白血病和T细胞淋巴细胞性白血病、非小细胞肺癌和小细胞肺癌。

23.一种治疗患有肿瘤的受试者的方法，其包括进行如权利要求1至22中任一项所述的步骤，并且还包括获得包含选定的新抗原的集合的肿瘤疫苗，及将所述肿瘤疫苗施用给所述受试者。

24.一种制造肿瘤疫苗的方法，其包括进行如权利要求1至22中任一项所述的步骤，并且还包括产生或已产生包含所述选定的新抗原的集合的肿瘤疫苗。

25.根据权利要求1至24中任一项所述的方法，其进一步包括鉴别对于所述子集中的至少一种新抗原具有抗原特异性的一种或多种T细胞。

26.根据权利要求25所述的方法，其中所述鉴别包括在扩增所述一种或多种抗原特异性T细胞的条件下，将所述一种或多种T细胞与所述子集中的一种或多种新抗原共同培养。

27.根据权利要求25所述的方法，其中所述鉴别包括在允许所述T细胞与四聚体之间结合的条件下，使所述一种或多种T细胞与包含所述子集中一种或多种新抗原的四聚体接触。

28.根据权利要求25至27中任一项所述的方法，其进一步包括鉴别所述一种或多种鉴别的T细胞的一种或多种T细胞受体(TCR)。

29.根据权利要求28所述的方法，其中鉴别所述一种或多种T细胞受体包括对所述一种或多种鉴别的T细胞的T细胞受体序列进行测序。

30.一种分离的T细胞，其对如权利要求1至28中任一项所述子集中的至少一种选择的新抗原具有抗原特异性。

31.根据权利要求28至29中任一项所述的方法，其还包括：

对多个T细胞进行基因工程改造以表达所述一种或多种鉴别的T细胞受体中的至少一种；

在使所述多个T细胞扩增的条件下培养所述多个T细胞；及

将所述扩增的T细胞输注至所述受试者体内。

32.根据权利要求31所述的方法，其中对所述多个T细胞进行基因改造以表达所述一种或多种鉴别的T细胞受体中的至少一种包括：

将所述一种或多种鉴别的T细胞的T细胞受体序列克隆到表达载体中；及

用所述表达载体转染所述多个T细胞中的每一个。

33.根据权利要求25至29和31至32中任一项所述的方法，其还包括：

在扩增所述一个或多个鉴别的T细胞的条件下培养所述一个或多个鉴别的T细胞；及

将所述扩增的T细胞输注至所述受试者体内。