詳細な説明
I.定義
一般に、特許請求の範囲及び明細書において使用される用語は、当業者により理解される通常の意味を有するものとして解釈されるものとする。特定の用語を、さらなる明確性を与えるために下記に定義する。通常の意味と与えられる定義との間に矛盾が存在する場合、与えられる定義が用いられるものとする。
本明細書で使用するところの「抗原」という用語は、免疫反応を誘導する物質のことである。
本明細書で使用するところの「新生抗原」という用語は、例えば、腫瘍細胞の変異、または腫瘍細胞に特異的な翻訳後修飾によって、抗原を対応する野生型の親抗原とは異なるものとする少なくとも1つの変化を有する抗原のことである。新生抗原は、ポリペプチド配列またはヌクレオチド配列を含んでよい。変異は、フレームシフトもしくは非フレームシフト挿入欠失(indel)、ミスセンスもしくはナンセンス置換、スプライス部位変化、ゲノム再編成もしくは遺伝子融合、または、新生ORFを生じる任意のゲノム変化もしくは発現変化を含むことができる。変異はまた、スプライス変異体も含むことができる。腫瘍細胞に特異的な翻訳後修飾は、異常リン酸化を含むことができる。腫瘍細胞に特異的な翻訳後修飾はまた、プロテアソームによって生成されるスプライス抗原も含むことができる。Liepe et al.,A large fraction ofHLAclass I ligandsare proteasome− generated spliced peptides;Science.2016 Oct 21;354(6310):354−358を参照されたい。
本明細書で使用するところの「腫瘍新生抗原」という用語は、対象の腫瘍細胞または組織中に存在するが、対象の対応する正常細胞または組織中には存在しない新生抗原のことである。
本明細書において使用される場合、「新生抗原ベースのワクチン」という用語は、1つ以上の新生抗原、例えば複数の新生抗原に基づいたワクチンコンストラクトのことである。
本明細書において使用される場合、「候補新生抗原」という用語は、新生抗原を表しうる新たな配列を生じる変異、または他の異常のことである。
本明細書において使用される場合、「コード領域」という用語は、タンパク質をコード化する遺伝子の部分のことである。
本明細書において使用される場合、「コード変異」という用語は、コード領域で生じる変異のことである。
本明細書において使用される場合、「ORF」という用語は、オープンリーディングフレームを意味する。
本明細書において使用される場合、「新生ORF」という用語は、変異またはスプライシングなどの他の異常により生じる腫瘍特異的なORFのことである。
本明細書において使用される場合、「ミスセンス変異」という用語は、1つのアミノ酸から別のアミノ酸への置換を引き起こす変異である。
本明細書において使用される場合、「ナンセンス変異」という用語は、アミノ酸から終止コドンへの置換を引き起こす変異である。
本明細書において使用される場合、「フレームシフト変異」という用語は、タンパク質のフレームに変更を引き起こす変異である。
本明細書において使用される場合、「挿入欠失」という用語は、1つ以上の核酸の挿入または欠失である。
本明細書において使用される場合、2つ以上の核酸またはポリペプチドの配列との関連での「同一性」(%)という用語は、下記の配列比較アルゴリズム(例えば、BLASTP及びBLASTN、または当業者が利用可能な他のアルゴリズム)のうちの1つを用いて、または目視検査により測定される、最大の一致について比較し、整列させた場合に、ヌクレオチドまたはアミノ酸残基の特定のパーセンテージが同じである2つ以上の配列または部分配列のことを指す。用途に応じて、「同一性」(%)は、比較される配列の領域にわたって、例えば、機能ドメインにわたって存在するか、あるいは、比較される2つの配列の完全長にわたって存在することができる。
配列比較では、一般的に、1つの配列が、試験配列が比較される参照配列として機能する。配列比較アルゴリズムを用いる場合、試験配列及び参照配列をコンピュータに入力し、必要な場合には部分配列座標を指定し、配列アルゴリズムプログラムのパラメータを指定する。次いで、配列比較アルゴリズムが、指定されたプログラムパラメータに基づいて、参照配列に対する試験配列の配列同一性(%)を算出する。あるいは、配列の類似性または相違性は、選択された配列位置(例えば、配列モチーフ)における特定のヌクレオチドの、または翻訳後の配列ではアミノ酸の有無の組み合わせによって確立することもできる。
比較を行うための配列の最適なアラインメントは、例えば、Smith & Waterman,Adv.Appl.Math.2:482(1981)の局所相同性アルゴリズムによって、Needleman & Wunsch,J.Mol.Biol.48:443(1970)の相同性アラインメントアルゴリズムによって、Pearson & Lipman,Proc.Nat’l.Acad.Sci.USA 85:2444(1988)の類似性の探索法によって、これらのアルゴリズムのコンピュータ処理による実行(Wisconsin Genetics Software Package,Genetics Computer Group,575 Science Dr.,Madison,Wis.におけるGAP、BESTFIT、FASTA、及びTFASTA)によって、または目視検査によって実施することができる(一般的には、下記のAusubel et al.を参照)。
配列同一性(%)及び配列類似性(%)を決定するのに適したアルゴリズムの1つの例として、Altschul et al.,J.Mol.Biol.215:403−410(1990)に記載されるBLASTアルゴリズムがある。BLAST解析を行うためのソフトウェアは、National Center for Biotechnology Informationを通して公に入手可能である。
本明細書において使用される場合、「ノンストップまたはリードスルー」という用語は、天然の終止コドンの除去を引き起こす変異のことである。
本明細書において使用される場合、「エピトープ」という用語は、抗体またはT細胞受容体が一般的に結合する、抗原の特異的な部分のことである。
本明細書において使用される場合、「免疫原性」という用語は、例えば、T細胞、B細胞、またはその両方を介して免疫応答を誘発する能力のことである。
本明細書において使用される場合、「HLA結合親和性」、「MHC結合親和性」という用語は、特異的な抗原と特異的なMHCアレルとの結合の親和性を意味する。
本明細書において使用される場合、「ベイト」という用語は、DNAまたはRNAの特異的な配列を試料から濃縮するために使用される核酸プローブのことである。
本明細書において使用される場合、「変異」という用語は、対象の核酸と、対照として使用される参照ヒトゲノムとの差である。
本明細書において使用される場合、「変異コール」という用語は、典型的にはシークエンシングからの、変異の存在のアルゴリズム的決定である。
本明細書において使用される場合、「多型」という用語は、生殖細胞系列変異、すなわち、個体のすべてのDNA保有細胞において見出される変異である。
本明細書において使用される場合、「体細胞変異」という用語は、個体の非生殖系列細胞において生じる変異である。
本明細書において使用される場合、「アレル」という用語は、遺伝子の1つのバージョンまたは遺伝子配列の1つのバージョンまたはタンパク質の1つのバージョンのことである。
本明細書において使用される場合、「HLA型」という用語は、HLA遺伝子アレルの相補体のことである。
本明細書において使用される場合、「ナンセンス変異依存分解機構」または「NMD」という用語は、未成熟な終止コドンに起因する細胞によるmRNAの分解のことである。
本明細書において使用される場合、「トランカル変異(truncal mutation)」という用語は、腫瘍の発生の初期に生じ、腫瘍の細胞の大部分に存在する変異である。
本明細書において使用される場合、「サブクローナル変異」という用語は、腫瘍の発生において後期に生じ、腫瘍の細胞の一部のみに存在する変異である。
本明細書において使用される場合、「エクソーム」という用語は、タンパク質をコードするゲノムのサブセットである。エクソームは、ゲノムの集合的なエクソンでありうる。
本明細書において使用される場合、「ロジスティック回帰」という用語は、従属変数が1に等しい確率のロジットが従属変数の線形関数としてモデル化される、統計からのバイナリデータ用の回帰モデルである。
本明細書において使用される場合、「ニューラルネットワーク」という用語は、多層の線形変換に続いて一般的に確率的勾配降下法及び逆伝搬により訓練された要素ごとの非線形変換を行うことからなる分類または回帰のための機械学習モデルである。
本明細書において使用される場合、「プロテオーム」という用語は、細胞、細胞の群、または個体によって発現される、及び/または翻訳されるすべてのタンパク質のセットのことである。
本明細書において使用される場合、「ペプチドーム」という用語は、細胞表面上のMHC−IまたはMHC−IIによって提示されるすべてのペプチドのセットのことである。ペプチドームは、細胞または細胞の集合の性質を指す場合もある(例えば、腫瘍ペプチドームは、腫瘍を含むすべての細胞のペプチドームの和集合を意味する)。
本明細書において使用される場合、「ELISPOT」という用語は、ヒト及び動物において免疫応答を観察するための一般的な方法である、酵素結合免疫吸着スポットアッセイを意味する。
本明細書において使用される場合、「デキサトラマー」という用語は、フローサイトメトリーにおいて抗原特異的T細胞染色に使用される、デキストランベースのペプチド−MHCマルチマーである。
本明細書において使用される場合、「寛容または免疫寛容」という用語は、1つ以上の抗原、例えば、自己抗原に対する免疫不応答の状態のことである。
本明細書において使用される場合、「中枢性寛容」という用語は、自己反応性T細胞クローンを欠失させること、または自己反応性T細胞クローンの免疫抑制性制御性T細胞(Treg)への分化を促進することのいずれかにより、胸腺において与えられる寛容である。
本明細書において使用される場合、「末梢性寛容」という用語は、中枢性寛容を生き延びた自己反応性T細胞を下方制御もしくはアネルギー化すること、またはこれらのT細胞のTregへの分化を促進することにより、末梢系において与えられる寛容である。
「試料」という用語は、静脈穿刺、排泄、射精、マッサージ、生検、針吸引、洗浄試料、擦過、外科的切開、もしくは介入、または当技術分野において公知の他の手段を含む手段によって対象から採取された、単一細胞、または複数の細胞、または細胞の断片、または体液のアリコートを含むことができる。
「対象」という用語は、インビボ、エクスビボ、またはインビトロ、雄または雌のいずれかの、細胞、組織、または生物体、ヒトまたは非ヒトを包含する。対象という用語は、ヒトを含む哺乳動物を含める。
「哺乳動物」という用語は、ヒト及び非ヒトの両方を包含し、ヒト、非ヒト霊長類、イヌ、ネコ、マウス、ウシ、ウマ、及びブタを含むが、それらに限定されない。
「臨床的因子」という用語は、対象の状態、例えば、疾患の活性または重症度の測定を指す。「臨床的因子」は、非試料マーカーを含む、対象の健康状態のすべてのマーカー、ならびに/または、非限定的に年齢及び性別などの、対象の他の特徴を包含する。臨床的因子は、対象または所定の条件下の対象由来の試料(または試料の集団)の評定から取得され得るスコア、値、または値のセットであることができる。臨床的因子はまた、マーカー、及び/または遺伝子発現代替物などの他のパラメータによっても予測することができる。臨床的因子は、腫瘍タイプ、腫瘍サブタイプ、及び喫煙歴を含むことができる。
略語:MHC:主要組織適合性複合体;HLA:ヒト白血球抗原、またはヒトMHC遺伝子座;NGS:次世代シークエンシング;PPV:陽性適中率;TSNA:腫瘍特異的新生抗原;FFPE:ホルマリン固定パラフィン包埋;NMD:ナンセンス変異依存分解機構;NSCLC:非小細胞肺癌;DC:樹状細胞。
本明細書及び添付の特許請求の範囲において使用される場合、単数形「a」、「an」、及び「the」は、文脈によってそうでない旨が明示されない限り、複数の指示物を含む点に留意されたい。
本明細書において直接定義されていない用語は、本発明の技術分野の範囲内で理解されるような、一般的にそれらに付随する意味を有するものとして理解されるべきである。本発明の態様の組成物、装置、方法など、ならびにそれらの製造または使用法を説明するうえで実施者にさらなる手引きを与える目的で特定の用語が本明細書で検討される。同じものについて複数の言い方がなされうる点は認識されるであろう。したがって、代替的な語及び同義語が、本明細書で検討される用語の任意の1つ以上について用いられる場合がある。本明細書においてある用語が詳述または検討されているか否かに重きが置かれるべきではない。いくつかの同義語または代用可能な方法、材料などが提供される。1つまたは数個の同義語または均等物の記載は、明確に述べられない限り、他の同義語または均等物の使用を除外しない。用語の例を含む例の使用は、あくまで説明を目的としたものにすぎず、本明細書における発明の態様の範囲及び意味を限定しない。
本明細書の本文において引用されるすべての参照文献、発行特許、及び特許出願は、あらゆる目的でそれらの全容を参照により本明細書に援用するものである。
II.新生抗原を特定する方法
本明細書では、腫瘍の細胞表面上に提示される可能性が高い、及び/または免疫原性を有する可能性が高い、対象の腫瘍由来の新生抗原を特定するための方法を開示する。例として、かかる1つの方法は、対象の腫瘍細胞から、エクソーム、トランスクリプトーム、または全ゲノムの腫瘍ヌクレオチドシークエンシングデータのうちの少なくとも1つを取得する工程であって、前記腫瘍ヌクレオチドシークエンシングデータを用いて新生抗原のセットの各々のペプチド配列を表すデータが取得され、各新生抗原のペプチド配列が、ペプチド配列を対応する野生型の親ペプチド配列とは異なるものにする少なくとも1つの変化を含む、前記工程と、対象の腫瘍細胞の腫瘍細胞表面上の1つ以上のMHCアレルによって、または腫瘍内に存在する細胞によって新生抗原の各々が提示される数値的尤度のセットを生成するために、各新生抗原のペプチド配列を、1つ以上の提示モデルに入力する工程であって、前記数値的尤度のセットが、受け取った質量分析データに少なくとも基づいて特定されている、前記工程と、選択された新生抗原のセットを生成するために、前記新生抗原のセットのサブセットを、前記数値的尤度のセットに基づいて選択する工程と、を含む。
提示モデルは、対応するラベルのセットを含む参照データのセット(訓練データセットとも呼ばれる)で訓練された、統計学的回帰または機械学習(例えば、ディープラーニング)モデルを含むことができ、前記参照データのセットは、場合により一部の対象が腫瘍を有しうる複数の別個の対象の各々から取得され、また、前記参照データのセットは、腫瘍組織由来のエクソームヌクレオチド配列を表すデータ、正常組織由来のエクソームヌクレオチド配列を表すデータ、腫瘍組織由来のトランスクリプトームヌクレオチド配列を表すデータ、腫瘍組織由来のプロテオーム配列を表すデータ、及び腫瘍組織由来のMHCペプチドーム配列を表すデータ、及び正常組織由来のMHCペプチドーム配列を表すデータのうちの少なくとも1つを含む。参照データは、合成タンパク質、正常及び腫瘍ヒト細胞株、ならびに新鮮な及び凍結された初代試料に対してその後曝露される所定のMHCアレルを発現するように操作された単一アレル細胞株の質量分析データ、シークエンシングデータ、RNAシークエンシングデータ、及びプロテオミクスデータ、ならびにT細胞アッセイ(例えば、ELISPOT)をさらに含むことができる。特定の態様では、参照データのセットは、参照データの各形態を含む。
提示モデルは、参照データのセットに少なくとも一部由来する特性のセットを含むことができ、前記特性のセットは、アレル依存的特性及びアレル非依存的特性のうちの少なくとも1つを含む。特定の態様では、各特性が含まれる。
ナイーブT細胞に対する樹状細胞提示の特性は、上記の特性のうちの少なくとも1つを含むことができる。ワクチン中の抗原の用量及び種類(例えば、ペプチド、mRNA、ウイルスなど):(1)樹状細胞(DC)が抗原タイプを取り込む経路(例えば、エンドサイトーシス、マイクロピノサイトーシス);及び/または(2)抗原がDCにより取り込まれる効率。ワクチン中のアジュバントの用量及び種類。ワクチン抗原配列の長さ。ワクチン投与の回数及び部位。ベースラインの患者の免疫機能(例えば、最近の感染の既往歴、血球数などによって測定される)。RNAワクチンについては、(1)樹状細胞内のmRNAタンパク質産物の代謝回転速度、(2)インビトロまたはインビボ実験により測定される、樹状細胞による取り込み後のmRNAの翻訳速度、ならびに/または(3)インビボまたはインビトロ実験により測定される、樹状細胞による取り込み後のmRNAの翻訳の数またはラウンド。場合により、樹状細胞で典型的に発現しているプロテアーゼ(例えばRNA−seqまたは質量分析によって測定される)にさらなる重みを与える、ペプチド内のプロテアーゼ切断モチーフの存在。典型的な活性化樹状細胞におけるプロテアソーム及びイムノプロテアソームの発現のレベル(RNA−seq、質量分析、免疫組織化学、または他の標準的な技法によって測定することができる)。場合により活性化樹状細胞または他の免疫細胞で具体的に測定される、対象とされる個体における特定のMHCアレルの発現レベル(例えばRNA−seqまたは質量分析によって測定される)。場合により活性化樹状細胞または他の免疫細胞で具体的に測定される、特定のMHCアレルを発現する他の個体における特定のMHCアレルによるペプチド提示の確率。場合により活性化樹状細胞または他の免疫細胞で具体的に測定される、他の個体内の同じ分子のファミリー(例えば、HLA−A、HLA−B、HLA−C、HLA−DQ、HLA−DR、HLA−DP)のMHCアレルによるペプチド提示の確率。
免疫寛容逃避特性は、以下のうちの少なくとも1つを含むことができる:1つまたはいくつかの細胞タイプに対して行われるタンパク質質量分析による自己ペプチドームの直接測定。自己タンパク質の全kマー(例えば、5〜25)の部分文字列の和集合を取ることによる、自己ペプチドームの推定。場合により生殖細胞系列変異を説明する、すべての非変異自己タンパク質に適用された上記の提示モデルに類似した提示のモデルを用いた、自己ペプチドームの推定。
ランク付けは、数値的尤度に少なくとも一部基づく少なくとも1つのモデルによって与えられる複数の新生抗原を用いて行うことができる。ランク付けの後に、選択を行ってランク付けされた新生抗原のサブセットを選択基準にしたがって選択することができる。選択後に、ランク付けされたペプチドのサブセットを出力として与えることができる。
選択された新生抗原のセットの数は、20個とすることができる。
提示モデルは、MHCアレルのうちの特定の1つとペプチド配列の特定の位置の特定のアミノ酸とのペアの存在と、ペアのMHCアレルのうちの特定の1つによる、特定の位置に特定のアミノ酸を含むかかるペプチド配列の腫瘍細胞表面上の提示の尤度との間の依存性を表すことができる。
本明細書に開示される方法はまた、対応する新生抗原のペプチド配列のアミノ酸の少なくとも位置に基づいて、対応する新生抗原をMHCアレルが提示するかどうかを示す依存性スコアを、1つ以上のMHCアレルのそれぞれについて生成するために、1つ以上の提示モデルを、対応する新生抗原のペプチド配列に適用することを含んでもよい。
本明細書に開示される方法はまた、対応する新生抗原を対応するMHCアレルが提示する尤度を示す、対応するアレル毎尤度を、各MHCアレルについて生成するために、依存性スコアを変換すること;及び数値的尤度を生成するために、アレル毎尤度を組み合わせること、を含んでもよい。
依存性スコアを変換する工程は、対応する新生抗原のペプチド配列の提示を相互排他的としてモデル化することができる。
本明細書に開示される方法はまた、依存性スコアの組み合わせを変換して数値的尤度を生成することをさらに含んでもよい。
依存性スコアの組み合わせを変換する工程は、対応する新生抗原のペプチド配列の提示をMHCアレル間の干渉としてモデル化することができる。
数値的尤度のセットは、少なくともアレル非相互作用特性によってさらに特定することができ、本明細書に開示する方法はまた、アレル非相互作用特性に基づいて、対応する新生抗原のペプチド配列が提示されるかどうかを示す、アレル非相互作用特性についての依存性スコアを生成するために、1つ以上の提示モデルのうちのアレル非相互作用モデルをアレル非相互作用特性に適用することを含んでもよい。
本明細書に開示される方法はまた、1つ以上のMHCアレルにおける各MHCアレルについての依存性スコアを、アレル非相互作用特性についての依存性スコアと組み合わせること;対応する新生抗原を対応するMHCアレルが提示する尤度を示す、MHCアレルについての対応するアレル毎尤度を生成するために、各MHCアレルについての組み合わされた依存性スコアを変換すること;及び数値的尤度を生成するために、アレル毎尤度を組み合わせること、を含んでもよい。
本明細書に開示される方法はまた、MHCアレルの各々についての依存性スコアと、アレル非相互作用特性についての依存性スコアとの組み合わせを変換することにより、数値的尤度を生成することを含んでもよい。
提示モデルについての数値的パラメータのセットは、複数の試料中に存在すると特定された訓練ペプチド配列のセット、及び各訓練ペプチド配列に関連する1つ以上のMHCアレルを少なくとも含む訓練データセットに基づいて訓練することができ、訓練ペプチド配列は、複数の試料に由来するMHCアレルから溶出された単離ペプチドの質量分析により特定される。
試料はまた、単一のMHCクラスIまたはクラスIIアレルを発現するように操作された細胞株を含んでもよい。
試料はまた、複数のMHCクラスIまたはクラスIIアレルを発現するように操作された細胞株を含んでもよい。
試料はまた、複数の患者から得られた、または複数の患者に由来するヒト細胞株を含んでもよい。
試料はまた、複数の患者から得られた新鮮な、または凍結された腫瘍試料を含んでもよい。
試料はまた、複数の患者から得られた新鮮な、または凍結された組織試料を含んでもよい。
試料はまた、T細胞アッセイを用いて特定されたペプチドも含んでもよい。
訓練データセットは、試料中に存在する訓練ペプチドのセットのペプチド存在量;試料における訓練ペプチドのセットのペプチド長に関連するデータをさらに含むことができる。
訓練データセットは、既知のタンパク質配列のセットを含むデータベースとのアラインメントにより訓練ペプチド配列のセットを比較することによって生成することができ、訓練タンパク質配列のセットは、訓練ペプチド配列よりも長く、かつ訓練ペプチド配列を含む。
訓練データセットは、細胞株からエクソーム、トランスクリプトーム、または全ゲノムのシークエンシングデータのうちの少なくとも1つを取得するために細胞株に対してヌクレオチドシークエンシングを行うか、またはヌクレオチドシークエンシングがこれまでに行われていることに基づいて生成されてもよく、シークエンシングデータは、変化を含む少なくとも1つのヌクレオチド配列を含む。
訓練データセットは、正常組織試料からエクソーム、トランスクリプトーム、または全ゲノムの正常ヌクレオチドシークエンシングデータのうちの少なくとも1つを取得することに基づいて生成されてもよい。
訓練データセットは、試料に関連するプロテオーム配列に関連するデータをさらに含んでもよい。
訓練データセットは、試料に関連するMHCペプチドーム配列に関連するデータをさらに含んでもよい。
訓練データセットは、単離されたペプチドのうちの少なくとも1つについてのペプチド−MHC結合親和性の測定値に関連するデータをさらに含んでもよい。
訓練データセットは、単離されたペプチドのうちの少なくとも1つについてのペプチド−MHC結合安定性の測定値に関連するデータをさらに含んでもよい。
訓練データセットは、試料に関連するトランスクリプトームに関連するデータをさらに含んでもよい。
訓練データセットは、試料に関連するゲノムに関連するデータをさらに含んでもよい。
訓練ペプチド配列は、kマー(kは、MHCクラスIでは8以上15以下、または、MHCクラスIIでは6以上30以下である)の範囲内の長さとすることができる。
本明細書に開示する方法はまた、ワン・ホット(one−hot)エンコーディングスキームを用いてペプチド配列をコード化することを含んでもよい。
本明細書に開示される方法はまた、レフトパディング(left−padded)ワン・ホットエンコーディングスキームを用いて訓練ペプチド配列をコードすることを含んでもよい。
請求項1に記載の工程を行うことを含み、選択された新生抗原のセットを含む腫瘍ワクチンを得る工程と、腫瘍ワクチンを対象に投与する工程と、をさらに含む、腫瘍を有する対象を治療する方法。
本明細書ではまた、腫瘍ワクチンを製造するための方法であって、対象の腫瘍細胞から、エクソーム、トランスクリプトーム、または全ゲノムの腫瘍ヌクレオチドシークエンシングデータのうちの少なくとも1つを取得する工程であって、前記腫瘍ヌクレオチドシークエンシングデータを用いて新生抗原のセットの各々のペプチド配列を表すデータが取得され、各新生抗原のペプチド配列が、ペプチド配列を対応する野生型の親ペプチド配列とは異なるものにする少なくとも1つの変異を含む、工程と、各新生抗原のペプチド配列を1つ以上の提示モデルに入力することにより、前記新生抗原のそれぞれが前記対象の前記腫瘍細胞の前記腫瘍細胞表面上の1つ以上のMHCアレルによって提示される数値的尤度のセットを生成する工程であって、前記数値的尤度のセットが、受け取られた質量分析データに少なくとも基づいて特定されたものである、工程と、前記新生抗原のセットのサブセットを、前記数値的尤度のセットに基づいて選択することにより、選択された新生抗原のセットを生成する工程と、前記選択された新生抗原のセットを含む腫瘍ワクチンを生産するか、またはこれまでに生産している工程と、を含む方法も開示される。
本明細書ではまた、対象の腫瘍細胞から、エクソーム、トランスクリプトーム、または全ゲノムの腫瘍ヌクレオチドシークエンシングデータのうちの少なくとも1つを取得する工程であって、前記腫瘍ヌクレオチドシークエンシングデータを用いて新生抗原のセットの各々のペプチド配列を表すデータが取得され、各新生抗原のペプチド配列が、ペプチド配列を対応する野生型の親ペプチド配列とは異なるものにする少なくとも1つの変異を含む、工程と、各新生抗原のペプチド配列を1つ以上の提示モデルに入力することにより、前記新生抗原のそれぞれが前記対象の前記腫瘍細胞の前記腫瘍細胞表面上の1つ以上のMHCアレルによって提示される数値的尤度のセットを生成する工程であって、前記数値的尤度のセットが、受け取られた質量分析データに少なくとも基づいて特定されたものである、工程と、前記新生抗原のセットのサブセットを、前記数値的尤度のセットに基づいて選択することにより、選択された新生抗原のセットを生成する工程と、前記選択された新生抗原のセットを含む腫瘍ワクチンを生産するか、またはこれまでに生産している工程と、を含む方法を実行することによって選択された、選択された新生抗原のセットを含む腫瘍ワクチンも提供される。
腫瘍ワクチンは、ヌクレオチド配列、ポリペプチド配列、RNA、DNA、細胞、プラスミド、またはベクターのうちの1つ以上を含んでもよい。
腫瘍ワクチンは、腫瘍細胞表面上に提示された1つ以上の新生抗原を含んでもよい。
腫瘍ワクチンは、対象において免疫原性を示す1つ以上の新生抗原を含んでもよい。
腫瘍ワクチンは、対象において正常組織に対する自己免疫応答を誘導する、1つ以上の新生抗原を含まなくともよい。
腫瘍ワクチンは、アジュバントを含んでもよい。
腫瘍ワクチンは、賦形剤を含んでもよい。
本明細書に開示される方法はまた、提示モデルに基づいて選択されない新生抗原に対して腫瘍細胞表面上に提示される尤度が増大している新生抗原を選択することを含んでもよい。
本明細書に開示される方法はまた、提示モデルに基づいて選択されない新生抗原に対して対象に腫瘍特異的な免疫応答を誘導することができる尤度が増大している新生抗原を選択することを含んでもよい。
本明細書に開示される方法はまた、提示モデルに基づいて選択されない新生抗原に対してプロフェッショナル抗原提示細胞(APC)によってナイーブT細胞に対して提示されることができる尤度が増大している新生抗原を選択することを含んでもよく、場合により、APCは樹状細胞(DC)である。
本明細書に開示される方法はまた、提示モデルに基づいて選択されない新生抗原に対して中枢性寛容または末梢性寛容によって阻害される尤度が減少している新生抗原を選択することを含んでもよい。
本明細書に開示される方法はまた、提示モデルに基づいて選択されない新生抗原に対して対象に正常組織に対する自己免疫応答を誘導することができる尤度が減少している新生抗原を選択することを含んでもよい。
エクソームまたはトランスクリプトームのヌクレオチドシークエンシングデータは、腫瘍組織でシークエンシングを行うことによって取得することができる。
シークエンシングは、次世代シークエンシング(NGS)または任意の大規模並列処理シークエンシングアプローチであってもよい。
数値的尤度のセットは、以下のうちの少なくとも1つを含む少なくともMHCアレル相互作用特性によってさらに特定することができる。すなわち、MHCアレルと新生抗原コード化ペプチドとが結合する予測親和性;新生抗原コード化ペプチド−MHC複合体の予測安定性;新生抗原コード化ペプチドの配列及び長さ;質量分析プロテオミクスまたは他の手段によって評価される、特定のMHCアレルを発現する他の個体由来の細胞の類似した配列を有する新生抗原コード化ペプチドの提示の確率;対象とされる対象の特定のMHCアレルの発現レベル(例えば、RNA−seqまたは質量分析によって測定される);特定のMHCアレルを発現する他の別個の個体における、特定のMHCアレルによる提示の、全体的な新生抗原コード化ペプチド配列とは独立した確率;他の別個の対象における、同じ分子のファミリー(例えば、HLA−A、HLA−B、HLA−C、HLA−DQ、HLA−DR、HLA−DP)のMHCアレルによる提示の、全体的な新生抗原コード化ペプチド配列とは独立した確率。
数値的尤度のセットは、以下のうちの少なくとも1つを含む少なくともMHCアレル非相互作用特性によってさらに特定される。すなわち、そのソースタンパク質配列内の、新生抗原コード化ペプチドに隣接するC末端及びN末端配列;場合により、腫瘍細胞内の対応するプロテアーゼの発現(RNA−seqまたは質量分析によって測定される)にしたがって重み付けされる、新生抗原コード化ペプチド内のプロテアーゼ切断モチーフの存在;適切な細胞タイプにおいて測定されるソースタンパク質の代謝回転速度;RNA−seqもしくはプロテオーム質量分析によって測定される、または、DNAもしくはRNA配列データにおいて検出される生殖細胞系列もしくは体細胞系列スプライシング変異のアノテーションから予測される、腫瘍細胞に最も高発現している特定のスプライス変異体(「アイソフォーム」)を場合により考慮した、ソースタンパク質の長さ;腫瘍細胞におけるプロテアソーム、イムノプロテアソーム、胸腺プロテアソーム、または他のプロテアーゼの発現のレベル(RNA−seq、プロテオーム質量分析、または免疫組織化学によって測定することができる);新生抗原コード化ペプチドのソース遺伝子の発現(例えば、RNA−seqまたは質量分析によって測定される);細胞周期の異なる段階における新生抗原コード化ペプチドのソース遺伝子の典型的な組織特異的発現;例えば、uniProtまたはPDB http://www.rcsb.org/pdb/home/home.doにみることができるような、ソースタンパク質及び/またはそのドメインの特性の包括的なカタログ;ペプチドを含むソースタンパク質のドメインの性質を説明する特性、例えば、二次構造または三次構造(例えば、βシートに対するαヘリックス);選択的スプライシング;他の別個の対象における、対象とされる新生抗原コード化ペプチドのソースタンパク質に由来するペプチドの提示の確率;ペプチドが、技術的バイアスのために質量分析によって検出されないか、または過剰に表現される確率;腫瘍細胞、間質、または腫瘍浸潤リンパ球(TIL)の状態について情報を与える、RNASeqによって測定される、種々の遺伝子モジュール/経路の発現(ペプチドのソースタンパク質を含む必要はない);腫瘍細胞内の新生抗原コード化ペプチドのソース遺伝子のコピー数;ペプチドがTAPに結合する確率、またはTAPに対するペプチドの測定または予測される結合親和性;腫瘍細胞におけるTAPの発現レベル(RNA−seq、プロテオーム質量分析、免疫組織化学によって測定することができる);以下を含むがただしこれらに限定されない、腫瘍変異の有無:EGFR、KRAS、ALK、RET、ROS1、TP53、CDKN2A、CDKN2B、NTRK1、NTRK2、NTRK3などの公知のがんドライバー遺伝子におけるドライバー変異、及び抗原提示マシナリーに関与するタンパク質をコードする遺伝子(例えば、B2M、HLA−A、HLA−B、HLA−C、TAP−1、TAP−2、TAPBP、CALR、CNX、ERP57、HLA−DM、HLA−DMA、HLA−DMB、HLA−DO、HLA−DOA、HLA−DOB、HLA−DP、HLA−DPA1、HLA−DPB1、HLA−DQ、HLA−DQA1、HLA−DQA2、HLA−DQB1、HLA−DQB2、HLA−DR、HLA−DRA、HLA−DRB1、HLA−DRB3、HLA−DRB4、HLA−DRB5、または、プロテアソームもしくはイムノプロテアソームの構成要素をコードする遺伝子のいずれか)における変異。その提示が、腫瘍において機能喪失変異を生ずる抗原提示マシナリーの構成要素に依存するペプチドは、提示の確率が低い;以下を含むがただしこれらに限定されない、機能的生殖細胞系列多型の有無:抗原提示マシナリーに関与するタンパク質をコードする遺伝子(例えば、B2M、HLA−A、HLA−B、HLA−C、TAP−1、TAP−2、TAPBP、CALR、CNX、ERP57、HLA−DM、HLA−DMA、HLA−DMB、HLA−DO、HLA−DOA、HLA−DOB、HLA−DP、HLA−DPA1、HLA−DPB1、HLA−DQ、HLA−DQA1、HLA−DQA2、HLA−DQB1、HLA−DQB2、HLA−DR、HLA−DRA、HLA−DRB1、HLA−DRB3、HLA−DRB4、HLA−DRB5、または、プロテアソームもしくはイムノプロテアソームの構成要素をコードする遺伝子のいずれか)における多型;腫瘍タイプ(例えば、NSCLC、メラノーマ);臨床的腫瘍サブタイプ(例えば、扁平上皮肺癌対非扁平上皮);喫煙歴;場合によりドライバー変異によって層別化される、関連する腫瘍タイプまたは臨床的サブタイプにおけるペプチドのソース遺伝子の典型的な発現。
少なくとも1つの変異は、フレームシフトもしくは非フレームシフト挿入欠失、ミスセンスもしくはナンセンス置換、スプライス部位変化、ゲノム再編成もしくは遺伝子融合、または、新生ORFを生じる任意のゲノム変化もしくは発現変化であってよい。
腫瘍細胞は、肺癌、メラノーマ、乳癌、卵巣癌、前立腺癌、腎臓癌、胃癌、結腸癌、精巣癌、頭頸部癌、膵臓癌、脳癌、B細胞リンパ腫、急性骨髄性白血病、慢性骨髄性白血病、慢性リンパ球性白血病、及びT細胞リンパ球性白血病、非小細胞肺癌、及び小細胞肺癌からなる群から選択することができる。
本明細書に開示される方法はまた、選択された新生抗原のセットまたはそのサブセットを含む腫瘍ワクチンを得ることを含んでもよく、場合により腫瘍ワクチンを対象に投与することをさらに含む。
選択された新生抗原のセット内の新生抗原の少なくとも1つは、ポリペプチド形態である場合、以下のうちの少なくとも1つを含んでもよい:IC50値が1000nM未満のMHCとの結合親和性、MHCクラスIのポリペプチドではアミノ酸8〜15個、8、9、10、11、12、13、14、または15個の長さ、MHCクラスIIのポリペプチドではアミノ酸6〜30、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、または30個の長さ、プロテアソーム切断を促進する、親タンパク質配列中のポリペプチド内またはその近くの配列モチーフの存在、及び、TAP輸送を促進する配列モチーフの存在。MHCクラスIIでは、細胞外またはリソソームプロテアーゼ(例えば、カテプシン類)による切断またはHLA−DMにより触媒されるHLA結合を促進するペプチド内またはその近くの配列モチーフの存在。
本明細書ではまた、腫瘍細胞の腫瘍細胞表面上に提示される可能性が高い1つ以上の新生抗原を特定するためのモデルを生成するための方法であって、複数の試料に由来する主要組織適合性複合体(MHC)から溶出された複数の単離ペプチドに関連するデータを含む質量分析データを受け取る工程と、試料中に存在する訓練ペプチド配列のセット及び各訓練ペプチド配列に関連する1つ以上のMHCを少なくとも特定することにより、訓練データセットを取得する工程と、前記訓練ペプチド配列を含む訓練データセットを用いて、提示モデルの数値的パラメータのセットを訓練する工程であって、前記提示モデルが、腫瘍細胞表面上の1つ以上のMHCアレルによって腫瘍細胞由来のペプチド配列が提示される複数の数値的尤度を与える、工程と、を含む方法も開示される。
提示モデルは、ペプチド配列の特定の位置の特定のアミノ酸の存在と、特定の位置に特定のアミノ酸を有するペプチド配列の、腫瘍細胞上のMHCアレルのうちの1つによる提示の尤度との間の依存性を表すことができる。
試料はまた、単一のMHCクラスIまたはクラスIIアレルを発現するように操作された細胞株を含んでもよい。
試料はまた、複数のMHCクラスIまたはクラスIIアレルを発現するように操作された細胞株を含んでもよい。
試料はまた、複数の患者から得られた、または複数の患者に由来するヒト細胞株を含んでもよい。
試料はまた、複数の患者から得られた新鮮な、または凍結された腫瘍試料を含んでもよい。
試料はまた、T細胞アッセイを用いて特定されたペプチドも含んでもよい。
訓練データセットは、試料中に存在する訓練ペプチドのセットのペプチド存在量;試料中の訓練ペプチドのセットのペプチド長に関連するデータをさらに含むことができる。
本明細書に開示される方法はまた、既知のタンパク質配列のセットを含むデータベースとのアラインメントにより訓練ペプチド配列のセットを比較することによって、訓練ペプチド配列に基づいて、訓練ペプチド配列よりも長くかつ訓練ペプチド配列を含む訓練タンパク質配列のセットを取得することを含んでもよい。
本明細書に開示される方法はまた、細胞株からエクソーム、トランスクリプトーム、または全ゲノムのヌクレオチドシークエンシングデータのうちの少なくとも1つを取得するために、細胞株に対して質量分析を行うかまたは質量分析がこれまでに行われていることを含んでもよく、前記ヌクレオチドシークエンシングデータは、変異を含む少なくとも1つのタンパク質配列を含む。
本明細書に開示される方法はまた、ワン・ホット(one−hot)エンコーディングスキームを用いて訓練ペプチド配列をコード化することを含んでもよい。
本明細書に開示される方法はまた、正常組織試料からエクソーム、トランスクリプトーム、及び全ゲノムの正常ヌクレオチドシークエンシングデータのうちの少なくとも1つを取得することと、前記正常ヌクレオチドシークエンシングデータを用いて、提示モデルのパラメータのセットを訓練することと、を含むことができる。
訓練データセットは、試料に関連するプロテオーム配列に関連するデータをさらに含んでもよい。
訓練データセットは、試料に関連するMHCペプチドーム配列に関連するデータをさらに含んでもよい。
訓練データセットは、単離されたペプチドのうちの少なくとも1つについてのペプチド−MHC結合親和性の測定値に関連するデータをさらに含んでもよい。
訓練データセットは、単離されたペプチドのうちの少なくとも1つについてのペプチド−MHC結合安定性の測定値に関連するデータをさらに含んでもよい。
訓練データセットは、試料に関連するトランスクリプトームに関連するデータをさらに含んでもよい。
訓練データセットは、試料に関連するゲノムに関連するデータをさらに含んでもよい。
本明細書に開示される方法はまた、パラメータのセットのロジスティック回帰を行うことを含んでもよい。
訓練ペプチド配列は、kマー(kは、MHCクラスIでは8以上15以下、または、MHCクラスIIでは6以上30以下である)の範囲内の長さとすることができる。
本明細書に開示される方法はまた、レフトパディング(left−padded)ワン・ホットエンコーディングスキームを用いて訓練ペプチド配列をコードすることを含んでもよい。
本明細書に開示される方法はまた、ディープラーニングアルゴリズムを用いてパラメータのセットについて値を決定することを含んでもよい。
本明細書では、腫瘍細胞の腫瘍細胞表面上に提示される可能性が高い1つ以上の新生抗原を特定するための方法であって、複数の新鮮なまたは凍結得様試料に由来する主要組織適合性複合体(MHC)から溶出された複数の単離ペプチドに関連するデータを含む質量分析データを受け取る工程と、腫瘍試料中に存在し、各訓練ペプチド配列に関連する1つ以上のMHCアレル上に提示される訓練ペプチド配列のセットを少なくとも特定することにより、訓練データセットを取得する工程と、前記訓練ペプチド配列に基づいて、訓練タンパク質配列のセットを取得する工程と、前記訓練タンパク質配列及び前記訓練ペプチド配列を用いて、提示モデルの数値的パラメータのセットを訓練する工程であって、前記提示モデルが、腫瘍細胞表面上の1つ以上のMHCアレルによって腫瘍細胞由来のペプチド配列が提示される複数の数値的尤度を与える、工程と、を含む方法が開示される。
提示モデルは、MHCアレルのうちの特定の1つとペプチド配列の特定の位置の特定のアミノ酸とのペアの存在と、前記ペアの前記MHCアレルのうちの特定の1つによる、前記特定の位置に前記特定のアミノ酸を含むそのようなペプチド配列の腫瘍細胞表面上での提示の尤度と、の間の依存性を表すことができる。
本明細書に開示される方法はまた、新生抗原のサブセットを選択することを含んでもよく、新生抗原のサブセットは、それぞれが1つ以上の別個の腫瘍新生抗原に対して、腫瘍の細胞表面上に提示される尤度が増大していることから選択される。
本明細書に開示される方法はまた、新生抗原のサブセットを選択することを含んでもよく、新生抗原のサブセットは、それぞれが1つ以上の別個の腫瘍新生抗原に対して、対象に腫瘍特異的な免疫応答を誘導することができる尤度が増大していることから選択される。
本明細書に開示される方法はまた、新生抗原のサブセットを選択することを含んでもよく、新生抗原のサブセットは、それぞれが1つ以上の別個の腫瘍新生抗原に対して、プロフェッショナル抗原提示細胞(APC)によってナイーブT細胞に対して提示されることができる尤度が増大していることから選択され、場合により、APCは樹状細胞(DC)である。
本明細書に開示される方法はまた、新生抗原のサブセットを選択することを含んでもよく、新生抗原のサブセットは、それぞれが1つ以上の別個の腫瘍新生抗原に対して、中枢性寛容または末梢性寛容により阻害される尤度が減少していることから選択される。
本明細書に開示する方法はまた、新生抗原のサブセットを選択することを含んでもよく、新生抗原のサブセットは、それぞれが1つ以上の別個の腫瘍新生抗原に対して、対象に正常組織に対する自己免疫応答を誘導することができる尤度が減少していることから選択される。
本明細書に開示する方法はまた、新生抗原のサブセットを選択することを含んでもよく、新生抗原のサブセットは、それぞれがAPCに対して腫瘍細胞において差次的に翻訳後修飾される尤度が減少していることから選択され、場合により、APCは樹状細胞(DC)である。
本明細書における方法の実施においては、特に断らない限り、当該技術分野における技能の範囲内のタンパク質化学、生化学、組換えDNA技術及び薬理学の従来の方法を使用する。かかる技術は文献に充分な説明がなされている。例えば、T.E.Creighton,Proteins:Structures and Molecular Properties(W.H.Freeman and Company,1993);A.L.Lehninger,Biochemistry(Worth Publishers,Inc.,current addition);Sambrook,et al.,Molecular Cloning:A Laboratory Manual(2nd Edition,1989);Methods In Enzymology(S.Colowick and N.Kaplan eds.,Academic Press,Inc.);Remington’s Pharmaceutical Sciences,18th Edition(Easton,Pennsylvania:Mack Publishing Company,1990);Carey and Sundberg Advanced Organic Chemistry 3rd Ed.(Plenum Press)Vols A and B(1992)を参照されたい。
提示尤度のセットは、新生抗原のセットのソース遺伝子に基づいて生成することもできる。
提示尤度のセットは、新生抗原のセットのソース遺伝子及びソース組織タイプに基づいて生成することもできる。
本明細書に開示される方法は、新生抗原ワクチンを用いる治療に適した患者のサブセットを特定することを含んでもよく、工程は以下を含む:
患者の腫瘍細胞からエクソーム、トランスクリプトーム、または全ゲノムの腫瘍ヌクレオチドシークエンシングデータのうちの少なくとも1つをそれぞれの患者について取得することであって、腫瘍ヌクレオチドシークエンシングデータが、新生抗原のセットのそれぞれのペプチド配列を取得するために用いられ、各新生抗原のペプチド配列が、それを対応する野生型の親ペプチド配列とは異なるものとする少なくとも1つの変化を含む、前記取得することと、
新生抗原のセットのそれぞれのペプチド配列を、1つ以上の提示モデルに入力することにより、患者について新生抗原のセットについての数値的提示尤度のセットをそれぞれの患者について生成することであって、提示尤度のセットが、新生抗原のセットのそれぞれが患者の腫瘍細胞の表面上の1つ以上のMHCアレルによって提示される尤度を表し、提示尤度のセットが、少なくとも受け取った質量分析データに基づいて特定されたものである、前記生成することと、
患者の新生抗原のセットから新生抗原の治療サブセットをそれぞれの患者について特定することであって、治療サブセットが、その患者について生成された提示尤度のセット内の最も高い提示尤度を有する所定の数の新生抗原に対応する、前記特定することと、
新生抗原ワクチンを用いる治療に適した患者のサブセットを選択することであって、患者の選択されるサブセットが、選択されたサブセット内の各患者について取得された新生抗原のセットに基づく、または腫瘍ヌクレオチドシークエンシングデータに基づく組み入れ基準を満たす、前記選択すること。
本明細書に開示される方法は、患者の選択されたサブセット内の各患者を対応する新生抗原ワクチンを用いて治療することを含んでもよく、患者に対する新生抗原ワクチンは、患者についての提示尤度のセットにより特定された治療サブセットを含む。
本明細書に開示される方法は、最小閾値よりも高い腫瘍変異負荷(TMB)を有する患者のサブセットを選択することを含んでもよく、ある患者のTMBは、その患者に関連付けられた新生抗原のセット内の新生抗原の数を示す。
本明細書に開示される方法は、患者の治療サブセットからの提示される新生抗原の推定数の尺度を示す有用性スコアを、それぞれの患者について特定すること;及び最小閾値よりも高い有用性スコアを有する患者のサブセットを選択すること、を含んでもよい。
新生抗原の提示は、ベルヌーイランダム変数としてモデル化することができ、有用性スコアは、患者についての治療サブセットにおける提示新生抗原の期待数を表すことができ、有用性スコアは、患者の治療サブセットにおける各新生抗原についての提示尤度の総和によって与えられ得る。
新生抗原の提示は、ポアソン二項ランダム変数としてモデル化することもでき、有用性スコアは、患者についての治療サブセットにおける提示新生抗原の数が最小閾値を上回る確率であることができる。
III.新生抗原における腫瘍特異的変異の特定
また、ある特定の変異(例えば、がん細胞中に存在する変異またはアレル)の特定のための方法も、本明細書に開示する。特に、これらの変異は、がんを有する対象のがん細胞のゲノム、トランスクリプトーム、プロテオーム、またはエクソーム中に存在し得るが、対象由来の正常組織には存在し得ない。
腫瘍における遺伝子変異は、それらが腫瘍において排他的にタンパク質のアミノ酸配列における変更をもたらす場合、腫瘍の免疫学的ターゲティングに有用と考えることができる。有用な変異は、以下を含む:(1)タンパク質において異なるアミノ酸をもたらす非同義変異;(2)C末端に新規の腫瘍特異的配列を有する、より長いタンパク質の翻訳をもたらす、終止コドンが修飾されているかまたは欠失しているリードスルー変異;(3)成熟mRNAにおけるイントロンの包含、したがって固有の腫瘍特異的タンパク質配列をもたらす、スプライス部位変異;(4)2種類のタンパク質の接合部に腫瘍特異的配列を有するキメラタンパク質を生じる、染色体再編成(すなわち、遺伝子融合);(5)新規の腫瘍特異的タンパク質配列を有する新たなオープンリーディングフレームをもたらす、フレームシフト変異または欠失。変異はまた、非フレームシフト挿入欠失、ミスセンスもしくはナンセンス置換、スプライス部位変化、ゲノム再編成もしくは遺伝子融合、または、新生ORFを生じる任意のゲノム変化もしくは発現変化のうちの1つ以上も含むことができる。
例えば、腫瘍細胞におけるスプライス部位、フレームシフト、リードスルー、または遺伝子融合の変異から生じた、変異を有するペプチドまたは変異したポリペプチドは、腫瘍対正常細胞において、DNA、RNA、またはタンパク質をシークエンシングすることによって特定することができる。
また、変異は、以前に特定された腫瘍特異的変異を含むことができる。公知の腫瘍変異は、Catalogue of Somatic Mutations in Cancer(COSMIC)データベースで見出すことができる。
様々な方法を、個体のDNAまたはRNAにおいて特定の変異またはアレルの存在を検出するために利用可能である。この分野における進歩は、正確で、容易な、かつ安価な大規模SNP遺伝子型判定を提供している。例えば、動的アレル特異的ハイブリダイゼーション(DASH)、マイクロプレートアレイ対角線ゲル電気泳動(MADGE)、パイロシークエンシング、オリゴヌクレオチド特異的ライゲーション、TaqManシステム、及びAffymetrix SNPチップなどの種々のDNA「チップ」技術を含むいくつかの技法が、記載されている。これらの方法は、典型的にはPCRによる、標的遺伝子領域の増幅を利用する。さらに他の方法は、侵襲性切断による小さなシグナル分子の生成及びその後の質量分析、または、固定化されたパッドロックプローブ及びローリングサークル増幅に基づく。特異的な変異を検出するための、当技術分野において公知の方法のいくつかを、下記に要約する。
PCRベースの検出手段は、多数のマーカーの多重増幅を同時に含むことができる。例えば、サイズがオーバーラップせず、同時に解析することができるPCR産物を生成するようにPCRプライマーを選択することが、当技術分野において周知である。あるいは、差次的にラベル化され、したがって、各々を差次的に検出することができるプライマーで異なるマーカーを増幅することが可能である。当然、ハイブリダイゼーションベースの検出手段により、試料における複数のPCR産物の差次的な検出が可能になる。複数のマーカーの多重解析を可能にする他の技法が、当技術分野において公知である。
いくつかの方法が、ゲノムDNAまたは細胞RNAにおける単一ヌクレオチド多型の解析を容易にするために開発されている。例えば、一塩基多型は、例えば、Mundy,C.R.(米国特許第4,656,127号)において開示されているような、特化されたエキソヌクレアーゼ抵抗性ヌクレオチドを用いることによって検出することができる。この方法にしたがって、多型部位のすぐ3’のアレル配列に対して相補的なプライマーを、特定の動物またはヒトから取得された標的分子に対してハイブリダイズさせる。標的分子上の多型部位が、存在する特定のエキソヌクレアーゼ抵抗性ヌクレオチド誘導体に対して相補的であるヌクレオチドを含有する場合、その誘導体は、ハイブリダイズされたプライマーの末端上に組み込まれる。そのような組み込みのために、プライマーはエキソヌクレアーゼに対して抵抗性になり、それによりその検出が可能になる。試料のエキソヌクレアーゼ抵抗性誘導体の同一性は既知であるため、プライマーがエキソヌクレアーゼに対して抵抗性になったという知見により、標的分子の多型部位に存在するヌクレオチドが、反応において使用されたヌクレオチド誘導体のものに対して相補的であることが明らかになる。この方法は、多量の外来性配列データの決定を必要としないという利点を有する。
多型部位のヌクレオチドの同一性を決定するために、溶液ベースの方法を使用することができる(Cohen,D.et al.(フランス国特許第2,650,840号;PCT出願第WO91/02087号)。米国特許第4,656,127号のMundyの方法におけるように、多型部位のすぐ3’のアレル配列に対して相補的であるプライマーを使用する。この方法は、多型部位のヌクレオチドに対して相補的である場合は、プライマーの末端上に組み込まれるようになる、ラベル化ジデオキシヌクレオチド誘導体を用いて、その部位のヌクレオチドの同一性を決定する。Genetic Bit AnalysisまたはGBAとして公知である代替的な方法が、Goelet,P.et al.(PCT出願第92/15712号)により記載されている。Goelet,P.et al.の方法は、ラベル化ターミネーターと、多型部位の3’の配列に対して相補的であるプライマーとの混合物を使用する。Goelet,P.et al.の方法は、ラベル化ターミネーターと、多型部位の3’の配列に対して相補的であるプライマーとの混合物を使用する。Cohen et al.(フランス国特許第2,650,840号;PCT出願第WO91/02087号)の方法とは対照的に、Goelet,P.et al.の方法は、プライマーまたは標的分子が固相に固定化される、不均一相アッセイであることができる。
DNAにおいて多型部位をアッセイするための、いくつかのプライマーガイドヌクレオチド組み込み手順が、記載されている(Komher,J.S.et al.,Nucl.Acids.Res.17:7779−7784(1989);Sokolov,B.P.,Nucl.Acids Res.18:3671(1990);Syvanen,A.−C.,et al.,Genomics 8:684−692(1990);Kuppuswamy,M.N.et al.,Proc.Natl.Acad.Sci.(U.S.A.)88:1143−1147(1991);Prezant,T.R.et al.,Hum.Mutat.1:159−164(1992);Ugozzoli,L.et al.,GATA 9:107−112(1992);Nyren,P.et al.,Anal.Biochem.208:171−175(1993))。これらの方法は、それらが、多型部位で塩基間を識別するためにラベル化デオキシヌクレオチドの組み込みを利用する点で、GBAとは異なる。そのような形式において、シグナルは、組み込まれたデオキシヌクレオチドの数に比例するため、同じヌクレオチドのランにおいて起こる多型は、ランの長さに比例するシグナルを結果としてもたらすことができる(Syvanen,A.−C.,et al.,Amer.J.Hum.Genet.52:46−59(1993))。
数多くのイニシアティブは、DNAまたはRNAの何百万もの個々の分子から並行して直接、配列情報を取得する。リアルタイムの単一分子の合成によるシークエンシング技術は、シークエンシングされる鋳型に対して相補的であるDNAの新生鎖の中に組み込まれる際の、蛍光ヌクレオチドの検出に依拠する。1つの方法において、長さが30〜50塩基のオリゴヌクレオチドを、ガラスのカバーガラスに、5’端で共有結合性に固着させる。これらの固着した鎖は、2つの機能を果たす。第1に、それらは、鋳型が、表面結合オリゴヌクレオチドに対して相補的な捕捉尾部を有して構成されている場合に、標的鋳型鎖の捕捉部位として作用する。それらはまた、配列読み取りの基礎を形成する、鋳型指向性プライマー伸長のためのプライマーとしても作用する。捕捉プライマーは、複数サイクルの合成、検出、及び、色素を除去するための色素−リンカーの化学的切断を用いた、配列決定のための、固定された位置部位として機能する。各サイクルは、ポリメラーゼ/ラベル化ヌクレオチド混合物の添加、リンス、画像化、及び色素の切断からなる。代替的な方法において、ポリメラーゼは、蛍光ドナー分子で修飾されてスライドガラス上に固定化され、他方、各ヌクレオチドは、γ−ホスファートに付着したアクセプター蛍光部分で色分けされている。ヌクレオチドが、新規の鎖の中に組み込まれるようになる際に、システムが、蛍光タグ付加されたポリメラーゼと蛍光修飾されたヌクレオチドとの間の相互作用を検出する。他の合成によるシークエンシング技術もまた、存在する。
任意の適している合成によるシークエンシングプラットフォームを、変異を特定するために使用することができる。上記のように、4種類の主要な合成によるシークエンシングプラットフォームを、現在利用可能である:Roche/454 Life Sciencesより販売されるGenome Sequencer、Illumina/Solexaより販売される1G Analyzer、Applied BioSystemsより販売されるSOLiDシステム、及びHelicos Bioscienceより販売されるHeliscopeシステム。合成によるシークエンシングプラットフォームはまた、Pacific BioSciences及びVisiGen Biotechnologiesによっても記載されている。いくつかの実施形態において、シークエンシングされる多数の核酸分子は、支持体(例えば、固体支持体)に結合している。核酸を支持体上に固定化するために、捕捉配列/万能プライミング部位を、鋳型の3’端及び/または5’端に付加することができる。核酸は、支持体に共有結合性に付着した相補的配列に対して捕捉配列をハイブリダイズすることによって、支持体に結合させることができる。捕捉配列(万能捕捉配列とも呼ばれる)は、万能プライマーとして二重に働き得る、支持体に付着した配列に対して相補的な核酸配列である。
捕捉配列に対する代替物として、カップリングペア(例えば、抗体/抗原、受容体/リガンド、または、例えば米国特許出願第2006/0252077号に記載されているようなアビジン−ビオチンペアなど)のメンバーを、各断片に連結させて、そのカップリングペアのそれぞれの第2のメンバーでコーティングされた表面上に捕捉させることができる。
捕捉に続いて、配列を、例えば、鋳型依存性の合成によるシークエンシングを含む、例えば、実施例及び米国特許第7,283,337号に記載されているような、単一分子検出/シークエンシングによって解析することができる。合成によるシークエンシングにおいて、表面に結合した分子は、ポリメラーゼの存在下で、多数のラベル化ヌクレオチド三リン酸に曝露される。鋳型の配列は、成長する鎖の3’端の中に組み込まれるラベル化ヌクレオチドの順序によって決定される。これは、リアルタイムで行うことができ、ステップ・アンド・リピートモードで行うことができる。リアルタイム解析のために、各ヌクレオチドに対して異なる光ラベルを組み込むことができ、複数のレーザーを、組み込まれたヌクレオチドの刺激のために利用することができる。
シークエンシングはまた、他の大規模並列処理シークエンシング、または次世代シークエンシング(NGS)技法及びプラットフォームも含むことができる。大規模並列処理シークエンシング技法及びプラットフォームの追加的な例は、Illumina HiSeqまたはMiSeq、ThermoPGMまたはProton、Pac Bio RS IIまたはSequel、QiagenのGene Reader、及びOxford Nanopore MinIONである。追加的な類似した現在の大規模並列処理シークエンシング技術、及びこれらの技術の将来世代を、使用することができる。
任意の細胞タイプまたは組織を利用して、本明細書に記載した方法における使用のための核酸試料を取得することができる。例えば、DNAまたはRNA試料を、腫瘍または体液、例えば、公知の技法(例えば、静脈穿刺)によって取得された血液、もしくは唾液から取得することができる。あるいは、核酸試験を、乾燥試料(例えば、髪または皮膚)に対して行うことができる。加えて、試料を、シークエンシングのために腫瘍から取得することができ、別の試料を、正常組織が腫瘍と同じ組織タイプのものである場合に、シークエンシングのために正常組織から取得することができる。試料を、シークエンシングのために腫瘍から取得することができ、別の試料を、正常試料が腫瘍とは別個の組織タイプのものである場合に、シークエンシングのために正常組織から取得することができる。
腫瘍は、肺癌、黒色腫、乳癌、卵巣癌、前立腺癌、腎臓癌、胃癌、結腸癌、精巣癌、頭頸部癌、膵臓癌、脳癌、B細胞リンパ腫、急性骨髄性白血病、慢性骨髄性白血病、慢性リンパ球性白血病、及びT細胞リンパ球性白血病、非小細胞肺癌、及び小細胞肺癌のうちの1つ以上を含むことができる。
あるいは、タンパク質質量分析を使用して、腫瘍細胞上のMHCタンパク質に結合した変異したペプチドの存在を特定または実証することができる。ペプチドは、腫瘍細胞から、または腫瘍から免疫沈降させたHLA分子から酸溶出することができ、次いで、質量分析を用いて特定することができる。
IV.新生抗原
新生抗原は、ヌクレオチドまたはポリヌクレオチドを含むことができる。例えば、新生抗原は、ポリペプチド配列をコードするRNA配列であることができる。ワクチンにおいて有用な新生抗原は、したがって、ヌクレオチド配列またはポリペプチド配列を含むことができる。
本明細書に開示する方法によって特定された腫瘍特異的変異を含む単離されたペプチド、公知の腫瘍特異的変異を含むペプチド、及び、本明細書に開示する方法によって特定された変異ポリペプチドまたはその断片を、本明細書に開示する。新生抗原ペプチドは、新生抗原が関連するポリペプチド配列をコードするヌクレオチド配列(例えば、DNAまたはRNA)を含む場合に、それらのコード配列の文脈において記載することができる。
新生抗原ヌクレオチド配列によってコードされる1つ以上のポリペプチドは、以下のうちの少なくとも1つを含むことができる:1000nM未満のIC50値でのMHCとの結合親和性、MHCクラスIのペプチドについてはアミノ酸8〜15個、8、9、10、11、12、13、14、または15個の長さ、プロテアソーム切断を促進するペプチド内またはその近くの配列モチーフの存在、及び、TAP輸送を促進する配列モチーフの存在。MHCクラスIIのペプチドではアミノ酸6〜30、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、または30個の長さ、細胞外またはリソソームプロテアーゼ(例えば、カテプシン類)による切断またはHLA−DMにより触媒されるHLA結合を促進するペプチド内またはその近くの配列モチーフの存在。
1つ以上の新生抗原は、腫瘍の表面上に存在することができる。
1つ以上の新生抗原は、腫瘍を有する対象において免疫原性であることができ、例えば、対象においてT細胞応答またはB細胞応答を惹起することができ得る。
対象において自己免疫応答を誘導する1つ以上の新生抗原は、腫瘍を有する対象のためのワクチン生成の文脈において、考察から排除することができる。
少なくとも1つの新生抗原性ペプチド分子のサイズは、約5個、約6個、約7個、約8個、約9個、約10個、約11個、約12個、約13個、約14個、約15個、約16個、約17個、約18個、約19個、約20個、約21個、約22個、約23個、約24個、約25個、約26個、約27個、約28個、約29個、約30個、約31個、約32個、約33個、約34個、約35個、約36個、約37個、約38個、約39個、約40個、約41個、約42個、約43個、約44個、約45個、約46個、約47個、約48個、約49個、約50個、約60個、約70個、約80個、約90個、約100個、約110個、約120個、またはそれよりも多いアミノ分子残基、及びこれらの範囲から導出される任意の範囲を含むことができるが、それらに限定されない。具体的な実施形態において、新生抗原性ペプチド分子は、アミノ酸50個以下である。
新生抗原性ペプチド及びポリペプチドは、MHCクラスIについては長さが15残基以下で、通常約8〜約11残基の間からなり、特に9または10残基であることができ;MHCクラスIIについては、6以上30以下の残基であることができる。
望ましい場合、より長いペプチドを、いくつかのやり方において設計することができる。1つの例において、HLAアレル上のペプチドの提示尤度が予測されるかまたは公知である場合、より長いペプチドは、(1)各々の対応する遺伝子産物のN末端及びC末端に向かって2〜5アミノ酸の伸長を有する個々の提示されるペプチド;(2)各々について伸長した配列を有する、提示されるペプチドのいくつかまたはすべての連鎖のいずれかからなることができる。別の例において、シークエンシングにより、腫瘍中に存在する長い(10残基より長い)新生エピトープ配列(例えば、新規のペプチド配列をもたらすフレームシフト、リードスルー、またはイントロンの包含による)が明らかになる場合、より長いペプチドは、(3)新規の腫瘍特異的アミノ酸のストレッチ全体からなることになり、したがって、最強のHLAに提示されるより短いペプチドの計算的なまたはインビトロ試験ベースの選択の必要を回避する。いずれの例においても、より長いペプチドの使用によって、患者細胞による内因性のプロセシングが可能になり、より有効な抗原提示及びT細胞応答の誘導がもたらされ得る。
新生抗原性ペプチド及びポリペプチドは、HLAタンパク質上に提示されることができる。いくつかの態様において、新生抗原性ペプチド及びポリペプチドは、野生型ペプチドよりも強い親和性でHLAタンパク質上に提示される。いくつかの態様において、新生抗原性ペプチドまたはポリペプチドは、少なくとも5000nM未満、少なくとも1000nM未満、少なくとも500nM未満、少なくとも250nM未満、少なくとも200nM未満、少なくとも150nM未満、少なくとも100nM未満、少なくとも50nM未満、またはそれよりも小さいIC50を有することができる。
いくつかの態様において、新生抗原性ペプチド及びポリペプチドは、対象に投与された場合に、自己免疫応答を誘導せず、及び/または免疫寛容を引き起こさない。
また、少なくとも2種類以上の新生抗原性ペプチドを含む組成物も提供する。いくつかの実施形態において、組成物は、少なくとも2種類の異なるペプチドを含有する。少なくとも2種類の異なるペプチドは、同じポリペプチドに由来することができる。異なるポリペプチドとは、ペプチドが、長さ、アミノ酸配列、またはその両方において異なることを意味する。ペプチドは、腫瘍特異的変異を含有することが知られているか、または見出されている任意のポリペプチドに由来する。新生抗原性ペプチドが由来することができる、適しているポリペプチドは、例えば、COSMICデータベースにおいて見出すことができる。COSMICは、ヒトがんにおける体細胞性変異についての総合的な情報の管理を行う。ペプチドは、腫瘍特異的変異を含有する。いくつかの態様において、腫瘍特異的変異は、特定のがんタイプについてのドライバー変異である。
望ましい活性または性質を有する新生抗原性ペプチド及びポリペプチドは、望ましいMHC分子に結合して適切なT細胞を活性化する非改変ペプチドの生物学的活性を増大させるかまたは実質的にそのすべてを少なくとも保持しつつ、特定の望ましい属性、例えば、改善された薬理学的特徴を与えるように改変することができる。例として、新生抗原性ペプチド及びポリペプチドを、保存的または非保存的のいずれかの置換などの、種々の改変にさらに供することができ、そのような改変は、改善されたMHC結合、安定性、または提示などの、それらの使用におけるある特定の利点を提供し得る。保存的置換とは、アミノ酸残基を、生物学的及び/または化学的に類似している別のもので、例えば、1つの疎水性残基を別の疎水性残基、または1つの極性残基を別の極性残基で置き換えることを意味する。置換は、Gly、Ala;Val、Ile、Leu、Met;Asp、Glu;Asn、Gln;Ser、Thr;Lys、Arg;及びPhe、Tyrなどの組み合わせを含む。単一アミノ酸置換の効果はまた、D−アミノ酸を用いて探査してもよい。そのような改変は、例えば、Merrifield,Science 232:341−347(1986),Barany & Merrifield,The Peptides,Gross & Meienhofer,eds.(N.Y.,Academic Press),pp.1−284(1979);及びStewart & Young,Solid Phase Peptide Synthesis,(Rockford,Ill.,Pierce),2d Ed.(1984)に記載されているように、周知のペプチド合成手順を用いて行うことができる。
種々のアミノ酸模倣物または非天然アミノ酸でのペプチド及びポリペプチドの改変は、インビボでのペプチド及びポリペプチドの安定性の増大に特に有用である場合がある。安定性は多くの方法でアッセイすることができる。例として、ペプチダーゼ、ならびに、ヒト血漿及び血清などの種々の生物学的媒質が、安定性を試験するために使用されている。例えば、Verhoef et al.,Eur.J.Drug Metab Pharmacokin.11:291−302(1986)を参照されたい。ペプチドの半減期は、25%ヒト血清(v/v)アッセイを用いて好都合に決定することができる。プロトコールは、概して以下のようなものである。プールしたヒト血清(タイプAB、非熱不活性化)を、使用前に遠心分離によって脱脂する。次いで、血清を、RPMI組織培養培地で25%に希釈し、ペプチド安定性を試験するために使用する。あらかじめ決定された時間間隔で、少量の反応溶液を取り出して、6%水性トリクロロ酢酸またはエタノールのいずれかに添加する。濁った反応試料を15分間冷却(4℃)し、次いで、スピンして沈降血清タンパク質を沈殿させる。次いで、ペプチドの存在を、安定性特異的クロマトグラフィー条件を用いた逆相HPLCによって決定する。
ペプチド及びポリペプチドを、改善された血清半減期以外の望ましい属性を提供するために修飾することができる。例として、CTL活性を誘導するペプチドの能力を、Tヘルパー細胞応答を誘導することができる少なくとも1つのエピトープを含有する配列への連結によって増強することができる。免疫原性ペプチド/Tヘルパーコンジュゲートは、スペーサー分子によって連結することができる。スペーサーは、典型的には、生理学的条件下で実質的に無電荷である、アミノ酸またはアミノ酸模倣物などの相対的に小さな中性分子から構成される。スペーサーは、典型的には、例えば、Ala、Gly、または、非極性アミノ酸もしくは中性極性アミノ酸の他の中性スペーサーから選択される。任意で存在するスペーサーは、同じ残基から構成される必要はなく、したがって、ヘテロオリゴマーまたはホモオリゴマーであり得ることが、理解されるであろう。存在する場合、スペーサーは、通常、少なくとも1または2残基、より通常は、3〜6残基であろう。あるいは、ペプチドを、スペーサーなしでTヘルパーペプチドに連結することができる。
新生抗原性ペプチドは、ペプチドのアミノ末端またはカルボキシ末端のいずれかで、直接またはスペーサーを介してのいずれかでTヘルパーペプチドに連結することができる。新生抗原性ペプチドまたはTヘルパーペプチドのいずれかのアミノ末端を、アシル化することができる。例示的なTヘルパーペプチドは、破傷風トキソイドの830〜843、インフルエンザの307〜319、マラリアスポロゾイトの周囲382〜398及び378〜389を含む。
タンパク質またはペプチドは、標準的な分子生物学的技法を通したタンパク質、ポリペプチド、もしくはペプチドの発現、天然由来源からのタンパク質もしくはペプチドの単離、またはタンパク質もしくはペプチドの化学合成を含む、当業者に公知の任意の技法によって作製することができる。種々の遺伝子に対応する、ヌクレオチドならびにタンパク質、ポリペプチド及びペプチドの配列は、以前に開示されており、当業者に公知のコンピュータ処理されたデータベースで見出すことができる。1つのそのようなデータベースは、National Institutes of Healthのウェブサイトに位置する、National Center for Biotechnology InformationのGenbank及びGenPeptデータベースである。公知の遺伝子のコード領域は、本明細書に開示する技法を用いて、または当業者に公知であるように、増幅及び/または発現させることができる。あるいは、タンパク質、ポリペプチド、及びペプチドの種々の商業的調製物が、当業者に公知である。
さらなる態様において、新生抗原は、新生抗原性ペプチドまたはその一部をコードする核酸(例えば、ポリヌクレオチド)を含む。ポリヌクレオチドは、例えば、DNA、cDNA、PNA、CNA、RNA(例えば、mRNA)、例えば、ホスホロチオアートバックボーンを有するポリヌクレオチドなどの、ポリヌクレオチドの一本鎖及び/もしくは二本鎖、または天然形態もしくは安定化形態のいずれか、または、それらの組み合わせであることができ、イントロンを含有してもよく、または含有しなくてもよい。またさらなる態様は、ポリペプチドまたはその一部を発現することができる発現ベクターを提供する。様々な細胞タイプ用の発現ベクターが、当技術分野において周知であり、過度の実験なしで選択することができる。概して、DNAを、プラスミドなどの発現ベクター中に、発現のための適正な方向及び正確なリーディングフレームで挿入する。必要な場合は、DNAを、望ましい宿主によって認識される適切な転写及び翻訳調節性制御ヌクレオチド配列に連結することができるが、そのような制御は、概して発現ベクターにおいて利用可能である。次いで、ベクターを、標準的な技法を通して宿主中に導入する。手引きは、例えば、Sambrook et al.(1989)Molecular Cloning,A Laboratory Manual,Cold Spring Harbor Laboratory,Cold Spring Harbor,N.Y.において見出すことができる。
IV.ワクチン組成物
また、特異的な免疫応答、例えば、腫瘍特異的な免疫応答を生じることができる免疫原性組成物、例えば、ワクチン組成物も、本明細書に開示する。ワクチン組成物は、典型的に、例えば、本明細書に記載した方法を用いて選択された多数の新生抗原を含む。ワクチン組成物はまた、ワクチンと呼ぶこともできる。
ワクチンは、1〜30種類のペプチド、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、もしくは30種類の異なるペプチド、6、7、8、9、10、11、12、13、もしくは14種類の異なるペプチド、または12、13、もしくは14種類の異なるペプチドを含有することができる。ペプチドは、翻訳後修飾を含むことができる。ワクチンは、1〜100種類もしくはそれよりも多いヌクレオチド配列、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100種類もしくはそれよりも多い異なるヌクレオチド配列、6、7、8、9、10、11、12、13、もしくは14種類の異なるヌクレオチド配列、または12、13、もしくは14種類の異なるヌクレオチド配列を含有することができる。ワクチンは、1〜30種類の新生抗原配列、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100種類もしくはそれよりも多い異なる新生抗原配列、6、7、8、9、10、11、12、13、もしくは14種類の異なる新生抗原配列、または12、13、もしくは14種類の異なる新生抗原配列を含有することができる。
一実施形態では、異なるペプチド及び/もしくはポリペプチド、またはそれらをコードするヌクレオチド配列は、ペプチド及び/またはポリペプチドが、異なるMHCクラスI分子及び/または異なるMHCクラスII分子などの異なるMHC分子と結合することができるように選択される。いくつかの態様において、1つのワクチン組成物は、最も頻繁に存在するMHCクラスI分子及び/またはMHCクラスII分子と結合することができるペプチド及び/またはポリペプチドのコード配列を含む。したがって、ワクチン組成物は、少なくとも2種類の好ましい、少なくとも3種類の好ましい、または少なくとも4種類の好ましいMHCクラスI分子及び/またはMHCクラスII分子と結合することができる異なる断片を含むことができる。
ワクチン組成物は、特異的な細胞傷害性T細胞応答、及び/または特異的なヘルパーT細胞応答を生じることができる。
ワクチン組成物は、アジュバント及び/または担体をさらに含むことができる。有用なアジュバント及び担体の例を、本明細書の下記に示す。組成物は、例えば、タンパク質などの担体、または、例えば、T細胞に対してペプチドを提示することができる樹状細胞(DC)などの抗原提示細胞と結合することができる。
アジュバントは、ワクチン組成物中へのその混合が、新生抗原に対する免疫応答を増大させるか、または別の方法で修飾する任意の物質である。担体は、新生抗原がそれに結合することができる足場構造、例えば、ポリペプチドまたは多糖であることができる。任意で、アジュバントは、共有結合性または非共有結合性にコンジュゲートされる。
抗原に対する免疫応答を増大させるアジュバントの能力は、典型的に、免疫媒介性反応の有意なもしくは実質的な増大、または疾患症候の低減によって明示される。例えば、体液性免疫の増大は、典型的に、抗原に対して生じた抗体の力価の有意な増大によって明示され、T細胞活性の増大は、典型的に、細胞増殖、または細胞性細胞傷害、またはサイトカイン分泌の増大において明示される。アジュバントはまた、例えば、主として体液性またはTh応答を、主として細胞性またはTh応答へと変更することによって、免疫応答を変化させ得る。
適しているアジュバントは、1018 ISS、アラム、アルミニウム塩、Amplivax、AS15、BCG、CP−870,893、CpG7909、CyaA、dSLIM、GM−CSF、IC30、IC31、イミキモド、ImuFact IMP321、IS Patch、ISS、ISCOMATRIX、JuvImmune、LipoVac、MF59、モノホスホリル脂質A、Montanide IMS 1312、MontanideISA206、Montanide ISA 50V、Montanide ISA−51、OK−432、OM−174、OM−197−MP−EC、ONTAK、PepTelベクターシステム、PLGマイクロ粒子、レシキモド、SRL172、ビロソーム及び他のウイルス様粒子、YF−17D、VEGFトラップ、R848、β−グルカン、Pam3Cys、サポニンに由来するAquila’s QS21 stimulon(Aquila Biotech、Worcester、Mass.、USA)、マイコバクテリア抽出物及び合成細菌細胞壁模倣物、及びRibi’s Detox.QuilまたはSuperfosなどの他の専売アジュバントを含むが、それらに限定されない。不完全フロインドまたはGM−CSFなどのアジュバントが、有用である。樹状細胞に特異的ないくつかの免疫学的アジュバント(例えば、MF59)及びそれらの調製物が、以前に記載されている(Dupuis M,et al.,Cell Immunol.1998;186(1):18−27;Allison A C;Dev Biol Stand.1998;92:3−11)。また、サイトカインを使用することもできる。いくつかのサイトカインは、リンパ組織に対する樹状細胞の遊走への影響(例えば、TNF−α)、Tリンパ球に対する効率的な抗原提示細胞への樹状細胞の成熟の加速化(例えば、GM−CSF、IL−1、及びIL−4)(具体的にその全体が参照により本明細書に組み入れられる、米国特許第5,849,589号)、及び免疫アジュバントとしての作用(例えば、IL−12)に直接結び付けられている(Gabrilovich D I,et al.,J ImmunotherEmphasis Tumor Immunol.1996(6):414−418)。
CpG免疫刺激性オリゴヌクレオチドもまた、ワクチン設定においてアジュバントの効果を増強することが報告されている。TLR 7、TLR 8、及び/またはTLR 9に結合するRNAなどの他のTLR結合分子がまた、使用されてもよい。
有用なアジュバントの他の例は、化学的に修飾されたCpG(例えば、CpR、Idera)、Poly(I:C)(例えば、polyi:CI2U)、非CpG細菌DNAまたはRNA、ならびに、治療的に及び/またはアジュバントとして作用し得る、シクロホスファミド、スニチニブ、ベバシズマブ、セレブレックス、NCX−4016、シルデナフィル、タダラフィル、バルデナフィル、ソラフィニブ、XL−999、CP−547632、パゾパニブ、ZD2171、AZD2171、イピリムマブ、トレメリムマブ、及びSC58175などの免疫活性小分子及び抗体を含むが、それらに限定されない。アジュバント及び添加物の量及び濃度は、当業者が過度の実験なしで容易に決定することができる。追加的なアジュバントは、顆粒球マクロファージコロニー刺激因子(GM−CSF、サルグラモスチム)などのコロニー刺激因子を含む。
ワクチン組成物は、1種類よりも多い異なるアジュバントを含むことができる。さらに、治療用組成物は、上記の任意またはそれらの組み合わせを含む、任意のアジュバント物質を含むことができる。ワクチン及びアジュバントを、任意の適切な配列において、一緒にまたは別々に投与できることもまた、企図される。
担体(または賦形剤)は、アジュバントから独立して存在することができる。担体の機能は、例えば、活性または免疫原性を増大させるため、安定性を与えるため、生物学的活性を増大させるため、または血清半減期を増大させるために、特に変異体の分子量を増大させることであり得る。さらに、担体は、T細胞に対してペプチドを提示するのを助けることができる。担体は、当業者に公知の任意の適している担体、例えば、タンパク質または抗原提示細胞であることができる。担体タンパク質は、キーホールリンペットヘモシアニン、トランスフェリンなどの血清タンパク質、ウシ血清アルブミン、ヒト血清アルブミン、サイログロブリンもしくはオボアルブミン、免疫グロブリン、またはインスリンなどのホルモン、またはパルミチン酸であることができるが、それらに限定されない。ヒトの免疫化のためには、担体は概して、ヒトに許容されかつ安全な、生理学的に許容される担体である。しかし、破傷風トキソイド及び/またはジフテリアトキソイドは、適している担体である。あるいは、担体は、デキストラン、例えばセファロースであることができる。
細胞傷害性T細胞(CTL)は、無傷の外来抗原自体よりも、MHC分子に結合したペプチドの形態において抗原を認識する。MHC分子自体は、抗原提示細胞の細胞表面に位置する。したがって、CTLの活性化は、ペプチド抗原、MHC分子、及びAPCの三量体複合体が存在する場合に可能である。対応して、ペプチドがCTLの活性化のために使用される場合だけではなく、追加的にそれぞれのMHC分子を有するAPCが添加される場合に、それは免疫応答を増強し得る。したがって、いくつかの実施形態において、ワクチン組成物は、追加的に、少なくとも1つの抗原提示細胞を含有する。
新生抗原はまた、ワクシニア、鶏痘、自己複製アルファウイルス、マラバウイルス、アデノウイルス(例えば、Tatsis et al.,Adenoviruses,Molecular Therapy(2004)10,616−629を参照されたい)、または、第2、第3、もしくはハイブリッド第2/第3世代のレンチウイルス、及び特異的な細胞タイプもしくは受容体を標的とするように設計された任意の世代の組換えレンチウイルスを含むがそれらに限定されないレンチウイルス(例えば、Hu et al.,Immunization Delivered by Lentiviral Vectors for Cancer and Infectious Diseases,Immunol Rev.(2011)239(1):45−61、Sakuma et al.,Lentiviral vectors:basicto translational,Biochem J.(2012)443(3):603−18、Cooper et al.,Rescue of splicing−mediated intron loss maximizes expression in lentiviral vectors containing the human ubiquitin C promoter,Nucl.AcidsRes.(2015)43(1):682−690、Zufferey et al.,Self−Inactivating Lentivirus Vector for Safe and Efficient In Vivo Gene Delivery,J.Virol.(1998)72(12):9873−9880を参照されたい)などの、ウイルスベクターベースのワクチンプラットフォームに含めることもできる。上述のウイルスベクターベースのワクチンプラットフォームのパッケージング能力に依存して、このアプローチは、1つ以上の新生抗原ペプチドをコードする1つ以上のヌクレオチド配列を送達することができる。配列は、非変異配列が隣接していてもよく、リンカーによって分離されていてもよく、または、細胞内区画を標的とする1つもしくは複数の配列が先行していてもよい(例えば、Gros et al.,Prospective identification of neoantigen−specific lymphocytes in the peripheral blood of melanoma patients,Nat Med.(2016)22(4):433−8、Stronen et al.,Targeting of cancer neoantigens with donor−derived T cell receptor repertoires,Science.(2016)352(6291):1337−41、Lu et al.,Efficient identification of mutated cancer antigens recognized by T cells associated with durable tumor regressions,Clin Cancer Res.(2014)20( 13):3401−10を参照されたい)。宿主中への導入時に、感染した細胞は、新生抗原を発現し、それにより、ペプチドに対する宿主免疫(例えば、CTL)応答を惹起する。免疫化プロトコールにおいて有用なワクシニアベクター及び方法は、例えば、米国特許第4,722,848号に記載されている。別のベクターは、BCG(カルメット・ゲラン桿菌)である。BCGベクターは、Stover et al.(Nature 351:456−460(1991))に記載されている。新生抗原の治療的投与または免疫化に有用な、多種多様の他のワクチンベクター、例えば、チフス菌(Salmonella typhi)ベクターなどが、本明細書における記載から当業者に明らかであろう。
IV.A.ワクチン設計及び製造のさらなる考慮事項
IV.A.1.すべての腫瘍サブクローンをカバーするペプチドのセットの決定
すべての、または大部分の腫瘍サブクローンによって提示されるものを意味するトランカルペプチド(truncal peptide)が、ワクチン中への包含について優先される53。任意で、高い確率で提示されかつ免疫原性であることが予測されるトランカルペプチドがない場合、または、高い確率で提示されかつ免疫原性であることが予測されるトランカルペプチドの数が、追加的な非トランカルペプチドをワクチンに含めることができるほど少ない場合には、腫瘍サブクローンの数及び同一性を推定すること、及びワクチンによってカバーされる腫瘍サブクローンの数を最大化するようにペプチドを選ぶことによって、さらなるペプチドを優先順位付けすることができる54。
IV.A.2.新生抗原の優先順位決定
上記の新生抗原フィルターのすべてを適用した後、ワクチン技術が対応できるよりも多くの候補新生抗原が、依然としてワクチン包含に利用可能である可能性がある。追加的に、新生抗原解析の種々の態様についての不確定度が残っている可能性があり、候補ワクチン新生抗原の様々な性状の間にトレードオフが存在する可能性がある。したがって、選択プロセスの各段階でのあらかじめ決定されたフィルターの代わりに、少なくとも以下の軸を有する空間に候補新生抗原を置き、積分アプローチを用いて選択を最適化する、積分多次元モデルを考えることができる。
1. 自己免疫または寛容のリスク(生殖細胞系列のリスク)(より低い自己免疫のリスクが、典型的に好ましい)
2. シークエンシングアーチファクトの確率(より低いアーチファクトの確率が、典型的に好ましい)
3. 免疫原性の確率(より高い免疫原性の確率が、典型的に好ましい)
4. 提示の確率(より高い提示の確率が、典型的に好ましい)
5. 遺伝子発現(より高い発現が、典型的に好ましい)
6. HLA遺伝子のカバレッジ(新生抗原のセットの提示に関与する、より多い数のHLA分子は、腫瘍が、HLA分子の下方制御または変異を介して免疫攻撃を回避する確率を低くする可能性がある)
7. HLAクラスのカバレッジ(HLA−I及びHLA−IIの両方をカバーすることで、治療応答の確率が高まり、腫瘍の免疫回避の確率が低くなる可能性がある)
V.治療及び製造方法
本明細書に開示する方法を用いて特定された複数の新生抗原などの1つ以上の新生抗原を対象に投与することにより、対象に腫瘍特異的な免疫応答を誘導し、腫瘍に対するワクチン接種を行い、対象のがんの症状を治療及び/または緩和する方法も提供される。
いくつかの態様において、対象は、がんと診断されているか、またはがんを発症するリスクにある。対象は、ヒト、イヌ、ネコ、ウマ、または、腫瘍特異的な免疫応答が望ましい任意の動物であることができる。腫瘍は、乳、卵巣、前立腺、肺、腎臓、胃、結腸、精巣、頭頸部、膵臓、脳、黒色腫、及び他の組織器官の腫瘍などの、任意の固形腫瘍、ならびに、急性骨髄性白血病、慢性骨髄性白血病、慢性リンパ球性白血病、T細胞リンパ球性白血病、及びB細胞リンパ腫を含むリンパ腫及び白血病などの、血液腫瘍であることができる。
新生抗原は、CTL応答を誘導するのに十分な量で投与することができる。
新生抗原は、単独で、または他の治療用物質との組み合わせで投与することができる。治療用物質は、例えば、化学療法剤、放射線、または免疫療法である。特定のがんのための任意の適している治療的処置を、施すことができる。
加えて、対象に、チェックポイント阻害因子などの抗免疫抑制性/免疫刺激性物質をさらに投与することができる。例えば、対象に、抗CTLA抗体または抗PD−1または抗PD−L1をさらに投与することができる。抗体によるCTLA−4またはPD−L1の遮断は、患者においてがん性細胞に対する免疫応答を増強することができる。特に、CTLA−4遮断は、ワクチン接種プロトコールを採用した場合に有効であることが示されている。
ワクチン組成物に含まれるべき各新生抗原の最適量、及び最適投薬レジメンを、決定することができる。例えば、新生抗原またはその変異体は、静脈内(i.v.)注射、皮下(s.c.)注射、皮内(i.d.)注射、腹腔内(i.p.)注射、筋肉内(i.m.)注射のために調製することができる。注射の方法は、s.c.、i.d.、i.p.、i.m.、及びi.v.を含む。DNAまたはRNA注射の方法は、i.d.、i.m.、s.c.、i.p.、及びi.v.を含む。ワクチン組成物の投与の他の方法は、当業者に公知である。
ワクチンは、組成物中に存在する新生抗原の選択、数、及び/または量が、組織、がん、及び/または患者に特異的であるように編集することができる。例として、ペプチドの厳密な選択は、所定の組織における親タンパク質の発現パターンによって手引きされ得る。選択は、がんの特異的なタイプ、疾患の状態、より早期の処置レジメン、患者の免疫状態、及び当然、患者のHLAハロタイプに依存し得る。さらに、ワクチンは、特定の患者の個人的な必要にしたがって、個別化された構成要素を含有することができる。例は、特定の患者における新生抗原の発現にしたがって新生抗原の選択を変えること、または、処置の第1のラウンドまたはスキームの後の二次的処置についての調整を含む。
がんのためのワクチンとして使用されるべき組成物について、正常組織において多量に発現している類似した正常な自己ペプチドを有する新生抗原は、本明細書に記載した組成物において、避けられるか、または少量で存在することができる。他方で、患者の腫瘍が、多量のある特定の新生抗原を発現することが公知である場合、このがんの処置のためのそれぞれの薬学的組成物は、多量に存在することができ、及び/または、この特定の新生抗原もしくはこの新生抗原の経路に特異的な1種類よりも多い新生抗原を含めることができる。
新生抗原を含む組成物を、既にがんを患っている個体に投与することができる。治療的適用において、組成物は、腫瘍抗原に対する有効なCTL応答を惹起し、かつ、症候及び/または合併症を治癒するかまたは少なくとも部分的に停止するのに十分な量で、患者に投与される。これを達成するのに妥当な量を、「治療的有効用量」として定義する。この用途のために有効な量は、例えば、組成物、投与の様式、処置される疾患の病期及び重症度、患者の体重及び健康の全身状態、ならびに処方医の判断に依存するであろう。組成物は、概して、重篤な疾患状態、すなわち、命に関わるか、または潜在的に命に関わる状況、特にがんが転移している場合に使用できることを、心に留めるべきである。そのような例において、外来性物質の最小化、及び新生抗原の相対的な非毒性の性質を考慮して、実質的過剰量のこれらの組成物を投与することが、可能であり、かつ処置する医師が望ましいと感じることができる。
治療的用途のために、投与は、腫瘍の検出または外科的除去時に始めることができる。これに、少なくとも症候が実質的に減ずるまで、及びその後ある期間にわたって、ブースト用量が続く。
治療的処置のための薬学的組成物(例えば、ワクチン組成物)は、非経口、局部、経鼻、経口、または局所投与について意図される。薬学的組成物は、非経口的に、例えば、静脈内、皮下、皮内、または筋肉内に投与することができる。組成物は、腫瘍に対する局所免疫応答を誘導するために、外科的切除の部位に投与することができる。新生抗原の溶液を含む非経口投与用の組成物を、本明細書に開示し、ワクチン組成物は、許容される担体、例えば、水性担体に溶解または懸濁される。様々な水性担体、例えば、水、緩衝水、0.9%食塩水、0.3%グリシン、ヒアルロン酸などを使用することができる。これらの組成物は、従来の周知の滅菌技法によって滅菌することができ、または滅菌濾過することができる。結果として生じた水溶液を、そのままで使用のためにパッケージングするか、または凍結乾燥することができ、凍結乾燥調製物は、投与前に滅菌溶液と組み合わされる。組成物は、pH調整剤及び緩衝剤、等張化剤、湿潤剤など、例えば、酢酸ナトリウム、乳酸ナトリウム、塩化ナトリウム、塩化カリウム、塩化カルシウム、ソルビタンモノラウラート、トリエタノールアミンオレアートなどのような、生理学的条件に近づけるために必要とされる、薬学的に許容される補助物質を含有してもよい。
新生抗原はまた、それらをリンパ組織などの特定の細胞組織にターゲティングする、リポソームを介して投与することもできる。リポソームはまた、半減期を増大させるのにも有用である。リポソームは、エマルジョン、フォーム、ミセル、不溶性単層、液晶、リン脂質分散物、ラメラ層などを含む。これらの調製物において、送達されるべき新生抗原は、単独で、または、CD45抗原に結合するモノクローナル抗体などの、例えば、リンパ系細胞の間で優性な受容体に結合する分子、または他の治療用組成物もしくは免疫原性組成物と共に、リポソームの一部として組み込まれる。したがって、所望の新生抗原で満たされたリポソームは、リンパ系細胞の部位へ方向付けられることができ、そこで、リポソームは次いで、選択された治療用/免疫原性組成物を送達する。リポソームは、概して、中性及び負電荷を有するリン脂質、及びコレステロールなどのステロールを含む、標準的な小胞形成脂質から形成され得る。脂質の選択は、概して、例えば、リポソームサイズ、酸不安定性、及び血流におけるリポソームの安定性の考慮により手引きされる。例えば、Szoka et al., Ann.Rev.Biophys.Bioeng.9;467 (1980)、米国特許第4,235,871号、第4,501,728号、第4,501,728号、第4,837,028号、及び第5,019,369号に記載されているように、様々な方法を、リポソームを調製するために利用可能である。
免疫細胞へのターゲティングのために、リポソーム中に組み込まれるべきリガンドは、例えば、所望の免疫系細胞の細胞表面決定基に特異的な抗体またはその断片を含むことができる。リポソーム懸濁液は、とりわけ、投与の様式、送達されるペプチド、及び処置される疾患の病期にしたがって変動する用量で、静脈内、局所、局部などに投与することができる。
治療目的または免疫化目的で、本明細書に記載したペプチド、及び任意でペプチドの1つ以上をコードする核酸をまた、患者に投与することもできる。数多くの方法が、核酸を患者に送達するために好都合に使用される。例として、核酸を、「裸のDNA」として直接送達することができる。このアプローチは、例として、Wolff et al., Science 247:1465−1468 (1990)、ならびに米国特許第5,580,859号及び第5,589,466号に記載されている。核酸はまた、例として、米国特許第5,204,253号に記載されているような弾道送達を用いて投与することもできる。単にDNAからなる粒子を、投与することができる。あるいは、DNAを、金粒子などの粒子に接着させることができる。核酸配列を送達するためのアプローチは、エレクトロポレーションを伴うかまたは伴わない、ウイルスベクター、mRNAベクター、及びDNAベクターを含むことができる。
核酸はまた、カチオン性脂質などのカチオン性化合物に複合体化させて送達することもできる。脂質媒介性遺伝子送達法は、例として、9618372WOAWO 96/18372;9324640WOAWO 93/24640;Mannino & Gould−Fogerite, BioTechniques 6(7): 682−691 (1988);米国特許第5,279,833号 Rose、米国特許第5,279,833号;9106309WOAWO 91/06309;及びFelgner et al., Proc.Natl.Acad.Sci.USA 84: 7413−7414 (1987)に記載されている。
新生抗原はまた、ワクシニア、鶏痘、自己複製アルファウイルス、マラバウイルス、アデノウイルス(例えば、Tatsis et al., Adenoviruses, Molecular Therapy (2004) 10, 616−629を参照されたい)、または、第2、第3、もしくはハイブリッド第2/第3世代のレンチウイルス、及び特異的な細胞タイプもしくは受容体を標的とするように設計された任意の世代の組換えレンチウイルスを含むがそれらに限定されないレンチウイルス(例えば、Hu et al., Immunization Delivered by Lentiviral Vectors for Cancer and Infectious Diseases, Immunol Rev.(2011) 239(1): 45−61、Sakuma et al., Lentiviral vectors:basicto translational, Biochem J.(2012) 443(3):603−18、Cooper et al., Rescue of splicing−mediated intron loss maximizes expression in lentiviral vectors containing the human ubiquitin C promoter, Nucl.AcidsRes.(2015) 43 (1): 682−690、Zufferey et al., Self−Inactivating Lentivirus Vector for Safe and Efficient In Vivo Gene Delivery,J.Virol.(1998) 72 (12): 9873−9880を参照されたい)などの、ウイルスベクターベースのワクチンプラットフォームに含めることもできる。上述のウイルスベクターベースのワクチンプラットフォームのパッケージング能力に依存して、このアプローチは、1つ以上の新生抗原ペプチドをコードする1つ以上のヌクレオチド配列を送達することができる。配列は、非変異配列が隣接していてもよく、リンカーによって分離されていてもよく、または、細胞内区画を標的とする1つもしくは複数の配列が先行していてもよい(例えば、Gros et al.,Prospective identification of neoantigen−specific lymphocytes in the peripheral blood of melanoma patients,Nat Med.(2016) 22 (4):433−8、Stronen et al.,Targeting of cancer neoantigens with donor−derived T cell receptor repertoires,Science.(2016) 352 (6291):1337−41、Lu et al.,Efficient identification of mutated cancer antigens recognized by T cells associated with durable tumor regressions,Clin Cancer Res.(2014) 20(13):3401−10を参照されたい)。宿主中への導入時に、感染した細胞は、新生抗原を発現し、それにより、ペプチドに対する宿主免疫(例えば、CTL)応答を惹起する。免疫化プロトコールにおいて有用なワクシニアベクター及び方法は、例えば、米国特許第4,722,848号に記載されている。別のベクターは、BCG(カルメット・ゲラン桿菌)である。BCGベクターは、Stover et al.(Nature 351:456−460 (1991))に記載されている。新生抗原の治療的投与または免疫化に有用な、多種多様の他のワクチンベクター、例えば、チフス菌ベクターなどが、本明細書における記載から当業者に明らかであろう。
核酸を投与する手段は、1つ以上のエピトープをコードするミニ遺伝子構築物を使用する。ヒト細胞における発現のための、選択されたCTLエピトープをコードするDNA配列(ミニ遺伝子)を作製するために、エピトープのアミノ酸配列を逆翻訳する。各アミノ酸に対するコドン選択を手引きするために、ヒトコドン使用頻度表を使用する。これらのエピトープをコードするDNA配列を、直接隣り合わせて、連続的なポリペプチド配列を作製する。発現及び/または免疫原性を最適化するために、追加の要素を、ミニ遺伝子設計中に組み入れることができる。逆翻訳して、ミニ遺伝子配列に含めることができるアミノ酸配列の例は、ヘルパーTリンパ球エピトープ、リーダー(シグナル)配列、及び小胞体保持シグナルを含む。加えて、CTLエピトープのMHC提示は、CTLエピトープに近接した合成の(例えば、ポリアラニン)または天然に存在する隣接配列を含むことによって、改善することができる。ミニ遺伝子配列は、ミニ遺伝子のプラス鎖及びマイナス鎖をコードするオリゴヌクレオチドをアセンブルすることによって、DNAに変換される。オーバーラップするオリゴヌクレオチド(30〜100塩基長)を、周知の技法を用いて適切な条件下で、合成し、リン酸化し、精製し、アニーリングする。オリゴヌクレオチドの端は、T4DNAリガーゼを用いて連結する。CTLエピトープポリペプチドをコードするこの合成ミニ遺伝子を、次いで、望ましい発現ベクター中にクローニングすることができる。
精製プラスミドDNAは、様々な製剤を用いて、注射のために調製することができる。これらのうちでもっとも単純なものは、滅菌リン酸緩衝食塩水(PBS)における凍結乾燥DNAの再構成である。様々な方法が記載されており、新たな技法が利用可能になり得る。上記で言及したように、核酸は、カチオン性脂質で好都合に製剤化される。加えて、糖脂質、融合性リポソーム、ペプチド、及び保護的、相互作用的、非縮合性(PINC)と集合的に呼ばれる化合物もまた、精製プラスミドDNAと複合体化させて、安定性、筋肉内分散、または特異的な器官もしくは細胞タイプへの輸送などの変数に影響を及ぼすことができる。
また、本明細書に開示する方法の工程を行うこと;及び、多数の新生抗原または多数の新生抗原のサブセットを含む腫瘍ワクチンを生産する工程を含む、腫瘍ワクチンを製造する方法も、本明細書に開示する。
本明細書に開示する新生抗原は、当技術分野において公知の方法を用いて製造することができる。例えば、本明細書に開示する新生抗原またはベクター(例えば、1つ以上の新生抗原をコードする少なくとも1つの配列を含むベクター)を生産する方法は、新生抗原またはベクターを発現するのに適している条件下で宿主細胞を培養する工程であって、宿主細胞が、新生抗原またはベクターをコードする少なくとも1つのポリヌクレオチドを含む工程、及び、新生抗原またはベクターを精製する工程を含むことができる。標準的な精製法は、クロマトグラフィー技法、電気泳動技法、免疫学的技法、沈降技法、透析技法、濾過技法、濃縮技法、及びクロマトフォーカシング技法を含む。
宿主細胞は、チャイニーズハムスター卵巣(CHO)細胞、NS0細胞、酵母、またはHEK293細胞を含むことができる。宿主細胞は、本明細書に開示する新生抗原またはベクターをコードする少なくとも1つの核酸配列を含む、1つ以上のポリヌクレオチドで形質転換することができ、任意で、単離されたポリヌクレオチドは、新生抗原またはベクターをコードする少なくとも1つの核酸配列に機能的に連結されたプロモーター配列をさらに含む。ある特定の実施形態において、単離されたポリヌクレオチドは、cDNAであることができる。
VI.新生抗原の特定
VI.A.新生抗原候補の特定
腫瘍及び正常のエクソーム及びトランスクリプトームのNGS解析のための研究法を、新生抗原の特定のスペースに記載し、適用している6,14,15。下記の例は、臨床設定における新生抗原の特定について、より大きな感度及び特異性のためのある特定の最適化を考慮している。これらの最適化は、実験室プロセスに関連するもの及びNGSデータ解析に関連するものの、2つの区域にグループ化することができる。
VI.A.1.実験室プロセスの最適化
本明細書に提示したプロセスの改善は、標的とされるがんパネルにおける信頼できるがんドライバー遺伝子の評価について開発された概念16を、新生抗原の特定のために必要な全エクソーム設定及び全トランスクリプトーム設定に拡大することによって、低い腫瘍含量及び少ない体積の臨床標本からの高精度の新生抗原の発見における難題に対処する。具体的には、これらの改善は、以下を含む:
1.低い腫瘍含量またはサブクローン状態のいずれかにより、低い変異体アレル頻度で存在する変異を検出するための、腫瘍エクソームにわたる深い(500xよりも大きい)固有の平均カバレッジのターゲティング。
2.可能性のある新生抗原の見逃しが最も少ないように、100x未満でカバーされる塩基が5%未満である、例として、
a. 個々のプローブQCを有するDNAベースの捕捉プローブの使用17
b.十分にカバーされていない領域についての追加的なベイトの包含
3.可能性のある新生抗原が体細胞性/生殖細胞系列ステータスについて分類されていないままである(したがってTSNAとして使用可能ではない)ことが最も少ないように、20x未満でカバーされる塩基が5%未満である、正常エクソームにわたる均一カバレッジのターゲティング。
4.必要とされるシークエンシングの総量を最小化するために、配列捕捉プローブは、非コードRNAは新生抗原を生じることができないことから、遺伝子のコード領域のみについて設計される。追加的な最適化は、以下を含む:
a.GCリッチであり、標準的なエクソームシークエンシングでは十分に捕捉されないHLA遺伝子についての補充的プローブ18。
b.不十分な発現、プロテアソームによる最適に満たない消化、または異例の配列特性などの要因により、候補新生抗原を少ししかまたは全く生成しないと予測される遺伝子の排除。
5.変異検出、遺伝子及びスプライス変異体(「アイソフォーム」)発現の定量、ならびに融合物検出を可能にするために、腫瘍RNAが同様に、高深度(100Mリードよりも大きい)でシークエンシングされる。FFPE試料由来のRNAは、DNAにおいてエクソームを捕捉するために使用されるのと同じまたは類似したプローブで、プローブベース濃縮19を用いて抽出される。
VI.A.2.NGSデータ解析の最適化
解析法の改善は、一般的な研究変異コーリングアプローチの最適に満たない感度及び特異性に対処し、具体的には、臨床設定における新生抗原の特定のために関連するカスタマイズ化を考慮する。これらは、以下を含む:
1.アラインメントのための、HG38参照ヒトゲノムまたはより後のバージョンの使用(それが、以前のゲノムリリースとは対照的に、集団多型をより良好に反映する複数のMHC領域アセンブリーを含有するため)。
2.様々なプログラム5からの結果をマージすることによる、単一変異コーラー20の限界の克服。
a.単一ヌクレオチド変異及び挿入欠失は、以下を含む一連のツールで、腫瘍DNA、腫瘍RNA、及び正常DNAから検出される:Strelka21及びMutect22などの、腫瘍及び正常DNAの比較に基づくプログラム;ならびに、低純度の試料において特に有利である23、UNCeqRなどの、腫瘍DNA、腫瘍RNA、及び正常DNAを組み入れるプログラム。
b.挿入欠失は、Strelka及びABRA24などの、局所リアセンブリーを行うプログラムで決定される。
c.構造的再編成は、Pindel25またはBreakseq26などの専用のツールを用いて決定される。
3.試料スワップを検出して阻止するために、同じ患者についての試料由来の変異コールが、選ばれた数の多型部位で比較される。
4.例として、以下による、人工的コールの広範囲のフィルタリングが行われる:
a.潜在的に、低いカバレッジの例においては緩やかな検出パラメータで、及び挿入欠失の例においては許容的な近接基準での、正常DNAにおいて見出される変異の除去。
b.低いマッピング品質または低い塩基品質による変異の除去27。
c.たとえ対応する正常において観察されないとしても、再出現するシークエンシングアーチファクトから生じる変異の除去27。例は、主として1本の鎖上に検出される変異を含む。
d.無関連の対照のセットにおいて検出される変異の除去27。
5.seq2HLA28、ATHLATES29、またはOptitypeのうちの1つを使用する、かつまた、エクソーム及びRNAシークエンシングデータを組み合わせる28、正常エクソームからの正確なHLAコーリング。追加的な潜在的最適化は、ロングリードDNAシークエンシングなどの、HLAタイピングのための専用アッセイの採用30、または、RNA断片を連結して連続性を保持するための方法の適応31を含む。
6.腫瘍特異的スプライス変異体から生じた新生ORFの堅牢な検出は、CLASS32、Bayesembler33、StringTie34、またはそのリファレンスガイドモードにおける類似したプログラム(すなわち、各実験からそれらの全体の転写産物を再作製するように試みるよりもむしろ、公知の転写産物構造を用いる)を用いて、RNA−seqデータから転写産物をアセンブルすることによって、行われる。Cufflinks35が、この目的で一般的に使用されるが、それは頻繁に、信じ難いほど多数のスプライス変異体を産生し、それらの多くは、完全長遺伝子よりもはるかに短く、単純な陽性対照をリカバーすることができない場合がある。コード配列及び潜在的なナンセンス変異依存分解機構は、変異体配列を再導入した、SpliceR36及びMAMBA37などのツールで決定される。遺伝子発現は、Cufflinks35またはExpress(Roberts and Pachter,2013)などのツールで決定される。野生型及び変異体特異的な発現カウント及び/または相対レベルは、ASE38またはHTSeq39などの、これらの目的で開発されたツールで決定される。潜在的なフィルタリング段階は、以下を含む:
a.不十分に発現されていると考えられる候補新生ORFの除去。
b.ナンセンス変異依存分解機構(NMD)を引き起こすと予測される候補新生ORFの除去。
7.腫瘍特異的と直接検証することができない、RNAにおいてのみ観察される候補新生抗原(例えば、新生ORF)は、例として以下を考慮することにより、追加的なパラメータにしたがって、腫瘍特異的である可能性が高いとして分類される:
a.腫瘍DNAのみのシス作用性フレームシフトまたはスプライス部位変異の支持の存在。
b.スプライシング因子における腫瘍DNAのみのトランス作用性変異の確証の存在。例として、R625変異体SF3B1での3つの独立して公開された実験において、最も差次的にスプライシングを呈する遺伝子は、1つの実験がブドウ膜黒色腫患者を検討し40、第2の実験がブドウ膜黒色腫細胞株を検討し41、及び第3の実験が乳がん患者を検討した42にもかかわらず、一致していた。
c.新規のスプライシングアイソフォームについては、RNASeqデータにおける「新規の」スプライス−ジャンクションリードの確証の存在。
d.新規の再編成については、正常DNAには存在しない腫瘍DNAにおけるエクソン近傍リードの確証の存在。
e.GTEx43などの遺伝子発現大要からの欠如(すなわち、生殖細胞系列起源の可能性をより低くする)。
8.アラインメント及びアノテーションベースのエラー及びアーチファクトを直接避けるために、アセンブルされたDNAの腫瘍及び正常リード(またはそのようなリード由来のkマー)を比較することによる、参照ゲノムアラインメントベースの解析の補完(例えば、生殖細胞系列変異またはリピートコンテクスト挿入欠失の近くに生じる体細胞性変異について)。
ポリアデニル化RNAを有する試料において、RNA−seqデータにおけるウイルスRNA及び微生物RNAの存在は、患者の応答を予測し得る追加的因子の特定に向かって、RNA CoMPASS44または類似した方法を用いて評価される。
VI.B.HLAペプチドの単離及び検出
HLAペプチド分子の単離は、組織試料の溶解及び可溶化後に、古典的な免疫沈降(IP)法を用いて行った55〜58。清澄化した溶解物を、HLA特異的IPに使用した。
免疫沈降は、抗体がHLA分子に特異的である、ビーズにカップリングした抗体を用いて行った。汎クラスI HLA免疫沈降のためには、汎クラスI CR抗体を使用し、クラスII HLA−DRのためには、HLA−DR抗体を使用する。抗体を、一晩インキュベーション中に、NHS−セファロースビーズに共有結合で付着させる。共有結合性の付着後、ビーズを洗浄して、IPのために等分した
59、60。ビーズに共有結合されていない抗体を用いて免疫沈降を行うこともできる。一般的に、これは、抗体をカラムに保持するためにプロテインA及び/またはプロテインGでコーティングしたセファロースまたは磁気ビーズを使用して行われる。MHC/ペプチド複合体を選択的に濃縮するために使用することができるいくつかの抗体を下記に示す。
清澄化した組織溶解物を、免疫沈降のために抗体ビーズに添加する。免疫沈降後、ビーズを溶解物から除去し、追加的なIPを含む追加的な実験のために、溶解物を保存する。標準的な技法を用いて、IPビーズを洗浄して非特異的結合を除去し、HLA/ペプチド複合体をビーズから溶出する。分子量スピンカラムまたはC18分画を用いて、タンパク質構成要素をペプチドから除去する。結果として生じたペプチドを、SpeedVac蒸発によって乾燥させ、いくつかの場合には、MS解析の前に−20℃で保存する。
乾燥したペプチドを、逆相クロマトグラフィーに適しているHPLC緩衝液において再構成し、Fusion Lumos質量分析計(Thermo)における勾配溶出のために、C−18マイクロキャピラリーHPLCカラム上にロードする。ペプチド質量/電荷(m/z)のMS1スペクトルを、Orbitrap検出器において高解像度で収集し、その後、MS2低解像度スキャンを、選択イオンのHCDフラグメンテーション後にイオントラップ検出器において収集した。追加的に、MS2スペクトルは、CIDもしくはETDフラグメンテーション法、または、ペプチドのより大きなアミノ酸カバレッジを獲得するための3つの技法の任意の組み合わせのいずれかを用いて、取得することができる。MS2スペクトルはまた、Orbitrap検出器において高解像度質量精度で測定することもできる。
各解析由来のMS2スペクトルを、Comet61、62を用いてタンパク質データベースに対して検索し、ペプチド特定を、Percolator63〜65を用いてスコア化する。PEAKS studio(Bioinformatics Solutions Inc.)及び他のサーチエンジンを用いてさらなるシークエンシングを行うか、またはスペクトルマッチング及びデノボシークエンシング75を含むシークエンシング法を用いることができる。
VI.B.1.総合的HLAペプチドシークエンシングのためのMS検出限界の研究
ペプチドYVYVADVAAKを用いて、何が検出の限界かを、LCカラム上にロードした様々な量のペプチドを用いて決定した。試験したペプチドの量は、1pmol、100fmol、10fmol、1fmol、及び100amolであった。(表1)結果を図1Fに示す。これらの結果は、検出の最低限界(LoD)がアトモルの範囲(10−18)にあること、ダイナミックレンジが5桁に及ぶこと、及び、シグナル対ノイズが、低いフェムトモル範囲(10−15)でシークエンシングに十分であるように見えることを示す。
VII.提示モデル
VII.A.システムの概要
図2Aは、1つの実施形態にしたがう、患者におけるペプチド提示の尤度を特定するための環境100の概要である。環境100は、それ自体が提示情報記憶装置165を含む提示特定システム160を導入するコンテクストを提供する。
提示特定システム160は、図14に関して下記で議論されるようなコンピュータ計算システムにおいて具現化された、1つまたはコンピュータモデルであり、MHCアレルのセットに関連するペプチド配列を受け取り、ペプチド配列が、関連するMHCアレルのセットの1つ以上によって提示されるであろう尤度を決定する。提示特定システム160はクラスI及びクラスII MHCアレルの両方に適用することができる。これは、様々なコンテクストにおいて有用である。提示特定システム160の1つの具体的な用途の例は、患者110の腫瘍細胞由来のMHCアレルのセットに関連する候補新生抗原のヌクレオチド配列を受け取り、候補新生抗原が、腫瘍の関連するMHCアレルの1つ以上によって提示され、及び/または患者110の免疫系において免疫原性応答を誘導するであろう尤度を決定することができることである。システム160によって決定された際に高い尤度を有するそれらの候補新生抗原を、ワクチン118における包含のために選択することができ、そのような抗腫瘍免疫応答が、腫瘍細胞を提供する患者110の免疫系から惹起され得る。
提示特定システム160は、1つ以上の提示モデルを通して提示尤度を決定する。具体的には、提示モデルは、所定のペプチド配列が、関連するMHCアレルのセットについて提示されるかどうかの尤度を生成し、尤度は、記憶装置165に保存された提示情報に基づいて生成される。例えば、提示モデルは、ペプチド配列「YVYVADVAAK」が、試料の細胞表面上のアレルのセットHLA−A*02:01、HLA−A*03:01、HLA−B*07:02、HLA−B*08:03、HLA−C*01:04について提示されるかどうかの尤度を生成し得る。提示情報165は、MHCアレルによってペプチドが提示されるようにこれらのペプチドが様々なタイプのMHCアレルに結合するかどうかについての情報を含有し、これは、モデルにおいて、ペプチド配列中のアミノ酸の位置に応じて決定される。提示モデルは、提示情報165に基づいて、認識されていないペプチド配列が、MHCアレルの関連するセットと結合して提示されるかどうかを予測することができる。上記に述べたように、提示モデルはクラスI及びクラスII MHCアレルの両方に適用することができる。
VII.B.提示情報
図2は、1つの実施形態にしたがう、提示情報を取得する方法を説明する。提示情報165は、2つの一般的部類の情報:アレル相互作用情報及びアレル非相互作用情報を含む。アレル相互作用情報は、MHCアレルのタイプに依存する、ペプチド配列の提示に影響を及ぼす情報を含む。アレル非相互作用情報は、MHCアレルのタイプに非依存的な、ペプチド配列の提示に影響を及ぼす情報を含む。
VII.B.1.アレル相互作用情報
アレル相互作用情報は、主として、ヒト、マウスなど由来の1つ以上の特定されたMHC分子によって提示されていることが公知である、特定されたペプチド配列を含む。注目すべきことに、これは、腫瘍試料から取得されたデータを含んでもよく、または含まなくてもよい。提示されたペプチド配列は、単一のMHCアレルを発現する細胞から特定されてもよい。この例において、提示されたペプチド配列は、概して、あらかじめ決定されたMHCアレルを発現するように操作されてその後合成タンパク質に曝露された単一アレル細胞株から収集される。MHCアレル上に提示されたペプチドは、酸溶出などの技法によって単離され、質量分析により特定される。図2Bは、あらかじめ決定されたMHCアレルHLA−DRB1*12:01上に提示された例示的なペプチド
が単離され、質量分析により特定される、この例を示す。この状況においては、ペプチドが、単一のあらかじめ決定されたMHCタンパク質を発現するように操作された細胞を通して特定されるため、提示されたペプチドとそれが結合したMHCタンパク質との間の直接の関連が、決定的に既知である。
提示されたペプチド配列はまた、複数のMHCアレルを発現する細胞から収集されてもよい。典型的にヒトにおいては、6種類の異なるタイプのMHC−I分子及び最大で12種類の異なるタイプのMHC−II分子が細胞で発現している。そのような提示されたペプチド配列は、複数のあらかじめ決定されたMHCアレルを発現するように操作されている複数アレル細胞株から特定されてもよい。そのような提示されたペプチド配列はまた、正常組織試料または腫瘍組織試料のいずれかの、組織試料から特定されてもよい。この例において特に、MHC分子は、正常組織または腫瘍組織から免疫沈降させることができる。複数のMHCアレル上に提示されたペプチドは、同様に、酸溶出などの技法によって単離され、質量分析により特定されることができる。図2Cは、6種類の例示的なペプチド
が、特定されたクラスI MHCアレルHLA−A*01:01、HLA−A*02:01、HLA−B*07:02、HLA−B*08:01、及びクラスII MHCアレルHLA−DRB1*10:01、HLA−DRB1:11:01上に提示されており、単離され、質量分析により特定される、この例を示す。単一アレル細胞株とは対照的に、結合したペプチドが、特定される前のMHC分子から単離されるため、提示されたペプチドとそれが結合したMHCタンパク質との間の直接の関連は、未知である可能性がある。
アレル相互作用情報はまた、ペプチド−MHC分子複合体の濃度、及びペプチドのイオン化効率の両方に依存する、質量分析イオン電流も含むことができる。イオン化効率は、配列依存性様式で、ペプチドごとに変動する。概して、イオン効率は、およそ2桁にわたってペプチドごとに変動し、他方、ペプチド−MHC複合体の濃度は、それよりも大きい範囲にわたって変動する。
アレル相互作用情報はまた、所定のMHCアレルと所定のペプチドとの間の結合親和性の測定値または予測値も含むことができる。1つ以上の親和性モデルが、そのような予測値を生成することができる(72,73,74)。例えば、図1Dに示した例に戻ると、提示情報165は、ペプチドYEMFNDKSFとクラスIアレルHLA−A
*01:01との間の1000nMの結合親和性予測値を含み得る。IC50>1000nmであるペプチドはわずかしか、MHCによって提示されず、より低いIC50値が、提示の確率を増大させる。提示情報165は、ペプチド
とクラスIIアレルHLA−DRB1:11:01との間の結合親和性予測値を含み得る。
アレル相互作用情報はまた、MHC複合体の安定性の測定値または予測値も含むことができる。1つ以上の安定性モデルが、そのような予測値を生成することができる。より安定なペプチド−MHC複合体(すなわち、より長い半減期を有する複合体)は、腫瘍細胞上、及びワクチン抗原に遭遇する抗原提示細胞上に高コピー数で提示される可能性がより高い。例えば、図2Cに示した例に戻ると、提示情報165は、クラスI分子HLA−A*01:01について1時間の半減期の安定性予測値を含み得る。提示情報165はクラスII分子HLA−DRB1:11:01の半減期の安定性予測値も含み得る。
アレル相互作用情報はまた、ペプチド−MHC複合体の形成反応の、測定されたかまたは予測された速度も含むことができる。より速い速度で形成する複合体は、高濃度で細胞表面上に提示される可能性がより高い。
アレル相互作用情報はまた、ペプチドの配列及び長さも含むことができる。MHCクラスI分子は典型的に、8〜15ペプチドの長さを有するペプチドを提示することを好む。提示されたペプチドの60〜80%は、長さ9を有する。MHCクラスII分子は一般的にペプチド6〜30個の長さを有するペプチドを提示する傾向にある。
アレル相互作用情報はまた、新生抗原コード化ペプチド上のキナーゼ配列モチーフの存在、及び新生抗原コード化ペプチド上の特異的な翻訳後修飾の有無も含むことができる。キナーゼモチーフの存在は、MHC結合を増強または干渉し得る、翻訳後修飾の確率に影響を及ぼす。
アレル相互作用情報はまた、(RNA seq、質量分析、または他の方法によって測定されたかまたは予測された際の)翻訳後修飾のプロセスに関与するタンパク質、例えば、キナーゼの発現または活性レベルも含むことができる。
アレル相互作用情報はまた、質量分析プロテオミクスまたは他の手段によって評価された際の、特定のMHCアレルを発現する他の個体由来の細胞における、類似した配列を有するペプチドの提示の確率も含むことができる。
アレル相互作用情報はまた、(例えば、RNA−seqまたは質量分析によって測定された際の)問題の個体における特定のMHCアレルの発現レベルも含むことができる。高レベルで発現しているMHCアレルに最も強く結合するペプチドは、低レベルで発現しているMHCアレルに最も強く結合するペプチドよりも、提示される可能性がより高い。
アレル相互作用情報はまた、特定のMHCアレルを発現する他の個体における、特定のMHCアレルによる提示の、全体的な新生抗原コード化ペプチド配列非依存的確率も含むことができる。
アレル相互作用情報はまた、他の個体における同じファミリーの分子(例えば、HLA−A、HLA−B、HLA−C、HLA−DQ、HLA−DR、HLA−DP)のMHCアレルによる提示の、全体的なペプチド配列に非依存的な確率も含むことができる。例えば、HLA−C分子は典型的に、HLA−AまたはHLA−B分子よりも低いレベルで発現しており、したがって、HLA−Cによるペプチドの提示は、HLA−AまたはHLA−B IIによる提示よりも先験的に確率が低い。別の例として、HLA−DPは一般的にHLA−DRまたはHLA−DQよりも低いレベルで発現されることから、HLA−DPによるペプチドの提示はHLA−DRまたはHLA−DQによる提示よりもより確率が低いものと推測される。
アレル相互作用情報はまた、特定のMHCアレルのタンパク質配列も含むことができる。
下記のセクションに列挙される任意のMHCアレル非相互作用情報もまた、MHCアレル相互作用情報としてモデル化することができる。
VII.B.2.アレル非相互作用情報
アレル非相互作用情報は、そのソースタンパク質配列内の、新生抗原コード化ペプチドに隣接するC末端配列を含むことができる。MHC−Iでは、C末端フランキング配列は、ペプチドのプロテアソームプロセシングに影響を及ぼし得る。しかし、C末端フランキング配列は、ペプチドが小胞体に輸送され、細胞の表面上のMHCアレルと遭遇する前に、プロテアソームによってペプチドから切断される。その結果、MHC分子は、C末端フランキング配列についてのいかなる情報も受け取らず、したがって、C末端フランキング配列の効果は、MHCアレルタイプに応じて変動することができない。例えば、図2Cに示した例に戻ると、提示情報165は、ペプチドのソースタンパク質から特定された、提示されたペプチドFJIEJFOESSのC末端フランキング配列
を含み得る。
アレル非相互作用情報はまた、mRNA定量測定値も含むことができる。例えば、mRNA定量データは、質量分析訓練データを提供する同じ試料について取得することができる。図13Hに関して後に記載するように、RNA発現は、ペプチド提示の強い予測因子であると特定された。一実施形態では、mRNA定量測定値は、ソフトウェアツールRSEMから特定される。RSEMソフトウェアツールの詳細な実行は、Bo Li and Colin N.Dewey.RSEM: accurate transcript quantification from RNA−Seq data with or without a reference genome.BMC Bioinformatics,12:323,August 2011で見出すことができる。一実施形態では、mRNA定量は、100万個のマップされたリードあたりの転写産物のキロ塩基あたりの断片の単位(FPKM)で測定される。
アレル非相互作用情報はまた、そのソースタンパク質配列内の、ペプチドに隣接するN末端配列も含むことができる。
アレル非相互作用情報はペプチド配列のソース遺伝子も含むことができる。ソース遺伝子はペプチド配列のEnsemblタンパク質ファミリーとして定義することができる。他の例では、ソース遺伝子はペプチド配列のソースDNAまたはソースRNAとして定義することができる。ソース遺伝子は、例えば、タンパク質をコードするヌクレオチドのストリングとして表すか、またはその代わりに、特定のタンパク質をコードしていることが知られている既知のDNAまたはRNA配列の命名されたセットに基づいてよりカテゴリー化された形で表すことができる。別の例では、アレル非相互作用情報は、EnsemblまたはRefSeqのようなデータベースから抽出されたペプチド配列のソース転写産物もしくはアイソフォームまたは潜在的なソース転写産物もしくはアイソフォームのセットも含むことができる。
アレル非相互作用情報はまた、ペプチド配列が由来する細胞の組織タイプ、細胞タイプ、または腫瘍タイプも含むことができる。
アレル非相互作用情報はまた、(RNA−seqまたは質量分析によって測定された際の)任意で、腫瘍細胞における対応するプロテアーゼの発現にしたがって重み付けされる、ペプチドにおけるプロテアーゼ切断モチーフの存在も含むことができる。プロテアーゼ切断モチーフを含有するペプチドは、プロテアーゼによってより容易に分解され、したがって細胞内で安定性がより低いことになるため、提示される可能性がより低い。
アレル非相互作用情報はまた、適切な細胞タイプにおいて測定された際の、ソースタンパク質の代謝回転速度も含むことができる。より速い代謝回転速度(すなわち、より低い半減期)は提示の確率を増大させるが、類似していない細胞タイプにおいて測定された場合、この特性の予測力は低い。
アレル非相互作用情報はまた、RNA−seqもしくはプロテオーム質量分析によって測定された際、または、DNAもしくはRNA配列データにおいて検出される生殖細胞系列もしくは体細胞性スプライシング変異のアノテーションから予測された際の、任意で、腫瘍細胞において最も高発現している特異的なスプライス変異体(「アイソフォーム」)を考慮する、ソースタンパク質の長さも含むことができる。
アレル非相互作用情報はまた、(RNA−seq、プロテオーム質量分析、または免疫組織化学によって測定され得る)腫瘍細胞におけるプロテアソーム、イムノプロテアソーム、胸腺プロテアソーム、または他のプロテアーゼの発現のレベルも含むことができる。異なるプロテアソームは、異なる切断部位の好みを有する。より大きい重みが、その発現レベルに比例して、プロテアソームの各タイプの切断の好みに与えられる。
アレル非相互作用情報はまた、(例えば、RNA−seqまたは質量分析によって測定された際の)ペプチドのソース遺伝子の発現も含むことができる。可能な最適化は、腫瘍試料内の間質細胞及び腫瘍浸潤リンパ球の存在を説明する、測定された発現を調整することを含む。より高発現している遺伝子由来のペプチドは、提示される可能性がより高い。検出不可能なレベルの発現を有する遺伝子由来のペプチドは、考察から排除することができる。
アレル非相互作用情報はまた、新生抗原コード化ペプチドのソースmRNAが、ナンセンス変異依存分解機構のモデル、例えば、Rivas et al,Science 2015からのモデルによって予測されるようなナンセンス変異依存分解機構に供されるであろう確率も含むことができる。
アレル非相互作用情報はまた、細胞周期の種々の段階の最中の、ペプチドのソース遺伝子の典型的な組織特異的発現も含むことができる。(RNA−seqまたは試料分析プロテオミクスによって測定された際に)全体的に低いレベルで発現しているが、細胞周期の特異的な段階の最中に高レベルで発現していることが公知である遺伝子は、非常に低いレベルで安定に発現している遺伝子よりも、より提示されるペプチドを産生する可能性が高い。
アレル非相互作用情報はまた、例えば、uniProtまたはPDB http://www.rcsb.org/pdb/home/home.doにおいて与えられるような、ソースタンパク質の特性の総合的なカタログも含むことができる。これらの特性は、とりわけ、タンパク質の二次構造及び三次構造、細胞内局在化11、遺伝子オントロジー(GO)用語を含み得る。具体的には、この情報は、タンパク質のレベルで作用するアノテーション、例えば、5’UTR長、及び特異的残基のレベルで作用するアノテーション、例えば、残基300〜310のヘリックスモチーフを含有し得る。これらの特性はまた、ターンモチーフ、シートモチーフ、及び無秩序残基も含むことができる。
アレル非相互作用情報はまた、ペプチドを含有するソースタンパク質のドメインの性状を説明する特性、例えば、二次構造または三次構造(例えば、αヘリックス対βシート);選択的スプライシングも含むことができる。
アレル非相互作用情報はまた、ペプチドのソースタンパク質におけるペプチドの位置での提示ホットスポットの有無を説明する特性も含むことができる。
アレル非相互作用情報はまた、他の個体における問題のペプチドのソースタンパク質由来のペプチドの提示の確率(それらの個体におけるソースタンパク質の発現レベル、及びそれらの個体の様々なHLAタイプの影響を調整した後)も含むことができる。
アレル非相互作用情報はまた、ペプチドが、技術的バイアスのために質量分析によって検出されないか、または過剰に表されるであろう確率も含むことができる。
腫瘍細胞、間質、または腫瘍浸潤リンパ球(TIL)の状態について情報を与える、RNASeq、マイクロアレイ、Nanostringなどの標的化パネルなどの、遺伝子発現アッセイ、または、RT−PCRなどのアッセイによって測定される遺伝子モジュールを代表する単一/複数遺伝子によって測定された際の、種々の遺伝子モジュール/経路の発現(ペプチドのソースタンパク質を含有する必要はない)。
アレル非相互作用情報はまた、腫瘍細胞におけるペプチドのソース遺伝子のコピー数も含むことができる。例えば、腫瘍細胞においてホモ接合性欠失に供される遺伝子由来のペプチドは、ゼロの提示確率を割り当てることができる。
アレル非相互作用情報はまた、ペプチドがTAPに結合する確率、または、測定されたかもしくは予測された、TAPに対するペプチドの結合親和性も含むことができる。TAPに結合する可能性がより高いペプチド、またはより高い親和性でTAPに結合するペプチドは、MHC−Iによって提示される可能性がより高い。
アレル非相互作用情報はまた、(RNA−seq、プロテオーム質量分析、免疫組織化学によって測定され得る)腫瘍細胞におけるTAPの発現レベルも含むことができる。MHC−Iでは、より高いTAP発現レベルは、すべてのペプチドの提示の確率を増大させる。
アレル非相互作用情報はまた、以下を含むがそれらに限定されない、腫瘍変異の有無も含むことができる:
i.EGFR、KRAS、ALK、RET、ROS1、TP53、CDKN2A、CDKN2B、NTRK1、NTRK2、NTRK3などの公知のがんドライバー遺伝子におけるドライバー変異。
ii.抗原提示マシナリーに関与するタンパク質をコードする遺伝子(例えば、B2M、HLA−A、HLA−B、HLA−C、TAP−1、TAP−2、TAPBP、CALR、CNX、ERP57、HLA−DM、HLA−DMA、HLA−DMB、HLA−DO、HLA−DOA、HLA−DOBHLA−DP、HLA−DPA1、HLA−DPB1、HLA−DQ、HLA−DQA1、HLA−DQA2、HLA−DQB1、HLA−DQB2、HLA−DR、HLA−DRA、HLA−DRB1、HLA−DRB3、HLA−DRB4、HLA−DRB5、または、プロテアソームもしくはイムノプロテアソームの構成要素をコードする遺伝子のいずれか)におけるもの。その提示が、腫瘍において機能喪失変異の影響下にある抗原提示マシナリーの構成要素に依拠するペプチドは、提示の確率が低減している。
以下を含むがそれらに限定されない、機能的生殖細胞系列多型の有無:
i.抗原提示マシナリーに関与するタンパク質をコードする遺伝子(例えば、B2M、HLA−A、HLA−B、HLA−C、TAP−1、TAP−2、TAPBP、CALR、CNX、ERP57、HLA−DM、HLA−DMA、HLA−DMB、HLA−DO、HLA−DOA、HLA−DOBHLA−DP、HLA−DPA1、HLA−DPB1、HLA−DQ、HLA−DQA1、HLA−DQA2、HLA−DQB1、HLA−DQB2、HLA−DR、HLA−DRA、HLA−DRB1、HLA−DRB3、HLA−DRB4、HLA−DRB5、または、プロテアソームもしくはイムノプロテアソームの構成要素をコードする遺伝子のいずれか)におけるもの。
アレル非相互作用情報はまた、腫瘍タイプ(例えば、NSCLC、黒色腫)も含むことができる。
アレル非相互作用情報はまた、例としてHLAアレル接尾辞によって反映されるような、HLAアレルの公知の機能性も含むことができる。例えば、アレル名HLA−A*24:09NにおけるNの接尾辞は、発現せず、したがってエピトープを提示する可能性が低いヌルアレルを示し;完全なHLAアレル接尾辞の命名法は、https://www.ebi.ac.uk/ipd/imgt/hla/nomenclature/suffixes.htmlに記載されている。
アレル非相互作用情報はまた、臨床的腫瘍サブタイプ(例えば、扁平上皮肺癌対非扁平上皮)も含むことができる。
アレル非相互作用情報はまた、喫煙歴も含むことができる。
アレル非相互作用情報はまた、日焼け、日光曝露、または他の変異原に対する曝露の経歴も含むことができる。
アレル非相互作用情報はまた、任意でドライバー変異によって層別化される、関連性のある腫瘍タイプまたは臨床的サブタイプにおけるペプチドのソース遺伝子の局部的発現も含むことができる。関連性のある腫瘍タイプにおいて典型的に高レベルで発現している遺伝子は、提示される可能性がより高い。
アレル非相互作用情報はまた、すべての腫瘍における、または同じタイプの腫瘍における、または少なくとも1つの共有されたMHCアレルを有する個体由来の腫瘍における、または少なくとも1つの共有されたMHCアレルを有する個体中の同じタイプの腫瘍における、変異の頻度も含むことができる。
変異した腫瘍特異的ペプチドの例において、提示の確率を予測するために使用される特性の一覧はまた、変異のアノテーション(例えば、ミスセンス、リードスルー、フレームシフト、融合など)、または、変異がナンセンス変異依存分解機構(NMD)を結果としてもたらすと予測されるかどうかも含み得る。例えば、ホモ接合性早期終止変異のために腫瘍細胞において翻訳されないタンパク質セグメント由来のペプチドは、ゼロの提示確率を割り当てることができる。NMDは、提示の確率を減少させる、mRNA翻訳の減少を結果としてもたらす。
VII.C.提示特定システム
図3は、1つの実施形態による、提示特定システム160のコンピュータ論理構成要素を説明する、ハイレベルブロック図である。この例示的実施形態において、提示特定システム160は、データ管理モジュール312、コード化モジュール314、訓練モジュール316、及び予測モジュール320を含む。提示特定システム160はまた、訓練データ記憶装置170及び提示モデル記憶装置175から構成される。モデル管理システム160のいくつかの実施形態は、本明細書に記載したものとは異なるモジュールを有する。同様に、機能は、本明細書に記載したものは異なる様式で、モジュールの間に分配され得る。
VII.C.1.データ管理モジュール
データ管理モジュール312は、提示情報165から訓練データ170のセットを生成する。各々の訓練データのセットは、多数のデータ例を含有し、各データ例iは、少なくとも、提示されるかまたは提示されないペプチド配列piと、ペプチド配列piと結合した1つ以上の関連するMHCアレルaiと、提示特定システム160が、独立変数の新たな値を予測することに関心があるという情報を表す従属変数yiとを含む、独立変数ziのセットを含有する。
本明細書の残りの部分を通じて言及される1つの特定の実現形態において、従属変数yiは、ペプチドpiが、1つ以上の関連するMHCアレルaiによって提示されたかどうかを示す、バイナリーラベルである。しかし、他の実現形態において、従属変数yiは、提示特定システム160が、独立変数ziに依存して予測することに関心があるという任意の他の種類の情報を表し得ることが、認識される。例えば、別の実現形態において、従属変数yiはまた、データ例について特定された質量分析イオン電流を示す数値であってもよい。
データ例iについてのペプチド配列piは、ki個のアミノ酸の配列であり、kiは、データ例iの間で、ある範囲内で変動し得る。例えば、その範囲は、MHCクラスIについては8〜15、またはMHCクラスIIについては6〜30であり得る。システム160の1つの具体的な実現形態において、訓練データセット中のすべてのペプチド配列piは、同じ長さ、例えば9を有し得る。ペプチド配列中のアミノ酸の数は、MHCアレルのタイプ(例えば、ヒトにおけるMHCアレルなど)に応じて変動し得る。データ例iについてのMHCアレルaiは、どのMHCアレルが対応するペプチド配列piと結合して存在したかを示す。
データ管理モジュール312はまた、訓練データ170に含有されるペプチド配列pi及び結合したMHCアレルaiと共に、結合親和性bi及び安定性siの予測値などの追加的なアレル相互作用変数も含み得る。例えば、訓練データ170は、ペプチドpiと、aiにおいて示される結合したMHC分子の各々との間の結合親和性予測値biを含有し得る。別の例として、訓練データ170は、aiにおいて示されるMHCアレルの各々についての安定性予測値siを含有し得る。
データ管理モジュール312はまた、ペプチド配列piと共に、C末端隣接配列及びmRNA定量測定値などのアレル非相互作用変数wiも含み得る。
データ管理モジュール312はまた、MHCアレルによって提示されないペプチド配列も特定して、訓練データ170を生成する。概して、これは、提示の前に、提示されるペプチド配列を含むソースタンパク質の「より長い」配列を特定することを含む。提示情報が、操作された細胞株を含有する場合、データ管理モジュール312は、細胞のMHCアレル上に提示されなかった、細胞がそれに対して曝露された合成タンパク質における一連のペプチド配列を特定する。提示情報が、組織試料を含有する場合、データ管理モジュール312は、提示されたペプチド配列の起源であるソースタンパク質を特定して、組織試料細胞のMHCアレル上に提示されなかった、ソースタンパク質における一連のペプチド配列を特定する。
データ管理モジュール312はまた、ランダム配列のアミノ酸を有するペプチドを人工的に生成し、生成された配列を、MHCアレル上に提示されないペプチドとして特定する。これは、ペプチド配列をランダムに生成することによって達成することができ、MHCアレル上に提示されないペプチドについての多量の合成データをデータ管理モジュール312が容易に生成することを可能にする。実際には、小さなパーセンテージのペプチド配列がMHCアレルによって提示されるため、合成で生成されたペプチド配列は、たとえそれらが細胞によってプロセシングされたタンパク質に含まれたとしても、MHCアレルによって提示されていない可能性が非常に高い。
図4は、1つの実施形態による、訓練データ170Aの例示的なセットを説明する。具体的には、訓練データ170A中の最初の3つのデータ例は、アレルHLA−C*01:03を含む単一アレル細胞株、ならびに3種類のペプチド配列
からのペプチド提示情報を示す。訓練データ170A中の4番目のデータ例は、アレルHLA−B*07:02、HLA−C*01:03、HLA−A*01:01を含む複数アレル細胞株、及びペプチド配列QIEJOEIJEからのペプチド情報を示す。最初のデータ例は、ペプチド配列QCEIOWAREが、アレルHLA−DRB3:01:01によって提示されなかったことを示す。前の2つの段落において議論したように、ネガティブ標識されたペプチド配列は、データ管理モジュール312によってランダムに生成されてもよく、または提示されるペプチドのソースタンパク質から特定されてもよい。訓練データ170Aはまた、ペプチド配列−アレルペアについて、1000nMの結合親和性予測値及び1時間の半減期の安定性予測値も含む。訓練データ170Aはまた、ペプチドFJELFISBOSJFIEのC末端フランキング配列、及び10
2TPMのmRNA定量測定値などの、アレル非相互作用変数も含む。4番目のデータ例は、ペプチド配列QIEJOEIJEが、アレルHLA−B*07:02、HLA−C*01:03、またはHLA−A*01:01のうちの1つによって提示されたことを示す。訓練データ170Aはまた、アレルの各々についての結合親和性予測値及び安定性予測値、ならびに、ペプチドのC末端フランキング配列及びペプチドについてのmRNA定量測定値も含む。
VII.C.2.コード化モジュール
コード化モジュール314は、訓練データ170に含有される情報を、1つ以上の提示モデルを生成するために使用することができる数値的表示へとコード化する。一実現形態では、コード化モジュール314は、配列(例えば、ペプチド配列またはC末端隣接配列)を、あらかじめ決定された20文字のアミノ酸アルファベットについて、ワン・ホットでコード化する。具体的には、k
i個のアミノ酸を有するペプチド配列p
iは、20・k
i要素の行ベクトルとして表され、ペプチド配列のj番目の位置のアミノ酸のアルファベットに対応するp
i 20・(j−1)+1,p
i 20・(j−1)+2,...,p
i 20・jの中の単一要素は、1の値を有する。その以外の、残りの要素は、0の値を有する。例として、所定のアルファベット{A,C,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y}について、データ例iの3個のアミノ酸のペプチド配列EAFは、60個の要素の行ベクトル
によって表され得る。C末端隣接配列c
i、ならびに、MHCアレルについてのタンパク質配列d
h、及び提示情報における他の配列データは、同様に、上記のようにコード化することができる。
訓練データ170が、異なる長さのアミノ酸の配列を含有する場合、コード化モジュール314は、さらに、あらかじめ決定されたアルファベットを拡張するようにPAD文字を追加することによって、ペプチドを同等の長さのベクトルへとコード化し得る。例えば、これは、ペプチド配列の長さが、訓練データ170において最大の長さを有するペプチド配列に達するまで、ペプチド配列をPAD文字でレフトパディングすることによって行われ得る。したがって、最大の長さを有するペプチド配列がk
最大個のアミノ酸を有する場合、コード化モジュール314は、各配列を、(20+1)・k
最大個の要素の行ベクトルとして数値的に表す。例として、拡張されたアルファベット{PAD,A,C,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y}及びk
最大=5の最大アミノ酸長について、3個のアミノ酸の同じ例示的なペプチド配列EAFは、105要素の行ベクトル
によって表され得る。C末端隣接配列c
iまたは他の配列データは、同様に、上記のようにコード化することができる。したがって、ペプチド配列p
iまたはc
iにおける各々の独立変数または列は、配列の特定の位置の特定のアミノ酸の存在を表す。
配列データをコード化する上記の方法は、アミノ酸配列を有する配列に関して記載したが、方法を、同様に、例えば、DNAまたはRNAの配列データなどの、他のタイプの配列データに拡張することができる。
コード化モジュール314はまた、データ例iについての1つ以上のMHCアレルaiを、m要素の行ベクトルへとコード化し、各要素h=1,2,...,mは、固有の特定されたMHCアレルに対応する。データ例iについて特定されたMHCアレルに対応する要素は、1の値を有する。その以外の、残りの要素は、0の値を有する。例として、m=4の固有の特定されたMHCアレルタイプ{HLA−A*01:01,HLA−C*01:08,HLA−B*07:02,HLA−DRB1*10:01}の中の、複数アレル細胞株に対応するデータ例iについてのアレルHLA−B*07:02及びHLA−DRB1*10:01は、4要素の行ベクトルai=[0 0 1 1]によって表され得、a3 i=1及びa4 i=1である。4種類の特定されたMHCアレルタイプでの例を、本明細書に記載するが、MHCアレルタイプの数は、実際には数百または数千であることができる。上記で述べたように、各データ例iは、典型的に、ペプチド配列piに関連して最大で6種類の異なるMHCアレルタイプを含む。
コード化モジュール314はまた、各データ例iについてのラベルyiを、{0,1}のセットからの値を有するバイナリー変数としてコード化し、1の値は、ペプチドxiが、関連するMHCアレルaiのうちの1つによって提示されたことを示し、0の値は、ペプチドxiが、関連するMHCアレルaiのいずれによっても提示されなかったことを示す。従属変数yiが、質量分析イオン電流を表す場合、コード化モジュール314は、[0,∞]の間のイオン電流値について[−∞,∞]の範囲を有するlog関数などの種々の関数を用いて、値を追加的にスケール調整し得る。
コード化モジュール314は、ペプチドpi及び関連するMHCアレルhについてのアレル相互作用変数xh iのペアを、アレル相互作用変数の数値的表示が次々に連結されている行ベクトルとして表し得る。例えば、コード化モジュール314は、xh iを、[pi]、[pibh i]、[pish i]、または[pibh ish i]と同等の行ベクトルとして表し得、ただし、bh iは、ペプチドpi及び関連するMHCアレルhについての結合親和性予測値であり、同様に、sh iは、安定性についてのものである。あるいは、アレル相互作用変数の1つ以上の組み合わせは、個々に(例えば、個々のベクトルまたは行列として)保存されてもよい。
1つの例において、コード化モジュール314は、結合親和性について測定されたかまたは予測された値をアレル相互作用変数xh iに組み入れることによって、結合親和性情報を表す。
1つの例において、コード化モジュール314は、結合安定性について測定されたかまたは予測された値をアレル相互作用変数xh iに組み入れることによって、結合安定性情報を表す
1つの例において、コード化モジュール314は、結合オンレートについて測定されたかまたは予測された値をアレル相互作用変数xh iに組み入れることによって、結合オンレート情報を表す。
1つの例において、クラスI MHC分子によって提示されるペプチドについて、コード化モジュール314は、ペプチド長を、ベクトル
(ただし、
は指標関数であり、L
kはペプチドp
kの長さを意味する)として表す。ベクトルT
kを、アレル相互作用変数x
h iに含めることができる。別の例では、クラスIIのMHC分子によって提示されるペプチドについて、コード化モジュール314はペプチド長をベクトル
(ただし、
は指標関数であり、L
kはペプチドp
kの長さを意味する)として表す。ベクトルT
kを、アレル相互作用変数x
h iに含めることができる。
1つの例において、コード化モジュール314は、MHCアレルのRNA−seqベースの発現レベルをアレル相互作用変数xhiに組み入れることによって、MHCアレルのRNA発現情報を表す。
同様に、コード化モジュール314は、アレル非相互作用変数wiを、アレル非相互作用変数の数値的表示が次々に連鎖している行ベクトルとして表し得る。例えば、wiは、[ci]または[cimiwi]と同等の行ベクトルであってもよく、wiは、ペプチドpiのC末端隣接配列及びペプチドに関連するmRNA定量測定値miに加えて任意の他のアレル非相互作用変数を表す、行ベクトルである。あるいは、アレル非相互作用変数の1つ以上の組み合わせは、個々に(例えば、個々のベクトルまたは行列として)保存されてもよい。
1つの例において、コード化モジュール314は、代謝回転速度または半減期をアレル非相互作用変数wiに組み入れることによって、ペプチド配列についてのソースタンパク質の代謝回転速度を表す。
1つの例において、コード化モジュール314は、タンパク質長をアレル非相互作用変数wiに組み入れることによって、ソースタンパク質またはアイソフォームの長さを表す。
1つの例において、コード化モジュール314は、β1i、β2i、β5iサブユニットを含むイムノプロテアソーム特異的プロテアソームサブユニットの平均発現を、アレル非相互作用変数wiに組み入れることによって、イムノプロテアソームの活性化を表す。
1つの例において、コード化モジュール314は、(RSEMなどの技法によってFPKM、TPMの単位で定量された)ペプチド、またはペプチドの遺伝子もしくは転写産物のソースタンパク質のRNA−seq存在量を、ソースタンパク質の存在量をアレル非相互作用変数wiに組み入れることによって表す。
1つの例において、コード化モジュール314は、例えば、Rivas et.al.Science,2015におけるモデルによって推定されるような、ペプチドの起源の転写産物がナンセンス変異依存分解機構(NMD)を受けるであろう確率を、この確率をアレル非相互作用変数wiに組み入れることによって表す。
1つの例において、コード化モジュール314は、RNA−seqを介して評価された遺伝子モジュールまたは経路の活性化状況を、例えば、経路における遺伝子の各々について、例えばRSEMを用いてTPMの単位で、経路における遺伝子の発現を定量すること、次いで、経路における遺伝子にわたる要約統計量、例えば平均値をコンピュータ計算することによって表す。平均を、アレル非相互作用変数wiに組み入れることができる。
1つの例において、コード化モジュール314は、ソース遺伝子のコピー数を、コピー数をアレル非相互作用変数wiに組み入れることによって表す。
1つの例において、コード化モジュール314は、(例えば、ナノモル単位での)測定されたかまたは予測されたTAP結合親和性をアレル非相互作用変数wiに含むことによって、TAP結合親和性を表す。
1つの例において、コード化モジュール314は、RNA−seqによって測定され(かつ、例えばRSEMによってTPMの単位で定量された)TAP発現レベルをアレル非相互作用変数wiに含むことによって、TAP発現レベルを表す。
1つの例において、コード化モジュール314は、腫瘍変異を、アレル非相互作用変数wiにおける指標変数のベクトル(すなわち、ペプチドpkがKRAS G12D変異を有する試料に由来するならばdk=1、それ以外は0)として表す。
1つの例において、コード化モジュール314は、抗原提示遺伝子における生殖細胞系列多型を、指標変数のベクトル(すなわち、ペプチドpkがTAPにおいて特異的な生殖細胞系列多型を有する試料に由来するならばdk=1)として表す。これらの指標変数を、アレル非相互作用変数wiに含めることができる。
1つの例において、コード化モジュール314は、腫瘍タイプを、腫瘍タイプ(例えば、NSCLC、黒色腫、大腸癌など)のアルファベットについての長さ1のワン・ホットコード化ベクトルとして表す。これらのワン・ホットコード化変数を、アレル非相互作用変数wiに含めることができる。
1つの例において、コード化モジュール314は、MHCアレル接尾辞を、4桁のHLAアレルを様々な接尾辞で処理することによって表す。例えば、HLA−A*24:09Nは、モデルの目的で、HLA−A*24:09とは異なるアレルと考えられる。あるいは、N接尾辞で終わるHLAアレルは発現しないため、N接尾辞のMHCアレルによる提示の確率は、すべてのペプチドについてゼロに設定することができる。
1つの例において、コード化モジュール314は、腫瘍サブタイプを、腫瘍サブタイプ(例えば、肺腺癌、肺扁平上皮細胞癌など)のアルファベットについての長さ1のワン・ホットコード化ベクトルとして表す。これらのワン・ホットコード化変数を、アレル非相互作用変数wiに含めることができる。
1つの例において、コード化モジュール314は、喫煙歴を、アレル非相互作用変数wiに含めることができる、バイナリー指標変数(患者が喫煙歴を有するならばdk=1、それ以外は0)として表す。あるいは、喫煙歴を、喫煙の重症度のアルファベットについての長さ1のワン・ホットコード化変数としてコード化することができる。例えば、喫煙状況を、1が非喫煙者を示し、5が現在の大量喫煙者を示す、1〜5のスケールに査定することができる。喫煙歴は、主として肺腫瘍と関連性があるため、複数の腫瘍タイプに対するモデルを訓練する場合、この変数は、患者が喫煙の経歴を有し、かつ腫瘍タイプが肺腫瘍であるならば1と同等であり、それ以外はゼロであると定義することもできる。
1つの例において、コード化モジュール314は、日焼け歴を、アレル非相互作用変数wiに含めることができる、バイナリー指標変数(患者が重症の日焼けの経歴を有するならばdk=1、それ以外は0)として表す。重症の日焼けは、主として黒色腫と関連性があるため、複数の腫瘍タイプに対するモデルを訓練する場合、この変数は、患者が重症の日焼けの経歴を有し、かつ腫瘍タイプが黒色腫であるならば1と同等であり、それ以外はゼロであると定義することもできる。
1つの例において、コード化モジュール314は、ヒトゲノムにおける各遺伝子または転写産物についての特定の遺伝子または転写産物の発現レベルの分布を、TCGAなどの参照データベースを用いることによって、発現レベルの分布の要約統計量(例えば、平均値、中央値)として表す。具体的には、腫瘍タイプ黒色腫を有する試料におけるペプチドpkについて、ペプチドpkの起源の遺伝子または転写産物の、測定された遺伝子または転写産物の発現レベルをアレル非相互作用変数wiに含むことができるだけでなく、TCGAによって測定された際の、黒色腫におけるペプチドpkの起源の遺伝子または転写産物の、平均値及び/または中央値の遺伝子または転写産物発現も含むことができる。
1つの例において、コード化モジュール314は、変異タイプを、変異タイプ(例えば、ミスセンス、フレームシフト、NMD誘導性など)のアルファベットについての長さ1のワン・ホットコード化変数として表す。これらのワン・ホットコード化変数を、アレル非相互作用変数wiに含めることができる。
1つの例において、コード化モジュール314は、タンパク質のタンパク質レベルの特性を、ソースタンパク質のアノテーション(例えば、5’UTR長)の値として、アレル非相互作用変数wiにおいて表す。別の例において、コード化モジュール314は、ペプチドpiについてのソースタンパク質の残基レベルのアノテーションを、ペプチドpiがヘリックスモチーフとオーバーラップするならば1と同等であり、それ以外は0であるか、または、ペプチドpiがヘリックスモチーフ内に完全に含有されるならば1と同等である指標変数を、アレル非相互作用変数wiに含むことによって表す。別の例において、ヘリックスモチーフアノテーション内に含有されるペプチドpiにおける残基の割合を表す特性を、アレル非相互作用変数wiに含めることができる。
1つの例において、コード化モジュール314は、ヒトプロテオームにおけるタンパク質またはアイソフォームのタイプを、ヒトプロテオームにおけるタンパク質またはアイソフォームの数と同等の長さを有する指標ベクトルokとして表し、対応する要素ok iは、ペプチドpkがタンパク質iに由来するならば1であり、それ以外は0である。
1つの例において、コード化モジュール314は、ペプチドpiのソース遺伝子G=遺伝子(pi)をL個の可能なカテゴリーを有するカテゴリー変数として表す(ただし、Lは添え字を付したソース遺伝子1,2,...,Lの数の上限を示す)。
1つの例において、コード化モジュール314は、ペプチドpiの組織タイプ、細胞タイプ、腫瘍タイプ、または腫瘍組織学タイプT=組織(pi)をM個の可能なカテゴリーを有するカテゴリー変数として表す(ただし、Mは添え字を付したタイプ1,2,...,Mの数の上限を示す)。組織のタイプとしては、例えば、肺組織、心組織、腸組織、神経組織などを挙げることができる。細胞のタイプとしては、樹状細胞、マクロファージ、CD4 T細胞などを挙げることができる。肺腺癌、肺扁平上皮癌、メラノーマ、非ホジキンリンパ腫などを挙げることができる。
コード化モジュール314はまた、ペプチドpi及び関連するMHCアレルhについての変数ziの全体的なセットを、アレル相互作用変数xi及びアレル非相互作用変数wiの数値的表示が次々に連鎖している行ベクトルとしても表し得る。例えば、コード化モジュール314は、zh iを、[xh iwi]または[wixh i]と同等の行ベクトルとして表し得る。
VIII.訓練モジュール
訓練モジュール316は、ペプチド配列に関連するMHCアレルによってペプチド配列が提示されるかどうかの尤度を生成する、1つ以上の提示モデルを構築する。具体的には、ペプチド配列pk及びペプチド配列pkに関連するMHCアレルakのセットを与えられ、各提示モデルは、ペプチド配列pkが、関連するMHCアレルakのうちの1つ以上によって提示されるであろう尤度を示す、推定値ukを生成する。
VIII.A.概要
訓練モジュール316は、165に保存された提示情報から生成された、記憶装置170に保存された訓練データセットに基づいて、1つ以上の提示モデルを構築する。概して、提示モデルの具体的なタイプに関わらず、提示モデルのすべては、損失関数が最小化されるように、訓練データ170における独立変数と従属変数との間の依存性を捕捉する。具体的には、損失関数
は、訓練データ170における1つ以上のデータ例Sについての従属変数y
i∈Sの値と、提示モデルによって生成されたデータ例Sについての推定された尤度u
i∈Sとの間の矛盾を表す。本明細書の残りの部分を通じて言及される1つの特定の実現形態において、損失関数
は、以下のような等式(1a)によって与えられる負のlog尤度関数である。
しかし、実際には、別の損失関数が使用されてもよい。例えば、質量分析イオン電流について予測がなされる場合、損失関数は、以下のような等式1bによって与えられる平均二乗損失である。
提示モデルは、1つ以上のパラメータθが、独立変数と従属変数との間の依存性を数学的に明記する、パラメトリックモデルであり得る。典型的に、損失関数
を最小化するパラメトリックタイプの提示モデルの種々のパラメータは、例えば、バッチ勾配アルゴリズム、確率的勾配アルゴリズムなどの、勾配ベースの数値的最適化アルゴリズムを通して決定される。あるいは、提示モデルは、モデル構造が、訓練データ170から決定され、固定されたパラメータのセットに厳密には基づかない、ノンパラメトリックモデルであり得る。
VIII.B.アレル毎モデル
訓練モジュール316は、アレル毎ベースでペプチドの提示尤度を予測するための提示モデルを構築し得る。この例において、訓練モジュール316は、単一のMHCアレルを発現する細胞から生成された訓練データ170におけるデータ例Sに基づいて、提示モデルを訓練し得る。
一実現形態では、訓練モジュール316は、
によって、特定のアレルhについてのペプチドpkの推定提示尤度u
kをモデル化し、ただし、ペプチド配列x
h kは、ペプチドp
k及び対応するMHCアレルhについてのコード化されたアレル相互作用変数を意味し、f(・)は、任意の関数であり、記載の便宜上、本明細書中を通して変換関数と呼ばれる。さらに、g
h(・)は、任意の関数であり、記載の便宜上、本明細書中を通して依存性関数と呼ばれ、MHCアレルhについて決定されたパラメータθ
hのセットに基づいて、アレル相互作用変数x
h kについての依存性スコアを生成する。各MHCアレルhについてのパラメータθ
hのセットの値は、θ
hに関する損失関数を最小化することによって決定することができ、ここでiは、単一のMHCアレルhを発現する細胞から生成された訓練データ170のサブセットSにおける各例である。
依存性関数gh(xh k;θh)の出力は、MHCアレルhが、少なくともアレル相互作用特性xh kに基づいて、及び特に、ペプチドpkのペプチド配列のアミノ酸の位置に基づいて、対応する新生抗原を提示するかどうかを示す、MHCアレルhについての依存性スコアを表す。例えば、MHCアレルhについての依存性スコアは、MHCアレルhが、ペプチドpkを提示する可能性が高い場合に、高い値を有し得、提示の可能性が高くない場合に、低い値を有し得る。変換関数f(・)は、入力を変換し、より具体的には、この例においてgh(xh k;θh)によって生成された依存性スコアを、ペプチドpkがMHCアレルによって提示されるであろう尤度を示す適切な値に変換する。
本明細書の残りの部分を通じて言及される1つの特定の実現形態において、f(・)は、適切なドメイン範囲について[0,1]内の範囲を有する関数である。1つの例において、f(・)は、
によって与えられるexpit関数である。
別の例として、f(・)はまた、ドメインzの値が0以上である場合、
によって与えられる双曲線正接関数であることもできる。あるいは、予測が、範囲[0,1]の外側の値を有する質量分析イオン電流についてなされる場合、f(・)は、例えば、恒等関数、指数関数、log関数などの任意の関数であることができる。
したがって、ペプチド配列pkがMHCアレルhによって提示されるであろうアレル毎尤度は、MHCアレルhについての依存性関数gh(・)をペプチド配列pkのコード化されたバージョンに適用して、対応する依存性スコアを生成することによって、生成することができる。依存性スコアは、ペプチド配列pkがMHCアレルhによって提示されるであろうアレル毎尤度を生成するように、変換関数f(・)によって変換されてもよい。
VIII.B.1 アレル相互作用変数についての依存性関数
本明細書を通して言及される1つの特定の実現形態において、依存性関数g
h(・)は、x
h kにおける各アレル相互作用変数を、関連するMHCアレルhについて決定されたパラメータθ
hのセットにおける対応するパラメータと線形結合する、
によって与えられるアフィン関数である。
本明細書を通して言及される別の特定の実現形態において、依存性関数g
h(・)は、1つ以上の層において配置された一連のノードを有するネットワークモデルNN
h(・)によって表される、
によって与えられるネットワーク関数である。ノードは、パラメータθ
hのセットにおける関連するパラメータを各々有する接続を通して、他のノードに接続され得る。1つの特定のノードでの値は、特定のノードに関連する活性化関数によってマッピングされた関連するパラメータによって重み付けられた、特定のノードに接続されたノードの値の和として表され得る。アフィン関数と対照的に、ネットワークモデルは、提示モデルが非線形性、及び異なる長さのアミノ酸配列を有するプロセスデータを組み入れることができるため、有利である。具体的には、非線形モデリングを通して、ネットワークモデルは、ペプチド配列中の異なる位置のアミノ酸間の相互作用、及びこの相互作用がペプチド提示にいかに影響を及ぼすかを捕捉することができる。
概して、ネットワークモデルNNh(・)は、人工ニューラルネットワーク(ANN)、畳み込みニューラルネットワーク(CNN)、深層ニューラルネットワーク(DNN)などのフィードフォワードネットワーク、及び/または、長・短期記憶ネットワーク(LSTM)、双方向再帰型ネットワーク、深層双方向再帰型ネットワークなどの再帰型ネットワークなどとして、構造化され得る。
本明細書の残りの部分を通じて言及される1つの例において、h=1,2,...,mにおける各MHCアレルは、別々のネットワークモデルに関連し、NNh(・)は、MHCアレルhに関連するネットワークモデルからの出力を意味する。
図5は、任意のMHCアレルh=3に関連した例示的なネットワークモデルNN3(・)を説明する。図5に示すように、MHCアレルh=3についてのネットワークモデルNN3(・)は、層l=1での3種類の入力ノード、層l=2での4種類のノード、層l=3での2種類のノード、及び層l=4での1種類の出力ノードを含む。ネットワークモデルNN3(・)は、10種類のパラメータθ3(1),θ3(2),...,θ3(10)のセットに関連している。ネットワークモデルNN3(・)は、MHCアレルh=3についての3種類のアレル相互作用変数x3 k(1)、x3 k(2)、及びx3 k(3)についての入力値(コード化されたポリペプチド配列データ及び使用される任意の他の訓練データを含む、個々のデータ例)を受け取り、値NN3(x3 k)を出力する。ネットワーク関数は、異なるアレル相互作用変数をそれぞれが入力として取る1つ以上のネットワークモデルを含んでもよい。
別の例において、特定されたMHCアレルh=1,2,...,mは、単一ネットワークモデルNNH(・)に関連しており、NNh(・)は、MHCアレルhに関連する単一ネットワークモデルの1つ以上の出力を意味する。そのような例において、パラメータθhのセットは、単一ネットワークモデルについてのパラメータのセットに対応し得、したがって、パラメータθhのセットは、すべてのMHCアレルによって共有され得る。
図6Aは、MHCアレルh=1,2,...,mによって共有される例示的なネットワークモデルNNH(・)を説明する。図6Aに示すように、ネットワークモデルNNH(・)は、MHCアレルに各々対応する、m個の出力ノードを含む。ネットワークモデルNN3(・)は、MHCアレルh=3についてのアレル相互作用変数x3 kを受け取り、MHCアレルh=3に対応する値NN3(x3 k)を含む、m個の値を出力する。
さらに別の例において、単一ネットワークモデルNNH(・)は、MHCアレルhのアレル相互作用変数xh k及びコード化されたタンパク質配列dhを与えられて依存性スコアを出力する、ネットワークモデルであり得る。そのような例において、パラメータθhのセットは、再び、単一ネットワークモデルについてのパラメータのセットに対応し得、したがって、パラメータθhのセットは、すべてのMHCアレルによって共有され得る。したがって、そのような例において、NNh(・)は、単一ネットワークモデルに対して入力[xh kdh]を与えられた、単一ネットワークモデルNNH(・)の出力を意味する。そのようなネットワークモデルは、訓練データにおいて未知であったMHCアレルについてのペプチド提示確率を、単にそれらのタンパク質配列を特定することによって正しく予測することができるため、有利である。
図6Bは、MHCアレルによって共有される例示的なネットワークモデルNNH(・)を説明する。図6Bに示すように、ネットワークモデルNNH(・)は、MHCアレルh=3のアレル相互作用変数及びタンパク質配列を入力として受け取り、MHCアレルh=3に対応する依存性スコアNN3(x3 k)を出力する。
さらに別の例において、依存性関数g
h(・)は、
として表すことができ、式中、g’
h(x
h k;θ’
h)は、パラメータθ’hのセットを伴うアフィン関数、ネットワーク関数などであり、MHCアレルhについての提示のベースライン確率を表す、MHCアレルのアレル相互作用変数についてのパラメータのセットにおけるバイアスパラメータθ
h 0を伴う。
別の実現形態において、バイアスパラメータθh 0は、MHCアレルhの遺伝子ファミリーにしたがって共有されてもよい。すなわち、MHCアレルhについてのバイアスパラメータθh 0はθ遺伝子(h) 0と同等であり得、遺伝子(h)は、MHCアレルhの遺伝子ファミリーである。例えば、クラスI MHCアレルHLA−A*02:01、HLA−A*02:02、及びHLA−A*02:03は、「HLA−A」の遺伝子ファミリーに割り当てられてもよく、これらのMHCアレルの各々についてのバイアスパラメータθh 0が共有されてもよい。別の例として、クラスII MHCアレルHLA−DRB1:10:01、HLA−DRB1:11:01、及びHLA−DRB3:01:01を「HLA−DRB」の遺伝子ファミリーに割り当て、これらのMHCアレルのそれぞれのバイアスパラメータθh 0を共有することができる。
例として、等式(2)に戻ると、アフィン依存性関数g
h(・)を用いた、m=4の異なる特定されたMHCアレルの中でMHCアレルh=3によってペプチドp
kが提示されるであろう尤度は、
によって生成することができ、式中、x3kは、MHCアレルh=3について特定されたアレル相互作用変数であり、θ3は、損失関数最小化を通してMHCアレルh=3について決定されたパラメータのセットである。
別の例として、別々のネットワーク変換関数gh(・)を用いた、m=4の異なる特定されたMHCアレルの中でMHCアレルh=3によってペプチドp
kが提示されるであろう尤度は、
によって生成することができ、式中、x
3 kは、MHCアレルh=3について特定されたアレル相互作用変数であり、θ
3は、MHCアレルh=3に関連するネットワークモデルNN
3(・)について決定されたパラメータのセットである。
図7は、例示的なネットワークモデルNN3(・)を用いた、MHCアレルh=3に関連したペプチドpkの提示尤度の生成を説明する。図7に示すように、ネットワークモデルNN3(・)は、MHCアレルh=3についてのアレル相互作用変数x3 kを受け取り、出力NN3(x3 k)を生成する。出力は、関数f(・)によってマッピングされて、推定提示尤度ukを生成する。
VIII.B.2.アレル非相互作用変数を伴うアレル毎
一実現形態では、訓練モジュール316は、アレル非相互作用変数を組み入れて、
によって、ペプチドp
kの推定提示尤度ukをモデル化し、式中、w
kは、ペプチドp
kについてのコード化されたアレル非相互作用変数を意味し、g
w(・)は、アレル非相互作用変数について決定されたパラメータθ
wのセットに基づく、アレル非相互作用変数w
kについての関数である。具体的には、各MHCアレルhについてのパラメータθ
hのセット及びアレル非相互作用変数についてのパラメータθ
wのセットの値を、θ
h及びθ
wに関する損失関数を最小化することによって決定することができ、iは、単一のMHCアレルを発現する細胞から生成された訓練データ170のサブセットSにおける各例である。
依存性関数gw(wk;θw)の出力は、アレル非相互作用変数の影響に基づいて、1つ以上のMHCアレルによってペプチドpkが提示されるかどうかを示す、アレル非相互作用変数についての依存性スコアを表す。例えば、アレル非相互作用変数についての依存性スコアは、ペプチドpkの提示に正の影響を及ぼすことが公知であるC末端隣接配列とペプチドpkが結合している場合は、高い値を有し得、ペプチドpkの提示に負の影響を及ぼすことが公知であるC末端隣接配列とペプチドpkが結合している場合は、低い値を有し得る。
等式(8)によると、ペプチド配列pkがMHCアレルhによって提示されるであろうアレル毎尤度は、MHCアレルhについての関数gh(・)を、ペプチド配列pkのコード化されたバージョンに適用して、アレル相互作用変数について対応する依存性スコアを生成することによって、生成することができる。アレル非相互作用変数についての関数gw(・)もまた、アレル非相互作用変数についての依存性スコアを生成するように、アレル非相互作用変数のコード化されたバージョンに適用される。両方のスコアが組み合わされ、組み合わされたスコアが、MHCアレルhによってペプチド配列pkが提示されるであろうアレル毎尤度を生成するように、変換関数f(・)によって変換される。
あるいは、訓練モジュール316は、等式(2)においてアレル非相互作用変数w
kをアレル相互作用変数x
h kに付加することにより、予測におけるアレル非相互作用変数wkを含んでもよい。したがって、提示尤度は、
によって与えられ得る。
VIII.B.3 アレル非相互作用変数についての依存性関数
アレル相互作用変数についての依存性関数gh(・)と同様に、アレル非相互作用変数についての依存性関数gw(・)は、アフィン関数、または別々のネットワークモデルがアレル非相互作用変数wkに関連しているネットワーク関数であり得る。
具体的には、依存性関数g
w(・)は、w
kにおけるアレル非相互作用変数を、パラメータθ
wのセットにおける対応するパラメータと線形結合する、
によって与えられるアフィン関数である。
依存性関数g
w(・)はまた、パラメータθ
wのセットにおける関連するパラメータを有するネットワークモデルNN
w(・)によって表される、
によって与えられるネットワーク関数である。ネットワーク関数は、異なるアレル非相互作用変数をそれぞれが入力として取る1つ以上のネットワークモデルを含んでもよい。
別の例において、アレル非相互作用変数についての依存性関数g
w(・)は、
によって与えられ得、式中、g’
w(w
k;θ’
w)は、アレル非相互作用パラメータθ’
wのセットを伴うアフィン関数、ネットワーク関数などであり、m
kは、ペプチドp
kについてのmRNA定量測定値であり、h(・)は、定量測定値を変換する関数であり、かつθ
w mは、mRNA定量測定値についての依存性スコアを生成するようにmRNA定量測定値と組み合わされる、アレル非相互作用変数についてのパラメータのセットにおけるパラメータである。本明細書の残りの部分を通じて言及される1つの特定の実施形態において、h(・)はlog関数であるが、実際には、h(・)は、様々な異なる関数のうちのいずれか1つであり得る。
さらに別の例において、アレル非相互作用変数についての依存性関数g
w(・)は、
によって与えられ、式中、g’
w(w
k;θ’
w)は、アレル非相互作用パラメータθ’
wのセットを伴うアフィン関数、ネットワーク関数などであり、o
kは、ペプチドp
kについてヒトプロテオームにおけるタンパク質及びアイソフォームを表す、セクションVII.C.2で述べた指標ベクトルであり、かつθ
w oは、指標ベクトルと組み合わされるアレル非相互作用変数についてのパラメータのセットにおける、パラメータのセットである。1つのバリエーションにおいて、o
k及びパラメータθ
w oのセットの次元が有意に高い場合、
(
は、L1ノルム、L2ノルム、組み合わせなどを表す)などのパラメータ正則化項を、パラメータの値を決定する時に損失関数に加えることができる。ハイパーパラメータλの最適値を、適切な方法を通して決定することができる。
さらに別の例において、アレル非相互作用変数に対する依存性関数g
w(・)は、
により与えられ、式中、g’
w(w
k;θ’
w)は、アレル非相互作用パラメータθ’
wのセットを伴うアフィン関数、ネットワーク関数などであり、
は、ペプチドp
kがアレル非相互作用変数に関して上記に述べたソース遺伝子lに由来するものである場合に1に等しいインジケータ関数であり、θ
w lはソース遺伝子lの「抗原性」を示すパラメータである。1つのバリエーションにおいて、Lが充分に大きく、したがって、パラメータの数θ
w l=1, 2,...,Lが充分に大きい場合、
のようなパラメータ正則化項(ただし、
は、L1ノルム、L2ノルム、組み合わせなど)をパラメータの値を決定する際に損失関数に加えることができる。ハイパーパラメータλの最適値は適当な方法によって決定することができる。
さらに別の例において、アレル非相互作用変数に対する依存性関数g
w(・)は、
により与えられ、式中、g’
w(w
k;θ’
w)は、アレル非相互作用パラメータθ’
wのセットを伴うアフィン関数、ネットワーク関数などであり、
は、アレル非相互作用変数に関して上記に述べたようにペプチドp
kがソース遺伝子lに由来するものである場合、かつペプチドp
kが組織タイプmに由来するものである場合に1に等しいインジケータ関数であり、θ
w lmはソース遺伝子lと組織タイプmとの組み合わせの抗原性を示すパラメータである。詳細には、組織タイプmの遺伝子lの抗原性は、組織タイプmの細胞が、RNA発現及びペプチド配列コンテキストについての調節後に遺伝子l由来のペプチドを提示する残留傾向を示し得る。
1つのバリエーションにおいて、LまたはMが充分に大きく、したがって、パラメータの数θ
w lm=1, 2,...,LMが充分に大きい場合、
のようなパラメータ正則化項(ただし、
は、L1ノルム、L2ノルム、組み合わせなど)をパラメータの値を決定する際に損失関数に加えることができる。ハイパーパラメータλの最適値は適当な方法によって決定することができる。別のバリエーションにおいて、同じソース遺伝子に対する係数が組織タイプ間で大きく異ならないように、パラメータの値を決定する際にパラメータ正則化項を損失関数に加えることができる。例えば、以下のようなペナルティ項:
(式中、
はソース遺伝子lの組織タイプにわたった平均の抗原性である)は、損失関数中の異なる組織タイプにわたった抗原性の標準偏差にペナルティを付加することができる。
実際には、式(10)、(11)、(12a)及び(12b)のいずれかの追加項を組み合わせることによってアレル非相互作用変数に関する依存性関数gw(・)を生成することができる。例えば、式(10)のmRNA定量測定値を示す項h(・)と式(12)のソース遺伝子の抗原性を示す項とを他の任意のアフィン関数またはネットワーク関数とともに互いに加え合わせることにより、アレル非相互作用変数に関する依存性関数を生成することができる。
例として、等式(8)に戻ると、アフィン変換関数g
h(・)、g
w(・)を用いた、m=4の異なる特定されたMHCアレルの中でMHCアレルh=3によってペプチドp
kが提示されるであろう尤度は、
によって生成することができ、式中、w
kは、ペプチドp
kについて特定されたアレル非相互作用変数であり、θ
wは、アレル非相互作用変数について決定されたパラメータのセットである。
別の例として、ネットワーク変換関数g
h(・)、g
w(・)を用いた、m=4の異なる特定されたMHCアレルの中でMHCアレルh=3によってペプチドp
kが提示されるであろう尤度は、
によって生成することができ、式中、w
kは、ペプチドp
kについて特定されたアレル相互作用変数であり、θ
wは、アレル非相互作用変数について決定されたパラメータのセットである。
図8は、例示的なネットワークモデルNN3(・)及びNNw(・)を用いた、MHCアレルh=3に関連したペプチドpkの提示尤度の生成を説明する。図8に示すように、ネットワークモデルNN3(・)は、MHCアレルh=3についてのアレル相互作用変数x3 kを受け取り、出力NN3(x3 k)を生成する。ネットワークモデルNNw(・)は、ペプチドpkについてのアレル非相互作用変数wkを受け取り、出力NNw(wk)を生成する。出力は、組み合わされ、関数f(・)によってマッピングされて、推定提示尤度ukを生成する。
VIII.C.複数アレルモデル
訓練モジュール316はまた、2つ以上のMHCアレルが存在する複数アレル設定においてペプチドの提示尤度を予測するための提示モデルを構築し得る。この例において、訓練モジュール316は、単一のMHCアレルを発現する細胞、複数のMHCアレルを発現する細胞、またはそれらの組み合わせから生成された訓練データ170におけるデータ例Sに基づいて、提示モデルを訓練し得る。
VIII.C.1.実施例1:アレル毎モデルの最大値
一実現形態では、訓練モジュール316は、複数のMHCアレルHのセットに関連したペプチドp
kの推定提示尤度u
kを、等式(2)〜(11)と共に上記で説明したような、単一アレルを発現する細胞に基づいて決定されたセットHにおけるMHCアレルhの各々について決定された提示尤度
の関数としてモデル化する。具体的には、提示尤度u
kは、
の任意の関数であることができる。一実現形態では、等式(12)に示すように、関数は最大値関数であり、提示尤度u
kは、セットHにおける各MHCアレルhについての提示尤度の最大値として決定することができる。
VIII.C.2.実施例2.1:和の関数モデル
一実現形態では、訓練モジュール316は、ペプチドp
kの推定提示尤度u
kを、
によってモデル化し、式中、要素a
h kは、ペプチド配列p
kに関連する複数のMHCアレルHについて1であり、x
h kは、ペプチドp
k及び対応するMHCアレルについてのコード化されたアレル相互作用変数を意味する。各MHCアレルhについてのパラメータθ
hのセットの値は、θ
hに関する損失関数を最小化することによって決定することができ、iは、単一のMHCアレルを発現する細胞及び/または複数のMHCアレルを発現する細胞から生成された訓練データ170のサブセットSにおける各例である。依存性関数g
hは、セクションVIII.B.1.において上記で導入された依存性関数g
hのいずれかの形態であり得る。
等式(13)によると、ペプチド配列pkが1つ以上のMHCアレルhによって提示されるであろう提示尤度は、依存性関数gh(・)を、MHCアレルHの各々についてペプチド配列pkのコード化されたバージョンに適用して、アレル相互作用変数についての対応するスコアを生成することによって、生成することができる。各MHCアレルhについてのスコアが組み合わされて、ペプチド配列pkがMHCアレルHのセットによって提示されるであろう提示尤度を生成するように変換関数f(・)によって変換される。
等式(13)の提示モデルは、各ペプチドpkについての関連するアレルの数が1よりも大きいことができる点で、等式(2)のアレル毎モデルとは異なる。換言すると、ah kにおける1つよりも多い要素が、ペプチド配列pkに関連する複数のMHCアレルHについて1の値を有することができる。
例として、アフィン変換関数g
h(・)を用いた、m=4の異なる特定されたMHCアレルの中でMHCアレルh=2、h=3によってペプチドp
kが提示されるであろう尤度は、
によって生成することができ、式中、x
2 k、x
3 kは、MHCアレルh=2、h=3について特定されたアレル相互作用変数であり、θ
2、θ
3は、MHCアレルh=2、h=3について決定されたパラメータのセットである。
別の例として、ネットワーク変換関数g
h(・)、g
w(・)を用いた、m=4の異なる特定されたMHCアレルの中でMHCアレルh=2、h=3によってペプチドp
kが提示されるであろう尤度は、
によって生成することができ、式中、NN
2(・)、NN
3(・)は、MHCアレルh=2、h=3について特定されたネットワークモデルであり、θ
2、θ
3は、MHCアレルh=2、h=3について決定されたパラメータのセットである。
図9は、例示的なネットワークモデルNN2(・)及びNN3(・)を用いた、MHCアレルh=2、h=3に関連したペプチドpkの提示尤度の生成を説明する。図9に示すように、ネットワークモデルNN2(・)は、MHCアレルh=2についてのアレル相互作用変数x2 kを受け取り、出力NN2(x2 k)を生成し、ネットワークモデルNN3(・)は、MHCアレルh=3についてのアレル相互作用変数x3 kを受け取り、出力NN3(x3 k)を生成する。出力は、組み合わされ、関数f(・)によってマッピングされて、推定提示尤度ukを生成する。
VIII.C.3.実施例2.2:アレル非相互作用変数を伴う和の関数モデル
一実現形態では、訓練モジュール316は、アレル非相互作用変数を組み入れて、
によって、ペプチドp
kの推定提示尤度u
kをモデル化し、式中、w
kは、ペプチドp
kについてのコード化されたアレル非相互作用変数を意味する。具体的には、各MHCアレルhについてのパラメータθ
hのセット及びアレル非相互作用変数についてのパラメータθ
wのセットの値を、θ
h及びθ
wに関する損失関数を最小化することによって決定することができ、iは、単一のMHCアレルを発現する細胞及び/または複数のMHCアレルを発現する細胞から生成された訓練データ170のサブセットSにおける各例である。依存性関数g
wは、セクションVIII.B.3.において上記で導入された依存性関数g
wのいずれかの形態であり得る。
したがって、等式(14)によると、1つ以上のMHCアレルHによってペプチド配列pkが提示されるであろう提示尤度は、関数gh(・)を、MHCアレルHの各々についてペプチド配列pkのコード化されたバージョンに適用して、各MHCアレルhのアレル相互作用変数について対応する依存性スコアを生成することによって、生成することができる。アレル非相互作用変数についての関数gw(・)もまた、アレル非相互作用変数についての依存性スコアを生成するように、アレル非相互作用変数のコード化されたバージョンに適用される。スコアが組み合わされ、組み合わされたスコアが、MHCアレルHによってペプチド配列pkが提示されるであろう提示尤度を生成するように、変換関数f(・)によって変換される。
等式(14)の提示モデルにおいて、各ペプチドpkについての関連するアレルの数は、1よりも大きいことができる。換言すると、ah kにおける1つよりも多い要素が、ペプチド配列pkに関連する複数のMHCアレルHについて1の値を有することができる。
例として、アフィン変換関数g
h(・)、g
w(・)を用いた、m=4の異なる特定されたMHCアレルの中でMHCアレルh=2、h=3によってペプチドp
kが提示されるであろう尤度は、
によって生成することができ、式中、w
kは、ペプチドp
kについて特定されたアレル非相互作用変数であり、θ
wは、アレル非相互作用変数について決定されたパラメータのセットである。
別の例として、ネットワーク変換関数g
h(・)、g
w(・)を用いた、m=4の異なる特定されたMHCアレルの中でMHCアレルh=2、h=3によってペプチドp
kが提示されるであろう尤度は、
によって生成することができ、式中、w
kは、ペプチドp
kについて特定されたアレル相互作用変数であり、θ
wは、アレル非相互作用変数について決定されたパラメータのセットである。
図10は、例示的なネットワークモデルNN2(・)、NN3(・)、及びNNw(・)を用いた、MHCアレルh=2、h=3に関連するペプチドpkについての提示尤度の生成を示す。図10に示すように、ネットワークモデルNN2(・)は、MHCアレルh=2についてのアレル相互作用変数x2 kを受け取り、出力NN2(x2 k)を生成する。ネットワークモデルNN3(・)は、MHCアレルh=3についてのアレル相互作用変数x3 kを受け取り、出力NN3(x3 k)を生成する。ネットワークモデルNNw(・)は、ペプチドpkについてのアレル非相互作用変数wkを受け取り、出力NNw(wk)を生成する。出力は、組み合わされ、関数f(・)によってマッピングされて、推定提示尤度ukを生成する。
あるいは、訓練モジュール316は、等式(15)においてアレル非相互作用変数w
kをアレル相互作用変数x
h kに付加することにより、予測におけるアレル非相互作用変数w
kを含んでもよい。したがって、提示尤度は、
によって与えられ得る。
VIII.C.4.実施例3.1:暗黙のアレル毎尤度を用いたモデル
別の実現形態において、訓練モジュール316は、ペプチドp
kの推定提示尤度u
kを、
によってモデル化し、式中、要素a
h kは、ペプチド配列p
kに関連する複数のMHCアレル
について1であり、u’
k hは、MHCアレルhについての暗黙のアレル毎提示尤度であり、ベクトルvは、要素v
hが、a
h k・u’
k hに対応するベクトルであり、s(・)は、vの要素をマッピングする関数であり、かつr(・)は、入力の値を所定の範囲中にクリップするクリッピング関数である。より詳細に下記に記載するように、s(・)は、総和関数または二次関数であってもよいが、他の実施形態において、s(・)は、最大値関数などの任意の関数であり得ることが認識される。暗黙のアレル毎尤度についてのパラメータθのセットの値は、θに関する損失関数を最小化することによって決定することができ、iは、単一のMHCアレルを発現する細胞及び/または複数のMHCアレルを発現する細胞から生成された訓練データ170のサブセットSにおける各例である。
等式(17)の提示モデルにおける提示尤度は、各々が、個々のMHCアレルhによってペプチドp
kが提示されるであろう尤度に対応する、暗黙のアレル毎提示尤度u’
k hの関数としてモデル化される。暗黙のアレル毎尤度は、暗黙のアレル毎尤度についてのパラメータが、単一アレル設定に加えて、提示されるペプチドと対応するMHCアレルとの間の直接の関連が未知である複数アレル設定から学習され得る点で、セクションVIII.Bのアレル毎提示尤度とは異なる。したがって、複数アレル設定において、提示モデルは、ペプチドp
kが全体としてMHCアレルHのセットによって提示されるかどうかを推定できるだけではなく、どのMHCアレルhがペプチドp
kを提示した可能性が最も高いかを示す個々の尤度
も提供することもできる。これの利点は、提示モデルが、単一のMHCアレルを発現する細胞についての訓練データを伴わずに暗黙の尤度を生成できることである。
本明細書の残りの部分を通じて言及される1つの特定の実現形態において、r(・)は、範囲[0,1]を有する関数である。例えば、r(・)は、クリップ関数:
r(z)=min(max(z,0),1)
であってもよく、zと1の間の最小値が、提示尤度ukとして選ばれる。別の実現形態において、r(・)は、
r(z)=tanh(z)
として与えられる双曲線正接関数であり、ドメインzの値は、0以上である。
VIII.C.5.実施例3.2:関数の和モデル
1つの特定の実現形態において、s(・)は、総和関数であり、提示尤度は、暗黙のアレル毎提示尤度を総和することによって与えられる。
1つの実現形態では、MHCアレルhについての暗黙のアレル毎提示尤度を、
によって生成して、提示尤度が、
によって推定されるようにする。
等式(19)によると、1つ以上のMHCアレルHによってペプチド配列pkが提示されるであろう提示尤度は、関数gh(・)を、MHCアレルHの各々についてペプチド配列pkのコード化されたバージョンに適用して、アレル相互作用変数についての対応する依存性スコアを生成することによって、生成することができる。各依存性スコアは、最初に、暗黙のアレル毎提示尤度u’k hを生成するように、関数f(・)によって変換される。アレル毎尤度u’k hが組み合わされ、組み合わされた尤度にクリッピング関数が、値を範囲[0,1]中にクリップするために適用されて、ペプチド配列pkがMHCアレルHのセットによって提示されるであろう提示尤度が生成され得る。依存性関数ghは、セクションVIII.B.1.において上記で導入された依存性関数ghのいずれかの形態であり得る。
例として、アフィン変換関数g
h(・)を用いた、m=4の異なる特定されたMHCアレルの中でMHCアレルh=2、h=3によってペプチドp
kが提示されるであろう尤度は、
によって生成することができ、式中、x
2 k、x
3 kは、MHCアレルh=2、h=3について特定されたアレル相互作用変数であり、θ
2、θ
3は、MHCアレルh=2、h=3について決定されたパラメータのセットである。
別の例として、ネットワーク変換関数g
h(・)、g
w(・)を用いた、m=4の異なる特定されたMHCアレルの中でMHCアレルh=2、h=3によってペプチドp
kが提示されるであろう尤度は、
によって生成することができ、式中、NN
2(・)、NN
3(・)は、MHCアレルh=2、h=3について特定されたネットワークモデルであり、θ
2、θ
3は、MHCアレルh=2、h=3について決定されたパラメータのセットである。
図11は、例示的なネットワークモデルNN2(・)及びNN3(・)を用いた、MHCアレルh=2、h=3に関連したペプチドpkの提示尤度の生成を説明する。図9に示すように、ネットワークモデルNN2(・)は、MHCアレルh=2についてのアレル相互作用変数x2 kを受け取り、出力NN2(x2 k)を生成し、ネットワークモデルNN3(・)は、MHCアレルh=3についてのアレル相互作用変数x3 kを受け取り、出力NN3(x3 k)を生成する。各出力は、関数f(・)によってマッピングされ、組み合わされて、推定提示尤度ukを生成する。
別の実現形態において、予測が、質量分析イオン電流のlogについてなされる場合、r(・)はlog関数であり、f(・)は指数関数である。
VIII.C.6.実施例3.3:アレル非相互作用変数を伴う関数の和モデル
1つの実現形態では、MHCアレルhについての暗黙のアレル毎提示尤度を、
によって生成して、提示尤度が、
によって生成されるようにして、ペプチド提示に、アレル非相互作用変数の影響を組み入れる。
等式(21)によると、1つ以上のMHCアレルHによってペプチド配列pkが提示されるであろう提示尤度は、関数gh(・)を、MHCアレルHの各々についてペプチド配列pkのコード化されたバージョンに適用して、各MHCアレルhのアレル相互作用変数について対応する依存性スコアを生成することによって、生成することができる。アレル非相互作用変数についての関数gw(・)もまた、アレル非相互作用変数についての依存性スコアを生成するように、アレル非相互作用変数のコード化されたバージョンに適用される。アレル非相互作用変数のスコアが、アレル相互作用変数の依存性スコアの各々に組み合わされる。組み合わされたスコアの各々が、暗黙のアレル毎提示尤度を生成するように、関数f(・)によって変換される。暗黙の尤度が組み合わされ、組み合わされた出力にクリッピング関数が、値を範囲[0,1]中にクリップするために適用されて、MHCアレルHによってペプチド配列pkが提示されるであろう提示尤度が生成され得る。依存性関数gwは、セクションVIII.B.3.において上記で導入された依存性関数gwのいずれかの形態であり得る。
例として、アフィン変換関数g
h(・)、g
w(・)を用いた、m=4の異なる特定されたMHCアレルの中でMHCアレルh=2、h=3によってペプチドp
kが提示されるであろう尤度は、
によって生成することができ、式中、w
kは、ペプチドp
kについて特定されたアレル非相互作用変数であり、θ
wは、アレル非相互作用変数について決定されたパラメータのセットである。
別の例として、ネットワーク変換関数g
h(・)、g
w(・)を用いた、m=4の異なる特定されたMHCアレルの中でMHCアレルh=2、h=3によってペプチドp
kが提示されるであろう尤度は、
によって生成することができ、式中、w
kは、ペプチドp
kについて特定されたアレル相互作用変数であり、θ
wは、アレル非相互作用変数について決定されたパラメータのセットである。
図12は、例示的なネットワークモデルNN2(・)、NN3(・)、及びNNw(・)を用いた、MHCアレルh=2、h=3に関連したペプチドpkの提示尤度の生成を説明する。図12に示すように、ネットワークモデルNN2(・)は、MHCアレルh=2についてのアレル相互作用変数x2 kを受け取り、出力NN2(x2 k)を生成する。ネットワークモデルNNw(・)は、ペプチドpkについてのアレル非相互作用変数wkを受け取り、出力NNw(wk)を生成する。出力は、組み合わされ、関数f(・)によってマッピングされる。ネットワークモデルNN3(・)は、MHCアレルh=3についてのアレル相互作用変数x3 kを受け取り、出力NN3(x3 k)を生成し、これも、同じネットワークモデルNNw(・)の出力NNw(wk)と組み合わされ、関数f(・)によってマッピングされる。両方の出力が組み合わされて、推定提示尤度ukを生成する。
別の実現形態では、MHCアレルhについての暗黙のアレル毎提示尤度を、
によって生成して、提示尤度が、
によって生成されるようにする。
VIII.C.7.実施例4:二次モデル
一実現形態では、s(・)は、二次関数であり、ペプチドp
kの推定提示尤度u
kは、
によって与えられ、式中、要素u’
k hは、MHCアレルhについての暗黙のアレル毎提示尤度である。暗黙のアレル毎尤度についてのパラメータθのセットの値は、θに関する損失関数を最小化することによって決定することができ、iは、単一のMHCアレルを発現する細胞及び/または複数のMHCアレルを発現する細胞から生成された訓練データ170のサブセットSにおける各例である。暗黙のアレル毎提示尤度は、上記の等式(18)、(20)、及び(22)において示すいずれかの形態であり得る。
一態様において、等式(23)のモデルは、ペプチド配列pkが、2つのMHCアレルによって同時に提示されるであろう可能性が存在し、2つのHLAアレルによる提示は統計学的に独立していることを含意し得る。
等式(23)によると、1つ以上のMHCアレルHによってペプチド配列pkが提示されるであろう提示尤度は、暗黙のアレル毎提示尤度を組み合わせること、及び、MHCアレルHによってペプチド配列pkが提示されるであろう提示尤度を生成するように、MHCアレルの各ペアがペプチドpkを同時に提示するであろう尤度を総和から差し引くことによって、生成することができる。
例として、アフィン変換関数g
h(・)を用いた、m=4の異なる特定されたHLAアレルの中でHLAアレルh=2、h=3によってペプチドp
kが提示されるであろう尤度は、
によって生成することができ、式中、x
2 k、x
3 kは、HLAアレルh=2、h=3について特定されたアレル相互作用変数であり、θ
2、θ
3は、HLAアレルh=2、h=3について決定されたパラメータのセットである。
別の例として、ネットワーク変換関数g
h(・)、g
w(・)を用いた、m=4の異なる特定されたHLAアレルの中でHLAアレルh=2、h=3によってペプチドp
kが提示されるであろう尤度は、
によって生成することができ、式中、NN
2(・)、NN
3(・)は、HLAアレルh=2、h=3について特定されたネットワークモデルであり、θ
2、θ
3は、HLAアレルh=2、h=3について決定されたパラメータのセットである。
IX.実施例5:予測モジュール
予測モジュール320は、配列データを受け取って、提示モデルを用いて配列データ中の候補新生抗原を選択する。具体的には、配列データは、患者の腫瘍組織細胞から抽出されたDNA配列、RNA配列、及び/またはタンパク質配列であってよい。予測モジュール320は、配列データを、MHC−Iについては8〜15個のアミノ酸を有する、またはMHC−IIについては6〜30個のアミノ酸を有する複数のペプチド配列p
kに処理する。例えば、予測モジュール320は、所定の配列
を、9個のアミノ酸を有する3種類のペプチド配列
に処理することができる。一実施形態では、予測モジュール320は、患者の正常組織細胞から抽出された配列データをその患者の腫瘍組織細胞から抽出された配列データと比較して1つ以上の変異を有する部分を特定することによって、変異したペプチド配列である候補新生抗原を特定することができる。
予測モジュール320は、提示モデルの1つ以上を処理されたペプチド配列に適用してペプチド配列の提示尤度を推定する。具体的には、予測モジュール320は、提示モデルを候補新生抗原に適用することによって、腫瘍HLA分子上に提示される可能性が高い1つ以上の候補新生抗原ペプチド配列を選択することができる。一実現形態では、予測モジュール320は、あらかじめ決定された閾値を上回る推定提示尤度を有する候補新生抗原配列を選択する。別の実現形態では、提示モデルは、最も高い推定提示尤度を有するv個の候補新生抗原配列を選択する(vは、一般的に、ワクチン中で送達することができるエピトープの最大数である)。所定の患者について選択された候補新生抗原を含むワクチンを患者に注射して免疫応答を誘導することができる。
X.実施例6:患者選択モジュール
患者選択モジュール324は、患者が組み入れ基準を満たすかどうかに基づいてワクチン治療に対する患者のサブセットを選択する。一実施形態では、組み入れ基準は、提示モデルによって生成される患者の新生抗原候補の提示尤度に基づいて決定される。組み入れ基準を調整することにより、患者選択モジュール324は、患者の新生抗原候補の提示尤度に基づいてワクチン投与を受ける患者数を調整することができる。具体的には、厳密な組み入れ基準では、ワクチンで治療される患者の数はより少なくなるが、有効な治療を受ける(例えば、1つ以上の腫瘍特異的新生抗原(TSNA)が送達される)ワクチン治療患者の比率は高くなり得る。これに対して、緩い組み入れ基準では、ワクチンで治療される患者の数はより多くなるが、有効な治療を受けるワクチン治療患者の比率は低くなり得る。患者選択モジュール324は、ワクチン投与を受ける患者の目標比率とワクチン治療の結果、有効な治療を受ける患者の比率との所望のバランスに基づいて組み入れ基準を変更する。
一実施形態では、患者に、ワクチン容量vを有する患者に対する個別化ワクチンに潜在的に含ませることができるv種類の新生抗原候補の対応する治療サブセットが関連付けられる。一実施形態では、ある患者に対する治療サブセットは、提示モデルによって決定される最も高い提示尤度を有する新生抗原候補である。例えば、ワクチンがv=20種類のエピトープを含み得る場合、ワクチンは、提示モデルによって決定される最も高い提示尤度を有する各患者の治療サブセットを含み得る。しかしながら、他の実施形態では、ある患者に対する治療サブセットは、他の方法に基づいて決定することもできる点は認識される。例えば、ある患者に対する治療サブセットは、その患者に対する新生抗原候補のセットからランダムに選択することができ、または、ペプチド配列の結合親和性もしくは安定性をモデリングする従来技術のモデル、または提示モデルから得られる提示尤度及びこれらのペプチド配列に関する親和性または安定性情報を含む因子の組み合わせに一部基づいて決定することができる。
一実施形態では、患者選択モジュール324は、患者の腫瘍変異負荷が最小の変異負荷に等しいかまたはそれよりも高い場合に患者が組み入れ基準を満たすものと判定する。ある患者の腫瘍変異負荷(TMB)は、腫瘍エクソームの非同義変異の総数を示す。一実施形態では、患者選択モジュール324は、患者のTMBの絶対数が所定の閾値に等しいかまたはそれよりも高い場合にワクチン治療に適した患者を選択する。別の実現形態では、患者選択モジュール324は、患者のTMBが患者のセットについて決定されたTMB間の閾値パーセンタイル内にある場合にワクチン治療に適した患者を選択する。
別の実施形態では、患者選択モジュール324は、患者の治療サブセットに基づく患者の有用性スコアが最小の有用性スコアに等しいかまたはそれよりも高い場合に患者が組み入れ基準を満たすものと判定する。一実施形態では、有用性スコアは、治療サブセットからの提示抗原の推定数の尺度である。
提示抗原の推定数は、新生抗原の提示を1つ以上の確率分布のランダム変数としてモデル化することによって予測することができる。一実現形態では、患者iの有用性スコアは、治療サブセットからの提示新生抗原候補の期待数、またはその特定の関数である。例として、各新生抗原の提示は、提示(成功)の確率が新生抗原候補の提示尤度によって与えられるベルヌーイのランダム変数としてモデル化することができる。詳細には、それぞれが最も高い提示尤度u
i1、u
i2、…、u
ivを有するv種類の新生抗原候補p
i1、p
i2、…、p
ivの治療サブセットS
iについて、新生抗原候補p
ijの提示は、ランダム変数A
ijによって与えられ、ここで、
提示される新生抗原の期待数は、各新生抗原候補の提示尤度の総和により与えられる。換言すれば、患者iの有用性スコアは、下式として表される:
患者選択モジュール324は、ワクチン治療について最小有用性に等しいかまたはそれよりも高い有用性スコアを有する患者のサブセットを選択する。
別の実現形態では、患者iの有用性スコアは、少なくとも閾値数の新生抗原kが提示される確率である。1つの例では、新生抗原候補の治療サブセットS
i内の提示抗原の数は、提示(成功)の確率がエピトープのそれぞれの提示尤度によって与えられるポアソン二項ランダム変数としてモデル化される。詳細には、患者iの提示抗原の数は、ランダム変数N
iによって与えることができる:
式中、PBD(・)は、ポアソン二項分布を示す。少なくとも閾値数の新生抗原kが提示される確率は、提示抗原の数N
iがkに等しいかまたはそれよりも大きい確率の操作によって与えられる。換言すれば、患者iの有用性スコアは、下式として表される:
患者選択モジュール324は、ワクチン治療について最小有用性に等しいかまたはそれよりも高い有用性スコアを有する患者のサブセットを選択する。
別の実施形態では、ある患者に対する治療サブセット内の新生抗原の数は、ワクチン容量vに限定される必要はなく、患者選択モジュール324はその患者の候補新生抗原の任意のセットに基づいて決定される有用性スコアを用いて患者を選択することができる。例えば、有用性スコアは、その患者について特定されたすべての変異または候補新生抗原に基づいて決定することができる。有用性スコアは、例えば、式(24)〜(27)とともに述べた方法(ただし、ここでvは患者iに依存する変数v(i)である)を用いて生成することができ、その患者について特定された変異または候補新生抗原の総数を示す。
別の実現形態では、患者iの有用性スコアは、1つ以上の患者のHLAアレルに対して固定閾値(例えば500nM)よりも低い結合親和性または予測される結合親和性を有する新生抗原候補の治療サブセットSi内の新生抗原の数である。1つの例では、固定閾値は、1000nM〜10nMの範囲である。場合により、有用性スコアは、RNA−seqによって発現されたものとして検出された新生抗原のみをカウントしてもい。
別の実現形態では、患者iの有用性スコアは、その患者の1つ以上のHLAアレルに対する結合親和性がそのHLAアレルに対するランダムなペプチドの結合親和性の閾値パーセンタイル以下である、新生抗原候補の治療サブセットSi内の新生抗原の数である。1つの例では、閾値パーセンタイルは、10パーセンタイル〜0.1パーセンタイルの範囲である。場合により、有用性スコアは、RNA−seqによって発現されたものとして検出された新生抗原のみをカウントしてもよい。
式(25)及び(27)に関して説明した有用性スコアの例はあくまで例示的なものに過ぎず、患者選択モジュール324は他の統計学または確率分布を用いて有用性スコアを生成することもできる点は認識されよう。
XI.実施例7:免疫チェックポイント阻害剤療法及び他の免疫療法のための新生抗原負荷
患者選択モジュール324は、上記のセクションXで定義した有用性スコアを用いて、免疫チェックポイント阻害剤療法(例えば、PD−1、CTLA4)または新生抗原負荷が有効性と関連し得る他の任意の免疫療法を行う患者を選択することもできる。他の免疫療法としては、免疫賦活剤、免疫刺激分子アゴニスト(例えば、CD40)、腫瘍溶解性ウイルス(例えば、T−VEC)、新生抗原もしくは他のがん抗原含有治療ワクチン、新生抗原もしくは他のがん抗原標的化養子細胞療法、腫瘍微小環境調節物質(例えば、TGFβ)、またはこれらと免疫チェックポイント阻害剤の任意の組み合わせが挙げられる。
例えば、いくつかの実施形態では、免疫賦活剤は、免疫細胞の阻害性受容体、またはそのリガンドのシグナル伝達をブロックする薬剤である。いくつかの実施形態では、阻害性受容体またはリガンドは、CTLA−4、PD−1、PD−L1、LAG−3、Tim3、TIGIT、ニューリチン、BTLA、KIR、及びこれらの組み合わせから選択される。いくつかの態様では、薬剤は、抗PD−1抗体(例えば、ペムブロリズマブまたはニボルマブ)、抗PD−L1抗体(例えば、アテゾリズマブ)、抗CTLA−4抗体(例えば、イピリムマブ)、及びこれらの組み合わせから選択される。いくつかの態様では、薬剤は、ペムブロリズマブである。いくつかの態様では、薬剤は、ニボルマブである。いくつかの態様では、薬剤は、アテゾリズマブである。
いくつかの実施形態では、治療剤は、PD−1とPD−L1との相互作用を阻害する薬剤である。いくつかの態様では、PD−1とPD−L1との相互作用を阻害するさらなる薬剤は、抗体、ペプチド模倣体、及び小分子から選択される。いくつかの態様では、PD−1とPD−L1との相互作用を阻害するさらなる薬剤は、ペムブロリズマブ、ニボルマブ、アテゾリズマブ、アベルマブ、デュルバルマブ、BMS−936559、スルファモノメトキシン1、及びスルファメチゾール2から選択される。いくつかの実施形態では、PD−1とPD−L1との相互作用を阻害するさらなる薬剤は、例えば、その全容を参照により援用するWeinmann et al.,Chem Med Chem,2016,14:1576 (DOI:10.1002/cmdc.201500566)に記載されるような、そのような活性を有する当該技術分野では周知の任意の治療剤である。
いくつかの実施形態では、免疫賦活剤は、免疫細胞の共刺激性受容体のアゴニストである。いくつかの態様では、共刺激性受容体は、OX40、ICOS、CD27、CD28、4−1BB、及びCD40から選択される。いくつかの実施形態では、アゴニストは、抗体である。
いくつかの実施形態では、免疫賦活剤は、サイトカインである。いくつかの態様では、サイトカインは、IL−2、IL−5、IL−7、IL−12、IL−15、IL−21、及びこれらの組み合わせから選択される。
いくつかの実施形態では、免疫賦活剤は、腫瘍溶解性ウイルスである。いくつかの態様では、腫瘍溶解性ウイルスは、単純ヘルペスウイルス、水疱性口炎ウイルス、アデノウイルス、ニューカッスル病ウイルス、ワクシニアウイルス、及びマラバウイルスから選択される。
いくつかの実施形態では、免疫賦活剤は、キメラ抗原受容体を有するT細胞(CAR−T細胞)である。いくつかの実施形態では、免疫賦活剤は、二重特異性または多重特異性T細胞指向性抗体である。いくつかの実施形態では、免疫賦活剤は、抗TGF−β抗体である。いくつかの実施形態では、免疫刺激剤は、TGF−βトラップである。
いくつかの実施形態では、治療剤は、腫瘍抗原に対するワクチンである。本明細書で提供される方法によって治療される腫瘍中にその抗原が存在するならば、任意の適当な抗原にワクチンを標的化することができる。いくつかの態様では、腫瘍抗原は、正常組織中におけるその発現レベルと比較して過剰発現される腫瘍抗原である。いくつかの態様では、腫瘍抗原は、がん・精巣抗原(cancer testis antigen)、分化抗原、NY−ESO−1、MAGE−A1、MART、及びこれらの組み合わから選択される。いくつかの実施形態では、治療剤は、1つ以上の新生抗原に対するワクチンである。ワクチン中の新生抗原は、本明細書で提供される方法により特定することができる。
詳細には、患者選択モジュール324は、各患者についての提示新生抗原の総期待数を示す新生抗原負荷を決定する。組み入れ基準を満たす新生抗原負荷を有する患者に、チェックポイント阻害剤療法を投与することができる。例えば、所定の閾値を上回る新生抗原負荷を有する患者にかかる療法を投与することができる。一実施形態では、新生抗原負荷は、セクションXIに示される有用性スコアであり、その場合、vは、その患者に対する候補抗原のサブセットではなく、患者について特定された変異または候補新生抗原の総数である。
ある特定の腫瘍中の新生抗原負荷が中央値に対して高い場合、その腫瘍を有する対象は、抗CTLA4、抗PD1、及び/または抗PDL1などのチェックポイント阻害剤による治療が奏功する可能性が高いことを示し得る。例えば、新生抗原は一般的に、腫瘍細胞表面上に提示され、チェックポイント阻害剤療法後の腫瘍に対してより高い活性を有するT細胞によって認識される可能性がより高いことから、新生抗原負荷は、変異負荷と比較してチェックポイント阻害剤による効果のより優れた指標となり得る。
別の実施形態では、患者選択モジュール324は、以下の特性、すなわち、予測されたHLAクラスI新生抗原負荷、予測されたHLAクラスII新生抗原負荷、及び腫瘍変異負荷のうちの1つ以上のものの組み合わせから生成された有用性スコアを用いることができる。ある患者について予測されたHLAクラスIの新生抗原負荷は、その患者のクラスI HLAアレルのセットに対する新生抗原負荷であり、その患者のクラスI HLAアレル上に提示される新生抗原の総期待数を示す。ある患者について予測されたHLAクラスIIの新生抗原負荷は、その患者のクラスII HLAアレルのセットに対する新生抗原負荷であり、その患者のクラスII HLAアレル上に提示される新生抗原の総期待数を示す。例えば、有用性スコアは、f(クラスI新生抗原負荷、クラスII新生抗原負荷、腫瘍変異負荷;b)として計算することができる(ただし、f(・)は機械学習されるパラメータのセットbによってパラメータ化された関数である)。機械学習されるパラメータのセットbは、腫瘍タイプに依存し得る(例えば、bは、メラノーマと非小細胞肺癌とで異なり得る)。
別の実施形態では、患者選択モジュール324は、新生抗原以外の免疫原性腫瘍抗原に関する情報を組み入れた有用性スコアを用いることができる。新生抗原以外の免疫原性腫瘍抗原の例としては、がん・生殖細胞系抗原(cancer−germline antigen)(CGA、例えば、MAGEA3)、分化抗原(例えば、チロシナーゼ)、及び腫瘍中で過剰発現される抗原(例えば、CEA)が挙げられる。これらの抗原の発現レベルは、少なくとも腫瘍RNAシークエンシングデータを用いて決定することができ、患者の腫瘍のHLAアレルによって提示されるこれらの遺伝子からのHLAクラスIまたはクラスIIエピトープの期待数は、各遺伝子についてのRNAシークエンシングデータを用い、腫瘍抗原のセットからの各ペプチドに提示モデルを適用することによって決定することができる。これらの提示尤度は、f(クラスI新生抗原負荷、クラスII新生抗原負荷、腫瘍変異負荷、クラスI非新生抗原腫瘍抗原負荷、クラスII非新生抗原腫瘍抗原負荷;b)として計算される有用性スコアに組み入れることができる(ただし、f(・)は機械学習されるパラメータのセットbによってパラメータ化された関数である)。機械学習されるパラメータのセットbは、腫瘍タイプに依存し得る(例えば、bは、メラノーマと非小細胞肺癌とで異なり得る)。
有用性スコアがより高い場合、これは、患者の免疫系によって異物または非自己として認識されるより多くのHLAエピトープを提示する腫瘍を示す。より多くの非自己HLAエピトープを提示する腫瘍を有する患者は、こうした腫瘍は免疫治療後の腫瘍に対してより高い活性を有するT細胞によって認識されやすいことから、チェックポイント阻害剤または他の免疫療法が奏功する可能性がより高くなり得る。
上記のセクションXで述べた有用性スコアは、f(クラスI新生抗原負荷、クラスII新生抗原負荷、腫瘍変異負荷、クラスI非新生抗原腫瘍抗原負荷、クラスII非新生抗原腫瘍抗原負荷)を用いることにより、養子細胞療法(例えば、増殖させたTIL、CAR−T、または操作したTCR)による治療を行うための患者を選択するように適合することもできる(ただし、クラスI及びクラスIIの新生抗原及び非新生抗原は、養子免疫療法中に存在する、または存在すると予測されるものとしてのみ考慮される)。例えば、単一の新生抗原エピトープに対するTCR療法を操作する場合では、fをその単一のエピトープの提示尤度にまで縮小することができる。
XII.実施例8:例示的な患者選択性能を示す実験結果
セクションXで述べた患者選択の妥当性を、質量分析データにおいてシミュレートした新生抗原のサブセットが提示されていることが分かっている、シミュレートした新生抗原候補の試験セットがそれぞれに関連付けられたシミュレートした患者のセットで患者の選択を行うことにより検証する。詳細には、試験セット内のそれぞれのシミュレートした新生抗原候補に、その新生抗原がバッサーニ−スターンバーグデータセット(データセット「D1」)(データは、www.ebi.ac.uk/pride/archive/projects/PXD0000394にみることができる)からの複数アレルJY細胞株HLA−A*02:01及びHLA−B*07:02の質量分析データセットにおいて提示されているかどうかを示すラベルを関連付ける。図13Aとともに下記に詳細に述べるように、シミュレートした患者について多数の新生抗原候補を、非小細胞肺癌(NSCLC)患者における変異負荷の既知の度数分布に基づいてヒトプロテオームからサンプリングする。
同じHLAアレルについてのアレル毎提示モデルを、IEDBデータセット(データセット「D2」)(データは、http://www.iedb.org/doc/mhc_ligand_full.zipにみることができる)からの単一アレルHLA−A*02:01及びHLA−B*07:02の質量分析データのサブセットである訓練セットを用いて訓練する。詳細には、各アレルの提示モデルを、N末端側及びC末端側のフランキング配列をアレル非相互作用変数として、ネットワーク依存性関数gh(・)及びgw(・)ならびにexpit関数f(・)とともに組み入れた式(8)に示されるアレル毎モデルとした。アレルHLA−A*02:01の提示モデルは、アレル相互作用変数としてペプチド配列が、アレル非相互作用変数としてN末端側及びC末端側のフランキング配列が与えられるものとして、特定のペプチドがアレルHLA−A*02:01上に提示される提示尤度を生成する。アレルHLA−B*07:02の提示モデルは、アレル相互作用変数としてペプチド配列が、アレル非相互作用変数としてN末端側及びC末端側のフランキング配列が与えられるものとして、特定のペプチドがアレルHLA−B*07:02上に提示される提示尤度を生成する。
以下の例に図13A〜13Gを参照して開示するように、ペプチド結合の予測について訓練された提示モデル及び従来技術のモデルなどの異なるモデルを、それぞれのシミュレートした患者に対する新生抗原候補の試験セットに適用することによって予測に基づき患者に対する異なる治療サブセットを特定する。ワクチン治療について組み入れ基準を満たす患者を選択し、患者の治療サブセットにエピトープを含む個別化ワクチンに関連付ける。治療サブセットのサイズは、異なるワクチン容量に応じて異なる。提示モデルを訓練するために用いられる訓練セットとシミュレートした新生抗原候補の試験セットとの間の重複は導入されない。
以下の例では、ワクチンに含まれるエピトープ間で少なくとも特定の数の提示新生抗原を有する選択された患者の比率を分析する。この統計は、患者に免疫応答を誘発する潜在的な新生抗原を送達するうえでのシミュレートしたワクチンの有効性を示すものである。詳細には、ある試験セット内のシミュレートした新生抗原は、その新生抗原が質量分析データセットD2において提示されている場合に提示される。提示された新生抗原を有する患者の高い比率は、免疫応答を誘導することによって新生抗原ワクチンによる治療の奏功の可能性を示す。
XII.A.実施例8A:NSCLC癌患者における腫瘍変異負荷の度数分布
図13Aは、NSCLC患者における変異負荷の標本度数分布を示す。NSCLCを含む異なる腫瘍タイプにおける変異負荷及び変異は、例えば、がんゲノムアトラス(the cancer genome atlas)(TCGA) (https://cancergenome.nih.gov)にみることができる。X軸は各患者の非同義変異の数を表し、Y軸は特定の数の非同義変異を有する標本患者の比率を表す。図13Aの標本度数分布は、3〜1786個の変異の範囲を示し、患者の30%は100個よりも少ない変異を有している。図13Aには示されていないが、変異負荷は非喫煙者と比較して喫煙者でより高く、変異負荷が患者における新生抗原負荷の強力な指標となり得ることが研究によって示されている。
上記のセクションXIの冒頭で導入したように、シミュレートした患者の数のそれぞれに、新生抗原候補の試験セットが関連付けられる。各患者の試験セットは、各患者について図13Aに示される度数分布から変異負荷miをサンプリングすることによって生成される。各変異について、ヒトプロテオーム由来の21マーのペプチド配列を、シミュレートする変異配列を表すようにランダムに選択する。新生抗原候補配列の試験セットを、21マー内の変異にわたった各(8、9、10、11)マーのペプチド配列を特定することにより患者iについて生成する。各新生抗原候補に、新生抗原候補配列が質量分析D1データセット内に存在するかどうかを示すラベルを関連付ける。例えば、データセットD1内に存在する新生抗原候補配列にはラベル「1」を関連付け、データセットD1内に存在しない配列にはラベル「0」を関連付けることができる。以下でより詳細に述べるように、図13B〜13Gは、試験セット内の患者の提示新生抗原に基づいた患者選択の実験結果を示している。
XII.B.実施例8B:腫瘍変異負荷の組み入れ基準に基づく新生抗原提示を有する選択された患者の比率
図13Bは、患者が最小腫瘍変異負荷を満たすかどうかの組み入れ基準に基づいて選択された患者に対してシミュレートしたワクチンにおける提示される新生抗原の数を示す。対応する試験において少なくとも特定の数の提示新生抗原を有する選択された患者の比率を特定する。
図13Bにおいて、x軸は、「最小数の変異」のラベルで示される、腫瘍変異負荷に基づいたワクチン治療から除外される患者の比率を示す。例えば、「最小数の変異」200におけるデータポイントは、患者選択モジュール324が、少なくとも変異が200個の腫瘍変異負荷を有するシミュレートした患者のサブセットのみを選択したことを示す。別の例として、「最小数の変異」300におけるデータポイントは、患者選択モジュール324が、少なくとも300個の変異を有するより低い比率のシミュレートした患者を選択したことを示す。y軸は、ワクチン容量vを有さない試験セット内の少なくとも特定の数の提示された新生抗原が関連付けられた選択された患者の比率を示す。詳細には、上のプロットは、少なくとも1種類の新生抗原を提示する選択された患者の比率を示し、中間のプロットは、少なくとも2種類の抗原を提示する選択された患者の比率を示し、下のプロットは、少なくとも3個の抗原を提示する選択された患者の比率を示す。
図13Bに示されるように、提示された新生抗原を有する選択された患者の比率は、腫瘍変異負荷が高くなるほど顕著に増大している。これは、組み入れ基準としての腫瘍変異負荷が、新生抗原ワクチンが効果的な免疫反応を誘導する可能性の高い患者を選択するうえで効果的であり得ることを示している。
XII.C.実施例8C:提示モデルと従来技術のモデルとによって特定されたワクチンおける新生抗原提示の比較
図13Cは、提示モデルに基づいて特定された治療サブセットを含むワクチンに関連付けられた選択された患者と、従来技術のモデルによって特定された治療サブセットを含むワクチンに関連付けられた選択された患者との間のシミュレートしたワクチンにおける提示される新生抗原の数を比較したものである。左側のプロットは、限定的なワクチン容量としてv=10を仮定しており、右側のプロットは限定的なワクチン容量としてv=20を仮定している。患者は、提示された新生抗原の期待数を示す有用性スコアに基づいて選択される。
図13Cにおいて、実線は、アレルHLA−A*02:01及びHLA−B*07:02に対する提示モデルに基づいて特定された治療サブセットを含むワクチンに関連付けられた患者を示す。各患者に対する治療サブセットを、試験セット内の配列に提示モデルのそれぞれを適用し、最も高い提示尤度を有するv種類の新生抗原候補を特定することによって特定する。点線は、単一アレルHLA−A*02:01に対する従来技術のモデルNETMHCpanに基づいて特定された治療サブセットを含むワクチンに関連付けられた患者を示す。NETMHCpanについての実施の詳細は、http://www.cbs.dtu.dk/services/NetMHCpanに示されている。各患者に対する治療サブセットは、試験セット内の配列にNETMHCpanモデルを適用し、最も高い推定される結合親和性を有するv種類の新生抗原候補を特定することによって特定される。両グラフのx軸は、提示モデルに基づいて特定された治療サブセットにおける提示新生抗原の期待数を示す期待有用性スコアに基づいてワクチン治療から除外された患者の比率を示す。期待有用性スコアは、セクションXにおいて式(25)に関連して述べたようにして決定される。y軸は、ワクチンに含まれる少なくとも特定の数の新生抗原(1、2、または3種類の新生抗原)を提示する選択された患者の比率を示す。
図13Cに示されるように、提示モデルに基づいた治療サブセットを含むワクチンに関連付けられた患者には、従来技術のモデルに基づいた治療サブセットを含むワクチンに関連付けられた患者よりも有意に高い割合で提示新生抗原を含むワクチンが投与される。例えば、右側のグラフに示されるように、従来技術のモデルに基づいたワクチンに関連付けられた選択された患者のわずか40%と比較して、提示モデルに基づいたワクチンに関連付けられた選択された患者の80%に、ワクチン中で少なくとも1つの提示新生抗原が投与される。これらの結果は、本明細書に述べられる提示モデルは、腫瘍を治療するための免疫反応を誘発する可能性の高いワクチンの新生抗原候補を選択するうえで効果的であることを示している。
XII.D.実施例8D:提示モデルにより特定されたワクチンの新生抗原提示に対するHLAカバレージの影響
図13Dは、HLA−A*02:01についての単一アレル毎提示モデルに基づいて特定された治療サブセットを含むワクチンに関連付けられた選択された患者と、HLA−A*02:01及びHLA−B*07:02についてのアレル毎提示モデルの両方に基づいて特定された治療サブセットを含むワクチンに関連付けられた選択された患者との間のシミュレートしたワクチンにおける提示される新生抗原の数を比較したものである。ワクチン容量は、v=20種類のエピトープに設定する。各実験について、異なる治療サブセットに基づいて決定された期待有用性スコアに基づいて患者を選択する。
図13Dにおいて、実線は、HLAアレルHLA−A*02:01及びHLA−B*07:02に対する提示モデルの両方に基づいた治療サブセットを含むワクチンに関連付けられた患者を示す。各患者に対する治療サブセットは、試験セット内の配列に提示モデルのそれぞれを適用し、最も高い提示尤度を有するv種類の新生抗原候補を特定することによって特定される。点線は、HLAアレルHLA−A*02:01に対する単一提示モデルに基づいた治療サブセットを含むワクチンに関連付けられた患者を示す。各患者に対する治療サブセットは、試験セット内の配列に単一HLAアレルのみについての提示モデルを適用し、最も高い提示尤度を有するv種類の新生抗原候補を特定することによって特定される。実線のプロットでは、x軸は、両方の提示モデルにより特定された治療サブセットに対する期待有用性スコアに基づいてワクチン治療から除外された患者の比率を示す。点線のプロットでは、x軸は、単一の提示モデルにより特定された治療サブセットに対する期待有用性スコアに基づいてワクチン治療から除外された患者の比率を示す。y軸は、少なくとも特定の数の新生抗原(1、2、または3種類の新生抗原)を提示する選択された患者の比率を示す。
図13Dに示されるように、両方のHLAアレルに対する提示モデルより特定された治療サブセットを含むワクチンに関連付けられた患者は、単一の提示モデルにより特定された治療サブセットを含むワクチンに関連付けられた患者よりも有意に高い割合で新生抗原を提示する。これらの結果は、高いHLAカバレージを有する提示モデルを確立することの重要性を示すものである。
XII.E.実施例8E:腫瘍変異負荷と提示新生抗原の期待数とによって選択された患者における新生抗原提示の比較
図13Eは、腫瘍変異負荷に基づいて選択された患者と、期待有用性スコアにより選択された患者との間でシミュレートしたワクチンにおける提示される新生抗原の数を比較したものである。期待有用性スコアは、v=20種類のエピトープのサイズを有する提示モデルにより特定された治療サブセットに基づいて決定する。
図13Eにおいて、実線は、提示モデルにより特定された治療サブセットを含むワクチンに関連付けられた期待有用性スコアに基づいて選択された患者を示す。各患者に対する治療サブセットは、試験セット内の配列に提示モデルのそれぞれを適用し、最も高い提示尤度を有するv=20種類の新生抗原候補を特定することによって特定される。治療有用性スコアは、セクションXで式(25)に基づいて特定された治療サブセットの提示尤度に基づいて決定される。点線は、提示モデルにより特定された治療サブセットを含むワクチンに関連付けられた腫瘍変異負荷に基づいて選択された患者を示す。x軸は、実線のプロットの期待有用性スコアに基づいてワクチン治療から除外された患者の比率、及び点線のプロットの腫瘍変異負荷に基づいて除外された患者の比率を示す。y軸は、少なくとも特定の数の提示新生抗原(1、2、または3種類の新生抗原)を含むワクチンが投与される選択された患者の比率を示す。
図13Eに示されるように、期待有用性スコアに基づいて選択された患者には、腫瘍変異負荷に基づいて選択された患者よりも高い割合で提示新生抗原を含むワクチンが投与される。しかしながら、腫瘍変異負荷に基づいて選択された患者には、選択されない患者よりも高い割合で提示新生抗原を含むワクチンが投与される。したがって、腫瘍変異負荷は効果的な新生抗原ワクチン治療における効果的な患者選択基準であるが、期待有用性スコアはより効果的である。
XIII.例示的なコンピュータ
図14は、図1及び図3に示した実体を実施するための例示的なコンピュータ1400を説明する。コンピュータ1400は、チップセット1404に連結された少なくとも1つのプロセッサ1402を含む。チップセット1404は、メモリコントローラハブ1420及び入力/出力(I/O)コントローラハブ1422を含む。メモリ1406及びグラフィックスアダプタ1412は、メモリコントローラハブ1420に連結されており、ディスプレイ1418は、グラフィックスアダプタ1412に連結されている。記憶デバイス1408、入力装置1414、及びネットワークアダプタ1416は、I/Oコントローラハブ1422に連結されている。コンピュータ1400の他の実施形態は、異なるアーキテクチャを有する。
記憶デバイス1408は、ハードドライブ、コンパクトディスク読み出し専用メモリ(CD−ROM)、DVD、またはソリッドステートメモリ装置などの、非一時的なコンピュータ可読の記憶媒体である。メモリ1406は、プロセッサ1402によって使用される命令及びデータを保持する。入力インターフェイス1414は、タッチスクリーンインターフェイス、マウス、トラックボール、もしくは他のタイプのポインティングデバイス、キーボード、またはそれらのいくつかの組み合わせであり、データをコンピュータ1400中に入力するために使用される。いくつかの実施形態において、コンピュータ1400は、ユーザーからのジェスチャーを介して、入力インターフェイス1414からの入力(例えば、コマンド)を受け取るように構成されていてもよい。グラフィックスアダプタ1412は、ディスプレイ1418上に画像及び他の情報を表示する。ネットワークアダプタ1416は、コンピュータ1400を、1つ以上のコンピュータネットワークに連結する。
コンピュータ1400は、本明細書に記載した機能性を提供するためのコンピュータプログラムモジュールを遂行するように適合している。本明細書において使用される場合、「モジュール」という用語は、特定の機能性を提供するために使用されるコンピュータプログラム論理を指す。したがって、モジュールは、ハードウェア、ファームウェア、及び/またはソフトウェアにおいて実行されることができる。一実施形態では、プログラムモジュールは、記憶デバイス1408に保存され、メモリ1406中にロードされ、プロセッサ1402によって遂行される。
図1の実体によって使用されるコンピュータ1400のタイプは、実体によって必要とされる実施形態及びプロセシングパワーに応じて変動することができる。例えば、提示特定システム160は、単一のコンピュータ1400、または、例えばサーバーファームにおいてネットワークを通して互いに通信する複数のコンピュータ1400において、起動することができる。コンピュータ1400は、グラフィックスアダプタ1412及びディスプレイ1418などの、上記の構成要素のうちのいくつかを欠いてもよい。
本明細書では、治療に適した患者のサブセットを特定するための方法も開示する。各患者の腫瘍細胞及び正常細胞から、エクソーム、トランスクリプトーム、または全ゲノムの腫瘍ヌクレオチドシークエンシングデータのうちの少なくとも1つが取得される。腫瘍ヌクレオチドシークエンシングデータを用いて、腫瘍細胞からのヌクレオチドシークエンシングデータと正常細胞からのヌクレオチドシークエンシングデータとを比較することによって特定された新生抗原のセットのそれぞれのペプチド配列が得られる。患者の各新生抗原のペプチド配列は、それを患者の正常細胞から特定された対応する野生型の親ペプチド配列とは異なるものとする少なくとも1つの変化を含む。新生抗原のセットのそれぞれのペプチド配列を、機械学習させた提示モデルに入力することにより、各患者について新生抗原のセットの数値的提示尤度のセットが生成される。各提示尤度は、対応する新生抗原が患者の腫瘍細胞の表面上の1つ以上のMHCアレルによって提示される尤度を表す。提示尤度のセットは少なくとも質量分析データに基づいて特定されたものである。患者の新生抗原のセットから1つ以上の新生抗原が特定される。患者についての1つ以上の新生抗原の対応する提示尤度によって決定される、患者の腫瘍細胞の表面上に提示される新生抗原の推定数を示す有用性スコアが、それぞれの患者について決定される。患者のサブセットが治療を行うために選択される。この患者のサブセット内の各患者は、所定の組み入れ基準を満たす有用性スコアと関連する。選択されたサブセットの患者に新生抗原ワクチンまたはチェックポイント阻害剤療法などの治療を行うことができる。
[本発明1001]
治療に適した患者のサブセットを特定する方法であって、
患者の腫瘍細胞及び正常細胞からエクソーム、トランスクリプトーム、または全ゲノムの腫瘍ヌクレオチドシークエンシングデータのうちの少なくとも1つをそれぞれの患者について取得することであって、前記腫瘍ヌクレオチドシークエンシングデータが、前記腫瘍細胞からの前記ヌクレオチドシークエンシングデータと前記正常細胞からの前記ヌクレオチドシークエンシングデータとを比較することにより特定された新生抗原のセットのそれぞれのペプチド配列を取得するために用いられ、前記患者についての各新生抗原のペプチド配列が、それを前記患者の正常細胞から特定された対応する野生型の親ペプチド配列とは異なるものとする少なくとも1つの変化を含む、前記取得することと、
新生抗原のセットのそれぞれのペプチド配列を、機械学習させた提示モデルに入力することにより、前記患者についての新生抗原の前記セットについての数値的提示尤度のセットをそれぞれの患者について生成することであって、各提示尤度が、対応する新生抗原が前記患者の腫瘍細胞の表面上の1つ以上のMHCアレルによって提示される尤度を表し、提示尤度の前記セットが、少なくとも質量分析データに基づいて特定されたものである、前記生成することと、
前記患者の新生抗原の前記セットから1つ以上の新生抗原をそれぞれの患者について特定することと、
前記患者についての前記1つ以上の新生抗原についての対応する提示尤度によって決定される、前記患者の腫瘍細胞の表面上に提示される新生抗原の推定数を示す有用性スコアをそれぞれの患者について決定することと、
治療に適した患者のサブセットを選択することであって、前記の患者のサブセット内の各患者が、所定の組み入れ基準を満たす有用性スコアと関連する、前記選択することと
を含む、前記方法。
[本発明1002]
前記1つ以上の新生抗原を前記患者について特定することが、前記患者についての新生抗原の前記セット中の、新生抗原のサブセットを選択することを含む、本発明1001の方法。
[本発明1003]
新生抗原の前記サブセットが、前記患者についての提示尤度の前記セットの中で最も高い提示尤度を有する新生抗原である、本発明1002の方法。
[本発明1004]
前記の患者の選択されたサブセット内の各患者を、前記患者について特定された前記1つ以上の新生抗原のうちの少なくとも1つを含む対応する新生抗原ワクチンを用いて治療することをさらに含む、本発明1001の方法。
[本発明1005]
前記の患者の選択されたサブセット内の各患者について、前記患者について特定された前記1つ以上の新生抗原のうちの少なくとも1つに対して抗原特異的である1つ以上のT細胞またはT細胞受容体を特定することをさらに含む、本発明1001の方法。
[本発明1006]
前記1つ以上の新生抗原を前記患者について特定することが、前記患者について特定された新生抗原のセット全体を選択することを含む、本発明1001の方法。
[本発明1007]
前記の患者の選択されたサブセット内の各患者にチェックポイント阻害剤治療を施すことをさらに含む、本発明1006の方法。
[本発明1008]
治療に適した患者のサブセットを選択することが、最小閾値よりも高い腫瘍変異負荷(TMB)を有する患者のサブセットを選択することを含み、ある患者のTMBが、その患者に関連付けられた新生抗原のセット内の新生抗原の数を示す、本発明1001の方法。
[本発明1009]
治療に適した患者のサブセットを選択することが、
最小閾値よりも高い有用性スコアを有する患者のサブセットを選択すること
を含む、本発明1001の方法。
[本発明1010]
前記有用性スコアが、前記患者の新生抗原の前記特定されたサブセット内の各新生抗原についての提示尤度の総和である、本発明1001の方法。
[本発明1011]
前記有用性スコアが、前記患者について前記特定された1つ以上の新生抗原のうちの提示新生抗原の数が最小の閾値を上回る確率である、本発明1001の方法。
[本発明1012]
前記機械学習させた提示モデルが、
複数の試料のうちの少なくとも1つに存在するものとして特定された少なくとも1つのMHCアレルに結合したペプチドの存在を測定する質量分析によって得られた標識と、
訓練ペプチド配列を構成する複数のアミノ酸及び前記訓練ペプチド配列内におけるアミノ酸の位置のセットに関する情報を含む前記訓練ペプチド配列と、
前記訓練ペプチド配列に関連付けられた少なくとも1つのMHCアレルと
を含む、訓練データセットに少なくとも基づいて特定された複数のパラメータ;ならびに
前記ペプチド配列と前記複数のパラメータに基づいた前記提示尤度との間の関係を表す関数
を含む、本発明1001の方法。
[本発明1013]
前記訓練データセットが、
(a)単離されたペプチドの少なくとも1つについてのペプチド−MHC結合親和性の測定値に関連するデータ、及び
(b)単離されたペプチドの少なくとも1つについてのペプチド−MHC結合安定性の測定値に関連するデータ
のうちの少なくとも1つをさらに含む、本発明1012の方法。
[本発明1014]
数値的尤度の前記セットが、
(a)そのソースタンパク質配列内の、前記新生抗原コード化ペプチド配列に隣接するC末端配列、及び
(b)そのソースタンパク質配列内の、前記新生抗原コード化ペプチド配列に隣接するN末端配列
のうちの少なくとも1つを含む特性によってさらに特定される、本発明1001の方法。
[本発明1015]
提示尤度の前記セットが、RNA−seqまたは質量分析により測定される、前記対象の前記1つ以上のMHCアレルの少なくとも発現レベルによってさらに特定される、本発明1001の方法。
[本発明1016]
提示尤度の前記セットが、
(a)新生抗原の前記セット内の新生抗原と前記1つ以上のMHCアレルとの間の予測される親和性、及び
(b)前記新生抗原コード化ペプチド−MHC複合体の予測される安定性
のうちの少なくとも1つを含む特性によってさらに特定される、本発明1001の方法。
[本発明1017]
前記ペプチド配列を前記機械学習させた提示モデルに入力することが、
前記ペプチド配列の特定の位置の特定のアミノ酸に基づいて、MHCアレルが前記新生抗原を提示するかどうかを示す依存性スコアを、前記1つ以上のMHCアレルのそれぞれについて生成するために、前記機械学習させた提示モデルを各新生抗原の前記ペプチド配列に適用すること
を含む、本発明1001の方法。
[本発明1018]
前記ペプチド配列を前記機械学習させた提示モデルに入力することが、
対応する新生抗原を対応するMHCアレルが提示する尤度を示す、対応するアレル毎尤度を、各MHCアレルについて生成するために、前記依存性スコアを変換すること;及び
前記新生抗原の提示尤度を生成するために、前記アレル毎尤度を組み合わせること
を含む、本発明1017の方法。
[本発明1019]
前記依存性スコアを変換することが、前記新生抗原の提示を、前記1つ以上のクラスMHCアレルにわたって相互排他的なものとしてモデル化する、本発明1018の方法。
[本発明1020]
前記ペプチド配列を前記機械学習させた提示モデルに入力することが、
提示尤度を生成するために、前記依存性スコアの組み合わせを変換すること
を含み、前記依存性スコアの組み合わせを変換することが、前記新生抗原の提示を、前記1つ以上のMHCアレル間で干渉するものとしてモデル化する、本発明1017の方法。
提示特定システム160は、1つ以上の提示モデルを通して提示尤度を決定する。具体的には、提示モデルは、所定のペプチド配列が、関連するMHCアレルのセットについて提示されるかどうかの尤度を生成し、尤度は、記憶装置165に保存された提示情報に基づいて生成される。例えば、提示モデルは、ペプチド配列「YVYVADVAAK(SEQ ID NO:1)」が、試料の細胞表面上のアレルのセットHLA−A*02:01、HLA−A*03:01、HLA−B*07:02、HLA−B*08:03、HLA−C*01:04について提示されるかどうかの尤度を生成し得る。提示情報165は、MHCアレルによってペプチドが提示されるようにこれらのペプチドが様々なタイプのMHCアレルに結合するかどうかについての情報を含有し、これは、モデルにおいて、ペプチド配列中のアミノ酸の位置に応じて決定される。提示モデルは、提示情報165に基づいて、認識されていないペプチド配列が、MHCアレルの関連するセットと結合して提示されるかどうかを予測することができる。上記に述べたように、提示モデルはクラスI及びクラスII MHCアレルの両方に適用することができる。