本明細書の開示は、RNA配列試料のバッチ(例えば、フローセル全体に相当する)の品質管理分析を実施する改善された方法を提供する。品質管理(QC)試験は、配列リードと、試料メタデータと、を含む、RNA配列決定試料のバッチに対して実施される。本明細書に記載される方法は、自動化されたRNA発現コールレポートを実施し、臨床レポートに影響を与える可能性のあるバッチ効果を検出するための十分なデータ品質を保証する目的を果たす。このような方法は、データ品質の一貫性を確保するのにも役立ち、これは、時間の経過とともにデータを比較するために重要である。本明細書における品質管理方法は、試料のフローセル全体の自動レビューおよび分析を提供する。
利点
本開示は、トランスクリプトーム試料のセット(例えば、フローセル)における技術的バッチ効果を、がんの種類および組織部位が一致した検証された参照試料のセット(例えば、コホート一致参照バッチ)とともにプールすることによって、それらを評価する新規方法を提供する。これらの方法は、グローバル(例えば、バッチ内の試料のセット全体に対して実施される)および単一試料品質管理分析を同時に可能にするという点で、従来技術に対して改善される。これらの品質管理方法は、試料品質の迅速かつ正確な分析を提供することによって患者に利益をもたらし、したがって、改善された、より時宜にかなった患者の診断および治療を提供する。
大量のRNA配列決定を行う実験室では、試料を長期間にわたって比較する場合、技術的バッチ効果に非常に注意する必要があり、これは、がんトランスクリプトームの分析および治療に対する患者の反応の判定に不可欠である。核酸抽出、ライブラリー調製、および配列決定で使用される試薬、プロトコル、または技術の変更により、異なるバッチからの試料の比較を無効または複雑にする方法でトランスクリプトームが変更される可能性があり、試料の品質および一貫性を継続的にモニタリングすることが必要である。腫瘍の種類が、がんにおけるトランスクリプトーム分散の主要な生物学的決定因子であるため、異なる組織部位からの試料を分析する場合、このモニタリングは特に困難になる可能性がある。これは、例えば、脳がんおよび肝臓がんの試料は、トランスクリプトーム的に大きく異なることが予想され、それらの比較はバッチ効果の検出に有益ではないことを意味する。本明細書における方法が、参照試料と各個々のフローセル内の試料との間のコホートマッチングを提供するという事実は、これらの品質管理測定基準を以前の方法よりも正確にする。
定義
本開示で使用される用語は、特定の実施形態を説明することのみを目的としており、本発明を限定することを意図するものではない。本発明の説明および特許請求の範囲の中で使用するとき、単数形「a」、「an」および「the」は、文脈において特に明確な指示がない限り、複数形も含むことを意図する。また、本明細書で使用されるとき、「および/または」という用語は、列挙する関連項目の1つ以上の任意かつすべての可能な組み合わせを指し、包含することも理解されるであろう。さらに本明細書で使用されるとき、「含む(includes)」、「含む(comprising)」という用語、またはそれらの任意の変形は、記載された特徴、整数、ステップ、動作、要素、および/もしくは構成要素の存在を規定するが、1つ以上の他の特徴、整数、ステップ、動作、要素、構成要素、および/もしくはそれらの群の存在、または追加を除外しないことも理解されたい。さらに、「含んでいる(including)」、「含む(includes)」、「有している(having)」、「有する(has)」、「有する(with)」、またはそれらの異形の用語が、詳細な説明および/または特許請求の範囲のいずれかにおいて使用される限り、そのような用語は、「含んでいる(comprising)」という用語と同様の方法で包括的であることを意図する。
本明細書で使用されるとき、「もし(if)」という用語は、文脈に応じて「場合(when)」もしくは「とき(upon)」、または「決定することに応答して(in response to determining)」もしくは「検出することに応答して(in response to detecting)」を意味するものと解釈されてもよい。同様に、「決定される場合(if it is determined)」または「(述べた条件または事象を)検出される場合(if(a stated condition or event)is detected)」という句は、文脈に応じて「決定するとき(upon determining)」もしくは「決定することに応答して(in response to determining)」、または「(述べた条件または事象を)検出するとき(upon detecting)」もしくは「(述べた条件または事象を)検出することに応答して(in response to detecting)」を意味するものと解釈され得る。
また、第1、第2などの用語は、様々な要素を説明するために本明細書で使用されることがあるが、これらの要素はこれらの用語によって限定されるべきではないことも理解されるであろう。これらの用語は、ある要素を別の要素と区別するためにのみ使用される。例えば、本開示の範囲から逸脱することなく、第1の対象を第2の対象と称することができ、同様に、第2の対象を第1の対象と称することができる。第1の対象および第2の対象は、両方とも同じ対象であるが、同じ対象ではない。さらに、「対象」、「ユーザ」、および「患者」という用語は、本明細書では互換的に使用される。
本明細書で使用される場合、「対象」または「患者」という用語は、任意の生きているまたは生きていないヒト(例えば、男性のヒト、女性のヒト、胎児、妊娠中の女性、子供など)を指す。いくつかの実施形態において、対象は、任意の段階の男性または女性(例えば、男性、女性、または子供)である。
本明細書で使用される場合、「対照」、「対照試料」、「参照」、「参照試料」、「正常」、および「正常試料」という用語は、特定の状態を有さない、またはそうでない場合は健常である対象由来の試料を表す。一例において、本明細書に開示される方法は、腫瘍を有する対象に対して実施され得、参照試料は、その対象の健常な組織から採取された試料である。いくつかの実施形態において、参照試料は、対象から取得することができる(例えば、特定の時間からの対象についてのベンチマーク対照としての機能を果たすために)。いくつかの実施形態において、参照試料は、データベースから取得することができる。参照は、例えば、対象由来の試料の配列決定から取得された配列リードをマッピングするために使用される参照ゲノムであり得る。参照ゲノムは、生物学的試料および体質試料由来の配列リードをアラインメントし、比較することができる一倍体または二倍体ゲノムを指し得る。体質試料の例は、対象から得られた白血球のDNAであり得る。一倍体ゲノムについては、各遺伝子座には1つのヌクレオチドだけ存在し得る。二倍体ゲノムについては、ヘテロ接合遺伝子座が特定され得、各ヘテロ接合遺伝子座は2つの対立遺伝子を有し得、いずれかの対立遺伝子は遺伝子座へのアラインメントについての一致を可能にし得る。
本明細書で使用される場合、「遺伝子座」という用語は、ゲノム内の、例えば、特定の染色体上の位置(例えば、部位)を指す。いくつかの実施形態において、遺伝子座とは、ゲノム内の、例えば、特定の染色体上の単一のヌクレオチド位置を指す。いくつかの実施形態において、遺伝子座とは、例えば、がんゲノム内の連続するヌクレオチドの変異(例えば、置換、挿入、または欠失)によって定義されるような、ゲノム内のヌクレオチド位置の小さなグループを指す。正常な哺乳動物細胞は、2倍体ゲノムを有しているため、正常な哺乳動物ゲノム(例えば、ヒトゲノム)は、概して、ゲノム内のすべての遺伝子座の2つのコピー、または常染色体上にあるすべての遺伝子座の少なくとも2つのコピー、例えば、母系常染色体上の1つのコピーおよび父系常染色体上の1つのコピーを有するであろう。
本明細書で使用される場合、「対立遺伝子」という用語は、染色体遺伝子座での1つ以上のヌクレオチドの特定の配列を指す。
本明細書で使用される場合、「参照対立遺伝子」という用語は、種の集団内のその染色体遺伝子座で表される優勢な対立遺伝子(例えば、「野生型」配列)、または種についての参照ゲノム内で事前定義されている対立遺伝子のいずれかである染色体遺伝子座での1つ以上のヌクレオチドの配列を指す。
本明細書で使用される場合、「変異対立遺伝子」という用語は、種の集団内のその染色体遺伝子座で表される優勢な対立遺伝子ではない(例えば、「野生型」配列ではない)、または種についての参照ゲノム内で事前定義されている対立遺伝子ではないいずれかである染色体遺伝子座での1つ以上のヌクレオチドの配列を指す。
本明細書で使用される場合、「一塩基バリアント」、「SNV」、「一塩基多型」、または「SNP」という用語は、ヌクレオチド配列、例えば、個体からの配列リードの位置(例えば、部位)での1つのヌクレオチドの異なるヌクレオチドへの置換を指す。第1の核酸塩基Xから第2の核酸塩基Yへの置換は、「X>Y」として示され得る。例えば、シトシンからチミンへのSNPは、「C>T」として示され得る。「het-SNP」という用語は、ゲノムが少なくとも2倍体であり、2つ以上の相同配列のうちの少なくとも1つ(しかしすべてではない)が特定のSNPを示す、ヘテロ接合SNPを指す。同様に、「hom-SNP」は、相同SNPであり、倍数体ゲノムの各相同配列は、参照ゲノムと比較して同じバリアントを有する。本明細書で使用される場合、「構造バリアント」または「SV」という用語は、反転、挿入、欠失、または複製などの物理的変換を受けたゲノムの大きな(例えば、1kbより大きい)領域を指す(例えば、Spielmann et al.,2018,Nat Rev Genetics 19:453-467によるヒトゲノムSVのレビューを参照のこと)。
本明細書で使用される場合、「インデル」という用語は、単一の遺伝子座内または複数の遺伝子にわたるいずれかの、1つ以上のヌクレオチドのストレッチの挿入および/または欠失事象を指す。
本明細書で使用される場合、「コピー数バリアント」、「CNV」、または「コピー数多型」という用語は、繰り返されるゲノムの領域を指す。これらは、ゲノム領域で繰り返されるヌクレオチドの数に関して、短い繰り返しまたは長い繰り返しとして分類することができる。長い繰り返しとは、典型的に、遺伝子全体、または遺伝子の大部分が、1回以上繰り返される場合を指す。
本明細書で使用される場合、「変異」という用語は、1つ以上の細胞の遺伝物質における検出可能な変化を指す。特定の例において、1つ以上の変異ががん細胞に見出され得、癌細胞を特定し得る(例えば、ドライバーおよびパッセンジャーの変異)。変異は、親細胞から娘細胞に伝達され得る。当業者は、親細胞における遺伝子変異(例えば、ドライバー変異)が、娘細胞において追加の異なる変異(例えば、パッセンジャー変異)を誘発し得ることを理解するであろう。変異は、概して核酸において起こる。特定の例において、変異は、1つ以上のデオキシリボ核酸またはその断片における検出可能な変化であり得る。変異は、概して、核酸における新しい位置に付加、欠失、置換、反転、または転置されるヌクレオチドを指す。変異は、自然発生の変異または実験的に誘発された変異であり得る。特定の組織の配列における変異は、「組織特異的対立遺伝子」の例である。例えば、腫瘍は、正常細胞では起こらない遺伝子座での対立遺伝子をもたらす変異を有し得る。「組織特異的対立遺伝子」の別の例は、胎児組織で起こるが母体組織では起こらない胎児特異的対立遺伝子である。
本明細書で使用される場合、「ゲノムバリアント」という用語は、1つ以上の変異、コピー数バリアント、インデル、一塩基バリアント、またはバリアント対立遺伝子を指し得る。ゲノムバリアントは、上記の1つ以上の組み合わせを指す場合もある。
本明細書で使用される場合、「がん」、「がん性組織」、または「腫瘍」という用語は、塊の成長が正常組織の成長を上回り、調整されていない組織の異常な塊を指す。血液がんの場合、これには、がん細胞を含有する大量の血液またはその他の体液が含まれる。がんまたは腫瘍は、以下の特徴に応じて「良性」または「悪性」として定義することができる:形態および機能性を含む細胞分化の程度、成長速度、局所浸潤および転移。「良性」腫瘍は十分に分化することができ、悪性腫瘍よりも成長が遅いという特徴があり、原発部位に局在したままである。加えて、場合によっては、良性腫瘍には、離れた部位に侵入、浸潤、または転移する能力を有していない。「悪性」腫瘍は、低分化(退形成)であり得、進行性の侵入、浸潤、および周囲の組織の破壊を伴う特徴的に急速な成長を有する。さらに、悪性腫瘍は、離れた部位に転移する能力を有し得る。したがって、がん細胞は、その成長が正常組織の成長と協調していない組織の異常な塊内に見られる細胞である。したがって、「腫瘍試料」または「体細胞生検」は、本明細書に記載されるように、対象の腫瘍から得られた、またはそれに由来する生物学的試料を指す。
本明細書で使用される場合、「体細胞生検」という用語は、対象の生検を指す。いくつかの実施形態において、生検は固形組織のものである。いくつかの実施形態において、それは液体生検である。
本明細書で使用される場合、「配列決定(sequencing)」、「配列決定(sequence determination)」および本明細書で使用される同類の用語は、概して、核酸またはタンパク質などの生体高分子の順序を決定するために使用され得る任意かつすべての生化学的プロセスを指す。例えば、配列決定データは、mRNA転写物またはゲノム遺伝子座などの核酸分子におけるヌクレオチド塩基のすべてまたは一部を含み得る。
本明細書で使用される場合、「配列リード」または「リード」という用語は、本明細書に記載されるかまたは当技術分野で既知の任意の配列決定プロセスによって産生されるヌクレオチド配列を指す。リードは、核酸断片の一端から生成され得(「シングルエンドリード」)、場合によっては、核酸の両端から生成されることもある(例えば、ペアエンドリード、ダブルエンドリード)。配列リードの長さは、多くの場合、特定の配列決定技術に関連する。例えば、ハイスループット法は、サイズが数十~数百塩基対(bp)まで変化し得る配列リードを提供する。いくつかの実施形態において、配列リードは、約15bp~900bp長(例えば、約20bp、約25bp、約30bp、約35bp、約40bp、約45bp、約50bp、約55bp、約60bp、約65bp、約70bp、約75bp、約80bp、約85bp、約90bp、約95bp、約100bp、約110bp、約120bp、約130、約140bp、約150bp、約200bp、約250bp、約300bp、約350bp、約400bp、約450bp、または約500bp)の平均、中央値、または平均の長さのものである。いくつかの実施形態において、配列リードは、約1000bp、2000bp、5000bp、10,000bp、または50,000bp以上の平均、中央値、または平均の長さのものである。例えば、ナノポア配列決定は、サイズが数十~数百、数千塩基対まで変化し得る配列リードを提供し得る。Illumina並列配列決定は、それほど変化しない配列リードを提供し得、例えば、ほとんどの配列リードは200bp未満にし得る。配列リード(または配列決定リード)は、核酸分子(例えば、一連のヌクレオチド)に対応する配列情報を指し得る。例えば、配列リードは、核酸断片の一部由来の一連のヌクレオチド(例えば、約20~約150)に対応し得るか、核酸断片の一端または両端の一連のヌクレオチドに対応し得るか、または核酸断片全体のヌクレオチドに対応し得る。配列リードは、様々な方法で、例えば、配列決定技術を使用して、またはプローブ、例えば、ハイブリダイゼーションアレイもしくはキャプチャプローブ、またはポリメラーゼ連鎖反応(PCR)、もしくは単一のプライマーを使用する線形増幅、もしくは等温増幅などの増幅技術を使用して得ることができる。
本明細書で使用される場合、「リードセグメント」または「リード」という用語は、個体から得られた配列リードおよび/または個体から得られた試料由来の最初の配列リードに由来するヌクレオチド配列を含む任意のヌクレオチド配列を指す。例えば、リードセグメントは、アラインメントされた配列リード、折りたたまれた配列リード、または縫い合わせられたリードを指し得る。さらに、リードセグメントは、一塩基変異などの個々のヌクレオチド塩基を指し得る。
本明細書で使用される場合、「リード深度」、「配列決定深度」、または「深度」という用語は、所与の位置、領域、または遺伝子座で個体から得られた試料由来のリードセグメントの総数を指す。遺伝子座は、ヌクレオチドのように小さくても、染色体腕のように大きくても、またはゲノム全体のように大きくても可能である。配列決定深度は、「Y倍」、例えば、50倍、100倍などで表すことができ、「Y」は、遺伝子座が配列リードでカバーされた回数を指す。いくつかの実施形態において、深度は、ゲノムにわたって、エクソームにわたって、トランスクリプトームにわたって、または標的配列決定パネルにわたっての平均配列決定深度を指す。配列決定深度は、複数の遺伝子座、全ゲノムに適用することもでき、この場合、Yは、遺伝子座または半数体ゲノム、全ゲノム、全トランスクリプトーム、または全エクソームがそれぞれ配列決定される平均回数を指す。平均深度が引用される場合、データセットに含まれる異なる遺伝子座についての実際の深度は、値の範囲を超えて及ぶことができる。ウルトラディープ配列決定は、遺伝子座での配列決定深度において少なくとも100倍を指し得る。
本明細書で使用される場合、「配列決定幅」という用語は、特定の参照トランスクリプトーム(例えば、ヒト参照エクソーム)、特定の参照ゲノム(例えば、ヒト参照ゲノム)、またはトランスクリプトームもしくはゲノムの一部のいくつの割合が分析されたかを指す。割合の分母は反復マスクされたゲノムであり得、したがって100%は、マスクされた部分を除いたすべての参照ゲノムに対応し得る。反復マスクされたトランスクリプトームまたはゲノムは、配列反復がマスクされているトランスクリプトームまたはゲノムを指し得る(例えば、配列リードはトランスクリプトームまたはゲノムのマスクされていない部分にアラインメントする)。トランスクリプトームまたはゲノムの任意の部分をマスクすることができ、したがって、参照エクソームまたはゲノムの任意の特定の部分に焦点を合わせることができる。ブロード配列決定は、参照トランスクリプトームまたはゲノムの少なくとも0.1%を配列決定および分析することを指し得る。
本明細書で使用される場合、「参照トランスクリプトーム」という用語は、対象由来の特定された配列を参照するために使用され得る任意の有機体または病原体由来の任意の組織の、部分的か完全かにかかわらず、任意の特定の既知の、配列決定された、または特徴付けられたトランスクリプトームを指す。ヒト対象に使用される例示的な参照トランスクリプトームは、Iyer et al 2015 The landscape of long noncoding RNAs in the human transcriptome.Nat Genet 47, 199-208に記載されるオンラインMiTranscriptomeデータベース、Pertea et al.2018 CHESS:a new human gene catalog curated from thousands of large-scale RNA sequencing experiments reveals extensive transcriptional noise.Gen Biol 19:208に記載されるCHESSデータベース、およびENCODEプロジェクトがホストするオンラインENCODEデータベースに提供される。
本明細書で使用される場合、「発現コール」という用語は、RNA発現差次的コール(例えば、対象からの特定の試料が、参照トランスクリプトームと比較して特定のRNAに対してより高いまたはより低い発現を示すかどうかの決定)を指す。いくつかの実施形態において、発現コールは、少なくとも部分的に遺伝子存在量カウントに基づく。
本明細書で使用される場合、「参照エクソーム」という用語は、対象由来の特定された配列を参照するために使用され得る任意の有機体または病原体由来の任意の組織の、部分的か完全かにかかわらず、任意の特定の既知の、配列決定された、または特徴付けられたエクソームを指す。ヒト対象、および多くの他の生物に使用される例示的な参照エクソームは、GENCODEコンソーシアムがホストするオンラインGENCODEデータベース、例えば、ヒトエクソームアセンブリのリリース29(GRCh38.p12)に提供される。
本明細書で使用される場合、「参照ゲノム」という用語は、対象由来の特定された配列を参照するために使用され得る任意の有機体または病原体の、部分的か完全かにかかわらず、任意の特定の既知の、配列決定された、または特徴付けられたゲノムを指す。ヒト対象および多くの他の有機体について使用される例示的な参照ゲノムは、National Center for Biotechnology Information(「NCBI」)またはthe University of California, Santa Cruz(UCSC)がホストするオンラインゲノムブラウザにおいて提供される。「ゲノム」とは、核酸配列で発現された、有機体または病原体の完全な遺伝情報を指す。本明細書で使用される場合、参照配列または参照ゲノムは、多くの場合、個体または複数の個体由来の組み立てられた、または部分的に組み立てられたゲノム配列である。いくつかの実施形態において、参照ゲノムは、1人以上のヒト個体由来の組み立てられた、または部分的に組み立てられたゲノム配列である。参照ゲノムは、種の遺伝子のセットまたは遺伝子配列の代表的な例と見なされ得る。いくつかの実施形態において、参照ゲノムは、染色体に割り当てられた配列を含む。例示的なヒト参照ゲノムは、NCBIビルド34(UCSC同等物:hg16)、NCBIビルド35(UCSC同等物:hg17)、NCBIビルド36.1(UCSC同等物:hg18)、GRCh37(UCSC同等物:hg19)、およびGRCh38(UCSC同等物:hg38)を含むが、これらに限定されない。
本明細書で使用される場合、「アッセイ」という用語は、物質、例えば、核酸、タンパク質、細胞、組織、または器官の特性を決定するための技術を指す。アッセイ(例えば、第1のアッセイまたは第2のアッセイ)は、試料における核酸のコピー数の変化、試料における核酸のメチル化状態、試料における核酸の断片サイズ分布、試料における核酸の変異状態、または試料における核酸の断片化パターンを決定するための技術を含み得る。当業者に知られている任意のアッセイを使用して、本明細書に記載の核酸の特性のうちのいずれかを検出し得る。核酸の特性は、配列、ゲノム同一性、コピー数、1つ以上のヌクレオチド位置でのメチル化状態、核酸のサイズ、1つ以上のヌクレオチド位置での核酸における変異の有無、および核酸の断片化パターン(例えば、核酸が断片化するヌクレオチド位置)を含み得る。アッセイまたは方法は、特定の感度および/または特異度を有し得、診断ツールとしてのそれらの相対的な有用性を、ROC-AUC統計を使用して測定し得る。
本明細書で使用される場合、「相対的存在量」という用語は、特定の特徴(例えば、エクソームの特定の領域にアラインメントする)を有する第1の量の核酸断片の、特定の特徴(例えば、エクソームの特定の領域にアラインメントする)を有する第2の量の核酸断片に対する比を指し得る。一例において、相対的存在量は、試料における特定の遺伝子(例えば、エクソームの特定の領域にアラインメントする)をコードするmRNA転写産物の数の、試料におけるmRNA転写産物の総数に対する比を指し得る。
本明細書で使用される場合、2つのデータセットにおける各種類の特徴を有する試料数のパーセンテージが互いに設定されたパーセンテージ内にある場合、2つのデータセットは特徴に関して「均衡が取れている」。特に指定のない限り、2つのデータセットにおける各種類の特徴を有する試料数のパーセンテージが10%以内である場合、2つのデータセットは特徴に関して均衡が取れている。例えば、バッチデータセットにおいて、試料の15%が肺がん試料、試料の25%が脳がん試料、試料の60%が結腸がん試料である場合、参照データセットにおいて、試料の5%~25%が肺がん試料であり、試料の15%~35%が脳がん試料であり、試料の50%~70%が結腸がん試料であるならば、参照データセットは、バッチデータセットに対して均衡が取れていると見なされる。いくつかの実施形態において、2つのデータセットにおける各種類の特徴を有する試料数のパーセンテージが、互いの1%以内、2%以内、3%以内、4%以内、5%以内、6%以内、7%以内、8%以内、9%以内、10%以内、11%以内、12%以内、13%以内、14%以内、15%以内、16%以内、17%以内、18以内%、19%以内、20%以内、21%以内、22%以内、23%以内、24%以内、または25%以内である場合、2つのデータセットは、特徴に関して均衡が取れている。一般に、第1の特徴の均衡および第2の特徴の均衡は、互いに独立していると見なされる。しかしながら、いくつかの実施形態において、第1の特徴の均衡および第2の特徴の均衡は、一緒に考慮される。すなわち、いくつかの実施形態において、それは、均衡の取れた少なくとも2つの特徴の複合である。例えば、脳がん試料、皮膚組織から採取された試料、および肺組織から採取された試料のパーセンテージを、ちょうど均衡を取ることとは対照的に、バッチデータセットにおける、皮膚組織から採取された脳がん試料のパーセンテージ、および肺組織から採取された脳がん試料のパーセンテージは、参照データセットにおける、皮膚組織から採取された脳がん試料のパーセンテージ、および肺組織から採取された脳がん試料のパーセンテージに対して均衡が取れている。いくつかの実施形態において、例えば、まれな特徴を共有する十分な数の参照試料が利用できないために、バッチデータセット内のまれな特徴は、参照データセット内で均衡が取れていないことになる。
説明のための適用例を参照して、いくつかの態様を以下に説明する。本明細書に記載の特徴の完全な理解を提供するために、多数の特定の詳細、関係、および方法が示されていることを理解されたい。しかしながら、当業者は、本明細書に記載の特徴が、特定の詳細のうちの1つ以上を有さないか、または他の方法で実施できることを容易に認識するであろう。いくつかの行為は異なる順序で、および/または他の行為または事象と同時に起こり得るため、本明細書に記載の特徴は、行為または事象の図解された順序によって制限されない。さらに、本明細書に記載の特徴に従った方法論を実施するために、図示されたすべての行為または事象が必要とされるわけではない。
ここで実施形態を詳細に参照すると、その例は添付の図面に示される。以下の詳細な説明では、本開示の完全な理解を提供するために、多数の特定の詳細が記載される。しかしながら、本開示がこれらの具体的な詳細なしで実践されてもよいことは当業者には明らかであろう。他の例では、既知の方法、手順、構成要素、回路、およびネットワークは、実施形態の態様を不必要に曖昧にしないように詳細には説明されない。
システムの実施形態の例
本開示のいくつかの態様の概要および本開示において使用されるいくつかの定義が提供されたので、次に、例示的なシステムの詳細を図1と併せて説明する。図1は、いくつかの実装形態によるシステム100を示すブロック図である。いくつかの実装形態におけるシステム100は、1つ以上の処理ユニットCPU(複数可)102(プロセッサとも呼ばれる)、1つ以上のネットワークインターフェース104、(任意選択により)ディスプレイ108および入力システム110を含むユーザインターフェース106、非永続メモリ111、永続メモリ112、ならびにこれらのコンポーネントを相互接続するための1つ以上の通信バス114を含む。1つ以上の通信バス114は、任意で、システムコンポーネント間の通信を相互接続および制御する回路(チップセットと呼ばれることもある)を含む。非永続メモリ111は、典型的には、DRAM、SRAM、DDR RAM、ROM、EEPROM、フラッシュメモリなどの高速ランダムアクセスメモリを含み、一方、永続メモリ112は、典型的には、CD-ROM、デジタル多用途ディスク(DVD)もしくは他の光記憶、磁気カセット、磁気テープ、磁気ディスクストレージもしくは他の磁気記憶デバイス、磁気ディスク記憶デバイス、光ディスク記憶デバイス、フラッシュメモリデバイス、または他の不揮発性ソリッドステート記憶デバイスを含む。永続メモリ112は、任意で、CPU 102から遠隔に配置された1つ以上のストレージデバイスを含む。永続メモリ112、および非永続メモリ112内の不揮発性メモリデバイスは、非一時的コンピュータ可読記憶媒体を備える。いくつかの実装形態において、非永続メモリ111、または非一時的コンピュータ可読記憶媒体は、以下のプログラム、モジュール、データ構造体、またはそれらのサブセットを、場合には永続メモリ112と組み合わせて、格納する。
・様々な基本的なシステムサービスを処理し、ハードウェアに依存するタスクを実施するための手順を含む、任意選択のオペレーティングシステム116;
・システム100を他のデバイスおよび/または通信ネットワーク104に接続するための任意選択のネットワーク通信モジュール(または命令)118;
・RNA配列決定試料のバッチのバッチ品質管理を実施するためのバッチ品質管理モジュール120;
・各バッチデータセットが、複数(例えば、バッチ)の試料における各試料124について、少なくとも対応する複数の配列リード126および対応する試料メタデータ128を含み、また、各バッチデータセットにおいて、対応するコホート一致参照バッチ130も含まれる、1つ以上のバッチデータセット122;
・各参照試料が、少なくとも対応する複数の参照試料配列144および対応する参照試料メタデータ146を含む、1つ以上の参照試料142を格納する参照試料データセット140;
・1つ以上のバッチ品質管理試験152が、品質管理モジュール120を介して、バッチデータセット(例えば、バッチデータセット122-1)に含まれる複数の試料(例えば、124-1、...124-A)に対して実施される、1つ以上のバッチ品質管理試験152を格納するためのグローバル品質管理データセット150;
・RNA配列決定試料の単一試料品質管理を実施するための単一試料品質管理モジュール121;ならびに
・1つ以上の単一試料品質管理試験162が、品質管理モジュール120を介して、バッチデータセット122に含まれる個々の試料124に対して実施される、1つ以上の単一試料品質管理試験162を格納するための単一試料品質管理データセット160。
様々な実装形態において、上記で特定された要素のうちの1つ以上は、前述のメモリデバイスのうちの1つ以上に格納され、上記の機能を実施するための一連の命令に対応する。上記で特定されたモジュール、データまたはプログラム(例えば、命令のセット)は、別々のソフトウェアプログラム、手順、データセットまたはモジュールとして実装される必要はなく、したがって、これらのモジュールおよびデータの様々なサブセットは、様々な実装形態において組み合わされ得るか、またはそうでなければ再構成され得る。いくつかの実装形態において、非永続メモリ111は、任意で、上記の特定されたモジュールおよびデータ構造体のサブセットを格納する。さらに、いくつかの実施形態において、メモリは、上述していない追加のモジュールおよびデータ構造体を格納する。いくつかの実施形態において、上記で特定された要素のうちの1つ以上は、視覚化システム100以外のコンピュータシステムに格納され、それは、視覚化システム100が必要なときにそのようなデータの全部または一部を検索し得るように、視覚化システム100によってアドレス指定可能である。
図1は、「システム100」を示しているが、この図は、本明細書に記載される実装形態の構造概略図としてではなく、コンピュータシステムに存在し得る様々な特徴の機能的説明として十分に意図されている。実際に、そして当業者によって認識されるように、別々に示されたアイテムは、組み合わせることができ、いくつかのアイテムは、別々にすることができる。さらに、図1は、非永続メモリ111内の特定のデータおよびモジュールを示しているが、代わりに、これらのデータおよびモジュールの一部またはすべては、永続メモリ112または1つより多いメモリ内に格納され得る。例えば、いくつかの実施形態において、少なくとも1つのバッチデータセット122は、クラウドベースのインフラストラクチャの一部であり得る、リモート記憶デバイスに格納される。いくつかの実施形態において、少なくともデータセットの1つのバッチデータセット122は、クラウドベースのインフラストラクチャに格納される。いくつかの実施形態において、バッチデータセット122、バッチ品質管理モジュール120、単一試料品質管理モジュール121、参照データセット140、グローバルQCデータセット150、および/または単一試料QCデータセット160もまた、リモート記憶デバイス(複数可)に格納され得る。いくつかの実施形態において、データおよびモジュール記憶の他の構成が利用される。
バッチおよび試料の分析
本開示によるシステム100の詳細が開示されたので、次に、本開示の様々な実施形態によるシステムのプロセスおよび特徴に関する詳細が、以下に開示される。具体的には、図2A、2B、15、16、および17を参照して、例示的なプロセスを以下に説明する。いくつかの実施形態において、システムのこのようなプロセスおよび特徴は、図1に示されるように、モジュール118、120、および/または121によって実行される。
ブロック202。図2Aのブロック202を参照すると、この方法は品質管理を実施する。いくつかの実施形態において、品質管理は、単一のバッチデータセット(例えば、RNA試料の単一のフローセルを含む)に対して実施される。いくつかの実施形態において、品質管理は、2つ以上のバッチデータセット(例えば、各フローセルが同じ日または異なる日に分析される、RNA試料の2つ以上のフローセル)に対して同時に実施される。いくつかの実施形態において、品質管理は、複数のバッチデータセット(例えば、複数のフローセル)に対して同時に実施される。
ブロック204を参照すると、いくつかの実施形態において、本明細書に記載される方法は、クラウドサーバを備えるコンピュータシステムで実施される。すなわち、いくつかの実施形態において、本明細書に記載される方法は、リモートシステム上で全体的または部分的に実施することができる。例えば、上記のように、いくつかの実施形態において、データセットのうちの1つ以上がローカルに記憶され、バッチ品質管理モジュール120および/または単一試料品質管理モジュール121のうちの少なくとも1つがクラウドサーバ(例えば、クラウド内)に格納される。いくつかの実施形態において、参照データセット140、グローバル品質管理データセット150、および/または単一試料品質管理データセット160もまた、クラウドサーバに格納される。いくつかの実施形態において、必要なデータ(例えば、1つ以上のバッチデータセット122)を、ローカルサーバとクラウドサーバとの間で送信することができる。
初期バッチデータセット122情報を取得する
ブロック206。図2Aのブロック206を参照すると、バッチデータセットが電子形式で取得される(例えば、バッチデータセット内の各試料の情報は、.csvファイルで格納される)。バッチデータセットは、複数(例えば、バッチ)の試料内の各それぞれの試料について、標的化パネルまたは全トランスクリプトーム配列決定によってそれぞれの試料から得られた対応する複数の配列リードを含む。いくつかの実施形態において、対応する複数の配列リードの各々は、複数のRNA分子または該複数のRNA分子の誘導体(例えば、cDNAなどの誘導体)から取得される。いくつかの実施形態において、対応する複数の配列リードの各々は、完全なトランスクリプトーム配列決定によって取得される。いくつかの実施形態において、1つ以上の対応する複数の配列リードは、固形または血液学的腫瘍(例えば、固形生検)から単離されたRNAに由来する。いくつかの実施形態において、1つ以上の対応する複数の配列リードは、それぞれの対象から取得された生殖細胞系列試料に由来する。
いくつかの実施形態において、1つ以上の対応する複数の配列リードが、次世代配列決定によって生成される。いくつかの実施形態において、1つ以上の対応する複数の配列リードが、ショートリードペアエンド次世代配列決定(short-read paired end next-generation sequencing)から生成される。いくつかの実施形態において、1つ以上の対応する複数の配列リードが、1つ以上のスパイクインコントロールを用いたショートリード次世代配列決定から生成される。いくつかの実施形態において、1つ以上のスパイクインコントロールは、細胞の集団にわたる配列リードの変動を較正する(例えば、各細胞から取得されたRNAリードの量は著しく変動する可能性があり、スパイクは、細胞のセット全体のリードを正規化するのに役立つ)。いくつかの実施形態において、1つ以上の対応する複数の配列リードが、複数のプローブを使用した標的化パネル配列決定によって取得される。
mRNA配列決定のための方法は、当該技術分野において既知である。いくつかの実施形態において、mRNAは、配列決定の前にcDNAに逆転写される。例えば、ブロック210に従って使用するためのRNA-seqの方法は、Nagalakshmi et al.,2008,Science 320,1344-1349、およびFinotell and Camillo,2014,Briefings in Functional Genomics 14(2),130-142に開示されており、それらの各々は参照により本明細書に組み込まれる。いくつかの実施形態において、mRNA配列決定は、全エクソーム配列決定(WES)によって実施される。いくつかの実施形態において、WESは、組織試料からRNAを単離し、cDNAライブラリーを生成し、任意で、所望の配列を選択し、かつ/または不要なRNA分子を枯渇させ、、次いで、例えば、次世代配列決定技術を使用してcDNAライブラリーを配列決定することによって実施される。がん診断における全エクソーム配列決定技術の使用のレビューについては、Serrati et al.,2016,Onco Targets Ther.9,7355-7365およびCieslik,M.et al.2015 Genome Res.25,1372-81を参照されたく、その各々の内容は、すべての目的のためにその全体が参照により本明細書に組み込まれる。いくつかの実施形態において、mRNA配列決定は、ナノポア配列決定によって実施される。ヒトゲノムでのナノポア配列決定技術の使用に関するレビューは、Jain et al.,2018,Nature 36(4),338-345に見出され得る。このリストは、本明細書に記載される方法に従って使用することができるRNA配列決定方法を網羅しているわけではない。いくつかの実施形態において、RNA配列決定は、当該技術分野で知られている1つ以上の配列決定方法に従って実施される。例えば、RNA配列決定方法のレビューである、Kukurba et al.2015 Cold Spring Harb Protoc.11:951-969を参照のこと。
本明細書に記載される方法に従って使用するための次世代配列決定の方法は、Shendure 2008 Nat.Biotechnology 26:1135-1145およびFullwood et al.2009 Genome Res.19:521-532に開示されており、それらは各々が参照により本明細書に組み込まれる。当該技術分野で周知の次世代配列決定方法には、合成技術(Illumina)、パイロシーケンシング(454 Life Sciences)、イオン半導体技術(Ion Torrent配列決定)、単一分子リアルタイム配列決定(Pacific Biosciences)、ライゲーションによる配列決定(SOLiD配列決定)、ナノポア配列決定(Oxford Nanopore Technologies)、またはペアエンド配列決定が含まれる。いくつかの実施形態において、超並列配列決定は、可逆的染料ターミネーターで合成ごとの配列決定を使用して実施される。
RNA-seqは、次世代配列決定に基づくRNAプロファイリングの方法論であり、複数の対象にわたる遺伝子発現パターンの測定および比較を可能にする。いくつかの実施形態において、「配列リード」と呼ばれる数百万の短い一連のものは、対象の腫瘍組織から得られる入力RNAから調製されたcDNAのランダムな位置を配列決定することから生成される。いくつかの実施形態において、RNA-seq遺伝子発現データは、エクソームキャプチャベースのRNA-seqプロトコルを使用して、ホルマリン固定パラフィン包埋腫瘍試料から生成された。次に、これらのリードを参照ゲノムにコンピュータでマッピングして、「転写マップ」を明らかにすることができ、各遺伝子にアラインメントされた配列リードの数は、その発現レベルの尺度(例えば、存在量)をもたらす。いくつかの実施形態において、RNA-seq発現レベル(例えば、生のリードカウント)は、正規化される(例えば、GC含量、配列決定深度、および/または遺伝子長を補正するために)。いくつかの実施形態において、生のRNA配列リードをトランスクリプトームにマッピングし、遺伝子カウントを定量化し、正規化する方法は、2018年9月24日に出願された、“Methods of Normalizing and Correcting RNA Expression Data”と題された米国特許出願第62/735,349号に記載されるように実施される。
いくつかの代替の実施形態において、RNA-seqを使用するのではなく、マイクロアレイが、RNAプロファイリングを調べるために使用される。そのようなマイクロアレイは、Wang et al.,2009,Nat Rev Genet 10,57-63、Roy et al.,2011,Brief Funct Genomic 10:135-150、Shendure,2008 Nat Methods 5,585-587、Cloonan et al.,2008,“Stem cell transcriptome profiling via massive-scale mRNA sequencing,” Nat.Methods 5,613-619、Mortazavi et al.,2008,“Mapping and quantifying mammalian transcriptomes by RNA-Seq,” Nat Methods 5,621-628、およびBullard et al.,2010,“Evaluation of statistical methods for normalization and differential expression in mRNA-Seq experiments” BMC Bioinformatics 11,p.94に開示されており、それらの各々は参照により本明細書に組み込まれる。
RNA-seqデータ分析パイプラインの第1の計算ステップはリードマッピングであり、リードは、リード配列に一致する遺伝子領域を特定することにより、参照ゲノムまたはトランスクリプトームにアラインメントされる。このタスクについては、様々なアラインメントツールのうちのいずれかを使用し得る。例えば、Hatem et al.,2013 BMC Bioinformatics 14,184、およびEngstrom et al.2013 Nat Methods 10,1185-1191を参照されたく、これらのそれぞれは、参照により本明細書に組み込まれる。いくつかの実施形態において、マッピングプロセスは、参照ゲノムまたはリードのいずれかのインデックスを構築することによって始まり、次いで、それを使用して、リードがアラインメントする可能性が高い参照配列における一連の位置を検索する。この可能なマッピング位置のサブセットが特定されると、これらの候補領域で、より低速でより感度の高いアルゴリズムを使用してアラインメントが実施される。例えば、Flicek and Birney,2009,Nat Methods 6(Suppl.11),S6-S12を参照されたく、これは、参照により本明細書に組み込まれる。いくつかの実施形態において、マッピングツールは、疑似アラインメント(例えば、ゲノム位置ではなく転写物へのリード配列のアラインメント)を利用する方法論である。例えば、Bray et al.2016 Near-optimal probabilistic RNA-seq quantification.Nat Biotech 34,525-527を参照されたく、これは、参照により本明細書に組み込まれる。
マッピング後、その存在量(例えば、発現)レベルの推定値を提供するために、エクソン、転写産物、または遺伝子などの各コーディングユニットにアラインメントされたリードを使用してリードカウントを計算する。いくつかの実施形態において、そのようなカウントは、遺伝子のエクソンと重複するリードの総数を考慮する。しかしながら、いくつかの例において、配列リードの一部が既知のエクソンの境界の外側にマッピングされるため、代替の実施形態は、遺伝子の全長を考慮し、イントロン由来のリードもカウントする。さらに、いくつかの実施形態において、スプライシングされたリードを使用して、遺伝子の異なるスプライシングアイソフォームの存在量をモデル化する。例えば、Trapnell et al.,2010 Nat Biotechnol 28,511-515、およびGatto et al,2014 Nucleic Acids Res 42,p.e71を参照されたく、これらのそれぞれは、参照により本明細書に組み込まれる。
上で説明したように、RNA-seqデータからの転写産物存在量の定量化は、典型的には、2つの計算ステップ、参照ゲノムまたはトランスクリプトームへのリードのアラインメント、およびアラインメントされたリードに基づく転写産物およびアイソフォーム存在量のその後の推定、を通じて分析パイプラインにおいて実装される。残念ながら、最も使用されているRNA-Seq技術によって生成されたリードは、概して、それらが試料採取された転写産物よりもはるかに短い。結果として、類似の配列を有する転写産物の存在において、特定の遺伝子に短い配列リードを一意的に割り当てることが常に可能であるとは限らない。そのような配列リードは、参照ゲノムの2つ以上の領域と相同であるため、「マルチリード」と呼ばれる。いくつかの実施形態において、そのようなマルチリードは廃棄される、すなわち、それらは遺伝子存在量カウントに寄与しない。いくつかの実施形態において、曖昧さを解決するために、MMSEQまたはRSEMなどのプログラムが使用される。Turro et al.,2011 Genome Biol 12,p.R13、およびNicolae et al.,Algorithms Mol Biol 6,9におけるマルチリードを解決するために使用される方法論の例を参照されたく、これらのそれぞれは、参照により本明細書に組み込まれる。
RNA-seqの別の態様は、配列リードカウントの正規化である。いくつかの実施形態において、これは、異なる配列決定深度を考慮に入れるための正規化を含む。例えば、Lin et al.,2011 Bioinformatics 27,2031-2037、Robinson Oshlack,2010 Genome Biol 11,R25、およびLi et al.,2012 Biostatistics 13,523-538を参照されたく、これらのそれぞれは、参照により本明細書に組み込まれる。いくつかの実施形態において、配列リードカウントは、遺伝子長バイアスを説明するために正規化される。Finotell and Camillo,2014 Briefings in Functional Genomics 14(2),130-142を参照されたく、これは、参照により本明細書に組み込まれる。
1つ以上の対応する複数の配列リードが、複数のプローブを使用する標的化パネル配列決定から生成される実施形態において、複数のプローブ内の各それぞれのプローブは、参照ゲノムの異なる部分を一意的に表す。このような実施形態において、対応する複数の配列リードにおける各配列リードは、複数のプローブにおける少なくとも1つのプローブに対応する。
複数のプローブにおける各それぞれのプローブは、参照トランスクリプトーム(例えば、ヒト参照トランスクリプトーム)の異なる(例えば、それぞれの)部分を一意的に標的とする。第2の複数の配列リードにおける各配列リードおよび第3の複数の配列リードにおける各配列リードは、複数のプローブにおける少なくとも1つのプローブに対応する。いくつかの実施形態において、例えば、標的化パネル配列決定の代わりに、全ゲノム配列決定が使用される。
いくつかの実施形態において、第2の複数の配列リードは、複数のプローブにわたって少なくとも50倍の平均深度を有する。いくつかの実施形態において、第2の複数の配列リードは、複数のプローブにわたって少なくとも400倍の平均深度を有する。他の実施形態において、第2の複数の配列リードは、少なくとも10倍、15倍、20倍、25倍、30倍、40倍、50倍、75倍、100倍、150倍、200倍、250倍、300倍、400倍、500倍、またはそれ以上の平均深度を有する。
いくつかの実施形態において、複数のプローブは、少なくとも300個の異なる遺伝子のためのプローブを含む。いくつかの実施形態において、複数のプローブは、少なくとも500個の異なる遺伝子のためのプローブを含む。さらに他の実施形態において、複数のプローブは、少なくとも50個、100個、150個、200個、250個、300個、400個、500個、600個、700個、800個、900個、1000個、1500個、2000個、3000個、4000個、5000個、またはそれ以上の異なる遺伝子を含む。
ブロック208。図2Aのブロック208を参照すると、バッチデータセットに対してコホート一致参照バッチが決定される。コホート一致参照バッチは、組織部位、腫瘍純度、がんの種類、シーケンサーの同一性、または配列決定されたデータについて均衡が取れている。いくつかの実施形態において、コホート一致参照バッチのサイズ(例えば、その中の試料の数)は、バッチデータセットのサイズと同じである。いくつかの実施形態において、コホート一致参照バッチは、バッチデータセットとは異なるサイズのものである。
参照データセット140からコホート一致参照データセット130を決定する
図2Aのブロック210を参照すると、いくつかの実施形態において、バッチデータセットについてのコホート一致参照データセットを決定することは、試料のバッチ内の各試料について、i)それぞれの複数の配列リードからのそれぞれの複数の配列特徴を抽出し、それによって、バッチの複数の配列特徴を取得することと、ii)それぞれの複数の試料メタデータ特徴を抽出し、それによって、バッチの複数のメタデータ特徴を取得することと、を含む。いくつかの実施形態において、バッチの複数の配列特徴またはバッチの複数のメタデータ特徴に少なくとも部分的に基づいて、参照データセットから、複数の参照試料を含むコホート一致参照データセットを選択する。
いくつかの実施形態において、コホート一致参照データセットは、複数の参照試料を含む。いくつかの実施形態において、複数の参照試料中の各参照試料は、標的化または全トランスクリプトームRNA配列決定によってそれぞれの参照試料から得られた対応する複数の配列リードと、それぞれの参照試料についての対応するメタデータと、を含む。いくつかの実施形態において、コホート一致参照データセットについての参照試料は、RNA転写プロファイル(例えば、複数の配列リードから決定される)、臨床データ(例えば、患者の診断、治療結果など)、性別、生検の種類(例えば、ヘム対固形生検)、および/または分子データ(例えば、ゲノム変異)などの試料メタデータからの試料特徴に少なくとも部分的に基づいて選択される。
いくつかの実施形態において、患者の診断は、がんの種類および/またはがんの病期を含む。いくつかの実施形態において、バッチデータセット内の各試料についてのそれぞれのがんの種類は、脳がんの所定の病期、神経膠芽細胞腫の所定の病期、前立腺がんの所定の病期、膵臓がんの所定の病期、腎臓がんの所定の病期、結腸直腸がんの所定の病期、卵巣がんの所定の病期、子宮内膜がんの所定の病期、または乳がんの所定の病期の腫瘍からなるセットから選択される。
いくつかの実施形態において、生検の種類は、体細胞生検を含む。いくつかの実施形態において、体細胞生検は、マクロ解剖されたホルマリン固定パラフィン包埋(FFPE)組織切片、外科生検、皮膚生検、パンチ生検、前立腺生検、骨生検、骨髄生検、針生検、CTガイド下生検、超音波ガイド下生検、細針吸引、吸引生検、新鮮な組織または血液試料を含む。いくつかの実施形態において、体細胞生検は、乳房腫瘍、神経膠芽細胞腫、前立腺腫瘍、膵臓腫瘍、腎臓腫瘍、結腸直腸腫瘍、卵巣腫瘍、子宮内膜腫瘍、乳房腫瘍、またはそれらの組み合わせのものである。生検は、典型的に、1つ以上の低侵襲性臨床試験により、患者が1つ以上の腫瘍を有するか、または有する可能性があることが示唆された後に実施される。生検の種類は、多くの場合、腫瘍の位置に依存する。例えば、腎臓腫瘍の生検は、高頻度で内視鏡で実施されるが、卵巣腫瘍の生検は、高頻度で組織の擦り取りを含む。
いくつかの実施形態において、ゲノム変異は、コピー数バリアント、体細胞変異、生殖細胞変異、マイクロサテライト不安定性の徴候、腫瘍変異負荷、病原体負荷の徴候、または腫瘍細胞充実度を含む。
コピー数多型の例は、Shilien and Malkin 2009 Genome Med 1, 62に記載されている。マイクロサテライト不安定性の徴候は、Buhard et al.2006 J Clinical Onco 24(2),241に記載されているように決定され得る。腫瘍変異負荷の決定の例は、Chalmers et al 2017 Genome Med 9,34に記載されている。病原体負荷の徴候および/または免疫浸潤の徴候は、例えば、Barber et al 2015 PLoS Pathog 11(1):e1004558およびPages et al 2010 Oncogene 29,1093-1102に記載されているように決定され得る。場合によっては、腫瘍細胞充実度の徴候は、体細胞生検で取得されたいくつかの正常細胞と、いくつかのがん性細胞を比較することにより、体細胞生検から決定される。場合によっては、腫瘍細胞充実度の徴候は、体細胞生検の1つ以上の画像から決定される(例えば、がん細胞と非がん細胞を数え、特定することによって)。
コホート一致参照データセットは、いくつかの実施形態において、バッチデータセットに存在する試料の種類に可能な限り密接に対応するように均衡が取れている(例えば、バッチデータセット内の複数の試料におけるそれぞれの試料に類似する参照試料を選択することによって)。いくつかの実施形態において、参照試料とバッチデータセット試料との間の類似性は、上記の試料特徴のうちの少なくとも1つに基づいて決定される。いくつかの実施形態において、コホート一致参照バッチは、可能な限り多くの参照試料を含むように参照データベースから選択される(例えば、組織部位、腫瘍純度、がんの種類、シーケンサーの同一性、配列決定された日付、および/または試料メタデータから取得された試料特徴について均衡が取れた参照バッチを維持するために)。
いくつかの実施形態において、バッチデータセット内の試料の第1のサブセットにおける各試料は、対応する第1の生検の種類を有し、バッチデータセット内の試料の第2のサブセットにおける各試料は、対応する第2の生検の種類を有する。いくつかの実施形態において、第1の生検の種類または第2の生検の種類は、マクロ解剖されたホルマリン固定パラフィン包埋(FFPE)組織切片、外科生検、皮膚生検、パンチ生検、前立腺生検、骨生検、骨髄生検、針生検、CTガイド下生検、超音波ガイド下生検、細針吸引、吸引生検、新鮮な組織または血液試料を含むセットから選択される体細胞生検を含む。
いくつかの実施形態において、第1および第2の生検の種類は、バッチデータセット内の各試料についてのそれぞれのメタデータにおいて特定される。均衡が取れたコホート一致参照データセットを提供するために、コホート一致参照データセットにおける参照試料の第1のサブセットにおける各参照試料は、対応する第1の生検の種類を有し、コホート一致参照データセットにおける参照試料の第2のサブセットにおける各参照試料は、対応する第2の生検の種類を有する。例えば、バッチデータセット内の複数の試料が、乳がんを有する試料の50%、肺がんを有する試料の20%、脳がんを有する試料の30%を含む場合、コホート一致参照データセットには、これらのがんの種類のパーセンテージと適合する参照データセットからの最大数の参照試料が組み込まれるであろう。いくつかの実施形態において、コホート一致参照データセットをバッチデータセットと均衡を取らせる同様の方法が、他の試料特徴に関して利用される。
図2Aのブロック212を参照すると、いくつかの実施形態において、バッチの複数の配列特徴およびバッチの複数のメタデータ特徴の線形または非線形の組み合わせが、バッチの複数の配列特徴およびバッチの複数のメタデータ特徴を、次元縮小手法に供することによって決定される。いくつかの実施形態において、次元縮小手法は、均一マニホールド近似および射影(UMAP)を含む。いくつかの実施形態において、次元縮小手法は、主成分分析(PCA)を含む。
バッチデータセット122に対するグローバル品質管理試験の実施
ブロック214。図2Bのブロック214を参照すると、1つ以上のグローバル品質管理試験(例えば、試験152)が、少なくともコホート一致参照データセット(例えば、バッチ)を使用してバッチデータセットに対して実施される。いくつかの実施形態において、1つ以上のグローバルバッチ品質管理試験は、バイオインフォマティクスパイプライン分析および配列決定方法を含むセットからの1つ以上のバッチ効果についての試験を含む。
図2Bのブロック216を参照すると、いくつかの実施形態において、1つ以上のグローバルバッチ品質管理試験は、バイオインフォマティクスパイプライン分析(例えば、試料分析の日付、シーケンサーの同一性、パイプラインの種類など)、DNA汚染、試料処理(例えば、試料収集方法、試薬の変更など)、および配列決定方法(例えば、UMI対UDI配列アダプタ)を含むセットからの1つ以上のバッチ効果についての試験を含む。
いくつかの実施形態において、試料を分析するために使用される異なるバイオインフォマティクスパイプラインがあり(例えば、生検の種類、無細胞核酸試料に基づく)、異なるパイプラインの使用は、バッチ効果に寄与することができる。例えば、いくつかの実施形態において、血液試料収集に使用される試験管の種類(例えば、PAX対EDTA)でさえ、バッチ効果に対する可能な影響について考慮される。いくつかの実施形態において、機器(例えば、配列決定機またはフローセル)に対する変更もまた、バッチ効果に寄与することができる。いくつかの実施形態において、潜在的なバッチ効果を有する試薬は、プローブロット、対照(例えば、Horizon対照)および緩衝液を含む。
図2Bのブロック218を参照すると、いくつかの実施形態において、コホート一致参照バッチは、1つ以上のグローバルバッチ品質管理試験を実施する前に、1つ以上の交絡共変量についてバッチデータセット内の各試料を調整するために使用される。いくつかの実施形態において、この調整は、バッチデータセット内の各試料についての配列リードに対する、各それぞれの複数についての参照ゲノム(例えば、バッチデータセット内の各試料およびコホート一致参照バッチ内の各参照試料を共有する参照ゲノム)内の各遺伝子についての発現レベルの正規化を含む。いくつかの実施形態において、Mostafavi 2013は、関連する正規化方法の要約を含む。“Unified Representation of Existing Normalization Methods.”というタイトルのセクションのPLOS ONE,e68141を参照されたい。
いくつかの実施形態において、バッチデータセット内の少なくとも1つの試料は、対照試料(例えば、Horizon対照試料)である。いくつかの実施形態において、バッチデータセット内の少なくとも1つの対照試料は、バッチデータセット内の各他の試料を調整するために使用される。Horizon対照試料は、既知の融合バリアントを含む細胞株に由来する市販の対照である。いくつかの実施形態において、融合バリアントの発現は、実験条件(例えば、シーケンサーの同一性、配列決定方法、配列決定の日付など)に関係なく一定であると予想される。これらのHorizon対照は、バッチデータセット間およびバッチデータセット全体で試料を正規化するのに有用であり、また、時間の経過に伴う配列決定の傾向に関する情報を提供するために有用である(例えば、異なる時点で評価されたHorizon対照を相互に比較することによって)。いくつかの実施形態において、任意の市販の対照試料を、本明細書に記載される方法で使用することができる。
いくつかの実施形態において、それぞれのグローバルバッチ品質管理試験は、i)バッチデータセット全体の試料当たりの配列リードの平均数を決定すること、ii)参照データセットから(または例えば、コホート一致参照バッチから)試料当たりの配列リードの参照平均数を取得すること、およびiii)バッチデータセット全体の配列リードの平均数を、試料当たりの配列リードの参照平均数と比較すること、を含む。いくつかの実施形態において、配列リードの平均数が、試料当たりの配列リードの参照平均数を下回る場合、バッチデータセットはそれぞれのグローバルバッチ品質管理試験に不合格となる。
いくつかの実施形態において、それぞれのグローバルバッチ品質管理試験は、i)バッチデータセット全体の試料当たりのマッピングされた配列リードの平均パーセンテージを決定すること、ii)参照データセットから(または例えば、コホート一致参照バッチから)試料当たりのマッピングされた配列リードの参照平均パーセンテージを取得すること、およびiii)バッチデータセット全体のマッピングされた配列リードの平均パーセンテージを、試料当たりのマッピングされた配列リードの参照平均パーセンテージと比較すること、を含む。いくつかの実施形態において、マッピングされた配列リードの平均パーセンテージが、試料当たりのマッピングされた配列リードの参照平均パーセントを下回る場合、バッチデータセットはそれぞれのグローバルバッチ品質管理試験に不合格となる。
いくつかの実施形態において、バッチデータセット内の各試料についてのそれぞれのメタデータは、それぞれのがんの種類を含む。いくつかのそのような実施形態において、それぞれのグローバルバッチ品質管理試験は、バッチデータセット内の各それぞれの試料について、対応する複数の配列リードおよび対応するメタデータを、第2の訓練された分類モデルに適用し、それによって、第2の訓練された分類モデルが、各試料についてのそれぞれの予測されたがんの種類を提供することを含む。いくつかの実施形態において、それぞれのグローバルバッチ品質管理試験は、各試料について、それぞれのメタデータからのそれぞれのがんの種類を、それぞれの予測されたがんの種類と比較することをさらに含む。いくつかの実施形態において、それぞれの既知のがんの種類と一致しない、それぞれの予測されたがんの種類を有する1つ以上の試料は、グローバルバッチ品質管理試験に不合格となる。いくつかの実施形態において、バッチデータセット内の1つ以上の試料が、グローバルバッチ品質管理試験に不合格となる場合、バッチデータセット全体が、それぞれのグローバルバッチ品質管理試験に不合格となる。いくつかの実施形態において、第2の訓練された分類方法は、“Systems and Methods for Multi-Label Cancer Classification”と題され、2019年5月31日に出願された米国仮特許出願第62/855,750号に記載された分類方法のいずれかを含む。
バッチデータセット内の各試料についてのそれぞれのメタデータが、それぞれのがんの種類を含むいくつかの実施形態において、それぞれのグローバルバッチ品質管理試験は、バッチデータセット内の各それぞれの試料についてのそれぞれの腫瘍純度パーセンテージを決定することを含む。いくつかの実施形態において、腫瘍純度は、バリアント対立遺伝子画分に少なくとも部分的に基づいて決定され、いくつかの実施形態において、バリアント対立遺伝子画分は、Shin et al.2017 “Prevalence and detection of low-allele-fraction variants in clinical cancer samples” Nat Comm 8, 1377に記載されているように決定される。いくつかの実施形態において、それぞれの試料が、20%未満、30%未満、40%未満、または50%未満の対応する腫瘍純度を有する場合、それぞれの試料は、それぞれのグローバルバッチ品質管理試験に不合格となる。いくつかの実施形態において、バッチデータセット内の複数の試料のうちの少なくとも30%、少なくとも40%、少なくとも50%、または少なくとも60%が、それぞれのグローバルバッチ品質管理試験に不合格となる場合、バッチデータセットは、グローバルバッチ品質管理試験に不合格となる。
ブロック220。図2Bのブロック220を参照すると、1つ以上のグローバル品質管理試験152のうちのいずれか1つに不合格となったバッチデータセットからのそれぞれの試料は、バッチデータセットから除去されるか、または手動検査のためにフラグが立てられる。いくつかの実施形態において、除去するステップは、1つ以上のグローバル品質管理試験のうちのいずれか1つに不合格となったそれぞれの試料の各々を欠く更新されたバッチデータセットを提供することをさらに含む。
試料レポート
ブロック222を参照すると、いくつかの実施形態において、試料のバッチ内の各試料について(いくつかの実施形態において、グローバルバッチ品質管理試験に不合格となった試料でさえ)、それぞれの試料レポートが提供される。代替の実施形態において、試料レポートは、グローバルバッチ品質管理試験のうちのいずれか1つに不合格とならなかった試料(例えば、更新されたバッチデータセットに含まれる試料)についてのみ提供される。いくつかの実施形態において、各それぞれの試料レポートは、発現コールのセット、1つ以上の一致した療法、または1つ以上の一致した臨床試験のうちの少なくとも1つを含む。いくつかの実施形態において、適切な一致した療法は、発現コールおよびがんの種類の情報に基づいて決定される。いくつかの実施形態において、オルガノイド試験に基づいて、適切な一致した治療が決定される。オルガノイド試験の例、およびオルガノイド試験結果と療法感度との間の相関関係は、“Systems and Methods for Predicting Therapeutic Sensitivity”と題され、2019年10月22日に出願された米国仮特許出願第62/924,621号に提供されている。いくつかの実施形態において、適切な一致した臨床試験は、それぞれの試料についての対応する発現コールに少なくとも部分的に基づいて決定される。
いくつかの実施形態において、試料レポートは、完全な試料レポートからの最も重要な所見の簡潔な概要を、患者および/または医療提供者に提供する要約をさらに含み得る。いくつかの実施形態において、試料(例えば、患者)レポートは、“Systems and Methods for Multi-Label Cancer Classification”と題され、2019年5月31日に出願された米国仮特許出願第62/855,750号に記載されているように提供される。
いくつかの実施形態において、試料のバッチ内の各試料は、品質管理分析が実施された後、対応する臨床データとさらに関連付けられる。いくつかの実施形態において、RNA配列試料と臨床データとの間の関連は、発現コールを検証または改良するために使用される。いくつかの実施形態において、臨床データは、DNA変異、療法に対する患者の応答、オルガノイド実験結果(例えば、オルガノイドが、一致した療法に感受性があるかどうかを決定するために、患者から得られたオルガノイドを試験することができる)、および/または組織病理学的画像を含む。組織病理学的画像の例には、H&E(ヘマトキシリンおよびエオシン)およびIHC(免疫組織化学)染色画像が含まれる。
単一試料品質管理試験の実施
ブロック230。図2Bのブロック230を参照すると、いくつかの実施形態において、試料のバッチ内の各それぞれの試料について、対応する複数の配列リードから、1つ以上の単一試料品質管理試験が、それぞれの試料に対して実施される。1つ以上の単一試料品質管理試験のうちのいずれか1つに不合格となった試料のバッチからのそれぞれの試料は、バッチデータセットから除去されるか、または手動検査のためにフラグが立てられる。いくつかの実施形態において、任意の単一試料品質管理試験を、バッチデータセット全体に適用することができる。いくつかの実施形態において、単一試料QC試験は、バッチQC試験の前に実施される。いくつかの実施形態において、単一試料QC試験は、バッチQC試験の後に実施される。
いくつかの実施形態において、それぞれの単一試料品質管理試験は、試料のバッチ内の試料当たりの配列リードの総数を、参照データセット140全体における参照試料当たりの配列リードの平均数と比較する。言い換えれば、いくつかの実施形態において、それぞれの単一試料品質管理試験は、i)バッチデータセット全体の試料当たりの配列リードの平均数を決定すること、およびii)参照データセットから(または例えば、コホート一致参照バッチから、もしくは参照データセットのサブセットから)試料当たりの配列リードの参照平均数を取得することを含む。それぞれの単一試料データセットは、バッチデータセット全体の配列リードの平均数を、試料当たりの配列リードの参照平均数と比較する。いくつかの実施形態において、それぞれの試料についての配列リードのそれぞれの合計数が、試料当たりの配列リードの参照平均数を下回る場合、それぞれの試料は、それぞれの品質管理試験に不合格となる。
いくつかの実施形態において、ウィルコクソン検定は、バッチデータセットが、それぞれの単一試料品質管理試験に不合格となるかどうかを評価するために使用される。いくつかの実施形態において、2つの試料のウィルコクソン検定は、対の群を比較する(例えば、2つの群間で最も類似した対の試料を比較する)。例えば、これは、HiSeq1およびHiSeq2システムの両方で配列決定された対象の同じセットからの試料を直接比較するのに有用である。いくつかの実施形態において、対になっていないウィルコクソン検定が使用される(例えば、比較されるバッチにいくらかの相違がある場合)。いくつかの実施形態において、修正されたp値の閾値は、有意差(例えば、バッチ効果)があるかどうかを決定するために使用される。いくつかの実施形態において、修正されたp値の閾値は、参照データセット140からの少なくとも複数の高品質の参照試料に基づいて決定される。いくつかの実施形態において、参照試料の対応するリード数が、少なくとも500万の配列リード、少なくとも1000万の配列リード、少なくとも2000万の配列リード、少なくとも3000万の配列リード、少なくとも4,000万の配列リード、少なくとも5,000万の配列リード、少なくとも1億の配列リード、または少なくとも2億の配列リードである場合、参照試料は高品質であると決定される。
いくつかの実施形態において、それぞれの単一試料品質管理試験は、バッチデータセット内の各それぞれの試料について、対応する複数の配列リードおよび対応する試料メタデータを、第1の訓練された分類モデルに適用し、それによって、第1の訓練された分類モデルが、各試料についてのそれぞれの予測された性別割り当てを含む、予測された性別割り当てのセットを提供することを含む。いくつかの実施形態において、それぞれの単一試料品質管理試験は、予測された性別割り当てのセットを、性別割り当ての予想されたセットと比較することをさらに含む(例えば、意図しない試料交換を検出するために)。いくつかの実施形態において、性別割り当ての予想されたセットと一致しない(例えば、ある性別の割合が高すぎる)、それぞれの予測された性別割り当てを有する1つ以上の試料は、それぞれの単一試料品質管理試験に不合格となる。いくつかの実施形態において、予測された性別割り当てのセットが、性別割り当ての予想されたセットと一致しない場合(例えば、試料交換が多すぎるように見える場合)、バッチデータセット全体が、それぞれの単一試料品質管理試験に不合格となる。
いくつかの実施形態において、非限定的な例として、第1の分類モデルは決定木を含む。ブロック244の分類子としての使用に適した決定木アルゴリズムは、例えば、Duda,2001,Pattern Classification,John Wiley & Sons,Inc.,New York,pp.395-396に記載されており、それは参照により本明細書に組み込まれる。いくつかの実施形態において、決定木はランダムフォレスト回帰である。ブロック244の分類器として使用され得る1つの特定のアルゴリズムは、分類および回帰ツリー(CART)である。ブロック244の分類器として使用され得る特定の決定木アルゴリズムの他の例には、ID3、C4.5、MART、およびランダムフォレストを含むが、これらに限定されない。CART、ID3、およびC4.5は、Duda,2001,Pattern Classification,John Wiley & Sons,Inc.,New York.pp.396-408 and pp.411-412に記載されており、それは参照により本明細書に組み込まれる。CART、MART、およびC4.5は、Hastie et al.,2001,The Elements of Statistical Learning,Springer-Verlag,New York,Chapter 9に記載されており、それは参照によりその全体が本明細書に組み込まれる。ランダムフォレストは、Breiman,1999,“Random Forests--Random Features,”Technical Report 567,Statistics Department,U.C.Berkeley,September 1999に記載されており、それは参照によりその全体が本明細書に組み込まれる。
いくつかの実施形態において、1つ以上の単一試料品質管理試験におけるそれぞれの単一試料品質管理試験は、i)試料のバッチ内の各それぞれの試料について、複数の配列リードにおけるそれぞれの数の重複していないマッピングされた配列リード(例えば、PCR重複の結果ではないリード)を決定すること、およびii)それぞれの数の重複していないマッピングされた配列リードを、重複していないマッピングされた配列リードの予想された数と比較すること、を含む。各重複していないマッピングされた配列リードは、参照ゲノムの対応する部分(例えば、参照ゲノム内に一意の開始および終了部位を有する)にマッピングされる。いくつかの実施形態において、それぞれの数の重複していないマッピングされた配列リードが、所定の数の重複していないマッピングされたリードを下回る場合、それぞれの試料は、それぞれの単一試料品質管理試験に不合格となる。
いくつかの実施形態において、重複していないマッピングされた配列リードの予想された数は、試料が対象の固形または液体生検から取得されたかどうか(例えば、固形腫瘍からまたは血液試料から)に基づいて予測される。いくつかの実施形態において、それぞれの数の重複しているリードは、バッチデータセット内の各試料について決定される(例えば、同一の開始および終了部位を有する配列リードを特定することによって)。いくつかの実施形態において、この方法は、試料レポートまたはグローバルバッチレポートの一部として、それぞれの数の重複しているリードのグラフ表示をさらに提供する。
いくつかの実施形態において、それぞれの単一試料品質管理試験は、バッチデータセット内の各それぞれの試料の対応する複数の配列リードにおける各塩基対リード位置についてのそれぞれの品質スコアを決定することを含む。いくつかの実施形態において、1つ以上のそれぞれの塩基対リード位置のうちの1つ以上のそれぞれの品質スコアが、閾値品質スコアを下回る場合、それぞれの試料は、それぞれの単一試料品質管理試験に不合格となる。いくつかの実施形態において、閾値品質スコアは、20.0を含む(例えば、FastQCによって計算されるように)。いくつかの実施形態において、それぞれの品質スコアは、バッチデータセット内の各それぞれの試料についての複数の配列リードにおける各配列リードについて決定され、いくつかのそのような実施形態において、閾値リード品質スコアを下回る対応する品質スコアを有する1つ以上の配列リードは、破棄される。
いくつかの実施形態において、それぞれの単一試料品質管理試験は、バッチデータセット内の各それぞれの試料の対応する複数の配列リードにおける各配列リードについての平均品質スコアを決定することを含む。いくつかの実施形態において、対応する複数の配列リードにわたる平均品質スコアに対する平均が、閾値品質スコアを下回る場合、それぞれの試料は、それぞれの単一試料品質管理試験に不合格となる。いくつかの実施形態において、閾値品質スコアは、20.0を含む(例えば、FastQCによって計算されるように)。
いくつかの実施形態において、それぞれの単一試料品質管理試験は、試料のバッチ内の各それぞれの試料について、適切に対合された配列リードのそれぞれのパーセンテージ(例えば、ペアエンドリードであり、適切に対合された配列リードのパーセンテージ)を決定することであって、適切に対合された配列リードのパーセンテージが、所定の対合されたリード閾値を下回る場合、それぞれの試料は、それぞれの単一試料品質管理試験に不合格となる、決定することを含む。いくつかの実施形態において、所定の対合されたリード閾値は、少なくとも90%、少なくとも95%、または少なくとも99%を含む。
いくつかの実施形態において、それぞれの単一試料品質管理試験は、試料のバッチ内の各それぞれの試料について、それぞれの数の発現遺伝子(例えば、ゼロ以外の支持配列リードを有する遺伝子の数)を決定することを含む。いくつかの実施形態において、対応する発現リードスコアが、所定の数の発現リードを下回る場合、それぞれの試料は、それぞれの単一試料品質管理試験に不合格となる。いくつかの実施形態において、それぞれの試料が固形生検から得られた場合、所定の数の発現遺伝子は、少なくとも18,000個、少なくとも19,000個、または少なくとも20,000個の遺伝子である。いくつかの実施形態において、それぞれの試料が液体(例えば、血液学的)生検から得られた場合、所定の数の発現遺伝子は、少なくとも15,000個、少なくとも16,500個、または少なくとも17,000個の遺伝子である。いくつかのがんの種類は、発現遺伝子の異なるセットを含む(例えば、いくつかのがんの種類は転写的に異なる)。例えば、Li et al.2017 “Transcriptional landscape of human cancers” Oncotarget 8(21),34534-34551を参照されたい。いくつかの実施形態において、所定の数の発現遺伝子は、それぞれの試料のがんの種類に少なくとも部分的に基づいて(例えば、対応するメタデータから)決定される。
いくつかの実施形態において、それぞれの単一試料品質管理試験は、試料のバッチ内のそれぞれの試料について、対応する複数の配列リードのそれぞれのGC含量を決定することを含む。いくつかの実施形態において、それぞれのGC含量が、所定のGC含量閾値の範囲外である場合、それぞれの試料は、それぞれの単一試料品質管理試験に不合格となる。いくつかの実施形態において、所定のGC含量閾値は、35~60%、40~60%、45~60%、50~60%、または55~60%を含む。GC含量は、ヒトゲノムの遺伝子によって大きく異なる。例えば、Versteeg et al.2003 “The Human Transcriptome Map Reveals Extremes in Gene Density,Intron Length,GC content, and Repeat Patterns for Domains of Highly and Weekly Expressed Genes” Genome Res 13(9),1998-2004を参照されたい。GC含量は、PCR中に核酸分子がどれだけ十分に増幅されるかに影響を与え得る。例えば、Mammedov et al.2009 “A Fundamental Study of the PCR Amplification of GC-Rich DNA Templates” Comput Biol Chem 32(6),452-457を参照されたい。
いくつかの実施形態において、それぞれの単一試料品質管理試験は、試料のバッチ内の各それぞれの試料について、それぞれの試料の対応する複数の配列リードにわたるそれぞれの塩基配列ごとの含量分析を決定することを含む。いくつかの実施形態において、A、T、CまたはG含量の分布が、それぞれの試料についての対応する複数の配列リードによって集合的に表される塩基位置にわたって閾値より高いパーセンテージでドリフトする場合、それぞれの試料は、それぞれの単一試料品質管理試験に不合格となる。いくつかの実施形態において、閾値パーセンテージは、FastQCから決定されるように、少なくとも5%、少なくとも6%、少なくとも7%、少なくとも8%、少なくとも9%、または少なくとも10%のドリフトを含む。
いくつかの実施形態において、それぞれの単一試料品質管理試験は、試料のバッチ内の各それぞれの試料について、対応する複数の配列リードにわたるそれぞれの塩基ごとのGC含量分析を決定することを含む。いくつかの実施形態において、GC含量の分布が、対応する複数の配列リードによって集合的に表される塩基位置にわたって閾値より高いパーセンテージでドリフトする場合、それぞれの試料は、それぞれの単一試料品質管理試験に不合格となる。いくつかの実施形態において、閾値パーセンテージは、5%超、6%超、7%超、8%超、9%超、または10%超のドリフトを含む。
いくつかの実施形態において、それぞれの単一試料品質管理試験は、試料のバッチ内の各それぞれの試料について、対応する複数の配列リードにわたる配列ごとのリードGC含量の対応する分布を決定することを含む。いくつかの実施形態において、適合度試験により、配列ごとのリードGC含量のそれぞれの分布が、閾値有意水準で正規分布から逸脱していると決定した場合(例えば、0.05の有意水準でのカイ二乗適合度試験による分析によって)、それぞれの試料は、それぞれの単一試料品質管理試験に不合格となる。
いくつかの実施形態において、それぞれの単一試料品質管理試験は、試料のバッチ内の各それぞれの試料について、対応する複数の配列リードによって表される各塩基位置についての欠失しているコールのパーセンテージを決定する対応する複数の配列リードにわたる対応する欠失している塩基ごとの含量分析を決定することを含む。いくつかの実施形態において、対応する複数の配列リードによって表される塩基位置についての欠失しているコールの対応するパーセンテージが、閾値パーセンテージを超える場合、それぞれの試料は、それぞれの単一試料品質管理試験に不合格となる。いくつかの実施形態において、閾値パーセンテージは、10%超、15%超、20%超、または25%超を含む。
いくつかの実施形態において、それぞれの単一試料品質管理試験は、バッチデータセット内の各それぞれの試料について、対応する複数の配列リードにわたる配列リード長さのそれぞれの範囲を決定する配列リード長さ分布分析を含む。いくつかの実施形態において、配列リード長さのそれぞれの範囲が、配列リード期待値から逸脱する場合(例えば、固定長配列リードが、フラグを立てられる/除去される場合、配列リード長さの分布が観察される場合、観察された配列リードの範囲が、フラグを立てられる/除去される場合、分布が、その分布についての期待値を満たしていない場合)、それぞれの試料は、それぞれの単一試料品質管理試験に不合格となる。
いくつかの実施形態において、それぞれの単一試料品質管理試験は、バッチデータセット内の各それぞれの試料について、対応する複数の配列リードにおける任意の配列リードが、過剰発現されているかどうかを決定する過剰表現された配列分析を含む。いくつかの実施形態において、過剰発現された配列分析が、対応する複数の配列リードの閾値より高いパーセンテージによって表される1つまたは配列リード配列を識別する場合、それぞれの試料は、それぞれの単一試料品質管理試験に不合格となる。いくつかのそのような実施形態において、閾値パーセンテージは、少なくとも0.05%、少なくとも0.10%、少なくとも0.15%、または少なくとも0.2%を含む。
モジュールのコンテナへのセグメント化
ブロック240。図2Bのブロック240を参照すると、いくつかの実施形態において、1つ以上のバッチ品質管理試験(例えば、バッチ外れ値全体の検出)は、第1のモジュール(例えば、モジュール120)を含み、1つ以上の単一試料品質管理試験(例えば、単一試料外れ値の検出)は、第2のモジュール(例えば、モジュール121)を含む。いくつかの実施形態において、第1のモジュールおよび第2のモジュールのそれぞれは、それぞれのドッカー(例えば、オペレーティングシステム116に関係なく、バッチ品質管理試験および単一試料品質管理試験の実施を可能にする計算コンテナ)を含む。いくつかの実施形態において、第1のモジュールおよび第2のモジュールは、同じコンピュータシステムで実施される。いくつかの実施形態において、第1のモジュールおよび第2のモジュールは、異なるコンピュータシステムで実施される。
ドッカーの例(「コンテナ」または「ドッカーコンテナ」とも記載される)は、Boettiger 2015 “An introduction to Docker for reproducible research,with examples from the R environment” arXiv:1410.0846v1、およびIEEE International SympoにおけるFelter et al.2014 “An updated performance comparison of virtual machines and linux containers”によって提供される。ドッカーコンテナは、多くの場合、ワークフローを容易にするために有用であり、複数のアプリケーションを協調して使用できるようにし得る。例えば、Di Tommaso et al 2015 “The impact of Docker containers on the performance of genomic pipelines” PeerJ 3:e1273を参照されたい。いくつかの実施形態において、2つ以上のドッカー(例えば、モジュールまたはコンテナ)の使用は、本明細書に記載される方法の実施に柔軟性(例えば、利用可能なオペレーティングシステムの種類に関係なく適用の容易さ)を提供する。
いくつかの実施形態において、第1のモジュール120(例えば、バッチ品質管理モジュール)は、RNA試料のバッチ(例えば、フローセル全体またはフローセルのセットからの複数の試料)のグローバルトランスクリプトーム品質を試験する。いくつかの実施形態において、第1のモジュール120は、参照からの試料の均衡が取れたセット(例えば、コホート一致参照バッチ)に対して、RNA試料のバッチのグローバルトランスクリプトーム品質を評価する。
いくつかの実施形態において、第1のモジュール120への入力は、試料のバッチ内の各試料について、i)対応する複数の配列リード、およびii)対応するメタデータ(例えば、少なくとも1つ以上のバイオインフォマティクス値を含む)を含む。いくつかの実施形態において、各複数の配列リードは正規化される(例えば、ブロック218に関して上記されているように)。いくつかの実施形態において、第1のモジュール120は、参照データ(例えば、参照データセット140)を含むか、またはそれへのアクセスを有する。いくつかの実施形態において、参照データセット140は、複数の参照試料内の各参照試料について、対応する複数の配列リード144および対応する参照メタデータ146を含む、複数の参照試料142を含む。
いくつかの実施形態において、対応する複数の配列リード144は、.csvファイルまたは.parquetファイルを含む。いくつかの実施形態において、対応する複数の配列リード144は、当該技術分野で知られている任意のファイル形式を含む。いくつかの実施形態において、試料メタデータに含まれるバイオインフォマティクス値は、LIMS(例えば、検査情報管理システム)値を含む。
いくつかの実施形態において、第1のモジュールによって評価されるグローバルバッチ品質管理試験は、統計的試験および/または次元縮小を含む。いくつかの実施形態において、これらの統計的試験は、バッチデータセット122と、対応するコホート一致参照バッチ130とを区別するための任意の方法を含む。いくつかの実施形態において、統計的バッチ品質管理試験は、バッチデータセットのサブセットおよび対応するコホート一致参照バッチに対して実施される(例えば、特定のがんの種類の試料のみが比較される)。
いくつかの実施形態において、経時的な1つ以上のバッチ品質試験の評価は、第3のモジュールを含み、いくつかの実施形態において、この第3のモジュールは、それぞれの第3のドッカーを含む。いくつかの実施形態において、第3のモジュールは、経時的な(例えば、複数の時点での)RNA配列のバッチの傾向を評価する。これは、配列決定方法の安定性を確保するために(例えば、対照試料が複数の時点で類似しているかどうかを評価することによって)両方に有用である。
いくつかの実施形態において、この方法は、(例えば、モジュール120の適用に続いて)グローバルバッチ品質管理レポートをさらに提供する。いくつかの実施形態において、グローバルバッチレポートは、少なくとも、i)1つ以上のバス品質管理試験のうちのいずれか1つに不合格となったバッチデータセットからの1つ以上の試料のリスト、およびii)事前に定義された期間内に評価した参照データセット140(例えば、対応する参照試料メタデータから特定された)からの1つ以上の参照試料のリストを含む。
いくつかの実施形態において、この事前に定義された期間は、少なくとも1日、少なくとも2日、少なくとも3日、少なくとも4日、少なくとも5日、少なくとも6日、少なくとも7日、少なくとも10日、少なくとも14日、少なくとも21日、少なくとも28日、または少なくとも30日を含む。いくつかの実施形態において、グローバルバッチレポートは、第3のモジュールによって提供される。いくつかの実施形態において、それぞれのグローバルバッチレポートは、少なくとも1日ごと、少なくとも1週間ごと、少なくとも2週間ごと、少なくとも1ヶ月ごと、少なくとも3ヶ月ごと、または少なくとも1年ごとに提供される。
いくつかの実施形態において、第3のモジュールによって評価される品質測定基準は、少なくともGC含量、汚染レベル(例えば、特に、生物学的試料の不適切なDNase適用に起因するDNA汚染)、リード数、マッピングされたリードのパーセンテージ、遺伝子重複率、リード数の関数として表される遺伝子の数、転写産物の完全性の数、、原因不明の腫瘍の精度の決定、または性別予測の精度のセットからの1つ以上の測定基準を含む。
いくつかの実施形態において、第3のモジュールは、時間、パイプラインバージョン、シーケンサーの種類、フローセル、またはがんの種類を含むセットのうちの1つ以上と比較して、1つ以上の測定基準の評価の結果のグラフ表示をさらに提供する。いくつかの実施形態において、これらのグラフ表示は、本明細書の他の場所に記載されているか、または当該技術分野で知られている任意のグラフ表示を含む。
いくつかの実施形態において、この方法は、バッチデータセットの全体的な特徴についての1つ以上のグラフ表示をさらに提供する。いくつかの実施形態において、それぞれのグラフ表示は、対応するバッチデータセット特徴に関する詳細情報を含む。いくつかの実施形態において、この方法は、本明細書に記載される実施形態に従って実施される1つ以上のグローバルバッチ品質管理試験の結果の1つ以上のグラフ表示を提供する。いくつかの実施形態において、この方法は、本明細書に記載される実施形態に従って実施される1つ以上の単一試料品質管理試験の結果の1つ以上のグラフ表示を提供する。いくつかの実施形態において、バッチデータセット特徴は、バッチデータセットの試料のバッチ内の各それぞれの試料についてのそれぞれのメタデータ特徴の組み合わせを含む。例えば、いくつかの実施形態において、バッチデータセット内の各試料のメタデータ特徴が組み合わされて、バッチデータセットについての全体的な測定基準(例えば、特徴)を提供する。
RNA発現パイプラインにおける技術的バッチ効果の識別
本開示の別の態様は、1つ以上のプロセッサと、1つ以上のプロセッサによって実行するための1つ以上のプログラムを格納するメモリと、を有するコンピュータシステムにおいて、品質管理を実施する方法を提供する。この方法は、試験試料のバッチ内の各それぞれの試験試料について、遺伝子の第1のセットにおける各それぞれの遺伝子についての対応する遺伝子発現値を含む対応する発現プロファイルと、試料についての特徴の第1のセットにおける各それぞれの特徴についての値を含むメタデータの対応するセットと、を含む、バッチデータセットを電子形式で取得することを含む。
この方法は、複数の参照試料における各それぞれの参照試料について、遺伝子の第1のセットにおける各それぞれの遺伝子についての対応する遺伝子発現値を含む対応する発現プロファイルを含むコホート一致参照データセットを、バッチデータセットについて決定することを含む。複数の参照試料における各それぞれの参照試料は、それぞれの参照試料についての特徴の第2のセットにおける各それぞれの特徴についての対応する値を含むメタデータの対応するセットに関連付けられる。特徴の第1のセットおよび特徴の第2のセットの両方に存在する1つ以上の特徴の第3のセットにおける各それぞれの特徴についての集計値が、バッチデータセットと、コホート一致参照データセットとの間で均衡が取れている。
次元縮小は、複数の試験試料における各それぞれの試験試料についての対応する発現プロファイル、および複数の参照試料における各それぞれの参照試料についての対応する発現プロファイルからなる結合データセットに対して実施される。したがって、各それぞれの試験試料および各それぞれの参照試料について、対応する発現プロファイルの次元よりも低い次元空間に埋め込まれた座標の対応するセットが取得される。
この方法は、試験試料について取得した座標のセットと、参照試料について取得した座標のセットとの間の類似性の統計的尺度を決定することをさらに含む。類似性の統計的尺度は閾値と比較され、類似性の統計的尺度が閾値を満たしている場合、バッチデータセットは、レポートについて検証されるか、または類似性の統計的尺度が閾値を満たしていない場合、検証されない。
例えば、図15は、本開示のいくつかの実施形態による、品質管理を実施する方法(例えば、参照データセットと比較された試料のバッチに対して)を示す。バッチデータセットは、複数のN人の患者1502(例えば、1502-1、1502-2、...、1502-N)からの複数のRNA試料を含む、試験試料のバッチ(例えば、「バッチi」)から取得される。いくつかの実施形態において、ブロック1504を参照して、バッチデータセットは、試験試料の配列決定分析(例えば、RNAseqエクソーム分析)を使用して取得される。バッチデータセットには、各試験試料についての発現プロファイルが含まれ、各発現プロファイルには、複数のN人の患者(例えば、1506-1、1506-2、...1506-N)における各それぞれの患者1506についての発現データが含まれる。いくつかの実施形態において、発現データは、試験試料中の複数の遺伝子(例えば、RNAseqによって配列決定されたもの)における各それぞれの遺伝子についての対応する遺伝子発現値を含む。いくつかの実施形態において、発現データは、試験試料に関連付けられた複数の特徴についての値を示すメタデータ、例えば、RNA転写プロファイル(例えば、複数の配列リードから決定されたもの)、臨床データ(例えば、患者の診断、治療結果など)、性別、生検の種類(例えば、ヘム対固形生検)、分子データ(例えば、ゲノム変異)、および/またはその他の特徴(例えば、組織部位、腫瘍純度、がんの種類、収集方法、シーケンサーの同一性、および/または配列決定された日付)をさらに含む。
いくつかの実施形態において、ブロック1508を参照すると、各それぞれの発現プロファイルにおける発現データは正規化される。いくつかの実施形態において、各発現プロファイルにおける発現データの正規化は、複数の正規化されたデータセット1510(例えば、1510-1、1510-2、...、1510-N)を生成する。
いくつかの実施形態において、この方法は、複数の参照試料についてコホート一致参照データセット1512を取得することをさらに含む。いくつかの実施形態において、コホート一致参照データセットは、バッチデータセット内の試料の1つ以上の特徴1509の割合を、例えば、参照データベース1511における、それらの1つ以上の特徴(例えば、組織部位、腫瘍純度、がんの種類、収集方法、シーケンサーの同一性、配列決定された日付、臨床データ(例えば、患者の診断、治療結果など)、性別、生検の種類(例えば、ヘム対固形生検)、分子データ(例えば、ゲノム変異)、および/またはその他の特徴)の同じ割合を有する参照試料と一致させることによって特定される。コホート一致参照データセットには、複数の参照試料における各参照試料についての発現プロファイルが含まれる。各それぞれの発現プロファイルは、複数の遺伝子における各それぞれの遺伝子についての対応する遺伝子発現値を含む(例えば、各参照試料発現プロファイルに含まれる複数の遺伝子が、各試験試料発現プロファイルに含まれる複数の遺伝子と同じである場合)。
いくつかの実施形態において、複数の参照試料は、試験試料のバッチ(例えば、N個の参照試料)内の試験試料の数と同じ数の参照試料を含む。いくつかの実施形態において、複数の参照試料は、参照試料および試験試料に関連付けられた特徴(例えば、組織部位、腫瘍純度、がんの種類、収集方法、シーケンサーの同一性、および/または配列決定された日付)の間の1つ以上の類似性に基づいて試験試料のバッチについて選択される。いくつかの実施形態において、試験試料のバッチと複数の参照試料との間のメタデータ(例えば、特徴についての値)は、試験試料のバッチ内の複数の試験試料の間の試験試料の特徴の分布(例えば、割合)が、複数の参照試料の間の参照試料の特徴の分布(例えば、割合)と類似するように、均衡が取れている。
いくつかの実施形態において、コホート一致参照データセットは正規化されている。
この方法によれば、ブロック1514を参照すると、次元縮小(例えば、PCA、潜在成分分析、部分最小二乗回帰など)は、複数の試験試料における各それぞれの試験試料についての対応する発現プロファイル、および複数の参照試料における各それぞれの参照試料についての対応する発現プロファイルからなる結合データセットに対して実施される。各それぞれの試験試料Pおよび各それぞれの参照試料Mについて、座標1516~1518の対応するセットは、対応する発現プロファイルの次元(例えば、1516-1、1516-2、...、1516-N、および1518-1、1518-2、...、1518-N)よりも低い次元空間(例えば、m空間)に埋め込まれる。
ブロック1520を参照すると、この方法は、次元縮小後、結合データセットを使用して成分値を評価することをさらに含む。この方法は、試験試料について取得された座標のセットと、参照試料について取得された座標のセットとの間の類似性の統計的尺度を決定すること、および類似性の統計的尺度を閾値と比較することを含む。ブロック1522を参照すると、バッチデータセットは、類似性の統計的尺度が閾値を満たしている場合、レポートについて検証され、類似性の統計的尺度が閾値を満たしていない場合、検証されない。いくつかの実施形態において、類似性の統計的尺度が閾値を満たしていない場合、バッチデータセットは、拒否および/またはバッチ効果のさらなる評価のためにフラグが立てられる。いくつかの実施形態において、さらなる分析は、参照試料との非類似性を駆動するバッチデータセット内の個々の試料または個々の試料の群を識別する。いくつかの実施形態において、統計的差異を駆動するこれらの試料のうちの1つ以上がバッチデータセットから除去され、グローバル品質管理試験が、修正されたバッチデータセット(例えば、統計的非類似性に寄与する個々の試料が除去されている)で再実行され、修正されたデータセットは、バッチ品質管理試験に合格した場合に検証される。いくつかの実施形態において、1つ以上の試料が、特定されたバッチ効果に寄与すると特定されると、1つ以上の試料を参照データセットに正規化するために補正係数が、決定され、適用される。このようにして、これらの試料は検証され得、下流分析に使用され得る。いくつかの実施形態において、1つ以上の試料が、特定されたバッチ効果に寄与すると特定されると、1つ以上の試料は拒否される(例えば、手動検査後または自動的に)。いくつかの実施形態において、拒否された試料は、RNA発現パイプラインを通して再実行される。
本明細書に記載される他の方法(例えば、図2、16、および17に示される方法)に関して本明細書に記載される他のプロセスの詳細もまた、図15に関して上記されている方法と同様の様式で適用可能であることに留意されたい。例えば、図15に概説された方法を参照して上記されている、データ収集、データ処理、コホート一致、次元縮小分析などに関連する詳細は、任意選択で、本明細書に記載される他の方法(例えば、図2、16、および17に概説されている方法)を参照して本明細書に記載される、データ収集、データ処理、コホート一致、次元縮小分析などの特徴のうちの1つ以上を有する。簡潔にするために、これらの詳細はここでは繰り返さない。
バイオインフォマティクスパイプラインに対する変更の検証
本開示の別の態様は、1つ以上のプロセッサと、1つ以上のプロセッサによって実行するための1つ以上のプログラムを格納するメモリと、を有するコンピュータシステムにおいて、RNA発現パイプラインにおける変化を検証する方法を提供する。この方法は、試験試料のバッチ内の各それぞれの試験試料について、第1のRNA発現パイプラインを使用して調製された対応する発現プロファイルを含むバッチデータセットを電子形式で取得することを含む。対応する発現プロファイルは、遺伝子の第1のセットにおける各それぞれの遺伝子についての対応する遺伝子発現値を含む。バッチデータセットは、それぞれの試験試料についての特徴の第1のセットにおける各それぞれの特徴についての値を含むメタデータの対応するセットをさらに含む。
この方法は、複数の参照試料における各それぞれの参照試料について、遺伝子の第1のセットにおける各それぞれの遺伝子についての対応する遺伝子発現値を含む、第2のRNA発現パイプライン(例えば、変更前に存在するパイプライン)を使用して調製された対応する発現プロファイルを含む、コホート一致参照データセットを、バッチデータセットについて決定することを含む。複数の参照試料における各それぞれの参照試料は、それぞれの参照試料についての特徴の第2のセットにおける各それぞれの特徴についての対応する値を含むメタデータの対応するセットに関連付けられる。特徴の第1のセットおよび特徴の第2のセットの両方に存在する1つ以上の特徴の第3のセットにおける各それぞれの特徴についての集計値は、バッチデータセットと、コホート一致参照データセットとの間で均衡が取れている。
次元縮小は、複数の試験試料における各それぞれの試験試料についての対応する発現プロファイル、および複数の参照試料における各それぞれの参照試料についての対応する発現プロファイルからなる結合データセットに対して実施される。したがって、各それぞれの試験試料および各それぞれの参照試料について、対応する発現プロファイルの次元よりも低い次元空間に埋め込まれた座標の対応するセットが取得される。
この方法は、試験試料について取得した座標のセットと、参照試料について取得した座標のセットとの間の類似性の統計的尺度を決定することをさらに含む。類似性の統計的尺度は閾値と比較され、類似性の統計的尺度が閾値を満たしている場合、RNA発現パイプラインにおける変化は検証されるか、または類似性の統計的尺度が閾値を満たしていない場合、RNA発現パイプラインにおける変化は検証されない。
例えば、図16は、本開示のいくつかの実施形態(例えば、新しいプロセスの有用性を決定する、かつ/または新しいプロセスについての補正係数を決定する)による、RNA発現パイプラインにおける変化を検証する方法を示す。バッチデータセットは、試験試料のバッチから取得され、バッチデータセットは、試験試料のバッチ内の各それぞれの試験試料についての対応する発現プロファイルを含む。いくつかの実施形態において、各それぞれの発現プロファイルは、試験試料中の複数の遺伝子における各それぞれの遺伝子についての対応する遺伝子発現値を含む(例えば、RNA発現パイプラインによって決定される)。いくつかの実施形態において、各それぞれの発現プロファイルは、試験試料に関連付けられた複数の特徴についての値を示すメタデータ、例えば、RNA転写プロファイル(例えば、複数の配列リードから決定されたもの)、臨床データ(例えば、患者の診断、治療結果など)、性別、生検の種類(例えば、ヘム対固形生検)、分子データ(例えば、ゲノム変異)、および/またはその他の特徴(例えば、組織部位、腫瘍純度、がんの種類、収集方法、シーケンサーの同一性、および/または配列決定された日付)をさらに含む。
いくつかの実施形態において、各発現プロファイルは、試験試料のバッチ内の各それぞれの試験試料の配列決定分析(例えば、RNA発現パイプライン)を使用して調製される。いくつかの実施形態において、試験試料のバッチ内の各それぞれの試験試料は、第1の配列決定分析(例えば、第1のRNA発現パイプライン、「vX」)に供される。ブロック1602を参照すると、いくつかの実施形態において、RNA発現パイプラインにおけるプロセス変更は、配列決定分析を、第1のプロセス(例えば、vX)から第2のプロセス(例えば、vY)に変更することを含む。ブロック1604を参照すると、いくつかの実施形態において、試験試料のバッチ内の各それぞれの試験試料は、第2の配列決定分析(例えば、第2のRNA発現パイプライン、「vY」)にさらに供される。
したがって、いくつかの実施形態において、この方法は、試験試料のバッチ内の各それぞれの試験試料について、第1のプロセス(例えば、vX)を使用して取得した対応する第1の発現プロファイルを含む、第1のバッチデータセット1608(例えば、vXバッチデータセット)、および試験試料のバッチ内の各それぞれの試験試料について、第2のプロセス(例えば、vY)を使用して取得した対応する第2の発現プロファイルを含む、第2のバッチデータセット(例えば、vYバッチデータセット)を取得することを含む。
いくつかの実施形態において、第1のバッチデータセット内の各それぞれの第1の発現プロファイルにおける発現データ、および第2のバッチデータセット内の各それぞれの第2の発現プロファイルにおける発現データは、正規化される。
いくつかの実施形態において、この方法は、複数の参照試料についてのコホート一致参照データセット1606を取得することをさらに含む。いくつかの実施形態において、コホート一致参照データセットは、バッチデータセット内の試料の1つ以上の特徴1603の割合を、例えば、参照データベース1605における、それらの1つ以上の特徴(例えば、組織部位、腫瘍純度、がんの種類、収集方法、シーケンサーの同一性、配列決定された日付、臨床データ(例えば、患者の診断、治療結果など)、性別、生検の種類(例えば、ヘム対固形生検)、分子データ(例えば、ゲノム変異)、および/またはその他の特徴)の同じ割合を有する参照試料と一致させることによって特定される。コホート一致参照データセットには、複数の参照試料における各参照試料についての発現プロファイルが含まれる。各それぞれの発現プロファイルは、複数の遺伝子における各それぞれの遺伝子についての対応する遺伝子発現値を含む(例えば、各参照試料発現プロファイルに含まれる複数の遺伝子が、各試験試料発現プロファイルに含まれる複数の遺伝子と同じである場合)。
いくつかの実施形態において、コホート一致参照データセットは、試料一致データセット1608である。すなわち、いくつかの実施形態において、同じ試料が、両方のバージョンのRNA発現パイプラインを通して実行され、バッチデータセット(例えば、新しいバージョンのRNA発現パイプラインを通して実行された試料から生成された)および参照データセット(例えば、以前のバージョンのRNA発現パイプラインを通して実行された試料から生成された)として互いに比較される。
いくつかの実施形態において、複数の参照試料は、参照試料およびプロセスvYを使用して処理された試験試料に関連付けられた特徴(例えば、組織部位、腫瘍純度、がんの種類、収集方法、シーケンサーの同一性、および/または配列決定された日付)の間の1つ以上の類似性に基づいて試験試料のバッチについて選択される。いくつかの実施形態において、試験試料のバッチと複数の参照試料との間のメタデータ(例えば、特徴についての値)は、プロセスvYを使用して処理された複数の試験試料の間の試験試料の特徴の分布(例えば、割合)が、複数の参照試料の間の参照試料の特徴の分布(例えば、割合)と類似するように、均衡が取れている。
いくつかの実施形態において、コホート一致参照データセットは正規化されている。
この方法によれば、ブロック1610を参照すると、次元縮小(例えば、PCA、潜在成分分析、部分最小二乗回帰など)は、複数の試験試料における、プロセスvYを使用して処理された、各それぞれの試験試料についての対応する第2の発現プロファイル、およびコホート一致参照データセットにおける、プロセスvXを使用して処理された、各それぞれの参照試料についての対応する発現プロファイルを含む結合データセットに対して実施される。いくつかの実施形態において、結合データセットは、複数の試験試料におけるプロセスvXを使用して処理された各それぞれの試験試料についての対応する第1の発現プロファイルをさらに含む。
したがって、プロセスvXを使用して処理された各それぞれの試験試料および各それぞれの参照試料について、ならびにプロセスvYを使用して処理された各それぞれの試験試料について、座標1612~1614の対応するセットは、対応する発現プロファイルの次元(例えば、1612-1、1612-2、...、1612-N、および1614-1、1614-2、...、1614-N)よりも低い次元空間(例えば、m空間)に埋め込まれる。
ブロック1616を参照すると、この方法は、次元縮小後、結合データセットを使用して成分値を評価することをさらに含む。この方法は、プロセスvXを使用して処理された試験試料および参照試料、ならびにプロセスvYを使用して処理された試験試料について取得された座標のセット間の類似性の統計的尺度を決定することを含む。ブロック1618を参照すると、類似性の統計的尺度が閾値と比較されて、プロセスvXとプロセスvYとの間に有意な分散があるかどうかが決定される。ブロック1620を参照すると、類似性の統計的尺度が閾値を満たしている場合、RNA発現パイプラインにおける変化が検証される。ブロック1622を参照すると、類似性の統計的尺度が閾値を満たしていない場合、RNA発現パイプラインにおける変更が、プロセス変更のさらなる評価のために、かつ/またはプロセスvYについての補正係数の決定のために、拒否および/またはフラグが立てられる。
本明細書に記載される他の方法(例えば、図2、15、および17に示される方法)に関して本明細書に記載される他のプロセスの詳細もまた、図16に関して上記されている方法と同様の様式で適用可能であることに留意されたい。例えば、図16に概説された方法を参照して上記されている、データ収集、データ処理、コホート一致、次元縮小分析などに関連する詳細は、任意選択で、本明細書に記載される他の方法(例えば、図2、15、および17に概説されている方法)を参照して本明細書に記載される、データ収集、データ処理、コホート一致、次元縮小分析などの特徴のうちの1つ以上を有する。簡潔にするために、これらの詳細はここでは繰り返さない。
参照データベースの拡張
本開示の別の態様は、1つ以上のプロセッサと、1つ以上のプロセッサによって実行するための1つ以上のプログラムを格納するメモリと、を有するコンピュータシステムにおいて、RNA発現データを参照データベースに追加する方法を提供する。この方法は、新しい発現データセットを電子形式で取得することを含む。新しい発現データセットは、複数の試験試料中の各それぞれの試験試料について、第1のRNA発現パイプラインを使用して調製された対応する発現プロファイルを含み、対応する発現プロファイルは、遺伝子の第1のセットにおける各それぞれの遺伝子についての対応する遺伝子発現値を含む。新しい発現データセットは、それぞれの試験試料についての特徴の第1のセットにおける各それぞれの特徴についての値を含むメタデータの対応するセットをさらに含む。
この方法は、複数の参照試料における各それぞれの参照試料について、遺伝子の第1のセットにおける各それぞれの遺伝子についての対応する遺伝子発現値を含む対応する発現プロファイルを含むコホート一致参照データセットを、新しい発現データセットについて決定することを含む。複数の参照試料における各それぞれの参照試料は、それぞれの参照試料についての特徴の第2のセットにおける各それぞれの特徴についての対応する値を含むメタデータの対応するセットに関連付けられる。複数の参照試料における参照試料に対応する各発現プロファイルは、参照データベースからのものである。特徴の第1のセットおよび特徴の第2のセットの両方に存在する1つ以上の特徴の第3のセットにおける各それぞれの特徴についての集計値は、バッチデータセットと、コホート一致参照データセットとの間で均衡が取れている。
次元縮小は、複数の試験試料における各それぞれの試験試料についての対応する発現プロファイル、および複数の参照試料における各それぞれの参照試料についての対応する発現プロファイルからなる結合データセットに対して実施される。したがって、各それぞれの試験試料および各それぞれの参照試料について、対応する発現プロファイルの次元よりも低い次元空間に埋め込まれた座標の対応するセットが取得される。
この方法は、試験試料について取得された座標のセットと、参照試料について取得された座標のセットとの間の類似性の統計的尺度を決定することをさらに含み、類似性の統計的尺度は閾値と比較される。この方法は、類似性の統計的尺度が閾値を満たしている場合、または類似性の統計的尺度が閾値を満たしていない場合、新しい発現データセットを参照データベースに追加すること、参照データベースにおける発現プロファイルに対して新しい発現データセットにおける発現プロファイルを正規化するための変換係数のセットを決定すること、変換係数のセットを使用して新しい発現データセットにおける発現プロファイルを正規化し、それによって、正規化した新しい発現データセットを取得すること、および正規化された新しい発現データセットを参照データベースに追加することを含む。
例えば、図17は、本開示のいくつかの実施形態による、RNA発現データを参照データベースに追加する方法を示す(例えば、参照データベースの更新に使用される新たに獲得された発現データを検証する)。
ブロック1702を参照すると、(例えば、RNA発現データの)新しい発現データセットが取得される。いくつかの実施形態において、新しい発現データセットは、複数の試験試料中の各それぞれの試験試料について、第1のRNA発現パイプラインを使用して調製され、複数の遺伝子についての遺伝子発現値を含む発現プロファイルを含む。新しい発現データセットは、試験試料に関連付けられた特徴についての値を含むメタデータの対応するセットをさらに含む。
ブロック1704を参照すると、いくつかの実施形態において、新しい発現データセットは正規化されている。
いくつかの実施形態において、この方法は、新しい発現データセットについてのコホート一致参照データセット1706を取得することをさらに含む。いくつかの実施形態において、コホート一致参照データセットは、バッチデータセット内の試料の1つ以上の特徴1703の割合を、例えば、参照データベース1705における、それらの1つ以上の特徴(例えば、組織部位、腫瘍純度、がんの種類、収集方法、シーケンサーの同一性、配列決定された日付、臨床データ(例えば、患者の診断、治療結果など)、性別、生検の種類(例えば、ヘム対固形生検)、分子データ(例えば、ゲノム変異)、および/またはその他の特徴)の同じ割合を有する参照試料と一致させることによって特定される。コホート一致参照データセットには、複数の参照試料における各参照試料についての発現プロファイルが含まれる。各それぞれの発現プロファイルは、複数の遺伝子における各それぞれの遺伝子についての対応する遺伝子発現値を含む(例えば、各参照試料発現プロファイルに含まれる複数の遺伝子が、各試験試料発現プロファイルに含まれる複数の遺伝子と同じである場合)。
いくつかの実施形態において、コホート一致参照データセットは、複数の参照試料における各参照試料についての発現プロファイルを含む。いくつかの実施形態において、各それぞれの発現プロファイルは、参照データベース(例えば、既存のデータベース)からのものであり、複数の遺伝子(例えば、新しい発現データセットに含まれる)における各それぞれの遺伝子についての対応する遺伝子発現値を含む。
複数の参照試料における各それぞれの参照試料は、参照試料に関連付けられた特徴についての値を含むメタデータの対応するセットに関連付けられる。いくつかの実施形態において、コホート一致参照データセットは、図15および/または16に記載された方法のうちのいずれかに従って一致する(例えば、均衡が取れている)。
いくつかの実施形態において、コホート一致参照データセットは正規化されている。
この方法によれば、ブロック1708を参照すると、次元縮小(例えば、PCA、潜在成分分析、部分最小二乗回帰など)は、複数の試験試料における各それぞれの試験試料についての対応する発現プロファイル、および複数の参照試料における各それぞれの参照試料についての対応する発現プロファイルからなる結合データセットに対して実施される。各それぞれの試験試料Nおよび各それぞれの参照試料Cについて、座標1710~1712の対応するセットは、対応する発現プロファイルの次元(例えば、1710-1、1710-2、...、1710-N、および1712-1、1712-2、...、1712-N)よりも低い次元空間(例えば、m空間)に埋め込まれる。
ブロック1714を参照すると、この方法は、次元縮小後、結合データセットを使用して成分値を評価することをさらに含む。この方法は、試験試料について取得した座標のセットと、参照試料について取得した座標のセットとの間の類似性の統計的尺度を決定することを含む。ブロック1716を参照すると、類似性の統計的尺度が閾値と比較されて、新しい発現データセットと既存のデータベースからのデータとの間に有意な分散があるかどうかが決定される。
ブロック1718を参照すると、類似性の統計的尺度が閾値を満たしている場合、新しい発現データセットが参照データベースに追加される。ブロック1720を参照すると、類似性の統計的尺度が閾値を満たしていない場合、参照データベースにおける発現プロファイルに対して新しい発現データセットにおける発現プロファイルを正規化するための変換係数のセットが決定され、新しい発現データセットにおける発現プロファイルは、変換係数のセットを使用して正規化されるため、正規化された新しい発現データセットが取得され、正規化された新しい発現データセットが参照データベースに追加される。
本明細書に記載される他の方法(例えば、図2、15、および16に示される方法)に関して本明細書に記載される他のプロセスの詳細もまた、図17に関して上記されている方法と同様の様式で適用可能であることに留意されたい。例えば、図17に概説された方法を参照して上記されている、データ収集、データ処理、コホート一致、次元縮小分析などに関連する詳細は、任意選択で、本明細書に記載される他の方法(例えば、図2、15、および16に概説されている方法)を参照して本明細書に記載される、データ収集、データ処理、コホート一致、次元縮小分析などの特徴のうちの1つ以上を有する。簡潔にするために、これらの詳細はここでは繰り返さない。
実施形態の例
本明細書に記載されるシステムおよび方法のいくつかの実施形態(例えば、上記のように図2、15、16、および17に概説されている方法)において、バッチデータセットを取得することは、試料のバッチ内の各それぞれの試料について、標的化または全トランスクリプトームRNA配列決定によってそれぞれの試料から得られた対応する複数の配列リードを電子形式で取得すること、および対応する複数の配列リードから、遺伝子の第1のセットにおける各それぞれの遺伝子についての対応する遺伝子発現値を決定すること、を含む。いくつかの実施形態において、本明細書に記載される方法はまた、配列決定データを生成するステップを含む。しかしながら、他の態様において、本明細書に記載される方法は、配列決定がすでに実施された後に開始する。例えば、いくつかの実施形態において、本明細書に記載される方法は、本明細書に記載されるように、試料のバッチ内の各試料について、電子形式で配列リードを取得すること、配列リードに基づいて試料のバッチ内の各試料についての発現プロファイルを決定すること、および次に1つ以上の品質管理方法を実施すること、によって開始する。同様に、いくつかの実施形態において、本明細書に記載される方法は、本明細書に記載されるように、試料のバッチ内の各試料について、電子形式で発現プロファイルを取得すること、および次に1つ以上の品質管理方法を実施することによって開始する。
いくつかの実施形態において、試料のバッチ内の各それぞれの試料について、対応する複数の配列リードは、少なくとも10,000個の配列リードである。いくつかの実施形態において、対応する複数の配列リードは、少なくとも100,000個の配列リードである。いくつかの実施形態において、対応する複数の配列リードは、少なくとも1,000,000個の配列リードである。いくつかの実施形態において、対応する複数の配列リードは、少なくとも10,000,000個の配列リードである。いくつかの実施形態において、対応する複数の配列リードは、10,000個から100,000,000個の配列リードである。いくつかの実施形態において、対応する複数の配列リードは、100,000個から50,000,000個の配列リードである。いくつかの実施形態において、対応する複数の配列リードは、1,000,000個から50,000,000個の配列リードである。
いくつかの実施形態において、試験試料のバッチは、少なくとも10個の試験試料を含む。いくつかの実施形態において、試験試料のバッチは、少なくとも25個の試験試料を含む。いくつかの実施形態において、試験試料のバッチは、少なくとも100個の試験試料を含む。いくつかの実施形態において、試験試料のバッチは、少なくとも1000個の試験試料を含む。いくつかの実施形態において、試験試料のバッチは、少なくとも5個、少なくとも6個、少なくとも7個、少なくとも8個、少なくとも9個、少なくとも10個、少なくとも25個、少なくとも50個、少なくとも100個、少なくとも250個、少なくとも500個、少なくとも750個、少なくとも1000個、少なくとも2500個、少なくとも5000個、少なくとも10,000個、少なくとも100,000個、少なくとも1,000,000個、またはそれ以上の試料を含む。いくつかの実施形態において、試験試料のバッチは、5~100個の試験試料を含む。いくつかの実施形態において、試験試料のバッチは、50~500個の試験試料を含む。いくつかの実施形態において、試験試料のバッチは、100~1000個の試験試料を含む。いくつかの実施形態において、試験試料のバッチは、1000個から100,000個の試験試料を含む。
いくつかの実施形態において、遺伝子の第1のセットは、少なくとも10個の遺伝子を含む。いくつかの実施形態において、遺伝子の第1のセットは、少なくとも100個の遺伝子を含む。いくつかの実施形態において、遺伝子の第1のセットは、少なくとも1000個の遺伝子を含む。いくつかの実施形態において、遺伝子の第1のセットは、少なくとも10,000個の遺伝子を含む。いくつかの実施形態において、試験試料のバッチは、少なくとも5個、少なくとも6個、少なくとも7個、少なくとも8個、少なくとも9個、少なくとも10個、少なくとも25個、少なくとも50個、少なくとも100個、少なくとも250個、少なくとも500個、少なくとも750個、少なくとも1000個、少なくとも2500個、少なくとも5000個、少なくとも10,000個、少なくとも20,000個、少なくとも30,000個、またはそれ以上の遺伝子を含む。
いくつかの実施形態において、バッチおよび参照データセットの均衡が取られる特徴のセットは、組織部位(生物学的試料が獲得された部位)、腫瘍純度、がんの種類、シーケンサーの同一性、および配列決定の日付から選択される少なくとも1つの特徴を含む。いくつかの実施形態において、バッチおよび参照データセットの均衡が取られる特徴のセットは、組織部位、腫瘍純度、がんの種類、シーケンサーの同一性、および配列決定の日付から選択される少なくとも2つの特徴を含む。いくつかの実施形態において、バッチおよび参照データセットの均衡が取られる特徴のセットは、組織部位、腫瘍純度、がんの種類、シーケンサーの同一性、および配列決定の日付から選択される少なくとも3つの特徴を含む。いくつかの実施形態において、バッチおよび参照データセットの均衡が取られる特徴のセットは、少なくとも組織部位およびがんの種類を含む。いくつかの実施形態において、バッチおよび参照データセットの均衡が取られる特徴のセットは、組織部位およびがんの種類である。
いくつかの実施形態において、バッチおよび参照データセットの均衡が取られる特徴のセットは、核酸抽出法、cDNAライブラリー調製法、RNA配列決定方法、使用される試薬の種類、および使用される機器の種類から選択される少なくとも1つの特徴を含む。
いくつかの実施形態において、複数の参照試料(参照データセット)は、少なくとも50個の参照試料を含む。いくつかの実施形態において、複数の参照試料(参照データセット)は、少なくとも100個の参照試料を含む。いくつかの実施形態において、複数の参照試料(参照データセット)は、少なくとも500個の参照試料を含む。いくつかの実施形態において、複数の参照試料(参照データセット)は、少なくとも1000個の参照試料を含む。いくつかの実施形態において、複数の参照試料(参照データセット)は、少なくとも5000個の参照試料を含む。いくつかの実施形態において、複数の参照試料(参照データセット)は、少なくとも10,000個の参照試料を含む。いくつかの実施形態において、複数の参照試料(参照データセット)は、少なくとも100,000個の参照試料を含む。いくつかの実施形態において、複数の参照試料は、少なくとも5個、少なくとも6個、少なくとも7個、少なくとも8個、少なくとも9個、少なくとも10個、少なくとも25個、少なくとも50個、少なくとも100個、少なくとも250個、少なくとも500個、少なくとも750個、少なくとも1000個、少なくとも2500個、少なくとも5000個、少なくとも10,000個、少なくとも100,000個、少なくとも1,000,000個、またはそれ以上の試料を含む。いくつかの実施形態において、複数の参照試料は、5個~100個の参照試料を含む。いくつかの実施形態において、複数の参照試料は、50個~500個の参照試料を含む。いくつかの実施形態において、複数の参照試料は、100個~1000個の参照試料を含む。いくつかの実施形態において、複数の参照試料は、1000個~100,000個の参照試料を含む。
いくつかの実施形態において、バッチデータセットに対して均衡が取られた参照試料のセットは、少なくともバッチデータセットに存在するものと同じ数の試料を含む。いくつかの実施形態において、バッチデータセットに対して均衡が取られた参照試料のセットは、バッチデータセットに存在するものと同じ数の試料を有する。いくつかの実施形態において、バッチデータセットに対して均衡が取られた参照試料のセットは、バッチデータセットに存在するものと比べて少なくとも25%多い試料を含む。いくつかの実施形態において、バッチデータセットに対して均衡が取られた参照試料のセットは、バッチデータセットに存在するものと比べて少なくとも50%多い試料を含む。いくつかの実施形態において、バッチデータセットに対して均衡が取られた参照試料のセットは、バッチデータセットに存在するものと比べて少なくとも100%多い試料を含む。いくつかの実施形態において、バッチデータセットに対して均衡が取られた参照試料のセットは、バッチデータセットに存在するものと比べて少なくとも5倍多い試料を含む。いくつかの実施形態において、バッチデータセットに対して均衡が取られた参照試料のセットは、バッチデータセットに存在するものと比べて少なくとも10倍多い試料を含む。
複数の参照試料が、少なくとも1000個の参照試料を含む、請求項27~36のいずれか一項に記載の方法。
いくつかの実施形態において、それぞれの特徴についての集計値は、試験試料のバッチ内で、それぞれの特徴についてのそれぞれの値を有する、それぞれの試験試料のパーセンテージが、複数の参照試料において、それぞれの特徴について同じそれぞれの値を有する、それぞれの参照試料のパーセンテージの2.5%以内である場合、バッチデータセットと、コホート一致参照セットとの間で均衡が取れている。例えば、がんの種類が、バッチデータセットとコホート一致データセットの間で均衡が取れている特徴であるいくつかの実施形態において、バッチデータセットが、20%の脳がん試料、30%の肺がん試料、および50%の結腸がん試料から構成されている場合、参照データセットは、17.5%~22.5%の脳がん試料、27.5%~32.5%の肺がん試料、および47.5%~52.5%の結腸がん試料を含む。
いくつかの実施形態において、試験試料のバッチ内で、それぞれの特徴についてのそれぞれの値を有する、それぞれの試験試料のパーセンテージが、複数の参照試料内で、それぞれの特徴についての同じそれぞれの値を有する、それぞれの参照試料のパーセンテージの1%以内、2%以内、3%以内、4%以内、5%以内、6%以内、7%以内、8%以内、9%以内、10%以内、11%以内、12%以内、13%以内、14%以内、15%以内、16%以内、17%以内、18%以内、19%以内、20%以内、21%以内、22%以内、23%以内、24%以内、または25%以内である場合、それぞれの特徴についての集計値は、バッチデータセットとコホート一致参照セットとの間で均衡が取れている。
いくつかの実施形態において、次元縮小は、各それぞれの試験試料および各それぞれの参照試料について、対応する発現プロファイルを二次元表示に埋め込むことを含む。いくつかの実施形態において、次元縮小は、均一マニホールド近似および射影(UMAP)を使用した2座標への埋め込みを含む。いくつかの実施形態において、次元縮小は、各それぞれの試験試料および各それぞれの参照試料について、対応する発現プロファイルを、2座標、3座標、4座標、5座標、6座標、7座標、8座標、9座標、10座標、またはそれ以上の座標に埋め込むことを含む。いくつかの実施形態において、次元縮小は、主成分分析(PCA)を使用して、より少ない座標系に埋め込むことを含む。
実施例1-サブタイプ一致参照試料を用いた低次元の埋め込みによるRNAにおける配列決定バッチ効果のロバストな検出
プロトコル、試薬、または配列決定技術の変更などの技術的バッチ効果により、大規模なトランスクリプトーム研究が無効になる可能性がある。腫瘍の種類、時間、または複数の施設にわたってトランスクリプトームを分析する検査室は、バッチ間のデータの互換性を検証するための体系的な方法を有する必要がある。
バッチ効果は、少数の遺伝子の大きな変化または多くの遺伝子の小さな変化として現れる可能性がある。ロバストなバッチ効果検出方法により、どちらかが特定されるであろう。さらに、バルクRNAseqからの結果は、がんの種類および組織部位によって駆動される。これは、複数のがんの種類にわたる研究でのバッチ効果の検出を複雑にする。これらの課題を克服するために、トランスクリプトーム試料の異種セットにおける技術的バッチ効果を評価するための方法を開発した。
簡潔に説明すると、試料を、がんの種類および組織部位に基づいてトランスクリプトームセットと一致するように検証済みの参照データから選択した。トランスクリプトームセットの遺伝子発現プロファイルおよび一致する参照データを、均一マニホールド近似および射影(UMAP)を使用して2座標に埋め込んだ。UMAPのクラスタリング特性は、バッチ効果の検出に最適である。次に、マンホイットニーU検定を、xおよびyのUMAP座標に対して実施した。いずれかの試験が、閾値、例えば0.01を下回るp値に戻る場合、バッチ効果がある可能性がある。
第1の例として、この方法を適用して、異なる採血方法論を使用したときにバッチ効果が生じるかどうかを判断した。簡潔に説明すると、RNAseqデータを、PAX収集チューブまたはEDTA収集チューブのいずれかを使用して収集した、対合したコホートおよび組織が一致した血液試料に対して生成した。他のすべての試料調製、データ収集、およびデータ処理のステップは、すべての試料に対して同じように実施した。次に、RNAseqデータを、UMAPを使用して2座標に埋め込んだ(図3A;302=PAX収集チューブ;304=EDTA収集チューブ)。次に、マンホイットニーU検定を、UMAP埋め込みのx座標およびy座標に別々に適用した。図3Bおよび3Cに示すように、両方のマンホイットニーU検定により、PAX収集チューブで収集した血液とEDTA収集チューブで収集した血液から生成したRNAseqデータの間に統計的に有意な差が識別され(p=7.08E-10)、バッチ効果が、異なる採血方法論の使用から生じたことが証明された。
第2の例として、この方法を適用して、RNAseqデータの分析のために異なるバイオインフォマティクスパイプラインを使用したときにバッチ効果が生じるかどうかを判断した。簡潔に説明すると、RNAseqデータを、STARパイプラインまたはkallistoパイプラインのいずれかを使用して処理した、対合したコホートおよび組織が一致した試料に対して生成した(Dobin A.et al.,Bioinformatics,29(1):15-21(2013)(STARを記載している)およびBray NL et al.,Nature Biotechnology,34:525-27(2016)(kallistoを記載している)を参照されたい。RNAseqデータをアラインメントして、転写産物の量を定量化するために使用したバイオインフォマティクスパイプラインの相違を除いて、すべての試料調製、データ収集、およびデータ処理のステップを、すべての試料について同じように実施した。次に、RNAseqデータを、UMAPを使用して2座標に埋め込んだ(図4A;402=Starアラインメント;404=kallistoアラインメント)。次に、マンホイットニーU検定を、UMAP埋め込みのx座標およびy座標に別々に適用した。図4Bおよび4Cに示すように、両方のマンホイットニーU検定により、STARアルゴリズムを使用してアラインメントされたRNAseqデータとkallistoアルゴリズムを使用してアラインメントされたRNAseqデータの間に統計的に有意な差が識別され(p=2.80E-9およびp=1.69E-19)、異なるRNAseqアラインメントアルゴリズムの使用から生じるバッチ効果が証明された。
最後に、この方法を使用して、技術的バッチ効果が発生しやすい一般的なソース、すなわち、フローセル、バイオインフォマティクスパイプラインの更新、およびシーケンサーを試験した。各効果について。各技術クラス(フローセル、パイプライン、およびシーケンサー)について、この方法を、特徴ごとに15個のサブ試料に対して実行し、Benjamini-Hochbergにより補正した偽発見率を、サブ試料全体で計算した。図5A~5Cに提示した分布は、サブ試料全体で計算したFDRの中央値を表す。
したがって、上記の方法は、複数のがんの種類および組織部位にわたる技術的およびソフトウェアのバッチ効果を自動的に試験するための効果的かつ実装が容易な方法である。
実施例2-キャプチャプローブの再設計後に適用したバッチ補正
キャプチャRNA-Seq法は、特に、FFPE試料における遺伝子発現を分析する場合、全mRNAキャプチャ法に比べて多くの利点を有する。例えば、全mRNAキャプチャ法でのポリA選択は、固定プロセス中にRNA分子が断片化されるため、FFPE試料では最適に機能しない。したがって、多くのmRNA断片は、もはやポリAテールに関連付けられていないため、キャプチャされない。対照的に、キャプチャRNA-Seq法は、標的mRNAのコード配列に対して設計されたプローブを使用してmRNA断片を単離するため、これらの方法は、断片化による影響を大幅に軽減する。さらに、血液学的試料を使用する場合、キャプチャRNA-Seq方法論は、リボソーム枯渇およびヘモグロビン枯渇による影響が少ない。
しかしながら、RNA-Seqのキャプチャに使用されるエクソームキャプチャプローブの設計を変更すると、技術的バッチ効果がわずかになることが観察された。これらのバッチ効果を補正するために、第1世代のエクソームキャプチャプローブのセットを使用して以前にエクソーム配列決定された様々ながんの種類を表す450個の試料を、第2世代のエクソームキャプチャプローブのセットを使用するエクソーム再配列決定のために選択した。次に、第1世代のエクソームキャプチャプローブのセットを使用して生成された元のエクソーム配列決定結果を、第2世代のエクソームキャプチャプローブのセットを使用して生成された新しいエクソーム配列決定結果と比較することによって、各遺伝子についての線形補正係数を決定した。
線形遺伝子ごとの線形補正は、2つのデータセット間のすべての体系的な相違を取り除くのに十分であることが見出された。各遺伝子iについて、v1に補正された発現値Eciは、次のように計算した。
Eci=(Ei*mi)+bi
式中、Eiは、第2世代のエクソームキャプチャプローブのセットを使用して遺伝子i(log2 TPM)に対して決定された未補正の発現レベルであり、miは、遺伝子iについての勾配補正係数であり、biは、遺伝子iについての切片補正係数である。各遺伝子についてのこれらの勾配および切片の補正係数は、一致したデータセットにおけるv1および補正されたv2の分布に一致するように学習される。これを、対合した試料の状況を考慮することができる加重損失関数を最小化することによって最適化した。この副次情報を利用することにより、第2世代のエクソームプローブのセットを使用して処理されたすべての試料に同じ線形補正を適用できるため、結果として得られる補正係数は、任意のがんの種類の配列決定された試料に対してロバストに機能するであろう。
補正係数の効果を分析するために、主成分分析(PCA)を、各々2回処理された37個の異なるがんの種類を表す、100個の試料についての発現値に対して実施し、両方について、1回目は第1世代のエクソームキャプチャプローブのセットを使用し、もう1回目は第2世代のエクソームキャプチャプローブのセットを使用した。これらの100個の試料は、補正係数を生成するために使用した訓練コホートの一部ではなかった。PCAは、最初に第2世代のエクソームキャプチャプローブのセットを使用して決定された未補正の発現値に対して実施し、次に上記の補正係数を使用して補正された発現値に対して実施した。
図6Aに示すように、未補正の発現値をPCA分析に使用した場合、技術的バッチ効果は、第3の主成分と、アッセイの種類(+=第1世代のエクソームキャプチャプローブのセット、O=第2世代のエクソームキャプチャプローブのセット、線は、対合した試料を結ぶ)との関連付けによって明確に観察可能であった。しかしながら、図6Bに示すように、未補正の発現値をPCA分析に使用した場合、主成分のいずれもアッセイの種類に関連付けられておらず、すべての試料が、試料およびがんの種類をクラスター化した。
実施例3-生物学的試料の採取部位および保存方法の相違から生じる技術的バッチ効果の識別
ヘムがんは、全血、骨髄から採取することができ、時々、ホルマリン固定パラフィン包埋(FFPE)に保存することができる。しかしながら、これらの試料採取方法論の相違により、技術的バッチ効果の導入がもたらされる。簡潔に説明すると、血液サンプリング、骨髄サンプリングのいずれかによって採取した、またはFFPEに保存したコホート一致がん試料からのRNA発現データを、本開示のいくつかの実施形態に従って、UMAPを使用して2座標に埋め込んだ、次元縮小分析によって分析した。図7に提示した結果は、トランスクリプトーム試料がクラスター化され、y軸でFFPE対EDTA血液/骨髄チューブによって分離され、軸で骨髄対全体によって分離されていることを示す。この分離は、生物学的および技術的な相違の両方によって駆動され、適切な参照の一致を必要とする。
実施例4-RNA抽出方法論の相違から生じる技術的バッチ効果の識別
トランスクリプトーム分析中に使用した異なる抽出方法および化学物質は、バッチ効果を導入する可能性がある。例えば、バッチ効果は、RNAseq分析(内部抽出)の直前とは対照的に、例えば、臨床医によって試料が配列決定(外部抽出)のために送られる前にRNA試料が抽出された場合に生じる可能性がある。簡潔に説明すると、RNA単離の前または後に取得されたコホート一致がん試料からのRNA発現データを、本開示のいくつかの実施形態に従って、UMAPを使用して2座標に埋め込んだ、次元縮小分析によって分析した。図8に提示した結果は、ヘムが、内部で抽出された試料とは別に、外部ソースクラスターによって試料を抽出したことを示す。実施例3に記載されているように、血液および骨髄から内部抽出されたFFPE試料を分離することにより、第2のバッチ効果が観察される。
実施例5-異なる試薬ロットから生じる技術的バッチ効果の識別
キャプチャRNASeqの方法論は、キャプチャプローブを使用してcDNA断片ライブラリーが濃縮されるステップを含む。この一例では、いくつかのがん試料用に調製したcDNA断片ライブラリーの2つの試料を、目的のゲノム領域に相補的なビオチン化オリゴヌクレオチドプローブの同じセットの2つのバッチにハイブリダイズした。これらのキャプチャプローブライブラリーは、時々、それ自体が、異なるゲノムキャプチャ設計のプールになり得る。プローブロットの製造およびキャプチャライブラリーのプールは、バッチ効果を導入する可能性がある。次に、両方のロットのキャプチャプローブを使用して生成したRNA発現データを、PCA次元縮小分析によって分析した。図9に提示した結果は、PC8(x軸)で検出された、異なるプローブロットによって導入されたバッチ効果を示す。
実施例6-異なるハイブリッドキャプチャプレキシティ(plexity)から生じる技術的バッチ効果の分析
ハイブリダイゼーションプレキシティとは、標的化キャプチャ中に一緒にプールされたcDNA試料の数を指す。アッセイは、プール内の単一のみの試料から12を超える試料まで様々であり得る。この実験では、9つの腫瘍試料および2つの細胞対照を、3つのプレキシティ条件(単一、3倍、および6倍の試料プール)下で配列決定した。RNA配列決定に続いて、異なるプレキシティ条件下で調製した試料を使用して生成した発現データを、本開示のいくつかの実施形態に従って、UMAPを使用して2座標に埋め込んだ、次元縮小分析によって分析した。図10に提示した結果は、使用したプレキシティ条件に関係なく、一致した試料がクラスター化されたことを示し、これは、プレキシティがトランスクリプトーム分析に対してバッチ効果を導入しないことを示す。
実施例7-異なる数のPCR増幅サイクルから生じる技術的バッチ効果の分析
一部のRNAseq方法論では、キャプチャ後のPCRは、アンプリコン断片がプローブによってキャプチャされた後、かつ配列決定の前の増幅ステップである。非結合断片は洗い流され、残りの断片は設定されたサイクル数で増幅される(サイクルが多いほど増幅が多くなる)。サイクルが多すぎると、配列の特徴に基づいて不均衡な重複率が発生する可能性がある。この実験では、6つの腫瘍および1つの対照試料に対する増幅サイクル数(7~9)の効果を決定した。RNA配列決定に続いて、異なる増幅条件(7~9サイクル)下で調製した試料を使用して生成した発現データを、本開示のいくつかの実施形態に従って、UMAPを使用して2座標に埋め込んだ、次元縮小分析によって分析した。図11に提示した結果は、使用した増幅サイクルの数に関係なく、一致した試料がクラスター化されたことを示し、これは、7~9のPCR増幅サイクル数の変動が、トランスクリプトーム分析に対してバッチ効果を導入しないことを示す。
実施例8-異なるシーケンサー負荷モル濃度から生じる技術的バッチ効果の分析
負荷モル濃度は、シーケンサーに負荷される試料の量を指す。典型的に、モル濃度が低すぎると、複製率が高くなり、データのノイズが大きくなる可能性がある。このバッチ効果実験では、11個の腫瘍試料および3個の対照試料を、3つのモル濃度条件(0.7、1、および1.5uM)下で配列決定した。RNA配列決定に続いて、異なる負荷モル濃度下で調製した試料を使用して生成した発現データを、本開示のいくつかの実施形態に従って、UMAPを使用して2座標に埋め込んだ、次元縮小分析によって分析した。図12に提示した結果は、使用した負荷モル濃度に関係なく、一致した試料がクラスター化されたことを示し、これは、0.7~1.5uMの負荷モル濃度の変動が、トランスクリプトーム分析に対してバッチ効果を導入しないことを示す。
実施例9-配列決定試薬の化学物質の変化から生じる技術的バッチ効果の分析
Illuminaの配列決定試薬の変更は、それらの技術に対する追加の特徴により良く適合させるために使用される化学物質の一般的で専有的な変更である。試薬変更の最近の例は、ユニバーサル分子インデックス(UMI)での追加のリードを可能にするために適合された。バッチ効果対照実験では、28個の試料を2つの試薬バージョン下で配列決定し、以前のバージョンと現在のバージョンの試薬の間にバッチ効果が検出されなかったことを確認した。RNA配列決定に続いて、異なるバージョンの試薬を使用して調製した試料を使用して生成した発現データを、本開示のいくつかの実施形態に従って、UMAPを使用して2座標に埋め込んだ、次元縮小分析によって分析した。全体として、試料は試料ごとにクラスター化され(図13、結んだ線)、試薬は少しではあるが、トランスクリプトーム分散に対して許容範囲内にある。
結論
本明細書に記載される方法は、RNA配列決定試料のバッチを評価するための改善された品質管理方法を提供する。以前の方法よりも精度が改善し、解像度が高いため、本明細書で提供される予測アルゴリズムを使用して、品質管理基準を満たす単一の試料およびバッチ全体を特定することができる。このように品質管理が強化されると、患者に診断を提供し、適切な治療を決定するために使用される情報がより正確になり、診断が改善され、患者に対するより多くの情報に基づいた治療の推奨がもたらされる。
引用されたおよび代替の実施形態
本明細書に引用されるすべての参考文献は、あたかも各個々の刊行物または特許または特許出願がすべての目的のためにその全体が参照により組み込まれるように、具体的かつ個別に示されるのと同程度に、それらの全体がすべての目的のために本明細書に参照により組み込まれる。
本発明は、非一時的コンピュータ可読記憶媒体に埋め込まれたコンピュータプログラム機構を含むコンピュータプログラム製品として実装することができる。例えば、コンピュータプログラム製品は、図1に示され、かつ/または図2Aおよび2Bに記載されるような、プログラムモジュールを含むことができる。これらのプログラムモジュールは、CD-ROM、DVD、磁気ディスク記憶製品、USBキー、または他の任意の非一時的コンピュータ可読データまたはプログラム記憶製品に格納することができる。
当業者には明らかであろうように、本出願の趣旨および範囲から逸脱することなく、本出願の多くの修正および変形をなすことができる。本明細書に記載の特定の実施形態は、例としてのみ提供されている。実施形態は、本発明の原理およびその実際の使用を最良に説明するために選択および説明され、それによって当業者が本発明および考えられる特定の用途に適した様々な変更を伴う様々な実施形態を最良に利用することができるようにする。本発明は、そのような特許請求の範囲が権利を有する等価物の全範囲とともに、添付の特許請求の範囲の用語によってのみ限定されるべきである。