JP2016103999A - ゲノム位置に標的濃縮配列リードを割り当てるための方法 - Google Patents
ゲノム位置に標的濃縮配列リードを割り当てるための方法 Download PDFInfo
- Publication number
- JP2016103999A JP2016103999A JP2015215807A JP2015215807A JP2016103999A JP 2016103999 A JP2016103999 A JP 2016103999A JP 2015215807 A JP2015215807 A JP 2015215807A JP 2015215807 A JP2015215807 A JP 2015215807A JP 2016103999 A JP2016103999 A JP 2016103999A
- Authority
- JP
- Japan
- Prior art keywords
- sequence
- capture
- read
- assigning
- genomic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biophysics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】ゲノム位置に標的濃縮配列リードを割り当てるためのコンピュータ実施方法の提供。【解決手段】この方法は、(a)配列リードを含むファイルにアクセスするステップであって、この配列リードは複数の捕捉配列にハイブリダイズすることによって濃縮された核酸サンプルから得られる、アクセスするステップと、(b)(i)配列リードが捕捉配列の1つ又は複数の部分配列を含む場合には、この捕捉配列を配列リードと一致するものであると特定し、(ii)コンピュータを用いて、一致した捕捉配列のそれぞれと配列リードとの間の配列類似度を示すスコアを計算し、(iii)一致した捕捉配列のための計算されたスコアがしきい値より高い場合には、ゲノム位置に配列リードを割り当てることによって、このゲノム位置に配列リードを割り当てるステップと、を含むゲノム位置に配列リードを割り当てるためのコンピュータ実施方法。【選択図】なし
Description
診断及び臨床研究の分野において、標的濃縮法は次世代シークエンシング(NGS)ワークフローを加速させるために使用されている。かかる方法により、サンプルDNAから一連の対象のゲノム領域を標的とするように設計されたプローブに適合する断片のみが単離される。
多くの場合、NGSデータから診断情報を抽出する際の第1の処理ステップは、適したゲノム位置で各配列リード(又はリード対)をタグ付ける(tag)ことである。バローズ−ホィーラーアライナ(BWA)等のこの目的に利用可能な汎用アライナは全ゲノムに亘って各リード(又はリード対)について最大に一致するもの(best match:ベストマッチ)を見つけることを目的とするプログラムである。しかしながら、BWAのようなプログラムは各リードの配列及び全ゲノム参照データによってのみ与えられる情報を用いて、配列をアラインするものである。そのため汎用アライナでは、配列リードが標的濃縮パネルを用いて濃縮されたサンプルから得られる場合、適合アルゴリズムにおいて標的濃縮パラメータは統合されず、結果として処理時間が長くなり、タグ付けの精度が低くなる。
本発明により提供されるものは、特に、ゲノム位置に配列リードを割り当てるためのコンピュータ実施方法である。この方法は、特に、a)配列リードを含むファイルにアクセスするステップであって、該配列リードは複数の捕捉配列にハイブリダイズすることによって濃縮された核酸サンプルから得られる、アクセスするステップと、b)i)前記配列リードが捕捉配列の1つ又は複数の部分配列を含む場合には、該捕捉配列を前記配列リードと一致するものであると特定し、ii)コンピュータを用いて、前記一致した捕捉配列のそれぞれと前記配列リードとの間の配列類似度を示すスコアを計算し、iii)一致した捕捉配列のための前記計算されたスコアがしきい値より高い場合には、ゲノム位置に前記配列リードを割り当てることによって、該ゲノム位置に前記配列リードを割り当てるステップとを含む。
特定の実施形態では、前記特定するステップi)は、前記配列リードの末端領域が前記捕捉配列の1つ又は複数の部分配列を含む場合には、前記捕捉配列のうちの1つ又は複数を前記配列リードと一致するものであると特定するステップを含む。そのような実施形態では、前記末端領域は、前記配列リードの端部から10bp〜50bpの範囲内にあることができる。特定の実施形態では、前記1つ又は複数の部分配列は、長さが5bp〜15bpの範囲にある。
前記実施形態にいずれかにおいて、前記捕捉配列の前記1つ又は複数の部分配列は前記捕捉配列の4〜20の部分配列から選択される。
前記実施形態のいずれかにおいて、前記部分配列は全捕捉配列にわたってタイル張りされる。
前記実施形態のいずれかにおいて、前記計算されたスコアは、前記一致した捕捉配列と前記配列リードとの間の配列同一性の長さ、前記一致した捕捉配列と前記配列リードとの間の文字列編集距離、前記各不一致の前記配列リード内の位置、又はその組み合わせに基づくものである。
前記実施形態のいずれかにおいて、前記ステップi)はデータ構造を生成するステップを更に含み、前記捕捉配列は、前記捕捉配列の部分配列を含む配列キーによってマッピングされる値として前記データ構造内に記憶され、前記特定するステップは、前記配列リードが1つ又は複数の配列キーを含む場合には、前記捕捉配列のうちの1つ又は複数を前記配列リードと一致するものであると特定するステップを含む。
前記実施形態のいずれかにおいて、配列リードはペアエンド配列リードである。
前記実施形態のいずれかにおいて、前記濃縮されたサンプルは、断片化されたゲノム核酸の増幅された複製であり、該断片化されたゲノム核酸は前記複数の捕捉配列にハイブリダイズすることによって濃縮される。そのような実施形態では、前記断片化されたゲノム核酸は、ゲノム核酸を所定の部位において酵素的に切断することによって断片化することができる。
前記実施形態のいずれかにおいて、前記核酸サンプルは、前記核酸の端部にハイブリダイズする複数の捕捉配列によって濃縮される。
前記実施形態のいずれかにおいて、前記割り当てるステップb)は、任意選択的に、配列リードが前記捕捉配列のいかなる部分配列も含まない場合には、前記配列リードを破棄するステップを更に含む。
前記実施形態のいずれかにおいて、該方法は複数の配列リードに関して実行され、それにより、複数のゲノム位置に複数の配列リードを割り当てる。
前記実施形態のいずれかにおいて、前記割り当てるステップb)は、iv)前記一致した捕捉配列の全ての中の最も高い計算スコアを有する一致した捕捉配列を最大に一致するものであると特定するステップと、v)前記配列リードを、前記最大に一致した捕捉配列に一致する1組の特有配列リードに追加することによって、前記ゲノム位置に前記配列リードを割り当てるステップであって、前記1組内の各特有配列リードは前記1組内の他の全ての配列リードの部分配列に同一である部分配列を含む、割り当てるステップとを更に含む。そのような実施形態では、前記1組内の他の全ての配列リードの部分配列に同一である前記部分配列はバーコード配列とすることができる。該方法は、捕捉配列に割り当てられた特有配列リードの組数をカウントするステップを更に含む。
前記実施形態のいずれかにおいて前記捕捉配列は102〜108の別個の配列を含む。
更に提供されるものは、ゲノム位置に配列リードを割り当てるための方法である。この方法は、a)1組の捕捉配列内の複数の捕捉配列にハイブリダイズすることによって核酸サンプルを濃縮するために用いられる前記1組の捕捉配列を、配列リード割り当てプログラムを備えるコンピュータシステムに入力するステップであって、該配列リード割り当てプログラムは、i)配列リードを含むファイルにアクセスするための命令であって、該配列リードは前記濃縮された核酸サンプルから得られる、アクセスするための命令と、ii)前記配列リードが捕捉配列の1つ又は複数の部分配列を含む場合には、該捕捉配列を前記配列リードと一致するものであると特定し、コンピュータを用いて、前記一致した捕捉配列のそれぞれと前記配列リードとの間の配列類似度を示すスコアを計算し、一致した捕捉配列のための前記計算されたスコアがしきい値より高い場合には、ゲノム位置に前記配列リードを割り当てることによって、該ゲノム位置に前記配列リードを割り当てるための命令とを含む、入力するステップと、b)前記配列リードを含むファイルを前記配列リード割り当てプログラムに入力するステップと、c)前記配列リード割り当てプログラムを実行するステップとを含む。
更に提供されるものは、配列リード割り当てプログラムを含むコンピュータ可読記憶媒体(computer readable storage medium)である。この配列リード割り当てプログラムは、a)配列リードを含むファイルにアクセスするための命令であって、該配列リードは複数の捕捉配列にハイブリダイズすることによって濃縮された核酸サンプルから得られる、アクセスするための命令と、b)i)前記配列リードが捕捉配列の1つ又は複数の部分配列を含む場合には、該捕捉配列を前記配列リードと一致するものであると特定し、ii)コンピュータを用いて、前記一致した捕捉配列のそれぞれと前記配列リードとの間の配列類似度を示すスコアを計算し、iii)一致した捕捉配列のための前記計算されたスコアがしきい値より高い場合には、ゲノム位置に前記配列リードを割り当てることによって、前記ゲノム位置に前記配列リードを割り当てるための命令とを含む。
これらの及び他の実施形態及び実施態様について、以下でより詳細に説明する。
当業者は以下の図面が例示のみを目的とすることを理解するであろう。図面は本教示の範囲を限定することを何ら意図するものではない。
他に規定のない限り、本明細書で使用される全ての技術用語及び科学用語は、本開示が属する技術分野の当業者により一般に理解されるものと同じ意味を有する。
「ポリヌクレオチド」、「ヌクレオチド」、「ヌクレオチド配列」、「核酸」、「核酸分子」、「核酸配列」及び「オリゴヌクレオチド」という用語は区別なく用いられる。これらの用語が用いられる内容に応じて各々複数を含むものとすることもできる。これらの用語は任意の長さのヌクレオチドの高分子型を表し、デオキシリボヌクレオチド(DNA)若しくはリボヌクレオチド(RNA)、又はそれらの類似物のいずれかである。ポリヌクレオチドは任意の三次元構造を有することができ、既知の又は未知の任意の機能を果たすことができる。以下はポリヌクレオチドの非限定的な例である:遺伝子又は遺伝子断片のコード領域又は非コード領域、連鎖分析により規定される遺伝子座(loci (locus))、エクソン、イントロン、メッセンジャーRNA(mRNA)、トランスファーRNA(tRNA)、リボソームRNA、リボザイム、低分子干渉RNA(siRNA)、マイクロRNA(miRNA)、核内低分子RNA(snRNA)、cDNA、組換えポリヌクレオチド、分岐ポリヌクレオチド、プラスミド、ベクター、任意の配列の単離DNA(A構造、B構造及びZ構造)、PNA、ロックド核酸(LNA)、TNA(トレオース核酸)、任意の配列の単離RNA、核酸プローブ、及びプライマー。アクセス不能(inaccessible)RNAと呼ばれることの多いLNAは修飾RNAヌクレオチドである。LNAヌクレオチドのリボース部分は2’炭素と4’炭素とを繋ぐ追加の架橋で修飾されている。架橋が3’−エンド型構造の立体配座にてリボースを「固定し(locks:ロックし)」、これは多くの場合DNA又はRNAのA形態で見られる。これによって熱安定性を顕著に改善することができる。
このような内容に応じて、ヌクレオチド又はヌクレオチド配列は、ヌクレオチド又は核酸分子に含まれる配列情報、すなわちヌクレオチド型又は核酸分子を構成するヌクレオチド型の配列を表すことができる。
「シークエンシング(sequencing)」という用語は、本明細書にて、ポリヌクレオチドの少なくとも10個の連続ヌクレオチドの同一性(例えば少なくとも20個、少なくとも50個、少なくとも100個若しくは少なくとも200個又はそれ以上の連続ヌクレオチドの同一性)が得られる方法を指す。
「次世代シークエンシング(next-generation sequencing)」という用語は、いわゆるIllumina、Life Technologies及びRoche等により現在用いられている合成による並列化シークエンシング又はライゲーションプラットホームによるシークエンシングを指す。次世代シークエンシング方法としては、ナノ細孔シークエンシング法又はLife Technologiesによって商品化されているIon Torrent技術等の電子検出に基づく方法も挙げることができる。
「配列リード」という用語は、シークエンシング実行の結果を表す。配列リードはヌクレオチドの文字列により表される。配列リードは配列の品質に関する指標(metrics)を伴い得る。例えば、配列リードにおける各ヌクレオチドは塩基判定の信頼性、すなわち、その位置についてヌクレオチドがG、A、T又はCであるかの決定に関連し得る。
「増幅」という用語は、本明細書にて標的核酸を鋳型として用いて標的核酸の1つ又は複数のコピーを生成することを表す。
「ハイブリダイゼーション」は、1つ又は複数のポリヌクレオチドが反応して、ヌクレオチド残基の塩基間の水素結合により安定化される複合体を形成する反応を表す。水素結合はワトソン−クリック塩基対合、フーグスティーン結合によって、又は任意の他の配列特異的な様式にて起こり得る。複合体は二本鎖構造を形成する2本の鎖、多本鎖複合体を形成する3本以上の鎖、単一の自己ハイブリダイズ鎖、又はこれらの任意の組合せを含むことができる。
当業者に知られるように、ハイブリダイゼーションは様々なストリンジェンシー条件下にて行うことができる。好適なハイブリダイゼーション条件は、捕捉配列と標的核酸との間の認識相互作用が十分に特異的であり、かつ十分に安定しているようなものである。ハイブリダイゼーション反応のストリンジェンシーを増大させる条件が広く知られており、当該技術分野にて公開されている。例えば、下記のGreenら(2012)を参照されたい。
「複数」は少なくとも2つの成員(members)を包含する。幾つかの場合、複数は、少なくとも10、少なくとも100、少なくとも1000、少なくとも10000、少なくとも100000、少なくとも106、少なくとも107、少なくとも108若しくは少なくとも109、又はそれ以上の成員を含み得る。
「基準配列」という用語は、既知の配列、例えば公開又は社内データベースの配列を表し、これと候補配列とを比較することができる。基準配列は基準ゲノム配列とすることができる。
「ゲノム位置」又は「ゲノム領域」という用語は、本明細書にて、ゲノム、例えばヒト、サル、ラット、魚類若しくは昆虫、又は植物のゲノム等の動物又は植物ゲノムの領域を表すために区別なく用いられる。
配列リードに関する「割り当て(assigning)」、「関連付け(associating)」、「タグ付け(tagging)」という用語は、本明細書にて、配列リードの由来元であると考えられる1つ又は複数のソースを配列リードに注釈付けるプロセスを表すために、区別なく用いられる。配列リードのソースは、例えば配列リードの由来元である核酸サンプルを濃縮するのに用いる捕捉配列によって、又は基準ゲノムの位置によって表すことができる。
「濃縮されたサンプル」という用語は、ゲノムの残りから単離されているゲノムDNAの断片を含有するサンプルを表す。濃縮された断片は、用いられる断片化方法に応じて任意の長さにできる。幾つかの実施の形態では、断片は100bp〜3kb長、例えば100bp〜2500bp長、例えば200bp〜1000bp長の範囲とすることができるが、この範囲外の断片を使用することもできる。断片化及び/又は濃縮方法に応じて、任意の1つの濃縮領域について断片分子の末端は同じであっても又は異なっていてもよい。
ゲノムに関する「濃縮(enriching)」という用語は、ゲノムの1つ又は複数の領域をゲノムの残りから分離することで、ゲノムの残りから単離される生成物を生成することを表す。濃縮は、例えばHedgesら(Comparison of three targeted enrichment strategies on the SOLiD sequencing platform. PLoS One 2011 6: e18595)、及びShearerら(Solution-based targeted genomic enrichment for precious DNA samples BMC Biotechnol. 2012 12: 20)に記載されているものを含む多様な方法を用いて行うことができる。
「捕捉配列」は、本明細書にて標的核酸、例えば対象のゲノム位置由来の配列を含むゲノム断片にハイブリダイズすることができるヌクレオチド配列を表し、サンプルにおいて目的のものではない他の核酸に対して標的核酸を濃縮するのに使用できる。捕捉配列は標的核酸に相補的なヌクレオチド配列を含有することができる。
「部分配列」は、本明細書にて、より長いヌクレオチド配列内に含まれるヌクレオチドの配列を表す。そのため、ヌクレオチド配列の部分配列は、ヌクレオチド配列の少なくとも一部と同一のヌクレオチド配列、又はその逆相補配列を有するものである。ヌクレオチド配列の部分配列はヌクレオチド配列よりも1nt(ヌクレオチド)以上、例えば2nt以上、例えば3nt以上、4nt以上、5nt以上、6nt以上、7nt以上、8nt以上、9nt以上、10nt以上、15nt以上、20nt以上、25nt以上、30nt以上、又は50nt以上短いものとすることができる。ヌクレオチド配列の部分配列はヌクレオチド配列の長さよりも3ntから最大で1nt短い長さ、例えばヌクレオチド配列の長さよりも4ntから最大で3nt短い長さ、例えばヌクレオチド配列の長さよりも5ntから最大で5nt(5 nt up to 5 nt)短い長さ、ヌクレオチド配列の長さよりも6ntから最大で10nt短い長さとすることができる。
「データ構造」は、データの使用を容易にするデータをまとめる手段を表す。データ構造としては、表、例えばハッシュ表、データベース、アレイ、セット、グラフ等を挙げることができる。
表に関する「配列キー」は、本明細書にて、表中の配列キーに関連した値を決めるのに用いられる要素の配列、例えばヌクレオチドの配列を表す。そのため、ヌクレオチド配列を保存している表はヌクレオチド配列から導かれる配列キーをヌクレオチド配列にマッピングすることができる。例えば、配列キーはヌクレオチド配列の部分配列とすることができる。
様々な実施形態を記載する前に、本開示の教示が記載される特定の実施形態に限定されず、そのため当然ながら変更することができることを理解されたい。本明細書で使用される専門用語が特定の実施形態の説明のみを目的とし、本教示の範囲が添付の特許請求の範囲によってのみ限定されるため、限定を意図するものではないことも理解されたい。
本明細書で使用される節の見出しは構成のみを目的とし、記載の主題を限定すると何ら解釈されるものではない。本教示を様々な実施形態に併せて記載するが、本教示がかかる実施形態に限定されることは意図されない。それどころか、本教示は当業者に認識されるように様々な代替手段、変更及び均等物を包含する。
ある範囲の値が与えられる場合、文脈において他に明確な示唆がない限り、その範囲の上限値と下限値との間にある、その下限値の単位の10分の1までの各介在値と、その規定された範囲内の任意の他の規定値又は介在値とが、本開示内に包含されることは理解されたい。
いかなる出版物の引用も出願日前のその開示のためであり、本発明の請求項が先行発明のためにかかる出版物に先行する権限を有しないことを認めるものと解釈すべきではない。さらに、提示の刊行日は実際の刊行日とは異なる可能性があり、別に確認する必要がある。
本明細書及び特許請求の範囲で使用される場合、文脈上明白に他の示唆がない限り、単数形「1つの(a, an)」及び「その(the)」は複数を包含する。請求項は任意の要素を除外するように作成され得ることに更に留意されたい。そのため、この記述は請求項の要素の列挙に関連した「単に(solely)」、「のみ(only)」等の排他的な専門用語の使用又は「消極的な」限定の使用の先行詞としての役割を果たすことを意図する。
当業者に明らかなように、本明細書に記載及び説明される個々の実施形態は各々、本教示の範囲又は趣旨を逸脱することなく他の幾つかの実施形態のいずれかの特徴から容易に分離又はそれと組み合わせることができる個別の構成要素及び特徴を有する。列挙されるいずれの方法も、列挙される事象の順序又は論理的に可能な任意の他の順序で行うことができる。
本発明が、その適用形態に関して、本明細書の説明及び図面において記載される構成の細部、構成要素の配置、カテゴリ選択、重み付け、所定の信号限界、又はステップに限定されないことは、当業者は理解されよう。本発明は他の実施形態の余地があり、数多くの異なる方法にて実践又は実行できる。
本開示の種々の実施形態の実践は、別に指示されない限り、生化学、化学、分子生物学、ゲノミクス及び組み換えDNAの従来技法を利用しており、当該技術分野の技量の範囲にある。例えば、Green and Sambrook「MOLECULAR CLONING: A LABORATORY MANUAL」(4th edition (2012))、「SHORT PROTOCOLS IN MOLECULAR BIOLOGY」(F. M. Ausubel, et al. eds., (1995))、「the series METHODS IN ENZYMOLOGY」(Academic Press, Inc.)及び「PCR 2: A PRACTICAL APPROACH」(M. J. MacPherson, B. D. Hames and G. R. Taylor eds. (1995))を参照されたい。
本発明により、ゲノム位置に配列リードを割り当てるコンピュータ実施方法、すなわち一度の配列決定の実行において特定されたヌクレオチド配列が導出されるゲノム内の位置を特定する方法が提供される。特定の実施形態では、主題的な方法(subject method)を利用して、対象となる複数のゲノム位置を標的にする複数の捕捉配列にハイブリダイズすることによって濃縮された核酸サンプルから得られた配列リードをゲノム位置に割り当てる。配列リードが標的濃縮プロセスを用いて得られるとき、濃縮の生化学的方法は、リード(又はリード対)のソースとすることができる取り得るゲノム位置に制約を加える。これは、照合空間の複雑さを著しく緩和し、すなわち、〜3x109位置(例えば、全ヒトゲノム)から、最大でも〜2.5x106位置(例えば、ヒトエクソーム)まで削減し、複数の捕捉配列を含む数多くの標的濃縮パネルの場合に、わずか数千の取り得る位置まで削減する。
また本発明により、主題的な方法を実行するための命令を含む配列リード割り当てプログラムと、配列リード割り当てプログラムを含むコンピュータ可読記憶媒体と、コンピュータシステム上で配列リード割り当てプログラムを用いて主題的な方法を実行するための方法とが提供される。以下に本発明の更なる詳細を説明する。
ゲノム位置に配列リードを割り当てるためのコンピュータ実施方法であって、a)配列リードを含むファイルにアクセスするステップであって、前記配列リードは複数の捕捉配列にハイブリダイズすることによって濃縮された核酸サンプルから得られる、アクセスするステップと、b)i)前記配列リードが捕捉配列の1つ又は複数の部分配列を含む場合には、前記捕捉配列を前記配列リードと一致するものであると特定し、ii)コンピュータを用いて、前記一致した捕捉配列のそれぞれと前記配列リードとの間の配列類似度を示すスコアを計算し、iii)一致した捕捉配列のための前記計算されたスコアがしきい値より高い場合には、ゲノム位置に前記配列リードを割り当てることによって、前記ゲノム位置に前記配列リードを割り当てるステップとを含む、ゲノム位置に配列リードを割り当てるためのコンピュータ実施方法。本開示の実施形態を図1及び図2を参照して更に詳細に説明する。
図1に示すように、本方法は複数の捕捉配列とのハイブリダイゼーションにより濃縮される、サンプルから得られた配列リード102に対して行うことができる。幾つかの実施形態では、配列リード102は特定のゲノム領域について濃縮されているサンプル、すなわち特定のゲノム領域に対応するゲノムDNAの断片を含有するサンプルから得られるものであり、ここで断片は断片化された全ゲノムDNAから濃縮されている。幾つかの場合、濃縮されたゲノム領域は1つ又は複数の癌、例えば、乳癌、黒色腫、腎臓癌、子宮内膜癌、卵巣癌、膵臓癌、白血病、大腸癌、前立腺癌、中皮腫、神経膠腫、髄芽腫(medullobastoma)、多血症、リンパ腫、肉腫又は多発性骨髄腫等に関連する突然変異を有する遺伝子を含有することができる(例えば、Chial Proto-oncogenes to oncogenes to cancer. Nature Education 2008 1:1を参照されたい)。対象の遺伝子としては、PIK3CA、NRAS、KRAS、JAK2、HRAS、FGFR3、FGFR1、EGFR、CDK4、BRAF、RET、PGDFRA、KIT及びERBB2が挙げられるが、これらに限定されない。特定の場合では、サンプルは濃縮されている多数の異なるゲノム領域(例えば、幾つかの異なる領域、例えば少なくとも2、少なくとも5、少なくとも10、少なくとも50、少なくとも100若しくは少なくとも1000、又はそれ以上の異なる重なり合わない領域)に対応するゲノムDNAの断片を含有することができ、ここで各領域は遺伝子、例えば癌遺伝子に対応するものとすることができる。
濃縮されたゲノム領域は任意の便利な方法を用いて、例えば、オリゴヌクレオチド捕捉プローブとのハイブリダイゼーションを用いて又はライゲーションに基づく方法を用いて初期ゲノムサンプルから濃縮することができる。幾つかの実施形態では、ゲノム領域は、20nt〜200nt長、例えば100nt〜150nt長とすることができる1つ又は複数のビオチン化オリゴヌクレオチド捕捉プローブ(幾つかの場合、RNAオリゴヌクレオチドとすることができる)との、対象の捕捉領域との溶液中でのハイブリダイゼーションにより濃縮することができる。これらの実施形態では、捕捉後、オリゴヌクレオチドとハイブリダイズするゲノムDNAの断片を含有する二本鎖を、例えばストレプトアビジンビーズを用いて他の断片から単離することができる。他の実施形態では、対象の領域は、Dahlら(Multiplex amplification enabled by selective circularization of large sets of genomic DNA fragments. Nucleic Acids Res. 2005 33: e71)に記載の方法を用いて濃縮することができる。この方法では、ゲノムサンプルを1つ又は複数の制限酵素を用いて断片化させて変性させてもよい。この方法では、捕捉プローブライブラリー又はパネルを標的化断片にハイブリダイズさせる。各捕捉プローブは、標的化DNA制限断片の両末端にハイブリダイズするように設計されたオリゴヌクレオチドであり、それにより標的化断片を導くことで、環状DNA分子を形成する。次いで、環状分子をライゲーションにより閉環し、非常に正確な反応によって、完全にハイブリダイズされた断片のみを環化させる。次に、環状DNA標的を増幅する。他の濃縮方法は、例えば、Hedgesら(Comparison of three targeted enrichment strategies on the SOLiD sequencing platform. PLoS One 2011 6: e18595)、及びShearerら(Solution-based targeted genomic enrichment for precious DNA samples BMC Biotechnol. 2012 12: 20)に記載されるものであってもよい。
幾つかの場合、各捕捉プローブは核酸の末端にハイブリダイズするように設計された捕捉配列、例えば標的化DNA制限断片を含有する。このような場合、核酸サンプル、例えば断片化ゲノムサンプルを、サンプルにおいて核酸の末端にハイブリダイズする複数の捕捉配列により、標的断片、例えば標的ゲノム制限断片について濃縮することができる。幾つかの実施形態では、捕捉配列はゲノムサンプルを酵素切断することにより生成するゲノム制限断片の末端にあると予測されるゲノム部位にハイブリダイズする配列を含有する。捕捉プローブの各末端での捕捉配列の長さは、10bp〜50bp、例えば12bp〜40bp、例えば15bp〜30bp、17bp〜25bp、又は18bp〜22bpの範囲とすることができる。幾つかの場合、捕捉プローブの各末端での捕捉配列は約20bp長である。幾つかの実施形態では、捕捉プローブライブラリー又は標的濃縮パネルにおける捕捉配列は、約10〜約1010、例えば約50〜約109、例えば約100〜約108、約103〜約108、又は約104〜約108の異なる配列である。
捕捉プローブは付加的な機能的配列及び部分、例えばプライマー結合部位、バーコード配列、ビオチン等の結合成員等を含有することができ、捕捉プローブはサンプル由来の標的核酸の濃縮、シークエンシング、及び/又は分析を促すものである。そのため、捕捉プローブは環化の際に組み込まれる方法特異的なシークエンシングモチーフを含有することができる。幾つかの場合、捕捉プローブはビオチン化し、標的化断片を、ストレプトアビジンビーズを用いて回収できる。
捕捉プローブは、それぞれ個々の核酸分子を互いに識別する同定タグも含有することができる。換言すれば、捕捉プローブの同定タグは溶液、例えば捕捉プローブが濃縮のためにサンプル核酸にハイブリダイズされている溶液に存在する他の捕捉プローブ全てから捕捉プローブを一意的に同定するものである。幾つかの実施形態では、同定タグは捕捉プローブオリゴヌクレオチドの部分配列であるバーコードオリゴヌクレオチド配列とすることができる。そのため、バーコード配列は配列リードを、配列リードの由来元である核酸集合、例えば濃縮されたゲノム断片の増幅産物で続けて補正することを可能にする。
ゲノムDNAは任意の生物から単離することができる。生物は原核生物又は真核生物とすることができる。幾つかの場合、生物は植物、例えばシロイヌナズナ若しくはトウモロコシ、又は爬虫類、哺乳類、鳥類、魚類及び両生類を含む動物とすることができる。幾つかの場合、初期ゲノムサンプルはヒト又はマウス若しくはラット等の齧歯動物から単離することができる。例示的な実施形態では、初期ゲノムサンプルはヒト、マウス、ラット、又はサルの細胞等の哺乳類細胞由来のゲノムDNAを含有することができる。分析用のゲノムDNAを調製する方法は、日常的なものであり、前記のAusubel, F. M.ら(1995)、及び前記のGreenら(2012)に記載の方法のように当該技術分野において既知である。初期ゲノムサンプルはゲノムDNA又はその増幅物(例えば、Lageら(Genome Res. 2003 13: 294-307)、Zongら(Science. 2012 338 :1622-1626)、又は米国特許出願第20040241658号明細書の方法を用いる全ゲノム増幅法により増幅されたゲノムDNA)を含有することができる。断片は物理的方法(例えば、超音波処理、ネブライゼーション、又は剪断)を用いて、化学的に、酵素的に(例えば、低頻度切断制限酵素を用いて)、又は転位因子を用いてゲノムを断片化することにより作製することができる(例えば、Caruccio Methods Mol. Biol. 2011 733: 241-55、Kaperら、Proc. Natl. Acad. Sci. 2013 110: 5552-7、Marineら、Appl. Environ. Microbiol. 2011 77: 8071-9、及び米国特許出願第20100120098号明細書を参照されたい)。
幾つかの実施形態では、濃縮されたサンプルは複数の捕捉配列とのハイブリダイゼーションにより濃縮される断片化ゲノム核酸を含む。このような場合、断片化ゲノム核酸は用いられる制限酵素に基づき所定の部位で酵素切断されたゲノム核酸とすることができる。
サンプルは、培養細胞又は臨床サンプル、例えば組織生検材料、擦過物若しくは洗浄液又は法医学サンプルの細胞(すなわち、犯罪現場で回収したサンプルの細胞)から作製することができる。特定の実施形態では、核酸サンプルは細胞、組織、体液及び糞便等の生体サンプルから得ることができる。対象の体液としては、血液、血清、血漿、唾液、粘液、痰、脳脊髄液(cerebral spinal fluid)、胸膜液、涙、乳糜管液(lactal duct fluid)、リンパ液、唾液、脳脊髄液(cerebrospinal fluid)、関節液、尿、羊水及び精液が挙げられるが、これらに限定されない。特定の実施形態では、サンプルは被験体、例えばヒトから得ることができ、本方法に使用する前に処理することができる。例えば、使用前に核酸をサンプルから抽出することができ、その方法が知られている。特定の実施形態では、ゲノムサンプルはホルマリン固定パラフィン包埋(FFPE)サンプル由来のものとすることができる。
実行される方法に応じて、初期(すなわち濃縮前の)サンプルは既にアダプターにライゲートしているゲノムDNAの断片を含有することができる。他の実施形態では、断片は濃縮した後にアダプターにライゲートすることができる。
幾つかの場合、サンプルをプールすることができる。これらの実施形態では、断片はそれらのソースを示す分子バーコードを有することができる。幾つかの実施形態では、分析されるDNAは単一ソース(例えば、単一の生物、ウイルス、組織、細胞、被験体等)から誘導することができるが、他の実施形態では、核酸サンプルは複数のソースから抽出された核酸のプール(例えば、複数の生物、組織、細胞、被験体等に由来する核酸のプール)とすることができ、ここで「複数」は2つ以上を意味する。そのため幾つかの実施形態では、サンプルは、2以上のソース、3以上のソース、5以上のソース、10以上のソース、50以上のソース、100以上のソース、500以上のソース、1000以上のソース、5000以上のソース、最大で約10000以上を含むソースに由来する核酸を含有することができる。分子バーコードは前記のように分析した後に異なるソース由来の配列を識別することを可能にするものであり得る。
濃縮されたサンプルが得られた後、該サンプルを増幅及びシークエンシングする。幾つかの実施形態では、断片を、例えばIlluminaの可逆ターミネータ法、Rocheのパイロシークエンシング法(454)、Life Technologiesのライゲーションによるシークエンシング(SOLiDプラットホーム)、又はLife Technologiesのイオントレントプラットホームにおける使用に適合したプライマーを用いて増幅する。このような方法の例は以下の参考文献に記載されている:Marguliesら(Nature 2005 437: 376-80);Ronaghi et al (Analytical Biochemistry 1996 242: 84-9);Shendureら(Science 2005 309: 1728-32);Imelfortら(Brief Bioinform. 2009 10:609-18);Foxら(Methods Mol Biol. 2009;553:79-108);Applebyら(Methods Mol Biol. 2009;513:19-39)及びMorozovaら(Genomics. 2008 92:255-64)。これらの文献は各工程についての全ての出発生成物、試薬及び最終生成物を含む、方法及び方法の特定の工程の概要について引用することにより本明細書の一部をなす。
一実施形態では、単離された生成物を、ナノポアシークエンシング(例えば、Soniら2007 Clin. Chem. 53: 1996-2001に記載されるようなもの、又はOxford Nanopore Technologiesに記載されるようなものである)を用いてシークエンシングすることができる。ナノポアシークエンシングはDNAの単一分子をナノポアに通すことで直接シークエンシングする単一分子シークエンシング技術である。ナノポアは直径1ナノメートル程度の小さい穴である。導電性流体中へのナノポアの浸漬及びナノポアに亘る電位(電圧)の印加により、ナノポアを通るイオンの伝導に起因して僅かな電圧が生じる。流れる電流の量はナノポアのサイズ及び形状の影響を受ける。DNA分子がナノポアを通ると、DNA分子上の各ヌクレオチドがナノポアを様々な程度に塞ぎ、ナノポアを通る電流の大きさを様々な程度に変える。そのため、DNA分子がナノポアを通ることによるこの電流の変化はDNA配列の読み取りを表す。ナノポアシークエンシング技術は、米国特許第5795782号明細書、米国特許第6015714号明細書、米国特許第6627067号明細書、米国特許第7238485号及び米国特許第7258838号明細書、並びに米国特許出願第2006003171号明細書及び米国特許出願第20090029477号明細書に開示されている。
幾つかの実施形態では、シークエンシングは、濃縮された領域それぞれについて少なくとも100、少なくとも1000、少なくとも10000、最大100000、又はそれ以上の配列リード102を生ずることができる。配列リード102の長さは、例えば用いられるプラットホームに応じて大きく異なり得る。幾つかの実施形態では、配列リード102の長さは30塩基〜800塩基の範囲とすることができ、幾つかの場合では対となる末端配列リードを含み得る。
図1に示すように、本開示の一態様は、ゲノム位置に配列リードを割り当てるためのコンピュータ実施方法を含む。この方法は、数あるステップの中でも、例えば、前記のようにシークエンシングすることによって、複数の捕捉配列にハイブリダイズすることによって濃縮された核酸サンプルから得られた配列リードを含むファイルにアクセスすること(104)を含む。配列リードを含むファイルは、主題的な方法を実施している同じコンピュータ上に存在する場合があるか、又は別のコンピュータ上、例えば、主題的な方法を実施するコンピュータと通信するように構成されるリモートサーバ上に存在する場合がある。特定の実施形態では、ファイルにアクセスすること(104)は、ファイルの内容、例えば、一度のシークエンシングの実行からの配列リード102が読み出され、ゲノム位置に割り当てることができるようにファイルを開くことを伴う。幾つかの実施形態では、ゲノム位置に割り当てられることになる配列リードは、作業メモリに読み込まれる。
配列リードを含むファイルにアクセスした後に(104)、ゲノム位置に配列リードを割り当てる本方法は、数あるステップの中でも、配列リードが捕捉配列の1つ又は複数の部分配列を含む場合には(110)、捕捉配列をその配列リードと一致するものと特定することを含む。第1のヌクレオシド配列と第2のヌクレオチド配列との間の一致は、一方のヌクレオチド配列が、第2のヌクレオチド配列の部分配列に同一の部分配列、又は、その逆相補配列を含むときに生じる。言い換えると、第1のヌクレオチド配列と第2のヌクレオチド配列とは、第1のヌクレオチド配列が、ヌクレオチドの5’から3’方向において、第2のヌクレオチド配列の部分配列、又はその逆相補配列のヌクレオチドの長さ及び配列とそれぞれ同じ長さ及び同一の順序(例えば、DNAの場合、A、G、T又はC)を有する部分配列を含む場合に一致するものである。任意の適切な方法を用いて、2つのヌクレオチド配列/部分配列間の同一性を判断することができる。
したがって、特定の実施形態では、配列リードが、捕捉配列の部分配列に同一である1つ又は複数の部分配列を含む場合には(110)、捕捉配列は配列リードと一致するものであると特定される。特定の実施形態では、配列リードと一致する捕捉配列の1つ又は複数の部分配列は、長さが5bp〜15bp、又は6bp〜10bpを含む、4bp〜20bp、例えば、4bp〜18bpの範囲にある。特定の実施形態では、捕捉配列は、例えば、3〜25、4〜20、4〜10、又は4〜8の部分配列を含む、3〜30に分割され、配列リードが捕捉配列に一致する場合には、部分配列のうちの1つ又は複数が配列リードに含まれる。したがって、特定の実施形態では、捕捉配列のうちの1つ又は複数の部分配列が、捕捉配列の3〜25、4〜20、4〜10、又は4〜8の部分配列を含む、例えば、3〜30から選択された捕捉配列の部分配列と比較される。
特定の実施形態では、捕捉配列の部分配列は、全捕捉配列に及ぶ。そのような場合に、組み合わせられる全ての部分配列が、全捕捉配列を構成する。幾つかの実施形態では、捕捉配列の部分配列は、部分配列がいずれも捕捉配列の任意の他の部分配列と重なり合わないように、全捕捉配列にわたってタイル張りにされる。幾つかの実施形態では、捕捉配列の部分配列は全捕捉配列に及び、連続した部分配列が1つのヌクレオチドから部分配列の長さまでの範囲内の数だけ互いにオフセットされるように、部分配列はスライディング窓において捕捉配列に沿って分散される。
特定の実施形態では、配列リードの末端領域が捕捉配列の1つ又は複数の部分配列を含む場合には、捕捉配列が配列リードと一致するものであると特定される。特定の実施形態では、捕捉配列の1つ又は複数の部分配列を含む配列リードの末端領域は、配列リードの端部から、10bp〜50bp、12bp〜40bp又は15bp〜30bpを含む、5bp〜100bp、例えば、7bp〜80bpの範囲にある。特定の実施形態では、配列リードの末端領域が、捕捉配列の1つの部分配列に同一である1つ又は複数の部分配列を含む場合には、捕捉配列は配列リードと一致するものであると特定される。
任意の適切な方法を用いて、配列リードが捕捉配列の部分配列に同一である1つ又は複数の部分配列を含むか否かを判断することができる。図2は、本方法の一実施態様を示しており、ゲノム位置に配列リードを割り当てるステップは、データ構造を生成することを含む(205)。データ構造は、最初に、標的核酸を濃縮するために用いられる捕捉配列(201)を含むファイルにアクセスし(203)、捕捉配列を、捕捉配列の部分配列を含む配列キーによってマッピングされた値としてデータ構造内に記憶することによって生成することができる(205)。配列リードの部分配列を含むリード配列キーは、配列リード、例えば、配列リードの末端領域から抽出することができる(206)。そのような場合に、特定するステップは、リード配列キーを用いて捕捉配列を含むデータ構造を探索すること(208)と、配列リードが1つ又は複数の配列キーを含む場合には、捕捉配列のうちの1つ又は複数を配列リードと一致するものであると特定することとを含む(210)。
特定の実施形態では、配列リードが捕捉配列のいずれの部分配列も含まない場合には、捕捉配列は配列リードと一致しない場合がある。そのような場合に、本方法は、捕捉配列の異なる1組の部分配列を用いることによって繰り返すことができるか、又は本方法は、捕捉配列の同じ1組の部分配列を用いて繰り返すことができるが、照合のための判定基準の厳密性を下げることができ、すなわち、捕捉配列の部分配列と配列リードの部分配列との間の100%未満の同一性でも、捕捉配列と配列リードとが一致するものであると見なすことができる。特定の実施形態では、捕捉配列と一致すると特定されなかった配列リードは、更なる解析から破棄される。
図1及び図2に示すように、配列リードと捕捉配列との間の一致が特定された後に(110、210)、一致した各捕捉配列と配列リードとの間の配列類似度を示すスコアが計算される(112、212)。したがって、本開示の更なる態様は、コンピュータを用いて、一致した各捕捉配列と配列リードとの間の配列類似度を示すスコアを計算すること(112、212)を含む。本明細書において用いられるときに、2つの核酸配列の文脈における「配列類似度」又は「類似度」は、配列比較アルゴリズムによって、又は目視検査によって測定されるように、指定された比較窓にわたって最大限に一致するように位置合わせされるときの、2つの配列間の配列同一性の指定された程度を指している。スコアを計算するために用いられるコンピュータは、後に更に詳細に説明されるように、任意の適切なコンピュータとすることができる。
幾つかの実施形態では、配列類似度を示すスコアは、2つの配列間の同一性のパーセンテージ(percentage identity)とすることができる。本明細書にて「配列同一性のパーセンテージ(percentage of sequence identity)」は、2つの最適に位置合わせされた配列を比較窓にわたって比較することによって求められる値を意味しており、2つの配列を最適に位置合わせするための基準配列(それは付加又は欠失を含まない)と比べて、その比較窓内のポリヌクレオチド配列の部分は、付加又は欠失(すなわち、間隙)を含む場合がある。パーセンテージは、両方の配列において同一の核酸塩基が生じる位置の数を特定し、一致した位置の数を求め、一致した位置の数を比較窓内の全位置数で割って、その結果に100を掛けて、配列同一性のパーセンテージを求めることによって計算される。
比較のために配列を位置合わせする任意の適切な方法を利用することができる。したがって、任意の2つの配列間のパーセント同一性の決定は、数学的アルゴリズムを用いて成し遂げることができる。そのような数学的アルゴリズムの、限定はしないが、好ましい例は、全体を引用することにより本明細書の一部をなすものとするMyers及びMillerのCABIOS, 4:11 (1988)のアルゴリズム、全体を引用することにより本明細書の一部をなすものとするSmithらのAdv. Appl. Math., 2:482 (1981)の局所的相同性(local homology)アルゴリズム、全体を引用することにより本明細書の一部をなすものとするNeedleman及びWunsch(JMB, 48:443 (1970))の相同性整列(homology alignment)アルゴリズム、全体を引用することにより本明細書の一部をなすものとするPearson及びLipmanのProc. Natl. Acad. Sci. USA, 85:2444 (1988)の類似性探索法(search-for-similarity-method)、全体を引用することにより本明細書の一部をなすものとするKarlin及びAltschulのProc. Natl. Acad. Sci. USA, 87:2264 (1990)のアルゴリズム、全体を引用することにより本明細書の一部をなすものとするKarlin及びAltschulのProc. Natl. Acad. Sci. USA, 90:5873 (1993)の修正版である。
特定の実施形態では、一致した各捕捉配列と配列リードとの間の配列類似度を示すスコアは、一致した捕捉配列と配列リードとの間の配列同一性の長さ、一致した捕捉配列と配列リードとの間の文字列編集距離、各不一致の配列リード内位置又はその組み合わせに基づく。したがって、特定の実施形態では、一致した各捕捉配列と配列リードとの間の配列類似度を示すスコアは、重み付けされたスコアであり、そのスコアは、一致した捕捉配列と配列リードとの間の配列同一性の長さを表す値に基づき、その値は、一致した捕捉配列と配列リードとの間の文字列編集距離、各不一致の配列リード内位置、又はその組み合わせによって重み付けされる。場合によっては、重み付けは、一致した捕捉配列と配列リードとの間の配列同一性の長さから、文字列編集距離を減算することを含む。場合によっては、重み付けは、配列リードの始点に向かう不一致を、配列リードの終点に向かう不一致より重く重み付けすることを伴う。
しきい値より高い計算スコアを有する一致した捕捉配列を特定すると(120、220)、図1及び図2に示すように、捕捉配列に配列リードを割り当てることができる(122、222)。したがって、本開示の更なる態様は、一致した捕捉配列のための計算スコアがしきい値より高い場合には、ゲノム位置に配列リードを割り当てることを含む。特定の実施形態では、割り当てること(122、222)は、データ構造、例えば、テーブルにおいて、配列リードを、しきい値より高い配列類似度計算スコアを有する一致した捕捉配列と関連付けることと、そのデータ構造をメモリに、例えば、メモリ内のコンピュータファイルに書き込むこととを伴う。特定の実施形態では、しきい値より高い配列類似度計算スコアを有する全ての一致した捕捉配列に配列リードが割り当てられる。特定の実施形態では、その配列類似度計算スコアが配列リードの他の全ての一致した捕捉配列に対する配列類似度計算スコアより高い一致した捕捉配列に配列リードが割り当てられる。特定の実施形態では、その配列類似度計算スコアがしきい値より高く、かつ配列リードの他の全ての一致した捕捉配列に対する配列類似度計算スコアより高い一致した捕捉配列に配列リードが割り当てられる。
特定の実施形態では、本開示の方法は割り当てるステップを含み、割り当てるステップは、一致した全ての捕捉配列の中で最も高い計算スコアを有する一致した捕捉配列を最大に一致するものであると特定することと、その配列リードを、最大一致捕捉配列に一致する1組の特有配列リードに追加することによって、ゲノム位置に配列リードを割り当てることとを更に含み、その1組内の各特有配列リードは、その1組内の他の全ての配列リードの部分配列に同一である部分配列を含む。そのような場合に、割り当ての品質は、同じ組に属する全ての配列リードの中の最も高い計算スコアによって表すことができる。特定の実施形態では、割り当ての品質は、同じ組に属する全ての配列リードの計算スコアの平均によって表すことができる。幾つかの実施形態では、その1組内の他の全ての配列リードの部分配列に同一である部分配列はバーコード配列とすることができる。したがって、同じ捕捉配列に割り当てられ、同一のバーコード配列を有する配列リードは、同じ断片化されたゲノム断片から導出されたDNAの増幅された断片を表す可能性が高い。特定の実施形態では、その方法は、捕捉配列に割り当てられた特有配列リードの組数をカウントすることを更に含む。
特定の実施形態では、一致した捕捉配列のための計算スコアがいずれもしきい値を超えない場合には、いかなるゲノム位置又は捕捉配列にも割り当てられないように、配列リードが注釈を付される。特定の実施形態では、一致した捕捉配列のための計算スコアがいずれもしきい値を超えない配列は、代替の方法によって更に処理されるように注釈を付される。
幾つかの実施形態では、配列リードのための一致した捕捉配列の配列類似度スコアが比較されるしきい値は、所定の定数値である。特定の実施形態では、配列リードのための一致した捕捉配列の配列類似度スコアが比較されるしきい値は、ユーザが与えることができる。特定の実施形態では、配列リードのための一致した捕捉配列の配列類似度スコアが比較されるしきい値は、配列リードの品質に基づいて決定される。
特定の実施形態では、その方法は複数の配列リードに関して実行され、それにより、ゲノム位置に複数の配列リードが割り当てられる。複数の配列リードは、例えば、単一のプロセッサ上で順次に割り当てられる場合があるか、又は複数の配列リードは、主題的な方法によって並列に、例えば、複数のプロセッサ上で同時に割り当てられる場合があるか、又は両方の組み合わせが行われる場合がある。その方法は、一度のシークエンシングの実行からの全ての配列リードに関して(102、202)、又は複数のシークエンシングの実行からの全ての配列リードに関して(102、202)、又は1つ又は複数のシークエンシングの実行からの配列リード102、202の一部に関して実行される場合がある。
前記の方法はコンピュータ上で実施することができる。特定の実施形態では、本明細書において開示される方法及びプログラムのための機能的な構成に合わせて汎用コンピュータを構成することができる。そのようなコンピュータのハードウェアアーキテクチャは、当業者によってよく知られており、1つ又は複数のプロセッサ(CPU)、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、内部又は外部データ記憶媒体(例えば、ハードディスクドライブ)を含むハードウェア構成要素を備えることができる。また、コンピュータシステムは、グラフィカル情報を処理し、表示手段に出力するための1つ又は複数のグラフィックボードも備えることができる。前記の構成要素は、コンピュータ内のバスを介して適切に相互接続することができる。コンピュータは、モニタ、キーボード、マウス、ネットワーク等の汎用外部構成要素と通信するのに適したインターフェースを更に備えることができる。幾つかの実施形態では、そのコンピュータは、並列処理することができるか、並列又は機能分散コンピューティングのために構成されたネットワークの一部とすることができ、本方法及びプログラムための処理能力を高める。幾つかの実施形態では、記憶媒体から読み出されたプログラムコードは、コンピュータに挿入される拡張ボード、又はコンピュータに接続される拡張ユニット内に設けられるメモリに書き込むことができ、拡張ボード又は拡張ユニット内に設けられるCPU等が、以下に説明される機能を成し遂げるように、そのプログラムコードの命令による演算の一部又は全てを実際に実行することができる。他の実施形態では、その方法は、クラウドコンピューティングシステムを用いて実行することができる。これらの実施形態では、データファイル及びプログラミングをクラウドコンピュータにエクスポートすることができ、クラウドコンピュータがプログラムを実行し、ユーザに出力を返す。
特定の実施形態では、システムがコンピュータを備えることができ、コンピュータは、a)中央処理ユニットと、b)ソフトウェア及びデータを記憶するための主不揮発性記憶ドライブであって、1つ又は複数のハードドライブを含むことができ、その記憶ドライブはディスクコントローラによって制御される、主不揮発性記憶ドライブと、c)不揮発性記憶ドライブからロードされるプログラム及びデータを含む、システム制御プログラム、データ、及びアプリケーションプログラムを記憶するためのシステムメモリ、例えば、高速ランダムアクセスメモリ(RAM)であって、システムメモリはリードオンリーメモリ(ROM)を含むこともできる、システムメモリと、d)マウス、キーパッド及びディスプレイのような、1つ又は複数の入力デバイス及び出力デバイスを含む、ユーザインターフェースと、e)任意の有線又は無線通信ネットワークに接続するためのオプションのネットワークインターフェースカード、例えば、プリンタと、f)システムの前記の要素を相互接続するための内部バスとを含む。
コンピュータシステムのメモリは、プロセッサによって検索するための情報を記憶することができる任意のデバイスとすることができ、磁気若しくは光デバイス、又は固体メモリデバイス(揮発性又は不揮発性RAM等)を含むことができる。メモリ又はメモリユニットは、同じタイプ又は異なるタイプの2つ以上の物理メモリデバイスを有することができる(例えば、メモリは、複数のドライブ、カード、若しくは複数の固体メモリデバイス、又はその幾つかの組み合わせのような、複数のメモリデバイスを有することができる)。コンピュータ可読媒体に関して、「永久メモリ」は、永久であるメモリを指している。永久メモリは、コンピュータ又はプロセッサへの電源供給が終了しても消去されない。コンピュータハードドライブROM(すなわち、仮想メモリとして使用されないROM)、CD−ROM、フロッピー(登録商標)ディスク及びDVDは全て、永久メモリの例である。ランダムアクセスメモリ(RAM)は、非永久(すなわち、揮発性)メモリの一例である。永久メモリ内のファイルは編集可能及び書換え可能とすることができる。
コンピュータの動作は、主にオペレーティングシステムによって制御され、オペレーティングシステムは中央処理ユニットによって実行される。オペレーティングシステムはシステムメモリに記憶することができる。幾つかの実施形態では、オペレーティングシステムはファイルシステムを含む。オペレーティングシステムに加えて、システムメモリの1つの取り得る実施態様は、以下に説明される方法を実施するための種々のプログラミングファイル及びデータファイルを含む。特定の場合では、プログラミングは、種々のモジュールから構成することができるプログラムと、ユーザがプログラムによって用いられるパラメータへの入力を手動で選択できるようにするか、又はパラメータを変更できるようにするユーザインターフェースモジュールとを含むことができる。データファイルはプログラムのための種々の入力を含み得る。
特定の実施形態では、本明細書において記述される方法による命令は、「プログラミング」の形でコンピュータ可読媒体上にコード化することができ、本明細書において用いられるときに、「コンピュータ可読媒体」という用語は、実行及び/又は処理するためにコンピュータに命令及び/又はデータを与えることに関与する任意の記憶媒体又は伝送媒体を指している。記憶媒体の例は、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、磁気光ディスク、CD−ROM、CD−R、磁気テープ、不揮発性メモリカード、ROM、DVD−ROM、ブルーレイディスク、固体ディスク、及びネットワークアタッチトストレージ(NAS)を含み、そのようなデバイスはコンピュータの内部にあるか、又は外部にある。情報を含むファイルは、コンピュータ可読媒体上に「記憶する」ことができ、ただし、「記憶する」とは、情報がコンピュータによって後の時点でアクセス可能かつ検索可能であるように、情報を記録することを意味する。
本明細書にて記述されるコンピュータ実施方法は、任意の数のコンピュータプログラミング言語のうちの1つ又は複数において書くことができるプログラムを用いて実行することができる。そのような言語は、例えば、Java(登録商標)(Sun Microsystems, Inc., Santa Clara, CA)、ビジュアルベーシック(Microsoft Corp., Redmond, WA)及びC++(AT&T Corp., Bedminster, NJ)、及び任意の数多くの他の言語を含む。
任意の実施形態において、データは「遠隔地」に転送することができ、この「遠隔地」とは、プログラムが実行される場所以外の場所を意味する。例えば、遠隔地は、同じ都市の別の場所(例えば、事務所、研究室等)、異なる都市の別の場所、異なる州の別の場所、異なる国の別の場所等とすることができる。その場合に、1つの物品が別の物品から「遠隔している」として示されるとき、それは、2つの物品が同じ部屋にあるが、離れている可能性があるか、少なくとも異なる部屋又は異なる建物内にある可能性があり、少なくとも1マイル、10マイル、又は少なくとも100マイル離れている可能性があることを意味する。情報を「通信すること」は、適切な通信チャネル(例えば、私設網又は公衆網)を介して、その情報を表すデータを電気信号として送信することを指している。物品を「転送すること」は、その物品を物理的に輸送することによって、又は別の方法で(それが可能である場合)、1つの場所から次の場所にその物品を運ぶ任意の手段を指しており、少なくともデータの場合、データを収容する媒体を物理的に輸送すること、又はデータを通信することを含む。通信媒体の例は、無線若しくは赤外線伝送チャネル、及び別のコンピュータ又はネットワークデバイスへのネットワーク接続と、電子メール送信及びウェブサイト等に記録された情報を含むインターネット(internet or including)とを含む。
幾つかの実施形態は、単一のコンピュータ上での実施態様、コンピュータのネットワークを介しての実施態様、複数のコンピュータネットワーク、例えば、ネットワーククラウドを介しての実施態様、ローカルエリアネットワークを介しての実施態様、ハンドヘルドコンピュータデバイス上での実施態様等を含む。特定の実施形態では、本明細書に記載のステップのうちの1つ又は複数が、コンピュータプログラム(複数の場合もある)において実施される。そのようなコンピュータプログラムは、本明細書において説明されるステップのうちの1つ又は複数を実行する。幾つかの実施形態では、主題的な方法の実施態様は、コンピュータ可読媒体(複数の場合もある)上に符号化され、通信ネットワーク(複数の場合もある)を介して送信可能な、本明細書において説明される種々のデータ構造、カテゴリ及び変更子(modifier)を含む。
本発明のソフトウェア、ウェブ、インターネット、クラウド、又は他のストレージ及びコンピュータネットワークの実施態様は、種々の割り当てるステップ、計算するステップ、特定するステップ、スコアを計算するステップ、アクセスするステップ、生成するステップ、及び破棄するステップを成し遂げる標準的なプログラミング技法を用いて成し遂げることができる。
特定の実施形態では、本開示のコンピュータ実施方法は、前記のように、配列リード割り当てプログラムにコード化される。したがって、本明細書において、ゲノム位置に配列リードを割り当てるための方法が提供され、その方法は、1組の捕捉配列内の複数の捕捉配列にハイブリダイズすることによって核酸サンプルを濃縮するために使用される1組の捕捉配列を、前記のような、配列リード割り当てプログラムを含むコンピュータシステムに入力することであって、配列リード割り当てプログラムは配列リードを含むファイルにアクセスするための命令を含み、配列リードは濃縮された核酸サンプルから得られる、入力することと、配列リードが捕捉配列の1つ又は複数の部分配列を含む場合には、捕捉配列を配列リードと一致するものと特定し、コンピュータを用いて、一致した各捕捉配列と配列リードとの間の配列類似度を示すスコアを計算し、一致した捕捉配列のための計算されたスコアがしきい値より高い場合には、ゲノム位置に配列リードを割り当てることによって、ゲノム位置に配列リードを割り当てることと、配列リードを含むファイルを配列リード割り当てプログラムに入力することと、配列リード割り当てプログラムを実行することとを伴う。幾つかの実施形態では、配列リード割り当てプログラムは、配列リード102、202及び捕捉配列を含むファイルも記憶するローカルコンピュータ上で実行することができる。特定の実施形態では、配列リード割り当てプログラムは、遠隔地、例えば、リモートサーバにおいて実行することができ、配列リード102、202及び捕捉配列を含むファイルも1つ又は複数の遠隔地に記憶することができる。そのような場合に、入力することは、配列リード102、202及び捕捉配列を含むファイルが記憶される1つ又は複数の遠隔地をローカルコンピュータ上で入力することと、この位置情報を、配列リード割り当てプログラムが実行される遠隔地に送信することとを伴うことができる。
主題的な方法の1つの実施態様を以下に説明する。標的濃縮キットは、ゲノムの標的領域内に位置するDNA断片に選択的にハイブリダイズする1組の捕捉プローブによって規定される。捕捉されたDNA断片のみが増幅され、配列リードを生成することができる。
ゲノム領域に配列リードを割り当てる方法は、以下を含む。
・標的濃縮設計のプローブから全ての捕捉配列と、それらの捕捉配列が一致するように設計されたゲノム位置とを読み取る。
・それらのプローブによって捕捉された一致するリードが示す必要がある短鎖DNA部分配列を鍵として、これらのプローブの幾つかの高速アクセステーブルを構築する。DNA断片が、捕捉領域がそのために設計された基準配列とわずかに異なる配列(ゲノム変異体)を有する場合には、リードから計算された鍵のうちの幾つかが一致しないが、他の鍵は一致するように、異なるテーブルは捕捉領域の異なる部分配列を使用している。
・シークエンシング実行からのリード(又はリード対)ごとに:
i)関連するテーブル内のプローブのうちの1つ又は複数と一致することが予想される1組の短鎖部分配列キー(a set of short of subsequences keys)を抽出する。
ii)一致の生化学的有効性を評価することによって、リードと各プローブとの間の一致の品質のスコアを計算する。例えば、不一致塩基の数が増えるにつれて、リードとプローブの捕捉ゾーンとの間の一致が減少し、リードの始点に向かう不一致が、より顕著な効果を有する場合には、スコアは、一致する配列の長さから、リードとプローブ一致ゾーンとの間の文字列編集距離を減算し、第1の不一致の指標(又は不一致がない場合には、その配列の全長)を加算した値とすることができる。
iii)リードを、もしあるなら、所与のしきい値より高いスコア一致を有する全てのプローブIDでタグ付けする。
iv)しきい値より高いプローブが一致しない場合には、拡張照合処理を適用する。これは、頻繁には呼び出されることにならない1組のアルゴリズムであり、可能性が低いが(起こり得る)リード誤差、及び生物学的に許される場合のマルチプローブ照合のような、極めて稀な照合状況をモデル化しようと試みる(時間及びメモリに関して)高価な方法を使用することができる。
v)絶対に一致しないことを認識できる場合には、他の手段によって更に処理されるリードとして別の出力ファイルに書き込む。
・この時点で以下のいずれかである。
i)タグ付けされたリードを出力ファイル又はストリームに書き込む。
ii)最大プローブ一致と一致する1組の特有リードに追加する。特有とは、1組のリード配列(又は配列対)と、もしあるなら、分子バーコード配列とが特有であることを意味する。その1組が、1組のリード及びバーコードのためのエントリを既に有する場合には、その特定の1組の配列の場合に見られる最高品質を記憶するように、2つのリードの品質値を統合する。
・リードがプローブ配列によって記憶された場合には、大きな1組のリード又は全てのリードを処理した後に(通常、メモリがフルである場合には、メモリをアンロードするために中断する)、プローブIDあたり1組の特有のリード/バーコードを出力ファイルに書き込むか、又はデータ構造を更なる処理、例えば、バリアントコーリングのための別のモジュールに渡す。
・先行するステップにおいて生成された幾つかの中間ファイルのデータ(data generated several intermediate files)を処理する場合には、プローブIDによって先行するファイルを統合し、プローブファイルごとに包括的なリードを書き込む。エンジニアリンググレードのコンピュータ(16GB以上のRAM)の場合、一度の実行で非常に大きなデータセットを最も大きな1組のプローブと一致させることができ、後に統合される必要がある中間ファイル(intermediate files than need to be merged afterwards)を書き込む必要はない。
・標的濃縮設計のプローブから全ての捕捉配列と、それらの捕捉配列が一致するように設計されたゲノム位置とを読み取る。
・それらのプローブによって捕捉された一致するリードが示す必要がある短鎖DNA部分配列を鍵として、これらのプローブの幾つかの高速アクセステーブルを構築する。DNA断片が、捕捉領域がそのために設計された基準配列とわずかに異なる配列(ゲノム変異体)を有する場合には、リードから計算された鍵のうちの幾つかが一致しないが、他の鍵は一致するように、異なるテーブルは捕捉領域の異なる部分配列を使用している。
・シークエンシング実行からのリード(又はリード対)ごとに:
i)関連するテーブル内のプローブのうちの1つ又は複数と一致することが予想される1組の短鎖部分配列キー(a set of short of subsequences keys)を抽出する。
ii)一致の生化学的有効性を評価することによって、リードと各プローブとの間の一致の品質のスコアを計算する。例えば、不一致塩基の数が増えるにつれて、リードとプローブの捕捉ゾーンとの間の一致が減少し、リードの始点に向かう不一致が、より顕著な効果を有する場合には、スコアは、一致する配列の長さから、リードとプローブ一致ゾーンとの間の文字列編集距離を減算し、第1の不一致の指標(又は不一致がない場合には、その配列の全長)を加算した値とすることができる。
iii)リードを、もしあるなら、所与のしきい値より高いスコア一致を有する全てのプローブIDでタグ付けする。
iv)しきい値より高いプローブが一致しない場合には、拡張照合処理を適用する。これは、頻繁には呼び出されることにならない1組のアルゴリズムであり、可能性が低いが(起こり得る)リード誤差、及び生物学的に許される場合のマルチプローブ照合のような、極めて稀な照合状況をモデル化しようと試みる(時間及びメモリに関して)高価な方法を使用することができる。
v)絶対に一致しないことを認識できる場合には、他の手段によって更に処理されるリードとして別の出力ファイルに書き込む。
・この時点で以下のいずれかである。
i)タグ付けされたリードを出力ファイル又はストリームに書き込む。
ii)最大プローブ一致と一致する1組の特有リードに追加する。特有とは、1組のリード配列(又は配列対)と、もしあるなら、分子バーコード配列とが特有であることを意味する。その1組が、1組のリード及びバーコードのためのエントリを既に有する場合には、その特定の1組の配列の場合に見られる最高品質を記憶するように、2つのリードの品質値を統合する。
・リードがプローブ配列によって記憶された場合には、大きな1組のリード又は全てのリードを処理した後に(通常、メモリがフルである場合には、メモリをアンロードするために中断する)、プローブIDあたり1組の特有のリード/バーコードを出力ファイルに書き込むか、又はデータ構造を更なる処理、例えば、バリアントコーリングのための別のモジュールに渡す。
・先行するステップにおいて生成された幾つかの中間ファイルのデータ(data generated several intermediate files)を処理する場合には、プローブIDによって先行するファイルを統合し、プローブファイルごとに包括的なリードを書き込む。エンジニアリンググレードのコンピュータ(16GB以上のRAM)の場合、一度の実行で非常に大きなデータセットを最も大きな1組のプローブと一致させることができ、後に統合される必要がある中間ファイル(intermediate files than need to be merged afterwards)を書き込む必要はない。
[有用性]
本方法及び本明細書で開示される方法のソフトウェアの実行は、様々な配列解析用途に、例えば濃縮されたゲノムサンプルから得られた配列リードを基準ゲノムにマッピングするのに有用である。本明細書に記載の方法は、配列リードを生成するのに用いられる標的濃縮パネルの設計から入手可能な更なる情報を利用するものであることから、ゲノム位置のタグ付けの計算時間を約10分の1(a factor of 10)に短縮することができ、そうでなければ配列リードの2%〜3%で起こるとされる、実験設計に不適合な位置へのタグ付けを避けることができる。
本方法及び本明細書で開示される方法のソフトウェアの実行は、様々な配列解析用途に、例えば濃縮されたゲノムサンプルから得られた配列リードを基準ゲノムにマッピングするのに有用である。本明細書に記載の方法は、配列リードを生成するのに用いられる標的濃縮パネルの設計から入手可能な更なる情報を利用するものであることから、ゲノム位置のタグ付けの計算時間を約10分の1(a factor of 10)に短縮することができ、そうでなければ配列リードの2%〜3%で起こるとされる、実験設計に不適合な位置へのタグ付けを避けることができる。
割り当てられた配列リードを用いることで、任意の考えられる変異体を含む固有のゲノム断片にそれぞれ対応する複数の個別の配列を、多種多様な方法を用いてまとめることができる。割り当てられた配列リードは、任意の好適な方法を用いてまとめることができ、その方法の基本工程は、これらの方法の開示について全て引用することにより本明細書の一部をなす、Myersら(Science 2000 287: 2196-204)、Batzoglouら(Genome Research 2002 12: 177-89)、Dohmら(Genome Research 2007 17 : 1697-706)、及びBoisvertら(Journal of Computational Biology 2010 17: 1519-33)等の多様な刊行物において記載されている。濃縮された領域それぞれについて、割り当てられた配列リードをまとめることで、特定の位置にヌクレオチド変異(例えば、置換、挿入又は欠失)を有する配列リードを同定するために試験される単一のパイルアップ(pile-up)を生成することができる。割り当てられた配列リードは各リードを基準配列、例えば基準ゲノムにアラインすることによってもまとめることができる。
本開示の方法は患者から得られた生体サンプル、例えば生検材料から誘導される配列リードに対して使用できる。例えば、本方法はゲノム遺伝子座の野生型コピーとゲノム遺伝子座の野生型コピーに対する点突然変異を有するゲノム遺伝子座の突然変異型コピーとの両方を含有する生体サンプルにあるゲノム遺伝子座の突然変異型コピーの量を特定及び/又は推定するためにシークエンシングプロトコルのパイプラインの一部として用いることができる。この例では、サンプルはゲノム遺伝子座の突然変異型コピーよりも少なくとも100倍(例えば、少なくとも1000倍、少なくとも5000倍、少なくとも10000倍、少なくとも50000倍又は少なくとも100000倍)多いゲノム遺伝子座の野生型コピーを含有し得る。
本方法は、例えば、PIK3CA、NRAS、KRAS、JAK2、HRAS、FGFR3、FGFR1、EGFR、CDK4、BRAF、RET、PGDFRA、KIT又はERBB2における癌遺伝子の突然変異(体細胞突然変異であり得る)を検出するために濃縮された核酸由来の配列リードをマッピングするのにも有用であり、その突然変異は、乳癌、黒色腫、腎臓癌、子宮内膜癌、卵巣癌、膵臓癌、白血病、大腸癌、前立腺癌、中皮腫、神経膠腫、髄芽腫(medullobastoma)、多血症、リンパ腫、肉腫又は多発性骨髄腫に関連し得る(例えば、Chial Proto-oncogenes to oncogenes to cancer. Nature Education 2008 1:1参照)。
本明細書に引用される全ての刊行物及び特許出願は、引用することによりその全ての開示を本出願に組み込む。いずれの刊行物の引用も、出願日前のその開示に関するものであり、本発明が先行発明を理由としてかかる刊行物に先行する権利がないことを承認するものと解釈すべきではない。
Claims (10)
- ゲノム位置に配列リードを割り当てるためのコンピュータ実施方法であって、
a)配列リードを含むファイルにアクセスするステップであって、該配列リードを、複数の捕捉配列にハイブリダイズすることによって濃縮された核酸サンプルから得る、ステップと、
b)前記ゲノム位置に前記配列リードを割り当てるステップであって、
i)前記配列リードが捕捉配列の1つ又は複数の部分配列を含む場合には、該捕捉配列を前記配列リードと一致するものであると特定し、
ii)コンピュータを用いて、前記一致した捕捉配列のそれぞれと前記配列リードとの間の配列類似度を示すスコアを計算し、
iii)一致した捕捉配列のための前記計算されたスコアがしきい値より高い場合には、ゲノム位置に前記配列リードを割り当てることによって、該ゲノム位置に前記配列リードを割り当てるステップと、
を含む、ゲノム位置に配列リードを割り当てるためのコンピュータ実施方法。 - 前記特定するステップi)は、前記配列リードの末端領域が前記捕捉配列の1つ又は複数の部分配列を含む場合に、前記捕捉配列のうちの1つ又は複数を前記配列リードと一致するものであると特定するステップを含み、前記末端領域は、任意選択的に、前記配列リードの端部から10bp(塩基対)〜50bpの範囲内にあり、及び/又は
前記特定するステップi)は、データ構造を生成するステップを更に含み、前記捕捉配列は、前記捕捉配列の部分配列を含む配列キーによってマッピングされる値として前記データ構造内に記憶され、前記特定するステップは、前記配列リードが1つ又は複数の配列キーを含む場合に、前記捕捉配列のうちの1つ又は複数を前記配列リードと一致するものであると特定するステップを含む、請求項1に記載の方法。 - 前記1つ又は複数の部分配列は、長さが5bp〜15bpの範囲にあり、及び/又は
前記捕捉配列の前記1つ又は複数の部分配列は、前記捕捉配列の4〜20の部分配列から選択され、前記部分配列は任意選択的に全捕捉配列にわたってタイル張りされる、請求項1又は2に記載の方法。 - 前記計算されたスコアは、前記一致した捕捉配列と前記配列リードとの間の配列同一性の長さ、前記一致した捕捉配列と前記配列リードとの間の文字列編集距離、前記各不一致の前記配列リード内の位置、又はその組み合わせに基づいて計算される、請求項1〜3のいずれか一項に記載の方法。
- 前記濃縮されたサンプルは、断片化されたゲノム核酸の増幅された複製であり、該断片化されたゲノム核酸は前記複数の捕捉配列にハイブリダイズすることによって濃縮され、前記断片化されたゲノム核酸は、任意選択的に、ゲノム核酸を所定の部位において酵素的に切断することによって断片化される、請求項1〜4のいずれか一項に記載の方法。
- 該方法は複数の配列リードに関して実行され、それにより、複数のゲノム位置に複数の配列リードを割り当てる、請求項1〜5のいずれか一項に記載の方法。
- 前記割り当てるステップb)は、
iv)前記一致した捕捉配列の全ての中の最も高い計算スコアを有する一致した捕捉配列を最大に一致するものであると特定するステップと、
v)前記配列リードを、前記最大に一致した捕捉配列に一致する1組の特有配列リードに追加することによって、前記ゲノム位置に前記配列リードを割り当てるステップであって、前記1組内の各特有配列リードは前記1組内の他の全ての配列リードの部分配列に同一である部分配列を含む、割り当てるステップと
を更に含み、
前記割り当てるステップは、任意選択的に、配列リードが前記捕捉配列のいかなる部分配列も含まない場合には、該配列リードを破棄するステップを含む、請求項1〜6のいずれか一項に記載の方法。 - 前記1組内の他の全ての配列リードの部分配列に同一である前記部分配列はバーコード配列であり、任意選択的に、捕捉配列に割り当てられた特有配列リードの組数をカウントするステップを更に含む、請求項7に記載の方法。
- ゲノム位置に配列リードを割り当てるための方法であって、
a)1組の捕捉配列内の複数の捕捉配列にハイブリダイズすることによって核酸サンプルを濃縮するために用いられる前記1組の捕捉配列を、配列リード割り当てプログラムを備えるコンピュータシステムに入力するステップであって、該配列リード割り当てプログラムは、
i)配列リードを含むファイルにアクセスするための命令であって、該配列リードは前記濃縮された核酸サンプルから得られる、アクセスするための命令と、
ii)前記配列リードが捕捉配列の1つ又は複数の部分配列を含む場合には、該捕捉配列を前記配列リードと一致するものであると特定し、
コンピュータを用いて、前記一致した捕捉配列のそれぞれと前記配列リードとの間の配列類似度を示すスコアを計算し、
一致した捕捉配列のための前記計算されたスコアがしきい値より高い場合には、ゲノム位置に前記配列リードを割り当てることによって、該ゲノム位置に前記配列リードを割り当てるための命令とを含む、入力するステップと、
b)前記配列リードを含むファイルを前記配列リード割り当てプログラムに入力するステップと、
c)前記配列リード割り当てプログラムを実行するステップと、
を含む、ゲノム位置に配列リードを割り当てるための方法。 - 配列リード割り当てプログラムを含むコンピュータ可読記憶媒体であって、該配列リード割り当てプログラムは、
a)配列リードを含むファイルにアクセスするための命令であって、該配列リードは複数の捕捉配列にハイブリダイズすることによって濃縮された核酸サンプルから得られる、アクセスするための命令と、
b)前記ゲノム位置に前記配列リードを割り当てるための命令であって、
i)前記配列リードが捕捉配列の1つ又は複数の部分配列を含む場合には、該捕捉配列を前記配列リードと一致するものであると特定し、
ii)コンピュータを用いて、前記一致した捕捉配列のそれぞれと前記配列リードとの間の配列類似度を示すスコアを計算し、
iii)一致した捕捉配列のための前記計算されたスコアがしきい値より高い場合には、ゲノム位置に前記配列リードを割り当てることによって、前記ゲノム位置に前記配列リードを割り当てるための命令と、
を含む、配列リード割り当てプログラムを含むコンピュータ可読記憶媒体。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US14/533,743 US20160125130A1 (en) | 2014-11-05 | 2014-11-05 | Method for assigning target-enriched sequence reads to a genomic location |
| US14/533,743 | 2014-11-05 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2016103999A true JP2016103999A (ja) | 2016-06-09 |
Family
ID=54477859
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2015215807A Pending JP2016103999A (ja) | 2014-11-05 | 2015-11-02 | ゲノム位置に標的濃縮配列リードを割り当てるための方法 |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US20160125130A1 (ja) |
| EP (1) | EP3018604B1 (ja) |
| JP (1) | JP2016103999A (ja) |
| CN (1) | CN105574360A (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2019022019A1 (ja) * | 2017-07-24 | 2019-01-31 | 国立研究開発法人農業・食品産業技術総合研究機構 | 挿入・欠失・逆位・転座・置換検出法 |
Families Citing this family (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN107273204B (zh) * | 2016-04-08 | 2020-10-09 | 华为技术有限公司 | 用于基因分析的资源分配方法和装置 |
| PE20191058A1 (es) * | 2016-10-11 | 2019-08-06 | Genomsys Sa | Metodo y sistema para el acceso selectivo de datos bioinformaticos almacenados o transmitidos |
| CA3082232C (en) | 2017-11-10 | 2022-12-06 | Zte Corporation | Grouping and use of short sequence signals in digital wireless communications |
| JP7562426B2 (ja) * | 2018-10-31 | 2024-10-07 | イルミナ インコーポレイテッド | 配列決定リードのグルーピングおよびコラプシングのためのシステムおよび方法 |
| EP3693970A1 (en) * | 2019-02-07 | 2020-08-12 | BVBA Biostrand | Biological sequence information handling |
| EP4103736A4 (en) * | 2020-02-11 | 2023-12-06 | Dhristi Inc. | Systems and methods for predictive molecular biomarker identification and quantification from morphology changes in histopathology tissue |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2011067378A1 (en) * | 2009-12-03 | 2011-06-09 | Olink Genomics Ab | Method for amplification of target nucleic acid |
| WO2013164319A1 (en) * | 2012-04-30 | 2013-11-07 | Qiagen Gmbh | Targeted dna enrichment and sequencing |
| WO2014083023A1 (en) * | 2012-11-29 | 2014-06-05 | Roche Diagnostics Gmbh | Accurate and fast mapping of targeted sequencing reads |
| US20140274741A1 (en) * | 2013-03-15 | 2014-09-18 | The Translational Genomics Research Institute | Methods to capture and sequence large fragments of dna and diagnostic methods for neuromuscular disease |
Family Cites Families (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5795782A (en) | 1995-03-17 | 1998-08-18 | President & Fellows Of Harvard College | Characterization of individual polymer molecules based on monomer-interface interactions |
| WO2000078668A1 (en) | 1999-06-22 | 2000-12-28 | President And Fellows Of Harvard College | Control of solid state dimensional features |
| US7258838B2 (en) | 1999-06-22 | 2007-08-21 | President And Fellows Of Harvard College | Solid state molecular probe device |
| US7211384B2 (en) | 2003-05-28 | 2007-05-01 | Agilent Technologies, Inc. | Comparative genomic hybridization assays using immobilized oligonucleotide targets with initially small sample sizes and compositions for practicing the same |
| WO2006028508A2 (en) | 2004-03-23 | 2006-03-16 | President And Fellows Of Harvard College | Methods and apparatus for characterizing polynucleotides |
| JP4533015B2 (ja) | 2004-06-15 | 2010-08-25 | キヤノン株式会社 | 化合物及びそれを用いた有機エレクトロルミネッセンス素子 |
| CN101103357B (zh) | 2004-08-13 | 2012-10-03 | 哈佛学院院长等 | 超高处理量光学-纳米孔dna读出平台 |
| US9080211B2 (en) | 2008-10-24 | 2015-07-14 | Epicentre Technologies Corporation | Transposon end compositions and methods for modifying nucleic acids |
| US20100331204A1 (en) * | 2009-02-13 | 2010-12-30 | Jeff Jeddeloh | Methods and systems for enrichment of target genomic sequences |
-
2014
- 2014-11-05 US US14/533,743 patent/US20160125130A1/en not_active Abandoned
-
2015
- 2015-11-02 JP JP2015215807A patent/JP2016103999A/ja active Pending
- 2015-11-02 EP EP15192572.4A patent/EP3018604B1/en active Active
- 2015-11-04 CN CN201510742430.5A patent/CN105574360A/zh active Pending
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2011067378A1 (en) * | 2009-12-03 | 2011-06-09 | Olink Genomics Ab | Method for amplification of target nucleic acid |
| WO2013164319A1 (en) * | 2012-04-30 | 2013-11-07 | Qiagen Gmbh | Targeted dna enrichment and sequencing |
| WO2014083023A1 (en) * | 2012-11-29 | 2014-06-05 | Roche Diagnostics Gmbh | Accurate and fast mapping of targeted sequencing reads |
| US20140274741A1 (en) * | 2013-03-15 | 2014-09-18 | The Translational Genomics Research Institute | Methods to capture and sequence large fragments of dna and diagnostic methods for neuromuscular disease |
Non-Patent Citations (1)
| Title |
|---|
| BOTTCHER, RENE: "Using a priori knowledge to align sequencing reads to their exact genomic position", NUCLEIC ACIDS RESEARCH, vol. 40, no. 16, JPN6020003299, 11 May 2012 (2012-05-11), GB, pages 1 - 11, ISSN: 0004339625 * |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2019022019A1 (ja) * | 2017-07-24 | 2019-01-31 | 国立研究開発法人農業・食品産業技術総合研究機構 | 挿入・欠失・逆位・転座・置換検出法 |
| JPWO2019022019A1 (ja) * | 2017-07-24 | 2020-05-28 | 国立研究開発法人農業・食品産業技術総合研究機構 | 挿入・欠失・逆位・転座・置換検出法 |
| JP7122006B2 (ja) | 2017-07-24 | 2022-08-19 | 国立研究開発法人農業・食品産業技術総合研究機構 | 挿入・欠失・逆位・転座・置換検出法 |
Also Published As
| Publication number | Publication date |
|---|---|
| EP3018604A1 (en) | 2016-05-11 |
| CN105574360A (zh) | 2016-05-11 |
| US20160125130A1 (en) | 2016-05-05 |
| EP3018604B1 (en) | 2023-10-11 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11242569B2 (en) | Methods to determine tumor gene copy number by analysis of cell-free DNA | |
| US11680284B2 (en) | Screening for structural variants | |
| CN105849276B (zh) | 用于检测结构变异体的系统和方法 | |
| US20230065345A1 (en) | Method for bidirectional sequencing | |
| US12104202B2 (en) | Method of identifying sequence variants using concatenation | |
| JP2016103999A (ja) | ゲノム位置に標的濃縮配列リードを割り当てるための方法 | |
| EP2832864B1 (en) | A method for finding variants from targeted sequencing panels | |
| JP7242644B2 (ja) | 体細胞および生殖細胞系統バリアントを鑑別するための方法およびシステム | |
| EP2834762A1 (en) | Sequence assembly | |
| EP4219763A2 (en) | Method for quantifying gene fusion dna | |
| US20230235394A1 (en) | Chimeric amplicon array sequencing | |
| US20180305683A1 (en) | Multiplexed tagmentation | |
| US20200075124A1 (en) | Methods and systems for detecting allelic imbalance in cell-free nucleic acid samples | |
| CN109385468B (zh) | 检测链特异性效率的成套试剂与方法 | |
| CN111542616A (zh) | 脱氨引起的序列错误的纠正 | |
| WO2024206328A1 (en) | Methods for duplex sequencing |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181101 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200131 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20200904 |