[go: up one dir, main page]

JP7581191B2 - 短タンデム反復領域の変動を決定するための配列グラフ系ツール - Google Patents

短タンデム反復領域の変動を決定するための配列グラフ系ツール Download PDF

Info

Publication number
JP7581191B2
JP7581191B2 JP2021518136A JP2021518136A JP7581191B2 JP 7581191 B2 JP7581191 B2 JP 7581191B2 JP 2021518136 A JP2021518136 A JP 2021518136A JP 2021518136 A JP2021518136 A JP 2021518136A JP 7581191 B2 JP7581191 B2 JP 7581191B2
Authority
JP
Japan
Prior art keywords
sequence
reads
repeat
graph
read
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021518136A
Other languages
English (en)
Other versions
JP2022522565A (ja
Inventor
ドルシェンコ エゴール
エー エバール マイケル
Original Assignee
イラミーナ インコーポレーテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by イラミーナ インコーポレーテッド filed Critical イラミーナ インコーポレーテッド
Publication of JP2022522565A publication Critical patent/JP2022522565A/ja
Priority to JP2024190404A priority Critical patent/JP2025023964A/ja
Application granted granted Critical
Publication of JP7581191B2 publication Critical patent/JP7581191B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/20Probabilistic models
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/214Monitoring or handling of messages using selective forwarding

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Genetics & Genomics (AREA)
  • General Physics & Mathematics (AREA)
  • Physiology (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Algebra (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)

Description

(参照による組み込み)
PCT出願形態は、本出願の一部として本明細書と同時に出願される。本出願が、同時に出願されたPCT出願形態で特定されたものの利益又は優先権を主張する各出願は、その全体が参照により本明細書に組み込まれる。
リピート伸長は、短タンデム反復(STR)多型を含む、特殊な部類のマイクロサテライト及びミニサテライトバリアントである。リピート伸長は、短タンデム反復が特定のサイズを超えて伸長する場合のそれらの不安定性に起因する動的変異としても知られている。不安定なリピート伸長によって引き起こされる遺伝病としては、とりわけ、脆弱X染色体症候群(FXS)、ハンチントン病、及び筋萎縮性側索硬化症(ALS)が挙げられる。
リピート伸長を同定することは、特定の遺伝病の診断及び治療において重要である。しかし、反復配列を完全に横断しないショートリードを使用して反復配列を決定することは困難である。したがって、医学的に関連するリピート伸長を特定するために、ショートリードを使用する方法を開発することが望ましい。
開示された実施形態は、遺伝病と関連し得る短タンデム反復配列などの反復配列を含むゲノム遺伝子座をシーケンシングするための方法、装置、システム、及びコンピュータプログラム製品に関する。本方法は、それぞれゲノム遺伝子座を表す配列グラフにリードを整列させることと、整列されたリードを使用してゲノム遺伝子座における1つ以上の反復配列を遺伝子型決定することと、を含む。配列グラフは、それぞれ、反復配列を表す少なくとも1つの自己ループを含む、有向グラフである。
本開示の第1の態様は、反復配列を含むゲノム遺伝子座を遺伝子型決定するためのコンピュータ実装方法を提供する。本方法は、1つ以上のプロセッサ及びシステムメモリを含むコンピュータを使用して実行される。本方法は、1つ以上の反復部分配列をそれぞれ含む1つ以上の反復配列を遺伝子型決定するために使用することができる。本方法は、(a)1つ以上のプロセッサを使用して、試験用サンプルの配列リードをデータベースから収集することと、(b)1つ以上のプロセッサによって、配列グラフによってそれぞれ表される1つ以上の反復配列に配列リードを整列させることであって、配列グラフは、核酸配列を表す頂点及び頂点を接続する有向エッジを伴う有向グラフのデータ構造を有し、配列グラフは1つ以上の自己ループを含み、各自己ループは反復部分配列を表し、各反復部分配列は1つ以上のヌクレオチドの繰り返し単位の反復を含む、配列グラフによってそれぞれ表される1つ以上の反復配列に配列リードを整列させることと、(c)1つ以上のプロセッサによって、1つ以上の反復配列に関する1つ以上の遺伝子型を、1つ以上の反復配列に整列させた配列リードを使用して決定することと、を含む。
いくつかの実施形態では、1つ以上の反復配列うちの反復配列は、少なくとも1つの不完全に特定されたヌクレオチドを含む特定の繰り返し単位を含む。いくつかの実施形態では、特定の繰り返し単位は縮重コドンを含む。
いくつかの実施形態では、1つ以上の自己ループは、2つ以上の反復部分配列を表す2つ以上の自己ループを含む。
いくつかの実施形態では、配列グラフは、2つ以上の対立遺伝子のための2つ以上の代替経路を更に含む。いくつかの実施形態では、2つ以上の対立遺伝子はインデル又は置換を含む。いくつかの実施形態では、置換は、一塩基バリアント(SNV)又は一塩基多型(SNP)を含む。いくつかの実施形態では、本方法は、2つ以上の代替経路に整列された配列リードを使用して、2つ以上の対立遺伝子を遺伝子型決定することを更に含む。いくつかの実施形態では、2つ以上の対立遺伝子を遺伝子型決定することは、2つ以上の対立遺伝子の確率を決定するために、2つ以上の代替経路の適用範囲を確率モデルに提供することを含む。いくつかの実施形態では、確率モデルは、対立遺伝子の適用範囲の関数として対立遺伝子の確率をシミュレートするが、関数は、ポアソン分布、負の二項分布、二項分布、又はベータ二項分布から選択される。いくつかの実施形態では、ポアソン分布の速度パラメータは、ゲノム遺伝子座において観察されるリード長さ及び平均深度から推定される。
いくつかの実施形態では、方法は、(b)の前に、配列リードを参照ゲノムへと整列させて配列リードのゲノム座標を決定することと、それぞれが配列グラフによって表される1つ以上の反復配列と整列される配列リードとして、配列リードのサブセットを選択することと、を更に含む。いくつかの実施形態では、配列リードのサブセットは、配列グラフによって表される領域に、又はその付近で整列されたリードを含む。いくつかの実施形態では、配列リードのサブセットは、配列グラフによって表される領域に、又はその付近にマップを結合する非整列リードを含む。いくつかの実施形態では、配列リードのサブセットは、リードを不整合にすることに関して、既知のホットスポットである1つ以上のオフターゲット領域に整列されたリードを含む。
いくつかの実施形態では、配列リードを配列グラフに整列させることは、配列リードと配列グラフの経路との間のkmer整合を見つけることと、kmer整合を1つ以上の自己ループを含む配列グラフのノード及びエッジの完全な整列へと延長させることと、を含む。
いくつかの実施形態では、配列リードを配列グラフに整列させることは、整列の低い信頼性という結果を排除することによるグラフの縮小を含む。
いくつかの実施形態では、配列リードを配列グラフに整列させることは、リードの部分配列を配列グラフに整列させること、及び部分配列の配列を併合して配列リードの完全な配列を形成することによる整列併合を含む。
いくつかの実施形態では、本方法は、ゲノム遺伝子座の遺伝子座構造を含む遺伝子座の仕様に基づいて、配列グラフを生成することを更に含む。
いくつかの実施形態では、配列リードはペア・エンド・リードを含み、動作(c)は、(i)ペア・エンド・リード内のアンカーリード及びアンカー型リードを特定することであって、アンカーリードが1つ以上の反復配列に整列している又はその付近で整列しており、またアンカー型リードがアンカーリードと対になった非整列リードである、対になったエンド・リード内のアンカーリード及びアンカー型リードを特定することと、(ii)少なくともアンカー型リードを使用して1つ以上の反復配列に関する1つ以上の遺伝子型を決定することと、を含む。
いくつかの実施形態では、動作(ii)は、アンカーリード及びアンカー型リードを使用して、1つ以上の反復配列に関する1つ以上の遺伝子型を決定することを含む。いくつかの実施形態では、アンカーリードは、約5kbの反復配列内に整列される。いくつかの実施形態では、非整列リードは、配列グラフに整列されることができないリード、又は配列グラフへの整列が不十分なリードを含む。
いくつかの実施形態では、1つ以上の反復配列は、短タンデム反復(STR)配列を含む。いくつかの実施形態では、STRの伸長は、脆弱X染色体症候群、筋萎縮性側索硬化症(ALS)、ハンチントン病、フリートライヒ運動失調、脊髄小脳変性症、球脊髄性筋萎縮症、筋強直性ジストロフィー、マチャド・ジョセフ病、又は歯状核赤核淡蒼球ルイ体萎縮症に関連する。
いくつかの実施形態では、本方法は、シーケンサを使用して、試験用サンプルからペア・エンド・リードを生成することを更に含む。
いくつかの実施形態では、本方法は、試験用サンプルを個体から抽出することを更に含む。
いくつかの実施形態では、試験用サンプルは、血液サンプル、尿サンプル、唾液サンプル、又は組織サンプルである。
いくつかの実施形態では、繰り返し単位は1~50個のヌクレオチドを含む。
いくつかの実施形態では、リードは、1つ以上の反復配列のうちの少なくとも1つよりも短い。
本開示の別の態様は、反復配列を含むゲノム遺伝子座を遺伝子型決定するためのシステムを提供する。いくつかの実施形態では、本システムは、システムメモリと、(a)1つ以上のプロセッサを使用して、データベースから試験用サンプルの配列リードを収集するように構成され、(b)1つ以上のプロセッサによって、配列グラフによってそれぞれ表される1つ以上の反復配列に配列リードを整列させるように構成され、配列グラフは、核酸配列を表す頂点及び頂点を接続する有向エッジを伴う有向グラフのデータ構造を有し、配列グラフは1つ以上の自己ループを含み、各自己ループは反復部分配列を表し、各反復部分配列は1つ以上のヌクレオチドの繰り返し単位の反復を含み、(c)1つ以上のプロセッサによって、1つ以上の反復配列に関する1つ以上の遺伝子型を、1つ以上の反復配列に整列させた配列リードを使用して決定するように構成された、1つ以上のプロセッサと、を含む。
いくつかの実施形態では、本システムはまた、試験用サンプルの核酸をシーケンシングするためのシーケンサも含む。
いくつかの実施形態では、1つ以上のプロセッサは、本明細書に記載された種々の方法を実行するように構成されている。
本開示の別の態様は、コンピュータシステムの1つ以上のプロセッサによって実行された場合に、反復配列を含むゲノム遺伝子座を遺伝子型決定するための上記方法をコンピュータシステムに実行させるプログラムコードを記憶する非一時的な機械可読媒体を含む、コンピュータプログラム製品を提供する。プログラムコードは、(a)データベースから試験用サンプルの配列リードを収集するためのコードと、(b)配列グラフによってそれぞれ表される1つ以上の反復配列に配列リードを整列させるためのコードであって、配列グラフが、核酸配列を表す頂点及び頂点を接続する有向エッジを伴う有向グラフのデータ構造を有し、配列グラフが1つ以上の自己ループを含み、各自己ループが反復部分配列を表し、各反復部分配列が1つ以上のヌクレオチドの繰り返し単位の反復を含む、コードと、(c)1つ以上の反復配列に関する1つ以上の遺伝子型を、1つ以上の反復配列に整列させた配列リードを使用して決定するためのコードと、を含む。
いくつかの実施形態では、プログラムコードは、本明細書に記載された方法の動作を実行するためのコードを含む。
本明細書の実施例はヒトに関し、言語は主にヒトに関するものを対象としているが、本明細書に記載された概念は、任意の植物又は動物からのゲノムに適用可能である。本開示のこれらの並びにその他の目的及び特徴は、以下の説明及び添付の特許請求の範囲からより完全に明らかとなる、又は以下に記載される本開示の実施によって学習されてもよい。
参照配列上の反復配列に対する配列リードの整列における困難性を示す概略図である。 図1Aに示される困難を克服するために、特定の開示された実施形態による、ペア・エンド・リードを使用した配列リードの整列を示す概略図である。 いくつかの実施形態による反復配列を含むゲノム遺伝子座を遺伝子型決定するためのプロセスを示す、フローチャートを示す。 第1のゲノム遺伝子座を表す第1の配列グラフを示す。 第2のゲノム遺伝子座を表す第2の配列グラフを示す。 第3のゲノムを表す第3の配列グラフを示す。 いくつかの実施形態による、2つのSTR配列を含むHTTにおけるバリアントの遺伝子型を決定するためのプロセスの、概略図を示す。 いくつかの実施形態による、SNV及びSTRを含むLynch I遺伝子座におけるバリアントの遺伝子型を決定するためのプロセスの、概略図を示す。図1Hの左側パネルは、標的遺伝子型決定のための一般的なプロセスの概略図を示し、右側のパネルは、Lynch I症候群に関連する遺伝子座においてバリアントを遺伝子型決定するための本プロセスの適用を示す。 サンプル中の反復配列の伸長の有無を決定するための方法の一例の、高レベル描写を提供するフロー図である。 ペア・エンド・リードを使用してリピート伸長を検出するための方法の例を示すフロー図である。 ペア・エンド・リードを使用してリピート伸長を検出するための方法の例を示すフロー図である。 リピート伸長を決定するために、対象とする任意の反復配列に関連していない非整列リードを使用する方法のフロー図である。 試験用サンプルを処理するための分散システムのブロック図である。 異なる方法を使用して、HTT遺伝子座においてCAG及びCCG STRを遺伝子型決定することの正確性を示す。
本開示は、医学的に有意である反復配列の伸長など、対象とするリピート伸長を特定するための方法、装置、システム、及びコンピュータプログラム製品に関する。リピート伸長の例としては、脆弱X染色体症候群、ALS、ハンチントン病、フリートライヒ運動失調、脊髄小脳変性症、球脊髄性筋萎縮症、筋強直性ジストロフィー、マチャド・ジョセフ病、及び歯状核赤核淡蒼球ルイ体萎縮症などの遺伝病に関連した伸長が挙げられるが、これらに限定されない。
特に指示がない限り、本明細書に開示された方法及びシステムの実施は、分子生物学、微生物学、タンパク質精製、タンパク質工学、タンパク質及びDNAシーケンシングに一般的に使用される従来の技術及び装置、並びに当該技術分野の範囲内にある組み換えDNA分野を含む。このような技術及び装置は当業者に既知であり、多数のテキスト及び参照研究(例えば、Sambrook et al.,「Molecular Cloning:A Laboratory Manual」Third Edition(Cold Spring Harbor),[2001]を参照されたい)、及びAusubelらの「Current Protocols in Molecular Biology」[1987])に記載されている。
数値範囲は、その範囲を定義する数字を含む。本明細書全体を通して与えられる全ての最大数値制限は、そのようなより低い数値制限が本明細書に明示的に記載されているかのように、より低いあらゆる数値限定を含むことが意図される。本明細書全体を通して与えられる全ての最小数値限定は、そのようなより高い数値制限が本明細書に明示的に記載されているかのように、より高いあらゆる数値限定を含む。本明細書全体を通して与えられるあらゆる数値範囲は、そのようなより狭い数値範囲が全て本明細書に明示的に記載されているかのように、そのようなより広い数値範囲内に入るより狭いあらゆる数値範囲を含む。
本明細書で提供される見出しは、本開示を制限することを意図しない。
本明細書で特に定義されない限り、本明細書で使用される全ての技術用語及び科学用語は、当業者によって一般的に理解されるものと同じ意味を有する。本明細書に含まれる用語を含む種々の科学的辞書は、当該技術分野において既知であり、利用可能である。本明細書に記載されるものと同様又は同等の任意の方法及び材料を、本明細書に開示された実施形態の実施又は試験に使用することができることが見出されているが、いくつかの方法及び材料が記載されている。
以下に定義される用語は、全体として明細書を参照することによってより完全に記載される。本開示は、当業者によって使用される文脈に応じて変更され得るので、記載される特定の方法論、プロトコル、及び試薬に限定されないことを理解されたい。
定義
本発明で使用する場合、単数形「a」、「an」、及び「the」は、文脈がそうでないことを明確に示さない限り、複数の参照を含む。
特に指示がない限り、核酸は、5’~3’の配向で左から右に書かれ、アミノ酸配列はそれぞれ、アミノからカルボキシへの配向で左から右に書かれる。
用語「複数」とは、2つ以上の要素を意味する。例えば、本用語は、本明細書に開示された方法を使用して、試験用サンプル及び対照サンプルにおけるリピート伸長の有意差を特定するのに十分な多数の核酸分子又は配列リードに関して、本明細書で使用される。
用語「反復配列」とは、より短い配列の反復的な発生を含む核酸配列を意味する。より短い配列は、本明細書では「繰り返し単位」と呼ばれる。繰り返し単位の反復的な発生は、繰り返し単位の「反復」又は「複製」と呼ばれる。多くの文脈において、反復配列の位置は、タンパク質をコードする遺伝子と関連付けられる。その他の状況では、反復配列は非コード領域内にあってもよい。繰り返し単位は、繰り返し単位間の破断を有する又は有さない反復配列において生じ得る。例えば、正常なサンプルでは、FMR1遺伝子は、CGG反復において、例えば、(CGG)10+(AGG)+(CGG)9などのAGGの破断を含む傾向がある。破断を含まないサンプル、並びに若干の破断を有する長い反復配列は、関連する遺伝子のリピート伸長を繰り返しやすく、これは、反復が特定の数を上回って伸長する際に遺伝病につながる可能性がある。本開示の種々の実施形態では、反復の数は、破断に関わらず、フレーム内反復として計数される。フレーム内反復を推定するための方法を、以下に更に記載する。
種々の実施形態では、繰り返し単位は、1~100個のヌクレオチドを含む。広く研究されている多くの繰り返し単位は、トリヌクレオチド又はヘキサンヌクレオチド単位である。十分に研究され、かつ本明細書に開示された実施形態に適用可能ないくつかのその他の繰り返し単位としては、4,5,6,8,12,33又は42ヌクレオチドの単位が挙げられるが、これらに限定されない。例えば、Richards(2001)Human Molecular Genetics,10,No.20,2187-2194を参照されたい。本開示の用途は、それらが繰り返し単位の複数の反復又は複製を有する反復配列と比較して比較的短い限り、上記の特定の数のヌクレオチド塩基に限定されない。例えば、繰り返し単位は、少なくとも3,6,8,10,15,20,30,40,50個のヌクレオチドを含むことができる。代替的に又は追加的に、繰り返し単位は、最大で約100,90,80,70,60,50,40,30,20,10,6又は3ヌクレオチドを含むことができる。
反復配列は、進化、発達、及び突然変異条件で伸長され得、同じ繰り返し単位の複製をより多く作成することができる。これは、フィールド内で「リピート伸長」と呼ばれる。本プロセスはまた、繰り返し単位の伸長の不安定な性質に起因する「動的変異」とも呼ばれる。いくつかのリピート伸長は、遺伝病及び病理学的症状に関連することが示されてきた。その他のリピート伸長は、十分に理解又は研究されていない。本明細書に開示された方法を使用して、既知及び新規のリピート伸長の両方を特定し得る。いくつかの実施形態では、リピート伸長を有する反復配列は、約100,150,300又は500塩基対(bp)よりも長い。いくつかの実施形態では、リピート伸長を有する反復配列は、約1000bp、2000bp、3000bp、4000bp、5000bp、又は10000bp等よりも長い。
グラフ理論では、頂点及びエッジは、そのグラフが構築される2つの基本単位である。頂点又はノードは、グラフが画定され、エッジによって接続され得る点のうちの1つである。グラフの図では、頂点は標識を有する形状によって表すことができ、エッジは、1つの頂点から別の頂点まで延在する線(非有向エッジ)又は矢印(有向エッジ)によって表される。
エッジによって接続された2つの頂点は、エッジの端点であると言われている。グラフがエッジ(x、y)を含む場合、頂点xは、別の頂点yに隣接すると言われている。
対象とされていないグラフは、頂点のセット及び(非規則的な頂点の対を接続する)1組の非有向エッジとからなり、一方、有向グラフは、頂点のセット及び(規則的な頂点の対を接続する)1組の有向エッジからなる。
グラフ理論では、各エッジは、その端点と呼ばれる、取り付けられた2つの(又はハイパーグラフではより多くの)頂点を有する。エッジは、有向又は非有向であってもよい。対象とされていないエッジはまた線とも呼ばれ、有向エッジは円弧又は矢印とも呼ばれる。
有向エッジは、上流頂点と下流頂点とを接続するエッジであり、上流頂点は有向エッジの前に出現し、下流頂点は有向エッジの後に出現する。
対象とされていないエッジは2つの頂点を接続するエッジであり、いずれの頂点も、グラフ経路内で他方の前に出現し得る。
ループ、自己ループ、及び単一ノードループは、本明細書では同じ意味で使用される。ループは、1つのノードと、両端が1つのノードに接続された末端と、を有する。
サイクルは2つ以上の頂点を含む経路であり、サイクルの経路は同じ頂点で開始及び終了する。単純なサイクルは、開始頂点及び終了頂点以外の反復頂点又はエッジを有さないサイクルである。
環式グラフは、少なくとも1サイクルを含むグラフである。
非環式グラフは、任意のサイクル又は自己ループを含まないグラフである。
対象とする非環式グラフ(DAG)は、任意のサイクル又は自己ループを有さない有向グラフである。
グラフ経路は、頂点及びエッジの配列であり、エッジの両端点は、配列のエッジに隣接して出現する。有向グラフのグラフ経路は、有向エッジ(又は円弧若しくは矢印)の前に出現する上流頂点と、有向エッジの後に出現する下流頂点と、を有する。
ポアソン分布は、これらの事象が既知の定数レートで生じ、最後の事象からの時間とは無関係に発生する場合、一定の時間間隔又は空間間隔で生じる所与の数の事象の確率を表す離散確率分布である。
完全に指定された塩基記号としては、グアニン、アデニン、チミン、及びシトシンのG、A、T、Cが挙げられる。
完全に指定されていない核酸命名法には、とりわけ、以下のようなものが挙げられる。
プリン(アデニン又はグアニン):R
ピリミジン(チミン又はシトシン):Y
アデニン又はチミン:W
グアニン又はシトシン:S
アデニン又はシトシン:M
グアニン又はチミン:K
アデニン又はチミン又はシトシン:H
グアニン又はシトシン又はチミン:B
グアニン又はアデニン又はシトシン:V
グアニン又はアデニン又はチミン:D
グアニン又はアデニン又はチミン又はシトシン:N
用語「ペア・エンド・リード(paired end reads)」とは、核酸断片の各末端から1つのリードを取得する、ペアード・エンド・シーケンシング(paired end sequencing)から得られるリードを意味する。ペアード・エンド・シーケンシングは、インサートと呼ばれる、配列にDNAを断片化することを含む。Illuminaによって使用されるいくつかのプロトコルでは、より短いインサートからのリード(例えば、約10~数百bp)は、短いインサートのペア・エンド・リード、又は単純にペア・エンド・リードと呼ばれる。対照的に、より長いインサートからのリード(例えば、約数千bp)は、メイト・ペア・リード(mate pair reads)と呼ばれる。本開示では、短いインサートのペア・エンド・リード及び長いインサートのメイト・ペア・リードが両方とも使用されてもよく、リピート伸長を分析するためのプロセスに関して区別されない。したがって、用語「ペア・エンド・リード」は、短いインサートのペア・エンド・リード及び長いインサートのメイト・ペア・リードの両方を意味する場合もあり、これは、本明細書で後に更に記載される。いくつかの実施形態では、ペア・エンド・リードは、約20bp~1000bpのリードを含む。いくつかの実施形態では、ペア・エンド・リードは、約50bp~500bp、約80bp~150bp、又は約100bpのリードを含む。ペア・エンドの2つのリードは、配列決定される断片の一番端の末端に位置する必要のないことが、理解されるであろう。むしろ、1つ又は両方のリードは、断片の末端に近接することができる。更に、ペア・エンド・リードの文脈において本明細書に例示される方法は、断片の末端部又は断片のその他の部分からリードが誘導されるどうかとは無関係に、種々のペア・リードのいずれかと共に実行することができる。
本発明で使用する場合、用語「整列」、「整列している」とは、リードを参照配列と比較し、それによって、参照配列がリード配列を含むかどうかを決定するプロセスを意味する。整列プロセスは、リードが参照配列に位置づけられ得るかどうかを決定しようとするが、常にリードが参照配列に整列されているわけではない。参照配列がリードを含む場合、リードは参照配列に位置づけられてもよい、又は特定の別の実施形態では、参照配列内の特定の位置にマッピングされてもよい。いくつかの場合において、整列は、リードが特定の参照配列のメンバーであるか否か(すなわち、リードが参照配列中に存在するか又は存在していないか)かを単に伝える。例えば、ヒト染色体13についての参照配列に対するリードの位置合わせは、13番染色体の参照配列中にリードが存在するかどうかを伝える。本情報を提供するツールは、セットメンバーシップテスタ(set membership tester)と呼ばれる場合がある。場合によっては、整列は、リードマップがある参照配列内の位置を更に示す。例えば、参照配列がヒトゲノム配列全体である場合、整列は、染色体13上にリードが存在することを示してもよく、更に、リードが染色体13の特定の鎖及び/又は部位にあることを更に示してもよい。
整列されたリードは、参照ゲノムなどの既知の参照配列に対するそれらの核酸分子の順序に関して整合しているとして特定される1つ以上の配列である。参照配列上の整列されたリード及びその決定された位置は、配列タグを構成する。整列は手動で行うことができるが、本明細書に開示された方法を実施するために合理的な時間周期でリードを整列させることが不可能であるため、典型的にはコンピュータアルゴリズムによって実施される。配列を整列させるアルゴリズムの一例は、Illumina Genomics Analysisパイプラインの一部として分散されたヌクレオチドデータ(ELAND)コンピュータプログラムの効率的な局所整列である。あるいは、ブルームフィルタ(Bloom filter)又は同様のセットメンバーシップテスタを用いて、リードを参照ゲノムに整列させることができる。その全体が参照として本明細書に組み込まれる米国特許出願第14/354,528号(2014年4月25日出願)を参照されたい。配列リードの整合は、100%の配列整合、又は100%未満での整合(すなわち、完全でない整合)であり得る。
本明細書で使用される用語「マッピング」とは、整列によって、より大きい配列、例えば、参照ゲノムにリード配列を割り当てることを意味する。
場合によっては、2つのペア・エンド・リードの1つのエンド・リードは、参照配列の反復配列に整列されるが、一方で、2つのペア・エンド・リードのその他のエンド・リードは整列されていない。このような場合、参照配列の反復配列に整列されたペア・リードは、「アンカーリード」と呼ばれる。反復配列に整列されていないが、アンカーリードと対になったペア・エンド・リードは、アンカー型リードと呼ばれる。したがって、非整列リードは、反復配列にアンカーされ、かつ反復配列と関連付けられ得る。いくつかの実施形態では、非整列リードは、参照配列に整列されることができないリードと、参照配列への整列が不十分なリードと、の両方を含む。リードが、特定の基準よりも多くの不整合な塩基を有する参照配列に整列される場合、リードの整列が不十分であると見なされる。例えば、種々の実施形態では、少なくとも約1、2、3、4、5、6、7、8、9又は10の不整合と整列される場合には、リードの整列が不十分であると見なされる。場合によっては、ペア・リードの両方は参照配列に整列される。このような場合、種々の実施形態では、両方のリードを「アンカーリード」として分析してもよい。
用語「ポリヌクレオチド」、「核酸」、及び「核酸分子」は同じ意味で用いられ、1つのヌクレオチドのペントースの3’位置が、ホスホジエステル基によって次のペントースの5’位置に結合されるヌクレオチドの共有結合様の配列(すなわち、RNAに関してはリボヌクレオチド、またDNAに関してはデオキシリボヌクレオチド)を意味する。ヌクレオチドは、RNA分子及び無細胞DNA(cfDNA)分子などのDNA分子を含むがこれらに限定されない、核酸の任意の形態の配列を含む。用語「ポリヌクレオチド」は、一本鎖及び二本鎖ポリヌクレオチドを含むが、これらに限定されない。
本明細書において、用語「試験用サンプル」とは、コピー数変化に関して評価される少なくとも1つの核酸配列を有する核酸若しくは核酸の混合物を含む生物液、細胞、組織、器官、又は生物に由来するサンプルを意味する。特定の実施形態では、サンプルは少なくとも1つの核酸配列を有し、その複製数は、変異を受けたものと思われる。このようなサンプルとしては、痰/口腔流体、羊水、血液、血液分画物、又は微細針生検サンプル、尿、腹膜流体、胸膜流体などが挙げられるが、これらに限定されない。サンプルは、多くの場合、ヒト被験体(例えば、患者)から採取されるが、検定は、イヌ、ネコ、ウマ、ヤギ、ヒツジ、ウシ、ブタ等を含むがこれらに限定されない任意の哺乳類のサンプルにおいて、コピー数変化(CNV)に使用することができる。サンプルは、生物学的源から得られるように、又はサンプルの特性を修正する前処理後に、直接使用してもよい。例えば、このような前処理は、血漿を血液から調製すること、粘性流体を希釈することなどを含んでもよい。前処理の方法は、濾過、沈殿、希釈、蒸留、混合、遠心分離、凍結、凍結乾燥、濃縮、増幅、核酸断片化、干渉成分の不活性化、試薬の添加、溶解等を含んでもよいが、これらに限定されない。このような前処理方法がサンプルに対して採用される場合、このような前処理方法は、典型的には、時々、未処理の試験用サンプル(例えば、すなわち任意のこのような前処理方法(複数可)に供されないサンプル)に比例する濃度で、対象とする核酸(複数可)が試験用サンプル中に残存するようなものである。このような「処理された(treated)」又は「処理された(processed)」サンプルは、本明細書に記載された方法に関して、依然として生物学的「試験用」サンプルであると考えられる。
対照サンプルは、陰性対照サンプル又は陽性対照サンプルであってもよい。「陰性対照サンプル」又は「影響を受けないサンプル」とは、病原性ではない範囲内の多数の反復を有する反復配列を有することが知られている、又は予想される核酸を含むサンプルを意味する。「陽性対照サンプル」又は「影響を受けるサンプル」は、病原性である範囲内の多数の反復を有する反復配列を有することが知られている、又は予想される。陰性対照サンプル中の反復配列の反復は、通常、通常の範囲を超えて伸長されていないが、陽性対照サンプル中の反復配列の反復は、通常、通常の範囲を超えて伸長されている。したがって、試験用サンプル中の核酸は、1つ以上の対照サンプルと比較することができる。
用語「対象とする配列」とは、本明細書において、健康な個体対疾患のある個体における配列表現の差に関連する核酸配列を意味する。対象とする配列は、疾患又は遺伝的状態で伸長される染色体上の反復配列であり得る。対象とする配列は、染色体、遺伝子、コード又は非コード配列の一部であってもよい。
本明細書において、用語「次世代配列(NGS)」とは、クローン的に増幅された分子及び単一核酸分子の大規模な並列シーケンシングを可能にするシーケンシング法を意味する。NGSの非限定的な例としては、リバーシブル・ダイ・ターミネータ・シーケンシング(reversible dye terminators)を用いた合成によるシーケンシング(sequencing-by-synthesis)、及びライゲーションによるシーケンシング(sequencing-by-ligation)が挙げられる。
本明細書において、用語「パラメータ」とは、物理的特性を特徴付ける数値を意味する。しばしば、パラメータは、定量データセット及び/又は定量データセット間の数値関係を数値的に特徴付ける。例えば、染色体に位置づけられる配列タグの数と、タグがマッピングされる染色体の長さとの比(又は比の関数)は、パラメータである。
本明細書において、用語「コール基準」とは、医学的状態を有する疑いのある生物から核酸を含有する試験用サンプルなどのサンプルを特徴付けるためのカットオフとして使用される、任意の数又は量を意味する。この閾値をパラメータ値と比較することにより、このようなパラメータ値を生じさせるサンプルが、生物が医学的状態を有する、ということを示唆するかどうかを決定してもよい。特定の実施形態では、閾値は制御データセットを使用して計算され、生物におけるリピート伸長の診断限界として機能する。いくつかの実施形態では、本明細書に開示された方法から得られた結果によって閾値を超えた場合、被験体は、リピート伸長と診断され得る。本明細書に記載された方法のための適切な閾値は、サンプル又は対照サンプルの訓練セットについて計算された値を分析することによって特定され得る。閾値はまた、シーケンシング深度、リード長さ、反復配列長等の経験的パラメータから計算することもできる。あるいは、リピート伸長を有することが知られている影響を受けたサンプルを使用して、選択された閾値が、試験用セット内の影響を受けないサンプルから影響を受けるサンプルを区別するのに有用であることを確認することもできる。閾値の選択は、ユーザが分類を行う必要があることを望む信頼度に依存する。いくつかの実施形態では、適切な閾値を特定するために使用される訓練セットは、少なくとも10、少なくとも20、少なくとも30、少なくとも40、少なくとも50、少なくとも60、少なくとも70、少なくとも80、少なくとも90、少なくとも100、少なくとも200、少なくとも300、少なくとも400、少なくとも500、少なくとも600、少なくとも700、少なくとも800、少なくとも900、少なくとも1000、少なくとも2000、少なくとも3000、少なくとも4000,、又はそれ以上の適格サンプルを含む。より大きい適格サンプルのセットを使用して、閾値の診断有用性を改善することが有利であり得る。
用語「リード」とは、核酸サンプルの一部から読み取られる配列リードを意味する。典型的には、必ずしもそうではないが、リードは、サンプルにおける連続的な塩基対の短い配列を表す。リードは、サンプル部分の塩基対配列(ATCG)によって記号的に表されてもよい。リードが参照配列と整合する、又はその他の基準を満たすかを決定するために、メモリデバイスに記憶され、適切に処理されてもよい。リードは、シーケンシング装置から直接、又はサンプルに関する記憶された配列情報から間接的に得られてもよい。場合によっては、例えば、染色体又はゲノム領域又は遺伝子に整列され、位置づけられ得る、より大きな配列又は領域を特定するために使用することができる十分な長さ(例えば、少なくとも約25bp)のDNA配列である。
用語「ゲノムリード」とは、個体のゲノム全体における任意のセグメントのリードに関して使用される。
用語「部位」とは、参照ゲノム上の固有の位置(例えば、染色体ID、染色体位置及び配向)を意味する。いくつかの実施形態では、部位は、残基、配列タグ、又は配列上のセグメントの位置であってもよい。
本発明で使用する場合、用語「参照ゲノム」又は「参照配列」とは、対象からの特定された配列を参照するために使用され得る任意の生物又はウイルスの部分的又は完全ないずれかの特定の既知のゲノム配列を指す。例えば、ヒト被験者に使用される参照ゲノム、並びに多くのその他の生物が、National Center for Biotechnology Information at ncbi.nlm.nih.govで見出される。「ゲノム」とは、核酸配列で発現される、生物又はウイルスの完全な遺伝子情報を意味する。
各種実施形態では、参照配列は、それに整列されたリードよりも著しく大きくてもよい。例えば、それは、少なくとも約100倍大きい、又は少なくとも約1000倍大きい、又は少なくとも約10,000倍大きい、又は少なくとも約10倍大きい、又は少なくとも約10倍大きい、又は少なくとも約10倍大きい場合がある。
一実施例では、参照配列は、完全長ヒトゲノムのものである。このような配列は、ゲノム参照配列と呼ばれることもある。別の例では、参照配列は、13番染色体などの特定のヒト染色体に限定される。いくつかの実施形態では、参照Y染色体は、ヒトゲノムバージョンhg19からのY染色体配列である。このような配列は、染色体参照配列と呼ばれることもある。参照配列のその他の例としては、その他の種のゲノム、並びに任意の種の染色体、部分染色体領域(ストランドなど)等が挙げられる。
いくつかの実施形態では、整列のための参照配列は、リードの長さの約1~約100倍の配列長さを有してもよい。このような実施形態では、整列及びシーケンシングは、ゲノム整列又はシーケンシング全体の代わりに標的整列又はシーケンシングと見なされる。これらの実施形態では、参照配列は、典型的には、遺伝子及び/又は対象とする反復配列を含む。
種々の実施形態では、参照配列は、複数の個体に由来する共通塩基配列又はその他の組み合わせである。しかしながら、特定の用途では、参照配列は、特定の個体から採取されてもよい。
本明細書において、用語「臨床関連配列」とは、既知である、又は遺伝的若しくは病状に関連する又は暗示されることが疑われる核酸配列を意味する。臨床関連配列の不在又は存在を決定することは、診断を判定すること、又は医学的状態の診断を確認すること、又は疾患の発症の予後を提供するのに有用であり得る。
用語「誘導される」とは、核酸又は核酸の混合物の文脈で使用される場合に、本明細書では、核酸が生じる源から核酸(複数可)が得られる手段を意味する。例えば、一実施形態では、2つの異なるゲノムに由来する核酸の混合物は、核酸、例えば、cfDNAが、壊死又はアポトーシスなどの自然発生プロセスを通じて細胞によって自然に放出されたことを意味する。別の実施形態では、2つの異なるゲノムに由来する核酸の混合物は、核酸が被験体からの2つの異なる種類の細胞から抽出されたことを意味する。
用語「基づいて」とは、特定の定量的値を得るという文脈において使用される場合、特定の定量的値を出力として計算するための入力として別の量を使用することを意味する。
本明細書において用語「患者サンプル」とは、患者から得られた生体サンプル、すなわち、医療用注意、ケア、又は治療の受け手を意味する。患者サンプルは、本明細書に記載されたサンプルのうちのいずれかであり得る。特定の実施形態では、患者サンプルは、非侵襲的処置、例えば、末梢血サンプル又は糞便サンプルによって得られる。本明細書に記載された方法は、ヒトに限定される必要はない。したがって、患者サンプルが非ヒト哺乳動物(例えば、ネコ、ブタ、ウマ、ウシなど)からのサンプルであり得る種々の獣医学的用途が想到される。
本明細書において、用語「生物学的流体」とは、生物学的供給源から採取される液体を意味し、例えば、血液、血清、血漿、痰、洗浄液、脳脊髄液、尿、精液、汗、涙、唾液などを含む。本発明で使用する場合、用語「血液」、「血漿」、及び「血清」は、その分画物又はその処理された部分を明示的に包含する。同様に、サンプルが生検、綿棒、スミアなどから採取される場合、「サンプル」は、生検、綿棒、スミア等から得られる処理された画分又は部分を明示的に包含する。
本発明で使用する場合、用語「対応する」とは、異なる対象のゲノム中に存在する核酸配列、例えば、遺伝子又は染色体を意味し、これは、異なる対象のゲノム中に存在し、必ずしも全てのゲノムに同一の配列を有さないが、対象とする配列(例えば、遺伝子又は染色体)の遺伝情報ではなく同一性を提供する役割を果たす。
本発明で使用する場合、用語「染色体」とは、DNA及びタンパク質成分(特にヒストン)を含むクロマチンストランドに由来する、生きている細胞の本発明の有効性を有する遺伝子キャリアを意味する。従来の国際的に認識されている個々のヒトゲノム染色体番号付けシステムが本明細書で使用される。
本発明で使用する場合、用語「ポリヌクレオチド長」とは、配列中又は参照ゲノムの領域内の核酸モノマーサブユニット(ヌクレオチド)の絶対数を意味する。用語「染色体長」とは、例えば、World Wide Web上の|genome|.|ucsc|.|edu/cgi-bin/hgTracks?hgsid=167155613&chromInfoPage=で見出されるヒト染色体のNCBI36/hg18アセンブリに提供される、塩基対で与えられる染色体の既知の長さを指す。
本明細書において、用語「対象」とは、哺乳動物、無脊椎動物、脊椎動物、真菌、酵母、細菌、及びウイルスなどの非ヒト被験体を意味する。本明細書の実施例はヒトに関し、言語は主にヒトに関するが、本明細書に開示された概念は、任意の植物又は動物からのゲノムに適用可能であり、獣医学、動物科学、研究所、及びこのような分野において有用である。
本発明で使用する場合、用語「プライマー」とは、伸長生成物の合成に誘導性の条件(例えば、条件は、ヌクレオチド、DNAポリメラーゼなどの誘導剤、及び好適な温度並びにpHを含む)下に置かれた場合に合成の開始点として作用することができる、単離されたオリゴヌクレオチドを意味する。プライマーは、増幅における最大効率のために好ましくは一本鎖であってもよい、あるいは二本鎖であってもよい。二本鎖である場合、伸長生成物を調製するために使用される前に、最初にそのストランドを分離するように処理される。プライマーは、オリゴデオキシリボヌクレオチドであってもよい。プライマーは、誘導剤の存在下で伸長生成物の合成をプライムするのに十分な長さである。プライマーの正確な長さは、温度、プライマー源、方法の使用、及びプライマー設計に使用されるパラメータを含む多くの因子に依存する。
導入
短タンデム反復(STR)は、ヒトゲノム全体にわたって遍在する。STR生物学の我々の理解は完全であるが、出現した証拠は、STRが基本細胞プロセスにおいて重要な役割を果たすことを示唆している。
リピート伸長は、STR多型を含む、特殊な部類のマイクロサテライト及びミニサテライトバリアントである。リピート伸長は、短タンデム反復が特定のサイズを超えて伸長する場合のそれらの不安定性に起因する動的変異としても知られている。STR伸長は、筋萎縮性側索硬化症、フリートライヒ運動失調(FRDA)、ハンチントン病(HD)、及び脆弱X染色体症候群を含む、20超の重度の神経疾患の主要な原因である。表1は、正常なサンプルにおける反復配列とは異なる、少数の病原性リピート伸長を例示する。縦列は、反復配列に関連する遺伝子、繰り返し単位の核酸配列、通常及び病原性配列の繰り返し単位の反復数、並びにリピート伸長に関連する疾患を示す。
リピート伸長を含む遺伝病は、多くの点で不均質である。繰り返し単位のサイズ、伸長度、罹患した遺伝子に関する位置、及び病原機構は、疾患から疾患まで変化し得る。例えば、ALSは、染色体9のオープンリーディングフレーム72の短いアーム上に位置するC9orf72遺伝子におけるヌクレオチドGGGGCCのヘキサンヌクレオチドリピート伸長を含む。対照的に、脆弱X染色体症候群は、X染色体上の脆弱X染色体精神遅滞1(FMR1)遺伝子に影響を及ぼすCGGのトリヌクレオチド反復(トリプレット反復)の伸長に関連する。CGG反復の伸長は、正常な神経発達に必要とされる、脆弱X染色体精神遅滞タンパク質(FMRP)を発現させることができなかった。CGG反復の長さに応じて、対立遺伝子は、正常(症候群による影響を受けない)、変異前(脆弱X染色体関連疾患の危険性)、又は完全変異(通常、症候群によって影響を受ける)として分類され得る。種々の推定によれば、失調症の傾向を有する保因者においては60~230個の反復、及び罹患していない個体においては5~54個の反復であるのと比較して、罹患している個体における脆弱X染色体症候群を引き起こす変異FMR1遺伝子では、230~4000個のCGG反復が存在する。FMR1遺伝子のリピート伸長は、約5%の自閉症患者がFMR1リピート伸長を有することが見出される故に、自閉症の原因である。McLennan,et al.(2011),Fragile X Syndrome,Current Genomics 12(3):216-224。脆弱X染色体症候群の確定的診断は、CGG反復の数を決定するための遺伝子検査を含む。
リピート伸長関連疾患の種々の一般的な特性が、複数の研究において特定されている。リピート伸長又は動的変異は、通常、反復数の増加として発現され、変異率は反復数に関連する。繰り返し中断の損失などの稀な事象は、伸長する可能性が増加した対立遺伝子をもたらし得るが、このような事象は、創始者事象として知られている。反復配列における反復数と、リピート伸長によって引き起こされる疾患の重症度及び/又は発症との間に関係が存在し得る。
したがって、種々の疾患の診断及び治療において、リピート伸長を特定及びコーリングすることが重要である。しかしながら、特に反復配列を完全に横断しないリードを使用して反復配列を特定することは、種々の課題を有する。最初に、リードと参照ゲノムとの間に明確な1対1のマッピングが存在しないため、反復を参照配列に整列させることは困難である。加えて、リードが参照配列に整列されている場合であっても、リードは、医学的に関連する反復配列を完全にカバーするためには短すぎる場合が多い。例えば、リードは約100bpであってもよい。比較すると、リピート伸長は、数百~数千の塩基対に及ぶことができる。脆弱X染色体症候群では、例えば、FMR1遺伝子は、1000反復を超えて3000bpにわたって良好に有することができる。そのため、100bpのリードは、リピート伸長の全長を位置づけることができない。更に、ショートリードをより長い配列に組み付けることは、ショートリード対長い反復という問題を克服しない場合があるが、これは、1つのリードにおける反復と別のリード上の反復との曖昧な整列により、ショートリードをより長い配列に組み付けることが困難であるためである。
整列は、参照配列の完全性、参照配列上のリードと部位との間の非特異的な対応、又は参照配列からの有意偏差のいずれかに起因する、情報喪失の一次原因である。リード精度に影響を及ぼす系統的なシーケンシングエラー及びその他の問題は、反復配列を検出する際の失敗の二次要因である。いくつかの実験プロトコルでは、約7%のリードは、整列されていない、又はMAPQスコアが0である。研究者がシーケンシング技術及び分析ツールを改善するために作業している場合であっても、整列できない、また整列が不十分なリードの相当量が、常に存在し得る。本明細書の方法の実施形態は、リピート伸長を特定するために、整列できない又は整列が不十分なリードに依存する。
リピート伸長を検出するためのロングリードを使用する方法は、それ自体の課題を有する。次世代シーケンシングでは、より長いリードを使用する現在利用可能な技術は、より短いリードを使用する技術よりも、より遅く、よりエラーを有する傾向にある。更に、シーケンシング無細胞DNAなどのいくつかの用途では、ロングリードは実現可能ではない。母体血液で得られた無細胞DNAを、出生前の遺伝子診断に使用することができる。無細胞DNAは、無細胞DNAを使用した典型的には200よりも短い断片として存在する。本明細書に記載された方法の実施形態は、医学的に関連するリピート伸長を特定するために、ショートリードを使用する。
更に、従来の方法は、複数の反復を有する複雑な遺伝子座を取り扱うように設計されていない。このような遺伝子座の重要な例としては、CCG反復の側面に位置するHDを引き起こすCAG反復、アデノシンホモポリマーの側面に位置するFRDAを引き起こすGAA反復、及びCT反復の側面に位置する脊髄小脳変性症8型(SCA8)を引き起こすCAG反復が挙げられる。更により極端な例は、伸長が筋強直性ジストロフィー2型(DM2)を引き起こすCNBP遺伝子におけるCCTG反復である。この反復は、多型TG及びTCTG反復に隣接しており(J.E.Lee及びCooper 2009)、この遺伝子座へのリードの正確な整列は特に困難である。別の型の複雑な反復は、少なくとも9つの疾患に関連しているポリアラニン反復(Shoubridge and Gecz 2012)である。ポリアラニン反復は、α-アミノ酸コドンGCA、GCC、GCG、又はGCTの繰り返しからなる。
バリアントの集団は、整列及び遺伝子型決定の精度に影響を及ぼし得る(Lincoln et al.2019)。複雑性の低い多型配列に隣接するバリアントは、バリアント発見のための方法が、このようなゲノム領域において一貫して表される又は偽のバリアントコールのクラスタを出力し得るため、更に問題となり得る。これは、一部には、シーケンシングデータにおけるこのような領域のエラー率の上昇に起因する(Benjamini and Speed 2012;Dolzhenko et al.2017)。一実施例は、Lynch症候群Iを引き起こす、MSH2におけるアデノシンホモポリマーに隣接する一塩基バリアント(SNV)である(Froggatt et al.1999)。
本明細書に開示された実施形態は、上記のような複雑な遺伝子座を取り扱うことができる。これらは、各標的遺伝子座の一般的かつ自在的モデルとして配列グラフを使用する。
いくつかの実施形態では、開示された方法は、ペア・エンド・シーケンシングを利用することによって、リピート伸長を特定及びコーリングする際の前述の課題に対処する。ペアード・エンド・シーケンシングは、インサートと呼ばれる、配列にDNAを断片化することを含む。Illuminaによって使用されるいくつかのプロトコルでは、より短いインサートからのリード(例えば、約10~数百bp)は、短いインサートのペア・エンド・リード、又は単純にペア・エンド・リードと呼ばれる。対照的に、より長いインサートからのリード(例えば、約数千bp)は、メイト・ペア・リード(mate pair reads)と呼ばれる。上述のように、ショートインサートのペア・エンド・リード及びロングインサートのメイト・ペア・リードは、両方とも、本明細書に開示された方法の種々の実施形態において使用されてもよい。
図1Aは、特にリピート伸長を有する長い反復配列のサンプルから得られた配列リードを整列させる場合に、参照配列上の反復配列に配列リードを整列させる際の特定の困難を示す概略図である。図1Aの底部には、垂直のハッチ線によって示される比較的短い反復配列103を有する参照配列101が存在する。図の中間では、垂直のハッチ線によっても示される、リピート伸長を有する長い反復配列107を有する患者サンプルの仮定的な配列105が存在する。図の最上部には、サンプル配列105の対応する部位の位置に示される配列リード109及び111が示されている。例えば、リード111などの、これらの配列リードの一部では、いくつかの塩基対は長い反復配列107から生じ、垂直のハッチ線によっても示されるように、円で強調されている。これらの反復を有するリード111は、反復が参照配列101上の明確な対応位置を有さないため、参照配列101に整列することが潜在的に困難である。これらの潜在的な非整列リードは、参照配列101中の反復配列103と明確に関連付けることができないため、これらの潜在的な非整列リード111から反復配列に関する情報及び反復配列の伸長を得ることは困難である。更に、これらのリードはリピート伸長を有する長い反復配列107よりも短い傾向があるため、反復配列107の同一性又は位置についての明確な情報を直接提供することができない。加えて、リード111内の反復は、参照配列101上のそれらの曖昧な対応位置、及びリード111の間の曖昧な関係に起因して、それらを組み付けることが困難になる。半ハッチ及び半固体黒色として示される、サンプル中の長い反復配列107から部分的に生じるリードは、反復配列107の外側から生じる塩基によって整列されてもよい。反復配列107の外側でリードが有する塩基対が少なすぎる場合、リードの整列が不十分であり得る、又は整列されていない場合がある。そのため、部分的反復を有するこれらのリードの一部は、アンカー型リードとして分析されてもよく、その他のリードは、以下に更に記載されるように、アンカーリードとして分析されてもよい。
図1Bは、図1Aに示される困難を克服するために、いくつかの開示される実施形態において、ペア・エンド・リードがどのように利用され得るかを示す概略図である。ペア・エンド・シーケンシングでは、シーケンシングは、試験用サンプル中の核酸断片の両末端から生じる。図1Bの底部に示されているのは、参照配列101及びサンプル配列105、並びに図1Aに示されるものと同等のリード109及び111である。図1Bの上部に示されているのは、試験用サンプル配列105から誘導された断片125、並びに、ペア・エンド・リードの2つのリード135及び137を得るための、リード1のプライマー領域131及びリード2のプライマー領域133である。断片125は、ペア・エンド・リードのためのインサートとも呼ばれる。いくつかの実施形態では、インサートは、PCR有り又はPCR無しで増幅されてもよい。多数のGC又はGCC反復を含むものなどのいくつかの反復配列は、PCR増幅を含む従来の方法で良好に配列決定することができない。このような配列については、増幅はPCRを含まなくてもよい。その他の配列については、PCRにより増幅を実行してもよい。
図1Bに示されるインサート125は、図の下半分に示される2つの垂直矢印の側面に位置するサンプル配列105のセクションに対応する、又はそれから誘導される。具体的には、インサート125は、サンプル配列105内の長い反復107の一部に対応する反復セクション127を有する。インサートの長さは、種々の用途のために調節されてもよい。いくつかの実施形態では、インサートは、対象とする反復配列又はリピート伸長を有する反復配列よりも幾分短くてもよい。その他の実施形態では、インサートは、反復配列又はリピート伸長を有する反復配列と同様の長さを有してもよい。依然として更なる実施形態では、インサートは、反復配列又はリピート伸長を有する反復配列よりも幾分長くてもよい。このようなインサートは、以下に更に記載されるいくつかの実施形態では、メイト・ペア・シーケンシングのための長いインサートであってもよい。典型的には、インサートから得られるリードは、反復配列よりも短い。インサートはリードよりも長いため、ペア・エンド・リードは、単一のエンド・リードよりもサンプル中の反復配列のより長い伸張からより良好にシグナルを捕捉することができる。
図示されるインサート125は、インサートの2つのエッジに2つのリードプライマー領域131及び133を有する。いくつかの実施形態では、リードプライマー領域は、インサートに固有である。その他の実施形態では、プライマー領域は、ライゲーション又は伸長によってインサートに導入される。インサートの左側末端には、リード1のプライマー132のインサート125へのハイブリダイゼーションを可能にする、リード1のプライマー領域131が示されている。リード1のプライマー132の伸長は、135として標識された、第1のリード又はリード1を生成する。インサート125の右側末端には、リード2のプライマー134のインサート125へのハイブリダイゼーションを可能にする、リード2のプライマー領域133が示されており、これは、137として標識された、第2のリード又はリード2を開始する。いくつかの実施形態では、インサート125はまた、インデックスバーコード領域(ここでは図示せず)もまた含んでもよく、マルチプレックス・シーケンシングプロセスにおいて異なるサンプルを特定する機構を提供してもよい。いくつかの実施形態では、ペア・エンド・リード135及び137は、合成プラットフォームによるIlluminaのシーケンシングによって得ることができる。このようなプラットフォーム上に実施されるシーケンシングプロセスの一例は、以降、配列方法の節で更に記載されるが、本プロセスは、2つのペア・エンド・リード及び2つのインデックスリードを作成する。
次に、図1Bに示すように、得られたペア・エンド・リードは、比較的短い反復配列103を有する参照配列101に整列されてもよい。このように、一対のリードの相対位置及び方向が既知である。これにより、円111に示されるものなどの整列不可能又は整列が不十分なリードが、図1Bの底部に見られるように、リードの対応するペア・リード109を通して、サンプル配列105内の比較的長い反復配列107と間接的に関連付けられるようにすることを可能にする。例示的実施例では、ペア・エンド・シーケンシングから得られたリードは約100bpであり、インサートは約500bpである。本例示的設定では、2つのペア・エンド・リードの相対位置は、それらの3’末端から約300塩基対であり、それらは反対方向を有する。リード対間の関係は、一方のリードを反復領域により良好に関連付けることを可能にする。場合によっては、対の第1のリードは、参照配列上の反復領域の側面に位置する非反復配列と整列し、対の第2のリードは、参照配列に適切には整列しない。例えば、図1Bの下半分に示される一対のリード109a及び111aを参照すると、対の左側の1つの109aは第1のリードであり、右側の1つの111aは第2のリードである。2つのリード109a及び111aの対を考慮すると、第2のリード111aが参照配列101に整列されることができないという事実にも関わらず、第2のリード111aをサンプル配列105内の反復領域107と関連付けることができる。第1のリード109aに対する第2のリード111aの距離及び方向を知ることにより、長い反復領域107内の第2のリード111aの位置を更に決定することができる。第2のリード111aにおける繰り返しの間に破断が存在する場合、参照配列101に対する破断の位置も決定され得る。参照に整列された左側のリード109aなどのリードは、本開示のアンカーリードと呼ばれる。参照配列に整列されていないが、アンカーリードと対になった右側の1つの111aなどのリードは、アンカー型リードと呼ばれる。したがって、非整列配列は、リピート伸長にアンカーされ、これに関連付けられ得る。このようにして、長いリピート伸長を検出するために、ショートリードを使用することができる。リピート伸長を検出する課題は、典型的には、シーケンシングの困難さのために伸長の長さと共に増加するが、本明細書に開示された方法は、より短いリピート伸長配列よりもより長いリピート伸長配列からのより高いシグナルを検出することができる。これは、反復配列又はリピート伸長がより長くなるにつれて、より多くのリードが伸長領域に固定され、より多くのリードが反復領域内に完全に入り、リード毎により多くの反復が生じ得るためである。
いくつかの実施形態では、開示された方法は、アンカーリード及びアンカー型リード内に見出される反復の数の周波数分布を分析することを含む。いくつかの実施形態では、アンカー型リードのみが分析される。その他の実施形態では、アンカーリード及びアンカー型リードの両方が分析される。試験用サンプルの分布は、影響を受けたサンプルから影響を受けないサンプルを分離する経験的又は理論的に導出された基準と比較することができる。このようにして、試験用サンプルが考察中のリピート伸長を有するか否かを決定し、臨床的に関連するコールを行うことができる。
本明細書に記載された方法及び装置は、次世代シーケンシング技術(NGS)を採用することができ、これにより、大規模な並列シーケンシングを可能にする。特定の実施形態では、クローン的に増幅されたDNAテンプレート又は単一のDNA分子は、(例えば、Volkerding et al.Clin Chem 55:641-658[2009];Metzker M Nature Rev 11:31-46[2010]に記載)フローセル内で、大規模な並列様式で配列される。NGSのシーケンシング技術としては、ピロシーケンシング、リバーシブル・ダイ・ターミネータ塩基合成法(sequencing-by-synthesis with reversible dye terminators)、オリゴヌクレオチドプローブライゲーションによるシーケンシング、及びイオン半導体シーケンシングが挙げられるが、これらに限定されない。個々のサンプルからのDNAは、個々に配列決定することができる(すなわち、シングルプレックス・シーケンシング)、又は単一のシーケンシングラン上に、インデックス化されたゲノム分子として複数のサンプルからのDNAをプールして(すなわち、マルチプレックス・シーケンシング)、数百万個までのDNA配列を生成することができる。本方法による配列情報を得るために使用可能なシーケンシング技術の例を、以下に更に記載する。
DNAサンプルを使用する種々のリピート伸長分析は、シーケンサから参照配列への配列リードの整列又はマッピングを含む。参照配列は、全ゲノムの配列、染色体の配列、部分染色体領域の配列等であってもよい。計算の観点から、反復することにより整列の曖昧性が生じ、次に、染色体の計数レベル全体においてもバイアス及びエラーが生じ得る。種々の実施形態では、調節可能な挿入長さと結合されたペア・エンド・リードは、反復配列の整列における曖昧性を排除し、リピート伸長の検出を手助けすることができる。
配列グラフを使用した反復配列遺伝子座におけるバリアントの遺伝子型決定
図1Cは、いくつかの実施形態による、反復配列を含むゲノム遺伝子座を遺伝子型決定するためのプロセス140を示すフローチャートを示す。いくつかの実施形態では、遺伝子座は、ゲノム位置及びゲノム位置における遺伝子座の構造を含有するバリアントカタログにおいてあらかじめ定義される。図1D、図1E、及び図1Fは、いくつかの実施形態による3つの異なる配列グラフを示す。
図1Gは、いくつかの実施形態による、2つのSTR配列を含むHTTにおけるバリアントの遺伝子型を決定するためのプロセスの、概略図を示す。図1Gパネル(a)は、ゲノム遺伝子座及びそれらの構造を遺伝子座の仕様として含む、バリアントカタログの一部を示す。例えば、反復を無視すると、遺伝子座HTTにおける配列は、CAGCAACAGCGG(配列番号2)であり、遺伝子座CNBPにおける配列は、CAGGCAGACA(配列番号3)である。
図1Hは、いくつかの実施形態による、SNV及びSTRを含むLynch I遺伝子座におけるバリアントの遺伝子型を決定するためのプロセスの、概略図を示す。図1Hのボックス162は、遺伝子座仕様の一般構造を示し、ボックス163は、Lynch I(MSH2)の遺伝子座仕様の具体例を示す。
異質型カタログでは、遺伝子座構造は、規則的な発現構文の制限されたサブセットを使用して指定される。例えば、HDに結合された反復領域は、CAACAGの中断によって分離されたCAG及びCCG反復の可変数を有すると示す発現(CAG)CAACAG(CGG)又は配列番号2(反復無視)によって定義することができる。FRDA領域に結合された領域は、発現(A)(GAA)に対応し、SCA8に結合された領域は、(CTA)(CTG)に対応し、隣接する3つの反復からなるDM2反復領域は、(CAGG)(CAGA)(CA)又は配列番号3(反復無視)によって定義され、Lynch症候群Iを引き起こすホモポリマーに隣接するMSH2 SNVは、(A|T)(A)に対応する。
更に、通常の発現は、多対立遺伝子、又はInternational Union of Pure and Applied Chemistry(IUPAC)表記法(「Nomenclature for Incompletely Specified Bases in Nucleic Acid Sequences.Recommendations 1984.Nomenclature Committee of the International Union of Biochemistry(NC-IUB)」1986)を使用して特定することができる「縮重」塩基略号を含むことを可能にする。
縮重コドンにおける塩基に対応する不完全に特定された塩基は、本明細書の縮重塩基と呼ばれる。塩基を縮重することにより、特定の部類の不完全なDNA反復を表すことができ、例えば、異なる塩基が同じ位置で生じ得る。本表記法を使用して、発現(GCN)によってポリアラニン反復をコードすることができ、ポリグルタミン反復は、発現(CAR)によりコードすることができる。
いくつかの実施形態では、ゲノム遺伝子座に含まれる反復配列は、短タンデム反復(STR)配列を含む。いくつかの実施形態では、FTRの伸長は、脆弱X染色体症候群、筋萎縮性側索硬化症(ALS)、ハンチントン病、フリートライヒ運動失調、脊髄小脳変性症、球脊髄性筋萎縮症、筋強直性ジストロフィー、マチャド・ジョセフ病、又は歯状核赤核淡蒼球ルイ体萎縮症に関連する。
プロセス140は、データベースから試験用サンプルの核酸配列リードを収集することを含む。ブロック142を参照されたい。いくつかの実施形態では、核酸配列のリードは最初に参照ゲノムに整列されているが、本明細書のプロセスは、以下に説明するように、配列リードを対象とするゲノム遺伝子座に再整列させる。代替的な実施形態では、リードは、最初に参照ゲノムに整列されることなく、配列グラフに直接整列され得る。
プロセス140は、配列リードを、1つ以上の反復配列を含むゲノム遺伝子座についての配列に整列させることを含む。ブロック144を参照されたい。ゲノム遺伝子座の配列は、配列グラフのデータ構造を有するシステムメモリに記憶されたデータによって表される。配列グラフは、核酸配列を表す頂点、及び頂点を接続する有向エッジを有する有向グラフを含む。頂点内の核酸配列は、1つ以上の核酸塩基を含む。配列グラフは、1つ以上の自己ループを含む。各自己ループは、1つ以上の反復配列の反復配列を表す。各反復配列は、1つ以上のヌクレオチドの繰り返し単位の反復を含む。
いくつかの実施形態では、配列リードは最初に参照ゲノムに整列されて、最初に整列したリードのサブセットが1つ以上の対象とする配列を表す1つ以上の配列グラフに整列される前に、リードのゲノム座標を決定する。いくつかの実施形態では、最初に整列されたリードは、数十~数千の領域(配列グラフに対応する各領域)におけるリピート伸長を決定する。実施形態の各実施中に配列グラフに再整列される最初に整列されたリードの総数は、数千~数百万のリードの範囲であり得る。
いくつかの実施形態では、対象とする配列又は遺伝子座に最初に整列される、又はその付近にあるリードは、リードのサブセットとして選択され、サブセットは、次に、配列グラフによってそれぞれ表される配列を繰り返すように整列され、配列グラフは、1つ以上の反復配列を表す1つ以上の自己ループを有する。種々の実施形態では、対象とする配列又は遺伝子座から約10、50、100、500、1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000、50,000、100,000塩基以内のリードは、対象とする配列又は遺伝子座付近であると考えられる。いくつかの実施形態では、対象とする遺伝子座から約1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000又は10,000塩基内のリードは、対象とする遺伝子座付近にある。未加工のリードの一部は、例えば、曖昧さを残さずに整列させることが困難な反復配列を含むため、初期整列が不十分である可能性がある。いくつかの実施形態では、(例えば、整列スコアによって測定されるように)初期整列が不十分であるリードは、対象とする遺伝子座(ペア・エンド・リード対)に整列された、又はその付近に整列されたリードとそれぞれ対にされる。いくつかの実施形態では、リードを不整合にすることに関して既知のホットスポットであるオフターゲット領域に最初に整列されたリードは、配列グラフに整列される。
図1D、図1E、及び図1Fは、いくつかの実施形態による3つの異なる配列グラフを示す。図1Dは、トリヌクレオチド繰り返し単位CAGを有する反復配列を含む第1のゲノム遺伝子座を表す、第1の配列グラフ1100を示す。第1の配列グラフ1100は、それぞれ2つの隣接配列を表す頂点1102及び1112を含む。第1の配列グラフはまた、トリヌクレオチド繰り返し単位CAGを含む反復配列を表す頂点1106を含む。第1の配列グラフは、頂点1102(隣接配列)と頂点1106(CAG反復配列)とを接続する有向エッジ1104を含み、方向は頂点1102から頂点1106へと進む。エッジの方向は、2つの核酸配列の相対位置を示す。第1の配列グラフはまた、頂点1102(隣接配列)と頂点1106(CAG反復配列)とを接続する有向エッジ1104を含み、方向は頂点1102から頂点1106へと進む。第1の配列グラフはまた、頂点1106(CAG反復配列)と頂点1112(隣接配列)とを接続する有向エッジ1110を含み、方向は頂点1106から頂点1112へと進む。第1の配列グラフはまた、反復配列が、1回以上繰り返す繰り返し単位CAG(頂点1106に示される)を含むことを表す自己ループ1108を含む。配列グラフの開始頂点から終了頂点まで進む経路は、ゲノム遺伝子座の配列を表し、この配列は、隣接配列などの反復配列付近でヌクレオチドを含む場合がある。
図1Eは、第2のゲノム遺伝子座を表す第2の配列グラフ1200を示す。第2の配列グラフ1200は、それぞれ2つの隣接配列を表す頂点1202及び1224を含む。第2の配列グラフはまた、トリヌクレオチド繰り返し単位CAGを含む反復配列、及び、トリヌクレオチド繰り返し単位CCGをそれぞれ含む反復配列をそれぞれ表す、頂点1206及び頂点1216を含む。第2の配列グラフは、非反復配列CAACAGを表す頂点1212を更に含む。第2の配列グラフは、有向エッジ1204、1210、1214、及び1220を含む。これらの有向エッジは、図示されるように、頂点1202、1206、1212、1216、及び1224を有向的に接続する。第2の配列グラフはまた、反復配列が、1回以上繰り返す繰り返し単位CAG(頂点1206に示される)を含むことを表す自己ループ1208を含む。第2の配列グラフはまた、反復配列が、1回以上繰り返す繰り返し単位CCG(頂点1216に示される)を含むことを表す自己ループ1218を含む。
図1Fは、第3のゲノム遺伝子座を表す第3の配列グラフ1300を示す。第3の配列グラフ1300は、第2の配列グラフ1200に類似しているが、2つの対立遺伝子CAC及びCATを表す2つの代替経路を含む。2つの対立遺伝子は、SNV又はSNPの対立遺伝子であってもよい。有向エッジ1310、頂点1312、及び有向エッジ1314は、CACの第1の対立遺伝子を表す。有向エッジ1316、頂点1318、及び有向エッジ1320は、CATの第2の対立遺伝子を表す。第3の配列グラフは、頂点1302、1306、1322、及び1328を含む、第2の配列グラフにおけるものと類似した要素を含む。それはまた、反復配列CAG反復及びCCG反復を示す自己ループ1308及び1324を含む。これは、有向エッジ1304及び1326を更に含む。
いくつかの実施形態では、配列リードは、以下に記載される技術を使用して配列グラフに整列される。
1.Kmer指数は、配列からのkmerを与えられた際に、そのようなkmerが開始又は終了する全てのグラフノードを列挙することができるように、グラフ全体上に構築される。場合によっては、kmerは、1つのノード上で開始し得、また別のノード上で終了し得る。
2.各グラフヒットについては、2つの部分グラフを抽出するが、1つはkmerの順方向にあり、もう1つは逆方向にある。部分グラフは、残りのリード長さまでリピート伸長を展開するが、繰り返しが伸長されていないと仮定すると、残りのリード長さよりも、kmerヒットから更に離れている任意のノードを含まない。手順は、幅優先検索であり、以下を含むデータ構造を生成する。
-部分グラフ内の全てのノード配列(伸長された反復を含む)の連結
-スミス・ウォーターマン・アルゴリズム(smith-waterman algorithm)上のバックトラッキング時に、配列においてオフセットからノードIDを容易に取得することができるようなノードのインデックス
-各ノード開始オフセットに関する、エッジが入っているノード末端のオフセット配列
-塩基がノードの開始時にある又はノードの開始時にないかどうかを示すことが容易になるような、また先行のノードの全ての末端オフセットを列挙するような、各ノードのインデックス。
3.整列
-アフィンギャップを支持する。
-上記の情報及びペナルティマトリックスを所与された、配列に関する最良スコアの整列(複数可)を見つける。
2つの差分インターフェースが利用可能である。
-最良の整列及び第2の最良の整列スコアが報告される。
-最良の整列及び第2の最良の整列スコアのアレイ全体。
整列は、候補kmerと整列された配列の開始との間のギャップに関してペナルティを課す、グローバル整列である。いくつかの実施形態は、2つのコンパイル時間パラメータを微調整する。
マトリックス充填のための現在のアルゴリズムは、2つの実施形態において利用可能である。
-NMの複雑性を有する連続ループ。
-固定長さのコンパイル時間パラメータの、固定サイズのループの連続ループを16へとデフォルトで選択することにより、gccが、CPU上のSSE又はAVXベクトル命令を自動的に認識し、変換する。
いくつかの実施形態では、1つ以上の反復配列の反復配列の特定の繰り返し単位は、少なくとも1つの不完全に特定されたヌクレオチドを含む。いくつかの実施形態では、特定の繰り返し単位は、縮重コドンを含む。
いくつかの実施形態では、1つ以上の自己ループは、2つ以上の反復配列を表す2つ以上の自己ループを含む。例えば、図1E、図1F、及び図1Gのパネル(b)を参照されたい。
いくつかの実施形態では、配列グラフは、2つ以上の対立遺伝子のための2つ以上の代替経路を更に含む。例えば、図1F、参照番号1312及び1318を参照されたい。図1Hも参照すると、遺伝子座Lynch I(MSH2)に関する参照番号165及び167aでは、上部経路は核酸塩基Aの頂点を含み、下部経路は核酸塩基Tの頂点を含む。
いくつかの実施形態では、2つ以上の対立遺伝子はインデル又は置換を含む。いくつかの実施形態では、置換は、一塩基バリアント(SNV)又は一塩基多型(SNP)を含む。例えば、図1F、参照番号1312及び1318を参照されたい。
いくつかの実施形態では、配列リードを配列グラフに整列することは、配列リードと配列グラフの経路との間のkmer整合を発見することと、次に、この経路を完全な整列に延長させることと、を含む。いくつかの実施形態では、整列は、経路の周囲の部分グラフを抽出することと、部分グラフ内の任意のループを非ローリングして、有向非環式グラフを取得することと、有向非環式グラフに対する配列リードのスミス・ウォーターマン整列を実行することと、を含む。
いくつかの実施形態では、配列リードを配列グラフに整列させることは、整列の低い信頼性という結果を排除することによるグラフの縮小を含む。リードがグラフに整列された後、本方法は、その他の類似の代替的整列を検索する。これは、元のリードを元の整列の経路と重なり合うグラフを通る経路に再整列させることによって行われる。これにより、例えば、初期整列の一方又は両方の末端が低い信頼性を有する場合を検出することができ、これは、それらが異なる方法で整列された可能性があることを示す。整列の高い信頼部及び低い信頼部を検出することが可能であることにより、どの遺伝子バリアントをリードが支持するかを正確に決定することができる。
いくつかの実施形態では、配列リードを配列グラフに整列させることは、リードの部分配列を配列グラフに整列させること、及び部分配列の配列を併合して配列リードの完全な配列を形成することによる整列併合を含む。
いくつかの実施形態では、本プロセスはまた、ゲノム遺伝子座の遺伝子座構造を含む遺伝子座の仕様に基づいて、配列グラフを生成することを含む。いくつかの実施形態では、遺伝子座の仕様は、上記で説明したようなバリアントカタログに定義される。
HTT遺伝子座の配列グラフへのリード整列の概略図に関する、図1Gのパネル(b)~(d)も参照されたい。図1Hは、遺伝子座Lynch I(165)などの、配列グラフへのリードの整列を実行するための遺伝子座分析器164を概略的に示す。
プロセス140は、配列グラフに整列された配列リードを使用して、1つ以上の反復配列の1つ以上の遺伝子型を決定することを更に含む。ブロック140を参照されたい。HTT遺伝子座において2つのSTR(CAG及びCCG)を決定することを示す、図1Gのパネル(e)も参照されたい。CAGの反復を含む左の配列は、CAGCAGCAGCAGCAG(配列番号4)である。CCGの反復を含む左の配列は、CCGCCGCCGCCGCCG(配列番号5)である。
図1Hは、A/T対立遺伝子(169a)及びAモノマー反復(169b)を有するSNVを含むLynch I遺伝子座におけるバリアントを決定するための、バリアント遺伝子型決定器モジュール(168)を示す。図1Hはまた、配列整列データをキュレーティングし、それらをバリアント遺伝子型決定器(168)に提供するためのバリアント分析器モジュール(166)、及び、A/T対立遺伝子(167a)及びAモノマー反復(167b)を有するSNVのためのバリアント分析器の実施例を示す。遺伝子型から得られる遺伝子座結果は、図1Hのボックス170に示され、具体的には、A/T対立遺伝子(171a)及びAモノマー反復(171b)を有するSNVの遺伝子型として示される。
いくつかの実施形態では、配列グラフは、2つの対立遺伝子のための2つの代替経路を含み、方法は、2つ以上の代替経路に整列された配列リードを使用して2つ以上の対立遺伝子を遺伝子型決定することを更に含む。いくつかの実施形態では、2つ以上の対立遺伝子を遺伝子型決定することは、2つ以上の対立遺伝子の確率を決定するために、2つ以上の代替経路の適用範囲を確率モデルに提供することを含む。いくつかの実施形態では、確率モデルは、対立遺伝子の適用範囲の関数として対立遺伝子の確率をシミュレートするが、関数は、ポアソン分布、負の二項分布、二項分布、又はベータ二項分布から選択される。
いくつかの実施形態では、確率関数はポアソン分布であり、その速度パラメータは、ゲノム遺伝子座において観察されるリード長さ及び平均深度から推定される。
ポアソン系のモデルでは、対立遺伝子の確率は以下のように表される。
P(Y=y)=(C×e-C)/y!
yは、塩基のリード確率である。
Cは、ゲノム遺伝子座における平均深度である。
いくつかの実施形態では、平均深度Cは
C=LN/Gとして推定される。
Gは、ゲノム遺伝子座の長さである。
Lは、リード長さである。
Nは、全てのリードの数である。
グラフツールライブラリ
いくつかの実施形態では、基本的な配列グラフの機能性は、グラフツールライブラリ(GraphTools library)を適用する。ライブラリは、コアグラフの抽出(グラフ自体、グラフ経路、及びグラフ整列)、それらの動作、及び線形配列をグラフに整列するためのアルゴリズムを実装する。
いくつかの実施形態では、配列グラフは、ノード及び有向エッジからなる。グラフは、自己ループ(ノードをそれ自体に接続するエッジ)を含むことが可能だが、その他のサイクルは含まない。ノードは、コア塩基及びIUPAC縮重塩基コードからなる配列を含む。
グラフ経路は、経路が第1のノード上の経路の開始位置及び最後のノード上の終了位置と一緒に通過するノードの配列によって定義される。位置は、ゼロ基準の半開放座標システムを使用して特定される。ライブラリは、経路伸長及び縮小、重複チェック、及び経路併合を含む経路上での複数の動作を定義する。
グラフ整列は、線形クエリ配列(通常、配列決定されたリード)がグラフにどのように整列されるかをコードする。いくつかの実施形態では、グラフ整列は、グラフ経路と、グラフ経路のノードに対するクエリ配列の整列を定義する線形整列の配列、とを含む。経路上の対応する動作を使用して、グラフ整列を縮小する、又はその他のグラフ整列と併合することができる。経路縮小は、信頼性が低い整列末端を除去するための機構を提供し、一方で、整列併合は、部分配列(例えば、kmer)の整列からクエリ配列の完全な整列を縫い合わせるためのグラフ整列アルゴリズムによって使用される。いくつかの実施形態では、整列アルゴリズムは、クエリ配列とグラフとの間のkmer整合を見つけることによって動作し、次に、この整合を完全整列に伸長させる。いくつかの実施形態では、整列は、kmer整合に対応する経路の周囲の部分グラフを抽出すること(プロセス内の任意のループを非ローリングすること)を含む。次に、それは、得られた有向非環式グラフに対してスミス・ウォーターマン整列を実行する。いくつかの実施形態では、アルゴリズムは、アフィンギャップペナルティを支持し、かつ、コンパイルがSIMDコードを生成することを可能にするために、定長ループ(constant-length loops)を使用して書き込まれる。
いくつかの実施形態では、検索アルゴリズムを用いてグラフ経路を取得することができるが、検索アルゴリズムは、整列が検索基準又は収束に達する(例えば、整列スコアが最大になる)まで、自己ループによって表される繰り返し単位の反復数を増加又は減少させることによって、経路を伸長又は縮小することを伴う。
いくつかの実施形態では、複数のグラフ経路は、配列グラフから生成され、各グラフ経路は、自己ループによって表される繰り返し単位の特定の反復数を表す。クエリ配列は、複数のグラフ経路に整列され、次に、整列基準を満たす経路は、グラフ整列のために選択される。
アプリケーション・アーキテクチャ
いくつかの実施形態は、標的型バリアント遺伝子型決定のための一般的なツールとして設計される(図1H)。各実行中、プログラムは、バリアントのセットを遺伝子型にするように試みる。
バリアントカタログファイルに記載されている。互いに近接して位置するバリアントは、同じ遺伝子座にグループ化される。遺伝子座構造は、規則的な発現(RE)構文の制限されたサブセットを使用して指定される。Resは、コア塩基略号及びIUPAC縮重塩基コードからなるアルファベットの上に配列を含み、場合により、配列の中断によって分離される、1つ以上の発現(<配列>)?、(<配列a>|<配列b>)、(<配列>)、(<配列>)+を含有しなければならない。これらの表現は、挿入/欠失、置換、0回以上反復する配列、及びそれぞれ少なくとも1回反復する配列に対応する。更に、各遺伝子座の説明は、各構成バリアントの遺伝子座及び基準座標のための1組の参照領域を含む。
作業のバルクは、初期化中に対応するREからの遺伝子座を表す配列グラフを合成する遺伝子座分析器(Locus Analyzer)クラスの対象物によって、調和を保ちながら編成される。初期化後、遺伝子座分析器は、それらをグラフに整列させ、次に、得られた整列を、遺伝子座に含まれる各バリアントについて定義されるバリアント分析器(Variant Analyze)に通過させることによって、関連するリードを処理する。バリアント分析器は、関連するバリアントを遺伝子型決定するために関連する情報を抽出し、それを実際の遺伝子型決定を実行する遺伝子型決定器に通過させる。次に、各遺伝子型決定器によって出力された結果を使用して、出力VCFファイルを作成する。
例えば、Lynch I症候群に関連する病原性バリアントによる遺伝子座の処理に関与する遺伝子座分析器は、SNV分析器及びSTR分析器(図S1、右パネル)を利用する。
インデル遺伝子型決定器
いくつかのSTRは、近くに小さい挿入又は欠失(インデル)を有する場合がある。このようなインデルは、STRの隣接配列における追加の部分グラフとしてモデル化される。各対立遺伝子(又はグラフ経路)に位置づけられたリードの数は、ポアソン分布でモデル化され、その速度パラメータは、遺伝子座において観察される平均深度及びリード長さから推定される。遺伝子型の尤度は、ベイズフレームワーク下で計算される。
リピート伸長の特定
本明細書に開示された実施形態を使用すると、従来の方法と比較して高い効率、感度、及び/又は選択性を有するリピート伸長に関連する、種々の遺伝的条件を決定することができる。本発明のいくつかの実施形態は、反復配列を完全に横断しない配列リードを使用して、脆弱X染色体症候群において精神遅滞を引き起こすCGGリピート伸長などの医学的に関連するリピート伸長を特定及びコーリングするための方法を提供する。100bpのリードなどのショートリードは、多くのリピート伸長を介して配列するのに十分な長さではない。しかしながら、開示された方法で分析された場合、リピート伸長を有するサンプルは、多数の反復配列を含有する統計的に有意な過剰のリードを示す。加えて、非常に大きいリピート伸長は、両方のリードが反復配列から完全に又はほぼ完全に構成される、非整列リード対を含む。標準サンプルを使用して、バックグラウンド予想を特定する。
従来の確信は、反復全体に及ぶリード無しでリピート伸長を検出することができないということである。リピート伸長を検出する前のアプローチは、反復配列に及ぶのに十分な長さではないリード故に非正常であった場合に、長いリードを有する標的シーケンシングを使用する。いくつかの開示された実施形態の結果は、通常(非標的)配列データを使用し、かつ約100bpのみのリード長さを使用するために、驚くべきことにある程満たされてきたが、リピート伸長を検出すことに関して非常に高い感度をもたらす。本明細書に記載される方法は、反復配列全体の長さより短いインサート長さ(すなわち、2つの配列リード及び介在配列)を有するペア・リードを使用して、リピート伸長中の繰り返し単位の数を検出することができる。
いくつかの実施形態によるリピート伸長の存在を決定するための方法の詳細を参照すると、図2は、サンプル中の反復配列のリピート伸長の有無を判定するための実施形態の、高レベルの描写を提供するフロー図を示す。反復配列は、繰り返し単位と呼ばれる短い配列の反復的な外観を含む核酸配列である。上記表1は、繰り返し単位の例、通常及び病原性配列の反復配列における繰り返し単位の反復数、反復配列に関連する遺伝子、並びにリピート伸長に関連する疾患の例を提供する。図2のプロセス200は、試験用サンプルのペア・エンド・リードを取得することによって開始する。ブロック202を参照されたい。ペア・エンド・リードは、対象とする反復配列を含む参照配列に整列されるように処理されている。いくつかの構文では、整列プロセスは、マッピングプロセスとも呼ばれる。試験用サンプルは、核酸を含み、また以下のサンプルの節に更に記載されるような体液、組織等の形態であってもよい。配列リードは、参照配列に位置づけられる整列プロセスを受けている。本開示のその他の箇所に記載されるように、種々の整列ツール及びアルゴリズムを使用して、参照配列へのリードの整列を試みてもよい。通常、整列アルゴリズムでは、いくつかのリードは、参照配列に正常に整列されているが、一方で、その他のリードは、参照配列に正常に整列されていなくてもよい、又は参照配列に整列されていなくてもよい。参照配列に連続的に整列されたリードは、参照配列上の部位に関連する。整列されたリード及びそれらの関連部位は、配列タグとも呼ばれる。上述したように、多数の反復を含むいくつかの配列リードは、参照配列と整列させることがより困難である傾向がある。リードが、特定の基準よりも多くの不整合な塩基を有する参照配列に整列される場合、リードの整列が不十分であると見なされる。種々の実施形態では、少なくとも約1、2、3、4、5、6、7、8、9又は10の不整合と整列される場合には、リードの整列が不十分であると見なされる。その他の実施形態では、少なくとも約5%の不整合と整列される場合には、リードの整列が不十分であると見なされる。その他の実施形態では、少なくとも約10%、15%、又は20%の不整合塩基と整列される場合には、リードの整列が不十分であると見なされる。
図2に示すように、プロセス200は、ペア・エンド・リード内のアンカーリード及びアンカー型リードを特定するように進行する。ブロック204を参照されたい。アンカーリードは、対象とする反復配列に整列された、又はその近くにある、ペア・エンド・リード間のリードである。例えば、アンカーリードは、インサートの配列長よりも短い配列長によって反復配列から分離された参照配列上の位置に整列させることができる。分離長さはより短くてもよい。例えば、アンカーリードは、アンカーリードの配列長さよりも短い配列長さだけ、又はアンカーリードと、アンカーリードをアンカー型リードに接続する配列(すなわち、アンカー型リードの長さを差し引いたインサートの長さ)とが組み合わされた配列長さ未満である配列長さだけ、反復配列から分離された参照配列上の位置に、整列することができる。いくつかの実施形態では、反復配列は、繰り返し単位CGGの反復を含むFMR1遺伝子における反復配列であってもよい。通常の参照配列では、FMR1遺伝子中の反復配列は、繰り返し単位CGGの約6~32の反復を含む。反復が200コピーを超えて伸長すると、リピート伸長は病原性になり、脆弱X染色体症候群を引き起こす傾向がある。いくつかの実施形態では、対象とする反復配列の1000bp以内に整列された場合に、対象とする配列の近くでリードが整列されると考えられる。その他の実施形態では、このパラメータは、約100bp、200bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp、1500bp、2000bp、3000bp、5000bp等の範囲内などに調節されてもよい。加えて、これはまた、アンカーリードと対になったリードであるが、それらの参照配列との整列が不十分である、又は整列されることができない、アンカー型リードも特定する。不十分な整列リードの更なる詳細については、上述した通りである。
プロセス200は、反復配列のリピート伸長が、特定されたアンカー型リードに少なくとも部分的に基づいて、試験用サンプル中に存在する可能性があるかどうかを決定することを更に含む。ブロック206を参照されたい。この決定工程は、以下に更に記載されるように、種々の好適な分析及び計算を含むことができる。いくつかの実施形態では、プロセスは、特定されたアンカーリード、並びにアンカー型リードを使用して、リピート伸長が存在する可能性があるかどうかを決定する。いくつかの実施形態では、特定されたアンカー及びアンカー型リードにおける反復の数が分析され、理論的に導出された又は影響を受けた対照サンプルの経験的データから導出された1つ以上の基準と比較される。
本明細書に記載された種々の実施形態では、反復は、フレーム内反復として得られ、同じ繰り返し単位の2つの反復が同じリードフレームに入る。リードフレームは、核酸(DNA又はRNA)分子中のヌクレオチド配列を、連続した非重複トリプレットのセットに分割する方法である。翻訳中、トリプレットはアミノ酸をコードし、コドンと呼ばれる。したがって、任意の特定の配列は、3つの可能なリードフレームを有する。いくつかの実施形態では、反復は3つの異なるリードフレームに従って計数され、3つのカウントの最大は、読み取られる対応する反復の数であると決定される。
追加の動作及び分析を伴うプロセスの一例を図3に示す。図3は、多数の反復を有するペア・エンド・リードを使用してリピート伸長を検出するためのプロセス300を示す、フロー図を示す。プロセス300は、試験用サンプルを処理するための追加の上流を含む。本プロセスは、核酸を含む試験用サンプルをシーケンシングして、ペア・エンド・リードを得ることによって開始する。ブロック302を参照されたい。いくつかの実施形態では、試験用サンプルは、以下のサンプル節に更に記載されるように、種々の方法で得られ、調製されてもよい。例えば、試験用サンプルは、生物学的流体、例えば、血漿、又は以下に記載される任意の好適なサンプルであってもよい。サンプルは、単純な血液引き込みなどの非侵襲的処置を使用して得ることができる。いくつかの実施形態では、試験用サンプルは、核酸分子、例えば、cfDNA分子の混合物を含有する。いくつかの実施形態では、試験用サンプルは、胎児及び母体cfDNA分子の混合物を含有する母体血漿サンプルである。
シーケンシング前に、核酸をサンプルから抽出する。好適な抽出プロセス及び装置は、本明細書のその他の箇所に記載される。いくつかの実施形態では、装置は、多重化されたライブラリ及び配列データを提供するために、複数のサンプルの合計からのDNAを処理する。いくつかの実施形態では、装置20は、8つ以上の試験用サンプルからのDNAを並列に処理する。以下に記載されるように、シーケンシングシステムは、抽出されたDNAを処理して、コード化された(例えば、バーコード化された)DNA断片のライブラリを生成することができる。
いくつかの実施形態では、試験用サンプル中の核酸は、以下のシーケンシングライブラリ調製セクションに更に記載されるように、マルチプレックス・シーケンシング又はシングルプレックス・シーケンシングのためのシーケンシングライブラリを調製するために、更に処理されてもよい。サンプルが処理及び調製された後、核酸のシーケンシングは、種々の方法によって実行してもよい。いくつかの実施形態では、以下の配列方法の節に更に記載される、種々の次世代シーケンシングプラットフォーム及びプロトコルが採用されてもよい。
特定のシーケンシングプラットフォーム及びプロトコルに関わらず、ブロック302において、サンプル中に含有される核酸の少なくとも一部が配列決定されて、数十万、数百万、又は数百万個の配列リード(例えば、100bpのリード)を生成する。いくつかの実施形態では、リードは、ペア・エンド・リードを含む。図5に関して以下に記載されるものなどのその他の実施形態では、ペア・エンド・リードに加えて、数百、数千、又は数十万個の塩基を含むシングル・エンド・ロングリードを使用して反復配列を決定してもよい。いくつかの実施形態では、配列リードは、約20bp、約25bp、約30bp、約35bp、約36bp、約40bp、約45bp、約50bp、約55bp、約60bp、約65bp、約70bp、約75bp、約80bp、約85bp、約90bp、約95bp、約100bp、約110bp、約120bp、約130、約140bp、約150bp、約200bp、約250bp、約300bp、約350bp、約400bp、約450bp、又は約500bpを含む。技術的進歩は、500bpを超えるシングル・エンド・リードを可能にし、ペア・エンド・リードが生成された場合に、約1000bpを超えるリードを可能にすることが予想される。
プロセス300は、ブロック302から得られたペア・エンド・リードを、反復配列を含む参照配列に整列させるように進行する。ブロック304を参照されたい。いくつかの実施形態では、反復配列は伸長しやすい。いくつかの実施形態では、リピート伸長は、遺伝病に関連することが知られている。その他の実施形態では、反復配列のリピート伸長は、遺伝病との関連性を確立するためにこれまでは研究されていない。本明細書に開示された方法は、任意の関連する病理に関わらず、反復配列及びリピート伸長の検出を可能にする。いくつかの実施形態では、リードは、例えば、hg18のような参照ゲノムに整列される。その他の実施形態では、リードは、参照ゲノム、例えば、染色体又は染色体セグメントの一部に整列される。参照ゲノムに固有にマップするリードは、配列タグとして知られている。一実施形態では、少なくとも約3×10の限定された配列タグ、少なくとも約5×10の限定された配列タグ、少なくとも約8×10の限定された配列タグ、少なくとも約10×10の限定された配列タグ、少なくとも約15×10の限定された配列タグ、少なくとも約20×10の限定された配列タグ、少なくとも約30×10の限定された配列タグ、少なくとも約40×10の限定された配列タグ、又は少なくとも約50×10の限定された配列タグが、参照ゲノムに固有に位置づけるリードから得られる。
いくつかの実施形態では、プロセスは、整列前に配列リードをフィルタリングすることができる。いくつかの実施形態では、リードのフィルタリングは、誤リード及び低品質のリードをフィルタリングするためにシーケンサに実装されたソフトウエアプログラムによって有効化される、品質フィルタリングプロセスである。例えば、Illumina’s Sequencing Control Software(SCS)及びConsensus Assessment of Sequence and Variationソフトウエアプログラムは、シーケンシング反応によって生成された原画像データを強度スコア、塩基コール、品質スコア整列、及び下流分析のための生物学的に関連する情報を提供するための追加フォーマットへと変換することにより、誤リード及び低品質リードをフィルタリングする。
特定の実施形態では、シーケンシング装置によって生成されるリードは、電子フォーマットで提供される。整列は、以下に記載されるような計算装置を使用して達成される。個々のリードは、参照ゲノムと比較されるが、これは、多くの場合、リードが参照ゲノムに固有に対応する部位を特定するには膨大(数百万個の塩基対)である。いくつかの実施形態では、整列手順は、リードと参照ゲノムとの間の不整合を制限することが可能である。場合によっては、リードにおける1、2、3以上の塩基対は、参照ゲノム内の対応する塩基対の不整合を許容し、更にマッピングは依然として行われる。いくつかの実施形態では、リードが1、2、3、又は4以下の塩基対を有する参照配列に整列された場合、リードは、整列したリードと見なされる。それに対応して、非整列リードは、整列されることができない又は整列が不十分なリードである。整列が不十分なリードは、整列したリードよりも多くの不整合を有するリードである。いくつかの実施形態では、リードが1%、2%、3%、4%、5%、又は10%以下の塩基対を有する参照配列に整列された場合、リードは、整列したリードと見なされる。
ペア・エンド・リードを、対象とする反復配列を含む参照配列に整列させた後、プロセス300は、ペア・エンド・リード間のアンカーリード及びアンカー型リードを特定する。ブロック306を参照されたい。上述したように、アンカーリードは、反復配列に、又はその近くで整列されたエンド・リードである。いくつかの実施形態では、アンカーリードは、反復配列の1kb以内に整列されるペア・エンド・リードである。アンカーリードは、アンカー型リードと対になっているが、上述のように、参照配列に整列され得ない又は参照配列への整列が不十分である。
プロセス300は、反復配列の伸長の有無を決定するために、特定されたアンカーリード及び/又はアンカー型リード内の繰り返し単位の反復数を分析する。より具体的には、プロセス300は、アンカーリード及び/又はアンカー型リード内の多数の高カウントリードを取得するために、リード内の反復数を使用することを含む。高カウントリードは、閾値よりも多くの反復を有するリードである。いくつかの実施形態では、高カウントリードは、アンカー型リードからのみ取得される。その他の実施形態では、高カウントリードは、アンカーリード及びアンカー型リードの両方から取得される。いくつかの実施形態では、反復の数が、読み取られることが可能な反復の最大数に近い場合、リードは、高カウントリードと見なされる。例えば、リードが100bpであり、考察中の繰り返し単位が3bpである場合、反復の最大数は33である。換言すれば、最大値は、ペア・エンド・リードの長さ及び繰り返し単位の長さから計算される。具体的には、繰り返しの最大数は、リード長さを繰り返し単位の長さで除算し、数字の端数を切り下げることよって取得してもよい。本実施例では、種々の実施形態は、少なくとも約28、29、30、31、32、又は33の反復を有する100bpのリードを、高カウントリードとして特定してもよい。反復の数は、経験的要因及び考慮事項に基づいて、高カウントリードに関して上方又は下方に調整されてもよい。種々の実施形態では、高カウントリードの閾値は、反復の最大数の少なくとも約80%、85%、90%、又は95%である。
次に、プロセス300は、反復配列のリピート伸長が、高カウントリードの数に基づいて存在する可能性が高いかどうかを判定する。ブロック310を参照されたい。いくつかの実施形態では、分析は、取得された高カウントリードをコール基準と比較し、基準を超えた場合にリピート伸長が存在する可能性が高いと決定する。いくつかの実施形態では、コール基準は、対照サンプルの高カウントリードの分布から取得される。例えば、通常の反復配列を有する又は有することを疑われることが知られている複数の対照サンプルが分析され、上記と同様の対照サンプルについて高カウントリードが取得される。対照サンプルの高カウントリードの分布を取得することができ、特定値よりも多くの高カウントリードを有する影響を受けないサンプルの確率を推定することができる。この確率は、この特定の値に設定されたコール基準を所与して、感度及び選択性の決定を可能にする。いくつかの実施形態では、コール基準は閾値に設定され、それによって、閾値よりも多くの高カウントリードを有する影響を受けないサンプルの確率が5%未満になる。換言すれば、p値は0.05よりも小さい。これらの実施形態では、反復配列が伸長するにつれて、反復配列はより長くなり、反復配列内で完全に生じることが可能であり、より多くの高カウントリードをサンプルに対して得ることができる。種々の代替実施例では、より低めのコール基準は、閾値よりもより高い高カウントリードを有する影響を受けないサンプルの確率が約1%、0.1%、0.01%、0.001%、0.0001%未満等であるように選択されてもよい。コール基準は、種々の因子に基づいて上方又は下方に調整することができ、また試験の感度又は選択性を高める必要があることが理解されるであろう。
いくつかの実施形態では、対照サンプルからの高カウントリードの数のコール基準を経験的に取得する代わりに、又はそれに加えて、リピート伸長を決定するためにコール基準を理論的に取得してもよい。ペア・エンド・リードの長さ、リピート伸長を有する配列の長さ、及びシーケンシング深度を含む多数のパラメータを考慮して、反復内に完全に存在するリードの予測数を計算することが可能である。例えば、シーケンシング深度を使用して、整列されたゲノム内のリード間の平均間隔を計算することができる。個々のサンプルを30xの深度に配列決定した場合、配列決定された全塩基は、深度を乗じたゲノムのサイズに等しい。ヒトについては、これは、約3x10x30=9x1010になる。各リードが100bpの長さである場合、この深度を達成するために必要とされる合計9x10のリードが存在する。ゲノムは二倍体であるため、これらのリードの半分は1つの染色体/ハプロタイプをシーケンシングし、残りはその他の染色体/ハプロタイプをシーケンシングする。ハプロタイプ当たり、4.5×10個のリードが存在し、この数で全ゲノムサイズを除算することで、各リードの開始位置間の平均間隔(すなわち、平均6.7bp毎に3x10/4.5x10=1の平均間隔)が得られる。この数を使用して、特定の個体におけるその反復配列のサイズに基づいて、反復配列内で完全になり得るリードの数を推定することができる。反復配列の合計サイズが300bpである場合、その反復配列の最初の200bp内で開始する任意のリードは、反復配列内で完全になり得る(最後の100bp内で開始する任意のリードは、100bpのリード長さに基づいて、少なくとも、部分的に反復配列の外側になる)。リードが6.7bp毎に整列し得ることが予想されるため、200bp/(6.7bp/リード)=30のリードが、反復配列内で完全に整列することが予想される。この数の周囲に変動性があるが、これにより、任意の伸長サイズに関して反復配列内で完全になり得る全リードを推定することが可能になる。反復配列の長さ及び本方法に従って計算された反復配列中で完全に整列した対応する予想される数のリード数を、以下の実施例1の表2に示す。
いくつかの実施形態では、コール基準は、リード内の反復配列の最初の観察と最後の観察との間の距離から計算され、したがって、反復配列及びシーケンシングエラーにおける変異を可能にする。
いくつかの実施形態では、プロセスは、脆弱X染色体症候群、ALS、ハンチントン病、フリートライヒ運動失調、脊髄小脳変性症、球脊髄性筋萎縮症、筋強直性ジストロフィー、マチャド・ジョセフ病、歯状核赤核淡蒼球ルイ体萎縮症等などの遺伝病の危険性の上昇を伴うサンプルが得られる個体の診断を更に含んでもよい。このような診断は、リピート伸長が試験用サンプル中に存在する可能性が高く、また遺伝子及びリピート伸長を伴う反復配列上に存在する可能性が高い、という決定に基づいてもよい。その他の実施形態では、遺伝病が知られていない場合、いくつかの実施形態は、異常に高い反復数を検出して、疾患の遺伝的原因を新たに特定することができる。
図4は、いくつかの実施形態による、リピート伸長を検出するための別のプロセスを示すフローチャートである。プロセス400は、高カウントリードではなく試験用サンプルのペア・エンド・リード内の反復数を使用して、リピート伸長の存在を決定する。プロセス400は、核酸を含む試験用サンプルをシーケンシングして、ペア・エンド・リードを得ることによって開始する。プロセス300のブロック302と同等のブロック402を参照されたい。プロセス400は、ペア・エンド・リードを、反復配列を含む参照配列に整列させることによって継続する。プロセス300におけるブロック304と同等のブロック404を参照されたい。本プロセスは、ペア・エンド・リードにおけるアンカーリード及びアンカー型リードを特定することによって進行するが、アンカーリードは、反復配列に整列するリード又はその近くで整列するリードであり、アンカー型リードは、アンカーリードと対になった非整列リードである。いくつかの実施形態では、非整列リードは、参照配列に整列されることができないリードと、参照配列への整列が不十分なリードと、の両方を含む。
アンカーリード及びアンカー型リードを特定した後、プロセス400は、試験用サンプルからアンカーリード及び/又はアンカー型リード内の反復数を取得する。ブロック408を参照されたい。次に、本プロセスは、試験用サンプルから取得された全てのアンカーリード及び/又はアンカー型リードに関する反復数の分布を取得する。いくつかの実施形態では、アンカー型リードからの反復数のみが分析される。その他の実施形態では、アンカーリード及びアンカー型リードの両方の反復が分析される。次に、試験用サンプルの反復数の分布を、1つ以上の対照サンプルの分布と比較する。ブロック410を参照されたい。いくつかの実施形態では、プロセスは、試験用サンプルの分布が対照サンプルの分布と統計的に有意に異なる場合、反復配列のリピート伸長が試験用サンプル中に存在すると決定する。ブロック412を参照されたい。プロセス400は、プロセス300に関して上述したような、高カウントリードのみを分析するプロセスとは異なる、高カウントリード並びに低カウントリードを含むリードの反復数を分析する。
いくつかの実施形態では、試験用サンプルの分布と対照サンプルの分布との比較は、マン・ホイットニーランク試験を使用して、2つの分布が有意に異なるかどうかを決定することを含む。いくつかの実施形態では、分析は、試験用サンプルの分布が対照サンプルに対してより高い反復数に向かってより多く傾いている場合に、試験用サンプル中にリピート伸長が存在する可能性が高いと決定し、マン・ホイットニーランク試験のp値は、約0.0001又は0.00001よりも小さい。p値は、試験の選択性又は感度を改善するために必要に応じて調整され得る。
図2~図4に関して上述されたリピート伸長を検出するためのプロセスは、アンカー型リードを使用するが、これは、対象とする反復配列に整列されたリードと対になった、非整列リードである。これらのプロセスの変形形態は、医療的に適切であり得る、新しい、これまでに特定されていないリピート伸長を発見するために、両方ともいくつかの種類の反復配列でほぼ完全に構成されている、リード対の非整列リードを介して検索することを含むことができる。本方法は、反復の正確な数を定量化するものではないが、更なる定量化のためにフラグ付けされるべき極端なリピート伸長又は異常値を特定するのに強力である。本方法をより長いロングリードと組み合わせることにより、全長で最大200bp以上の反復を特定及び定量化の両方を行うことができる。
図5は、リピート伸長を特定するために、対象とする任意の反復配列に関連していない非整列リードを使用するプロセス500のフロー図を示す。プロセス500は、リピート伸長を検出するために、ゲノム全体の非整列リードを使用してもよい。本プロセスは、核酸を含む試験用サンプルをシーケンシングして、ペア・エンド・リードを得ることによって開始する。ブロック502を参照されたい。プロセス500は、ペア・エンド・リードを参照ゲノムに整列させることによって進行する。ブロック504を参照されたい。次に、本プロセスは、ゲノム全体に関する非整列リードを特定する。非整列リードは、参照配列に整列されることができない、又は参照配列への整列が不十分である、ペア・エンド・リードを含む。ブロック506を参照されたい。次に、本プロセスは、非整列リードにおける繰り返し単位の反復数を分析して、リピート伸長が試験用サンプル中に存在する可能性が高いかどうかを決定する。本分析は、任意の特定の反復配列については分かりかねるものである。分析は、種々の潜在的繰り返し単位に適用することができ、試験用サンプルからの異なる繰り返し単位の反復数を、複数の対照サンプルのものと比較することができる。上記の試験用サンプルと対照サンプルとの間の比較技術を、本分析に適用することができる。比較が、試験用サンプルが繰り返し単位の異常に多数の反復を有することを示す場合、試験用サンプルが対象の特定の反復配列のリピート伸長を含むかどうかを決定するために、追加の分析が実行されてもよい。ブロック510を参照されたい。
いくつかの実施形態では、追加の分析は、医学的に適切なリピート伸長を有する長い反復配列に及ぶ可能性がある、非常に長い配列リードを含む。本追加の分析におけるリードは、ペア・エンド・リードよりも長い。いくつかの実施形態では、単一分子シーケンシング又は合成ロングリードシーケンシングを使用して、ロングリードを取得する。いくつかの実施形態では、リピート伸長と遺伝病との間の関係は、当該技術分野において既知である。しかしながら、その他の実施形態では、リピート伸長と遺伝病との間の関係は、当該技術分野において確立される必要はない。
いくつかの実施形態では、動作510の非整列リードにおける繰り返し単位の反復数を分析することは、図3の動作308と同等の高カウント分析を含む。分析は、高カウントリードの数を取得することを含み、この高カウントリードは、閾値よりも多い反復を有する非整列リードであり、また試験用サンプル中の高カウントリードの数をコール基準と比較することを含む。いくつかの実施形態では、高カウントリードの閾値は、反復の最大数の少なくとも約80%であり、この最大値は、繰り返し単位の長さにわたるペア・エンド・リードの長さの比率として計算される。いくつかの実施形態では、高カウントリードはまた、非整列リードと対になっており、また閾値よりも反復性を有するリードも含む。
いくつかの実施形態では、動作510の更なる分析の前に、プロセスは、(a)非整列リードと対になっており、参照ゲノム上の反復配列上で又はその近くで整列されるペア・エンド・リードを特定することと、(b)動作510のための対象とする特定の反復配列として反復配列を提供することと、を更に含む。次に、対象とする反復配列の更なる分析は、図2~図4に関連して上述された方法のいずれかを採用することができる。
サンプル
リピート伸長を決定するために使用されるサンプルは、対象とする1つ以上の反復配列のリピート伸長が決定される核酸を含む任意の細胞、流体、組織、又は器官から採取されたサンプルを含むことができる。胎児の診断を伴ういくつかの実施形態では、無細胞核酸、例えば、無細胞DNA(cfDNA)を母体体液から得ることが有利である。無細胞DNAを含む無細胞核酸は、血漿、血清、及び尿を含む生物学的サンプルから当該技術分野において既知の種々の方法によって得ることができる(例えば、Fan et al.,Proc Natl Acad Sci 105:16266-16271[2008]、Koide et al.,Prenatal Diagnosis 25:604-607[2005]、Chen et al.,Nature Med.2:1033-1035[1996]、Loら、Lo et al.,Lancet 350:485-487[1997]、Botezatu et al.,Clin Chem.46:1078-1084,2000、及びSu et al.,J Mol.Diagn.6:101-107[2004]を参照されたい)。
種々の実施形態では、サンプル中に存在する核酸(例えば、DNA又はRNA)は、使用前に(例えば、シーケンシングライブラリを調製する前に)特異的に又は非特異的に濃縮され得る。DNAは、以下の例示的実施例における核酸の例として使用される。サンプルDNAの非特異的濃縮とは、cfDNAシーケンシングライブラリを調製する前にサンプルDNAのレベルを増加させるために使用することができる、サンプルのゲノムDNA断片のゲノム増幅全体を意味する。全ゲノム増幅法は、当該技術分野において既知である。変性オリゴヌクレオチドプライムPCR法(Degenerate oligonucleotide-primed PCR(DOP))、プライマー伸長PCR技術(primer extension PCR technique(PEP))、及び多置換増幅法(multiple displacement amplification(MDA))は、全ゲノム増幅法の例である。いくつかの実施形態では、サンプルはDNAに関して濃縮されていない。
本明細書に記載された方法が適用される核酸を含むサンプルは、典型的には、上記のような生体サンプル(「試験用サンプル」)を含む。いくつかの実施形態では、リピート伸長に関してスクリーニングされる核酸は、数多くの既知の方法のいずれかによって精製又は分離される。
したがって、特定の実施形態では、サンプルは、精製若しくは分離されたポリヌクレオチドを含む若しくはそれから本質的になる、又はサンプルは、組織サンプル、生体液サンプル、細胞サンプル等を含むことができる。好適な生体液サンプルとしては、血液、血漿、血清、汗、涙、痰、尿、痰、耳液、リンパ液、唾液、脳脊髄液、洗浄(lavage)、骨髄懸濁液、膣流、子宮頸部液、大腿骨頚部液、脳液、腹水、乳、気道、腸道及び泌尿生殖器道の分泌物、羊水、乳、及び白血球瀉血サンプルが挙げられるが、これらに限定されない。いくつかの実施形態では、サンプルは、例えば、血液、血漿、血清、汗、涙、痰、尿、痰、耳液、唾液、又は糞便などの、非侵襲的処置によって容易に得ることができるサンプルである。特定の実施形態では、サンプルは、末梢血サンプル、又は末梢血サンプルの血漿及び/若しくは漿液分画物である。その他の実施形態では、生体サンプルは、スワブ若しくはスミア、生検標本、又は細胞培養物である。別の実施形態では、サンプルは、2つ以上の生体サンプルの混合物であり、例えば、生体サンプルは、生体液サンプル、組織サンプル、及び細胞培養物サンプルのうちの2つ以上を含むことができる。本発明で使用する場合、用語「血液」、「血漿」、及び「血清」は、その分画物又はその処理された部分を明示的に包含する。同様に、サンプルが生検、綿棒、スミアなどから採取される場合、「サンプル」は、生検、綿棒、スミア等から得られる処理された画分又は部分を明示的に包含する。
特定の実施形態では、サンプルは、異なる個体からのサンプル、同じ個体又は異なる個体の異なる発育段階からのサンプル、異なる罹患した個体からのサンプル(例えば、遺伝病を有する疑いのある個体)、正常な個体、個体における疾患の異なる段階で得られたサンプル、疾患に関して異なる治療を受けた個体から得られたサンプル、異なる環境因子を受けた個体からのサンプル、病状に素因を有する個体からのサンプル、感染症剤に曝露された個体からのサンプルなどが挙げられるが、これらに限定されない。
1つの例示的であるが非限定的な実施形態では、サンプルは、妊娠した女性、例えば、妊婦から得られる、母体サンプルである。この場合、胎児における潜在的な染色体異常の早期診断を提供するために、本明細書に記載された方法を使用して、サンプルを分析することができる。母体サンプルは、組織サンプル、生体液サンプル、又は細胞サンプルであり得る。生体液としては、非限定的な例として、血液、血漿、血清、汗、涙、痰、尿、痰、耳液、リンパ液、唾液、脳脊髄液、洗浄(lavage)、骨髄懸濁液、膣流、子宮頸部液、大腿骨頚部液、脳液、腹水、乳、気道、腸道及び泌尿生殖器道の分泌物、及び白血球瀉血サンプルが挙げられる。
特定の実施形態では、サンプルはまた、インビトロ培養された組織、細胞、又はその他のポリヌクレオチド含有供給源から得ることもできる。培養されたサンプルは、異なる培地及び条件(例えば、pH、圧力、又は温度)で維持した培養物(例えば、組織又は細胞)、異なる期間で維持した培養物(例えば、組織又は細胞)、異なる要素若しくは試薬(例えば、薬物候補、又は修飾物質)で処理した培養物(例えば、組織又は細胞)、又は異なる種類の組織及び/若しくは細胞の培養物を含むがこれらに限定されない供給源から、採取することができる。
生物学的供給源から核酸を分離する方法は既知であり、源の性質に応じて異なり得る。当業者は、本明細書に記載された方法に必要とされるように、核酸を供給源から容易に分離することができる。場合によっては、核酸サンプル中の核酸分子を断片化することが有利であり得る。断片化はランダムであってもよい、又は、例えば、制限エンドヌクレアーゼ消化を使用して達成されるように、特異的であり得る。ランダムな断片化のための方法は、当該技術分野において既知であり、例えば、限定されたDNAse消化、アルカリ処理、及び物理的剪断が挙げられる。
シーケンシングライブラリの調製
種々の実施形態では、シーケンシングは、シーケンシングライブラリの調製を必要とする種々のシーケンシングプラットフォームで実行されてもよい。調製は、典型的には、DNAを断片化すること(超音波処理、噴霧化又は剪断)、続いて、DNA修復及び末端研磨(鈍端又はAオーバーハング)、及びプラットフォーム特異的アダプタライゲーションを含む。一実施形態では、本明細書に記載された方法は、次世代シーケンシング技術(NGS)を利用することができ、それにより、複数のサンプルをゲノム分子として個々に配列決定すること(すなわち、シングルプレックス・シーケンシング)、又は、単一のシーケンシングラン上に、インデックス化されたゲノム分子を含むプールサンプルとして個々に配列決定すること(例えば、マルチプレックス・シーケンシング)を可能にする。これらの方法は、最大で数百万個のDNA配列のリードを生成することができる。種々の実施形態では、ゲノム核酸配列、及び/又はインデックス化されたゲノム核酸の配列は、例えば、本明細書に記載された次世代シーケンシング技術(NGS)を使用して決定することができる。種々の実施形態では、NGSを使用して取得された大量の配列データの分析は、本明細書に記載されるような1つ以上のプロセッサを使用して実行することができる。
種々の実施形態では、このようなシーケンシング技術の使用は、シーケンシングライブラリの調製を伴わない。
しかしながら、特定の実施形態では、本明細書で企図されるシーケンシング法は、シーケンシングライブラリの調製を含む。1つの例示的なアプローチでは、シーケンシングライブラリの調製は、配列決定される準備が整ったアダプタ修飾DNA断片(例えば、ポリヌクレオチド)のランダムな集合の生成を含む。ポリヌクレオチドのシーケンシングライブラリは、例えば、逆転写酵素の作用によって、RNAテンプレートから生成された相補的DNA又はコピーDNAであるDNA又はcDNAなどの、DNA又はcDNAのいずれかの等価物、類似物を含む、DNA又はRNAから調製することができる。ポリヌクレオチドは、二本鎖形態(例えば、ゲノムDNA断片、cDNA、PCR増幅生成物などのdsDNA等)において発生し得る、又は特定の実施形態では、ポリヌクレオチドは、一本鎖形態(例えば、ssDNA、RNA等)で発生し得て、dsDNA形態に変換されている。例示として、特定の実施形態では、シーケンシングライブラリの調製に使用するのに好適な二本鎖cDNAに、一本鎖mRNA分子をコピーすることができる。一次ポリヌクレオチド分子の正確な配列は、一般に、ライブラリ調製の方法に対して重要ではなく、既知であっても未知であってもよい。一実施形態では、ポリヌクレオチド分子はDNA分子である。より具体的には、特定の実施形態では、ポリヌクレオチド分子は、生物の遺伝子相補体全体又は実質的に生物の遺伝子相補体全体を表し、ゲノムDNA分子である(例えば、細胞DNA、無細胞DNA(cfDNA)等)が、典型的にはイントロン配列及びエクソン配列(コード配列)、並びにプロモータ及びエンハンサ配列などの非コード調節配列を含む。特定の実施形態では、一次ポリヌクレオチド分子は、ヒトゲノムDNA分子、例えば、妊娠被験者の末梢血中に存在するcfDNA分子を含む。
いくつかのNGSシーケンシングプラットフォームのシーケンシングライブラリの調製は、断片サイズの特定の範囲を含むポリヌクレオチドの使用によって促進される。このようなライブラリの調製は、典型的には、リピート伸長を決定するために所望のサイズ範囲内でポリヌクレオチドを得るために、大型のポリヌクレオチド(例えば、細胞ゲノムDNA)の断片化を含む。
断片又はインサートの長さは、リード長さよりも長く、典型的には、2つのリードの長さの合計よりも長い。
いくつかの例示的な実施形態では、サンプル核酸(複数可)はゲノムDNAとして得られるが、これは、約100以上、約200以上、約300以上、約400以上、又は約500以上の塩基対の断片へと断片化され、NGS法を容易に適用することができる。いくつかの実施形態では、ペア・エンド・リードは、約100~5000bpのインサートから得られる。いくつかの実施形態では、インサートは、約100~1000bpの長さである。これらは、通常の短いインサートのペア・エンド・リードとして実行されることがある。いくつかの実施形態では、インサートは、約1000~5000bpの長さである。これらは、上記のように、長いインサートのメイト・ペア・リードとして実行されることがある。
いくつかの実施形態では、長いインサートは、非常に長い、伸長した反復配列を評価するように設計される。いくつかの実施形態では、数千の塩基対によって離間されているリードを得るために、メイト・ペア・リードが適用されてもよい。これらの実行では、インサート又は断片は数百~数千塩基対の範囲であり、インサートの2つの末端上に2つのビオチン結合アダプタがある。次に、ビオチン結合アダプタは、インサートの2つの末端を結合して円形化分子を形成し、これを更に断片化する。ビオチン結合アダプタを含む細断片、及び元のインサートの2つの末端は、より短い断片を配列するように設計されたプラットフォーム上でシーケンシングするために選択される。
断片化は、当業者に既知の多数の方法のいずれかによって達成することができる。例えば、断片化は、噴霧化、超音波処理、及びハイドロシェアを含むがこれらに限定されない機械的手段によって、達成することができる。しかしながら、機械的断片化は、典型的には、C-O結合、P-O結合及びC-C結合にてDNA骨格を切断し、その結果、欠損C-O、P-O、及びC-C結合を伴う、ブラントと3’-オーバーハング末端及び5’-オーバーハング末端との不均質な混合をもたらすが(例えば、Alnemri and Liwack,J Biol.Chem 265:17323-17333[1990]、Richards and Boyer,J Mol Biol 11:327-240[1965]を参照されたい)、これは、それらが、以降の酵素反応(例えば、シーケンシングに関してDNAを調製するために必要とされるシーケンシングアダプタのライゲーション)のために必須の5’-リン酸を欠損している故に、修復される必要があり得る。
対照的に、cfDNAは、典型的には、約300個の塩基対未満の断片として存在し、その結果、断片化は、cfDNAサンプルを使用してシーケンシングライブラリを生成するために、典型的には必要ではない。
典型的には、ポリヌクレオチドが強制的に断片化される(例えば、インビトロで断片化される)か、又は自然に断片として存在するかどうかは、5’-リン酸及び3’-ヒドロキシルを有するブラント末端DNAに変換される。標準的なプロトコル、例えば、本明細書のその他の箇所に記載されているようなIlluminaプラットフォームを使用してシーケンシングするためのプロトコルは、末端修復されたサンプルDNAに対して、dA-テーリングの前に、末端修復された生成物を精製して、ライブラリ調製のアダプタ-ライゲーティング工程の前に、dA-テーリング生成物を精製するようにユーザに指示する。
本明細書に記載された配列ライブラリの調製方法の種々の実施形態は、NGSにより配列決定され得る修飾DNA生成物を得るために、標準的なプロトコルによって典型的に命じられている工程のうちの1つ以上を実行する必要性を排除する。略される方法(ABB法)、1工程法、及び2工程法は、その全体が参照として本明細書に組み込まれる、特許出願第13/555,037号(2012年7月20日出願)に見出すことができるシーケンシングライブラリの調製方法の例である。
シーケンシング法
上述のように、調製されたサンプル(例えば、シーケンシングライブラリ)は、コピー数変化を特定するための手順の一部として配列決定される。多数のシーケンシング技術のうちのいずれかを利用することができる。
いくつかのシーケンシング技術は、以下に記載されるように、Affymetrix Inc(Sunnyvale,CA)からのハイブリダイゼーションによるシーケンシングプラットフォーム(sequencing-by-hybridization platform)、並びに454 Life Sciences(Bradford,CT)、Illumina/Solexa(San Diego,CA)、及びHelicos Biosciences(Cambridge,MA)からの合成によるシーケンシングプラットフォーム(sequencing-by-synthesis platforms from)、並びにApplied Biosystems(Foster City,CA)からのライゲーションによるシーケンシングプラットフォーム(sequencing-by-ligation platform)などが市販されている。Helicos Biosciencesの合成によるシーケンシング(sequencing-by-synthesis)を使用して実行される単一分子シーケンシングに加えて、その他の単一分子シーケンシング技術としては、Pacific BiosciencesのSMRT(商標)技術、ION TORRENTTM(商標)技術及び、例えば、Oxford Nanopore Technologiesにより開発されたナノ細孔シーケンシングが挙げられるが、これらに限定されない。
自動サンガー法は「第1世代」技術と見なされるが、自動サンガーシーケンシングを含むサンガーシーケンシングもまた、本明細書に記載された方法で採用することができる。更なる好適なシーケンシング法としては、核酸撮像技術、例えば、原子間力顕微鏡法(AFM)又は透過電子顕微鏡法(TEM)が挙げられるが、これらに限定されない。例示的なシーケンシング技術を、以下にて更に詳細に記載する。
いくつかの実施形態では、開示される方法は、Illuminaの(例えば、Bentley et al.,Nature 6:53-59[2009]に記載)シーケンシング合成及び可逆的ターミネータに基づくシーケンシングケミストリーを使用して、数百万個のDNA断片の大規模な並列シーケンシングによって、試験用サンプル中の核酸に関する配列情報を取得することを含む。テンプレートDNAは、ゲノムDNA、例えば、細胞DNA又はcfDNAであり得る。いくつかの実施形態では、分離された細胞からのゲノムDNAをテンプレートとして使用し、数百個の塩基対の長さへと断片化する。その他の実施形態では、cfDNAはテンプレートとして使用されるが、断片化は、cfDNAが短い断片として存在するために必要ではない。例えば、胎児のcfDNAは、長さにして約170個の塩基対(bp)の断片として血流中で循環し(Fan et al.,Clin Chem 56:1279-1286[2010])、シーケンシング前にDNAの断片化を必要としない。Illuminaのシーケンシング技術は、断片化されたゲノムDNAの、オリゴヌクレオチドアンカーが結合される平面的な光学的に透明な表面への取り付けに依存する。テンプレートDNAを末端修復して、5’リン酸化されたブラント末端を生成し、クレノウ断片のポリメラーゼ活性を使用して、単一のA塩基を、ブラントリン酸化DNA断片の3’末端に加える。この添加は、ライゲーション効率を高めるために、それらの3’末端に単一のT塩基のオーバーハングを有するオリゴヌクレオチドアダプタにライゲーションするためのDNA断片を調整する。アダプタオリゴヌクレオチドは、フローセルのアンカーオリゴと相補的である(リピート伸長の分析においてアンカーリード/アンカー型リードと混同されない)。制限希釈条件下で、アダプタ修飾された一本鎖テンプレートDNAをフローセルに添加して、ハイブリダイゼーションによってアンカーオリゴに固定する。付着したDNA断片を伸長させ、ブリッジを増幅して、数億個のクラスタを有する超高密度シーケンシングフローセルを作製し、それぞれが同じテンプレートの約1,000個のコピーを含有する。一実施形態では、ランダムに断片化されたゲノムDNAは、クラスタ増幅を受ける前にPCRを使用して増幅される。あるいは、無増幅ゲノムライブラリ調製が使用され、ランダムに断片化されたゲノムDNAは、クラスタ増幅のみを使用して濃縮される(Kozarewa et al.,Nature Methods 6:291-295[2009])。テンプレートは、除去可能な蛍光色素を有する可逆的ターミネータを用いる、合成技術による強い4色のDNAシーケンシング技術(robust four-color DNA sequencing-by-synthesis technology)を使用して、配列決定する。高感度蛍光検出は、レーザ励起及び内部全反射光学素子を使用して達成される。約数十~数百個の塩基対の短い配列リードは、参照ゲノムに対して整列され、参照ゲノムに対する短い配列リードの固有のマッピングは、特別に開発されたデータ分析パイプラインソフトウエアを使用して特定される。第1のリードが完了した後、テンプレートをその場で再生して、断片の反対側末端から第2のリードを可能にすることができる。したがって、DNA断片のシングル・エンド・シーケンシング又はペア・エンド・シーケンシングのいずれかを使用することができる。
本開示の種々の実施形態はペア・エンド・シーケンシングを可能にする合成によるシーケンシングを使用してもよい。いくつかの実施形態では、Illuminaによる合成プラットフォームによるシーケンシングは、クラスタ化した断片を含む。クラスタ化は、各断片分子が等温増幅されるプロセスである。いくつかの実施形態では、本明細書に記載された例として、断片は、断片の2つの末端に取り付けられた2つの異なるアダプタを有し、アダプタは、断片がフローセルレーンの表面上の2つの異なるオリゴと混成することを可能にする。断片は、断片の2つの末端に2つのインデックス配列を更に含む、又はそれに接続されるが、このインデックス配列は、マルチプレックス・シーケンシングにおいて異なるサンプルを特定するための標識を提供する。いくつかのシーケンシングプラットフォームでは、配列決定される断片は、インサートとも呼ばれる。
いくつかの実施形態では、Illuminaのプラットフォーム内でクラスタ化するためのフローセルは、レーンを有するスライドガラスである。各レーンは、2種類のオリゴの菌叢でコーティングされたガラスチャネルである。ハイブリダイゼーションは、表面上の2種類のオリゴのうちの1つ目によって可能になる。このオリゴは、断片の一端にある第1のアダプタに対して相補的である。ポリメラーゼは、混成断片の相補鎖を生成する。二本鎖分子は変性し、元のテンプレート鎖を洗い流す。残りの鎖は、多くのその他の残りの鎖と並行して、ブリッジ適用によってクローン的に増幅される。
ブリッジ増幅では、鎖の第2の末端上の第2のアダプタ領域は、フローセル表面上の第2の種類のオリゴと混成する。ポリメラーゼは相補鎖を生成し、二本鎖架橋分子を形成する。この二本鎖分子は変性し、2つの異なるオリゴを介してフローセルに繋留された2つの一本鎖分子をもたらす。次に、本プロセスを、数百万個のクラスタにわたって繰り返し、それを同時に発生させ、全ての断片のクローン増幅をもたらす。ブリッジ増幅後、逆鎖を切断して洗浄し、順方向鎖のみを残す。3’末端は、望ましくないプライミングを防止するためにブロックされる。
クラスタ化後、シーケンシングは、第1のシーケンシングプライマーを伸長して第1のリードを生成することによって開始する。各サイクルでは、蛍光標識されたヌクレオチドは、成長している鎖に添加するために競合する。テンプレートの配列に基づいて1つのみが組み込まれる。各ヌクレオチドの添加後、クラスタは光源によって励起され、特徴的な蛍光信号が放出される。サイクル数は、リードの長さを決定する。発光波長及び信号強度は、塩基コールを決定する。所与のクラスタについては、全ての同一の鎖が同時に読み取られる。数億個のクラスタを、大規模な並列様式で配列する。第1のリードの完了時に、読み取られた製品を洗い流す。
2つのインデックスプライマーを含むプロトコルの次の工程において、インデックス1プライマーを導入し、テンプレート上のインデックス1領域に混成する。インデックス領域は、マルチプレックス・シーケンシングプロセスにおいて、サンプルを脱マルチプレックスするのに有用な断片の特定を提供する。インデックス1のリードは、第1のリードと同様に生成される。インデックス1のリードが完了した後、読み取られた製品を洗い流し、鎖の3’末端を脱保護する。次に、テンプレート鎖は、フローセル上の第2のオリゴの上に折り重なり、第2のオリゴに結合する。インデックス2の配列は、インデックス1と同じ方法で読み取られる。次に、工程の完了時にインデックス2のリード製品を洗い流す。
2つの指数を読み取った後、ポリメラーゼを使用してリード2を開始し、第2のフローセルオリゴを伸長させて、二本鎖ブリッジを形成する。この二本鎖DNAは変性し、3’末端はブロックされる。元の順方向鎖を切断して洗い流し、逆鎖を残す。リード2は、リード2のシーケンシングプライマーの導入から始まる。リード1と同様に、所望の長さが達成されるまで、シーケンシング工程が繰り返される。リード2の製品を洗い流す。この全プロセスは、全ての断片を表す、数百万個のリードを生成する。プールサンプルライブラリからの配列は、サンプル調製中に導入された固有の指数に基づいて分離される。各サンプルについて、類似の伸長の塩基コールのリードが局所的にクラスタ化される。順方向及び逆方向のリードを対にして連続配列を作成する。これらの連続配列は、バリアント特定のために参照ゲノムに整列される。
上記の合成例によるシーケンシングは、開示された方法の多くの実施形態で使用される、ペア・エンド・リードを含む。対になった末端配列は、断片の2つの末端からの2つのリードを含む。ペア・エンド・リードは、曖昧な整列を解決するために使用される。ペア・エンド・シーケンシングは、ユーザがインサート(又は配列決定される断片)の長さを選択し、インサートのいずれかの末端を配列し、高品質の整列可能な配列データを生成することを可能にする。各ペア・リードの間の距離が既知であるため、整列アルゴリズムは、この情報を使用して、反復領域上のリードをより正確に位置づけることができる。これにより、特に、配列が難しい、ゲノムの反復領域にわたって、リードのより良好な整列がもたらされる。ペア・エンド・シーケンシングは、挿入及び欠失(インデル)並びに反転を含む再整列を検出することができる。
ペア・エンド・リードは、異なる長さのインサート(すなわち、配列決定される異なる断片サイズ)を使用してもよい。本開示におけるデフォルトの意味として、ペア・エンド・リードは、種々のインサート長さから得られたリードを意味するために使用される。場合によっては、短いインサートのペア・エンド・リードを長いインサートのペア・エンド・リードから区別するために、後者は、具体的には、メイト・ペア・リードと呼ばれる。メイト・ペア・リードを含むいくつかの実施形態では、最初に2つのビオチン結合アダプタが、比較的長いインサート(例えば、いくつかのkb)の2つの末端に取り付けられる。次に、ビオチン結合アダプタは、インサートの2つの末端をリンクして循環分子を形成する。次に、ビオチン結合アダプタを包含する細断片は、循環分子を更に断片化することによって得ることができる。次に、反対の順序で元の断片の2つの末端を含む細断片を、上記の短いインサートのペア・エンド・シーケンシングと同じ手順によって配列決定することができる。Illuminaのプラットフォームを用いたメイト・ペア・シーケンシングの更なる詳細は、以下のアドレスでオンライン出版物に示されており、その全体が参照として本明細書に組み込まれる:res.illumina.com/documents/products/technotes/technote_nextera_matepair_data_processing.pdf
DNA断片のシーケンシング後、所定の長さ(例えば、100bp)の配列リードは、既知の参照ゲノムにマッピ又は配列される。位置づけられた又は整列されたリード及び参照配列上のそれらの対応する位置は、タグとも呼ばれる。リピート伸長を決定するための本明細書に開示された多くの実施形態の分析は、整列が不十分であるリード、又は整列されることができないリード、並びに整列されたリード(タグ)を使用する。一実施形態では、参照ゲノム配列はNCBI36/hg18配列であり、genome.ucsc.edu/cgi-bin/hgGateway?org=Human&db=hg18&hgsid=166260105において、ワールドワイドウェブ(www)で入手可能である。あるいは、参照ゲノム配列はGRCh37/hg19であり、genome.ucsc.edu/cgi-bin/hgGatewayにおいて、ワールドワイドウェブ(www)で入手可能である。公開配列情報のその他の供給源としては、GenBank,dbEST,dbSTS,EMBL(the European Molecular Biology Laboratory)、及びDDBJ(日本のDNAデータベース)が挙げられる。配列を整列させるための多数のコンピュータアルゴリズムが利用可能であり、これには、BLAST(Altschul et al.,1990)、BLITZ(MPsrch)(Sturrock&Collins,1993)、FASTA(Person&Lipman,1988)、BOWTIE(Langmead et al.,Genome Biology 10:R25.1-R25.10[2009])、又はELAND(Illumina,Inc.,San Diego,CA,USA)が挙げられるが、限定されない。一実施形態では、血漿cfDNA分子のクローン的伸長コピーの一端は、Efficient Large-Scale Alignment of Nucleotide Databases(ELAND)ソフトウエアを使用する、Illumina Genome Analyzerに関する遺伝子情報的な整列分析により、配列及び処理される。
1つの例示的であるが非限定的な実施形態では、本明細書に記載された方法は、(例えば、Harris T.D.et al.,Science 320:106-109[2008]に記載)Helicos True Single Molecule Sequencing(tSMS)技術の単一分子シーケンシング技術を使用して、試験用サンプルにおいて核酸に関する配列情報を取得することを含む。tSMS技術では、DNAサンプルを約100~200個のヌクレオチドの鎖へと切断し、各DNA鎖の3’末端にポリA配列を加える。各鎖は、蛍光標識されたアデノシンヌクレオチドの添加によって標識される。次に、DNA鎖をフローセルに混成させるが、フローセル表面に固定化されたオリゴT捕捉部位を数百万個含む。特定の実施形態では、テンプレートは、約1億のテンプレート/cmの密度であり得る。フローセルは、次に、器具、例えば、HeliScope(商標)シーケンサに添加され、レーザがフローセルの表面に照射され、各テンプレートの位置を明らかにする。CCDカメラは、フローセルの表面上のテンプレートの位置を位置づけることができる。次に、テンプレート蛍光標識を切断して、洗い流す。シーケンシング反応は、DNAポリメラーゼ及び蛍光標識ヌクレオチドを導入することによって開始する。オリゴ-T核酸は、プライマーとして機能する。ポリメラーゼは、テンプレート誘導様式で、標識ヌクレオチドをプライマーに組み込む。ポリメラーゼ及び非組み込みヌクレオチドを除去する。蛍光標識ヌクレオチドの誘導された取り込みを有するテンプレートは、フローセルの表面を撮像することによって特定される。撮像後、開裂工程は蛍光標識を除去した。このプロセスは所望のリード長さが達成されるまで、その他の蛍光標識ヌクレオチドで繰り返される。配列情報は、各ヌクレオチド添加工程で収集される。単一分子シーケンシング技術による全ゲノムシーケンシングは、シーケンシングライブラリの調製におけるPCR系の増幅を除外する又は典型的には排除し、また本方法は、そのサンプルのコピーの測定ではなく、サンプルの直接測定を可能にする。
別の例示的であるが非限定的な実施形態では、本明細書に記載された方法は、(例えば、Margulies,M.et al.Nature 437:376-380[2005]に記載)454シーケンシング(Roche)を使用して、試験用サンプル中の核酸に関する配列情報を取得することを含む。454シーケンシングは、典型的には2つの工程を含む。第1の工程では、DNAは、約300~800個の塩基対の断片に剪断され、断片はブラント末端である。次に、オリゴヌクレオチドアダプタを断片の末端にライゲーションする。アダプタは、断片の増幅及びシーケンシングのためのプライマーとして機能する。断片は、例えば、5’ビオチンタグを含有するアダプタBを使用して、DNA捕捉ビーズ、例えば、ストレプトアビジンでコーティングされたビーズに取り付けることができる。ビーズに取り付けられた断片は、水中油型エマルションの液滴内でPCR増幅される。この結果は、各ビーズ上のクローン的に増幅されたDNA断片の複数のコピーである。第2の工程では、ビーズは、ウェル(例えば、ピコリットルサイズのウェル)内に捕捉される。それぞれのDNA断片に対して、並行して、ピロシーケンシングが実行される。1つ以上のヌクレオチドの添加は、シーケンシング器具内のCCDカメラによって記録される光信号を生成する。信号強度は、組み込まれたヌクレオチドの数に比例する。ピロシーケンシングは、ヌクレオチドの添加時に放出されるピロリン酸塩(PPi)を使用する。PPiは、アデノシン5’ホスホ硫酸の存在下でATPスルフリラーゼによってATPに変換される。ルシフェラーゼは、ルシフェリンをオキシルシフェリンに変換するためにATPを使用するが、この反応は、測定及び分析される光を生成する。
別の例示的であるが非限定的な実施形態では、本明細書に記載された方法は、SOLiD(商標)技術(Applied Biosystems)を使用して、試験用サンプル中の核酸に関する配列情報を取得することを含む。SOLiD(商標)のライゲーションによるシーケンシングでは、ゲノムDNAを断片に剪断して、断片の5’末端及び3’末端にアダプタを取り付けて断片ライブラリを生成する。あるいは、内部アダプタは、アダプタを断片の5’末端及び3’末端にライゲーティングし、断片を循環させ、円形化された断片を消化して内部アダプタを生成し、得られた断片の5’末端及び3’末端にアダプタを取り付けてメイト・ペア・ライブラリを生成することによって導入され得る。次に、ビーズ、プライマー、テンプレート、及びPCR成分を含有するマイクロリアクタ中で、クローン性ビーズ集団を調製する。PCR後、テンプレートを変性させ、ビーズを濃縮してビーズを伸長したテンプレートと分離する。選択されたビーズ上のテンプレートは、ガラススライドへの結合を可能にする3’の修飾を受ける。配列は、特定の蛍光体によって特定される中央決定塩基(又は塩基対)を用いた、部分的にランダムなオリゴヌクレオチドの連続ハイブリダイゼーション及びライゲーションによって決定することができる。色が記録された後、ライゲーションされたオリゴヌクレオチドを切断し、除去し、次に本プロセスを繰り返す。
別の例示的であるが非限定的な実施形態では、本明細書に記載された方法は、Pacific Biosciencesの単一分子、実時間(SMRT(商標))シーケンシング技術を使用して、試験用サンプル中の核酸に関する配列情報を取得することを含む。SMRTシーケンシングでは、色素標識ヌクレオチドの連続的な組み込みは、DNA合成中に画像化される。単一のDNAポリメラーゼ分子は、配列情報を取得する個々のゼロモード波長検出器(zero-mode wavelength detectors(ZMW検出器))の底面に取り付けられ、一方で、ホスホ結合ヌクレオチドは、成長するプライマー鎖に組み込まれる。ZMW検出器は、ZMWの外へ(例えば、マイクロ秒で)急速に拡散する蛍光ヌクレオチドのバックグラウンドに対する、DNAポリメラーゼによる一塩基の組み込みの観察を可能にする拘束構造を含む。それは、典型的には、ヌクレオチドを成長鎖に組み込むために数ミリ秒を要する。このとき、蛍光標識は励起され、蛍光シグナルを生成し、蛍光標識が切断される。色素の対応する蛍光の測定は、どの塩基が組み込まれたかを示す。本プロセスを繰り返して配列を提供する。
別の例示的であるが非限定的な実施形態では、本明細書に記載された方法は、(例えば、Soni GV and Meller A.Clin Chem 53:1996-2001[2007]に記載)ナノ細孔シーケンシング法を使用して、試験用サンプル中の核酸に関する配列情報を取得することを含む。ナノ細孔シーケンシングDNA分析技術は、例えば、Oxford Nanopore Technologies(Oxford,United Kingdom)、Sequenom、NABsys等を含む多数の企業によって開発される。ナノ細孔シーケンシング法は、単一分子のDNAがナノ細孔を通過する際に直接配列決定される単一分子シーケンシング技術である。ナノ細孔は、典型的には直径1ナノメートルの順序の小さい孔である。導電性流体中にナノ細孔を浸漬し、電位(電圧)を印加すると、ナノ細孔を通るイオンの伝導に起因して、僅かな電流が生じる。流れる電流の量は、ナノ細孔のサイズ及び形状に感応性である。DNA分子がナノ細孔を通過する際、DNA分子上の各ヌクレオチドは、異なる程度にナノ細孔を妨害し、ナノ細孔を通る電流の大きさを異なる程度に変化させる。したがって、DNA分子がナノ細孔を通過する際の電流におけるこの変化は、DNA配列リードをもたらす。
別の例示的であるが非限定的な実施形態では、本明細書に記載された方法は、(米国特許公開第2009/0026082号に記載)化学感応性電界効果トランジスタ(chemical-sensitive field effect transistor(chemFET))アレイを使用して、試験用サンプル中の核酸に関する配列情報を取得することを含む。本技術の一例では、DNA分子を反応チャンバに配置することができ、テンプレート分子をポリメラーゼに結合したシーケンシングプライマーに混成させることができる。シーケンシングプライマーの3’末端における新たな核酸鎖への1つ以上の三リン酸の組み込みは、chemFETによる電流の変化として特定することができる。アレイは、複数のchemFETセンサを有することができる。別の実施例では、単一の核酸をビーズに取り付けることができ、核酸をビーズ上で増幅させることができ、個々のビーズをchemFETアレイ上の個々の反応チャンバに移し、各チャンバはchemFETセンサを有し、核酸を配列決定することができる。
別の実施形態では、DNAシーケンシング技術は、半導体技術を単一のシーケンシング化学作用と対にして、化学的にコードされた情報(A、C、G、T)を半導体チップ上のデジタル情報(0、1)に直接翻訳する、Ion Torrent単一分子シーケンシングである。本質的に、ヌクレオチドがポリメラーゼによってDNAの鎖に組み込まれた場合、水素イオンが副生成物として放出される。Ion Torrentは、マイクロ機械加工されたウェルの高密度アレイを使用して、本生化学的プロセスを大規模な並列方式で実施する。各ウェルは、異なるDNA分子を保持する。ウェルの下にはイオン感応層があるが、イオンセンサの下にある。ヌクレオチド、例えばCがDNAテンプレートに添加され、次にDNAの鎖に組み込まれると、水素イオンが放出される。このイオンからの電荷は、Ion Torrentのイオンセンサによって検出することができる溶液のpHを変化させ得る。(本質的に世界で最も小さい固体のpH計器である)シーケンサは、塩基をコールし、化学情報からデジタル情報に直接進む。次に、Ion personal Genome Machine(PGM(商標))シーケンサは、次々とヌクレオチドを用いてチップを浸漬させる。チップをフロードする次のヌクレオチドが一致しない場合、電圧変化は記録されず、塩基はコールされない。DNA鎖上に2つの同一の塩基が存在する場合、電圧は二重であり得、チップは、コールされた2つの同一の塩基を記録する。直接検出により、秒単位でのヌクレオチド取り込みの記録が可能となる。
別の実施形態では、本方法は、ハイブリダイゼーションによるシーケンシングを使用して、試験用サンプル中の核酸の配列情報を取得することを含む。ハイブリダイゼーションによる配列決定は、複数のポリヌクレオチド配列を複数のポリヌクレオチドプローブと接触させることを含み、複数のポリヌクレオチドプローブのそれぞれは、所望により、基質につながれ得る。基質は、既知のヌクレオチド配列のアレイを含む平坦な表面であってもよい。アレイに対するハイブリダイゼーションのパターンを使用して、サンプル中に存在するポリヌクレオチド配列を決定することができる。その他の実施形態では、各プローブは、ビーズ、例えば、磁気ビーズ等につながれている。ビーズへのハイブリダイゼーションは、サンプル内の複数のポリヌクレオチド配列を特定するために決定及び使用することができる。
本明細書に記載の方法のいくつかの実施形態では、配列リードは、約20bp、約25bp、約30bp、約35bp、約40bp、約45bp、約50bp、約55bp、約60bp、約65bp、約70bp、約75bp、約80bp、約85bp、約about90bp、約95bp、約100bp、約110bp、約120bp、約130、約140bp、約150bp、約200bp、約250bp、約300bp、約350bp、約400bp、約450bp、又は約500bpである。技術的進歩は、500bpを超えるシングル・エンド・リードを可能にし、ペア・エンド・リードが生成された場合に、約1000bpを超えるリードを可能にすることが予想される。いくつかの実施形態では、ペア・エンド・リードは、約20bp~1000bp、約50bp~500bp、又は80bp~150bpである配列リードを含むリピート伸長を決定するために使用される。種々の実施形態では、ペア・エンド・リードは、リピート伸長を有する配列を評価するために使用される。リピート伸長を有する配列は、リードよりも長い。いくつかの実施形態では、リピート伸長を有する配列は、約100bp、500bp、1000bp、又は4000bpよりも長い。配列リードのマッピングは、リードの配列を参照配列と比較して配列決定された核酸分子の染色体起源を決定することにより達成され、特定の遺伝子配列情報は必要ではない。僅かな不整合(リード当たり0~2の不整合)は、混合サンプル中の参照ゲノムとゲノムとの間に存在し得る微量の多型を考慮することができる。いくつかの実施形態では、参照配列に整列されたリードは、アンカーリードとして使用され、アンカーリードと対になるが、参照配列と整列し得ない又は参照配列との整列が不十分であるリードは、アンカー型リードとして使用される。いくつかの実施形態では、整列が不十分なリードは、リード当たりの不整合の割合が比較的多い場合があり、例えば、リード当たり少なくとも約5%、少なくとも約10%、少なくとも約15%、又は少なくとも約20%の不整合を有し得る。
複数の配列タグ(すなわち、参照配列に整列されたリード)は、典型的にはサンプルあたりで得られる。いくつかの実施形態では、例えば100bpの、少なくとも約3×10の配列タグ、少なくとも約5×10の配列タグ、少なくとも約8×10の配列タグ、少なくとも約10×10の配列タグ、少なくとも約15×10の配列タグ、少なくとも約20×10の配列タグ、少なくとも約30×10の配列タグ、少なくとも約40×10の配列タグ、又は少なくとも約50×10の配列タグが、サンプル当たりの参照ゲノムへのリードのマッピングから得られる。いくつかの実施形態では、全ての配列リードは、参照ゲノムの全領域に位置づけられ、ゲノムワイドリードを提供する。その他の実施形態では、対象とする配列、例えば、染色体、染色体のセグメント、又は対象とする反復配列に位置づけられる。
リピート伸長を決定するための装置及びシステム
シーケンシングデータ及びそれから得られる診断の分析は、典型的には、種々のコンピュータ実行アルゴリズム及びプログラムを使用して実行される。したがって、特定の実施形態は、1つ以上のコンピュータシステム又はその他の処理システム内に記憶された又はそれらを介して転送されたデータを含む、プロセスを採用する。本明細書に開示された実施形態はまた、これらの動作を実行するための装置に関する。本装置は、必要な目的のために特別に構築されてもよい、又はコンピュータに記憶されたコンピュータプログラム及び/若しくはデータ構造によって選択的に起動又は再構成される汎用コンピュータ(又はコンピュータのグループ)であってもよい。いくつかの実施形態では、プロセッサのグループは、列挙された分析動作の一部又は全てを協働して(例えば、ネットワーク又はクラウド算定を介して)、及び/又は並列に実行する。本明細書に記載された方法を実行するためのプロセッサ又はプロセッサのグループは、プログラム可能なデバイス(例えば、CPLD及びFPGA)などのマイクロコントローラ及びマイクロプロセッサ、並びにゲートアレイASIC又は汎用マイクロプロセッサなどのプログラム不可能なデバイスを含む種々の種類のものであってもよい。
一実施形態は、反復配列を含むゲノム遺伝子座におけるバリアントの遺伝子型を決定する際に使用するためのシステムを提供し、本システムは、核酸サンプルを受容し、サンプルから核酸配列情報を提供するためのシーケンサと、プロセッサと、当該プロセッサ上で実行するための命令をその上に記憶して、バリアントを遺伝子型決定する機械可読記憶媒体であって、バリアントが、(a)データベースから試験用サンプルの核酸配列リードを収集することと、(b)配列グラフによってそれぞれ表される1つ以上の反復配列に配列リードを整列させることであって、配列グラフが、核酸配列を表す頂点及び頂点を接続する有向エッジを伴う有向グラフのデータ構造を有し、配列グラフが1つ以上の自己ループを含み、各自己ループが反復部分配列を表し、各反復部分配列が1つ以上のヌクレオチドの繰り返し単位の反復を含むことと、(c)1つ以上の反復配列に関する1つ以上の遺伝子型を、1つ以上の反復配列に整列させた配列リードを使用して決定することと、により遺伝子決定される、機械可読記憶媒体と、を含む。
本明細書で提供されるシステムのいずれかの、いくつかの実施形態では、シーケンサは、次世代シーケンシング(NGS)を実行するように構成されている。いくつかの実施形態では、シーケンサは、可逆的染料ターミネータを伴う合成による配列を使用して、大規模な並列シーケンシングを実行するように構成されている。その他の実施形態では、シーケンサは、ライゲーションによるシーケンシングを実行するように構成されている。更にその他の実施形態では、シーケンサは、単一分子シーケンシングを実行するように構成されている。
加えて、特定の実施形態は、種々のコンピュータ実装動作を実行するためのプログラム命令及び/又はデータ(データ構造を含む)を含む、有形及び/若しくは非一時的なコンピュータ可読媒体又はコンピュータプログラム製品に関する。コンピュータ可読媒体の例としては、半導体メモリデバイス、ディスクドライブなどの磁気媒体、磁気テープ、光学媒体(CD、光磁気媒体など)、並びに読み取り専用メモリデバイス(ROM)及びランダムアクセスメモリ(RAM)などの、プログラム命令を記憶及び実行するように特別に構成されたハードウエアデバイスが挙げられるが、これらに限定されない。コンピュータ可読媒体は、エンドユーザによって直接制御されてもよい、又は、媒体は、エンドユーザによって間接的に制御されてもよい。直接制御された媒体の例としては、ユーザ施設及び/又はその他の構成要素と共有されていない媒体に位置する媒体が挙げられる。間接的に制御された媒体の例としては、外部ネットワークを介して、及び/又は、「クラウド」などの共有リソースを提供するサービスを介して、ユーザに間接的にアクセス可能な媒体が挙げられる。プログラム命令の例としては、コンパイラによって生成されるものなどの機械コード、及びインタプリタを使用してコンピュータによって実行され得るものよりも高レベルのコードを含むファイルの両方が挙げられる。
種々の実施形態では、開示された方法及び装置に用いられるデータ又は情報は、電子フォーマットで提供される。このようなデータ又は情報としては、核酸サンプルから誘導されるリード及びタグ、参照配列(単独又は主に多型を提供する参照配列を含む)、リピート伸長コール、カウンセリング推奨、診断等のコールが挙げられてよい。本発明で使用する場合、電子形式で提供されるデータ又はその他の情報は、機械上での記憶及び機械間の送信のために利用可能である。従来、電子形式のデータはデジタル的に提供され、種々のデータ構造、リスト、データベース等のビット及び/又はバイトとして記憶されてもよい。データは、電子的、光学的等に具現化されてもよい。
一実施形態は、試験用サンプル中のリピート伸長の有無を示す出力を生成するための、コンピュータプログラム製品を提供する。コンピュータ製品は、リピート伸長を決定するための上記の方法のうちの任意の1つ以上を実行するための命令を含んでもよい。説明されるように、コンピュータ製品は、その上に記録されたコンピュータ実行可能又はコンパイル可能な論理(例えば、命令)を有する非一時的な及び/又は有形コンピュータ可読媒体を含んでもよく、これにより、プロセッサが、アンカー型リード内のアンカーリード及び反復、並びにリピート伸長が存在するか又は存在しないかどうかを決定することを可能にする。一実施例では、コンピュータ製品は、プロセッサがリピート伸長を診断することを可能にするための、その上に記録されたコンピュータ実行可能又はコンパイル可能な論理(例えば、命令)を有するコンピュータ可読可能な媒体を含み、これは、反復配列への整列からの少なくとも核酸分子の一部からシーケンシングデータを受信するための受信手順と、当該受信されたデータからリピート伸長を分析するためのコンピュータ支援論理と、当該リピート伸長の有無又は種類を示す出力を生成するための出力手順と、を含む。
考慮されているサンプルからの配列情報は、染色体反復配列に位置づけられて、対象とする反復配列に整列された又はアンカーされたペア・エンド・リードを特定し、反復配列のリピート伸長を特定することができる。種々の実施形態では、参照配列は、関係型データベース又はオブジェクトデータベースなどのデータベースに記憶される。
ヒトが助けを借りることなく、本明細書に開示された方法の計算動作を実行することは実用的ではない、あるいは、ほとんどの場合、更に不可能である、と理解すべきである。例えば、サンプルから読み取られた単一の30bpをヒト染色体のうちのいずれか1つにマッピングすることは、計算装置の支援無しに多大な努力を要する場合がある。当然のことながら、信頼できるリピート伸長コールは、一般に、1つ以上の染色体への数千個(例えば、少なくとも約10,000個)あるいは数百万個のリードのマッピングを必要とするために、問題は複雑である。
種々の実施形態では、未加工の配列リードは、1つ以上の対象とする配列を表す1つ以上の配列グラフに整列される。種々の実施形態では、少なくとも10,000個、100,000個、500,000個、1,000,000個、5,000,000個、又は10,000,000個のリードが、1つ以上の配列グラフに整列される。種々の実施形態では、1つ以上の配列グラフは、少なくとも1個、2個、5個、10個、50個、100個、500個、1000個、5,000個、10,000個、又は50,000個の配列グラフを含む。
いくつかの実施形態では、未加工の配列リードは最初に参照ゲノムに整列されて、最初に整列したリードのサブセットが1つ以上の対象とする配列を表す1つ以上の配列グラフに整列される前に、リードのゲノム座標を決定する。種々の実施形態では、少なくとも10,000個、100,000個、500,000個、1,000,000個、5,000,000個、10,000,000個、又は100,000,000個のリードが、最初に参照ゲノムに整列される。いくつかの実施形態では、最初に整列されたリードは、配列グラフに再整列されて、多数の領域(配列グラフに対応する各領域)におけるリピート伸長を決定する。実施形態の各実施中に配列グラフに再整列されるリードの総数は、数千~数百万のリードの範囲であり得る。種々の実施形態では、10,000,000個のもので、リードは、各配列グラフに再整列される。種々の実施形態では、1つ以上の配列グラフは、少なくとも1個、2個、5個、10個、50個、100個、500個、1000個、5,000個、10,000個、又は50,000個の配列グラフを含む。
5本明細書に開示された方法は、反復配列を含むゲノム遺伝子座におけるバリアントの遺伝子型を決定するためのシステムを使用して、実施され得る。本システムは、(a)サンプルから核酸配列情報を提供する試験用サンプルから核酸を受容するためのシーケンサと、(b)プロセッサと、(c)当該プロセッサ上で、反復配列を含むゲノム遺伝子座におけるバリアントの遺伝型決定を実行するためにその上に記憶された命令を有する、1つ以上のコンピュータ可読記憶媒体と、を含んでもよい。いくつかの実施形態では、本方法は、任意のリピート伸長を特定するための方法を実行するためにその上に記憶されたコンピュータ可読命令を有する、コンピュータ可読媒体によって、指示される。したがって、一実施形態は、コンピュータシステムの1つ以上のプロセッサによって実行された場合に、プログラムコードを記憶する非一時的な機械可読媒体を含むコンピュータプログラム製品を提供し、コンピュータシステムに、核酸を含む試験用サンプル中の反復配列のリピート伸長を特定する方法を実施させ、反復配列は、ヌクレオチドの繰り返し単位の反復を含む。プログラムコードは、(a)データベースから試験用サンプルの配列リードを収集するためのコードと、(b)配列グラフによってそれぞれ表される1つ以上の反復配列に配列リードを整列させるためのコードであって、配列グラフが、核酸配列を表す頂点及び頂点を接続する有向エッジを伴う有向グラフのデータ構造を有し、配列グラフが1つ以上の自己ループを含み、各自己ループが反復部分配列を表し、各反復部分配列が1つ以上のヌクレオチドの繰り返し単位の反復を含む、コードと、(c)1つ以上の反復配列に関する1つ以上の遺伝子型を、1つ以上の反復配列に整列させた配列リードを使用して決定するためのコードと、を含んでもよい。
いくつかの実施形態では、命令は、反復リード及びアンカー型リードなどの方法に関連する情報、及び試験用サンプルを提供するヒト被験者の患者の医療記録におけるリピート伸長の有無を自動的に記録すること、を更に含んでもよい。患者の医療記録は、例えば、実験室、医師の診察室、病院、健康維持組織、保険会社によって保持されてもよい、又は個人医療記録方法は、試験用サンプルが採取されたヒト被験者の治療を処方、開始、及び/又は変更することを更に含んでもよい。これは、対象から採取した追加のサンプルに対して、1つ以上の追加の試験又は分析を実行することを含んでもよい。
開示された方法はまた、任意のリピート伸長を特定するための方法を実行するように適合又は構成されたコンピュータ処理システムを使用して、実行することもできる。一実施形態は、本明細書に記載された方法を実行するように適合又は構成されたコンピュータ処理システムを提供する。一実施形態では、本装置は、本明細書のその他の箇所に記載された配列情報の種類を得るために、サンプル中の核酸分子の少なくとも一部をシーケンシングするように適合又は構成されたシーケンシングデバイスを含む。装置はまた、サンプルを処理するための構成要素を含んでもよい。このような構成要素は、本明細書のその他の箇所に記載されている。
配列又はその他のデータは、コンピュータに入力することができる、又は直接的若しくは間接的にのどちらかで、コンピュータ可読媒体上に記憶されてもよい。一実施形態では、コンピュータシステムは、サンプルから核酸配列を読み取る及び/又は分析するシーケンシングデバイスに直接連結される。このようなツールからの配列又はその他の情報は、コンピュータシステム内のインターフェースを介して提供される。あるいは、システムによって処理された配列は、データベース又はその他のリポジトリなどの配列記憶ソースから提供される。処理装置が利用可能になると、メモリデバイス又は大容量記憶デバイスは、核酸の配列を少なくとも一時的に緩衝又は保存する。加えて、メモリデバイスは、種々の染色体又はゲノム等のタグ数を記憶してもよい。メモリはまた、配列又はマップされたデータの提示を分析するための種々のルーチン及び/又はプログラムを記憶してもよい。このようなプログラム/ルーチンは、統計分析を実行するためのプログラム等を含んでもよい。
一実施例では、使用者は、シーケンシング装置にサンプルを提供する。データは、コンピュータに接続されたシーケンシング装置によって収集及び/又は分析される。コンピュータ上のソフトウエアは、データ収集及び/又は分析を可能にする。データは、記憶され、(モニタ又はその他の同様のデバイスを介して)表示され、及び/又は別の場所に送信され得る。コンピュータは、遠隔ユーザ(例えば、医師、科学者、又は分析医)によって利用されるハンドヘルドデバイスにデータを送信するために使用されるインターネットに接続されてもよい。データは、送信前に記憶及び/又は分析され得ることが理解される。いくつかの実施形態では、未加工データが収集され、データを分析及び/又は記憶する遠隔ユーザ又は装置に送信される。転送処理は、コンピュータ可読媒体上に記憶されたものを介して発生することができ、媒体は、エンドユーザに(例えば、メールを介して)運ばれ得る。遠隔ユーザは、建物、都市、州、国、又は大陸を含むがこれらに限定されない、同じ又は異なる地理的位置にあることができる。
いくつかの実施形態では、方法はまた、複数のポリヌクレオチド配列(例えば、リード、タグ、及び/又は参照染色体配列)に関するデータを収集することと、データをコンピュータ又はその他の計算システムに送信することと、を含む。例えば、コンピュータは、試験室機器、例えば、サンプル採取装置、ヌクレオチド増幅装置、ヌクレオチドシーケンシング装置、又はハイブリダイゼーション装置に接続することができる。次に、コンピュータは、試験室デバイスによって集められた適用可能なデータを収集することができる。データは、任意の工程で、例えば、実時間での収集中、送信前、送信中又は送信に関連して、又は送信後に、コンピュータ上に記憶され得る。データは、コンピュータから抽出することができるコンピュータ可読媒体上に記憶することができる。収集又は記憶されたデータは、コンピュータから遠隔位置に、例えば、ローカルネットワーク又はインターネットなどの広域ネットワークを介して送信することができる。遠隔位置では、以下に記載されるように、送信されたデータに対して種々の動作を実行することができる。
本明細書に開示されたシステム、装置、及び方法で記憶、送信、分析、及び/又は操作され得る電子的にフォーマットされたデータの種類は、とりわけ以下のものである。
試験用サンプル中の核酸をシーケンシングすることによって得られたリード
リードを、参照ゲノム又はその他の参照配列若しくは配列に整列させることによって得られるタグ
参照ゲノム又は配列
遺伝子座の同一性、位置、及び構造リードの適用範囲を示す遺伝子座仕様
バリアントの遺伝子型配列グラフグラフ経路
グラフ整列情報
リピート伸長の実際のコール
診断(コールに関連する臨床的状態)
コール及び/又は診断から誘導される更なる試験のための推奨
コール及び/又は診断から誘導される治療及び/又は監視計画
これらの種々の種類のデータは、別個の装置を使用して、1つ以上の場所で取得、記憶、送信、分析、及び/又は操作されてもよい。処理オプションは、広域スペクトルに及ぶ。スペクトルの一方の端部において、この情報の全て又は多くは、試験用サンプルが処理される場所、例えば医師の診察室又はその他の臨床設定で保管及び使用される。その他の極端な場合、サンプルは1つの場所で取得され、異なる場所で処理され、所望により配列決定され、リードは整列され、1つ以上の異なる場所でコールが行われ、更に別の場所(サンプルが得られた場所であり得る)で診断、推奨、及び/又は計画が準備される。
種々の実施形態では、リードはシーケンシング装置で生成され、次に、リピート伸長コールを生成するように処理される遠隔部位に送信される。本遠隔位置では、一例として、リードは、アンカーリード及びアンカー型リードを生成するために参照配列に整列される。別個の場所で採用され得る処理動作は、とりわけ以下の通りである。
サンプル収集
シーケンシングに対して予備的なサンプル処理
配列データを分析し、リピート伸長コールを導出する
診断
患者又は医療提供者に診断及び/又はコールを報告する計画を実行する更なる治療、試験、及び/又は監視のための計画を開発する
カウンセリング
これらの動作のうちの任意の1つ以上は、本明細書のその他の箇所に記載されるように自動化されてもよい。典型的には、配列データのシーケンシング及び分析並びにリピート伸長コールの導出は、計算的に実行され得る。その他の動作は、手動で又は自動的に実行されてもよい。
図6は、試験用サンプルからのコール又は診断を生成するための分散システムの一実施形態を示す。サンプル採取位置01は、患者から試験用サンプルを採取するために使用される。次に、サンプルは、上記のように試験用サンプルを処理及び配列決定することができる、処理及びシーケンシング位置03に提供される。位置03は、サンプルを処理するための装置、並びに処理されたサンプルをシーケンシングするための装置を含む。本明細書のその他の箇所に記載されるようなシーケンシングの結果は、典型的には電子フォーマットで提供され、図6の参照番号05によって示されるインターネットなどのネットワークに提供されるリードの集合である。
配列データは、分析及びコール生成が実行される遠隔位置07に提供される。この位置は、コンピュータ又はプロセッサなどの1つ以上の強力な計算デバイスを含んでもよい。場所07における計算リソースがそれらの分析を完了し、受信した配列情報からのコールを生成した後、コールはネットワーク05に再中継される。いくつかの実施形態では、位置07で生成されたコールであるだけでなく、関連する診断も生成される。次に、コール及び又は診断は、図6に示されるように、ネットワークを横切って送信され、サンプル採取位置01に戻る。説明されるように、これは、コール又は診断を生成することに関連する種々の動作が、どのように種々の位置の間で分割され得るかにおける、多くの変形形態のうちの1つである。1つの共通のバリアントは、単一の位置で、サンプル採取並びに処理及びシーケンシングを提供することを含む。別の変形形態は、分析及びコールの生成と同じ場所で処理並びにシーケンシングを提供することを含む。
実験
本発明者らは、HTT遺伝子座において広範囲のCAG及びCCG反復サイズを含むシミュレートされたデータセットに、プログラムを適用した。HTT又はハンチンチン(Huntingtin)は、ハンチントン病(Huntington病(HD))に関連した疾患遺伝子であり、神経変性障害は、線条体ニューロンの損失によって特徴付けられる。これは、ハンチンチン遺伝子において、伸長した不安定なトリヌクレオチド反復によって引き起こされると考えられており、これは、タンパク質生成物中でポリグルタミン反復として翻訳する。かなり広い範囲のトリヌクレオチド反復(9~35)が正常な対照で特定されており、40を超える反復数は異常であるとして記載されている。
予想されるように、いくつかの実施形態による方法を使用して得られた精度は、両方の反復が独立して分析された場合と比較して、両方の反復を含有する配列グラフに整列された場合に、実質的に高かった。その他のSTR遺伝子型と比較して、同様の改善が観察された(図7)。
実施形態が縮重DNA反復の遺伝子型決定を行うことができることを実証するために、本発明者らは、150の健康な対照におけるPHOX2B遺伝子及び既知の病原性伸長を保有している1つのサンプルにおいて、ポリアラニン反復を分析した。PHOX2Bは、先天性中枢性低換気症候群(congenital central hypoventilation syndrome)を引き起こすように伸長し得る、20個のコドンのポリアラニン反復を含有する。本反復について既知のものと整合する(Amiel et al.2003)、全ての、しかし少数の対照が20/20として遺伝子型決定された。実施形態は、20/27として、伸長を有する唯一のサンプルを正確に遺伝子型決定する。この遺伝子型の正確性を、サンガーシーケンシングによって確認した。実施形態はまた、SeraCare Life Sciences(Supplementary Materialsを参照されたい)から得られたサンプルの3つのWGS複製物において、MSH2遺伝子中のアデノシンホモポリマーに隣接する病原性SNVを正確に検出した。
要約すると、本発明者らは、複雑な遺伝子座のより正確な遺伝子型決定の必要性に対処する新規な方法を開発した。本方法は、ポリアラニン反復を遺伝子型決定し、小さいバリアント及びその他の反復にごく近接した反復を含む困難な領域を解決することができる。本発明者らは、現在実装されている配列グラフフレームワークの柔軟性が、種々の新規なバリアントコーリング用途を可能にし得ることを期待する。
HTT遺伝子座におけるCAG及びCCG STRの分析
wgsim(Li,n.d.)を使用して、CAG及びCCG反復遺伝子型の各組み合わせについて、ショートリードサンプルをシミュレートした。本発明者らは、リード長さを150、メイトエンド間の距離を350、メイトエンドの距離に関する標準偏差を50、変異率及びベースエラー率を0.0010、及びインデルの分率を0に設定した。対の数を設定して、遺伝子座の40xの確率を得た。リードは、BWA-MEM 0.7.17-r1194-dirty(LL2013)を用いてGRCh37参照へと整列した。
これらのデータを、いくつかの実施形態で2つの方法で分析した。最初に、本発明者らは、発現(CAG)CAACAG(CCG)を使用してHTT遺伝子座の構造を特定し、リードが両方の反復を含む配列グラフに整列されることを保証する。次に、いくつかの実施形態を使用して、各反復を独立して分析する。本モードでは、リードをCAG STRを表すグラフに、また別個に、CCG STRを表すグラフに整列させた。最後に、本発明者らは、配列グラフを使用しないでリードを反復領域へ整列させるGangSTR及びTredParseの最新バージョンを用いて、両方のリードを独立して分析した(図7)。
図7は、HTT遺伝子座においてCAG及びCCG STRを遺伝子型決定する工程の正確性を示す。(a)リードが、両方の反復を含む配列グラフに整列された場合の実施形態の性能、(b)反復が独立して分析される場合の実施形態の性能、(c)GangSTRの性能、(d)TredParseの性能。シミュレーションした各サンプルについて、予想されるSTR長さから予測されるSTR長さの最大割合偏差を測定した。青い点線は、参照ゲノム中の遺伝子型に対応し、赤い実線は、病原性伸長の閾値を表す。本実施形態は、両方の反復を共に遺伝子型決定する場合に、全てのサンプルについて適切な遺伝子型を正確に予測する。共同遺伝子型決定は、反復のうちの1つがもう一方よりも著しく長い場合に、特に高い相対誤差率を示した3つのツールのいずれかを用いた両方のリードの別個の遺伝子型決定にわたって、高い利点を提供する。
データセット
PHOX2Bポリアラニン反復の分析に使用される150個の無関係な対照についてのPCRを含まないWGSシーケンシングデータは、ポラリス・ダイバーシティ・コホート(Polaris Diversity Cohort)である。これは、International Genome Sample Resource(1000 Genomes Project Consortium et al.2015)(www|.|internationalgenome|.|org/)から選択されるサンプルからなる。WGSデータは、European Genome-phenome Archive(EGA;www|.|ebi|.|ac|.|uk/ega/home;PRJEB20654)、及びNCBI Sequence Read Archive(SRA;www|.|ncbi|.|nlm|.|nih|.|gov/sra;bioproject:387148)から取得することができる。サンプルの説明(github||com/Illumina/Polaris/wiki/HiSeqX Diversity-Cohort)。
PHOX2Bにおける20/27伸長を有するサンプルは、Genetics Laboratories Molecular Genetics,Addenbrooke’s Treatment Centre,and Cambridge Universityから入手した。
SeraCare Life SciencesのサンプルであるSeraseq Inherited Cancer DNA Mix v1は、病原性及びコールに対して硬性の両方であることが知られているバリアントを含有する。バリアントは、全て50%の予想されるバリアント頻度を有する、良好に特徴付けられた細胞株GM24385に合成的に添加されている。これらの改変された変異の1つは、長いホモポリマーA領域に直接隣接するMSH2遺伝子中のSNVに対応する。
IlluminaのTruSeq PCRフリーキットを用いて、SeraCareのサンプルの3つの複製物を調製した。XPワークフローを使用して、複製物をNovaSeq6000の単一レーン上で実行し、2×151のリード長さで配列決定した。「Sentieon DNASeq FASTQ to VCF’及び「Whole Genome Requencing v8.0.0’Basespace apps(https://basespace.illumina.com)を使用して複製物を分析した。Sentieonは、SentieonとしてのBroad’s GATKソフトウエアスイートの変形コーリング性能のプロキシと見なすことができる。ソフトウエアソリューションのいずれも、MSH2 SNVを正確に特定することができなかった。Fastqファイル及び分析結果は、Basespace:https://basespace.illumina.com/s/HAQNxJyEtJLPを介して提供される。
本開示は、その趣旨又は本質的な特徴から逸脱することなく、その他の特定の形態で具現化されてもよい。記載された実施形態は、全ての点において、例示的なものに過ぎず、限定的ではないと見なされるべきである。したがって、本開示の範囲は、前述の説明ではなく、添付の特許請求の範囲によって示される。特許請求の範囲の意味及び均等範囲内に含まれる全ての変更は、それらの範囲内に包含されるものである。

Claims (30)

  1. 1つ以上の反復部分配列をそれぞれが含む2つ以上の反復配列を含むゲノム遺伝子座を遺伝子型決定するために、1つ以上のプロセッサ及びシステムメモリを備えるコンピュータを使用して実施される方法であって、
    (a)前記1つ以上のプロセッサを使用して、試験用サンプルのペア・エンド・配列リードをデータベースから収集することと、
    (b)前記配列リードを参照ゲノムに整列させて、前記配列リードのゲノム座標を決定することと、配列リードのサブセットを選択することと、
    (c)前記1つ以上のプロセッサによって、前記ゲノム遺伝子座を表す配列グラフにより表される前記2つ以上の反復配列に選択された前記配列リードのサブセットを整列させることであって、前記配列グラフは、核酸配列を表す頂点及び前記頂点を接続する有向エッジを伴う有向グラフのデータ構造を有し、前記配列グラフは2つ以上の自己ループを含み、各自己ループは反復部分配列を表し、各反復部分配列は1つ以上のヌクレオチドの異なる繰り返し単位の反復を含む、配列リードを整列させることと、
    (d)前記1つ以上のプロセッサによって、前記1つ以上の反復配列に整列された前記配列リードを使用して、前記2つ以上の反復配列のために1つ以上の遺伝子型を決定することと、を含む、方法。
  2. 前記2つ以上の反復配列のうちの1つの反復配列が、少なくとも1つの不完全に特定されたヌクレオチドを含む特定の繰り返し単位を含む、請求項1に記載の方法。
  3. 前記特定の繰り返し単位が縮重コドンを含む、請求項2に記載の方法。
  4. 前記配列グラフが、2つ以上の対立遺伝子のための2つ以上の代替経路を更に含む、請求項1~3のいずれか一項に記載の方法。
  5. 前記2つ以上の対立遺伝子が、インデル又は置換を含む、請求項4に記載の方法。
  6. 前記置換が、一塩基バリアント(SNV)又は一塩基多型(SNP)を含む、請求項に記載の方法。
  7. 前記2つ以上の代替経路に整列された配列リードを使用して、前記2つ以上の対立遺伝子を遺伝子型決定することを更に含む、請求項4に記載の方法。
  8. 前記2つ以上の対立遺伝子を遺伝子型決定することが、前記2つ以上の対立遺伝子の確率を決定するために、確率モデルに前記2つ以上の代替経路の適用範囲を提供することを含む、請求項7に記載の方法。
  9. 前記確率モデルが、前記対立遺伝子の前記適用範囲の関数として前記対立遺伝子の確率をシミュレートし、前記関数が、ポアソン分布、負の二項分布、二項分布、又はベータ二項分布から選択される、請求項8に記載の方法。
  10. 前記ポアソン分布の速度パラメータが、ゲノム遺伝子座において観察されるリード長さ及び平均深度から推定される、請求項9に記載の方法。
  11. 配列リードの前記サブセットが、配列グラフによって表される領域に、又はその付近で整列されたリードを含む、請求項1~10のいずれか一項に記載の方法。
  12. 配列リードの前記サブセットが、配列グラフによって表される領域に、又はその付近でマップを結合する非整列リードを含む、請求項1~10のいずれか一項に記載の方法。
  13. 配列リードの前記サブセットが、リードを不整合にすることに関して、既知のホットスポットである1つ以上のオフターゲット領域に整列されたリードを含む、請求項1~10のいずれか一項に記載の方法。
  14. 配列リードを前記配列グラフに整列することが、
    前記配列リードと前記配列グラフの経路との間のkmer整合を見つけることと、
    前記kmer整合を、ノードと、1つ以上の自己ループを含む前記配列グラフのエッジとの完全な整列へと延長させることと、を含む、請求項1~13のいずれか一項に記載の方法。
  15. 配列リードを前記配列グラフに整列することが、前記整列の低信頼性末端を除去することによるグラフ縮小を含む、請求項1~14のいずれか一項に記載の方法。
  16. 配列リードを前記配列グラフに整列することが、
    前記リードの部分配列を配列グラフに整列することと、
    前記部分配列の整列を併合して、前記配列リードの完全な整列を形成することと、による整列併合を含む、請求項1~15のいずれか一項に記載の方法。
  17. 前記ゲノム遺伝子座の遺伝子座構造を含む遺伝子座仕様に基づいて前記配列グラフを生成することを更に含む、請求項1~16のいずれか一項に記載の方法。
  18. 前記配列リードがペア・エンド・リードを含み、動作(c)が、
    (i)前記ペア・エンド・リード中のアンカーリード及びアンカー型リードを特定することであって、前記アンカーリードが、前記1つ以上の反復配列に整列しているリード又はその近くで整列しているリードであり、前記アンカー型リードが、前記アンカーリードと対になった非整列リードである、特定することと、
    (ii)少なくとも前記アンカー型リードを使用して、前記1つ以上の反復配列に関する前記1つ以上の遺伝子型を決定することと、を含む、請求項1~17のいずれか一項に記載の方法。
  19. 動作(ii)が、前記アンカーリード及び前記アンカー型リードを使用して、前記1つ以上の反復配列に関する前記1つ以上の遺伝子型を決定することを含む、請求項18に記載の方法。
  20. 前記アンカーリードが、5kbの反復配列内に整列される、請求項18又は19に記載の方法。
  21. 前記非整列リードが、前記配列グラフに整列されることができない又は前記配列グラフへの整列が不十分なリードを含む、請求項18~20のいずれか一項に記載の方法。
  22. 前記1つ以上の反復配列が、短タンデム反復(STR)配列を含む、請求項1~21のいずれか一項に記載の方法。
  23. 前記STRの伸長が、脆弱X染色体症候群、筋萎縮性側索硬化症(ALS)、ハンチントン病、フリートライヒ運動失調、脊髄小脳変性症、球脊髄性筋萎縮症、筋強直性ジストロフィー、マチャド・ジョセフ病、又は歯状核赤核淡蒼球ルイ体萎縮症に関連する、請求項22に記載の方法。
  24. 前記試験用サンプルからペア・エンド・リードを生成するためにシーケンサを使用することを更に含む、請求項1~23のいずれか一項に記載の方法。
  25. 前記試験用サンプルを個体から抽出することを更に含む、請求項1~24のいずれか一項に記載の方法。
  26. 前記試験用サンプルが、血液サンプル、尿サンプル、唾液サンプル、又は組織サンプルである、請求項1~25のいずれか一項に記載の方法。
  27. 前記繰り返し単位が、1~50個のヌクレオチドを含む、請求項1~26のいずれか一項に記載の方法。
  28. 前記リードが、前記1つ以上の反復配列のうちの少なくとも1つよりも短い、請求項1~27のいずれか一項に記載の方法。
  29. システムであって、
    システムメモリと、
    1つ以上のプロセッサであって、
    (a)データベースから試験用サンプルのペア・エンド・配列リードを収集し、
    (b)前記配列リードを参照ゲノムに整列させて、前記配列リードのゲノム座標を決定することと、配列リードのサブセットを選択することと、
    (c)配列グラフによって表される2つ以上の反復配列に選択された前記配列リードのサブセットを整列させ、前記配列グラフは、核酸配列を表す頂点及び前記頂点を接続する有向エッジを伴う有向グラフのデータ構造を有し、前記配列グラフは2つ以上の自己ループを含み、各自己ループは反復部分配列を表し、各反復部分配列は1つ以上のヌクレオチドの異なる繰り返し単位の反復を含み、
    (d)前記2つ以上の反復配列に整列された前記配列リードを使用して、前記2つ以上の反復配列について1つ以上の遺伝子型を決定するように構成されたプロセッサと、を備える、システム。
  30. プログラムコードを記憶する非一時的な機械可読媒体を含むコンピュータプログラムが記録された記録媒体であって、コンピュータシステムの1つ以上のプロセッサによって実行された場合に、前記コンピュータシステムに、核酸を含む試験用サンプル中の2つ以上の反復配列を含むゲノム遺伝子座を遺伝子型決定するための方法を実行させ、前記プログラムコードが、
    (a)データベースから試験用サンプルのペア・エンド・配列リードを収集するためのコードと、
    (b)前記配列リードを参照ゲノムに整列させて、前記配列リードのゲノム座標を決定することと、配列リードのサブセットを選択することと、
    (c)配列グラフによって表される前記2つ以上の反復配列に選択された前記配列リードのサブセットを整列するためのコードであって、前記配列グラフは、核酸配列を表す頂点及び前記頂点を接続する有向エッジを伴う有向グラフのデータ構造を有し、前記配列グラフは2つ以上の自己ループを含み、各自己ループは反復部分配列を表し、各反復部分配列は1つ以上のヌクレオチドの異なる繰り返し単位の反復を含む、コードと、
    (d)前記2つ以上の反復配列に整列された前記配列リードを使用して、前記2つ以上の反復配列について1つ以上の遺伝子型を決定するためのコードと、を含む、コンピュータプログラムが記録された記録媒体。
JP2021518136A 2019-03-07 2020-03-06 短タンデム反復領域の変動を決定するための配列グラフ系ツール Active JP7581191B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2024190404A JP2025023964A (ja) 2019-03-07 2024-10-30 短タンデム反復領域の変動を決定するための配列グラフ系ツール

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962815322P 2019-03-07 2019-03-07
US62/815,322 2019-03-07
PCT/US2020/021550 WO2020181254A1 (en) 2019-03-07 2020-03-06 Sequence-graph based tool for determining variation in short tandem repeat regions

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2024190404A Division JP2025023964A (ja) 2019-03-07 2024-10-30 短タンデム反復領域の変動を決定するための配列グラフ系ツール

Publications (2)

Publication Number Publication Date
JP2022522565A JP2022522565A (ja) 2022-04-20
JP7581191B2 true JP7581191B2 (ja) 2024-11-12

Family

ID=70009468

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2021518136A Active JP7581191B2 (ja) 2019-03-07 2020-03-06 短タンデム反復領域の変動を決定するための配列グラフ系ツール
JP2024190404A Pending JP2025023964A (ja) 2019-03-07 2024-10-30 短タンデム反復領域の変動を決定するための配列グラフ系ツール

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2024190404A Pending JP2025023964A (ja) 2019-03-07 2024-10-30 短タンデム反復領域の変動を決定するための配列グラフ系ツール

Country Status (14)

Country Link
US (1) US12374422B2 (ja)
EP (1) EP3935637A1 (ja)
JP (2) JP7581191B2 (ja)
KR (1) KR20210138556A (ja)
CN (2) CN112955958B (ja)
AU (1) AU2020231246B2 (ja)
BR (1) BR112021006402A2 (ja)
CA (1) CA3114759A1 (ja)
IL (1) IL281995A (ja)
MX (1) MX2021003718A (ja)
MY (1) MY210166A (ja)
SG (1) SG11202103205QA (ja)
WO (1) WO2020181254A1 (ja)
ZA (1) ZA202102116B (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR112021006402A2 (pt) 2019-03-07 2021-09-21 Illumina, Inc. Ferramenta baseada em sequência-gráfico para determinar a variação em regiões curtas de repetição em tandem
US20220108773A1 (en) * 2020-10-07 2022-04-07 Baidu Usa Llc Systems and methods for genome analysis and visualization
MX2022016021A (es) * 2020-12-11 2023-03-10 Illumina Inc Métodos y sistemas para visualizar lecturas cortas en regiones repetitivas del genoma.
EP4490734A1 (en) 2022-03-09 2025-01-15 Politecnico di Milano Methods for the alignment of sequence reads to non-acyclic genome graphs on heterogeneous computing systems
CN115240770A (zh) * 2022-07-21 2022-10-25 武汉希望组医学检验实验室有限公司 一种检测短串联重复扩张和基因分型的方法、电子设备及存储介质
EP4591309A1 (en) * 2022-09-22 2025-07-30 Pacific Biosciences Of California, Inc. Systems and methods for tandem repeat mapping
CN115820827A (zh) * 2022-12-14 2023-03-21 苏州新海生物科技股份有限公司 新型str分型方法
CN117418001A (zh) * 2023-12-19 2024-01-19 广州嘉检医学检测有限公司 一种脊髓小脑共济失调sca3型基因检测试剂盒及检测方法
IL310301B1 (en) * 2024-01-21 2025-10-01 Identifai Genetics Ltd Methods for non-invasive prenatal diagnosis of repeat mutations

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150199474A1 (en) 2013-10-18 2015-07-16 Seven Bridges Genomics Inc. Methods and systems for aligning sequences in the presence of repeating elements
WO2016038220A1 (en) 2014-09-12 2016-03-17 Illumina Cambridge Limited Detecting repeat expansions with short read sequencing data

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2367653B (en) 2000-10-05 2004-10-20 Advanced Risc Mach Ltd Restarting translated instructions
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
WO2013041577A1 (en) 2011-09-20 2013-03-28 Vib Vzw Methods for the diagnosis of amyotrophic lateral sclerosis and frontotemporal lobar degeneration
AU2012376134B2 (en) 2012-04-05 2016-03-03 Bgi Genomics Co., Ltd. Method and system for detecting copy number variation
US9916416B2 (en) 2012-10-18 2018-03-13 Virginia Tech Intellectual Properties, Inc. System and method for genotyping using informed error profiles
EP3053073B1 (en) * 2013-09-30 2019-07-03 Seven Bridges Genomics Inc. Methods and system for detecting sequence variants
JP2017510871A (ja) * 2014-01-10 2017-04-13 セブン ブリッジズ ジェノミクス インコーポレイテッド リードマッピングにおける公知の対立遺伝子の使用のためのシステム及び方法
WO2015147370A1 (en) 2014-03-28 2015-10-01 Seegene, Inc. Detection of target nucleic acid sequences using different detection temperatures
US10229519B2 (en) * 2015-05-22 2019-03-12 The University Of British Columbia Methods for the graphical representation of genomic sequence data
EP3901279B1 (en) 2015-10-18 2023-05-17 Affymetrix, Inc. Multiallelic genotyping of single nucleotide polymorphisms and indels
BR112021006402A2 (pt) 2019-03-07 2021-09-21 Illumina, Inc. Ferramenta baseada em sequência-gráfico para determinar a variação em regiões curtas de repetição em tandem

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150199474A1 (en) 2013-10-18 2015-07-16 Seven Bridges Genomics Inc. Methods and systems for aligning sequences in the presence of repeating elements
WO2016038220A1 (en) 2014-09-12 2016-03-17 Illumina Cambridge Limited Detecting repeat expansions with short read sequencing data

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Adam M Szalkowski,Fast and robust multiple sequence alignment with phylogeny-aware gap placement,BMC Bioinformatics,[ONLINE],第13巻,第129号,2012年,p.1-11,[令和6年1月19日検索],インターネット<URL:https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-13-129>

Also Published As

Publication number Publication date
US12374422B2 (en) 2025-07-29
WO2020181254A1 (en) 2020-09-10
CA3114759A1 (en) 2020-09-10
AU2020231246A1 (en) 2021-04-29
JP2022522565A (ja) 2022-04-20
IL281995A (en) 2021-05-31
KR20210138556A (ko) 2021-11-19
CN112955958A (zh) 2021-06-11
MX2021003718A (es) 2021-06-15
US20200286586A1 (en) 2020-09-10
EP3935637A1 (en) 2022-01-12
CN119724336A (zh) 2025-03-28
CN112955958B (zh) 2024-12-10
JP2025023964A (ja) 2025-02-19
ZA202102116B (en) 2025-07-30
SG11202103205QA (en) 2021-04-29
MY210166A (en) 2025-08-30
BR112021006402A2 (pt) 2021-09-21
AU2020231246B2 (en) 2025-03-06

Similar Documents

Publication Publication Date Title
US20240084376A1 (en) Error suppression in sequenced dna fragments using redundant reads with unique molecular indices (umis)
JP7581191B2 (ja) 短タンデム反復領域の変動を決定するための配列グラフ系ツール
US20200335178A1 (en) Detecting repeat expansions with short read sequencing data
US20220254442A1 (en) Methods and systems for visualizing short reads in repetitive regions of the genome
RU2825664C2 (ru) Инструмент на основе графов последовательностей для определения вариаций в областях коротких тандемных повторов
RU2799654C2 (ru) Инструмент на основе графов последовательностей для определения вариаций в областях коротких тандемных повторов
HK40054694A (en) Sequence-graph based tool for determining variation in short tandem repeat regions
HK40040528B (en) Error suppression in sequenced dna fragments using redundant reads with unique molecular indices (umis)
HK1244513B (en) Error suppression in sequenced dna fragments using redundant reads with unique molecular indices (umis)

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240611

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240808

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20241001

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20241030

R150 Certificate of patent or registration of utility model

Ref document number: 7581191

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150