[go: up one dir, main page]

JP3675521B2 - Dnaの塩基配列決定時におけるフラグメント波形表示方法および装置 - Google Patents

Dnaの塩基配列決定時におけるフラグメント波形表示方法および装置 Download PDF

Info

Publication number
JP3675521B2
JP3675521B2 JP19200695A JP19200695A JP3675521B2 JP 3675521 B2 JP3675521 B2 JP 3675521B2 JP 19200695 A JP19200695 A JP 19200695A JP 19200695 A JP19200695 A JP 19200695A JP 3675521 B2 JP3675521 B2 JP 3675521B2
Authority
JP
Japan
Prior art keywords
fragment
position information
base
waveform data
base sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP19200695A
Other languages
English (en)
Other versions
JPH0944564A (ja
Inventor
建策 今井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP19200695A priority Critical patent/JP3675521B2/ja
Priority to US08/685,959 priority patent/US5891632A/en
Priority to GBGB9615563.5A priority patent/GB9615563D0/en
Priority to GB9615699A priority patent/GB2303702B/en
Publication of JPH0944564A publication Critical patent/JPH0944564A/ja
Application granted granted Critical
Publication of JP3675521B2 publication Critical patent/JP3675521B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Biotechnology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Immunology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

【0001】
【産業上の利用分野】
本発明は、核酸の1つとしてのDNAにおける塩基配列の決定方法に係り、更に詳しくはDNAシーケンサを用いたDNA塩基配列決定時におけるDNAの断片としてのフラグメントにおける塩基の配列に対応する波形の表示方法に関する。
【0002】
【従来の技術】
核酸の構成単位はヌクレオチドであり、このヌクレオチドは塩基、糖、リン酸の3成分が結合したものである。ヌクレオチドはヌクレオシドにリン酸が結合したものでもあり、リン酸はヌクレオシドをはしかけして、ポリマーが作られ、DNA(レオキシリボ核酸)とRNA(リボ核酸)のいずれかが形成される。
【0003】
核酸を構成する塩基にはプリン塩基とピリミジン塩基の2種類があり、プリン塩基にはアデニンAとグアニンGがあり、またピリミジン塩基にはシトシンCとチミンTがある。
【0004】
ポリヌクレオチド鎖構造と呼ばれる構造を持つDNAは、前述の4つの塩基アデニンA、グアニンG、シトシンC、およびチミンTが一列に並んだ細長い糸のような構造を持っており、例えば1個のヒトの細胞の染色体からDNAを引き出し、それらを繋ぎ合わせると1mにもおよび、この上に30億個の塩基が並んでいると言われる。
【0005】
従って、このA,G,TおよびCの配列順序を知ることが、すなわち遺伝情報を解明することにつながり、この塩基配列を決めるシーケンス技術は他の分野の技術と互いに関連しながら進歩しており、その発展は制限酵素や核酸関連酵素の発見、DNAのクローニング、核酸化学などの技術分野の発展と大いに関連している。
【0006】
最近ではコンピュータ技術がシーケンス法の1つとして活用され、人間の能力を越えた膨大なデータの入力や蓄積が可能となり、塩基配列の決定にとってコンピュータは必須の道具として用いられるようになっている。
【0007】
DNAは、前述のように塩基が一列、すなわち鎖状に結合した塩基一次配列の構造を持っている。このDNA鎖には向きがあり、ATGCACGA→とATGCACGA←(すなわち、AGCACGTA→)とは別のものである。
【0008】
このDNA鎖の両側、すなわち末端には名称がついており、糖の3′の位置に水酸基がついた末端は3′末端と呼ばれ、また他方の末端、すなわち糖の5′の位置にリン酸基がついた末端は5′末端と呼ばれる。そしてDNA鎖を記述する際には、一般に5′末端が左、3′末端が右となるように記述する。
【0009】
DNAは通常、向きが異なって相補的な2本の塩基配列がくっついた二重鎖の状態で存在する。この時2本の塩基配列において、お互いに向かい合う塩基の間には一定の関係があり、アデニンAはチミンTと、またグアニンGはシトシンCと向き合うようになっている。この例を次に示す(上下の塩基がペアとなっている)。
【0010】
【数1】
Figure 0003675521
【0011】
DNAは相補鎖となる2本の塩基配列が組となって、1つの遺伝的意味を持ち、2つの配列のうちどちらか1つの配列を確定することができれば、そのDNAの塩基配列を決定できたことになる。
【0012】
DNAの塩基配列を自動的に読み取る装置であるDNAシーケンサにおいては、ジデオキシ法、またはサンガ法と呼ばれる方法が塩基配列決定のために用いられる。一般にDNAの二重鎖の一方の相補鎖の一部分を、DNA合成のきっかけとなるプライマーとしてDNA合成を行う際に、ジデオキシヌクレオチドと言うヌクレオチドが取り込まれると、そこでDNA合成がストップし、様々な長さのDNAの断片(フラグメント)が得られるが、プライマーを用いたDNA合成反応の際に、G,A,T、及びCの各塩基に対応するジデオキシヌクレオチドを加えることにより、それぞれの塩基の位置で鎖の伸びがストップした様々な長さのDNA断片が得られる。
【0013】
図11は特定のヌクレオチド、この場合アデニンAの所で切断されてできるDNA断片の作り方の説明図である。この場合にはDNA鎖から1個のヌクレオチド、すなわちアデニンAを取り除く程度の穏やかな化学処理が行われ、5′末端にリン酸基を持つ左側の断片のみが放射性の断片となり、これらの断片をゲル電気泳動させることにより、放射性の断片のみはその断片の長さ、例えば分子量に対応する位置で検出される。
【0014】
DNAシーケンサでは、ジデオキシ法の反応生成物としてのDNA断片が蛍光標識され、その結果としての蛍光標識されたいろいろの長さの鎖を持つDNA断片が、ゲル電気泳動によって分離される。ゲル内を泳動されてくるDNA断片に対してゲル上のある位置において、レーザ照射により蛍光色素を励起発光させ、この蛍光を光検出器で検出する。電気泳動と同時に経時的に蛍光を検出していくことにより、G,A,T、及びCの各塩基に対応するDNA断片の泳動パターンのデータを得ることができる。このようにして得られたデータがコンピュータによって解析され、塩基配列データに変換される。
【0015】
DNAシーケンサの出力データとしては、DNA塩基配列そのものと、配列の決定に使われた波形データがある。この波形データはゲル電気泳動パターンのデータに対応し、G,A,T、およびCの各波形において波形のピークの位置がその塩基の存在する位置に対応する。
【0016】
しかしながら、前述のように一般にDNAの塩基配列における塩基の個数は非常に多いので、DNAシーケンサによって一度に塩基配列の全てを決定することはできず、一般に配列を決定したいDNAを複数の断片にフラグメント化して、各フラグメントの塩基配列を決定し、それらの塩基配列を結合することによって全体の塩基配列を決定する方法がとられている。このフラグメント化においては、各フラグメントを結合するためにフラグメントの両端はオーバーラップする形でフラグメント化され、各フラグメントに対する塩基配列が求められる。
【0017】
【発明が解決しようとする課題】
DNAシーケンサを用いた塩基配列決定処理においては、以上に述べたように一度に読み取られる塩基の数に制限があり、また読み取られた配列データの内容にもゲル電気泳動による実験の精度によってはかなりの曖昧性が含まれる。
【0018】
図12はシーケンサによって得られた波形のデータを示し、縦軸は蛍光強度、また横軸の数値はDNAの配列における塩基の番号、すなわち、末端からの塩基の位置を表す。同図において、上から下に向かって示すように、必要に応じて波形を拡大し、波形に対応する位置の塩基の配列が読み取られる。
【0019】
このように塩基配列を決定したい目的のDNAに対しては、フラグメントの配列を必要に応じて拡大し、フラグメント配列同士を結合したり、曖昧な塩基を削除したり、必要に応じて塩基を挿入したりする編集の処理をして塩基配列を組み立てることになるが、その処理ではより正確に、かつ迅速に目的の塩基配列を得ることが望ましい。
【0020】
塩基配列を組み立てるためには、DNAシーケンサによって読み取られたフラグメントデータを結合、または編集する際に、通常は文字の配列だけをシーケンサデータから抽出して結合編集操作を行うが、必要に応じて波形データを参照することも行われている。
【0021】
このように波形を参照する場合でも、従来はフラグメントに対応する波形データが表示されるに過ぎず、波形同士を比較して検討できるような表示がなされていないという問題点があった。前述のように電気泳動用ゲルの質のバラつきや、実験条件の微妙な違いなどによって、波形データのピーク間隔も実験データによって一般的に異なってくる。そのため単純に波形を表示しても、波形の間での比較すべき部分の対応が視覚的にわかりにくく、塩基配列の正確な組立にあまり役に立たないと言う問題点があった。
【0022】
また従来においては、ゲル電気泳動において単位塩基数あたりの泳動距離が塩基数が大きくなると共に短くなり、その結果波形に対応する塩基の間隔が均一にならないと言う問題点があった。
【0023】
図13はこの問題点、すなわち塩基間隔の不均一性の説明図である。同図において、例えば塩基番号で100と200の間隔、600と700の間隔が異なっており、塩基間隔が均一でないことを示している。また実験条件の微妙な違いによって、同じ塩基番号に対応する波形の位置も異なっており、波形の間の単純比較が難しいという問題点がある。
【0024】
本発明はDNAの各フラグメントの波形データを比較する際に、波形上で比較すべき位置の対応がすぐにわかり、その結果フラグメントデータの結合、および結合後の編集操作において、より正確に塩基配列を決定できるようにすることを目的とする。
【0025】
【課題を解決するための手段】
図1は本発明の機能ブロック図である。同図はDNAの塩基配列を複数の部分的配列としてのフラグメントに分割して、各フラグメント毎に該フラグメント内の塩基の位置を示す波形を表示し、該複数の波形に対応する塩基配列を結合、および編集してDNA全体の塩基の配列を決定する、塩基配列決定時におけるフラグメント波形表示方法の機能ブロック図である。
【0026】
このフラグメント波形表示方法においては、まず図1の1で各フラグメントに対する塩基の配列がフラグメント塩基配列として決定される。このフラグメント塩基配列は、例えばDNAの塩基配列決定用に用いられるDNAシーケンサの出力によって得られる。
【0027】
続いて2で決定された各フラグメント配列が結合され、その結果としてDNA全体の塩基の配列を示す1本のコンセンサス配列が、曖昧さ、例えばある位置の塩基が2つの塩基のうちのいずれか1つであることなどを示す曖昧さが許容された状態で求められる。
【0028】
更に3で、このコンセンサス配列に対応させてフラグメント内の塩基の位置を示す波形が表示され、表示された波形との比較によってコンセンサス配列の編集、例えば不適当な塩基の削除、必要に応じた塩基の挿入などの操作が行われ、曖昧さが解消されたDNA全体の塩基配列が決定される。
【0029】
本発明においては、コンセンサス配列に対応させて表示波形との比較によるコンセンサス配列の編集を容易にするような波形表示が行われる。その方法は、例えば次のような方法である。
【0030】
例えばDNAシーケンサの出力としてのフラグメント塩基配列上の塩基に対して波形上の位置を示す位置情報が与えられ、編集操作によってフラグメント塩基配列に挿入された塩基にはその位置情報を与えずに、編集後のフラグメント塩基配列中で位置情報を持つ両端の塩基が前記コンセンサス配列に対応させられ、例えばスケール変換が行われて、両端の塩基間の波形の表示が行われる。
【0031】
本発明によれば、このような波形表示を行うことにより、コンセンサス配列に対応する位置に波形が正しく表示されることになる。
【0032】
【実施例】
図2は本発明の波形表示方法を用いる塩基配列の結合、および編集処理の全体フローチャートである。同図の処理は、フラグメントの結合や編集操作などのイベントが実行されるたびに行われる、波形表示の更新までのフローチャートである。
【0033】
図2において、まずステップS11でフラグメントの結合、または編集などのイベントが入力され、ステップS12で必要に応じてそのフラグメントの塩基配列の書き直しなどのプレ処理が行われる。
【0034】
ステップS13〜S15の処理が本発明に特有のものである。まずステップS13で、配列データリンク領域の更新処理が行われる。ここで配列データリンク領域とは、現在編集対象となっているフラグメント配列の塩基の中で、対応する波形データの位置情報を持っている最も先頭に近い塩基と、最も末尾に近い塩基とに挟まれた塩基配列の部分領域である。
【0035】
後述のように、シーケンサの出力として得られた配列の中の塩基は、波形データ上でその位置、すなわち対応する位置情報がわかるので、そのような塩基に対しては、位置情報と対応した形で例えばメモリにそのデータが格納される。これに対して、例えば編集中に挿入された塩基の場合には、波形データ上で対応する位置は不明であるので、そのような塩基に対しては対応する位置情報は格納されない。従って、配列データリンク領域とはフラグメント配列の中で対応する位置情報を持つ最も左側の塩基と右側の塩基とに挟まれた部分領域である。
【0036】
図2において、ステップS13で配列データリンク領域の更新、すなわちそのフラグメント配列に対する配列データリンク領域が求められると、続いてステップS14で波形データリンク領域の更新が行われる。ここで波形データリンク領域とは、前述の配列データリンク領域の両端の塩基が持つ波形データ位置情報、すなわち最も左側の塩基の位置と、最も右側の塩基の位置とに挟まれた波形データの部分領域であり、このステップでは編集対象となっているフラグメント配列の中での配列データリンク領域に対応する波形データリンク領域が求められる。
【0037】
ステップS15で波形表示の更新が行われ、編集対象となっているフラグメント配列に対する波形データリンク領域が求められると、ステップS15で波形表示の更新(後述)が行われる。その後ステップS16で必要なポスト処理やその他のイベント処理が行われ、ステップS17で、例えば実際の波形表示を行うためのメインループの処理が行われる。
【0038】
続いて本発明の波形表示方法において用いられるデータの構成について説明するが、その前に本発明で用いるコンセンサス配列の概念について説明する。前述のように非常に長いDNA鎖の塩基配列を決定するためにそのDNAを複数のフラグメントに分割し、各フラグメントについての塩基配列をDNAシーケンサを用いて決定した後に、それらの配列を結合および編集して全体のDNAの塩基配列を決定することになるが、その全体の塩基配列を決定するために各フラグメントの塩基配列を結合していく過程の1つの塩基配列をコンセンサス配列と呼ぶことにする。そのコンセンサス配列の例を下に示す。なお、この例は二重鎖の一方のみを示す。
Figure 0003675521
この例では、3つのフラグメントA,B、およびCを結合させた場合のコンセンサス配列が示されており、フラグメントがオーバーラップしている部分では、オーバーラップしている塩基が一致している場合にはその塩基がコンセンサス配列の塩基として用いられ、CかGのいずれかと考えられる場合にはS、TかAのいずれかと考えられる場合にはW、GかAのいずれかと考えられる場合にはRとするIUPACコードが用いられている。
【0039】
本発明の波形表示方法において用いられるデータとしては、まずコンセンサス配列毎のデータがある。このコンセンサス配列毎のデータの第1はそのコンセンサス配列に属するフラグメントの本数Fragment Cntであり、第2はそのコンセンサス配列に属するフラグメント配列毎のメイン構造体を指すポインタの配列 pFragment〔Fragment Cnt〕である。このフラグメント毎のメイン構造体については後述する。第3のデータはコンセンサス配列 Consensus〔Consensus Cnt 〕としての塩基配列データそのものである。
【0040】
次に各フラグメントに対して持つデータについて説明する。そのデータの第1は波形データである。波形データとしては、図3に示すように4種類の塩基、すなわちアデニンA、チミンT、グアニンG、およびシトシンCのそれぞれの塩基について、波形のデータが存在する。それぞれの塩基に対する波形データとして、一定時間間隔でおよそ10,000回のサンプリングを行った結果としてのデータが格納され、波形データは二次元の配列を持つことになる。すなわちデータポイント位置xの10,000個に対して、各波形の高さを示す、例えば16ビットのデータがそれぞれの塩基に対して格納される。ここでは各波形のデータを次のように表現する。
【0041】
WaveData〔0〕〔x〕:A(アデニン)の波形データ
WaveData〔1〕〔x〕:T(チミン)の波形データ
WaveData〔2〕〔x〕:G(グアニン)の波形データ
WaveData〔3〕〔x〕:C(シトシン)の波形データ
x:データポイント位置
各フラグメントに対する第2のデータは、オリジナルの塩基配列データである。このオリジナル配列データは、シーケンサから得られた結果としての結合、および編集操作の前の各フラグメントの塩基配列である。この塩基配列データの格納法を図4に示す。同図に示すように、オリジナル塩基配列データは、塩基番号nに対応する構造体の配列であり、構造体のメンバはベースコード(BC)としての塩基の種類を表す文字、すなわちIUPACコードと、ウェーブデータポイント、すなわち図3のデータポイント位置x(各塩基に対応する波形のピークにおけるデータポイント位置)であり、この配列は次の記号で表される。
【0042】
Originalbase〔n−1〕
(n:塩基番号、1≦n≦〔オリジナル塩基配列の総塩基数〕)
各フラグメントの第3のデータは、編集用塩基配列データである。これは編集対象となっている塩基配列のデータであり、塩基毎の構造体、すなわち第4のデータとしての編集用塩基データを指すポインタの配列であり、この配列は次の記号で表される。
【0043】
pEditBase 〔m−1〕→m番目の塩基の構造体を指すポインタ
(m:塩基番号)
(1≦m≦〔編集中塩基配列の総塩基数〕)
第4のデータは第3のデータ、すなわち編集用塩基配列データのポインタによって指される塩基毎の構造体であり、その構造体のメンバの第1はベースコード、すなわち塩基の種類を表す文字であり、第2のメンバはオリジナルベースナンバ、すなわちベースコードの塩基に対応するオリジナル塩基配列中の塩基の塩基番号nである。オリジナル塩基配列中に対応する塩基が存在しない場合、例えば編集時に挿入された塩基のような場合には、オリジナルベースナンバは“−1”とされる。
【0044】
図5は編集用塩基配列データと編集用塩基データとを示す。編集用塩基配列データは、前述のように塩基番号に対応して編集用塩基データを指すポインタPの配列であり、このポインタによって編集用塩基データがポイントされる。例えばポインタP3によって指される構造体の塩基としてのTは、第2のデータとしてのオリジナル塩基配列データ中には存在しない塩基であり、従ってこの塩基に対応するオリジナルベースナンバは“−1”となっている。
【0045】
第5のデータは波形データ、および配列データに対応して各フラグメントに対して持たれる固有情報(メイン構造体)であり、この固有情報としては以下のものがある。
【0046】
・pWave → WaveDataを指すポインタ
・pOriginalData → OriginalBaseを指すポインタ
・pEditData → pEditBase を指すポインタ
・OffsetBase → フラグメントのコンセンサス配列上での先頭位置
・LeftBaseNumber → 編集用塩基配列中における、配列データリンク領域の左端の塩基番号
・RightBaseNumber → 編集用塩基配列中における、配列データリンク領域の右端の塩基番号
・LeftWaveDataPoint → 波形データ中における波形データリンク領域の左端のデータポイント位置
・RightWaveDataPoint→ 波形データ中における波形データリンク領域の右端のデータポイント位置
このうちオフセットベースは、それぞれのフラグメントの塩基配列のコンセンサス配列上での位置を示すものであり、例えば前述のコンセンサス配列の例では、フラグメントBのオフセットは5である。
【0047】
次に図2における本発明の特有の処理としてのステップS13〜S15の処理について、図6〜図8によって詳細に説明する。まず図6は波形データリンク領域の更新処理の説明図である。同図において、エディットベース、すなわち編集用塩基配列データ上の全ての塩基について、編集用塩基データのメンバとしてのオリジナルベースナンバが調べられ、オリジナルベースナンバが“−1”でない左と右の端の塩基番号がレフトベースナンバ、およびライトベースナンバに格納される。
【0048】
図7は図2のステップS14、すなわち波形データリンク領域の更新処理の説明図である。同図においては、図6で求められたレフトベースナンバおよびライトベースナンバを用いて、例えばレフトベースナンバに対応してオリジナルベース、すなわちオリジナルの塩基配列データにおける同一の塩基番号nからそれに対応するウェーブデータポイントxが求められ、それがレフトウェーブデータポイントに格納される。同様にして、ライトベースナンバに対応するオリジナル塩基配列データ上でのウェーブデータポイントがライトウェーブデータポイントに格納される。
【0049】
図8は図2のステップS15、すなわち波形表示の更新処理の説明図である。同図においては、各塩基に対応する4本の波形データについて、それぞれレフトウェーブデータポイントとライトウェーブデータポイントとの間の波形が、コンセンサス配列表示上の塩基番号でレフトベースナンバとライトベースナンバとの間に一致するようにスケール変換がなされて、波形の表示が行われる。
【0050】
すなわち本発明においては、各フラグメントに対応する波形が、コンセンサスを表すコンセンサス配列に対応した位置にスケール変換されて表示される。編集などの処理によってフラグメント配列上の塩基の位置や内容に変更があった場合には、それに応じてその都度波形データの表示位置、およびスケールの変換が行われる。
【0051】
例えば 345個の塩基から成るフラグメント配列に対する編集処理等によって塩基数が 350塩基になり、またこのフラグメント配列がコンセンサス配列上で 101番目から 450番目に対応することがわかっている場合には、フラグメント配列の一番目の塩基をコンセンサス配列上の 101番目の位置に、また例えば元々 345番目にあった 350番目の塩基をコンセンサス配列上の 450番目の位置に対応するように、スケール変更や表示位置のシフトなどが行われて、波形表示が行われる。すなわちシーケンサによって塩基数がnと判断されたフラグメントに対して、結合や編集などの操作によって塩基数がn+5になった場合には、n+5塩基分の範囲に、シーケンサによって決定されたn個の塩基の配列に対応した波形が表示されることになる。
【0052】
次に本発明においては、波形に対応する塩基間隔を均一にするために、ゲル電気泳動時の移動距離のひずみを自動的に近似するひずみ補正が行われる。これによって波形同士の単純比較を容易にすることができる。その方法を以下に説明する。
【0053】
分子量300000以下の分子をゲル電気泳動にかけたとき、分子の移動速度と分子量の間には近似的に以下の式が成り立つことが、実験により分かっている。
v=C1log m+C2 ・・・・・・(1)
(m:分子量>0,v:移動速度>0,C1 :定数>0,C2 :定数>0)
蛍光強度の測定は実験毎に設定される一定時間間隔(T1 >0)毎に行われている。泳動開始位置と蛍光強度検出位置の距離をC2 >0とすると
3 =v(T1 x+T2 ) ・・・・・・(2)
(x=1つ目の塩基が見つかってからのデータポイント数)
(T2 :泳動開始から一番目(x=0)の塩基検出までにかかった時間>0)
ここで、本実施例では、波形表示用のデータには泳動開始直後のデータが含まれていないものとする。すなわち泳動が開始されてから一定時間たった後に、蛍光強度のデータがとられ始める。(1) 式を利用するためには泳動開始位置、すなわちサンプルが注入された位置から蛍光強度検出位置までの距離が必要であり、その式が(2) 式である。なお泳動開始とは電気泳動装置に電圧がかけられた時点を意味し、この泳動開始の瞬間から蛍光強度が測定されてはいるが、データとしては一定時間たってからのものが保持されているものとする。
【0054】
(2) 式においてはT2 は泳動開始、すなわち電圧が印加されてから蛍光強度がデータとして取られ始めるまでの時間を意味し、蛍光強度のデータは一定時間(T1 )間隔、通常1秒位の間隔で測定され、xはデータポイントの数であり、(2) 式はx番目のデータとして観測されたDNA塩基が泳動している泳動速度を表す。
【0055】
(1) ,(2) 式を用いて、塩基間隔が均等に補正された結果としてのデータポイント数xと塩基番号nとを対応づける式を、以下のようにして誘導する。まず(1) ,(2) の両式から
3 /(T1 x+T2 )=−C1log m+C2
log m=−C3 /C1 (T1 x+T2 )+C2 /C1 ・・・・・・(3)
ここでC4 =C3 /C1 >0,C5 =C2 /C1 >0とすると(3) 式は
log m=−C4 /(T1 x+T2 )+C5 ・・・・・・(4)
となる。
【0056】
プライマーの分子量をMP 、塩基番号をn、塩基の平均分子量をMB とすると、
m=MP +(n−1)MB ・・・・・・(5)
と表せる。
(5) 式を(4) 式に代入して
Figure 0003675521
となる。
【0057】
ここで、MP はシークエンシング毎のプライマーの分子量として特定される。
B には塩基の平均分子量として316 を用いる。
1 にはシークエンス時に設定した測定間隔を用いる。
【0058】
2 には泳動開始から、1番目(n=0)の塩基検出までにかかった時間を用いる。
最後に(6) 式における定数C4 、およびC5 を実際の泳動データから決定する。すなわち例えばn=1と、n=101 に対応するデータポイント数x1 ,x101 のような2つのデータを使って、C4 ,C5 を求めることによって、塩基間隔が近似的に均等に補正されたデータ配列を求めるためのデータポイント数xと塩基番号nとを求める式(6) が完成する。完成された関数としての(6) 式を用いて、塩基間隔が均等に補正されたデータ配列を求めるための手順を次の▲1▼〜▲4▼で説明する。
【0059】
▲1▼ まず始めに、元の波形データの最後のデータポイントが塩基番号にして何番目(nLast)になるかを(6) 式を用いて求める。
元の波形データの最後のデータポイントをxLastとする。
【0060】
(6) 式より
nLast=f(xLast)
▲2▼ 次に(6) 式を使って元の波形データの塩基番号n=−4のときのデータポイントを求める。
【0061】
(6) 式より
【0062】
【数2】
Figure 0003675521
【0063】
これにn=−4を代入しx−4を求める。
▲3▼ 次に(6) 式を使って新たな波形データを作成する。
(nLast+5)×50のデータポイントを持つ配列を作成し、(6) 式を使って元の波形データのデータポイントから新たな波形データ配列を作成する。
【0064】
元の波形データのデータポイントのx−4からxLastを(6) 式に代入し、nを求め、新たな波形データの(n+5)×50のデータポイントに格納する。
【0065】
▲4▼ 最後に、新たな波形データのデータポイントを指す塩基配列を作成する。塩基配列データのn塩基目の指す新たな波形データ上のデータポイントは(n+5)×50となる。この値の代入を全ての塩基について行う。
【0066】
なお、ここで塩基番号の50倍のデータポイントを持たせる理由は、塩基間のデータ数を均一にし、またある程度多いデータ数を持たせるためである。この新たな波形データの作成にあたってデータが埋まらないデータポイントがある場合には、その直前のデータポイントにおける値が用いられる。すなわち新たな波形データ作成時に、あたらな波形データ上で直前に埋められたデータポイントの値を記憶しておき、データポイントがとんでいる場合にはその直前に埋められたデータポイントの値をとんでいるデータポイントに対して使用する。
【0067】
以上に説明したように、(6) 式を基にして塩基間隔が近似的に均等に補正された波形データの配列が求められ、その結果は例えばメモリに格納されて、波形表示に用いられる。具体的には、前述の図3、および図4のデータはこの計算結果に対応して更新されるが、図5のデータは更新されない。
【0068】
図9および図10は本発明を使用した場合のフラグメント波形表示の変化の説明図である。図9はDNAシーケンサの出力をそのまま表示したもの(スケール変換前)である。これに対して図10は本発明の波形表示方法を用いた結果である。例えば一番下の波形において、塩基間の間隔が上の波形と比較して均一になっていることがわかる。
【0069】
【発明の効果】
以上詳細に説明したように、本発明によればフラグメントの結合状態、および編集状態に対応して、例えば編集操作と同時に波形をリアルタイムで表示し、比較検討できるために、結合や編集の結果の正確さを視覚的に確認しながら、塩基配列の決定を行うことが可能になる。また塩基の記号の配列としての文字配列上の整合性だけでなく、波形データ上においての整合性も確認しながら結合や編集を行うことができるため、塩基配列の組み立てをより正確に、また迅速に行うことができる。更に波形に対応する塩基間隔を均一化することができ、波形の比較が容易となり、シーケンシングミスなどを防止することが可能になる。
【図面の簡単な説明】
【図1】本発明の機能ブロック図である。
【図2】本発明の波形表示方法を用いる塩基配列の結合および編集処理の全体フローチャートである。
【図3】波形データの格納法を説明する図である。
【図4】オリジナル塩基配列データの格納法を説明する図である。
【図5】編集用塩基配列データと編集用塩基データとの格納法の説明図である。
【図6】配列データリンク領域の更新処理の説明図である。
【図7】波形データリンク領域の更新処理の説明図である。
【図8】波形表示の更新処理の説明図である。
【図9】DNAシーケンサの出力波形(スケール変換前)を示す図である。
【図10】図9の波形に対する本発明の波形表示方法の適用結果(スケール変換後)を示す図である。
【図11】DNA断片の作り方の説明図である。
【図12】シーケンサによって得られる波形の例を示す図である。
【図13】塩基間隔の不均一性の説明図である。

Claims (6)

  1. 入力されたDNAのフラグメント塩基配列を編集し、つなぎ合わせてDNA全体の塩基配列を決定することを支援するために前記フラグメント塩基配列に対応するフラグメント波形データを表示するフラグメント波形表示装置が、
    前記DNAのフラグメント塩基配列に対応するフラグメント波形データと前記フラグメント波形データの位置情報と前記DNAのフラグメント塩基配列の塩基位置情報に対応する前記フラグメント波形データ位置情報を波形データ及び波形データ位置情報記憶手段に格納する波形データ及び波形データ位置情報記憶ステップと、
    前記フラグメント塩基配列をつなぎ合わせるための塩基位置情報を塩基配列位置情報記憶手段に格納する塩基配列位置情報記憶ステップと、
    複数のフラグメント塩基配列のそれぞれに対応する前記フラグメント塩基配列をつなぎ合わせるための塩基位置情報を前記塩基配列位置情報記憶手段から抽出する塩基位置情報抽出ステップと、
    前記塩基位置情報抽出ステップにおいて抽出したフラグメント塩基配列をつなぎ合わせるための塩基位置情報に対応するフラグメント波形データの位置情報を前記波形データ及び波形データ位置情報記憶手段から抽出するフラグメント波形データ位置情報抽出ステップと、
    前記フラグメント波形データ位置情報抽出ステップにおいて抽出したフラグメント波形データの位置情報を、前記塩基位置情報抽出ステップにおいて抽出した塩基位置情報に基づいて位置合わせするフラグメント波形データ位置情報位置合わせステップと、
    前記フラグメント波形データ位置情報位置合わせステップにおいて位置合わせした位置情報に基づいて、前記波形データ及び波形データ位置情報記憶手段中のフラグメント波形データの位置合わせするフラグメント波形データ位置合わせステップと、
    前記フラグメント波形データ位置合わせステップにおいて位置合わせしたフラグメント波形データを表示する表示ステップと、
    を実行することを特徴とするDNAの塩基配列決定支援用フラグメント波形表示方法。
  2. 入力されたDNAのフラグメント塩基配列を編集し、つなぎ合わせてDNA全体の塩基配列を決定することを支援するために前記フラグメント塩基配列に対応するフラグメント波形データを表示するフラグメント波形表示装置が、
    前記DNAのフラグメント塩基配列に対応するフラグメント波形データと前記フラグメント波形データの位置情報を波形データ記憶手段に格納する波形データ記憶ステップと、
    前記DNAのフラグメント塩基配列の塩基位置情報に対応する前記フラグメント波形データ位置情報を波形データ位置情報記憶手段に格納する波形データ位置情報記憶ステップと、
    前記フラグメント塩基配列をつなぎ合わせるための塩基位置情報を塩基配列位置情報記憶手段に格納する塩基配列位置情報記憶ステップと、
    複数のフラグメント塩基配列のそれぞれに対応する前記フラグメント塩基配列をつなぎ合わせるための塩基位置情報を前記塩基配列位置情報記憶手段から抽出する塩基位置情報抽出ステップと、
    前記塩基位置情報抽出ステップにおいて抽出したフラグメント塩基配列をつなぎ合わせるための塩基位置情報に対応するフラグメント波形データの位置情報を前記波形データ記憶手段から抽出するフラグメント波形データ位置情報抽出ステップと、
    前記フラグメント波形データ位置情報抽出ステップにおいて抽出したフラグメント波形データの位置情報を、前記塩基位置情報抽出ステップにおいて抽出した塩基位置情報に基づいて位置合わせするフラグメント波形データ位置情報位置合わせステップと、
    前記フラグメント波形データ位置情報位置合わせステップにおいて位置合わせしたフラグメント波形データの位置情報に基づいて、前記波形データ記憶手段中のフラグメント波形データの位置合わせするフラグメント波形データ位置合わせステップと、
    前記フラグメント波形データ位置合わせステップにおいて位置合わせしたフラグメント波形データを表示する表示ステップと、
    前記表示ステップにおけるフラグメント波形データの表示結果に応じた塩基配列の編集操作があれば塩基配列の編集を行い前記塩基配列位置情報記憶ステップに分岐し、塩基配列の編集操作がなければ処理を終了する分岐ステップ
    を実行することを特徴とするDNAの塩基配列決定支援用フラグメント波形表示方法。
  3. 前記入力されたDNAのフラグメント塩基配列上の塩基に対して前記塩基配列上の位置を示す位置情報を与え、編集操作によって該フラグメント塩基配列に挿入された塩基には該位置情報を与えずに、編集後のフラグメント塩基配列の中で該位置情報を持つ両端の塩基の塩基位置を、前記フラグメント塩基配列をつなぎ合わせるための塩基位置情報とすることを特徴とする請求項記載のDNAの塩基配列決定支援用フラグメント波形表示方法。
  4. 前記表示ステップは、表示領域内で隣接する塩基間の間隔が均一となるように塩基の表示位置を調整して波形データを表示することを特徴とする請求項1記載のDNAの塩基配列決定支援用フラグメント波形表示方法。
  5. 前記入力されたDNAのフラグメント塩基配列が、DNA塩基配列決定用のDNAシーケンサの出力としての塩基配列であり、前記表示ステップは、ゲル電気泳動における泳動開始から各塩基の位置に対応する蛍光強度検出位置までの泳動距離がプライマーの分子量と泳動開始位置から数えた該塩基の番号との関数として求められた結果に基づいて塩基の表示位置を調整することを特徴とする請求項4記載のDNAの塩基配列決定支援用フラグメント波形表示方法。
  6. 入力されたDNAのフラグメント塩基配列を編集し、つなぎ合わせてDNA全体の塩基配列を決定することを支援するために前記フラグメント塩基配列に対応するフラグメント波形データを表示するフラグメント波形表示装置において、
    前記DNAのフラグメント塩基配列に対応するフラグメント波形データと前記フラグメント波形データの位置情報と前記DNAのフラグメント塩基配列の塩基位置情報に対応する前記フラグメント波形データ位置情報を格納する波形データ及び波形データ位置情報記憶手段と、
    前記フラグメント塩基配列をつなぎ合わせるための塩基位置情報を格納する塩基配列位置情報記憶手段と、
    複数のフラグメント塩基配列のそれぞれに対応する前記フラグメント塩基配列をつなぎ合わせるための塩基位置情報を前記塩基配列位置情報記憶手段から抽出する塩基位置情報抽出手段と、
    前記塩基位置情報抽出手段により抽出したフラグメント塩基配列をつなぎ合わせるための塩基位置情報に対応するフラグメント波形データの位置情報を前記波形データ及び波形データ位置情報記憶手段から抽出するフラグメント波形データ位置情報抽出手段と、
    前記フラグメント波形データ位置情報抽出手段により抽出したフラグメント波形データの位置情報を前記塩基位置情報抽出手段により抽出した塩基位置情報に基づいて位置合わせするフラグメント波形データ位置情報位置合わせ手段と、
    前記フラグメント波形データ位置情報位置合わせ手段により位置合わせした位置情報に基づいて、前記波形データ及び波形データ位置情報記憶手段中のフラグメント波形データの位置合わせするフラグメント波形データ位置合わせ手段と、
    前記フラグメント波形データ位置合わせ手段により位置合わせしたフラグメント波形データを表示する表示手段と、
    を備えることを特徴とするDNAの塩基配列決定支援用フラグメント波形表示装置。
JP19200695A 1995-07-27 1995-07-27 Dnaの塩基配列決定時におけるフラグメント波形表示方法および装置 Expired - Fee Related JP3675521B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP19200695A JP3675521B2 (ja) 1995-07-27 1995-07-27 Dnaの塩基配列決定時におけるフラグメント波形表示方法および装置
US08/685,959 US5891632A (en) 1995-07-27 1996-07-22 Method and device for fragment trace data display in DNA base sequencing
GBGB9615563.5A GB9615563D0 (en) 1995-07-27 1996-07-24 Method and device for fragment trace data display in DNA base sequencing
GB9615699A GB2303702B (en) 1995-07-27 1996-07-26 Method and device for fragment trace data display in dna base sequencing

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP19200695A JP3675521B2 (ja) 1995-07-27 1995-07-27 Dnaの塩基配列決定時におけるフラグメント波形表示方法および装置

Publications (2)

Publication Number Publication Date
JPH0944564A JPH0944564A (ja) 1997-02-14
JP3675521B2 true JP3675521B2 (ja) 2005-07-27

Family

ID=16284043

Family Applications (1)

Application Number Title Priority Date Filing Date
JP19200695A Expired - Fee Related JP3675521B2 (ja) 1995-07-27 1995-07-27 Dnaの塩基配列決定時におけるフラグメント波形表示方法および装置

Country Status (3)

Country Link
US (1) US5891632A (ja)
JP (1) JP3675521B2 (ja)
GB (2) GB9615563D0 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6941317B1 (en) 1999-09-14 2005-09-06 Eragen Biosciences, Inc. Graphical user interface for display and analysis of biological sequence data
US6760668B1 (en) * 2000-03-24 2004-07-06 Bayer Healthcare Llc Method for alignment of DNA sequences with enhanced accuracy and read length
US7222059B2 (en) * 2001-11-15 2007-05-22 Siemens Medical Solutions Diagnostics Electrophoretic trace simulator
US7177452B2 (en) * 2002-04-10 2007-02-13 Battelle Memorial Institute Visualization of information with an established order
US20050165566A1 (en) * 2002-06-03 2005-07-28 Omnigon Technologies Ltd. Method for solving waveform sequence-matching problems using multidimensional attractor tokens
US7630736B2 (en) * 2005-10-11 2009-12-08 Mobitrum Corporation Method and system for spatial data input, manipulation and distribution via an adaptive wireless transceiver
US7801058B2 (en) * 2006-07-27 2010-09-21 Mobitrum Corporation Method and system for dynamic information exchange on mesh network devices
WO2008098014A2 (en) 2007-02-05 2008-08-14 Applied Biosystems, Llc System and methods for indel identification using short read sequencing
WO2011137368A2 (en) 2010-04-30 2011-11-03 Life Technologies Corporation Systems and methods for analyzing nucleic acid sequences
US9268903B2 (en) 2010-07-06 2016-02-23 Life Technologies Corporation Systems and methods for sequence data alignment quality assessment

Also Published As

Publication number Publication date
US5891632A (en) 1999-04-06
JPH0944564A (ja) 1997-02-14
GB2303702A (en) 1997-02-26
GB9615699D0 (en) 1996-09-04
GB9615563D0 (en) 1996-09-04
GB2303702B (en) 1999-12-01

Similar Documents

Publication Publication Date Title
US10984887B2 (en) Systems and methods for detecting structural variants
Bennett et al. Toward the $1000 human genome
US20040117130A1 (en) System and method for improving the accuracy of DNA sequencing and error probability estimation through application of a mathematical model to the analysis of electropherograms
US20210210164A1 (en) Systems and methods for mapping sequence reads
US6195449B1 (en) Method and apparatus for analyzing data files derived from emission spectra from fluorophore tagged nucleotides
JP3675521B2 (ja) Dnaの塩基配列決定時におけるフラグメント波形表示方法および装置
US7617054B2 (en) Method and apparatus for analysing nucleic acid sequence
US7660676B2 (en) Nucleic acid base sequence determining method and inspecting system
JP3878503B2 (ja) 核酸塩基配列決定方法
JP4209623B2 (ja) 核酸塩基配列決定方法
US6291167B1 (en) Method for determining the existence of a mutation
JP4317398B2 (ja) 核酸塩基配列情報の記録方法及び核酸塩基配列決定方法
JPH11118760A (ja) 核酸断片の電気泳動パターンの解析法
JP4286332B2 (ja) Dna塩基配列に含まれるベクター部の自動除去方法および装置
JP4226912B2 (ja) 核酸塩基配列決定方法
Bhat et al. DNA Sequencing
EP1202211A2 (en) Genomic DNA analysis computer program
US20030013863A1 (en) High resolution DNA size standards
Bennett DNA sequencing and the human genome Project
WO2023064960A2 (en) Methods and systems for genotyping by sanger-based dna sequencing
WO2023043097A1 (ko) 차세대 염기서열 분석을 위한 짝지어진 서열조각 병합 표시 방법
BE183 DNA Sequencing
JP2875849B2 (ja) 核酸の塩基配列決定方法及び装置
Liu DNA sequencing technologies
Liu DNA Sequencing Technologies Zhanjiang Liu An understanding of the organization, expression and function, and evolutionary history of the aquaculture genomes requires knowing their primary structure-the linear order of the nucleotide base pairs of the genomes. Currently, demand for low-cost sequencing far outstrips what existing sequencing technology can provide. New sequencing technologies must be developed to dissect genomes of species with relatively small research communities.

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041116

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050114

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050426

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050426

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080513

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090513

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees