JP3675521B2

JP3675521B2 - Ｄｎａの塩基配列決定時におけるフラグメント波形表示方法および装置

Info

Publication number: JP3675521B2
Application number: JP19200695A
Authority: JP
Inventors: 建策今井
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1995-07-27
Filing date: 1995-07-27
Publication date: 2005-07-27
Anticipated expiration: 2015-07-27
Also published as: US5891632A; JPH0944564A; GB2303702A; GB9615699D0; GB9615563D0; GB2303702B

Description

【０００１】
【産業上の利用分野】
本発明は、核酸の１つとしてのＤＮＡにおける塩基配列の決定方法に係り、更に詳しくはＤＮＡシーケンサを用いたＤＮＡ塩基配列決定時におけるＤＮＡの断片としてのフラグメントにおける塩基の配列に対応する波形の表示方法に関する。
【０００２】
【従来の技術】
核酸の構成単位はヌクレオチドであり、このヌクレオチドは塩基、糖、リン酸の３成分が結合したものである。ヌクレオチドはヌクレオシドにリン酸が結合したものでもあり、リン酸はヌクレオシドをはしかけして、ポリマーが作られ、ＤＮＡ（レオキシリボ核酸）とＲＮＡ（リボ核酸）のいずれかが形成される。
【０００３】
核酸を構成する塩基にはプリン塩基とピリミジン塩基の２種類があり、プリン塩基にはアデニンＡとグアニンＧがあり、またピリミジン塩基にはシトシンＣとチミンＴがある。
【０００４】
ポリヌクレオチド鎖構造と呼ばれる構造を持つＤＮＡは、前述の４つの塩基アデニンＡ、グアニンＧ、シトシンＣ、およびチミンＴが一列に並んだ細長い糸のような構造を持っており、例えば１個のヒトの細胞の染色体からＤＮＡを引き出し、それらを繋ぎ合わせると１ｍにもおよび、この上に３０億個の塩基が並んでいると言われる。
【０００５】
従って、このＡ，Ｇ，ＴおよびＣの配列順序を知ることが、すなわち遺伝情報を解明することにつながり、この塩基配列を決めるシーケンス技術は他の分野の技術と互いに関連しながら進歩しており、その発展は制限酵素や核酸関連酵素の発見、ＤＮＡのクローニング、核酸化学などの技術分野の発展と大いに関連している。
【０００６】
最近ではコンピュータ技術がシーケンス法の１つとして活用され、人間の能力を越えた膨大なデータの入力や蓄積が可能となり、塩基配列の決定にとってコンピュータは必須の道具として用いられるようになっている。
【０００７】
ＤＮＡは、前述のように塩基が一列、すなわち鎖状に結合した塩基一次配列の構造を持っている。このＤＮＡ鎖には向きがあり、ＡＴＧＣＡＣＧＡ→とＡＴＧＣＡＣＧＡ←（すなわち、ＡＧＣＡＣＧＴＡ→）とは別のものである。
【０００８】
このＤＮＡ鎖の両側、すなわち末端には名称がついており、糖の３′の位置に水酸基がついた末端は３′末端と呼ばれ、また他方の末端、すなわち糖の５′の位置にリン酸基がついた末端は５′末端と呼ばれる。そしてＤＮＡ鎖を記述する際には、一般に５′末端が左、３′末端が右となるように記述する。
【０００９】
ＤＮＡは通常、向きが異なって相補的な２本の塩基配列がくっついた二重鎖の状態で存在する。この時２本の塩基配列において、お互いに向かい合う塩基の間には一定の関係があり、アデニンＡはチミンＴと、またグアニンＧはシトシンＣと向き合うようになっている。この例を次に示す（上下の塩基がペアとなっている）。
【００１０】
【数１】

【００１１】
ＤＮＡは相補鎖となる２本の塩基配列が組となって、１つの遺伝的意味を持ち、２つの配列のうちどちらか１つの配列を確定することができれば、そのＤＮＡの塩基配列を決定できたことになる。
【００１２】
ＤＮＡの塩基配列を自動的に読み取る装置であるＤＮＡシーケンサにおいては、ジデオキシ法、またはサンガ法と呼ばれる方法が塩基配列決定のために用いられる。一般にＤＮＡの二重鎖の一方の相補鎖の一部分を、ＤＮＡ合成のきっかけとなるプライマーとしてＤＮＡ合成を行う際に、ジデオキシヌクレオチドと言うヌクレオチドが取り込まれると、そこでＤＮＡ合成がストップし、様々な長さのＤＮＡの断片（フラグメント）が得られるが、プライマーを用いたＤＮＡ合成反応の際に、Ｇ，Ａ，Ｔ、及びＣの各塩基に対応するジデオキシヌクレオチドを加えることにより、それぞれの塩基の位置で鎖の伸びがストップした様々な長さのＤＮＡ断片が得られる。
【００１３】
図１１は特定のヌクレオチド、この場合アデニンＡの所で切断されてできるＤＮＡ断片の作り方の説明図である。この場合にはＤＮＡ鎖から１個のヌクレオチド、すなわちアデニンＡを取り除く程度の穏やかな化学処理が行われ、５′末端にリン酸基を持つ左側の断片のみが放射性の断片となり、これらの断片をゲル電気泳動させることにより、放射性の断片のみはその断片の長さ、例えば分子量に対応する位置で検出される。
【００１４】
ＤＮＡシーケンサでは、ジデオキシ法の反応生成物としてのＤＮＡ断片が蛍光標識され、その結果としての蛍光標識されたいろいろの長さの鎖を持つＤＮＡ断片が、ゲル電気泳動によって分離される。ゲル内を泳動されてくるＤＮＡ断片に対してゲル上のある位置において、レーザ照射により蛍光色素を励起発光させ、この蛍光を光検出器で検出する。電気泳動と同時に経時的に蛍光を検出していくことにより、Ｇ，Ａ，Ｔ、及びＣの各塩基に対応するＤＮＡ断片の泳動パターンのデータを得ることができる。このようにして得られたデータがコンピュータによって解析され、塩基配列データに変換される。
【００１５】
ＤＮＡシーケンサの出力データとしては、ＤＮＡ塩基配列そのものと、配列の決定に使われた波形データがある。この波形データはゲル電気泳動パターンのデータに対応し、Ｇ，Ａ，Ｔ、およびＣの各波形において波形のピークの位置がその塩基の存在する位置に対応する。
【００１６】
しかしながら、前述のように一般にＤＮＡの塩基配列における塩基の個数は非常に多いので、ＤＮＡシーケンサによって一度に塩基配列の全てを決定することはできず、一般に配列を決定したいＤＮＡを複数の断片にフラグメント化して、各フラグメントの塩基配列を決定し、それらの塩基配列を結合することによって全体の塩基配列を決定する方法がとられている。このフラグメント化においては、各フラグメントを結合するためにフラグメントの両端はオーバーラップする形でフラグメント化され、各フラグメントに対する塩基配列が求められる。
【００１７】
【発明が解決しようとする課題】
ＤＮＡシーケンサを用いた塩基配列決定処理においては、以上に述べたように一度に読み取られる塩基の数に制限があり、また読み取られた配列データの内容にもゲル電気泳動による実験の精度によってはかなりの曖昧性が含まれる。
【００１８】
図１２はシーケンサによって得られた波形のデータを示し、縦軸は蛍光強度、また横軸の数値はＤＮＡの配列における塩基の番号、すなわち、末端からの塩基の位置を表す。同図において、上から下に向かって示すように、必要に応じて波形を拡大し、波形に対応する位置の塩基の配列が読み取られる。
【００１９】
このように塩基配列を決定したい目的のＤＮＡに対しては、フラグメントの配列を必要に応じて拡大し、フラグメント配列同士を結合したり、曖昧な塩基を削除したり、必要に応じて塩基を挿入したりする編集の処理をして塩基配列を組み立てることになるが、その処理ではより正確に、かつ迅速に目的の塩基配列を得ることが望ましい。
【００２０】
塩基配列を組み立てるためには、ＤＮＡシーケンサによって読み取られたフラグメントデータを結合、または編集する際に、通常は文字の配列だけをシーケンサデータから抽出して結合編集操作を行うが、必要に応じて波形データを参照することも行われている。
【００２１】
このように波形を参照する場合でも、従来はフラグメントに対応する波形データが表示されるに過ぎず、波形同士を比較して検討できるような表示がなされていないという問題点があった。前述のように電気泳動用ゲルの質のバラつきや、実験条件の微妙な違いなどによって、波形データのピーク間隔も実験データによって一般的に異なってくる。そのため単純に波形を表示しても、波形の間での比較すべき部分の対応が視覚的にわかりにくく、塩基配列の正確な組立にあまり役に立たないと言う問題点があった。
【００２２】
また従来においては、ゲル電気泳動において単位塩基数あたりの泳動距離が塩基数が大きくなると共に短くなり、その結果波形に対応する塩基の間隔が均一にならないと言う問題点があった。
【００２３】
図１３はこの問題点、すなわち塩基間隔の不均一性の説明図である。同図において、例えば塩基番号で１００と２００の間隔、６００と７００の間隔が異なっており、塩基間隔が均一でないことを示している。また実験条件の微妙な違いによって、同じ塩基番号に対応する波形の位置も異なっており、波形の間の単純比較が難しいという問題点がある。
【００２４】
本発明はＤＮＡの各フラグメントの波形データを比較する際に、波形上で比較すべき位置の対応がすぐにわかり、その結果フラグメントデータの結合、および結合後の編集操作において、より正確に塩基配列を決定できるようにすることを目的とする。
【００２５】
【課題を解決するための手段】
図１は本発明の機能ブロック図である。同図はＤＮＡの塩基配列を複数の部分的配列としてのフラグメントに分割して、各フラグメント毎に該フラグメント内の塩基の位置を示す波形を表示し、該複数の波形に対応する塩基配列を結合、および編集してＤＮＡ全体の塩基の配列を決定する、塩基配列決定時におけるフラグメント波形表示方法の機能ブロック図である。
【００２６】
このフラグメント波形表示方法においては、まず図１の１で各フラグメントに対する塩基の配列がフラグメント塩基配列として決定される。このフラグメント塩基配列は、例えばＤＮＡの塩基配列決定用に用いられるＤＮＡシーケンサの出力によって得られる。
【００２７】
続いて２で決定された各フラグメント配列が結合され、その結果としてＤＮＡ全体の塩基の配列を示す１本のコンセンサス配列が、曖昧さ、例えばある位置の塩基が２つの塩基のうちのいずれか１つであることなどを示す曖昧さが許容された状態で求められる。
【００２８】
更に３で、このコンセンサス配列に対応させてフラグメント内の塩基の位置を示す波形が表示され、表示された波形との比較によってコンセンサス配列の編集、例えば不適当な塩基の削除、必要に応じた塩基の挿入などの操作が行われ、曖昧さが解消されたＤＮＡ全体の塩基配列が決定される。
【００２９】
本発明においては、コンセンサス配列に対応させて表示波形との比較によるコンセンサス配列の編集を容易にするような波形表示が行われる。その方法は、例えば次のような方法である。
【００３０】
例えばＤＮＡシーケンサの出力としてのフラグメント塩基配列上の塩基に対して波形上の位置を示す位置情報が与えられ、編集操作によってフラグメント塩基配列に挿入された塩基にはその位置情報を与えずに、編集後のフラグメント塩基配列中で位置情報を持つ両端の塩基が前記コンセンサス配列に対応させられ、例えばスケール変換が行われて、両端の塩基間の波形の表示が行われる。
【００３１】
本発明によれば、このような波形表示を行うことにより、コンセンサス配列に対応する位置に波形が正しく表示されることになる。
【００３２】
【実施例】
図２は本発明の波形表示方法を用いる塩基配列の結合、および編集処理の全体フローチャートである。同図の処理は、フラグメントの結合や編集操作などのイベントが実行されるたびに行われる、波形表示の更新までのフローチャートである。
【００３３】
図２において、まずステップＳ１１でフラグメントの結合、または編集などのイベントが入力され、ステップＳ１２で必要に応じてそのフラグメントの塩基配列の書き直しなどのプレ処理が行われる。
【００３４】
ステップＳ１３〜Ｓ１５の処理が本発明に特有のものである。まずステップＳ１３で、配列データリンク領域の更新処理が行われる。ここで配列データリンク領域とは、現在編集対象となっているフラグメント配列の塩基の中で、対応する波形データの位置情報を持っている最も先頭に近い塩基と、最も末尾に近い塩基とに挟まれた塩基配列の部分領域である。
【００３５】
後述のように、シーケンサの出力として得られた配列の中の塩基は、波形データ上でその位置、すなわち対応する位置情報がわかるので、そのような塩基に対しては、位置情報と対応した形で例えばメモリにそのデータが格納される。これに対して、例えば編集中に挿入された塩基の場合には、波形データ上で対応する位置は不明であるので、そのような塩基に対しては対応する位置情報は格納されない。従って、配列データリンク領域とはフラグメント配列の中で対応する位置情報を持つ最も左側の塩基と右側の塩基とに挟まれた部分領域である。
【００３６】
図２において、ステップＳ１３で配列データリンク領域の更新、すなわちそのフラグメント配列に対する配列データリンク領域が求められると、続いてステップＳ１４で波形データリンク領域の更新が行われる。ここで波形データリンク領域とは、前述の配列データリンク領域の両端の塩基が持つ波形データ位置情報、すなわち最も左側の塩基の位置と、最も右側の塩基の位置とに挟まれた波形データの部分領域であり、このステップでは編集対象となっているフラグメント配列の中での配列データリンク領域に対応する波形データリンク領域が求められる。
【００３７】
ステップＳ１５で波形表示の更新が行われ、編集対象となっているフラグメント配列に対する波形データリンク領域が求められると、ステップＳ１５で波形表示の更新（後述）が行われる。その後ステップＳ１６で必要なポスト処理やその他のイベント処理が行われ、ステップＳ１７で、例えば実際の波形表示を行うためのメインループの処理が行われる。
【００３８】
続いて本発明の波形表示方法において用いられるデータの構成について説明するが、その前に本発明で用いるコンセンサス配列の概念について説明する。前述のように非常に長いＤＮＡ鎖の塩基配列を決定するためにそのＤＮＡを複数のフラグメントに分割し、各フラグメントについての塩基配列をＤＮＡシーケンサを用いて決定した後に、それらの配列を結合および編集して全体のＤＮＡの塩基配列を決定することになるが、その全体の塩基配列を決定するために各フラグメントの塩基配列を結合していく過程の１つの塩基配列をコンセンサス配列と呼ぶことにする。そのコンセンサス配列の例を下に示す。なお、この例は二重鎖の一方のみを示す。

この例では、３つのフラグメントＡ，Ｂ、およびＣを結合させた場合のコンセンサス配列が示されており、フラグメントがオーバーラップしている部分では、オーバーラップしている塩基が一致している場合にはその塩基がコンセンサス配列の塩基として用いられ、ＣかＧのいずれかと考えられる場合にはＳ、ＴかＡのいずれかと考えられる場合にはＷ、ＧかＡのいずれかと考えられる場合にはＲとするＩＵＰＡＣコードが用いられている。
【００３９】
本発明の波形表示方法において用いられるデータとしては、まずコンセンサス配列毎のデータがある。このコンセンサス配列毎のデータの第１はそのコンセンサス配列に属するフラグメントの本数Fragment Cntであり、第２はそのコンセンサス配列に属するフラグメント配列毎のメイン構造体を指すポインタの配列 pFragment〔Fragment Cnt〕である。このフラグメント毎のメイン構造体については後述する。第３のデータはコンセンサス配列 Consensus〔Consensus Cnt 〕としての塩基配列データそのものである。
【００４０】
次に各フラグメントに対して持つデータについて説明する。そのデータの第１は波形データである。波形データとしては、図３に示すように４種類の塩基、すなわちアデニンＡ、チミンＴ、グアニンＧ、およびシトシンＣのそれぞれの塩基について、波形のデータが存在する。それぞれの塩基に対する波形データとして、一定時間間隔でおよそ10,000回のサンプリングを行った結果としてのデータが格納され、波形データは二次元の配列を持つことになる。すなわちデータポイント位置ｘの10,000個に対して、各波形の高さを示す、例えば16ビットのデータがそれぞれの塩基に対して格納される。ここでは各波形のデータを次のように表現する。
【００４１】
WaveData〔０〕〔ｘ〕：Ａ（アデニン）の波形データ
WaveData〔１〕〔ｘ〕：Ｔ（チミン）の波形データ
WaveData〔２〕〔ｘ〕：Ｇ（グアニン）の波形データ
WaveData〔３〕〔ｘ〕：Ｃ（シトシン）の波形データ
ｘ：データポイント位置
各フラグメントに対する第２のデータは、オリジナルの塩基配列データである。このオリジナル配列データは、シーケンサから得られた結果としての結合、および編集操作の前の各フラグメントの塩基配列である。この塩基配列データの格納法を図４に示す。同図に示すように、オリジナル塩基配列データは、塩基番号ｎに対応する構造体の配列であり、構造体のメンバはベースコード（ＢＣ）としての塩基の種類を表す文字、すなわちＩＵＰＡＣコードと、ウェーブデータポイント、すなわち図３のデータポイント位置ｘ（各塩基に対応する波形のピークにおけるデータポイント位置）であり、この配列は次の記号で表される。
【００４２】
Originalbase〔ｎ−１〕
（ｎ：塩基番号、１≦ｎ≦〔オリジナル塩基配列の総塩基数〕）
各フラグメントの第３のデータは、編集用塩基配列データである。これは編集対象となっている塩基配列のデータであり、塩基毎の構造体、すなわち第４のデータとしての編集用塩基データを指すポインタの配列であり、この配列は次の記号で表される。
【００４３】
pEditBase 〔ｍ−１〕→ｍ番目の塩基の構造体を指すポインタ
（ｍ：塩基番号）
（１≦ｍ≦〔編集中塩基配列の総塩基数〕）
第４のデータは第３のデータ、すなわち編集用塩基配列データのポインタによって指される塩基毎の構造体であり、その構造体のメンバの第１はベースコード、すなわち塩基の種類を表す文字であり、第２のメンバはオリジナルベースナンバ、すなわちベースコードの塩基に対応するオリジナル塩基配列中の塩基の塩基番号ｎである。オリジナル塩基配列中に対応する塩基が存在しない場合、例えば編集時に挿入された塩基のような場合には、オリジナルベースナンバは“−１”とされる。
【００４４】
図５は編集用塩基配列データと編集用塩基データとを示す。編集用塩基配列データは、前述のように塩基番号に対応して編集用塩基データを指すポインタＰの配列であり、このポインタによって編集用塩基データがポイントされる。例えばポインタＰ３によって指される構造体の塩基としてのＴは、第２のデータとしてのオリジナル塩基配列データ中には存在しない塩基であり、従ってこの塩基に対応するオリジナルベースナンバは“−１”となっている。
【００４５】
第５のデータは波形データ、および配列データに対応して各フラグメントに対して持たれる固有情報（メイン構造体）であり、この固有情報としては以下のものがある。
【００４６】
・pWave → WaveDataを指すポインタ
・pOriginalData → OriginalBaseを指すポインタ
・pEditData → pEditBase を指すポインタ
・OffsetBase → フラグメントのコンセンサス配列上での先頭位置
・LeftBaseNumber → 編集用塩基配列中における、配列データリンク領域の左端の塩基番号
・RightBaseNumber → 編集用塩基配列中における、配列データリンク領域の右端の塩基番号
・LeftWaveDataPoint → 波形データ中における波形データリンク領域の左端のデータポイント位置
・RightWaveDataPoint→ 波形データ中における波形データリンク領域の右端のデータポイント位置
このうちオフセットベースは、それぞれのフラグメントの塩基配列のコンセンサス配列上での位置を示すものであり、例えば前述のコンセンサス配列の例では、フラグメントＢのオフセットは５である。
【００４７】
次に図２における本発明の特有の処理としてのステップＳ１３〜Ｓ１５の処理について、図６〜図８によって詳細に説明する。まず図６は波形データリンク領域の更新処理の説明図である。同図において、エディットベース、すなわち編集用塩基配列データ上の全ての塩基について、編集用塩基データのメンバとしてのオリジナルベースナンバが調べられ、オリジナルベースナンバが“−１”でない左と右の端の塩基番号がレフトベースナンバ、およびライトベースナンバに格納される。
【００４８】
図７は図２のステップＳ１４、すなわち波形データリンク領域の更新処理の説明図である。同図においては、図６で求められたレフトベースナンバおよびライトベースナンバを用いて、例えばレフトベースナンバに対応してオリジナルベース、すなわちオリジナルの塩基配列データにおける同一の塩基番号ｎからそれに対応するウェーブデータポイントｘが求められ、それがレフトウェーブデータポイントに格納される。同様にして、ライトベースナンバに対応するオリジナル塩基配列データ上でのウェーブデータポイントがライトウェーブデータポイントに格納される。
【００４９】
図８は図２のステップＳ１５、すなわち波形表示の更新処理の説明図である。同図においては、各塩基に対応する４本の波形データについて、それぞれレフトウェーブデータポイントとライトウェーブデータポイントとの間の波形が、コンセンサス配列表示上の塩基番号でレフトベースナンバとライトベースナンバとの間に一致するようにスケール変換がなされて、波形の表示が行われる。
【００５０】
すなわち本発明においては、各フラグメントに対応する波形が、コンセンサスを表すコンセンサス配列に対応した位置にスケール変換されて表示される。編集などの処理によってフラグメント配列上の塩基の位置や内容に変更があった場合には、それに応じてその都度波形データの表示位置、およびスケールの変換が行われる。
【００５１】
例えば 345個の塩基から成るフラグメント配列に対する編集処理等によって塩基数が 350塩基になり、またこのフラグメント配列がコンセンサス配列上で 101番目から 450番目に対応することがわかっている場合には、フラグメント配列の一番目の塩基をコンセンサス配列上の 101番目の位置に、また例えば元々 345番目にあった 350番目の塩基をコンセンサス配列上の 450番目の位置に対応するように、スケール変更や表示位置のシフトなどが行われて、波形表示が行われる。すなわちシーケンサによって塩基数がｎと判断されたフラグメントに対して、結合や編集などの操作によって塩基数がｎ＋５になった場合には、ｎ＋５塩基分の範囲に、シーケンサによって決定されたｎ個の塩基の配列に対応した波形が表示されることになる。
【００５２】
次に本発明においては、波形に対応する塩基間隔を均一にするために、ゲル電気泳動時の移動距離のひずみを自動的に近似するひずみ補正が行われる。これによって波形同士の単純比較を容易にすることができる。その方法を以下に説明する。
【００５３】
分子量300000以下の分子をゲル電気泳動にかけたとき、分子の移動速度と分子量の間には近似的に以下の式が成り立つことが、実験により分かっている。
ｖ＝Ｃ₁log ｍ＋Ｃ₂ ・・・・・・(1)
（ｍ：分子量＞０，ｖ：移動速度＞０，Ｃ₁：定数＞０，Ｃ₂：定数＞０）
蛍光強度の測定は実験毎に設定される一定時間間隔（Ｔ₁＞０）毎に行われている。泳動開始位置と蛍光強度検出位置の距離をＣ₂＞０とすると
Ｃ₃＝ｖ（Ｔ₁ｘ＋Ｔ₂）・・・・・・(2)
（ｘ＝１つ目の塩基が見つかってからのデータポイント数）
（Ｔ₂：泳動開始から一番目（ｘ＝０）の塩基検出までにかかった時間＞０）
ここで、本実施例では、波形表示用のデータには泳動開始直後のデータが含まれていないものとする。すなわち泳動が開始されてから一定時間たった後に、蛍光強度のデータがとられ始める。(1) 式を利用するためには泳動開始位置、すなわちサンプルが注入された位置から蛍光強度検出位置までの距離が必要であり、その式が(2) 式である。なお泳動開始とは電気泳動装置に電圧がかけられた時点を意味し、この泳動開始の瞬間から蛍光強度が測定されてはいるが、データとしては一定時間たってからのものが保持されているものとする。
【００５４】
(2) 式においてはＴ₂は泳動開始、すなわち電圧が印加されてから蛍光強度がデータとして取られ始めるまでの時間を意味し、蛍光強度のデータは一定時間（Ｔ₁）間隔、通常１秒位の間隔で測定され、ｘはデータポイントの数であり、(2) 式はｘ番目のデータとして観測されたＤＮＡ塩基が泳動している泳動速度を表す。
【００５５】
(1) ，(2) 式を用いて、塩基間隔が均等に補正された結果としてのデータポイント数ｘと塩基番号ｎとを対応づける式を、以下のようにして誘導する。まず(1) ，(2) の両式から
Ｃ₃／（Ｔ₁ｘ＋Ｔ₂）＝−Ｃ₁log ｍ＋Ｃ₂
log ｍ＝−Ｃ₃／Ｃ₁（Ｔ₁ｘ＋Ｔ₂）＋Ｃ₂／Ｃ₁ ・・・・・・(3)
ここでＣ₄＝Ｃ₃／Ｃ₁＞０，Ｃ₅＝Ｃ₂／Ｃ₁＞０とすると(3) 式は
log ｍ＝−Ｃ₄／（Ｔ₁ｘ＋Ｔ₂）＋Ｃ₅ ・・・・・・(4)
となる。
【００５６】
プライマーの分子量をＭ_P、塩基番号をｎ、塩基の平均分子量をＭ_Bとすると、
ｍ＝Ｍ_P＋（ｎ−１）Ｍ_B ・・・・・・(5)
と表せる。
(5) 式を(4) 式に代入して

となる。
【００５７】
ここで、Ｍ_Pはシークエンシング毎のプライマーの分子量として特定される。
Ｍ_Bには塩基の平均分子量として316 を用いる。
Ｔ₁にはシークエンス時に設定した測定間隔を用いる。
【００５８】
Ｔ₂には泳動開始から、１番目（ｎ＝０）の塩基検出までにかかった時間を用いる。
最後に(6) 式における定数Ｃ₄、およびＣ₅を実際の泳動データから決定する。すなわち例えばｎ＝１と、ｎ＝101 に対応するデータポイント数ｘ₁，ｘ₁₀₁のような２つのデータを使って、Ｃ₄，Ｃ₅を求めることによって、塩基間隔が近似的に均等に補正されたデータ配列を求めるためのデータポイント数ｘと塩基番号ｎとを求める式(6) が完成する。完成された関数としての(6) 式を用いて、塩基間隔が均等に補正されたデータ配列を求めるための手順を次の▲１▼〜▲４▼で説明する。
【００５９】
▲１▼ まず始めに、元の波形データの最後のデータポイントが塩基番号にして何番目（ｎLast）になるかを(6) 式を用いて求める。
元の波形データの最後のデータポイントをｘLastとする。
【００６０】
(6) 式より
ｎLast＝ｆ（ｘLast)
▲２▼ 次に(6) 式を使って元の波形データの塩基番号ｎ＝−４のときのデータポイントを求める。
【００６１】
(6) 式より
【００６２】
【数２】

【００６３】
これにｎ＝−４を代入しｘ−４を求める。
▲３▼ 次に(6) 式を使って新たな波形データを作成する。
（ｎLast＋５）×50のデータポイントを持つ配列を作成し、(6) 式を使って元の波形データのデータポイントから新たな波形データ配列を作成する。
【００６４】
元の波形データのデータポイントのｘ−４からｘLastを(6) 式に代入し、ｎを求め、新たな波形データの（ｎ＋５）×50のデータポイントに格納する。
【００６５】
▲４▼ 最後に、新たな波形データのデータポイントを指す塩基配列を作成する。塩基配列データのｎ塩基目の指す新たな波形データ上のデータポイントは（ｎ＋５）×50となる。この値の代入を全ての塩基について行う。
【００６６】
なお、ここで塩基番号の50倍のデータポイントを持たせる理由は、塩基間のデータ数を均一にし、またある程度多いデータ数を持たせるためである。この新たな波形データの作成にあたってデータが埋まらないデータポイントがある場合には、その直前のデータポイントにおける値が用いられる。すなわち新たな波形データ作成時に、あたらな波形データ上で直前に埋められたデータポイントの値を記憶しておき、データポイントがとんでいる場合にはその直前に埋められたデータポイントの値をとんでいるデータポイントに対して使用する。
【００６７】
以上に説明したように、(6) 式を基にして塩基間隔が近似的に均等に補正された波形データの配列が求められ、その結果は例えばメモリに格納されて、波形表示に用いられる。具体的には、前述の図３、および図４のデータはこの計算結果に対応して更新されるが、図５のデータは更新されない。
【００６８】
図９および図１０は本発明を使用した場合のフラグメント波形表示の変化の説明図である。図９はＤＮＡシーケンサの出力をそのまま表示したもの（スケール変換前）である。これに対して図１０は本発明の波形表示方法を用いた結果である。例えば一番下の波形において、塩基間の間隔が上の波形と比較して均一になっていることがわかる。
【００６９】
【発明の効果】
以上詳細に説明したように、本発明によればフラグメントの結合状態、および編集状態に対応して、例えば編集操作と同時に波形をリアルタイムで表示し、比較検討できるために、結合や編集の結果の正確さを視覚的に確認しながら、塩基配列の決定を行うことが可能になる。また塩基の記号の配列としての文字配列上の整合性だけでなく、波形データ上においての整合性も確認しながら結合や編集を行うことができるため、塩基配列の組み立てをより正確に、また迅速に行うことができる。更に波形に対応する塩基間隔を均一化することができ、波形の比較が容易となり、シーケンシングミスなどを防止することが可能になる。
【図面の簡単な説明】
【図１】本発明の機能ブロック図である。
【図２】本発明の波形表示方法を用いる塩基配列の結合および編集処理の全体フローチャートである。
【図３】波形データの格納法を説明する図である。
【図４】オリジナル塩基配列データの格納法を説明する図である。
【図５】編集用塩基配列データと編集用塩基データとの格納法の説明図である。
【図６】配列データリンク領域の更新処理の説明図である。
【図７】波形データリンク領域の更新処理の説明図である。
【図８】波形表示の更新処理の説明図である。
【図９】ＤＮＡシーケンサの出力波形（スケール変換前）を示す図である。
【図１０】図９の波形に対する本発明の波形表示方法の適用結果（スケール変換後）を示す図である。
【図１１】ＤＮＡ断片の作り方の説明図である。
【図１２】シーケンサによって得られる波形の例を示す図である。
【図１３】塩基間隔の不均一性の説明図である。

Claims

入力されたＤＮＡのフラグメント塩基配列を編集し、つなぎ合わせてＤＮＡ全体の塩基配列を決定することを支援するために前記フラグメント塩基配列に対応するフラグメント波形データを表示するフラグメント波形表示装置が、
前記ＤＮＡのフラグメント塩基配列に対応するフラグメント波形データと前記フラグメント波形データの位置情報と前記ＤＮＡのフラグメント塩基配列の塩基位置情報に対応する前記フラグメント波形データ位置情報を波形データ及び波形データ位置情報記憶手段に格納する波形データ及び波形データ位置情報記憶ステップと、
前記フラグメント塩基配列をつなぎ合わせるための塩基位置情報を塩基配列位置情報記憶手段に格納する塩基配列位置情報記憶ステップと、
複数のフラグメント塩基配列のそれぞれに対応する前記フラグメント塩基配列をつなぎ合わせるための塩基位置情報を前記塩基配列位置情報記憶手段から抽出する塩基位置情報抽出ステップと、
前記塩基位置情報抽出ステップにおいて抽出したフラグメント塩基配列をつなぎ合わせるための塩基位置情報に対応するフラグメント波形データの位置情報を前記波形データ及び波形データ位置情報記憶手段から抽出するフラグメント波形データ位置情報抽出ステップと、
前記フラグメント波形データ位置情報抽出ステップにおいて抽出したフラグメント波形データの位置情報を、前記塩基位置情報抽出ステップにおいて抽出した塩基位置情報に基づいて位置合わせするフラグメント波形データ位置情報位置合わせステップと、
前記フラグメント波形データ位置情報位置合わせステップにおいて位置合わせした位置情報に基づいて、前記波形データ及び波形データ位置情報記憶手段中のフラグメント波形データの位置合わせするフラグメント波形データ位置合わせステップと、
前記フラグメント波形データ位置合わせステップにおいて位置合わせしたフラグメント波形データを表示する表示ステップと、
を実行することを特徴とするＤＮＡの塩基配列決定支援用フラグメント波形表示方法。
入力されたＤＮＡのフラグメント塩基配列を編集し、つなぎ合わせてＤＮＡ全体の塩基配列を決定することを支援するために前記フラグメント塩基配列に対応するフラグメント波形データを表示するフラグメント波形表示装置が、
前記ＤＮＡのフラグメント塩基配列に対応するフラグメント波形データと前記フラグメント波形データの位置情報を波形データ記憶手段に格納する波形データ記憶ステップと、
前記ＤＮＡのフラグメント塩基配列の塩基位置情報に対応する前記フラグメント波形データ位置情報を波形データ位置情報記憶手段に格納する波形データ位置情報記憶ステップと、
前記フラグメント塩基配列をつなぎ合わせるための塩基位置情報を塩基配列位置情報記憶手段に格納する塩基配列位置情報記憶ステップと、
複数のフラグメント塩基配列のそれぞれに対応する前記フラグメント塩基配列をつなぎ合わせるための塩基位置情報を前記塩基配列位置情報記憶手段から抽出する塩基位置情報抽出ステップと、
前記塩基位置情報抽出ステップにおいて抽出したフラグメント塩基配列をつなぎ合わせるための塩基位置情報に対応するフラグメント波形データの位置情報を前記波形データ記憶手段から抽出するフラグメント波形データ位置情報抽出ステップと、
前記フラグメント波形データ位置情報抽出ステップにおいて抽出したフラグメント波形データの位置情報を、前記塩基位置情報抽出ステップにおいて抽出した塩基位置情報に基づいて位置合わせするフラグメント波形データ位置情報位置合わせステップと、
前記フラグメント波形データ位置情報位置合わせステップにおいて位置合わせしたフラグメント波形データの位置情報に基づいて、前記波形データ記憶手段中のフラグメント波形データの位置合わせするフラグメント波形データ位置合わせステップと、
前記フラグメント波形データ位置合わせステップにおいて位置合わせしたフラグメント波形データを表示する表示ステップと、
前記表示ステップにおけるフラグメント波形データの表示結果に応じた塩基配列の編集操作があれば塩基配列の編集を行い前記塩基配列位置情報記憶ステップに分岐し、塩基配列の編集操作がなければ処理を終了する分岐ステップ
を実行することを特徴とするＤＮＡの塩基配列決定支援用フラグメント波形表示方法。
前記入力されたＤＮＡのフラグメント塩基配列上の塩基に対して前記塩基配列上の位置を示す位置情報を与え、編集操作によって該フラグメント塩基配列に挿入された塩基には該位置情報を与えずに、編集後のフラグメント塩基配列の中で該位置情報を持つ両端の塩基の塩基位置を、前記フラグメント塩基配列をつなぎ合わせるための塩基位置情報とすることを特徴とする請求項１記載のＤＮＡの塩基配列決定支援用フラグメント波形表示方法。
前記表示ステップは、表示領域内で隣接する塩基間の間隔が均一となるように塩基の表示位置を調整して波形データを表示することを特徴とする請求項１記載のＤＮＡの塩基配列決定支援用フラグメント波形表示方法。
前記入力されたＤＮＡのフラグメント塩基配列が、ＤＮＡ塩基配列決定用のＤＮＡシーケンサの出力としての塩基配列であり、前記表示ステップは、ゲル電気泳動における泳動開始から各塩基の位置に対応する蛍光強度検出位置までの泳動距離がプライマーの分子量と泳動開始位置から数えた該塩基の番号との関数として求められた結果に基づいて塩基の表示位置を調整することを特徴とする請求項４記載のＤＮＡの塩基配列決定支援用フラグメント波形表示方法。
入力されたＤＮＡのフラグメント塩基配列を編集し、つなぎ合わせてＤＮＡ全体の塩基配列を決定することを支援するために前記フラグメント塩基配列に対応するフラグメント波形データを表示するフラグメント波形表示装置において、
前記ＤＮＡのフラグメント塩基配列に対応するフラグメント波形データと前記フラグメント波形データの位置情報と前記ＤＮＡのフラグメント塩基配列の塩基位置情報に対応する前記フラグメント波形データ位置情報を格納する波形データ及び波形データ位置情報記憶手段と、
前記フラグメント塩基配列をつなぎ合わせるための塩基位置情報を格納する塩基配列位置情報記憶手段と、
複数のフラグメント塩基配列のそれぞれに対応する前記フラグメント塩基配列をつなぎ合わせるための塩基位置情報を前記塩基配列位置情報記憶手段から抽出する塩基位置情報抽出手段と、
前記塩基位置情報抽出手段により抽出したフラグメント塩基配列をつなぎ合わせるための塩基位置情報に対応するフラグメント波形データの位置情報を前記波形データ及び波形データ位置情報記憶手段から抽出するフラグメント波形データ位置情報抽出手段と、
前記フラグメント波形データ位置情報抽出手段により抽出したフラグメント波形データの位置情報を前記塩基位置情報抽出手段により抽出した塩基位置情報に基づいて位置合わせするフラグメント波形データ位置情報位置合わせ手段と、
前記フラグメント波形データ位置情報位置合わせ手段により位置合わせした位置情報に基づいて、前記波形データ及び波形データ位置情報記憶手段中のフラグメント波形データの位置合わせするフラグメント波形データ位置合わせ手段と、
前記フラグメント波形データ位置合わせ手段により位置合わせしたフラグメント波形データを表示する表示手段と、
を備えることを特徴とするＤＮＡの塩基配列決定支援用フラグメント波形表示装置。