[go: up one dir, main page]

JP2005087069A - 生物情報のロスレス符号化装置、検索装置、および三次元情報のロスレス符号化装置 - Google Patents

生物情報のロスレス符号化装置、検索装置、および三次元情報のロスレス符号化装置 Download PDF

Info

Publication number
JP2005087069A
JP2005087069A JP2003323368A JP2003323368A JP2005087069A JP 2005087069 A JP2005087069 A JP 2005087069A JP 2003323368 A JP2003323368 A JP 2003323368A JP 2003323368 A JP2003323368 A JP 2003323368A JP 2005087069 A JP2005087069 A JP 2005087069A
Authority
JP
Japan
Prior art keywords
data
information
annotation
sequence
length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003323368A
Other languages
English (en)
Other versions
JP4334955B2 (ja
Inventor
Toshio Motegi
敏雄 茂出木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP2003323368A priority Critical patent/JP4334955B2/ja
Publication of JP2005087069A publication Critical patent/JP2005087069A/ja
Application granted granted Critical
Publication of JP4334955B2 publication Critical patent/JP4334955B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

【課題】 注釈情報が混在しても生物情報を最適な符号長で圧縮できる生物情報のロスレス符号化装置を提供する。
【解決手段】 原塩基配列ファイル(a)等の生物情報ファイルを読み込むと、注釈情報<ANNOTATION>と、塩基の配列情報を、それぞれ注釈データ(b)、配列データ本体(c)として分離する。注釈データには、注釈情報間に挟まれていた塩基の数を所定のルールで記録し、後の復号時に統合を容易にする。分離された注釈データ、配列データ本体は、それぞれさらに圧縮されて圧縮ファイルが得られる。
【選択図】 図2

Description

本発明は、バイオインフォマティクス、ゲノム創薬、バイオ新素材開発など生物情報データベースの構築、検索を行う分野、コンピュータグラフィックスを用いたCGアニメーション映像制作分野、科学技術シミュレーションにおける可視化映像制作、CGを用いた高分子構造・挙動の可視化分野に関する。
近年、ヒトゲノムプロジェクトなどバイオインフォマティクス(生物情報科学)の急速な進展に伴い、膨大な生物情報データベースが構築されつつある。特に、DNA配列については、完成度が高まっており、現在急ピッチでプロテオーム情報の蓄積が進行している。このように蓄積される大容量のデータベースを活用し、医薬品開発や新規素材開発などに応用するためには、ネットワーク経由の円滑なデータベースの扱いが重要となる。すなわち、いかに効率良く圧縮し、効率良く検索するかが重要となる。
生物情報配列は、1文字のエラーでも致命的な欠陥につながるため、圧縮を行う場合、MPEGなどのロッシー型圧縮やニアロスレス型圧縮は適用できず、ロスレス型圧縮に限定される。幸い、生物情報配列は、ASCIIテキスト形式であるため、テキストを対象とした汎用可逆圧縮ツール(ZIP、LZH等)である程度の圧縮が可能であり、現在蓄積されているデータベースにおいてもZIP技術が適用されている。
このような生物情報の符号化については、他にもいくつかの技術が提案されている(例えば、特許文献1、特許文献2参照)。
特開2003−188735号公報 特開2003−101485号公報 また、生物情報の解析には、タンパク質立体構造等の3次元モデルの解析も必要となるが、このような3次元モデルを圧縮する手法についても提案されている(例えば、特許文献3参照)。 特開平10−320583号公報
しかしながら、上記のような汎用圧縮ツール(ユニバーサル圧縮方式)もしくは上記特許文献に示した技術では、生物情報の特徴を活かせないため、圧縮率に限界がある。例えば、DNA配列は4文字で構成されるため、理論上は1文字あたり2ビットで符号化できるが、DNAの代表的な相同検索エンジンFASTAに用いられている記録形式であるFASTA形式では、注釈情報を混在するため3ビット程度までしか圧縮できない。また、DNAには特有の繰り返しパターンがあり、これを活用すると2ビット未満に圧縮できる可能性がある。
そこで、本発明は、生物情報配列の特徴を活かし、注釈情報が混在しても生物情報を最適な符号長で圧縮できる生物情報のロスレス符号化装置、圧縮された生物情報配列を完全には復号しなくても、少ないメモリで検索可能な生物情報の検索装置、3次元モデルに対しても、ロスレス圧縮することが可能な三次元情報のロスレス符号化装置を提供することを課題とする。
上記課題を解決するため、本発明では、生物情報のロスレス符号化装置を、所定の範囲内で定義された文字の配列情報と前記配列情報の特定の範囲の情報を注釈する注釈情報で構成される生物情報ファイルに対して、前記注釈情報と配列情報を分離して、注釈データ、配列データ本体とするとともに、前記生物情報ファイルを復元できるように、前記注釈データに前記配列データ本体へのリンク情報を追加するためのデータ分離手段と、前記配列データ本体に記録された各文字に対して固定ビット長を割り当てることによりデータ圧縮を行って、中間配列データを得る固定長符号化手段と、前記固定長で圧縮された中間配列データ、および前記注釈データそれぞれに対して、可変ビット長でデータ圧縮を行う可変長符号化手段を有する構成としたことを特徴とする。
また、本発明では、1バイト未満で1つの塩基もしくはアミノ酸が記録された検索用配列データから、目的とする配列を検索する生物情報の検索装置を、検索キーとする配列を入力する検索キー入力手段と、前記入力された検索キーを1塩基もしくは1アミノ酸の記録単位ずつ移動させて、全体としてバイト単位になるように任意ビットを追加した、複数の検索パターンを作成する検索パターン作成手段と、前記作成された検索パターンと、前記検索用配列データを1バイト単位で比較していくことにより照合を行う照合手段を有する構成としたことを特徴とする。
また、本発明では、三次元情報のロスレス符号化装置を、所定の範囲内で定義された数値を含む文字情報と前記文字情報の特定の範囲の情報を注釈する注釈情報で構成される三次元情報ファイルに対して、情報の区切りを示す空白文字符号を抽出し、ランレングス符号化を行い、前記三次元情報ファイル内の空白文字部分を所定のランレングス符号に変換するランレングス符号化手段と、前記文字情報に含まれる数値を分離して数値データ本体とし、分離された他方を注釈データとして、前記三次元情報ファイルを復元できるように、前記注釈データに前記数値データ本体へのリンク情報を追加するためのデータ分離手段と、前記数値データ本体、および前記注釈データそれぞれに対して、可変ビット長でデータ圧縮を行う可変長符号化手段を有する構成としたことを特徴とする。
本発明の生物情報のロスレス符号化装置によれば、注釈情報と配列情報が混在した生物情報ファイルについて、注釈情報と配列情報を分離して、それぞれ注釈データ、配列データ本体とするとともに、注釈データに、配列データ本体へのリンク情報を追加した後、それぞれを符号化するようにしたので、注釈情報が混在しても生物情報を最適な符号長で圧縮することが可能となるという効果を奏する。
本発明の生物情報の検索装置によれば、入力された検索キーを、1文字(1塩基もしくはアミノ酸)ずつ移動させて、全体としてバイト単位とした複数の検索パターンを作成し、この検索パターンを利用して配列データの検索を行うようにしたので、少ないメモリで検索可能となるという効果を奏する。
本発明の三次元情報のロスレス符号化装置によれば、注釈情報と数値情報が混在した三次元情報ファイルについて、情報の区切りを示す空白文字符号を抽出し、ランレングス符号化を行った後、注釈情報と数値情報を分離して、それぞれ注釈データ、数値データ本体とするとともに、注釈データに、数値データ本体へのリンク情報を追加した後、それぞれを符号化するようにしたので、3次元モデルに対しても、ロスレス圧縮することが可能となるという効果を奏する。
以下、本発明の実施形態について図面を参照して詳細に説明する。
(生物情報のロスレス符号化装置)
図1は、本発明に係る生物情報のロスレス符号化装置の構成を示す機能ブロック図である。図1において、1はデータ分離手段、2は固定長符号化手段、3は可変長符号化手段である。データ分離手段1は、生物情報ファイルに記録されている注釈情報と配列情報を分離して注釈データと、配列データ本体を得る機能を有している。固定長符号化手段2は、データ分離手段1により分離された一方の配列データ本体を、各配列文字の別によらず各文字に固定ビット長を割り当てることにより符号化する機能を有している。可変長符号化手段3は、データ分離手段1により分離された一方の注釈データ、固定長符号化手段2により符号化された配列データ本体を、それぞれ可変長で符号化する機能を有している。
ここで、本発明で圧縮対象とする生物情報の構造について説明しておく。本実施形態では、生物情報として、塩基配列、アミノ酸配列を利用することができる。ここでは、まず、塩基配列について説明する。図2(a)は、代表的なデータ形式であるFASTA形式で表現した原塩基配列ファイルを示す図である。図1において、t、c、a、gは、それぞれチミン、シトニン、アデニン、グアニンの4種類の塩基を示している。なお、ここでは、塩基を示す4文字以外の注釈情報は、<ANNOTATION>として省略して示してあるが、実際には、塩基配列を説明するための注釈情報が記されている。注釈情報を構成する文字、および各塩基は、ASCIIコードで記録されており、1文字の記録に8ビットを要している。
続いて、図1に示した装置の処理動作について説明する。まず、図2(a)に示したような原塩基配列ファイルを入力すると、まず、データ分離手段1が、原塩基配列ファイル内の注釈情報と配列情報を分離して、注釈データ、配列データ本体とする。具体的には、図2(a)に示したような原塩基配列ファイルを先頭から順に解読していき、データがt、c、a、gのASCII文字データだけから構成されるテキスト形式である場合には、配列データ本体であると判断し、t、c、a、g以外のASCII文字データを含むテキスト形式である場合には、注釈データであると判断して分離する。この際、配列データ本体として分離される塩基の数をカウントしておき、各注釈情報の後に、記録されていた塩基の数を記録する。例えば、図2(a)の例では、<ANNOTATION2>の後に67の塩基が記録されていたので、注釈データ内に、67の塩基を挿入すべき旨の情報を記録することになる。ただし、本実施形態では、注釈情報がASCIIコードで記録されており、0〜127の値は、文字情報として認識されることになる。そのため、文字情報として使用される最大値127に塩基数67を加算して記録されることになる。このため、図2(b)に示すように、<ANNOTATION2>の後には、「194」が記録されることになる。
1バイトで記録できる情報は、0〜255までであり、上述のように、0〜127は文字情報として使用されているので、1バイトで記録できる塩基数は、128までとなる。そのため、塩基数が129以上となった場合は、2バイトで記録することになる。例えば、図2(a)の例では、<ANNOTATION1>の後に136の塩基が記録されていたので、注釈データ内に、136の塩基を挿入すべき旨の情報を記録することになる。この場合、136を128と8に分け、1バイト目、2バイト目にそれぞれ127を加算して記録する。このため、図2(b)に示すように、<ANNOTATION1>の後には、「255」「135」が記録されることになる。このように、注釈データに、挿入すべき塩基の数が記録されることにより、復号時に配列データ本体とのリンクをとることが可能となる。
配列データ本体は、原塩基配列ファイルから注釈情報を外して、塩基を連続して配列させたものとなる。そのため、図2(a)のように、136の塩基と67の塩基が記録されていた場合は、図2(c)に示すように、203の塩基が連続して記録されることになる。
続いて、固定長符号化手段2が、配列データ本体を固定長符号化し、中間配列データを得る。具体的には、8ビットで記録されている各塩基を2ビットに置き換えて符号化する。具体的には、図3に示した塩基変換テーブルを利用して、置き換えることになる。この結果、1塩基について8ビットで記録されていたものが、2ビットで記録されることになり、大幅にデータ量が削減される。
一方、可変長符号化手段3は、注釈データを可変長で符号化していく。ここで、可変長符号化手段3による処理概要を図4のフローチャートに示す。まず、読み込んだ注釈データをバイト単位でランレングス圧縮する(ステップS1)。次に、バイトデータの頻度テーブルを作成する(ステップS2)。具体的には、出現頻度の高いバイトデータの順に、少ないビット長のビット配列を対応させた頻度テーブルを作成することになる。作成された頻度テーブルは、後で利用するために保存される。次に、ランレングス圧縮したデータを、作成した頻度テーブルで変換する(ステップS3)。これにより、頻度が高いデータほど、小さい値になる。続いて、頻度テーブルで変換されたデータを可変長符号化する(ステップS4)。このステップS4における可変長符号化処理は、Golomb-Rice等の周知の手法を用いることができる。この結果、圧縮注釈データが得られることになる。
可変長符号化手段3は、注釈データの処理後、固定長符号化手段2より固定長符号化された中間配列データを可変長符号化する。この処理は、上記ステップS1〜ステップS4の処理と同一である。この結果、圧縮配列データが得られることになる。
以上の処理により、圧縮ファイル(圧縮注釈データ、圧縮配列データ、注釈頻度テーブル、配列頻度テーブル、塩基変換テーブルを含む)が得られることになる。この圧縮ファイルを所定の記憶装置に記憶させておくことにより、圧縮ファイルの流通が可能となる。例えば、これらを、インターネットに公開されたコンピュータの所定のディレクトリに保存しておけば、利用者は、データ量の小さいデータ量をダウンロードすれば良いため、データの取得を迅速に行うことが可能となる。
続いて、圧縮ファイルの復号処理について説明する。復号処理は、圧縮注釈データと注釈頻度テーブルから注釈データを復元し、圧縮配列データと配列頻度テーブルから中間配列データを復元し、中間配列データと塩基変換テーブルから配列データ本体を復元し、最後に、注釈データと配列データ本体を統合して元の生物情報ファイルを得ることになる。具体的には、まず、圧縮注釈データに対して、図4のフローチャートに示した処理と逆の処理を行い、注釈頻度テーブルを利用して注釈データを復元する。また、圧縮配列データに対しても、図4のフローチャートに示した処理と逆の処理を行い、配列頻度テーブルを利用して、中間配列データを復元する。中間配列データは、各塩基が2ビットで表現されているので、塩基変換テーブルを利用して各塩基8ビットに戻してやることにより、配列データ本体が復元される。次に、注釈データと配列データ本体の統合を行うが、これは、注釈データの注釈情報<ANNOTATION>を読み込み、その直後に記録されている挿入文字数分に対応する数の塩基を配列データ本体から読み込み、注釈情報の後に挿入していく。この処理を各注釈情報に対して行っていくことにより、生物情報ファイルが復元される。
(生物情報の検索装置)
次に、本発明に係る生物情報の検索装置について説明する。図5は、本発明に係る生物情報の検索装置の構成を示す機能ブロック図である。図5において、11は検索キー入力手段、12は検索パターン作成手段、13は照合手段である。検索キー入力手段1は、検索の目的とする配列である検索キーを入力する機能を有している。検索パターン作成手段12は、入力された検索キーを1文字ずつ移動させた複数の検索パターンを作成する機能を有している。照合手段13は、作成された検索パターンと、中間配列データ内の配列との照合を行う機能を有している。
続いて、図5に示した検索装置の処理動作について説明する。中間配列データの構造を図6(a)に示す。上述のように、中間配列データにおいては、各塩基は2ビットで記録されている。図6では、1バイト(4塩基)単位で区切って示している。このような中間配列データを用いて、「tatagc」という配列を検索する場合を考えてみる。この場合、検索キー入力手段11から「tatagc」という検索キーを入力すると、検索パターン作成手段12は、図6(b)に示すようなA「tatagc**」、B「*tatagc*」、C「**tatagc」、D「***tatagc***」という4通りの検索パターンを作成する。ここで、「*」は2ビットの任意の配列である。この検索パターンは、整数バイトとなっており、ここでは、検索パターンA、B、Cは2バイト、検索パターンDは3バイトである。次に、照合手段13が、検索パターンの先頭から、バイト単位で検索する。例えば、まず、Aパターンの先頭1バイトの「tata」を利用して、1バイト単位で、中間配列データとのマッチングを行い、一致する配列が存在したら、2バイト目の「gc**」とのマッチングを行う。このようにすることにより、検索対象とする配列全てのマッチングをいきなり行う必要がなく、1バイト目が一致した場合のみ、2バイト目以降のマッチングを行えば良いことになり、検索時間が大幅に短縮される。Aパターンで一致する配列が見つからなかった場合は、Bパターン、Cパターン、Dパターンという順に、全てのパターンで検索を試みる。
(アミノ酸配列の例)
上記生物情報のロスレス符号化装置および検索装置の例では、DNA塩基配列を例にとって説明したが、アミノ酸配列でも同様である。ここでは、アミノ酸配列を圧縮、検索する場合について、上記DNA塩基配列の場合と異なる点について説明する。アミノ酸配列の場合は、データ分離手段1による処理の後、固定長符号化手段2により8ビットで表現されている各アミノ酸を4ビットに変換する。ただし、アミノ酸は20種類あるため、4ビットでは表現しきれないため、比較的出現頻度の低いもの5種については、8ビットで表現し、他の15種について4ビットで表現することとしている。具体的には、図7に示したアミノ酸変換テーブルを利用して変換することになる。
次に、アミノ酸配列の検索について説明する。アミノ酸の場合の中間配列データの構造を図7に示す。中間配列データにおいては、上述のように各アミノ酸は4ビットもしくは8ビットで記録されている。図8では、1バイト(1もしくは2アミノ酸)単位で区切って示している。このような中間配列データを用いて、「EKAR」という配列を検索する場合を考えてみる。この場合、図8(b)に示すようなE「EKAR」、F「*EKAR*」という2通りのパターンを作成し、バイト単位で検索する。ここで、「*」は4ビットの任意の配列である。例えば、まず、Eパターンの先頭1バイトの「EK」を利用して、1バイト単位で、中間配列データとのマッチングを行い、一致する配列が存在したら、2バイト目の「AR」とのマッチングを行う。このようにすることにより、検索対象とする配列全てのマッチングをいきなり行う必要がなく、1バイト目が一致した場合のみ、2バイト目以降のマッチングを行えば良いことになり、検索時間が大幅に短縮される。Eパターンで一致する配列が見つからなかった場合は、Fパターンで検索を試みる。
(三次元情報のロスレス符号化装置)
図9は、本発明に係る三次元情報のロスレス符号化装置の構成を示す機能ブロック図である。図9において、21はランレングス符号化手段、22は定型タグ符号化手段、23はデータ分離手段、24は可変長符号化手段である。ランレングス符号化手段21は、三次元情報ファイル内の空白文字のランレングス符号化を行う機能を有している。定型タグ符号化手段22は、三次元情報ファイル内の定型のタグを対応するビット列に変換する機能を有している。データ分離手段23は、三次元情報ファイルに記録されている注釈情報と数値情報を分離して注釈データと、数値データ本体を得る機能を有している。可変長符号化手段24は、データ分離手段23により分離された注釈データ、数値データ本体を、それぞれ可変長で符号化する機能を有している。
本発明で圧縮対象とする三次元情報ファイルの構造について説明しておく。図10(a)は、代表的なデータ形式であるVRML形式で表現した三次元CGファイルを示す図である。図10(a)において、下線は「スペース」を示している。なお、ここでは、数値以外の注釈情報は、図1と同様<ANNOTATION>として省略して示してあるが、実際には、数値を説明するための注釈情報が記されている。
続いて、三次元情報ファイルの圧縮について説明する。まず、三次元データを読み込むと、ランレングス符号化手段11が、スペース(空白)情報をランレングス符号化する。次に、定型タグ符号化手段12が、定型タグを符号化していく。具体的には、図11に示すような定型タグ変換テーブルを利用して符号化することになる。次に、データ分離手段13が、文字情報に含まれる数値を分離して数値データ本体とし、分離された他方を注釈データとする。具体的には、図10(a)に示したような原三次元CGファイルを先頭から順に解読していき、データが0,1,2,3,4,5,6,7,8,9、および負符号と小数点記号のASCII文字データのみから構成されるテキスト形式である場合には、数値データ本体であると判断し、データに上記以外のASCII文字データを含むテキスト形式である場合には、注釈データであると判断して分離する。この際、数値データ本体として分離される数値の個数をカウントしておき、各注釈情報の後に、記録されていた数値に関する情報を記録する。この際、バイト単位で読み込んだ文字に、以下の〔変換規則1〕に従って数値を割り当てる。
〔変換規則1〕
0〜127:ASCII文字列
128〜191:挿入数値長+127
192〜223:定型タグコード+192
224〜255:挿入スペース長+223
例えば、図10(a)に示した先頭5文字のスペースは、挿入スペース長「5」に223を加算して「228」として図10(b)に示す注釈データに記録される。同様に、2文字のスペースは、挿入スペース長「2」に223を加算して「225」として注釈データに記録される。また、図10(a)に示した「POINT」という定型タグは、図9に示したテーブルにより得られる「21」に192を加算して「213」として図10(b)に示す注釈データに記録される。数値については、「.」も含めて連続する数値の個数に127を加算した値として記録される。すなわち、「0.000000」のように8個の場合は、「135」として記録され、「−0.000100」のように9個の場合は、「136」として記録される。
数値データ本体は、原三次元CGデータから注釈情報を外して、数値を連続して配列させたものとなる。そのため、図1(c)に示すように、数値が連続して記録されることになる。
可変長符号化手段24は、注釈データ、数値データ本体を可変長で符号化していく。具体的には、図4のフローチャートに示した処理を実行することになる。この結果、圧縮ファイル(圧縮注釈データ、圧縮数値データ、注釈頻度テーブル、数値頻度テーブル、定型タグ変換テーブル)が得られることになる。
続いて、復号処理について説明する。復号処理は、圧縮注釈データと注釈頻度テーブルから注釈データを復元し、圧縮数値データ本体と数値頻度テーブルから数値データ本体を復元し、最後に、注釈データと数値データ本体を統合して元の配列データを得ることになる。具体的には、まず、圧縮注釈データに対して、図4のフローチャートに示した処理と逆の処理を行い、注釈頻度テーブルを利用して注釈データを復元する。また、圧縮数値データ本体に対しても、図4のフローチャートに示した処理と逆の処理を行い、数値頻度テーブルを利用して、数値データ本体を復元する。次に、注釈データと数値データ本体の統合を行うが、これは、注釈データの注釈情報<ANNOTATION>を読み込み、その直後に記録されている数値を、上述の〔変換規則1〕によって変換し、対応する個数の数値を数値データ本体から読み込み、注釈情報の後に挿入していく。この処理を各注釈情報に対して行っていくことにより、三次元情報ファイルが復元される。
なお、上記図1、図5、図8に示した各装置は、具体的には、コンピュータ等のハードウェアに、専用のソフトウェアプログラムを搭載することにより実現される。
本発明に係る生物情報のロスレス符号化装置の構成を示す機能ブロック図である。 データ分離手段1による処理の様子を示す図である。 塩基変換テーブルの一例を示す図である。 可変長符号化手段による処理概要を示すフローチャートである。 本発明に係る生物情報の検索装置の構成を示す機能ブロック図である。 塩基配列の場合の中間配列データおよび検索パターンを示す図である。 アミノ酸変換テーブルの一例を示す図である。 アミノ酸配列の場合の中間配列データおよび検索パターンを示す図である。 本発明に係る三次元情報のロスレス符号化装置の構成を示す機能ブロック図である。 データ分離手段23による処理の様子を示す図である。 定型タグ変換テーブルの一例を示す図である。
符号の説明
1、23・・・データ分離手段
2・・・固定長符号化手段
3、24・・・可変長符号化手段
11・・・検索キー入力手段
12・・・検索パターン作成手段
13・・・照合手段
14・・・アーカイブ実行手段
21・・・ランレングス符号化手段
22・・・定型タグ符号化手段

Claims (8)

  1. 所定の範囲内で定義された文字の配列情報と前記配列情報の特定の範囲の情報を注釈する注釈情報で構成される生物情報ファイルに対して、
    前記注釈情報と配列情報を分離して、注釈データ、配列データ本体とするとともに、前記生物情報ファイルを復元できるように、前記注釈データに前記配列データ本体へのリンク情報を追加するためのデータ分離手段と、
    前記配列データ本体に記録された各文字に対して固定ビット長を割り当てることによりデータ圧縮を行って、中間配列データを得る固定長符号化手段と、
    前記固定長で圧縮された中間配列データ、および前記注釈データそれぞれに対して、可変ビット長でデータ圧縮を行う可変長符号化手段と、
    を有することを特徴とする生物情報のロスレス符号化装置。
  2. 請求項1において、
    前記可変長符号化手段は、前記注釈データまたは配列データ本体の各バイト配列単位にランレングス圧縮を行うとともに、各バイトデータの発生頻度順に短い長さのビットを割り当てることにより符号化を行うものであることを特徴とする生物情報のロスレス符号化装置。
  3. 請求項1において、
    前記配列データ本体は、a、g、c、t(大文字も可)の4種類の文字から構成され、各文字が8ビットで記録された塩基配列データであり、前記固定長符号化手段は、前記各文字を2ビットの固定長で符号化を行うものであることを特徴とする生物情報のロスレス符号化装置。
  4. 請求項1において、
    前記配列データ本体は、L、A、S、G、V、E、K、I、T、D、R、P、N、F、Q、Y、M、H、C、W(小文字も可)の20種類の文字から構成され、各文字が8ビットで記録されたアミノ酸配列データであり、前記固定長符号化手段は、L、A、S、G、V、E、K、I、T、D、R、P、N、F、Qの文字に対しては4ビットの固定長で符号化を行い、Y、M、H、C、Wの文字に対しては8ビットの固定長で符号化を行うものであることを特徴とする生物情報のロスレス符号化装置。
  5. 1バイト未満で1つの塩基もしくはアミノ酸が記録された配列データから、目的とする配列を検索する装置であって、
    検索キーとする配列を入力する検索キー入力手段と、
    前記入力された検索キーを1塩基もしくは1アミノ酸の記録単位ずつ移動させて、全体としてバイト単位になるように任意ビットを追加した、複数の検索パターンを作成する検索パターン作成手段と、
    前記作成された検索パターンと、前記配列データを1バイト単位で比較していくことにより照合を行う照合手段と、
    を有することを特徴とする生物情報の検索装置。
  6. 所定の範囲内で定義された数値を含む文字情報と前記文字情報の特定の範囲の情報を注釈する注釈情報で構成される三次元情報ファイルに対して、
    情報の区切りを示す空白文字符号を抽出し、ランレングス符号化を行い、前記三次元情報ファイル内の空白文字部分を所定のランレングス符号に変換するランレングス符号化手段と、
    前記文字情報に含まれる数値を分離して数値データ本体とし、分離された他方を注釈データとして、前記三次元情報ファイルを復元できるように、前記注釈データに前記数値データ本体へのリンク情報を追加するためのデータ分離手段と、
    前記数値データ本体、および前記注釈データそれぞれに対して、可変ビット長でデータ圧縮を行う可変長符号化手段と、
    を有することを特徴とする三次元情報のロスレス符号化装置。
  7. 請求項6において、
    定型的に使用されるタグに対する辞書データをさらに有し、当該辞書データを利用して、前記文字情報に含まれる定型タグを、対応するビット列に変換する定型タグ符号化手段を更に有することを特徴とする三次元情報のロスレス符号化装置。
  8. 請求項6において、
    前記配列データ本体は、0、1、2、3、4、5、6、7、8、9および小数点符号と負符号で構成され、各構成要素が8ビットで記録された数値配列データであり、前記固定長符号化手段は、4ビットの固定長で符号化を行うものであることを特徴とする三次元情報のロスレス符号化装置。


JP2003323368A 2003-09-16 2003-09-16 生物情報のロスレス符号化装置 Expired - Fee Related JP4334955B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003323368A JP4334955B2 (ja) 2003-09-16 2003-09-16 生物情報のロスレス符号化装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003323368A JP4334955B2 (ja) 2003-09-16 2003-09-16 生物情報のロスレス符号化装置

Publications (2)

Publication Number Publication Date
JP2005087069A true JP2005087069A (ja) 2005-04-07
JP4334955B2 JP4334955B2 (ja) 2009-09-30

Family

ID=34454467

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003323368A Expired - Fee Related JP4334955B2 (ja) 2003-09-16 2003-09-16 生物情報のロスレス符号化装置

Country Status (1)

Country Link
JP (1) JP4334955B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007193708A (ja) * 2006-01-20 2007-08-02 Fujitsu Ltd ゲノム解析プログラム、該プログラムを記録した記録媒体、ゲノム解析装置およびゲノム解析方法
WO2007108412A1 (ja) * 2006-03-17 2007-09-27 Nec Corporation 3次元データ処理システム
JP2015515042A (ja) * 2012-02-28 2015-05-21 コーニンクレッカ フィリップス エヌ ヴェ コンパクトな次世代シーケンシングデータセット及び該データセットを使用した効率的な配列の処理
CN105320674A (zh) * 2014-07-03 2016-02-10 腾讯科技(深圳)有限公司 一种领域本体库的建立方法、装置及服务器

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007193708A (ja) * 2006-01-20 2007-08-02 Fujitsu Ltd ゲノム解析プログラム、該プログラムを記録した記録媒体、ゲノム解析装置およびゲノム解析方法
WO2007108412A1 (ja) * 2006-03-17 2007-09-27 Nec Corporation 3次元データ処理システム
US7876318B2 (en) 2006-03-17 2011-01-25 Nec Corporation Three-dimensional data processing system
JP4873004B2 (ja) * 2006-03-17 2012-02-08 日本電気株式会社 3次元データ処理システム
JP2015515042A (ja) * 2012-02-28 2015-05-21 コーニンクレッカ フィリップス エヌ ヴェ コンパクトな次世代シーケンシングデータセット及び該データセットを使用した効率的な配列の処理
CN105320674A (zh) * 2014-07-03 2016-02-10 腾讯科技(深圳)有限公司 一种领域本体库的建立方法、装置及服务器
CN105320674B (zh) * 2014-07-03 2020-05-12 腾讯科技(深圳)有限公司 一种领域本体库的建立方法、装置及服务器

Also Published As

Publication number Publication date
JP4334955B2 (ja) 2009-09-30

Similar Documents

Publication Publication Date Title
US11404143B2 (en) Method and systems for the indexing of bioinformatics data
JP4261779B2 (ja) データ圧縮装置および方法
KR101969848B1 (ko) 유전자 데이터를 압축하는 방법 및 장치
JP5831298B2 (ja) プログラム、情報処理装置およびインデックス生成方法
Bonfield CRAM 3.1: advances in the CRAM file format
JPH0682370B2 (ja) 文字処理装置
EP3526709B1 (en) Efficient data structures for bioinformatics information representation
Kumar et al. Fast and memory efficient approach for mapping NGS reads to a reference genome
CN115691683B (zh) 一种基因型信息压缩方法、装置及计算机可读存储介质
JP4334955B2 (ja) 生物情報のロスレス符号化装置
JP2020509474A (ja) 圧縮されたゲノムシーケンスリードからゲノムリファレンスシーケンスを再構築するための方法とシステム
KR20190113971A (ko) 다중 게놈 디스크립터를 이용한 생명정보학 데이터의 압축 표현 방법 및 장치
WO2018151786A1 (en) Method and systems for the reconstruction of genomic reference sequences from compressed genomic sequence reads
CN110111852A (zh) 一种海量dna测序数据无损快速压缩平台
Huo et al. CIndex: compressed indexes for fast retrieval of FASTQ files
CN118523780A (zh) 一种对sas数据集进行解压以及压缩的方法及应用
Gupta et al. A novel approach for compressing DNA sequences using semi-statistical compressor
US6731229B2 (en) Method to reduce storage requirements when storing semi-redundant information in a database
JP4770163B2 (ja) 生物情報の解析装置および圧縮装置
Kumar et al. WBFQC: A new approach for compressing next-generation sequencing data splitting into homogeneous streams
Gupta et al. An efficient compressor for biological sequences
Korodi et al. Compression of annotated nucleotide sequences
Pathak et al. RETRACTED: LFQC: a lossless compression algorithm for FASTQ files
Delgrange et al. Location of repetitive regions in sequences by optimizing a compression method
Gupta et al. Searching a pattern in compressed DNA sequences

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060731

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090402

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090521

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090618

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090624

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120703

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4334955

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120703

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130703

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees