JP2005087069A - 生物情報のロスレス符号化装置、検索装置、および三次元情報のロスレス符号化装置 - Google Patents
生物情報のロスレス符号化装置、検索装置、および三次元情報のロスレス符号化装置 Download PDFInfo
- Publication number
- JP2005087069A JP2005087069A JP2003323368A JP2003323368A JP2005087069A JP 2005087069 A JP2005087069 A JP 2005087069A JP 2003323368 A JP2003323368 A JP 2003323368A JP 2003323368 A JP2003323368 A JP 2003323368A JP 2005087069 A JP2005087069 A JP 2005087069A
- Authority
- JP
- Japan
- Prior art keywords
- data
- information
- annotation
- sequence
- length
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
Abstract
【解決手段】 原塩基配列ファイル(a)等の生物情報ファイルを読み込むと、注釈情報<ANNOTATION>と、塩基の配列情報を、それぞれ注釈データ(b)、配列データ本体(c)として分離する。注釈データには、注釈情報間に挟まれていた塩基の数を所定のルールで記録し、後の復号時に統合を容易にする。分離された注釈データ、配列データ本体は、それぞれさらに圧縮されて圧縮ファイルが得られる。
【選択図】 図2
Description
(生物情報のロスレス符号化装置)
図1は、本発明に係る生物情報のロスレス符号化装置の構成を示す機能ブロック図である。図1において、1はデータ分離手段、2は固定長符号化手段、3は可変長符号化手段である。データ分離手段1は、生物情報ファイルに記録されている注釈情報と配列情報を分離して注釈データと、配列データ本体を得る機能を有している。固定長符号化手段2は、データ分離手段1により分離された一方の配列データ本体を、各配列文字の別によらず各文字に固定ビット長を割り当てることにより符号化する機能を有している。可変長符号化手段3は、データ分離手段1により分離された一方の注釈データ、固定長符号化手段2により符号化された配列データ本体を、それぞれ可変長で符号化する機能を有している。
次に、本発明に係る生物情報の検索装置について説明する。図5は、本発明に係る生物情報の検索装置の構成を示す機能ブロック図である。図5において、11は検索キー入力手段、12は検索パターン作成手段、13は照合手段である。検索キー入力手段1は、検索の目的とする配列である検索キーを入力する機能を有している。検索パターン作成手段12は、入力された検索キーを1文字ずつ移動させた複数の検索パターンを作成する機能を有している。照合手段13は、作成された検索パターンと、中間配列データ内の配列との照合を行う機能を有している。
上記生物情報のロスレス符号化装置および検索装置の例では、DNA塩基配列を例にとって説明したが、アミノ酸配列でも同様である。ここでは、アミノ酸配列を圧縮、検索する場合について、上記DNA塩基配列の場合と異なる点について説明する。アミノ酸配列の場合は、データ分離手段1による処理の後、固定長符号化手段2により8ビットで表現されている各アミノ酸を4ビットに変換する。ただし、アミノ酸は20種類あるため、4ビットでは表現しきれないため、比較的出現頻度の低いもの5種については、8ビットで表現し、他の15種について4ビットで表現することとしている。具体的には、図7に示したアミノ酸変換テーブルを利用して変換することになる。
図9は、本発明に係る三次元情報のロスレス符号化装置の構成を示す機能ブロック図である。図9において、21はランレングス符号化手段、22は定型タグ符号化手段、23はデータ分離手段、24は可変長符号化手段である。ランレングス符号化手段21は、三次元情報ファイル内の空白文字のランレングス符号化を行う機能を有している。定型タグ符号化手段22は、三次元情報ファイル内の定型のタグを対応するビット列に変換する機能を有している。データ分離手段23は、三次元情報ファイルに記録されている注釈情報と数値情報を分離して注釈データと、数値データ本体を得る機能を有している。可変長符号化手段24は、データ分離手段23により分離された注釈データ、数値データ本体を、それぞれ可変長で符号化する機能を有している。
0〜127:ASCII文字列
128〜191:挿入数値長+127
192〜223:定型タグコード+192
224〜255:挿入スペース長+223
例えば、図10(a)に示した先頭5文字のスペースは、挿入スペース長「5」に223を加算して「228」として図10(b)に示す注釈データに記録される。同様に、2文字のスペースは、挿入スペース長「2」に223を加算して「225」として注釈データに記録される。また、図10(a)に示した「POINT」という定型タグは、図9に示したテーブルにより得られる「21」に192を加算して「213」として図10(b)に示す注釈データに記録される。数値については、「.」も含めて連続する数値の個数に127を加算した値として記録される。すなわち、「0.000000」のように8個の場合は、「135」として記録され、「−0.000100」のように9個の場合は、「136」として記録される。
2・・・固定長符号化手段
3、24・・・可変長符号化手段
11・・・検索キー入力手段
12・・・検索パターン作成手段
13・・・照合手段
14・・・アーカイブ実行手段
21・・・ランレングス符号化手段
22・・・定型タグ符号化手段
Claims (8)
- 所定の範囲内で定義された文字の配列情報と前記配列情報の特定の範囲の情報を注釈する注釈情報で構成される生物情報ファイルに対して、
前記注釈情報と配列情報を分離して、注釈データ、配列データ本体とするとともに、前記生物情報ファイルを復元できるように、前記注釈データに前記配列データ本体へのリンク情報を追加するためのデータ分離手段と、
前記配列データ本体に記録された各文字に対して固定ビット長を割り当てることによりデータ圧縮を行って、中間配列データを得る固定長符号化手段と、
前記固定長で圧縮された中間配列データ、および前記注釈データそれぞれに対して、可変ビット長でデータ圧縮を行う可変長符号化手段と、
を有することを特徴とする生物情報のロスレス符号化装置。 - 請求項1において、
前記可変長符号化手段は、前記注釈データまたは配列データ本体の各バイト配列単位にランレングス圧縮を行うとともに、各バイトデータの発生頻度順に短い長さのビットを割り当てることにより符号化を行うものであることを特徴とする生物情報のロスレス符号化装置。 - 請求項1において、
前記配列データ本体は、a、g、c、t(大文字も可)の4種類の文字から構成され、各文字が8ビットで記録された塩基配列データであり、前記固定長符号化手段は、前記各文字を2ビットの固定長で符号化を行うものであることを特徴とする生物情報のロスレス符号化装置。 - 請求項1において、
前記配列データ本体は、L、A、S、G、V、E、K、I、T、D、R、P、N、F、Q、Y、M、H、C、W(小文字も可)の20種類の文字から構成され、各文字が8ビットで記録されたアミノ酸配列データであり、前記固定長符号化手段は、L、A、S、G、V、E、K、I、T、D、R、P、N、F、Qの文字に対しては4ビットの固定長で符号化を行い、Y、M、H、C、Wの文字に対しては8ビットの固定長で符号化を行うものであることを特徴とする生物情報のロスレス符号化装置。 - 1バイト未満で1つの塩基もしくはアミノ酸が記録された配列データから、目的とする配列を検索する装置であって、
検索キーとする配列を入力する検索キー入力手段と、
前記入力された検索キーを1塩基もしくは1アミノ酸の記録単位ずつ移動させて、全体としてバイト単位になるように任意ビットを追加した、複数の検索パターンを作成する検索パターン作成手段と、
前記作成された検索パターンと、前記配列データを1バイト単位で比較していくことにより照合を行う照合手段と、
を有することを特徴とする生物情報の検索装置。 - 所定の範囲内で定義された数値を含む文字情報と前記文字情報の特定の範囲の情報を注釈する注釈情報で構成される三次元情報ファイルに対して、
情報の区切りを示す空白文字符号を抽出し、ランレングス符号化を行い、前記三次元情報ファイル内の空白文字部分を所定のランレングス符号に変換するランレングス符号化手段と、
前記文字情報に含まれる数値を分離して数値データ本体とし、分離された他方を注釈データとして、前記三次元情報ファイルを復元できるように、前記注釈データに前記数値データ本体へのリンク情報を追加するためのデータ分離手段と、
前記数値データ本体、および前記注釈データそれぞれに対して、可変ビット長でデータ圧縮を行う可変長符号化手段と、
を有することを特徴とする三次元情報のロスレス符号化装置。 - 請求項6において、
定型的に使用されるタグに対する辞書データをさらに有し、当該辞書データを利用して、前記文字情報に含まれる定型タグを、対応するビット列に変換する定型タグ符号化手段を更に有することを特徴とする三次元情報のロスレス符号化装置。 - 請求項6において、
前記配列データ本体は、0、1、2、3、4、5、6、7、8、9および小数点符号と負符号で構成され、各構成要素が8ビットで記録された数値配列データであり、前記固定長符号化手段は、4ビットの固定長で符号化を行うものであることを特徴とする三次元情報のロスレス符号化装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2003323368A JP4334955B2 (ja) | 2003-09-16 | 2003-09-16 | 生物情報のロスレス符号化装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2003323368A JP4334955B2 (ja) | 2003-09-16 | 2003-09-16 | 生物情報のロスレス符号化装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2005087069A true JP2005087069A (ja) | 2005-04-07 |
| JP4334955B2 JP4334955B2 (ja) | 2009-09-30 |
Family
ID=34454467
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2003323368A Expired - Fee Related JP4334955B2 (ja) | 2003-09-16 | 2003-09-16 | 生物情報のロスレス符号化装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4334955B2 (ja) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007193708A (ja) * | 2006-01-20 | 2007-08-02 | Fujitsu Ltd | ゲノム解析プログラム、該プログラムを記録した記録媒体、ゲノム解析装置およびゲノム解析方法 |
| WO2007108412A1 (ja) * | 2006-03-17 | 2007-09-27 | Nec Corporation | 3次元データ処理システム |
| JP2015515042A (ja) * | 2012-02-28 | 2015-05-21 | コーニンクレッカ フィリップス エヌ ヴェ | コンパクトな次世代シーケンシングデータセット及び該データセットを使用した効率的な配列の処理 |
| CN105320674A (zh) * | 2014-07-03 | 2016-02-10 | 腾讯科技(深圳)有限公司 | 一种领域本体库的建立方法、装置及服务器 |
-
2003
- 2003-09-16 JP JP2003323368A patent/JP4334955B2/ja not_active Expired - Fee Related
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007193708A (ja) * | 2006-01-20 | 2007-08-02 | Fujitsu Ltd | ゲノム解析プログラム、該プログラムを記録した記録媒体、ゲノム解析装置およびゲノム解析方法 |
| WO2007108412A1 (ja) * | 2006-03-17 | 2007-09-27 | Nec Corporation | 3次元データ処理システム |
| US7876318B2 (en) | 2006-03-17 | 2011-01-25 | Nec Corporation | Three-dimensional data processing system |
| JP4873004B2 (ja) * | 2006-03-17 | 2012-02-08 | 日本電気株式会社 | 3次元データ処理システム |
| JP2015515042A (ja) * | 2012-02-28 | 2015-05-21 | コーニンクレッカ フィリップス エヌ ヴェ | コンパクトな次世代シーケンシングデータセット及び該データセットを使用した効率的な配列の処理 |
| CN105320674A (zh) * | 2014-07-03 | 2016-02-10 | 腾讯科技(深圳)有限公司 | 一种领域本体库的建立方法、装置及服务器 |
| CN105320674B (zh) * | 2014-07-03 | 2020-05-12 | 腾讯科技(深圳)有限公司 | 一种领域本体库的建立方法、装置及服务器 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP4334955B2 (ja) | 2009-09-30 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11404143B2 (en) | Method and systems for the indexing of bioinformatics data | |
| JP4261779B2 (ja) | データ圧縮装置および方法 | |
| KR101969848B1 (ko) | 유전자 데이터를 압축하는 방법 및 장치 | |
| JP5831298B2 (ja) | プログラム、情報処理装置およびインデックス生成方法 | |
| Bonfield | CRAM 3.1: advances in the CRAM file format | |
| JPH0682370B2 (ja) | 文字処理装置 | |
| EP3526709B1 (en) | Efficient data structures for bioinformatics information representation | |
| Kumar et al. | Fast and memory efficient approach for mapping NGS reads to a reference genome | |
| CN115691683B (zh) | 一种基因型信息压缩方法、装置及计算机可读存储介质 | |
| JP4334955B2 (ja) | 生物情報のロスレス符号化装置 | |
| JP2020509474A (ja) | 圧縮されたゲノムシーケンスリードからゲノムリファレンスシーケンスを再構築するための方法とシステム | |
| KR20190113971A (ko) | 다중 게놈 디스크립터를 이용한 생명정보학 데이터의 압축 표현 방법 및 장치 | |
| WO2018151786A1 (en) | Method and systems for the reconstruction of genomic reference sequences from compressed genomic sequence reads | |
| CN110111852A (zh) | 一种海量dna测序数据无损快速压缩平台 | |
| Huo et al. | CIndex: compressed indexes for fast retrieval of FASTQ files | |
| CN118523780A (zh) | 一种对sas数据集进行解压以及压缩的方法及应用 | |
| Gupta et al. | A novel approach for compressing DNA sequences using semi-statistical compressor | |
| US6731229B2 (en) | Method to reduce storage requirements when storing semi-redundant information in a database | |
| JP4770163B2 (ja) | 生物情報の解析装置および圧縮装置 | |
| Kumar et al. | WBFQC: A new approach for compressing next-generation sequencing data splitting into homogeneous streams | |
| Gupta et al. | An efficient compressor for biological sequences | |
| Korodi et al. | Compression of annotated nucleotide sequences | |
| Pathak et al. | RETRACTED: LFQC: a lossless compression algorithm for FASTQ files | |
| Delgrange et al. | Location of repetitive regions in sequences by optimizing a compression method | |
| Gupta et al. | Searching a pattern in compressed DNA sequences |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060731 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090402 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090521 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090618 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090624 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120703 Year of fee payment: 3 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 4334955 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120703 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130703 Year of fee payment: 4 |
|
| LAPS | Cancellation because of no payment of annual fees |