WO2022003956A1

WO2022003956A1 - 情報処理プログラム、情報処理方法および情報処理装置

Info

Publication number: WO2022003956A1
Application number: PCT/JP2020/026214
Authority: WO
Inventors: 正弘片岡; 聡尾上; 幸吉杉山
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-07-03
Filing date: 2020-07-03
Publication date: 2022-01-06
Anticipated expiration: 2023-01-03
Also published as: EP4177766A1; JPWO2022003956A1; EP4177766A4; EP4177766B1; CN115917521A; JP7428252B2; US20230088088A1

Abstract

情報処理装置は、複数の空間で定義された空間固有の複数の基本情報を共通概念で分類した共通概念テーブルを基にして、複数の基本情報をポアンカレエンベッディングすることで、複数の基本情報のベクトルを算出する。情報処理装置は、複数の基本情報のベクトルを基にして、基本情報よりも粒度の大きい構造情報のベクトルを算出する。情報処理装置は、同一の空間に対応するファイルにおける基本情報の位置と基本情報のベクトルとの関係、および、ファイルにおける構造情報の位置と構造情報のベクトルとの関係を定義した転置インデックスを生成する。

Description

情報処理プログラム、情報処理方法および情報処理装置

　本発明は、情報処理プログラム等に関する。

　デンプン、セルロース、天然ゴム等のように、分子量が１０００を超えるような物質が存在し、かかる物質は、高分子化合物とも呼ばれる。高分子化合物（化合物）の構造は、複数の基（官能基）の一次構造から構成される高次構造である。また、癌や人体の細胞の構造も、複数のタンパク質の一次構造から構成される高次構造である。

　ここで、新素材や新薬の開発を行う場合、既に確認されている高分子化合物や細胞を検索し、類似度を評価することが求められる。たとえば、化合物や細胞の類似度を評価する技術として、化合物やタンパク質の記述式にベクトルを割り当て、類似度を評価する技術がある。

国際公開第２００７／１３９０３７号

Anna　Klimovskaia　et　al."Poincare'　maps　for　for　analyzing　complex　hierarches　in　single-cell　data"　nature　communications

　上述した従来技術では、化合物の基や細胞のタンパク質の記述子に、その特性に応じて予め定められたベクトルを割り当てている。このため、基とタンパク質の各ベクトルが乖離する場合があり、適切なベクトルを割り当てることができていない。また、従来技術では、化合物の基や細胞のタンパク質、それぞれの一次構造、高次構造の様々な粒度で、類似度検索を実行することができていない。

　１つの側面では、本発明は、化合物の基や細胞のタンパク質、それぞれの一次構造、高次構造の様々な粒度で、類似度検索を高精度に実行することができる情報処理プログラム、情報処理方法および情報処理装置を提供することを目的とする。

　第１の案では、コンピュータに次の処理を実行させる。コンピュータは、複数の空間で定義された空間固有の複数の基本情報を共通概念で分類した共通概念テーブルを基にして、複数の基本情報をポアンカレエンベッディングすることで、複数の基本情報のベクトルを算出する。コンピュータは、複数の基本情報のベクトルを基にして、基本情報よりも粒度の大きい構造情報のベクトルを算出する。コンピュータは、同一の空間に対応するファイルにおける基本情報の位置と基本情報のベクトルとの関係、および、ファイルにおける構造情報の位置と構造情報のベクトルとの関係を定義した転置インデックスを生成する。

　化合物の基や細胞のタンパク質、それぞれの一次構造、高次構造の様々な粒度で、類似度検索を高精度に実行することができる。

図１は、本実施例１に係る情報処理装置の処理を説明するための図（１）である。図２は、本実施例１に係る情報処理装置の処理を説明するための図（２）である。図３は、本実施例１に係る情報処理装置の処理を説明するための図（３）である。図４は、本実施例１に係る情報処理装置の処理を説明するための図（４）である。図５は、本実施例１に係る情報処理装置の処理を説明するための図（５）である。図６は、本実施例１に係る情報処理装置の構成を示す機能ブロック図である。図７は、塩基ファイルのデータ構造の一例を示す図である。図８は、タンパク質辞書のデータ構造の一例を示す図である。図９は、アミノ酸と塩基、およびコドンとの関係を示す図である。図１０は、化学構造式ファイルのデータ構造の一例を示す図である。図１１は、基辞書のデータ構造の一例を示す図である。図１２は、基一次構造の一例を示す図である。図１３は、共通概念テーブルのデータ構造の一例を示す図である。図１４は、変換テーブルのデータ構造の一例を示す図である。図１５は、辞書テーブルのデータ構造の一例を示す図である。図１６は、一次構造辞書のデータ構造の一例を示す図である。図１７は、高次構造辞書のデータ構造の一例を示す図である。図１８は、基一次辞書のデータ構造の一例を示す図である。図１９は、単語辞書のデータ構造の一例を示す図である。図２０は、ベクトルテーブルのデータ構造の一例を示す図である。図２１は、タンパク質ベクトルテーブルのデータ構造の一例を示す図である。図２２は、一次構造ベクトルテーブルのデータ構造の一例を示す図である。図２３は、高次構造ベクトルテーブルのデータ構造の一例を示す図である。図２４は、基ベクトルテーブルのデータ構造の一例を示す図である。図２５は、基一次構造ベクトルテーブルのデータ構造の一例を示す図である。図２６は、名称ベクトルテーブルのデータ構造の一例を示す図である。図２７は、転置インデックステーブルのデータ構造の一例を示す図である。図２８は、タンパク質転置インデックスのデータ構造の一例を示す図である。図２９は、一次構造転置インデックスのデータ構造の一例を示す図である。図３０は、高次構造転置インデックスのデータ構造の一例を示す図である。図３１は、基転置インデックスのデータ構造の一例を示す図である。図３２は、基一次構造転置インデックスのデータ構造の一例を示す図である。図３３は、名称転置インデックスのデータ構造の一例を示す図である。図３４は、本実施例１に係る情報処理装置の処理手順を示すフローチャート（１）である。図３５は、本実施例１に係る情報処理装置の処理手順を示すフローチャート（２）である。図３６は、算出部のその他の処理を説明するための図である。図３７は、本実施例２に係る情報処理装置の構成を示す機能ブロック図である。図３８は、教師データのデータ構造の一例を示す図である。図３９は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

　以下に、本願の開示する情報処理プログラム、情報処理方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

　本実施例１に係る情報処理装置の処理の一例について説明する。図１～図５は、本実施例１に係る情報処理装置の処理を説明するための図である。情報処理装置は、複数の空間で定義された空間固有の複数の基本情報を共通概念で分類した共通概念テーブル５５を基にして、複数の基本情報をポアンカレエンベッディングすることで、複数の基本情報のベクトルを算出する。

　図１に示す例では、複数の空間として、ゲノム空間Ｓ１と、ケミカル空間Ｓ２と、テキスト空間Ｓ３とを用いて説明する。ゲノム空間Ｓ１は、タンパク質、タンパク質の一次構造、高次構造の情報を含む空間である。たとえば、「塩基ファイル」は、ゲノム空間Ｓ１の情報によって構成される。塩基ファイルは、複数の塩基記号Ａ，Ｇ，Ｃ，Ｔ（またはＵ）が配列された情報であり、３塩基の組み合せのコドンが所定のアミノ酸に対応する。また、連続する複数のアミノ酸の組み合わせが、所定のタンパク質に対応し、複数のタンパク質の組み合わせが、一次構造に対応する。さらに、複数の一次構造の組み合わせが、高次構造となる。

　ケミカル空間Ｓ２は、化合物の基（官能基）と、複数の基が接続された一次構造の情報を含む空間である。たとえば、「化学構造式ファイル」は、ケミカル空間Ｓ２の情報によって構成される。化学構造式ファイルは、複数の基の示性式を含む情報であり、最小単位の基の示性式が組み合わされることで、一次構造の示性式となる。

　テキスト空間Ｓ３は、タンパク質の名称、タンパク質の一次構造の名称、タンパク質の高次構造の名称、基（官能基）の名称、基の一次構造の名称、基の高次構造の名称を含む空間である。たとえば、「文献ファイル」は、テキスト空間Ｓ３の情報によって構成される。文献ファイルは、タンパク質、タンパク質の一次構造、化合物の基、基の一次構造に関する文字列を含むテキストファイルである。以下の説明では、タンパク質の一次構造を「一次構造」と表記し、基の一次構造を「基一次構造」と表記する。

　たとえば、ゲノム空間Ｓ１は、第１空間に対応する。ケミカル空間Ｓ２は、第２空間に対応する。テキスト空間Ｓ３は、第３空間に対応する、ゲノム空間Ｓ１のタンパク質、ケミカル空間の基、テキスト空間Ｓ３の名称は、基本情報（第１基本情報、第２基本情報、第３基本情報）に対応する。ゲノム空間Ｓ１の一次構造、高次構造、ケミカル空間Ｓ２の基一次構造は、基高次構造は、構造情報（第１構造情報）に対応する。

　共通概念テーブル５５では、共通概念となるゲノム空間Ｓ１、ケミカル空間Ｓ２、テキスト空間Ｓ３の基本情報が定義されている。図１に示す例では、ゲノム空間Ｓ１の「タンパク質Ａ１」と、ケミカル空間Ｓ２の「基Ｂ１」と、テキスト空間Ｓ３の「名称Ｃ１」とが、同一の共通概念（１）である旨が定義されている。ゲノム空間Ｓ１の「タンパク質Ａ２」と、ケミカル空間Ｓ２の「基Ｂ２」と、テキスト空間Ｓ３の「名称Ｃ２」とが、同一の共通概念（２）である旨が定義されている。

　ここで、情報処理装置は、ゲノム空間Ｓ１、ケミカル空間Ｓ２、テキスト空間Ｓ３の基本情報を、ポアンカレ空間Ｐに埋め込むことで、基本情報のベクトルを算出する。ポアンカレ空間Ｐに埋め込んで、ベクトルを算出する処理は、ポアンカレエンベッディング（Poincare　Embeddings）と呼ばれる技術である。ポアンカレエンベッディングは、たとえば、非特許文献「Valentin　Khrulkov1　et　al.「Hyperbolic　Image　Embeddings」Cornell　University,2019　April　3」等に記載された技術を用いればよい。

　ポアンカレエンベディングでは、ポアンカレ空間Ｐに埋め込まれた位置に応じて、ベクトルが割り当てられるものであり、また、類似する情報ほど、近い位置に埋め込まれるという特徴がある。このため、同一の共通概念に分類される各基本情報は、ポアンカレ空間Ｐにおいて、それぞれ近い位置に埋め込まれるため、類似のベクトルが割り当てられる。

　たとえば、ゲノム空間Ｓ１の「タンパク質Ａ１」と、ケミカル空間Ｓ２の「基Ｂ１」と、テキスト空間Ｓ３の「名称Ｃ１」とは、ポアンカレ空間Ｐの空間Ｐ１に埋め込まれ、空間Ｐ１に応じたベクトルが割り当てられる。

　ゲノム空間Ｓ１の「タンパク質Ａ２」と、ケミカル空間Ｓ２の「基Ｂ２」と、テキスト空間Ｓ３の「名称Ｃ２」とは、ポアンカレ空間Ｐの空間Ｐ２に埋め込まれ、空間Ｐ２に応じたベクトルが割り当てられる。

　情報処理装置は、共通概念テーブル５５を用いて、ゲノム空間Ｓ１の各タンパク質のベクトル、ケミカル空間Ｓ２の各基のベクトル、テキスト空間Ｓ３の各名称のベクトルをそれぞれ算出する。

　図２の説明に移行する。情報処理装置は、塩基ファイル５０Ａを、タンパク質辞書Ｄ１－１を用いて、タンパク質圧縮ファイル５１Ａに変換する。タンパク質辞書Ｄ１－１は、塩基ファイル５０Ａの情報と、タンパク質の圧縮符号との関係を定義する辞書データである。

　情報処理装置は、タンパク質（タンパク質の圧縮符号）とタンパク質のベクトルとを対応付けたタンパク質ベクトルテーブルＴ１－１を生成する。タンパク質のベクトルは、上記のポアンカレエンベッディングで算出される。情報処理装置は、タンパク質のベクトルと、タンパク質圧縮ファイル５１Ａにおけるタンパク質の位置との関係を定義するタンパク質転置インデックスＩｎ１－１を生成する。

　続いて、情報処理装置は、タンパク質圧縮ファイル５１Ａを、一次構造辞書Ｄ１－２を用いて、一次構造圧縮ファイル５２Ａに変換する。一次構造辞書Ｄ１－２は、タンパク質の圧縮符号の配列と、一次構造の圧縮符号との関係を定義する辞書データである。

　情報処理装置は、一次構造辞書Ｄ１－２を基にして、一次構造（一次構造の圧縮符号）に含まれるタンパク質の圧縮符号を特定し、特定したタンパク質の圧縮符号に対応するベクトルを、タンパク質ベクトルテーブルＴ１－１から取得する。情報処理装置は、一次構造に含まれるタンパク質のベクトルを加算することで、一次構造のベクトルを算出する。情報処理装置は、各一次構造について、上記の処理を実行することで、各一次構造のベクトルを算出する。一次構造（一次構造の圧縮符号）と一次構造のベクトルとを対応付けた一次構造ベクトルテーブルＴ１－２を生成する。

　情報処理装置は、一次構造のベクトルと、一次構造圧縮ファイル５２Ａにおける一次構造の位置との関係を定義する一次構造転置インデックスＩｎ１－２を生成する。

　続いて、情報処理装置は、一次構造圧縮ファイル５２Ａを、高次構造辞書Ｄ１－３を用いて、高次構造圧縮ファイル５３Ａに圧縮する。高次構造辞書Ｄ１－３は、一次構造の圧縮符号の配列と、高次構造の圧縮符号との関係を定義する辞書データである。

　情報処理装置は、高次構造辞書Ｄ１－３を基にして、高次構造（高次構造の圧縮符号）に含まれる一次構造の圧縮符号を特定し、特定した一次構造の圧縮符号に対応するベクトルを、一次構造ベクトルテーブルＴ１－２から取得する。情報処理装置は、高次構造に含まれる一次構造のベクトルを加算することで、高次構造のベクトルを算出する。情報処理装置は、各高次構造について、上記の処理を実行することで、各高次構造のベクトルを算出する。高次構造（高次構造の圧縮符号）と高次構造のベクトルとを対応付けた高次構造ベクトルテーブルＴ１－３を生成する。

　情報処理装置は、高次構造のベクトルと、高次構造圧縮ファイル５３Ａにおける高次構造の位置との関係を定義する高次構造転置インデックスＩｎ１－３を生成する。

　図３の説明に移行する。情報処理装置は、化学構造式ファイル５０Ｂを、基辞書Ｄ２－１を用いて、基圧縮ファイル５１Ｂに変換する。基辞書Ｄ２－１は、化学構造式ファイル５０Ｂの示性式と、基（官能基）の圧縮符号との関係を定義する辞書データである。

　情報処理装置は、基（基の圧縮符号）と基のベクトルとを対応付けた基ベクトルテーブルＴ２－１を生成する。基のベクトルは、上記のポアンカレエンベッディングで算出される。情報処理装置は、基のベクトルと、基圧縮ファイル５１Ｂにおける基の位置との関係を定義する基転置インデックスＩｎ２－１を生成する。

　続いて、情報処理装置は、基圧縮ファイル５１Ｂを、基一次構造辞書Ｄ２－２を用いて、基一次構造圧縮ファイル５２Ｂに変換する。基一次構造圧縮ファイル５２Ｂは、基の圧縮符号の配列と、基一次構造の圧縮符号との関係を定義する辞書データである。

　情報処理装置は、基一次構造辞書Ｄ２－２を基にして、基一次構造（基一次構造の圧縮符号）に含まれる基の圧縮符号を特定し、特定した基の圧縮符号に対応するベクトルを、基ベクトルテーブルＴ２－１から取得する。情報処理装置は、基一次構造に含まれる基のベクトルを加算することで、基一次構造のベクトルを算出する。情報処理装置は、各基一次構造について、上記の処理を実行することで、各基一次構造のベクトルを算出する。情報処理装置は、基一次構造（基一次構造の圧縮符号）と基一次構造のベクトルとを対応付けた基一次構造ベクトルテーブルＴ２－２を生成する。

　情報処理装置は、基一次構造のベクトルと、基一次構造圧縮ファイル５２Ｂにおける一次構造の位置との関係を定義する基一次構造転置インデックスＩｎ２－２を生成する。

　図４の説明に移行する。情報処理装置は、文献ファイル５０Ｃを、単語辞書Ｄ３を用いて、文献圧縮ファイル５１Ｃに変換する。単語辞書Ｄ３は、タンパク質の名称、基の名称、タンパク質の一次構造の名称、基一次構造の名称、高次構造の名称等に対する圧縮符号を定義する辞書である。

　情報処理装置は、名称（名称の圧縮符号）と、名称のベクトルとを対応付けた名称ベクトルテーブルＴ３を生成する。たとえば、名称には、タンパク質の名称、基の名称、タンパク質の一次構造の名称、基の一次構造の名称、高次構造の名称が含まれる。名称のベクトルは、上記のポアンカレエンベッディングで算出される。情報処理装置は、名称のベクトルと、文献圧縮ファイル５１Ｃにおける名称の位置との関係を定義する名称転置インデックスＩｎ３を生成する。

　情報処理装置は、図１～図４に示す処理を実行することで、情報処理装置は、タンパク質転置インデックスＩｎ１－１、一次構造転置インデックスＩｎ１－２、高次構造転置インデックスＩｎ１－３を生成する。情報処理装置は、塩基ファイル５０Ａから、タンパク質圧縮ファイル５１Ａ、一次構造圧縮ファイル５２Ａ、高次構造圧縮ファイル５３Ａを生成する。情報処理装置は、基転置インデックスＩｎ２－１、基一次構造転置インデックスＩｎ２－２を生成する。情報処理装置は、化学構造式ファイル５０Ｂから、基圧縮ファイル５１Ｂ、基一次構造圧縮ファイル５２Ｂを生成する。情報処理装置は、名称転置インデックスＩｎ３を生成する。情報処理装置は、文献ファイル５０Ｃから、文献圧縮ファイル５１Ｃを生成する。

　以下の説明では、タンパク質転置インデックスＩｎ１－１、一次構造転置インデックスＩｎ１－２、高次構造転置インデックスＩｎ１－３をまとめて「転置インデックスＩｎ１」と表記する。基転置インデックスＩｎ２－１、基一次構造転置インデックスＩｎ２－２をまとめて「転置インデックスＩｎ２」と表記する。

　図５の説明に移行する。情報処理装置は、検索クエリを受け付けた場合には、検索クエリのベクトルと、転置インデックスＩｎ１，Ｉｎ２、Ｉｎ３のベクトルとの類似度評価を行う。情報処理装置は、転置インデックスＩｎ１，Ｉｎ２、Ｉｎ３のベクトルから、検索クエリのベクトルに類似するベクトルを検索する。検索クエリのベクトルに類似するベクトルを「類似ベクトル」と表記する。

　情報処理装置は、類似ベクトルと、転置インデックスＩｎ１とを基にして、類似ベクトルに対応するタンパク質、一次構造または高次構造の情報を、タンパク質圧縮ファイル５１Ａ、一次構造圧縮ファイル５２Ａ、高次構造圧縮ファイル５３Ａから取得する。情報処理装置は、類似ベクトルと、転置インデックスＩｎ２とを基にして、類似ベクトルに対応する基、または、一次構造の情報を、基圧縮ファイル５１Ｂ、基一次構造圧縮ファイル５２Ｂから取得する。情報処理装置は、類似ベクトルと、転置インデックスＩｎ３とを基にして、類似ベクトルに対応する名称（あるいは、名称に関連する文書データ）を、文献圧縮ファイル５１ｃから取得する。

　情報処理装置は、取得した情報を、検索クエリに対する検索結果として出力する。情報処理装置が取得した情報は符号化されているため、各辞書情報を用いて、復号してもよい。

　図１～図５で説明したように、本実施例１に係る情報処理装置によれば、共通概念テーブル５５を基にして、複数の空間の情報に対して、ポアンカレエンベッディングを実行し、ベクトルを割り当てる。情報処理装置は、情報に割り当てたベクトルと情報の位置とを対応付けた転置インデックスＩｎ１，Ｉｎ２，Ｉｎ３を生成する。情報処理装置は、検索クエリを受け付けた場合に、検索クエリのベクトルと、転置インデックスＩｎ１，Ｉｎ２，Ｉｎ３をと基にして、複数の空間から、検索クエリに類似する情報を取得する。これによって、化合物の高次構造、一次構造、タンパク質等の様々な粒度で、類似度検索を高精度に実行することができる。

　次に、本実施例１に係る情報処理装置の構成の一例について説明する。図６は、本実施例１に係る情報処理装置の構成を示す機能ブロック図である。図６に示すように、本実施例１に係る情報処理装置１００は、通信部１１０と、入力部１２０と、表示部１３０と、記憶部１４０と、制御部１５０とを有する。

　通信部１１０は、有線又は無線で外部装置等に接続され、外部装置等との間で情報の送受信を行う。たとえば、通信部１１０は、ＮＩＣ（Network　Interface　Card）等によって実現される。通信部１１０は、図示しないネットワークに接続されていてもよい。

　入力部１２０は、各種の情報を、情報処理装置１００に入力する入力装置である。入力部１２０は、キーボードやマウス、タッチパネル等に対応する。

　表示部１３０は、制御部１５０から出力される情報を表示する表示装置である。表示部１３０は、液晶ディスプレイ、有機ＥＬ（Electro　Luminescence）ディスプレイ、タッチパネル等に対応する。

　記憶部１４０は、塩基ファイル５０Ａと、タンパク質圧縮ファイル５１Ａと、一次構造圧縮ファイル５２Ａと、高次構造圧縮ファイル５３Ａとを有する。記憶部１４０は、化学構造式ファイル５０Ｂと、基圧縮ファイル５１Ｂと、基一次構造圧縮ファイル５２Ｂとを有する。記憶部１４０は、文献ファイル５０Ｃと、文献圧縮ファイル５１Ｃと、共通概念テーブル５５と、変換テーブル６０と、辞書テーブル７０と、ベクトルテーブル８０と、転置インデックステーブル９０とを有する。記憶部１４０は、たとえば、ＲＡＭ（Random　Access　Memory)、フラッシュメモリ（Flash　Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。

　塩基ファイル５０Ａは、複数の塩基が配列された情報を保持するファイルである。図７は、塩基ファイルのデータ構造の一例を示す図である。ＤＮＡまたはＲＮＡの塩基は４種類で、「Ａ」、「Ｇ」、「Ｃ」、「Ｔ」または「Ｕ」の記号で示される。また、図８は、タンパク質辞書の構造の一例を示す図である。タンパク質辞書は、タンパク質の圧縮符号とタンパク質を構成するアミノ酸（またはコドン）配列を示したものである。一方、３つの塩基配列がひとかたまりで６４種のコドンと呼ばれ、２０種類のアミノ酸を決定する。それぞれのアミノ酸は、「Ａ」～「Ｙ」の記号で示される。

　図９は、アミノ酸と塩基、およびコドンとの関係を示す図である。図９に示すように、一つのアミノ酸に対して、複数種類のコドンが対応付けられる。このためコドンが決まると、アミノ酸が決まるが、アミノ酸が決まっても、コドンが一意に特定されるものではない。たとえば、アミノ酸「アラニン（Ala）」は、コドン「ＧＣＵ」、「ＧＣＣ」、「ＧＣＡ」、または、「ＧＣＧ」に対応付けられる。

　コドン圧縮ファイル５０Ｄは、塩基ファイル５０Ａに含まれる塩基を、コドンの単位で圧縮したファイルである。

　タンパク質圧縮ファイル５１Ａは、コドン圧縮ファイル５０Ｄに含まれるコドンの圧縮符号の配列を、タンパク質の単位で符号化したファイルである。

　一次構造圧縮ファイル５２Ａは、タンパク質圧縮ファイル５１Ａに含まれるタンパク質の圧縮符号の配列を、一次構造の単位で符号化したファイルである。

　高次構造圧縮ファイル５３Ａは、一次構造圧縮ファイル５２Ａに含まれる一次構造の圧縮符号の配列を、高次構造の単位で符号化したファイルである。

　化学構造式ファイル５０Ｂは、複数の基一次構造の示性式（化学構造式）を保持するファイルである。たとえば、基一次構造には、ラニチジン、シメチジン、ラニチジン等に対応するが、これに限定されるものではなく、他の高分子化合物であってもよい。図１０は、化学構造式ファイルのデータ構造の一例を示す図である。示性式（化学構造式）は化合物を構成する元素の配列を示す式であり、ＳＭＩＬＥＳ記法などで記述されてもよい。また、図１１は基辞書の構造の一例を示す。基辞書は、基の圧縮符号と基を構成する元素の配列を示性式で定義したものである。

　図１２は、基一次構造の一例を示す図である。たとえば、基一次構造には、シメチジン、ファモチジン、ラニチジン等があるが、これらは、ヒスタミンＨ_２受容体に結合する拮抗薬であり、類似した性質を持つ。なお、基一次構造は、これらの拮抗薬に限定されるものではなく、他の化合物であってもよい。図１２に示す基一次構造ＳＴ１は、シメチジンの基一次構造である。基一次構造ＳＴ１には、メチル基ｆ１－１、イミダゾール環ｆ１－２、スフィルドｆ１－３、グアニジノメチル基ｆ１－４、シアノ基ｆ１－５等が含まれる。

　基一次構造ＳＴ２は、ファモチジンの基一次構造である。基一次構造ＳＴ２には、グアニジノ基ｆ２－１、チアゾール環ｆ２－２、スフィドｆ２－３、アミノ基ｆ２－４、スルホンアミノｆ２－５等が含まれる。

　基一次構造ＳＴ３は、ラニチジンの基一次構造である。基一次構造ＳＴ３には、ジメチルアミノ基ｆ３－１、フラン環ｆ３－２、スフィドｆ３－３、ニトロ基ｆ３－４等が含まれる。

　基圧縮ファイル５１Ｂは、化学構造式ファイル５０Ｂを、基の単位で符号化したファイルである。

　基一次構造圧縮ファイル５２Ｂは、基圧縮ファイル５１Ｂに含まれる基の圧縮符号の配列を、基一次構造の単位で符号化したファイルである。

　文献ファイル５０Ｃは、タンパク質、タンパク質の一次構造、高次構造等を説明するテキストデータ、基、基の一次構造等を説明するテキストデータに対応する。

　文献圧縮ファイル５１Ｃは、文献ファイル５０Ｃを、単語の単位で符号化したファイルである。

　共通概念テーブル５５は、共通概念となるゲノム空間Ｓ１、ケミカル空間Ｓ２、テキスト空間Ｓ３の情報を定義するテーブルである。図１３は、共通概念テーブルのデータ構造の一例を示す図である。図１３に示すように、共通概念テーブル５５は、共通概念番号と、第１圧縮符号と、第２圧縮符号と、名称符号とを対応付ける。同一の共通概念番号に対応付けられる第１圧縮符号、第２圧縮符号、名称符号は、同一の共通概念に分類される情報（圧縮符号）となる。

　第１圧縮符号は、ゲノム空間Ｓ１の固有の情報を圧縮した圧縮符号である。たとえば、第１圧縮符号は、タンパク質の圧縮符号、一次構造の圧縮符号、高次構造の圧縮符号に対応する。

　第２圧縮符号は、ケミカル空間Ｓ２の固有の情報を圧縮した圧縮符号である。たとえば、第２圧縮符号は、基の圧縮符号、基一次構造の圧縮符号に対応する。

　名称符号は、テキスト空間Ｓ３の固有の情報を圧縮した圧縮符号である。テキスト空間Ｓ３の情報は、タンパク質の名称の圧縮符号、一次構造の名称の圧縮符号、高次構造の名称の圧縮符号、基の名称の圧縮符号、基一次構造の名称の圧縮符号等が含まれる。

　図１３において、第１圧縮符号「Ｅ００８０００ｈ、Ｅ００８００１ｈ、Ｅ００８０２ｈ」、名称符号「１Ｂ００８０００ｈ、１Ｂ００８００１ｈ、１Ｂ００８００２ｈ」、は、同一の共通概念番号「Ｉ１０１」に、第２圧縮符号「Ｄ００８０００ｈ、Ｄ００８０１ｈ、Ｄ００８０２ｈ」、名称符号「１Ａ００８０００ｈ、１Ａ００８００１ｈ、１Ａ００８００２ｈ」は、同一の共通概念番号「Ｊ３０１」に分類される。同一の共通概念番号に分類された符号は、ポアンカレエンベッディングによって、類似のベクトルが割り当てられる。たとえば、ヒスタミンＨ₂受容体に結合する拮抗薬であり、類似した性質を持つ、シメチジン、ファモチジン、ラニチジン等の圧縮符号が共通概念テーブルに登録される。

　変換テーブル６０は、コドンと、コドンの符号とを対応付けるテーブルである。３つの塩基配列のかたまりは「コドン」と呼ばれる。図１４は、変換テーブルのデータ構造の一例を示す図である。図１４に示すように、各コドンと、各符号とが対応付けられる。たとえば、コドン「ＵＵＵ」の符号は「４０ｈ（０１００００００）」となる。「ｈ」は１６進数を示すものである。

　辞書テーブル７０は、図２～図４等で説明した各種の辞書データを保持するテーブルである。図１５は、辞書テーブルのデータ構造の一例を示す図である。図１５に示すように、辞書テーブル７０は、辞書識別情報と、辞書データとを対応付ける。辞書識別情報は、辞書を一意に識別する情報である。辞書データは、該当する辞書のデータである。たとえば、辞書データには、タンパク質辞書Ｄ１－１、一次構造辞書Ｄ１－２、高次構造辞書Ｄ１－３のデータが含まれる。また、辞書データには、基辞書Ｄ２－１、基一次構造辞書Ｄ２－２、単語辞書Ｄ３のデータが含まれる。以下において、各辞書のデータ構造の一例について説明する。

　タンパク質辞書のデータ構造は、図８に示すものとなる。図８に示すように、タンパク質辞書Ｄ１－１は、圧縮符号と、名称と、アミノ酸符号配列と、コドン符号配列とを対応付ける。圧縮符号は、タンパク質に割り当てられた圧縮符号である。名称は、タンパク質の名称である。アミノ酸符号配列は、タンパク質の圧縮符号に対応するアミノ酸の圧縮符号の配列である。コドン符号配列は、タンパク質の圧縮符号に対応するコドンの圧縮符号の配列である。

　たとえば、タンパク質「１型コラーゲン」には、圧縮符号「Ｅ００８０００ｈ」が割り当てられる。圧縮符号「Ｅ００８０００ｈ」に対応するアミノ酸符号配列は「02h46h59h・・・03h」となる。また、圧縮符号「Ｅ００８０００ｈ」に対応するコドン符号配列は「02h63h78h・・・03h」となる。

　図１６は、一次構造辞書のデータ構造の一例を示す図である。図１６に示すように、一次構造辞書Ｄ１－２は、圧縮符号と、名称と、タンパク質符号配列とを対応付ける。圧縮符号は、タンパク質の一次構造に割り当てられた圧縮符号である。名称は、一次構造の名称である。タンパク質符号配列は、一次構造に対応するタンパク質の圧縮符号の配列である。

　たとえば、一次構造「α一次構造」には、圧縮符号「Ｆ００００００ｈ」が割り当てられる。圧縮符号「Ｆ００００００ｈ」に対応するタンパク質符号配列は「Ｅ００８００１ｈＥ００８２２ｈ・・・」となる。

　図１７は、高次構造辞書のデータ構造の一例を示す図である。図１７に示すように、高次構造辞書Ｄ１－３は、圧縮符号と、名称と、一次構造符号配列とを対応付ける。圧縮符号は、高次構造に割り当てられた圧縮符号である。名称は、高次構造の名称である。一次構造符号配列は、高次構造に対応する一次構造の圧縮符号の配列である。

　たとえば、高次構造「αα高次構造」には、圧縮符号「Ｇ００００００ｈ」が割り当てられる。圧縮符号「Ｇ００００００ｈ」に対応する一次構造符号配列は「Ｆ００８０３１ｈＥ００８２１ｈ・・・」となる。

　基辞書のデータ構造は、図１１に示すものとなる。図１１に示すように、基辞書Ｄ２－１は、圧縮符号と、グループと、名称と、示性式とを対応付ける。圧縮符号は、基に割り当てられた圧縮符号である。名称は、該当する基の名称の一例である。グループは、該当する基が属するグループを示す。名称例は、該当する基の名称の一例である。示性式は、該当する基の示性式となる配列を示す。

　たとえば「メチル基」には、圧縮符号「Ｄ００８０００ｈ」が割り当てられる。圧縮符号「Ｄ００８０００ｈ」に対応する示性式は「ＣＨ３」となる。

　図１８は、基一次辞書のデータ構造の一例を示す図である。図１８に示すように、基一次構造辞書Ｄ２－２は、圧縮符号と、名称と、基符号配列とを対応付ける。圧縮符号は、基一次構造に割り当てられた圧縮符号である。名称は、基一次構造の名称である。基符号配列は、基一次構造に対応する基の圧縮符号の配列である。

　たとえば、「δ基一次構造」には、圧縮符号「Ｈ００８０００ｈ」が割り当てられる。圧縮符号「Ｈ００８０００ｈ」に対応する基符号配列は「Ｄ００７００１ｈＤ００７２２１ｈ」となる。

　図１９は、単語辞書のデータ構造の一例を示す図である。図１９に示すように、単語辞書Ｄ３は、圧縮符号と、名称とを対応付ける。圧縮符号は、単語に割り当てられた圧縮符号である。名称は、単語の名称である。たとえば、単語には、タンパク質の名称、一次構造の名称、高次構造の名称、官能基の名称、基一次構造の名称が含まれる。

　たとえば、「メチル基」には、圧縮符号「１Ａ００８０００ｈ」が割り当てられる。「Ｉ型コラーゲン」には、圧縮符号「１Ｂ００８０００ｈ」が割り当てられる。

　図６の説明に戻る。ベクトルテーブル８０は、タンパク質、一次構造、高次構造、基、基一次構造、名称のベクトルを保持するテーブルである。図２０は、ベクトルテーブルのデータ構造の一例を示す図である。図２０に示すように、ベクトルテーブルは、テーブル識別情報と、ベクトルテーブルとを対応付ける。テーブル識別情報は、ベクトルテーブルを一意に識別する情報である。

　テーブル識別情報「ＶＴ１－１」のベクトルテーブルは、「タンパク質ベクトルテーブル」となる。以下の説明では、テーブル識別情報「ＶＴ１－１」のベクトルテーブルを、タンパク質ベクトルテーブルＶＴ１－１と表記する。

　図２１は、タンパク質ベクトルテーブルのデータ構造の一例を示す図である。図２１に示すように、タンパク質ベクトルテーブルＶＴ１－１は、タンパク質の圧縮符号と、このタンパク質の圧縮符号に割り当てられたベクトルとが対応付けられる。タンパク質のベクトルは、ポアンカレエンベッディングにより算出される。

　テーブル識別情報「ＶＴ１－２」のベクトルテーブルは、「一次構造ベクトルテーブル」となる。以下の説明では、テーブル識別情報「ＶＴ１－２」のベクトルテーブルを、一次構造ベクトルテーブルＶＴ１－２と表記する。

　図２２は、一次構造ベクトルテーブルのデータ構造の一例を示す図である。図２２に示すように、一次構造ベクトルテーブルＶＴ１－２は、一次構造の圧縮符号と、この一次構造の圧縮符号に割り当てられたベクトルとが対応付けられる。一次構造のベクトルは、一次構造に含まれるタンパク質のベクトルを加算することにより算出される。

　テーブル識別情報「ＶＴ１－３」のベクトルテーブルは、「高次構造ベクトルテーブル」となる。以下の説明では、テーブル識別情報「ＶＴ１－３」のベクトルテーブルを、高次構造ベクトルテーブルＶＴ１－３と表記する。

　図２３は、高次構造ベクトルテーブルのデータ構造の一例を示す図である。図２３に示すように、高次構造ベクトルテーブルＶＴ１－３は、高次構造の圧縮符号と、この高次構造の圧縮符号に割り当てられたベクトルとが対応付けられる。高次構造のベクトルは、高次構造に含まれる一次構造のベクトルを加算することにより算出される。

　テーブル識別情報「ＶＴ２－１」のベクトルテーブルは、「基ベクトルテーブル」となる。以下の説明では、テーブル識別情報「ＶＴ２－１」のベクトルテーブルを、基ベクトルテーブルＶＴ２－１と表記する。

　図２４は、基ベクトルテーブルのデータ構造の一例を示す図である。図２４に示すように、基ベクトルテーブルＶＴ２－１は、基の圧縮符号と、この基の圧縮符号に割り当てられたベクトルとが対応付けられる。基のベクトルは、ポアンカレエンベッディングにより算出される。

　テーブル識別情報「ＶＴ２－２」のベクトルテーブルは、「基一次構造ベクトルテーブル」となる。以下の説明では、テーブル識別情報「ＶＴ２－２」のベクトルテーブルを、基一次構造ベクトルテーブルＶＴ２－２と表記する。

　図２５は、基一次構造ベクトルテーブルのデータ構造の一例を示す図である。図２５に示すように、基一次構造ベクトルテーブルＶＴ２－２は、基一次構造の圧縮符号と、この基一次構造の圧縮符号に割り当てられたベクトルとが対応付けられる。基一次構造のベクトルは、一次構造に含まれる基のベクトルを加算することにより算出される。

　テーブル識別情報「ＶＴ３」のベクトルテーブルは、「名称ベクトルテーブル」となる。以下の説明では、テーブル識別情報「ＶＴ３」のベクトルテーブルを、名称ベクトルテーブルＶＴ３と表記する。

　図２６は、名称ベクトルテーブルのデータ構造の一例を示す図である。図２６に示すように、名称ベクトルテーブルＶＴ３は、名称の圧縮符号と、この名称の圧縮符号に割り当てられたベクトルとが対応付けられる。名称のベクトルは、ポアンカレエンベッディングにより算出される。

　図６の説明に戻る。転置インデックステーブル９０は、図５等で説明した転置インデックスＩｎ１，Ｉｎ２，Ｉｎ３を保持するテーブルである。図２７は、転置インデックステーブルのデータ構造の一例を示す図である。図２７に示すように、転置インデックステーブル９０は、インデックス識別情報と、転置インデックスとを対応付ける。インデックス識別情報は、転置インデックスを一意に識別する情報である。転置インデックスは、ベクトルと位置との関係を定義する転置インデックスである。

　インデックス識別情報「Ｉｎ１－１」に対応する転置インデックスは、タンパク質転置インデックスＩｎ１－１に対応する。インデックス識別情報「Ｉｎ１－２」に対応する転置インデックスは、一次構造転置インデックスＩｎ１－２に対応する。インデックス識別情報「Ｉｎ１－３」に対応する転置インデックスは、高次構造転置インデックスＩｎ１－３に対応する。

　インデックス識別情報「Ｉｎ２－１」に対応する転置インデックスは、基転置インデックスＩｎ２－１に対応する。インデックス識別情報「Ｉｎ２－２」に対応する転置インデックスは、基一次構造転置インデックスＩｎ２－２に対応する。インデックス識別情報「Ｉｎ３」に対応する転置インデックスは、名称転置インデックスＩｎ３に対応する。

　図２８は、タンパク質転置インデックスのデータ構造の一例を示す図である。タンパク質転置インデックスＩｎ１－１の横軸は、オフセットに対応する軸である。タンパク質転置インデックスＩｎ１－１の縦軸は、タンパク質の圧縮符号に対応する軸である。タンパク質転置インデックスＩｎ１－１は、「０」または「１」のビットマップで示され、初期状態では全てのビットマップが「０」に設定される。

　たとえば、タンパク質圧縮ファイル５１Ａの先頭のタンパク質の圧縮符号のオフセットを「０」とする。タンパク質圧縮ファイル５１Ａの先頭から８番目の位置に、タンパク質の符号「Ｅ００８０００ｈ（一型コラーゲン）」が含まれる場合、タンパク質転置インデックスＩｎ１－１のオフセット「７」の列と、タンパク質の符号「Ｅ００８０００ｈ（一型コラーゲン）」の行とが交差する位置のビットが「１」となる。

　図２９は、一次構造転置インデックスのデータ構造の一例を示す図である。一次構造転置インデックスＩｎ１－２の横軸は、オフセットに対応する軸である。一次構造転置インデックスＩｎ１－２の縦軸は、一次構造の圧縮符号に対応する軸である。一次構造転置インデックスＩｎ１－２は、「０」または「１」のビットマップで示され、初期状態では全てのビットマップが「０」に設定される。

　たとえば、一次構造圧縮ファイル５２Ａの先頭の一次構造の圧縮符号のオフセットを「０」とする。一次構造圧縮ファイル５２Ａの先頭から８番目の位置に、一次構造の符号「Ｆ０００００ｈ（α一次構造）」が含まれる場合、一次構造転置インデックスＩｎ１－２のオフセット「７」の列と、一次構造の圧縮符号「Ｆ００００００ｈ（α一次構造）」の行とが交差する位置のビットが「１」となる。

　図３０は、高次構造転置インデックスのデータ構造の一例を示す図である。高次構造転置インデックスＩｎ１－３の横軸は、オフセットに対応する軸である。高次構造転置インデックスＩｎ１－３の縦軸は、高次構造の圧縮符号に対応する軸である。高次構造転置インデックスＩｎ１－３は、「０」または「１」のビットマップで示され、初期状態では全てのビットマップが「０」に設定される。

　たとえば、高次構造圧縮ファイル５３Ａの先頭の一次構造の圧縮符号のオフセットを「０」とする。高次構造圧縮ファイル５３Ａの先頭から１１番目の位置に、高次構造の符号「Ｇ００００００ｈ（αα高次構造）」が含まれる場合、高次構造転置インデックスＩｎ１－３のオフセット「１０」の列と、高次構造の圧縮符号「Ｇ００００００ｈ（αα高次構造）」の行とが交差する位置のビットが「１」となる。

　図３１は、基転置インデックスのデータ構造の一例を示す図である。基転置インデックスＩｎ２－１の横軸は、オフセットに対応する軸である。基転置インデックスＩｎ２－１の縦軸は、基の圧縮符号に対応する軸である。基転置インデックスＩｎ２－１は、「０」または「１」のビットマップで示され、初期状態では全てのビットマップが「０」に設定される。

　たとえば、基圧縮ファイル５１Ｂの先頭の基の圧縮符号のオフセットを「０」とする。基圧縮ファイル５１Ｂの先頭から２番目の位置に、基の符号「Ｄ００８００ｈ（メチル基）」が含まれる場合、基転置インデックスＩｎ２－１のオフセット「１」の列と、基の圧縮符号「Ｄ００８０００ｈ（メチル基）」の行とが交差する位置のビットが「１」となる。

　図３２は、基一次構造転置インデックスのデータ構造の一例を示す図である。基一次構造転置インデックスＩｎ２－２の横軸は、オフセットに対応する軸である。基一次構造転置インデックスＩｎ２－２の縦軸は、基一次構造の圧縮符号に対応する軸である。基一次構造転置インデックスＩｎ２－２は、「０」または「１」のビットマップで示され、初期状態では全てのビットマップが「０」に設定される。

　たとえば、基一次構造圧縮ファイル５２Ｂの先頭の基一次構造の圧縮符号のオフセットを「０」とする。基一次構造圧縮ファイル５２Ｂの先頭から５番目の位置に、基一次構造の符号「Ｈ００８００ｈ（δ基一次構造）」が含まれる場合、基一次構造転置インデックスＩｎ２－２のオフセット「４」の列と、基一次構造の圧縮符号「Ｈ００８０００ｈ（δ基一次構造）」の行とが交差する位置のビットが「１」となる。

　図３３は、名称転置インデックスのデータ構造の一例を示す図である。名称転置インデックスＩｎ３の横軸は、オフセットに対応する軸である。名称転置インデックスＩｎ３の縦軸は、名称の圧縮符号に対応する軸である。名称転置インデックスＩｎ３は、「０」または「１」のビットマップで示され、初期状態では全てのビットマップが「０」に設定される。

　たとえば、文献圧縮ファイル５１Ｃの先頭の名称の圧縮符号のオフセットを「０」とする。文献圧縮ファイル５１Ｃの先頭から５番目の位置に、名称の符号「１Ａ０８００ｈ（メチル基）」が含まれる場合、名称転置インデックスＩｎ３のオフセット「４」の列と、名称の圧縮符号「１Ａ０８０００ｈ（メチル基）」の行とが交差する位置のビットが「１」となる。

　なお、図２８～図３３に示した各転置インデックスでは、圧縮符号毎に圧縮符号の位置を示したが、類似のベクトルに対応する圧縮符号のインデックスをまとめてもよい。たとえば、図２８に示した圧縮符号「Ｅ００８０００ｈ」のベクトルと、圧縮符号「Ｅ００８００１ｈ」のベクトルとの距離が閾値未満の場合には、圧縮符号「Ｅ００８０００ｈ」の行に対応するビット列と、圧縮符号「Ｅ００８００１ｈ」の行に対応するビット列と、マージしてもよい。

　図６の説明に戻る。制御部１５０は、取得部１５１、圧縮部１５２、算出部１５３、生成部１５４、検索部１５５を有する。制御部１５０は、例えば、ＣＰＵ（Central　Processing　Unit）やＭＰＵ(Micro　Processing　Unit)により実現される。また、制御部１５０は、例えばＡＳＩＣ（Application　specific　Integrated　Circuit）やＦＰＧＡ（Field　Programmable　gate　Array）等の集積回路により実行されてもよい。

　取得部１５１は、ネットワークを介して、外部装置から、各種の情報を取得する処理部である。たとえば、取得部１５１は、塩基ファイル５０Ａ、化学構造式ファイル５０Ｂ、文献ファイル５０Ｃを取得し、取得した塩基ファイル５０Ａ、化学構造式ファイル５０Ｂ、文献ファイル５０Ｃを、記憶部１４０に登録する。取得部１５１は、他の情報も、外部装置から取得して、記憶部１４０に登録してもよい。

　圧縮部１５２は、塩基ファイル５０Ａ、化学構造式ファイル５０Ｂ、文献ファイル５０Ｃの情報に圧縮符号を割り当てることで、圧縮する処理部である。

　算出部１５３は、圧縮符号に対してベクトルを割り当てる処理部である。

　生成部１５４は、圧縮符号に割り当てられたベクトルと、該当する圧縮符号の位置とを対応付けた転置インデックスを生成する処理部である。

　上記の圧縮部１５２、算出部１５３、生成部１５４は、以下に説明するように、協働して動作を行い、各種のデータを生成する。

　圧縮部１５２は、塩基ファイル５０Ａと、変換テーブル６０とを比較して、塩基ファイル５０Ａの塩基配列を、コドンの単位で圧縮符号を割り当て、コドン圧縮ファイル５０Ｄを生成する。圧縮部１５２は、コドン圧縮ファイル５０Ｄと、タンパク質辞書Ｄ１－１とを比較して、コドン圧縮ファイル５０Ｄに含まれるコドンの圧縮符号の配列を、タンパク質の単位で圧縮符号を割り当て、タンパク質圧縮ファイル５１Ａを生成する。

　圧縮部１５２は、化学構造式ファイル５０Ｂと、基辞書Ｄ２－１とを比較して、化学構造式ファイル５０Ｂの示性式を、基の単位で圧縮符号を割り当て、基圧縮ファイル５１Ｂを生成する。

　圧縮部１５２は、文献ファイル５０Ｃと、単語辞書Ｄ３とを比較して、文献ファイル５０Ｃの文字列を、単語（名称）の単位で圧縮符号を割り当て、文献圧縮ファイル５１Ｃを生成する。

　ここで、圧縮部１５２によって、タンパク質圧縮ファイル５１Ａと、基圧縮ファイル５１Ｂと、文献圧縮ファイル５１とが生成されると、算出部１５３は、タンパク質の圧縮符号、基の圧縮符号、名称の圧縮符号に割り当てるベクトルを算出する。

　算出部１５３は、タンパク質の圧縮符号と、基の圧縮符号と、名称の圧縮符号とを同一のポアンカレ空間Ｐに埋め込む（ポアンカレエンベッディングを実行する）ことで、各圧縮符号にベクトルを算出する。圧縮符号には、ポアンカレ空間Ｐの位置に応じたベクトルが割り当てられる。算出部１５３は、ポアンカレエンベッディングを行う場合に、共通概念テーブル５５を参照し、同一の共通概念番号に対応する各圧縮符号が、ポアンカレ空間の類似の位置に埋め込まれるように調整を行う。

　算出部１５３は、圧縮符号と、この圧縮符号に割り当てたベクトルとの関係を、生成部１５４に出力する。生成部１５４は、圧縮符号と、ベクトルとの関係を基にして、各ベクトルテーブルを生成する。

　たとえば、生成部１５４は、タンパク質の圧縮符号と、この圧縮符号のベクトルとを対応付けることで、タンパク質ベクトルテーブルＴ１－１を生成する。生成部１５４は、タンパク質ベクトルテーブルＴ１－１をベクトルテーブル８０に登録する。生成部１５４は、タンパク質の圧縮符号と、タンパク質圧縮ファイル５１Ａにおける圧縮符号のオフセットとの関係を特定し、タンパク質転置インデックスＩｎ１－１を生成する。生成部１５４は、タンパク質転置インデックスＩｎ１－１を、転置インデックステーブル９０に登録する。

　生成部１５４は、基の圧縮符号と、この圧縮符号のベクトルとを対応付けることで、基ベクトルテーブルＴ２－１を生成する。生成部１５４は、基ベクトルテーブルＴ２－１をベクトルテーブル８０に登録する。生成部１５４は、基の圧縮符号と、基圧縮ファイル５１Ｂにおける圧縮符号のオフセットとの関係を特定し、基転置インデックスＩｎ２－１を生成する。生成部１５４は、基転置インデックスＩｎ２－１を、転置インデックステーブル９０に登録する。

　生成部１５４は、名称（単語）の圧縮符号と、この圧縮符号のベクトルとを対応付けることで、名称ベクトルテーブルＴ３を生成する。生成部１５４は、名称ベクトルテーブルＴ３をベクトルテーブル８０に登録する。生成部１５４は、名称（単語）の圧縮符号と、文献圧縮ファイル５１Ｃにおける圧縮符号のオフセットとの関係を特定し、名称転置インデックスＩｎ３を生成する。生成部１５４は、名称転置インデックスＩｎ３を、転置インデックステーブル９０に登録する。

　続いて、圧縮部１５２は、タンパク質圧縮ファイル５１Ａと、一次構造辞書Ｄ１－２とを比較して、タンパク質圧縮ファイル５１Ａに含まれるタンパク質の圧縮符号の配列を、一次構造の単位で圧縮符号を割り当て、一次構造圧縮ファイル５２Ａを生成する。

　圧縮部１５２は、基圧縮ファイル５１Ｂと、基一次構造辞書Ｄ２－２とを比較して、基圧縮ファイル５１Ｂに含まれる基の圧縮符号の配列を、基一次構造の単位で圧縮符号を割り当て、基一次構造圧縮ファイル５２Ｂを生成する。

　ここで、圧縮部１５２によって、一次構造圧縮ファイル５２Ａと、基一次構造圧縮ファイル５２Ｂとが生成されると、算出部１５３は、一次構造の圧縮符号、基一次構造の圧縮符号に割り当てるベクトルを算出する。

　算出部１５３が、一次構造の圧縮符号のベクトルを算出する処理の一例について説明する。算出部１５３は、一次構造辞書Ｄ１－２を参照して、一次構造の圧縮符号に対応するタンパク質符号配列（タンパク質の圧縮符号の配列）を特定する。算出部１５３は、特定した各タンパク質の圧縮符号のベクトルを、タンパク質ベクトルテーブルＴ１－１から取得し、取得した各ベクトルを加算することで、一次構造の圧縮符号のベクトルを算出する。

　算出部１５３は、上記処理を繰り返し実行することで、各一次構造の圧縮符号のベクトルをそれぞれ算出する。ここで、算出部１５３は、一次構造の圧縮符号と、共通概念テーブル５５とを比較して、同一の共通概念番号に属する一次構造の圧縮符号が存在する場合には、係る圧縮符号を補正してもよい。

　たとえば、算出部１５３は、同一の共通概念番号に属する一次構造の圧縮符号のベクトルを平均したベクトルを、補正後のベクトルとする。算出部１５３は、一次構造の圧縮符号「Ｆ０００００００ｈ」と、圧縮符号「Ｆ０００００２０ｈ」とが同一の共通概念番号に属しているものとする。この場合、算出部１５３は、圧縮符号「Ｆ０００００００ｈ」のベクトルと、圧縮符号「Ｆ０００００２０ｈ」のベクトルとを平均したベクトルを、圧縮符号「Ｆ０００００００ｈ」、圧縮符号「Ｆ０００００２０ｈ」のベクトルとする。

　算出部１５３が、基一次構造の圧縮符号のベクトルを算出する処理の一例について説明する。算出部１５３は、基一次構造辞書Ｄ２－２を参照して、基一次構造の圧縮符号に対応する基符号配列（基の圧縮符号の配列）を特定する。算出部１５３は、特定した各基の圧縮符号のベクトルを、基ベクトルテーブルＴ２－１から取得し、取得した各ベクトルを加算することで、基一次構造の圧縮符号のベクトルを算出する。

　算出部１５３は、上記処理を繰り返し実行することで、各基一次構造の圧縮符号のベクトルをそれぞれ算出する。

　算出部１５３は、一次構造の圧縮符号と、この圧縮符号に割り当てたベクトルとの関係を、生成部１５４に出力する。また、基一次構造の圧縮符号と、この圧縮符号に割り当てたベクトルとの関係を、生成部１５４に出力する。生成部１５４は、圧縮符号と、ベクトルとの関係を基にして、各ベクトルテーブルを生成する。

　たとえば、生成部１５４は、一次構造の圧縮符号と、この圧縮符号のベクトルとを対応付けることで、一次構造ベクトルテーブルＴ１－２を生成する。生成部１５４は、一次構造ベクトルテーブルＴ１－２をベクトルテーブル８０に登録する。生成部１５４は、一次構造の圧縮符号と、一次構造圧縮ファイル５２Ａにおける圧縮符号のオフセットとの関係を特定し、一次構造転置インデックスＩｎ１－２を生成する。生成部１５４は、一次構造転置インデックスＩｎ１－２を、転置インデックステーブル９０に登録する。

　生成部１５４は、基一次構造の圧縮符号と、この圧縮符号のベクトルとを対応付けることで、基一次構造ベクトルテーブルＴ２－２を生成する。生成部１５４は、基一次構造ベクトルテーブルＴ２－２をベクトルテーブル８０に登録する。生成部１５４は、基一次構造の圧縮符号と、基一次構造圧縮ファイル５２Ｂにおける圧縮符号のオフセットとの関係を特定し、基一次構造転置インデックスＩｎ２－２を生成する。生成部１５４は、基一次構造転置インデックスＩｎ２－２を、転置インデックステーブル９０に登録する。

　続いて、圧縮部１５２は、一次構造圧縮ファイル５２Ａと、高次構造辞書Ｄ１－３とを比較して、一次構造圧縮ファイル５２Ａに含まれる一次構造の圧縮符号の配列を、高次構造の単位で圧縮符号を割り当て、高次構造圧縮ファイル５３Ａを生成する。

　ここで、圧縮部１５２によって、高次構造圧縮ファイル５３Ａが生成されると、算出部１５３は、高次構造の圧縮符号に割り当てるベクトルを算出する。

　算出部１５３が、高次構造の圧縮符号のベクトルを算出する処理の一例について説明する。算出部１５３は、高次構造辞書Ｄ１－３を参照して、高次構造の圧縮符号に対応する一次構造符号配列（一次構造の圧縮符号の配列）を特定する。算出部１５３は、特定した各一次構造の圧縮符号のベクトルを、一次構造ベクトルテーブルＴ１－２から取得し、取得した各ベクトルを加算することで、高次構造の圧縮符号のベクトルを算出する。

　算出部１５３は、上記処理を繰り返し実行することで、各高次構造の圧縮符号のベクトルをそれぞれ算出する。算出部１５３は、高次構造の圧縮符号と、この圧縮符号に割り当てたベクトルとの関係を、生成部１５４に出力する。

　生成部１５４は、高次構造の圧縮符号と、この圧縮符号のベクトルとを対応付けることで、高次構造ベクトルテーブルＴ１－３を生成する。生成部１５４は、高次構造ベクトルテーブルＴ１－３をベクトルテーブル８０に登録する。生成部１５４は、高次構造の圧縮符号と、高次構造圧縮ファイル５３Ａにおける圧縮符号のオフセットとの関係を特定し、高次構造転置インデックスＩｎ１－３を生成する。生成部１５４は、高次構造転置インデックスＩｎ１－３を、転置インデックステーブル９０に登録する。

　上記処理を実行することで、圧縮部１５２は、塩基ファイル５０Ａから、コドン圧縮ファイル５０Ｄ、タンパク質圧縮ファイル５１Ａ、一次構造圧縮ファイル５２Ａ、高次構造圧縮ファイル５３Ａを生成する。圧縮部１５２は、化学構造式ファイル５０Ｂから、基圧縮ファイル５１Ｂ、基一次構造圧縮ファイル５２Ｂを生成する。圧縮部１５２は、文献ファイル５０Ｃから、文献圧縮ファイル５１Ｃを生成する。

　算出部１５３は、タンパク質の圧縮符号のベクトル、一次構造の圧縮符号のベクトル、高次構造の圧縮符号のベクトルを算出する。算出部１５３は、基の圧縮符号のベクトル、基一次構造の圧縮符号のベクトルを算出する。算出部１５３は、名称の圧縮符号のベクトルを算出する。

　生成部１５４は、ベクトルテーブル８０、転置インデックステーブル９０を生成する。

　図６の説明に戻る。検索部１５５は、検索クエリを受け付けた場合に、検索クエリに対応する情報を、記憶部１４０から検索し、検索結果を出力する処理部である。検索部１５５は、検索クエリのベクトルと、転置インデックスＩｎ１，Ｉｎ２、Ｉｎ３のベクトルとの類似度評価を行う。たとえば、検索部１５５は、検索クエリのベクトルとの距離が閾値未満となるベクトルを、類似ベクトルとして特定する。

　検索部１５５は、類似ベクトルと、転置インデックスＩｎ１とを基にして、類似ベクトルに対応するタンパク質、一次構造または高次構造の情報を、タンパク質圧縮ファイル５１Ａ、一次構造圧縮ファイル５２Ａ、高次構造圧縮ファイル５３Ａから取得する。情報処理装置は、類似ベクトルと、転置インデックスＩｎ２とを基にして、類似ベクトルに対応する基、または、一次構造の情報を、基圧縮ファイル５１Ｂ、基一次構造圧縮ファイル５２Ｂから取得する。情報処理装置は、類似ベクトルと、転置インデックスＩｎ３とを基にして、類似ベクトルに対応する名称（あるいは、名称に関連する文書データ）を、文献圧縮ファイル５１ｃから取得する。

　検索部１５５は、取得した情報を、検索クエリに対する検索結果として出力する。検索部１５５は、検索クエリを入力部１２０から受け付けた場合には、検索結果を表示部１３０に出力して表示させる。検索部１５５が取得した情報は符号化されているため、辞書テーブル７０を用いて、復号し、復号した検索結果を出力してもよい。

　次に、本実施例１に係る情報処理装置１００の処理手順の一例について説明する。図３４および図３５は、本実施例１に係る情報処理装置の処理手順を示すフローチャートである。図３４について説明する。情報処理装置１００の取得部１５１は、塩基ファイル５０Ａ、化学構造式ファイル５０Ｂ、文献ファイル５０Ｃを取得し、記憶部１４０に登録する（ステップＳ１０１）。

　情報処理装置１００の圧縮部１５２は、塩基ファイル５０Ａと変換テーブル６０とを基にして、コドン圧縮ファイル５０ｄを生成する（ステップＳ１０２）。圧縮部１５２は、化学構造式ファイル５０Ｂと、基辞書Ｄ２－１とを基にして、基圧縮ファイル５１Ｂを生成する（ステップＳ１０３）。圧縮部１５２は、文献ファイル５０Ｃと、単語辞書Ｄ３とを基にして、文献圧縮ファイル５１Ｃを生成する（ステップＳ１０４）。

　圧縮部１５２は、文献ファイル５０Ｃと、単語辞書Ｄ３とを基にして、文献圧縮ファイル５１Ｃを生成する（ステップＳ１０５）。情報処理装置１００の算出部１５３は、共通概念テーブル５５を基にして、タンパク質の圧縮符号、基の圧縮符号、名称の圧縮符号をポアンカレエンベッディングする（ステップＳ１０６）。

　情報処理装置１００の生成部１５４は、タンパク質ベクトルテーブルＴ１－１と、タンパク質転置インデックスＩｎ１－１を生成する（ステップＳ１０７）。生成部１５４は、基ベクトルテーブルＴ２－１と、基転置インデックスＩｎ２－１を生成する（ステップＳ１０８）。

　生成部１５４は、名称ベクトルテーブルＴ３と、名称転置インデックスＩｎ３を生成し（ステップＳ１０９）、図３５のステップＳ１１０に移行する。

　図３５の説明に移行する。圧縮部１５２は、タンパク質圧縮ファイル５１Ａと、一次構造辞書Ｄ１－２とを基にして、一次構造圧縮ファイル５２Ａを生成する（ステップＳ１１０）。算出部１５３は、一次構造の圧縮符号のベクトルを算出する（ステップＳ１１１）。算出部１５３は、一次構造の圧縮符号のベクトルを補正する（ステップＳ１１２）。

　生成部１５４は、一次構造ベクトルテーブルＴ１－２と、一次構造転置インデックスＩｎ１－２を生成する（ステップＳ１１３）。圧縮部１５２は、基圧縮ファイル５１Ｂと、基一次構造辞書Ｄ２－２とを基にして、基一次構造圧縮ファイル５２Ｂを生成する（ステップＳ１１４）。

　算出部１５３は、基一次構造の圧縮符号のベクトルを算出する（ステップＳ１１５）。生成部１５４は、一次構造ベクトルテーブルＴ２－２と、基一次構造転置インデックスＩｎ２－２を生成する（ステップＳ１１６）。

　圧縮部１５２は、一次構造圧縮ファイル５２Ａと、高次構造辞書Ｄ１－３とを基にして、高次構造圧縮ファイル５３Ａを生成する（ステップＳ１１７）。算出部１５３は、高次構造の圧縮符号のベクトルを算出する（ステップＳ１１８）。生成部１５４は、高次構造ベクトルテーブルＴ１－３と、高次構造転置インデックスＩｎ１－３を生成する（ステップＳ１１９）。

　次に、本実施例１に係る情報処理装置１００の効果について説明する。情報処理装置１００は、共通概念テーブル５５を基にして、複数の空間の情報に対して、ポアンカレエンベッディングを実行し、ベクトルを割り当てる。情報処理装置１００は、情報に割り当てたベクトルと情報の位置とを対応付けた転置インデックスＩｎ１，Ｉｎ２，Ｉｎ３を生成する。情報処理装置１００は、検索クエリを受け付けた場合に、検索クエリのベクトルと、転置インデックスＩｎ１，Ｉｎ２，Ｉｎ３をと基にして、複数の空間から、検索クエリに類似する情報を検索結果として取得する。これによって、化合物の高次構造、一次構造、タンパク質等の様々な粒度で、類似度検索を高精度に実行することができる。

　情報処理装置１００は、ポアンカレエンベッディングを実行した、基本情報のベクトルを基にして、基本情報よりも粒度の大きい構造情報のベクトルを算出する。これによって、より粒度の大きい構造情報のベクトルを精度よく算出することができる。

　たとえば、情報処理装置１００は、一次構造辞書Ｄ１－２を基にして、一次構造に含まれるタンパク質を特定し、一次構造に含まれるタンパク質のベクトルを加算することで、一次構造のベクトルを算出する。情報処理装置１００は、高次構造に含まれる一次構造を特定し、高次構造に含まれる一次構造のベクトルを加算することで、高次構造のベクトルを算出する。これによって、一次構造、高次構造のベクトルを精度よく算出することができる。

　情報処理装置１００は、基一次構造辞書Ｄ２－２を基にして、基一次構造に含まれる基を特定し、基一次構造に含まれる基のベクトルを加算することで、基一次構造のベクトルを算出する。これによって、基一次構造のベクトルを精度よく算出することができる。

　情報処理装置１００は、タンパク質のベクトルと、タンパク質圧縮ファイル５１Ａにおけるタンパク質の位置とを対応付けたタンパク質転置インデックスＩｎ１－１を生成する。情報処理装置１００は、一次構造のベクトルと、一次構造圧縮ファイル５２Ａにおける一次構造の位置とを対応付けた一次構造転置インデックスＩｎ１－２を生成する。情報処理装置１００は、高次構造のベクトルと、高次構造圧縮ファイル５３Ａにおける高次構造の位置とを対応付けた高次構造転置インデックスＩｎ１－３を生成する。これによって、タンパク質、一次構造、高次構造の粒度で、検索を横断的に実行することができる。

　情報処理装置１００は、基のベクトルと、基圧縮ファイル５１ＡＢにおける基の位置とを対応付けた基転置インデックスＩｎ２－１を生成する。情報処理装置１００は、基一次構造のベクトルと、基一次構造圧縮ファイル５２Ｂにおける基一次構造の位置とを対応付けた基一次構造転置インデックスＩｎ２－２を生成する。これによって、基、基一次構造の粒度で、検索を横断的に実行することができる。

　ところで、上記のように、本実施例１に係る情報処理装置１００の算出部１５３は、共通概念テーブル５５を基にして、タンパク質の圧縮符号、基の圧縮符号、名称の圧縮符号をポアンカレエンベッディングして、ベクトルを算出する。そして、算出部１５３は、複数のタンパク質の圧縮符号を加算することで、一次構造のベクトルを算出し、複数の一次構造の圧縮符号のベクトルを加算することで、高次構造の圧縮符号のベクトルを算出していたが、これに限定されるものではない。

　情報処理装置１００の算出部１５３は、高次構造の圧縮符号をポアンカレエンベッディングすることで、高次構造の圧縮符号のベクトルを直接算出してもよい。算出部１５３は、高次構造の圧縮符号をポアンカレエンベッディングする場合に、共通概念テーブル５５を基にして、同一の共通概念番号に属する高次構造の圧縮符号を特定し、特定した高次構造の圧縮符号が、ポアンカレ空間Ｐの近い位置に埋め込まれるように、埋め込み位置を調整する。これによって、同一の共通概念番号に属する高次構造の圧縮符号に対して、類似のベクトルを算出することができる。

　また、算出部１５３は、高次構造の圧縮符号に対応するベクトルをポアンカレエンベッディングによって算出した後に、高次構造辞書Ｄ１－３を基にして、高次構造に含まれる複数の一次構造の圧縮符号を特定し、特定した各一次構造の圧縮符号にベクトルを割り当ててもよい。

　算出部１５３は、各一次構造の圧縮符号にベクトルを割り当てた後に、同一の一次構造の圧縮符号に割り当てたベクトルを基にして、同一の一次構造の圧縮符号のベクトルを補正してもよい。

　図３６は、算出部のその他の処理を説明するための図である。図３６では、算出部１５３は、高次構造の圧縮符号「Ｇ００００１０」、「Ｇ０００１１０」をポアンカレエンベッディングすることで、ベクトルを算出する。たとえば、圧縮符号「Ｇ００００１０」のベクトルを「Ｖ３－１０」とし、圧縮符号「Ｇ０００１１０」のベクトルを「Ｖ３－１１」とする。

　高次構造の圧縮符号「Ｇ００００１０」に対応する一次構造の圧縮符号を「Ｆ００８０２０」、「Ｆ００８０３０」、「Ｆ００８０４０」とし、各一次構造の圧縮符号のベクトルを、「Ｖ２－１０」、「Ｖ２－１１」、「Ｖ２－１２」とする。たとえば、各一次構造の圧縮符号のベクトルは、高次構造の圧縮符号に割り当てられたベクトルから算出される。

　高次構造の圧縮符号「Ｇ０００１１０」に対応する一次構造の圧縮符号を「Ｆ００８０２４」、「Ｆ００８０３０」、「Ｆ００８０５０」とし、各一次構造の圧縮符号のベクトルを、「Ｖ２－２０」、「Ｖ２－２１」、「Ｖ２－２２」とする。たとえば、各一次構造の圧縮符号のベクトルは、高次構造の圧縮符号に割り当てられたベクトルから算出される。

　ここで、算出部１５３は、圧縮符号「Ｇ００００１０」に含まれる圧縮符号（１）「Ｆ００８０３０」と、圧縮符号「Ｇ０００１１０」に含まれる圧縮符号（２）「Ｆ００８０３０」とが同一の圧縮符号となる。この場合、算出部１５３は、圧縮符号（１）「Ｆ００８０３０」のベクトル「Ｖ２－１１」と、圧縮符号（２）「Ｆ００８０３０」のベクトル「Ｖ２－２１」との各次元のベクトルを平均し、最適化した各ベクトル値を、圧縮符号「Ｆ００８０３０」のベクトルとして算出する。

　算出部１５３が、上記処理を実行することで、一次構造のベクトルの精度を向上させることができる。

　また、上記の情報処理装置１００は、高次構造の粒度について、受容体に対して類似する機能を持つ、リガンド（アゴニスト）、アンタゴニストに着目した、共通概念テーブル５５を用いて、ポアンカレエンベッディングを実行してもよい。すなわち、高次構造の圧縮符号のうち、類似の機能をもつ、リガンドに割り当てる圧縮符号、アンタゴニストの圧縮符号に対して、同一の共通概念番号を割り当てる。

　次に、本実施例２に係る情報処理装置の処理について説明する。本実施例２に係る情報処理装置は、受容体とリガンドとの関係、あるいは、受容体とアンタゴニストとの関係を示す教師データを用いて、機械学習を行い、学習モデルを学習する。学習モデルの学習を実行する場合には、教師データに含まれる受容体、リガンド、アンタゴニストをベクトルに変換して、学習を行う。受容体、リガンド、アンタゴニストは、高次構造の化合物であり、情報処理装置は、実施例１で生成された高次構造ベクトルテーブルを用いて、ベクトルを特定する。

　図３７は、本実施例２に係る情報処理装置の構成を示す機能ブロック図である。図３７に示すように、この情報処理装置２００は、通信部２１０と、入力部２２０と、表示部２３０と、記憶部２４０と、制御部２５０とを有する。

　通信部２１０、入力部２２０、表示部２３０に関する説明は、実施例１で説明した通信部２１０、入力部２２０、表示部２３０に関する説明と同様である。

　記憶部２４０は、辞書テーブル７０、ベクトルテーブル８０、教師データ２４０ａ、学習モデル２４０ｂを有する。記憶部２４０は、たとえば、ＲＡＭ、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。

　辞書テーブル７０は、図１５で説明した辞書テーブル７０に対応する。辞書テーブル７０には、タンパク質辞書Ｄ１－１、一次構造辞書Ｄ１－２、高次構造辞書Ｄ１－３のデータが含まれる。また、辞書テーブル７０には、基辞書Ｄ２－１、基一次構造辞書Ｄ２－２、単語辞書Ｄ３のデータが含まれる。

　ベクトルテーブル８０は、図２０で説明したベクトルテーブル８０に対応する。ベクトルテーブル８０は、タンパク質ベクトルテーブルＶＴ１－１、一次構造辞書ベクトルテーブルＶＴ１－２、高次構造ベクトルテーブルＶＴ１－３を有する。また、ベクトルテーブル８０は、基ベクトルテーブルＶＴ２－１、基一次構造ベクトルテーブルＶＴ２－２、名称ベクトルテーブルＶＴ３を有する。

　教師データ２４０ａは、受容体とリガンド、受容体とアンタゴニストとの関係性を定義するデータである。図３８は、教師データのデータ構造の一例を示す図である。図３８に示すように、教師データ２４０ａは、受容体と、リガンド（塩基配列）と、リガンド（構造式）と、アンタゴニスト（化合物）とを対応付ける。

　たとえば、受容体が入力データとなり、リガンド（塩基配列）、リガンド（化学構造式）、アンタゴニスト（化合物）は、正解ラベルとなる。受容体、アンタゴニストは、高次構造体となる。リガンド（塩基配列）は、塩基配列によって、一次構造、高次構造が指定される。リガンド（化学構造式）は、示性式によって、基一次構造が指定される。なお、受容体、リガンド、アンタゴニストは、名称で指定されていてもよい。

　学習モデル２４０ｂは、後述する学習部２５３によって学習される機械学習モデルである。学習モデル２４０ｂは、ＮＮ（Neural　Network）等の機械学習モデルである。

　制御部２５０は、取得部２５１、変換部２５２、学習部２５３、実行部２５４を有する。制御部２５０は、例えば、ＣＰＵやＭＰＵにより実現される。また、制御部２５０は、例えばＡＳＩＣやＦＰＧＡ等の集積回路により実行されてもよい。

　取得部１５１は、ネットワークを介して、外部装置から、各種の情報を取得する処理部である。たとえば、取得部１５１は、教師データ２４０ａを取得し、取得した教師データ２４０ａを、記憶部２４０に登録する。

　変換部２５２は、教師データ２４０ａに含まれる入力データおよび正解ラベルにベクトルを割り当て、入力データおよび正解ラベルに割り当てたベクトルを、学習部２５３に出力する。

　たとえば、変換部２５２は、入力データ、正解ラベルが圧縮符号で指定されている場合には、圧縮符号と、ベクトルテーブル８０とを比較して、圧縮符号に対応するベクトルを特定する。

　変換部２５２は、入力データ、正解ラベルが、名称で指定されている場合には、単語辞書Ｄ３と、名称とを比較して、名称に対応する圧縮符号を特定した後に、ベクトルテーブル８０を用いて、圧縮符号に対応するベクトルを特定する。

　変換部２５２は、入力データ、正解ラベルが、塩基配列で指定されている場合には、辞書テーブル７０を用いて、高次構造の圧縮符号を特定した後に、ベクトルテーブル８０を用いて、圧縮符号に対応するベクトルを特定する。塩基配列を、高次構造の圧縮符号に変換する処理は、実施例１の圧縮部１５２が実行する処理と同様である。

　変換部２５２は、入力データ、正解ラベルが、化学構造式で指定されている場合には、辞書テーブル７０を用いて、基一次構造の圧縮符号を特定した後に、ベクトルテーブル８０を用いて、圧縮符号に対応するベクトルを特定する。化学構造式（示性式）を、基一次構造の圧縮符号に変換する処理は、実施例１の圧縮部１５２が実行する処理と同様である。

　学習部２５３は、教師データ２４０ａの入力データのベクトルと、正解ラベルのベクトルとの関係を用いて、学習モデル２４０ｂを機械学習する処理部である。たとえば、学習部２５３は、入力データのベクトルを、ＮＮ（学習モデル２４０ｂ）に入力した場合のアウトプットデータを取得する。学習部２５３は、アウトプットデータと、正解ラベル（ベクトル）との差を損失関数として設定し、損失関数の誤差を逆伝搬し、損失関数の値が最小となるように、学習モデル２４０ｂのパラメータを学習する。学習部２５３は、学習結果となる学習モデル２４０ｂを、記憶部２４０に格納する。

　実行部２５４は、受容体に対応する検索クエリを受け付けた場合に、学習モデル２４０ｂに検索クエリを入力することで、検索クエリに対応するリガンドまたはアンタゴニストを検索する処理部である。たとえば、実行部２５４は、学習モデル２４０ｂに検索クエリ（ベクトル）を入力することで、アウトプットデータ（ベクトル）を取得する。

　実行部２５４は、アウトプットデータのベクトルと、名称ベクトルテーブルＶＴ３のベクトルとを比較して、最も類似する名称のベクトルに対応する名称の圧縮符号を特定し、特定した圧縮符号と、辞書テーブル７０とを基にして、アウトプットデータに対応するリガンドあるいはアンタゴニストの名称を特定する。

　図３７では説明を省略したが、情報処理装置２００の記憶部２４０には、図６の記憶部１４０に記憶される情報を更に記憶していてもよい。実行部２５４は、検索部１５５と同様の処理を実行することで、アウトプットデータのベクトルに対応するリガンド、アンタゴニストに対応する塩基配列、示性式を検出して、検出結果として出力してもよい。

　また、図３７では説明を省略したが、情報処理装置２００は、情報処理装置１００と同様に機能部（圧縮部１５２、算出部１５３、生成部１５４）を有していてもよい。情報処理装置２００に含まれる圧縮部１５２、算出部１５３、生成部１５４が、ベクトルテーブル８０、転置インデックステーブル９０を生成してもよい。

　次に、本実施例２に係る情報処理装置２００の効果について説明する。情報処理装置２００は、受容体とリガンド、または、受容体とアンタゴニストの関係を定義した教師データ２４０ａを基にして、学習モデル２４０ｂを生成する。これによって、検索クエリが与えられた場合に、検索クエリを学習モデル２４０ｂに入力することで、検索クエリ（受容体）に対応するリガンド、または、アンタゴニストを特定することができる。

　ここで、教師データ２４０ａで対応付けられる受容体は、一次構造であり、アンタゴニストは基であるため、粒度が異なるが、上記のようにベクトルを割り当てることができ、受容体とアンタゴニストとの関係を学習することができる。また、類似する一次構造のベクトルをまとめてもよい。このように、類似する一次構造のベクトルをグループ化することで、教師データの組み合わせを抑えることができる。また、これによって、Softmax関数の演算爆発を抑えることができ、性能の低いＧＰＵ（Graphics　Processing　Unit）でのＡＩ推定を行うことを可能にする。

　次に、上記実施例に示した情報処理装置１００（２００）と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図３９は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

　図３９に示すように、コンピュータ３００は、各種演算処理を実行するＣＰＵ３０１と、ユーザからのデータの入力を受け付ける入力装置３０２と、ディスプレイ３０３とを有する。また、コンピュータ３００は、有線または無線ネットワークを介して、外部装置等との間でデータの授受を行う通信装置３０４と、インタフェース装置３０５とを有する。また、コンピュータ３００は、各種情報を一時記憶するＲＡＭ３０６と、ハードディスク装置３０７とを有する。そして、各装置３０１～３０７は、バス３０８に接続される。

　ハードディスク装置３０７は、取得プログラム３０７ａ、圧縮プログラム３０７ｂ、算出プログラム３０７ｃ、生成プログラム３０７ｄ、検索プログラム３０７ｅ、変換プログラム３０７ｆ、学習プログラム３０７ｇ、実行プログラム３０７ｈを有する。また、ＣＰＵ３０１は、各プログラム３０７ａ～３０７ｈを読み出してＲＡＭ３０６に展開する。

　取得プログラム３０７ａは、取得プロセス３０６ａとして機能する。圧縮プログラム３０７ｂは、圧縮プロセス３０６ｂとして機能する。算出プログラム３０７ｃは、算出プロセス３０６ｃとして機能する。生成プログラム３０７ｄは、生成プロセス３０６ｄとして機能する。検索プログラム３０７ｅは、検索プロセス３０６ｅとして機能する。変換プログラム３０７ｆは、変換プロセス３０６ｆとして機能する。学習プログラム３０７ｇは、学習プロセス３０６ｇとして機能する。実行プログラム３０７ｈは、実行プロセス３０６として機能する。

　取得プロセス３０６ａの処理は、取得部１５１，２５１の処理に対応する。圧縮プロセス３０６ｂの処理は、圧縮部１５２の処理に対応する。算出プロセス３０６ｃの処理は、算出部１５３の処理に対応する。生成プロセス３０６ｄの処理は、生成部１５４の処理に対応する。検索プロセス３０６ｅの処理は、検索部１５５の処理に対応する。変換プロセス３０６ｆの処理は、変換部２５２の処理に対応する。学習プロセス３０６ｇの処理は、学習部２５３の処理に対応する。実行プロセス３０６ｈの処理は、実行部２５４の処理に対応する。

　なお、各プログラム３０７ａ～３０７ｈについては、必ずしも最初からハードディスク装置３０７に記憶させておかなくても良い。例えば、コンピュータ３００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＤＶＤ、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ３００が各プログラム３０７ａ～３０７ｈを読み出して実行するようにしてもよい。

　　５０Ａ　塩基ファイル
　　５０Ｂ　化学構造式ファイル
　　５０Ｃ　文献ファイル
　　５０Ｄ　コドン圧縮ファイル
　　５１Ａ　タンパク質圧縮ファイル
　　５１Ｂ　基圧縮ファイル
　　５１Ｃ　文献圧縮ファイル
　　５２Ａ　一次構造圧縮ファイル
　　５２Ｂ　基一次構造圧縮ファイル
　　５３Ａ　高次構造圧縮ファイル
　　５５　　共通概念テーブル
　　６０　　変換テーブル
　　７０　　辞書テーブル
　　８０　　ベクトルテーブル
　　９０　　転置インデックステーブル
　１００，２００　　情報処理装置
　１１０，２１０　　通信部
　１２０，２２０　　入力部
　１３０，２３０　　表示部
　１４０，２４０　　記憶部
　１５０，２５０　　制御部
　１５１，２５１　　取得部
　１５２　　圧縮部
　１５３　　算出部
　１５４　　生成部
　１５５　　検索部
　２５２　　変換部
　２５３　　学習部
　２５４　　実行部

Claims

　コンピュータに、
　複数の空間で定義された空間固有の複数の基本情報を共通概念で分類した共通概念テーブルを基にして、前記複数の基本情報をポアンカレエンベッディングすることで、前記複数の基本情報のベクトルを算出し、
　前記複数の基本情報のベクトルを基にして、前記基本情報よりも粒度の大きい構造情報のベクトルを算出し、
　同一の空間に対応するファイルにおける前記基本情報の位置と前記基本情報のベクトルとの関係、および、前記ファイルにおける前記構造情報の位置と前記構造情報のベクトルとの関係を定義した転置インデックスを生成する
　処理を実行させることを特徴とする情報処理プログラム。
　前記基本情報のベクトルを算出する処理は、第１空間で定義された第１空間固有の第１基本情報と、第２空間で定義された第２空間固有の第２基本情報と、第３空間で定義された第３基本情報とを、共通概念で分類した共通概念テーブルを基にして、前記第１基本情報、前記第２基本情報、前記第３基本情報をポアンカレエンベッディングすることで、前記第１基本情報、前記第２基本情報、前記第３基本情報のベクトルをそれぞれ算出することを特徴とする請求項１に記載の情報処理プログラム。
　前記生成する処理は、複数の第１基本情報のベクトルを基にして、前記第１空間において前記第１基本情報よりも粒度の大きい第１構造情報のベクトルを算出し、前記第１空間のファイルにおける前記第１基本情報の位置と、前記第１構造情報のベクトルの位置と、ベクトルとを対応付けた第１転置インデックスを生成することを特徴とする請求項２に記載の情報処理プログラム。
　前記生成する処理は、類似する複数の第１構造情報のベクトルを基にして、前記類似する複数の第１構造情報のベクトルを補正することを特徴とする請求項３に記載の情報処理プログラム。
　前記第１空間は、タンパク質を第１基本情報とするゲノム空間であり、前記第２空間は、官能基を第２基本情報とするケミカル空間であり、前記第３空間は、タンパク質または官能基の名称を第３基本情報とするテキスト空間であることを特徴とする請求項２に記載の情報処理プログラム。
　受容体を入力データとし、リガンドまたはアンタゴニストのうちいずれか一方を正解ラベルとする教師データについて、前記第１構造情報に属する前記受容体のベクトル、前記リガンドのベクトル、前記アンタゴニストのベクトルを算出し、前記受容体のベクトル、前記リガンドのベクトル、前記アンタゴニストのベクトルを基にして、学習モデルを生成する処理を更に実行することを特徴とする請求項３に記載の情報処理プログラム。
　コンピュータが実行する情報処理方法であって、
　複数の空間で定義された空間固有の複数の基本情報を共通概念で分類した共通概念テーブルを基にして、前記複数の基本情報をポアンカレエンベッディングすることで、前記複数の基本情報のベクトルを算出し、
　前記複数の基本情報のベクトルを基にして、前記基本情報よりも粒度の大きい構造情報のベクトルを算出し、
　同一の空間に対応するファイルにおける前記基本情報の位置と前記基本情報のベクトルとの関係、および、前記ファイルにおける前記構造情報の位置と前記構造情報のベクトルとの関係を定義した転置インデックスを生成する
　処理を実行することを特徴とする情報処理方法。
　前記基本情報のベクトルを算出する処理は、第１空間で定義された第１空間固有の第１基本情報と、第２空間で定義された第２空間固有の第２基本情報と、第３空間で定義された第３基本情報とを、共通概念で分類した共通概念テーブルを基にして、前記第１基本情報、前記第２基本情報、前記第３基本情報をポアンカレエンベッディングすることで、前記第１基本情報、前記第２基本情報、前記第３基本情報のベクトルをそれぞれ算出することを特徴とする請求項７に記載の情報処理方法。
　前記生成する処理は、複数の第１基本情報のベクトルを基にして、前記第１空間において前記第１基本情報よりも粒度の大きい第１構造情報のベクトルを算出し、前記第１空間のファイルにおける前記第１基本情報の位置と、前記第１構造情報のベクトルの位置と、ベクトルとを対応付けた第１転置インデックスを生成することを特徴とする請求項８に記載の情報処理方法。
　前記生成する処理は、類似する複数の第１構造情報のベクトルを基にして、前記類似する複数の第１構造情報のベクトルを補正することを特徴とする請求項９に記載の情報処理方法。
　前記第１空間は、タンパク質を第１基本情報とするゲノム空間であり、前記第２空間は、官能基を第２基本情報とするケミカル空間であり、前記第３空間は、タンパク質または官能基の名称を第３基本情報とするテキスト空間であることを特徴とする請求項８に記載の情報処理方法。
　受容体を入力データとし、リガンドまたはアンタゴニストのうちいずれか一方を正解ラベルとする教師データについて、前記第１構造情報に属する前記受容体のベクトル、前記リガンドのベクトル、前記アンタゴニストのベクトルを算出し、前記受容体のベクトル、前記リガンドのベクトル、前記アンタゴニストのベクトルを基にして、学習モデルを生成する処理を更に実行することを特徴とする請求項９に記載の情報処理方法。
　複数の空間で定義された空間固有の複数の基本情報を共通概念で分類した共通概念テーブルを基にして、前記複数の基本情報をポアンカレエンベッディングすることで、前記複数の基本情報のベクトルを算出し、前記複数の基本情報のベクトルを基にして、前記基本情報よりも粒度の大きい構造情報のベクトルを算出する算出部と、
　同一の空間に対応するファイルにおける前記基本情報の位置と前記基本情報のベクトルとの関係、および、前記ファイルにおける前記構造情報の位置と前記構造情報のベクトルとの関係を定義した転置インデックスを生成する生成部と
　を有することを特徴とする情報処理装置。
　前記算出部は、第１空間で定義された第１空間固有の第１基本情報と、第２空間で定義された第２空間固有の第２基本情報と、第３空間で定義された第３基本情報とを、共通概念で分類した共通概念テーブルを基にして、前記第１基本情報、前記第２基本情報、前記第３基本情報をポアンカレエンベッディングすることで、前記第１基本情報、前記第２基本情報、前記第３基本情報のベクトルをそれぞれ算出することを特徴とする請求項１３に記載の情報処理装置。
　前記生成部は、複数の第１基本情報のベクトルを基にして、前記第１空間において前記第１基本情報よりも粒度の大きい第１構造情報のベクトルを算出し、前記第１空間のファイルにおける前記第１基本情報の位置と、前記第１構造情報のベクトルの位置と、ベクトルとを対応付けた第１転置インデックスを生成することを特徴とする請求項１４に記載の情報処理装置。
　前記生成部は、類似する複数の第１構造情報のベクトルを基にして、前記類似する複数の第１構造情報のベクトルを補正することを特徴とする請求項１５に記載の情報処理装置。
　前記第１空間は、タンパク質を第１基本情報とするゲノム空間であり、前記第２空間は、官能基を第２基本情報とするケミカル空間であり、前記第３空間は、タンパク質または官能基の名称を第３基本情報とするテキスト空間であることを特徴とする請求項１４に記載の情報処理装置。
　受容体を入力データとし、リガンドまたはアンタゴニストのうちいずれか一方を正解ラベルとする教師データについて、前記第１構造情報に属する前記受容体のベクトル、前記リガンドのベクトル、前記アンタゴニストのベクトルを算出し、前記受容体のベクトル、前記リガンドのベクトル、前記アンタゴニストのベクトルを基にして、学習モデルを生成する学習部を更に有することを特徴とする請求項１５に記載の情報処理装置。