JP5211347B2

JP5211347B2 - タンパク質−化合物間相互作用予測方法

Info

Publication number: JP5211347B2
Application number: JP2008542157A
Authority: JP
Inventors: 康文榊原; 誠香長嶺
Original assignee: Keio University
Current assignee: Keio University
Priority date: 2006-10-31
Filing date: 2007-10-31
Publication date: 2013-06-12
Anticipated expiration: 2027-10-31
Also published as: WO2008053924A1; US20100070438A1; EP2083265A1; JPWO2008053924A1; US8185321B2

Description

本発明は、タンパク質と化合物の相互作用を予測する予測方法に関する。

従来、タンパク質−化合物間相互作用予測として、docking解析などタンパク質と化合物の立体構造をモデリングし、結合エネルギーを計算する手法が中心的に研究されてきており、いくつもの市販ソフトが開発された（H.J.Bohm. The computer program LUDI: A new method for the de novo design of enzyme inhibitors. J.Comp.Aided.Mol.Des., Vol.6, pp.61-78, 1992; Y.Z.Chen and C.Y.Ung. Prediction of potential toxicity and side effect protein targets of a small molecule by a ligand-protein inverse docking approach. J.Mol.Graph Mod., Vol.20, pp.199-218, 2001; Y.Z.Chen and D.G.Zhi. Ligand-protein inverse docking and its potential use in computer search of putative protein targets of a small molecule. Proteins, Vol.43, pp.217-226, 2001; Y.Z.Chen and C.Y.Ung. Computer automated prediction of putative therapeutic and toxicity protein targets of bioactive compounds from chinese medical plants. Am.J.Chin.Med., Vol.30, pp.139-154, 2002; Y.Z.Chen, Z.R.Li, and C.Y.Ung. Computational method for drug target search and application in drug discovery. J.Theor.Comp.Chem., Vol.1, pp.213-224, 2002; R.L.Desjarlais, R.P.Sheri
dan an G.L.Seibel, J.S.Dixon, I.D.Kuntz, and R.Venkataraghavan. Using shape complementarity as an initial screen in designing ligands for a receptor-binding site of known three-dimensional structure. J.Med.Chem., Vol.31, pp.722-729, 1988; T.E.Ferrin, G.S.Couch, C.C.Huang, E.F.Pellersen, and R.Langridge. An affordable approach to interactive desk-top molecular modeling. J.Mol.Graphics, Vol.9; J.Goodford. A computational procedure for determining energetically favorable binding sites on biologically important macromolecules. J.Med.Chem., Vol.28, pp.849-857, 1985; G.Jones, P.WIllett, R.C.Glen, A.R.Leach, and R.Taylor. Development and calidation of a genetic algorithm for flexible dicking. J.Mol.Biol., Vol.267, pp. 727-748, 1997; A.R.Leach and I.D.Kuntz. Conformational analysis of flexible ligands in macromolecular receptors sites. J.Comput.Chem., Vol.13, pp.730-748, 1992; A.Miranker and M.Karplus. Functionality maps of binding sites: A multicopy simultaneous search method. Proteins, Vol.11, pp.29-34, 1991; A.Miranker and M.Karplus. An automated method for dynamic ligand design. Proteins, Vol.23, pp.472-490, 1995; M.Y.Mizutani, N.Tomioka, and A.Itai. Rational automatic search method for stable docking models of protein and ligand. J.Mol.Biol., Vol.243, pp.310-326, 1994; C.M.Oshiro, I.D.Kuntz,and J.S.Dixon. Flexible ligand docking using a genetic algorithm. J.Comp.Aided Mol.Des., Vol.9, pp.113-130, 1995; C.M.Oshiro and I.D.Kuntz. Characterization of receptors with a new negative image: Use in molecular docking and lead optimization. Proteins, Vol.30, pp.321-336, 1998; S.H.Rostein, M.A.Murcko, and A.GenStar. A method for de novo drug design. J.Comp.Aided Mol.Des., Vol.7, pp.23-43, 1993; B.K.Shoichet, D.L.Bodian, and I.D.Kuntz. Molecular docking using shape descriptors. J.Comput.Chem., Vol.13, pp.380-397, 1992; M.Zacharias, B.A.Luty, M.E.Davis, and J.A.McCammon. Combined conformational search and finite-difference poisson-boltazmann approach for flexible docking. J.Mol.Biol., Vol.238, pp.455-465,1994）。これらの手法は結合エネルギーという明確な根拠をもつ点で信頼性は高い。

しかしながら立体構造を前提とする点は、この手法の短所であり、限界である。なぜなら、立体構造のデータの蓄積は進んでいるが、依然として構造未知のタンパク質は多いからである。例えば、ＰＤＢ（H.M.Berman, J.Westbrook, Z.Feng, G.Gillil and, T.N.Bhat, H.Weissig, I.N.Shindyalov, and P.E.Bourne. The protein data bank, Nucleic Acids Res., Vol.28, pp.235-242, 2000. http://www.rcsb.org/pdb/.）されているタンパク質数は全生物合計で、１４２４３個（blastで95%以上配列相同性があるものは同一のものとみなした場合）に過ぎない。そして、技術の進歩にかかわらず、未だに十分な構造解析を行えないタンパク質も多い。また、構造未知の場合には、タンパク質の立体構造予測手法や化合物の立体構造予測手法により構造推定を行うことは可能であるが、これらの予測手法も依然完全とはいえない。

そこで本発明は、タンパク質と化合物の相互作用が未知のペアに対し、その相互作用を予測する汎用的な予測方法を提供することを目的としてなされた。

本発明者らは、上記課題を解決するため、利用すべきデータの同定、及びそのデータの処理方法に関して鋭意努力し、以下の結果を得た。
まず、タンパク質及び化合物に関し、汎用性が高く、入手しやすいデータを検討した。
タンパク質に関し、現時点で最も入手が容易であり、さらに今後、新たなタンパク質が発見された時にも最初に得られるデータはアミノ酸配列である。
一方、化合物については、現時点で最も充実したデータは化学式及び構造式である。しかし、新たな化合物が発見された場合に、その構造式は様々な手法で推定されなければならず、その同定は必ずしも容易ではない。将来的に、新たな化合物が発見される可能性が最も高いのは網羅的な代謝物解析を行った場合であるが、現在提案されている網羅的代謝物解析手法は、ＧＣ／ＭＳ（O.Fiehn, J.Kopka, P.Dormann, T.Altmann, R.Trethewey, and L.Willmitzer. Metabolite profiling for plant functional genomics.Nature Biotechnology, Vol.18, pp.1157-1161, 2000.; N.Glassbrook, C.Beecher, and J.Ryals. Metabolite profiling on the right path. Nature Biotechnology, Vol.18, pp.1142-1143, 2000.）やＣＥ／ＭＳ（P. Schmitt-Kopplin and M.Frommberger. Capillary electrophoresis −mass spectrometry: 15 years of developments and applications. Electrophoresis, Vol.24, pp.3837-3867, 2003.; A.-C.Servais, J.Crommen, and M.Fillet. Capillary electrophoresis-mass spectrometry, an attractive tool for drug bioanalysis and biomarker discovery. Electrophoresis, Vol.27, pp.2616-2629, 2006.）などの質量分析（ＭＳ: mass spectrometry）を利用したものであるため、化合物のマススペクトルデータは、未知化合物について最も入手しやすいデータとなることが考えられる。現時点においてさえ、既に約１６００００化合物のマススペクトルデータを集めたデータベースが存在する（http://www.nist.gov/）。

そこで、本発明者らは、これらのデータを用いた統計学処理方法を検討した。すなわち、タンパク質と化合物の相互作用として、タンパク質・化合物間の結合、及びタンパク質・化合物間のアゴニスティック／アンタゴニスティックな機能的相互作用を例とし、入手可能なタンパク質のアミノ酸配列や化合物のマススペクトルデータについて、アミノ酸配列の所定の配列の出現頻度、及びマススペクトルデータのピークの位置や強度をベクトル化し、サポートベクターマシン（ＳＶＭ）（V.Vapnik. Statistical Learning Theory. Wiley, New York, 1998.）を適用し、相互作用について学習させてパターン認識器を作成したところ、この分類が、結合や機能的相互作用についての分類と、高度に相関があることを見出した。こうして、本発明者らは、その相互作用が未知の、タンパク質と化合物のペアに対し、その相互作用を予測する予測方法の完成に至った。

そこで、本明細書には、少なくとも以下の１９項の発明が含まれる。
〔１〕第１の相互作用をする第１のタンパク質と化合物のペア及び第２の相互作用をする第２のタンパク質と化合物のペアに対して、第１のペアが属するクラス及び第２のペアが属するクラスを識別するパターン認識器の構成方法であって、
各化合物について得られたマススペクトルデータの少なくとも１つの因子をベクトル化し、それぞれベクトルａ_１〜ａ_ｘ（ｘは１以上の整数）とする工程と、
各タンパク質をベクトル化し、ベクトルｂ_１〜ｂ_ｙ（ｙは１以上の整数）とする工程と、
少なくとも各化合物に由来して作成された前記ベクトルａ_１〜ａ_ｘのうちの１つと該化合物とペアである前記タンパク質に由来して作成された当該ベクトルｂ_ｋ（ｋは１〜ｙのいずれかの整数）とを結合させ、サポートベクターマシン（ＳＶＭ）を適用して学習させることを特徴とするパターン認識器構成方法。

〔２〕前記マススペクトルデータの少なくとも１つの因子が、ピークの位置、ピークの位置及び強度、２つのピークの間隔、２つのピークの間隔及び対応する強度、の４つの因子から選ばれることを特徴とする〔１〕に記載のパターン認識器構成方法。

〔３〕前記ベクトルｂ_１〜ｂ_ｙは、前記タンパク質における所定のアミノ酸配列の出現頻度を要素とするベクトルであることを特徴とする〔１〕または〔２〕に記載のパターン認識器構成方法。

〔４〕各化合物に由来して作成された前記ベクトルの１つは、下記式（１）でベクトル化されるベクトルＦ（ｃ）であることを特徴とする〔１〕〜〔３〕のいずれかに記載のパターン認識器構成方法。
式（１）：

式中、Ｍは、全ての化合物に対して観測されるピークのｍ／ｚ値の集合であり、Ｍ（ｃ）は当該ペアの化合物に対して観測されるピークのｍ／ｚ値の集合であり、Ｉ（ｍ）は当該ペアの化合物に対して観測されるピークのｍ／ｚ値におけるピークの強度を表す。

〔５〕各化合物に由来して作成された前記ベクトルの１つは、以下の数式でベクトル化されるベクトルＦ’（ｃ）であることを特徴とする〔１〕〜〔３〕のいずれか１項に記載のパターン認識器構成方法。
式（２）：

式中、Ｍは、全ての化合物に対して観測されるピークのｍ／ｚ値の集合であり、Ｍ（ｃ）は当該ペアの化合物に対して観測されるピークのｍ／ｚ値の集合を表す。

〔６〕各化合物に由来して作成された前記ベクトルの１つは、以下の数式でベクトル化されるベクトル

であることを特徴とする〔１〕〜〔３〕のいずれか１項に記載のパターン認識器構成方法。
式（３）：

式中、Ｍｇは、分類する全ての化合物に対して観察される２つのピークのｍ／z値の差の集合であり、Ｍｇ（ｃ）は当該ペアの化合物に対して観察されるｍ／z値ｉ及びｊにおける２つのピークのｍ／z値の差ｊ−ｉの集合であり、ここで、
式（４）

式中、Ｍ（ｃ）は、当該ペアの化合物で観測されるピークのｍ／z値の集合であり、ここで、
式（５）：

式中、Ｉi，Ｉjは、ｍ／z値ｉ及びｊにおける２つのピークの強度であり、ｔはギャップを考慮する強度の閾値であり、ｗはｍ／z値ｉ及びｊにおける２つのピークのｍ／z値の差ｊ−ｉの閾値である。

〔７〕各化合物に由来して作成された前記ベクトルの１つは、以下の数式でベクトル化されるベクトル

であることを特徴とする〔１〕〜〔３〕のいずれか１項に記載のパターン認識器構成方法。
式（６）：

式中、Ｍｇは、分類する全ての化合物に対して観察される２つのピークのｍ／z値の差の集合であり、Ｍｇ（ｃ）は第３のペアの化合物に対して観察される２つのピークのｍ／z値の差の集合である。

〔８〕各化合物に由来して作成された前記ベクトルと、該化合物とペアである前記タンパク質に由来して作成された前記ベクトルを結合させて、ベクトル（ａ_ｌ，ｂ_ｋ）または（ａ_ｐ，ａ_ｑ，ｂ_ｋ）を作成し、当該ベクトルにサポートベクターマシン（ＳＶＭ）を適用することを特徴とする〔１〕〜〔７〕に記載のパターン認識器構成方法。
（式中、ｌ、ｐ、ｑは１〜ｘのいずれか、ｋは１〜ｙのいずれかである。）

〔９〕各化合物の物理化学的特性値、化学式、構造式、３次元立体構造の４つの因子から選ばれた少なくとも１つの因子をベクトル化してベクトルＤとし、
該化合物に由来して作成された前記ベクトルと、該化合物とペアである前記タンパク質に由来して作成された前記ベクトルと、前記ベクトルＤを結合させて、ベクトル（ａ_ｌ，Ｄ，ｂ_ｋ）または（ａ_ｐ，ａ_ｑ，Ｄ，ｂ_ｋ）を作成し、当該ベクトルにサポートベクターマシン（ＳＶＭ）を適用することを特徴とする〔１〕〜〔７〕のいずれか１項に記載のパターン認識器構成方法。
（式中、ｌ、ｐ、ｑは１〜ｘのいずれか、ｋは１〜ｙのいずれかである）

〔１０〕サポートベクターマシンの識別関数が、下式（７）のように表現されることを特徴とする〔１〕〜〔９〕のいずれか１項に記載のパターン認識器構成方法。
式（７）：

〔１１〕前記式（７）Ｋに下式（８）Ｋ_{ｃｏｎｃ．}を適用することを特徴とする〔１０〕に記載のパターン認識器構成方法。
式（８）：

〔１２〕前記式（７）Ｋに下式（９）Ｋ_{ｃｏｍｂｉ}を適用することを特徴とする〔１０〕に記載のパターン認識器構成方法。
式（９）：

〔１３〕サポートベクターマシンが、linearカーネル、polynomialカーネル、ＲＢＦ（Radial Basis Function）カーネル、またはsigmoidカーネルを利用することを特徴とする〔１〕〜〔１２〕のいずれか１項に記載のパターン認識器構成方法。

〔１４〕前記相互作用が、タンパク質と化合物の物理的結合であって、第１の相互作用は、タンパク質と化合物が結合することであり、第２の相互作用は、タンパク質と化合物が結合しないことであり、
タンパク質と化合物のペアを、結合するかしないかで分類することを特徴とする〔１〕〜〔１３〕のいずれかに記載のパターン認識器構成方法。

〔１５〕前記相互作用が、タンパク質と化合物の機能的結合であって、第１の相互作用は、アゴニストとして化合物がタンパク質と結合することであり、第２の相互作用は、アンタゴニストとして化合物がタンパク質と結合することであり、
化合物がタンパク質に対しアゴニストとして結合するか、アンタゴニストとして結合するか、によって、前記タンパク質と前記化合物のペアを分類することを特徴とする〔１〕〜〔１３〕のいずれかに記載のパターン認識器構成方法。

〔１６〕タンパク質と化合物の相互作用を予測する予測方法であって、
第１の相互作用をするタンパク質と化合物の第１のペア、第２の相互作用をするタンパク質と化合物の第２のペア、前記予測するべきタンパク質と化合物の第３のペアに対し、
〔１〕〜〔１５〕のいずれかに記載のパターン認識器構成方法により、第１のペアが属するクラス及び第２のペアが属するクラスを識別するパターン認識器を構成する工程と、
第３のペアを用いて作成されたベクトルＢに対して前記パターン認識器を適用して、第３のペアが、前記２つのクラスのどちらのクラスに入るかを識別する工程と、
を含むことを特徴とする予測方法。

〔１７〕化合物ライブラリーの中から、特定のタンパク質に結合する化合物をスクリーニングするスクリーニング方法であって、
前記化合物ライブラリーに含まれる各化合物に対して〔１６〕に記載の予測方法を行なって、前記タンパク質と当該化合物の相互作用を予測する工程を含むことを特徴とするスクリーニング方法。

〔１８〕タンパク質ライブラリーの中から、特定の化合物に結合するタンパク質をスクリーニングするスクリーニング方法であって、
前記タンパク質ライブラリーに含まれる各タンパク質に対して〔１６〕に記載の予測方法を行なって、前記化合物と当該タンパク質の相互作用を予測する工程を含むことを特徴とするスクリーニング方法。

〔１９〕第１の相互作用をする第１のタンパク質と化合物のペア及び第２の相互作用をする第２のタンパク質と化合物のペアに対して、第１のペアが属するクラス及び第２のペアが属するクラスを識別するパターン認識器の構成方法であって、
各化合物について得られたマススペクトルデータの少なくとも１つの因子をベクトル化し、それぞれベクトルａ_１〜ａ_ｘ（ｘは１以上の整数）とする工程と、
各化合物に由来して作成された前記ベクトルａ_１〜ａ_ｘを用いて、サポートベクターマシン（ＳＶＭ）を適用して学習させることを特徴とするパターン認識器構成方法。

＝＝関連文献とのクロスリファレンス＝＝
なお、本出願は、２００６年１０月３１日出願の日本国出願番号特願２００６−２９７１１１を基礎とする優先権の利益を主張し、これを引用することにより本明細書に含める。

Venkatarajanらによって選択された２３７個のアミノ酸の物理化学的特性のリストである。 Venkatarajanらが２０種類のアミノ酸を表現した５次元ベクトルのリストである。本発明にかかる一つの実施形態において、４００種類のdipeptideに対し、クラスタリングして得られた８９種類のクラスターのリストである。本発明にかかる一つの実施形態において、４２００種類のtripeptideに対し、クラスタリングして得られた１９９種類のクラスターのリストである。ヒトＡＲファミリーに属するタンパク質同士におけるアミノ酸配列の相同性を記載した表である。（ａ）はヒトＡＲファミリータンパク質の機能的分類を示した表である。（ｂ）はヒトＡＲファミリータンパク質に結合する化合物の、ＡＲタンパク質に対する結合様式を示した図である。本発明にかかる一つの実施例において、ＳＶＭの実行に際し、異なるKernel関数を用いた場合のパターン認識器の識別力を示した表である。本発明にかかる一つの実施例において、タンパク質のベクトル化に対し、異なるベクトル化手法を用いた場合のパターン認識器の識別力を示した表である。本発明にかかる一つの実施例において、化合物のベクトル化に対し、異なるベクトル化手法を用いた場合のパターン認識器の識別力を示した表である。本発明にかかる一つの実施例において、タンパク質由来のベクトルと化合物由来のベクトルの結合に際し、異なる結合表現を用いた場合のパターン認識器の識別力を示した表である。本発明にかかる一つの実施例において、タンパク質由来の情報を考慮に入れた場合（Ａ）と入れない場合（Ｂ）のパターン認識器の識別力を示した表である。 DrugBank Approved Drug Target Protein Sequencesに記載された薬剤−ターゲットタンパク質ペアの中から、ＮＩＳＴ０５にマススペクトルデータが存在する化合物とタンパク質のペア９８０組の特徴を示した表である。本発明にかかる一つの実施例において、DrugBank Approved Drug Target Protein Sequencesに記載のデータを使用した場合のパターン認識器の識別力を示した表である。本発明にかかる一つの実施例において、gapベクトルに関し、異なる強度計算方法を用いた場合のパターン認識器の識別力を示した表である。本発明にかかる一つの実施例において、negativeなサンプル数を増やした場合のパターン認識器の識別力を示した表である。本発明にかかる一つの実施例において、DrugBank Approved Drug Target Protein Sequencesに記載された薬剤−ターゲットタンパク質ペアの中から、レセプターとリガンドの関係にあるペアを用いた場合のパターン認識器の識別力を示した表である。本発明にかかる一つの実施例において、ＰＣＡによって特徴選択した場合のパターン認識器の識別力を示した表である。

以下、本発明の実施の形態において、タンパク質と化合物の相互作用を予測する予測方法について、実施例を挙げながら具体的かつ詳細に説明するが、本発明はこれらの実施の形態あるいは実施例に限定されるものではない。
なお、本発明の目的、特徴、利点、及びそのアイデアは、本明細書の記載により、当業者には明らかであり、本明細書の記載から、当業者であれば、容易に本発明を再現できる。以下に記載された発明の実施の形態及び具体的な実施例などは、本発明の好ましい実施態様を示すものであり、例示又は説明のために示されているのであって、本発明をそれらに限定するものではない。本明細書で開示されている本発明の意図ならびに範囲内で、本明細書の記載に基づき、様々に修飾ができることは、当業者にとって明らかである。

＝＝タンパク質のベクトル化＝＝
まず、ｙ個のタンパク質について、各タンパク質をベクトル化し、ベクトルｂ_１〜ｂ_ｙ（ｙは１以上の整数）とする手法を述べる。ベクトル化するのは、タンパク質全体のアミノ酸配列を用いてもよく、また、結合部位など、部分配列を用いてもよいが、タンパク質のベクトル化方法は特に限定されず、例えば、タンパク質の各アミノ酸残基の電荷、疎水性、表面張力、立体構造などを利用してベクトル化しても構わない（J.R.Bock and D.A.Gough. Predicting protein-protein interactinos from primary structure. Bioinformatics, Vol.17, No.5, pp.455-460, 2001.; C.Yanover and T.Hertz. Predicting protein-peptide binding affinity by learning peptide-peptide distance functions. In RECOMB 2005, pp.456-471, 2005.）。ここでは、一例として、各タンパク質における所定のアミノ酸配列の特徴の出現頻度を要素とするベクトルＣ（ｐ）を、以下のように作成する方法を述べる。
式（１０）：

式中、Ｃはベクトル化の対象となる全タンパク質において一度でも出現する特徴ｃの集合である。また、fp(c)は、タンパク質ｐにおける特徴ｃの出現回数を表す。
利用するアミノ酸配列の特徴として、アミノ酸n個（nは自然数）の配列の全組み合わせの出現頻度としてもよく、また、各部分配列を、物理化学的特性によって分類し、各グループの出現頻度としてもよい。利用するアミノ酸配列のアミノ酸数は、特に限定されないが、ベクトルの要素数から、アミノ酸２個または３個の部分配列を利用するのが好ましい。

以下、代表的なアミノ酸配列の選び方、及びベクトルａの作成方法について述べるが、アミノ酸配列の特徴は、これらに限定されない。

（１）dipeptide（アミノ酸２個の配列）の利用
ここでは、ベクトルＣとして、アミノ酸２個の配列の全組み合わせの出現頻度（M.Bhasin and G.P.S.Raghava. GPCR pred: and SVM-based method for prediction of families and subfamilies of g-protein coupled receptors. Nucleic Acids Res., Vol.32, pp.383-389, 2004.）を要素とするベクトルＣ_ｏｄを作成する。自然界に存在するアミノ酸は２０種類なので、このベクトルは、２０^２＝４００の要素を有することになる。

（２）tripeptide（アミノ酸３個の配列）の利用
ベクトルＣとして、アミノ酸３個の配列の全組み合わせの出現頻度を要素とするベクトルＣ_ｏｔを作成してもよい。自然界に存在するアミノ酸は２０種類なので、このベクトルは、２０^３＝８０００の要素を有する、８０００次元のベクトルになる。
また、Martinらによって行われたように（S.Martin, D.Roe, and J.-L.Faulon. Predicting protein-protein interactions using signature products. Bioinformatics, Vol.21, No.2, pp.218-226, 2005.）、アミノ酸３個の配列において両端のアミノ酸の区別をせずに、その配列の組み合わせの出現頻度を要素とするベクトルを作成してもよい。この場合、（８０００−４００）／２＋４００＝４２００の要素を有する、４２００次元のベクトルになる。

（３）diclustの利用
ベクトルＣとして、アミノ酸２個の配列の組み合わせを、物理化学的特性値によってグループ分けし、各グループの出現頻度を要素とするベクトルＣ_ｌｄを作成してもよい。
例えば、Venkatarajanらは、２３７個の２０アミノ酸の物理化学的特性値（図１）から、以下のように５次元ベクトルを求めた（M.S.Venkatarajan and W.Braun. New quantitative descriptors of amino acids based on multidimensional scaling of a large number of physical-chemical properties. Journal of Molecular Modeling, Vol.7, pp.445-453, 2001.）。

最終的に、Venkatarajanらは、この上位５つの固有値と固有ベクトルを利用してアミノ酸ｉを次のような５次元ベクトルα(i)で表現した。なお、この５つの固有値と各アミノ酸の固有ベクトルを図２に示す。
式（１６）：

この５次元ベクトルを利用して、アミノ酸ｉ、及び、アミノ酸ｊからなるdipeptide(i,j)を表現する物理化学特性ベクトルα_ｄ(i,j)を次式で定義する。
式（１７）：

合計４００種類のdipeptideに対応するα_ｄ(i,j)に対して、variational Bayesian mixture modellingによるクラスタリングを行い、合計８９種類のクラスターを得る。この各クラスターを式（１０）においてＣを構成する特徴ｃとして扱う。下記の実施例では、variational Bayesian mixture modellingには、統計解析ソフトＲ(http://www.r-project.org/)のvabayelMixパッケージ(A.E.Teschendorff, Y.Wang, N.L.Barbosa-Morais, J.D.Brenton, and C.Caldas. A variational Bayesian mixture modelling framework for cluster analysis of gene-expression data. Bioinformatics, Vol.21, No.13, pp.3025-3033, 2005.)を利用した。
なお、この８９種類のクラスターは、詳細には４００種類のdipeptideに対応する４００個の５次元ベクトルに対して２段階のクラスタリングを行うことで得られる。第一段階のクラスタリングで４００個のベクトルを２５個のクラスターに分け、それぞれのクラスターにおいて、それに属するベクトルに対して第二段階のクラスタリングを行い、２５個のクラスターから合計８９個のクラスターを得ることができる。８９個のクラスターに含まれるdipeptideについては図３に示す。

（４）triclustの利用
ベクトルＣとして、アミノ酸３個の配列の組み合わせを、物理化学的特性値によってグループ分けし、各グループの出現頻度を要素とするベクトルＣ_ｌｔを作成してもよい。
例えば、（２）で記載したようなアミノ酸３個の配列α_ｓ（a₀₁, a₁₁, a₁₂）を、（３）で記載したアミノ酸ｉを表現する５次元ベクトルα(i)を利用して、次のように定義する。
式（１８）：

合計４２００種類のtripeptideに対応するα_ｓ（ａ_０１，ａ_１１，ａ_１２）に対して、variational Bayesian mixture modellingによるクラスタリングを行い、合計１９９種類のクラスターを得る。この各クラスターを式（１０）においてＣを構成する特徴ｃとして扱う。下記の実施例では、variational Bayesian mixture modellingには、統計解析ソフトＲ(http://www.r-project.org/)のvabayelMixパッケージ(A.E.Teschendorff, Y.Wang, N.L.Barbosa-Morais, J.D.Brenton, and C.Caldas. A variational Bayesian mixture modelling framework for cluster analysis of gene-expression data. Bioinformatics, Vol.21, No.13, pp.3025-3033, 2005.)を利用した。
なお、この１９９種類のクラスターは、詳細には４２００種類のtripeptideに対応する４２００個の５次元ベクトルに対して２段階のクラスタリングを行うことで得られる。第一段階のクラスタリングで４２００個のベクトルを３４個のクラスターに分け、それぞれのクラスターにおいて、それに属するベクトルに対して第二段階のクラスタリングを行い、３４個のクラスターから合計１９９個のクラスターを得ることができる。１９９個のクラスターに含まれるtripeptideについては図４に示す。

＝＝化合物のベクトル化＝＝
化合物のベクトル化は、当該化合物のマススペクトルを利用して行う。つまり、マススペクトルデータの少なくとも１つの因子（ここではｘ個とする）をベクトル化し、それぞれベクトルａ_１〜ａ_ｘ（ｘは１以上の整数）とすればよいが、ここで、どの因子を選ぶかは限定されない。例えば、一つのマススペクトルデータにおいて、観察されるピークの位置と強度の情報を数値化してfragmentベクトル（Ｆ）を、ピークとピークの間隔及び強度の情報を数値化してgapベクトル（Ｇ）を作成することができる。

（１）fragmentベクトルの作成
例えば、化合物ｃのマススペクトルに対するベクトルＦ（ｃ）は、観察されるピークの位置と強度の両方を考慮した場合、次式で表現される。
式（１９）：

また、強度を考慮せず、ピークの位置のみを考慮した場合のベクトルＦ’（ｃ）は次式で表現される。
式（２０）：

これらの式中、Ｍは、全ての化合物に対して観測されるピークのｍ／ｚ値の集合であり、Ｍ（ｃ）は当該化合物に対して観測されるピークのｍ／ｚ値の集合であり、Ｉ（ｍ）は当該化合物に対して観測されるピークのｍ／ｚ値におけるピークの強度を表す。

（２）gap ベクトルの作成
例えば、ｍ／z値ｉ及びｊ（ｊ＞ｉ）において、それぞれ強度Ｉi、Ｉjを持つ２つのマススペクトルのピークの間隔に対応する強度ｇi（ｊ−ｉ）を次のように定義する。

式（２１）：

式中、ｔはギャップを考慮する強度の閾値であり、ｗは２つのピークのｍ／z値の差の閾値である。ｔはノイズの存在、ｗは主に放射性同位体の存在を考慮した閾値である。
なお、ｇi（ｊ−ｉ）は脱離のゴール地点ｉを定めた場合の値であり、同一化合物中に同じｍ／ｚ値、つまりｊ−ｉを持つものが多数存在する場合があるので、一つの化合物ｃ全体での間隔ｍに対応する強度を次のように定める。
式（２２）：

式中、Ｍ（ｃ）は化合物ｃで観測されるｍ／ｚ値の集合である。
最終的に、式（２１）における閾値t、wを定めた時の化合物ｃのマススペクトルに対するgapベクトルは次式で表現される。
式（２３）：

また、強度を考慮せず、ピークの位置のみを考慮した場合のベクトルＧ’（ｃ）は次式で表現される。
式（２４）：

これらの式中、Ｍｇは、ベクトル化の対象となる全化合物のマススペクトルにおいて、一度でも観察される間隔の集合であり、Ｍｇ（ｃ）は化合物ｃで観測される間隔の集合である。
なお、ｇi（ｊ−ｉ）の計算に、式（２１）以外に、以下の式（２５）を用いてもよいが、最終的に識別力の精度（accuracy）が高くなるため、式（２１）を用いるのが好ましい。
式（２５）：

（３）従来のベクトル化方法
Zernovらは、SVMによる薬剤と非薬剤の識別,農薬と非農薬の識別において、物理化学的特性値を利用して化合物をベクトル化した(V.V.Zernov, K.V.Balakin, A.A.Ivaschenko, N.P.Savchuk, and I.V.Pletnev. Drug discovery using support vector machines. the case studies of drug-likeness,agrochemical-likeness, and enzyme inhibition predictions. J.Chem.Inf.Comput.Sci., Vol.43, pp.2048-2056, 2003.）。また、Swamidassらは、化合物の変異誘導性,毒性識別において化合物をベクトル化するにあたり、[１]化学式から導き出されるSMILES文字列を利用する方法、[２]化合物の構造式からpath抽出を行う方法、[３]化合物の３次元立体構造から、各原子間の距離を計算する方法を開発した（S.J.Swamidass, J.Chen, J.Bruand, P.Phung, L.Ralaivola, and P.Baldi. Kernels for small molecules and the prediction of mutagenicity, toxicity and anti-cancer actibity. Bioinformatics, Vol.21, No.Supple 1, pp.359-368, 2005.）。

＝＝タンパク質・化合物ペアの結合表現＝＝
上記のように作成した、化合物のマススペクトルデータに由来するベクトルａ_１〜ａ_ｘのうちの少なくとも１つを用いて作成した化合物に対するベクトルａとタンパク質のアミノ酸配列に由来するベクトルｂ_ｋ（ｋは１〜ｙのいずれかの整数）を用いて作成したタンパク質に対するベクトルｂを結合するが、結合方法は限定されない。

（１）連結表現
例えば、最も単純な結合方法として、これらのベクトルを連結すればよく（J.R.Bock and D.A.Gough. Predicting protein-protein interactions from primary structure. Bioinformatics, Vol.17, No.5, pp.455-460, 2001.; S.M.Gomez, W.S.Noble, and A.Rzhetsky. Learning to predict protein-protein interactions. Bioinformatics, Vol.19, pp.1875-1881, 2003.）、以下のように表現される。
式（２６）：

ここで、上記のように、例えば、ａ＝（Ｆ，Ｇ）や（Ｆ）等で表現され、ｂ＝（Ｃlt（ｂ））や（Ｃot（ｂ））等で表現される。
この場合、ＳＶＭの識別関数は、以下の式で表現される。
式（２７）：

特に、Kernel関数にRBF Kernelを利用する場合は、この式において、以下の計算をしていることになる。
式（２８）：

（２）組み合わせ表現
（１）の連結表現では、基本的に化合物・化合物間やタンパク質・タンパク質間の関係性に注目し、その関係性の積の形で相互作用の特徴を見出そうとしている。しかしながら、相互作用する化合物とタンパク質に特有なタンパク質・化合物間の関係性が存在する可能性がある。その関係性を評価するため、組合せ表現では式（２８）の代わりに次のような計算を行う。
式（２９）：

この式において、Ｋaa、Ｋbb、Ｋabに、異なるKernel関数を用いてもよい。また、異なるパラメーターを利用することが可能であり、パラメーター等の調節により、それぞれの関係性に対して任意の重み付けをすることもできる。
この計算では、ａ_１’とｂ_２’の内積を求める必要があるが、ａとｂのベクトル長が異なる場合は計算に不都合が生じるため、ａとｂに処理を加え、ａ_１’とｂ_２’は同じベクトル長を持つようにする。これはまた、連結表現においては潜在的に存在したベクトル長の違いに起因する重みを排除する効果も有する。
具体的には、式（２９）において、化合物ａ＝（Ｆ，Ｇ）、タンパク質ｂで表現した場合、組み合わせ表現ではタンパク質・化合物ペアＢ_１＝（ａ_１, ｂ_１）＝（Ｆ_１，Ｇ_１，Ｃ_１）とＢ_２＝（ａ_２, ｂ_２）＝（Ｆ_２，Ｇ_２，Ｃ_２）に対し、以下のようなKernel関数の計算を行う。
式（３０）：

本手法では、Ｋij（x、y）として、以下の４つのKernel関数のいずれかを用いる。
式（３１）：

ここで、ベクトル長を一定にするために、化合物に由来するベクトル、またはタンパク質に由来するベクトル、のいずれのベクトルの次元数に合わせてもよいが、化合物に由来するベクトルは、化合物のマススペクトルデータセットやパラメーターに依存して次元数が変動するのに対し、タンパク質に由来するベクトルの次元数は、データセットに依存しないため、タンパク質に由来するベクトルの次元数を用いるのが好ましい。その場合、化合物に由来するベクトルから、利用するベクトルの次元数と同じ数の要素を抽出し、同じ次元数を持つベクトルを作成する必要がある。
この要素の選択方法は特に限定されず、ランダムに選択しても構わないが、例えば、化合物に由来するベクトルの要素の中から、タンパク質と化合物のペアの分類のために、最も重要だと考えられる特徴を選択してもよい。
例えば、式（３０）において、ＫＦＧ（Ｆ１，Ｇ１）などを式（３１）で計算する場合、各ベクトルの特徴の順序によって計算結果が異なってくるため、以下のような基準によって特徴の順序を決定してもよく、特徴数を減らさなければいけないような場合には、並べた順序の上位から数えて、必要な数の特徴を選択してもよい。
まず、化合物に対するfragmentベクトルＦ、タンパク質に関するベクトルＣに関しては、特徴ｉに対して、次のように定義されるＭＳＥの降順を特徴の順序とする。
式（３２）：

一方、gapベクトルＧに関しては、以下のように定義する。
式（３３）：

また、g(i)は、化合物ｃにおいて、m/z値ｊのピークとm/z値i+jのピークの間に計算される間隔に対応する強度であり（式（２１）参照）、Ｍ（ｃ）は、化合物ｃで観測されるm/z値の集合である。
特徴の順序を決定する場合、式（３２）及び式（３３）のように、化合物やタンパク質において、登場回数が多く、かつ,変動が大きな特徴を特徴の序列上位に配置するのが好ましい。このような特徴が最も識別のための表現力があると考えられるからである。ベクトルの次元数を減らすために特徴を抽出する際も、異なるベクトル間で表現力に富む特徴同士の関係性をみることにより、識別のためにより表現力のある異種ベクトル間の関係性を抽出することが好ましい。

（３）化合物またはタンパク質を、他の方法でベクトル化して作成したベクトルの利用
なお、化合物に由来するベクトルとタンパク質に由来するベクトルを結合させる際は、結合させるベクトルに、その化合物のマススペクトルデータに由来するベクトルが含まれていればよく、他の実施の形態として、この化合物由来のベクトルを、アミノ酸配列以外の情報を利用してベクトル化したタンパク質由来のベクトルと結合させてもよく、また、物理化学的特性値、化学式、構造式、３次元立体構造などの情報を利用してベクトル化した化合物由来のベクトルなどを含め、複数の種類のベクトルと結合させてもよい。その場合の結合方法は、上述の方法を利用してもよいが、特に限定されない。

＝＝ＳＶＭへの適用＝＝
ＳＶＭに関しては、一般に入手できるプログラムを用いればよく、例えば、ウェブ上で利用可能なＬＩＢＳＶＭを用いてもよい（C.-C.Chang and C.-J.Lin. LIBSVM: a library for support vector machines, 2001. Software available at http://www.csie.ntu.edu.tw/~cjlin/libsvm.）。ＬＩＢＳＶＭでは、C-support vector classification (C-SVC)、v- support vector classification (v- SVC)、one-class SVM、ν-support vector classification (ν-SVC)などの演算が可能である。以下の実施例では、C-support vector classification (C-SVC)を利用する。
ＬＩＢＳＶＭでは、入力データの各次元毎にスケーリングの利用を推奨している。具体的には、サンプルｉのｊ次元目の値x_ijのスケーリングを受けた値s(x_ij)は次のように表される。
式（３４）：

ここで、l、hは、それぞれユーザーが定義する最小値と最大値である。以下の実施例では、特に言及しない限り、スケーリングを入力データに適用した。
また、ＬＩＢＳＶＭでは、ＳＶＭを確率推定に拡張している。本発明においても、「薬物群ｘ大規模配列群」といった大規模な結合予測を行う場合には、この確率推定を行ってもよい。これは、大規模予測により相互作用候補が多数出現した場合に、その優先順位をつけるうえで、確率推定値が有効な指標となりうるからである。

＝＝パターン認識器構成方法＝＝
以上のようにして、異なる相互作用（第１の相互作用及び第２の相互作用）をする２クラスの、タンパク質と化合物のペア（第１のペアと第２のペア）に対して、各化合物について得られたマススペクトルデータのピークの位置、ピークの位置及び強度、２つのピークの間隔、２つのピークの間隔及び対応する強度、の４つの因子から選ばれた少なくとも１つの因子をベクトル化し、各タンパク質のアミノ酸配列をベクトル化し、それぞれのベクトルを結合してＳＶＭを適用して学習させることにより、各クラスを識別するパターン認識器を構成することができる。

このパターン認識器は、化合物のマススペクトルデータ及びタンパク質のアミノ酸データに基づいて作成されたにもかかわらず、どのような相互作用を有するかによって学習させることにより、その相互作用のクラス分けと高度に一致させることができる。
なお、ここで対象とする相互作用は、タンパク質と化合物の間に生じる相互作用であれば特に限定されず、物理的に結合するかどうかに関する構造的結合や、結合したときにどのような作用を及ぼす結合であるかに関する機能的結合などを含んでもよい。また、結合しない態様など、ある特定の相互作用をしない場合も、相互作用の一形態とする。

また、学習に用いる、第１の相互作用をする第１のペア及び第２の相互作用をする第２のペアについて、第１の相互作用と第２の相互作用は、互いに関連性の無い相互作用でも構わないが、第２の相互作用は、第１の相互作用をしない作用であることが好ましい。実際上は、相互作用を調べた結果として第１の相互作用をすることが明らかになっていないペアを、近似的に第１の相互作用をしないペアとして利用することができるため、本明細書では、相互作用を調べた結果として第１の相互作用をすることが明らかになっていないペアも第２の相互作用をするペアに含まれるものとする。

＝＝タンパク質-化合物間相互作用予測方法＝＝
従って、相互作用が未知の第３のペアについて、化合物およびタンパク質を上記と同様にベクトル化し、上記パターン認識器を適用することにより、第３のペアが２つのクラスのうち、どちらのクラスに属するかを明らかにすることができ、第３のペアが第１の相互作用と第２の相互作用のうちどちらの相互作用をするかについて明らかにすることができる。

（実施例１）ＡＲ（adrenergic receptor）と化合物の結合
本実施例では、９種類の類似した構造を有するヒトＡＲファミリータンパク質（図５）と、ＡＲＤＢ（adrenergic receptor database）（http://ardb.bjmu.edu.cn/.）にアゴニストあるいはアンタゴニストとして記載され、ＮＩＳＴ０５（NIST/EPA/NIH mass spectral library）（http://www.nist.gov/.）にマススペクトルデータが記載された４８化合物（図６）を用い、本発明の分類方法によって、各タンパク質と化合物のペアを分類し、その相互作用との相関を調べた。各化合物のＡＲに対する結合様式を図６ｂに示した。以下、結合するかどうかに関しては、各化合物に対し、ターゲットとして記載されているタンパク質とのペアはpositiveと記し（１４２ペア）、それ以外のタンパク質とのペアは、ターゲットでは無いとして、negativeと記す（２９０ペア）。

（１）異なるKernel関数を用いた場合の識別力
ＡＲと化合物のペアに対し、その結合を連結表現のベクトル（Ｆ，Ｇ，Ｃ_ｌｔ）で表し、異なるKernel関数を利用した場合の識別力を、10-fold cross validationにおけるsensitivity (sens.)、precision (prec.)、accuracy (acc.)を評価基準として評価した。具体的には、まず、サンプルをｎ等分してｎグループのデータセットを作成した。次に、そのうちの１つをテストセットとし、残りのｎ−１グループをトレーニングデータとして学習させたモデルでテストセットの評価を行った。これをｎ回行い、作成したｎグループ全てを１回ずつテストセットとして評価を行った。そして、sens.、prec.、acc.を次式（３５）で定義し、それぞれの評価を行なった。なお、gap intensityの計算方法には、式（２１）を用いた。
式（３５）：

ここで、各ペアの実際の測定結果をｏ_ｉ、予測手法による予測結果をｐ_ｉ、各ペアにはpositive １、negative −１という２クラスが存在するとしたとき、ＴＰはtrue positive(ｐ_ｉ＝ｏ_ｉ＝１）の個数、ＦＰはfalse positive（ｐ_ｉ＝１、ｏ_ｉ＝−１）の個数、ＴＮはtrue negativeｐ_ｉ＝ｏ_ｉ＝−１）の個数、ＦＮはfalse negative（ｐ_ｉ＝−１、ｏ_ｉ＝１）の個数を表している。得られた結果を図７に示した。
この表において、Kernel関数を用いない、つまり高次元への写像を与えないlinearは、全ての評価基準でKernel関数を用いる場合より識別力が劣っていた。この結果より、タンパク質−化合物相互作用予測問題は非線形ＳＶＭによって識別可能な問題ということがわかる。また、Kernel関数の中で、全ての評価基準でRBF Kernelが最も識別力が優秀であった。

（２）タンパク質に対し異なるベクトル化手法を用いた場合の識別力
タンパク質を異なるベクトル化手法でベクトル化し、結合を連結表現で表した場合の識別力を図８に示した。なお、識別力の評価には、（１）と同様の方法を用いた。
表に示すように、Ｃ_ｌｔ、triclustが、次元数削減とともに、最も精度が高かった。この結果から、部分文字列と物理化学特性を結びつける手法の有効性が示されたといえる。また、同じ発想に基づくＣ_ｌｄ、diclustを用いた場合、精度が低下した。これは、８９次元では識別上重要な特徴の混合が起こり、その識別能を失うためだと考えられる。
Ｃ_ｏｄ、Ｃ_ｏｔに注目すると、Ｃ_ｏｄを用いた方が精度が高かった。一方、配列の表現力自体は、４２００次元を有するＣ_ｏｄの方が、４００次元からなるＣ_ｏｄより高かった。Ｃ_ｏｄとＣ_ｏｔの精度の差は、表現の複雑さと精度が直結しないことを示している。
また、Ｃ_ｌｄ（８９次元）、Ｃ_ｏｔ（４２００次元）を用いた場合の精度が、Ｃ_ｌｔ（１９９次元）やＣ_ｏｄ（４００次元）の精度に及ばないことは、適正な次元数の存在を示唆する。

（３）化合物に対し異なるベクトル化手法を用いた場合の識別力
本実施例では、fragmentベクトルＦとgapベクトルＧの２つのベクトルの効果を比較するために、タンパク質のベクトル化手法をＣ_ｌｔで固定し、化合物のベクトル化手法に図９で示したＦ及びＧを用いた場合の識別力を算出した。なお、識別力の評価には、（１）と同様の方法を用いた。
表に示すように、ＦまたはＧを単独で利用したときの精度は、２つを併用したときの精度にどちらも及ばなかった。従って、fragmentベクトルＦとgapベクトルＧの両方を考慮に入れることがより好ましい。各ベクトルの役割としてはＦの方がＧより高い精度及びsens.を有することから、化合物の特徴をよく表し、識別のベースとなるのはＦと考えられた。一方、ＦよりＧの方がprec.が高く、さらに、Ｇより（Ｆ，Ｇ）の方がprec.が高いことから、Ｇはprec.を高める上で補助的な役割を有すると考えられた。
また、表に示すように、マススペクトルデータのピーク強度を用いてベクトル化を行なった方が、ほとんどの場合において、ピーク強度を用いないでベクトル化したときより精度が高くなった（図９）。特に、ＦではなくＦ’を用いた場合に、精度の低下が著しくなった。従って、化合物の特徴を表現するに当たり、強度も用いることが好ましい。

（４）異なる結合表現を用いた場合の識別力
結合表現を、単なる連結表現を用いた場合と、組み合わせ表現を用いた場合とにおいて、それぞれ識別力を計算した。
また、ベクトルを結合させる際、以下のように他の方法によって作成した化合物由来のベクターを含めて結合させることにより得られたパターン認識器の識別力も比較の対象とした。まず、pathを利用してdepthに関する閾値l、hを定めたときの化合物ｃに対する２Ｄベクトルを次式で定義した。
式（３６）：

一方、pathの出現回数を考慮せず、pathの存在のみに着目した２Ｄベクトルを以下のように定義した。
式（３７）：

なお、いずれの場合も、識別力の評価には（１）と同様の方法を用いた。結果を図１０に示す。
表に示すように、本実施例では、組み合わせ表現を用いた場合のほうが、連結表現を用いた場合より精度が向上した。また、２ＤベクトルＤを同時に用いた場合、精度は向上した。

（実施例２）ＡＲ（adrenergic receptor）と化合物の機能的相互作用
本実施例では、化合物がＡＲに対し、アゴニストとして結合するか、アンタゴニストとして結合するか、に関して、化合物の分類を行った。ここでは、図６で示したデータを用い、タンパク質の情報Ｃ_ｌｔを考慮しない場合（図６ａ）と考慮した場合（図６ｂ）について比較を行った。なお、アンタゴニストとして結合する場合をpositive、アゴニストとして結合する場合をnegativeと記載する。ＡＲタンパク質の種類として、α１にはＡ，Ｂ，Ｄの３種類、α２にはＡ，Ｂ，Ｃの３種類が存在するため、positiveは、考慮しない場合（図６ａ）は２６ペア、考慮した場合（図６ｂ）は、６９ペア、negativeは、考慮しない場合（図６ａ）は２２ペア、考慮した場合（図６ｂ）は、７３存在することになる。各場合の分類結果を図１１に示した。なお、ここで作成されたパターン認識器の識別力は、実施例１（１）と同様の方法で評価した。
タンパク質の情報を考慮すると、いずれのベクトルを利用した場合（図１１Ａ）でも、非常に高い精度が得られた。そして、いずれの場合でも、タンパク質の情報を考慮に入れない場合（図１１Ｂ）と比較し、より精度が向上した。

（実施例３）DrugBank（D.S.Wishart, C.Knox, A.C.Guo, S.Shrivastava, M.Hassanali, P.Stothard, Z.Chang, and J.Woolsey. DrugBank;a comprehensive resource for in silico drug discvover and exploration. Nucleic Acids Res., Vol.34 (Database issue), pp. D668-D672, 2006.）に記載のデータを利用した場合
本実施例では、DrugBank Approved Drug Target Protein Sequencesに記載された薬剤−ターゲットタンパク質ペアの中から、ＮＩＳＴ０５にマススペクトルデータが存在する化合物とタンパク質のペア９８０組（図１２）を例として、本発明の分類方法を検証した。ここでは、結合することが記載されているペアをpositiveなサンプルとし、結合することが記載されていないペアをランダムに選び、negativeなサンプルとした。なお、ここで作成されたパターン認識器の識別力は、実施例１（１）と同様の方法で評価した。その結果を図１３に示す。
表で示されるように、本実施例で用いたサンプルによっても、非常に高い精度で、薬剤−ターゲットタンパク質ペアが分類された。本条件下でも、タンパク質ベクトル化手法として、Ｃ_ｌｔまたはＣ_ｏｄを用いた場合に、より精度が高くなる傾向があるが、実施例１と異なり、Ｃ_ｏｄを用いた場合の方が精度が向上した。また、実施例１と同様に、各ベクトルの結合方法は、組み合わせ表現を用いる方が精度が向上した。
また、Ｇについて、異なる強度計算方法を用いて識別力を評価した。図１４に示すように、この条件下では、３、５、６の計算式を用いた場合に、精度が向上した。
さらに、negativeなサンプル数が、最終精度にどのような影響を与えるかを検討したところ（図１５）、negativeなサンプル数が増加すると、prec.はあまり変化しないが、sens.は低下し、acc.は向上する。
このように、いずれの条件においても、高い精度で識別力を有するパターン認識器が得られたが、利用するデータセットによって、最適となる条件は少しずつ異なる。

（実施例４）DrugBankに記載のデータのうち、レセプターを用いた場合
本実施例では、DrugBankに記載のデータのうち、タンパク質−化合物のペアがレセプターとリガンドの関係にあるペア（図１２参照）を選択して分類し、識別力を評価した。
図１６に示すように、単なる結合という相互作用に対する精度を評価した実施例３より、いずれの条件を用いても、より高い精度が得られた。従って、タンパク質−化合物相互作用に関し、特定の様式ごとにパターン認識器を学習させるのがより好ましい。

（実施例５）ＰＣＡによる特徴選択の効果
本実施例では、fragment ベクトルＦ、gap ベクトルＧ、タンパク質ベクトルＣに対し、行列Ｑ_Ｆ、Ｑ_Ｇ、Ｑ_Ｃを考えた。例えば、行列Ｑ_Ｆは以下のようである（Ｑ_Ｇ、Ｑ_Ｃも同様。以下、Ｆについての例を示す。）。
式（３８）：

（Ｑ_Ｃの場合は、扱うデータセットに登場する全てのタンパク質からなる集合である。）
この行列Ｑに対し、主成分分析を行い、主成分得点行列Ｓを得た。なお、主成分分析は、統計解析ソフトＲprcompを用いて行なった。そして、化合物ｃについて、ｎ個の特徴を抽出したfragment vector Ｆ^ｎ（ｃ）を次のように定義した。
式（３９）：

なお、ここでは、上記スケーリングは行なわなかった。
このようなＰＣＡを実施例１のＡＲに関するデータ、及び実施例３のDrugBankに記載のデータに適用することより、特徴選択、順序決定をした場合の識別力を図１７に示す。
表に示されるように、適当な特徴選択を行なっても、タンパク質−化合物相互作用予測は可能であり、条件によっては、識別力を示す各要素が向上していた。

（実施例６）タンパク質が結合する化合物の予測
本実施例では、DrugBank datasetを用いて学習させたＳＶＭモデルをパターン認識器とし、DrugBank dataset中の５１９化合物を対象として、Cytochrome P450 2E1 (UniProt P05181)及びMonoamine Oxidase A (UniProt ID: P1397)に結合するタンパク質を行なったところ、それぞれ、実際の結合化合物に対して精度92.29%及び94.61%となり、化合物ライブラリーの中から、結合化合物を検出することができた。

本発明によって、タンパク質と化合物のペアの分類方法であって、汎用性が高く、入手しやすいデータを利用し、網羅的に適用可能な方法、さらに、その分類方法を利用して、相互作用が未知のペアに対し、その相互作用を予測する予測方法を提供できる。

Claims

第１の相互作用をする第１のタンパク質と化合物のペア及び第２の相互作用をする第２のタンパク質と化合物のペアに対して、第１のペアが属するクラス及び第２のペアが属するクラスを識別するパターン認識器の構成方法であって、
各化合物について得られたマススペクトルデータの少なくとも１つの因子をベクトル化し、それぞれベクトルａ_１〜ａ_ｘ（ｘは１以上の整数）とする工程と、
各タンパク質をベクトル化し、ベクトルｂ_１〜ｂ_ｙ（ｙは１以上の整数）とする工程と、
少なくとも各化合物に由来して作成された前記ベクトルａ_１〜ａ_ｘのうちの１つと該化合物とペアである前記タンパク質に由来して作成された当該ベクトルｂ_ｋ（ｋは１〜ｙのいずれかの整数）とを結合させ、サポートベクターマシン（ＳＶＭ）を適用して学習させることを特徴とするパターン認識器構成方法。
前記マススペクトルデータの少なくとも１つの因子が、ピークの位置、ピークの位置及び強度、２つのピークの間隔、２つのピークの間隔及び対応する強度、の４つの因子から選ばれることを特徴とする請求項１に記載のパターン認識器構成方法。
前記ベクトルｂ_１〜ｂ_ｙは、前記タンパク質における所定のアミノ酸配列の出現頻度を要素とするベクトルであることを特徴とする請求項１または２に記載のパターン認識器構成方法。
各化合物に由来して作成された前記ベクトルの１つは、下記式（１）でベクトル化されるベクトルＦ（ｃ）であることを特徴とする請求項１〜３のいずれかに記載のパターン認識器構成方法。
式（１）：

式中、Ｍは、全ての化合物に対して観測されるピークのｍ／ｚ値の集合であり、Ｍ（ｃ）は当該ペアの化合物に対して観測されるピークのｍ／ｚ値の集合であり、Ｉ（ｍ）は当該ペアの化合物に対して観測されるピークのｍ／ｚ値におけるピークの強度を表す。
各化合物に由来して作成された前記ベクトルの１つは、以下の数式でベクトル化されるベクトルＦ’（ｃ）であることを特徴とする請求項１〜３のいずれか１項に記載のパターン認識器構成方法。
式（２）：

式中、Ｍは、全ての化合物に対して観測されるピークのｍ／ｚ値の集合であり、Ｍ（ｃ）は当該ペアの化合物に対して観測されるピークのｍ／ｚ値の集合を表す。
各化合物に由来して作成された前記ベクトルの１つは、以下の数式でベクトル化されるベクトル

であることを特徴とする請求項１〜３のいずれか１項に記載のパターン認識器構成方法。
式（３）：

式中、Ｍｇは、分類する全ての化合物に対して観察される２つのピークのｍ／z値の差の集合であり、Ｍｇ（ｃ）は当該ペアの化合物に対して観察されるｍ／z値ｉ及びｊにおける２つのピークのｍ／z値の差ｊ−ｉの集合であり、ここで、
式（４）：

式中、Ｍ（ｃ）は、当該ペアの化合物で観測されるピークのｍ／z値の集合であり、ここで、
式（５）：

式中、Ｉi，Ｉjは、ｍ／z値ｉ及びｊにおける２つのピークの強度であり、ｔはギャップを考慮する強度の閾値であり、ｗはｍ／z値ｉ及びｊにおける２つのピークのｍ／z値の差ｊ−ｉの閾値である。
各化合物に由来して作成された前記ベクトルの１つは、以下の数式でベクトル化されるベクトル

であることを特徴とする請求項１〜３のいずれか１項に記載のパターン認識器構成方法。
式（６）：

式中、Ｍｇは、分類する全ての化合物に対して観察される２つのピークのｍ／z値の差の集合であり、Ｍｇ（ｃ）は第３のペアの化合物に対して観察される２つのピークのｍ／z値の差の集合である。
各化合物に由来して作成された前記ベクトルと、該化合物とペアである前記タンパク質に由来して作成された前記ベクトルを結合させて、ベクトル（ａ_ｌ，ｂ_ｋ）または（ａ_ｐ，ａ_ｑ，ｂ_ｋ）を作成し、当該ベクトルにサポートベクターマシン（ＳＶＭ）を適用することを特徴とする請求項１〜７に記載のパターン認識器構成方法。
（式中、ｌ、ｐ、ｑは１〜ｘのいずれか、ｋは１〜ｙのいずれかである。）
各化合物の物理化学的特性値、化学式、構造式、３次元立体構造の４つの因子から選ばれた少なくとも１つの因子をベクトル化してベクトルＤとし、
該化合物に由来して作成された前記ベクトルと、該化合物とペアである前記タンパク質に由来して作成された前記ベクトルと、前記ベクトルＤを結合させて、ベクトル（ａ_ｌ，Ｄ，ｂ_ｋ）または（ａ_ｐ，ａ_ｑ，Ｄ，ｂ_ｋ）を作成し、当該ベクトルにサポートベクターマシン（ＳＶＭ）を適用することを特徴とする請求項１〜７のいずれか１項に記載のパターン認識器構成方法。
（式中、ｌ、ｐ、ｑは１〜ｘのいずれか、ｋは１〜ｙのいずれかである）
サポートベクターマシンの識別関数が、下式（７）のように表現されることを特徴とする請求項１〜９のいずれか１項に記載のパターン認識器構成方法。
式（７）：
前記式（７）Ｋに下式（８）Ｋ_{ｃｏｎｃ．}を適用することを特徴とする請求項１０に記載のパターン認識器構成方法。
式（８）：
前記式（７）Ｋに下式（９）Ｋ_{ｃｏｍｂｉ}を適用することを特徴とする請求項１０に記載のパターン認識器構成方法。
式（９）：
サポートベクターマシンが、linearカーネル、polynomialカーネル、ＲＢＦ（Radial Basis Function）カーネル、またはsigmoidカーネルを利用することを特徴とする請求項１〜１２のいずれか１項に記載のパターン認識器構成方法。
前記相互作用が、タンパク質と化合物の物理的結合であって、第１の相互作用は、タンパク質と化合物が結合することであり、第２の相互作用は、タンパク質と化合物が結合しないことであり、
タンパク質と化合物のペアを、結合するかしないかで分類することを特徴とする請求項１〜１３のいずれかに記載のパターン認識器構成方法。
前記相互作用が、タンパク質と化合物の機能的結合であって、第１の相互作用は、アゴニストとして化合物がタンパク質と結合することであり、第２の相互作用は、アンタゴニストとして化合物がタンパク質と結合することであり、
化合物がタンパク質に対しアゴニストとして結合するか、アンタゴニストとして結合するか、によって、前記タンパク質と前記化合物のペアを分類することを特徴とする請求項１〜１３のいずれかに記載のパターン認識器構成方法。
タンパク質と化合物の相互作用を予測する予測方法であって、
第１の相互作用をするタンパク質と化合物の第１のペア、第２の相互作用をするタンパク質と化合物の第２のペア、前記予測するべきタンパク質と化合物の第３のペアに対し、
請求項１〜１５のいずれかに記載のパターン認識器構成方法により、第１のペアが属するクラス及び第２のペアが属するクラスを識別するパターン認識器を構成する工程と、
第３のペアを用いて作成されたベクトルＢに対して前記パターン認識器を適用して、第３のペアが、前記２つのクラスのどちらのクラスに入るかを識別する工程と、
を含むことを特徴とする予測方法。
化合物ライブラリーの中から、特定のタンパク質に結合する化合物をスクリーニングするスクリーニング方法であって、
前記化合物ライブラリーに含まれる各化合物に対して請求項１６に記載の予測方法を行なって、前記タンパク質と当該化合物の相互作用を予測する工程を含むことを特徴とするスクリーニング方法。
タンパク質ライブラリーの中から、特定の化合物に結合するタンパク質をスクリーニングするスクリーニング方法であって、
前記タンパク質ライブラリーに含まれる各タンパク質に対して請求項１６に記載の予測方法を行なって、前記化合物と当該タンパク質の相互作用を予測する工程を含むことを特徴とするスクリーニング方法。
第１の相互作用をする第１のタンパク質と化合物のペア及び第２の相互作用をする第２のタンパク質と化合物のペアに対して、第１のペアが属するクラス及び第２のペアが属するクラスを識別するパターン認識器の構成方法であって、
各化合物について得られたマススペクトルデータの少なくとも１つの因子をベクトル化し、それぞれベクトルａ_１〜ａ_ｘ（ｘは１以上の整数）とする工程と、
各化合物に由来して作成された前記ベクトルａ_１〜ａ_ｘを用いて、サポートベクターマシン（ＳＶＭ）を適用して学習させることを特徴とするパターン認識器構成方法。