明 細 書
タンパク質-ィヒ合物間相互作用予測方法
技術分野
[0001] 本発明は、タンパク質と化合物の相互作用を予測する予測方法に関する。
背景技術
[0002] 従来、タンパク質 化合物間相互作用予測として、 docking解析などタンパク質と 化合物の立体構造をモデリングし、結合エネルギーを計算する手法が中心的に研究 されてきており、いくつもの巿販ソフトが開発された(H.J.Bohm. The computer progra m LUDI: A new methoa for the de novo design or enzyme inhibitors. J.し omp.Aided. Mol.Des., Vol.6, pp.61-78, 1992; Y.Z.Chen and C.Y.Ung. Prediction of potential to xicity and side effect protein targets of a small molecule by ligand-protein inverse docking approach. J.Mol.Graph Mod., Vol.20, pp.199-218, 2001; Y.Z.Chen and D. G. ni. Ligand-protein inverse docking and its potential use in computer search of p utative protein targets of a small molecule. Proteins, Vol.43, pp.217-226, 2001; Y.Z .Chen and し .Ung. Computer automated prediction of putative therapeutic and tox icity protein targets of bioactive compounds from Chinese medical plants. Am. J. Chin .Med., Vol.30, pp.139-154, 2002; Y.Z.Chen, Z.R.Li, and C.Y.Ung. Computational method for drug target search and application in drug discovery. J.Theor. Comp. Che m., Vol.1, pp.213-224, 2002; R.L.Desjarlais, R.P.Sheri
dan an G.L.Seibel, J.S.Dixon, I.D.Kuntz, and R.Venkataraghavan. Using shape comp lementarity as an initial screen in designing ligands for a receptor-binding site of kn own three-dimensional structure. J.Med.Chem., Vol.31, pp.722-729, 1988; T.E.Fer rin, G.S. Couch, C.C.Huang, E.F.Pellersen, and R.Langridge. An affordable approac h to interactive desk-top molecular modeling. J. Mol. Graphics, Vol.9; J.Goodford. A computational procedure for determining energetically favorable binding sites on biol ogically important macromolecules. J.Med.Chem., Vol.28, pp.849-857, 1985; G.jon es, P.WIllett, R.C.Glen, A.R. Leach, and R.Taylor. Development and calidation of a
genetic algorithm for flexible dicking. J.Mol.Biol., Vol.267, pp. 727-748, 1997; A.R. Leach and I.D.Kuntz. Conformational analysis of flexible ligands in macromolecular r eceptors sites. J.Comput.Chem., Vol.13, pp.730-748, 1992; A.Miranker and M.Kar plus. Functionality maps of binding sites: A multicopy simultaneous search method. Proteins, Vol.11, pp.29-34, 1991; A.Miranker and M.Karplus. An automated metho d for dynamic ligand design. Proteins, Vol.23, pp.472-490, 1995; M.Y.Mizutani, N.T omioka, and A.Itai. Rational automatic search method for stable docking models of p rotein and ligand. J.Mol.Biol., Vol.243, pp.310-326, 1994; C.M.Oshiro, I.D.Kuntz, a nd J.S.Dixon. Flexible ligand docking using a genetic algorithm. J.Comp.Aided Mol. Des., Vol.9, pp.113-130, 1995; C.M.Oshiro and I.D.Kuntz. Characterization of rece ptors with a new negative image: Use in molecular docking and lead optimization. Pr oteins, Vol.30, pp.321-336, 1998; S.H.Rostein, M.A.Murcko, and A.GenStar. A met hod for de novo drug design. J.Comp.Aided Mol. Des., Vol.7, pp.23-43, 1993; B.K.S hoichet, D.L.Bodian, and I.D.Kuntz. Molecular docking using shape descriptors. J.し omput.Chem., Vol.13, pp.380-397, 1992; M.Zacharias, B.A.Luty, M.E.Davis, and J. A.McCammon. combined conformational search and finite-difference poisson-boltaz mann approach for flexible docking. J.Mol.Biol. , Vol.238, ρρ·455_465,1994)。これら の手法は結合エネルギーと!/、う明確な根拠をもつ点で信頼性は高レ、。
発明の開示
発明が解決しょうとする課題
しかしながら立体構造を前提とする点は、この手法の短所であり、限界である。な ぜなら、立体構造のデータの蓄積は進んでいるが、依然として構造未知のタンパク質 は多いからである。例えば、 PDB (H.M.Berman, J.Westbrook, Z.Feng, G.Gillil and , T.N.Bhat, H.Weissig, I.N.Shindyalov, and P. E. Bourne. The protein data bank, Nuc leic Acids Res. , Vol.28, pp.235- 242, 2000. http:〃 www.rcsb.org/pdb/·)されている タンパク質数は全生物合計で、 14243個(blastで 95%以上配列相同性があるものは 同一のものとみなした場合)に過ぎない。そして、技術の進歩にかかわらず、未だに 十分な構造解析を行えないタンパク質も多い。また、構造未知の場合には、タンパク
質の立体構造予測手法や化合物の立体構造予測手法により構造推定を行うことは 可能であるが、これらの予測手法も依然完全とはレ、えなレ、。
[0004] そこで本発明は、タンパク質と化合物の相互作用が未知のペアに対し、その相互 作用を予測する汎用的な予測方法を提供することを目的としてなされた。
課題を解決するための手段
[0005] 本発明者らは、上記課題を解決するため、利用すべきデータの同定、及びそのデ ータの処理方法に関して鋭意努力し、以下の結果を得た。
まず、タンパク質及び化合物に関し、汎用性が高ぐ入手しやすいデータを検討し た。
タンパク質に関し、現時点で最も入手が容易であり、さらに今後、新たなタンパク質 が発見された時にも最初に得られるデータはアミノ酸配列である。
一方、化合物については、現時点で最も充実したデータは化学式及び構造式であ る。しかし、新たな化合物が発見された場合に、その構造式は様々な手法で推定さ れなければならず、その同定は必ずしも容易ではない。将来的に、新たな化合物が 発見される可能性が最も高いのは網羅的な代謝物解析を行った場合であるが、現 在提案されている網羅的代謝物解析手法は、 GC/MS (O.Fiehn, J.Kopka, P.Dorm ann, T.Altmann, R.Trethewey, and L.Willmitzer. Metabolite profiling for plant runcti onal genomics. Nature Biotechnology, Vol.18, pp.1157-1161, 2000. ; N.Glassbrook, C.Beecher, and J.Ryals. Metabolite profiling on the right path. Nature Biotechnolog y, Vol.18, pp.1142- 1143, 2000·)や CE/MS (P. Schmitt- Kopplin and M.Frommber ger. Capillary electrophoresis—mass spectrometry: 15 years of developments and a pplications. Electrophoresis, Vol.24, pp.3837-3867, 2003. ; A.-C.Servais, J.Cromme n, and M. Fillet. Capillary electrophoresis- mass spectrometry, an attractive tool for drug bioanalysis and Diomarker discovery. Electrophoresis, Vol.27, pp.2616-2629, 2 006·)などの質量分析(MS : mass spectrometry)を利用したものであるため、化合物 のマススペクトルデータは、未知化合物について最も入手しやすいデータとなること が考えられる。現時点においてさえ、既に約 160000化合物のマススペクトルデータ を集めたデータベースが存在する(http://www.nist.gov/)。
[0006] そこで、本発明者らは、これらのデータを用いた統計学処理方法を検討した。すな わち、タンパク質と化合物の相互作用として、タンパク質 '化合物間の結合、及びタン ノ ク質'化合物間のァゴニスティック/アンタゴニスティックな機能的相互作用を例と し、入手可能なタンパク質のアミノ酸配列や化合物のマススペクトルデータについて、 アミノ酸配列の所定の配列の出現頻度、及びマススペクトルデータのピークの位置や 強度をベクトル化し、サポートベクターマシン(SVM) (V.Vapnik. Statistical Learning Theory. Wiley, New York, 1998·)を適用し、相互作用について学習させてパターン 認識器を作成したところ、この分類が、結合や機能的相互作用についての分類と、高 度に相関があることを見出した。こうして、本発明者らは、その相互作用が未知の、タ ンパク質と化合物のペアに対し、その相互作用を予測する予測方法の完成に至った
〇
[0007] そこで、本明細書には、少なくとも以下の 19項の発明が含まれる。
〔1〕第 1の相互作用をする第 1のタンパク質と化合物のペア及び第 2の相互作用を する第 2のタンパク質と化合物のペアに対して、第 1のペアが属するクラス及び第 2の ペアが属するクラスを識別するパターン認識器の構成方法であって、
各化合物について得られたマススペクトルデータの少なくとも 1つの因子をベクトル 化し、それぞれベクトル a 〜a (xは 1以上の整数)とする工程と、
各タンパク質をベクトル化し、ベクトル b 〜b (yは 1以上の整数)とする工程と、
1 y
少なくとも各化合物に由来して作成された前記ベクトル a 〜aのうちの 1つと該化合 物とペアである前記タンパク質に由来して作成された当該ベクトル b (kは 1〜yの!/ヽ k
ずれかの整数)とを結合させ、サポートベクターマシン(SVM)を適用して学習させる ことを特徴とするパターン認識器構成方法。
[0008] 〔2〕前記マススペクトルデータの少なくとも 1つの因子力 S、ピークの位置、ピークの位 置及び強度、 2つのピークの間隔、 2つのピークの間隔及び対応する強度、の 4つの 因子から選ばれることを特徴とする〔1〕に記載のパターン認識器構成方法。
[0009] 〔3〕前記ベクトル b 〜bは、前記タンパク質における所定のアミノ酸配列の出現頻
1 y
度を要素とするベクトルであることを特徴とする〔1〕または〔2〕に記載のパターン認識 器構成方法。
[0010] 〔4〕各化合物に由来して作成された前記ベクトルの 1つは、下記式(1)でベクトル化 されるベクトル F (c)であることを特徴とする〔1〕〜〔3〕の!/、ずれかに記載のパターン 認識器構成方法。
式 (1) :
, ! /c(m) if m e M(c)
0 otherwise 式中、 Mは、全ての化合物に対して観測されるピークの m/z値の集合であり、 M ( c)は当該ペアの化合物に対して観測されるピークの m/z値の集合であり、 I (m)は 当該ペアの化合物に対して観測されるピークの m/z値におけるピークの強度を表す
〇
[0011] 〔5〕各化合物に由来して作成された前記ベクトルの 1つは、以下の数式でベクトル 化されるベクトル F' (c)であることを特徴とする〔1〕〜〔3〕の!/、ずれか 1項に記載のパ ターン認識器構成方法。
式 (2) : ( = (¾m)》
m
式中、 Mは、全ての化合物に対して観測されるピークの m/z値の集合であり、 M ( c)は当該ペアの化合物に対して観測されるピークの m/z値の集合を表す。
[0012] 〔6〕各化合物に由来して作成された前記ベクトルの 1つは、以下の数式でベクトル 化されるベクトル
Gf (c) であることを特徴とする〔1〕〜〔3〕の!/、ずれか 1項に記載のパターン認識器構成方法
式 (3)
O ic) = ^
式中、 Mgは、分類する全ての化合物に対して観察される 2つのピークの m/z値の 差の集合であり、 Mg (c)は当該ペアの化合物に対して観察される m/z値 i及び jに おける 2つのピークの m/z値の差 j—iの集合であり、ここで、
式 (4) gapAn^ = . (m)
十: meA^(e) 式中、 M (c)は、当該ペアの化合物で観測されるピークの m/z値の集合であり、こ こで、
式 (5) :
式中、 Ii, Ijは、 m/z値 i及び jにおける 2つのピークの強度であり、 tはギャップを考 慮する強度の閾値であり、 wは m/z値 i及び jにおける 2つのピークの m/z値の差 j - iの閾ィ直である。
〔7〕各化合物に由来して作成された前記ベクトルの 1つは、以下の数式でベクトル 化されるベクトル
Gf\c)
であることを特徴とする〔1〕〜〔3〕の!/、ずれか 1項に記載のパターン認識器構成方法 式 (6) :
10 otkerwise 式中、 Mgは、分類する全ての化合物に対して観察される 2つのピークの m/z値の 差の集合であり、 Mg (c)は第 3のペアの化合物に対して観察される 2つのピークの m /z値の差の集合である。
[0014] 〔8〕各化合物に由来して作成された前記ベクトルと、該化合物とペアである前記タ ンパク質に由来して作成された前記ベクトルを結合させて、ベクトル(a , b )または(a
1 k
, a , b )を作成し、当該ベクトルにサポートベクターマシン(SVM)を適用することを
P q k
特徴とする〔1〕〜〔7〕に記載のパターン認識器構成方法。
(式中、 1、 p、 qは l〜xのいずれ力、、 kは l〜yのいずれかである。 )
[0015] 〔9〕各化合物の物理化学的特性値、化学式、構造式、 3次元立体構造の 4つの因 子から選ばれた少なくとも 1つの因子をベクトル化してベクトル Dとし、
該化合物に由来して作成された前記ベクトルと、該化合物とペアである前記タンパ ク質に由来して作成された前記ベクトルと、前記ベクトル Dを結合させて、ベクトル(a
1
, D, b )または(a , a , D, b )を作成し、当該ベクトルにサポートベクターマシン(SV k p q. k
M)を適用することを特徴とする〔1〕〜〔7〕の!/、ずれ力、 1項に記載のパターン認識器 構成方法。
(式中、 1、 p、 qは l〜xのいずれ力、、 kは l〜yのいずれかである)
[0016] 〔10〕サポートベクターマシンの識別関数力 下式(7)のように表現されることを特徴 とする〔1〕〜〔9〕の!/、ずれか 1項に記載のパターン認識器構成方法。
f(c, p) = sign K(fiCi , Bcp) + b*
ノ [0017] 〔11〕前記式(7) Kに下式(8) K を適用することを特徴とする〔10〕に記載のパタ
cone.
ーン認識器構成方法。
式 (8) :
[0018] 〔12〕前記式(7) Κに下式(9) Κ を適用することを特徴とする〔10〕に記載のバタ
combi
ーン認識器構成方法。
[0019] 〔13〕サポートベクターマシンが、 linearカーネル、 polynomialカーネノレ、 RBF (Radial
Basis Function)カーネル、または sigmoidカーネルを利用することを特徴とする〔1〕
〜〔12〕のいずれ力、 1項に記載のパターン認識器構成方法。
[0020] 〔14〕前記相互作用が、タンパク質と化合物の物理的結合であって、第 1の相互作 用は、タンパク質と化合物が結合することであり、第 2の相互作用は、タンパク質と化 合物が結合しないことであり、
タンパク質と化合物のペアを、結合するかしないかで分類することを特徴とする〔1〕
〜〔; 13〕のいずれかに記載のパターン認識器構成方法。
[0021] 〔15〕前記相互作用が、タンパク質と化合物の機能的結合であって、第 1の相互作 用は、ァゴニストとして化合物がタンパク質と結合することであり、第 2の相互作用は、 アンタゴニストとして化合物がタンパク質と結合することであり、
化合物がタンパク質に対しァゴニストとして結合する力、、アンタゴニストとして結合す る力、、によって、前記タンパク質と前記化合物のペアを分類することを特徴とする〔1〕 〜〔; 13〕のいずれかに記載のパターン認識器構成方法。
[0022] 〔〔1166〕〕タタンンパパクク質質とと化化合合物物のの相相互互作作用用をを予予測測すするる予予測測方方法法ででああっってて、、 第第 11のの相相互互作作用用ををすするるタタンンパパクク質質とと化化合合物物のの第第 11ののペペアア、、第第 22のの相相互互作作用用ををすするるタタンン パパクク質質とと化化合合物物のの第第 22ののペペアア、、前前記記予予測測すするるべべききタタンンパパクク質質とと化化合合物物のの第第 33ののペペアアにに 対対しし、、
〔〔11〕〕〜〜〔〔1155〕〕ののいいずずれれかかにに記記載載ののパパタターーンン認認識識器器構構成成方方法法にによよりり、、第第 11ののペペアアがが属属 すするるククララスス及及びび第第 22ののペペアアがが属属すするるククララススをを識識別別すするるパパタターーンン認認識識器器をを構構成成すするる工工程程 とと、、
第第 33ののペペアアをを用用いいてて作作成成さされれたたベベククトトルル BBにに対対ししてて前前記記パパタターーンン認認識識器器をを適適用用ししてて、、 第第 33ののペペアアがが、、前前記記 22つつののククララススののどどちちららののククララススにに入入るるかかをを識識別別すするる工工程程とと、、 をを含含むむここととをを特特徴徴ととすするる予予測測方方法法。。
[0023] 〔〔1177〕〕化化合合物物ラライイブブララリリーーのの中中かからら、、特特定定ののタタンンパパクク質質にに結結合合すするる化化合合物物ををススククリリーー ユユンンググすするるススククリリーーニニンンググ方方法法ででああっってて、、
前前記記化化合合物物ラライイブブララリリーーにに含含ままれれるる各各化化合合物物にに対対ししてて〔〔 1166〕〕にに記記載載のの予予測測方方法法をを行行 ななっってて、、前前記記タタンンパパクク質質とと当当該該化化合合物物のの相相互互作作用用をを予予測測すするる工工程程をを含含むむここととをを特特徴徴とと すするるススククリリーーニニンンググ方方法法。。
[0024] 〔〔1188〕〕タタンンパパクク質質ラライイブブララリリーーのの中中かからら、、特特定定のの化化合合物物にに結結合合すするるタタンンパパクク質質ををススククリリ 一一ユユンンググすするるススククリリーーニニンンググ方方法法ででああっってて、、
前前記記タタンンパパクク質質ラライイブブララリリーーにに含含ままれれるる各各タタンンパパクク質質にに対対ししてて〔〔1166〕〕にに記記載載のの予予測測方方 法法をを行行ななっってて、、前前記記化化合合物物とと当当該該タタンンパパクク質質のの相相互互作作用用をを予予測測すするる工工程程をを含含むむこことと をを特特徴徴ととすするるススククリリ一一ユユンンググ方方法法。。
[0025] 〔〔1199〕〕第第 11のの相相互互作作用用ををすするる第第 11ののタタンンパパクク質質とと化化合合物物ののペペアア及及びび第第 22のの相相互互作作用用 ををすするる第第 22ののタタンンパパクク質質とと化化合合物物ののペペアアにに対対ししてて、、第第 11ののペペアアがが属属すするるククララスス及及びび第第 22 ののペペアアがが属属すするるククララススをを識識別別すするるパパタターーンン認認識識器器のの構構成成方方法法ででああっってて、、
各各化化合合物物ににつついいてて得得らられれたたママススススペペククトトルルデデーータタのの少少ななくくとともも 11つつのの因因子子ををベベククトトルル 化化しし、、そそれれぞぞれれベベククトトルル aa〜〜aa ((xxはは 11以以上上のの整整数数))ととすするる工工程程とと、、
各各化化合合物物にに由由来来ししてて作作成成さされれたた前前記記ベベククトトルル aa〜〜aaをを用用いいてて、、ササポポーートトベベククタターーママ シシンン((SSVVMM))をを適適用用ししてて学学習習ささせせるるここととをを特特徴徴ととすするるパパタターーンン認認識識器器構構成成方方法法。。
[0026]
なお、本出願は、 2006年 10月 31曰出願の曰本国出願番号特願 2006— 29711
1を基礎とする優先権の利益を主張し、これを引用することにより本明細書に含める。 図面の簡単な説明
[図 l]Venkatarajanらによって選択された 237個のアミノ酸の物理化学的特性のリスト である。
[図 2]Venkatarajanらが 20種類のアミノ酸を表現した 5次元ベクトルのリストである。
[図 3]本発明に力、かる一つの実施形態において、 400種類の dip印 tideに対し、クラス タリングして得られた 89種類のクラスターのリストである。
[図 4]本発明に力、かる一つの実施形態において、 4200種類の trip印 tideに対し、クラ スタリングして得られた 199種類のクラスターのリストである。
[図 5]ヒト ARファミリーに属するタンパク質同士におけるアミノ酸配列の相同性を記載 した表である。
[図 6] (a)はヒト ARファミリータンパク質の機能的分類を示した表である。 (b)はヒト AR ファミリータンパク質に結合する化合物の、 ARタンパク質に対する結合様式を示した 図である。
[図 7]本発明に力、かる一つの実施例において、 SVMの実行に際し、異なる Kernel関 数を用いた場合のパターン認識器の識別力を示した表である。
[図 8]本発明に力、かる一つの実施例において、タンパク質のベクトル化に対し、異なる ベクトル化手法を用いた場合のパターン認識器の識別力を示した表である。
[図 9]本発明に力、かる一つの実施例において、化合物のベクトル化に対し、異なるベ タトル化手法を用いた場合のパターン認識器の識別力を示した表である。
[図 10]本発明に力、かる一つの実施例において、タンパク質由来のベクトルと化合物 由来のベクトルの結合に際し、異なる結合表現を用いた場合のパターン認識器の識 別力を示した表である。
[図 11]本発明にかかる一つの実施例において、タンパク質由来の情報を考慮に入れ た場合 (A)と入れなレ、場合 (B)のパターン認識器の識別力を示した表である。
[図 12]DrugBank Approved Drug Target Protein Sequencesに記載 れた薬斉 lj—ター ゲットタンパク質ペアの中から、 NIST05にマススペクトルデータが存在する化合物と
タンパク質のペア 980組の特徴を示した表である。
[図 13]本発明にかかる一つの実施例において、 DrugBank Approved Drug Target Pr otein Sequencesに記載のデータを使用した場合のパターン認識器の識別力を示した 表である。
[図 14]本発明に力、かる一つの実施例において、 gapベクトルに関し、異なる強度計算 方法を用いた場合のパターン認識器の識別力を示した表である。
[図 15]本発明に力、かる一つの実施例において、 negativeなサンプル数を増やした場 合のパターン認識器の識別力を示した表である。
[図 16]本発明にかかる一つの実施例において、 DrugBank Approved Drug Target Pr otein Sequencesに記載された薬剤 ターゲットタンパク質ペアの中から、レセプター とリガンドの関係にあるペアを用いた場合のパターン認識器の識別力を示した表であ
[図 17]本発明に力、かる一つの実施例において、 PCAによって特徴選択した場合の ノ ターン認識器の識別力を示した表である。
発明を実施するための最良の形態
[0028] 以下、本発明の実施の形態において、タンパク質と化合物の相互作用を予測する 予測方法について、実施例を挙げながら具体的かつ詳細に説明する力 本発明はこ れらの実施の形態あるいは実施例に限定されるものではない。
なお、本発明の目的、特徴、利点、及びそのアイデアは、本明細書の記載により、 当業者には明らかであり、本明細書の記載から、当業者であれば、容易に本発明を 再現できる。以下に記載された発明の実施の形態及び具体的な実施例などは、本発 明の好ましい実施態様を示すものであり、例示又は説明のために示されているので あって、本発明をそれらに限定するものではない。本明細書で開示されている本発 明の意図ならびに範囲内で、本明細書の記載に基づき、様々に修飾ができることは 、当業者にとって明らかである。
[0029] = =タンパク質のベクトル化 = =
まず、 y個のタンパク質について、各タンパク質をベクトル化し、ベクトル b〜b (yは
l y
1以上の整数)とする手法を述べる。ベクトル化するのは、タンパク質全体のアミノ酸
配列を用いてもよぐまた、結合部位など、部分配列を用いてもよいが、タンパク質の ベクトル化方法は特に限定されず、例えば、タンパク質の各アミノ酸残基の電荷、疎 水性、表面張力、立体構造などを利用してベクトル化しても構わない (J.R.Bock and D.A. ough. Predicting protein-protein interactinos from primary structure. Bioinror matics, Vol.17, No.5, pp.455-460, 2001. ; C.Yanover and T. Hertz. Predicting protei n-peptide binding affinity by learning peptide-peptide distance functions. In RECO MB 2005, pp.456-471, 2005·)。ここでは、一例として、各タンパク質における所定の アミノ酸配列の特徴の出現頻度を要素とするベクトル C (p)を、以下のように作成する 方法を述べる。
式(10):
il c G C{p)
L ' '
0 otherwise 式中、 Cはベクトル化の対象となる全タンパク質において一度でも出現する特徴 cの 集合である。また、 (c)は、タンパク質 pにおける特徴 cの出現回数を表す。
利用するアミノ酸配列の特徴として、アミノ酸 n個(nは自然数)の配列の全組み合わ せの出現頻度としてもよぐまた、各部分配列を、物理化学的特性によって分類し、 各グループの出現頻度としてもよい。利用するアミノ酸配列のアミノ酸数は、特に限 定されないが、ベクトルの要素数から、アミノ酸 2個または 3個の部分配列を利用する のが好ましい。
[0030] 以下、代表的なアミノ酸配列の選び方、及びベクトル aの作成方法につ!/、て述べる 力 アミノ酸配列の特徴は、これらに限定されない。
[0031] ( 1 ) dip印 tide (アミノ酸 2個の配歹 IJ)の利用
ここでは、ベクトル Cとして、アミノ酸 2個の配列の全組み合わせの出現頻度(M.Bha sin and .P.^.Raghava. PuR pred: and ¾\ M-based method for prediction of ramili
es and subfamilies of g-protein coupled receptors. Nucleic Acids Res., Vol.32, pp.38 3-389, 2004.)を要素とするベクトル C を作成する。 自然界に存在するアミノ酸は 20 種類なので、このベクトルは、 202 = 400の要素を有することになる。
[0032] (2) trip印 tide (アミノ酸 3個の配歹 IJ)の利用
ベクトル Cとして、アミノ酸 3個の配列の全組み合わせの出現頻度を要素とするベタ トル C を作成してもよい。 自然界に存在するアミノ酸は 20種類なので、このべクトノレ
(ま、 203 = 8000の要素を有する、 8000次元のベクトノレ ίこなる。
また、 Martinらによってネ亍われたように(S.Martin, D.Roe, and J.-L.Faulon. Predicti ng protein-protein interactions using signature products. Bioinformatics, Vol.21, No .2, pp.218-226, 2005.)、アミノ酸 3個の配列において両端のアミノ酸の区別をせずに 、その配列の組み合わせの出現頻度を要素とするベクトルを作成してもよい。この場 合、(8000— 400) /2 + 400 = 4200の要素を有する、 4200次元のベタ卜ノレ ίこなる
〇
[0033] (3) diclustの利用
ベクトル Cとして、アミノ酸 2個の配列の組み合わせを、物理化学的特性値によって グループ分けし、各グループの出現頻度を要素とするベクトル C を作成してもよい。 例えば、 Venkatarajanらは、 237個の 20アミノ酸の物理化学的特性値(図 1)から、 以下のように 5次元べクトノレを求めた(M.S.Venkatarajan and W.Braun. New quantitat ive descriptors of amino acids based on multidimensional scaling of large number of physical-chemical properties. Journal of Molecular Modeling, Vol.7, pp.445-453, 20 01· )。
まず, アミノ酸 iの特件 c についての特性値 (ί)を, 20アミノ酸の Ραの平 均値 と標準偏差 σΡ„ でスケーリングした値 ) を求めた.
式 ( 1 1 ) :
Sa(i) = PM― Pn
400 次に, S'、 を利用してアミノ酸の類似性を表現する行列 Qを作成した. ここでァ ミノ酸 と jの類似度 Qij は次式で表現される.
式 (1 2) :
237
次に, ここで求められた Q と単位行列 £ との問に次式の関係を成立させる [¾|有 値 λを求めた.
式 (1 3) :
QE : XE
Qが 20 X 20行列なので 20個の Λが求まる. そして, Qの要素 <¾ は冏有俯 \ に対応するアミノ酸 の [Si有べクトル とアミノ酸 に対する罔有べクト ル E によって次のように求まる.
式 (1 4) :
20
Qij ~
この Q
tj は数値の大きさによる上位 5個の冏 値 λ を使って次のように近似可 能である.
式 (1 5 ) :
Γι μ~ 1 最終的に、 Venkatarajanらは、この上位 5つの固有値と固有ベクトルを利用してアミ ノ酸 iを次のような 5次元ベクトル a(i)で表現した。なお、この 5つの固有値と各アミノ酸
の固有ベクトルを図 2に示す。
この 5次元ベクトルを利用して、アミノ酸 i、及び、アミノ酸 jからなる dip印 tide(ij)を表 現する物理化学特性ベクトル a (U)を次式で定義する。
α
式(17) :
合計 400種類の dipeptiaeに : fj心する (i,j)にメ Tして、 variational Bayesian mixture modellingによるクラスタリングを行い、合計 89種類のクラスターを得る。この各クラスタ 一を式(10)において Cを構成する特徴 cとして扱う。下記の実施例では、 variational Bayesian mixture modellingには、統計角早析ソフト R(http://www.r— project.org/)の vab ayelMixノヽックーン (A.E.Teschendorff, Y.Wang, N.L.Barbosa-Morais, J.D.Brenton, a nd C.Caldas. A variational Bayesian mixture modelling framework for cluster analysi s of gene-expression data. Bioinformatics, Vol.21 , No.13, pp.3025—3033, 2005·)を禾 lj 用した。
なお、この 89種類のクラスタ一は、詳細には 400種類の dip印 tideに対応する 400 個の 5次元ベクトルに対して 2段階のクラスタリングを行うことで得られる。第一段階の クラスタリングで 400個のベクトルを 25個のクラスターに分け、それぞれのクラスター において、それに属するベクトルに対して第二段階のクラスタリングを行い、 25個のク ラスターから合計 89個のクラスターを得ることができる。 89個のクラスターに含まれる dip印 tideにつ!/、ては図 3に示す。
(4) triclustの利用
ベクトル Cとして、アミノ酸 3個の配列の組み合わせを、物理化学的特性値によって グループ分けし、各グループの出現頻度を要素とするベクトル Cを作成してもよい。
例えば、(2)で記載したようなアミノ酸 3個の配列 a (a , a , a )を、(3)で記載した s 01 11 12
アミノ酸 iを表現する 5次元ベクトル a (i)を利用して、次のように定義する。
式(18):
合計 4200種類の trip印 tideに対応する a (a , a , a )に対して、 variational
s 01 11 12
Bayesian mixture modellingによるクラスタリングを行い、合計 199種類のクラスターを 得る。この各クラスターを式(10)において Cを構成する特徴 cとして扱う。下記の実施 ί列では、 variational Bayesian mixture modellingには、統十角早析ソフト R(http://www.r —project.org/)の vabayelMixノヽッゲーン (A.E.Teschendorff, /.Wang, N.L.Baroosa-Μο rais, J.D.Brenton, and し. Caldas. A variational Bayesian mixture modelling iramewor k for cluster analysis of gene-expression data. Bioinformatics, Vol.21, No.13, pp.30 25-3033, 2005.)を利用した。
なお、この 199種類のクラスタ一は、詳細には 4200種類の trip印 tideに対応する 42 00個の 5次元ベクトルに対して 2段階のクラスタリングを行うことで得られる。第一段階 のクラスタリングで 4200個のベクトルを 34個のクラスターに分け、それぞれのクラスタ 一において、それに属するベクトルに対して第二段階のクラスタリングを行い、 34個 のクラスターから合計 199個のクラスターを得ることができる。 199個のクラスターに含 まれる trip印 tideにつ!/、ては図 4に示す。
[0035] = =化合物のベクトル化 = =
化合物のベクトル化は、当該化合物のマススペクトルを利用して行う。つまり、マスス ぺクトルデータの少なくとも 1つの因子(ここでは X個とする)をベクトル化し、それぞれ ベクトル a 〜a (xは 1以上の整数)とすればよいが、ここで、どの因子を選ぶかは限定 されない。例えば、一つのマススペクトルデータにおいて、観察されるピークの位置と 強度の情報を数値化して fragmentベクトル (F)を、ピークとピークの間隔及び強度の 情報を数値化して gapベクトル (G)を作成することができる。
[0036] (1) fragmentベタトノレの作成
例えば、化合物 cのマススペクトルに対するベクトル F (c)は、観察されるピークの位 置と強度の両方を考慮した場合、次式で表現される。
式(19):
また、強度を考慮せず、ピークの位置のみを考慮した場合のベクトル F' (c)は次式 で表現される。
式(20): (c) 二 (^c(m))meM
[ 0 otherwise これらの式中、 Mは、全ての化合物に対して観測されるピークの m/z値の集合で あり、 M (c)は当該化合物に対して観測されるピークの m/z値の集合であり、 I (m) は当該化合物に対して観測されるピークの m/z値におけるピークの強度を表す。
(2) ga ベクトルの作成
例えば、 m/z値 i及び j (j > i)において、それぞれ強度 Ii、 Ijを持つ 2つのマススぺク トルのピークの間隔に対応する強度 gi (j— i)を次のように定義する。 なお,以降,特に 3及しない限りはマススぺクトルの iut (; miity は e (0
; 1000) である. 式(21 ):
k≠>Uk>t 式中、 tはギャップを考慮する強度の閾値であり、 wは 2つのピークの m/z値の差の 閾値である。 tはノイズの存在、 wは主に放射性同位体の存在を考慮した閾値である なお、 gi(j— i)は脱離のゴール地点 iを定めた場合の値であり、同一化合物中に同 じ m/z値、つまり j iを持つものが多数存在する場合があるので、一つの化合物 c全 体での間隔 mに対応する強度を次のように定める。
式(22): 卿 m) = > ^ gi(ni)
ίμ+πι.€Μ((ή 式中、 M(C)は化合物 Cで観測される m/z値の集合である。
最終的に、式(21)における閾値 t、 wを定めた時の化合物 cのマススペクトルに対す る gapベクトルは次式で表現される。
式(23):
0 otherwise また、強度を考慮せず、ピークの位置のみを考慮した場合のベクトル G' (c)は次式 で表現される。
式(24):
これらの式中、 Mgは、ベクトル化の対象となる全化合物のマススペクトルにおいて、 一度でも観察される間隔の集合であり、 Mg (c)は化合物 cで観測される間隔の集合 である。
なお、 gi (j— i)の計算に、式(21)以外に、以下の式(25)を用いてもよいが、最終 的に識別力の精度(accuracy)が高くなるため、式(21 )を用いるのが好ましい。
式(25):
1· 9i {j - 3- 9i {j一
* G (o: 1) (3)従来のベクトル化方法
Zeraovらは、 SVMによる薬剤と非薬剤の識別,農薬と非農薬の識別において、物理 化学的特性ィ直を利用して化合物をベクトル化した (V.V.Zernov, K.V.Balakin, A.A.Iva schenko, N.P.SavchuK, and I.V.Pletnev. Drug discovery using support vector macni nes. the case studies of drug-likeness, agrochemicaト likeness, and enzyme inhibition predictions. J.Chem.Inf.Comput.Sci. , Vol.43, pp.2048-2056, 2003.)。また、 Swamida ssらは、化合物の変異誘導性,毒性識別において化合物をベクトル化するにあたり、 [ 1]化学式から導き出される SMILES文字列を利用する方法、 [2]化合物の構造式から
path抽出を行う方法、 [3]化合物の 3次元立体構造から、各原子間の距離を計算する 方法を! ¾5§した (S.J.Swamidass, J.Chen, J.Bruana, P.Phung, L.Ralaivola, and P. Bald i. Kernels for small molecules and the prediction of mutagenicity, toxicity and anti~c ancer actibity. Bioinformatics, Vol.21, No. Supple 1, pp.359—368, 2005.) 0
[0039] = =タンパク質 '化合物ペアの結合表現 = =
上記のように作成した、化合物のマススペクトルデータに由来するベクトル a〜aの うちの少なくとも 1つを用いて作成した化合物に対するベクトル aとタンパク質のァミノ 酸配列に由来するべクトノレ b (kは 1〜yの!/、ずれかの整数)を用 1/、て作成したタンパ
k
ク質に対するベクトル bを結合するが、結合方法は限定されな!/、。
[0040] (1)連結表現
例えば、最も単純な結合方法として、これらのベクトルを連結すればよく(J.R.Bock a nd D.A. ough. Predicting protein-protein interactions from primary structure. Bioin formatics, Vol.17, No.5, pp.455-460, 2001. ; S.M.Gomez, W.S.Noble, and A.Rzhetsk y. Learning to predict protein-protein interactions. Bioinformatics, Vol.19, pp.1875 -1881, 2003·)、以下のように表現される。
式(26):
ここで、上記のように、例えば、 a = (F, G)や (F)等で表現され、 b
t (b) )等で表現される。
この場合、 SVMの識別関数は、以下の式で表現される。
式(27):
特に、 Kernel関数に RBF Kernelを利用する場合は、この式において、以下の計算 をしていることになる。
式(28):
-^conc. {Bait>^ Ba2b2) = /ぐ (a な 2) · K(b b2) (2)組み合わせ表現
(1)の連結表現では、基本的に化合物'化合物間やタンパク質 'タンパク質間の関 係性に注目し、その関係性の積の形で相互作用の特徴を見出そうとしている。しかし ながら、相互作用する化合物とタンパク質に特有なタンパク質 '化合物間の関係性が 存在する可能性がある。その関係性を評価するため、組合せ表現では式(28)の代 わりに次のような計算を行う。
式(29):
≡ ひ (ひ】, "
2) ' K
hb(b
{,b
2) ' K
ab(a
l,o
2) - K
ab(b'
l,
2) この式において、 Kaa、 Kbb、 Kabに、異なる Kernel関数を用いてもよい。また、異な るパラメーターを利用することが可能であり、パラメータ一等の調節により、それぞれ の関係性に対して任意の重み付けをすることもできる。
この計算では、 a 'と 'の内積を求める必要がある力 aと bのベクトル長が異なる
1 2
場合は計算に不都合が生じるため、 aと bに処理を加え、 a b 'は同じベクトル長を
1 2
持つようにする。これはまた、連結表現においては潜在的に存在したベクトル長の違 いに起因する重みを排除する効果も有する。
具体的には、式(29)において、化合物 a=(F, G)、タンパク質 bで表現した場合、 組み合わせ表現ではタンパク質 '化合物ペア B =(a , b ) = (F , G . C )と B =( a , b ) = (F , G , C )に対し、以下のような Kernel関数の計算を行う。
2 2 2 2 2
I,Je(F,G,C) 本手法では、 Kij(x、 y)として、以下の 4つの Kernel関数のいずれかを用いる。 式(31)
ここで、ベクトル長を一定にするために、化合物に由来するベクトル、またはタンパク 質に由来するベクトル、のいずれのベクトルの次元数に合わせてもよいが、化合物に 由来するベクトルは、化合物のマススペクトルデータセットやパラメーターに依存して 次元数が変動するのに対し、タンパク質に由来するベクトルの次元数は、データセッ トに依存しな!/、ため、タンパク質に由来するベクトルの次元数を用いるのが好ましレ、。 その場合、化合物に由来するベクトルから、利用するベクトルの次元数と同じ数の要 素を抽出し、同じ次元数を持つベクトルを作成する必要がある。
この要素の選択方法は特に限定されず、ランダムに選択しても構わないが、例えば 、化合物に由来するベクトルの要素の中から、タンパク質と化合物のペアの分類のた めに、最も重要だと考えられる特徴を選択してもよい。
例えば、式(30)において、 KFG (F1 , G1)などを式(31)で計算する場合、各べク トノレの特徴の順序によって計算結果が異なってくるため、以下のような基準によって 特徴の順序を決定してもよぐ特徴数を減らさなければいけないような場合には、並 ベた順序の上位から数えて、必要な数の特徴を選択してもよ!/、。
まず、化合物に対する fragmentベクトル F、タンパク質に関するベクトル Cに関しては 、特徴 iに対して、次のように定義される MSEの降順を特徴の順序とする。
Σ )
ここで は扱うデータセッ卜に登場する全ての化合物からなる集合である. なお, 夕ンパク質べクトル Cに対する MSEf を計算するときは, (£の代わりに, デー タセッ 卜に登場する全てのタンパク質からなる集合 φを用いる. 一方、 gapベクトル Gに関しては、以下のように定義する。
ここで £は扱うデータセットに登場する全ての化^物からなる ίβ である . また、 g(i)は、化合物 cにおいて、 m/z値 jのピークと m/z値 i+jのピークの間に計算さ れる間隔に対応する強度であり(式(21 )参照)、 M (c)は、化合物 cで観測される m/z 値の集合である。
特徴の順序を決定する場合、式(32)及び式(33)のように、化合物やタンパク質に おいて、登場回数が多ぐかつ,変動が大きな特徴を特徴の序列上位に配置するの が好ましい。このような特徴が最も識別のための表現力があると考えられるからである 。ベクトルの次元数を減らすために特徴を抽出する際も、異なるベクトル間で表現力 に富む特徴同士の関係性をみることにより、識別のためにより表現力のある異種べク トル間の関係性を抽出することが好ましい。
(3)化合物またはタンパク質を、他の方法でベクトル化して作成したベクトルの利用 なお、化合物に由来するベクトルとタンパク質に由来するベクトルを結合させる際は 、結合させるベクトルに、その化合物のマススペクトルデータに由来するベクトルが含 まれていればよぐ他の実施の形態として、この化合物由来のベクトルを、アミノ酸配 列以外の情報を利用してベクトル化したタンパク質由来のベクトルと結合させてもよく 、また、物理化学的特性値、化学式、構造式、 3次元立体構造などの情報を利用して
ベクトル化した化合物由来のベクトルなどを含め、複数の種類のベクトルと結合させ てもよい。その場合の結合方法は、上述の方法を利用してもよいが、特に限定されな い。
= = SVMへの適用 = =
SVMに関しては、一般に入手できるプログラムを用いればよぐ例えば、ウェブ上 で利用可能な LIBSVMを用いてもよい(C.-C.Chang and C.-J丄 in. LIBSVM: a libra ry for support vector machines, 2001. Software available at http://www.csie.ntu.edu .tw/ cjlin/libsvm.)。 LIBSVMで fュ、 C— support vector classification (C— SVC)、 v— su pport vector classification (v— SVC)、 one-class SVM、 v -support vector classificatio n - SVC)などの演算が可能である。以下の実施例では、 C-support vector classifi cation (C-SVC)を利用する。
LIBSVMでは、入力データの各次元毎にスケーリングの利用を推奨している。具 体的には、サンプル iの j次元目の値 Xのスケーリングを受けた値 s(x )は次のように表
lj lj
される。
式(34):
ii max ¾
7 min ¾, s(xij ) k
J k
J
otherwise ここで、 1、 hは、それぞれユーザーが定義する最小値と最大値である。以下の実施例 では、特に言及しない限り、スケーリングを入力データに適用した。
また、 LIBSVMでは、 SVMを確率推定に拡張している。本発明においても、「薬物 群 X大規模配列群」と!、つた大規模な結合予測を行う場合には、この確率推定を行つ てもよい。これは、大規模予測により相互作用候補が多数出現した場合に、その優先 順位をつけるうえで、確率推定値が有効な指標となりうるからである。
= =パターン認識器構成方法 = =
以上のようにして、異なる相互作用(第 1の相互作用及び第 2の相互作用)をする 2 クラスの、タンパク質と化合物のペア(第 1のペアと第 2のペア)に対して、各化合物に
ついて得られたマススペクトルデータのピークの位置、ピークの位置及び強度、 2つ のピークの間隔、 2つのピークの間隔及び対応する強度、の 4つの因子から選ばれた 少なくとも 1つの因子をベクトル化し、各タンパク質のアミノ酸配列をベクトル化し、そ れぞれのベクトルを結合して SVMを適用して学習させることにより、各クラスを識別す るパターン認識器を構成することができる。
[0045] このパターン認識器は、化合物のマススペクトルデータ及びタンパク質のアミノ酸デ ータに基づいて作成されたにもかかわらず、どのような相互作用を有するかによつて 学習させることにより、その相互作用のクラス分けと高度に一致させることができる。 なお、ここで対象とする相互作用は、タンパク質と化合物の間に生じる相互作用で あれば特に限定されず、物理的に結合するかどうかに関する構造的結合や、結合し たときにどのような作用を及ぼす結合であるかに関する機能的結合などを含んでもよ い。また、結合しない態様など、ある特定の相互作用をしない場合も、相互作用の一 形態とする。
[0046] また、学習に用いる、第 1の相互作用をする第 1のペア及び第 2の相互作用をする 第 2のペアについて、第 1の相互作用と第 2の相互作用は、互いに関連性の無い相 互作用でも構わないが、第 2の相互作用は、第 1の相互作用をしない作用であること が好ましい。実際上は、相互作用を調べた結果として第 1の相互作用をすることが明 らかになつていないペアを、近似的に第 1の相互作用をしないペアとして利用するこ とができるため、本明細書では、相互作用を調べた結果として第 1の相互作用をする ことが明らかになつていないペアも第 2の相互作用をするペアに含まれるものとする。
[0047] = =タンパク質-化合物間相互作用予測方法 = =
従って、相互作用が未知の第 3のペアについて、化合物およびタンパク質を上記と 同様にベクトル化し、上記パターン認識器を適用することにより、第 3のペアが 2つの クラスのうち、どちらのクラスに属するかを明らかにすることができ、第 3のペアが第 1 の相互作用と第 2の相互作用のうちどちらの相互作用をするかについて明らかにす ること力 Sでさる。
実施例
[0048] (実施例 1) AR (adrenergic receptor)と化合物の結合
本実施例では、 9種類の類似した構造を有するヒト ARファミリータンパク質(図 5)と 、 ARuB (adrenergic receptor database) (http://ardb.bjmu.edu.cn/ .) ίこノ'コニス卜あ るいはアンタゴニストとして記載され、 NIST05 (MST/EPA/MH mass spectral library ) (http://www.nist.gov/.)にマススペクトルデータが記載された 48化合物(図 6)を用 い、本発明の分類方法によって、各タンパク質と化合物のペアを分類し、その相互作 用との相関を調べた。各化合物の ARに対する結合様式を図 6bに示した。以下、結 合するかどうかに関しては、各化合物に対し、ターゲットとして記載されているタンパ ク質とのペアは positiveと記し(142ペア)、それ以外のタンパク質とのペアは、ターグ ットでは無レ、として、 negativeと記す(290ペア)。
(1)異なる Kernel関数を用いた場合の識別力
ARと化合物のペアに対し、その結合を連結表現のベクトル (F, G, C )で表し、異
it
なる Kernel関数を利用した場合の識別力を、 10-fold cross validationにおける sensitiv ity (sens.八 recision 、prec.)、 accuracy (ac )を評価墓傘どして評価した。具体的には 、まず、サンプルを n等分して nグループのデータセットを作成した。次に、そのうちの 1つをテストセットとし、残りの n— 1グループをトレーニングデータとして学習させたモ デルでテストセットの評価を行った。これを n回行い、作成した nグループ全てを 1回 ずつテストセットとして評価を行った。 そして、 sens.、 pre 、 ac を次式(35)で定義し 、それぞれの評価を行なった。なお、 gap intensityの計算方法には、式(21)を用い た。
式(35):
TP 一 _ TP — TP + TN
SeiiS*一 TP + FN' Pre°-― TP + FP' a = TP + FP + TN + FN ここで、各ペアの実際の測定結果を o、予測手法による予測結果を p、各ペアには p ositive 1、 negative— 1という 2クラスが存在するとしたとき、 TPは true positive(O =o = 1)の個数、 FPは false positive (p = 1、 o =— 1)の個数、 TNは true negativep =o = 1)の個数、 FNは false negative (p =— 1、 o = 1)の個数を表している。得られた 結果を図 7に示した。
この表において、 Kernel関数を用いない、つまり高次元への写像を与えない linear は、全ての評価基準で Kernel関数を用いる場合より識別力が劣っていた。この結果よ り、タンパク質 化合物相互作用予測問題は非線形 SVMによって識別可能な問題 ということ力 Sわ力、る。また、 Kernel関数の中で、全ての評価基準で RBF Kernelが最も 識別力が優秀であった。
[0050] (2)タンパク質に対し異なるベクトル化手法を用いた場合の識別力
タンパク質を異なるベクトル化手法でベクトル化し、結合を連結表現で表した場合 の識別力を図 8に示した。なお、識別力の評価には、(1)と同様の方法を用いた。 表に示すように、 C 、 triclustが、次元数削減とともに、最も精度が高かった。この結
It
果から、部分文字列と物理化学特性を結びつける手法の有効性が示されたと!、える 。また、同じ発想に基づく C 、 diclustを用いた場合、精度が低下した。これは、 89次
Id
元では識別上重要な特徴の混合が起こり、その識別能を失うためだと考えられる。 c 、 C に注目すると、 C を用いた方が精度が高かった。一方、配列の表現力自 od ot od
体は、 4200次元を有する C の方が、 400次元からなる C より高かった。 C と C の
od od od ot 精度の差は、表現の複雑さと精度が直結しな!、ことを示して!/、る。
また、 C (89次元)、 C (4200次元)を用いた場合の精度力 S、 C (199次元)や C
Id ot It od
(400次元)の精度に及ばないことは、適正な次元数の存在を示唆する。
[0051] (3)化合物に対し異なるベクトル化手法を用 1/、た場合の識別力
本実施例では、 fragmentベクトル Fと gapベクトル Gの 2つのベクトルの効果を比較す るために、タンパク質のベクトル化手法を Cで固定し、化合物のベクトル化手法に図
it
9で示した F及び Gを用いた場合の識別力を算出した。なお、識別力の評価には、 (1 )と同様の方法を用いた。
表に示すように、 Fまたは Gを単独で利用したときの精度は、 2つを併用したときの 精度にどちらも及ばなかった。従って、 fragmentベクトル Fと gapベクトル Gの両方を考 慮に入れることがより好ましい。各ベクトルの役割としては Fの方が Gより高い精度及 び sens.を有することから、化合物の特徴をよく表し、識別のベースとなるのは Fと考え られた。一方、 Fより Gの方が pre が高く、さらに、 Gより(F, G)の方が pre が高いこ とから、 Gは prec.を高める上で補助的な役割を有すると考えられた。
また、表に示すように、マススペクトルデータのピーク強度を用いてベクトル化を行 なった方が、ほとんどの場合において、ピーク強度を用いないでベクトル化したときよ り精度が高くなつた(図 9)。特に、 Fではなく F'を用いた場合に、精度の低下が著しく なった。従って、化合物の特徴を表現するに当たり、強度も用いることが好ましい。 (4)異なる結合表現を用いた場合の識別力
結合表現を、単なる連結表現を用いた場合と、組み合わせ表現を用いた場合とに おいて、それぞれ識別力を計算した。
また、ベクトルを結合させる際、以下のように他の方法によって作成した化合物由来 のベクターを含めて結合させることにより得られたパターン認識器の識別力も比較の 対象とした。まず、 pathを利用して d印 thに関する閾値 1、 hを定めたときの化合物 cに 対する 2Dベクトルを次式で定義した。
式(36): ) =闘
ここで /
1はべクトル化の対象となる全化合物の構造式において一度でも ¾場す る depth Iから hまでの pathの Ift合であり, 様に (ήは化合物(:の構造式 中に资場する pathの集合である. また, f
r(p) は化舍物 c中での path pの出現 |π|数を表す.
一方、 pathの出現回数を考慮せず、 pathの存在のみに着目した 2Dベクトルを以下 のように定義した。
式(37):
なお、いずれの場合も、識別力の評価には(1)と同様の方法を用いた。結果を図 1 0に示す。
表に示すように、本実施例では、組み合わせ表現を用いた場合のほうが、連結表 現を用いた場合より精度が向上した。また、 2Dべ外ル Dを同時に用いた場合、精度 は向上した。
[0053] (実施例 2) AR (adrenergic rec印 tor)と化合物の機能的相互作用
本実施例では、化合物が ARに対し、ァゴニストとして結合する力、、アンタゴニストと して結合するか、に関して、化合物の分類を行った。ここでは、図 6で示したデータを 用い、タンパク質の情報 Cを考慮しない場合(図 6a)と考慮した場合(図 6b)につい
It
て比較を行った。なお、アンタゴニストとして結合する場合を positiveァゴニストとして 結合する場合を negativeと記載する。 ARタンパク質の種類として、 《1には八, B, D の 3種類、 《2には八, B, Cの 3種類が存在するため、 positiveは、考慮しない場合( 図 6a)は 26ペア、考慮した場合(図 6b)は、 69ペア、 negativeは、考慮しない場合(図 6a)は 22ペア、考慮した場合(図 6b)は、 73存在することになる。各場合の分類結果 を図 11に示した。なお、ここで作成されたパターン認識器の識別力は、実施例 1 (1) と同様の方法で評価した。
タンパク質の情報を考慮すると、 V、ずれのベクトルを利用した場合(図 11A)でも、 非常に高い精度が得られた。そして、いずれの場合でも、タンパク質の情報を考慮に 入れな!/、場合(図 11B)と比較し、より精度が向上した。
[0054] (実施例 3) DrugBank (D.S.Wishart, C.Knox, A.C.Guo, S.Shrivastava, M.Hassanali, P.Stothard, Z.Chang, and J.Woolsey. DrugBank;a comprehensive resource for in sili co drug discvover and exploration. Nucleic Acids Res., Vol.34 (Database issue), pp. D668-D672, 2006.)に記載のデータを利用した場合
本実施例では、 DrugBank Approved Drug Target Protein Sequencesに己載された 薬剤 ターゲットタンパク質ペアの中から、 NIST05にマススペクトルデータが存在 する化合物とタンパク質のペア 980組(図 12)を例として、本発明の分類方法を検証 した。ここでは、結合することが記載されているペアを positiveなサンプルとし、結合す ることが記載されていないペアをランダムに選び、 negativeなサンプルとした。なお、こ
こで作成されたパターン認識器の識別力は、実施例 1 (1)と同様の方法で評価した。 その結果を図 13に示す。
表で示されるように、本実施例で用いたサンプルによっても、非常に高い精度で、 薬剤—ターゲットタンパク質ペアが分類された。本条件下でも、タンパク質ベクトル化 手法として、 Cまたは C を用いた場合に、より精度が高くなる傾向がある力 S、実施例
It od
1と異なり、 C を用いた場合の方が精度が向上した。また、実施例 1と同様に、各べク
od
トルの結合方法は、組み合わせ表現を用レ、る方が精度が向上した。
また、 Gについて、異なる強度計算方法を用いて識別力を評価した。図 14に示すよ うに、この条件下では、 3、 5、 6の計算式を用いた場合に、精度が向上した。
さらに、 negativeなサンプノレ数カ S、最終精度にどのような影響を与えるかを検討した ところ(図 15)、 negativeなサンプル数が増加すると、 prec.はあまり変化しないが、 sens .は低下し、 acc.は向上する。
このように、いずれの条件においても、高い精度で識別力を有するパターン認識器 が得られた力 利用するデータセットによって、最適となる条件は少しずつ異なる。
[0055] (実施例 4) DrugBankに記載のデータのうち、レセプターを用いた場合
本実施例では、 DrugBankに記載のデータのうち、タンパク質 化合物のペアがレ セプターとリガンドの関係にあるペア(図 12参照)を選択して分類し、識別力を評価し た。
図 16に示すように、単なる結合という相互作用に対する精度を評価した実施例 3よ り、いずれの条件を用いても、より高い精度が得られた。従って、タンパク質—化合物 相互作用に関し、特定の様式ごとにパターン認識器を学習させるのがより好ましい。
[0056] (実施例 5) PCAによる特徴選択の効果
本実施例では、 fragmentベクトノレ?、 ga ベクトノレ0、タンパク質べクトノレ Cに対し、 行列 Q 、 Q 、 Q を考えた。例えば、行列 Q は以下のようである(Q 、 Qも同様。以
F G C F G C
下、 Fについての例を示す。)。
式(38):
F2
QF = :
Wlノ
ここで :は扳ぅデータセットに登場する全ての化 物からなる槃 reある.
(Q の場合は、扱うデータセットに登場する全てのタンパク質からなる集合である。 ) c
この行列 Qに対し、主成分分析を行い、主成分得点行列 Sを得た。なお、主成分分 析は、統計解析ソフト Rprcompを用いて行なった。そして、化合物 cについて、 n個の 特徴を抽出した fragment vector Fn (c)を次のように定義した。
式(39):
Γ {( ) ― fl ) c2,…, SM) なお、ここでは、上記スケーリングは行なわなかった。
このような PCAを実施例 1の ARに関するデータ、及び実施例 3の DrugBankに記載 のデータに適用することより、特徴選択、順序決定をした場合の識別力を図 17に示 す。
表に示されるように、適当な特徴選択を行なっても、タンパク質 化合物相互作用 予測は可能であり、条件によっては、識別力を示す各要素が向上していた。
[0057] (実施例 6)タンパク質が結合する化合物の予測
本実施例では、 DrugBank datasetを用いて学習させた SVMモデルをパターン認識 器とし、 DrugBank dataset中の 519化合物を対象として、 Cytochrome P450 2E1 (Uni Prot P05181)及び Monoamine Oxidase A (UniProt ID: P1397)に結合するタンパク質 を行なったところ、それぞれ、実際の結合化合物に対して精度 92.29%及び 94.61%とな り、化合物ライブラリーの中から、結合化合物を検出することができた。
産業上の利用可能性
[0058] 本発明によって、タンパク質と化合物のペアの分類方法であって、汎用性が高ぐ 入手しやすいデータを利用し、網羅的に適用可能な方法、さらに、その分類方法を 利用して、相互作用が未知のペアに対し、その相互作用を予測する予測方法を提供 できる。