[go: up one dir, main page]

JP5211347B2 - タンパク質−化合物間相互作用予測方法 - Google Patents

タンパク質−化合物間相互作用予測方法 Download PDF

Info

Publication number
JP5211347B2
JP5211347B2 JP2008542157A JP2008542157A JP5211347B2 JP 5211347 B2 JP5211347 B2 JP 5211347B2 JP 2008542157 A JP2008542157 A JP 2008542157A JP 2008542157 A JP2008542157 A JP 2008542157A JP 5211347 B2 JP5211347 B2 JP 5211347B2
Authority
JP
Japan
Prior art keywords
compound
protein
vector
pair
formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008542157A
Other languages
English (en)
Other versions
JPWO2008053924A1 (ja
Inventor
康文 榊原
誠香 長嶺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Keio University
Original Assignee
Keio University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Keio University filed Critical Keio University
Priority to JP2008542157A priority Critical patent/JP5211347B2/ja
Publication of JPWO2008053924A1 publication Critical patent/JPWO2008053924A1/ja
Application granted granted Critical
Publication of JP5211347B2 publication Critical patent/JP5211347B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Epidemiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Evolutionary Computation (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Description

本発明は、タンパク質と化合物の相互作用を予測する予測方法に関する。
従来、タンパク質−化合物間相互作用予測として、docking解析など タンパク質と化合物の立体構造をモデリングし、結合エネルギーを計算する手法が中心的に研究されてきており、いくつもの市販ソフトが開発された(H.J.Bohm. The computer program LUDI: A new method for the de novo design of enzyme inhibitors. J.Comp.Aided.Mol.Des., Vol.6, pp.61-78, 1992; Y.Z.Chen and C.Y.Ung. Prediction of potential toxicity and side effect protein targets of a small molecule by a ligand-protein inverse docking approach. J.Mol.Graph Mod., Vol.20, pp.199-218, 2001; Y.Z.Chen and D.G.Zhi. Ligand-protein inverse docking and its potential use in computer search of putative protein targets of a small molecule. Proteins, Vol.43, pp.217-226, 2001; Y.Z.Chen and C.Y.Ung. Computer automated prediction of putative therapeutic and toxicity protein targets of bioactive compounds from chinese medical plants. Am.J.Chin.Med., Vol.30, pp.139-154, 2002; Y.Z.Chen, Z.R.Li, and C.Y.Ung. Computational method for drug target search and application in drug discovery. J.Theor.Comp.Chem., Vol.1, pp.213-224, 2002; R.L.Desjarlais, R.P.Sheri
dan an G.L.Seibel, J.S.Dixon, I.D.Kuntz, and R.Venkataraghavan. Using shape complementarity as an initial screen in designing ligands for a receptor-binding site of known three-dimensional structure. J.Med.Chem., Vol.31, pp.722-729, 1988; T.E.Ferrin, G.S.Couch, C.C.Huang, E.F.Pellersen, and R.Langridge. An affordable approach to interactive desk-top molecular modeling. J.Mol.Graphics, Vol.9; J.Goodford. A computational procedure for determining energetically favorable binding sites on biologically important macromolecules. J.Med.Chem., Vol.28, pp.849-857, 1985; G.Jones, P.WIllett, R.C.Glen, A.R.Leach, and R.Taylor. Development and calidation of a genetic algorithm for flexible dicking. J.Mol.Biol., Vol.267, pp. 727-748, 1997; A.R.Leach and I.D.Kuntz. Conformational analysis of flexible ligands in macromolecular receptors sites. J.Comput.Chem., Vol.13, pp.730-748, 1992; A.Miranker and M.Karplus. Functionality maps of binding sites: A multicopy simultaneous search method. Proteins, Vol.11, pp.29-34, 1991; A.Miranker and M.Karplus. An automated method for dynamic ligand design. Proteins, Vol.23, pp.472-490, 1995; M.Y.Mizutani, N.Tomioka, and A.Itai. Rational automatic search method for stable docking models of protein and ligand. J.Mol.Biol., Vol.243, pp.310-326, 1994; C.M.Oshiro, I.D.Kuntz,and J.S.Dixon. Flexible ligand docking using a genetic algorithm. J.Comp.Aided Mol.Des., Vol.9, pp.113-130, 1995; C.M.Oshiro and I.D.Kuntz. Characterization of receptors with a new negative image: Use in molecular docking and lead optimization. Proteins, Vol.30, pp.321-336, 1998; S.H.Rostein, M.A.Murcko, and A.GenStar. A method for de novo drug design. J.Comp.Aided Mol.Des., Vol.7, pp.23-43, 1993; B.K.Shoichet, D.L.Bodian, and I.D.Kuntz. Molecular docking using shape descriptors. J.Comput.Chem., Vol.13, pp.380-397, 1992; M.Zacharias, B.A.Luty, M.E.Davis, and J.A.McCammon. Combined conformational search and finite-difference poisson-boltazmann approach for flexible docking. J.Mol.Biol., Vol.238, pp.455-465,1994)。これらの手法は結合エネルギーという明確な根拠をもつ点で信頼性は高い。
しかしながら 立体構造を前提とする点は、この手法の短所であり、限界である。なぜなら、立体構造のデータの蓄積は進んでいるが、依然として構造未知のタンパク質は多いからである。例えば、PDB (H.M.Berman, J.Westbrook, Z.Feng, G.Gillil and, T.N.Bhat, H.Weissig, I.N.Shindyalov, and P.E.Bourne. The protein data bank, Nucleic Acids Res., Vol.28, pp.235-242, 2000. http://www.rcsb.org/pdb/.)されているタンパク質数は全生物合計で、14243個(blastで95%以上配列相同性があるものは同一のものとみなした場合)に過ぎない。そして、技術の進歩にかかわらず、未だに十分な構造解析を行えないタンパク質も多い。また、構造未知の場合には、タンパク質の立体構造予測手法や化合物の立体構造予測手法により構造推定を行うことは可能であるが、これらの予測手法も依然完全とはいえない。
そこで本発明は、タンパク質と化合物の相互作用が未知のペアに対し、その相互作用を予測する汎用的な予測方法を提供することを目的としてなされた。
本発明者らは、上記課題を解決するため、利用すべきデータの同定、及びそのデータの処理方法に関して鋭意努力し、以下の結果を得た。
まず、タンパク質及び化合物に関し、汎用性が高く、入手しやすいデータを検討した。
タンパク質に関し、現時点で最も入手が容易であり、さらに今後、新たなタンパク質が発見された時にも最初に得られるデータはアミノ酸配列である。
一方、化合物については、現時点で最も充実したデータは化学式及び構造式である。しかし、新たな化合物が発見された場合に、その構造式は様々な手法で推定されなければならず、その同定は必ずしも容易ではない。将来的に、新たな化合物が発見される可能性が最も高いのは 網羅的な代謝物解析を行った場合であるが、現在提案されている網羅的代謝物解析手法は、GC/MS(O.Fiehn, J.Kopka, P.Dormann, T.Altmann, R.Trethewey, and L.Willmitzer. Metabolite profiling for plant functional genomics.Nature Biotechnology, Vol.18, pp.1157-1161, 2000.; N.Glassbrook, C.Beecher, and J.Ryals. Metabolite profiling on the right path. Nature Biotechnology, Vol.18, pp.1142-1143, 2000.)やCE/MS(P. Schmitt-Kopplin and M.Frommberger. Capillary electrophoresis −mass spectrometry: 15 years of developments and applications. Electrophoresis, Vol.24, pp.3837-3867, 2003.; A.-C.Servais, J.Crommen, and M.Fillet. Capillary electrophoresis-mass spectrometry, an attractive tool for drug bioanalysis and biomarker discovery. Electrophoresis, Vol.27, pp.2616-2629, 2006.)などの質量分析(MS: mass spectrometry)を利用したものであるため、化合物のマススペクトルデータは、未知化合物について最も入手しやすいデータとなることが考えられる。現時点においてさえ、既に約160000化合物のマススペクトルデータを集めたデータベースが存在する(http://www.nist.gov/)。
そこで、本発明者らは、これらのデータを用いた統計学処理方法を検討した。すなわち、タンパク質と化合物の相互作用として、タンパク質・化合物間の結合、及びタンパク質・化合物間のアゴニスティック/アンタゴニスティックな機能的相互作用を例とし、入手可能なタンパク質のアミノ酸配列や化合物のマススペクトルデータについて、アミノ酸配列の所定の配列の出現頻度、及びマススペクトルデータのピークの位置や強度をベクトル化し、サポートベクターマシン(SVM)(V.Vapnik. Statistical Learning Theory. Wiley, New York, 1998.)を適用し、相互作用について学習させてパターン認識器を作成したところ、この分類が、結合や機能的相互作用についての分類と、高度に相関があることを見出した。こうして、本発明者らは、その相互作用が未知の、タンパク質と化合物のペアに対し、その相互作用を予測する予測方法の完成に至った。
そこで、本明細書には、少なくとも以下の19項の発明が含まれる。
〔1〕第1の相互作用をする第1のタンパク質と化合物のペア及び第2の相互作用をする第2のタンパク質と化合物のペアに対して、第1のペアが属するクラス及び第2のペアが属するクラスを識別するパターン認識器の構成方法であって、
各化合物について得られたマススペクトルデータの少なくとも1つの因子をベクトル化し、それぞれベクトルa〜a(xは1以上の整数)とする工程と、
各タンパク質をベクトル化し、ベクトルb〜b(yは1以上の整数)とする工程と、
少なくとも各化合物に由来して作成された前記ベクトルa〜aのうちの1つと該化合物とペアである前記タンパク質に由来して作成された当該ベクトルb(kは1〜yのいずれかの整数)とを結合させ、サポートベクターマシン(SVM)を適用して学習させることを特徴とするパターン認識器構成方法。
〔2〕前記マススペクトルデータの少なくとも1つの因子が、ピークの位置、ピークの位置及び強度、2つのピークの間隔、2つのピークの間隔及び対応する強度、の4つの因子から選ばれることを特徴とする〔1〕に記載のパターン認識器構成方法。
〔3〕前記ベクトルb〜bは、前記タンパク質における所定のアミノ酸配列の出現頻度を要素とするベクトルであることを特徴とする〔1〕または〔2〕に記載のパターン認識器構成方法。
〔4〕各化合物に由来して作成された前記ベクトルの1つは、下記式(1)でベクトル化されるベクトルF(c)であることを特徴とする〔1〕〜〔3〕のいずれかに記載のパターン認識器構成方法。
式(1):
Figure 0005211347
式中、Mは、全ての化合物に対して観測されるピークのm/z値の集合であり、M(c)は当該ペアの化合物に対して観測されるピークのm/z値の集合であり、I(m)は当該ペアの化合物に対して観測されるピークのm/z値におけるピークの強度を表す。
〔5〕各化合物に由来して作成された前記ベクトルの1つは、以下の数式でベクトル化されるベクトルF’(c)であることを特徴とする〔1〕〜〔3〕のいずれか1項に記載のパターン認識器構成方法。
式(2):
Figure 0005211347
式中、Mは、全ての化合物に対して観測されるピークのm/z値の集合であり、M(c)は当該ペアの化合物に対して観測されるピークのm/z値の集合を表す。
〔6〕各化合物に由来して作成された前記ベクトルの1つは、以下の数式でベクトル化されるベクトル
Figure 0005211347
であることを特徴とする〔1〕〜〔3〕のいずれか1項に記載のパターン認識器構成方法。
式(3):
Figure 0005211347
式中、Mgは、分類する全ての化合物に対して観察される2つのピークのm/z値の差の集合であり、Mg(c)は当該ペアの化合物に対して観察されるm/z値i及びjにおける2つのピークのm/z値の差j−iの集合であり、ここで、
式(4)
Figure 0005211347
式中、M(c)は、当該ペアの化合物で観測されるピークのm/z値の集合であり、ここで、
式(5):
Figure 0005211347
式中、Ii,Ijは、m/z値i及びjにおける2つのピークの強度であり、tはギャップを考慮する強度の閾値であり、wはm/z値i及びjにおける2つのピークのm/z値の差j−iの閾値である。
〔7〕各化合物に由来して作成された前記ベクトルの1つは、以下の数式でベクトル化されるベクトル
Figure 0005211347
であることを特徴とする〔1〕〜〔3〕のいずれか1項に記載のパターン認識器構成方法。
式(6):
Figure 0005211347
式中、Mgは、分類する全ての化合物に対して観察される2つのピークのm/z値の差の集合であり、Mg(c)は第3のペアの化合物に対して観察される2つのピークのm/z値の差の集合である。
〔8〕各化合物に由来して作成された前記ベクトルと、該化合物とペアである前記タンパク質に由来して作成された前記ベクトルを結合させて、ベクトル(a,b)または(a,a,b)を作成し、当該ベクトルにサポートベクターマシン(SVM)を適用することを特徴とする〔1〕〜〔7〕に記載のパターン認識器構成方法。
(式中、l、p、qは1〜xのいずれか、kは1〜yのいずれかである。)
〔9〕各化合物の物理化学的特性値、化学式、構造式、3次元立体構造の4つの因子から選ばれた少なくとも1つの因子をベクトル化してベクトルDとし、
該化合物に由来して作成された前記ベクトルと、該化合物とペアである前記タンパク質に由来して作成された前記ベクトルと、前記ベクトルDを結合させて、ベクトル(a,D,b)または(a,a,D,b)を作成し、当該ベクトルにサポートベクターマシン(SVM)を適用することを特徴とする〔1〕〜〔7〕のいずれか1項に記載のパターン認識器構成方法。
(式中、l、p、qは1〜xのいずれか、kは1〜yのいずれかである)
〔10〕サポートベクターマシンの識別関数が、下式(7)のように表現されることを特徴とする〔1〕〜〔9〕のいずれか1項に記載のパターン認識器構成方法。
式(7):
Figure 0005211347
〔11〕前記式(7)Kに下式(8)Kconc.を適用することを特徴とする〔10〕に記載のパターン認識器構成方法。
式(8):
Figure 0005211347
〔12〕前記式(7)Kに下式(9)Kcombiを適用することを特徴とする〔10〕に記載のパターン認識器構成方法。
式(9):
Figure 0005211347
〔13〕サポートベクターマシンが、linearカーネル、polynomialカーネル、RBF(Radial Basis Function)カーネル、またはsigmoidカーネルを利用することを特徴とする〔1〕〜〔12〕のいずれか1項に記載のパターン認識器構成方法。
〔14〕前記相互作用が、タンパク質と化合物の物理的結合であって、第1の相互作用は、タンパク質と化合物が結合することであり、第2の相互作用は、タンパク質と化合物が結合しないことであり、
タンパク質と化合物のペアを、結合するかしないかで分類することを特徴とする〔1〕〜〔13〕のいずれかに記載のパターン認識器構成方法。
〔15〕前記相互作用が、タンパク質と化合物の機能的結合であって、第1の相互作用は、アゴニストとして化合物がタンパク質と結合することであり、第2の相互作用は、アンタゴニストとして化合物がタンパク質と結合することであり、
化合物がタンパク質に対しアゴニストとして結合するか、アンタゴニストとして結合するか、によって、前記タンパク質と前記化合物のペアを分類することを特徴とする〔1〕〜〔13〕のいずれかに記載のパターン認識器構成方法。
〔16〕タンパク質と化合物の相互作用を予測する予測方法であって、
第1の相互作用をするタンパク質と化合物の第1のペア、第2の相互作用をするタンパク質と化合物の第2のペア、前記予測するべきタンパク質と化合物の第3のペアに対し、
〔1〕〜〔15〕のいずれかに記載のパターン認識器構成方法により、第1のペアが属するクラス及び第2のペアが属するクラスを識別するパターン認識器を構成する工程と、
第3のペアを用いて作成されたベクトルBに対して前記パターン認識器を適用して、第3のペアが、前記2つのクラスのどちらのクラスに入るかを識別する工程と、
を含むことを特徴とする予測方法。
〔17〕化合物ライブラリーの中から、特定のタンパク質に結合する化合物をスクリーニングするスクリーニング方法であって、
前記化合物ライブラリーに含まれる各化合物に対して〔16〕に記載の予測方法を行なって、前記タンパク質と当該化合物の相互作用を予測する工程を含むことを特徴とするスクリーニング方法。
〔18〕タンパク質ライブラリーの中から、特定の化合物に結合するタンパク質をスクリーニングするスクリーニング方法であって、
前記タンパク質ライブラリーに含まれる各タンパク質に対して〔16〕に記載の予測方法を行なって、前記化合物と当該タンパク質の相互作用を予測する工程を含むことを特徴とするスクリーニング方法。
〔19〕第1の相互作用をする第1のタンパク質と化合物のペア及び第2の相互作用をする第2のタンパク質と化合物のペアに対して、第1のペアが属するクラス及び第2のペアが属するクラスを識別するパターン認識器の構成方法であって、
各化合物について得られたマススペクトルデータの少なくとも1つの因子をベクトル化し、それぞれベクトルa〜a(xは1以上の整数)とする工程と、
各化合物に由来して作成された前記ベクトルa〜aを用いて、サポートベクターマシン(SVM)を適用して学習させることを特徴とするパターン認識器構成方法。
==関連文献とのクロスリファレンス==
なお、本出願は、2006年10月31日出願の日本国出願番号特願2006−297111を基礎とする優先権の利益を主張し、これを引用することにより本明細書に含める。
Venkatarajanらによって選択された237個のアミノ酸の物理化学的特性のリストである。 Venkatarajanらが20種類のアミノ酸を表現した5次元ベクトルのリストである。 本発明にかかる一つの実施形態において、400種類のdipeptideに対し、クラスタリングして得られた89種類のクラスターのリストである。 本発明にかかる一つの実施形態において、4200種類のtripeptideに対し、クラスタリングして得られた199種類のクラスターのリストである。 ヒトARファミリーに属するタンパク質同士におけるアミノ酸配列の相同性を記載した表である。 (a)はヒトARファミリータンパク質の機能的分類を示した表である。(b)はヒトARファミリータンパク質に結合する化合物の、ARタンパク質に対する結合様式を示した図である。 本発明にかかる一つの実施例において、SVMの実行に際し、異なるKernel関数を用いた場合のパターン認識器の識別力を示した表である。 本発明にかかる一つの実施例において、タンパク質のベクトル化に対し、異なるベクトル化手法を用いた場合のパターン認識器の識別力を示した表である。 本発明にかかる一つの実施例において、化合物のベクトル化に対し、異なるベクトル化手法を用いた場合のパターン認識器の識別力を示した表である。 本発明にかかる一つの実施例において、タンパク質由来のベクトルと化合物由来のベクトルの結合に際し、異なる結合表現を用いた場合のパターン認識器の識別力を示した表である。 本発明にかかる一つの実施例において、タンパク質由来の情報を考慮に入れた場合(A)と入れない場合(B)のパターン認識器の識別力を示した表である。 DrugBank Approved Drug Target Protein Sequencesに記載された薬剤−ターゲットタンパク質ペアの中から、NIST05にマススペクトルデータが存在する化合物とタンパク質のペア980組の特徴を示した表である。 本発明にかかる一つの実施例において、DrugBank Approved Drug Target Protein Sequencesに記載のデータを使用した場合のパターン認識器の識別力を示した表である。 本発明にかかる一つの実施例において、gapベクトルに関し、異なる強度計算方法を用いた場合のパターン認識器の識別力を示した表である。 本発明にかかる一つの実施例において、negativeなサンプル数を増やした場合のパターン認識器の識別力を示した表である。 本発明にかかる一つの実施例において、DrugBank Approved Drug Target Protein Sequencesに記載された薬剤−ターゲットタンパク質ペアの中から、レセプターとリガンドの関係にあるペアを用いた場合のパターン認識器の識別力を示した表である。 本発明にかかる一つの実施例において、PCAによって特徴選択した場合のパターン認識器の識別力を示した表である。
以下、本発明の実施の形態において、タンパク質と化合物の相互作用を予測する予測方法について、実施例を挙げながら具体的かつ詳細に説明するが、本発明はこれらの実施の形態あるいは実施例に限定されるものではない。
なお、本発明の目的、特徴、利点、及びそのアイデアは、本明細書の記載により、当業者には明らかであり、本明細書の記載から、当業者であれば、容易に本発明を再現できる。以下に記載された発明の実施の形態及び具体的な実施例などは、本発明の好ましい実施態様を示すものであり、例示又は説明のために示されているのであって、本発明をそれらに限定するものではない。本明細書で開示されている本発明の意図ならびに範囲内で、本明細書の記載に基づき、様々に修飾ができることは、当業者にとって明らかである。
==タンパク質のベクトル化==
まず、y個のタンパク質について、各タンパク質をベクトル化し、ベクトルb〜b(yは1以上の整数)とする手法を述べる。ベクトル化するのは、タンパク質全体のアミノ酸配列を用いてもよく、また、結合部位など、部分配列を用いてもよいが、タンパク質のベクトル化方法は特に限定されず、例えば、タンパク質の各アミノ酸残基の電荷、疎水性、表面張力、立体構造などを利用してベクトル化しても構わない(J.R.Bock and D.A.Gough. Predicting protein-protein interactinos from primary structure. Bioinformatics, Vol.17, No.5, pp.455-460, 2001.; C.Yanover and T.Hertz. Predicting protein-peptide binding affinity by learning peptide-peptide distance functions. In RECOMB 2005, pp.456-471, 2005.)。ここでは、一例として、各タンパク質における所定のアミノ酸配列の特徴の出現頻度を要素とするベクトルC(p)を、以下のように作成する方法を述べる。
式(10):
Figure 0005211347
式中、Cはベクトル化の対象となる全タンパク質において一度でも出現する特徴cの集合である。また、fp(c)は、タンパク質pにおける特徴cの出現回数を表す。
利用するアミノ酸配列の特徴として、アミノ酸n個(nは自然数)の配列の全組み合わせの出現頻度としてもよく、また、各部分配列を、物理化学的特性によって分類し、各グループの出現頻度としてもよい。利用するアミノ酸配列のアミノ酸数は、特に限定されないが、ベクトルの要素数から、アミノ酸2個または3個の部分配列を利用するのが好ましい。
以下、代表的なアミノ酸配列の選び方、及びベクトルaの作成方法について述べるが、アミノ酸配列の特徴は、これらに限定されない。
(1)dipeptide(アミノ酸2個の配列)の利用
ここでは、ベクトルCとして、アミノ酸2個の配列の全組み合わせの出現頻度(M.Bhasin and G.P.S.Raghava. GPCR pred: and SVM-based method for prediction of families and subfamilies of g-protein coupled receptors. Nucleic Acids Res., Vol.32, pp.383-389, 2004.)を要素とするベクトルCodを作成する。自然界に存在するアミノ酸は20種類なので、このベクトルは、20=400の要素を有することになる。
(2)tripeptide(アミノ酸3個の配列)の利用
ベクトルCとして、アミノ酸3個の配列の全組み合わせの出現頻度を要素とするベクトルCotを作成してもよい。自然界に存在するアミノ酸は20種類なので、このベクトルは、20=8000の要素を有する、8000次元のベクトルになる。
また、Martinらによって行われたように(S.Martin, D.Roe, and J.-L.Faulon. Predicting protein-protein interactions using signature products. Bioinformatics, Vol.21, No.2, pp.218-226, 2005.)、アミノ酸3個の配列において両端のアミノ酸の区別をせずに、その配列の組み合わせの出現頻度を要素とするベクトルを作成してもよい。この場合、(8000−400)/2+400=4200の要素を有する、4200次元のベクトルになる。
(3)diclustの利用
ベクトルCとして、アミノ酸2個の配列の組み合わせを、物理化学的特性値によってグループ分けし、各グループの出現頻度を要素とするベクトルCldを作成してもよい。
例えば、Venkatarajanらは、237個の20アミノ酸の物理化学的特性値(図1)から、以下のように5次元ベクトルを求めた(M.S.Venkatarajan and W.Braun. New quantitative descriptors of amino acids based on multidimensional scaling of a large number of physical-chemical properties. Journal of Molecular Modeling, Vol.7, pp.445-453, 2001.)。
Figure 0005211347
最終的に、Venkatarajanらは、この上位5つの固有値と固有ベクトルを利用してアミノ酸iを次のような5次元ベクトルα(i)で表現した。なお、この5つの固有値と各アミノ酸の固有ベクトルを図2に示す。
式(16):
Figure 0005211347
この5次元ベクトルを利用して、アミノ酸i、及び、アミノ酸jからなるdipeptide(i,j)を表現する物理化学特性ベクトルα(i,j)を次式で定義する。
式(17):
Figure 0005211347
合計400種類のdipeptideに対応するα(i,j)に対して、variational Bayesian mixture modellingによるクラスタリングを行い、合計89種類のクラスターを得る。この各クラスターを式(10)においてCを構成する特徴cとして扱う。下記の実施例では、variational Bayesian mixture modellingには、統計解析ソフトR(http://www.r-project.org/)のvabayelMixパッケージ(A.E.Teschendorff, Y.Wang, N.L.Barbosa-Morais, J.D.Brenton, and C.Caldas. A variational Bayesian mixture modelling framework for cluster analysis of gene-expression data. Bioinformatics, Vol.21, No.13, pp.3025-3033, 2005.)を利用した。
なお、この89種類のクラスターは、詳細には400種類のdipeptideに対応する400個の5次元ベクトルに対して2段階のクラスタリングを行うことで得られる。第一段階のクラスタリングで400個のベクトルを25個のクラスターに分け、それぞれのクラスターにおいて、それに属するベクトルに対して第二段階のクラスタリングを行い、25個のクラスターから合計89個のクラスターを得ることができる。89個のクラスターに含まれるdipeptideについては図3に示す。
(4)triclustの利用
ベクトルCとして、アミノ酸3個の配列の組み合わせを、物理化学的特性値によってグループ分けし、各グループの出現頻度を要素とするベクトルCltを作成してもよい。
例えば、(2)で記載したようなアミノ酸3個の配列α(a01, a11, a12)を、(3)で記載したアミノ酸iを表現する5次元ベクトルα(i)を利用して、次のように定義する。
式(18):
Figure 0005211347
合計4200種類のtripeptideに対応するα(a01, a11, a12)に対して、variational Bayesian mixture modellingによるクラスタリングを行い、合計199種類のクラスターを得る。この各クラスターを式(10)においてCを構成する特徴cとして扱う。下記の実施例では、variational Bayesian mixture modellingには、統計解析ソフトR(http://www.r-project.org/)のvabayelMixパッケージ(A.E.Teschendorff, Y.Wang, N.L.Barbosa-Morais, J.D.Brenton, and C.Caldas. A variational Bayesian mixture modelling framework for cluster analysis of gene-expression data. Bioinformatics, Vol.21, No.13, pp.3025-3033, 2005.)を利用した。
なお、この199種類のクラスターは、詳細には4200種類のtripeptideに対応する4200個の5次元ベクトルに対して2段階のクラスタリングを行うことで得られる。第一段階のクラスタリングで4200個のベクトルを34個のクラスターに分け、それぞれのクラスターにおいて、それに属するベクトルに対して第二段階のクラスタリングを行い、34個のクラスターから合計199個のクラスターを得ることができる。199個のクラスターに含まれるtripeptideについては図4に示す。
==化合物のベクトル化==
化合物のベクトル化は、当該化合物のマススペクトルを利用して行う。つまり、マススペクトルデータの少なくとも1つの因子(ここではx個とする)をベクトル化し、それぞれベクトルa〜a(xは1以上の整数)とすればよいが、ここで、どの因子を選ぶかは限定されない。例えば、一つのマススペクトルデータにおいて、観察されるピークの位置と強度の情報を数値化してfragmentベクトル(F)を、ピークとピークの間隔及び強度の情報を数値化してgapベクトル(G)を作成することができる。
(1)fragmentベクトルの作成
例えば、化合物cのマススペクトルに対するベクトルF(c)は、観察されるピークの位置と強度の両方を考慮した場合、次式で表現される。
式(19):
Figure 0005211347
また、強度を考慮せず、ピークの位置のみを考慮した場合のベクトルF’(c)は次式で表現される。
式(20):
Figure 0005211347
これらの式中、Mは、全ての化合物に対して観測されるピークのm/z値の集合であり、M(c)は当該化合物に対して観測されるピークのm/z値の集合であり、I(m)は当該化合物に対して観測されるピークのm/z値におけるピークの強度を表す。
(2)gap ベクトルの作成
例えば、m/z値i及びj(j>i)において、それぞれ強度Ii、Ijを持つ2つのマススペクトルのピークの間隔に対応する強度gi(j−i)を次のように定義する。
Figure 0005211347
式(21):
Figure 0005211347
式中、tはギャップを考慮する強度の閾値であり、wは2つのピークのm/z値の差の閾値である。tはノイズの存在、wは主に放射性同位体の存在を考慮した閾値である。
なお、gi(j−i)は脱離のゴール地点iを定めた場合の値であり、同一化合物中に同じm/z値、つまりj−iを持つものが多数存在する場合があるので、一つの化合物c全体での間隔mに対応する強度を次のように定める。
式(22):
Figure 0005211347
式中、M(c)は化合物cで観測されるm/z値の集合である。
最終的に、式(21)における閾値t、wを定めた時の化合物cのマススペクトルに対するgapベクトルは次式で表現される。
式(23):
Figure 0005211347
また、強度を考慮せず、ピークの位置のみを考慮した場合のベクトルG’(c)は次式で表現される。
式(24):
Figure 0005211347
これらの式中、Mgは、ベクトル化の対象となる全化合物のマススペクトルにおいて、一度でも観察される間隔の集合であり、Mg(c)は化合物cで観測される間隔の集合である。
なお、gi(j−i)の計算に、式(21)以外に、以下の式(25)を用いてもよいが、最終的に識別力の精度(accuracy)が高くなるため、式(21)を用いるのが好ましい。
式(25):
Figure 0005211347
(3)従来のベクトル化方法
Zernovらは、SVMによる薬剤と非薬剤の識別,農薬と非農薬の識別において、物理化学的特性値を利用して化合物をベクトル化した(V.V.Zernov, K.V.Balakin, A.A.Ivaschenko, N.P.Savchuk, and I.V.Pletnev. Drug discovery using support vector machines. the case studies of drug-likeness,agrochemical-likeness, and enzyme inhibition predictions. J.Chem.Inf.Comput.Sci., Vol.43, pp.2048-2056, 2003.)。また、Swamidassらは、化合物の変異誘導性,毒性識別において化合物をベクトル化するにあたり、[1]化学式から導き出されるSMILES文字列を利用する方法、[2]化合物の構造式からpath抽出を行う方法、[3]化合物の3次元立体構造から、各原子間の距離を計算する方法を開発した(S.J.Swamidass, J.Chen, J.Bruand, P.Phung, L.Ralaivola, and P.Baldi. Kernels for small molecules and the prediction of mutagenicity, toxicity and anti-cancer actibity. Bioinformatics, Vol.21, No.Supple 1, pp.359-368, 2005.)。
==タンパク質・化合物ペアの結合表現==
上記のように作成した、化合物のマススペクトルデータに由来するベクトルa〜aのうちの少なくとも1つを用いて作成した化合物に対するベクトルaとタンパク質のアミノ酸配列に由来するベクトルb(kは1〜yのいずれかの整数)を用いて作成したタンパク質に対するベクトルbを結合するが、結合方法は限定されない。
(1)連結表現
例えば、最も単純な結合方法として、これらのベクトルを連結すればよく(J.R.Bock and D.A.Gough. Predicting protein-protein interactions from primary structure. Bioinformatics, Vol.17, No.5, pp.455-460, 2001.; S.M.Gomez, W.S.Noble, and A.Rzhetsky. Learning to predict protein-protein interactions. Bioinformatics, Vol.19, pp.1875-1881, 2003.)、以下のように表現される。
式(26):
Figure 0005211347
ここで、上記のように、例えば、a=(F,G)や(F)等で表現され、b=(Clt(b))や(Cot(b))等で表現される。
この場合、SVMの識別関数は、以下の式で表現される。
式(27):
Figure 0005211347
特に、Kernel関数にRBF Kernelを利用する場合は、この式において、以下の計算をしていることになる。
式(28):
Figure 0005211347
(2)組み合わせ表現
(1)の連結表現では、基本的に化合物・化合物間やタンパク質・タンパク質間の関係性に注目し、その関係性の積の形で相互作用の特徴を見出そうとしている。しかしながら、相互作用する化合物とタンパク質に特有なタンパク質・化合物間の関係性が存在する可能性がある。その関係性を評価するため、組合せ表現では式(28)の代わりに次のような計算を行う。
式(29):
Figure 0005211347
この式において、Kaa、Kbb、Kabに、異なるKernel関数を用いてもよい。また、異なるパラメーターを利用することが可能であり、パラメーター等の調節により、それぞれの関係性に対して任意の重み付けをすることもできる。
この計算では、a’とb’の内積を求める必要があるが、aとbのベクトル長が異なる場合は計算に不都合が生じるため、aとbに処理を加え、a’とb’は同じベクトル長を持つようにする。これはまた、連結表現においては潜在的に存在したベクトル長の違いに起因する重みを排除する効果も有する。
具体的には、式(29)において、化合物a=(F,G)、タンパク質bで表現した場合、組み合わせ表現ではタンパク質・化合物ペアB=(a, b)=(F,G,C)とB=(a, b)=(F,G,C)に対し、以下のようなKernel関数の計算を行う。
式(30):
Figure 0005211347
本手法では、Kij(x、y)として、以下の4つのKernel関数のいずれかを用いる。
式(31):
Figure 0005211347
ここで、ベクトル長を一定にするために、化合物に由来するベクトル、またはタンパク質に由来するベクトル、のいずれのベクトルの次元数に合わせてもよいが、化合物に由来するベクトルは、化合物のマススペクトルデータセットやパラメーターに依存して次元数が変動するのに対し、タンパク質に由来するベクトルの次元数は、データセットに依存しないため、タンパク質に由来するベクトルの次元数を用いるのが好ましい。その場合、化合物に由来するベクトルから、利用するベクトルの次元数と同じ数の要素を抽出し、同じ次元数を持つベクトルを作成する必要がある。
この要素の選択方法は特に限定されず、ランダムに選択しても構わないが、例えば、化合物に由来するベクトルの要素の中から、タンパク質と化合物のペアの分類のために、最も重要だと考えられる特徴を選択してもよい。
例えば、式(30)において、KFG(F1,G1)などを式(31)で計算する場合、各ベクトルの特徴の順序によって計算結果が異なってくるため、以下のような基準によって特徴の順序を決定してもよく、特徴数を減らさなければいけないような場合には、並べた順序の上位から数えて、必要な数の特徴を選択してもよい。
まず、化合物に対するfragmentベクトルF、タンパク質に関するベクトルCに関しては、特徴iに対して、次のように定義されるMSEの降順を特徴の順序とする。
式(32):
Figure 0005211347
Figure 0005211347
一方、gapベクトルGに関しては、以下のように定義する。
式(33):
Figure 0005211347
Figure 0005211347
また、g(i)は、化合物cにおいて、m/z値jのピークとm/z値i+jのピークの間に計算される間隔に対応する強度であり(式(21)参照)、M(c)は、化合物cで観測されるm/z値の集合である。
特徴の順序を決定する場合、式(32)及び式(33)のように、化合物やタンパク質において、登場回数が多く、かつ,変動が大きな特徴を特徴の序列上位に配置するのが好ましい。このような特徴が最も識別のための表現力があると考えられるからである。ベクトルの次元数を減らすために特徴を抽出する際も、異なるベクトル間で表現力に富む特徴同士の関係性をみることにより、識別のためにより表現力のある異種ベクトル間の関係性を抽出することが好ましい。
(3)化合物またはタンパク質を、他の方法でベクトル化して作成したベクトルの利用
なお、化合物に由来するベクトルとタンパク質に由来するベクトルを結合させる際は、結合させるベクトルに、その化合物のマススペクトルデータに由来するベクトルが含まれていればよく、他の実施の形態として、この化合物由来のベクトルを、アミノ酸配列以外の情報を利用してベクトル化したタンパク質由来のベクトルと結合させてもよく、また、物理化学的特性値、化学式、構造式、3次元立体構造などの情報を利用してベクトル化した化合物由来のベクトルなどを含め、複数の種類のベクトルと結合させてもよい。その場合の結合方法は、上述の方法を利用してもよいが、特に限定されない。
==SVMへの適用==
SVMに関しては、一般に入手できるプログラムを用いればよく、例えば、ウェブ上で利用可能なLIBSVMを用いてもよい(C.-C.Chang and C.-J.Lin. LIBSVM: a library for support vector machines, 2001. Software available at http://www.csie.ntu.edu.tw/~cjlin/libsvm.)。LIBSVMでは、C-support vector classification (C-SVC)、v- support vector classification (v- SVC)、one-class SVM、ν-support vector classification (ν-SVC)などの演算が可能である。以下の実施例では、C-support vector classification (C-SVC)を利用する。
LIBSVMでは、入力データの各次元毎にスケーリングの利用を推奨している。具体的には、サンプルiのj次元目の値xijのスケーリングを受けた値s(xij)は次のように表される。
式(34):
Figure 0005211347
ここで、l、hは、それぞれユーザーが定義する最小値と最大値である。以下の実施例では、特に言及しない限り、スケーリングを入力データに適用した。
また、LIBSVMでは、SVMを確率推定に拡張している。本発明においても、「薬物群x大規模配列群」といった大規模な結合予測を行う場合には、この確率推定を行ってもよい。これは、大規模予測により相互作用候補が多数出現した場合に、その優先順位をつけるうえで、確率推定値が有効な指標となりうるからである。
==パターン認識器構成方法==
以上のようにして、異なる相互作用(第1の相互作用及び第2の相互作用)をする2クラスの、タンパク質と化合物のペア(第1のペアと第2のペア)に対して、各化合物について得られたマススペクトルデータのピークの位置、ピークの位置及び強度、2つのピークの間隔、2つのピークの間隔及び対応する強度、の4つの因子から選ばれた少なくとも1つの因子をベクトル化し、各タンパク質のアミノ酸配列をベクトル化し、それぞれのベクトルを結合してSVMを適用して学習させることにより、各クラスを識別するパターン認識器を構成することができる。
このパターン認識器は、化合物のマススペクトルデータ及びタンパク質のアミノ酸データに基づいて作成されたにもかかわらず、どのような相互作用を有するかによって学習させることにより、その相互作用のクラス分けと高度に一致させることができる。
なお、ここで対象とする相互作用は、タンパク質と化合物の間に生じる相互作用であれば特に限定されず、物理的に結合するかどうかに関する構造的結合や、結合したときにどのような作用を及ぼす結合であるかに関する機能的結合などを含んでもよい。また、結合しない態様など、ある特定の相互作用をしない場合も、相互作用の一形態とする。
また、学習に用いる、第1の相互作用をする第1のペア及び第2の相互作用をする第2のペアについて、第1の相互作用と第2の相互作用は、互いに関連性の無い相互作用でも構わないが、第2の相互作用は、第1の相互作用をしない作用であることが好ましい。実際上は、相互作用を調べた結果として第1の相互作用をすることが明らかになっていないペアを、近似的に第1の相互作用をしないペアとして利用することができるため、本明細書では、相互作用を調べた結果として第1の相互作用をすることが明らかになっていないペアも第2の相互作用をするペアに含まれるものとする。
==タンパク質-化合物間相互作用予測方法==
従って、相互作用が未知の第3のペアについて、化合物およびタンパク質を上記と同様にベクトル化し、上記パターン認識器を適用することにより、第3のペアが2つのクラスのうち、どちらのクラスに属するかを明らかにすることができ、第3のペアが第1の相互作用と第2の相互作用のうちどちらの相互作用をするかについて明らかにすることができる。
(実施例1)AR(adrenergic receptor)と化合物の結合
本実施例では、9種類の類似した構造を有するヒトARファミリータンパク質(図5)と、ARDB(adrenergic receptor database)(http://ardb.bjmu.edu.cn/.)にアゴニストあるいはアンタゴニストとして記載され、NIST05(NIST/EPA/NIH mass spectral library)(http://www.nist.gov/.)にマススペクトルデータが記載された48化合物(図6)を用い、本発明の分類方法によって、各タンパク質と化合物のペアを分類し、その相互作用との相関を調べた。各化合物のARに対する結合様式を図6bに示した。以下、結合するかどうかに関しては、各化合物に対し、ターゲットとして記載されているタンパク質とのペアはpositiveと記し(142ペア)、それ以外のタンパク質とのペアは、ターゲットでは無いとして、negativeと記す(290ペア)。
(1)異なるKernel関数を用いた場合の識別力
ARと化合物のペアに対し、その結合を連結表現のベクトル(F,G,Clt)で表し、異なるKernel関数を利用した場合の識別力を、10-fold cross validationにおけるsensitivity (sens.)、precision (prec.)、accuracy (acc.)を評価基準として評価した。具体的には、まず、サンプルをn等分してnグループのデータセットを作成した。次に、そのうちの1つをテストセットとし、残りのn−1グループをトレーニングデータとして学習させたモデルでテストセットの評価を行った。これをn回行い、作成したnグループ全てを1回ずつテストセットとして評価を行った。 そして、sens.、prec.、acc.を次式(35)で定義し、それぞれの評価を行なった。なお、gap intensityの計算方法には、式(21)を用いた。
式(35):
Figure 0005211347
ここで、各ペアの実際の測定結果をo、予測手法による予測結果をp、各ペアにはpositive 1、negative −1という2クラスが存在するとしたとき、TPはtrue positive(p=o=1)の個数、FPはfalse positive(p=1、o=−1)の個数、TNはtrue negativep=o=−1)の個数、FNはfalse negative(p=−1、o=1)の個数を表している。得られた結果を図7に示した。
この表において、Kernel関数を用いない、つまり高次元への写像を与えないlinearは、全ての評価基準でKernel関数を用いる場合より識別力が劣っていた。この結果より、タンパク質−化合物相互作用予測問題は非線形SVMによって識別可能な問題ということがわかる。また、Kernel関数の中で、全ての評価基準でRBF Kernelが最も識別力が優秀であった。
(2)タンパク質に対し異なるベクトル化手法を用いた場合の識別力
タンパク質を異なるベクトル化手法でベクトル化し、結合を連結表現で表した場合の識別力を図8に示した。なお、識別力の評価には、(1)と同様の方法を用いた。
表に示すように、Clt、triclustが、次元数削減とともに、最も精度が高かった。この結果から、部分文字列と物理化学特性を結びつける手法の有効性が示されたといえる。また、同じ発想に基づくCld、diclustを用いた場合、精度が低下した。これは、89次元では識別上重要な特徴の混合が起こり、その識別能を失うためだと考えられる。
od、Cotに注目すると、Codを用いた方が精度が高かった。一方、配列の表現力自体は、4200次元を有するCodの方が、400次元からなるCodより高かった。CodとCotの精度の差は、表現の複雑さと精度が直結しないことを示している。
また、Cld(89次元)、Cot(4200次元)を用いた場合の精度が、Clt(199次元)やCod(400次元)の精度に及ばないことは、適正な次元数の存在を示唆する。
(3)化合物に対し異なるベクトル化手法を用いた場合の識別力
本実施例では、fragmentベクトルFとgapベクトルGの2つのベクトルの効果を比較するために、タンパク質のベクトル化手法をCltで固定し、化合物のベクトル化手法に図9で示したF及びGを用いた場合の識別力を算出した。なお、識別力の評価には、(1)と同様の方法を用いた。
表に示すように、FまたはGを単独で利用したときの精度は、2つを併用したときの精度にどちらも及ばなかった。従って、fragmentベクトルFとgapベクトルGの両方を考慮に入れることがより好ましい。各ベクトルの役割としてはFの方がGより高い精度及びsens.を有することから、化合物の特徴をよく表し、識別のベースとなるのはFと考えられた。一方、FよりGの方がprec.が高く、さらに、Gより(F,G)の方がprec.が高いことから、Gはprec.を高める上で補助的な役割を有すると考えられた。
また、表に示すように、マススペクトルデータのピーク強度を用いてベクトル化を行なった方が、ほとんどの場合において、ピーク強度を用いないでベクトル化したときより精度が高くなった(図9)。特に、FではなくF’を用いた場合に、精度の低下が著しくなった。従って、化合物の特徴を表現するに当たり、強度も用いることが好ましい。
(4)異なる結合表現を用いた場合の識別力
結合表現を、単なる連結表現を用いた場合と、組み合わせ表現を用いた場合とにおいて、それぞれ識別力を計算した。
また、ベクトルを結合させる際、以下のように他の方法によって作成した化合物由来のベクターを含めて結合させることにより得られたパターン認識器の識別力も比較の対象とした。まず、pathを利用してdepthに関する閾値l、hを定めたときの化合物cに対する2Dベクトルを次式で定義した。
式(36):
Figure 0005211347
一方、pathの出現回数を考慮せず、pathの存在のみに着目した2Dベクトルを以下のように定義した。
式(37):
Figure 0005211347
なお、いずれの場合も、識別力の評価には(1)と同様の方法を用いた。結果を図10に示す。
表に示すように、本実施例では、組み合わせ表現を用いた場合のほうが、連結表現を用いた場合より精度が向上した。また、2DベクトルDを同時に用いた場合、精度は向上した。
(実施例2)AR(adrenergic receptor)と化合物の機能的相互作用
本実施例では、化合物がARに対し、アゴニストとして結合するか、アンタゴニストとして結合するか、に関して、化合物の分類を行った。ここでは、図6で示したデータを用い、タンパク質の情報Cltを考慮しない場合(図6a)と考慮した場合(図6b)について比較を行った。なお、アンタゴニストとして結合する場合をpositive、アゴニストとして結合する場合をnegativeと記載する。ARタンパク質の種類として、α1にはA,B,Dの3種類、α2にはA,B,Cの3種類が存在するため、positiveは、考慮しない場合(図6a)は26ペア、考慮した場合(図6b)は、69ペア、negativeは、考慮しない場合(図6a)は22ペア、考慮した場合(図6b)は、73存在することになる。各場合の分類結果を図11に示した。なお、ここで作成されたパターン認識器の識別力は、実施例1(1)と同様の方法で評価した。
タンパク質の情報を考慮すると、いずれのベクトルを利用した場合(図11A)でも、非常に高い精度が得られた。そして、いずれの場合でも、タンパク質の情報を考慮に入れない場合(図11B)と比較し、より精度が向上した。
(実施例3)DrugBank(D.S.Wishart, C.Knox, A.C.Guo, S.Shrivastava, M.Hassanali, P.Stothard, Z.Chang, and J.Woolsey. DrugBank;a comprehensive resource for in silico drug discvover and exploration. Nucleic Acids Res., Vol.34 (Database issue), pp. D668-D672, 2006.)に記載のデータを利用した場合
本実施例では、DrugBank Approved Drug Target Protein Sequencesに記載された薬剤−ターゲットタンパク質ペアの中から、NIST05にマススペクトルデータが存在する化合物とタンパク質のペア980組(図12)を例として、本発明の分類方法を検証した。ここでは、結合することが記載されているペアをpositiveなサンプルとし、結合することが記載されていないペアをランダムに選び、negativeなサンプルとした。なお、ここで作成されたパターン認識器の識別力は、実施例1(1)と同様の方法で評価した。その結果を図13に示す。
表で示されるように、本実施例で用いたサンプルによっても、非常に高い精度で、薬剤−ターゲットタンパク質ペアが分類された。本条件下でも、タンパク質ベクトル化手法として、CltまたはCodを用いた場合に、より精度が高くなる傾向があるが、実施例1と異なり、Codを用いた場合の方が精度が向上した。また、実施例1と同様に、各ベクトルの結合方法は、組み合わせ表現を用いる方が精度が向上した。
また、Gについて、異なる強度計算方法を用いて識別力を評価した。図14に示すように、この条件下では、3、5、6の計算式を用いた場合に、精度が向上した。
さらに、negativeなサンプル数が、最終精度にどのような影響を与えるかを検討したところ(図15)、negativeなサンプル数が増加すると、prec.はあまり変化しないが、sens.は低下し、acc.は向上する。
このように、いずれの条件においても、高い精度で識別力を有するパターン認識器が得られたが、利用するデータセットによって、最適となる条件は少しずつ異なる。
(実施例4)DrugBankに記載のデータのうち、レセプターを用いた場合
本実施例では、DrugBankに記載のデータのうち、タンパク質−化合物のペアがレセプターとリガンドの関係にあるペア(図12参照)を選択して分類し、識別力を評価した。
図16に示すように、単なる結合という相互作用に対する精度を評価した実施例3より、いずれの条件を用いても、より高い精度が得られた。従って、タンパク質−化合物相互作用に関し、特定の様式ごとにパターン認識器を学習させるのがより好ましい。
(実施例5)PCAによる特徴選択の効果
本実施例では、fragment ベクトルF、gap ベクトルG、タンパク質ベクトルCに対し、行列Q、Q、Qを考えた。例えば、行列Qは以下のようである(Q、Qも同様。以下、Fについての例を示す。)。
式(38):
Figure 0005211347
(Qの場合は、扱うデータセットに登場する全てのタンパク質からなる集合である。)
この行列Qに対し、主成分分析を行い、主成分得点行列Sを得た。なお、主成分分析は、統計解析ソフトRprcompを用いて行なった。そして、化合物cについて、n個の特徴を抽出したfragment vector F(c)を次のように定義した。
式(39):
Figure 0005211347
なお、ここでは、上記スケーリングは行なわなかった。
このようなPCAを実施例1のARに関するデータ、及び実施例3のDrugBankに記載のデータに適用することより、特徴選択、順序決定をした場合の識別力を図17に示す。
表に示されるように、適当な特徴選択を行なっても、タンパク質−化合物相互作用予測は可能であり、条件によっては、識別力を示す各要素が向上していた。
(実施例6)タンパク質が結合する化合物の予測
本実施例では、DrugBank datasetを用いて学習させたSVMモデルをパターン認識器とし、DrugBank dataset中の519化合物を対象として、Cytochrome P450 2E1 (UniProt P05181)及びMonoamine Oxidase A (UniProt ID: P1397)に結合するタンパク質を行なったところ、それぞれ、実際の結合化合物に対して精度92.29%及び94.61%となり、化合物ライブラリーの中から、結合化合物を検出することができた。
本発明によって、タンパク質と化合物のペアの分類方法であって、汎用性が高く、入手しやすいデータを利用し、網羅的に適用可能な方法、さらに、その分類方法を利用して、相互作用が未知のペアに対し、その相互作用を予測する予測方法を提供できる。

Claims (19)

  1. 第1の相互作用をする第1のタンパク質と化合物のペア及び第2の相互作用をする第2のタンパク質と化合物のペアに対して、第1のペアが属するクラス及び第2のペアが属するクラスを識別するパターン認識器の構成方法であって、
    各化合物について得られたマススペクトルデータの少なくとも1つの因子をベクトル化し、それぞれベクトルa〜a(xは1以上の整数)とする工程と、
    各タンパク質をベクトル化し、ベクトルb〜b(yは1以上の整数)とする工程と、
    少なくとも各化合物に由来して作成された前記ベクトルa〜aのうちの1つと該化合物とペアである前記タンパク質に由来して作成された当該ベクトルb(kは1〜yのいずれかの整数)とを結合させ、サポートベクターマシン(SVM)を適用して学習させることを特徴とするパターン認識器構成方法。
  2. 前記マススペクトルデータの少なくとも1つの因子が、ピークの位置、ピークの位置及び強度、2つのピークの間隔、2つのピークの間隔及び対応する強度、の4つの因子から選ばれることを特徴とする請求項1に記載のパターン認識器構成方法。
  3. 前記ベクトルb〜bは、前記タンパク質における所定のアミノ酸配列の出現頻度を要素とするベクトルであることを特徴とする請求項1または2に記載のパターン認識器構成方法。
  4. 各化合物に由来して作成された前記ベクトルの1つは、下記式(1)でベクトル化されるベクトルF(c)であることを特徴とする請求項1〜3のいずれかに記載のパターン認識器構成方法。
    式(1):
    Figure 0005211347
    式中、Mは、全ての化合物に対して観測されるピークのm/z値の集合であり、M(c)は当該ペアの化合物に対して観測されるピークのm/z値の集合であり、I(m)は当該ペアの化合物に対して観測されるピークのm/z値におけるピークの強度を表す。
  5. 各化合物に由来して作成された前記ベクトルの1つは、以下の数式でベクトル化されるベクトルF’(c)であることを特徴とする請求項1〜3のいずれか1項に記載のパターン認識器構成方法。
    式(2):
    Figure 0005211347
    式中、Mは、全ての化合物に対して観測されるピークのm/z値の集合であり、M(c)は当該ペアの化合物に対して観測されるピークのm/z値の集合を表す。
  6. 各化合物に由来して作成された前記ベクトルの1つは、以下の数式でベクトル化されるベクトル
    Figure 0005211347
    であることを特徴とする請求項1〜3のいずれか1項に記載のパターン認識器構成方法。
    式(3):
    Figure 0005211347
    式中、Mgは、分類する全ての化合物に対して観察される2つのピークのm/z値の差の集合であり、Mg(c)は当該ペアの化合物に対して観察されるm/z値i及びjにおける2つのピークのm/z値の差j−iの集合であり、ここで、
    式(4):
    Figure 0005211347
    式中、M(c)は、当該ペアの化合物で観測されるピークのm/z値の集合であり、ここで、
    式(5):
    Figure 0005211347
    式中、Ii,Ijは、m/z値i及びjにおける2つのピークの強度であり、tはギャップを考慮する強度の閾値であり、wはm/z値i及びjにおける2つのピークのm/z値の差j−iの閾値である。
  7. 各化合物に由来して作成された前記ベクトルの1つは、以下の数式でベクトル化されるベクトル
    Figure 0005211347
    であることを特徴とする請求項1〜3のいずれか1項に記載のパターン認識器構成方法。
    式(6):
    Figure 0005211347
    式中、Mgは、分類する全ての化合物に対して観察される2つのピークのm/z値の差の集合であり、Mg(c)は第3のペアの化合物に対して観察される2つのピークのm/z値の差の集合である。
  8. 各化合物に由来して作成された前記ベクトルと、該化合物とペアである前記タンパク質に由来して作成された前記ベクトルを結合させて、ベクトル(a,b)または(a,a,b)を作成し、当該ベクトルにサポートベクターマシン(SVM)を適用することを特徴とする請求項1〜7に記載のパターン認識器構成方法。
    (式中、l、p、qは1〜xのいずれか、kは1〜yのいずれかである。)
  9. 各化合物の物理化学的特性値、化学式、構造式、3次元立体構造の4つの因子から選ばれた少なくとも1つの因子をベクトル化してベクトルDとし、
    該化合物に由来して作成された前記ベクトルと、該化合物とペアである前記タンパク質に由来して作成された前記ベクトルと、前記ベクトルDを結合させて、ベクトル(a,D,b)または(a,a,D,b)を作成し、当該ベクトルにサポートベクターマシン(SVM)を適用することを特徴とする請求項1〜7のいずれか1項に記載のパターン認識器構成方法。
    (式中、l、p、qは1〜xのいずれか、kは1〜yのいずれかである)
  10. サポートベクターマシンの識別関数が、下式(7)のように表現されることを特徴とする請求項1〜9のいずれか1項に記載のパターン認識器構成方法。
    式(7):
    Figure 0005211347
  11. 前記式(7)Kに下式(8)Kconc.を適用することを特徴とする請求項10に記載のパターン認識器構成方法。
    式(8):
    Figure 0005211347
  12. 前記式(7)Kに下式(9)Kcombiを適用することを特徴とする請求項10に記載のパターン認識器構成方法。
    式(9):
    Figure 0005211347
  13. サポートベクターマシンが、linearカーネル、polynomialカーネル、RBF(Radial Basis Function)カーネル、またはsigmoidカーネルを利用することを特徴とする請求項1〜12のいずれか1項に記載のパターン認識器構成方法。
  14. 前記相互作用が、タンパク質と化合物の物理的結合であって、第1の相互作用は、タンパク質と化合物が結合することであり、第2の相互作用は、タンパク質と化合物が結合しないことであり、
    タンパク質と化合物のペアを、結合するかしないかで分類することを特徴とする請求項1〜13のいずれかに記載のパターン認識器構成方法。
  15. 前記相互作用が、タンパク質と化合物の機能的結合であって、第1の相互作用は、アゴニストとして化合物がタンパク質と結合することであり、第2の相互作用は、アンタゴニストとして化合物がタンパク質と結合することであり、
    化合物がタンパク質に対しアゴニストとして結合するか、アンタゴニストとして結合するか、によって、前記タンパク質と前記化合物のペアを分類することを特徴とする請求項1〜13のいずれかに記載のパターン認識器構成方法。
  16. タンパク質と化合物の相互作用を予測する予測方法であって、
    第1の相互作用をするタンパク質と化合物の第1のペア、第2の相互作用をするタンパク質と化合物の第2のペア、前記予測するべきタンパク質と化合物の第3のペアに対し、
    請求項1〜15のいずれかに記載のパターン認識器構成方法により、第1のペアが属するクラス及び第2のペアが属するクラスを識別するパターン認識器を構成する工程と、
    第3のペアを用いて作成されたベクトルBに対して前記パターン認識器を適用して、第3のペアが、前記2つのクラスのどちらのクラスに入るかを識別する工程と、
    を含むことを特徴とする予測方法。
  17. 化合物ライブラリーの中から、特定のタンパク質に結合する化合物をスクリーニングするスクリーニング方法であって、
    前記化合物ライブラリーに含まれる各化合物に対して請求項16に記載の予測方法を行なって、前記タンパク質と当該化合物の相互作用を予測する工程を含むことを特徴とするスクリーニング方法。
  18. タンパク質ライブラリーの中から、特定の化合物に結合するタンパク質をスクリーニングするスクリーニング方法であって、
    前記タンパク質ライブラリーに含まれる各タンパク質に対して請求項16に記載の予測方法を行なって、前記化合物と当該タンパク質の相互作用を予測する工程を含むことを特徴とするスクリーニング方法。
  19. 第1の相互作用をする第1のタンパク質と化合物のペア及び第2の相互作用をする第2のタンパク質と化合物のペアに対して、第1のペアが属するクラス及び第2のペアが属するクラスを識別するパターン認識器の構成方法であって、
    各化合物について得られたマススペクトルデータの少なくとも1つの因子をベクトル化し、それぞれベクトルa〜a(xは1以上の整数)とする工程と、
    各化合物に由来して作成された前記ベクトルa〜aを用いて、サポートベクターマシン(SVM)を適用して学習させることを特徴とするパターン認識器構成方法。
JP2008542157A 2006-10-31 2007-10-31 タンパク質−化合物間相互作用予測方法 Expired - Fee Related JP5211347B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008542157A JP5211347B2 (ja) 2006-10-31 2007-10-31 タンパク質−化合物間相互作用予測方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2006297111 2006-10-31
JP2006297111 2006-10-31
PCT/JP2007/071236 WO2008053924A1 (fr) 2006-10-31 2007-10-31 Procédé de classement de paires de protéines/composés
JP2008542157A JP5211347B2 (ja) 2006-10-31 2007-10-31 タンパク質−化合物間相互作用予測方法

Publications (2)

Publication Number Publication Date
JPWO2008053924A1 JPWO2008053924A1 (ja) 2010-02-25
JP5211347B2 true JP5211347B2 (ja) 2013-06-12

Family

ID=39344265

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008542157A Expired - Fee Related JP5211347B2 (ja) 2006-10-31 2007-10-31 タンパク質−化合物間相互作用予測方法

Country Status (4)

Country Link
US (1) US8185321B2 (ja)
EP (1) EP2083265A1 (ja)
JP (1) JP5211347B2 (ja)
WO (1) WO2008053924A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12159227B2 (en) 2020-03-13 2024-12-03 Korea University Research And Business Foundation System for predicting optical properties of molecules based on machine learning and method thereof

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2031528A4 (en) * 2006-05-26 2009-06-17 Univ Kyoto ESTIMATING A PROTEIN-COMPOUND INTERACTION AND RATIONAL DESIGN OF A LIBRARY OF COMPOUNDS BASED ON CHEMICAL GENOMIC INFORMATION
WO2014034577A1 (ja) 2012-08-27 2014-03-06 株式会社京都コンステラ・テクノロジーズ 化合物設計装置、化合物設計方法、及びコンピュータプログラム
CN103577722B (zh) * 2013-11-08 2016-07-06 中国人民解放军国防科学技术大学 预测蛋白质之间信号流走向的方法
CN104615911B (zh) * 2015-01-12 2017-07-18 上海交通大学 基于稀疏编码及链学习预测膜蛋白beta‑barrel跨膜区域的方法
CN105354440B (zh) * 2015-08-12 2019-06-21 中国科学技术大学 一种提取蛋白质-小分子相互作用模块的方法
CN106528668B (zh) * 2016-10-23 2018-12-25 哈尔滨工业大学深圳研究生院 一种基于可视化网络的二阶代谢质谱化合物检测方法
US10515715B1 (en) 2019-06-25 2019-12-24 Colgate-Palmolive Company Systems and methods for evaluating compositions
CN110488020B (zh) * 2019-08-09 2022-12-13 山东大学 一种蛋白质糖化位点鉴定方法
WO2023044927A1 (zh) * 2021-09-27 2023-03-30 京东方科技集团股份有限公司 Rna-蛋白质相互作用预测方法、装置、介质及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004347604A (ja) * 2003-05-22 2004-12-09 Predicant Biosciences Inc 生物学的状態の情報を同定するための生体液および他の流体の複合混合物を分析するシステム
JP2006515929A (ja) * 2003-01-27 2006-06-08 サイファージェン バイオシステムズ インコーポレイテッド サンプルスポットからのプロセシング信号についてのデータ管理システムおよびデータ管理方法
WO2007139037A1 (ja) * 2006-05-26 2007-12-06 Kyoto University ケミカルゲノム情報に基づく、タンパク質-化合物相互作用の予測と化合物ライブラリーの合理的設計

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102005018811B4 (de) 2005-04-22 2008-02-21 Siemens Ag Blendenvorrichtung für eine zur Abtastung eines Objektes vorgesehene Röntgeneinrichtung und Verfahren für eine Blendenvorrichtung

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006515929A (ja) * 2003-01-27 2006-06-08 サイファージェン バイオシステムズ インコーポレイテッド サンプルスポットからのプロセシング信号についてのデータ管理システムおよびデータ管理方法
JP2004347604A (ja) * 2003-05-22 2004-12-09 Predicant Biosciences Inc 生物学的状態の情報を同定するための生体液および他の流体の複合混合物を分析するシステム
WO2007139037A1 (ja) * 2006-05-26 2007-12-06 Kyoto University ケミカルゲノム情報に基づく、タンパク質-化合物相互作用の予測と化合物ライブラリーの合理的設計

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
JPN6008003146; 牛嶋大,外2名: '"臨床情報とOMICS情報のバイオインフォマティクス的アプローチ"' 生体医工学 Vol.44, No.3, 200609, p.390-396 *
JPN6008003147; 岡田孝,外1名: '"アクティブマイニングによる化学物質群からのリスク分子発見"' 人工知能学会誌 Vol.20, No.2, 200503, p.211-218 *
JPN6008003148; Chen Yanover,et al.: '"Predicting Protein-Peptide Binding Affinity by Learning Peptide-Peptide Distance Functions"' Research in Computational Molecular Biology 3500, 200505, p.456-471 *
JPN6008003150; Joel R.Book,et al.: '"Predicting protein-protein interactions from primary structure"' BIOINFORMATICS Vol.17, No.5, 200105, p.455-460 *
JPN6008003152; Nikkel West-Nielsen,et al.: '"Sample Handling for Mass Spectrometric Proteomic Investigations of Human Sera"' Anal. Chem. Vol.77, No.16, 20050815, p.5114-5123 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12159227B2 (en) 2020-03-13 2024-12-03 Korea University Research And Business Foundation System for predicting optical properties of molecules based on machine learning and method thereof

Also Published As

Publication number Publication date
WO2008053924A1 (fr) 2008-05-08
US20100070438A1 (en) 2010-03-18
EP2083265A1 (en) 2009-07-29
JPWO2008053924A1 (ja) 2010-02-25
US8185321B2 (en) 2012-05-22

Similar Documents

Publication Publication Date Title
JP5211347B2 (ja) タンパク質−化合物間相互作用予測方法
Passaro et al. Boltz-2: Towards Accurate and Efficient Binding Affinity Prediction
Camproux et al. A hidden markov model derived structural alphabet for proteins
Afsar Minhas et al. PAIRpred: partner‐specific prediction of interacting residues from sequence and structure
Kuznetsov et al. Using evolutionary and structural information to predict DNA‐binding sites on DNA‐binding proteins
US8949157B2 (en) Estimation of protein-compound interaction and rational design of compound library based on chemical genomic information
Yang Machine learning approaches to bioinformatics
Singhal et al. A domain-based approach to predict protein-protein interactions
S. Bernardes A review of protein function prediction under machine learning perspective
Heikamp et al. Prediction of activity cliffs using support vector machines
Wehrspan et al. Identification of iron-sulfur (Fe-S) cluster and zinc (Zn) binding sites within proteomes predicted by DeepMind’s AlphaFold2 program dramatically expands the metalloproteome
Yugandhar et al. Feature selection and classification of protein–protein complexes based on their binding affinities using machine learning approaches
Manfredi et al. DeepREx-WS: A web server for characterising protein–solvent interaction starting from sequence
Liu et al. Bridging protein local structures and protein functions
Chen et al. Discovering DNA shape motifs with multiple DNA shape features: generalization, methods, and validation
Jia et al. A comprehensive review of protein-centric predictors for biomolecular interactions: from proteins to nucleic acids and beyond
Krotzky et al. Extraction of protein binding pockets in close neighborhood of bound ligands makes comparisons simple due to inherent shape similarity
Li et al. MDMNI-DGD: A novel graph neural network approach for druggable gene discovery based on the integration of multi-omics data and the multi-view network
Gong et al. MR2CPPIS: Accurate prediction of protein–protein interaction sites based on multi-scale Res2Net with coordinate attention mechanism
Wang et al. Sequence-based protein-protein interaction prediction via support vector machine
Laggner et al. Pharmacophore-based virtual screening in drug discovery
Song et al. NciaNet: A Non-Covalent Interaction-Aware Graph Neural Network for the Prediction of Protein-Ligand Interaction in Drug Discovery
Sayyah et al. DRGSCROLL: Achieving Full Side-Chain Flexibility in Docking Simulations through Genetic Algorithm Framework
Gandotra et al. Deep learning ensembles in translational bioinformatics
Khiari et al. Synthetic Protein-Ligand Complex Generation for Deep Molecular Docking

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100824

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130204

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160308

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees