[go: up one dir, main page]

WO2008053924A1 - Procédé de classement de paires de protéines/composés - Google Patents

Procédé de classement de paires de protéines/composés Download PDF

Info

Publication number
WO2008053924A1
WO2008053924A1 PCT/JP2007/071236 JP2007071236W WO2008053924A1 WO 2008053924 A1 WO2008053924 A1 WO 2008053924A1 JP 2007071236 W JP2007071236 W JP 2007071236W WO 2008053924 A1 WO2008053924 A1 WO 2008053924A1
Authority
WO
WIPO (PCT)
Prior art keywords
compound
protein
vector
pair
interaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP2007/071236
Other languages
English (en)
French (fr)
Inventor
Yasubumi Sakakibara
Nobuyoshi Nagamine
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Keio University
Original Assignee
Keio University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Keio University filed Critical Keio University
Priority to EP07830970A priority Critical patent/EP2083265A1/en
Priority to US12/447,814 priority patent/US8185321B2/en
Priority to JP2008542157A priority patent/JP5211347B2/ja
Publication of WO2008053924A1 publication Critical patent/WO2008053924A1/ja
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Definitions

  • the present invention relates to a prediction method for predicting an interaction between a protein and a compound.
  • the present invention has been made for the purpose of providing a general-purpose prediction method for predicting an interaction between a protein and a compound whose interaction is unknown.
  • the frequency of occurrence of the predetermined sequence of the amino acid sequence and the position and intensity of the peak of the mass spectrum data are vectorized, and the support vector machine (SVM) (V.Vapnik. Statistical Learning Theory. Wiley, New York, 1998)) and learned about the interaction to create a pattern recognizer, and found that this classification is highly correlated with the classification of binding and functional interactions. It was. Thus, the present inventors have completed a prediction method for predicting the interaction of a protein / compound pair whose interaction is unknown.
  • SVM support vector machine
  • the present specification includes at least the following nineteenth invention.
  • a step of vectorizing each protein into vectors b to b (y is an integer of 1 or more);
  • a pattern recognizer construction method characterized in that learning is performed by applying a support vector machine (SVM).
  • SVM support vector machine
  • the vectors b to b are the occurrence frequencies of a predetermined amino acid sequence in the protein.
  • the pattern recognizer construction method according to [1] or [2], wherein the vector is a vector having degrees as elements. [0010] [4] One of the vectors created from each compound is a vector F (c) vectorized by the following formula (1): [1] to [3 ] /, The pattern recognizer construction method described in any of the above.
  • M is the set of peak m / z values observed for all compounds
  • M (c) is the peak m / z value observed for the pair of compounds.
  • I (m) represents the intensity of the peak at the peak m / z value observed for that pair of compounds.
  • One of the vectors created from each compound is a vector F ′ (c) vectorized by the following formula [1] to [3] The pattern recognizer configuration method according to item 1 above.
  • M is the set of peak m / z values observed for all compounds
  • M (c) is the set of peak m / z values observed for the pair of compounds.
  • One of the vectors created from each compound is a vector that is vectorized by the following formula:
  • Mg is the set of differences in the m / z values of the two peaks observed for all compounds to classify
  • Mg (c) is the m / z observed for the pair of compounds.
  • Ii, Ij are the intensity of the two peaks at m / z values i and j
  • t is the intensity threshold considering the gap
  • w is the two peaks at m / z values i and j.
  • the difference between the m / z values of j-i is just a threshold.
  • One of the vectors created from each compound is a vector that is vectorized by the following formula:
  • Mg is the set of differences in m / z values of the two peaks observed for all compounds to classify, and Mg (c) is observed for the third pair of compounds. This is the set of differences between the m / z values of the two peaks.
  • Vector D is obtained by vectorizing at least one factor selected from the four physicochemical property values, chemical formula, structural formula, and three-dimensional structure of each compound,
  • the vector created from the compound, the vector created from the protein paired with the compound, and the vector D are combined to obtain a vector (a
  • Equation (8)
  • Support vector machine is linear kernel, polynomial carnelore, RBF (Radial)
  • the interaction is a functional bond between a protein and a compound, the first interaction is that the compound binds to the protein as an agonist, and the second interaction is an antagonist As the compound binds to the protein,
  • the eleventh The process of constructing the pattern recognition recognition device for identifying and distinguishing the clarus to which the second pair belongs and the second class to which the twenty-second pair belongs. And ...
  • the prediction method described in [[1166]] By carrying out a method, a process for predicting the phase interaction between the above-mentioned protein and the compound is predicted. This is a method of screening that has the characteristic features of including here and here. .
  • the predictive measurement method described in [[1166]] is applied to each of the protein materials contained in the above-mentioned proteinaceous library. And including a process for predicting the phase interaction between the compound and the tanned protein in advance. This is a unique method of using a special feature as a special feature. .
  • the eleventh pepper pair belongs to the twenty-twoth protein and compound pair that are used for phase interaction.
  • At least 11 factors in the massus spectrum data obtained from each compound are converted into vector torculants.
  • Each of which is a vector process, abe to aa (where xx is an integer greater than or equal to 11),
  • the above-mentioned bebactor tor aa ⁇ aa which is derived from each chemical compound and created, is used for supporting the body.
  • FIG. L List of physicochemical properties of 237 amino acids selected by Venkatarajan et al.
  • FIG. 3 is a list of 89 types of clusters obtained by clustering 400 types of dip stamps in one embodiment that is useful for the present invention.
  • FIG. 4 is a list of 199 types of clusters obtained by clustering 4200 types of trip stamps in one embodiment that is useful for the present invention.
  • FIG. 5 is a table describing amino acid sequence homology among proteins belonging to the human AR family.
  • FIG. 6 (a) is a table showing the functional classification of human AR family proteins. (b) is a diagram showing the binding mode of a compound that binds to a human AR family protein to the AR protein.
  • FIG. 7 is a table showing the discriminating power of the pattern recognizer when using different Kernel functions when executing SVM in one embodiment, which is the power of the present invention.
  • FIG. 8 is a table showing the discriminating power of the pattern recognizer when using different vectorization techniques for protein vectorization in one embodiment, which is the power of the present invention.
  • FIG. 9 is a table showing the discriminating power of the pattern recognizer when different vectorization methods are used for vectorization of compounds in one embodiment, which is the power of the present invention.
  • FIG. 10 is a table showing the discriminating power of a pattern recognizer when different binding expressions are used for combining a vector derived from a protein and a vector derived from a compound in one embodiment, which is the power of the present invention. .
  • FIG. 11 is a table showing the discriminating power of the pattern recognizer in cases where (A) and (B) in which protein-derived information is taken into consideration in one example according to the present invention.
  • FIG. 13 is a table showing the discriminating power of a pattern recognizer when data described in DrugBank Approved Drug Target Protein Sequences is used in one example according to the present invention.
  • FIG. 14 is a table showing the discriminating power of the pattern recognizer when different intensity calculation methods are used for the gap vector in one embodiment, which is a force of the present invention.
  • FIG. 15 is a table showing the discriminating power of the pattern recognizer when the number of negative samples is increased in one embodiment, which is the power of the present invention.
  • FIG. 16 In one embodiment according to the present invention, a pattern recognizer using a receptor-ligand pair among drug target protein pairs described in DrugBank Approved Drug Target Protein Sequences. A table showing discriminatory power
  • FIG. 17 is a table showing the discriminating power of a pattern recognizer when features are selected by PCA in one embodiment, which is the power of the present invention.
  • each protein is vectorized and the vectors b to b (y is
  • the vector is the amino acid of the whole protein
  • the sequence may be used, or a partial sequence such as a binding site may be used.
  • the protein vectorization method is not particularly limited.
  • the charge of each amino acid residue of the protein, hydrophobicity, surface tension, It may be vectorized using three-dimensional structure etc. (JRBock and DA ough. Predicting protein-protein interactinos from primary structure.Bioinror matics, Vol.17, No.5, pp.455-460, 2001.; C. Yanover and T. Hertz. Predicting protein-peptide binding affinity by learning peptide-peptide distance functions. In RECO MB 2005, pp. 456-471, 2005.).
  • a method for creating a vector C (p) whose elements are the appearance frequency of features of a predetermined amino acid sequence in each protein is described as follows.
  • C is a set of features c that appear even once in all the proteins to be vectorized. (C) represents the number of appearances of the feature c in the protein p.
  • the frequency of occurrence of all combinations of n amino acid sequences may be used. Also, each partial sequence is classified according to physicochemical characteristics, and the frequency of occurrence of each group. Also good.
  • the number of amino acids in the amino acid sequence to be used is not particularly limited, but it is preferable to use a partial sequence of 2 or 3 amino acids based on the number of vector elements.
  • vector C a vector C may be created with the frequency of occurrence of all combinations of three amino acid sequences as elements. Since there are 20 kinds of amino acids in nature, this vector
  • vector C combinations of two amino acid sequences may be grouped according to physicochemical property values, and vector C may be created with the frequency of each group as an element.
  • Venkatarajan et al. Calculated the five-dimensional vector from the physicochemical properties of 237 20 amino acids ( Figure 1) as follows (MSVenkatarajan and W. Braun. New quantitative descriptors of amino acids based on Multidimensional scaling of large number of physical-chemical properties. Journal of Molecular Modeling, Vol.7, pp.445-453, 20 01 ⁇ ).
  • the physicochemical property vector a (U) expressing the dip mark tide (ij) consisting of amino acids i and j is defined by the following equation.
  • the 89 types of clusters can be obtained by performing two-stage clustering on 400 five-dimensional vectors corresponding to 400 types of dip stamps.
  • 400 vectors are divided into 25 clusters, and in each cluster, the second stage clustering is performed on the vectors belonging to it, and a total of 89 clusters are obtained from the 25 clusters. be able to.
  • vector C combinations of three amino acid sequences may be grouped according to physicochemical property values, and vector C may be created with the frequency of occurrence of each group as an element.
  • sequence a (a, a, a) of 3 amino acids as described in (2) is converted into s 01 11 12 described in (3).
  • Bayesian mixture modeling Clustering by Bayesian mixture modeling is performed to obtain a total of 199 types of clusters. Each cluster is treated as a feature c constituting C in Equation (10).
  • variational Bayesian mixture modeling includes vabayelMix Noggeen (AETeschendorff, /.Wang, NLBaroosa-) Da ⁇ rais, JDBrenton, and Shi. Caldas.
  • vabayelMix Noggeen AETeschendorff, /.Wang, NLBaroosa-
  • JDBrenton JDBrenton
  • Shi. Caldas Shi. Caldas.
  • a variational Bayesian mixture modeling iramewor k for cluster analysis of gene-expression data.Bioinformatics, Vol.21, No.13, pp.30 25-3033, 2005.) .
  • the 199 types of clusters can be obtained by performing two-stage clustering on 4200 five-dimensional vectors corresponding to 4200 types of trip marks.
  • 4200 vectors are divided into 34 clusters, and in each cluster one, the second stage clustering is performed on the vectors belonging to it, and a total of 199 clusters are obtained from the 34 clusters. be able to.
  • the trip mark tide included in the 199 clusters is shown in Figure 4!
  • Vectorization of a compound is performed using the mass spectrum of the compound.
  • at least one factor in the mass spectrum data here X is assumed to be vectorized
  • the observed peak position and intensity information are digitized to create a fragment vector (F)
  • the peak-to-peak interval and intensity information are digitized to create a gap vector (G). can do.
  • M is the set of m / z values of peaks observed for all compounds, and M (c) is the m / z value of peaks observed for that compound.
  • I (m) represents the intensity of the peak at the m / z value of the peak observed for the compound.
  • t is the intensity threshold considering the gap
  • w is the threshold of the difference between the m / z values of the two peaks.
  • t is the presence of noise
  • w is a threshold that mainly considers the presence of radioisotopes
  • gi (j—i) is the value when the goal point i of desorption is determined and is the same in the same compound. Since there are many cases with the same m / z value, that is, ji, the intensity corresponding to the distance m in the whole compound c is determined as follows.
  • Mg is a set of intervals observed even once in the mass spectrum of all compounds to be vectorized
  • Mg (c) is a set of intervals observed in compound c.
  • the following formula (25) may be used for the calculation of gi (j ⁇ i). However, since the accuracy of the discrimination power (accuracy) eventually increases, the formula (21 ) Is preferably used.
  • the path extraction method [3] The method of calculating the distance between each atom from the three-dimensional structure of the compound! 3 ⁇ 45 ⁇ (SJSwamidass, J. Chen, J. Bruana, P. Phung, L. Ralaivola, and P. Bald i. Kernels for small molecules and the prediction of mutagenicity, toxicity and anti ⁇ cancer actibity. Bioinformatics, Vol.21, No. Supple 1, pp.359-368, 2005.) 0
  • these vectors may be connected (JRBock and DA Dough. Predicting protein-protein interactions from primary structure. Bioin formatics, Vol.17, No.5, pp.455-460 SMGomez, WS Noble, and A. Rzhetsky. Learning to predict protein-protein interactions. Bioinformatics, Vol. 19, pp.1875 -1881, 2003)), expressed as follows.
  • the SVM discriminant function is expressed by the following equation.
  • the connected expression basically focuses on the relationship between compounds 'compounds and proteins' proteins, and tries to find the characteristics of the interaction in the form of the product of the relationships. However, there may be relationships between interacting compounds and protein-specific compounds that are specific to the protein. In order to evaluate the relationship, the following calculation is performed instead of Equation (28) in the combination expression.
  • the vector in order to make the vector length constant, the vector may be matched to the dimensionality of either a vector derived from a compound or a vector derived from a protein. While the number of dimensions varies depending on the spectral data set and parameters, the number of dimensions of vectors derived from proteins does not depend on the data set! /, So the number of dimensions of vectors derived from proteins is used. Is preferred. In that case, it is necessary to extract the same number of elements as the dimensionality of the vector to be used from the vector derived from the compound, and create a vector having the same dimensionality.
  • the method for selecting this element is not particularly limited and may be selected randomly. For example, it is most important for classifying protein-compound pairs from vector elements derived from compounds. Possible features may be selected.
  • Equation (30) the calculation results differ depending on the order of the features of each vector, so the characteristics If you need to reduce the number of features that can be determined, you can select the required number of features by counting from the top of the order!
  • the descending order of MSE defined as follows for the feature i is the feature order.
  • £ is ⁇ consisting of all the compounds that appear in the data set to be handled.
  • g (i) is the peak of m / z value j and peak of m / z value i + j in compound c. Is the intensity corresponding to the interval calculated between (see Equation (21)), and M (c) is the set of m / z values observed for compound c.
  • Equation (32) and Equation (33). When determining the order of features, it is preferable to place features that appear frequently and vary greatly in the order of features in compounds and proteins, as shown in Equation (32) and Equation (33). . This is because such features are considered to have the most expressive power for identification.
  • the relationship between different vectors that are more expressive can be identified by identifying the relationship between features that are more expressive between different vectors. It is preferable to extract.
  • the mass spectrum data of the compound is combined with the vector to be combined.
  • the vector derived from this compound may be combined with the vector derived from the protein vectorized using information other than the amino acid sequence, Using information such as physicochemical property values, chemical formulas, structural formulas, and 3D structures It may be combined with a plurality of types of vectors including vectors derived from vectorized compounds. In this case, the above-described method may be used as the coupling method, but is not particularly limited.
  • LIBSVM For SVM, a publicly available program may be used.
  • LIBSVM available on the web may be used (C.-C.Chang and C.-J ⁇ in. LIBSVM: a libra ry for support vector machines, 2001. Software available at http://www.csie.ntu.edu.tw/cjlin/libsvm.).
  • LIBSVM can perform operations such as f, C—support vector classification (C—SVC), v—sup port vector classification (v—SVC), one-class SVM, v—support vector classificatio n—SVC).
  • C-support vector classifi- cation C-SVC is used.
  • LIBSVM recommends the use of scaling for each dimension of input data. Specifically, the value s (x) obtained by scaling the value X of the j-th dimension of sample i is expressed as follows:
  • LIBSVM extends SVM to probability estimation. Also in the present invention, this probability estimation may be performed when “drug group X large-scale sequence group”! This is because when a large number of interaction candidates appear due to large-scale prediction, the probability estimate can be an effective index for setting priorities.
  • each compound In At least one factor selected from the following four factors is vectorized: peak position, peak position and intensity, interval between two peaks, interval between two peaks and corresponding intensity
  • a pattern recognizer that identifies each class can be constructed by vectorizing the amino acid sequences of each protein and combining them to learn by applying SVM.
  • This pattern recognizer is created based on the mass spectrum data of a compound and the amino acid data of a protein, but it learns depending on what kind of interaction it has, thereby Highly consistent with action classification.
  • the target interaction here is not particularly limited as long as it is an interaction occurring between a protein and a compound. It may also include a functional combination that relates to In addition, when there is no specific interaction, such as a mode of not binding, it is also considered as a form of interaction.
  • the first interaction and the second interaction are related to each other for the first pair having the first interaction and the second pair having the second interaction, which are used for learning.
  • the second interaction is an operation that does not perform the first interaction.
  • pairs that are not clearly shown to have the first interaction as a result of examining the interaction are also included in the second interaction pair.
  • the third pair belongs to which of the two classes by vectorizing the compound and protein in the same manner as above and applying the pattern recognizer.
  • the force S can be used to determine which of the first interaction and the second interaction the third pair interacts with.
  • Example 1 AR (adrenergic receptor) and compound binding
  • FIG. 5 nine types of human AR family proteins having similar structures
  • ARuB adrenergic receptor database
  • Fig. 6 which are described as antagonists and whose mass spectral data are described in NIST05 (MST / EPA / MH mass spectral library) (http://www.nist.gov/.)
  • MST mass spectral data
  • Fig. 6b mass spectral library
  • FIG. 6b The binding mode of each compound to AR is shown in FIG. 6b.
  • the pair with the protein described as the target is described as positive (142 pairs), and the other protein pair is not in the target. Re, as negative (290 pairs).
  • the bond is represented by a vector (F, G, C)
  • n groups of data sets were created by dividing the sample into n equal parts.
  • the test set was evaluated using a model in which one of them was used as a test set and the remaining n-1 groups were trained as training data. This was performed n times and all the created n groups were evaluated once as a test set.
  • sens., Pre, and ac were defined by the following equation (35) and evaluated. Equation (21) was used for the calculation method of gap intensity.
  • Figure 8 shows the discriminatory power when proteins are vectorized using different vectorization techniques and the bonds are represented by connected expressions.
  • the same method as (1) was used for evaluation of discrimination power.
  • C and triclust were the most accurate as the number of dimensions was reduced. This result
  • fragment vector F and gap vector G the protein vectorization method is fixed at C, and the compound vectorization method is illustrated.
  • the discriminative power was calculated for the combined expression when using a simple connected expression and when using a combined expression.
  • the discriminating power of the pattern recognizer obtained by combining the vectors derived from compounds prepared by other methods as described below was also compared.
  • the 2D vector for compound c when threshold 1 and h for d mark th are defined using path is defined by the following equation.
  • / 1 is the Ift combination of the path from depth I to h that occurs at least once in the structural formulas of all the compounds to be vectorized.
  • f r (p) represents the number of occurrences of path p in the compound c
  • the accuracy was improved when the combination expression was used than when the connection expression was used.
  • the accuracy improved when the 2D outer diameter D was used at the same time.
  • the accuracy of the torr combination method was improved by using a combination expression.
  • G was also evaluated for discriminatory power using different intensity calculation methods. As shown in Fig. 14, under these conditions, accuracy was improved when the formulas 3, 5, and 6 were used.
  • pairs in which protein compound pairs are in a receptor-ligand relationship were selected and classified to evaluate discrimination power.
  • fragment vector? Ga vector vector 0, protein vector vector C, matrix Q, Q, Q.
  • matrix Q is as follows (Q and Q are the same.
  • a principal component analysis was performed on this matrix Q to obtain a principal component score matrix S.
  • the principal component analysis was performed using the statistical analysis software Rprcomp.
  • a fragment vector F n (c) from which n features were extracted was defined as follows.
  • FIG. 17 shows the discriminatory power when selecting features and determining the order by applying such PCA to the AR-related data of Example 1 and the data described in DrugBank of Example 3.
  • the SVM model trained using the DrugBank dataset is used as a pattern recognizer, and 519 compounds in the DrugBank dataset are targeted to Cytochrome P450 2E1 (Uni Prot P05181) and Monoamine Oxidase A (UniProt ID: P1397)
  • Cytochrome P450 2E1 Uni Prot P05181
  • Monoamine Oxidase A UniProt ID: P1397
  • a method for classifying protein-compound pairs which has high versatility and uses easily available data, can be applied comprehensively, and further uses the classification method. It is possible to provide a prediction method for predicting the interaction of an unknown pair.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Description

明 細 書
タンパク質-ィヒ合物間相互作用予測方法
技術分野
[0001] 本発明は、タンパク質と化合物の相互作用を予測する予測方法に関する。
背景技術
[0002] 従来、タンパク質 化合物間相互作用予測として、 docking解析などタンパク質と 化合物の立体構造をモデリングし、結合エネルギーを計算する手法が中心的に研究 されてきており、いくつもの巿販ソフトが開発された(H.J.Bohm. The computer progra m LUDI: A new methoa for the de novo design or enzyme inhibitors. J.し omp.Aided. Mol.Des., Vol.6, pp.61-78, 1992; Y.Z.Chen and C.Y.Ung. Prediction of potential to xicity and side effect protein targets of a small molecule by ligand-protein inverse docking approach. J.Mol.Graph Mod., Vol.20, pp.199-218, 2001; Y.Z.Chen and D. G. ni. Ligand-protein inverse docking and its potential use in computer search of p utative protein targets of a small molecule. Proteins, Vol.43, pp.217-226, 2001; Y.Z .Chen and し .Ung. Computer automated prediction of putative therapeutic and tox icity protein targets of bioactive compounds from Chinese medical plants. Am. J. Chin .Med., Vol.30, pp.139-154, 2002; Y.Z.Chen, Z.R.Li, and C.Y.Ung. Computational method for drug target search and application in drug discovery. J.Theor. Comp. Che m., Vol.1, pp.213-224, 2002; R.L.Desjarlais, R.P.Sheri
dan an G.L.Seibel, J.S.Dixon, I.D.Kuntz, and R.Venkataraghavan. Using shape comp lementarity as an initial screen in designing ligands for a receptor-binding site of kn own three-dimensional structure. J.Med.Chem., Vol.31, pp.722-729, 1988; T.E.Fer rin, G.S. Couch, C.C.Huang, E.F.Pellersen, and R.Langridge. An affordable approac h to interactive desk-top molecular modeling. J. Mol. Graphics, Vol.9; J.Goodford. A computational procedure for determining energetically favorable binding sites on biol ogically important macromolecules. J.Med.Chem., Vol.28, pp.849-857, 1985; G.jon es, P.WIllett, R.C.Glen, A.R. Leach, and R.Taylor. Development and calidation of a genetic algorithm for flexible dicking. J.Mol.Biol., Vol.267, pp. 727-748, 1997; A.R. Leach and I.D.Kuntz. Conformational analysis of flexible ligands in macromolecular r eceptors sites. J.Comput.Chem., Vol.13, pp.730-748, 1992; A.Miranker and M.Kar plus. Functionality maps of binding sites: A multicopy simultaneous search method. Proteins, Vol.11, pp.29-34, 1991; A.Miranker and M.Karplus. An automated metho d for dynamic ligand design. Proteins, Vol.23, pp.472-490, 1995; M.Y.Mizutani, N.T omioka, and A.Itai. Rational automatic search method for stable docking models of p rotein and ligand. J.Mol.Biol., Vol.243, pp.310-326, 1994; C.M.Oshiro, I.D.Kuntz, a nd J.S.Dixon. Flexible ligand docking using a genetic algorithm. J.Comp.Aided Mol. Des., Vol.9, pp.113-130, 1995; C.M.Oshiro and I.D.Kuntz. Characterization of rece ptors with a new negative image: Use in molecular docking and lead optimization. Pr oteins, Vol.30, pp.321-336, 1998; S.H.Rostein, M.A.Murcko, and A.GenStar. A met hod for de novo drug design. J.Comp.Aided Mol. Des., Vol.7, pp.23-43, 1993; B.K.S hoichet, D.L.Bodian, and I.D.Kuntz. Molecular docking using shape descriptors. J.し omput.Chem., Vol.13, pp.380-397, 1992; M.Zacharias, B.A.Luty, M.E.Davis, and J. A.McCammon. combined conformational search and finite-difference poisson-boltaz mann approach for flexible docking. J.Mol.Biol. , Vol.238, ρρ·455_465,1994)。これら の手法は結合エネルギーと!/、う明確な根拠をもつ点で信頼性は高レ、。
発明の開示
発明が解決しょうとする課題
しかしながら立体構造を前提とする点は、この手法の短所であり、限界である。な ぜなら、立体構造のデータの蓄積は進んでいるが、依然として構造未知のタンパク質 は多いからである。例えば、 PDB (H.M.Berman, J.Westbrook, Z.Feng, G.Gillil and , T.N.Bhat, H.Weissig, I.N.Shindyalov, and P. E. Bourne. The protein data bank, Nuc leic Acids Res. , Vol.28, pp.235- 242, 2000. http:〃 www.rcsb.org/pdb/·)されている タンパク質数は全生物合計で、 14243個(blastで 95%以上配列相同性があるものは 同一のものとみなした場合)に過ぎない。そして、技術の進歩にかかわらず、未だに 十分な構造解析を行えないタンパク質も多い。また、構造未知の場合には、タンパク 質の立体構造予測手法や化合物の立体構造予測手法により構造推定を行うことは 可能であるが、これらの予測手法も依然完全とはレ、えなレ、。
[0004] そこで本発明は、タンパク質と化合物の相互作用が未知のペアに対し、その相互 作用を予測する汎用的な予測方法を提供することを目的としてなされた。
課題を解決するための手段
[0005] 本発明者らは、上記課題を解決するため、利用すべきデータの同定、及びそのデ ータの処理方法に関して鋭意努力し、以下の結果を得た。
まず、タンパク質及び化合物に関し、汎用性が高ぐ入手しやすいデータを検討し た。
タンパク質に関し、現時点で最も入手が容易であり、さらに今後、新たなタンパク質 が発見された時にも最初に得られるデータはアミノ酸配列である。
一方、化合物については、現時点で最も充実したデータは化学式及び構造式であ る。しかし、新たな化合物が発見された場合に、その構造式は様々な手法で推定さ れなければならず、その同定は必ずしも容易ではない。将来的に、新たな化合物が 発見される可能性が最も高いのは網羅的な代謝物解析を行った場合であるが、現 在提案されている網羅的代謝物解析手法は、 GC/MS (O.Fiehn, J.Kopka, P.Dorm ann, T.Altmann, R.Trethewey, and L.Willmitzer. Metabolite profiling for plant runcti onal genomics. Nature Biotechnology, Vol.18, pp.1157-1161, 2000. ; N.Glassbrook, C.Beecher, and J.Ryals. Metabolite profiling on the right path. Nature Biotechnolog y, Vol.18, pp.1142- 1143, 2000·)や CE/MS (P. Schmitt- Kopplin and M.Frommber ger. Capillary electrophoresis—mass spectrometry: 15 years of developments and a pplications. Electrophoresis, Vol.24, pp.3837-3867, 2003. ; A.-C.Servais, J.Cromme n, and M. Fillet. Capillary electrophoresis- mass spectrometry, an attractive tool for drug bioanalysis and Diomarker discovery. Electrophoresis, Vol.27, pp.2616-2629, 2 006·)などの質量分析(MS : mass spectrometry)を利用したものであるため、化合物 のマススペクトルデータは、未知化合物について最も入手しやすいデータとなること が考えられる。現時点においてさえ、既に約 160000化合物のマススペクトルデータ を集めたデータベースが存在する(http://www.nist.gov/)。 [0006] そこで、本発明者らは、これらのデータを用いた統計学処理方法を検討した。すな わち、タンパク質と化合物の相互作用として、タンパク質 '化合物間の結合、及びタン ノ ク質'化合物間のァゴニスティック/アンタゴニスティックな機能的相互作用を例と し、入手可能なタンパク質のアミノ酸配列や化合物のマススペクトルデータについて、 アミノ酸配列の所定の配列の出現頻度、及びマススペクトルデータのピークの位置や 強度をベクトル化し、サポートベクターマシン(SVM) (V.Vapnik. Statistical Learning Theory. Wiley, New York, 1998·)を適用し、相互作用について学習させてパターン 認識器を作成したところ、この分類が、結合や機能的相互作用についての分類と、高 度に相関があることを見出した。こうして、本発明者らは、その相互作用が未知の、タ ンパク質と化合物のペアに対し、その相互作用を予測する予測方法の完成に至った
[0007] そこで、本明細書には、少なくとも以下の 19項の発明が含まれる。
〔1〕第 1の相互作用をする第 1のタンパク質と化合物のペア及び第 2の相互作用を する第 2のタンパク質と化合物のペアに対して、第 1のペアが属するクラス及び第 2の ペアが属するクラスを識別するパターン認識器の構成方法であって、
各化合物について得られたマススペクトルデータの少なくとも 1つの因子をベクトル 化し、それぞれベクトル a 〜a (xは 1以上の整数)とする工程と、
各タンパク質をベクトル化し、ベクトル b 〜b (yは 1以上の整数)とする工程と、
1 y
少なくとも各化合物に由来して作成された前記ベクトル a 〜aのうちの 1つと該化合 物とペアである前記タンパク質に由来して作成された当該ベクトル b (kは 1〜yの!/ヽ k
ずれかの整数)とを結合させ、サポートベクターマシン(SVM)を適用して学習させる ことを特徴とするパターン認識器構成方法。
[0008] 〔2〕前記マススペクトルデータの少なくとも 1つの因子力 S、ピークの位置、ピークの位 置及び強度、 2つのピークの間隔、 2つのピークの間隔及び対応する強度、の 4つの 因子から選ばれることを特徴とする〔1〕に記載のパターン認識器構成方法。
[0009] 〔3〕前記ベクトル b 〜bは、前記タンパク質における所定のアミノ酸配列の出現頻
1 y
度を要素とするベクトルであることを特徴とする〔1〕または〔2〕に記載のパターン認識 器構成方法。 [0010] 〔4〕各化合物に由来して作成された前記ベクトルの 1つは、下記式(1)でベクトル化 されるベクトル F (c)であることを特徴とする〔1〕〜〔3〕の!/、ずれかに記載のパターン 認識器構成方法。
式 (1) :
, ! /c(m) if m e M(c)
0 otherwise 式中、 Mは、全ての化合物に対して観測されるピークの m/z値の集合であり、 M ( c)は当該ペアの化合物に対して観測されるピークの m/z値の集合であり、 I (m)は 当該ペアの化合物に対して観測されるピークの m/z値におけるピークの強度を表す
[0011] 〔5〕各化合物に由来して作成された前記ベクトルの 1つは、以下の数式でベクトル 化されるベクトル F' (c)であることを特徴とする〔1〕〜〔3〕の!/、ずれか 1項に記載のパ ターン認識器構成方法。
式 (2) : ( = (¾m)》m
Figure imgf000006_0001
式中、 Mは、全ての化合物に対して観測されるピークの m/z値の集合であり、 M ( c)は当該ペアの化合物に対して観測されるピークの m/z値の集合を表す。
[0012] 〔6〕各化合物に由来して作成された前記ベクトルの 1つは、以下の数式でベクトル 化されるベクトル
Gf (c) であることを特徴とする〔1〕〜〔3〕の!/、ずれか 1項に記載のパターン認識器構成方法 式 (3)
O ic) = ^
Figure imgf000007_0001
式中、 Mgは、分類する全ての化合物に対して観察される 2つのピークの m/z値の 差の集合であり、 Mg (c)は当該ペアの化合物に対して観察される m/z値 i及び jに おける 2つのピークの m/z値の差 j—iの集合であり、ここで、
式 (4) gapAn^ = . (m)
十: meA^(e) 式中、 M (c)は、当該ペアの化合物で観測されるピークの m/z値の集合であり、こ こで、
式 (5) :
Figure imgf000007_0002
式中、 Ii, Ijは、 m/z値 i及び jにおける 2つのピークの強度であり、 tはギャップを考 慮する強度の閾値であり、 wは m/z値 i及び jにおける 2つのピークの m/z値の差 j - iの閾ィ直である。
〔7〕各化合物に由来して作成された前記ベクトルの 1つは、以下の数式でベクトル 化されるベクトル
Gf\c) であることを特徴とする〔1〕〜〔3〕の!/、ずれか 1項に記載のパターン認識器構成方法 式 (6) :
Figure imgf000008_0001
10 otkerwise 式中、 Mgは、分類する全ての化合物に対して観察される 2つのピークの m/z値の 差の集合であり、 Mg (c)は第 3のペアの化合物に対して観察される 2つのピークの m /z値の差の集合である。
[0014] 〔8〕各化合物に由来して作成された前記ベクトルと、該化合物とペアである前記タ ンパク質に由来して作成された前記ベクトルを結合させて、ベクトル(a , b )または(a
1 k
, a , b )を作成し、当該ベクトルにサポートベクターマシン(SVM)を適用することを
P q k
特徴とする〔1〕〜〔7〕に記載のパターン認識器構成方法。
(式中、 1、 p、 qは l〜xのいずれ力、、 kは l〜yのいずれかである。 )
[0015] 〔9〕各化合物の物理化学的特性値、化学式、構造式、 3次元立体構造の 4つの因 子から選ばれた少なくとも 1つの因子をベクトル化してベクトル Dとし、
該化合物に由来して作成された前記ベクトルと、該化合物とペアである前記タンパ ク質に由来して作成された前記ベクトルと、前記ベクトル Dを結合させて、ベクトル(a
1
, D, b )または(a , a , D, b )を作成し、当該ベクトルにサポートベクターマシン(SV k p q. k
M)を適用することを特徴とする〔1〕〜〔7〕の!/、ずれ力、 1項に記載のパターン認識器 構成方法。
(式中、 1、 p、 qは l〜xのいずれ力、、 kは l〜yのいずれかである)
[0016] 〔10〕サポートベクターマシンの識別関数力 下式(7)のように表現されることを特徴 とする〔1〕〜〔9〕の!/、ずれか 1項に記載のパターン認識器構成方法。 f(c, p) = sign K(fiCi , Bcp) + b*
Figure imgf000009_0001
ノ [0017] 〔11〕前記式(7) Kに下式(8) K を適用することを特徴とする〔10〕に記載のパタ
cone.
ーン認識器構成方法。
式 (8) :
[0018] 〔12〕前記式(7) Κに下式(9) Κ を適用することを特徴とする〔10〕に記載のバタ
combi
ーン認識器構成方法。
式 (9) :
Figure imgf000009_0002
[0019] 〔13〕サポートベクターマシンが、 linearカーネル、 polynomialカーネノレ、 RBF (Radial
Basis Function)カーネル、または sigmoidカーネルを利用することを特徴とする〔1〕
〜〔12〕のいずれ力、 1項に記載のパターン認識器構成方法。
[0020] 〔14〕前記相互作用が、タンパク質と化合物の物理的結合であって、第 1の相互作 用は、タンパク質と化合物が結合することであり、第 2の相互作用は、タンパク質と化 合物が結合しないことであり、
タンパク質と化合物のペアを、結合するかしないかで分類することを特徴とする〔1〕
〜〔; 13〕のいずれかに記載のパターン認識器構成方法。
[0021] 〔15〕前記相互作用が、タンパク質と化合物の機能的結合であって、第 1の相互作 用は、ァゴニストとして化合物がタンパク質と結合することであり、第 2の相互作用は、 アンタゴニストとして化合物がタンパク質と結合することであり、
化合物がタンパク質に対しァゴニストとして結合する力、、アンタゴニストとして結合す る力、、によって、前記タンパク質と前記化合物のペアを分類することを特徴とする〔1〕 〜〔; 13〕のいずれかに記載のパターン認識器構成方法。 [0022] 〔〔1166〕〕タタンンパパクク質質とと化化合合物物のの相相互互作作用用をを予予測測すするる予予測測方方法法ででああっってて、、 第第 11のの相相互互作作用用ををすするるタタンンパパクク質質とと化化合合物物のの第第 11ののペペアア、、第第 22のの相相互互作作用用ををすするるタタンン パパクク質質とと化化合合物物のの第第 22ののペペアア、、前前記記予予測測すするるべべききタタンンパパクク質質とと化化合合物物のの第第 33ののペペアアにに 対対しし、、
〔〔11〕〕〜〜〔〔1155〕〕ののいいずずれれかかにに記記載載ののパパタターーンン認認識識器器構構成成方方法法にによよりり、、第第 11ののペペアアがが属属 すするるククララスス及及びび第第 22ののペペアアがが属属すするるククララススをを識識別別すするるパパタターーンン認認識識器器をを構構成成すするる工工程程 とと、、
第第 33ののペペアアをを用用いいてて作作成成さされれたたベベククトトルル BBにに対対ししてて前前記記パパタターーンン認認識識器器をを適適用用ししてて、、 第第 33ののペペアアがが、、前前記記 22つつののククララススののどどちちららののククララススにに入入るるかかをを識識別別すするる工工程程とと、、 をを含含むむここととをを特特徴徴ととすするる予予測測方方法法。。
[0023] 〔〔1177〕〕化化合合物物ラライイブブララリリーーのの中中かからら、、特特定定ののタタンンパパクク質質にに結結合合すするる化化合合物物ををススククリリーー ユユンンググすするるススククリリーーニニンンググ方方法法ででああっってて、、
前前記記化化合合物物ラライイブブララリリーーにに含含ままれれるる各各化化合合物物にに対対ししてて〔〔 1166〕〕にに記記載載のの予予測測方方法法をを行行 ななっってて、、前前記記タタンンパパクク質質とと当当該該化化合合物物のの相相互互作作用用をを予予測測すするる工工程程をを含含むむここととをを特特徴徴とと すするるススククリリーーニニンンググ方方法法。。
[0024] 〔〔1188〕〕タタンンパパクク質質ラライイブブララリリーーのの中中かからら、、特特定定のの化化合合物物にに結結合合すするるタタンンパパクク質質ををススククリリ 一一ユユンンググすするるススククリリーーニニンンググ方方法法ででああっってて、、
前前記記タタンンパパクク質質ラライイブブララリリーーにに含含ままれれるる各各タタンンパパクク質質にに対対ししてて〔〔1166〕〕にに記記載載のの予予測測方方 法法をを行行ななっってて、、前前記記化化合合物物とと当当該該タタンンパパクク質質のの相相互互作作用用をを予予測測すするる工工程程をを含含むむこことと をを特特徴徴ととすするるススククリリ一一ユユンンググ方方法法。。
[0025] 〔〔1199〕〕第第 11のの相相互互作作用用ををすするる第第 11ののタタンンパパクク質質とと化化合合物物ののペペアア及及びび第第 22のの相相互互作作用用 ををすするる第第 22ののタタンンパパクク質質とと化化合合物物ののペペアアにに対対ししてて、、第第 11ののペペアアがが属属すするるククララスス及及びび第第 22 ののペペアアがが属属すするるククララススをを識識別別すするるパパタターーンン認認識識器器のの構構成成方方法法ででああっってて、、
各各化化合合物物ににつついいてて得得らられれたたママススススペペククトトルルデデーータタのの少少ななくくとともも 11つつのの因因子子ををベベククトトルル 化化しし、、そそれれぞぞれれベベククトトルル aa〜〜aa ((xxはは 11以以上上のの整整数数))ととすするる工工程程とと、、
各各化化合合物物にに由由来来ししてて作作成成さされれたた前前記記ベベククトトルル aa〜〜aaをを用用いいてて、、ササポポーートトベベククタターーママ シシンン((SSVVMM))をを適適用用ししてて学学習習ささせせるるここととをを特特徴徴ととすするるパパタターーンン認認識識器器構構成成方方法法。。
[0026]
Figure imgf000010_0001
なお、本出願は、 2006年 10月 31曰出願の曰本国出願番号特願 2006— 29711
1を基礎とする優先権の利益を主張し、これを引用することにより本明細書に含める。 図面の簡単な説明
[図 l]Venkatarajanらによって選択された 237個のアミノ酸の物理化学的特性のリスト である。
[図 2]Venkatarajanらが 20種類のアミノ酸を表現した 5次元ベクトルのリストである。
[図 3]本発明に力、かる一つの実施形態において、 400種類の dip印 tideに対し、クラス タリングして得られた 89種類のクラスターのリストである。
[図 4]本発明に力、かる一つの実施形態において、 4200種類の trip印 tideに対し、クラ スタリングして得られた 199種類のクラスターのリストである。
[図 5]ヒト ARファミリーに属するタンパク質同士におけるアミノ酸配列の相同性を記載 した表である。
[図 6] (a)はヒト ARファミリータンパク質の機能的分類を示した表である。 (b)はヒト AR ファミリータンパク質に結合する化合物の、 ARタンパク質に対する結合様式を示した 図である。
[図 7]本発明に力、かる一つの実施例において、 SVMの実行に際し、異なる Kernel関 数を用いた場合のパターン認識器の識別力を示した表である。
[図 8]本発明に力、かる一つの実施例において、タンパク質のベクトル化に対し、異なる ベクトル化手法を用いた場合のパターン認識器の識別力を示した表である。
[図 9]本発明に力、かる一つの実施例において、化合物のベクトル化に対し、異なるベ タトル化手法を用いた場合のパターン認識器の識別力を示した表である。
[図 10]本発明に力、かる一つの実施例において、タンパク質由来のベクトルと化合物 由来のベクトルの結合に際し、異なる結合表現を用いた場合のパターン認識器の識 別力を示した表である。
[図 11]本発明にかかる一つの実施例において、タンパク質由来の情報を考慮に入れ た場合 (A)と入れなレ、場合 (B)のパターン認識器の識別力を示した表である。
[図 12]DrugBank Approved Drug Target Protein Sequencesに記載 れた薬斉 lj—ター ゲットタンパク質ペアの中から、 NIST05にマススペクトルデータが存在する化合物と タンパク質のペア 980組の特徴を示した表である。
[図 13]本発明にかかる一つの実施例において、 DrugBank Approved Drug Target Pr otein Sequencesに記載のデータを使用した場合のパターン認識器の識別力を示した 表である。
[図 14]本発明に力、かる一つの実施例において、 gapベクトルに関し、異なる強度計算 方法を用いた場合のパターン認識器の識別力を示した表である。
[図 15]本発明に力、かる一つの実施例において、 negativeなサンプル数を増やした場 合のパターン認識器の識別力を示した表である。
[図 16]本発明にかかる一つの実施例において、 DrugBank Approved Drug Target Pr otein Sequencesに記載された薬剤 ターゲットタンパク質ペアの中から、レセプター とリガンドの関係にあるペアを用いた場合のパターン認識器の識別力を示した表であ
[図 17]本発明に力、かる一つの実施例において、 PCAによって特徴選択した場合の ノ ターン認識器の識別力を示した表である。
発明を実施するための最良の形態
[0028] 以下、本発明の実施の形態において、タンパク質と化合物の相互作用を予測する 予測方法について、実施例を挙げながら具体的かつ詳細に説明する力 本発明はこ れらの実施の形態あるいは実施例に限定されるものではない。
なお、本発明の目的、特徴、利点、及びそのアイデアは、本明細書の記載により、 当業者には明らかであり、本明細書の記載から、当業者であれば、容易に本発明を 再現できる。以下に記載された発明の実施の形態及び具体的な実施例などは、本発 明の好ましい実施態様を示すものであり、例示又は説明のために示されているので あって、本発明をそれらに限定するものではない。本明細書で開示されている本発 明の意図ならびに範囲内で、本明細書の記載に基づき、様々に修飾ができることは 、当業者にとって明らかである。
[0029] = =タンパク質のベクトル化 = =
まず、 y個のタンパク質について、各タンパク質をベクトル化し、ベクトル b〜b (yは
l y
1以上の整数)とする手法を述べる。ベクトル化するのは、タンパク質全体のアミノ酸 配列を用いてもよぐまた、結合部位など、部分配列を用いてもよいが、タンパク質の ベクトル化方法は特に限定されず、例えば、タンパク質の各アミノ酸残基の電荷、疎 水性、表面張力、立体構造などを利用してベクトル化しても構わない (J.R.Bock and D.A. ough. Predicting protein-protein interactinos from primary structure. Bioinror matics, Vol.17, No.5, pp.455-460, 2001. ; C.Yanover and T. Hertz. Predicting protei n-peptide binding affinity by learning peptide-peptide distance functions. In RECO MB 2005, pp.456-471, 2005·)。ここでは、一例として、各タンパク質における所定の アミノ酸配列の特徴の出現頻度を要素とするベクトル C (p)を、以下のように作成する 方法を述べる。
式(10):
il c G C{p)
L ' '
0 otherwise 式中、 Cはベクトル化の対象となる全タンパク質において一度でも出現する特徴 cの 集合である。また、 (c)は、タンパク質 pにおける特徴 cの出現回数を表す。
利用するアミノ酸配列の特徴として、アミノ酸 n個(nは自然数)の配列の全組み合わ せの出現頻度としてもよぐまた、各部分配列を、物理化学的特性によって分類し、 各グループの出現頻度としてもよい。利用するアミノ酸配列のアミノ酸数は、特に限 定されないが、ベクトルの要素数から、アミノ酸 2個または 3個の部分配列を利用する のが好ましい。
[0030] 以下、代表的なアミノ酸配列の選び方、及びベクトル aの作成方法につ!/、て述べる 力 アミノ酸配列の特徴は、これらに限定されない。
[0031] ( 1 ) dip印 tide (アミノ酸 2個の配歹 IJ)の利用
ここでは、ベクトル Cとして、アミノ酸 2個の配列の全組み合わせの出現頻度(M.Bha sin and .P.^.Raghava. PuR pred: and ¾\ M-based method for prediction of ramili es and subfamilies of g-protein coupled receptors. Nucleic Acids Res., Vol.32, pp.38 3-389, 2004.)を要素とするベクトル C を作成する。 自然界に存在するアミノ酸は 20 種類なので、このベクトルは、 202 = 400の要素を有することになる。
[0032] (2) trip印 tide (アミノ酸 3個の配歹 IJ)の利用
ベクトル Cとして、アミノ酸 3個の配列の全組み合わせの出現頻度を要素とするベタ トル C を作成してもよい。 自然界に存在するアミノ酸は 20種類なので、このべクトノレ
(ま、 203 = 8000の要素を有する、 8000次元のベクトノレ ίこなる。
また、 Martinらによってネ亍われたように(S.Martin, D.Roe, and J.-L.Faulon. Predicti ng protein-protein interactions using signature products. Bioinformatics, Vol.21, No .2, pp.218-226, 2005.)、アミノ酸 3個の配列において両端のアミノ酸の区別をせずに 、その配列の組み合わせの出現頻度を要素とするベクトルを作成してもよい。この場 合、(8000— 400) /2 + 400 = 4200の要素を有する、 4200次元のベタ卜ノレ ίこなる
[0033] (3) diclustの利用
ベクトル Cとして、アミノ酸 2個の配列の組み合わせを、物理化学的特性値によって グループ分けし、各グループの出現頻度を要素とするベクトル C を作成してもよい。 例えば、 Venkatarajanらは、 237個の 20アミノ酸の物理化学的特性値(図 1)から、 以下のように 5次元べクトノレを求めた(M.S.Venkatarajan and W.Braun. New quantitat ive descriptors of amino acids based on multidimensional scaling of large number of physical-chemical properties. Journal of Molecular Modeling, Vol.7, pp.445-453, 20 01· )。
まず, アミノ酸 iの特件 c についての特性値 (ί)を, 20アミノ酸の Ραの平 均値 と標準偏差 σΡ„ でスケーリングした値 ) を求めた.
式 ( 1 1 ) :
Sa(i) = PMPn
Figure imgf000015_0001
400 次に, S'、 を利用してアミノ酸の類似性を表現する行列 Qを作成した. ここでァ ミノ酸 と jの類似度 Qij は次式で表現される.
式 (1 2) :
237
Figure imgf000015_0002
次に, ここで求められた Q と単位行列 £ との問に次式の関係を成立させる [¾|有 値 λを求めた.
式 (1 3) :
QE : XE
Qが 20 X 20行列なので 20個の Λが求まる. そして, Qの要素 <¾ は冏有俯 \ に対応するアミノ酸 の [Si有べクトル とアミノ酸 に対する罔有べクト ル E によって次のように求まる.
式 (1 4) :
20
Qij ~
Figure imgf000015_0003
この Qtj は数値の大きさによる上位 5個の冏 値 λ を使って次のように近似可 能である.
式 (1 5 ) :
Γι μ~ 1 最終的に、 Venkatarajanらは、この上位 5つの固有値と固有ベクトルを利用してアミ ノ酸 iを次のような 5次元ベクトル a(i)で表現した。なお、この 5つの固有値と各アミノ酸 の固有ベクトルを図 2に示す。
式(16):
Figure imgf000016_0001
この 5次元ベクトルを利用して、アミノ酸 i、及び、アミノ酸 jからなる dip印 tide(ij)を表 現する物理化学特性ベクトル a (U)を次式で定義する。
α
式(17) :
Figure imgf000016_0002
合計 400種類の dipeptiaeに : fj心する (i,j)にメ Tして、 variational Bayesian mixture modellingによるクラスタリングを行い、合計 89種類のクラスターを得る。この各クラスタ 一を式(10)において Cを構成する特徴 cとして扱う。下記の実施例では、 variational Bayesian mixture modellingには、統計角早析ソフト R(http://www.r— project.org/)の vab ayelMixノヽックーン (A.E.Teschendorff, Y.Wang, N.L.Barbosa-Morais, J.D.Brenton, a nd C.Caldas. A variational Bayesian mixture modelling framework for cluster analysi s of gene-expression data. Bioinformatics, Vol.21 , No.13, pp.3025—3033, 2005·)を禾 lj 用した。
なお、この 89種類のクラスタ一は、詳細には 400種類の dip印 tideに対応する 400 個の 5次元ベクトルに対して 2段階のクラスタリングを行うことで得られる。第一段階の クラスタリングで 400個のベクトルを 25個のクラスターに分け、それぞれのクラスター において、それに属するベクトルに対して第二段階のクラスタリングを行い、 25個のク ラスターから合計 89個のクラスターを得ることができる。 89個のクラスターに含まれる dip印 tideにつ!/、ては図 3に示す。
(4) triclustの利用
ベクトル Cとして、アミノ酸 3個の配列の組み合わせを、物理化学的特性値によって グループ分けし、各グループの出現頻度を要素とするベクトル Cを作成してもよい。 例えば、(2)で記載したようなアミノ酸 3個の配列 a (a , a , a )を、(3)で記載した s 01 11 12
アミノ酸 iを表現する 5次元ベクトル a (i)を利用して、次のように定義する。
式(18):
Figure imgf000017_0001
合計 4200種類の trip印 tideに対応する a (a , a , a )に対して、 variational
s 01 11 12
Bayesian mixture modellingによるクラスタリングを行い、合計 199種類のクラスターを 得る。この各クラスターを式(10)において Cを構成する特徴 cとして扱う。下記の実施 ί列では、 variational Bayesian mixture modellingには、統十角早析ソフト R(http://www.r —project.org/)の vabayelMixノヽッゲーン (A.E.Teschendorff, /.Wang, N.L.Baroosa-Μο rais, J.D.Brenton, and し. Caldas. A variational Bayesian mixture modelling iramewor k for cluster analysis of gene-expression data. Bioinformatics, Vol.21, No.13, pp.30 25-3033, 2005.)を利用した。
なお、この 199種類のクラスタ一は、詳細には 4200種類の trip印 tideに対応する 42 00個の 5次元ベクトルに対して 2段階のクラスタリングを行うことで得られる。第一段階 のクラスタリングで 4200個のベクトルを 34個のクラスターに分け、それぞれのクラスタ 一において、それに属するベクトルに対して第二段階のクラスタリングを行い、 34個 のクラスターから合計 199個のクラスターを得ることができる。 199個のクラスターに含 まれる trip印 tideにつ!/、ては図 4に示す。
[0035] = =化合物のベクトル化 = =
化合物のベクトル化は、当該化合物のマススペクトルを利用して行う。つまり、マスス ぺクトルデータの少なくとも 1つの因子(ここでは X個とする)をベクトル化し、それぞれ ベクトル a 〜a (xは 1以上の整数)とすればよいが、ここで、どの因子を選ぶかは限定 されない。例えば、一つのマススペクトルデータにおいて、観察されるピークの位置と 強度の情報を数値化して fragmentベクトル (F)を、ピークとピークの間隔及び強度の 情報を数値化して gapベクトル (G)を作成することができる。
[0036] (1) fragmentベタトノレの作成 例えば、化合物 cのマススペクトルに対するベクトル F (c)は、観察されるピークの位 置と強度の両方を考慮した場合、次式で表現される。
式(19):
Figure imgf000018_0001
また、強度を考慮せず、ピークの位置のみを考慮した場合のベクトル F' (c)は次式 で表現される。
式(20): (c) 二 (^c(m))meM
m) =
Figure imgf000018_0002
[ 0 otherwise これらの式中、 Mは、全ての化合物に対して観測されるピークの m/z値の集合で あり、 M (c)は当該化合物に対して観測されるピークの m/z値の集合であり、 I (m) は当該化合物に対して観測されるピークの m/z値におけるピークの強度を表す。
(2) ga ベクトルの作成
例えば、 m/z値 i及び j (j > i)において、それぞれ強度 Ii、 Ijを持つ 2つのマススぺク トルのピークの間隔に対応する強度 gi (j— i)を次のように定義する。 なお,以降,特に 3及しない限りはマススぺクトルの iut (; miity は e (0; 1000) である. 式(21 ):
Figure imgf000019_0001
k≠>Uk>t 式中、 tはギャップを考慮する強度の閾値であり、 wは 2つのピークの m/z値の差の 閾値である。 tはノイズの存在、 wは主に放射性同位体の存在を考慮した閾値である なお、 gi(j— i)は脱離のゴール地点 iを定めた場合の値であり、同一化合物中に同 じ m/z値、つまり j iを持つものが多数存在する場合があるので、一つの化合物 c全 体での間隔 mに対応する強度を次のように定める。
式(22): 卿 m) = > ^ gi(ni)
ίμ+πι.€Μ((ή 式中、 M(C)は化合物 Cで観測される m/z値の集合である。
最終的に、式(21)における閾値 t、 wを定めた時の化合物 cのマススペクトルに対す る gapベクトルは次式で表現される。
式(23):
(
Figure imgf000019_0002
λ . ga aim) ifm e M o
0 otherwise また、強度を考慮せず、ピークの位置のみを考慮した場合のベクトル G' (c)は次式 で表現される。
式(24):
Figure imgf000020_0001
これらの式中、 Mgは、ベクトル化の対象となる全化合物のマススペクトルにおいて、 一度でも観察される間隔の集合であり、 Mg (c)は化合物 cで観測される間隔の集合 である。
なお、 gi (j— i)の計算に、式(21)以外に、以下の式(25)を用いてもよいが、最終 的に識別力の精度(accuracy)が高くなるため、式(21 )を用いるのが好ましい。
式(25):
1· 9i {j - 3- 9i {j一
Figure imgf000020_0002
* G (o: 1) (3)従来のベクトル化方法
Zeraovらは、 SVMによる薬剤と非薬剤の識別,農薬と非農薬の識別において、物理 化学的特性ィ直を利用して化合物をベクトル化した (V.V.Zernov, K.V.Balakin, A.A.Iva schenko, N.P.SavchuK, and I.V.Pletnev. Drug discovery using support vector macni nes. the case studies of drug-likeness, agrochemicaト likeness, and enzyme inhibition predictions. J.Chem.Inf.Comput.Sci. , Vol.43, pp.2048-2056, 2003.)。また、 Swamida ssらは、化合物の変異誘導性,毒性識別において化合物をベクトル化するにあたり、 [ 1]化学式から導き出される SMILES文字列を利用する方法、 [2]化合物の構造式から path抽出を行う方法、 [3]化合物の 3次元立体構造から、各原子間の距離を計算する 方法を! ¾5§した (S.J.Swamidass, J.Chen, J.Bruana, P.Phung, L.Ralaivola, and P. Bald i. Kernels for small molecules and the prediction of mutagenicity, toxicity and anti~c ancer actibity. Bioinformatics, Vol.21, No. Supple 1, pp.359—368, 2005.) 0
[0039] = =タンパク質 '化合物ペアの結合表現 = =
上記のように作成した、化合物のマススペクトルデータに由来するベクトル a〜aの うちの少なくとも 1つを用いて作成した化合物に対するベクトル aとタンパク質のァミノ 酸配列に由来するべクトノレ b (kは 1〜yの!/、ずれかの整数)を用 1/、て作成したタンパ
k
ク質に対するベクトル bを結合するが、結合方法は限定されな!/、。
[0040] (1)連結表現
例えば、最も単純な結合方法として、これらのベクトルを連結すればよく(J.R.Bock a nd D.A. ough. Predicting protein-protein interactions from primary structure. Bioin formatics, Vol.17, No.5, pp.455-460, 2001. ; S.M.Gomez, W.S.Noble, and A.Rzhetsk y. Learning to predict protein-protein interactions. Bioinformatics, Vol.19, pp.1875 -1881, 2003·)、以下のように表現される。
式(26):
Figure imgf000021_0001
ここで、上記のように、例えば、 a = (F, G)や (F)等で表現され、 b
t (b) )等で表現される。
この場合、 SVMの識別関数は、以下の式で表現される。
式(27):
Figure imgf000021_0002
特に、 Kernel関数に RBF Kernelを利用する場合は、この式において、以下の計算 をしていることになる。
式(28): -^conc. {Bait>^ Ba2b2) = /ぐ (a な 2) · K(b b2) (2)組み合わせ表現
(1)の連結表現では、基本的に化合物'化合物間やタンパク質 'タンパク質間の関 係性に注目し、その関係性の積の形で相互作用の特徴を見出そうとしている。しかし ながら、相互作用する化合物とタンパク質に特有なタンパク質 '化合物間の関係性が 存在する可能性がある。その関係性を評価するため、組合せ表現では式(28)の代 わりに次のような計算を行う。
式(29):
Figure imgf000022_0001
ひ (ひ】, " 2) ' Khb(b{,b2) ' Kab(al,o2) - Kab(b'l, 2) この式において、 Kaa、 Kbb、 Kabに、異なる Kernel関数を用いてもよい。また、異な るパラメーターを利用することが可能であり、パラメータ一等の調節により、それぞれ の関係性に対して任意の重み付けをすることもできる。
この計算では、 a 'と 'の内積を求める必要がある力 aと bのベクトル長が異なる
1 2
場合は計算に不都合が生じるため、 aと bに処理を加え、 a b 'は同じベクトル長を
1 2
持つようにする。これはまた、連結表現においては潜在的に存在したベクトル長の違 いに起因する重みを排除する効果も有する。
具体的には、式(29)において、化合物 a=(F, G)、タンパク質 bで表現した場合、 組み合わせ表現ではタンパク質 '化合物ペア B =(a , b ) = (F , G . C )と B =( a , b ) = (F , G , C )に対し、以下のような Kernel関数の計算を行う。
2 2 2 2 2
式(30):
Figure imgf000022_0002
I,Je(F,G,C) 本手法では、 Kij(x、 y)として、以下の 4つの Kernel関数のいずれかを用いる。 式(31)
Figure imgf000023_0001
ここで、ベクトル長を一定にするために、化合物に由来するベクトル、またはタンパク 質に由来するベクトル、のいずれのベクトルの次元数に合わせてもよいが、化合物に 由来するベクトルは、化合物のマススペクトルデータセットやパラメーターに依存して 次元数が変動するのに対し、タンパク質に由来するベクトルの次元数は、データセッ トに依存しな!/、ため、タンパク質に由来するベクトルの次元数を用いるのが好ましレ、。 その場合、化合物に由来するベクトルから、利用するベクトルの次元数と同じ数の要 素を抽出し、同じ次元数を持つベクトルを作成する必要がある。
この要素の選択方法は特に限定されず、ランダムに選択しても構わないが、例えば 、化合物に由来するベクトルの要素の中から、タンパク質と化合物のペアの分類のた めに、最も重要だと考えられる特徴を選択してもよい。
例えば、式(30)において、 KFG (F1 , G1)などを式(31)で計算する場合、各べク トノレの特徴の順序によって計算結果が異なってくるため、以下のような基準によって 特徴の順序を決定してもよぐ特徴数を減らさなければいけないような場合には、並 ベた順序の上位から数えて、必要な数の特徴を選択してもよ!/、。
まず、化合物に対する fragmentベクトル F、タンパク質に関するベクトル Cに関しては 、特徴 iに対して、次のように定義される MSEの降順を特徴の順序とする。
式(32):
Figure imgf000023_0002
Σ )
Figure imgf000023_0003
ここで は扱うデータセッ卜に登場する全ての化合物からなる集合である. なお, 夕ンパク質べクトル Cに対する MSEf を計算するときは, (£の代わりに, デー タセッ 卜に登場する全てのタンパク質からなる集合 φを用いる. 一方、 gapベクトル Gに関しては、以下のように定義する。
式(33):
Figure imgf000024_0001
Figure imgf000024_0002
ここで £は扱うデータセットに登場する全ての化^物からなる ίβ である . また、 g(i)は、化合物 cにおいて、 m/z値 jのピークと m/z値 i+jのピークの間に計算さ れる間隔に対応する強度であり(式(21 )参照)、 M (c)は、化合物 cで観測される m/z 値の集合である。
特徴の順序を決定する場合、式(32)及び式(33)のように、化合物やタンパク質に おいて、登場回数が多ぐかつ,変動が大きな特徴を特徴の序列上位に配置するの が好ましい。このような特徴が最も識別のための表現力があると考えられるからである 。ベクトルの次元数を減らすために特徴を抽出する際も、異なるベクトル間で表現力 に富む特徴同士の関係性をみることにより、識別のためにより表現力のある異種べク トル間の関係性を抽出することが好ましい。
(3)化合物またはタンパク質を、他の方法でベクトル化して作成したベクトルの利用 なお、化合物に由来するベクトルとタンパク質に由来するベクトルを結合させる際は 、結合させるベクトルに、その化合物のマススペクトルデータに由来するベクトルが含 まれていればよぐ他の実施の形態として、この化合物由来のベクトルを、アミノ酸配 列以外の情報を利用してベクトル化したタンパク質由来のベクトルと結合させてもよく 、また、物理化学的特性値、化学式、構造式、 3次元立体構造などの情報を利用して ベクトル化した化合物由来のベクトルなどを含め、複数の種類のベクトルと結合させ てもよい。その場合の結合方法は、上述の方法を利用してもよいが、特に限定されな い。
= = SVMへの適用 = =
SVMに関しては、一般に入手できるプログラムを用いればよぐ例えば、ウェブ上 で利用可能な LIBSVMを用いてもよい(C.-C.Chang and C.-J丄 in. LIBSVM: a libra ry for support vector machines, 2001. Software available at http://www.csie.ntu.edu .tw/ cjlin/libsvm.)。 LIBSVMで fュ、 C— support vector classification (C— SVC)、 v— su pport vector classification (v— SVC)、 one-class SVM、 v -support vector classificatio n - SVC)などの演算が可能である。以下の実施例では、 C-support vector classifi cation (C-SVC)を利用する。
LIBSVMでは、入力データの各次元毎にスケーリングの利用を推奨している。具 体的には、サンプル iの j次元目の値 Xのスケーリングを受けた値 s(x )は次のように表
lj lj
される。
式(34):
ii max ¾7 min ¾, s(xij ) k J k J
Figure imgf000025_0001
otherwise ここで、 1、 hは、それぞれユーザーが定義する最小値と最大値である。以下の実施例 では、特に言及しない限り、スケーリングを入力データに適用した。
また、 LIBSVMでは、 SVMを確率推定に拡張している。本発明においても、「薬物 群 X大規模配列群」と!、つた大規模な結合予測を行う場合には、この確率推定を行つ てもよい。これは、大規模予測により相互作用候補が多数出現した場合に、その優先 順位をつけるうえで、確率推定値が有効な指標となりうるからである。
= =パターン認識器構成方法 = =
以上のようにして、異なる相互作用(第 1の相互作用及び第 2の相互作用)をする 2 クラスの、タンパク質と化合物のペア(第 1のペアと第 2のペア)に対して、各化合物に ついて得られたマススペクトルデータのピークの位置、ピークの位置及び強度、 2つ のピークの間隔、 2つのピークの間隔及び対応する強度、の 4つの因子から選ばれた 少なくとも 1つの因子をベクトル化し、各タンパク質のアミノ酸配列をベクトル化し、そ れぞれのベクトルを結合して SVMを適用して学習させることにより、各クラスを識別す るパターン認識器を構成することができる。
[0045] このパターン認識器は、化合物のマススペクトルデータ及びタンパク質のアミノ酸デ ータに基づいて作成されたにもかかわらず、どのような相互作用を有するかによつて 学習させることにより、その相互作用のクラス分けと高度に一致させることができる。 なお、ここで対象とする相互作用は、タンパク質と化合物の間に生じる相互作用で あれば特に限定されず、物理的に結合するかどうかに関する構造的結合や、結合し たときにどのような作用を及ぼす結合であるかに関する機能的結合などを含んでもよ い。また、結合しない態様など、ある特定の相互作用をしない場合も、相互作用の一 形態とする。
[0046] また、学習に用いる、第 1の相互作用をする第 1のペア及び第 2の相互作用をする 第 2のペアについて、第 1の相互作用と第 2の相互作用は、互いに関連性の無い相 互作用でも構わないが、第 2の相互作用は、第 1の相互作用をしない作用であること が好ましい。実際上は、相互作用を調べた結果として第 1の相互作用をすることが明 らかになつていないペアを、近似的に第 1の相互作用をしないペアとして利用するこ とができるため、本明細書では、相互作用を調べた結果として第 1の相互作用をする ことが明らかになつていないペアも第 2の相互作用をするペアに含まれるものとする。
[0047] = =タンパク質-化合物間相互作用予測方法 = =
従って、相互作用が未知の第 3のペアについて、化合物およびタンパク質を上記と 同様にベクトル化し、上記パターン認識器を適用することにより、第 3のペアが 2つの クラスのうち、どちらのクラスに属するかを明らかにすることができ、第 3のペアが第 1 の相互作用と第 2の相互作用のうちどちらの相互作用をするかについて明らかにす ること力 Sでさる。
実施例
[0048] (実施例 1) AR (adrenergic receptor)と化合物の結合 本実施例では、 9種類の類似した構造を有するヒト ARファミリータンパク質(図 5)と 、 ARuB (adrenergic receptor database) (http://ardb.bjmu.edu.cn/ .) ίこノ'コニス卜あ るいはアンタゴニストとして記載され、 NIST05 (MST/EPA/MH mass spectral library ) (http://www.nist.gov/.)にマススペクトルデータが記載された 48化合物(図 6)を用 い、本発明の分類方法によって、各タンパク質と化合物のペアを分類し、その相互作 用との相関を調べた。各化合物の ARに対する結合様式を図 6bに示した。以下、結 合するかどうかに関しては、各化合物に対し、ターゲットとして記載されているタンパ ク質とのペアは positiveと記し(142ペア)、それ以外のタンパク質とのペアは、ターグ ットでは無レ、として、 negativeと記す(290ペア)。
(1)異なる Kernel関数を用いた場合の識別力
ARと化合物のペアに対し、その結合を連結表現のベクトル (F, G, C )で表し、異
it
なる Kernel関数を利用した場合の識別力を、 10-fold cross validationにおける sensitiv ity (sens.八 recision 、prec.)、 accuracy (ac )を評価墓傘どして評価した。具体的には 、まず、サンプルを n等分して nグループのデータセットを作成した。次に、そのうちの 1つをテストセットとし、残りの n— 1グループをトレーニングデータとして学習させたモ デルでテストセットの評価を行った。これを n回行い、作成した nグループ全てを 1回 ずつテストセットとして評価を行った。 そして、 sens.、 pre 、 ac を次式(35)で定義し 、それぞれの評価を行なった。なお、 gap intensityの計算方法には、式(21)を用い た。
式(35):
TP 一 _ TP — TP + TN
SeiiS*一 TP + FN' Pre°-― TP + FP' a = TP + FP + TN + FN ここで、各ペアの実際の測定結果を o、予測手法による予測結果を p、各ペアには p ositive 1、 negative— 1という 2クラスが存在するとしたとき、 TPは true positive(O =o = 1)の個数、 FPは false positive (p = 1、 o =— 1)の個数、 TNは true negativep =o = 1)の個数、 FNは false negative (p =— 1、 o = 1)の個数を表している。得られた 結果を図 7に示した。 この表において、 Kernel関数を用いない、つまり高次元への写像を与えない linear は、全ての評価基準で Kernel関数を用いる場合より識別力が劣っていた。この結果よ り、タンパク質 化合物相互作用予測問題は非線形 SVMによって識別可能な問題 ということ力 Sわ力、る。また、 Kernel関数の中で、全ての評価基準で RBF Kernelが最も 識別力が優秀であった。
[0050] (2)タンパク質に対し異なるベクトル化手法を用いた場合の識別力
タンパク質を異なるベクトル化手法でベクトル化し、結合を連結表現で表した場合 の識別力を図 8に示した。なお、識別力の評価には、(1)と同様の方法を用いた。 表に示すように、 C 、 triclustが、次元数削減とともに、最も精度が高かった。この結
It
果から、部分文字列と物理化学特性を結びつける手法の有効性が示されたと!、える 。また、同じ発想に基づく C 、 diclustを用いた場合、精度が低下した。これは、 89次
Id
元では識別上重要な特徴の混合が起こり、その識別能を失うためだと考えられる。 c 、 C に注目すると、 C を用いた方が精度が高かった。一方、配列の表現力自 od ot od
体は、 4200次元を有する C の方が、 400次元からなる C より高かった。 C と C の
od od od ot 精度の差は、表現の複雑さと精度が直結しな!、ことを示して!/、る。
また、 C (89次元)、 C (4200次元)を用いた場合の精度力 S、 C (199次元)や C
Id ot It od
(400次元)の精度に及ばないことは、適正な次元数の存在を示唆する。
[0051] (3)化合物に対し異なるベクトル化手法を用 1/、た場合の識別力
本実施例では、 fragmentベクトル Fと gapベクトル Gの 2つのベクトルの効果を比較す るために、タンパク質のベクトル化手法を Cで固定し、化合物のベクトル化手法に図
it
9で示した F及び Gを用いた場合の識別力を算出した。なお、識別力の評価には、 (1 )と同様の方法を用いた。
表に示すように、 Fまたは Gを単独で利用したときの精度は、 2つを併用したときの 精度にどちらも及ばなかった。従って、 fragmentベクトル Fと gapベクトル Gの両方を考 慮に入れることがより好ましい。各ベクトルの役割としては Fの方が Gより高い精度及 び sens.を有することから、化合物の特徴をよく表し、識別のベースとなるのは Fと考え られた。一方、 Fより Gの方が pre が高く、さらに、 Gより(F, G)の方が pre が高いこ とから、 Gは prec.を高める上で補助的な役割を有すると考えられた。 また、表に示すように、マススペクトルデータのピーク強度を用いてベクトル化を行 なった方が、ほとんどの場合において、ピーク強度を用いないでベクトル化したときよ り精度が高くなつた(図 9)。特に、 Fではなく F'を用いた場合に、精度の低下が著しく なった。従って、化合物の特徴を表現するに当たり、強度も用いることが好ましい。 (4)異なる結合表現を用いた場合の識別力
結合表現を、単なる連結表現を用いた場合と、組み合わせ表現を用いた場合とに おいて、それぞれ識別力を計算した。
また、ベクトルを結合させる際、以下のように他の方法によって作成した化合物由来 のベクターを含めて結合させることにより得られたパターン認識器の識別力も比較の 対象とした。まず、 pathを利用して d印 thに関する閾値 1、 hを定めたときの化合物 cに 対する 2Dベクトルを次式で定義した。
式(36): ) =闘
Figure imgf000029_0001
ここで /1はべクトル化の対象となる全化合物の構造式において一度でも ¾場す る depth Iから hまでの pathの Ift合であり, 様に (ήは化合物(:の構造式 中に资場する pathの集合である. また, fr(p) は化舍物 c中での path pの出現 |π|数を表す.
一方、 pathの出現回数を考慮せず、 pathの存在のみに着目した 2Dベクトルを以下 のように定義した。
式(37):
Figure imgf000029_0002
なお、いずれの場合も、識別力の評価には(1)と同様の方法を用いた。結果を図 1 0に示す。
表に示すように、本実施例では、組み合わせ表現を用いた場合のほうが、連結表 現を用いた場合より精度が向上した。また、 2Dべ外ル Dを同時に用いた場合、精度 は向上した。
[0053] (実施例 2) AR (adrenergic rec印 tor)と化合物の機能的相互作用
本実施例では、化合物が ARに対し、ァゴニストとして結合する力、、アンタゴニストと して結合するか、に関して、化合物の分類を行った。ここでは、図 6で示したデータを 用い、タンパク質の情報 Cを考慮しない場合(図 6a)と考慮した場合(図 6b)につい
It
て比較を行った。なお、アンタゴニストとして結合する場合を positiveァゴニストとして 結合する場合を negativeと記載する。 ARタンパク質の種類として、 《1には八, B, D の 3種類、 《2には八, B, Cの 3種類が存在するため、 positiveは、考慮しない場合( 図 6a)は 26ペア、考慮した場合(図 6b)は、 69ペア、 negativeは、考慮しない場合(図 6a)は 22ペア、考慮した場合(図 6b)は、 73存在することになる。各場合の分類結果 を図 11に示した。なお、ここで作成されたパターン認識器の識別力は、実施例 1 (1) と同様の方法で評価した。
タンパク質の情報を考慮すると、 V、ずれのベクトルを利用した場合(図 11A)でも、 非常に高い精度が得られた。そして、いずれの場合でも、タンパク質の情報を考慮に 入れな!/、場合(図 11B)と比較し、より精度が向上した。
[0054] (実施例 3) DrugBank (D.S.Wishart, C.Knox, A.C.Guo, S.Shrivastava, M.Hassanali, P.Stothard, Z.Chang, and J.Woolsey. DrugBank;a comprehensive resource for in sili co drug discvover and exploration. Nucleic Acids Res., Vol.34 (Database issue), pp. D668-D672, 2006.)に記載のデータを利用した場合
本実施例では、 DrugBank Approved Drug Target Protein Sequencesに己載された 薬剤 ターゲットタンパク質ペアの中から、 NIST05にマススペクトルデータが存在 する化合物とタンパク質のペア 980組(図 12)を例として、本発明の分類方法を検証 した。ここでは、結合することが記載されているペアを positiveなサンプルとし、結合す ることが記載されていないペアをランダムに選び、 negativeなサンプルとした。なお、こ こで作成されたパターン認識器の識別力は、実施例 1 (1)と同様の方法で評価した。 その結果を図 13に示す。
表で示されるように、本実施例で用いたサンプルによっても、非常に高い精度で、 薬剤—ターゲットタンパク質ペアが分類された。本条件下でも、タンパク質ベクトル化 手法として、 Cまたは C を用いた場合に、より精度が高くなる傾向がある力 S、実施例
It od
1と異なり、 C を用いた場合の方が精度が向上した。また、実施例 1と同様に、各べク
od
トルの結合方法は、組み合わせ表現を用レ、る方が精度が向上した。
また、 Gについて、異なる強度計算方法を用いて識別力を評価した。図 14に示すよ うに、この条件下では、 3、 5、 6の計算式を用いた場合に、精度が向上した。
さらに、 negativeなサンプノレ数カ S、最終精度にどのような影響を与えるかを検討した ところ(図 15)、 negativeなサンプル数が増加すると、 prec.はあまり変化しないが、 sens .は低下し、 acc.は向上する。
このように、いずれの条件においても、高い精度で識別力を有するパターン認識器 が得られた力 利用するデータセットによって、最適となる条件は少しずつ異なる。
[0055] (実施例 4) DrugBankに記載のデータのうち、レセプターを用いた場合
本実施例では、 DrugBankに記載のデータのうち、タンパク質 化合物のペアがレ セプターとリガンドの関係にあるペア(図 12参照)を選択して分類し、識別力を評価し た。
図 16に示すように、単なる結合という相互作用に対する精度を評価した実施例 3よ り、いずれの条件を用いても、より高い精度が得られた。従って、タンパク質—化合物 相互作用に関し、特定の様式ごとにパターン認識器を学習させるのがより好ましい。
[0056] (実施例 5) PCAによる特徴選択の効果
本実施例では、 fragmentベクトノレ?、 ga ベクトノレ0、タンパク質べクトノレ Cに対し、 行列 Q 、 Q 、 Q を考えた。例えば、行列 Q は以下のようである(Q 、 Qも同様。以
F G C F G C
下、 Fについての例を示す。)。
式(38): F2
QF = :
Wlノ
ここで :は扳ぅデータセットに登場する全ての化 物からなる槃 reある.
(Q の場合は、扱うデータセットに登場する全てのタンパク質からなる集合である。 ) c
この行列 Qに対し、主成分分析を行い、主成分得点行列 Sを得た。なお、主成分分 析は、統計解析ソフト Rprcompを用いて行なった。そして、化合物 cについて、 n個の 特徴を抽出した fragment vector Fn (c)を次のように定義した。
式(39):
Γ {( ) ― fl ) c2,…, SM) なお、ここでは、上記スケーリングは行なわなかった。
このような PCAを実施例 1の ARに関するデータ、及び実施例 3の DrugBankに記載 のデータに適用することより、特徴選択、順序決定をした場合の識別力を図 17に示 す。
表に示されるように、適当な特徴選択を行なっても、タンパク質 化合物相互作用 予測は可能であり、条件によっては、識別力を示す各要素が向上していた。
[0057] (実施例 6)タンパク質が結合する化合物の予測
本実施例では、 DrugBank datasetを用いて学習させた SVMモデルをパターン認識 器とし、 DrugBank dataset中の 519化合物を対象として、 Cytochrome P450 2E1 (Uni Prot P05181)及び Monoamine Oxidase A (UniProt ID: P1397)に結合するタンパク質 を行なったところ、それぞれ、実際の結合化合物に対して精度 92.29%及び 94.61%とな り、化合物ライブラリーの中から、結合化合物を検出することができた。
産業上の利用可能性
[0058] 本発明によって、タンパク質と化合物のペアの分類方法であって、汎用性が高ぐ 入手しやすいデータを利用し、網羅的に適用可能な方法、さらに、その分類方法を 利用して、相互作用が未知のペアに対し、その相互作用を予測する予測方法を提供 できる。

Claims

請求の範囲
[1] 第 1の相互作用をする第 1のタンパク質と化合物のペア及び第 2の相互作用をする 第 2のタンパク質と化合物のペアに対して、第 1のペアが属するクラス及び第 2のペア が属するクラスを識別するパターン認識器の構成方法であって、
各化合物について得られたマススペクトルデータの少なくとも 1つの因子をベクトル 化し、それぞれベクトル a〜a (xは 1以上の整数)とする工程と、
各タンパク質をベクトル化し、ベクトル b〜b (yは 1以上の整数)とする工程と、 少なくとも各化合物に由来して作成された前記ベクトル a〜aのうちの 1つと該化合 物とペアである前記タンパク質に由来して作成された当該ベクトル b (kは 1〜yの!/ヽ ずれかの整数)とを結合させ、サポートベクターマシン(SVM)を適用して学習させる ことを特徴とするパターン認識器構成方法。
[2] 前記マススペクトルデータの少なくとも 1つの因子力 ピークの位置、ピークの位置 及び強度、 2つのピークの間隔、 2つのピークの間隔及び対応する強度、の 4つの因 子から選ばれることを特徴とする請求項 1に記載のパターン認識器構成方法。
[3] 前記ベクトル b〜bは、前記タンパク質における所定のアミノ酸配列の出現頻度を 要素とするベクトルであることを特徴とする請求項 1または 2に記載のパターン認識器 構成方法。
[4] 各化合物に由来して作成された前記ベクトルの 1つは、下記式(1)でベクトル化さ れるベクトル F (c)であることを特徴とする請求項 1〜3のいずれかに記載のパターン 認識器構成方法。
式 (1) :
t ,, Λ f /c mj if m e M(c)
0 otherwise 式中、 Mは、全ての化合物に対して観測されるピークの m/z値の集合であり、 M ( c)は当該ペアの化合物に対して観測されるピークの m/z値の集合であり、 I (m)は 当該ペアの化合物に対して観測されるピー z値におけるピークの強度を表す
[5] 各化合物に由来して作成された前記ベクトルの 1つは、以下の数式でベクトル化さ れるベクトル F' (c)であることを特徴とする請求項 1〜3のいずれか 1項に記載のパタ ーン認識器構成方法。
式 (2) :
^tcj = ( (m))m
Figure imgf000034_0001
式中、 Mは、全ての化合物に対して観測されるピークの m/z値の集合であり、 M ( c)は当該ペアの化合物に対して観測されるピークの m/z値の集合を表す。
各化合物に由来して作成された前記ベクトルの 1つは、以下の数式でベクトル化さ れるべクトノレ
Gf (c) であることを特徴とする請求項 1〜3のいずれ力、 1項に記載のパターン認識器構成方 法。
式 (3) :
Figure imgf000034_0002
gapc{m) if m e Mg{c
0 otherwise 式中、 Mgは、分類する全ての化合物に対して観察される 2つのピークの m/z値の 差の集合であり、 Mg (c)は当該ペアの化合物に対して観察される m/z値 i及び jに おける 2つのピークの m/z値の差 j—iの集合であり、ここで、
式 (4) : 十: meA^e) 式中、 M (c)は、当該ペアの化合物で観測されるピークの mZz値の集合であり、 こで、
式(5) :
Figure imgf000035_0001
式中、 Ii, Ijは、 m/z値 i及び jにおける 2つのピークの強度であり、 tはギャップを考 慮する強度の閾値であり、 wは m/z値 i及び jにおける 2つのピークの m/z値の差 j iの閾値である。
[7] 各化合物に由来して作成された前記ベクトルの 1つは、以下の数式でベクトル化さ れるべクトノレ
Figure imgf000035_0002
であることを特徴とする請求項 1〜3のいずれ力 1項に記載のパターン認識器構成方 法。
式 (6) :
10 otlierwise 式中、 Mgは、分類する全ての化合物に対して観察される 2つのピークの m/z値の 差の集合であり、 Mg (c)は第 3のペアの化合物に対して観察される 2つのピークの m /z値の差の集合である。
[8] 各化合物に由来して作成された前記ベクトルと、該化合物とペアである前記タンパ ク質に由来して作成された前記ベクトルを結合させて、ベクトル(a , b )または(a , a
l k P q
, b )を作成し、当該ベクトルにサポートベクターマシン(SVM)を適用することを特徴 k
とする請求項;!〜 7に記載のパターン認識器構成方法。
(式中、 1、 p、 qは l〜xのいずれ力、、 kは l〜yのいずれかである。 )
[9] 各化合物の物理化学的特性値、化学式、構造式、 3次元立体構造の 4つの因子か ら選ばれた少なくとも 1つの因子をベクトル化してベクトル Dとし、
該化合物に由来して作成された前記ベクトルと、該化合物とペアである前記タンパ ク質に由来して作成された前記ベクトルと、前記ベクトル Dを結合させて、ベクトル(a
1
, D, b )または(a , a , D, b )を作成し、当該ベクトルにサポートベクターマシン(SV k p q. k
M)を適用することを特徴とする請求項 1〜7のいずれ力、 1項に記載のパターン認識 器構成方法。
(式中、 1、 p、 qは l〜xのいずれ力、、 kは l〜yのいずれかである)
[10] サポートベクターマシンの識別関数力 下式(7)のように表現されることを特徴とす る請求項 1〜 9の!/、ずれか 1項に記載のパターン認識器構成方法。
式 (7) :
f(c, p) = sign i { c , BCp} + b* I
Figure imgf000036_0001
[11] 前記式(7) Kに下式(8) K を適用することを特徴とする請求項 10に記載のバタ
cone.
ーン認識器構成方法。
式 (8) :
[12] 前記式(7) Kに下式(9) K を適用することを特徴とする請求項 10に記載のバタ
combi
ーン認識器構成方法。
式 (9) :
[13] サポートベクターマシンが、 linearカーネノレ、 polynomialカーネノレ、 RBF (Radial Ba sis Function)カーネル、または sigmoidカーネルを利用することを特徴とする請求項 1
〜; 12のいずれ力、 1項に記載のパターン認識器構成方法。
[14] 前記相互作用が、タンパク質と化合物の物理的結合であって、第 1の相互作用は、 タンパク質と化合物が結合することであり、第 2の相互作用は、タンパク質と化合物が 結合しないことであり、
タンパク質と化合物のペアを、結合するかしなレ、かで分類することを特徴とする請求 項 1〜; 13のいずれかに記載のパターン認識器構成方法。
[15] 前記相互作用が、タンパク質と化合物の機能的結合であって、第 1の相互作用は、 ァゴニストとして化合物がタンパク質と結合することであり、第 2の相互作用は、アンタ ゴニストとして化合物がタンパク質と結合することであり、
化合物がタンパク質に対しァゴニストとして結合する力、、アンタゴニストとして結合す る力、、によって、前記タンパク質と前記化合物のペアを分類することを特徴とする請求 項 1〜; 13のいずれかに記載のパターン認識器構成方法。
[16] タンパク質と化合物の相互作用を予測する予測方法であって、
第 1の相互作用をするタンパク質と化合物の第 1のペア、第 2の相互作用をするタン パク質と化合物の第 2のペア、前記予測するべきタンパク質と化合物の第 3のペアに 対し、
請求項 1〜; 15のいずれかに記載のパターン認識器構成方法により、第 1のペアが 属するクラス及び第 2のペアが属するクラスを識別するパターン認識器を構成するェ 程と、
第 3のペアを用いて作成されたベクトル Bに対して前記パターン認識器を適用して、 第 3のペアが、前記 2つのクラスのどちらのクラスに入るかを識別する工程と、 を含むことを特徴とする予測方法。
[17] 化合物ライブラリーの中から、特定のタンパク質に結合する化合物をスクリーニング するスクリーニング方法であって、 前記化合物ライブラリ一に含まれる各化合物に対して請求項 16に記載の予測方法 を行なって、前記タンパク質と当該化合物の相互作用を予測する工程を含むことを 特徴とするスクリ一ユング方法。
[18] タンパク質ライブラリーの中から、特定の化合物に結合するタンパク質をスクリー二
Figure imgf000038_0001
前記タンパク質ライブラリーに含まれる各タンパク質に対して請求項 16に記載の予 測方法を行なって、前記化合物と当該タンパク質の相互作用を予測する工程を含む ことを特徴とするスクリーニング方法。
第 1の相互作用をする第 1のタンパク質と化合物のペア及び第 2の相互作用をする 第 2のタンパク質と化合物のペアに対して、第 1のペアが属するクラス及び第 2のペア が属するクラスを識別するパターン認識器の構成方法であって、
各化合物について得られたマススペクトルデータの少なくとも 1つの因子をベクトル 化し、それぞれベクトル a〜a (xは 1以上の整数)とする工程と、
各化合物に由来して作成された前記ベクトル a〜aを用いて、サポートベクターマ シン(SVM)を適用して学習させることを特徴とするパターン認識器構成方法。
PCT/JP2007/071236 2006-10-31 2007-10-31 Procédé de classement de paires de protéines/composés Ceased WO2008053924A1 (fr)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP07830970A EP2083265A1 (en) 2006-10-31 2007-10-31 Method of classifying protein/compound pairs
US12/447,814 US8185321B2 (en) 2006-10-31 2007-10-31 Method for predicting interaction between protein and chemical
JP2008542157A JP5211347B2 (ja) 2006-10-31 2007-10-31 タンパク質−化合物間相互作用予測方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006297111 2006-10-31
JP2006-297111 2006-10-31

Publications (1)

Publication Number Publication Date
WO2008053924A1 true WO2008053924A1 (fr) 2008-05-08

Family

ID=39344265

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2007/071236 Ceased WO2008053924A1 (fr) 2006-10-31 2007-10-31 Procédé de classement de paires de protéines/composés

Country Status (4)

Country Link
US (1) US8185321B2 (ja)
EP (1) EP2083265A1 (ja)
JP (1) JP5211347B2 (ja)
WO (1) WO2008053924A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014034577A1 (ja) 2012-08-27 2014-03-06 株式会社京都コンステラ・テクノロジーズ 化合物設計装置、化合物設計方法、及びコンピュータプログラム

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007139037A1 (ja) * 2006-05-26 2007-12-06 Kyoto University ケミカルゲノム情報に基づく、タンパク質-化合物相互作用の予測と化合物ライブラリーの合理的設計
CN103577722B (zh) * 2013-11-08 2016-07-06 中国人民解放军国防科学技术大学 预测蛋白质之间信号流走向的方法
CN104615911B (zh) * 2015-01-12 2017-07-18 上海交通大学 基于稀疏编码及链学习预测膜蛋白beta‑barrel跨膜区域的方法
CN105354440B (zh) * 2015-08-12 2019-06-21 中国科学技术大学 一种提取蛋白质-小分子相互作用模块的方法
CN106528668B (zh) * 2016-10-23 2018-12-25 哈尔滨工业大学深圳研究生院 一种基于可视化网络的二阶代谢质谱化合物检测方法
US10515715B1 (en) 2019-06-25 2019-12-24 Colgate-Palmolive Company Systems and methods for evaluating compositions
CN110488020B (zh) * 2019-08-09 2022-12-13 山东大学 一种蛋白质糖化位点鉴定方法
US12159227B2 (en) 2020-03-13 2024-12-03 Korea University Research And Business Foundation System for predicting optical properties of molecules based on machine learning and method thereof
WO2023044927A1 (zh) * 2021-09-27 2023-03-30 京东方科技集团股份有限公司 Rna-蛋白质相互作用预测方法、装置、介质及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004347604A (ja) * 2003-05-22 2004-12-09 Predicant Biosciences Inc 生物学的状態の情報を同定するための生体液および他の流体の複合混合物を分析するシステム
JP2006515929A (ja) * 2003-01-27 2006-06-08 サイファージェン バイオシステムズ インコーポレイテッド サンプルスポットからのプロセシング信号についてのデータ管理システムおよびデータ管理方法
JP2006297111A (ja) 2005-04-22 2006-11-02 Siemens Ag X線装置用の絞り装置およびx線装置用の絞り装置の作動方法。

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007139037A1 (ja) * 2006-05-26 2007-12-06 Kyoto University ケミカルゲノム情報に基づく、タンパク質-化合物相互作用の予測と化合物ライブラリーの合理的設計

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006515929A (ja) * 2003-01-27 2006-06-08 サイファージェン バイオシステムズ インコーポレイテッド サンプルスポットからのプロセシング信号についてのデータ管理システムおよびデータ管理方法
JP2004347604A (ja) * 2003-05-22 2004-12-09 Predicant Biosciences Inc 生物学的状態の情報を同定するための生体液および他の流体の複合混合物を分析するシステム
JP2006297111A (ja) 2005-04-22 2006-11-02 Siemens Ag X線装置用の絞り装置およびx線装置用の絞り装置の作動方法。

Non-Patent Citations (40)

* Cited by examiner, † Cited by third party
Title
0. FIEHN ET AL.: "Metabolite profiling for plant functional genomics", NATURE BIOTECHNOLOGY, vol. 18, 2000, pages 1157 - 1161, XP002325275, DOI: doi:10.1038/81137
A. C. SERVAIS; J. CROMMEN; M. FILLET: "Capillary electrophoresis-mass spectrometry, an attractive tool for drug bioanalysis and biomarker discovery", ELECTROPHORESIS, vol. 27, 2006, pages 2616 - 2629
A. E. TESCHENDORFF ET AL.: "A variational Bayesian mixture modelling framework for cluster analysis of gene-expression data", BIOINFORMATICS, vol. 21, no. 13, 2005, pages 3025 - 3033
A. MIRANKER; M. KARPLUS: "An automated method for dynamic ligand design", PROTEINS, vol. 23, 1995, pages 472 - 490
A. MIRANKER; M. KARPLUS: "Functionality maps of binding sites: A multicopy simultaneous search method", PROTEINS, vol. 11, 1991, pages 29 - 34, XP002920473, DOI: doi:10.1002/prot.340110104
A. R. LEACH; I. D. KUNTZ: "Conformational analysis of flexible ligands in macromolecular receptors sites", J. COMPUT. CHEM., vol. 13, 1992, pages 730 - 748
B. K. SHOICHET; D. L. BODIAN; I. D. KUNTZ: "Molecular docking using shape descriptors", J. COMPUT. CHEM., vol. 13, 1992, pages 380 - 397, XP008026497, DOI: doi:10.1002/jcc.540130311
BOOK J.R. ET AL.: "Predicting protein-protein interactions from primary structure", BIOINFORMATICS, vol. 17, no. 5, May 2001 (2001-05-01), pages 455 - 460, XP002320119 *
C. M. OSHIRO; I. D. KUNTZ: "Characterization of receptors with a new negative image: Use in molecular docking and lead optimization", PROTEINS, vol. 30, 1998, pages 321 - 336, XP009007777, DOI: doi:10.1002/(SICI)1097-0134(19980215)30:3<321::AID-PROT11>3.0.CO;2-H
C. M. OSHIRO; I. D. KUNTZ; J. S. DIXON: "Flexible ligand docking using a genetic algorithm", J. COMP. AIDED MOL. DES., vol. 9, 1995, pages 113 - 130
C. YANOVER; T. HERTZ: "Predicting protein-peptide binding affinity by learning peptide-peptide distance functions", RECOMB, 2005, pages 456 - 471, XP008110805, DOI: doi:10.1007/11415770_34
CHEN YANOVER ET AL.: "Predicting Protein-Peptide Binding Affinity by Learning Peptide-Peptide Distance Functions", RESEARCH IN COMPUTATIONAL MOLECULAR BIOLOGY, May 2005 (2005-05-01), pages 456 - 471, XP008110425 *
D. S. WISHART ET AL.: "DrugBank: a comprehensive resource for in silico drug discvover and exploration", NUCLEIC ACIDS RES., vol. 34, 2006, pages D668 - D672, XP008099480, DOI: doi:10.1093/nar/gkj067
G. JONES ET AL.: "Development and calidation of a genetic algorithm for flexible dicking", J. MOL. BIOL., vol. 267, 1997, pages 727 - 748
H. J. BOHM: "The computer program LUDI: A new method for the de novo design of enzyme inhibitors", J. COMP. AIDED. MOL. DES., vol. 6, 1992, pages 61 - 78, XP000560808, DOI: doi:10.1007/BF00124387
H. M. BERMAN ET AL.: "The protein data bank", NUCLEIC ACIDS RES., vol. 28, 2000, pages 235 - 242
J. GOODFORD: "A computational procedure for determining energetically favorable binding sites on biologically important macromolecules", J. MED. CHEM., vol. 28, 1985, pages 849 - 857, XP002083458, DOI: doi:10.1021/jm00145a002
J. R. BOCK; D. A. GOUGH: "Predicting protein-protein interactinos from primary structure", BIOINFORMATICS, vol. 17, no. 5, 2001, pages 455 - 460
J. R. BOCK; D. A. GOUGH: "Predicting protein-protein interactions from primary structure", BIOINFORMATICS, vol. 17, no. 5, 2001, pages 455 - 460, XP002320119, DOI: doi:10.1093/bioinformatics/17.5.455
M. BHASIN; G. P. S. RAGHAVA: "GPCR pred. and SVM-based method for prediction of families and subfamilies of g-protein coupled receptors, Nucleic", ACIDS RES., vol. 32, 2004, pages 383 - 389
M. S. VENKATARAJAN; W. BRAUN: "New quantitative descriptors of amino acids based on multidimensional scaling of a large number of physical-chemical properties", JOURNAL OF MOLECULAR MODELING, vol. 7, 2001, pages 445 - 453
M. Y. MIZUTANI; N. TOMIOKA; A. ITAI: "Rational automatic search method for stable docking models of protein and ligand", J. MOL. BIOL., vol. 243, 1994, pages 310 - 326, XP024008168, DOI: doi:10.1006/jmbi.1994.1656
M. ZACHARIAS; B. A. LUTY; M. E. DAVIS: "J. A. McCammon, Combined conformational search and finite-difference poisson- boltazmann approach for flexible docking", J. MOL. BIOL., vol. 238, 1994, pages 455 - 465
N. GLASSBROOK; C. BEECHER; J. RYALS: "Metabolite profiling on the right path", NATURE BIOTECHNOLOGY, vol. 18, 2000, pages 1142 - 1143, XP003008198, DOI: doi:10.1038/81116
NIKKEL WEST-NIELSEN ET AL.: "Sample Handling for Mass Spectrometric Proteomic Investigations of Human Sera", ANAL. CHEM., vol. 77, no. 16, 15 August 2005 (2005-08-15), pages 5114 - 5123, XP008115636 *
OKADA T. ET AL.: "Active Mining ni yoru Kagaku Busshitsugun kara no Risk Bunshi Hakken", JOURNAL OF JAPANESE SOCIETY FOR ARTIFICIAL INTELLIGENCE, vol. 20, no. 2, March 2005 (2005-03-01), pages 211 - 218, XP008110424 *
P. SCHMITT-KOPPLIN; M. FROMMBERGER: "Capillary electrophoresis - mass spectrometry: 15 years of developments and applications", ELECTROPHORESIS, vol. 24, 2003, pages 3837 - 3867
R. L. DESJARLAIS ET AL.: "Using shape complementarity as an initial screen in designing ligands for a receptor-binding site of known three-dimensional structure", J. MED. CHEM., vol. 31, 1988, pages 722 - 729, XP002929885, DOI: doi:10.1021/jm00399a006
S. H. ROSTEIN; M. A. MURCKO; A. GENSTAR: "A method for de novo drug design", J. COMP. AIDED MOL. DES., vol. 7, 1993, pages 23 - 43
S. J. SWAMIDASS ET AL.: "Kernels for small molecules and the prediction of mutagenicity, toxicity and anti-cancer actibity", BIOINFORMATICS, vol. 21, no. 1, 2005, pages 359 - 368
S. M. GOMEZ; W. S. NOBLE; A. RZHETSKY: "Learning to predict protein-protein interactions", BIOINFORMATICS, vol. 19, 2003, pages 1875 - 1881
S. MARTIN; D. ROE; J. L. FAULON: "Predicting protein-protein interactions using signature products", BIOINFORMATICS, vol. 21, no. 2, 2005, pages 218 - 226
T. E. FERRIN ET AL.: "An affordable approach to interactive desk-top molecular modeling", J. MOL. GRAPHICS, vol. 9
USHIJIMA M. ET AL.: "Rinsho Joho to OMICS Joho no Bioinformatics-teki Approach", TRANSACTIONS OF JAPANESE SOCIETY FOR MEDICAL AND BIOLOGICAL ENGINEERING, vol. 44, no. 3, September 2006 (2006-09-01), pages 390 - 396, XP008168429 *
V. V. ZERNOV ET AL.: "Drug discovery using support vector machines, the case studies of drug-likeness, agrochemical-likeness, and enzyme inhibition predictions", J. CHEM. INF. COMPUT. SCI., vol. 43, 2003, pages 2048 - 2056
V. VAPNIK: "Statistical Learning Theory", 1998, WILEY
Y. Z. CHEN AND D. G. ZHI: "Ligand-protein inverse docking and its potential use in computer search of putative protein targets of a small molecule", PROTEINS, vol. 43, 2001, pages 217 - 226
Y. Z. CHEN; C. Y. UNG: "Computer automated prediction of putative therapeutic and toxicity protein targets of bioactive compounds from chinese medical plants, Am", J. CHIN. MED., vol. 30, 2002, pages 139 - 154
Y. Z. CHEN; C. Y. UNG: "Prediction of potential toxicity and side effect protein targets of a small molecule by a ligand-protein inverse docking approach", J. MOL. GRAPH MOD., vol. 20, 2001, pages 199 - 218
Y. Z. CHEN; Z. R. LI; C. Y. UNG: "Computational method for drug target search and application in drug discovery", J. THEOR. COMP. CHEM., vol. 1, 2002, pages 213 - 224

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014034577A1 (ja) 2012-08-27 2014-03-06 株式会社京都コンステラ・テクノロジーズ 化合物設計装置、化合物設計方法、及びコンピュータプログラム
JP5946045B2 (ja) * 2012-08-27 2016-07-05 国立大学法人京都大学 化合物設計装置、化合物設計方法、及びコンピュータプログラム

Also Published As

Publication number Publication date
US8185321B2 (en) 2012-05-22
EP2083265A1 (en) 2009-07-29
US20100070438A1 (en) 2010-03-18
JP5211347B2 (ja) 2013-06-12
JPWO2008053924A1 (ja) 2010-02-25

Similar Documents

Publication Publication Date Title
WO2008053924A1 (fr) Procédé de classement de paires de protéines/composés
Shen et al. A generalized protein–ligand scoring framework with balanced scoring, docking, ranking and screening powers
Salentin et al. Polypharmacology rescored: Protein–ligand interaction profiles for remote binding site similarity assessment
Yu et al. Designing template-free predictor for targeting protein-ligand binding sites with classifier ensemble and spatial clustering
Kuznetsov et al. Using evolutionary and structural information to predict DNA‐binding sites on DNA‐binding proteins
Yan et al. A two-stage classifier for identification of protein-protein interface residues
Afsar Minhas et al. PAIRpred: partner‐specific prediction of interacting residues from sequence and structure
Yang Machine learning approaches to bioinformatics
Saigo et al. Protein homology detection using string alignment kernels
Van Westen et al. Proteochemometric modeling as a tool to design selective compounds and for extrapolating to novel targets
Singhal et al. A domain-based approach to predict protein-protein interactions
Yugandhar et al. Feature selection and classification of protein–protein complexes based on their binding affinities using machine learning approaches
Venkatraman et al. Application of 3D Zernike descriptors to shape-based ligand similarity searching
Stork et al. Computational prediction of frequent hitters in target-based and cell-based assays
Zhou et al. A systematic identification of multiple toxin–target interactions based on chemical, genomic and toxicological data
Brereton et al. Predicting drug properties with parameter-free machine learning: pareto-optimal embedded modeling (POEM)
Elhefnawy et al. ICOSA: a distance-dependent, orientation-specific coarse-grained contact potential for protein structure modeling
Bhadra et al. Site2Vec: a reference frame invariant algorithm for vector embedding of protein–ligand binding sites
Krotzky et al. Extraction of protein binding pockets in close neighborhood of bound ligands makes comparisons simple due to inherent shape similarity
Rohrer et al. Impact of benchmark data set topology on the validation of virtual screening methods: exploration and quantification by spatial statistics
Liang et al. Prediction of protein structural class based on different autocorrelation descriptors of position-specific scoring matrix
Tseng et al. VesiMCNN: Using pre-trained protein language models and multiple window scanning convolutional neural networks to identify vesicular transport proteins
Klon Bayesian modeling in virtual high throughput screening
Bedoya et al. Reducing dimensionality in remote homology detection using predicted contact maps
Dai et al. A pipeline for improved QSAR analysis of peptides: physiochemical property parameter selection via BMSF, near-neighbor sample selection via semivariogram, and weighted SVR regression and prediction

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 07830970

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2008542157

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 3091/CHENP/2009

Country of ref document: IN

Ref document number: 2007830970

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 12447814

Country of ref document: US