[go: up one dir, main page]

WO2009064015A1 - インシリコスクリーニング装置、および、インシリコスクリーニング方法 - Google Patents

インシリコスクリーニング装置、および、インシリコスクリーニング方法 Download PDF

Info

Publication number
WO2009064015A1
WO2009064015A1 PCT/JP2008/070973 JP2008070973W WO2009064015A1 WO 2009064015 A1 WO2009064015 A1 WO 2009064015A1 JP 2008070973 W JP2008070973 W JP 2008070973W WO 2009064015 A1 WO2009064015 A1 WO 2009064015A1
Authority
WO
WIPO (PCT)
Prior art keywords
compound
fingerprint
target protein
protein
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP2008/070973
Other languages
English (en)
French (fr)
Inventor
Hideaki Umeyama
Daisuke Takaya
Mayuko Shitaka
Kazuhiko Kanou
Genki Terashi
Katsuichiro Komatsu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IN-SILICO SCIENCES Inc
In Silico Sciences Inc
Original Assignee
IN-SILICO SCIENCES Inc
In Silico Sciences Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by IN-SILICO SCIENCES Inc, In Silico Sciences Inc filed Critical IN-SILICO SCIENCES Inc
Priority to EP08850939A priority Critical patent/EP2216429A4/en
Priority to JP2009521050A priority patent/JP4564097B2/ja
Priority to US12/734,515 priority patent/US20100312538A1/en
Priority to CN200880115496A priority patent/CN101855392A/zh
Publication of WO2009064015A1 publication Critical patent/WO2009064015A1/ja
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/60In silico combinatorial chemistry
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/60In silico combinatorial chemistry
    • G16C20/64Screening of libraries

Definitions

  • the present invention relates to an in silico screening apparatus and an in silico screening method.
  • each compound in the compound database containing a large number of compounds such as the above-mentioned drug candidate compounds as described above, for example, protein
  • the coordinate arrangement (conformation) in which hundreds of thousands of compounds that actually exist interact directly with the target protein is determined.
  • the corresponding score value was obtained.
  • the score values are used as an index of stability, arranged from the largest to the smallest, and the order of interaction between the compound and the drug target protein is determined.
  • the classical physics between the atoms of the compound and the atoms constituting the target polymer protein based on information such as lattice information and multipoint information was calculated from the interatomic potential equation, and the order related to the conformation of the compound and the bond strength of the interaction was determined by the score value.
  • various methods for determining the order of the conformations of various interacting compounds using a method such as clustering were used.
  • the inventor of the present application such as X-ray analysis, NMR, electron beam analysis, high-resolution electron micrograph
  • the vast amount of three-dimensional coordinate information that indicates the interaction between the compound and the target polymer obtained in experiments has been registered in a public database, and the recent improvements in computer performance and advances in bioinformatics
  • bioinformatics information such as the collective overlap state of various compounds bound to the target polymer protein
  • An in silico screening apparatus comprising at least a storage unit and a control unit that screens candidate compounds that bind to a target protein.
  • the storage unit is created by extracting, for each candidate compound, a chemical descriptor including an atom type and an interatomic bond rule as a compound fingerprint related to a plurality of atoms in the compound.
  • a compound database, and the control unit includes a three-dimensional coordinate converted to the target protein coordinate system for a binding compound known to bind to a family protein having the same or similar three-dimensional structure as the target protein.
  • Compound fingerprinting means for extracting compound fingerprints to create a combined compound fingerprint set, and the above compound
  • an interaction score based on the mean square deviation of the compound fingerprint units calculated based on the three-dimensional coordinates of the binding compound fingerprint set is optimized.
  • an optimization means for calculating the three-dimensional structure of the candidate compound with respect to the target protein.
  • the present invention while it is possible to accurately predict the binding between a protein and a compound, it is possible to select many hit compounds and to take into account information such as biochemical experiments. Semi-empirical screening can be performed, and prediction efficiency can be increased.
  • the present invention is based on bioinformatics technology using a three-dimensional compound fingerprint set. It differs from the conventional method in that it exhibits the '14 ability equivalent to docking with protein.
  • the number of compound molecules bound to the target macromolecular protein has increased enormously, considering that technologies such as X-ray analysis, NMR, electron beam analysis, and high-resolution electron microscope analysis have made significant progress. Therefore, the present invention is highly effective.
  • the present invention is connected to a protein database apparatus that stores a three-dimensional structure of a protein bound to a compound and an amino acid sequence.
  • a homology search means for searching the family protein and the binding compound from the protein database device based on the homology with the sequence, wherein the compound fingerprint generation means is searched by the homology search means.
  • the compound fingerprint is extracted together with the three-dimensional coordinates converted to the coordinate system of the target protein to create the binding compound fingerprint set. .
  • the target polymer various low molecular compounds are bound to various polymer molecules similar to the three-dimensional structure of the target protein.
  • the target protein sequence is used as a query sequence, and the homology by PSI — B 1 ast etc. (H omo 1 ogy) Detect by search.
  • the present invention is searched as applicable in the detected protein, and CE (atom type is not conscious) when it contains a low molecular ligand as a protein-ligand complex. Overlaying the target protein using a method for superimposing the structures of proteins).
  • the present invention when the Z-S core representing the structural similarity reaches a predetermined value (eg, 3.7 or more), the ligand bound to the searched similar protein is extracted from the coordinate system of the similar protein. It becomes possible to extract only the ligand by converting it into the coordinate system of the target protein together with the ligand coordinates.
  • CE performs the superposition operation of protein structures without being aware of the type of atom, but a program with the same function can be substituted.
  • the present invention uses the target protein sequence as a query sequence, and when only a sequence having a high homozygosity is obtained by homology search using PS I _B 1 ast etc. A program for superimposing the structures of proteins in consideration of the type of protein may be used.
  • the present invention is not limited to PS I—B 1 ast in homology search, and any software program that can perform homology search using a sequence as a query and quantitatively evaluate the sequence similarity can be used.
  • a homology search program may be applied.
  • the present invention is the in silico screening apparatus described above, wherein the compound fingerprint creating means includes the three-dimensional model of the binding compound that binds to the family protein by superposition of the structure of the family protein and the target protein. Converting the coordinates into the coordinate system of the target protein, and extracting the compound fingerprint together with the converted three-dimensional coordinates to create the binding compound fingerprint set.
  • the present invention is the in silico screening apparatus described above, wherein the compound fingerprint creating means performs structural superposition with reference to another compound different from the binding compound, and the binding compound and the other compound And a novel compound fingerprint adding means for extracting the compound fingerprint across the atoms of the compound and adding the extracted compound fingerprint to the combined compound fingerprint set.
  • CE 1 ib FP (ringerprint) setextracted from collected 1 igandsinthebindingsite
  • This CE 1 ib includes coordinates in the target protein coordinate system and S yby Includes one-atom type and bond rule information such as single bond, double bond, and aromatic ring bond.
  • the present invention refers to CE 1 ib with an arbitrary FP (fingerprint: “compound fingerprint”, the same shall apply hereinafter) as required for the purpose of searching for a low molecular weight compound for a target protein. You can add it.
  • the present invention calculates the interaction energy with the target protein using a program that can evaluate the stability such as “circ 1 e”, etc., and makes the interaction more stable with a slightly different structure. Get "FP" (Revised FP). Then, the present invention was obtained from various low molecular weight compounds that were combined and obtained as a result of the superposition operation of the structures of the proteins using the revised FP that is stable in terms of local energy with respect to the target protein. Capture it like FP, and use it as a new FP as the target P for superposition of FP, as done in the above-mentioned invention.
  • a ligand conformation using bioinformatics called a compound fingerprint set including three-dimensional coordinates is obtained instead of the conventionally used physicochemical interaction function.
  • a compound fingerprint set including three-dimensional coordinates is obtained instead of the conventionally used physicochemical interaction function.
  • a compound fingerprint set including three-dimensional coordinates is obtained instead of the conventionally used physicochemical interaction function.
  • FP a ligand conformation using bioinformatics
  • a compound fingerprint set including three-dimensional coordinates is obtained instead of the conventionally used physicochemical interaction function.
  • FP instead of extracting FP from various low molecular weight compounds that are collectively bound to a family of high molecular protein sets that are similar to the three-dimensional structure of an existing target protein, With reference to different molecular compounds, we create a multi-compound 3D compound fingerprint set that resembles the FP of a common, common molecule.
  • the present invention captures the created compound fingerprint set as if it were FP obtained from various low molecular weight compounds that were combined and obtained as a result of the superposition operation of the structure of proteins.
  • the target FP is used for FP superposition, as was done in the above invention.
  • the above invention completely decomposes various low molecular compounds that are collectively bound to the family polymer set, and instead of the docking calculation based on the physical formula, the various low molecular compounds are separated.
  • Compound FP is the basis for docking.
  • the present invention further shows that the presence of various low-molecular compound conformations collectively bound to the family polymer protein set similar to the three-dimensional structure of the existing target protein interacts with the target protein family protein. It was born from careful consideration of the fact that it is close to the structure, and unlike the conventional method, it is highly effective and useful.
  • the present invention is the in silico screening apparatus described above, wherein the compound fingerprint creating means is configured such that, for the compound similar to the binding compound based on the Tanimoto coefficient, the number of atoms between the binding compound and the compound is between atoms. Change the type, calculate the interaction energy for the target protein above, create the compound fingerprint that is more stable in local energy than the compound fingerprint of the binding compound, and add a new compound fingerprint that is added to the binding compound fingerprint set Means is further provided.
  • the present invention relates to various low molecular weight compounds bound to CEiit's specific protein family, one high molecular protein set, and each family high molecular protein.
  • the interaction calculation program such as the Circ 1 e program so that the interaction with the ligand becomes stable.
  • the present invention improves and changes the types of atoms and bonds to fingerprint (fp) units, that is, chemical descriptor units, and uses them as new fingerprint (fp) units, that is, chemical descriptor units.
  • fingerprint (fp) units that is, chemical descriptor units
  • fp new fingerprint
  • FP as done in the above invention, it shall be adopted as the target FP for FP superposition.
  • CE 1 ib FP which is a database of various low molecular weight compounds bound to a family of macromolecular protein sets similar to the three-dimensional structure of the target protein, determines the docking score. make a big contribution ing. Therefore, in the present invention, in the above invention, when the ideal low molecular ligand docking structure that binds to the target polymer protein has been experimentally analyzed, the ideal low molecular ligand for the binding is used as a lead compound. Various substituents can be attached to improve the interaction energy, and the Tanimoto coefficient, which is the quantification function of the compound fingerprint, is very similar to the ideal low molecular ligand, that is, any low value close to 1.
  • the present invention can easily calculate the docking structure and the score of compounds having similar chemical structures and similar Tanimoto coefficients. This is a lead optimization of a binding compound or a novel design of a compound (denovo), and in combination with the role of the FP in the above-mentioned invention, it has a higher effect than the conventional method. Useful.
  • the present invention is the in silico screening apparatus described above, wherein the binding compound is a compound predicted to have a stable conformation with respect to the target protein by a known docking algorithm.
  • the present invention has been generally performed in the past.
  • a first-principles approach (Ab-initio Ap proach) using physical potential functions such as hydrogen bonding, hydrophobic interaction, and electrostatic interaction is adopted.
  • DOCK, Au to Dock, GOLD, etc. in which the ratio that can be predicted to rms d 2.0 or less is guaranteed in the correct structure by the blind 'test (b 1 indtest) that conceals the correct structure.
  • Add FP fingerprint
  • the present invention uses the conformation obtained by scoring the interaction between the target protein and various low-molecular compounds as the initial conformation of existing docking software such as DOCK, Au to Dock and GOLD. May be.
  • existing docking software such as DOCK, Au to Dock and GOLD. May be.
  • the present invention is the in silico screening apparatus described above, wherein the optimization means includes a collision of the candidate compound with the target protein based on the root mean square deviation in the compound fingerprint unit. Further, an interaction score calculation means for calculating the interaction score based on a function that takes into account the existence ratio in the interaction region of the target protein and the direct interaction ratio with the target protein. It is characterized by that.
  • the present invention is the in silico screening apparatus described above, wherein the optimization means determines the interaction score based on a metropolis method, changes or increases the compound fingerprint as a basis according to the determination result, Or by optimizing the interaction score by decreasing.
  • the metropolis determination of the present invention adopts the structure of the candidate ligand if the current score is larger than the previous score, and the adoption probability P accept if the score is small. Calculate according to P accept You may decide whether to adopt the power to reject.
  • the present invention is the in silico screening apparatus described above, wherein the optimization means repeatedly changes the conformation of the candidate compound in the process of optimizing the interaction score.
  • the structure conversion means for repeatedly translating or rotating the candidate compound as a rigid body, and the optimization means is translated or rotated by the structure conversion means. And calculating the interaction score for the candidate compound for each of the conformations.
  • an FP containing several three-dimensional coordinate information of various low molecular weight compounds bound to one family polymer set similar to the three-dimensional structure of a target protein is used as a virtual compound.
  • a single molecule of the library is docked to the target protein, and the Monte Carlo simulation annealing is performed repeatedly to find the optimal conformation of the interaction. Mathematical calculations are performed to achieve the maximum.
  • the present invention changes the conformation by changing the rotatable dihedral angle of the candidate ligand to random, and changes the coordinates of the candidate ligand that has changed in the conformation.
  • 10 FPs are randomly selected from the FP band derived from the binding compound set bound to the family protein of the target protein.
  • the present invention randomly selects a candidate ligand from the selected fp band and an FP atomic coordinate set from the library ligand. In the present invention, this state is used as a fingerprint (FP) alignment, and the least square fitting is performed based on the correspondence.
  • FP fingerprint
  • the interaction score is calculated using the mean square deviation (rms d) of the superposition at that time and the atomic coordinates of the candidate ligand after superposition.
  • the previous state is stored for the second and subsequent times, and the rigid translation and rotation are performed while maintaining the conformation of the ligand atom.
  • the present invention increases, decreases, and reduces one FP And change or add the correspondence of atomic coordinate set.
  • the present invention performs this step 10,000 times, for example.
  • the temperature of simulated annealing may be started from 30K and decreased to 0.0K.
  • the present invention calculates the maximum score of one conformation, compares the 1000 conformations that occurred early, and compares the structure with the highest score to the protein-ligand complex structure. Predict and output as At this time, the process of ranking the scores of 1000 conformations may be devised in terms of calculation time and maximum value search by using a genetic algorithm or the like.
  • the present invention is characterized in that, in the in silico screening apparatus described above, the optimization means calculates the interaction score based on the following mathematical formula (1).
  • F PAS core represents the interaction score
  • F (a 1 igned—fp, fp—rmsd, molecule) is the alignment of the compound fingerprint unit between the binding compound and the candidate compound.
  • the Base S core (a 1 igned_f p, f p_r msd) is a function with the degree and the root mean square deviation as well as the three-dimensional structure of the candidate compound with respect to the target protein
  • F p_vo 1 ume is a ratio of the candidate compound occupying a space consisting of the three-dimensional coordinates of the binding compound fingerprint set, and the target It is an index indicating the degree of collision with the protein
  • the fp-contac t_surface is the contact degree of the candidate compound with the target protein and the three-dimensional coordinates of the binding compound fingerprint set of Index der showing the Shokudo The
  • the mathematical calculations in the above-described inventions are based on bioinformatics, where the interaction between a target protein and a virtual compound library and a low molecular weight compound is calculated using a physical interaction function. It differs from conventional methods in that it is calculated semi-empirically using information.In addition, the success rate of structure prediction is superior to docking software programs recognized around the world, but it is not inferior. Demonstrate. Also, the accumulation of information leads to better interaction calculation results of the semi-empirical bioinformatics method, which is useful unlike conventional methods.
  • the present invention is based on the following formula (2), wherein the upper eye Base S core (aligned one fp, f ⁇ rmsd) in the above formula () is Calculated,
  • R a wS core (a 1 igned—fp) is an index based on the number of atoms in the compound fingerprint aligned between the binding compound and the candidate compound, and the fp-rmsd is The above mean square deviation.
  • nafp is the number of lattice points occupied by the three-dimensional coordinates of the candidate compound in the unique lattice point region based on the three-dimensional coordinates of the binding compound fingerprint set
  • nap is , The number of lattice points to which the three-dimensional coordinates of the candidate compound belong to the intrinsic lattice point region of atoms in the three-dimensional structure of the target protein, and k 2 And k 3 is an arbitrary constant.
  • n is the number of atoms of the candidate compound, and at om (i) is the three-dimensional coordinate of the i-th atom of the candidate compound, and the densit y_ of— at om ( at om (i)) is in contact with the atom of the compound fingerprint at a predetermined distance when the three-dimensional coordinates of the atom belong to the compound fingerprint of the combined compound fingerprint set.
  • the present invention is known for a specific target protein such as EGFR and VEGFR. Search for chemical compounds and optimize k 2 and k 3.
  • Accurate listing of compounds compatible with specific target proteins such as EGFR and VEGF R through in silico screening according to the above invention is directly linked to the development of new drugs for pile cancer drugs, so it is highly effective unlike conventional methods. It is useful.
  • the fp-rm sd value is calculated when capturing a set of atomic points and vectors that constitute biologically important hydrogen bonds in the interacting conformation.
  • the following formula is characterized in that atoms participating in biologically important hydrogen bonds or hydrophobic bonds or van der Waals interactions can be included in the above-described invention consistently.
  • the expression fp—rmsd + distance rms dindicativeat om setc omp osedofi mp ortantpointsvectors is expressed as fpr ms d * * kl + distanc e_r msd * * k 4 (* * kl ⁇ * * k 4 : * * Kl >> * * k4 may be extended to the form of FP), or distance 1 rm sd * * * k4.
  • distance_rmsd is the interaction of any small molecule that docks with the target protein, where the ligand atom is a biologically important hydrogen or hydrophobic bond or van der Waals interaction at the ligand binding site of the target protein. Is defined as the least square error between the ideal coordinates at the ligand binding site of the target protein, the biologically important atoms of the target protein, or the end coordinates of vectors generated from nearby atoms. .
  • the portion corresponding to the FP formula of the peptide portion may be an underestimated number such as zero.
  • the present invention reduces the FP to the base and docks with the target protein.
  • the method for calculating the interaction with a molecular compound includes the lattice information of the ligand binding environment of the target protein that is the target macromolecule, the multipoint information of the compound that emphasizes the vector between the compound and the target macromolecule, the biology of the target protein Measures such as vectors from target compounds to target proteins.
  • the present invention includes a method for calculating the interaction energy and the like from the classical physical interatomic potential formula between various atoms of the compound and various atoms constituting the target polymer protein. Unlike the conventional methods, this is an extended invention of the above-mentioned invention, and has a high effect and useful in determining the order related to the conformation of the compound and the strength of the interaction by the score value.
  • the present invention is an in silico screening method for screening candidate compounds that bind to a target protein, which is executed in an in silico screening apparatus having at least a storage unit and a control unit, wherein the storage unit As a compound fingerprint related to multiple atoms in a compound, a chemical database including the atomic type and interatomic bond rules is extracted for each candidate compound, and a compound database is created. The three-dimensional structure converted into the coordinate system of the target protein, which is known to bind to the same or similar family protein with the same three-dimensional structure as the target protein.
  • a compound fingerprint creation step for creating a combined compound fingerprint set by extracting the compound fingerprint together with the coordinates; For the candidate compounds stored in the compound database, the interaction score based on the root mean square deviation of the compound fingerprint unit calculated based on the three-dimensional coordinates of the binding compound fingerprint set is optimized. And an optimization step for calculating the three-dimensional structure of the candidate compound with respect to the target protein.
  • FIG. 1 is a block diagram showing an example of the configuration of the in silico screening apparatus to which the present invention is applied
  • FIG. 2 is a flowchart showing an example of processing of the in silico screening apparatus 100
  • FIG. FIG. 4 is a situation diagram showing a docking method according to the present embodiment by bioinformatics using effectively the conventional docking software and a number of X-ray structures and NMR structures of a protein-ligand complex.
  • Fig. 4 is a diagram illustrating the principle of protein-ligand docking using this example (Choose LD).
  • Fig. 5 is a diagram showing how FP (fingerprint) is created.
  • Fig. 6 Fig. 7 is a chart showing a list of character strings of atoms used in this example.
  • Fig. 7 is a schematic diagram showing a method for calculating similarity between compounds using the Tanimoto coefficient.
  • Fig. 8 is a graph showing the target protein binding.
  • Fig. 9 is a schematic diagram showing, as an example, FP when docking a ligand to a binding site.
  • Fig. 9 shows an example of the process of obtaining atomic coordinates from the route taken and registering them in the FP band.
  • Fig. 10 is a diagram showing an example of the FP band narrowing step (me thodstepofs H rn ingfingerprintband) in this example.
  • Fig. 10 shows an example of the process of providing a correspondence relationship between coordinate vectors.
  • Fig. 10 shows an example of the process of providing a correspondence relationship between coordinate vectors.
  • FIG. 12 is a diagram showing a specific example of nafp and nap using a ligand with 31 atoms.
  • Fig. 13 is derived from an FP library near the active site of the target protein.
  • Fig. 14 is a conceptual diagram showing the simulated annealing process as an example.
  • Fig. 15 shows the FP alignment for calculating the FPAS core.
  • Fig. 16 is a diagram schematically showing least square fitting, Fig. 16 is a diagram showing the distribution of calculation time in EGFR in silico screening, Fig.
  • FIG. 17 is a diagram showing an outline of the benchmark as an example
  • Figure 18 shows the annual distribution of the number of registrations in the PDB
  • Figure 19 summarizes the rms d between the prediction and the experimental results
  • Figure 20 shows the prediction success in 85 sets.
  • Rate list (k 1 and Fig. 21 is a chart showing the ratio that can be predicted at rmsd 2.0 or lower by 10th place
  • Fig. 22 is rmsd 2.5 by 10th place.
  • C lose The chart below shows the ratios that can be predicted.
  • Figure 23 shows the case where the rms d with the correct answer structure that is considered to be a success is also performed outside of OA.
  • Figure 24 shows the figure.
  • FIG. 25 shows the rms d force between the predicted structure and experimental structure of F PAS core in 85 sets ⁇
  • Fig. 26 shows the distribution of the number of collisions with each target protein below 2.0 A
  • Fig. 26 shows the number distribution of the predicted success structure in the 85 set benchmark
  • Fig. 27 shows the distribution of each target protein.
  • Figure 28 shows the number of successful 10 docking trials.
  • Figure 28 shows 133 sets of vectors.
  • Fig. 29 shows the results of the rmsd distribution of the DOCK, Au todo ck, and GOLD prediction structure at the tick mark, and the result of the choose LD method.
  • Fig. 29 shows the results of the rmsd distribution of the DOCK, Au todo ck, and GOLD prediction structure at the tick mark, and the result of the choose LD method.
  • Fig. 29 shows the results of the rmsd distribution of the DOCK, Au todo ck, and GOLD prediction structure at the tick mark, and the result of the choose
  • FIG. 29 shows the DOCK, Au todo ck
  • Fig. 30 shows the results of the rmsd distribution of the GOLD prediction structure and the results of the Choose LD method.
  • Fig. 30 shows the number of successful docking trials in all 10 targets.
  • Fig. 31 shows the results.
  • Figure 3 shows the number of successful 10 docking trials for each target.
  • Figure 3 2 shows the experiments in the distribution ordered by the F PAS core in the FP library limited by the Tc range.
  • Figure 33 shows the probability of obtaining a structure with an rms d of 2. OA or less.
  • Figure 33 shows an experiment within the distribution ranked by the FPAS core in one FP library limited in the Tc range. This figure shows the probability that a rms d with a structure is 2.0 A or less.
  • Fig. 34 shows the distribution of the number of collisions of the predicted success structure.
  • Fig. 35 shows that the upper limit of the Tc range of the ligand used in the FP library is further reduced to 0.16, 0. Performance when the lower limit is set to 0.08 at 24, 0.36, and the above-mentioned T c range, that is, the upper limit value 0.56, 0.76, 0.96, the predicted success rate of the lower limit value 0.08
  • Fig. 36 is a diagram showing the protein-ligand structure predicted for 1 DR 1.
  • Fig. 38 shows the predicted protein monoligand structure for 4 ESTs.
  • Fig. 38 shows the target for 1 CDG indicating that GOLD has failed but Choose LD has been successfully predicted.
  • Figure 1 shows the target for 1 DR 1 where GOLD failed, but Choice LD shows a successful prediction
  • Figure 40 shows the target where GOLD failed, but Choice LD shows a successful prediction
  • Figure 41 is a diagram for DM
  • Figure 41 is for 4 E ST showing targets that GOLD failed, but Choose LD is a successful prediction
  • Figure 42 is for 90 targets in 133 sets
  • Figure 43 is a chart showing the prediction success rate.
  • Figure 43 is a chart in which the degree of similarity of? 0810 of the target protein that was successfully predicted between the docking softwares is calculated by using Ding (: (Tanimoto coefficient).
  • Ding (Tanimoto coefficient).
  • Fig. 45 is a chart showing the success or failure distribution of each docking software's prediction for quality.
  • Fig. 45 is a chart showing the success or failure distribution of each docking software's prediction for quality.
  • FIG. 45 is a diagram for 1 HYT, which shows targets where DOCK failed but Choose LD was successfully predicted.
  • Figure 47 shows the target of 1 P HG indicating that the target was successfully predicted although DOCK failed but Choose LD.
  • Figure 47 shows the target in ⁇ , which indicates that the target was successfully predicted although DOCK failed.
  • Figure 48 shows the proportion of rmsd 2.0 structures that can be collected not only in the first position but also in the 10th position, and in Figure 49, r is not only in the first position but also in the 10th position.
  • Fig. 50 is a chart showing the rate at which the structure of ms d 2.5 (C 1 ose) can be collected.
  • Fig. 50 is a chart showing the case where rm sd, which is defined as success, is changed.
  • FIG. 52 is a chart showing the results of treatment according to Examples.
  • FIG. 52 shows the intracellular signal transduction pathway from EG FR.
  • Fig. 53 is a diagram showing alignment of amino acid sequences of EG FR
  • Fig. 54 is a diagram showing a model of EG FR constructed
  • Fig. 55 is obtained 1 1
  • Fig. 56 is a diagram showing the yield rate line graph when the k 2 value defined in the FPAS core is changed from the range of 0.5 to 5.0.
  • Fig. 57 is a graph showing the harvest rate line graph when the k3 value in the FPAS core is changed from 0.5 to 2.0.
  • Fig. 53 is a diagram showing alignment of amino acid sequences of EG FR
  • Fig. 54 is a diagram showing a model of EG FR constructed
  • Fig. 55 is obtained 1 1
  • Fig. 56 is a diagram showing the yield rate line graph when the k 2 value defined in the FPAS core is changed from the range of 0.5
  • Fig. 59 is a diagram showing the ranking of PDB IDs with known protein-ligand complex structures registered in the PDB and their ligands.
  • Fig. 60 shows the ligands of Fig. 59.
  • Fig. 61 shows the top 10 protein-ligand complex as a result of screening by Kinase in silico screening.
  • Fig. 62 shows Fig. 61.
  • Fig. 63 shows the vicinity of the TGF-c binding domain, and Fig.
  • FIG. 64 shows the MD LC rempsive medicinalna 1 Chem istry (MD L CMC). ⁇ 1) In silico screen for TGF- ⁇ binding domain of GFR using 3 1 7
  • Figure 65 shows the results of the same in silico screening using MDL ACD Library
  • Is a diagram showing the planar structure of KRN95 1 (IC 50 0.16 nm / L)
  • FIG. 68 is the VE-GFR of K RN633.
  • 2 FP library used for docking in the vicinity of the active site This figure shows the top 10 ligands used for docking among ligands belonging to one.
  • Figure 69 shows the Choose LD method for KRN633.
  • FIG. 70 shows 10 predicted structures with three-dimensional structures near the active site of VEGFR 2, and Figure 70 shows the FP live used for docking of KRN95 1 near the VEGFR 2 active site.
  • Figure 7 shows the top 10 ligands used for docking among ligands belonging to the rally.
  • Fig. 72 shows the predicted structure of KRN9 51 with 10 three-dimensional structures near the active site of V EGFR 2.
  • the Tc lower limit value obtained as a result of the docking performance test of the Choose LD method using a fixed Tc is fixed at 0.08, and the predicted success rate when the T c upper limit value is changed.
  • Figure 73 shows a graph with success rate on the axis.
  • Fig. 74 shows the three-dimensional structure of enoy 1 acy 1 carrier protein.
  • Fig. 75 shows the top 10 structure of the F PAS core as a result of the above, Fig. 75 shows the alignment of the amino acid sequences of AMPKho GAMMA 1 and 2 V9 J-E, and Fig. 76 Fig. 77 shows a list of CMC drugs with ligands bound to the entire receptor. Fig. 77 shows the state of binding to the 2 V9 J-E receptors from the 1st position to the 10th position. is there. BEST MODE FOR CARRYING OUT THE INVENTION
  • the inventor of the present application has confirmed that the conformation of the compound that directly binds to the target macromolecular protein, which is conventionally determined by classical physics. Instead of the method of determining the in silico screening order of compounds based on the results of the interaction energy using the score value obtained at that time, the collective overlap state of various compounds bound to the target polymer protein is used. If bioinformatics can be substituted, it is possible to determine the order by compound screening based on the results of interaction energy using the conformation of compounds based on human wisdom and the score value obtained at that time. I got the idea that it should be.
  • the present invention has been completed as a result of intensive studies by the inventor of the present application based on the above idea, and generally has the following basic features. That is, the present invention is an in silico screening apparatus that includes at least a storage unit and a control unit and performs screening of a candidate compound that binds to a target protein, wherein the storage unit is a compound related to a plurality of atoms in the compound. It has a compound database created by extracting chemical descriptors including atomic types and interatomic bond rules as fingerprints for each candidate compound.
  • compound fingerprint is more specifically a chemistry that includes atomic dips and atomic bond rules of atoms such as 2 atoms, 4 atoms, etc. in a compound. It is a descriptor.
  • “Atom type” is, for example, S y b y l atom type (a t o m-t y p e), “valence type” (V a 1 e n c e — t y p e), or the like.
  • Inter-atomic bond rules represent the state of chemical bonds between atoms, such as bond rules such as single bonds, double bonds and aromatic ring bonds, and classification by molecular orbital method. .
  • the screening apparatus of the present invention extracts compound fingerprints together with three-dimensional coordinates converted to the target protein coordinate system for binding compounds known to bind to a family protein having the same or similar three-dimensional structure as the target protein.
  • Create a binding compound fingerprint set in the coordinate system of the target protein, collect the collective conformation of the compound group bound to the three-dimensional structure, and extract the compound fingerprint by associating the three-dimensional coordinates.
  • the “family protein having the same or similar three-dimensional structure as the target protein” may be the target protein itself, and is the same or similar to the structure of a part of the target protein (eg, active site or ligand binding site).
  • Proteins may be used, and the same or similar proteins may be used without specifying the active site by analyzing the three-dimensional structure of the target protein.
  • the docking calculation using the existing docking software such as the conventional DOCK, Auto Dock or GOLD
  • the three-dimensional structure of the target protein is analyzed in advance and activated. It was necessary to specify the site.
  • the present invention has a higher effect than the conventional methods, and is useful because it is not necessary to designate an active site through learning of documents and the like.
  • a homology search is performed from the protein database that stores the three-dimensional structure and amino acid sequence of the protein bound to the compound, and the structure of the target protein is superimposed by superimposing the structure.
  • a protein having a similarity index of a certain value or more may be a family protein.
  • a binding compound known to bind to a protein may be: a structure in which the solid structure of a protein-compound complex is experimentally confirmed by X-ray structural analysis or NMR structural analysis. Les.
  • the binding compound only needs to be known to bind to the protein, and it can be applied to the target protein using a known docking algorithm (such as DOCKA uto Dock or GOLD) or any coordinate generation program (such as Colina). It may be a compound that is predicted to have a stable conformation.
  • the in silico screening device performs the structural superposition operation of the family protein and the target protein in order to convert the three-dimensional coordinates of the binding compound into the coordinate system of the target protein, and binds to the family protein.
  • the binding compound may be transformed from the family protein coordinate system to the target protein coordinate system along with the binding compound coordinates.
  • the structure superposition operation is performed by a protein superposition algorithm (CE etc.) that does not consider the type of atoms. If the homology between the target protein and the family protein is high, structural superposition considering the type of atoms may be performed.
  • compound fingerprint extraction is not limited to extracting directly from the binding compound, but any compound fingerprint may be added as required for the search for candidate compounds for the target protein. For example, you can superimpose structures with reference to another compound different from the binding compound, or create a new compound fingerprint that spans the atoms of the binding compound and the other compounds and add it to the binding compound fingerprint set.
  • the target protein can be tested using a program (such as “circ 1 e”) that can be used to evaluate the stability by switching the type of atoms between the binding compound and the atoms of the compound Calculate the interaction energy to obtain a compound fingerprint that is more stable in terms of local energy than the compound fingerprint of the binding compound.
  • the low molecular weight compound ideal for binding to the target protein is used as the lead compound, and various substituents are added to improve the interaction energy, or the compound fingerprint is quantified on the ideal low molecular weight compound.
  • the compound fingerprint region is the region around the ideal low molecular weight compound that has been experimentally analyzed. Limited to certain 4 or 5 angstroms. This makes it easy to calculate the docking structures and their interaction scores for compounds with similar chemical structures and very similar Tanimoto coefficients.
  • the in silico screening apparatus of the present invention uses the mean square deviation of compound fingerprint units (rms d: root— The three-dimensional structure of the candidate compound with respect to the target protein is calculated so that the interaction score based on mean—square—deviation) is optimized. That is, in this optimization process, the in silico screening apparatus, for example, repeatedly changes the conformation of the candidate compound, repeatedly translates or rotates the candidate compound as a rigid body for each conformation of the candidate compound, The interaction score calculated based on the mean square deviation is determined based on the metropolis method, and the compound fingerprint of the candidate compound is changed, increased, or decreased according to the determination result.
  • some compound fingerprints may be extracted at random, and the base coordinate fixed binding compound fingerprint set may be selected.
  • the structure of the candidate compound is changed by storing the previous conformation, such as a gene algorithm. You can let it go.
  • the calculation of the interaction score in the above optimization process includes, for example, compound compound fingerprint unit based on the mean square deviation, the degree of collision of the candidate compound with the target protein, the presence ratio in the interaction region of the target protein, And based on a function that takes into account the direct interaction rate with the target protein. More specifically, the interaction score is calculated based on the following formula (1).
  • tPAScore F aligned fp, jp rmsa, molecule
  • FPAS core is the interaction score and F (a 1 igne d_f p, f p_rms d, mo lecule) is between the binding compound and the candidate compound.
  • F a 1 igne d_f p, f p_rms d, mo lecule
  • This is a function that uses the degree of alignment and root mean square deviation of compound fingerprint units, and the three-dimensional structure of candidate compounds as target proteins
  • B ase S core (a 1 igne d_f p, f p_rms d) is a compound fingerprint unit.
  • Fp—V o 1 ume (mo lecule) is the ratio of the candidate compound to the space consisting of the three-dimensional coordinates of the binding compound fingerprint set and the degree of collision with the target protein.
  • Fp—contac t_surface (mo 1 ecu 1 e) is an index indicating the degree of contact of the candidate compound with the target protein and the degree of attribution of the binding compound fingerprint set to the three-dimensional coordinates. )
  • the above is the outline of the processing of the present invention. In this way, the ranking of the interaction of the candidate compound with the target protein is determined based on the interaction score calculated according to the optimization method, and a significant candidate compound can be estimated from the compound database. While binding can be accurately predicted, many hit compounds can be selected, and semi-empirical screening that takes into account information such as biochemical experiments can be performed. Increase efficiency.
  • the present invention is the most stable in which the conformation of various low-molecular compounds (binding compounds) collectively bound to a family protein that is the same or similar to the three-dimensional structure of the target protein interacts with the target protein. It was made as a result of considering that it is close to the structure.
  • the present invention improves the prediction efficiency compared to the conventional method by scoring and optimizing an appropriate interaction score using a compound fingerprint that is easy to handle when comparing a binding compound and a candidate compound as a unit. Semi-empirical in silico screening can be performed.
  • FIG. 1 is a block diagram showing an example of the configuration of the present in silico screening apparatus to which the present invention is applied, and conceptually shows only the portion related to the present invention in the configuration.
  • an in silico screening device 1 0 0 is roughly a control unit such as a CPU that centrally controls the entire in silico screening device 1 0 0, a communication device such as a router connected to a communication line, etc.
  • Communication control interface unit connected to (not shown) 1 0 4, input device 1 1 2 and input device 1 1 4 connected to output device 1 1 4, and various databases and tables
  • the storage unit 106 is configured to be stored, and these units are communicably connected via an arbitrary communication path.
  • the in silico screening device 100 is connected to the network 300 via a communication device such as a router and a wired or wireless communication line such as a dedicated line.
  • Various databases and tables (candidate compound DB 10 06 a to pharmaceutical compound DB 10 06 c) stored in the storage unit 10 6 are storage means such as a fixed disk device, and various programs used for various processes. Store tables, files, data bases, web pages, etc.
  • the candidate compound DB 10 6 a is created by extracting a compound fingerprint for each compound that is a candidate for in silico screening (referred to as “candidate compound”).
  • Candidate compound database means.
  • the binding compound fingerprint set 10 6 b is a compound that is known to bind to a protein that has the same or similar three-dimensional structure as the target protein (referred to as “family 1 protein”) (referred to as a “binding compound”). )) Is a combined compound fingerprint storage means for storing a combined compound fingerprint set created by extracting a compound fingerprint together with the three-dimensional coordinates converted into the coordinate system of the target protein.
  • the pharmaceutical compound D B 10 6 c is a pharmaceutical compound database such as MD L CMC Library that stores a pharmaceutical compound fingerprint set created by extracting a compound fingerprint for a known pharmaceutical compound.
  • the pharmaceutical compound DB 1 0 6 c is used as a basis for organizing compound fingerprints based on drug absorption, drug metabolism, drug excretion, drug toxicity, etc. It is used to create a binding compound fingerprint set 1 0 6 b specialized for pre-ordered drug absorption, drug metabolism, drug excretion and drug toxicity using data units.
  • the communication control interface unit 104 performs communication control between the in silico screening device 100 and the network 300 (or a communication device such as a router). That is, the communication control interface unit 104 has a function of communicating data with other terminals via a communication line.
  • the input / output control interface unit 10 8 controls the input device 1 1 2 and the output device 1 1 4.
  • the output device 1 1 4 in addition to a monitor (including a home TV), a speaker can be used.
  • Output device 1 1 4 may be described as a monitor).
  • a keyboard, a mouse, a recording medium reading device, or the like can be used as the input device 1 1 2, target proteins and candidate compounds to be subjected to in silico screening are input.
  • control unit 102 has a control program such as an OS (Operating System), a program defining various processing procedures, and an internal memory for storing necessary data. Information processing for executing various processes is performed by these programs.
  • the control unit 1 0 2 is functionally conceptually composed of a compound fingerprint generation unit 1 0 2 a, an optimization unit 1 0 2 b, a screening result output unit 1 0 2 c, and a homology search unit 1 0 2 d It is configured with.
  • the compound fingerprint creating unit 1 0 2 a is a compound fingerprint creating means for extracting a compound fingerprint from a compound such as a candidate compound, a binding compound, or a pharmaceutical compound.
  • the compound fingerprint creation unit 1 0 2 a creates a candidate compound fingerprint set by extracting a compound fingerprint from candidate candidate compounds input via the input device 1 1 2 and creating a candidate compound fingerprint set 1 0 6 a Store in.
  • the compound fingerprint creating unit 102a extracts a compound fingerprint from the obtained pharmaceutical compound to create a pharmaceutical compound fingerprint set and stores it in the pharmaceutical compound DB10106.
  • the compound fingerprint generator 1 0 2 a converts the three-dimensional coordinates of atoms into the coordinate system of the target protein and extracts the compound fingerprint along with the converted three-dimensional coordinates for binding compounds known to bind to family proteins.
  • the compound fingerprint creating unit 102a collects the collective conformation of the compound group bound to the three-dimensional structure in the coordinate system of the target protein, and extracts the compound fingerprint in association with the three-dimensional coordinates.
  • the compound fingerprint generator 1 0 2 a uses the atomic type of atoms such as 2, 3, or 4 atoms called compound fingerprints from the group of compounds bound to the target protein and the bond rules between the atoms.
  • the compound fingerprint generator 1 0 2 a performs the structural superposition operation of the family protein and the target protein in order to convert the three-dimensional coordinates of the binding compound into the coordinate system of the target protein.
  • the three-dimensional coordinates of the binding compound bound to can be converted (from the family protein coordinate system) to the target protein coordinate system.
  • the compound fingerprint generation unit 100 2 a may perform a structure superposition operation using a structure superposition algorithm (such as CE) between proteins (target protein and family protein) that do not consider the type of atom, When the homology between the target protein and the family protein is high, structural superposition may be performed in consideration of the type of atom.
  • a structure superposition algorithm such as CE
  • the compound fingerprint creating unit 102a is not limited to extracting a compound fingerprint directly from a binding compound, but can combine an arbitrary compound fingerprint according to the need for a candidate compound search for a target protein. You can add to set 1 0 6 b.
  • the compound fingerprint creating unit 1 0 2 a includes a new compound fingerprint adding unit 1 0 2 e.
  • the new compound fingerprint adding unit 10 2 e is a new compound fingerprint adding means for creating a new compound fingerprint other than the compound fingerprint extracted directly from the combined compound and adding it to the combined compound fingerprint set 1 0 6 b. is there.
  • the new compound fingerprint adding unit 102 2 e creates a new compound fingerprint that spans the atoms of the bonded compound and the above-mentioned compound by superimposing the structure with reference to another compound different from the bonded compound. And may be added to the binding compound fingerprint set 1 0 6 b.
  • the new compound fingerprint addition part 1 0 2 e is a program that can evaluate the stability of a compound similar to the binding compound based on the Tanimoto coefficient by switching the type of atoms between the binding compound and the atom of the compound ( “Ci ⁇ c 1 e” etc.) is used to calculate the interaction energy for the target protein, and a compound fingerprint that is more stable in terms of local energy than the compound fingerprint of the binding compound is newly added as a revised compound fingerprint (Modified FP). You can also create and add to the binding compound fingerprint set 1 0 6 b.
  • the optimization unit 1 0 2 b is associated with the candidate compound stored in the candidate compound DB 1 0 6 a.
  • the root mean square deviation (rmsd) of the compound fingerprint unit is calculated based on the three-dimensional coordinates of the compound fingerprint stored in the binding compound fingerprint set 1 0 6 b, and the interaction score based on the mean square deviation is optimal.
  • This is an optimization means for calculating the three-dimensional structure of the candidate compound with respect to the target protein.
  • the optimization unit 102b determines the interaction score calculated based on the mean square deviation for each three-dimensional coordinate of the generated candidate compound with respect to the relevant conformation and target protein based on the metropolis method. Then, the compound fingerprint of the candidate compound is changed, increased, or decreased according to the determination result.
  • the optimization unit 10 2 b may extract some compound fingerprints from the combined compound fingerprint set 10 6 b at random, and select a base coordinate-coupled combined compound fingerprint set.
  • the optimization unit 10 2 b is configured to include an interaction score calculation unit 10 2 f and a structure conversion unit 10 2 g.
  • the interaction score calculation unit 1 0 2 f is used in the optimization process by the optimization unit 1 0 2 b. Based on the mean square deviation in the compound fingerprint unit, the candidate compound collides with the target protein, the target It is an interaction score calculation means for calculating an interaction score based on a function that takes into consideration the abundance ratio in the interaction region of the protein and the direct interaction ratio with the target protein.
  • a specific example of the interaction score calculation by the interaction score calculation unit 102f will be described in detail in the following description of the processing.
  • the structure converting unit 10 2 g repeatedly changes the conformation of the candidate compound in the optimization process by the optimizing unit 1 0 2 b, and based on the simulated duplication method, It is a structure conversion means that repeatedly translates or rotates the candidate compound as a rigid body for each conformation.
  • the structure conversion unit 102 g can change the conformation by randomly changing the rotatable dihedral angle of the candidate compound, instead of changing the conformation, such as a genetic algorithm. You can memorize Chillon and change the structure of the candidate compound.
  • the screening result output unit 1 0 2 c was optimized by the optimization unit 1 0 2 b This is a result output means for determining the interaction rank of the candidate compound with respect to the target protein based on the interaction score and outputting the in silico screening result.
  • the homology search unit 10 2 d is a homology search means for searching for a family protein and a binding compound from a protein database device based on the homology with the amino acid sequence of the target protein. That is, the homology search unit 102 d performs a homology search by querying a protein database such as the external system 200 using the amino acid sequence of the target protein as a query sequence in order to obtain a binding compound. To obtain a binding compound whose structure is bound to a protein having homology to the target protein.
  • the present in silico screening apparatus 100 has an external system 200 that provides an external database for amino acid sequence information and protein three-dimensional structure information, an external program for alignment of sequences and three-dimensional structures, and the like. It may be configured to be communicably connected via the network 300.
  • the network 300 has a function of connecting the in silico screening apparatus 100 and the external system 200 to each other, such as the Internet.
  • the external system 2 CTO is mutually connected to the in silico screening apparatus 100 via the 7 network 300 and is connected to an external database such as a protein database relating to amino acid sequence information and protein three-dimensional structure information. (PDBPSI—B 1 ast, etc.) and functions to provide external programs that perform alignment of sequence and 3D structure.
  • a protein database relating to amino acid sequence information and protein three-dimensional structure information.
  • PDBPSI protein database relating to amino acid sequence information and protein three-dimensional structure information.
  • the protein database is not limited to those in which the three-dimensional structure of a protein-single compound complex has been experimentally confirmed by X-ray structural analysis or NMR structural analysis, but it is also possible to store compounds that are known to simply bind to proteins. May be.
  • the above-mentioned compound fingerprint generation unit 1 0 2 a uses a well-known docking algorithm (00 1 ⁇ yaha 11 1: 0 0 0. 1 ⁇ nya 00 1 ⁇ 0, etc.) or any coordinate generation program (Corina Etc.) Predict the structure of the binding compound that has a stable conformation to the target protein and use it to create the binding compound fingerprint set 1 0 6 b.
  • a well-known docking algorithm 00 1 ⁇ yaha 11 1: 0 0 0. 1 ⁇ nya 00 1 ⁇ 0, etc.
  • any coordinate generation program Corina Etc.
  • FIG. 2 is a flowchart showing an example of processing of the in silico screening device 100.
  • the homology search unit 1 0 2 d is identified from a protein database such as an external system 2 0 0 based on the amino acid sequence of the target protein input via the input device 1 1 2. Homology search is performed for family proteins with known three-dimensional structures bound to these compounds (binding compounds) (Step SA-1).
  • the compound fingerprint creating unit 102a superimposes the structure of the target protein and the structure of the family protein with the binding compound (step S A-2).
  • the compound fingerprint generation unit 102a may perform structural superposition of proteins without considering the type of atom. If the homology between the target protein and the family protein is higher than a predetermined value, Structural superposition may be performed in consideration of the type of atom.
  • the compound fingerprint generator 1 0 2 a converts the three-dimensional coordinates of the binding compound from the family protein coordinate system to the target protein coordinate system (step S A—
  • the compound fingerprint generator 1 0 2 a then extracts the compound fingerprint from the binding compound together with the three-dimensional coordinates of the binding compound converted into the target protein coordinate system, and stores the extracted compound fingerprint in the storage unit 10 6.
  • Create a fingerprint set 1 0 6 b (Step S A- 4).
  • the new compound fingerprint adding unit 102 e may add an arbitrary compound fingerprint (such as “Modified FP”) according to the need to search for a candidate compound for the target protein.
  • the compound fingerprint generation unit 10 2 a obtains a product set of the compound fingerprint set stored in the combined compound fingerprint set 10 06 b and the compound fingerprint set stored in the pharmaceutical compound DB 10 06 c. This may narrow down the structure similar to that of pharmaceutical compounds.
  • the optimization unit 1 0 2 b combines the compound fingerprints with fixed coordinates as the basis for calculating the interaction score for the candidate compound stored in the candidate compound DB 1 0 6 a. 6 Select from b (Step SA-5).
  • the optimization unit 1 0 2 b calculates, for the candidate compound, the mean square deviation of the compound fingerprint unit based on the selected coordinate fixed three-dimensional coordinates of the compound fingerprint and performs the least square fitting, and the square mean
  • the three-dimensional structure of the candidate compound with respect to the target protein is calculated so that the interaction score based on the deviation is optimized (Step SA-6). That is, the optimization unit 1 0 2 b uses the interaction score calculation unit 1 0 2 f as a base, and the compound fingerprint with the target protein coordinate fixed arbitrarily selected from the binding compound fingerprint set 1 0 6 b is used as a basis. An interaction score based on the mean square deviation of the three-dimensional coordinates between compound fingerprints is calculated.
  • the optimization unit 10 2 b uses the interaction score as an index so that the conformation of the candidate compound converted by the process of the structure conversion unit 10 2 g and the structure for the target protein are optimized.
  • the simulated annealing method based on the metropolis method is executed.
  • the screening result output unit 1 0 2 c uses the target protein of the candidate compound in the candidate compound DB 1 0 6 a. The order of interaction is determined, and the results of in silico screening are output to the output device 1 1 4 (step SA-7). For example, the screening result output unit 1 0 2 c sorts the candidate compound groups in descending order with respect to the highest interaction score obtained for each weather compound by the optimization unit 1 0 2 b. Output.
  • the interaction score calculation unit 1 0 2 f is based on the mean square deviation of the compound fingerprint unit. Direct interaction with the target protein An interaction score is calculated based on a function that takes into account the rate of action. More specifically, the interaction score is calculated based on the following formula (1).
  • Fp—vol um e (mo 1 ecu 1 e) is the index indicating the degree of coincidence and density of units, and the ratio of candidate compounds to the space consisting of the three-dimensional coordinates of the binding compound fingerprint set, and the target protein and F p_c ontac t_s urface (mo 1 ecu 1 e) is an index indicating the degree of contact of the candidate compound with the target protein; and; )
  • each term in the above formula (1) is calculated based on the following formula in the present embodiment.
  • This term is a function that takes into account the degree of coincidence and density of compound fingerprint units.
  • R a wS core (aligned—fp) is an index based on the number of atoms in the compound fingerprint aligned between the binding compound and the candidate compound, and fp—rmsd is the mean square deviation.
  • Raw S coreignedfp is calculated by the following equation (3).
  • assigned-score (i) is a score based on the following formula given to the i-th aligned compound fingerprint in advance.
  • assigned- score (i) It can be obtained from Equation (4).
  • total_a tom (i) is the number of atoms constituting the i-th aligned compound fingerprint, for example, 4 for a compound fingerprint consisting of 4 atoms.
  • C ase 1— S, Case 2_S, Case 3— S is a scalar value given if the following conditions are satisfied: n_n eighbor r_a tom (i) is the same compound fingerprint close to the i-th atomic set as described below Is the number of atoms belonging to.)
  • the depth-firstsearch (“C algorithm whole family from basics to graphics IS BN4— 764 9-0 2) for one binding compound in the binding compound fingerprint set. 3 9-7 "See Modern Science") up to 4 atoms (eg compound fingerprints such as C.ar-N.ar-C.ar-C.ar).
  • the search is performed up to 4 atoms. Since the search has been completed, the number of ring structures is not considered. In other words, there is no distinction between a benzene ring and a naphthalene ring.
  • a score (Case 1_S) is given to each atom composing the compound fingerprint.
  • the scalar value per atom is 5.0. That is, a compound fingerprint composed of 4 atoms is given 20.O, and 3 atoms is given 15.0.
  • Case 2—S is a case where a new compound fingerprint is created using the compound fingerprint obtained in Case 1, and any two compound fingerprints that overlap at a certain distance are selected.
  • the atoms are connected by virtual bonds, creating a new compound fingerprint, and a certain score for each atom.
  • the default may be 2.5.
  • C a s e 3— S is an arbitrary scalar value given when there is a possibility of the existence of an atom by biochemical information or energy calculation.
  • C a s e 3— S is not used in the verification calculation using the training set.
  • the compound fingerprints obtained in the process of creating C a s e 1_S and C a s e 2 _S must belong to a compound fingerprint set obtained from a known drug database that can identify the binding rule information and the atom type.
  • Case 1—S and Case 2—S, Case 3—S the distance between the atomic coordinate set and other atoms is dist (the default is 1. Add the natural logarithm of the number of atoms within OA) to the fp coordinate score.
  • the binding compound when most of the compounds are peptides with linked amino acid residues, there are many peptide groups, and the correspondence relationship of compound fingerprints becomes complicated. Therefore, the correspondence relationship is too small in the calculation process of the interaction score. Evaluate the above formula for RawS core in the above formula for the compound fingerprint of the peptide part (3).
  • Equation (2) The right-hand side denominator of Equation (2) above can be obtained from Equation (5) below.
  • This term is the proportion of candidate compounds that occupy the space consisting of the three-dimensional coordinates of the binding compound fingerprint set, that is, how much power the target compound fingerprint obtained from the binding compound fingerprint set satisfies and the target This function evaluates collisions with proteins.
  • nafp Numb erof Ligand Atomic Covering Fingerprint
  • Nap Numb eroi Ligand At om covering P rotein
  • k 2 and k 3 are Each coefficient is an arbitrary constant that can be changed according to the biochemical information of the target protein, the degree of induction fit, etc. In this embodiment, 1.0 is used as the default.
  • This term is a function that takes into account the degree of contact of the candidate compound with the target protein and the degree of attribution of the binding compound fingerprint set to the three-dimensional coordinates.
  • n is the number of atoms in the candidate compound, at om (i) is the 3D coordinate of the i-th atom in the candidate compound, and density— of _a ton (atom (i)) is When the three-dimensional coordinates of the atom belong to the compound fingerprint of the binding compound fingerprint set, the number of target protein atoms that are in contact with the compound fingerprint atom at a predetermined distance and the same lattice of the compound fingerprint This function returns the sum of the number of atoms of the linking compound belonging to the point, total- density one of- at orn (mo 1 ecu
  • 1 e is a number obtained by rearranging the distribution of d e n si t y — o f _a t o m in descending order and adding them in order by the number of atoms of the candidate compound.
  • nfpcontact is the number of atoms in the candidate compound that are in contact with the atoms belonging to the compound fingerprint at a certain distance (default is 3.8).
  • natom is the number of atoms constituting the compound derived from the binding compound set belonging to the same lattice point.
  • counting is allowed with duplication.
  • Hi is used when there is particularly important biochemical information, and 0 is used in Defonoret.
  • the 3D—1D method such as “C irc 1 e” This is caused by the Modified FP that is introduced when stable contact with the target protein is suggested.
  • sort-density-of-at om is the order of the distribution of density o f_a t om in descending order. In other words, if the numerator is large, a large numerical value is added, so tota 1—densit y_o f—at om becomes large.
  • the structure conversion unit 102 g changes the conformation by randomly changing the rotatable dihedral angle of the candidate compound.
  • the conformational change is performed 1000 times. The higher this number, the better the result may be. However, since it is necessary to perform docking calculations for many low-molecular compounds contained in the virtual candidate compound DB 106 a, a finite number of times is required. This number should be sufficient for preliminary calculations even if it depends on the rotational degree of freedom of the candidate compound.
  • the initial conformation is the binding conformation for family proteins registered in candidate compound DB 106a. You can also be Yon.
  • the optimization unit 102b uses the coordinates of the candidate compound in the following processing for each changed conformation.
  • the optimization unit 102 b randomly selects 10 compound fingerprints from the compound fingerprint band (f p b a n d s) of the combined compound fingerprint set 106 b. If it is less than 10, use half of the maximum number of compound fingerprint bands. More specifically, the atomic coordinates of the compound fingerprints of the candidate compound and the combined compound fingerprint set 1 06 b are randomly selected from the selected compound fingerprint bands. This state is called finger print alignment (f i n g e r p r i nta 1 i g nmen t). Then, the least square fitting is performed based on the correspondence, and the interaction score is calculated by the above formula using the mean square deviation (rms d) of the superposition at that time and the atomic coordinates of the candidate compound after superposition. To do.
  • the structure conversion unit 102 g stores the previous state in the storage unit 106 for the second and subsequent iterations, and maintains the conformation of the candidate compound, that is, translates and rotates the candidate compound as a rigid body. And increase / decrease one compound fingerprint and change / add the correspondence of atomic coordinate set. In this embodiment, this step is performed 10,000 times.
  • the optimization unit 102 b performs a metropolis (Metropolis) determination. That is, the optimization unit 102b accepts the arrangement of the candidate compound if the current interaction score is larger than the previous interaction score, and conversely if the interaction score is small, Based on the following formula, the employment probability (P accept) is calculated.
  • Metropolis metropolis
  • T temperature
  • the optimization unit 102 b calculates the maximum value of the interaction score of one conformation, compares the 1000 conformations that have been generated earlier, and compares them with the maximum interaction score.
  • the structure is predicted as an optimal target protein-candidate complex (Protein—Ligandc omp lex) structure.
  • a genetic algorithm is used to store the previous conformation and use some algorithm. You can change the ligand structure and devise it in search of the calculation time and maximum value. In order to determine the order of ligand conformation in 1000 calculation processes, using genetic algorithms such as those used in the GOLD program, the calculation time can be shortened and the ligand conformation can become more true. You can get a minimum score of
  • a set of low molecular weight compounds with a Tanimoto coefficient (T c) of 0.08 or more may be used as a measure of similarity between compounds.
  • the Tanimoto coefficient (Tc) is calculated as follows.
  • Tc (Where a is the number of compound fingerprints present in the FP bands (fpbands) of both the binding compound and the candidate compound, and b and c are the numbers of fps present only in one FP band. )
  • numb e r o f i f p (a s s emb l y) is the number of compound fingerprints belonging to a collection '5, (a s s emb 1 y).
  • Example 1 of the present embodiment to which the present invention is applied will be described in detail below with reference to FIGS.
  • the combined compound fingerprint set 106 b is referred to as “CE l i bJ (FP (f i n g e r p r i n t) se t e x t r a c t e d f r o m c o l e c t e d 1 ⁇ ga a ri d s i nt h e b i n i d e n g e i t e t).
  • the scope of the body structure prediction method is the prediction of activity change due to the effect of mutation [References: Yuji Nakamachi, Seiji Kawano, Mariko Nororo, Yoriko Noguchi, Yosuke Kinoshita, Kazuhiko Kano, Genki Terashi, Mayuko Takeda, Mayuko Takashi, Shinichi Kondo, Shunichi Kumagai, P04 08 "A 1 a 54Thr and A 1 a 249 G 1 u mutation An tithr omb in combinatorial modeling analysis”], Drug Design [Reference: Takeda- S hitaka, M., Takaya, D., Chiba, C., Tanaka, H., & Ume y ama, H.
  • the aforementioned CAS P also conducts tests to predict the residues of protein binding sites [References: Lope Z , G, Rojas, A, Tress, M, Valencia, AP roteins, 2007, 69 (S 8): 165— 1 74], and the importance of improving the prediction accuracy of protein-ligand complex (Protein—Ligandc omp lex) is increasing.
  • Fig. 3 is a situation diagram showing the docking method according to this example using bioinfotigs that effectively uses the conventional X-ray structure and NMR structure of a protein-ligand complex and conventional docking software. It is.
  • the candidate compound is docked to the target protein from the virtual compound library, and the structure of the protein-ligand complex (Protein—Ligandc omp lex) is predicted. to select it C omp ound), calculate the distance between protein and ligand from the structure of a known protein-ligand complex (Protein—Ligandc omp lex), calculate classical physics energy, etc. Extraction of information; many attempts have been made to re-evaluate to select many hit compounds [Reference: Suk uma raneta 1 Eu r. J. Med. And h em. 2007, 42, 966— 9 76, Reference: Z haneta 1 J. Med. Ch em. 2004, 47, 337-344].
  • H It means that selecting a lot of it Com pound) from the virtual compound library does not match (not directly).
  • the structure of a protein-ligand complex can be predicted with high accuracy, and many hit compounds can be detected from a virtual library.
  • the inventor of the present application does not use the classical physics potential function to evaluate the protein-ligand complex (ProteinLigandc omp lex) interaction, but the interaction registered in the PDB. Efficient information is selected from the biochemical information of known protein-ligand complex (Protein—L igandc omp lex), docked and protein-ligand complex (Protein—L igandc omp lex)
  • the system Choose LD CHOI se- riomenations em i — Empirically on the Ligand Do cking
  • the classical physics potential function is not used in the interaction evaluation of protein-ligand complex (Protein—Ligandc omp lex).
  • the method of the present invention is a physical approach in the optimization of protein-ligand complex structures where the physical energy of the interaction cannot be optimized.
  • AMBER Reference: Case, AD, Cheath am III, E.
  • FIG. 4 is a block diagram showing the principle of docking of a protein single ligand according to this example (Cho o s e LD).
  • the library ligand (LIBRALY LANDANDS) corresponds to a set of binding compounds
  • CEL i b corresponds to the binding compound fingerprint set 106b.
  • each cylinder represents a set of data
  • an ellipse indicates input information
  • a rectangle indicates an output structure.
  • the parallelogram is a compound fingerprint (FP) as a chemical descriptor. Since all the processes are performed on a computer (in-silico screening device 100), the information to be input is a file as electronic information. In other words, a 3D coordinate file of the target protein described in a format typified by the PDB format and a 3D coordinate file of the docked ligand are assumed.
  • the arrows in Fig. 4 mainly mean the narrowing of the data set and the modification of the input information and the conversion operation, and detailed conditions can be specified for the conversion operation.
  • these conversion operations have predetermined values, and if the input information is in file format and the input protein coordinates are physicochemically normal, the output will be fully automatic. Can do. That is, if the 3D coordinate file of the target protein and the 3D coordinate file of the candidate ligand to be docked are input, This means that a 3D coordinate file of the protein-ligand complex structure is output.
  • 3D coordinates of proteins and amino acid sequences are used as 3D coordinates of protein steric structure for homology search, construction of FP library corresponding to compound compound fingerprint set 106b, docking calculation, candidate for target
  • the ligand corresponds to a candidate compound and is used to search for a 3D conformation of candidate protein-specific FP bands and ligands.
  • the in silico screening device 100 performs processing on the protein structure database such as PDB for the target protein by the processing of the homology search unit 102 d.
  • a homology search is performed, and the compound fingerprint generator 102a performs a fitting with a homologous protein and a structural alignment, and the compound fingerprint is converted into the target protein coordinate system along with the three-dimensional coordinates. Extraction is performed to create a target protein-directed ligand group (C) corresponding to the binding compound fingerprint set 106 b.
  • C target protein-directed ligand group
  • the in silico screening device 100 queries the target protein-directed ligand group (C) against the pharmaceutical (druggab 1 e) -FP database (D) corresponding to the pharmaceutical compound DB 1 06 c, and sets the product set ⁇ 'Target protein-specific FP band (L) is obtained as (D).
  • the target protein-directed ligand group (C) may be added with a virtual F P such as Mod i fi i d F P by the processing of the new compound fingerprint addition unit 102 e.
  • the in silico screening device 100 extracts a compound fingerprint from a candidate ligand that is a docked ligand and a target protein in a virtual ligand library or benchmark set, and a candidate corresponding to the candidate compound DB 106a. Create the FP band (R) of the ligand.
  • the in silico screening device 100 then changes the conformation of the candidate ligand through the processing of the structure conversion unit 102 g, and the FP alignment between the target protein-directed ligand (C) and the FP band (R) of the candidate ligand. I do.
  • the in silico screening device 100 is used for the processing of the optimization unit 102 b Therefore, when docking a candidate ligand to the binding site of a target protein using an interaction score function, the interaction score is optimized using the simulated annealing (SA) method, and the target protein-candidate ligand complex The three-dimensional structure is predicted.
  • SA simulated annealing
  • Library ligands (L I BRARY L I GANDS) are equivalent to a collection of binding compounds.
  • the in silico screening device 100 is based on the homology search by PSI—B 1 ast [Reference: A ltsc hu leta 1 Nu c 1 eic Acids Res s. 1997 27 (1 7) 3389—402].
  • PSI—B 1 ast a protein-ligand complex
  • it is a conformation generation program CE [Reference: Sh indyaloveta 1 Protein Engineering 1998 1 1 (9) 739-747] is used to align the target protein and the homologous protein, and overlays the target protein by the least square method (1 eastsquarefitting).
  • the library ligand is obtained by converting the binding ligand into the coordinate system of the target protein and extracting only the binding ligand when the Z_S core by the least square fitting is 3.7 or more.
  • FP a compound fingerprint
  • FIG. 5 is a diagram showing an example of how to create F P (f i n g e r p r i int).
  • the Choose LD method in this example is intended to predict the unknown ligand structure docked to satisfy the minimization of free energy using a protein-ligand complex structure with a known interaction.
  • FP fingerprint
  • Chemical substances shown as an example in Figure 5 The name of this substance is AZD 21 71 (Cancer Res 2005; 65: (10), May 15, 2005).
  • FP is created by tracing atoms using given bond rule information. The number of atoms to follow is 2, 3, 4 (this number has a reason and will be explained later). Each enclosed line represents the calculated FP.
  • the FP indicated by a is the case of following two atoms, and the FP indicated by b is an example of following three atoms.
  • the number of FPs indicated by c and d is 4 each, and they pass through the same atom, but this case is also allowed.
  • the FP shown by e follows different atomic coordinates but the same atomic species, and the FP overlap of the interaction score function described later is added.
  • the part surrounding the bond line of the compound in FIG. 5 means the atomic type notation of FP that is also used in the Choo LD LD method and the comparison of compound similarity.
  • a depth-first search method is used with any atom on the compound as the base point (Chibaeta 1 Calgorit hm Z ENKA 1995 I SBN4-7649-0239-7), and atoms are searched according to the interatomic bond information of the given ligand. Passed, but the number of bonds passing through was 1, 2, and 3.
  • the same atomic type notation is constructed from the benzene ring and the naphthalene ring, and no difference in ring structure is distinguished.
  • FIG. 6 is a chart showing a list of character strings of atoms used in this example.
  • FIG. 7 is a schematic diagram showing a method for calculating similarity between compounds by the Tanimoto coefficient.
  • a Tanimoto coefficient hereinafter referred to as Tc
  • Tc Tanimoto coefficient
  • Tc is a numerical value of the similarity of a vector consisting of two bits, 0 or 1.
  • an FP vector was created for the target low molecular weight compound using the FP construction method introduced above, and the FP defined on the vector was created. If is present, 1 is given; if not, 0 is given. Similarity between compounds was evaluated from two vectors of the same length created in this way and the corresponding components meaning the same FP.
  • Tc was calculated by the following formula.
  • FP bands are derived from the low molecular weight compounds that form the aggregate obtained from the collective force of the low molecular weight compounds belonging to the library of binding compounds—ligands (LI BRARAY LI GANDS).
  • Tc Tanimoto coefficient
  • a is fli the numb eroffpexisting ineachf pbands) in which FP is present in both FP bands.
  • b and c are FP is one of F Use the number that exists only in the P band (the numb eroffpexistingintheot herfpband).
  • a and B are set to FP of each band, it can be expressed as follows.
  • numb er 1 o f 1 f p (a s s emb ly) is the number of f p belonging to a certain set a s s e mb 1 y.
  • the FP library corresponds to a set of binding compounds, and the C o o s e in this example.
  • the source of the atomic type notation of FP used in the L D method and the ligand group that is the origin of the atomic coordinates registered in the constructed FP.
  • the primary structure of the target protein that is, the amino acid sequence is collected from family proteins detected by searching for homozygous searches such as Li Even ligands, proteins, peptides, etc. that are thought to bind to the target site can be added if necessary.
  • an FP library was constructed mainly from family proteins.
  • PS I—B last (Nucleic Acids Res. 27, 3398— 3402 (1997)) is a protein-ligand complex in a protein with a known three-dimensional coordinate structure detected by homology search.
  • CE Protein Enginering 1 1, 739-747 (1998) is used to perform conformation alignment between the target protein and the family protein.
  • CE aligns two proteins using three-dimensionally similar parts, regardless of amino acid sequence similarity. It is a program that implements the algorithm to perform, and other three-dimensional structure alignment programs include Da 1 i (J. Mo 1. B iol.
  • CE can obtain results at high speed by improving the amino acid sequence in order from the N-terminus, etc., but when the target protein has domain masking etc. Is difficult to align with accuracy, in which case it is better to use Da 1 i etc. for alignment that does not depend on the order of amino acid sequences.
  • the family proteins detected by PSI—B 1 ast were mainly overlapped, so CE was used with a short calculation time.
  • the alignment output by the CE was used and superimposed on the target protein by least square fitting.
  • the CE alignment Z—S core was 3.7 or higher, the bound ligand was converted to the coordinate system of the target protein, and only the bound ligand was extracted. That is, in this example, only a protein structurally similar to the target protein is used as a family protein.
  • the FP band is a vector of FP associated with one or more atomic coordinates, and is obtained from a set of binding ligands belonging to the FP library.
  • the binding ligands that belong to the resulting set include coordinates in the coordinate system of the target protein, the atom type represented by the Syby 1 atom type (At om T ype), and single bonds, double bonds Includes bond rule information such as bonds and aromatic ring bonds.
  • FIG. 8 is a schematic diagram showing as an example FP when a ligand is docked to the binding site of a target protein.
  • translucent parts made up of several geometric figures (rectangles, diamonds and ellipses) represent various types of FP.
  • I ntra -mo lecule FP (rectangle in Fig. 8) is a ligand molecule This is an FP constructed using only the information in the FP, and is created using atomic type information and binding information obtained only from the inside of one ligand belonging to the FP library.
  • One FP passes through the bonded atoms 1, 2, or 3 times based on the FP atom type notation described above, starting from one atom in the ligand molecule, as shown in Figure 8. Consists of up to four atoms without undue branches. The smallest FP in this example consists of two atoms.
  • Fig. 9 shows an example of the process of obtaining atomic coordinates from the route taken and registering them in the FP band.
  • the lower matrix represents the atomic coordinates
  • the number of rows represents the number of atoms that make up the FP.
  • a 4 ⁇ 3 matrix means that FP contains 4 atomic coordinates.
  • Modified FP (diamond in Fig. 8) is an FP that is created assuming that the given bond information and adjacent atoms are virtual bonds. Atoms that are bonded and are not actually bonded, but unless specified otherwise, if an atom is present within 1 A, it is determined to be a virtual bond, and the bond passes 1, 2 or 3 times Then, construct an FP consisting of up to four atoms without branching. In this example, the smallest FP consists of two atoms.
  • the MDL Comprehensive Medication is obtained from the three-dimensional coordinate data base of a physicochemically existing drug (corresponding to the drug compound DB 106c). From the FP library and compare it with the FP vector part of the FP band obtained from the FP library. To do.
  • this original database can be used for drug absorption, drug metabolism, drug excretion and drug
  • the basic data unit as a basis for organizing fingerprints (FP) etc. with toxicity as an index, we have established a drug database and compound database specially organized for drug absorption, drug metabolism, drug excretion and drug toxicity. Create and do the same series of operations.
  • FIG. 10 is a diagram showing, as an example, the FP band narrowing-down step (metho dn tepinof shrini nk ginf e nt p rn t b a n d) in the present embodiment.
  • the FP band (A) obtained from the MDL CMC Library was compared with the FP band (B) obtained from the target protein-directed ligand group, and FP was present in both cases.
  • Remove from FP band (A) or (B) (represented by X in Figure 10).
  • FP band construction method it is allowed that one atom belongs to multiple FPs in all FP band construction processes.
  • the FP obtained for the FP band has already been registered. If it was recorded, the FP coordinates are added. If not, add a new FP to the FP band and add the coordinates.
  • One atom is allowed to belong to multiple FPs.
  • the same operation is performed on the candidate ligand (docked 1 igand) as the docking target, and the FP band (fpbandsofdockedligand) force s derived from the candidate ligand is created.
  • the FP band is associated with the coordinates of the atom set, and when comparing two FP bands, the associated coordinates are used instead of just the atomic type.
  • FP band alignment means comparing the FP band obtained from the candidate ligand with the FP band obtained from the FP library of the bound ligand. The comparison is made through the following processes (1) and (2).
  • FP Bits are used to select the combination of both bits being o n (see Figure 7).
  • Figure 11 is a schematic diagram showing an example of the process of assigning a correspondence between coordinate vectors.
  • One FP consists of an atomic coordinate vector derived from the candidate ligand molecule to be docked (1) and an atomic coordinate vector derived from the binding ligand in the FP library (2), and provides a correspondence between these atomic coordinates.
  • ⁇ at least one '' means that if the FP atomic type changes, the correspondence relationship of the FP coordinates before the change disappears, and the correspondence relationship is given again in the FP after the change. This is because the relationship also changes.
  • F PAS center in this example will be described in detail below.
  • F PAS core fingerprint nme ntscore
  • F PAS core is based on the Choose LD method assumption that FP is a set of partially bound free energies. It was defined to satisfy the ligand complex structure.
  • F PAS core considers the accuracy of FP overlay and the number of FPs used for alignment, FP density, and protein-ligand complex interactions at the same time.
  • the optimal target protein-candidate ligand complex was predicted by searching for the optimal alignment of the FP band obtained by the above-described operation.
  • the interaction score F PAS center was defined as the following mathematical formula. Where a 1 igned— fp is the aligned FP, f p_r msd is the rms d calculated by least square fitting using the alignment, and mo 1 ecu 1 e is the candidate ligand docked to the target protein It means the coordinates of the complex after. Each section is described in detail below.
  • This term is defined as a function that takes into account the degree of coincidence and density of FP, that is, a function that evaluates the strength of use of a known FP, and can be expressed by the following formula.
  • k l is a scale factor that determines how tight the FP overlay accuracy is. If the rm s d of the alignment of the aligned FP is large, the denominator becomes large and B a S S S c re e becomes small. This means that even if the degree of coincidence of FP is large, the case where r m s d indicating the accuracy of overlapping FP atomic coordinates registered in the FP is large (bad) is excluded. In this embodiment, k l is set to 4.0.
  • f p — rms d is r ms d calculated by least square fitting using the alignment.
  • a l i g n e d_f p is the corresponding relationship of f p, that is, the aligned FP.
  • the above formula can be expressed as follows: raw- score (, a 1 igned one fp) i
  • assinged—score (i) is a score given in advance to the i-th aligned FP.
  • n is the total number of FPs aligned.
  • Aligned FP means a set of atomic types and atomic coordinates in the target protein-specific FP band (see “FP” above).
  • Band alignment ”and Figure 11 (1) That is, even if FP is the same atomic type in the alignment of FP, it means different FP if the atomic coordinates are different.
  • a s s i gn ed-s cor e (i) i is the score given in advance to the i-th aligned FP, which can be expressed by the following equation. This score is given as follows for F P obtained from a ligand library such as CE 1 i b.
  • Ca se 1—S is a score given to each atom when the above-mentioned “Intra a—mo 1 e c u 1 e F P” is constructed. Unless otherwise specified, 5.0 is used. For example, if the search is successful, score C a s e 1 for each atom in FP
  • C a s e 3—S is described; it is an arbitrary scalar value given when there is a possibility of existence of an atom by biochemical information or energy calculation (such as “c i r c 1 e”).
  • C a s e 3—S is not used in this example, and is not used in the docking performance (bond mode prediction performance) verification calculation using the benchmark set and in silico screening performance.
  • the natural logarithm of the density of atoms belonging to the FP library was added to the score in addition to the score of the sum of C ase 1-S, C ase 2 — S, and C ase 3 —S.
  • This is the addition of the natural logarithm of the atoms in the atomic coordinate set belonging to FP and the number of atoms (n— neighbor— atom (i)) belonging to the other FP within 1.OA to the score of FP.
  • This term is a term that favors dense FP.
  • This term is a function that evaluates the complex structure after the candidate ligand is docked to the target protein using the aligned FP. That is, the number of molecular coordinates of the candidate ligand after docking occupies the space composed of FP obtained from the binding ligand of the FP library (that is, how much the space composed of FP derived from the FP library fills the space.
  • This function evaluates collisions with the target protein and can be expressed by the following equation: where mo 1 ecu 1 e represents the atomic coordinates after docking the candidate ligand.
  • nafp Numb erof Ligand Atomic Covering Fingerprint
  • the number of molecules (mo 1 ecu 1 e) that occupy the region that is, the number that the candidate ligand occupies the coordinates of the unique lattice point region created using the bound ligand atoms that make up the FP library.
  • nafp expresses how much the candidate ligand molecule (mo 1 ecu 1 e) satisfies the FP (fingerprint) with fixed coordinates.
  • tt the number of coordinates of mo 1 ecu 1 e (candidate ligand molecule after docking) belongs to the intrinsic lattice point region created from the atomic coordinates of the target protein, It expresses how the target protein collides with the constituent atoms.
  • k 2 and k 3 are coefficients, respectively. Unless otherwise specified (default), 1.0 is used for each, but it can be changed depending on the biochemical information of the target protein and the degree of induction fit. It is. In other words, k 2 is a constant that emphasizes the region that occupies the space of the binding ligand population of the target protein family protein.
  • the k 2 value may be grouped depending on the size of the binding region of the target protein.
  • K 3 is a tolerance factor for collision of the candidate ligand with the region occupied by the target protein, and is a coefficient that places importance on collision between the candidate ligand atom and the target protein atom. If the k3 value increases, collisions between the target protein and the candidate ligand are not allowed. With regard to k3, there is a possibility of grouping the softness of the active site of the protein.
  • Fig. 12 shows a specific example of nafp and nap. It is the figure shown using.
  • the candidate ligand has 10 atoms that collide with the target protein, 21 atoms belong to the lattice points from the FP library, and the k 2 value and k 3 value are 1.0
  • FPAS core it is defined as the one corresponding to the Renegade Diyons potential that expresses the depleted Kerr repulsion term, which is an empirical physical function.
  • k 2 value and k 3 value the result of an example of optimization of k 2 value and k 3 value will be described later.
  • f P_c ontac t_surface is the degree of contact of the candidate ligand with the target protein in terms of its atomic coordinates, It is a function that considers the degree of attribution of the coordinates to the FP library, and can be expressed by the following formula.
  • mo 1 e c u 1 e is the atomic coordinates after docking the candidate ligand
  • atom (i) is the i-th atomic coordinates after the docking
  • n is the number of atoms.
  • this equation is calculated for the complex structure after the candidate ligand is docked to the target protein, similar to the above equation for f p_v o 1 u me, and the target protein in the candidate ligand atomic coordinates.
  • This is a function that takes into account the degree of contact with the surface of the material and the degree of attribution of candidate ligand atom coordinates for FP atoms obtained from the FP library.
  • Nfpcontact includes atomic coordinates of FP that belong to the FP library, (by default) unless otherwise specified is the number of atoms of the target protein in contact with 3. 8A below, na t om Is the number of atoms of the binding ligand compound from the FP library belonging to the same lattice point.
  • a plurality of ligand molecules of the same atomic type may be present, and even in the case of the same ligand molecule and different 1D codes of 08, all are taken in this embodiment.
  • FIG. 13 shows an example of the position of a ligand from the FP library near the active site of the target protein.
  • the FP in the vicinity of the target protein surrounded by an ellipse (a circle with a one-dot chain line) is in contact with the target protein, so n f p c o n t a c t is preferentially treated.
  • the binding ligand atoms derived from the FP library are dense, and n at orn is preferentially treated. In other words, if the atomic coordinates of the docked candidate ligand are close to these parts, the score is preferentially given by the above formula.
  • top ti fp contactsurface formula
  • Tota 1 is the number of atoms in the candidate ligand molecule.
  • sort_d enslty-of-one at om is the distribution of scalar values of density-of-at orn in the upper-order formula in order from the largest. In other words, if the candidate ligand molecule is large, tota 1—dens e_of—at om becomes large.
  • FIG. 14 is a conceptual diagram showing the simulated annealing process as an example.
  • the conformation is changed by randomly changing the rotatable dihedral angle in the candidate ligand (d o c k e d l i g a n d) to be docked.
  • the van der Waals radius of the candidate ligand atom was a value based on AMBER 99.
  • Step 2. The candidate ligand with altered conformation is used as a rigid body and docked to the binding site.
  • the following translation and rotation operations are performed on the single conformation generated in step 1.
  • FIG. 15 is a diagram schematically showing FP alignment and least square fitting for calculating FPAS core.
  • FP alignment is performed between coordinate matrices for each FP type (D) and (E) as described above in the section on FP band alignment.
  • FP vector (D) derived from the rally and the FP vector (E) derived from the candidate ligand a combination in which both bits are on is selected. FPs that do not agree during this selection process are removed from the alignment.
  • ⁇ 2> the coordinates between the atomic coordinate vector derived from the candidate ligand molecule (1) and the atomic coordinate vector derived from the binding ligand in the FP library (2) are matched, An interaction score is calculated based on the least square fitting. State changes due to simulated annealing are FP changes, increases and decreases.
  • the state change is performed by repeating the process of selecting coordinates belonging to the FP from the FP derived from the candidate ligand to be docked and the FP derived from the ligand library. And Simulate Tate Annylin Aligning the aligned FP, the atomic type of the FP is increased or retained by one, the correspondence of the atomic coordinate set registered in the FP is changed or added, and the FP is decreased to change the alignment. F Maximize the PAS core. If one or more atomic coordinate sets are selected from one FP, or the FPA score decreases despite the presence of coordinates, a metropolis decision is made and the state is maintained if it is adopted.
  • the maximum F PAS center obtained in step 2 above for one conformation is stored in the structure pool of the storage unit together with the structure.
  • the above is one cycle of processing for maximizing F PAS center for one conformation.
  • the change of conformation is set to be performed 1 000 times. If less than 1 000 times, the above steps 1 to 3 are retried. Control as follows. The higher the number of conformation occurrences, the better the result may be. However, it is necessary to perform docking calculations for many low-molecular compounds included in the virtual compound database, and the number of conformations is limited. This number is sufficient in the preliminary calculation of this example, even if it depends on the rotational freedom of the compound.
  • the cycle iteration ends and 1000 conformations stored in the structure pool. Compare the maximum F PAS cores and output the docking structure with the highest score as the predicted conformation of the target protein-candidate ligand complex (Protein—Ligandc omp lex) as the optimal conformation for the candidate ligand .
  • FIG. 16 is a diagram showing a distribution of calculation time in EGFR in silico screening.
  • the Choose LD calculation time in this example depends on the size of the target protein, the number of ligands contained in the FP library, the molecular weight of the ligand, the molecular weight of the candidate ligand, and the number of rotatable bonds. It was possible to obtain a predicted structure faster by narrowing down the ligand binding site of the target protein and narrowing down the FP library.
  • the number of benchmark sets used is 218 proteins, each with a ligand.
  • 85 types of 08 structures were used to create the scoreequation.
  • 133 PDB structures (right of Fig. 17) were used to compare with other docking methods (DOCK, AUTODOCK, GOLD, etc.).
  • All PDB IDs are shown in the figure.
  • the set of circles on the right in the figure can be a target protein for drug development, but the bound ligands are diverse such as pharmaceutical compounds, peptides, sugar chains, etc.
  • the PD BID in the left circle is the same as the right circle in selecting the protein that is the target of drug development.
  • the right circle set uses the molecular structure of the ligand to determine whether there are heteroatoms, hydrogen donors, acceptors, and hydrophobic groups.
  • Liv Re v 46 (1-3), 3-26.) is judged to be medicinal ligand based on the judgment criteria such as whether or not it is satisfied (J. Me d. Ch em. 50, 726—741 (2007)).
  • the breakdown of these benchmark sets is that the 85 benchmark set selects the target protein to be the target of drug discovery from those registered after 11 August 2000 in the PDB, and the ligand to be docked also has a heteroatom. Is selected as a medicinal ligand based on the criteria of whether it has a hydrogen donor, acceptor, hydrophobic group, etc. It is a collection of things.
  • RIKEN Benchmark [Reference: O noderaeta 1 J. Ch em. Inf. M odel. 2007, 47, 1609-1618] uses the benchmark of GOLD [Ref: Ga retheta 1 J. Mo 1-Biol. 1997 26 7, 727-748].
  • this benchmark uses target proteins registered in the PDB before August 2000.
  • Au t o Do ck and DOCK are compared in addition to GOLD, so comparing with the results of this benchmark is a way to know the position of Choose LD in the docking software. I thought it was very useful.
  • the default parameters for Choose LD were determined with 85 sets, and the performance of Choose LD was evaluated with the RIKEN benchmark.
  • Figure 18 plots the year in which the proposed PDB IDs in 85 sets (left circle) and 133 sets (right circle) were registered on the horizontal axis, and the total number of registrations in that year on the vertical axis.
  • the years of registration in these benchmark sets are distributed as shown in Figure 18.
  • the mountain on the left side of the graph indicates that the target protein is a drug (drugab 1 e: a target protein that can be the target of drug development).
  • drugab 1 e a target protein that can be the target of drug development.
  • Fig. 19 is a table summarizing r m s d between prediction and experimental results ( ⁇ a b 1 e. Summa r y o f r. M. S d e v i a t i o n b e twe e n p r e d i c t i o n s a n d e x p e r ime n t a l r e s u 1 t
  • the rm s d of the prediction structure and the experimental structure was calculated.
  • r m s d When r m s d is large, it means that the difference between the predicted structure and the experimental structure is large, that is, it means failure of prediction. Therefore, we set an upper limit for r m s d, which regards the prediction structure as the correct answer.
  • the table in Fig. 19 shows the relationship between the coupled mode prediction structure and experimental structure rmsd performed by Jones et al. And the human sense, that is, Good, Clos, Errrors, Wrong. . If rms d is less than 2.0 A, the predicted structure is better than the experimental structure, that is, G Q o d.
  • rms d force S 2.5 A or less, it means that the experimental structure is close to that of the experimental structure, and that the predicted structure is included, and that a good predicted structure is included. That is, C I o s e. Therefore, we defined the case where a prediction structure with an rms d of 2.0 A or less was obtained as a successful prediction. If rms d is 2.0 or more and 2.5 or less, it is visually evaluated by Cxo od, C lose, E rrors, Wr ong (J oneseta 1. J. Mo 1. B iol. 1997 267, 727 —Excerpt from 748). That is, if rms d is 2.
  • the ligand model can be compared to the correct answer. If rms d is 2.5 A or less, the ligand model includes both (C l o s e) and good (Go o d) that are similar to the correct answer.
  • the k 1 value of FPAS core is registered in the FP library. It is a coefficient that adjusts the degree of coincidence between the atomic coordinates of the candidate ligand and the atomic coordinates of the candidate ligand.
  • the k 1 value can be changed depending on the target, but it is best to determine the optimal parameters when considering in silico screening for a large amount of target proteins or use by other researchers. Because this is one of the criteria for adopting this method, 85 sets of optimum values were set in the docking performance test of the Choose LD method [Reference: Mi chaeleta 1 J. Med. 50, 726-741] was used to determine the optimal value for k 1 of the FPAS core function.
  • the 85 set gathers a lot of drug-like target proteins, and is evaluating the performance of GOLD [Reference: Garnetheta 1 J. Mo1-Biol. 1997 267, 727-748]. This is because 85 sets do not overlap with 133 sets of PDB IDs, that is, 85 sets do not use 133 sets of information in this optimization process. In addition, 8 5 sets are only benchmarked for GOLD, and the success rate of GOLD is 75.2 ⁇ 0.4% when docking the structure of Corina to the target protein, using the ligand structure of the experimental structure.
  • the binding site When the binding site is defined as 6 A, it is 8 ⁇ 5 ⁇ 0.5%, and when the ligand structure of the experimental structure is used and the binding site is defined as 4 A, it is 86.9 ⁇ 0.3%.
  • the crystal water present in the X-ray crystal structure was included, it was 98.6 ⁇ 0.1% (J. Med. Chem. 50, 726—741 (2007)).
  • 85 sets were used for optimizing the k 1 value because it was impossible to know the position of the Choo LD in the existing docking software.
  • the optimization of k 1 described by the FPA score S c o re
  • the docking conditions are as described below.
  • the ligand binding site was defined because it has the advantage of narrowing the search range for ligand binding sites.
  • the benchmark of the Choose LD docking performance test does not predict the amino acid residue at the ligand binding site of the protein. Testing the conformational accuracy of candidate ligands at the binding site.
  • the size of the binding site was 4A from each atom of the ligand of the correct structure of the protein-ligand complex (ProteinLigandc omp lex).
  • Tc with the ligands belonging to the FP library was calculated, and the ligands contained in the FP library were limited.
  • the drug-like FP Drug Like Fingerprint
  • the fpbands T c Range is The values were 0.96, 0.776, 0.56, and the minimum value was 0.08.
  • FIG. 20 is a chart showing the prediction success rate list (relationship between k 1 and Tc Range) in 85 sets.
  • kl is the coefficient described in F PAS core.
  • the numerical value below it is the calculated k1 value.
  • T c Range has a maximum value of 0.96, 0.76, and 0.56, and a minimum value of 0.08.
  • the number in the column is the success rate (%), and the average is the average value in the above range.
  • the k 1 value was 1.0, it was worse than the success rate of other k 1 values in all TC Ranges.
  • the kl value is 4.0 and 6.0, it was almost the same, but slightly better than the average value. Mo del. 2007, 47, 1 This number was used for the benchmark of 609-1 618].
  • Fig. 21 is a chart showing the ratios that can be predicted at rms d 2.0 or less to the 10th place.
  • the right figure in Fig. 21 plots the success rate at that time, and it was shown that the probability of obtaining the predicted success structure increases as the ranking by the F PAS core adopted is increased. In other words, if you use more than one FPAS core top prediction structure instead of using one, the probability of getting the structure will increase closer to the correct answer. In other words, it is considered better to use multiple predicted structures in the upper FPAS core for the initial structure in the optimization of the complex structure by molecular dynamics calculation or quantum chemical calculation.
  • the rms d with the experimental structure regarded as successful is 2.OA, it was shown that the prediction was successful up to 82.9% up to 10th place.
  • Fig. 22 is a chart showing the ratios that can be predicted at 10th place or below at rms d 2.5 (C l o s e) or lower. As shown in Fig. 22, when the rm s d with the experimental structure regarded as a success is 2.5 A, it was shown that a maximum of 87.6% prediction could be achieved by 10th place.
  • Fig. 23 is a chart showing the case where the rms d with the correct answer structure considered to be successful is set to other than 2.0 A.
  • the right figure in Fig. 23 plots r m s d with the experimental structure considered successful on the horizontal axis and the predicted success rate on the vertical axis.
  • FIG. 24 is a chart showing the results of benchmarks for Dock, AutoDock and GOLD compared to Choose LD.
  • Figure 24 shows the generation of coordinates by Corina in the benchmark according to On oderaeta 1 [Reference: O noderaeta 1 J. C he m. I nf. Mo del. 200 7, 4 7, 1 60 9- 1 6 1 8] It is the figure which shows the result of 1 type 6 PDB ID except the target which failed, and the target which failed with DOCK or GOLD.
  • the success rate (succe s sr a te) in Figure 24 shows the proportion of structures with rm s d 2. OA or better.
  • the docking method Do k k i n g me t h o d
  • Choo s e LD is evaluating the performance of three T c R a nge.
  • GOLD G OLDS core STD, GOLDS core Lib, GOLD Chem S core STD, Auto D ock, and DOCK values are the average values of C orina and MI NI, and the standard deviation is narrow in the success rate of each docking software Shown with a stick.
  • the rm sd 2.0 A force of Ch ⁇ ose LD of this example and the performance (success rate) to predict a better structure is T c 1 ⁇ & 1 8 6 From 0.96 to 0.08, it is almost equal to GOLD.
  • T c Range is between 0.76 and 0.08, it is almost equal to or slightly inferior to GOLD. It was shown that when T c Range is between 0.56 and 0.08, it is not as good as GOLD, but better than DOCK, Au to Dock.
  • Fig. 25 is a diagram showing the distribution of the number of collisions with each target protein when the rmsd between the predicted structure of the FPAS core and the experimental structure in 85 sets is 2. OA or less. Since the structure of 0 collisions is 75.0% and the structure of 1 collision is 17.3%, the total is 9 2.3%, so the collision judgment function of the FPAS core Is functioning as an equivalent to the collision judgment of the renaissance Johns type function, which is an empirical physical function.
  • Figures 26 and 27 show the number of successes in all 10 docking trials for each target.
  • Figure 26 shows the number distribution of the predicted success structure in the 85 set benchmark. Note that “* 1” in Figure 26 represents the ratio of the number of successful predictions to the total number of PDB IDs between 5 and 10.
  • the ratio of 10 successes and 10 failures is large.
  • the target that succeeded 5 times out of 10 was 62.7-75.5%.
  • the upper limit of the Tc range was reduced, the number of failures that increased 10 times tended to increase. This is probably because the Choose LD method relies on a protein-ligand complex structure known as an FP library, and the accuracy decreases as the number of ligands belonging to the FP library decreases.
  • protein-ligand complex used in benchmarks of 133 species that could not be docked with GO LD, DOCK, and Corina In total, 1 16 types are used except for targets that could not generate 3D coordinates.
  • the removed PDB IDs are 1TPH, 1 TRK, 1 X 1 D, 4FAB, 6RSA, 1 BBP, 1 CTR, 1HYT, 1 PHG, 1 POC, 1 SNC, 1 TMN, 1 CDG, 1DR 1, 1 LDM, 4 CT S, 4 E ST (Virtua 1 S creening J. Ch em. I nf. Mo del. 47, 1609— 1618 (2007
  • the parameters of each docking software use the parameters provided by the docking software, and the parameters are not optimized for the target. If the parameters are optimized, the success rate will of course change.
  • variable parameter k1, k2, k3 values are defined according to the target protein, so there is still room for optimization. Therefore, the value described in the method section and the k 1 value optimized by 85 sets, that is, 4.0, were used for the performance evaluation of Choo se LD.
  • Binding site (b i n d i n g s i t e)
  • the binding site is similar to the traditional benchmark [Reference: On oderaeta 1 J. Chem. Inf. Mo del. 2 007, 47, 1609— 1618].
  • the sphere of protein atoms present at a distance within a radius of 5.0 A from each atom of the ligand (1 igand) of the ligand complex (Protein—Ligandc omp lex).
  • the 133 set benchmark provides three docking ligands.
  • MI NI minimum energy structure
  • MI NI minimum energy structure
  • the conformation is changed randomly, and the ligand with the largest rms d from the ligand of the protein-ligand complex in the experimental structure, and the above defined regan
  • the ligand was used well away from the binding site.
  • 10 predictions were made for each of 116 target proteins without using the experimental structure as they were, and this was done under almost the same conditions as the benchmark using 133 sets. If hydrogen is present in the ligand during these processes, it is removed.
  • the library ligands used are in the range of candidate ligands and T c, the maximum values being 0.96, 0.76 and 0.56, respectively, It corresponds to the case where there is a compound similar to, the case where there is a similar compound, and the case where there is a slightly similar compound. Therefore, we used the range of Tc corresponding to 0.96—0.08 (that is, not including the answer), 0.76—0.08, and 0.56—0.08.
  • Figures 28 and 29 show the results of the rmsd distribution of DOCK, AutoDock, and GOLD prediction structures in the 133 set benchmark, and the result of the Choose LD method.
  • Do ckingmethod means the name of each docking software.
  • Choose LD is evaluating the performance for three Tc ranges.
  • GOLD is GOLDS core STD ('S tandard D efau 1 t Settings' with GOLD S core), GO L DS core L ib ('Library S creening S ettings' with GOLD S core) and GOLDCh emS core STD (Standard D efault S ettings' with Ch em S core) (V irtual S creening J Em. I nf.
  • Fig. 30 and Fig. 31 show the number of successes in all 10 docking trials for each target.
  • “* 1” in FIG. 30 indicates the ratio of the number of successful PDB IDs to the total number of PDB IDs from 5 to 10.
  • the 10-time success rate has dropped nearly 20%. From these, it is considered that 1 33 sets contain more targets that are difficult to dock than 85 sets.
  • 85 sets of medicinal compounds are limited in terms of molecular weight, number of rotatable bonds, hydrogen donors, hydrogen acceptors, etc. according to Lipinsky's five rules. It is thought that it is included.
  • Figures 32 and 33 show the probability that an rmsd with an experimental structure is 2.0 A or less in the distribution ranked by the FP AS core in the FP library limited in the T c range. is there. In other words, if the ranking is 1, it matches the success rate of the comparison with other docking software mentioned above. The result is that the overall success rate is declining, as is the case with 85 sets.
  • Figure 34 shows the distribution of the number of collisions in the predicted success structure.
  • the distribution of the number of collisions with the target protein in structures with an rms d of 2.OA or less is shown.
  • the structure of 0 collisions is 56.0%, and the structure of 1 collision is 28.7%, for a total of 84.6%. It was shown that it functions as a type function collision judgment. Since the 85 sets and 133 sets showed the same tendency, the collision detection is considered to be functioning sufficiently.
  • Fig. 35 shows the performance when the upper limit of the Tc range of the ligand used in the FP library is further reduced, and the lower limit is set to 0.08, 0.16, 0.24, and 0.36. It is a figure showing the prediction success rate in the Tc range, that is, the upper limit values 0.56, 0.76, 0.96, and the lower limit value 0.08.
  • 0.2-4-0.08 is the same as DOCK (21. 1%) in 133 set benchmark, and 0.3 set benchmark at 0.36—0.0.08. It was shown that the prediction accuracy was similar to that of Auto Do ck (26.6%). (Comparison with GOLD)
  • FIG. 36 shows the protein monoligand structure predicted for 1DR 1 with l ⁇ d (P rd i ct te d p ro t e i n—l i g a n d c o m p l e xs t r u c t u r e f o r 1fR).
  • GREEN (dark green in the center of the figure): Predicted ligand structure (P r e di c t e d i i g a n d S tr u c t u r e) (the same applies below)
  • Th e o t h e r (others): Binding site (t h e b i n d i n g s i t e) (The same shall apply hereinafter.)
  • FIG. 36 shows the predicted structure of the present embodiment for PDB I D; 1 DR 1.
  • This is the target protein for which GOLD failed to predict, that is, the target excluded from the 133-set benchmark (V irtual Sereening J. Chem. Inf. Mode 1.47, 1609-1618 (2007) )
  • the Cho s e LD of this example was successfully predicted with an rm s d of 1.74 A for the predicted structure and the experimental structure. This is thought to be because the ring structure present in the ligand was also included in the FP library.
  • Figure 37 shows the predicted structure of this example for PDB ID; 4 E ST, which is the target protein that GOLD failed to predict and was excluded from the 133 set benchmark.
  • Ch o o s e LD was successfully predicted with a rm s d of 1.73 A for the predicted and experimental structures. This is probably because the ligand to be docked was a peptide ligand, and the main chain carbon, nitrogen, and oxygen of the peptide ligand contained in the FP library were used.
  • FIG. 38 to FIG. 41 are diagrams showing targets in which GOLD has failed but C hoo s e LD has been successfully predicted.
  • Fig. 40 The conditions in Fig. 40 are as follows.
  • G lide (J. Med. Ch em. 47, (2004) 1 739-1749) is a flexible ligand docking software that compares the prediction accuracy with GOLD etc. in the method of this example.
  • Figure 42 is a chart showing the predicted success rate for 90 targets in 133 sets.
  • the method for calculating the predicted success rate in the above table differs depending on the docking software.
  • GOLD is the result of 20 optimizations using a genetic algorithm for each target (thebestof GA 20 r un) (http: / / www. Ced e. Cam.
  • Fig. 43 is a chart in which the PDB I D similarity of target proteins that were successfully predicted between docking software was calculated using Tc (Tanimoto coefficient).
  • Tc Tanmoto coefficient
  • T c between G 1 ide, GOLD, F 1 eXX (J. Mo 1. B io 1. 261, 470-489 (1996))) is 0.61 to 0.665.
  • Choose LD has a unique target protein distribution compared to other docking softwares. Was shown.
  • FIG. 44 is a chart showing the success / failure distribution of the prediction of each dosing soft for one target protein in 90 targets.
  • targets that can be predicted by the docking software, and at present, there is no docking software that can predict all target proteins.
  • hydrogen is derived from the predicted target protein-ligand complex structure.
  • Many studies have been conducted to select predicted structures that are closer to the experimental structure by using information such as binding to proteins (Eu ropean J ou rna 1 of Medicinal Chemistry 42, 966-976 (2007), J. Med. Chem. 47, 337—34 4 (2004)).
  • FIG. 45 to FIG. 47 are diagrams showing targets in which DOCK has failed but Choo se LD was successfully predicted.
  • Figure 48 shows the ratio of r m s d 2.0 structures that can be sampled up to 1 ° instead of 1st. As shown in Fig. 48, when it is collected to the 10th place, more than 60% can be docked at r m s d 2.0 or less.
  • Figure 49 shows the ratio of r m s d 2.5 (C l o s e) structures that can be collected not only in the 1st position but also in the 10th position.
  • rms d Change r m s d to define success.
  • rms d with the correct structure of the predicted structure defined as success was set to 2.
  • OA but other numerical values (1.5, 2.5, 3.0, and 3. 5) is shown. If it is 3.5 A, the predicted ligand structure is considered to exist almost in the vicinity of the ligand binding site, and this structure can be used as the initial structure for molecular dynamics and quantum chemistry calculations.
  • Fig. 50 is a chart showing the case where rms d, which is defined as success, is changed. As shown in Figure 50, the structure predicted within 3.5 A is 68.9% at T c Range 0.56-0.08 (ie, when a slightly similar ligand is present in the library). Met. In other words, if there is an experimental structure of a similar compound, this means that the docking structure can be predicted at least near the ligand binding site with this accuracy.
  • Tc Range 0.96-0.08 indicates that about 70% of the ligand is present in the ligand binding site.
  • the numerical value rmsd 2.0 as the definition of docking success is various benchmarks [reference: Ga retheta 1 J. Mo 1. B io 1. 1997 267, 727-748], [reference: M ichae 1 eta 1 J. Me d. C he m. 2007, 50, 726— 7 4 1], [Reference: On oderaeta 1 J. C he m. I nf.
  • the discussion (D i s c u s s i o n) is mainly described below with reference to FIG. 8 again. That is, in this example, it is assumed that the structure in which the FP conformation that is a ligand part interacts is the most stable.
  • the interaction of the FP in this example with the target protein means that the FP that is close to the protein is interpreted as an entraumy interaction such as a hydrophobic interaction, a hydrogen bond interaction, and a van der Waals interaction, Also, FP at a distance from protein is interpreted as an entropic interaction such as an interaction with a solvent.
  • the FP configuration extracted from the group of binding ligands (1 i g a n d) derived from similar proteins with good overlap contains the free energy of interaction with the protein.
  • Morphology or similar proteins with low e-V a 1 ue are used, but the broad family proteins that are not bound by these functional classifications are accompanied by slight structural changes and amino acid residue changes near the active site.
  • FP extracted from 7-Amily protein does not satisfy the assumption of free energy stability.
  • FP extracted from a family protein is changed to FP with more stable free energy in the interaction with the target protein, and is changed to "Modified FP".
  • Adopted as This is dealt with by modifying P ro g ra am in the 3D-1D method. If this modified FP was created for the target protein, it was equivalent to considering a novel backbone ligand that had not yet been found, and a known ligand bound to the target protein was found to be highly active. There is a possibility that.
  • FP which is a common region of atomic interaction of multiple binding compounds, emphasizes the overlap of binding to multiple compounds with similar family proteins. It is possible to obtain an FP that reflects experimental information rather than the “C reative FP” given when there is a possibility of existence.
  • the structure of the protein-ligand complex (Protein—Ligandc omp le) predicted by conventional classical physical energy is different from that of the known protein-ligand complex (Protein—Ligandc omp lex).
  • Information is used to rank and cluster docking structures obtained by the above method [Reference: Z haneta 1 J. Med. Ch em. 2004, 47, 337-344]. These means that the output from the existing docking software outputs a structure that does not reliably reflect the experimental information.
  • the structure of the predicted protein-ligand complex (Protein—Ligandc omp lex) was analyzed with MD using AMBER and CHARMM (references: Case, AD, Cheatham am III, E. T, respectively).
  • the method according to this example mainly uses information on a known protein-ligand complex (Protein—Ligandc omp lex) and considers the viewpoint of bioinformatics and the viewpoint of physical energy.
  • bioinformatics information such as PDB structural information used in this example is accumulated every year, so there are many protein-ligand complexes that are medically interesting. It is studied by researchers and is considered useful for optimizing these prediction structures.
  • FIG. 51 is a chart showing the results of the processing according to this example.
  • a drug-like ligand D rugglikeligand
  • a draggable protein D rugglikeligand
  • the probability of obtaining the structure of Wood is 58.9, 62.1 and 65.2%, respectively.
  • the probability of obtaining the lose structure was 68. 6, 72. 1, 72, and 4%, respectively.
  • Tc Range is 0.56-0.08, 0.76.
  • the probability of getting a G ood structure is 40. 1, 44. 8, and 46.4%, respectively
  • the probability of getting a C 1 ose structure is They were 53. 2, 57.8 and 59.3%, respectively.
  • the target protein and ligand both contain a drug (druggab 1 e) compound considering the conformation with the interaction score between the target protein and any ligand up to the 10th, the target protein A total of 83% (values up to 10th place in ⁇ .96—0.08 in Fig. 21) give a good model for the correct answer.
  • the target protein A total of 83% values up to 10th place in ⁇ .96—0.08 in Fig. 21
  • the target protein is draggable, and from the results of training calculations that include various low molecular weight compounds, the conformation with the interaction score between the target protein and any ligand up to the 10th is considered. For example, 65% of the target protein (0.96-0.08 in Fig. 48, values up to the 10th place) gives a good model for the correct answer. Since one ligand structure is found, it is worth looking for a good structure by visual inspection.
  • the interaction between the target protein and the virtual compound library low molecular weight compound was calculated using a physical interaction function.
  • This example was calculated semi-empirically using bioinformatics information.
  • the success rate of structural prediction is superior to that of the world-recognized docking software program G OLD, and more and more information is accumulated year by year. Since the results of the interaction calculation of the empirical bioinformatics method are led to the better, it is highly useful and has an effect different from the conventional method.
  • the conformation obtained by scoring the interaction between the target protein and various low-molecular compounds is docked with DOCK and Au to D.
  • DOCK and Au to D.
  • ock and GOLD It can be used as an initial conformation for existing docking software such as molecular dynamics calculation programs such as Am ber and Ch rm. This is because the initial conformation obtained in the present embodiment can be easily obtained, and the accuracy of reproducing the experiment is high, so that useful results can be obtained by combining with other software programs.
  • this example shows CE 1 i D (FP (fingerprint) setextractedfr om collectedligandsinthe bindingsite (FP), a database of various low-molecular compounds bound to a family of high molecular protein sets similar to the three-dimensional structure of the target protein. It is necessary to specify the active site by analyzing the three-dimensional structure of the target protein in the calculation process using an arbitrary FP (fingerprint) based on the compound fingerprint set extracted from the ligand assembly of the binding site)) It can be a method that does not.
  • FP fingerprint
  • the method according to this example is to accurately reflect the interaction information of protein-ligand complex (Protein—Ligand Cox lex) from the viewpoint of bioinformatics and accurately reflect it in the docking simulation. Successful.
  • the method according to this embodiment is extremely useful in the following three points.
  • the method according to this example is different from the conventional method in that the interaction information of a known protein-ligand complex can be accurately reflected in the docking simulation from the viewpoint of bioinformatics.
  • the method according to the present embodiment automatically adds parameters such as physical quantities appropriate for the ligand and distance constraints in consideration of complementarity with the receptor, conformation of the known ligand, and atomic species.
  • these are new medical and biologically important bio-informatics information on the interactions between target proteins and ligands, and new skeletal drugs or similar are accumulated every year. It is extremely useful for searching the skeleton.
  • Teniramei Since experimental information with the advent of de medical era rich target proteins Doraggudezain (D rug De sign) is required, the method according to the present embodiment is very useful.
  • FIG. 52 is a diagram showing an intracellular signal transduction pathway from EGFR.
  • EGFR an epidermal growth factor receptor family
  • EGFR an epidermal growth factor receptor family
  • FIG. 53 is a diagram showing alignment of amino acid sequences of EGFR.
  • the homozygous is about 99% and is intended to compensate for the C-terminal residue deletion of 1 M 17 rather than predicting the conformation.
  • a model was constructed using the homology modeling software FAMS L i gand d & Comp l e x (P ro t e ins, Sup p 1 7 122-127 (2005)).
  • FIG. 54 is a diagram showing the constructed model of EGFR.
  • the CIRC LE score (Terashi, G.eta1Proteins, (2007)) was 71.367. In addition, the score 82.110 of the vertical type 1M17-1A was.
  • the CI RCLE score is a statistical potential obtained from the X-ray structure of the protein belonging to the experimental structure coordinate database obtained from PDB, etc. The larger the score in the positive direction, the more the environment of the known protein X-ray structure. That is, it can be said that the model is close to the X-ray structure.
  • the PDB ID of the ligand used as the FP library obtained according to the Choo LD method of Example 2 is as follows.
  • FIG. 55 is a diagram showing a planar structure of the obtained 11 inhibitors.
  • IC 50 values are shown in association with the planar structure of the compound. The three-dimensional coordinates of these compounds were obtained by generating a three-dimensional structure using Chem3D and then performing energy minimization calculations attached to Chem 3D.
  • FIG. 56 is a diagram showing a yield rate line graph when the k 2 value defined by F PAS center is changed from the range of 0.5 to 5.0.
  • the k3 value was set to 1.0.
  • the rand om straight line is the estimated ranking line from which a known inhibitor is obtained when a compound is randomly selected from the population. If a broken line is drawn below this straight line, the ranking in the FPAS core This means that the ability to detect inhibitors at the top is high, that is, the performance of in silico screening is good.
  • the 1 ⁇ 2 value is 0.5, 1.0, 5.0
  • the polyline starts to rise from the appearance order of the compound at 6. Comparing the polygonal lines with k 2 values of 2.0 and 3.0, the 2.0 line was better in the 9th and 10th places, and the harvesting rate was better. Therefore, the k 2 value was set to 2.0.
  • FIG. 57 is a diagram showing a yield rate line graph when the k 3 value in FP AS core is changed from the range of 0.5 to 2.0. At this time, the k 2 value was set to 1.0. For any k3 value, the force that yielded a similar straight line k3 values of 0.5 and 2.0 are as follows. 0 was the optimum ⁇ .
  • T c of ligands included in the F ⁇ library was set. By limiting the lower limit of Tc, compounds that are not similar to the docking ligand can be excluded. The lower limit of Tc was determined so that the yield line would be optimal.
  • Figure 58 shows the in silico screening in each Tc range when D0: Upper limit is set to 1.00 and the Tc lower limit value range is changed from 0.08 to 0.32 in increments of 0.08. It is a figure which shows a result, the appearance number of active known compounds is abscissa, and the ranking by F PAS core is ordinate. When the T c lower limit value is 0.24, the number of occurrences is 1 to 6 and it is a good polygonal line that runs along the X axis.
  • FIG. 59 is a diagram showing the ranking of PDBIDs with known protein-ligand complex structures registered in the PDB and their ligands.
  • FIG. 60 is a diagram in which the ligand ID of FIG. 59 is associated with the compound name.
  • the ranked ligands include EG FR inhibitors. Since these ligands are included in the FP library, FPs derived from these ligands are mainly used for FP alignment, and it is considered that FPAS core was higher and ranked higher. In in silico screening with a Tc lower limit of 0.24, the appearance order of these ligands is more dispersed than in the case of 0.08, but the structure of the protein-ligand complex has not been elucidated. IC 50 for EGFR The known compound has a Tc lower limit of 0.
  • FIG. 61 and FIG. 62 are diagrams showing the top 10 protein-ligand complexes as a result of narrowing down by in silico screening of Kinase.
  • FIG. 62 is a view of FIG. 61 from a different angle.
  • the structure that satisfies the three-dimensional structure complementarity in the space of the kinase domain and that satisfies the hydrogen bond important for the interaction exists in the ranking by the F PAS core. It was shown that this is useful for searching for inhibitors by in silico screening.
  • These reagents can be purchased and their activity values can be measured.
  • the score given to the FP is not given uniformly depending on the FP construction method. I think it is possible to improve the score to reflect the size of the coupling constant.
  • the results of applying the Choose LD method according to Examples 1 and 2 to various target proteins are shown below. These results need to be proved by experiments.
  • the first example relates to the search for EG FR dimerization inhibitors.
  • the second example relates to the prediction of the complex structure of KRN633 and KRN 951 for V EGF 2, and the prediction of the protein-ligand complex structure requires proof by X-ray structural analysis.
  • in silico screening for malaria also needs to be proved by binding experiments.
  • the three-dimensional structure of EGFR was PDB ID; 1MOX.
  • a peptide of TGF analog was modeled in the vicinity of TGF-a binding domain using FAM SLigand & Complex (Proteins 61, 122-127 (2005)), and its side chain was cut out.
  • Fig. 63 shows the vicinity of the TGF- ⁇ binding domain.
  • the yellow color shows only the side chain cut out from the peptide of the TG Fa analog, and this was used as the FP library for the Choose LD method. . This was done to prevent peptidic inhibitors from appearing at the top of the F PAS core.
  • Figure 64 shows the results of in silico screening for the TGF-ct binding domain of EGFR using the MDL Comprehensive Medicinal Chemistry (MDL CMC) Library
  • Figure 65 uses the MDL ACD Library. It is a figure which shows the result of the same in silico cleaning. Thus, according to this example, it was shown that docking using information on protein-protein interaction is possible.
  • VEGFR2 is a kinase involved in angiogenesis (kinase) and is one of the proteins that are abnormally expressed at the onset of cancer such as lung cancer.
  • a compound that specifically inhibits this protein is a therapeutic drug for cancer.
  • KRN633 Mo 1. C n c e r. Th e r. 3, 1639— 1649 (2004)
  • KRN951 (Cancer Re s. 66, 9134— 9142 (2 006)) is known. These composite structures are as of December 2007 On the other hand, X-ray crystal structure analysis has not been done. Therefore, the complex structure of VEGFR2 and KR N633 and the complex structure of VEGFR2 and KRN951 were predicted.
  • VEGFR 2 was the A chain of PDB ID 2 P 2H.
  • the ligands used in the FP library were obtained by homology search using PS I—B 1 ast, and the top 10 FP libraries used for docking were In KRN633, PD BID: 2HZN_A, 1 YWN— A, 2 J 5 F_A, 2 I VU— A, 2 H8H— A, 20H4— A, 1 GAG A, 1 FPU A, 2 C 0 I_ A, 2 P 4 I_A.
  • Figure 68 shows the top 10 sets of ligands used for docking of ligands belonging to the FP library used for docking near the VEGFR 2 active site of KRN 633
  • Figure 70 is similarly This represents the top 10 set of ligands used for docking near the VEGFR 2 active site in the ligands belonging to the FP library used in the FP library of KRN951.
  • Figure 69 shows KRN633 with the Choose LD method performed 10 times, showing 10 predicted structures with the three-dimensional structure near the active site of VEGFR2. When Tc was used for the similarity of KRN 633 among the ligands of the FP library, the maximum value was 0.45. In 10 trials, almost the same structure was obtained.
  • Figure 71 shows that the Choose LD method was performed 10 times for KRN951, and 10 predicted structures Shown with structure. Eight out of ten predicted structures had almost the same structure. When Tc was used for the similarity to KRN 951 among the ligands of the FP library, the maximum value was 0.29.
  • FIG. 72 shows the predicted success rate when the lower limit of Tc obtained as a result of the docking performance test of the Choose LD method using 133 sets was fixed at 0.08 and the upper limit of Tc was changed. It is a diagram showing a graph with the Tc upper limit on the axis and the success rate on the vertical axis.
  • Pla smo di um falcipar um enoylacy 1 carrier protein is one of the pathogenic proteins of malaria fever. Although this lipid synthesis pathway does not exist in humans, inhibition of the function of this protein is thought to lead to the treatment of malaria fever (J. B iol. C he m. 2 7 7, 1 3 1 06— 1 3 1 1 4 (2 00 2)).
  • Fig. 7 3 shows the structure of e n o y l a c y l c a r r i e r p ro t e i n: ⁇ body structure.
  • Trikuguchisan as a compound that inhibits this protein, and X-ray crystal structure analysis with multiple inhibitors has been carried out (J. B iol. C h em. 2 7 7, 1 3 1 0 6— 1 3 1 1 4 (200 2)), these inhibitors bind via NAD.
  • an in-clinic screening was conducted to search for lead compounds of new inhibitors.
  • Fig. 74 shows the upper 1 of the F PAS cor e that shows the result of in silico screening of e n o y 1 a c y 1 c r r i e r p ro t e i n using MDL C omp r e n s i v e Med i c i n a l C h e m i s t r y (MDL CMC) L i b r a r y.
  • the part surrounded by the upper circle is the result of in silico screening, and docking is performed taking into account the space occupied by the NAD indicated by the lower circle.
  • a ligand docking and in silico screening method based on bioinformatics using the method of optimizing a newly defined FPAS core by simulated annealing was developed, and the Choose LD method was developed.
  • the k 1 value in 85 sets the optimum value assumed to be used for high-throughput screening etc. was determined to be 4.0.
  • This kl value In the 133 sets when the ratio of the rm sd force 2. ⁇ A or less that can predict the experimental structure is used as an index, the docking performance of the Choose LD method of this example is the existing classical physical function.
  • the k 2 value and k 3 value of the FPAS core are variables that can be optimized according to the target protein. Indicated. From these results, more inhibitors and lead compounds can be obtained by optimizing the k1, k2, k3 values of the FPAS core in the Choose LD method of Example 2 according to the target protein. In silico screening screening was considered.
  • Example 3 will be described below. In Example 3, in silico screening was performed for the purpose of developing an inhibitor (antagonist) and agonist (agonist) of the AMPKomoGAMM A1 enzyme.
  • FIG. 75 shows the alignment of the amino acid sequences of AM PKhomo GAMMA 1 and 2 V9 JE.
  • the bound ligand is 3 ligands of 2 V8Q—E, AMP — E— 1327, AMP 1 E— 1328, AMP—E— 1329, 2 V 92—E ATP— E—l 327 , ATP—E—1328, AMP—E 1329, 2 V9 J—E 3 ligands and 2 magnesium AT P—E—1 327, ATP—E—l 328, AMP 1 E—l 329, MG—E 1 1330, MG_E_1331, 2QRE—E, one ligand AMZ—E—1002.
  • the FP of Choose LD in this example includes three ad enosines obtained by removing the phosphate group (PO 3) from the ligand molecule at the receptor binding site, and 1_ (5—Amino—4—carbox. am ide— 1H—imidazole-yl) — ribose was used, but the phosphate group is not suitable for the functional group of the candidate compound.
  • H is 151 and H is 298 (H isl 50 and H is 297 in the 2V9 J-E of the cocoon-type protein) that are not bonded directly to FP, but are hydrogen bonded to the oxygen atom of the phosphate group.
  • G DT—TS 0.5 A, 1. OA, 1.5 A, 2.0 A
  • 70% (changeable) GDT — TS residue pair within 3.
  • OA from residue pair (changeable ) was extracted from 95% NR—PDB as HETATM. At this time, it is possible to specify 3 amino acid residues instead of 2 amino acid residues.
  • G D T—T S indicates the percentage of residues that overlap with the native structure below X A.
  • 1061 ligands could be extracted.
  • 18 ligands or a part of the ligand was added to the FP by checking for collisions with the 2V9 J—E receptor, and a total of 22 FPs were used for CMC (and omp rehensive medicinal and h em istry, 2006.1, Elsevi wr MD L) Database screening was performed.
  • FIG. 76 is a diagram showing a result list of CMC drugs in which a ligand is bound to the entire receptor.
  • FIG. 77 is a diagram collectively showing the binding states to the 2 V9 JE receptors from the 1st to 10th positions.
  • the green ball and stick model has two HIS residues, the yellow stick model has three ad enosines and 1— (5— Am ino— 4— carbox am ide— 1 H— imidazo 1 e— y 1) — Indicates ribose. In the meantime, 10 drugs are docked.
  • Ad enosine and 1— (5— Am ino— 4— carboxamide— ⁇ — im idazo 1 e— yl)-27 pharmaceutical compounds obtained by CMC screening in the form of ribose A total of 31 FPs were used to screen ACD (Available Chemicals D irectory, 2008. 1, Elsevi wr MDL) to inhibit inhibitors (antagonists) and agonists of AMPKhomo GAMMA 1 enzyme (Gonist) candidate compounds can also be obtained. [Other embodiments]
  • the present invention has been described so far, but the present invention is not limited to the above-described embodiments, and various modifications can be made within the scope of the technical idea described in the claims and the summary of the present invention. It may be implemented in different embodiments.
  • the case where the in silico screening device 100 performs processing in a stand-alone form has been described as an example, but processing is performed in response to a request from a client terminal configured with a separate casing from the in silico screening device 100, and The processing result may be returned to the client terminal.
  • each illustrated component is functionally conceptual and does not necessarily have to be physically configured as illustrated.
  • each device of the in silico screening device 100 in particular, the processing functions performed by the control unit 102, are all or any part of the CPU (Central Processing Unit) and the C It can be realized by a program interpreted and executed by PU, or it can be realized as hardware by wired logic.
  • the external system 200 may be configured as a Web server, an ASP server, or the like, and the hardware configuration is configured by an information processing device such as a commercially available workstation or a personal computer and its attached devices. You may do it.
  • each function of the external system 200 is in the hardware configuration of the external system 200. This is realized by the CPU, disk device, memory device, input device, output device, communication control device, etc., and programs for controlling them.
  • the program is recorded on a recording medium to be described later, and is mechanically read by the in silico screening apparatus 100 as necessary.
  • the storage unit 106 such as ROM or HD stores a computer program for performing various processes by giving instructions to the CPU in cooperation with an OS (Operating System).
  • This computer program is executed by being loaded into the RAM, and constitutes a control unit in cooperation with the CPU.
  • this computer program may be stored in an application program server such as the external system 200 connected to the in-silico screening apparatus 100 via an arbitrary network 300, and all of them may be stored as necessary. Or you can download a part.
  • the program according to the present invention can also be stored in a computer-readable recording medium.
  • this “recording medium” means any “portable physical medium” such as flexible disk, magneto-optical disk, ROM, EPROM, EEPROM, CD-ROM, MO, DVD, or LAN, WAN.
  • “Communication medium” that holds the program in a short period of time, such as a communication line or a carrier wave when transmitting the program via a network represented by the Internet.
  • a “program” is a data processing method described in an arbitrary language or description method, and may be in any form such as source code or binary code.
  • program is not necessarily limited to a single configuration, but a plurality of modules are distributed as a library, or cooperate with a separate program represented by an OS (Operating System). Including those that work to achieve that function.
  • OS Operating System
  • a well-known configuration and procedure can be used for a specific configuration for reading a recording medium in each device described in the embodiment, a reading procedure, or an installation procedure after reading.
  • the in silico screening device 100 is connected to an information processing device such as a known personal computer or workstation, and includes software (including a program, data, etc.) for realizing the method of the present invention in the information processing device. It may be realized by mounting.
  • the specific form of device distribution / integration is not limited to the one shown in the figure, and all or part of the device is functionally or physically distributed / integrated in an arbitrary unit according to various loads. Can be configured. Industrial applicability

Landscapes

  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Medicinal Chemistry (AREA)
  • Library & Information Science (AREA)
  • Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biochemistry (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本発明は、化合物中の複数個の原子に係る化合物指紋を候補化合物ごとに抽出して作成された化合物データベースを備え、標的タンパク質と立体構造が同一または類似するファミリータンパク質に結合することが既知の結合化合物について、標的タンパク質の座標系に変換した三次元座標とともに化合物指紋を抽出して結合化合物指紋セットを作成し、化合物データベースに記憶された候補化合物について、結合化合物指紋セットの三次元座標を基底として算出した化合物指紋単位の二乗平均偏差を基礎とする相互作用スコアが最適化されるように、当該候補化合物の標的タンパク質に対する上記立体構造を演算することを特徴とする。

Description

インシリコスクリーニング装置、 および、 インシリコスクリーニング方法
技術分野
この発明は、 インシリコスクリーニング装置、 および、 インシリコスクリ一二 ング方法に関するものである。
1
背景技術
従来、 試薬提供会社等から発売される医薬品該当化合物や試薬化合物等の化合 物が存在する。 また、 化合物と相互作用する高分子として、 質量分析を主体とす る各種実験等で確かめられた高分子や、 例えば Na t u r eや S c i e n c eに 代表される雑誌に収録された文献などにより社会で認知された高分子等のように、 創製された医薬品等の化合物と相互作用して、 動植物の病気状態や疾患状態を治 癒、 症状軽減または現状維持等をもたらす、 薬物標的タンパク質や薬物標的核酸 や薬物標的糖質や薬物標的脂質等の標的高分子が存在する : '·. '
標的高分子に对する低分子化合物ドッキングとインシリコスクリーニングを行 うに当たっては、 従来、 上述のような医薬品候補化合物等の化合物の膨大な数が 納められた化合物データベースの各化合物を、 例えば、 タンパク質を主体とする 標的高分子タンパク質にドッキング相互作用をさせ、 現実に存在する何十万個に 相当する化合物が標的タンパク質と直接相互作用する座標配置 (コンフオメーシ ョン)を決定し、相互作用エネルギーやそれに相当するスコア値を獲得していた。 そして、 当該スコア値を安定さの指標にして大きな方から小さい方に並べ、 化合 物一薬物標的タンパク質の相互作用の順番を決定していた。
伊】えば、 Ku n t zらの D o c k (E w i n g e t a l著 J C o m p u t A i d e d Mo 1 De s. 2001 15 (5) 41 1— 28参 照、) や、 G o o d s e 1 1 らの Au t oDo c k (Go o d s e l l e t a 1著 J. Mo 1 - Re c o gn i t 1996 9 1—5参照) や、 G a r e t hらの GOLD (J o n e s e t a l著 J. Mo 1. B i o 1. 1997 267, 727— 748参照)、 R a r e yらの F 1 e x X、 N i c o l a sらの F 1 a g m e n t P o t e n t i a l等の従来方法におい ては、 上述のスコア値の計算のために、 それぞれの方法に標的高分子である標的 タンパク質のリガンド結合環境の格子情報や、 化合物と標的高分子間のベク トル を重視する化合物の多点情報を用いて計算を行っていた。
すなわち、 標的タンパク質の生物学的環境等の何らかの工夫があるにしても、 格子情報や多点情報等の情報に基づいて、 化合物の原子と標的高分子タンパク質 を構成する原子との古典物理学的原子間ポテンシャル式から相互作用エネルギー 等を計算して、 化合物のコンフオメ一シヨンや相互作用の結合の強さに関係する 順番をスコア値で決定していた。 また、 相互作用の順番を決めるために相互作用 している種々の化合物のコンフオメーシヨンをクラスタリング等の手法を用いて 順番を決める工夫等を行っていた。
しかしながら、 従来のインシリコスクリーニング方法においては、 タンパク質 一リガンド複合体を精度よく予測することに着目されており、 直接、 ヒツ-ドする - 化合物を数多く選出することとは一致しないという問題点を有していた。
また、 従来のインシリコスクリーニング方法においては、 古典物理学的なポテ ンシャル関数を用いて非経験的な予測を行っており、 生物化学的な実験等の情報 を考慮に入れた予測効率の高いスクリーニングができないという問題があった。 本発明は、 上記に鑑みてなされたもので、 タンパク質と化合物との結合を精度 よく予測することができる一方で、 ヒッ卜する化合物を数多く選出することがで き、 また、 予測効率を高めることができる、 インシリコスクリーニング装置、 お よび、 インシリコスクリーニング方法を提供することを目的とする。 発明の開示
本願発明者は、 X線解析、 NMR、 電子線解析、 高分解能電子顕微鏡写真等の 実験によつて得られた、 化合物と標的高分子との相互作用を示す膨大な三次元座 標情報が公開データベースに登録されていることや、 近年のコンピュータの性能 向上とバイオインフォマティクスの進歩等に鑑み、 従来のような一般的で古典物 理学的なインシリコスクリーニング方法を行う代わりに、 標的高分子タンパク質 に結合した種々の化合物の集団的重なり状態等のバイォインフォマティタス情報 を利用して、 人の歙智を基礎にした半経験的な化合物のインシリコスクリーニン グを実行することが可能であるとの着想を得た。
本発明は、 上記着想に基づいて本願発明者により鋭意検討された結果、 完成し たものであり、 標的タンパク質に結合する候補化合物のスクリーニングを行う、 記憶部と制御部を少なくとも備えたインシリコスクリーニング装置であって、 上 記記憶部は、 化合物中の複数個の原子に係る化合物指紋として、 原子タイプと原 子間結合規則とを含む化学記述子を、 上記候補化合物ごとに抽出して作成された 化合物データベース、 を備え、 上記制御部は、 上記標的タンパク質と立体構造が 同一または類似するフアミリータンパク質に結合することが既知の結合化合物に ついて、 上記標的タンパク質の座標系に変換した三次元座標とともに上記化合物 指紋を抽出して結合化合物指紋セットを作成する化合物指紋作成手段と、—上記化 合物データベースに記憶された上記候補化合物について、 上記結合化合物指紋セ ットの上記三次元座標を基底として算出した上記化合物指紋単位の二乗平均偏差 を基礎とする相互作用スコアが最適化されるように、 当該候補化合物の上記標的 タンパク質に対する上記立体構造を演算する最適化手段と、 を備えたことを特徴 とする。
すなわち、 本発明によれば、 タンパク質と化合物との結合を精度よく予測する ことができる一方で、 ヒットする化合物を数多く選出することができ、 また、 生 物化学的な実験等の情報を考慮に入れた半経験的なスクリーニングを行うことが でき、 さらに、 予測効率を高めることができる。
以上のように、 本発明は、 三次元の化合物指紋セットを用いるバイオインフォ マテイクス技術を、 古典物理学的エネルギー手法を用いた低分子化合物と高分子 タンパク質とのドッキングと同等の' 14能を発揮させるようにした点で従来手法と は異なっている。 特に、 X線解析、 NMR、 電子線解析、 高分解能電子顕微鏡解 析などの技術が格段に進歩していることを考えると、 標的高分子タンパク質に結 合した化合物の分子の数は膨大に増加すると予測されるため、 本発明は高い効果 を発揮する。
また、 本発明は、 上記記載のインシリコスクリーニング装置において、 化合物 に結合したタンパク質の立体構造およびァミノ酸配列を記憶するタンパク質デ一 タベース装置に接続され、 上記制御部は、 上記標的タンパク質の上記アミノ酸配 列との相同性に基づいて、 上記フアミリータンパク質および上記結合化合物を上 記タンパク質データベース装置から検索する相同性検索手段、 を更に備え、 上記 化合物指紋作成手段は、 上記相同性検索手段により検索された上記フアミリータ ンパク質に結合する上記結合化合物について、 上記標的タンパク質の座標系に変 換した上記三次元座標とともに上記化合物指紋を抽出して上記結合化合物指紋セ ットを作成すること、 を特徴とする。
ここで、本発明の一例として具体例を示すと、本発明は、標的高分子の中でも、 標的タンパク質の立体構造に類似しているブァミリ一高分子セットに種々.め低分 子化合物が結合した集団的コンフオメーシヨンを抽出するときの条件として、 フ ァミリ一高分子セットを取り出すときに、 当該標的タンパク質の配列を照会 (ク エリー) 配列として、 P S I — B 1 a s t等による相同性. (H o m o 1 o g y ) 検索によって検出する。 そして、 本発明は、 検出されたタンパク質の中で、 該当 するとして検索され、 タンパク質一リガンド複合体 (P r o t e i n— L i g a n d c o m p l e x ) として低分子リガンドを含んでいた場合、 C E (原子の 種類を意識しないタンパク質同士の構造の重ね合わせ操作) 等を用いて、 標的タ ンパク質に重ね合わせる。 そして、 本発明は、 その構造の類似性を表す Z— S c o r eが所定の値 (例えば 3 . 7以上) となった場合、 検索された類似タンパク 質に結合したリガンドを類似タンパク質の座標系から標的タンパク質の座標系に リガンド座標と共に変換して、 リガンドだけ抜き出すことができるようになる。 ここで、 CEは、 原子の種類を意識しないタンパク質同士の構造の重ね合わせ 操作を行うが、 同様の機能を持つプログラムでも代用可能である。 また、 本発明 は、 当該標的タンパク質の配列を照会 (クエリー) 配列として、 PS I _B 1 a s t等による相同' 検索によつて高レ、ホモ口ジーを持つ配列のみが得られた場合 は、 原子の種類を意識したタンパク質同士の構造の重ね合わせ操作のプログラム を使用してもよい。 また、 本発明は、 相同性検索において、 PS I— B 1 a s t に限らず、 配列をクエリーとして相同性検索ができ、 その配列類似性の評価を定 量的にできるソフトプログラムなら、 どのような相同性検索プログラムを適用し てもよい。
また、 本発明は、 上記記載のインシリコスクリーニング装置において、 上記化 合物指紋作成手段は、 上記フアミリータンパク質と上記標的タンパク質との構造 重ね合わせにより、 当該ファミリータンパク質に結合する上記結合化合物の上記 三次元座標を上記標的タンパク質の座標系に変換し、 変換された上記三次元座標 とともに上記化合物指紋を抽出して上記結合化合物指紋セットを作成すること、 を特徴とする。
また、 本発明は、 上記記載のインシリコスクリーニング装置において、 上記化 合物指紋作成手段は、 上記結合化合物と異なる他の上記化合物を参照して構造重 ね合わせを行い、 当該結合化合物と当該他の上記化合物の原子間をまたがる上記 化合物指紋を抽出して上記結合化合物指紋セットに追加する新規化合物指紋追加 手段、 を更に備えたことを特徴とする。
本発明の一例として具体例を示すと、結合化合物指紋セットの具体例としては、 標的高分子の中でも標的タンパク質の立体構造に類似しているファミリー高分子 タンパク質セッ卜に結合した種々低分子化合物データベースである 「CE 1 i b 」 (FP (r i n g e r p r i n t) s e t e x t r a c t e d f r om c o l l e c t e d 1 i g a n d s i n t h e b i n d i n g s i t e (結合部位のリガンド集合から抽出された化合物指紋セット) ) として構成して もよレ、。 この CE 1 i bには、 標的タンパク質の座標系における座標と S y b y 1原子タイプ (a t o m— t y p e ) および、 単結合、 二重結合、 芳香環結合等 といった結合規則情報を含んでいる。 ここで、 本発明は、 標的タンパク質に対す る低分子化合物の探索の狙いの必要に応じて、 C E 1 i bに任意の F P ( f i n g e r p r i n t : 「化合物指紋」 のことをいう。 以下に同じ。 ) を加えても良 レ、。
すなわち、 既存の標的タンパク質の立体構造に類似しているフアミリー高分子 セットに集団的に結合した種々低分子化合物から F Pを抽出する代わりに、 本発 明では、 普通の一般に存在する化合物分子と F Pの類似性を保持したまま、 種々 低分子化合物の中で原子の種類を入れ替える。 そして、 本発明は、 「c i r c 1 e」 等のような安定性を評価できるプログラムを用いて標的タンパク質との相互 作用エネルギーを計算し、 相互作用をより安定にする少し構造の違った "M o d i f i e d F P " (改正 F P ) を得る。 そして、 本発明は、 標的タンパク質に 対して局所エネルギー的に安定な改正 F Pを使って、 あたかもタンパク質同士の 構造の重ね合わせ操作の結果として得られた集団的に結合した種々低分子化合物 から得た F Pのように捕らえ、 それを新たな F Pとして、 上述の発明において行 われたように、 F Pの重ね合わせにその対象 Pどして採用ずる。
上記発明では、 タンパク質とリガンドとのドッキングにおいて、 従来使用され てきた物理化学的相互作用関数の代わりに、 三次元座標を含む化合物指紋セット というバイオインフォマティクスを用いたリガンドコンフオメーションを得る。 そして、 本発明では、 既存の標的タンパク質の立体構造に類似しているファミリ 一高分子タンパク質セッ卜に集団的に結合した種々低分子化合物から F Pを抽出 する代わりに、 種々低分子化合物の中で違う分子化合物を参照して、 普通の一般 に存在する分子の F Pに似た複数化合物結合三次元化合物指紋セットを創作する。 そして、 本発明は、 創作した化合物指紋セットを、 あたかもタンパク質同士の構 造の重ね合わせ操作の結果として得られた集団的に結合した種々低分子化合物か ら得た F Pのように捕らえ、 それを新たな F Pとして、 上記発明において行われ たように、 F Pの重ね合わせにその対象 F Pを採用する。 すなわち、 上記発明は、 ファミリー高分子セットに集団的に結合した種々低分 子化合物を完全に分解して、 従来なら物理学的公式が基底となるドッキング計算 の代わりに、 ばらばらにした種々低分子化合物 F Pをドッキングの基底としたも のである。 本発明は、 さらに、 既存の標的タンパク質の立体構造に類似している フアミリー高分子タンパク質セットに集団的に結合した種々低分子化合物のコン フオメーシヨンの存在は標的タンパク質のフアミリータンパク質と相互作用した 最安定構造に近レ、という事実の熟慮から生まれたものであり、 従来手法と異なり 高い効果を有し有用である。
また、 本発明は、 上記記載のインシリコスクリーニング装置において、 上記化 合物指紋作成手段は、 タニモト係数に基づき上記結合化合物と類似する上記化合 物について、 当該結合化合物と当該化合物の原子間で原子の種類を入れ替え、 上 記標的タンパク質に対する相互作用エネルギーを算出して当該結合化合物の上記 化合物指紋よりも局所エネルギー的に安定な上記化合物指紋を作成して上記結合 化合物指紋セットに追加する新規化合物指紋追加手段、 を更に備えたことを特徴 とする。
本発明の一例として具体例を示すと、 本発明は、 C E i i tがら、' 檫的タンパ ク質ファミリ一高分子タンパク質セットと結合した種々低分子化合物にっレ、て、 各々のフアミリー高分子タンパク質とリガンドの複合体を対象にして、 リガンド との相互作用が安定になるように、 C i r c 1 eプログラム等の相互作用算出プ ログラムを利用する。 本発明は、 f i n g e r p r i n t ( f p ) 単位、 すなわ ち化学記述子単位に原子の種類や結合の種類を改良変更し、 それを新たな f i n g e r p r i n t ( f p ) 単位、 即ち化学記述子単位として、 それを新たな F P として、 上記発明において行われたように、 F Pの重ね合わせにその対象 F Pと して採用するものとする。
また、 標的高分子の中でも、 標的タンパク質の立体構造に類似しているフアミ リ一高分子タンパク質セットに結合した種々低分子化合物データベースである C E 1 i bの F Pがドッキング s c o r e (スコア) を決めるのに大きな貢献をし ている。 そこで、 本発明では、 上記発明において、 標的高分子タンパク質に結合 する理想的な低分子リガンドのドッキング構造が実験的に解析済みである場合、 その結合に理想的な低分子リガンドをリード化合物として、 相互作用エネルギー がよくなるようにいろいろな置換基を付カ卩したり、 理想的な低分子リガンドに化 合物指紋の定量化関数であるタニモト係数が非常に似た、 すなわち 1に近い任意 の低分子リガンドを見つけたりする場合に、 F P領域をその実験的に解析済みの 理想的な低分子リガンドの周りの領域 (例えば 4または 5オングストロ一ム) に 限定する。 これにより、 本発明は、 それら化学構造が似ているタニモト係数が非 常に似た化合物のドッキング構造とその s c o r e (スコア) を容易に計算でき る。 これは、 結合化合物のリ一ド最適ィ匕 (l e a d o p t i m i z a t i o n ) または化合物の新規 ( d e n o v o ) デザィンであり、 上述の発明での F P の役割との組み合わせにおいて、 従来手法と異なり高レ、効果を有し有用である。 また、 従来、 標的タンパク質に種々低分子化合物の部分的なものであるベンゼ ン環等の官能基を結合させ、 物理学的に安定な部分的構造を得て、 それらの結果 を標的タンパク質と分子内自由回転を多く含有する種々低分子化合物との相互作 用を計算するときに、 そのドッキングコンフ;;一メイショシの—発生を少なくする ことが一般的に行われていた。 本発明では、 バイオインフォマティクスの手法で ある 「c i r c 1 e」 のような安定性を評価できるプログラムを用いて標的タン パク質との相互作用エネルギーを計算して、 改正 F Pを創作している。 この点に 関し、 文献等の公知物は発見できず、 本発明のように、 ドッキングの計算の基底 として、 F Pの重ね合わせを採用するときに、 ドッキングの計算の改正 F Pを基 底にすることを報告している従来手法はなく、 従来手法と異なり高レ、効果を有し ¾用でめる。
また、 本発明は、 上記記載のインシリコスクリーニング装置において、 上記結 合化合物は、 公知のドッキングアルゴリズムにより上記標的タンパク質に対して 安定なコンフオメーシヨンを持つと予測された化合物であること、を特徴とする。 本発明の一例として具体例を示すと、 本発明では、 従来一般的に行われている 方法である水素結合や疎水性相互作用ゃ静電相互作用といった物理的なポテンシ ャル関数を用いた第一原理的アプローチ (Ab— i n i t i o Ap p r o a c h) を採用する。 例えば、 本発明は、 正解構造を隠したブラインド 'テスト (b 1 i n d t e s t) によって正解構造に rms d 2. 0以下で予測できる割合 が保証されているような、 DOCKや Au t o D o c kや GOLDなど既存のド ッキングソフトを使ってドッキング計算で安定コンフオメーシヨンが高いスコア を持つと予測された低分子化合物の三次元座標から抽出した FP (f i n g e r p r i n t) を追加する。
また、 本発明は、 標的タンパク質と種々低分子化合物の相互作用のスコア化に よって得られたコンフオメーシヨンを、 DOCKや Au t o D o c kや GOLD など既存のドッキングソフ卜の初期コンフオメーションとして用いてもよい。 こ れにより、 上記発明において、 得られた初期コンフオ 一シヨンが簡便に得られ るのに加えて、 実験を再現する精度が高いので、 他のソフトプログラムとの aみ 合わせによって、 有用な結果を得られる。
また、 本発明は、 上記記載のインシリコスクリーニング装置において、 上記最 - 適化手段は、 上記化合物指紋単位に上記二乗平均偏差を基礎どした、 上記候補化- 合物の、 上記標的タンパク質との衝突具合、 上記標的タンパク質の相互作用領域 における存在割合、 および、 上記標的タンパク質との直接相互作用割合を考慮に 入れた関数に基づいて、上記相互作用スコアを計算する相互作用スコア計算手段、 を更に備えたことを特徴とする。
また、 本発明は、 上記記載のインシリコスクリーニング装置において、 上記最 適化手段は、 上記相互作用スコアをメ トロポリス法に基づいて判定し、 判定結果 にしたがって基底となる上記化合物指紋を変更、 増加、 または減少させることに より、 上記相互作用スコアを最適化させること、 を特徴とする。
本発明の一例として具体例を示すと、 本発明のメ トロポリス判定は、 前回のス コアより、 今回のスコアが大きいならば候補リガンドの構造を採用し、 スコアが 小さいならば、 採用確率 P a c c e p tを計算して、 P a c c e p tに従って棄 却する力採用するかを決定してもよい。
また、 本発明は、 上記記載のインシリコスクリーニング装置において、 上記最 適化手段は、 上記相互作用スコアの最適化過程において、 上記候補化合物のコン フオメ一シヨンを繰り返し変化させ、 シミュレテイツドアニーリング法に基づい て、 当該候補ィ匕合物の上記コンフオメーシヨン毎に当該候補化合物を剛体として 繰り返し並進または回転させる構造変換手段、 を更に備え、 上記最適化手段は、 上記構造変換手段により並進または回転された上記コンフオメーシヨン毎の上記 候補化合物について上記相互作用スコアを計算すること、 を特徴とする。
本発明の一例として具体例を示すと、 標的タンパク質の立体構造に類似してい るファミリ一高分子セットに結合した種々低分子化合物の幾つかの三次元座標情 報を含んだ FPに、 仮想化合物ライブラリーから、 標的タンパク質にライブラリ 一低分子化合物をドッキングして、 相互作用の最適なコンフオメーシヨンを探す ために、 繰り返し、 モンテカルロ的シミュレティ ド ·ァニーリング ( s i mu 1 a t e d a nn e a l i n g) によって、 スコアが最高になるように数学的計 算を行う。
… さらに具体的には、 まず、 本発明は、 候補リガンドの回転可能な二面角をラン ダムに変更することにより、 コンフオメーシヨンを変化させ、 そのコンフオメ一 シヨンの変化した候補リガンドの座標を用いる。 そして、 本発明は、 標的タンパ ク質のフアミリータンパク質に結合した結合化合物セット由来の FPバンドから ランダムに 10個の FPを選ぶ。 そして、 本発明は、 選択された f pバンドから 候補リガンドおよび、 ライブラリーリガンドから F P原子座標セットをランダム に選択する。 そして、 本発明は、 この状態をフィンガープリント (FP) ァライ メントとし、 その対応関係で、 最小二乗フィッティングを行う。 本発明は、 その ときの重ね合わせの二乗平均偏差 (rms d) と重ね合わせ後の候補リガンドの 原子座標を用いて相互作用スコアを計算する。 そして、 本発明は、 二回目以降は 前回の状態を記憶しておき、 リガンド原子のコンフオメーションを保ったまま、 すなわち剛体並進、 回転を行う。 そして、 本発明は、 一つの FPの増加、 減少、 および、 原子座標セッ トの対応関係の変更、 追加を行う。 本発明は、 このステツ プを例えば 10000回行う。ここで、シミュレテイツドアニーリングの温度は、 30Kからはじめ、 0. 07Kまで下げてもよい。 このように、 本発明は、 一つ のコンフオメーシヨンのスコアの最大値を計算し、 初期に発生した 1000個の コンフオメーションについて比較し、 スコアが最大の構造をタンパク質一リガン ド複合体構造として予測し出力する。 このとき、 1000個のコンフオメ一ショ ンを当該スコア順位付けする過程は、 遺伝的アルゴリズム等を使用することによ り、 計算時間や、 最大値の探索において工夫してもよい。
また、 本発明は、 上記記載のインシリコスクリーニング装置において、 上記最 適化手段は、 上記相互作用スコアを以下の数式 (1) に基づいて算出すること、 を特徴とする。
[数 1]
FPAacore - F^aligned fp,fp_ rmsd, molecule )
= BaseScore(aligned p,fp rmsd)
x fp volume(molecule)
x fp _ contact _ surface molecule) ( i )
(ここで、 上記 F PAS c o r eは上記相互作用スコアを表し、 上記 F (a 1 i g n e d— f p, f p— r m s d, mo l e c u l e) は、 上記結合化合物と上 記候補化合物間の上記化合物指紋単位のァライメント度および上記二乗平均偏差、 ならびに、 上記候補化合物の上記標的タンパク質に対する上記立体構造を変数と する関数であり、 上記 B a s e S c o r e (a 1 i g n e d_f p, f p_r m s d) は、 上記化合物指紋単位の一致度および密集度を示す指標であり、 上記 f p_v o 1 ume (mo l e c u l e) は、 上記結合化合物指紋セッ トの上記三 次元座標からなる空間を上記候補化合物が占める割合、 および、 上記標的タンパ ク質との衝突具合を示す指標であり、 上記 f p— c o n t a c t_s u r f a c e (mo l e c u l e) は、 上記候補化合物の上記標的タンパク質との接触度、 および、 上記結合化合物指紋セットの上記三次元座標への帰属度を示す指標であ る。 )
以上のように、 これら上記に述べた発明における数学的計算は、 従来における 物理学的相互作用関数で標的タンパク質と仮想化合物ライブラリ一低分子化合物 の相互作用を計算していたところを、 バイオインフォマティクスの情報を使って 半経験的に計算している点が従来手法と異なり、 さらに構造予測の成功率は世界 で認められているドッキングソフトプログラムに優れるとしても、 決して劣るこ とはないという高い効果を発揮する。 また、 情報の蓄積が、 半経験的バイオイン フォマテイクス手法の相互作用計算の結果を良いほうに導くので、 従来手法と異 なり有用である。
また、 本発明は、 上記記載のインシリコスクリーニング装置において、 上記数 式 、丄) における、 上目己 B a s e S c o r e (a l i g n e d一 f p , f ρ― r m s d) は、 以下の数式 (2) に基づいて算出され、
[数 2]
RawScorey aligned fp)
Base^coreK aligned一 fp,fp rmsd) =
\ + ln( Jp rmsd +1) (2)
(ここで、 上記 R a wS c o r e ( a 1 i g n e d— f p ) は、 上記結合化合物 と上記候補化合物間でァライメントされた上記化合物指紋における原子の数に基 づく指標であり、 上記 f p— r m s dは、 上記二乗平均偏差である。 )
上記 f P— V o 1 ume (mo l e c u l e) は、 以下の数式 (6) に基づい て算出され、
[数 3] fp _ volume(molecule) = In プ-
- \.0 + ηαρ" ( 6 )
(ここで、 上記 n a f pは、 上記結合化合物指紋セッ 卜の上記三次元座標に基づ く固有格子点領域に上記候補化合物の上記三次元座標が占有する格子点の数であ り、 上記 n a pは、 上記標的タンパク質の上記立体構造における原子の固有格子 点領域に上記候補化合物の上記三次元座標が属する格子点の数であり、 上記 k 2 および上記 k 3は、 任意の定数である。 )
_hsd f p一 c o n t a c t _ s u r i a c e (mo l e c u l e f¾、 ζλΎの 数式 (7) に基づいて算出されること、 を特徴とする。
[数 4]
^ density of atom^atom i))
τρ contact surjace(molecule) =——―
一 total _ density of _ atom(molecule) (7)
(ここで、上記 nは、上記候補化合物の原子の数であり、上記 a t om ( i )は、 上記候補化合物の i番目の原子の上記三次元座標であり、 上記 d e n s i t y_ o f— a t om (a t om ( i ) ) は、 当該原子の上記三次元座標が上記結合化 合物指紋セットの上記化合物指紋に属している場合に、 当該化合物指紋の上記原 子と所定の距離で接触している上記標的タンパク質の原子の数と、 当該化合物指 紋の同一格子点に属する上記結合化合物の原子の数との和を返す関数であり、 上 己 t o t a l一 d e n s i t y一 o 1一 a t om (mo l e c u l e) ίま、 上 d e n s i t y_o f_a t o mの分布を降順に並べ換えたものを上記候補化合 物の原子の数だけ順に足し合わせた数である。 )
本発明の一例として具体例を示すと、 本発明は、 上記の内容の中で k 2、 k 3 の値を明確にするために、 E G F Rや V E G F Rなどの固有の標的タンパク質に 対して既知活'性化合物を探し、 k 2, k 3を最適化する。 そして、 本発明は、 そ の値がたとえば、 EGFRの阻害剤のインシリコスクリーニングにおいて、 k 2 =2. 0, k 3 = 1. 0、 となるようなインシリコスクリーニングを行う方法で ある。 上記発明に係るインシリコスクリーニングによって、 EGFRや VEGF Rなどの固有の標的タンパク質に適合する化合物を的確にリストアップすること は、 杭がん剤の新薬開発に直結するので、 従来手法と異なり高い効果を有し有用 である。
従来、 GOLDのようなドッキングソフトプログラムは、 生物学的に重要な水 素結合に参加する原子を点やベク トルとして、 遺伝子アルゴリズムにおいて、 良 いセットを選ぶ工夫をしている。 このような点やベクトルは、 上記発明で記載の ような標的タンパク質の立体構造に類似しているフアミリー高分子セットに種々 低分子化合物が結合した集団的コンフオメーションを抽出するときの条件として の部品である三次元化学記述子の F Pとは違っている。 この発明では、 上述の発 明において、 相互作用しているコンフオメーシヨンにおいて生物学的に重要な水 素結合等を構成する原子点やべクトルのセットを取り込む場合に、 f p— rm s d値を以下の式とすれば、 生物学的に重要な水素結合または疎水結合またはファ ンデルヮ一ルス相互作用に参加する原子を上述の発明に矛盾なく含ませることが 出来ることを特^ [とする。
すなわち、 本発明では、 f p— r m s d + d i s t a n c e rms d i n d i c a t i v e a t om s e t c omp o s e d o f i mp o r t a n t p o i n t s v e c t o r sの式を f p r ms d * * k l + d i s t a n c e_r m s d * * k 4 (* * k l <<* * k 4は F Pの寄与が小さレヽ : * * k l〉>* * k 4は FPの寄与を重視) の形に拡張してもよく、 d i s t a n c e一 rm s d * * k 4としてもよレヽ。 ここで、 d i s t a n c e _ r m s dは、 標的タンパク質とドッキングする低分子化合物どの相互作用において、 ― リガンド原子が標的タンパク質のリガンド結合部位における生物学的に重要な水 素結合または疎水結合またはファンデルワールス相互作用する場合、 標的タンパ ク質のリガンド結合部位における理想座標、 標的タンパク質の生物学的に重要な 原子、 もしくは、 その近傍の原子から発生させたベクトルの終点座標との最小二 乗誤差として定義される。
また、 本発明では、 種々低分子化合物において、 化合物の殆どがアミノ酸残基 のつながったペプチドの場合、 ペプチド基が多いために、 f pの対応関係が複雑 になるので、 スコアの計算過程で過小評価して、 上記発明における R awS c o r eについての上記数式において、 ペプチドの部分の F Pの式に該当する部分を ゼロ等の過小評価の数字にしてもよい。
すなわち、 本発明は、 FPを基底にレて、 標的タンパク質とドッキングする低 分子化合物との相互作用を計算する方法に、 標的高分子である標的タンパク質の リガンド結合環境の格子情報、 化合物と標的高分子間のベタトルを重視する化合 物の多点情報、 標的タンパク質の生物学的環境を表す化合物から標的タンパク質 に向かうベクトル等の何らかの工夫を行う。 その上で、 本発明は、 化合物の種々 原子と標的高分子タンパク質を構成する種々原子との古典物理学的原子間ポテン シャル式から相互作用エネルギー等を計算する方法を包含して、 融合させるよう な、 上記発明の拡張発明であり、 化合物のコンフオメーシヨンや相互作用の結合 の強さに関係する順番をスコァ値で決めることに関して、 従来手法と異なり高い 効果を有し有用である。
また、 本発明は、 記憶部と制御部を少なくとも備えたインシリコスクリ一ニン グ装置において実行される、 標的タンパク質に結合する候補化合物のスクリー二 ングを行うインシリコスクリーニング方法であつて、 上記記憶部は、 化合物中の 複数個の原子に係る化合物指紋として、 原子タイプと原子間結合規則とを含む化 学記述子を、 上記候補化合物ごとに抽出して作成された化合物データベースを備 えており、 上記制御部において実行される、 上記標的タンパク質と立体構造が同 '―一または類似するフアミリ一タンパク質に結合することが既知め結合化合物につ' レ、て、 上記標的タンパク質の座標系に変換した三次元座標とともに上記化合物指 紋を抽出して結合化合物指紋セットを作成する化合物指紋作成ステップと、 上記 化合物データベースに記憶された上記候補化合物について、 上記結合化合物指紋 セットの上記三次元座標を基底として算出した上記化合物指紋単位の二乗平均偏 差を基礎とする相互作用スコアが最適化されるように、 当該候補化合物の上記標 的タンパク質に対する上記立体構造を演算する最適化ステツプと、 を含むことを 特徴とする。
以上、 この発明によれば、 タンパク質と化合物との結合を精度よく予測するこ とができる一方で、 ヒットする化合物を数多く選出することができ、 また、 生物 化学的な実験等の情報を考慮に入れた半経験的なスクリ一二ングを行うことがで き予測効率を高めることができるという効果を奏する。 図面の簡単な説明
第 1図は、 本発明が適用される本インシリコスクリーニング装置の構成の一例 を示すブロック図であり、 第 2図は、 インシリコスクリーニング装置 100の処 理の一例を示すフローチャートであり、 第 3図は、 従来のドッキングソフトと、 タンパク質一リガンド複合体の多数の X線構造や NMR構造を効果的に用いたバ ィォインフォマテイクスによる本実施例に係るドッキング方法を示す状況図であ り、 第 4図は、 本実施例 (Ch o o s e LD) によるタンパク質一リガンド' ド ッキングの原理構成図であり、 第 5図は、 FP (f i n g e r p r i n t) の作 り方を一例として示す図であり、 第 6図は、 本実施例で用いた原子の文字列一覧 を示す図表であり、 第 7図は、 タニモト係数による化合物間の類似性算出方法を 示す模式図であり、 第 8図は、 標的タンパク質の結合部位にリガンドをドッキン グさせる場合の F Pを一例として示す模式図であり、 第 9図は、 たどった経路か ら原子座標を得て、 FPバンドに登録する過程を一例として示す図であり、 第 1 0図は、 本実施例における F Pバンドの絞り込みステップ (me t h o d s t e p o f s H r i nk i n g f i n g e r p r i n t b a n d) ¾一例 として示す図であり、 第 1 1図は、 座標べクトル同士に对応関係を与える過程を 一例として示す模式図であり、 第 12図は、 n a f pと n a pの具体例を原子数 が 31のリガンドを用いて示した図であり、 第 13図は、 標的タンパク質の活性 部位近傍における F Pライブラリ一由来のリガンドの位置を一例として示した図 であり、 第 14図は、 シミュレテイツドアニーリング過程を一例として示す概念 図であり、 第 15図は、 FPAS c o r eを算出するための F Pァライメントぉ よび最小自乗フィッティングを模式的に示した図であり、 第 16図は、 EGFR インシリコスクリーニングにおける計算時間の分布を示す図であり、第 1 7図は、 ベンチマークの概要を一例として示す図であり、 第 18図は、 PDBへの登録数 の年度分布を表す図であり、 第 19図は、 予測と実験結果間での rms dを要約 したテーブルであり、 第 20図は、 85セッ卜における予測成功率一覧 (k 1 と T c Ra n g eの関係) を示す図表であり、 第 21図は、 10位までに r m s d 2. 0以下で予測できる割合を示す図表であり、 第 22図は、 10位までに r m s d 2. 5 (C l o s e) 以下で予測できる割合を示す図表であり、 第 23図 は、 成功とみなす正解構造との rms dを 2. OA以外でも行った場合を示す図 表であり、 第 24図は、 Ch o o s e LDと比較して、 Do c k, Au t oDo c kおよび GOLDのベンチマークの結果を示す図表であり、 第 25図は、 85 セットにおける F PAS c o r eの予測構造と実験構造との rms d力 ^ 2. 0 A 以下における各々標的タンパク質との衝突個数の分布を示す図であり、 第 26図 は、 85セットベンチマークにおける予測成功構造の個数分布を示す図であり、 第 27図は、 各ターゲットにおける全 10回のドッキング試行における成功個数 を示す図であり、 第 28図は、 133セットのベンチマークにおける DOCK, Au t oDo c k, GOLD予測構造の r m s d分布の結果と、 Ch o o s e L D法の結果を示す図であり、 第 29図は、 1 33セッ卜のベンチマークにおける DOCK, Au t oDo c k, G O L D予測構造の r m s d分布の結果と、 Ch o o s e LD法の結果を示す図であり、 第 30図は、 各ターゲットにおける全 1 0回のドッキング試行における成功個数を示す図であり、 第 31図は、 各ターゲ ットにおける全 10回のドッキング試行における成功個数を示す図であり、 第 3 2図は、 Tc範囲で限定された FPライブラリーにおいて F PAS c o r eで順 位付けされた分布内に実験構造との rms dが 2. OA以下の構造が得られる確 率を示す図であり、 第 33図は、 Tc範囲で限定された FPライブラリ一におい て FPAS c o r eで順位付けされた分布内に実験構造との rms dが 2. 0 A 以下の構造が得られる確率を示す図であり、 第 34図は、 予測成功構造の衝突個 数の分布を示す図であり、 第 35図は、 FPライブラリーに用いるリガンドの T c範囲の上限値をさらに低くし、 0. 16, 0. 24, 0. 36に下限値を 0. 08にした場合の性能および、前述した T c範囲、すなわち上限値 0. 56, 0. 76, 0. 96、 下限値 0. 08の予測成功率を示す図であり、 第 36図は、 1 DR 1.について予測されたタンパク質一リガンド構造を示す図であり、 第 37図 は、 4 ESTについて予測されたタンパク質一リガンド構造を示す図であり、 第 38図は、 GOLDが失敗したが Ch o o s e L Dは予測に成功したターゲット を示す 1 CDGについての図であり、 第 39図は、 GOLDが失敗したが Ch o o s e LDは予測に成功したターゲットを示す 1 DR 1についての図であり、 第 40図は、 GOLDが失敗したが Ch o o s e LDは予測に成功したターゲット を示す 1 L DMについての図であり、 第 41図は、 GOLDが失敗したが C h o o s e LDは予測に成功したターゲットを示す 4 E STについての図であり、 第 42図は、 133セット中における 90ターゲッ卜における予測成功率を示す図 表であり、 第 43図は、 ドッキングソフト間の予測に成功した標的タンパク質の ?0810の類似度を丁(: (タニモト係数)で算出した図表であり、第 44図は、 90ターゲット中の一つの標的タンパク質に対する各ドッキングソフトの予測の 成否分布を示す図表であり、 第 45図は、 DOCKが失敗したが Ch o o s e L Dは予測に成功したターゲットを示す 1 HYTについての図であり、第 46図は、 DOCKが失敗したが Ch o o s e LDは予測に成功したターゲットを示す 1 P HGについての図であり、 第 47図は、 DOCKが失敗したが Ch o o s e LD は予測に成功したターゲットを示す ΓΤΜΝ'に いての図であり、 第 48図は、 1位だけではなく 10位までに r m s d 2. 0の構造が採取できる割合を示す図 であり、 第 49図は、 1位だけではなく 10位までに r ms d 2. 5 (C 1 o s e) の構造が採取できる割合を示す図であり、 第 50図は、 成功と定義する rm s dを変化させた場合を示す図表であり、 第 51図は、 本実施例による処理の結 果を示す図表であり、 第 52図は、 EG FRからの細胞内シグナル伝達経路を示 した図であり、 第 53図は、 EG FRのアミノ酸配列のァライメントを示す図で あり、 第 54図は、 構築された EG FRのモデルを示す図であり、 第 55図は、 入手した 1 1個の阻害剤の平面構造を示す図であり、 第 56図は、 FPAS c o r eで定義された k 2値を 0. 5から 5. 0の範囲に変更した際の収穫率折れ線 グラフを示す図であり、 第 57図は、 FPAS c o r eにおける k 3値を 0. 5 から 2. 0の範囲に変更した際の収穫率折れ線グラフを示す図であり、 第 58図 は、 T c上限値を 1. 00とし、 T c下限値の範囲を 0. 08から 0. 32まで、 0. 08刻みで変化させた場合の、 それぞれの T c範囲におけるインシリコスク リーニングの結果を示す図であり、 第 59図は、 PDBに登録されているタンパ ク質ーリガンド複合体構造既知の PDB I Dとそのリガンドの順位付けを示す図 であり、第 60図は、第 59図のリガンド I Dと化合物名を対応付ける図であり、 第 6 1図は、 K i n a s eのインシリコスクリーニングによる絞り込みの結果の 上位 1 0位のタンパク質一リガンド複合体を示す図であり、 第 62図は、 第 6 1 図を別角度から見た図であり、 第 63図は、 TGF— c結合ドメイン近傍を表し た図であり、 第 64図は、 MD L C omp r e h e n s i v e Me d i c i n a 1 Ch em i s t r y (MD L CMC) し丄 1) 3 1 7を用ぃた£ GFRの TGF— α結合ドメインに対するインシリコスクリーユングの結果を示 す図であり、 第 65図は、 MDL ACD L i b r a r yを用いた同インシリ コスクリーニングの結果を示す図であり、 第 66図は、 KRN633 ( I C 50 = 1. 1 6 nm/L) の平面構造を示す図であり、 第 6 7図は、 KRN95 1 ( I C 50 = 0. 1 6 nm/L) の平面構造を示す図であり、 第 68図は、 K RN633の VE-GFR 2活性部位近傍へのドッキングに用いた F Pライブラリ 一に所属するリガンドにおいてドッキングに使用されたリガンドの上位 1 0個を 示した図であり、 第 69図は、 KRN633について、 Ch o o s e LD法を 1 0回実行し、 予測された構造 10個を V E G F R 2の活性部位近傍の立体構造と ともに示した図であり、 第 70図は、 KRN95 1の VEGFR 2活性部位近傍 へのドッキングに用いた F Pライブラリーに所属するリガンドにおいてドッキン グに使用されたリガンドの上位 1 0個を示した図であり、 第 7 1図は、 KRN9 5 1について、 Ch o o s e LD法を 1 0回実行し、 予測された構造 1 0個を V EGFR 2の活性部位近傍の立体構造とともに示した図であり、 第 72図は、 1 33セットを用いた Ch o o s e LD法のドッキング性能試験の結果得られた T c下限値を 0.08に固定し、 T c上限値を変化させた時の予測成功率について、 横軸に T c 上限値、 縦軸に成功率としたグラフを示す図であり、 第 73図は、 e n o y 1 a c y 1 c a r r i e r p r o t e i nの立体構造を示した図 であり、 第 74図は、 MDL Comp r e h e n s i v e Me d i c i n a 1 Ch em i s t r y (MDL CMC) L i b r a r yを用いて、 e n o y l a c y 1 c a r r. i e r p r o t e i nのィンシリコスクリ一ニン グを行った結果の F PAS c o r eの上位 10構造を示す図であり、第 75図は、 AMPKh o mo GAMMA 1と 2 V9 J—Eのアミノ酸配列のァライメントを 示した図であり、 第 76図は、 リガンドが受容体全体に結合した CMC医薬品の 結果リストを示す図であり、 第 77図は、 1位から 10位までの 2 V9 J— E受 容体への結合状態を図に示した図である。 発明を実施するための最良の形態
以下に、 本発明にかかるインシリコスクリーニング装置およびインシリコスク リーユング方法の実施の形態を図面に基づいて詳細に説明する。 なお、 この実施 の形態によりこの発明が限定されるものではない。
[本発明の概要]
:以下、 本発明の概要について説明じ、 その後、 本発明め構成および処理等につ レ、て詳細に説明する。
現在、 X線解析、 NMR実験、 電子線解析実験、 高分解能電子顕微鏡写真等の 実験によって、 ぺプチドゃ低分子化合物や金属等の種々の化合物が標的高分子と 直接相互作用をしている状態を示す、 約四万に至る数の三次元座標が PDB (P r o t e i n Da t a B a n k) に登録されている。 また、 コンピュータの 性能とバイオインフォマティクスの進歩により、 種々化合物が結合した、 標的高 分子タンパク質に立体構造が類似しているファミリー高分子タンパク質セットは、 SCOP等のゥェブサイ トゃ C A S Pで優秀な成績を示している本出願人が製作 したプログラム等により容易に得られ、 抽出できる。
この状態をふまえ、 本願発明者は、 従来一般的に古典物理学的に決められてい る標的高分子タンパク質に対する直接結合する当該化合物のコンフオメーシヨン やその時得られるスコア値を利用した当該相互作用エネルギーの結果から化合物 のインシリコスクリーニングの順番を決める手法の代わりに、 標的高分子タンパ ク質に結合した種々化合物の集団的重なり状態を利用して、 バイオインフォマテ イクスを代用できれば、 人の敦智を基礎にした化合物のコンフオメーションやそ の時得られるスコア値を利用した相互作用エネルギーの結果から化合物のィンシ リコスクリーニングにより順番を決めることが可能となるはずであるとの着想を 得た。
本発明は、 上記着想に基づいて本願発明者により鋭意検討された結果完成され たものであり、 概略的に、 以下の基本的特徴を有する。 すなわち、 本発明は、 記 憶部と制御部を少なくとも備えた、 標的タンパク質に結合する候補化合物のスク リーニングを行うインシリコスクリーニング装置であって、 記憶部は、 化合物中 の複数個の原子に係る化合物指紋として、 原子タイプと原子間結合規則とを含む 化学記述子を、 候補化合物ごとに抽出して作成された化合物データベースを備え る。
ここで、 「化合物指紋」 (フィンガープリント : F P ) とは、 より具体的には、 化合物中の原子 2個、 3個ないじ 4個等の原子の原子ダイプと原子聞結合規則を 内包した化学記述子である。 「原子タイプ」 は、 一例として、 S y b y l原子タ ィプ (a t o m - t y p e ) や 「原子価タイプ」 (V a 1 e n c e— t y p e ) 等である。 「原子間結合規則」 は、 原子間の化学結合の状態を表すものであり、 例えば、 単結合や二重結合や芳香環結合等の結合規則や、 分子軌道法による分類 等を示すものである。
つづいて、 本発明のスクリーニング装置は、 標的タンパク質と立体構造が同一 または類似するフアミリータンパク質に結合することが既知の結合化合物につい て、 標的タンパク質の座標系に変換した三次元座標とともに化合物指紋を抽出し て結合化合物指紋セットを作成する。 すなわち、 標的タンパク質の座標系におい て、 その立体構造に結合した化合物集団の集団的コンフオメーシヨンを収集し、 三次元座標を対応付けて化合物指紋を抽出する。 ここで、 「標的タンパク質と立体構造が同一または類似するフアミリータンパ ク質」は、標的タンパク質自体でもよく、標的タンパク質の一部の構造(例えば、 活性部位やリガンド結合部位など) と同一または類似するタンパク質でもよく、 標的タンパク質の立体構造を解析して活性部位を指定することなく同一または類 似するタンパク質を用いてもよい。 安定コンフオメーシヨンが高いスコアを持つ ようにするために、 従来の D O C Kや A u t o D o c kや G O L Dなど既存のド ッキングソフトを使ってのドッキング計算では、 予め当該標的タンパク質の立体 構造を解析して活性部位を指定する必要があった。 しかし、 本発明では、 これら に比べて、 従来手法とは異なり高い効果を有し、 文献等の学習を通じて活性部位 を指定する必要がないので有用である。
また、 標的タンパク質のアミノ酸配列をクエリー配列として、 化合物に結合し たタンパク質の立体構造およびアミノ酸配列を記憶するタンパク質デ一タベース 等から相同性検索を行って、 標的タンパク質との構造重ね合わせにより構造の類 似性を表す指標が一定値以上となったタンパク質をフアミリータンパク質として もよい。 また、 ここで、 「タンパク質に結合することが既知の結合化合物」 には、 :X線構造解析や NMR構造解析等により実験的にタンパク質一化合物複合体の立 体構造が確認されたものでもよレ、。 また、 結合化合物は、 単にタンパク質に結合 することが既知であればよく、 公知のドッキングアルゴリズム (D O C K A u t o D o c kや G O L D等) や任意の座標発生プログラム (C o r i n aなど) 等により標的タンパク質に対して安定なコンフオメーシヨンを持つと予測された 化合物でもよい。
また、 ここで、 本インシリコスクリーニング装置は、 結合化合物の三次元座標 を標的タンパク質の座標系に変換するために、 フアミリータンパク質と標的タン パク質との構造重ね合わせ操作を行い、 フアミリータンパク質に結合した結合化 合物をフアミリータンパク質の座標系から標的タンパク質の座標系に結合化合物 の座標と共に変換してもよい。 例えば、 構造重ね合わせ操作は、 原子の種類を考 慮しないタンパク質同士の構造の重ね合わせアルゴリズム (C E等) によって実 行してもよく、 標的タンパク質とフアミリータンパク質との相同性が高い場合に は、 原子の種類を考慮した構造重ね合わせを行ってもよレ、。
また、 化合物指紋の抽出は、 結合化合物から直接抽出することに限らず、 標的 タンパク質に対する候補化合物の探索の狙レ、の必要に応じて任意の化合物指紋を 加えてもよレ、。 例えば、 結合化合物と異なる他の化合物を参照して構造重ね合わ せを行レ、、 結合化合物と他の上記化合物の原子間をまたがる新たな化合物指紋を 作成して結合化合物指紋セッ小に加えてもよく、 タニモト係数に基づき結合化合 物と類似する化合物について、 結合化合物と当該化合物の原子間で原子の種類を 入れ替え、 安定性を評価できるプログラム ( 「c i r c 1 e」 等) を用いて標的 タンパク質に対する相互作用エネルギーを算出して結合化合物の化合物指紋より も局所エネルギー的に安定な化合物指紋を 「改正化合物指紋 (Mo d i f i e d
FP) 」 として新たに作成して結合化合物指紋セットに追加してもよレ、。 すな わち、 標的タンパク質との結合に理想的な低分子化合物をリード化合物として、 相互作用エネルギーがよくなるようにいろいろな置換基を付加したり、 理想的な 低分子化合物に化合物指紋の定量化関数であるタニモト係数が非常に似た、 すな わち 1に近い任意の低分子化合物を見つける場合に、 化合物指紋領域を、 実験的 に解析済みの理想的な低分子化合物の周りの領域である 4または 5オングスト口 ームに限定する。 これにより、 それら化学構造が似ているタニモト係数が非常に 似た化合物のドッキング構造とその相互作用スコアを容易に計算できる。
つづいて、 本発明のインシリコスクリーニング装置は、 化合物データベースに 記憶された候補化合物について、 座標固定の結合化合物指紋セットの三次元座標 を基底として算出した化合物指紋単位の二乗平均偏差 (rms d : r o o t— m e a n— s q u a r e— d e v i a t i o n) を基礎とする相互作用スコアが最 適化されるように、 候補化合物の標的タンパク質に対する立体構造を演算する。 すなわち、 この最適化過程において、 本インシリコスクリーニング装置は、 一 例として、 候補化合物のコンフオメーシヨンを繰り返し変化させ、 候補化合物の コンフオメ一ション毎に候補化合物を剛体として繰り返し並進または回転させ、 二乗平均偏差を基礎として算出した相互作用スコアをメ トロポリス法に基づいて 判定し、 判定結果にしたがって候補化合物の化合物指紋を変更、 増加、 または減 少させる。 ここで、 化合物指紋をいくつかランダムに抽出して、 基底となる座標 固定の結合化合物指紋セットを選択してもよい。 また、 候補化合物の回転可能な 二面角をランダムに変更することによりコンフオメーシヨンを変化させる代わり に、 遺伝子ァルゴリズム等のように以前のコンフオメーションを記憶して候補化 合物の構造を変化させてもよレ、。
また、 上記最適化過程における相互作用スコアの計算は、 一例として、 化合物 指紋単位に二乗平均偏差を基礎とした、 候補化合物の、 標的タンパク質との衝突 具合、 標的タンパク質の相互作用領域における存在割合、 および、 標的タンパク 質との直接相互作用割合を考慮に入れた関数に基づいて計算される。 相互作用ス コアは、 より具体的には、 以下の数式 (1) に基づいて算出される。
[数 5]
tPAScore = F aligned fp, jp rmsa, molecule )
= BaseScore{aligned fp,Jp rmsd)
x jp volume{molecule)
y- fp _ contact _ surface molecule) ' (1) (ここで、 FPAS c o r eは相互作用スコアであり、 F (a 1 i g n e d_f p, f p_rms d, mo l e c u l e) は、 結合化合物と候補化合物間の化合 物指紋単位のァライメント度および二乗平均偏差、 ならびに、 候補化合物の標的 タンパク質に対する立体構造を変数とする関数であり、 B a s e S c o r e (a 1 i g n e d_f p, f p_rms d) は、 化合物指紋単位の一致度および密集 度を示す指標であり、 f p— V o 1 ume (mo l e c u l e) は、 結合化合物 指紋セットの三次元座標からなる空間を候補化合物が占める割合、 および、 標的 タンパク質との衝突具合を示す指標であり、 f p— c o n t a c t_s u r f a c e (mo 1 e c u 1 e)は、候補化合物の標的タンパク質との接触度、および、 結合化合物指紋セットの三次元座標への帰属度を示す指標である。 ) 以上が、 本発明の処理の概要である。 このように、 最適化手法に従って計算さ れた相互作用スコアに基づいて、 候補化合物の標的タンパク質に対する相互作用 の順位が決定され、化合物データベースから有意な候補化合物が推定できるので、 タンパク質と化合物との結合を精度よく予測することができる一方で、 ヒットす る化合物を数多く選出することができ、 また、 生物化学的な実験等の情報を考慮 に入れた半経験的なスクリーニングを行うことができ予測効率を高めることがで さる。
すなわち、 本発明は、 標的タンパク質の立体構造に同一または類似しているフ アミリータンパク質に集団的に結合した種々の低分子化合物 (結合化合物) のコ ンフオメーシヨンが、 標的タンパク質と相互作用した最安定構造に近いことを考 察した結果なされたものである。 ざらに、 本発明は、 結合化合物と候補化合物と を对比する際に取り扱いやすい化合物指紋を単位として適切な相互作用スコアの スコア付けを行って最適化することにより、 従来手法よりも予測効率を高めた半 経験的なインシリコスクリーニングを行うことができる。
[インシリコスクリーニング装置の構成]
まず、 本インシリコスクリーニング装置の構成に いて説明する。 図 1は、 本 発明が適用される本インシリコスクリーニング装置の構成の一例を示すブロック 図であり、 該構成のうち本発明に関係する部分のみを概念的に示している。
図 1においてインシリコスクリーニング装置 1 0 0は、 概略的に、 インシリコ スクリーニング装置 1 0 0の全体を統括的に制御する C P U等の制御部 1 0 2、 通信回線等に接続されるルータ等の通信装置 (図示せず) に接続される通信制御 インターフェース部 1 0 4、 入力装置 1 1 2や出力装置 1 1 4に接続される入出 力制御インターフェース部 1 0 8、 および、 各種のデータベースやテーブルなど を格納する記憶部 1 0 6を備えて構成されており、 これら各部は任意の通信路を 介して通信可能に接続されている。 更に、 このインシリコスクリーニング装置 1 0 0は、 ルータ等の通信装置および専用線等の有線または無線の通信回線を介し て、 ネットワーク 3 0 0に通信可能に接続されている。 記憶部 1 0 6に格納される各種のデータベースやテーブル (候補化合物 D B 1 0 6 a〜医薬品化合物 D B 1 0 6 c ) は、 固定ディスク装置等のストレージ手段 であり、 各種処理に用いる各種のプログラムやテーブルやファイルやデータべ一 スゃゥェブベージ等を格納する。
これら記憶部 1 0 6の各構成要素のうち、 候補化合物 D B 1 0 6 aは、 インシ リコスクリーニングの候補となる化合物 ( 「候補化合物」 と呼ぶ。 ) ごとに化合 物指紋を抽出して作成された候補化合物データベース手段である。
また、 結合化合物指紋セット 1 0 6 bは、 標的タンパク質と立体構造が同一ま たは類似するタンパク質 ( 「ファミリ一タンパク質」 と呼ぶ。 ) に結合すること が既知の化合物 ( 「結合化合物」 と呼ぶ。 ) について、 標的タンパク質の座標系 に変換した三次元座標とともに化合物指紋を抽出して作成された結合化合物指紋 セットを記憶する結合化合物指紋記憶手段である。
また、 医薬品化合物 D B 1 0 6 cは、 既知の医薬品化合物について化合物指紋 を抽出して作成された医薬品化合物指紋セットを記憶する、 MD L CMC L i b r a r y等の医薬品化合物データベースである。 すなわち、 医薬品化合物 D B 1 0 6 cは、 医薬品データベースを使って化合物情報を引き出すために、'薬物 吸収や薬物代謝や薬物排泄や薬物毒性等を指標にして、 化合物指紋の整理の基底 としての基礎データ単位を使って、 予め整理した薬物吸収や薬物代謝や薬物排泄 や薬物毒性に特化した結合化合物指紋セット 1 0 6 bを作成するために用いられ る。
また、 図 1において、 通信制御インターフェース部 1 0 4は、 インシリコスク リーニング装置 1 0 0とネットワーク 3 0 0 (またはルータ等の通信装置) との 間における通信制御を行う。 すなわち、 通信制御インターフヱース部 1 0 4は、 他の端末と通信回線を介してデータを通信する機能を有する。
また、 図 1において、 入出力制御インターフェース部 1 0 8は、 入力装置 1 1 2や出力装置 1 1 4の制御を行う。 ここで、 出力装置 1 1 4としては、 モニタ ( 家庭用テレビを含む) の他、 スピーカを用いることができる (なお、 以下におい ては出力装置 1 1 4をモニタとして記載する場合がある) 。 また、 入力装置 1 1 2としては、 キーボード、 マウス、 記録媒体読取装置等を用いることができる。 この入力装置 1 1 2を介して、 インシリコスクリ一ニングの対象となる標的タン パク質や候補化合物が入力される。
また、 図 1において、 制御部 1 0 2は、 O S (O p e r a t i n g S y s t e m) 等の制御プログラム、 各種の処理手順等を規定したプログラム、 および所 要データを格納するための内部メモリを有し、 これらのプログラム等により、 種 々の処理を実行するための情報処理を行う。 制御部 1 0 2は、 機能概念的に、 化 合物指紋作成部 1 0 2 a、 最適化部 1 0 2 b、 スクリ一ユング結果出力部 1 0 2 c、 相同性検索部 1 0 2 dを備えて構成されている。
化合物指紋作成部 1 0 2 aは、 候補化合物や結合化合物や医薬品化合物等の化 合物から化合物指紋を抽出する化合物指紋作成手段である。 例えば、 化合物指紋 作成部 1 0 2 aは、 入力装置 1 1 2を介して入力された候補ィヒ合物について化合 物指紋を抽出して候補化合物指紋セットを作成し候補化合物 D B 1 0 6 aに格納 する。 また、 化合物指紋作成部 1 0 2 aは、 取得した医薬品化合物から化合物指 紋を抽出して医薬品化合物指紋セットを作成し医薬品化合物 D B 1 0 6 cに格納 する。
また、 化合物指紋作成部 1 0 2 aは、 ファミリータンパク質に結合することが 既知の結合化合物について、 原子の三次元座標を標的タンパク質の座標系に変換 し、 変換した三次元座標とともに化合物指紋を抽出して結合化合物指紋セット 1 0 6 bを作成する。 すなわち、 化合物指紋作成部 1 0 2 aは、 標的タンパク質の 座標系において、 その立体構造に結合した化合物集団の集団的コンフオメーショ ンを収集し、 三次元座標に対応付けて化合物指紋を抽出する。 換言すれば、 化合 物指紋作成部 1 0 2 aは、 標的タンパク質に結合した化合物集団から化合物指紋 と呼ばれる原子 2個、 3個、 または 4個等の原子の原子タイプと原子間の結合規 則を内包した化学記述子を化合物記述子の三次元座標を伴って、 できる限り多く 抽出し、 それらを記憶部 1 0 6の中にデータベースの表として収納することによ り結合化合物指紋セット 1 0 6 bを作成する。
ここで、 化合物指紋作成部 1 0 2 aは、 結合化合物の三次元座標を標的タンパ ク質の座標系に変換するために、 ファミリータンパク質と標的タンパク質との構 造重ね合わせ操作を行い、 フアミリータンパク質に結合した結合化合物の三次元 座標を、 (ファミリータンパク質の座標系から) 標的タンパク質の座標系に変換 してもよい。 例えば、 化合物指紋作成部 1 0 2 aは、 原子の種類を考慮しないタ ンパク質同士 (標的タンパク質とファミリータンパク質) の構造重ね合わせアル ゴリズム (C E等) によって構造重ね合わせ操作を行ってもよく、 標的タンパク 質とフアミリータンパク質との相同性が高い場合には、 原子の種類を考慮した構 造重ね合わせを行ってもよい。
また、 化合物指紋作成部 1 0 2 aは、 結合化合物から直接、 化合物指紋を抽出 することに限らず、 標的タンパク質に対する候補化合物の探索の狙いの必要に応 じて任意の化合物指紋を結合化合物指紋セット 1 0 6 bに加えてもよレ、。ここで、 化合物指紋作成部 1 0 2 aは、 図 1に示すように、 新規化合物指紋追加部 1 0 2 eを備えて構成される。 すなわち、 新規化合物指紋追加部 1 0 2 eは、 結合化合 物から直接抽出される化合物指紋以外の新規な化合物指紋を作成し結合化合物指 紋セット 1 0 6 bに追加する新規化合物指紋追加手段である。 例えば、 新規化合 物指紋追加部 1 0 2 eは、 結合化合物と異なる他の化合物を参照して構造重ね合 わせを行い、 結合化合物と他の上記化合物の原子間をまたがる新たな化合物指紋 を作成して結合化合物指紋セット 1 0 6 bに加えてもよい。 また、 新規化合物指 紋追加部 1 0 2 eは、 タニモト係数に基づき結合化合物と類似する化合物につい て、 結合化合物と当該化合物の原子間で原子の種類を入れ替え、 安定性を評価で きるプログラム ( 「c i Γ c 1 e」 等) を用いて標的タンパク質に対する相互作 用エネルギーを算出して結合化合物の化合物指紋よりも局所エネルギー的に安定 な化合物指紋を改正化合物指紋 (M o d i f i e d F P ) として新たに作成し て結合化合物指紋セット 1 0 6 bに追加してもよレ、。
最適化部 1 0 2 bは、 候補化合物 D B 1 0 6 aに記憶された候補ィヒ合物につい て、 結合化合物指紋セット 1 0 6 bに記憶された化合物指紋の三次元座標を基底 として化合物指紋単位の二乗平均偏差 (r m s d ) を算出し、 当該二乗平均偏差 を基礎とする相互作用スコアが最適化されるように、 候補化合物の標的タンパク 質に対する立体構造を演算する最適化手段である。例えば、最適化部 1 0 2 bは、 生成した候補化合物の当該コンフオメーシヨンおよび標的タンパク質に対する三 次元座標ごとに、 二乗平均偏差を基礎として算出した相互作用スコアをメ トロポ リス法に基づいて判定し、判定結果にしたがって候補化合物の化合物指紋を変更、 増加、 または減少させる。 ここで、 最適化部 1 0 2 bは、 結合化合物指紋セット 1 0 6 bから化合物指紋をいくつかランダムに抽出して、 基底となる座標固定の 結合化合物指紋セットを選択してもよい。 ここで、 最適化部 1 0 2 bは、 図 1に 示すように、 相互作用スコア計算部 1 0 2 f 、 構造変換部 1 0 2 gを備えて構成 されている。
相互作用スコア計算部 1 0 2 f は、 最適化部 1 0 2 bによる最適化過程におい て、 化合物指紋単位に二乗平均偏差を基礎とした、 候補化合物の、 標的タンパク 質との衝突具合、 標的タンパク質の相互作用領域における存在割合、 および、 標 的タンパク質との直接相互作用割合を考慮に入れた関数に基づレ、て、 相互作用ス . コアを計算する相互作用スコア計算手段である。 なお、 相互作用スコア計算部 1 0 2 f による相互作用スコアの計算の具体例については、 以下の処理の説明で詳 細に述べる。
また、 構造変換部 1 0 2 gは、 最適化部 1 0 2 bによる最適化過程において、 候補化合物のコンフオメーシヨンを繰り返し変化させ、 シミュレティッドア二一 リング法に基づいて、 当該候補化合物のコンフオメーション毎に当該候補化合物 を剛体として繰り返し並進または回転させる構造変換手段である。 また、 構造変 換部 1 0 2 gは、 候補化合物の回転可能な二面角をランダムに変更することによ りコンフオメーシヨンを変化させる代わりに、 遺伝子アルゴリズム等のように以 前のコンフオメーシヨンを記憶して候補化合物の構造を変化させてもよレ、。
スクリーニング結果出力部 1 0 2 cは、 最適化部 1 0 2 bにより最適化された 相互作用スコアに基づいて、 候補化合物の標的タンパク質に対する相互作用順位 を決定して、 インシリコスクリーニング結果を出力する結果出力手段である。 相同性検索部 1 0 2 dは、 標的タンパク質のアミノ酸配列との相同性に基づい て、 フアミリータンパク質および結合化合物をタンパク質データベース装置から 検索する相同性検索手段である。 すなわち、 相同性検索部 1 0 2 dは、 結合化合 物を取得するために、 標的タンパク質のアミノ酸配列をクエリー配列として、 外 部システム 2 0 0等のタンパク質データベースに照会することにより相同性検索 を行い、 標的タンパク質に対して相同性を有するタンパク質に結合した構造が既 知の結合化合物を取得する。
図 1に示すように、 本インシリコスクリーニング装置 1 0 0は、 アミノ酸配列 情報ゃタンパク質立体構造情報に関する外部データベースや、 配列や立体構造の ァライメント等を行う外部プログラム等を提供する外部システム 2 0 0と、 ネッ トワーク 3 0 0を介して通信可能に接続して構成されてもよい。 なお、 ネットヮ ーク 3 0 0は、 インシリコスクリーニング装置 1 0 0と外部システム 2 0 0とを 相互に接続する機能を有し、 例えば、 インターネット等である。
すなわち、 図 1において、 外部システム 2 CTOは、7ネヅトワーク 3 0 0を介し て、 インシリコスクリーニング装置 1 0 0と相互に接続され、 アミノ酸配列情報 やタンパク質立体構造情報に関するタンパク質データベース等の外部データベー ス (P D B P S I— B 1 a s t等) や、 配列や立体構造のァライメント等を行 う外部プログラム等を提供する機能を有する。 ここで、 タンパク質データベース には、 X線構造解析や NMR構造解析等により実験的にタンパク質一化合物複合 体の立体構造が確認されたものに限らず、 単にタンパク質に結合することが既知 の化合物が保存されてもよい。 この場合、 上述の化合物指紋作成部 1 0 2 aは、 公知のドッキングアルゴリズム (00 1^ゃ八11 1: 0 0 0。 1^ゃ00 1^ 0等) や 任意の座標発生プログラム (C o r i n aなど) 等により、 標的タンパク質に対 して安定なコンフオメーションを持つ結合化合物の構造を予測して結合化合物指 紋セット 1 0 6 bの作成に利用する。 [インシリコスクリーユング装置 1 0 0の処理]
次に、 このように構成された本実施の形態における本インシリコスクリーニン グ装置 1 0 0の処理の一例について、 以下に図 2を参照して詳細に説明する。 図 2は、 インシリコスクリーユング装置 1 0 0の処理の一例を示すフローチヤ一ト である。
図 2に示すように、 まず、 相同性検索部 1 0 2 dは、 入力装置 1 1 2を介して 入力された標的タンパク質のアミノ酸配列に基づいて、 外部システム 2 0 0等の タンパク質データベースから特定の化合物 (結合化合物) と結合した立体構造が 既知のファミリータンパク質を相同性検索する (ステップ S A— 1 ) 。
そして、 化合物指紋作成部 1 0 2 aは、 標的タンパク質の構造と、 結合化合物 を伴ったファミリータンパク質の構造とを重ね合わせる (ステップ S A—2 ) 。 ここで、 化合物指紋作成部 1 0 2 aは、 原子の種類を考慮しないタンパク質同士 の構造重ね合わせを行ってもよく、 標的タンパク質とフアミリータンパク質との 相同性が所定値以上で高い場合には、 原子の種類を考慮した構造重ね合わせを行 つてもよい。
そして、 化合物指紋作成部 1 0 2 aは、 結合化合物の三次元座標を、 ファミ 一タンパク質の座標系から標的タンパク質の座標系に変換する (ステップ S A—
3 )。
そして、 化合物指紋作成部 1 0 2 aは、 標的タンパク質の座標系に変換した結 合化合物の三次元座標とともに、 結合化合物から化合物指紋を抽出して記憶部 1 0 6に格納することにより結合化合物指紋セット 1 0 6 bを作成する (ステップ S A- 4 ) 。 ここで、 新規化合物指紋追加部 1 0 2 eは、 標的タンパク質に対す る候補化合物の探索の狙いの必要に応じて任意の化合物指紋 ( 「M o d i f i e d F P」 等) を加えてもよい。 また、 化合物指紋作成部 1 0 2 aは、 結合化合 物指紋セット 1 0 6 bに記憶された化合物指紋セットと医薬品化合物 D B 1 0 6 cに記憶された化合物指紋セットとの積集合を求めることにより医薬品化合物に 似た構造の絞り込みをかけてもよい。 そして、 最適化部 1 0 2 bは、 候補化合物 D B 1 0 6 aに記憶された候補化合 物についての相互作用スコアの計算の基底となる座標固定の化合物指紋を結合化 合物指紋セット 1 0 6 bから選出する (ステップ S A— 5 ) 。
そして、 最適化部 1 0 2 bは、 候補化合物について、 選出した化合物指紋の座 標固定の三次元座標を基底として化合物指紋単位の二乗平均偏差を算出して最小 自乗フィッティングを行い、 当該二乗平均偏差を基礎とする相互作用スコアが最 適化されるように、 候補化合物の標的タンパク質に対する立体構造を演算する ( ステップ S A— 6 ) 。 すなわち、 最適化部 1 0 2 bは、 相互作用スコア計算部 1 0 2 f の処理により、 結合化合物指紋セット 1 0 6 bから任意に選ばれた、 標的 タンパク質の座標固定の化合物指紋を基底として化合物指紋同士の三次元座標の 二乗平均偏差を基礎とした相互作用スコアを算出する。 そして、 最適化部 1 0 2 bは、 相互作用スコアを指標として、 構造変換部 1 0 2 gの処理により変換され た候補化合物のコンフオメーションおよび標的タンパク質に対する構造が最適化 されるように、 メ トロポリス法を基本にしたシミュレティッドアニーリング法を 実行する。
そして、 スクリーニング結果出力部 1 0 2 cは、 最適化部 1 0 2 bにより最適 . 化された相互作用スコアに基づいて、候補ィヒ合物 D B 1 0 6 a中の候補化合物の、 標的タンパク質に対する相互作用順位を決定して、 インシリコスクリーニングの 結果を出力装置 1 1 4に出力する (ステップ S A—7 ) 。 例えば、 スクリーニン グ結果出力部 1 0 2 cは、 最適化部 1 0 2 bにより各候ネ翁ィヒ合物ごとに得られた 最高点の相互作用スコアについて降順に候補化合物群を並べ替えて出力する。
以上で、 インシリコスクリーニング装置 1 0 0の処理が終了する。
[相互作用スコアの算出]
つぎに、 相互作用スコア計算部 1 0 2 f による相互作用スコアの計算方法の一 例を以下に説明する。 相互作用スコア計算部 1 0 2 f は、 化合物指紋単位に二乗 平均偏差を基礎とした、 候補化合物の、 標的タンパク質との衝突具合、 標的タン ノ、"ク質の相互作用領域における存在割合、 および、 標的タンパク質との直接相互 作用割合を考慮に入れた関数に基づいて相互作用スコアを計算する。 より具体的 には、 相互作用スコアは、 以下の数式 (1) に基づいて算出される。
[数 6]
FPAScore = F^aligned fp,fp rmsa , molecule)
= BaseScore{aligned fp,fp rmsdヽ
x fp volume(molecule)
x fp _ contact _ surface(molecule) ( i ) (ここで、 F PAS c o r eは相互作用スコアであり、 F (a 1 i g n e d_f p, f p_r m s d, mo l e c u l e) は、 結合化合物と候補化合物間の化合 物指紋単位のァライメント度および二乗平均偏差、 ならびに、 候補化合物の標的 タンパク質に対する立体構造を変数とする関数であり、 B a s e S c o r e (a 1 i g n e d_f p, f p— r m s d) 〖ま、 化合物指紋単位の一致度および密集 度を示す指標であり、 f p— v o l um e (m o 1 e c u 1 e ) は、 結合化合物 指紋セットの三次元座標からなる空間を候補化合物が占める割合、 および、 標的 タンパク質との衝突具合を示す指標であり、 f p_c o n t a c t_s u r f a c e (mo 1 e c u 1 e)は、候補化合物の標的タンパク質との接触度;および; 結合化合物指紋セットの三次元座標への帰属度を示す指標である。 )
更に具体的には、 上記数式 (1) における各項は、 本実施の形態において以下 の数式に基づいて算出される。
^B a s e ^ c o r e 、 a l i g n e d― ι p , i p― r m s d) の項
この項は、 化合物指紋単位の一致度および密集度を考慮した関数である。
[数 7]
BaseScore(aligned _fp,fp_ rmsd) = ~ ^
~ \ + \n(fp_rmsd +1) (2)
(ここで、 R a wS c o r e (a l i g n e d— f p) は、 結合化合物と候補化 合物間でァライメントされた化合物指紋における原子の数に基づく指標であり、 f p— r m s dは、 二乗平均偏差である。 ) 上式の R a w S c o r e i g n e d f p) は、 具体的には以下の数式 (3) により算出される。
[数 8]
RawScore(aligned fp) = > assigned _ score{i)
(3)
(ここで、 a s s i g n e d—s c o r e ( i ) は、 i番目にァライメントされ た化合物指紋にあらかじめ与えられた以下の式に基づくスコアである。 ) 更に詳細には、 a s s i g n e d— s c o r e ( i ) は、 以下の数式 (4) で 求められる。
[数 9]
^Casel S + ln(« neignbor _ atom{i) + 1) assigned scores 11 = 〉 Case! S + ln(n _ neighbor― atom(i) + 1)
7=1
^ Case3 S + ln(n neighbor _ atom(i) +1)
7=1 (4)
(ここで、 t o t a l _a t om ( i ) はその i番目にァライメントされた化合 物指紋を構成する原子の数であり、 例えば、 4原子からなる化合物指紋の場合は 4である。 C a s e 1— S, C a s e 2_S, C a s e 3— Sは、 下記で述べる 条件を満たした場合与えられるスカラー値である。 n_n e i g h b o r_a t o m ( i ) は後述するが i番目の原子セットに近接する同じ化合物指紋に属する 原子の数である。 )
例えば、 C a s e 1_Sについては、 結合化合物指紋セットに存在する一つの 結合化合物に対して、 深さ優先探索 (d e p t h— f i r s t s e a r c h) ( "Cアルゴリズム全科 基礎からグラフィクスまで I S BN4— 764 9 - 0 2 3 9 - 7 近代科学社" 参照) を 4原子まで行う (例えば、 C. a r -N. a r -C. a r -C. a r等の化合物指紋) 。 本実施の形態では、 4原子までで探 索を終えているので、 環構造の数は考慮されない。 すなわちベンゼン環とナフタ レン環は区別されない。 探索に成功した場合、 化合物指紋を構成する各原子にス コア (C a s e 1_S) が与えられる。 ここでは、 一つの原子あたりのスカラー 値を 5. 0とする。 すなわち、 4原子で構成される化合物指紋には 20. 0、 3 原子なら 1 5. 0と与えられる。
また、 C a s e 2— Sは、 C a s e 1で得られた化合物指紋を用いて新たな化 合物指紋が作成された場合であって、 ある一定の距離で重なり合う任意の二つの 化合物指紋をえらび、 原子を仮想的な結合で結び、 新たな化合物指紋を作成し、 各原子にある一定のスコアのことである。 デフォルトは 2. 5を用いてもよい。 また、 C a s e 3— Sは、 生物化学的情報や、 エネルギー計算により原子の存 在の可能性がある場合に与えられる任意のスカラー値である。 ここで、 C a s e 3— Sは、 トレーニングセットを使用した検証計算では用いていない。
ここで、 上記の C a s e 1_S, C a s e 2 _Sの作成過程で得られた化合物 指紋は結合規則情報と原子タイプの識別できる既知医薬品データベースから得ら れる化合物指紋セッ卜に属していなければならない。 また、 C a s e 1— Sと C a s e 2— S, C a s e 3— Sの作成過程において、 同一化合物指紋に属する座 標間において、 原子座標セットとそのほかの原子との距離が d i s t (デフオル トは 1. OA) 以内にある原子の個数の自然対数を f pの座標のスコアに加算す る。 なお、 結合化合物において、 化合物の殆どがアミノ酸残基のつながったぺプ チドの場合、 ペプチド基が多く化合物指紋の対応関係が複雑になるので、 その対 応関係を相互作用スコアの計算過程で過小評価して、 R a wS c o r eについて の上記の数式において、 ペプチドの部分の化合物指紋の数式 (3) に該当する部 分をゼロ等の過小評価の数字にしてもよレ、。
上記数式 (2) の右辺分母は、 以下の数式 (5) で求められる。
[数 1 0]
1.0 + ln(fp_rmsd**kl + 1.0 ) (5) (ここで、 1 nは、 ログナチュラルである。 k lは、 最適化した結果として 4. 0を用いる。 f p— r m s dは、 最小二乗重ね合わせの時の r m s dである。 k 1は、 f pの重ね合わせの精度をどこまで厳密にするかをきめるスケール因子で あり、 大きくした場合に、 rms dが大きく (悪く) 、 すなわち数式 (3) の R awS c o r e (スコア) が小さくなるような定数である。 )
、 f p一 V o 1 u m e (m o 1 e c u 1 e ) の項
この項は、 結合化合物指紋セットの三次元座標からなる空間を候補化合物が占 める割合、 すなわち結合化合物指紋セットより得られた化合物指紋からなる空間 をどの程度満たしている力 \ お び、 標的タンパク質との衝突を評価する関数で ある。
[数 1 1]
fp _ volumei molecule) = In ^ττ
一 \.0 + napk3 (6)
(ここで、 n a f p (Numb e r o f L i g a n d A t om c o v e r i n g F i n g e r p r i n t) は、 結合化合物指紋セッ卜の三次元座標に 基づく固有格子点領域に候補化合物の三次元座標が占有する格子点の数であり、 n a p (Numb e r o i L i g a n d At om c o v e r i n g P r o t e i n) は、 標的タンパク質の立体構造における原子の固有格子点領域に 候補化合物の三次元座標が属する格子点の数であり、 k 2および k 3は、 それぞ れ係数であり、 標的タンパク質の生物化学的情報、 誘導適合の程度等によって変 更可能な任意の定数であり、 本実施の形態では、 デフォルトに 1. 0を用いる。 )
、 f p― c o n t a c t s u r f a c e (m o 1 e c u 1 e ) の項
この項は、 候補化合物の標的タンパク質との接触度、 および、 結合化合物指紋 セットの三次元座標への帰属度を考慮した関数である。
[数 1 2]
Figure imgf000039_0001
(ここで、 nは、 候補化合物の原子の数であり、 a t om ( i) は、 候補化合物 の i番目の原子の三次元座標であり、 d e n s i t y— o f _a t orn (a t o m (i) ) は、 当該原子の三次元座標が結合化合物指紋セッ トの化合物指紋に属 している場合に、 化合物指紋の原子と所定の距離で接触している標的タンパク質 の原子の数と、 化合物指紋の同一格子点に属する結合化合物の原子の数との和を 返す関数であり、 t o t a l― d e n s i t y一 o f― a t orn (mo 1 e c u
1 e) は、 d e n s i t y— o f _a t o mの分布を降順に並べ換えたものを候 補化合物の原子の数だけ順に足し合わせた数である。 )
更に詳細には、 d e n s i t y_o f— a t o m ( a t o m ( i ) ) は、 以下 の数式 (8) で表される。
[数 13]
Figure imgf000039_0002
この式において、 もし、 候補化合物を構成する原子の座標が、 結合化合物指紋 セット由来の化合物指紋に属していない場合は 0となり、 属している場合は上記 の式に従い、 スコアが計算される。
すなわち、 n f p c o n t a c tは、 化合物指紋に属している原子とある一定 の距離(デフォルトは、 3. 8)で接触している候補化合物の原子の個数である。 また、 n a t omは、 同一格子点に属する結合化合物セット由来の化合物を構成 する原子の数となる。 同じ結合化合物であって、 PDBの I Dコードが違う場合 について、適宜変更可能となるが、本実施の形態では重複を許して数える。また、 h iは、 特に重要な生化学的情報がある場合に使用するものであり、 デフオノレト では 0を用いる。 すなわち、 「C i r c 1 e」 などの 3 D— 1 D法によって、 標 的タンパク質との安定的な接触が示唆された場合に導入される Mo d i f i e d FP (改正 FP) によって生じる。
次に、 t o t a 1― d e n s i t y― o f一 a t o m (mo 1 e c u 1 e ) の 数式にっレ、て以下に記述する。
[数 14] total aensity of atom(molecule) =〉 sort density of atom{i)
― — ― (9)
(ここで、 t o t a 1は、 化合物の原子 (mo l e c u l eの a t om) 数であ 0。 また、 s o r t― d e n s i t y― o f― a t omは、 d e n s i t y一 o f_a t omの分布を大きい方から順に並べ替えたものである。 つまり、 分子が 大きいと大きい数値が加算されるので t o t a 1— d e n s i t y_o f— a t omは大きくなる。 )
以上で、 相互作用スコア計算部 102 f による相互作用スコアの計算方法の一 例の説明を終える。
[シミュレティッドアニーリングによる相互作用スコアの最大化]
つづいて、 上述した相互作用スコアの計算方法により計算された相互作用スゴ ァに基づいて、 最適化部 102 bによるシミュレティッドアニーリングに従って 候補化合物のコンフオメーシヨンおよび配置を最適化する処理の一例について以 下に説明する。
最初に、 構造変換部 102 gは、 候補化合物の回転可能な二面角をランダムに 変更することにより、 コンフオメ一シヨンを変化させる。 本実施の形態では、 コ ンフオメーシヨン変化は、 1000回行う。 この数は多ければ多いほど良い結果 が得られる可能性があるが、 バ一チャルな候補化合物 DB 106 aに含まれる多 くの低分子化合物についてドッキング計算を行う必要があるので、 有限な回数の 大きさとする必要があり、 候補化合物の回転自由度に依存するとしても予備計算 ではこの回数で十分と考える。 なお、 初期のコンフオメーシヨンは、 候補化合物 DB 106 aに登録された、 ファミリータンパク質に対する結合コンフオメーシ ヨンとしてもよレ、。 最適化部 1 02 bは、 この変化させたコンフオメーシヨン毎 に、 以下の処理で候補化合物の座標を用いる。
そして、 最適化部 1 02 bは、 結合化合物指紋セット 1 06 bの化合物指紋バ ンド (f p b a n d s) から、 ランダムに 1 0個の化合物指紋を選ぶ。 なお、 1 0個に満たない場合は、 化合物指紋バンドの最大数の半分を用いる。 より具体 的には、 選択された化合物指紋バンドから、 候補化合物および結合化合物指紋セ ット 1 06 bの化合物指紋の原子座標をランダムに選択する。 この状態を、 フィ ンガ一プリント ·ァライメント ( f i n g e r p r i n t a 1 i g nme n t ) と呼ぶ。 そして、 その対応関係で、 最小二乗フィッティングを行い、 そのとき の重ね合わせの自乗平均偏差 (rms d) と重ね合わせ後の候補化合物の原子座 標を用いて、 上記の式により相互作用スコアを計算する。
そして、 構造変換部 1 02 gは、 繰り返し二回目以降は前回の状態を記憶部 1 06に記憶しておき、 候補化合物のコンフオメーシヨンを保ったまま、 すなわち 候補化合物を剛体として、 並進、 回転を行い、 一つの化合物指紋の増加、 減少、 および、 原子座標セッ トの対応関係の変更、 追加を行う。 本実施の形態では、 こ のステップを 1 0000回おこなう。
この過程において、 最適化部 1 02 bは、 メ トロポリス (Me t r o p o l i s) 判定を行う。 すなわち、 最適化部 1 02 bは、 前回の相互作用スコアより、 今回の相互作用スコアが大きいならば、 当該候補化合物の配置を採用 (a c c e p t) し、 反対に、 相互作用スコアが小さいならば、 以下の数式に基づき採用確 率 (P a c c e p t) を計算する。
[数 1 5]
△Score = Score (今回) ― Score (前回) AScore
Paccept = exp
T
すなわち、 採用確率 P a c c e p tの範囲は、 0く P a c c e p tく = 1とな るので、 最適化部 102 bは、 このとき同時に 0 < = r < = 1の範囲の一様乱数 を発生させ、 rく P a c c e p tならば、 相互作用スコアが前回よりも小さい場 合も採用する。 なお、 シミュレティッドアニーリング (焼きなまし) 過程におい て、 T (温度) は、 30Kからはじめ、 0. 07Kまで下げる。
このようにして、 最適化部 102 bは、 一つのコンフオメーシヨンの相互作用 スコアの最大値を計算し、 初期に発生させた 1000個のコンフオメーシヨンに ついて比較し、 相互作用スコアが最大の構造を、 最適な標的タンパク質一候補化 合物複合体 (P r o t e i n— L i g a n d c omp l e x) 構造として予測 する。このとき、 1000個のコンフオメーシヨンを順位付けする過程において、 ランダムにコンフオメーションを発生させる代わりに遺伝的アルゴリズム等を利 用するなどして、 以前のコンフオメーションを記憶して何らかのアルゴリズムで リガンド構造を変えていき、 計算時間や最大値の探索において工夫を行ってもよ い。 1000回の計算過程で、 リガンドコンフオメーシヨンの順番を決めるため に、 G O L Dプログラムで採用されているような遺伝子アルゴリズム等を使って、 計算時間の短縮やリガンドコンフオメーションがより真実に近づく可能性のある 最小スコアを得ることできる。
以上で、 シミュレテイツドアニーリングによる相互作用スコアの最大化の説明 を終える。
[タニモト指数]
化合物指紋セットを作る際に、 化合物間の類似を計る尺度として、 たとえば、 タニモト係数 (T c) が 0. 08以上の低分子化合物のセットを用いてもよい。 S y b y 1原子タイプのような各々の化合物の化合物指紋である化学記述子から 化合物指紋 (f p) を決める場合、 タニモト係数 (Tc) は下記のように算出す る。
[数 16 ]
Tc = (ここで、 aは、 化合物指紋が、 結合化合物と候補化合物の両方の FPバンド ( f p b a n d s) に存在する個数であり、 b, cは、 f pが片方の FPバンド にのみ存在する個数である。 )
同じことを集合 (a s s emb 1 y) を使って説明すると、 A, Bをそれぞれ の FPバンドが持つ化合物指紋の集合とするならば、以下の式になるともいえる。
[数 1 7]
T number of fp^ A B)
number oj Jp(A B)
(ここで、 numb e r一 o f一 f p (a s s emb l y) は、 ある集' 5、 ( a s s emb 1 y) に所属する化合物指紋の数である。 )
以上で、 タニモト指数の説明を終える。
[実施例 1 ]
次に、 本発明が適用される本実施の形態の実施例 1について、 以下に図 3〜図 29を参照しながら詳細に説明する。 なお、 以下の実施例においては、 結合化合 物指紋セット 106 bを 「CE l i bJ (FP (f i n g e r p r i n t) s e t e x t r a c t e d f r om c o l l e c t e d 1 ι g a ri d s ι n t h e b i n d i n g s i t e) という名称で呼ぶことがある。
[リガンドドッキングについての生物学的情報を半経験的に選択する方法の開発 (De v e l o pme n t o f c h o o s i n g b i o l o g i c a l i n f o rma t i o n s em i— emp i r i c a l l y o n t e L i g a n d Do c k i n g) ]
近年、 計算機の速度の向上により、 医薬品開発の分野においてタンパク質の立 体構造予測法、およびその立体構造の評価 [参考文献: T e r a s h i G, T a k e d a— Sh i t a k a M, K a n o u K, I w a d a t e M, Ta k a y a D, Ho s o i A, O h t a K, Um e y a m a H P r o t e i n s, 2007, 69 (S 8) : 98- 107] は改良されて いる。 例えば、 タンパク質の立体構造の予測法の一つであるホモロジ一モデリン グ (Homo l o g y Mo d e l i n g) は、 PDB (P r o t e i n Da t a Ba nk) [参考文献: We s t b r o o k e t a 1 Nu c l e i c Ac i d s Re s. 2003 J a n 1 ; 31 (1) : 489— 91 ] へ登録される構造の増加と、 膜タンパク質を除いて参照する铸型 (Temp i a t e) の増カ卩と、 および、 CASP (t h e C r i t i c a l As s e s s m e n t o f Te c hn i qu e s i o r P r o t e i n o t r u c t u r e P r e d i c t i o n)におけるブラインドテスト(b 1 i n d t e s t) によって、 その予測精度は上昇している [参考文献: T a k e d a— S h i t a k a, M. , Te r a s h i , G. , Ta k a y a, D, K a n o u , K. , I wa d a t e, M. , Ume y ama, H. P r o t e i n s t r u c t u r e p r e d i c t i o n i n CASP 6 u s i n g CH IMERA a n d F AMS. P r o t e i n s 61, 122- 127 (2005) ] 。 そして、 当該ホモロジーモデリングは、 立 体構造予測法の適用範囲は変異 (mu t a t i o n) の影響による活性変化の予 測 [参考文献:中町祐司, 河野誠司, 矩ロ眞理子, 野口依子, 木下承皓, 加納和 彦, 寺師玄記, 竹田一志鷹真由子, 近藤信一, 熊谷俊一, P04 08 "A 1 a 54Th rおよび A 1 a 249 G 1 u変異 An t i t h r omb i nのコンビ ユータ .モデリング解析" ] 、 ドラッグデザィン [参考文献: Ta k e d e— S h i t a k a, M. , Ta k a y a, D. , Ch i b a, C. , T a n a k a , H. , & Ume y ama, H. Cu r r. Me d. C h em. 1 1, 551— 558 ( 2004 ) ] などに広がっている。 また、 PDBへ登録されるタンパク質の立体構造の増加と共に、 タンパク質一 リガンド複合体 (P r o t e i n— L i g a n d c omp l e x) の X線構造 解析結果も増加しており、 一つのファミリ一タンパク質内において、 解析済の複 数の X線構造が存在することも多い [参考文献: Ed g a r R. Wo o d e t a 1 CANCER RESEARCH 2004 64 6652-66 59 , 参考文献: J e nn i f e r e t a 1 J. B i o. C h e m. 2002 Vo l . 277, No. 48, 46265— 46272]。 また、 前述の CAS Pにおいても、 タンパク質の結合部位 (b i n d i n g s i t e) の残基を予測する試験を行うなど [参考文献: L o p e Z, G, R o j a s , A, T r e s s, M, Va l e n c i a, A P r o t e i n s, 2007, 69 (S 8) : 165— 1 74] 、 タンパク質一リガン ド複合体 (P r o t e i n— L i g a n d c omp l e x) の予測精度の向上 の重要性は高まりつつある。
一方で、 近年、 疾病原因タンパク質の実験的決定が盛んであり (参考文献: N a t u r eなど) 、 そのタンパク質を阻害する阻害剤の設計の必要性はますます 高まっている。
阻害剤の設計のための有力な方法として、 標的タンパク質の立体構造に基づい た阻害剤設計 (SBDD) があり、 タンパク質一リガンド複合体 (P r o t e i n— L i g a n d c omp l e x) 予測ソフト (いわゆるドッキングソフト) を用いたインシリコ (I n— s i l i c o) スクリ一ニングが行われている。 こ こで、 図 3は、 従来のドッキングソフトと、 タンパク質一リガンド複合体の多数 の X線構造や NMR構造を効果的に用いたバイオインフォ ティグスによる本実 施例に係るドッキング方法を示す状況図である。
図 3に示すように、 既存のドッキングソフトにおいては、 Au t oDo c k [ 参考文献: Go o d s e l l e t a 1 J - Mo 1. Re c o g n i t 1996 9 1 -5] , DOCK [参考文献: Ew i n g e t a 1 J Comp u t A i d e d Mo 1 De s. 2001 15 (5) 41 1-28] , GOLD [参考文献: Ga r e t h e t a 1 J. Mo 1.
B i o l . 1997 267, 727— 748] などは水素結合、 疎水性 相互作用、 静電相互作用といった古典物理的なポテンシャル関数を用いた第一原 理的アプローチ (Ab_ i n i t i o Ap p r o a c h) を採用している。 さ まざまな検証によって、 これらの既存のソフトはよい精度でドッキングできてい る (たとえば正解構造を隠したブラインドテスト (b 1 i n d t e s t) によ つて正解構造に rm s d 2. 0以下で予測できる割合を検証されている) [参考 文献: O n o d e r a e t a 1 J . Ch em. I n f . Mo d e 1.
2007, 4 7, 1 609— 1 6 1 8, 参考文献: M i c h a e 1 e t a 1 J . Me d. Ch em. 200 7, 50, 726— 74 1] 。 また、 回転可能な結合が多い化合物を精度よく ドッキングするために、 リガン ド結合部位 (l i g a n d b i n d i n g s i t e) に予め化合物のフラグ メントを、 ポテンシャル関数をもちいて配置しておくといった方法も考案されて いる [参考文献 ·· B u d i n e t a 1 B i o l Ch em. 200 1 3 82 (9) , 1 365— 72] 。
既存のドッキングソフトを用いて仮想化合物ライブラリーから、 標的タンパク 質に阻害剤候補化合物をドッキングし、 タンパク質一リガンド複合体 (P r o t e i n— L i g a n d c omp l e x) の構造を予測した後、 ヒット化合物 ( H i t C omp o u n d) を選ぶために、 既知のタンパク質—リガンド複合体 (P r o t e i n— L i g a n d c omp l e x) の構造からタンパク質とリ ガンド間の距離、 古典物理学的エネルギーの計算などを行い、 相互作用情報を抽 出し; ヒット化合物を数多く選ぶための再評価を行う試みも多く報告されている [参考文 : S u k uma r a n e t a 1 Eu r . J . Me d. し h em. 2007, 42, 966— 9 76, 参考文献: Z h a n e t a 1 J . Me d. Ch em. 2004, 47, 337— 344] 。 し力 し、 上記一連の研究が示していることは、 既存のドッキングソフトはよい 精度でタンパク質—リガンド複合体 (P r o t e i n— L i g a n d c o m p l e x) を予測できるものの、 そのことが直接にヒッ ト化合物 (H i t C om p o u n d) を数多く仮想化合物ライブラリーから選ぶこととは一致しない (直 結しない) ことを意味している。
すなわち、 現在、 タンパク質一リガンド複合体 (p r o t e i n— l i g a n d c omp l e x) の構造を精度よく予測できる一方で、 なおかつ、 バーチヤ ルライブラリからヒット化合物 (H i t C omp o u n d) を多く検出できる システムを開発することが非常に要請されており、 創薬において必要不可欠であ る。
そのような状況の中、 本願発明者は、 タンパク質一リガンド複合体 (P r o t e i n-L i g a n d c omp l e x) 相互作用の評価に古典物理学的なポテ ンシャル関数を用いず、 PDBに登録されている相互作用既知のタンパク質ーリ ガンド複合体 (P r o t e i n— L i g a n d c omp l e x) の生物化学的 情報から効率的に有効な情報を選び出し、 ドッキングを行いタンパク質一リガン ド複合体 (P r o t e i n— L i g a n d c omp l e x) の構造を予測し、 かつ、 ヒット化合物 (H i t Comp o un d) を多く検出できるシステム C h o o s e LD (CHOO s e i n i o rma t i o n s em i— Emp i r i c a l l y on t h e L i g a n d Do c k i n g) を 発した。 また、 本願発明者の方法では、 タンパク質一リガンド複合体 (P r o t e i n— L i g a n d c omp l e x) の相互作用評価において、 古典物理学的ポテン シャル関数を使用していない。 したがって、 本発明の方法は、 相互作用の物理学 的エネルギーが最適化されているとは言えないタンパク質一リガンド複合体 (P r o t e i n-L i g a n d c omp l e x) 構造の最適化において物理的な アプローチである CHARMM [参考文献: B r o o k s, R. B, B r u c c o l e r i , E. R. , O l a f s o n, D. B. , S t a t e s, J . D. , Swam i n a t h a n, S . & K a r p 1 u s , M. CHARMM: A p r o g r am f o r ma c r omo l e c u l a r e n e r g y , m i n i m i z a t i o n, a n d d y n am i e s c a l c u l a t i o n s J . C omp. Ch em. 4 1 87- 217 (1983) ] , AMBER [参考文献: C a s e, A. D. , Ch e a t h am I I I, E . T. , D a r d e n , T. , o h l k e, H. , Lu o, R. , Me r z J r . , M. K. , On u f r i e v, A. , S i mm e r 1 i n g , C. , Wa n g, B. & Wo o d s, J. R. Th e Amb e r B i omo l e c u 1 a r S i mu l a t i o n P r o g r ams J C o m p u t C h em 26 1668— 1688 ( 2005 ) ] および、 量子化学 [参考文 献: F e d o r o v, G. D. & K i t a u r a, K. Ex t e n d i n g t h e Powe r o f Qu a n t um Ch em i s t r y t o La r g e Sy s t ems w i t h t h e F r a gme n t M o l e c u l a r Or b i t a l Me t h o d J . Phy s. Ch e m. I l l 6904— 6914 ( 2007 ) ] が有効に機能すると期待し ている。
[本実施例 1の概要]
ここで、 本実施例の概要について、 以下に図 4を用いて説明を行う。 図 4は、 本実施例 (Ch o o s e LD) によるタンパク質一リガンド ' ドッキングの原理 構成図である。 ここで、 本実施例において、 ライブラリーリガンド (L I BRA RY L I GANDS) は結合化合物の集合に相当し、 CEL i bは結合化合物 指紋セット 106 bに相当する。
ここで、 図 4において、 各円柱は、 データの集合を表しており、 楕円は入力情 報、 長方形は出力構造を示している。 平行四辺形は、 化学記述子としての化合物 指紋 (FP : f i n g e r p r i n t) である。 すべての過程は計算機 (インシ リコスクリーニング装置 100) 上でおこなわれるため、 入力する情報は電子情 報としてのファイルである。 すなわち、 PDB形式に代表されるような形式で記 載された標的タンパク質の三次元座標ファイル、 ドッキングされるリガンドの三 次元座標ファイルを想定している。
図 4におレ、て、 矢印はおもにデータの集合の絞り込みや入力情報の修飾といつ た変換操作を意味しており、 変換操作には詳細な条件を指定することができる。 ただし、 これらの変換操作には既定の値を定めており、 入力情報がファイル形式 的に、 かつ、 入力されたタンパク質の座標が物理化学的に正常であるならば、 全 自動で出力を得ることができる。 すなわち、 標的タンパク質の三次元座標フアイ ルとドッキングされる候補リガンドの三次元座標フアイルを入力したならば、 タ ンパク質一リガンド複合体構造の三次元座標ファイルが出力されるということで ある。 タンパク質の三次元座標および、 アミノ酸配列は、 ホモロジ一検索、 結合 化合物指紋セット 1 06 bに相当する F Pライブラリ一の構築、 ドッキング計算 のためのタンパク質立体構造の三次元座標として用いられ、 ターゲットの候補リ ガンドは、 候補化合物に相当し、 候補タンパク質特異的 FPバンド、 リガンドの 三次元コンフオメーシヨン探索に使用される。
すなわち、 図 4に示すように、 まず、 本実施の形態に係るインシリコスクリー ユング装置 1 00は、 相同性検索部 1 02 dの処理により、 標的タンパク質につ いて PDB等のタンパク質構造データベースに対して、 相同性検索を行い、 化合 物指紋作成部 102 aの処理により、 相同なタンパク質と構造ァライメントによ り重ね合わせ (f i t t i n g) を行い、 標的タンパク質の座標系に変換した三 次元座標とともに化合物指紋を抽出して、 結合化合物指紋セット 106 bに相当 する標的タンパク質指向性リガンド群 (C) を作成する。
そして、 インシリコスクリーニング装置 1 00は、 標的タンパク質指向性リガ ンド群 (C) を、 医薬品化合物 DB 1 06 cに相当する医薬品的 (d r u g g a b 1 e)- F Pデータベース (D) に照会し、 積集合 Λ '(D) として標的タ ンパク質特異的 FPバンド (L) を得る。 ここで、 標的タンパク質指向性リガン ド群 (C) には、 新規化合物指紋追加部 1 02 eの処理により、 Mo d i f i e d F P等の仮想 F Pを追加していてもよレ、。
つづいて、 インシリコスクリーニング装置 1 00は、 仮想リガンドライブラリ 一またはベンチマークセットの、 標的タンパク質とドッキングを行うリガンド ( d o c k e d l i g a n d) である候補リガンドから化合物指紋を抽出し、 候 補化合物 DB 106 aに相当する候補リガンドの F Pバンド (R) を作成する。 そして、 インシリコスクリーニング装置 1 00は、 構造変換部 1 02 gの処理 により、 候補リガンドのコンフオメ一シヨンを変化させ、 標的タンパク質指向性 リガンド(C) と候補リガンドの FPバンド(R)間で F Pァライメントを行う。 そして、 インシリコスクリーニング装置 1 00は、 最適化部 1 02 bの処理に より、 相互作用スコア関数を用いて標的タンパク質の結合部位に候補リガンドを ドッキングさせる場合に、 シミュレティッドアニーリング (SA) 法を用いて相 互作用スコアを最適化させながら、 標的タンパク質一候補リガンド複合体の三次 元構造予測を行う。 以上が本実施例の概要である。
[ライブラリーリガンド]
ライブラリーリガンド (L I BRARY L I GANDS) とは、 結合化合物 の集合に相当するものである。 すなわち、 インシリコスクリーニング装置 100 は、 P S I— B 1 a s t [参考文献: A l t s c hu l e t a 1 Nu c 1 e i c Ac i d s Re s. 1997 27 (1 7) 3389— 402] による相同性 (Homo l o g y) 検索によって検出されたタンパク質の中で、 それがタンパク質—リガンド複合体 (P r o t e i n— l i g a n d c omp l e x) であった場合、 立体構造ァライメント発生プログラムである CE [参考 文献: Sh i n d y a l o v e t a 1 P r o t e i n En g i n e e r i n g 1998 1 1 (9) 739— 747 ] を用いて、 標的タンパク質と 相同タンパク質間のァライメントを行い、 最小二乗法 ( 1 e a s t s q u a r e f i t t i n g) により標的タンパク質に重ね合わせる。 そして、 ライブラ リーリガンドは、 その最小自乗フィッティングによる Z_S c o r eが 3. 7以 上となった場合、 結合リガンドを標的タンパク質の座標系に変換し、 結合リガン ドだけを抜き出したものである。
なお、 本実施例では、 Z— S c o r e 3. 7未満は、 結合化合物として使用 されない。 この数値の根拠は CEによると、 ' 3. 7— 4. 0 - tw i l i g h t z o n e wh e r e s ome s im i l a r i t i e s o f b i o l o g i c a l s i gn i f i c a n c e c a n b e s e e n ; " (生物学的意義の共通性を見出せるか中間的な領域) とあるためであり 3. 7 以上を採用した。 ホモロジ一検索の最低ホモロジ一は、 本実施例では、 相同性 ( Homo l o g y) 0. 1 %以上とした。 つまりホモロジ一検索で検出された類 似タンパク質のほとんどが CEによって重ね合わされることになる。 [ F Pの定義および F Pバンドの構築]
FPバンド (f p b a n d) の作り方について、 以下に図 5を参照して詳細 に説明する。 ここで、 本実施例で使用する化合物指紋 (f p : f i n g e r p r i n t) を定義する前に、 化合物指紋の解釈について説明する。 化合物指紋 (f i n g e r p r i n t, 以下、 「FP」 とレヽう。 ) は、 ケムインフォマテイクス の分野において、 化合物の特徴を表すべクトルや化合物間の類似性算出のために 使用される計算機上の表現法の一つである (Swam i d a s s, S. J.
& B a l d i , P. Ma t h ema t i c a l Co r r e c t i o n f o r F i n g e r p r i n t S im i l a r i t y Me a s u r e s t o Imp r o v e Ch em i c a l Re t r i e v a l J . C h em. I n f . Mo d e l . 47, 952— 964 (2007) ) 。 本実施例では、 FPの正確な解釈を目的としていないが、 混乱をさけるために 下記の用語に統一する。 一つの分子を原子型 (または原子タイプ) 、 原子結合の 順番などを考慮した組み合わせを要素に持つべク トルで表現した場合、 べク トル の要素を 「FP」 、 べクトルを 「FPベクトル」 とした。 本実施例では、 べク ト ルの要素に、単に原子型の文字列表記以上の情報が付加されている場合がある力 その付加情報も分子を表現する特徴の一つであると解釈し、 そのべクトルの要素 を意味する場合も 「FP」 とし、 その F Pを要素に持つベクトルを通常の 「FP ベクトル」 と区別して 「FPバンド」 とした。 このことは、 「FPバンド」 力 S 「 FPベクトル」 における各要素が原子型であるといった性質も併せて持つことに なる事を意味する。 ここで、 図 5は、 F P (f i n g e r p r i n t) の作り方 を一例として示す図である。
本実施例である Ch o o s e LD法では、 相互作用が既知のタンパク質一リガ ンド複合体構造を用いて、 自由エネルギーの最小化を満たすようにドッキングす る未知のリガンド構造を予測することを目的として、この目的を達成するために、 相互作用が既知のリガンドから部分的な結合自由エネルギーを保持した部品であ る FP (f i n g e r p r i n t) を定義した。 図 5に一例として示す化学物質 の物質名は、 AZD 21 71 (Ca n c e r Re s 2005 ; 65 : ( 10) , Ma y 15, 2005) である。 図 5に示すように、 与えられた 結合規則情報を用いて原子をたどることにより FPを作成する。 たどる原子の数 は、 2, 3, 4個である (この数には理由があるので後述する) 。 各々の囲んだ 線は算出される F Pを意味している。 aで示す FPは、 2個の原子をたどった場 合であり、 bで示す FPは、 3個の原子をたどった例である。 cと dで示す FP は、 それぞれ 4個の場合であり、 同じ原子を通過しているが、 この場合も許容さ れる。 eで示す FPは、 異なる座標であるが同じ原子種をたどっており、 後述の 相互作用スコア関数の F Pの重複度が加算される。
すなわち、 図 5の化合物の結合上の線を囲んだ部分は、 Ch o o s e LD法お よび、 化合物の類似性の比較でも用いられる F Pの原子型表記を意味する。 化合 物の上の任意の原子を基点として深さ優先探索法を用い (Ch i b a e t a 1 C a l g o r i t hm Z ENKA 1995 I SBN4-7649- 0239一 7)、与えられたリガンドの原子間結合情報に従い原子を通過するが、 通過する結合の数は、 1, 2, 3本とした。 すなわち、 ベンゼン環とナフタレン 環からは同じ原子型表記が構築されることになり、' 環構造違いは区別されない。'' 一つの原子は、 Sy b y l At om Ty p e (T r i p o s I n c. , 1 699 S o u t h Ha n l e y Ro a d, S t Lo u i s, MO 6 3144-2913, USA (h t t p : //www. t r i p o s, c o m) ) を用いて表現され、 これらには AMBER 99 (J . Comp u t. C h em. 26, 1668— 1688 ( 2005 ) ) を参考にした原子量、 原子半径、 結合可能数が定義されている。 この時点では、 FPの原子型のみを考 慮しており、 通過した原子座標は考慮していない。 ここで、 図 6は、 本実施例で 用いた原子の文字列一覧を示す図表である。
[タニモト係数による化合物間の類似性算出]
タニモト係数による化合物間の類似性算出方法について以下に説明する。 ここ で、図 7は、タニモト係数による化合物間の類似性算出方法を示す模式図である。 本実施例では、 化合物間の類似性を算出するためにタニモト係数 (以下、 Tc ) を導入した (J. Ch em. I n f . C omp u t . S c i . 40,
163— 166 (2000) ) 。 一般に、 Tcは二つのビット、 すなわち 0 もしくは 1、 からなるベク トルの類似度を数値化したものである。 図 7に示すよ うに、 本実施例では、 対象となる一つの低分子化合物に対して、 上記で導入した FP構築法を用いて FPべク トルを作成し、 べクトル上に定義された FPが存在 するなら 1を、 存在しないなら 0を与えた。 このようにして作成された同じ長さ で、 かつ、 対応する成分は同じ F Pを意味する二つのベクトルから化合物間の類 似性を評価した。
Tcは、 下記の数式によって算出した。 ここで、 両方のベクトルの対応するビ ットが共に onの場合、 aに 1が加算され、 片方のベクトルのみビットが o nな らば bもしくは cに 1が加算される。 すなわち、 お互いに o f f の場合の dは加 算されず、 T c算出において考慮しないことになる。 例えば、 図 7に示した 2つ のビット列間では、 a = 9, b + c = 7であり、 Tc = 9Z (9 + 7) =0. 5 625となる。
[数 1.8 ] ·
fc =
a + b + c 本実施例では、 F Pバンド ( f p b a n d s ) は、 結合化合物のライブラリ —リガンド (L I BRARAY L I GANDS) に属する低分子化合物の集合 力 ら得て、集合を形成する低分子化合物由来の、ある二つの FPバンド(f p b a n d s) を比較する際は、 タニモト係数 (Tc) が 0. 08以上でなければな らないこととした。 換言すれば、 上記数式において、 aは、 FPが両方のFPバ ンドに仔在する fli致 t h e numb e r o f f p e x i s t i n g i n e a c h f p b a n d s) である。 また、 b, cは、 F Pが片方の F Pバンドにのみ存在する個数 ( t h e numb e r o f f p e x i s t i n g i n t h e o t h e r f p b a n d) でめる。
同じことを集合 (a s s emb 1 y) を使って説明すると、 A, Bをそれぞれ のバンドが持つ F Pの集合とするならば、 以下のように表せる。
[数 19 ]
„ number oj fp(A n B)
lc = =— =
number of fp(Aリ B) ここで、 numb e r一 o f一 f p (a s s emb l y) ίまある集合 a s s e mb 1 yに所属する f pの数である。
[FPライブラリーの構築]
FPライブラリーとは、 結合化合物の集合に相当し、 本実施例の Ch o o s e
L D法で用いられる F Pの原子型表記の入手源であり、 さらに構築された F Pに 登録される原子座標の起源となるリガンド群のことである。 通常、 標的タンパク 質の一次構造、 すなわちアミノ酸配列をク: £:リーどじたホモ'口ジニ検索等で検出 されたファミリータンパク質から収集するが、 フアミリ一タンパク質に限らず標 的タンパク質の活性部位等の標的部位に結合すると考えられるリガンド、 もしく はタンパク質、 ペプチド等であっても、 必要であれば追加可能である。
本実施例の Ch o o s e LD法では、 主にフアミリータンパク質から F Pライ ブラリ一を構築した。 PS I— B l a s t (Nu c l e i c Ac i d s Re s . 27, 3398— 3402 ( 1997 ) ) によるホモロジ一検索によ つて検出された三次元座標構造が既知のタンパク質において、 タンパク質一リガ ンド複合体であった場合、 CE (P r o t e i n En g i n e e r i n g 1 1, 739-747 (1998) ) を用レヽ、 標的タンパク質とファミリータ ンパク質との立体構造ァライメントをおこなう。 CEは、 二つのタンパク質をァ ミノ酸配列類似性によらず、 立体構造的に類似した部分を用いてァライメントを おこなうアルゴリズムを実装したプログラムであり、 他の立体構造ァライメント のプログラムには、 Da 1 i (J. Mo 1. B i o l . 233, 123 — 138 (1993) ) , TOPOF I T (P r o t e i n S c i e n c e 13, 1865-1874 ( 2004 ) ) 等が存在する。 これらの主な違 いを記述すると、 CEはアミノ酸配列を N末端から順に重ね合わせる等の改良に より、 高速に結果を得ることが可能であるが、 対象タンパク質にドメインスヮッ ビング等が存在する場合には精度よくァライメントすることが難しく、 その場合 アミノ酸配列の順番に依存しないァライメントを行う Da 1 i等をもちいた方が 精度がよい。
本実施例の Ch o o s e LD法では、 P S I— B 1 a s tで検出されたフアミ リータンパク質を主に重ね合わせることから、 計算時間が短い CEをもちいた。 CEが出力するァライメントを用い、 最小自乗フィッティングにより標的タンパ ク質に重ね合わせた。 CEのァライメントの Z— S c o r eが 3. 7以上となつ た場合、 結合リガンドを標的タンパク質の座標系に変換し、 結合リガンドだけ抜 き出した。 すなわち、 本実施例では、 標的タンパク質と構造的に類似しているタ - ンパク質のみがフアミリータンパク質どして使用されることになる。
[FPバンドの構築]
F Pバンドは付加情報として、 一つもしくは複数の原子座標を関連付けた F P のベク トルであり、 FPライブラリーに属する結合リガンドの集合から得る。 得 られた集合 (FPライブラリー) に属する結合リガンドには、 標的タンパク質の 座標系における座標、 および、 S y b y 1原子タイプ (At om T y p e ) で 表現される原子型および、 単結合、 二重結合、 芳香環結合といった結合規則情報 を含む。 ここで、 図 8は、 標的タンパク質の結合部位にリガンドをドッキングさ せる場合の FPを一例として示す模式図である。 図 8において、 幾つかの幾何学 的図形 (長方形や菱形や楕円) で構成された半透明の部分は、 各種の FPを表し ている。
"I n t r a -mo l e c u l e F P" (図 8の長方形) は、 リガンド分子 内の情報のみを用いて構築された FPのことであり、 FPライブラリーに属する 一つのリガンドの内部のみから得られた原子型情報と結合情報をもちいて作成さ れた FPのことである。 一つの FPは、 リガンド分子内の一つの原子を起点とし て前述した FPの原子型表記の構築法に基づき、 結合している原子を 1, 2また は 3回通過して、 図 8のような分岐のしない最大 4つの原子を構成する。 本実施 例で最も小さい F Pは 2原子からなる。 一回の F P構築の試行の中で、 一度たど つた原子はその試行中に二回通過することは無く、 通過する結合が無くなつた場 合は、 その時点での FPの原子型表記と原子座標を FPバンドに登録する。 その F Pがすでに F Pバンドに登録されている場合は除外するのではなく、 一つの F Pに複数の原子座標を登録する。 ここで、 図 9は、 たどった経路から原子座標を 得て、 F Pバンドに登録する過程を一例として示す図である。
図 9において、 下の行列は原子座標を意味しており、 その行数は FPを構成す る原子の個数を表現している。 例えば、 4行 3列からなる行列ならば、 その FP に 4つの原子座標を含んでいることを表す。
"Mo d i f i e d FP" (図 8の菱形) は、 与えられた結合情報と近接す る原子同士を仮想的な結合と仮定して作成ざれる F Pのことである。 結合してい- る原子および、 実際には結合していないが、 特に指定が無い限りは 1 A以内に原 子が存在すれば仮想的な結合と判定し、 結合を 1, 2もしくは 3回通過して、 分 岐のしない最大 4つの原子からなる FPを構築する。 本実施例では、 最も小さい FPは 2原子からなる。 " I n t r a _mo 1 e c u 1 e FP" の構築の操作 と同様に一回の F P作成の試行の中で、 一度たどった原子は二度通過することは なく、 通過する結合が無くなった場合は、 その時点での FPの原子型表記と原子 座標を FPバンドに登録する。 これにより、 リガンド分子内の結合に加え、 リガ ンド分子間の結合を含んだ F Pを作成しているため、 実際には存在しないような FPが得られる。 すなわち、 物理化学的に存在し得ないような結合の FP (例え ば、 N. am, N. am, N. a m, N. amのような FP) が構築されること が考えられる。 そこで、 本実施例では、 物理化学的に存在する医薬品の三次元座標データべ一 スでめる MDL Comp r e h e n s i v e Me d i c i n a l Ch em i s t r y (MDL CMC) L i b r a r y (医薬品化合物 D B 106 c に相当する。 ) から、 ドラッグライクな FPベクトルを作成し、 FPライブラリ 一より得た F Pバンドの F Pベク トル部分と比較し、 両方に含まれている FPの 原子型表記が標的タンパク質特異的 FPバンドに残るようにする。 任意の FP ( f i n g e r p r i n t) を使う計算の過程で、 医薬品データベースや化合物デ —タベースを使って、 化合物情報を引き出すことにより、 この元になるデータべ ースを薬物吸収や薬物代謝や薬物排泄や薬物毒性等を指標にして、 f i n g e r p r i n t (FP) 等を整理の基底としての基礎データ単位を使って、 予め整理 した薬物吸収や薬物代謝や薬物排泄や薬物毒性に特ィヒした医薬品データベースや 化合物データベースを作成して、 同じ一連の操作を行う。
具体的には、 リガンドライブラリー由来の FPベクトルと、 医薬品ライブラリ 一由来の F Pべクトルとの積集合を求めることにより、 医薬品化合物 DB 106 cに存在する FPのみが FPバンドに登録され、 医薬品化合物 DB 106 cに存 在しない FPは本実施例では無視されて、 結合化合物指紋セッド Ϊ 0'6 bが¾築 される。 ここで、 図 10は、 本実施例における F Pバンドの絞り込みステップ ( me t h o d s t e p o f s h r i nk i n g f i n g e r p r i n t b a n d) を一例として示す図である。
図 10に示すように、 MDL CMC L i b r a r yより得た F Pバンド ( A) と、 標的タンパク指向性リガンド群より得た FPバンド (B) を比較し、 両 方に F Pが存在する場合以外は、 (A) あるいは (B) の FPバンドから取り除 く (図 10の X印で表される) 。 この結果、 ライブラリ一リガンド由来の FP ( L i b r a r y L i g a n d FP) には、 必ず座標が存在することになる。 以上で、 本実施例における FPバンドの構築方法の説明を終える。 なお、 本実 施例においては、 すべての F Pバンド構築の過程において、 一つの原子が複数の FPに所属することは許容される。 また、 FPバンドに得られた FPがすでに登 録されていたなら、 FPの座標が追加され、 存在しない場合は、 FPバンドに新 たな FPを追加し、 座標を追加する。 また、 一つの原子が複数の FPに所属する ことは許容される。 ドッキングのターゲットとなる候補リガンド (d o c k e d 1 i g a n d) に対しても同様の操作を行い、 候補リガンド由来の F Pバンド ( f p b a n d s o f d o c k e d l i g a n d) 力 s作成される。
[FPバンドのァライメント]
FPバンドには原子セッ卜の座標が関連付けられており、 二つの FPバンドを 比較する際は、単に原子型だけを用いるのではなく関連付けられた座標も用いる。 すなわち、 FPバンドのァライメントは、 候補リガンドから得られた FPバンド と、 結合リガンドの FPライブラリーから得られた FPバンドとの比較を行うこ とを意味する。 比較は、 以下の (1) , (2) の過程を経ておこなわれる。
(1) FPを構成する原子型表記の文字列の完全一致の比較
ドッキングさせる候補リガンドから得られた FPバンド由来の FPベタトル ( ビット列 (1) ) と、 結合化合物を含む F Pライブラリーから得られた F Pバン ド由来の FPベク トル (ビット列 (2) ) において、 FPの有無をビット化し、 双方のビットが o nである組み合わせを選択する (図 7参照) 。
(2) 選択された FPに登録されている原子の座標べクトル同士に対応関係を 与える過程
図 1 1は、 座標べクトル同士に対応関係を与える過程を一例として示す模式図 である。 一つの FPは、 ドッキングされる候補リガンド分子由来の原子座標べク トル (1) と、 FPライブラリーの結合リガンド由来の原子座標ベクトル (2) からなり、 この原子座標間に対応関係を与える。
これら二つの過程 (1) , (2) を行うこと力 本実施例における FPのァラ ィメントである。 また、 「F Pァライメントが異なる j とは、
1. 二つのビットが共に o nである F Pの総数
2. 対応させる FPの種類
3. FP内部における座標の対応関係 のうち少なくとも一つが異なることを意味する。 すなわち、 「FPァライメント を変化させる」とは、これらのうち少なくとも一つを変化させることを意味する。
「少なくとも一つ」 という意味は、 FPの原子型が変化した場合、 変化前の F P の座標の対応関係が消失し、 変更後の F Pにおいて対応関係を与え直すため、 必 然的に座標の対応関係も変化するからである。
[相互作用スコア (FPAS c o r e) ]
本実施例における相互作用スコア F PAS c o r eについて、 以下に詳細に説 明する。 F PAS c o r e ( f i n g e r p r i n t a l i g nme n t s c o r e) は、 本実施例において、 FPが部分結合自由エネルギーの集合である という Ch o o s e LD法の仮定に基づき、 F P A S c o r eが高いほど、 相互 作用が既知のフアミリータンパク質一結合リガンド複合体構造を満たすように定 義した。 F PAS c o r eは、 F Pの重ね合わせの精度と、 ァライメントに用い た FPの数、 FPの密集度、 および、 タンパク質一リガンド複合体相互作用を同 時に考慮し、 標的タンパク質"^補リガンド複合体構造を評価する。 本実施例で は、 前述の操作で得られた F Pバンドの最適なァライメントを探索することによ り、 最適な標的タンパク質一候補リガンド複合体を予測じだ。
すなわち、 本実施例において、 相互作用スコア F PAS c o r eは、 以下の数 式として定義した。ここで、 a 1 i g n e d— f pは、ァライメントされた F P、 f p_r m s dは、 そのァライメントを用いた最小自乗フィッティングによって 算出された rms d、 mo 1 e c u 1 eは、 候補リガンドが標的タンパク質にド ッキングした後の複合体の座標を意味する。 各項については以下に詳細に説明す る。
[数 20]
FPA score = F、a丄 igned— fp, fp_rmsd, molecule coordinate. ) = BaseScore (fp_rmsd, aligned一 fp)
* f p_volume (molecule) * fp— contact一 surface (molecule)
< 1 - B a s e S c o r e ( f p一 r m s d , a l i g n e d― f p ) の項
>
この項は、 F Pの一致度および密集度を考慮した関数として定義されたもので あり、 すなわち、 既知の FPの使用強度を評価する関数であり、 以下の数式で表 せる。
[数 2 1]
raw— score (aligned— ιρノ
BaseScore (fp_rmsd, aligned— fp)
1.0 + ln(fp_rmsd**kl + 1.0 ) ここで、 I nは、 ログナチュラル (自然対数) である。 また、 k lは、 FPの 重ね合わせの精度をどこまで厳密にするかをきめるスケール因子である。 ァライ メントされた FPの重ね合わせの rm s dが大きい場合、 分母が大きくなり B a s e S c o r eが小さくなる。 FPの一致度が大きくとも、 その FPに登録され ている F Pの原子座標の重なりの精度を示す r m s dが大きレヽ(悪レ、)場合を排除 することを意味する。 本実施例では、 k lを 4. 0とした。 f p— rms dは、 そのァライメントを用いた最小自乗フィッティングによって算出された r ms d である。 a l i g n e d_f pは、 そのときの f pの対応関係、 すなわちァライ メントされた FPである。
ここで、上 数式 ίこおレヽて、 r a w― s c o r e (, a 1 i g n e d一 f p) iま、 以下の式で表せる。 ここで、 a s s i n g e d— s c o r e ( i ) は、 i番目に ァライメントされた F Pにあらかじめ与えられるスコアである。 nは、 ァラィメ ントされた F Pの総数である。 ァライメントされた FPとは、 標的タンパク質特 異的 FPバンドにおける原子型と原子座標のセットを意味している (上記 「FP バンドのァライメント」 および図 1 1参照) 。 すなわち、 FPのァライメントに おいて FPが同じ原子型であっても、 原子座標が異なっていれば異なる FPを意 味する。
[数 22]
n
raw— score、a丄 igned— fpゾ = ∑ assinged_score )
i = 0
ここで、 上記数式にぉレヽて、 a s s i g n e d― s c o r e ( i) iま、 i番目 にァライメントされた FPにあらかじめ与えられたスコアであり、 以下の数式で 表せる。 このスコアは、 CE 1 i b等のリガンドライブラリーより得られた F P に対して下記のように与えられる。
[数 23]
(total—atom
( ∑ Casel— S + In (N+l) ... easel
( j=0
assinged_score (i) = {
(total_atom
( ∑ Case2_S + In (Neighbor— atom + 1) ... case2 ( j=0 ここで、 上記数式の t o t a l— a t om ( i ) は、 FPを構成する原子座標 の個数を表す。 Ca s e l— S, Ca s e 2— S, Ca s e 3— S (上記せず) は、 あらかじめ FPを構成する原子に与えられるスコアであり、 それぞれ下記の 場合に用いられる。
Ca s e 1— Sは、 前述の "I n t r a—mo 1 e c u 1 e F P" を構成し た場合に各原子に与えられるスコアである。 特に指定が無い場合は 5. 0を用い る。 例えば、 探索に成功した場合は、 FPを構成する各原子にスコア C a s e 1
S (デフォルト 5. 0を用いた) が与えられ、 4原子で構成される FPには 2 0. ◦、 3原子なら 15. 0点が与えられる。
次に、 C a s e 2— Sについて述べる。 前述の "Mo d i f i e d F P" を 構築した場合に各原子に与えられるスコアである。 特に指定が無い場合は 2. 5 を用いる。
最後に、 C a s e 3— Sについて記述すると; 生物化学的情報やエネルギー計 算 ( 「c i r c 1 e」 など) により原子の存在の可能性がある場合に与えられる 任意のスカラー値のことである。 C a s e 3— Sは、本実施例では用いておらず、 ベンチマークセットを使用したドッキング性能 (結合モード予測性能)検証計算、 およびインシリコスクリーニング性能で用いていない。
本実施例では、 C a s e 1— S, C a s e 2_S, C a s e 3— Sの和のスコ ァに加え、 FPライブラリーに属する原子の密集度の自然対数値をスコアに加え た。 これは F Pに属する原子座標セットの原子と 1. OA以内にあるその他の F Pに属する原子座標セッ トの原子個数 (n— n e i g h b o r— a t o m ( i ) ) の自然対数を FPのスコアに加算するものであり、 この項は密集している FP を優遇する項であるといえる。 すなわち、 e a s e lと c a s e 2において、 同 一 F Pに属する座標間において、 距離が d i s t (デフォルト Γ. OA) 以内 にある原子座標セットの原子個数 (Ne i g h b o r_a t o m) の自然対数を FPの座標のスコアに加算することとした。
< 2. f p― v o l ume (mo l e c u l e) の項 >
この項は、 ァライメントされた F Pを用いて候補リガンドが標的タンパク質に ドッキングした後、 その複合体構造を評価する関数である。 すなわち、 ドッキン グ後の候補リガンドの分子座標が F Pライブラリ一の結合リガンドから得られた FPからなる空間を占有する個数 (すなわち、 FPライブラリー由来の F Pから なる空間をどの程度満たしている力 と標的タンパク質との衝突を評価する関数 であり、 以下の数式で表せる。 ここで、 mo 1 e c u 1 eは、 候補リガンドのド ッキング後の原子座標を表す。
[数 24] 1.0 + nafp ** k2
fp— volume (molecule) = In
1.0 + nap ** k3 ここで、 n a f p (Numb e r o f L i g a n d A t om c o v e r i n g F i n g e r p r i n t) は、 ライブラリーリガンド (L I BRAR AY L I GAND) を構成する低分子の原子を用いて作成された固有格子点領 域に分子 (mo 1 e c u 1 e) の座標が占有する個数、 すなわち候補リガンドが F Pライブラリ一を構成する結合リガンド原子を用いて作成された固有格子点領 域の座標を占有する個数である。 n a f pにより、 候補リガンド分子 (mo 1 e c u 1 e) が座標固定の FP (f i n g e r p r i n t) をどれだけ満たしてい る力、表してレヽる。 n a p (Numb e r o f L i g a n d A t om c o v e r i n g P r o t e i n) tt, 標的タンパク質の原子座標より作成される 固有格子点領域に mo 1 e c u 1 e (ドッキング後の候補リガンド分子) の座標 が属する数であり、 標的タンパク質の構成原子との衝突具合を表現している。 また、 k 2,. k 3は、 それぞれ係数であり、一特に指定のない場合 (デフォルト )では、それぞれ 1. 0を用いるが、それぞれ標的タンパク質の生物化学的情報、 誘導適合の程度によって変更可能である。 すなわち、 k 2は、 その標的タンパク 質のフアミリータンパク質の結合リガンド集団の空間を占有する領域を重視する 定数であり、 係数が増大するならば、 大きなリガンドが大きなスコアを得ること ができるようになる。 k 2値は、標的タンパク質の結合領域の大きさによっても、 グループィ匕できる可能性がある。 また、 k 3は、 その標的タンパク質の占有する 領域に候補リガンドが衝突することの許容度因子であり、 候補リガンド原子と標 的タンパク質原子の衝突を重視する係数である。 k 3値が大きくなれば、 標的タ ンパク質と候補リガンドとの衝突を許さないことになる。 k 3について、 タンパ ク質 (p r o t e i n) の活性部位の柔らかさなどをグループィ匕できる可能性が ある。 ここで、 図 1 2は、 n a f pと n a pの具体例を原子数が 3 1のリガンド を用いて示した図である。
図 12に示すように、 候補リガンドにおいて標的タンパク質と衝突する原子数 が 10個、 F Pライブラリー由来の格子点に原子が 21個所属し、 k 2値、 k 3 値が 1. 0であるならば、 f p— v o l ume (m o 1 e c u 1 e ) の項は 1 n (22/1 1) =0. 693という値になる。 この項の関数の性質上、 n a f p が 31から 30、 即ち衝突の個数が 0個から 1個における変化率がもっとも大き い。 またリガンド原子の半分近くが衝突している場合は、 負値となるため非常に 採用されにくくなる。 すなわち、 FPAS c o r eにおいて、 経験的物理関数で ある分子間引カー反発項を表現するレナ一ドジヨーンズポテンシャルに対応する ものとして定義されている。 なお、 EGFRを標的タンパク質として用いたイン シリコスクリーニング性能についての項で、 k 2値、 k 3値の最適化の一例の結 果を後述する。
< ύ . I ρ― c on t a c t― s u r i a c e (m o l e c u l e) の¾ 次に、 f P_c o n t a c t_s u r f a c eの項は、 候補リガンドのドツキ ング後の構造に対してその原子座標の標的タンパク質への接触度、 および、 その 座標の F Pライブラリ一への帰属度を考慮する関数であり、'以下の数式で表せる。 ここで、 mo 1 e c u 1 eは候補リガンドのドッキング後の原子座標、 a t om ( i) は、 そのドッキング後の i番目の原子座標、 nは原子数を意味する。 すな わち、 この式は、 上述の f p_v o 1 u meの数式と同様に、 候補リガンドが標 的タンパク質へドッキングした後の複合体構造に対して計算され、 候補リガンド 原子座標の標的タンパク質の表面との接触度、 および FPライブラリ一から得ら れた F P原子に対しての候補リガンド原子座標の帰属度を考慮する関数である。
[数 25]
n
∑ aensity_of_atom (atom(i )
i = 0
fp— contact一 surface (molecule) =
total— dense— of— atom (molecule) 上記数式において、 d e n s i t y— o f— a t o mは、以下の数式で表せる。 ここで、 n f p c o n t a c tは、 F Pライブラリーに属している F Pの原子座 標と、 特に指定が無い限り (デフォルトでは) 3. 8A以下で接触している標的 タンパク質の原子の個数であり、 n a t omは同一格子点に属する F Pライブラ リー由来の結合リガンド化合物の原子の数となる。 このとき、 同じ原子型のリガ ンド分子が複数に存在していてもよく、 同じリガンド分子であって、 08の 1 Dコードが違う場合についても、 本実施例ではすべて取り込む。 h iは特に重要 な生化学的情報がある場合は使用する変数であり、 .特に指定の無い場合は (デフ オルトでは) 0を用いるが、 C I RCLE (T e r a s h i G, Ta k e d a— S h i t a k a M, K a n o u K, I wa d a t e M, T a k a y a D, Ho s o i A, O h t a K, Um e y a m a H P r o t e i n s, 2007, 69 (S 8) : 98— 1 0 7) 等の 3D— I Dスコ ァ値によってファミリータンパク質に依存しない F P (Mo d i f i e d FP や C r e a t i v e F P等) をいれた場合に使用されることを想定している。 下記の数式は、 リガンド原子座標 Xが FPライブラリーから得られた FPに属し ていない (3. 3 A以下で接触していない) 場合は 0となり、 属している場合は 上記の式に従い、 スコアが計算される。
[数 26]
dens 1 ty_of _atom (x) = 0 or ln nhpcontact + natom + hiノ 図 1 3は、 標的タンパク質の活性部位近傍における FPライブラリ一由来のリ ガンドの位置を一例として示した図である。 図 1 3に示すように、 標的タンパク 質近傍で楕円 (一点鎖線の円) に囲まれた付近の FPは、 標的タンパク質に接し ているので、 n f p c o n t a c tが優遇される。 さらに、 黒円付近は、 FPラ イブラリー由来の結合リガンド原子が密集しており n a t ornが優遇される。 す なわち、 これらの部分に、 ドッキングされた候補リガンドの原子座標が近接した 場合、 上記数式によりスコアが優遇されることになる。
ま 7こ、 上 ti f p — c o n t a c t s u r f a c eの数式 ίこおレヽて、 t o t a 1一 d e n s e一 o f一 a t o m (m o 1 e c u 1 e)は、以下の数式で表せる。 ここで、 t o t a 1は、 候補リガンド分子の原子数である。 また、 s o r t_d e n s l t y― o f一 a t omは、 上目ビ数式の d e n s i t y― o f― a t orn のスカラー値の分布を大きい方から順に並べ替えたものである。 つまり、 候補リ ガンド分子が大きいと t o t a 1— d e n s e_o f— a t omは大きくなる。
[数 27]
total
total— dense— of— atom (molecule) = ∑ sort— density— of一 atom (i)
i = 0 以上で、 本実施例における相互作用スコア F PAS c o r eの説明を終える。
[シミュレティッドアニーリングによる相互作用スコアの最大化およびコンフォ メーシヨンチェンジ]
つぎに、 上記のとおり定義された F PAS c o r e関数を最大化するために、 本実施例におけるシミュレティッドアニーリング (以下、 「SA」 とよぶ。 ) の 実行方法について、 図 14を参照して説明する ( J / Mo 1. G r a p h i c s Mo d. 18, 258-272, 305— 306 (2000) )。 図 14は、 シミュレテイツドアニーリング過程を一例として示す概念図である。 最初に、 候補リガンドのコンフオメーシヨン変化から、 その構造における FP AS c o r eが最大となるドッキング構造を得るまでのステップ 1. 〜3. の 1 サイクルについて述べる。
くステップ 1. >
まず、 ドッキング対象となる候補リガンド (d o c k e d l i g a n d) に 存在する回転可能な二面角をランダムに変更することにより、 コンフオメ一ショ ンを変化させる。 本実施例では、 候補リガンド原子のファンデルワールス半径は AMBER 99を参考にした値を使用した。
<ステップ 2. > コンフオメーシヨンの変化した候補リガンドを剛体として用いて、 リガンド結 合部位 (t h e b i n d i n g s i t e) にドッキングさせる。 以下の並進 回転操作は、 ステップ 1. で発生させた一つのコンフオメーシヨンについて行わ れる。
まず、 前述した F Pバンドからランダムに 10個の F Pの原子型を選ぶ。 10 個に満たない場合は、 FPバンドの FPべクトルのサイズの最大数の半分を用い た。 そして、 選択された FPに登録されている原子座標セットをランダムに選択 する。 これをァライメントされた FPとし、 その対応関係で最小自乗フイツティ ングをおこなレ、候補リガンドの原子座標と F Pライブラリ一由来の原子座標間の rms dを計算し、 このとき得られる並進および回転行列を標的リガンドに対し て作用させ、ひとつの標的タンパク質" 補リガンド複合体構造を得る。そして、 ァライメントされた FP、 rms d、 標的タンパク質"^補リガンド複合体構造 を用いて F PAS c o r eを算出する。 ここで、 図 15は、 FPAS c o r eを 算出するための FPァライメントおよび最小自乗フィッティングを模式的に示し た図である。
図 1 5に示すように、 F Pバンドのァライメントの項で上述したように F Pァ ライメントは (D) , (E) の各 FPの型ごとの座標行列の間で行われ、 く 1〉 リガンドライブラリー由来の FPベクトル (D) と、 候補リガンド由来の FPベ クトル (E) において、 双方のビットが o nである組み合わせが選択される。 こ の選択過程で一致しなかった F Pはァライメントから除力れる。 く 2〉そして、 1つの FPにおいて、 候補リガンド分子由来の原子座標ベク トル (1) と、 FP ライブラリ一の結合リガンド由来の原子座標べクトル ( 2 ) との座標間の対応付 けを行い、 最小自乗フィッティングに基づいて相互作用スコアを計算する。 シミュレテイツドアニーリングによる状態変化は、 F Pの変更、 増加、 減少過 程である。 すなわち、 当該状態変化は、 その FPに属する座標を、 ドッキングさ せる候補リガンド由来の FP、 および、 リガンドライブラリー由来の FPから選 ぶ過程を繰り返すことによって行われる。 そして、 シミュレテイツドアニーリン グは、 ァライメントされた FPに対して、 FPの原子型を一つ増加もしくは保持 し、 FPに登録されている原子座標セットの対応関係の変更もしくは追加と、 F Pの減少を行い、 ァライメントを変化し F PAS c o r eを最大化する。 一つの FPから一つ以上の原子座標セットが選ばれること、 もしくは座標があるのにも 関わらず、 F P Aスコアが減少した場合は、 メ トロポリス判定が行われ、 採用さ れれば状態を保つ。 すなわち、 S A過程においてメ トロポリス判定が行われ、 前 回のスコアより、 今回のスコアが大きいならば採用し、 そうでない場合は、 以下 の数式に基づき採用確率 P a c c e p tを計算する。 このとき同時に 0< = r < = 1の範囲の一様乱数を発生させ r <P a c c e p tならば、 スコアが低い場合 も採用する。 本実施例では、 T (温度) は 30. 0K力 らはじめ、 0. 0 7Kま で下げた。 このようにして、 一つのコンフオメーシヨンに対して F PAS c o r eの最大値を計算する。
[数 28] AScore = score rafter; ― Score (berore
Paccept = ex (AScore/T) このように得られた F Pバンドを用いて S A法により FPAS c o r eを最適 化する。 なお、 本実施例において、 SAは 1 0, 000回行った。
<ステップ 3. >
一つのコンフオメーションに対して上記ステップ 2で得られた最大の F PAS c o r eを、 その構造とともに記憶部の構造プールに保存する。
以上が、 一つのコンフオメーションについての F PAS c o r e最大化のため の 1サイクルの処理である。
ぐステップ 4. >
本実施例においては、 コンフオメーシヨンの変化を 1 000回行うことと設定 したので、 1 000回に満たない場合、 上述のステップ 1. 〜3. を再試行する よう制御する。 なおコンフオメーション発生回数は多ければ多いほど良い結果が 得られる可能性があるが、 バーチャルな化合物データベースに含まれる多くの低 分子化合物についてドッキング計算をする必要があり、 有限な回数の大きさで止 めねばならず、 化合物の回転自由度に依存するとしても本実施例の予備計算では この回数で十分であった。
発生させた 1000個のコンフオメーシヨンのそれぞれについて、 相互作用ス コア FPAS c o r eの最大値が計算された場合、 サイクルの繰り返し処理を終 了し、 構造プールに保存された 1000個のコンフオメーションの最大 F PAS c o r eを比較し、 スコアが最大のドッキング構造を、 当該候補リガンドについ ての最適なコンフオメーシヨンとして標的タンパク質一候補リガンド複合体 (P r o t e i n— L i g a n d c omp l e x) の予測構造を出力する。
[結果と考察 (材料) 、 方法関連]
本実施例について以下に 「結果と考察 (材料) 」 を述べる。 本実施例で記述し た FPライブラリーの構築には、 P e r 1 (h t t p : //www. p e r l . c o m ) x Ru b y (h t t p : //www. r u b y— 1 a n g. o r g ) , b a s h (h t t p : / / w w w . g nu. o r gZ s o f twa r e b a s h/) 等のシェル、 スクリプト言語を組み合わせて開発した。 また、 本実施 例の方法で記述したドッキングされる候補リガンドのコンフオメーシヨンを変化 し、 FPAS c o r eを最大化するようなタンパク質一リガンド複合体構造を探 索するアルゴリズムは C/C + +で記述した。 コンパイラ一は I n t e 1 (登録 商標) C + + Comp i l e r 10. 0を用いた。 使用した計算機の構成 について述べると、 O Sは R e d Ha t L i nu x、 S c i e n t i f i c L i nu x、 CPUは P e n t i um4, Co r e 2Du o, Op t e r o n、 メモリーは 512M, 1024 M, 2048Mと計算機の構成の異な るメモリー非共有型計算機クラスターを最大 200台用いた。 参考に計算時間を 記述すると、 後述する EGFRの k i n a s e ドメインに対して、 MDL A v a i l a b l e Ch em i c a l s D i r e c t o r y (MD L A CD) L i b r a r y (Symy x Te c hn o 1 o g i e s, I n c. Co r p o r a t e Ad d r e s s : 3100 Ce n t r a l Ex p r e s swa y, S a n t a C l a r a, CA 95051) の 20, 000化 合物のインシリコスクリーユングを行った場合、 一つの標的タンパク質に対して 一つ候補リガンドをドッキングする 1 C P Uあたりの計算実行時間の中央値は 1 0. 2分、 平均値は 18. 6分であった。 最小計算時間は、 4. 8分、 最長計算 時間は 1077分であった。 ここで、 図 16は、 EGFRインシリコスクリ一二 ングにおける計算時間の分布を示す図である。
図 16の EGFRインシリコスクリーユングにおける計算時間の分布に示すよ うに、 ドッキングされるリガンドによっては非常に時間がかかる場合がある。 こ の原因の一つには、 内部衝突をさけるようなコンフオメーシヨンの探索が難しい リガンドをドッキングする場合が考えられ、 これは回転可能な結合をランダムで 選択していることが原因であり、 分子内衝突が起こりにくいように回転する必要 があることがわかゥた。 また、 本実施例の Ch o o s e LDの計算時間は、 標的 タンパク質の大きさ、 F Pライブラリーに含まれるリガンドの数および、 リガン ドの分子量、 候補リガンドの分子量、 回転可能な結合の数に依存し、 標的タンパ ク質のリガンド結合部位を絞り込み、 F Pライブラリ一の絞り込みを行えば、 よ り速く予測構造を得ることが可能であった。
本実施例では、 Ch o o s e LDのドッキング性能を試験するために、 P r o t e i n Da t a B a n k(Nu c 1 e i c Ac i d s Re s. 31, 489-491 (2003) ) からタンパク質一リガンド複合体構造を入手 した。 用いたベンチマークについて図 1 7および図 18を参照して説明する。 図 1 7は、 ベンチマークの概要を一例として示す図である。 また、 図 18は、 PD Bへの登録数の年度分布を表す図である。
図 1 7に示すように、 使用したベンチマークセッ トの数は、 それぞれリガンド を有する 218種のタンパク質である。 85種の 08構造 (図 17の左) は、 スコア方程式 (s c o r e e q u a t i o n) を作成するために使用された。 また、 133種の PDB構造 (図 1 7の右) は、 他のドッキング法 (DOCK, AUTODOCK, GOLDなど) と比較するために使用された (以下に PDB
1 Dを示す) 。
85 PDB s t r u c t u r e s ; 1G9V 1 GKC 1 GM8 1 G PK 1H匪 1 HP 0 1 HQ 2 1 HVY 1 HW I 1 HWW 1 I A 1 1 I G 3 1 J 3 J 1 J D 0 1 J J E 1 J LA 1 K3U 1 KE5
1 KZK 1 L 2 S 1 L 7F 1 LPZ 1 LRH 1M2 Z 1MEH 1MMV 1MZC 1N1M 1 N2 J 1 N2 V 1 N46 1 NAV 1 OF 1 1 OF 6 1 OPK 1 OQ 5 1 OWE 1 OYT 1 P2Y I P 62 1 PM 1 Q 1 G 1 Q41 1 Q4G 1 R 1 H 1 R 55 1 R 5 8 1 R90 1 S 19 1 S 3 V 1 SG0 1 S J 0 1 SQ 5 1 SQN
1 T 40 1 T 46 1 T 9 B IT OW 1TT 1 1 TZ 8 1 U 1 C 1 U4 D 1 UML 1 UNL 1 UOU 1 VO P 1 V48 1 V4 S 1 VCJ 1W1 P 1 W2 G 1 X 8 X 1XM6 1 XOQ 1XOZ 1 Y 6 B lYGC 1 YQY 1 YV 3 1 YVF 1 YWR 1 Z 95 2 BM
2 2 BR 1 2 B SM
133 PDB s t r u c t u r e s ; 1 AAQ 1 ABE 1 AC J 1 ACK 1 ACM 1ACO 1 AEC 1 AHA 1 APT 1 AS E 1 A TL 1AZM 1 B AF 1 BBP 1 BLH 1 BMA 1 BYB 1 CB S 1 CBX 1 CDG 1 C I L 1 COM 1 COY 1 CP S 1 CTR 1 DBB 1 DB J 1D I D 1 D I E 1DR1 1 DWD 1 E AP 1 EED 1 EPB 1 ETA 1 ETR 1 FEN 1 FKG 1 FK I 1 FRP 1 GHB 1GLP 1 GLQ 1HDC 1 HDY 1HEF 1 H F C 1HR I 1HSL 1HYT 1 I CN 1 I DA 1 I G J 1 IM B 1 I VE 1 L AH 1 LCP 1 LDM 1 L I C 1 LMO 1 LNA 1 LPM 1 L ST 1MCR 1MDR 1 MMQ 1MRG 1MRK 1MUP 1NCO 1N I S 1 PBD 1 PHA 1 PHD 1 PHG 1 POC 1 RDS 1 RNE 1 ROB 1 S LT 1 SNC 1 S R J I S TP 1TDB 1 TKA 1 TMN 1 TNG 1 TN I 1 TNL 1TP H 1 TP P 1 TRK 1 TYL 1 UKZ 1 ULB 1 WA P 1 X I D 1 X I E 2 ADA 2 AK3 2 CGR 2 CHT 2 CMD 2 CTC 2 DB L 2GBP 2 LGS 2MC P 2MTH 2 PHH 2 PK4 2 P L V 2 R 07 2 S I M 2 YHX 3 AAH 3 C L A 3 C P A 3 G CH 3HVT 3 PTB 3 TP I 4CTS 4DFR 4 E ST 4 FA B 4 PHV 5 P 2 P 6 AB P 6 RNT 6 R S A 7 T I M 8 GCH 図 1 7の 2つの円は、 PDB I Dをタンパク質"^リガンド複合体の特徴ごとに 分類したものであり、 それらすベての PDB I Dを示している。 図中の右の円の 集合は、 医薬品開発の標的タンパク質となりえるが、 結合しているリガンドは医 薬品的な化合物、 ペプチド、 糖鎖等と多様性に富んでいる。 一方、 左の円の PD B I Dは、 右の円と同様に医薬品開発のターゲットとなるタンパク質が選ばれて いる力 右の円の PDB I Dとは異なり、医薬品的なリガンドで構成されている。 より詳しぐ記述すると、 右の円の集合は、 リガンドの分子構造を用いて、 ヘテロ アトムの有無、 水素供与体、 受容体、 および疎水基等の^ "無, リピンスキーのル —ルォブファイブ (Ad v D r u g De l i v Re v 46 (1— 3 ) , 3-26. ) を満たしているかといった判定基準で医薬品的であるリガン ドと判定されたものを最終的には手動で選定したというものである (J. Me d. Ch em. 50, 726— 741 (2007) ) 。
すなわち、 これらベンチマークセットの内訳は、 85ベンチマークセットは、 PDBに 2000年 8月 1 1日より後に登録されたものの中から創薬のターゲッ 卜になる標的タンパク質を選び、 ドッキングするべきリガンドもヘテロァトムを 有するか、 水素供与体、 受容体、 および疎水基等を有するか、 ピンスキーの 5ル ールを満たしているかといった判定基準で医薬品的なリガンドと判定されたもの を最終的には手動で選んだものを集めたものである。 また、 一方、 理研ベンチマ ーク [参考文献: O n o d e r a e t a 1 J . Ch em. I n f . M o d e l . 2007, 47, 1609— 1618 ] は、 G O L D [参考文 献: Ga r e t h e t a 1 J . Mo 1 - B i o l . 1997 26 7, 727-748] のベンチマークを使っている。 このベンチマークは、 上 述したように、 2000年 8月以前に PDBに登録された標的タンパク質を用い ている。 し力、し、 このベンチマークでは、 GOLD以外に, Au t oDo c k, DOCKを比較しているため、 このベンチマークの結果と比較することは、 Ch o o s e LDのドッキングソフトの中における位置づけを知るには非常に有用で あると考えた。 上述した二つのベンチマークにおいては PDB I Dに重複はな い。 そこで、 85セットで C h o o s e LDのデフォルトパラメータの決定を行 い、 理研ベンチマークで、 そのパラメータにおける C h o o s e LDの性能評価 を行った。 ここで、 図 18は、 85セット (左の円) および、 133セット (右 の円) で提案された PDB I Dが登録された年を横軸に、 その年の合計登録数を 縦軸にプロットした図である。
これらのベンチマークセッ卜への登録年は図 18に示すように分布している。 図 18の 2つのベンチマークセットのタンパク質一リガンド複合体の集団の色が 示す事柄を記述すると、 グラフの左側の山は、 標的タンパク質が医薬品的 (d r u g g a b 1 e:薬剤開発の対象となりうる標的タンパク質という意味)であり、 リガンドは、 種々の低分子化合物である場合の登録年の分布を表している (G r e e n p l a n e : 133 b e n c hma r k s e t Go l d B e n c hma r k (J o n e s e t a 1. J - Mo 1. B i o l . 1 9 97, 267, 727- 748) (On o d e r a e t a 1. J .
Ch em. I n f . Mo d e l . 2007, 47, 1609— 16 18) ) 。 また、 グラフの右側の山は、 標的タンパク質とリガンドは共に医薬品 的な (d r u g g a b l e) 化合物である場合の登録年の分布を表している (B 1 u e p 1 a n e : 85 b e n c hma r k s e t (Ha r t s n om e t a 1. J . Ch em. 2007, 50, 726— 741) ) 。 黒ラインは、 それぞれの平均 PDB数を表しており、 平均値は、 緑で 9. 5、 青 で 14. 2である (B l a c k l i n e : a v e r a g e o f numb e r o f PDB o f e a c h (g r e e n, b l u e) p 1 a n e. A v e r a g e v a l u e a r e 9. 5 a n d 14. 2 f o r t h e g r e e n a n d b l u e p l a n e, r e s p e c t i v e l y. ) 0
ここで、 図 19は、 予測と実験結果間での r m s dを要約したテ一ブノレである (Ί a b 1 e . Summa r y o f r . m. s d e v i a t i o n b e twe e n p r e d i c t i o n s a n d e x p e r ime n t a l r e s u 1 t s) 。 結合モード予測構造の精度を評価するために、 予測構造と実 験構造の r m s dを計算した。 r m s dが大きい場合、 予測構造と実験構造との ずれが大きいことを意味しており、 すなわち予測の失敗を意味する。 そこで、 予 測構造を正解と見なす r m s dの上限値を設定した。 図 19の表は J o n e sら によって行われた結合モード予測構造と実験構造の r m s dと人間の感覚、 すな わち G o o d, C l o s e, E r r o r s, Wr o n gの関係を示したものであ る。 rms dが 2. 0 A以下なら予測構造が実験構造にくらべて良い、 すなわち G Q o dとなる。 r m s d力 S 2. 5 A以下なら実験構造に近レ、予測構造を含んで おり、 かつ、 よい予測構造が含まれているということになる。 すなわち C I o s eとなる。 そこで、 rms dが 2. 0 A以下の予測構造が得られた場合を予測の 成功と定義した。 rms dが、 2. 0以上 2. 5以下なら、 ビジュアルでの評価 Cxo o d, C l o s e, E r r o r s, Wr o n gで ¾>る (J o n e s e t a 1. J. Mo 1. B i o l . 1997 267, 727— 748より 抜粋) 。 すなわち、 rms dが 2. OA以下ならリガンドモデルとして正解に比 ベて良い。 rms dが 2. 5 A以下ならリガンドモデルとして正解に比べて似て いる (C l o s e) と良い (Go o d) の両方を含む。
[結果と考察 (1) : F PA関数における k 1最適化 (Op t i m i z e d k 1 i n F P A S c o r e f un c t i o n) ]
上述したように、 FPAS c o r eの k 1値は F Pライブラリーに登録されて いる原子座標と候補リガンドの原子座標の一致度を調節する係数である。 k 1値 はターゲットに応じて変更可能であるが、 大量の標的タンパク質に対してインシ リコスクリーニングを行う場合や、 他の研究者に使用されることを考慮すると最 適なパラメ一ターを決定することは本手法を採用する判断材料の一つとなること から、 Ch o o s e LD法のドッキング性能試験においては最適値を 85セット [参考文献: Mi c h a e l e t a 1 J. Me d. Ch e m. 20 07, 50, 726-741] を使レヽ、 FPAS c o r e関数の k 1の最適 値を決定した。
85セットはドラッグライクな標的タンパク質を多く集めており、 GOLD [ 参考文献: Ga r e t h e t a 1 J . Mo 1 - B i o l . 1997 267, 727— 748] の性能評価を行っている。 これは、 85セットは PDB I Dが 133セットと重複しないため、 すなわち、 この最適化の過程にお いて、 85セットは、 133セットの情報を使用していないためである。 また 8 5セットは GOLDのベンチマークのみを行っており、 GOLDの成功率は C o r i n aの構造を標的タンパク質にドッキングさせた場合、 75. 2±0. 4% であり、 実験構造のリガンド構造を用レ、結合部位を 6 Aと定義した場合 8ひ . 5 ±0. 5%であり、 実験構造のリガンド構造を用い、 結合部位を 4 Aと定義した 場合 86. 9 ± 0. 3 %であり、 X線結晶構造中に存在する結晶水を含めた場合 98. 6±0. 1%であった (J. Me d. Ch em. 50, 726— 741 (2007) ) 。 すなわち、 GOLDだけの評価を行っている場合、 既 存のドッキングソフ卜の中における Ch o o s e LDの位置づけを知ることがで きないので、 85セットは k 1値の最適化に使用した。 ここでは、 FPAスコア (S c o r e) で記述した k 1の最適化をおこなった。
ドッキングの条件は下記に述べる通りである。 他のベンチマークと同様に、 リ ガンド結合部位の探索範囲を狭める等の利点があるため、 リガンド結合部位を定 義した。 すなわち、 Ch o o s e LDのドッキング性能試験のベンチマークは、 タンパク質のリガンド結合部位のァミノ酸残基を予測するものではなく、 リガン ド結合部位における候補リガンドの配座の正確性を試験することである。 結合部 位 (b i n d i n g s i t e) の大きさは、 タンパク質一リガンド複合体 (P r o t e i n-L i g a n d c omp l e x) の正解構造のリガンドの各原子 から 4Aとした。 また、 FPライブラリーに含まれているリガンドの候補リガン ドとの類似性の及ぼす影響を試験するため FPライブラリーに属するリガンドと の Tcを計算し、 FPライブラリーに含まれるリガンドを限定した。 ドッキング するリガンドとライブラリ一リガンド (L I BRARAY L I GANDS) に 属するリガンドとの Ta n i mo t o係数を薬剤様 FP (D r u g L i k e F i n g e r p r i n t ) を用いて計算し、 f p b a n d sの T c Ra n g eは、 最大値を 0. 96, 0. 76そして、 0. 56、 最小値を 0. 08とし た。
初期コンフオメーシヨンは二面角をランダムに回転させ、 初期リガンドからも つとも rms dの大きい構造を結合部位 (b i n d i n g s i t e) から十分 に離したものを使用した。 そのリガンドを用いて、 一つのターゲットに対して 1 0回のドッキングをおこなった。 85セットのうち、 84セットをドッキングす ることができた。 ここで、 図 20は、 85セットにおける予測成功率一覧 (k 1 と Tc Ra n g eの関係) 'を示す図表である。
図 20の表の k lは、 F PAS c o r eで述べた係数のことである。 その下の 数値は、 計算をおこなった k 1値である。 T c R a n g eは、 最大値を 0. 9 6, 0. 76, そして 0. 56、 最小値を 0. 08とした。 カラムの中の数値は 成功率 (%) であり、 平均 (a v e r a g e) は、 上記の範囲の平均値である。 この結果、 k l=4. 0の時の平均値が最も成功率が 62. 1%と最も高く、 次に 6. 0, 3. 0, 5. 0, 2. 0の順で成績がよかった。 k 1値が 1. 0の 場合は、 すべての TC Ra n g eにおいて、 そのほかの k 1値の成功率より悪 かった。 k l値が 4. 0と 6. 0の場合はほぼ同等であつたが、 わずかに平均値 においてまさる 4. 0を最適値として 133種 [参考文献: On o d e r a e t a 1 J . C h e m. I n f . Mo d e l . 2007, 47, 1 609-1 618] のベンチマークはこの数値を用いた。
ここで、 図 21は、 10位までに rms d 2. 0以下で予測できる割合を示す 図表である。 図 21の右図は、 その時の成功率をプロットしたものであるが、 採 用される F PAS c o r eによる順位を増やすにつれ、 予測成功構造を得られる 確率が上昇することが示された。 すなわち、 FPAS c o r e上位の予測構造を 一つ用いるのではなく複数用いる場合、 正解に近 、構造を得られる確率が上がる ことになる。 すなわち、 FPAS c o r e上位の予測構造を分子動力学計算や量 子化学計算による複合体構造の最適化における初期構造にも複数用いた方がよい と考えられる。 成功とみなす実験構造との rms dを 2. OAとした場合、 10 位までに最大 82. 9%予測に成功することが示された。
また、 図 22は、 10位までに rms d 2. 5 (C l o s e) 以下で予測でき る割合を示す図表である。 図 22に示すように、 成功とみなす実験構造との rm s dを 2. 5 Aとした場合、 10位までに最大 87. 6%予測に成功することが 示された。
また、 図 23は、 成功とみなす正解構造との rms dを 2. 0 A以外でも行つ た場合を示す図表である。 図 23の右図は、 横軸に成功と見なす実験構造との r m s d、 縦軸に予測成功率をプロットしたものである。
上述のように、 2. 5 Aでは、 約 7割成功としたが、 85セットベンチマーク における GOLDの予測成功率の一つである C o r i n aで発生させたリガンド、 すなわち、 実験構造のコンフオメーシヨンを用いない場合の結合モード予測の成 功率 75. 2% (参考文献 (Mi c h a e l e t a 1 J. Me d. C h em. 2007, 50, 726— 741 ) ) と同等の成功率を得るには、 T c Ra n g eを 0. 56— 0. 08では 3. 2〜3. 3、 0. 76— 0. 0 8ならば 2. 8を、 0. 96〜0. 08ならば 2. 6〜2. 7を用いる必要があ ることが示された。 なお、 一般的な共有結合長である 1. 5 Aを成功と定義した 場合では、 約 4割の予測に成功したことになる。 ファンデルワールス相互作用の 限界値にちかい 3. 5 A以内では約 8割の予測に成功したことになる。 ここで、 図 24は、 Ch o o s e LDと比較して、 Do c k、 Au t oDo c kおよび G OLDのベンチマークの結果を示す図表である。
図 24は、 On o d e r a e t a 1 [参考文献 : O n o d e r a e t a 1 J . C h e m. I n f . Mo d e l . 200 7, 4 7, 1 60 9- 1 6 1 8] によるベンチマークで C o r i n aによる座標発生に失敗したタ ーゲット、 DOCKまたは GOLDで失敗したターゲットをのぞいた 1 1 6種の PDB I Dの結果を示す図である。 図 24の成功率 (s u c c e s s r a t e ) は、 rm s d 2. OAか、 それより良い構造の割合を示している。
ここで、 ドッキング方法 (Do c k i n g me t h o d) は、 各ドッキング ソフト (D o c k i n g s o f t) の名前を意味している。 Ch o o s e LD は、 3つの T c R a n g eについて性能評価をおこなっている。 GOLD G OLDS c o r e STD, GOLDS c o r e L i b, GOLD C h e m S c o r e STD, Au t oD o c k、 そして DOCKの値は、 C o r i n a と MI N Iの平均値とし、 各ドッキングソフトの成功率において標準偏差を細い 棒で示している。
図 24_のグラフに示すように、 本実施例の Ch ό o s e LDの rm s d 2. 0 A力、 それより良い構造を予測する性能 (成功率) は、 T c 1^ & 1 8 6が0. 96から0. 08の場合、 GOLDとほぼ対等である。 T c R a n g eが 0. 76から0. 08の場合、 GOLDとほぼ対等か少し劣る。 T c Ra n g eが 0. 56から0. 08の場合、 GOLDには及ばないが、 DOCK, Au t o D o c kよりよレ、、 ということが示された。
ここで、 図 25は、 85セットにおける F P A S c o r eの予測構造と実験構 造との rm s dが 2. OA以下における各々標的タンパク質との衝突個数の分布 を示す図である。 衝突 0個の構造が 75. 0 %であり、 衝突 1個の構造が 1 7. · 3%であるため合計が、 計 9 2. 3%となっていることから、 FPAS c o r e の衝突判定関数は、 経験的物理関数であるレナ一ドジヨーンズ型関数の衝突判定 に相当するものとして機能していることが示された。 図 26および図 27は、 各ターゲットにおける全 10回のドッキング試行にお ける成功個数を記したものである。 図 26は、 85セットベンチマークにおける 予測成功構造の個数分布を示している。 なお、 図 26の 「* 1」 は、 予測成功個 数が 5から 10個の PDB I Dの個数の全体に占める割合を表している。 すべて の Tc範囲において、 10回成功と 10回失敗の割合が大きい。 また、 10回中 5回成功したターゲットは 62. 7〜65. 5%であった。 また、 Tc範囲の上 限値を小さくしていくと、 10回とも失敗する個数が増える傾向が示された。 こ れは Ch o o s e LD法が、 FPライブラリ一として既知のタンパク質一リガン ド複合体構造に依存しているため、 F Pライブラリ一に属するリガンドが減ると 精度が落ちるためと考えられる。
[結果と考察 (2) (Re s u l t a n d D i s c u s s i o n (2) ) : 133種のベンチマークの結果]
On o d e r a e t a 1 [参考文献 : O n o d e r a e t a 1 J - Ch em. I n f . Mo d e l . 2007, 47, 1609— 16 18] によって、 各ドッキングソフトを提供されている状態に近い状態でベンチ マークが行われている。 彼らによると標的タンパク質は、 GOLD [参考文献 : Ga r e t h e t a 1 J . Mo 1. B i o l . 1997 267,
727- 748] のベンチマークに使用されているタンパク質一リガンド複合 体 (P r o t e i n— L i g a n d c omp l e x) は、 133種の中で GO LD, DOCKでドッキングすることができなかったターゲット、 および、 Co r i n aで三次元座標を発生できなかったターゲットをのぞいた計 1 16種を用 いられている。 なお、 除かれた PDB I Dは、 1TPH, 1 TRK, 1 X 1 D, 4FAB, 6RSA, 1 BBP, 1 CTR, 1HYT, 1 PHG, 1 POC, 1 SNC, 1 TMN, 1 CDG, 1DR 1, 1 LDM, 4 CT S, 4 E STである(V i r t u a 1 S c r e e n i n g J. C h em. I n f . Mo d e l . 47, 1609— 1618 (2007
) ) o 各々のドッキングソフトのパラメータは各々 ドッキングソフトで提供されてい るパラメータを使用しており、 パラメータをターゲット用に最適化していない。 パラメータの最適化を行えば、もちろん成功率は変わると考えられる力 S、それは、
Ch o o s e LDにおいても同様であり、 Ch o o s e LD法においても、 標的 タンパク質に応じて変更可能パラメータ k 1, k 2, k 3値が定義されているの で、 最適化の余地が残っている。 そこで、 Ch o o s e LDの性能評価には方法 の項で述べられた値と 85セットで最適化をおこなった k 1値、 すなわち 4. 0 を用いた。
ここで、 Ch o o s e LDが使用するドッキングの条件は各ターゲットにおい て、 以下のように定めた。
1. 結合部位 (b i n d i n g s i t e)
結合部位 (b i n d i n g s i t e) は、 従来のベンチマーク [参考文献: On o d e r a e t a 1 J . C h e m. I n f . Mo d e l . 2 007, 47, 1609— 1618] に類似してネイティブ (Na t i v e ) のタンパク質一リガンド複合体 (P r o t e i n— L i g a n d c omp l e x) のリガンド (1 i g a n d) の各原子から半径 5. 0 A以内の距離に存在 する P r o t e i nの原子の球とした。
2. リガンドのコンフオメ一シヨン変化
133セッ卜のベンチマークではドッキングするリガンドを 3つ用意している。 すなわち、 C o r i n aで発生させたリガンドと、 C o r i n aで発生したリガ ンドのうちエネルギー最小構造 (以下 MI N Iとする) のものと、 そして PDB に登録されている状態の構造との 3つであり、 これらをそれぞれ 1 16の標的タ ンパク質に対して 1000個の予測を行っている (V i r t u a l S c r e e n i n g J . Ch em. I n f . Mo d e 1. 47, 1609— 1 618 (2007) ) 。 Ch o o s e LD法のドッキング性能試験においては コンフオメーシヨンをランダムに変化させ、 実験構造のタンパク質ーリガンド複 合体のリガンドから最も rms dが大きい構造で、 かつ上記で定義されたリガン ド結合部位から十分に離れた状態のリガンドを使用した。 すなわち、 実験構造を そのまま用いずに各 1 16の標的タンパク質に対して 10回の予測を行ったこと になり、 133セットを用いたベンチマークとほぼ同条件で行ったことになる。 これらの過程においてリガンドに水素が存在した場合は取り除かれる。
3. リガンドとのタニモト係数の範囲
使用するライブラリーリガンド (L I BRARY L I GAND) は、 候補リ ガンド (d o c k e d l i g a n d) と T cの範囲で、 その最大値である 0. 96, 0. 76および 0. 56は、 それぞれ、 ドッキングリガンドと非常によく 似ている化合物が存在するもの、 似ている化合物が存在するもの、 少し似ている 化合物が存在するものとに該当する。 そこで、 Tcの範囲には、 0. 96— 0. 08 (つまり答えを含まない) , 0. 76— 0. 08および 0. 56— 0. 08 に該当するものを用いた。
4. On o d e r a e t a 1は、 一つのリガンドに対して 1000回ド ッキングを行っている [参考文献: On o d e r a e t a 1 J. Ch e m. I n f . Mo d e l . 2007, 47, 1609— 1618] 。 今回の C h o o s e LDの性能評価では、 候補リガンド (d o c k e d : 1 i g a n d) を 10回ドッキングした。 すなわち 1 160回のドッキングを各々の T c R a n g eで行い計 3480回のドッキングをおこなった。 一回のドッキン グ試行において予測されたドッキング構造とネイティブなタンパク質一リガンド 複合体 (Na t i v e P r o t e i n-L i. g a n d Comp l e x) のリ ガンドとの rms dが 2. OA力、 それより良いならば成功とした。
図 28および図 29は、 133セッ トのベンチマークにおける DOCK, Au t oDo c k, GOLD予測構造の r m s d分布の結果と、 Ch o o s e LD法 の結果を示す図である。 Do c k i n g m e t h o dは各ドッキングソフトの 名前を意味している。 Ch o o s e LDは 3つの T c範囲について性能評価をお こなっている。 GOLDは、 GOLDS c o r e STD ( ' S t a n d a r d D e f a u 1 t S e t t i n g s ' w i t h GOLD S c o r e) , GO L DS c o r e L i b ( ' L i b r a r y S c r e e n i n g S e t t i n g s ' w i t h GOLD S c o r e) , GOLDCh emS c o r e STD ( S t a n d a r d D e f a u l t S e t t i n g s ' w i t h Ch e m S c o r e)の 3つのノ ラメーター (V i r t u a l S c r e e n i n g J · Ch em. I n f . Mo d e l . 4 7, 1 609— 1 6 1 8 (2 007) ) , Au t oD o c kそして DOCKの値は、 C o r i n aと M I N I の平均値とした。 このグラフより C h o o s e LDの r m s dが 2. 0 A以下 の構造を予測する性能は、 T c範囲が 0. 96〜0. 08なら GOLDとほぼ対 等である。 丁(;範囲が0. 76〜0. 08なら GOLDとほぼ対等力少し劣り、 T c範囲が 0. 56〜0. 08ならば、 DOCK, A u t o D o c kよりよいこ とが示された。
図 30および図 31は、 各ターゲットにおける全 1 0回のドッキング試行にお ける成功個数を記したものである。 なお、 図 30中の 「* 1」 は、 予測成功個数 が 5から 1 0個の PDB I Dの個数の全体に占める割合を示している。 85セッ トと同様に、 1 0回成功と 1 0回失敗の割合の二極化がおきているが、 1 0回失 敗の数がもっとも多いごとが示された。 また、 85セットに比べて、 10回成功 率が 20%近く下がっている。 これらのことから、 1 33セットは 85セットに 比べて、 ドッキングが難しいターゲットが多く含まれているものと考えられる。 85セットの医薬品的な化合物は分子量、 回転可能な結合数、 水素供与体、 水素 受容体の数がリピンスキーの 5ルール等で限定されているので、 その絞り込みの 影響により ドッキングしゃすレ、化合物が多く含まれるためであると考えられる。 図 32および図 33は、 T c範囲で限定された F Pライブラリーにおいて F P AS c o r eで順位付けされた分布内に実験構造との r m s dが 2. 0 A以下の 構造が得られる確率を示す図である。 すなわち、 順位が 1の場合は前述したその 他のドッキングソフトとの比較の成功率と一致する。 この結果も 85セットと同 様に全体の成功率が低下している。
図 34は、 予測成功構造の衝突個数の分布を示す図であり、 1 33セットにお ける予測構造と実験構造との rms dが 2. OA以下の構造における各々標的タ ンパク質との衝突個数の分布を示す。 衝突 0個の構造が 56. 0%で衝突 1個の 構造が 28. 7%であり、 計 84. 6%となっており、 FPAS c o r eの衝突 判定関数は経験的物理関数であるレナ一ドジヨーンズ型関数の衝突判定に相当す るものとして機能していることが示された。 85セット、 133セットとも同様 の傾向を示したことから、 衝突判定は十分機能していると考えられる。
図 35は、 FPライブラリ一に用いるリガンドの Tc範囲の上限値をさらに低 くし、 0. 16, 0. 24, 0. 36に下限値を 0. 08にした場合の性能およ び、 前述した Tc範囲、 すなわち上限値 0. 56, 0. 76, 0. 96、 下限値 0. 08の予測成功率を示す図である。 Tcの上限値を低くした場合は、 0. 2 4-0. 08で 133セットベンチマークにおける DOCK (21. 1%) と同 程度の予測精度であり、 0. 36— 0. 08で 133セットベンチマークにおけ る Au t oDo c k (26. 6%) と同程度の予測精度であることが示された。 (GOLDとの比較)
理研ベンチマークで GOLDが失敗したが、 本願発明者の方法ではドッキング でき、 かつ、 rms d 2. 0以下であった例を 2例示す。
ここで、 図 36は、 1DR 1について予測されたタンパク質一リガンド構造を 不す l≤dでめる (P r e d i c t e d p r o t e i n— l i g a n d c o m p l e x s t r u c t u r e f o r 1DR丄) 。
図 36における条件や値等は以下のとおりである。
PDB I D : 1 DR 1
T I TLE : CH I CKEN L I VER D I HYDROFOL ATE R EDUCTAS E
DOCKED L I GANSD : NADP
RMS D : 1. 743
F PA: S c o r e 1295. 553
CYAN (図中央のシアン (淡い水色) ) :実験 (X線結晶解析) 構造 (An s we r) (以下も同じ。 )
GREEN (図中央の濃い緑) :予測のリガンド構造 (P r e d i c t e d 1 i g a n d S t r u c t u r e) (以下も同じ。 )
Th e o t h e r (その他) :結合部位 (t h e b i n d i n g s i t e ) (以下も同じ。 )
すなわち図 36は、 PDB I D ; 1 DR 1に対する本実施例の予測構造を示し ている。 これは GOLDが予測に失敗した標的タンパク質、 すなわち 133セッ トのベンチマークから除外されたターゲットである (V i r t u a l S e r e e n i n g J . C h e m. I n f . Mo d e 1. 47, 1609— 1618 (2007) ) 。 本実施例の Ch o o s e LDは、 予測構造と実験構 造の rm s dが 1. 74 Aであり、 予測に成功した。 これは、 リガンドに存在す る環構造が FPライブラリーにも多く含まれていたためであると考えられる。 また、 図 37は、 4 ESTについて予測されたタンパク質一リガンド構造を示 す図でめる ^P r e d i c t e d p r o t e i n— 1 i g a n d c omp l e x s t r u c t u r e f o r 4EST) 。
図 37における条件や値等は以下のとおりである。 - PDB I D : 4 E ST
T I TLE : CRYSTAL STRUCTURE OF THE COVA LENT COMPLEX FORMED BY A PEPT I DYL ALPHA, AL PHA-D I F LUORO
-BETA-KETO AMI DE WI TH PORC I NE
PANCREAT I C E LAS TAS E AT 1. 78— A
NGSTROMS RESOLUT I ON DOCKED L I GAND : I NH I B I TOR ACE-* ALA-* P RO-* VAL-*D I F LUORO- *N-* PHE YL ETHYL ACE
T AM I DE RMSD: 1. 729
F PAS CORE : 451. 291
すなわち、 図 37は、 PDB I D ; 4 E STに対する本実施例の予測構造を示 しており、 これは GOLDが予測に失敗した標的タンパク質であり、 133セッ トのベンチマークから除外されたターゲットである (V i r t u a l S e r e e n i n g J . C h e m. I n f . Mo d e l . 47, 1609— 1618 (2007) ) 。 Ch o o s e LDは、 予測構造と実験構造の r m s dが 1. 73 Aであり予測に成功した。 これはドッキングするリガンドがぺプチ ド性リガンドであったこともあり、 F Pライブラリ一に含まれるぺプチド性リガ ンドの主鎖の炭素、 窒素、 酸素が主に使用されたためであると考えられる。
[結果と考察 (2) (Re s u l t a n d D i s c u s s i o n (2. 1) ) :予測された構造結果 (r e s u l t o f p r e d i c t e d s t r u c t u r e )
既存のドッキングソフト (GOLD, DOCK) が失敗したすべてのドッキン グの例を 4例示す。
ここで、 図 38〜図 41は、 GOLDが失敗したが C h o o s e LDは予測に 成功したターゲットを示す図である。
図 38における条件等は以下のとおりである。
1 CDG
T I TLE :
NUCLEOT I DE SEQUENCE AND X— RAY STRUCT URE OF
CYCLODEXTR I GLYCOSYLTRANSFERASE FR OM BAC I LLUS C I RCULANS STRA I N
251 I N A MA L T O S E— D E P E ND E NT CRYSTAL
FORM
また、 図 39における条件等は以下のとおりである 1 DR 1
2. 2 ANGSTROMS CRYSTAL STRUCTURE OF C H I CKEN L I VER D I HYDRO FOLATE
REDUCTASE COMP LEXED WI TH NADP+ AND B I OPTER I N
また、 図 40における条件等は以下のとおりである。
1 LDM
REF I NED CRYSTAL STRUCTURE OF DOGF I SH
M4 APO— LACTATE DEHYDROGENASE
また、 図 41における条件等は以下のとおりである。
4 E ST
T i t l e CRYSTAL STRUCTURE OF THE COVA LENT COMP LEX FORMED
BY A PEPT I DYL ALPHA, AL PHA-D I FLUORO-B ETA-KETO AMI DE WI TH PORC I NE
PANCREAT I C E L AS TAS E AT 1. 78— ANGSTROM
5 RESOLUT I ON
(GL I DEを含めた比較)
G l i d e (J. Me d. Ch em. 47, (2004) 1 739 - 1749) はフレツキシブルリガンドドッキングソフトであり、 本実施例の方 法の内で GOLD等との予測精度の比較を行っている。 図 42は、 133セット 中における 90ターゲットにおける予測成功率を示す図表である。 但し、 上表の 予測成功率の算出法は各ドッキングソフトによって異なる。 すなわち、 GOLD は各ターゲッ卜に対して遺伝的アルゴリズムによる最適化を 20回行った場合の 結果( t h e b e s t o f GA 20 r un) (h t t p : / / www. c e d e. c am. a c - u k/p r o du c t s/1 i f e一 s c i e n c e s/v a l i d a t e/g o l d v a l i d a t i o n/v a l u e, h tm 1) であり、 Ch o o s e LDは各ターゲットに対して 10回ドッキングを行い FPAS c o r e上位 2個選び、 べストの構造を選択した。 G 1 i d eのドツキ ング性能の検証には記載が無いので GOLDに準ずると考えられる。 133セッ トのベンチマークの結果において、 GOLDの予測成功率が 45%程度であった 事実からドッキング条件および予測構造の選択法によつて予測成功率が大幅に変 動すると考えられる。
(予測成功標的タンパク質の分布)
図 43は、 ドッキングソフト間の予測に成功した標的タンパク質の PDB I D の類似度を Tc (タニモト係数) で算出した図表である。 ここで、 133セット の中における 90セットにおける、 それぞれの標的タンパク質に関して、 両方の ドッキングソフトが予測に成功した場合、 Tc計算式の aを加算し、 片方のみが 予測に成功したのなら bもしくは cを加算する。
図 43に示すように、 G 1 i d e, GOLD, F 1 e xX (J. Mo 1. B i o 1. 261, 470-489 ( 1996 ) ) ) 間の T cが 0. 61〜 0. 65であるのに対して Ch o o s e LDとその他のドッキングソフト間では 0. 47〜0. 55程度であった。 予測成功率は GOLD, G 1 i d e, C h o o s e LD間で顕著な差が無いことも考えると Ch o o s e LDはその他のドッ キングソフ卜に比較し、 予測が成功する標的タンパク質の分布に独自性があるこ とが示された。
また、 図 44は、 90ターゲット中の一つの標的タンパク質に対する各ドツキ ングソフ卜の予測の成否分布を示す図表である。 一方のドッキングソフ卜が予測 可能なターゲットは多く存在し、 現状では、 すべての標的タンパク質の予測に成 功するドッキングソフトは無いと言うことになつた。 このような背景のもと、 複 数のドッキングソフトを用いることを前提に、 ドッキングソフトのスコアによつ て予測構造を選択するのではなく、 予測された標的タンパク質一リガンド複合体 構造から、 水素結合等のタンパク質との相互作用情報をもちいて、 より実験構造 に近い予測構造を選択する研究が多く行われている (Eu r o p e a n J o u r n a 1 o f Me d i c i n a l Ch em i s t r y 42, 966 -976 (2007) 、 J . Me d. C h e m. 47, 337— 34 4 (2004) ) 。
ここで、 図 45〜図 47は、 DOCKが失敗したが Ch o o s e LDは予測に 成功したターゲットを示す図である。
ここで、 図 45における条件等は以下のとおりである。
1 HYT
RE-DETERM I NAT I ON AND REF I NEMENT OF T HE COMPLEX OF BENZYL SUCC I N I C AC I D WI TH THERMOLYS I
N AND I TS RELAT I ON
TO THE COMPLEX WI TH CARBOXYPEPT I DAS E A
また、 図 46における条件等は以下のとおりである。
1 PHG
CRYSTAL STRUCTURES OF ME T Y R A P ON E— AND
PHENYL IMI DAZOLE- I H I B I TED
COMPLEXES OF CYTOCHROME P 450 -CAM
また、 図 47における条件等は以下のとおりである。
1 TMN
B I ND I NG OF N- C A R B O X YME T H Y L D I PEPET I D E I NH I B I TORS TO THERMOLYS I N DETERMI NED BY X-RAY CRYSTALLOGRAPHY. A NOVEL CLAS S OF TRANS I T I ON-STATE AN ALOGUES FOR Z I NC PEPT I DASES
[結果と考察 (3) (Re s u l t a n d D i s c u s s i o n (3) ) : 許可された r a n k r a n g eの結果 (r e s u l t o f a c c e p t e d r a nk r a n g e) ]
図 48は、 1位だけではなく 1◦位までに r m s d 2. 0の構造が採取できる 割合を示す図である。 図 48に示すように、 10位まで採取すると、 6割以上が r m s d 2. 0以下でドッキング可能である。
また、 図 49は、 1位だけではなく 10位までに r m s d 2. 5 (C l o s e ) の構造が採取できる割合を示す図である。
[結果と考察 (4) (Re s u l t a n d D i s c u s s i o n (4) ) : 成功とみなせる r m s dの結果 (r e s u l t一 rms d一 r e g a r d一 a s ― s u c e e s s) 」
成功と定義する r m s dを変化させる。 理研ベンチマークとの比較の際には、 成功と定義する予測構造の正解構造との rms dを 2. OAとしたが、 そのほか の数値 (1. 5, 2. 5, 3. 0, そして 3. 5) を示す。 3. 5 Aであれば、 その予測リガンド構造はほぼリガンド結合部位の近傍に存在すると考え、 その構 造を分子動力学や、 量子化学計算の初期構造として用いることができるためであ る。 図 50は、 成功と定義する rms dを変化させた場合を示す図表である。 図 50に示すように、 3. 5 A以内に予測できた構造は、 T c Ra n g e 0 . 56-0. 08 (即ち少し似ているリガンドがライブラリーに存在する場合) において 68. 9 %であった。つまり、類似した化合物の実験構造が存在すれば、 この精度でドッキング構造が少なくともリガンド結合部位近傍に予測可能である ことを意味している。
また、 Tc Ra n g e 0. 96-0. 08 (即ち、 かなり似たリガンドが ライブラリ一に存在する場合) においては、 7割の程度がリガンド結合部位に存 在することを示している。
ここで、 ドッキングの成功の定義としての r m s d 2. 0という数値は、 様々 なベンチマーク [参考文献: Ga r e t h e t a 1 J. Mo 1. B i o 1. 1997 267, 727- 748] , [参考文献: M i c h a e 1 e t a 1 J . Me d. C h e m. 2007, 50, 726— 7 4 1] , [参考文献: On o d e r a e t a 1 J . C h e m. I n f .
Mo d e 1. 200 7, 4 7, 1 609— 1 6 1 8 ] などにおける基本 的な評価基準である。 し力 し、 実際には、 rm s dが 2. 0より大きいケースで も、 MD, QMなどの最適化を行えば、 精度よくタンパク質一リガンド複合体 (P r o t e i n— L i g a n d c o m p 1 e x )の構造を予測し得る。即ち、 これらの成功と定義する rm s dを示すことは、 MD, QM研究者が複合体構造 の最適化のための初期構造を選ぶ際の、 有用なデータとなる。 つまり、 最適化に 力、力、る時間 s h o t t i me 1 00 p s , l o n g t i me I n s a n d s o o n)または最適化するリガンド結合部位の範囲( 5 A, 1 OA a n d s o o n) を見積もる場合の参考になると考える。
[結果と考察 (5) (R e s u l t a n d D i s c u s s i o n (5) ) : 理想的な方法 (m e t h o d一 i d e a 1 ) ]
主に考察(D i s c u s s i o n)を以下に再び図 8を参照しながら記述する。 すなわち、 本実施例では、 リガンドのパーツである F Pのコンフオメーシヨン が相互作用した構造として最も安定であるとの仮定をたてる。 本実施例の FPの 標的タンパク質との相互作用とは、 タンパク質と近い距離にある FPを疎水性相 互作用、 水素結合相互作用および、 ファンデルワールス相互作用といったェンタ ルビー的相互作用と解釈し、 また、 タンパク質と遠い距離にある F Pを溶媒との 相互作用といったェントロピー的相互作用と解釈する。
つまり、 本実施例においては、 最終的に F Pのコンフオメーシヨンを使って、 基底として化合物 (Ch em i c a 1. C o m p o u n d ) が最も安定なドツキ ング構造をとる場合、 タンパク質リガンド相互作用において最も安定な自由エネ ルギーをとると言うことに相当すると仮定されている。
すなわち、 重なりのよい類似タンパク質由来の結合リガンド (1 i g a n d) 群から抽出した F P配置は、 タンパク質との相互作用の自由エネルギーを含んで いる。
ここで、 一つの標的タンパク質がある場合、 多くのリガンドを集めるためにホ モロジ一または、 e— V a 1 u eの低い類似タンパク質を利用するが、 これら機 能的分類に縛られない広義のフアミリータンパク質は活性部位近傍が少しの構造 変化と、 アミノ酸残基の変化を伴い、 7アミリータンパク質から抽出した FPが 自由エネルギー安定の仮定を満たされない可能性も当然考えられる。
そのため、 この欠点を補う必要があり、 ファミリータンパク質から抽出した F Pを、 標的タンパク質との相互作用においてより自由エネルギーが安定になる F Pに変えて、 "Mo d i f i e d F P" とし信頼性の少し落ちた F Pとして採 用する。 これには 3D— 1 D法の P r o g r amを修正して対応する。 この Mo d i f i e d F Pの作成を標的タンパク質に対して行えば、 まだ見つかつてい ない新規骨格のリガンドを考慮したことに相当し、 標的タンパク質に結合した既 知のリガンドょりも活性の高い化合物を見つけられる可能性がある。
一方、 複数の結合化合物の原子相互作用の共通領域の F Pは、 ファミリータン パク質が似たような複数の化合物と結合するという重なりを重視しており、 生物 化学的情報やエネルギー計算により原子の存在の可能性がある場合に与えられる "C r e a t i v e F P " よりも実験情報を反映した F Pを得ることができる —と考える。
[他の方法 (MD, QM) のタンパク質一リガンド複合体の最適化 (P r o t e i n— L i g a n d Comp l e x Op t im i z e f o r o t h e r me t h o d (MD, QM) ) ]
従来の古典物理学的エネルギーによって予測されたタンパク質一リガンド複合 体 (P r o t e i n— L i g a n d c omp l e ) の構造に対して、 既知の タンパク質一リガンド複合体 (P r o t e i n— L i g a n d c omp l e x ) の構造の情報を用いて、 上記の方法で得られたドッキング構造の順位付け、 ク ラスタリングが行われている [参考文献: Z h a n e t a 1 J. Me d. Ch em. 2004, 47, 337— 344] 。 これらのことは、 既存 のドッキングソフトによる出力は、 実験情報を確実には反映していない構造を出 力することを意味している。 一方で、 予測されたタンパク質一リガンド複合体 (P r o t e i n— L i g a n d c omp l e x) の構造を AMBER, CHARMMを用いた MD (参 考文献:それぞれ、 C a s e, A. D. , Ch e a t h am I I I, E . T. , Da r d e n, T. , Go h l k e, H. , L u o, R. , Me r z J r. , M. K. , O n u f r i e v , A. , S i m me r l i n g, C. , Wa n g, B. & Wo o d s, J. R.
Th e Amb e r B i omo l e c u l a r S i mu l a t i o n P r o g r ams J C o m p u t C h e m 26 1668— 1688 ( 2005) , B r o o k s, R. B, B r u c c o l e r i , E. R . , O l a f s on, D. B. , S t a t e s, JL D. , S w am i n a t h a n, S. & Ka r p l u s, M. CHARMM: A p r o g r am f o r ma c r omo 1 e c u l a r e n e r g y, m i n i m i z a t i o n, a n d d yn am i c s c a l c u l a t i o n s J. Comp. C h e m. 4 187— 21 7 (1983) ) または QM (参考文献: Kam i y a K, Su g awa r a Y, Urn e y a m a ~H. J . Comp u t. C h e m. 2003, 24, 8 26-841) で最適化する試みもなされている。 これらの MDや QMなどの方 法では、 ドッキングやインシリコスクリー;ングを行うのは計算量が大きすぎる ため、 真 (Na t i v eと言う意味で) のタンパク質一リガンド複合体 (P r o t e i n-L i g a n d c o m p 1 e x ) の構造からある程度近い位置にリガ ンドをドッキングし、 それを初期構造とする必要がある。
その初期構造を得るために既存のドッキングソフトを用いるのだが、 前に述べ た物理エネルギーを主体にしているため、 物理エネルギーによる最適化を繰り返 すことになる。
一方、 本実施例による手法は、 既知のタンパク質一リガンド複合体 (P r o t e i n— L i g a n d c omp l e x) の情報を主に使用しておりバイオイン フォマテイクスの観点と物理エネルギーによる観点を考慮することが可能であり、 また、 本実施例で用いた P D Bの構造情報といったバイオインフォマティクス情 報は、 年ごとに蓄積されるものなので、 医学的に興味あるタンパク質一リガンド 複合体 (P r o t e i n— L i g a n d Comp l e x) は多くの研究者によ つて研究され、 これらの予測構造の最適化にも有用であると考える。
[結論 (Con c l u s i o n) :本手法の性能]
図 51は、本実施例による処理の結果を示す図表である。図 51に示すように、 本実施例による手法を用いれば、 T 85 s e tをドラッガブルタンパク質 (D r u g g a b l e— p r o t e i n) に対して、 ドラッグ様リガンド (D r u g g l i k e l i g a n d) をドッキングした場合、 T c Ra n g eが 0. 5 6-0. 08, 0. 76-0. 08, 0. 96— 0. 08の場合それぞれ、 G o o dの構造を得る確率は、 58. 9, 62. 1そして 65. 2%であり、 C l o s eの構造を得る確率は、 それぞれ、 68. 6, 72. 1, 72, 4%であった。 また、 ドラッガブル標的タンパク質 (Dr u g g a b 1 e_Ta r g e t P r o t e i n) に对して、 様々なリガンド ( 1 i g a n d) をドッキングした場 合の性能は、 Tc Ra n g eが 0. 56— 0. 08, 0. 76— 0. 08, 0. 96-0. 08の場合それぞれ、 G o o dの構造を得る確率は、 40. 1, 44. 8, そして 46. 4%であり、 C 1 o s eの構造を得る確率はそれぞれ、 53. 2, 57. 8そして 59. 3%であった。 そしてこれらの性能は既存のドッキン グソフ卜とほぼ同等の' 14能であることを示した。
標的タンパク質とリガンドが共に医薬品的な (d r u g g a b 1 e) 化合物を 含んだトレーニング計算の結果から、 標的タンパク質と任意のリガンドの相互作 用スコアが 10番目までのコンフオメーシヨンを考察すれば、 標的タンパク質全 体の 83% (図 21の◦. 96— 0. 08、 10位までの値) に対して、 正解に 対して良いモデルを与えるという 2. 0Aの範囲の答えを含んだリガンド構造が 一つは見つかるので、 目視をして良い構造を探す価値があるということになる。 —方、 標的タンパク質と任意のリガンドの相互作用スコアが 10番目までのコ ンフオメーシヨンを考察すれば、 標的タンパク質全体の 88% (図 22の 0. 9 6-0. 08、 10位までの値) に対して、 正解に対して良いモデルと似ている モデルを与えるという 2. 5 Aの範囲の答えを含んだリガンド構造が一つは見つ かるので、 目視をして良い。 構造または似ているモデル構造を探す価値があると いうことになる。
また、 標的タンパク質はドラッガブル (d r u g g a b l e) であり、 リガン ドは種々の低分子化合物を含んだトレーニング計算の結果から、 標的タンパク質 と任意のリガンドの相互作用スコアが 10番目までのコンフオメーシヨンを考察 すれば、 標的タンパク質全体の 65% (図 48の 0. 96— 0. 08、 10位ま での値) に対して、 正解に対して良いモデルを与えるという 2. OAの範囲の答 えを含んだリガンド構造が一つは見つかるので、 目視をして良い構造を探す価値 があるということになる。
一方、 標的タンパク質と任意のリガンドの相互作用スコアが 10番目までのコ ンフオメーシヨンを考察すれば、 標的タンパク質全体の 76% (図 49の 0. 9 6-0. 08、 10位までの値) に対して、 正解に対して良いモデルと似ている モデノレを与えるという 2. 5 Aの範囲の答えを含んだリガンド構造が一つは見つ かるので、 目視をして良い構造または似ているモデル構造を探す価値があるとい うことになる。
従来、 物理学的相互作用関数で当該標的タンパク質と仮想化合物ライブラリー 低分子化合物の相互作用を計算していたところ、 本実施例は、 バイオインフォマ テイクスの情報を使つて半経験的に計算している点で従来手法と異なっており、 さらに構造予測の成功率は世界で認められているドッキングソフトプログラム G OLDと比べて優れる高い効果もあり、 また、 年々高まっている情報の蓄積が、 半経験的バイオインフォマテイクス手法の当該相互作用計算の結果を良いほうに 導くので、 有用性も大きく従来手法と異なる効果を奏する。
また、 本実施例は、 標的タンパク質と種々の低分子化合物との相互作用のスコ ァ化によって得られたコンフオメーシヨンを、 分子動力学計算式を内包したドッ キングプログラムである DOCKや Au t o D o c kや GOLDにおいて、また、 分子動力学計算プログラムである Am b e rや Ch a rmなど既存のドッキング ソフトの初期コンフオメーシヨンとして用いることができる。 これは、 本実施例 において得られた初期コンフオメーションが簡便に得られるのに加えて、 実験を 再現する精度が高いので、 他のソフトプログラムとの組み合わせによって、 有用 な結果を得られる。
また、 本実施例は、 標的タンパク質の立体構造に類似しているファミリ一高分 子タンパク質セッ卜に結合した種々の低分子化合物データベースである CE 1 i D (F P (f i n g e r p r i n t) s e t e x t r a c t e d f r om c o l l e c t e d l i g a n d s i n t h e b i n d i n g s i t e (結合部位のリガンド集合から抽出された化合物指紋セット) ) を基に、 任意の F P ( f i n g e r p r i n t) を使う計算の過程で、 標的タンパク質の立体構 造を解析して活性部位を指定することを必要としない方法とすることができる。 従来手法では、 安定コンフオメーシヨンが高いスコアを持つようにするために、 DOCKや Au t o D o c kや GOLDなど既存のドッキングソフトを使っての ドッキング計算において、 予め標的タンパク質の立体構造を解析して活性部位を 指定することをする必要があつたが、 これらに比べて、 本実施例は、 従来手法と 異なる高い効果を有し、 文献等の学習を通じて活性部位を指定する必要がなく有 用である。 本実施例による方法は、 バイオインフォマティクスの観点から既知のタンパク 質リガンド複合体 (P r o t e i n— L i g a n d C omp l e x) の相互作 用情報を定義したスコアを用いて的確にドッキングシミュレーションに反映する ことに成功した。
従来からも既存のドッキングソフ卜の出力を既知のタンパク質リガンド複合体 (P r o t e i n-L i g a n d C omp l e x) の情報をドッキングシミュ レーシヨンに加えることにより、 精度を上げるこころみは行われているが、 これ らの方法では、 研究者の歙智と実践に依存しており一般性がない。 本実施例による手法は、 相同性 (Homo l o g y) 検索および立体構造重ね 合わせを自動でおこない、 さらに、 本手法で提示されたスコア関数を用いること により、 精度よく ドッキング構造を得ることができた。
これらのことにより、 研究者によるヒューマンインタべーシヨンを多く必要と せず広く使用できる。 また、 本手法で提示されたスコア関数は既存のドッキング ソフトと組み合わせることも可能である。
すなわち、 本実施例による方法は下記の三点においてきわめて有用である。 本実施例による手法は、 バイオインフォマティクスの観点から既知のタンパク 質一リガンド複合体 (P r o t e i n— L i g a n d Comp l e x) の相互 作用情報を的確にドッキングシミュレーシヨンに反映できるところが従来手法と は異なる。 更に、 本実施例による手法は、 リガンドに適切な物理量、 距離拘束と いったパラメータを受容体との相補性、 および既知リガンドのコンフオメーショ ンおよび原子種を考慮して自動的に付カ卩できるという高い効果を発揮し、 当然こ れらのことは新医学的、 生物学的に重要な標的タンパク質とリガンドの相互作用 のバイオインフォマティクス情報は年ごとに蓄積するので新規骨格医薬品もしく は類似骨格の探索にきわめて有用である。 さらにテニラーメイ :ド医療時代の到来 で実験情報が豊富な標的タンパク質のドラッグデザィン (D r u g De s i g n) が必要になるので、 本実施例による方法は、 きわめて有用である。
[実施例 2]
実施例 2として、 EGFR (Ep i d e rma l g r owt h f a c t o r r e c e p t o r) を標的タンパク質とした場合の k 2と k 3の最適化とィ ンシリコスクリーニングについて以下に説明する。 ここで、 図 52は、 EGFR からの細胞内シグナル伝達経路を示した図である。
上記実施例 1の C h o o s e LD法において定義された F PAS c o r eスコ ァの k 2, k 3値は標的タンパク質に応じて最適化可能な係数として定義した。 そこで、 標的タンパク質に対して有効に機能するかどうか検証を行った。 上皮増 殖因子受容体フアミリーである EGFRは癌治療において、 重要な阻害標的とな つている (J. B i o l . C h e m. 277 46265-46272 ( 2002) , Ce l l 125 1 137— 1 149 (2006) ) 。 そのた め、 EGFRを標的タンパク質として用いて、 インシリコスクリーニングをおこ なった。
(EGFRの立体構造構築)
EGFRのアミノ酸配列は NCB I (Wh e e 1 e r , D. L. e t a 1. , Nu c l e i c Ac i d s Re s. (2007) No v 27 ) ACCESS I ON I D P 00533を使用し、 铸型を P D B I D 1M 17の A鎖とした。 ァライメントは図 53に示すものを使用した。 図 53は、 E GFRのアミノ酸配列のァライメントを示す図である。
ホモ口ジ一は約 99 %であり、 立体構造を予測するよりはむしろ、 1 M 1 7の C末端の残基欠損を補うことを目的としている。 上記ァライメントを用いてホモ ロジーモデリングソフト FAMS L i g a n d & Comp l e x (P r o t e i n s, S u p p 1 7 122- 127 ( 2005 ) ) を用いてモデ ノレを構築した。ここで、図 54は、構築された EGFRのモデルを示す図である。
C I RC LEスコア (T e r a s h i , G. e t a 1. P r o t e in s, (2007) ) は 71. 367であった。 なお、 铸型の 1M17一 Aの スコア 82. 1 10はであった。 C I RCLEスコアは PDB等から得られた実 験構造座標データベースに所属するタンパク質の X線構造から得られた統計的ポ テンシャルであり、 スコアが正の方向に大きいほど既知のタンパク質 X線構造の 環境を満たしていることになり、 すなわち、 X線構造に近いモデルであると言え る。
(EGFR特異的 F Pライブラリ一の構築)
実施例 2の Ch o o s e LD法に従い得られた FPライブラリーとして用いた リガンドの PDB I Dは下記の通りである。
1AD5, 1 AGW, 1 BYG, 1 E 9 H, 1 FG I, 1 F I N, 1 FPU, 1 FVV, 1 GAG, 1H1 P, 1 H 1 Q, 1 H 24, 1H25, 1 H 26 , 1 H 2 7, 1 1 44, 1 I EP, 1 I R 3, 1 J P A, 1 J QH, 1 K 3 A, I KS W, 1M1 7, 1M52, IMP 8, 1MQB, l OEC, 1 OGU, 10 I 9, 1 O I U, 1 OP J , 1 OPK, 1 OP L, 1 PF 8, 1 PKG, 1 QC F, 1 QMZ, 1 QPC, 1 Q PD, 1 QPE, 1 QP J, 1 R 0 P, 1 RQQ, I S M2, 1 SNU, 1 T46, 1 U4D, 1 U 54, 1 U 59, 1 UWH, 1 UW 】, 1 VYW, 1 XB B, 1 XBC, 1 XKK, 1 Y 5 7, 1 Y 6 A, 1 Y6 B, 1 YKR, 1 YOL, 1 YOM, 1 YV J , 1 YWN, 2 B 54, 2 B 7 A, 2 BDF, 2 BD J , 2 BKZ, 2 B PM, 2 C 0 I , 2 C 0 O, 2 C 0 T, 2 C 4 G, 2 C 5 N, 2 C 5 O, 2 C 5 P, 2 C 5 T, 2C 5V, 2 C 5 X, 2DQ 7, 2 E 2 B, 2 ETM, 2 EVA, 2 EXM, 2 F 4 J , 2 FB 8, 2 FG I , 2 FO 0, 2 G 1 T, 2 G 2 F, 2G 2H, 2 G 2 I , 2 G 9 X, 2 GNF, 2 GNG, 2 GNH, 2 GN I , 2 GQG, 2GS 6, 2GS 7, 2H8H, 2H CK, 2HEN, 2H IW, 2HK5, 2HWO, 2HWP, 2HYY, 2HZ 0, 2HZ 4, 2HZ I , 2 HZN, 2 I OV, 2 I OY, 2 I 1 M, 2 1 40, 2 I TN, 2 I TO, 2 I TP, 2 I TQ, 2 I TT, 2 I TU, 2 I TV, 2
1 TW, 2 I TX, 2 I TY, 2 I TZ, 2 I VS, 2 I VT, 2 I VU, 2 I VV, 2 IW6, 2 I W8, 2 I W9, 2 J 0 J , 2 J OK, 2 J 0 L, 2 J 0 M, 2 J 5 F, 2 J 6M, 2NRU, 2NRY, 2 OF 2, 20F4, 2 OFU,
2 OF V, 2 OG 8, 2 O I Q, 20 J 9, 2008, 2 OS C, 20ZO, 2 P OC, 2 P 2H, 2 P 2 I , 2 P 4 I , 2 SRC, 2UUE
( I C 50既知化合物の入手)
B I OMOL (h t t p : //www. b i o m o 1. c o m/) の We bサ ィトから EG FRを競合的に阻害し、 I C 50値が既知の化合物の平面構造を 1 1個入手した。 図 55は、 入手した 1 1個の阻害剤の平面構造を示す図である。 図 55において、その化合物の平面構造に対応付けて、 I C 50値を示している。 これらの化合物の三次元座標は、 Ch em3Dを用いて立体構造を発生させたの ち、 C h e m 3 D付属のエネルギー最小化計算を行ったものを使用した。 (EGFRのインシリコスクリーニングのための k 2, k 3値を最適化) F P AS c o r eの k 2値を 0. 5から 5. 0の範囲で変更し、 MDL Co mp r e h e n s i v e Me d i c i n a l し h em i s t r y (MD L CMし) L i b r a r y (Symy x Te c hn o l o g i e s, I n c. Co r p o r a t e Ad d r e s s : 3100 Ce n t r a 1 Ex p r e s swa y, S a n t a C l a r a, CA 95051) を EGFR に活性のないダミー化合物と仮定し、 既知の阻害剤がそれらの化合物に比べて上 位に順位付けされるかといつた実験を行った。
図 56は、 F PAS c o r eで定義された k 2値を 0. 5から 5. 0の範囲に 変更した際の収穫率折れ線グラフを示す図である。 このとき k 3値は 1. 0とし た。 r a n d omの直線は、 ランダムに母集団から化合物を選択した場合に既知 阻害剤が得られる推定順位の直線であり、 この直線からより下位に折れ線が描け るのならば、 FPAS c o r eでの順位付けにおいて上位に阻害剤を検出できる 能力が高いということになり、 すなわちインシリコスクリーユングの性能がよい ことを意味する。 1^ 2値が0. 5, 1. 0, 5. 0の場合、 化合物の出現順位が 6から折れ線が上昇を始めている。 k 2値が 2. 0, 3. 0の折れ線を比較する と、 9, 10位において 2. 0の線がより、 収穫率が良好であった。 そこで、 k 2値を 2. 0とした。
図 57は、 F P AS c o r eにおける k 3値を 0. 5から 2. 0の範囲に変更 した際の収穫率折れ線グラフを示す図である。 このとき k 2値は 1. 0とした。 どの k 3値においても、おおむね同様の直線を得られた力 k 3値が 0. 5, 2. 0の場合は、 順位が 10, 1 1において、 折れ線が上昇しているため k 3値 1. 0を最適 ί直とした。
(T c 下限値の最適化)
F Ρライブラリーにふくめるリガンドの T cの下限値を設定した。 Tcの下限 値を限定することにより、ドッキングリガンドに類似しない化合物を除外できる。 収穫率折れ線が最適になるような T c下限値を決定じた。 図 58は、 丁 0:上限値を1. 00とし、 Tc下限値の範囲を 0. 08から0. 32まで 0. 08刻みで変化させた場合の、 それぞれの T c範囲におけるインシ リコスクリーニングの結果を示す図であり、 活性既知化合物の出現個数が横軸、 F PAS c o r eによる順位が縦軸となっている。 T c下限値が 0. 24の場合 において、 出現個数 1から 6個において X軸に這うような良好な折れ線となって いることから、 この値を最適な T c下限値とした。 なお、 丁。下限値0. 32時 における折れ線は出現個数 2個付近から急激に上昇している。 これは、 Tc下限 値による絞り込みで FPライブラリ一に使用すべきリガンドを除外してしまった ためであると考えられ、 インシリコスクリーニングにおいて、 単にドッキングリ ガンドと類似している F Pをもったリガンドだけを含めたとしても成功しないと いうことを意味していると考える。
図 59は、 PDBに登録されているタンパク質一リガンド複合体構造既知の P DB I Dとそのリガンドの順位付けを示す図である。 図 60は、 図 59のリガン ド I Dと化合物名を対応付ける図である。 図 59に示すように、 順位付けを行つ たリガンドには、 EG FR阻害剤も含まれる。 これらのリガンドは F Pライブラ リーに含まれているので、 これら由来の FPが FPァライメントの際に主に使用 され、 FPAS c o r eが高くなり上位にランクインしたと考えられる。 Tc下 限値が 0. 24のインシリコスクリーニングにおいて、 0. 08の場合と比較し て、 これらのリガンド出現順位が分散しているが、 タンパク質一リガンド複合体 構造が解明されていない EGFRに対する I C 50既知の化合物は T c下限値 0.
24の時が良好な収穫率カーブを描いていたことから、 丁 0下限値0. 24が最 適であると考えた。
(インシリコスクリーニングの結果)
k 2 = 2. 0, k 3値 = 1. 0, 丁。下限値=0. 24とした時の EGFRィ ンシリコスクリーニングの結果を以下に示す。 上位 100構造において、 97構 造がリン酸原子を含む A TP誘導体であった。 そこで、 下記の絞り込みをおこな つた。 (1) 分子量 350以上 800以下の分子、 リンを含む分子を除外
(2) 重要な水素結合をしない分子を除外 (METの主鎖の窒素)
(3) タンパク質原子とリガンド原子の衝突 2. OA以下が存在するドッキング リガンド分子を除外
図 61および図 62は、 K i n a s eのインシリコスクリーニングによる絞り 込みの結果の上位 10位のタンパク質一リガンド複合体を示す図である。 なお図 62は図 61を別角度から見たものである。 キナーゼ (K i n a s e) ドメイン の空間内における立体構造相補性を満たし、 かつ、 相互作用に重要な水素結合を 満たす構造が F PAS c o r eによるランキングに存在したことになり、 本実施 例の Ch o o s e LD法がインシリコスクリーニングによる阻害剤探索にも有用 であることが示された。 なお、 これらの試薬は購入可能であり、 活性値を測定す ることが可能である。 し力 しながら、 FPAS c o r eによる順位付けは、 標的 タンパク質の活'性阻害の強さを直接あらわしているスコアではないため、 FPに 与えるスコアを F P構築法に依存して一律に与えるのではなく、 結合定数の大き さも反映できるようなスコアに改良することも可能であると考える。
[適用例]
上記実施例 1, 2にかかる Ch o o s e LD法を様々な標的タンパク質に対し て適用した結果を以下に示す。 これらの結果は、 実験による証明が必要である。 一例目は、 EG FRの二量体形成阻害剤探索に関するものである。 二例目は、 V EGF 2に対する KRN633, KRN 951の複合体構造の予測に関し、 タン パク質ーリガンド複合体構造の予測は X線構造解析による証明が必要である。 三 例目は、 マラリアに対するインシリコスクリーニングに関しても、 結合実験によ る証明が必要である。
(EGFRの TGF α結合ドメイン阻害剤のインシリコスクリーニング) 図 52で示したように、 EG FRは二量体を形成することにより、 シグナルを 伝達することが知られている (Na t. Re v. Ca n c e r. 4, 3 61 -370 (2004) ) 。 リガンドとして E G F Rに結合する T r a n s f o rm i n g Gr owt h F a c t o r a (T G F— a ) fま EGFR力 s 複合体を形成するために必要なペプチドである。 すなわち、 EGFRのTGF— a結合ドメインの阻害剤開発は創薬のターゲットとなる。 そこで、 Ch o o s e LD法を用いて、 EGFRの TGF— a結合ドメインに対するインシリコスクリ 一二ングを行った。 EGFRの立体構造は PDB I D; 1MOXをもちいた。 T GF-a結合ドメィン近傍に T G F類似体のぺプチドを F AM S L i g a n d & Comp l e x (P r o t e i n s 61, 122- 127 (200 5) ) を用いてモデリングしその側鎖を切り出した。
図 63は、 TGF— α結合ドメイン近傍を表した図であり、 黄色は TG Fa類 似体のペプチドから側鎖のみを切り出したものであり、 これを Ch o o s e LD 法の FPライブラリ一として用いた。 これは、 ペプチド性の阻害剤が F PAS c o r e上位に出現することを防ぐ目的で行われた。
図 64は、 MDL Comp r e h e n s i v e Me d i c i n a l C h em i s t r y (MDL CMC) L i b r a r yを用いた E G F Rの T G F— ct結合ドメインに対するインシリコスクリーニングの結果を示す図であり、 図 65は、 MDL ACD L i b r a r yを用いた同インシリコスクリーニン グの結果を示す図である。 これにより、 本実施例によって、 タンパク質一タンパ ク質相互作用の情報を用いたドッキングが可能であることが示された。
(VEGFR2 (Va s c u l a r e n d o t h e l i a l g r ow t h f a c t o r Re c e p t o r - 2) に対する KRN633, KRN951の 複合体構造の予測)
VEGFR2は、 血管新生に関与するキナーゼ (k i n a s e) であり、 肺癌 などの癌発症時に異常発現するタンパク質の一つであり、 このタンパク質を特異 的に阻害する化合物は癌の治療薬となる。 阻害剤として KRN633 (Mo 1. Ca n c e r. Th e r. 3, 1639— 1649 (2004) ) ,
KRN951 (Ca n c e r Re s. 66, 9134— 9142 (2 006) ) が知られている。 し力、し、 これらの複合体構造は 2007年 12月時 点において、 X線結晶構造解析がなされていない。 そこで、 VEGFR2と KR N633の複合体、 および、 VEGFR2と KRN951の複合体構造を予測し た。 ここで、 図 66は、 KRN633 ( I C 50 = 1. 16 nm/L) の平 面構造を示す図であり、 図 67は、 KRN951 ( I C 50 = 0. 16 nm /L) の平面構造を示す図である。
VEGFR 2の立体構造は PDB I D 2 P 2Hの A鎖を用いた。 KRN63 3, KRN 951のドッキングについての条件を記載すると、 FPライブラリー に用いたリガンドは PS I— B 1 a s tによるホモロジ一検索により入手し、 ド ッキングに使用された F Pライブラリーの上位 10個は KRN633では、 PD B I D : 2HZN_A, 1 YWN— A, 2 J 5 F_A, 2 I VU— A, 2 H8H— A, 20H4— A, 1GAG一 A, 1 FPU一 A, 2 C 0 I_ A, 2 P 4 I_Aであり、 KRN951においては、 2 I 0 V_A, 2HZ N— A, 2 OH 4— A, 1 FG I— A, 1 YWN—A, 1 FPU一 A, 20FU—A, 2 CO I一 A, 2H8H— A, 2 FG I— Aとなった。 図 68〜図 71は、 VEGFR 2の活性近傍の立体構造を示した図である。 タ ンパク質側の赤いリボンは α ^リックス、 シアンのリボンは ]3シートを意味す る。 図 68は、 KRN 633の VEGFR 2活性部位近傍へのドッキングに用い た F Pライブラリ一に所属するリガンドにおいてドッキングに使用されたリガン ドの上位 10個の集合を表しており、 図 70は、 同様に、 KRN951の FPラ イブラリーに用いた F Pライブラリーに所属するリガンドにおいて VEGFR 2 活性部位近傍へのドッキングに使用されたリガンドの上位 10個の集合を表して いる。 図 69は、 KRN633について、 C h o o s e L D法を 10回実行し、 予測された構造 10個を VEGFR2の活性部位近傍の立体構造とともに示して レヽる。 FPライブラリーのリガンドの中で KRN 633との類似度に Tcを用い た場合、 最高値は 0. 45であった。 10回の試行において、 ほぼ同様の構造を 得ることができた。 図 71は、 同様に KRN951について、 Ch o o s e LD 法を 10回実行し、 予測された構造 10個を VEGFR2の活性部位近傍の立体 構造とともに示している。 予測構造の 10個中 8個がほぼ同じ構造であった。 F Pライブラリーのリガンドの中で KRN 951との類似度に T cを用いた場合、 最高値は 0. 29であった。
(VEGFR—2のドッキング予測成功率の算出)
KRN633, KRN951の予測複合体構造の信頼性を評価するために、
F Pライブラリーに含まれるドッキングリガンドの T c最大値を用いて、 133 セットから算出された統計的な成功率を算出した。 図 72は、 133セットを用 いた C h o o s e L D法のドッキング性能試験の結果得られた T c下限値を 0. 08に固定し、 T c上限値を変化させた時の予測成功率について、 横軸に T c上 限値、 縦軸に成功率としたグラフを示す図である。
すなわち、 グラフに T c上限値を内挿することによって Ch o o s e LD法適 用時の予測成功精度を統計的に算出することが可能である。 ただし、 この統計的 予測成功率は、 標的タンパク質の立体構造、 アミノ酸配列を考慮していない。 K RN633のドッキングで用いた FPライブラリーに含まれるリガンドの中、 T cが最大のものは、 0. 45であったことから、 0. 36と 0. 56の時の予測 成功率を用いて予測成功率を内挿すると、 34. 7%となった。 KRN951も 同様に、 0. 24と 0. 36の時の予測成功率から、 推定予測成功率は、 24. 3%となった。 133セットでの予測成功率で最も予測成功率が高かった GO L D S c o r e STDが 46. 0%、 DOCKは 21. l%、 Au t oDo c kは 26. 6%であり、 KRN633は Au t oDo c kよりょく、 GOLDに は及ばない精度で予測でき、 KRN 951に関しては、 Au t o D o c kと同程 度の精度で予測できたと考えられた。
(P l a smo d i um f a l c i p a r um e n o y 1 a c y 1 c a r r i e r p r o t e i n r e du c t a s e に対する低分子 (NAD) が介在した状態でのドッキング)
P l a smo d i um f a l c i p a r umの e n o y l a c y 1 c a r r i e r p r o t e i n はマラリア熱の病原タンパク質の一つであり、 月旨 質合成に関与するタンパク質であるが、 この脂質合成経路はヒ トには存在しない ため、 このタンパク質の機能を阻害することはマラリア熱治療につながると考え られている (J . B i o l . C h e m. 2 7 7, 1 3 1 06— 1 3 1 1 4 (2 00 2) ) 。
図 7 3は、 e n o y l a c y l c a r r i e r p r o t e i nの:^体構 造を示した図である。 また、 図 7 3に示すように、 このタンパク質を阻害する化 合物としてトリク口サン等が存在し、 複数の阻害剤との X線結晶構造解析が行わ れており (J . B i o l . C h em. 2 7 7, 1 3 1 0 6— 1 3 1 1 4 (200 2) ) 、 これらの阻害剤は NADを介して結合する。 これらを F Pラ イブラリーとして用いることにより、 新規阻害剤のリード化合物探索のためのィ ンシリコスクリ一ユングを実行した。
図 74は、 MDL C omp r e h e n s i v e Me d i c i n a l C h e m i s t r y (MDL CMC) L i b r a r yを用いて、 e n o y 1 a c y 1 c a r r i e r p r o t e i nのインシリコスクリーニングを行った 結果の F PAS c o r eの上位 1 0構造を示す図である。 上側の円で囲まれてい る部分がインシリコスクリーユングによる結果であり、 下側の円で示す NADの 占める空間を考慮したドッキングが行われている。 なお、 MD L Av a i 1 a b l e C h em i c a l s D i r e c t o r y (MD L A CD) L i b r a r yに対してもインシリコスクリーニングを実行しているが、 本実施例の C h o o s e LD法によれば、 NADや H 2 O等の標的タンパク質の活性部位近 傍に存在する低分子を考慮したドッキングが可能であることを示すことができた。
( ロ ^m)
本実施例では、 新しく定義した F P A S c o r eをシミュレテイツドアニーリ ングで最適化する方法を用いるバイオインフォマテイクスに基づいたリガンドド ッキングとインシリコスクリーニング法、 C h o o s e LD法を開発した。また、 8 5セットにおける k 1値の最適化を行うことにより、 ハイスループットスクリ 一二ング等に用いられることを想定した最適値を 4. 0に決定した。 この k l値 をもちいた場合で、 133セットにおいて、 rm s d力 2. ◦ A以下で実験構造 を予測できる割合を指標としたとき、 本実施例の Ch o o s e LD法のドッキン グ性能は既存の古典的物理関数を用いてドッキングを行う GO L Dと同程度であ り、 T c上限値が低い場合は DOCK, Au t o D o c kと同程度であった。 こ のことは、 ファミリータンパク質由来のリガンドから構築した FPライブラリ一 に含まれるリガンドから F P構築法によって得られた F Pが、 自由エネルギーの 低くなるような座標であるという仮定が正しかったことを示している。
し力 し、 従来の既存のドッキングソフトが自由エネルギー最小の構造を必ずし も探索できないことから、従来手法にはまだ改良の余地があることも示している。 また、 133セットにおいて、 予測に成功した PDB I Dの分布の観点から C h o o s e LD法と G 1 i d e, GOLD, F i e xXと比較をおこない、 PDB I Dの分布の類似度を T cによって算出した結果、 予測に成功するターゲットに 独自性があり、 本実施例である Ch o o s e LD法と従来法との併用でインシリ コスクリーニングの精度が上昇する可能性を示した。 さらに、 上述のように、 本 実施例 2では、 FPAS c o r eの k 2値, k 3値が標的タンパク質に応じて、 最適化可能な変数であることを EGFRの k i n a s e ドメインを標的タンパク 質として用いて示した。 これらの結果から、 本実施例 2の Ch o o s e LD法に おける FPAS c o r eの k 1, k 2, k 3値は標的タンパク質に応じて最適化 することにより、 より多くの阻害剤、 およびリード化合物が、 インシリコスクリ 一二ングスクリーニングされると考えられた。
[実施例 3]
実施例 3について以下に説明する。 実施例 3では、 AMPKh omoGAMM A1酵素の阻害薬 (アンタゴニスト) 並びに作動薬 (ァゴ二ス ト) を開発する目 的で、 インシリコスクリーニングを行った。
まず、 AMPKh omoGAMMAl酵素を標的タンパク質として、 そのアミ ノ酸配列の相同性検索を行ない 99. 7%のホモロジ一をもつ 2 V9 J_E (2 9】の£鎖) を鎵型として次のリガンドを含めて FAMS L i g a n dを用 いて AMPKh omoGAMMA 1をモデリングした。 ここで、 図 75は、 AM PKh o mo GAMMA 1と 2 V9 J—Eのアミノ酸配列のァライメントを示し た図である。 その結果、 結合リガンドは、 2 V8Q— Eの 3個のリガンド AMP — E— 1327、 AMP一 E— 1328、 AMP— E— 1329、 2 V 92— E の 3個のリガンド ATP— E—l 327、 ATP— E— 1328、 AMP—E一 1329、 2 V9 J—Eの 3個のリガンドと 2個のマグネシウム AT P— E— 1 327、 ATP— E—l 328、 AMP一 E—l 329、 MG—E一 1330、 MG_E_1331、 2QRE— Eの 1個のリガンド AMZ— E— 1002であ つた。
つぎに、 2V9 J—E以外のリガンドは、 CEによるフィッティング (原子の 種類を意識しないタンパク質同士の構造重ね合わせ) で 2V9 J— Eの座標系に 重ね合わせた。 2 V9 J— Eモデルの 3ケ所の ATP (AMP) 結合部位の中か ら MGイオンに依存しない AMP— E— 1329サイ卜に絞って阻害剤並びに作 動薬のスクリーニングを実施することにした。
本実施例の Ch o o s e LDを実施するに当たり、 AMP— E— 1329の結 合部位から 18 A以内のァミノ酸残基を切り出し 2 V 9 J— Eの受容体モデルと した。 また Ch o o s e LDスクリーユング時には、 受容体結合サイト以外のリ ガンドと MGイオンは補欠分子 (Co f a c t o r) として受容体に含めた。 ま た、 本実施例の Ch o o s e LDのFPには、 受容体結合部位のリガンド分子か らリン酸基 (PO 3) を除いた 3個の Ad e n o s i n eと 1_ (5— Am i n o— 4— c a r b o x am i d e— 1H— i m i d a z o l e— y l) — r i b o s eを使うことにしたが、 リン酸基部分は候補化合物の官能基には向かない。 そのため、 リン酸をそのまま FPにするのではなく、 リン酸基の酸素原子と水素 結合している H i s 151と H i s 298 (铸型タンパク質の 2V9 J— Eでは H i s l 50と H i s 297) ペアの相対的な距離を計算し、 構造的なずれを G DT—TS (0. 5 A, 1. OA, 1. 5 A, 2. 0 A) で計算し 70%以上 ( 変更可能) GDT— TSの残基ペアであり、 残基ペアから 3. OA以内 (変更可 能)に存在するリガンドを 95%NR— PDBから HETATMとして抽出した。 なお、 このとき 2アミノ酸残基ではなく 3アミノ酸残基を指定することも可能で ある。
G D T— T Sはネィティブ構造に対して X A以下で重ねられる残基の割合を示 す。 その結果 1061個のリガンドを取り出すことができた。 これらのリガンド について、 2V9 J—E受容体との衝突をチェックすることにより 18個のリガ ンドあるいはリガンドの一部分を F Pに追加して合計 22個の FPにより CMC (し omp r e h e n s i v e Me d i c i n a l し h em i s t r y, 2006. 1, E l s e v i wr MD L) データベースのスクリーニングを 行った。
受容体側とリガンドとの原子衝突(2. OA 1原子以下、 2. 2 A 3原子以下、 2. 4 A 5原子以下) 、 リガンド分子量 200から 500まで、 リガンド L o g P - 1から 5まで、 リガンドの環の数、 水素供与原子、 水素受容原子、 それぞれ 0から 5などに設定した。 ここで、 図 76は、 リガンドが受容体全体に結合した CMC医薬品の結果リストを示す図である。
ここで、 図 77は、 この中の 1から 10位までの 2 V9 J— E受容体への結合 状態を集合的に表した図である。 緑色のボールアンドスティックモデルは 2つの H I S残基を、 黄色のスティックモデルは、 3個の Ad e n o s i n eと 1— ( 5— Am i n o— 4— c a r b o x am i d e— 1 H— i m i d a z o 1 e— y 1) — r i b o s eを示す。 その間に 10個の医薬品がドッキングされている。 さらに 3個の Ad e n o s i n eと 1— (5— Am i n o— 4— c a r b o x a m i d e— ΙΗ— im i d a z o 1 e— y l) - r i b o s eにカ卩えて CMCス クリーユングで取れてきた医薬品化合物 27個を F i n g e r P r i n tとして 計 31個の F Pを用いて ACD (Av a i l a b l e Ch em i c a l s D i r e c t o r y, 2008. 1, E l s e v i wr MDL) のスクリー ニングを行い AMPKh omo GAMMA 1酵素の阻害薬 (アンタゴニスト) 並 びに作動薬 (ァゴ二スト) の候補化合物を得ることもできる。 [他の実施の形態]
さて、 これまで本発明の実施の形態について説明したが、 本発明は、 上述した 実施の形態以外にも、 上記特許請求の範囲および本願発明の概要に記載した技術 的思想の範囲内において種々の異なる実施の形態にて実施されてよいものである。 例えば、 インシリコスクリーニング装置 100がスタンドアローンの形態で処 理を行う場合を一例に説明したが、 インシリコスクリーニング装置 100とは別 筐体で構成されるクライアント端末からの要求に応じて処理を行い、 その処理結 果を当該クライアント端末に返却するように構成してもよい。
また、 実施の形態において説明した各処理のうち、 自動的に行われるものとし て説明した処理の全部または一部を手動的に行うこともでき、 あるいは、 手動的 に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行 うこともできる。
このほ力 \ 上記文献中や図面中で示した処理手順、 制御手順、 具体的名称、 各 処理の登録データや検索条件等のパラメータを含む情報、 画面例、 データベース 構成については、 特記する場合を除いて任意に変更することができる。
また、 インシリコスクリーニング装置 100に関して、 図示の各構成要素は機 能概念的なものであり、 必ずしも物理的に図示の如く構成されていることを要し ない。
例えば、 インシリコスクリーニング装置 100の各装置が備える処理機能、 特 に制御部 102にて行われる各処理機能については、 その全部または任意の一部 を、 CPU (Ce n t r a l P r o c e s s i n g Un i t) および当該 C PUにて解釈実行されるプログラムにて実現することができ、 あるいは、 ワイヤ ードロジックによるハードウェアとして実現することも可能である。 また、 外部 システム 200は、 WE Bサーバや AS Pサーバ等として構成していてもよく、 そのハードウェア構成は、 一般に市販されるワークステーション、 パーソナルコ ンピュータ等の情報処理装置およびその付属装置により構成していてもよい。 ま た、 外部システム 200の各機能は、 外部システム 200のハードウヱァ構成中 の CPU、 ディスク装置、 メモリ装置、 入力装置、 出力装置、 通信制御装置等お よびそれらを制御するプログラム等により実現される。
尚、 プログラムは、 後述する記録媒体に記録されており、 必要に応じてインシ リコスクリーニング装置 100に機械的に読み取られる。 すなわち、 ROMまた は HDなどの記憶部 106などは、 OS (Op e r a t i n g Sy s t em) として協働して CPUに命令を与え、 各種処理を行うためのコンピュータプログ ラムが記録されている。 このコンピュータプログラムは、 RAMにロードされる ことによって実行され、 CPUと協働して制御部を構成する。 また、 このコンビ ユータプログラムは、 ィンシリコスクリーニング装置 100に対して任意のネッ トワーク 300を介して接続された外部システム 200等のアプリケーションプ ログラムサーバに記憶されていてもよく、 必要に応じてその全部または一部をダ ゥンロードすることも可能である。
また、 本発明に係るプログラムを、 コンピュータ読み取り可能な記録媒体に格 納することもできる。 ここで、 この 「記録媒体」 とは、 フレキシブルディスク、 光磁気ディスク、 ROM、 E PROM, EEPROM、 CD-ROM, MO、 D VD等の任意の 「可搬用の物理媒体」 、 あるいは、 LAN、 WAN, インターネ ッ卜に代表されるネットワークを介してプログラムを送信する場合の通信回線や 搬送波のように、 短期にプログラムを保持する 「通信媒体」 を含むものとする。 また、 「プログラム」 とは、 任意の言語や記述方法にて記述されたデータ処理 方法であり、 ソースコードやバイナリコード等の形式を問わない。 なお、 「プロ グラム」 は必ずしも単一的に構成されるものに限られず、 複数のモジュールゃラ イブラリとして分散構成されるものや、 OS (Op e r a t i n g Sy s t e m)に代表される別個のプログラムと協働してその機能を達成するものをも含む。 なお、 実施の形態に示した各装置において記録媒体を読み取るための具体的な構 成、 読み取り手順、 あるいは、 読み取り後のインストール手順等については、 周 知の構成や手順を用いることができる。
記憶部 106に格納される各種のデータベース等は、 RAM、 ROM等のメモ リ装置、 ハードディスク等の固定ディスク装置、 フレキシブルディスク、 光ディ スク等のストレージ手段であり、 各種処理やウェブサイ ト提供に用いる各種のプ ログラムゃテ一ブルゃデータベースゃゥェブベージ用ファイル等を格納する。 また、 インシリコスクリーニング装置 1 0 0は、 既知のパーソナルコンビュ一 タ、 ワークステーション等の情報処理装置を接続し、 該情報処理装置に本発明の 方法を実現させるソフトウェア (プログラム、 データ等を含む) を実装すること により実現してもよい。
更に、 装置の分散 ·統合の具体的形態は図示するものに限られず、 その全部ま たは一部を、 各種の負荷等に応じた任意の単位で、 機能的または物理的に分散 · 統合して構成することができる。 産業上の利用可能性
標的高分子タンパク質にどのような当該化合物が有意に相互作用して、 ドツキ ングするかの情報は新しい医薬品開発の要であり、 またテーラ一メイ ド医療とい うのは少なくとも、 一つのアミノ酸残基の置換に対応して、 従来ではきかなかつ た医薬品の開発をすることなので、 標的高分子タンパク質に結合した化合物の情 報は実験決定済み化合物数においてその数が豊富であり、 新薬の開発は非常に加 速されるので、 本願発明において述べたインシリコスクリーニング装置およびィ ンシリコスクリーニング方法の産業上利用可能性は非常に大きい。

Claims

請 求 の 範 囲
1 . 標的タンパク質に結合する候補化合物のスクリーニングを行う、 記憶部と 制御部を少なくとも備えたインシリコスクリーニング装置であって、
上記記憶部は、
化合物中の複数個の原子に係る化合物指紋として、 原子タイプと原子間結合規 則とを含む化学記述子を、 上記候補化合物ごとに抽出して作成された化合物デー タベース、
を備え、
上記制御部は、
上記標的タンパク質と立体構造が同一または類似するフアミリータンパク質に 結合することが既知の結合化合物につ!/、て、 上記標的タンパク質の座標系に変換 した三次元座標とともに上記化合物指紋を抽出して結合化合物指紋セットを作成 する化合物指紋作成手段と、
上記化合物データベースに記憶された上記候補ィヒ合物にっレ、て、 上記結合化合 物指紋セットの上記三次元座標を基底として算出した上記化合物指紋単位の二乗 平均偏差を基礎とする相互作用スコアが最適化されるように、 当該候補化合物の 上記標的タンパク質に対する上記立体構造を演算する最適化手段と、
を備えたことを特 ί敷とするインシリコスクリーニング装置。
2 . 請求項 1に記載のインシリコスクリーニング装置において、
化合物に結合したタンパク質の立体構造およびァミノ酸配列を記憶するタンパ ク質デーダベース装置に接続され、
上記制御部は、
上記標的タンパク質の上記ァミノ酸配列との相同性に基づいて、 上記フアミリ 一タンパク質および上記結合化合物を上記タンパク質データベース装置から検索 する相同性検索手段、 を更に備え、
上記化合物指紋作成手段は、
上記相同性検索手段により検索された上記フアミリータンパク質に結合する上 記結合化合物について、 上記標的タンパク質の座標系に変換した上記三次元座標 とともに上記化合物指紋を抽出して上記結合化合物指紋セットを作成すること、 を特徴とするインシリコスクリーニング装置。
3 . 請求項 1に記載のインシリコスクリーニング装置において、
上記化合物指紋作成手段は、
上記フアミリータンパク質と上記標的タンパク質との構造重ね合わせにより、 当該フアミリータンパク質に結合する上記結合化合物の上記三次元座標を上記標 的タンパク質の座標系に変換し、 変換された上記三次元座標とともに上記化合物 指紋を抽出して上記結合化合物指紋セットを作成すること、
を特徴とするインシリコスクリーニング装置。
4 請求^ I Iに記載のインシリコスクリーニング装置において、
上記化合物指紋作成手段は、
上記結合化合物と異なる他の上記化合物を参照して構造重ね合わせを行い、 当 該結合化合物と当該他の上記化合物の原子間をまたがる上記化合物指紋を抽出し て上記結合化合物指紋セットに追加する新規化合物指紋追加手段、
を更に備えたことを特徴とするインシリコスクリーニング装置。
5 . 請求項 1に記載のインシリコスクリーニング装置において、
上記化合物指紋作成手段は、
タニモト係数に基づき上記結合化合物と類似する上記化合物について、 当該結 合化合物と当該化合物の原子間で原子の種類を入れ替え、 上記標的タンパク質に 対する相互作用エネルギーを算出して当該結合化合物の上記化合物指紋よりも局 所エネルギー的に安定な上記化合物指紋を作成して上記結合化合物指紋セットに 追加する新規化合物指紋追加手段、
を更に備えたことを特徴とするインシリコスクリーニング装置。
6 . 請求項 1に記載のインシリコスクリーニング装置において、
上記結合化合物は、 公知のドッキングアルゴリズムにより上記標的タンパク質 に対して安定なコンフオメーションを持つと予測された化合物であること、 を特徴とするインシリコスクリーニング装置。
7 . 請求項 1に記載のインシリコスクリーニング装置において、
上記最適化手段は、
上記化合物指紋単位に上記二乗平均偏差を基礎とした、 上記候ネ甫化合物の、 上 記標的タンパク質との衝突具合、 上記標的タンパク質の相互作用領域における存 在割合、 および、 上記標的タンパク質との直接相互作用割合を考慮に入れた関数 に基づいて、 上記相互作用スコアを計算する相互作用スコア計算手段、
を更に備えたことを特徴とするインシリコスクリーニング装置。 -
8 . 請求項 1に記載のインシリコスクリーニング装置において、
上記最適化手段は、
上記相互作用スコアをメ トロポリス法に基づいて判定し、 判定結果にしたがつ て上記候補化合物の基底となる上記化合物指紋を変更、 増カロ、 または減少させる ことにより、 上記相互作用スコアを最適化させること、
を特徴とするインシリコスクリーニング装置。
9 . 請求項 1に記載のインシリコスクリーニング装置において、
上記最適化手段は、
上記相互作用スコァの最適化過程において、 上記候補化合物のコンフオメ一シ ヨンを繰り返し変化させ、 シミュレティッドアニーリング法に基づいて、 当該候 補化合物の上記コンフオメーション毎に当該候補ィヒ合物を剛体として繰り返し並 進または回転させる構造変換手段、
を更に備え、
上記最適化手段は、 上記構造変換手段により並進または回転された上記コンフ オメーション毎の上記候補化合物について上記相互作用スコアを計算すること、 を特徴とするインシリコスクリーニング装置。
10. 請求項 1に記載のインシリコスクリーユング装置において、
上記最適化手段は、
上記相互作用スコアを以下の数式 (1) に基づいて算出すること、
[数 1]
FPAScore = F{angned fp,fp rmsd , molecule)
= BaseScore{aligned fp,fp rmsd)
x fp volume(molecule)
x fp _ contact _ surface(molecule) ( i )
(ここで、 上記 FPAS c o r eは上記相互作用スコアを表し、 上記 F (a 1 i g n e d一 f p , f p一 rms d, mo l e c u l e) は、 上記結合ィ匕合物と上 記候補化合物間の上記化合物指紋単位のァライメント度および上記二乗平均偏差、 ならびに、 上記候補ィヒ合物の上記標的タンパク質に対する上記立体構造を変数と する関数であり、 上記 B a s e S c o r e (a l i g n e d— f p, f p_r m s d) は、 上記化合物指紋単位の一致度および密集度を示す指標であり、 上記 f p— v o l ume (mo l e c u l e) は、 上記結合化合物指紋セッ卜の上記三 次元座標からなる空間を上記候補化合物が占める割合、 および、 上記標的タンパ ク質との衝突具合を示す指標であり、 上記 f p— c o n t a c t_s u r f a c e (mo 1 e c u 1 e) は、 上記候補化合物の上記標的タンパク質との接触度、 および、 上記結合化合物指紋セッ卜の上記三次元座標への帰属度を示す指標であ る。 )
を特徴とするインシリコスクリーニング装置。
1 1. 請求項 1 0に記載のインシリコスクリーニング装置において、
上記数式 (1) における、
_ϋ目己 B a s e ¾ c o r e 、a l i g n e a一 f p , ι ρ一 r m s d ) (i ξλ の数式 (2) に基づいて算出され、
[数 2]
RawScore(aligned jp)
Baseacorei aligned _ fp,fp_ rmsd) =
\ + ln(fp_rmsdk] +1) (2) (ここで、 上記 R a wS c o r e (a l i g n e d— f p) は、 上記結合化合物 と上記候補化合物間でァライメントされた上記化合物指紋における原子の数に基 づく指標であり、 上記 f p— r m s dは、 上記二乗平均偏差である。 )
上記 f p一 V o 1 ume (mo l e c u l e) は、 以下の数式 (6) に基づい て算出され、
[数 3] fp _ volume(molecule) = In ゾ-
- 1.0 + " 3 (6)
(ここで、 上記 n a f pは、 上記結合化合物指紋セッ卜の上記三次元座標に基づ く固有格子点領域に上記候補化合物の上記三次元座標が占有する格子点の数であ り、 上記 n a pは、 上記標的タンパク質の上記立体構造における原子の固有格子 点領域に上記候補化合物の上記三次元座標が属する格子点の数であり、 上記 k 2 および上記 k 3は、 任意の定数である。 )
上目己 f p一 c o n t a c t― s u r f a c e (mo l e c u l e; ίま、 以下の 数式 (7) に基づいて算出されること、
[数 4] ^ density—of— atom{atom{i)) fp _ contact _ surface(molecule) =——―
total _ density— of一 atom(molecule) ( 7 )
(ここで、上記 nは、上記候補化合物の原子の数であり、上記 a t om ( i ) は、 上記候補化合物の i番目の原子の上記三次元座標であり、 上記 d e n s i t y_ o f— a t om (a t om ( i ) ) は、 当該原子の上記三次元座標が上記結合化 合物指紋セットの上記化合物指紋に属している場合に、 当該化合物指紋の上記原 子と所定の距離で接触している上記標的タンパク質の原子の数と、 当該化合物指 紋の同一格子点に属する上記結合化合物の原子の数との和を返す関数であり、 上 g己 t o t a 1一 d e n s i t y一 o t― a t orn (mo 1 e c u 1 e ) ίま、 上 c d e n s i t y— o f— a t o mの分布を降順に並べ換えたものを上記候補ィ匕合 物の原子の数だけ順に足し合わせた数である。 )
を特徴とするインシリコスクリーニング装置。
1 2. 記憶部と制御部を少なくとも備えたインシリコスクリーニング装置にお いて実行される、 標的タンパク質に結合する候補化合物のスクリーニングを行う インシリコスクリーニング方法であって、
上記記憶部は、
化合物中の複数個の原子に係る化合物指紋として、 原子タイプと原子間結合規 則とを含む化学記述子を、 上記候補化合物ごとに抽出して作成された化合物デー タベースを備えており、
上記制御部において実行される、
上記標的タンパク質と立体構造が同一または類似するファミリータンパク質に 結合することが既知の結合化合物について、 上記標的タンパク質の座標系に変換 した三次元座標とともに上記化合物指紋を抽出して結合化合物指紋セットを作成 する化合物指紋作成ステップと、
上記化合物データベースに記憶された上記候補化合物について、 上記結合化合 物指紋セットの上記三次元座標を基底として算出した上記化合物指紋単位の二乗 平均偏差を基礎とする相互作用スコアが最適化されるように、 当該候補化合物の 上記標的タンパク質に対する上記立体構造を演算する最適化ステツプと、 を含むことを特徴とするインシリコスクリーニング方法。
PCT/JP2008/070973 2007-11-12 2008-11-12 インシリコスクリーニング装置、および、インシリコスクリーニング方法 Ceased WO2009064015A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP08850939A EP2216429A4 (en) 2007-11-12 2008-11-12 SILICO SCREENING SYSTEM AND SILICO SCREENING METHOD
JP2009521050A JP4564097B2 (ja) 2007-11-12 2008-11-12 インシリコスクリーニング装置、および、インシリコスクリーニング方法
US12/734,515 US20100312538A1 (en) 2007-11-12 2008-11-12 Apparatus for in silico screening, and method of in siloco screening
CN200880115496A CN101855392A (zh) 2007-11-12 2008-11-12 虚拟筛选装置及虚拟筛选方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2007-293751 2007-11-12
JP2007293751 2007-11-12

Publications (1)

Publication Number Publication Date
WO2009064015A1 true WO2009064015A1 (ja) 2009-05-22

Family

ID=40638856

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2008/070973 Ceased WO2009064015A1 (ja) 2007-11-12 2008-11-12 インシリコスクリーニング装置、および、インシリコスクリーニング方法

Country Status (5)

Country Link
US (1) US20100312538A1 (ja)
EP (1) EP2216429A4 (ja)
JP (1) JP4564097B2 (ja)
CN (1) CN101855392A (ja)
WO (1) WO2009064015A1 (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102985818A (zh) * 2011-06-01 2013-03-20 津村股份有限公司 聚合数据的类似性评价方法、类似性评价程序以及类似性评价装置
CN103097886A (zh) * 2011-06-01 2013-05-08 津村股份有限公司 图案的评价方法、多成分物质的评价方法、评价程序以及评价装置
CN105308602A (zh) * 2013-06-13 2016-02-03 Ucb生物制药私人有限公司 获得改善的治疗性配体
JP2016523375A (ja) * 2013-06-25 2016-08-08 カウンシル オブ サイエンティフィック アンド インダストリアル リサーチ 仮想スクリーニング用の演算による炭素及びプロトンnmr化学シフトベースのバイナリフィンガープリント
JP2019508821A (ja) * 2015-12-31 2019-03-28 サイクリカ インクCyclica Inc. タンパク質−リガンド相互作用を同定するためのプロテオームドッキング方法
WO2020054840A1 (ja) * 2018-09-14 2020-03-19 富士フイルム株式会社 化合物構造の生成方法、化合物構造の生成プログラム、及び化合物構造の生成装置
WO2020054841A1 (ja) * 2018-09-14 2020-03-19 富士フイルム株式会社 化合物探索方法、化合物探索プログラム、記録媒体、及び化合物探索装置
CN111462833A (zh) * 2019-01-20 2020-07-28 深圳智药信息科技有限公司 一种虚拟药物筛选方法、装置、计算设备及存储介质
JPWO2020213417A1 (ja) * 2019-04-16 2020-10-22
WO2022246473A1 (en) * 2021-05-20 2022-11-24 The Board Of Trustees Of The Leland Stanford Junior University Systems and methods to determine rna structure and uses thereof
JP2023548923A (ja) * 2021-01-28 2023-11-21 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 人工知能ベースの薬物分子処理方法および装置、機器、記憶媒体並びにコンピュータプログラム
US12040056B2 (en) 2018-09-14 2024-07-16 Fujifilm Corporation Method for evaluating synthetic aptitude of compound, program for evaluating synthetic aptitude of compound, and device for evaluating synthetic aptitude of compound
WO2024202570A1 (ja) * 2023-03-28 2024-10-03 富士通株式会社 評価プログラム、評価装置及び評価方法
US12249406B2 (en) 2019-03-29 2025-03-11 Fujifilm Corporation Feature quantity calculating method, feature quantity calculating program, and feature quantity calculating device, screening method, screening program, and screening device, compound creating method, compound creating program, and compound creating device

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013173826A2 (en) * 2012-05-18 2013-11-21 Georgetown University Methods and systems for populating and searching a drug informatics database
SG11201601695WA (en) 2013-09-27 2016-04-28 Codexis Inc Automated screening of enzyme variants
KR102341026B1 (ko) 2013-09-27 2021-12-21 코덱시스, 인코포레이티드 구조에 기반한 예측 모델링
US10223500B2 (en) * 2015-12-21 2019-03-05 International Business Machines Corporation Predicting drug-drug interactions and specific adverse events
CN111279419B (zh) 2017-10-17 2023-10-10 富士胶片株式会社 特征量计算方法、筛选方法、以及化合物创建方法
CN107862173B (zh) * 2017-11-15 2021-04-27 南京邮电大学 一种先导化合物虚拟筛选方法和装置
CN107967408B (zh) * 2017-11-20 2021-03-19 中国水产科学研究院黄海水产研究所 基于进化耦合分析的电压-门控钠离子通道结构模建方法
CA3137703A1 (en) * 2019-05-13 2020-11-19 Takeshi Yamazaki Methods and systems for quantum computing enabled molecular ab initio simulations
CN111613275B (zh) * 2020-05-26 2021-03-16 中国海洋大学 一种基于rmsd多特征的药物分子动力学结果分析方法
WO2022071268A1 (ja) 2020-09-30 2022-04-07 富士フイルム株式会社 特徴量算出方法、スクリーニング方法、及び化合物創出方法
CN113628699B (zh) * 2021-07-05 2023-03-17 武汉大学 基于改进的蒙特卡罗强化学习方法的逆合成问题求解方法及装置
CN114678082B (zh) * 2022-03-08 2024-06-21 南昌立德生物技术有限公司 一种计算机辅助虚拟高通量筛选算法
EP4605090A1 (en) * 2022-10-20 2025-08-27 Université Libre de Bruxelles Screening methods for acinetobacter baumannii spot enzyme modulators
WO2024216178A1 (en) * 2023-04-13 2024-10-17 Deepcure Inc. Systems and methods for discovering compounds using causal inference
WO2025049438A2 (en) * 2023-08-30 2025-03-06 Massachusetts Institute Of Technology Molecule screening system

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002041184A1 (en) * 2000-11-14 2002-05-23 Kyorin Pharmaceutical Co., Ltd. Method of searching for novel lead compound
JP2002530727A (ja) * 1998-10-28 2002-09-17 グラクソ グループ リミテッド 定量的構造活性相関におけるファーマコフォア・フィンガープリント並びにプライマリ・ライブラリの構築

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7146384B2 (en) * 2002-04-10 2006-12-05 Transtech Pharma, Inc. System and method for data analysis, manipulation, and visualization
US20070134662A1 (en) * 2003-07-03 2007-06-14 Juswinder Singh Structural interaction fingerprint
US20050090994A1 (en) * 2003-10-27 2005-04-28 Locus Pharmaceuticals, Inc. Computing a residue fingerprint for a molecular structure

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002530727A (ja) * 1998-10-28 2002-09-17 グラクソ グループ リミテッド 定量的構造活性相関におけるファーマコフォア・フィンガープリント並びにプライマリ・ライブラリの構築
WO2002041184A1 (en) * 2000-11-14 2002-05-23 Kyorin Pharmaceutical Co., Ltd. Method of searching for novel lead compound

Non-Patent Citations (61)

* Cited by examiner, † Cited by third party
Title
ADV DRUG DELIV REV, vol. 46, no. 1-3, pages 3 - 26
ALTSCHUL ET AL., NUCLEIC ACIDS RES., vol. 27, no. 17, 1997, pages 3389 - 3402
BROOKS, R. B; BRUCCOLERI, E. R.; OLAFSON, D. B.; STATES, J. D.; SWAMINATHAN, S.; KARPLUS, M.: "CHARMM A program for macromolecular energy, minimization, and dynamics calculations", J. COMP. CHEM., vol. 4, 1983, pages 187 - 217
BROOKS, R. B; BRUCCOLERI, E. R.; OLAFSON, D. B.; STATES, J. D.; SWAMINATHAN, S.; KARPLUS, M.: "CHARMM. A program for macromolecular energy, minimization, and dynamics calculations", J. COMP. CHEM., vol. 4, 1983, pages 187 - 217
BUDIN ET AL., BIOL CHEM., vol. 382, no. 9, 2001, pages 1365 - 1372
CANCER RES 2005, vol. 65, no. 10, 15 May 2005 (2005-05-15)
CANCER RES., vol. 66, 2006, pages 9134 - 9142
CASE, A. D.; CHEATHAM III, E. T.; DARDEN, T.; GOHLKE, H.; LUO, R.; MERZ JR., M. K.; ONUFRIEV, A.; SIMMERLING, C.; WANG, B.; WOODS,: "The Amber Biomolecular Simulation Programs", J. COMPUT. CHEM., vol. 26, 2005, pages 1668 - 1688
CASE, A. D.; CHEATHAM III, E. T.; DARDEN, T.; GOHLKE, H.; LUO, R.; MERZ JR.; M. K. ONUFRIEV, A.; SIMMERLING, C.; WANG, B.; WOODS,: "The Amber Biomolecular Simulation Programs", J. COMPUT. CHEM., vol. 26, 2005, pages 1668 - 1688
CELL, vol. 125, 2006, pages 1137 - 1149
EDGAR R. WOOD ET AL., CANCER RESEARCH, vol. 64, 2004, pages 6652 - 6659
EUR. J. MED. CHEM., vol. 42, 2007, pages 966 - 976
EWING ET AL., J COMPUT AIDED MOL DES., vol. 15, no. 5, 2001, pages 411 - 428
EWING ET AL., J. COMPUT. AIDED MOL. DES., vol. 15, no. 5, 2001, pages 411 - 428
FEDOROV, G. D.; KITAURA, K.: "Extending the Power of Quantum Chemistry to Large Systems with the Fragment Molecular Orbital Method", J. PHYS. CHEM., vol. 111, 2007, pages 6904 - 6914
GARETH ET AL., J. MOL. BIOL., vol. 267, 1997, pages 727 - 748
GARETH ET AL., J. MOL. EIOL., vol. 267, 1997, pages 727 - 748
GOODSELL ET AL., J. MOL. RECOGNI-T, vol. 9, 1996, pages 1 - 5
GOODSELL ET AL., J. MOL. RECOGNIT., vol. 9, 1996, pages 1 - 5
HARTSHOM ET AL., J. MED. CHEM., vol. 50, 2007, pages 726 - 741
J. BIOL. CHEM., vol. 277, 2002, pages 13106 - 13114
J. BIOL. CHEM., vol. 277, 2002, pages 46265 - 46272
J. CHEM. INF. COMPUT. SCI., vol. 40, 2000, pages 163 - 166
J. COMPUT. CHEM., vol. 26, 2005, pages 1668 - 1688
J. MED. CHEM., vol. 47, 2004, pages 1739 - 1749
J. MED. CHEM., vol. 47, 2004, pages 337 - 344
J. MED. CHEM., vol. 50, 2007, pages 726 - 741
J. MOL. BIOL., vol. 233, 1993, pages 123 - 138
J. MOL. BIOL., vol. 261, 1996, pages 470 - 489
J. MOL. GRAPHICS MOD., vol. 18, 2000, pages 258305 - 272306
JENNIFER ET AL., J. BIO. CHEM., vol. 277, no. 48, 2002, pages 46265 - 46272
JONES ET AL., J. MOL. BIOL., vol. 267, 1997, pages 724 - 748
JONES ET AL., J. MOL. BIOL., vol. 267, 1997, pages 727 - 748
KAMIYA K; SUGAWARA Y; UMEYAMA H, J. COMPUT. CHEM., vol. 24, 2003, pages 826 - 841
KELLY, M.D.: "Expanded interaction fingerprint method for analyzing ligand binding modes in docking and structure-based drug design", JOURNAL OF CHEMICAL INFORMATION AND COMPUTER SCIENCES, vol. 44, no. 6, 2004, pages 1942 - 1951, XP008134397 *
LOPEZ, G; ROJAS, A; TRESS, M; VALENCIA, A, PROTEINS, vol. 69, no. S8, 2007, pages 165 - 174
MICHAEL ET AL., J. MED. CHEM., vol. 50, 2007, pages 726 - 741
MOL. CANCER. THER., vol. 3, 2004, pages 1639 - 1649
MPAMHANGA, C.P.: "Knowledge-based interaction fingerprint scoring: a simple method for improving the effectiveness of fast scoring functions", JOURNAL OF CHEMICAL INFORMATION AND MODELING, vol. 46, no. 2, 2006, pages 686 - 698, XP008134399 *
NAT. REV. CANCER., vol. 4, 2004, pages 361 - 370
NUCLEIC ACIDS RES., vol. 27, 1997, pages 3398 - 3402
NUCLEIC ACIDS RES., vol. 31, 2003, pages 489 - 491
ONODERA ET AL., J. CHEM. INF. MODEL., vol. 47, 2007, pages 1609 - 1618
ONODERA ET AL., J. CHEM. INF. MODEL., vol. 47, 2007, pages 16Q9 - 1618
PROTEIN ENGINEERING, vol. 11, 1998, pages 739 - 747
PROTEIN SCIENCE, vol. 13, 2004, pages 1865 - 1874
PROTEINS, vol. 61, 2005, pages 122 - 127
PROTEINS, vol. 7, 2005, pages 122 - 127
SCIABOLA, S.: "Pharmacophoric fingerprint method (TOPP) for 3D-QSAR modeling: application to CYP2D6 metabolic stability", JOURNAL OF CHEMICAL INFORMATION AND MODELING, vol. 47, no. 1, February 2007 (2007-02-01), pages 76 - 84, XP008134396 *
See also references of EP2216429A4
SHINDYALOV ET AL., PROTEIN ENGINEERING, vol. 11, no. 9, 1998, pages 739 - 747
SUKUMARAN ET AL., EUR. J. MED. CHEM., vol. 42, 2007, pages 966 - 976
SWAMIDASS, S. J.; BALDI, P.: "Mathematical Correction for Fingerprint Similarity Measures to Improve Chemical Retrieval", J. CHEM. INF. MODEL., vol. 47, 2007, pages 952 - 964
TAKAYA, D.: "Bioinformatics based Ligand- Docking and in-silico screening", CHEMICAL & PHARMACEUTICAL BULLETIN, vol. 56, no. 5, May 2008 (2008-05-01), pages 742 - 744, XP008134462 *
TAKEDA-SHITAKA, M.; TERASHI, G.; TAKAYA, D; KANOU, K.; IWADATE, M.; UMEYAMA, H.: "Protein structure prediction in CASP6 using CHIMERA and FAMS", PROTEINS, vol. 61, 2005, pages 122 - 127
TAKEDE-SHITAKA, M.; TAKAYA, D.; CHIBA, C.; TANAKA, H.; UMEYAMA, H., CURR. MED. CHEM., vol. 11, 2004, pages 551 - 558
TERASHI G; TAKEDA-SHITAKA M; KANOU K; IWADATE M; TAKAYA D; HOSOI A; OHTA K, UMEYAMA H PROTEINS, vol. 69, no. S8, 2007, pages 98 - 107
TERASHI, G. ET AL., PROTEINS, 2007
WESTBROOK ET AL., NUCLEIC ACIDS RES., vol. 31, no. 1, 1 January 2003 (2003-01-01), pages 489 - 91
WHEELER, D. L. ET AL., NUCLEIC ACIDS RES., 27 November 2007 (2007-11-27)
ZHAN ET AL., J. MED. CHEM., vol. 47, 2004, pages 337 - 344

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102985818A (zh) * 2011-06-01 2013-03-20 津村股份有限公司 聚合数据的类似性评价方法、类似性评价程序以及类似性评价装置
CN103097886A (zh) * 2011-06-01 2013-05-08 津村股份有限公司 图案的评价方法、多成分物质的评价方法、评价程序以及评价装置
CN103097886B (zh) * 2011-06-01 2015-07-01 津村股份有限公司 图案的评价方法、多成分物质的评价方法以及评价装置
CN102985818B (zh) * 2011-06-01 2016-03-02 津村股份有限公司 聚合数据的类似性评价方法以及类似性评价装置
CN105308602A (zh) * 2013-06-13 2016-02-03 Ucb生物制药私人有限公司 获得改善的治疗性配体
JP2016527481A (ja) * 2013-06-13 2016-09-08 ユーシービー バイオファルマ エスピーアールエル 改善された治療リガンドの取得
US11942188B2 (en) 2013-06-13 2024-03-26 UCB Biopharma SRL Obtaining an improved therapeutic ligand
JP2016523375A (ja) * 2013-06-25 2016-08-08 カウンシル オブ サイエンティフィック アンド インダストリアル リサーチ 仮想スクリーニング用の演算による炭素及びプロトンnmr化学シフトベースのバイナリフィンガープリント
JP2019508821A (ja) * 2015-12-31 2019-03-28 サイクリカ インクCyclica Inc. タンパク質−リガンド相互作用を同定するためのプロテオームドッキング方法
US12033723B2 (en) 2015-12-31 2024-07-09 Cyclica Inc. Methods for proteome docking to identify protein-ligand interactions
JPWO2020054841A1 (ja) * 2018-09-14 2021-08-30 富士フイルム株式会社 化合物探索方法、化合物探索プログラム、記録媒体、及び化合物探索装置
WO2020054841A1 (ja) * 2018-09-14 2020-03-19 富士フイルム株式会社 化合物探索方法、化合物探索プログラム、記録媒体、及び化合物探索装置
US12040056B2 (en) 2018-09-14 2024-07-16 Fujifilm Corporation Method for evaluating synthetic aptitude of compound, program for evaluating synthetic aptitude of compound, and device for evaluating synthetic aptitude of compound
JPWO2020054840A1 (ja) * 2018-09-14 2021-08-30 富士フイルム株式会社 化合物構造の生成方法、化合物構造の生成プログラム、及び化合物構造の生成装置
JP7116186B2 (ja) 2018-09-14 2022-08-09 富士フイルム株式会社 化合物探索方法、化合物探索プログラム、記録媒体、及び化合物探索装置
WO2020054840A1 (ja) * 2018-09-14 2020-03-19 富士フイルム株式会社 化合物構造の生成方法、化合物構造の生成プログラム、及び化合物構造の生成装置
JP7190498B2 (ja) 2018-09-14 2022-12-15 富士フイルム株式会社 化合物構造の生成方法、化合物構造の生成プログラム、及び化合物構造の生成装置
CN111462833B (zh) * 2019-01-20 2023-05-23 深圳智药信息科技有限公司 一种虚拟药物筛选方法、装置、计算设备及存储介质
CN111462833A (zh) * 2019-01-20 2020-07-28 深圳智药信息科技有限公司 一种虚拟药物筛选方法、装置、计算设备及存储介质
US12249406B2 (en) 2019-03-29 2025-03-11 Fujifilm Corporation Feature quantity calculating method, feature quantity calculating program, and feature quantity calculating device, screening method, screening program, and screening device, compound creating method, compound creating program, and compound creating device
JP7297057B2 (ja) 2019-04-16 2023-06-23 富士フイルム株式会社 特徴量算出方法、特徴量算出プログラム、特徴量算出装置、スクリーニング方法、スクリーニングプログラム、及び化合物創出方法
JPWO2020213417A1 (ja) * 2019-04-16 2020-10-22
JP2023548923A (ja) * 2021-01-28 2023-11-21 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 人工知能ベースの薬物分子処理方法および装置、機器、記憶媒体並びにコンピュータプログラム
JP7611384B2 (ja) 2021-01-28 2025-01-09 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 人工知能ベースの薬物分子処理方法および装置、機器、記憶媒体並びにコンピュータプログラム
WO2022246473A1 (en) * 2021-05-20 2022-11-24 The Board Of Trustees Of The Leland Stanford Junior University Systems and methods to determine rna structure and uses thereof
WO2024202570A1 (ja) * 2023-03-28 2024-10-03 富士通株式会社 評価プログラム、評価装置及び評価方法

Also Published As

Publication number Publication date
JPWO2009064015A1 (ja) 2011-03-31
EP2216429A1 (en) 2010-08-11
EP2216429A4 (en) 2011-06-15
CN101855392A (zh) 2010-10-06
US20100312538A1 (en) 2010-12-09
JP4564097B2 (ja) 2010-10-20

Similar Documents

Publication Publication Date Title
WO2009064015A1 (ja) インシリコスクリーニング装置、および、インシリコスクリーニング方法
Oeffner et al. Putting AlphaFold models to work with phenix. process_predicted_model and ISOLDE
US20190164632A1 (en) Drug indication and response prediction systems and method using ai deep learning based on convergence of different category data
US9519752B2 (en) Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
Li et al. REMO: A new protocol to refine full atomic protein models from C‐alpha traces by optimizing hydrogen‐bonding networks
Flower et al. Crystallographic molecular replacement using an in silico‐generated search model of SARS‐CoV‐2 ORF8
Bordogna et al. Predicting the accuracy of protein–ligand docking on homology models
US9483610B2 (en) Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
Fiser Comparative protein structure modelling
Caflisch Computational combinatorial ligand design: application to human α-thrombin
Joo et al. Protein structure modeling for CASP10 by multiple layers of global optimization
Charles et al. Accounting for linkage disequilibrium in association analysis of diverse populations
US20070134662A1 (en) Structural interaction fingerprint
Landim-Vieira et al. Post-translational modification patterns on β-myosin heavy chain are altered in ischemic and nonischemic human hearts
Samsonov et al. Modeling large protein–glycosaminoglycan complexes using a fragment‐based approach
JP2003528288A (ja) 高分子の三次元形状の決定方法
TWI746485B (zh) 用於驗證蛋白質的一級結構的方法
Nikiforovich et al. Modeling the possible conformations of the extracellular loops in G‐protein‐coupled receptors
Indrischek et al. The paralog-to-contig assignment problem: high quality gene models from fragmented assemblies
Rayan et al. Stochastic algorithm for kinase homology model construction
Tambi et al. Single-cell transcriptomics trajectory and molecular convergence of clinically relevant mutations in Brugada syndrome
Yang et al. Fine-mapping in admixed populations using CARMA-X, with applications to Latin American studies
KR20160101706A (ko) 자궁수축억제제 부작용 방지를 위한 개인별 단백질 손상 정보 기반의 자궁수축억제제 선택 방법
Saunders et al. Protein structure prediction begins well but ends badly
Bolz et al. The structural basis of drugs targeting protein-protein interactions uncovered with the protein-ligand interaction profiler PLIP

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200880115496.X

Country of ref document: CN

ENP Entry into the national phase

Ref document number: 2009521050

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 08850939

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 12734515

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2008850939

Country of ref document: EP