WO2025028367A1 - 化合物ライブラリ生成方法、化合物ライブラリ生成システム、コンピュータプログラム及び学習モデルの生成方法 - Google Patents
化合物ライブラリ生成方法、化合物ライブラリ生成システム、コンピュータプログラム及び学習モデルの生成方法 Download PDFInfo
- Publication number
- WO2025028367A1 WO2025028367A1 PCT/JP2024/026484 JP2024026484W WO2025028367A1 WO 2025028367 A1 WO2025028367 A1 WO 2025028367A1 JP 2024026484 W JP2024026484 W JP 2024026484W WO 2025028367 A1 WO2025028367 A1 WO 2025028367A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- compound
- compounds
- target substance
- information
- binding ability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/60—In silico combinatorial chemistry
- G16C20/62—Design of libraries
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
Definitions
- the present invention relates to a compound library generation method, a compound library generation system, a computer program, and a learning model generation method.
- a compound library contains a large number of compounds. It takes time and money to search through the large number of compounds contained in a compound library for compounds that have the ability to bind to a target. To efficiently find useful compounds, a compound library that contains a high proportion of compounds that have the ability to bind to a target is desirable.
- the main objective of this disclosure is to provide a compound library generation method and the like that can realize the construction of a compound library that increases the proportion of compounds that have the ability to bind to a target.
- a computer executes a process of acquiring information on a plurality of compounds stored in a first compound library, classifying the plurality of compounds stored in the first compound library into a group of compounds that have the ability to bind to a target substance and a group of compounds that do not have the ability to bind to a target substance, using a learning model that has been trained to output information indicating the binding ability of the compounds to a target substance when the compound information of the compounds is input, and generating a second compound library including the compounds classified into the group of compounds that have the ability to bind to the target substance.
- the compound library generation system includes a control unit that acquires information on a plurality of compounds stored in a first compound library, and classifies the plurality of compounds stored in the first compound library into a group of compounds that have the ability to bind to a target substance and a group of compounds that do not have the ability to bind to a target substance, using a learning model that has been trained to output information indicating the binding ability of the compounds to a target substance when the compound information of the compounds is input, and executes a process of generating a second compound library including the compounds classified into the group of compounds that have the ability to bind to the target substance.
- a computer program causes a computer to execute a process of acquiring information on a plurality of compounds stored in a first compound library, classifying the plurality of compounds stored in the first compound library into a group of compounds that have the ability to bind to a target substance and a group of compounds that do not have the ability to bind to a target substance, using a learning model that has been trained to output information indicating the binding ability of the compounds to a target substance when the compound information of the compounds is input, and generating a second compound library including the compounds classified into the group of compounds that have the ability to bind to the target substance.
- a method for generating a learning model acquires training data for a plurality of compounds stored in a compound library, the training data including compound information indicating the structure or properties of the compound and information indicating the binding ability to a target substance, and generates a learning model trained to output information indicating the binding ability to a target substance when compound information is input based on the acquired training data.
- the present disclosure makes it possible to construct a compound library that increases the proportion of compounds that have the ability to bind to a target.
- FIG. 1 is a diagram showing an overview of a compound library generation system according to an embodiment of the present invention.
- 2 is a block diagram showing an example of the configuration of an information processing device and a terminal device;
- FIG. 2 is an explanatory diagram showing an overview of a learning model and an example of the contents of information stored in a training DB.
- 13 is a flowchart illustrating an example of a learning model generation processing procedure.
- 13 is a flowchart illustrating an example of a procedure for generating a focused library.
- 13 is a flowchart illustrating an example of a learning model generation processing procedure executed by an information processing apparatus according to a second embodiment.
- 13 is a flowchart illustrating an example of a procedure for generating a predicted value of combined information according to the third embodiment.
- 13 is an explanatory diagram showing an overview of a learning model of the fourth embodiment and an example of the contents of information stored in a training DB.
- First Embodiment 1 is a diagram showing an overview of a compound library generation system 100 according to the present embodiment.
- the compound library generation system 100 includes an information processing device 1 as a main device.
- the information processing device 1 is communicably connected to a terminal device 2 via a network N such as the Internet.
- the number of terminal devices 2 may be one or three or more.
- the information processing device 1 is a device capable of various types of information processing and sending and receiving information, and is, for example, a server computer, a personal computer, a quantum computer, etc.
- the terminal device 2 is an information processing terminal used by a person in charge of a drug discovery company, which is an example of a user.
- the terminal device 2 is, for example, a personal computer, a smartphone, a tablet terminal, etc.
- the information processing device 1 receives, via the terminal device 2, a basic library 31, which is a compound library held by a drug discovery company.
- the information processing device 1 generates a focused library 32 according to the received basic library 31, and provides the generated focused library 32 to the drug discovery company via the terminal device 2.
- the basic library 31 corresponds to the first compound library
- the focused library 32 corresponds to the second compound library.
- the basic library 31 is a compound library that manages compounds in a database.
- the basic library 31 contains a large number of compounds, including compounds obtained in past drug discovery research at drug discovery companies, compounds obtained from outside, and the like.
- the basic library 31 contains information on each of these compounds, such as the compound name, structural formula, physical properties, and physiochemical characteristics.
- the basic library 31 may be a library that is independently held by a company, and contains information on a large number of compounds that are independently owned by the drug discovery company.
- the focused library 32 is a compound library generated based on the basic library 31, and is a library that selectively stores compounds having the desired properties among the compounds stored in the basic library 31. More specifically, the focused library 32 selectively stores compounds that have activity against a target substance.
- the target substance may be any of DNA, RNA, proteins, etc.
- compound discovery involves screening the group of compounds in the basic library 31 to find effective candidate compounds. It takes a lot of time and money to investigate the activity of all the compounds in the basic library 31 against a target substance. This system improves the efficiency of screening work by providing a focused library 32 that has a higher proportion of compounds that are active against the target substance.
- the target substance is RNA
- a focused library 32 is generated in which the proportion of low molecular weight compounds that bind to the target RNA is increased.
- the target RNA may be non-translated RNA.
- FIG. 2 is a block diagram showing an example of the configuration of the information processing device 1 and the terminal device 2.
- the information processing device 1 includes a control unit 11, a storage unit 12, a communication unit 13, a display unit 14, an operation unit 15, and an input/output unit 16.
- the information processing device 1 may be a multi-computer consisting of multiple computers, or may be a virtual machine virtually constructed by software.
- the control unit 11 has one or more arithmetic processing devices such as a CPU (Central Processing Unit), an MPU (Micro-Processing Unit), or a GPU (Graphics Processing Unit).
- the control unit 11 controls each component to execute processing using built-in memory such as a ROM (Read Only Memory) or RAM (Random Access Memory), a clock, a counter, etc.
- Each functional unit of the information processing device 1 may be realized by software, hardware (e.g., an FPGA or ASIC), or a combination of these.
- the memory unit 12 includes a non-volatile memory such as a hard disk, a flash memory, or an SSD (Solid State Drive).
- the memory unit 12 may be an external storage device connected to the information processing device 1.
- the memory unit 12 stores various computer programs and data referenced by the control unit 11.
- the memory unit 12 of this embodiment stores a program 1P for causing a computer to execute processing related to the generation of the focused library 32, a learning model 121, and a training DB (Data Base) 122.
- the learning model 121 is a model generated by machine learning. It is expected that the learning model 121 will be used as a program module that constitutes part of artificial intelligence software.
- a computer program (computer program product) including program 1P may be provided by a non-transitory recording medium 1A on which the computer program is recorded in a readable manner.
- the storage unit 12 stores the computer program read from the recording medium 1A by a reading device (not shown).
- the recording medium 1A is, for example, a magnetic disk, an optical disk, or a semiconductor memory.
- the computer program may also be downloaded from an external server connected to a communications network and stored in the storage unit 12.
- Program 1P may be a single computer program or may be composed of multiple computer programs, and may be executed on a single computer or on multiple computers interconnected by a communications network.
- the communication unit 13 includes a communication module that communicates with external devices via the network N.
- the control unit 11 transmits and receives various information to and from the terminal device 2 via the communication unit 13.
- the display unit 14 includes a display device such as a liquid crystal display or an organic EL (Electro Luminescence) display.
- the display unit 14 displays information to be notified to the user according to instructions from the control unit 11.
- the operation unit 15 is an interface that accepts operations from the user.
- the operation unit 15 includes, for example, a keyboard, a mouse, a touch panel device with a built-in display, a speaker, and a microphone.
- the operation unit 15 accepts operation input from the user and sends a control signal according to the operation content to the control unit 11.
- the input/output unit 16 has an input/output interface that connects to an external device via a wired or wireless connection.
- the detection device 4 is connected to the input/output unit 16.
- the detection device 4 is a device that detects the interaction between the target RNA and the compound.
- the detection device 4 measures the interaction between the target RNA and the compound, for example, using surface plasmon resonance (SPR).
- SPR surface plasmon resonance
- the interaction analysis method is not limited to SPR, and may be, for example, isothermal titration calorimetry, mass spectrometry, nuclear magnetic resonance spectroscopy, melting temperature measurement, absorption spectroscopy, fluorescence spectroscopy, circular dichroism spectroscopy, etc.
- the detection device 4 outputs detection data obtained by detection to the information processing device 1.
- the information processing device 1 may acquire the detection data stored in a specified memory area through the detection device 4.
- the terminal device 2 includes a control unit 21, a memory unit 22, a communication unit 23, a display unit 24, and an operation unit 25.
- the control unit 21 includes one or more arithmetic processing units such as a CPU, an MPU, or a GPU.
- the control unit 11 uses built-in memory such as ROM or RAM, a clock, a counter, etc. to control each component and execute processing.
- the storage unit 22 includes a non-volatile memory such as a hard disk, a flash memory, or an SSD.
- the storage unit 22 stores various computer programs and data referenced by the control unit 21.
- the storage unit 22 stores a program 2P for causing a computer to execute processing related to the acquisition of a focused library 32, and a basic library 31.
- the storage unit 22 may also store a focused library 32 received from the information processing device 1.
- the communication unit 23 includes a communication module that realizes communication via the network N.
- the display unit 24 includes a display device such as a liquid crystal display or an organic EL display.
- the operation unit 25 is an interface that accepts user operations.
- the operation unit 25 includes, for example, a keyboard, a mouse, a touch panel device with a built-in display, a speaker, a microphone, etc.
- Figure 3 is an explanatory diagram showing an overview of the learning model 121 and an example of the information stored in the training DB 122.
- the training DB 122 is a database that stores training data used for training the learning model 121. As shown in FIG. 3, the training DB 122 stores records that link compound information and binding information, etc., using a compound ID that identifies the compound as a key.
- the group of compounds that make up the training data i.e., the multiple compounds included in the training DB 122, are a portion of the compounds extracted from the compounds stored in the basic library 31.
- Compound information includes information that represents the structure or physical properties of a compound.
- Compound information includes, for example, molecular descriptors of the compound.
- Molecular descriptors are numerical representations of the structural features and physicochemical properties of a substance to make them easier to handle on a computer.
- Molecular descriptors can be calculated from the structural formula of a substance, and can be obtained using known software such as alvaDesc, Dragon, Codessa, RDKit, and modred.
- Compound information may include values of multiple types of molecular descriptors.
- Compound information is not limited to molecular descriptors, but may also include, for example, structural formulas expressed as character strings according to the SMILES (Simplified Molecular Input Line Entry System) notation, molecular graphs in which chemical structural formulas are converted into graph information, etc.
- SMILES Simple Molecular Input Line Entry System
- the binding information is information indicating the binding ability to the target RNA, and includes the presence or absence of the compound's binding ability to the target RNA.
- the binding information may further include the degree of binding strength to the target RNA, the binding ratio, the presence or absence of structural changes upon binding, etc.
- the binding information is obtained by analyzing detection data indicating the interaction between the compound and the target RNA obtained by an experiment using the detection device 4. For example, as an indicator for determining the presence or absence of binding ability, it can be determined that the compound has binding ability when the Resonance Unit (RU value) of the SPR signal obtained from the compound is equal to or greater than a preset threshold value.
- RU value Resonance Unit
- the bond information used in the training data may be a simulation value obtained by a specified algorithm.
- Examples of calculation methods for the simulation value include quantum chemical calculations and molecular dynamics calculations.
- the simulation value obtained by each calculation method can be obtained using known theoretical calculation software.
- the learning model 121 receives compound information of a compound and outputs binding information indicating the binding ability of the compound to a specific target RNA.
- the specific target RNA recognized by the learning model 121 is also referred to as the first target RNA.
- the learning model 121 of this embodiment outputs a classification result indicating the presence or absence of binding ability to the first target RNA, i.e., whether or not the compound has binding ability.
- the learning model 121 is used in the compound selection process when generating the focused library 32.
- the learning model 121 is constructed, for example, by a random forest.
- the information processing device 1 creates multiple decision trees with low correlation by randomly selecting features to be used in model construction based on data sampled from the training data, and generates the learning model 121 using the multiple decision trees.
- the final output of the learning model 121 is the majority vote or average of the estimated values from each decision tree.
- the compound information that is input to the learning model 121 includes multiple molecular descriptors.
- the compound information may also include a SMILES string, a molecular graph, etc.
- One or more types of molecular descriptors selected from a large number may be input to the learning model 121.
- the type of molecular descriptor to be input to the learning model 121 can be set appropriately depending on the type of the first target RNA.
- the molecular descriptor to be input to the learning model 121 is automatically determined by the information processing device 1 based on the contribution of the input information obtained when learning the learning model 121.
- the information processing device 1 executes an estimation process using the learning model 121 using a predetermined number of molecular descriptors selected in advance, thereby calculating the contribution (variable importance) of each molecular descriptor in estimating binding information in the learning model 121.
- the contribution can be calculated based on, for example, SHAP (Shapley Additive exPlanation) values, Gini coefficients, oob (out-of-bag) data, LIME (Local Interpretable Model-Agnostic Explanations), etc.
- the information processing device 1 determines the molecular descriptors to be used as input information to the learning model 121 by preferentially selecting a predetermined number of molecular descriptors set in advance in descending order of contribution based on the calculated contribution of each molecular descriptor.
- the above-mentioned process makes it possible to identify molecular descriptors suitable for input to the learning model 121 from among the many defined molecular descriptors.
- the binding information that is output from the learning model 121 includes whether or not the compound has the binding ability to the first target RNA.
- the learning model 121 can be generated by preparing training data in which the presence or absence of binding ability to the first target RNA, which is the correct answer value, is labeled for each compound information, and using the training data to machine-learn an unlearned model.
- the information processing device 1 inputs compound information in the training data to the learning model 121, and learns the learning model 121 so that the output from the learning model 121 approximates the correct value.
- the information processing device 1 generates the learning model 121 by adjusting the parameters in the learning model 121 using the presence or absence of binding ability associated with the input compound information as the correct value.
- the output information from the learning model 121 is not limited to the presence or absence of binding ability to the first target RNA.
- the learning model 121 may be configured to further output, for example, the degree of binding strength to the first target RNA, the binding ratio, the presence or absence of structural change upon binding, etc.
- the configuration of the learning model 121 is not limited to the example shown in FIG. 3, and it is sufficient if it is capable of identifying information indicating binding ability to target RNA from compound information.
- the learning model 121 may be a model based on other learning algorithms, such as a Convolution Neural Network (CNN), a Recurrent Neural Network (RNN), a Graph Neural Network (GNN), a Transformer, a Support Vector Machine, Logistic Regression, or an eXtreme Gradient Boosting (XGBoost).
- CNN Convolution Neural Network
- RNN Recurrent Neural Network
- GNN Graph Neural Network
- XGBoost eXtreme Gradient Boosting
- the learning model 121 may be composed of multiple individual learning models constructed by different learning algorithms.
- the learning model 121 may include, for example, a first individual learning model constructed by random forest and a second individual learning model constructed by XGBoost.
- the compound library generation system 100 constructs a learning model 121 using training data generated based on compound information of some of the compounds stored in the basic library 31.
- the obtained learning model 121 is used to estimate the presence or absence of binding ability in the large number of compounds stored in the basic library 31, and compounds estimated to have binding ability are extracted to generate a new focused library 32.
- the processing method for generating the focused library 32 is described in detail below.
- FIG. 4 is a flowchart showing an example of a process for generating the learning model 121.
- the processes in each of the following flowcharts are executed by the control unit 11 in accordance with the program 1P stored in the storage unit 12 of the information processing device 1.
- the control unit 11 of the information processing device 1 receives from the user, via the terminal device 2, the selection of the target RNA to be generated as the focused library 32, and user identification information to identify the user (step S11).
- the control unit 11 receives information indicating the name and structure of the target RNA from the terminal device 2, for example, based on the user's operation of the operation unit 25.
- the user can select any target RNA (e.g., a first target RNA) depending on the purpose of the drug discovery research.
- the control unit 11 acquires a compound group including a plurality of compounds to be used in the training data through the terminal device 2 (step S12).
- the compound group is extracted from the compounds stored in the basic library 31.
- the control unit 11 receives from the terminal device 2 information on the compounds stored in the basic library 31 that is necessary for the processing described below (e.g., the compound's name, molecular structure, necessary physical properties, etc.) for each compound included in the compound group.
- the user can arbitrarily select compounds to be used in the training data according to the purpose of the drug discovery research.
- the user determines the number of compounds to be used in the training data according to the time and cost allowed for generating the training data, and extracts compounds from the basic library 31 so that the number is the determined number.
- the compound group to be used in the training data may be determined by the information processing device by randomly extracting a predetermined number from the basic library 31.
- the control unit 11 acquires binding information for each compound included in the acquired compound group, including the presence or absence of binding ability to the first target RNA, the degree of binding strength, the binding ratio, the presence or absence of structural changes upon binding, etc. (step S13).
- the binding information for the first target RNA is obtained by analyzing the interaction between each compound and the target RNA detected using the detection device 4.
- the control unit 11 may acquire the binding information by, for example, accepting a manually determined result of the binding ability via the operation unit 15 or the communication unit 13, or may automatically derive the binding information based on the detection data accepted from the detection device 4 via the input/output unit 16.
- the control unit 11 acquires compound information for each compound included in the compound group (step S14). For example, the control unit 11 derives a structural formula using the SMILES notation from the molecular structure of the compound acquired in step S12, and calculates multiple types of molecular descriptors that are set in advance based on the derived structural formula.
- the control unit 11 associates the obtained compound information with information indicating binding ability and stores them in the training DB 122 (step S15). Through the above process, training data is generated.
- the control unit 11 acquires training data in which the compound information of the training compound is assigned with the presence or absence of binding ability to the first target RNA based on the information stored in the training DB 122 (step S16).
- the control unit 11 uses the acquired training data to generate a learning model 121 that outputs the presence or absence of binding ability of the compound to the first target RNA when compound information of the compound is input (step S17). Specifically, the control unit 11 inputs the compound information contained in the training data to the learning model 121, and optimizes various parameters so that the output from the learning model 121 approximates the correct value. For example, when the learning is completed because the number of learning times meets a predetermined standard, the control unit 11 stores definition information regarding the learned learning model 121 in the storage unit 12 as the learned learning model 121.
- the learning model 121 is constructed by the processes from step S16 to step S17.
- the group of compounds used as training data for generating the learning model 121 is not limited to being extracted from compounds stored in the basic library 31, i.e., the library from which the focused library 32 is generated.
- the learning model 121 may be constructed using training data information from a compound library other than the library from which the focused library 32 is generated.
- FIG. 5 is a flowchart showing an example of a process for generating the focused library 32. After completing step S17 in the flowchart of FIG. 4, for example, the control unit 11 of the information processing device 1 executes the following process.
- the control unit 11 of the information processing device 1 receives the basic library 31 held by the user from the terminal device 2 (step S21).
- the control unit 11 may receive only the information required for the processing described below (e.g., the compound's name, molecular structure, etc.) from the information related to each compound contained in the basic library 31.
- the control unit 11 obtains information on compounds to be evaluated among the compounds contained in the basic library 31.
- the compounds to be evaluated may be all compounds stored in the basic library 31, or a portion selected from all the compounds.
- the control unit 11 acquires compound information including molecular descriptors, structural formulas, molecular graphs, etc. for each compound in the acquired basic library 31 (step S22).
- the control unit 11 inputs the acquired compound information for each compound into the learning model 121 (step S23), and acquires the presence or absence of binding ability output from the learning model 121 (step S24).
- the control unit 11 classifies each compound in the basic library 31 into either a hit group or a non-hit group based on the obtained estimation result of the presence or absence of binding ability (step S25).
- the hit group is a group to which compounds that have the ability to bind to the first target RNA belong
- the non-hit group is a group to which compounds that do not have the ability to bind to the first target RNA belong.
- the processing of step S25 corresponds to a selection process that selects compounds that have the ability to bind to the first target RNA from the basic library 31.
- the control unit 11 obtains a score that quantifies the priority of each compound classified into the hit group (step S26).
- the priority is quantified so that the higher the probability that the compound has the ability to bind to the first target RNA, the higher the score.
- the control unit 11 obtains a value of the classification accuracy in the learning model 121, and can use the obtained classification accuracy as the score.
- the classification accuracy can be obtained, for example, from the proportion of decision trees that match the estimate, the confidence level for the classification class at the output node, etc.
- the control unit 11 Based on the classification results, the control unit 11 generates a focused library 32 including the compounds classified into the hit group (step S27). In this case, the control unit 11 ranks each compound classified into the hit group in descending order of score based on the priority score, and stores the compounds in the focused library 32 in descending order.
- the generated focused library 32 only needs to include information that allows recognition of the compounds included in the focused library 32, and may be in the form of a compound list that displays multiple compound names in order of score, for example.
- the focused library 32 may be associated with a score for each compound.
- the control unit 11 transmits the generated focused library 32 to the terminal device 2 corresponding to the user identified by the user identification information, i.e., the user of the basic library 31 (step S28), and ends the series of processes.
- the user searches for drug discovery targets using the focused library 32 provided by the information processing device 1.
- the focused library 32 is composed of compounds that are estimated by the learning model 121 to have binding ability to the first target RNA, so that compounds that have activity against the first target RNA can be obtained with a high hit rate.
- the information processing device 1 Every time the information processing device 1 receives from the terminal device 2 a request to generate a focused library 32 targeting a new target RNA, it repeatedly executes a series of processes including the generation of training data, the generation of a learning model 121, and the generation of a focused library 32 described above. That is, different learning models 121 are prepared according to the type of target RNA, and compounds are selected using the learning models 121 corresponding to each prepared target RNA.
- the information processing device 1 When a selection of a second target RNA is received from the user as the target substance, the information processing device 1 generates a learning model 121 that estimates binding information regarding the second target RNA, and generates a new focused library 32 by evaluating the binding ability of each compound to the second target RNA using the learning model 121.
- control unit 11 may omit the score acquisition process in step S26.
- control unit 11 may further select compounds to be stored in the focused library 32 based on the score acquired in step S26.
- the control unit 11 may generate the focused library 32 by extracting only compounds whose scores are equal to or greater than a threshold value, for example.
- the control unit 11 may classify the compounds in the basic library 31 taking into account these estimation results. For example, the control unit 11 classifies the compounds into three or more groups according to the presence or absence of binding ability to the first target RNA and the binding strength. The control unit 11 stores compounds belonging to groups according to preset selection criteria (e.g., having binding ability and strong binding strength) in the focused library 32.
- preset selection criteria e.g., having binding ability and strong binding strength
- the control unit 11 may repeatedly perform classification using the learning model 121 multiple times, calculate a total score that is the sum of the priorities calculated each time, and perform ranking based on the calculated total score.
- the control unit 11 may ultimately extract a predetermined number of compounds, for example, in descending order of total score, or compounds whose total score is equal to or greater than a preset threshold, and record the extracted compounds in the focused library 32.
- the control unit 11 may classify the compounds into a hit group and a non-hit group based on the output results of each individual learning model.
- the control unit 11 obtains the presence or absence of binding ability output from each individual learning model for a certain compound.
- a classification result indicating that a compound has binding ability is obtained from all individual learning models or from individual learning models equal to or greater than a preset threshold, the control unit 11 classifies the compound into a hit group.
- the compounds to be evaluated may include compounds that are included in a compound group.
- the compounds included in the compound group may be classified into a hit group or a non-hit group based on binding information obtained by actual measurement, instead of estimation using the learning model 121.
- the focused library 32 is not limited to containing only compounds that are presumed to have the ability to bind to the first target RNA, but may also contain some compounds that are presumed not to have the ability to bind to the first target RNA.
- a high-quality focused library 32 can be generated based on the user's basic library 31, with an increased proportion of compounds that have the ability to bind to the target RNA.
- generating the focused library 32 by extracting compounds from the basic library 31 owned by a drug discovery company, it is possible to provide a focused library 32 that can improve search efficiency while ensuring originality.
- the learning model 121 By using the learning model 121, compounds can be selected from the basic library 31 efficiently and accurately. By generating training data by evaluating the interaction between the compound and the target substance through actual measurement, the estimation accuracy of the learning model 121 is improved. By generating the learning model 121 according to the first target RNA, the binding ability to the first target RNA can be accurately estimated using the learning model 121.
- (Modification) 5 may be executed by the terminal device 2. In this case, the processes of steps S21 and S28 may be omitted.
- the information processing device 1 executes the generation process of the learning model 121 shown in FIG. 4 and stores the generated learning model 121 in an area accessible to the terminal device 2.
- the information processing device 1 may deploy the generated learning model 121 to the terminal device 2.
- the terminal device 2 accesses the learning model 121 stored in an external device or references the memory unit 22 of its own device to read the learning model 121, and executes the processes of steps S22 to S27 using the read learning model 121 to execute compound selection processing, etc.
- the above configuration allows the focused library 32 to be generated on the terminal device 2 side. This eliminates the need to provide information on the compounds to be evaluated from the terminal device 2 to the information processing device 1, improving the confidentiality of the basic library 31.
- Second Embodiment In the second embodiment, a part of the compounds that do not have the ability to bind to the first target RNA is removed from the compounds contained in the compound group.
- differences from the first embodiment will be mainly described, and the same reference numerals will be used to designate the same components as the first embodiment, and detailed description thereof will be omitted.
- the multiple compounds included in the training DB122 i.e., the multiple compounds included in the group of compounds selected from the basic library 31, include compounds with binding ability and compounds without binding ability as binding information obtained by interaction analysis. It is assumed that the number of compounds included in the group of compounds that do not have binding ability to the first target RNA is greater than the number of compounds that have binding ability to the first target RNA. In other words, it is assumed that the data included in the training DB122 is imbalanced data in which there is a bias in the ratio of compounds with binding ability and compounds without binding ability.
- the information processing device 1 of the second embodiment aims to improve the accuracy of the learning model 121 by eliminating some of the compounds that do not have binding ability included in the compound group.
- FIG. 6 is a flowchart showing an example of a process for generating a learning model 121 executed by the information processing device 1 of the second embodiment.
- the control unit 11 of the information processing device 1 executes the processes from step S11 to step S15 of the first embodiment, thereby storing the compound information and binding information of all compounds in the compound group acquired in step S15 in the training DB 122. Based on the compound information of each compound stored in the training DB 122, the control unit 11 classifies each compound included in the compound group into compounds that have binding ability to the first target RNA and compounds that do not have binding ability to the first target RNA (step S31).
- the control unit 11 removes some of the compounds that do not have the ability to bind to the first target RNA from among the compounds included in the compound group (step S32).
- the control unit 11 thins out the compounds that do not have the ability to bind to the first target RNA so that the ratio of compounds in the compound group that have the ability to bind to the first target RNA to compounds that do not have the ability to bind (number of compounds that have the ability to bind: number of compounds that do not have the ability to bind) is, for example, 1:1, 1:4, 1:8, 1:16, etc.
- the above ratio is one example, and the ratio in the removal process is not necessarily limited to this value.
- control unit 11 executes processing similar to steps S16 to S17 to use the data of the compound group after removing some of the compounds as training data and generate a learning model 121.
- a learning model 121 is generated that estimates binding information for other target substances using predicted values of binding information for other target substances generated based on binding information for a specific target substance and correlations between the target substances.
- the learning model 121 is trained using training data that associates compound information with binding information.
- predicted values of binding information are used as training data instead of binding information as actual measurement data using a specified mutual analysis method.
- the predicted values of binding information can be calculated using binding information already obtained by actual measurement, taking into account the correlation between multiple target RNAs.
- FIG. 7 is a flowchart showing an example of a process procedure for generating predicted values of binding information in the third embodiment.
- the new target substance is a second target RNA in which adenine at a specific position in the RNA structure of the first target RNA is replaced with uracil.
- the control unit 11 of the information processing device 1 calculates a correlation coefficient that indicates the strength of the correlation function between the first target RNA and the second target RNA (step S41).
- the correlation coefficient between the first target RNA and the second target RNA is calculated, for example, by comprehensively evaluating the difference in the material structure between the first target RNA and the second target RNA, specifically the difference between adenine and uracil, using various indices related to the material (for example, the number of hydrogen bond donors, the number of hydrogen bond acceptors, surface area, volume, etc.).
- the control unit 11 derives a predicted value of binding information for the second target RNA based on the calculated correlation degree and the binding information for the first target RNA stored in the training DB 122 (step S42). For example, the control unit 11 determines a predicted value of the presence or absence of binding ability for the second target RNA by taking into account the calculated correlation degree in addition to the presence or absence of binding ability for the first target RNA.
- the control unit 11 stores the compound information and the predicted value of the binding information for the second target RNA in the training DB 122 as training data (step S43).
- control unit 11 executes the same processes as steps S16 to S17 of the first embodiment to generate a learning model 121 that uses training data including predicted values of binding information for the second target RNA to estimate the presence or absence of binding ability for the second target RNA for the compound information.
- the control unit 11 generates a focused library 32 for the second target RNA by selecting compounds that have binding ability for the second target RNA using the generated learning model 121.
- the time and cost required for experiments to generate training data can be reduced, making it easier to generate a focused library 32.
- a learning model 121 capable of estimating binding information for various target RNAs is generated.
- FIG. 8 is an explanatory diagram showing an overview of the learning model 121 of the fourth embodiment and an example of the content of information stored in the training DB 122.
- the learning model 121 of the fourth embodiment receives compound information of a compound and target substance information of a target substance as input, and outputs binding information of the compound to the target substance.
- the target substance information includes information about the target substance, such as information representing the substance name, primary structure (sequence), secondary structure, etc. of the target substance.
- the information processing device 1 accumulates, for example, binding information acquired in the generation process of the focused library 32 targeting multiple types of target substances in the training DB 122. Based on the accumulated information, the information processing device 1 generates training data in which the binding information of the compound to the target substance is labeled as a correct value for the compound information of the compound and the target substance information of the target substance. The information processing device 1 trains the learning model 121 using the generated training data. The learning model 121 trained in this way makes it possible to estimate binding information for a variety of target substances.
- binding information for a variety of target substances can be estimated using a single learning model, making it unnecessary to generate a learning model 121 for each type of target substance, and facilitating the generation of a focused library 32.
- REFERENCE SIGNS LIST 100 Compound library generation system 1 Information processing device 11 Control unit 12 Memory unit 13 Communication unit 14 Display unit 15 Operation unit 16 Input/output unit 121 Learning model 122 Training DB 1P program 1A recording medium 2 terminal device 21 control unit 22 storage unit 23 communication unit 24 display unit 25 operation unit 2P program 2A recording medium 31 basic library 32 focused library
Landscapes
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Computing Systems (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medicinal Chemistry (AREA)
- Library & Information Science (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
標的に対する結合能を有する化合物の割合を高める化合物ライブラリの構築を実現することができる化合物ライブラリ生成方法等を提供する。 化合物ライブラリ生成方法は、第1化合物ライブラリに収納される複数の化合物の情報を取得し、化合物の化合物情報を入力した場合に標的物質に対する結合能を示す情報を出力するよう学習された学習モデルを用いて、前記第1化合物ライブラリに収納される複数の化合物を、標的物質への結合能を有する化合物群と、標的物質への結合能を有さない化合物群とに分類し、前記標的物質への結合能を有する化合物群に分類された化合物を含む第2化合物ライブラリを生成する処理をコンピュータが実行する。
Description
本発明は、化合物ライブラリ生成方法、化合物ライブラリ生成システム、コンピュータプログラム及び学習モデルの生成方法に関する。
創薬の分野において、多数の化合物を収納した化合物ライブラリを用いて、目的とする特性を有する化合物の探索を行うことが広く行われている。このような化合物探索に有用な化合物ライブラリの構築に関する技術が提案されている(例えば、特許文献1)。
化合物ライブラリには多数の化合物が収納されている。化合物ライブラリに収納される多数の化合物の中から、標的に対する結合能を有する化合物を探索するには、時間とコストを要する。効率的に有用な化合物を見出すために、標的に対する結合能を有する化合物の割合の高い化合物ライブラリが望まれる。
本開示の主な目的は、標的に対する結合能を有する化合物の割合を高める化合物ライブラリの構築を実現することができる化合物ライブラリ生成方法等を提供することである。
本開示の一態様に係る化合物ライブラリ生成方法は、第1化合物ライブラリに収納される複数の化合物の情報を取得し、化合物の化合物情報を入力した場合に標的物質に対する結合能を示す情報を出力するよう学習された学習モデルを用いて、前記第1化合物ライブラリに収納される複数の化合物を、標的物質への結合能を有する化合物群と、標的物質への結合能を有さない化合物群とに分類し、前記標的物質への結合能を有する化合物群に分類された化合物を含む第2化合物ライブラリを生成する処理をコンピュータが実行する。
本開示の一態様に係る化合物ライブラリ生成システムは、第1化合物ライブラリに収納される複数の化合物の情報を取得し、化合物の化合物情報を入力した場合に標的物質に対する結合能を示す情報を出力するよう学習された学習モデルを用いて、前記第1化合物ライブラリに収納される複数の化合物を、標的物質への結合能を有する化合物群と、標的物質への結合能を有さない化合物群とに分類し、前記標的物質への結合能を有する化合物群に分類された化合物を含む第2化合物ライブラリを生成する処理を実行する制御部を備える。
本開示の一態様に係るコンピュータプログラムは、第1化合物ライブラリに収納される複数の化合物の情報を取得し、化合物の化合物情報を入力した場合に標的物質に対する結合能を示す情報を出力するよう学習された学習モデルを用いて、前記第1化合物ライブラリに収納される複数の化合物を、標的物質への結合能を有する化合物群と、標的物質への結合能を有さない化合物群とに分類し、前記標的物質への結合能を有する化合物群に分類された化合物を含む第2化合物ライブラリを生成する処理をコンピュータに実行させる。
本開示の一態様に係る学習モデルの生成方法は、化合物ライブラリに収納される複数の化合物について、化合物の構造又は特性を示す化合物情報と、標的物質に対する結合能を示す情報とを含む訓練データを取得し、取得した前記訓練データに基づいて、化合物情報を入力した場合に標的物質に対する結合能を示す情報を出力するよう学習された学習モデルを生成する。
本開示によれば、標的に対する結合能を有する化合物の割合を高める化合物ライブラリの構築を実現することができる。
本開示をその実施の形態を示す図面を参照して具体的に説明する。
(第1実施形態)
図1は、本実施形態の化合物ライブラリ生成システム100の概要を示す図である。化合物ライブラリ生成システム100は、情報処理装置1を主たる装置として備える。情報処理装置1は、インターネット等のネットワークNを介して、端末装置2と通信可能に接続されている。端末装置2の数は1又は3以上であってもよい。
図1は、本実施形態の化合物ライブラリ生成システム100の概要を示す図である。化合物ライブラリ生成システム100は、情報処理装置1を主たる装置として備える。情報処理装置1は、インターネット等のネットワークNを介して、端末装置2と通信可能に接続されている。端末装置2の数は1又は3以上であってもよい。
情報処理装置1は、種々の情報処理、情報の送受信が可能な装置であり、例えばサーバコンピュータ、パーソナルコンピュータ、量子コンピュータ等である。端末装置2は、ユーザの一例である創薬企業の担当者に用いられる情報処理端末である。端末装置2は、例えばパーソナルコンピュータ、スマートフォン、タブレット端末等である。
情報処理装置1は、端末装置2を通じて、創薬企業の保持する化合物ライブラリである基本ライブラリ31を受け付ける。情報処理装置1は、受け付けた基本ライブラリ31に応じたフォーカストライブラリ32を生成し、生成したフォーカストライブラリ32を端末装置2を通じて創薬企業へ提供する。基本ライブラリ31は第1化合物ライブラリに対応し、フォーカストライブラリ32は第2化合物ライブラリに対応する。
基本ライブラリ31とは、化合物をデータベース化して管理する化合物ライブラリである。基本ライブラリ31には、例えば創薬企業における過去の創薬研究で得られた化合物、外部から入手した化合物等を含む大量の化合物が収納されている。基本ライブラリ31には、それら各化合物に関する化合物名、構造式、物性、生理化学特性等の情報が収録されている。基本ライブラリ31は、企業が独自に保持するライブラリであってよく、創薬企業が独自に有する多数の化合物の情報が収録されている。
フォーカストライブラリ32とは、基本ライブラリ31に基づき生成される化合物ライブラリであって、基本ライブラリ31に収納された化合物のうちの、目的とする特性を有する化合物を選別的に収納したライブラリである。より具体的には、フォーカストライブラリ32は、標的物質に対する活性能を有する化合物を選別的に収納する。標的の物質としては、DNA、RNA、タンパク質等のいずれであってもよい。
医薬分野における化合物探索においては、基本ライブラリ31における化合物群の中からスクリーニングを行い、有効な化合物の候補を見出すことが行われる。基本ライブラリ31に含まれる全ての化合物について標的物質に対する活性を調べるには、多大な時間と費用を要する。本システムでは、標的物質に対する活性を有する化合物の割合を高めたフォーカストライブラリ32を提供することで、スクリーニング作業の効率性向上を実現する。
以下では一例として、標的の物質がRNAであり、標的RNAに結合する低分子化合物の割合を高めたフォーカストライブラリ32を生成する場合を説明する。標的RNAは、非翻訳RNAであってもよい。
図2は、情報処理装置1及び端末装置2の構成例を示すブロック図である。情報処理装置1は、制御部11、記憶部12、通信部13、表示部14、操作部15、及び入出力部16を備える。情報処理装置1は複数のコンピュータからなるマルチコンピュータであってもよく、ソフトウェアによって仮想的に構築された仮想マシンであってもよい。
制御部11は、一又は複数のCPU(Central Processing Unit)、MPU(Micro-Processing Unit)、GPU(Graphics Processing Unit)等の演算処理装置を備える。制御部11は、内蔵するROM(Read Only Memory)又はRAM(Random Access Memory)等のメモリ、クロック、カウンタ等を用い、各構成部を制御して処理を実行する。なお、情報処理装置1の各機能部は、ソフトウェア的に実現してもよく、ハードウェア(例えばFPGA又はASIC)により実現されてもよく、それらの組合せによって実現されてもよい。
記憶部12は、例えばハードディスク、フラッシュメモリ、SSD(Solid State Drive)等の不揮発性メモリを備える。記憶部12は、情報処理装置1に接続された外部記憶装置であってもよい。記憶部12は、制御部11が参照する各種コンピュータプログラム及びデータを記憶する。本実施形態の記憶部12は、フォーカストライブラリ32の生成に関する処理をコンピュータに実行させるためのプログラム1Pと、学習モデル121と、訓練DB(Data Base)122とを記憶している。学習モデル121は、機械学習により生成されたモデルである。学習モデル121は、人工知能ソフトウェアの一部を構成するプログラムモジュールとしての利用が想定される。
プログラム1Pを含むコンピュータプログラム(コンピュータプログラム製品)は、当該コンピュータプログラムを読み取り可能に記録した非一時的な記録媒体1Aにより提供されてもよい。記憶部12は、不図示の読出装置によって記録媒体1Aから読み出されたコンピュータプログラムを記憶する。記録媒体1Aは、例えば磁気ディスク、光ディスク、半導体メモリ等である。また、通信ネットワークに接続されている外部サーバからコンピュータプログラムをダウンロードし、記憶部12に記憶させてもよい。プログラム1Pは、単一のコンピュータプログラムでも複数のコンピュータプログラムにより構成されるものでもよく、また、単一のコンピュータ上で実行されても通信ネットワークによって相互接続された複数のコンピュータ上で実行されてもよい。
通信部13は、ネットワークNを介した外部装置との通信を行う通信モジュールを備える。制御部11は、通信部13を介して端末装置2との間で各種情報の送受信を行う。
表示部14は、例えば液晶ディスプレイ、有機EL(Electro Luminescence)ディスプレイ等のディスプレイ装置を備える。表示部14は、制御部11からの指示に従ってユーザに報知すべき情報を表示する。
操作部15は、ユーザの操作を受け付けるインタフェースである。操作部15は、例えばキーボード、マウス、ディスプレイ内蔵のタッチパネルデバイス、スピーカ及びマイクロフォン等を備える。操作部15は、ユーザからの操作入力を受け付け、操作内容に応じた制御信号を制御部11へ送出する。
入出力部16は、有線又は無線により外部装置を接続する入出力インタフェースを備える。入出力部16には、検出装置4が接続されている。
検出装置4は、標的RNAと化合物との相互作用を検出する装置である。検出装置4は、例えば表面プラズモン共鳴法(SPR法)を用いて、標的RNAと化合物との相互作用を測定する。なお相互作用解析の手法は、SPR法に限らず、例えば等温滴定カロリメトリ法、質量分析法、核磁気共鳴スペクトル法、融解温度測定法、吸収スペクトル法、蛍光スペクトル法、円二色性スペクトル法等であってもよい。標的RNAと化合物との相互作用を解析することにより、標的RNAに対する結合能の有無、結合の強さの程度、結合の比率、結合時における構造変化の有無等を求めることができる。検出装置4は、検出により得られた検出データを情報処理装置1へ出力する。なお、情報処理装置1は、検出装置4を通じて所定の記憶領域に記憶された検出データを取得してもよい。
端末装置2は、制御部21、記憶部22、通信部23、表示部24、及び操作部25を備える。制御部21は、一又は複数のCPU、MPU、GPU等の演算処理装置を備える。制御部11は、内蔵するROM又はRAM等のメモリ、クロック、カウンタ等を用い、各構成部を制御して処理を実行する。
記憶部22は、例えばハードディスク、フラッシュメモリ、SSD等の不揮発性メモリを備える。記憶部22は、制御部21が参照する各種コンピュータプログラム及びデータを記憶する。記憶部22は、フォーカストライブラリ32の取得に関する処理をコンピュータに実行させるためのプログラム2Pと、基本ライブラリ31とを記憶している。記憶部22には、情報処理装置1から受け付けたフォーカストライブラリ32が記憶されていてもよい。
通信部23は、ネットワークNを介した通信を実現する通信モジュールを備える。表示部24は、例えば液晶ディスプレイ、有機ELディスプレイ等のディスプレイ装置を備える。操作部25は、ユーザの操作を受け付けるインタフェースである。操作部25は、例えばキーボード、マウス、ディスプレイ内蔵のタッチパネルデバイス、スピーカ及びマイクロフォン等を備える。
図3は、学習モデル121の概要及び訓練DB122に記憶される情報の内容例を示す説明図である。
訓練DB122は、学習モデル121の学習に用いる訓練データを格納するデータベースである。図3に示すように、訓練DB122には、例えば、化合物を識別する化合物IDをキーに、化合物情報及び結合情報等を紐付けたレコードが格納されている。訓練データを構成する化合物群、すなわち訓練DB122に含まれる複数の化合物は、基本ライブラリ31に収納される化合物の中から抽出された一部の化合物である。
化合物情報は、化合物の構造又は物性を表す情報を含む。化合物情報は、例えば化合物の分子記述子を含む。分子記述子は、物質の持つ構造的特徴や物理化学的特性等を計算機で扱いやすくするために数値化したものである。分子記述子は、物質の構造式から計算可能であり、公知のソフトウェア、例えばalvaDesc、Dragon、Codessa、RDKit、mordred等を用いて求めることができる。化合物情報には、複数種類の分子記述子の値が含まれてもよい。
化合物情報は、分子記述子に限らず、例えばSMILES(Simplified Molecular Input Line Entry System)記法等に従って文字列として表現された構造式、化学構造式をグラフ情報に変換した分子グラフ等を含んでもよい。
結合情報は、標的RNAに対する結合能を示す情報であり、化合物の標的RNAに対する結合能の有無を含む。結合情報にはさらに、標的RNAに対する結合の強さの程度、結合の比率、結合時における構造変化の有無等が含まれもよい。結合情報は、検出装置4を用いた実験により得られた化合物と標的RNAとの相互作用を示す検出データを解析することにより取得される。例えば、結合能の有無の判定指標としては、化合物から得られたSPRシグナルのResonance Unit(RU値)が予め設定される閾値以上である場合に結合能が有るとすることができる。
なお、訓練データに用いる結合情報は、所定のアルゴリズムにより求められたシミュレーション値であってもよい。シミュレーション値の計算手法としては、例えば量子化学計算、分子動力学計算等が挙げられる。各計算手法によるシミュレーション値は、公知の理論計算ソフトウェアを用いて求めることができる。
学習モデル121は、図3に示すように、化合物の化合物情報を入力として、当該化合物における特定の標的RNAに対する結合能を示す結合情報を出力する。以下、学習モデル121の認識対象となる特定の標的RNAを、第1標的RNAとも記載する。本実施形態の学習モデル121は、第1標的RNAに対する結合能の有無、すなわち結合能を有する又は結合能を有さないとの分類結果を出力する。学習モデル121は、フォーカストライブラリ32を生成する際の化合物の選別処理に用いられる。
学習モデル121は、例えばランダムフォレストにより構築される。情報処理装置1は、訓練データからサンプリングされたデータに基づいて、モデル構築に用いる特徴量をランダムに選択することで、相関の低い複数の決定木を作成し、当該複数の決定木を用いて学習モデル121を生成する。学習モデル121は、各決定木による推定値の多数決又は平均を最終出力とする。
学習モデル121への入力情報となる化合物情報は、複数の分子記述子を含む。化合物情報は、SMILES文字列、分子グラフ等を含んでもよい。
学習モデル121へ入力には、多数の中から選択された一又は複数種類の分子記述子が入力されてもよい。学習モデル121への入力となる分子記述子の種類は、第1標的RNAの種類に応じて適宜設定することができる。一例として、学習モデル121への入力とする分子記述子は、学習モデル121の学習の際に得られる入力情報の寄与度に基づき情報処理装置1により自動で決定される。
情報処理装置1は、予め選択された所定数の分子記述子を用いて学習モデル121による推定処理を実行することにより、学習モデル121での結合情報の推定における各分子記述子の寄与度(変数重要度)を算出する。寄与度は、例えばSHAP(SHapley Additive exPlanation)値、ジニ係数、oob(out-of-bag)データ、LIME(Local Interpretable Model-Agnostic Explanations)等に基づき算出することができる。情報処理装置1は、算出した各分子記述子の寄与度に基づき、寄与度の高い順に優先的に予め設定された所定数の分子記述子を選択することにより、学習モデル121への入力情報に用いる分子記述子を決定する。上述の処理により、多数定義されている分子記述子の中から学習モデル121への入力に適した分子記述子を特定することができる。
学習モデル121の出力情報となる結合情報は、化合物の第1標的RNAに対する結合能の有無を含む。
学習モデル121は、化合物情報に対し、正解値となる第1標的RNAに対する結合能の有無がラベル付けされた訓練データを用意し、当該訓練データを用いて未学習のモデルを機械学習させることにより生成することができる。
情報処理装置1は、訓練データにおける化合物情報を学習モデル121へ入力し、学習モデル121からの出力が正解値と近似するように学習モデル121を学習する。情報処理装置1は、入力される化合物情報に対応付けた結合能の有無を正解値として学習モデル121におけるパラメータを調整することにより、学習モデル121を生成する。上述の処理により、化合物情報に対し、第1標的RNAに対する結合能の有無を適切に出力可能に学習された学習モデル121を構築することができる。
なお、学習モデル121からの出力情報は第1標的RNAに対する結合能の有無に限らない。学習モデル121は、例えば第1標的RNAに対する結合の強さの程度、結合の比率、結合時における構造変化の有無等をさらに出力するよう構成されてもよい。
学習モデル121の構成は図3に示す例に限定されず、化合物情報に対し標的RNAに対する結合能を示す情報を識別可能であればよい。学習モデル121は、例えばCNN(Convolution Neural Network)、RNN(Recurrent Neural Network)、GNN(Graph Neural Network)、Transformer、サポートベクタマシン、ロジスティクス回帰、XGBoost(eXtreme Gradient Boosting)等、その他の学習アルゴリズムに基づくモデルであってもよい。
学習モデル121は、相異なる学習アルゴリズムにより構築された複数の個別学習モデルより構成されてもよい。学習モデル121は、例えば、ランダムフォレストにより構築された第1個別学習モデルと、XGBoostにより構築された第2個別学習モデルとを含んでもよい。
化合物ライブラリ生成システム100では、基本ライブラリ31に収納されている化合物のうちの一部の化合物の化合物情報に基づき生成した訓練データを用いて、学習モデル121を構築する。得られた学習モデル121を用いて、基本ライブラリ31に収納されている大量の化合物における結合能の有無を推定し、結合能を有すると推定された化合物を抽出することで、新たなフォーカストライブラリ32を生成する。以下、フォーカストライブラリ32の生成処理方法を詳述する。
図4は、学習モデル121の生成処理手順の一例を示すフローチャートである。以下の各フローチャートにおける処理は、情報処理装置1の記憶部12に記憶するプログラム1Pに従って制御部11によって実行される。
情報処理装置1の制御部11は、端末装置2を通じて、フォーカストライブラリ32の生成対象となる標的RNAの選択、及びユーザを識別するユーザ識別情報をユーザから受け付ける(ステップS11)。制御部11は、例えば、ユーザの操作部25の操作に基づき、標的RNAの名称や構造を表す情報を端末装置2から受信する。ユーザは、創薬研究の目的に応じて任意の標的RNA(例えば第1標的RNA)を選択することができる。
制御部11は、端末装置2を通じて、訓練データに用いる複数の化合物を含む化合物群を取得する(ステップS12)。化合物群は、基本ライブラリ31に収納される化合物の中から抽出される。制御部11は、ユーザの操作部25の操作に基づき、化合物群に含まれる各化合物について、基本ライブラリ31に収録された化合物の情報のうち、後述する処理に必要な情報(例えば、化合物の名称、分子構造、必要物性等)を端末装置2から受信する。ユーザは、創薬研究の目的に応じて任意に、訓練データに用いる化合物を選択することができる。ユーザは、訓練データの生成に許容される時間やコストに応じて訓練データに用いる化合物の数を決定し、決定した数となるよう基本ライブラリ31から化合物を抽出する。なお、訓練データに用いる化合物群は、基本ライブラリ31の中から所定数をランダムに抽出することにより情報処理装置が決定してもよい。
制御部11は、取得した化合物群に含まれる各化合物について、第1標的RNAに対する結合能の有無、結合の強さの程度、結合の比率、結合時における構造変化の有無等を含む結合情報を取得する(ステップS13)。第1標的RNAに対する結合情報は、検出装置4を用いて検出された各化合物と標的RNAとの相互作用を解析することにより求められる。制御部11は、例えば人手により行なわれた結合能の判定結果を操作部15又は通信部13を介して受け付けることで結合情報を取得してもよく、入出力部16を介して検出装置4から受け付けた検出データに基づき自動で結合情報を導出してもよい。
制御部11は、化合物群に含まれる各化合物について、化合物情報を取得する(ステップS14)。制御部11は、例えば、ステップS12で取得した化合物の分子構造からSMILES記法による構造式を導出し、導出した構造式に基づいて、予め設定される複数種類の分子記述子を計算する。
制御部11は、得られた化合物情報と結合能を示す情報とを対応付けて訓練DB122に記憶する(ステップS15)。上述の処理により、訓練データが生成される。
制御部11は、訓練DB122に記憶する情報に基づいて、訓練用の化合物の化合物情報に対し、第1標的RNAに対する結合能の有無が付与された訓練データを取得する(ステップS16)。
制御部11は、取得した訓練データを用いて、化合物の化合物情報を入力した場合に、当該化合物の第1標的RNAに対する結合能の有無を出力する学習モデル121を生成する(ステップS17)。具体的には、制御部11は、訓練データに含まれる化合物情報を学習モデル121へ入力し、学習モデル121からの出力が正解値と近似するように各種パラメータを最適化する。例えば学習回数が所定基準を満たすことによって学習が完了すると、制御部11は、学習済みの学習モデル121として、学習済みの学習モデル121に関する定義情報を記憶部12に記憶させる。ステップS16からステップS17までの処理により、学習モデル121が構築される。
学習モデル121を生成するための訓練データに用いる化合物群は、基本ライブラリ31、すなわちフォーカストライブラリ32の生成対象となるライブラリに収納される化合物の中から抽出される構成に限らない。学習モデル121は、フォーカストライブラリ32の生成対象とは異なる化合物ライブラリの情報を訓練データとして構築されてもよい。
図5は、フォーカストライブラリ32の生成処理手順の一例を示すフローチャートである。情報処理装置1の制御部11は、例えば図4のフローチャートにおけるステップS17の終了後、以下の処理を実行する。
情報処理装置1の制御部11は、ユーザの保持する基本ライブラリ31を端末装置2から受信する(ステップS21)。この場合において、制御部11は、基本ライブラリ31に含まれる各化合物に係る情報のうち、後述する処理に必要な情報(例えば、化合物の名称、分子構造等)のみを受信するものであってもよい。ステップS11では、制御部11は、基本ライブラリ31に含まれる化合物のうちの評価対象となる化合物の情報を取得する。評価対象となる化合物とは、基本ライブラリ31に収納されている全ての化合物であってもよく、全化合物の中から選択された一部であってもよい。
制御部11は、取得した基本ライブラリ31における各化合物について、分子記述子、構造式、分子グラフ等を含む化合物情報を取得する(ステップS22)。制御部11は、取得した各化合物の化合物情報を学習モデル121に入力し(ステップS23)、学習モデル121から出力される結合能の有無を取得する(ステップS24)。
制御部11は、取得した結合能の有無の推定結果に基づいて、基本ライブラリ31における各化合物を、ヒットグループ及びノンヒットグループのいずれかに分類する(ステップS25)。ヒットグループは、第1標的RNAへの結合能を有する化合物の属するグループであり、ノンヒットグループは第1標的RNAへの結合能を有さない化合物の属するグループである。ステップS25の処理は、基本ライブラリ31から第1標的RNAへの結合能を有する化合物を選別する選別処理に対応する。
制御部11は、ヒットグループに分類された各化合物の優先度を数値化したスコアを取得する(ステップS26)。優先度は、化合物における第1標的RNAへの結合能を有する可能性が高い程、スコアが大きくなるよう数値化される。制御部11は、学習モデル121における分類確度の値を取得し、取得した当該分類確度をスコアとすることができる。分類確度は、例えば推定に一致する決定木の割合、出力ノードにおける分類クラスに対する確信度等から得られる。
制御部11は、分類結果に基づいて、ヒットグループに分類された化合物を含むフォーカストライブラリ32を生成する(ステップS27)。この場合において、制御部11は、優先度のスコアに基づいて、ヒットグループに分類された各化合物をスコアの高い順に順位付けし、上位から順に化合物を並べてフォーカストライブラリ32に収録する。生成されるフォーカストライブラリ32は、少なくともフォーカストライブラリ32に含まれる化合物を認識できる情報を含んでいればよく、例えば複数の化合物名をスコア順に並べて表示する化合物リストの形式であってもよい。フォーカストライブラリ32には、各化合物のスコアが対応付けられていてもよい。
制御部11は、生成したフォーカストライブラリ32を、ユーザ識別情報にて識別されるユーザ、すなわち基本ライブラリ31のユーザに対応する端末装置2へ送信し(ステップS28)、一連の処理を終了する。
ユーザは、情報処理装置1から提供されたフォーカストライブラリ32を用いて創薬対象を探索する。フォーカストライブラリ32は、学習モデル121により第1標的RNAへの結合能を有すると推定された化合物により構成されているため、第1標的RNAへの活性を有する化合物を高いヒット率で得ることができる。
上記では、情報処理装置1が各フローチャートにおける一連の処理を実行する例を説明したが、各処理の処理主体は限定されない。各フローチャートにおける処理の一部は、端末装置2で実行されてもよい。
情報処理装置1は、新たな標的RNAを対象としたフォーカストライブラリ32の生成要求を端末装置2から受け付ける度、上述した訓練データの生成、学習モデル121の生成、フォーカストライブラリ32の生成を含む一連の処理を繰り返し実行する。すなわち、標的RNAの種類に応じて異なる学習モデル121を用意し、用意した各標的RNAに対応する学習モデル121を用いて化合物の選別を実行する。標的物質として、第2標的RNAの選択をユーザから受け付けた場合、情報処理装置1は、第2標的RNAに関する結合情報を推定する学習モデル121を生成し、当該学習モデル121を用いて各化合物の第2標的RNAに対する結合能を評価することにより、新たなフォーカストライブラリ32を生成する。
上述の処理において、制御部11は、ステップS26のスコアの取得処理を省略してもよい。あるいは、制御部11は、ステップS26で取得したスコアに基づいて、フォーカストライブラリ32に収納する化合物をさらに選別してもよい。制御部11は、例えばスコアが閾値以上である化合物のみを抽出してフォーカストライブラリ32を生成してもよい。
学習モデル121により結合の強さの程度、結合の比率、結合時における構造変化の有無等をさらに推定する場合、制御部11は、それらの推定結果を加味して基本ライブラリ31の化合物を分類してもよい。例えば、制御部11は、第1標的RNAへの結合能の有無及び結合の強さに応じて3以上のグループに化合物を分類する。制御部11は、予め設定された選別基準(例えば結合能を有する、且つ結合の強さが強い)に応じたグループに属する化合物をフォーカストライブラリ32に収納する。
制御部11は、学習モデル121による分類を多数回繰り返し実行し、各回で算出された優先度の合計値である合計スコアを算出し、算出した合計スコアに基づいて、順位付けを行ってもよい。制御部11は、例えば、合計スコアの高い順に所定数の化合物、合計スコアが予め設定される閾値以上である化合物などを最終的に抽出し、抽出した化合物をフォーカストライブラリ32に収録する。
学習モデル121が複数の個別学習モデルを含む場合、制御部11は、各個別学習モデルの出力結果に基づいて、化合物をヒットグループ及びノンヒットグループに分類してもよい。制御部11は、例えば、ある化合物について各個別学習モデルそれぞれから出力される結合能の有無を取得する。全ての個別学習モデル又は予め設定される閾値以上の個別学習モデルから結合能を有するとの分類結果が得られた場合、制御部11は、上記化合物をヒットグループに分類する。
評価対象となる化合物には、化合物群に含まれる化合物が含まれていてもよい。この場合、化合物群に含まれる化合物については、学習モデル121により推定に代替して、実測により得られた結合情報に基づいてヒットグループ又はノンヒットグループへの分類を行ってもよい。
フォーカストライブラリ32は、第1標的RNAへの結合能を有すると推定された化合物のみを含むものに限らず、第1標的RNAへの結合能を有さないと推定された一部の化合物を含ものであってもよい。
本実施形態によれば、ユーザの基本ライブラリ31に基づいて、標的RNAに対する結合能を有する化合物の割合を高めた、品質の高いフォーカストライブラリ32を生成することができる。創薬企業の有する基本ライブラリ31から化合物を抽出してフォーカストライブラリ32を生成することで、独自性を担保しつつ、探索効率の向上が可能なフォーカストライブラリ32を提供することができる。
学習モデル121を用いることで、基本ライブラリ31からの化合物の選別を効率的且つ精度よく実行することができる。実測により化合物と標的物質との相互作用を評価して訓練データを生成することで、学習モデル121の推定精度が向上される。第1標的RNAに応じて学習モデル121を生成することで、学習モデル121を用いて第1標的RNAに対する結合能を精度よく推定することができる。
フォーカストライブラリ32における各化合物の優先度を数値化することで、フォーカストライブラリ32を用いた探索効率をさらに向上させることができる。ユーザから標的RNAの選択を受け付けることで、任意の標的RNAに適したフォーカストライブラリ32を得ることができ、本システムの利便性が向上される。
タンパク質を標的とした低分子化合物に比べて、非翻訳RNAを標的とした低分子化合物は、研究が十分に進められておらず、十分な量の化合物が基本ライブラリ31に収納されていない場合が多い。従って、標的物質が標的RNAである場合に本システム等を適用すると本開示の効果がより一層発揮される。
(変形例)
図5に示すフォーカストライブラリ32の生成処理は、端末装置2で実行されてもよい。この場合、ステップS21及びステップS28の処理は省略されてもよい。
図5に示すフォーカストライブラリ32の生成処理は、端末装置2で実行されてもよい。この場合、ステップS21及びステップS28の処理は省略されてもよい。
情報処理装置1は、図4に示す学習モデル121の生成処理を実行して、生成した学習モデル121を、端末装置2がアクセス可能な領域に記憶させる。情報処理装置1は、生成した学習モデル121を端末装置2にデプロイしてもよい。
端末装置2は、外部装置に記憶された学習モデル121にアクセスして又は自装置の記憶部22を参照して学習モデル121を読み出し、読み出した学習モデル121を用いてステップS22~ステップS27の処理を実行し、化合物の選別処理等を実行する。
上記構成によれば、端末装置2側でフォーカストライブラリ32を生成することができる。評価対象となる化合物の情報を端末装置2から情報処理装置1へ提供することを不要とし、基本ライブラリ31の秘匿性が向上される。
(第2実施形態)
第2実施形態では、化合物群に含まれる化合物の中から、第1標的RNAへの結合能を有さない化合物の一部を除去する。以下の各実施形態では、主に第1実施形態との相違点を説明し、第1実施形態と共通する構成については同一の符号を付してその詳細な説明を省略する。
第2実施形態では、化合物群に含まれる化合物の中から、第1標的RNAへの結合能を有さない化合物の一部を除去する。以下の各実施形態では、主に第1実施形態との相違点を説明し、第1実施形態と共通する構成については同一の符号を付してその詳細な説明を省略する。
訓練DB122に含まれる複数の化合物、すなわち基本ライブラリ31から選択された化合物群に含まれる複数の化合物には、相互作用解析により得られた結合情報として、結合能を有する化合物と、結合能を有さない化合物とが含まれる。化合物群に含まれる第1標的RNAへの結合能を有さない化合物の数は、第1標的RNAへの結合能を有する化合物の数よりも多いことが想定される。すなわち訓練DB122に含まれるデータは、結合能を有する化合物と結合能を有さない化合物との割合に偏りがある不均衡データであることが想定される。
このような不均衡データを用いて学習モデル121を生成した場合、結合能を有する化合物に対する感度が低減するおそれがある。第2実施形態の情報処理装置1は、化合物群に含まれる結合能を有さない化合物のうちの一部を削減することで、学習モデル121の精度向上を図る。
図6は、第2実施形態の情報処理装置1が実行する学習モデル121の生成処理手順の一例を示すフローチャートである。
情報処理装置1の制御部11は、第1実施形態のステップS11からステップS15までの処理を実行することにより、ステップS15で取得した化合物群における全ての化合物の化合物情報と、結合情報とを訓練DB122に記憶する。制御部11は、訓練DB122に記憶する各化合物の化合物情報に基づいて、化合物群に含まれる各化合物を、第1標的RNAに対する結合能を有する化合物と、第1標的RNAに対する結合能を有さない化合物とに分類する(ステップS31)。
制御部11は、分類結果に基づいて、化合物群に含まれる化合物の中から、第1標的RNAに対する結合能を有さない化合物の一部を除去する(ステップS32)。制御部11は、化合物群における第1標的RNAに対する結合能を有する化合物と、結合能を有さない化合物との比率(結合能を有する化合物数:結合能を有さない化合物数)が、例えば1:1、1:4、1:8、1:16等となるよう、第1標的RNAに対する結合能を有さない化合物を間引く。上記比率は一例であり、除去処理における比率は必ずしもこの数値には限らない。
制御部11は、ステップS32の処理後、ステップS16~ステップS17と同様の処理を実行することにより、一部の化合物を除去後の化合物群のデータを訓練データに使用し、学習モデル121を生成する。
本実施形態によれば、訓練データの不均衡による学習モデル121の推定精度の悪化を抑制することができる。
(第3実施形態)
第3実施形態では、特定の標的物質に対する結合情報と、標的物質間の相関関係とに基づき生成された他の標的物質に対する結合情報の予測値を用いて、他の標的物質に対する結合情報を推定する学習モデル121を生成する。
第3実施形態では、特定の標的物質に対する結合情報と、標的物質間の相関関係とに基づき生成された他の標的物質に対する結合情報の予測値を用いて、他の標的物質に対する結合情報を推定する学習モデル121を生成する。
上述の通り、学習モデル121は、化合物情報と結合情報とを対応付けた訓練データを用いて学習される。第3実施形態では、所定の相互解析手法を用いた実測データとしての結合情報に代替して、結合情報の予測値を訓練データとして用いる。結合情報の予測値は、既に実測により得られた結合情報を用いて、複数の標的RNA間における相関関係を考慮して求めることができる。
図7は、第3実施形態における結合情報の予測値の生成処理手順の一例を示すフローチャートである。以下、一例として、新たな標的物質が、第1標的RNAにおけるRNA構造の特定位置のアデニンをウラシルに置換した第2標的RNAであるものとする。また、第1標的RNAに対する実測データに応じた結合能の有無が既に訓練DB122に記憶されているものとする。
情報処理装置1の制御部11は、第1標的RNAと、第2標的RNAとの相関関数の強さを表す相関度数を算出する(ステップS41)。第1標的RNAと第2標的RNAとの相関度数は、例えば、第1標的RNAと第2標的RNAとの物質構造の相違、具体的にはアデニンとウラシルとの相違を、物質に関する各種指標(例えば、水素結合ドナー数、水素結合アクセプター数、表面積、体積等)を用いて総合的に評価することで算出される。
制御部11は、算出した相関度数と、訓練DB122に記憶される第1標的RNAに対する結合情報とに基づいて、第2標的RNAに対する結合情報の予測値を導出する(ステップS42)。制御部11は、例えば、第1標的RNAに対する結合能の有無に、算出した相関度数を加味することで、第2標的RNA対する結合能の有無の予測値を求める。
制御部11は、化合物情報と、第2標的RNAに対する結合情報の予測値とを対応付けた訓練データとして、訓練DB122に記憶する(ステップS43)。
以降、制御部11は、第1実施形態のステップS16~ステップS17と同様の処理を実行することにより、第2標的RNAに対する結合情報の予測値を含む訓練データを用いて、化合物情報に対し第2標的RNAに対する結合能の有無を推定する学習モデル121を生成する。制御部11は、生成した学習モデル121を用いて第2標的RNAに対する結合能を有する化合物を選別することで、第2標的RNAに関するフォーカストライブラリ32を生成する。
本実施形態によれば、訓練データの生成のための実験に要する時間とコストを削減することができ、フォーカストライブラリ32の生成が容易となる。訓練データの生成のために化合物の情報を提供することが不要となり、創薬企業の負担が低減される。実際に相互作用を検出することが困難な物質を標的とする場合であっても、フォーカストライブラリ32の生成が可能となり、利便性が向上される。
(第4実施形態)
第4実施形態では、多様な標的RNAに対する結合情報を推定可能な学習モデル121を生成する。
第4実施形態では、多様な標的RNAに対する結合情報を推定可能な学習モデル121を生成する。
図8は、第4実施形態の学習モデル121の概要及び訓練DB122に記憶される情報の内容例を示す説明図である。
図8に示すように、第4実施形態の学習モデル121は、化合物の化合物情報及び標的物質の標的物質情報を入力として、上記化合物の上記標的物質に対する結合情報を出力とする。標的物質情報は、標的物質に関する情報を含み、例えば標的物質の物質名、一次構造(配列)、二次構造等を表す情報を含む。
情報処理装置1は、例えば、複数種類の標的物質を対象としたフォーカストライブラリ32の生成工程で取得した結合情報を、訓練DB122に蓄積する。情報処理装置1は、蓄積した情報に基づいて、化合物の化合物情報及び標的物質の標的物質情報に対し、上記化合物の上記標的物質に対する結合情報が正解値としてラベル付けされた訓練データを生成する。情報処理装置1は、生成した訓練データを用いて学習モデル121を学習する。このように学習された学習モデル121によれば、多様な標的物質に対する結合情報を推定することができる。
本実施形態によれば、1つの学習モデルにより多様な標的物質に対する結合情報を推定可能なため、標的物質の種類毎に学習モデル121を生成することが不要となり、フォーカストライブラリ32の生成が容易となる。
今回開示した実施の形態は、全ての点で例示であって、制限的なものではないと考えられるべきである。各実施例にて記載されている技術的特徴は互いに組み合わせることができ、本発明の範囲は、請求の範囲内での全ての変更及び請求の範囲と均等の範囲が含まれることが意図される。
各実施形態に示すシーケンスは限定されるものではなく、矛盾の無い範囲で、各処理手順はその順序を変更して実行されてもよく、また並行して複数の処理が実行されてもよい。各処理の処理主体は限定されるものではなく、矛盾の無い範囲で、各装置の処理を他の装置が実行してもよい。
各実施形態に示すシーケンスは限定されるものではなく、矛盾の無い範囲で、各処理手順はその順序を変更して実行されてもよく、また並行して複数の処理が実行されてもよい。各処理の処理主体は限定されるものではなく、矛盾の無い範囲で、各装置の処理を他の装置が実行してもよい。
各実施形態に記載した事項は相互に組み合わせることが可能である。また、請求の範囲に記載した独立請求項及び従属請求項は、引用形式に関わらず全てのあらゆる組み合わせにおいて、相互に組み合わせることが可能である。さらに、請求の範囲には他の2以上のクレームを引用するクレームを記載する形式(マルチクレーム形式)を用いているが、これに限るものではない。マルチクレームを少なくとも一つ引用するマルチクレーム(マルチマルチクレーム)を記載する形式を用いて記載してもよい。
100 化合物ライブラリ生成システム
1 情報処理装置
11 制御部
12 記憶部
13 通信部
14 表示部
15 操作部
16 入出力部
121 学習モデル
122 訓練DB
1P プログラム
1A 記録媒体
2 端末装置
21 制御部
22 記憶部
23 通信部
24 表示部
25 操作部
2P プログラム
2A 記録媒体
31 基本ライブラリ
32 フォーカストライブラリ
1 情報処理装置
11 制御部
12 記憶部
13 通信部
14 表示部
15 操作部
16 入出力部
121 学習モデル
122 訓練DB
1P プログラム
1A 記録媒体
2 端末装置
21 制御部
22 記憶部
23 通信部
24 表示部
25 操作部
2P プログラム
2A 記録媒体
31 基本ライブラリ
32 フォーカストライブラリ
Claims (15)
- 第1化合物ライブラリに収納される複数の化合物の情報を取得し、
化合物の化合物情報を入力した場合に標的物質に対する結合能を示す情報を出力するよう学習された学習モデルを用いて、前記第1化合物ライブラリに収納される複数の化合物を、標的物質への結合能を有する化合物群と、標的物質への結合能を有さない化合物群とに分類し、
前記標的物質への結合能を有する化合物群に分類された化合物を含む第2化合物ライブラリを生成する
処理をコンピュータが実行する化合物ライブラリ生成方法。 - 前記学習モデルは、化合物の構造又は特性を示す前記化合物情報と、前記結合能を示す情報とを含む訓練データに基づき学習される
請求項1に記載の化合物ライブラリ生成方法。 - 表面プラズモン共鳴法、等温滴定カロリメトリ法、質量分析法、核磁気共鳴スペクトル法、融解温度測定法、吸収スペクトル法、蛍光スペクトル法又は円二色性スペクトル法を用いて化合物と標的物質との相互作用を解析することにより、前記訓練データにおける前記結合能を示す情報を取得する
請求項2に記載の化合物ライブラリ生成方法。 - 前記訓練データは、前記第1化合物ライブラリから抽出された化合物群における前記化合物情報と、前記結合能を示す情報とを含む
請求項2又は請求項3に記載の化合物ライブラリ生成方法。 - 化合物と標的物質との相互作用解析により標的物質への結合能を有さないことが示された複数の化合物の一部を前記化合物群から除去し、
除去後の前記化合物群における前記化合物情報と前記結合能を示す情報とを含む前記訓練データに基づき前記学習モデルを学習させる
請求項4に記載の化合物ライブラリ生成方法。 - 第1の標的物質と第2の標的物質との相関関係、及び所定の相互作用解析手法を用いて得られた第1の標的物質に対する結合能を示す情報に基づき第2の標的物質に対する結合能を示す情報を導出し、
導出した第2の標的物質に対する結合能を示す情報を含む訓練データに基づき前記学習モデルを学習させる
請求項1から請求項5のいずれか1項に記載の化合物ライブラリ生成方法。 - 前記化合物情報は複数の分子記述子を含む
請求項1から請求項6のいずれか1項に記載の化合物ライブラリ生成方法。 - 複数の分子記述子における前記結合能を示す情報に対する寄与度に基づいて、前記複数の分子記述子のうちの前記学習モデルへの入力に用いる分子記述子を決定する
請求項7に記載の化合物ライブラリ生成方法。 - 前記標的物質の種類毎に前記学習モデルを用意する
請求項1から請求項8のいずれか1項に記載の化合物ライブラリ生成方法。 - 前記第2化合物ライブラリに含まれる各化合物の優先度を数値化した数値化情報を取得し、
取得した前記数値化情報に応じて前記第2化合物ライブラリを生成する
請求項1から請求項9のいずれか1項に記載の化合物ライブラリ生成方法。 - 前記第1化合物ライブラリのユーザから標的物質の選択を受け付け、
選択された前記標的物質への結合能を有する化合物を含む前記第2化合物ライブラリを生成する
請求項1から請求項10のいずれか1項に記載の化合物ライブラリ生成方法。 - 前記標的物質が標的RNAである
請求項1から請求項11のいずれか1項に記載の化合物ライブラリ生成方法。 - 第1化合物ライブラリに収納される複数の化合物の情報を取得し、
化合物の化合物情報を入力した場合に標的物質に対する結合能を示す情報を出力するよう学習された学習モデルを用いて、前記第1化合物ライブラリに収納される複数の化合物を、標的物質への結合能を有する化合物群と、標的物質への結合能を有さない化合物群とに分類し、
前記標的物質への結合能を有する化合物群に分類された化合物を含む第2化合物ライブラリを生成する
処理を実行する制御部を備える
化合物ライブラリ生成システム。 - 第1化合物ライブラリに収納される複数の化合物の情報を取得し、
化合物の化合物情報を入力した場合に標的物質に対する結合能を示す情報を出力するよう学習された学習モデルを用いて、前記第1化合物ライブラリに収納される複数の化合物を、標的物質への結合能を有する化合物群と、標的物質への結合能を有さない化合物群とに分類し、
前記標的物質への結合能を有する化合物群に分類された化合物を含む第2化合物ライブラリを生成する
処理をコンピュータに実行させるコンピュータプログラム。 - 化合物ライブラリに収納される複数の化合物について、化合物の構造又は特性を示す化合物情報と、標的物質に対する結合能を示す情報とを含む訓練データを取得し、
取得した前記訓練データに基づいて、化合物情報を入力した場合に標的物質に対する結合能を示す情報を出力するよう学習された学習モデルを生成する
学習モデルの生成方法。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2023-126515 | 2023-08-02 | ||
| JP2023126515 | 2023-08-02 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO2025028367A1 true WO2025028367A1 (ja) | 2025-02-06 |
Family
ID=94395302
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/JP2024/026484 Pending WO2025028367A1 (ja) | 2023-08-02 | 2024-07-24 | 化合物ライブラリ生成方法、化合物ライブラリ生成システム、コンピュータプログラム及び学習モデルの生成方法 |
Country Status (1)
| Country | Link |
|---|---|
| WO (1) | WO2025028367A1 (ja) |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2007139037A1 (ja) * | 2006-05-26 | 2007-12-06 | Kyoto University | ケミカルゲノム情報に基づく、タンパク質-化合物相互作用の予測と化合物ライブラリーの合理的設計 |
| JP2018092575A (ja) * | 2016-10-27 | 2018-06-14 | 武田薬品工業株式会社 | 化合物の生物活性を予測するためのプログラム、装置及び方法 |
| JP2022106287A (ja) * | 2021-01-06 | 2022-07-19 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 親和性予測方法及びモデルのトレーニング方法、装置、機器及び媒体 |
| JP2022150078A (ja) * | 2021-03-26 | 2022-10-07 | 富士通株式会社 | 情報処理プログラム、情報処理装置、及び情報処理方法 |
| JP2022184048A (ja) * | 2021-05-31 | 2022-12-13 | 国立大学法人九州大学 | 相互作用推定方法、相互作用推定装置および相互作用推定プログラム |
-
2024
- 2024-07-24 WO PCT/JP2024/026484 patent/WO2025028367A1/ja active Pending
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2007139037A1 (ja) * | 2006-05-26 | 2007-12-06 | Kyoto University | ケミカルゲノム情報に基づく、タンパク質-化合物相互作用の予測と化合物ライブラリーの合理的設計 |
| JP2018092575A (ja) * | 2016-10-27 | 2018-06-14 | 武田薬品工業株式会社 | 化合物の生物活性を予測するためのプログラム、装置及び方法 |
| JP2022106287A (ja) * | 2021-01-06 | 2022-07-19 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 親和性予測方法及びモデルのトレーニング方法、装置、機器及び媒体 |
| JP2022150078A (ja) * | 2021-03-26 | 2022-10-07 | 富士通株式会社 | 情報処理プログラム、情報処理装置、及び情報処理方法 |
| JP2022184048A (ja) * | 2021-05-31 | 2022-12-13 | 国立大学法人九州大学 | 相互作用推定方法、相互作用推定装置および相互作用推定プログラム |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Yu et al. | Meta-ADD: A meta-learning based pre-trained model for concept drift active detection | |
| Sharma et al. | A survey on decision tree algorithms of classification in data mining | |
| CN109905772B (zh) | 视频片段查询方法、装置、计算机设备及存储介质 | |
| JP6839342B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
| US20200074306A1 (en) | Feature subset evolution by random decision forest accuracy | |
| Ahmad et al. | RETRACTED ARTICLE: diagnosis of cardiovascular disease using deep learning technique | |
| CN108763354B (zh) | 一种个性化的学术文献推荐方法 | |
| Stepišnik et al. | A comprehensive comparison of molecular feature representations for use in predictive modeling | |
| CN110633667B (zh) | 一种基于多任务随机森林的动作预测方法 | |
| CN114117240B (zh) | 基于大数据需求分析的互联网内容推送方法及ai系统 | |
| US20050288868A1 (en) | Molecular property modeling using ranking | |
| CN113706285A (zh) | 一种信用卡欺诈检测方法 | |
| EP2609209A1 (en) | Compound selection in drug discovery | |
| Sagala et al. | Enhanced churn prediction model with boosted trees algorithms in the banking sector | |
| WO2019159602A1 (ja) | データ処理装置、方法、およびプログラムを記憶した媒体 | |
| KR20220083649A (ko) | 단백질 진화정보를 이용한 화합물 결합 유사성 탐색 방법 | |
| Tamvakis et al. | Optimized classification predictions with a new index combining machine learning algorithms | |
| WO2025028367A1 (ja) | 化合物ライブラリ生成方法、化合物ライブラリ生成システム、コンピュータプログラム及び学習モデルの生成方法 | |
| Reddy | Particle swarm optimized neural network for predicting customer behaviour in digital marketing | |
| Sasikala et al. | A novel memetic algorithm for discovering knowledge in binary and multi class predictions based on support vector machine | |
| CN115147020B (zh) | 装修数据处理方法、装置、设备及存储介质 | |
| CN118410235A (zh) | 一种基于因果图的兴趣点推荐去偏方法 | |
| WO2016144360A1 (en) | Progressive interactive approach for big data analytics | |
| JP4891638B2 (ja) | 目的データをカテゴリに分類する方法 | |
| Vinogradov et al. | Bioptic--A Target-Agnostic Potency-Based Small Molecules Search Engine |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 24849022 Country of ref document: EP Kind code of ref document: A1 |