[go: up one dir, main page]

WO2022003956A1 - 情報処理プログラム、情報処理方法および情報処理装置 - Google Patents

情報処理プログラム、情報処理方法および情報処理装置 Download PDF

Info

Publication number
WO2022003956A1
WO2022003956A1 PCT/JP2020/026214 JP2020026214W WO2022003956A1 WO 2022003956 A1 WO2022003956 A1 WO 2022003956A1 JP 2020026214 W JP2020026214 W JP 2020026214W WO 2022003956 A1 WO2022003956 A1 WO 2022003956A1
Authority
WO
WIPO (PCT)
Prior art keywords
vector
information
basic information
space
basic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP2020/026214
Other languages
English (en)
French (fr)
Inventor
正弘 片岡
聡 尾上
幸吉 杉山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN202080102120.6A priority Critical patent/CN115917521A/zh
Priority to PCT/JP2020/026214 priority patent/WO2022003956A1/ja
Priority to EP20943751.6A priority patent/EP4177766B1/en
Priority to JP2022532998A priority patent/JP7428252B2/ja
Publication of WO2022003956A1 publication Critical patent/WO2022003956A1/ja
Priority to US18/060,042 priority patent/US20230088088A1/en
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/20Heterogeneous data integration

Definitions

  • the present invention relates to an information processing program or the like.
  • polymer compounds There are substances with a molecular weight exceeding 1000, such as starch, cellulose, and natural rubber, and such substances are also called polymer compounds.
  • the structure of the polymer compound (compound) is a higher-order structure composed of a primary structure of a plurality of groups (functional groups).
  • the structure of cells in cancer and the human body is also a higher-order structure composed of primary structures of a plurality of proteins.
  • a predetermined vector is assigned to a compound group or a cellular protein descriptor according to its characteristics. Therefore, the vectors of the group and the protein may deviate from each other, and an appropriate vector cannot be assigned. Further, in the prior art, it is not possible to perform a similarity search at various particle sizes of the group of a compound, the protein of a cell, the primary structure of each, and the higher-order structure.
  • the present invention is an information processing program and an information processing method capable of performing a similarity search with high accuracy at various particle sizes of a compound group, a cell protein, each primary structure, and a higher-order structure. And to provide an information processing device.
  • the first plan is to have the computer perform the following processing.
  • a computer is a vector of multiple basic information by Poincaré embedding of multiple basic information based on a common concept table that classifies multiple space-specific basic information defined in multiple spaces by a common concept. Is calculated.
  • the computer calculates a vector of structural information having a larger particle size than the basic information based on a vector of a plurality of basic information.
  • the computer generates an inverted index that defines the relationship between the position of the basic information and the vector of the basic information in the file corresponding to the same space, and the relationship between the position of the structural information and the vector of the structural information in the file.
  • Similarity search can be performed with high accuracy at various particle sizes of compound groups, cell proteins, their primary structures, and higher-order structures.
  • FIG. 1 is a diagram (1) for explaining the processing of the information processing apparatus according to the first embodiment.
  • FIG. 2 is a diagram (2) for explaining the processing of the information processing apparatus according to the first embodiment.
  • FIG. 3 is a diagram (3) for explaining the processing of the information processing apparatus according to the first embodiment.
  • FIG. 4 is a diagram (4) for explaining the processing of the information processing apparatus according to the first embodiment.
  • FIG. 5 is a diagram (5) for explaining the processing of the information processing apparatus according to the first embodiment.
  • FIG. 6 is a functional block diagram showing the configuration of the information processing apparatus according to the first embodiment.
  • FIG. 7 is a diagram showing an example of the data structure of the base file.
  • FIG. 8 is a diagram showing an example of the data structure of the protein dictionary.
  • FIG. 1 is a diagram (1) for explaining the processing of the information processing apparatus according to the first embodiment.
  • FIG. 2 is a diagram (2) for explaining the processing of the information processing apparatus according to the first embodiment.
  • FIG. 3 is a diagram (3) for explaining
  • FIG. 9 is a diagram showing the relationship between amino acids, bases, and codons.
  • FIG. 10 is a diagram showing an example of the data structure of the chemical structural formula file.
  • FIG. 11 is a diagram showing an example of the data structure of the basic dictionary.
  • FIG. 12 is a diagram showing an example of a basic primary structure.
  • FIG. 13 is a diagram showing an example of the data structure of the common concept table.
  • FIG. 14 is a diagram showing an example of the data structure of the conversion table.
  • FIG. 15 is a diagram showing an example of the data structure of the dictionary table.
  • FIG. 16 is a diagram showing an example of the data structure of the primary structure dictionary.
  • FIG. 17 is a diagram showing an example of the data structure of the high-order structure dictionary.
  • FIG. 18 is a diagram showing an example of the data structure of the basic primary dictionary.
  • FIG. 19 is a diagram showing an example of the data structure of a word dictionary.
  • FIG. 20 is a diagram showing an example of the data structure of the vector table.
  • FIG. 21 is a diagram showing an example of the data structure of the protein vector table.
  • FIG. 22 is a diagram showing an example of the data structure of the primary structure vector table.
  • FIG. 23 is a diagram showing an example of the data structure of the high-order structure vector table.
  • FIG. 24 is a diagram showing an example of the data structure of the base vector table.
  • FIG. 25 is a diagram showing an example of the data structure of the basic primary structure vector table.
  • FIG. 26 is a diagram showing an example of the data structure of the name vector table.
  • FIG. 27 is a diagram showing an example of the data structure of the inverted index table.
  • FIG. 28 is a diagram showing an example of the data structure of the protein inverted index.
  • FIG. 29 is a diagram showing an example of the data structure of the primary structure inverted index.
  • FIG. 30 is a diagram showing an example of the data structure of the higher-order structure inverted index.
  • FIG. 31 is a diagram showing an example of the data structure of the base inverted index.
  • FIG. 32 is a diagram showing an example of the data structure of the basic primary structure inverted index.
  • FIG. 33 is a diagram showing an example of the data structure of the name inverted index.
  • FIG. 34 is a flowchart (1) showing a processing procedure of the information processing apparatus according to the first embodiment.
  • FIG. 34 is a flowchart (1) showing a processing procedure of the information processing apparatus according to the first embodiment.
  • FIG. 35 is a flowchart (2) showing a processing procedure of the information processing apparatus according to the first embodiment.
  • FIG. 36 is a diagram for explaining other processes of the calculation unit.
  • FIG. 37 is a functional block diagram showing the configuration of the information processing apparatus according to the second embodiment.
  • FIG. 38 is a diagram showing an example of a data structure of teacher data.
  • FIG. 39 is a diagram showing an example of a hardware configuration of a computer that realizes the same functions as the information processing apparatus of the embodiment.
  • the information processing device has a plurality of basics by poancare embedding a plurality of basic information based on a common concept table 55 in which a plurality of space-specific basic information defined in a plurality of spaces are classified by a common concept. Calculate a vector of information.
  • Genome space S1 is a space containing information on proteins, protein primary structure, and higher-order structure.
  • a base file is composed of information in the genomic space S1.
  • a base file is information in which a plurality of base symbols A, G, C, T (or U) are arranged, and a codon of a combination of three bases corresponds to a predetermined amino acid.
  • a combination of a plurality of consecutive amino acids corresponds to a predetermined protein
  • a combination of a plurality of proteins corresponds to a primary structure.
  • a combination of a plurality of primary structures becomes a higher-order structure.
  • the chemical space S2 is a space containing information on a primary structure in which a compound group (functional group) and a plurality of groups are connected.
  • the "chemical structural formula file" is composed of information in the chemical space S2.
  • the chemical structural formula file is information containing the demonstrative formulas of a plurality of groups, and by combining the demonstrative formulas of the smallest unit, it becomes the demonstrative formula of the primary structure.
  • the text space S3 is a space including the name of the protein, the name of the primary structure of the protein, the name of the higher-order structure of the protein, the name of the group (functional group), the name of the primary structure of the group, and the name of the higher-order structure of the group.
  • the "literature file” is composed of information in the text space S3.
  • a literature file is a text file containing a protein, a protein primary structure, a compound group, and a character string relating to the primary structure of the group.
  • the primary structure of a protein is referred to as "primary structure”
  • the primary structure of a group is referred to as "primary structure of group”.
  • the genomic space S1 corresponds to the first space.
  • the chemical space S2 corresponds to the second space.
  • the text space S3 corresponds to the third space
  • the protein of the genome space S1 the base of the chemical space
  • the name of the text space S3 corresponds to the basic information (first basic information, second basic information, third basic information). do.
  • the primary structure, higher-order structure, and basic primary structure of the chemical space S2 in the genomic space S1 correspond to the structural information (first structural information) in the basic higher-order structure.
  • the information processing apparatus calculates the vector of the basic information by embedding the basic information of the genomic space S1, the chemical space S2, and the text space S3 in the Poincare space P.
  • the process of embedding in the Poincare space P and calculating the vector is a technique called Poincare Embeddings.
  • Poincare embedding for example, the technology described in the non-patent document "Valentin Khrulkov1 et al.” Hyperbolic Image Embeddings "Cornell University, 2019 April 3" may be used.
  • a vector is assigned according to the position embedded in the Poincare space P, and the more similar information is, the closer it is embedded. Therefore, since each basic information classified into the same common concept is embedded at a close position in the Poincare space P, a similar vector is assigned.
  • the "protein A1" of the genomic space S1, the "group B1” of the chemical space S2, and the "name C1" of the text space S3 are embedded in the space P1 of the Poincare space P, and the vector corresponding to the space P1 is formed. Assigned.
  • the "protein A2" of the genomic space S1, the "group B2” of the chemical space S2, and the "name C2" of the text space S3 are embedded in the space P2 of the Poincare space P, and a vector corresponding to the space P2 is assigned. ..
  • the information processing apparatus uses the common concept table 55 to calculate the vector of each protein in the genomic space S1, the vector of each group in the chemical space S2, and the vector of each name in the text space S3.
  • the information processing apparatus converts the base file 50A into the protein compressed file 51A using the protein dictionary D1-1.
  • the protein dictionary D1-1 is dictionary data that defines the relationship between the information in the base file 50A and the compression code of the protein.
  • the information processing device generates a protein vector table T1-1 in which a protein (compression code of a protein) and a protein vector are associated with each other.
  • the protein vector is calculated by the above Poincaré embedding.
  • the information processing apparatus generates a protein inverted index In1-1 that defines the relationship between the protein vector and the position of the protein in the protein compressed file 51A.
  • the information processing apparatus converts the protein compressed file 51A into the primary structure compressed file 52A using the primary structure dictionary D1-2.
  • the primary structure dictionary D1-2 is dictionary data that defines the relationship between the sequence of the compression code of the protein and the compression code of the primary structure.
  • the information processing apparatus identifies the compression code of the protein contained in the primary structure (compression code of the primary structure) based on the primary structure dictionary D1-2, and determines the vector corresponding to the compression code of the specified protein as the protein vector. Obtained from table T1-1.
  • the information processing apparatus calculates the vector of the primary structure by adding the vectors of the proteins contained in the primary structure.
  • the information processing apparatus calculates the vector of each primary structure by executing the above processing for each primary structure.
  • a primary structure vector table T1-2 in which a primary structure (compression code of the primary structure) and a vector of the primary structure are associated with each other is generated.
  • the information processing device generates a primary structure inverted index In1-2 that defines the relationship between the vector of the primary structure and the position of the primary structure in the primary structure compressed file 52A.
  • the information processing apparatus compresses the primary structure compression file 52A into the high-order structure compression file 53A using the high-order structure dictionary D1-3.
  • the high-order structure dictionary D1-3 is dictionary data that defines the relationship between the array of compression codes of the primary structure and the compression codes of the high-order structure.
  • the information processing apparatus identifies the compression code of the primary structure included in the high-order structure (compression code of the high-order structure) based on the high-order structure dictionary D1-3, and corresponds to the compression code of the specified primary structure.
  • the vector is obtained from the primary structure vector table T1-2.
  • the information processing apparatus calculates the vector of the higher-order structure by adding the vectors of the primary structure included in the higher-order structure.
  • the information processing apparatus calculates the vector of each higher-order structure by executing the above processing for each higher-order structure.
  • a high-order structure vector table T1-3 in which a high-order structure (compression code of the high-order structure) and a vector of the high-order structure are associated with each other is generated.
  • the information processing device generates a high-order structure inverted index In1-3 that defines the relationship between the high-order structure vector and the position of the high-order structure in the high-order structure compressed file 53A.
  • the information processing apparatus converts the chemical structural formula file 50B into the basic compression file 51B using the basic dictionary D2-1.
  • the group dictionary D2-1 is dictionary data that defines the relationship between the demonstrative formula of the chemical structural formula file 50B and the compression code of the group (functional group).
  • the information processing device generates a group vector table T2-1 in which a group (compression code of the group) and a vector of the group are associated with each other.
  • the base vector is calculated by the above Poincaré embedding.
  • the information processing apparatus generates a base inverted index In2-1 that defines the relationship between the base vector and the position of the base in the base compression file 51B.
  • the information processing apparatus converts the basic compressed file 51B into the basic primary structure compressed file 52B using the basic primary structure dictionary D2-2.
  • the basic primary structure compression file 52B is dictionary data that defines the relationship between the array of basic compression codes and the basic primary structure compression codes.
  • the information processing apparatus identifies the compression code of the group included in the basic primary structure (compression code of the basic primary structure) based on the basic primary structure dictionary D2-2, and determines the vector corresponding to the compression code of the specified group. , Obtained from the base vector table T2-1.
  • the information processing apparatus calculates the vector of the basic primary structure by adding the vectors of the groups included in the basic primary structure.
  • the information processing apparatus calculates the vector of each basic primary structure by executing the above processing for each basic primary structure.
  • the information processing apparatus generates a basic primary structure vector table T2-2 in which the basic primary structure (compression code of the basic primary structure) and the vector of the basic primary structure are associated with each other.
  • the information processing device generates a basic primary structure inverted index In2-2 that defines the relationship between the vector of the basic primary structure and the position of the primary structure in the basic primary structure compressed file 52B.
  • the information processing device converts the document file 50C into the document compressed file 51C using the word dictionary D3.
  • the word dictionary D3 is a dictionary that defines compression codes for protein names, group names, protein primary structure names, basic primary structure names, higher-order structure names, and the like.
  • the information processing device generates a name vector table T3 in which a name (compression code of the name) and a vector of the name are associated with each other.
  • the name includes the name of the protein, the name of the group, the name of the primary structure of the protein, the name of the primary structure of the group, and the name of the higher-order structure.
  • the name vector is calculated by the above Poincaré embedding.
  • the information processing apparatus generates a name inverted index In3 that defines the relationship between the name vector and the position of the name in the document compressed file 51C.
  • the information processing apparatus executes the processes shown in FIGS. 1 to 4, and the information processing apparatus generates a protein inverted index In1-1, a primary structure inverted index In1-2, and a higher-order structured inverted index In1-3. ..
  • the information processing apparatus generates a protein compressed file 51A, a primary structure compressed file 52A, and a higher-order structure compressed file 53A from the base file 50A.
  • the information processing apparatus generates a basic inverted index In2-1 and a basic primary structure inverted index In2-2.
  • the information processing apparatus generates a basic structure compression file 51B and a basic primary structure compression file 52B from the chemical structural formula file 50B.
  • the information processing apparatus generates the name inverted index In3.
  • the information processing device generates a document compressed file 51C from the document file 50C.
  • inverted index In1 the protein inverted index In1-1, the primary structure inverted index In1-2, and the higher-order structure inverted index In1-3 are collectively referred to as "inverted index In1".
  • the information processing apparatus evaluates the similarity between the vector of the search query and the vectors of the inverted indexes In1, In2, and In3.
  • the information processing apparatus searches the vectors of the inverted indexes In1, In2, and In3 for a vector similar to the vector of the search query.
  • a vector similar to a search query vector is referred to as a "similar vector”.
  • the information processing apparatus Based on the similarity vector and the inverted index In1, the information processing apparatus obtains information on the protein, primary structure, or higher-order structure corresponding to the similarity vector in the protein compression file 51A, the primary structure compression file 52A, and the higher-order structure compression. Obtained from file 53A.
  • the information processing apparatus acquires the information of the group corresponding to the similar vector or the information of the primary structure from the basic compression file 51B and the basic primary structure compression file 52B based on the similarity vector and the inverted index In2.
  • the information processing apparatus acquires a name (or document data related to the name) corresponding to the similar vector from the document compression file 51c based on the similar vector and the inverted index In3.
  • the information processing device outputs the acquired information as a search result for the search query. Since the information acquired by the information processing apparatus is encoded, it may be decoded using each dictionary information.
  • Poincare embedding is executed for information in a plurality of spaces based on the common concept table 55. Assign a vector.
  • the information processing apparatus generates inverted indexes In1, In2, and In3 in which the vector assigned to the information and the position of the information are associated with each other.
  • the information processing apparatus receives the search query, the information processing apparatus acquires information similar to the search query from a plurality of spaces based on the vector of the search query and the inverted indexes In1, In2, and In3.
  • the similarity search can be performed with high accuracy at various particle sizes such as high-order structure, primary structure, and protein of the compound.
  • FIG. 6 is a functional block diagram showing the configuration of the information processing apparatus according to the first embodiment.
  • the information processing apparatus 100 according to the first embodiment includes a communication unit 110, an input unit 120, a display unit 130, a storage unit 140, and a control unit 150.
  • the communication unit 110 is connected to an external device or the like by wire or wirelessly, and transmits / receives information to / from the external device or the like.
  • the communication unit 110 is realized by a NIC (Network Interface Card) or the like.
  • the communication unit 110 may be connected to a network (not shown).
  • the input unit 120 is an input device that inputs various information to the information processing device 100.
  • the input unit 120 corresponds to a keyboard, a mouse, a touch panel, and the like.
  • the display unit 130 is a display device that displays information output from the control unit 150.
  • the display unit 130 corresponds to a liquid crystal display, an organic EL (Electro Luminescence) display, a touch panel, and the like.
  • the storage unit 140 has a base file 50A, a protein compression file 51A, a primary structure compression file 52A, and a higher-order structure compression file 53A.
  • the storage unit 140 has a chemical structural formula file 50B, a basic compressed file 51B, and a basic primary structure compressed file 52B.
  • the storage unit 140 has a document file 50C, a document compression file 51C, a common concept table 55, a conversion table 60, a dictionary table 70, a vector table 80, and an inverted index table 90.
  • the storage unit 140 is realized by, for example, a semiconductor memory element such as a RAM (Random Access Memory) or a flash memory (Flash Memory), or a storage device such as a hard disk or an optical disk.
  • the base file 50A is a file that holds information in which a plurality of bases are arranged.
  • FIG. 7 is a diagram showing an example of the data structure of the base file.
  • FIG. 8 is a diagram showing an example of the structure of the protein dictionary.
  • a protein dictionary shows the compression code of a protein and the amino acid (or codon) sequences that make up the protein.
  • three base sequences are collectively called 64 kinds of codons, and 20 kinds of amino acids are determined.
  • Each amino acid is represented by a symbol "A" to "Y”.
  • FIG. 9 is a diagram showing the relationship between amino acids, bases, and codons. As shown in FIG. 9, a plurality of types of codons are associated with one amino acid. Therefore, when the codon is determined, the amino acid is determined, but even if the amino acid is determined, the codon is not uniquely specified. For example, the amino acid “Ala” is associated with the codons “GCU”, “GCC”, “GCA”, or "GCG”.
  • the codon compression file 50D is a file in which the base contained in the base file 50A is compressed in units of codons.
  • the protein compression file 51A is a file in which the sequence of codon compression codes included in the codon compression file 50D is encoded in protein units.
  • the primary structure compression file 52A is a file in which the sequence of the compression codes of the proteins contained in the protein compression file 51A is encoded in the unit of the primary structure.
  • the high-order structure compression file 53A is a file in which an array of compression codes of the primary structure included in the primary structure compression file 52A is encoded in units of the high-order structure.
  • the chemical structural formula file 50B is a file that holds the demonstrative formulas (chemical structural formulas) of a plurality of basic primary structures.
  • the basic primary structure corresponds to ranitidine, cimetidine, ranitidine, etc., but is not limited to this, and other polymer compounds may be used.
  • FIG. 10 is a diagram showing an example of the data structure of the chemical structural formula file.
  • the specific formula (chemical structural formula) is a formula showing the arrangement of the elements constituting the compound, and may be described by SMILES notation or the like.
  • FIG. 11 shows an example of the structure of the basic dictionary.
  • the group dictionary defines the compression code of the group and the arrangement of the elements constituting the group by a demonstrative formula.
  • FIG. 12 is a diagram showing an example of a basic primary structure.
  • cimetidine, famotidine, there are ranitidine and the like, these are antagonists that bind to histamine H 2 receptor, having similar properties.
  • the basic primary structure is not limited to these antagonists, and may be other compounds.
  • the basic primary structure ST1 shown in FIG. 12 is a basic primary structure of cimetidine.
  • the basic primary structure ST1 includes a methyl group f1-1, an imidazole ring f1-2, a sfilled f1-3, a guanidinomethyl group f1-4, a cyano group f1-5 and the like.
  • Basic primary structure ST2 is a basic primary structure of famotidine.
  • the basic primary structure ST2 includes a guanidino group f2-1, a thiazole ring f2-2, a sfido f2-3, an amino group f2-4, a sulfone amino f2-5 and the like.
  • Basic primary structure ST3 is a basic primary structure of ranitidine.
  • the group primary structure ST3 contains a dimethylamino group f3-1, a furan ring f3-2, a sfido f3-3, a nitro group f3-4 and the like.
  • the basic compression file 51B is a file in which the chemical structural formula file 50B is encoded in the basic unit.
  • the basic primary structure compression file 52B is a file in which an array of basic compression codes included in the basic primary structure file 51B is encoded in units of the basic primary structure.
  • the document file 50C corresponds to the text data explaining the protein, the primary structure of the protein, the higher-order structure, etc., and the text data explaining the group, the primary structure of the group, etc.
  • the document compression file 51C is a file in which the document file 50C is encoded in word units.
  • the common concept table 55 is a table that defines information of the genomic space S1, the chemical space S2, and the text space S3, which are common concepts.
  • FIG. 13 is a diagram showing an example of the data structure of the common concept table. As shown in FIG. 13, the common concept table 55 associates the common concept number with the first compression code, the second compression code, and the name code. The first compression code, the second compression code, and the name code associated with the same common concept number are information (compression code) classified into the same common concept.
  • the first compression code is a compression code obtained by compressing the unique information of the genomic space S1.
  • the first compression code corresponds to a protein compression code, a primary structure compression code, and a higher order structure compression code.
  • the second compression code is a compression code obtained by compressing the unique information of the chemical space S2.
  • the second compression code corresponds to the compression code of the group and the compression code of the group primary structure.
  • the name code is a compressed code obtained by compressing the unique information of the text space S3.
  • the information in the text space S3 includes a compression code for the name of the protein, a compression code for the name of the primary structure, a compression code for the name of the higher-order structure, a compression code for the name of the group, a compression code for the name of the primary structure, and the like. ..
  • the first compression code “E008000h, E008001h, E00802h” and the name code “1B008000h, 1B008001h, 1B008002h” have the same common concept number “I101” and the second compression code “D008000h, D00801h, D00802h”.
  • the name code "1A0008000h, 1A008001h, 1A008002h” is classified into the same common concept number "J301”. Signs classified into the same common concept number are assigned similar vectors by Poincaré embedding.
  • a compression code such as cimetidine, famotidine, ranitidine, etc., which is an antagonist that binds to the histamine H 2 receptor and has similar properties, is registered in the common concept table.
  • the conversion table 60 is a table that associates codons with codon codes.
  • the mass of three base sequences is called a "codon”.
  • FIG. 14 is a diagram showing an example of the data structure of the conversion table. As shown in FIG. 14, each codon is associated with each code. For example, the sign of the codon "UUU” is "40h (01000000)". "H” indicates a hexadecimal number.
  • the dictionary table 70 is a table that holds various dictionary data described with reference to FIGS. 2 to 4, and the like.
  • FIG. 15 is a diagram showing an example of the data structure of the dictionary table.
  • the dictionary table 70 associates dictionary identification information with dictionary data.
  • the dictionary identification information is information that uniquely identifies the dictionary.
  • the dictionary data is the data of the corresponding dictionary.
  • the dictionary data includes data of the protein dictionary D1-1, the primary structure dictionary D1-2, and the higher-order structure dictionary D1-3.
  • the dictionary data includes data of the basic dictionary D2-1, the basic primary structure dictionary D2-2, and the word dictionary D3. An example of the data structure of each dictionary will be described below.
  • the data structure of the protein dictionary is shown in FIG. As shown in FIG. 8, the protein dictionary D1-1 associates a compression code, a name, an amino acid code sequence, and a codon code sequence.
  • the compression code is the compression code assigned to the protein.
  • the name is the name of the protein.
  • the amino acid code sequence is a sequence of the compression codes of amino acids corresponding to the compression codes of the protein.
  • the codon code sequence is an array of codon compression codes corresponding to the protein compression codes.
  • the compression code "E008000h” is assigned to the protein "type 1 collagen”.
  • the amino acid code sequence corresponding to the compression code “E008000h” is "02h46h59h ... 03h”.
  • the codon code sequence corresponding to the compression code “E008000h” is "02h63h78h ... 03h”.
  • FIG. 16 is a diagram showing an example of the data structure of the primary structure dictionary.
  • the primary structure dictionary D1-2 associates a compression code with a name and a protein code sequence.
  • the compression code is a compression code assigned to the primary structure of the protein.
  • the name is the name of the primary structure.
  • a protein code sequence is a sequence of compressed codes of a protein corresponding to a primary structure.
  • the compression code "F000000h” is assigned to the primary structure " ⁇ primary structure”.
  • the protein code sequence corresponding to the compression code "F0000000h” is "E008001hE00822h ".
  • FIG. 17 is a diagram showing an example of the data structure of the high-order structure dictionary.
  • the high-order structure dictionary D1-3 associates a compression code with a name and a primary structure code array.
  • the compression code is a compression code assigned to the higher-order structure.
  • the name is the name of the higher-order structure.
  • the primary structure code array is an array of compressed codes of the primary structure corresponding to the higher-order structure.
  • the compression code "G000000h” is assigned to the higher-order structure " ⁇ higher-order structure”.
  • the primary structure code array corresponding to the compression code "G0000000h” is "F008031hE00821h ".
  • the data structure of the basic dictionary is as shown in FIG.
  • the basic dictionary D2-1 associates a compression code, a group, a name, and a demonstrative expression.
  • the compression code is the compression code assigned to the group.
  • the name is an example of the name of the corresponding group.
  • the group indicates the group to which the corresponding group belongs.
  • the name example is an example of the name of the corresponding group.
  • the demonstrative formula indicates a sequence that becomes the demonstrative formula of the corresponding group.
  • the compression code "D008000h” is assigned to the "methyl group”.
  • the demonstrative formula corresponding to the compression code "D008000h” is "CH3".
  • FIG. 18 is a diagram showing an example of the data structure of the basic primary dictionary.
  • the basic primary structure dictionary D2-2 associates a compression code with a name and a basic code array.
  • the compression code is a compression code assigned to the basic primary structure.
  • the name is the name of the basic primary structure.
  • the base code array is an array of compressed codes of the groups corresponding to the basic primary structure.
  • the compression code "H008000h” is assigned to the “ ⁇ -based primary structure”.
  • the base code sequence corresponding to the compression code "H008000h” is "D007001hD007221h”.
  • FIG. 19 is a diagram showing an example of the data structure of a word dictionary.
  • the word dictionary D3 associates a compression code with a name.
  • the compression code is the compression code assigned to the word.
  • the name is the name of the word.
  • words include protein names, primary structure names, higher-order structure names, functional group names, and basic primary structure names.
  • the compression code “1A008000h” is assigned to the “methyl group”.
  • the compression code “1B008000h” is assigned to "type I collagen”.
  • the vector table 80 is a table that holds a vector of a protein, a primary structure, a higher-order structure, a group, a basic primary structure, and a name.
  • FIG. 20 is a diagram showing an example of the data structure of the vector table. As shown in FIG. 20, the vector table associates the table identification information with the vector table.
  • the table identification information is information that uniquely identifies a vector table.
  • the vector table of the table identification information "VT1-1" is a "protein vector table”.
  • the vector table of the table identification information "VT1-1” is referred to as a protein vector table VT1-1.
  • FIG. 21 is a diagram showing an example of the data structure of the protein vector table. As shown in FIG. 21, in the protein vector table VT1-1, the compression code of the protein is associated with the vector assigned to the compression code of the protein. The protein vector is calculated by Poincaré embedding.
  • the vector table of the table identification information "VT1-2" is a "primary structure vector table". In the following description, the vector table of the table identification information "VT1-2" is referred to as a primary structure vector table VT1-2.
  • FIG. 22 is a diagram showing an example of the data structure of the primary structure vector table. As shown in FIG. 22, in the primary structure vector table VT1-2, the compression code of the primary structure and the vector assigned to the compression code of the primary structure are associated with each other. The vector of the primary structure is calculated by adding the vectors of the proteins contained in the primary structure.
  • the vector table of the table identification information "VT1-3" is a "higher-order structure vector table".
  • the vector table of the table identification information "VT1-3” is referred to as a high-order structure vector table VT1-3.
  • FIG. 23 is a diagram showing an example of the data structure of the high-order structure vector table.
  • the compression code of the high-order structure and the vector assigned to the compression code of the high-order structure are associated with each other.
  • the vector of the higher-order structure is calculated by adding the vectors of the first-order structure included in the higher-order structure.
  • the vector table of the table identification information "VT2-1" is a "base vector table”.
  • the vector table of the table identification information "VT2-1" is referred to as a base vector table VT2-1.
  • FIG. 24 is a diagram showing an example of the data structure of the base vector table.
  • the compression code of the group is associated with the vector assigned to the compression code of the group.
  • the base vector is calculated by Poincaré embedding.
  • the vector table of the table identification information "VT2-2" is a "basic primary structure vector table".
  • the vector table of the table identification information "VT2-2" is referred to as a basic primary structure vector table VT2-2.
  • FIG. 25 is a diagram showing an example of the data structure of the basic primary structure vector table. As shown in FIG. 25, in the basic primary structure vector table VT2-2, the compression code of the basic primary structure and the vector assigned to the compression code of the basic primary structure are associated with each other. The vector of the basic primary structure is calculated by adding the vectors of the groups contained in the primary structure.
  • the vector table of the table identification information "VT3" is a "name vector table”.
  • the vector table of the table identification information "VT3” is referred to as a name vector table VT3.
  • FIG. 26 is a diagram showing an example of the data structure of the name vector table. As shown in FIG. 26, in the name vector table VT3, the compression code of the name is associated with the vector assigned to the compression code of this name. The name vector is calculated by Poincaré embedding.
  • the inverted index table 90 is a table that holds the inverted indexes In1, In2, and In3 described with reference to FIG. 5 and the like.
  • FIG. 27 is a diagram showing an example of the data structure of the inverted index table. As shown in FIG. 27, the inverted index table 90 associates the index identification information with the inverted index.
  • the index identification information is information that uniquely identifies the inverted index.
  • An inverted index is an inverted index that defines the relationship between a vector and a position.
  • the inverted index corresponding to the index identification information "In1-1” corresponds to the protein inverted index In1-1.
  • the inverted index corresponding to the index identification information "In1-2” corresponds to the primary structure inverted index In1-2.
  • the inverted index corresponding to the index identification information "In1-3” corresponds to the higher-order structure inverted index In1-3.
  • the inverted index corresponding to the index identification information "In2-1” corresponds to the basic inverted index In2-1.
  • the inverted index corresponding to the index identification information "In2-2” corresponds to the basic primary structure inverted index In2-2.
  • the inverted index corresponding to the index identification information "In3" corresponds to the name inverted index In3.
  • FIG. 28 is a diagram showing an example of the data structure of the protein inverted index.
  • the horizontal axis of the protein inverted index In1-1 is the axis corresponding to the offset.
  • the vertical axis of the protein inverted index In1-1 is the axis corresponding to the compression code of the protein.
  • the protein inverted index In1-1 is indicated by a bitmap of "0" or "1", and all bitmaps are initially set to "0".
  • the offset of the compression code of the protein at the beginning of the protein compression file 51A is set to "0".
  • the column of the offset "7" of the protein translocation index In1-1 and the protein code "E008000h (1)" The bit at the position where the line of "type 1 collagen)" intersects is "1".
  • FIG. 29 is a diagram showing an example of the data structure of the primary structure inverted index.
  • the horizontal axis of the primary structure inverted index In1-2 is the axis corresponding to the offset.
  • the vertical axis of the primary structure inverted index In1-2 is the axis corresponding to the compression code of the primary structure.
  • the primary structure inverted index In1-2 is indicated by a bitmap of "0" or "1", and all the bitmaps are set to "0" in the initial state.
  • the offset of the compression code of the primary structure at the beginning of the primary structure compression file 52A is set to "0".
  • the primary structure code "F0000h ( ⁇ primary structure)" is included in the eighth position from the beginning of the primary structure compressed file 52A, the column of the offset "7" of the primary structure translocation index In1-2 and the column of the primary structure
  • the bit at the position where the line of the compression code "F000000h ( ⁇ primary structure)" intersects is "1".
  • FIG. 30 is a diagram showing an example of the data structure of the higher-order structure inverted index.
  • the horizontal axis of the higher-order structure inverted index In1-3 is the axis corresponding to the offset.
  • the vertical axis of the higher-order structure inverted index In1-3 is the axis corresponding to the compression code of the higher-order structure.
  • the higher-order structure inverted index In1-3 is indicated by a bitmap of "0" or "1", and all the bitmaps are set to "0" in the initial state.
  • the offset of the compression code of the primary structure at the beginning of the high-order structure compression file 53A is set to "0".
  • the code “G000000h ( ⁇ high-order structure)" of the high-order structure is included in the eleventh position from the beginning of the high-order structure compressed file 53A, the column of the offset "10" of the high-order structure translocation index In1-3 and the column.
  • the bit at the position where the line of the compression code “G000000h ( ⁇ high-order structure)” of the high-order structure intersects is “1”.
  • FIG. 31 is a diagram showing an example of the data structure of the base inverted index.
  • the horizontal axis of the base inverted index In2-1 is the axis corresponding to the offset.
  • the vertical axis of the basic inverted index In2-1 is the axis corresponding to the compression code of the group.
  • the base inverted index In2-1 is indicated by a bitmap of "0" or "1", and all bitmaps are set to "0" in the initial state.
  • the offset of the compression code of the base at the beginning of the base compression file 51B is set to "0".
  • the column of the offset "1" of the group translocation index In2-1 and the group compression code "D008000h” is "1".
  • FIG. 32 is a diagram showing an example of the data structure of the basic primary structure inverted index.
  • the horizontal axis of the basic primary structure inverted index In2-2 is the axis corresponding to the offset.
  • the vertical axis of the basic primary structure inverted index In2-2 is the axis corresponding to the compression code of the basic primary structure.
  • the basic primary structure inverted index In2-2 is indicated by a bitmap of "0" or "1", and all bitmaps are set to "0" in the initial state.
  • the offset of the compression code of the basic primary structure at the beginning of the basic primary structure compression file 52B is set to "0".
  • the code "H00800h ( ⁇ group primary structure)" of the basic primary structure is included in the fifth position from the beginning of the basic primary structure compressed file 52B, the column of the offset "4" of the basic primary structure translocation index In2-2 , The bit at the position where the line of the compression code "H008000h ( ⁇ -based primary structure)" of the basic primary structure intersects is "1".
  • FIG. 33 is a diagram showing an example of the data structure of the name inverted index.
  • the horizontal axis of the name inverted index In3 is the axis corresponding to the offset.
  • the vertical axis of the name inverted index In3 is the axis corresponding to the compression code of the name.
  • the name inverted index In3 is indicated by a bitmap of "0" or "1", and all bitmaps are set to "0" in the initial state.
  • the offset of the compression code of the name at the beginning of the document compression file 51C is set to "0".
  • the column of the offset "4" of the name inverted index In3 and the compression code "1A08000h (methyl group)" of the name are included.
  • the bit at the position where the line of ")" intersects is "1".
  • each inverted index shown in FIGS. 28 to 33 the position of the compression code is shown for each compression code, but the indexes of the compression codes corresponding to similar vectors may be summarized. For example, when the distance between the vector of the compression code "E008000h” and the vector of the compression code “E008001h” shown in FIG. 28 is less than the threshold value, the bit string corresponding to the row of the compression code "E008000h” and the compression code " It may be merged with the bit string corresponding to the row of "E008001h".
  • the control unit 150 includes an acquisition unit 151, a compression unit 152, a calculation unit 153, a generation unit 154, and a search unit 155.
  • the control unit 150 is realized by, for example, a CPU (Central Processing Unit) or an MPU (Micro Processing Unit). Further, the control unit 150 may be executed by an integrated circuit such as an ASIC (Application specific Integrated Circuit) or an FPGA (Field Programmable gate Array).
  • ASIC Application specific Integrated Circuit
  • FPGA Field Programmable gate Array
  • the acquisition unit 151 is a processing unit that acquires various information from an external device via a network. For example, the acquisition unit 151 acquires the base file 50A, the chemical structural formula file 50B, and the document file 50C, and registers the acquired base file 50A, the chemical structural formula file 50B, and the document file 50C in the storage unit 140. The acquisition unit 151 may also acquire other information from an external device and register it in the storage unit 140.
  • the compression unit 152 is a processing unit that compresses information by assigning a compression code to the information of the base file 50A, the chemical structural formula file 50B, and the document file 50C.
  • the calculation unit 153 is a processing unit that allocates a vector to the compression code.
  • the generation unit 154 is a processing unit that generates an inverted index in which the vector assigned to the compression code and the position of the corresponding compression code are associated with each other.
  • the compression unit 152, the calculation unit 153, and the generation unit 154 cooperate with each other to generate various data as described below.
  • the compression unit 152 compares the base file 50A with the conversion table 60, assigns a compression code to the base sequence of the base file 50A in units of codons, and generates a codon compression file 50D.
  • the compression unit 152 compares the codon compression file 50D with the protein dictionary D1-1, assigns a compression code to the codon compression code sequence contained in the codon compression file 50D in units of proteins, and assigns the compression code to the protein compression file 51A. To generate.
  • the compression unit 152 compares the chemical structural formula file 50B with the basic dictionary D2-1, assigns a compression code to the specific formula of the chemical structural formula file 50B in units of groups, and generates a basic compression file 51B. ..
  • the compression unit 152 compares the document file 50C with the word dictionary D3, assigns a compression code to the character string of the document file 50C in units of words (names), and generates a document compression file 51C.
  • the calculation unit 153 uses the protein compression code, the group compression code, and the name compression code. Calculate the vector to be assigned to.
  • the calculation unit 153 calculates a vector for each compression code by embedding the compression code of the protein, the compression code of the group, and the compression code of the name in the same Poincare space P (performing Poincare embedding). .. A vector corresponding to the position of the Poincare space P is assigned to the compression code.
  • the calculation unit 153 refers to the common concept table 55 and adjusts so that each compression code corresponding to the same common concept number is embedded in a similar position in the Poincare space.
  • the calculation unit 153 outputs the relationship between the compression code and the vector assigned to the compression code to the generation unit 154.
  • the generation unit 154 generates each vector table based on the relationship between the compression code and the vector.
  • the generation unit 154 generates the protein vector table T1-1 by associating the compression code of the protein with the vector of the compression code.
  • the generation unit 154 registers the protein vector table T1-1 in the vector table 80.
  • the generation unit 154 identifies the relationship between the compression code of the protein and the offset of the compression code in the protein compression file 51A, and generates the protein inverted index In1-1.
  • the generation unit 154 registers the protein inverted index In1-1 in the inverted index table 90.
  • the generation unit 154 generates the group vector table T2-1 by associating the compression code of the group with the vector of the compression code.
  • the generation unit 154 registers the base vector table T2-1 in the vector table 80.
  • the generation unit 154 specifies the relationship between the compression code of the group and the offset of the compression code in the group compression file 51B, and generates the base inverted index In2-1.
  • the generation unit 154 registers the base inverted index In2-1 in the inverted index table 90.
  • the generation unit 154 generates the name vector table T3 by associating the compression code of the name (word) with the vector of the compression code.
  • the generation unit 154 registers the name vector table T3 in the vector table 80.
  • the generation unit 154 specifies the relationship between the compression code of the name (word) and the offset of the compression code in the document compression file 51C, and generates the name inverted index In3.
  • the generation unit 154 registers the name inverted index In3 in the inverted index table 90.
  • the compression unit 152 compares the protein compression file 51A with the primary structure dictionary D1-2, and assigns a compression code to the sequence of the compression code of the protein contained in the protein compression file 51A in the unit of the primary structure. , Generates a primary structure compressed file 52A.
  • the compression unit 152 compares the basic compression file 51B with the basic primary structure dictionary D2-2, assigns a compression code to the arrangement of the basic compression codes included in the basic compression file 51B in units of the basic primary structure, and assigns the compression codes.
  • a basic primary structure compressed file 52B is generated.
  • the calculation unit 153 calculates a vector to be assigned to the primary structure compression code and the basic primary structure compression code. do.
  • the calculation unit 153 will explain an example of the process of calculating the vector of the compression code of the primary structure.
  • the calculation unit 153 identifies a protein code sequence (sequence of protein compression codes) corresponding to the compression code of the primary structure with reference to the primary structure dictionary D1-2.
  • the calculation unit 153 acquires the vector of the compression code of each specified protein from the protein vector table T1-1 and adds the acquired vectors to calculate the vector of the compression code of the primary structure.
  • the calculation unit 153 repeatedly executes the above processing to calculate the vector of the compression code of each primary structure.
  • the calculation unit 153 compares the compression code of the primary structure with the common concept table 55, and if a compression code of the primary structure belonging to the same common concept number exists, corrects the compression code. You may.
  • the calculation unit 153 uses a vector obtained by averaging the vectors of compression codes of the primary structure belonging to the same common concept number as the corrected vector.
  • the calculation unit 153 assumes that the compression code "F0000000h” and the compression code "F00000020h” of the primary structure belong to the same common concept number.
  • the calculation unit 153 sets the vector obtained by averaging the vector of the compression code "F00000h” and the vector of the compression code "F0000002h” as the vector of the compression code "F00000h” and the compression code "F00000020h".
  • the calculation unit 153 will explain an example of the process of calculating the vector of the compression code of the basic primary structure.
  • the calculation unit 153 refers to the basic primary structure dictionary D2-2 to specify a basic code array (arrangement of basic compression codes) corresponding to the compression code of the basic primary structure.
  • the calculation unit 153 acquires the vector of the compression code of each specified group from the group vector table T2-1 and adds each of the acquired vectors to calculate the vector of the compression code of the basic primary structure.
  • the calculation unit 153 repeatedly executes the above processing to calculate the vector of the compression code of each basic primary structure.
  • the calculation unit 153 outputs to the generation unit 154 the relationship between the compression code of the primary structure and the vector assigned to the compression code. Further, the relationship between the compression code of the basic primary structure and the vector assigned to the compression code is output to the generation unit 154.
  • the generation unit 154 generates each vector table based on the relationship between the compression code and the vector.
  • the generation unit 154 generates the primary structure vector table T1-2 by associating the compression code of the primary structure with the vector of the compression code.
  • the generation unit 154 registers the primary structure vector table T1-2 in the vector table 80.
  • the generation unit 154 specifies the relationship between the compression code of the primary structure and the offset of the compression code in the primary structure compression file 52A, and generates the primary structure inverted index In1-2.
  • the generation unit 154 registers the primary structure inverted index In1-2 in the inverted index table 90.
  • the generation unit 154 generates the basic primary structure vector table T2-2 by associating the compression code of the basic primary structure with the vector of this compression code.
  • the generation unit 154 registers the basic primary structure vector table T2-2 in the vector table 80.
  • the generation unit 154 specifies the relationship between the compression code of the basic primary structure and the offset of the compression code in the basic primary structure compression file 52B, and generates the basic primary structure inverted index In2-2.
  • the generation unit 154 registers the basic primary structure inverted index In2-2 in the inverted index table 90.
  • the compression unit 152 compares the primary structure compression file 52A with the higher-order structure dictionary D1-3, and sets the array of the compression codes of the primary structure included in the primary structure compression file 52A as the unit of the higher-order structure. Assigns a compression code with, and generates a high-order structure compression file 53A.
  • the calculation unit 153 calculates a vector to be assigned to the compression code of the high-order structure.
  • the calculation unit 153 will explain an example of a process of calculating a vector of a compression code having a higher-order structure.
  • the calculation unit 153 refers to the high-order structure dictionary D1-3 to specify the primary structure code array (array of the compression codes of the primary structure) corresponding to the compression code of the high-order structure.
  • the calculation unit 153 acquires the vector of the compression code of each specified primary structure from the primary structure vector table T1-2, and adds each of the acquired vectors to calculate the vector of the compression code of the higher-order structure.
  • the calculation unit 153 repeatedly executes the above processing to calculate the vector of the compression code of each higher-order structure.
  • the calculation unit 153 outputs to the generation unit 154 the relationship between the compression code of the higher-order structure and the vector assigned to the compression code.
  • the generation unit 154 generates the high-order structure vector table T1-3 by associating the compression code of the high-order structure with the vector of this compression code.
  • the generation unit 154 registers the high-order structure vector table T1-3 in the vector table 80.
  • the generation unit 154 specifies the relationship between the compression code of the high-order structure and the offset of the compression code in the high-order structure compression file 53A, and generates the high-order structure inverted index In1-3.
  • the generation unit 154 registers the higher-order structure inverted index In1-3 in the inverted index table 90.
  • the compression unit 152 By executing the above processing, the compression unit 152 generates a codon compression file 50D, a protein compression file 51A, a primary structure compression file 52A, and a higher-order structure compression file 53A from the base file 50A.
  • the compression unit 152 generates a basic compression file 51B and a basic primary structure compression file 52B from the chemical structural formula file 50B.
  • the compression unit 152 generates a document compression file 51C from the document file 50C.
  • the calculation unit 153 calculates a protein compression code vector, a primary structure compression code vector, and a higher-order structure compression code vector.
  • the calculation unit 153 calculates a vector of the compression code of the group and a vector of the compression code of the basic primary structure.
  • the calculation unit 153 calculates a vector of compression codes of names.
  • the generation unit 154 generates the vector table 80 and the inverted index table 90.
  • the search unit 155 is a processing unit that searches for information corresponding to the search query from the storage unit 140 and outputs a search result when the search query is received.
  • the search unit 155 evaluates the similarity between the vector of the search query and the vectors of the inverted indexes In1, In2, and In3. For example, the search unit 155 specifies a vector whose distance from the vector of the search query is less than the threshold value as a similar vector.
  • the search unit 155 obtains information on the protein, primary structure, or higher-order structure corresponding to the similarity vector in the protein compression file 51A, the primary structure compression file 52A, and the higher-order structure compression. Obtained from file 53A.
  • the information processing apparatus acquires the information of the group corresponding to the similar vector or the information of the primary structure from the basic compression file 51B and the basic primary structure compression file 52B based on the similarity vector and the inverted index In2.
  • the information processing apparatus acquires a name (or document data related to the name) corresponding to the similar vector from the document compression file 51c based on the similar vector and the inverted index In3.
  • the search unit 155 outputs the acquired information as a search result for the search query.
  • the search unit 155 receives the search query from the input unit 120, the search unit 155 outputs the search result to the display unit 130 and displays it. Since the information acquired by the search unit 155 is encoded, the dictionary table 70 may be used to decode and output the decoded search result.
  • the acquisition unit 151 of the information processing apparatus 100 acquires the base file 50A, the chemical structural formula file 50B, and the document file 50C and registers them in the storage unit 140 (step S101).
  • the compression unit 152 of the information processing apparatus 100 generates a codon compression file 50d based on the base file 50A and the conversion table 60 (step S102).
  • the compression unit 152 generates a basic compression file 51B based on the chemical structural formula file 50B and the basic dictionary D2-1 (step S103).
  • the compression unit 152 generates a document compression file 51C based on the document file 50C and the word dictionary D3 (step S104).
  • the compression unit 152 generates a document compression file 51C based on the document file 50C and the word dictionary D3 (step S105).
  • the calculation unit 153 of the information processing apparatus 100 Poancare embeds the protein compression code, the group compression code, and the name compression code based on the common concept table 55 (step S106).
  • the generation unit 154 of the information processing apparatus 100 generates the protein vector table T1-1 and the protein inverted index In1-1 (step S107).
  • the generation unit 154 generates the base vector table T2-1 and the base inverted index In2-1 (step S108).
  • the generation unit 154 generates the name vector table T3 and the name inverted index In3 (step S109), and proceeds to step S110 in FIG.
  • the compression unit 152 generates a primary structure compressed file 52A based on the protein compressed file 51A and the primary structure dictionary D1-2 (step S110).
  • the calculation unit 153 calculates a vector of the compression code of the primary structure (step S111).
  • the calculation unit 153 corrects the vector of the compression code of the primary structure (step S112).
  • the generation unit 154 generates the primary structure vector table T1-2 and the primary structure inverted index In1-2 (step S113).
  • the compression unit 152 generates a basic primary structure compression file 52B based on the basic primary structure dictionary D2-2 and the basic primary structure dictionary 51B (step S114).
  • the calculation unit 153 calculates the vector of the compression code of the basic primary structure (step S115).
  • the generation unit 154 generates the primary structure vector table T2-2 and the basic primary structure inverted index In2-2 (step S116).
  • the compression unit 152 generates a high-order structure compression file 53A based on the primary structure compression file 52A and the high-order structure dictionary D1-3 (step S117).
  • the calculation unit 153 calculates a vector of compression codes having a higher-order structure (step S118).
  • the generation unit 154 generates a high-order structure vector table T1-3 and a high-order structure inverted index In1-3 (step S119).
  • the information processing apparatus 100 executes Poincaré embedding for information in a plurality of spaces based on the common concept table 55, and assigns a vector.
  • the information processing apparatus 100 generates inverted indexes In1, In2, and In3 in which the vector assigned to the information and the position of the information are associated with each other.
  • the information processing apparatus 100 receives a search query
  • the information processing apparatus 100 acquires information similar to the search query from a plurality of spaces as a search result based on the search query vector and the inverted indexes In1, In2, and In3. ..
  • the similarity search can be performed with high accuracy at various particle sizes such as high-order structure, primary structure, and protein of the compound.
  • the information processing apparatus 100 calculates a vector of structural information having a larger particle size than the basic information based on the vector of the basic information executed by Poincare embedding. This makes it possible to accurately calculate a vector of structural information having a larger particle size.
  • the information processing apparatus 100 identifies the protein contained in the primary structure based on the primary structure dictionary D1-2, and calculates the vector of the primary structure by adding the vectors of the proteins contained in the primary structure. ..
  • the information processing apparatus 100 identifies the primary structure included in the higher-order structure and calculates the vector of the higher-order structure by adding the vectors of the primary structure included in the higher-order structure. This makes it possible to accurately calculate the vectors of the primary structure and the higher-order structure.
  • the information processing apparatus 100 identifies the groups included in the basic primary structure based on the basic primary structure dictionary D2-2, and adds the vectors of the groups included in the basic primary structure to obtain the vector of the basic primary structure. calculate. This makes it possible to accurately calculate the vector of the basic primary structure.
  • the information processing apparatus 100 generates a protein inverted index In1-1 in which a protein vector and a protein position in the protein compressed file 51A are associated with each other.
  • the information processing apparatus 100 generates a primary structure inverted index In1-2 in which the vector of the primary structure is associated with the position of the primary structure in the primary structure compressed file 52A.
  • the information processing apparatus 100 generates a high-order structure inverted index In1-3 in which the vector of the high-order structure is associated with the position of the high-order structure in the high-order structure compressed file 53A. This allows cross-sectional searches to be performed at the particle size of protein, primary structure, and higher order structure.
  • the information processing apparatus 100 generates a basic inverted index In2-1 in which the basic vector and the basic position in the basic compression file 51AB are associated with each other.
  • the information processing apparatus 100 generates the basic primary structure inverted index In2-2 in which the vector of the basic primary structure is associated with the position of the basic primary structure in the basic primary structure compressed file 52B. This makes it possible to execute the search across the board with the particle size of the basic and primary primary structures.
  • the calculation unit 153 of the information processing apparatus 100 sets the compression code of the protein, the compression code of the group, and the compression code of the name based on the common concept table 55. Ding to calculate the vector. Then, the calculation unit 153 calculates the vector of the primary structure by adding the compression codes of the plurality of proteins, and the vector of the compression code of the higher-order structure by adding the vectors of the compression codes of the plurality of primary structures. Was calculated, but it is not limited to this.
  • the calculation unit 153 of the information processing apparatus 100 may directly calculate the vector of the compression code of the higher-order structure by poincaré embedding the compression code of the higher-order structure.
  • the calculation unit 153 identifies the compression code of the higher-order structure belonging to the same common concept number based on the common concept table 55, and the specified higher-order structure is specified.
  • the embedding position is adjusted so that the compression code of the structure is embedded in a position close to the Poincare space P. This makes it possible to calculate a similar vector for the compression code of the higher-order structure belonging to the same common concept number.
  • the calculation unit 153 calculates the vector corresponding to the compression code of the higher-order structure by Poancare embedding, and then based on the higher-order structure dictionary D1-3, the calculation unit 153 of the plurality of primary structures included in the higher-order structure.
  • the compression code may be specified and a vector may be assigned to the compression code of each specified primary structure.
  • the calculation unit 153 may, after assigning a vector to the compression code of each primary structure, correct the vector of the compression code of the same primary structure based on the vector assigned to the compression code of the same primary structure.
  • FIG. 36 is a diagram for explaining other processes of the calculation unit.
  • the calculation unit 153 calculates a vector by Poincaré embedding of compression codes “G0000010” and “G000110” having a higher-order structure.
  • the vector of the compression code “G0000010” is set to "V3-10”
  • the vector of the compression code "G000110” is set to "V3-11”.
  • the compression codes of the primary structure corresponding to the compression code "G0000010" of the higher-order structure are "F008020", “F008030", and “F008040", and the compression code vectors of the respective primary structures are "V2-10" and "V2-”. 11 ”and“ V2-12 ”.
  • the vector of the compression code of each primary structure is calculated from the vector assigned to the compression code of the higher order structure.
  • the compression codes of the primary structure corresponding to the compression code "G000110" of the higher-order structure are "F008024", “F008030”, and “F008050”, and the compression code vectors of the respective primary structures are "V2-20" and "V2-”. 21 ”and“ V2-22 ”.
  • the vector of the compression code of each primary structure is calculated from the vector assigned to the compression code of the higher order structure.
  • the compression code (1) "F008030" included in the compression code “G0000010” and the compression code (2) “F008030” included in the compression code “G000110” are the same compression code. ..
  • the calculation unit 153 averages the vectors of each dimension of the vector "V2-11" of the compression code (1) "F008030” and the vector "V2-21” of the compression code (2) "F008030". Each optimized vector value is calculated as a vector of the compression code "F008030".
  • the calculation unit 153 can improve the accuracy of the vector of the primary structure by executing the above processing.
  • the above-mentioned information processing apparatus 100 uses a common concept table 55 focusing on a ligand (agonist) and an antagonist having a function similar to that of a receptor in terms of the particle size of the higher-order structure, and poancare embedding. May be executed. That is, among the compression codes having a higher-order structure, the same common concept number is assigned to the compression code assigned to the ligand and the compression code assigned to the antagonist, which have similar functions.
  • the information processing apparatus performs machine learning and learns a learning model by using teacher data showing the relationship between the receptor and the ligand or the relationship between the receptor and the antagonist.
  • teacher data showing the relationship between the receptor and the ligand or the relationship between the receptor and the antagonist.
  • the receptors, ligands, and antagonists contained in the teacher data are converted into vectors for learning.
  • Receptors, ligands, and antagonists are compounds of higher order structure, and the information processing apparatus uses the higher order structure vector table generated in Example 1 to specify a vector.
  • FIG. 37 is a functional block diagram showing the configuration of the information processing apparatus according to the second embodiment.
  • the information processing apparatus 200 includes a communication unit 210, an input unit 220, a display unit 230, a storage unit 240, and a control unit 250.
  • the description of the communication unit 210, the input unit 220, and the display unit 230 is the same as the description of the communication unit 210, the input unit 220, and the display unit 230 described in the first embodiment.
  • the storage unit 240 has a dictionary table 70, a vector table 80, teacher data 240a, and a learning model 240b.
  • the storage unit 240 is realized by, for example, a semiconductor memory element such as a RAM or a flash memory, or a storage device such as a hard disk or an optical disk.
  • the dictionary table 70 corresponds to the dictionary table 70 described with reference to FIG.
  • the dictionary table 70 contains data of the protein dictionary D1-1, the primary structure dictionary D1-2, and the higher-order structure dictionary D1-3. Further, the dictionary table 70 includes data of the basic dictionary D2-1, the basic primary structure dictionary D2-2, and the word dictionary D3.
  • the vector table 80 corresponds to the vector table 80 described with reference to FIG.
  • the vector table 80 has a protein vector table VT1-1, a primary structure dictionary vector table VT1-2, and a higher-order structure vector table VT1-3. Further, the vector table 80 has a basic vector table VT2-1, a basic primary structure vector table VT2-2, and a name vector table VT3.
  • the teacher data 240a is data that defines the relationship between the receptor and the ligand, and the receptor and the antagonist.
  • FIG. 38 is a diagram showing an example of a data structure of teacher data. As shown in FIG. 38, the teacher data 240a associates a receptor, a ligand (base sequence), a ligand (structural formula), and an antagonist (compound).
  • the receptor is the input data
  • the ligand (base sequence), ligand (chemical structural formula), and antagonist (compound) are the correct labels.
  • Receptors and antagonists become higher-order structures.
  • the ligand (base sequence) is specified to have a primary structure or a higher-order structure depending on the base sequence.
  • the basic primary structure of the ligand (chemical structural formula) is specified by the demonstrative formula.
  • the receptor, ligand, and antagonist may be designated by name.
  • the learning model 240b is a machine learning model learned by the learning unit 253, which will be described later.
  • the learning model 240b is a machine learning model such as NN (Neural Network).
  • the control unit 250 has an acquisition unit 251, a conversion unit 252, a learning unit 253, and an execution unit 254.
  • the control unit 250 is realized by, for example, a CPU or an MPU. Further, the control unit 250 may be executed by an integrated circuit such as an ASIC or FPGA.
  • the acquisition unit 151 is a processing unit that acquires various information from an external device via a network. For example, the acquisition unit 151 acquires the teacher data 240a and registers the acquired teacher data 240a in the storage unit 240.
  • the conversion unit 252 assigns a vector to the input data and the correct answer label included in the teacher data 240a, and outputs the vector assigned to the input data and the correct answer label to the learning unit 253.
  • the conversion unit 252 compares the compression code with the vector table 80 to specify the vector corresponding to the compression code.
  • the conversion unit 252 compares the word dictionary D3 with the name, specifies the compression code corresponding to the name, and then uses the vector table 80. And specify the vector corresponding to the compression code.
  • the conversion unit 252 uses the dictionary table 70 to specify the compression code of the higher-order structure, and then uses the vector table 80 to specify the compression code. Identify the vector corresponding to.
  • the process of converting the base sequence into a compression code having a higher-order structure is the same as the process executed by the compression unit 152 of the first embodiment.
  • the conversion unit 252 uses the dictionary table 70 to specify the compression code of the basic primary structure, and then uses the vector table 80 to compress the data. Identify the vector corresponding to the sign.
  • the process of converting the chemical structural formula (demonstrative formula) into the compression code of the basic primary structure is the same as the process executed by the compression unit 152 of the first embodiment.
  • the learning unit 253 is a processing unit that machine-learns the learning model 240b using the relationship between the vector of the input data of the teacher data 240a and the vector of the correct answer label. For example, the learning unit 253 acquires the output data when the vector of the input data is input to the NN (learning model 240b). The learning unit 253 sets the difference between the output data and the correct answer label (vector) as a loss function, backpropagates the error of the loss function, and parameters of the learning model 240b so that the value of the loss function is minimized. To learn. The learning unit 253 stores the learning model 240b, which is the learning result, in the storage unit 240.
  • the execution unit 254 is a processing unit that searches for a ligand or an antagonist corresponding to the search query by inputting the search query into the learning model 240b when the search query corresponding to the receptor is received. For example, the execution unit 254 acquires output data (vector) by inputting a search query (vector) into the learning model 240b.
  • the execution unit 254 compares the vector of the output data with the vector of the name vector table VT3, identifies the compression code of the name corresponding to the vector of the most similar name, and identifies the specified compression code and the dictionary table 70. Based on the above, the name of the ligand or antagonist corresponding to the output data is specified.
  • the storage unit 240 of the information processing apparatus 200 may further store the information stored in the storage unit 140 of FIG. Even if the execution unit 254 detects the ligand corresponding to the vector of the output data, the base sequence corresponding to the antagonist, and the demonstrative formula by executing the same processing as the search unit 155, and outputs the detection result. good.
  • the information processing device 200 may have a functional unit (compression unit 152, calculation unit 153, generation unit 154) like the information processing device 100.
  • the compression unit 152, the calculation unit 153, and the generation unit 154 included in the information processing apparatus 200 may generate the vector table 80 and the inverted index table 90.
  • the information processing apparatus 200 generates a learning model 240b based on the teacher data 240a that defines the relationship between the receptor and the ligand or the receptor and the antagonist. Thereby, when the search query is given, the ligand or the antagonist corresponding to the search query (receptor) can be specified by inputting the search query into the learning model 240b.
  • the receptor associated with the teacher data 240a has a primary structure and the antagonist is a group
  • the particle size is different, but the vector can be assigned as described above, and the relationship between the receptor and the antagonist can be determined. You can learn.
  • vectors of similar primary structures may be grouped together. By grouping vectors of similar primary structures in this way, it is possible to suppress the combination of teacher data. In addition, this makes it possible to suppress the computational explosion of the Softmax function and enable AI estimation with a GPU (Graphics Processing Unit) with low performance.
  • GPU Graphics Processing Unit
  • FIG. 39 is a diagram showing an example of a hardware configuration of a computer that realizes the same functions as the information processing apparatus of the embodiment.
  • the computer 300 has a CPU 301 for executing various arithmetic processes, an input device 302 for receiving data input from a user, and a display 303. Further, the computer 300 has a communication device 304 for exchanging data with an external device or the like via a wired or wireless network, and an interface device 305. Further, the computer 300 has a RAM 306 for temporarily storing various information and a hard disk device 307. Then, each device 301 to 307 is connected to the bus 308.
  • the hard disk device 307 has an acquisition program 307a, a compression program 307b, a calculation program 307c, a generation program 307d, a search program 307e, a conversion program 307f, a learning program 307g, and an execution program 307h. Further, the CPU 301 reads out each of the programs 307a to 307h and develops them in the RAM 306.
  • the acquisition program 307a functions as the acquisition process 306a.
  • the compression program 307b functions as the compression process 306b.
  • the calculation program 307c functions as the calculation process 306c.
  • the generation program 307d functions as the generation process 306d.
  • the search program 307e functions as a search process 306e.
  • the conversion program 307f functions as a conversion process 306f.
  • the learning program 307g functions as a learning process 306g.
  • Execution program 307h functions as execution process 306.
  • the processing of the acquisition process 306a corresponds to the processing of the acquisition units 151 and 251.
  • the processing of the compression process 306b corresponds to the processing of the compression unit 152.
  • the processing of the calculation process 306c corresponds to the processing of the calculation unit 153.
  • the processing of the generation process 306d corresponds to the processing of the generation unit 154.
  • the process of the search process 306e corresponds to the process of the search unit 155.
  • the processing of the conversion process 306f corresponds to the processing of the conversion unit 252.
  • the processing of the learning process 306g corresponds to the processing of the learning unit 253.
  • the processing of the execution process 306h corresponds to the processing of the execution unit 254.
  • each program 307a to 307h does not necessarily have to be stored in the hard disk device 307 from the beginning.
  • each program is stored in a "portable physical medium" such as a flexible disk (FD), a CD-ROM, a DVD, a magneto-optical disk, or an IC card inserted in the computer 300. Then, the computer 300 may read and execute each program 307a to 307h.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Chemical & Material Sciences (AREA)
  • Toxicology (AREA)
  • Medicinal Chemistry (AREA)
  • Primary Health Care (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioethics (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

情報処理装置は、複数の空間で定義された空間固有の複数の基本情報を共通概念で分類した共通概念テーブルを基にして、複数の基本情報をポアンカレエンベッディングすることで、複数の基本情報のベクトルを算出する。情報処理装置は、複数の基本情報のベクトルを基にして、基本情報よりも粒度の大きい構造情報のベクトルを算出する。情報処理装置は、同一の空間に対応するファイルにおける基本情報の位置と基本情報のベクトルとの関係、および、ファイルにおける構造情報の位置と構造情報のベクトルとの関係を定義した転置インデックスを生成する。

Description

情報処理プログラム、情報処理方法および情報処理装置
 本発明は、情報処理プログラム等に関する。
 デンプン、セルロース、天然ゴム等のように、分子量が1000を超えるような物質が存在し、かかる物質は、高分子化合物とも呼ばれる。高分子化合物(化合物)の構造は、複数の基(官能基)の一次構造から構成される高次構造である。また、癌や人体の細胞の構造も、複数のタンパク質の一次構造から構成される高次構造である。
 ここで、新素材や新薬の開発を行う場合、既に確認されている高分子化合物や細胞を検索し、類似度を評価することが求められる。たとえば、化合物や細胞の類似度を評価する技術として、化合物やタンパク質の記述式にベクトルを割り当て、類似度を評価する技術がある。
国際公開第2007/139037号
 上述した従来技術では、化合物の基や細胞のタンパク質の記述子に、その特性に応じて予め定められたベクトルを割り当てている。このため、基とタンパク質の各ベクトルが乖離する場合があり、適切なベクトルを割り当てることができていない。また、従来技術では、化合物の基や細胞のタンパク質、それぞれの一次構造、高次構造の様々な粒度で、類似度検索を実行することができていない。
 1つの側面では、本発明は、化合物の基や細胞のタンパク質、それぞれの一次構造、高次構造の様々な粒度で、類似度検索を高精度に実行することができる情報処理プログラム、情報処理方法および情報処理装置を提供することを目的とする。
 第1の案では、コンピュータに次の処理を実行させる。コンピュータは、複数の空間で定義された空間固有の複数の基本情報を共通概念で分類した共通概念テーブルを基にして、複数の基本情報をポアンカレエンベッディングすることで、複数の基本情報のベクトルを算出する。コンピュータは、複数の基本情報のベクトルを基にして、基本情報よりも粒度の大きい構造情報のベクトルを算出する。コンピュータは、同一の空間に対応するファイルにおける基本情報の位置と基本情報のベクトルとの関係、および、ファイルにおける構造情報の位置と構造情報のベクトルとの関係を定義した転置インデックスを生成する。
 化合物の基や細胞のタンパク質、それぞれの一次構造、高次構造の様々な粒度で、類似度検索を高精度に実行することができる。
図1は、本実施例1に係る情報処理装置の処理を説明するための図(1)である。 図2は、本実施例1に係る情報処理装置の処理を説明するための図(2)である。 図3は、本実施例1に係る情報処理装置の処理を説明するための図(3)である。 図4は、本実施例1に係る情報処理装置の処理を説明するための図(4)である。 図5は、本実施例1に係る情報処理装置の処理を説明するための図(5)である。 図6は、本実施例1に係る情報処理装置の構成を示す機能ブロック図である。 図7は、塩基ファイルのデータ構造の一例を示す図である。 図8は、タンパク質辞書のデータ構造の一例を示す図である。 図9は、アミノ酸と塩基、およびコドンとの関係を示す図である。 図10は、化学構造式ファイルのデータ構造の一例を示す図である。 図11は、基辞書のデータ構造の一例を示す図である。 図12は、基一次構造の一例を示す図である。 図13は、共通概念テーブルのデータ構造の一例を示す図である。 図14は、変換テーブルのデータ構造の一例を示す図である。 図15は、辞書テーブルのデータ構造の一例を示す図である。 図16は、一次構造辞書のデータ構造の一例を示す図である。 図17は、高次構造辞書のデータ構造の一例を示す図である。 図18は、基一次辞書のデータ構造の一例を示す図である。 図19は、単語辞書のデータ構造の一例を示す図である。 図20は、ベクトルテーブルのデータ構造の一例を示す図である。 図21は、タンパク質ベクトルテーブルのデータ構造の一例を示す図である。 図22は、一次構造ベクトルテーブルのデータ構造の一例を示す図である。 図23は、高次構造ベクトルテーブルのデータ構造の一例を示す図である。 図24は、基ベクトルテーブルのデータ構造の一例を示す図である。 図25は、基一次構造ベクトルテーブルのデータ構造の一例を示す図である。 図26は、名称ベクトルテーブルのデータ構造の一例を示す図である。 図27は、転置インデックステーブルのデータ構造の一例を示す図である。 図28は、タンパク質転置インデックスのデータ構造の一例を示す図である。 図29は、一次構造転置インデックスのデータ構造の一例を示す図である。 図30は、高次構造転置インデックスのデータ構造の一例を示す図である。 図31は、基転置インデックスのデータ構造の一例を示す図である。 図32は、基一次構造転置インデックスのデータ構造の一例を示す図である。 図33は、名称転置インデックスのデータ構造の一例を示す図である。 図34は、本実施例1に係る情報処理装置の処理手順を示すフローチャート(1)である。 図35は、本実施例1に係る情報処理装置の処理手順を示すフローチャート(2)である。 図36は、算出部のその他の処理を説明するための図である。 図37は、本実施例2に係る情報処理装置の構成を示す機能ブロック図である。 図38は、教師データのデータ構造の一例を示す図である。 図39は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。
 以下に、本願の開示する情報処理プログラム、情報処理方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。
 本実施例1に係る情報処理装置の処理の一例について説明する。図1~図5は、本実施例1に係る情報処理装置の処理を説明するための図である。情報処理装置は、複数の空間で定義された空間固有の複数の基本情報を共通概念で分類した共通概念テーブル55を基にして、複数の基本情報をポアンカレエンベッディングすることで、複数の基本情報のベクトルを算出する。
 図1に示す例では、複数の空間として、ゲノム空間S1と、ケミカル空間S2と、テキスト空間S3とを用いて説明する。ゲノム空間S1は、タンパク質、タンパク質の一次構造、高次構造の情報を含む空間である。たとえば、「塩基ファイル」は、ゲノム空間S1の情報によって構成される。塩基ファイルは、複数の塩基記号A,G,C,T(またはU)が配列された情報であり、3塩基の組み合せのコドンが所定のアミノ酸に対応する。また、連続する複数のアミノ酸の組み合わせが、所定のタンパク質に対応し、複数のタンパク質の組み合わせが、一次構造に対応する。さらに、複数の一次構造の組み合わせが、高次構造となる。
 ケミカル空間S2は、化合物の基(官能基)と、複数の基が接続された一次構造の情報を含む空間である。たとえば、「化学構造式ファイル」は、ケミカル空間S2の情報によって構成される。化学構造式ファイルは、複数の基の示性式を含む情報であり、最小単位の基の示性式が組み合わされることで、一次構造の示性式となる。
 テキスト空間S3は、タンパク質の名称、タンパク質の一次構造の名称、タンパク質の高次構造の名称、基(官能基)の名称、基の一次構造の名称、基の高次構造の名称を含む空間である。たとえば、「文献ファイル」は、テキスト空間S3の情報によって構成される。文献ファイルは、タンパク質、タンパク質の一次構造、化合物の基、基の一次構造に関する文字列を含むテキストファイルである。以下の説明では、タンパク質の一次構造を「一次構造」と表記し、基の一次構造を「基一次構造」と表記する。
 たとえば、ゲノム空間S1は、第1空間に対応する。ケミカル空間S2は、第2空間に対応する。テキスト空間S3は、第3空間に対応する、ゲノム空間S1のタンパク質、ケミカル空間の基、テキスト空間S3の名称は、基本情報(第1基本情報、第2基本情報、第3基本情報)に対応する。ゲノム空間S1の一次構造、高次構造、ケミカル空間S2の基一次構造は、基高次構造は、構造情報(第1構造情報)に対応する。
 共通概念テーブル55では、共通概念となるゲノム空間S1、ケミカル空間S2、テキスト空間S3の基本情報が定義されている。図1に示す例では、ゲノム空間S1の「タンパク質A1」と、ケミカル空間S2の「基B1」と、テキスト空間S3の「名称C1」とが、同一の共通概念(1)である旨が定義されている。ゲノム空間S1の「タンパク質A2」と、ケミカル空間S2の「基B2」と、テキスト空間S3の「名称C2」とが、同一の共通概念(2)である旨が定義されている。
 ここで、情報処理装置は、ゲノム空間S1、ケミカル空間S2、テキスト空間S3の基本情報を、ポアンカレ空間Pに埋め込むことで、基本情報のベクトルを算出する。ポアンカレ空間Pに埋め込んで、ベクトルを算出する処理は、ポアンカレエンベッディング(Poincare Embeddings)と呼ばれる技術である。ポアンカレエンベッディングは、たとえば、非特許文献「Valentin Khrulkov1 et al.「Hyperbolic Image Embeddings」Cornell University,2019 April 3」等に記載された技術を用いればよい。
 ポアンカレエンベディングでは、ポアンカレ空間Pに埋め込まれた位置に応じて、ベクトルが割り当てられるものであり、また、類似する情報ほど、近い位置に埋め込まれるという特徴がある。このため、同一の共通概念に分類される各基本情報は、ポアンカレ空間Pにおいて、それぞれ近い位置に埋め込まれるため、類似のベクトルが割り当てられる。
 たとえば、ゲノム空間S1の「タンパク質A1」と、ケミカル空間S2の「基B1」と、テキスト空間S3の「名称C1」とは、ポアンカレ空間Pの空間P1に埋め込まれ、空間P1に応じたベクトルが割り当てられる。
 ゲノム空間S1の「タンパク質A2」と、ケミカル空間S2の「基B2」と、テキスト空間S3の「名称C2」とは、ポアンカレ空間Pの空間P2に埋め込まれ、空間P2に応じたベクトルが割り当てられる。
 情報処理装置は、共通概念テーブル55を用いて、ゲノム空間S1の各タンパク質のベクトル、ケミカル空間S2の各基のベクトル、テキスト空間S3の各名称のベクトルをそれぞれ算出する。
 図2の説明に移行する。情報処理装置は、塩基ファイル50Aを、タンパク質辞書D1-1を用いて、タンパク質圧縮ファイル51Aに変換する。タンパク質辞書D1-1は、塩基ファイル50Aの情報と、タンパク質の圧縮符号との関係を定義する辞書データである。
 情報処理装置は、タンパク質(タンパク質の圧縮符号)とタンパク質のベクトルとを対応付けたタンパク質ベクトルテーブルT1-1を生成する。タンパク質のベクトルは、上記のポアンカレエンベッディングで算出される。情報処理装置は、タンパク質のベクトルと、タンパク質圧縮ファイル51Aにおけるタンパク質の位置との関係を定義するタンパク質転置インデックスIn1-1を生成する。
 続いて、情報処理装置は、タンパク質圧縮ファイル51Aを、一次構造辞書D1-2を用いて、一次構造圧縮ファイル52Aに変換する。一次構造辞書D1-2は、タンパク質の圧縮符号の配列と、一次構造の圧縮符号との関係を定義する辞書データである。
 情報処理装置は、一次構造辞書D1-2を基にして、一次構造(一次構造の圧縮符号)に含まれるタンパク質の圧縮符号を特定し、特定したタンパク質の圧縮符号に対応するベクトルを、タンパク質ベクトルテーブルT1-1から取得する。情報処理装置は、一次構造に含まれるタンパク質のベクトルを加算することで、一次構造のベクトルを算出する。情報処理装置は、各一次構造について、上記の処理を実行することで、各一次構造のベクトルを算出する。一次構造(一次構造の圧縮符号)と一次構造のベクトルとを対応付けた一次構造ベクトルテーブルT1-2を生成する。
 情報処理装置は、一次構造のベクトルと、一次構造圧縮ファイル52Aにおける一次構造の位置との関係を定義する一次構造転置インデックスIn1-2を生成する。
 続いて、情報処理装置は、一次構造圧縮ファイル52Aを、高次構造辞書D1-3を用いて、高次構造圧縮ファイル53Aに圧縮する。高次構造辞書D1-3は、一次構造の圧縮符号の配列と、高次構造の圧縮符号との関係を定義する辞書データである。
 情報処理装置は、高次構造辞書D1-3を基にして、高次構造(高次構造の圧縮符号)に含まれる一次構造の圧縮符号を特定し、特定した一次構造の圧縮符号に対応するベクトルを、一次構造ベクトルテーブルT1-2から取得する。情報処理装置は、高次構造に含まれる一次構造のベクトルを加算することで、高次構造のベクトルを算出する。情報処理装置は、各高次構造について、上記の処理を実行することで、各高次構造のベクトルを算出する。高次構造(高次構造の圧縮符号)と高次構造のベクトルとを対応付けた高次構造ベクトルテーブルT1-3を生成する。
 情報処理装置は、高次構造のベクトルと、高次構造圧縮ファイル53Aにおける高次構造の位置との関係を定義する高次構造転置インデックスIn1-3を生成する。
 図3の説明に移行する。情報処理装置は、化学構造式ファイル50Bを、基辞書D2-1を用いて、基圧縮ファイル51Bに変換する。基辞書D2-1は、化学構造式ファイル50Bの示性式と、基(官能基)の圧縮符号との関係を定義する辞書データである。
 情報処理装置は、基(基の圧縮符号)と基のベクトルとを対応付けた基ベクトルテーブルT2-1を生成する。基のベクトルは、上記のポアンカレエンベッディングで算出される。情報処理装置は、基のベクトルと、基圧縮ファイル51Bにおける基の位置との関係を定義する基転置インデックスIn2-1を生成する。
 続いて、情報処理装置は、基圧縮ファイル51Bを、基一次構造辞書D2-2を用いて、基一次構造圧縮ファイル52Bに変換する。基一次構造圧縮ファイル52Bは、基の圧縮符号の配列と、基一次構造の圧縮符号との関係を定義する辞書データである。
 情報処理装置は、基一次構造辞書D2-2を基にして、基一次構造(基一次構造の圧縮符号)に含まれる基の圧縮符号を特定し、特定した基の圧縮符号に対応するベクトルを、基ベクトルテーブルT2-1から取得する。情報処理装置は、基一次構造に含まれる基のベクトルを加算することで、基一次構造のベクトルを算出する。情報処理装置は、各基一次構造について、上記の処理を実行することで、各基一次構造のベクトルを算出する。情報処理装置は、基一次構造(基一次構造の圧縮符号)と基一次構造のベクトルとを対応付けた基一次構造ベクトルテーブルT2-2を生成する。
 情報処理装置は、基一次構造のベクトルと、基一次構造圧縮ファイル52Bにおける一次構造の位置との関係を定義する基一次構造転置インデックスIn2-2を生成する。
 図4の説明に移行する。情報処理装置は、文献ファイル50Cを、単語辞書D3を用いて、文献圧縮ファイル51Cに変換する。単語辞書D3は、タンパク質の名称、基の名称、タンパク質の一次構造の名称、基一次構造の名称、高次構造の名称等に対する圧縮符号を定義する辞書である。
 情報処理装置は、名称(名称の圧縮符号)と、名称のベクトルとを対応付けた名称ベクトルテーブルT3を生成する。たとえば、名称には、タンパク質の名称、基の名称、タンパク質の一次構造の名称、基の一次構造の名称、高次構造の名称が含まれる。名称のベクトルは、上記のポアンカレエンベッディングで算出される。情報処理装置は、名称のベクトルと、文献圧縮ファイル51Cにおける名称の位置との関係を定義する名称転置インデックスIn3を生成する。
 情報処理装置は、図1~図4に示す処理を実行することで、情報処理装置は、タンパク質転置インデックスIn1-1、一次構造転置インデックスIn1-2、高次構造転置インデックスIn1-3を生成する。情報処理装置は、塩基ファイル50Aから、タンパク質圧縮ファイル51A、一次構造圧縮ファイル52A、高次構造圧縮ファイル53Aを生成する。情報処理装置は、基転置インデックスIn2-1、基一次構造転置インデックスIn2-2を生成する。情報処理装置は、化学構造式ファイル50Bから、基圧縮ファイル51B、基一次構造圧縮ファイル52Bを生成する。情報処理装置は、名称転置インデックスIn3を生成する。情報処理装置は、文献ファイル50Cから、文献圧縮ファイル51Cを生成する。
 以下の説明では、タンパク質転置インデックスIn1-1、一次構造転置インデックスIn1-2、高次構造転置インデックスIn1-3をまとめて「転置インデックスIn1」と表記する。基転置インデックスIn2-1、基一次構造転置インデックスIn2-2をまとめて「転置インデックスIn2」と表記する。
 図5の説明に移行する。情報処理装置は、検索クエリを受け付けた場合には、検索クエリのベクトルと、転置インデックスIn1,In2、In3のベクトルとの類似度評価を行う。情報処理装置は、転置インデックスIn1,In2、In3のベクトルから、検索クエリのベクトルに類似するベクトルを検索する。検索クエリのベクトルに類似するベクトルを「類似ベクトル」と表記する。
 情報処理装置は、類似ベクトルと、転置インデックスIn1とを基にして、類似ベクトルに対応するタンパク質、一次構造または高次構造の情報を、タンパク質圧縮ファイル51A、一次構造圧縮ファイル52A、高次構造圧縮ファイル53Aから取得する。情報処理装置は、類似ベクトルと、転置インデックスIn2とを基にして、類似ベクトルに対応する基、または、一次構造の情報を、基圧縮ファイル51B、基一次構造圧縮ファイル52Bから取得する。情報処理装置は、類似ベクトルと、転置インデックスIn3とを基にして、類似ベクトルに対応する名称(あるいは、名称に関連する文書データ)を、文献圧縮ファイル51cから取得する。
 情報処理装置は、取得した情報を、検索クエリに対する検索結果として出力する。情報処理装置が取得した情報は符号化されているため、各辞書情報を用いて、復号してもよい。
 図1~図5で説明したように、本実施例1に係る情報処理装置によれば、共通概念テーブル55を基にして、複数の空間の情報に対して、ポアンカレエンベッディングを実行し、ベクトルを割り当てる。情報処理装置は、情報に割り当てたベクトルと情報の位置とを対応付けた転置インデックスIn1,In2,In3を生成する。情報処理装置は、検索クエリを受け付けた場合に、検索クエリのベクトルと、転置インデックスIn1,In2,In3をと基にして、複数の空間から、検索クエリに類似する情報を取得する。これによって、化合物の高次構造、一次構造、タンパク質等の様々な粒度で、類似度検索を高精度に実行することができる。
 次に、本実施例1に係る情報処理装置の構成の一例について説明する。図6は、本実施例1に係る情報処理装置の構成を示す機能ブロック図である。図6に示すように、本実施例1に係る情報処理装置100は、通信部110と、入力部120と、表示部130と、記憶部140と、制御部150とを有する。
 通信部110は、有線又は無線で外部装置等に接続され、外部装置等との間で情報の送受信を行う。たとえば、通信部110は、NIC(Network Interface Card)等によって実現される。通信部110は、図示しないネットワークに接続されていてもよい。
 入力部120は、各種の情報を、情報処理装置100に入力する入力装置である。入力部120は、キーボードやマウス、タッチパネル等に対応する。
 表示部130は、制御部150から出力される情報を表示する表示装置である。表示部130は、液晶ディスプレイ、有機EL(Electro Luminescence)ディスプレイ、タッチパネル等に対応する。
 記憶部140は、塩基ファイル50Aと、タンパク質圧縮ファイル51Aと、一次構造圧縮ファイル52Aと、高次構造圧縮ファイル53Aとを有する。記憶部140は、化学構造式ファイル50Bと、基圧縮ファイル51Bと、基一次構造圧縮ファイル52Bとを有する。記憶部140は、文献ファイル50Cと、文献圧縮ファイル51Cと、共通概念テーブル55と、変換テーブル60と、辞書テーブル70と、ベクトルテーブル80と、転置インデックステーブル90とを有する。記憶部140は、たとえば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。
 塩基ファイル50Aは、複数の塩基が配列された情報を保持するファイルである。図7は、塩基ファイルのデータ構造の一例を示す図である。DNAまたはRNAの塩基は4種類で、「A」、「G」、「C」、「T」または「U」の記号で示される。また、図8は、タンパク質辞書の構造の一例を示す図である。タンパク質辞書は、タンパク質の圧縮符号とタンパク質を構成するアミノ酸(またはコドン)配列を示したものである。一方、3つの塩基配列がひとかたまりで64種のコドンと呼ばれ、20種類のアミノ酸を決定する。それぞれのアミノ酸は、「A」~「Y」の記号で示される。
 図9は、アミノ酸と塩基、およびコドンとの関係を示す図である。図9に示すように、一つのアミノ酸に対して、複数種類のコドンが対応付けられる。このためコドンが決まると、アミノ酸が決まるが、アミノ酸が決まっても、コドンが一意に特定されるものではない。たとえば、アミノ酸「アラニン(Ala)」は、コドン「GCU」、「GCC」、「GCA」、または、「GCG」に対応付けられる。
 コドン圧縮ファイル50Dは、塩基ファイル50Aに含まれる塩基を、コドンの単位で圧縮したファイルである。
 タンパク質圧縮ファイル51Aは、コドン圧縮ファイル50Dに含まれるコドンの圧縮符号の配列を、タンパク質の単位で符号化したファイルである。
 一次構造圧縮ファイル52Aは、タンパク質圧縮ファイル51Aに含まれるタンパク質の圧縮符号の配列を、一次構造の単位で符号化したファイルである。
 高次構造圧縮ファイル53Aは、一次構造圧縮ファイル52Aに含まれる一次構造の圧縮符号の配列を、高次構造の単位で符号化したファイルである。
 化学構造式ファイル50Bは、複数の基一次構造の示性式(化学構造式)を保持するファイルである。たとえば、基一次構造には、ラニチジン、シメチジン、ラニチジン等に対応するが、これに限定されるものではなく、他の高分子化合物であってもよい。図10は、化学構造式ファイルのデータ構造の一例を示す図である。示性式(化学構造式)は化合物を構成する元素の配列を示す式であり、SMILES記法などで記述されてもよい。また、図11は基辞書の構造の一例を示す。基辞書は、基の圧縮符号と基を構成する元素の配列を示性式で定義したものである。
 図12は、基一次構造の一例を示す図である。たとえば、基一次構造には、シメチジン、ファモチジン、ラニチジン等があるが、これらは、ヒスタミンH受容体に結合する拮抗薬であり、類似した性質を持つ。なお、基一次構造は、これらの拮抗薬に限定されるものではなく、他の化合物であってもよい。図12に示す基一次構造ST1は、シメチジンの基一次構造である。基一次構造ST1には、メチル基f1-1、イミダゾール環f1-2、スフィルドf1-3、グアニジノメチル基f1-4、シアノ基f1-5等が含まれる。
 基一次構造ST2は、ファモチジンの基一次構造である。基一次構造ST2には、グアニジノ基f2-1、チアゾール環f2-2、スフィドf2-3、アミノ基f2-4、スルホンアミノf2-5等が含まれる。
 基一次構造ST3は、ラニチジンの基一次構造である。基一次構造ST3には、ジメチルアミノ基f3-1、フラン環f3-2、スフィドf3-3、ニトロ基f3-4等が含まれる。
 基圧縮ファイル51Bは、化学構造式ファイル50Bを、基の単位で符号化したファイルである。
 基一次構造圧縮ファイル52Bは、基圧縮ファイル51Bに含まれる基の圧縮符号の配列を、基一次構造の単位で符号化したファイルである。
 文献ファイル50Cは、タンパク質、タンパク質の一次構造、高次構造等を説明するテキストデータ、基、基の一次構造等を説明するテキストデータに対応する。
 文献圧縮ファイル51Cは、文献ファイル50Cを、単語の単位で符号化したファイルである。
 共通概念テーブル55は、共通概念となるゲノム空間S1、ケミカル空間S2、テキスト空間S3の情報を定義するテーブルである。図13は、共通概念テーブルのデータ構造の一例を示す図である。図13に示すように、共通概念テーブル55は、共通概念番号と、第1圧縮符号と、第2圧縮符号と、名称符号とを対応付ける。同一の共通概念番号に対応付けられる第1圧縮符号、第2圧縮符号、名称符号は、同一の共通概念に分類される情報(圧縮符号)となる。
 第1圧縮符号は、ゲノム空間S1の固有の情報を圧縮した圧縮符号である。たとえば、第1圧縮符号は、タンパク質の圧縮符号、一次構造の圧縮符号、高次構造の圧縮符号に対応する。
 第2圧縮符号は、ケミカル空間S2の固有の情報を圧縮した圧縮符号である。たとえば、第2圧縮符号は、基の圧縮符号、基一次構造の圧縮符号に対応する。
 名称符号は、テキスト空間S3の固有の情報を圧縮した圧縮符号である。テキスト空間S3の情報は、タンパク質の名称の圧縮符号、一次構造の名称の圧縮符号、高次構造の名称の圧縮符号、基の名称の圧縮符号、基一次構造の名称の圧縮符号等が含まれる。
 図13において、第1圧縮符号「E008000h、E008001h、E00802h」、名称符号「1B008000h、1B008001h、1B008002h」、は、同一の共通概念番号「I101」に、第2圧縮符号「D008000h、D00801h、D00802h」、名称符号「1A008000h、1A008001h、1A008002h」は、同一の共通概念番号「J301」に分類される。同一の共通概念番号に分類された符号は、ポアンカレエンベッディングによって、類似のベクトルが割り当てられる。たとえば、ヒスタミンH2受容体に結合する拮抗薬であり、類似した性質を持つ、シメチジン、ファモチジン、ラニチジン等の圧縮符号が共通概念テーブルに登録される。
 変換テーブル60は、コドンと、コドンの符号とを対応付けるテーブルである。3つの塩基配列のかたまりは「コドン」と呼ばれる。図14は、変換テーブルのデータ構造の一例を示す図である。図14に示すように、各コドンと、各符号とが対応付けられる。たとえば、コドン「UUU」の符号は「40h(01000000)」となる。「h」は16進数を示すものである。
 辞書テーブル70は、図2~図4等で説明した各種の辞書データを保持するテーブルである。図15は、辞書テーブルのデータ構造の一例を示す図である。図15に示すように、辞書テーブル70は、辞書識別情報と、辞書データとを対応付ける。辞書識別情報は、辞書を一意に識別する情報である。辞書データは、該当する辞書のデータである。たとえば、辞書データには、タンパク質辞書D1-1、一次構造辞書D1-2、高次構造辞書D1-3のデータが含まれる。また、辞書データには、基辞書D2-1、基一次構造辞書D2-2、単語辞書D3のデータが含まれる。以下において、各辞書のデータ構造の一例について説明する。
 タンパク質辞書のデータ構造は、図8に示すものとなる。図8に示すように、タンパク質辞書D1-1は、圧縮符号と、名称と、アミノ酸符号配列と、コドン符号配列とを対応付ける。圧縮符号は、タンパク質に割り当てられた圧縮符号である。名称は、タンパク質の名称である。アミノ酸符号配列は、タンパク質の圧縮符号に対応するアミノ酸の圧縮符号の配列である。コドン符号配列は、タンパク質の圧縮符号に対応するコドンの圧縮符号の配列である。
 たとえば、タンパク質「1型コラーゲン」には、圧縮符号「E008000h」が割り当てられる。圧縮符号「E008000h」に対応するアミノ酸符号配列は「02h46h59h・・・03h」となる。また、圧縮符号「E008000h」に対応するコドン符号配列は「02h63h78h・・・03h」となる。
 図16は、一次構造辞書のデータ構造の一例を示す図である。図16に示すように、一次構造辞書D1-2は、圧縮符号と、名称と、タンパク質符号配列とを対応付ける。圧縮符号は、タンパク質の一次構造に割り当てられた圧縮符号である。名称は、一次構造の名称である。タンパク質符号配列は、一次構造に対応するタンパク質の圧縮符号の配列である。
 たとえば、一次構造「α一次構造」には、圧縮符号「F000000h」が割り当てられる。圧縮符号「F000000h」に対応するタンパク質符号配列は「E008001hE00822h・・・」となる。
 図17は、高次構造辞書のデータ構造の一例を示す図である。図17に示すように、高次構造辞書D1-3は、圧縮符号と、名称と、一次構造符号配列とを対応付ける。圧縮符号は、高次構造に割り当てられた圧縮符号である。名称は、高次構造の名称である。一次構造符号配列は、高次構造に対応する一次構造の圧縮符号の配列である。
 たとえば、高次構造「αα高次構造」には、圧縮符号「G000000h」が割り当てられる。圧縮符号「G000000h」に対応する一次構造符号配列は「F008031hE00821h・・・」となる。
 基辞書のデータ構造は、図11に示すものとなる。図11に示すように、基辞書D2-1は、圧縮符号と、グループと、名称と、示性式とを対応付ける。圧縮符号は、基に割り当てられた圧縮符号である。名称は、該当する基の名称の一例である。グループは、該当する基が属するグループを示す。名称例は、該当する基の名称の一例である。示性式は、該当する基の示性式となる配列を示す。
 たとえば「メチル基」には、圧縮符号「D008000h」が割り当てられる。圧縮符号「D008000h」に対応する示性式は「CH3」となる。
 図18は、基一次辞書のデータ構造の一例を示す図である。図18に示すように、基一次構造辞書D2-2は、圧縮符号と、名称と、基符号配列とを対応付ける。圧縮符号は、基一次構造に割り当てられた圧縮符号である。名称は、基一次構造の名称である。基符号配列は、基一次構造に対応する基の圧縮符号の配列である。
 たとえば、「δ基一次構造」には、圧縮符号「H008000h」が割り当てられる。圧縮符号「H008000h」に対応する基符号配列は「D007001hD007221h」となる。
 図19は、単語辞書のデータ構造の一例を示す図である。図19に示すように、単語辞書D3は、圧縮符号と、名称とを対応付ける。圧縮符号は、単語に割り当てられた圧縮符号である。名称は、単語の名称である。たとえば、単語には、タンパク質の名称、一次構造の名称、高次構造の名称、官能基の名称、基一次構造の名称が含まれる。
 たとえば、「メチル基」には、圧縮符号「1A008000h」が割り当てられる。「I型コラーゲン」には、圧縮符号「1B008000h」が割り当てられる。
 図6の説明に戻る。ベクトルテーブル80は、タンパク質、一次構造、高次構造、基、基一次構造、名称のベクトルを保持するテーブルである。図20は、ベクトルテーブルのデータ構造の一例を示す図である。図20に示すように、ベクトルテーブルは、テーブル識別情報と、ベクトルテーブルとを対応付ける。テーブル識別情報は、ベクトルテーブルを一意に識別する情報である。
 テーブル識別情報「VT1-1」のベクトルテーブルは、「タンパク質ベクトルテーブル」となる。以下の説明では、テーブル識別情報「VT1-1」のベクトルテーブルを、タンパク質ベクトルテーブルVT1-1と表記する。
 図21は、タンパク質ベクトルテーブルのデータ構造の一例を示す図である。図21に示すように、タンパク質ベクトルテーブルVT1-1は、タンパク質の圧縮符号と、このタンパク質の圧縮符号に割り当てられたベクトルとが対応付けられる。タンパク質のベクトルは、ポアンカレエンベッディングにより算出される。
 テーブル識別情報「VT1-2」のベクトルテーブルは、「一次構造ベクトルテーブル」となる。以下の説明では、テーブル識別情報「VT1-2」のベクトルテーブルを、一次構造ベクトルテーブルVT1-2と表記する。
 図22は、一次構造ベクトルテーブルのデータ構造の一例を示す図である。図22に示すように、一次構造ベクトルテーブルVT1-2は、一次構造の圧縮符号と、この一次構造の圧縮符号に割り当てられたベクトルとが対応付けられる。一次構造のベクトルは、一次構造に含まれるタンパク質のベクトルを加算することにより算出される。
 テーブル識別情報「VT1-3」のベクトルテーブルは、「高次構造ベクトルテーブル」となる。以下の説明では、テーブル識別情報「VT1-3」のベクトルテーブルを、高次構造ベクトルテーブルVT1-3と表記する。
 図23は、高次構造ベクトルテーブルのデータ構造の一例を示す図である。図23に示すように、高次構造ベクトルテーブルVT1-3は、高次構造の圧縮符号と、この高次構造の圧縮符号に割り当てられたベクトルとが対応付けられる。高次構造のベクトルは、高次構造に含まれる一次構造のベクトルを加算することにより算出される。
 テーブル識別情報「VT2-1」のベクトルテーブルは、「基ベクトルテーブル」となる。以下の説明では、テーブル識別情報「VT2-1」のベクトルテーブルを、基ベクトルテーブルVT2-1と表記する。
 図24は、基ベクトルテーブルのデータ構造の一例を示す図である。図24に示すように、基ベクトルテーブルVT2-1は、基の圧縮符号と、この基の圧縮符号に割り当てられたベクトルとが対応付けられる。基のベクトルは、ポアンカレエンベッディングにより算出される。
 テーブル識別情報「VT2-2」のベクトルテーブルは、「基一次構造ベクトルテーブル」となる。以下の説明では、テーブル識別情報「VT2-2」のベクトルテーブルを、基一次構造ベクトルテーブルVT2-2と表記する。
 図25は、基一次構造ベクトルテーブルのデータ構造の一例を示す図である。図25に示すように、基一次構造ベクトルテーブルVT2-2は、基一次構造の圧縮符号と、この基一次構造の圧縮符号に割り当てられたベクトルとが対応付けられる。基一次構造のベクトルは、一次構造に含まれる基のベクトルを加算することにより算出される。
 テーブル識別情報「VT3」のベクトルテーブルは、「名称ベクトルテーブル」となる。以下の説明では、テーブル識別情報「VT3」のベクトルテーブルを、名称ベクトルテーブルVT3と表記する。
 図26は、名称ベクトルテーブルのデータ構造の一例を示す図である。図26に示すように、名称ベクトルテーブルVT3は、名称の圧縮符号と、この名称の圧縮符号に割り当てられたベクトルとが対応付けられる。名称のベクトルは、ポアンカレエンベッディングにより算出される。
 図6の説明に戻る。転置インデックステーブル90は、図5等で説明した転置インデックスIn1,In2,In3を保持するテーブルである。図27は、転置インデックステーブルのデータ構造の一例を示す図である。図27に示すように、転置インデックステーブル90は、インデックス識別情報と、転置インデックスとを対応付ける。インデックス識別情報は、転置インデックスを一意に識別する情報である。転置インデックスは、ベクトルと位置との関係を定義する転置インデックスである。
 インデックス識別情報「In1-1」に対応する転置インデックスは、タンパク質転置インデックスIn1-1に対応する。インデックス識別情報「In1-2」に対応する転置インデックスは、一次構造転置インデックスIn1-2に対応する。インデックス識別情報「In1-3」に対応する転置インデックスは、高次構造転置インデックスIn1-3に対応する。
 インデックス識別情報「In2-1」に対応する転置インデックスは、基転置インデックスIn2-1に対応する。インデックス識別情報「In2-2」に対応する転置インデックスは、基一次構造転置インデックスIn2-2に対応する。インデックス識別情報「In3」に対応する転置インデックスは、名称転置インデックスIn3に対応する。
 図28は、タンパク質転置インデックスのデータ構造の一例を示す図である。タンパク質転置インデックスIn1-1の横軸は、オフセットに対応する軸である。タンパク質転置インデックスIn1-1の縦軸は、タンパク質の圧縮符号に対応する軸である。タンパク質転置インデックスIn1-1は、「0」または「1」のビットマップで示され、初期状態では全てのビットマップが「0」に設定される。
 たとえば、タンパク質圧縮ファイル51Aの先頭のタンパク質の圧縮符号のオフセットを「0」とする。タンパク質圧縮ファイル51Aの先頭から8番目の位置に、タンパク質の符号「E008000h(一型コラーゲン)」が含まれる場合、タンパク質転置インデックスIn1-1のオフセット「7」の列と、タンパク質の符号「E008000h(一型コラーゲン)」の行とが交差する位置のビットが「1」となる。
 図29は、一次構造転置インデックスのデータ構造の一例を示す図である。一次構造転置インデックスIn1-2の横軸は、オフセットに対応する軸である。一次構造転置インデックスIn1-2の縦軸は、一次構造の圧縮符号に対応する軸である。一次構造転置インデックスIn1-2は、「0」または「1」のビットマップで示され、初期状態では全てのビットマップが「0」に設定される。
 たとえば、一次構造圧縮ファイル52Aの先頭の一次構造の圧縮符号のオフセットを「0」とする。一次構造圧縮ファイル52Aの先頭から8番目の位置に、一次構造の符号「F00000h(α一次構造)」が含まれる場合、一次構造転置インデックスIn1-2のオフセット「7」の列と、一次構造の圧縮符号「F000000h(α一次構造)」の行とが交差する位置のビットが「1」となる。
 図30は、高次構造転置インデックスのデータ構造の一例を示す図である。高次構造転置インデックスIn1-3の横軸は、オフセットに対応する軸である。高次構造転置インデックスIn1-3の縦軸は、高次構造の圧縮符号に対応する軸である。高次構造転置インデックスIn1-3は、「0」または「1」のビットマップで示され、初期状態では全てのビットマップが「0」に設定される。
 たとえば、高次構造圧縮ファイル53Aの先頭の一次構造の圧縮符号のオフセットを「0」とする。高次構造圧縮ファイル53Aの先頭から11番目の位置に、高次構造の符号「G000000h(αα高次構造)」が含まれる場合、高次構造転置インデックスIn1-3のオフセット「10」の列と、高次構造の圧縮符号「G000000h(αα高次構造)」の行とが交差する位置のビットが「1」となる。
 図31は、基転置インデックスのデータ構造の一例を示す図である。基転置インデックスIn2-1の横軸は、オフセットに対応する軸である。基転置インデックスIn2-1の縦軸は、基の圧縮符号に対応する軸である。基転置インデックスIn2-1は、「0」または「1」のビットマップで示され、初期状態では全てのビットマップが「0」に設定される。
 たとえば、基圧縮ファイル51Bの先頭の基の圧縮符号のオフセットを「0」とする。基圧縮ファイル51Bの先頭から2番目の位置に、基の符号「D00800h(メチル基)」が含まれる場合、基転置インデックスIn2-1のオフセット「1」の列と、基の圧縮符号「D008000h(メチル基)」の行とが交差する位置のビットが「1」となる。
 図32は、基一次構造転置インデックスのデータ構造の一例を示す図である。基一次構造転置インデックスIn2-2の横軸は、オフセットに対応する軸である。基一次構造転置インデックスIn2-2の縦軸は、基一次構造の圧縮符号に対応する軸である。基一次構造転置インデックスIn2-2は、「0」または「1」のビットマップで示され、初期状態では全てのビットマップが「0」に設定される。
 たとえば、基一次構造圧縮ファイル52Bの先頭の基一次構造の圧縮符号のオフセットを「0」とする。基一次構造圧縮ファイル52Bの先頭から5番目の位置に、基一次構造の符号「H00800h(δ基一次構造)」が含まれる場合、基一次構造転置インデックスIn2-2のオフセット「4」の列と、基一次構造の圧縮符号「H008000h(δ基一次構造)」の行とが交差する位置のビットが「1」となる。
 図33は、名称転置インデックスのデータ構造の一例を示す図である。名称転置インデックスIn3の横軸は、オフセットに対応する軸である。名称転置インデックスIn3の縦軸は、名称の圧縮符号に対応する軸である。名称転置インデックスIn3は、「0」または「1」のビットマップで示され、初期状態では全てのビットマップが「0」に設定される。
 たとえば、文献圧縮ファイル51Cの先頭の名称の圧縮符号のオフセットを「0」とする。文献圧縮ファイル51Cの先頭から5番目の位置に、名称の符号「1A0800h(メチル基)」が含まれる場合、名称転置インデックスIn3のオフセット「4」の列と、名称の圧縮符号「1A08000h(メチル基)」の行とが交差する位置のビットが「1」となる。
 なお、図28~図33に示した各転置インデックスでは、圧縮符号毎に圧縮符号の位置を示したが、類似のベクトルに対応する圧縮符号のインデックスをまとめてもよい。たとえば、図28に示した圧縮符号「E008000h」のベクトルと、圧縮符号「E008001h」のベクトルとの距離が閾値未満の場合には、圧縮符号「E008000h」の行に対応するビット列と、圧縮符号「E008001h」の行に対応するビット列と、マージしてもよい。
 図6の説明に戻る。制御部150は、取得部151、圧縮部152、算出部153、生成部154、検索部155を有する。制御部150は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)により実現される。また、制御部150は、例えばASIC(Application specific Integrated Circuit)やFPGA(Field Programmable gate Array)等の集積回路により実行されてもよい。
 取得部151は、ネットワークを介して、外部装置から、各種の情報を取得する処理部である。たとえば、取得部151は、塩基ファイル50A、化学構造式ファイル50B、文献ファイル50Cを取得し、取得した塩基ファイル50A、化学構造式ファイル50B、文献ファイル50Cを、記憶部140に登録する。取得部151は、他の情報も、外部装置から取得して、記憶部140に登録してもよい。
 圧縮部152は、塩基ファイル50A、化学構造式ファイル50B、文献ファイル50Cの情報に圧縮符号を割り当てることで、圧縮する処理部である。
 算出部153は、圧縮符号に対してベクトルを割り当てる処理部である。
 生成部154は、圧縮符号に割り当てられたベクトルと、該当する圧縮符号の位置とを対応付けた転置インデックスを生成する処理部である。
 上記の圧縮部152、算出部153、生成部154は、以下に説明するように、協働して動作を行い、各種のデータを生成する。
 圧縮部152は、塩基ファイル50Aと、変換テーブル60とを比較して、塩基ファイル50Aの塩基配列を、コドンの単位で圧縮符号を割り当て、コドン圧縮ファイル50Dを生成する。圧縮部152は、コドン圧縮ファイル50Dと、タンパク質辞書D1-1とを比較して、コドン圧縮ファイル50Dに含まれるコドンの圧縮符号の配列を、タンパク質の単位で圧縮符号を割り当て、タンパク質圧縮ファイル51Aを生成する。
 圧縮部152は、化学構造式ファイル50Bと、基辞書D2-1とを比較して、化学構造式ファイル50Bの示性式を、基の単位で圧縮符号を割り当て、基圧縮ファイル51Bを生成する。
 圧縮部152は、文献ファイル50Cと、単語辞書D3とを比較して、文献ファイル50Cの文字列を、単語(名称)の単位で圧縮符号を割り当て、文献圧縮ファイル51Cを生成する。
 ここで、圧縮部152によって、タンパク質圧縮ファイル51Aと、基圧縮ファイル51Bと、文献圧縮ファイル51とが生成されると、算出部153は、タンパク質の圧縮符号、基の圧縮符号、名称の圧縮符号に割り当てるベクトルを算出する。
 算出部153は、タンパク質の圧縮符号と、基の圧縮符号と、名称の圧縮符号とを同一のポアンカレ空間Pに埋め込む(ポアンカレエンベッディングを実行する)ことで、各圧縮符号にベクトルを算出する。圧縮符号には、ポアンカレ空間Pの位置に応じたベクトルが割り当てられる。算出部153は、ポアンカレエンベッディングを行う場合に、共通概念テーブル55を参照し、同一の共通概念番号に対応する各圧縮符号が、ポアンカレ空間の類似の位置に埋め込まれるように調整を行う。
 算出部153は、圧縮符号と、この圧縮符号に割り当てたベクトルとの関係を、生成部154に出力する。生成部154は、圧縮符号と、ベクトルとの関係を基にして、各ベクトルテーブルを生成する。
 たとえば、生成部154は、タンパク質の圧縮符号と、この圧縮符号のベクトルとを対応付けることで、タンパク質ベクトルテーブルT1-1を生成する。生成部154は、タンパク質ベクトルテーブルT1-1をベクトルテーブル80に登録する。生成部154は、タンパク質の圧縮符号と、タンパク質圧縮ファイル51Aにおける圧縮符号のオフセットとの関係を特定し、タンパク質転置インデックスIn1-1を生成する。生成部154は、タンパク質転置インデックスIn1-1を、転置インデックステーブル90に登録する。
 生成部154は、基の圧縮符号と、この圧縮符号のベクトルとを対応付けることで、基ベクトルテーブルT2-1を生成する。生成部154は、基ベクトルテーブルT2-1をベクトルテーブル80に登録する。生成部154は、基の圧縮符号と、基圧縮ファイル51Bにおける圧縮符号のオフセットとの関係を特定し、基転置インデックスIn2-1を生成する。生成部154は、基転置インデックスIn2-1を、転置インデックステーブル90に登録する。
 生成部154は、名称(単語)の圧縮符号と、この圧縮符号のベクトルとを対応付けることで、名称ベクトルテーブルT3を生成する。生成部154は、名称ベクトルテーブルT3をベクトルテーブル80に登録する。生成部154は、名称(単語)の圧縮符号と、文献圧縮ファイル51Cにおける圧縮符号のオフセットとの関係を特定し、名称転置インデックスIn3を生成する。生成部154は、名称転置インデックスIn3を、転置インデックステーブル90に登録する。
 続いて、圧縮部152は、タンパク質圧縮ファイル51Aと、一次構造辞書D1-2とを比較して、タンパク質圧縮ファイル51Aに含まれるタンパク質の圧縮符号の配列を、一次構造の単位で圧縮符号を割り当て、一次構造圧縮ファイル52Aを生成する。
 圧縮部152は、基圧縮ファイル51Bと、基一次構造辞書D2-2とを比較して、基圧縮ファイル51Bに含まれる基の圧縮符号の配列を、基一次構造の単位で圧縮符号を割り当て、基一次構造圧縮ファイル52Bを生成する。
 ここで、圧縮部152によって、一次構造圧縮ファイル52Aと、基一次構造圧縮ファイル52Bとが生成されると、算出部153は、一次構造の圧縮符号、基一次構造の圧縮符号に割り当てるベクトルを算出する。
 算出部153が、一次構造の圧縮符号のベクトルを算出する処理の一例について説明する。算出部153は、一次構造辞書D1-2を参照して、一次構造の圧縮符号に対応するタンパク質符号配列(タンパク質の圧縮符号の配列)を特定する。算出部153は、特定した各タンパク質の圧縮符号のベクトルを、タンパク質ベクトルテーブルT1-1から取得し、取得した各ベクトルを加算することで、一次構造の圧縮符号のベクトルを算出する。
 算出部153は、上記処理を繰り返し実行することで、各一次構造の圧縮符号のベクトルをそれぞれ算出する。ここで、算出部153は、一次構造の圧縮符号と、共通概念テーブル55とを比較して、同一の共通概念番号に属する一次構造の圧縮符号が存在する場合には、係る圧縮符号を補正してもよい。
 たとえば、算出部153は、同一の共通概念番号に属する一次構造の圧縮符号のベクトルを平均したベクトルを、補正後のベクトルとする。算出部153は、一次構造の圧縮符号「F0000000h」と、圧縮符号「F0000020h」とが同一の共通概念番号に属しているものとする。この場合、算出部153は、圧縮符号「F0000000h」のベクトルと、圧縮符号「F0000020h」のベクトルとを平均したベクトルを、圧縮符号「F0000000h」、圧縮符号「F0000020h」のベクトルとする。
 算出部153が、基一次構造の圧縮符号のベクトルを算出する処理の一例について説明する。算出部153は、基一次構造辞書D2-2を参照して、基一次構造の圧縮符号に対応する基符号配列(基の圧縮符号の配列)を特定する。算出部153は、特定した各基の圧縮符号のベクトルを、基ベクトルテーブルT2-1から取得し、取得した各ベクトルを加算することで、基一次構造の圧縮符号のベクトルを算出する。
 算出部153は、上記処理を繰り返し実行することで、各基一次構造の圧縮符号のベクトルをそれぞれ算出する。
 算出部153は、一次構造の圧縮符号と、この圧縮符号に割り当てたベクトルとの関係を、生成部154に出力する。また、基一次構造の圧縮符号と、この圧縮符号に割り当てたベクトルとの関係を、生成部154に出力する。生成部154は、圧縮符号と、ベクトルとの関係を基にして、各ベクトルテーブルを生成する。
 たとえば、生成部154は、一次構造の圧縮符号と、この圧縮符号のベクトルとを対応付けることで、一次構造ベクトルテーブルT1-2を生成する。生成部154は、一次構造ベクトルテーブルT1-2をベクトルテーブル80に登録する。生成部154は、一次構造の圧縮符号と、一次構造圧縮ファイル52Aにおける圧縮符号のオフセットとの関係を特定し、一次構造転置インデックスIn1-2を生成する。生成部154は、一次構造転置インデックスIn1-2を、転置インデックステーブル90に登録する。
 生成部154は、基一次構造の圧縮符号と、この圧縮符号のベクトルとを対応付けることで、基一次構造ベクトルテーブルT2-2を生成する。生成部154は、基一次構造ベクトルテーブルT2-2をベクトルテーブル80に登録する。生成部154は、基一次構造の圧縮符号と、基一次構造圧縮ファイル52Bにおける圧縮符号のオフセットとの関係を特定し、基一次構造転置インデックスIn2-2を生成する。生成部154は、基一次構造転置インデックスIn2-2を、転置インデックステーブル90に登録する。
 続いて、圧縮部152は、一次構造圧縮ファイル52Aと、高次構造辞書D1-3とを比較して、一次構造圧縮ファイル52Aに含まれる一次構造の圧縮符号の配列を、高次構造の単位で圧縮符号を割り当て、高次構造圧縮ファイル53Aを生成する。
 ここで、圧縮部152によって、高次構造圧縮ファイル53Aが生成されると、算出部153は、高次構造の圧縮符号に割り当てるベクトルを算出する。
 算出部153が、高次構造の圧縮符号のベクトルを算出する処理の一例について説明する。算出部153は、高次構造辞書D1-3を参照して、高次構造の圧縮符号に対応する一次構造符号配列(一次構造の圧縮符号の配列)を特定する。算出部153は、特定した各一次構造の圧縮符号のベクトルを、一次構造ベクトルテーブルT1-2から取得し、取得した各ベクトルを加算することで、高次構造の圧縮符号のベクトルを算出する。
 算出部153は、上記処理を繰り返し実行することで、各高次構造の圧縮符号のベクトルをそれぞれ算出する。算出部153は、高次構造の圧縮符号と、この圧縮符号に割り当てたベクトルとの関係を、生成部154に出力する。
 生成部154は、高次構造の圧縮符号と、この圧縮符号のベクトルとを対応付けることで、高次構造ベクトルテーブルT1-3を生成する。生成部154は、高次構造ベクトルテーブルT1-3をベクトルテーブル80に登録する。生成部154は、高次構造の圧縮符号と、高次構造圧縮ファイル53Aにおける圧縮符号のオフセットとの関係を特定し、高次構造転置インデックスIn1-3を生成する。生成部154は、高次構造転置インデックスIn1-3を、転置インデックステーブル90に登録する。
 上記処理を実行することで、圧縮部152は、塩基ファイル50Aから、コドン圧縮ファイル50D、タンパク質圧縮ファイル51A、一次構造圧縮ファイル52A、高次構造圧縮ファイル53Aを生成する。圧縮部152は、化学構造式ファイル50Bから、基圧縮ファイル51B、基一次構造圧縮ファイル52Bを生成する。圧縮部152は、文献ファイル50Cから、文献圧縮ファイル51Cを生成する。
 算出部153は、タンパク質の圧縮符号のベクトル、一次構造の圧縮符号のベクトル、高次構造の圧縮符号のベクトルを算出する。算出部153は、基の圧縮符号のベクトル、基一次構造の圧縮符号のベクトルを算出する。算出部153は、名称の圧縮符号のベクトルを算出する。
 生成部154は、ベクトルテーブル80、転置インデックステーブル90を生成する。
 図6の説明に戻る。検索部155は、検索クエリを受け付けた場合に、検索クエリに対応する情報を、記憶部140から検索し、検索結果を出力する処理部である。検索部155は、検索クエリのベクトルと、転置インデックスIn1,In2、In3のベクトルとの類似度評価を行う。たとえば、検索部155は、検索クエリのベクトルとの距離が閾値未満となるベクトルを、類似ベクトルとして特定する。
 検索部155は、類似ベクトルと、転置インデックスIn1とを基にして、類似ベクトルに対応するタンパク質、一次構造または高次構造の情報を、タンパク質圧縮ファイル51A、一次構造圧縮ファイル52A、高次構造圧縮ファイル53Aから取得する。情報処理装置は、類似ベクトルと、転置インデックスIn2とを基にして、類似ベクトルに対応する基、または、一次構造の情報を、基圧縮ファイル51B、基一次構造圧縮ファイル52Bから取得する。情報処理装置は、類似ベクトルと、転置インデックスIn3とを基にして、類似ベクトルに対応する名称(あるいは、名称に関連する文書データ)を、文献圧縮ファイル51cから取得する。
 検索部155は、取得した情報を、検索クエリに対する検索結果として出力する。検索部155は、検索クエリを入力部120から受け付けた場合には、検索結果を表示部130に出力して表示させる。検索部155が取得した情報は符号化されているため、辞書テーブル70を用いて、復号し、復号した検索結果を出力してもよい。
 次に、本実施例1に係る情報処理装置100の処理手順の一例について説明する。図34および図35は、本実施例1に係る情報処理装置の処理手順を示すフローチャートである。図34について説明する。情報処理装置100の取得部151は、塩基ファイル50A、化学構造式ファイル50B、文献ファイル50Cを取得し、記憶部140に登録する(ステップS101)。
 情報処理装置100の圧縮部152は、塩基ファイル50Aと変換テーブル60とを基にして、コドン圧縮ファイル50dを生成する(ステップS102)。圧縮部152は、化学構造式ファイル50Bと、基辞書D2-1とを基にして、基圧縮ファイル51Bを生成する(ステップS103)。圧縮部152は、文献ファイル50Cと、単語辞書D3とを基にして、文献圧縮ファイル51Cを生成する(ステップS104)。
 圧縮部152は、文献ファイル50Cと、単語辞書D3とを基にして、文献圧縮ファイル51Cを生成する(ステップS105)。情報処理装置100の算出部153は、共通概念テーブル55を基にして、タンパク質の圧縮符号、基の圧縮符号、名称の圧縮符号をポアンカレエンベッディングする(ステップS106)。
 情報処理装置100の生成部154は、タンパク質ベクトルテーブルT1-1と、タンパク質転置インデックスIn1-1を生成する(ステップS107)。生成部154は、基ベクトルテーブルT2-1と、基転置インデックスIn2-1を生成する(ステップS108)。
 生成部154は、名称ベクトルテーブルT3と、名称転置インデックスIn3を生成し(ステップS109)、図35のステップS110に移行する。
 図35の説明に移行する。圧縮部152は、タンパク質圧縮ファイル51Aと、一次構造辞書D1-2とを基にして、一次構造圧縮ファイル52Aを生成する(ステップS110)。算出部153は、一次構造の圧縮符号のベクトルを算出する(ステップS111)。算出部153は、一次構造の圧縮符号のベクトルを補正する(ステップS112)。
 生成部154は、一次構造ベクトルテーブルT1-2と、一次構造転置インデックスIn1-2を生成する(ステップS113)。圧縮部152は、基圧縮ファイル51Bと、基一次構造辞書D2-2とを基にして、基一次構造圧縮ファイル52Bを生成する(ステップS114)。
 算出部153は、基一次構造の圧縮符号のベクトルを算出する(ステップS115)。生成部154は、一次構造ベクトルテーブルT2-2と、基一次構造転置インデックスIn2-2を生成する(ステップS116)。
 圧縮部152は、一次構造圧縮ファイル52Aと、高次構造辞書D1-3とを基にして、高次構造圧縮ファイル53Aを生成する(ステップS117)。算出部153は、高次構造の圧縮符号のベクトルを算出する(ステップS118)。生成部154は、高次構造ベクトルテーブルT1-3と、高次構造転置インデックスIn1-3を生成する(ステップS119)。
 次に、本実施例1に係る情報処理装置100の効果について説明する。情報処理装置100は、共通概念テーブル55を基にして、複数の空間の情報に対して、ポアンカレエンベッディングを実行し、ベクトルを割り当てる。情報処理装置100は、情報に割り当てたベクトルと情報の位置とを対応付けた転置インデックスIn1,In2,In3を生成する。情報処理装置100は、検索クエリを受け付けた場合に、検索クエリのベクトルと、転置インデックスIn1,In2,In3をと基にして、複数の空間から、検索クエリに類似する情報を検索結果として取得する。これによって、化合物の高次構造、一次構造、タンパク質等の様々な粒度で、類似度検索を高精度に実行することができる。
 情報処理装置100は、ポアンカレエンベッディングを実行した、基本情報のベクトルを基にして、基本情報よりも粒度の大きい構造情報のベクトルを算出する。これによって、より粒度の大きい構造情報のベクトルを精度よく算出することができる。
 たとえば、情報処理装置100は、一次構造辞書D1-2を基にして、一次構造に含まれるタンパク質を特定し、一次構造に含まれるタンパク質のベクトルを加算することで、一次構造のベクトルを算出する。情報処理装置100は、高次構造に含まれる一次構造を特定し、高次構造に含まれる一次構造のベクトルを加算することで、高次構造のベクトルを算出する。これによって、一次構造、高次構造のベクトルを精度よく算出することができる。
 情報処理装置100は、基一次構造辞書D2-2を基にして、基一次構造に含まれる基を特定し、基一次構造に含まれる基のベクトルを加算することで、基一次構造のベクトルを算出する。これによって、基一次構造のベクトルを精度よく算出することができる。
 情報処理装置100は、タンパク質のベクトルと、タンパク質圧縮ファイル51Aにおけるタンパク質の位置とを対応付けたタンパク質転置インデックスIn1-1を生成する。情報処理装置100は、一次構造のベクトルと、一次構造圧縮ファイル52Aにおける一次構造の位置とを対応付けた一次構造転置インデックスIn1-2を生成する。情報処理装置100は、高次構造のベクトルと、高次構造圧縮ファイル53Aにおける高次構造の位置とを対応付けた高次構造転置インデックスIn1-3を生成する。これによって、タンパク質、一次構造、高次構造の粒度で、検索を横断的に実行することができる。
 情報処理装置100は、基のベクトルと、基圧縮ファイル51ABにおける基の位置とを対応付けた基転置インデックスIn2-1を生成する。情報処理装置100は、基一次構造のベクトルと、基一次構造圧縮ファイル52Bにおける基一次構造の位置とを対応付けた基一次構造転置インデックスIn2-2を生成する。これによって、基、基一次構造の粒度で、検索を横断的に実行することができる。
 ところで、上記のように、本実施例1に係る情報処理装置100の算出部153は、共通概念テーブル55を基にして、タンパク質の圧縮符号、基の圧縮符号、名称の圧縮符号をポアンカレエンベッディングして、ベクトルを算出する。そして、算出部153は、複数のタンパク質の圧縮符号を加算することで、一次構造のベクトルを算出し、複数の一次構造の圧縮符号のベクトルを加算することで、高次構造の圧縮符号のベクトルを算出していたが、これに限定されるものではない。
 情報処理装置100の算出部153は、高次構造の圧縮符号をポアンカレエンベッディングすることで、高次構造の圧縮符号のベクトルを直接算出してもよい。算出部153は、高次構造の圧縮符号をポアンカレエンベッディングする場合に、共通概念テーブル55を基にして、同一の共通概念番号に属する高次構造の圧縮符号を特定し、特定した高次構造の圧縮符号が、ポアンカレ空間Pの近い位置に埋め込まれるように、埋め込み位置を調整する。これによって、同一の共通概念番号に属する高次構造の圧縮符号に対して、類似のベクトルを算出することができる。
 また、算出部153は、高次構造の圧縮符号に対応するベクトルをポアンカレエンベッディングによって算出した後に、高次構造辞書D1-3を基にして、高次構造に含まれる複数の一次構造の圧縮符号を特定し、特定した各一次構造の圧縮符号にベクトルを割り当ててもよい。
 算出部153は、各一次構造の圧縮符号にベクトルを割り当てた後に、同一の一次構造の圧縮符号に割り当てたベクトルを基にして、同一の一次構造の圧縮符号のベクトルを補正してもよい。
 図36は、算出部のその他の処理を説明するための図である。図36では、算出部153は、高次構造の圧縮符号「G000010」、「G000110」をポアンカレエンベッディングすることで、ベクトルを算出する。たとえば、圧縮符号「G000010」のベクトルを「V3-10」とし、圧縮符号「G000110」のベクトルを「V3-11」とする。
 高次構造の圧縮符号「G000010」に対応する一次構造の圧縮符号を「F008020」、「F008030」、「F008040」とし、各一次構造の圧縮符号のベクトルを、「V2-10」、「V2-11」、「V2-12」とする。たとえば、各一次構造の圧縮符号のベクトルは、高次構造の圧縮符号に割り当てられたベクトルから算出される。
 高次構造の圧縮符号「G000110」に対応する一次構造の圧縮符号を「F008024」、「F008030」、「F008050」とし、各一次構造の圧縮符号のベクトルを、「V2-20」、「V2-21」、「V2-22」とする。たとえば、各一次構造の圧縮符号のベクトルは、高次構造の圧縮符号に割り当てられたベクトルから算出される。
 ここで、算出部153は、圧縮符号「G000010」に含まれる圧縮符号(1)「F008030」と、圧縮符号「G000110」に含まれる圧縮符号(2)「F008030」とが同一の圧縮符号となる。この場合、算出部153は、圧縮符号(1)「F008030」のベクトル「V2-11」と、圧縮符号(2)「F008030」のベクトル「V2-21」との各次元のベクトルを平均し、最適化した各ベクトル値を、圧縮符号「F008030」のベクトルとして算出する。
 算出部153が、上記処理を実行することで、一次構造のベクトルの精度を向上させることができる。
 また、上記の情報処理装置100は、高次構造の粒度について、受容体に対して類似する機能を持つ、リガンド(アゴニスト)、アンタゴニストに着目した、共通概念テーブル55を用いて、ポアンカレエンベッディングを実行してもよい。すなわち、高次構造の圧縮符号のうち、類似の機能をもつ、リガンドに割り当てる圧縮符号、アンタゴニストの圧縮符号に対して、同一の共通概念番号を割り当てる。
 次に、本実施例2に係る情報処理装置の処理について説明する。本実施例2に係る情報処理装置は、受容体とリガンドとの関係、あるいは、受容体とアンタゴニストとの関係を示す教師データを用いて、機械学習を行い、学習モデルを学習する。学習モデルの学習を実行する場合には、教師データに含まれる受容体、リガンド、アンタゴニストをベクトルに変換して、学習を行う。受容体、リガンド、アンタゴニストは、高次構造の化合物であり、情報処理装置は、実施例1で生成された高次構造ベクトルテーブルを用いて、ベクトルを特定する。
 図37は、本実施例2に係る情報処理装置の構成を示す機能ブロック図である。図37に示すように、この情報処理装置200は、通信部210と、入力部220と、表示部230と、記憶部240と、制御部250とを有する。
 通信部210、入力部220、表示部230に関する説明は、実施例1で説明した通信部210、入力部220、表示部230に関する説明と同様である。
 記憶部240は、辞書テーブル70、ベクトルテーブル80、教師データ240a、学習モデル240bを有する。記憶部240は、たとえば、RAM、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。
 辞書テーブル70は、図15で説明した辞書テーブル70に対応する。辞書テーブル70には、タンパク質辞書D1-1、一次構造辞書D1-2、高次構造辞書D1-3のデータが含まれる。また、辞書テーブル70には、基辞書D2-1、基一次構造辞書D2-2、単語辞書D3のデータが含まれる。
 ベクトルテーブル80は、図20で説明したベクトルテーブル80に対応する。ベクトルテーブル80は、タンパク質ベクトルテーブルVT1-1、一次構造辞書ベクトルテーブルVT1-2、高次構造ベクトルテーブルVT1-3を有する。また、ベクトルテーブル80は、基ベクトルテーブルVT2-1、基一次構造ベクトルテーブルVT2-2、名称ベクトルテーブルVT3を有する。
 教師データ240aは、受容体とリガンド、受容体とアンタゴニストとの関係性を定義するデータである。図38は、教師データのデータ構造の一例を示す図である。図38に示すように、教師データ240aは、受容体と、リガンド(塩基配列)と、リガンド(構造式)と、アンタゴニスト(化合物)とを対応付ける。
 たとえば、受容体が入力データとなり、リガンド(塩基配列)、リガンド(化学構造式)、アンタゴニスト(化合物)は、正解ラベルとなる。受容体、アンタゴニストは、高次構造体となる。リガンド(塩基配列)は、塩基配列によって、一次構造、高次構造が指定される。リガンド(化学構造式)は、示性式によって、基一次構造が指定される。なお、受容体、リガンド、アンタゴニストは、名称で指定されていてもよい。
 学習モデル240bは、後述する学習部253によって学習される機械学習モデルである。学習モデル240bは、NN(Neural Network)等の機械学習モデルである。
 制御部250は、取得部251、変換部252、学習部253、実行部254を有する。制御部250は、例えば、CPUやMPUにより実現される。また、制御部250は、例えばASICやFPGA等の集積回路により実行されてもよい。
 取得部151は、ネットワークを介して、外部装置から、各種の情報を取得する処理部である。たとえば、取得部151は、教師データ240aを取得し、取得した教師データ240aを、記憶部240に登録する。
 変換部252は、教師データ240aに含まれる入力データおよび正解ラベルにベクトルを割り当て、入力データおよび正解ラベルに割り当てたベクトルを、学習部253に出力する。
 たとえば、変換部252は、入力データ、正解ラベルが圧縮符号で指定されている場合には、圧縮符号と、ベクトルテーブル80とを比較して、圧縮符号に対応するベクトルを特定する。
 変換部252は、入力データ、正解ラベルが、名称で指定されている場合には、単語辞書D3と、名称とを比較して、名称に対応する圧縮符号を特定した後に、ベクトルテーブル80を用いて、圧縮符号に対応するベクトルを特定する。
 変換部252は、入力データ、正解ラベルが、塩基配列で指定されている場合には、辞書テーブル70を用いて、高次構造の圧縮符号を特定した後に、ベクトルテーブル80を用いて、圧縮符号に対応するベクトルを特定する。塩基配列を、高次構造の圧縮符号に変換する処理は、実施例1の圧縮部152が実行する処理と同様である。
 変換部252は、入力データ、正解ラベルが、化学構造式で指定されている場合には、辞書テーブル70を用いて、基一次構造の圧縮符号を特定した後に、ベクトルテーブル80を用いて、圧縮符号に対応するベクトルを特定する。化学構造式(示性式)を、基一次構造の圧縮符号に変換する処理は、実施例1の圧縮部152が実行する処理と同様である。
 学習部253は、教師データ240aの入力データのベクトルと、正解ラベルのベクトルとの関係を用いて、学習モデル240bを機械学習する処理部である。たとえば、学習部253は、入力データのベクトルを、NN(学習モデル240b)に入力した場合のアウトプットデータを取得する。学習部253は、アウトプットデータと、正解ラベル(ベクトル)との差を損失関数として設定し、損失関数の誤差を逆伝搬し、損失関数の値が最小となるように、学習モデル240bのパラメータを学習する。学習部253は、学習結果となる学習モデル240bを、記憶部240に格納する。
 実行部254は、受容体に対応する検索クエリを受け付けた場合に、学習モデル240bに検索クエリを入力することで、検索クエリに対応するリガンドまたはアンタゴニストを検索する処理部である。たとえば、実行部254は、学習モデル240bに検索クエリ(ベクトル)を入力することで、アウトプットデータ(ベクトル)を取得する。
 実行部254は、アウトプットデータのベクトルと、名称ベクトルテーブルVT3のベクトルとを比較して、最も類似する名称のベクトルに対応する名称の圧縮符号を特定し、特定した圧縮符号と、辞書テーブル70とを基にして、アウトプットデータに対応するリガンドあるいはアンタゴニストの名称を特定する。
 図37では説明を省略したが、情報処理装置200の記憶部240には、図6の記憶部140に記憶される情報を更に記憶していてもよい。実行部254は、検索部155と同様の処理を実行することで、アウトプットデータのベクトルに対応するリガンド、アンタゴニストに対応する塩基配列、示性式を検出して、検出結果として出力してもよい。
 また、図37では説明を省略したが、情報処理装置200は、情報処理装置100と同様に機能部(圧縮部152、算出部153、生成部154)を有していてもよい。情報処理装置200に含まれる圧縮部152、算出部153、生成部154が、ベクトルテーブル80、転置インデックステーブル90を生成してもよい。
 次に、本実施例2に係る情報処理装置200の効果について説明する。情報処理装置200は、受容体とリガンド、または、受容体とアンタゴニストの関係を定義した教師データ240aを基にして、学習モデル240bを生成する。これによって、検索クエリが与えられた場合に、検索クエリを学習モデル240bに入力することで、検索クエリ(受容体)に対応するリガンド、または、アンタゴニストを特定することができる。
 ここで、教師データ240aで対応付けられる受容体は、一次構造であり、アンタゴニストは基であるため、粒度が異なるが、上記のようにベクトルを割り当てることができ、受容体とアンタゴニストとの関係を学習することができる。また、類似する一次構造のベクトルをまとめてもよい。このように、類似する一次構造のベクトルをグループ化することで、教師データの組み合わせを抑えることができる。また、これによって、Softmax関数の演算爆発を抑えることができ、性能の低いGPU(Graphics Processing Unit)でのAI推定を行うことを可能にする。
 次に、上記実施例に示した情報処理装置100(200)と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図39は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。
 図39に示すように、コンピュータ300は、各種演算処理を実行するCPU301と、ユーザからのデータの入力を受け付ける入力装置302と、ディスプレイ303とを有する。また、コンピュータ300は、有線または無線ネットワークを介して、外部装置等との間でデータの授受を行う通信装置304と、インタフェース装置305とを有する。また、コンピュータ300は、各種情報を一時記憶するRAM306と、ハードディスク装置307とを有する。そして、各装置301~307は、バス308に接続される。
 ハードディスク装置307は、取得プログラム307a、圧縮プログラム307b、算出プログラム307c、生成プログラム307d、検索プログラム307e、変換プログラム307f、学習プログラム307g、実行プログラム307hを有する。また、CPU301は、各プログラム307a~307hを読み出してRAM306に展開する。
 取得プログラム307aは、取得プロセス306aとして機能する。圧縮プログラム307bは、圧縮プロセス306bとして機能する。算出プログラム307cは、算出プロセス306cとして機能する。生成プログラム307dは、生成プロセス306dとして機能する。検索プログラム307eは、検索プロセス306eとして機能する。変換プログラム307fは、変換プロセス306fとして機能する。学習プログラム307gは、学習プロセス306gとして機能する。実行プログラム307hは、実行プロセス306として機能する。
 取得プロセス306aの処理は、取得部151,251の処理に対応する。圧縮プロセス306bの処理は、圧縮部152の処理に対応する。算出プロセス306cの処理は、算出部153の処理に対応する。生成プロセス306dの処理は、生成部154の処理に対応する。検索プロセス306eの処理は、検索部155の処理に対応する。変換プロセス306fの処理は、変換部252の処理に対応する。学習プロセス306gの処理は、学習部253の処理に対応する。実行プロセス306hの処理は、実行部254の処理に対応する。
 なお、各プログラム307a~307hについては、必ずしも最初からハードディスク装置307に記憶させておかなくても良い。例えば、コンピュータ300に挿入されるフレキシブルディスク(FD)、CD-ROM、DVD、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ300が各プログラム307a~307hを読み出して実行するようにしてもよい。
  50A 塩基ファイル
  50B 化学構造式ファイル
  50C 文献ファイル
  50D コドン圧縮ファイル
  51A タンパク質圧縮ファイル
  51B 基圧縮ファイル
  51C 文献圧縮ファイル
  52A 一次構造圧縮ファイル
  52B 基一次構造圧縮ファイル
  53A 高次構造圧縮ファイル
  55  共通概念テーブル
  60  変換テーブル
  70  辞書テーブル
  80  ベクトルテーブル
  90  転置インデックステーブル
 100,200  情報処理装置
 110,210  通信部
 120,220  入力部
 130,230  表示部
 140,240  記憶部
 150,250  制御部
 151,251  取得部
 152  圧縮部
 153  算出部
 154  生成部
 155  検索部
 252  変換部
 253  学習部
 254  実行部

Claims (18)

  1.  コンピュータに、
     複数の空間で定義された空間固有の複数の基本情報を共通概念で分類した共通概念テーブルを基にして、前記複数の基本情報をポアンカレエンベッディングすることで、前記複数の基本情報のベクトルを算出し、
     前記複数の基本情報のベクトルを基にして、前記基本情報よりも粒度の大きい構造情報のベクトルを算出し、
     同一の空間に対応するファイルにおける前記基本情報の位置と前記基本情報のベクトルとの関係、および、前記ファイルにおける前記構造情報の位置と前記構造情報のベクトルとの関係を定義した転置インデックスを生成する
     処理を実行させることを特徴とする情報処理プログラム。
  2.  前記基本情報のベクトルを算出する処理は、第1空間で定義された第1空間固有の第1基本情報と、第2空間で定義された第2空間固有の第2基本情報と、第3空間で定義された第3基本情報とを、共通概念で分類した共通概念テーブルを基にして、前記第1基本情報、前記第2基本情報、前記第3基本情報をポアンカレエンベッディングすることで、前記第1基本情報、前記第2基本情報、前記第3基本情報のベクトルをそれぞれ算出することを特徴とする請求項1に記載の情報処理プログラム。
  3.  前記生成する処理は、複数の第1基本情報のベクトルを基にして、前記第1空間において前記第1基本情報よりも粒度の大きい第1構造情報のベクトルを算出し、前記第1空間のファイルにおける前記第1基本情報の位置と、前記第1構造情報のベクトルの位置と、ベクトルとを対応付けた第1転置インデックスを生成することを特徴とする請求項2に記載の情報処理プログラム。
  4.  前記生成する処理は、類似する複数の第1構造情報のベクトルを基にして、前記類似する複数の第1構造情報のベクトルを補正することを特徴とする請求項3に記載の情報処理プログラム。
  5.  前記第1空間は、タンパク質を第1基本情報とするゲノム空間であり、前記第2空間は、官能基を第2基本情報とするケミカル空間であり、前記第3空間は、タンパク質または官能基の名称を第3基本情報とするテキスト空間であることを特徴とする請求項2に記載の情報処理プログラム。
  6.  受容体を入力データとし、リガンドまたはアンタゴニストのうちいずれか一方を正解ラベルとする教師データについて、前記第1構造情報に属する前記受容体のベクトル、前記リガンドのベクトル、前記アンタゴニストのベクトルを算出し、前記受容体のベクトル、前記リガンドのベクトル、前記アンタゴニストのベクトルを基にして、学習モデルを生成する処理を更に実行することを特徴とする請求項3に記載の情報処理プログラム。
  7.  コンピュータが実行する情報処理方法であって、
     複数の空間で定義された空間固有の複数の基本情報を共通概念で分類した共通概念テーブルを基にして、前記複数の基本情報をポアンカレエンベッディングすることで、前記複数の基本情報のベクトルを算出し、
     前記複数の基本情報のベクトルを基にして、前記基本情報よりも粒度の大きい構造情報のベクトルを算出し、
     同一の空間に対応するファイルにおける前記基本情報の位置と前記基本情報のベクトルとの関係、および、前記ファイルにおける前記構造情報の位置と前記構造情報のベクトルとの関係を定義した転置インデックスを生成する
     処理を実行することを特徴とする情報処理方法。
  8.  前記基本情報のベクトルを算出する処理は、第1空間で定義された第1空間固有の第1基本情報と、第2空間で定義された第2空間固有の第2基本情報と、第3空間で定義された第3基本情報とを、共通概念で分類した共通概念テーブルを基にして、前記第1基本情報、前記第2基本情報、前記第3基本情報をポアンカレエンベッディングすることで、前記第1基本情報、前記第2基本情報、前記第3基本情報のベクトルをそれぞれ算出することを特徴とする請求項7に記載の情報処理方法。
  9.  前記生成する処理は、複数の第1基本情報のベクトルを基にして、前記第1空間において前記第1基本情報よりも粒度の大きい第1構造情報のベクトルを算出し、前記第1空間のファイルにおける前記第1基本情報の位置と、前記第1構造情報のベクトルの位置と、ベクトルとを対応付けた第1転置インデックスを生成することを特徴とする請求項8に記載の情報処理方法。
  10.  前記生成する処理は、類似する複数の第1構造情報のベクトルを基にして、前記類似する複数の第1構造情報のベクトルを補正することを特徴とする請求項9に記載の情報処理方法。
  11.  前記第1空間は、タンパク質を第1基本情報とするゲノム空間であり、前記第2空間は、官能基を第2基本情報とするケミカル空間であり、前記第3空間は、タンパク質または官能基の名称を第3基本情報とするテキスト空間であることを特徴とする請求項8に記載の情報処理方法。
  12.  受容体を入力データとし、リガンドまたはアンタゴニストのうちいずれか一方を正解ラベルとする教師データについて、前記第1構造情報に属する前記受容体のベクトル、前記リガンドのベクトル、前記アンタゴニストのベクトルを算出し、前記受容体のベクトル、前記リガンドのベクトル、前記アンタゴニストのベクトルを基にして、学習モデルを生成する処理を更に実行することを特徴とする請求項9に記載の情報処理方法。
  13.  複数の空間で定義された空間固有の複数の基本情報を共通概念で分類した共通概念テーブルを基にして、前記複数の基本情報をポアンカレエンベッディングすることで、前記複数の基本情報のベクトルを算出し、前記複数の基本情報のベクトルを基にして、前記基本情報よりも粒度の大きい構造情報のベクトルを算出する算出部と、
     同一の空間に対応するファイルにおける前記基本情報の位置と前記基本情報のベクトルとの関係、および、前記ファイルにおける前記構造情報の位置と前記構造情報のベクトルとの関係を定義した転置インデックスを生成する生成部と
     を有することを特徴とする情報処理装置。
  14.  前記算出部は、第1空間で定義された第1空間固有の第1基本情報と、第2空間で定義された第2空間固有の第2基本情報と、第3空間で定義された第3基本情報とを、共通概念で分類した共通概念テーブルを基にして、前記第1基本情報、前記第2基本情報、前記第3基本情報をポアンカレエンベッディングすることで、前記第1基本情報、前記第2基本情報、前記第3基本情報のベクトルをそれぞれ算出することを特徴とする請求項13に記載の情報処理装置。
  15.  前記生成部は、複数の第1基本情報のベクトルを基にして、前記第1空間において前記第1基本情報よりも粒度の大きい第1構造情報のベクトルを算出し、前記第1空間のファイルにおける前記第1基本情報の位置と、前記第1構造情報のベクトルの位置と、ベクトルとを対応付けた第1転置インデックスを生成することを特徴とする請求項14に記載の情報処理装置。
  16.  前記生成部は、類似する複数の第1構造情報のベクトルを基にして、前記類似する複数の第1構造情報のベクトルを補正することを特徴とする請求項15に記載の情報処理装置。
  17.  前記第1空間は、タンパク質を第1基本情報とするゲノム空間であり、前記第2空間は、官能基を第2基本情報とするケミカル空間であり、前記第3空間は、タンパク質または官能基の名称を第3基本情報とするテキスト空間であることを特徴とする請求項14に記載の情報処理装置。
  18.  受容体を入力データとし、リガンドまたはアンタゴニストのうちいずれか一方を正解ラベルとする教師データについて、前記第1構造情報に属する前記受容体のベクトル、前記リガンドのベクトル、前記アンタゴニストのベクトルを算出し、前記受容体のベクトル、前記リガンドのベクトル、前記アンタゴニストのベクトルを基にして、学習モデルを生成する学習部を更に有することを特徴とする請求項15に記載の情報処理装置。
PCT/JP2020/026214 2020-07-03 2020-07-03 情報処理プログラム、情報処理方法および情報処理装置 Ceased WO2022003956A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN202080102120.6A CN115917521A (zh) 2020-07-03 2020-07-03 信息处理程序、信息处理方法以及信息处理装置
PCT/JP2020/026214 WO2022003956A1 (ja) 2020-07-03 2020-07-03 情報処理プログラム、情報処理方法および情報処理装置
EP20943751.6A EP4177766B1 (en) 2020-07-03 2020-07-03 Information processing program, information processing method, and information processing device
JP2022532998A JP7428252B2 (ja) 2020-07-03 2020-07-03 情報処理プログラム、情報処理方法および情報処理装置
US18/060,042 US20230088088A1 (en) 2020-07-03 2022-11-30 Information processing program, information processing method, and information processing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/026214 WO2022003956A1 (ja) 2020-07-03 2020-07-03 情報処理プログラム、情報処理方法および情報処理装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/060,042 Continuation US20230088088A1 (en) 2020-07-03 2022-11-30 Information processing program, information processing method, and information processing device

Publications (1)

Publication Number Publication Date
WO2022003956A1 true WO2022003956A1 (ja) 2022-01-06

Family

ID=79314939

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/026214 Ceased WO2022003956A1 (ja) 2020-07-03 2020-07-03 情報処理プログラム、情報処理方法および情報処理装置

Country Status (5)

Country Link
US (1) US20230088088A1 (ja)
EP (1) EP4177766B1 (ja)
JP (1) JP7428252B2 (ja)
CN (1) CN115917521A (ja)
WO (1) WO2022003956A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007139037A1 (ja) 2006-05-26 2007-12-06 Kyoto University ケミカルゲノム情報に基づく、タンパク質-化合物相互作用の予測と化合物ライブラリーの合理的設計
JP2018045657A (ja) * 2016-09-16 2018-03-22 ヤフー株式会社 学習装置、プログラムパラメータおよび学習方法
JP2018060463A (ja) * 2016-10-07 2018-04-12 富士通株式会社 文書符号化プログラム、情報処理装置および文書符号化方法
JP2020009203A (ja) * 2018-07-09 2020-01-16 学校法人関西学院 人工化合物データを用いた化合物特性予測の深層学習方法および装置、並びに、化合物特性予測方法および装置
JP2020035134A (ja) * 2018-08-29 2020-03-05 株式会社豊田中央研究所 物性予測装置、物性予測モデル学習装置、及びプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106290917B (zh) * 2012-04-25 2020-06-05 比奥德赛公司 用于检测蛋白质的变构调节剂的方法
US10929439B2 (en) * 2018-06-22 2021-02-23 Microsoft Technology Licensing, Llc Taxonomic tree generation

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007139037A1 (ja) 2006-05-26 2007-12-06 Kyoto University ケミカルゲノム情報に基づく、タンパク質-化合物相互作用の予測と化合物ライブラリーの合理的設計
JP2018045657A (ja) * 2016-09-16 2018-03-22 ヤフー株式会社 学習装置、プログラムパラメータおよび学習方法
JP2018060463A (ja) * 2016-10-07 2018-04-12 富士通株式会社 文書符号化プログラム、情報処理装置および文書符号化方法
JP2020009203A (ja) * 2018-07-09 2020-01-16 学校法人関西学院 人工化合物データを用いた化合物特性予測の深層学習方法および装置、並びに、化合物特性予測方法および装置
JP2020035134A (ja) * 2018-08-29 2020-03-05 株式会社豊田中央研究所 物性予測装置、物性予測モデル学習装置、及びプログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ANNA KLIMOVSKAIA ET AL.: "Poincare maps for analyzing complex hierarches in single-cell data", NATURE COMMUNICATIONS
See also references of EP4177766A4
VALENTIN KHRULKOV1 ET AL.: "Hyperbolic Image Embeddings", 3 April 2019, CORNELL UNIVERSITY

Also Published As

Publication number Publication date
EP4177766A1 (en) 2023-05-10
JPWO2022003956A1 (ja) 2022-01-06
EP4177766A4 (en) 2023-08-16
EP4177766B1 (en) 2025-10-22
CN115917521A (zh) 2023-04-04
JP7428252B2 (ja) 2024-02-06
US20230088088A1 (en) 2023-03-23

Similar Documents

Publication Publication Date Title
Kolmogorov et al. Assembly of long, error-prone reads using repeat graphs
Kuchaiev et al. GraphCrunch 2: software tool for network modeling, alignment and clustering
US20180373839A1 (en) Systems and methods for encoding genomic graph information
Firtina et al. BLEND: a fast, memory-efficient and accurate mechanism to find fuzzy seed matches in genome analysis
US11851704B2 (en) Deepsimulator method and system for mimicking nanopore sequencing
US12040057B2 (en) Scaffold-oriented universal line system
Mallawaarachchi et al. Improving metagenomic binning results with overlapped bins using assembly graphs
Mallawaarachchi et al. GraphBin2: Refined and overlapped binning of metagenomic contigs using assembly graphs
Vicedomini et al. Multiple profile models extract features from protein sequence data and resolve functional diversity of very different protein families
Gao et al. FinIS: improved in silico finishing using an exact quadratic programming formulation
Li et al. Comparing genomic variant identification protocols for Candida auris
Abdollahi et al. NodeCoder: a graph-based machine learning platform to predict active sites of modeled protein structures
Garrison Graphical pangenomics
WO2022003956A1 (ja) 情報処理プログラム、情報処理方法および情報処理装置
Chen et al. APEX2S: A two‐layer machine learning model for discovery of host‐pathogen protein‐protein interactions on cloud‐based multiomics data
Klein et al. LOCAS–a low coverage assembly tool for resequencing projects
Firtina et al. BLEND: A fast, memory-efficient, and accurate mechanism to find fuzzy seed matches
JP7371779B2 (ja) 情報処理プログラム、情報処理方法および情報処理装置
Cavattoni et al. Boosting Metagenomic Classification with Reads Overlap Graphs
Li et al. Alignment of protein interaction networks by integer quadratic programming
Bansal Deciphering Microbial Gene Family Evolution Using Duplication-Transfer-Loss Reconciliation and RANGER-DTL
Xi et al. RaaMLab: A MATLAB toolbox that generates amino acid groups and reduced amino acid modes
JP7619443B2 (ja) 情報処理プログラム、情報処理方法および情報処理装置
Semwal et al. Tranquillyzer: A Flexible Neural Network Framework for Structural Annotation and Demultiplexing of Long-Read Transcriptomes
Lott et al. Simplifying gene trees for easier comprehension

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20943751

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022532998

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 2020943751

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

WWG Wipo information: grant in national office

Ref document number: 2020943751

Country of ref document: EP