JP2002526030A - Identification of molecular interaction sites in RNA for discovery of new drugs - Google Patents
Identification of molecular interaction sites in RNA for discovery of new drugsInfo
- Publication number
- JP2002526030A JP2002526030A JP2000548510A JP2000548510A JP2002526030A JP 2002526030 A JP2002526030 A JP 2002526030A JP 2000548510 A JP2000548510 A JP 2000548510A JP 2000548510 A JP2000548510 A JP 2000548510A JP 2002526030 A JP2002526030 A JP 2002526030A
- Authority
- JP
- Japan
- Prior art keywords
- rna
- sequence
- nucleic acid
- molecular interaction
- interaction site
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004001 molecular interaction Effects 0.000 title claims abstract description 58
- 239000002547 new drug Substances 0.000 title 1
- 150000007523 nucleic acids Chemical class 0.000 claims abstract description 116
- 108020004707 nucleic acids Proteins 0.000 claims abstract description 112
- 102000039446 nucleic acids Human genes 0.000 claims abstract description 112
- 238000000034 method Methods 0.000 claims abstract description 64
- 230000003993 interaction Effects 0.000 claims abstract description 13
- 108091032973 (ribonucleotides)n+m Proteins 0.000 claims description 106
- 238000004458 analytical method Methods 0.000 claims description 52
- 241000282414 Homo sapiens Species 0.000 claims description 51
- 241000894007 species Species 0.000 claims description 45
- 239000002773 nucleotide Substances 0.000 claims description 42
- 125000003729 nucleotide group Chemical group 0.000 claims description 42
- 108090000623 proteins and genes Proteins 0.000 claims description 34
- 108020004999 messenger RNA Proteins 0.000 claims description 32
- 108091034117 Oligonucleotide Proteins 0.000 claims description 26
- 108091060211 Expressed sequence tag Proteins 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 13
- 108091028043 Nucleic acid sequence Proteins 0.000 claims description 12
- 239000008194 pharmaceutical composition Substances 0.000 claims description 9
- 239000003937 drug carrier Substances 0.000 claims description 8
- 241000700605 Viruses Species 0.000 claims description 4
- 210000003527 eukaryotic cell Anatomy 0.000 claims description 4
- 102000039471 Small Nuclear RNA Human genes 0.000 claims description 3
- 230000001580 bacterial effect Effects 0.000 claims description 3
- 210000001236 prokaryotic cell Anatomy 0.000 claims description 2
- 239000008024 pharmaceutical diluent Substances 0.000 claims 3
- 108020004688 Small Nuclear RNA Proteins 0.000 claims 1
- 244000045947 parasite Species 0.000 claims 1
- 230000001225 therapeutic effect Effects 0.000 abstract description 5
- -1 RNA Chemical class 0.000 abstract description 3
- 108091036078 conserved sequence Proteins 0.000 abstract description 3
- 108091036066 Three prime untranslated region Proteins 0.000 description 66
- 108050000784 Ferritin Proteins 0.000 description 34
- 102000008857 Ferritin Human genes 0.000 description 31
- 102000007238 Transferrin Receptors Human genes 0.000 description 30
- 108010033576 Transferrin Receptors Proteins 0.000 description 30
- 238000008416 Ferritin Methods 0.000 description 29
- 238000000605 extraction Methods 0.000 description 24
- 238000010586 diagram Methods 0.000 description 21
- 108091026898 Leader sequence (mRNA) Proteins 0.000 description 17
- 102000000588 Interleukin-2 Human genes 0.000 description 16
- 108010002350 Interleukin-2 Proteins 0.000 description 16
- 238000002887 multiple sequence alignment Methods 0.000 description 16
- 238000002864 sequence alignment Methods 0.000 description 16
- 238000004422 calculation algorithm Methods 0.000 description 15
- 102000004388 Interleukin-4 Human genes 0.000 description 14
- 108090000978 Interleukin-4 Proteins 0.000 description 14
- 102000052812 Ornithine decarboxylases Human genes 0.000 description 14
- 108700005126 Ornithine decarboxylases Proteins 0.000 description 14
- 102000013127 Vimentin Human genes 0.000 description 14
- 108010065472 Vimentin Proteins 0.000 description 14
- 229940028885 interleukin-4 Drugs 0.000 description 14
- 210000005048 vimentin Anatomy 0.000 description 14
- 239000011159 matrix material Substances 0.000 description 13
- 238000006243 chemical reaction Methods 0.000 description 12
- 108010033040 Histones Proteins 0.000 description 11
- 102000004169 proteins and genes Human genes 0.000 description 11
- 108091023045 Untranslated Region Proteins 0.000 description 10
- 230000000295 complement effect Effects 0.000 description 10
- 210000004027 cell Anatomy 0.000 description 9
- 241000282412 Homo Species 0.000 description 8
- 241000699666 Mus <mouse, genus> Species 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 108091026890 Coding region Proteins 0.000 description 7
- 239000002253 acid Substances 0.000 description 7
- 150000007513 acids Chemical class 0.000 description 7
- 230000001105 regulatory effect Effects 0.000 description 7
- 230000002441 reversible effect Effects 0.000 description 7
- 241000277331 Salmonidae Species 0.000 description 6
- JLCPHMBAVCMARE-UHFFFAOYSA-N [3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-hydroxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methyl [5-(6-aminopurin-9-yl)-2-(hydroxymethyl)oxolan-3-yl] hydrogen phosphate Polymers Cc1cn(C2CC(OP(O)(=O)OCC3OC(CC3OP(O)(=O)OCC3OC(CC3O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c3nc(N)[nH]c4=O)C(COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3CO)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cc(C)c(=O)[nH]c3=O)n3cc(C)c(=O)[nH]c3=O)n3ccc(N)nc3=O)n3cc(C)c(=O)[nH]c3=O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)O2)c(=O)[nH]c1=O JLCPHMBAVCMARE-UHFFFAOYSA-N 0.000 description 6
- 210000001519 tissue Anatomy 0.000 description 6
- 230000014616 translation Effects 0.000 description 6
- 241000287828 Gallus gallus Species 0.000 description 5
- 206010028980 Neoplasm Diseases 0.000 description 5
- 238000013459 approach Methods 0.000 description 5
- 239000003814 drug Substances 0.000 description 5
- 230000002068 genetic effect Effects 0.000 description 5
- 108020004418 ribosomal RNA Proteins 0.000 description 5
- 230000033228 biological regulation Effects 0.000 description 4
- 201000011510 cancer Diseases 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 229940079593 drug Drugs 0.000 description 4
- 238000013467 fragmentation Methods 0.000 description 4
- 238000006062 fragmentation reaction Methods 0.000 description 4
- 239000000126 substance Substances 0.000 description 4
- 238000013519 translation Methods 0.000 description 4
- DVGKRPYUFRZAQW-UHFFFAOYSA-N 3 prime Natural products CC(=O)NC1OC(CC(O)C1C(O)C(O)CO)(OC2C(O)C(CO)OC(OC3C(O)C(O)C(O)OC3CO)C2O)C(=O)O DVGKRPYUFRZAQW-UHFFFAOYSA-N 0.000 description 3
- 241000255581 Drosophila <fruit fly, genus> Species 0.000 description 3
- 238000005481 NMR spectroscopy Methods 0.000 description 3
- 240000004808 Saccharomyces cerevisiae Species 0.000 description 3
- 108020004566 Transfer RNA Proteins 0.000 description 3
- 241000251539 Vertebrata <Metazoa> Species 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000009792 diffusion process Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000004949 mass spectrometry Methods 0.000 description 3
- 230000036961 partial effect Effects 0.000 description 3
- 238000013081 phylogenetic analysis Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000002560 therapeutic procedure Methods 0.000 description 3
- 238000013518 transcription Methods 0.000 description 3
- 230000035897 transcription Effects 0.000 description 3
- 102000040650 (ribonucleotides)n+m Human genes 0.000 description 2
- 108020005345 3' Untranslated Regions Proteins 0.000 description 2
- 241000251468 Actinopterygii Species 0.000 description 2
- 241000894006 Bacteria Species 0.000 description 2
- 208000024172 Cardiovascular disease Diseases 0.000 description 2
- 229920002261 Corn starch Polymers 0.000 description 2
- 241000206602 Eukaryota Species 0.000 description 2
- 102000006947 Histones Human genes 0.000 description 2
- 101000879758 Homo sapiens Sjoegren syndrome nuclear autoantigen 1 Proteins 0.000 description 2
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 2
- 102000018434 Iron-Regulatory Proteins Human genes 0.000 description 2
- 108010066420 Iron-Regulatory Proteins Proteins 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 2
- 208000002193 Pain Diseases 0.000 description 2
- 238000012300 Sequence Analysis Methods 0.000 description 2
- 102100037330 Sjoegren syndrome nuclear autoantigen 1 Human genes 0.000 description 2
- 210000003484 anatomy Anatomy 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000008827 biological function Effects 0.000 description 2
- OSGAYBCDTDRGGQ-UHFFFAOYSA-L calcium sulfate Chemical compound [Ca+2].[O-]S([O-])(=O)=O OSGAYBCDTDRGGQ-UHFFFAOYSA-L 0.000 description 2
- 210000003169 central nervous system Anatomy 0.000 description 2
- 239000002299 complementary DNA Substances 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 239000008120 corn starch Substances 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000007876 drug discovery Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 235000019688 fish Nutrition 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- HQKMJHAJHXVSDF-UHFFFAOYSA-L magnesium stearate Chemical compound [Mg+2].CCCCCCCCCCCCCCCCCC([O-])=O.CCCCCCCCCCCCCCCCCC([O-])=O HQKMJHAJHXVSDF-UHFFFAOYSA-L 0.000 description 2
- QIQXTHQIDYTFRH-UHFFFAOYSA-N octadecanoic acid Chemical compound CCCCCCCCCCCCCCCCCC(O)=O QIQXTHQIDYTFRH-UHFFFAOYSA-N 0.000 description 2
- 238000001243 protein synthesis Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 108091029842 small nuclear ribonucleic acid Proteins 0.000 description 2
- 230000008685 targeting Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000011282 treatment Methods 0.000 description 2
- 230000003612 virological effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 108020003589 5' Untranslated Regions Proteins 0.000 description 1
- QTBSBXVTEAMEQO-UHFFFAOYSA-M Acetate Chemical compound CC([O-])=O QTBSBXVTEAMEQO-UHFFFAOYSA-M 0.000 description 1
- 241000972773 Aulopiformes Species 0.000 description 1
- 241000271566 Aves Species 0.000 description 1
- 208000035143 Bacterial infection Diseases 0.000 description 1
- 102100033040 Carbonic anhydrase 12 Human genes 0.000 description 1
- 102100033029 Carbonic anhydrase-related protein 11 Human genes 0.000 description 1
- RGHNJXZEOKUKBD-SQOUGZDYSA-M D-gluconate Chemical compound OC[C@@H](O)[C@@H](O)[C@H](O)[C@@H](O)C([O-])=O RGHNJXZEOKUKBD-SQOUGZDYSA-M 0.000 description 1
- 108020004414 DNA Proteins 0.000 description 1
- 241000255925 Diptera Species 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 239000001856 Ethyl cellulose Substances 0.000 description 1
- ZZSNKZQZMQGXPY-UHFFFAOYSA-N Ethyl cellulose Chemical compound CCOCC1OC(OC)C(OCC)C(OCC)C1OC1C(O)C(O)C(OC)C(CO)O1 ZZSNKZQZMQGXPY-UHFFFAOYSA-N 0.000 description 1
- 108010010803 Gelatin Proteins 0.000 description 1
- 101000867855 Homo sapiens Carbonic anhydrase 12 Proteins 0.000 description 1
- 101000867841 Homo sapiens Carbonic anhydrase-related protein 11 Proteins 0.000 description 1
- 101001075218 Homo sapiens Gastrokine-1 Proteins 0.000 description 1
- 208000023105 Huntington disease Diseases 0.000 description 1
- 206010061218 Inflammation Diseases 0.000 description 1
- 102000012411 Intermediate Filament Proteins Human genes 0.000 description 1
- 108010061998 Intermediate Filament Proteins Proteins 0.000 description 1
- 108091092195 Intron Proteins 0.000 description 1
- GUBGYTABKSRVRQ-QKKXKWKRSA-N Lactose Natural products OC[C@H]1O[C@@H](O[C@H]2[C@H](O)[C@@H](O)C(O)O[C@@H]2CO)[C@H](O)[C@@H](O)[C@H]1O GUBGYTABKSRVRQ-QKKXKWKRSA-N 0.000 description 1
- 241000124008 Mammalia Species 0.000 description 1
- 229920000168 Microcrystalline cellulose Polymers 0.000 description 1
- 101100323108 Mus musculus Amot gene Proteins 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 101150007813 NIH gene Proteins 0.000 description 1
- 101710163270 Nuclease Proteins 0.000 description 1
- 208000008589 Obesity Diseases 0.000 description 1
- 108700026244 Open Reading Frames Proteins 0.000 description 1
- 208000030852 Parasitic disease Diseases 0.000 description 1
- 102000001708 Protein Isoforms Human genes 0.000 description 1
- 108010029485 Protein Isoforms Proteins 0.000 description 1
- 230000009948 RNA mutation Effects 0.000 description 1
- 101001062854 Rattus norvegicus Fatty acid-binding protein 5 Proteins 0.000 description 1
- VYPSYNLAJGMNEJ-UHFFFAOYSA-N Silicium dioxide Chemical compound O=[Si]=O VYPSYNLAJGMNEJ-UHFFFAOYSA-N 0.000 description 1
- DBMJMQXJHONAFJ-UHFFFAOYSA-M Sodium laurylsulphate Chemical compound [Na+].CCCCCCCCCCCCOS([O-])(=O)=O DBMJMQXJHONAFJ-UHFFFAOYSA-M 0.000 description 1
- 229920002125 Sokalan® Polymers 0.000 description 1
- 229920002472 Starch Polymers 0.000 description 1
- 235000021355 Stearic acid Nutrition 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 238000013019 agitation Methods 0.000 description 1
- 150000001413 amino acids Chemical group 0.000 description 1
- 229940126575 aminoglycoside Drugs 0.000 description 1
- 206010003246 arthritis Diseases 0.000 description 1
- 244000052616 bacterial pathogen Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000011230 binding agent Substances 0.000 description 1
- 230000002210 biocatalytic effect Effects 0.000 description 1
- 238000012742 biochemical analysis Methods 0.000 description 1
- 230000006696 biosynthetic metabolic pathway Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- FUFJGUQYACFECW-UHFFFAOYSA-L calcium hydrogenphosphate Chemical compound [Ca+2].OP([O-])([O-])=O FUFJGUQYACFECW-UHFFFAOYSA-L 0.000 description 1
- 235000011132 calcium sulphate Nutrition 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 210000000170 cell membrane Anatomy 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 238000003776 cleavage reaction Methods 0.000 description 1
- 238000010367 cloning Methods 0.000 description 1
- 229940075614 colloidal silicon dioxide Drugs 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000001447 compensatory effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 235000019700 dicalcium phosphate Nutrition 0.000 description 1
- 239000003085 diluting agent Substances 0.000 description 1
- 239000007884 disintegrant Substances 0.000 description 1
- 208000035475 disorder Diseases 0.000 description 1
- 239000003596 drug target Substances 0.000 description 1
- 235000019325 ethyl cellulose Nutrition 0.000 description 1
- 229920001249 ethyl cellulose Polymers 0.000 description 1
- 239000000945 filler Substances 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 239000000417 fungicide Substances 0.000 description 1
- 239000008273 gelatin Substances 0.000 description 1
- 229920000159 gelatin Polymers 0.000 description 1
- 235000019322 gelatine Nutrition 0.000 description 1
- 235000011852 gelatine desserts Nutrition 0.000 description 1
- 230000004545 gene duplication Effects 0.000 description 1
- 229940050410 gluconate Drugs 0.000 description 1
- 239000004009 herbicide Substances 0.000 description 1
- 239000008172 hydrogenated vegetable oil Substances 0.000 description 1
- 239000001866 hydroxypropyl methyl cellulose Substances 0.000 description 1
- 235000010979 hydroxypropyl methyl cellulose Nutrition 0.000 description 1
- 229920003088 hydroxypropyl methyl cellulose Polymers 0.000 description 1
- UFVKGYZPFZQRLF-UHFFFAOYSA-N hydroxypropyl methyl cellulose Chemical compound OC1C(O)C(OC)OC(CO)C1OC1C(O)C(O)C(OC2C(C(O)C(OC3C(C(O)C(O)C(CO)O3)O)C(CO)O2)O)C(CO)O1 UFVKGYZPFZQRLF-UHFFFAOYSA-N 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 208000027866 inflammatory disease Diseases 0.000 description 1
- 230000004054 inflammatory process Effects 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 230000003834 intracellular effect Effects 0.000 description 1
- 229910052742 iron Inorganic materials 0.000 description 1
- 230000010438 iron metabolism Effects 0.000 description 1
- 239000008101 lactose Substances 0.000 description 1
- 239000003446 ligand Substances 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 239000000314 lubricant Substances 0.000 description 1
- 239000003120 macrolide antibiotic agent Substances 0.000 description 1
- 235000019359 magnesium stearate Nutrition 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 208000030159 metabolic disease Diseases 0.000 description 1
- 229910052751 metal Inorganic materials 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 229940016286 microcrystalline cellulose Drugs 0.000 description 1
- 235000019813 microcrystalline cellulose Nutrition 0.000 description 1
- 239000008108 microcrystalline cellulose Substances 0.000 description 1
- 208000024191 minimally invasive lung adenocarcinoma Diseases 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007479 molecular analysis Methods 0.000 description 1
- 238000002703 mutagenesis Methods 0.000 description 1
- 231100000350 mutagenesis Toxicity 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 208000015122 neurodegenerative disease Diseases 0.000 description 1
- 201000001119 neuropathy Diseases 0.000 description 1
- 230000007823 neuropathy Effects 0.000 description 1
- 235000020824 obesity Nutrition 0.000 description 1
- OQCDKBAXFALNLD-UHFFFAOYSA-N octadecanoic acid Natural products CCCCCCCC(C)CCCCCCCCC(O)=O OQCDKBAXFALNLD-UHFFFAOYSA-N 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001717 pathogenic effect Effects 0.000 description 1
- 239000001814 pectin Substances 0.000 description 1
- 235000010987 pectin Nutrition 0.000 description 1
- 229920001277 pectin Polymers 0.000 description 1
- 208000033808 peripheral neuropathy Diseases 0.000 description 1
- 239000000575 pesticide Substances 0.000 description 1
- 239000004584 polyacrylic acid Substances 0.000 description 1
- 230000008488 polyadenylation Effects 0.000 description 1
- 229920000768 polyamine Polymers 0.000 description 1
- 229920000642 polymer Polymers 0.000 description 1
- 108091033319 polynucleotide Proteins 0.000 description 1
- 102000040430 polynucleotide Human genes 0.000 description 1
- 239000002157 polynucleotide Substances 0.000 description 1
- 229920000036 polyvinylpyrrolidone Polymers 0.000 description 1
- 239000001267 polyvinylpyrrolidone Substances 0.000 description 1
- 235000013855 polyvinylpyrrolidone Nutrition 0.000 description 1
- 230000001124 posttranscriptional effect Effects 0.000 description 1
- 230000003389 potentiating effect Effects 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 102000005962 receptors Human genes 0.000 description 1
- 108020003175 receptors Proteins 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 210000003705 ribosome Anatomy 0.000 description 1
- 235000019515 salmon Nutrition 0.000 description 1
- 239000000523 sample Substances 0.000 description 1
- 230000007017 scission Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 150000003384 small molecules Chemical class 0.000 description 1
- 235000019333 sodium laurylsulphate Nutrition 0.000 description 1
- 229940080313 sodium starch Drugs 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000002904 solvent Substances 0.000 description 1
- 235000019698 starch Nutrition 0.000 description 1
- 229940032147 starch Drugs 0.000 description 1
- 239000008107 starch Substances 0.000 description 1
- 239000008117 stearic acid Substances 0.000 description 1
- 235000000346 sugar Nutrition 0.000 description 1
- 150000008163 sugars Chemical class 0.000 description 1
- 239000000725 suspension Substances 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 239000000454 talc Substances 0.000 description 1
- 229910052623 talc Inorganic materials 0.000 description 1
- 230000001988 toxicity Effects 0.000 description 1
- 231100000419 toxicity Toxicity 0.000 description 1
- 230000005945 translocation Effects 0.000 description 1
- 230000008733 trauma Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 239000003981 vehicle Substances 0.000 description 1
- 239000000080 wetting agent Substances 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
Landscapes
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Organic Chemistry (AREA)
- Analytical Chemistry (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Microbiology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Physics & Mathematics (AREA)
- Biochemistry (AREA)
- Immunology (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Genetics & Genomics (AREA)
- Medicines That Contain Protein Lipid Enzymes And Other Medicines (AREA)
- Pharmaceuticals Containing Other Organic And Inorganic Compounds (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
(57)【要約】 真核細胞および原核細胞核酸、特にRNA中の分子相互作用部位を同定するための方法を記載する。二次構造要素を、高度に保存された配列から同定する。このような分子相互作用部位に関連するデータベースを調製する方法も、データベース自体として、本明細書中で提供する。治療用途、農業用途、工業用途およびその他の用途が、これらの分子相互作用部位と“小”分子およびその他の分子との相互作用の結果として生じる。 (57) [Summary] Methods for identifying sites of molecular interaction in eukaryotic and prokaryotic nucleic acids, particularly RNA, are described. Secondary structural elements are identified from the highly conserved sequence. A method for preparing a database relating to such molecular interaction sites is also provided herein as the database itself. Therapeutic, agricultural, industrial and other uses result from the interaction of these molecular interaction sites with "small" and other molecules.
Description
【0001】 関連する申請の相互参照 本出願は1998年5月12日に出願されたU.S.シリアルNo. 09/076,440の続編の一
部であり、それは1998年5月12日に出願された仮出願U.S.シリアルNo. 60/085,09
2に対して優先権を主張し、それらの各々は全体として参考文献によりここで受
け入れられる。[0001] This application is part of a sequel to US Serial No. 09 / 076,440 filed May 12, 1998, which is a provisional application filed May 12, 1998 US Serial No. 60 / 085,09
2 claim priority, each of which is incorporated herein by reference in its entirety.
【0002】 本発明の分野 本発明は、分子相互作用部位として役立ちうる原核生物および真核生物の核酸
、特にRNAの領域を同定する方法を示す。本発明は治療学および構造的データベ
ースも含む。FIELD OF THE INVENTION [0002] The present invention shows methods for identifying regions of prokaryotic and eukaryotic nucleic acids, particularly RNA, that can serve as molecular interaction sites. The invention also includes therapeutics and structural databases.
【0003】 本発明の背景 ゲノム、分子生物学、および構造生物学における最近の進歩により、RNA分子
がどのようにして細胞中のタンパク質発現に必要な多くの現象に参加するか、あ
るいは調節するかが脚光を浴びている。RNA分子は単純な媒介物としてより、DNA
からの自身の転写の制御、mRNA分子およびtRNA分子のスプライシングおよび編集
、リボゾームでのペプチド結合の合成、発生タンパク質の細胞膜への移動の触媒
、および情報の翻訳速度の十分な調節の提供を活動的に行う。RNA分子は様々な
独特な構造的モチーフをとることができ、それらの機能を行うのに必要な枠組み
を提供する。BACKGROUND OF THE INVENTION Recent advances in genomic, molecular and structural biology have shown how RNA molecules participate or regulate many of the phenomena required for protein expression in cells. Is in the limelight. RNA molecules are more DNA than simple vectors
Active in controlling its own transcription, splicing and editing of mRNA and tRNA molecules, synthesizing peptide bonds at ribosomes, catalyzing the transfer of developmental proteins to the cell membrane, and providing sufficient regulation of the rate of information translation To do. RNA molecules can adopt a variety of unique structural motifs and provide the necessary framework for performing their functions.
【0004】 “小”分子療法は構造RNA分子に特異的に結合するが、ポリマーではない有機
化学分子である。“小”分子治療は最も強力な自然発生抗体を含む。例えば、ア
ミノグリコシドおよびマクロライド抗体はリボゾームRNA(rRNA)構造体の特定
領域に結合する“小”分子であり、タンパク質合成に必要なRNAでの構造変化を
阻害することによって働くと信じられている。RNA分子の構造の変化はmRNA分子
の転写および翻訳の速度を制御することが示されている。[0004] "Small" molecule therapy is an organic chemical molecule that specifically binds structural RNA molecules, but is not a polymer. "Small" molecule therapy involves the most potent naturally occurring antibodies. For example, aminoglycoside and macrolide antibodies are "small" molecules that bind to specific regions of the ribosomal RNA (rRNA) structure and are believed to work by inhibiting structural changes in the RNA required for protein synthesis. Changes in the structure of RNA molecules have been shown to control the rate of transcription and translation of mRNA molecules.
【0005】 薬剤発見のための標的RNAにおけるさらなる機会は、細胞が同じタンパク質へ
翻訳されうる異なる組織において頻繁に異なるmRNAをつくることである。代替ス
プライシングおよび代替ポリアデニル化などのプロセスは、特定組織において独
特なあるいは豊富な転写物をつくる。これにより、腫瘍を含む所望の細胞におい
て独特なRNA領域に結合し、他の細胞におけるタンパク質発現に影響を与えない
、あるいはより小さな範囲でタンパク質発現に影響する薬剤を設計する機会が与
えられ、タンパク質を標的とする治療では一般的には達成されないさらなるレベ
ルの薬剤特異性が提供される。[0005] An additional opportunity in target RNA for drug discovery is that cells frequently produce different mRNAs in different tissues that can be translated into the same protein. Processes such as alternative splicing and alternative polyadenylation create unique or abundant transcripts in specific tissues. This provides the opportunity to design drugs that bind to unique RNA regions in desired cells, including tumors, and that do not affect, or to a lesser extent, protein expression in other cells, Provides an additional level of drug specificity that is not generally achieved with treatments targeting.
【0006】 出願者はRNA分子あるいは関連するRNA分子群は細胞がタンパク質合成を調節す
るために使用する制御領域を持っている、と信じている。細胞はmRNAとの直接的
、特異的な相互関係により合成されるタンパク質のタイミングと量の両方を調節
すると信じられている。この概念は、転写に強く焦点を当てる遺伝子制御に関す
る科学的な著述を読むことにより得られる印象と一致しない。RNAの変異、転移
、細胞内での配置、および翻訳のプロセスは、薬剤結合に良い機会を与えるRNA
認識部位において豊富である。申請者の発明は、ヒトのゲノムならびに他の動物
のゲノムおよび原核生物のゲノムにおいてRNA分子にとってのこれらの部位の発
見を示す。[0006] Applicants believe that RNA molecules or related RNA molecules have regulatory regions that cells use to regulate protein synthesis. Cells are believed to regulate both the timing and quantity of proteins synthesized by direct and specific interactions with mRNA. This notion is inconsistent with the impression obtained by reading scientific writings about gene regulation that focuses strongly on transcription. RNA mutation, translocation, intracellular placement, and translation processes provide a good opportunity for drug binding
Abundant in recognition sites. Applicants' invention demonstrates the discovery of these sites for RNA molecules in the human genome as well as in other animal and prokaryotic genomes.
【0007】 それゆえ、核酸、特にRNAにおける分子相互作用を同定することが本発明の主
な目的である。本発明のさらなる目的は、重要な療法、制御、あるいは“小”分
子などとの他の相互作用を強く起こさせるようなRNA中の二次構造要素を同定す
ることである。RNAにおいて組織に豊富な独特な構造(tissue-enriched unique
structures)の同定は本発明のもう一つの目的である。[0007] It is therefore a primary object of the present invention to identify molecular interactions in nucleic acids, especially RNA. It is a further object of the present invention to identify secondary structural elements in RNA that strongly trigger important therapies, controls, or other interactions with "small" molecules and the like. Tissue-enriched unique structure rich in tissue in RNA
Identification of structures) is another object of the present invention.
【0008】 本発明の概要 申請者の発明は、“分子相互作用部位”と呼ばれる真核生物および原核生物の
RNA分子中の二次構造を同定する方法を示す。分子相互作用部位は小さく、好ま
しくは50ヌクレオチド以下、あるいは30ヌクレオチド以下であり、独立的に折り
たたまれ、より大きなRNA分子内に含まれる機能的サブドメインである。申請者
の方法は、核酸、好ましくはRNA、の配列を解析し、それらの構造および機能を
推定する一連の(family)統合的なプロセスを好ましくは含む。申請者の方法は
好ましくは配列においてサブルーチンを実行するプロセスを含み、そこでは一つ
のプロセスの結果を使用することで特異的な行動の経路を誘発したり、あるいは
他の工程に対する数的なあるいは他のインプットを提供する。好ましくは、詳細
なリアルタイムでのヒトの介入が無く決定される巧妙なプロセスによって採択さ
れる進路が決められるプロセスには決定ポイントが存在する。RNA配列解析のオ
ートメーションは、RNA配列がゲノム配列データベースやその他から利用できる
割合で制御部位を同定する能力を提供する。例えば、本発明を使用することで、
中枢神経系(CNS)疾病、代謝疾病、苦痛、老化の退行性疾病、ガン、炎症性疾
病、心臓血管疾病および多くの他の状態と関連する分子間相互作用部位を同定で
きる。例えば、申請者の発明を使用することで、真核生物、特にヒトには欠けて
いるが、原核生物のRNAの付随的調整、増加あるいは減少、と結びつく“小”分
子のための部位として役立ちうる分子相互作用部位を決定することもできる。こ
のように、ヒトの毒性(human toxicity)はウイルス性、細菌性あるいは寄生虫
性の疾病の処置において回避することができる。SUMMARY OF THE INVENTION The applicant's invention provides for eukaryotic and prokaryotic organisms referred to as “molecular interaction sites”.
2 shows a method for identifying a secondary structure in an RNA molecule. The molecular interaction site is small, preferably 50 nucleotides or less, or 30 nucleotides or less, and is an independently folded, functional subdomain contained within a larger RNA molecule. Applicant's method preferably involves a family of integrated processes that analyze the sequence of nucleic acids, preferably RNA, and deduce their structure and function. Applicant's method preferably includes a process of executing a subroutine in an array, where the results of one process are used to elicit a specific course of action, or to a numerical or other Provide input for Preferably, there is a decision point in the routed process that is adopted by a clever process that is determined without detailed real-time human intervention. Automation of RNA sequence analysis provides the ability to identify regulatory sites at the rate at which RNA sequences are available from genomic sequence databases and others. For example, by using the present invention,
The site of molecular interactions associated with central nervous system (CNS) diseases, metabolic diseases, pain, degenerative diseases of aging, cancer, inflammatory diseases, cardiovascular diseases and many other conditions can be identified. For example, using the applicant's invention may serve as a site for "small" molecules that are lacking in eukaryotes, especially humans, but that are associated with the concomitant regulation, increase or decrease of prokaryotic RNA. Possible molecular interaction sites can also be determined. Thus, human toxicity can be avoided in the treatment of viral, bacterial or parasitic diseases.
【0009】 本発明は好ましくは、標的核酸のヌクレオチド配列と異なる分類種由来の多数
の核酸のヌクレオチド配列との比較により標的核酸における分子相互作用部位を
同定し、多数の核酸および標的核酸において効果的に保存されている少なくとも
一つの配列領域を同定し、保存的領域が二次構造を持つかどうかを決定して、保
存的領域が二次構造を持つ場合はその二次構造を同定する。The present invention preferably identifies a molecular interaction site in a target nucleic acid by comparing the nucleotide sequence of the target nucleic acid with the nucleotide sequence of a number of nucleic acids from different taxonomic species, and is effective at the number of nucleic acids and the target nucleic acid. And identifying whether the conserved region has a secondary structure, and if the conserved region has a secondary structure, identifying the secondary structure.
【0010】 本発明はまた、真核生物および原核生物のRNAにおける分子相互作用部位に関
連するデータベースを示す。データベースは標的核酸のヌクレオチド配列と異な
る分類種由来の多数の核酸のヌクレオチド配列を比較することにより得られ、多
数の核酸および標的核酸において保存されている少なくとも一つの配列領域を同
定し、保存的領域が二次構造を持つかどうかを決定して、保存的領域が二次構造
を持つ場合はその二次構造を同定し、そしてそのような二次構造の群を編集する
。[0010] The present invention also provides databases relating to molecular interaction sites in eukaryotic and prokaryotic RNA. The database is obtained by comparing the nucleotide sequence of the target nucleic acid with the nucleotide sequence of multiple nucleic acids from different taxonomic species, identifying the multiple nucleic acids and at least one sequence region conserved in the target nucleic acid, Determine if has a secondary structure, identify the secondary structure if the conserved region has a secondary structure, and compile a group of such secondary structures.
【0011】 本発明はまた、選択した生物のRNAおよび少なくとも一つのさらなる生物のRNA
に存在する分子相互作用部位を含むオリゴヌクレオチドを示し、そこでは分子相
互作用部位は分子が分子相互作用部位に結合するとき、選択した生物においてRN
Aの発現を調節する少なくとも一つの分子の結合部位として役立つ。[0011] The invention also relates to the RNA of the selected organism and the RNA of at least one further organism.
Figure 1 shows an oligonucleotide containing a molecular interaction site present in a selected organism when the molecule binds to the molecular interaction site.
Serves as a binding site for at least one molecule that regulates the expression of A.
【0012】 本発明はまた、原核生物のRNAおよび少なくとも一つのさらなる原核生物のRNA
に存在する分子相互作用部位を含むオリゴヌクレオチドを示し、そこでは分子相
互作用部位は分子が分子相互作用部位に結合するとき、原核生物のRNAの発現を
調節する少なくとも一つの分子の結合部位として役立つ。[0012] The invention also relates to prokaryotic RNA and at least one additional prokaryotic RNA.
Oligonucleotides containing a molecular interaction site present in a molecule, wherein the molecular interaction site serves as a binding site for at least one molecule that regulates prokaryotic RNA expression when the molecule binds to the molecule interaction site .
【0013】 本発明はまた、原核生物のRNAおよび少なくとも一つのさらなる原核生物のRNA
に存在する分子相互作用部位をもつオリゴヌクレオチドを含む薬剤組成物に関し
、そこでは分子相互作用部位は少なくとも一つの“小”分子の結合部位として役
立つ。そのような分子は分子相互作用部位に結合すると、原核生物のRNAの発現
を調節する。好ましくは医薬用キャリアーも含む。[0013] The invention also relates to prokaryotic RNA and at least one additional prokaryotic RNA.
The present invention relates to a pharmaceutical composition comprising an oligonucleotide having a molecular interaction site present in the compound, wherein the molecular interaction site serves as a binding site for at least one "small" molecule. Such a molecule, when bound to a molecular interaction site, regulates the expression of prokaryotic RNA. Preferably, it also contains a pharmaceutical carrier.
【0014】 本発明はまた、選択した生物のRNAおよび少なくとも一つのさらなる生物のRNA
に存在する分子相互作用部位を含むオリゴヌクレオチドを含む薬剤組成物を提供
する。分子相互作用部位は分子が分子相互作用部位に結合するとき、選択した生
物においてRNAの発現を調節する少なくとも一つの分子の結合部位、および医薬
用キャリアーとして役立つ。The invention also relates to the RNA of the selected organism and the RNA of at least one further organism.
A pharmaceutical composition comprising an oligonucleotide comprising a molecular interaction site present at The molecular interaction site serves as a binding site for at least one molecule that regulates expression of RNA in the selected organism when the molecule binds to the molecular interaction site, and as a pharmaceutical carrier.
【0015】 最後に、本発明の方法は、標的核酸に存在し、核酸が存在する生物にとってと
ても重要である物理的構造を同定する。そのような構造、いわゆる分子相互作用
部位、は分子種と相互作用することで核酸の性質および効果を変更できる。これ
は当業者に評価されるであろうように、治療的な開発がなされうる。そのような
構造はまた、農業、汚染調節、工業生物化学、およびその他においてとても重要
な生物の核酸中に見つけられるかもしれない。それゆえ、農薬、除草薬、殺菌剤
、酵母、最近、ウイルスなどのような工業生物、および生体触媒システムはこの
結果により有益でありうる。[0015] Finally, the method of the present invention identifies physical structures present in the target nucleic acid that are of great importance to the organism in which the nucleic acid is present. Such structures, so-called molecular interaction sites, can alter the properties and effects of nucleic acids by interacting with molecular species. This can be a therapeutic development, as would be appreciated by one of skill in the art. Such structures may also be found in the nucleic acids of organisms of great importance in agriculture, pollution control, industrial biochemistry, and others. Therefore, industrial organisms such as pesticides, herbicides, fungicides, yeasts, recently viruses, and biocatalytic systems may be more beneficial to this result.
【0016】 分子相互作用部位とリガンド、例えば有機複合体など、との間の結合を特徴付
ける多くの方法がある一方で、好ましい方法論は、例えば各々1998年5月12日に
出願され、各々本発明の指定代理人(assignee)を割り当てられているU.S.シリ
アルナンバー09/076,440、09/076,405、09/076,447、09/076,206、09/076,214、
および09/076,404に記載される。全ての前述の申請は全体としてここでの参考文
献により受け入れられる。While there are a number of ways to characterize the binding between a molecular interaction site and a ligand, such as an organic complex, preferred methodologies are, for example, each filed on May 12, 1998, each of which is incorporated herein by reference. US serial numbers 09 / 076,440, 09 / 076,405, 09 / 076,447, 09 / 076,206, 09 / 076,214,
And 09 / 076,404. All of the foregoing applications are incorporated by reference herein in their entirety.
【0017】 本発明は、真核生物および原核生物の核酸、特にRNA分子における特定の構造
的要素を同定する方法を示し、それは他の分子と相互作用してRNA調節をもたら
すであろう。“調節”は増加あるいは減少するRNA活性あるいは発現に言及する
。本発明の好ましい態様は図1のフローチャートに略述する。真核生物および原
核生物における構造的要素は“分子相互作用部位”として言及される。これらの
要素は二次構造を含み、すなわち“小”分子およびその他との相互作用をうける
ことができる三次元型を持ち、治療および他の応用において“小”分子、オリゴ
ヌクレオチドのようなオリゴマー、および他の混合物と相互作用するための部位
として役立つことが期待される。The present invention provides a method for identifying specific structural elements in eukaryotic and prokaryotic nucleic acids, particularly RNA molecules, that will interact with other molecules to effect RNA regulation. "Modulation" refers to increasing or decreasing RNA activity or expression. Preferred embodiments of the present invention are outlined in the flowchart of FIG. Structural elements in eukaryotes and prokaryotes are referred to as "molecular interaction sites." These elements contain secondary structure, ie, have a three-dimensional form that can undergo interactions with “small” molecules and others, and in therapeutic and other applications “small” molecules, oligomers such as oligonucleotides, And are expected to serve as sites for interacting with other mixtures.
【0018】 図1に言及すると、標的核酸における分子相互作用部位を同定するための好ま
しい工程はフローダイアグラムに示す。標的核酸のヌクレオチド配列は異なる分
類種、10種由来の多数の核酸のヌクレオチド配列と比較される。標的核酸は真核
細胞あるいは原核細胞に存在するかもしれなく、標的核酸は細菌あるいはウイル
ス、ならびにヒトのような“より高等な”生物に属しているかもしれない。いか
なる型の核酸も標的核酸として役立ちうる。より好ましい標的核酸は、メッセン
ジャーRNA(mRNA)、プレメッセンジャーRNA(pre-mRNA)、トランスファーRNA
(tRNA)、リボゾームRNA(rRNA)、あるいは核内低分子RNA(snRNA)を含むが
、しかしこれらには限定されない。特定の標的核酸の初期選択はあらゆる機能的
基準に基づくことができる。例えば、炎症、心臓血管疾病、苦痛、ガン、関節炎
、外傷、肥満、ハンチントン病、神経障害、あるいは他の疾病あるいは障害にお
いて重要であると知られる核酸は典型的な標的核酸である。例えば、細菌、ウイ
ルスおよび酵母のゲノムのような病原性のゲノムに関係すると知られる核酸は典
型的な原核生物核酸の標的である。病原性の細菌、ウイルスおよび酵母は当業者
によく知られている。典型的な核酸標的を表1に示す。しかし、申請者の発明は
表1に示す標的には限定されず、本発明はかなり普遍的であると信じられている
ことを理解すべきである。Referring to FIG. 1, a preferred step for identifying molecular interaction sites in a target nucleic acid is shown in a flow diagram. The nucleotide sequence of the target nucleic acid is compared to the nucleotide sequences of multiple nucleic acids from different taxonomic species, ten. The target nucleic acid may be present in a eukaryotic or prokaryotic cell, and the target nucleic acid may belong to a bacterium or a virus, as well as to "higher" organisms such as humans. Any type of nucleic acid can serve as a target nucleic acid. More preferred target nucleic acids are messenger RNA (mRNA), premessenger RNA (pre-mRNA), transfer RNA
(TRNA), ribosomal RNA (rRNA), or small nuclear RNA (snRNA), but is not limited thereto. The initial selection of a particular target nucleic acid can be based on any functional criteria. For example, nucleic acids known to be important in inflammation, cardiovascular disease, pain, cancer, arthritis, trauma, obesity, Huntington's disease, neuropathy, or other diseases or disorders are typical target nucleic acids. For example, nucleic acids known to be involved in pathogenic genomes, such as bacterial, viral and yeast genomes, are typical prokaryotic nucleic acid targets. Pathogenic bacteria, viruses and yeasts are well known to those skilled in the art. Typical nucleic acid targets are shown in Table 1. However, it should be understood that the applicant's invention is not limited to the targets set forth in Table 1, and that the present invention is believed to be fairly universal.
【0019】[0019]
【表1】 [Table 1]
【0020】 [0020]
【0021】 [0021]
【0022】 [0022]
【0023】 追加の核酸標的を独立に決定することができ、または公衆に利用可能で当業者
に既知の原核細胞および真核細胞遺伝子データベースから選択することができる
。好ましいデータベースには、例えば、ヒトにおけるオンラインメンデル遺伝(
Online Mendelian Inheritance in Man)(OMIM)、癌ゲノム解析プロジェクト
(the Cancer Genome Anatomy Project)(CGAP)、GenBank、EMBL、PIR、SWISS
-PROTなどが含まれる。OMIMは、疾患に関連する遺伝子変異のデータベースであ
るが、部分的に生物工学情報のための国立センター(the National Center for
Biotechnology Information)(NCBI)により開発された。OMIMは、インターネ
ットを介して例えばhttp://www.ncbi.nlm.nih.gov/Omim/にてアクセスすること
ができる。CGAPは、ガン細胞の分子解析を解読するために必要とされる情報およ
び技術的なツールを確立するための学際的プログラムである。CGAPはインターネ
ットを介して例えばhttp://www.ncbi.nlm.nih.gov/ncicgap/にてアクセスするこ
とができる。これらのデータベースの中には、完全または部分ヌクレオチド配列
を含む場合がある。さらに、私的遺伝子データベースから核酸標的を選択するこ
ともできる。あるいは、利用可能な刊行物から核酸標的を選択することができる
か、または本発明に関連して使用するために特に核酸標的を決定することもでき
る。[0023] Additional nucleic acid targets can be determined independently or can be selected from prokaryotic and eukaryotic gene databases available to the public and known to those of skill in the art. Preferred databases include, for example, online Mendelian genetics in humans (
Online Mendelian Inheritance in Man (OMIM), The Cancer Genome Anatomy Project (CGAP), GenBank, EMBL, PIR, SWISS
-PROT etc. are included. OMIM is a database of genetic mutations associated with disease, but is partly a national center for biotechnology information.
Biotechnology Information) (NCBI). OMIM can be accessed via the Internet at, for example, http://www.ncbi.nlm.nih.gov/Omim/. CGAP is an interdisciplinary program that establishes the information and technical tools needed to decipher the molecular analysis of cancer cells. CGAP can be accessed via the Internet at, for example, http://www.ncbi.nlm.nih.gov/ncicgap/. Some of these databases may include complete or partial nucleotide sequences. In addition, nucleic acid targets can be selected from private gene databases. Alternatively, a nucleic acid target can be selected from available publications, or a nucleic acid target can be determined specifically for use in connection with the present invention.
【0024】 核酸標的を選択しまたは提供した後、核酸標的のヌクレオチド配列を決定し、
そしてその後、様々な分類学的種由来の複数の核酸のヌクレオチド配列と比較す
る。本発明の一態様において、核酸標的のヌクレオチド配列を、少なくとも一つ
の遺伝子データベースをスキャンすることにより決定するか、または利用可能な
刊行物中で同定する。好ましい当業者に既知でかつ利用可能なデータベースには
、例えば、発現遺伝子解析データベース(the Expressed Gene Anatomy Databas
e)(EGAD)、ユニジーン-ホモサピエンスデータベース(Unigene-Homo Sapiens
database)(Unigene)、GenBankなどが含まれる。EGADは、ヒト転写(HT)配
列の非リダンダントなセットを包含し、そしてインターネットを介して、例えば
http://www.tigr.org/tdb/egad/egad.htmlにてアクセスすることができる。ユニ
ジーンは、GenBank配列を自動的に遺伝子適応クラスターの非リダンダントなセ
ットに分割するシステムである。それぞれのユニジーンクラスターは、単一遺伝
子だけでなく、その遺伝子が発現される組織型、および遺伝子地図位置などの関
連する情報も表示する配列を包含する。After selecting or providing the nucleic acid target, determining the nucleotide sequence of the nucleic acid target,
And then comparing with the nucleotide sequence of multiple nucleic acids from various taxonomic species. In one embodiment of the invention, the nucleotide sequence of the nucleic acid target is determined by scanning at least one genetic database or identified in available publications. Preferred databases known and available to those skilled in the art include, for example, the Expressed Gene Anatomy Database
e) (EGAD), Unigene-Homo Sapiens Database
database) (Unigene), GenBank, etc. EGAD encompasses a non-redundant set of human transcribed (HT) sequences, and via the Internet, for example,
It can be accessed at http://www.tigr.org/tdb/egad/egad.html. Unigene is a system that automatically divides GenBank sequences into non-redundant sets of gene-adapted clusters. Each unigene cluster contains sequences that display not only a single gene, but also relevant information such as the tissue type in which the gene is expressed, and the location of the genetic map.
【0025】 さらに、ユニジーンは、数万の新規な発現配列タグ(EST)配列を包含する。
ユニジーンは、インターネットを介して、例えばhttp://www.ncbi.nlm.nih.gov/
UniGene/にてアクセスすることができる。これらのデータベースは、例えば当業
者に既知で利用可能なEntrezなどの検索プログラムと結び付けて使用することが
できる。Entrezは、インターネットを介して、例えばhttp://www.ncbi.nlm.nih.
gov/Entrez/にてアクセスすることができる。好ましくは、様々なデータベース
から利用可能な最も完全な核酸配列表示を使用する。GenBankデータベースは、
当業者に既知で利用可能であるが、これを使用して最も完全なヌクレオチド配列
を得ることもできる。GenBankは、NIHの遺伝子配列データベースであり、そして
すべての公衆に利用可能なDNA配列の注釈付きのコレクションである。GenBankは
、例えば、本明細書中にその全体を参考文献として援用するNuc. Acids Res., 1
998, 26, 1-7中に記載され、そして当業者がインターネットを介して、例えば、
http://www.ncbi.nlm.nih.gov/Web/Genbank/index.htmlにてアクセスすることが
できる。あるいは、完全ヌクレオチド配列が利用可能でない場合には、核酸標的
の部分的ヌクレオチド配列を使用することができる。In addition, Unigene contains tens of thousands of novel expressed sequence tag (EST) sequences.
Unigene is available via the Internet, for example, http://www.ncbi.nlm.nih.gov/
It can be accessed at UniGene /. These databases can be used, for example, in conjunction with search programs such as Entrez, which are known and available to those skilled in the art. Entrez is available via the Internet, for example, http: //www.ncbi.nlm.nih.
You can access it at gov / Entrez /. Preferably, the most complete nucleic acid sequence representation available from various databases is used. The GenBank database is
Although known and available to those skilled in the art, it can also be used to obtain the most complete nucleotide sequence. GenBank is the NIH gene sequence database, and is an annotated collection of DNA sequences available to all public. GenBank is described, for example, in Nuc. Acids Res., 1 herein incorporated by reference in its entirety.
998, 26, 1-7, and those skilled in the art, for example,
It can be accessed at http://www.ncbi.nlm.nih.gov/Web/Genbank/index.html. Alternatively, if a complete nucleotide sequence is not available, a partial nucleotide sequence of the nucleic acid target can be used.
【0026】 本発明の別の態様においては、複数の重複した発現配列タグ(EST)を組み立
てることにより、核酸標的のヌクレオチド配列を決定する。ESTデータベース(d
bEST)は、当業者に既知でありそして利用可能であるが、およそ約500〜1000ヌ
クレオチドを含む100万の異なるヒトmRNA配列、および多数の様々な生物由来の
様々な数のESTを含む。dbESTは、インターネットを介して、例えば、http://www
.ncbi.nlm.nih.gov/dbEST/index.htmlにてアクセスすることができる。これらの
配列は、ゲノム配列決定のためのcDNA発現クローンを使用するクローニング戦略
に由来する。ESTは、新規遺伝子の発見、ゲノムのマッピング、そしてゲノム配
列中のコード領域の同定における用途を有する。急速に利用可能になっているES
T配列情報の別の重要な特徴は、組織特異的遺伝子配列データである。治療的介
入のために選択した遺伝子(単一または複数)を標的化する際にこれは極めて有
用でありうる。EST配列は比較的短いため、完全配列を提供するためにはこれら
を組み立てなければならない。それぞれの利用可能なクローンは配列決定されて
いるため、結果としてデータベース中に報告されている多数の重複した領域とな
る。In another aspect of the invention, the nucleotide sequence of a nucleic acid target is determined by assembling a plurality of overlapping expressed sequence tags (ESTs). EST database (d
bEST) is known and available to those of skill in the art, but includes one million different human mRNA sequences, including approximately about 500-1000 nucleotides, and various numbers of ESTs from many different organisms. dbEST, via the Internet, for example, http: // www
You can access it at .ncbi.nlm.nih.gov / dbEST / index.html. These sequences are derived from a cloning strategy using cDNA expression clones for genomic sequencing. ESTs have applications in discovering new genes, mapping the genome, and identifying coding regions in genomic sequences. ES rapidly becoming available
Another important feature of T sequence information is tissue-specific gene sequence data. This can be extremely useful in targeting the gene (s) selected for therapeutic intervention. Because EST sequences are relatively short, they must be assembled to provide a complete sequence. Each available clone has been sequenced, resulting in a large number of overlapping regions reported in the database.
【0027】 5'および3'方向の両方に伸長する重複したESTを組み合わせることにより、結
果として完全長の“仮想転写物”を得る。結果として生じる仮想転写物は、すで
に特性決定した核酸を表示するかも知れないし、または未知の生物学的機能を有
する新規な核酸であるかも知れない。The Institute for Genomic Research(TI
GR)のヒトゲノムインデックス(HGI)データベースは、当業者に既知そして利
用可能であるが、ヒト転写物のリストを包含する。TIGRは、インターネットを介
して、例えばhttp://www.tigr.org/にて、アクセスすることができる。仮想転写
物を構築し、そして当業者に既知でそして利用可能である、TIGR-Assemblerを使
用するこの方法により、転写物を生成した。TIGR-Assemblerは、EST、BACまたは
小ゲノムなどの多くのセットの重複する配列データを組み立てるためのツールで
あり、そしてこれを使用して真核細胞配列または原核細胞配列を組み立てること
ができる。TIGR-Assemblerは、例えば本明細書中にその全体を参考文献として援
用するSuttonら(Genome Science & Tech., 1995, 1, 9-19)中に記載されてお
り、そしてそれは、インターネットを介して、例えばftp://ftp.tigr.org/pub/s
oftware/TIGR assemblerにて、アクセスすることができる。さらに、当業者に既
知でありそして利用可能であるGLAXO-MRCは、仮想転写物を構築するための別の
プロトコルである。さらに、UNIXプラットフォーム上で駆動する“Find Neighbo
rs and Assemble EST Blast”プロトコルが、仮想転写物を構築するために出願
人らにより開発された。Find Neighbors and Assemble EST Blastプロトコル中
の好ましい工程は、図2中に記載されたフローチャート中に記載する。PHRAPを、
Find Neighbors and Assemble EST Blast中の配列組立てのために使用する。PHR
APは、インターネットを介して、例えばhttp://chimera.biotech.washington.ed
u/uwgc/tools/phrap.htmにて、アクセスすることができる。当業者であれば、ソ
ースコードを構築して、図2中に記載された好ましい工程を実行することができ
る。Combining overlapping ESTs that extend in both the 5 ′ and 3 ′ directions results in a full-length “virtual transcript”. The resulting virtual transcript may represent a nucleic acid that has already been characterized or may be a novel nucleic acid with an unknown biological function. The Institute for Genomic Research (TI
The GR) Human Genome Index (HGI) database is known and available to those of skill in the art, but includes a list of human transcripts. The TIGR can be accessed via the Internet, for example, at http://www.tigr.org/. Virtual transcripts were constructed and transcripts were generated by this method using TIGR-Assembler, known and available to those of skill in the art. TIGR-Assembler is a tool for assembling many sets of overlapping sequence data, such as ESTs, BACs, or small genomes, and can be used to assemble eukaryotic or prokaryotic sequences. TIGR-Assembler is described, for example, in Sutton et al. (Genome Science & Tech., 1995, 1, 9-19), which is hereby incorporated by reference in its entirety, and is described via the Internet. For example, ftp://ftp.tigr.org/pub/s
You can access it at oftware / TIGR assembler. In addition, GLAXO-MRC, which is known and available to those skilled in the art, is another protocol for constructing virtual transcripts. In addition, "Find Neighbo running on UNIX platform
The “rs and Assemble EST Blast” protocol has been developed by Applicants to construct virtual transcripts. The preferred steps in the Find Neighbors and Assemble EST Blast protocol are described in the flow chart set forth in FIG. .PHRAP,
Used for sequence assembly during Find Neighbors and Assemble EST Blast. PHR
AP can be accessed via the Internet, for example, http: //chimera.biotech.washington.ed
You can access it at u / uwgc / tools / phrap.htm. One skilled in the art can construct the source code and perform the preferred steps described in FIG.
【0028】 核酸標的のヌクレオチド配列を、様々な分類学的(taxonomic)種由来の複数
の核酸のヌクレオチド配列と比較する。様々な分類学的種由来の複数の核酸、お
よびそのヌクレオチド配列は、遺伝子データベース中、利用可能な刊行物中に見
いだすことができ、または本発明に関連する使用のために特別に決定することが
できる。本発明の一態様においては、当業者に既知である配列同一性検索、オル
トログ(ortholog)検索、または両方を行うことにより、核酸標的を様々な分類
学的種由来の複数の核酸のヌクレオチド配列と比較する。[0028] The nucleotide sequence of the nucleic acid target is compared with the nucleotide sequence of multiple nucleic acids from various taxonomic species. Multiple nucleic acids from various taxonomic species, and their nucleotide sequences, can be found in available databases, in genetic databases, or can be specifically determined for use in connection with the present invention. it can. In one aspect of the invention, a nucleic acid target is combined with the nucleotide sequence of multiple nucleic acids from various taxonomic species by performing sequence identity searches, ortholog searches, or both, as known to those of skill in the art. Compare.
【0029】 配列同一性検索の結果は、少なくとも複数の核酸のヌクレオチド配列の一部を
有する複数の核酸であり、それは、ウィンドゥ領域として参考にされる、標的核
酸の少なくとも8〜20ヌクレオチド領域に対して相同である。好ましくは、複数
のヌクレオチド配列は、標的核酸のいずれかのウィンドゥ領域に対して少なくと
も60%の相同性を有する少なくとも一部を含む。より好ましくは、相同性は、少
なくとも70%である。より好ましくは、相同性は少なくとも80%である。もっと
も好ましくは、相同性は少なくとも90%である。例えば、複数の配列を比較する
標的ヌクレオチドの部分であるウィンドゥサイズは、約8〜約20の隣接するヌク
レオチドであってもよく、好ましくは10〜15、もっとも好ましくは約11〜12であ
る。ウィンドゥサイズは、このように調整することができる。その後、好ましく
は、様々な分類学的種由来の複数の核酸を、複数の配列のすべての部分を標的核
酸のウィンドゥと比較するまで、標的核酸中のそれぞれの適当なウィンドゥと比
較する。標的核酸のウィンドゥ配列のいずれかに対して、少なくとも60%、好ま
しくは少なくとも70%、より好ましくは少なくとも80%、またはもっとも好まし
くは少なくとも90%の相同性である部分を有する、様々な分類学的種由来の複数
の核酸の配列は、適当な相同配列として考えられている。[0029] The result of the sequence identity search is a plurality of nucleic acids having at least a portion of the nucleotide sequence of the plurality of nucleic acids, which is based on at least an 8-20 nucleotide region of the target nucleic acid, referred to as a window region. And are homologous. Preferably, the plurality of nucleotide sequences comprises at least a portion having at least 60% homology to any window region of the target nucleic acid. More preferably, the homology is at least 70%. More preferably, the homology is at least 80%. Most preferably, the homology is at least 90%. For example, the window size, which is the portion of the target nucleotide to which multiple sequences are compared, may be from about 8 to about 20 contiguous nucleotides, preferably 10-15, and most preferably about 11-12. The window size can be adjusted in this way. Thereafter, preferably, the plurality of nucleic acids from the various taxonomic species are compared to each appropriate window in the target nucleic acid until all portions of the plurality of sequences are compared to the window of the target nucleic acid. A variety of taxonomics having portions that are at least 60%, preferably at least 70%, more preferably at least 80%, or most preferably at least 90% homologous to any of the window sequences of the target nucleic acid The sequence of multiple nucleic acids from a species is considered a suitable homologous sequence.
【0030】 配列同一性検索は、手動で、または当業者に既知のいくつかの利用可能なコン
ピュータプログラムを使用して行うことができる。好ましくは、当業者に利用可
能で既知であるBlastおよびSmith-Watermanアルゴリズムなどを使用することが
できる。Blastは、ヌクレオチド配列データベースおよびタンパク質配列データ
ベースの解析を支持するために設計されたNCBIの配列同一性検索ツールである。
Blastは、インターネットを介して、例えばhttp://www.ncbi.nlm.nih.gov/BLAST
/にて、アクセスすることができる。GCGパッケージは、公有データベースかまた
は局所的に利用可能な検索可能データベースのいずれかを用いて使用することが
できる、Blastの局所バージョンを提供する。GCGパッケージv9.0は、配列の編集
、マッピング、比較、および並置により配列の解析を可能とする、100以上の相
互関係のある(interrelated)ソフトウェアプログラムを含有する商業的に利用
可能なソフトウェアパッケージである。GCGパッケージ中に含まれるその他のプ
ログラムには、例えばRNA二次構造予測、核酸断片組立、および進化解析を容易
にするプログラムが含まれる。さらに、もっとも著名な遺伝子データベース(Ge
nBank、EMBL、PIR、およびSWISS-PROT)は、GCGパッケージとともに配布され、
そしてデータベース検索プログラムおよびデータベース操作プログラムに完全に
利用可能である。GCGは、インターネットを介して、例えばhttp://www.gcg.com/
にて、アクセスすることができる。Fetchは、受託番号に基づいて注釈をつけら
れたGenBank記録を得ることができる、GCGにおいて利用可能なツールであり、そ
してEntrezと同様である。別の配列同一性検索を、Pangeaに由来するGeneWorld
およびGeneThesaurusを用いて行うことができる。GeneWorld 2.5は、ポリヌクレ
オチド配列およびタンパク質配列の解析のための自動化され、フレキシブルな、
高スループットアプリケーションである。GeneWorldにより、自動化解析および
配列の注釈が可能になる。GCGと同様に、GeneWorldは配列検索、遺伝子発見、複
数配列並置、二次構造予測およびモチーフ同定のためのいくつかのツールを援用
する。GeneThesaurus 1.Otmは、複数供給源からの情報を提供し、公有データお
よび局所データのためのリレーショナルデータモデルを提供する、配列および注
釈データ申し込みサービスである。[0030] Sequence identity searches can be performed manually, or using any of the available computer programs known to those of skill in the art. Preferably, Blast and Smith-Waterman algorithms and the like available and known to those skilled in the art can be used. Blast is NCBI's sequence identity search tool designed to support analysis of nucleotide and protein sequence databases.
Blast is available via the Internet, for example, http://www.ncbi.nlm.nih.gov/BLAST
You can access it at /. The GCG package provides a local version of Blast that can be used with either a public database or a locally available searchable database. GCG Package v9.0 is a commercially available software package that contains over 100 interrelated software programs that allow sequence analysis by editing, mapping, comparing, and aligning sequences. is there. Other programs included in the GCG package include, for example, programs that facilitate RNA secondary structure prediction, nucleic acid fragment assembly, and evolutionary analysis. In addition, the most prominent gene databases (Ge
nBank, EMBL, PIR, and SWISS-PROT) are distributed with the GCG package,
And it is completely usable for database search programs and database operation programs. GCG can be accessed via the Internet, for example, http://www.gcg.com/
You can access at Fetch is a tool available in GCG that can obtain GenBank records annotated based on accession numbers, and is similar to Entrez. Another sequence identity search using GeneWorld from Pangea
And GeneThesaurus. GeneWorld 2.5 is an automated, flexible, and flexible tool for analyzing polynucleotide and protein sequences.
High throughput application. GeneWorld enables automated analysis and sequence annotation. Like GCG, GeneWorld employs several tools for sequence search, gene discovery, multiple sequence alignment, secondary structure prediction and motif identification. GeneThesaurus 1.Otm is a sequence and annotation data subscription service that provides information from multiple sources and provides a relational data model for public and local data.
【0031】 別の代替配列同一性検索を、例えばBlastParseにより行うことができる。Blas
tParseは、UNIXプラットフォーム上で駆動するPERLスクリプトであり、上述した
戦略を自動化する。BlastParseは、目的の標的受託番号のリストを取り込み、そ
して図3中に示したフローチャート中に記載される好ましい工程を介してそれぞ
れを取り込む。BlastParseは、“tab-設定”テキスト中ですべてのGenBank範囲
を解析し、その後柔軟性を提供する、より簡便な検索および解析のための“リレ
ーショナルデータベース”フォーマット中に“tab-設定”テキストを保存するこ
とができる。最終結果は、容易にソートすることができ、フィルターをかけるこ
とができ、そして疑問符を付けることができ、また注釈-リレーショナルデータ
ベースであってもよい、一連の完全に解析されたGenBank記録である。Another alternative sequence identity search can be performed with, for example, BlastParse. Blas
tParse is a PERL script that runs on UNIX platforms and automates the strategy described above. BlastParse takes a list of target accession numbers of interest, and takes each through the preferred steps described in the flow chart shown in FIG. BlastParse parses all GenBank ranges in "tab-set" text and then saves the "tab-set" text in a "relational database" format for easier search and analysis, providing flexibility can do. The end result is a series of fully parsed GenBank records that can be easily sorted, filtered, and questionable, and can be an annotation-relational database.
【0032】 配列同一性検索およびデータ操作を行うことができる別のツールキットは、SE
ALSであり、これもNCBIに由来する。このツールセットは、perlおよびCで記載さ
れ、そしてこれらの言語をサポートするいずれかのコンピュータプラットフォー
ム上で駆動することができる。これは、例えば、以下のアドレス:http://www.n
cbi.nlm.nih.gov/Walker/SEALS/からダウンロードして利用可能である。このツ
ールキットは、Blast2またはギャップ化blastへのアクセスを提供する。それは
また、tax breakと呼ばれるツールと組み合わせて、Blast2の出力を解析するtax collectorと呼ばれるツールも包含し、そして存在するそれぞれの種に対する質
問配列に対して最も相同な配列の識別名を返答する。別の有用なツールは、feat
ure2fastaであり、これは注釈に基づいて入力配列から配列断片を抽出する。こ
のツールの典型的な用途は、cDNA配列の5'非翻訳領域を含有する配列ファイルを
作成することである。Another toolkit that can perform sequence identity searches and data manipulation is the SE
ALS, also from NCBI. This toolset is written in perl and C
And any computer platform that supports these languages
Can be driven on the system. This is, for example, the following address: http: //www.n
It is available for download from cbi.nlm.nih.gov/Walker/SEALS/. This
The kit provides access to Blast2 or gapped blasts. that is
Also, tax tax to analyze the output of Blast2 in combination with a tool called break Includes a tool called collector, and the quality for each species present
Returns the identifier of the most homologous sequence to the query sequence. Another useful tool is feat
ure2fasta, which extracts sequence fragments from input sequences based on annotations. This
A typical use of this tool is to generate a sequence file containing the 5 'untranslated region of a cDNA sequence.
Is to create.
【0033】 好ましくは、配列同一性検索において上述したように、標的核酸に対する相同
性を有する様々な分類学的種に由来する複数核酸を、その中の標的核酸のオルト
ログを発見するためにさらに詳細に描写する。オルトログは、幅広く分岐した生
物において、配列同一性を有しそして生物の文脈中で同様の機能を発揮する、2
遺伝子を参照するための遺伝子分類において定義された用語である。対照的に、
パラログは、遺伝子の複製のために生じる種の内部の遺伝子であり、しかし新規
な機能を進化させ、そしてイソ型としても言及される。場合により、パラログ検
索を行うこともできる。オルトログ検索を行うことにより、多様な生物由来の相
同性配列の網羅的なリストを得る。それに引き続き、これらの配列を解析して、
オルトログであることに関する分類に適合する最も代表的な配列を選択する。オ
ルトログ検索は、当業者が利用可能な、例えばCompareを含むプログラムにより
行うことができる。好ましくは、オルトログ検索は、配列のそれぞれについて完
全でそして解析されたGenBankの注釈にアクセスすることにより行う。現在のと
ころ、GenBankから入手される記録は、“フラット-ファイル”であり、自動化解
析について理想的には適合していない。好ましくは、オルトログ検索は、Q-Comp
areプログラムを使用して行う。Q-Compareプロトコルの好ましい工程は、図4中
に記載するフローチャート中に記載する。図3中に示したBlast結果-リレーショ
ンデータベースおよび図3中に示した注釈-リレーショナルデータベースをQ-Comp
areプロトコル中で使用し、その結果、以下に記載する種間配列比較プログラム
中で比較するためのオルトログ配列のリストを得る。Preferably, a plurality of nucleic acids from various taxonomic species having homology to the target nucleic acid, as described above in the sequence identity search, are further refined to find the ortholog of the target nucleic acid therein. To be described. Orthologs have sequence identity in widely divergent organisms and perform similar functions in the context of organisms.
A term defined in the genetic classification for referring to a gene. In contrast,
Paralogs are genes within a species that arise due to gene duplication, but evolve new functions and are also referred to as isoforms. In some cases, a paralog search can also be performed. By performing an ortholog search, an exhaustive list of homologous sequences from various organisms is obtained. Subsequently, we analyze these sequences,
Select the most representative sequence that fits the classification for orthologs. The ortholog search can be performed by a program available to those skilled in the art, for example, including Compare. Preferably, the ortholog search is performed by accessing the complete and analyzed GenBank annotations for each of the sequences. At present, records obtained from GenBank are "flat-file" and are not ideally suited for automated analysis. Preferably, the ortholog search is a Q-Comp
are done using the program. The preferred steps of the Q-Compare protocol are described in the flow chart described in FIG. The Blast result-relation database shown in Fig. 3 and the annotation-relational database shown in Fig. 3
are used in the are protocol, resulting in a list of ortholog sequences for comparison in the interspecies sequence comparison program described below.
【0034】 上述した同一性検索により、e-スコアと呼ぶカットオフ値に基づく結果を得る
。e-スコアは、所定のヌクレオチドウィンドゥ内部でのランダムな配列適合の可
能性を示す。e-スコアがより低ければ、適合度がよりよい。当業者は、e-スコア
にはなじみがある。ユーザーは、上述したストリンジェンシーまたは所望の相同
性の程度に基づいて、e-値カットオフを定義する。原核細胞分子相互作用部位を
同定する本発明の態様においては、同定される相同ヌクレオチド配列のいずれも
が非ヒトのものであることが好ましい。With the above-described identity search, a result based on a cutoff value called an e-score is obtained. The e-score indicates the possibility of random sequence matching within a given nucleotide window. The lower the e-score, the better the fit. Those skilled in the art are familiar with e-scores. The user defines the e-value cutoff based on the stringency or degree of homology desired, as described above. In embodiments of the invention that identify a prokaryotic molecule interaction site, it is preferred that any of the identified homologous nucleotide sequences be non-human.
【0035】 本発明の別の態様においては、必要とされる配列をオルトログデータベースを
検索することにより得る。そのようなデータベースの一つはHovergenであり、脊
椎動物オルトログのキュレートされた(curated)データベースである。オルト
ログのセットは、このデータベースから出力し、そして上述したようなさらなる
配列同一性検索のための種子として使用する。例えば無脊椎動物オルトログを発
見するために、さらなる検索が望ましい場合がある。Hovergenは、例えば以下の
アドレス:ftp://pbil.univ-lyonl.fr/pub/hovergen/からダウンロードすること
ができる。原核細胞オルトログのデータベースであるCOGSは、インターネット上
で、例えば以下のアドレス:http://www.ncbi.nlm.nih.gov/COG/にて、利用可能
でありそして対話式に使用することができる。In another aspect of the invention, the required sequence is obtained by searching an ortholog database. One such database is Hovergen, a curated database of vertebrate orthologs. The set of orthologs is output from this database and used as seed for further sequence identity searches as described above. Further searches may be desirable, for example, to find invertebrate orthologs. Hovergen can be downloaded, for example, from the following address: ftp://pbil.univ-lyonl.fr/pub/hovergen/. The prokaryotic ortholog database, COGS, is available on the Internet, for example, at the following address: http://www.ncbi.nlm.nih.gov/COG/ and can be used interactively. it can.
【0036】 本発明の別の態様において、様々な分類学的種由来の複数核酸のヌクレオチド
配列を、dbESTなどを使用する配列同一性検索を行うことにより、そして仮想転
写物を構築することにより、標的核酸のヌクレオチド配列と比較する。EST情報
を使用することは、2つの別個の理由のために有用である。第一に、ヒト遺伝子
についてGenBankデータベース中の進化的に別個の生物においてヒト遺伝子に対
するオルトログを同定する能力には限界があるということである。これらの進化
的に別個の生物に由来するESTを同定することに対してより多くの努力が向けら
れているため、dbESTはオルトログ情報のよりよい供給源であるようである。In another embodiment of the invention, the nucleotide sequences of multiple nucleic acids from various taxonomic species are determined by performing a sequence identity search using dbEST or the like, and by constructing virtual transcripts, Compare with the nucleotide sequence of the target nucleic acid. Using EST information is useful for two distinct reasons. First, the ability of human genes to identify orthologs for human genes in evolutionarily distinct organisms in the GenBank database is limited. As more efforts are being directed at identifying ESTs from these evolutionarily distinct organisms, dbEST appears to be a better source of ortholog information.
【0037】 第二に、ヒトゲノムを配列決定するための努力は、完全なものの10%未満であ
る。このように、ヒトdbESTはヒトゲノムの配列が完全に近づくにつれて、主要
な標的を同定するためのより多くの情報を提供するだろうと考えられる。EST配
列は短く、そして組み立てて使用する必要がある。好ましくは、上述したように
Smith-Watermanアルゴリズムを使用して、ヒト配列を除くdbESTに対する高スト
リンジェント条件下、配列同一性検索を行う。dbESTは、挿入および欠失を含む
配列決定エラーを包含するため、新規配列について正確に検索するためには、使
用する検索方法をこれらのギャップについても可能にするべきである。それぞれ
の利用可能なクローンが配列決定されているので、データベース中で報告されて
いる多数の重複した領域が結果として得られる。非ヒトRNAに対する完全長また
は部分“仮想転写物”を、“完全長”転写物が得られるまで、重複するEST配列
を5'および3'の両方向に伸長する方法により構築する。本発明の別の態様におい
ては、キメラ仮想転写物を構築する。Second, the effort to sequence the human genome is less than 10% complete. Thus, it is believed that human dbEST will provide more information to identify key targets as the sequence of the human genome is fully approached. EST sequences are short and need to be assembled and used. Preferably, as described above
A sequence identity search is performed under high stringency conditions on dbEST excluding human sequences using the Smith-Waterman algorithm. Since dbEST encompasses sequencing errors, including insertions and deletions, in order to accurately search for new sequences, the search strategy used should also allow for these gaps. As each available clone has been sequenced, a large number of overlapping regions reported in the database will result. Full-length or partial "virtual transcripts" for non-human RNA are constructed by extending overlapping EST sequences in both 5 'and 3' directions until a "full-length" transcript is obtained. In another aspect of the invention, a chimeric virtual transcript is constructed.
【0038】 結果物である仮想転写物は、すでに特性決定されたRNA分子を表示する場合が
あり、または未知の生物学的機能を有する新規なRNA分子である場合もある。上
述したように、TIGR HGIデータベースにより、TIGR-Assemblerと呼ばれる仮想転
写物を構築するためのエンジンが利用可能になる。Pangea由来のGLAXO-MRCおよ
びGeneWorldは、仮想転写物の構築も提供する。上述したように、Find Neighbor
s and Assemble EST Blastを使用して、仮想転写物を構築することもできる。The resulting virtual transcript may represent an already characterized RNA molecule, or it may be a new RNA molecule with unknown biological function. As mentioned above, the TIGR HGI database makes available an engine called TIGR-Assembler for constructing virtual transcripts. GLAXO-MRC and GeneWorld from Pangea also provide for the construction of virtual transcripts. As mentioned above, Find Neighbor
Virtual transcripts can also be constructed using s and Assemble EST Blast.
【0039】 図1を参照すると、上述したオルトログまたは仮想転写物を配列同一性検索ま
たはオルトログ検索のいずれかを介して得た後に、様々な分類学的種に由来する
複数核酸と標的核酸との間で保存されている少なくとも一つの配列領域を同定す
る、20。種間配列比較を、当業者に利用可能でありそして既知である、多数のコ
ンピュータプログラムを使用して行うことができる。好ましくは、当業者に利用
可能でありそして既知であるCompareを使用して、種間配列比較を行う。Compare
は、ウィンドゥ/ストリンジェンシー基準を使用する配列の対合比較(pair-wis
e comparisons)を可能とするGCGツールである。特定の品質の適合が見出される
天を含有する出力ファイルを、Compareは作成する。これらは別のGCGツールであ
るDotPlotによりプロットすることができる。Referring to FIG. 1, after obtaining the above-described orthologs or virtual transcripts via either a sequence identity search or an ortholog search, multiple nucleic acids from various taxonomic species and the target nucleic acid are compared. 20. identify at least one sequence region that is conserved between Interspecies sequence comparisons can be performed using a number of computer programs, available and known to those of skill in the art. Preferably, interspecies sequence comparisons are performed using Compare, which is available and known to those skilled in the art. Compare
Is a pair-wis comparison of sequences using window / stringency criteria.
This is a GCG tool that enables e comparisons. Compare creates an output file containing heavens where a particular quality match is found. These can be plotted with another GCG tool, DotPlot.
【0040】 あるいは、保存された配列領域の同定は、上述したようにCompareOverWinsと
組み合わせたQ-Compareから生成したオルトログ配列を使用して、種間配列比較
により行う。好ましくは、比較するための配列のリスト、たとえば図4中に記載
されるようにQ-Compareから生成されたオルトログ配列を、CompareOverWinsアル
ゴリズム中に入力する。CompareOverWins中の好ましい工程は、図5A、5B、およ
び5C中に記載する。好ましくは、質問配列がマスター標的配列上のウィンドゥ上
にスライドする、対合配列比較により、種間配列比較を行う。好ましくは、ウィ
ンドゥは、約9〜約99個の隣接するヌクレオチドである。Alternatively, identification of conserved sequence regions is performed by interspecies sequence comparison using the ortholog sequences generated from Q-Compare in combination with CompareOverWins as described above. Preferably, a list of sequences to compare, for example an ortholog sequence generated from Q-Compare as described in FIG. 4, is input into the CompareOverWins algorithm. The preferred steps in CompareOverWins are described in FIGS. 5A, 5B, and 5C. Preferably, interspecies sequence comparisons are performed by paired sequence comparisons, wherein the query sequence slides over a window on the master target sequence. Preferably, the window is from about 9 to about 99 contiguous nucleotides.
【0041】 標的核酸のウィンドゥ配列と上述のように得られる複数核酸配列のいずれかの
質問配列との間での配列相同性は、好ましくは少なくとも60%、より好ましくは
少なくとも70%、より好ましくは少なくとも80%、そして最も好ましくは少なく
とも90%である。閾値を選択する最も好ましい方法は、コンピュータに50%〜10
0%のすべての閾値を自動的に試みさせ、そしてユーザーにより提供された測定
規準に基づいて閾値を選択するというものである。このような測定規準の一つは
、正確にn回のヒットが返答されるように閾値を選択することであり、nは通常3
にセットする。上述した複数核酸のメンバーである質問核酸のすべての塩基を、
マスター標的配列のすべての塩基と比較するまで、この方法を繰り返す。得られ
たスコアマトリックスを拡散プロット(scatter plot)としてプロットすること
ができる。所定位置での適合密度に基づいて、ドットなし、分離されたドット、
または直線として見られるくらい近接するドットのセットでありうる。直線の存
在は、それが小さなものであるが、一次配列相同性を示す。このような種間配列
比較の代表的な拡散プロットを、図6中に示す。分岐した種における核酸分子内
の、特にRNAのUTR中の配列保存性は、二次構造を有するようでもある保存された
制御要素の指標であるようである。種間配列比較の結果を当業者に既知であるよ
うな完全に自動化された様式のMS ExcelおよびVisual basicツールを使用して解
析することができる。The sequence homology between the window sequence of the target nucleic acid and the query sequence of any of the plurality of nucleic acid sequences obtained as described above is preferably at least 60%, more preferably at least 70%, more preferably At least 80%, and most preferably at least 90%. The most preferred way to select the threshold is to use a computer
Let all 0% thresholds be tried automatically and select the thresholds based on the metrics provided by the user. One such criterion is to choose a threshold such that exactly n hits are returned, where n is typically 3
Set to. All the bases of the query nucleic acid, which are members of the above-described multiple nucleic acids,
This procedure is repeated until all bases of the master target sequence have been compared. The resulting score matrix can be plotted as a scatter plot. Based on the fit density at a given location, no dots, separated dots,
Or it could be a set of dots that are so close to be seen as a straight line. The presence of a straight line, although small, indicates primary sequence homology. A representative diffusion plot for such interspecies sequence comparisons is shown in FIG. Sequence conservation within nucleic acid molecules in branched species, especially in the UTR of RNA, appears to be indicative of a conserved regulatory element that also appears to have secondary structure. The results of interspecies sequence comparisons can be analyzed using MS Excel and Visual basic tools in a fully automated fashion as known to those skilled in the art.
【0042】 図1を参照すると、核酸標的のヌクレオチド配列および様々な分類学的種に由
来する複数核酸の間で保存される少なくとも一つの領域が、好ましくはオルトロ
グを経由して、同定された後は、保存された領域を解析して、二次構造を含有す
るかどうかについて決定する、30。同定され保存された領域が二次構造を含有す
るかどうかを決定することは、当業者に既知の多数の手順により行うことができ
る。二次構造の決定は、好ましくは、自己相補性比較、並置および共分散解析、
二次構造予測、もしくはこれらの組合せにより行う。Referring to FIG. 1, after the nucleotide sequence of the nucleic acid target and at least one region conserved between nucleic acids from various taxonomic species has been identified, preferably via an ortholog Analyzes the conserved region to determine if it contains secondary structure, 30. Determining whether an identified and conserved region contains secondary structure can be accomplished by a number of procedures known to those of skill in the art. The determination of secondary structure is preferably performed by self-complementarity comparison, juxtaposition and covariance analysis,
It is performed by secondary structure prediction or a combination thereof.
【0043】 本発明の一態様においては、二次構造解析を並置および共分散解析により行う
。並置および共分散解析についての多数のプロトコルは、当業者に既知である。
好ましくは、当業者に利用可能でありそして既知であるClustalWにより並置を行
う。ClustalWは、複数配列並置のためのツールであり、GCGの一部ではないが、
既存のGCGツールセットの拡張として追加することができ、そして局所配列につ
いて使用することができる。ClustalWは、インターネットを介して、例えば以下
のアドレス:http://dot.imgen.bcm.tmc.edu:9331/multialign/Options/clustal
w.htmlからアクセスすることができる。Clusta1Wはまた、Thompsonら(Nuc. Aci
ds Res., 1994, 22, 4673-4680)中にも記載され、この全体を参考文献として本
明細書中に援用する。これらの方法をスクリプトにして、より初期の工程におい
て同定される保存されたUTR領域を自動的に使用することができる。当業者に利
用可能でありそして既知であるUNIXコマンドラインインターフェースであるSeqe
dにより、選択された局所領域をより大きな配列から抽出することが可能になる
。多くの様々な種に由来する多数の配列をクラスター化し、そしてさらに解析す
るために並置することができる。In one embodiment of the present invention, secondary structure analysis is performed by juxtaposition and covariance analysis. Numerous protocols for juxtaposition and covariance analysis are known to those skilled in the art.
Preferably, the juxtaposition is with ClustalW, which is available and known to those skilled in the art. ClustalW is a tool for juxtaposing multiple sequences and is not part of GCG,
It can be added as an extension of the existing GCG toolset and can be used for local arrays. ClustalW can be accessed via the Internet, for example, at the following address: http://dot.imgen.bcm.tmc.edu:9331/multialign/Options/clustal
It can be accessed from w.html. Clusta1W has also been described by Thompson et al. (Nuc. Aci.
ds Res., 1994, 22, 4673-4680), which is hereby incorporated by reference in its entirety. These methods can be scripted to automatically use conserved UTR regions identified in earlier steps. Seqe, a UNIX command line interface available and known to those skilled in the art
d allows selected local regions to be extracted from a larger array. Numerous sequences from many different species can be clustered and juxtaposed for further analysis.
【0044】 本発明の好ましい態様において、すべての可能性のある対合CompareOverWindo
ws比較の出力を集め、AlignHitsと呼ばれるプログラムを使用して参照配列と並
置する。このプログラムの操作の図表は、図5Dに提供される。このプログラムは
、当業者によれば反復可能である。このプログラムの好ましい目的は、対合比較
において作成したすべてのヒットを、参照配列上の位置にマップし直すことであ
る。CompareOverWindowsおよびAlignHitsとを組み合わせるこの方法は、他のい
ずれかのアルゴリズムよりも多くの局所並置(20〜100塩基以上)を提供する。
この局所並置は、共変動またはRevCompなどの、後述する構造発見ルーチンに必
要なものである。このアルゴリズムは、並置された配列のfasta配列を記述する
。示されたように、アルゴリズムは、一塩基挿入または一塩基欠失を訂正しない
。ほかの場所で記載されるClustalWを介して出力を置くことにより、このことを
通常達成する。CompareOverWindowsおよびAlignHitsを伴わずにClustalWを単独
で使用することから、これを区別する(differentiate)ことは重要なことであ
る。In a preferred embodiment of the invention, all possible pairing CompareOverWindo
Collect the output of the ws comparison and align it with the reference sequence using a program called AlignHits. A diagram of the operation of this program is provided in FIG. 5D. This program can be repeated by those skilled in the art. The preferred purpose of this program is to remap all hits created in pairwise comparisons to locations on the reference sequence. This method, combined with CompareOverWindows and AlignHits, provides more local alignment (20-100 bases or more) than any other algorithm.
This local juxtaposition is necessary for a structure discovery routine described below, such as Covariation or RevComp. This algorithm describes a fasta array of juxtaposed arrays. As indicated, the algorithm does not correct single base insertions or single base deletions. This is usually achieved by placing the output via ClustalW, described elsewhere. It is important to differentiate ClustalW from using ClustalW alone without CompareOverWindows and AlignHits.
【0045】 共変動は、コンセンサス二次構造予測についての一次配列情報の系統発生論的
解析を使用する方法である。共変動は、以下の文献中に記載されており、それぞ
れの全体を本明細書中に援用する(Gutell, et al., "Comparative Sequence An
alysis Of Experiments Performed During Evolution" In Ribosomal RNA Group
I Introns, Green, Ed., Austin:Landes, 1996; Gautheret, et al., Nuc. Aci
ds Res., 1997, 25, 1559-1564; Gautheret, et al., RNA, 1995, 1, 807-814;
Lodmell, et al., Proc. Natl. Acad. Sci. USA, 1995,92,10555-10559; Gauthe
ret, et al., J Mol. Biol., 1995,248, 27-43; Gutell, Nuc. Acids Res., 199
4,22,3502-3517; Gutell, Nuc. Acids Res., 1993,21, 30553074; Gutell, Nuc.
Acids Res., 1993, 21, 3051-3054; Woese, Proc. Nad. Acad. Sci. USA, 1989
, 86, 3119-3122; and Woese, et al., Nuc. Acids Res., 1980, 8, 2275-2293
)。好ましくは、共分散ソフトウェアを共分散解析に使用する。好ましくは、共
変動、すなわち配列並置からのRNA構造の比較解析についてのプログラムのセッ
トを使用する。共変動は、コンセンサス二次構造予測についての一次配列情報の
系統発生論的解析を使用する。共変動は、インターネットを介して、例えばhttp
://www.mbio.ncsu.edu/RNaseP/info/programs/programs.htmlにて、得ることが
できる。プログラムのバージョンの完全な記載は、発行されている(Brown, J.
W. 1991 Phylogenetic analysis of RNA structure on the Macintosh computer
. CABIOS7:391-393)。現在のバージョンはv4.1であり、標準的共変動解析、代
償的な塩基変化の同定、そして相互情報解析を含むRNA配列並置に由来する様々
なタイプの共変動解析を行うことができる。プログラムはよく教育されており、
そして広範囲の例ファイルに附属する。それは独立型のプログラムとして編集さ
れている;それは、Hypercardを必要としない(かなり小さな‘スタック’バー
ジョンを含むが)。このプログラムは、MacOS v7.1またはそれ以上を駆動するMa
cintosh環境のいずれかにおいて駆動することができる。より早いプロセッサー
の機械(68040またはPowerPC)が、相互情報解析または大きな配列並置の解析に
ついて示唆される。Covariation is a method that uses phylogenetic analysis of primary sequence information for consensus secondary structure prediction. Covariation is described in the following documents, each of which is incorporated herein in its entirety (Gutell, et al., "Comparative Sequence An
alysis Of Experiments Performed During Evolution "In Ribosomal RNA Group
I Introns, Green, Ed., Austin: Landes, 1996; Gautheret, et al., Nuc. Aci
ds Res., 1997, 25, 1559-1564; Gautheret, et al., RNA, 1995, 1, 807-814;
Lodmell, et al., Proc. Natl. Acad. Sci. USA, 1995, 92, 10555-10559; Gauthe
ret, et al., J Mol. Biol., 1995, 248, 27-43; Gutell, Nuc. Acids Res., 199.
4,22,3502-3517; Gutell, Nuc. Acids Res., 1993, 21, 30553074; Gutell, Nuc.
Acids Res., 1993, 21, 3051-3054; Woese, Proc. Nad. Acad. Sci. USA, 1989.
, 86, 3119-3122; and Woese, et al., Nuc. Acids Res., 1980, 8, 2275-2293
). Preferably, covariance software is used for covariance analysis. Preferably, a set of programs for covariation, ie, comparative analysis of RNA structure from sequence alignment, is used. Covariation uses phylogenetic analysis of primary sequence information for consensus secondary structure prediction. Covariation can be performed via the Internet, for example, http
It can be obtained at http://www.mbio.ncsu.edu/RNaseP/info/programs/programs.html. A complete description of the program version is published (Brown, J.
W. 1991 Phylogenetic analysis of RNA structure on the Macintosh computer
CABIOS7: 391-393). The current version is v4.1, which can perform various types of covariation analysis derived from RNA sequence alignments, including standard covariation analysis, identification of compensatory base changes, and mutual information analysis. The program is well educated,
And comes with a wide range of example files. It is compiled as a stand-alone program; it does not require Hypercard (although it includes a fairly small 'stack' version). This program runs on MacOS v7.1 or higher
Can be driven in any of the cintosh environments. A faster processor machine (68040 or PowerPC) is suggested for mutual information analysis or analysis of large sequence juxtapositions.
【0046】 本発明の別の態様において、二次構造解析を二次構造予測により行う。熱力学
的パラメータおよびエネルギー計算に基づいてRNA二次構造を予測する多数のア
ルゴリズムがある。好ましくは、二次構造予測をM-foldまたはRNA Structure 2.
52のいずれかを使用して行う。M-foldは、インターネットを介して、例えばhttp
://www.ibc.wustl.edu/zuker/ma/form2.cgiにて、アクセスすることができるか
、またはUNIXプラットフォーム上の局所利用のためにダウンロードすることがで
きる。M-foldは、GCGパッケージの一部としても利用可能である。RNA Structure
2.52は、M-foldアルゴリズムのWindowsへの適合物であり、そしてインターネッ
トを介して、例えばhttp://128.151.176.70/RNAstructure.htmlにてアクセスす
ることができる。In another embodiment of the present invention, the secondary structure analysis is performed by secondary structure prediction. There are a number of algorithms that predict RNA secondary structure based on thermodynamic parameters and energy calculations. Preferably, the secondary structure prediction is performed using M-fold or RNA Structure 2.
Perform using one of the 52. M-fold, for example, http
It can be accessed at http://www.ibc.wustl.edu/zuker/ma/form2.cgi or downloaded for local use on UNIX platforms. M-fold is also available as part of the GCG package. RNA Structure
2.52 is a Windows adaptation of the M-fold algorithm and can be accessed via the Internet, for example at http://128.151.176.70/RNAstructure.html.
【0047】 本発明の別の態様においては、二次構造解析を自己相補性比較により行う。好
ましくは、自己相補性比較を上述したCompareを使用して行う。より好ましくは
、Compareを改変して、従来のワトソン-クリックG-C/C-GまたはA-U/U-A対合に加
えて、G-UまたはU-G塩基対を説明するための対合マトリックスを拡張することが
できる。このような改変したCompareプログラム(改変Compare)は、所定の配列
内部にあるすべての可能性のある塩基対合を予想することから始まる。上述した
ように、小さな、しかし保存された領域、好ましくはUTRを、一連のオルトログ
の一次配列比較に基づいて同定する。改変Compareにおいては、これらの配列の
それぞれをそれ自体の逆相補鎖と比較する。図7は、具体的な自己相補性解析を
示す。許容される対合には、ワトソン-クリックのA-U、G-C対合および非標準的
なG-U対合が含まれる。すべての利用可能なオルトログのこのような自己相補性
プロットのオーバーレイ、およびそれぞれにおけるほとんどの反復性パターンに
ついての選択の結果、最小数の可能性のある折り畳み構造が得られる。図8は具
体的なオーバーレイを示す。その後、このようなオーバーレイを、上述したエネ
ルギー考察により賦課されるものを含む追加の制約と共に使用して、もっとも可
能性のある二次構造を演繹することができる。In another embodiment of the present invention, secondary structure analysis is performed by self-complementarity comparison. Preferably, the self-complementarity comparison is performed using Compare as described above. More preferably, Compare can be modified to extend the pairing matrix to account for GU or UG base pairs in addition to traditional Watson-Crick GC / CG or AU / UA pairs. Such a modified Compare program (modified Compare) begins by predicting all possible base pairings within a given sequence. As described above, small but conserved regions, preferably UTRs, are identified based on primary sequence comparisons of a series of orthologs. In modified Compare, each of these sequences is compared to its own reverse complement. FIG. 7 shows a specific self-complementary analysis. Acceptable matches include Watson-Crick AU, GC matches and non-standard GU matches. The overlay of such self-complementary plots of all available orthologs, and the choice for most repetitive patterns in each, results in a minimal number of possible folds. FIG. 8 shows a specific overlay. Such overlays can then be used with additional constraints, including those imposed by the energy considerations described above, to deduce the most likely secondary structure.
【0048】 本発明の別の好ましい態様においては、AlignHitsの出力を、RevCompと呼ばれ
るプログラムにより読む。このプログラムのブロックダイアグラムは、図14に示
す。このプログラムは、当業者であれば反復することができる。このプログラム
の好ましい目的は、塩基対合規則を使用することおよびRNA二次構造を予測する
ためのオルトログ進化を使用することである。RNA二次構造は、一本鎖領域、そ
して塩基対合領域、いわゆるステムからなる。進化により保存される構造を検索
するため、オルトログ配列の所定の並置についてのもっとも可能性のあるステム
は、ほとんどの配列により形成されうるものである。可能性のあるステム形成ま
たは塩基対合規則を、例えば他の技術、例えばNMRにより決定されたステムの塩
基対統計を解析することにより、決定する。RevCompの出力は、可能性のある構
造を形成しうるオルトログセットメンバーの配列の割合によりランク付けされた
、可能性のある構造のソートされたリストである。このアプローチは、パーセン
テージ閾値アプローチを使用するため、ノイズ配列に対して反応しない。ノイズ
配列は、検索される構造の例を示さないものの、高い配列相同性のために、真の
オルトログではないかまたはAlignHitsの出力中に作成される配列である。非常
に類似するアルゴリズムは、PC上で駆動するために、Visual basic for Applica
tions(VBA)そしてMicrosoft Excelを使用して実行され、所定のセットの配列
についての逆相補性マトリックス概観を生成する。In another preferred embodiment of the present invention, the output of AlignHits is read by a program called RevComp. The block diagram of this program is shown in FIG. This program can be repeated by those skilled in the art. The preferred purpose of this program is to use base pairing rules and to use ortholog evolution to predict RNA secondary structure. The RNA secondary structure consists of a single-stranded region and a base-pairing region, the so-called stem. To search for evolutionarily conserved structures, the most likely stem for a given juxtaposition of orthologous sequences is one that can be formed by most sequences. Possible stem formation or base pairing rules are determined, for example, by analyzing the base pair statistics of the stem as determined by other techniques, eg, NMR. The output of RevComp is a sorted list of possible structures, ranked by the percentage of sequences of ortholog set members that can form the possible structures. This approach does not respond to noise sequences because it uses a percentage threshold approach. A noise sequence is a sequence that does not give an example of a structure to be searched, but is not a true ortholog or is created in the output of AlignHits due to high sequence homology. A very similar algorithm is called Visual basic for Applica to run on a PC.
It is performed using Options (VBA) and Microsoft Excel to generate a reverse complementarity matrix overview for a given set of sequences.
【0049】 並置により行われるか、および共分散、自己相補性解析、二次構造予測、例え
ばM-fold、またはその他のものにより行われるかに関わらず、上述した二次構造
解析の結果は、標的核酸と様々な分類学的種由来の複数核酸との間で保存された
領域中の二次構造を同定する、40。同定することができる典型的な二次構造には
、膨隆(bulge)、ループ、ステム、ヘアピン、ノット(knot)、三重相互作用
(triple interact)、クローバー葉、またはヘリックス、若しくはこれらの組
合せが含まれるが、これらには限定されない。あるいは、新規な二重構造を同定
してもよい。Whether performed by juxtaposition and by covariance, self-complementary analysis, secondary structure prediction, eg, M-fold, or the like, the results of the secondary structure analysis described above are: Identify secondary structures in regions conserved between the target nucleic acid and multiple nucleic acids from various taxonomic species, 40. Typical secondary structures that can be identified include bulges, loops, stems, hairpins, knots, triple interacts, cloverleaves, or helices, or combinations thereof. But not limited to these. Alternatively, a novel duplex structure may be identified.
【0050】 本発明の別の態様においては、いったん保存された領域の二次構造を上述した
ように同定したら、二次構造を有する保存された領域についての少なくとも一つ
の構造モチーフを同定する。これらの構造モチーフは、上述したような同定され
た二次構造に対応する。例えば、自己相補性による二次構造の解析は、二次構造
の一つの型を提供しうるが、一方M-foldによる解析は、別の二次構造を提供しう
る。したがって、上述した二次構造解析により同定されたすべての可能性のある
二次構造は、構造モチーフのファミリーにより表示される。In another aspect of the invention, once the secondary structure of the conserved region has been identified as described above, at least one structural motif for the conserved region having the secondary structure is identified. These structural motifs correspond to the secondary structures identified as described above. For example, analysis of secondary structure by self-complementarity can provide one type of secondary structure, while analysis by M-fold can provide another secondary structure. Thus, all possible secondary structures identified by the secondary structure analysis described above are represented by a family of structural motifs.
【0051】 標的核酸の(1または複数の)二次構造および様々な分類学的種に由来する核
酸の二次構造がいったん同定されたら、上述したように、一次ヌクレオチド配列
によるのではなくむしろ、構造に基づく検索により、さらなる核酸を同定するこ
とができる。上述したように見いだされ二次構造と類似するかまたは同一である
二次構造を有する追加の核酸を、上述した構造モチーフについての記述子要素の
ファミリーを構築することにより、そして記述子要素に対応する二次構造を有す
るその他の核酸を同定することにより、同定することができる。二次構造を有す
る核酸のいずれかまたはすべての組合せを、データベース中に集めることができ
る。全体の方法を、データベース中に集めることができる複数の別の二次構造グ
ループを生成するために、別の標的核酸について繰り返すことができる。したが
って、本明細書中に記載する発明により行うことにより、分子相互作用部位のデ
ータベースを集めることができる。[0051] Once the secondary structure (s) of the target nucleic acid and the secondary structure of nucleic acids from various taxonomic species have been identified, rather than by primary nucleotide sequence, as described above, Additional nucleic acids can be identified by structure-based searches. By constructing a family of descriptor elements for the structural motifs described above, additional nucleic acids having a secondary structure similar or identical to the secondary structure found as described above, and corresponding to the descriptor elements By identifying another nucleic acid having a secondary structure, the nucleic acid can be identified. Any or all combinations of nucleic acids having a secondary structure can be collected in a database. The entire method can be repeated for another target nucleic acid to generate multiple different secondary structure groups that can be assembled in a database. Therefore, by performing the method according to the invention described in this specification, a database of molecular interaction sites can be collected.
【0052】 仮定的な構造モチーフを上述した二次構造解析から決定した後、構造記述子要
素のファミリーを構築する。好ましくは、上述した構造モチーフを、記述子要素
のファミリーに変換する。典型的な記述子要素を図9中に示す。同業者には、記
述子の構築はよく知られている。構造記述子は、たとえば、その全体を参考文献
として本明細書中に援用する、Laferriereら(Comput. Appl. Biosci., 1994, 1
0, 211-212)中に記載されている。二次構造解析から同定した構造モチーフのそ
れぞれについて、別の構造記述子要素を構築する。簡単にいうと、二次構造を例
えば図9中に示すような一般的なテキストストリングに変換する。新規のモチー
フについては、構造予測を確認するために、化学的マッピングまたは変異生成な
どのさらなる生物化学的解析を必要とすることができる。記述子要素を、様々な
ストリンジェンシーを有するように定義することができる。After determining a hypothetical structural motif from the secondary structure analysis described above, a family of structural descriptor elements is constructed. Preferably, the structural motifs described above are converted into a family of descriptor elements. Typical descriptor elements are shown in FIG. The construction of descriptors is well known to those skilled in the art. Structural descriptors are described, for example, in Laferriere et al. (Comput. Appl. Biosci., 1994, 1), which is hereby incorporated by reference in its entirety.
0, 211-212). A separate structural descriptor element is constructed for each of the structural motifs identified from the secondary structure analysis. Briefly, the secondary structure is converted into a general text string, for example, as shown in FIG. For new motifs, further biochemical analysis, such as chemical mapping or mutagenesis, may be required to confirm the structure prediction. Descriptor elements can be defined to have different stringencies.
【0053】 例えば、図9を参照すると、ステムの第一の領域を含むH1と記載する領域を、N
NN:NNNとして記載することができ、これはG-C、C-G、A-U、およびU-Aを含む相
補性塩基対合のいずれかを企図している。H1領域はまた、C-GまたはA-Uなどの塩
基対合のみを含むように、示すこともできる。さらに、記述子要素を、動揺する
ことを可能にするように定義することができる。このように、記述子要素を、ユ
ーザーが希望するいずれかのレベルのストリンジェンシーを有するように定義す
ることができる。出願人の発明は、このように、様々な記述子要素を含むデータ
ベースに対するものでもある。For example, referring to FIG. 9, the region described as H1, including the first region of the stem,
NN: Can be described as NNN, which contemplates any of the complementary base pairing including GC, CG, AU, and UA. The H1 region can also be shown to include only base pairing such as CG or AU. In addition, descriptor elements can be defined to allow for agitation. In this manner, the descriptor elements can be defined to have any level of stringency desired by the user. Applicants' invention is thus also directed to a database containing various descriptor elements.
【0054】 構造記述子要素のファミリーを構築した後、構造記述子要素に対応する二次構
造を有する核酸を同定する。好ましくは、少なくとも一つのデータベースを検索
し、クラスター化および解析を行い、オルトログを同定し、またはこれらの組合
せをすることにより、構造記述子要素に対応する二次構造を有する核酸を同定す
る。このように、同定された核酸は、記述子要素により定義された二次構造の範
囲内に属する二次構造を有する。このように、同定された核酸は、記述子要素の
ストリンジェンシーに依存して、標的核酸と同一ないしほぼ同一な二次構造を有
する。After constructing a family of structural descriptor elements, a nucleic acid having a secondary structure corresponding to the structural descriptor element is identified. Preferably, at least one database is searched, clustered and analyzed to identify orthologs, or a combination thereof, to identify nucleic acids having a secondary structure corresponding to a structural descriptor element. Thus, the identified nucleic acid has a secondary structure that falls within the secondary structure defined by the descriptor element. Thus, the identified nucleic acid has the same or almost the same secondary structure as the target nucleic acid, depending on the stringency of the descriptor element.
【0055】 本発明の一態様において、少なくとも一つのデータベースを検索することによ
り、構造記述子要素に対応する二次構造を有する核酸を同定する。いずれかの遺
伝子データベースを検索することができる。好ましくは、データベースは、メッ
センジャーRNA中の非翻訳領域を集めたUTRデータベースである。UTRデータベー
スは、インターネットを介して、例えばftp://area.ba.cnr.it/pub/embnet/data
base/utr/にて、アクセスすることができる。好ましくは、データベースは、例
えばDaniel Gautheret から入手可能なUNIX-ベースのモチーフ検索ツールである
Rnamotなどのコンピュータプログラムを使用して検索する。その後、公有のデー
タベースに対して同一のモチーフを有するそれぞれの“新規な”配列に疑問符を
つけ、追加の配列を同定する。上述したようなこれらの追加のオルトログ配列の
UTR中でのパターンの再発について、結果を解析し、そしてRNA二次構造のデータ
ベースを構築する。当業者には、Rnamotはよく知られている。簡単にいうと、Rn
amotは、図9中に示されるような記述子ストリングをとり、そして可能性のある
適合についてのFasta形式のデータベースのいずれかを検索する。記述子は、厳
密なヌクレオチドの適合に対して非常に特異的であってもよく、または内蔵され
た縮重を有していてもよい。ステムおよびループの長さは、特定されていてもよ
い。一本鎖ループ領域は、可変長を有していてもよい。G-U対合も許容され、そ
してぐらぐらする(wobble)パラメータとして特定することができる。許容でき
るミスマッチもまた、記述子の定義中に含めることができる。機能的な重要性は
、モチーフの生物学的役割が以前の解析に基づいて既知であるならば、モチーフ
に割り当てられる。例えば鉄反応性要素(Iron Response Element)などの既知
の制御領域は、この技術(以下の実施例1を参照)を使用して発見した。原核細
胞の分子相互作用部位を含有するデータベースを集める本発明の態様においては
、ヒト配列を検索し、あるいは、見いだされた場合にはヒト配列を廃棄すること
を抑制することが好ましい。In one embodiment of the invention, a nucleic acid having a secondary structure corresponding to a structural descriptor element is identified by searching at least one database. Any gene database can be searched. Preferably, the database is a UTR database that collects untranslated regions in messenger RNA. The UTR database can be accessed via the Internet, for example, ftp://area.ba.cnr.it/pub/embnet/data
You can access it at base / utr /. Preferably, the database is a UNIX-based motif search tool available, for example, from Daniel Gautheret
Search using a computer program such as Rnamot. Thereafter, each "new" sequence having the same motif is questioned against a public database to identify additional sequences. Of these additional ortholog sequences as described above.
Analyze the results for pattern recurrence in the UTR and build a database of RNA secondary structures. Rnamot is well known to those skilled in the art. Simply put, Rn
amot takes a descriptor string as shown in FIG. 9 and searches any of the Fasta format databases for possible matches. Descriptors may be very specific for exact nucleotide matching or may have built-in degeneracy. The length of the stem and loop may be specified. The single-stranded loop region may have a variable length. GU pairs are also allowed and can be specified as wobble parameters. Acceptable mismatches can also be included in the definition of the descriptor. Functional significance is assigned to motifs if the biological role of the motif is known based on previous analysis. Known control regions, such as, for example, an Iron Response Element, have been discovered using this technique (see Example 1 below). In embodiments of the invention that collect a database containing prokaryotic molecular interaction sites, it is preferable to search for human sequences or, if found, to discard human sequences.
【0056】 本発明の別の態様においては、例えばUTRデータベースなどのデータベースをR
namotを使用して検索することにより同定された核酸を、ゲノム中のそれらの位
置を決定する様にクラスター化し、そして解析する。Rnamotにより提供される結
果から、二次構造を含有する配列が単に同定されるが、ゲノム中の配列の位置に
ついてはいずれの指示も与えない。クラスター化および解析は、好ましくは上述
したようなClustalWを用いて行う。In another aspect of the invention, a database, such as a UTR database, is
Nucleic acids identified by searching using namot are clustered and analyzed to determine their location in the genome. The results provided by Rnamot merely identify sequences containing secondary structure, but do not give any indication as to the location of the sequence in the genome. Clustering and analysis are preferably performed using ClustalW as described above.
【0057】 本発明の別の態様においては、クラスター化および解析が上述したように行わ
れた後、オルトログが上述したように同定される。しかしながら、単にそれらの
一次ヌクレオチド配列に基づいて同定された上記で同定されたオルトログとは対
照的に、これらの新規なオルトログの配列は、Rnamotを使用して同定された核酸
を使用する構造に基づいて同定される。好ましくは上述したようにBlastParseま
たはQ-Compareによりオルトログの同定を行う。原核細胞分子相互作用部位を含
有するデータベースを集める本発明の態様においては、ヒトオルトログを発見し
、あるいは見いだした場合にはヒトオルトログを廃棄することを抑制することが
好ましい。In another aspect of the invention, after clustering and analysis have been performed as described above, orthologs are identified as described above. However, in contrast to the above-identified orthologs that were simply identified based on their primary nucleotide sequence, the sequences of these novel orthologs are based on structures using nucleic acids identified using Rnamot. Identified. Preferably, orthologs are identified by BlastParse or Q-Compare as described above. In embodiments of the invention that collect a database containing prokaryotic molecule interaction sites, it is preferred that human orthologs be discovered or, if found, to discard human orthologs.
【0058】 構造記述子要素に対応する二次構造を有する核酸を同定した後、ヌクレオチド
配列のいずれかまたはすべてを、当業者に既知の標準的編集プロトコルによりデ
ータベース中に集めることができる。一つのデータベースは、真核細胞の分子相
互作用部位を含有することができ、そして別のデータベースは原核細胞分子相互
作用部位を含有することができる。After identifying a nucleic acid having a secondary structure corresponding to a structural descriptor element, any or all of the nucleotide sequence can be assembled in a database by standard editing protocols known to those skilled in the art. One database may contain eukaryotic molecular interaction sites, and another database may contain prokaryotic molecular interaction sites.
【0059】 本発明は、選択された生物のRNA中および少なくとも一つのむしろいくつかの
追加の生物のRNA中に存在する分子相互作用部位を含むオリゴヌクレオチドに対
するものでもある。オリゴヌクレオチドのヌクレオチド配列を選択して、上述し
た分子相互作用部位の二次構造を提供する。オリゴヌクレオチドのヌクレオチド
配列は、好ましくは、上述した標的核酸のヌクレオチド配列である。あるいは、
ヌクレオチド配列は、好ましくは、分子相互作用部位も含有する複数の様々な分
類学的種に由来する核酸のヌクレオチド配列である。分子相互作用部位は、分子
相互作用部位に結合した場合に選択された生物中のRNAの発現を調節する少なく
とも一つの分子についての結合部位として機能する。The present invention is also directed to oligonucleotides comprising a molecular interaction site present in the RNA of the selected organism and in at least one, but rather in some additional, RNA of the organism. The nucleotide sequence of the oligonucleotide is chosen to provide the secondary structure of the molecular interaction site described above. The nucleotide sequence of the oligonucleotide is preferably the nucleotide sequence of the target nucleic acid described above. Or,
The nucleotide sequence is preferably the nucleotide sequence of a nucleic acid from a plurality of different taxonomic species that also contains a molecular interaction site. The molecular interaction site functions as a binding site for at least one molecule that, when bound to the molecular interaction site, regulates the expression of RNA in the selected organism.
【0060】 本発明はまた、原核細胞RNAおよび少なくとも一つの追加の原核細胞RNA中に存
在する分子相互作用部位を含むオリゴヌクレオチドにも対し、ここで分子相互作
用部位は、分子相互作用部位に結合した場合に、原核細胞RNAの発現を調節する
、少なくとも一つの分子に対する結合部位として機能する。すべての真核および
原核の生物および細胞から追加の生物を選択するが、選択された生物と同一の生
物ではない。オリゴヌクレオチドおよびその修飾物は、当該技術分野において周
知である。本発明のオリゴヌクレオチドは、例えば、分子相互作用部位に結合す
る天然の生じた分子を検出するための、例えば研究用試薬として、使用すること
ができる。本発明のオリゴヌクレオチドは、研究用途、診断用途および治療用途
について、細胞中の天然に生じた分子相互作用部位と競合するためのデコイとし
て使用することもできる。RNAの発現を増大するかまたは減少するかのいずれか
により、分子相互作用部位に結合する分子を修飾する。オリゴヌクレオチドは、
農業用途、工業用途およびその他の用途において使用することもできる。The invention also relates to an oligonucleotide comprising a molecular interaction site present in a prokaryotic RNA and at least one additional prokaryotic RNA, wherein the molecular interaction site binds to the molecular interaction site In this case, it functions as a binding site for at least one molecule that regulates prokaryotic RNA expression. An additional organism is selected from all eukaryotic and prokaryotic organisms and cells, but is not the same organism as the selected organism. Oligonucleotides and modifications thereof are well known in the art. The oligonucleotides of the invention can be used, for example, as a research reagent, for example, to detect naturally occurring molecules that bind to a molecular interaction site. The oligonucleotides of the invention can also be used as decoys to compete with naturally occurring molecular interaction sites in cells for research, diagnostic and therapeutic uses. The molecule that binds to the site of molecular interaction is modified, either by increasing or decreasing expression of the RNA. The oligonucleotide is
It can also be used in agricultural, industrial and other applications.
【0061】 本発明は、上述したオリゴヌクレオチドを医薬的な担体と共に含む医薬組成物
にも対する。“医薬的な担体”とは、動物に対して1または複数の核酸を送達す
るための、医薬的に許容可能な溶媒、希釈剤、懸濁剤、またはその他の医薬的に
不活性なビヒクルのいずれかであり、そしてそれらは当業者に周知である。担体
は、液体でも固体でもよく、そして医薬組成物の他の構成要素と組み合わせた場
合に、所望のバルク、整合性などを提供するように、計画された投与様式を意向
として持ちつつ、担体を選択する。典型的な医薬的な担体には、結合剤(例えば
、あらかじめゼラチン化したトウモロコシでんぷん、ポリビニルピロリドン、ま
たはヒドロキシプロピルメチルセルロースなど);充填剤(例えば、乳糖および
その他の糖、微晶質セルロース、ペクチン、ゼラチン、硫酸カルシウム、エチル
セルロース、ポリアクリル酸、またはリン酸水素カルシウムなど);潤滑剤(例
えば、ステアリン酸マグネシウム、タルク、シリカ、コロイド状二酸化珪素、ス
テアリン酸、金属ステアレート、水素化植物油、コーンスターチ、ポリエチレン
グリコール、安息香酸ナトリウム、酢酸ナトリウムなど);崩壊剤(例えば、ス
ターチ、スターチグルコネートナトリウムなど);または湿潤剤(例えば、ラウ
リル硫酸ナトリウムなど)が含まれるが、これらには限定されない。The present invention is also directed to a pharmaceutical composition comprising an oligonucleotide as described above together with a pharmaceutical carrier. “Pharmaceutical carrier” refers to a pharmaceutically acceptable solvent, diluent, suspension, or other pharmaceutically inert vehicle for delivering one or more nucleic acids to an animal. Either, and they are well known to those skilled in the art. The carrier can be a liquid or solid and, when combined with the other components of the pharmaceutical composition, provides a desired bulk, consistency, etc., with the intended mode of administration being maintained while maintaining the carrier in a controlled manner. select. Typical pharmaceutical carriers include binders such as pregelatinized corn starch, polyvinylpyrrolidone, or hydroxypropylmethylcellulose; fillers such as lactose and other sugars, microcrystalline cellulose, pectin, Gelatin, calcium sulfate, ethylcellulose, polyacrylic acid, or calcium hydrogen phosphate; a lubricant (eg, magnesium stearate, talc, silica, colloidal silicon dioxide, stearic acid, metal stearate, hydrogenated vegetable oil, corn starch, Disintegrants (eg, starch, sodium starch gluconate, etc.); or wetting agents (eg, sodium lauryl sulfate, etc.). Not.
【0062】 以下の実施例は、本発明の好ましい態様の具体例を示すが、これらは限定的な
ものを意味していない。The following examples show specific examples of preferred embodiments of the present invention, but they are not meant to be limiting.
【0063】[0063]
実施例1:鉄反応性要素 1. RNA標的の選択 小分子相互作用部位を同定するための戦略を説明するために、ヒトのフェリチ
ン遺伝子によりコードされるmRNAのおける鉄反応性要素(IRE)を同定する。IRE
は鉄代謝に関連するmRNAの翻訳レベルを調節するために使用されるRNA構造要素
の典型的な例である。IREの構造は最近NMR分光器を使用して決定された。加えて
、IRE構造のNMR解析はGdaniecら(Biochem., 1998, 37, 1505-1512)およびAdde
ssら(J. Mol. Biol., 1997, 274, 72-83)に記述されている。IREはヘアピン構
造に折りたたまれ、特定のタンパク質に結合する約30ヌクレオチドのRNA要素で
ある。この構造は非常に良く研究されており、多くの種のmRNAのおいて明らかで
あることが知られているため、出願人の方法論がどのように作用するかのすばら
しい例として役立つ。Example 1 Iron-Reactive Element 1. Selection of RNA Target To illustrate a strategy for identifying small molecule interaction sites, the iron-reactive element (IRE) in the mRNA encoded by the human ferritin gene was identified. Identify. IRE
Is a typical example of an RNA structural element used to regulate the level of translation of mRNA associated with iron metabolism. The structure of the IRE has recently been determined using NMR spectroscopy. In addition, NMR analysis of the IRE structure is described by Gdaniec et al. (Biochem., 1998, 37, 1505-1512) and Adde
(J. Mol. Biol., 1997, 274, 72-83). IREs are RNA elements of about 30 nucleotides that fold into a hairpin structure and bind to specific proteins. This structure has been very well studied and is known to be evident in many species of mRNA and thus serves as a great example of how Applicants' methodology works.
【0064】 2. RNA標的のヌクレオチド配列の決定 フェリチンに関するヒトmRNA配列を目的の配列あるいはマスター配列の初期mR
NAとして使用する。フェリチンタンパク質配列も解析において、特に関連する配
列を見つけるために使用する初期工程において使用する。ヒトフェリチン遺伝子
の場合、最良の入力はUNIGENEから入手する完全長の注釈付きmRNAおよびタンパ
ク質配列である。しかし、目的とする多くの遺伝子にとって同レベルの詳細な情
報は入手できない。これらの場合、マスター配列情報の代わりの供給源を、例え
ばGenBank、TIGR、GenBankのdbEST部門などから、あるいは民間の研究室から得
る配列情報から得る。出願人の方法はあらゆるレベルの入力配列情報を使用して
働くが、高い質の注釈付き入力配列を用いるより少ない工程が必要である。2. Determination of Nucleotide Sequence of RNA Target The human mRNA sequence for ferritin was converted to the target sequence or the initial mRNA
Used as NA. Ferritin protein sequences are also used in analysis, particularly in the early steps used to find related sequences. For the human ferritin gene, the best input is the full-length annotated mRNA and protein sequence obtained from UNIGENE. However, the same level of detailed information is not available for many genes of interest. In these cases, alternative sources of master sequence information are obtained, for example, from GenBank, TIGR, the GenBank dbEST department, or from sequence information obtained from private laboratories. Applicants' method works using all levels of input sequence information, but requires fewer steps than using high quality annotated input sequences.
【0065】 3. 同様配列の同定 処理の早期工程はマスター配列(ヌクレオチドあるいはタンパク質)を使用し
、データベース(オルトログ(orthologs)およびパラログ(paralogs))にお
いて関連する配列を見つけランクをつける。配列同一性検索アルゴリズムを本目
的に使用する。全ての配列同一性アルゴリズムは、マスター配列と比較した各々
の結果に関する同一性の量的な測定を計算する。量的な結果の例はブラスト(Bl
ast)アルゴリズムから得たE値(E-value)である。質問(query)配列としてフ
ェリチンmRNAを使用した非リダンダントGenBankデータベースのブラスト検索のE
値は、配列同一性検索の量的解析の使用を説明する。E値は質問配列とデータベ
ース配列の適合が無作為な機会のために起こるという確率である。それゆえ、E
値が低ければ低いほど、二つの配列の正確な関連がより確からしくなる。フェリ
チンの最も低いE値スコアのプロットは図10に示す。カットオフ基準に見合う配
列を以下に記述する一組の規則に従って、より詳細な比較のために選択する。配
列同一性検索の目的は距離的に関連するオルトログおよびパラログを見つけるこ
とであるため、カットオフ基準はあまりストリンジェントでない方が好ましく、
そうでなければ検索の標的は排除されるかもしれない。3. Identification of Similar Sequences An early step in the process uses the master sequence (nucleotide or protein) to find and rank relevant sequences in databases (orthologs and paralogs). A sequence identity search algorithm is used for this purpose. All sequence identity algorithms calculate a quantitative measure of identity for each result, compared to the master sequence. An example of a quantitative result is Blast (Bl
ast) E-value obtained from the algorithm. Non-redundant GenBank database blast search using ferritin mRNA as a query sequence
The values illustrate the use of quantitative analysis of the sequence identity search. The E value is the probability that a match between the query sequence and the database sequence will occur for a random opportunity. Therefore, E
The lower the value, the more certain the exact association of the two sequences. A plot of the lowest E value score for ferritin is shown in FIG. Sequences meeting the cutoff criteria are selected for a more detailed comparison according to a set of rules described below. Since the purpose of a sequence identity search is to find orthologs and paralogs that are distantly related, the cutoff criteria should be less stringent,
Otherwise, search targets may be excluded.
【0066】 4. 保存的領域の同定 保存的領域の同定はCompareOverWinsと共にQ-Compareを使用して対合(pairwi
se)配列比較により行う。異なる種由来で関連する機能を持つ遺伝子間の構造的
な保存は、良い薬剤結合部位を見つけるために使用できる主要な指標である。保
存的構造は距離的に関連する配列を使用し、潜在的な構造の解析と併せて残りの
保存的配列をつなぎ合わせることで同定できる。配列比較は、まさに非常に分岐
した生物由来の配列保存の跡(trace)を同定できるQ-compareを使用して、異な
る種由来のmRNAの組の間で行われる。Q-compareはCompareOverWinsと共に、一つ
の配列を他の配列の端から端まで滑り込ませ、特定サイズのウィンドウ(window
)の中で適合する数を測定することで、各々の配列の全ての領域を比較する。4. Identification of Conserved Regions Identification of conserved regions was performed using Q-Compare with CompareOverWins.
se) Performed by sequence comparison. Structural conservation between genes with related functions from different species is a key indicator that can be used to find good drug binding sites. Conserved structures can be identified by using distantly related sequences and splicing the remaining conserved sequences together with analysis of the potential structure. Sequence comparisons are performed between sets of mRNAs from different species, using Q-compare, which can identify traces of sequence conservation from very divergent organisms. Q-compare, along with CompareOverWins, slides one array across the other array, creating a window of a specific size (window
)) To compare all regions of each sequence by measuring the number of matches.
【0067】 フェリチンに関するヒトmRNAとマウスmRNAはそれぞれ5'-UTRにおいてIREを含
んでおり、これらをこの様式で解析するとき、配列同一性の領域を示すプロット
が図19に示すように作成される。ヒトとマウスのフェリチンmRNA配列の対合解析
(pairwise analysis)は、この型の解析のいくつかの重要な観点を説明する。
アミノ酸配列をコードする各々のmRNAの領域は、同一性の程度が最も高く、一方
非翻訳領域はより低い同一性である。図19において、IREの位置を示す。ヒトと
マウスのフェリチンmRNAの両方において、IREは各々のmRNAの5'最末端に位置す
る。これは重要な点を説明する--IRE構造の領域における配列の保存は、ヒトと
マウスのフェリチン配列の間の配列同一性のバックグランドに対して顕著ではな
い。これに対して、ヒトとマス(図11)あるいはヒトとニワトリ(図12)のフェ
リチンmRNAの比較では、IREはすぐに同定できる。これはヒトとマスあるいはヒ
トとニワトリの間のUTRの配列が、ヒトとマウスよりもより大きな進化的な距離
であるために分離されているからであり、これは他の哺乳動物と比較して鳥類及
び魚類からヒトが離れた進化的距離を考えると理論的である。ヒトの配列と鳥類
および魚類の配列の比較により知識が与えられるが、それは進化による自然の流
れがUTRにおいて多くの配列を変化させているからである。しかし、IRE配列は重
要な構造を形作っているため、より抑制(constrained)されている。このよう
に、それらはよりよく突出しており、よりたやすく同定できる。Human and mouse mRNA for ferritin each contain an IRE in the 5′-UTR, and when these are analyzed in this manner, plots showing regions of sequence identity are generated as shown in FIG. . Pairwise analysis of human and mouse ferritin mRNA sequences illustrates some important aspects of this type of analysis.
The region of each mRNA that encodes the amino acid sequence has the highest degree of identity, while the untranslated region has lower identity. In FIG. 19, the position of the IRE is shown. In both human and mouse ferritin mRNAs, the IRE is located at the 5 'end of each mRNA. This explains the important point-the conservation of sequence in the region of the IRE structure is not significant against the background of sequence identity between human and mouse ferritin sequences. In contrast, IRE can be readily identified by comparison of human and trout (FIG. 11) or human and chicken (FIG. 12) ferritin mRNA. This is because the sequence of the UTR between human and trout or between human and chicken has been separated due to a greater evolutionary distance than human and mouse, which is relatively small compared to other mammals. It is theoretical considering the evolutionary distance of humans from birds and fish. A comparison of human and bird and fish sequences provides insight because the natural flow of evolution changes many sequences in the UTR. However, the IRE sequence is more constrained because it forms an important structure. Thus, they are better protruding and can be more easily identified.
【0068】 同じ原則がマスとニワトリのフェリチン配列を互いに比較する場合に当てはま
る。両方とも進化の1億年程度ヒトと離れているが、それらも互いに十分に離れ
ている。これは本発明で使用するもう一つの重要な方策を説明する--二つの非ヒ
トRNA配列の比較を使用して、実際のヒトの配列を用いずに制御RNA構造を発見で
きる。非ヒト比較の研究は実際に当業者に、潜在的な薬剤標的としてのヒトでの
対照部位を発見するために調べるべき場所を指図する。The same principle applies when comparing trout and chicken ferritin sequences to each other. Both are separated from humans by about 100 million years of evolution, but they are well separated from each other. This illustrates another important strategy for use in the present invention--a comparison of two non-human RNA sequences can be used to discover regulatory RNA structures without the actual human sequence. Non-human comparison studies actually dictate those skilled in the art where to look to find control sites in humans as potential drug targets.
【0069】 進化的距離を使用してどの配列を比較せず、ならびにどの配列を比較するかを
決定できる。ヒトとマウスに対して、マスとサケの比較は、それらの種があまり
に近縁であり、UTRバックグランド上でIREが目立たないためより情報が少ない。
ヒトとキイロショウジョウバエのフェリチンmRNA配列の比較は、IREが存在して
いるにもかかわらず、どちらかの種でIREを見つけることができない。これは、
ヒトとキイロショウジョウバエの間のIREの配列は、構造が保存されているにも
かかわらず分岐しているからである。しかし、キイロショウジョウバエとカのフ
ェリチンmRNAを比較すると、IREは同定され、ヒトにおける薬剤発見に関連する
制御要素を同定するためにはヒト配列は必要ではないことを再び説明する。Evolutionary distances can be used to determine which sequences are not to be compared, as well as which sequences are to be compared. For humans and mice, comparisons between trout and salmon are less informative because their species are too closely related and the IRE is less prominent on the UTR background.
Comparison of human and Drosophila ferritin mRNA sequences does not find IRE in either species, despite the presence of IRE. this is,
This is because the sequence of IRE between human and Drosophila diverges despite the conservation of structure. However, a comparison of Drosophila and mosquito ferritin mRNAs identified the IRE and again explains that human sequences are not required to identify regulatory elements associated with drug discovery in humans.
【0070】 本発明において使用するソフトウェアは、種間の進化的距離に基づくルックア
ップ表を使用することで、配列対合を比較するかしないかを決定する。上述した
実施例を使用する小さなルックアップ表の例は図13に示す。本発明におけるルッ
クアップ表はGenBankに寄託される配列を持つ全ての種を含む。CompareOverWins
と共にQ-Compareはどの配列を対合比較するかを決定する。The software used in the present invention uses a look-up table based on the evolutionary distance between species to determine whether to compare sequence pairs or not. An example of a small look-up table using the embodiment described above is shown in FIG. The look-up table in the present invention includes all species having sequences deposited in GenBank. CompareOverWins
Together with Q-Compare, it determines which sequences are paired.
【0071】 5. 二次構造の同定 オルトログおよびパラログあるいは他の関連遺伝子において保存の証拠を示す
配列の組を、内部構造の形成能のために解析する。これは、例えば自己相補解析
などにおけるように、配列をX軸上にて5'から3'へプロットし、その逆相補(rev
erse complement)をY軸上にて5'から3'へプロットするマトリクスにおいて、各
々の配列を解析することで達成する。潜在的な分子内塩基対に一致する適合は、
表の値に従ってスコア化される。ヒトのフェリチンIRE配列をこの様式で解析す
るとき、対角線は潜在的な自己相補領域を示す。本実施例に記述するそれぞれの
13の IRE配列は同様な様式で解析された。各々の配列は様々な異なる構造を形作
ることができる一方で、最も起こりやすい構造は全ての配列に共通なものである
。全ての13の独立した配列のプロットの重ね合わせにより(図8参照)、全ての
配列に共通な潜在的な構造が導かれる。5. Identification of Secondary Structures Sets of sequences that show evidence of conservation in orthologs and paralogs or other related genes are analyzed for their ability to form internal structures. This involves plotting the sequence on the X-axis from 5 'to 3' and its reverse complement (rev) as in, for example, self-complementary analysis.
This is achieved by analyzing each sequence in a matrix that plots the complement on the Y-axis from 5 'to 3'. Matches that match potential intramolecular base pairs are:
Scored according to the values in the table. When the human ferritin IRE sequence is analyzed in this manner, the diagonal indicates a potential self-complementary region. Each of the embodiments described in this embodiment
Thirteen IRE sequences were analyzed in a similar manner. While each sequence can form a variety of different structures, the most likely structures are common to all sequences. Superposition of plots of all 13 independent sequences (see FIG. 8) leads to a potential structure common to all sequences.
【0072】 実施例2:鉄反応性要素(方法B) 2. RNA標的のヌクレオチド配列の決定 フェリチンに関するヒトmRNA配列を目的の配列あるいはマスター配列の初期mR
NAとして使用する。フェリチンタンパク質配列も解析において、特に関連する配
列を見つけるために使用する初期工程において使用する。ヒトフェリチン遺伝子
の場合、最良の入力はUNIGENEから入手する完全長の注釈付きmRNA(gi507251)
およびタンパク質配列である。しかし、目的の多くの遺伝子にとって同レベルの
詳細な情報は入手できない。これらの場合、マスター配列情報の代わりの供給源
を、例えばHovergenおよびGenBankなどから得る。本方法はあらゆるレベルの入
力配列情報を使用して働くが、高品質の注釈付き入力配列を用いるより少ない工
程が必要である。Example 2: Iron-reactive element (method B) 2. Determination of the nucleotide sequence of the RNA target
Used as NA. Ferritin protein sequences are also used in analysis, particularly in the early steps used to find related sequences. For the human ferritin gene, the best input is the full length annotated mRNA from gigene (gi507251)
And the protein sequence. However, the same level of detailed information is not available for many genes of interest. In these cases, alternative sources of master sequence information are obtained, such as from Hovergen and GenBank. The method works using all levels of input sequence information, but requires fewer steps than using high quality annotated input sequences.
【0073】 3. 同様配列の同定 オルトログを発見するための代わりの、好ましいアプローチはDuretら(Nuc.
Acids Res., 1994, 22, 2360-2365)に記述されるHovergenデータベースおよび
質問ツールを使用することであり、それは全体として参考文献によりここで受け
入れられる。3. Identification of Similar Sequences An alternative and preferred approach to discovering orthologs is described in Duret et al. (Nuc.
Acids Res., 1994, 22, 2360-2365), using the Hovergen database and query tool, which is hereby incorporated by reference in its entirety.
【0074】 関連する配列を同定するためのHovergenの使用は図16(種レベルの系統樹分類
)および図17(目レベルの分類)に示す。これらのオルトログの各々に相当する
配列をGenBankフォーマットで保存し、単一データファイル内で一緒にグループ
化した。コード領域の5'および3'側面の両方における非翻訳領域を図18に示すよ
うに、SEALSおよびCOWXを使用して抽出した。The use of Hovergen to identify related sequences is shown in FIG. 16 (species-level phylogenetic tree classification) and FIG. 17 (eye-level classification). Sequences corresponding to each of these orthologs were saved in GenBank format and grouped together in a single data file. Untranslated regions on both the 5 'and 3' sides of the coding region were extracted using SEALS and COWX, as shown in FIG.
【0075】 4. 保存的領域の同定 IRE配列は重要な構造を形作っているため、より抑制されている。このように
、それらはより顕著であり、密接に関連する配列においてでさえより容易に同定
できる。しかし、これをあらゆる遺伝子のために働かせるために、比較アルゴリ
ズムを書き直す(図5A-C参照)。この新たなツール、CompareOverWinsはウィン
ドウのサイズの範囲、そのうえヒット閾値の両方の動的な選択を可能にする。こ
のアルゴリズムは入力として解析されおよび分離された5'および3' UTR配列が必
要である。我々は先に記述したSealsゲノム解析パッケージに有用なツールを使
用してこれを達成する。図18は含まれる工程を記述する。4. Identification of Conserved Regions The IRE sequence forms a key structure and is therefore more repressed. Thus, they are more prominent and can be more easily identified even in closely related sequences. However, to make this work for any gene, rewrite the comparison algorithm (see FIGS. 5A-C). This new tool, CompareOverWins, allows dynamic selection of both window size ranges and hit thresholds. This algorithm requires 5 'and 3' UTR sequences parsed and separated as input. We accomplish this using tools available in the Seals Genome Analysis Package described earlier. FIG. 18 describes the steps involved.
【0076】 ここに記述する方法を使用して鉄反応性要素を同定するために、Compare Over
Winowsアルゴリズムを使用し、その結果をAlignHitsを使用して視覚化した(ア
ルゴリズムについては図5D)。代表的な結果は図23に示す。閾値の至適化に加え
て、CompareOverWinsはヒットに相当する配列も抽出する。ClustalW(バージョ
ン1.74)を抽出した配列に使用して、位置的なギャップ化並置を作成した(図24
参照)。このアプローチの代表的なフロースキームは図25に示す。To identify iron-reactive elements using the methods described herein, the Compare Over
The Winows algorithm was used and the results were visualized using AlignHits (for the algorithm, FIG. 5D). Representative results are shown in FIG. In addition to the threshold optimization, CompareOverWins also extracts sequences corresponding to hits. ClustalW (version 1.74) was used on the extracted sequences to create positional gapped juxtapositions (Figure 24).
reference). A representative flow scheme for this approach is shown in FIG.
【0077】 5. 二次構造の同定 オルトログおよびパラログあるいは他の関連遺伝子において保存の証拠を示す
配列の組を、内部構造の形成能について解析する。これは、例えば自己相補解析
などにおけるように、配列をX軸上にて5'から3'へプロットし、その相補物をY軸
上にて5'から3'へプロットするマトリクスにおいて、各々の配列を解析すること
で達成する。潜在的な分子内塩基対に対応する適合は、表の値に従ってスコア化
される。ヒトのフェリチンIRE配列をこの様式で解析するとき、対角線は潜在的
な自己相補領域を示す。本実施例に記述するそれぞれの13のIRE配列は同様な様
式で解析された。各々の配列は様々な異なる構造を形作ることができる一方で、
最も起こりやすい構造は全ての配列に共通なものである。全ての13の独立した配
列のプロットの重ね合わせにより(図26参照)、全ての配列に共通な潜在的な構
造が導かれる。5. Identification of Secondary Structures Sets of sequences that show evidence of conservation in orthologs and paralogs or other related genes are analyzed for their ability to form internal structures. This means that for each matrix in which the sequence is plotted 5 'to 3' on the X-axis and its complement is plotted 5 'to 3' on the Y-axis, as in, for example, a self-complementary analysis, etc. Achieved by analyzing the sequence. Matches corresponding to potential intramolecular base pairs are scored according to the values in the table. When the human ferritin IRE sequence is analyzed in this manner, the diagonal indicates a potential self-complementary region. Each of the 13 IRE sequences described in this example were analyzed in a similar manner. While each array can form a variety of different structures,
The most likely structures are common to all sequences. Superposition of plots of all 13 independent sequences (see FIG. 26) leads to a potential structure common to all sequences.
【0078】 上記スキームはRevComp(図14参照)と呼ばれるプログラム中でアルゴリズム
的(algorithmically)に実行される。RevCompは全ての構造のソートしたリスト
を作成する。代表的な結果は、“ドーム”出力(図27参照)あるいは多くのRNA
構造考察プログラム(RNA structure viewing programs)(RNAStructure、RNAV
izなど)の一つにおいて使用できる“connect”あるいは“ct”ファイルとして
のいずれかで見ることができる。そのような構造図の代表的な例は図28に示す。The above scheme is algorithmically executed in a program called RevComp (see FIG. 14). RevComp creates a sorted list of all structures. Typical results are “dome” outputs (see Figure 27) or many RNAs.
RNA structure viewing programs (RNAStructure, RNAV
iz) can be found either as a "connect" or "ct" file that can be used in one of them. A typical example of such a structure diagram is shown in FIG.
【0079】 実施例3:ヒストン ヒストン3' UTRは広範囲に研究されているもう一つの典型的なステム-ループ
構造を表す(EMBO, 1997, 16, 769)。後-転写レベル(post-transcriptional l
evel)では、ヒストンmRNAの3'非翻訳領域におけるステム-ループ構造は非常に
重要であることが示されている(Son, Saenghwahak Nyusu, 1993, 13, 64-70)
。以下に示す解析はこの既知の構造の使用を記述して、ここに記述される戦略お
よび方法を確認する。Example 3: Histone The histone 3'UTR represents another typical stem-loop structure that has been extensively studied (EMBO, 1997, 16, 769). Post-transcriptional l
evel) show that the stem-loop structure in the 3 'untranslated region of histone mRNA is very important (Son, Saenghwahak Nyusu, 1993, 13, 64-70).
. The analysis described below describes the use of this known structure and confirms the strategies and methods described herein.
【0080】 図29および30はHovergenデータベースの全てのヒストンオルトログに関する系
統樹の出力を表す。各々のこれらのオルトログをGenBankフォーマットで保存し
、単一データファイル内で一緒にグループ化した。コード領域の5'および3'側面
の両方における非翻訳領域を先に記述したように、SEALSおよびCOWXを使用して
抽出および比較した(図18および25参照)。FIGS. 29 and 30 show the output of the phylogenetic tree for all histone orthologs in the Hovergen database. Each of these orthologs was saved in GenBank format and grouped together in a single data file. Untranslated regions on both the 5 'and 3' sides of the coding region were extracted and compared using SEALS and COWX as described previously (see Figures 18 and 25).
【0081】 SEALSおよびCOWXによる抽出および比較に続いて、AlignHitsを使用して潜在的
な目的領域を決定した(図31参照)。一つのそのような領域を囲んで示す。目的
の領域に対応する配列をCLUSTAL W(1.74)を用いた並置のために全ての種から
抽出した。AlignHitsからの配列情報の抽出に続いて、CLUSTAL W(1.74)を使用
して、示される多重配列並置を提供した(図32参照)。各々の推定ヒット配列を
内部構造の形成能のために解析した。これは、配列をX軸上にて5'から3'へプロ
ットし、その相補をY軸上にて5'から3'へプロットするマトリクスにおいて、各
々の配列を解析することで達成した。対角線に沿った塩基対は、二次構造を形成
することができる潜在的な自己相補領域を示す。図33は代表的な逆相補マトリク
スを示す。図34は、塩基対の間の潜在的なステム構造を示すドームフォーマット
における代表的な配列を示す。ctファイルへのドームフォーマットファイルの変
換に続き、RNA Structure 3.21を使用して構造を明視化する(図35参照)。Following extraction and comparison with SEALS and COWX, potential regions of interest were determined using AlignHits (see FIG. 31). One such area is shown enclosed. Sequences corresponding to the region of interest were extracted from all species for alignment using CLUSTAL W (1.74). Following extraction of sequence information from AlignHits, CLUSTAL W (1.74) was used to provide the indicated multiple sequence alignments (see Figure 32). Each putative hit sequence was analyzed for its ability to form internal structures. This was accomplished by analyzing each sequence in a matrix that plots the sequence from 5 'to 3' on the X axis and its complement from 5 'to 3' on the Y axis. Base pairs along the diagonal indicate potential self-complementary regions that can form secondary structures. FIG. 33 shows a representative inverse complement matrix. FIG. 34 shows a representative sequence in a dome format showing potential stem structures between base pairs. Following the conversion of the dome format file to a ct file, the structure is visualized using RNA Structure 3.21 (see Figure 35).
【0082】 実施例4:ビメンチン ビメンチンは中間フィラメントタンパク質であり、その3' UTRは種間で高く保
存されている。Zehnerら(Nuc. Acids Res., 1997, 25, 3362-3370)による以前
の研究により、この領域内に含まれる提案された複合ステム-ループ構造はmRNA
配置のようなビメンチンmRNA機能にとって重要でありうることが示されている。
同領域は本解析を使用して同定され、これにより本アプローチを確認した。加え
て、ここに記述する解析に基づいて、ビメンチン機能の制御の役割も持ちうる以
前に提案された構造の下流に起こる第二のステム-ループ構造が同定されている
(図36参照)。Example 4 Vimentin Vimentin is an intermediate filament protein whose 3 ′ UTR is highly conserved among species. Previous work by Zehner et al. (Nuc. Acids Res., 1997, 25, 3362-3370) indicated that the proposed complex stem-loop structure contained within this region was mRNA
It has been shown that placement can be important for vimentin mRNA function.
This region was identified using this analysis, confirming the approach. In addition, based on the analysis described herein, a second stem-loop structure has been identified that occurs downstream of a previously proposed structure that may also have a role in regulating vimentin function (see FIG. 36).
【0083】 Hovergenデータベースの全てのビメンチンオルトログに関する代表的な系統樹
の出力を図37に示す。各々のこれらのオルトログをGenBankフォーマットで保存
し、単一データファイル内で一緒にグループ化した。コード領域の5'および3'側
面の両方における非翻訳領域を先に記述したように、SEALSおよびCOWXを使用し
て抽出および比較した(図18および25参照)。A representative phylogenetic tree output for all vimentin orthologs in the Hovergen database is shown in FIG. Each of these orthologs was saved in GenBank format and grouped together in a single data file. Untranslated regions on both the 5 'and 3' sides of the coding region were extracted and compared using SEALS and COWX as described previously (see Figures 18 and 25).
【0084】 SEALSおよびCOWXによる抽出および比較に続いて、Align Hitsを使用して潜在
的な目的領域を決定した。二つのそのような領域が現れ、それらを続く解析のた
めに使用した(図38参照)。領域1に関する Align Hitsからの配列情報の抽出に
続いて、CLUSTAL Wを使用して、示される多重配列アライメントを提供した(図3
9参照)。ドームフォーマットにおける配列アライメント上に与えられる塩基対
間の潜在的ステム構造は図40に示す。 ctファイルへのドームフォーマットファ
イルの変換に続き、RNA Structure 3.21を使用して構造を明視化した(図41参照
)。この構造はZehnerらによって提案されたものと非常に似ている(図42参照)
。Zehnerらは、ビメンチンの3' UTRにおける最小の結合ドメインのために提案し
た構造の詳細な化学的解析を提示した。この解析は一本鎖特異的(ChSあるいはT
1)あるいは二本鎖特異的(V1)ヌクレアーゼを用いた開裂、ならびに暴露後の
酢酸塩誘導を含んでいた。Following extraction and comparison with SEALS and COWX, potential regions of interest were determined using Align Hits. Two such regions appeared and were used for subsequent analysis (see FIG. 38). Following extraction of sequence information from Align Hits for Region 1, CLUSTAL W was used to provide the indicated multiple sequence alignment (Figure 3).
9). The potential stem structure between base pairs given on the sequence alignment in the dome format is shown in FIG. Following the conversion of the dome format file to a ct file, the structure was visualized using RNA Structure 3.21 (see Figure 41). This structure is very similar to that proposed by Zehner et al. (See Figure 42).
. Zehner et al. Presented a detailed chemical analysis of the proposed structure for the smallest binding domain in the 3 'UTR of vimentin. This analysis is single-strand specific (ChS or T
This included cleavage with 1) or duplex-specific (V1) nucleases, as well as acetate induction after exposure.
【0085】 領域2に関する Align Hitsからの配列情報の抽出に続いて、CLUSTAL Wを使用
して、図43に示される多重配列アライメントを提供した。領域2における塩基対
間の潜在的ステム構造は、ドームフォーマットにおける配列アライメント上に与
えられる(図44参照)。 ctファイルへのドームフォーマットファイルの変換に
続き、RNA Structure 3.21を使用して領域2に関する構造を明視化した(図36参
照)。Following extraction of sequence information from Align Hits for region 2, CLUSTAL W was used to provide the multiple sequence alignment shown in FIG. The potential stem structure between base pairs in region 2 is given on the sequence alignment in dome format (see FIG. 44). Following the conversion of the dome format file to a ct file, the structure for region 2 was visualized using RNA Structure 3.21 (see Figure 36).
【0086】 実施例5:トランスフェリンレセプター フェリチンの制御(実施例1および2)と同様に、IREの機能が知られている
もう一つはトランスフェリンレセプターの制御内にある。5つのIREが既知の転移
レセプターmRNAの3' UTRにおいて同定されており(Kuhnら、EMBO J., 1987, 6,
1287-93およびCaseyら、Science, 1988, 240,924-928)、各々は全体として参考
文献によりここで受け入れられる。すべての5つのIREは鉄制御タンパク質(IRP
)と独立的に相互作用することが示されている。本技術をトランスフェリンレセ
プターにおけるこれらの保存的要素の同定に応用した。Example 5 Transferrin Receptor As with the control of ferritin (Examples 1 and 2), another known function of IRE is in the control of transferrin receptor. Five IREs have been identified in the 3 'UTR of a known transfer receptor mRNA (Kuhn et al., EMBO J., 1987, 6,
1287-93 and Casey et al., Science, 1988, 240,924-928), each of which is hereby incorporated by reference in its entirety. All five IREs are iron regulatory proteins (IRP
) Have been shown to interact independently. This technique was applied to the identification of these conserved elements in the transferrin receptor.
【0087】 Hovergenデータベースの全てのトランスフェリンレセプターオルトログに関す
る代表的な系統樹の出力を図45に示す。各々のこれらのオルトログをGenBankフ
ォーマットで保存し、単一データファイル内で一緒にグループ化した。コード領
域の5'および3'側面の両方における非翻訳領域を先に記述したように、SEALSお
よびCOWXを使用して抽出および比較した(図18および25参照)。The output of a representative phylogenetic tree for all transferrin receptor orthologs in the Hovergen database is shown in FIG. Each of these orthologs was saved in GenBank format and grouped together in a single data file. Untranslated regions on both the 5 'and 3' sides of the coding region were extracted and compared using SEALS and COWX as described previously (see Figures 18 and 25).
【0088】 SEALSおよびCOWXによる抽出および比較に続いて、Align Hitsを使用して図46
に示すように潜在的な目的領域を決定した。これにより、垂直な線が一組の種か
らの配列情報を表す一連の水平な線を横切るところを見ることができる。トラン
スフェリンレセプターの3プライム(prime)UTRにおける920から990までの塩基
対の間のこの領域を、CLUSTAL W(1.74)を用いたアライメントのために全ての
種から抽出した。Following extraction and comparison with SEALS and COWX, FIG.
Potential target areas were determined as shown in This allows one to see where the vertical lines cross a series of horizontal lines representing sequence information from a set of species. This region between 920 and 990 base pairs in the 3-prime UTR of the transferrin receptor was extracted from all species for alignment using CLUSTAL W (1.74).
【0089】 領域1に関する Align Hitsからの配列情報の抽出に続いて、CLUSTAL W(1.74
)を使用して、図47に示される多重配列アライメントを提供した。塩基対間の代
表的な潜在的ステム構造は、図48に示すようにドームフォーマットにおける配列
アライメント上に与えられる。ctファイルへのドームフォーマットファイルの変
換に続き、RNA Structure 3.21を使用して構造を明視化した(図49参照)。これ
により、垂直な線が一組の種からの配列情報を表す一連の水平な線を横切るとこ
ろを見ることができる。トランスフェリンレセプターの3プライムUTRにおける99
0から1050までの塩基対の間のこの領域を、CLUSTAL W(1.74)を用いたアライメ
ントのために全ての種から抽出した(図50参照)。Following extraction of sequence information from Align Hits for region 1, CLUSTAL W (1.74
) Was used to provide the multiple sequence alignment shown in FIG. Representative potential stem structures between base pairs are given on the sequence alignment in dome format as shown in FIG. Following the conversion of the dome format file to a ct file, the structure was visualized using RNA Structure 3.21 (see Figure 49). This allows one to see where the vertical lines cross a series of horizontal lines representing sequence information from a set of species. 99 in the 3-prime UTR of the transferrin receptor
This region between 0 and 1050 base pairs was extracted from all species for alignment using CLUSTAL W (1.74) (see FIG. 50).
【0090】 領域2に関する Align Hitsからの配列情報の抽出に続いて、CLUSTAL W(1.74
)を使用して、図51に示される多重配列アライメントを提供した。塩基対間の潜
在的ステム構造は、図52に示すようにドームフォーマットにおける配列アライメ
ント上に与えられる。ctファイルへのドームフォーマットファイルの変換に続き
、RNA Structure 3.21を使用して図53に示すように構造を明視化した。SEALSお
よびCOWXによる抽出および比較に続いて、Align Hitsを使用して潜在的な目的領
域を決定した。これにより、垂直な線が一組の種からの配列情報を表す一連の水
平な線を横切るところを見ることができる。トランスフェリンレセプターの3プ
ライムUTRにおける1372から1423までの塩基対の間のこの領域を、CLUSTAL W(1.
74)を用いたアライメントのために全ての種から抽出した(図54参照)。Following extraction of sequence information from Align Hits for Region 2, CLUSTAL W (1.74
) Was used to provide the multiple sequence alignment shown in FIG. Potential stem structures between base pairs are given on the sequence alignment in dome format as shown in FIG. Following conversion of the dome format file to a ct file, the structure was visualized using RNA Structure 3.21 as shown in FIG. Following extraction and comparison by SEALS and COWX, Align Hits were used to determine potential regions of interest. This allows one to see where the vertical lines cross a series of horizontal lines representing sequence information from a set of species. This region between 1372 and 1423 base pairs in the 3-prime UTR of the transferrin receptor is designated CLUSTAL W (1.
Extracted from all species for alignment using (74) (see FIG. 54).
【0091】 領域3に関する Align Hitsからの配列情報の抽出に続いて、CLUSTAL W(1.Ex.
34)を使用して、図55に示される多重配列アライメントを提供した。塩基対間の
潜在的ステム構造は、図56に示すようにドームフォーマットにおける配列アライ
メント上に与えられる。ctファイルへのドームフォーマットファイルの変換に続
き、RNA Structure 3.21を使用して図57に示すように構造を明視化した。SEALS
およびCOWXによる抽出および比較に続いて、Align Hitsを使用して潜在的な目的
領域を決定した。これにより、垂直な線が一組の種からの配列情報を表す一連の
水平な線を横切るところを見ることができる。トランスフェリンレセプターの3
プライムUTRにおける1439から1479までの塩基対の間のこの領域を、CLUSTAL W(
1.74)を用いたアライメントのために全ての種から抽出した(図58参照)。Following extraction of sequence information from Align Hits for region 3, CLUSTAL W (1.Ex.
34) was used to provide the multiple sequence alignment shown in FIG. Potential stem structures between base pairs are given on the sequence alignment in dome format as shown in FIG. Following the conversion of the dome format file to a ct file, the structure was visualized using RNA Structure 3.21 as shown in FIG. SEALS
Align Hits were used to determine potential regions of interest following extraction and comparison with COWX. This allows one to see where the vertical lines cross a series of horizontal lines representing sequence information from a set of species. Transferrin receptor 3
This region between 1439 and 1479 base pairs in the prime UTR is designated CLUSTAL W (
1.74) was extracted from all species for alignment using (see FIG. 58).
【0092】 領域4に関する Align Hitsからの配列情報の抽出に続いて、CLUSTAL W(1.Ex.
34)を使用して、図59に示される多重配列アライメントを提供した。塩基対間の
潜在的ステム構造は、図60に示すようにドームフォーマットにおける配列アライ
メント上に与えられる。ctファイルへのドームフォーマットファイルの変換に続
き、RNA Structure 3.21を使用して図61に示すように構造を明視化した。SEALS
およびCOWXによる抽出および比較に続いて、Align Hitsを使用して潜在的な目的
領域を決定した。これにより、垂直な線が一組の種からの配列情報を表す一連の
水平な線を横切るところを見ることができる。トランスフェリンレセプターの3
プライムUTRにおける1479から1542までの塩基対の間のこの領域を、CLUSTAL W(
1.74)を用いたアライメントのために全ての種から抽出した(図62参照)。Following extraction of sequence information from Align Hits for region 4, CLUSTAL W (1.Ex.
34) was used to provide the multiple sequence alignment shown in FIG. The potential stem structure between base pairs is given on the sequence alignment in dome format as shown in FIG. Following the conversion of the dome format file to a ct file, the structure was visualized using RNA Structure 3.21 as shown in FIG. SEALS
Align Hits were used to determine potential regions of interest following extraction and comparison with COWX. This allows one to see where the vertical lines cross a series of horizontal lines representing sequence information from a set of species. Transferrin receptor 3
This region between 1479 and 1542 base pairs in the prime UTR is designated CLUSTAL W (
1.74) were extracted from all species for alignment using (see FIG. 62).
【0093】 領域5に関する Align Hitsからの配列情報の抽出に続いて、CLUSTAL W(1.Ex.
34)を使用して、図63に示される多重配列アライメントを提供した。塩基対間の
潜在的ステム構造は、図64に示すようにドームフォーマットにおける配列アライ
メント上に与えられる。ctファイルへのドームフォーマットファイルの変換に続
き、RNA Structure 3.21を使用して図65に示すように構造を明視化した。Following extraction of sequence information from Align Hits for region 5, CLUSTAL W (1.Ex.
34) was used to provide the multiple sequence alignment shown in FIG. Potential stem structures between base pairs are given on the sequence alignment in dome format as shown in FIG. Following the conversion of the dome format file to a ct file, the structure was visualized using RNA Structure 3.21 as shown in FIG.
【0094】 実施例6:オルニチンデカルボキシラーゼ オルニチンデカルボキシラーゼ(ODC)はポリアミン生合成経路における最初
の酵素である。研究により、5'および3'非翻訳領域の両方において翻訳的な制御
要素(translational regulatory elements)の存在が示されている(Grensら、
J. Biol. Chem., 1990, 265, 11810)。二次構造がこれらの両領域に存在するこ
とが提案されているが、しかしその決定的な証拠はない。ここに記述する方法に
より、以下に示すように3' UTRにおける二つの構造が同定された。これらの構造
の存在(図66参照)は、質量分光測定法調査(probing)を使用して証明された
(Griffeyら、Proc. SPIE-Int. Soc. Opt. Eng., 2985(超高感度生化学診断II
(Ultrasensitive Biochemical Diagnostics II)): 82-86、それは全体として
参考文献によりここで受け入れられる)。長さにおいてわずかな変化を示す二つ
の代表的な配列(図67参照)はRNA内でつくられ、MS構造調査にかけられた。図6
6に示す結果によりステム-ループ構造の存在が確認される。それゆえ、新規二次
構造の同定はここに記述する方法から同定でき、またそのような存在は構造調査
により独立して証明されている。Example 6 Ornithine Decarboxylase Ornithine decarboxylase (ODC) is the first enzyme in the polyamine biosynthetic pathway. Studies have shown the presence of translational regulatory elements in both the 5 'and 3' untranslated regions (Grens et al.,
J. Biol. Chem., 1990, 265, 11810). It has been proposed that secondary structure exists in both of these regions, but there is no definitive evidence for it. The method described here identified two structures in the 3 'UTR as shown below. The presence of these structures (see FIG. 66) was verified using mass spectrometry probing (Griffey et al., Proc. SPIE-Int. Soc. Opt. Eng., 2985 (Ultrasensitive production). Chemical diagnosis II
(Ultrasensitive Biochemical Diagnostics II)): 82-86, which is hereby incorporated by reference in its entirety). Two representative sequences showing slight changes in length (see FIG. 67) were made in the RNA and subjected to MS structural investigation. Figure 6
The results shown in 6 confirm the presence of the stem-loop structure. Therefore, the identification of new secondary structures can be identified from the methods described herein, and such presence has been independently verified by structural investigations.
【0095】 Hovergenデータベースの全てのオルニチンデカルボキシラーゼオルトログに関
する系統樹の出力を図68および図69に示す。各々のこれらのオルトログをGenBan
kフォーマットで保存し、単一データファイル内で一緒にグループ化した。コー
ド領域の5'および3'側面の両方における非翻訳領域を先に記述したように、SEAL
SおよびCOWXを使用して抽出および比較した(図18および25参照)。The output of the phylogenetic tree for all ornithine decarboxylase orthologs in the Hovergen database is shown in FIGS. 68 and 69. GenBan each of these orthologs
Saved in k format and grouped together in a single data file. As described previously for untranslated regions on both the 5 'and 3' sides of the coding region, SEAL
Extracted and compared using S and COWX (see FIGS. 18 and 25).
【0096】 SEALSおよびCOWXによる抽出および比較に続いて、Align Hitsを使用して図70
に示すように潜在的な目的領域を決定した。二つのそのような領域が現れ、それ
らを続く解析のために使用した。領域1からの配列情報の抽出に続いて、CLUSTAL
W(1.74)を使用して、示される多重配列アライメントを提供した。各々の推定
的中配列を、図71に描かれる逆相補マトリクスに示されるような内部構造の形成
能のために解析した。これは、配列をX軸上にて5'から3'へプロットし、その相
補をY軸上にて5'から3'へプロットするマトリクスにおいて、各々の配列を解析
することで達成した。対角線に沿った塩基対は、二次構造を形成することができ
る潜在的な自己相補領域を示す。領域1における塩基対の間の潜在的なステム構
造のドーム状概要は、RevCompを使用して決定した配列アライメント上に与えら
れる(図72参照)。RNA Structure 3.21を使用して構造を明視化した(図73参照
)。Following extraction and comparison with SEALS and COWX, using Align Hits, FIG.
Potential target areas were determined as shown in Two such regions appeared and they were used for subsequent analysis. Following extraction of sequence information from region 1, CLUSTAL
W (1.74) was used to provide the indicated multiple sequence alignment. Each putative mid-sequence was analyzed for its ability to form internal structures as shown in the reverse complementation matrix depicted in FIG. This was accomplished by analyzing each sequence in a matrix that plots the sequence from 5 'to 3' on the X axis and its complement from 5 'to 3' on the Y axis. Base pairs along the diagonal indicate potential self-complementary regions that can form secondary structures. A dome-like overview of potential stem structures between base pairs in region 1 is given on the sequence alignment determined using RevComp (see FIG. 72). The structure was visualized using RNA Structure 3.21 (see Figure 73).
【0097】 質量分光測定解析技術を使用して構造の調査を行った。図67は多重アライメン
トにおけるギャップ/挿入の存在を示した。図67に示すアライメントからの二つ
の代表的なRNA(gi404561およびgi35135)を本実験に使用した。誘導された断片
化のパターン解析は、(図に挿入で示される)ステム-ループ構造の頭の半分(t
op half)に沿った塩基対に関する非常に強力な見込みを示した。これは404561
における塩基11-14および20-23、あるいは35135における塩基8-11および18-21に
相当する。湾曲部の塩基(404561におけるG9あるいは35135におけるU22)も特徴
的な断片化パターンを示した。構造の底の半分(bottom-half)はより安定が小
さいようであり、我々の解析で予想した塩基対でいくつかの断片化が見られた。
これは特に配列35135において真であった。しかし、この領域はより安定が小さ
い傾向のいくつかの隣接するA-UあるいはG-U塩基対を持ち、それゆえより高い断
片化の可能性を持つ。The structure was investigated using mass spectrometry analysis techniques. FIG. 67 showed the presence of gaps / insertions in the multiplex alignment. Two representative RNAs from the alignment shown in FIG. 67 (gi404561 and gi35135) were used in this experiment. Pattern analysis of the induced fragmentation revealed that the stem half of the stem-loop structure (indicated in the figure) (t
It showed very strong prospects for base pairs along op half). This is 404561
Correspond to bases 11-14 and 20-23 or 35135 at bases 8-11 and 18-21. The base at the bend (G9 at 404561 or U22 at 35135) also showed a characteristic fragmentation pattern. The bottom-half of the structure appeared to be less stable, with some fragmentation at the base pairs predicted by our analysis.
This was especially true for sequence 35135. However, this region has several adjacent AU or GU base pairs that tend to be less stable and therefore have a higher fragmentation potential.
【0098】 領域2に関する Align Hitsからの配列情報の抽出に続いて、CLUSTAL Wを使用
して、図74に示されるように多重配列アライメントを提供した。領域2における
塩基対間の潜在的ステム構造は、図75に示すようにドームフォーマットにおける
配列アライメント上に与えられる。ctファイルへのドームフォーマットファイル
の変換に続き、RNA Structure 3.21を使用して図76に示すように領域2に関する
構造を明視化した。Following extraction of sequence information from Align Hits for region 2, CLUSTAL W was used to provide a multiple sequence alignment as shown in FIG. The potential stem structure between base pairs in region 2 is given on the sequence alignment in the dome format as shown in FIG. Following the conversion of the dome format file to a ct file, RNA Structure 3.21 was used to visualize the structure for region 2 as shown in FIG.
【0099】 実施例7:インターロイキン-2(IL-2) Hovergenデータベースの全てのIL-2 オルトログに関する代表的な系統樹の出
力を図77に示す。各々のこれらのオルトログをGenBankフォーマットで保存し、
単一データファイル内で一緒にグループ化した。コード領域の5'および3'側面の
両方における非翻訳領域を先に記述したように、SEALSおよびCOWXを使用して抽
出および比較した(図18および25参照)。Example 7: Interleukin-2 (IL-2) A representative phylogenetic tree output for all IL-2 orthologs in the Hovergen database is shown in FIG. Save each of these orthologs in GenBank format,
Grouped together in a single data file. Untranslated regions on both the 5 'and 3' sides of the coding region were extracted and compared using SEALS and COWX as described previously (see Figures 18 and 25).
【0100】 SEALSおよびCOWXによる抽出および比較に続いて、Align Hitsを使用して3' UT
R領域における潜在的な目的領域を決定した。二つのそのような領域が現れ、そ
れらを続く解析のために使用した(図78参照)。領域1のためのAlign Hitsから
の配列情報の抽出に続いて、CLUSTAL W(1.74)を使用して、図79に示される多
重配列アライメントを提供した。領域1における塩基対の間の潜在的なステム構
造のドーム状概要は、RevCompを使用して決定した配列アライメント上に与えら
れる(図80参照)。RNA Structure 3.2を使用して図81に描かれるように構造を
明視化した(図73参照)。領域2に関する Align Hitsからの配列情報の抽出に続
いて、CLUSTAL W(1.74)を使用して、図82に示される多重配列アライメントを
提供した。領域2における塩基対間の潜在的ステム構造は、図83に示すようにド
ームフォーマットにおける配列アライメント上に与えられる。ctファイルへのド
ームフォーマットファイルの変換に続き、RNA Structure 3.21を使用して図84に
示すように領域2に関する構造を明視化した。Following extraction and comparison with SEALS and COWX, 3 ′ UT using Align Hits
The potential target area in R area was determined. Two such regions appeared and they were used for subsequent analysis (see Figure 78). Following extraction of sequence information from Align Hits for region 1, CLUSTAL W (1.74) was used to provide the multiple sequence alignment shown in FIG. A dome outline of potential stem structures between base pairs in region 1 is given on the sequence alignment determined using RevComp (see FIG. 80). The structure was visualized using RNA Structure 3.2 as depicted in FIG. 81 (see FIG. 73). Following extraction of sequence information from Align Hits for region 2, CLUSTAL W (1.74) was used to provide the multiple sequence alignment shown in FIG. The potential stem structure between base pairs in region 2 is given on the sequence alignment in dome format as shown in FIG. Following the conversion of the dome format file to a ct file, RNA Structure 3.21 was used to visualize the structure for region 2 as shown in FIG.
【0101】 上述の二つの領域に加え、領域2の下流で部分的にオーバーラップしている第
3の領域を、代わりの参照配列(3087784.fa)を使用して同定し、図85に示す。
この領域に関する Align Hitsからの配列情報の抽出に続いて、CLUSTAL W(1.74
)を使用して、図86に示される多重配列アライメントを提供した。領域3におけ
る塩基対間の潜在的ステム構造は、ドームフォーマットにおける配列アライメン
ト上で図87に示す。ctファイルへのドームフォーマットファイルの変換に続き、
RNA Structure 3.21を使用して領域3に関する構造を明視化した(図88参照)。In addition to the two regions described above, a third region that partially overlaps downstream of region 2 was identified using an alternative reference sequence (3087784.fa) and is shown in FIG. .
Following extraction of sequence information from Align Hits for this region, CLUSTAL W (1.74
) Was used to provide the multiple sequence alignment shown in FIG. The potential stem structure between base pairs in region 3 is shown in FIG. 87 on a sequence alignment in the dome format. Following the conversion of the dome format file to a ct file,
The structure for region 3 was clarified using RNA Structure 3.21 (see FIG. 88).
【0102】 実施例8:インターロイキン-4(IL-4) Hovergenデータベースの全てのIL-4 オルトログに関する代表的な系統樹の出
力を図89に示す。各々のこれらのオルトログをGenBankフォーマットで保存し、
単一データファイル内で一緒にグループ化した。コード領域の5'および3'側面の
両方における非翻訳領域を先に記述したように、SEALSおよびCOWXを使用して抽
出および比較した(図18および25参照)。Example 8: Interleukin-4 (IL-4) A representative phylogenetic tree output for all IL-4 orthologs in the Hovergen database is shown in FIG. Save each of these orthologs in GenBank format,
Grouped together in a single data file. Untranslated regions on both the 5 'and 3' sides of the coding region were extracted and compared using SEALS and COWX as described previously (see Figures 18 and 25).
【0103】 SEALSおよびCOWXによる抽出および比較に続いて、Align Hitsを使用して図90
に示されるように5' UTR領域における潜在的な目的領域を決定した。上記領域の
ためのAlign Hitsからの配列情報の抽出に続いて、CLUSTAL W(1.74)を使用し
て、図91に示される多重配列アライメントを提供した。領域における塩基対の間
の潜在的なステム構造のドーム状概要は、RevCompを使用して決定した配列アラ
イメント上に与えられる(図92参照)。RNA Structure 3.2を使用して図93に示
されるように構造を明視化した。Following extraction and comparison with SEALS and COWX, using Align Hits, FIG.
The potential region of interest in the 5 'UTR region was determined as shown in Following extraction of sequence information from Align Hits for the above regions, CLUSTAL W (1.74) was used to provide the multiple sequence alignment shown in FIG. A dome-like overview of potential stem structures between base pairs in the region is given on the sequence alignment determined using RevComp (see FIG. 92). The structure was visualized using RNA Structure 3.2 as shown in FIG.
【0104】 図94はIL-4の3' UTR領域における的中の代表的なAlign Hits viewを描く。3'
UTR領域に関する Align Hitsからの配列情報の抽出に続いて、CLUSTAL W(1.74
)を使用して、図95に示されるように多重配列アライメントを提供した。領域2
における塩基対間の潜在的ステム構造は、図96に示すようにドームフォーマット
における配列アライメント上に与えられる。ctファイルへのドームフォーマット
ファイルの変換に続き、RNA Structure 3.21を使用して領域2に関する構造を明
視化した(図97参照)。FIG. 94 depicts a representative Align Hits view of hits in the 3 ′ UTR region of IL-4. 3 '
Following extraction of sequence information from Align Hits for the UTR region, CLUSTAL W (1.74
) Was used to provide a multiple sequence alignment as shown in FIG. Region 2
The potential stem structure between base pairs in is given on the sequence alignment in dome format as shown in FIG. Following the conversion of the dome format file to a ct file, the structure for region 2 was visualized using RNA Structure 3.21 (see Figure 97).
【図1】 図1は、真核生物および原核生物のRNAにおける分子相互作用部位を
同定するための方法の工程の一つの好ましい組を含むフローチャートを説明する
。FIG. 1 illustrates a flowchart comprising one preferred set of steps of a method for identifying molecular interaction sites in eukaryotic and prokaryotic RNA.
【図2】 図2は、Find Neighbors And Assemble ESTBlastプロトコルにおけ
る手順の好ましい組を記述するフローチャートである。FIG. 2 is a flowchart describing a preferred set of procedures in the Find Neighbors And Assemble ESTBlast protocol.
【図3】 図3は、BlastParseプロトコルにおける好ましい工程を記述するフ
ローチャートである。FIG. 3 is a flowchart describing the preferred steps in the BlastParse protocol.
【図4】 図4は、Q-Cプロトコルにおける好ましい工程を記述するフローチャ
ートである。FIG. 4 is a flowchart describing the preferred steps in the QC protocol.
【図5】 図5A、5B、5Cおよび5Dは、CompareOverWinsプロトコルにおける好
ましい工程を記述するフローチャートを説明する。FIGS. 5A, 5B, 5C and 5D illustrate flow charts describing preferred steps in the CompareOverWins protocol.
【図6】 図6は、フェリチンRNAに関するマウスとヒトの種間配列比較の代表
的な拡散プロット(scatter plot)である。FIG. 6 is a representative scatter plot of a mouse and human interspecies sequence comparison for ferritin RNA.
【図7】 図7は、単一配列の自己相補解析(self complementation analysis
)の例を示す。FIG. 7 shows self complementation analysis of a single sequence.
) Is shown.
【図8】 図8は、あるオルトログの自己相補性プロット(self-complementar
ity plots)のオーバーレイ(overlay)、およびそれぞれにおいて最も繰り返さ
れるパターンに関する選択を示し、ブロック(block)の対角ストリング(diago
nal strings)に描かれているような最小数の可能な折り畳み配置に帰着する。FIG. 8 shows a self-complementar plot of an ortholog.
diagonal strings of blocks (diago), showing the overlay for each of the city plots, and the choice for the most repeated pattern in each.
nal strings), resulting in the smallest possible number of possible folds.
【図9】 図9は、典型的な記述子を示す。FIG. 9 shows an exemplary descriptor.
【図10】 図10は、フェリチンに関する一組のe評価(e-volume)スコアを
示す。FIG. 10 shows a set of e-volume scores for ferritin.
【図11】 図11は、フェリチンRNAに関するヒトとマスの種間配列比較の代
表的な拡散プロットである。FIG. 11 is a representative diffusion plot of a human and trout interspecies sequence comparison for ferritin RNA.
【図12】 図12は、フェリチンRNAに関するヒトとニワトリの種間配列比較
の代表的な拡散プロットである。FIG. 12 is a representative diffusion plot of a human and chicken interspecies sequence comparison for ferritin RNA.
【図13】 図13は、Q-比較あるいはCompareOverWinsにおいて使用される代
表的なルックアップ表である。FIG. 13 is an exemplary look-up table used in Q-Compare or CompareOverWins.
【図14】 図14は、RevCompと呼ばれるプログラムの代表的なブロックダイ
ヤグラムである。FIG. 14 is a typical block diagram of a program called RevComp.
【図15】 図15は、オルトログ発見のための好ましいデータベース検索戦略
の好ましい工程を示す代表的なフローチャートを示す。FIG. 15 shows an exemplary flowchart illustrating the preferred steps of a preferred database search strategy for ortholog discovery.
【図16】 図16は、フェリチン種分類のための代表的なHovergen系統樹を示
す。FIG. 16 shows a representative Hovergen phylogenetic tree for ferritin species classification.
【図17】 図17は、フェリチン哺乳類序列分類のための代表的なHovergen系
統樹を示す。FIG. 17 shows a representative Hovergen phylogenetic tree for ferritin mammalian hierarchical classification.
【図18】 図18は、好ましいSEALS戦略のための好ましい工程を示す代表的
なフロースキームを示す。FIG. 18 shows an exemplary flow scheme showing preferred steps for a preferred SEALS strategy.
【図19】 図19は、ヒトとマウスのフェリチン5' UTR間の相同的な配列の領
域を示す代表的なプロットを示す。FIG. 19 shows a representative plot showing regions of homologous sequence between the human and mouse ferritin 5 ′ UTRs.
【図20】 図20は、マウスとヒトのフェリチンの5' UTRにおける保存的鉄反
応性要素を示す遺伝子地図を表す。FIG. 20 depicts a genetic map showing conserved iron-responsive elements in the 5 ′ UTR of mouse and human ferritin.
【図21】 図21は、ヒトとマスのフェリチン5' UTR間の相同的な配列の領域
を示す代表的なプロットを示す。FIG. 21 shows a representative plot showing regions of homologous sequence between the human and trout ferritin 5 ′ UTRs.
【図22】 図22は、ヒトとニワトリのフェリチン5' UTR間の相同的な配列の
領域を示す代表的なプロットを示す。FIG. 22 shows a representative plot showing regions of homologous sequence between human and chicken ferritin 5 ′ UTRs.
【図23】 図23は、フェリチン5' UTRの代表的なAlign Hits viewを示す。FIG. 23 shows a representative Align Hits view of ferritin 5 ′ UTR.
【図24】 図24は、フェリチン5' UTRの代表的なClustal Alignmentを示す
。FIG. 24 shows a representative Clustal Alignment of ferritin 5 ′ UTR.
【図25】 図25は、好ましい構造推定(Structure Predictor)戦略のため
の好ましい工程を示す代表的なフローチャートを示す。FIG. 25 shows an exemplary flow chart illustrating preferred steps for a preferred Structure Predictor strategy.
【図26】 図26は、フェリチン5' UTRのための代表的な逆相補マトリクス(
reverse complement matrix)を示す。FIG. 26 shows a representative reverse complement matrix for the ferritin 5 ′ UTR (
reverse complement matrix).
【図27】 図27は、フェリチン5' UTR構造の代表的なドーム状構造概要を示
す。FIG. 27 shows an outline of a typical dome-shaped structure of a ferritin 5 ′ UTR structure.
【図28】 図28は、フェリチン5' UTRの代表的な構造図を示す。FIG. 28 shows a representative structural diagram of ferritin 5 ′ UTR.
【図29】 図29は、ヒストンに関する代表的なHovergen系統樹を示す。FIG. 29 shows a representative Hovergen phylogenetic tree for histones.
【図30】 図30は、ヒストンに関する脊椎動物分類を示す代表的なHovergen
系統樹を示す。FIG. 30. Representative Hovergen showing vertebrate classification for histones.
The phylogenetic tree is shown.
【図31】 図31は、ヒストン3' UTRの代表的なAlign Hits viewを示す。FIG. 31 shows a representative Align Hits view of the histone 3 ′ UTR.
【図32】 図32は、ヒストン3' UTRに関する代表的なClustal Alignmentを
示す。FIG. 32 shows a representative Clustal Alignment for the histone 3 ′ UTR.
【図33】 図33は、ヒストン3' UTRに関する代表的な逆相補マトリクスを示
す。FIG. 33 shows a representative inverse complementation matrix for the histone 3 ′ UTR.
【図34】 図34は、ヒストン3' UTRの代表的なドーム状構造概要構造を示す
。FIG. 34 shows a typical dome-shaped schematic structure of a histone 3 ′ UTR.
【図35】 図35は、ヒストン3' UTRに関する代表的な構造図を示す。FIG. 35 shows a representative structural diagram for the histone 3 ′ UTR.
【図36】 図36は、ビメンチン3' UTRの領域2の代表的な構造図を示す。FIG. 36 shows a representative structural diagram of region 2 of the vimentin 3 ′ UTR.
【図37】 図37は、ビメンチンに関する代表的なHovergen系統樹を示す。FIG. 37 shows a representative Hovergen phylogenetic tree for vimentin.
【図38】 図38は、ビメンチン3' UTRの代表的なAlign Hits 概要を示す。FIG. 38 shows a representative Align Hits summary of the vimentin 3 ′ UTR.
【図39】 図39は、ビメンチン3' UTRの領域1の代表的なClustal Alignment
を示す。FIG. 39 shows a representative Clustal Alignment of region 1 of the vimentin 3 ′ UTR.
Is shown.
【図40】 図40は、ビメンチン3' UTRの領域1の代表的なドーム状構造概要
を示す。FIG. 40 shows a schematic representation of a representative dome-like structure of region 1 of the vimentin 3 ′ UTR.
【図41】 図41は、ビメンチン3' UTRの領域1の代表的な構造図を示す。FIG. 41 shows a representative structural diagram of region 1 of the vimentin 3 ′ UTR.
【図42】 図42は、ビメンチン3' UTRに関するZehnerらにより提案された構
造を示す。FIG. 42 shows the structure proposed by Zehner et al. For the vimentin 3 ′ UTR.
【図43】 図43は、ビメンチン3' UTRの領域2の代表的なClustal Alignment
を示す。FIG. 43 shows a representative Clustal Alignment of region 2 of the vimentin 3 ′ UTR.
Is shown.
【図44】 図44は、ビメンチン3' UTRの領域2の代表的なドーム状構造概要
を示す。FIG. 44 shows a schematic representation of a representative dome-like structure of region 2 of the vimentin 3 ′ UTR.
【図45】 図45は、トランスフェリンレセプターの代表的なHovergen系統樹
を示す。FIG. 45 shows a representative Hovergen phylogenetic tree of transferrin receptors.
【図46】 図46は、トランスフェリンレセプター3' UTRの領域1の代表的なA
lign Hits 概要を示す。FIG. 46 shows representative A of region 1 of the transferrin receptor 3 ′ UTR.
Here is an overview of lign Hits.
【図47】 図47は、トランスフェリンレセプター3' UTRの領域1の代表的なC
lustal Alignmentを示す。FIG. 47 shows representative C of region 1 of the transferrin receptor 3 ′ UTR.
Indicates lustal alignment.
【図48】 図48は、トランスフェリンレセプター3' UTRの領域1の代表的な
ドーム状構造概要を示す。FIG. 48 shows a schematic representation of a representative dome-like structure of region 1 of the transferrin receptor 3 ′ UTR.
【図49】 図49は、トランスフェリンレセプター3' UTRの領域1の代表的な
構造図を示す。FIG. 49 shows a representative structural diagram of region 1 of the transferrin receptor 3 ′ UTR.
【図50】 図50は、トランスフェリンレセプター3' UTRの領域2の代表的なA
lign Hits 概要を示す。FIG. 50 shows a representative A of region 2 of the transferrin receptor 3 ′ UTR.
Here is an overview of lign Hits.
【図51】 図51は、トランスフェリンレセプター3' UTRの領域2の代表的なC
lustal Alignmentを示す。FIG. 51 shows a representative C of region 2 of the transferrin receptor 3 ′ UTR.
Indicates lustal alignment.
【図52】 図52は、トランスフェリンレセプター3' UTRの領域2の代表的な
ドーム状構造概要を示す。FIG. 52 shows a schematic representation of a representative dome-like structure of region 2 of the transferrin receptor 3 ′ UTR.
【図53】 図53は、トランスフェリンレセプター3' UTRの領域2の代表的な
構造図を示す。FIG. 53 shows a representative structural diagram of region 2 of the transferrin receptor 3 ′ UTR.
【図54】 図54は、トランスフェリンレセプター3' UTRの領域3の代表的なA
lign Hits 概要を示す。FIG. 54 shows a representative A of region 3 of the transferrin receptor 3 ′ UTR.
Here is an overview of lign Hits.
【図55】 図55は、トランスフェリンレセプター3' UTRの領域3の代表的なC
lustal Alignmentを示す。FIG. 55 shows a representative C of region 3 of the transferrin receptor 3 ′ UTR.
Indicates lustal alignment.
【図56】 図56は、トランスフェリンレセプター3' UTRの領域3の代表的な
ドーム状構造概要を示す。FIG. 56 shows a schematic representation of a representative dome-like structure of region 3 of the transferrin receptor 3 ′ UTR.
【図57】 図57は、トランスフェリンレセプター3' UTRの領域3の代表的な
構造図を示す。FIG. 57 shows a representative structural diagram of region 3 of the transferrin receptor 3 ′ UTR.
【図58】 図58は、トランスフェリンレセプター3' UTRの領域4の代表的なA
lign Hits 概要を示す。FIG. 58. Representative A of region 4 of the transferrin receptor 3 ′ UTR.
Here is an overview of lign Hits.
【図59】 図59は、トランスフェリンレセプター3' UTRの領域4の代表的なC
lustal Alignmentを示す。FIG. 59 shows a representative C of region 4 of the transferrin receptor 3 ′ UTR.
Indicates lustal alignment.
【図60】 図60は、トランスフェリンレセプター3' UTRの領域4の代表的な
ドーム状構造概要を示す。FIG. 60 shows a schematic representation of a representative dome-like structure of region 4 of the transferrin receptor 3 ′ UTR.
【図61】 図61は、トランスフェリンレセプター3' UTRの領域4の代表的な
構造図を示す。FIG. 61 shows a representative structural diagram of region 4 of the transferrin receptor 3 ′ UTR.
【図62】 図62は、トランスフェリンレセプター3' UTRの領域5の代表的なA
lign Hits 概要を示す。FIG. 62 shows a representative A of region 5 of the transferrin receptor 3 ′ UTR.
Here is an overview of lign Hits.
【図63】 図63は、トランスフェリンレセプター3' UTRの領域5の代表的なC
lustal Alignmentを示す。FIG. 63 shows a representative C of region 5 of the transferrin receptor 3 ′ UTR.
Indicates lustal alignment.
【図64】 図64は、トランスフェリンレセプター3' UTRの領域5の代表的な
ドーム状構造概要を示す。FIG. 64 shows a schematic representation of a representative dome-like structure of region 5 of the transferrin receptor 3 ′ UTR.
【図65】 図65は、トランスフェリンレセプター3' UTRの領域5の代表的な
構造図を示す。FIG. 65 shows a representative structural diagram of region 5 of the transferrin receptor 3 ′ UTR.
【図66】 図66は、オルニチンデカルボキシラーゼ3' UTRの領域1の代表的
なmass-spec構造プローブ解析を示す。FIG. 66 shows a representative mass-spec structural probe analysis of region 1 of the ornithine decarboxylase 3 ′ UTR.
【図67】 図67は、オルニチンデカルボキシラーゼ3' UTRの領域1の代表的
なClustal Alignmentを示す。FIG. 67 shows a representative Clustal Alignment of region 1 of ornithine decarboxylase 3 ′ UTR.
【図68】 図68は、オルニチンデカルボキシラーゼ3' UTRの代表的なHoverg
en系統樹を示す。FIG. 68 shows a representative Hoverg of ornithine decarboxylase 3 ′ UTR.
The en tree is shown.
【図69】 図69は、脊椎動物のオルニチンデカルボキシラーゼ3' UTRの代表
的なHovergen系統樹を示す。FIG. 69 shows a representative Hovergen phylogenetic tree of vertebrate ornithine decarboxylase 3 ′ UTRs.
【図70】 図70は、オルニチンデカルボキシラーゼ3' UTRの代表的なAlign
Hits 概要を示す。FIG. 70 shows a representative Align of ornithine decarboxylase 3 ′ UTR.
Here is an overview of Hits.
【図71】 図71は、オルニチンデカルボキシラーゼ3' UTRの領域1の代表的
な逆相補マトリクスを示す。FIG. 71 shows a representative reverse complementation matrix of region 1 of the ornithine decarboxylase 3 ′ UTR.
【図72】 図72は、オルニチンデカルボキシラーゼ3' UTRの領域1の代表的
なドーム状構造概要を示す。FIG. 72 shows a schematic representation of a representative dome-like structure of region 1 of the ornithine decarboxylase 3 ′ UTR.
【図73】 図73は、オルニチンデカルボキシラーゼ3' UTRの領域1の代表的
な構造図を示す。FIG. 73 shows a representative structural diagram of region 1 of the ornithine decarboxylase 3 ′ UTR.
【図74】 図74は、オルニチンデカルボキシラーゼ3' UTRの領域2の代表的
なClustal Alignmentを示す。FIG. 74 shows a representative Clustal Alignment of region 2 of ornithine decarboxylase 3 ′ UTR.
【図75】 図75は、オルニチンデカルボキシラーゼ3' UTRの領域2の代表的
なドーム状構造概要を示す。FIG. 75 shows a schematic representation of a representative dome-like structure of region 2 of ornithine decarboxylase 3 ′ UTR.
【図76】 図76は、オルニチンデカルボキシラーゼ3' UTRの領域2の代表的
な構造図を示す。FIG. 76 shows a representative structural diagram of region 2 of the ornithine decarboxylase 3 ′ UTR.
【図77】 図77は、インターロイキン-2(IL-2)の代表的なHovergen系統樹
を示す。FIG. 77 shows a representative Hovergen phylogenetic tree for interleukin-2 (IL-2).
【図78】 図78は、IL-2 3' UTRの代表的なAlign Hits 概要を示す。FIG. 78 shows an outline of typical Align Hits of IL-2 3 ′ UTR.
【図79】 図79は、IL-2 3' UTRの領域1の代表的なClustal Alignmentを示
す。FIG. 79 shows a representative Clustal Alignment of region 1 of the IL-2 3 ′ UTR.
【図80】 図80は、IL-2 3' UTRの領域1の代表的なドーム状構造概要を示す
。FIG. 80 shows a schematic representation of a representative dome-like structure in Region 1 of the IL-2 3 ′ UTR.
【図81】 図81は、IL-2 3' UTRの領域1の代表的な構造図を示す。FIG. 81 shows a representative structural diagram of region 1 of the IL-2 3 ′ UTR.
【図82】 図82は、IL-2 3' UTRの領域2の代表的なClustal Alignmentを示
す。FIG. 82 shows a representative Clustal Alignment of region 2 of the IL-2 3 ′ UTR.
【図83】 図83は、IL-2 3' UTRの領域2の代表的なドーム状構造概要を示す
。FIG. 83 shows a schematic representation of a representative dome-like structure of region 2 of the IL-2 3 ′ UTR.
【図84】 図84は、IL-2 3' UTRの領域2の代表的な構造図を示す。FIG. 84 shows a representative structural diagram of region 2 of the IL-2 3 ′ UTR.
【図85】 図85は、IL-2 3' UTRの代表的なAlign Hits 概要を示す。FIG. 85 shows an overview of typical Align Hits of the IL-2 3 ′ UTR.
【図86】 図86は、IL-2 3' UTRの領域3の代表的なClustal Alignmentを示
す。FIG. 86 shows a representative Clustal Alignment of region 3 of the IL-2 3 ′ UTR.
【図87】 図87は、IL-2 3' UTRの領域3の代表的なドーム状構造概要を示す
。FIG. 87 shows a schematic representation of a representative dome-like structure of region 3 of the IL-2 3 ′ UTR.
【図88】 図88は、IL-2 3' UTRの領域3の代表的な構造図を示す。FIG. 88 shows a representative structural diagram of region 3 of the IL-2 3 ′ UTR.
【図89】 図89は、インターロイキン-4(IL-4)の代表的なHovergen系統樹
を示す。FIG. 89 shows a representative Hovergen phylogenetic tree of interleukin-4 (IL-4).
【図90】 図90は、IL-4 5' UTRの代表的なAlign Hits 概要を示す。FIG. 90 shows an overview of typical Align Hits of the IL-4 5 ′ UTR.
【図91】 図91は、IL-4 5' UTRの代表的なClustal Alignmentを示す。FIG. 91 shows a representative Clustal Alignment of the IL-4 5 ′ UTR.
【図92】 図92は、IL-4 5' UTRの代表的なドーム状構造概要を示す。FIG. 92 shows an outline of a typical dome-shaped structure of the IL-4 5 ′ UTR.
【図93】 図93は、IL-4 5' UTRの代表的な構造図を示す。FIG. 93 shows a representative structural diagram of the IL-4 5 ′ UTR.
【図94】 図94は、IL-4 3' UTRの代表的なAlign Hits 概要を示す。FIG. 94 shows an overview of representative Align Hits of the IL-4 3 ′ UTR.
【図95】 図95は、IL-4 3' UTRの代表的なClustal Alignmentを示す。FIG. 95 shows a representative Clustal Alignment of the IL-4 3 ′ UTR.
【図96】 図96は、IL-4 3' UTRの代表的なドーム状構造概要を示す。FIG. 96 shows an outline of a typical dome-shaped structure of the IL-4 3 ′ UTR.
【図97】 図97は、IL-4 3' UTRの代表的な構造図を示す。FIG. 97 shows a representative structural diagram of the IL-4 3 ′ UTR.
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),OA(BF,BJ ,CF,CG,CI,CM,GA,GN,GW,ML, MR,NE,SN,TD,TG),AP(GH,GM,K E,LS,MW,SD,SL,SZ,UG,ZW),E A(AM,AZ,BY,KG,KZ,MD,RU,TJ ,TM),AE,AL,AM,AT,AU,AZ,BA ,BB,BG,BR,BY,CA,CH,CN,CU, CZ,DE,DK,EE,ES,FI,GB,GD,G E,GH,GM,HR,HU,ID,IL,IN,IS ,JP,KE,KG,KP,KR,KZ,LC,LK, LR,LS,LT,LU,LV,MD,MG,MK,M N,MW,MX,NO,NZ,PL,PT,RO,RU ,SD,SE,SG,SI,SK,SL,TJ,TM, TR,TT,UA,UG,US,UZ,VN,YU,Z A,ZW (72)発明者 サンパス,ランガ アメリカ合衆国カリフォルニア州92129, サンディエゴ,マニックス・ロード 12223 (72)発明者 グリフィー,リチャード アメリカ合衆国カリフォルニア州92084, ビスタ,バースビー・ストリート 360 (72)発明者 マクネイル,ジョン アメリカ合衆国カリフォルニア州92037, ラ・ホーラ,レタハイム・ウェイ 427 Fターム(参考) 4B024 AA01 AA03 AA07 AA11 AA12 CA01 CA11 CA12 DA05 DA11 DA12 HA11 4B063 QA13 QA18 QA19 QQ05 QQ06 QQ07 QQ10 QQ41 QQ42 QQ52 QQ53 QQ54 QR31 4C084 AA13 NA14 ZA011 ZA081 ZA361 ZB111 ZB212 ZB261 ZB332 ZB352 ZB372 ZC011 ZC412 ZC521 4C086 AA01 AA03 EA16 MA01 MA02 MA03 MA04 MA05 NA14 ZA01 ZA08 ZA36 ZB11 ZB21 ZB26 ZB33 ZB35 ZB37 ZC01 ZC41 ZC52 ──────────────────────────────────────────────────続 き Continuation of front page (81) Designated country EP (AT, BE, CH, CY, DE, DK, ES, FI, FR, GB, GR, IE, IT, LU, MC, NL, PT, SE ), OA (BF, BJ, CF, CG, CI, CM, GA, GN, GW, ML, MR, NE, SN, TD, TG), AP (GH, GM, KE, LS, MW, SD, SL, SZ, UG, ZW), EA (AM, AZ, BY, KG, KZ, MD, RU, TJ, TM), AE, AL, AM, AT, AU, AZ, BA, BB, BG, BR , BY, CA, CH, CN, CU, CZ, DE, DK, EE, ES, FI, GB, GD, GE, GH, GM, HR, HU, ID, IL, IN, IS , JP, KE, KG, KP, KR, KZ, LC, LK, LR, LS, LT, LU, LV, MD, MG, MK, MN, MW, MX, NO, NZ, PL, PT, RO, RU, SD, SE, SG, SI, SK, SL, TJ, TM, TR, TT, UA, UG, US, UZ, VN, YU, ZA, ZW (72) Inventor Sampath, Ranga 92129 California, USA Griffin, Richard Inventor Griffin, Richard 92084, California, United States 92084; Vista, Barsby Street 360 (72) Inventor McNail, John 92037, California, United States, La Jolla, Retaheim Way 427 F-term ( Reference) 4B024 AA01 AA03 AA07 AA11 AA12 CA01 CA11 CA12 DA05 DA11 DA12 HA11 4B063 QA13 QA18 QA19 QQ05 QQ06 QQ07 QQ10 QQ41 QQ42 QQ52 QQ53 QQ54 QR31 4C084 AA13 NA14 ZA011 ZA081 ZA361 ZB111 ZB212 ZB261 ZB332 ZB352 ZB372 ZC011 ZC412 ZC521 4C086 AA01 AA03 EA16 MA01 MA02 MA03 MA04 MA05 NA14 ZA01 ZA08 ZA36 ZB11 ZB21 ZB26 ZB33 ZB35 ZB33 ZB35 ZB35 ZB35 ZB35 ZB35 ZB35 ZB35 ZB33 ZB35 ZB33 ZB35 ZB33 ZB35 ZB33 ZB35 ZB35 ZB33
Claims (34)
、以下の工程: 前記標的核酸のヌクレオチド配列と様々な分類学的種由来の複数の核酸のヌク
レオチド配列とを比較すること; 前記複数の核酸と前記標的核酸との間で保存されている少なくとも一つの配列
領域を同定すること; 前記保存された領域が二次構造を有しているかどうか決定すること;そして 二次構造を有する前記保存された領域について、前記二次構造を同定すること
; を含む、前記方法。1. A method for identifying a molecular interaction site in a target nucleic acid, comprising the steps of: comparing the nucleotide sequence of the target nucleic acid with the nucleotide sequences of a plurality of nucleic acids from various taxonomic species. Identifying at least one sequence region conserved between the plurality of nucleic acids and the target nucleic acid; determining whether the conserved region has a secondary structure; Identifying the secondary structure for the conserved region having:
一つの構造モチーフを同定することをさらに含む、請求項1に記載の方法。2. The method of claim 1, further comprising identifying at least one structural motif for the conserved region having a secondary structure.
ることをさらに含む、請求項2に記載の方法。3. The method of claim 2, further comprising constructing a set of descriptor elements for the structural motif.
定することをさらに含む、請求項3に記載の方法。4. The method of claim 3, further comprising further identifying a nucleic acid having a secondary structure corresponding to said descriptor element.
法。5. The method of claim 1, wherein said target nucleic acid is present in a eukaryotic cell.
からなる群から選択される、請求項5に記載の方法。6. The target nucleic acid may be mRNA, pre-mRNA, tRNA, rRNA and snRNA.
The method of claim 5, wherein the method is selected from the group consisting of:
法。7. The method of claim 1, wherein said target nucleic acid is present in a prokaryotic cell.
方法。10. The method of claim 7, wherein said target nucleic acid is of a virus.
の方法。11. The method of claim 7, wherein said target nucleic acid is derived from a parasite.
スに由来する、請求項1に記載の方法。12. The method of claim 1, wherein at least some of the nucleic acid sequence information is from a gene database.
グを組み立てることにより決定される、請求項1に記載の方法。13. The method of claim 1, wherein said nucleotide sequence of said target nucleic acid is determined by assembling a plurality of expressed sequence tags.
む、請求項1に記載の方法。14. The method of claim 1, further comprising comparing the target nucleic acid with a paralog nucleic acid.
性検索、オルトログ検索、もしくはこれらの組合せを行うことにより得る、請求
項1に記載の方法。15. The method of claim 1, wherein the plurality of nucleic acids from different taxonomic species are obtained by performing a sequence identity search, an ortholog search, or a combination thereof.
性検索を行い、そして仮想転写物を構築することにより得る、請求項1に記載の
方法。16. The method of claim 1, wherein said plurality of nucleic acids from different taxonomic species is obtained by performing a sequence identity search and constructing a virtual transcript.
、自己相補性比較、並置、および共分散解析、二次構造予測、もしくはこれらの
組合せにより行う、請求項1に記載の方法。17. The method of claim 1, wherein determining whether the conserved region has a secondary structure is performed by self-complementary comparison, juxtaposition and covariance analysis, secondary structure prediction, or a combination thereof. The described method.
プ、ステム、ヘアピン、ノット(knot)、三重相互作用(triple interact)、
クローバー葉、またはヘリックスを含む、請求項17に記載の方法。18. The method of claim 18, wherein the secondary structure comprises at least one bulge, loop, stem, hairpin, knot, triple interact,
18. The method of claim 17, comprising cloverleaf or helix.
解析、二次構造予測、もしくはこれらの組合せを行うことにより同定される、請
求項2に記載の方法。19. The method of claim 2, wherein said structural motif is identified by performing a self-complementary comparison, juxtaposition and covariance analysis, secondary structure prediction, or a combination thereof.
構築する、請求項3に記載の方法。20. The method of claim 3, wherein the set of descriptor elements is constructed utilizing a descriptor database.
核酸を、少なくとも一つのデータベースの検索、クラスター化および解析の実行
、オルトログについての検索、またはこれらの組合せにより同定する、請求項4
に記載の方法。21. The other nucleic acid having a secondary structure corresponding to the descriptor element is identified by searching at least one database, performing clustering and analysis, searching for orthologs, or a combination thereof. Claim 4
The method described in.
を含む、データベース。22. A database comprising a molecular interaction site identified by the method of claim 1.
タベース。23. The database of claim 22, which contains a eukaryotic cell molecule interaction site.
ータベース。24. The database according to claim 23, comprising a human molecule interaction site.
のデータベース。25. The database of claim 22, which contains prokaryotic molecule interaction sites.
物のRNA中に存在する分子相互作用部位を含むオリゴヌクレオチドであって、前
記分子相互作用部位が、前記分子相互作用部位に結合する場合に前記選択された
生物中の前記RNAの発現を調節するような少なくとも一つの分子に対する結合部
位として機能する、前記オリゴヌクレオチド。26. An oligonucleotide comprising a molecular interaction site present in the RNA of the selected organism and in the RNA of at least one additional organism, wherein the molecular interaction site is The oligonucleotide, wherein the oligonucleotide functions as a binding site for at least one molecule that, when bound, regulates expression of the RNA in the selected organism.
中に存在する分子相互作用部位を含むオリゴヌクレオチドであって、前記分子相
互作用部位が、前記相互作用部位に結合する場合に前記原核細胞RNAの発現を調
節するような少なくとも一つの分子に対する結合部位として機能する、前記オリ
ゴヌクレオチド。27. The prokaryotic RNA and at least one additional prokaryotic RNA
An oligonucleotide comprising a molecular interaction site present therein, wherein said molecular interaction site binds to at least one molecule such that when bound to said interaction site, said molecule regulates expression of said prokaryotic RNA. The oligonucleotide, which functions as a.
、請求項27に記載のオリゴヌクレオチド。28. The oligonucleotide of claim 27, wherein said molecular interaction site is absent from eukaryotic cell RNA.
求項27に記載のオリゴヌクレオチド。29. The oligonucleotide of claim 27, wherein said molecular interaction site is not present in human RNA.
互作用部位を含むオリゴヌクレオチドであって、前記分子相互作用部位が、前記
分子相互作用部位と結合する場合に前記原核細胞RNAの発現を調節するような少
なくとも一つの分子に対する結合部位として機能する、前記オリゴヌクレオチド
;および 医薬的な担体または希釈剤; を含む、医薬組成物。30. An oligonucleotide comprising a molecular interaction site present in prokaryotic RNA and in at least one additional prokaryotic RNA, wherein said molecular interaction site is said molecular interaction site A pharmaceutical composition comprising: said oligonucleotide, which functions as a binding site for at least one molecule that, when bound to, regulates expression of said prokaryotic RNA, and a pharmaceutical carrier or diluent.
請求項30に記載の医薬組成物。31. The molecular interaction site is not present in eukaryotic RNA.
A pharmaceutical composition according to claim 30.
項30に記載の医薬組成物。32. The pharmaceutical composition according to claim 30, wherein said molecular interaction site is not present in human RNA.
分子相互作用部位を含むオリゴヌクレオチドであって、前記分子相互作用部位が
、前記分子相互作用部位と結合する場合に前記選択された生物中の前記RNAの発
現を調節するような少なくとも一つの分子に対する結合部位として機能する、前
記オリゴヌクレオチド;および 医薬的な担体または希釈剤; を含む、医薬組成物。33. An oligonucleotide comprising a molecular interaction site present in the RNA of the selected organism and in at least one additional organism's RNA, wherein the molecular interaction site is the molecule. Said oligonucleotide functioning as a binding site for at least one molecule that, when bound to an interaction site, regulates the expression of said RNA in said selected organism; and a pharmaceutical carrier or diluent. , Pharmaceutical compositions.
含むオリゴヌクレオチド;および 医薬的な担体または希釈剤; を含む、医薬組成物。34. A pharmaceutical composition comprising: an oligonucleotide comprising a molecular interaction site present in prokaryotic RNA but not present in mammalian RNA; and a pharmaceutical carrier or diluent.
Applications Claiming Priority (5)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US8509298P | 1998-05-12 | 1998-05-12 | |
| US09/076,440 US6221587B1 (en) | 1998-05-12 | 1998-05-12 | Identification of molecular interaction sites in RNA for novel drug discovery |
| US09/076,440 | 1998-05-12 | ||
| US60/085,092 | 1998-05-12 | ||
| PCT/US1999/010343 WO1999058719A1 (en) | 1998-05-12 | 1999-05-12 | Identification of molecular interaction sites in rna for novel drug discovery |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2002526030A true JP2002526030A (en) | 2002-08-20 |
Family
ID=26758111
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2000548510A Pending JP2002526030A (en) | 1998-05-12 | 1999-05-12 | Identification of molecular interaction sites in RNA for discovery of new drugs |
Country Status (4)
| Country | Link |
|---|---|
| EP (1) | EP1082462A4 (en) |
| JP (1) | JP2002526030A (en) |
| AU (1) | AU756906B2 (en) |
| CA (1) | CA2331315A1 (en) |
-
1999
- 1999-05-12 JP JP2000548510A patent/JP2002526030A/en active Pending
- 1999-05-12 CA CA002331315A patent/CA2331315A1/en not_active Abandoned
- 1999-05-12 AU AU39823/99A patent/AU756906B2/en not_active Ceased
- 1999-05-12 EP EP99922938A patent/EP1082462A4/en not_active Ceased
Also Published As
| Publication number | Publication date |
|---|---|
| AU756906B2 (en) | 2003-01-23 |
| AU3982399A (en) | 1999-11-29 |
| EP1082462A1 (en) | 2001-03-14 |
| EP1082462A4 (en) | 2003-07-09 |
| CA2331315A1 (en) | 1999-11-18 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US6221587B1 (en) | Identification of molecular interaction sites in RNA for novel drug discovery | |
| Song et al. | Brassica carinata genome characterization clarifies U’s triangle model of evolution and polyploidy in Brassica | |
| Sato et al. | Genome sequencing and genome resources in model legumes | |
| JP2003521024A (en) | Methods for obtaining and using haplotype data | |
| Yang et al. | Genome sequencing of Sitopsis species provides insights into their contribution to the B subgenome of bread wheat | |
| Sheng et al. | A reference-grade genome assembly for Gossypium bickii and insights into its genome evolution and formation of pigment glands and gossypol | |
| US20020168670A1 (en) | Identification of disease predictive nucleic acids | |
| Shi et al. | The chromosome‐level assembly of the wild diploid alfalfa genome provides insights into the full landscape of genomic variations between cultivated and wild alfalfa | |
| Huang et al. | A chromosome-level genome assembly of Callerya speciosa sheds new light on the biosynthesis of root-specific isoflavonoids | |
| Rigden et al. | A structural model for the rolA protein and its interaction with DNA | |
| Schadt | Novel integrative genomics strategies to identify genes for complex traits | |
| WO2000031110A1 (en) | Identification of disease predictive nucleic acids | |
| Zheng et al. | GmSop20 functions as a key coordinator of the oil‐to‐protein ratio in soybean seeds | |
| Brown | Understanding a genome sequence | |
| JP2002526030A (en) | Identification of molecular interaction sites in RNA for discovery of new drugs | |
| Petretto et al. | Integrated gene expression profiling and linkage analysis in the rat | |
| CN119120723A (en) | A SNP molecular marker at the rs338618851 locus associated with pig meat production efficiency and its application | |
| US20050239737A1 (en) | Identification of molecular interaction sites in RNA for novel drug discovery | |
| US20030092662A1 (en) | Molecular interaction sites of 16S ribosomal RNA and methods of modulating the same | |
| US20030082598A1 (en) | Molecular interaction sites of 23S ribosomal RNA and methods of modulating the same | |
| Biñas | Designing PCR primers on the web | |
| Dian et al. | Gapless Genome Assembly of ZH8015 and Preliminary Multi-Omics Analysis to Investigate ZH8015’s Responses Against Brown Planthopper Infestation | |
| FRAJMAN et al. | Milk production in the post-genomic era | |
| Nicolás et al. | Coordinated Gene Family Evolution Shapes the Genome of Dimorphic Organisms | |
| Ghanekar | Cross Chip Probe Matching Tool: A Tool For Linking Probes From Microarrays Within And Across Species |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040604 |
|
| A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20040903 |
|
| A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20040910 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041201 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060509 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20061012 |