DE10238057A1 - Comparison of a number of parameter sequences, for the design and formation of biological molecules, uses matrix elements with arithmetical logic computing units for faster complex computations of data sets - Google Patents
Comparison of a number of parameter sequences, for the design and formation of biological molecules, uses matrix elements with arithmetical logic computing units for faster complex computations of data sets Download PDFInfo
- Publication number
- DE10238057A1 DE10238057A1 DE10238057A DE10238057A DE10238057A1 DE 10238057 A1 DE10238057 A1 DE 10238057A1 DE 10238057 A DE10238057 A DE 10238057A DE 10238057 A DE10238057 A DE 10238057A DE 10238057 A1 DE10238057 A1 DE 10238057A1
- Authority
- DE
- Germany
- Prior art keywords
- parameter
- sequences
- parameters
- combinations
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
- 239000011159 matrix material Substances 0.000 title claims abstract description 89
- 238000013461 design Methods 0.000 title claims description 15
- 230000015572 biosynthetic process Effects 0.000 title claims description 12
- 230000015654 memory Effects 0.000 claims abstract description 28
- 238000000034 method Methods 0.000 claims description 108
- 238000004364 calculation method Methods 0.000 claims description 82
- 238000012545 processing Methods 0.000 claims description 66
- 238000011156 evaluation Methods 0.000 claims description 53
- 239000000126 substance Substances 0.000 claims description 33
- 108091034117 Oligonucleotide Proteins 0.000 claims description 27
- 238000005259 measurement Methods 0.000 claims description 16
- JLCPHMBAVCMARE-UHFFFAOYSA-N [3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-hydroxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methyl [5-(6-aminopurin-9-yl)-2-(hydroxymethyl)oxolan-3-yl] hydrogen phosphate Polymers Cc1cn(C2CC(OP(O)(=O)OCC3OC(CC3OP(O)(=O)OCC3OC(CC3O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c3nc(N)[nH]c4=O)C(COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3CO)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cc(C)c(=O)[nH]c3=O)n3cc(C)c(=O)[nH]c3=O)n3ccc(N)nc3=O)n3cc(C)c(=O)[nH]c3=O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)O2)c(=O)[nH]c1=O JLCPHMBAVCMARE-UHFFFAOYSA-N 0.000 claims description 13
- 238000003860 storage Methods 0.000 claims description 13
- 238000005755 formation reaction Methods 0.000 claims description 9
- 238000003491 array Methods 0.000 claims description 6
- 108090000623 proteins and genes Proteins 0.000 description 33
- 102000004169 proteins and genes Human genes 0.000 description 30
- 230000008569 process Effects 0.000 description 20
- 108020004414 DNA Proteins 0.000 description 15
- 238000000018 DNA microarray Methods 0.000 description 14
- 238000012546 transfer Methods 0.000 description 14
- 230000005540 biological transmission Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 12
- 108091028043 Nucleic acid sequence Proteins 0.000 description 10
- 238000000137 annealing Methods 0.000 description 10
- 108090000765 processed proteins & peptides Proteins 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 7
- 230000002441 reversible effect Effects 0.000 description 7
- 230000002093 peripheral effect Effects 0.000 description 6
- 102000004196 processed proteins & peptides Human genes 0.000 description 6
- 230000003993 interaction Effects 0.000 description 5
- 230000000670 limiting effect Effects 0.000 description 5
- 229920002521 macromolecule Polymers 0.000 description 5
- 239000000523 sample Substances 0.000 description 5
- 230000001133 acceleration Effects 0.000 description 4
- 238000007792 addition Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 4
- 230000000052 comparative effect Effects 0.000 description 4
- 230000000295 complement effect Effects 0.000 description 4
- 125000003275 alpha amino acid group Chemical group 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000006664 bond formation reaction Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 239000002299 complementary DNA Substances 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000000691 measurement method Methods 0.000 description 3
- 108020004707 nucleic acids Proteins 0.000 description 3
- 102000039446 nucleic acids Human genes 0.000 description 3
- 150000007523 nucleic acids Chemical class 0.000 description 3
- 230000036961 partial effect Effects 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N (+)-Biotin Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 description 2
- 101710100170 Unknown protein Proteins 0.000 description 2
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 description 2
- 150000001413 amino acids Chemical class 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000004071 biological effect Effects 0.000 description 2
- 239000012876 carrier material Substances 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 2
- 239000007850 fluorescent dye Substances 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 2
- 238000009396 hybridization Methods 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000002493 microarray Methods 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000894007 species Species 0.000 description 2
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 2
- 241000251468 Actinopterygii Species 0.000 description 1
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 1
- 229930024421 Adenine Natural products 0.000 description 1
- 101100004286 Caenorhabditis elegans best-5 gene Proteins 0.000 description 1
- 108020004635 Complementary DNA Proteins 0.000 description 1
- 102000053602 DNA Human genes 0.000 description 1
- 101000931570 Dictyostelium discoideum Farnesyl diphosphate synthase Proteins 0.000 description 1
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 229960000643 adenine Drugs 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 238000002869 basic local alignment search tool Methods 0.000 description 1
- 229960002685 biotin Drugs 0.000 description 1
- 235000020958 biotin Nutrition 0.000 description 1
- 239000011616 biotin Substances 0.000 description 1
- 238000010804 cDNA synthesis Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 239000013078 crystal Substances 0.000 description 1
- 229940104302 cytosine Drugs 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000009509 drug development Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000010195 expression analysis Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 125000000524 functional group Chemical group 0.000 description 1
- 238000001502 gel electrophoresis Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 229910052739 hydrogen Inorganic materials 0.000 description 1
- 239000001257 hydrogen Substances 0.000 description 1
- 239000003112 inhibitor Substances 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 239000003446 ligand Substances 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 229910052751 metal Inorganic materials 0.000 description 1
- 150000002739 metals Chemical class 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 125000003835 nucleoside group Chemical group 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 229920003023 plastic Polymers 0.000 description 1
- 239000004033 plastic Substances 0.000 description 1
- 238000003752 polymerase chain reaction Methods 0.000 description 1
- 229920001184 polypeptide Polymers 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000003498 protein array Methods 0.000 description 1
- 238000012514 protein characterization Methods 0.000 description 1
- 230000004853 protein function Effects 0.000 description 1
- 230000002285 radioactive effect Effects 0.000 description 1
- 238000009774 resonance method Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000001931 thermography Methods 0.000 description 1
- 229940113082 thymine Drugs 0.000 description 1
- 229940035893 uracil Drugs 0.000 description 1
- 238000002424 x-ray crystallography Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biophysics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
Description
Die Erfindung betrifft ein Verfahren zum Vergleich von n Parameterfolgen, wobei ein Teil der Parameter aller Parameterfolgen nach einer vorher definierten Vorschrift untereinander zu Parameterkombinationen kombiniert werden und jeder Parameterkombination nach einer vorher definierten ersten Bewertungsvorschrift ein erster Wert zugeordnet wird, und das Ergebnis der Bewertungsvorschrift eine einer Messung zugänglichen Eigenschaft entspricht. Außerdem betrifft die vorliegende Erfindung die Verwendung des erfindungsgemäßen Verfahrens zur Gestaltung, Bildung, Design von/oder zur Selektion von Stoffen.The invention relates to a method to compare n parameter sequences, some of the parameters of all Sequences of parameters according to a previously defined regulation can be combined to form parameter combinations and each parameter combination a first according to a previously defined first evaluation rule Value is assigned, and the result of the valuation rule one accessible to a measurement Property corresponds. Moreover The present invention relates to the use of the method according to the invention for the design, formation, design of / or for the selection of substances.
Auf dem Gebiet der Bio-Informatik und der Materialwissenschaften fallen große Mengen genetischer, biochemischer sowie stoffspezifischer Daten an. Diese Daten, die sich aus vielen Forschungsanstrengungen ergeben, sind durch ihren gemeinsamen Ursprung verbunden: den Eigenschaften von biologischen und anorganischen Stoffen bzw. Molekülen.In the field of bio-informatics and materials science fall in large quantities genetic, biochemical as well as substance-specific data. This data, which is made up of many Research efforts result from their common origin connected: the properties of biological and inorganic Substances or molecules.
Dadurch erfordern die beiden vorgenannten Gebiete große Rechnerleistungen, um diese Einzelinformationen zu katalogisieren, organisieren und sie in sinnvollen Gebilden zu strukturieren.This requires the two aforementioned Areas large Computer services to catalog this individual information, organize and structure them in meaningful structures.
Im Allgemeinen sind diese Anforderungen an Rechner mit herkömmlichen Systemen nicht mehr zu bewältigen.Generally these are requirements on computers with conventional Systems no longer manageable.
Schon in der Vergangenheit wurden daher Wege gesucht, um den enormen Datenfluss sinnvoll zu strukturieren, wobei spezielle Hardware- und Softwarekonfigurationen eingesetzt wurden.Have been in the past therefore looking for ways to structure the enormous flow of data in a meaningful way, special hardware and software configurations are used were.
So sind beispielsweise aus der
Weiter sind aus der
Ebenso stellt die
Aus der
Allen vorgenannten Systemen und Verfahren des Standes der Technik war jedoch gemein, dass die Rechenzeiten zur Verarbeitung einer Vielzahl von Daten sehr hoch waren.All of the aforementioned systems and processes However, the state of the art had in common that the computing times to process a variety of data was very high.
Dies ist insbesondere auch für den Bereich der Bioinformatik bei der Auswertung z.B. von genetischen Analysen, der Strukturaufklärung von Proteinen etc. ein großer Nachteil, da schnelle Auswertungsergebnisse erwünscht sind.This is a major disadvantage especially in the field of bioinformatics when evaluating, for example, genetic analyzes, the structure elucidation of proteins, etc., since the results of the evaluation are quick are desired.
Aus der
Bio-Chips sind vor allem nützliche Werkzeuge im Rahmen der Medikamentenentwicklung. Der größte Vorteil besteht dabei in der Expresssionsprofilierung. Hier sind DNA-Mikroarrays aufgrund ihrer Fähigkeit, die Messung von Genaktivität in einem Gewebe in massiv paralleler Weise zu erlauben, bereits heute konkurrenzlos attraktiv. Auch in anderen Bereichen als bei DNA-Chips werden beispielsweise zur Vervielfältigung von bekannten Sequenzen (Polymerase Chain Reaction PCR) so genannte Primer eingesetzt. Bei einem Primer (Oligonukleotid) handelt es sich um eine kurze Oligonukleotidsequenz, die synthetisch in allen beliebigen Kombinationen (A, C, G, T, U, wobei die Großbuchstaben für die entsprechenden Basen Adenin, Cytosin, Guanin, Thymin und Uracil in der DNA bzw. in der RNA stehen) erstellt werden kann. Die Primer sind in der Regel zwischen 15 und 100 Basenpaare lang.Bio chips are especially useful Tools in the context of drug development. The biggest advantage consists of expression profiling. Here are DNA microarrays because of their ability the measurement of gene activity in a tissue in a massively parallel manner already unrivaled today. Also in areas other than DNA chips are used, for example, for the duplication of known sequences (Polymerase Chain Reaction PCR) so-called primers are used. at a primer (oligonucleotide) is a short oligonucleotide sequence, which are synthetic in any combination (A, C, G, T, U, with the capital letters for the corresponding bases adenine, cytosine, guanine, thymine and uracil in the DNA or in the RNA) can be created. The primer are usually between 15 and 100 base pairs long.
Der Begriff Bio-Chip oder Microarray bezeichnet die systematische Anordnung von biomolekularen Sonden, wie beispielsweise Nukleinsäuren, (Oligonukleotiden, beispielsweise cDNA, DNA, RNA, LNA oder Chimären davon) Antikörpern, Peptiden oder Proteinen auf festen Oberflächen aus Glas, Metallen oder Kunststoffen. Das Grundprinzip derartiger biochipbasierter Methoden ist es, durch Sondenarrays parallel arbeitende, miniaturisierte Analysesysteme auf einer möglichst kleinen Fläche zu erhalten, die die gleichzeitige Untersuchung einer großen Zahl von Parametern ermöglichen.The term bio-chip or microarray denotes the systematic arrangement of biomolecular probes, such as nucleic acids, (Oligonucleotides, for example cDNA, DNA, RNA, LNA or chimeras thereof) antibodies Peptides or proteins on solid surfaces made of glass, metals or Plastics. The basic principle of such biochip-based methods is miniaturized working in parallel through probe arrays Analysis systems on one if possible small area to get the simultaneous investigation of a large number of parameters.
Die Genanalyse mittels Oligonukleotidchips beruht auf der Fähigkeit beispielsweise von Einzelsträngen DNA eine Doppelhelix mit einem komplementären DNA-Fragment auszubilden. Dieser als Hybridisierung bezeichnete Vorgang erlaubt den sequenzspezifischen Nachweis eines DNA-Abschnitts durch ein Sonden-Oligonukleotid (Primer), das auf einer Oberfläche fixiert ist. Es wird jeweils ein Bündel von gleichen Primern auf einen Punkt/Matrixzelle aufgebracht. Diesen Punkt/Zelle bezeichnet man als Spot. Ein DNA-Chip besteht aus vielen verschiedenen Sonden, wodurch eine Detektion mehrerer Tausend DNA-Abschnitte möglich ist.Gene analysis using oligonucleotide chips is based on ability for example of single strands DNA to form a double helix with a complementary DNA fragment. This process, called hybridization, allows the sequence-specific one Detection of a DNA segment by a probe oligonucleotide (primer), that on a surface is fixed. There will be a bundle of the same primers on one Dot / matrix cell applied. This point / cell is called as a spot. A DNA chip is made up of many different probes, which enables detection of several thousand DNA sections.
Die Hybridisierung auf einem DNA-Chip wird beispielsweise mit einem Fluoreszenz-Mikroskop nachgewiesen, in dem die zu untersuchende DNA (oder der gesuchte DNA-Strang) mit Fluoreszenzfarbstoffen (Primer-Marker) markiert wird.Hybridization on a DNA chip is detected, for example, with a fluorescence microscope, in which the examining DNA (or the desired DNA strand) with fluorescent dyes (primer marker) is marked.
Bisher gibt es nur wenige Programme zur Berechnung von optimalen Primern. Nachteilig auch hierbei ist der derzeit noch enorme Zeitbedarf bei der Ausführung derartiger Programme.So far there are only a few programs for the calculation of optimal primers. This is also disadvantageous the enormous time currently required to execute such programs.
Ebenso sind für die Analyse von Proteinen und (Poly)Peptiden umfangreiche Rechenleistungen erforderlich. Peptid- bzw. Proteinchips, mit deren Hilfe Tausende von Peptiden bzw. Proteinen parallel charakterisiert werden können sind derzeit die einzige Möglichkeit, um der Aufgabe der Peptid bzw. Proteincharakterisierung in einem überschaubaren Zeithorizont Herr zu werden. Dies erfordert eine noch größere Rechenleistung als beispielsweise bei der Analyse von Nukleinsäuren bzw. Oligonukleotiden, denn während die Nukleinsäuren in ihren chemischen und molekularen Eigenschaften sehr ähnlich sind, gibt es eine Vielzahl an äußerst heterogenen Peptiden und Proteinen.Likewise for the analysis of proteins and (poly) peptides require extensive computing power. Peptide- or protein chips, with the help of thousands of peptides or proteins can be characterized in parallel are currently the only ones Possibility, to the task of peptide or protein characterization in a manageable Time horizon to master. This requires an even greater computing power than, for example, when analyzing nucleic acids or oligonucleotides, because during the nucleic acids are very similar in chemical and molecular properties, there is a multitude of extremely heterogeneous Peptides and proteins.
Die Funktion insbesondere der Proteine stützt sich auf ihre 3-dimensionale Struktur. Diese Struktur ist mitunter ausgesprochen empfindlich, wenn die Bedingungen unter denen sich die jeweiligen Proteine natürlicherweise befinden, verändert werden. Darüber hinaus besitzen Proteine enorme Größenunterschiede. Während es beispielsweise bei den DNA-Chips möglich ist, gleichgroße DNA-Fragmente an die Trägermaterialien zu knüpfen, ist dies zur Aufklärung der Aufgabe, die das Protein erfüllt nicht sinnvoll, da dieses dafür intakt sein und in der richtigen Konformation vorliegen muss.The function in particular of the proteins supports on their 3-dimensional structure. This structure is sometimes extremely sensitive when the conditions under which the respective proteins naturally are changed become. About that proteins also have enormous differences in size. While it for example, DNA fragments of the same size are possible to the carrier materials socialize, this is for enlightenment the task that the protein performs not useful as this is for that be intact and in the correct conformation.
An Proteinchips werden also weitaus höhere Anforderungen gestellt als an DNA-Chips. Bei den derzeit vorhandenen Proteinarrays handelt es sich überwiegend um Antikörperarrays, bei denen die spezifischen Fängermoleküle analog den DNA-Microarrays auf engstem Raum in Reihen und Spalten auf Trägermaterialien aufgetragen werden, um definierte Proteine aus einem Pool an Proteinen herauszufischen und zu analysieren. Für die Analytik werden enorme Rechenleistungen benötigt. Diese sind derzeit jedoch so, dass die Analyse von definierten Proteinen Tage dauert. Bei der Analyse werden alle Proteine des Proteinpools spezifisch radioaktiv, mit Fluoreszenzfarbstoffen oder mit Biotin markiert und auf dem Microarray mit den Fänger-Molekülen in Kontakt gebracht. Mit entsprechenden Detektionsmethoden können die an den Fängermolekülen gebundenen markierten Proteine nachgewiesen werden.So protein chips are far more higher Requirements placed on DNA chips. With the currently available Protein arrays are predominantly around antibody arrays, where the specific capture molecules are analogous the DNA microarrays in rows and columns on carrier materials in a very confined space to fish out defined proteins from a pool of proteins and analyze. For the analytics require enormous computing power. However, these are currently so that the analysis of defined proteins takes days. at all proteins in the protein pool are specifically radioactive in the analysis, marked with fluorescent dyes or with biotin and on the Microarray in contact with the capture molecules brought. With appropriate detection methods, the bound to the capture molecules labeled proteins are detected.
Daher hat die Vorbereitung des Experiments, insbesondere das Design des Experiments einen großen Anteil am Wert des gesamten Experiments. Bei dem Design von Biochips gibt es daher einen großen Bedarf an spezialisierter Rechner bzw. Rechnerleistung.Therefore, the preparation of the experiment, especially the design of the experiment made a big contribution on the value of the entire experiment. When designing biochips there it is therefore a big one Need for specialized computers or computing power.
Beim Design des Experiments müssen mit Computerunterstützung große und unterschiedliche Datenbanken gescreent werden um den Chipcontent festzulegen. Biochips können beispielsweise zur Analytik von Peptiden und/oder DNA-Sequenzen verwendet werden. Dabei ist beispielsweise die Suche nach genau dem Liganden (Oligonukleotide, cDNA-Moleküle, Antikörper) die nach ihrer Immobilisierung auf dem Chip ihren molekularen Partner aus der Probe des Patienten exakt binden, ohne zu sehr mit anderen Molekülen auf dem Chip um die Anlagung eines Partners konkurrieren, von zentraler Bedeutung. Es müssen also möglichst viele strukturelle Details in die Analyse mit eingehen, damit der richtige Chipinhalt ausgewählt und falsche Ergebnisse vermieden werden können.When designing the experiment, large and different databases must be screened with computer support in order to determine the chip content. Biochips can be used, for example, to analyze peptides and / or DNA sequences. Here, for example, is the search for exactly that Of central importance are ligands (oligonucleotides, cDNA molecules, antibodies) which, after being immobilized on the chip, bind their molecular partner precisely from the patient's sample without competing too much with other molecules on the chip to create a partner. As many structural details as possible must therefore be included in the analysis so that the correct chip content can be selected and incorrect results avoided.
Durch eine computergestützte Vorbereitung des Experiments lassen sich die experimentellen Bedingungen und insbesondere die Auswahl von Primern in Abhängigkeit von der Art des Biochips optimieren. In vertretbarer Zeit können so Experimente optimal vorbereitet werden und es kann eine Basis geschaffen werden, von der ausgehend eine richtige Interpretation der Meßpunkte ermöglicht wird.Through computer-aided preparation of the experiment, the experimental conditions and especially the selection of primers depending on the type of biochip optimize. Experiments can therefore be carried out optimally in a reasonable time be prepared and a basis can be created from based on a correct interpretation of the measuring points allows becomes.
Beispielsweise werden beim Durchsuchen von Datenbanken im allgemeinen Zieleigenschaften mit dem Inhalt der Datenbank verglichen. Ebenfalls sind bei der Optimierung von Experimenten Vergleichsbildungen durchzuführen. Bei solchen Vergleichsbildungen werden normalerweise verschiedene Kombinationen von Parametern gebildet und diese Kombinationen verschiedenen Bewertungsschritten unterzogen.For example, when browsing of databases in general target properties with the content compared to the database. Also in the optimization of Experiments to make comparisons. With such comparisons different combinations of parameters are usually formed and subjected these combinations to different evaluation steps.
Die Aufgabe der vorliegenden Erfindung bestand daher darin, ein Verfahren zur Verfügung zu stellen, das den Zeitaufwand beim Vergleich von n-Parameterfolgen noch weiter verkürzt, so dass komplexe Berechnungen einer Vielzahl von Daten einfach und schnell durchgeführt werden können.The object of the present invention was, therefore, to provide a method that takes the time shortened even further when comparing n-parameter sequences, see above that simple and complex calculations of a variety of data done quickly can be.
Diese Aufgabe wird durch ein Verfahren zum Vergleich von n-Parameterfolgen gelöst, wobei ein Teil der Parameter aller Parameterfolgen nach einer vorher definierten Vorschrift untereinander zu Parameterkombinationen kombiniert werden und jeder Parameterkombination nach einer vorher definierten ersten Bewertungsvorschrift ein erster Wert zugeordnet wird, und das Ergebnis der Bewertungsvorschrift eine einer Messung zugänglichen Eigenschaft entspricht, wobei die Kombinationen aus den Parametern der n Parameterfolgen eine m-dimensionale Matrix bilden und ein Teil dieser m-dimensionalen Matrix einer Matrix entspricht, die arithmetische logische Recheneinheiten umfaßt.This task is accomplished through a process solved for the comparison of n-parameter sequences, some of the parameters all parameter sequences according to a previously defined regulation can be combined to form parameter combinations and each parameter combination a first according to a previously defined first evaluation rule Value is assigned, and the result of the valuation rule one accessible to a measurement Property corresponds, the combinations of the parameters of the n parameter sequences form and form an m-dimensional matrix Part of this m-dimensional matrix corresponds to a matrix that is arithmetic includes logical processing units.
Zum besseren Verständnis der
vorliegenden Erfindung sind nachstehend die wesentlichen erfindungsgemäß verwendeten
Begriffe definiert:
Eine „vorher
definierte Vorschrift" im Sinne der Erfindung bedeutet beispielsweise
vorgegebene Anweisungen für
die Bildung der Parameterkombinationen, die in Form einer Rechenvorschrift
innerhalb eines Rechenprogramms oder als Teil der Computerarchitektur
in Form von integrierten Schaltkreisen vorliegen können. Weiterhin
können
die Anweisungen für
die Bildung der Parameterkombinationen biologisch, chemisch, physikalisch
vorgegeben sein oder von zufälliger
Art sein oder auch Kombinationen davon sein. Die vorher definierte Vorschrift
liegt dabei im allgemeinen schon vor der Bildung der Parameterkombinationen
vor.For a better understanding of the present invention, the essential terms used according to the invention are defined below:
A “previously defined rule” in the sense of the invention means, for example, predetermined instructions for the formation of the parameter combinations, which may be in the form of a calculation rule within a computer program or as part of the computer architecture in the form of integrated circuits. Furthermore, the instructions for the formation of the parameter combinations may be present be predetermined biologically, chemically, physically, or be of a random nature, or combinations thereof, the pre-defined rule generally being present before the parameter combinations are formed.
Eine „vorher definierte erste Bewertungsvorschrift" im Sinne der Erfindung bedeutet, dass die Bewertungsvorschrift im allgemeinen vor der Durchführung der Bewertung vorhanden ist, und die Bewertungsvorschrift für jede der möglichen Parameterkombinationen gleich oder verschieden sein kann. Die Bewertungsvorschrift bewirkt, dass einer oder mehreren Parameterkombinationen jeweils ein oder mehrere Werte zugewiesen werden. Vor allem bei Kombinationen aus mehr als zwei Parametern kann die Zuweisung mehrerer Werte nützlich sein. Die Bewertungsvorschrift kann in Form von Bewertungsanweisungen innerhalb eines Rechenprogramms oder als Teil der Computerarchitektur in Form von integrierten Schaltkreisen vorliegen. Weiterhin kann die Bewertungsvorschrift für die Bewertung der Parameterkombinationen biologisch, chemisch, oder physikalisch vorgegeben sein oder von zufälliger Art sein oder auch als Kombinationen davon vorgegeben sein. Beispielsweise könnte die Bewertungsvorschrift in einem biologischen und/oder chemischen System codiert sein. In einem solchen System wird die Bewertung durch die Struktur und Art der Moleküle codiert und die Bewertungsvorschrift durch gegenseitige Beeinflussung der Moleküle ausgeführt.A "previously defined first evaluation rule" in the sense of the invention means that the evaluation rule in general before performing the assessment exists, and the assessment rule for each of the potential Parameter combinations can be the same or different. The valuation rule causes one or more parameter combinations each one or more values can be assigned. Especially with combinations Assigning multiple values can be useful from more than two parameters. The evaluation rule can take the form of evaluation instructions within a computing program or as part of the computer architecture are in the form of integrated circuits. Furthermore can the valuation rule for the evaluation of the combinations of parameters biological, chemical, or be physically predetermined or be of a random nature or as Combinations of these can be specified. For example, the Evaluation rule coded in a biological and / or chemical system his. In such a system, the evaluation is through the structure and type of molecules coded and the assessment rule by mutual influence of the molecules executed.
Unter dem Begriff „Ergebnis" versteht man erfindungsgemäß die den Parameterkombinationen zugewiesenen Werte. Beispielsweise kann das Ergebnis der Bewertungsvorschrift ein Maß für das Zusammenpassen („Matching") der Parameter in den einzelnen Parameterfolgen liefern. Handelt es sich bei den Parametern beispielsweise um Basen von Oligonukeotidsequenzen, so kann das Ergebnis der Bewertung der Basenkombinationen ein Maß für die Bindungsstärke der jeweiligen Basenkombination umfassen. Werden andererseits Parameter miteinander kombiniert, die Teilen von Molekülen (Atome oder funktionelle Gruppen) entsprechen, wobei die Moleküle zum Beispiel Oligonukleotide und/oder Proteine sein können, so kann das Ergebnis der Bewertung, in Abhängigkeit von der Bewertungsvorschrift, ein Maß für die Bindungsfähigkeit zwischen den Parametern in einer Kombination sein oder beispielsweise auch ein Maß für die Übereinstimmung der Parameter sein. In einem anderen nicht beschränkenden Ausführungsbeispiel werden auf dem Gebiet der Bildverarbeitung Parameterfolgen, die Zeichenketten enthalten, miteinander mittels des erfindungsgemäßen Verfahrens verglichen. Solche Zeichenketten können beispielsweise Bildausschnitte oder auch Wort bzw. Wortfolgen darstellen (beispielsweise entsprechen die Parameter dann Grau- oder Farbstufen). Bei der Bildverarbeitung liefert der Vergleich von Zeichenketten als Ergebnis dann beispielsweise ein Maß für die Übereinstimmung und damit kann dem Ergebnis eine Eigenschaft zugeordnet werden, die besagt, dass eine bestimmter Parametersatz einem Bildausschnitt entspricht, dem eine Bedeutung wie zum Beispiel Straße oder Haus zukommt.Under the term "result" is understood according to the invention the Assigned values to parameter combinations. For example, that Result of the assessment rule a measure for the matching deliver the parameters in the individual parameter sequences. These the parameters are, for example, bases of oligonucleotide sequences, So the result of evaluating the base combinations can be a measure of the bond strength of the include each base combination. On the other hand, become parameters combined with each other, the parts of molecules (atoms or functional Groups), the molecules being, for example, oligonucleotides and / or proteins, the result of the evaluation, depending on the evaluation regulation, a measure of the ability to bind be in a combination between the parameters or, for example, also a measure of agreement be the parameter. In another non-limiting one embodiment In the field of image processing, parameter sequences that Contain strings, compared with each other by means of the inventive method. Such strings can For example, display image sections or word or word sequences (for example, the parameters then correspond to gray or color levels). In image processing, the comparison of character strings provides as a result, for example, a measure of the match and thus can a property is assigned to the result, which states that a certain parameter set corresponds to an image section, the meaning such as street or house.
Eine „einer Messung zugängliche Eigenschaft" im Sinne der Erfindung bedeutet, dass mit Hilfe einer Meßmethode und geeigneten Systemen ein oder mehrere Messergebnisse erhalten werden, die nach geeigneten Manipulationen einer Eigenschaft des Ergebnisses der Erfindung entsprechen. Die Meßmethode kann dabei biologischer, chemischer oder physikalischer Natur sein, Beispielsweise entspricht dem Ergebnis der ersten Bewertungsvorschrift im Falle eines beispielhaft verstandenen Verfahrens zur Selektion von Primern den Bindungsstärken zwischen den durch Kombination gebildeten Basenpaaren. Das heißt, die einer Messung zugängliche Eigenschaft ist die Wahrscheinlichkeit für Bildung einer chemischen Bindung, bzw. ein Maß für die Stärke der entstandenen chemischen Bindung, oder aber es können die Wahrscheinlichkeiten für das Vorkommen der den Parameterkombinationen entsprechenden gepaarten Oligonukleotidsequenzen sein. Solche Vorkommenswahrscheinlichkeiten für Bindungsbildungen lassen sich beispielsweise mit Gel-Elektrophorese oder Resonanzmethoden (NMR, ESR, μ-SR etc.) nachweisen. Durch Vergleich (beispielsweise Differenzbildung) der Messergebnisse von Systemen mit Bindungsbildungen mit Referenzsystemen ohne Bindungsbildungen werden die den Vorkommenswahr scheinlichkeiten entsprechenden Messergebnisse erhalten. Im Falle der Bildverarbeitung entsprechen dem Ergebnis, wie beispielsweise die Wahrscheinlichkeit für das Vorhandensein eines bestimmten Gegenstandes (zum Beispiel ein Haus), verschiedene Eigenschaften, wie zum Beispiel Temperatur usw.. Diese Eigenschaft ist geeigneten Meßmethoden, wie zum Beispiel Wärmebildkameraaufnahmen zugänglich.A "property accessible to a measurement" in the sense of the invention means that with the aid of a Measurement method and suitable systems, one or more measurement results are obtained which, after suitable manipulations, correspond to a property of the result of the invention. The measurement method can be of a biological, chemical or physical nature. For example, the result of the first evaluation rule in the case of an example of a method for selecting primers corresponds to the bond strengths between the base pairs formed by the combination. This means that the property accessible to a measurement is the probability of forming a chemical bond or a measure of the strength of the chemical bond formed, or it can be the probability of the occurrence of the paired oligonucleotide sequences corresponding to the parameter combinations. Such occurrence probabilities for bond formation can be demonstrated, for example, using gel electrophoresis or resonance methods (NMR, ESR, μ-SR, etc.). The measurement results corresponding to the probabilities of occurrence are obtained by comparing (for example forming a difference) the measurement results of systems with bond formation with reference systems without bond formation. In the case of image processing, the result, such as the probability of the presence of a certain object (for example a house), corresponds to various properties, such as temperature etc. This property is accessible to suitable measurement methods, such as thermal imaging camera recordings.
Eine „m-dimensionale Matrix" im Sinne der Erfindung bedeutet, dass sich im allgemeinen die gebildeten Parameterkombinationen als Matrix oder Teil einer Matrix darstellen lassen, beziehungsweise, dass bei der Bildung der Parameterkombinationen eine Matrix oder ein Teil einer Matrix entsteht. Dabei stellt jedes Matrixelement der entstandenen Matrix oder des entstandenen Teils einer Matrix eine Parameterkombination dar. Die Dimension m der Matrix übersteigt üblicherweise nicht die Anzahl n der Parameterfolgen.An "m-dimensional matrix" in the The meaning of the invention means that in general the formed Display parameter combinations as a matrix or part of a matrix let, respectively, that in the formation of the parameter combinations a matrix or part of a matrix is created. Each represents Matrix element of the resulting matrix or part a matrix represents a combination of parameters. The dimension m of the Matrix usually exceeds not the number n of parameter sequences.
Eine „arithmetisch-logische Recheneinheit" im Sinne der Erfindung bedeutet ein Matrix- beziehungsweise ein Verarbeitungselement, welches in der Lage ist, beispielsweise beliebige Vergleichs-, logische oder arithmetische Operationen durchzuführen. Nicht einschränkende Ausführungsbeispiele für erfindungsgemäße arithmetisch-logische Recheneinheiten sind in der nachstehenden Beschreibung aufgeführt. Das Verarbeitungselement kann dabei biologischer, chemischer oder physikalischer Natur oder Kombinationen davon sein. Ebenso führen die arithmetisch-logischen Recheneinheiten natürlich auch die Bewertung der gebildeten Parameterkombination durch.An "arithmetic-logical computing unit" In the sense of the invention, a matrix or a processing element means which is capable, for example, of any comparative, logical or perform arithmetic operations. Non-limiting embodiments for arithmetic-logic according to the invention Computing units are listed in the description below. The Processing element can be biological, chemical or physical Nature or combinations thereof. The arithmetic-logical also perform Computing units of course also the evaluation of the parameter combination formed.
Eine „Matrix, die arithmetische logische Recheneinheiten umfaßt" bedeutet erfindungsgemäß eine Logikeinheit, die bevorzugt zur parallelen Datenverarbeitung ausgelegt ist. Nicht einschränkende Ausführungsbeispiele für erfindungsgemäße Matrizen, die arithmetisch-logische Recheneinheiten umfassen sind in der nachstehenden Beschreibung aufgeführt.A “matrix, the arithmetic logical computing units includes " according to the invention means a logic unit, which is preferably designed for parallel data processing. Not restrictive embodiments for matrices according to the invention, the arithmetic-logic arithmetic units are included in the following Description listed.
Durch das erfindungsgemäße Verfahren lässt sich die Geschwindigkeit der Auswertung, beispielsweise bei der Suche nach optimalen physikalischen Eigenschaften eines gesuchten Oligonukleotids, eines Peptids oder ähnlicher Materialien bis um den Faktor 1000 gegenüber herkömmlichen Verfahren beschleunigen.By the method according to the invention let yourself the speed of the evaluation, for example when searching for optimal physical properties of a sought oligonucleotide, a peptide or the like Accelerate materials by a factor of 1000 compared to conventional processes.
Bevorzugt ist, wenn die Bildung aller oder eines Teils der Parameterkombinationen gleichzeitig, beispielsweise parallel, in sogenannten Pipelines (in einer Computer-Pipeline wird eine Instruktionsausführung in mehrere Verarbeitungsschritte aufgegliedert, die jeweils von einem dafür bestimmten Stück Hardware abgewickelt werden und alle parallel ablaufen. Die Pipeline entspricht einem Fließband, wobei in jedem Taktzyklus eine Instruktion vervollständigt werden kann) durchgeführt wird, das heißt die gepipelineten Daten werden parallel verarbeitet. Durch den Einsatz des Pipelinings werden Beschleunigungsfaktoren zwischen 10 und 100 im Vergleich zum Einsatz herkömmlicher Verfahren erreicht.It is preferred if the formation of all or part of the parameter combinations at the same time, for example in parallel, in so-called pipelines (in a computer pipeline an instruction execution divided into several processing steps, each of one for that certain piece Hardware are processed and all run in parallel. The pipeline corresponds to an assembly line, one instruction is completed in each clock cycle can) be carried out will, that is the pipelined data are processed in parallel. Because of the engagement of pipeline, acceleration factors between 10 and 100 im Comparison to the use of conventional Procedure reached.
In einer weiteren bevorzugten Ausführungsform des erfindungsgemäßen Verfahrens erfolgt die Bewertung aller oder eines Teils der Parameterkombinationen ebenfalls gleichzeitig, beispielsweise parallel in Pipelines. Dadurch kann die Geschwindigkeit des Verfahrens bis zum Erhalt eines Ergebnisses ebenfalls noch um Beschleunigungsfaktoren zwischen 100 und 1000 gesteigert werden.In a further preferred embodiment of the method according to the invention all or part of the parameter combinations are evaluated also simultaneously, for example in parallel in pipelines. Thereby can speed up the process until you get a result also by acceleration factors between 100 and 1000 be increased.
Bevorzugt erfolgt die Bewertung der gebildeten Parameterkombinationen durch die arithmetischen logischen Recheneinheiten. Dadurch kann beispielsweise jede arithmetische logische Recheneinheit eine individuelle Bewertungsvorschrift ausführen und die Parameterkombinationen können je nach Art oder physikalischer Bedeutung der Parameter individuell sinnvoll bewertet werden.The evaluation of the combinations of parameters formed by the arithmetic logical Processing units. Any arithmetic logical arithmetic unit execute an individual evaluation rule and the parameter combinations can depending on the type or physical meaning of the parameters individually be sensibly evaluated.
Vorteilhafterweise können die ersten Werte für alle Parameterkombinationen aus den n Parameterfolgen nach einer weiteren Bewertungsvorschrift weiterverarbeitet werden. Damit kann das Ergebnis aus der ersten Bewertungen durch eine weitere Bewertungsvorschrift, die beispielsweise Anweisungen für Summenbildungen oder Extremwertsuchen enthält, weiter verarbeitet werden und beispielsweise auf ein einfacheres zweites Ergebnis reduziert werden. Dieses Ergebnis kann dann noch weiterverarbeitet werden oder auch beispielsweise schon einem Molekül entsprechen, welches die gewünschten Eigenschaften, die in den Bewertungsvorschriften geeignet codiert sind, besitzt.Advantageously, the first values for all parameter combinations from the n parameter sequences after one further assessment rule can be processed further. So that can the result of the first evaluations by means of another evaluation regulation, the example instructions for Totaling or extreme value searches contains, are processed further and reduced to a simpler second result, for example become. This result can then be processed further or, for example, already correspond to a molecule that the desired Properties that are appropriately encoded in the valuation rules are, owns.
Besonders bevorzugt wird jede einzelne und/oder mehrere Kombinationen der Parameter in einer oder mehreren logischen Recheneinheiten gebildet und/oder bewertet, beispielsweise in unterschiedlich geprägten Pipelines (eine Pipeline führt z.B. eine Summenbildung, eine andere führt Vergleiche durch, etc.). Dadurch wird die Geschwindigkeit bis um den Faktor 100–1000 im Vergleich zum Einsatz herkömmlicher Verfahren gesteigert.Each individual and / or several combinations of the parameters is particularly preferably formed and / or evaluated in one or more logical arithmetic units, for example in differently shaped pipelines (one pipeline, for example, makes a sum, another carries out comparisons, etc.). This will the speed increased by a factor of 100-1000 compared to the use of conventional methods.
Vorteilhafterweise ist n eine ganze Zahl, die größer oder gleich 2 ist. So können zwei Parameterfolgen oder auch wesentlich mehr Parameterfolgen miteinander verglichen werden.Advantageously, n is a whole Number that is greater or is equal to 2. So can two parameter sequences or even more parameter sequences with each other be compared.
In einer weiteren vorteilhaften Ausführungsform des Verfahrens besteht jede Folge von Parametern aus einer Abfolge von diskreten Parametern. Dadurch können beliebige Parameterkombinationen direkt durch Kombination der diskreten Parameter aus den Parameterfolgen gebildet werden.In a further advantageous embodiment In the method, each sequence of parameters consists of a sequence of discrete parameters. This allows any combination of parameters directly by combining the discrete parameters from the parameter sequences be formed.
Bevorzugt umfassen Folgen die gleiche und/oder eine unterschiedliche Anzahl von Parametern. Dadurch können auch Folgen, die beispielsweise verschiedenen Stoffen oder verschiedenen Molekülen oder Molekülteilen entsprechen miteinander verglichen werden.Sequences preferably include the same and / or a different number of parameters. This can also Consequences, for example, different substances or different molecules or parts of molecules correspond to be compared with each other.
Vorteilhafterweise weisen die Folgen eine bestimmte vorab definierte Anordnung der Parameter innerhalb der Folgen auf. Damit sind beispielsweise Stoffe oder Moleküle in ihrem Aufbau definiert.Advantageously, the consequences a certain predefined arrangement of the parameters within of the consequences. For example, substances or molecules are in it Structure defined.
Bevorzugt weisen die Parameter eine einer Messung zugängliche Eigenschaft auf. Dadurch können beispielsweise die Parameter Eigenschaften von Messwerten (zum Beispiel Temperatur, Druck) aufweisen und/oder auch ganzen oder teilweisen biologischen Gebilden wie zum Beispiel Zellen entsprechen und/oder Teilen von Substanzen wie zum Beispiel den Basen von Primern entsprechen.The parameters preferably have a accessible to a measurement Property on. This can, for example the parameter properties of measured values (e.g. temperature, Pressure) and / or also whole or partial biological Forms such as cells correspond and / or parts of Correspond to substances such as the bases of primers.
Besonders bevorzugt können die Werte aus der ersten Zuordnung von Werten (erste Bewertungsvorschrift) weiteren Bewertungsvorschriften unterworfen werden. Damit kann das Ergebnis aus der ersten Bewertung weiter verarbeitet werden, wobei es beliebig viele weitere Zwischenergebnisse geben kann, bis schließlich ein Endergebnis zu Verfügung gestellt wird. In die weiteren Bewertungsschritte können verschiedene Auswahlkriterien für die Gestaltung, Bildung von/oder zur Selektion von Stoffen mit einfließen.The can particularly preferably Values from the first assignment of values (first valuation rule) subject to further assessment requirements. So that can Result from the first evaluation are processed further, whereby there can be any number of other interim results until finally one Final result available is provided. In the further evaluation steps, different Selection criteria for the design, formation of / or the selection of substances are included.
Vorteilhafterweise weist das Ergebnis eine einer Messung zugängliche Eigenschaft auf. So kann das Ergebnis beispielsweise ein oder mehrere Moleküle umfassen, welche beispielsweise bestimmte gewünschte Eigenschaften besitzen und/oder auch beispielsweise Eigenschaften, die mit dem/den Molekül/en in Zusammenhang stehen umfassen.The result advantageously shows a measurement accessible Property on. For example, the result can be one or more molecules include which, for example, have certain desired properties and / or, for example, properties associated with the molecule (s) in Are related.
Bevorzugt dient das Verfahren zum Vergleich von n Parameterfolgen zur Gestaltung, Bildung, Design von/oder zur Selektion von Stoffen. Dadurch können Parameterfolgen beispielsweise aus Stoffdatenbanken, die Stoffdaten enthalten durch geeignete Bewertungsschritte im Hinblick auf gewünschte Eigenschaften analysiert werden, wobei dann beispielsweise Stoffe selektiert oder designt oder neu gebildet bzw. gestaltet werden können.The method is preferably used for Comparison of n parameter sequences for the design, formation, design of / or for the selection of substances. This enables parameter sequences, for example from substance databases that contain substance data through suitable evaluation steps with regard to desired Properties are analyzed, for example substances selected or designed or newly formed or redesigned can.
Vorteilhafterweise sind die Stoffe biologische Moleküle. Dadurch kann beispielsweise das das Design von geeigneten Biochips evaluiert werden, oder beispielsweise auch biologische Eigenschaften Gensequenzen zugeordnet werden.The fabrics are advantageous biological molecules. This can be used, for example, to design suitable biochips be evaluated, or for example also biological properties Gene sequences can be assigned.
Bevorzugt sind die Moleküle Oligonukleotide. Dadurch werden bevorzugt beispielsweise Primer einfach designt oder selektiert werden.The molecules are preferably oligonucleotides. This means that, for example, primers are simply designed or be selected.
Besonders bevorzugt umfassen die Parameter in den Parameterfolgen der Schritte des Verfahrens die Basen der Oligonukleotide. Dadurch entsprechen die Parameterkombinationen Kombinationen von einfach zugänglichen und identifizierbaren Basen.Particularly preferably, the Parameters in the parameter sequences of the steps of the procedure the bases of oligonucleotides. As a result, the parameter combinations correspond Combinations of easily accessible and identifiable bases.
Vorteilhafterweise werden die Parameterkombinationen dadurch gebildet, indem jeweils zwei Parameterfolgen, der n Parameterfolgen zueinander einen Teil aller möglichen Anordnungen durchlaufen, und wobei die Anordnungen durch Verschiebung um jeweils einen diskreten Parameter zustande kommen. Eine Anordnung im Sinne der Erfindung kann sowohl eine räumliche Anordnung der Parameter, als auch eine beliebige Permutation der Parameter in n-dimensionalen realen oder virtuellen Räumen bedeuten. Dadurch können beispielsweise jeweils zwei Primer bei einer bestimmten Anordnung so miteinander in Wechselwirkung treten, dass es zu Kombination von Basen oder auch anderer Eigenschaften kommen kann. Durch das Verschieben der Primer um einen diskreten Parameter können alle sinnvollen Anordnungen durchlaufen werden.The parameter combinations are advantageous formed by two parameter sequences, the n parameter sequences to each other part of all possible Arrays go through, and the arrays by displacement around a discrete parameter. An arrangement In the sense of the invention, a spatial arrangement of the parameters, as well as any permutation of the parameters in n-dimensional real or virtual spaces mean. This allows for example two primers each with a certain arrangement interact so that it is to combination can come from bases or other properties. By the Moving the primer by a discrete parameter can all sensible orders.
Bevorzugt umfassen die Parameterkombinationen aus dem Teil aller möglichen Anordnungen der Parameterfolgen Basenpaare. Dadurch können beispielsweise chemische Wechselwirkungen wie Wasserstoffbrückenbindungen zwischen den Basen eines Basenpaares bewertet werden.The parameter combinations preferably comprise from the part of all possible Arrangements of the parameter sequences base pairs. This can, for example chemical interactions such as hydrogen bonds between the Bases of a base pair are evaluated.
Besonders bevorzugt wird den Basenpaaren ein hierarchisierbarer Wert zugeordnet. Damit können beispielsweise chemische Wechselwirkungen im Hinblick auf die Stabilität der möglicherweise gebildeten Bindung bewertet werden.The base pairs are particularly preferred assigned a hierarchizable value. For example, chemical Interactions with regard to the stability of the bond that may be formed be rated.
Vorteilhafterweise wird ein Teil der Parameterkombinationen gleichzeitig gebildet und diesem Teil und/oder einem Teil dieser gleichzeitig gebildeten Kombinationen zur gleichen Zeit ein hierarchisierbarer Wert zugeordnet. Dadurch wird die Geschwindigkeit bis um Faktoren von 10–100 im Vergleich zum Einsatz herkömmlicher Verfahren gesteigert.Advantageously, a part the parameter combinations formed simultaneously and this part and / or part of these combinations formed at the same time Time a hierarchizable value is assigned. This will make the speed by factors of 10–100 compared to the use of conventional Process increased.
Bevorzugt entspricht der zugeordnete Wert der Bindungsstärke der chemischen Bindung zwischen den komplementären Basen zwischen Primer und einer Oligonukleotidsequenz. Dadurch kann die Bindungsstärke als Basis für mögliche weitere Berechnungen, die der Selektion von beispielsweise Oligonukleotiden oder Primern dienen, herangezogen werden.The assigned one preferably corresponds Binding strength value the chemical bond between the complementary bases between primer and an oligonucleotide sequence. This allows the bond strength as base for possible further calculations, the selection of, for example, oligonucleotides or Serve primers, are used.
Besonders bevorzugt werden die, den Bindungsstärken entsprechenden Werte weiteren Berechnungsverfahren unterzogen, so dass das Ergebnis ein oder mehrere Auswahlkriterien für ein oder mehrere Oligonukleotide darstellt. Damit können Oligonukeotide, die den gewünschten Bindungseigenschaften entsprechen ausgewählt werden.Those are particularly preferred bond strengths corresponding values are subjected to further calculation methods, so that the result is one or more selection criteria for one or represents several oligonucleotides. This allows oligonucleotides that the desired Binding properties correspond to be selected.
Die Aufgabe der vorliegenden Erfindung wird weiter durch eine Vorrichtung zur Durchführung des erfindungsgemäßen Verfahrens gelöst, wobei die Vorrichtung einen Prozessor und einen Hardware-Beschleuniger zur parallelen Datenverarbeitung und einen Speicher, der mit dem Prozessor und/oder dem Hardwarebeschleuniger gekoppelt ist, umfasst, um das Verfahren oder Schritte des erfindungsgemäßen Verfahrens durchzuführen. Damit kann eine Vielzahl von Befehlen zur Ausführung des erfindungsgemäßen Verfahrens in den Hardwarebeschleuniger ausgelagert werden, was die Geschwindigkeit der Datenverarbeitung signifikant erhöht.The object of the present invention is further by a device for performing the method according to the invention solved, the device comprising a processor and a hardware accelerator for parallel data processing and a memory that with the Processor and / or the hardware accelerator is coupled, includes, to carry out the method or steps of the method according to the invention. In order to can a variety of commands to perform the inventive method be swapped out in the hardware accelerator what the speed data processing significantly increased.
Die spezielle Hardwarestruktur erlaubt somit die parallele, das heißt gleichzeitige Durchführung von vielen Rechenoperationen auf einen Schritt, wodurch auch hier die Geschwindigkeit der Verarbeitung der Daten entsprechend gesteigert wird.The special hardware structure allows thus the parallel, that is simultaneous implementation from many arithmetic operations to one step, which also means here the speed of processing the data increased accordingly becomes.
Bevorzugt weist der Speicher einen Teil der Programmbefehle zum Ausführen des Verfahrens und/oder für den Betrieb der Vorrichtung auf, wodurch das Verfahren direkt und ohne Verzögerung ausgeführt werden kann und somit auch hier die Geschwindigkeit der Bearbeitung der Daten entsprechend gesteigert werden kann.The memory preferably has one Part of the program instructions for executing the method and / or for the Operation of the device on, making the process direct and without delay be carried out can and therefore the speed of processing the Data can be increased accordingly.
Vorteilhafterweise ist der Hardwarebeschleuniger mit dem Prozessor gekoppelt. Durch die Kopplung des Hardwarebeschleunigers mit der CPU ist man in der Lage, rechenintensive Prozesse auf den Hardwarebeschleuniger auszulagern. Eine enge Kopplung ist notwendig, um einen schnellen Datenaustausch zwischen CPU und Hardwarebeschleuniger durchzuführen.The hardware accelerator is advantageous coupled to the processor. By coupling the hardware accelerator with the CPU you are able to run computationally intensive processes on the Outsource hardware accelerators. A close coupling is necessary for a fast data exchange between CPU and hardware accelerator perform.
Besonders bevorzugt enthält der Hardwarebeschleuniger einen Logikbaustein zur parallelen Datenverarbeitung. Durch den Einsatz eines Logikbausteins wird die Ausführung der Berechnungen/des Verfahrens direkt mit dem Logikbaustein kodiert und unter Berücksichtigung einer parallelen und gepipelinter Ausführung der Operation wird die Geschwindigkeit bei der Ausführung um einen Faktor 100–1000 im Vergleich zum Einsatz herkömmlicher Verfahren erreicht.The hardware accelerator particularly preferably contains a logic module for parallel data processing. By the The use of a logic module is used to carry out the calculations / The procedure is coded directly with the logic module and taking into account a parallel and pipelined execution of the operation will Execution speed by a factor of 100-1000 compared to the use of conventional Procedure reached.
Bevorzugt ist der Logikbaustein ein programmierbarer Logikbaustein. Dadurch ist eine besondere Flexibilität in den Bewertungsvorschriften bei den verschiedenen Bewertungsschritten erreichbar.The logic module is preferably a programmable logic module. This gives a special flexibility in the Assessment rules for the different assessment steps reachable.
Vorzugsweise ist der programmierbare Logikbaustein ein field-programmable-gate-array (FPGA). Der FPGA besitzt eine besondere Flexibilität im Bezug auf die Auswahl der Bewertungsvorschrift und ist somit in der Lage, diese in nur wenigen Millisekunden zu wechseln. Zudem ist die interne Struktur des FPGAs besonders geeignet, um die Verarbeitungsmatrix und die Bewertungsvorschrift parallel und gepipelined auszuführen. Daraus ergibt sich ein Geschwindigkeitsfaktor von 100–1000.It is preferably programmable Logic module a field programmable gate array (FPGA). The FPGA has a particular flexibility with regard to the selection of the valuation rule and is therefore able to do this in only change in a few milliseconds. In addition, the internal structure of the FPGA is particularly suitable for the processing matrix and the Execute valuation rule in parallel and pipelined. from that this results in a speed factor of 100-1000.
Bevorzugt ist der Logikbaustein ein ASIC. Die Ausführung als ASIC ist besonders bei einem sich nicht weiter veränderten Verfahren von Vorteil, da durch den Einsatz eines ASICs eine höhere Verarbeitungsgeschwindigkeit erreicht werden kann und aufgrund der höheren Packungsdichte weniger Siliziumfläche benötigt wird.The logic module is preferably a ASIC. Execution as ASIC is especially one that doesn't change any further This is an advantage because an ASIC uses a higher processing speed can be achieved and less because of the higher packing density silicon area is needed.
Besonders bevorzugt enthält die Vorrichtung eine computerlesbare Speichereinheit oder ein computerlesbares Speichermedium.The device particularly preferably contains a computer readable storage device or a computer readable storage medium.
Diese können sowohl in einem Host Rechner und/oder in dem Hardwarebeschleuniger angeordnet sein. Durch den Einsatz des Speichers werden die zu verarbeitenden Daten gespeichert und können während der Berechnungsvorschrift schnell und ohne große Verzögerung direkt für die Berechnungen eingesetzt werden. Der Speicher auf dem Host Prozessor enthält neben den Daten auch die Programmbefehle und kann auch dort ohne Verzögerungen arbeiten.These can both be in a host computer and / or be arranged in the hardware accelerator. By the When the memory is used, the data to be processed are saved and can during the Calculation instructions quickly and without great delay directly for the calculations be used. The memory on the host processor contains besides the data also the program instructions and can be there without delays work.
Vorteilhafterweise umfaßt die Speichereinheit oder das Speichermedium aufgezeichnete Daten der Parameterfolgen des Verfahrens. Der Vorteil, der sich durch die Speicherung der Daten der Parameterfolge ergibt, ist zum einen der direkte und nicht verzögerte Zugriff auf die Daten. Zum anderen kann der Speicher auf dem Hardwarebeschleuniger sowohl für die zu verarbeitenden Daten und gleichzeitig auch für die Ergebnisdaten genutzt werden. Dieser Speicher wird somit zweimal verwendet.The storage unit advantageously comprises or data of the parameter sequences recorded on the storage medium of the procedure. The advantage of storing the Data of the parameter sequence is, on the one hand, the direct and not delayed Access to the data. On the other hand, the memory on the hardware accelerator as well as the data to be processed and at the same time for the result data be used. This memory is therefore used twice.
Es versteht sich, dass die vorstehend genannten und die nachstehend noch zu erläuternden Merkmale nicht nur in der jeweils angegebenen Kombination, sondern auch in anderen Kombinationen oder in Alleinstellung verwendbar sind, ohne den Rahmen der vorliegenden Erfindung zu verlassen.It is understood that the above not only mentioned and the features to be explained below in the specified combination, but also in others Combinations or alone can be used without the frame to leave the present invention.
Vorteilhafte, nicht einschränkende, Ausgestaltungen der Erfindung, sind weiter in den Zeichnungen und der dazugehörigen Beschreibung erläutert. Hierbei zeigen:Advantageous, non-limiting, Embodiments of the invention are further in the drawings and the associated Description explained. Here show:
Die CPU
Die Komponenten der erfindungsgemäßen Vorrichtung
CPU
Unter CPU wird eine „Central
Processing Unit", das heißt
eine zentrale Recheneinheit verstanden. Die CPU
Schnittstelle
Weiter ist in der erfindungsgemäßen Vorrichtung
gemäß
Schnittstellen
Andere mögliche Schnittstellen können beispielsweise ein ISA Bus (ISA bedeutet „Industry Standard Architecture") oder ein EISA Bus (EISA bedeutet „Extended ISA"), USB, PCI-X, Fire Wire, PCMCIA, ein Bussystem innerhalb eines Systems-on-a-Chip, Verbindungsnetzwerk auf dem Chip/Die sein. Dabei können die Schnittstellen Bestandteil einer CPU oder eines Prozessors zur parallelen Datenverarbeitung sein.Other possible interfaces can be, for example, an ISA bus (ISA means "Industry Standard Architecture ") or an EISA bus (EISA means" Extended ISA "), USB, PCI-X, Fire Wire, PCMCIA, a bus system within a systems-on-a-chip, connection network on the chip / die. The interfaces can be part of a CPU or a processor for parallel data processing.
Hardwarebeschleuniger
Weiter ist in der erfindungsgemäßen Vorrichtung
Falls im Hardwarebeschleuniger ein FPGA-Chip zum Einsatz kommt, so sind für den Betrieb des Hardwarebeschleunigers folgende Komponenten typischerweise, aber nicht ausschließlich, notwendig: ein FPGA-Baustein, ein RAM-Baustein, ein Takt-Generator, ein PCI-Schnittstellenbaustein, eine PCI-Karte, eine programmierbare Kontrolllogikeinheit sowie ein Betriebssystem. Bei anderen Hardwarebeschleunigerarchitekturen, beispielsweise bei der Verwendung eines ASICs oder eines CPU-Clusters werden verschiedene Bausteine nicht, beziehungsweise nicht in der vorstehenden Konfiguration oder aber andere Bausteine benötigt.If in the hardware accelerator FPGA chip is used, so are for the operation of the hardware accelerator the following components are typically, but not exclusively, necessary: an FPGA module, a RAM module, a clock generator, a PCI interface module, a PCI card, a programmable control logic unit and an operating system. With other hardware accelerator architectures, for example when using an ASIC or a CPU cluster different modules are not, or not in the configuration or other modules required.
Die Parallelität in der erfindungsgemäßen Vorrichtung
Die Datenübertragung von der CPU
Datentransfer 1: Der Datentransfer
von der CPU
Datentransfer 2: der Datentransfer
vom Hardwarebeschleuniger
Vorteilhafterweise werden die Daten zwischen dem Host-Computer und dem Hardwarebeschleuniger per DMA Mode in einem Burst übertragen, um eine minimale Datenübertragungszeit erreiche, wobei natürlich auch andere, dem Fachmann an sich bekannte Übertragungsweisen erfindungsgemäß eingesetzt werden können.Advantageously, the data between the host computer and the hardware accelerator are transmitted in a burst using DMA mode in order to achieve a minimum data transmission time, of course other transmission methods known per se to the person skilled in the art can also be used according to the invention.
Der Pfeil A in
Die Parameterfolgen werden jeweils
an die beiden Eingänge
Bei der besonderen, vorstehend erwähnten Ausführungsform
der Matrix sind die Parameterfolgen
Ganz allgemein kann der Vergleich und die anschließende Gewichtung auch durch beliebige arithmetische Funktionen wie Addition, Multiplikation, usw. oder aber auch durch Kombinationen aus diesen entstehen. Auch die Gewichtung des Ausgangs kann eine komplexere Funktion darstellen, die zum Beispiel durch weitere Eingangssignale beeinflusst werden kann.In general, the comparison can and the subsequent one Weighting also by any arithmetic functions such as addition, Multiplication, etc., or by combinations of these arise. The weighting of the output can also be more complex Represent function, for example, by additional input signals can be influenced.
Jede Matrixzelle
Auf der Seite des Host-Prozessors
PCI-Schnittstellenbaustein
Bei dem PCI-Bus
Kontrolllogik
Die Kontrolllogik
Taktgenerator
Zum Betreiben, insbesondere zum synchronen
Betreiben, der Bausteine auf dem Hardwarebeschleuniger
RAM-Bausteine
Mit Hilfe der RAM Bausteine
Prozessor Element (FPGA)
Die Matrix
In dem in
Tabelle 1: Beispiele für Verarbeitungselemente und deren Matrixgröße. Table 1: Examples of processing elements and their matrix size.
Ein Matrixelement besitzt dabei 4 × 4 Bit
LUTs (The Programmable Logic Data Book
Durch das Zusammenschalten mehrerer CLBs kann so innerhalb des FPGAs eine Verarbeitungsmatrix aufgebaut werden, deren physikalische Matrixgröße zwischen 1 × 1 und 106 × 106, bevorzugt zwischen 16 × 16 und 30 × 30 liegt. Die Größe der Verarbeitungsmatrix und der einzelnen Matrixelemente selbst sind bevorzugt vorab fest definiert, aber auch variabel definiert. Innerhalb der Zellen der Verarbeitungsmatrix werden logische Vergleiche mittels einer LUT und den beiden anliegenden Werten ausgeführt. Natürlich ist jede logische oder arithmetische Operation, z.B. eine Multiplikation, innerhalb einer Zelle der Verarbeitungsmatrix denkbar und durch Zusammenschalten von zwei oder mehreren CLB des FPGA Bausteins erreichbar.By interconnecting a number of CLBs, a processing matrix can be built up within the FPGA whose physical matrix size is between 1 × 1 and 10 6 × 10 6 , preferably between 16 × 16 and 30 × 30. The size of the processing matrix and the individual matrix elements themselves are preferably defined in advance, but are also defined in a variable manner. Logical comparisons are carried out within the cells of the processing matrix using a LUT and the two values applied. Of course, any logical or arithmetic operation, such as multiplication, is conceivable within a cell of the processing matrix and can be achieved by interconnecting two or more CLBs of the FPGA module.
In einem FPGA-Prozessor
Die Pfeile symbolisieren den Ablauf
des erfindungsgemäßen Verfahrens
in einer erfindungsgemäßen Vorrichtung
Das erfindungsgemäße Verfahren wird weiter anhand eines Verfahrens zur Bestimmung von Primersequenzen beispielhaft veranschaulicht, ohne daß darunter eine Beschränkung des erfindungsgemäßen Verfahrens verstanden werden soll.The method according to the invention is further illustrated of a method for determining primer sequences as an example illustrated without including it a limitation of the method according to the invention should be understood.
Für die Bestimmung der Primer werden zunächst jeweils zwei Sequenzbereiche aus jeder zu detektierenden Sequenz (Target Sequenz) ausgewählt. Diese Bereiche sind in der regel länger als der zu findende optimale Primer für jeweils eine Targetsequenz. Zusätzlich werden für die Bestimmung der Primer weitere Parameter berücksichtigt (u.a. Primerlänge, Temperatur etc.). Diese Parameter bestimmen die Auswahlkriterien für die Bewertungsfunktion. Innerhalb der Berechnung durchlaufen die potentiellen Primerkandidaten für jede gegebene Targetsequenz mehrere Berechnungsverfahren. Eines dieser Bewertungsverfahren ist der eins zu eins Vergleich einzelner Basenpaare. Die Teilergebnisse werden in einer Gesamtbewertung zu einem Ergebnis zusammengefügt.For the determination of the primers will initially be two sequence areas selected from each sequence to be detected (target sequence). This Areas are usually longer as the optimal primer to be found for each target sequence. additionally be for the determination of the primers takes other parameters into account (e.g. primer length, temperature Etc.). These parameters determine the selection criteria for the evaluation function. The potential primer candidates run through in the calculation for any given Target sequence several calculation methods. One of these assessment procedures is the one-to-one comparison of individual base pairs. The partial results are combined into one result in an overall evaluation.
Die gesamte Berechnung unterteilt sich in zwei Stufen. In der ersten Stufe werden die einzelnen Primer separat evaluiert und die optimalen Primer ermittelt. In der zweiten Stufe wird die Interaktion zwischen den Primern jeder einzelnen Targetsequenz mit den Primern aller anderen Targetsequenzen untersucht.The entire calculation is divided yourself in two stages. In the first stage, the individual primers evaluated separately and the optimal primers determined. In the second Level is the interaction between the primers of each one Target sequence examined with the primers of all other target sequences.
Im folgenden wird die erste Stufe der Berechnung beschrieben. Dabei sind diese Berechnungen weiter unterteilt in die Bereiche a) Primergenerierung, b) Berechnung der Parameter des Primers c) Bewertung der ermittelten Werte. Diese drei Bereiche a), b) und c) werden in den nachfolgenden Abschnitten näher erläutert.The following is the first stage described in the calculation. These calculations are further subdivided in the areas a) generation of primers, b) calculation of the parameters of the primer c) evaluation of the determined values. These three areas a), b) and c) are explained in more detail in the following sections.
Die Primergenerierung, das heißt die Zusammenstellung
der Primer erfolgt folgendermaßen:
Aus einer vorgegebenen DNA-Sequenz sind einzelne Primer zu extrahieren,
die der Berechnung zugeführt
werden. Die Extrahierung der Primer erfolgt auf der Basis der gegebenen
DNA-Sequenz und der Längenvorgabe
für die
Primer. Für
jede Länge
wird eine vorab bestimmbare Anzahl an Primern erzeugt. Die Anzahl
berechnet sich durch:
Anzahl Primer = (DNA-Sequenzlänge) – (Primerlänge) + 1The primer generation, that is to say the combination of the primers, is carried out as follows: Individual primers are to be extracted from a predetermined DNA sequence and are used for the calculation. The primers are extracted on the basis of the given DNA sequence and the length specification for the primers. A predeterminable number of primers is generated for each length. The number is calculated by:
Number of primers = (DNA sequence length) - (primer length) + 1
Bedingung: die DNA Sequenz ist länger, d.h. weist mehr Nukleosidbausteine auf als der Primer.Condition: the DNA sequence is longer, i.e. has more nucleoside units than the primer.
Beginnend an der ersten Sequenzposition werden die Primer ermittelt. Dieser Vorgang wird für jede gegebene Primerlänge wiederholt.Starting at the first sequence position the primers are determined. This process is given for each primer length repeated.
Ist die DNA Sequenz beispielsweise:
und
soll die Primerlänge
bei 10–11
Basen liegen, so werden folgende Primer ermittelt: 10 Basen besitzen
sind folgenden Primer: und
11 Basen besitzen die folgenden Primer: For example, if the DNA sequence is:
and if the primer length is 10–11 bases, the following primers are determined: 10 bases have the following primers: and 11 bases have the following primers:
Es müssen nun die Parametersätze für das optimale Primerset bestimmt werden. Dazu gibt es folgende wichtige Randbedingungen: Die Primer dürfen nicht mit sich selbst binden, aber auch nicht mit den weiteren auf dem Chip. Die Primer dürfen ebenfalls nicht mit den Markern binden. Die erste und zweite Randbedingung gilt ebenfalls für Marker.Now the parameter sets for the optimal Primer set can be determined. There are the following important boundary conditions: The primers are allowed not bind with yourself, but also not with the others the chip. The primers are allowed also do not bind with the markers. The first and second boundary conditions apply also for Marker.
Bei der Berechnung werden alle möglichen Kombinationen des Primers (die durch die erste Stufe „Primergenerierung" ermittelt werden) mit den Reverse Primer untersucht.When calculating all possible Combinations of the primer (which are generated by the first stage "primer generation" are determined) with the reverse primer.
Die zu berechnenden Parameter sind: a) Self Annealing (SA), b) Self End Annealing (SEA), c) Weitere Berechnungen (Zusatzfunktionalitäten wie beispielsweise Temperatur und GC-Verhältnis).The parameters to be calculated are: a) Self Annealing (SA), b) Self End Annealing (SEA), c) Further calculations (Additional Features such as temperature and GC ratio).
Die Berechnung der SA Werte wird durchgeführt, um eine Bindung (Reaktion) mit den gleichen Primer zu untersuchen. Erfolgt eine Bindung mit sich selbst, so wird die Bindung mit der zu suchenden Sequenz verhindert und ein falsches Untersuchungsergebnis wird produziert.The calculation of the SA values is carried out, to study binding with the same primer. If there is a bond with itself, the bond with the Prevented sequence to be searched and an incorrect test result is produced.
Es gibt folgende Berechnungsvorschrift: Die Berechnung erfolgt durch die Ermittlung aller möglicher Kombinationen der Überlagerung. Bei der Ermittlung des SA-Wertes werden nur die komplementären Übereinstimmungen (A⟺T und C⟺G) zusammengezählt. Bei der Aufsummierung ist es unerheblich, wo sich die Übereinstimmungen befinden. Nur das Vorhandensein einer Übereinstimmung ist relevant. Die Gewichtung der gefundenen Kombination ist unterschiedlich (A?T = 2; C?G = 4). Es versteht sich von selbst, dass im Rahmen der Erfindung auch andere Gewichtungen möglich sind. Aufgrund der biologischen Eigenschaften muß der Primer nur in der reversen Abfolge gegen den Primer getestet werden. Beispielsweise wird der zu untersuchende Primer mit den 4 Basen AGTC. gegen den reversen Primer CTGA folgendermaßen getestet: Für die Berechnung von SA gibt es 7 Überlagerungen zu bilden. In dem Beispiel werden die ersten beiden zu bewertenden Überlagerungen gezeigt, die weiteren 5 Überlagerungen sind durch Verschiebung des Reverse Primers gegenüber dem zu untersuchenden Primer, um jeweils eine Base zu bilden. Die erste Überlagerung ist: There is the following calculation rule: The calculation is carried out by determining all possible combinations of the overlay. When determining the SA value, only the complementary matches (A⟺T and C⟺G) are added together. When adding up, it does not matter where the matches are. Only the existence of a match is relevant. The weighting the combination found is different (A? T = 2; C? G = 4). It goes without saying that other weightings are also possible within the scope of the invention. Due to the biological properties, the primer only has to be tested in reverse order against the primer. For example, the primer to be examined with the 4 bases AGTC. tested against the reverse primer CTGA as follows: There are 7 overlays to calculate SA. In the example, the first two overlays to be evaluated are shown, the other 5 overlays are by shifting the reverse primer relative to the primer to be examined in order to form a base. The first overlay is:
Die insgesamt durchzuführenden Berechnungen für das Beispiel mit einer Länge von 4 Basen sind in der nachfolgenden Tabelle dargestellt: Tabelle 1: Tabelle mit den für das 4 Basen Beispiel durchzuführenden Bewertungen bei der SA Berechnung The total calculations to be carried out for the example with a length of 4 bases are shown in the table below: Table 1: Table with the evaluations to be carried out for the 4 base example in the SA calculation
Bei der Berechnung des SEA Wertes wird ebenfalls die Bindung der einzelnen Primer mit sich selbst getestet, um die Einsetzbarkeit des Primers zu bestimmen. Für die Berechnung der SEA Werte kommt ein sehr ähnliches Berechnungsverfahren wie im Fall der Bestimmung der SA Werte zur Anwendung. Für die Ermittlung der SEA werte sind nur die Primerkombinationen interessant, die am Ende des Primers beginnen. Das heißt, für die Berechnung sind nur die Primerkombinationen zu berücksichtigen, bei denen die letzte Base mit einer Base des Reverse Primers interagieren kann, die bis zum ersten Auftreten einer Nicht-Übereinstimmung gefunden werden. Alle nachfolgenden Übereinstimmungen werden nicht hinzugezählt.When calculating the SEA value the binding of the individual primers to themselves is also tested, to determine the applicability of the primer. For the calculation the SEA values comes a very similar one Calculation method as in the case of determining the SA values for Application. For the determination of the SEA values only the primer combinations are interesting, that start at the end of the primer. That is, only those are for the calculation To consider primer combinations, where the last base interact with a base of the reverse primer can be found until the first occurrence of a mismatch. All subsequent matches are not added.
Beispielsweise wird wieder, wie im Falle der SA Werte Berechnung, der zu untersuchende Primer mit den 4 Basen AGTC gegen den Reversen Primer CTGA folgendermaßen getestet: Für die Berechnung von SEA gibt es 4 Überlagerungen zu bilden. In dem Beispiel werden die ersten beiden zu bewertenden Überlagerungen gezeigt, die weiteren 2 Überlagerungen sind durch Verschiebung des Reverse Primers gegenüber dem zu untersuchenden Primer, um jeweils eine Base zu bilden. Die erste Überlagerung ist: For example, as in the case of the SA value calculation, the primer to be tested with the 4 bases AGTC is tested against the reverse primer CTGA as follows: There are 4 superimpositions for the calculation of SEA. In the example, the first two overlays to be evaluated are shown, the other 2 overlays are by shifting the reverse primer relative to the primer to be examined in order to form a base. The first overlay is:
Die zweite Überlagerung ist: The second overlay is:
Im Gegensatz zu der Werteermittlung bei der SA Berechnung, werden bei der SEA Berechnung nur die Übereinstimmungen aufaddiert, die sich beginnend bei der letzten Position im Primer bis zum Vorkommen der ersten Nichtübereinstimmung ergeben. Übereinstimmungen nach dieser Position werden nicht mit addiert.In contrast to the determination of values in the SA calculation, only the matches in the SEA calculation added up, starting from the last position in the primer until the first mismatch occurs. matches after this position are not added.
Die Gewichtung der gefundenen Übereinstimmungen ist identisch mit der bei der SA Berechnung.The weighting of the matches found is identical to that for the SA calculation.
Zur Verdeutlichung dieser Berechnung sind die sich ergebenden Berechnungen in der nachfolgenden Tabelle zusammengefasst.To clarify this calculation are the resulting calculations in the table below summarized.
Tabelle 2: Tabelle mit den für das 4 Basen Beispiel durchzuführenden Bewertungen bei der SEA Berechnung Table 2: Table with the evaluations to be carried out for the 4 base example in the SEA calculation
Für jeden ermittelten Primer werden weitere Berechnungen ausgeführt, die für die spätere Gesamtbewertung des Primers hinzugezogen werden.For For each primer determined, further calculations are carried out for the latter Overall rating of the primer can be consulted.
Die Bewertung der ermittelten Werte erfolgt für jeden in der ersten Stufe generierten Primer. Die ermittelten Werte für das SA und SEA und für die weiteren Berechnungen werden jeweils mit einem Gewichtungsfaktor zu einem Gesamtergebnis zusammengeführt. In einer speziellen Ausführungsform wird nur das erhaltenen Maximum als SA/SEA Wert übernommen und mit dem Gewichtungsfaktor addiert. Es versteht sich von selbst, daß eine andere Gewichtung und/oder Berechnungsvorschrift entsprechende Modifikationen erfordern , die der Fachmann ohne erfinderisch tätig zu werden sofort implementieren kann.The evaluation of the determined values done for every primer generated in the first stage. The determined values for the SA and SEA and for the further calculations are each based on a weighting factor merged into an overall result. In a special embodiment only the maximum received is taken over as SA / SEA value and with the weighting factor added. It goes without saying that a different weighting and / or Calculation rule require corresponding modifications that the specialist works without inventive step to be able to implement immediately.
Zusätzlich zu der Ermittlung des Gesamtergebnisses werden die Einzelergebnisse mit den übergebenen Parametern verglichen. Die Parameter beschreiben dabei einen Bereich, in dem die Ergebnisse gültig sind. Bei einer Verletzung eines dieser Bereiche wird der berechnete Primer verworfen und als ungültig eingestuft.In addition to determining the Overall results are the individual results with the transferred Compared parameters. The parameters describe an area in which the results are valid. If one of these areas is violated, the calculated primer is used discarded and considered invalid classified.
Aus allen gültigen Werten werden die jeweils besten Primer ermittelt und für die Verarbeitung in der zweiten Stufe zwischengespeichert.All valid values become the best primer determined and for the processing is cached in the second stage.
Im Folgenden wird die zweite Stufe der Berechnung beschrieben.Below is the second stage described in the calculation.
Um die Interaktion zwischen Primern der einzelnen Spots, zwischen Primern und Primermarkern und zwischen den Markern zu bewerten, kommen wiederum die Berechnungsverfahren SA und SEA zum tragen.Interaction between primers of the individual spots, between primers and primers and between to evaluate the markers, again come the calculation methods SA and SEA to wear.
In dieser Stufe werden jedoch nicht die gleichen Primer gegen sich selbst getestet, sondern jeweils ein Primer (entspricht einem Ergebnis aus der ersten Stufe) wird gegen einen anderen Primer verglichen. Es wird also ein paarweiser Vergleich über alle möglichen Primerkombinationen durchgeführt.In this stage, however, the same primers are not tested against themselves, but one primer (corresponds to a result from the first stage) is compared against another primer. It will So a pairwise comparison of all possible primer combinations was carried out.
Die zu berechnenden Parameter sind a) Pair Annealing (PA) und b) Pair End Annealing (PEA)The parameters to be calculated are a) Pair Annealing (PA) and b) Pair End Annealing (PEA)
Die Berechnungsverfahren für PA und PEA entsprechen im Wesentlichen mit den Verfahren bei der Ermittlung des SA und des SEA Wertes, wobei offensichtlich Abweichungen natürlich auch unter den Umfang der vorliegenden Erfindung fallen. Details der Berechnung sind vorstehend erläutert. Die Berechnungsverfahren sind im Grundsatz gleich, jedoch kann das Berechnungsverfahren für die PA und PEA Berechnung beispielsweise auch Primer mit unterschiedlicher Länge verarbeiten.The calculation methods for PA and PEA essentially correspond to the procedures in the determination of the SA and the SEA value, although obviously also deviations fall within the scope of the present invention. Details of the Calculation are explained above. The calculation methods are basically the same, but this can Calculation procedure for the PA and PEA calculation, for example, also primers with different Process length.
Für jeden ermittelten Primer werden wiederum weitere Berechnungen ausgeführt, die für die spätere Gesamtbewertung des Primers hinzugezogen werden.For for each primer determined, further calculations are carried out, which for the later overall evaluation of the primer.
Im Folgenden wird dieser Verfahrensablauf
mittels der erfindungsgemäßen Vorrichtung
Schritt 1:Step 1:
Auf dem Rechner
Schritt 2:Step 2:
Nach der Übertragung startet die Verarbeitung
der Daten auf dem Hardwarebeschleuniger
Schritt 3:Step 3:
Nach der Berechnung der einzelnen
Primer werden die besten Paare von jeweils zwei aufeinanderfolgenden
Primern ermittelt. Ermittelt werden jeweils die Primer Paar Daten
eines geraden und eines ungeraden Primers (P1 + P2; P3 + P4; P5
+ P6; usw.). Die Ergebnisdaten (von Schritt 2) werden aus dem zweiten
RAM
Schritt 4:Step 4:
In dem vierten Schritt der Verarbeitung
werden die Daten aus dem zweiten RAM ausgelesen und an den Host
Prozessor
Schritt 5:Step 5:
Sobald die Übertragung der Daten zum Host
Prozessor
In dem speziellen Ausführungsbeispiel
der Primerbestimmung des erfindungsgemäßen Verfahrensablaufs in
Die Daten werden innerhalb des Host-Computers
Das Datenformat der Sequenzdaten
und Parameterdaten nach dem diese Daten in der RAM Bank 1
Der Speicher ist unterteilt in 1024 Blöcke zu je 64 Worten a 32 Bit. Jedes dieser Blöcke speichert eine Sequenz, aus der die jeweiligen Primer extrahiert werden. Im Anschluß an die 1024 Blöcke ist ein weiterer Block angehängt, der die Parameterdaten für den zweiten Teil der Berechnung enthält.The memory is divided into 1024 blocks 64 words of 32 bits each. Each of these blocks stores a sequence, from which the respective primers are extracted. Following the 1024 blocks there is another block attached which is the parameter data for contains the second part of the calculation.
Es versteht sich von selbst, dass die Limitierung auf 1024 Blöcke und 64 Worte je Block keine grundsätzliche Limitierung darstellt, sondern eine frei gewählte Grenze für das spezielle Ausführungsbeispiel ist und je nach beabsichtigter Anwendung frei gewählt werden kann.It goes without saying that the limitation to 1024 blocks and 64 words per block is not a basic limitation, but a freely chosen one Limit for the special embodiment and can be freely selected depending on the intended application can.
Bei dem Block mit den Parameterdaten für die zweite Berechnung handelt es sich um jeweils zwei 32Bit Worte für jedes Primerpaar, das berechnet wird. Innerhalb der beiden Worte werden die Parameterdaten für die PA und die PEA Berechnung gespeichert. Die in den beiden Worten gespeicherten Parameter sind: PA minimum, PA maximum und PA Optimum, sowie PEA minimum, PEA maximum und PEA Optimum.In the block with the parameter data for the second calculation is two 32 bit words for each Primer pair that is calculated. Within the two words the parameter data for the PA and PEA calculations are saved. The in the two words saved parameters are: PA minimum, PA maximum and PA optimum, as well as PEA minimum, PEA maximum and PEA Optimum.
Zur Speicherung der Sequenz steht jeweils ein Block mit 64 Adressen a 32 Bit bereit. Dieser Block unterteilt sich weiterhin in einen Bereich, der die für den Block notwendigen Parameter enthält und einen Block mit den Sequenzdaten. Aus dieser Aufteilung ergibt sich eine maximale Länge von 944 Basen pro Sequenz.The sequence is saved one block with 64 addresses of 32 bits each. This block divided continue in an area that contains the parameters necessary for the block contains and a block with the sequence data. From this division results yourself a maximum length of 944 bases per sequence.
Die Sequenzdaten sind so aufgebaut,
dass pro Datenwort jeweils 16 Basen kodiert sind. Der Ablauf Controller
Die Parameter für die Berechnung des ersten
Schrittes sind in den untersten 5 Datenworten gespeichert. Diese
Parameter werden zu Beginn jeder Berechnung vom Ablauf Controller
Das Datenformat, das die Ergebnisdaten aus dem ersten und zweiten Schritt speichert, wird nachfolgend beschrieben.The data format that the result data stores from the first and second step is described below.
Die RAM Bank 2 ist unterteilt in Blöcke mit jeweils 256 Einträgen pro Sequenz. Der gesamte Bereich besteht ausschließlich aus Paketen zu jeweils 256 Wörtern.The RAM bank 2 is divided into blocks with 256 entries each per sequence. The entire area consists exclusively of Packets of 256 words each.
Für
die Zwischenspeicherung der Ergebnisse aus dem ersten Schritt werden
128 Wörter
benötigt, denn
jedes Ergebnis ist in zwei Datenwörtern kodiert. Diese Ergebnisse
sind innerhalb des Blocks in absteigender Reihenfolge ab Adresse
Der Bereich zwischen der Block Adresse
Aufgrund der Berechnung jeweils eines Primerpaars (ungerade und nachfolgende gerade Primer) entsteht für diese beiden Blöcke nur jeweils ein Ergebnis. Dieses Ergebnis ist nur innerhalb des ungeraden Blocks gespeichert.Based on the calculation one Primer pairs (odd and subsequent even primers) are created for them two blocks only one result at a time. This result is only within the odd blocks saved.
Das nachstehende nicht einschränkende Ausführungsbeispiel des erfindungsgemäßen Verfahrens zeigt die Beschleunigung bei der Berechnung von Primern gegenüber einem Verfahren mit sequenzieller Ausführung der Verfahrensschritte:The following non-limiting embodiment of the inventive method shows the acceleration when calculating primers against one Sequential execution method of process steps:
Ausführungsbeispielembodiment
Die Messungen der Softwareausführung wurden auf einem Pentium III 500 MHZ/128 MByte RAM ausgeführt. Die Gesamtdauer des Verfahrens betrug 1920 s.The measurements of the software execution were executed on a Pentium III 500 MHz / 128 MB RAM. The The total duration of the procedure was 1920 s.
Die Messungen auf dem Hardwarebeschleuniger wurden auf einem microEnable II System mit einem Virtex 400 FPGA bei 50 MHz ausgeführt. Die Gesamtdauer des erfindungsgemäßen Verfahren betrug 3,41 s. Zur Durchführung der Messungen wurde ein Host Computer System eingesetzt mit den folgenden Parametern: Intel Celeron 500MHz/128Mbyte.The measurements on the hardware accelerator were on a microEnable II system with a Virtex 400 FPGA executed at 50 MHz. The total duration of the process according to the invention was 3.41 s. to execution a host computer system was used for the measurements following parameters: Intel Celeron 500MHz / 128Mbyte.
Der sich ergebende Beschleunigungsfaktor des erfindungsgemäßen Verfahrens im Vergleich zu einem herkömmlichen Verfahren beträgt 563,05.The resulting acceleration factor of the method according to the invention compared to a conventional one Procedure is 563.05.
Der Verfahrensablauf
Die Verarbeitung der Parameterdaten
beim Vergleich der ersten Parameterfolge
Diese ersten Ergebnisse können optional
nach einer 2. Bewertungsvorschrift
Die zweiten Ergebnisse
In dem speziellen Ausführungsbeispiel
der Primerbestimmung ist die Aufgabe der Matrix
Die erste Parameterfolge
Tabelle 3: Ergänzende Beispiel für die Berechnung des Maximalen Wertes bei der Durchführung der SA Berechnung in der parallel arbeitenden Matrix Struktur. Die überlagernden Basenpaare werden wieder anhand des Primers mit 4 Basen (AGTC) durchgeführt.Table 3: Supplementary example for the calculation the maximum value when performing the SA calculation in the matrix structure working in parallel. The overlying base pairs will be again carried out using the primer with 4 bases (AGTC).
Ein anderes Ausführungsbeispiel für die Verwendung des erfindungsgemäßen Verfahrens und der erfindungsgemäßen Vorrichtung stellt Homologiesuche in Datenbanken oder Identitätsvergleiche bei weiteren Bioinformatikanwendungen dar.Another embodiment for use of the method according to the invention and the device according to the invention provides homology searches in databases or identity comparisons in other bioinformatics applications.
Da die Rate der Strukturaufklärung über Röntgenstrahlkristallographie oder NMR viel niedriger ist als die Zahl neuer DNA- oder Proteinsequenzen, die jeden Tag bekannt werden, wird ein alternativer berechenbarer einigermaßen zuverlässiger Ansatz zur Strukturfindung benötigt. Ziel ist es, Schlüsselmakromoleküle (das heißt Proteine) zu identifizieren, die pathologische Vorgänge verursachen und potenzielle Inhibitoren für diese Makromoleküle vorzuschlagen. Um das Molekül zu verstehen und so mögliche Wechselwirkungen mit seinem Substrat oder anderen Substanzen vorzuschlagen zu können, muss man die Struktur des Makromoleküls kennen. Das größte Hindernis ist dabei oftmals das Fehlen struktureller Daten über das betreffende Molekül. Handelt es sich bei den untersuchten Makromolekülen um Proteine, so kann man homologe Proteine von anderen Arten benutzen, deren Struktur bekannt ist. Das Modellieren unbekannter Proteinstrukturen basierend auf ihren Homologen ist als homologiebasiertes strukturelles Modellieren bekannt.Because the rate of structure elucidation via X-ray crystallography or NMR is much lower than the number of new DNA or protein sequences, that become known every day becomes an alternative predictable fairly reliable Approach to structure determination needed. The goal is to create key macromolecules (i.e. proteins) identify which cause pathological events and potential ones Inhibitors for these macromolecules propose. To the molecule to understand and so possible To suggest interactions with its substrate or other substances to be able you have to know the structure of the macromolecule. The biggest obstacle is often the lack of structural data about the relevant molecule. If the examined macromolecules are proteins, one can use homologous proteins of other species whose structure is known is. Modeling unknown protein structures based on their homologues is as homology-based structural modeling known.
Als homologe Proteine bezeichnet man im allgemeinen Polypeptide, die eine ähnliche Aminosäurenzusammensetzung gemeinsam haben. In den meisten Fällen sind die Proteine mit einem relativ hohen Grad an Identität auch strukturell und funktionell homolog. Änderungen der Aminosäuresequenz eines Proteins könnten eine Änderung der 3-D-Struktur bewirken. Es ist diese Beziehung zwischen der Aminosäuresequenz eines Proteins und seiner dreidimensionalen Struktur, die es einem erlaubt, Proteine, für die es keine NMR oder Röntgenkristallstrukturen gibt, mit ihren Sequenzhomologen zu vergleichen, deren Struktur man kennt.Called homologous proteins one generally uses polypeptides that have a similar amino acid composition have in common. In most cases, the proteins are included a relatively high degree of identity also structurally and functionally homologous. amendments the amino acid sequence of a protein a change the 3-D structure cause. It is this relationship between the amino acid sequence of one Protein and its three-dimensional structure that allows you to Proteins, for which have no NMR or X-ray crystal structures gives to compare their structure homologues, their structure one knows.
Die Sequenzhomologen mit bekannter Struktur ermöglichen es, die Struktur der homologen Sequenzen, deren Struktur unbekannt ist, durch komparative Modellbildung zu berechnen und erlauben so einen Einblick in die Proteinfunktion. Beim homologiebasierten Proteinmodellieren bezeichnet man die experimentell bestimmten Strukturen im allgemeinen als Matrizen und das Sequenzhomologe (das heißt eine neue Kette von Nukleotiden, die man beispielsweise in einem laufenden Genomprojekt identifiziert hat) wird Zielsequenz genannt. Der homologiebasierte Ansatz zum Erstellen von Modellen umfasst vier aufeinander folgende Schritte. Der erste besteht in der Identifikation bekannter Strukturen, die eine zu der Zielsequenz verwandte Sequenz aufweisen. Das erreicht man typischerweise durch Softwarewerkzeuge wie BLAST, die der Suche nach möglichen Matrizen dienen. Im zweiten Schritt werden die potentielle Matrizen vergleichend mit der Zielsequenz ausgerichtet, um die am nächsten verwandte Matrize zu identifizieren. Im dritten Schritt berechnet man ein Modell der Zielsequenz, wobei man von der am besten geeigneten Matrize des zweiten Schrittes ausgeht. Der vierte Schritt besteht schließlich in einer Bewertung des Modells der Zielsequenz, wobei man eine Reihe von Kriterien, wie zum Beispiel Energetik heranzieht.The sequence homologues with a known structure make it possible to calculate the structure of the homologous sequences, the structure of which is unknown, by means of comparative modeling and thus allow an insight into the protein function. In homology-based protein modeling, the experimentally determined structures are generally referred to as matrices and the sequence homologue (that is, a new chain of nucleotides that has been identified, for example, in an ongoing genome project) is called the target sequence. The homology-based approach to building models involves four consecutive steps. The first is to identify known structures that have a sequence related to the target sequence. This is typically achieved using software tools such as BLAST, which you can search for serve matrices. In the second step, the potential matrices are compared to the target sequence in order to identify the most closely related template. In the third step, a model of the target sequence is calculated, starting from the most suitable template of the second step. The fourth step is finally to evaluate the model of the target sequence using a number of criteria such as energetics.
Das erfindungsgemäße Verfahren sowie die erfindungsgemäße Vorrichtung kann nun die Berechnung des ersten und des zweiten Schrittes unterstützen. Im Vergleich zu herkömmlichen sequentiellen Rechenmethoden kann die Rechenzeit durch den erfindungsgemäßen parallel verarbeitenden Matrixansatz um einen Faktor von beispielsweise 1000 verkürzt werden.The method according to the invention and the device according to the invention can now support the calculation of the first and second step. in the Compared to conventional sequential computing methods can the computing time by the invention in parallel processing matrix approach by a factor of, for example, 1000 shortened become.
Im idealen Fall ist die Aminosäuresequenz des unbekannten Proteins der seines Strukturhomologen recht ähnlich und es gibt zum Beispiel in der PDP-Proteindatenbank (Sussman, J.L. et al. Protein Data Bank (PDB): database of three-dimensional structural information of biological macromolecules. In: Acta. Crystallogr. D. Biol. Crystallogr. 54 (1998) Seiten 1078–1084) mehr als einen bekannten Homologen aus anderen Arten. Ziel ist es nun diese bekannten Homologen zu finden.The ideal case is the amino acid sequence of the unknown protein quite similar to that of its structural homologue and there is, for example, in the PDP protein database (Sussman, J.L. et al. Protein Data Bank (PDB): database of three-dimensional structural information of biological macromolecules. In: Acta. Crystallogr. D. Biol. Crystallogr. 54 (1998) pages 1078-1084) more than one known Homologues from other species. The goal is now these well-known homologues to find.
Das Programm BLAST des NCBI (Altschul, S.F. et al. Basic local alignment search tool. In: J. Mol Biol. 215 (1990) S. 403–410) ermöglicht es, diese bekannten Homologen zu finden. Damit der erfindungsgemäße parallel verarbeitende Matrixansatz innerhalb des Programms BLAST eine wesentliche Beschleunigung des Rechenverfahrens bewirken kann, sind jedoch Anpassungen des Rechenverfahrens notwendig. In dem Beispiel der Homologiesuche kann die erfindungsgemäße Matrix aus den Kombinationen zweier Parameterfolgen aufgebaut werden. Dabei sind im allgemeinen die beiden Parameterfolgen mit ihren zu vergleichenden Parametern von ungleicher Länge. Eine Parameterfolge kann die Primärsequenz (Aminosäuresequenz) der Zielsequenz sein und die andere Parameterfolge eine Proteinsequenz in einer vorgegebenen Datenbank sein. Dabei kann die Matrix beachtliche Größen annehmen, so, dass es geeigneter sein kann, in Abhängigkeit von der Anzahl der parallel verarbeitenden Matrizen, beziehungsweise von der Anzahl der parallel verarbeitenden Matrixelemente, die Matrix in mehrere Sub-Matrizen zu unterteilen. Bei einer solchen Methode kann beispielsweise jede einzelne Sub-Matrix für sich parallel verarbeitet werden. Durch Bildung sinnvoller Überlagerungen der beiden Parameterfolgen und geeigneter Bewertung der gebildeten Parameterkombinationen sowie geeigneter nachfolgender Bewertungsvorschriften können die engsten Sequenzhomologen ausgewählt werden.The program BLAST of the NCBI (old school, S. F. et al. Basic local alignment search tool. In: J. Mol Biol. 215 (1990) pp. 403-410) allows to find these well-known homologues. So that the invention in parallel processing matrix approach within the BLAST program an essential However, adjustments can be made to speed up the calculation process of the calculation method necessary. In the example of homology search can the matrix according to the invention can be constructed from the combinations of two parameter sequences. there the two parameter sequences are generally to be compared with theirs Unequal length parameters. A parameter sequence can be the primary sequence (amino acid sequence) the target sequence and the other parameter sequence is a protein sequence be in a given database. The matrix can be remarkable Take sizes so that it may be more appropriate depending on the number of parallel matrices, or the number of the parallel processing matrix elements, the matrix into several Subdivide sub-matrices. With such a method, for example, any single sub-matrix for processed in parallel. By forming meaningful overlays of the two parameter sequences and appropriate evaluation of the formed Parameter combinations as well as suitable subsequent evaluation regulations can the closest sequence homologues are selected.
Andere Anwendungen der erfindungsgemäßen parallel verarbeitenden Matrix betreffen den zweiten Schritt der Homologiesuche nämlich die vergleichende Ausrichtung der potenziellen Matrizen mit der Zielsequenz. Andere Anwendungen sind Sequenzvergleiche, Bewertung von Sequenzen oder beispielsweise auch bei der Bestimmung/Berechnung von DNAs. Ebenfalls beschleunigt die erfindungsgemäße Matrix auch die Durchsuchung von Datenbanken, beispielsweise Stoffdatenbanken.Other applications of the invention in parallel processing matrix concern the second step of homology search namely the comparative alignment of the potential matrices with the Target sequence. Other applications are sequence comparisons, evaluation of sequences or, for example, when determining / calculating of DNAs. The matrix according to the invention also accelerates also searching databases, for example substance databases.
Oftmals findet innerhalb solcher Durchsuchungen von Datenbanken Vergleichsbildungen statt, im Falle von Stoffdatenbanken beispielsweise von gesuchten Stoffeigenschaften und Stoffen der Datenbank mit ihren spezifischen Eigenschaften. Die erfindungsgemäße Matrix wird hierbei beispielsweise dazu verwendet, eine Parameterfolge, deren Parameter die erwünschten Eigenschaften enthält mit Parameterfolgen, deren Parameter die Stoffe mit ihren Stoffeigenschaften aus der Datenbank enthält zu vergleichen. Dieser Vergleich wird durch die erfindungsgemäße Matrix parallel durchgeführt und führt somit zu einer wesentlich beschleunigten Datenbankrecherche in Stoffdatenbanken.Often takes place within such Searches of databases comparative formations take place in the case of substance databases, for example of sought substance properties and substances in the database with their specific properties. The matrix according to the invention For example, a sequence of parameters, whose parameters are the desired ones Contains properties with parameter sequences, the parameters of which the substances with their substance properties contains from the database to compare. This comparison is made by the matrix according to the invention carried out in parallel and leads thus to a significantly accelerated database research in substance databases.
Claims (48)
Priority Applications (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE10238057A DE10238057A1 (en) | 2002-08-20 | 2002-08-20 | Comparison of a number of parameter sequences, for the design and formation of biological molecules, uses matrix elements with arithmetical logic computing units for faster complex computations of data sets |
| PCT/EP2003/008898 WO2004027675A2 (en) | 2002-08-20 | 2003-08-11 | Method and device for selecting and comparing physical characteristics in parameter strings |
| AU2003266973A AU2003266973A1 (en) | 2002-08-20 | 2003-08-11 | Method and device for selecting and comparing physical characteristics in parameter strings |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE10238057A DE10238057A1 (en) | 2002-08-20 | 2002-08-20 | Comparison of a number of parameter sequences, for the design and formation of biological molecules, uses matrix elements with arithmetical logic computing units for faster complex computations of data sets |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| DE10238057A1 true DE10238057A1 (en) | 2004-03-04 |
Family
ID=31197120
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| DE10238057A Ceased DE10238057A1 (en) | 2002-08-20 | 2002-08-20 | Comparison of a number of parameter sequences, for the design and formation of biological molecules, uses matrix elements with arithmetical logic computing units for faster complex computations of data sets |
Country Status (3)
| Country | Link |
|---|---|
| AU (1) | AU2003266973A1 (en) |
| DE (1) | DE10238057A1 (en) |
| WO (1) | WO2004027675A2 (en) |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE19651527A1 (en) * | 1996-12-11 | 1998-06-25 | Siemens Ag | Computer arrangement and method for carrying out a sequence of program instructions |
| DE19654595A1 (en) * | 1996-12-20 | 1998-07-02 | Pact Inf Tech Gmbh | I0 and memory bus system for DFPs as well as building blocks with two- or multi-dimensional programmable cell structures |
| DE19654846A1 (en) * | 1996-12-27 | 1998-07-09 | Pact Inf Tech Gmbh | Process for the independent dynamic reloading of data flow processors (DFPs) as well as modules with two- or multi-dimensional programmable cell structures (FPGAs, DPGAs, etc.) |
| EP1094607A1 (en) * | 1999-10-20 | 2001-04-25 | Infineon Technologies AG | Programmable cell for FPGA |
| EP1136932A1 (en) * | 2000-03-20 | 2001-09-26 | Hitachi, Ltd. | Primer design system |
-
2002
- 2002-08-20 DE DE10238057A patent/DE10238057A1/en not_active Ceased
-
2003
- 2003-08-11 WO PCT/EP2003/008898 patent/WO2004027675A2/en not_active Ceased
- 2003-08-11 AU AU2003266973A patent/AU2003266973A1/en not_active Abandoned
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE19651527A1 (en) * | 1996-12-11 | 1998-06-25 | Siemens Ag | Computer arrangement and method for carrying out a sequence of program instructions |
| DE19654595A1 (en) * | 1996-12-20 | 1998-07-02 | Pact Inf Tech Gmbh | I0 and memory bus system for DFPs as well as building blocks with two- or multi-dimensional programmable cell structures |
| DE19654846A1 (en) * | 1996-12-27 | 1998-07-09 | Pact Inf Tech Gmbh | Process for the independent dynamic reloading of data flow processors (DFPs) as well as modules with two- or multi-dimensional programmable cell structures (FPGAs, DPGAs, etc.) |
| EP1094607A1 (en) * | 1999-10-20 | 2001-04-25 | Infineon Technologies AG | Programmable cell for FPGA |
| EP1136932A1 (en) * | 2000-03-20 | 2001-09-26 | Hitachi, Ltd. | Primer design system |
Non-Patent Citations (6)
| Title |
|---|
| KUGEL, A.: A PCI-64 based High Performance FPGA Co-Processor. Im Internet: <URL:http://www-li5.ti. uni-mannheim.de/fpqa/race/> Universität Mannheim: Presseinformation vom 06.05.2002. Im Internet: <URL:http://www.uni-mannheim.de/users/presse/aktue ll/Landespreis.htm> |
| KUGEL, A.: A PCI-64 based High Performance FPGA Co-Processor. Im Internet: <URL:http://www-li5.ti.uni-mannheim.de/fpqa/race/> Universität Mannheim: Presseinformation vom 06.05.2002. Im Internet: <URL:http://www.uni-mannheim.de/users/presse/aktuell/Landespreis.htm> * |
| LIENHART, G. (u.a.): Simulation mit konfigurier- barer Hardware. Vortrag am 19.03.2002. In: Simulation in Physik, Informatik und Informations- technik. Tagungsband. ISSN 0944-7121. 2002. Im Internet: <URL:http://www.htw-dresden.de/-stark e/physh/Tagungsband/Kugel.pdf> |
| LIENHART, G. (u.a.): Simulation mit konfigurier- barer Hardware. Vortrag am 19.03.2002. In: Simulation in Physik, Informatik und Informations-technik. Tagungsband. ISSN 0944-7121. 2002. Im Internet: <URL:http://www.htw-dresden.de/-starke/physh/Tagungsband/Kugel.pdf> * |
| SIMMLER, H.: New concept for accelerating bioin- formatics. Vortrag am 22.04.02. Im Internet: <URL:http://www.eml.villa-bosch.de/english/News/Co lloquia/harald_simmler.html> |
| SIMMLER, H.: New concept for accelerating bioin- formatics. Vortrag am 22.04.02. Im Internet: <URL:http://www.eml.villa-bosch.de/english/News/Colloquia/harald_simmler.html> * |
Also Published As
| Publication number | Publication date |
|---|---|
| WO2004027675A3 (en) | 2005-02-03 |
| AU2003266973A1 (en) | 2004-04-08 |
| WO2004027675A2 (en) | 2004-04-01 |
| WO2004027675A8 (en) | 2004-06-24 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Drăghici | Data analysis tools for DNA microarrays | |
| US7269517B2 (en) | Computer systems and methods for analyzing experiment design | |
| DE112005002331T5 (en) | Method, system and apparatus for compiling and using biological knowledge | |
| DE112020001105T5 (en) | DETECTING A GENETIC MUTATION USING DEEP LEARNING | |
| DE112019001636T5 (en) | MACHINE LEARNING (ML) MODELING THROUGH DNA DATA PROCESSING | |
| DE60002189T2 (en) | SYSTEM AND METHOD FOR MODELING GENETIC, BIOCHEMICAL, BIOPHYSICAL AND ANATOMICAL INFORMATION | |
| DE102020133667A1 (en) | Technologies for performing column reads on clustered data in a DIMM architecture | |
| Qoku et al. | Multimodal analysis methods in predictive biomedicine | |
| KR101003175B1 (en) | Versatile Applicable Genetic Discrimination Using Correlation Mapping | |
| Chen et al. | Novel and efficient tag SNPs selection algorithms | |
| Fakhry et al. | Global analysis of gene expression and projection target correlations in the mouse brain | |
| DE10238057A1 (en) | Comparison of a number of parameter sequences, for the design and formation of biological molecules, uses matrix elements with arithmetical logic computing units for faster complex computations of data sets | |
| Qu et al. | Enhancing understandability of omics data with shap, embedding projections and interactive visualisations | |
| WO2003012135A2 (en) | Method for the configuration of parallel nucleic acid analysis methods for sequence quantity classification | |
| Chen et al. | A new sponge genus from the Chengjiang biota with an intriguing combination of skeletal characters | |
| Koide et al. | SpotWhatR: a user-friendly microarray data analysis system | |
| Chavda et al. | Role of Data Mining in Bioinformatics | |
| Holdener et al. | Smoothie: Efficient Inference of Spatial Co-expression Networks from Denoised Spatial Transcriptomics Data | |
| Khan et al. | TransUNet-lite: A robust approach to cell nuclei segmentation | |
| Wang et al. | Emap2sec+: detecting protein and DNA/RNA structures in Cryo-EM maps of intermediate resolution using deep learning | |
| DE602005001850T2 (en) | COMPUTER SOFTWARE TO SUPPORT THE IDENTIFICATION OF SNPS WITH MICROARRAYS | |
| Hall | Semi-automated methods for simulation and measurement of amyloid fiber distributions obtained from transmission electron microscopy experiments | |
| DE60103682T2 (en) | Systems and methods for gene expression analysis | |
| Bremer et al. | Introduction to the statistical analysis of two-color microarray data | |
| Sims et al. | Language of stains: tokenization enhances multiplex immunofluorescence and histology image synthesis |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| OP8 | Request for examination as to paragraph 44 patent law | ||
| 8131 | Rejection |