DE19950050A1 - Verfahren zum funktionellen Zuordnen von nichtklassifizierten DNA-Sequenzen - Google Patents
Verfahren zum funktionellen Zuordnen von nichtklassifizierten DNA-SequenzenInfo
- Publication number
- DE19950050A1 DE19950050A1 DE19950050A DE19950050A DE19950050A1 DE 19950050 A1 DE19950050 A1 DE 19950050A1 DE 19950050 A DE19950050 A DE 19950050A DE 19950050 A DE19950050 A DE 19950050A DE 19950050 A1 DE19950050 A1 DE 19950050A1
- Authority
- DE
- Germany
- Prior art keywords
- sequence
- sequences
- consensus
- short consensus
- gap
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biophysics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Die vorliegende Erfindung betrifft ein Verfahren zum funktionellen Zuordnen von nichtklassifizierten DNA-Sequenzen, in dem eine nichtklassifizierte Sequenz mittels einfacher Schritte bekannten Referenzsequenz zugeordnet (aligned) werden kann.
Description
Die vorliegende Erfindung betrifft ein Verfahren zum funktionellen Zuordnen von
nichtklassifizierten DNA-Sequenzen, in dem eine nichtklassifizierte Sequenz mittels
einfacher Schritte bekannten Referenzsequenz zugeordnet (aligned) werden kann.
Seit der kommerziellen Verfügbarkeit der PCR-Technik stellt die funktionelle
Zuordnung der auf diese Weise verfügbar gemachten DNA-Information ein
grundsätzliches Problem der Biotechnologie dar.
In herkömmlichen Verfahren wird daher entweder über funktionelle Besonderheiten
bzw. direkten Abgleich der nichtklassifizierten Sequenz mit Sequenzen mit bekannter
Eigenschaft abgeglichen.
Die vorliegende Anmeldung stellt ein Verfahren zur funktionellen Zuordnung einer
nichtklassifizierten DNA-Sequenz zur Verfügung, die die folgenden Schritte umfaßt:
- a) Abgleichen der nichtklassifizierten Sequenz (A) mit Referenzsequenzen (B1-Bn) unter
- b) Erstellen von Lückenmustern (C1-Cm) für die Referenzsequenzen (B1-Bn) und einer Konsensussequenz (D) für die Sequenz (A),
- c) Aufspalten der Lückenmuster (C1-Cm) in kurze Konsensussequenzen (E1-Em) und Lückeninformationen (F1-Fm),
- d) positionsweiser Vergleich der kurzen Konsensussequenzen (E1-Em) mit iterierendem Offset mit der nichtklassifizierten Sequenz (A) unter Bestimmung der kurzen Konsensussequenz mit höchster Übereinstimmung (Emax),
- e) Einfügen der der Konsensussequenz (Emax) entsprechenden Lückeninformation (Fmax) in die Sequenz (A) unter Erstellen einer Aligned-Sequenz (G).
Die der Konsensussequenz (D) zugrunde liegenden Referenzsequenzen (B1-Bn)
sollten untereinander einen Übereinstimmungsgrad besitzen der größer als 60 und
kleiner als 80-90% ist. Gemäß der vorliegenden Anmeldung können die in Schritt
(b) gesammelten Informationen (Lückenmuster (C1-Cm) und Konsensussequenz (E1-Em)
zwischengespeichert und für spätere Vergleiche direkt verwendet werden.
Bei der Erstellung der Lückenmuster werden gleiche Lückenmuster eliminiert, so daß
für E1-Em gilt: m ≦ n.
Der kritische Schritt in dem erfindungsgemäßen Verfahren ist der positionsweise
Vergleich der kurzen Konsensussequenzen (E1-Em) ein möglichst hoher
Übereinstimmungsgrad erzielt wird. Für eine sinnvolle Klassifikation ist dabei
erforderlich, daß dieser Übereinstimmungsgrad möglichst größer als 60%,
vorzugsweise größer als 80% ist.
Das erfindungsgemäße Verfahren kann weiterhin in mehreren Zyklen erfolgen,
wobei nach Finden der Aligned-Sequenz (G) eine beste Referenzsequenz (Bmax)
gefunden wird, die zum Finden eines neuen Satzes Referenzsequenzen (H1-Hn)
verwendet wird, die zur Familie der Referenzsequenz mit dem höchsten
Übereinstimmungsgrad (Bmax) des ersten Zyklusses gehört.
Das Verfahren bietet den Vorteil der sehr schnellen Generierung von multiplen
Sequenz-Alignments, so daß diese sehr schnell für weitere Sequenzverarbeitungen
wie z. B. Sequenzannotierung oder für Sequenzvergleiche zur Verfügung stehen.
Insbesondere Sequenzvergleiche in korrekt berechneten multiplen
Sequenzalignments sind sehr schnell, da die Sequenzen im Alignment für den
Sequenzvergleich nicht mehr gegeneinander verschoben werden müssen, sondern
Position für Position direkt verglichen werden können.
Die Erfindung wird anhand der nachfolgenden Figuren näher erläutert:
Fig. 1: Einlesen der Sequenzen.
Zunächst werden die zu verarbeitenden Sequenzen und die Referenzsequenzen
eingelesen.
Fig. 2: Aus den Referenzsegenzen werden die Lückenmuster extrahiert und aus der
Sequenzinformation wird eine Konsensussequenz bestimmt.
Fig. 3a: Dann wird eine Liste von Konsensussequenzen erstellt, aus der jeweils ein
bestimmtes Lückenmuster entfernt wird.
Fig. 3b: Zeigt ein spezielles Beispiel, wie aus Konsensussequenz Shorted Konsensi
erzeugt werden.
Fig. 4a: Durch positionsweisen Vergleich jeder der in "Shorted-Konsensus"-
Sequenzen mit der neuen Sequenz wird ein optimaler Satz von Aligner-Parametern
bestimmt.
Fig. 4b: Zeigt ein spezielles Beispiel für den positionsweisen Vergleich.
Fig. 5a: Die neue Sequenz wird aligned, indem, entsprechend des Parametersatzes,
die Lücken eingefügt und der Offset verschoben wird.
Fig. 5b: Experimentelles Beispiel über Einfügungen der Lücken und Verschiebungen
des Offsets.
Claims (4)
1. Verfahren zum funktionellen Zuordnen einer nichtklassifizierten DNA-Sequenz,
umfassend:
- a) Abgleichen der nichtklassifizierten Sequenz (A) mit Referenzsequenzen (B1-Bi) unter
- b) Erstellen von Lückenmustern (C1-Cm) für die Referenzsequenzen (B1-Bn) und einer Konsensussequenz (D) für die Sequenz (A),
- c) Aufspalten der Lückenmuster (C1-Cm) in kurze Konsensussequenzen (E1-Em) und Lückeninformationen (F1-Fm),
- d) positionsweiser Vergleich der kurzen Konsensussequenzen (E1-Em) mit iterierendem Offset mit der Sequenz (A) unter Bestimmung der kurzen Konsensussequenz mit höchster Übereinstimmung (Emax),
- e) Einfügen der der Konsensussequenz (Emax) entsprechenden Lückeninformation (Fmax) in die Sequenz (A) unter Erstellen einer Aligned-Sequenz (G).
2. Verfahren nach Anspruch 1, wobei bei dem positionswiesen Vergleich ein
Übereinstimmungsgrad von ≧ 60%, vorzugsweise ≧ 80%, erforderlich ist.
3. Verfahren nach Anspruch 1 oder 2, wobei mehrere Zyklen der Schritte (a) bis (e)
erfolgen.
4. Verfahren nach Anspruch 1, wobei die in Schritt (b) erstellten Lückenmuster (C1-
Cm) und Konsensussequenz (D) für spätere Abgleiche verwendet werden.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE19950050A DE19950050C2 (de) | 1999-10-16 | 1999-10-16 | Verfahren zum funktionellen Zuordnen von nichtklassifizierten DNA-Sequenzen |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE19950050A DE19950050C2 (de) | 1999-10-16 | 1999-10-16 | Verfahren zum funktionellen Zuordnen von nichtklassifizierten DNA-Sequenzen |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| DE19950050A1 true DE19950050A1 (de) | 2001-04-26 |
| DE19950050C2 DE19950050C2 (de) | 2002-07-18 |
Family
ID=7925982
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| DE19950050A Expired - Fee Related DE19950050C2 (de) | 1999-10-16 | 1999-10-16 | Verfahren zum funktionellen Zuordnen von nichtklassifizierten DNA-Sequenzen |
Country Status (1)
| Country | Link |
|---|---|
| DE (1) | DE19950050C2 (de) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2003032108A3 (en) * | 2001-08-29 | 2004-03-04 | Genome Therapeutics Corp | Confirmation sequencing |
-
1999
- 1999-10-16 DE DE19950050A patent/DE19950050C2/de not_active Expired - Fee Related
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2003032108A3 (en) * | 2001-08-29 | 2004-03-04 | Genome Therapeutics Corp | Confirmation sequencing |
Also Published As
| Publication number | Publication date |
|---|---|
| DE19950050C2 (de) | 2002-07-18 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| DE69426098T2 (de) | Benutzung eines Bildmusters als Zugangsschlüssel zu Funktionen einer Maschine | |
| DE3923449A1 (de) | Verfahren zum bestimmen von kanten in bildern | |
| DE19755831A1 (de) | Verfahren zur Erzeugung einer Funkfrequenzsprungfolge für eine Funkkommunikation, Funkvorrichtung und Funkkommunikationssystem dafür | |
| DE10196847B4 (de) | Ein Verfahren zum Erzeugen von Huffman-Code-Längeninformationen | |
| EP2130174A1 (de) | Verfahren und vorrichtung zur ermittlung einer zellkontur einer zelle | |
| CN105869122A (zh) | 图像处理方法和装置 | |
| DE96066T1 (de) | Verfahren und system zum behandeln von datensignalen die einen unbekannten charakter darstellen. | |
| EP1267566A3 (de) | Verfahren zur Erzeugung von Überfüllrahmen in einer Druckseite | |
| DE19950050C2 (de) | Verfahren zum funktionellen Zuordnen von nichtklassifizierten DNA-Sequenzen | |
| DE102012223587B4 (de) | Verfahren zum Testen einer Applikation | |
| DE924939T1 (de) | Verfahren und Gerät zur Einführung von Referenzstörungen in Videosignalen | |
| EP1709587B1 (de) | Bildverarbeitungssystem | |
| WO2012052106A1 (de) | Verfahren zur klassifizierung von mustern in bilddatensätzen | |
| DE60102928T2 (de) | Verfahren und vorrichtung zur bildverarbeitung | |
| DE19548451C1 (de) | Verfahren zur rechnergestützten Bewegungsschätzung für Bildpunkte zeitlich aufeinander folgender Bilder einer Videosequenz | |
| EP0896292A3 (de) | Verfahren und Gerät zum Lesen von Strichkodes und rechnerlesefähiges Medium | |
| DE3781977T2 (de) | Nach dem prinzip der elektromagnetischen induktion arbeitender koordinatenleser. | |
| DE19517178C1 (de) | Hintergrundbereinigung bei elektronisch abgetasteten Bildern | |
| US6081626A (en) | Method and system for background removal in electronically scanned images | |
| DE10325843A1 (de) | Verfahren, Computer und Computerprogramm zum Verwalten von Resourcen zur Verwendung in einem resourcenbasierten Dokumentendatenstrom | |
| WO1998059325A2 (de) | Chipkarte zur ausführung von nicht änderbaren system-programmroutinen und diesen zugeordneten ersatz-programmroutinen, sowie verfahren zum betrieb der chipkarte | |
| DE10037742C2 (de) | System zur Erkennung und Klassifizierung von Objekten | |
| DE69421355T2 (de) | Verfahren und Anlage zur Verwaltung der Zeichenerkennung einer Vielheit von Formularbildern mit gemeinsamen Datentypen | |
| DE102021214034A1 (de) | Verfahren zum Auswählen von Bildern zum Trainieren eines Bildklassifikators | |
| DE1091324T1 (de) | Verbesserte Trim-Operation basiert auf erhöhter Gesichtsdefinition |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| OP8 | Request for examination as to paragraph 44 patent law | ||
| D2 | Grant after examination | ||
| 8339 | Ceased/non-payment of the annual fee |