[go: up one dir, main page]

DE19950050A1 - Verfahren zum funktionellen Zuordnen von nichtklassifizierten DNA-Sequenzen - Google Patents

Verfahren zum funktionellen Zuordnen von nichtklassifizierten DNA-Sequenzen

Info

Publication number
DE19950050A1
DE19950050A1 DE19950050A DE19950050A DE19950050A1 DE 19950050 A1 DE19950050 A1 DE 19950050A1 DE 19950050 A DE19950050 A DE 19950050A DE 19950050 A DE19950050 A DE 19950050A DE 19950050 A1 DE19950050 A1 DE 19950050A1
Authority
DE
Germany
Prior art keywords
sequence
sequences
consensus
short consensus
gap
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE19950050A
Other languages
English (en)
Other versions
DE19950050C2 (de
Inventor
Werner Mueller
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to DE19950050A priority Critical patent/DE19950050C2/de
Publication of DE19950050A1 publication Critical patent/DE19950050A1/de
Application granted granted Critical
Publication of DE19950050C2 publication Critical patent/DE19950050C2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

Die vorliegende Erfindung betrifft ein Verfahren zum funktionellen Zuordnen von nichtklassifizierten DNA-Sequenzen, in dem eine nichtklassifizierte Sequenz mittels einfacher Schritte bekannten Referenzsequenz zugeordnet (aligned) werden kann.

Description

Die vorliegende Erfindung betrifft ein Verfahren zum funktionellen Zuordnen von nichtklassifizierten DNA-Sequenzen, in dem eine nichtklassifizierte Sequenz mittels einfacher Schritte bekannten Referenzsequenz zugeordnet (aligned) werden kann.
Seit der kommerziellen Verfügbarkeit der PCR-Technik stellt die funktionelle Zuordnung der auf diese Weise verfügbar gemachten DNA-Information ein grundsätzliches Problem der Biotechnologie dar.
In herkömmlichen Verfahren wird daher entweder über funktionelle Besonderheiten bzw. direkten Abgleich der nichtklassifizierten Sequenz mit Sequenzen mit bekannter Eigenschaft abgeglichen.
Die vorliegende Anmeldung stellt ein Verfahren zur funktionellen Zuordnung einer nichtklassifizierten DNA-Sequenz zur Verfügung, die die folgenden Schritte umfaßt:
  • a) Abgleichen der nichtklassifizierten Sequenz (A) mit Referenzsequenzen (B1-Bn) unter
  • b) Erstellen von Lückenmustern (C1-Cm) für die Referenzsequenzen (B1-Bn) und einer Konsensussequenz (D) für die Sequenz (A),
  • c) Aufspalten der Lückenmuster (C1-Cm) in kurze Konsensussequenzen (E1-Em) und Lückeninformationen (F1-Fm),
  • d) positionsweiser Vergleich der kurzen Konsensussequenzen (E1-Em) mit iterierendem Offset mit der nichtklassifizierten Sequenz (A) unter Bestimmung der kurzen Konsensussequenz mit höchster Übereinstimmung (Emax),
  • e) Einfügen der der Konsensussequenz (Emax) entsprechenden Lückeninformation (Fmax) in die Sequenz (A) unter Erstellen einer Aligned-Sequenz (G).
Die der Konsensussequenz (D) zugrunde liegenden Referenzsequenzen (B1-Bn) sollten untereinander einen Übereinstimmungsgrad besitzen der größer als 60 und kleiner als 80-90% ist. Gemäß der vorliegenden Anmeldung können die in Schritt (b) gesammelten Informationen (Lückenmuster (C1-Cm) und Konsensussequenz (E1-Em) zwischengespeichert und für spätere Vergleiche direkt verwendet werden.
Bei der Erstellung der Lückenmuster werden gleiche Lückenmuster eliminiert, so daß für E1-Em gilt: m ≦ n.
Der kritische Schritt in dem erfindungsgemäßen Verfahren ist der positionsweise Vergleich der kurzen Konsensussequenzen (E1-Em) ein möglichst hoher Übereinstimmungsgrad erzielt wird. Für eine sinnvolle Klassifikation ist dabei erforderlich, daß dieser Übereinstimmungsgrad möglichst größer als 60%, vorzugsweise größer als 80% ist.
Das erfindungsgemäße Verfahren kann weiterhin in mehreren Zyklen erfolgen, wobei nach Finden der Aligned-Sequenz (G) eine beste Referenzsequenz (Bmax) gefunden wird, die zum Finden eines neuen Satzes Referenzsequenzen (H1-Hn) verwendet wird, die zur Familie der Referenzsequenz mit dem höchsten Übereinstimmungsgrad (Bmax) des ersten Zyklusses gehört.
Das Verfahren bietet den Vorteil der sehr schnellen Generierung von multiplen Sequenz-Alignments, so daß diese sehr schnell für weitere Sequenzverarbeitungen wie z. B. Sequenzannotierung oder für Sequenzvergleiche zur Verfügung stehen. Insbesondere Sequenzvergleiche in korrekt berechneten multiplen Sequenzalignments sind sehr schnell, da die Sequenzen im Alignment für den Sequenzvergleich nicht mehr gegeneinander verschoben werden müssen, sondern Position für Position direkt verglichen werden können.
Die Erfindung wird anhand der nachfolgenden Figuren näher erläutert:
Fig. 1: Einlesen der Sequenzen. Zunächst werden die zu verarbeitenden Sequenzen und die Referenzsequenzen eingelesen.
Fig. 2: Aus den Referenzsegenzen werden die Lückenmuster extrahiert und aus der Sequenzinformation wird eine Konsensussequenz bestimmt.
Fig. 3a: Dann wird eine Liste von Konsensussequenzen erstellt, aus der jeweils ein bestimmtes Lückenmuster entfernt wird.
Fig. 3b: Zeigt ein spezielles Beispiel, wie aus Konsensussequenz Shorted Konsensi erzeugt werden.
Fig. 4a: Durch positionsweisen Vergleich jeder der in "Shorted-Konsensus"- Sequenzen mit der neuen Sequenz wird ein optimaler Satz von Aligner-Parametern bestimmt.
Fig. 4b: Zeigt ein spezielles Beispiel für den positionsweisen Vergleich.
Fig. 5a: Die neue Sequenz wird aligned, indem, entsprechend des Parametersatzes, die Lücken eingefügt und der Offset verschoben wird.
Fig. 5b: Experimentelles Beispiel über Einfügungen der Lücken und Verschiebungen des Offsets.

Claims (4)

1. Verfahren zum funktionellen Zuordnen einer nichtklassifizierten DNA-Sequenz, umfassend:
  • a) Abgleichen der nichtklassifizierten Sequenz (A) mit Referenzsequenzen (B1-Bi) unter
  • b) Erstellen von Lückenmustern (C1-Cm) für die Referenzsequenzen (B1-Bn) und einer Konsensussequenz (D) für die Sequenz (A),
  • c) Aufspalten der Lückenmuster (C1-Cm) in kurze Konsensussequenzen (E1-Em) und Lückeninformationen (F1-Fm),
  • d) positionsweiser Vergleich der kurzen Konsensussequenzen (E1-Em) mit iterierendem Offset mit der Sequenz (A) unter Bestimmung der kurzen Konsensussequenz mit höchster Übereinstimmung (Emax),
  • e) Einfügen der der Konsensussequenz (Emax) entsprechenden Lückeninformation (Fmax) in die Sequenz (A) unter Erstellen einer Aligned-Sequenz (G).
2. Verfahren nach Anspruch 1, wobei bei dem positionswiesen Vergleich ein Übereinstimmungsgrad von ≧ 60%, vorzugsweise ≧ 80%, erforderlich ist.
3. Verfahren nach Anspruch 1 oder 2, wobei mehrere Zyklen der Schritte (a) bis (e) erfolgen.
4. Verfahren nach Anspruch 1, wobei die in Schritt (b) erstellten Lückenmuster (C1- Cm) und Konsensussequenz (D) für spätere Abgleiche verwendet werden.
DE19950050A 1999-10-16 1999-10-16 Verfahren zum funktionellen Zuordnen von nichtklassifizierten DNA-Sequenzen Expired - Fee Related DE19950050C2 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE19950050A DE19950050C2 (de) 1999-10-16 1999-10-16 Verfahren zum funktionellen Zuordnen von nichtklassifizierten DNA-Sequenzen

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19950050A DE19950050C2 (de) 1999-10-16 1999-10-16 Verfahren zum funktionellen Zuordnen von nichtklassifizierten DNA-Sequenzen

Publications (2)

Publication Number Publication Date
DE19950050A1 true DE19950050A1 (de) 2001-04-26
DE19950050C2 DE19950050C2 (de) 2002-07-18

Family

ID=7925982

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19950050A Expired - Fee Related DE19950050C2 (de) 1999-10-16 1999-10-16 Verfahren zum funktionellen Zuordnen von nichtklassifizierten DNA-Sequenzen

Country Status (1)

Country Link
DE (1) DE19950050C2 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003032108A3 (en) * 2001-08-29 2004-03-04 Genome Therapeutics Corp Confirmation sequencing

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003032108A3 (en) * 2001-08-29 2004-03-04 Genome Therapeutics Corp Confirmation sequencing

Also Published As

Publication number Publication date
DE19950050C2 (de) 2002-07-18

Similar Documents

Publication Publication Date Title
DE69426098T2 (de) Benutzung eines Bildmusters als Zugangsschlüssel zu Funktionen einer Maschine
DE3923449A1 (de) Verfahren zum bestimmen von kanten in bildern
DE19755831A1 (de) Verfahren zur Erzeugung einer Funkfrequenzsprungfolge für eine Funkkommunikation, Funkvorrichtung und Funkkommunikationssystem dafür
DE10196847B4 (de) Ein Verfahren zum Erzeugen von Huffman-Code-Längeninformationen
EP2130174A1 (de) Verfahren und vorrichtung zur ermittlung einer zellkontur einer zelle
CN105869122A (zh) 图像处理方法和装置
DE96066T1 (de) Verfahren und system zum behandeln von datensignalen die einen unbekannten charakter darstellen.
EP1267566A3 (de) Verfahren zur Erzeugung von Überfüllrahmen in einer Druckseite
DE19950050C2 (de) Verfahren zum funktionellen Zuordnen von nichtklassifizierten DNA-Sequenzen
DE102012223587B4 (de) Verfahren zum Testen einer Applikation
DE924939T1 (de) Verfahren und Gerät zur Einführung von Referenzstörungen in Videosignalen
EP1709587B1 (de) Bildverarbeitungssystem
WO2012052106A1 (de) Verfahren zur klassifizierung von mustern in bilddatensätzen
DE60102928T2 (de) Verfahren und vorrichtung zur bildverarbeitung
DE19548451C1 (de) Verfahren zur rechnergestützten Bewegungsschätzung für Bildpunkte zeitlich aufeinander folgender Bilder einer Videosequenz
EP0896292A3 (de) Verfahren und Gerät zum Lesen von Strichkodes und rechnerlesefähiges Medium
DE3781977T2 (de) Nach dem prinzip der elektromagnetischen induktion arbeitender koordinatenleser.
DE19517178C1 (de) Hintergrundbereinigung bei elektronisch abgetasteten Bildern
US6081626A (en) Method and system for background removal in electronically scanned images
DE10325843A1 (de) Verfahren, Computer und Computerprogramm zum Verwalten von Resourcen zur Verwendung in einem resourcenbasierten Dokumentendatenstrom
WO1998059325A2 (de) Chipkarte zur ausführung von nicht änderbaren system-programmroutinen und diesen zugeordneten ersatz-programmroutinen, sowie verfahren zum betrieb der chipkarte
DE10037742C2 (de) System zur Erkennung und Klassifizierung von Objekten
DE69421355T2 (de) Verfahren und Anlage zur Verwaltung der Zeichenerkennung einer Vielheit von Formularbildern mit gemeinsamen Datentypen
DE102021214034A1 (de) Verfahren zum Auswählen von Bildern zum Trainieren eines Bildklassifikators
DE1091324T1 (de) Verbesserte Trim-Operation basiert auf erhöhter Gesichtsdefinition

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
D2 Grant after examination
8339 Ceased/non-payment of the annual fee