WO2023006175A1 - Method for classifying at least one nucleic acid sequence and apparatus, computer program, computer-readable storage medium and digital image - Google Patents
Method for classifying at least one nucleic acid sequence and apparatus, computer program, computer-readable storage medium and digital image Download PDFInfo
- Publication number
- WO2023006175A1 WO2023006175A1 PCT/EP2021/070834 EP2021070834W WO2023006175A1 WO 2023006175 A1 WO2023006175 A1 WO 2023006175A1 EP 2021070834 W EP2021070834 W EP 2021070834W WO 2023006175 A1 WO2023006175 A1 WO 2023006175A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- nucleic acid
- acid sequence
- information measure
- information
- digital image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
Definitions
- the present invention relates to methods for classifying at least one nucleic acid sequence, at least one selective enrichment of at least one nucleic acid target population, a device that is designed to carry out such a method, a corresponding computer program that enables such a method to be carried out, a computer-readable storage medium for this and a digital image that is also designed to carry out the method described.
- Infections caused by pathogens such as bacteria, viruses, fungi and/or parasites pose a major threat to humans and are responsible for a large number of illnesses and/or deaths worldwide.
- Strategies to combat infection include appropriate prevention, such as vaccination, or appropriate treatment, such as antibiotics or antivirals.
- Detection of an acute infection, such as a pathogen infection, in a subject, such as a human can be accomplished in a variety of ways, one of which is detection of pathogen nucleic acid sequences in a sample from the subject, or in other examples, detection of pathogens.
- a determination of nucleic acid sequences in the sample can be carried out. This determination can be carried out, for example, using detection technologies based on sequencing. However, it can also be carried out using detection technologies based on hybridization.
- Examples of this include, but are not limited to, polymerase chain reactions, micro-array detection methods, dideoxy methods according to ski or next-generation sequencing methods.
- the complex samples from the subject itself include complex biological sample materials such as blood, urine, or other biospecimens.
- a selective enrichment of DNA, such as pathogen DNA, represents an approach to improve the signal-to-noise ratio for the detection of nucleic acid sequences from human samples.
- EP3529375.A1 describes a selective enrichment of nucleic acid sequences from microorganisms that uses differences in certain genomic signatures, more precisely specific primers, in order to selectively amplify nucleic acid sequences of the microorganisms, for example pathogen DNA.
- These specific primers can be used to preferentially amplify particular target sequences by selecting them to reveal differences in frequency and/or context between that target and background.
- These target sequences can include, for example, the genomes of human pathogenic organisms, in particular bacteria.
- the target of selective amplification corresponds to a large collection of microbial genomes and the subject representing the background nucleic acid sequences corresponds to the human genome.
- nucleic acid libraries which are obtained, for example, by selective but comprehensive amplification
- the object of the invention is to specify a method which makes it possible to determine and appropriately classify such amplification products and/or amplification or contamination artifacts.
- a method for classifying at least one nucleic acid sequence of at least one selective enrichment of at least one nucleic acid target population is provided, wherein the nucleic acid target population comprises at least one nucleic acid sequence segment and wherein the at least one nucleic acid sequence is classified by means of at least one information measure derived from a detection of at least one nucleic acid sequence segment.
- the procedure includes the following steps:
- Selective enrichment is to be understood, for example, as not exclusively selective amplification.
- Selective amplification is amplification from a predefined nucleic acid target population using a nucleic acid amplification method, for example using enzymatic amplification.
- Selective enrichment can also include enzyme-based enrichment. This can be done, for example, but not exclusively by polymerase, by specific primers, for example by k-mers. This allows certain target sequences to be preferentially amplified by being selected in such a way that differences in frequency and/or context between this target and the background are shown.
- a nucleic acid sequence is a defined sequence of DNA or RNA bases.
- a nucleic acid sequence is also to be understood as meaning an enrichment product or amplification product of the selective enrichment or of the selective amplification.
- a nucleic acid target population is a particular collection of nucleic acid sequences.
- a nucleic acid sequence section can be an entire genome or just a part of the genome.
- the smallest unit of a nucleic acid sequence segment is two base pairs of a nucleic acid sequence, the largest unit is all of the nucleic acid sequences present in an organism or in a pathogen.
- a classification of a nucleic acid sequence is to be understood as an assignment of the nucleic acid sequence to a specific group of enrichment products or amplification products, whether they are of an informative nature, i.e. of such a nature that they can be assigned to actual positive pathogens, or whether they are not of an informative nature , i.e. such that they have to be assigned to false positive pathogens.
- Non-informative enrichment products or amplification products can also be enrichment artifacts or amplification artifacts, for example due to non-specific amplification lification reactions or artificial amplification products include. They can also include contamination artefacts, for example due to subsequent contamination of the sample, for example during sample removal or sample preparation.
- a detection of at least one nucleic acid sequence segment can, for example, but not exclusively, take place through a plurality of sequencing reads or next-generation sequencing reads.
- Sequencing reads are a sequence of base pairs or base pair probabilities of a nucleic acid sequence segment determined using Sanger sequencing technology.
- the length of such reads is usually several hundred base pairs.
- Next-generation sequencing reads are a sequence of base pairs or base pair probabilities of a nucleic acid sequence segment determined using next-generation sequencing technology.
- the length of such reads is usually 75 to several hundred base pairs, but can also include thousands of base pairs.
- a measure of information according to the invention comprises information on the nucleic acid sequence sections which is obtained from experiments and/or experiment databases. By appropriately deriving an information measure, nucleic acid sequences can be assigned to specific groups of enrichment products or amplification products.
- An information measure according to the invention can also include a number of reads of the at least one nucleic acid sequence segment and/or a number of bases per read of the at least one nucleic acid sequence segment.
- Sectioning can also include a selection of a suitable information measure from a previous experiment or series of experiments and is not limited to a single execution of the method.
- the at least one information measure can also be determined, at least in part, by means of a computer-aided method.
- a computer-aided method is to be understood, for example, but not exclusively, as a method that includes program parts that support and/or optimize the physical method using artificial intelligence.
- the quality of the information derived from the underlying selective enrichment can be increased by this non-automated method.
- a classification of at least one nucleic acid sequence based on the derived at least one information measure is also to be understood as a recognition, in particular a specific recognition of the at least one nucleic acid sequence.
- the invention thus uses a generated possibility of assignment in order to provide a sensitive and specific determination of nucleic acid sequences and thus also to increase the quality of the underlying selective enrichment, for example in order to separate treatment-relevant results from non-treatment-relevant results.
- the at least one information measure includes a determination of at least one limit value.
- a limit value are the coverage of nucleic acid sequences of the nucleic acid target population or the number of reads achieved or sequencing depth for nucleic acid sequences of the nucleic acid target population.
- the limit value itself can also be a limit value function, such as relating to a uniformity ratio cover nucleic acid sequences of the nucleic acid target population.
- limit values or limit value functions can be used, for example, but not exclusively, to determine certain hotspots in a genome that result from certain enrichment artifacts or amplification artifacts.
- the at least one information measure includes a coverage of the at least one nucleic acid sequence section. Coverage is a percentage of base pairs of a certain nucleic acid sequence that can be covered by reads. The higher the coverage, the higher the probability that the nucleic acid sequence is actually present in the sample. Thus, coverage is an important measure to determine the presence of a nucleic acid sequence.
- At least one information measure comprises a detection level of the at least one nucleic acid sequence section.
- a detection level is to be understood, for example, but not exclusively, as a sequencing depth of the at least one nucleic acid sequence section.
- a sequencing depth is a number of reads that can be allocated to a certain nucleic acid sequence. The higher the sequencing depth, the higher the concentration of the nucleic acid sequence in the sample. The sequence depth is thus an important measure for determining the presence of a nucleic acid sequence. For example, a minimum sequencing depth can be used to differentiate between signal and noise.
- the sequencing depth can be determined by means of an absolute or relative frequency determination and can also include a detection level or an abundance level.
- the at least one information measure and one further information measure form a multivariate information measure.
- the multivariate information measure includes an evenness ratio.
- the uniformity ratio is calculated on the one hand based on a number of unique base pairs found per assigned read and on the other hand on an estimated number of unique base pairs found per assigned read, assuming a homogeneous distribution of the reads over a nucleic acid sequence with a paired read length as a suitable upper bound.
- the nucleic acid sequence comprises at least one sequence with a specific function or at least one sequence which can be assigned specifically to a functional class or a pathogen or a pathogen class.
- a sequence with a specific function can be understood, for example, but not exclusively, as a sequence of individual genes, for example antibiotic resistance genes or virulence genes, but also a sequence of an entire genome of a pathogen.
- classification of the at least one nucleic acid sequence differentiates it from other nucleic acid sequences.
- These further nucleic acid sequences can also include living, virulent, proliferating, intact and/or non-intact cells. A more sensitive and/or more specific determination of the nucleic acid sequences can also be achieved in this way and thus also an increase in the quality of the information derived from the underlying selective enrichment.
- the other nucleic acid sequences include other products of the at least one selective enrichment.
- Other products can, for example, but not exclusively, be non-specific amplification artifacts in order to enable a more specific determination of the nucleic acid sequences.
- a device for classifying at least one nucleic acid sequence includes all means to classify the at least one nucleic acid sequence and can also be designed to carry out additional method steps, such as the selective enrichment itself.
- the present invention describes a computer program that can be loaded into a memory of a programmable controller or a computing unit of a server unit and/or a device according to the invention. All or various previously described embodiments of the method according to the invention can be executed with this computer program if the computer program runs in the controller or control device of the server unit and/or the device according to the invention.
- the computer program may require program means, for example libraries and auxiliary functions, in order to implement the corresponding embodiments of the method.
- a software would be placed under protection with which one of the above-described embodiments of the method according to the invention can be carried out or which carries out this embodiment.
- the software can be a source code that still has to be compiled and linked or that only needs to be interpreted, or it can be an executable software code that only needs to be loaded into the corresponding processing unit for execution.
- the present invention also relates to a computer-readable storage medium, e.g. a DVD, a Blu-ray disc, a hard drive or a USB stick, on which electronically readable control information, in particular software, is stored. If this control information is read from the storage medium and stored in a controller or computing unit of a server unit and/or a device according to the invention, all embodiments according to the invention of the method described above can be carried out.
- a computer-readable storage medium e.g. a DVD, a Blu-ray disc, a hard drive or a USB stick
- the invention also relates to a digital image designed to classify at least one nucleic acid sequence.
- the digital image includes a digital representation of the device according to the invention.
- the digital representation includes a digital description of one or more physical objects.
- the digital representation can also include a behavioral model of one or more physical objects.
- the digital image comprises an interface between the digital representation of the device and the device for two-way communication.
- the interface allows, for example, recording of data from the device at different points in time and can also include acquisition of a behavioral model of the device in real time. It can be used to collect statistical metrics and/or for analysis and/or optimization.
- the digital image itself is thus designed to carry out the method according to the invention described in a restricted manner.
- the digital image additionally includes the device. This enables the method according to the invention to be carried out in an optimized manner, since the device can be connected more easily to the interface of the digital image.
- FIG. 2 shows method results in tabular form and exemplary information measures used for the method according to the invention.
- 1 shows a flow chart of a method according to the invention. The method comprises the method steps 101 to 105, whereby in the description of the method steps 101 to 105, parts of the description including the corresponding ones in connection with the reference symbols introduced in FIG. 2 can also be used.
- Method steps 101 to 105 can be carried out manually, semi-automatically or automatically and/or by means of a described device according to the invention which is designed to carry out such a method and/or by a corresponding computer program which executes such a method made possible and/or by a computer-readable storage medium for this purpose and/or by a digital image, which is also designed to carry out the method described.
- a first method step 101 characterizes the start of a classification of at least one nucleic acid sequence 202 at least one selective enrichment of at least one nucleic acid target population, wherein the nucleic acid target population comprises at least one nucleic acid sequence section.
- Selective enrichment is to be understood, for example, as not exclusively selective amplification.
- Selective amplification is amplification from a predefined nucleic acid target population using a nucleic acid amplification method, for example using enzymatic amplification.
- a nucleic acid sequence 202 is a defined sequence of DNA or RNA bases.
- a nucleic acid sequence 202 is also to be understood as meaning an enrichment product or amplification product of the selective enrichment or of the selective amplification.
- a nucleic acid sequence segment can be an entire genome or just a part of the genome.
- the smallest unit A nucleic acid sequence section is two base pairs of a nucleic acid sequence, the largest unit is the largest unit is all of the nucleic acid sequences present in an organism or in a pathogen.
- a detection of at least one nucleic acid sequence section can, for example, but not exclusively, take place by means of several sequencing reads or next-generation sequencing reads. Sequencing reads are a sequence of base pairs or base pair probabilities of a nucleic acid sequence segment determined using Sanger sequencing technology. The length of such reads is usually several hundred base pairs.
- Next-generation sequencing reads are a sequence of base pairs or base pair probabilities of a nucleic acid sequence segment determined using next-generation sequencing technology.
- the length of such reads is usually 75 to several hundred base pairs, but can also include thousands of base pairs.
- Method step 103 characterizes the derivation of at least one information measure 205, 206 based on the detected at least one nucleic acid sequence section.
- a measure of information 205, 206 according to the invention includes information on the nucleic acid sequence segments which is obtained from experiments and/or experiment databases 201. By appropriately deriving an information measure 205, 206, nucleic acid sequences 202 can be assigned to specific groups of enrichment products or amplification products.
- An information measure 205, 206 according to the invention can also include a number of reads of the at least one nucleic acid sequence segment and/or a number of bases per read of the at least one nucleic acid sequence segment.
- the derivation of the at least one information measure 205, 206 based on the detected at least one nucleic acid sequence section can also be a selection of a suitable information measure 205, 206 from a previous experiment or a series of experiments include and is not limited to a singular execution of the process.
- At least one nucleic acid sequence 202 is classified based on the derived at least one information measure 205, 206.
- Classification of at least one nucleic acid sequence 202 based on the derived at least one information measure 205, 206 also includes recognition, in particular specific recognition of the at least one Nucleic acid sequence 202 to understand.
- a last method step 105 characterizes an end of a classification of at least one nucleic acid sequence 202 at least one selective enrichment of at least one nucleic acid target population, wherein the nucleic acid target population comprises at least one nucleic acid sequence section.
- FIG. 2 shows method results in tabular form as well as information dimensions 205, 206, 207 used for the method according to the invention.
- a first information measure 205 and a second information measure 206 are involved, which together form an exemplary multivariate information measure 207 .
- the first information measure 205 is an average number of unique base pairs observed per read for a nucleic acid sequence, which in the experiment shown is a quotient between a product of a percentage coverage of a nucleic acid sequence at a detection level of one and a length of one nucleus acid sequence and a number of reads associated with a nucleic acid sequence.
- the second information measure 206 is an estimated number of unique base pairs per read when the reads are evenly distributed over the nucleic acid sequence that in the experiment shown comprises a quotient between a length of a nucleic acid sequence and a number of reads assigned to a nucleic acid sequence.
- the multivariate information measure 207 formed from these two information measures 205, 206, in the experiment shown a uniformity ratio, comprises a quotient of the first information measure 205 and the second information measure 206 for a case that an estimated number of base pairs per read is less than 300 and comprises a quotient of the first information measure 205 and 300 for a case that a number of estimated base pairs per read is greater than or equal to 300.
- the limit of 300 shown in this example corresponds to a so-called paired-end next-generation sequencing read length of 150 per read and must be selected according to the next-generation sequencing read length.
- the method results in tabular form show for all test samples 201 that a specific nucleic acid sequence 202, in the present example a pathogen that is actually present, can in all cases be classified with a significantly higher quality than a first further nucleic acid sequence 203, in the present example a first false-positive organism or also as a second further nucleic acid sequence 204, in the present example a second false-positive organism.
- the percentages shown in FIG. 2 correspond directly to a multivariate information measure 207, in this example a uniformity ratio.
- the classification 104 of at least one nucleic acid sequence 202 of at least one selective enrichment of at least one nucleic acid target population by means of an information measure 205, 206, here by means of a multivariate information measure 207 is not limited to this multivariate information measure 207 .
- Such a classification 104 can also be carried out using a single univariate information measure 205, 206 or using several univariate and/or multivariate information measures 205, 206, 207.
- the at least one information measure 205, 206 can also be determined, at least in part, using a computer-aided method.
- a computer-aided method is to be understood, for example, but not exclusively, as a method that includes program parts that support and/or optimize the physical method using artificial intelligence.
- An information measure 205, 206, 207 can include a determination of at least one limit value. Examples of such a limit value are the coverage of nucleic acid sequences 202 of the nucleic acid target population or the number of reads achieved or also the sequencing depth for nucleic acid sequences 202 of the nucleic acid target population.
- An information measure 205, 206, 207 can likewise also include a detection level of the at least one nucleic acid sequence section, such as a sequencing depth of the at least one nucleic acid sequence section.
- a sequencing depth is a number of reads that a certain nucleic acid sequence 202 can be assigned. The higher the sequencing depth, the higher the concentration of the nucleic acid sequence 202 in the sample. The sequencing depth is thus an important measure for determining the presence of a nucleic acid sequence 202 . For example, a minimum sequencing depth can be used to differentiate between signal and noise.
- the classification 104 of the at least one nucleic acid sequence 202 includes a delimitation to further nucleic acid sequences 203, 204.
- These further nucleic acid sequences 203, 204 can also comprise living, virulent, proliferating, intact and/or non-intact cells.
- a more sensitive and/or more specific determination of the nucleic acid sequences 202 can be achieved and thus also an increase in the quality of the information derived from the underlying selective enrichment.
- the further nucleic acid sequences 203 204 can also include further products of the at least one selective enrichment.
- Other products can, for example, but not exclusively, be non-specific amplification artefacts in order to enable the nucleic acid sequences 202 to be determined more specifically.
- the invention relates to a method for classifying at least one nucleic acid sequence, at least one selective enrichment of at least one nucleic acid target population, a device that is designed to carry out such a method, a corresponding computer program that enables such a method to be carried out, a computer-readable storage medium for this and a digital image that is also designed to carry out the method described.
- the nucleic acid target population comprises at least one nucleic acid sequence segment and the at least one nucleic acid sequence is classified using at least one information measure derived from a detection of at least one nucleic acid sequence segment.
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biophysics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
Description
Beschreibung Description
Verfahren zur Klassifizierung mindestens einer Nukleinsäu resequenz sowie Vorrichtung, Computerprogramm, computerlesba res Speichermedium und digitales Abbild Method for classifying at least one nucleic acid sequence and device, computer program, computer-readable storage medium and digital image
Die vorliegende Erfindung betrifft Verfahren zur Klassifizie rung mindestens einer Nukleinsäuresequenz mindestens einer selektiven Anreicherung mindestens einer Nukleinsäuretarget population, eine Vorrichtung, die zur Ausführung eines sol chen Verfahrens ausgestaltet ist, ein entsprechendes Compu terprogramm, das die Ausführung eines derartigen Verfahrens ermöglicht, ein computerlesbares Speichermedium hierfür sowie ein digitales Abbild, das ebenfalls zur Ausführung des be schriebenen Verfahrens ausgestaltet ist. The present invention relates to methods for classifying at least one nucleic acid sequence, at least one selective enrichment of at least one nucleic acid target population, a device that is designed to carry out such a method, a corresponding computer program that enables such a method to be carried out, a computer-readable storage medium for this and a digital image that is also designed to carry out the method described.
Infektionen durch Krankheitserreger wie Bakterien, Viren, Pilzen und/oder Parasiten stellen eine große Bedrohung für den Menschen dar und sind weltweit für eine hohe Zahl an Er krankungen und/oder Todesfällen verantwortlich. Strategien zur Bekämpfung von Infektionen sind u.a. eine geeignete Prä vention, beispielsweise durch Impfungen oder geeignete Be handlungen, beispielsweise durch Antibiotika oder antivirale Mittel. Infections caused by pathogens such as bacteria, viruses, fungi and/or parasites pose a major threat to humans and are responsible for a large number of illnesses and/or deaths worldwide. Strategies to combat infection include appropriate prevention, such as vaccination, or appropriate treatment, such as antibiotics or antivirals.
Für ein effektives Infektionsmanagement werden diagnostische Verfahren benötigt, um kontinuierlich auf Infektionen zu prü fen oder frühere Infektionen zu erkennen. Der Nachweis einer akuten Infektion, beispielsweise einer Pathogeninfektion in einem Subjekt, beispielsweise einem Menschen kann auf ver schiedene Weise erfolgen, von denen eine der Nachweis von Nukleinsäuresequenzen des Pathogens in einer Probe des Sub jekts ist oder in anderen Beispielen der Nachweis von Krank heitserregern. For effective infection management, diagnostic methods are needed to continuously check for infections or to detect previous infections. Detection of an acute infection, such as a pathogen infection, in a subject, such as a human, can be accomplished in a variety of ways, one of which is detection of pathogen nucleic acid sequences in a sample from the subject, or in other examples, detection of pathogens.
Zu diesem Zweck kann eine Bestimmung von Nukleinsäuresequen zen in der Probe durchgeführt werden. Diese Bestimmung kann beispielsweise anhand von auf Sequen zierung basierten Detektionstechnologien durchgeführt werden. Sie kann aber auch anhand von auf Hybridisierung basierten Detektionstechnologien durchgeführt werden. For this purpose, a determination of nucleic acid sequences in the sample can be carried out. This determination can be carried out, for example, using detection technologies based on sequencing. However, it can also be carried out using detection technologies based on hybridization.
Beispiele hierfür sind unter anderem aber nicht ausschließ lich Polymerase-Kettenreaktionen, Micro-Array Detektionsme thoden, Didesoxymethoden nach Sänger oder Next-Generation- Sequencing-Methoden . Examples of this include, but are not limited to, polymerase chain reactions, micro-array detection methods, dideoxy methods according to Sänger or next-generation sequencing methods.
Wenn jedoch Nukleinsäuresequenzen in einer komplexen Probe eines Subjekts bestimmt werden, wird eine direkte Sequenzie rung solcher Proben beim Nachweis von Krankheitserregern, wie beispielsweise Bakterien, Viren oder andere häufig durch ein hohes Hintergrundniveau der Nukleinsäuresequenzen des Sub jekts selbst, beispielsweise durch menschliche Nukleinsäu resequenzen eines Menschen behindert und/oder gestört. Dies resultiert in einem hohen Signal-Rausch-Verhältnis. However, when determining nucleic acid sequences in a complex sample from a subject, direct sequencing of such samples in the detection of pathogens such as bacteria, viruses or others is often hampered by a high background level of the nucleic acid sequences of the subject itself, for example human nucleic acid sequences disabled and/or disturbed. This results in a high signal-to-noise ratio.
Die komplexen Proben des Subjekts selbst umfassen komplexe biologische Probenmaterialien wie beispielsweise Blut, Urin oder andere Biospezimen. The complex samples from the subject itself include complex biological sample materials such as blood, urine, or other biospecimens.
Insbesondere im Blut kann überschüssige menschliche DNA die extrahierbaren DNA-Pools um mehrere Zehnerpotenzen dominie ren. Für die Diagnose von Infektionskrankheiten sind die Nuk leinsäuresequenzen des Subjekts, wie beispielsweise die menschliche DNA, in der Regel nicht von Interesse. In blood in particular, excess human DNA can dominate the extractable DNA pools by several orders of magnitude. For the diagnosis of infectious diseases, the subject's nucleic acid sequences, such as human DNA, are usually not of interest.
Daher ist die direkte Bestimmung der Nukleinsäuresequenzen stark wirtkontaminierter Proben ineffizient und folglich nicht kosteneffizient. Therefore, direct determination of the nucleic acid sequences of heavily host-contaminated samples is inefficient and consequently not cost-effective.
Gegenwärtig existieren verschiedene Methoden und Verfahren zur Entfernung derartiger Wirts-Nukleinsäuren, wie beispiels weise menschlicher DNA. Diese sind jedoch normalerweise kost spielig und erfordern häufig zusätzliche Probenvorbereitungs schritte. Eine selektive Anreicherung von DNA, wie beispielsweise Pa- thogen-DNA stellt einen Ansatz zur Verbesserung des Signal- Rausch-Verhältnisses zum Nachweis von Nukleinsäuresequenzen aus menschlichen Proben dar. Various methods and procedures currently exist for removing such host nucleic acids, such as human DNA. However, these are usually expensive and often require additional sample preparation steps. A selective enrichment of DNA, such as pathogen DNA, represents an approach to improve the signal-to-noise ratio for the detection of nucleic acid sequences from human samples.
Die EP3529375.A1 beschreibt eine selektive Anreicherung von Nukleinsäuresequenzen von Mikroorganismen, die Unterschiede in gewissen genomischen Signaturen verwendet, genauer spezi fische Primer, um Nukleinsäuresequenzen der Mikroorganismen, beispielsweise Pathogen-DNA, selektiv zu amplifizieren. EP3529375.A1 describes a selective enrichment of nucleic acid sequences from microorganisms that uses differences in certain genomic signatures, more precisely specific primers, in order to selectively amplify nucleic acid sequences of the microorganisms, for example pathogen DNA.
Diese spezifischen Primer können verwendet werden, um be stimmte Zielsequenzen bevorzugt zu amplifizieren, indem sie derart ausgewählt werden, dass sich Unterschiede in der Häu figkeit und/oder im Kontext zwischen diesem Ziel und dem Hin tergrund zeigen. Diese Zielsequenzen können beispielsweise die Genome von human-pathogenen Organismen, insbesondere Bak terien umfassen. These specific primers can be used to preferentially amplify particular target sequences by selecting them to reveal differences in frequency and/or context between that target and background. These target sequences can include, for example, the genomes of human pathogenic organisms, in particular bacteria.
Im Beispiel einer umfassenden Anreicherung durch eine Ampli fikation von bakterieller DNA aus Blutproben entspricht das Ziel der selektiven Amplifikation einer umfassenden Sammlung von mikrobiellen Genomen und das Subjekt, das die Hinter grund-Nukleinsäuresequenzen repräsentiert, entspricht dem menschlichen Genom. In the example of large-scale enrichment by amplification of bacterial DNA from blood samples, the target of selective amplification corresponds to a large collection of microbial genomes and the subject representing the background nucleic acid sequences corresponds to the human genome.
Bei all diesen Anwendungen bleibt die Herausforderung beste hen, dass Daten aus Nukleinsäure-Bibliotheken, die beispiels weise durch eine selektive, aber umfassende Amplifikation er halten werden, nicht nur informative Amplifikationsprodukte enthalten können, die den tatsächlichen positiven Erregern zugeordnet werden, sondern auch unspezifische, nicht informa tive Amplifikationsprodukte und/oder Amplifikations-, bzw. Kontaminationsartefakte, die durch modernste bioinformatische Analyse falsch positiven Erregern zugeordnet werden, welche in der ursprünglichen Probe allerdings nicht als Erreger vor handen sind. Aufgabe der Erfindung ist es, ein Verfahren anzugeben, das es ermöglicht, derartige Amplifikationsprodukte und/oder Ampli- fikations-, bzw. Kontaminationsartefakte zu bestimmen und entsprechend zu klassifizieren. With all these applications, the challenge remains that data from nucleic acid libraries, which are obtained, for example, by selective but comprehensive amplification, can contain not only informative amplification products that are assigned to the actual positive pathogens, but also non-specific, non-informative amplification products and/or amplification or contamination artifacts that are assigned to false positive pathogens using the latest bioinformatic analysis, but which are not present as pathogens in the original sample. The object of the invention is to specify a method which makes it possible to determine and appropriately classify such amplification products and/or amplification or contamination artifacts.
Diese Aufgabe wird durch ein Verfahren nach Anspruch 1 ge löst. Diese Aufgabe wird ferner durch eine Vorrichtung nach Anspruch 10, ein Computerprogramm nach Anspruch 11, durch ein computerlesbares Speichermedium nach Anspruch 12, sowie durch ein digitales Abbild nach Anspruch 13 gelöst. Vorteilhafte Ausgestaltungen der Erfindung sind in den jeweils rückbezoge nen Unteransprüchen angegeben. This object is solved by a method according to claim 1 ge. This object is further achieved by a device according to claim 10, a computer program according to claim 11, by a computer-readable storage medium according to claim 12, and by a digital image according to claim 13. Advantageous refinements of the invention are specified in the dependent claims that are referred back in each case.
Dabei wird ein Verfahren zur Klassifizierung mindestens einer Nukleinsäuresequenz mindestens einer selektiven Anreicherung mindestens einer Nukleinsäuretargetpopulation bereitgestellt, wobei die Nukleinsäuretargetpopulation mindestens einen Nuk leinsäuresequenzabschnitt umfasst und wobei die Klassifizie rung der mindestens einen Nukleinsäuresequenz mittels mindes tens eines aus einer Detektion mindestens eines Nukleinsäu resequenzabschnitts abgeleiteten Informationsmaßes erfolgt. A method for classifying at least one nucleic acid sequence of at least one selective enrichment of at least one nucleic acid target population is provided, wherein the nucleic acid target population comprises at least one nucleic acid sequence segment and wherein the at least one nucleic acid sequence is classified by means of at least one information measure derived from a detection of at least one nucleic acid sequence segment.
Das Verfahren umfasst folgende Schritte: The procedure includes the following steps:
- Detektion mindestens eines Nukleinsäuresequenzabschnitts,- Detection of at least one nucleic acid sequence segment,
- Ableiten mindestens eines Informationsmaßes anhand des de- tektierten mindestens einen Nukleinsäuresequenzabschnitts und- Deriving at least one information measure based on the detected at least one nucleic acid sequence segment and
- Klassifizierung mindestens einer Nukleinsäuresequenz anhand des abgeleiteten mindestens einen Informationsmaßes. - Classification of at least one nucleic acid sequence based on the derived at least one information measure.
Unter einer selektiven Anreicherung, ist beispielsweise aber nicht ausschließlich eine selektive Amplifikation zu verste hen. Eine selektive Amplifikation ist eine Amplifikation von einer vorab definierten Nukleinsäuretargetpopulation mittels eines Verfahrens zur Nukleinsäure-Amplifizierung, beispiels weise mittels enzymatischer Amplifizierung. Eine selektive Anreicherung kann auch eine enzymbasierte An reicherung umfassen. Dies kann beispielsweise aber nicht aus schließlich durch Polymerase, durch spezifische Primer, bei spielsweise durch k-mere erfolgen. Dadurch lassen sich be stimmte Zielsequenzen bevorzugt amplifizieren, indem sie der art ausgewählt werden, dass sich Unterschiede in der Häufig keit und/oder im Kontext zwischen diesem Ziel und dem Hinter grund zeigen. Selective enrichment is to be understood, for example, as not exclusively selective amplification. Selective amplification is amplification from a predefined nucleic acid target population using a nucleic acid amplification method, for example using enzymatic amplification. Selective enrichment can also include enzyme-based enrichment. This can be done, for example, but not exclusively by polymerase, by specific primers, for example by k-mers. This allows certain target sequences to be preferentially amplified by being selected in such a way that differences in frequency and/or context between this target and the background are shown.
Eine Nukleinsäuresequenz ist eine definierte Sequenz von DNS- oder RNS-Basen. A nucleic acid sequence is a defined sequence of DNA or RNA bases.
Unter einer Nukleinsäuresequenz ist auch ein Anreicherungs produkt bzw. Amplifikationsprodukt der selektiven Anreiche rung bzw. der selektiven Amplifikation zu verstehen. A nucleic acid sequence is also to be understood as meaning an enrichment product or amplification product of the selective enrichment or of the selective amplification.
Eine Nukleinsäuretargetpopulation ist eine bestimmte Sammlung von Nukleinsäuresequenzen. A nucleic acid target population is a particular collection of nucleic acid sequences.
Bei einem Nukleinsäuresequenzabschnitt kann es sich um ein gesamtes Genom oder aber auch nur ein Genomteil handeln. Die kleinste Einheit eines Nukleinsäuresequenzabschnitt ist zwei Basenpaare einer Nukleinsäuresequenz, die größte Einheit ist die Gesamtheit der in einem Organismus oder in einem Krank heitserreger vorhandenen Nukleinsäuresequenzen. A nucleic acid sequence section can be an entire genome or just a part of the genome. The smallest unit of a nucleic acid sequence segment is two base pairs of a nucleic acid sequence, the largest unit is all of the nucleic acid sequences present in an organism or in a pathogen.
Demnach ist unter einer Klassifizierung einer Nukleinsäurese quenz eine Zuordnung der Nukleinsäuresequenz zu einer be stimmten Gruppe von Anreicherungsprodukten oder auch Amplifi kationsprodukten zu verstehen, seien sie informativer Art, also derart beschaffen, dass sie tatsächlichen positiven Er regern zugeordnet werden können oder seien sie nicht informativer Art, also derart beschaffen, dass sie falsch po sitiven Erregern zugeordnet werden müssen. Accordingly, a classification of a nucleic acid sequence is to be understood as an assignment of the nucleic acid sequence to a specific group of enrichment products or amplification products, whether they are of an informative nature, i.e. of such a nature that they can be assigned to actual positive pathogens, or whether they are not of an informative nature , i.e. such that they have to be assigned to false positive pathogens.
Nicht-informative Anreicherungsprodukte bzw. Amplifikations produkte können auch Anreicherungsartefakte bzw. Amplifikati onsartefakte beispielsweise aufgrund von unspezifischen Amp- lifikationsreaktionen oder artifiziellen Amplifikationspro dukten umfassen. Sie können auch Kontaminationsartefakte, beispielsweise aufgrund von nachträglicher Kontamination der Probe, z.B. bei der Probenentnahme oder der Probenaufberei tung umfassen. Non-informative enrichment products or amplification products can also be enrichment artifacts or amplification artifacts, for example due to non-specific amplification lification reactions or artificial amplification products include. They can also include contamination artefacts, for example due to subsequent contamination of the sample, for example during sample removal or sample preparation.
Eine Detektion mindestens eines Nukleinsäuresequenzabschnitts kann beispielsweise aber nicht ausschließlich durch mehrere Sequenzierungs-Reads oder Next-Generation-Sequenzierungs- Reads erfolgen. A detection of at least one nucleic acid sequence segment can, for example, but not exclusively, take place through a plurality of sequencing reads or next-generation sequencing reads.
Sequenzierungs-Reads sind eine mittels Sanger- Sequenzierungstechnologie ermittelte Sequenz von Basenpaaren bzw. Basenpaarwahrscheinlichkeiten eines Nukleinsäuresequenz abschnitts. Die Länge derartiger Reads beträgt üblicherweise mehrere hundert Basenpaare. Sequencing reads are a sequence of base pairs or base pair probabilities of a nucleic acid sequence segment determined using Sanger sequencing technology. The length of such reads is usually several hundred base pairs.
Next-Generation-Sequenzierungs-Reads sind eine mittels Next- Generation-Sequenzierungstechnologie ermittelte Sequenz von Basenpaaren bzw. Basenpaarwahrscheinlichkeiten eines Nuklein säuresequenzabschnitts. Die Länge derartiger Reads beträgt üblicherweise 75 bis mehrere hundert Basenpaare, kann aber auch tausende von Basenpaaren umfassen. Next-generation sequencing reads are a sequence of base pairs or base pair probabilities of a nucleic acid sequence segment determined using next-generation sequencing technology. The length of such reads is usually 75 to several hundred base pairs, but can also include thousands of base pairs.
Ein erfindungsgemäßes Informationsmaß umfasst Informationen der Nukleinsäuresequenzabschnitte, die aus Versuchen und/oder Versuchsdatenbanken gewonnen werden. Durch eine geeignete Ab leitung eines Informationsmaßes lassen sich Nukleinsäurese quenzen zu bestimmten Gruppen von Anreicherungsprodukten bzw. Amplifikationsprodukten zuordnen. A measure of information according to the invention comprises information on the nucleic acid sequence sections which is obtained from experiments and/or experiment databases. By appropriately deriving an information measure, nucleic acid sequences can be assigned to specific groups of enrichment products or amplification products.
Ein erfindungsgemäßes Informationsmaß kann auch eine Anzahl an Reads des mindestens einen Nukleinsäuresequenzabschnitts umfassen und/oder eine Anzahl an Basen pro Reads des mindes tens einen Nukleinsäuresequenzabschnitts. An information measure according to the invention can also include a number of reads of the at least one nucleic acid sequence segment and/or a number of bases per read of the at least one nucleic acid sequence segment.
Das Ableiten des mindestens einen Informationsmaßes anhand des detektierten mindestens einen Nukleinsäuresequenzab- Schnitts kann auch eine Auswahl eines geeigneten Informati onsmaßes aus einem vorangegangenen Versuch oder einer Ver suchsreiche umfassen und ist nicht auf eine singuläre Ausfüh rung des Verfahrens beschränkt. Deriving the at least one information measure based on the detected at least one nucleic acid sequence Sectioning can also include a selection of a suitable information measure from a previous experiment or series of experiments and is not limited to a single execution of the method.
Das mindestens eine Informationsmaß kann auch zumindest teil weise mittels eines computergestützten Verfahrens bestimmt werden. Unter einem computergestützten Verfahren ist bei spielsweise aber nicht ausschließlich ein Verfahren zu ver stehen, dass Programmteile umfasst, die mittels künstlicher Intelligenz das physikalische Verfahren unterstützen und/oder optimieren. Durch dieses nicht vollautomatische Verfahren kann die Güte der aus der zugrunde liegenden selektiven An reicherung abgeleiteten Information erhöht werden. The at least one information measure can also be determined, at least in part, by means of a computer-aided method. A computer-aided method is to be understood, for example, but not exclusively, as a method that includes program parts that support and/or optimize the physical method using artificial intelligence. The quality of the information derived from the underlying selective enrichment can be increased by this non-automated method.
Unter einer Klassifizierung mindestens einer Nukleinsäurese quenz anhand des abgeleiteten mindestens einen Informations maßes ist auch eine Erkennung, insbesondere eine spezifische Erkennung der mindestens einen Nukleinsäuresequenz zu verste hen. A classification of at least one nucleic acid sequence based on the derived at least one information measure is also to be understood as a recognition, in particular a specific recognition of the at least one nucleic acid sequence.
Die Erfindung nutzt somit eine erzeugte Möglichkeit einer Zu ordnung, um eine sensitive und spezifische Bestimmung von Nukleinsäuresequenzen bereitzustellen und somit auch die Güte der zugrunde liegenden selektiven Anreicherung zu erhöhen, beispielsweise um behandlungsrelevante Ergebnisse von nicht behandlungsrelevanten Ergebnissen zu separieren. The invention thus uses a generated possibility of assignment in order to provide a sensitive and specific determination of nucleic acid sequences and thus also to increase the quality of the underlying selective enrichment, for example in order to separate treatment-relevant results from non-treatment-relevant results.
In einer bevorzugten Ausführungsform umfasst das mindestens eine Informationsmaß eine Bestimmung mindestens eines Grenz wertes. Beispiele für einen derartigen Grenzwert sind die Ab deckung von Nukleinsäuresequenzen der Nukleinsäuretargetpopu lation oder die erreichte Anzahl der Reads oder auch Sequen ziertiefe für Nukleinsäuresequenzen der Nukleinsäuretargetpo pulation. In a preferred embodiment, the at least one information measure includes a determination of at least one limit value. Examples of such a limit value are the coverage of nucleic acid sequences of the nucleic acid target population or the number of reads achieved or sequencing depth for nucleic acid sequences of the nucleic acid target population.
Dabei kann der Grenzwert selbst auch eine Grenzwertfunktion, wie beispielsweise ein Gleichmäßigkeitsverhältnis betreffend eine Abdeckung von Nukleinsäuresequenzen der Nukleinsäuretar- getpopulation umfassen. In this case, the limit value itself can also be a limit value function, such as relating to a uniformity ratio cover nucleic acid sequences of the nucleic acid target population.
Durch derartige Grenzwerte bzw. Grenzwertfunktionen können beispielsweise aber nicht ausschließlich bestimmte Hotspots in einem Genom bestimmt werden, die von gewissen Anreiche rungsartefakten bzw. Amplifikationsartefakten herrühren. Such limit values or limit value functions can be used, for example, but not exclusively, to determine certain hotspots in a genome that result from certain enrichment artifacts or amplification artifacts.
In einer vorteilhaften Ausgestaltungsform umfasst das mindes tens eine Informationsmaß eine Abdeckung des mindestens einen Nukleinsäuresequenzabschnitts. Eine Abdeckung ist ein Pro zentsatz von Basenpaaren einer gewissen Nukleinsäuresequenz, welche mittels Reads abgedeckt werden kann. Je höher die Ab deckung, desto höher ist in der Regel auch eine Wahrschein lichkeit eines tatsächlichen Vorliegens der Nukleinsäurese quenz in der Probe. Damit ist die Abdeckung ein wichtiges Maß, um das Vorliegen einer Nukleinsäuresequenz zu bestimmen. In an advantageous embodiment, the at least one information measure includes a coverage of the at least one nucleic acid sequence section. Coverage is a percentage of base pairs of a certain nucleic acid sequence that can be covered by reads. The higher the coverage, the higher the probability that the nucleic acid sequence is actually present in the sample. Thus, coverage is an important measure to determine the presence of a nucleic acid sequence.
In einer weiteren Ausgestaltungsform umfasst mindestens ein Informationsmaß ein Detektionslevel des mindestens einen Nuk leinsäuresequenzabschnitts . In a further embodiment, at least one information measure comprises a detection level of the at least one nucleic acid sequence section.
Dabei ist unter einem Detektionslevel beispielsweise aber nicht ausschließlich eine Sequenziertiefe des mindestens ei nen Nukleinsäuresequenzabschnitts zu verstehen. Eine Sequen ziertiefe ist eine Anzahl an Reads welche einer gewissen Nuk leinsäuresequenz zugewiesen werden kann. Je höher die Sequen ziertiefe, desto höher ist in der Regel auch eine Konzentra tion der Nukleinsäuresequenz in der Probe. Damit ist die Se quenziertiefe ein wichtiges Maß, um das Vorliegen einer Nuk leinsäuresequenz zu bestimmen. So kann beispielsweise anhand einer minimalen Sequenziertiefe zwischen Signal und Rauschen unterschieden werden. A detection level is to be understood, for example, but not exclusively, as a sequencing depth of the at least one nucleic acid sequence section. A sequencing depth is a number of reads that can be allocated to a certain nucleic acid sequence. The higher the sequencing depth, the higher the concentration of the nucleic acid sequence in the sample. The sequence depth is thus an important measure for determining the presence of a nucleic acid sequence. For example, a minimum sequencing depth can be used to differentiate between signal and noise.
Die Sequenziertiefe kann mittels einer absoluten oder relati ven Häufigkeitsbestimmung ermittelt werden und kann zudem ein Detektionslevel oder ein Abundanzlevel umfassen. In einer weiteren Ausgestaltungsform bildet das mindestens eine Informationsmaß und ein weiteres Informationsmaß ein multivariates Informationsmaß. Durch eine derartige Zusammen fassung mindestens zweier Informationsmaße kann eine sensiti vere und/oder spezifischere Bestimmung der Nukleinsäurese quenzen erreicht werden und somit auch eine Erhöhung der Güte der aus der zugrunde liegenden selektiven Anreicherung abge leiteten Information. The sequencing depth can be determined by means of an absolute or relative frequency determination and can also include a detection level or an abundance level. In a further embodiment, the at least one information measure and one further information measure form a multivariate information measure. By combining at least two information measures in this way, a more sensitive and/or more specific determination of the nucleic acid sequences can be achieved and thus also an increase in the quality of the information derived from the underlying selective enrichment.
In einer bevorzugten Ausführungsform umfasst das multivariate Informationsmaß ein Gleichmäßigkeitsverhältnis. Dabei wird das Gleichmäßigkeitsverhältnis zum einen basierend auf einer Anzahl einzigartiger Basenpaare berechnet, die pro zugewiese nem Read gefunden werden und zum anderen auf einer geschätz ten Anzahl einzigartiger Basenpaare, die pro zugewiesenem Read gefunden werden, unter Annahme einer homogenen Vertei lung der Reads über eine Nukleinsäuresequenz mit einer ge paarten Readlänge als eine geeignete obere Grenze. In a preferred embodiment, the multivariate information measure includes an evenness ratio. The uniformity ratio is calculated on the one hand based on a number of unique base pairs found per assigned read and on the other hand on an estimated number of unique base pairs found per assigned read, assuming a homogeneous distribution of the reads over a nucleic acid sequence with a paired read length as a suitable upper bound.
Durch Bestimmung dieses Gleichmäßigkeitsverhältnisses kann eine sensitivere und/oder spezifischere Bestimmung der Nukle insäuresequenzen erreicht werden und somit auch eine Erhöhung der Güte der aus der zugrunde liegenden selektiven Anreiche rung abgeleiteten Information. By determining this uniformity ratio, a more sensitive and/or more specific determination of the nucleic acid sequences can be achieved and thus also an increase in the quality of the information derived from the underlying selective enrichment.
In einer vorteilhaften Ausgestaltungsform umfasst die Nukle insäuresequenz zumindest eine Sequenz mit einer bestimmten Funktion oder zumindest eine Sequenz welche spezifisch einer Funktionsklasse bzw. einem Pathogen oder eine Pathogenklasse zugeordnet werden kann. Unter einer Sequenz mit einer be stimmten Funktion kann beispielsweise aber nicht ausschließ lich eine Sequenz einzelner Gene, beispielsweise Antibiotika resistenzgene oder Virulenzgene aber auch eine Sequenz eines Gesamtgenoms eines Pathogens verstanden werden. Dadurch kön nen bereits etablierte molekulardiagnostische Einzelgentests auch mittels des entwickelten Verfahrens realisiert werden. In einer bevorzugten Ausführungsform erfolgt durch die Klas sifizierung der mindestens einen Nukleinsäuresequenz eine Ab grenzung zu weiteren Nukleinsäuresequenzen. Diese weiteren Nukleinsäuresequenzen können auch lebende, virulente, proliferierende, intakte und/oder nicht intakte Zellen umfas sen. Auch dadurch kann eine sensitivere und/oder spezifische re Bestimmung der Nukleinsäuresequenzen erreicht werden und somit auch eine Erhöhung der Güte der aus der zugrunde lie genden selektiven Anreicherung abgeleiteten Information. In an advantageous embodiment, the nucleic acid sequence comprises at least one sequence with a specific function or at least one sequence which can be assigned specifically to a functional class or a pathogen or a pathogen class. A sequence with a specific function can be understood, for example, but not exclusively, as a sequence of individual genes, for example antibiotic resistance genes or virulence genes, but also a sequence of an entire genome of a pathogen. As a result, already established molecular diagnostic individual gene tests can also be implemented using the developed method. In a preferred embodiment, classification of the at least one nucleic acid sequence differentiates it from other nucleic acid sequences. These further nucleic acid sequences can also include living, virulent, proliferating, intact and/or non-intact cells. A more sensitive and/or more specific determination of the nucleic acid sequences can also be achieved in this way and thus also an increase in the quality of the information derived from the underlying selective enrichment.
In einer vorteilhaften Ausgestaltungsform umfassen die weite ren Nukleinsäuresequenzen weitere Produkte der mindestens ei nen selektiven Anreicherung. Weitere Produkte können bei spielsweise aber nicht ausschließlich unspezifische Amplifi kationsartefakte sein, um eine spezifischere Bestimmung der Nukleinsäuresequenzen zu ermöglichen. In an advantageous embodiment, the other nucleic acid sequences include other products of the at least one selective enrichment. Other products can, for example, but not exclusively, be non-specific amplification artifacts in order to enable a more specific determination of the nucleic acid sequences.
Im Rahmen der vorliegenden Erfindung wird auch eine Vorrich tung zur Klassifizierung mindestens einer Nukleinsäuresequenz bereitgestellt. Die Vorrichtung umfasst alle Mittel, um die mindestens eine Nukleinsäuresequenz zu klassifizieren und kann auch ausgestaltet sein, zusätzliche Verfahrensschritte, wie beispielsweise die selektive Anreicherung selbst auszu führen. Within the scope of the present invention, a device for classifying at least one nucleic acid sequence is also provided. The device includes all means to classify the at least one nucleic acid sequence and can also be designed to carry out additional method steps, such as the selective enrichment itself.
Des Weiteren beschreibt die vorliegende Erfindung ein Compu terprogramm, welches man in einen Speicher einer programmier baren Steuerung bzw. einer Recheneinheit einer Servereinheit und/oder einer erfindungsgemäßen Vorrichtung laden kann. Mit diesem Computerprogramm können alle oder verschiedene vorab beschriebene Ausführungsformen des erfindungsgemäßen Verfah rens ausgeführt werden, wenn das Computerprogramm in der Steuerung oder Steuereinrichtung der Servereinheit und/oder der erfindungsgemäßen Vorrichtung läuft. Dabei benötigt das Computerprogramm eventuell Programmmittel, z.B. Bibliotheken und Hilfsfunktionen, um die entsprechenden Ausführungsformen des Verfahrens zu realisieren. Mit anderen Worten soll mit dem auf das Computerprogramm gerichteten Anspruch eine Soft- wäre unter Schutz gestellt werden, mit welcher eine der oben beschriebenen Ausführungsformen des erfindungsgemäßen Verfah rens ausgeführt werden kann bzw. welche diese Ausführungsform ausführt. Dabei kann es sich bei der Software um einen Quell code, der noch kompiliert und gebunden oder der nur interpre tiert werden muss, oder um einen ausführbaren Softwarecode handeln, der zur Ausführung nur noch in die entsprechende Re cheneinheit zu laden ist. Furthermore, the present invention describes a computer program that can be loaded into a memory of a programmable controller or a computing unit of a server unit and/or a device according to the invention. All or various previously described embodiments of the method according to the invention can be executed with this computer program if the computer program runs in the controller or control device of the server unit and/or the device according to the invention. In this case, the computer program may require program means, for example libraries and auxiliary functions, in order to implement the corresponding embodiments of the method. In other words, with the claim directed to the computer program, a software would be placed under protection with which one of the above-described embodiments of the method according to the invention can be carried out or which carries out this embodiment. The software can be a source code that still has to be compiled and linked or that only needs to be interpreted, or it can be an executable software code that only needs to be loaded into the corresponding processing unit for execution.
Ferner betrifft die vorliegende Erfindung ein computerlesba res Speichermedium, z.B. eine DVD, eine Blu-Ray-Disc, eine Festplatte oder einen USB-Stick, auf welchem elektronisch lesbare Steuerinformationen, insbesondere Software gespei chert ist. Wenn diese Steuerinformationen von dem Speicherme dium gelesen und in eine Steuerung bzw. Recheneinheit einer Servereinheit und/oder einer erfindungsgemäßen Vorrichtung gespeichert werden, können alle erfindungsgemäßen Ausfüh rungsformen des vorab beschriebenen Verfahrens durchgeführt werden. The present invention also relates to a computer-readable storage medium, e.g. a DVD, a Blu-ray disc, a hard drive or a USB stick, on which electronically readable control information, in particular software, is stored. If this control information is read from the storage medium and stored in a controller or computing unit of a server unit and/or a device according to the invention, all embodiments according to the invention of the method described above can be carried out.
Die Erfindung betrifft auch ein digitales Abbild, das zur Klassifizierung mindestens einer Nukleinsäuresequenz ausge staltet ist. Dabei umfasst das digitale Abbild eine digitale Repräsentation der erfindungsgemäßen Vorrichtung. Die digita le Repräsentation umfasst dabei eine digitale Beschreibung eines oder mehrerer physikalischer Objekte. Die digitale Re präsentation kann zudem auch ein Verhaltensmodell eines oder mehrerer physikalischer Objekte umfassen. Ferner umfasst das digitale Abbild eine Schnittstelle zwischen der digitalen Re präsentation der Vorrichtung und der Vorrichtung für eine wechselseitige Kommunikation. Die Schnittstelle erlaubt bei spielsweise eine Aufzeichnung von Daten der Vorrichtung zu verschiedenen Zeitpunkten und kann auch eine Erfassung eines Verhaltensmodells der Vorrichtung in Echtzeit umfassen. Sie kann für eine Erfassung statistischer Metriken eingesetzt werden und/oder für Analysen und/oder Optimierungen verwendet werden. Das digitale Abbild selbst ist somit ausgelegt, un- eingeschränkt das beschriebene erfindungsgemäße Verfahren auszuführen . The invention also relates to a digital image designed to classify at least one nucleic acid sequence. The digital image includes a digital representation of the device according to the invention. The digital representation includes a digital description of one or more physical objects. The digital representation can also include a behavioral model of one or more physical objects. Furthermore, the digital image comprises an interface between the digital representation of the device and the device for two-way communication. The interface allows, for example, recording of data from the device at different points in time and can also include acquisition of a behavioral model of the device in real time. It can be used to collect statistical metrics and/or for analysis and/or optimization. The digital image itself is thus designed to carry out the method according to the invention described in a restricted manner.
In einer bevorzugten Ausführungsform umfasst das digitale Ab bild zusätzlich die Vorrichtung. Dies ermöglicht ein opti miertes Ausführen des erfindungsgemäßen Verfahrens, da die Vorrichtung einfacher an die Schnittstelle des digitalen Ab bilds angebunden werden kann. In a preferred embodiment, the digital image additionally includes the device. This enables the method according to the invention to be carried out in an optimized manner, since the device can be connected more easily to the interface of the digital image.
Die Vorteile der erfindungsgemäßen Vorrichtung, des erfin dungsgemäßen Computerprogramms und des erfindungsgemäßen com puterlesbaren Speichermediums, sowie des digitalen Abbildes entsprechen im Wesentlichen den Vorteilen des erfindungsgemä ßen Verfahrens, welche vorab im Detail ausgeführt sind. Hier bei erwähnte Merkmale, Vorteile oder alternative Ausführungs formen sind ebenso auch auf die anderen beanspruchten Gegen stände zu übertragen und umgekehrt. Mit anderen Worten können die gegenständlichen Ansprüche, die beispielsweise auf eine Vorrichtung gerichtet sind, auch mit den Merkmalen, die in Zusammenhang mit einem Verfahren beschrieben oder beansprucht sind, weitergebildet sein. Die entsprechenden funktionalen Merkmale des Verfahrens werden dabei durch entsprechende ge genständliche Module, insbesondere durch Hardware-Module, oder durch digitale Abbilder von Hardware-Modulen ausgebil det. The advantages of the device according to the invention, the computer program according to the invention and the computer-readable storage medium according to the invention, as well as the digital image essentially correspond to the advantages of the method according to the invention, which have been explained in detail above. Features, advantages or alternative forms of embodiment mentioned here are also to be transferred to the other claimed objects and vice versa. In other words, the subject claims, which are directed to a device, for example, can also be developed with the features that are described or claimed in connection with a method. The corresponding functional features of the method are in this case formed by corresponding physical modules, in particular by hardware modules, or by digital images of hardware modules.
Im Folgenden wird die Erfindung anhand der in den Figuren dargestellten Ausführungsbeispiele näher beschrieben und er läutert. The invention is described and explained in more detail below with reference to the exemplary embodiments illustrated in the figures.
Es zeigen: Show it:
FIG 1 ein Flussdiagramm eines erfindungsgemäßen Verfah rens und 1 shows a flowchart of a method according to the invention and
FIG 2 Verfahrensergebnisse in tabellarischer Form sowie für das erfindungsgemäße Verfahren verwendete bei spielhafte Informationsmaße. FIG 1 zeigt ein Flussdiagramm eines erfindungsgemäßen Verfah rens. Das Verfahren umfasst die Verfahrensschritte 101 bis 105, wobei bei der Beschreibung der Verfahrensschritte 101 bis 105, auch Beschreibungsteile einschließlich der entspre chenden im Zusammenhang mit den in Fig. 2 eingeführten Be zugszeichen Verwendung finden können. 2 shows method results in tabular form and exemplary information measures used for the method according to the invention. 1 shows a flow chart of a method according to the invention. The method comprises the method steps 101 to 105, whereby in the description of the method steps 101 to 105, parts of the description including the corresponding ones in connection with the reference symbols introduced in FIG. 2 can also be used.
Die Verfahrensschritte 101 bis 105 können dabei manuell, halb-automatisch oder automatisch durchgeführt werden und/oder auch mittels einer beschriebenen erfindungsgemäßen Vorrichtung, die zur Ausführung eines solchen Verfahrens aus gestaltet ist und/oder durch ein entsprechendes Computerpro gramm, das die Ausführung eines derartigen Verfahrens ermög licht und/oder durch ein computerlesbares Speichermedium hierfür und/oder durch ein digitales Abbild, das ebenfalls zur Ausführung des beschriebenen Verfahrens ausgestaltet ist. Method steps 101 to 105 can be carried out manually, semi-automatically or automatically and/or by means of a described device according to the invention which is designed to carry out such a method and/or by a corresponding computer program which executes such a method made possible and/or by a computer-readable storage medium for this purpose and/or by a digital image, which is also designed to carry out the method described.
Ein erster Verfahrensschritt 101 kennzeichnet den Start einer Klassifizierung mindestens einer Nukleinsäuresequenz 202 min destens einer selektiven Anreicherung mindestens einer Nukle insäuretargetpopulation, wobei die Nukleinsäuretargetpopula tion mindestens einen Nukleinsäuresequenzabschnitt umfasst. Unter einer selektiven Anreicherung, ist beispielsweise aber nicht ausschließlich eine selektive Amplifikation zu verste hen. Eine selektive Amplifikation ist eine Amplifikation von einer vorab definierten Nukleinsäuretargetpopulation mittels eines Verfahrens zur Nukleinsäure-Amplifizierung, beispiels weise mittels enzymatischer Amplifizierung. Eine Nukleinsäu resequenz 202 ist eine definierte Sequenz von DNS- oder RNS- Basen. Unter einer Nukleinsäuresequenz 202 ist auch ein An reicherungsprodukt bzw. Amplifikationsprodukt der selektiven Anreicherung bzw. der selektiven Amplifikation zu verstehen. A first method step 101 characterizes the start of a classification of at least one nucleic acid sequence 202 at least one selective enrichment of at least one nucleic acid target population, wherein the nucleic acid target population comprises at least one nucleic acid sequence section. Selective enrichment is to be understood, for example, as not exclusively selective amplification. Selective amplification is amplification from a predefined nucleic acid target population using a nucleic acid amplification method, for example using enzymatic amplification. A nucleic acid sequence 202 is a defined sequence of DNA or RNA bases. A nucleic acid sequence 202 is also to be understood as meaning an enrichment product or amplification product of the selective enrichment or of the selective amplification.
Im Verfahrensschritt 102 erfolgt eine Detektion mindestens eines Nukleinsäuresequenzabschnitts. Bei einem Nukleinsäu resequenzabschnitt kann es sich um ein gesamtes Genom oder aber auch nur ein Genomteil handeln. Die kleinste Einheit ei- nes Nukleinsäuresequenzabschnitt ist zwei Basenpaare einer Nukleinsäuresequenz, die größte Einheit ist die größte Ein heit ist die Gesamtheit der in einem Organismus oder in einem Krankheitserreger vorhandenen Nukleinsäuresequenzen. Eine De tektion mindestens eines Nukleinsäuresequenzabschnitts kann beispielsweise aber nicht ausschließlich durch mehrere Se- quenzierungs-Reads oder Next-Generation-Sequenzierungs-Reads erfolgen. Sequenzierungs-Reads sind eine mittels Sanger- Sequenzierungstechnologie ermittelte Sequenz von Basenpaaren bzw. Basenpaarwahrscheinlichkeiten eines Nukleinsäuresequenz abschnitts. Die Länge derartiger Reads beträgt üblicherweise mehrere hundert Basenpaare. In method step 102, at least one nucleic acid sequence segment is detected. A nucleic acid sequence segment can be an entire genome or just a part of the genome. The smallest unit A nucleic acid sequence section is two base pairs of a nucleic acid sequence, the largest unit is the largest unit is all of the nucleic acid sequences present in an organism or in a pathogen. A detection of at least one nucleic acid sequence section can, for example, but not exclusively, take place by means of several sequencing reads or next-generation sequencing reads. Sequencing reads are a sequence of base pairs or base pair probabilities of a nucleic acid sequence segment determined using Sanger sequencing technology. The length of such reads is usually several hundred base pairs.
Next-Generation-Sequenzierungs-Reads sind eine mittels Next- Generation-Sequenzierungstechnologie ermittelte Sequenz von Basenpaaren bzw. Basenpaarwahrscheinlichkeiten eines Nuklein säuresequenzabschnitts. Die Länge derartiger Reads beträgt üblicherweise 75 bis mehrere hundert Basenpaare, kann aber auch tausende von Basenpaaren umfassen. Next-generation sequencing reads are a sequence of base pairs or base pair probabilities of a nucleic acid sequence segment determined using next-generation sequencing technology. The length of such reads is usually 75 to several hundred base pairs, but can also include thousands of base pairs.
Verfahrensschritt 103 kennzeichnet ein Ableiten mindestens eines Informationsmaßes 205, 206 anhand des detektierten min destens einen Nukleinsäuresequenzabschnitts. Ein erfindungs gemäßes Informationsmaß 205, 206 umfasst Informationen der Nukleinsäuresequenzabschnitte, die aus Versuchen und/oder Versuchsdatenbanken 201 gewonnen werden. Durch eine geeignete Ableitung eines Informationsmaßes 205, 206 lassen sich Nukle insäuresequenzen 202 zu bestimmten Gruppen von Anreicherungs produkten bzw. Amplifikationsprodukten zuordnen. Ein erfin dungsgemäßes Informationsmaß 205, 206 kann auch eine Anzahl an Reads des mindestens einen Nukleinsäuresequenzabschnitts umfassen und/oder eine Anzahl an Basen pro Reads des mindes tens einen Nukleinsäuresequenzabschnitts. Das Ableiten des mindestens einen Informationsmaßes 205, 206 anhand des detek tierten mindestens einen Nukleinsäuresequenzabschnitts kann auch eine Auswahl eines geeigneten Informationsmaßes 205, 206 aus einem vorangegangenen Versuch oder einer Versuchsreiche umfassen und ist nicht auf eine singuläre Ausführung des Ver fahrens beschränkt. Method step 103 characterizes the derivation of at least one information measure 205, 206 based on the detected at least one nucleic acid sequence section. A measure of information 205, 206 according to the invention includes information on the nucleic acid sequence segments which is obtained from experiments and/or experiment databases 201. By appropriately deriving an information measure 205, 206, nucleic acid sequences 202 can be assigned to specific groups of enrichment products or amplification products. An information measure 205, 206 according to the invention can also include a number of reads of the at least one nucleic acid sequence segment and/or a number of bases per read of the at least one nucleic acid sequence segment. The derivation of the at least one information measure 205, 206 based on the detected at least one nucleic acid sequence section can also be a selection of a suitable information measure 205, 206 from a previous experiment or a series of experiments include and is not limited to a singular execution of the process.
Im Verfahrensschritt 104 erfolgt eine Klassifizierung mindes tens einer Nukleinsäuresequenz 202 anhand des abgeleiteten mindestens einen Informationsmaßes 205, 206. Unter einer Klassifizierung mindestens einer Nukleinsäuresequenz 202 an hand des abgeleiteten mindestens einen Informationsmaßes 205, 206 ist auch eine Erkennung, insbesondere eine spezifische Erkennung der mindestens einen Nukleinsäuresequenz 202 zu verstehen. In method step 104, at least one nucleic acid sequence 202 is classified based on the derived at least one information measure 205, 206. Classification of at least one nucleic acid sequence 202 based on the derived at least one information measure 205, 206 also includes recognition, in particular specific recognition of the at least one Nucleic acid sequence 202 to understand.
Ein letzter Verfahrensschritt 105 kennzeichnet ein Ende einer Klassifizierung mindestens einer Nukleinsäuresequenz 202 min destens einer selektiven Anreicherung mindestens einer Nukle insäuretargetpopulation, wobei die Nukleinsäuretargetpopula tion mindestens einen Nukleinsäuresequenzabschnitt umfasst. A last method step 105 characterizes an end of a classification of at least one nucleic acid sequence 202 at least one selective enrichment of at least one nucleic acid target population, wherein the nucleic acid target population comprises at least one nucleic acid sequence section.
FIG 2 zeigt Verfahrensergebnisse in tabellarischer Form sowie für das erfindungsgemäße Verfahren verwendete Informationsma ße 205, 206, 207. FIG. 2 shows method results in tabular form as well as information dimensions 205, 206, 207 used for the method according to the invention.
Dabei handelt es sich in diesem Fall um ein erstes Informati onsmaß 205 und ein zweites Informationsmaß 206, die zusammen ein beispielhaftes multivariates Informationsmaß 207 bilden. In this case, a first information measure 205 and a second information measure 206 are involved, which together form an exemplary multivariate information measure 207 .
Bei dem ersten Informationsmaß 205 handelt es sich um eine Anzahl an durchschnittlich beobachteter einzigartiger Basen paare pro Read für eine Nukleinsäuresequenz, die im darge stellten Versuch einen Quotienten zwischen einem Produkt ei ner prozentualen Abdeckung einer Nukleinsäuresequenz bei ei nem Detektionslevel von eins mit einer Länge einer Nuklein säuresequenz und einer Anzahl an einer Nukleinsäuresequenz zugeordneten Reads umfasst. The first information measure 205 is an average number of unique base pairs observed per read for a nucleic acid sequence, which in the experiment shown is a quotient between a product of a percentage coverage of a nucleic acid sequence at a detection level of one and a length of one nucleus acid sequence and a number of reads associated with a nucleic acid sequence.
Bei dem zweiten Informationsmaß 206 handelt es sich um eine Anzahl an geschätzter einzigartiger Basenpaare pro Read bei Gleichverteilung der Reads über die Nukleinsäuresequenz, die im dargestellten Versuch einen Quotienten zwischen einer Län ge einer Nukleinsäuresequenz und einer Anzahl an einer Nukle insäuresequenz zugeordneten Reads umfasst. The second information measure 206 is an estimated number of unique base pairs per read when the reads are evenly distributed over the nucleic acid sequence that in the experiment shown comprises a quotient between a length of a nucleic acid sequence and a number of reads assigned to a nucleic acid sequence.
Das aus diesen zwei Informationsmaßen 205, 206 gebildete mul- tivariate Informationsmaß 207, im dargestellten Versuch ein Gleichmäßigkeitsverhältnis, umfasst einen Quotienten aus dem ersten Informationsmaß 205 und dem zweiten Informationsmaß 206 für einen Fall, dass eine Anzahl geschätzter Basenpaare pro Read kleiner als 300 ist und umfasst einen Quotienten aus dem ersten Informationsmaß 205 und 300 für einen Fall, dass eine Anzahl geschätzter Basenpaare pro Read größer oder gleich 300 ist. The multivariate information measure 207 formed from these two information measures 205, 206, in the experiment shown a uniformity ratio, comprises a quotient of the first information measure 205 and the second information measure 206 for a case that an estimated number of base pairs per read is less than 300 and comprises a quotient of the first information measure 205 and 300 for a case that a number of estimated base pairs per read is greater than or equal to 300.
Der in diesem Beispiel dargestellte Grenzwert von 300 ent spricht einer sogenannten Paired-End-Next-Generation- Sequenzierungs-Read-Länge von 150 pro Read und ist entspre chend der Next-Generation-Sequenzierungs-Read-Länge zu wäh len. The limit of 300 shown in this example corresponds to a so-called paired-end next-generation sequencing read length of 150 per read and must be selected according to the next-generation sequencing read length.
Die Verfahrensergebnisse in tabellarischer Form zeigen bei allen Versuchsproben 201, dass eine bestimmte Nukleinsäurese quenz 202, im vorliegenden Beispiel ein tatsächlich vorhande nes Pathogen in allen Fällen mit einer wesentlich höheren Gü te klassifiziert werden kann als eine erste weitere Nuklein säuresequenz 203, im vorliegenden Beispiel ein erster Falsch- Positiver Organismus oder auch als eine zweite weitere Nukle insäuresequenz 204, im vorliegenden Beispiel ein zweiter Falsch-Positiver Organismus. Die in Fig. 2 aufgezeigten Pro zentsätze entsprechen direkt einem multivariaten Informati onsmaß 207, in diesem Beispiel also einem Gleichmäßigkeits verhältnis. The method results in tabular form show for all test samples 201 that a specific nucleic acid sequence 202, in the present example a pathogen that is actually present, can in all cases be classified with a significantly higher quality than a first further nucleic acid sequence 203, in the present example a first false-positive organism or also as a second further nucleic acid sequence 204, in the present example a second false-positive organism. The percentages shown in FIG. 2 correspond directly to a multivariate information measure 207, in this example a uniformity ratio.
Die Klassifizierung 104 mindestens einer Nukleinsäuresequenz 202 mindestens einer selektiven Anreicherung mindestens einer Nukleinsäuretargetpopulation mittels eines Informationsmaßes 205, 206, hier mittels eines multivariaten Informationsmaßes 207 ist nicht auf dieses multivariate Informationsmaß 207 be schränkt. The classification 104 of at least one nucleic acid sequence 202 of at least one selective enrichment of at least one nucleic acid target population by means of an information measure 205, 206, here by means of a multivariate information measure 207 is not limited to this multivariate information measure 207 .
Eine derartige Klassifizierung 104 kann auch mittels eines einzigen univariaten Informationsmaßes 205, 206 durchgeführt werden oder mittels mehrerer univariater und/oder multivaria- ter Informationsmaße 205, 206, 207. Such a classification 104 can also be carried out using a single univariate information measure 205, 206 or using several univariate and/or multivariate information measures 205, 206, 207.
Das mindestens eine Informationsmaß 205, 206 kann auch zumin dest teilweise mittels eines computergestützten Verfahrens bestimmt werden. Unter einem computergestützten Verfahren ist beispielsweise aber nicht ausschließlich ein Verfahren zu verstehen, dass Programmteile umfasst, die mittels künstli cher Intelligenz das physikalische Verfahren unterstützen und/oder optimieren. The at least one information measure 205, 206 can also be determined, at least in part, using a computer-aided method. A computer-aided method is to be understood, for example, but not exclusively, as a method that includes program parts that support and/or optimize the physical method using artificial intelligence.
Dabei kann ein Informationsmaß 205, 206, 207 eine Bestimmung mindestens eines Grenzwertes umfassen. Beispiele für einen derartigen Grenzwert sind die Abdeckung von Nukleinsäurese quenzen 202 der Nukleinsäuretargetpopulation oder die er reichte Anzahl der Reads oder auch Sequenziertiefe für Nukle insäuresequenzen 202 der Nukleinsäuretargetpopulation. An information measure 205, 206, 207 can include a determination of at least one limit value. Examples of such a limit value are the coverage of nucleic acid sequences 202 of the nucleic acid target population or the number of reads achieved or also the sequencing depth for nucleic acid sequences 202 of the nucleic acid target population.
Ein Informationsmaß 205, 206, 207 kann ebenfalls auch ein De- tektionslevel des mindestens einen Nukleinsäuresequenzab schnitts umfassen, wie beispielsweise eine Sequenziertiefe des mindestens einen Nukleinsäuresequenzabschnitts. Eine Se quenziertiefe ist eine Anzahl an Reads welche einer gewissen Nukleinsäuresequenz 202 zugewiesen werden kann. Je höher die Sequenziertiefe, desto höher ist in der Regel auch eine Kon zentration der Nukleinsäuresequenz 202 in der Probe. Damit ist die Sequenziertiefe ein wichtiges Maß, um das Vorliegen einer Nukleinsäuresequenz 202 zu bestimmen. So kann bei spielsweise anhand einer minimalen Sequenziertiefe zwischen Signal und Rauschen unterschieden werden. An information measure 205, 206, 207 can likewise also include a detection level of the at least one nucleic acid sequence section, such as a sequencing depth of the at least one nucleic acid sequence section. A sequencing depth is a number of reads that a certain nucleic acid sequence 202 can be assigned. The higher the sequencing depth, the higher the concentration of the nucleic acid sequence 202 in the sample. The sequencing depth is thus an important measure for determining the presence of a nucleic acid sequence 202 . For example, a minimum sequencing depth can be used to differentiate between signal and noise.
Die Klassifizierung 104 der mindestens einen Nukleinsäurese quenz 202 umfasst in diesem Beispiel eine Abgrenzung zu wei- teren Nukleinsäuresequenzen 203, 204. Diese weiteren Nuklein säuresequenzen 203, 204 können auch lebende, virulente, proliferierende, intakte und/oder nicht intakte Zellen umfas sen. Dadurch kann eine sensitivere und/oder spezifischere Be stimmung der Nukleinsäuresequenzen 202 erreicht werden und somit auch eine Erhöhung der Güte der aus der zugrunde lie genden selektiven Anreicherung abgeleiteten Information. In this example, the classification 104 of the at least one nucleic acid sequence 202 includes a delimitation to further nucleic acid sequences 203, 204. These further nucleic acid sequences 203, 204 can also comprise living, virulent, proliferating, intact and/or non-intact cells. As a result, a more sensitive and/or more specific determination of the nucleic acid sequences 202 can be achieved and thus also an increase in the quality of the information derived from the underlying selective enrichment.
Die weiteren Nukleinsäuresequenzen 203 204 können auch weite re Produkte der mindestens einen selektiven Anreicherung um fassen. Weitere Produkte können beispielsweise aber nicht ausschließlich unspezifische Amplifikationsartefakte sein, um eine spezifischere Bestimmung der Nukleinsäuresequenzen 202 zu ermöglichen. The further nucleic acid sequences 203 204 can also include further products of the at least one selective enrichment. Other products can, for example, but not exclusively, be non-specific amplification artefacts in order to enable the nucleic acid sequences 202 to be determined more specifically.
Obwohl die Erfindung im Detail durch die bevorzugten Ausfüh rungsbeispiele näher illustriert und beschrieben wurde, so ist die Erfindung nicht durch die offenbarten Beispiele ein geschränkt und andere Variationen können vom Fachmann hieraus abgeleitet werden, ohne den Schutzumfang der Erfindung zu verlassen. Although the invention has been illustrated and described in detail by the preferred exemplary embodiments, the invention is not limited by the disclosed examples and other variations can be derived therefrom by those skilled in the art without departing from the scope of the invention.
Zusammenfassend betrifft die Erfindung ein Verfahren zur Klassifizierung mindestens einer Nukleinsäuresequenz mindes tens einer selektiven Anreicherung mindestens einer Nuklein säuretargetpopulation, eine Vorrichtung, die zur Ausführung eines solchen Verfahrens ausgestaltet ist, ein entsprechendes Computerprogramm, das die Ausführung eines derartigen Verfah rens ermöglicht, ein computerlesbares Speichermedium hierfür sowie ein digitales Abbild, das ebenfalls zur Ausführung des beschriebenen Verfahrens ausgestaltet ist. In summary, the invention relates to a method for classifying at least one nucleic acid sequence, at least one selective enrichment of at least one nucleic acid target population, a device that is designed to carry out such a method, a corresponding computer program that enables such a method to be carried out, a computer-readable storage medium for this and a digital image that is also designed to carry out the method described.
Dabei umfasst die Nukleinsäuretargetpopulation mindestens ei nen Nukleinsäuresequenzabschnitt und die Klassifizierung der mindestens einen Nukleinsäuresequenz erfolgt mittels mindes tens eines aus einer Detektion mindestens eines Nukleinsäu resequenzabschnitts abgeleiteten Informationsmaßes. The nucleic acid target population comprises at least one nucleic acid sequence segment and the at least one nucleic acid sequence is classified using at least one information measure derived from a detection of at least one nucleic acid sequence segment.
Claims
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/EP2021/070834 WO2023006175A1 (en) | 2021-07-26 | 2021-07-26 | Method for classifying at least one nucleic acid sequence and apparatus, computer program, computer-readable storage medium and digital image |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/EP2021/070834 WO2023006175A1 (en) | 2021-07-26 | 2021-07-26 | Method for classifying at least one nucleic acid sequence and apparatus, computer program, computer-readable storage medium and digital image |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO2023006175A1 true WO2023006175A1 (en) | 2023-02-02 |
Family
ID=77398532
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/EP2021/070834 Ceased WO2023006175A1 (en) | 2021-07-26 | 2021-07-26 | Method for classifying at least one nucleic acid sequence and apparatus, computer program, computer-readable storage medium and digital image |
Country Status (1)
| Country | Link |
|---|---|
| WO (1) | WO2023006175A1 (en) |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP3529375A1 (en) | 2016-12-21 | 2019-08-28 | Siemens Healthcare GmbH | Amplification-integrated genetic material depletion of non-target organisms using differentially abundant k-mers |
| WO2020106987A1 (en) * | 2018-11-21 | 2020-05-28 | Karius, Inc. | Detection and prediction of infectious disease |
| WO2020178575A1 (en) * | 2019-03-04 | 2020-09-10 | St George's Hospital Medical School | Detection and antibiotic resistance profiling of microorganisms |
-
2021
- 2021-07-26 WO PCT/EP2021/070834 patent/WO2023006175A1/en not_active Ceased
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP3529375A1 (en) | 2016-12-21 | 2019-08-28 | Siemens Healthcare GmbH | Amplification-integrated genetic material depletion of non-target organisms using differentially abundant k-mers |
| US20190345569A1 (en) * | 2016-12-21 | 2019-11-14 | Siemens Healthcare Gmbh | Amplification-integrated genetic material depletion of non-target organisms using differentially abundant k-mers |
| WO2020106987A1 (en) * | 2018-11-21 | 2020-05-28 | Karius, Inc. | Detection and prediction of infectious disease |
| WO2020178575A1 (en) * | 2019-03-04 | 2020-09-10 | St George's Hospital Medical School | Detection and antibiotic resistance profiling of microorganisms |
Non-Patent Citations (1)
| Title |
|---|
| WANG MING ET AL: "Nanopore Targeted Sequencing for the Accurate and Comprehensive Detection of SARS-CoV-2 and Other Respiratory Viruses", SMALL, vol. 16, no. 32, 24 August 2020 (2020-08-24), pages 2002169, XP055911720, ISSN: 1613-6810, Retrieved from the Internet <URL:https://onlinelibrary.wiley.com/doi/full-xml/10.1002/smll.202002169> DOI: 10.1002/smll.202002169 * |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Beißbarth et al. | Processing and quality control of DNA array hybridization data | |
| CN111951895B (en) | Pathogen analysis method based on metagenomics analysis device, apparatus, and storage medium | |
| EP2926288B1 (en) | Accurate and fast mapping of targeted sequencing reads | |
| DE202013012824U1 (en) | Systems for the detection of rare mutations and a copy number variation | |
| US20190194727A1 (en) | Multitag sequencing ecogenomics analysis | |
| Butte et al. | Determining significant fold differences in gene expression analysis | |
| CN113160882A (en) | Pathogenic microorganism metagenome detection method based on third generation sequencing | |
| WO2016023991A1 (en) | Method for microbiom analysis | |
| WO2018054254A1 (en) | Method and system for identifying tumor load in sample | |
| EP3387616B1 (en) | Object classification in digital images | |
| WO2023006175A1 (en) | Method for classifying at least one nucleic acid sequence and apparatus, computer program, computer-readable storage medium and digital image | |
| US20210214774A1 (en) | Method for the identification of organisms from sequencing data from microbial genome comparisons | |
| EP3612644B1 (en) | Use of off-target sequences for dna analysis | |
| CN114703265A (en) | Method for detecting biological pollution of soil pathogenic bacteria based on 16SrRNA amplicon sequencing | |
| DE60023496T2 (en) | MATHEMATICAL ANALYSIS FOR THE ESTIMATION OF CHANGES IN THE LEVEL OF GENE EXPRESSION | |
| CN117409856B (en) | Mutation detection method, system and storable medium based on single sample to be detected targeted gene region second generation sequencing data | |
| DE602005000834T2 (en) | Method for detecting false signals in a DNA chip and system for using the same | |
| WO2009127408A1 (en) | Process for the quantitative determination of the copier number of a predetermined sequence in a sample | |
| US10032001B2 (en) | Methods and systems for identifying the quantitation cycle for a PCR amplification reaction | |
| CN117935922A (en) | Microorganism diversity detection method and system | |
| CN114038503A (en) | Human breast milk sample characteristic bacteria data analysis and identification method based on high-throughput sequencing | |
| JP2021158996A (en) | Diagnosis method of cancer of dog | |
| Bidaut et al. | WaveRead: automatic measurement of relative gene expression levels from microarrays using wavelet analysis | |
| DE102015206444B3 (en) | Method for detecting microorganisms | |
| CN112614544A (en) | Optimization method of output result of Kraken2 software and method for identifying species type in sample |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 21755903 Country of ref document: EP Kind code of ref document: A1 |
|
| NENP | Non-entry into the national phase |
Ref country code: DE |
|
| 122 | Ep: pct application non-entry in european phase |
Ref document number: 21755903 Country of ref document: EP Kind code of ref document: A1 |