WO2017198956A1 - Procede de determination de la presence et quantification d'au moins un micro-organisme dans un echantillon biologique - Google Patents
Procede de determination de la presence et quantification d'au moins un micro-organisme dans un echantillon biologique Download PDFInfo
- Publication number
- WO2017198956A1 WO2017198956A1 PCT/FR2017/051204 FR2017051204W WO2017198956A1 WO 2017198956 A1 WO2017198956 A1 WO 2017198956A1 FR 2017051204 W FR2017051204 W FR 2017051204W WO 2017198956 A1 WO2017198956 A1 WO 2017198956A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- microorganism
- sequences
- genome
- sequencing
- reference genome
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6888—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6809—Methods for determination or identification of nucleic acids involving differential detection
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/70—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving virus or bacteriophage
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
Definitions
- the present invention relates to the field of contaminant detection in a biological sample by high throughput sequencing and assay of said contaminants in the biological sample.
- the invention relates to the detection and quantification of microorganisms, for example in a human biological sample, in particular plasma, whose concentration in microorganisms is not known beforehand.
- High throughput sequencing techniques are of particular interest in genomic studies, particularly in physiopathology. Indeed, these techniques make it possible to sequence the nucleic acids and in particular the whole genome or the entire exome of a biological tissue or to more specifically sequence a panel of genes of interest. It is possible from sequenced genomic data to study the microbiome of the tissues studied.
- HMP Human Microbiome Project
- the patent application WO2015 / 070086 describes a method for analyzing the microbiome in a subject comprising high-throughput sequencing of a sample of the patient, the bioinformatic analysis of the sequencing data and determining the presence of a microbial sequence.
- Patent Application WO2014 / 019275 discloses a method of identifying biomarkers of fetal health status from a foreign organism such as a virus, bacteria, fungus and parasite, and its uses for determining non-invasive state of fetal health. This patent application also relates to a system and a kit that are used in the process.
- Non-invasive biomarker detection methods based on quantitative PCR DNA detection techniques exist in the state of the art (Polymerase Chain Reaction) specifically targeting a DNA sequence originating from a particular microorganism.
- Techniques for immunological detection of an infection in particular by quantifying immunoglobulins.
- biomarkers that require an invasive step that may represent risks for the patient. This is the case, for example, with amniocentesis, a technique widely used to collect amniotic fluid in order to establish a battery of tests to evaluate the state of health of the fetus in pregnant women.
- amniocentesis is not without risk for the pregnant woman and the fetus since it can lead to the loss of the baby.
- biopsies for example to evaluate the carcinogenic nature of a tumor, constitute a surgical act that can be dangerous for the patient. The tests performed on these samples can be of different natures and more or less sensitive.
- the method of WO2015 / 070086 does not include an optimization of the detection of microorganisms within a subject. Indeed, a number of reads can non-specifically align with the reference genome at low genomic region level and be the source of false positives.
- This document also does not establish beforehand a reference matrix on a plurality of reference samples whose concentration in microorganism is known, and to record a matrix corresponding to the depth determined by said characterization, and the corresponding known microorganism concentration. This document establishes at most a relative quantification but no absolute quantification of the concentration of microorganism.
- non-invasive quantitative PCR detection techniques generally have a high detection threshold and are generally long and non-exhaustive.
- immunological techniques most often have a low specificity for detecting microorganisms. These techniques generally do not allow dating the infection in the sense that a positive result can result from a previous infection.
- the immunological detection techniques of a microorganism can also be invasive for the patient, for example in the case of amniocentesis in pregnant women. These actions are not without consequences and they can represent risks for the patient and / or the fetus. Similarly, the detection threshold by these techniques is sometimes high which does not detect low levels of microorganisms.
- the present invention proposes to overcome the disadvantages of the prior art by a method for determining the presence and quantification of at least one microorganism in a human biological sample comprising total nucleic acids, comprising the steps of:
- the validation of the homogeneity of the genome coverage of at least one microorganism consisting in calculating the standard deviation of the sequencing depth of the genome at the reference of said genome of at least one microorganism determining an indicator for the quantification of at least one microorganism according to said depth of sequencing of the reference genome.
- the present invention provides a method for the rapid and accurate detection of microorganisms present in human biological samples, making it possible to demonstrate targeted deregulation of the microbiome within a biological tissue.
- the present invention also makes it possible to precisely quantify the microorganism in a biological sample.
- the present invention enables absolute detection and quantification of the microorganism concentration.
- the method according to the invention is very sensitive and makes it possible to detect at least one microorganism even if this or these latter are weakly present in the sample.
- the threshold of detection and quantification of the process of the invention is very low.
- the detection threshold of the method according to the invention is below the detection threshold of commonly accepted techniques such as immunoassays.
- the quantification threshold of the process according to the invention is below the threshold of quantification of commonly accepted techniques such as quantitative PCR.
- the quality of the results obtained by the present method is increased compared to the solutions of the prior art. It is understood that the invention allows the detection of one or more microorganisms in the same sample of which the quantity of said microorganisms is not known beforehand. This quantification is absolute, in particular thanks to the initial calibration step of characterizing a plurality of reference samples whose concentration in microorganism is known, and to register a matrix corresponding to the depth determined by said characterization, and the corresponding known microorganism concentration.
- the step of calculating the sequencing depth of the reference genome of at least one microorganism comprises a depth normalization treatment with respect to the total number of sequences resulting from the sequencing.
- the method according to the invention optimizes and increases the amount of information resulting from the sequencing of human biological samples.
- the process according to the invention is rapid.
- the process according to the invention makes it possible to increase the quality of the results obtained. It also allows an absolute quantification of the concentration of microorganism.
- the method according to the invention uses the sequencing data of human biological samples taken for other purposes, for example, for the screening of fetal aneuploidies or suspected cancerous biopsies.
- the method according to the invention maximizes possible diagnoses from biological samples.
- the invention relates to equipment for determining the presence and quantification of at least one microorganism in a biological sample comprising a computer controlled by a computer program for carrying out treatments, on high throughput sequencing data of a total nucleic acid extraction of said biological sample, from:
- initial calibration consisting in characterizing a plurality of reference samples whose concentration in microorganism is known, and in recording a matrix corresponding to the depth determined by said characterization, and the corresponding known microorganism concentration
- the invention relates to equipment for determining the presence and quantification of at least one microorganism in a biological sample comprising a computer controlled by a computer program for carrying out treatments, on high throughput sequencing data of a total nucleic acid extraction of said biological sample, counting the total number of sequences
- the invention relates to a computer program for the determination of the presence and quantification of at least one microorganism in a biological sample controlling the processing, on high throughput sequencing data.
- a total nucleic acid extraction of said biological sample of: initial calibration consisting in characterizing a plurality of reference samples whose concentration in microorganism is known, and in recording a matrix corresponding to the depth determined by said characterization, and the corresponding known microorganism concentration
- the invention relates to a computer program for determining the presence and quantification of at least one microorganism in a biological sample controlling the processing, on high throughput sequencing data. extracting total nucleic acids from said biological sample, from:
- initial calibration consisting in characterizing a plurality of reference samples whose concentration in microorganism is known, and in recording a matrix corresponding to the depth determined by said characterization, and the corresponding known microorganism concentration
- the computer programs mentioned in this presentation can use any programming language, and be in the form of source code, object code, or intermediate code between source code and object code. as in a partially compiled form, or in any other desirable form.
- the invention relates to a computer-readable recording medium on which is recorded a computer program comprising instructions for executing the steps of a method according to the invention or application of the method. according to the invention.
- the recording (or information) media mentioned in this disclosure may be any entity or device capable of storing the program.
- the medium may comprise storage means, such as a ROM, for example a CD ROM or a microelectronic circuit ROM, or a magnetic recording medium, for example a floppy disk or a disk. hard.
- the recording media may correspond to a transmissible medium such as an electrical or optical signal, which may be conveyed via an electrical or optical cable, by radio or by other means.
- the program according to the invention can be downloaded in particular on an Internet type network.
- the recording media may correspond to an integrated circuit in which the program is incorporated, the circuit being adapted to execute or to be used in the execution of the method in question.
- the invention relates to a kit for determining the presence and quantification of at least one microorganism in a biological sample according to the above method comprising:
- a plurality of tubes each containing a dilution of at least one DNA sequence of a reference genome of at least one microorganism in a control DNA
- the nucleotide sequence of the reference genome of at least one microorganism of which 0 to 5% of the nucleotides are masked said nucleotides masks corresponding to sequences of low complexity.
- the DNA sequence of a reference genome of at least one microorganism is the sequence SEQ ID NO: 1.
- the nucleotide sequence of the reference genome of at least one minus a microorganism of which 0-5%, 0% being excluded, nucleotides are masked.
- the invention relates to the application of the method for determining the presence and quantification of at least one microorganism in a biological sample to the determination of the concentration of a parasite.
- said parasite is a prokaryotic organism.
- Said prokaryote may be selected from bacteria or archae.
- said parasite is a virus.
- the virus may be a DNA virus belonging to the family of herpesviridae, papillomaviridae, parvoviridae or any other family of DNA viruses.
- the virus of the family Herpesviridae can be a cytomegalovirus, an Epstein-Barr virus, a varicellovirus, a simplex virus, a herpes virus type 8 or any other virus.
- said parasite is a eukaryotic organism.
- the invention relates to the application of the method for determining the presence and quantification of at least one microorganism in a biological sample for prenatal diagnosis, characterized in that said parasite is a cytomegalovirus.
- the invention relates to the application of the method for determining the presence and quantification of at least one microorganism in a biological sample for the diagnosis of a cancer induced by the Epstein Barr virus and / or monitoring an anticancer treatment characterized in that said parasite is an Epstein Barr virus.
- the invention relates to the application of the method for determining the presence and quantification of at least one microorganism in a biological sample for monitoring a graft, characterized in that said parasite is a cytomegalovirus virus.
- the invention relates to a kit as described above for the prenatal diagnosis using the method described above characterized in that said reference genome sequence of at least one microorganism is a cytomegalovirus of which up to 0.06% of the nucleotides are masked.
- said sequence of the reference genome of at least one microorganism is a cytomegalovirus of which up to 0.06% of the nucleotides are masked, 0% being excluded.
- said reference genome sequence of at least one microorganism is the sequence of the reference genome of a cytomegalovirus of which up to 0.06% of the nucleotides are masked, this sequence corresponding to the sequence SEQ ID NO:
- the invention relates to a kit as described above for monitoring a graft implementing the method described above, characterized in that said reference genome sequence of at least one micro -organism is a cytomegalovirus.
- the invention relates to a kit as described above for the diagnosis of a cancer induced by the Epstein Barr virus and / or the monitoring of an anticancer treatment implementing the previously described method characterized by what said reference genome sequence of at least one microorganism is an Epstein Barr virus.
- Figure 1 shows a diagram of the method according to the invention.
- Figure 2 shows the distribution of bases according to their PHRED quality score for a sample.
- Figure 3 shows the average distribution of nucleotide sequences from whole genome sequencing.
- Figure 4 shows the number of viral sequences aligned on the reference genome of the masked CMV (CMV_NS) or conventional (NC_006273).
- CMV_NS masked CMV
- NC_006273 conventional
- Figure 5 shows the comparison of the results obtained after filter or not human nucleotide sequences.
- Figure 6 shows the performance comparison for alignment on the viral genome of the nucleotide sequences of 5 samples without (top) or with (bottom) a first step filtering the nucleotide sequences aligning with the human genome.
- Figure 7 shows the raw number of sequences aligned on the CMV reference genome (CMV_NS) or normalized as a function of the number of total sequences of the sample in a sample infected with CMV.
- FIG. 8 presents an estimation of the concentration by contaminating samples from the standardized mean depth and the correlation between the theoretical contaminant concentration of the sample and that estimated by the method according to the invention.
- Figure 9 shows an exemplary embodiment of the invention for the detection of a viremia in plasma samples.
- Figure 10 shows the profile of a positive sample according to the method of the invention and having a positive viremia for CMV.
- Figure 11 shows the standardized mean depth of 4 samples (abscissa) for 9 microorganisms studied (family Herpesviridae). Definitions:
- Human biological sample Liquid or solid biopsies of human tissues, cells isolated from liquid or solid biopsies, biological fluids such as plasma or cerebrospinal fluid.
- Fasta Text file format for storing biological sequences such as nucleotide sequences of reference genomes.
- Microbiome includes all micro-organisms that predominate or are permanently adapted to the surface and inside of a living organism. This term also refers to the sum of genomes of microorganisms living in or on an animal or plant organism. Pathological states of the animal or plant organism can be attributed to an imbalance of its microbiome.
- ORF Open Reading Frame
- Open reading phase is a region of the genome that can code for a protein. It is defined by the presence of an initiator codon and a stop codon which delimit a coding region surrounded in certain cases by regulatory sequences.
- Sequencing Depth The average number of times the genome is covered (often expressed in genome equivalents). In other words, the sequencing depth is defined as the average number of sequences that cover a particular genomic region, i.e., the average number of sequences that align within a particular genomic region.
- Read Nucleotide sequence obtained after next generation sequencing
- Sequencing Consists of determining the order of nucleotides of a given nucleic acid sequence according to different methods.
- Next Generation Sequencing or High Throughput Sequencing: Consists of massively and parallelizing the order of nucleotides of a large number of nucleic acid sequences within a sample. Typically this method allows the sequencing of the genome or transcriptome of a biological sample.
- Quality score Quality score assigned to each nucleobase obtained after next generation sequencing. They make it possible to determine the accuracy of each nucleotide of a biological sequence stored in a fastq file.
- the nucleic acids of the biological samples are extracted according to conventional techniques well known to those skilled in the art.
- the nucleic acid extraction step is adapted to each biological sample and allows lysis of the cells to release the nucleic acids which are then purified and fragmented if necessary to allow their sequencing by next generation sequencing techniques.
- the plasma is harvested after centrifugation of a blood sample and corresponds to the supernatant. This liquid phase contains no or few blood cells.
- the DNA circulating in the plasma is then extracted from this biological sample. In the case of circulating plasma DNA, no fragmentation step is necessary.
- a fragmentation step may be chemical fragmentation that involves so-called endonuclease enzymes or mechanical fragmentation (or sonication).
- Sequencing The samples are then sequenced by high-throughput sequencing techniques, for example sequencing in single-end or paired-end, long-reads or short-reads. This sequencing can be done on platforms well known to those skilled in the art, such as Illumina®, Roche® or IonTorrent® platforms.
- Illumina® sequencing according to Illumina® technology
- adapter sequences are added at each end of the DNA fragments. These adapters are different for each sample and allow their identification after sequencing of several samples on the same chip.
- the addition of the adapters is followed by clonal amplification of the DNA fragments (by bridging or emulsion PCR, for example) and then by the sequencing step on the chosen automaton (for example HiSeql500 TM).
- the sequencing data is stored in fastq files in the form of nucleotide sequences whose size depends essentially on the sequencing technology used, which is associated with a quality score called the Phred score.
- the number of sequences contained in each fastq file corresponds to the total number of sequences obtained after next-generation sequencing (i.e. high-throughput sequencing).
- nucleotide sequences are then filtered on their quality. Only nucleotide sequences of sufficient quality are conserved ( Figure 2). Similarly, the PCR duplicates are filtered during this step. It is a question of classically looking at the quality of each sequence obtained at the sequencing output (the quality being given by the sequencer) and keeping only the sequences whose quality is higher than a previously defined threshold. The definition of the threshold is conventional for the skilled person (often 15 or 20).
- a first alignment on the human reference genome GRCh38 is performed in order to filter the nucleotide sequences of human origin.
- the alignment tool used should be adapted. Indeed, the algorithms used by the various available aligners are dependent, in particular on the size of the sequences, but also on their type of sequencing (in paired or single-end) and must be chosen according to these different parameters.
- the Bowtie tool allows efficient and fast alignment of small (less than 50bp) sequences from whole genome sequencing (Langmead et al., 2009).
- sequences that align without variants and less than 5-fold on the human reference genome GRCh38 are considered nucleotide sequences of human origin. In order to accelerate this step, the best sequence alignment on the human reference genome may not be reported (Table 1).
- Table 1 Example of nucleotide sequence alignment parameters on the GRCH38 human reference genome with the Bowtie alignment tool for Illumina sequencing data obtained on HiSeql500 TM single-end 26pb.
- the non-specific alignment of many nucleotide sequences is observed.
- the number and size of these particular regions within a reference genome are independent of the size of the reference genome.
- This step is not mandatory for all reference genomes and depends mainly on the sequence of the reference genome.
- the need to perform or not a masking step is generally determined by the calculation of the entropy of the sequence (which reflects the complexity of the sequence). In a preferred embodiment, this masking step is performed.
- a maximum of 5 nucleotides per hundred nucleotides of the reference sequence can be modified at this stage in order to ensure sufficient alignment sensitivity for the rest of the analysis (modification of 0% to 5% of the nucleotides) .
- from 0% to 5% of the nucleotides (0% being excluded) of the reference sequence can be modified at this stage in order to ensure sufficient alignment sensitivity for the subsequent analysis ( modification between 0% and 5% of the nucleotides, 0% being excluded).
- genomic regions are generally composed of low complexity DNA sequences that correspond to low nucleotide diversity in general, one or two bases are overrepresented (eg AAAAAAAAAAATAAAAAAT). Regions of low complexity often cause non-specific alignments. Such regions may also include repetitions of patterns (sequences of some bases).
- Nucleotide regions resulting in nonspecific alignments are thus masked, in order to allow a better homogeneity of the alignment on the reference genome and a decrease of the background noise observed for the negative samples.
- This method makes it possible to reduce the number of non-specific aligned sequences.
- the step of masking the 4 low complexity regions passes through the modification of 155bp of the reference genome which become N (SEQ ID NO: 1). In this case, the masking affects 0.06% of the nucleotides of the CMV genome.
- This masking step makes it possible to reduce the number of sequences counted for the negative samples (ie samples containing no microorganism DNA) to a basal level close to zero and thus to discriminate more easily the samples which are weakly concentrated in microorganisms. organisms and negative samples ( Figure 4). - Alignment on the microorganism reference genome (filtering step):
- the number of variants tolerated by sequences during the alignment of this sequence is dependent on the microorganism studied and its gene variability and the sequencing platform used. For example, in the case of a non-variable micro-organism, such as sequenced DNA viruses on an Illumina HiSeql500 TM platform at 26pb single-end, a maximum of 2 variants is tolerated for further analysis (Table 3) .
- Table 3 Example of Nucleotide Sequence Alignment Parameters on the Microorganism Reference Genome with the Bowtie Alignment Tool for Illumina Sequencing Data Obtained on HiSeql500 TM 26pb Single-End
- the first sequence alignment step on the human reference genome is performed on the latest available human reference genome: GRCh38 (Genome Reference Consortium Human Genome build 38) updated in 2013.
- GRCh38 Gene Reference Consortium Human Genome build 38
- the prior elimination of human sequences makes it possible to reduce the number of non-specific alignments. For example, the number of nucleotide sequences aligning with the CMV genome observed after the two alignment steps is less than that observed after direct alignment with the viral reference genome (FIG. 6).
- a first validation filter of the sequencing step is set up based on the minimum number of sequences that must be obtained to ensure a sufficient depth of sequencing to allow further analysis. In addition, a sufficient percentage of sequences aligning with the human reference genome is necessary in order to validate the smooth sequencing.
- Table 4 Sample Sequencing Quality Filter Parameters for Illumina Sequencing Data from HiSeql500 TM 26pb Single-End - Validation of the homogeneity of alignment:
- An optional filter is used to identify biased alignments by checking if the genome is uniformly covered by the aligned interest sequences. This verification of the homogeneity of the alignment is performed by calculating the standard deviation of the sequencing depth of the genomic regions present uniformly in the sample. Typically, for microorganisms having a DNA genome, this step can be performed on the entire genome of the microorganism. On the other hand, for microorganisms with an RNA genome, such as RNA viruses, it may be necessary to consider only those intergenic regions not subject to expression variations for this validation.
- Sequencing depth is defined as the number of sequences that span a particular genomic region.
- the average depth of depthmean is defined as:
- the standard deviation of the sequencing depth of the genome is equal to:
- depth t depth for a given genomic region on the reference genome depthmean ⁇ 'mean depth over the entire reference genome
- depthmean average depth over the entire reference genome
- g enome size number of nucleotides of the reference genome
- depthj depth for a given genomic region on the reference genome depthmean ⁇ mean depth over the entire reference genome
- reacl5 length number of nucleotides of the sequences
- g enome size number of nucleotides of the reference genome
- the number of sequences counted is directly proportional to the total sequencing depth obtained at the scale of the total sample. The greater the number of sequences resulting from the sequencing, the more the number of sequences of microbial origin will be important for a sample having the same infectious load (FIG. 7).
- readSnorm number of sequences aligned on the genome after normalization length re ads: number of nucleotides of the sequences
- g enome size number of nucleotides of the reference genome
- the analysis of cohorts of positive samples, ie infected with a microorganism, and uninfected negative samples allows by a ROC analysis to determine a standardized average depth of depth of sequencing of the target genome for which it is possible to determine whether the sample is infected or not. So if depthnorm is above the threshold then the sample will probably be infected by the microorganism of interest.
- the expected false-positive and false-negative rate is determined by the sensitivity and specificity results of the threshold determined by the ROC analysis.
- Screening for infection by a microorganism is made from the average depth of sequencing of the genome of the microorganism of interest, calculated and standardized as described above.
- the z-score is a statistical test to highlight a significant difference in a value within a population. A z-score greater than 3 makes it possible to identify samples for which, statistically, the number of nucleotide sequences aligning with the target genome is different from that of the population studied.
- the z-score is calculated from the mean (mean) and absolute deviation of the standard deviation ⁇ StDev from the number of aligned and normalized sequences of all samples studied: reads norm - mean (reads norm )
- readsnorm number of sequences aligned on the genome after normalization.
- Embodiment No. 1 Detection and Quantification of Cytomegalovirus (CMV) Plasma in Pregnant Women
- CMV belongs to the family of herpesviridae. It is a double-stranded DNA enveloped virus of about 240kb. The infection is latent with maintenance of the viral genome as an episome in macrophages or endothelial cells (Bolovan-Fritts et al., 1999). Its transmission is interhuman and is mainly by contact between the mucous membranes. During the infection process, transmission of the virus in the host is carried out by intercellular contacts, in particular through circulating macrophages. Primary CMV infection affects almost 50% of the world's population and is asymptomatic in most cases. CMV can be reactivated during the life of an individual. Similarly, infections from different viral strains can also be observed. Among the best known, 4 non-genetically engineered strains were isolated and fully sequenced (Dolan et al., 2004) (Table 5).
- NCBI NCBI genome
- CMV infection during pregnancy is mostly the result of a primary infection in an HIV-negative woman. More rarely, infection can result from secondary infection or viral reactivation in HIV-positive women. The clinical manifestations are in all cases non-existent or minor (flu syndrome).
- the virus In case of infection in the mother, the virus can infect the fetus via the f ⁇ to-placental barrier. Congenital infection of the fetus is defined by the detection of the virus in the circulation of the newborn in the first 3 weeks of life, and occurs in 40% to 50% of primary infection cases during pregnancy. In the end, the prevalence of CMV at birth is about 0.5% to 1%.
- the primary infection in the mother is all the more frequent as the age of gestation increases.
- the risk to the fetus increases when the primary infection occurs in early pregnancy (before the first half, 26% of fetuses will present a severe pathology against only 6.2% in the second and third semesters of pregnancy) (Daiminger et al., 2005, Liesnard et al., 2000).
- the detection of infection in the mother can be achieved through serological tests: assay of immunoglobulin type M and measurement of the avidity of immunoglobulin type G by Elisa tests.
- the immunoglobulin assay does not accurately identify primary infections because they may persist long after infection. Moreover their interpretation remains difficult, in particular because of a lack of standardization of the proposed tests and the serological status of the infected subjects over time. According to the High Health Authority, the date of infection is only possible in 75% to 80% of cases. In addition, this test does not identify secondary infections.
- Ultrasound monitoring can identify non-specific embryonic developmental abnormalities of congenital CMV infection. However, in nearly half of the cases with sequelae, no signs are observed during pregnancy, hence the importance of detecting CMV.
- the symptomatology of the infection in the adult is not specific (flu syndrome) and does not allow to make the diagnosis of the CMV infection.
- ultrasound alone can not be used to estimate the risk of congenital fetal infection. In case of doubt, only an invasive procedure makes it possible to make the diagnosis and to evaluate the risk for the fetus.
- PNID non-invasive prenatal screening and diagnosis of various pathologies
- the method of the present invention utilizes sequencing of the genome of maternal plasma DNA to detect CMV virus infection in the mother. Indeed, in case of active infection the virus is found in the bloodstream: viral DNA can thus be observed and quantified in the maternal plasma.
- This non-invasive test makes it possible to accurately determine the infective status of the woman during pregnancy, and thus improve the management of infected women by limiting the number of invasive procedures proposed.
- the prenatal screening test is carried out according to the invention from maternal plasma samples.
- Plasma is collected after centrifugation of a blood sample from the pregnant woman and recovery of the supernatant phase. This liquid phase does not contain blood cells.
- Plasma circulating DNA is then extracted to allow the production of libraries that allow the sequencing of the entire genome of each sample on the Illumina HiSeql500 TM platform, according to the manufacturer's recommendations. Sequencing is performed in this example as a single end.
- the raw data from sequencing as a bel file are then converted into fastq files containing all the nucleotide sequences obtained per sample. Fastq files
- the sequences containing the sequences are then processed according to the present invention (FIG. 9).
- the control samples passed the two quality filters of the method according to the invention, validating for these samples a sufficient depth of sequencing and alignment of the sequences on the homogeneous CMV genome.
- all were detected positive for CMV infection in the method according to the invention with a standardized depth greater than the threshold of 0.1424 determined by tests previously carried out on a range of samples of known viral concentration. [range: 0.2926-18.9330].
- the negative control comes out well as non-infected with CMV with a standardized depth equal to 0.00019.
- Embodiment 2 Detection and quantification of viral sequences in the diagnosis of solid tumors
- Oncogenesis is the process that transforms a normal cell into a cancer cell. This process involves the acquisition of particular properties such as uncontrolled proliferation, escape from the immune system ... (Hanahan and Weinberg, 2011). It can be induced by many events including viral infections. Indeed, since the identification by Peyton Rous of RSV virus (Rous Sarcoma Virus) capable of causing the appearance of sarcoma in chicken, many DNA and RNA viruses have been associated with the appearance of cancer in humans (Table 8). Nevertheless, the oncogenic character of the viruses has been discussed at length, in particular because of their ubiquitous nature and the time between virus infection and tumor development. Type of virus Name of the virus Associated cancer in humans
- the malignant transformation of a tissue depends on the tropism of the viruses and is accompanied by the persistence of the viral genome in the tumor cells most often after integration into the DNA of the host cell (provirus). Since the integration of the virus occurs randomly in the human genome, the oncogenic action of the viruses seems to come not from an insertion mutagenesis but from a physiological modification of the cell infected by the viral proteins.
- Epstein-Barr virus (EBV or HSV-4) is a virus of the family Herpesviridae. It is a double-stranded DNA virus whose ubiquitous infection affects nearly 90% of the world's population. Primary infection with EBV may be asymptomatic or may be accompanied by the emergence of benign mononucleosis. EBV is a latently infected virus that persists after infection in B-lymphocytes as an episome. In healthy subjects, it is common to observe viral reactivations in the course of life.
- EBV nasopharyngeal carcinoma
- HPV papillomavirus
- H papillomavirus
- tumor DNA circulating in the plasma has made it possible to set up new strategies for detecting and monitoring non-invasive cancers (Anker et al., 1999). For example, in the case of EBV, it has been shown that the amount of virus circulating in patients' plasma was dependent on the response status of a treatment and could be used as a biomarker of anti-tumor response. A single test to quantify markers on human tumor DNA such as microsatellites, as well as viral markers, could improve the diagnosis and monitoring of the disease in a non-invasive and more accurate way. In addition, the characterization of the viral infection associated with a tumor transformation can contribute to the improvement of the diagnosis by facilitating the discrimination between several tumor types in an individual and by proposing more targeted therapeutic strategies.
- the screening test according to the invention is carried out from plasma samples. Plasma DNA is extracted as previously described. The production of libraries that allow the sequencing of the entire genome of each sample on the Illumina MySeq platform is performed according to the manufacturer's recommendations. Sequencing is performed in this example as a single end. The raw data from the bel file sequencing are then converted into fastq files containing all the nucleotide sequences obtained by sample. The fastq files containing the sequences are then processed in accordance with the invention as previously described (FIG. 9).
- a total of 17 plasma test samples were sequenced and analyzed.
- the sequential alignment of the sequences on the human genome and then on the 9 reference genomes makes it possible to identify, for each sample, nucleotide sequences of viral origin.
- the alignment is specific: the positive controls have a depth of sequencing greater than the detection threshold only for a single reference genome (figure U). Thus it is possible to identify in a specific way (specificity: 100% on 17 samples tested) and sensitive (sensitivity: 100% out of 17 samples tested) samples showing viremia for one or more viral species.
- the use of high throughput sequencing technologies highlights the utility of virus detection and quantification in the diagnosis and follow-up of virally induced cancer patients.
- the detection of low virus concentration makes it possible, in this case, to monitor and quantify, for example, the remission of patients undergoing treatment with good sensitivity.
Landscapes
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Organic Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Health & Medical Sciences (AREA)
- Analytical Chemistry (AREA)
- Engineering & Computer Science (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Immunology (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biochemistry (AREA)
- Microbiology (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Genetics & Genomics (AREA)
- Theoretical Computer Science (AREA)
- Virology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
La présente invention porte sur un procédé de détermination de la présence et quantification d'au moins un micro-organisme dans un échantillon biologique humain comprenant des acides nucléiques totaux, comportant les étapes suivantes : - extraction des acides nucléiques totaux dudit échantillon biologique - séquençage haut débit desdits acides nucléiques totaux - traitement informatique des données de séquençage - le filtrage des séquences non humaines par alignement de séquences avec les séquences du génome de référence d'au moins un micro-organisme d'au moins un échantillon de référence - le calcul de la profondeur de séquençage du génome de référence d'au moins un micro-organisme - la détermination d'un indicateur de la quantification d'au moins un micro¬ organisme fonction de ladite profondeur de séquençage du génome de référence. La présente invention porte également sur un équipement et des kits pour la mise en œuvre dudit procédé, pour le diagnostic prénatal ou de cancers.
Description
Procédé de détermination de la présence et quantification d'au moins un micro-organisme dans un échantillon biologique
Domaine de l'invention La présente invention se rapporte au domaine de la détection de contaminants dans un échantillon biologique par séquençage haut débit et au dosage desdits contaminants dans l'échantillon biologique.
Plus particulièrement, l'invention se rapporte à la détection et à la quantification de micro-organismes, par exemple dans un échantillon biologique humain, notamment plasmatique, dont on ne connaît pas préalablement la concentration en microorganismes.
Contexte de l'invention
Les techniques de séquençage haut débit (également appelée technique de séquençage de nouvelle génération) présentent un intérêt tout particulier dans les études génomiques, notamment en physiopathologie. En effet, ces techniques permettent de séquencer les acides nucléiques et notamment le génome entier ou l'exome entier d'un tissu biologique ou de séquencer de manière plus ciblée un panel de gènes d'intérêt. Il est possible à partir des données génomiques séquencées d'étudier le microbiome des tissus étudiés.
En 2008, le NIH a initié la projet HMP (Human Microbiome Project) qui avait pour objectif de caractériser le microbiome de divers tissus biologiques humains (NIH HMP Working Group et al., 2009). Plusieurs études ont ensuite permis de mettre en évidence l'impact du micro-organisme dans diverses situations pathologiques. Ainsi il est possible d'associer la présence de certains micro-organismes dans un tissu à l'émergence d'une pathologie. Par exemple, au cours de la grossesse, de nombreuses infections (parasitaires, bactériennes, virales...) peuvent avoir des
conséquences graves pour la mère et le fœtus. Parmi les plus fréquentes, on retrouve les infections par le cytomégalovirus (CMV) ou par le virus de la rubéole (Pereira et al., 2005). Le dépistage de ces infections chez la femme enceinte pourrait permettre un meilleur encadrement des grossesses à risque. De même, il a été montré dans des cas de rejet de greffe que l'identification de séquences d'origine virale pouvaient être associée à l'augmentation du risque de rejet du greffon (De Vlaminck et al., 2015). Enfin, certaines infections virales peuvent être associées à des processus oncogéniques particuliers. C'est le cas notamment du virus HPV-16 associé à l'émergence d'un cancer du col de l'utérus ou du virus de l'hépatite B pouvant entraîner l'apparition de carcinomes hépatiques (Blackadar, 2016). Dans tous les cas, le dépistage d'infections particulières, de même que la quantification de ces infections, peuvent permettre d'améliorer le diagnostic et le suivi de patients atteints de diverses pathologies.
Etat de la technique
Il est connu de l'état de la technique des techniques de détection de biomarqueurs de l'état de santé d'un fœtus dans un échantillon biologique maternel.
La demande de brevet WO2015/070086 décrit une méthode d'analyse du microbiome chez un sujet comprenant le séquençage haut-débit d'un échantillon du patient, l'analyse bioinformatique des données de séquençage et détermination de la présence d'une séquence microbienne.
La demande de brevet WO2014/019275 décrit un procédé d'identification de biomarqueurs de l'état de santé fœtal à partir d'un organisme étranger tel qu'un virus, une bactérie, un champignon et un parasite, et ses utilisations pour la détermination non invasive de l'état de santé fœtal. Cette demande de brevet concerne également un système et un kit qui sont utilisés dans le procédé.
Il existe dans l'état de la technique des procédés de détection de biomarqueurs non- invasif basés sur des techniques de détection d'ADN par PCR quantitative
(Polymerase Chain Reaction) ciblant spécifiquement une séquence d'ADN ayant pour origine un micro-organisme particulier. Il existe également des techniques de détection immunologique d'une infection notamment grâce à la quantification des immunoglobulines. II existe également dans l'état de la technique des procédés de détection de biomarqueurs qui nécessitent une étape invasive pouvant représenter des risques pour le patient. C'est le cas par exemple de l'amniocentèse, technique répandue pour prélever du liquide amniotique en vue d'établir une batterie de tests pour évaluer l'état de santé du fœtus chez la femme enceinte. Or l'amniocentèse n'est pas sans risque pour la femme enceinte et le fœtus puisqu'elle peut entraîner la perte du bébé. De même, les biopsies, par exemple pour évaluer le caractère cancérigène d'une tumeur, constituent un acte chirurgical pouvant être dangereux pour le patient. Les tests réalisés sur ces prélèvements peuvent être de différentes natures et plus ou moins sensibles.
Inconvénient de l'art antérieur
Les procédés de l'art antérieur et notamment de la demande WO2014/019275 permettent uniquement de déterminer la présence ou non d'un contaminant à partir des données de séquençage d'un échantillon biologique. Ces procédés ne donnent aucune information sur la concentration en contaminant dans l'échantillon. Il n'est pas non plus possible de suivre l'évolution de cette concentration dans le temps.
Le procédé du document WO2015/070086 ne comporte pas d'optimisation de la détection des micro-organismes au sein d'un sujet. En effet, un certain nombre de reads peuvent s'aligner de façon non spécifique sur le génome de référence au niveau de région génomique de basse complexité et être la source de faux positifs.
Ce document n'établit pas non plus préalablement une matrice de référence sur une pluralité d'échantillons de référence dont la concentration en micro-organisme est connue, et à enregistrer une matrice correspondant à la profondeur déterminée par
ladite caractérisation, et la concentration en micro-organisme connue correspondante. Ce document établit tout au plus une quantification relative mais pas de quantification absolue de la concentration en micro-organisme.
Les autres techniques de détection non-invasives en PCR quantitative par exemple présentent généralement un seuil de détection élevé et sont généralement longues et non-exhaustives. De même les techniques immunologiques présentent le plus souvent une faible spécificité de détection des micro-organismes. Ces techniques ne permettent généralement pas de dater l'infection dans le sens où un résultat positif peut résulter d'une infection antérieure.
Les techniques de détection immunologiques d'un micro-organisme peuvent également être invasives pour le patient, par exemple dans le cas de l'amniocentèse chez la femme enceinte. Ces gestes ne sont pas sans conséquences et ils peuvent représenter des risques pour le patient et/ou le fœtus. De même, le seuil de détection par ces techniques est parfois élevé ce qui ne permet pas de détecter de faibles niveaux en micro-organismes.
Dans tous les cas, la concentration en micro-organismes quantifiée par ces techniques n'est pas toujours très précise, ce qui ne permet pas d'adapter précisément les traitements. II existe donc un réel besoin de détecter et de quantifier précisément plusieurs micro-organismes dans un même échantillon biologique, dont on ne connaît pas la quantité desdits micro-organismes, de façon sûre, rapide, précise, sensible et avec un seuil de quantification très bas.
Solution apportée par l'invention
La présente invention se propose de remédier aux inconvénients de l'art antérieur par un procédé de détermination de la présence et quantification d'au moins un
micro-organisme dans un échantillon biologique humain comprenant des acides nucléiques totaux, comportant les étapes suivantes :
- extraction des acides nucléiques totaux dudit échantillon biologique
- séquençage haut débit desdits acides nucléiques totaux
- traitement informatique des données de séquençage consistant à
o dénombrer le nombre total de séquences
o filtrer lesdites séquences en fonction d'un score de qualité
o filtrer des séquences humaines par alignement de séquences avec les séquences du génome de référence humain caractérisé en ce que lesdites étapes de traitement informatique comprennent en outre :
- une étape initiale de calibration consistant à caractériser une pluralité d'échantillons de référence dont la concentration en micro-organisme est connue, et à enregistrer une matrice correspondant à la profondeur déterminée par ladite caractérisation, et la concentration en micro-organisme connue correspondante
- une étape de masquage de 0 à 5% des nucléotides du génome de référence d'au moins un micro-organisme par rapport aux nucléotides totaux dudit génome de référence, lesdits nucléotides masqués correspondant à des séquences de faible complexité
- le filtrage des séquences d'au moins un micro-organisme par alignement de séquences non-humaines avec les séquences du génome de référence d'au moins un micro-organisme d'au moins un échantillon de référence
- le calcul de la profondeur de séquençage du génome de référence d'au moins un micro-organisme
- la validation de l'homogénéité de la couverture du génome d'au moins un micro-organisme consistant à calculer l'écart-type de la profondeur de séquençage du génome à la référence dudit génome d'au moins un microorganisme
- la détermination d'un indicateur de la quantification d'au moins un microorganisme fonction de ladite profondeur de séquençage du génome de référence.
La présente invention propose un procédé de détection rapide et précis de microorganismes présents dans des échantillons biologiques humains, permettant de mettre en évidence des dérégulations ciblées du microbiome au sein d'un tissu biologique. La présente invention permet également de quantifier de façon précise le micro-organisme dans un échantillon biologique. La présente invention permet une détection et une quantification absolue de la concentration en micro-organisme. Le procédé selon l'invention est très sensible et permet de détecter au moins un microorganisme même si ce ou ces derniers sont faiblement présents dans l'échantillon. Le seuil de détection et de quantification du procédé de l'invention est très bas. Le seuil de détection du procédé selon l'invention est inférieur au seuil de détection des techniques communément admises telle que les tests immunologiques. Le seuil de quantification du procédé selon l'invention est inférieur au seuil de quantification des techniques communément admises telle que la PCR quantitative. La qualité des résultats obtenus par le présent procédé est accrue par rapport aux solutions de l'art antérieur. L'on comprend que l'invention permet la détection d'un ou de plusieurs microorganismes dans un même échantillon dont on ne connaît pas préalablement la quantité desdits micro-organismes. Cette quantification est absolue, notamment grâce à l'étape initiale de calibration consistant à caractériser une pluralité d'échantillons de référence dont la concentration en micro-organisme est connue, et à enregistrer une matrice correspondant à la profondeur déterminée par ladite caractérisation, et la concentration en micro-organisme connue correspondante.
La combinaison des étapes du procédé selon l'invention et notamment des étapes de calibration initiale, masquage, filtrage et validation de l'homogénéité de couverture
permet d'obtenir des résultats reproductibles, fiables, de très bonne qualité - supérieure aux procédés de l'état de la technique.
Avantageusement, l'étape de calcul de la profondeur de séquençage du génome de référence d'au moins un micro-organisme comprend un traitement de normalisation de la profondeur par rapport au nombre total de séquences issues du séquençage.
Le procédé selon l'invention optimise et augmente la quantité d'informations issues des séquençages d'échantillons biologiques humains. Le procédé selon l'invention est rapide. Le procédé selon l'invention permet d'augmenter la qualité des résultats obtenus. Il permet également une quantification absolue de la concentration en micro-organisme.
Alternativement, le procédé selon l'invention utilise les données de séquençage d'échantillons biologiques humains prélevés à d'autres fins, par exemple aux dépistages des aneuploïdies fœtales ou de biopsies suspectées cancéreuses. Ainsi le procédé selon l'invention maximise les diagnostics possibles à partir d'échantillons biologiques.
Selon un second aspect, l'invention porte sur un équipement pour la détermination de la présence et quantification d'au moins un micro-organisme dans un échantillon biologique comportant un calculateur commandé par un programme d'ordinateur pour la réalisation des traitements, sur des données de séquençage haut débit d'une extraction d'acides nucléiques totaux dudit échantillon biologique, de :
- calibration initiale consistant à caractériser une pluralité d'échantillons de référence dont la concentration en micro-organisme est connue, et à enregistrer une matrice correspondant à la profondeur déterminée par ladite caractérisation, et la concentration en micro-organisme connue correspondante
- masquage de 0 à 5% des nucléotides du génome de référence d'au moins un micro-organisme par rapport aux nucléotides totaux dudit génome de référence, lesdits nucléotides masqués correspondant à des séquences de faible complexité
- filtrage des séquences d'au moins un micro-organisme par alignement de séquences non-humaines avec les séquences d'au moins un génome de référence dudit micro-organisme d'au moins un échantillon de référence
- calcul de la profondeur de séquençage dudit génome de référence
- la validation de l'homogénéité de la couverture du génome d'au moins un micro-organisme consistant à calculer l'écart-type de la profondeur de séquençage du génome à la référence dudit génome d'au moins un microorganisme
- détermination d'un indicateur de concentration en micro-organisme fonction de ladite profondeur de séquençage du génome de référence.
Dans un mode de réalisation particulier, l'invention concerne un équipement pour la détermination de la présence et quantification d'au moins un micro-organisme dans un échantillon biologique comportant un calculateur commandé par un programme d'ordinateur pour la réalisation des traitements, sur des données de séquençage haut débit d'une extraction d'acides nucléiques totaux dudit échantillon biologique, de : dénombrement du nombre total de séquences
filtration desdites séquences en fonction d'un score de qualité
filtration des séquences humaines par alignement de séquences avec les séquences du génome de référence humain
calibration initiale consistant à caractériser une pluralité d'échantillons de référence dont la concentration en micro-organisme est connue, et à enregistrer une matrice correspondant à la profondeur déterminée par ladite caractérisation, et la concentration en micro-organisme connue correspondante
masquage de 0 à 5% des nucléotides du génome de référence d'au moins un micro-organisme par rapport aux nucléotides totaux dudit génome de référence, lesdits nucléotides masqués correspondant à des séquences de faible complexité
filtrage des séquences d'au moins un micro-organisme par alignement de séquences non-humaines avec les séquences du génome de référence dudit micro-organisme d'au moins un échantillon de référence
- calcul de la profondeur de séquençage du génome de référence
- la validation de l'homogénéité de la couverture du génome d'au moins un micro-organisme consistant à calculer l'écart-type de la profondeur de séquençage du génome à la référence dudit génome d'au moins un micro- organisme
- détermination d'un indicateur de concentration en micro-organisme fonction de ladite profondeur de séquençage du génome de référence.
Selon un troisième aspect, l'invention porte sur un programme d'ordinateur pour la détermination de la présence et quantification d'au moins un micro-organisme dans un échantillon biologique commandant la réalisation des traitements, sur des données de séquençage haut débit d'une extraction d'acides nucléiques totaux dudit échantillon biologique, de : calibration initiale consistant à caractériser une pluralité d'échantillons de référence dont la concentration en micro-organisme est connue, et à enregistrer une matrice correspondant à la profondeur déterminée par ladite caractérisation, et la concentration en micro-organisme connue correspondante
masquage de 0 à 5% des nucléotides du génome de référence d'au moins un micro-organisme par rapport aux nucléotides totaux dudit génome de référence, lesdits nucléotides masqués correspondant à des séquences de faible complexité
filtrage des séquences d'au moins un micro-organisme par alignement de séquences non-humaines avec les séquences du génome de référence dudit micro-organisme d'au moins un échantillon de référence
calcul de la profondeur de séquençage du génome de référence
la validation de l'homogénéité de la couverture du génome d'au moins un micro-organisme consistant à calculer l'écart-type de la profondeur de séquençage du génome à la référence dudit génome d'au moins un microorganisme
détermination d'un indicateur de concentration en micro-organisme fonction de ladite profondeur de séquençage du génome de référence.
Dans un mode de réalisation particulier, l'invention concerne un programme d'ordinateur pour la détermination de la présence et quantification d'au moins un micro-organisme dans un échantillon biologique commandant la réalisation des traitements, sur des données de séquençage haut débit d'une extraction d'acides nucléiques totaux dudit échantillon biologique, de :
- dénombrement du nombre total de séquences
- filtration desdites séquences en fonction d'un score de qualité
- filtration des séquences humaines par alignement de séquences avec les séquences du génome de référence humain
- calibration initiale consistant à caractériser une pluralité d'échantillons de référence dont la concentration en micro-organisme est connue, et à enregistrer une matrice correspondant à la profondeur déterminée par ladite caractérisation, et la concentration en micro-organisme connue correspondante
- masquage de 0 à 5% des nucléotides du génome de référence d'au moins un micro-organisme par rapport aux nucléotides totaux dudit génome de référence, lesdits nucléotides masqués correspondant à des séquences de faible complexité
- filtrage des séquences d'au moins un micro-organisme par alignement de séquences non-humaines avec les séquences du génome de référence dudit micro-organisme d'au moins un échantillon de référence
- calcul de la profondeur de séquençage du génome de référence
- la validation de l'homogénéité de la couverture du génome d'au moins un micro-organisme consistant à calculer l'écart-type de la profondeur de séquençage du génome à la référence dudit génome d'au moins un microorganisme
- détermination d'un indicateur de concentration en micro-organisme fonction de ladite profondeur de séquençage du génome de référence.
On peut noter que les programme d'ordinateur mentionnés dans le présent exposé peuvent utiliser n'importe quel langage de programmation, et être sous la forme de code source, code objet, ou de code intermédiaire entre code source et code objet,
tel que dans une forme partiellement compilée, ou dans n'importe quelle autre forme souhaitable.
Selon un quatrième aspect, l'invention concerne un support d'enregistrement lisible par un ordinateur sur lequel est enregistré un programme d'ordinateur comprenant des instructions pour l'exécution des étapes d'un procédé selon l'invention ou d'application du procédé selon l'invention.
Les supports d'enregistrement (ou d'information) mentionnés dans le présent exposé peuvent être n'importe quelle entité ou dispositif capable de stocker le programme. Par exemple, le support peut comporter un moyen de stockage, tel qu'une ROM, par exemple un CD ROM ou une ROM de circuit microélectronique, ou encore un moyen d'enregistrement magnétique, par exemple une disquette (floppy dise) ou un disque dur.
D'autre part, les supports d'enregistrement peuvent correspondre à un support transmissible tel qu'un signal électrique ou optique, qui peut être acheminé via un câble électrique ou optique, par radio ou par d'autres moyens. Le programme selon l'invention peut être en particulier téléchargé sur un réseau de type Internet.
Alternativement, les supports d'enregistrement peuvent correspondre à un circuit intégré dans lequel le programme est incorporé, le circuit étant adapté pour exécuter ou pour être utilisé dans l'exécution du procédé en question. Selon un cinquième aspect, l'invention concerne un kit pour la détermination de la présence et quantification d'au moins un micro-organisme dans un échantillon biologique conformément au procédé ci-dessus comprenant :
- une pluralité de tubes contenant chacun une dilution d'au moins une séquence d'ADN d'un génome de référence d'au moins un micro-organisme dans un ADN contrôle
- un tube contenant de l'ADN contrôle
- la séquence nucléotidique du génome de référence d'au moins un microorganisme dont 0 à 5% des nucléotides sont masqués, lesdits nucléotides
masqués correspondant à des séquences de faible complexité. Dans un mode de réalisation, la séquence d'ADN d'un génome de référence d'au moins un micro-organisme est la séquence SEQ ID NO : 1. Dans un mode de réalisation, la séquence nucléotidique du génome de référence d'au moins un micro-organisme dont 0 à 5%, 0% étant exclu, des nucléotides sont masqués.
Dans un mode préféré de réalisation, l'invention porte sur l'application du procédé de détermination de la présence et quantification d'au moins un micro-organisme dans un échantillon biologique à la détermination de la concentration d'un parasite.
Dans un mode de réalisation, ledit parasite est un organisme procaryote. Ledit procaryote peut être choisi parmi les bactéries ou les archae.
Dans un autre mode de réalisation, ledit parasite est un virus.
Le virus peut être un virus à ADN appartenant à la famille des herpesviridae, un papillomaviridae, un parvoviridae ou tout autre famille de virus à ADN.
Le virus de la famille des herpesviridae peut être un cytomégalovirus, un virus Epstein-Barr, un varicellovirus, un simplexvirus, un herpès virus de type 8 ou tout autre virus.
Dans un autre mode de réalisation, ledit parasite est un organisme eucaryote.
Dans un autre mode de réalisation, l'invention porte sur l'application du procédé de détermination de la présence et quantification d'au moins un micro-organisme dans un échantillon biologique pour le diagnostic prénatal caractérisé en ce que ledit parasite est un cytomégalovirus.
Dans un autre mode de réalisation, l'invention porte sur l'application du procédé de détermination de la présence et quantification d'au moins un micro-organisme dans un échantillon biologique pour le diagnostic d'un cancer induit par le virus Epstein Barr et/ou le suivi d'un traitement anticancéreux caractérisé en ce que ledit parasite est un virus Epstein Barr.
Dans un autre mode de réalisation, l'invention porte sur l'application du procédé de détermination de la présence et quantification d'au moins un micro-organisme dans un échantillon biologique pour le suivi d'une greffe caractérisé en ce que ledit parasite est un virus cytomégalovirus. Selon un autre aspect, l'invention porte sur un kit tel que décrit ci-dessus pour le diagnostic prénatal mettant en œuvre le procédé décrit précédemment caractérisé en ce que ladite séquence du génome de référence d'au moins un micro-organisme est un cytomégalovirus dont jusqu'à 0,06% des nucléotides sont masqués. Dans un mode de réalisation, ladite séquence du génome de référence d'au moins un micro- organisme est un cytomégalovirus dont jusqu'à 0,06% des nucléotides sont masqués, 0% étant exclu. Avantageusement, ladite séquence du génome de référence d'au moins un micro-organisme est la séquence du génome de référence d'un cytomégalovirus dont jusqu'à 0,06% des nucléotides sont masqués, cette séquence correspondant à la séquence SEQ ID NO : 1. Selon un autre aspect, l'invention porte sur un kit tel que décrit ci-dessus pour le suivi d'une greffe mettant en œuvre le procédé décrit précédemment caractérisé en ce que ladite séquence du génome de référence d'au moins un micro-organisme est un cytomégalovirus.
Selon un autre aspect, l'invention porte sur un kit tel que décrit ci-dessus pour le diagnostic d'un cancer induit par le virus Epstein Barr et/ou le suivi d'un traitement anticancéreux mettant en œuvre le procédé précédemment décrit caractérisé en ce que ladite séquences du génome de référence d'au moins un micro-organisme est un virus Epstein Barr.
Description
La présente invention sera mieux comprise à la lumière de la description détaillée de l'invention et d'exemples non limitatifs de réalisation.
La figure 1 présente un schéma du procédé selon l'invention.
La figure 2 présente la répartition des bases en fonction de leur score de qualité PHRED pour un échantillon.
La figure 3 présente la distribution moyenne des séquences nucléotidiques issues de séquençage de génome entier. La figure 4 présente le nombre de séquences virales alignées sur le génome de référence du CMV masqué (CMV_NS) ou classique (NC_006273).
La figure 5 présente la comparaison des résultats obtenus après filtre ou non des séquences nucléotidiques humaines.
La figure 6 présente la comparaison des performances pour l'alignement sur le génome viral des séquences nucléotidiques de 5 échantillons sans (en haut) ou avec (en bas) une première étape filtrant les séquences nucléotidiques s'alignant sur le génome humain.
La figure 7 présente le nombre brut de séquences alignées sur le génome de référence du CMV (CMV_NS) ou normalisé en fonction du nombre de séquences totales de l'échantillon dans un échantillon infecté par le CMV.
La figure 8 présente une estimation de la concentration en contaminant des échantillons à partir de la profondeur moyenne normalisée et la corrélation entre la concentration en contaminant théorique de l'échantillon et celle estimée par le procédé selon l'invention. La figure 9 présente un exemple de réalisation de l'invention pour la détection d'une virémie dans des échantillons plasmatiques.
La figure 10 présente le profil d'un échantillon positif selon le procédé de l'invention et ayant une virémie positive pour le CMV.
La figure 11 présente la profondeur moyenne normalisée de 4 échantillons (en abscisse) pour 9 micro-organismes étudiés (famille des herpesviridae).
Définitions :
Echantillon biologique humain : Des biopsies liquides ou solides de tissus humains, des cellules isolées à partir de biopsies liquides ou solides, les liquides biologiques tels que le plasma ou liquide céphalorachidien. Fasta : Format de fichier texte permettant de stocker des séquences biologiques telles que des séquences nucléotidiques de génomes de référence.
Fastq : Format de fichier texte permettant de stocker des séquences et leur score de qualité associé telles que les séquences nucléotidiques issues du séquençage nouvelle génération. Microbiome : Le microbiome regroupe l'ensemble des micro-organismes qui prédominent ou sont durablement adaptées à la surface et à l'intérieur d'un organisme vivant. Ce terme désigne également la somme des génomes des micro- organismes vivant dans ou sur un organisme animal ou végétal. Des états pathologiques de l'organisme animal ou végétal peuvent être attribués à un déséquilibre de son microbiome.
ORF (Open Reading Frame) : Phase ouverte de lecture correspond à une région du génome susceptible de coder pour une protéine. Elle est définie par la présence d'un codon initiateur et d'un codon stop qui délimitent une région codante entourée dans certains cas de séquences dîtes régulatrices. Profondeur de séquençage : Correspond au nombre de fois moyen que le génome est couvert (souvent exprimé en équivalent génome). Autrement dit, la profondeur de séquençage se définit comme le nombre moyen de séquences qui couvrent une région génomique particulière, c'est-à-dire le nombre moyen de séquences qui s'alignent à l'intérieur d'une région génomique particulière.. Read : Séquence nucléotidique obtenue après séquençage nouvelle génération
Séquençage : Consiste à déterminer l'ordre des nucléotides d'une séquence d'acide nucléique donné selon différentes méthodes.
Séquençage nouvelle génération (ou séquençage haut-débit) : Consiste à déterminer de manière massive et parallélisée l'ordre des nucléotides d'un grand nombre de séquences d'acides nucléiques au sein d'un échantillon. Typiquement cette méthode permet le séquençage du génome ou du transcriptome d'un échantillon biologique. Score de qualité (score Phred) : Score de qualité assigné à chaque base nucléique obtenue après séquençage nouvelle génération. Ils permettent de déterminer l'exactitude de chaque nucléotide d'une séquence biologique stockée dans un fichier fastq.
Préparation des échantillons
Les acides nucléiques des échantillons biologiques sont extraits selon les techniques classiques bien connues de l'Homme du métier. L'étape d'extraction des acides nucléiques est adaptée à chaque échantillon biologique et permet la lyse des cellules afin de libérer les acides nucléiques qui sont ensuite purifiés et fragmentés si nécessaire afin de permettre leur séquençage par des techniques de séquençage nouvelle génération. Par exemple, le plasma est récolté après centrifugation d'un prélèvement sanguin et correspond au surnageant. Cette phase liquide ne contient pas ou peu de cellules sanguines. L'ADN circulant dans le plasma est ensuite extrait de cet échantillon biologique. Dans le cas de l'ADN plasmatique circulant aucune étape de fragmentation n'est nécessaire. Par exemple, une étape de fragmentation peut être une fragmentation chimique qui fait intervenir des enzymes dites endonucléases ou une fragmentation mécanique (ou sonication).
Séquençage : Les échantillons sont ensuite séquencés par des techniques de séquençage haut- débit, par exemple séquençage en single-end ou paired-end, long-reads ou short- reads. Ce séquençage peut être fait sur des plateformes bien connues de l'Homme du métier comme les plateformes Illumina®, Roche® ou IonTorrent®. Par exemple,
dans le cas d'un séquençage suivant la technologie Illumina®, des séquences adaptatrices sont ajoutées à chaque extrémité des fragments d'ADN. Ces adaptateurs sont différents pour chaque échantillon et permettent leur identification après séquençage de plusieurs échantillons sur une même puce. L'ajout des adaptateurs est suivi par une amplification clonale des fragments d'ADN (par pontage ou PCR en émulsion par exemple) puis par l'étape de séquençage sur l'automate choisi (par exemple HiSeql500™).
Prétraitement des données de séquençage : - Dénombrage du nombre total de séquences :
Les données de séquençage sont stockées dans des fichiers fastq sous-forme de séquences nucléotidiques dont la taille dépend essentiellement de la technologie de séquençage utilisée, auquel sont associées un score qualité appelé le score Phred. Le nombre de séquences contenues dans chaque fichier fastq correspond au nombre total de séquences obtenues après séquençage nouvelle génération (i.e. séquençage haut-débit).
- Filtrage des séquences nucléotidiques en fonction de leur qualité :
Les séquences nucléotidiques sont ensuite filtrées sur leur qualité. Seules les séquences nucléotidiques de qualité suffisante sont conservées (figure 2). De même, les duplicats de PCR sont filtrés lors de cette étape. Il s'agit classiquement de regarder la qualité de chaque séquence obtenue en sortie de séquençage (la qualité étant donnée par le séquenceur) et de ne garder que les séquences dont la qualité est supérieure à un seuil préalablement défini. La définition du seuil est classique pour l'homme du métier (souvent 15 ou 20).
- Filtrage des séquences humaines par alignement de séquences avec les séquences du génome de référence humain :
Un premier alignement sur le génome de référence humain GRCh38 est effectué afin de filtrer les séquences nucléotidiques d'origine humaine. En fonction de la technologie et de la plateforme de séquençage utilisé, il convient d'adapter l'outil d'alignement utilisé. En effet les algorithmes utilisés par les différents aligneurs disponibles sont dépendants, notamment de la taille des séquences, mais aussi de leur type de séquençage (en paired- ou single-end) et doivent être choisis en fonction de ces différents paramètres. Par exemple, l'outil Bowtie, permet un alignement efficace et rapide des séquences de petite taille (moins de 50pb) issus de séquençage de génome entier (Langmead et al., 2009). Dans le cas de données de séquençage obtenues après séquençage en single-end de 26pb, les séquences qui s'alignent sans variants et moins de 5 fois sur le génome de référence humain GRCh38 sont considérés comme des séquences nucléotidiques d'origine humaine. Afin d'accélérer cette étape, le meilleur alignement des séquences sur le génome de référence humain peut ne pas être rapporté (tableau 1).
Tableau 1 : Exemple de paramètres d'alignement des séquences nucléotidiques sur le génome de référence humain GRCh38 avec l'outil d'alignement Bowtie pour des données de séquençage Illumina obtenues sur HiSeql500™ en single-end de 26pb.
Dans cet exemple, en moyenne, après séquençage de génome entier, environ 19% des séquences totales ayant une qualité suffisante ne s'alignent pas sur le génome de référence GRCh38 (figure 3).
Identification des séquences spécifiques des ADN contaminants :
- Génomes de références (étape de masquage) :
Sur certaines régions génomiques particulières on observe l'alignement non- spécifique de nombreuses séquences nucléotidiques. Le nombre et la taille de ces régions particulières au sein d'un génome de référence sont indépendants de la taille de ce dernier. Cette étape n'est pas obligatoire pour tous les génomes de référence et dépend essentiellement de la séquence de ce dernier. La nécessite de réaliser ou pas une étape de masquage est généralement déterminée par le calcul de l'entropie de la séquences (qui reflète la complexité de la séquence). Dans un mode de réalisation préféré, cette étape de masquage est réalisée. En revanche un maximum de 5 nucléotides par centaine de nucléotides de la séquence de référence peuvent être modifiés à cette étape afin d'assurer une sensibilité d'alignement suffisante pour la suite de l'analyse (modification de 0% à 5% des nucléotides). Dans un mode de réalisation particulier, de 0% à 5% des nucléotides (0% étant exclu) de la séquence de référence peuvent être modifiés à cette étape afin d'assurer une sensibilité d'alignement suffisante pour la suite de l'analyse (modification entre 0% et 5% des nucléotides, 0% étant exclu).
Par exemple, sur un panel de 60 virus à ADN, 9 présentent, un l'alignement non- spécifique de 4 à 173 séquences (tableau 2).
Nom du Nombre de régions de Nombre de séquences Taille virus basse complexité non-spécifiques génome
HPV-10 2 20 7919 pb
HPV-9 1 4 7434 pb
HPV-5 2 5 7746 pb
HPV-34 2 21 7723 pb
HPV-16 1 173 7905 pb
HPV-18 1 48 7857 pb
HSV-5 4 22 235646 pb (CMV)
HSV-6b 2 8 162114 pb
HSV-6a 3 79 159322 pb
2 : Génome viraux présentant des régions nucléotidiques de basse ' entraînant un alignement non-spécifique de séquences nucléotidiques
Certaines régions génomiques particulières sont généralement composées de séquences d'ADN de basse complexité qui correspondent à une faible diversité nucléotidique en général, une ou deux bases sont surreprésentées (par exemple : AAATAAAAAAAATAAAAAAT). Les régions de basse complexité provoquent souvent des alignements non-spécifiques. De telles régions peuvent aussi comporter des répétitions de motifs (séquences de quelques bases).
Les régions nucléotidiques entraînant des alignements non-spécifiques (i.e. les régions de basse complexité) sont donc masquées, afin de permettre une meilleure homogénéité de l'alignement sur le génome de référence et une diminution du bruit de fond observé pour les échantillons négatifs. Cette méthode permet de diminuer le nombre de séquences alignées de manière non-spécifique. Par exemple, pour le virus du CMV (HSV-5), l'étape de masquage des 4 régions de basse complexité passe par la modification de 155pb du génome de référence qui deviennent des N (SEQ ID NO : 1). Dans ce cas, le masquage impacte 0,06% des nucléotides du génome du CMV.
Cette étape de masquage permet de ramener le nombre de séquences comptées pour les échantillons négatifs (i.e. échantillons ne comprenant pas d'ADN de micro- organisme) à un niveau basai proche de zéro et donc de discriminer plus facilement les échantillons faiblement concentrés en micro-organismes et les échantillons négatifs (figure 4).
- Alignement sur le génome de référence de micro-organismes (étape de filtrage) :
Les séquences nucléotidiques qui ne s'alignent pas sur le génome humain, dont l'origine est inconnue, sont ensuite alignées sur le ou les génomes de référence cibles, éventuellement dans lequel ou lesquels les régions de basse complexité sont masquées : génomes de parasites, viraux, de procaryotes ou de micro-organismes eucaryotes. Seuls les séquences s'alignant sans ambiguïté sont conservées. Le nombre de variants tolérés par séquences lors de l'alignement de cette séquence est dépendant du micro-organisme étudié et de sa variabilité génique et de la plateforme de séquençage utilisé. Par exemple dans le cas d'un micro-organisme peu variable, comme les virus à ADN séquencé sur une plateforme Illumina HiSeql500™ en single- end de 26pb un maximum de 2 variants est toléré pour la suite de l'analyse (tableau 3).
Tableau 3 : Exemple de paramètres d'alignement des séquences nucléotidiques sur le génome de référence du microorganisme avec l'outil d'alignement Bowtie pour des données de séquençage Illumina obtenues sur HiSeql500™ en single-end de 26pb
- Impact du filtre de la présence des séquences nucléotidiques humaines sur la détection des micro-organismes (acide nucléique contaminant) :
La première étape d'alignement des séquences sur le génome de référence humain s'effectue sur le génome de référence humain disponible le plus récent : GRCh38 (Génome Référence Consortium Human génome build 38) mis à jour en 2013.
L'élimination préalable des séquences humaines permet de diminuer le nombre d'alignements non spécifiques. Par exemple, le nombre de séquences nucléotidiques s'alignant sur le génome du CMV observés après les deux étapes d'alignement est inférieur à celui observé après alignement direct sur le génome de référence viral (figure 6).
Analyse quantitative des résultats
- Validation de la profondeur de séquençage total :
Un premier filtre de validation de l'étape de séquençage est mis en place sur la base du nombre minimum de séquences qui doivent être obtenues afin d'assurer une profondeur de séquençage suffisante pour permettre la suite de l'analyse. De plus, un pourcentage de séquences suffisant s'alignant sur le génome de référence humain est nécessaire afin de valider le bon déroulement du séquençage.
Dans le cas d'un séquençage comme décrit précédemment (Illumina HiSeql500™ en single-end de 26pb) un seuil de 10 millions de séquences minimales doit être obtenu (0,07X en équivalent génome humain) afin d'assurer une détection robuste et reproductible des séquences spécifiques des micro-organismes étudiés (tableau 4). Ainsi, le procédé selon l'invention nécessite une profondeur de séquençage très faible du génome humain permettant de séquencer un maximum d'échantillons simultanément afin de minimiser les temps et les coûts de séquençage.
Tableau 4 : Exemple de paramètres des filtres de qualité du séquençage pour des données de séquençage Illumina obtenues sur HiSeql500™ en single-end de 26pb
- Validation de l'homogénéité d'alignement :
Un filtre optionnel permet d'identifier les alignements biaisés en vérifiant si le génome est uniformément couvert par les séquences d'intérêts alignées. Cette vérification de l'homogénéité de l'alignement est réalisée en calculant l'écart-type de la profondeur de séquençage des régions génomiques présentes uniformément dans l'échantillon. Typiquement, pour les micro-organismes ayant un génome à ADN, cette étape peut être réalisée sur l'ensemble du génome du micro-organisme. En revanche, pour les micro-organismes ayant un génome à ARN, tels que les virus à ARN, il peut être nécessaire de ne considérer que les régions inter-géniques non soumises aux variations d'expression pour cette validation.
On définit la profondeur de séquençage {depth) comme le nombre de séquences qui couvrent une région génomique particulière. La profondeur moyenne de séquençage (depthmean) est définie comme :
_ breads * longueurreads
u6ptflmean
tciill6g norne
nbreads■' nombre de séquences a/ignées sur le génome
longueurreads■' nombre de nucléotides des séquences
taillegénome ' nombre de nucléotides du génome de référence
depth t : profondeur pour une région génomique donnée sur le génome de référence depthmean■' profondeur moyenne sur tout le génome de référence
taillegénome■ nombre de nucléotides du génome de référence
Comme la profondeur suit une loi de Poisson, l'écart-type théorique est égal à la racine de la moyenne {dept meanJ- Au final, le paramètre permettant d'estimer de l'homogénéité de l'alignement est un écart-type normalisé (centré) et asymétrique :
■Jdëpth mean σ: écart-type de la profondeur sur tout le génome de référence
depthmean : profondeur moyenne sur tout le génome de référence
taillegénome : nombre de nucléotides du génome de référence
Au final :
depthj : profondeur pour une région génomique donnée sur le génome de référence depthmean■ profondeur moyenne sur tout le génome de référence
nbœads■' nombre de séquences alignées sur le génome
longueurreads ' nombre de nucléotides des séquences
A partir de résultats de séquençage de bonne et de mauvaise qualité, un seuil a été établi pour lequel il est possible de déterminer la qualité du séquençage. Ainsi, un écart-type inférieur à ce seuil permet, indépendamment du génome de référence, d'affirmer que l'alignement est de bonne qualité.
Analyse quantitative des résultats :
- Normalisation du nombre de séquences de micro-organismes
Le nombre de séquences spécifiques de chaque micro-organisme recensé dans un échantillon est dépendant de la taille du génome de référence de l'organisme étudié. Plus le micro-organisme étudié présente un génome de grande taille, plus la probabilité de retrouver des séquences de ce micro-organisme dans la librairie est importante. Afin de pouvoir quantifier chaque micro-organisme indépendamment de leur taille, on considérera non pas le nombre de séquences comptées mais la profondeur moyenne de séquençage du génome cible (depthmean) comme définit précédemment :
_ nbreads * longueurreads
epcftmean— faille
luiLLe génome nbrea s · ' nombre de séquences alignées sur le génome
longueurreacl5 : nombre de nucléotides des séquences
taillegénome : nombre de nucléotides du génome de référence
Le nombre de séquences comptées est directement proportionnel à la profondeur de séquençage totale obtenue à l'échelle de l'échantillon total. Plus le nombre de séquences issues du séquençage est élevé, plus le nombre de séquences d'origine microbienne sera important pour un échantillon présentant une même charge infectieuse (figure 7).
Le nombre de séquences est donc normalisé par rapport au nombre de séquences totales :
. nbreads
nbreadsTotal nbreads■' nombre de séquences a/ignées sur le génome
nbreads ai■' nombre de séquences totales issues du séquençage ayant passées le filtre qualité
c : constante
La constante c permet enfin de rapporter la valeur de profondeur normalisée à une échelle interprétable :
readSnorm■ ' nombre de séquences alignées sur le génome après normalisation longueurreads : nombre de nucléotides des séquences
taillegénome : nombre de nucléotides du génome de référence
c : constante
L'analyse de cohortes d'échantillons positifs, c'est à dire infectés par un microorganisme, et d'échantillons négatifs non-infectés permet par une analyse ROC de déterminer un seuil de profondeur moyenne normalisée de séquençage du génome cible pour lequel il est possible de déterminer si l'échantillon est infecté ou non. Ainsi si depthnorm est supérieur au seuil alors l'échantillon sera probablement infecté par le micro-organisme d'intérêt. Le taux de faux-positifs et de faux-négatifs attendu est déterminé par les résultats de sensibilité et de spécificité du seuil déterminé par l'analyse ROC.
- Détection d'une infection :
Le dépistage d'une infection par un micro-organisme est réalisé à partir de la profondeur moyenne de séquençage du génome du micro-organisme d'intérêt, calculé et normalisé comme décrit précédemment. Le z-score est un test statistique permettant de mettre en évidence un écart significatif d'une valeur au sein d'une population. Un z-score supérieur à 3 permet d'identifier des échantillons pour lesquels, statistiquement le nombre de séquences nucléotidiques s'alignant sur le génome cible est différent de celui de la population étudiée. Le z-score est calculé à partir de la moyenne (mean) et de la déviation absolue de la déviation standard {StDev du nombre de séquences alignées et normalisées de tous les échantillons étudiés :
readsnorm - mean(readsnorm)
zscore = ———
StDev(readsnorm)
readsnorm : nombre de séquences alignées sur le génome après normalisation.
- quantification de l'infection :
A partir de gammes croissantes d'échantillons infectés, séquencés préalablement, il est possible d'effectuer une régression permettant d'estimer le taux d'infection des échantillons testés. De manière générale ces gammes, de concentrations en séquences microbiennes connues, doivent être séquencées au minimum en duplicate. Un minimum de 4 points de gamme est requis pour cette étape.
La profondeur moyenne normalisée est calculée pour chaque point de gamme et est corrélée de manière linéaire à la concentration en contaminant du point de gamme (figure 8). Une régression linéaire est alors réalisée afin de déterminer l'équation permettant de relier le taux d'infection {concentration en contaminant) et la profondeur moyenne normalisée de séquençage du génome {depthnom : concentration en contaminant = depthnormx k depthnorm : profondeur moyenne normalisée sur tout le génome de référence k : constante
Exemple de réalisation n°l : Détection et quantification de cytomégalovirus (CMV) plasmatique chez la femme enceinte
Le CMV appartient à la famille des herpesviridae. Il s'agit d'un virus enveloppé à ADN double brin d'environ 240kb. L'infection est latente avec un maintien du génome viral sous forme d'épisome dans les macrophages ou les cellules endothéliales (Bolovan- Fritts et al., 1999). Sa transmission est interhumaine et se fait principalement par contact entre les muqueuses. Au cours du processus d'infection, la transmission du virus chez l'hôte s'effectue par contacts intercellulaires notamment grâce aux macrophages circulants.
La primo-infection par le CMV touche près de 50% de la population mondiale et est asymptomatique dans la plupart des cas. Le CMV peut être réactivé au cours de la vie d'un individu. De même, des infections à partir de différentes souches virales peuvent également être observées. Parmi les plus connues, 4 souches non manipulées génétiquement, ont été isolées et entièrement séquencées (Dolan et al., 2004) (tableau 5).
Culture Nom de la Référence Taille du
Tableau 5 : Description des principales souches de référence du CMV (NCBI®)
Parmi les souches isolées après culture cellulaire prolongée, des délétions ont été observées pouvant expliquer leur résistance et leur survie en culture. Au final, la souche de référence considérée comme la plus proche du CMV primaire observé chez l'homme et la souche Merlin.
L'infection par le CMV au cours de la grossesse résulte dans la majorité des cas d'une primo-infection intervenant chez une femme séronégative. De manière plus minoritaire, l'infection peut découler d'une infection secondaire ou d'une réactivation virale chez les femmes séropositives. Les manifestations cliniques sont dans tous les cas inexistantes ou mineures (syndrome grippal).
Les femmes enceintes séronégatives en début de grossesse sont donc les principaux sujets à risque. En France, plusieurs études épidémiologiques ont montré que 50% à 55% des femmes en âge de procréer présentent une sérologie CMV négative. Chez ces femmes, le risque d'infection au cours de la grossesse est d'environ 1%. L'incidence des infections secondaires ou des réactivations virales est peu connue (Adler, 2011).
En cas d'infection chez la mère, le virus peut infecter le fœtus par l'intermédiaire de la barrière fœto-placentaire. L'infection congénitale du fœtus est définie par la
détection du virus dans la circulation du nouveau-né dans les 3 premières semaines de vie, et intervient dans 40% à 50% des cas de primo-infection au cours de la grossesse. Au final, la prévalence du CMV à la naissance est d'environ 0,5% à 1%.
L'ampleur des complications résultant d'une infection congénitale est encore mal définie. Les symptômes peuvent émerger à la naissance chez 10 à 20 % des nourrissons infectés ou au cours de la première année de vie chez près de 30% des enfants infectés asymptomatiques à la naissance. Plusieurs types de séquelles neurologiques et/ou sensorielles sont souvent retrouvés chez les enfants symptomatiques (tableau 6). Dans 5% des cas, l'infection par le CMV à la naissance entraîne le décès du nouveau-né (Benoist et al., 2013; James and Kimberlin, 2016).
Type de Manifestations cliniques
séquelles
Tableau 6 : Description des principales séquelles observées chez le nouveau-né atteint d'une infection congénitale par le CMV (James and Kimberlin, 2016)
La primo-infection chez la mère est d'autant plus fréquente que l'âge de la gestation augmente. De plus, il a été montré que le risque pour le fœtus augmente lorsque la primo-infection intervient en début de grossesse (avant le premier semestre, 26% des fœtus présenteront une pathologie sévère contre seulement 6,2% au cours des deuxièmes et troisièmes semestres de grossesse) (Daiminger et al., 2005; Liesnard et al., 2000).
A ce jour, en France, seules quatre pathologies infectieuses font l'objet de programmes de dépistage prénatal obligatoire : la toxoplasmose, la rubéole, la syphilis et l'hépatite B. Bien que la transmission verticale du CMV soit la principale cause infectieuse de malformation congénitale, le dépistage prénatal du CMV n'est pas réalisé de manière systématique. Cependant, malgré l'absence de
recommandation, le dépistage prénatal sérologique du CMV au cours de la grossesse est réalisé de plus en plus fréquemment.
Au cours de la grossesse, la détection de l'infection chez la mère peut être réalisée grâce à des tests sérologiques : dosage des immunoglobulines de type M et mesure de l'avidité des immunoglobulines de type G par des tests Elisa. Le dosage des immunoglobulines ne permet pas d'identifier précisément les primo-infections car elles peuvent persister longtemps après l'infection. De plus leur interprétation reste difficile, notamment du fait d'une absence de standardisation des tests proposés et du statut sérologique des sujets infectés au cours du temps. D'après la Haute Autorité de Santé, l'établissement de la date de l'infection n'est possible que dans 75% à 80% des cas. De plus, ce test ne permet pas d'identifier des infections secondaires.
Le suivi échographique permet d'identifier des anomalies du développement embryonnaire non spécifiques de l'infection congénitale par le CMV. Cependant, dans près de la moitié des cas qui présenteront des séquelles, aucun signe n'est observé au cours de la grossesse, d'où l'importance de détecter le CMV.
Actuellement, la confirmation de l'infection du fœtus par le CMV peut être réalisée par le biais d'un geste invasif. La présence de particules ou d'ADN viral dans le liquide amniotique est mis en évidence par des techniques de culture cellulaire ou de PCR et permet alors de diagnostiquer une infection chez le fœtus. Cependant, les gestes invasifs sont dangereux et leur spécificité, de même que leur sensibilité, restent limitées. Des résultats faux-négatifs peuvent être dus à des amniocentèses réalisées trop tôt au cours du développement fœtal (la fonction d'urination fœtale apparaît seulement après 20 semaines de grossesse) et trop tôt après l'infection (6 à 8 semaines pour que le CMV soit excrété dans l'urine). Par ailleurs, des faux-positifs peuvent être le résultat d'une contamination par le sang maternel intervenant suite au geste invasif (amniocentèse).
La symptomatologie de l'infection chez l'adulte n'est pas spécifique (syndrome grippal) et ne permet pas de poser le diagnostic de l'infection par le CMV. Les tests
sérologiques actuels ne permettent pas d'identifier toutes les infections actives chez la femme enceinte, notamment dans le cas des infections secondaires ou réactivation virale, et sont peu précis. De plus, le suivi échographique seul ne permet pas d'estimer le risque d'infection congénitale du fœtus. En cas de doute, seul un geste invasif permet de poser le diagnostic et d'évaluer le risque pour le fœtus.
L'identification de la présence d'ADN circulant plasmatique d'origine fœtale, de même que l'émergence des technologies de séquençage nouvelle génération, a permis le développement du dépistage et du diagnostic prénatal non invasif de différentes pathologies (DPNI) : détermination du génotype RHD, dépistage des aneuploïdies fœtales... Par exemple, la surreprésentation de séquences spécifiques du chromosome 21 dans le plasma permet de mettre en évidence une trisomie 21 (ou Syndrome de Down) chez le fœtus. Le séquençage entier de l'ADN plasmatique maternel permet de dépister d'éventuelles aneuploïdies fœtales.
Le procédé de la présente invention utilise le séquençage du génome de l'ADN plasmatique maternel pour détecter chez la mère une infection par le virus du CMV. En effet, en cas d'infection active le virus se retrouve dans la circulation sanguine : de l'ADN viral peut ainsi être observé et quantifié dans le plasma maternel. Ce test non-invasif permet de déterminer avec précision le statut infectieux de la femme au cours de la grossesse, et ainsi améliorer la prise en charge des femmes infectées en limitant notamment le nombre de gestes invasifs proposés.
Le test de dépistage prénatal est réalisé selon l'invention à partir d'échantillons de plasma maternels. Le plasma est récolté après centrifugation d'un prélèvement sanguin de la femme enceinte et récupération de la phase surnageante. Cette phase liquide ne contient pas de cellules sanguines. L'ADN circulant dans le plasma est ensuite extrait afin de permettre la production des librairies qui permettent le séquençage du génome entier de chaque échantillon sur la plateforme Illumina HiSeql500™, selon les recommandations du fabriquant. Le séquençage est réalisé dans cet exemple en single end. Les données brutes issues du séquençage sous forme de fichier bel sont ensuite convertis sous forme de fichiers fastq contenant la totalité des séquences nucléotidiques obtenues par échantillon. Les fichiers fastq
contenant les séquences sont ensuite traités conformément à la présente invention (figure 9).
Au total, 82 échantillons de plasma maternel ont été séquencés. A ce test de dépistage prénatal ont été ajouté 5 échantillons contrôles (4 contrôles positifs et 1 contrôle négatif). L'alignement successif des séquences sur le génome humain puis sur le génome de référence du CMV modifié comme décrit précédemment (SEQ ID NO : 1) permet d'identifier, pour chaque échantillon, les séquences nucléotidiques spécifiques du CMV (tableau 7).
Tableau 7. Résultats des différentes étapes d'alignement
Les échantillons contrôles ont passé les deux filtres qualité du procédé selon l'invention, validant pour ces échantillons une profondeur de séquençage suffisante et un alignement des séquences sur le génome du CMV homogène. Parmi les contrôles positifs analysés, tous sont détectés positifs à l'infection au CMV dans le procédé selon l'invention avec une profondeur normalisée supérieur au seuil de 0,1424 déterminé par des tests préalablement effectués sur une gamme d'échantillons de concentration virale connue [range : 0,2926-18.9330]. De même, la charge virale (concentration en contaminant) estimée par le procédé selon l'invention est cohérente avec la charge virale théorique (concentration en contaminant théorique) des échantillons contrôles positifs (R2=0.98). Le contrôle négatif sort bien comme non-infecté par le CMV avec une profondeur normalisée égale à 0,00019.
Au sein des 82 échantillons primaires testés, 1 seul n'a pas passé les filtres qualité du fait d'une profondeur de séquençage trop faible : 40.450 séquences obtenues contre en moyenne 19.468.992 séquences obtenues pour tous les échantillons. L'analyse quantitative conclue notamment à une infection positive de cet échantillon avec une profondeur normalisée supérieur à 0,1424. Ce résultat faux-positifs met en évidence la nécessité de valider la qualité du séquençage en vérifiant que la profondeur de séquençage est suffisante pour la suite de l'analyse. Pour les 81 échantillons restant : 80 sont négatifs à l'infection et 1 est positif avec une charge virale (concentration en contaminant) estimée à 9.889 copies/ml_ {Figure 10). Cette approche utilise des résultats de séquençage utilisés pour réaliser d'autres dépistages de pathologies fœtales de manière non-invasive (dépistage des aneuploïdies fœtales). La détection de virus et d'autres micro-organismes plasmatiques au cours de la grossesse permet pour un coût et un temps identiques d'augmenter le nombre d'informations ayant un intérêt pour la santé de la femme et du bébé au cours de la grossesse.
Exemple de réalisation n°2 : Détection et quantification de séquences virales dans le diagnostic de tumeurs solides
L'oncogenèse (ou transformation maligne) est le processus qui transforme une cellule normale en cellule cancéreuse. Ce processus passe par l'acquisition de propriétés particulières telles que la prolifération incontrôlée, l'échappement au système immunitaire... (Hanahan and Weinberg, 2011). Il peut être induit par de nombreux événements dont les infections virales. En effet, depuis l'identification par Peyton Rous du virus RSV (Rous Sarcoma Virus) capable d'entraîner l'apparition d'un sarcome chez le poulet, de nombreux virus à ADN et à ARN ont été associées à l'apparition d'un cancer chez l'Homme {tableau 8). Néanmoins, le caractère oncogénique des virus a été longuement débattu, du fait notamment de leur caractère ubiquitaire et du délai entre infection virale et développement d'une tumeur.
Type de virus Nom du virus Cancer associé chez l'homme
Tableau 8 : Exemples de virus oncogènes
La transformation maligne d'un tissu dépend du tropisme des virus et s'accompagne de la persistance du génome viral dans les cellules tumorales le plus souvent après intégration dans l'ADN de la cellule hôte (provirus). L'intégration du virus se faisant de manière aléatoire dans le génome humain, l'action oncogénique des virus semble provenir, non pas d'une mutagénèse d'insertion mais de modification physiologique de la cellule infectée par les protéines virales.
Certains virus ont été directement associés à certains types de cancers :
EBV et carcinome nasopharyngé : Le virus Epstein-Barr (EBV ou HSV-4) est un virus de la famille des herpesviridae. Il s'agit d'un virus à ADN double brin dont l'infection ubiquitaire affecte près de 90% de la population mondiale. L'infection primaire par EBV peut être asymptomatique ou s'accompagner de l'émergence d'une pathologie bénigne de type mononucléose. L'EBV est un virus à infection latente qui persiste après infection dans les lymphocytes B sous forme d'épisome. Chez des sujets sains, il est fréquent d'observer des réactivations virales au cours de la vie.
Il existe plusieurs formes de latence en fonction des gènes dont l'expression persiste dans les cellules hôtes. Un défaut de contrôle de cet état peut entraîner l'émergence d'une tumeur. Dans le carcinome nasopharyngé (NEC) il a été observé, spécifiquement, la présence du génome de l'EBV dans les cellules épithéliales tumorales. Dans la majorité des cas, il est possible d'observer la présence de multiples copies du génome virale sous forme d'épisome dans les cellules infectées (Raab-Traub, 2015).
- EBV, HPV et cancer œsophagien : Le cancer œsophagien est l'un des cancers les plus fréquents observés chez l'Homme. De multiples facteurs sont impliqués dans l'émergence d'une tumeur, et notamment les agents infectieux tels que les papillomavirus (HPV), EBV ou la bactérie H. pylori (Xu et al., 2015). En fonction de l'infection à l'origine de la transformation tumorale, le type de tumeur qui va émerger peut varier. De même, les approches thérapeutiques envisagées peuvent être différentes, de même que les techniques permettant le suivi de la maladie.
La découverte d'ADN tumoral circulant dans le plasma a permis la mise en place de nouvelles stratégies de détection et de suivi non-invasif des cancers (Anker et al., 1999). Par exemple, dans le cas d'EBV, il a été montré que la quantité de virus circulant dans le plasma des patients était dépendante du statut de réponse à un traitement et pouvait être utilisé comme biomarqueur de réponse anti-tumorale. Un test unique permettant de quantifier des marqueurs présents sur l'ADN tumoral humain tels que les microsatellites, de même que des marqueurs viraux pourrait améliorer le diagnostic et le suivi de la maladie de manière non-invasive et plus précise. De plus, la caractérisation de l'infection virale associée à une transformation tumorale peut participer à l'amélioration du diagnostic en facilitant la discrimination entre plusieurs type tumoraux chez un individu et en proposant des stratégies thérapeutiques plus ciblées. C'est le cas par exemple des cancers œsophagiens qui peuvent être liées à diverses infections par des micro-organismes. Cette approche est notamment utile dans les cas des tumeurs trop difficiles d'accès pour permettre les biopsies. Le test de dépistage selon l'invention est réalisé à partir d'échantillons de plasma. L'ADN plasmatique est extrait comme décrit précédemment. La production des librairies qui permettent le séquençage du génome entier de chaque échantillon sur la plateforme Illumina MySeq, est réalisée selon les recommandations du fabriquant. Le séquençage est réalisé dans cet exemple en single end. Les données brutes issues du séquençage sous forme de fichier bel sont ensuite converties sous forme de fichiers fastq contenant la totalité des séquences nucléotidiques obtenues par
échantillon. Les fichiers fastq contenant les séquences sont ensuite traités conformément à l'invention comme précédemment décrit (figure 9).
Au total, 17 échantillons de plasma tests ont été séquencés et analysés. L'alignement successif des séquences sur le génome humain puis sur les 9 génomes de référence permet d'identifier, pour chaque échantillon, des séquences nucléotidiques d'origine virale.
Tous les échantillons séquencés ont passé les tests qualités validant à la fois la qualité de séquençage globale et la qualité de l'alignement des séquences sur les génomes de référence étudiés. Sur les 17 échantillons analysés pour 9 génomes de référence (SEQ ID NO : 1 pour le CMV), 3 échantillons sortent positifs avec une profondeur normalisée supérieure au seuil de 0,1426 préalablement établi par l'étude d'une gamme d'échantillons infectés de concentration virale connue. Ces 3 échantillons correspondant aux 3 contrôles positifs de l'étude. Les autres, étaient négatifs, comme attendu, pour toutes les références étudiées {tableau 9).
Tableau 9 : Résultats positifs issus de l'analyse
L'alignement est spécifique : les contrôles positifs présentent une profondeur de séquençage supérieur au seuil de détection uniquement pour un unique génome de référence {figure U). Ainsi il est possible d'identifier de manière spécifique (spécificité : 100% sur 17 échantillons testés) et sensible (sensibilité : 100% sur 17
échantillons testés) des échantillons présentant une virémie pour une ou plusieurs espèces virales.
Dans cet exemple, l'utilisation des technologies de séquençage à haut-débit met en évidence l'utilité de la détection et de la quantification de virus dans le diagnostic et le suivi de patients atteints de cancer viro-induit. La détection de faible concentration de virus permet, dans ce cas, de suivre et de quantifier par exemple la rémission de patients sous traitement avec une bonne sensibilité.
Références Adler, S. P. (2011). Screening for Cytomegalovirus during Pregnancy. Infect. Dis. Obstet. Gynecol. 2011.
Anker, P., Mulcahy, H., Chen, X.Q., and Stroun, M. (1999). Détection of circulating tumour DNA in the blood (plasma/serum) of cancer patients. Cancer Metastasis Rev. 18, 65-73. Benoist, G., Leruez-Ville, M., Magny, J.F., Jacquemard, F., Salomon, L.J., and Ville, Y. (2013). Management of pregnancies with confirmed cytomegalovirus fetal infection. Fetal Diagn. Ther. 33, 203-214.
Blackadar, C.B. (2016). Historical review of the causes of cancer. World J. Clin. Oncol. 7, 54-86. Bolovan-Fritts, C.A., Mocarski, E.S., and Wiedeman, J.A. (1999). Peripheral blood CD14(+) cells from healthy subjects carry a circuiar conformation of latent cytomegalovirus génome. Blood 93, 394-398.
Daiminger, A., Bader, U., and Enders, G. (2005). Pre- and periconceptional primary cytomegalovirus infection: risk of vertical transmission and congénital disease. BJOG Int. 3. Obstet. Gynaecol. 112, 166-172.
De Vlaminck, L, Martin, L, Kertesz, M., Patel, K., Kowarsky, M., Strehl, C, Cohen, G., Luikart, H., Neff, N.F., Okamoto, J., et al. (2015). Noninvasive monitoring of infection and rejection after lung transplantation. Proc. Natl. Acad. Sci. U. S. A. 112, 13336-13341. Dunn, W., Chou, C, Li, H., Hai, R., Patterson, D., Stolc, V., Zhu, H., and Liu, F. (2003). Functional profiling of a human cytomegalovirus génome. Proc. Natl. Acad. Sci. U. S. A. 100, 14223-14228.
Hanahan, D., and Weinberg, R.A. (2011). Hallmarks of cancer: the next génération. Cell 144, 646-674. James, S.H., and Kimberlin, D.W. (2016). Advances in the prévention and treatment of congénital cytomegalovirus infection. Curr. Opin. Pediatr. 28, 81-85.
Langmead, B., Trapnell, C, Pop, M., and Salzberg, S.L (2009). Ultrafast and memory-efficient alignment of short DNA séquences to the human génome. Génome Biol. 10, R25. Liesnard, C, Donner, C, Brancart, F., Gosselin, F., Delforge, M.L, and Rodesch, F. (2000). Prénatal diagnosis of congénital cytomegalovirus infection: prospective study of 237 pregnancies at risk. Obstet. Gynecol. 95, 881-888.
NIH HMP Working Group, Peterson, J., Garges, S., Giovanni, M., Mclnnes, P., Wang, L, Schloss, J.A., Bonazzi, V., McEwen, J.E., Wetterstrand, K.A., et al. (2009). The NIH Human Microbiome Project. Génome Res. 19, 2317-2323.
Pereira, L., Maidji, E., McDonagh, S., and Tabata, T. (2005). Insights into viral transmission at the uterine-placental interface. Trends Microbiol. 13, 164-174.
Raab-Traub, N. (2015). Nasopharyngeal Carcinoma: An Evolving Rôle for the Epstein-Barr Virus. Curr. Top. Microbiol. Immunol. 390, 339-363. Xu, W., Liu, Z., Bao, Q., and Qian, Z. (2015). Viruses, Other Pathogenic Microorganisms and Esophageal Cancer. Gastrointest. Tumors 2, 2-13.
Claims
Revendications
1 - Procédé de détermination de la présence et quantification d'au moins un microorganisme dans un échantillon biologique humain comprenant des acides nucléiques totaux, comportant les étapes suivantes :
- extraction des acides nucléiques totaux dudit échantillon biologique
- séquençage haut débit desdits acides nucléiques totaux
- traitement informatique des données de séquençage consistant à
o dénombrer le nombre total de séquences
o filtrer lesdites séquences en fonction d'un score de qualité
o filtrer des séquences humaines par alignement de séquences avec les séquences du génome de référence humain caractérisé en ce que lesdites étapes de traitement informatique comprennent en outre :
- une étape initiale de calibration consistant à caractériser une pluralité d'échantillons de référence dont la concentration en micro-organisme est connue, et à enregistrer une matrice correspondant à la profondeur déterminée par ladite caractérisation, et la concentration en micro-organisme connue correspondante
- une étape de masquage de 0 à 5% des nucléotides du génome de référence d'au moins un micro-organisme par rapport aux nucléotides totaux dudit génome de référence, lesdits nucléotides masqués correspondant à des séquences de faible complexité
- le filtrage des séquences d'au moins un micro-organisme par alignement de séquences non humaines avec les séquences du génome de référence d'au moins un micro-organisme d'au moins un échantillon de référence
- le calcul de la profondeur de séquençage du génome de référence d'au moins un micro-organisme
- la validation de l'homogénéité de la couverture du génome d'au moins un micro-organisme consistant à calculer l'écart-type de la profondeur de
séquençage du génome à la référence dudit génome d'au moins un microorganisme
- la détermination d'un indicateur de la quantification d'au moins un microorganisme fonction de ladite profondeur de séquençage du génome de référence
2 - Procédé de détermination de la présence et quantification d'au moins un microorganisme dans un échantillon biologique selon la revendication 1 caractérisé en ce que l'étape de calcul de la profondeur de séquençage du génome de référence d'au moins un micro-organisme comprend un traitement de normalisation de la profondeur par rapport au nombre total de séquences issues du séquençage.
3 - Equipement pour la détermination de la présence et quantification d'au moins un micro-organisme dans un échantillon biologique caractérisé en ce qu'il comporte un calculateur commandé par un programme d'ordinateur pour la réalisation des traitements, sur des données de séquençage haut débit d'une extraction d'acides nucléiques totaux dudit échantillon biologique, de :
- calibration initiale consistant à caractériser une pluralité d'échantillons de référence dont la concentration en micro-organisme est connue, et à enregistrer une matrice correspondant à la profondeur déterminée par ladite caractérisation, et la concentration en micro-organisme connue correspondante
- masquage de 0 à 5% des nucléotides du génome de référence d'au moins un micro-organisme par rapport aux nucléotides totaux dudit génome de référence, lesdits nucléotides masqués correspondant à des séquences de faible complexité
- filtrage des séquences d'au moins un micro-organisme par alignement de séquences non-humaines avec les séquences d'au moins un génome de référence dudit micro-organisme d'au moins un échantillon de référence
- calcul de la profondeur de séquençage dudit génome de référence
- la validation de l'homogénéité de la couverture du génome d'au moins un micro-organisme consistant à calculer l'écart-type de la profondeur de séquençage du génome à la référence dudit génome d'au moins un microorganisme
- détermination d'un indicateur de concentration en micro-organisme fonction de ladite profondeur de séquençage du génome de référence.
4 - Programme d'ordinateur pour la détermination de la présence et quantification d'au moins un micro-organisme dans un échantillon biologique caractérisé en ce qu'il commande la réalisation des traitements, sur des données de séquençage haut débit d'une extraction d'acides nucléiques totaux dudit échantillon biologique, de :
- calibration initiale consistant à caractériser une pluralité d'échantillons de référence dont la concentration en micro-organisme est connue, et à enregistrer une matrice correspondant à la profondeur déterminée par ladite caractérisation, et la concentration en micro-organisme connue correspondante
- masquage de 0 à 5% des nucléotides du génome de référence d'au moins un micro-organisme par rapport aux nucléotides totaux dudit génome de référence, lesdits nucléotides masqués correspondant à des séquences de faible complexité
- filtrage des séquences d'au moins un micro-organisme par alignement de séquences non-humaines avec les séquences du génome de référence dudit micro-organisme d'au moins un échantillon de référence
- calcul de la profondeur de séquençage du génome de référence
- la validation de l'homogénéité de la couverture du génome d'au moins un micro-organisme consistant à calculer l'écart-type de la profondeur de séquençage du génome à la référence dudit génome d'au moins un microorganisme
- détermination d'un indicateur de concentration en micro-organisme fonction de ladite profondeur de séquençage du génome de référence.
5 - Kit pour la détermination de la présence et quantification d'au moins un microorganisme dans un échantillon biologique conformément au procédé selon la revendication 1 caractérisé en ce qu'il comprend :
- une pluralité de tubes contenant chacun une dilution d'au moins une séquence d'ADN d'un génome de référence d'au moins un micro-organisme dans un
ADN contrôle
- un tube contenant de l'ADN contrôle
- la séquence nucléotidique du génome de référence d'au moins un microorganisme dont 0 à 5% des nucléotides sont masqués, lesdits nucléotides masqués correspondant à des séquences de faible complexité.
6 - Application du procédé de détermination de la présence et quantification d'au moins un micro-organisme dans un échantillon biologique selon la revendication 1 à la détermination de la concentration d'un parasite.
7 - Application du procédé de détermination de la présence et quantification d'au moins un micro-organisme dans un échantillon biologique selon la revendication 6 caractérisé en ce que ledit parasite est un organisme procaryote.
8 - Application du procédé de détermination de la présence et quantification d'au moins un micro-organisme dans un échantillon biologique selon la revendication 6 caractérisé en ce que ledit parasite est un virus.
9 - Application du procédé de détermination de la présence et quantification d'au moins un micro-organisme dans un échantillon biologique selon la revendication 6 caractérisé en ce que ledit parasite est un organisme eucaryote.
10 - Application du procédé de détermination de la présence et quantification d'au moins un micro-organisme dans un échantillon biologique selon la revendication 6 pour le diagnostic prénatal caractérisé en ce que ledit parasite est un cytomégalovirus.
11 - Application du procédé de détermination de la présence et quantification d'au moins un micro-organisme dans un échantillon biologique selon la revendication 6
pour le diagnostic d'un cancer induit par le virus Epstein Barr et/ou le suivi d'un traitement anticancéreux caractérisé en ce que ledit parasite est un virus Epstein Barr.
12 - Application du procédé de détermination de la présence et quantification d'au moins un micro-organisme dans un échantillon biologique selon la revendication 6 pour le suivi d'une greffe caractérisé en ce que ledit parasite est un virus cytomégalovirus.
13 - Kit selon la revendication 5, pour le diagnostic prénatal mettant en œuvre le procédé conforme à la revendication 1 caractérisé en ce que ladite séquence du génome de référence d'au moins un micro-organisme est un cytomégalovirus dont jusqu'à 0,06% des nucléotides sont masqués.
14 - Kit selon la revendication 5, pour le suivi d'une greffe mettant en œuvre le procédé conforme à la revendication 1 caractérisé en ce que ladite séquence du génome de référence d'au moins un micro-organisme est un cytomégalovirus.
15 - Kit selon la revendication 5, pour le diagnostic d'un cancer induit par le virus Epstein Barr et/ou le suivi d'un traitement anticancéreux mettant en œuvre le procédé conforme à la revendication 1 caractérisé en ce que ladite séquences du génome de référence d'au moins un micro-organisme est un virus Epstein Barr.
16. Support d'enregistrement lisible par un ordinateur sur lequel est enregistré un programme d'ordinateur comprenant des instructions pour l'exécution des étapes d'un procédé selon l'une quelconque des revendications 1 ou 2 ou d'application du procédé selon l'une quelconque des revendications 6 à 12.
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| FR1654459 | 2016-05-19 | ||
| FR1654459A FR3051482B1 (fr) | 2016-05-19 | 2016-05-19 | Procede de determination de la presence et quantification d'au moins un micro-organisme dans un echantillon biologique |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO2017198956A1 true WO2017198956A1 (fr) | 2017-11-23 |
Family
ID=56943650
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/FR2017/051204 Ceased WO2017198956A1 (fr) | 2016-05-19 | 2017-05-18 | Procede de determination de la presence et quantification d'au moins un micro-organisme dans un echantillon biologique |
Country Status (2)
| Country | Link |
|---|---|
| FR (1) | FR3051482B1 (fr) |
| WO (1) | WO2017198956A1 (fr) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN114420213A (zh) * | 2021-12-31 | 2022-04-29 | 圣湘生物科技股份有限公司 | 一种生物信息分析方法及装置、电子设备及存储介质 |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4599216A (en) * | 1983-11-21 | 1986-07-08 | Board Of Regents For The University Of Oklahoma | Apparatus for exposure to microwaves |
| WO2012101643A1 (fr) * | 2011-01-26 | 2012-08-02 | Ramot At Tel-Aviv University Ltd. | Détection d'infection par un micro-organisme par soustraction et regroupement de séquences de petits arn |
| WO2014019275A1 (fr) | 2012-07-31 | 2014-02-06 | Bgi Shenzhen Co., Limited | Détection non invasive de l'état de santé fœtal |
| WO2015070086A1 (fr) | 2013-11-07 | 2015-05-14 | The Board Of Trustees Of The Leland Stanford Junior University | Utilisation d'acides nucléiques acellulaires pour l'analyse du microbiome chez l'homme et de ses composants |
| CN105132584A (zh) * | 2015-08-03 | 2015-12-09 | 中国人民解放军成都军区总医院 | 用于分型检测水痘带状疱疹病毒的试剂盒及其生产方法与应用 |
-
2016
- 2016-05-19 FR FR1654459A patent/FR3051482B1/fr active Active
-
2017
- 2017-05-18 WO PCT/FR2017/051204 patent/WO2017198956A1/fr not_active Ceased
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4599216A (en) * | 1983-11-21 | 1986-07-08 | Board Of Regents For The University Of Oklahoma | Apparatus for exposure to microwaves |
| WO2012101643A1 (fr) * | 2011-01-26 | 2012-08-02 | Ramot At Tel-Aviv University Ltd. | Détection d'infection par un micro-organisme par soustraction et regroupement de séquences de petits arn |
| WO2014019275A1 (fr) | 2012-07-31 | 2014-02-06 | Bgi Shenzhen Co., Limited | Détection non invasive de l'état de santé fœtal |
| WO2015070086A1 (fr) | 2013-11-07 | 2015-05-14 | The Board Of Trustees Of The Leland Stanford Junior University | Utilisation d'acides nucléiques acellulaires pour l'analyse du microbiome chez l'homme et de ses composants |
| CN105132584A (zh) * | 2015-08-03 | 2015-12-09 | 中国人民解放军成都军区总医院 | 用于分型检测水痘带状疱疹病毒的试剂盒及其生产方法与应用 |
Non-Patent Citations (19)
| Title |
|---|
| ADLER, S.P.: "Screening for Cytomegalovirus during Pregnancy", INFECT. DIS. OBSTET. GYNECOL., 2011 |
| ANKER, P.; MULCAHY, H.; CHEN, X.Q.; STROUN, M.: "Détection of circulating tumour DNA in the blood (plasma/serum) of cancer patients", CANCER METASTASIS REV., vol. 18, 1999, pages 65 - 73 |
| BENOIST, G.; LERUEZ-VILLE, M.; MAGNY, J.F.; JACQUEMARD, F.; SALOMON, L.J.; VILLE, Y.: "Management of pregnancies with confirmed cytomegalovirus fetal infection", FETAL DIAGN. THER., vol. 33, 2013, pages 203 - 214 |
| BLACKADAR, C.B.: "Historical review of the causes of cancer", WORLD J. CLIN. ONCOL., vol. 7, 2016, pages 54 - 86 |
| BOLOVAN-FRITTS, C.A.; MOCARSKI, E.S.; WIEDEMAN, J.A: "Peripheral blood CD14(+) cells from healthy subjects carry a circular conformation of latent cytomegalovirus genome", BLOOD, vol. 93, 1999, pages 394 - 398 |
| CAMARGO M CONSTANZA ET AL: "Validation and calibration of next-generation sequencing to identify Epstein-Barr virus-positive gastric cancer in The Cancer Genome Atlas", GASTRIC CANCER, SPRINGER JAPAN, TOKYO, vol. 19, no. 2, 23 June 2015 (2015-06-23), pages 676 - 681, XP035987818, ISSN: 1436-3291, [retrieved on 20150623], DOI: 10.1007/S10120-015-0508-X * |
| DAIMINGER, A.; BADER, U.; ENDERS, G.: "Pre- and periconceptional primary cytomegalovirus infection: risk of vertical transmission and congenital disease", BJOG INT. J. OBSTET. GYNAECOL., vol. 112, 2005, pages 166 - 172 |
| DE VLAMINCK, I.; MARTIN, L.; KERTESZ, M.; PATEL, K.; KOWARSKY, M.; STREHL, C.; COHEN, G.; LUIKART, H.; NEFF, N.F.; OKAMOTO, J. ET: "Noninvasive monitoring of infection and rejection after lung transplantation", PROC. NATL. ACAD. SCI. U. S. A., vol. 112, 2015, pages 13336 - 13341 |
| DUNN, W.; CHOU, C.; LI, H; HAI, R.; PATTERSON, D.; STOLC, V.; ZHU, H.; LIU, F.: "Functional profiling of a human cytomegalovirus genome", PROC. NATL. ACAD. SCI. U. S. A., vol. 100, 2003, pages 14223 - 14228 |
| FABIAN RIPP ET AL: "All-Food-Seq (AFS): a quantifiable screen for species in biological samples by deep DNA sequencing", BMC GENOMICS, BIOMED CENTRAL LTD, LONDON, UK, vol. 15, no. 1, 31 July 2014 (2014-07-31), pages 639, XP021191569, ISSN: 1471-2164, DOI: 10.1186/1471-2164-15-639 * |
| HANAHAN, D.; WEINBERG, R.A: "Hallmarks of cancer: the next génération", CELL, vol. 144, 2011, pages 646 - 674 |
| JAMES, S.H.; D KIMBERLIN, D.W.: "Advances in the prévention and treatment of congenital cytomegalovirus infection", CURR. OPIN. PEDIATR., vol. 28, 2016, pages 81 - 85 |
| JÉRÔME D. ROBIN ET AL: "Comparison of DNA Quantification Methods for Next Generation Sequencing", SCIENTIFIC REPORTS, vol. 6, 6 April 2016 (2016-04-06), pages 24067, XP055340141, DOI: 10.1038/srep24067 * |
| LANGMEAD, B.; TRAPNELL, C.; POP, M.; SALZBERG, S.L.: "Ultrafast and memory-efficient alignment of short DNA sequences to the human genome", GENOME BIOL., vol. 10, 2009, pages R25 |
| LIESNARD, C.; DONNER, C.; BRANCART, F.; GOSSELIN, F.; DELFORGE, M.L.; RODESCH, F.: "Prenatal diagnosis of congenital cytomegalovirus infection: prospective study of 237 pregnancies at risk", OBSTET. GYNECOL., vol. 95, 2000, pages 881 - 888 |
| PEREIRA, L.; MAIDJI, E.; MCDONAGH, S.; TABATA, T.: "Insights into viral transmission at the uterine-placental interface", TRENDS MICROBIOL., vol. 13, 2005, pages 164 - 174 |
| PETERSON, J.; GARGES, S.; GIOVANNI, M.; MCINNES, P.; WANG, L.; SCHLOSS, J.A.; BONAZZI, V.; MCEWEN, J.E.; WETTERSTRAND, K.A. ET AL.: "The NIH Human Microbiome Project", GENOME RES., vol. 19, 2009, pages 2317 - 2323 |
| RAAB-TRAUB, N.: "Nasopharyngeal Carcinoma: An Evolving Rôle for the Epstein-Barr Virus", CURR. TOP. MICROBIOL. IMMUNOL., vol. 390, 2015, pages 339 - 363 |
| XU, W.; LIU, Z.; BAO, Q.; QIAN, Z.: "Viruses, Other Pathogenic Microorganisms and Esophageal Cancer", GASTROINTEST. TUMORS, vol. 2, 2015, pages 2 - 13 |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN114420213A (zh) * | 2021-12-31 | 2022-04-29 | 圣湘生物科技股份有限公司 | 一种生物信息分析方法及装置、电子设备及存储介质 |
Also Published As
| Publication number | Publication date |
|---|---|
| FR3051482A1 (fr) | 2017-11-24 |
| FR3051482B1 (fr) | 2021-01-29 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Garcia-Flores et al. | Maternal-fetal immune responses in pregnant women infected with SARS-CoV-2 | |
| Sampson et al. | A four-biomarker blood signature discriminates systemic inflammation due to viral infection versus other etiologies | |
| Amer et al. | Isolation and molecular characterization of type I and type II feline coronavirus in Malaysia | |
| Tió-Coma et al. | Blood RNA signature RISK4LEP predicts leprosy years before clinical onset | |
| CN105525033A (zh) | 检测血液中微生物的方法及装置 | |
| CN105829589A (zh) | 用于分析人体微生物组及其组分的无细胞核酸 | |
| FR3099182A1 (fr) | Procédé de détection et de quantification d'une espèce biologique d'intérêt par analyse métagénomique | |
| Burger et al. | Profiling the approach to the investigation of viral infections in cases of sudden unexpected death in infancy in the Western Cape Province, South Africa | |
| CN110272984A (zh) | 测序获取寄生虫核酸信息及对寄生虫分类的方法和系统 | |
| FR3099181A1 (fr) | Procédé de détection et de quantification d'une espèce biologique d'intérêt par analyse métagénomique, avec prise en compte d'un calibrateur. | |
| Tonoyan et al. | Detection of epstein–barr virus in periodontitis: a review of methodological approaches | |
| Fellner et al. | Duplex realtime PCR method for Epstein-Barr virus and human DNA quantification: its application for post-transplant lymphoproliferative disorders detection | |
| WO2017198956A1 (fr) | Procede de determination de la presence et quantification d'au moins un micro-organisme dans un echantillon biologique | |
| IL297921A (en) | Genome sequencing and detection techniques | |
| Juliano et al. | Use of oropharyngeal washes to diagnose and genotype Pneumocystis jirovecii | |
| WO2018192452A1 (fr) | Procédé de détection microbiologique basé sur un acide nucléique d'exosomes et son application | |
| Davidson et al. | Methodological approaches in 16S sequencing of female reproductive tract in fertility patients: a review | |
| CN115995267B (zh) | 一种基于单细胞多组学测序分析t淋巴细胞tcr特点的方法 | |
| EP4001435A1 (fr) | Systèmes et procédés permettant de distinguer des séquences à partir de micro-organismes | |
| CN116153408A (zh) | 一种基于单细胞多组学测序分析b淋巴细胞bcr特点的方法 | |
| Correia‐Silva et al. | HCMV gB genotype and its association with cytokine levels in hematopoietic stem cell transplantation | |
| RU2852957C1 (ru) | Методики секвенирования и обнаружения генома | |
| WO2023002120A1 (fr) | Utilisation du virus torque teno (ttv) en tant que marqueurs pour determiner le risque de complication chez un patient admis au sein d'un etablissement de sante | |
| Suhren et al. | No Histopathological Evidence of Inflammation Despite Molecular Detection of Schistosoma spp. and Sexually Transmitted Pathogens in Placental Parenchyma Specimens with Limited Membrane Sampling from West African Women with Uncomplicated Pregnancies | |
| Tio-Coma et al. | F. an den, Mei, HL, Ro |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| NENP | Non-entry into the national phase |
Ref country code: DE |
|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 17729909 Country of ref document: EP Kind code of ref document: A1 |
|
| 122 | Ep: pct application non-entry in european phase |
Ref document number: 17729909 Country of ref document: EP Kind code of ref document: A1 |