WO2025022019A1 - Method for the predictive diagnosis of a pathological condition or a pathological state - Google Patents
Method for the predictive diagnosis of a pathological condition or a pathological state Download PDFInfo
- Publication number
- WO2025022019A1 WO2025022019A1 PCT/EP2024/071489 EP2024071489W WO2025022019A1 WO 2025022019 A1 WO2025022019 A1 WO 2025022019A1 EP 2024071489 W EP2024071489 W EP 2024071489W WO 2025022019 A1 WO2025022019 A1 WO 2025022019A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- training
- microorganisms
- subject
- data
- diagnosis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6888—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
- C12Q1/689—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms for bacteria
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/158—Expression markers
Definitions
- the present application relates to a method, in particular in vitro, for diagnosing or predictively diagnosing a pathology or a pathological condition from a biological sample taken from a subject.
- the invention relates to a method, in particular in vitro, for predictively diagnosing a pathology of the digestive system or an extra-digestive pathology of a subject from the analysis of the microbiota present in a biological sample taken from the digestive system, and/or outside the digestive system such as the vagina and/or in the stools of a subject.
- the invention relates to a method for diagnosing necrotizing ulcerative enterocolitis (NUE) in premature newborns from a biological sample taken from their stools.
- NUE necrotizing ulcerative enterocolitis
- the subject of the present invention is the predictive diagnosis of premature delivery from a biological sample taken from the vagina of a pregnant woman. The present method is therefore in the field of diagnosis, predictive diagnosis, particularly in vitro, and personalized medicine.
- preterm birth is a major cause of morbidity and mortality in newborns.
- a proportion of spontaneous preterm births appear to result from an inflammatory reaction following an infection of the genital tract.
- a large proportion of preterm births remain without an identified cause, without clinical signs.
- clinicians currently have no reliable tool to predict the risk of preterm birth.
- Patent EP 3161167 describes a method for assessing a risk of premature delivery based on the detection, in a vaginal or cervical sample obtained by swabbing from a pregnant woman, of the quantity of the following bacteria: Vimonas micra, Ureaplasma urealyticum or Ureaplasma parvum, Atopobium vaginae, Peptoniphilus lacrimalis, Megasphaera cerevisiae and Parvibacter caecicola, compared to a reference level.
- the quantification of the bacteria is carried out by amplification of a small region of ribosomal DNA (16S rDNA) by quantitative polymerase chain reaction (qPCR).
- Patent EP 2 972 308 B9 describes a serum or plasma peptide biomarker, produced by human cells, and not by the microbiota, the detection of which is used in a method for assessing a risk of premature birth.
- International application WO 2020/227053 describes a method for determining the risk of premature birth comprising determining the abundance of Saccharibacteria TM7-H1 and optionally BVAB1, Sneathia amnii and Prevotella in a vaginal sample from a pregnant woman, from the nucleotide sequence of a small portion of the 16S rDNA of the microorganisms.
- rRNA ribosomal RNA
- 16S rDNA for prokaryotic microorganisms, such as bacteria and archaea
- 18S rDNA for eukaryotes, including yeasts
- the method involves the simultaneous quantification by qPCR amplification of specific small fragments of DNA from each of the following 10 microorganisms: Lactobacillus crispatus, Lactobacillus iners, Weissella koreensis, Bacteroides fragilis, Prevotella bivia, Prevotella amnii, Prevotella salivae, Ureaplasma urealyticum, Ureaplasma parvum, Gardnerella vaginalis.
- necrotizing enterocolitis is the most common life-threatening gastrointestinal emergency encountered by preterm infants in neonatal intensive care units. It is defined as ulcerative inflammation of the intestinal wall.
- Current clinical practice for diagnosing NEC is based on clinical, radiological and haematological findings constituting the Bell criteria, according to a recent review (D'Angelo et al., 2018).
- the clinical signs of early NEC are often very subtle and may initially manifest as feeding intolerance and nonspecific symptoms (malaise, bradycardia) before gastrointestinal symptoms become evident.
- T1D type I diabetes
- T1D affects children and young adults. In the short term, it is responsible for a significant deterioration in quality of life since affected subjects must constantly adapt their insulin intake (subcutaneously) to blood sugar, food intake and energy expenditure. In the medium and long term, chronic hyperglycemia leads to multi-organ alterations, particularly nervous and vascular.
- T1D has been increasing continuously since at least 1988. In France, it is 18 per 100,000 in those under 15 years of age, over the period 2013-2015, i.e. a prevalence of around 1.3 per 1,000.
- the incidence of diabetes in young people is increasing by 3 to 4% per year, at the same time as the age of onset is decreasing (Gale E 2002).
- Immune activation is multifactorial and depends partly on the HLA system and postnatal infectious events. There is thus a familial aggregation of cases, an association with other autoimmune diseases, and a possible link with certain viral agents, notably group B coxsackieviruses.
- a first method called "metabarcoding” makes it possible to determine the taxa present in a sample thanks to their genetic signature, unique for each taxa.
- the idea is to have a DNA fragment present in all the taxa to be analyzed and which constitutes a genetic marker.
- This marker is a DNA fragment framed by highly conserved regions and therefore the most “universal” possible, and which, once sequenced, shows variations in genetic sequences between different taxa.
- this method often includes the amplification of fragments of a size between 300 and 470 base pairs of the V3 and/or V4 regions of the gene expressing the 16S rRNA.
- biases are likely to be generated during the amplification step carried out by PCR and can alter the vision of the real diversity of the microbiota. Indeed, it is known that the primers used that cannot be "universal" to amplify nucleotide sequences will favor the amplification of the sequences of certain microorganisms to the detriment of others, resulting in a possibly erroneous abundance of microorganisms or even the non-detection of certain microorganisms. In addition, the short length of the sequenced DNA fragments provides only a low taxonomic resolution, not allowing the description of microbial communities at the species level.
- This method advantageously comprises the use of all the microorganisms identified in the microbiota of a subject by an artificial intelligence model to establish a diagnosis or a predictive diagnosis of a pathology or pathological condition.
- the present invention thus has as its first subject a method, in particular in vitro, for diagnosis or predictive diagnosis of a pathology or pathological condition in a subject, from at least one biological sample taken from the subject and containing microorganisms, said method comprising the following steps: a) sequencing, from the nucleic acid isolated from the subject's sample, the nucleotide sequences corresponding to at least one sequence of interest selected from the group consisting of: a fragment of a gene expressing 16S ribosomal RNA (rRNA), a fragment of a gene expressing 18S rRNA, a fragment of 16S rRNA, a fragment of 18S rRNA, b) from the sequencing of step a), determination of the identity and relative abundance of the microorganisms present in said sample without any preselection, c) determination of the predictive diagnosis of said pathology or pathological condition by a model artificial intelligence model from at least the abundances of the identities obtained in step b), said artificial intelligence model having previously been trained on the basis of a
- the phenotype label assigned to each training subject depends on the purpose of the method according to the invention and the type of data used for training.
- the labeled data set includes at least two different states for the phenotypes and in particular antinomic states: a positive phenotype associated with a diagnosis/diagnosis positive predictive and a negative phenotype associated with a diagnosis/negative predictive diagnosis.
- the training subject phenotype can be classified as "not affected” or "affected” by the pathology or pathological condition or "healthy” and “sick", these types of classification being synonymous.
- the training subject phenotype can be classified as "having developed” or “not having developed” the pathology or pathological condition or "with appearance” or “without appearance” of the pathology or pathological condition, these types of classification being synonymous.
- the invention has the advantage of training the artificial intelligence model more efficiently by using the identity of all the microorganisms identified in the labeled data set.
- the absence of a step of pre-selection of the identity of microorganisms in the labeled data set for training the artificial intelligence model makes it possible to preserve all the diversity and individual variability of the microbiotas and all the associated microbial interactions in the context of a specific pathology or pathological state.
- the method according to the invention has the advantage of restricting to a minimum (or even of not applying any restriction) the exclusion of the identities of the microorganisms from the data from step b) transmitted to the artificial intelligence model during step c), making it possible to preserve as much as possible the microbial diversity present in the subject's sample.
- the selection of the identities sent to the artificial intelligence model is in no way done on the basis of a relative abundance that is too low in the subject's sample or their absence of known involvement in the pathology or pathological condition, but only on the basis of their presence in the training data set.
- the data set is sufficiently large and exhaustive, no identity of microorganisms is excluded from the data transmitted to the artificial intelligence model to carry out step c).
- microbiota analysis techniques exist, they do not allow for a precise characterization between microbiotas and pathologies, the risk of developing said pathologies, or the evolution of the latter. Thus, the most likely result would have been to obtain a large number of false positive or false negative diagnoses.
- the method of the invention takes into account as the identity of each microorganism the classification by taxonomic rank, this rank preferably being the species of the microorganism. No preselection is carried out during the identification, in particular on the basis of their relative abundance and/or their known involvement in the diagnosis or predictive diagnosis.
- the microorganisms of the labeled data set as well as those of step b) are identified at the level of the same taxonomic rank.
- This rank is notably chosen from the phylum to the species, and is preferably the species.
- the identity of each microorganism corresponds to the most confident taxonomic rank, which can be a species, a genus, a family, an order, a class or a phylum.
- the identities of the microorganisms will not all have the same rank. This aspect advantageously allows to preserve the maximum exhaustiveness of the labeled dataset when training the intelligence model.
- “Most confident taxonomic rank” means the most precise taxonomic rank obtainable from the nucleotide sequence or set of nucleotide sequences used to identify a microorganism. Obtaining the most confident rank depends on several factors, described in detail below.
- the diversity of microbiotas given to the artificial intelligence model during its training can be ensured by using data from training subjects of multinational origins, in particular multi-continental, in particular from all continents.
- the training subjects are divided into different groups of geographical origin.
- the distribution of subjects in the different groups is as representative as possible of geographical diversity.
- the labeled data set comprises at least one determined clinical data item, where each training subject profile comprises a value for the or each determined clinical data item, and where step c) comprises providing the artificial intelligence model with the corresponding value of the subject for the or each determined clinical data item.
- the method according to the invention thus has the advantage, from a simple sample of vaginal microbiota during pregnancy, in the 1st trimester and/or in the 2nd trimester and/or 3rd trimester, and its sequencing, of predicting with high certainty the occurrence of a premature birth or a full-term birth.
- the method of the invention allows the predictive diagnosis of the occurrence of premature birth, the accuracy of which can reach 88%. Such a degree of reliability is unmatched among the methods for diagnosing premature birth to date.
- the method according to the invention also has the advantage, from a simple sample of microbiota in the stools of a subject, and its sequencing, of determining with high certainty the development of a disease of the digestive system or an extra-digestive disease.
- This approach can advantageously be used in the context of personalized medicine to evaluate the relevance of more precise clinical monitoring and/or the use of therapeutic treatment.
- the method of the invention allows a reliable prediction of ulcerative necrotizing enterocolitis with an accuracy of up to 94.9%. Such a degree of reliability is very useful for identifying premature newborns at risk, strengthening monitoring and allowing rapid therapeutic responses avoiding possible serious health problems. To this end, the method of the invention allows early and very effective diagnosis of ECUN and equally effective distinction of unaffected infants.
- the method is intended for the predictive diagnosis of type I diabetes in a child.
- the method according to the invention in a similar manner, also makes it possible to reliably predict the occurrence of type I diabetes (T1D), with an accuracy of up to 73.6% in particular.
- T1D type I diabetes
- the method of the invention thus makes it possible to identify early on children at high risk of developing autoimmunity and then diabetes, which would allow a therapeutic revolution towards personalized preventive medicine to avoid the disabling consequences of the pathology.
- the method aims at a predictive diagnosis of neonatal sepsis in an infant.
- the method according to the invention also makes it possible to reliably predict the occurrence of sepsis, with an accuracy of up to 92.3%.
- the method of the invention thus makes it possible to identify premature newborns at risk, to strengthen monitoring and to adapt treatment to the profile of these bacteria involved in the pathology.
- the invention also relates to a method for training an artificial intelligence model intended to obtain a diagnosis or a predictive diagnosis, said method using a labeled data set comprising profiles of training subjects, where each training subject profile comprises the identity and relative abundance of all the microorganisms identified in at least one sample of said training subject without any preselection, and where each profile is labeled with the phenotype of the training subject from which it originates.
- the training method according to the invention makes it possible to obtain a more reliable and more precise artificial intelligence model in these predictions, for the aforementioned reasons.
- the data obtained using the training process therefore also make it possible to have a precise mapping of the microorganisms associated with the presence of a state which could lead to a pathology or a pathological state, and of the microorganisms associated with the absence of a state leading to a pathology or a pathological state, on the other hand.
- the method according to the invention also has the advantage of not increasing the number of obstetric examinations on pregnant women carried out during pregnancy, since the vaginal sample can be recovered during an examination already scheduled.
- the method according to the invention advantageously makes it possible to carry out early therapeutic interventions in order to prevent the development or the worst complications of an extra-digestive pathology based on the analysis of the intestinal or fecal microbiome of a subject.
- the present invention also relates to a computer program product comprising executable instructions, which when executed on a computer allow the implementation of step c) of determining the diagnosis/predictive diagnosis of the method according to the invention.
- the characteristics previously and subsequently described in relation to the artificial intelligence model apply mutatis mutandis to the present subject.
- the computer program product comprises instructions enabling the predictive diagnosis of premature delivery in a subject.
- the computer program product comprises instructions enabling the predictive diagnosis of ECUN in a subject.
- the computer program product comprises instructions enabling the predictive diagnosis of type I diabetes in a subject.
- the computer program product comprises instructions enabling the predictive diagnosis of sepsis in a subject.
- the invention also relates to the use of a computer program product according to the invention for the diagnosis/predictive diagnosis of a pathology or a pathological condition.
- the characteristics previously and subsequently described in relation to the diagnostic/predictive diagnosis method according to the invention apply mutatis mutandis to the present subject.
- the invention finally relates to the management or treatment of a subject whose diagnosis or positive diagnosis of a pathology or pathological condition has been determined as positive using the diagnostic/predictive diagnostic method of the invention.
- Said treatment may be a curative treatment or a prophylactic treatment depending on the situation.
- the management may be enhanced clinical monitoring, particularly in the context of the predictive diagnosis of premature birth.
- the present invention thus has as its first object a method, in particular in vitro, for diagnosis or predictive diagnosis of a pathology or a pathological state in a subject, from at least one biological sample taken from the subject and containing microorganisms.
- diagnosis is meant in the invention the determination of the presence or absence of a pathology or pathological condition in a subject.
- a positive diagnosis is understood in the invention as corresponding to the determination of the presence of the pathology or pathological condition in the subject.
- a negative diagnosis is understood as corresponding to the determination of the absence of the pathology or pathological condition in the subject.
- predictive diagnosis is meant in the invention the determination of the risk of developing/occurring/appearing a pathology or the occurrence of a pathological condition in a subject not presenting any symptoms.
- the positive predictive diagnosis is understood in the present invention as a high risk of appearing the pathology or the pathological condition.
- a negative predictive diagnosis is understood in the present invention as a low risk of appearing the pathology or the pathological condition.
- a positive diagnosis/predictive diagnosis may be considered determined when the associated certainty is greater than 50%, preferably a certainty greater than or equal to 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% or equal to 100%.
- a negative diagnosis/predictive diagnosis may be considered determined when the associated certainty is greater than 50%, preferably a certainty greater than or equal to 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% or equal to 100%.
- “Pathology” means a disease, a biological imbalance or discomfort.
- the pathology corresponds in particular to a digestive pathology, an extra-digestive pathology or a pathology of the newborn, in particular enterocolitis of the type, more particularly ulcerative necrotizing enterocolitis (ECIIN).
- Enterocolitis of the type, more particularly ulcerative necrotizing enterocolitis (ECIIN).
- Ulcerative necrotizing enterocolitis means a disease characterized by inflammation and necrosis of the intestinal mucosa. Even more particularly, among said digestive pathologies, we can cite: digestive cancers, that is to say affecting at least one of the organs of the digestive system, chronic inflammatory diseases, such as in particular Crohn’s disease, ulcerative colitis, irritable bowel syndrome and celiac disease.
- the pathology is advantageously either a pathology of the organ from which the biological sample is taken, or a pathology of another organ in the environment from which the sample is taken.
- Extra-digestive pathology means a condition or pathology that does not directly affect an organ of the digestive system but one of the consequences of which is likely to directly or indirectly affect the microbiota of the digestive system and vice versa.
- extra-digestive or non-digestive conditions and pathologies for which a predictive diagnosis can be carried out by a method according to the invention we can cite: diabetes, sepsis, obesity, cardiovascular diseases, metabolic diseases, liver diseases, kidney diseases, urogenital diseases, pulmonary diseases, joint diseases, muscle diseases, inflammatory diseases, asthma, allergies, arthritis, neurodegenerative diseases (Parkinson's, Alzheimer's, etc.), psychiatric diseases, behavioral diseases, all types of cancer for all types of organs.
- pathological condition means a state of alteration of the functions, morphology or health of an organ or organism, the cause of which is known or unknown, and which is characterized by the presence or absence of one or more signs.
- a pathological condition includes, in particular, premature delivery.
- condition or pathology of the digestive system is meant a condition or pathology affecting at least one organ selected from: the mouth, the salivary glands, the pharynx, the esophagus, the stomach, the pancreas, the liver, the gallbladder, the bile duct, the small intestine and the large intestine.
- the large intestine includes the ascending colon, the transverse colon, the sigmoid colon and the rectum.
- said pathology is an intestinal pathology.
- Premature delivery means delivery occurring before the start of the 37th week of amenorrhea.
- said pathology is a digestive pathology of a subject chosen from: children, infants (children beyond their first month of life and up to the age of 24 or 30 months) and newborns (children under 28 days according to the definition of the World Health Organization), said newborns being born at term, i.e. between the 37th week and the end of the 40th week of amenorrhea, or premature, i.e. born before the 37th week of amenorrhea.
- the term “subject” means an animal or a human being, the animal being in particular a mammal.
- the stage of development of the subject is chosen from: adult (from 18 years), adolescent (12 - 17 years), child (2 - 11 years), infant (28 days - 23 months), newborn (0 - 27 days) and premature newborn ( ⁇ 37 weeks of amenorrhea).
- the subject is a pregnant woman, a newborn, an infant or a human child.
- biological sample means any sample from the subject containing microorganisms.
- said biological sample is chosen from: a sample from the digestive system, a sample of excretions, in particular a sample of stool from the subject, a vaginal sample, a cervical sample, a skin sample, and any other biological sample containing microorganisms.
- sample collection is carried out in particular in a conventional and well-known manner by a specialist.
- a given biological sample comprises a community of microorganisms designated by the term “microbiota”.
- the sample may correspond to the grouping of several samples taken from various areas of a sampling region in the subject, in order to attempt to obtain the maximum diversity of microorganisms.
- “Microorganism” means any unicellular or multicellular microorganism such as, but not limited to, bacteria, archaea, viruses, unicellular eukaryotes such as yeasts, etc.
- microbiota hosted by a human subject we can distinguish the skin microbiota, the mucosal microbiota, the pulmonary microbiota, the oral microbiota, the vaginal microbiota, the urinary microbiota, and the microbiotas of the digestive system (oral or salivary microbiota, stomach microbiota, small intestine microbiota, colonic microbiota, anal microbiota).
- the microbiota present in the stools, or fecal microbiota corresponds to all the microorganisms found in the stools following transit through the digestive system of a subject, which may reflect the intestinal microbiota in the broad sense with a closer proximity to the colonic microbiota.
- microbiome refers to all the genomes carrying the genes hosted by the microorganisms constituting the microbiota.
- the microbiome can also be considered as the set of microorganisms including their genomes in a particular biological environment such as the colon.
- “Digestive system” means the set of organs of multicellular animals that receives food, digests it to extract nutrients, and excretes waste in the form of fecal matter.
- the organs of the human digestive system include: the mouth, salivary glands, pharynx, esophagus, stomach, pancreas, liver, gallbladder, bile duct, small intestine, and large intestine.
- the large intestine includes the ascending colon, transverse colon, sigmoid colon, and rectum.
- “Excretion” means unusable or toxic waste that is excreted by the subject such as urine, feces, or stool, or secretion products such as bile or saliva.
- Step a) corresponds to the sequencing of the nucleic acid of the microorganisms present in the biological sample(s), said nucleic acid having been previously isolated from the sample.
- nucleic acid means all nucleic acid molecules present in the biological sample, in particular deoxyribonucleic acid (DNA) and ribonucleic acid (RNA), including respectively the genes expressing 16S ribosomal RNA (rRNA) and/or those expressing 18S rRNA, in particular rRNA and even more particularly 16S rRNA and 18S rRNA.
- rRNA ribosomal RNA
- 18S rRNA in particular rRNA and even more particularly 16S rRNA and 18S rRNA.
- 16S rRNA-expressing gene means the DNA nucleotide sequence comprising the nucleotide sequence encoding the 16S rRNA.
- a gene expressing a 16S rRNA is also referred to as "16S rDNA”.
- a “gene expressing 18S rRNA” means the DNA nucleotide sequence comprising the DNA nucleotide sequence encoding 18S rRNA.
- a gene expressing 18S rRNA is also referred to as “18S rDNA”.
- any commercial nucleic acid extraction kit can be used. It should be noted that the yield (quantity of nucleic acids) of the kits as well as the quality of the nucleic acids can vary depending on the type of sample. It is generally necessary to compare the efficiency of the kits to select the most efficient one.
- the extraction can be carried out manually or using an automaton.
- extraction processes for which the reagents are produced directly in the laboratory.
- extraction protocol standards aimed at homogenizing nucleic acid extraction procedures worldwide. In particular, in the context of ECUN, the H protocol published by the IHMS (International Human Microbiome Standards) can be used for DNA extraction from newborn stools: (see IHMS (human-microbiome.org)).
- the method comprises the isolation of the nucleic acid from a plurality of microorganisms present in said biological sample, in particular from all of the microorganisms.
- the isolated nucleic acid is then sequenced in order to obtain the nucleotide sequences corresponding to at least one sequence of interest chosen from the group consisting of: a fragment of a gene expressing 16S rRNA, a fragment of a gene expressing 18S rRNA, a fragment of 16S rRNA and a fragment of 18S rRNA (hereinafter referred to as "sequences of interest").
- sequences of interest a fragment of a gene expressing 16S rRNA, a fragment of a gene expressing 18S rRNA, a fragment of 16S rRNA and a fragment of 18S rRNA.
- the aim of the sequencing step is to recover all of the sequences corresponding to at least one sequence of interest.
- set of sequences means the set of sequences that the sequencing method can obtain. The key point here is that there is no discrimination of certain sequences of interest among those found in the sample, no preselection is carried out.
- the analysis uses the entire sequencing data.
- nucleotide sequences corresponding to at least one sequence of interest chosen from the group consisting of: a fragment of a gene expressing 16S rRNA and a fragment of a gene expressing 18S rRNA are obtained.
- “Sequencing” means any known method for determining the nucleotide sequence of a nucleic acid. Among these methods, direct metagenomic sequencing known as “shotgun” is preferred, and is notably described in the document Quince C, et al. Shotgun metagenomics, from sampling to analysis. Nat Biotechnol. 2017 Sep 12;35(9):833-844.
- this type of sequencing involves the fragmentation of the isolated nucleic acid into fragments whose size varies depending on the sequencing platform used (typically from 200 to 550 bp on average for the Illumina® platform and from a few dozen bases to > 100,000 bp for the Nanopore® platform), which are subsequently linked to adapters (here also specific to the platform used) for the preparation of the sequencing library.
- the libraries obtained are then sequenced using a high-throughput sequencing platform (typically Illumina® or Nanopore®).
- the sequences obtained are then filtered to remove poor quality sequences and sequences corresponding to the subject's genome, according to well-established principles in the technical field.
- the filtered sequences are then organized for identification, as seen in detail below.
- Illumina® sequencing data from gene capture approaches by hybridization is also preferred and notably described in the document Comtet-Marre, Sophie & Chakoory, Oshma & Peyret, Pierre, (2022), Targeted 16S rRNA Gene Capture by Hybridization and Bioinformatic Analysis. Briefly, the isolated nucleic acid is fragmented and linked to sequencing adapters in a manner similar to the "shotgun" method. In parallel, oligonucleotide probes, in particular biotinylated, complementary to the sequences of interest are synthesized and then hybridized with the sequencing libraries.
- the complexes formed are captured, in particular using magnetic beads coated with streptavidin, and amplified by PCR using primers complementary to the adapters.
- the captured and amplified fragments are sequenced with a high-throughput sequencing platform, then filtered, as previously described.
- the filtered sequences are then organized.
- said method comprises a preliminary step of specific isolation of the nucleic acid from a plurality of microorganisms present in said biological sample.
- Sequencing can also be of the "amplicon sequencing" or "metabarcoding" type, notably described in the document Durazzi, F., Sala, C., Castellani, G. et al.
- a “fragment” of a nucleotide sequence means a fragment of at least 20% of the length of that sequence.
- a “fragment of at least 20%” means a fragment of at least 20%, at least 25%, at least 30%, at least 35%, at least 40%, at least 45%, at least 50%, at least 55%, at least 60%, at least 65%, at least 70%, at least 75%, at least 80%, at least 85%, at least 90%, at least 95%, at least 97%, at least 98%, at least 99% or 100% of the nucleotide sequence in question.
- the sequenced 16S rDNA and/or 16S rRNA fragment of microorganisms belongs in particular to prokaryotes. Additionally, the 18S rDNA and/or 18S rRNA fragment also belongs to eukaryotes and micro-eukaryotes.
- step b) The purpose of step b) is to identify all the microorganisms present in the sample from the sequencing of step a) as well as their relative abundance, and to provide relevant input data to the artificial intelligence model for determining the diagnosis.
- “set of microorganisms” means all the microorganisms identifiable according to the sequencing method used. Identifying all the microorganisms present in the sample and providing this set (without the identities absent from the training set) to the artificial intelligence model makes it possible to preserve the maximum individual variability of the subject as well as the associated microbial interactions in the context of a specific pathology or pathological condition and to ensure a personalized diagnosis/predictive diagnosis.
- the method comprises organizing the sequenced sequences to reconstruct the nucleotide sequence of at least one part of a gene expressing 16S rRNA and/or of a gene expressing 18S rRNA.
- step b) comprises in particular firstly a step of organizing the sequences obtained in step a) by aligning them with known sequences of microorganisms present in a database.
- Said known sequences comprise at least said sequence of interest selected for the greatest number of known microorganisms, in order to determine direct correspondences or to reconstruct sequences of new microorganisms and/or to obtain longer sequences in order to increase the reliability of the identity of the microorganisms present in the biological sample of the subject.
- the organization is done in particular by direct correspondence.
- the organization can be done by direct correspondence and/or reconstruction.
- the determined set of microorganisms is in particular selected from those available in online databases, in particular public ones.
- the SILVA database https://arb-silva.de.
- Another example of databases is the “Greengenes” database (https://greengenes.secondgenome.com/). The person skilled in the art can thus easily determine whether a given nucleotide sequence comes from a known or unknown microorganism, or from a human or animal subject.
- the method according to the invention comprises a step of reconstructing at least part of the sequence of the gene expressing the 16S rRNA and/or the sequence of the gene expressing the 18S rRNA of the microorganisms present in the biological sample.
- the reconstructable length depends on the sequenced length of the fragment of the sequence of interest and the sequencing effort, i.e. the number of readings generated during sequencing (sequencing depth).
- At least 70% of the length of the gene expressing the 16S rRNA and/or at least 70% of the length of the 16S rRNA is reconstructed.
- An increase in the size of the reconstructed part allows for greater precision in determining the identity of the microorganism, making it possible to go as far as the taxonomic rank of the species.
- the length of a 16S rDNA gene being approximately 1500 base pairs on average, a nucleotide sequence of at least 70% of the length of the gene comprises approximately 1050 base pairs, on average.
- the invention uses all of the metagenomic data of the microbiota which then allow the reconstruction of complete sequences of interest and a precise affiliation of the microorganisms of the microbial community at the genus or species level, or even the identification of new microorganisms.
- the organization step is notably followed by a classification step by taxonomic ranks of the correspondences and/or reconstructions making it possible to determine the identity of the microorganisms present in the subject's biological sample.
- identity determination we mean the identification of microorganisms, following a nomenclature, organized into hierarchical categories (classification by taxonomic ranks), in other words in taxonomic ranks, these categories consist of belonging to the domain of life (least precise rank) to the definition of the species (most precise rank).
- the taxonomic ranks of interest extend from the phylum to the species.
- the taxonomic classification is carried out by comparing each reconstructed sequence of interest or whose correspondence is attributed with 16S rDNA sequences and/or 18S rDNA sequences contained in databases.
- SILVA database Among the public databases that can be used, we can notably cite again the SILVA database.
- the most confident taxonomic rank that can be identified depends on several parameters including the type of sequencing, the sequencing parameters, the determined set of microorganisms used for the alignment (see below), etc.
- the invention thus has the advantage of taking into account each determined identification. There is thus no preselection carried out, making it possible to preserve all the diversity of the subject's sample. This exhaustiveness contributes to obtaining a diagnosis/predictive diagnosis of higher quality than with the methods of the prior art.
- the same taxonomic rank among the taxonomic ranks of interest is preserved for all the sequences.
- the most precise taxonomic rank among the taxonomic ranks of interest for each sequence is determined. This second aspect allows better identification of the microbial diversity of the sample, and ensures a more reliable diagnosis.
- [112]By “determination of the relative abundance” is meant the determination for each of the microorganisms considered for the method according to the invention, of the abundance of the microorganism relative to the total abundance of the microorganisms considered for the method according to the invention. The determination of the abundance depends on the sequencing method used, and is well known to those skilled in the art.
- an artificial intelligence model previously trained on the basis of a labeled data set determines the diagnosis/predictive diagnosis on the basis of the data obtained in step b).
- the artificial intelligence model can also take as input at least one clinical data of the subject, as will be seen in detail later.
- the artificial intelligence model thus presents an internal structure reflecting the relationship between on the one hand (1) the relative abundance of microorganisms within the sample, as well as optionally at least one clinical data of the subject, and on the other hand (2) the diagnosis/predictive diagnosis of the pathology or pathological state.
- the artificial intelligence model is a supervised learning model and corresponds in particular to a classification model, a deep learning model, a neural network (NN), a deep neural network, a decision tree, a K-nearest neighbors model (KNN), a random forest (RF), a naive Bayesian classification (NB), an “Extreme gradient boosting” algorithm (XGBoost), a logistic regression or a support vector machine (SVM).
- the artificial intelligence model is a deep neural network with an input layer composed of neurons equivalent to the number of features in the training data, followed by one or more hidden layers and an output layer which gives the result of the diagnosis/predictive diagnosis.
- the invention thus also relates to a method for training an artificial intelligence model intended to obtain a diagnosis or a predictive diagnosis, said method using a labeled data set.
- the labeled data set or training set comprises profiles of training subjects.
- the training subjects belong to the same species as the subject whose sample(s) are analyzed in the method of the invention.
- the training subjects advantageously come from various nations, and in particular from various continents. Parity between the sex types of the subjects in the training set is also advantageous, depending of course on the pathology or of the pathological state considered.
- the principle of the invention is to preserve all the diversity of the microbiota of each of the training subjects, so that the artificial intelligence model can determine all the possible relationships, independently of any bias introduced by the knowledge at a given time.
- the results obtained following the training give an excellent accuracy of prediction of diagnosis/predictive diagnosis of the physiological or pathological state for which the artificial intelligence model was trained.
- the inventors were thus able to show that microorganisms with a very low relative abundance, generally excluded from the training for this reason, proved to be very relevant for determining the predictive diagnosis of pathologies and pathological states. What could previously be considered noise is demonstrated here as a discriminating point.
- the training subjects may in particular be specifically recruited for this purpose, or may come from one or more databases, in particular public ones, and more particularly from the most exhaustive and diversified subject cohort databases available. These databases include in particular raw sequencing data from one or more samples from each subject, and optionally at least one clinical data from each subject.
- the training subjects are notably divided into two groups, namely a training group and a test group.
- the training group is used to train the artificial intelligence model, and the test group is used to qualify its performance.
- the training group represents 80% of all training subjects, and the test group 20%.
- the training subject profiles each comprise the identity and relative abundance of the identified microorganisms present in at least one sample of the training subject, as well as optionally at least one clinical data of the training subject.
- the relative abundances are notably obtained by implementing steps a) and b) described above on samples of subjects, or the single step b) on sequencing data of samples of subjects.
- the identities of the microorganisms can be restricted for training to the same given taxonomic rank so that all of the microorganisms are identified at the level of the same rank, starting from the phylum and up to the species.
- no preselection is carried out on the identified microorganisms, notably on the basis of their relative abundance and/or their known involvement in the diagnosis or the predictive diagnosis. According to one embodiment preferred, no restriction on taxonomic rank is made, and the most confident taxonomic rank is retained for all identities.
- the sample(s) of each training subject are in particular taken during the same trimester, and typically during the 1st , 2nd or 3rd trimester, or even the same month.
- [123]Learning supervision is achieved by labeling the profiles of training subjects with their phenotype.
- the subjects are classified into at least two phenotypes, and preferably into two opposing phenotypes.
- the phenotypes of the subjects are notably affected/not affected by the pathology/pathological state.
- Concerning the predictive diagnosis the phenotypes of the subjects are notably with appearance/without appearance of the pathology or pathological state.
- the training set includes a balanced number of each phenotype, or a greater proportion of positive phenotype.
- the data of the training subjects are notably normalized.
- This normalization is in particular of the min-max type on the entire training set.
- This type of normalization corresponds to a linear transformation of the features in a uniform range, while preserving all the distance ratios of the original data. This is done to prevent the numerical values of the larger features (abundances of microorganisms) from surpassing those of the smaller numerical features, thus minimizing the bias in the discrimination of pathological states.
- the main objective is to ensure the comparability of the data across microbial samples or groups of samples, such as those classified as diseased or healthy. Indeed, the large variability of the sizes of the databases and the sequencing depth induces strong dependencies among the abundances of the different taxa.
- data normalization ensures that all features (taxa) in the data contribute equally to the learning process, although not all features are equally important for the classification decision.
- At least one clinical datum is used in the input data in addition to the data relating to microorganisms, it is of course relevant to the pathology or pathological condition for which the diagnosis/predictive diagnosis is carried out.
- at least one clinical datum is meant one, two, three, four, five, six, seven, eight, nine, ten or more than ten clinical data characteristic of the subject.
- the clinical data may belong to the subject himself or to his mother.
- it may be used in particular: at least one of the following data:
- ethnicity is meant a group of people who are brought together by a certain number of characteristics.
- the characteristic “ethnicity” is notably chosen from the group consisting of: “African-American”, “American-Indian”, “Black”, “White”, “Caucasian”, “Hispanic”, “Asian”, “Multi-ethnicity”.
- categorical data such as gender and mode of birth in the case of newborns
- categorical variable which is converted to 1.
- Continuous data actual age, birth weight and gestational age in the case of newborns
- bins contiguous intervals
- the clinical data "day of life” is discretized into intervals with an increasing step of 9 (from 0 to 99 days) and 99 (100 to 499 days).
- a time step of 1 could also be considered over the first 3 weeks of life when the pathology most frequently appears.
- the clinical data "weight" is discretized into intervals with an increasing step of 99 (from 500 to 2899 grams).
- the weight of the children can also be followed if necessary by interval of 9 throughout the first 3 weeks of life until the possible appearance of the pathology.
- Gestational age at birth can be converted into factors due to the limited number of values.
- the duration of gestation may in particular be expressed in number of weeks of gestation or designated by the period at which the biological sample is taken.
- This period is notably chosen from: the first trimester of pregnancy, the second trimester of pregnancy, the third trimester of pregnancy.
- the age of the pregnant woman in a method according to the invention, can be defined in number of years or by her belonging to an age group. More particularly, the age of the pregnant woman can be attributed to one of the following two groups: “less than 35 years” and “equal to or greater than 35 years”.
- the artificial intelligence model comprises at least 500 microorganism identity abundance entries, in particular at least 600 entries, in particular at least 700 entries, in particular at least 1000 entries, particularly at least 1300 entries.
- the artificial intelligence model comprises at least 10 determined clinical data inputs, in particular at least 20, particularly at least 30, in particular at least 40.
- the artificial intelligence model comprises at least 600 entries of abundance of identities of microorganisms and optionally at least 10, in particular at least 15, entries of determined clinical data.
- the artificial intelligence model comprises at least 1000, in particular at least 1300, entries of abundance of identities of microorganisms and optionally at least 40, in particular at least 45, entries of determined clinical data.
- the artificial intelligence model comprises at least 1000, in particular at least 1300, entries of abundance of identities of microorganisms and optionally at least 40 entries of determined clinical data.
- the artificial intelligence model comprises at least 600, in particular at least 1300, microorganism abundance entries and optionally at least 40 determined clinical data entries.
- first signatures positive diagnosis/predictive diagnosis
- second signatures negative diagnosis/predictive diagnosis
- signature is meant a set of identities of microorganisms. This method also allows the discovery of new microorganisms.
- a first signature of microorganisms associated with a diagnosis of the appearance and/or development of ECUN, in particular obtained by a method according to the invention is characterized in particular by the presence of microorganisms of the species:
- a first signature associated with a high probability of premature delivery is characterized in particular by the presence of microorganisms of the genus:
- Prevotella in particular Prevotella bivia
- Gardnerella in particular Gardnerella vaginalis
- a second signature associated with a plurality of microorganisms statistically associated with a diagnosis of absence of ECUN is characterized in particular by the presence of microorganisms of several species of Lactobacillus associated with non-ECUN cases. Indeed, these microorganisms were discovered as present or present in greater quantity in the biological samples statistically associated with a prediction of absence of ECUN.
- the second signature associated with a diagnosis of absence of ECUN may comprise other microorganisms, such as: the genera Bifidobacterium, Bacteroides, the species Bifidobacterium longum, Bacteroides fragilis, Lactobacillus casei.
- a second signature associated with a high probability of delivery at term (more than 70%), notably obtained by a method according to the invention, is characterized in particular by the presence of microorganisms of the Christensenellaceae family and of the genus:
- Lactobacillus in particular Lactobacillus crispatus.
- the diagnosis/predictive diagnosis is determined from the identities and abundances of microorganisms determined during step b). Of these data obtained in step b), only those of the microorganisms absent from the training set are purified. In this sense, the larger the training set, the more likely it is that it will be exhaustive, and that no purification will be carried out in the data obtained in step b). However, in the event that a sample from a subject was discovered to include a microorganism identity that was not present in the training set, it is possible a posteriori to re-train the artificial intelligence model with this new input. It is thus possible to obtain a continuous enrichment of the artificial intelligence model, and therefore a continually improved accuracy of the predictions.
- step b) The data retained from step b) following the exclusion of microorganisms absent from the training data set are in particular normalized. This normalization is in particular of the min-max type on the basis of the training set.
- the diagnosis/diagnosis obtained in step c) may in particular be associated with a certainty/confidence index, typically ranging from 0 to 1, reflecting the probability of correspondence.
- the artificial intelligence model can determine a positive diagnosis of a pathology with a confidence index of 0.8, indicating that there is an 80% chance that the analyzed microbiota is associated with this pathology.
- the artificial intelligence model can determine a negative diagnosis with a confidence index of 0.8, indicating that there is an 80% chance that the analyzed microbiota is not associated with the pathology and therefore a 20% chance that it is.
- the method according to the invention may comprise a step d) of compiling several diagnoses/predictive diagnoses for a final determination of the diagnosis/predictive diagnosis.
- At least two biological samples from the subject are used, in particular at least three.
- at least two biological samples is meant two, three, four, five, six, seven, eight, nine, ten or more than ten biological samples from the same subject.
- the samples can be taken at the same time, or at different times.
- step d) comprises the compilation of the diagnosis/predictive diagnosis obtained in step c) for each sample and the final determination of the diagnosis/predictive diagnosis.
- the diagnosis/predictive diagnosis can be considered positive/negative if more than 50% of the result of steps c) correspond to this state.
- step d) when the samples are taken at the same time, step d) makes it possible to reinforce a first diagnosis determined in the first step c), in particular to overcome a potential undesired selection of microorganisms by the choice of the sampling area in a sampling region.
- the samples are in particular taken in different areas of the same sampling region, in order to ensure the exhaustiveness of the representation of the microorganisms in the subject's sampling region.
- step d) when the samples are taken at different times, step d) makes it possible to monitor the changes in the subject's microbiota and in particular the change in their phenotype (from sick to healthy following treatment, or from healthy to sick), allowing a clinician to confirm a curative effect or to take the necessary measures in the event of the appearance of a pathology or pathological state.
- Figure 1 shows an overview of the steps followed for an embodiment of the method for diagnosing a pathology according to the invention from the identification of microorganisms and their abundance in the sample of a subject, followed by a step of predicting the diagnosis/predictive diagnosis using the trained and optimized DNN model.
- Figure 2 illustrates the steps of an example of training a deep neural network model according to the invention and the adjustment of its hyperparameters allowing the optimization of the prediction of the diagnosis/predictive diagnosis.
- Figure 3 illustrates the prediction performance obtained by the deep neural network model based on the input data provided.
- the input data are the data from direct metagenomic sequencing (Fettweis cohort) processed by RiboTaxa or by MetaPhlAn3.
- MetaPhlAn3 uses the high-quality reads from direct metagenomic sequencing to compare them to a reference genome database of microorganisms available at: segatalab.cibio.unitn.it/data/Pasolli_et_al.html and determine the taxonomic composition of the analyzed microbiota (from domain to species) and the relative abundances of the identified microorganisms (TSV file).
- Figure 4 shows the performance of deep neural network models trained on data from direct metagenomic sequencing and genus-level metabarcoding.
- Figure 5 represents the final structure of an artificial intelligence model (trained deep neural network model) according to the invention optimized to predict ECUN.
- Figure 6 shows the true positive rate (on the ordinate) as a function of the false positive rate (on the abscissa) in the context of predicting the occurrence of ECUN, where the AUC is equal to 0.987.
- Figure 7 shows the accuracy (ordinate) versus sensitivity (abscissa) in predicting the occurrence of ECUN, where the AUC is equal to 0.992.
- Figure 8 shows the 20 input features of the trained deep neural network model contributing most to the prediction of ECU N or non-ECU N phenotypes summarized by the SHAP explainer.
- Figure 9 illustrates the analysis of the longitudinal follow-up of samples following the prediction of the deep neural network model trained in the context of predicting the occurrence of NEC.
- the unlabeled circle on the left represents the actual phenotype of the infant. Samples from infants without pathology are indicated in dark gray and samples from NEC infants in light gray. Each labeled circle represents a sample collected from each of the infants and the numbers inside the circles correspond to the day of collection (in days of life).
- the color of these circles represents the phenotype predicted by the neural network according to the same color code as the unlabeled circles.
- the single square represents the samples that were reclassified into the “control” group and the double square represents the samples that were reclassified into the “NEC” group.
- Figure 14 shows the 20 input features of the trained deep neural network model contributing most to the prediction of T1D or non-T1D phenotypes summarized by the SHAP explainer.
- Figure 15 represents the longitudinal analysis approach of the predictions made on the set of samples of children who had at least 3 samples in the “sepsis” test set. The final phenotype of the child is determined by the phenotypic group having the greatest number of samples of the same condition.
- Figure 16 shows the 20 input features of the trained deep neural network model contributing the most to the prediction of sepsis phenotypes summarized by the SHAP explainer. Examples
- the inventors collected raw microbiota sequencing data and associated clinical data from patient cohorts established as part of studies of different pathologies and pathological conditions: preterm birth (PB), necrotizing enterocolitis (NCE), sepsis and type 1 diabetes (T1D).
- PB preterm birth
- NCE necrotizing enterocolitis
- T1D type 1 diabetes
- the first step consisted in selecting relevant scientific publications that had made these data available. A search by precise keywords was carried out in the PubMed and Google Scholar publication databases. The microbiota sequencing data had to have been obtained by direct metagenomic sequencing, known as “shotgun”. Only prospective studies with samples taken before the onset of the pathology or pathological state, allowing a predictive diagnosis, were retained. In addition, the inclusion of control subjects was required.
- the shotgun metagenomic data were processed with the RiboTaxa bioinformatics chain (Chakoory et al., 2022) to obtain the taxonomic profiles of the microbiota (identification of microorganisms at all taxonomic ranks and associated relative abundances).
- the RiboTaxa approach consists of reconstructing 16S and 18S rDNA sequences using reference databases, here, the SILVA SSU 138.1 NR99 database (Quast et al., 2013), then allowing identification of microorganisms down to the species level. RiboTaxa performs quality control of the raw reads, reconstruction of the 16 and 18S rDNA sequences, determination of their relative abundance and the identity of the microorganisms.
- the C parameter “insert_stddev” represents the standard deviation of the size distribution of inserts of paired-end reads.
- Parameters B and C were estimated using the script “mean_size.py”, available at: gist.github.com/timoast/af73c0e9fac00187ee49.
- the architecture of the deep neural network consists of an input layer whose number of neurons depends on the number of input characteristics (number of microorganisms identified and number and nature of clinical data), hidden layers whose number and the number of corresponding neurons are determined during training and optimization of the model, and an output layer containing 2 neurons, one for a “pathology/pathological state” output, the other for a “no pathology/pathological state” output.
- the rectified linear unit activation function (ReLLI) was used for all hidden layers. Activation functions play an important role in training neural networks by providing the nonlinearity needed for the model to learn complex representations.
- the neuron dropout technique on each hidden layer was also employed to mitigate overfitting of the neural network, which leads to poor generalization of the model and reduced performance on new data.
- Neuron dropout is a learning method that involves randomly removing neurons during model training, with the removed nodes being excluded from subsequent steps.
- the output layer activation function uses the Softmax function to assign a value based on a probability between 0 and 1 to each class (pathology/disease state, no pathology/disease state). This value allows the model to make a ‘risk of pathology’ or ‘no risk of pathology’ decision.
- [182]Different values of other hyperparameters were tested.
- the number of epochs (number of times the entire dataset is propagated through the neural network) was varied from 1 to 40.
- the cross-entropy loss between the target value and the predicted value was optimized over the epochs with learning rates, ranging from 0.0001 to 0.01.
- the number of hidden layers was varied from 1 to 3 and the number of neurons in the first hidden layer from 32 to 512 with an increasing step size of 32. To facilitate model convergence, the number of neurons in the hidden layers was set to half that of the previous layer.
- the performance of the optimized deep neural network model was estimated on the test data (20% of the entire data set) by comparing the phenotype predicted by the model and the phenotype observed in the subject. For example, if the model correctly classifies a sample from a subject with a pathology or disease state, it is considered a true positive (TP), otherwise it is a false negative (FN). On the other hand, if the model correctly classifies a sample from a subject without a pathology or disease state, it is considered a true negative (TN), otherwise it is a false positive (FP).
- model performance was measured using several metrics: accuracy (total number of correct predictions over the total number of subjects), sensitivity (rate of subjects with the pathology correctly predicted by the model or true positive rate), specificity (rate of subjects without the pathology correctly predicted by the model or true negative rate), area under the curve (AUC) of the receiver operating characteristic (ROC)/AUROC, and precision-recall AUC (PR-AUC). [185]Accuracy is calculated as follows:
- AUROC corresponds to the area under the ROC curve which shows the sensitivity (rate of true positives) as a function of the specificity (rate of true negatives).
- the PR-AIIC measures the sensitivity over the precision (ratio of TPs to the total number of TPs and FPs).
- AUCs were calculated using the scikit-learn package (Pedregosa et al., 2011) and plotted using matplotlib (Hunter, 2007) (v3.1).
- the 95% confidence intervals (CIs) of the AUCs were estimated using the bootstrap method (Efron and Tibshirani, 1994) with 1,000 iterations.
- ROC curves and the Sankey plot were generated using matplotlib and plotly (v5.15.0), respectively.
- SHAP SHapley Additive exPlanations
- Models can be interpreted by calculating the importance of input data related to the classification performance of the model.
- the importance of input elements was calculated using SHAP.
- SHAP's DeepExplainer function is a method for decomposing the output of a deep neural network (prediction) by assigning contribution values to each data of the neural network input. This function allows highlighting the input data with the most weight in predicting a phenotype.
- x is the original data
- x' is the normalized data
- x min and x ma x are respectively the minimum and maximum values of the original value (abundance).
- the above equation is a linear transformation that preserves all abundance ratios of the original data after normalization.
- the clinical data were either discrete or continuous variables.
- continuous variables were transformed into discrete values through a discretization step. This process involves transforming a continuous-valued variable into a discrete variable by creating a set of contiguous intervals (or bins) that span the range of values of the variable. Grouping numerical features into interval-based groups is beneficial for classification and can significantly improve model performance.
- the number of samples in each phenotypic group was calculated and the final phenotype of the subject was determined by the phenotypic group with the largest number of samples.
- the phenotype thus determined was compared with the observed phenotype (affected by a pathology or a pathological state, not affected). Finally, a lollipop plot was generated to visualize this longitudinal follow-up analysis approach using the ggpubr package (v0.4.0).
- Example 1 Predictive diagnosis of preterm birth using a deep neural network trained with vaginal microbiota data.
- vaginal microbiota in relation to preterm birth using the English keywords: “vaginal microbiome”, “shotgun metagenomics” and “premature birth”: Feehily et al., 2020; Fett Stamm et al, 2019; Goltsman et al, 2018; Pace et al, 2021; Tortelli et al. 2021.
- TB term birth
- PTB preterm birth
- the performance of the optimized deep neural network was compared with three state-of-the-art classification algorithms: k-nearest neighbors (KNN), logistic regression (LR), and support vector machine (SVM). All these models were implemented in Python (version 3.9.10).
- the scikit-learn library (vO.24.2) was used. Each model was trained on the same data set, i.e., the 1290 samples.
- the best hyperparameters and configurations were identified using the grid-search cross-validation (GSCV) method of scikit-learn.
- the GSCV method identifies the best combination of hyperparameters during the 10-fold cross-validation process to achieve the optimal performance of the models.
- MetaPhlAn 3 (Beghini et al. 2021) uses clade-specific marker genes to identify the presence and relative abundance of microorganisms from metagenomic data. MetaPhlAn3 was used to process shotgun metagenomic data from the Fettweis cohort with default parameters and using the CHOCOPhlAnSGB database (Jan21 release). Species-level microbial diversity profiles were used as inputs for training a deep neural network. The performance of the resulting model was compared to a deep neural network model trained with diversity data obtained by pre-processing the same sequencing data with RiboTaxa. Results
- Example 2 Comparison of the performance of models trained on metabarcoding data versus direct metagenomics data for the predictive diagnosis of preterm birth.
- the Fettweis et al. study included 232 women whose vaginal samples were analyzed by both direct shotgun metagenomics and metabarcoding (sequencing of the 16S rDNA V3-V4 region).
- Raw shotgun metagenomics data (952 Gb) and metadata for the Fettweis et al. cohort were obtained after National Institute of Health data access approval. This dataset represented 173 women who delivered at term (667 vaginal samples, scored TB) and 55 women who delivered preterm (155 vaginal samples, scored PTB).
- Raw metabarcoding data (58 Gb) from 749 TB samples (173 women) and 205 PTB samples (55 women) were open access and were downloaded from HMP DACC (https://portal.hmpdacc.org).
- the reads were dereplicated to obtain unique sequences or ASVs (Amplicon Sequence Variants) with their abundance (number of reads corresponding to each unique sequence).
- the sample inference algorithm was then applied to correct the dereplicated sequences from the quality profiles of the raw sequences.
- the pairs of reads thus obtained were merged to obtain the complete amplicon sequences.
- Example 3 Predictive diagnosis of ECUN using a deep neural network trained with data from fecal microbiota.
- --max_read_length 301
- --insert_mean 120
- --insert_stddev 100.
- Model evaluation on external data [229] To further evaluate the performance of the optimized model, 50 fecal samples from 17 preterm infants including 7 who developed ECIIN, from the CORTECs cohort followed by the inventors, were analyzed. In addition, 40 infants from two published cohorts (Ward et al. 2023 and Schwartz et al. 2023) were also included to test the model performance.
- the constitution of the CORTECs cohort was approved by the ethics committee of CPP-Sud-Est VI (protocol code 2021/CE 26, the approval date is May 4, 2021).
- the CORTECs cohort aims to address prenatal and postnatal risk factors for ECU N. All prematurely born children hospitalized in the neonatal intensive care unit (NICU) of the Clermont-Ferrand University Hospital (France) were proposed to enter the cohort.
- Written informed consent was obtained from the families of study participants before enrollment. Infant stools were collected daily during their NICU stay, between May 2021 and June 2022. Stools were collected in a diaper using a sterile loop and then dispensed into eNAT buffer (Copan) before being briefly held at 4°C. Samples were stored at -80°C until DNA extraction.
- Cases of ECUN were identified by physicians based on systemic and abdominal findings and radiographic features. They were stratified according to disease severity according to Bell stages. Cases of ECUN were matched to a control preterm infant (two to one case) who did not develop ECUN. Case-control matching was based on gestational age at delivery, mode of delivery, sex, birth weight, and pre- and postnatal antibiotics. For each ECUN infant, available samples were selected within a 1-week window before the onset of ECUN and samples from corresponding control cases were matched according to the age of the ECUN subject.
- RNA capture probes were obtained by in vitro transcription. 500 ng of libraries were were mixed with 2.5 ⁇ g salmon sperm DNA and incubated with 500 ng biotinylated probes in hybridization buffer for 24 h at 65°C. Probe/target heteroduplexes were captured using 500 ⁇ g streptavidin-coated paramagnetic beads (Dynabeads M-280 Streptavidin, Invitrogen).
- Captured DNA fragments were eluted with 50 ⁇ L of 0.1 M NaOH and transferred to a sterile tube containing 70 ⁇ L of 1 M Tris-HCl buffer pH 7.5. Captured DNA was amplified by PCR with 25 cycles using primers complementary to Illumina adapters. To increase enrichment efficiency, a second capture cycle was performed. Captured DNA was then sequenced on the Illumina MiSeq 2 x 300 bp platform.
- [236]Raw sequencing data from the three cohorts were processed using the RiboTaxa pipeline and all input data were normalized or transformed as described previously. Species that were not present in the training samples were excluded as the model cannot account for them. For each sample, the relative abundance table of microorganisms at the species level concatenated with the subject's clinical data was used as input to the trained model. Each prediction was compared to the child's phenotype (control or ECIIN). SHAP plots were also generated. The final prediction of the children was also determined using longitudinal samples from the same infant using the same longitudinal follow-up analysis approach.
- Example 4 Predictive diagnosis of type 1 diabetes in children using deep neural network
- the primary objectives of the prospective study were to identify environmental and genetic factors triggering or protecting against the development of islet cell antibodies or type 1 diabetes (Rewers et al., 2018). For this, 7013 children from the general population were recruited, with a predetermined risk of type 1 diabetes of 3% and 788 children with first-degree relatives with type 1 diabetes and with a predetermined risk of type 1 diabetes of 10%. Medical visits took place quarterly until the age of 4 years, then every 6 months until the age of 15 years. Participants were followed by blood sampling every three months for measurements of autoantibodies directed against islet cells and detection of diabetes. Stool samples were collected longitudinally between 3 and 72 months of life to characterize the gut microbiota by metabarcoding and direct metagenomic sequencing.
- the IA+DT1 and T1D children were grouped into a single group of type 1 diabetic children for model training, subsequently designated as TD1.
- training was performed on the entire dataset (4707 samples from 144 control children and 110 T1D children) to produce a “no prior” model, and three subsets of the data were created based on the month in which T1D was diagnosed. For this, the child’s day of life at diagnosis was converted into months by dividing it by 30 days.
- T1D model “24-48 months” 2361 samples from 68 control children and 52 T1D children
- T1D model “48-72 months” (1101 samples from 23 control children and 20 T1D children)
- T1D model “24-72 months” 3193 samples from 83 control children and 66 T1D children.
- the models were designated by an interval of children’s ages at the time of T1D diagnosis and included in the model. These intervals cover at most a period of 2 to 6 years (24-72 months), corresponding to the period when the majority of T1D cases were diagnosed.
- Example 5 Predictive diagnosis of sepsis using deep neural network models
- Controlled, high-quality species-level relative abundance profiles and 5 clinical data were used to train a deep neural network to predict the risk of sepsis before the onset of infection leading to pathology.
- the deep neural network model was trained and then trained using 681 different features (637 microbial species and 44 clinical data groups). All species detected in all samples were retained, instead of applying a selection before training to preserve inter-individual variations in microbiota between infants. A total of 42,882 trainable parameters were tested and the optimal hyperparameter setting for the final model had 64 units (neurons) in the 1st hidden layer and a total of 3 hidden layers (Table 12). The model training was performed on: i86linux32, 4.0 GB RAM x 8 cores (32.8 GB total), without GPU and took 2 min.
Landscapes
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Organic Chemistry (AREA)
- Analytical Chemistry (AREA)
- Health & Medical Sciences (AREA)
- Zoology (AREA)
- Engineering & Computer Science (AREA)
- Wood Science & Technology (AREA)
- Genetics & Genomics (AREA)
- Microbiology (AREA)
- Molecular Biology (AREA)
- Immunology (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Biochemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Pathology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
Description
Description Description
Procédé de diagnostic prédictif d’une pathologie ou d’un état pathologique Predictive diagnostic process for a pathology or pathological condition
[1]La présente demande concerne un procédé, notamment in vitro, de diagnostic ou de diagnostic prédictif d’une pathologie ou d’un état pathologique à partir d’un échantillon biologique prélevé chez un sujet. Selon un aspect particulier, l’invention concerne un procédé, notamment in vitro, de diagnostic prédictif d’une pathologie de l’appareil digestif ou d’une pathologie extra-digestive d’un sujet à partir de l’analyse du microbiote présent dans un échantillon biologique prélevé dans l’appareil digestif, et/ou hors de l’appareil digestif comme le vagin et/ou dans les selles d’un sujet. Encore plus particulièrement, l’invention concerne un procédé de diagnostic de l’entérocolite ulcéro-nécrosante (ECU N) du nouveau-né prématuré à partir d’un échantillon biologique prélevé dans ses selles. Selon un autre aspect particulier, la présente invention a pour objet le diagnostic prédictif d’un accouchement prématuré à partir d’un échantillon biologique prélevé dans le vagin chez une femme enceinte. Le présent procédé se situe donc dans le domaine du diagnostic, du diagnostic prédictif, notamment in vitro, et de la médecine personnalisée. [1]The present application relates to a method, in particular in vitro, for diagnosing or predictively diagnosing a pathology or a pathological condition from a biological sample taken from a subject. According to a particular aspect, the invention relates to a method, in particular in vitro, for predictively diagnosing a pathology of the digestive system or an extra-digestive pathology of a subject from the analysis of the microbiota present in a biological sample taken from the digestive system, and/or outside the digestive system such as the vagina and/or in the stools of a subject. Even more particularly, the invention relates to a method for diagnosing necrotizing ulcerative enterocolitis (NUE) in premature newborns from a biological sample taken from their stools. According to another particular aspect, the subject of the present invention is the predictive diagnosis of premature delivery from a biological sample taken from the vagina of a pregnant woman. The present method is therefore in the field of diagnosis, predictive diagnosis, particularly in vitro, and personalized medicine.
[2]L’accouchement prématuré est une cause majeure de la morbidité et de la mortalité des nouveau-nés. Une part des accouchements prématurés spontanés semble provenir d’une réaction d’inflammation suite à une infection du tractus génital. Cependant, une large part des accouchements prématurés reste sans cause identifiée, sans signes cliniques. Malgré différentes études relatives au microbiote vaginal et à la survenue d’un accouchement prématuré, il existe actuellement un besoin pour une méthode clinique fiable de prédiction de la survenue d’un accouchement prématuré. Actuellement, les cliniciens ne disposent malheureusement d’aucun outil fiable pour prédire le risque d’une naissance prématurée. [2]Preterm birth is a major cause of morbidity and mortality in newborns. A proportion of spontaneous preterm births appear to result from an inflammatory reaction following an infection of the genital tract. However, a large proportion of preterm births remain without an identified cause, without clinical signs. Despite various studies relating to the vaginal microbiota and the occurrence of preterm birth, there is currently a need for a reliable clinical method for predicting the occurrence of preterm birth. Unfortunately, clinicians currently have no reliable tool to predict the risk of preterm birth.
[3]Le brevet EP 3161167 décrit une méthode d’évaluation d’un risque d’accouchement prématuré fondée sur la détection, dans un échantillon vaginal ou cervical obtenu par écouvillonnage chez la femme enceinte, de la quantité des bactéries suivantes : Vimonas micra, Ureaplasma urealyticum ou Ureaplasma parvum, Atopobium vaginae, Peptoniphilus lacrimalis, Megasphaera cerevisiae et Parvibacter caecicola, par rapport à un niveau de référence. La quantification des bactéries est réalisée par amplification d’une petite région de l’ADN ribosomique (ADNr 16S) par réaction en chaîne de la polymérase (en anglais : Polymerase Chain Reaction ou PCR) quantitative (qPCR). [3] Patent EP 3161167 describes a method for assessing a risk of premature delivery based on the detection, in a vaginal or cervical sample obtained by swabbing from a pregnant woman, of the quantity of the following bacteria: Vimonas micra, Ureaplasma urealyticum or Ureaplasma parvum, Atopobium vaginae, Peptoniphilus lacrimalis, Megasphaera cerevisiae and Parvibacter caecicola, compared to a reference level. The quantification of the bacteria is carried out by amplification of a small region of ribosomal DNA (16S rDNA) by quantitative polymerase chain reaction (qPCR).
[4]Le brevet EP 2 972 308 B9 décrit un biomarqueur peptidique sérique ou plasmatique, produit par des cellules humaines, et non par le microbiote, dont la détection est utilisée dans une méthode d’évaluation d’un risque d’accouchement prématuré. [5]La demande internationale WO 2020/227053 décrit un procédé de détermination du risque de naissance prématurée comprenant la détermination de l’abondance de Saccharibacteria TM7- H1 et optionnellement de BVAB1, Sneathia amnii et Prevotella dans un échantillon vaginal d’une femme enceinte, à partir de la séquence nucléotidique d’une petite portion de l’ADNr 16S des microorganismes. [4] Patent EP 2 972 308 B9 describes a serum or plasma peptide biomarker, produced by human cells, and not by the microbiota, the detection of which is used in a method for assessing a risk of premature birth. [5]International application WO 2020/227053 describes a method for determining the risk of premature birth comprising determining the abundance of Saccharibacteria TM7-H1 and optionally BVAB1, Sneathia amnii and Prevotella in a vaginal sample from a pregnant woman, from the nucleotide sequence of a small portion of the 16S rDNA of the microorganisms.
[6]Ces exemples illustrent la possibilité d’une relation entre la nature du microbiote et l’état physiologique ou pathologique d’un sujet. Mais il est également connu que la complexité des microbiotes rend difficile la détermination des signatures microbiennes spécifiques et prédictives caractéristiques d’un état pathologique. Cette situation est rendue d’autant plus complexe du fait de très fortes variations interindividuelles. A ce jour, plusieurs techniques d’analyse du microbiote existent. Cependant, les approches actuelles ne permettent pas une caractérisation précise des microbiotes. [6]These examples illustrate the possibility of a relationship between the nature of the microbiota and the physiological or pathological state of a subject. But it is also known that the complexity of microbiotas makes it difficult to determine specific and predictive microbial signatures characteristic of a pathological state. This situation is made all the more complex by the very strong interindividual variations. To date, several techniques for analyzing the microbiota exist. However, current approaches do not allow for precise characterization of microbiotas.
[7]Les gènes exprimant la petite sous-unité de l’ARN ribosomique (ARNr), c’est-à-dire les gènes appelés ADN ribosomique 16S « ADNr 16S » pour les microorganismes procaryotes, tels que notamment les bactéries et les archées, et « ADNr 18S » pour les eucaryotes, incluant notamment les levures, sont utilisés pour permettre la description de la structure du microbiote (Chakoory et al., 2022). [7]Genes expressing the small subunit of ribosomal RNA (rRNA), i.e. genes called 16S ribosomal DNA “16S rDNA” for prokaryotic microorganisms, such as bacteria and archaea, and “18S rDNA” for eukaryotes, including yeasts, are used to enable the description of the structure of the microbiota (Chakoory et al., 2022).
[8]Les publications de Park et al en 2021 et en 2022 décrivent un procédé de prédiction de la probabilité d’une naissance prématurée à partir de la détection d’un nombre restreint de microorganismes présents dans le microbiome vaginal. [8]The publications of Park et al in 2021 and 2022 describe a method for predicting the probability of preterm birth from the detection of a restricted number of microorganisms present in the vaginal microbiome.
[9]Dans la publication de Park et al. de 2021 , le procédé comprend la quantification simultanée par amplification qPCR de fragments spécifiques de petite taille de l’ADN de chacun des 10 microorganismes suivants : Lactobacillus crispatus, Lactobacillus iners, Weissella koreensis, Bacteroides fragilis, Prevotella bivia, Prevotella amnii, Prevotella salivae, Ureaplasma urealyticum, Ureaplasma parvum, Gardnerella vaginalis. [9]In the 2021 publication by Park et al., the method involves the simultaneous quantification by qPCR amplification of specific small fragments of DNA from each of the following 10 microorganisms: Lactobacillus crispatus, Lactobacillus iners, Weissella koreensis, Bacteroides fragilis, Prevotella bivia, Prevotella amnii, Prevotella salivae, Ureaplasma urealyticum, Ureaplasma parvum, Gardnerella vaginalis.
[10]Dans la publication de Park ét al, de 2022, sur la base d’une approche de séquençage d’une petite région V3-V4 du gène d’ADNr 16S et d’études bibliographiques, les prédictions de la probabilité d’une naissance prématurée sont établies sur la base de 10 bactéries (Lactobacillus crispatus, Lactobacillus fornicalis, Lactobacillus gasseri, Lactobacillus iners, Lactobacillus jensenii, Gardnerella vaginalis, Ureaplasma parvum, Atopobium vaginae, Prevotella timonensis et Peptoniphilus grossensis) ainsi que 7 bactéries supplémentaires sur la base de travaux antérieurs d’autres auteurs (Bifidobacterium breve, Dialister proprionicifaciens, Lactobacillus paracasei, Mobiluncus curtisii, Prevotella disiens, Staphylococcus aureus, Streptococcus anginosus). Mais l’exploitation conjointe de ces données n’a pas permis une utilisation clinique documentée selon l’état de l’art. [11]Par conséquent, il existe une nécessité de développer un procédé permettant de prédire la probabilité d’un accouchement prématuré de façon plus fiable, prenant en compte la variabilité inter-individuelle et les espèces faiblement représentées. Les suivis des femmes enceintes permettraient d’identifier les femmes à risque et d’anticiper la prise en charge des nouveau- nés. [10]In the 2022 publication by Park et al, based on a sequencing approach of a small V3-V4 region of the 16S rDNA gene and literature studies, predictions of the probability of preterm birth are established on the basis of 10 bacteria (Lactobacillus crispatus, Lactobacillus fornicalis, Lactobacillus gasseri, Lactobacillus iners, Lactobacillus jensenii, Gardnerella vaginalis, Ureaplasma parvum, Atopobium vaginae, Prevotella timonensis and Peptoniphilus grossensis) as well as 7 additional bacteria based on previous work by other authors (Bifidobacterium breve, Dialister proprionicifaciens, Lactobacillus paracasei, Mobiluncus curtisii, Prevotella disiens, Staphylococcus aureus, Streptococcus anginosus). But the joint exploitation of these data did not allow a documented clinical use according to the state of the art. [11]Therefore, there is a need to develop a method to predict the probability of preterm birth more reliably, taking into account inter-individual variability and poorly represented species. Monitoring pregnant women would make it possible to identify women at risk and anticipate the care of newborns.
[12]Par ailleurs, l’entérocolite ulcéro-nécrosante (ECU N) est l'urgence gastro-intestinale potentiellement mortelle la plus courante rencontrée par les prématurés dans les unités de soins intensifs pour les nouveau-nés. Elle est définie en tant qu’inflammation ulcéreuse de la paroi intestinale. La pratique clinique actuelle pour diagnostiquer l’ECUN se fonde sur les résultats cliniques, radiologiques et hématologiques constituant les critères de Bell, selon une revue récente (D'Angelo et al., 2018). Les signes cliniques d'un début d’ECUN sont souvent très discrets et peuvent d'abord se manifester par une intolérance alimentaire et des symptômes non spécifiques (malaise, bradycardie) avant que les symptômes gastrointestinaux ne deviennent évidents. Ceux-ci incluent une augmentation des résidus gastriques, des selles sanglantes et une distension abdominale ; ceux-ci peuvent évoluer vers une hypotonie généralisée, une léthargie et une insuffisance cardio-respiratoire, qui peuvent également être présents lors d'autres affections néonatales, notamment la septicémie et les infections intestinales virales. Si la maladie n'est pas diagnostiquée et traitée à un stade précoce, elle peut entraîner une septicémie grave, une perforation intestinale, ainsi qu'une morbidité (nécrose digestive, insuffisance intestinale chronique) et une mortalité importantes (jusqu’à 40% pour les formes sévères). [12] Furthermore, necrotizing enterocolitis (NEC) is the most common life-threatening gastrointestinal emergency encountered by preterm infants in neonatal intensive care units. It is defined as ulcerative inflammation of the intestinal wall. Current clinical practice for diagnosing NEC is based on clinical, radiological and haematological findings constituting the Bell criteria, according to a recent review (D'Angelo et al., 2018). The clinical signs of early NEC are often very subtle and may initially manifest as feeding intolerance and nonspecific symptoms (malaise, bradycardia) before gastrointestinal symptoms become evident. These include increased gastric residuals, bloody stools and abdominal distension; These may progress to generalized hypotonia, lethargy, and cardiorespiratory failure, which may also be present in other neonatal conditions, including sepsis and viral intestinal infections. If the disease is not diagnosed and treated early, it can lead to severe sepsis, intestinal perforation, and significant morbidity (gastrointestinal necrosis, chronic intestinal failure) and mortality (up to 40% for severe forms).
[13]A ce jour, les cliniciens n’ont aucun outil diagnostic fiable de prédiction de l’ECUN. La physiopathologie de l’ECUN reste mal comprise et des méthodes efficaces pour sa détection précoce doivent encore être établies. Par conséquent, les efforts actuels pour comprendre et prédire l’ECUN se concentrent sur l’étude de ses facteurs de risque. La naissance prématurée représente le facteur de risque le plus important pour le développement de l’ECUN. Chez les nouveau-nés ayant un très faible poids à la naissance (<1 ,5 kg à la naissance), l'incidence de l’ECUN varie de 5 % à 13 %. De plus, l'administration prolongée d'antibiotiques au cours de la première semaine de vie et la substitution du lait maternel par du lait maternisé ou infantile sont fréquemment liées à l'apparition ultérieure de l’ECUN. [13]To date, clinicians have no reliable diagnostic tool for predicting NEC. The pathophysiology of NEC remains poorly understood and effective methods for its early detection have yet to be established. Therefore, current efforts to understand and predict NEC focus on the study of its risk factors. Preterm birth represents the most important risk factor for the development of NEC. In very low birth weight neonates (<1.5 kg at birth), the incidence of NEC ranges from 5% to 13%. In addition, prolonged administration of antibiotics during the first week of life and substitution of breast milk with formula or infant formula are frequently associated with the later onset of NEC.
[14]La colonisation du microbiote intestinal a été largement considérée comme jouant un rôle dans le développement de l’ECUN chez les nouveau-nés prématurés, mais comme dans le cas de la probabilité d’une naissance prématurée évaluée à partir du microbiome vaginal, la complexité des microbiotes rend difficile la détermination des signatures microbiennes spécifiques et prédictives d’un état physiologique ou pathologique, ne permettant pas l’identification d’un seul agent pathogène opportuniste ou d’une communauté microbienne pathogène comme cause de l’ECUN. Cet échec est principalement dû à l’établissement précoce et très dynamique du microbiote intestinal néonatal, influencé par de nombreux facteurs, notamment l’environnement, le sexe, l’âge gestationnel, le mode d’accouchement, le mode d’alimentation et les traitements antibiotiques. [14] Colonization of the gut microbiota has been widely considered to play a role in the development of NEC in preterm infants, but as in the case of the probability of preterm birth assessed from the vaginal microbiome, the complexity of microbiotas makes it difficult to determine specific microbial signatures that are predictive of a physiological or pathological state, not allowing the identification of a single opportunistic pathogen or microbial community. pathogen as a cause of ECUN. This failure is mainly due to the early and very dynamic establishment of the neonatal intestinal microbiota, influenced by many factors, including environment, sex, gestational age, mode of delivery, feeding mode and antibiotic treatments.
[15]Par conséquent, il existe également un besoin très important de disposer d’un procédé fiable et reproductible de diagnostic prédictif des pathologies affectant les nouveau-nés, notamment les nouveau-nés prématurés. Un tel diagnostic prédictif permettrait d’identifier les nouveau- nés à risque et d’anticiper la prise en charge de pathologies susceptibles de gravement affecter leur vie. [15]Therefore, there is also a very important need for a reliable and reproducible method for predictive diagnosis of pathologies affecting newborns, particularly premature newborns. Such a predictive diagnosis would make it possible to identify newborns at risk and anticipate the management of pathologies likely to seriously affect their lives.
[16]Pour donner un troisième exemple de la possibilité d’une relation entre la nature du microbiote et l’état physiologique ou pathologique d’un sujet, le diabète de type I (DT1) est une maladie auto-immune qui résulte de la destruction des cellules bêta du pancréas par les lymphocytes du patient. Cette destruction aboutit à l’incapacité pour le patient de sécréter l’insuline, ce qui conduit à l’impossibilité d’utiliser le glucose comme ressource énergétique, donc à une hyperglycémie en même temps qu’une carence énergétique intracellulaire. Le sucre en excès dans le sang est retrouvé dans les urines. [16]To give a third example of the possibility of a relationship between the nature of the microbiota and the physiological or pathological state of a subject, type I diabetes (T1D) is an autoimmune disease that results from the destruction of the beta cells of the pancreas by the patient's lymphocytes. This destruction results in the patient's inability to secrete insulin, which leads to the inability to use glucose as an energy resource, thus to hyperglycemia at the same time as an intracellular energy deficiency. Excess sugar in the blood is found in the urine.
[17]Le DT1 affecte les enfants et les adultes jeunes. A court terme, il est responsable d’une dégradation importante de la qualité de vie puisque les sujets atteints doivent adapter en permanence leurs apports d’insuline (par voie sous-cutanée) à la glycémie, aux apports alimentaires et aux dépenses énergétiques. A moyen et long terme, l’hyperglycémie chronique entraîne des altérations multiviscérales, en particulier nerveuses et vasculaires. [17] T1D affects children and young adults. In the short term, it is responsible for a significant deterioration in quality of life since affected subjects must constantly adapt their insulin intake (subcutaneously) to blood sugar, food intake and energy expenditure. In the medium and long term, chronic hyperglycemia leads to multi-organ alterations, particularly nervous and vascular.
[18]L’incidence du DT1 est en augmentation continue depuis au moins 1988. En France, elle est de 18 pour 100 000 chez les moins de 15 ans, sur la période 2013-2015, soit une prévalence de l'ordre de 1 ,3 pour 1 000. L'incidence du diabète du sujet jeune augmente de 3 à 4 % par an, en même temps que l’âge de début s’abaisse (Gale E 2002). [18]The incidence of T1D has been increasing continuously since at least 1988. In France, it is 18 per 100,000 in those under 15 years of age, over the period 2013-2015, i.e. a prevalence of around 1.3 per 1,000. The incidence of diabetes in young people is increasing by 3 to 4% per year, at the same time as the age of onset is decreasing (Gale E 2002).
[19]L’activation immunitaire est multifactorielle et dépend en partie du système HLA, et d’événement infectieux postnatals. Il existe ainsi une agrégation familiale de cas, une association à d’autres maladies auto-immunes, et un lien possible avec certains agents viraux notamment les coxsackievirus du groupe B. [19] Immune activation is multifactorial and depends partly on the HLA system and postnatal infectious events. There is thus a familial aggregation of cases, an association with other autoimmune diseases, and a possible link with certain viral agents, notably group B coxsackieviruses.
[20]Après la destruction des cellules bêta du pancréas le seul traitement repose sur l’insulinothérapie substitutive à vie. A ce jour le seul traitement curatif est la greffe de cellules bêta allogénique, qui est un traitement compliqué, nécessitant une immunosuppression prolongée, avec des résultats moyens. [21 ]Le diagnostic du diabète de type I repose sur la mise en évidence d’une hyperglycémie, d’une glycosurie, et d’une activation du système immunitaire dirigée contre les cellules bêta, dont témoigne la présence d’anticorps anti GAD, anti Zn T8, et anti-insuline. Cette activation immunitaire précède la maladie de plusieurs mois, et une nouvelle stratégie émerge qui consiste à détecter des enfants à haut risque de développer un diabète de type I dans la fratrie d’un enfant déjà atteint, à lui proposer un traitement immunomodulateur. Ce repérage des enfants à haut risque repose à ce jour exclusivement sur la présence ou non d’auto-anticorps. Cependant tous les enfants qui ont des auto-anticorps ne développent pas un diabète de type I. [20]After destruction of pancreatic beta cells, the only treatment is lifelong insulin replacement therapy. To date, the only curative treatment is allogeneic beta cell transplantation, which is a complicated treatment, requiring prolonged immunosuppression, with average results. [21] The diagnosis of type I diabetes is based on the demonstration of hyperglycemia, glycosuria, and activation of the immune system directed against beta cells, as evidenced by the presence of anti-GAD, anti-Zn T8, and anti-insulin antibodies. This immune activation precedes the disease by several months, and a new strategy is emerging which consists of detecting children at high risk of developing type I diabetes in the siblings of a child already affected, and offering them immunomodulatory treatment. This identification of high-risk children is currently based exclusively on the presence or absence of autoantibodies. However, not all children who have autoantibodies develop type I diabetes.
[22]En effet la mise en action d’une réponse immunitaire est tributaire d’un équilibre entre populations activatrices et inhibitrices de la réaction immunitaire, cet équilibre étant susceptible d’être largement influencé par des agents exogènes en particulier viraux et bactériens. Dans ce contexte l’hypothèse qu’une dysbiose digestive puisse entraîner une activation immunitaire est une piste prometteuse. Une cohorte internationale d’enfants à risque de diabète de type I (Vatanen T, Nature. 2018 Oct;562(7728):589-594) a permis d’étudier le microbiote digestif de ces enfants en comparaison avec celui d’enfants n’ayant pas développé la pathologie, sans pouvoir cependant identifier, avec les méthodes utilisées, de taxa microbiens caractéristiques de l’une ou l’autre des situations (pathologiques et saines). Par conséquent, il existe également un besoin très important de disposer d’un procédé fiable et reproductible de diagnostic prédictif du diabète de type I en se basant sur l’analyse du microbiote prélevé dans les selles d’enfants à risque. Un tel diagnostic prédictif permettrait d’identifier les enfants susceptibles de développer la maladie et d’anticiper la prise en charge de cette pathologie chronique affectant la qualité de vie et pouvant entrainer de graves séquelles voire le décès sans prise en charge adaptée. [22] Indeed, the activation of an immune response depends on a balance between populations that activate and inhibit the immune reaction, this balance being likely to be largely influenced by exogenous agents, particularly viral and bacterial. In this context, the hypothesis that digestive dysbiosis can lead to immune activation is a promising avenue. An international cohort of children at risk of type I diabetes (Vatanen T, Nature. 2018 Oct;562(7728):589-594) made it possible to study the digestive microbiota of these children in comparison with that of children who had not developed the pathology, without however being able to identify, with the methods used, microbial taxa characteristic of one or the other of the situations (pathological and healthy). Therefore, there is also a very important need for a reliable and reproducible method for predictive diagnosis of type I diabetes based on the analysis of the microbiota taken from the stools of children at risk. Such a predictive diagnosis would make it possible to identify children likely to develop the disease and anticipate the management of this chronic pathology affecting quality of life and which can lead to serious after-effects or even death without appropriate management.
[23]La possibilité d’identifier précocement des enfants à haut risque de développer une autoimmunité puis un diabète permettrait une révolution thérapeutique vers une médecine préventive personnalisée pour cette maladie extrêmement handicapante. En effet des traitements préventifs immunomodulateurs récents actuellement disponibles ont prouvé leur efficacité dans la prévention de la maladie diabétique chez des enfants à très haut risque. Cependant ces traitements ne sont pas dénués d’effets indésirables, et doivent être utilisés de manière ciblée. [23]The possibility of early identification of children at high risk of developing autoimmunity and then diabetes would allow a therapeutic revolution towards personalized preventive medicine for this extremely disabling disease. Indeed, recent immunomodulatory preventive treatments currently available have proven their effectiveness in preventing diabetic disease in children at very high risk. However, these treatments are not without adverse effects, and must be used in a targeted manner.
[24]Pour donner un quatrième exemple de la possibilité d’une relation entre la nature du microbiote et l’état physiologique ou pathologique d’un sujet, le sepsis néonatal est une maladie due à la présence dans le sang d’un agent infectieux, le plus souvent de nature bactérienne. Cette situation est potentiellement gravissime par deux menaces : la défaillance hémodynamique due à la réaction inflammatoire disséminée (choc septique), et la dissémination bactérienne dans des sites vitaux, notamment les méninges (méningite purulente). Elle nécessite donc un diagnostic et un traitement urgent, qui repose sur l’administration d’antibiotiques par voie intraveineuse. Ceux-ci ciblent dans un premier temps les germes les plus fréquemment impliqués (antibiothérapie probabiliste) ; dès la bactérie identifiée, l’antibiothérapie est adaptée afin de limiter le plus possible la sélection de souches résistantes aux antibiotiques. [24]To give a fourth example of the possibility of a relationship between the nature of the microbiota and the physiological or pathological state of a subject, neonatal sepsis is a disease due to the presence in the blood of an infectious agent, most often of a bacterial nature. This situation is potentially very serious due to two threats: hemodynamic failure due to the disseminated inflammatory reaction (septic shock), and bacterial dissemination in vital sites, particularly the meninges (purulent meningitis). It therefore requires urgent diagnosis and treatment, which is based on the administration of intravenous antibiotics. These initially target the germs most frequently involved (probabilistic antibiotic therapy); once the bacteria have been identified, the antibiotic therapy is adapted in order to limit as much as possible the selection of strains resistant to antibiotics.
[25]Le sepsis néonatal affecte environ 1 nouveau-né à terme sur 1000. Dans la situation d’une grossesse et d’une naissance normales, la prévention repose sur les antécédents de la mère et la détection du portage vaginal de streptocoque B. En cas de portage, une antibiothérapie est administrée à la mère pendant le travail, de telle sorte que le nouveau-né est protégé même en cas de transmission de streptocoque lors de la naissance. [25]Neonatal sepsis affects approximately 1 in 1000 full-term newborns. In the setting of normal pregnancy and birth, prevention is based on maternal history and detection of vaginal carriage of streptococcus B. If carriage occurs, antibiotic therapy is given to the mother during labor, so that the newborn is protected even if streptococcus is transmitted during birth.
[26]En revanche, en cas de prématurité, le sepsis néonatal est beaucoup plus fréquent, atteignant plus d’un enfant sur quatre. Cette fréquence accrue est due à la fragilité des enfants prématurés, à la présence de matériel invasif (cathéter, sondes) et à l’hospitalisation prolongée (germes hospitaliers, manipulations pluriquotidiennes par de nombreux soignants). Les germes responsables de sepsis sont le plus souvent retrouvés dans le tube digestif des enfants, et parfois sur la peau notamment en cas de cathéter à demeure. [26]On the other hand, in cases of prematurity, neonatal sepsis is much more frequent, affecting more than one in four children. This increased frequency is due to the fragility of premature children, the presence of invasive equipment (catheters, probes) and prolonged hospitalization (hospital germs, multiple daily manipulations by many caregivers). The germs responsible for sepsis are most often found in the digestive tract of children, and sometimes on the skin, particularly in the case of an indwelling catheter.
[27]Le diagnostic du sepsis repose actuellement sur l’association de symptômes non-spécifiques (fièvre, malaises, tachycardie, vomissements etc.), de marqueurs sanguins de la réponse inflammatoire (polynucléose neutrophile, élévation de la CRP) et parfois de la mise en évidence d’une bactérie dans le sang (par hémoculture). Ce dernier examen doit être réalisé avant toute antibiothérapie (qui en masquerait le résultat), et nécessite un volume sanguin considérable (au moins 1 ml, soit 2% du volume sanguin total d’un prématuré de 500 grammes). L’identification d’un germe met en général 1 à 2 jours, et la caractérisation de sa sensibilité aux antibiotiques peut prendre jusqu’à une semaine. [27]The diagnosis of sepsis is currently based on the combination of non-specific symptoms (fever, malaise, tachycardia, vomiting, etc.), blood markers of the inflammatory response (neutrophilic polynucleosis, elevated CRP) and sometimes the detection of bacteria in the blood (by blood culture). This last test must be carried out before any antibiotic therapy (which would mask the result), and requires a considerable blood volume (at least 1 ml, or 2% of the total blood volume of a 500 gram premature baby). The identification of a germ generally takes 1 to 2 days, and the characterization of its sensitivity to antibiotics can take up to a week.
[28]L’adaptation du traitement est donc tardive, exposant le nouveau-né à une antibiothérapie à spectre inutilement large (avec pour conséquence un déséquilibre du microbiote digestif et la sélection de souches résistantes). [28]The adaptation of the treatment is therefore late, exposing the newborn to an unnecessarily broad spectrum antibiotic therapy (with the consequence of an imbalance of the digestive microbiota and the selection of resistant strains).
[29]Par conséquent, il existe également un besoin très important de disposer d’un procédé fiable et reproductible de diagnostic prédictif du sepsis en se basant sur l’analyse du microbiote prélevé dans les selles d’enfants à risque. Un tel diagnostic prédictif permettrait d’identifier les enfants à risque et d’anticiper la prise en charge de cette pathologie chronique susceptible de gravement affecter leur vie. [29]Therefore, there is also a very important need for a reliable and reproducible method for predictive diagnosis of sepsis based on the analysis of the microbiota collected from the stools of children at risk. Such a predictive diagnosis would make it possible to identify children at risk and anticipate the management of this chronic pathology that can seriously affect their lives.
[30]La prédiction du sepsis néonatal permettrait une surveillance accrue des nouveau-nés à risque, et autoriserait un traitement plus précoce en cas de symptômes. De plus, la caractérisation a priori des germes probablement responsables, portés notamment dans le tube digestif du nouveau-né, permettrait de prescrire d’emblée un traitement plus adapté au profil de ces bactéries. [30]Prediction of neonatal sepsis would allow increased monitoring of at-risk newborns, and would allow earlier treatment in case of symptoms. In addition, characterization has a priori of the germs probably responsible, carried in particular in the digestive tract of the newborn, would allow to prescribe from the outset a treatment more adapted to the profile of these bacteria.
[31]ll est connu de l’art antérieur plusieurs méthodes d’analyse du microbiote dans un but diagnostic ou diagnostic prédictif d’une pathologie. [31]Several methods of analyzing the microbiota for the purpose of diagnosis or predictive diagnosis of a pathology are known from the prior art.
[32]Une première méthode dite de « métabarcoding » permet de déterminer des taxa présents dans un échantillon grâce à leur signature génétique, unique pour chaque taxa. L'idée est d'avoir un fragment d'ADN présent chez tous les taxa à analyser et qui constitue un marqueur génétique. Ce marqueur est un fragment d'ADN encadré par des régions très conservées et donc les plus « universelles » possibles, et qui, une fois séquencé, montre des variations de séquences génétiques entre taxa différents. Dans le cadre du microbiote, cette méthode comprend souvent l’amplification de fragments d’une taille comprise entre 300 à 470 paires de bases des régions V3 et/ou V4 du gène exprimant l’ARNr 16S. Cependant cette méthode présente plusieurs limites : des biais sont susceptibles d’être générés lors de l’étape d’amplification réalisée par PCR et peuvent altérer la vision de la diversité réelle du microbiote. En effet, il est connu que les amorces utilisées qui ne peuvent pas être « universelles » pour amplifier les séquences nucléotidiques vont favoriser l’amplification des séquences de certains microorganismes au détriment d’autres, résultant en une abondance possiblement erronée des microorganismes voire la non-détection de certains micro-organismes. En outre, la faible longueur des fragments d’ADN séquencés n’apporte qu’une faible résolution taxonomique, ne permettant pas de décrire les communautés microbiennes au niveau de l’espèce. [32]A first method called "metabarcoding" makes it possible to determine the taxa present in a sample thanks to their genetic signature, unique for each taxa. The idea is to have a DNA fragment present in all the taxa to be analyzed and which constitutes a genetic marker. This marker is a DNA fragment framed by highly conserved regions and therefore the most "universal" possible, and which, once sequenced, shows variations in genetic sequences between different taxa. In the context of the microbiota, this method often includes the amplification of fragments of a size between 300 and 470 base pairs of the V3 and/or V4 regions of the gene expressing the 16S rRNA. However, this method has several limitations: biases are likely to be generated during the amplification step carried out by PCR and can alter the vision of the real diversity of the microbiota. Indeed, it is known that the primers used that cannot be "universal" to amplify nucleotide sequences will favor the amplification of the sequences of certain microorganisms to the detriment of others, resulting in a possibly erroneous abundance of microorganisms or even the non-detection of certain microorganisms. In addition, the short length of the sequenced DNA fragments provides only a low taxonomic resolution, not allowing the description of microbial communities at the species level.
[33]Une autre méthode comprenant une étape de séquençage métagénomique direct (en anglais « shotgun ») suivie d’une étape d’assemblage pour générer des génomes complets (en anglais : Metagenome Assembled Genomes ou MAG) et d’une étape d’affiliation des MAGs conduit à une identification restreinte aux espèces dominantes. [33]Another method comprising a direct metagenomic sequencing step (in English "shotgun") followed by an assembly step to generate complete genomes (in English: Metagenome Assembled Genomes or MAGs) and a step of affiliation of the MAGs leads to an identification restricted to the dominant species.
[34]Une autre méthode comprend une étape de séquençage métagénomique direct suivie d’une affiliation des lectures brutes non assemblées d’une taille inférieure à 300 paires de bases d’une partie du gène exprimant l’ARNr 16S. L’affiliation de ces séquences de petite taille conduit à une faible résolution d’identification microbienne et à une surestimation de la diversité, notamment par détection de faux positifs. [34]Another method involves a direct metagenomic sequencing step followed by affiliation of unassembled raw reads smaller than 300 base pairs from a portion of the 16S rRNA-expressing gene. Affiliation of these small sequences leads to low resolution of microbial identification and overestimation of diversity, particularly through detection of false positives.
[35] Il existe donc un besoin pour l’obtention de diagnostic et de diagnostic prédictif plus fins, fiables, reproductibles et relativement rapides à mettre en œuvre, de sorte à pouvoir être utilisable par les cliniciens dans leurs prises de décisions. Description de l’invention [35] There is therefore a need to obtain more precise, reliable, reproducible and relatively quick to implement diagnostics and predictive diagnostics, so that they can be used by clinicians in their decision-making. Description of the invention
[36]Les inventeurs ont réussi à développer un unique procédé permettant de répondre aux différentes problématiques susmentionnées. Ce procédé comprend avantageusement l’emploi de l’ensemble des microorganismes identifiées dans le microbiote d’un sujet par un modèle d’intelligence artificielle pour établir un diagnostic ou un diagnostic prédictif d’une pathologie ou d’un état pathologique. [36]The inventors have succeeded in developing a unique method for addressing the various issues mentioned above. This method advantageously comprises the use of all the microorganisms identified in the microbiota of a subject by an artificial intelligence model to establish a diagnosis or a predictive diagnosis of a pathology or pathological condition.
[37]La présente invention a ainsi pour premier objet un procédé, notamment in vitro, de diagnostic ou de diagnostic prédictif d’une pathologie ou d’un état pathologique chez un sujet, à partir d’au moins un échantillon biologique prélevé chez le sujet et contenant des microorganismes, ledit procédé comprenant les étapes suivantes : a) séquençage, à partir de l’acide nucléique isolé de l’échantillon du sujet, des séquences nucléotidiques correspondant à au moins une séquence d’intérêt sélectionnée dans le groupe consistant en : un fragment d’un gène exprimant l’ARN ribosomique (ARNr) 16S, un fragment d’un gène exprimant l’ARNr 18S, un fragment de l’ARNr 16S, un fragment de l’ARNr 18S, b) à partir du séquençage de l’étape a), détermination de l’identité et de l’abondance relative des microorganismes présents dans ledit échantillon sans aucune présélection, c) détermination du diagnostic prédictif de ladite pathologie ou de l’état pathologique par un modèle d’intelligence artificielle à partir au moins des abondances des identités obtenues à l’étape b), ledit modèle d’intelligence artificielle ayant préalablement été entraîné sur la base d’un jeu de données labellisées, où le jeu de données labellisées comprend des profils de sujets d’entrainement, chaque profil de sujet d’entrainement comprenant l’identité et l’abondance relative de l’ensemble des microorganismes identifiés dans au moins un échantillon dudit sujet d’entrainement, où chaque profil de sujet d’entrainement est labellisé avec le phénotype du sujet d’entrainement dont il est issu, et où des données de l’étape b) sont uniquement exclues les abondances des identités des microorganismes qui n’étaient pas présentes dans le jeu de données labellisées. [37]The present invention thus has as its first subject a method, in particular in vitro, for diagnosis or predictive diagnosis of a pathology or pathological condition in a subject, from at least one biological sample taken from the subject and containing microorganisms, said method comprising the following steps: a) sequencing, from the nucleic acid isolated from the subject's sample, the nucleotide sequences corresponding to at least one sequence of interest selected from the group consisting of: a fragment of a gene expressing 16S ribosomal RNA (rRNA), a fragment of a gene expressing 18S rRNA, a fragment of 16S rRNA, a fragment of 18S rRNA, b) from the sequencing of step a), determination of the identity and relative abundance of the microorganisms present in said sample without any preselection, c) determination of the predictive diagnosis of said pathology or pathological condition by a model artificial intelligence model from at least the abundances of the identities obtained in step b), said artificial intelligence model having previously been trained on the basis of a labeled data set, where the labeled data set comprises profiles of training subjects, each training subject profile comprising the identity and relative abundance of all the microorganisms identified in at least one sample of said training subject, where each training subject profile is labeled with the phenotype of the training subject from which it originates, and where only the abundances of the identities of the microorganisms that were not present in the labeled data set are excluded from the data from step b).
[38]Le label du phénotype attribué à chaque sujet d’entrainement dépend de la destinée du procédé selon l’invention et du type de données utilisées pour l’entrainement. Le jeu de données labellisées comprend au moins deux états différents pour les phénotypes et notamment des états antinomiques : un phénotype positif associé à un diagnostic/diagnostic prédictif positif et un phénotype négatif associé à un diagnostic/diagnostic prédictif négatif. Ainsi, pour un diagnostic, le phénotype de sujet d’entrainement peut être classé « non atteint » ou « atteint » de la pathologie ou l’état pathologique ou encore « sain » et « malade », ces types de classement étant synonymes. Pour un diagnostic prédictif, le phénotype de sujet d’entrainement peut être classé en « ayant développé » ou « n’ayant pas développé » la pathologie ou l’état pathologique ou encore « avec apparition » ou « sans apparition » de la pathologie ou l’état pathologique, ces types de classement étant synonymes. [38]The phenotype label assigned to each training subject depends on the purpose of the method according to the invention and the type of data used for training. The labeled data set includes at least two different states for the phenotypes and in particular antinomic states: a positive phenotype associated with a diagnosis/diagnosis positive predictive and a negative phenotype associated with a diagnosis/negative predictive diagnosis. Thus, for a diagnosis, the training subject phenotype can be classified as "not affected" or "affected" by the pathology or pathological condition or "healthy" and "sick", these types of classification being synonymous. For a predictive diagnosis, the training subject phenotype can be classified as "having developed" or "not having developed" the pathology or pathological condition or "with appearance" or "without appearance" of the pathology or pathological condition, these types of classification being synonymous.
[39]L’invention présente l’avantage d’entrainer plus efficacement le modèle d’intelligence artificielle en utilisant l’identité de l’ensemble des microorganismes identifiés dans le jeu de données labellisées. L’absence d’étape de présélection d’identité de microorganismes dans le jeu de données labellisées d’entrainement du modèle d’intelligence artificielle permet de conserver toute la diversité et la variabilité individuelle des microbiotes et toutes les interactions microbiennes associées dans le cadre d’une pathologie ou d’un état pathologique déterminé. [39]The invention has the advantage of training the artificial intelligence model more efficiently by using the identity of all the microorganisms identified in the labeled data set. The absence of a step of pre-selection of the identity of microorganisms in the labeled data set for training the artificial intelligence model makes it possible to preserve all the diversity and individual variability of the microbiotas and all the associated microbial interactions in the context of a specific pathology or pathological state.
[40]En outre, le procédé selon l’invention présente l’avantage de restreindre au minimum (voire de n’appliquer aucune restriction) l’exclusion des identités des microorganismes des données de l’étape b) transmises au modèle d’intelligence artificielle lors de l’étape c), permettant de conserver au maximum la diversité microbienne présente dans l’échantillon du sujet. En effet, la sélection des identités envoyées au modèle d’intelligence artificielle ne se fait aucunement sur la base d’une abondance relative trop faible dans l’échantillon du sujet ou du leur absence d’implication connue dans la pathologie ou l’état pathologique, mais seulement sur la base de leur présence dans le jeu de données d’entrainement. Ainsi, si le jeu de données est suffisamment grand et exhaustif, aucune identité de microorganismes n’est exclue des données transmises au modèle d’intelligence artificielle pour réaliser l’étape c). [40]In addition, the method according to the invention has the advantage of restricting to a minimum (or even of not applying any restriction) the exclusion of the identities of the microorganisms from the data from step b) transmitted to the artificial intelligence model during step c), making it possible to preserve as much as possible the microbial diversity present in the subject's sample. Indeed, the selection of the identities sent to the artificial intelligence model is in no way done on the basis of a relative abundance that is too low in the subject's sample or their absence of known involvement in the pathology or pathological condition, but only on the basis of their presence in the training data set. Thus, if the data set is sufficiently large and exhaustive, no identity of microorganisms is excluded from the data transmitted to the artificial intelligence model to carry out step c).
[41 ]l I n’était pas évident qu’employer l’identité de l’ensemble des microorganismes sans sélection préalable lors de l’entrainement puisse donner des résultats pertinents. Cela est même contraire à ce qui était attendu. En effet, il est traditionnellement considéré que des données complexes de haute dimensionnalité, utilisées en entrée d’un modèle d’intelligence artificielle, peuvent contenir du bruit et des informations non pertinentes qui peuvent nuire à l’apprentissage et donc aux performances du modèle (Botteghi, N., Guo, M. & Brune, C. Deep kernel learning of dynamical models from high-dimensional noisy data. Sci Rep 12, 21530 (2022)). La recherche de signatures microbiennes pour le diagnostic et le diagnostic prédictif de pathologies et d’états pathologiques est particulièrement complexe du fait des très fortes variations interindividuelles du microbiote. Le microbiote de chaque individu est effectivement influencé par de nombreux facteurs relevant notamment du mode de vie, de l’alimentation et de l’environnement de ce dernier. C’est d’ailleurs pourquoi, bien qu’à ce jour, plusieurs techniques d’analyse du microbiote existent, elles ne permettent pas une caractérisation précise entre microbiotes et pathologies, du risque de développer lesdites pathologies, ou de l’évolution de ces dernières. Ainsi, le résultat le plus probable aurait était l’obtention d’un grand nombre de diagnostic faux positifs ou faux négatifs. [41] It was not clear that using the identity of all microorganisms without prior selection during training could give relevant results. This is even contrary to what was expected. Indeed, it is traditionally considered that complex high-dimensional data, used as input to an artificial intelligence model, can contain noise and irrelevant information that can harm learning and therefore the performance of the model (Botteghi, N., Guo, M. & Brune, C. Deep kernel learning of dynamical models from high-dimensional noisy data. Sci Rep 12, 21530 (2022)). The search for microbial signatures for the diagnosis and predictive diagnosis of pathologies and pathological conditions is particularly complex due to the very strong inter-individual variations in the microbiota. The microbiota of each individual is indeed influenced by many factors including the latter's lifestyle, diet and environment. This is also why, although to date, several Although microbiota analysis techniques exist, they do not allow for a precise characterization between microbiotas and pathologies, the risk of developing said pathologies, or the evolution of the latter. Thus, the most likely result would have been to obtain a large number of false positive or false negative diagnoses.
[42]C’est pourquoi, alors que l’état de l’art montrait que la complexité des microbiotes rendait difficile la détermination des signatures microbiennes spécifiques et prédictives caractéristiques d’un état pathologique ou d’une pathologie, situation rendue d’autant plus complexe du fait de très fortes variations interindividuelles, tous ensemble ces aspects complexes transmis au modèle d’intelligence artificielle préalablement entrainé selon l’invention ont permis contre toute attente d’obtenir des résultats de diagnostic prédictif et de diagnostic d’une grande finesse, fiables, reproductibles et relativement rapides à mettre en œuvre. Le procédé de l’invention répond ainsi à un besoin clinique auparavant non satisfait et fournit une information simple et de qualité à un clinicien. [42]This is why, while the state of the art showed that the complexity of microbiotas made it difficult to determine specific and predictive microbial signatures characteristic of a pathological state or pathology, a situation made all the more complex by the very strong inter-individual variations, all together these complex aspects transmitted to the artificial intelligence model previously trained according to the invention made it possible, against all expectations, to obtain predictive and diagnostic results of great precision, reliability, reproducibility and relatively quick to implement. The method of the invention thus meets a previously unmet clinical need and provides simple and quality information to a clinician.
[43]ll s’agit donc ici d’une avancée majeure permettant de révéler des liens entre ces communautés de microorganismes et des pathologies et états pathologiques, que ces derniers soient déjà présents chez le sujet, qu’ils évoluent ou bien qu’ils se développent ou surviennent a posteriori. L’établissement de diagnostics prédictifs permettent avantageusement d’anticiper les prises en charge du sujet, voire d’effectuer des traitements préventifs. [43]This is therefore a major advance that allows us to reveal links between these communities of microorganisms and pathologies and pathological conditions, whether these are already present in the subject, whether they are evolving or whether they develop or occur a posteriori. The establishment of predictive diagnoses advantageously allows us to anticipate the subject's care, or even to carry out preventive treatments.
[44]Le procédé de l’invention prend en compte comme identité de chaque microorganisme la classification par rang taxonomique, ce rang étant de préférence l’espèce du microorganisme. Aucune présélection n’est réalisée lors de l’identification, notamment sur la base de leur abondance relative et/ou de leur implication connue dans le diagnostic ou le diagnostic prédictif. [44]The method of the invention takes into account as the identity of each microorganism the classification by taxonomic rank, this rank preferably being the species of the microorganism. No preselection is carried out during the identification, in particular on the basis of their relative abundance and/or their known involvement in the diagnosis or predictive diagnosis.
[45]Selon un mode de réalisation, les microorganismes du jeu de données labellisées ainsi que ceux de l’étape b) sont identifiés au niveau du même rang taxonomique. Ce rang est notamment choisi depuis le phylum jusqu’à l’espèce, et est de préférence l’espèce. [45]According to one embodiment, the microorganisms of the labeled data set as well as those of step b) are identified at the level of the same taxonomic rank. This rank is notably chosen from the phylum to the species, and is preferably the species.
[46]Alternativement, lors de l’entrainement du modèle d’intelligence artificielle et lors de l’étape b), l’identité de chaque microorganisme correspond au rang taxonomique le plus confiant, qui peut être une espèce, un genre, une famille, un ordre, une classe ou un phylum. Ainsi dans ce cas, que ce soit pour le jeu de données labellisées ou l’identification de l’étape b), les identités des microorganismes n’auront pas toute le même rang. Cet aspect permet de manière avantageuse de conserver la maximum d’exhaustivité du jeu de données labellisées lors de l’entrainement du modèle d’intelligence. Dans le cas où il n’est pas possible d’attribuée une espèce à une séquence nucléotidique ou à un ensemble de séquences, il lui/leur sera attribuée le niveau taxonomique le plus confiant, qui pourra être un genre, une famille, un ordre, une classe ou un phylum, (et potentiellement suivi du terme « non classé »), ainsi que son/leur abondance. [46]Alternatively, when training the artificial intelligence model and during step b), the identity of each microorganism corresponds to the most confident taxonomic rank, which can be a species, a genus, a family, an order, a class or a phylum. Thus in this case, whether for the labeled dataset or the identification of step b), the identities of the microorganisms will not all have the same rank. This aspect advantageously allows to preserve the maximum exhaustiveness of the labeled dataset when training the intelligence model. In the case where it is not possible to assign a species to a nucleotide sequence or to a set of sequences, it/they will be assigned the most confident taxonomic level, which can be a genus, a family, an order, a class or phylum, (and potentially followed by the term “unclassified”), as well as its/their abundance.
[47]Par « rang taxonomique le plus confiant », on entend le rang taxonomique le plus précis obtenable à partir de la séquence nucléotidique ou de l’ensemble de séquence nucléotidique utilisé pour identifier un microorganisme. L’obtention du rang le plus confiant dépend de différents facteurs, décrits en détail plus loin. [47] “Most confident taxonomic rank” means the most precise taxonomic rank obtainable from the nucleotide sequence or set of nucleotide sequences used to identify a microorganism. Obtaining the most confident rank depends on several factors, described in detail below.
[48]La diversité des microbiotes donnée au modèle d’intelligence artificielle lors de son entrainement peut être assurée par l’emploi de données de sujets d’entrainement d’origines multinationales, notamment multi-continentales, notamment encore de l’ensemble des continents. Ainsi, les sujets d’entrainement sont répartis en différents groupes d’origine géographique. En particulier, la répartition des sujets dans les différents groupes est la plus représentative possible de la diversité géographique. [48]The diversity of microbiotas given to the artificial intelligence model during its training can be ensured by using data from training subjects of multinational origins, in particular multi-continental, in particular from all continents. Thus, the training subjects are divided into different groups of geographical origin. In particular, the distribution of subjects in the different groups is as representative as possible of geographical diversity.
[49]Selon un mode de réalisation de l’invention, le jeu de données labellisées comprend au moins une donnée clinique déterminée, où chaque profil de sujet d’entrainement comprend une valeur pour la ou chaque donnée clinique déterminée, et où l’étape c) comprend la fourniture au modèle d’intelligence artificielle de la valeur correspondante du sujet pour la ou chaque donnée clinique déterminée. [49]According to one embodiment of the invention, the labeled data set comprises at least one determined clinical data item, where each training subject profile comprises a value for the or each determined clinical data item, and where step c) comprises providing the artificial intelligence model with the corresponding value of the subject for the or each determined clinical data item.
[50]Selon un mode de réalisation de l’invention, le procédé selon l’invention présente ainsi l’avantage, à partir d’un simple prélèvement de microbiote vaginal pendant la grossesse, au 1er trimestre et/ou au 2ème trimestre et/ou 3ème trimestre, et de son séquençage, de prédire avec une forte certitude la survenue d’une naissance prématurée ou d’une naissance à terme. [50]According to one embodiment of the invention, the method according to the invention thus has the advantage, from a simple sample of vaginal microbiota during pregnancy, in the 1st trimester and/or in the 2nd trimester and/or 3rd trimester, and its sequencing, of predicting with high certainty the occurrence of a premature birth or a full-term birth.
[51]Notamment, le procédé de l’invention permet le diagnostic prédictif de la survenue d’un accouchement prématuré dont l’exactitude peut notamment atteindre 88 %. Un tel degré de fiabilité est non égalé parmi les procédés de diagnostic d’accouchement prématuré à ce jour. [51]In particular, the method of the invention allows the predictive diagnosis of the occurrence of premature birth, the accuracy of which can reach 88%. Such a degree of reliability is unmatched among the methods for diagnosing premature birth to date.
[52]Selon un autre mode de réalisation, le procédé selon l’invention présente également l’avantage, à partir d’un simple prélèvement de microbiote dans les selles d’un sujet, et de son séquençage, de déterminer avec une forte certitude le développement d’une maladie de l’appareil digestif ou d’une maladie extra-digestive. Cette approche peut avantageusement être utilisée dans le cadre de médecine personnalisée pour évaluer la pertinence d’un suivi clinique plus précis et/ou le recours à un traitement thérapeutique. [52]According to another embodiment, the method according to the invention also has the advantage, from a simple sample of microbiota in the stools of a subject, and its sequencing, of determining with high certainty the development of a disease of the digestive system or an extra-digestive disease. This approach can advantageously be used in the context of personalized medicine to evaluate the relevance of more precise clinical monitoring and/or the use of therapeutic treatment.
[53]Ainsi, le procédé de l’invention permet une prédiction fiable de l’entérocolite ulcéro-nécrosante avec une exactitude pouvant notamment atteindre 94,9 %. Un tel degré de fiabilité est très utile pour identifier les nouveau-nés prématurés à risque, renforcer la surveillance et permettre des réponses thérapeutiques rapides évitant d'éventuels problèmes de santé graves. A cet effet, le procédé de l’invention permet de diagnostiquer précocement et très efficacement l’ECUN et de distinguer tout aussi efficacement les nourrissons non affectés. [53]Thus, the method of the invention allows a reliable prediction of ulcerative necrotizing enterocolitis with an accuracy of up to 94.9%. Such a degree of reliability is very useful for identifying premature newborns at risk, strengthening monitoring and allowing rapid therapeutic responses avoiding possible serious health problems. To this end, the method of the invention allows early and very effective diagnosis of ECUN and equally effective distinction of unaffected infants.
[54]Selon un mode de réalisation de l’invention, le procédé est destiné au diagnostic prédictif du diabète de type I chez un enfant. Le procédé selon l’invention, de manière similaire permet également de prédire de manière fiable la survenue d’un diabète de type I (DT1), avec une exactitude pouvant notamment atteindre 73,6 %. Le procédé de l’invention permet ainsi d’identifier précocement des enfants à haut risque de développer une auto-immunité puis un diabète permettrait une révolution thérapeutique vers une médecine préventive personnalisée pour éviter les conséquences handicapantes de la pathologie. [54]According to one embodiment of the invention, the method is intended for the predictive diagnosis of type I diabetes in a child. The method according to the invention, in a similar manner, also makes it possible to reliably predict the occurrence of type I diabetes (T1D), with an accuracy of up to 73.6% in particular. The method of the invention thus makes it possible to identify early on children at high risk of developing autoimmunity and then diabetes, which would allow a therapeutic revolution towards personalized preventive medicine to avoid the disabling consequences of the pathology.
[55]Selon un mode de réalisation de l’invention, le procédé a pour but un diagnostic prédictif du sepsis néonatal chez un nourrisson. Le procédé selon l’invention permet encore de prédire de manière fiable la survenue de sepsis, avec une exactitude pouvant atteindre 92,3 %. Le procédé de l’invention permet ainsi d’identifier les nouveau-nés prématurés à risque, renforcer la surveillance et d’adapter le traitement au profil de ces bactéries impliquées dans la pathologie. [55]According to one embodiment of the invention, the method aims at a predictive diagnosis of neonatal sepsis in an infant. The method according to the invention also makes it possible to reliably predict the occurrence of sepsis, with an accuracy of up to 92.3%. The method of the invention thus makes it possible to identify premature newborns at risk, to strengthen monitoring and to adapt treatment to the profile of these bacteria involved in the pathology.
[56]L’invention a également pour objet un procédé d’entrainement d’un modèle d’intelligence artificielle destiné à obtenir un diagnostic ou un diagnostic prédictif, ledit procédé utilisant un jeu de données labellisées comprenant des profils de sujets d’entrainement, où chaque profil de sujet d’entrainement comprend l’identité et l’abondance relative de l’ensemble des microorganismes identifiés dans au moins un échantillon dudit sujet d’entrainement sans aucune présélection, et où chaque profil est labellisé avec le phénotype du sujet d’entrainement dont il est issu. [56]The invention also relates to a method for training an artificial intelligence model intended to obtain a diagnosis or a predictive diagnosis, said method using a labeled data set comprising profiles of training subjects, where each training subject profile comprises the identity and relative abundance of all the microorganisms identified in at least one sample of said training subject without any preselection, and where each profile is labeled with the phenotype of the training subject from which it originates.
[57]Les caractéristiques décrites plus haut et plus bas en relation avec le jeu de données labellisés et de manière générale au modèle d’intelligence artificielle et à son entrainement s’appliquent mutatis mutandis au présent objet. [57]The characteristics described above and below in relation to the labeled dataset and in general to the artificial intelligence model and its training apply mutatis mutandis to the present object.
[58]Le procédé d’entrainement selon l’invention permet d’obtenir un modèle d’intelligence artificielle plus fiable et plus précis dans ces prédictions, pour les raisons susmentionnées. [58]The training method according to the invention makes it possible to obtain a more reliable and more precise artificial intelligence model in these predictions, for the aforementioned reasons.
[59]Ce procédé d’entrainement a notamment permis d’identifier des microorganismes qui seraient des acteurs clés de diverses pathologies, d’états pathologiques et d’absence de ces derniers. Des microorganismes peuvent ainsi être identifiés comme pouvant jouer le rôle de probiotiques ou pour le développement de nouveaux traitements, voire de nouveaux diagnostics et diagnostic prédictif. Dans ce cadre, grâce au procédé selon l’invention, les inventeurs ont pu constater l’association de plusieurs espèces de microorganismes à la présence d’une pathologie donnée, d’une part, et constater l’association de plusieurs espèces de microorganismes à l’absence d’une pathologie donnée, d’autre part. [59]This training method has in particular made it possible to identify microorganisms that would be key players in various pathologies, pathological states and absences of the latter. Microorganisms can thus be identified as being able to play the role of probiotics or for the development of new treatments, or even new diagnostics and predictive diagnostics. In this context, thanks to the method according to the invention, the inventors were able to observe the association of several species of microorganisms with the presence of a given pathology, on the one hand, and observe the association of several species of microorganisms with the absence of a given pathology, on the other hand.
[60]Notamment, les inventeurs ont constaté que plusieurs espèces de Lactobacillus étaient associées à des cas non-ECU N, tandis que plusieurs autres espèces bactériennes telles que : Enterobacter non classées, Enterobacteriaceae non classées, Enterococcus faecalis, Klebsiella non classées, Haemophilus parainfluenzae, Enterococcus durans et Enterobacter cancerogenus étaient associées aux cas d’ECU N. Ces résultats suggèrent que le diagnostic du sujet est fonction à la fois des taxons dominants, sous-dominants voire rares, soulignant qu'aucune espèce individuelle ou groupe taxonomique d'espèces n'est exclusivement responsable d'un risque accru d’ECUN. Au lieu de cela, sans être tenus par aucune théorie, les inventeurs suggèrent probable que divers consortia microbiens puissent provoquer des cascades inflammatoires entraînant l’apparition de l’ECUN. [60]Notably, the inventors found that several Lactobacillus species were associated with non-ECUN cases, while several other bacterial species such as: unclassified Enterobacter, unclassified Enterobacteriaceae, Enterococcus faecalis, unclassified Klebsiella, Haemophilus parainfluenzae, Enterococcus durans, and Enterobacter cancerogenus were associated with ECUN cases. These findings suggest that the subject's diagnosis is a function of both dominant, subdominant, and even rare taxa, emphasizing that no individual species or taxonomic group of species is exclusively responsible for an increased risk of ECUN. Instead, without being bound by any theory, the inventors suggest it is likely that various microbial consortia may cause inflammatory cascades leading to the onset of ECUN.
[61]Les données obtenues à l’aide du procédé d’entrainement permettent donc en outre de disposer d’une cartographie précise des microorganismes associés à la présence d’un état pouvant conduire à une pathologie ou un état pathologique, et des microorganismes associés à l’absence d’un état conduisant à une pathologie ou d’un état pathologique, d’autre part. [61]The data obtained using the training process therefore also make it possible to have a precise mapping of the microorganisms associated with the presence of a state which could lead to a pathology or a pathological state, and of the microorganisms associated with the absence of a state leading to a pathology or a pathological state, on the other hand.
[62]Selon un aspect particulier, le procédé selon l’invention présente également l’avantage de ne pas augmenter le nombre d’examens obstétriques sur les femmes enceintes réalisés au cours de la grossesse, dans la mesure où l’échantillon vaginal peut être récupéré au cours d’un examen déjà programmé. [62]According to a particular aspect, the method according to the invention also has the advantage of not increasing the number of obstetric examinations on pregnant women carried out during pregnancy, since the vaginal sample can be recovered during an examination already scheduled.
[63]Selon un autre aspect particulier, le procédé selon l’invention permet avantageusement de réaliser des interventions thérapeutiques précoces afin de prévenir le développement ou les pires complications d’une pathologie extra-digestive à partir de l’analyse du microbiome intestinal, ou fécal, d’un sujet. [63]According to another particular aspect, the method according to the invention advantageously makes it possible to carry out early therapeutic interventions in order to prevent the development or the worst complications of an extra-digestive pathology based on the analysis of the intestinal or fecal microbiome of a subject.
[64]La présente invention a également pour objet un produit programme d’ordinateur comprenant des instructions exécutables, qui lorsqu’elles sont exécutées sur un ordinateur permettent la mise en œuvre de l’étape c) de détermination du diagnostic/diagnostic prédictif du procédé selon l’invention. Les caractéristiques précédemment et subséquemment décrites en relation avec le modèle d’intelligence artificielle s’appliquent mutatis mutandis au présent objet. [64]The present invention also relates to a computer program product comprising executable instructions, which when executed on a computer allow the implementation of step c) of determining the diagnosis/predictive diagnosis of the method according to the invention. The characteristics previously and subsequently described in relation to the artificial intelligence model apply mutatis mutandis to the present subject.
[65]Selon un mode de réalisation de l’invention, le produit programme d’ordinateur comprend des instructions permettant le diagnostic prédictif d’un accouchement prématuré chez un sujet. [66]Selon un mode de réalisation, le produit programme d’ordinateur comprend des instructions permettant le diagnostic prédictif d’ECUN chez un sujet. [65]According to one embodiment of the invention, the computer program product comprises instructions enabling the predictive diagnosis of premature delivery in a subject. [66]According to one embodiment, the computer program product comprises instructions enabling the predictive diagnosis of ECUN in a subject.
[67]Selon un mode de réalisation, le produit programme d’ordinateur comprend des instructions permettant le diagnostic prédictif du diabète de type I chez un sujet. [67]According to one embodiment, the computer program product comprises instructions enabling the predictive diagnosis of type I diabetes in a subject.
[68]Selon un mode de réalisation, le produit programme d’ordinateur comprend des instructions permettant le diagnostic prédictif du sepsis chez un sujet. [68]According to one embodiment, the computer program product comprises instructions enabling the predictive diagnosis of sepsis in a subject.
[69]L’invention a également pour objet l’utilisation d’un produit programme d’ordinateur selon l’invention pour le diagnostic/diagnostic prédictif d’une pathologie ou d’un état pathologique. Les caractéristiques précédemment et subséquemment décrites en relation avec le procédé de diagnostic/diagnostic prédictif selon l’invention s’appliquent mutatis mutandis au présent objet. [69]The invention also relates to the use of a computer program product according to the invention for the diagnosis/predictive diagnosis of a pathology or a pathological condition. The characteristics previously and subsequently described in relation to the diagnostic/predictive diagnosis method according to the invention apply mutatis mutandis to the present subject.
[70]L’invention a enfin pour objet la prise en charge ou le traitement d’un sujet dont le diagnostic ou le diagnostic positif à une pathologie ou à un état pathologique a été déterminé comme positif grâce au procédé de diagnostic/diagnostic prédictif de l’invention. Ledit traitement peut être un traitement curatif ou bien un traitement prophylactique en fonction de la situation. La prise en charge peut être une surveillance clinique renforcée, notamment dans le cadre du diagnostic prédictif d’un accouchement prématuré. [70]The invention finally relates to the management or treatment of a subject whose diagnosis or positive diagnosis of a pathology or pathological condition has been determined as positive using the diagnostic/predictive diagnostic method of the invention. Said treatment may be a curative treatment or a prophylactic treatment depending on the situation. The management may be enhanced clinical monitoring, particularly in the context of the predictive diagnosis of premature birth.
Description détaillée de l’invention Detailed description of the invention
[71]La présente invention a ainsi pour premier objet un procédé, notamment in vitro, de diagnostic ou de diagnostic prédictif d’une pathologie ou d’un état pathologique chez un sujet, à partir d’au moins un échantillon biologique prélevé chez le sujet et contenant des microorganismes. [71]The present invention thus has as its first object a method, in particular in vitro, for diagnosis or predictive diagnosis of a pathology or a pathological state in a subject, from at least one biological sample taken from the subject and containing microorganisms.
[72]Par « diagnostic », on entend dans l’invention la détermination de la présence ou de l’absence d’une pathologie ou d’un état pathologique chez un sujet. Un diagnostic positif est compris dans l’invention comme correspondant à la détermination de la présence de la pathologie ou de l’état pathologique chez le sujet. Un diagnostic négatif est compris comme correspondant à la détermination de l’absence de la pathologie ou de l’état pathologique chez le sujet. [72]By “diagnosis” is meant in the invention the determination of the presence or absence of a pathology or pathological condition in a subject. A positive diagnosis is understood in the invention as corresponding to the determination of the presence of the pathology or pathological condition in the subject. A negative diagnosis is understood as corresponding to the determination of the absence of the pathology or pathological condition in the subject.
[73]Par « diagnostic prédictif », on entend dans l’invention la détermination du risque de développer/de survenue/d’apparition une pathologie ou la survenue d’un état pathologique chez un sujet ne présentant aucun symptôme. Le diagnostic prédictif positif est compris dans la présente invention comme un fort risque d’apparition de la pathologie ou de l’état pathologique. A l’inverse, un diagnostic prédictif négatif est compris dans la présente invention comme un faible risque d’apparition de la pathologie ou de l’état pathologique. [74]Un diagnostic/diagnostic prédictif positif peut être considéré comme déterminé lorsque la certitude associée est de plus de 50%, de préférence une certitude supérieure ou égale à 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 %, 98 %, 99 % ou égale à 100 %. De même, un diagnostic/diagnostic prédictif négatif peut être considéré comme déterminé lors que la certitude associée est de plus de 50%, de préférence une certitude supérieure ou égale à 55 %, 60 %, 65 %, 70 %, 75 %, 80 %, 85 %, 90 %, 91 %, 92 %, 93 %, 94 %, 95 %, 96 %, 97 %, 98 %, 99 % ou égale à 100 %. [73]By "predictive diagnosis" is meant in the invention the determination of the risk of developing/occurring/appearing a pathology or the occurrence of a pathological condition in a subject not presenting any symptoms. The positive predictive diagnosis is understood in the present invention as a high risk of appearing the pathology or the pathological condition. Conversely, a negative predictive diagnosis is understood in the present invention as a low risk of appearing the pathology or the pathological condition. [74]A positive diagnosis/predictive diagnosis may be considered determined when the associated certainty is greater than 50%, preferably a certainty greater than or equal to 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% or equal to 100%. Similarly, a negative diagnosis/predictive diagnosis may be considered determined when the associated certainty is greater than 50%, preferably a certainty greater than or equal to 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% or equal to 100%.
[75]On entend par « pathologie » une maladie, un déséquilibre biologique ou un inconfort. La pathologie correspond notamment à une pathologie digestive, à une pathologie extra-digestive ou encore à une pathologie du nouveau-né, en particulier les entérocolites du type, plus particulièrement l’entérocolite ulcéro-nécrosante (ECIIN). Par « entérocolite ulcéro- nécrosante » on entend une maladie caractérisée par l’inflammation et la nécrose de la muqueuse intestinale. Encore plus particulièrement, parmi lesdites pathologies digestives on peut citer : les cancers digestifs, c’est-à-dire affectant au moins un des organes de l’appareil digestif, les maladies inflammatoires chroniques, telles que notamment la maladie de Crohn, la rectocolite hémorragique, le syndrome de l’intestin irritable et la maladie cœliaque. [75] “Pathology” means a disease, a biological imbalance or discomfort. The pathology corresponds in particular to a digestive pathology, an extra-digestive pathology or a pathology of the newborn, in particular enterocolitis of the type, more particularly ulcerative necrotizing enterocolitis (ECIIN). “Ulcerative necrotizing enterocolitis” means a disease characterized by inflammation and necrosis of the intestinal mucosa. Even more particularly, among said digestive pathologies, we can cite: digestive cancers, that is to say affecting at least one of the organs of the digestive system, chronic inflammatory diseases, such as in particular Crohn’s disease, ulcerative colitis, irritable bowel syndrome and celiac disease.
[76]La pathologie est avantageusement soit une pathologie de l’organe où est prélevé l’échantillon biologique, ou bien une pathologie d’un autre organe de l’environnement où l’échantillon est prélevé. [76]The pathology is advantageously either a pathology of the organ from which the biological sample is taken, or a pathology of another organ in the environment from which the sample is taken.
[77]Par « pathologie extra-digestive », on entend un état ou une pathologie n’affectant pas directement un organe du système digestif mais dont l’une des conséquences est susceptible d’affecter directement ou indirectement le microbiote de l’appareil digestif et réciproquement. Parmi les états et pathologies extra-digestives, ou non-digestives, dont un diagnostic prédictif peut être réalisé par un procédé selon l’invention, on peut citer : le diabète, le sepsis, l’obésité, les maladies cardio-vasculaires, les maladies métaboliques, les maladies hépatiques, les maladies rénales, les maladies uro-génitales, les maladies pulmonaires, les maladies articulaires, les maladies musculaires, les maladies inflammatoires, l’asthme, les allergies, l’arthrite, les maladies neurodégénératives (Parkinson, Alzheimer...), les maladies psychiatriques, les maladies comportementales, tous types de cancers pour tous types d’organes. [77] “Extra-digestive pathology” means a condition or pathology that does not directly affect an organ of the digestive system but one of the consequences of which is likely to directly or indirectly affect the microbiota of the digestive system and vice versa. Among the extra-digestive or non-digestive conditions and pathologies for which a predictive diagnosis can be carried out by a method according to the invention, we can cite: diabetes, sepsis, obesity, cardiovascular diseases, metabolic diseases, liver diseases, kidney diseases, urogenital diseases, pulmonary diseases, joint diseases, muscle diseases, inflammatory diseases, asthma, allergies, arthritis, neurodegenerative diseases (Parkinson's, Alzheimer's, etc.), psychiatric diseases, behavioral diseases, all types of cancer for all types of organs.
[78]Par « état pathologique », on entend un état d'altération des fonctions, de la morphologie ou de la santé d'un organe ou organisme dont on connait ou non la cause, et qui se caractérise par la présence ou l'absence d'un ou plusieurs signes. Un état pathologique correspond notamment à un accouchement prématuré. [79]Par « état ou pathologie du système digestif », on entend un état ou une pathologie affectant au moins un organe choisi parmi : la bouche, les glandes salivaires, le pharynx, l’œsophage, l’estomac, le pancréas, le foie, la vésicule biliaire, le canal cholédoque, l’intestin grêle et le gros intestin. Le gros intestin comprend le côlon ascendant, le colon transverse, le côlon sigmoïde et le rectum. Selon un aspect particulier du procédé de l’invention, ladite pathologie est une pathologie intestinale. [78]A "pathological condition" means a state of alteration of the functions, morphology or health of an organ or organism, the cause of which is known or unknown, and which is characterized by the presence or absence of one or more signs. A pathological condition includes, in particular, premature delivery. [79]By "condition or pathology of the digestive system" is meant a condition or pathology affecting at least one organ selected from: the mouth, the salivary glands, the pharynx, the esophagus, the stomach, the pancreas, the liver, the gallbladder, the bile duct, the small intestine and the large intestine. The large intestine includes the ascending colon, the transverse colon, the sigmoid colon and the rectum. According to a particular aspect of the method of the invention, said pathology is an intestinal pathology.
[80]On entend par « accouchement prématuré » un accouchement survenant avant le début de la 37ème semaine d’aménorrhée. [80]"Premature delivery" means delivery occurring before the start of the 37th week of amenorrhea.
[81]Selon un aspect particulier du procédé de l’invention, ladite pathologie est une pathologie digestive d’un sujet choisi parmi : les enfants, les nourrissons (les enfants au-delà de leurs premier mois de vie et jusqu’à l’âge de 24 ou 30 mois) et les nouveau-nés (enfants de moins de 28 jours selon la définition de l’Organisation Mondiale de la Santé), lesdits nouveau-nés étant nés à terme, soit entre la 37ème semaine et la fin de la 40ème semaine d’aménorrhée, ou prématurés, c’est-à-dire nés avant la 37ème semaine d’aménorrhée. [81]According to a particular aspect of the method of the invention, said pathology is a digestive pathology of a subject chosen from: children, infants (children beyond their first month of life and up to the age of 24 or 30 months) and newborns (children under 28 days according to the definition of the World Health Organization), said newborns being born at term, i.e. between the 37th week and the end of the 40th week of amenorrhea, or premature, i.e. born before the 37th week of amenorrhea.
[82]On entend par « sujet », un animal ou un être humain, l’animal étant notamment un mammifère. Selon un mode de réalisation particulier de l’invention, le stade de développement du sujet est choisi parmi : adulte (à partir de 18 ans), adolescent (12 - 17 ans), enfant (2 - 11 ans), nourrisson (28 jours - 23 mois), nouveau-né (0 - 27 jours) et nouveau-né prématuré (< 37 semaines d’aménorrhée). Selon un aspect particulier du procédé de l’invention, le sujet est une femme enceinte, un nouveau-né, un nourrisson ou un enfant humain. [82]The term “subject” means an animal or a human being, the animal being in particular a mammal. According to a particular embodiment of the invention, the stage of development of the subject is chosen from: adult (from 18 years), adolescent (12 - 17 years), child (2 - 11 years), infant (28 days - 23 months), newborn (0 - 27 days) and premature newborn (< 37 weeks of amenorrhea). According to a particular aspect of the method of the invention, the subject is a pregnant woman, a newborn, an infant or a human child.
[83]On entend par « échantillon biologique », tout échantillon du sujet contenant des microorganismes. En particulier, ledit échantillon biologique est choisi parmi : un prélèvement de l’appareil digestif, un prélèvement d’excrétions, en particulier un échantillon de selle du sujet, un prélèvement vaginal, un prélèvement cervical, un prélèvement cutané, et tout autre prélèvement biologique contenant des microorganismes. [83]The term “biological sample” means any sample from the subject containing microorganisms. In particular, said biological sample is chosen from: a sample from the digestive system, a sample of excretions, in particular a sample of stool from the subject, a vaginal sample, a cervical sample, a skin sample, and any other biological sample containing microorganisms.
[84]Le prélèvement de l’échantillon est en particulier réalisé de manière conventionnelle et bien connue par une personne spécialiste. Un échantillon biologique donné comprend une communauté de microorganismes désignée par le terme « microbiote ». [84]The sample collection is carried out in particular in a conventional and well-known manner by a specialist. A given biological sample comprises a community of microorganisms designated by the term “microbiota”.
[85]Selon un mode de réalisation, l’échantillon peut correspondre au regroupement de plusieurs échantillons prélevés à des zones diverses d’une région de prélèvement chez le sujet, afin de tenter d’obtenir le maximum de diversité des microorganismes. [86]On entend par « microorganisme », tout microorganisme unicellulaire ou multicellulaire tel que, mais sans limitation, les bactéries, les archées, les virus, les eucaryotes unicellulaires tels que les levures, etc. [85]According to one embodiment, the sample may correspond to the grouping of several samples taken from various areas of a sampling region in the subject, in order to attempt to obtain the maximum diversity of microorganisms. [86]“Microorganism” means any unicellular or multicellular microorganism such as, but not limited to, bacteria, archaea, viruses, unicellular eukaryotes such as yeasts, etc.
[87]Parmi les microbiotes hébergés par un sujet humain, on peut distinguer le microbiote cutané, le microbiote mucosal, le microbiote pulmonaire, le microbiote bucco-dentaire, le microbiote vaginal, le microbiote urinaire, et les microbiotes de l’appareil digestif (microbiote buccal ou salivaire, microbiote de l’estomac, microbiote de l’intestin grêle, microbiote colique, microbiote anal). Le microbiote présent dans les selles, ou microbiote fécal correspond à l’ensemble des microorganismes retrouvés dans les selles faisant suite au transit dans le système digestif d’un sujet, pouvant être le reflet du microbiote intestinal au sens large avec une plus forte proximité avec le microbiote colique. Des microorganismes transitoires peuvent aussi être retrouvés dans ce microbiote. On entend par « microbiome » l’ensemble des génomes portant les gènes hébergés par les microorganismes constituant le microbiote. Le microbiome peut aussi être considéré comme étant l’ensemble des microorganismes y compris leurs génomes dans un environnement biologique particulier comme par exemple le côlon. [87]Among the microbiota hosted by a human subject, we can distinguish the skin microbiota, the mucosal microbiota, the pulmonary microbiota, the oral microbiota, the vaginal microbiota, the urinary microbiota, and the microbiotas of the digestive system (oral or salivary microbiota, stomach microbiota, small intestine microbiota, colonic microbiota, anal microbiota). The microbiota present in the stools, or fecal microbiota, corresponds to all the microorganisms found in the stools following transit through the digestive system of a subject, which may reflect the intestinal microbiota in the broad sense with a closer proximity to the colonic microbiota. Transient microorganisms can also be found in this microbiota. The term "microbiome" refers to all the genomes carrying the genes hosted by the microorganisms constituting the microbiota. The microbiome can also be considered as the set of microorganisms including their genomes in a particular biological environment such as the colon.
[88]Par « appareil digestif » on entend l’ensemble des organes des animaux pluricellulaires qui reçoit la nourriture, la digère pour en extraire des nutriments et excrète les déchets sous forme de matière fécale. Parmi les organes de l’appareil digestif humain, on peut citer : la bouche, les glandes salivaires, le pharynx, l’œsophage, l’estomac, le pancréas, le foie, la vésicule biliaire, le canal cholédoque, l’intestin grêle et le gros intestin. Le gros intestin comprend le côlon ascendant, le colon transverse, le côlon sigmoïde et le rectum. Par « excrétion » on entend les déchets inutilisables ou toxiques qui sont rejetés par le sujet comme l’urine, les matières fécales ou selles, ou des produits de sécrétion comme la bile ou la salive. [88] "Digestive system" means the set of organs of multicellular animals that receives food, digests it to extract nutrients, and excretes waste in the form of fecal matter. The organs of the human digestive system include: the mouth, salivary glands, pharynx, esophagus, stomach, pancreas, liver, gallbladder, bile duct, small intestine, and large intestine. The large intestine includes the ascending colon, transverse colon, sigmoid colon, and rectum. "Excretion" means unusable or toxic waste that is excreted by the subject such as urine, feces, or stool, or secretion products such as bile or saliva.
Etape a) Step a)
[89]L’étape a) correspond au séquençage de l’acide nucléique des microorganismes présents dans le ou les échantillons biologiques, le dit acide nucléique ayant été au préalable isolé de l’échantillon. [89]Step a) corresponds to the sequencing of the nucleic acid of the microorganisms present in the biological sample(s), said nucleic acid having been previously isolated from the sample.
Extraction de l’acide nucléique depuis l’échantillon Extraction of nucleic acid from the sample
[90]On entend par « acide nucléique » l’ensemble des molécules d’acides nucléiques présentes dans l’échantillon biologique, notamment l’acide désoxyribonucléique (ADN) et l’acide ribonucléique (ARN), parmi lesquels respectivement les gènes exprimant l’ARN ribosomique (ARNr) 16S et/ou ceux exprimant l’ARNr 18S, en particulier l’ARNr et encore plus particulièrement l’ARNr 16S et l’ARNr 18S. [91 ]Par « gène exprimant l’ARNr 16S » on entend la séquence nucléotidique d’ADN comprenant la séquence nucléotidique codant l’ARNr 16S. Un gène exprimant un ARNr 16S est également appelé « ADNr 16S ». [90]The term “nucleic acid” means all nucleic acid molecules present in the biological sample, in particular deoxyribonucleic acid (DNA) and ribonucleic acid (RNA), including respectively the genes expressing 16S ribosomal RNA (rRNA) and/or those expressing 18S rRNA, in particular rRNA and even more particularly 16S rRNA and 18S rRNA. [91] "16S rRNA-expressing gene" means the DNA nucleotide sequence comprising the nucleotide sequence encoding the 16S rRNA. A gene expressing a 16S rRNA is also referred to as "16S rDNA".
[92]Par « gène exprimant l’ARNr 18S » on entend la séquence nucléotidique d’ADN comprenant la séquence nucléotidique d’ADN codant l’ARNr 18S. Un gène exprimant un ARNr 18S est également appelé « ADNr 18S ». [92]A “gene expressing 18S rRNA” means the DNA nucleotide sequence comprising the DNA nucleotide sequence encoding 18S rRNA. A gene expressing 18S rRNA is also referred to as “18S rDNA”.
[93]Les gènes exprimant la petite sous-unité de l’ARNr, c’est-à-dire les gènes appelés « ADNr 16S » pour les microorganismes procaryotes, tels que notamment les bactéries et les archées, et « ADNr 18S » pour les eucaryotes, incluant notamment les levures, sont utilisés pour permettre la description de la structure du microbiote (Chakoory ét al., 2022). [93]Genes expressing the small subunit of rRNA, i.e. genes called “16S rDNA” for prokaryotic microorganisms, such as bacteria and archaea, and “18S rDNA” for eukaryotes, including yeasts, are used to enable the description of the structure of the microbiota (Chakoory et al., 2022).
[94]Afin d’isoler l’acide nucléique depuis l’échantillon, tout kit commercial d’extraction d’acides nucléiques peut être utilisé. Il est à noter que le rendement (quantité d’acides nucléiques) des kits ainsi que la qualité des acides nucléiques peut varier en fonction du type d’échantillon. Il est en général nécessaire de comparer l’efficacité des kits pour sélectionner le plus performant. L’extraction peut être réalisée manuellement ou à l’aide d’automate. Outre les kits commerciaux, il existe des procédés d’extraction pour lesquels les réactifs sont produits directement en laboratoire. Il existe également des standards de protocole d’extraction ayant pour but d’homogénéiser les procédures d’extractions des acides nucléiques dans le monde entier. En particulier, dans le cadre de l’ECUN, il peut notamment être utilisé le protocole H publié par l’IHMS (International Human Microbiome Standards) pour l’extraction d’ADN à partir des selles de nouveau-nés: (voir IHMS (human-microbiome.org)). [94]In order to isolate the nucleic acid from the sample, any commercial nucleic acid extraction kit can be used. It should be noted that the yield (quantity of nucleic acids) of the kits as well as the quality of the nucleic acids can vary depending on the type of sample. It is generally necessary to compare the efficiency of the kits to select the most efficient one. The extraction can be carried out manually or using an automaton. In addition to commercial kits, there are extraction processes for which the reagents are produced directly in the laboratory. There are also extraction protocol standards aimed at homogenizing nucleic acid extraction procedures worldwide. In particular, in the context of ECUN, the H protocol published by the IHMS (International Human Microbiome Standards) can be used for DNA extraction from newborn stools: (see IHMS (human-microbiome.org)).
[95]Selon un mode de réalisation de l’invention, le procédé comprend l’isolement de l’acide nucléique issu d’une pluralité de microorganismes présents dans ledit échantillon biologique, en particulier de l’ensemble des microorganismes. [95]According to one embodiment of the invention, the method comprises the isolation of the nucleic acid from a plurality of microorganisms present in said biological sample, in particular from all of the microorganisms.
Séquençage de l’acide nucléique Nucleic acid sequencing
[96]L’acide nucléique isolé est ensuite séquencé afin d’obtenir les séquences nucléotidiques correspondant à au moins une séquence d’intérêt choisie dans le groupe consistant en : un fragment d’un gène exprimant l’ARNr 16S, un fragment d’un gène exprimant l’ARNr 18S, un fragment de l’ARNr 16S et un fragment de l’ARNr 18S (ci-après nommées « séquences d’intérêt »). En effet, l’ADNr 16S, l’ADNr 18s, l’ARNr 16S et l’ARNr 18S sont très conservés chez tous les microorganismes, mais comprennent aussi des variations discriminantes entre taxa qui permet ainsi d’analyser les séquences appartenant aux microorganismes et par ailleurs de les distinguer. Ainsi, le but de l’étape de séquençage est de récupérer l’ensemble des séquences correspondants à au moins une séquence d’intérêt. Bien entendu par « ensemble des séquences », il est entendu l’ensemble des séquences que la méthode de séquençage permet d’obtenir. Le point essentiel ici étant qu’il n’y a pas de discrimination de certaines séquences d’intérêt parmi celles trouvées dans l’échantillon, aucune présélection n’est effectuée. L’analyse utilise l’entièreté des données de séquençage. [96]The isolated nucleic acid is then sequenced in order to obtain the nucleotide sequences corresponding to at least one sequence of interest chosen from the group consisting of: a fragment of a gene expressing 16S rRNA, a fragment of a gene expressing 18S rRNA, a fragment of 16S rRNA and a fragment of 18S rRNA (hereinafter referred to as "sequences of interest"). Indeed, 16S rDNA, 18S rDNA, 16S rRNA and 18S rRNA are highly conserved in all microorganisms, but also include discriminating variations between taxa which thus makes it possible to analyze the sequences belonging to the microorganisms and also to distinguish them. Thus, the aim of the sequencing step is to recover all of the sequences corresponding to at least one sequence of interest. Of course, by "set of sequences" means the set of sequences that the sequencing method can obtain. The key point here is that there is no discrimination of certain sequences of interest among those found in the sample, no preselection is carried out. The analysis uses the entire sequencing data.
[97]Selon un mode de réalisation préféré, il est obtenu les séquences nucléotidiques correspondant à au moins une séquence d’intérêt choisie dans le groupe consistant en : un fragment d’un gène exprimant l’ARNr 16S et un fragment d’un gène exprimant l’ARNr 18S. [97]According to a preferred embodiment, the nucleotide sequences corresponding to at least one sequence of interest chosen from the group consisting of: a fragment of a gene expressing 16S rRNA and a fragment of a gene expressing 18S rRNA are obtained.
[98]On entend par « séquençage » tout procédé connu destiné à déterminer la séquence nucléotidique d’un acide nucléique. Parmi ces procédés, le séquençage métagénomique direct dit « shotgun » est préféré, et est notamment décrit dans le document Quince C, et al. Shotgun metagenomics, from sampling to analysis. Nat Biotechnol. 2017 Sep 12;35(9):833-844. Brièvement, ce type de séquençage comprend la fragmentation de l’acide nucléique isolé en fragments dont la taille varie en fonction de la plateforme de séquençage employée (typiquement de 200 à 550 pb en moyenne pour la plateforme Illumina® et de quelques dizaines de bases à > 100 000 pb pour la plateforme Nanopore®), qui sont subséquemment liés à des adaptateurs (spécifiques ici aussi à la plateforme employée) pour la préparation de la librairie de séquençage. Les librairies obtenues sont ensuite séquencées à l’aide d’une plateforme de séquençage haut débit (typiquement Illumina® ou Nanopore®). Les séquences obtenues sont ensuite filtrées de façon à retirer les séquences de mauvaise qualité et les séquences correspondant au génome du sujet, selon des principes bien établis dans le domaine technique. Les séquences filtrées sont ensuite organisées en vue de leur identification, comme vu plus loin en détail. [98] “Sequencing” means any known method for determining the nucleotide sequence of a nucleic acid. Among these methods, direct metagenomic sequencing known as “shotgun” is preferred, and is notably described in the document Quince C, et al. Shotgun metagenomics, from sampling to analysis. Nat Biotechnol. 2017 Sep 12;35(9):833-844. Briefly, this type of sequencing involves the fragmentation of the isolated nucleic acid into fragments whose size varies depending on the sequencing platform used (typically from 200 to 550 bp on average for the Illumina® platform and from a few dozen bases to > 100,000 bp for the Nanopore® platform), which are subsequently linked to adapters (here also specific to the platform used) for the preparation of the sequencing library. The libraries obtained are then sequenced using a high-throughput sequencing platform (typically Illumina® or Nanopore®). The sequences obtained are then filtered to remove poor quality sequences and sequences corresponding to the subject's genome, according to well-established principles in the technical field. The filtered sequences are then organized for identification, as seen in detail below.
[99]L’utilisation des données de séquençage d’Illumina® issues d’approches de capture de gènes par hybridation est aussi privilégiée et notamment décrite dans le document Comtet-Marre, Sophie & Chakoory, Oshma & Peyret, Pierre, (2022), Targeted 16S rRNA Gene Capture by Hybridization and Bioinformatic Analysis. Brièvement l’acide nucléique isolé est fragmenté et lié à des adaptateurs de séquençage de manière similaire à la méthode « shotgun ». En parallèle, des sondes oligonucléotidiques, notamment biotinylées, complémentaires des séquences d’intérêt sont synthétisées puis hybridées avec les librairies de séquençage. Les complexes formés sont capturés, notamment à l’aide de billes magnétiques recouvertes de streptavidine, et amplifiés par PCR à l’aide d’amorces complémentaires aux adaptateurs. Les fragments capturés et amplifiés sont séquencés avec une plateforme de séquençage haut débit, puis filtrées, comme décrit précédemment. Les séquences filtrées sont ensuite organisées. Ainsi, dans ce cadre, selon un mode de réalisation particulier de l’invention, ledit procédé comprend une étape préliminaire d’isolement spécifique de l’acide nucléique issu d’une pluralité de microorganismes présent dans ledit échantillon biologique. [100]Le séquençage peut également être du type « séquençage d’amplicons » ou « metabarcoding » notamment décrit dans le document Durazzi, F., Sala, C., Castellani, G. et al. Comparison between 16S rRNA and shotgun sequencing data for the taxonomie characterization of the gut microbiota. Sci Rep 11 , 3030 (2021). Néanmoins, ce type de séquençage est moins privilégié dans la mesure où il implique une amplification préliminaire par PCR de portions de l’ADNr 16S ou de l’ADNr 18S à l’aide d’amorces, notamment à l’aide d’amorces dites universelles qui peuvent conduire à une surreprésentation biaisée de certains microorganismes ou à l’exclusion de certains microorganismes. L’emploi d’amorces spécifiques de groupes taxonomiques microbiens peuvent également conduire à l’exclusion d’une partie des microorganismes présents dans l’échantillon analysé. Les séquences amplifiées sont liées à des adaptateurs spécifiques pour produire des banques de séquençage et séquencées à l’aide d’une plateforme de séquençage à haut débit, de manière similaire à ce qui est décrit au-dessus. [99]The use of Illumina® sequencing data from gene capture approaches by hybridization is also preferred and notably described in the document Comtet-Marre, Sophie & Chakoory, Oshma & Peyret, Pierre, (2022), Targeted 16S rRNA Gene Capture by Hybridization and Bioinformatic Analysis. Briefly, the isolated nucleic acid is fragmented and linked to sequencing adapters in a manner similar to the "shotgun" method. In parallel, oligonucleotide probes, in particular biotinylated, complementary to the sequences of interest are synthesized and then hybridized with the sequencing libraries. The complexes formed are captured, in particular using magnetic beads coated with streptavidin, and amplified by PCR using primers complementary to the adapters. The captured and amplified fragments are sequenced with a high-throughput sequencing platform, then filtered, as previously described. The filtered sequences are then organized. Thus, in this context, according to a particular embodiment of the invention, said method comprises a preliminary step of specific isolation of the nucleic acid from a plurality of microorganisms present in said biological sample. [100]Sequencing can also be of the "amplicon sequencing" or "metabarcoding" type, notably described in the document Durazzi, F., Sala, C., Castellani, G. et al. Comparison between 16S rRNA and shotgun sequencing data for the taxonomy characterization of the gut microbiota. Sci Rep 11 , 3030 (2021). However, this type of sequencing is less favored since it involves a preliminary PCR amplification of portions of the 16S rRNA or 18S rDNA using primers, in particular using so-called universal primers which can lead to a biased overrepresentation of certain microorganisms or to the exclusion of certain microorganisms. The use of primers specific to microbial taxonomic groups can also lead to the exclusion of some of the microorganisms present in the sample analyzed. The amplified sequences are ligated to specific adapters to produce sequencing libraries and sequenced using a high-throughput sequencing platform, similar to what is described above.
[101]Par « fragment » d’une séquence nucléotidique, il est entendu un fragment d’au moins 20% de la longueur de cette séquence. Par « un fragment d’au moins 20 % », on entend un fragment d’au moins 20 %, au moins 25 %, au moins 30 %, au moins 35 %, au moins 40 %, au moins 45 %, au moins 50 %, au moins 55 %, au moins 60 %, au moins 65 %, au moins 70 %, au moins 75 %, au moins 80 %, au moins 85 %, au moins 90 %, au moins 95 %, au moins 97 %, au moins 98 %, au moins 99 % ou 100 % de la séquence nucléotidique considérée. [101]A “fragment” of a nucleotide sequence means a fragment of at least 20% of the length of that sequence. A “fragment of at least 20%” means a fragment of at least 20%, at least 25%, at least 30%, at least 35%, at least 40%, at least 45%, at least 50%, at least 55%, at least 60%, at least 65%, at least 70%, at least 75%, at least 80%, at least 85%, at least 90%, at least 95%, at least 97%, at least 98%, at least 99% or 100% of the nucleotide sequence in question.
[102]Le fragment d’ADNr 16S et/ou d’ARNr 16S séquencé des microorganismes appartient notamment aux procaryotes. Additionnellement, le fragment d’ADNr 18S et/ou d’ARNr 18S appartient également aux eucaryotes et micro-eucaryotes. [102]The sequenced 16S rDNA and/or 16S rRNA fragment of microorganisms belongs in particular to prokaryotes. Additionally, the 18S rDNA and/or 18S rRNA fragment also belongs to eukaryotes and micro-eukaryotes.
Etape b) Step b)
[103]Le but de l’étape b) est d’identifier l’ensemble des microorganismes présents dans l’échantillon à partir du séquençage de l’étape a) ainsi que leur abondance relative, et de fournir des données pertinentes d’entrées au modèle d’intelligence artificielle pour la détermination du diagnostic. Ici encore par « ensemble des microorganismes », il est entendu la totalité des microorganismes identifiables selon la méthode de séquençage employée. Le fait d’identifier l’ensemble des microorganismes présents dans l’échantillon et de fournir cet ensemble (dépourvu des identités absentes du jeu d’entrainement) au modèle d’intelligence artificielle permet de conserver le maximum de variabilité individuelle du sujet ainsi que les interactions microbiennes associées dans le cadre d’une pathologie ou d’un état pathologique déterminé et d’assurer un diagnostic/diagnostic prédictif personnalisé. [103]The purpose of step b) is to identify all the microorganisms present in the sample from the sequencing of step a) as well as their relative abundance, and to provide relevant input data to the artificial intelligence model for determining the diagnosis. Here again, “set of microorganisms” means all the microorganisms identifiable according to the sequencing method used. Identifying all the microorganisms present in the sample and providing this set (without the identities absent from the training set) to the artificial intelligence model makes it possible to preserve the maximum individual variability of the subject as well as the associated microbial interactions in the context of a specific pathology or pathological condition and to ensure a personalized diagnosis/predictive diagnosis.
[104]A cet effet, selon un mode de réalisation de l’invention, le procédé comprend l’organisation des séquences séquencées pour reconstruire la séquence nucléotidique d’au moins une partie de gène exprimant l’ARNr 16S et/ou de gène exprimant l’ARNr 18S. En particulier, l’étape b) comprend notamment en premier lieu une étape d’organisation des séquences obtenues à l’étape a) par leur alignement avec des séquences connues de microorganismes présents dans une base de données. Lesdites séquences connues comprennent au moins ladite séquence d’intérêt sélectionnée pour le plus grand nombre de microorganismes connus, afin de déterminer des correspondances directes ou de reconstruire des séquences de nouveaux microorganismes et/ou d’obtenir des séquences plus longues afin d'augmenter la fiabilité de l’identité des microorganismes présents dans l’échantillon biologique du sujet. Dans le cadre du séquençage metabarcoding, l’organisation se fait notamment par correspondance directe. Dans le cadre de la méthode « shotgun » ou de la capture de gènes par hybridation, l’organisation peut se faire par correspondance directe et/ou reconstruction. [104]For this purpose, according to one embodiment of the invention, the method comprises organizing the sequenced sequences to reconstruct the nucleotide sequence of at least one part of a gene expressing 16S rRNA and/or of a gene expressing 18S rRNA. In particular, step b) comprises in particular firstly a step of organizing the sequences obtained in step a) by aligning them with known sequences of microorganisms present in a database. Said known sequences comprise at least said sequence of interest selected for the greatest number of known microorganisms, in order to determine direct correspondences or to reconstruct sequences of new microorganisms and/or to obtain longer sequences in order to increase the reliability of the identity of the microorganisms present in the biological sample of the subject. In the context of metabarcoding sequencing, the organization is done in particular by direct correspondence. In the context of the “shotgun” method or of gene capture by hybridization, the organization can be done by direct correspondence and/or reconstruction.
[105]L’ensemble déterminé de microorganismes est notamment sélectionné parmi ceux disponibles dans des bases de données en ligne, notamment publiques. Parmi ces bases de données publiques, la base SILVA (https://arb-silva.de). Un autre exemple de bases de données est la base « Greengenes » (https://greengenes.secondgenome.com/). La personne du métier peut ainsi aisément déterminer si une séquence nucléotidique donnée est issue d’un microorganisme connu ou inconnu, ou du sujet humain ou animal. [105]The determined set of microorganisms is in particular selected from those available in online databases, in particular public ones. Among these public databases, the SILVA database (https://arb-silva.de). Another example of databases is the “Greengenes” database (https://greengenes.secondgenome.com/). The person skilled in the art can thus easily determine whether a given nucleotide sequence comes from a known or unknown microorganism, or from a human or animal subject.
[106]Ainsi, selon un mode de réalisation particulier, le procédé selon l’invention comprend une étape de reconstruction d’au moins une partie de la séquence du gène exprimant l’ARNr 16S et/ou de la séquence du gène exprimant l’ARNr 18S des microorganismes présents dans l’échantillon biologique. Bien entendu, la longueur reconstructible dépend de la longueur séquencée du fragment de la séquence d’intérêt et de l’effort de séquençage c’est-à-dire du nombre de lectures généré lors du séquençage (profondeur de séquençage). [106] Thus, according to a particular embodiment, the method according to the invention comprises a step of reconstructing at least part of the sequence of the gene expressing the 16S rRNA and/or the sequence of the gene expressing the 18S rRNA of the microorganisms present in the biological sample. Of course, the reconstructable length depends on the sequenced length of the fragment of the sequence of interest and the sequencing effort, i.e. the number of readings generated during sequencing (sequencing depth).
[107]Plus particulièrement, dans un mode de réalisation particulier, lors de l’étape de reconstruction d’au moins une séquence nucléotidique, au moins 70 % de la longueur du gène exprimant l’ARNr 16S et/ou au moins 70 % de la longueur de l’ARNr 16S est reconstruite. Une augmentation de la taille de la partie reconstruite permet une meilleure finesse dans la détermination de l’identité du microorganisme, permettant d’aller jusqu’au rang taxonomique de l’espèce. La longueur d’un gène d’ADNr 16S étant d’environ 1500 paires de bases en moyenne, une séquence nucléotidique d’au moins 70 % de la longueur du gène comprend environ 1050 paires de bases, en moyenne. [107]More particularly, in a particular embodiment, during the step of reconstructing at least one nucleotide sequence, at least 70% of the length of the gene expressing the 16S rRNA and/or at least 70% of the length of the 16S rRNA is reconstructed. An increase in the size of the reconstructed part allows for greater precision in determining the identity of the microorganism, making it possible to go as far as the taxonomic rank of the species. The length of a 16S rDNA gene being approximately 1500 base pairs on average, a nucleotide sequence of at least 70% of the length of the gene comprises approximately 1050 base pairs, on average.
[108]Selon un mode de réalisation de l’invention, il utilise l’ensemble des données métagénomiques du microbiote qui permettent ensuite la reconstruction de séquences d’intérêt complètes et une affiliation précise des microorganismes de la communauté microbienne au niveau du genre ou de l’espèce, voire l’identification de nouveaux microorganismes. [109]L’étape d’organisation est notamment suivie d’une étape de classification par rangs taxonomiques des correspondances et/ou reconstructions permettant de déterminer l’identité des microorganismes présents dans l’échantillon biologique du sujet. [108]According to one embodiment of the invention, it uses all of the metagenomic data of the microbiota which then allow the reconstruction of complete sequences of interest and a precise affiliation of the microorganisms of the microbial community at the genus or species level, or even the identification of new microorganisms. [109]The organization step is notably followed by a classification step by taxonomic ranks of the correspondences and/or reconstructions making it possible to determine the identity of the microorganisms present in the subject's biological sample.
[110]L’identification peut notamment être complétée par des analyses phylogénétiques afin de situer les nouveaux microorganismes par rapport aux microorganismes connus les plus proches. [110]Identification can in particular be supplemented by phylogenetic analyses in order to situate the new microorganisms in relation to the closest known microorganisms.
[111]Par « détermination de l’identité », on entend l’identification des microorganismes, en suivant une nomenclature, organisée en catégories hiérarchisées (classification par rangs taxonomiques), autrement dit en rangs taxonomiques, ces catégories consistent en l’appartenance au domaine du vivant (rang le moins précis) à la définition de l’espèce (rang le plus précis). Les rangs taxonomiques d’intérêt s’étendent depuis le phylum jusqu’à l’espèce. La classification taxonomique est réalisée par comparaison de chaque séquence d’intérêt reconstruite ou dont la correspondance est attribuée avec, des séquences d’ADNr 16S et/ou des séquences d’ADNr 18S contenues dans des bases de données. Parmi les bases de données publiques utilisables, on peut notamment citer à nouveau la base SILVA. Le rang taxonomique le plus confiant identifiable dépend de plusieurs paramètres dont le type de séquençage, les paramètres du séquençage, l’ensemble déterminé de microorganismes employé pour l’alignement (voir plus bas), etc. L’invention présente ainsi l’avantage de prendre en compte chaque identification déterminée. Il n’y a ainsi aucune présélection réalisée, permettant de préserver toute la diversité de l’échantillon du sujet. Cette exhaustivité participe à l’obtention d’un diagnostic/diagnostic prédictif de plus grande qualité qu’avec les méthodes de l’art antérieur. Selon un mode de réalisation, le même rang taxonomique parmi les rangs taxonomiques d’intérêt est conservé pour l’ensemble des séquences. Selon un mode de réalisation préféré, le rang taxonomique le plus précis parmi les rangs taxonomiques d’intérêt pour chaque séquence est déterminé. Ce second aspect permet une meilleure identification de la diversité microbienne de l’échantillon, et assure un diagnostic plus fiable. [111]By “identity determination” we mean the identification of microorganisms, following a nomenclature, organized into hierarchical categories (classification by taxonomic ranks), in other words in taxonomic ranks, these categories consist of belonging to the domain of life (least precise rank) to the definition of the species (most precise rank). The taxonomic ranks of interest extend from the phylum to the species. The taxonomic classification is carried out by comparing each reconstructed sequence of interest or whose correspondence is attributed with 16S rDNA sequences and/or 18S rDNA sequences contained in databases. Among the public databases that can be used, we can notably cite again the SILVA database. The most confident taxonomic rank that can be identified depends on several parameters including the type of sequencing, the sequencing parameters, the determined set of microorganisms used for the alignment (see below), etc. The invention thus has the advantage of taking into account each determined identification. There is thus no preselection carried out, making it possible to preserve all the diversity of the subject's sample. This exhaustiveness contributes to obtaining a diagnosis/predictive diagnosis of higher quality than with the methods of the prior art. According to one embodiment, the same taxonomic rank among the taxonomic ranks of interest is preserved for all the sequences. According to a preferred embodiment, the most precise taxonomic rank among the taxonomic ranks of interest for each sequence is determined. This second aspect allows better identification of the microbial diversity of the sample, and ensures a more reliable diagnosis.
[112]Par « détermination de l’abondance relative », on entend la détermination pour chacun des microorganismes considérés pour le procédé selon l’invention, de l’abondance du microorganisme rapportée à l’abondance totale des microorganismes considérés pour le procédé selon l’invention. La détermination de l’abondance dépend de la méthode de séquençage employée, et est bien connue de l’homme du métier. [112]By “determination of the relative abundance” is meant the determination for each of the microorganisms considered for the method according to the invention, of the abundance of the microorganism relative to the total abundance of the microorganisms considered for the method according to the invention. The determination of the abundance depends on the sequencing method used, and is well known to those skilled in the art.
Etape c) Step c)
[113]Lors de cette étape, un modèle d’intelligence artificielle préalablement entraîné sur la base d’un jeu de données labellisées détermine le diagnostic/diagnostic prédictif sur la base des données obtenues à l’étape b). Le modèle d’intelligence artificielle peut également prendre en entrée en outre au moins une donnée clinique du sujet, comme il sera vu en détail plus loin. [113]In this step, an artificial intelligence model previously trained on the basis of a labeled data set determines the diagnosis/predictive diagnosis on the basis of the data obtained in step b). The artificial intelligence model can also take as input at least one clinical data of the subject, as will be seen in detail later.
[114]Le modèle d’intelligence artificielle présente ainsi une structure interne reflétant la relation entre d’une part (1) l’abondance relative des microorganismes au sein de l’échantillon, ainsi qu’optionnellement au moins une donnée clinique du sujet, et d’autre part (2) le diagnostic/diagnostic prédictif de la pathologie ou de l’état pathologique. [114]The artificial intelligence model thus presents an internal structure reflecting the relationship between on the one hand (1) the relative abundance of microorganisms within the sample, as well as optionally at least one clinical data of the subject, and on the other hand (2) the diagnosis/predictive diagnosis of the pathology or pathological state.
[115]Le modèle d’intelligence artificielle est un modèle d’apprentissage supervisé et correspond notamment à un modèle de classification, à un modèle d’apprentissage profond, à un réseau de neurones (en anglais « neural network » ou NN), à un réseau de neurones profonds (en anglais « deep neural network »), à un arbre de décision, à un modèle des K-plus proches voisins (en anglais « k-nearest neighbors » ou KNN), une forêt aléatoire (en anglais « random forest » ou RF), à une classification naïve bayésienne (en anglais « naive bayes » ou NB), à un algorithme « Boosting de gradient extrême» (en anglais Extreme gradient boosting ou XGBoost), à une régression logistique ou encore à une machine à vecteur de support (en anglais « support-vector machine » ou SVM). En particulier, le modèle d’intelligence artificielle est un réseau de neurones profonds avec une couche d’entrée composé de neurones équivalent au nombre de caractéristiques dans les données d’entrainement, suivi d’une ou plusieurs couches cachées et une couche de sortie qui donne le résultat du diagnostic/diagnostic prédictif. [115]The artificial intelligence model is a supervised learning model and corresponds in particular to a classification model, a deep learning model, a neural network (NN), a deep neural network, a decision tree, a K-nearest neighbors model (KNN), a random forest (RF), a naive Bayesian classification (NB), an “Extreme gradient boosting” algorithm (XGBoost), a logistic regression or a support vector machine (SVM). In particular, the artificial intelligence model is a deep neural network with an input layer composed of neurons equivalent to the number of features in the training data, followed by one or more hidden layers and an output layer which gives the result of the diagnosis/predictive diagnosis.
Entrainement Training
[116]Par « préalablement entraîné » on entend un processus permettant au modèle d’intelligence artificielle d’apprendre à partir d’un jeu de données d’entrainement labellisées à associer de manière pondérée l’identité et l’abondance de microorganismes présents dans des échantillons de sujets, et optionnellement au moins une donnée clinique de ces sujets, au diagnostic/diagnostic prédictif correspondant. [116]By “previously trained” we mean a process allowing the artificial intelligence model to learn from a set of labeled training data to associate in a weighted manner the identity and abundance of microorganisms present in samples of subjects, and optionally at least one clinical data of these subjects, with the corresponding diagnosis/predictive diagnosis.
[117]L’invention concerne ainsi également un procédé d’entrainement d’un modèle d’intelligence artificielle destiné à obtenir un diagnostic ou un diagnostic prédictif, ledit procédé utilisant un jeu de données labellisées. [117]The invention thus also relates to a method for training an artificial intelligence model intended to obtain a diagnosis or a predictive diagnosis, said method using a labeled data set.
[118]Le jeu de données labellisé ou jeu d’entrainement comprend des profils de sujets d’entrainement. Les sujets d’entrainements appartiennent à la même espèce que le sujet dont le ou les échantillons sont analysées dans le procédé de l’invention. De manière à renforcer l’entrainement, les sujets d’entrainements proviennent de manière avantageuse de divers nations, et notamment de divers continents. Une parité entre les types de sexe des sujets dans le jeu d’entrainement est également avantageux, en fonction bien entendu de la pathologie ou de l’état pathologique considéré. Ces différents aspects permettent d’obtenir une meilleure représentativité des microbiotes de sujet . En effet, contrairement à l’art antérieur qui se focalise sur une restriction des microorganismes analysés, le principe de l’invention est de conserver toute la diversité du microbiote de chacun des sujets d’entrainement, pour que le modèle d’intelligence artificielle puisse déterminer l’ensemble des relations possibles, indépendamment de tout biais introduit par les connaissances à un instant déterminé. Contrairement à ce qui pouvait être attendu avec des données d’entrées aussi complexes, les résultats obtenus suite à l’entrainement donne une excellente justesse de prédiction de diagnostic/diagnostic prédictif de l’état physiologique ou pathologique pour lequel le modèle d’intelligence artificielle a été entraîné. Les inventeurs ont ainsi pu montrer que des microorganismes avec une abondance relative très faible, généralement exclus de l’entrainement pour cette raison, se sont avérés très pertinents pour déterminer le diagnostic prédictif de pathologies et états pathologiques. Ce que l’on pouvait considéré comme du bruit précédemment, est démontré ici comme point discriminant. [118]The labeled data set or training set comprises profiles of training subjects. The training subjects belong to the same species as the subject whose sample(s) are analyzed in the method of the invention. In order to strengthen the training, the training subjects advantageously come from various nations, and in particular from various continents. Parity between the sex types of the subjects in the training set is also advantageous, depending of course on the pathology or of the pathological state considered. These different aspects make it possible to obtain a better representativeness of the subject's microbiotas. Indeed, unlike the prior art which focuses on a restriction of the microorganisms analyzed, the principle of the invention is to preserve all the diversity of the microbiota of each of the training subjects, so that the artificial intelligence model can determine all the possible relationships, independently of any bias introduced by the knowledge at a given time. Contrary to what could be expected with such complex input data, the results obtained following the training give an excellent accuracy of prediction of diagnosis/predictive diagnosis of the physiological or pathological state for which the artificial intelligence model was trained. The inventors were thus able to show that microorganisms with a very low relative abundance, generally excluded from the training for this reason, proved to be very relevant for determining the predictive diagnosis of pathologies and pathological states. What could previously be considered noise is demonstrated here as a discriminating point.
[119]Les sujets d’entrainement peuvent notamment être spécifiquement recrutés pour cet objectif, ou bien être issus d’une ou plusieurs bases de données, en particulier publiques, et plus particulièrement des bases de données de cohortes de sujets les plus exhaustives et diversifiées à disposition. Ces bases de données comprennent notamment des données de séquençage brutes issues d’un ou plusieurs échantillons de chaque sujet, et optionnellement au moins une donnée clinique de chaque sujet. [119]The training subjects may in particular be specifically recruited for this purpose, or may come from one or more databases, in particular public ones, and more particularly from the most exhaustive and diversified subject cohort databases available. These databases include in particular raw sequencing data from one or more samples from each subject, and optionally at least one clinical data from each subject.
[120]Les sujets d’entrainements sont notamment dissociés en deux groupes, à savoir un groupe d’entrainement et un groupe de test. Le groupe d’entrainement permet de former le modèle d’intelligence artificielle, et le groupe de test permet de qualifier ses performances. Typiquement, le groupe d’entrainement représente 80% de l’ensemble des sujets d’entrainement, et le groupe de test 20%. [120]The training subjects are notably divided into two groups, namely a training group and a test group. The training group is used to train the artificial intelligence model, and the test group is used to qualify its performance. Typically, the training group represents 80% of all training subjects, and the test group 20%.
[121]Les profils de sujets d’entrainement comprennent chacun l’identité et l’abondance relative des microorganismes identifiés présents dans au moins un échantillon du sujet d’entrainement, ainsi qu’optionnellement au moins une donnée clinique du sujet d’entrainement. Les abondances relatives sont notamment obtenues par la mise en œuvre des étapes a) et b) décrites ci-dessus sur des échantillons de sujets, ou de l’unique étape b) sur des données de séquençage d’échantillons de sujets. Les identités des microorganismes (et donc leur abondance) peuvent être restreintes pour l’entrainement à un même rang taxonomique donné de sorte que l’ensemble des microorganismes sont identifiés au niveau du même rang, partant du phylum et jusqu’à l’espèce. Mais aucune présélection n’est réalisée sur les microorganismes identifiés, notamment sur la base de leur abondance relative et/ou de leur implication connue dans le diagnostic ou le diagnostic prédictif. Selon un mode de réalisation préféré, aucune restriction quant au rang taxonomique n’est réalisée, et le rang taxonomique le plus confiant est conservé pour toutes les identités. [121]The training subject profiles each comprise the identity and relative abundance of the identified microorganisms present in at least one sample of the training subject, as well as optionally at least one clinical data of the training subject. The relative abundances are notably obtained by implementing steps a) and b) described above on samples of subjects, or the single step b) on sequencing data of samples of subjects. The identities of the microorganisms (and therefore their abundance) can be restricted for training to the same given taxonomic rank so that all of the microorganisms are identified at the level of the same rank, starting from the phylum and up to the species. However, no preselection is carried out on the identified microorganisms, notably on the basis of their relative abundance and/or their known involvement in the diagnosis or the predictive diagnosis. According to one embodiment preferred, no restriction on taxonomic rank is made, and the most confident taxonomic rank is retained for all identities.
[122]Lorsque le procédé de l’invention est destiné au diagnostic d’un accouchement précoce de la femme enceinte, le ou les échantillons de chaque sujet d’entrainement sont notamment prélevés au cours du même trimestre, et typiquement au cours du 1er, 2ème ou 3ème trimestre, voire du même mois. [122]When the method of the invention is intended for the diagnosis of early delivery of the pregnant woman, the sample(s) of each training subject are in particular taken during the same trimester, and typically during the 1st , 2nd or 3rd trimester, or even the same month.
[123]La supervision de l’apprentissage est réalisée par la labellisation des profils de sujets d’entrainement avec leur phénotype. Les sujets sont classés en au moins deux phénotypes, et de préférence en deux phénotypes antinomiques. Dans le cadre d’un diagnostic, les phénotypes des sujets sont notamment atteint/non atteint de la pathologie/de l’état pathologique. Concernant le diagnostic prédictif, les phénotypes des sujets sont notamment avec apparition/sans apparition de la pathologie ou de l’état pathologique. De manière avantageuse, le jeu d’entrainement comprend un nombre équilibré de chaque phénotype, ou bien une plus grande proportion de phénotype positif. [123]Learning supervision is achieved by labeling the profiles of training subjects with their phenotype. The subjects are classified into at least two phenotypes, and preferably into two opposing phenotypes. In the context of a diagnosis, the phenotypes of the subjects are notably affected/not affected by the pathology/pathological state. Concerning the predictive diagnosis, the phenotypes of the subjects are notably with appearance/without appearance of the pathology or pathological state. Advantageously, the training set includes a balanced number of each phenotype, or a greater proportion of positive phenotype.
[124]Les données des sujets d’entrainement sont notamment normalisées. Cette normalisation est en particulier du type min-max sur l’ensemble du jeu d’entrainement. Ce type de normalisation correspond à une transformation linéaire des caractéristiques dans une plage uniforme, tout en conservant tous les rapports de distance de la donnée d'origine. Cela est réalisé pour éviter que les valeurs numériques des caractéristiques (abondances des microorganismes) plus grandes ne surpassent celles des caractéristiques numériques plus petites, minimisant ainsi le biais dans la discrimination des états pathologiques. L'objectif principal est d'assurer la comparabilité des données à travers les échantillons microbiens ou les groupes d'échantillons, tels que ceux classés comme malades ou sains. En effet, la grande variabilité des tailles de des bases de données et de la profondeur de séquençage induit de fortes dépendances parmi les abondances des différents taxons. Ainsi, la normalisation des données garantit que toutes les caractéristiques (taxons) dans les données contribuent de manière égale au processus d'apprentissage, bien que toutes les caractéristiques ne soient pas également importantes pour la décision de classification. [124]The data of the training subjects are notably normalized. This normalization is in particular of the min-max type on the entire training set. This type of normalization corresponds to a linear transformation of the features in a uniform range, while preserving all the distance ratios of the original data. This is done to prevent the numerical values of the larger features (abundances of microorganisms) from surpassing those of the smaller numerical features, thus minimizing the bias in the discrimination of pathological states. The main objective is to ensure the comparability of the data across microbial samples or groups of samples, such as those classified as diseased or healthy. Indeed, the large variability of the sizes of the databases and the sequencing depth induces strong dependencies among the abundances of the different taxa. Thus, data normalization ensures that all features (taxa) in the data contribute equally to the learning process, although not all features are equally important for the classification decision.
[125]Lorsqu’au moins une donnée clinique est employée dans les données d’entrée en sus des données relatives aux microorganismes, elle est bien entendue pertinente vis-à-vis de la pathologie ou de l’état pathologique pour lequel le diagnostic/diagnostic prédictif est réalisé. Par « au moins une donnée clinique » on entend une, deux, trois, quatre, cinq, six, sept, huit, neuf, dix ou plus de dix données cliniques caractéristiques du sujet. [125]Where at least one clinical datum is used in the input data in addition to the data relating to microorganisms, it is of course relevant to the pathology or pathological condition for which the diagnosis/predictive diagnosis is carried out. By “at least one clinical datum” is meant one, two, three, four, five, six, seven, eight, nine, ten or more than ten clinical data characteristic of the subject.
[126]Notamment, dans le cas d’une pathologie du nouveau-né, les données cliniques peuvent appartenir au sujet lui-même ou bien à sa mère. Dans ce cadre, peut être notamment utilisée au moins une des données ci-dessous: [126]In particular, in the case of a newborn pathology, the clinical data may belong to the subject himself or to his mother. In this context, it may be used in particular: at least one of the following data:
- l’âge réel du sujet auquel le prélèvement a été effectué, en nombre de jours de vie - the actual age of the subject at which the sample was taken, in number of days of life
- le poids à la naissance du sujet, - the subject's birth weight,
- l’âge gestationnel de l’enfant à la naissance, - the gestational age of the child at birth,
- le mode de naissance (voie basse ou césarienne) du sujet, - the subject's mode of birth (vaginal or cesarean section),
- le genre du sujet (masculin, féminin), - the gender of the subject (masculine, feminine),
- le dosage de composants ou marqueurs sanguins du sujet ou de la mère, - the dosage of blood components or markers of the subject or the mother,
- le dosage de composants ou marqueurs fécaux du sujet ou de la mère, - the dosage of fecal components or markers of the subject or the mother,
- la présence d’au moins une autre pathologie chez le sujet ou bien la mère, - the presence of at least one other pathology in the subject or the mother,
- l’administration d’un traitement médical au sujet ou bien à la mère, - the administration of medical treatment to the subject or to the mother,
- l’ethnie/la nationalité de la mère, - the mother's ethnicity/nationality,
- l’alimentation de la mère et/ou du nouveau-né, - feeding the mother and/or newborn,
- le mode de vie de la mère (activité physique, consommation d’alcool, de tabac, de drogues, etc.). - the mother’s lifestyle (physical activity, consumption of alcohol, tobacco, drugs, etc.).
[127]Par « ethnie », on entend un groupe de personnes que rapprochent un certain nombre de caractères. Dans un procédé selon l’invention, la caractéristique « ethnie » est notamment choisie dans le groupe constitué par : « Africain-Américain », « Américain-Indien », « Noir », « Blanc », « Caucasien », « Hispanique », « Asiatique », « Multi-ethnie ». [127]By “ethnicity” is meant a group of people who are brought together by a certain number of characteristics. In a method according to the invention, the characteristic “ethnicity” is notably chosen from the group consisting of: “African-American”, “American-Indian”, “Black”, “White”, “Caucasian”, “Hispanic”, “Asian”, “Multi-ethnicity”.
[128]Lorsque des données cliniques sont utilisées, ces dernières sont notamment encodées de la manière suivante : les données catégorielles (comme par exemple le genre et le mode de naissance dans le cas des nouveau-nés) sont converties en vecteurs en utilisant un « encodage 1 parmi n » (en anglais one-hot encoding), c'est-à-dire que tous les éléments du vecteur sont convertis en 0 sauf la variable catégorique qui est convertie en 1 . Les données à valeurs continues (âge réel, poids à la naissance et l’âge gestationnel dans le cas des nouveau-nés) sont transformées en une variable discrète en créant un ensemble d'intervalles contigus (« bin » en anglais) qui couvrent la plage des valeurs de la variable. La donnée clinique « jour de vie » est discrétisée en intervalles avec un pas croissant de 9 (de 0 à 99 jours) et 99 (100 à 499 jours). Un pas de temps de 1 pourrait aussi être considéré sur les 3 premières semaines de vie où apparait le plus fréquemment la pathologie. La donnée clinique « poids » est discrétisée en intervalles avec un pas croissant de 99 (de 500 à 2899 grammes). Le poids des enfants pourra aussi être suivi si nécessaire par intervalle de 9 tout au long des 3 premières semaines de vie jusqu’à l’apparition éventuelle de la pathologie. L'âge gestationnel à la naissance peut être converti en facteurs en raison du nombre limité de valeurs. [128]When clinical data are used, they are encoded in particular in the following manner: categorical data (such as gender and mode of birth in the case of newborns) are converted into vectors using "one-hot encoding", i.e. all elements of the vector are converted to 0 except the categorical variable which is converted to 1. Continuous data (actual age, birth weight and gestational age in the case of newborns) are transformed into a discrete variable by creating a set of contiguous intervals ("bins" in English) that cover the range of values of the variable. The clinical data "day of life" is discretized into intervals with an increasing step of 9 (from 0 to 99 days) and 99 (100 to 499 days). A time step of 1 could also be considered over the first 3 weeks of life when the pathology most frequently appears. The clinical data "weight" is discretized into intervals with an increasing step of 99 (from 500 to 2899 grams). The weight of the children can also be followed if necessary by interval of 9 throughout the first 3 weeks of life until the possible appearance of the pathology. Gestational age at birth can be converted into factors due to the limited number of values.
[129]Dans le cas du diagnostic d’un accouchement prématuré, ladite donnée clinique est notamment choisie parmi : [129]In the case of the diagnosis of premature birth, said clinical data is chosen in particular from:
- la durée de gestation, - l’âge de la femme enceinte, - the gestation period, - the age of the pregnant woman,
- l’ethnie de la femme enceinte, et - the ethnicity of the pregnant woman, and
- une combinaison de ces données cliniques. - a combination of these clinical data.
La durée de la gestation peut notamment être exprimée en nombre de semaine de gestation ou désignée par la période à laquelle est réalisé le prélèvement de l’échantillon biologique. The duration of gestation may in particular be expressed in number of weeks of gestation or designated by the period at which the biological sample is taken.
[130]Cette période est notamment choisie parmi : le premier trimestre de grossesse, le deuxième trimestre de grossesse, le troisième trimestre de grossesse. [130]This period is notably chosen from: the first trimester of pregnancy, the second trimester of pregnancy, the third trimester of pregnancy.
[131]L’âge de la femme enceinte, dans un procédé selon l’invention, peut être défini en nombre d’années ou par son appartenance à une tranche d’âge. Plus particulièrement, l’âge de la femme enceinte peut être attribué à l’un des deux groupes suivants : « inférieur à 35 ans » et « égal ou supérieur à 35 ans ». [131]The age of the pregnant woman, in a method according to the invention, can be defined in number of years or by her belonging to an age group. More particularly, the age of the pregnant woman can be attributed to one of the following two groups: “less than 35 years” and “equal to or greater than 35 years”.
[132]En amont de l’apprentissage, l’ensemble des microorganismes présents dans chaque profil de sujet d’entrainement est compilé, de sorte à déterminer le nombre d’entrées d’abondance d’identités de microorganismes du modèle d’intelligence artificielle. Selon un mode de réalisation, le modèle d’intelligence artificielle comprend au moins 500 entrées d’abondance d’identités de microorganismes, notamment au moins 600 entrées, en particulier au moins 700 entrées, notamment au moins 1000 entrées, particulièrement au moins 1300 entrées. [132]Prior to the learning, all of the microorganisms present in each training subject profile are compiled, so as to determine the number of microorganism identity abundance entries of the artificial intelligence model. According to one embodiment, the artificial intelligence model comprises at least 500 microorganism identity abundance entries, in particular at least 600 entries, in particular at least 700 entries, in particular at least 1000 entries, particularly at least 1300 entries.
[133]Selon un mode de réalisation, le modèle d’intelligence artificielle comprend au moins 10 entrées de données cliniques déterminées, notamment au moins 20, particulièrement au moins 30, en particulier au moins 40. [133]According to one embodiment, the artificial intelligence model comprises at least 10 determined clinical data inputs, in particular at least 20, particularly at least 30, in particular at least 40.
[134]Selon un mode de réalisation de l’invention, le procédé étant destiné au diagnostic prédictif de l’accouchement précoce chez une femme enceinte, le modèle d’intelligence artificielle comprend au moins 600 entrées d’abondance d’identités de microorganismes et optionnellement au moins 10, notamment au moins 15, entrées de données cliniques déterminées. [134]According to one embodiment of the invention, the method being intended for the predictive diagnosis of early delivery in a pregnant woman, the artificial intelligence model comprises at least 600 entries of abundance of identities of microorganisms and optionally at least 10, in particular at least 15, entries of determined clinical data.
[135]Selon un mode de réalisation de l’invention, le procédé étant destiné au diagnostic prédictif de l’ECUN, le modèle d’intelligence artificielle comprend au moins 1000, notamment au moins 1300, entrées d’abondance d’identités de microorganismes et optionnellement au moins 40, notamment au moins 45, entrées de données cliniques déterminées. [135]According to one embodiment of the invention, the method being intended for the predictive diagnosis of ECUN, the artificial intelligence model comprises at least 1000, in particular at least 1300, entries of abundance of identities of microorganisms and optionally at least 40, in particular at least 45, entries of determined clinical data.
[136]Selon un mode de réalisation de l’invention, le procédé étant destiné au diagnostic prédictif de du diabète de type I, le modèle d’intelligence artificielle comprend au moins 1000, notamment au moins 1300, entrées d’abondance d’identités de microorganismes et optionnellement au moins 40 entrées de données cliniques déterminées. [137]Selon un mode de réalisation de l’invention, le procédé étant destiné au diagnostic prédictif de du sepsis, le modèle d’intelligence artificielle comprend au moins 600, notamment au moins 1300, entrées d’abondance de microorganismes et optionnellement au moins 40 entrées de données cliniques déterminées. [136]According to one embodiment of the invention, the method being intended for the predictive diagnosis of type I diabetes, the artificial intelligence model comprises at least 1000, in particular at least 1300, entries of abundance of identities of microorganisms and optionally at least 40 entries of determined clinical data. [137]According to one embodiment of the invention, the method being intended for the predictive diagnosis of sepsis, the artificial intelligence model comprises at least 600, in particular at least 1300, microorganism abundance entries and optionally at least 40 determined clinical data entries.
Signatures de microorqanismes issues de l’entrainement Microorganism signatures from training
[138]Le procédé d’entrainement selon l’invention permet de mettre en évidence différentes signatures de microorganismes caractéristiques d’un diagnostic/diagnostic prédictif positif (ci- après « premières signatures ») ou négatif (ci-après « secondes signatures). Par « signature », on entend un ensemble d’identités de microorganismes. Ce procédé permet en outre la découverte de nouveaux microorganismes. [138]The training method according to the invention makes it possible to highlight different signatures of microorganisms characteristic of a positive diagnosis/predictive diagnosis (hereinafter “first signatures”) or negative diagnosis/predictive diagnosis (hereinafter “second signatures”). By “signature” is meant a set of identities of microorganisms. This method also allows the discovery of new microorganisms.
[139]Selon cet aspect de l’invention, une première signature de microorganismes associée à un diagnostic d’apparition et/ou de développement d’ECUN, notamment obtenue par un procédé selon l’invention, se caractérise notamment par la présence de microorganismes de l’espèce :[139]According to this aspect of the invention, a first signature of microorganisms associated with a diagnosis of the appearance and/or development of ECUN, in particular obtained by a method according to the invention, is characterized in particular by the presence of microorganisms of the species:
- Enterobacter non classées, - Unclassified Enterobacter,
- Enterobacteriaceae non classées, - Unclassified Enterobacteriaceae,
- Enterococcus faecalis, - Enterococcus faecalis,
- Klebsiella non classées, - Unclassified Klebsiella,
- Haemophilus parainfluenzae, - Haemophilus parainfluenzae,
- Enterococcus durans et - Enterococcus durans and
- Enterobacter cancerogenus. - Enterobacter cancerogenus.
[140]Ces microorganismes ont en effet été retrouvés, notamment en plus grande quantité, dans les échantillons biologiques statistiquement associés au diagnostic de présence d’ECUN (c’est-à- dire avec une probabilité de plus 50%). [140]These microorganisms were in fact found, notably in greater quantities, in biological samples statistically associated with the diagnosis of the presence of ECUN (i.e. with a probability of more than 50%).
[141]Une première signature associée à une probabilité élevée d’accouchement prématuré, notamment obtenue par un procédé selon l’invention, se caractérise notamment par la présence de microorganismes du genre : [141]A first signature associated with a high probability of premature delivery, notably obtained by a method according to the invention, is characterized in particular by the presence of microorganisms of the genus:
- Anaerococcus, - Anaerococcus,
- Peptoniphilus, - Peptoniphilus,
- Prevotella, en particulier Prevotella bivia, - Prevotella, in particular Prevotella bivia,
- Gardnerella en particulier Gardnerella vaginalis, - Gardnerella in particular Gardnerella vaginalis,
- Sneathia en particulier S neat hi a amnii. - Sneathia in particular S neat hi a amnii.
[142]En effet, ces microorganismes ont été découverts comme présents ou présents en plus grande quantité dans les échantillons biologiques statistiquement associés à une probabilité élevée d’accouchement prématuré (plus de 50%). [143]Selon cet aspect, une seconde signature associée à une pluralité de microorganismes statistiquement associée à un diagnostic d’absence d’ECUN, notamment obtenue par un procédé selon l’invention, est caractérisée notamment par la présence de microorganismes de plusieurs espèces de Lactobacillus associées à des cas non-ECUN. En effet, ces microorganismes ont été découverts comme présents ou présents en plus grande quantité dans les échantillons biologiques statistiquement associés à une prédiction d’absence d’ECUN. La seconde signature associée à un diagnostic d’absence d’ECUN peut comprendre d’autres microorganismes, tels que : les genres Bifidobacterium, Bacteroides, les espèces Bifidobacterium longum, , Bacteroides fragilis, Lactobacillus casei. [142]Indeed, these microorganisms were found to be present or present in greater quantity in biological samples statistically associated with a high probability of premature delivery (more than 50%). [143]According to this aspect, a second signature associated with a plurality of microorganisms statistically associated with a diagnosis of absence of ECUN, in particular obtained by a method according to the invention, is characterized in particular by the presence of microorganisms of several species of Lactobacillus associated with non-ECUN cases. Indeed, these microorganisms were discovered as present or present in greater quantity in the biological samples statistically associated with a prediction of absence of ECUN. The second signature associated with a diagnosis of absence of ECUN may comprise other microorganisms, such as: the genera Bifidobacterium, Bacteroides, the species Bifidobacterium longum, Bacteroides fragilis, Lactobacillus casei.
[144]Une seconde signature associée à une probabilité élevée d’accouchement à terme (plus de 70%), notamment obtenue par un procédé selon l’invention, est caractérisé notamment par la présence de microorganismes de la famille Christensenellaceae et du genre : [144]A second signature associated with a high probability of delivery at term (more than 70%), notably obtained by a method according to the invention, is characterized in particular by the presence of microorganisms of the Christensenellaceae family and of the genus:
- Bacteroides, ou - Bacteroides, or
- Lactobacillus, en particulier Lactobacillus crispatus. - Lactobacillus, in particular Lactobacillus crispatus.
[145]En effet, ces microorganismes ont été découverts présents ou présents en plus grande quantité dans les échantillons biologiques statistiquement associés à une probabilité élevée d’accouchement à terme. [145]Indeed, these microorganisms were found to be present or present in greater quantities in biological samples statistically associated with a high probability of full-term delivery.
Diagnostic et Diagnostic prédictif Diagnosis and Predictive Diagnosis
[146]Le diagnostic/diagnostic prédictif est déterminée à partir des identités et des abondances de microorganismes déterminés lors de l’étape b). De ces données obtenues à l’étape b) ne sont épurées celles des microorganismes absents du jeu d’entrainement. En ce sens, plus le jeu d’entrainement est conséquent, plus il y a de chances qu’il soit exhaustif, et qu’aucune épuration ne soit réalisée dans les données obtenues à l’étape b). Néanmoins, dans l’éventualité où un échantillon d’un sujet était découvert comme comprenant une identité de microorganisme qui n’était pas présente dans le jeu d’entrainement, il est possible a posteriori de ré-entrainer le modèle d’intelligence artificielle avec cette nouvelle entrée. Il est ainsi possible d’obtenir un enrichissement continu du modèle d’intelligence artificielle, et donc une justesse continuellement améliorée des prédictions. [146]The diagnosis/predictive diagnosis is determined from the identities and abundances of microorganisms determined during step b). Of these data obtained in step b), only those of the microorganisms absent from the training set are purified. In this sense, the larger the training set, the more likely it is that it will be exhaustive, and that no purification will be carried out in the data obtained in step b). However, in the event that a sample from a subject was discovered to include a microorganism identity that was not present in the training set, it is possible a posteriori to re-train the artificial intelligence model with this new input. It is thus possible to obtain a continuous enrichment of the artificial intelligence model, and therefore a continually improved accuracy of the predictions.
[147]Les données conservées de l’étape b) suite à l’exclusion des microorganismes absents du jeu de données d’entrainement sont notamment normalisées. Cette normalisation est en particulier du type min-max sur la base du jeu d’entrainement. [147]The data retained from step b) following the exclusion of microorganisms absent from the training data set are in particular normalized. This normalization is in particular of the min-max type on the basis of the training set.
[148]Le diagnostic/diagnostic obtenu lors de l’étape c) peut notamment être associé à une certitude/un indice de confiance, allant typiquement de 0 à 1 , reflétant la probabilité de correspondance. Ainsi, le modèle d’intelligence artificielle peut déterminer un diagnostic positif d’une pathologie avec un indice de confiance de 0,8, indiquant qu’il y a 80% de chance que le microbiote analysé soit associé à cette pathologie. Dans le sens contraire, le modèle d’intelligence artificielle peut déterminer un diagnostic négatif avec un indice de confiance de 0,8, indiquant qu’il y a 80% de chance que le microbiote analysé ne soit associé à la pathologie et donc 20% de chance qu’il le soit. [148]The diagnosis/diagnosis obtained in step c) may in particular be associated with a certainty/confidence index, typically ranging from 0 to 1, reflecting the probability of correspondence. Thus, the artificial intelligence model can determine a positive diagnosis of a pathology with a confidence index of 0.8, indicating that there is an 80% chance that the analyzed microbiota is associated with this pathology. Conversely, the artificial intelligence model can determine a negative diagnosis with a confidence index of 0.8, indicating that there is an 80% chance that the analyzed microbiota is not associated with the pathology and therefore a 20% chance that it is.
Etape d) Step d)
[149]Le procédé selon l’invention peut comprendre une étape d) de compilation de plusieurs diagnostic/diagnostic prédictif pour une détermination finale du diagnostic/diagnostic prédictif. [149]The method according to the invention may comprise a step d) of compiling several diagnoses/predictive diagnoses for a final determination of the diagnosis/predictive diagnosis.
[150]Selon un mode de réalisation particulier de l’invention, aux moins deux échantillons biologiques du sujet sont utilisés, en particulier au moins trois. Par « au moins deux échantillons biologiques » on entend deux, trois, quatre, cinq, six, sept, huit, neuf, dix ou plus de dix échantillons biologiques provenant du même sujet. Les échantillons peuvent être prélevés à un même moment, ou bien à des temporalités différentes. [150]According to a particular embodiment of the invention, at least two biological samples from the subject are used, in particular at least three. By “at least two biological samples” is meant two, three, four, five, six, seven, eight, nine, ten or more than ten biological samples from the same subject. The samples can be taken at the same time, or at different times.
[151]Selon un mode de réalisation de l’invention, lorsque plusieurs échantillons biologiques sont utilisés pour un même sujet, les étapes a) à c) sont réalisées sur chaque échantillon, de sorte que l’étape d) comprend la compilation du diagnostic/diagnostic prédictif obtenu à l’étape c) pour chaque échantillon et la détermination finale du diagnostic/diagnostic prédictif. Ainsi, le diagnostic/diagnostic prédictif peut être considéré comme positif/négatif si plus de 50 % du résultat des étape c) correspondent à cet état. [151]According to one embodiment of the invention, when several biological samples are used for the same subject, steps a) to c) are carried out on each sample, such that step d) comprises the compilation of the diagnosis/predictive diagnosis obtained in step c) for each sample and the final determination of the diagnosis/predictive diagnosis. Thus, the diagnosis/predictive diagnosis can be considered positive/negative if more than 50% of the result of steps c) correspond to this state.
[152]Selon un mode de réalisation de l’invention, lorsque les échantillons sont prélevés à un même moment, l’étape d) permet de renforcer un premier diagnostic déterminé à la première étape c), afin notamment de pallier une potentielle sélection des microorganismes non souhaitée par le choix de la zone de prélèvement dans une région de prélèvement. Ainsi, les échantillons sont notamment prélevés dans des zones différentes d’une même région de prélèvement, afin de s’assurer de l’exhaustivité de la représentation des microorganismes dans la région du prélèvement du sujet. [152]According to one embodiment of the invention, when the samples are taken at the same time, step d) makes it possible to reinforce a first diagnosis determined in the first step c), in particular to overcome a potential undesired selection of microorganisms by the choice of the sampling area in a sampling region. Thus, the samples are in particular taken in different areas of the same sampling region, in order to ensure the exhaustiveness of the representation of the microorganisms in the subject's sampling region.
[153]Selon un mode de réalisation de l’invention, lorsque les échantillons sont prélevés à des temporalités différentes, l’étape d) permet d’obtenir un suivi des modifications du microbiote du sujet et notamment le changement de son phénotype (de malade à sain suite à un traitement, ou bien de sain à malade), permettant à un clinicien de confirmer un effet curatif ou de prendre les mesures nécessaires à l’apparition d’une pathologie ou d’un état pathologique. Légende des figures [153]According to one embodiment of the invention, when the samples are taken at different times, step d) makes it possible to monitor the changes in the subject's microbiota and in particular the change in their phenotype (from sick to healthy following treatment, or from healthy to sick), allowing a clinician to confirm a curative effect or to take the necessary measures in the event of the appearance of a pathology or pathological state. Legend of figures
[154]La présente invention est expliquée davantage par les figures et les exemples ci-après. [154]The present invention is further explained by the following figures and examples.
[155]La figure 1 montre une vue d’ensemble des étapes suivies pour un mode de réalisation du procédé de diagnostic d’une pathologie selon l’invention à partir de l’identification des microorganismes et de leur abondance dans l’échantillon d’un sujet, suivi par une étape de prédiction du diagnostic/diagnostic prédictif en utilisant le modèle de DNN entrainé et optimisé. [155]Figure 1 shows an overview of the steps followed for an embodiment of the method for diagnosing a pathology according to the invention from the identification of microorganisms and their abundance in the sample of a subject, followed by a step of predicting the diagnosis/predictive diagnosis using the trained and optimized DNN model.
[156]La figure 2 illustre les étapes d’un exemple d’entraînement d’un modèle de réseau de neurones profonds selon l’invention et le réglage de ses hyperparamètres permettant l’optimisation de la prédiction du diagnostic/diagnostic prédictif. [156]Figure 2 illustrates the steps of an example of training a deep neural network model according to the invention and the adjustment of its hyperparameters allowing the optimization of the prediction of the diagnosis/predictive diagnosis.
[157]La figure 3 illustre les performances de prédiction obtenues par le modèle de réseau de neurones profonds en fonction des données d’entrée fournies. Les données d’entrée sont les données issues du séquençage métagénomique direct (cohorte Fettweis) traitées par RiboTaxa ou par MetaPhlAn3. MetaPhlAn3 utilise les lectures de haute qualité issues de séquençage métagénomique direct pour les comparer à une base de génomes références de microorganismes accessible à l’adresse : segatalab.cibio.unitn.it/data/Pasolli_et_al.html et déterminer la composition taxonomique du microbiote analysé (du domaine jusqu’à l’espèce) et les abondances relatives des microorganismes identifiés (fichier TSV). [157]Figure 3 illustrates the prediction performance obtained by the deep neural network model based on the input data provided. The input data are the data from direct metagenomic sequencing (Fettweis cohort) processed by RiboTaxa or by MetaPhlAn3. MetaPhlAn3 uses the high-quality reads from direct metagenomic sequencing to compare them to a reference genome database of microorganisms available at: segatalab.cibio.unitn.it/data/Pasolli_et_al.html and determine the taxonomic composition of the analyzed microbiota (from domain to species) and the relative abundances of the identified microorganisms (TSV file).
[158]La figure 4 représente la performance de modèles de réseaux de neurones profonds entrainés sur des données issues de séquençage métagénomique direct et de metabarcoding au niveau du genre. [158]Figure 4 shows the performance of deep neural network models trained on data from direct metagenomic sequencing and genus-level metabarcoding.
[159]La figure 5 représente la structure finale d’un modèle d’intelligence artificielle (modèle de réseau de neurones profonds entrainé) selon l’invention optimisé pour prédire l’ECUN. [159]Figure 5 represents the final structure of an artificial intelligence model (trained deep neural network model) according to the invention optimized to predict ECUN.
[160]La figure 6 représente le taux de vrais positifs (en ordonnées) en fonction du taux de faux positifs (en abscisses) dans le cadre de la prédiction de la survenue de l’ECUN, où l’AUC est égale à 0,987. [160]Figure 6 shows the true positive rate (on the ordinate) as a function of the false positive rate (on the abscissa) in the context of predicting the occurrence of ECUN, where the AUC is equal to 0.987.
[161] La figure 7 représente la précision (en ordonnées) en fonction de la sensibilité (en abscisses) dans le cadre de la prédiction de la survenue de l’ECUN, où l’AUC est égale à 0,992. [161] Figure 7 shows the accuracy (ordinate) versus sensitivity (abscissa) in predicting the occurrence of ECUN, where the AUC is equal to 0.992.
[162]La figure 8 représente les 20 caractéristiques d’entrée du modèle de réseau de neurones profonds entrainé contribuant le plus à la prédiction des phénotypes ECU N ou non-ECU N résumées par l'explicateur SHAP. [163]La figure 9 illustre l’analyse du suivi longitudinal d’échantillons suite à la prédiction du modèle de réseau de neurones profonds entrainé dans le cadre de la prédiction de la survenue de l’ECUN. Le cercle non étiqueté à gauche représente le phénotype réel du nourrisson. Les échantillons des nourrissons sans pathologie sont indiqués en gris foncé et les échantillons des nourrissons ECU N en gris clair. Chaque cercle étiqueté représente un échantillon collecté chez chacun des nourrissons et les nombres à l’intérieur des cercles correspondent au jour du prélèvement (en jours de vie). La couleur de ces cercles représente le phénotype prédit par le réseau de neurones selon le même code couleur que les cercles non étiquetés. Le carré simple représente les échantillons qui ont été reclassés dans le groupe « contrôle » et le double carré représente les échantillons qui ont été reclassés dans le groupe « ECUN ». [162]Figure 8 shows the 20 input features of the trained deep neural network model contributing most to the prediction of ECU N or non-ECU N phenotypes summarized by the SHAP explainer. [163]Figure 9 illustrates the analysis of the longitudinal follow-up of samples following the prediction of the deep neural network model trained in the context of predicting the occurrence of NEC. The unlabeled circle on the left represents the actual phenotype of the infant. Samples from infants without pathology are indicated in dark gray and samples from NEC infants in light gray. Each labeled circle represents a sample collected from each of the infants and the numbers inside the circles correspond to the day of collection (in days of life). The color of these circles represents the phenotype predicted by the neural network according to the same color code as the unlabeled circles. The single square represents the samples that were reclassified into the “control” group and the double square represents the samples that were reclassified into the “NEC” group.
[164]Les figures 10 et 11 représentent des exemples de graphiques SHAP illustrant les caractéristiques (micro-organismes) les plus importants qui influencent la prédiction vers le phénotype contrôle dans la cohorte de CORTECs. Pour chaque caractéristique, les valeurs négatives associées aux flèches correspondent aux valeurs SHAP associées à une contribution vers la prédiction du phénotype contrôle (f(x)=0). Le libellé à côté de chaque caractéristique (micro-organisme) représente son abondance dans l'échantillon. [164]Figures 10 and 11 represent examples of SHAP plots illustrating the most important features (microorganisms) that influence the prediction towards the control phenotype in the CORTECs cohort. For each feature, the negative values associated with the arrows correspond to SHAP values associated with a contribution towards the prediction of the control phenotype (f(x)=0). The label next to each feature (microorganism) represents its abundance in the sample.
[165]Les figures 12 et 13 représentent des exemples de graphiques SHAP illustrant les caractéristiques (micro-organismes) les plus importants qui influencent la prédiction vers l’ECUN dans la cohorte de CORTECs. Pour chaque caractéristique, les valeurs positives associées aux flèches correspondent aux valeurs SHAP associées à une contribution vers la prédiction du phénotype ECUN (f(x)=1). Le libellé à côté de chaque caractéristique (microorganisme) représente son abondance dans l'échantillon. [165]Figures 12 and 13 represent examples of SHAP plots illustrating the most important features (microorganisms) that influence the prediction towards ECUN in the CORTECs cohort. For each feature, the positive values associated with the arrows correspond to SHAP values associated with a contribution towards the prediction of the ECUN phenotype (f(x)=1). The label next to each feature (microorganism) represents its abundance in the sample.
[166]La figure 14 représente les 20 caractéristiques d’entrée du modèle de réseau de neurones profonds entrainé contribuant le plus à la prédiction des phénotypes DT1 ou non-DT1 résumées par l'explicateur SHAP. [166]Figure 14 shows the 20 input features of the trained deep neural network model contributing most to the prediction of T1D or non-T1D phenotypes summarized by the SHAP explainer.
[167]La figure 15 représente l’approche d'analyse longitudinale des prédictions réalisées sur l’ensemble des échantillons d’enfants qui avaient au moins 3 échantillons dans l’ensemble test « sepsis ». Le phénotype final de l’enfant est déterminé par le groupe phénotypique ayant le plus grand nombre d'échantillons d’un même état. [167]Figure 15 represents the longitudinal analysis approach of the predictions made on the set of samples of children who had at least 3 samples in the “sepsis” test set. The final phenotype of the child is determined by the phenotypic group having the greatest number of samples of the same condition.
[168]La figure 16 représente les 20 caractéristiques d’entrée du modèle de réseau de neurones profonds entrainé contribue le plus à la prédiction des phénotypes sepsis résumées par l'explicateur SHAP. Exemples [168]Figure 16 shows the 20 input features of the trained deep neural network model contributing the most to the prediction of sepsis phenotypes summarized by the SHAP explainer. Examples
Recueil des données d’entrainement Collecting training data
[169]Les inventeurs ont collecté des données brutes de séquençage de microbiotes et les données cliniques associées de cohortes de patients constituées dans le cadre d’études de différentes pathologies et états pathologiques : accouchement prématuré (AP), entérocolite ulcéro- nécrosante (ECUN), sepsis et diabète de type 1 (DT1). [169]The inventors collected raw microbiota sequencing data and associated clinical data from patient cohorts established as part of studies of different pathologies and pathological conditions: preterm birth (PB), necrotizing enterocolitis (NCE), sepsis and type 1 diabetes (T1D).
[170]La première étape a consisté à sélectionner des publications scientifiques pertinentes ayant mis à disposition ces données. Une recherche par mots clés précis a été effectuée dans les bases de données de publications PubMed et Google Scholar. Les données de séquençage des microbiotes devaient avoir été obtenues par séquençage métagénomique direct, dit « shotgun ». Seules les études prospectives avec prélèvements avant le déclenchement de la pathologie ou de l'état pathologique, permettant un diagnostic prédictif, ont été retenues. De plus, l'inclusion de sujets contrôles était requise. [170]The first step consisted in selecting relevant scientific publications that had made these data available. A search by precise keywords was carried out in the PubMed and Google Scholar publication databases. The microbiota sequencing data had to have been obtained by direct metagenomic sequencing, known as “shotgun”. Only prospective studies with samples taken before the onset of the pathology or pathological state, allowing a predictive diagnosis, were retained. In addition, the inclusion of control subjects was required.
Traitement bioinformatique des données de séquençage métagénomique shotgun Bioinformatics processing of shotgun metagenomic sequencing data
[171]Les données de métagénomique « shotgun » ont été traitées avec le chainage bioinformatique RiboTaxa (Chakoory et al., 2022) afin obtenir les profils taxonomiques des microbiotes (identification des microorganismes à tous les rangs taxonomiques et abondances relatives associées). L’approche de RiboTaxa consiste en la reconstruction des séquences d'ADNr 16S et 18S à l'aide de bases de données de référence, ici, la base de données SILVA SSU 138.1 NR99 (Quast ét al., 2013), permettant ensuite une identification des microorganismes jusqu’au niveau de l’espèce. RiboTaxa effectue le contrôle qualité des lectures brutes, la reconstruction des séquences d’ADNr 16 et 18S, la détermination de leur abondance relative et de l’identité des microorganismes. [171] The shotgun metagenomic data were processed with the RiboTaxa bioinformatics chain (Chakoory et al., 2022) to obtain the taxonomic profiles of the microbiota (identification of microorganisms at all taxonomic ranks and associated relative abundances). The RiboTaxa approach consists of reconstructing 16S and 18S rDNA sequences using reference databases, here, the SILVA SSU 138.1 NR99 database (Quast et al., 2013), then allowing identification of microorganisms down to the species level. RiboTaxa performs quality control of the raw reads, reconstruction of the 16 and 18S rDNA sequences, determination of their relative abundance and the identity of the microorganisms.
[172]Pour chaque échantillon, les lectures brutes ont été fournies comme entrée dans RiboTaxa. Les lectures ont été traitées pour supprimer les adaptateurs Illumina, les artefacts Illumina connus et pour couper les extrémités des lectures lorsque le score de qualité des bases se trouvaient en dessous de Q20. Les lectures résultantes contenant plus d'un « N », ou avec des scores de qualité inférieurs à 20 en moyenne sur la lecture, ou une longueur inférieure à 60 pb, ont été rejetées. [172]For each sample, raw reads were provided as input to RiboTaxa. Reads were processed to remove Illumina adapters, known Illumina artifacts, and to trim the ends of reads when the base quality score was below Q20. Resulting reads containing more than one “N”, or with quality scores below 20 averaged over the read, or a length less than 60 bp, were rejected.
[173]Les lectures de haute qualité ont ensuite été assemblées en séquence d’ADNr 16S et 18S complètes à presque complètes à l’aide de deux assembleurs inclus dans RiboTaxa. MetaRib (Xue ét al., 2020) prend en entrée l’ensemble des lectures de haute qualité tandis qu’EMIRGE (Miller et al., 2011) utilise uniquement les lectures correspondant à de l’ADNr 16S et 18S filtrées avec SortMeRNA (Kopylova et al., 2012). La double approche de reconstruction (EMIRGE et MetaRib) permet de maximiser la reconstruction des gènes exprimant l’ARNr 16S/18S et de décrire le plus précisément la structure des microbiotes. Bien que les deux assembleurs (EMIRGE et MetaRib) nécessitent une base de données de référence (ici SILVA, qui est la plus complète et de haute qualité), il est possible de reconstruire des séquences très distantes des séquences de référence, ce qui permet ainsi d’identifier de nouveaux microorganismes qui ne seraient pas identifiés par les autres approches (PCR quantitative, analyses classiques de données métagénomiques, amplification par PCR d’une portion du gène exprimant l’ARNr 16S puis séquençage). [173]High-quality reads were then assembled into full-length to near-full-length 16S and 18S rDNA sequences using two assemblers included in RiboTaxa. MetaRib (Xue et al., 2020) takes all high-quality reads as input while EMIRGE (Miller et al., 2011) uses only reads corresponding to 16S and 18S rDNA. filtered with SortMeRNA (Kopylova et al., 2012). The dual reconstruction approach (EMIRGE and MetaRib) maximizes the reconstruction of genes expressing 16S/18S rRNA and describes the structure of microbiotas as accurately as possible. Although both assemblers (EMIRGE and MetaRib) require a reference database (here SILVA, which is the most complete and of high quality), it is possible to reconstruct sequences very distant from the reference sequences, which thus makes it possible to identify new microorganisms that would not be identified by other approaches (quantitative PCR, classic analyses of metagenomic data, PCR amplification of a portion of the gene expressing 16S rRNA then sequencing).
[174]Pour la reconstruction du gène exprimant l’ARNr 16S/18S, les paramètres par défaut ont été utilisés, à l'exception des paramètres qui dépendent exclusivement de la longueur de séquençage des données d'entrée : [174]For the reconstruction of the 16S/18S rRNA-expressing gene, the default parameters were used, except for the parameters that depend exclusively on the sequencing length of the input data:
- le paramètre A « max_read_length » représente la taille de lecture la plus longue de l'ensemble de données d'entrée, - parameter A "max_read_length" represents the longest read size of the input dataset,
- le paramètre B « insert_mean » représente la taille moyenne des inserts des lectures pairées et - parameter B “insert_mean” represents the average size of inserts of paired reads and
- le paramètre C « insert_stddev » représente l’écart-type de la distribution de taille des inserts des lectures pairées. - the C parameter “insert_stddev” represents the standard deviation of the size distribution of inserts of paired-end reads.
Les paramètres B et C ont été estimés à l'aide du script « mean_size.py », accessible à l’adresse : gist.github.com/timoast/af73c0e9fac00187ee49. Parameters B and C were estimated using the script “mean_size.py”, available at: gist.github.com/timoast/af73c0e9fac00187ee49.
[175]Les séquences d’ADNr 16S et 18S reconstruites ont ensuite été regroupées avec un seuil d’identité de 97% puis classées à différents rangs taxonomiques, du domaine à l'espèce, en utilisant la base de données SILVA. Après avoir éliminé l’ADNr 18S humain considéré comme contaminant, les abondances relatives ont été calculées par RiboTaxa. [175]The reconstructed 16S and 18S rDNA sequences were then clustered with a 97% identity threshold and classified into different taxonomic ranks, from domain to species, using the SILVA database. After removing human 18S rDNA as a contaminant, relative abundances were calculated by RiboTaxa.
[176]Tous les tableaux de taxonomie obtenus ont été regroupés en un seul tableau contenant tous les profils au niveau du phylum, classe, ordre, famille, genre et de l’espèce à l'aide du script RiboTaxa_group_taxonomy.sh de RiboTaxa. [176]All the obtained taxonomy tables were grouped into a single table containing all profiles at the phylum, class, order, family, genus and species level using RiboTaxa's RiboTaxa_group_taxonomy.sh script.
[177]Pour l’entrainement du modèle d’intelligence artificielle ci-dessous, tous les microorganismes identifiés dans tous les échantillons ont été conservés, au lieu d'appliquer une sélection avant l'entraînement, afin de conserver la diversité microbienne et les interactions microbiennes inter-individuelles. Modèle d’intelligence artificielle [177]For training the artificial intelligence model below, all microorganisms identified in all samples were retained, instead of applying selection before training, in order to preserve microbial diversity and inter-individual microbial interactions. Artificial Intelligence Model
[178]Pour le diagnostic prédictif de chaque pathologies/états pathologiques présentés en exemples ci-dessous, un modèle de réseau de neurones profonds entièrement connectés, correspondant au précédemment décrit « produit programme d’ordinateur », a été implémenté et optimisé sur une même stratégie, en utilisant le langage de programmation Python et des librairies dédiées telles que scikit-learn, Tensorflow (https://tensorflow.org), Keras (https://github.com/keras-team/keras-tuner) et Adam (Kingma and Ba, 2017). [178]For the predictive diagnosis of each pathology/pathological state presented in examples below, a fully connected deep neural network model, corresponding to the previously described “computer program product”, was implemented and optimized on the same strategy, using the Python programming language and dedicated libraries such as scikit-learn, Tensorflow (https://tensorflow.org), Keras (https://github.com/keras-team/keras-tuner) and Adam (Kingma and Ba, 2017).
[179]L’architecture du réseau de neurones profonds se compose d’une couche d’entrée dont le nombre de neurones dépend du nombre de caractéristiques d’entrée (nombre de microorganismes identifiés et nombre et nature des données cliniques), des couches cachées dont leur nombre et le nombre de neurones correspondants sont déterminés lors de l’entrainement et l’optimisation du modèle, et une couche de sortie contenant 2 neurones, l’un pour une sortie « pathologie/état pathologique », l’autre pour une sortie « pas de pathologie/état pathologique ». [179]The architecture of the deep neural network consists of an input layer whose number of neurons depends on the number of input characteristics (number of microorganisms identified and number and nature of clinical data), hidden layers whose number and the number of corresponding neurons are determined during training and optimization of the model, and an output layer containing 2 neurons, one for a “pathology/pathological state” output, the other for a “no pathology/pathological state” output.
[180]Afin d’obtenir le modèle le plus performant possible, différentes fonctions mathématiques ont été sélectionnées et les valeurs des hyperparamètres du réseau de neurones profonds ont été optimisées en fonction des données d’entrainement obtenues pour chacune des pathologies. [180]In order to obtain the most efficient model possible, different mathematical functions were selected and the values of the hyperparameters of the deep neural network were optimized according to the training data obtained for each of the pathologies.
[181] La fonction d'activation d’unité linéaire rectifiée (ReLLI) a été utilisée pour toutes les couches cachées. Les fonctions d'activation jouent un rôle important dans l’entraînement des réseaux de neurones en apportant la non-linéarité nécessaire au modèle pour apprendre des représentations complexes. La technique d'abandon des neurones sur chaque couche cachée a également été employée afin d'atténuer le surapprentissage du réseau de neurones, phénomène conduisant à une mauvaise généralisation du modèle et à des performances réduites sur de nouvelles données. L'abandon des neurones (ou dropout en anglais) est une méthode d'apprentissage qui implique la suppression aléatoire de neurones pendant l’entrainement du modèle, les nœuds supprimés étant exclus des étapes suivantes. La fonction d'activation de la couche de sortie utilise la fonction Softmax pour attribuer une valeur basée sur une probabilité comprise entre 0 et 1 à chaque classe (pathologie/état pathologique, pas de pathologie/état pathologique). Cette valeur permet au modèle de prendre une décision ‘risque de pathologie’ ou ‘pas de risque de pathologie’. [181] The rectified linear unit activation function (ReLLI) was used for all hidden layers. Activation functions play an important role in training neural networks by providing the nonlinearity needed for the model to learn complex representations. The neuron dropout technique on each hidden layer was also employed to mitigate overfitting of the neural network, which leads to poor generalization of the model and reduced performance on new data. Neuron dropout is a learning method that involves randomly removing neurons during model training, with the removed nodes being excluded from subsequent steps. The output layer activation function uses the Softmax function to assign a value based on a probability between 0 and 1 to each class (pathology/disease state, no pathology/disease state). This value allows the model to make a ‘risk of pathology’ or ‘no risk of pathology’ decision.
[182]Différentes valeurs d’autres hyperparamètres ont été testées. Le nombre d’epochs (nombre de fois où le jeu de données complet est propagé dans le réseau de neurones) a varié de 1 à 40. La perte d’entropie croisée entre la valeur cible et la valeur prédite a été optimisée au cours des epochs avec des taux d'apprentissage, allant de 0,0001 à 0,01. Le nombre de couches cachées a varié de 1 à 3 et le nombre de neurones dans la première couche cachée de 32 à 512 avec un pas croissant de 32. Pour faciliter la convergence du modèle, le nombre de neurones dans les couches cachées était défini à la moitié de celui de la couche précédente. Ces optimisations ont été implémentées à l'aide de Keras (https://github.com/keras- team/keras-tuner). [182]Different values of other hyperparameters were tested. The number of epochs (number of times the entire dataset is propagated through the neural network) was varied from 1 to 40. The cross-entropy loss between the target value and the predicted value was optimized over the epochs with learning rates, ranging from 0.0001 to 0.01. The number of hidden layers was varied from 1 to 3 and the number of neurons in the first hidden layer from 32 to 512 with an increasing step size of 32. To facilitate model convergence, the number of neurons in the hidden layers was set to half that of the previous layer. These optimizations were implemented using Keras (https://github.com/keras-team/keras-tuner).
[183]Pour définir la meilleure combinaison d’hyperparamètres, l'ensemble des données d’entrainement a été divisé avec un rapport 8:2 pour obtenir 80% de données d'apprentissage et 20 % de données test. Une validation croisée K-Fold a été appliquée avec les données d’apprentissage (Figure 2). Celles-ci ont été divisées en K sous-ensembles de taille presque égale ; K-1 sous-ensembles étant utilisés pour l’entrainement du modèle et le sous-ensemble restant pour la validation du modèle produit. De cette manière K modèles ont été construits, avec à chaque fois une redistribution des K sous-ensembles et la définition de nouveaux hyperparamètres. La meilleure combinaison d’hyperparamètres pour chaque modèle a été sélectionnée en faisant la moyenne de la métrique de précision des K modèles. Le modèle optimisé a ensuite été entrainé en un modèle de classification final en utilisant l'ensemble des données d'apprentissage et testé sur les données test. [183]To define the best combination of hyperparameters, the training dataset was split with a ratio of 8:2 to obtain 80% training data and 20% test data. A K-fold cross-validation was applied with the training data (Figure 2). These were divided into K subsets of almost equal size; K-1 subsets being used for training the model and the remaining subset for validating the produced model. In this way K models were built, with each time a redistribution of the K subsets and the definition of new hyperparameters. The best combination of hyperparameters for each model was selected by averaging the accuracy metric of the K models. The optimized model was then trained into a final classification model using the training dataset and tested on the test data.
[184]Les performances du modèle de réseau de neurones profonds optimisé ont été estimées sur les données test (20% de l'ensemble des données) en comparant le phénotype prédit par le modèle et le phénotype observé chez le sujet. Par exemple, si le modèle classe correctement un échantillon provenant d’un sujet atteint d’une pathologie ou d’un état pathologique, il est considéré comme un vrai positif (TP pour True Positive), sinon il s'agit d'un faux négatif (FN pour False Negative). En revanche, si le modèle classe correctement un échantillon provenant d’un sujet non atteint d’une pathologie ou d’un état pathologique, il est considéré comme un vrai négatif (TN pour True Negative), sinon il s'agit d'un faux positif (FP pour False Positive). En raison du déséquilibre de classe (les échantillons provenant de sujets atteints par la pathologie ou l’état pathologique sont en général moins abondants dans les jeux de données), les performances du modèle ont été mesurées grâce à plusieurs métriques : l’exactitude (accuracy en anglais ; nombre total de prédictions justes sur le nombre total de sujets), la sensibilité (taux de sujets atteints de la pathologie correctement prédits par le modèle ou taux de vrais positifs), la spécificité (taux de sujets non atteints de la pathologie correctement prédits par le modèle ou taux de vrais négatifs), l'aire sous la courbe (AUC pour Area Under the Curve) de la caractéristique de fonctionnement du récepteur (ROC pour Receiver Operating Characteristic) /AUROC, et l’AUC de précision-sensibilité (PR-AUC pour Precision-Recall AUC). [185]L’exactitude est calculée comme suit : [184]The performance of the optimized deep neural network model was estimated on the test data (20% of the entire data set) by comparing the phenotype predicted by the model and the phenotype observed in the subject. For example, if the model correctly classifies a sample from a subject with a pathology or disease state, it is considered a true positive (TP), otherwise it is a false negative (FN). On the other hand, if the model correctly classifies a sample from a subject without a pathology or disease state, it is considered a true negative (TN), otherwise it is a false positive (FP). Due to class imbalance (samples from subjects with the pathology or disease state are generally less abundant in the datasets), model performance was measured using several metrics: accuracy (total number of correct predictions over the total number of subjects), sensitivity (rate of subjects with the pathology correctly predicted by the model or true positive rate), specificity (rate of subjects without the pathology correctly predicted by the model or true negative rate), area under the curve (AUC) of the receiver operating characteristic (ROC)/AUROC, and precision-recall AUC (PR-AUC). [185]Accuracy is calculated as follows:
TP + TN TP + TN
Exactitude = Accuracy =
TP + FP + TN + FN TP + FP + TN + FN
[186]La sensibilité est calculée comme suit : [186]The sensitivity is calculated as follows:
Sensibilité Sensitivity
[187]La spécificité est calculée comme suit : Spécificité [187]Specificity is calculated as follows: Specificity
[188]Enfin, l’AUROC correspond à l’aire sous la courbe ROC qui montre la sensibilité (taux de vrais positifs) en fonction de la spécificité (taux de vrais négatifs). Le PR-AIIC mesure la sensibilité sur la précision (rapport des TP au nombre total de TP et FP). Les AUC ont été calculées à l'aide du package scikit-learn (Pedregosa et al., 2011) et tracées à l'aide de matplotlib (Hunter, 2007) (v3.1). Les intervalles de confiance (IC) à 95 % des AUC ont été estimés à l'aide de la méthode bootstrap (Efron and Tibshirani, 1994) avec 1 000 itérations. Les courbes ROC et le tracé de Sankey ont été générés respectivement à l'aide de matplotlib et de plotly (v5.15.0). [188]Finally, AUROC corresponds to the area under the ROC curve which shows the sensitivity (rate of true positives) as a function of the specificity (rate of true negatives). The PR-AIIC measures the sensitivity over the precision (ratio of TPs to the total number of TPs and FPs). AUCs were calculated using the scikit-learn package (Pedregosa et al., 2011) and plotted using matplotlib (Hunter, 2007) (v3.1). The 95% confidence intervals (CIs) of the AUCs were estimated using the bootstrap method (Efron and Tibshirani, 1994) with 1,000 iterations. ROC curves and the Sankey plot were generated using matplotlib and plotly (v5.15.0), respectively.
[189]Une approche SHAP (SHapley Additive exPlanations), a été exploitée pour expliquer le résultat de tout modèle d'apprentissage automatique. Les modèles peuvent être interprétés en calculant l'importance des données d’entrée liées aux performances de classification du modèle. L'importance des éléments d’entrée (métadonnées, microorganismes) a été calculée à l'aide de SHAP. La fonction DeepExplainer de SHAP est une méthode permettant de décomposer la sortie d'un réseau de neurones profonds (prédiction) en attribuant des valeurs de contributions à chaque donnée de l’entrée du réseau de neurones. Cette fonction permet de mettre en évidence les données d’entrée ayant le plus de poids dans la prédiction d’un phénotype. [189]A SHAP (SHapley Additive exPlanations) approach has been used to explain the output of any machine learning model. Models can be interpreted by calculating the importance of input data related to the classification performance of the model. The importance of input elements (metadata, microorganisms) was calculated using SHAP. SHAP's DeepExplainer function is a method for decomposing the output of a deep neural network (prediction) by assigning contribution values to each data of the neural network input. This function allows highlighting the input data with the most weight in predicting a phenotype.
Normalisation et vectorisation des données d’entrainement Normalization and vectorization of training data
[190]Les abondances relatives ont ensuite été normalisées pour éviter l'influence de taxons très abondants via la transformation ci-dessous, appelée normalisation min-max : [190]Relative abundances were then normalized to avoid the influence of highly abundant taxa via the transformation below, called min-max normalization:
[191] [191]
X — (x - Xmin) / (Xmax ~ Xmin) [192]où : x est la donnée originale, x' est la donnée normalisée. xmin et xmax sont respectivement les valeurs minimale et maximale de la valeur d'origine (abondance). L'équation ci-dessus est une transformation linéaire qui conserve tous les ratios d'abondance des données d'origine après normalisation. X — (x - Xmin) / (Xmax ~ Xmin) [192]where: x is the original data, x' is the normalized data. x min and x ma x are respectively the minimum and maximum values of the original value (abundance). The above equation is a linear transformation that preserves all abundance ratios of the original data after normalization.
[193]Par ailleurs, une ou plusieurs données cliniques ont été utilisées en fonction de la pathologie ou de l’état pathologique pour lequel un diagnostic ou un diagnostic prédictif était réalisé. [193]In addition, one or more clinical data were used depending on the pathology or pathological condition for which a diagnosis or predictive diagnosis was made.
[194]Les données cliniques étaient soit des variables discrètes ou continues. Pour mieux gérer les données, les variables continues ont été transformées en valeurs discrètes par une étape de discrétisation. Ce processus consiste à transformer une variable à valeur continue en une variable discrète en créant un ensemble d'intervalles (ou compartiments) contigus qui s'étendent sur la plage des valeurs de la variable. Le regroupement des caractéristiques numériques en groupes basés sur des intervalles est bénéfique pour la classification et peut améliorer considérablement les performances du modèle. [194]The clinical data were either discrete or continuous variables. To better handle the data, continuous variables were transformed into discrete values through a discretization step. This process involves transforming a continuous-valued variable into a discrete variable by creating a set of contiguous intervals (or bins) that span the range of values of the variable. Grouping numerical features into interval-based groups is beneficial for classification and can significantly improve model performance.
[195]L'étape suivante consistait à appliquer une technique d’encodage 1 parmi n (en anglais one- hot encoding) sur toutes les données discrètes à l'aide de LabelEncoder de la librairie scikit- learn (Pedregosa et al., 2011). Ainsi, les valeurs discrètes ont été vectorisées, c'est-à-dire que tous les éléments du vecteur ont été convertis en 0 sauf la variable catégorielle, qui a été convertie en 1. [195]The next step was to apply a one-hot encoding technique on all discrete data using LabelEncoder from the scikit-learn library (Pedregosa et al., 2011). Thus, the discrete values were vectorized, i.e. all elements of the vector were converted to 0 except the categorical variable, which was converted to 1.
[196]Pour chacun des jeux de données, un ensemble de données comprenant les données cliniques vectorisées et les abondances microbiennes normalisées ont servies de données d’entrée pour l’entrainement du modèle. [196]For each dataset, a dataset comprising vectorized clinical data and normalized microbial abundances served as input data for model training.
Analyse longitudinale des prédictions effectuée sur l’ensemble des échantillons d’un même sujet. Longitudinal analysis of predictions carried out on all samples from the same subject.
[197]Pour les jeux de données ECUN, sepsis et DT1 , des échantillons de selles ont été prélevés en série pour un même sujet permettant une analyse longitudinale des prédictions effectuées pour un même enfant. Cette approche permettait ici de mesurer la capacité d’un modèle à être performant dès le premier échantillon malgré la dynamique des microbiotes. Dans cette approche, un sujet était considéré comme correctement classé lorsque tous ses échantillons étaient correctement classés. Les sujets pour lesquels au moins un échantillon était mal classé étaient considérés comme mal classés. Les inventeurs ont aussi profité de l'échantillonnage longitudinal des sujets pour explorer l’évolution du microbiote au cours du temps et redéterminer le phénotype final de chaque sujet mal classé par le réseau de neurones profonds. Les sujets pour lesquels la prédiction du phénotype était inégal selon les échantillons et qui avaient au moins 3 échantillons dans l'ensemble de données test ont été identifiés. Le nombre d'échantillons dans chaque groupe phénotypique a été calculé et le phénotype final du sujet était déterminé par le groupe phénotypique ayant le plus grand nombre d'échantillons. Le phénotype ainsi déterminé a été comparé avec le phénotype observé (atteint d’une pathologie ou d’un état pathologique, non atteint). Enfin, un tracé en sucette a été généré pour visualiser cette approche d’analyse du suivi longitudinal à l'aide du package ggpubr (v0.4.0). [197]For the ECUN, sepsis and DT1 datasets, stool samples were collected serially for the same subject allowing a longitudinal analysis of the predictions made for the same child. This approach made it possible to measure the ability of a model to perform from the first sample despite the dynamics of the microbiotas. In this approach, a subject was considered correctly classified when all of its samples were correctly classified. Subjects for whom at least one sample was misclassified were considered misclassified. The inventors also took advantage of the longitudinal sampling of subjects to explore the evolution of the microbiota over time and to redetermine the final phenotype of each subject misclassified by the deep neural network. Subjects for whom the phenotype prediction was unequal across samples and who had at least 3 samples in the test dataset were identified. The number of samples in each phenotypic group was calculated and the final phenotype of the subject was determined by the phenotypic group with the largest number of samples. The phenotype thus determined was compared with the observed phenotype (affected by a pathology or a pathological state, not affected). Finally, a lollipop plot was generated to visualize this longitudinal follow-up analysis approach using the ggpubr package (v0.4.0).
Exemple 1 : Diagnostic prédictif de l’accouchement prématuré à l’aide d’un réseau de neurones profonds entrainé avec des données de microbiote vaginal. Example 1: Predictive diagnosis of preterm birth using a deep neural network trained with vaginal microbiota data.
Recueil des données du jeu d’entrainement Collecting data from the training game
[198]Les inventeurs ont sélectionné cinq études s’étant intéressé au microbiote vaginal en lien avec l’accouchement prématuré grâce aux mots-clés anglais : « vaginal microbiome », « shotgun metagenomics » et « premature birth » : Feehily ét al., 2020 ; Fettweis ét al, 2019 ; Goltsman ét al, 2018 ; Pace ét al, 2021 ; Tortelli ét al. 2021. [198]The inventors selected five studies that looked at the vaginal microbiota in relation to preterm birth using the English keywords: “vaginal microbiome”, “shotgun metagenomics” and “premature birth”: Feehily et al., 2020; Fettweis et al, 2019; Goltsman et al, 2018; Pace et al, 2021; Tortelli et al. 2021.
[199]Les données brutes et les métadonnées associées ont été obtenues pour chaque cohorte sous les numéros d’accession listés dans le tableau 1 ou sur demande. ENA représente European National Archive, NIH représente National Institute of Health, SRA représente Sequence Read Archive. [199]Raw data and associated metadata were obtained for each cohort under the accession numbers listed in Table 1 or upon request. ENA represents European National Archive, NIH represents National Institute of Health, SRA represents Sequence Read Archive.
Tableau 1 Table 1
[200]Pour chaque cohorte, les métadonnées d'échantillons suivantes ont été retenues : [200]For each cohort, the following sample metadata were retained:
- phénotype de naissance à terme (TB pour Term Birth) ou de naissance prématurée (PTB pour preterm birth), - term birth (TB) or preterm birth (PTB) phenotype,
- moment de collecte de l'échantillon : 1er trimestre de grossesse soit de 1-13 semaines de gestation, 2ème trimestre de grossesse soit de 14-26 semaines de gestation, 3ème trimestre de grossesse soit >= 27 semaines de gestation, - time of sample collection: 1st trimester of pregnancy i.e. 1-13 weeks gestation, 2nd trimester of pregnancy i.e. 14-26 weeks of gestation, 3rd trimester of pregnancy i.e. >= 27 weeks of gestation,
- âge des participantes (inférieur à 35 ans, supérieur ou égal à 35 ans), - age of participants (less than 35 years old, greater than or equal to 35 years old),
- groupe ethnique (Africain-Américain, Américain-Indien, Asiatique, Noir, Caucasien, Hispanique, Multi-ethnie, Blanc) et - ethnic group (African-American, American-Indian, Asian, Black, Caucasian, Hispanic, Multi-ethnic, White) and
- l'identifiant (ID) de la participante. - the participant's identifier (ID).
[201]Un total de 1290 échantillons a été récupéré. Seuls les échantillons prélevés au cours de la grossesse ont été utilisés. Le tableau 2 représente les propriétés générales des études individuelles incluses pour l’entraînement du réseau de neurones profonds. Celles-ci présentent le nombre d’échantillons ou le nombre de participantes, TB représente une naissance à terme (en anglais Term Birth) et PTB une naissance prématurée (en anglais PreTerm Birth). [201]A total of 1290 samples were retrieved. Only samples collected during pregnancy were used. Table 2 represents the general properties of the individual studies included for training the deep neural network. These present the number of samples or the number of participants, TB represents a term birth and PTB a preterm birth.
Tableau 2 Table 2
Prétraitement des données Data preprocessing
[202]Lors du prétraitement à l’aide de RiboTaxa, pour la reconstruction des gènes d’ADNr 16S/18S, les paramètres A, B et C décrits dans le tableau 3 suivant ont été utilisés. Tableau 3 [202]When preprocessing using RiboTaxa, for the reconstruction of 16S/18S rDNA genes, the parameters A, B and C described in the following Table 3 were used. Table 3
[204]Les profils taxonomiques au niveau de l'espèce ainsi que les données cliniques contenant les informations sur l'ethnicité, l'âge, le phénotype de la participante et le moment de la collecte d'échantillons ont été utilisés pour entrainer un réseau de neurones profonds. [204]Species-level taxonomic profiles together with clinical data containing information on participant ethnicity, age, phenotype, and time of sample collection were used to train a deep neural network.
Comparaison du réseau de neurones profonds optimisé avec d’autres modèles d’apprentissage Comparison of the optimized deep neural network with other learning models
[205] Les performances du réseau de neurones profond optimisé ont été comparées à celles de trois algorithmes de classification de pointe : le modèle k-plus proches voisins (KNN), la régression logistique (LR) et la machine à vecteurs de support (SVM). Tous ces modèles ont été implémentés en Python (version 3.9.10). La librairie scikit-learn (vO.24.2) a été utilisée. Chaque modèle a été entraîné à partir des mêmes données, soit les 1290 échantillons. Les meilleurs hyperparamètres et configurations ont été identifiés en utilisant la méthode de validation croisée par recherche en grille (GSCV) de scikit-learn. La méthode GSCV identifie la meilleure combinaison d'hyperparamètres lors du processus de validation croisée à 10 plis (10-fold) pour obtenir les performances optimales des modèles. [205] The performance of the optimized deep neural network was compared with three state-of-the-art classification algorithms: k-nearest neighbors (KNN), logistic regression (LR), and support vector machine (SVM). All these models were implemented in Python (version 3.9.10). The scikit-learn library (vO.24.2) was used. Each model was trained on the same data set, i.e., the 1290 samples. The best hyperparameters and configurations were identified using the grid-search cross-validation (GSCV) method of scikit-learn. The GSCV method identifies the best combination of hyperparameters during the 10-fold cross-validation process to achieve the optimal performance of the models.
[2061Comparaison du réseau de neurones profonds entraînés avec des données de diversité microbienne obtenues avec RiboTaxa et MetaPhlAn3 [2061Comparison of deep neural network trained with microbial diversity data obtained with RiboTaxa and MetaPhlAn3
MetaPhlAn 3 (Beghini et al. 2021) utilise des gènes marqueurs spécifiques de clades permettant d’identifier la présence et l’abondance relative de microorganismes à partir de données métagénomiques. MetaPhlAn3 a été utilisé pour traiter les données de métagénomique « shotgun » de la cohorte Fettweis avec les paramètres par défaut et en utilisant la base de données CHOCOPhlAnSGB (version Jan21). Les profils de diversité microbienne au niveau de l’espèce ont été utilisés comme données d’entrée pour l’entrainement d’un réseau de neurones profonds. Les performances du modèle obtenu ont été comparées à un modèle de réseau de neurones profonds entraînés avec les données de diversité obtenues par pré-traitement des mêmes données de séquençage avec RiboTaxa. Résultats MetaPhlAn 3 (Beghini et al. 2021) uses clade-specific marker genes to identify the presence and relative abundance of microorganisms from metagenomic data. MetaPhlAn3 was used to process shotgun metagenomic data from the Fettweis cohort with default parameters and using the CHOCOPhlAnSGB database (Jan21 release). Species-level microbial diversity profiles were used as inputs for training a deep neural network. The performance of the resulting model was compared to a deep neural network model trained with diversity data obtained by pre-processing the same sequencing data with RiboTaxa. Results
[207]Le traitement par le chainage bio-informatique RiboTaxa des données de séquençage métagénomique des cinq études a permis d’obtenir des séquences d’ADNr 16S ou 18S complètes à quasi-complètes avec une longueur minimum de 1045 bases. Une description précise du microbiote vaginal a ainsi été obtenue pour chaque échantillon, cette description comprend une identification au niveau de l’espèce et l’abondance relative de chaque espèce. L’approche de reconstruction des gènes exprimant l’ARNr 16S et/ou 18S permet de reconstruire des séquences très distantes des séquences de référence, ce qui permet ainsi d’identifier de nouveaux microorganismes qui ne seraient pas identifiés par les autres approches (PCR quantitative, analyses classiques de données métagénomiques, amplification par PCR d’une portion du gène exprimant l’ARNr 16S puis séquençage). [207]The processing by the RiboTaxa bioinformatics chain of the metagenomic sequencing data of the five studies made it possible to obtain complete to almost complete 16S or 18S rDNA sequences with a minimum length of 1045 bases. A precise description of the vaginal microbiota was thus obtained for each sample, this description includes an identification at the species level and the relative abundance of each species. The approach of reconstructing genes expressing 16S and/or 18S rRNA makes it possible to reconstruct sequences very distant from the reference sequences, which thus makes it possible to identify new microorganisms that would not be identified by other approaches (quantitative PCR, classic analyses of metagenomic data, PCR amplification of a portion of the gene expressing 16S rRNA then sequencing).
[208]Les données d’entrée composées des profils de microbiote vaginal associées aux quatre métadonnées (phénotype, ethnie, âge, moment de la collecte de l'échantillon) ont permis d’effectuer un apprentissage par réseaux de neurones profonds permettant de distinguer des accouchements à terme des accouchements prématurées. L’ensemble de données d’entrainement comprenaient 17 valeurs catégorielles (données cliniques vectorisées) et 636 valeurs numériques (abondances microbiennes normalisées). [208]Input data composed of vaginal microbiota profiles associated with four metadata (phenotype, ethnicity, age, time of sample collection) were used to perform deep neural network training to distinguish term from preterm deliveries. The training dataset included 17 categorical values (vectorized clinical data) and 636 numerical values (normalized microbial abundances).
[209]Le tableau 4 suivant rassemble les caractéristiques du réseau de neurones profonds obtenu. [209]The following Table 4 brings together the characteristics of the deep neural network obtained.
Tableau 4 Table 4
[210]L'évaluation du modèle final a été réalisée sur l'ensemble test composé de 239 échantillons n’ayant pas servi à la construction du modèle d’apprentissage d’intelligence artificielle. L’exactitude du diagnostic atteint 84,10%, tandis que la sensibilité et la spécificité atteignent 63,41% et 88,38% respectivement. Dans des essais répétés du réseau de neurones profonds, les inventeurs ont démontré un AUROC de 0,877 ± 0.11. [210]The final model evaluation was performed on the test set consisting of 239 samples that were not used for building the artificial intelligence learning model. The diagnostic accuracy reached 84.10%, while the sensitivity and specificity reached 63.41% and 88.38% respectively. In repeated tests of the deep neural network, the inventors demonstrated an AUROC of 0.877 ± 0.11.
[211]Sur un même jeu de données d’entrée, les performances du réseau de neurones profonds (DNN) ont été supérieures comparées aux modèles de régression logistique (LR), des K-plus proches voisins (KNN) et d’une machine à vecteur de support SVM qui démontrent une exactitude similaire, tout de même de qualité (Tableau 5). Tableau 5 [211]On the same input dataset, the performance of the deep neural network (DNN) was superior compared to logistic regression (LR), K-nearest neighbors (KNN) and a support vector machine SVM models which demonstrate similar accuracy, yet quality (Table 5). Table 5
[212]Les performances de prédiction du risque de survenue d’un accouchement prématuré ont été améliorées en focalisant l’entrainement d’un modèle sur les données provenant uniquement des échantillons prélevés au cours du deuxième trimestre. Le modèle a alors montré une sensibilité supérieure de 10% à 73,40% tout en conservant de très bonnes exactitude et spécificité à 82,58% et 85,61 % respectivement. Ce résultat montre que la sélection pertinente des données d’entrée est nécessaire pour obtenir les résultats les plus performants. [212]The performance of predicting the risk of preterm delivery was improved by focusing the training of a model on data from samples collected during the second trimester only. The model then showed a sensitivity higher by 10% to 73.40% while maintaining very good accuracy and specificity at 82.58% and 85.61% respectively. This result shows that the relevant selection of input data is necessary to obtain the best performing results.
[213]La stratégie d’obtention des profils de diversité microbienne par reconstruction du gène exprimant l’ARNr 16S et/ou 18S a permis d’obtenir les meilleures performances comparée à l’utilisation d’autres gènes marqueurs (Figure 3). [213]The strategy of obtaining microbial diversity profiles by reconstruction of the gene expressing 16S and/or 18S rRNA allowed obtaining the best performances compared to the use of other marker genes (Figure 3).
Exemple 2 : Comparaison des performances de modèles entraînés sur des données de metabarcoding versus des données de métagénomique directe pour le diagnostic prédictif de l’accouchement prématuré. Example 2: Comparison of the performance of models trained on metabarcoding data versus direct metagenomics data for the predictive diagnosis of preterm birth.
Recueil des données pour le jeu d’entrainement Data collection for the training game
[214]L’étude de Fettweis et al. a porté sur 232 femmes dont les échantillons vaginaux ont été analysés à la fois par métagénomique directe dite « shotgun » et par metabarcoding (séquençage de la région V3-V4 de l’ADNr 16S). Les données brutes de métagénomique « shotgun » (952 Gb) et les métadonnées de la cohorte de Fettweis et al. ont été obtenues après l'approbation d’accès aux données par le National Institute of Health. Ce jeu de données représentait 173 femmes qui avaient accouché à terme (667 échantillons vaginaux, notés TB) et 55 femmes qui avaient accouché prématurément (155 échantillons vaginaux, notés PTB). Les données brutes de metabarcoding (58 Gb) appartenant à 749 échantillons TB (173 femmes) et 205 échantillons PTB (55 femmes) étaient en libre accès et ont été téléchargés depuis HMP DACC (https://portal.hmpdacc.org). [214]The Fettweis et al. study included 232 women whose vaginal samples were analyzed by both direct shotgun metagenomics and metabarcoding (sequencing of the 16S rDNA V3-V4 region). Raw shotgun metagenomics data (952 Gb) and metadata for the Fettweis et al. cohort were obtained after National Institute of Health data access approval. This dataset represented 173 women who delivered at term (667 vaginal samples, scored TB) and 55 women who delivered preterm (155 vaginal samples, scored PTB). Raw metabarcoding data (58 Gb) from 749 TB samples (173 women) and 205 PTB samples (55 women) were open access and were downloaded from HMP DACC (https://portal.hmpdacc.org).
Prétraitement des données d’entrainement Preprocessing of training data
[215]Pour les données issues de séquençage « shotgun », le chainage RiboTaxa a été utilisé. Pour la reconstruction du gène exprimant l'ARNr 16S et/ou 18S, les paramètres A, B et C ont été les suivants : --max_read_length = 301 , --insert_mean = 120, --insert_stddev = 300. [216]Les données de séquençage metabarcoding ont été traitées avec DADA2 (package R 1.16). Une première étape de filtre contrôle qualité des lectures a été réalisée avec des paramètres standard : maxN=0, truncQ=2, rm.phix=TRUE et maxEE=2. Après apprentissage des taux d’erreur avec la fonction « learnErrors », les lectures ont été dérépliquées pour obtenir des séquences uniques ou ASVs (Amplicon Sequence Variants) assorties de leur abondance (nombre de lectures correspondant à chaque séquence unique). L'algorithme d'inférence d'échantillons a ensuite été appliqué afin de corriger les séquences dérépliquées à partir des profils de qualité des séquences brutes. Les paires de lectures ainsi obtenues ont été fusionnées pour obtenir les séquences d’amplicons complets. Finalement, les séquences chimériques ont été identifiées et éliminées et les ASVs restants ont été classés taxonomiquement avec la fonction « assignTaxonomy » et la base de données SILVA SSU 138.1 NR99 (Quast et al., 2013, https://benjjneb.github.io/dada2/training.html) ont été utlisées. Les abondances absolues d’ASVs au sein de chaque échantillon ont été converties en abondances relatives en utilisant la fonction « transform_sample_counts » du package R phyloseq (2.10). [215]For data from shotgun sequencing, RiboTaxa chaining was used. For the reconstruction of the gene expressing 16S and/or 18S rRNA, the parameters A, B and C were as follows: --max_read_length = 301, --insert_mean = 120, --insert_stddev = 300. [216]Metabarcoding sequencing data were processed with DADA2 (R package 1.16). A first step of quality control filter of the reads was performed with standard parameters: maxN=0, truncQ=2, rm.phix=TRUE and maxEE=2. After learning the error rates with the “learnErrors” function, the reads were dereplicated to obtain unique sequences or ASVs (Amplicon Sequence Variants) with their abundance (number of reads corresponding to each unique sequence). The sample inference algorithm was then applied to correct the dereplicated sequences from the quality profiles of the raw sequences. The pairs of reads thus obtained were merged to obtain the complete amplicon sequences. Finally, chimeric sequences were identified and eliminated and the remaining ASVs were taxonomically classified with the “assignTaxonomy” function and the SILVA SSU 138.1 NR99 database (Quast et al., 2013, https://benjjneb.github.io/dada2/training.html) were used. Absolute abundances of ASVs within each sample were converted to relative abundances using the “transform_sample_counts” function of the R package phyloseq (2.10).
[217]Etant donné que l’approche de séquençage metabarcoding se concentre sur l’analyse d’une portion de l’ADNr 16S, l’analyse taxonomique ne peut être réalisée au niveau de l’espèce. De ce fait, les identifications de microorganismes n’ont été réalisées qu’au niveau du genre et les deux approches de séquençage ont été comparées avec le rang taxonomique du genre. [217]Since the metabarcoding sequencing approach focuses on the analysis of a portion of the 16S rDNA, taxonomic analysis cannot be performed at the species level. Therefore, microorganism identifications were only performed at the genus level and the two sequencing approaches were compared with the taxonomic rank of the genus.
[218]Les profils taxonomiques microbiens au niveau du genre, obtenus à partir des données de métagénomique shotgun et de metabarcoding, ainsi que les données cliniques (ethnicité, âge, phénotype et moment de la collecte des échantillons) ont été préalablement transformés comme décrit préalablement. [218]Microbial taxonomic profiles at the genus level obtained from shotgun metagenomics and metabarcoding data, as well as clinical data (ethnicity, age, phenotype, and time of sample collection) were pre-transformed as previously described.
Entraînements de réseaux de neurones profonds Deep Neural Network Training
[219]Un réseau de neurones profonds a été implémenté et entraînés pour chacune des données de métagénomique directe et de metabarcoding, puis les performances des modèles produits ont été évalués avec l’ensemble de données test. [219]A deep neural network was implemented and trained for each of the direct metagenomics and metabarcoding data, and then the performance of the produced models was evaluated with the test dataset.
Résultats Results
[220]Le modèle entraîné sur les données issues du metabarcoding (au niveau du genre) a atteint une exactitude de 80,10 % (sur un total de 191 échantillons des données test), une spécificité de 86,84 % (sur 152 échantillons TB) et une sensibilité moindre de 53,84 % (sur 39 échantillons PTB) (Figure 4). [221 ]En ce qui concerne les données issues de métagénomique directe, le modèle entrainé au rang taxonomique du genre a permis une amélioration de près de 10% de la sensibilité atteignant 63,33% (sur 33 échantillons PTB) pour une spécificité de 87,12% (sur 132 échantillons TB). [220]The model trained on the metabarcoding data (at the genus level) achieved an accuracy of 80.10% (on a total of 191 samples of the test data), a specificity of 86.84% (on 152 TB samples) and a lower sensitivity of 53.84% (on 39 PTB samples) (Figure 4). [221] Regarding the data from direct metagenomics, the model trained at the taxonomic rank of the genus allowed an improvement of almost 10% in sensitivity reaching 63.33% (on 33 PTB samples) for a specificity of 87.12% (on 132 TB samples).
[222]Ces résultats illustrent que l’approche de reconstruction des gènes exprimant l’ADNr 16S et/ou 18S permet une meilleure identification des microorganismes grâce à des séquences longues d’ADNr et conduit ainsi à un modèle plus performant comparé au metabarcoding qui fournit des séquences courtes d’ADNr. Les biais liés à l’amplification PCR des amplicons, inhérents au metabarcoding, peuvent également impacter la représentativité de la diversité microbienne et dégrader les performances du modèle de classification. [222]These results illustrate that the approach of reconstructing genes expressing 16S and/or 18S rDNA allows a better identification of microorganisms thanks to long rDNA sequences and thus leads to a more efficient model compared to metabarcoding which provides short rDNA sequences. The biases linked to the PCR amplification of amplicons, inherent to metabarcoding, can also impact the representativeness of microbial diversity and degrade the performance of the classification model.
Exemple 3 : Diagnostic prédictif de l’ECUN à l’aide d’un réseau de neurones profonds entrainé avec des données issues de microbiote fécal. Example 3: Predictive diagnosis of ECUN using a deep neural network trained with data from fecal microbiota.
Recueil des données pour le jeu d’entrainement Data collection for the training game
[223]Les mots-clés (en anglais) suivants ont été utilisés pour identifier les études s’étant intéressé à l’ECUN chez le nouveau-né prématuré et ayant inclus des prélèvements de selles : « premature infants » ET (« stool microbiome » OU « intestinal microbiome») ET « shotgun metagenomics » ET « necrotizing enterocolitis ». A la fin du processus de sélection, deux études ont été retenues : Masi ét al. (2021) et Olm ét al. (2019). [223]The following keywords were used to identify studies that investigated NEC in preterm infants and included stool samples: “premature infants” AND (“stool microbiome” OR “intestinal microbiome”) AND “shotgun metagenomics” AND “necrotizing enterocolitis”. At the end of the selection process, two studies were retained: Masi et al. (2021) and Olm et al. (2019).
[224]Les données brutes de séquençage métagénomique shotgun et les métadonnées de Masi et al. (2021) ont été téléchargées à partir de l’ENA dans le cadre du BioProject PRJEB39610 (n = 524 ; 974,51 Go). En plus de sa propre cohorte, Olm ét al. (2019) ont également utilisé des données de séquençage provenant de différents ensembles de données précédemment publiés. Toutes les données brutes et métadonnées utilisées dans la cohorte Olm (n=1038 au total) ont été téléchargées à partir de SRA sous les BioProjects : PRJNA294605 (n = 141 ; 596,53 Go), PRJNA417343 (n = 184 ; 152,21 Go) PRJNA396794 (n = 295 ; 1 ,35). Tb), PRJNA376566 (n = 358 ; 905,22 Go) et étude SRA SRP052967 (n = 60 ; 114,21 Go). [224] Raw shotgun metagenomic sequencing data and metadata from Masi et al. (2021) were downloaded from ENA under BioProject PRJEB39610 (n = 524; 974.51 GB). In addition to their own cohort, Olm et al. (2019) also used sequencing data from different previously published datasets. All raw data and metadata used in the Olm cohort (n = 1038 in total) were downloaded from SRA under the BioProjects: PRJNA294605 (n = 141; 596.53 GB), PRJNA417343 (n = 184; 152.21 GB) PRJNA396794 (n = 295; 1.35 GB). Tb), PRJNA376566 (n = 358; 905.22 Gb) and SRA study SRP052967 (n = 60; 114.21 Gb).
[225]Au total 1 305 échantillons contrôles (de 160 nourrissons) et 257 échantillons ECU N (de 48 nourrissons ayant développé l’ECUN) ont été utilisés pour l’entrainement d’un modèle. Aucun échantillon collecté après l'apparition de l’ECUN n’a été analysé. Cinq caractéristiques de données cliniques communes aux deux études ont été collectées : le phénotype (contrôle, ECUN), le mode de naissance (vaginal, césarienne), le genre (garçon, fille), l'âge gestationnel à la naissance (en semaines), le jour de vie (ou en anglais day of life, DOL, en jours) et le poids à la naissance du nouveau-né (en grammes) et l'identification du nourrisson. Seuls Masi et al. (2021) ont indiqué que les enfants de leur cohorte avaient reçu des probiotiques (Lactobacillus acidophilus, Bifidobacterium inf antis et B. bifidum). [226]Les données cliniques des sujets sont présentées dans le tableau 6. [225]A total of 1,305 control samples (from 160 infants) and 257 N-EC samples (from 48 infants who developed NEC) were used for model training. No samples collected after the onset of NEC were analyzed. Five clinical data characteristics common to both studies were collected: phenotype (control, NEC), mode of birth (vaginal, cesarean), gender (boy, girl), gestational age at birth (in weeks), day of life (DOL, in days) and birth weight of the newborn (in grams), and infant identification. Only Masi et al. (2021) reported that children in their cohort received probiotics (Lactobacillus acidophilus, Bifidobacterium inf antis, and B. bifidum). [226]The clinical data of the subjects are presented in Table 6.
Tableau 6 Table 6
Prétraitement des données d’entrainement Preprocessing of training data
[227]Lors du prétraitement des données de séquençage à l’aide de RiboTaxa, pour la reconstruction du gène exprimant l'ARNr 16S et/ou 18S, les paramètres A, B et C ont été les suivants : [227]When preprocessing the sequencing data using RiboTaxa, for the reconstruction of the gene expressing 16S and/or 18S rRNA, the parameters A, B and C were as follows:
- cohorte Masi : --max_read_length = 151, --insert_mean = 144, --insert_stddev = 100 ; - Masi cohort: --max_read_length = 151, --insert_mean = 144, --insert_stddev = 100;
- cohorte Olm : --max_read_length = 301, --insert_mean = 120, --insert_stddev = 100. - Olm cohort: --max_read_length = 301, --insert_mean = 120, --insert_stddev = 100.
[228]Pour l’apprentissage du modèle, comme indiqué précédemment, les profils d’abondance des espèces microbiennes ont été normalisés et les données cliniques ont été discrétisées et vectorisées. Un ensemble de données comprenant 47 valeurs catégorielles et 1 282 valeurs numériques (abondances microbiennes normalisées) pour chacun des échantillons a été obtenu. [228]For model training, as previously reported, microbial species abundance profiles were normalized and clinical data were discretized and vectorized. A dataset comprising 47 categorical values and 1,282 numerical values (normalized microbial abundances) for each of the samples was obtained.
Evaluation du modèle sur des données externes [229]Pour évaluer davantage les performances du modèle optimisé, 50 échantillons fécaux de 17 prématurés dont 7 ayant développé une ECIIN, issus de la cohorte CORTECs suivie par les inventeurs, ont été analysés. De plus, 40 nourrissons issus de deux cohortes publiées (Ward et al. 2023 et Schwartz et al. 2023) ont également été inclus pour tester les performances du modèle. Model evaluation on external data [229]To further evaluate the performance of the optimized model, 50 fecal samples from 17 preterm infants including 7 who developed ECIIN, from the CORTECs cohort followed by the inventors, were analyzed. In addition, 40 infants from two published cohorts (Ward et al. 2023 and Schwartz et al. 2023) were also included to test the model performance.
[230]La constitution de la cohorte CORTECs a été approuvée par le comité d'éthique du CPP-Sud- Est VI (code protocole 2021/CE 26, la date d'approbation est le 4 mai 2021). La cohorte CORTECs vise à traiter les facteurs de risque prénatals et postnatals d’ECU N. Tous les enfants nés prématurément hospitalisés dans l'unité de soins intensifs néonatals (USIN) du CHU de Clermont-Ferrand (France) ont été proposés pour entrer dans la cohorte. Un consentement éclairé écrit a été obtenu des familles des participants à l'étude avant l'inscription. Les selles des nourrissons ont été collectées quotidiennement pendant leur séjour à l'USIN, entre mai 2021 et juin 2022. Les selles ont été collectées dans une couche à l'aide d'une oese stérile, puis distribuées dans un tampon eNAT (Copan) avant d’être maintenues brièvement à 4 ° C. Les échantillons ont été conservés à -80 ° C jusqu'à l'extraction de l'ADN. [230]The constitution of the CORTECs cohort was approved by the ethics committee of CPP-Sud-Est VI (protocol code 2021/CE 26, the approval date is May 4, 2021). The CORTECs cohort aims to address prenatal and postnatal risk factors for ECU N. All prematurely born children hospitalized in the neonatal intensive care unit (NICU) of the Clermont-Ferrand University Hospital (France) were proposed to enter the cohort. Written informed consent was obtained from the families of study participants before enrollment. Infant stools were collected daily during their NICU stay, between May 2021 and June 2022. Stools were collected in a diaper using a sterile loop and then dispensed into eNAT buffer (Copan) before being briefly held at 4°C. Samples were stored at -80°C until DNA extraction.
[231]Les cas d’ECUN ont été identifiés par les médecins sur la base de signes systémiques et abdominaux et de caractéristiques radiographiques. Ils ont été stratifiés selon la gravité de la maladie selon les stades de Bell. Les cas d’ECUN ont été appariés à un nouveau-né prématuré contrôle (deux pour un cas) qui n'a pas développé d’ECUN. L'appariement cas-contrôles était basé sur l'âge gestationnel à l'accouchement, le mode d'accouchement, le sexe, le poids à la naissance et les antibiotiques pré et postnatals. Pour chaque nourrisson ECUN, les échantillons disponibles ont été sélectionnés dans une fenêtre d'une semaine avant le début de l’ECUN et les échantillons des cas contrôles correspondants ont été appariés en fonction de l'âge du sujet ECUN. [231] Cases of ECUN were identified by physicians based on systemic and abdominal findings and radiographic features. They were stratified according to disease severity according to Bell stages. Cases of ECUN were matched to a control preterm infant (two to one case) who did not develop ECUN. Case-control matching was based on gestational age at delivery, mode of delivery, sex, birth weight, and pre- and postnatal antibiotics. For each ECUN infant, available samples were selected within a 1-week window before the onset of ECUN and samples from corresponding control cases were matched according to the age of the ECUN subject.
[232]L'ADN génomique a été extrait à l'aide du protocole opératoire standard pour les échantillons fécaux (protocole H) recommandé par les normes internationales du microbiome humain (IHMS SOP 07 V1). La qualité de l'ADN a été évaluée à l'aide du fluoromètre Nanodrop 2000 (Thermo Scientific) et du système Agilent 4150 TapeStation avec des ScreenTape ADN génomique (Agilent). La quantité d'ADN a été évaluée à l'aide du fluoromètre Qubit 3 (Invitrogen) avec le kit de test Qubit dsDNA High Sensitivity (Invitrogen). Capture par hybridation du gène exprimant l'ARNr 16S et traitement des données de séquençage : les sondes de capture ont été conçues pour cibler le gène exprimant l’ARNr 16S (Gasc et al., 2016). Des librairies de séquençage ont été produites pour chaque échantillon à l'aide du kit de préparation de librairies Nextera XT. L'expérience de capture de gènes a été réalisée selon le protocole décrit par Ribière ét al. (2016) et Comtet-Marre et al. (2023). En bref, des sondes de capture ARN biotinylées ont été obtenues par transcription in vitro. 500 ng de librairies ont été mélangés avec 2,5 pg d'ADN de sperme de saumon et incubés avec 500 ng de sondes biotinylées dans un tampon d'hybridation pendant 24 h à 65°C. Les hétéroduplex sonde/cible ont été capturés à l'aide de 500 pg de billes paramagnétiques recouvertes de streptavidine (Dynabeads M-280 Streptavidin, Invitrogen). Les billes ont été collectées à l'aide d'un support magnétique (Ambion), lavées une fois avec 500 pL de tampon 1 x SSC/0,1 % SDS, puis trois fois avec 500 pL de tampon 0,1 x SSC/0,1 % SDS préchauffé à 65°C. Les fragments d'ADN capturés ont été élués avec 50 pL de NaOH 0,1 M et transférés dans un tube stérile contenant 70 pL de tampon Tris-HCI 1 M pH 7,5. L'ADN capturé a été amplifié par PCR avec 25 cycles en utilisant des amorces complémentaires aux adaptateurs Illumina. Pour augmenter l’efficacité de l’enrichissement, un deuxième cycle de capture a été effectué. L'ADN capturé a ensuite été séquencé sur la plate-forme Illumina MiSeq 2 x 300 pb. [232]Genomic DNA was extracted using the standard operating procedure for fecal samples (protocol H) recommended by the International Human Microbiome Standards (IHMS SOP 07 V1). DNA quality was assessed using the Nanodrop 2000 fluorometer (Thermo Scientific) and the Agilent 4150 TapeStation system with ScreenTape Genomic DNA (Agilent). DNA quantity was assessed using the Qubit 3 fluorometer (Invitrogen) with the Qubit dsDNA High Sensitivity Assay Kit (Invitrogen). Hybridization capture of the 16S rRNA-expressing gene and sequencing data processing: Capture probes were designed to target the 16S rRNA-expressing gene (Gasc et al., 2016). Sequencing libraries were produced for each sample using the Nextera XT library preparation kit. The gene capture experiment was performed according to the protocol described by Ribière et al. (2016) and Comtet-Marre et al. (2023). Briefly, biotinylated RNA capture probes were obtained by in vitro transcription. 500 ng of libraries were were mixed with 2.5 μg salmon sperm DNA and incubated with 500 ng biotinylated probes in hybridization buffer for 24 h at 65°C. Probe/target heteroduplexes were captured using 500 μg streptavidin-coated paramagnetic beads (Dynabeads M-280 Streptavidin, Invitrogen). Beads were collected using a magnetic stand (Ambion), washed once with 500 μL 1x SSC/0.1% SDS buffer, and then three times with 500 μL 0.1x SSC/0.1% SDS buffer preheated to 65°C. Captured DNA fragments were eluted with 50 μL of 0.1 M NaOH and transferred to a sterile tube containing 70 μL of 1 M Tris-HCl buffer pH 7.5. Captured DNA was amplified by PCR with 25 cycles using primers complementary to Illumina adapters. To increase enrichment efficiency, a second capture cycle was performed. Captured DNA was then sequenced on the Illumina MiSeq 2 x 300 bp platform.
[233]Pour la cohorte de Ward étal. 2023, les nourrissons ont été recrutés dans deux unités de soins intensifs néonatals de niveau III (USIN) à Cincinnati (USA) et une USIN de niveau III à Birmingham (UK). Les cas d’ECUN rapportés étaient au stade II ou III de Bell. Un total de 115 données de séquençage métagénomique direct ont été utilisées, provenant de 3 nouveau-nés ECU N (9 échantillons) appariés à un total de 35 nouveau-nés prématurés contrôles (106 échantillons). Les échantillons de selles ont été collectés entre les jours 3 et 22 de vie. Les données brutes et les métadonnées ont été téléchargées depuis l'ENA (BioProject PRJNA63661). [233]For the Ward et al. 2023 cohort, infants were recruited from two level III neonatal intensive care units (NICUs) in Cincinnati (USA) and one level III NICU in Birmingham (UK). Reported NICU cases were Bell stage II or III. A total of 115 direct metagenomic sequencing data were used, from 3 NICU neonates (9 samples) matched to a total of 35 control preterm neonates (106 samples). Stool samples were collected between days 3 and 22 of life. Raw data and metadata were downloaded from ENA (BioProject PRJNA63661).
[234]Schwartz et al. 2023 est une étude prospective américaine visant àétudier les facteurs associés à l'infection sanguine et au microbiome intestinal en unité de soins intensifs néonatals. Dans cette cohorte, deux nourrissons (8 échantillons) ont développé une entérocolite ulcéro-nécrosante (ECU N) et ont été sélectionnés. Les données brutes et les métadonnées ont été téléchargées depuis le dépôt NCBI (BioProject PRJNA884103). [234]Schwartz et al. 2023 is a prospective US study to investigate factors associated with bloodstream infection and gut microbiome in neonatal intensive care units. In this cohort, two infants (8 samples) developed necrotizing enterocolitis (N-ECU) and were selected. Raw data and metadata were downloaded from the NCBI repository (BioProject PRJNA884103).
[235]Pour les 3 cohortes, les données cliniques comprenaient les phénotypes (contrôle, NEC), le mode de naissance (vaginal, césarienne), le sexe (masculin, féminin), l'âge gestationnel (en semaines), le jour de vie (en jours) et le poids de naissance du nouveau-né (g) ainsi que l'identifiant de l'enfant (Tableau 7). Tableau 7 [235]For all 3 cohorts, clinical data included phenotypes (control, NEC), mode of birth (vaginal, cesarean), sex (male, female), gestational age (in weeks), day of life (in days), and newborn birth weight (g) as well as child identifier (Table 7). Table 7
[236]Les données brutes de séquençage issues des trois cohortes ont été traitées à l'aide du pipeline RiboTaxa et l’ensemble des données d’entrée ont été normalisées ou transformées comme décrit précédemment. Les espèces qui n'étaient pas présentes dans les échantillons utilisés pour l’apprentissage ont été exclues étant donné que le modèle ne peut pas les prendre en compte Pour chaque échantillon, le tableau d'abondances relatives des microorganismes au niveau de l’espèce concaténé avec les données cliniques du sujet a été utilisé comme entrée dans le modèle entraîné. Chaque prédiction a été comparée au phénotype de l’enfant (contrôle ou ECIIN). Des tracés SHAP ont également été générés. La prédiction finale des enfants a aussi été déterminée grâce aux échantillons longitudinaux provenant du même nourrisson en utilisant la même approche d’analyse de suivi longitudinal. [236]Raw sequencing data from the three cohorts were processed using the RiboTaxa pipeline and all input data were normalized or transformed as described previously. Species that were not present in the training samples were excluded as the model cannot account for them. For each sample, the relative abundance table of microorganisms at the species level concatenated with the subject's clinical data was used as input to the trained model. Each prediction was compared to the child's phenotype (control or ECIIN). SHAP plots were also generated. The final prediction of the children was also determined using longitudinal samples from the same infant using the same longitudinal follow-up analysis approach.
Résultats Results
[237]Toutes les données de séquençage ont été analysées avec le pipeline RiboTaxa (Chakoory et al., 2022), permettant la reconstruction de gènes d’ADNr 16S complets à presque complets pour fournir une description précise du microbiote intestinal jusqu'au niveau de l'espèce, comprenant l'identification des microorganismes dominants (>1 %), sous-dominants (<1%) et rares (<0, 1 %) permettant ainsi d’obtenir la meilleure représentativité du microbiote. [238]ll est fréquemment mis en évidence que les bactéries des Enterobacteriaceae sont plus abondantes chez les enfants qui vont développer une ECIIN. L’analyse différentielle de la diversité des données de microbiote fécal destinées à l’entrainement montre également une abondance relatives moyennes d'Enterobacter non classées et d'entérobactéries non classées significativement plus élevées dans les échantillons ECIIN comparés aux échantillons de prématurés contrôles (p <0,05, Welch’s f-test). Malgré ces observations répétées dans les études, elles ne représentent toujours pas une signature microbienne fiable du risque d’ECUN car elles ne sont pas universellement retrouvées et que la notion de seuil d’abondance relative associé est difficile à déterminer. [237]All sequencing data were analyzed with the RiboTaxa pipeline (Chakoory et al., 2022), allowing the reconstruction of complete to near-complete 16S rDNA genes to provide an accurate description of the gut microbiota down to the species level, including the identification of dominant (>1%), subdominant (<1%) and rare (<0.1%) microorganisms thus allowing the best representativeness of the microbiota. [238] It is frequently demonstrated that Enterobacteriaceae bacteria are more abundant in children who will develop ECIIN. Differential analysis of the diversity of fecal microbiota data intended for training also shows a significantly higher mean relative abundance of unclassified Enterobacter and unclassified Enterobacteriaceae in ECIIN samples compared to control preterm samples (p < 0.05, Welch's f-test). Despite these repeated observations in studies, they still do not represent a reliable microbial signature of ECIIN risk because they are not universally found and the notion of an associated relative abundance threshold is difficult to determine.
[239]Pour pallier cette problématique, un réseau de neurones profonds a été développé et entrainé à l'aide de 1 402 caractéristiques (1 355 espèces microbiennes identifiées dans les selles et 47 données cliniques : 10 groupes d'âge gestationnel, 18 groupes de poids, 15 DOL, 2 modes de naissance et 2 groupes de sexe) (Figure 5). Le modèle final contenait 448 unités (neurones) dans la première couche cachée et un total de 3 couches cachées. L’entrainement du modèle a été réalisé en moins de 5 min sur un ordinateur i86linux32, 4,0 Go de RAM x 8 cœurs (32,8 Go au total) [239]To address this issue, a deep neural network was developed and trained using 1,402 features (1,355 microbial species identified in stool and 47 clinical data: 10 gestational age groups, 18 weight groups, 15 DOL, 2 birth modes, and 2 sex groups) (Figure 5). The final model contained 448 units (neurons) in the first hidden layer and a total of 3 hidden layers. The model was trained in less than 5 min on an i86linux32 computer, 4.0 GB RAM x 8 cores (32.8 GB total)
[240]Le tableau 8 suivant rassemble les caractéristiques du réseau de neurones profonds obtenu. [240]The following Table 8 brings together the characteristics of the deep neural network obtained.
[241]Tableau 8 [241]Table 8
[242]L'évaluation du modèle final a été réalisée sur l'ensemble test composé de 313 échantillons (provenant de 140 nourrissons). Le modèle a présenté une excellente exactitude de 94,9 %, une spécificité de 95,8 % (249 sur 260 échantillons contrôles) et une très bonne sensibilité de 90,6 % (48 sur 53 échantillons ECUN). Dans des essais répétés du réseau de neurones profonds, les inventeurs ont démontré un AUROC de 0,987 ± 0,01 (Figure 6), suggérant un bon équilibre entre sensibilité et spécificité et une valeur PR-AUC de 0,992±0,002 (Figure 7). De manière intéressante, Olm et al. ont appliqué une classification améliorée par gradient pour distinguer les nourrissons ECUN des contrôles à l'aide de données taxonomiques et ont obtenu seulement une précision de 64 % (Olm et al., 2019). [242]The final model evaluation was performed on the test set consisting of 313 samples (from 140 infants). The model showed an excellent accuracy of 94.9%, a specificity of 95.8% (249 out of 260 control samples) and a very good sensitivity of 90.6% (48 out of 53 ECUN samples). In repeated tests of the deep neural network, the inventors demonstrated an AUROC of 0.987 ± 0.01 (Figure 6), suggesting a good balance between sensitivity and specificity and a PR-AUC value of 0.992±0.002 (Figure 7). Interestingly, Olm et al. applied gradient-enhanced classification to distinguish ECUN infants from controls using taxonomic data and obtained only 64% accuracy (Olm et al., 2019).
[243]Chez 92,8% des nourrissons ECUN (26 sur 28) et 90,1 % des enfants contrôles (101 sur 112) le diagnostic prédictif a été correct pour l’ensemble des échantillons issus d’un même enfant, démontrant la robustesse du diagnostic malgré la colonisation dynamique du microbiote intestinal des nouveau-nés. [243]In 92.8% of ECUN infants (26 out of 28) and 90.1% of control children (101 out of 112) the predictive diagnosis was correct for all samples from the same child, demonstrating the robustness of the diagnosis despite the dynamic colonization of the intestinal microbiota of newborns.
[244]Du fait de la gravité des conséquences de la survenue de l’ECUN chez les nouveau-nés prématurés, les inventeurs ont cherché à améliorer les performances du modèle en utilisant une stratégie de vote majoritaire, déterminant un diagnostic prédictif à partir du phénotype majoritaire prédit pour les différents échantillons d’un même enfant, lorsqu’ils étaient disponibles. [244]Due to the seriousness of the consequences of the occurrence of ECUN in preterm newborns, the inventors sought to improve the performance of the model by using a majority voting strategy, determining a predictive diagnosis from the majority phenotype predicted for the different samples from the same child, when they were available.
[245] Dans cette étude, seulement 16 échantillons (provenant de 16 nourrissons) sur 313 échantillons testés ont été mal classés par le réseau de neurones profonds. Parmi les 16 échantillons mal classés, 6 appartenaient à 6 nourrissons (2 contrôles et 4 ECIIN) pour lesquels plus de trois échantillons en série étaient présents dans l’ensemble de données test. Ainsi, 22 échantillons longitudinaux appartenant aux 6 nourrissons ont été considérés. Cette approche a permis de déterminer le bon phénotype de chaque enfant. [245] In this study, only 16 samples (from 16 infants) out of 313 tested samples were misclassified by the deep neural network. Among the 16 misclassified samples, 6 belonged to 6 infants (2 controls and 4 ECIIN) for whom more than three serial samples were present in the test dataset. Thus, 22 longitudinal samples belonging to the 6 infants were considered. This approach allowed to determine the correct phenotype of each child.
[246]L’approche SHAP implémentée dans le réseau de neurones profonds permet l’identification des espèces clés contribuant à la prédiction du modèle, pouvant s’apparenter à des signatures microbiennes complexes de la pathologie ou de l’état sain. Les 20 caractéristiques les plus importantes contribuant à la prédiction du modèle sont présentées dans la figure 8. [246]The SHAP approach implemented in the deep neural network allows the identification of key species contributing to the model prediction, which can be similar to complex microbial signatures of pathology or healthy state. The 20 most important features contributing to the model prediction are presented in Figure 8.
[247]Les quatre contributeurs les plus importants étaient des espèces de Lactobacillus spp. et leurs valeurs SHAP élevées étaient associées à des échantillons d’enfants contrôles. L’approche de caractérisation des microbiotes basées sur l’ADNr 16S montre ici toute sa puissance avec l’identification par RiboTaxa de deux bactéries non classées, qui ne pourraient pas être révélées avec d’autres approches d’analyse de données de séquençage métagénomique. Ces bactéries, bacterium_129 et bacterium_ARbO3, ont contribué à la prédiction du phénotype contrôle. L'analyse phylogénétique a révélé que la bactérie_129 était potentiellement une nouvelle espèce de Lactobacillus partageant une identité de 96,32 % avec la souche Dwan5 de L. casei, tandis que la bactérie_ARbO3 partageait une identité de 99,71 % avec la souche ADY07 de Bacillus cereus. [247]The four most important contributors were Lactobacillus spp. species and their high SHAP values were associated with control child samples. The 16S rDNA-based microbiota characterization approach shows its full power here with the identification by RiboTaxa of two unclassified bacteria, which could not be revealed with other metagenomic sequencing data analysis approaches. These bacteria, bacterium_129 and bacterium_ARbO3, contributed to the prediction of the control phenotype. Phylogenetic analysis revealed that bacterium_129 was potentially a novel Lactobacillus species sharing 96.32% identity with L. casei strain Dwan5, while bacterium_ARbO3 shared 99.71% identity with Bacillus cereus strain ADY07.
[248]En revanche, les espèces affiliées Enterobacter non classé, Syntrophomonas non cultivé, Streptomyces vanillaeus, Enterobacteriaceae non classé et Enterococcus faecalis ont le plus contribué à la classification ECUN. [248]In contrast, the affiliated species Enterobacter unclassified, Syntrophomonas uncultured, Streptomyces vanillaeus, Enterobacteriaceae unclassified and Enterococcus faecalis contributed the most to the ECUN classification.
[249] Il est intéressant de noter que des espèces peu abondantes telles que Ruminococcus sp., Staphylococcus non cultivé, Streptococcus parasanguinis et Proteus spp. ont également été observées comme contribuant à la classification ECUN, tandis que les Bifidobacterium non classées étaient associés à des échantillons d’enfants prématurés contrôles. [250]Les performances prédictives du modèle proviennent principalement de données de microbiome. L'exclusion de caractéristiques cliniques lors de l’apprentissage a abouti à des valeurs de performance (AUROC = 0,931 , PR-AIIC = 0,956) qui n'étaient pas significativement différentes de celles du modèle incluant les données cliniques (p > 0,05, test U de Mann- Whitney entre ROC et courbes de précision-spécificité avec et sans métadonnées). [249] Interestingly, low abundant species such as Ruminococcus sp., uncultured Staphylococcus, Streptococcus parasanguinis and Proteus spp. were also observed to contribute to ECUN classification, while unclassified Bifidobacterium were associated with control preterm infant samples. [250]The model's predictive performance comes mainly from microbiome data. Excluding clinical features during training resulted in performance values (AUROC = 0.931, PR-AIIC = 0.956) that were not significantly different from those of the model including clinical data (p > 0.05, Mann-Whitney U test between ROC and accuracy-specificity curves with and without metadata).
[251]Pour évaluer les performances du modèle sur des données extérieures à celles utilisées pour l’entrainement du modèle, les inventeurs ont utilisé les données de 3 cohortes (France, USA, Angleterre). [251]To evaluate the performance of the model on data external to those used for training the model, the inventors used data from 3 cohorts (France, USA, England).
[252]Dans la cohorte CORTECs, les espèces de la famille des Enterobacteriaceae (Klebsiella non classées, Escherichia-Shigella non classées et Enterobacter spp.) qui sont couramment associées dans la pathogenèse de l’ECUN étaient présents dans les deux groupes et variaient en abondance relative d'un nourrisson à l'autre. Sur l'ensemble des échantillons de la cohorte, le réseau de neurones profonds optimisé suivi par l’approche d’analyse longitudinale des prédictions effectuée sur l’ensemble des échantillons des enfants illustrée par la figure 9, a démontré une sensibilité de 100 % (7 nourrissons ECUN stade 1a, ce qui correspond à 21 échantillons) et une spécificité de 80 % (8 contrôles sur 10, ce qui correspond à 23 échantillons). [252]In the CORTECs cohort, species of the family Enterobacteriaceae (unclassified Klebsiella, unclassified Escherichia-Shigella, and Enterobacter spp.) that are commonly associated in the pathogenesis of NEC were present in both groups and varied in relative abundance across infants. Across all cohort samples, the optimized deep neural network followed by the longitudinal prediction analysis approach performed on all infant samples illustrated in Figure 9 demonstrated a sensitivity of 100% (7 NEC stage 1a infants, corresponding to 21 samples) and a specificity of 80% (8 out of 10 controls, corresponding to 23 samples).
[253]De même, sur la cohorte de Ward, une sensibilité de 100% (3 nourrissons atteints d’ECUN représentant 9 échantillons) et une spécificité de 86% (30 nourrissons témoins sur 35, ce qui correspond à 90 échantillons) ont été atteintes. Sur la cohorte de Schwartz, une sensibilité de 100% (2 nourrissons atteints de NEC, ce qui correspond à 8 échantillons) a été obtenue. [253]Similarly, in the Ward cohort, a sensitivity of 100% (3 infants with NEC representing 9 samples) and a specificity of 86% (30 control infants out of 35, corresponding to 90 samples) were achieved. In the Schwartz cohort, a sensitivity of 100% (2 infants with NEC, corresponding to 8 samples) was achieved.
[254]En synthèse, la prédiction du phénotype d’échantillons provenant des 3 cohortes externes à l’entrainement a abouti à une sensibilité de 100% et une spécificité de 84,4%. Ainsi, les inventeurs ont réalisé un modèle très performant, capable de classer efficacement des échantillons provenant de différentes zones et pratiques de l'USIN malgré l'hétérogénéité du microbiome entre les cohortes. [254]In summary, the prediction of the phenotype of samples from the 3 external training cohorts resulted in a sensitivity of 100% and a specificity of 84.4%. Thus, the inventors have achieved a very powerful model, capable of effectively classifying samples from different areas and practices of the NICU despite the heterogeneity of the microbiome between the cohorts.
[255]Parmi les caractéristiques contribuant aux différentes prédictions (figures 10 et 11), la prédiction des échantillons contrôle était principalement liée à la présence d'une abondance plus élevée de Lactobacillus spp. dont L. rhamnosus, L. casei et Lactobacillus sp. En revanche, une prédiction ECUN était liée à une abondance plus élevée d Enterococcus faecalis, Veillonella ratti, Klebsiella non classées, Enterococcus durans, Enterobacter cancerogenus, Clostridium neonatale ou C. perfringens. Des espèces peu abondantes telles que Staphylococcus non cultivés, Haemophilus parainfluenzae et Staphylococcus epidermidis ont contribué à la prédiction de l’ECUN dans certains échantillons, mettant en évidence une tendance à la co-variation entre espèces dominantes et rares suggérant l’existence d’un réseau complexe d’interactions écologiques entre ces espèces. De manière intéressante, il a été observé qu’en fonction des enfants les profils de contribution des microorganismes variaient, démontrant tout l’intérêt de considérer le maximum de microorganismes pour l’entrainement du modèle afin d’effectivement prendre en compte toute la variabilité interindividuelle des microbiotes. Il existe donc plusieurs signatures microbiennes pour une même pathologie renforçant l’intérêt de ne pas sélectionner un nombre restreint de microorganismes pour l’entrainement des modèles de diagnostic prédictif. [255]Among the features contributing to the different predictions (Figures 10 and 11), the prediction of control samples was mainly related to the presence of a higher abundance of Lactobacillus spp. including L. rhamnosus, L. casei and Lactobacillus sp. In contrast, an ECUN prediction was related to a higher abundance of Enterococcus faecalis, Veillonella ratti, unclassified Klebsiella, Enterococcus durans, Enterobacter cancerogenus, Clostridium neonate or C. perfringens. Low abundance species such as uncultured Staphylococcus, Haemophilus parainfluenzae and Staphylococcus epidermidis contributed to the prediction of ECUN in some samples, highlighting a trend towards co-variation between dominant and rare species suggesting the existence of a complex network of ecological interactions between these species. Interestingly, it was observed that depending on the children, the contribution profiles of the microorganisms varied, demonstrating the interest in considering the maximum number of microorganisms for training the model in order to effectively take into account all the inter-individual variability of the microbiotas. There are therefore several microbial signatures for the same pathology, reinforcing the interest in not selecting a restricted number of microorganisms for training predictive diagnostic models.
[256]Les données cliniques contribuaient également à la classification des échantillons dans l’un des deux phénotypes. Un poids à la naissance <800 g et un âge gestationnel <30 semaines étaient les deux facteurs souvent associés à l’ECUN, tandis qu'un accouchement par voie basse et un âge gestationnel >31 semaines étaient associées aux échantillons des nourrissons non-ECUN. [256]Clinical data also contributed to the classification of samples into one of the two phenotypes. Birth weight <800 g and gestational age <30 weeks were the two factors often associated with ECUN, while vaginal delivery and gestational age >31 weeks were associated with samples from non-ECUN infants.
Exemple 4 : Diagnostic prédictif du diabète de type 1 chez l’enfant à l’aide du réseau de neurones profonds Example 4: Predictive diagnosis of type 1 diabetes in children using deep neural network
Recueil des données pour le jeu d’entrainement Data collection for the training game
[257]Les mots-clés (en anglais) suivants ont été utilisés pour identifier les études s’étant intéressé au diabète de type 1 chez l’enfant et ayant réalisé des prélèvements de selles avant l’identification de la pathologie « infants » ET (« stool microbiome » OU[257]The following keywords were used to identify studies that investigated type 1 diabetes in children and collected stool samples before the identification of the pathology: “infants” AND (“stool microbiome” OR
« intestinal microbiome») ET « shotgun metagenomics » ET « Type 1 diabetes ». Cette recherche a abouti à l’identification d’une étude internationale « The Environmental Determinants of Diabetes in the Young (TEDDY) » réalisée aux États-Unis (Colorado, Floride, Washington) et en Europe (Finlande, Allemagne, Suède) (TEDDY Study Group, 2008). "intestinal microbiome") AND "shotgun metagenomics" AND "Type 1 diabetes". This research resulted in the identification of an international study "The Environmental Determinants of Diabetes in the Young (TEDDY)" carried out in the United States (Colorado, Florida, Washington) and in Europe (Finland, Germany, Sweden) (TEDDY Study Group, 2008).
[258]Les objectifs principaux de l'étude prospective visaient à identifier les facteurs environnementaux et génétiques déclenchant ou protégeant du développement d'anticorps anti-îlots de Langherans ou de diabète de type 1 (Rewers ét al., 2018). Pour cela, 7013 enfants de la population générale ont été recrutés, présentant un risque prédéterminé de diabète de type 1 de 3 % et 788 enfants ayant des parents au premier degré atteints de diabète de type 1 et présentant un risque prédéterminé de diabète de type 1 de 10 %. Les visites médicales ont eu lieu trimestriellement jusqu'à l'âge de 4 ans, puis tous les 6 mois jusqu'à l'âge de 15 ans. Les participants ont été suivis par prélèvement sanguin tous les trois mois pour des mesures d'auto-anticorps dirigés contre les cellules des îlots de Langerhans et de détection du diabète. Des échantillons de selles ont été collectés longitudinalement entre 3 et 72 mois de vie pour caractériser le microbiote intestinal par metabarcoding et par séquençage métagénomique direct. Chaque enfant atteint de diabète a été apparié à un ou deux contrôles. [259]Dans cet exemple, seules les données de séquençage métagénomique direct ont été utilisées et les données des enfants présentant des auto-anticorps sans diabète de type 1 ont été exclues. Les données des témoins de ces enfants ont également été exclues. Ainsi les inventeurs ont utilisé un total de 6 955 données métagénomiques correspondant respectivement à 1 975 échantillons IA+DT1 (provenant de 91 enfants IA+DT1 dont le test était positif pour un ou plusieurs auto-anticorps et qui ont été diagnostiqués du diabète de type 1), 273 échantillons DT1 (provenant de 19 enfants DT1 dont le test était négatif pour un ou plusieurs auto-anticorps mais qui ont été diagnostiqués du diabète de type 1) et 4 707 échantillons témoins (provenant de 468 enfants contrôles des enfant DT1 et IA+DT1). Cinq données cliniques ont été agrégées : le phénotype (contrôle, IA+DT1 , DT1), le sexe (garçon, fille), le mois de vie au moment du prélèvement (en mois), l'identification de l’enfant et le jour de vie de l’enfant au moment où le DT1 a été diagnostiqué (en jours). L’information d’appariement des enfants a également été enregistrées. Les données brutes (4,96 Tb) et les métadonnées ont été reçues après l'approbation d’accès aux données par le National Institute of Health. [258]The primary objectives of the prospective study were to identify environmental and genetic factors triggering or protecting against the development of islet cell antibodies or type 1 diabetes (Rewers et al., 2018). For this, 7013 children from the general population were recruited, with a predetermined risk of type 1 diabetes of 3% and 788 children with first-degree relatives with type 1 diabetes and with a predetermined risk of type 1 diabetes of 10%. Medical visits took place quarterly until the age of 4 years, then every 6 months until the age of 15 years. Participants were followed by blood sampling every three months for measurements of autoantibodies directed against islet cells and detection of diabetes. Stool samples were collected longitudinally between 3 and 72 months of life to characterize the gut microbiota by metabarcoding and direct metagenomic sequencing. Each child with diabetes was matched to one or two controls. [259]In this example, only direct metagenomic sequencing data were used and data from children with autoantibodies without type 1 diabetes were excluded. Data from controls of these children were also excluded. Thus, the inventors used a total of 6,955 metagenomic data corresponding respectively to 1,975 IA+DT1 samples (from 91 IA+DT1 children who tested positive for one or more autoantibodies and who were diagnosed with type 1 diabetes), 273 T1D samples (from 19 T1D children who tested negative for one or more autoantibodies but who were diagnosed with type 1 diabetes) and 4,707 control samples (from 468 control children of T1D and IA+DT1 children). Five clinical data were aggregated: phenotype (control, AI+T1D, T1D), sex (boy, girl), month of life at sampling (in months), child identification, and day of life of the child at diagnosis of T1D (in days). Child matching information was also recorded. Raw data (4.96 TB) and metadata were received after data access approval by the National Institute of Health.
[260]Les données cliniques des sujets sont présentées dans le tableau 9 [260]The clinical data of the subjects are presented in Table 9
Tableau 9 Prétraitement des données d’entrainement Table 9 Preprocessing of training data
[261]Lors du prétraitement à l’aide de RiboTaxa, pour la reconstruction du gène d’ADNr 16S/18S, les paramètres A, B et C ont été les suivants : --max_read_length = 102, --insert_mean = 200, --insert_stddev = 100. [261]When preprocessing using RiboTaxa, for 16S/18S rDNA gene reconstruction, the parameters A, B and C were as follows: --max_read_length = 102, --insert_mean = 200, --insert_stddev = 100.
[262]Les enfants IA+DT 1 et DT1 ont été regroupés en un seul groupe d'enfants diabétiques de type 1 pour l'entraînement du modèle, désigné comme TD1 par la suite. Ainsi, l’entraînement a été réalisé sur l’ensemble des données (4707 échantillons provenant de 144 enfants contrôles et 110 enfants DT1) pour produire un modèle « sans a priori », et trois sous-ensembles de données ont été créés en fonction du mois où le DT1 a été diagnostiqué. Pour cela, le jour de vie de l’enfant au moment du diagnostic a été converti en mois en le divisant par 30 jours. Les groupes ont ensuite été établi comme suit : modèle DT1 « 24-48 mois » (2361 échantillons provenant de 68 enfants contrôles et 52 enfants DT1), modèle DT1 « 48-72 mois » (1101 échantillons provenant de 23 enfants contrôles et 20 enfants DT1) et modèle DT1 « 24-72 mois » (3193 échantillons provenant de 83 enfants contrôles et 66 enfants DT1). Pour chaque groupe, seuls les enfants contrôles appariés avec les enfants DT1 inclus ont été conservés. Seuls les échantillons prélevés avant le diagnostic du TD1 ont été conservés. Les modèles ont été désignés par un intervalle d’âges des enfants au moment du diagnostic du DT1 et inclus dans le modèle. Ces intervalles couvrent au maximum une période de 2 à 6 ans (24-72 mois), correspondant à la période où la majorité des cas de DT1 ont été diagnostiqués. [262]The IA+DT1 and T1D children were grouped into a single group of type 1 diabetic children for model training, subsequently designated as TD1. Thus, training was performed on the entire dataset (4707 samples from 144 control children and 110 T1D children) to produce a “no prior” model, and three subsets of the data were created based on the month in which T1D was diagnosed. For this, the child’s day of life at diagnosis was converted into months by dividing it by 30 days. The groups were then established as follows: T1D model “24-48 months” (2361 samples from 68 control children and 52 T1D children), T1D model “48-72 months” (1101 samples from 23 control children and 20 T1D children) and T1D model “24-72 months” (3193 samples from 83 control children and 66 T1D children). For each group, only control children matched with the included T1D children were kept. Only samples taken before T1D diagnosis were kept. The models were designated by an interval of children’s ages at the time of T1D diagnosis and included in the model. These intervals cover at most a period of 2 to 6 years (24-72 months), corresponding to the period when the majority of T1D cases were diagnosed.
Résultats Results
[263]Les profils d'abondances relatives contrôlés et de haute qualité au niveau des espèces ainsi que trois données cliniques (phénotype, sexe, mois de vie au moment du prélèvement) ont été utilisés pour entraîner 4 réseaux de neurones profonds pour le diagnostic prédictif du risque de DT1. [263]Controlled and high-quality species-level relative abundance profiles together with three clinical data (phenotype, sex, months of life at sampling) were used to train 4 deep neural networks for predictive diagnosis of T1D risk.
[264]Chaque modèle avait un nombre de caractéristiques d’entrée différent : modèle DT 1 « sans a priori » (1476 espèces microbiennes, 71 groupes de données cliniques : 69 groupes de prélèvements et 2 groupes de sexe), modèle DT 1 « 24-48 mois » (1305 espèces microbiennes et 42 groupes de données cliniques : 40 groupes de prélèvement et 2 groupes de sexe), modèle DT 1 « 48-72 mois » (1014 espèces microbiennes et 17 groupes de données cliniques : 15 groupes de prélèvement et 2 groupes de sexe) et modèle DT1 « 24-72 mois » (1354 espèces microbiennes et 59 groupes de données cliniques : 57 groupes de prélèvement et 2 groupes de sexe). Pour chaque modèle, toutes les espèces détectées dans tous les échantillons ont été conservés. [265]Les hyperparamètres ont variés pour chacun des modèles (Tableau 10). L’apprentissage des modèles a été réalisée sur : i86linux32, 4,0 Go de RAM x 8 cœurs (32,8 Go au total), sans GPU, et s'est déroulée en 2 min au maximum. [264]Each model had a different number of input features: DT 1 “no priors” model (1476 microbial species, 71 clinical data groups: 69 sample groups and 2 sex groups), DT 1 “24-48 months” model (1305 microbial species and 42 clinical data groups: 40 sample groups and 2 sex groups), DT 1 “48-72 months” model (1014 microbial species and 17 clinical data groups: 15 sample groups and 2 sex groups), and DT1 “24-72 months” model (1354 microbial species and 59 clinical data groups: 57 sample groups and 2 sex groups). For each model, all species detected in all samples were retained. [265]Hyperparameters were varied for each model (Table 10). Model training was performed on: i86linux32, 4.0 GB RAM x 8 cores (32.8 GB total), no GPU, and took 2 min or less.
[266]Le tableau 10 suivant rassemble les principaux hyperparamètres optimaux des modèles de réseaux de neurones profond ainsi obtenus. [266]The following Table 10 brings together the main optimal hyperparameters of the deep neural network models thus obtained.
Tableau 10 Table 10
[267]Les performances des modèles ciblés sur une fenêtre « âge de déclenchement du DT 1 » ont été globalement les meilleures en comparaison de celles du modèle « sans a priori » prenant l’ensemble des données (Tableau 11), avec notamment une sensibilité allant de 70,8% à 76,5% pour ces modèles contre 63% pour le modèle « sans a priori ». Ce résultat illustre une nouvelle fois l’importance de sélectionner les données de manière pertinente. [267]The performance of the models targeted on a “DT 1 onset age” window was overall the best compared to that of the “without prior” model taking all the data (Table 11), with in particular a sensitivity ranging from 70.8% to 76.5% for these models against 63% for the “without prior” model. This result illustrates once again the importance of selecting the data in a relevant manner.
Tableau 11 Table 11
[268]L'échantillonnage en série des enfants réalisé sur la cohorte TEDDY a été utilisé pour appliquer une approche d'analyse longitudinale des prédictions effectuées sur l’ensemble des échantillons de chaque enfant comme décrit précédemment. Cette approche a permis d’obtenir pour les modèles ciblés sur les tranches d’âges, l’identification correcte de 63,2% à 81 ,3% des enfants ayant développé plus tard le TD1 et de 68,1 % à 71 % des enfants non atteints de diabète de type 1 . [268]The serial sampling of children carried out on the TEDDY cohort was used to apply a longitudinal analysis approach to the predictions made on the entire sample of each child as described previously. This approach made it possible to obtain for the models targeted on the age groups, the correct identification of 63.2% at 81.3% of children who later developed type 1 diabetes and 68.1% to 71% of children without type 1 diabetes.
[269]La prédiction de la pathologie de diabète de type 1 est pondérée par un ensemble de microorganismes comme illustré dans la figure 14. [269]The prediction of type 1 diabetes pathology is weighted by a set of microorganisms as illustrated in Figure 14.
Exemple 5 : Diagnostic prédictif de sepsis à l’aide de modèles de réseaux de neurones profonds Example 5: Predictive diagnosis of sepsis using deep neural network models
Recueil des données pour le jeu d’entrainement Data collection for the training game
[270]Les mots-clés (en anglais) suivants ont été utilisés pour identifier les études s’étant intéressé au sepsis chez les nouveau-nés : («newborns » OU « premature infants ») ET (« stool microbiome » OU « intestinal microbiome») ET « shotgun metagenomics » ET (« sepsis » OU « bloodstream infection »). Les inventeurs ont également sélectionné des études incluant des informations cliniques telles que : mode de naissance (voie basse ou césarienne), genre (masculin-féminin), âge gestationnel (en semaines), âge réel (en jours de vie) et poids à la naissance (en grammes). Finalement deux études ont été retenues. [270]The following keywords (in English) were used to identify studies that investigated sepsis in newborns: (“newborns” OR “premature infants”) AND (“stool microbiome” OR “intestinal microbiome”) AND “shotgun metagenomics” AND (“sepsis” OR “bloodstream infection”). The inventors also selected studies that included clinical information such as: mode of birth (vaginal or cesarean), gender (male-female), gestational age (in weeks), actual age (in days of life) and birth weight (in grams). Finally, two studies were retained.
[271]Les données brutes de séquençage métagénomique et les métadonnées de Heston et al., 2023 ont été téléchargées à partir de Sequence Read Archive (SRA) dans le cadre du BioProject PRJNA947616 (n = 622 ; 1 ,17 Tb). Les données brutes de la cohorte de Schwartz et al., 2023 ont été téléchargées à partir de SRA sous le BioProject PRJNA884103 (n = 195, 234,7 Go) et les métadonnées ont été reçues des auteurs de l'étude. [271] Raw metagenomic sequencing data and metadata from Heston et al., 2023 were downloaded from Sequence Read Archive (SRA) as part of BioProject PRJNA947616 (n = 622; 1.17 TB). Raw data from the Schwartz et al., 2023 cohort were downloaded from SRA as BioProject PRJNA884103 (n = 195, 234.7 GB) and metadata were received from the study authors.
[272]Un total de 418 et 167 données métagénomiques ont été extraites respectivement de Heston et al., 2023 et Schwartz et al., 2023. Les enfants qui ont développé d’autres pathologies comme l’entérocolite ulcéro-nécrosante ainsi que les enfants nés à terme (>37 semaines d’aménorrhée) ont été exclus. De plus, aucun échantillon collecté après l'apparition de sepsis n’a été analysé. Cinq caractéristiques de métadonnées cliniques ont été collectées et rapportées dans les deux études, telles que les phénotypes (contrôle, sepsis), le mode de naissance (vaginal, césarienne), le genre (garçon, fille), l'âge gestationnel à la naissance (en semaines), le jour de vie (ou DOL pour day of life en anglais, en jours), le poids à la naissance du nouveau-né (en grammes) et l'identification du nourrisson. [272]A total of 418 and 167 metagenomic data were extracted from Heston et al., 2023 and Schwartz et al., 2023, respectively. Children who developed other pathologies such as necrotizing enterocolitis and children born at term (>37 weeks of amenorrhea) were excluded. In addition, no samples collected after the onset of sepsis were analyzed. Five clinical metadata features were collected and reported in both studies, such as phenotypes (control, sepsis), mode of birth (vaginal, cesarean), gender (boy, girl), gestational age at birth (in weeks), day of life (DOL, in days), birth weight of the newborn (in grams), and infant identification.
Prétraitement des données d’entrainement Preprocessing of training data
[273]Lors du prétraitement à l’aide de RiboTaxa, pour la reconstruction du gène exprimant l'ARNr 16S/18S, les paramètres A, B et C ont été les suivants : [273]When preprocessed using RiboTaxa, for the reconstruction of the gene expressing 16S/18S rRNA, the parameters A, B and C were as follows:
- cohorte Heston : --max_read_length = 152, --insert_mean = 144, --insert_stddev = 124; - cohorte Schwartz : --max_read_length = 302, --insert_mean = 268, --insert_stddev = 144 - Heston cohort: --max_read_length = 152, --insert_mean = 144, --insert_stddev = 124; - Schwartz cohort: --max_read_length = 302, --insert_mean = 268, --insert_stddev = 144
[274]Les données de diversité microbienne ont été normalisées et les données cliniques ont été discrétisées et vectorisées pour obtenir 44 valeurs catégorielles (9 groupes d'âge gestationnel, 16 groupes de poids, 15 groupes de DOL, 2 modes de naissance et 2 groupes de sexe) et 637 valeurs numériques (abondances microbiennes). [274]Microbial diversity data were normalized and clinical data were discretized and vectorized to obtain 44 categorical values (9 gestational age groups, 16 weight groups, 15 DOL groups, 2 birth modes, and 2 sex groups) and 637 numerical values (microbial abundances).
Résultats Results
[275]Des données de séquençage métagénomique direct (« shotgun ») ont été utilisées pour décrire le microbiote à haute résolution (au niveau de l’espèce). 585 données d’échantillons de selles métagénomiques (486 provenant de 87 nouveau-nés prématurés et 99 provenant de 29 nourrissons prématurés ayant développé ultérieurement un sepsis) ont été analysés à l'aide de RiboTaxa (Chakoory et al., 2022), permettant l'identification d'un total de 637 espèces uniques. Cette uniformité permet à un modèle unique de prendre en charge les données de divers protocoles d’étude. Les profils d'abondances relatives contrôlés et de haute qualité au niveau de l’espèce ainsi que 5 données cliniques (âge gestationnel, poids à la naissance, jour de vie au moment du prélèvement, mode de naissance, et sexe de l’enfant) ont été utilisés pour entraîner un réseau de neurones profonds permettant de prédire le risque de sepsis avant l’apparition de l’infection conduisant à la pathologie. [275] Direct metagenomic (“shotgun”) sequencing data were used to describe the microbiota at high resolution (species level). 585 metagenomic stool sample data (486 from 87 preterm infants and 99 from 29 preterm infants who subsequently developed sepsis) were analyzed using RiboTaxa (Chakoory et al., 2022), allowing the identification of a total of 637 unique species. This uniformity allows a single model to accommodate data from diverse study protocols. Controlled, high-quality species-level relative abundance profiles and 5 clinical data (gestational age, birth weight, day of life at sampling, mode of birth, and sex of the child) were used to train a deep neural network to predict the risk of sepsis before the onset of infection leading to pathology.
[276]Le modèle de réseau de neurones profonds a été formé puis entrainé à l'aide de 681 caractéristiques différentes (637 espèces microbiennes et 44 groupes de données cliniques). Toutes les espèces détectées dans tous les échantillons ont été conservées, au lieu d'appliquer une sélection avant l'entraînement pour conserver les variations interindividuelles de microbiotes entre les nourrissons. Un total de 42 882 paramètres entraînables a été testé et le réglage optimal des hyperparamètres pour le modèle final avait 64 unités (neurones) dans la 1ère couche cachée et un total de 3 couches cachées (Tableau 12). L’apprentissage du modèle a été réalisée sur : i86linux32, 4,0 Go de RAM x 8 cœurs (32,8 Go au total), sans GPU et s'est déroulée en 2 min. [276]The deep neural network model was trained and then trained using 681 different features (637 microbial species and 44 clinical data groups). All species detected in all samples were retained, instead of applying a selection before training to preserve inter-individual variations in microbiota between infants. A total of 42,882 trainable parameters were tested and the optimal hyperparameter setting for the final model had 64 units (neurons) in the 1st hidden layer and a total of 3 hidden layers (Table 12). The model training was performed on: i86linux32, 4.0 GB RAM x 8 cores (32.8 GB total), without GPU and took 2 min.
[277]Le tableau 12 suivant résume les caractéristiques principales du modèle de réseau de neurones profonds obtenu. Tableau 12 [277]The following Table 12 summarizes the main characteristics of the obtained deep neural network model. Table 12
[278]L'évaluation du réseau de neurones profonds entraîné a été réalisée sur l'ensemble de données test composé de 117 échantillons (provenant de 60 enfants contrôles et 14 enfants atteints de sepsis). Le modèle a démontré une exactitude de 92,3 %, une sensibilité de 72,2% et une spécificité de 96,0 %. Dans des essais répétés, les inventeurs ont démontré un AUROC de 0,941 ± 0,013 et une valeur PR-ALIC de 0,942± 0,011 suggérant un bon équilibre entre sensibilité et spécificité. [278]The evaluation of the trained deep neural network was performed on the test dataset consisting of 117 samples (from 60 control children and 14 children with sepsis). The model demonstrated an accuracy of 92.3%, a sensitivity of 72.2% and a specificity of 96.0%. In repeated tests, the inventors demonstrated an AUROC of 0.941 ± 0.013 and a PR-ALIC value of 0.942± 0.011 suggesting a good balance between sensitivity and specificity.
[279]Parmi les enfants qui ont développé par la suite un sepsis, 72,2% ont présenté un risque de sepsis à tous leurs tests. À l'inverse, 96% des enfants contrôles n'ont montré aucun risque de sepsis à aucun de leurs tests. Le modèle apporte donc un excellent diagnostic prédictif permettant d’identifier dès le premier échantillon prélevé le risque de survenue de sepsis. [279]Among the children who subsequently developed sepsis, 72.2% showed a risk of sepsis in all their tests. Conversely, 96% of the control children showed no risk of sepsis in any of their tests. The model therefore provides an excellent predictive diagnosis allowing the risk of sepsis to be identified from the first sample taken.
[280]Lorsque cela a été possible, les enfants qui avaient des échantillons prédits avec le mauvais phénotype, une analyse longitudinale des prédictions effectuées sur l’ensemble de leurs échantillons a été réalisée sur le principe décrit précédemment. Deux nouveau-nés contrôles avaient chacun 3 échantillons permettant d’effectuer cette analyse et la majorité de leurs échantillons ont été prédits avec le phénotype correct (Figure 15), permettant ainsi d’identifier correctement 96,7 % des enfants n’ayant pas développé le sepsis. [280]Where possible, children who had samples predicted with the wrong phenotype, a longitudinal analysis of the predictions made on all their samples was performed on the principle described above. Two control newborns each had 3 samples allowing this analysis and the majority of their samples were predicted with the correct phenotype (Figure 15), thus allowing 96.7% of children who did not develop sepsis to be correctly identified.
[281 ]La décomposition des contributions des différentes données d’entrée a montré que l’apport des données cliniques était notable. Elles représentaient 11 des 20 caractéristiques les plus importantes contribuant à la validation du modèle (Figure 16). Les caractéristiques d’âge gestationnel de 25 et 28 semaines d’aménorrhée et de poids 500-599 grammes ont été associées à la prédiction « sepsis » tandis que les âges gestationnels de 29 et 30 semaines d’aménorrhée étaient associés à la prédiction « contrôle », témoignant de la fragilité observée des enfants les plus prématurés. Cette liste comprenait également des microorganismes tels que les espèces de Bifidobacterium associées à la prédiction du groupe contrôle et souvent corrélé avec l'alimentation, en particulier avec l'allaitement maternel, tandis que les espèces Streptococcus et Staphylococcus étaient associées à la prédiction du groupe sepsis. [282]Ainsi pour évaluer l’importance des jeux de données cliniques dans la prédiction de sepsis chez les nourrissons, les inventeurs ont exclus les données de diversité microbienne et le nouveau modèle a été entrainé uniquement sur les cinq données cliniques qui représentait 44 caractéristiques d’entrée pour le réseau de neurones profonds. Le modèle nouvellement développé a montré une baisse au niveau de la sensibilité, avec 61 ,1 % (contre 72,2 %) mais toujours avec une très bonne spécificité de 97,0 %. Ce résultat confirme le poids important des données cliniques dans le diagnostic prédictif du sepsis et l’apport nécessaire des données de microbiote fécal pour obtenir une plus grande sensibilité. [281] The decomposition of the contributions of the different input data showed that the contribution of clinical data was notable. They represented 11 of the 20 most important features contributing to the validation of the model (Figure 16). The features of gestational age of 25 and 28 weeks of amenorrhea and weight 500-599 grams were associated with the prediction “sepsis” while gestational ages of 29 and 30 weeks of amenorrhea were associated with the prediction “control”, reflecting the observed fragility of the most preterm infants. This list also included microorganisms such as Bifidobacterium species associated with the prediction of the control group and often correlated with diet, particularly with breastfeeding, while Streptococcus and Staphylococcus species were associated with the prediction of the sepsis group. [282]Thus, to assess the importance of clinical datasets in predicting sepsis in infants, the inventors excluded the microbial diversity data and the new model was trained only on the five clinical data which represented 44 input features for the deep neural network. The newly developed model showed a decrease in sensitivity, with 61.1% (versus 72.2%) but still with a very good specificity of 97.0%. This result confirms the important weight of clinical data in the predictive diagnosis of sepsis and the necessary contribution of fecal microbiota data to obtain greater sensitivity.
[283]La performance du modèle de réseau de neurones profond entrainé avec les jeux de données « microbiote combiné avec les données cliniques » a aussi été testée en traitant les données de métagénomique à différents niveaux taxonomiques (Phylum, Classe, Ordre, Famille, Genre). Les modèles ont été évalués avec le même ensemble de données test de 117 échantillons d’enfants contrôles et de 18 échantillons d’enfants ayant développé un sepsis. [283]The performance of the deep neural network model trained with the “microbiota combined with clinical data” datasets was also tested by processing metagenomic data at different taxonomic levels (Phylum, Class, Order, Family, Genus). The models were evaluated with the same test dataset of 117 samples from control children and 18 samples from children who developed sepsis.
[284]Le tableau 13 résume les performances des différents modèles élaborés. [284]Table 13 summarizes the performance of the different models developed.
Tableau 13 Table 13
[285]Ces résultats démontrent que les modèles de réseau de neurones profonds entrainés sur des données de diversité microbienne retenues au rang taxonomique de l’ordre et de la classe sont plus performants qu’au rang taxonomique de l’espèce. Néanmoins les classes/ordres associés au groupe sepsis restent très large et ne permettent pas une identification précise des espèces potentiellement liées à un risque de sepsis. En revanche, le modèle entraîné sur les espèces est légèrement moins performant mais permet de remonter une liste de microorganismes impliqués dans la pathologie, ce qui pourraient permettre aux cliniciens d'adapter le traitement en fonction des microorganismes identifiés chez les nourrissons. [285]These results demonstrate that deep neural network models trained on microbial diversity data retained at the taxonomic rank of the order and class are more efficient than at the taxonomic rank of the species. Nevertheless, the classes/orders associated with the sepsis group remain very broad and do not allow precise identification of species potentially linked to a risk of sepsis. On the other hand, the model trained on the species is slightly less efficient but allows for a list of microorganisms involved in the pathology, which could allow clinicians to adapt the treatment according to the microorganisms identified in infants.
Claims
Applications Claiming Priority (4)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| FRFR2308145 | 2023-07-27 | ||
| FR2308145A FR3151603A1 (en) | 2023-07-27 | 2023-07-27 | Pathology detection process |
| FR2313206A FR3155837A1 (en) | 2023-11-28 | 2023-11-28 | Process of predicting a condition or pathology |
| FRFR2313206 | 2023-11-28 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO2025022019A1 true WO2025022019A1 (en) | 2025-01-30 |
Family
ID=91961642
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/EP2024/071489 Pending WO2025022019A1 (en) | 2023-07-27 | 2024-07-29 | Method for the predictive diagnosis of a pathological condition or a pathological state |
Country Status (1)
| Country | Link |
|---|---|
| WO (1) | WO2025022019A1 (en) |
Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP3161167A1 (en) | 2014-06-30 | 2017-05-03 | The Chinese University Of Hong Kong | Detecting bacterial taxa for predicting adverse pregnancy outcomes |
| US20170159108A1 (en) * | 2014-05-06 | 2017-06-08 | Is-Diagnostics Ltd. | Microbial population analysis |
| WO2020227053A1 (en) | 2019-05-03 | 2020-11-12 | Virginia Commonwealth University | Vaginal microbiome markers for prediction and prevention of preterm birth and other adverse pregnancy outcomes |
| EP2972308B9 (en) | 2013-03-15 | 2021-01-20 | Sera Prognostics, Inc. | Biomarkers and methods for predicting preterm birth |
| US20210381054A1 (en) * | 2018-10-31 | 2021-12-09 | Coyote Diagnostics Lab (Beijing) Co., Ltd. | Methods, systems and kits for predicting premature birth condition |
| US20220081708A1 (en) * | 2019-01-03 | 2022-03-17 | Evolve Biosystems, Inc. | Diagnosis and treatment of dysbiosis-associated with nec |
-
2024
- 2024-07-29 WO PCT/EP2024/071489 patent/WO2025022019A1/en active Pending
Patent Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP2972308B9 (en) | 2013-03-15 | 2021-01-20 | Sera Prognostics, Inc. | Biomarkers and methods for predicting preterm birth |
| US20170159108A1 (en) * | 2014-05-06 | 2017-06-08 | Is-Diagnostics Ltd. | Microbial population analysis |
| EP3161167A1 (en) | 2014-06-30 | 2017-05-03 | The Chinese University Of Hong Kong | Detecting bacterial taxa for predicting adverse pregnancy outcomes |
| US20210381054A1 (en) * | 2018-10-31 | 2021-12-09 | Coyote Diagnostics Lab (Beijing) Co., Ltd. | Methods, systems and kits for predicting premature birth condition |
| US20220081708A1 (en) * | 2019-01-03 | 2022-03-17 | Evolve Biosystems, Inc. | Diagnosis and treatment of dysbiosis-associated with nec |
| WO2020227053A1 (en) | 2019-05-03 | 2020-11-12 | Virginia Commonwealth University | Vaginal microbiome markers for prediction and prevention of preterm birth and other adverse pregnancy outcomes |
Non-Patent Citations (10)
| Title |
|---|
| CHAKOORY OSHMA ET AL: "RiboTaxa: combined approaches for rRNA genes taxonomic resolution down to the species level from metagenomics data revealing novelties", NAR GENOMICS AND BIOINFORMATICS, vol. 4, no. 3, 9 July 2022 (2022-07-09), XP093175186, ISSN: 2631-9268, DOI: 10.1093/nargab/lqac070 * |
| COMTET-MARRE, SOPHIECHAKOORYOSHMAPEYRET, PIERRE, TARGETED 16S RRNA GENE CAPTURE BY HYBRIDIZATION AND BIOINFORMATIC ANALYSIS, 2022 |
| DURAZZI, F.SALA, C.CASTELLANI, G. ET AL.: "Comparison between 16S rRNA and shotgun sequencing data for the taxonomic characterization of the gut microbiota", SCI REP, vol. 11, 2021, pages 3030 |
| KOSTIC ALEKSANDAR D ET AL: "The Dynamics of the Human Infant Gut Microbiome in Development and in Progression toward Type 1 Diabetes", CELL HOST & MICROBE, ELSEVIER, NL, vol. 17, no. 2, 5 February 2015 (2015-02-05), pages 260 - 273, XP029139280, ISSN: 1931-3128, DOI: 10.1016/J.CHOM.2015.01.001 * |
| MARÍA CERNADA ET AL: "Sepsis in preterm infants causes alterations in mucosal gene expression and microbiota profiles compared to non-septic twins", SCIENTIFIC REPORTS, vol. 6, no. 1, 1 May 2016 (2016-05-01), XP055610070, DOI: 10.1038/srep25497 * |
| PARK SUNWHA ET AL: "Predicting preterm birth through vaginal microbiota, cervical length, and WBC using a machine learning model", FRONTIERS IN MICROBIOLOGY, vol. 13, 2 August 2022 (2022-08-02), Lausanne, XP093175085, ISSN: 1664-302X, DOI: 10.3389/fmicb.2022.912853 * |
| PRISCILA T DOBBLER ET AL: "Low Microbial Diversity and Abnormal Microbial Succession Is Associated with Necrotizing Enterocolitis in Preterm Infants", FRONTIERS IN MICROBIOLOGY, vol. 8, 1 November 2017 (2017-11-01), pages 1 - 12, XP055723441, DOI: 10.3389/fmicb.2017.02243 * |
| QUINCE C ET AL.: "Shotgun metagenomics, from sampling to analysis", NAT BIOTECHNOL., vol. 35, no. 9, 12 September 2017 (2017-09-12), pages 833 - 844, XP055831282, DOI: 10.1038/nbt.3935 |
| VATANEN T, NATURE., vol. 562, no. 7728, October 2018 (2018-10-01), pages 589 - 594 |
| WANI ATIF KHURSHID ET AL: "Metagenomics and artificial intelligence in the context of human health", INFECTION , GENETICS AND EVOLUTION, ELSEVIER, AMSTERDAM, NL, vol. 100, 10 March 2022 (2022-03-10), XP087017703, ISSN: 1567-1348, [retrieved on 20220310], DOI: 10.1016/J.MEEGID.2022.105267 * |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Goodrich et al. | The relationship between the human genome and microbiome comes into view | |
| Papa et al. | Non-invasive mapping of the gastrointestinal microbiota identifies children with inflammatory bowel disease | |
| Brooks et al. | Gut microbiota diversity across ethnicities in the United States | |
| Chiu et al. | Systematic analysis of the association between gut flora and obesity through high‐throughput sequencing and bioinformatics approaches | |
| Hansen et al. | Microbiota ofDe-NovoPediatric IBD: IncreasedFaecalibacterium Prausnitziiand Reduced Bacterial Diversity in Crohn's But Not in Ulcerative Colitis | |
| Biagi et al. | Gut microbiome in Down syndrome | |
| Patrone et al. | Gut microbiota profile in systemic sclerosis patients with and without clinical evidence of gastrointestinal involvement | |
| Suchodolski et al. | 16S rRNA gene pyrosequencing reveals bacterial dysbiosis in the duodenum of dogs with idiopathic inflammatory bowel disease | |
| CN108350510B (en) | Microbiome derived diagnostic and therapeutic methods and systems for gastrointestinal health related disorders | |
| Zhu et al. | Nasopharyngeal airway dual-transcriptome of infants with severe bronchiolitis and risk of childhood asthma: A multicenter prospective study | |
| CN105473738B (en) | colorectal cancer biomarker | |
| Tang et al. | Prospective study reveals a microbiome signature that predicts the occurrence of post-operative enterocolitis in Hirschsprung disease (HSCR) patients | |
| EP3347496A1 (en) | Method and system for microbiome-derived diagnostics and therapeutics for oral health | |
| CN108348167B (en) | Microbiota-derived diagnostic and therapeutic methods and systems for brain-craniofacial health-related disorders | |
| CN107075446A (en) | Biomarker for obesity-related disorder | |
| US11243203B2 (en) | Companion diagnostic method for use in the treatment of irritable bowel syndrome with dietary interventions or faecal microbiota transplant | |
| WO2017044880A1 (en) | Method and system for microbiome-derived diagnostics and therapeutics infectious disease and other health conditions associated with antibiotic usage | |
| Ding et al. | A metagenomic study of the gut microbiome in PTB’S disease | |
| Chamorro et al. | Landscapes and bacterial signatures of mucosa-associated intestinal microbiota in Chilean and Spanish patients with inflammatory bowel disease | |
| Kosciolek et al. | Individuals with substance use disorders have a distinct oral microbiome pattern | |
| Ferrocino et al. | Mycobiota composition and changes across pregnancy in patients with gestational diabetes mellitus (GDM) | |
| US20250285756A1 (en) | Two competing guilds as core microbiome signature for human diseases | |
| Liu et al. | Individualized network analysis reveals a link between the gut microbiome, diet intervention and Gestational Diabetes Mellitus | |
| WO2025022019A1 (en) | Method for the predictive diagnosis of a pathological condition or a pathological state | |
| FR3155837A1 (en) | Process of predicting a condition or pathology |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 24745976 Country of ref document: EP Kind code of ref document: A1 |