[go: up one dir, main page]

ES2942363T3 - Método y dispositivo para determinar la concentración de ácido nucleico fetal en la sangre de una embarazada - Google Patents

Método y dispositivo para determinar la concentración de ácido nucleico fetal en la sangre de una embarazada Download PDF

Info

Publication number
ES2942363T3
ES2942363T3 ES19941307T ES19941307T ES2942363T3 ES 2942363 T3 ES2942363 T3 ES 2942363T3 ES 19941307 T ES19941307 T ES 19941307T ES 19941307 T ES19941307 T ES 19941307T ES 2942363 T3 ES2942363 T3 ES 2942363T3
Authority
ES
Spain
Prior art keywords
information
nucleic acid
genotype
concentration
fetal nucleic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES19941307T
Other languages
English (en)
Inventor
Ruoyan Chen
Xin Jin
Jia Ju
Siyang Liu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BGI Genomics Co Ltd
Original Assignee
BGI Genomics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BGI Genomics Co Ltd filed Critical BGI Genomics Co Ltd
Application granted granted Critical
Publication of ES2942363T3 publication Critical patent/ES2942363T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6809Methods for determination or identification of nucleic acids involving differential detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Molecular Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Pathology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

Se proporcionan un método y un dispositivo para determinar la concentración de ácido nucleico fetal en la sangre de una mujer embarazada. El método comprende: (1) determinar la información del primer genotipo en base a una comparación de los datos de secuenciación con al menos una parte del genoma de referencia, donde los datos de secuenciación provienen de una muestra de ácido nucleico de la sangre de una mujer embarazada; (2) usando el desequilibrio de ligamiento, realizando la corrección en la información del primer genotipo en base a los datos de referencia, para obtener la información del segundo genotipo; y (3) determinar la concentración de ácido nucleico fetal en base a la diferencia entre la información del primer genotipo y la información del segundo genotipo. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Método y dispositivo para determinar la concentración de ácido nucleico fetal en la sangre de una embarazada
Campo
La presente divulgación se refiere al campo de la detección génica y, en particular, a un método y un dispositivo para determinar una concentración del ácido nucleico fetal en sangre materna.
Antecedentes
Desde el descubrimiento del ADN extracelular fetal en el plasma materno en 1997, las pruebas prenatales no invasivas (NIPT, de inglés noninvasive prenatal testing), que pueden obtener información del ADN fetal extrayendo el ADN extracelular circulante (ADNe) del plasma materno, han hecho un gran avance. Se ha confirmado que la concentración de ADNe fetal en el ADNe de plasma materno aumenta con el aumento de la edad gestacional en la extracción de sangre, y también varía en distintas embarazadas. La estimación precisa de la concentración de ADNe fetal en el ADNe de plasma materno no solo ayuda a potenciar la precisión de las NIPT, sino que también facilita el estudio de su influencia sobre diversas complicaciones del embarazo y fenotipos maternos.
Muchas instituciones han propuesto sucesivamente métodos para estimar una concentración del ácido nucleico fetal a través de distintos datos y distintos métodos. Estos métodos se pueden clasificar en seis categorías: 1) un método basado en la profundidad del cromosoma Y, que calcula la concentración del ácido nucleico fetal basándose en el principio de que las lecturas de secuenciación de ADNe obtenidas de embarazadas en el plasma no pueden mapearse en una región no homóloga del cromosoma Y del genoma de referencia humano, y las lecturas que pueden mapearse exclusivamente en la región no homóloga del cromosoma Y del genoma humano de referencia proceden todas del ADNe de los fetos masculinos; 2) un método de polimorfismo de un único nucleótido (SNP, del inglés single nucleotide polymorphism) asistido por datos de secuenciación de captura, que utiliza sitios homocigóticos pero distintos en el genoma paterno y materno e incorpora la información de profundidad de lectura del plasma materno para calcular la concentración del ácido nucleico fetal; 3) un método de distribución de profundidades de lecturas de secuenciación, que divide un genoma en ventanas (por ejemplo, de 50 kb), calcula el número total de lecturas de ADNe en el plasma materno y una proporción de lecturas cortas en cada ventana, utiliza los resultados calculados como datos de entrada para establecer un modelo de regresión, entrena el modelo mediante la concentración de ADNe fetal calculada por la profundidad del cromosoma Y como conjunto verdadero, y usando datos de un tamaño de muestra supergrande, y luego detecta la concentración de ADNe fetal usando este modelo entrenado; 4) un método de datos de metilación, en el que el cálculo se basa en las diferencias en la metilación del ADN obtenido de distintos individuos o de distintos tejidos del mismo individuo; 5) un método de longitud de fragmentos de ADNe, que estima una concentración de ADNe fetal calculando una proporción de fragmentos de ADNe en el cuerpo de la embarazada basándose en el hecho conocido de que la longitud de los fragmentos de ADNe fetal en el plasma materno tiene una distribución más proporcional entre 147 pb y 167 pb, y la longitud del ADNe de las embarazadas generalmente se distribuye entre 167 bp a 187 bp; y 6) un método de disposición de nucleosomas, que estima una concentración de ADNe fetal basada en la diferencia en la distribución de longitudes de fragmentos del ADNe de la embarazada y el ADNe fetal provocada por distintos grados de degradación. Entre los seis métodos, solo los métodos 1), 3) y 6) pueden calcular la concentración de ADNe fetal simplemente basándose en los datos de NIPT, el método 1) se limita al cálculo especificado para fetos masculinos, y los métodos 3) y 6) solo se pueden utilizar para el cálculo de datos de NIPT de mayor profundidad.
En la actualidad, ningún método es capaz de calcular la concentración de ADNe de fetos masculinos y femeninos indiscriminadamente basándose en datos de NIPT de profundidad ultrabaja.
Sumario
La presente divulgación pretende resolver uno de los problemas técnicos en la técnica relacionada al menos hasta cierto punto. En este sentido, un objeto de la presente divulgación es proporcionar un método y un dispositivo para determinar una concentración del ácido nucleico fetal en el plasma materno.
En el curso de una investigación a largo plazo, el solicitante tiene los siguientes resultados.
En cuanto a los métodos existentes para calcular la concentración del ácido nucleico fetal, al detectar una concentración del ácido nucleico fetal en la sangre de una embarazada, en la mayoría de los casos se necesitan otros tipos de datos además de los datos de NIPT del plasma sanguíneo de la embarazada. Entre ellos, 1) el método de polimorfismo de un único nucleótido (SNP) asistido por datos de secuenciación de captura precisa el uso de datos de secuenciación de captura parentales o datos de secuenciación de ADNe de alta profundidad como ayuda, el cálculo de la concentración del ácido nucleico fetal puede completarse únicamente basándose en la obtención adicional de los genotipos precisos del padre y la madre (o al menos de la madre); 2) el método de datos de metilación precisa datos de metilación adicionales del padre y la madre para el cálculo de la concentración del ácido nucleico fetal. Estos métodos precisan distintos tipos de datos auxiliares, lo que, por un lado, aumenta la dificultad de la toma de muestras (por ejemplo, es preciso obtener una muestra de sangre del padre), y por otro lado, aumenta el costo del análisis.
Sin embargo, los métodos que solo precisan datos de NIPT de plasma materno tienen requisitos adicionales para el tipo de datos de NIPT y la profundidad de secuenciación. Entre ellos, 1) el método de cálculo de la longitud de fragmentos de ADNe precisa una estimación precisa de la longitud de fragmentos de ADNe y, por tanto, solo se puede adoptar la secuenciación de extremos emparejados (EE); y 2) el método de cálculo de la disposición de nucleosomas precisa el uso de una diferencia de profundidad de lecturas en la unidad del nucleosoma y, por tanto, tiene determinados requisitos para la profundidad de la secuenciación de NIPT y, por tanto, es imposible usar solo los datos de aproximadamente 0,1x de profundidad que es actualmente común en la detección de NIPT.
Los dos métodos restantes, que no precisan datos adicionales de otro tipo como ayuda y no son específico de los datos de NIPT, tienen ambos sus propias limitaciones de aplicación y no pueden abarcar todas las muestras de NIPT. Entre ellos, 1) el método de cálculo de profundidad del cromosoma Y solo puede calcular la concentración del ácido nucleico fetal de fetos masculinos, pero no puede calcular la concentración del ácido nucleico fetal de fetos femeninos; y 2) el método de cálculo de distribución de profundidades de lecturas de secuenciación solo se puede utilizar para estimar muestras con una alta concentración del ácido nucleico fetal y no se puede aplicar a muestras con concentraciones de ácido nucleico fetal inferiores o iguales al 5 %.
Por lo tanto, todavía es necesario mejorar aún más el método para el cálculo de la concentración de ADNe de fetos masculinos y femeninos indiscriminadamente por medio de datos de NIPT de baja profundidad. En este sentido, la presente divulgación proporciona un método y un dispositivo para determinar una concentración del ácido nucleico fetal en sangre materna. El método o dispositivo puede usar solo los datos de NIPT del plasma materno para determinar la concentración del ácido nucleico fetal, sin precisar la asistencia de otros datos. Además, el método o dispositivo se puede aplicar a los datos de secuenciación de profundidad ultrabaja (por ejemplo, de aproximadamente 0,1x), y no tiene limitaciones en los tipos de secuenciación, y pueden emplearse tanto la secuenciación de extremos emparejados como la secuenciación de extremo único; y el método o dispositivo no es específico para los tipos de muestra, y es aplicable tanto para muestras que implican fetos masculinos como para muestras que implican fetos femeninos.
Específicamente, la presente divulgación proporciona las siguientes soluciones técnicas.
De acuerdo con un primer aspecto de la presente divulgación, la presente divulgación proporciona un método para determinar una concentración del ácido nucleico fetal en sangre materna. El método incluye: (1) la determinación, mediante un procesador, de una información de un primer genotipo basada en la alineación de datos de secuenciación con al menos una parte de un genoma de referencia, obteniéndose los datos de secuenciación de una muestra de ácido nucleico de la sangre materna; (2) la corrección, mediante el procesador, de la información del primer genotipo basada en datos de referencia usando una relación de desequilibrio de ligamiento para obtener información de un segundo genotipo; y (3) la determinación, mediante el procesador, de la concentración del ácido nucleico fetal basada en una diferencia entre la información del primer genotipo y la información del segundo genotipo.
La presente divulgación proporciona un método para determinar una concentración del ácido nucleico fetal en sangre materna. En el método, la información del primer genotipo se obtiene mediante la alineación de los datos de secuenciación con un genoma de referencia; los datos de secuenciación se obtienen secuenciando la muestra de ácido nucleico de las sangres maternas, y los datos de secuenciación incluyen información de ácido nucleico fetal e información de ácido nucleico materno. Los datos de secuenciación también incluyen indirectamente información de ácido nucleico paterno, ya que una parte de la información del ácido nucleico fetal procede del padre. La relación de desequilibrio de ligamiento se utiliza para corregir la información del primer genotipo obtenida. En otras palabras, la parte de la información de ácidos nucleicos obtenida del progenitor paterno se mezcla en los datos de secuenciación y se obtiene de un individuo distinto de la información materna y, por tanto, se corrige hasta cierto punto para obtener la información del segundo genotipo después de la corrección. Después, una parte de la información de genotipo corregida puede determinarse por la diferencia entre la información del primer genotipo y la información del segundo genotipo, y cuanto mayor sea la parte de información de genotipo corregida, mayor será la concentración de ADNe fetal en el plasma materno. La concentración del ácido nucleico fetal se puede determinar basándose en la relación entre una proporción del genotipo corregido y la concentración de ADNe fetal en el plasma materno.
El método para determinar la concentración del ácido nucleico fetal en sangre materna proporcionado por la presente divulgación tiene muchas ventajas en los siguientes aspectos: 1) a lo largo del método, solo se utilizan los datos de NIPT del plasma materno sin precisar la ayuda de otros datos; 2) el método se puede aplicar a los datos de secuenciación de profundidad ultrabaja (por ejemplo, de aproximadamente 0,1x), ya la relación de desequilibrio de ligamiento se utiliza para estimar los cambios en el genotipo genómico, los cambios en el genotipo genómico pueden reflejar la concentración del ácido nucleico fetal siempre que se mezclen los datos procedentes de dos fuentes (embarazada y feto), incluso si la profundidad de secuenciación es baja; 3) el método no es específico para los tipos de secuenciación, y son aplicables tanto la secuenciación de extremos emparejados como la secuenciación de extremo único; 4) el método no es específico para los tipos de muestra (son aplicables tanto las muestras que implican fetos masculinos como las muestras que implican fetos femeninos), y no tiene limitación para la concentración del ácido nucleico fetal.
El método proporcionado en la presente divulgación supera las limitaciones de la profundidad de secuenciación, el tipo de datos y el género fetal de los datos estimados, tiene universalidad, no precisa costos adicionales de muestreo y secuenciación, y tiene un valor de aplicación extremadamente alto en el campo de las NIPT.
De acuerdo con las realizaciones de la presente divulgación, el método mencionado anteriormente para determinar la concentración del ácido nucleico fetal en sangre materna puede incluir además las siguientes particularidades técnicas.
En algunas realizaciones de la presente divulgación, los datos de secuenciación se obtienen secuenciando la muestra de ácido nucleico de la sangre materna, y la profundidad de la secuenciación puede ser de 10X, 5X, 1X, 0,5X, 0,2X o 0,1X. La muestra de ácido nucleico de la sangre materna incluye información de ácido nucleico fetal e información de ácido nucleico materno, y una parte de la información del ácido nucleico fetal procede del progenitor paterno. Por lo tanto, incluso los datos de secuenciación obtenidos secuenciando la muestra de ácido nucleico de la sangre materna son datos de secuenciación con una profundidad de secuenciación baja, por ejemplo, datos de secuenciación de hasta 10X, hasta 5X, hasta 1X o incluso de 0,1X, los datos de la secuencia pueden analizarse mediante el método proporcionado en la presente divulgación para determinar la concentración del ácido nucleico fetal.
En algunas realizaciones de la presente divulgación, los datos de secuenciación se obtienen a través de la técnica de secuenciación de segunda generación o la técnica de secuenciación de tercera generación. La técnica de secuenciación de segunda generación también se denomina técnica de secuenciación de alto rendimiento, la cual puede obtener muchas secuencias de una vez. Por ejemplo, el ácido nucleico se puede romper al azar en pequeños fragmentos (de aproximadamente 250 pb a 300 pb) por medios físicos o químicos, y luego estos pequeños fragmentos de moléculas se enriquecen mediante la construcción de una biblioteca y se secuencian en un secuenciador. El secuenciador tiene regiones donde se pueden unir estos fragmentos, y cada fragmento tiene una región de unión independiente, de modo que la información de todas las secuencias de ADN unidas se pueda detectar al mismo tiempo. La tecnología de secuenciación de segunda generación puede detectar un gran número de secuencias de una sola vez, pero los fragmentos se limitan a, por ejemplo, aproximadamente 250 pb a 300 pb, y el costo es relativamente alto. La tecnología de secuenciación de segunda generación comúnmente utilizada puede ser el método de pirosecuenciación de Roche/454 o la detección de secuenciación fluorescente de Illumina, la detección de secuenciación fluorescente de ABI/Solid o la detección de secuenciación DNB de MGI, etc. La tecnología de secuenciación de tercera generación puede hacer que la longitud de secuenciación sea de aproximadamente 10 KB y no depende de la amplificación por PCR. La tecnología de secuenciación de tercera generación permite una longitud de secuenciación de hasta aproximadamente 10 KB y no depende de la amplificación por PCR, por ejemplo, utilizando SMRT (del inglés single molecule real time sequencing, secuenciación de una sola molécula en tiempo real) de PacBio o la tecnología de secuenciación de ADN de nanoporos de una sola molécula desarrollada por Oxford Nanopore Technologies. Los datos de secuenciación de la muestra de ácido nucleico de sangre materna, ya sea obtenidos mediante la tecnología de secuenciación de segunda generación o la tecnología de secuenciación de tercera generación, u obtenidos por la secuenciación de extremo único o la secuenciación de extremos emparejados, pueden analizarse de acuerdo con el método proporcionado en la presente divulgación para determinar la concentración del ácido nucleico fetal.
En algunas realizaciones de la presente divulgación, el genoma de referencia incluye al menos una región de ligamiento fuerte en el genoma humano. La "región de ligamiento fuerte" varía según el tamaño y la estructura de la población estudiada, y generalmente se define como una región en la que la probabilidad de recombinación histórica entre cualquier pareja de sitios de variación es inferior al 5 %. El genoma de referencia puede contener una región de ligamiento fuerte, dos regiones de ligamiento fuerte, tres regiones de ligamiento fuerte, o incluso más. En términos generales, independientemente del costo, cuanto más fuertes sean las regiones de ligamiento contenidas en el genoma de referencia, más precisa es la concentración del ácido nucleico fetal en la sangre materna finalmente determinada después de la alineación y el cálculo.
Al seleccionar regiones de ligamiento fuerte, se pueden encontrar todas o parte de las regiones de ligamiento fuerte de la población en el genoma, dependiendo del tamaño y la estructura de la población estudiada, y luego basándose en la amplitud de estas regiones de ligamiento fuerte, se pueden seleccionar regiones de ligamiento fuerte con tamaños apropiados como genoma de referencia. En términos generales, cuanto mayor sea el número y la proporción de sitios de variación del ADN materno y del ADN fetal cubiertos en la región de ligamento fuerte seleccionada, más precisa es la concentración del ácido nucleico fetal en la sangre materna calculada utilizando el genoma de referencia que contiene esta región de ligamiento fuerte. En algunas realizaciones de la presente divulgación, una longitud de la región de ligamiento fuerte varía de 5 mb a 10 mb, por ejemplo, 10 mb, 9 mb, 8 mb, 7 mb, 6 mb o 5 mb. Las longitudes mencionadas anteriormente de la región de ligamiento fuerte pueden tener una variación del 10 % al 20 %, por ejemplo, la longitud de la región de ligamiento fuerte puede ser de 10 mb, 11 mb u 12 mb, 9 mb u 8 mb, etc. De esta manera, la información procedente de los datos de secuenciación paternos puede corregirse con precisión.
En algunas realizaciones de la presente divulgación, la información del primer genotipo se determina basándose en un número de soporte de lecturas de secuenciación. Cuando se obtiene la información del primer genotipo, la información del primer genotipo se determina basándose en el número de soporte de lecturas de secuenciación. Por ejemplo, para un sitio determinado, si 100 lecturas de secuenciación soportan la base A, 8 lecturas de secuenciación soportan la base G y 20 lecturas de secuenciación soportan la base T, entonces se determina que la base en este sitio es la base A. De esta manera, se puede obtener la información de genotipo de cada sitio, y la información del primer genotipo necesaria se puede determinar alineando al menos una parte del genoma de referencia.
En algunas realizaciones de la presente divulgación, la información del primer genotipo incluye al menos uno de SNV o indel. La información del primer genotipo incluye información de variación de un solo nucleótido (SNV) y/o información de inserción-deleción (indel) de fragmentos pequeños, y la información del ácido nucleico paterno puede reflejarse a través de la corrección de esta información, realizando así una determinación precisa de la concentración del ácido nucleico fetal.
En algunas realizaciones de la presente solicitud, los datos de referencia incluyen múltiples porciones de información de sitios de variación y múltiples porciones de información de frecuencias de variación. Usando datos que contienen el múltiplo de porciones de información de sitios de variación y el múltiplo de porciones de información de frecuencias de variación como los datos de referencia, la información del primer genotipo se puede corregir basándose en la relación de desequilibrio de ligamiento, para corregir parte de la información de secuenciación del padre, y luego se determina la concentración del ácido nucleico fetal en basándose en una correlación entre la información corregida y la concentración del ácido nucleico fetal.
En algunas realizaciones de la presente divulgación, la corrección se realiza a través de IMPUTE2. IMPUTE2, tal como un algoritmo de imputación, que en realidad es un algoritmo de finalización y corrección de genotipos para sitios con datos de deleción o baja precisión. Además de IMPUTE2, también se pueden usar otros métodos de imputación para realizar la corrección del sitio utilizando información de DL, tal como BNEAGLE, PHASE y otros programas informáticos.
En algunas realizaciones de la presente divulgación, la etapa (3) incluye, además: la etapa (3-1) de determinación de un cociente de diferencias entre la información del primer genotipo y la información del segundo genotipo; y la etapa (3-2) de determinación de la concentración del ácido nucleico fetal basándose en el cociente de diferencias obtenido en la etapa (3-1) y una fórmula preentrenada, determinándose la fórmula basándose en una pluralidad de muestras de entrenamiento con concentraciones de ácido nucleico fetal conocidas. En vista de una relación entre la pluralidad de concentraciones conocidas del ácido nucleico fetal y el cociente de diferencias de la información del primer genotipo y la información del segundo genotipo, para el entrenamiento se utilizan distintas fórmulas o modelos, por ejemplo, el modelo de regresión lineal, u otros modelos que integran de forma eficaz toda la información, tal como el modelo de bosque aleatorio u otros modelos de aprendizaje profundo, etc., para correlacionar la concentración del ácido nucleico fetal con la relación de diferencias. Después de calcular el cociente de diferencias entre la información del primer genotipo y la información del segundo genotipo de una muestra de ácido nucleico de una sangre materna dada, la concentración del ácido nucleico fetal en esta sangre materna se puede determinar mediante la fórmula preentrenada. Es decir, en la fase inicial, algunas muestras con concentraciones conocidas de ácido nucleico fetal pueden usarse como un conjunto de entrenamiento que se ajusta con la ayuda del método proporcionado por la presente divulgación usando distintas fórmulas o modelos para determinar la fórmula; y en la aplicación posterior, la concentración de ADNe fetal de una o más muestras se puede predecir sin necesidad de muestras adicionales con concentraciones conocidas de ácido nucleico fetal.
En algunas realizaciones de la presente divulgación, la expresión "pluralidad de" indica al menos 100, por ejemplo, 100, 500, 1000, 5000 o más. Cuando se utiliza una fórmula o modelo para el entrenamiento, cuanto mayor sea el número de muestras de entrenamiento, más precisa es la fórmula, y más precisa es la concentración del ácido nucleico fetal en la sangre materna medida por la fórmula. Por supuesto, demasiadas muestras también pueden aumentar el costo del cálculo y el coste a partir del propio tamaño de la muestra. Cuando tanto el costo como la precisión del entrenamiento son óptimos, el número de estas muestras de entrenamiento puede variar de 5.000 a 10.000, por ejemplo, 5.000, 6.000, 7.000, 8.000, 9.000 o 10.000, lo cual no se limita en el presente documento.
De acuerdo con un segundo aspecto de la presente divulgación, la presente divulgación proporciona un dispositivo para determinar una concentración del ácido nucleico fetal en sangre materna. El dispositivo puede determinar la concentración del ácido nucleico fetal en la sangre materna utilizando solo los datos de NIPT del plasma materno sin la ayuda de otros datos. Además, el dispositivo se puede aplicar a los datos de secuenciación de profundidad ultrabaja. Además de eso, el dispositivo no tiene limitaciones en cuanto a los tipos de muestras y es aplicable tanto para muestras de fetos masculinos como para muestras de fetos femeninos. El dispositivo incluye: una unidad de alineación configurada para determinar una información del primer genotipo basada en la alineación entre los datos de secuenciación y al menos una parte de un genoma de referencia, en el que los datos de secuenciación se obtienen de una muestra de ácido nucleico de la sangre materna; una unidad de corrección conectada a la unidad de alineación y configurada para corregir la información del primer genotipo basándose en datos de referencia usando una relación de desequilibrio de ligamiento para obtener la información del segundo genotipo; y una unidad de cálculo conectada a la unidad de alineación y a la unidad de corrección, y configurada para determinar la concentración del ácido nucleico fetal basándose en una diferencia entre la información del primer genotipo y la información del segundo genotipo.
De acuerdo con las realizaciones de la presente divulgación, el dispositivo anterior para determinar la concentración del ácido nucleico fetal en la sangre materna puede tener además las siguientes particularidades técnicas. Estas particularidades técnicas se mencionan o están implicadas en el método mencionado anteriormente para determinar la concentración del ácido nucleico fetal en la sangre materna, y las funciones de las características son similares a las del método mencionado anteriormente para determinar la concentración del ácido nucleico fetal en sangre materna. sangre, y no se describirá en detalle en el presente documento.
En algunas realizaciones de la presente divulgación, en el dispositivo, los datos de secuenciación se obtienen secuenciando la muestra de ácido nucleico de la sangre materna, y la profundidad de la secuenciación puede ser de 10X, 5X, 1X, 0,5X, 0,2X o 0,1X. Es decir, el dispositivo proporcionado por la presente divulgación puede usar no solo datos de secuenciación de profundidad alta o profundidad relativamente alta para determinar la concentración del ácido nucleico fetal en la sangre materna, sino que también daros de secuenciación de baja profundidad o de profundidad ultrabaja para determinar la concentración del ácido nucleico fetal en la sangre materna.
En algunas realizaciones de la presente divulgación, en el dispositivo, los datos de secuenciación se obtienen mediante la técnica de secuenciación de segunda generación o la técnica de secuenciación de tercera generación.
En algunas realizaciones de la presente divulgación, en el dispositivo, el genoma de referencia incluye al menos una región de ligamiento fuerte en el genoma humano.
En algunas realizaciones de la presente divulgación, en el dispositivo, una longitud de la región de ligamiento fuerte varía de 5 mb a 10 mb, por ejemplo, 10 mb, 9 mb, 8 mb, 7 mb, 6 mb o 5 mb. La longitud de la región de ligamiento fuerte no está limitada específicamente en la presente divulgación.
En algunas realizaciones de la presente divulgación, en el dispositivo, la información del primer genotipo se determina basándose en un número de soporte de lecturas de secuenciación.
En algunas realizaciones de la presente divulgación, en el dispositivo, la información del primer genotipo incluye al menos uno de SNV o indel.
En algunas realizaciones de la presente divulgación, en el dispositivo, los datos de referencia incluyen una pluralidad de porciones de información de sitios de variación y una pluralidad de porciones de información de frecuencias de variación.
En algunas realizaciones de la presente divulgación, en el dispositivo, la corrección se realiza a través de IMPUTE2.
En algunas realizaciones de la presente divulgación, la unidad de cálculo incluye, además: una unidad de cálculo de cocientes de diferencias configurada para determinar un cociente de diferencias entre la información del primer genotipo y la información del segundo genotipo; y una unidad de cálculo de la concentración del ácido nucleico fetal conectada a la unidad de cálculo de cocientes de diferencias. La unidad de cálculo de la concentración del ácido nucleico fetal está configurada para determinar la concentración del ácido nucleico fetal basándose en el cociente de diferencias obtenido en la unidad de cálculo de cocientes de diferencias y una fórmula preentrenada. La fórmula de entrenamiento se determina basándose en una pluralidad de muestras de entrenamiento con concentraciones de ácido nucleico fetal conocidas.
En algunas realizaciones de la presente divulgación, la expresión "pluralidad de" puede indicar de 5.000 a 10.000, por ejemplo, 5.000, 6.000, 7.000, 8.000, 9.000 o 10.000. El número de muestras no está específicamente limitado en el presente documento.
De acuerdo con un tercer aspecto de la presente divulgación, la presente divulgación proporciona un dispositivo informático, que incluye una memoria, un procesador y un programa informático almacenado en la memoria y ejecutable en el procesador. El programa, cuando es ejecutado por el procesador, implementa el método de acuerdo con una cualquiera de las realizaciones del primer aspecto de la presente divulgación. Por lo tanto, solo se precisan los datos de NIPT del plasma materno, y la concentración del ácido nucleico fetal se puede determinar rápidamente con la ayuda de la relación de desequilibrio de ligamiento, y se puede aplicar a datos de secuenciación de baja profundidad, no siendo específico para la concentración del ácido nucleico fetal y el tipo de muestra.
De acuerdo con un cuarto aspecto de la presente divulgación, la presente divulgación proporciona un medio de almacenamiento legible por ordenador que tiene un programa informático almacenado en el mismo. El programa, cuando es ejecutado por un procesador, implementa el método de acuerdo con una cualquiera de las realizaciones del primer aspecto de la presente divulgación. Por lo tanto, solo se precisan los datos de NIPT del plasma materno, y la concentración del ácido nucleico fetal se puede determinar rápidamente con la ayuda de la relación de desequilibrio de ligamiento, y se puede aplicar a datos de secuenciación de baja profundidad, no específicos para la concentración del ácido nucleico fetal y el tipo de muestra.
Breve descripción de los dibujos
La FIG. 1 es un diagrama esquemático estructural de un dispositivo para determinar una concentración del ácido nucleico fetal en sangre materna de acuerdo con una realización de la presente divulgación.
FIG. 2 es un diagrama esquemático estructural de una unidad de cálculo en un dispositivo para determinar una concentración del ácido nucleico fetal en sangre materna de acuerdo con una realización de la presente divulgación.
La FIG. 3 es un diagrama esquemático de un método para determinar una concentración del ácido nucleico fetal a través de la predicción del modelo de acuerdo con una realización de la presente divulgación.
La FIG. 4 es un gráfico que ilustra los resultados de predicción de las concentraciones de ácido nucleico fetal de un conjunto de datos de prueba de 1000 muestras de acuerdo con un modelo obtenido usando 10.000 muestras como un conjunto de entrenamiento de acuerdo con una realización de la presente divulgación.
La FIG. 5 es un gráfico que ilustra los resultados de predicción de las concentraciones de ácido nucleico fetal de un conjunto de datos de prueba de 1000 muestras de acuerdo con un modelo obtenido usando 10.000 muestras como un conjunto de entrenamiento de acuerdo con una realización de la presente divulgación.
Descripción de las realizaciones
Las realizaciones de la presente divulgación se describen en detalle a continuación. Los ejemplos de las realizaciones se ilustran en los dibujos adjuntos, en los que el signo de referencia idéntico o similar indica elementos idénticos o similares o elementos con funciones idénticas o similares. Las realizaciones descritas a continuación con referencia a los dibujos adjuntos son ilustrativas y pretenden explicar la presente divulgación, pero no deben interpretarse como una limitación de la presente divulgación.
Por otra parte, para facilitar la comprensión de los expertos en la materia, se explican y describen algunos términos de la presente divulgación. Debe tenerse en cuenta que estas explicaciones y descripciones sólo pretenden ayudar a la comprensión de las soluciones técnicas de la presente divulgación, pero no deben considerarse como limitaciones del alcance de la protección de la presente divulgación.
En el presente documento, las expresiones "información del primer genotipo" e "información del segundo genotipo" se refieren a la información que contiene el genotipo de cada sitio, y representan los genotipos originales obtenidos a partir de los datos de secuenciación y los genotipos después de la corrección utilizando información de desequilibrio de ligamiento, respectivamente.
El término "ligamiento" se utiliza para describir una relación entre dos sitios. Si la distancia entre dos o más sitios es relativamente pequeña, existe una probabilidad pequeña de que se produzca un entrecruzamiento durante la meiosis y se separen los alelos en dos sitios del mismo cromosoma. Es decir, los alelos en los dos sitios no son independientes cuando pasan a la siguiente generación, por ejemplo, los alelos en los dos sitios tienden a transmitirse juntos, fenómeno que se denomina ligamiento. Una "región de ligamiento fuerte" puede variar de acuerdo con el tamaño y la estructura de la población estudiada, y generalmente se define como una región en la que la probabilidad de que se produzca una recombinación histórica entre cualquier pareja de sitios de variación es inferior al 5 %.
El desequilibrio de ligamiento se refiere a una situación en la que la probabilidad de que una determinada combinación de genotipos de dos sitios de variación se herede al mismo tiempo es mayor que una probabilidad aleatoria. Es decir, siempre que determinada combinación de genotipos de dos sitios no se herede completamente de forma independiente, el desequilibrio de ligamiento existe entre los dos sitios.
De acuerdo con un primer aspecto de la presente divulgación, la presente divulgación proporciona un método para determinar una concentración del ácido nucleico fetal en sangre materna. El método incluye: (1) determinar la información del primer genotipo basada en la alineación de los datos de secuenciación con al menos una parte de un genoma de referencia, en que los datos de secuenciación se obtienen de una muestra de ácido nucleico de la sangre materna; (2) corregir la información del primer genotipo basada en datos de referencia utilizando una relación de desequilibrio de ligamiento, para obtener información de un segundo genotipo; y (3) determinar la concentración del ácido nucleico fetal basada en una diferencia entre la información del primer genotipo y la información del segundo genotipo. Con el método proporcionado por la presente divulgación, se puede detectar y determinar la concentración del ADN fetal en la sangre materna.
Cuando se utiliza la relación de desequilibrio de ligamiento para la corrección, la corrección se puede hacer en base a métodos o programas informáticos existentes. Por ejemplo, la subsanación o rectificación podrá efectuarse mediante imputación. La imputación es un método de finalización y corrección de genotipos para sitios con datos de deleción o baja precisión. Específicamente, la relación de desequilibrio de ligamiento (DL) entre el sitio analizado y sus sitios cercanos con mayor precisión se utiliza para encontrar el haplotipo que mejor coincide con el sitio analizado (usando información de haplotipos en la población de referencia, o usando información de haplotipos entre distintos individuos del sitio analizado), para inferir el genotipo de deleción en el sitio analizado o corregir el genotipo de baja precisión.
El método de imputación se aplica principalmente en un estudio de Asociación amplia del genoma (GWAS, del inglés Genome wide association) o análisis genético de poblaciones. La información de DL se utiliza para ampliar la cantidad de sitios de datos en el chip, para obtener la máxima información sobre el genotipo relacionado con un fenotipo específico. Alternativamente, para datos de secuenciación de población de baja profundidad, la información de haplotipos de la población de referencia o de la población analizada se utiliza para corregir los sitios de genotipo que se detectan erróneamente debido a una profundidad demasiado baja, mejorando así la precisión del análisis.
En la presente divulgación, el principio de corregir sitios de baja profundidad en la muestra analizada usando información de haplotipos en la imputación se aplica a los datos de plasma materno, y la información de DL se usa para estimar exhaustivamente la concentración del ácido nucleico fetal de todo el genoma (o a nivel cromosómico). Al realizar la imputación sobre una sola muestra, los algoritmos de inferencia de genotipos tales como IMPUTE2 tienen la misma premisa de que la muestra analizada es diploide. Por lo tanto, cuando los genotipos que contradicen esta premisa (es decir, más de dos haplotipos) están presentes en algunos sitios, estos sitios serán considerados como sitios de error y serán corregidos. Dado que el plasma materno en realidad contiene información sobre tres tipos de información de haplotipo, es decir, dos haplotipos maternos y un haplotipo fetal heredado del padre, existe cierta probabilidad de que el haplotipo fetal procedente del padre sea considerado como sitio de error y así se corrija durante el procedimiento de imputación. Dicha probabilidad de corrección se correlaciona aún más con la concentración del ADNe fetal en el plasma materno.
Utilizando la información sobre el haplotipo y el desequilibrio de ligamiento en el genoma de la embarazada, mediante la aplicación de la información del haplotipo en la imputación, se puede calcular la concentración del ácido nucleico fetal en una prueba genética prenatal no invasiva basándose en una proporción de sitios corregidos mediante la imputación.
Al alinear los datos de secuenciación con al menos una parte del genoma de referencia, puede seleccionarse como la región de alineación una región genómica con señales más evidentes. La región genómica mencionada con señales más evidentes puede reflejarse como una región con mejor cobertura (la cobertura de los datos de secuenciación en el genoma), una frecuencia de alelos menores relativamente alta (lo que indica que el sitio tiene una alta probabilidad de variación en la población), y una proporción relativamente alta de sitios de variación, para extraer más información característica y reducir las interferencias del ruido de fondo, mejorando así la precisión de la estimación de la concentración del ácido nucleico fetal.
Al seleccionar una región de ligamiento fuerte, la región de ligamiento fuerte se puede determinar cambiando el tamaño de una ventana de cálculo, por ejemplo, cambiando una ventana de 5 mb a una ventana de 10 mb o a una ventana de todo el cromosoma, para mejorar la precisión aumentando el número de sitios eficaces en cada ventana.
En algunas realizaciones de la presente divulgación, la etapa (3) incluye, además: la etapa (3-1) de determinación de un cociente de diferencias entre la información del primer genotipo y la información del segundo genotipo; y la etapa (3-2) de determinación de la concentración del ácido nucleico fetal basándose en el cociente de diferencias obtenido en la etapa (3-1) y una fórmula preentrenada, en que la fórmula se determina basándose en una pluralidad de muestras de entrenamiento con concentraciones de ácido nucleico fetal conocidas. En vista de una relación entre la pluralidad de concentraciones conocidas del ácido nucleico fetal y el cociente de diferencias entre la información del primer genotipo y la información del segundo genotipo, para el entrenamiento se utilizan distintas fórmulas o modelos, por ejemplo, el modelo de regresión lineal u otros modelos que integran de forma eficaz toda la información, tal como el modelo de bosque aleatorio u otros modelos de aprendizaje profundo, etc., para correlacionar la concentración del ácido nucleico fetal con la relación de diferencias. Cuando se determina un cociente de diferencias entre la información del primer genotipo y la información del segundo genotipo de una muestra de ácido nucleico de determinada sangre materna, la concentración del ácido nucleico fetal en esta sangre materna se puede determinar por medio de la fórmula preentrenada.
Al seleccionar o determinar el modelo, se puede añadir información fenotípica adicional y más completa de las embarazadas como covariables en el modelo de predicción, optimizando así el modelo de predicción y aumentando la precisión de la estimación.
De acuerdo con otro aspecto de la presente divulgación, la presente divulgación proporciona un dispositivo para determinar una concentración del ácido nucleico fetal en sangre materna. La concentración del ácido nucleico fetal en la sangre materna se puede determinar con un dispositivo de este tipo, que solo precisa utilizar los datos de NIPT del plasma materno sin la ayuda de otros datos. Además, el dispositivo se puede aplicar a los datos de secuenciación de profundidad ultrabaja. Además de eso, el dispositivo no tiene especificado el tipo de muestra, y pueden utilizarse tanto muestras que implican a fetos masculinos como muestras que implican a fetos femeninos. Como se ilustra en la FIG. 1, el dispositivo incluye: una unidad de alineación configurada para determinar la información del primer genotipo basada en la alineación entre los datos de secuenciación y al menos una parte de un genoma de referencia, en que los datos de secuenciación se obtienen de una muestra de ácido nucleico de la sangre materna; una unidad de corrección conectada a la unidad de alineación, estando configurada la unidad de corrección para corregir la información del primer genotipo basándose en datos de referencia usando una relación de desequilibrio de ligamiento para obtener la información del segundo genotipo; y una unidad de cálculo conectada a la unidad de alineación y la unidad de corrección, estando configurada la unidad de cálculo para determinar la concentración del ácido nucleico fetal basándose en una diferencia entre la información del primer genotipo y la información del segundo genotipo.
En al menos algunas realizaciones, la unidad de cálculo, como se ilustra en la FIG. 2, incluye, además: una unidad de cálculo de cocientes de diferencias configurada para determinar un cociente de diferencias entre la información del primer genotipo y la información del segundo genotipo; y una unidad de cálculo de la concentración del ácido nucleico fetal conectada a la unidad de cálculo de cocientes de diferencias. La unidad de cálculo de la concentración del ácido nucleico fetal está configurada para determinar la concentración del ácido nucleico fetal basándose en el cociente de diferencias obtenido en la unidad de cálculo de cocientes de diferencias y una fórmula preentrenada. La fórmula se determina basándose en una pluralidad de muestras de entrenamiento con concentraciones de ácido nucleico fetal conocidas.
Las soluciones de la presente divulgación se explicarán a continuación junto con ejemplos. Los expertos en la materia comprenderán que los siguientes ejemplos se utilizan simplemente para ilustrar la presente divulgación y que no deben considerarse como limitaciones del alcance de la presente divulgación. Cuando no se indiquen técnicas o condiciones específicas en los ejemplos, los procedimientos se llevarán a cabo en conformidad con las técnicas o condiciones descritas en la bibliografía del campo o en conformidad con las instrucciones del producto. Los reactivos o instrumentos utilizados sin indicar los fabricantes son todos productos convencionales que están disponibles en el mercado.
Ejemplo 1
El Ejemplo 1 proporciona un método para calcular una concentración del ácido nucleico fetal en plasma materno usando datos de secuenciación de ADNe del plasma materno como datos de entrada. Las etapas específicas son como sigue:
(1) Procesamiento preliminar de datos
Todos los datos de secuenciación sin procesar (en formato fq) de las muestras utilizadas para el entrenamiento del modelo y la predicción se alinean con el cromosoma de referencia humano hg38 utilizando el modo samse en BWA (del inglés Burrows-Wheeler Alignment, alineamiento de Burrows-Wheeler) después del control de calidad. Se utiliza Picard para eliminar lecturas duplicadas en los resultados del mapeo y calcular una tasa de duplicación. Los resultados del mapeo se corrigen localmente usando una función BQSR de corrección de valores de calidad base en el algoritmo de detección de variaciones, tal como GATK. Se calcula una distribución de profundidades de cada muestra utilizando la función Depth of Coverage en el algoritmo de detección de variaciones, tal como GATK. Se utiliza un modo de detección de variaciones de poblaciones en el algoritmo de detección de variaciones, tal como GATK, para realizar la detección de la variación de un solo nucleótido (SNV) y la inserción-deleción de fragmentos pequeños (indel).
(2) Extracción de información de genotipo sin procesar
Los resultados de la alineación de BWA y la eliminación de duplicaciones de Picard (en formato bam) de la etapa (1) se toman como entrada, y el resultado del genotipo (en formato vcf) basado en la profundidad de las lecturas sin procesar sale a través de la función mpilleup del programa informático samtools. Es decir, la función pileup del programa informático samtools se usa para inferir el genotipo.
(3) Cálculo de la proporción de sitios corregidos por imputación
Todo el genoma se divide en ventanas de 5 mb. Cada ventana es para cada muestra analizada, y la información de sitios de variación y la información de frecuencias se utilizan como datos de referencia de la población. La información de sitios de variación y la información de frecuencias pueden provenir de bases de datos existentes (tales como los 1.000 genomas, la base de datos Hapmap y otras bases de datos del genoma de referencia de la población humana), o también se pueden obtener a través del cálculo utilizando la información de la población de los propios datos de entrada (es decir, calculando directamente el genotipo y su correspondiente frecuencia de cada locus en la muestra a analizar). La compleción y corrección del genotipo (imputación) se completa utilizando IMPUTE2 u otros algoritmos de imputación de genotipos, para finalmente obtener el resultado del genotipo de cada muestra (en formato vcf). Con este genotipo obtenido y el genotipo inferido de la información de profundidades de lecturas sin procesar en (2), se calcula una proporción de sitios con genotipo inconsistente en los dos conjuntos de datos como la proporción de sitios corregidos por imputación. La corrección puede realizarse remitiéndose al principio de imputación de Porcu, E.; Sanna, S.; Fuchsberger, C.; Fritsche, L.G., Genotype imputation in genomewide association studies. Curr Protoc Hum Genet. 2013, Capítulo 1, Unidad 1.25.
La imputación es un método de finalización y corrección de genotipos para sitios con datos de deleción o baja precisión. Específicamente, la relación de desequilibrio de ligamiento (DL) entre el sitio analizado y sus sitios cercanos con mayor precisión se utiliza para encontrar el haplotipo que mejor coincide con el sitio analizado (usando información de haplotipos en la población de referencia, o usando información de haplotipos entre distintos individuos del sitio analizado), para inferir el genotipo de deleción en el sitio analizado o corregir el genotipo de baja precisión.
El método de imputación se aplica principalmente en un estudio de Asociación amplia del genoma (GWAS, del inglés Genome wide association) o análisis genético de poblaciones. La información de DL se utiliza para ampliar la cantidad de sitios de datos en el chip, para obtener la máxima información sobre el genotipo relacionado con un fenotipo específico. Alternativamente, para datos de secuenciación de población de baja profundidad, la información de haplotipos de la población de referencia o de la población analizada se utiliza para corregir los sitios de genotipo detectados erróneamente debido a una profundidad demasiado baja, mejorando así la precisión del análisis.
En la presente divulgación, el principio de corregir sitios de baja profundidad en la muestra analizada usando información de haplotipos en la imputación se aplica a los datos de plasma materno, y la información de DL se usa para estimar exhaustivamente la concentración del ácido nucleico fetal de todo el genoma (o a nivel cromosómico). Al realizar la imputación sobre una sola muestra, los algoritmos de inferencia de genotipos tales como IMPUTE2 tienen la misma premisa de que la muestra analizada es diploide. Por lo tanto, cuando existen genotipos que contradicen esta premisa (es decir, más de dos haplotipos) en algunos sitios, estos sitios serán considerados como sitios de error y serán corregidos. Dado que el plasma materno en realidad contiene información sobre tres tipos de haplotipos, es decir, dos haplotipos maternos y un haplotipo fetal heredado del padre, existe cierta probabilidad de que el haplotipo fetal procedente del padre sea considerado como sitio de error y se corrija durante el procedimiento de imputación. Dicha probabilidad de corrección se correlaciona aún más con la concentración del ADNe fetal en el plasma materno.
(4) Establecimiento del modelo de predicción de la concentración del ácido nucleico fetal
El procedimiento de imputación para los datos de secuenciación es un procedimiento de corrección y compleción del genotipo de los locus de baja precisión o de deleción con la ayuda de locus cercanos de alta precisión utilizando la información del desequilibrio de ligamiento entre distintos locus. En la actualidad, se utilizan IMPUTE2 u otros algoritmos de inferencia de genotipos para realizar la imputación sobre los datos de ADNe de plasma materno basándose en la suposición de que todos los datos de secuenciación se originan en el mismo individuo, es decir, sólo dos haplotipos. Por lo tanto, en el procedimiento de imputación, el tercer haplotipo compuesto por ADNe paterno en el plasma materno se considerará como un sitio de error y, por tanto, se corregirá. Si la profundidad de secuenciación es la misma (o después de la corrección de la profundidad de secuenciación), la probabilidad de extraer ADNe paterno distinto al de la embarazada aumenta con el aumento de la concentración del ácido nucleico fetal, y por tanto también aumenta la proporción de sitios corregidos (como se ilustra en la FIG. 3).
Como se ilustra en la FIG. 3, cuando aumentan las proporciones de ADNe paterno correspondientes a distintas concentraciones de ácido nucleico fetal, aumenta la probabilidad de que el genotipo sin procesar (es decir, el primer genotipo) se deduzca del ADNe paterno y, por tanto, también aumenta la probabilidad de que estos genotipos paternos se corrijan a genotipos maternos a través de la imputación. Es decir, el cociente de diferencias entre el primer genotipo y el segundo genotipo, como se mencionó anteriormente, aumenta. Por lo tanto, la concentración de ADN extracelular fetal se puede deducir inversamente calculando el cambio en el cociente del primer genotipo con respecto al segundo genotipo. Como se ilustra en la FIG. 3, la proporción de sitios corregidos por imputación varía con las distintas concentraciones de ácido nucleico fetal, indicando el procedimiento de correlación de inferir indirectamente la concentración del ADNe fetal y la proporción de cambio de genotipo.
Basándose en la teoría anterior, se establece un modelo de regresión lineal para predecir la concentración del ácido nucleico fetal mediante el uso de datos de ADNe de plasma materno de fetos masculinos de un tamaño de muestra grande (se recomiendan más de 10.000 casos) como conjunto de entrenamiento, la concentración del ácido nucleico fetal calculada con la profundidad del cromosoma Y como el conjunto verdadero (valor Y), y la proporción de sitios corregidos calculada en la anterior (3) como una covariable (valor X), y añadiendo una profundidad de secuenciación promedio, una profundidad de secuenciación de alta calidad y la tasa de duplicación de las muestras como covariables.
La fórmula específica del modelo de regresión lineal es la siguiente:
Figure imgf000011_0001
en que y,- es una concentración del ácido nucleico fetal masculino calculada a partir de una profundidad de cromosoma Y correspondiente a la muestra i; {xt1...xta} es una proporción de sitios corregidos por imputación en cada ventana con respecto a todas las n ventanas en la muestra i; Xic0s es una profundidad de secuenciación promedio correspondiente a la muestra i; xigcos es una profundidad de secuenciación de lecturas alineadas de alta calidad correspondientes a la muestra i; x,dup es una tasa de duplicación correspondiente a la muestra i; y p es el número total de muestras en el conjunto de entrenamiento.
(5) Predicción de la concentración del ácido nucleico fetal
Para todas las muestras de ADNe de plasma materno, la concentración del ácido nucleico fetal se predice con el modelo de predicción obtenido en la anterior (4), utilizando la proporción de sitios corregidos por imputación, la profundidad de secuenciación promedio, la profundidad de secuenciación de alta calidad y la tasa de duplicación de cada muestra como covariables.
Este método se ha probado preliminarmente sobre datos de secuenciación de ET de profundidad ultrabaja (de aproximadamente 0,1x) de NlpT. Los datos de 10.000 casos con fetos masculinos como conjunto de entrenamiento y la concentración del ácido nucleico fetal estimada por la profundidad del cromosoma Y como el conjunto verdadero se utilizan para el entrenamiento del modelo de regresión lineal. Por otra parte, las tres variables, es decir, la profundidad de secuenciación promedio, la profundidad de secuenciación de alta calidad y la tasa de duplicación de cada muestra, se utilizan como covariables del modelo para construir el modelo de predicción. Después, las concentraciones de ácido nucleico fetal de 1.000 muestras se estiman dos veces de forma independiente con este modelo de predicción, y la correlación entre la concentración del ácido nucleico fetal estimada y la concentración del ácido nucleico fetal real (la concentración del ácido nucleico fetal calculada con la profundidad del cromosoma Y) es como sigue.
La FIG. 4 ilustra los resultados de predicción de las concentraciones del ácido nucleico fetal de un conjunto de datos de prueba de 1.000 muestras (conjunto de datos de prueba 1), que se predicen de forma independiente con el modelo obtenido utilizando 10.000 muestras como conjunto de entrenamiento. En el conjunto de datos de prueba 1, la correlación (R2) entre la concentración del ácido nucleico fetal calculada basándose en la profundidad del cromosoma Y (abscisas) y la concentración del ácido nucleico fetal calculada mediante el método de la presente divulgación (ordenadas) es 0,7318 (intervalo de confianza del 95 %: 0,7016-0,7593).
La FIG. 5 ilustra los resultados de predicción de las concentraciones del ácido nucleico fetal de un conjunto de datos de prueba de 1.000 muestras (conjunto de datos de prueba 2), que se predicen de forma independiente con el modelo obtenido utilizando 10.000 muestras como conjunto de entrenamiento. En el conjunto de datos de prueba 2, la correlación (R2) entre la concentración del ácido nucleico fetal calculada basándose en la profundidad del cromosoma Y (abscisas) y la concentración del ácido nucleico fetal calculada mediante el método de la presente divulgación (ordenadas) es 0,7423 (intervalo de confianza del 95 %: 0,7131-0,7689).
Basándose en los resultados de la prueba de Pearson, la concentración del ácido nucleico fetal estimada con cualquiera de los dos conjuntos de datos de prueba se correlaciona significativamente con la concentración del ácido nucleico fetal obtenida con la profundidad del cromosoma Y (el valor de p es inferior a 2,2*10-16).
Los resultados de la correlación de regresión lineal obtenidos del conjunto de entrenamiento de 10.000 muestras se pueden consultar en el apéndice. Los valores del apéndice son los resultados de salida convencionales del modelo de regresión lineal en R. El valor (coeficiente) estimado es un valor calculado del coeficiente correspondiente para cada covariable de entrada, es decir, un parámetro del modelo obtenido del conjunto de entrenamiento. El parámetro se puede utilizar para predecir una concentración del ADNe fetal de una nueva muestra introduciéndolo directamente en el modelo lineal. La desviación típica es un error correspondiente para valor estimado. El valor de T y el valor de p son los resultados de la prueba de significación de las covariables correspondientes. La significación en la última columna es un grado de significación basado en el valor de p. En aplicaciones prácticas, solo las covariables más significativas (tales como p menor de 0,05) pueden seleccionarse para la predicción.
En la descripción de la presente divulgación, los términos "primero" y "segundo" se utilizan únicamente con fines descriptivos, y no pueden entenderse en el sentido de indicar o implicar una importancia relativa o indicar implícitamente el número de particularidades técnicas indicadas. Por lo tanto, las particularidades definidas con "primero" y "segundo" pueden incluir explícita o implícitamente al menos una de las características. En la descripción de la presente divulgación, "pluralidad de" significa al menos dos, tal como dos, tres, etc., a menos que se defina específicamente de otro modo.
En la memoria descriptiva, las descripciones con referencia a las expresiones "una realización", "algunas realizaciones", "ejemplos", "ejemplos específicos" o "algunos ejemplos", etc. significan que las particularidades, estructuras, materiales o características específicos descritos junto con la realización o el ejemplo están incluidos en al menos una realización o ejemplo de la presente divulgación. En la presente memoria descriptiva, los términos anteriores son ilustrativos y no se refieren necesariamente a la misma realización o ejemplo. Además, las particularidades, estructuras, materiales o características descritas pueden combinarse de forma adecuada en una cualquiera o más realizaciones o ejemplos. Además, los expertos en la materia pueden combinar las distintas realizaciones o ejemplos y las particularidades de las distintas realizaciones o ejemplos descritos en la presente memoria descriptiva sin que se contradigan entre sí.
Aunque las realizaciones de la presente divulgación se ilustran y describen anteriormente, puede entenderse que las realizaciones mencionadas anteriormente son ilustrativas y no deben interpretarse como limitaciones de la presente divulgación. Los expertos en la materia pueden efectuar cambios, modificaciones, sustituciones y variaciones basadas en las realizaciones mencionadas anteriormente dentro del alcance de la presente divulgación.
Apéndice
Resultados del modelo lineal obtenidos del entrenamiento de 10.000 muestras de embarazadas (fetos masculinos):
Figure imgf000012_0001
Figure imgf000013_0001
(continuación)
Figure imgf000014_0001
(continuación)
Figure imgf000015_0001
(continuación)
Figure imgf000016_0001
(continuación)
Figure imgf000017_0001
(continuación)
Figure imgf000018_0001
(continuación)
Figure imgf000019_0001
(continuación)
Figure imgf000020_0001
(continuación)
Figure imgf000021_0001
(continuación)
Figure imgf000022_0001
(continuación)
Figure imgf000023_0001
(continuación)
Figure imgf000024_0001
(continuación)
Figure imgf000025_0001
(continuación)
Figure imgf000026_0001
(continuación)
Figure imgf000027_0001
(continuación)
Figure imgf000028_0001

Claims (15)

REIVINDICACIONES
1. Un método para determinar una concentración de ácido nucleico fetal en sangre materna, que comprende: una etapa 1 de determinación, mediante un procesador, de una información de un primer genotipo basada en la alineación de datos de secuenciación con al menos una parte de un genoma de referencia, en donde los datos de secuenciación se obtienen de una muestra de ácido nucleico de la sangre materna;
una etapa 2 de corrección, mediante el procesador, de la información del primer genotipo basada en datos de referencia utilizando una relación de desequilibrio de ligamiento, para obtener información de un segundo genotipo; y
una etapa 3 de determinación, mediante el procesador, de la concentración del ácido nucleico fetal basada en una diferencia entre la información del primer genotipo y la información del segundo genotipo.
2. El método de acuerdo con la reivindicación 1, en donde los datos de secuenciación se obtienen secuenciando la muestra de ácido nucleico de la sangre materna.
3. El método de acuerdo con la reivindicación 1, en donde el genoma de referencia comprende al menos una región de ligamiento fuerte en un genoma humano.
4. El método de acuerdo con la reivindicación 3, en donde la región de ligamiento fuerte tiene una longitud que varía de 5 mb a 10 mb.
5. El método de acuerdo con la reivindicación 1, en donde la información del primer genotipo se determina basándose en un número de soporte de lecturas de secuenciación.
6. El método de acuerdo con la reivindicación 1, en donde la información del primer genotipo comprende al menos uno de SNP o indel.
7. El método de acuerdo con la reivindicación 1, en donde los datos de referencia comprenden una pluralidad de porciones de información de sitios de variación y una pluralidad de porciones de información de frecuencias de variación.
8. El método de acuerdo con la reivindicación 1, en donde la corrección se realiza a través de IMPUTE2.
9. El método de acuerdo con la reivindicación 1, en donde la etapa 3 comprende además:
la etapa 3-1 de determinación de un cociente de diferencias entre la información del primer genotipo y la información del segundo genotipo; y
la etapa 3-2 de determinación de la concentración del ácido nucleico fetal en conformidad con el cociente de diferencias obtenido en la etapa 3-1 y una fórmula preentrenada, en donde la fórmula preentrenada se determina basándose en una pluralidad de muestras de entrenamiento con concentraciones de ácido nucleico fetal conocidas.
10. Un dispositivo para determinar una concentración de ácido nucleico fetal en sangre materna, que comprende: una unidad de alineación configurada para determinar una información del primer genotipo basada en la alineación entre los datos de secuenciación y al menos una parte de un genoma de referencia, en donde los datos de secuenciación se obtienen de una muestra de ácido nucleico de la sangre materna;
una unidad de corrección conectada a la unidad de alineación y configurada para corregir la información del primer genotipo basándose en datos de referencia usando una relación de desequilibrio de ligamiento para obtener la información del segundo genotipo; y
una unidad de cálculo conectada a la unidad de alineación y la unidad de corrección, estando configurada la unidad de cálculo para determinar la concentración del ácido nucleico fetal basándose en una diferencia entre la información del primer genotipo y la información del segundo genotipo.
11. El dispositivo de acuerdo con la reivindicación 10, en donde los datos de secuenciación se obtienen secuenciando la muestra de ácido nucleico de la sangre materna, y/o
la información del primer genotipo se determina basándose en un número de soporte de lecturas de secuenciación, y/o la información del primer genotipo comprende al menos uno de SNV o indel, y/o
los datos de referencia comprenden una pluralidad de porciones de información de sitios de variación y una pluralidad de porciones de información de frecuencias de variación, y/o
la corrección se realiza a través de IMPUTE2.
12. El dispositivo de acuerdo con la reivindicación 10, en donde el genoma de referencia comprende al menos una región de ligamiento fuerte en un genoma humano, preferentemente, la región de ligamiento fuerte tiene una longitud que varía de 5 mb a 10 mb.
13. El dispositivo de acuerdo con la reivindicación 10, en donde la unidad de cálculo comprende además:
una unidad de cálculo de cocientes de diferencias configurada para determinar un cociente de diferencias entre la información del primer genotipo y la información del segundo genotipo; y
una unidad de cálculo de concentración de ácido nucleico fetal conectada a la unidad de cálculo de cocientes de diferencias y configurada para determinar la concentración del ácido nucleico fetal en conformidad con el cociente de diferencias obtenido en la unidad de cálculo de cocientes de diferencias y una fórmula preentrenada, en donde la fórmula preentrenada se determina basándose en una pluralidad de muestras de entrenamiento con concentraciones de ácido nucleico fetal conocidas.
14. Un dispositivo informático, que comprende una memoria, un procesador y un programa informático almacenado en la memoria y ejecutable en el procesador,
en donde el programa, cuando es ejecutado por el procesador, implementa el método de acuerdo con una cualquiera de las reivindicaciones 1 a 9.
15. Un medio de almacenamiento legible por ordenador que tiene un programa informático almacenado en él, en donde el programa, cuando es ejecutado por un procesador, implementa el método de acuerdo con una cualquiera de las reivindicaciones 1 a 9.
ES19941307T 2019-08-14 2019-08-14 Método y dispositivo para determinar la concentración de ácido nucleico fetal en la sangre de una embarazada Active ES2942363T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2019/100629 WO2021026828A1 (zh) 2019-08-14 2019-08-14 确定孕妇血液中胎儿核酸浓度的方法及设备

Publications (1)

Publication Number Publication Date
ES2942363T3 true ES2942363T3 (es) 2023-05-31

Family

ID=74570317

Family Applications (1)

Application Number Title Priority Date Filing Date
ES19941307T Active ES2942363T3 (es) 2019-08-14 2019-08-14 Método y dispositivo para determinar la concentración de ácido nucleico fetal en la sangre de una embarazada

Country Status (10)

Country Link
EP (1) EP3916105B1 (es)
CN (1) CN113874523B (es)
DK (1) DK3916105T3 (es)
ES (1) ES2942363T3 (es)
HU (1) HUE061561T2 (es)
IL (1) IL289007A (es)
MY (1) MY205773A (es)
PL (1) PL3916105T3 (es)
SA (1) SA521431156B1 (es)
WO (1) WO2021026828A1 (es)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114171116B (zh) * 2021-10-14 2025-06-10 武汉蓝沙医学检验实验室有限公司 孕妇游离及本身dna评估胎儿dna浓度的方法及应用
CN113889189B (zh) * 2021-10-14 2025-05-16 武汉蓝沙医学检验实验室有限公司 以生父和母亲dna评估胎儿dna浓度的方法及应用
CN117106870B (zh) * 2022-12-30 2024-09-13 深圳市真迈生物科技有限公司 胎儿浓度的确定方法及装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5641628A (en) * 1989-11-13 1997-06-24 Children's Medical Center Corporation Non-invasive method for isolation and detection of fetal DNA
US20040146883A1 (en) * 2003-01-28 2004-07-29 Affymetrix, Inc. Methods for prenatal diagnosis
CN105779280B (zh) * 2009-11-05 2018-09-25 香港中文大学 由母本生物样品进行胎儿基因组的分析
WO2011130880A1 (zh) * 2010-04-23 2011-10-27 深圳华大基因科技有限公司 胎儿染色体非整倍性的检测方法
CN104120181B (zh) * 2011-06-29 2017-06-09 深圳华大基因股份有限公司 对染色体测序结果进行gc校正的方法及装置
JP2016516449A (ja) * 2013-05-09 2016-06-09 エフ.ホフマン−ラ ロシュ アーゲーF. Hoffmann−La Roche Aktiengesellschaft Hlaマーカーを使用する母体血液中の胎児dna分率の決定方法
CN104232777B (zh) * 2014-09-19 2016-08-24 天津华大基因科技有限公司 同时确定胎儿核酸含量和染色体非整倍性的方法及装置
WO2016084079A1 (en) * 2014-11-24 2016-06-02 Shaare Zedek Medical Center Fetal haplotype identification
JP2017192383A (ja) * 2016-04-19 2017-10-26 学校法人藤田学園 胎児成分の検出方法
CN107133491B (zh) * 2017-03-08 2020-05-29 广州市达瑞生物技术股份有限公司 一种获取胎儿游离dna浓度的方法
CN109971846A (zh) * 2018-11-29 2019-07-05 时代基因检测中心有限公司 使用双等位基因snp靶向下一代测序的非侵入性产前测定非整倍体的方法

Also Published As

Publication number Publication date
WO2021026828A1 (zh) 2021-02-18
CN113874523A (zh) 2021-12-31
EP3916105A4 (en) 2022-04-06
SA521431156B1 (ar) 2023-12-03
MY205773A (en) 2024-11-12
IL289007A (en) 2022-02-01
DK3916105T3 (da) 2023-04-17
CN113874523B (zh) 2024-04-30
PL3916105T3 (pl) 2023-06-26
EP3916105B1 (en) 2023-01-25
HUE061561T2 (hu) 2023-07-28
EP3916105A1 (en) 2021-12-01

Similar Documents

Publication Publication Date Title
US11031100B2 (en) Size-based sequencing analysis of cell-free tumor DNA for classifying level of cancer
Rodriguez-Laguna et al. CLAPO syndrome: identification of somatic activating PIK3CA mutations and delineation of the natural history and phenotype
KR102018444B1 (ko) 생물학적 샘플 중의 무세포 핵산의 분획을 결정하기 위한 방법 및 장치 및 이의 용도
ES2911613T3 (es) Análisis de patrones de metilación de haplotipos en tejidos en una mezcla de ADN
EP2851431B1 (en) Method, system and computer readable medium for determining base information in predetermined area of fetus genome
IL265769B1 (en) Estimation of gestational age using methylation and size profile of maternal plasma DNA
US20200340064A1 (en) Systems and methods for tumor fraction estimation from small variants
ES2942363T3 (es) Método y dispositivo para determinar la concentración de ácido nucleico fetal en la sangre de una embarazada
US20210065842A1 (en) Systems and methods for determining tumor fraction
CN104662168A (zh) 用于癌症检测的血浆dna突变分析
TWI675918B (zh) 基於單倍型之通用非侵入性單基因疾病產前檢測
TW201720932A (zh) 藉由母體血漿dna之淺深度測序以準確定量胎兒dna含量
US20220205043A1 (en) Detecting cancer risk
CN111433855A (zh) 筛查系统和方法
US20200265922A1 (en) Comprehensive Genomic Transcriptomic Tumor-Normal Gene Panel Analysis For Enhanced Precision In Patients With Cancer
ES2764501T3 (es) Método y sistema para estimar el género del feto de una hembra embarazada
HK40063849A (en) Method and device for determining fetal nucleic acid concentration in blood of pregnant woman
US20230028058A1 (en) Next-generation sequencing diagnostic platform and related methods
CN116758981A (zh) 一种ngs试剂盒肿瘤突变负荷检测性能的评估方法及装置
HK40084570B (en) Size-based analysis of fetal dna fraction in maternal plasma
HK40041430A (en) Size-based analysis of fetal dna fraction in maternal plasma