ES2882329T3

ES2882329T3 - Diagnóstico no invasivo por secuenciación de ADN fuera de las células 5-hidroximetilado

Info

Publication number: ES2882329T3
Application number: ES17779593T
Authority: ES
Inventors: Stephen R Quake; Chunxiao Song
Original assignee: Leland Stanford Junior University
Current assignee: Leland Stanford Junior University
Priority date: 2016-04-07
Filing date: 2017-04-03
Publication date: 2021-12-01
Anticipated expiration: 2037-04-03
Also published as: RU2018138848A3; US20200299760A1; AU2017246318B2; SG11201808775PA; JP7143221B2; JP2022120007A; US20200248248A1; DK3440205T3; US20200283838A1; AU2017246318A2; MX2018012156A; WO2017176630A1; AU2017246318A1; EP3440205B1; EP3440205A1; JP2019520791A; EP3929290A1; EP3440205A4; PL3440205T3; CA3019836A1

Abstract

Un método de secuenciación de ADN fuera de las células hidroximetilado (ADNfc) para generar un patrón de hidroximetilación para identificar la presencia o ausencia de un fenotipo de enfermedad en un sujeto, en el que dicho ADNfc se origina a partir de una muestra de sangre del paciente, comprendiendo el método: añadir una etiqueta de afinidad sólo a moléculas de ADN hidroximetilado en una muestra de ADNfc obtenida de la muestra de sangre del paciente; enriquecer las moléculas de ADN que están etiquetadas con la etiqueta de afinidad al unirse a un soporte; amplificar el ADN enriquecido sin liberar el ADN del soporte; secuenciar las moléculas de ADN amplificadas para producir una pluralidad de lecturas de secuencia específicas para el paciente; y asignar una pluralidad de lecturas de secuencia específicas para el paciente a cada una de una pluralidad de loci diana para identificar un patrón de hidroximetilación en el ADNfc que indica la presencia o ausencia del fenotipo de la enfermedad en el paciente.

Description

DESCRIPCIÓN

Diagnóstico no invasivo por secuenciación de ADN fuera de las células 5-hidroximetilado

Antecedentes

Las modificaciones del ADN en forma de 5-metilcitosina (5mC) y la recientemente identificada 5-hidroximetilcitosina (5hmC) representan las dos principales marcas epigenéticas que se encuentran en el genoma de los mamíferos e impactan una amplia gama de procesos biológicos desde la regulación génica hasta el desarrollo normal. La detección de cambios aberrantes de 5mC y 5hmC en el ADN fuera de las células (ADNfc) puede representar un enfoque atractivo no invasivo para el diagnóstico del cáncer. ADNfc es el ADN circulante que se encuentra en nuestra sangre y se origina en diferentes tejidos y se ha utilizado para pruebas prenatales no invasivas, diagnóstico de trasplantes de órganos y detección de cáncer. En comparación con la investigación intensiva sobre el ADN de 5mC fuera de las células como biomarcador para el diagnóstico del cáncer, el ADN de 5hmC fuera de las células ha permanecido sin explotar, principalmente debido al bajo nivel de 5hmC en comparación con 5mC en el genoma humano (10 a 100 veces menos que 5mC) y la falta de un método de secuenciación de ADN de 5hmC sensible y de bajo consumo para trabajar con cantidades minúsculas de ADNfc (típicamente solo unos pocos nanogramos por ml de plasma) el documento WO2015/021282 A1 divulga un método para secuenciar el ADN de 5-hidroximetilcitosina (5hmC) extraído de una muestra celular. Hongchuan et al., "Circulating methylated DNA as biomarkers for cancer detection", Capítulo 6", INTECH (enero de 2013) divulga la presencia de 5-hidroximetilcitosina en el ADN fuera de las células, pero no proporciona un método para la secuenciación.

Resumen

En el presente documento, entre otras cosas, se proporciona un método de secuenciación de ADN hidroximetilado en una muestra de ADN circulante fuera de las células. En algunas realizaciones, el método comprende añadir una etiqueta de afinidad sólo a moléculas de ADN hidroximetiladas en una muestra de ADNfc, enriqueciendo las moléculas de ADN que están etiquetadas con la etiqueta de afinidad; y secuenciando las moléculas de ADN enriquecidas. En algunas realizaciones, el método comprende: añadir secuencias adaptadoras a los extremos del ADNfc; incubar el ADNfc ligado al adaptador con una beta-glucosiltransferasa de ADN y glucosa UDP modificada con un grupo quimioselectivo, marcando así covalentemente las moléculas de ADN hidroximetilado en el ADNfc con el grupo quimioselectivo; unir una fracción de biotina al ADNfc quimioselectivamente modificado mediante una reacción de cicloadición; enriquecer con moléculas de ADN biotiniladas al unirse a un soporte que se une a la biotina; amplificar el ADN enriquecido utilizando cebadores que se unen a los adaptadores; y secuenciar el ADN amplificado para producir una pluralidad de lecturas de secuencia.

Un método que comprende: (a) obtener una muestra que comprende ADN circulante fuera de las células, (b) enriquecer el ADN hidroximetilado en la muestra, y (c) cuantificar independientemente la cantidad de ácidos nucleicos en el ADN hidroximetilado enriquecido que mapea a cada uno de uno o más loci diana.

Entre otras cosas, las secuencias obtenidas del método pueden usarse como diagnóstico, teranosis o pronóstico para una variedad de enfermedades o afecciones, por ejemplo.

También se proporciona una variedad de composiciones, incluida una composición que comprende ADN circulante fuera de las células, en el que los residuos de hidroximetilcitosinas en el ADN se modifican para contener una etiqueta de captura.

Estas y otras características de las presentes enseñanzas se exponen en este documento.

Breve descripción de las Figuras

El experto en la materia comprenderá que los dibujos, que se describen a continuación, tienen únicamente fines ilustrativos. Los dibujos no pretenden limitar el alcance de las presentes enseñanzas de ninguna manera.

Figuras 1A-1C: secuenciación de 5hmC en ADNfc. Figura 1A: Procedimiento general de secuenciación de 5hmC fuera de las células. El ADNfc se liga con el adaptador Illumina y se marca con biotina en 5 hmC para su extracción con perlas de estreptavidina. La biblioteca final se completa mediante PCR directamente a partir de perlas de estreptavidina. Figura 1B: Porcentaje de lecturas mapeadas para enriquecer el ADN en las bibliotecas de secuenciación. Las barras de error indican la desviación estándar Figura 1C: Perfiles de metagenómica del log2 de las veces que cambia la relación de 5hmC fuera de las células con respecto a la entrada de ADNfc en genes clasificados de acuerdo con su expresión en la técnica de secuenciación de ARN fuera de las células.

Figuras 2A-2D: el cáncer de pulmón conduce a una pérdida progresiva del enriquecimiento de 5hmC en ADNfc. Figura 2A: Vista del navegador del genoma de la distribución de 5hmC fuera de las células en una región de 10 mb en el cromosoma 6. Se muestran las pistas superpuestas de cáncer de pulmón sano, no metastásico, cáncer de pulmón metastásico y muestras de entrada de ADNfc en un gráfico de líneas. Figura 2B: Mapa de calor de 1159 genes diferenciales de cáncer de pulmón metastásico en muestras sanas, de cáncer de pulmón y la entrada de ADNfc no enriquecido. La agrupación jerárquica se realizó entre genes y muestras. Figura 2C: Diagrama de caja del número de hMR (normalizado a 1 millón de lecturas) identificadas en cada grupo. Figura 2D: Diagramas de caja de CCNY y PDIA6 5hmC FPKM en cáncer de pulmón y otras muestras de ADNfc. * P <0,05, ** P <0,01, *** P <0,001, **** P <1e-5, prueba t de Welch.

Figuras 3A-3E: 5 hmC fuera de las células para controlar la progresión y el tratamiento de1HCC. Figura 3A: Gráfico de tSNE de FPKM 5hmC de muestras sanas, HBV y HCC. Figura 3B: Mapa de calor de 1.006 genes diferenciales de HCC en muestras sanas, de VHB y HCC. La agrupación jerárquica se realizó entre genes y muestras. Figuras 3C-3D: Diagramas de caja de FPKM de 5hmC de AHSG (Figura 3C) y MTBP (Figura 3D) en VHB, HCC (preoperatorio), HCC postoperatorio, HCC recurrente y otras muestras de ADNfc. * P <0,05, ** P <1e-4, *** P <1e-5, prueba t de Welch. Figura 3E: Gráfico de tSNE de FPKM de 5hmC de muestras sanas, de HCC preoperatorio, HCC postoperatorio y de HCC recurrente.

Figuras 4A-4C: tipo de cáncer y predicción del estadio con 5hmC fuera de las células. Figura 4A: Gráfico de tSNE de FPKM de 5hmC en ADNfc de muestras de cáncer sanas y diversas. Figura 4B: Clasificación real y prevista por la validación cruzada de dejar uno fuera utilizando el algoritmo Mclust (MC) y Bosque Aleatorio (RF), con base en dos conjuntos de características (cuerpo del gen y DhMR). Figura 4C: Coeficiente kappa de Cohen para medir la concordancia entre clasificadores (GB para el cuerpo del gen). La barra de error indica el error estándar de la estimación kappa de Cohen.

Figuras 5A-5F: secuenciación de 5hmC fuera de las células mediante hMe-Seal modificado. Figura 5A: reacciones de hMe-Seal. 5hmC en el ADN se marca con una glucosa modificada con azida por pGT, que luego se une a un grupo biotina a través de la química clic. Figura 5B: Ensayos de enriquecimiento de un único conjunto de amplicones que contienen C, 5mC o 5hmC enriquecidos con ADNfc. El análisis en gel muestra que después de hMe-Seal, solo el amplicón que contiene 5hmC puede ser sometido a PCR a partir de las perlas de estreptavidina. Figura 5C: Diagrama de caja de la profundidad de secuenciación en todas las muestras fuera de las células. Figura 5D: Diagrama de caja de la tasa de mapa no duplicada única en todas las muestras fuera de las células. Figura 5E: Gráfico de MA de recuentos de lectura de 5hmC fuera de las células normalizados (lecturas/millón) en contenedores de 10 kb de todo el genoma entre duplicados técnicos. La línea azul horizontal M = 0 indica el mismo valor en dos muestras. Se grafica un ajuste más bajo (en rojo) subyacente a una posible tendencia en el sesgo relacionado con el valor medio. Figura 5F: Diagrama de Venn del solapamiento de las hMR entre las replicaciones técnicas de la secuenciación de 5hmC fuera de las células y una muestra combinada de ambas repeticiones.

Figuras 6A-6D: distribución en todo el genoma de 5hmC en ADNfc. Figura 6A: vista del navegador del genoma de la distribución de 5hmC en una región de 10 mb en el cromosoma 20. Muestra las pistas de ADNfc enriquecido y muestras de ADNg de sangre completa junto con la entrada de ADNfc no enriquecido. Figura 6B: presentación de gráfico circular de la distribución genómica general de hMR en ADNfc. Figura 6C: El enriquecimiento relativo de hMR a través de distintas regiones genómicas en ADNfc y ADNg de sangre completa. Figura 6D: Gráfico de tSNE de FPKM de 5hmC en ADNfc y ADNg de sangre completa de muestras sanas.

Figuras 7A-7E: Señales diferenciales de 5hmC entre ADNfc y ADNg de sangre completa. Figura 7A: Mapa de calor de 2.082 genes diferenciales entre ADNfc y ADNg en sangre. La agrupación jerárquica se realizó entre genes y muestras. Figura 7B: Diagrama de caja del nivel de expresión en sangre completa para genes enriquecidos en 5hmC de ADNfc y ADNg de sangre completa. El valor p se muestra en la parte superior. Figuras 7C y 7D: análisis GO de los genes enriquecidos con 5hmC específicos de sangre completa (Figura 7C) y específicos de ADNfc (Figura 7D), corte de valor p ajustado 0,001. Figura 7E: Vista del navegador del genoma de la distribución de 5hmC en los loci FPR1/FPR2 (superior) y GLP1R (inferior). Se muestran las pistas de superposición de ADNfc, ADNg de sangre total y entrada de ADNfc en el gráfico de líneas.

Figuras 8A-8D: Hidroximetiloma fuera de las células en cáncer de pulmón. Figura 8A: Gráfico de tSNE de FPKM de 5hmC de muestras sanas, de cáncer de pulmón no metastásico y cáncer de pulmón metastásico, junto con la entrada de ADNfc no enriquecido. Figura 8B: Perfiles metagenómicos de 5hmC fuera de las células en grupos sanos y de diversos tipos de cáncer, junto con la entrada de ADNfc no enriquecido. El área sombreada indica SEM. Figura 8C: Porcentaje de lecturas mapeadas para enriquecimiento de ADN en las bibliotecas de secuenciación de varios grupos. Las barras de error indican SD. Figura 8D: Vista del navegador del genoma de la distribución de 5hmC fuera de las células en los loci CREM/CCNY (izquierda) y ATP6V1C2/PDIA6 (derecha) en muestras sanas y de cáncer de pulmón. Se muestran las pistas superpuestas en el gráfico de líneas.

Figuras 9A-9E: hidroximetiloma fuera de las células en HCC. Figura 9A: Diagrama de caja del nivel de expresión en tejido hepático para genes enriquecidos y empobrecidos en 5hmC específicos de HCC. El valor p se muestra en la parte superior. Figura 9B: vista del navegador del genoma de la distribución de 5hmC fuera de las células en el locus AHSG en muestras sanas, de HBV y HCC. Se muestran las pistas superpuestas en el gráfico de líneas. Figura 9C: Expresión de AHSG en hígado y otros tejidos. Figura 9D: Vista del navegador del genoma de la distribución de 5hmC fuera de las células en el locus MTBP en muestras sanas, de VHB y de HCC. Se muestran las pistas superpuestas en el gráfico de líneas.

Figura 9E: Cambios en la puntuación de HCC en 4 casos de seguimiento de HCC. El estado de la enfermedad se muestra en la parte inferior. La duración del tiempo en meses se muestra en la parte superior. Las líneas punteadas indican los valores medios de las puntuaciones de HCC en los grupos de HCC, VHB y sanos. Los triángulos indican tratamiento. La puntuación de HCC es una combinación lineal de 1006 genes diferenciales de HCC (Figura 3B) que separa mejor las muestras de HCC, de VHB y las sanas.

Figuras 10A-10E: hidroximetiloma fuera de las células en cáncer de páncreas. Figura 10A: Mapa de calor de 713 genes diferenciales de cáncer de páncreas en muestras sanas y de cáncer de páncreas. La agrupación jerárquica se realizó entre genes y muestras. Figuras 10B y 10C, diagramas de caja de FPKM de 5hmC de ZFP36L1, DCXR (Figura 10B) y GPR21, SLC19A3 (Figura 10C) en cáncer de páncreas y otras muestras de ADNfc. * P <0,001, ** P <1e-5, prueba t de Welch. Figura 10D y 10E: vista del navegador del genoma de la distribución de 5hmC fuera de las células en los loci de ZFP36L1, DCXR (Figura 10D) y GPR21, SLC19A3 (Figura 10E) en muestras sanas y de cáncer de páncreas. Se muestran las pistas superpuestas en el gráfico de líneas.

Figuras 11A-11D: hidroximetiloma fuera de las células en muestras de cáncer. Figura 11A: Gráfico de tSNE de FPKM de 5hmC de promotores (5 kb secuencia arriba de TSS) de muestras sanas y de diversos cánceres. Figura 11B: Gráfico de tSNE de FPKM de 5hmC de muestras de ADNfc sanas y de diversos cánceres junto con las muestras de ADNg de sangre completa. Figura 11C: Distribución por edades de individuos sanos y varios pacientes con cáncer. Figura 11D: Gráfico de tSNE de FPKM de 5hmC en ADNfc de muestras sanas y diversos cánceres (Figura 4A) coloreadas por lotes numerados de acuerdo con el tiempo del proceso.

Figuras 12A-12G: tipo de cáncer y predicción del estadio con 5hmC fuera de las células. Figuras 12A y 12B: Gráfico del criterio de información bayesiano (BIC) de Mclust entrenado con el conjunto de características del cuerpo de 90 genes (Figura 12A) y el conjunto de características de 17 DhMR (Figura 12B), lo que indica un valor BIC alto para separar cinco grupos cuando se usa el modelo EEI para Mclust. Figura 12C: Gráfico de reducción dimensional basado en Mclust de 4 dimensiones utilizando características de DhMR. La mitad inferior muestra el gráfico de dispersión y la mitad superior muestra el gráfico de densidad. Figuras 12D y 12E: Importancia variable (disminución media de Gini) para los 15 principales cuerpos de genes (Figura 12D) y DhMR (Figura 12E), en el modelo de entrenamiento forestal aleatorio. Figuras 12F y 12G muestran la importancia variable para los cuerpos de los genes y los DhMR, obtenidos mediante un método diferente.

Figura 13: Ejemplos de DhMR en el modelo de bosque aleatorio. Vista del navegador del genoma de la distribución de 5hmC fuera de las células en cuatro DhMR con alta importancia variable en el modelo de bosque aleatorio en varios grupos. Se muestran las pistas superpuestas en el gráfico de líneas. El área sombreada indica el DhMR.

Definiciones

A menos que se defina lo contrario en el presente documento, todos los términos técnicos y científicos usados en el presente documento tienen el mismo significado que el que entiende comúnmente un experto en la técnica a la que pertenece esta invención.

Los intervalos numéricos incluyen los números que definen el intervalo. A menos que se indique lo contrario, los ácidos nucleicos se escriben de izquierda a derecha en orientación 5' a 3'; las secuencias de aminoácidos se escriben de izquierda a derecha en orientación amino a carboxilo, respectivamente.

Los títulos proporcionados en este documento no son limitaciones de los diversos aspectos o realizaciones de la invención. Por consiguiente, los términos definidos inmediatamente a continuación se definen más completamente por referencia a la especificación en su conjunto.

A menos que se defina de otro modo, todos los términos técnicos y científicos usados en este documento tienen el mismo significado que el comúnmente entendido por un experto en la técnica a la que pertenece esta invención. Singleton, et al., DICTIONARY OF MICROBIOLOGY AND MOLECULAR BIOLOGY, segunda edición, John Wiley and Sons, Nueva York (1994), y Hale & Markham, THE HARPER COLLINS DICTIONARY OF BIOLOGY, Harper Perennial, NY (1991) le proporciona a un experto el significado general de muchos de los términos usados en este documento. Aún así, algunos términos se definen a continuación en aras de la claridad y la facilidad de referencia.

El término "muestra" como se usa en este documento se refiere a un material o mezcla de materiales, típicamente, aunque no necesariamente, en forma líquida, que contiene uno o más analitos de interés.

El término "muestra de ácido nucleico", como se usa en este documento, indica una muestra que contiene ácidos nucleicos. Las muestras de ácido nucleico utilizadas en este documento pueden ser complejas porque contienen múltiples moléculas diferentes que contienen secuencias. El ADN genómico de un mamífero (por ejemplo, un ratón o un ser humano) son tipos de muestras complejas. Las muestras complejas pueden tener más de 104, 105, 106 o 107 moléculas de ácido nucleico diferentes. Una diana de ADN puede originarse a partir de cualquier fuente, tal como ADN genómico o un constructo de ADN artificial. Cualquier muestra que contenga ácido nucleico, por ejemplo, ADN genómico elaborado a partir de células de cultivo de tejidos o una muestra de tejido, puede emplearse en este documento. Se puede preparar una muestra de ácido nucleico a partir de cualquier fuente adecuada, incluida una muestra de diente, hueso, cabello o hueso, etc.

El término "nucleótido" pretende incluir aquellas fracciones que contienen no sólo las bases de purina y pirimidina conocidas, sino también otras bases heterocíclicas que han sido modificadas. Tales modificaciones incluyen purinas o pirimidinas metiladas, purinas o pirimidinas aciladas, ribosas alquiladas u otros heterociclos. Además, el término "nucleótido" incluye aquellas fracciones que contienen etiquetas de hapteno o fluorescentes y pueden contener no sólo azúcares de ribosa y desoxirribosa convencionales, sino también otros azúcares. Los nucleósidos o nucleótidos modificados también incluyen modificaciones en la fracción de azúcar, por ejemplo, en el que uno o más de los grupos hidroxilo se reemplazan con átomos de halógeno o grupos alifáticos, o se funcionalizan como éteres, aminas o similares.

El término "ácido nucleico" y "polinucleótido" se usan indistintamente en el presente documento para describir un polímero de cualquier longitud, por ejemplo, más de aproximadamente 2 bases, más de aproximadamente 10 bases, más de aproximadamente 100 bases, más de aproximadamente 500 bases, más de 1000 bases, hasta aproximadamente 10.000 o más bases compuestas de nucleótidos, por ejemplo, desoxirribonucleótidos o ribonucleótidos, y pueden producirse enzimáticamente o sintéticamente (por ejemplo, PNA como se describe en la patente de los Estados Unidos 5.948.902 y las referencias citadas allí) que pueden hibridar con ácidos nucleicos de origen natural de una manera específica de la secuencia análoga a la de dos ácidos nucleicos de origen natural, por ejemplo, puede participar en interacciones de emparejamiento de bases de Watson-Crick. Los nucleótidos de origen natural incluyen guanina, citosina, adenina y timina (G, C, A y T, respectivamente). El ADN y el ARN tienen una cadena principal de azúcar desoxirribosa y ribosa, respectivamente, mientras que la cadena principal de PNA está compuesta por unidades repetidas de N-(2-aminoetil)-glicina unidas por enlaces peptídicos. En el PNA, varias bases de purina y pirimidina están unidas a la cadena principal mediante enlaces metiléncarbonilo. Un ácido nucleico bloqueado (LNA), a menudo denominado ARN inaccesible, es un nucleótido de ARN modificado. La fracción de ribosa de un nucleótido de LNA se modifica con un puente adicional que conecta el oxígeno 2' y el carbono 4'. El puente "bloquea" la ribosa en la conformación 3'-endo (norte), que a menudo se encuentra en los dúplex en forma de A. Los nucleótidos de LNA se pueden mezclar con residuos de ADN o ARN en el oligonucleótido cuando se desee. El término "ácido nucleico no estructurado" o "UNA" es un ácido nucleico que contiene nucleótidos no naturales que se unen entre sí con una estabilidad reducida. Por ejemplo, un ácido nucleico no estructurado puede contener un residuo G' y un residuo C', en el que estos residuos corresponden a formas no naturales, es decir, análogos de G y C que se emparejan entre sí con estabilidad reducida, pero retienen una capacidad para emparejar sus bases con residuos C y G de origen natural, respectivamente. El ácido nucleico no estructurado se describe en el documento US20050233340. También se incluyen en esta definición los ZNA, es decir, ácidos nucleicos zip.

El término "oligonucleótido" como se usa en este documento denota un multímero de nucleótido monocatenario de aproximadamente 2 a 200 nucleótidos, hasta 500 nucleótidos de longitud. Los oligonucleótidos pueden ser sintéticos o pueden prepararse enzimáticamente y, en algunas realizaciones, tienen una longitud de 30 a 150 nucleótidos. Los oligonucleótidos pueden contener monómeros de ribonucleótidos (es decir, pueden ser oligorribonucleótidos) y/o monómeros de desoxirribonucleótidos. Un oligonucleótido puede tener de 10 a 20, 21 a 30, 31 a 40, 41 a 50, 51 a 60, 61 a 70, 71 a 80, 80 a 100, 100 a 150 o 150 a 200 nucleótidos de longitud, por ejemplo.

El término "hibridación" se refiere al proceso mediante el cual una cadena de ácido nucleico se une a una cadena complementaria a través del emparejamiento de bases como se conoce en la técnica. Se considera que un ácido nucleico es "selectivamente hibridable" con una secuencia de ácido nucleico de referencia si las dos secuencias se hibridan específicamente entre sí en condiciones de hibridación y lavado de moderada a alta rigurosidad. Se conocen condiciones de hibridación moderadas y de alta rigurosidad (véase, por ejemplo, Ausubel, et al., Short Protocols in Molecular Biology, 3a ed., Wiley & Sons 1995 y Sambrook et al., Molecular Cloning: A Laboratory Manual, Tercera Edición, 2001 Cold Spring Harbor, Nueva York). Un ejemplo de condiciones de alta rigurosidad incluye la hibridación a aproximadamente 42 °C en formamida al 50%, SSC 5X, solución de Denhardt 5X, SDS al 0,5% y 100 pg/ml de ADN portador desnaturalizado seguido de lavado dos veces en SSC 2X y SDS al 0,5% temperatura ambiente y dos veces más en SSC 0,1X y SDS al 0,5% a 42 °C.

"Cebador" significa un oligonucleótido, ya sea natural o sintético, que es capaz, al formar un dúplex con una plantilla polinucleotídica, de actuar como un punto de inicio de la síntesis de ácidos nucleicos y extenderse desde su extremo 3' a lo largo de la plantilla de modo que se forme un dúplex extendido. La secuencia de nucleótidos añadidos durante el proceso de extensión está determinada por la secuencia del polinucleótido plantilla. Por lo general, los cebadores se extienden mediante una ADN polimerasa. Los cebadores son generalmente de una longitud compatible con su uso en la síntesis de productos de extensión de cebadores, y suelen tener una longitud de entre 8 y 100 nucleótidos, tal como 10 a 75, 15 a 60, 15 a 40, 18 a 30, 20 a 40, 21 a 50, 22 a 45, 25 a 40, etc. Los cebadores típicos pueden estar en el intervalo de entre 10 y 50 nucleótidos de longitud, tal como 15-45, 18-40, 20-30, 21-25, etc., y cualquier longitud entre los intervalos indicados. En algunas realizaciones, los cebadores normalmente no son más de aproximadamente 10, 12, 15, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 35, 40, 45, 50, 55, 60, 65 o 70 nucleótidos de longitud.

El término "dúplex" o "doble", como se usa en el presente documento, describe dos polinucleótidos complementarios de bases emparejadas, es decir, hibridadas juntas.

Los términos "determinar", "medir", "evaluar", "evaluación", "ensayar" y "analizar" se usan indistintamente en el presente documento para referirse a cualquier forma de medición, e incluyen determinar si un elemento está presente o no. Estos términos incluyen determinaciones tanto cuantitativas como cualitativas. La evaluación puede ser relativa o absoluta. "Evaluar la presencia de" incluye determinar la cantidad de algo presente, así como determinar si está presente o ausente.

El término "usar" tiene su significado convencional y, como tal, significa emplear, por ejemplo, poner en servicio, un método o composición para lograr un fin. Por ejemplo, si se utiliza un programa para crear un archivo, se ejecuta un programa para crear un archivo, el archivo suele ser la salida del programa. En otro ejemplo, si se usa un archivo de ordenador, generalmente se accede a él, se lee y la información almacenada en el archivo se emplea para lograr un fin. De manera similar, si se usa un identificador único, por ejemplo, un código de barras, el identificador único generalmente se lee para identificar, por ejemplo, un objeto o archivo asociado con el identificador único.

El término "ligadura", como se usa en este documento, se refiere a la unión catalizada enzimáticamente del nucleótido terminal en el extremo 5' de una primera molécula de ADN al nucleótido terminal en el extremo 3' de una segunda molécula de ADN.

Una "pluralidad" contiene al menos 2 miembros. En ciertos casos, una pluralidad puede tener al menos 10, al menos 100, al menos 1.000, al menos 10.000, al menos 100.000, al menos 106, al menos 107, al menos 108 o al menos 109 o más miembros.

Si dos ácidos nucleicos son "complementarios", cada base de uno de los ácidos nucleicos empareja sus bases con los nucleótidos correspondientes en el otro ácido nucleico. No es necesario que dos ácidos nucleicos sean perfectamente complementarios para hibridar entre sí.

El término "separar", como se usa en este documento, se refiere a la separación física de dos elementos (por ejemplo, por tamaño o afinidad, etc.) así como a la degradación de un elemento, dejando el otro intacto.

El término "secuenciación", como se usa en este documento, se refiere a un método mediante el cual se obtiene la identidad de al menos 10 nucleótidos consecutivos (por ejemplo, la identidad de al menos 20, al menos 50, al menos 100 o al menos 200 o más nucleótidos consecutivos) de un polinucleótido.

Los términos "secuenciación de próxima generación" o "secuenciación de alto rendimiento", como se usan en este documento, se refieren a las llamadas plataformas de secuenciación por síntesis o secuenciación por ligación en paralelo empleadas actualmente por Illumina, Life Technologies, y Roche, etc. Los métodos de secuenciación de próxima generación también pueden incluir métodos de secuenciación de nanoporos tales como los comercializados por Oxford Nanopore Technologies, métodos basados en detección electrónica tales como la tecnología Ion Torrent comercializada por Life Technologies, o métodos basados en fluorescencia de molécula única tales como el comercializado por Pacific Biosciences.

El término "secuenciación de próxima generación" se refiere a las llamadas plataformas de secuenciación por síntesis o secuenciación por ligación en paralelo empleadas actualmente por Illumina, Life Technologies y Roche, etc. Los métodos de secuenciación de próxima generación también pueden incluir métodos de secuenciación de nanoporos o métodos basados en la detección electrónica, tales como la tecnología Ion Torrent comercializada por Life Technologies.

El término "adaptador" se refiere a un ácido nucleico que es ligable a ambas cadenas de una molécula de ADN de cadena doble. En una realización, un adaptador puede ser un adaptador de horquilla (es decir, una molécula que puede emparejar sus propias bases para formar una estructura que tiene un vástago bicatenario y un bucle, en los que los extremos 3' y 5' de la molécula se ligan a los extremos 5' y 3' de la molécula de ADN bicatenario, respectivamente). En otra realización, un adaptador puede ser un adaptador en Y. En otra realización, un adaptador puede estar compuesto por sí mismo de dos moléculas de oligonucleótidos distintas que están emparejadas entre sí. Como resultará evidente, un extremo ligable de un adaptador puede diseñarse para que sea compatible con los salientes hechos por escisión por una enzima de restricción, o puede tener extremos romos o una saliente T en 5'. El término "adaptador" se refiere a moléculas bicatenarias y monocatenarias. Un adaptador puede ser ADN o ARN, o una mezcla de los dos. Un adaptador que contiene ARN puede escindirse mediante tratamiento con RNasa o mediante hidrólisis alcalina. Un adaptador puede tener de 15 a 100 bases, por ejemplo, de 50 a 70 bases, aunque se prevén adaptadores fuera de este intervalo.

El término "ligado a adaptador', como se usa en este documento, se refiere a un ácido nucleico que se ha ligado a un adaptador. El adaptador se puede ligar a un extremo 5' y/o un extremo 3' de una molécula de ácido nucleico.

El término "adaptador asimétrico", como se usa en el presente documento, se refiere a un adaptador que, cuando se liga a ambos extremos de un fragmento de ácido nucleico bicatenario, conducirá a una cadena superior que contiene una secuencia de etiqueta 5' que no es la misma o complementaria a la secuencia de la etiqueta en el extremo 3' . Se describen ejemplos de adaptadores asimétricos en: las patentes de los Estados Unidos Nos. 5.712.126 y 6.372.434 y el documento WO/2009/032167. Un fragmento etiquetado asimétricamente puede amplificarse mediante dos cebadores: uno que se hibrida con una primera secuencia de etiqueta agregada al extremo 3' de una cadena, y otro que se hibrida con el complemento de una segunda secuencia de etiqueta agregada al extremo 5' de una cadena. Los adaptadores en Y y los adaptadores de horquilla (que se pueden escindir, después de la ligadura, para producir un "adaptador en Y") son ejemplos de adaptadores asimétricos.

El término "adaptador en Y" se refiere a un adaptador que contiene: una región bicatenaria y una región monocatenaria en las que las secuencias opuestas no son complementarias. El extremo de la región bicatenaria se puede unir a moléculas diana tales como fragmentos bicatenarios de ADN genómico, por ejemplo, mediante ligación o una reacción catalizada por transposasa. Cada cadena de un ADN bicatenario etiquetado con adaptador que se ha ligado a un adaptador en Y está etiquetada asimétricamente porque tiene la secuencia de una cadena del adaptador en Y en un extremo y la otra cadena del adaptador en Y en el otro extremo. La amplificación de moléculas de ácido nucleico que se han unido a adaptadores en Y en ambos extremos da como resultado un ácido nucleico etiquetado asimétricamente, es decir, un ácido nucleico que tiene un extremo 5' que contiene una secuencia de etiqueta y un extremo 3' que tiene otra secuencia de etiqueta.

El término "adaptador de horquilla" se refiere a un adaptador que tiene forma de horquilla. En una realización, después de la ligadura, el bucle de horquilla se puede escindir para producir cadenas que tienen etiquetas no complementarias en los extremos. En algunos casos, el bucle de un adaptador de horquilla puede contener un residuo de uracilo y el bucle se puede escindir utilizando glicosilasa para el uracilo de ADN y endonucleasa VIII, aunque se conocen otros métodos.

El término "muestra ligada al adaptador", como se usa en este documento, se refiere a una muestra que se ha ligado a un adaptador. Como se entenderá dadas las definiciones anteriores, una muestra que se ha ligado a un adaptador asimétrico contiene cadenas que tienen secuencias no complementarias en los extremos 5' y 3'.

Un "sitio de unión de oligonucleótidos" se refiere a un sitio con el que un oligonucleótido se hibrida en un polinucleótido diana. Si un oligonucleótido "proporciona" un sitio de unión para un cebador, entonces el cebador puede hibridar con ese oligonucleótido o su complemento.

El término "cadena", como se usa en este documento, se refiere a un ácido nucleico formado por nucleótidos unidos covalentemente entre sí por enlaces covalentes, por ejemplo, enlaces fosfodiéster. En una célula, el ADN existe habitualmente en forma de doble cadena y, como tal, tiene dos cadenas complementarias de ácido nucleico denominadas en el presente documento cadenas "superior" e "inferior". En ciertos casos, las cadenas complementarias de una región cromosómica pueden denominarse cadenas "más" y "menos", las cadenas "primera" y "segunda", las cadenas "codificantes" y "no codificantes", las cadenas de "Watson" y "Crick" o las cadenas "sentido" y "antisentido". La asignación de una cadena como cadena superior o inferior es arbitraria y no implica ninguna orientación, función o estructura particular. Las secuencias de nucleótidos de la primera cadena de varios ejemplos de regiones cromosómicas de mamíferos (por ejemplo, BAC, ensamblajes, cromosomas, etc.) son conocidas y pueden encontrarse, por ejemplo, en la base de datos del GenBank del NCBI.

El término "etiquetado", como se usa en el presente documento, se refiere a la adición de una etiqueta de secuencia (que contiene una secuencia de identificación) en una molécula de ácido nucleico. Puede añadirse una etiqueta de secuencia al extremo 5', al extremo 3' o ambos extremos de la molécula de ácido nucleico. Puede añadirse una etiqueta de secuencia a un fragmento ligando un adaptador al fragmento mediante, por ejemplo, ADN ligasa T4 u otra ligasa.

El término "código de barras molecular' abarca tanto las secuencias de identificación de la muestra como las secuencias de identificación de la molécula, como se describe a continuación. En algunas realizaciones, un código de barras molecular puede tener una longitud en el intervalo de 1 a 36 nucleótidos, por ejemplo, de 6 a 30 nucleótidos, o de 8 a 20 nucleótidos. En ciertos casos, la secuencia del identificador molecular puede corregir errores, lo que significa que incluso si hay un error (por ejemplo, si la secuencia del código de barras molecular está mal sintetizada, mal interpretada o distorsionada en virtud de las diversas etapas de procesamiento que conducen a la determinación de la secuencia del código de barras molecular), entonces el código aún se puede interpretar correctamente. Se pueden encontrar descripciones de ejemplos de secuencias de corrección de errores a lo largo de la bibliografía (por ejemplo, documentos US20100323348 y US20090105959). En algunas realizaciones, una secuencia de identificación puede ser de complejidad relativamente baja (por ejemplo, puede estar compuesta por una mezcla de 4 a 1024 secuencias diferentes), aunque en algunos casos se pueden usar secuencias de identificación de mayor complejidad.

El término "secuencia de identificación de muestra" e "índice de muestra" es una secuencia de nucleótidos que se adjunta a un polinucleótido diana, cuando la secuencia identifica la fuente del polinucleótido diana (es decir, la muestra de la cual se deriva el polinucleótido diana). En uso, cada muestra se etiqueta con una secuencia de identificación de muestra diferente (por ejemplo, se agrega una secuencia a cada muestra, en la que las diferentes muestras se agregan a diferentes secuencias), y las muestras etiquetadas se agrupan. Después de secuenciar la muestra combinada, la secuencia del identificador de muestra se puede utilizar para identificar la fuente de las secuencias. Puede añadirse una secuencia de identificación de muestra al extremo 5' de un polinucleótido o al extremo 3' de un polinucleótido. En ciertos casos, parte de la secuencia del identificador de la muestra puede estar en el extremo 5' de un polinucleótido y el resto de la secuencia de identificación de la muestra puede estar en el extremo 3' del polinucleótido. Cuando los elementos del identificador de la muestra tienen una secuencia en cada extremo, juntas, las secuencias del identificador de la muestra 3' y 5' identifican la muestra. En muchos ejemplos, la secuencia de identificación de la muestra es solo un subconjunto de las bases que se unen a un oligonucleótido diana.

El término "secuencia de identificación de la molécula" es una secuencia de nucleótidos que puede unirse a los fragmentos de ácido nucleico de una muestra de manera que la secuencia de nucleótidos unida, sola o en combinación con otras características de los fragmentos, por ejemplo, sus puntos de ruptura de fragmentación, se pueden usar para distinguir entre las diferentes moléculas de fragmentos en la muestra o una porción de la misma. La complejidad de una población de secuencias de identificación de moléculas usadas en cualquier implementación puede variar dependiendo de una variedad de parámetros, por ejemplo, el número de fragmentos en una muestra y/o la cantidad de muestra que se usa en una etapa posterior. Por ejemplo, en ciertos casos, la secuencia de identificación de la molécula puede ser de baja complejidad (por ejemplo, puede estar compuesta por una mezcla de 8 a 1024 secuencias). En otros casos, la secuencia de identificación de la molécula puede ser de alta complejidad (por ejemplo, puede estar compuesta de 1025 a 1 M o más secuencias). En determinadas realizaciones, una población de secuencias de identificación de moléculas puede comprender una región de base degenerada (DBR) que comprende uno o más (por ejemplo, al menos 2, al menos 3, al menos 4, al menos 5, o 5 a 30 o más) nucleótidos seleccionados de R, Y, S, W, K, M, B, D, H, V, N (como se define por el código IUPAC), o una variante del mismo. Como se describe en el documento US8.741.606, una secuencia de identificación de molécula puede estar formada por secuencias que no son adyacentes. En algunas realizaciones, una población de secuencias de identificación de moléculas puede prepararse mezclando oligonucleótidos de una secuencia definida. En estas realizaciones, la secuencia de identificación de la molécula en cada uno de los oligonucleótidos puede corregir errores. En los métodos descritos en el presente documento, la secuencia de identificación de la molécula puede usarse para distinguir entre los diferentes fragmentos en una porción de una muestra inicial, en la que la porción se ha eliminado de la muestra inicial. Las secuencias de identificación de moléculas pueden usarse junto con otras características de los fragmentos (por ejemplo, las secuencias finales de los fragmentos, que definen los puntos de rompimiento) para distinguir entre los fragmentos.

Como se usa en el presente documento, el término "corresponde a", con referencia a una secuencia leída que corresponde a una cadena particular (por ejemplo, la parte superior o inferior) de un fragmento, se refiere a una secuencia leída derivada de esa cadena o un producto de amplificación de la misma.

El término "enlace covalente" se refiere a la producción de un enlace covalente entre dos moléculas separadas.

Como se usa en este documento, el término "ADN circulante fuera de las células" se refiere al ADN que está circulando en la sangre periférica de un paciente. Las moléculas de ADN en el ADN fuera de las células pueden tener un tamaño medio inferior a 1 kb (por ejemplo, en el intervalo de 50 pb a 500 pb, 80 pb a 400 pb o 100 - 1000 pb), aunque pueden estar presentes fragmentos que tienen un tamaño medio fuera de este intervalo. El ADN fuera de las células puede contener ADN tumoral circulante (ADNtc), es decir, ADN tumoral que circula libremente en la sangre de un paciente con cáncer o ADN fetal circulante (si el sujeto es una mujer embarazada). El ADNfc puede estar muy fragmentado y, en algunos casos, puede tener un tamaño de fragmento medio de aproximadamente 165-250 pb (Newman et al., Nat Med. 201420: 548-54). ADNfc se puede obtener centrifugando sangre completa para eliminar todas las células y luego aislando el ADN del plasma o suero restante. Dichos métodos son bien conocidos (véase, por ejemplo, Lo et al., Am J Hum Genet 1998; 62: 768-75). El ADN circulante fuera de las células es bicatenario, pero se puede convertir en monocatenario por desnaturalización.

Como se usa en este documento, el término "agregar secuencias adaptadoras" se refiere al acto de agregar una secuencia adaptadora al final de los fragmentos en una muestra. Esto se puede hacer rellenando los extremos de los fragmentos usando una polimerasa, agregando una cola A y luego ligando un adaptador que comprende un saliente T sobre los fragmentos con cola A.

Como se usa en el presente documento, el término "glucosa UDP modificada con un grupo quimioselectivo" se refiere a una glucosa UDP que se ha funcionalizado, particularmente en la posición 6-hidroxilo, para incluir un grupo que es capaz de participar en una reacción de cicloadición 1,3 (o "clic"). Dichos grupos incluyen grupos azido y alquinilo (por ejemplo, ciclooctino), aunque se conocen otros (Kolb et al., 2001; Speers y Cravatt, 2004; Sletten y Bertozzi, 2009). UDP-6-N³-Glu es un ejemplo de glucosa UDP modificada con un grupo quimioselectivo, aunque se conocen otros.

Como se usa en este documento, el término "fracción de biotina" se refiere a una etiqueta de afinidad que incluye biotina o un análogo de biotina tal como destiobiotina, oxibiotina, 2-iminobiotina, diaminobiotina, sulfóxido de biotina, biocitina, etc. Las fracciones de biotina se unen a estreptavidina con una afinidad de al menos 10^{' 8}M.

Como se usa en el presente documento, los términos "reacción de cidoadición" y "reacción clic" se describen indistintamente para referirse a una cidoadición 1,3 entre una azida y un alquino para formar un heterociclo de cinco miembros. En algunas realizaciones, el alquino se puede forzar (por ejemplo, en un anillo tal como ciclooctina) y la reacción de cicloadición se puede realizar en condiciones libres de cobre. La dibenzociclooctina (DBCO) y la difluorooctina (DIFO) son ejemplos de alquinos que pueden participar en una reacción de cicloadición sin cobre, aunque se conocen otros grupos. Véase, por ejemplo, Kolb et al., (Drug Discov Today, 2003, 8: 1128-113), Baskin et al., (Proc. Natl. Acad. Sci. 2007 104: 16793-16797) y Sletten et al., (Accounts of Chemical Research, 2011, 44: 666 676), para una revisión de esta química.

Como se usa en este documento, el término "soporte que se une a biotina" se refiere a un soporte (por ejemplo, perlas, que pueden ser magnéticas) que está unido a estreptavidina o avidina, o un equivalente funcional de las mismas.

El término "amplificar", como se usa en este documento, se refiere a generar una o más copias de un ácido nucleico diana, usando el ácido nucleico diana como molde.

El término "copias de fragmentos" se refiere al producto de amplificación, en el que una copia de un fragmento puede ser un complemento inverso de una cadena de un fragmento, o tener la misma secuencia que una cadena de un fragmento.

Los términos "enriquecer" y "enriquecimiento" se refieren a una purificación parcial de analitos que tienen una determinada característica (por ejemplo, ácidos nucleicos que contienen hidroximetilcitosina) de analitos que no tienen la característica (por ejemplo, ácidos nucleicos que contienen hidroximetilcitosina). El enriquecimiento aumenta típicamente la concentración de los analitos que tienen la característica (por ejemplo, ácidos nucleicos que contienen hidroximetilcitosina) al menos 2 veces, al menos 5 veces o al menos 10 veces en relación con los analitos que no tienen la característica. Después del enriquecimiento, al menos el 10%, al menos el 20%, al menos el 50%, al menos el 80% o al menos el 90% de los analitos en una muestra pueden tener la característica utilizada para el enriquecimiento. Por ejemplo, al menos el 10%, al menos el 20%, al menos el 50%, al menos el 80% o al menos el 90% de las moléculas de ácido nucleico en una composición enriquecida pueden contener una cadena que tiene una o más hidroximetilcitosinas que se han modificado para contener una etiqueta de captura.

Pueden aparecer otras definiciones de términos a lo largo de la memoria descriptiva.

Descripción de ejemplos de realizaciones

En el presente documento se proporciona un método de secuenciación de ADN hidroximetilado fuera de las células. En algunas realizaciones, el método comprende añadir una etiqueta de afinidad sólo a moléculas de ADN hidroximetiladas en una muestra de ADNfc, enriqueciendo las moléculas de ADN que están etiquetadas con la etiqueta de afinidad; y secuenciando las moléculas de a Dn enriquecidas.

La Figura 1A muestra una implementación del método. En ciertas realizaciones y con referencia a la Figura 1A, el método puede comprender: (a) agregar secuencias adaptadoras en los extremos del ADN fuera de las células (ADNfc), (b) incubar el ADNfc ligado al adaptador con una ADN p-glucosiltransferasa y glucosa UDP modificada con un grupo quimioselectivo, marcando así covalentemente las moléculas de ADN hidroximetilado en el ADNfc con el grupo quimioselectivo; (c) unir una fracción de biotina al ADNfc quimioselectivamente modificado mediante una reacción de cicloadición; (d) enriquecer las moléculas de ADN biotinilado mediante la unión del producto de la etapa de marcado con biotina (etapa c) a un soporte que se une a la biotina; (e) amplificar el ADN enriquecido usando cebadores que se unen a los adaptadores; y (f) secuenciar el ADN amplificado para producir una pluralidad de lecturas de secuencia.

Como se muestra en la Figura 1A, en algunas realizaciones, el método no comprende liberar las moléculas de ADN biotinilado del soporte antes de la amplificación (es decir, después de la etapa (d), antes de la etapa (e)) y, como tal, en algunas realizaciones, la etapa de amplificación (d) puede comprender amplificar el ADN enriquecido mientras está unido al soporte de (c). Esto puede implementarse mediante: i. lavado del soporte de (d) después de que las moléculas de ADN biotinilado se hayan unido al soporte; y luego ii. establecer una reacción de amplificación que contiene el soporte, sin liberar las moléculas de ADN biotinilado del soporte.

También como se muestra en la Figura 1A, la etapa (a) puede implementarse ligando el ADN a un adaptador universal, es decir, un adaptador que se liga a ambos extremos de los fragmentos de ADNfc. En ciertos casos, el adaptador universal se puede hacer ligando un adaptador Y (o adaptador de horquilla) en los extremos del ADNfc, produciendo así una molécula de ADN de doble cadena que tiene una cadena superior que contiene una secuencia de etiqueta 5' que no es la igual o complementaria a la secuencia de la etiqueta añadida el extremo 3' de la cadena. Como debería ser evidente, los fragmentos de ADN utilizados en la etapa inicial del método deben ser ADN no amplificado que no haya sido desnaturalizado de antemano. Como se muestra en la Figura 1A, esta etapa puede requerir pulir (es decir, despuntar) los extremos del ADNfc con una polimerasa, colocar la cola A a los fragmentos usando, por ejemplo, Taq polimerasa, y ligando un adaptador en Y con cola T a los fragmentos con cola A. Esta etapa de ligación inicial se puede realizar en una cantidad limitante de ADNfc. Por ejemplo, ADNfc al que se ligan los adaptadores puede contener menos de 200 ng de ADN, por ejemplo, 10 pg a 200 ng, 100 pg a 200 ng, 1 ng a 200 ng o 5 ng a 50 ng, o menos de 10.000 (por ejemplo, menos de 5.000, menos de 1.000, menos de 500, menos de 100 o menos de 10) equivalentes del genoma haploide, dependiendo del genoma. En algunas realizaciones, el método se realiza utilizando menos de 50 ng de ADNfc (que corresponde aproximadamente a aproximadamente 5 ml de plasma) o menos de 10 ng de ADNfc, que corresponde aproximadamente a aproximadamente 1 ml de plasma. Por ejemplo, Newman et al., (Nat Med., 2014, 20: 548-54) elaboraron bibliotecas a partir de 7-32 ng de ADNfc aislado de 1-5 ml de plasma. Esto es equivalente a 2.121-9.697 genomas haploides (asumiendo 3,3 pg por genoma haploide). El adaptador ligado al ADNfc puede contener un código de barras molecular para facilitar la multiplexación y el análisis cuantitativo de las moléculas secuenciadas. Específicamente, el adaptador puede estar "indexado" porque contiene un código de barras molecular que identifica la muestra a la que se ligó (lo que permite agrupar las muestras antes de la secuenciación). Alternativamente o, además, el adaptador puede contener un código de barras aleatorio o similar. Dicho adaptador puede ligarse a los fragmentos y sustancialmente cada fragmento correspondiente a una región particular se marca con una secuencia diferente. Esto permite la identificación de duplicados de PCR y permite el recuento de moléculas.

En la siguiente etapa de esta implementación del método, las moléculas de ADN hidroximetilado en el ADNfc se marcan con un grupo quimioselectivo, es decir, un grupo que puede participar en una reacción clic. Esta etapa se puede realizar incubando el ADNfc ligado al adaptador con ADN p-glucosiltransferasa (por ejemplo, a Dn pglucosiltransferasa T4 (que está disponible comercialmente a través de diversos proveedores), aunque existen otras ADN p-glucosiltransferasas) y, por ejemplo, UDP-6-N³-Glu (es decir, glucosa UDP que contiene una azida). Esta etapa se puede realizar usando un protocolo adaptado de US20110301045 o Song et al., (Nat. Biotechnol. 2011 29: 68-72), por ejemplo.

La siguiente etapa de esta implementación del método implica la adición de una fracción de biotina al ADN modificado quimioselectivamente mediante una reacción de cicloadición (clic). Esta etapa se puede realizar añadiendo directamente un reactivo biotinilado, por ejemplo, una biotina modificada con dibenzociclooctina a la reacción de glucosiltransferasa después de que se haya completado esa reacción, es decir, después de una cantidad de tiempo apropiada (por ejemplo, después de 30 minutos o más). En algunas realizaciones, el reactivo biotinilado puede ser de fórmula general B-L-X, en la que B es una fracción de biotina, L es un enlazador y X es un grupo que reacciona con el grupo quimioselectivo añadido al ADNfc mediante una reacción de cicloadición. En ciertos casos, el enlazador puede hacer que el compuesto sea más soluble en un entorno acuoso y, como tal, puede contener un enlazador de polietilenglicol (PEG) o un equivalente del mismo. En algunas realizaciones, el compuesto añadido puede ser dibenzociclooctina-PEGⁿ-biotina, en el que N es 2-10, por ejemplo, 4. La dibenzociclooctina-PEG⁴-biotina es relativamente hidrófila y es soluble en tampón acuoso hasta una concentración de 0,35 mM. El compuesto añadido en esta etapa no necesita contener un enlace escindible, por ejemplo, no contiene un enlace disulfuro o similar. En esta etapa, la reacción de cicloadición puede ser entre un grupo azido añadido al ADNfc hidroximetilado y un grupo alquinilo (por ejemplo, grupo dibenzociclooctina) que está unido a la refracción de biotina. Nuevamente, esta etapa se puede realizar usando un protocolo adaptado del documento US20110301045 o Song et al, (Nat. Biotechnol. 2011 29: 68 72), por ejemplo.

La etapa de enriquecimiento del método puede realizarse usando perlas magnéticas de estreptavidina, aunque podrían usarse otros soportes. Como se señaló anteriormente, las moléculas de ADNfc enriquecidas (que corresponden a las moléculas de ADNfc hidroximetiladas) se amplifican mediante PCR y luego se secuencian.

En estas realizaciones, la muestra de ADN enriquecida puede amplificarse usando uno o más cebadores que hibridan con los adaptadores añadidos (o sus complementos). En las realizaciones en las que se añaden adaptadores en Y, los ácidos nucleicos ligados al adaptador se pueden amplificar mediante PCR utilizando dos cebadores: un primer cebador que hibrida con la región monocatenaria de la cadena superior del adaptador y un segundo cebador que hibrida con el complemento de la región monocatenaria de la cadena inferior del adaptador en Y (o adaptador de horquilla, después de la escisión del bucle). Por ejemplo, en algunas realizaciones, el adaptador en Y utilizado puede tener brazos P5 y P7 (cuyas secuencias son compatibles con la plataforma de secuenciación de Illumina) y los productos de amplificación tendrán la secuencia P5 en uno y la secuencia P7 en el otro. Estos productos de amplificación se pueden hibridar con un sustrato de secuenciación de Illumina y secuenciarse. En otra realización, el par de cebadores usados para la amplificación puede tener extremos 3' que hibridan con el adaptador en Y y colas 5' que tienen la secuencia P5 o la secuencia P7. En esta realización, los productos de amplificación también tendrán la secuencia P5 en uno y la secuencia P7 en el otro. Estos productos de amplificación se pueden hibridar con un sustrato de secuenciación de Illumina y secuenciarse. Esta etapa de amplificación puede realizarse mediante PCR de ciclo limitado (por ejemplo, 5-20 ciclos).

La etapa de secuenciación puede realizarse usando cualquier método de secuenciación conveniente de próxima generación y puede resultar en al menos 10.000, al menos 50.000, al menos 100.000, al menos 500.000, al menos 1 M al menos 10 M al menos 100 M o al menos 1B lecturas de secuencia. En algunos casos, las lecturas son lecturas de extremo emparejado. Como sería evidente, los cebadores utilizados para la amplificación pueden ser compatibles con el uso en cualquier plataforma de secuenciación de próxima generación en la que se utilice la extensión de cebadores, por ejemplo, el método de terminación reversible de Illumina, el método de pirosecuenciación de Roche (454), la secuenciación por ligación de Life Technologies (la Plataforma SOLiD), la plataforma Ion Torrent de Life Technologies o el método de escisión de base fluorescente de Pacific Biosciences. Se describen ejemplos de tales métodos en las siguientes referencias: Margulies et al., (Nature 2005, 437: 376-80); Ronaghi et al., (Analytical Biochemistry 1996, 242: 84-9); Shendure (Science, 2005, 309: 1728); Imelfort et al., (Brief Bioinform., 2009, 10: 609 18); Fox et al., (Methods Mol Biol. 2009; 553: 79-108); Appleby et al., (Methods Mol Biol. 2009; 513: 19-39) English (PLoS One. 2012, 7: e47768) y Morozova (Genomics. 2008, 92: 255-64).

En determinadas realizaciones, la muestra secuenciada puede comprender un conjunto de moléculas de ADN de una pluralidad de muestras, en las que los ácidos nucleicos de la muestra tienen un código de barras molecular para indicar su origen. En algunas realizaciones, los ácidos nucleicos que se analizan pueden derivarse de una sola fuente (por ejemplo, un solo organismo, virus, tejido, célula, sujeto, etc.), mientras que, en otras realizaciones, la muestra de ácido nucleico puede ser un conjunto de ácidos nucleicos extraídos de una pluralidad de fuentes (por ejemplo, un conjunto de ácidos nucleicos de una pluralidad de organismos, tejidos, células, sujetos, etc.), en las que por "pluralidad" se entiende dos o más. Como tal, en ciertas realizaciones, una muestra de ácido nucleico puede contener ácidos nucleicos de 2 o más fuentes, 3 o más fuentes, 5 o más fuentes, 10 o más fuentes, 50 o más fuentes, 100 o más fuentes, 500 o más fuentes, 1.000 o más fuentes, 5.000 o más fuentes, hasta e incluyendo aproximadamente 10.000 o más fuentes. Los códigos de barras moleculares pueden permitir distinguir las secuencias de diferentes fuentes después de su análisis.

Las lecturas de secuencia pueden ser analizadas por un ordenador y, como tal, las instrucciones para realizar las etapas que se exponen a continuación pueden exponerse como programación que puede grabarse en un medio de almacenamiento físico adecuado legible por ordenador.

En algunas realizaciones, las lecturas de secuencia se pueden analizar para proporcionar una determinación cuantitativa de qué secuencias están hidroximetiladas en el ADNfc. Esto se puede hacer, por ejemplo, contando las lecturas de secuencia o, alternativamente, contando el número de moléculas iniciales originales, antes de la amplificación, basándose en su punto de ruptura de fragmentación y/o si contienen la misma secuencia indexadora. Se conoce el uso de códigos de barras moleculares junto con otras características de los fragmentos (por ejemplo, las secuencias finales de los fragmentos, que definen los puntos de rompimiento) para distinguir entre los fragmentos. Los códigos de barras moleculares y los ejemplos de métodos para contar moléculas individuales se describen en Casbon (Nucl. Acids Res. 2011, 22 e81) y Fu et al (Proc Natl Acad Sci U S A. 2011, 108: 9026-31), entre otros. Los códigos de barras moleculares se describen en los documentos US 2015/0044687, US 2015/0024950, US 2014/0227705, US 8.835.358 y US 7.537.897, así como una variedad de otras publicaciones.

En determinadas realizaciones, se pueden comparar dos muestras de ADNfc diferentes usando los métodos anteriores. Las diferentes muestras pueden estar compuestas por una muestra "experimental", es decir, una muestra de ADNfc de interés, y una muestra de ADNfc de "control" con la que se puede comparar la muestra de ADNfc experimental. En muchas realizaciones, las diferentes muestras se obtienen de sujetos, siendo un sujeto un sujeto de interés, por ejemplo, un paciente con una enfermedad, y el otro un sujeto de control, un paciente que no tiene la enfermedad. Los ejemplos de pares de muestras incluyen, por ejemplo, ADNfc de un sujeto que tiene una enfermedad tal como cáncer de colon, mama, próstata, pulmón, piel o infectado con un patógeno, etc.) y ADNfc de sujetos normales que no tienen la enfermedad, y ADNfc desde dos puntos de tiempo diferentes del mismo sujeto, por ejemplo, antes y después de la administración de una terapia, etc.

También se proporciona un método para identificar un patrón de hidroximetilación que se correlaciona con el fenotipo, por ejemplo, una enfermedad, afección o resultado clínico, etc. En algunas realizaciones, este método puede comprender (a) realizar el método descrito anteriormente en una pluralidad de muestras de ADNfc, en el que las muestras de ADNfc se aíslan de pacientes que tienen un fenotipo conocido, por ejemplo, enfermedad, afección o resultado clínico, determinando de ese modo qué secuencias están hidroximetiladas en ADNfc de cada uno de los pacientes; y (b) identificar una firma de hidroximetilación que está correlacionada con el fenotipo.

En algunas realizaciones, la firma de hidroximetilación puede ser diagnóstica (por ejemplo, puede proporcionar un diagnóstico de una enfermedad o afección o el tipo o etapa de una enfermedad o afección, etc.), pronóstico (por ejemplo, indicando un resultado clínico, por ejemplo, supervivencia o muerte dentro de un período de tiempo) o teranóstico (por ejemplo, indicando qué tratamiento sería el más efectivo).

También se proporciona un método para analizar una muestra de un paciente. En esta realización, el método puede comprender: (a) identificar, usando el método descrito anteriormente, secuencias que están hidroximetiladas en el ADNfc de un paciente; (b) comparar las secuencias identificadas con un conjunto de secuencias distintivas que están correlacionadas con un fenotipo, por ejemplo, una enfermedad, afección o resultado clínico, etc.; y (c) proporcionar un informe que indique una correlación con el fenotipo. Esta realización puede comprender además hacer un diagnóstico, pronóstico o teranóstico con base en los resultados de la comparación.

En algunas realizaciones, el método puede implicar la creación de un informe como se describió anteriormente (un formulario electrónico el cual pudo haber sido enviado desde una ubicación remota) y reenviar el informe a un médico u otro profesional médico para determinar si un paciente tiene un fenotipo (por ejemplo, cáncer, etc.) o para identificar una terapia adecuada para el paciente. El informe puede usarse como diagnóstico para determinar si el sujeto tiene una enfermedad o afección, por ejemplo, un cáncer. En ciertas realizaciones, el método puede usarse para determinar el estadio o el tipo de cáncer, para identificar células metastásicas o para controlar la respuesta de un paciente a un tratamiento, por ejemplo.

En cualquier realización, el informe puede enviarse a una "ubicación remota", en la que "ubicación remota" significa una ubicación diferente a la ubicación en la que se examina la imagen. Por ejemplo, una ubicación remota podría ser otra ubicación (por ejemplo, oficina, laboratorio, etc.) en la misma ciudad, otra ubicación en una ciudad diferente, otra ubicación en un estado diferente, otra ubicación en un país diferente, etc. Como tal, cuando se indica que un elemento está "alejado" de otro, lo que se quiere decir es que los dos elementos pueden estar en la misma habitación, pero separados, o al menos en habitaciones diferentes o edificios diferentes, y pueden estar al menos a una milla, diez millas, o al menos a cien millas de distancia. La información de "comunicación" hace referencia a la transmisión de los datos que representan esa información como señales eléctricas sobre un canal de comunicación adecuado (por ejemplo, una red pública o privada). "Reenviar" un elemento se refiere a cualquier medio de llevar ese elemento de un lugar a otro, ya sea transportando físicamente ese elemento o bien (cuando sea posible) e incluye, al menos en el caso de datos, transportar físicamente un medio que lleve los datos o comunicar los datos. Los ejemplos de medios de comunicación incluyen canales de transmisión de radio o infrarrojos, así como una conexión de red a otro ordenador o dispositivo en red, e internet o incluyendo transmisiones de correo electrónico e información registrada en sitios web y similares. En determinadas realizaciones, el informe puede ser analizado por un médico u otro profesional médico calificado, y un informe basado en los resultados del análisis de la imagen puede enviarse al paciente del que se obtuvo la muestra.

También se proporciona un método para analizar una muestra que comprende (a) determinar, usando el método descrito anteriormente, qué secuencias están hidroximetiladas en una primera muestra de ADNfc y qué secuencias están hidroximetiladas en la segunda muestra de ADNfc, en el que la primera y segundas muestras de ADNfc se obtienen del mismo paciente en dos momentos diferentes; y (b) comparar el patrón de hidroximetilación de la primera muestra con el patrón de hidroximetilación de la segunda muestra para determinar si ha habido un cambio en la hidroximetilación a lo largo del tiempo. Este método puede ser cuantitativo y, en algunas realizaciones, la etapa de comparación (b) puede comprender comparar el nivel de hidroximetilación de una o más secuencias seleccionadas. La etapa de comparación de este método puede mapear los cambios en la hidroximetilación en el curso de una enfermedad, afección o tratamiento de una enfermedad o afección.

El fenotipo de un paciente puede ser cualquier característica o rasgo observable de un sujeto, tal como una enfermedad o afección, una etapa de enfermedad o etapa de afección, susceptibilidad a una enfermedad o afección, pronóstico de una etapa de enfermedad o afección, un estado fisiológico o respuesta a compuestos terapéuticos, etc. Un fenotipo puede resultar de la expresión génica de un sujeto, así como de la influencia de factores ambientales y las interacciones entre los dos, así como de modificaciones epigenéticas en secuencias de ácidos nucleicos.

El fenotipo en un sujeto se puede caracterizar analizando ADNfc usando el método descrito anteriormente. Por ejemplo, caracterizar un fenotipo para un sujeto o individuo puede incluir detectar una enfermedad o afección (incluida la detección presintomática de la etapa temprana), determinar el pronóstico, diagnóstico o teranosis de una enfermedad o afección, o determinar la etapa o progresión de una enfermedad o afección. Caracterizar un fenotipo también puede incluir la identificación de tratamientos apropiados o la eficacia del tratamiento para enfermedades, afecciones, etapas de la enfermedad y etapas de la afección específicas, predicciones y análisis de probabilidad de la progresión de la enfermedad, en particular, la recurrencia de la enfermedad, la diseminación metastásica o la recaída de la enfermedad. Un fenotipo también puede ser un tipo o subtipo clínicamente distinto de una afección o enfermedad, tal como un cáncer o un tumor. La determinación del fenotipo también puede ser una determinación de una condición fisiológica, o una evaluación del daño orgánico o el rechazo de un órgano, tal como después de un trasplante. Los productos y procesos descritos en este documento permiten la evaluación de un sujeto de forma individual, lo que puede proporcionar beneficios de decisiones de tratamiento más eficientes y económicas.

En algunas realizaciones, el método puede usarse para identificar una firma que predice si es probable que un sujeto responda a un tratamiento para una enfermedad o trastorno.

La caracterización de un fenotipo puede incluir predecir el estado de respuesta/no respuesta del sujeto, en la que el sujeto responde a un tratamiento para una enfermedad y no responde al tratamiento. Si una firma de hidroximetilación en un sujeto se alinea más estrechamente con la de sujetos anteriores que se sabía que respondían al tratamiento, el sujeto puede caracterizarse, o predecirse, como que responde al tratamiento. De manera similar, si la firma de hidroximetilación en el sujeto se alinea más estrechamente con la de sujetos previos que no respondieron al tratamiento, el sujeto puede caracterizarse o predecirse como que no responde al tratamiento. El tratamiento puede ser para cualquier enfermedad, trastorno u otra condición apropiada. El método se puede utilizar en cualquier entorno de enfermedad en el que se conozca una firma de hidroximetilación que se correlaciona con el estado de respuesta/no respuesta.

En algunas realizaciones, el fenotipo comprende una enfermedad o afección como las que se enumeran a continuación. Por ejemplo, el fenotipo puede comprender la presencia o la probabilidad de desarrollar un tumor, neoplasia o cáncer. Un cáncer detectado o evaluado por productos o procesos descritos en este documento incluye, pero no se limita a, cáncer de mama, cáncer de ovario, cáncer de pulmón, cáncer de colon, pólipo hiperplásico, adenoma, cáncer colorrectal, displasia de alto grado, displasia de bajo grado, hiperplasia prostética, cáncer de próstata, melanoma, cáncer de páncreas, cáncer de cerebro (tal como un glioblastoma), neoplasia maligna hematológica, carcinoma hepatocelular, cáncer de cuello uterino, cáncer de endometrio, cáncer de cabeza y cuello, cáncer de esófago, tumor del estroma gastrointestinal (GIST), carcinoma de células renales (RCC) o cáncer gástrico. El cáncer colorrectal puede ser CRC Dukes B o Dukes C-D. La neoplasia maligna hematológica puede ser leucemia linfocítica crónica de células B, linfoma de células B-DLBCL, linfoma de células B-DLBCL-como centro germinal, linfoma de células B-DLBCL-como células B activadas y linfoma de Burkitt.

En algunas realizaciones, el fenotipo puede ser una afección premaligna, tal como queratosis actínica, gastritis atrófica, leucoplaquia, eritroplasia, granulomatosis linfomatoide, preleucemia, fibrosis, displasia cervical, displasia cervical uterina, xeroderma pigmentoso, esófago de Barrett, pólipo colorrectal u otro crecimiento de tejido anormal o lesión que probablemente se convierta en un tumor maligno. Las infecciones virales transformadoras tales como el VIH y el VPH también presentan fenotipos que pueden evaluarse de acuerdo con el método.

El cáncer caracterizado por el presente método puede ser, sin limitación, un carcinoma, un sarcoma, un linfoma o leucemia, un tumor de células germinales, un blastoma u otros cánceres. Los carcinomas incluyen, sin limitación, neoplasias epiteliales, neoplasias de células escamosas, carcinoma de células escamosas, neoplasias de células basales, carcinoma de células basales, papilomas y carcinomas de células de transición, adenomas y adenocarcinomas (glándulas), adenoma, adenocarcinoma, insulinoma de linitis plástica, glucagonoma, gastrinoma, vipoma colangiocarcinoma, carcinoma hepatocelular, carcinoma quístico adenoide, tumor carcinoide de apéndice, prolactinoma, oncocitoma, adenoma de células de Hurthle, carcinoma de células renales, tumor de Grawitz, adenomas endocrinos múltiples, adenoma endometrioide, neoplasias de anexos y apéndices cutáneos, neoplasias mucoepidermoides, neoplasias cística, mucinosa y serosa, cistadenoma, pseudomixoma del peritoneo, neoplasias ductal, lobular y medular, neoplasias de células acinares, neoplasias epiteliales complejas, tumor de Warthin, timoma, neoplasias gonadales especializadas, tumor del estroma del cordón sexual, tecoma, tumor de células de la granulosa, arrenoblastoma, tumor de células de Sertoli Leydig, tumores glómicos, paraganglioma, feocromocitoma, tumor glómico, nevos y melanomas, nevo melanocítico, melanoma maligno, melanoma, melanoma nodular, nevo displásico, melanoma lentigo maligno, melanoma de extensión superficial y melanoma lentiginoso acral maligno. El sarcoma incluye, sin limitación, tumor de Askin, botryodies, condrosarcoma, sarcoma de Ewing, hemangioendotelioma maligno, schwannoma maligno, osteosarcoma, sarcomas de tejidos blandos que incluyen: sarcoma alveolar de partes blandas, angiosarcoma, filodes de cistosarcoma, dermatofibrosarcoma, tumor desmoide, tumor de células redondas pequeñas desmoplásicas, sarcoma epiteloide, condrosarcoma extraesquelético, osteosarcoma extraesquelético, fibrosarcoma, hemangiopericitoma, hemangiosarcoma, sarcoma de Kaposi, leiomiosarcoma, liposarcoma, linfangiosarcoma, linfosarcoma, histiocitoma fibroso maligno, neurofibrosarcoma, rabdomiosarcoma y sinoviosarcoma. El linfoma y la leucemia incluyen, sin limitación, leucemia linfocítica crónica/linfoma de linfocitos pequeños, leucemia prolinfocítica de células B, linfoma linfoplasmocítico (tal como macroglobulinemia de Waldenstrom), linfoma de zona marginal esplénica, mieloma de células plasmáticas, plasmocitoma, enfermedades por deposición de inmunoglobulinas monoclonales, enfermedades de cadena pesada, linfoma de células B de zona marginal extranodal, también llamado linfoma de Malta, linfoma de células B de zona marginal nodal (nmzl), linfoma folicular, linfoma de células del manto, linfoma difuso de células B grandes, linfoma mediastínico (tímico) de células B grandes, linfoma intravascular de células B grandes, linfoma de efusión primaria, linfoma/leucemia de Burkitt, leucemia prolinfocítica de células T, leucemia linfocítica granular grande de células T, leucemia agresiva de células NK, leucemia/linfoma de células T adultas, linfoma extraganglionar de células NK/T, linfoma de células T de tipo enteropatía, de tipo nasal, linfoma de células T hepatoesplénico, linfoma blástico de células NK, micosis fungoide/síndrome de Sézary, trastornos linfoproliferativos de células T, cutáneas primarias positivas para CD30, linfoma anaplásico cutáneo primario de células grandes, papulosis linfomatoide, linfoma angioinmunoblástico de células T, linfoma periférico de células T, linfoma anaplásico de células grandes no especificado, linfomas de Hodgkin clásicos (esclerosis nodular, celularidad mixta, rica en linfocitos agotada no agotada en linfocitos) y linfoma de Hodgkin con predominio de linfocitos nodulares. Los tumores de células germinales incluyen, sin limitación, germinoma, disgerminoma, seminoma, tumor de células germinales no germinomatosas, carcinoma embrionario, tumor endodérmico del seno, coriocarcinoma, teratoma, poliembrioma y gonadoblastoma. El blastoma incluye, sin limitación, nefroblastoma, meduloblastoma y retinoblastoma. Otros cánceres incluyen, sin limitación, carcinoma labial, carcinoma de laringe, carcinoma de hipofaringe, carcinoma de lengua, carcinoma de glándulas salivales, carcinoma gástrico, adenocarcinoma, cáncer de tiroides (carcinoma de tiroides medular y papilar), carcinoma renal, carcinoma de parénquima renal, carcinoma de cuello uterino, carcinoma del cuerpo uterino, carcinoma de endometrio, carcinoma de corion, carcinoma de testículo, carcinoma urinario, melanoma, tumores cerebrales tales como glioblastoma, astrocitoma, meningioma, meduloblastoma y tumores neuroectodérmicos periféricos, carcinoma de vesícula biliar, carcinoma bronquial, mieloma múltiple, basalioma, teratoma, retinoblastoma, melanoma de coroides, seminoma, rabdomiosarcoma, craneofaringeoma, osteosarcoma, condrosarcoma, miosarcoma, liposarcoma, fibrosarcoma, sarcoma de Ewing y plasmocitoma.

En una realización adicional, el cáncer bajo análisis puede ser un cáncer de pulmón que incluye cáncer de pulmón de células no pequeñas y cáncer de pulmón de células pequeñas (incluyendo carcinoma de células pequeñas (cáncer de células de avena), carcinoma mixto de células pequeñas/células grandes y carcinoma combinado de células pequeñas), cáncer de colon, cáncer de mama, cáncer de próstata, cáncer de hígado, cáncer de páncreas, cáncer de cerebro, cáncer de riñón, cáncer de ovario, cáncer de estómago, cáncer de piel, cáncer de huesos, cáncer gástrico, cáncer de mama, cáncer de páncreas, glioma, glioblastoma, carcinoma hepatocelular, carcinoma renal papilar, carcinoma de células escamosas de cabeza y cuello, leucemia, linterna, mieloma o un tumor sólido.

En realizaciones adicionales, el cáncer puede ser una leucemia linfoblástica aguda; leucemia mieloide aguda; carcinoma de la corteza suprarrenal; cánceres relacionados con el SIDA; linfoma relacionado con el SIDA; cáncer anal; cáncer de apéndice; astrocitomas; tumor teratoide/rabdoide atípico; carcinoma de células basales; cáncer de vejiga; glioma de tronco encefálico; tumor cerebral (incluyendo glioma del tronco encefálico, tumor teratoide/rabdoide atípico del sistema nervioso central, tumores embrionarios del sistema nervioso central, astrocitomas, craneofaringioma, ependimoblastoma, ependimoma, meduloblastoma, meduloepitelioma, tumores parenquimatosos pineales de diferenciación intermedia, tumores neuroectodérmicos primitivos supra); cáncer de mama; tumores bronquiales; Linfoma de Burkitt; cáncer de sitio primario desconocido; tumor carcinoide; carcinoma de sitio primario desconocido; tumor teratoide/rabdoide atípico del sistema nervioso central; tumores embrionarios del sistema nervioso central; cáncer de cuello uterino; cánceres infantiles; cordoma, leucemia linfocítica crónica; leucemia mielógena crónica; trastornos mieloproliferativos crónicos; cáncer de colon; cáncer colorrectal; craneofaringioma; linfoma cutáneo de células T; tumores endocrinos de células de los islotes del páncreas; cáncer endometrial; ependimoblastoma; ependimoma; cáncer de esófago; estesioneuroblastoma; sarcoma de Ewing; tumor extracraneal de células germinales; tumor extragonadal de células germinales; cáncer extrahepático del conducto biliar; cáncer de vesícula biliar; cáncer gástrico (estómago); tumor carcinoide gastrointestinal; tumor de células del estroma gastrointestinal; tumor del estroma gastrointestinal (GIST); tumor trofoblástico gestacional; glioma; leucemia de células pilosas; cáncer de cabeza y cuello; cáncer de corazón; linfoma de Hodgkin; cáncer de hipofaringe; melanoma intraocular; tumores de células de los islotes; sarcoma de Kaposi; cáncer de riñón; histiocitosis de células de Langerhans; cáncer de laringe; cáncer de labios; cáncer de hígado; cáncer de hueso de histiocitoma fibroso maligno; meduloblastoma; meduloepitelioma; melanoma; carcinoma de células de Merkel; carcinoma de piel de células de Merkel; mesotelioma; cáncer de cuello escamoso metastásico con primario oculto; cáncer de boca; síndromes de neoplasias endocrinas múltiples; mieloma múltiple; mieloma múltiple/neoplasia de células plasmáticas; micosis fungoide; síndromes mielodisplásicos; neoplasias mieloproliferativas; cáncer de cavidad nasal; cáncer de nasofaringe; neuroblastoma; linfoma no Hodgkin; cáncer de piel no melanoma; cáncer de pulmón de células no pequeñas; cáncer oral; cáncer de cavidad oral; cáncer de orofaringe; osteosarcoma; otros tumores de encéfalo y médula espinal; cáncer de ovarios; cáncer epitelial de ovario; tumor de células germinales de ovario; tumor de ovario de bajo potencial maligno; cáncer de páncreas; papilomatosis; cáncer de seno paranasal; cáncer de paratiroides; cáncer de pelvis; cáncer de pene; cáncer de faringe; tumores del parénquima pineal de diferenciación intermedia; pineoblastoma; tumor pituitario; neoplasia de células plasmáticas/mieloma múltiple; blastoma pleuropulmonar; linfoma primario del sistema nervioso central (SNC); cáncer de hígado hepatocelular primario; cáncer de próstata; cáncer de recto; cáncer de riñón; cáncer de células renales (riñón); cáncer de células renales; cáncer del tracto respiratorio; retinoblastoma; rabdomiosarcoma; cáncer de glándulas salivales; síndrome de Sézary; cáncer de pulmón de células pequeñas; cáncer de intestino delgado; sarcoma de tejidos blandos; carcinoma de células escamosas; cáncer de cuello escamoso; cáncer de estómago (gástrico); tumores neuroectodérmicos primitivos supratentoriales; linfoma de células T; cáncer testicular; cáncer de garganta; carcinoma tímico; timoma; cáncer de tiroides; cáncer de células de transición; cáncer de células de transición de la pelvis renal y el uréter; tumor trofoblástico; cáncer de uréter; cáncer de uretra; cáncer uterino; sarcoma uterino; cáncer de vagina; cáncer de vulva; macroglobulinemia de Waldenstrom; o el tumor de Wilm. Los métodos de la invención pueden usarse para caracterizar estos y otros cánceres. Por lo tanto, caracterizar un fenotipo puede proporcionar un diagnóstico, pronóstico o teranosis de uno de los cánceres divulgados en el presente documento.

El fenotipo también puede ser una enfermedad inflamatoria, una enfermedad inmunitaria o una enfermedad autoinmunitaria. Por ejemplo, la enfermedad puede ser enfermedad inflamatoria intestinal (IBD), enfermedad de Crohn (CD), colitis ulcerosa (UC), inflamación pélvica, vasculitis, psoriasis, diabetes, hepatitis autoinmune, esclerosis múltiple, miastenia grave, diabetes tipo I, artritis reumatoide, psoriasis, lupus eritematoso sistémico (SLE), tiroiditis de Hashimoto, enfermedad de Grave, espondilitis anquilosante, enfermedad de Sjogren, síndrome CREST, esclerodermia, enfermedad reumática, rechazo de órganos, colangitis esclerosante primaria o sepsis.

El fenotipo también puede comprender una enfermedad cardiovascular, tal como aterosclerosis, insuficiencia cardíaca congestiva, placa vulnerable, accidente cerebrovascular o isquemia. La enfermedad o afección cardiovascular puede ser presión arterial alta, estenosis, oclusión de vasos o un evento trombótico.

El fenotipo también puede comprender una enfermedad neurológica, tal como esclerosis múltiple (MS), enfermedad de Parkinson (PD), enfermedad de Alzheimer (AD), esquizofrenia, trastorno bipolar, depresión, autismo, enfermedad priónica, enfermedad de Pick, demencia, enfermedad de Huntington (HD), síndrome de Down, enfermedad cerebrovascular, encefalitis de Rasmussen, meningitis viral, lupus eritematoso sistémico neuropsiquiátrico (NPSLE), esclerosis lateral amiotrófica, enfermedad de Creutzfeldt-Jacob, enfermedad de Gerstmann-Straussler-Scheinker, encefalopatía espongiforme transmisible, daño por reperfusión isquémica (por ejemplo, accidente cerebrovascular), traumatismo cerebral, infección microbiana o síndrome de fatiga crónica. El fenotipo también puede ser una afección tal como fibromialgia, dolor neuropático crónico o dolor neuropático periférico.

El fenotipo también puede comprender una enfermedad infecciosa, tal como una infección bacteriana, viral o por levaduras. Por ejemplo, la enfermedad o afección puede ser enfermedad de Whipple, enfermedad priónica, cirrosis, Staphylococcus aureus resistente a la meticilina, VIH, hepatitis, sífilis, meningitis, malaria, tuberculosis o influenza. Las proteínas virales, tales como partículas similares al VIH o VHC, se pueden evaluar en una vesícula para caracterizar una afección viral.

El fenotipo también puede comprender una afección perinatal o relacionada con el embarazo (por ejemplo, preeclampsia o parto prematuro), enfermedad o afección metabólica, tal como una enfermedad o afección metabólica asociada con el metabolismo del hierro. Por ejemplo, la hepcidina se puede analizar en una vesícula para caracterizar una deficiencia de hierro. La enfermedad o afección metabólica también puede ser diabetes, inflamación o una afección perinatal.

Una "firma" correlativa puede ser un grupo de 1, 2, 3, 4, 5, 6, 7, 8, 9 o 10 o más secuencias que están independientemente subhidroximetiladas o sobrehidroximetiladas con respecto a un control (por ejemplo, ADNfc "normal"), en el que, colectivamente, la identidad de las secuencias y, opcionalmente, la cantidad de hidroximetilación asociada con esas secuencias, se correlaciona con un fenotipo.

El ADNfc usado en el método puede ser de un mamífero tal como animales bovinos, aviares, caninos, equinos, felinos, ovinos, porcinos o primates (incluidos humanos y primates no humanos). En algunas realizaciones, el sujeto puede tener una enfermedad o afección preexistente, tal como cáncer. Alternativamente, el sujeto puede no tener ninguna condición preexistente conocida. El sujeto también puede no responder a un tratamiento existente o pasado, tal como un tratamiento para el cáncer. En algunas realizaciones, el ADNfc puede ser de una mujer embarazada. En algunas realizaciones, el patrón de hidroximetilación en la fracción fetal del ADNfc puede correlacionarse con una anomalía cromosómica en el feto (por ejemplo, una aneuploidía). En otras realizaciones, se puede determinar el sexo del feto a partir del patrón de hidroximetilación en la fracción fetal del ADNfc y/o determinar la fracción fetal del ADNfc.

También se proporciona un método que comprende (a) obtener una muestra que comprende ADN circulante fuera de las células, (b) enriquecer el ADN hidroximetilado en la muestra y (c) cuantificar independientemente la cantidad de ácidos nucleicos en el ADN hidroximetilado enriquecido que se mapea a (es decir, tienen secuencias que corresponden a) cada uno de uno o más loci diana (por ejemplo, al menos 1, al menos 2, al menos 3, al menos 4, al menos 5 o al menos 10 loci diana). Este método puede comprender, además: (d) determinar si una o más secuencias de ácido nucleico en el ADN hidroximetilado enriquecido están sobrerrepresentadas o subrepresentadas en el ADN hidroximetilado enriquecido, con respecto a un control. La identidad de los ácidos nucleicos que están sobrerrepresentados o subrepresentados en el ADN hidroximetilado enriquecido (y, en ciertos casos, el grado en que esos ácidos nucleicos están sobrerrepresentados o subrepresentados en el ADN hidroximetilado enriquecido) se puede utilizar para hacer un diagnóstico, una decisión de tratamiento o un pronóstico. Por ejemplo, en algunos casos, el análisis del ADN hidroximetilado enriquecido puede identificar una firma que se correlaciona con un fenotipo, como se discutió anteriormente. En algunas realizaciones, la cantidad de moléculas de ácido nucleico en el ADN hidroximetilado enriquecido que se asigna a cada uno de uno o más loci diana (por ejemplo, los genes/intervalos enumerados a continuación) pueden cuantificarse mediante qPCR, PCR digital, matrices, secuenciación o cualquier otro método cuantitativo.

En algunas realizaciones, el diagnóstico, la decisión de tratamiento o el pronóstico pueden ser un diagnóstico de cáncer. En estas realizaciones, los loci diana pueden incluir uno o más (por ejemplo, al menos 1, al menos 2, al menos 3, al menos 4, al menos 5, al menos 10, al menos 15 o al menos 20, de los siguientes cuerpos de los genes (es decir, regiones transcritas de un gen): ABRACL, ADAMTS4, AGFG2, ALDH1A3, ALG10B, AMOTL1, APCDD1L-AS1, ARL6IP6, ASF1B, ATP6V0A2, AUNIP, BAGE, C2orf62, C8orf22, CALCB, CC2D1B, CCDC33, CCNL2, CLDN15, COMMD6, CPLX2, CRP, CTRC, DACH1, DAZL, DDX11L1, DHRS3, DUSP26, DUSP28, EPN3, EPPIN-WFDC6, ETAA1, FAM96A, FENDRR, FLJ16779, FLJ31813, GBX1, GLP2R, GMCL1P1, GNPDA2, GPR26, GSTP1, HMOX2, HOXC5, IGSF9B, INSC, INSL4, IRF7, KIF16B, KIF20B, LARS, LDHD, LHX5, LINC00158, LINC00304, LOC100128946, LOC100131234, LOC100132287, LOC100506963, LOC100507250, LOC100507410, LOC255411, LOC729737, MAFF, NPAS4, NRADDP, P2RX2, PAIP1, PAX1, PODXL2, POU4F3, PSMG1, PTPN2, RAG1, RBM14-RBM4, RDH11, RFPL3, RNF122, RNF223, RNF34, SAMD11, SHISA2, SIGLEC10, SLAMF7, SLC25A46, SLC25A47, SLC9A3R2, SORD, SOX18, SPATA31E1, SSR2, STXBP3, SYT11, SYT2, TCEA3, THAP7-AS1, TMEM168, TMEM65, TMX2, TPM4, TPO, TRAM1, TTC24, UBQLN4, WASH7P, ZNF284, ZNF423, ZNF444, ZNF800, ZNF850, y ZRANB2.

Por ejemplo, en algunas realizaciones, la cantidad de ácidos nucleicos que se asignan a cada uno de uno o más (por ejemplo, al menos 1, al menos 2, al menos 3, al menos 4, al menos 5 o al menos 10) de los siguientes cuerpos de los genes: ZNF800, TMEM65, GNPDA2, ALG10B, CLDN15, TMEM168, ETAA1, AMOTL1, STXBP3, ZNF444, LINC00158, IRF7, SLC9A3R2, TRAM1 y SLC25A46 pueden determinarse independientemente, como se muestra en la Figura 12D.

En otro ejemplo, en algunas realizaciones, la cantidad de ácidos nucleicos que se asignan a cada uno de uno o más (por ejemplo, al menos 1, al menos 2, al menos 3, al menos 4, al menos 5 o al menos 10) de los siguientes cuerpos de los genes: CLDN15, SLC25A47, ZRANB2, LOC10050693, STXBP3, GPR26, P2RX2, LOC100507410, LHX5, HOXC5, FAM96A, CALCB, RNF223, SHISA2 y SLAMF7 pueden determinarse independientemente, como se muestra en la Figura 12F.

En estas realizaciones, los loci diana pueden incluir uno o más (por ejemplo, al menos 1, al menos 2, al menos 3, al menos 4, al menos 5, al menos 10 o al menos 15) de los siguientes intervalos (en los que la numeración es relativa al genoma de referencia hg19, publicado como GRCh37 en febrero de 2009): crom1: 114670001-114672000, crom1: 169422001-169424000, crom1: 198222001-198224000, crom1: 239846001-239848000, crom1: 24806001-24808000, crom1: 3234001-3236000, crom1: 37824001-37826000, crom1: 59248001-59250000, crom1: 63972001-63974000, crom1: 67584001-67586000, crom1: 77664001-77666000, crom2: 133888001-133890000, crom2: 137676001 137678000, crom2: 154460001-154462000, crom2: 200922001-200924000, crom2: 213134001-213136000, crom2: 219148001-219150000, crom2: 41780001-41782000, crom2: 49900001-49902000, crom3: 107894001-107896000, crom3: 108506001-108508000, crom3: 137070001-137072000, crom3: 17352001-17354000, crom3: 23318001 23320000, crom3: 87312001-87314000, crom3: 93728001-93730000, crom4: 39342001-39344000, crom4: 90790001 90792000, crom5: 103492001-103494000, crom5: 39530001-39532000, crom5: 83076001-83078000, crom6: 122406001-122408000, crom6: 129198001-129200000, crom6: 156800001-156802000, crom6: 157286001 157288000, crom6: 45304001-45306000, crom7: 11020001-11022000, crom7: 13364001-13366000, crom8: 42934001-42936000, crom8: 53686001-53688000, crom8: 69672001-69674000, crom9: 3496001-3498000 y crom9: 88044001-88046000.

Por ejemplo, en algunas realizaciones, la cantidad de ácidos nucleicos que se asignan a cada uno de uno o más (por ejemplo, al menos 1, al menos 2, al menos 3, al menos 4, al menos 5 o todos) de los siguientes intervalos: crom4: 90790001-90792000, crom6: 45304001-45306000, crom5: 103492001-103494000, crom7: 11020001-11022000, crom2: 49900001-49902000, crom2: 137676001-137678000, crom3: 87312001-87314000, y crom9: 88044001 88046000 pueden determinarse de forma independiente, como se muestra en la Figura 12E.

En otro ejemplo, en algunas realizaciones, la cantidad de ácidos nucleicos que se asignan a cada uno de uno o más (por ejemplo, al menos 1, al menos 2, al menos 3, al menos 4, al menos 5 o todos) de los siguientes intervalos: crom4: 90790001-90792000, crom6: 45304001-45306000, crom1: 169422001-169424000, crom1: 67584001-67586000, crom5: 103492001-103494000, crom3: 87312001-87314000, crom2: 219148001-219150000, crom1: 198222001 198224000, crom8: 53686001-53688000, crom1: 239846001-239848000, crom3: 23318001-23320000, crom6: 122406001-122408000, crom9: 3496001-3498000, crom1: 24806001-24808000, y crom8: 69672001-69674000, como se muestra en la Figura 12G.

Si el diagnóstico es un diagnóstico de cáncer, entonces el diagnóstico puede incluir una indicación del tipo de tejido del cáncer, es decir, si el cáncer es cáncer de pulmón, cáncer de hígado, cáncer de páncreas, etc.

Como resultará evidente, la etapa de cuantificación (c) se puede realizar usando una variedad de métodos diferentes. Por ejemplo, como se describió anteriormente y a continuación, la cuantificación se puede realizar adjuntando secuencias de identificación de moléculas a los fragmentos enriquecidos, secuenciarlos y luego contar el número de secuencias de identificación de moléculas que están asociadas con las lecturas de secuencias que se asignan a uno o más loci. (véase, por ejemplo, el documento US20110160078). Alternativamente, la cuantificación puede realizarse mediante PCR digital (véase, por ejemplo, Kalinina et al, Nucleic Acids Research. 1997, 25 (10): 1999-2004) o hibridación con una matriz, por ejemplo.

En algunas realizaciones, la muestra de ADNfc se puede analizar adicionalmente mediante el método de formación de imágenes descrito en Song et al., (Proc. Natl. Acad. Sci. 2016, 113: 4338-43). En estas realizaciones, el método puede comprender (a) marcar una muestra que comprende el ADNfc: (i) añadiendo una etiqueta de captura a los extremos de las moléculas de ADN en la muestra; y (ii) marcar moléculas que comprenden hidroximetilcitosina con un primer fluoróforo; (b) inmovilizar las moléculas de ADN marcadas preparadas en la etapa (a) sobre un soporte; y (c) formar imágenes de moléculas individuales de ADN hidroximetilado sobre el soporte. En algunas realizaciones, este método puede comprender (d) contar el número de moléculas individuales marcadas con el primer fluoróforo, determinando así el número de moléculas de ADN hidroximetilado en la muestra. En estas realizaciones, el primer fluoróforo de la etapa (a) (ii) se agrega incubando moléculas de ADN con una ADN p-glucosiltransferasa y glucosa UDP modificada con un grupo quimioselectivo, marcando así covalentemente las moléculas de ADN hidroximetilado con el grupo quimioselectivo, y uniendo el primer fluoróforo al ADN modificado quimioselectivamente mediante una reacción de cicloadición. En algunas realizaciones, la etapa (a) (i) puede comprender además añadir un segundo fluoróforo a los extremos de las moléculas de ADN en la muestra. En algunas realizaciones, la etapa (a) puede comprender, además: después de la etapa (ii), (iii) marcar moléculas que comprenden metilcitosina con un segundo fluoróforo; y la etapa (c) comprende además la formación de imágenes de moléculas individuales de ADN metilado sobre el soporte. En estas realizaciones, el método puede comprender (d) contar: (i) el número de moléculas individuales marcadas con el primer fluoróforo y (ii) el número de moléculas individuales marcadas con el segundo fluoróforo. En estas realizaciones, el método puede comprender además (e) calcular las cantidades relativas de ADN hidroximetilado y ADN metilado en la muestra. En algunas realizaciones, las moléculas que comprenden metilcitosina se marcan con el segundo fluoróforo: incubando el producto de la etapa (a) (ii) con una metilcitosina dioxigenasa, convirtiendo así la metilcitosina en hidroximetilcitosina; incubando el a Dn tratado con metilcitosina dioxigenasa con una ADN p-glucosiltransferasa y glucosa UDP modificada con un grupo quimioselectivo, marcando así covalentemente las moléculas de ADN hidroximetilado con el grupo quimioselectivo y uniendo el segundo fluoróforo al ADN modificado quimioselectivamente mediante una reacción de cicloadición.

En este método, la etapa (a) puede comprender, además: iii. marcar moléculas que comprenden metilcitosina con un segundo fluoróforo; y la etapa (c) puede comprender la obtención de imágenes de moléculas individuales de ADN genómico detectando una señal FRET (transferencia de energía por resonancia de fluorescencia) que emana del primer o segundo fluoróforos de (a) (ii) o (a) (iii), en los que una señal FRET indica que una molécula tiene una hidroximetilcitosina y una metilcitosina proximales entre sí. En estas realizaciones, el método puede comprender determinar si la molécula tiene una hidroximetilcitosina y una metilcitosina proximales en la misma cadena. Alternativamente o, además, el método puede comprender determinar si la molécula tiene una hidroximetilcitosina y metilcitosina proximales en diferentes cadenas.

El estado de hidroximetilcitosina/metilcitosina de los genes/intervalos enumerados en las Tablas 10A, 10B, 11A y 11B se puede investigar usando una serie de sondas. Por ejemplo, en algunas realizaciones, el método puede comprender unir marcadores a moléculas de ADN que comprenden uno o más nucleótidos de hidroximetilcitosina y metilcitosina en una muestra de ADNfc, en el que los nucleótidos de hidroximetilcitosina están marcados con una primer marcador ópticamente detectable (por ejemplo, un primer fluoróforo) y los nucleótidos de metilcitosina se marcan con un segundo marcador ópticamente detectable (por ejemplo, un segundo fluoróforo) que se distingue del primer marcador, para producir una muestra marcada e hibridar la muestra con una matriz de sondas, en la que la matriz de sondas comprende sondas para al menos 1, al menos 2, al menos 3, al menos 4, al menos 5, al menos 10 o al menos 20 de los genes o intervalos enumerados en las Tablas 10A, 10B, 11A y 11B. En algunos casos, la matriz puede contener sondas de cadena superior y sondas de cadena inferior, lo que permite que las cadenas superior e inferior marcadas se detecten de forma independiente.

En algunas realizaciones, el método puede comprender unir marcadores a moléculas de ADN que comprenden uno o más nucleótidos de hidroximetilcitosina y metilcitosina en una muestra de ADNfc, en la que los nucleótidos de hidroximetilcitosina se marcan con una primera etiqueta de captura y los nucleótidos de metilcitosina se marcan con una segunda etiqueta de captura que es diferente a la primera captura, para producir una muestra marcada; enriquecimiento de las moléculas de ADN que están marcadas; y secuenciar las moléculas de ADN enriquecidas. Esta realización del método puede comprender enriquecer por separado las moléculas de ADN que comprenden una o más hidroximetilcitosinas y las moléculas de ADN que comprenden uno o más nucleótidos de metilcitosina. La marcación puede adaptarse de los métodos descritos anteriormente o de Song et al. (Proc. Natl. Acad. Sci. 2016 113: 4338-43), en la que se utilizan etiquetas de captura en lugar de marcadores fluorescentes. Por ejemplo, en algunas realizaciones, el método puede comprender incubar el ADNfc (por ejemplo, ADNfc ligado al adaptador) con un ADN pglucosiltransferasa y glucosa UDP modificada con un grupo quimioselectivo, marcando así covalentemente las moléculas de ADN hidroximetilado en el ADNfc con el grupo quimioselectivo; unir un primer agente de captura al ADNfc modificado quimioselectivamente mediante el grupo quimioselectivo, por ejemplo, mediante una reacción de cicloadición; incubar este producto de la etapa con una metilcitosina dioxigenasa, una ADN p-glucosiltransferasa y glucosa UDP modificada con un grupo quimioselectivo; y unir el segundo agente de captura al ADN modificado quimioselectivamente mediante el grupo quimioselectivo, por ejemplo, mediante una reacción de cicloadición.

En algunas realizaciones, la etapa de determinación se puede realizar en relación con un control. Específicamente, en algunas realizaciones, el método puede comprender determinar si una o más secuencias de ácidos nucleicos en el ADN hidroximetilado enriquecido están sobrerrepresentadas, en relación con un control y/o determinar si una o más secuencias de ácidos nucleicos en el ADN hidroximetilado enriquecido están subrepresentadas con respecto a un control. En algunas realizaciones, las secuencias de control pueden estar en el ADN hidroximetilado enriquecido. En estas realizaciones, las secuencias de control pueden estar en la misma muestra que los ácidos nucleicos que se asignan a los loci diana, pero no se asignan a los loci diana. En otras realizaciones, las secuencias de control pueden estar en la muestra de (a), en la muestra que comprende ADN circulante fuera de las células, antes del enriquecimiento del ADN hidroximetilado. En otras realizaciones, las secuencias de control pueden estar en la muestra de (a), en la muestra que comprende ADN circulante fuera de las células, después del enriquecimiento del ADN hidroximetilado (es decir, en la fracción de ADN circulante fuera de las células) que no contiene el ADN hidroximetilado. En otras realizaciones, las secuencias de control pueden ser de una muestra diferente. En otras realizaciones, la determinación puede basarse en un umbral derivado empíricamente obtenido del análisis de múltiples muestras.

Kits

También se proporcionan en esta divulgación kits que contienen reactivos para practicar los métodos objetivo, como se describió anteriormente. Los kits objetivo contienen uno o más de cualquiera de los componentes descritos anteriormente. Por ejemplo, en algunas realizaciones, el kit puede ser para analizar ADNfc. En estas realizaciones, el kit puede comprender una ADN p-glucosiltransferasa, glucosa UDP modificada con un grupo quimioselectivo; y un adaptador que comprende un código de barras molecular, como se describió anteriormente. En algunas realizaciones, el adaptador puede ser un adaptador en Y o en horquilla. En algunas realizaciones, el kit también puede comprender una fracción de biotina, en el que la fracción de biotina es reactiva con el grupo quimioselectivo.

Los diversos componentes del kit pueden estar presentes en contenedores separados o ciertos componentes compatibles pueden combinarse previamente en un solo contenedor, según se desee.

Además de los componentes mencionados anteriormente, los kits objetivo pueden incluir además instrucciones para usar los componentes del kit para practicar los métodos objetivo, es decir, instrucciones para el análisis de muestras. Las instrucciones para practicar los métodos objetivo se registran generalmente en un medio de grabación adecuado. Por ejemplo, las instrucciones pueden estar impresas en un sustrato, tal como un papel o plástico, etc. Como tal, las instrucciones pueden estar presentes en los kits como un prospecto, en la marcación del contenedor del kit o sus componentes (es decir, asociado con el empaquetado o subempacado), etc. En otras realizaciones, las instrucciones están presentes como un archivo de datos de almacenamiento electrónico presente en un medio de almacenamiento adecuado legible por ordenador, por ejemplo, CD-ROM, disquete, etc. En aún otras realizaciones las instrucciones reales no están presentes en el kit, pero se proporcionan los medios para obtener las instrucciones de una fuente remota, por ejemplo, a través de la Internet. Un ejemplo de esta realización es un kit que incluye una dirección web en la que se pueden ver las instrucciones y/o desde donde se pueden descargar las instrucciones. Al igual que con las instrucciones, este medio para obtener las instrucciones se registra en un sustrato adecuado.

Composiciones

También se proporciona en esta divulgación una variedad de composiciones que comprenden productos elaborados mediante el presente método. En algunas realizaciones, la composición puede comprender ADN circulante fuera de las células, en el que los residuos de hidroximetilcitosinas en el ADN se modifican para contener una etiqueta de captura. En estas realizaciones, ambas cadenas del ADN circulante fuera de las células pueden estar en la composición. En algunas realizaciones, el ADN puede estar en forma bicatenaria. En otras realizaciones, el ADN puede estar en forma monocatenaria (por ejemplo, si la composición se ha desnaturalizado mediante incubación a una temperatura elevada).

Como resultará evidente a partir de la descripción en la sección de métodos de esta divulgación, la etiqueta de captura puede ser una fracción de biotina (por ejemplo, biotina) o un grupo quimioselectivo (por ejemplo, un grupo azido y un grupo alquinilo tal como UDP-6-N³-Glu). En algunas realizaciones, la composición puede comprender, además: i. pglucosiltransferasa y ii. glucosa UDP modificada con un grupo quimioselectivo (por ejemplo, UDP-6-N³-Glu). Estas moléculas no están marcadas con fluorescencia ni marcadas con una marca detectable ópticamente.

En algunas realizaciones, el ADN hidroximetilado fuera de las células está ligado con un adaptador (es decir, se ha ligado con adaptadores). En algunas realizaciones, el ADN puede tener adaptadores, por ejemplo, adaptadores, en Y o en horquilla bicatenarios, ligados a ambas cadenas en ambos extremos.

En algunas realizaciones, la composición puede ser una composición enriquecida en la que al menos el 10% (por ejemplo, al menos el 20%, al menos el 50%, al menos el 80% o al menos el 90%) de las moléculas de ácido nucleico en la composición comprende una o más hidroximetilcitosinas que se modifican para contener la etiqueta de captura. En estas realizaciones, la composición puede comprender, además, en solución, copias del ADN hidroximetilado fuera de las células que se han preparado mediante p Cr . En estas realizaciones, la composición puede comprender una población de productos de PCR, en la que al menos el 10% (por ejemplo, al menos el 20%, al menos el 50%, al menos el 80% o al menos el 90%) de los productos de PCR se copian (directa o indirectamente) a partir de ADN hidroximetilado.

En algunas realizaciones, la composición puede comprender además un soporte (por ejemplo, una perla tal como una perla magnética u otro sólido), en la que el soporte y el ADN circulante fuera de las células están unidos entre sí mediante la etiqueta de captura. El enlace puede ser a través de un enlace covalente o un enlace no covalente. Como resultará evidente, el soporte puede estar ligado a estreptavidina y el agente de captura puede estar ligado a biotina.

Ejemplos

Los aspectos de las presentes enseñanzas pueden entenderse mejor a la luz de los siguientes ejemplos, que no deben interpretarse como limitantes del alcance de las presentes enseñanzas de ninguna manera.

En el presente documento se informa el primer análisis global de hidroximetiloma en ADNfc. En el cáncer de pulmón, se observó una pérdida global característica de 5hmC fuera de las células, mientras que en e1HCC y el cáncer de páncreas se identificaron cambios significativos a escala más fina de 5hmC fuera de las células. En e1HCC, se realizó un estudio exploratorio de las muestras longitudinales y se demostró que la 5hmC fuera de las células se puede utilizar para controlar el tratamiento y la recurrencia. Estos tres tipos de cáncer mostraron patrones distintos en su hidroximetiloma fuera de las células y se podrían emplear algoritmos de aprendizaje automático entrenados con funciones de 5hmC fuera de las células para predecir los tres tipos de cáncer con alta precisión. Se prevé que el perfil de 5hmC fuera de las células será una herramienta valiosa para el diagnóstico del cáncer, así como para otras áreas de enfermedades, que incluyen, entre otras, enfermedades neurodegenerativas, enfermedades cardiovasculares y diabetes. Además, el marco general de este método se puede adoptar fácilmente para secuenciar otras modificaciones en ácidos nucleicos fuera de las células aplicando la química de marcaje apropiada a las bases modificadas. Esto permitirá una visión general completa y global de los cambios genéticos y epigenéticos de varios estados de enfermedad y aumentará aún más el poder de los diagnósticos personalizados.

Estos datos se obtuvieron usando un método de secuenciación de 5hmC fuera de las células de genoma completo de baja entrada adaptado de una marcación química selectiva conocida como "hMe-Seal" (véase, por ejemplo, Song et al, Nat. Biotechnol. 2011 29, 68-72). hMe-Seal es un método robusto que utiliza p-glucosiltransferasa (pGT) para marcar selectivamente 5hmC con una biotina a través de una glucosa modificada con azida para la extracción de fragmentos de ADN que contienen 5hmC para la secuenciación (véase la Figura 5A). El procedimiento estándar de hMe-Seal requiere microgramos de ADN. En el enfoque modificado descrito en el presente documento, ADNfc se ligó primero con adaptadores de secuenciación y 5hmC se marcó selectivamente con un grupo biotina. Después de capturar ADNfc que contiene 5hmC utilizando perlas de estreptavidina, la biblioteca final se elabora mediante PCR directamente a partir de las perlas en lugar de eluir el ADN capturado. Esto minimiza la pérdida de muestra durante la purificación. El método se ilustra esquemáticamente en la Figura 1A).

Materiales y métodos

Recolección y procesamiento de muestras

Se obtuvieron muestras para sujetos sanos del centro de sangre de Stanford. Los pacientes con HCC y cáncer de mama se reclutaron en un protocolo aprobado por la Junta de Revisión Institucional de la Universidad de Stanford. Se reclutó a pacientes con cáncer de pulmón, cáncer de páncreas, GBM, cáncer gástrico y cáncer colorrectal en un protocolo aprobado por la Junta de Revisión Institucional del West China Hospital. Todos los sujetos reclutados dieron su consentimiento informado. La sangre se recogió en Vacutainers recubiertos con EDTA. Se recogió plasma de las muestras de sangre después de centrifugación a 1.600 x g durante 10 min a 4 °C y 16.000 x g durante 1o min a 4 °C. Se extrajo ADNfc usando el Kit de ácido nucleico circulante (Qiagen). El ADN genómico de sangre completa se extrajo usando el Mini Kit de ADN (Qiagen) y se fragmentó usando ADNbc fragmentasa (NEB) en un promedio de 300 pb. El ADN se cuantificó mediante el fluorómetro Qubit (Life Technologies). El ARN fuera de las células se extrajo utilizando el kit de purificación de ARN exosómico y circulante en plasma/suero (Norgen). El ARN fuera de las células extraído se digirió adicionalmente usando ADNasas Baseline-ZERO (Epicentre) y se redujo usando el kit de eliminación de ARNr, Ribo-Zero (Epicentre) de acuerdo con un protocolo de Clontech.

Preparación de amplicón enriquecido

Para generar el control enriquecido, se amplificó por PCR el ADN lambda mediante ADN polimerasa Taq (NEB) y se purificó mediante perlas AMPure XP (Beckman Coulter) en amplicones de —180 pb no superpuestos, con un cóctel de dATP/dGTP/dTTP y uno de los siguientes: dCTP, dmCTP o 10% de dhmCTP (Zymo)/90% de dCTP. Las secuencias de los cebadores son las siguientes: dCTP Directo-CGTTTCCGTTCTTCTTCGTC (SEQ ID NO: 1), Inverso-TACTCGCACCGAAAATGTCA (SEQ ID NO: 2), dmCTP Directo- GTGGCGGGTTATGATGAACT (SEQ ID NO: 3), 10% dhmCTP/90% dCTP Directo-TGAAAACGAAAGGGGATACG (SEQ ID NO: 5), Inverso-GTCCAGCTGGGAGTCGATAC (SEQ ID NO: 6).

Construcción, etiquetado, captura y secuenciación de alto rendimiento de bibliotecas de 5 hmC

ADNfc (1-10 ng) o ADN genómico de sangre completa fragmentada (1 |jg) enriquecido con amplicones (0,001 pg de cada amplicón por 10 ng de ADN) se reparó en los extremos, se adeniló en 3' y se ligó a códigos de barras de ADN (Bioo Scientific) utilizando el Kit KAPA Hyper Prep (Kapa Biosystems) de acuerdo con las instrucciones del fabricante. El ADN ligado se incubó en una solución de 25 j l que contenía tampón HEPES 50 mM (pH 8), MgCh 25 mM, UDP-6-N3-Glc 100 jM (Active Motif) y 12,5 U de pGT (Thermo) durante 2 horas a 37 °C. Después de esto, se añadieron directamente 2,5 j l de DBCO-PEG4-biotina (Click Chemistry Tools, solución madre 20 mM en DMSO) a la mezcla de reacción y se incubó durante 2 horas a 37 °C. A continuación, se añadieron 10 jg de ADN de esperma de salmón cortado (Life Technologies) a la mezcla de reacción y el ADN se purificó mediante una columna Micro Bio-Spin 30 (Bio-Rad). El ADN purificado se incubó con 0,5 j l de perlas de estreptavidina M270 (Life Technologies) bloqueadas previamente con a Dn de esperma de salmón en tampón 1 (Tris 5 mM pH 7,5, EDTA 0,5 mM, NaCl 1 M y Tween 20 al 0,2%) durante 30 min. Posteriormente, las perlas se sometieron a tres lavados de 5 min cada uno con tampón 1, tampón 2 (tampón 1 sin NaCl), tampón 3 (tampón 1 con pH 9) y tampón 4 (tampón 3 sin NaCl). Toda la unión y el lavado se realizaron a temperatura ambiente con rotación suave. A continuación, las perlas se resuspendieron en agua y se amplificaron con 14 (ADNfc) o 9 (ADN genómico de sangre completa) ciclos de amplificación por PCR usando ADN polimerasa Phusion (NEB). Los productos de la PCR se purificaron usando perlas AMPure XP. Se prepararon bibliotecas de entrada separadas mediante PCR directa a partir de ADN ligado sin marcación ni captura. Para las réplicas técnicas, el ADNfc del mismo sujeto se dividió en dos réplicas técnicas. Se realizó una secuenciación de 75 pb de los pares de los extremos en el instrumento NextSeq.

Procesamiento de datos y análisis del cuerpo del gen

Las secuencias de FASTQ se alinearon con UCSC/hg19 con Bowtie2 v2.2.5 y se filtraron adicionalmente con samtools-0.1.19 (view-f 2-F 1548-q 30 y rmdup) para retener coincidencias no duplicadas únicas con el genoma. Las lecturas de pares de los extremos se extendieron y convirtieron en un formato bedgraph normalizado al número total de lecturas alineadas usando bedtools, y luego se convirtieron al formato bigwig usando bedGraphToBigWig del UCSC Genome Browser para visualización en Integrated Genomics Viewer. Las secuencias de FASTq también se alinearon con las tres secuencias de control de aumento para evaluar la eficiencia de reducción. El control de enriquecimiento solo se utiliza como validación del éxito de pull-down en cada muestra. Las hMR se identificaron con MACS utilizando ADN de entrada no enriquecido como fondo y configuración predeterminada (corte del valor p 1e-5). Las anotaciones genómicas de hMR se realizaron determinando el porcentaje de hMR que se superponen a cada región genómica > 1 pb. El perfil de metagen se generó usando ngs.plot. Se calcularon las FPKM de 5hmC usando los recuentos de fragmentos en cada cuerpo del gen RefSeq mediante bedtools. Para los análisis diferenciales, se excluyeron los genes de menos de 1 kb o asignados en los cromosomas X e Y. Se realizó un análisis génico diferencial de 5hmC utilizando el paquete limma en R. Los análisis GO se realizaron utilizando DAVID Bioinformatics Resources con GOTERM_BP_FAT. La expresión génica específica de tejido se obtuvo de BioGPS. Para el gráfico de tSNE, se usó la correlación de Pearson del FPKM de 5hmC del cuerpo del gen como matriz de distancia para tSNE. Se realizaron gráfico de MA, agrupamiento jerárquico, tSNE, LDA y mapas de calor en R.

Predicción del tipo y estadio del cáncer

Se seleccionaron genes marcadores específicos del tipo de cáncer realizando una prueba t de Student entre 1) un grupo de cáncer y un grupo sano, 2) un grupo de cáncer y otras muestras de cáncer, 3) dos grupos de cáncer diferentes. A continuación, se realizó la corrección de Benjamini y Hochberg para el valor p sin procesar y los genes se clasificaron por valor q. Los 5-20 genes superiores con el valor q más pequeño se seleccionaron como conjunto de características para entrenar al clasificador. Para lograr una resolución más alta, los DhMR se identificaron rompiendo primero el genoma de referencia (hg19) en ventanas de 2 kb in silico y calculando el valor de FPKM de 5hmC para cada una de las ventanas. Las regiones genómicas incluidas en la lista negra que tienden a mostrar señales de artefactos de acuerdo con ENCODE se filtraron antes del análisis posterior. Para los DhMR específicos del tipo de cáncer, se realizaron la prueba t de Student y la corrección de Benjamini y Hochberg de los valores p para comparar cada tipo de cáncer y los controles sanos. Se eligieron los 2-10 DhMR superiores con el valor q más pequeño para cada tipo de cáncer. El clasificador Mclust con base en el modelo gaussiano y el bosque aleatorio se realizaron en el conjunto de datos utilizando las características descritas anteriormente (cuerpos de los genes y DhMR). Se entrenaron clasificadores en cáncer de pulmón, cáncer de páncreas, HCC y muestras sanas. Los parámetros para el análisis de bosque aleatorio, que incluyen semilla aleatoria y mtry (número de variables muestreadas al azar como candidatas en cada división), se ajustaron para obtener la estimación de error más baja fuera de la bolsa utilizando tuneRF en el paquete randomForest en R. Las 15 características principales con mayor importancia variable se graficaron. El análisis del modelo de mezcla normal se realizó utilizando el paquete Mclust R. Para el entrenamiento de clasificadores con base en el modelo Mclust, se realizó un gráfico de criterio de información bayesiano (BIC) para visualizar la eficacia de clasificación de diferentes modelos de mezcla multivariante. Por defecto, el modelo EEI (diagonal, volumen y forma iguales) y el modelo tipo EDDA (componente único para cada clase con la misma estructura de covarianza entre clases) fueron elegidos para la clasificación Mclust. Para fortalecer el análisis, se realizó una validación cruzada de dejar uno fuera (LOO) para el bosque aleatorio y el clasificador Mclust con los mismos valores de parámetro. Para la validación cruzada de Mclust, se utilizó cvMclustDA en el paquete Mclust R.

Construcción de bibliotecas de ARN fuera de las células y secuenciación de alto rendimiento

Se preparó una biblioteca de ARN fuera de las células usando el kit de preparación de biblioteca ScriptSeq v2 RNA-Seq (Epicentre) siguiendo el protocolo de ARN de FFPE con 19 ciclos de amplificación por PCR. A continuación, los productos de la PCR se purificaron usando perlas AMPure XP. Se realizó una secuenciación de 75 pb de pares de los extremos en el instrumento NextSeq. Las lecturas de RNA-Seq se recortaron primero usando Trimmomatic-0.33 y luego se alinearon usando tophat-2.0.14. Los valores de expresión de RPKM se extrajeron utilizando cufflinks-2.2.1 utilizando modelos de genes RefSeq.

Resultados y discusión

5hmC fuera de las células forma fácilmente una muestra que contiene menos de 10 ng de ADNfc (por ejemplo, 1-10 ng de ADNfc) usando el método descrito anteriormente. Añadiendo un conjunto de amplicones de 180 pb que portan C, 5mC o 5hmC para ADNfc, se demostró que solo el ADN que contiene 5hmC puede detectarse mediante PCR a partir de las perlas después de pull-down (Figura 5B). Este resultado se confirmó en las bibliotecas de secuenciación final, que mostraron un enriquecimiento de más de 100 veces en lecturas que asignan ADN enriquecido en 5hmC (Figura 1B). Además, nuestro enfoque funcionó igualmente bien con ADNfc y ADN genómico a granel (1 |jg de ADN genómico de sangre completa (ADNg)) (Figura 1B). Las bibliotecas finales de 5hmC libres de células son muy complejas con una tasa media de asignaciones no duplicadas únicas de 0,75 cuando se secuencian ligeramente (mediana de 15 millones de lecturas, ~ 0,5 veces la cobertura del genoma humano) (Figuras 5C-5D y Tabla 1 a continuación), y, sin embargo, las réplicas técnicas son altamente reproducibles (Figura 1E). Las regiones enriquecidas con 5hmC (hMR) se identificaron en los datos de secuencia utilizando un método con base en Poisson. Las hMR son muy concordantes entre las réplicas técnicas y una muestra agrupada: más del 75% de las hMR en la muestra agrupada están en común con cada una de las réplicas (Figura 5F), alcanzando el estándar ENCODE para ChIP-Seq. Estos resultados demostraron que 5hmC fuera de las células se puede perfilar fácil y confiablemente mediante el método hMe-Seal modificado.

Tabla 1. Resumen de los resultados de la secuenciación de 5hmC.

Identificación de la Tipo Total de lecturas Lecturas únicas Tasa única muestra secuenciadas asignadas no asignada no duplicadas duplicada 10 ADNfc saludable 20081973 15192613 0,76 11 ADNfc saludable 19142986 14762956 0,77 27 ADNfc saludable 21862078 16645192 0,76 35-1 § ADNfc saludable 29132339 16742468 0,57 35-2 § ADNfc saludable 28694218 17346511 0,60 36-1 § ADNfc saludable 32202519 20996955 0,65 36-2 § ADNfc saludable 31089686 20993595 0,68 38o ADNfc saludable 20124203 15295376 0,76 38 ADNfc saludable 20419287 15679281 0,77 39o ADNfc saludable 22320662 17833176 0,80 entrada f ADNfc saludable 38574253 25910419 0,67 35-sangre ADNg de sangre total 44077590 31654982 0,72 36-sangre ADNg de sangre total 40843066 29266169 0,72 entrada de sangre f Entrada de ADNg de 39138506 26455609 0,68

sangre total

pulmón293 cáncer de pulmón 14172402 11470840 0,81 pulmón323 cáncer de pulmón 12269885 8916594 0,73 pulmón324 cáncer de pulmón 13313728 10058078 0,76 pulmón395 cáncer de pulmón 13589263 10092883 0,74 pulmón417 cáncer de pulmón 13212811 10109574 0,77 pulmón418 cáncer de pulmón 13103903 10420656 0,80 pulmón419 cáncer de pulmón 11949356 9704240 0,81 pulmón492 cáncer de pulmón 12563742 8885504 0,71 pulmón493 cáncer de pulmón 12930120 10479700 0,81 pulmón496

cáncer de pulmón 12267496

9657956 0,79 pulmón512 cáncer de pulmón 12934833 10483836 0,81 pulmón513 cáncer de pulmón 11310088 8304508 0,73 pulmón514 cáncer de pulmón 12895079 10264145 0,80 pulmón515 cáncer de pulmón 12132995 9406700 0,78 pulmón517 cáncer de pulmón 11766082 8857054 0,75 HCC150 HCC 15215190 11298385 0,74 HCC237 HCC 13439935 10109197 0,75 HCC241 HCC 16201676 12017320 0,74 HCC256 HCC 14579945 10728759 0,74 HCC260 HCC 13791503 10021911 0,73 HCC285 HCC 11522024 7662330 0,67 HCC290 HCC 13162465 9271065 0,70 HCC320 HCC 13462633 9696240 0,72 HCC341 HCC 11199473 6497400 0,58 HCC628 HCC 15365745 11759122 0,77 HCC324 HCC 12525818 9598812 0,77 HCC46

HCC 13121530

9237102 0,70

HCC73 HCC 13816686 10745247 0,78 HCC489 HCC 11446887 5575387 0,49 HCC195 HCC 11538777 7701351 0,67 HCC234 HCC 11960087 8468478 0,71 HCC626 HCC 13552712 11087605 0,82 HCC647 HCC 12491614 8590321 0,69 pancreático27 cáncer de páncreas 9717087 8019436 0,83 pancreático68 cáncer de páncreas 10457109 8374219 0,80 pancreático69 cáncer de páncreas 10838005 8940883 0,82 pancreático75 cáncer de páncreas 10197772 8452749 0,83 pancreático9 cáncer de páncreas 14601356 11245279 0,77 pancreático15 cáncer de páncreas 15240467 11923009 0,78 pancreático22 cáncer de páncreas 13439343 10356395 0,77 GBM57 GBM 8799132 6455359 0,73 GBM58 GBM 8874810 7253089 0,82 GBM66 GBM 9795211 8073651 0,82 GBM76 GBM 8103209 6165341 0,76 (continuación)

Identificación de la Tipo Total de lecturas Lecturas únicas Tasa única muestra secuenciadas asignadas no asignada no duplicadas duplicada estómago1 cáncer gástrico 14282633 10365849 0,73 estómago2 cáncer gástrico 17825012 12938872 0,73 estómago3 cáncer gástrico 16979690 12894400 0,76 estómago4 cáncer gástrico 21192604 15675499 0,74 estómago8 cáncer gástrico 14070772 8321549 0,59 colon13 cáncer colorrectal 17352371 12517451 0,72 colon16 cáncer colorrectal 15470656 11210513 0,72 colon17 cáncer colorrectal 15101557 10590748 0,70 colon19 cáncer colorrectal 18441208 12503926 0,68

BR5-1 § cáncer de mama 17826666

13542700

0,76

BR5-2 § cáncer de mama 17746176 13004851 0,73

BR7-1 § cáncer de mama 16963664 13160842 0,78

BR7-2 § cáncer de mama 15495003 12100951 0,78

BR13 cáncer de mama 21382473 16015986 0,75

BR14 mama cáncer de mama 18668112 14613260 0,78 HBV268 HBV 8730571 5106519 0,58 HBV334 HBV 11838111 7848078 0,66 HBV374 HBV 14896634 11099981 0,75 HBV397 HBV 12127855 8416798 0,69 HBV455 HBV 12796382 9001735 0,70 HBV640 HBV 10040349 6062886 0,60 HBV646 HBV 9665264 5002160 0,52

§ duplicado técnico,

t ADN de entrada no enriquecido

Se secuenció 5hmC fuera de las células de ocho individuos sanos (Tablas 1 y 2). También se secuenció 5hmC de ADNg de sangre completa de dos de los individuos, porque las células sanguíneas lisadas pueden ser un contribuyente importante al ácido nucleico libre de células. Los perfiles a escala del genoma mostraron que las distribuciones de 5hmC fuera de las células son casi idénticas entre individuos sanos y se distinguen claramente tanto de la distribución de 5hmC de sangre completa como de la entrada de ADNfc (Figura 6A). Estudios previos de 5hmC en tejidos humanos y de ratón mostraron que la mayoría de 5hmC reside en los cuerpos de los genes y las regiones proximales del promotor del genoma (Mellen et al., Cell 2012 151: 1417-1430; Thomson Genome Biol. 2012, 13, R93). El análisis de todo el genoma de las hMR en nuestros datos de ADNfc mostró que la mayoría (80%) son intragénicas con la mayor parte del enriquecimiento en exones (observado con respecto al esperado, o/e = 7,29) y el agotamiento en regiones intergénicas (o/e = 0,46), consistente con eso en sangre completa (Figuras 6B-6C) y en otros tejidos. Se sabe que el enriquecimiento de 5hmC en cuerpos de los genes está correlacionado con la actividad transcripcional en tejidos tales como el cerebro y el hígado (véase, por ejemplo, Mellen et al., Cell 2012, 151: 1417-1430; Thomson Genome Biol.

2012, 13, R93). Para determinar si esta relación se mantiene en ADNfc, se realizó la secuenciación del ARN fuera de las células del mismo individuo. Al dividir los genes en tres grupos de acuerdo con su expresión fuera de las células y graficando el perfil promedio de 5hmC fuera de las células solo de cuerpos de los genes (análisis de metagen), se descubrió que 5hmC se enriquece en y alrededor de cuerpos de los genes de genes más altamente expresados (Figura 1C). Estos resultados respaldaron que 5hmC fuera de las células es una colección de varios tipos de tejidos y contiene información de otros tejidos además de la sangre.

Tabla 2. Información clínica para muestras sanas

Identificación de la sexo edad

__________________ ______________

39o femenino 49

Debido a que los 5hmC libres de células se enriquecieron principalmente en las regiones intragénicas, se usaron fragmentos de 5hmC génicos por kilobase de genes por millón de lecturas asignadas (FPKM) para comparar el hidroximetiloma fuera de las células con el hidroximetiloma de sangre completa. De hecho, el análisis imparcial de 5hmC génico usando la inclusión de vecinos estocásticos distribuidos en t (tSNE) 21 mostró una fuerte separación entre las muestras de sangre fuera de las células y de sangre completa (Figura 6D). Se utilizó el paquete limma (Ritchie, et al., Nucleic Acids Res.2015: 43, e47) para identificar 2.082 genes hidrometilados diferencialmente entre muestras de sangre completa y fuera de las células (valores q (valores p ajustados de Benjamini y Hochberg) <0,01, veces que cambia> 2, Figura 7A). En particular, los 735 genes enriquecidos con 5hmC específicos de la sangre mostraron un aumento de la expresión en sangre completa en comparación con los 1.347 genes enriquecidos con 5hmC específicos fuera de las células (valor p <2,2 * 10-16, prueba t de Welch) (Figura 7B). De acuerdo con la expresión diferencial, el análisis de Ontología Genética (GO) de genes enriquecidos con 5hmC específicos de la sangre identificó principalmente procesos relacionados con las células sanguíneas (Figura 7C), mientras que los genes enriquecidos con 5hmC específicos fuera de las células identificaron procesos biológicos mucho más diversos (Figura 7D). En la Figura 7E se muestran ejemplos de genes enriquecidos con 5hmC específicos de sangre completa (FPR1, FPR2) y específicos fuera de las células (GLP1R). Juntos, estos resultados refuerzan el concepto de que todos los tejidos contribuyen con 5hmC al ADNfc y que la medición de esto es una aproximación de la expresión génica.

Para explorar el potencial de diagnóstico de 5hmC fuera de las células, el método se aplicó para secuenciar el ADNfc de un panel de 49 pacientes con cáncer primario sin tratamiento previo, incluidos 15 pacientes con cáncer de pulmón, 10 con carcinoma hepatocelular (HCC), 7 con cáncer de páncreas, 4 con glioblastoma (GBM), 5 con cáncer gástrico, 4 con cáncer colorrectal, 4 con cáncer de mama (Tabla 3-9, a continuación). Estos pacientes varían desde cáncer en estadio temprano hasta cáncer metastásico en estadio tardío. En el cáncer de pulmón, se observó una pérdida global progresiva de enriquecimiento de 5hmC desde el cáncer de pulmón no metastásico en estadio temprano hasta el cáncer de pulmón metastásico en estadio tardío en comparación con el ADNfc sano, y gradualmente se asemejó a la entrada de ADNfc no enriquecido (Figura 2A). El análisis imparcial del cuerpo del gen usando tSNE también mostró una migración dependiente de la etapa del perfil de cáncer de pulmón desde el perfil sano a uno que se asemeja a la entrada de ADNfc no enriquecido (Figura 8A). Notablemente, incluso las muestras de cáncer de pulmón en estadio temprano están muy separadas de las muestras sanas (Figura 8A). Los eventos globales de hipohidroximetilomas se confirmaron aún más utilizando otras métricas. En primer lugar, la mayoría de los genes diferenciales en el cáncer de pulmón metastásico (valores q <1e-7, 1.159 genes) mostraron un agotamiento de 5hmC dependiente del estadio en comparación con las muestras sanas (Figura 2B). En segundo lugar, el perfil del metagen mostró un agotamiento dependiente de la etapa de la señal 5hmC del cuerpo del gen y una semejanza con la entrada de ADNfc no enriquecido (Figura 8B). En tercer lugar, hay una disminución drástica en el número de hMR identificadas en el cáncer de pulmón, especialmente en el cáncer de pulmón metastásico en comparación con las muestras de cáncer sanas y otras (Figura 2C). Estos datos confirmaron la pérdida global dependiente del estadio de los niveles de 5hmC en el ADNfc de cáncer de pulmón.

Tabla 3. Información clínica para muestras de cáncer de pulmón

Identificación de la muestra categoría TNM etapa sexo edad lung395 cáncer de pulmón no metastásico T4N2Mx III femenino 62 lung419 cáncer de pulmón no metastásico T1N2M0G2 IIIa femenino 53 lung492 cáncer de pulmón no metastásico T2N0M0 I masculino 55 lung493 cáncer de pulmón no metastásico T1N3M0 IV femenino 66 lung496 cáncer de pulmón no metastásico T3N1M0 IIIa masculino 68 lung512 cáncer de pulmón no metastásico - - femenino 67 lung513 cáncer de pulmón no metastásico T2N1M0 I-II masculino 47 lung514 cáncer de pulmón no metastásico T2N0M0 I-II femenino 57 lung515 cáncer de pulmón no metastásico cT3N1M0 IIIA masculino 52 lung293 cáncer de pulmón metastásico cT4N3M1a IV femenino 52 lung323 cáncer de pulmón metastásico TxN2M1 IV femenino 68 lung324 cáncer de pulmón metastásico TxNxM1 IV masculino 56 lung417 § cáncer de pulmón metastásico - - masculino 62 lung418 cáncer de pulmón metastásico TxN3Mx IIIb-IV masculino 59 lung517 cáncer de pulmón metastásico cT4N2M1b IV masculino 68

Todas son muestras de cáncer de pulmón de células no pequeñas a menos que se indique lo contrario. § cáncer de pulmón de células pequeñas.

Tabla 4. Información clínica para muestras de HCC

Identificación de la muestra categoría TNM Tamaño del tumor (cm) sexo edad HBV268 HBV - - masculino 36 HBV334 HBV - - femenino 55 HBV374 HBV - - femenino 45 HBV397 HBV - - femenino 51 HBV455 HBV - - femenino 66 HBV640 HBV - - femenino 49 HBV646 HBV - - masculino 60

(continuación)

Identificación de la muestra categoría TNM Tamaño del tumor (cm) sexo edad HCC150 HCC preoperatorio pT1 pNX pMX 3,1 § masculino 76 HCC256 HCC preoperatorio pT1 pNX pMX 15 x 9 masculino 80 HCC260 HCC preoperatorio pT1 pNX pMX 1,3 § masculino 68 HCC290 HCC preoperatorio - 10 x 13 x 18 masculino 68 HCC320 HCC preoperatorio - multifocal femenino 70 HCC628

HCC preoperatorio pT1 1,8 § masculino 43

HCC285 HCC preoperatorio pT3N0M0 8 § 73 HCC324 HCC postoperatorio - - ^masculino73 HCC237 HCC preoperatorio pT2 pNX pMX 4,1 § 52 HCC241 HCC postoperatorio - - masculino 52 HCC341 HCC recurrente - 3 x 1,2 53 HCC195 HCC preoperatorio pT1 pNX pM0 - 44 HCC234 HCC preoperatorio - 1,6 44 HCC626 HCC recurrente - 1,7 x 1,7 x 1,0 ^masculino50

HCC postoperatorio - - 53 HCC46 HCC preoperatorio pT2 pNX pMX 2,8 § 69

HCC postoperatorio HCC73 - 69 HCC398 ^{Seguimiento del}masculino - - _{72 HCC}

HCC489 HCC recurrente - 2,2 § 73 § en la mayor dimensión.

Tabla 5. Información clínica para muestras de cáncer de páncreas

Identificación de la muestra TNM etapa metástasis a sexo edad pancreático9 T3N0M1 IV hígado masculino 76 pancreático15 T1N0M0 IA - masculino 64 pancreático22 T4N1M0 III - femenino 71 pancreático27 T4N1M1 IV

pared abdominal, omento masculino 55 pancreático68 T3N0M1 IV hígado masculino 63 pancreático69 T3N0M0 IIA - masculino 66 pancreático75 T3N0M0 IIA - masculino 54

Tabla 6. Información clínica para muestras de GBM

Identificación de la muestra etapa sexo edad

GBM57 IV femenino 52

GBM58 IV masculino 71

GBM66 IV masculino 81

GBM76 IV masculino 59

Tabla 7. Información clínica para muestras de cáncer gástrico

Identificación de la muestra TNM etapa sexo edad

Tabla 8. Información clínica para muestras de cáncer colorrectal

Identificación de la muestra TNM etapa sexo edad colonl3 T4N0M0 II masculino 54 colon16 T3N0M0 II femenino 57 colonl7 T4N0M1 IV masculino 52 colonl9 pT4N1M1 IV femenino 62

Tabla 9. Información clínica para muestras de cáncer de mama

Identificación de la muestra tamaño del tumor (cm) grado del tumor edad

BR5 2,5 2 54

BR7 1,2 1 71

BR13 1 2 58

BR14 1,9 1 61

Cabe señalar que la pérdida global de enriquecimiento de 5hmC observada en el ADNfc de cáncer de pulmón no se debe al fracaso de nuestro método de enriquecimiento, ya que el control de enriquecimiento en todas las muestras, incluidas las muestras de cáncer de pulmón, mostró un alto enriquecimiento de ^aDⁿque contiene 5hmC (Figura 8C). También es un fenómeno exclusivo del cáncer de pulmón que no se observa en otros cánceres que se probaron, evidenciado por el número de hMR (Figura 2C) y los perfiles de metagenes (Figura 8B). En la Figura 2D y la Figura 8D se muestran ejemplos de genes empobrecidos en 5hmC en cáncer de pulmón. El tejido del cáncer de pulmón puede tener un nivel bajo de 5hmC en comparación con el tejido pulmonar normal y el pulmón puede tener una contribución relativamente grande al ADNfc. Es plausible que el cáncer de pulmón, especialmente el cáncer de pulmón metastásico provoque la liberación de grandes cantidades de ADNg hipohidroximetilado en ADNfc, lo que diluye eficazmente el ADNfc y conduce al agotamiento de 5hmC en el panorama de 5hmC fuera de las células. Alternativamente o en combinación, la hipohidroximetilación de ADNfc podría originarse a partir de la hipohidroximetilación de ADNg en sangre observada en pacientes con cáncer de pulmón metastásico como se informó recientemente. Tomados en conjunto, estos resultados demostraron que la secuenciación de 5hmC fuera de las células se puede usar para la detección temprana del cáncer de pulmón, así como para controlar la progresión y la metástasis del cáncer de pulmón.

Para el HCC, se secuenció 5hmC fuera de las células de siete pacientes con infección por hepatitis B (HBV), porque la mayoría de los casos de HCC son secundarios a infecciones por hepatitis viral (Tabla 4). El análisis imparcial del nivel génico por tSNE reveló que existe un cambio gradual de 5hmC fuera de las células de sano a HBV y luego a HCC, reflejando el desarrollo de la enfermedad (Figura 3A). Los genes diferenciales específicos para HCC (valores q <0,001, veces que cambia > 1,41, 1.006 genes) podrían separar HCC de las muestras sanas y de la mayoría de las muestras de VHB (Figura 3B). Tanto los genes enriquecidos como los empobrecidos específicos de HCC se pueden identificar en comparación con otras muestras de ADNfc (Figura 3B), y los genes enriquecidos (379 genes) mostraron una mayor expresión en el tejido hepático en comparación con los genes empobrecidos (637 genes) (valores p < 2,2 x 10-16, prueba t de Welch) (Figura 9A), de acuerdo con el efecto permisivo de 5hmC sobre la expresión génica. Un ejemplo de genes enriquecidos con 5hmC específicos de HCC es AHSG, una proteína secretada altamente expresada en el hígado (Figura 3C y Figuras 9B-9C), y un ejemplo de genes empobrecidos en 5hmC específicos de HCC es MTBP, que se informó que inhibe la migración y metástasis de HCC y se subreguló en los tejidos de HCC (Figura 3d y datos extendidos de la Figura 5d). Juntos, estos resultados apuntan a un modelo en el que la infección por virus y el desarrollo de HCC conducen a un daño gradual del tejido hepático y una mayor presentación de ADN hepático en la sangre.

Para explorar más el potencial de 5hmC fuera de las células para controlar el tratamiento y la progresión de la enfermedad, se siguió a cuatro de los pacientes con HCC. Estos pacientes fueron sometidos a resección quirúrgica, de los cuales tres tenían enfermedad recurrente (Tabla 4). El análisis de muestras de plasma seriadas de estos pacientes (preoperatorio/preop; postoperatorio/potsop; y recurrencia) con tSNE reveló que las muestras postop se agruparon con muestras sanas, mientras que las muestras de recurrencia se agruparon con HCC (Figura 3E). Este patrón también se reflejó por cambios en el FPKM de 5hmC de AHSG y MTBP (Figuras 3C-3D). Como ejemplo del uso de 5hmC fuera de las células para rastrear el tratamiento y la progresión de1HCC, se empleó el análisis discriminante lineal (LDA) para definir una combinación lineal de los genes diferenciales específicos de1HCC (Figura 3B) en un solo valor (la puntuación de HCC) que mejor separó las muestras de HCC preoperatorias de las muestras sanas y de HBV. Luego se calculó la puntuación de HCC para las muestras de HCC potsop y recurrentes, y se demostró que la puntuación de HCC puede rastrear con precisión el tratamiento y los estados de recurrencia (Figura 5E). Juntos, estos resultados demuestran que la secuenciación de 5hmC fuera de las células es una herramienta poderosa para detectar el HCC, así como para controlar el resultado del tratamiento y la recurrencia de la enfermedad.

También se encontró que el cáncer de páncreas produce cambios drásticos en su hidroximetiloma fuera de las células, incluso en algunos pacientes con cáncer de páncreas en estadio temprano (Tabla 5). Al igual que e1HCC, el cáncer de páncreas conduce a genes 5hmC sobrerregulados y subregulados en comparación con los individuos sanos (valor q <0,01, veces que cambia > 2.713 genes) (Figura 10A). En las Figuras 6B-6E se muestran ejemplos de genes empobrecidos y enriquecidos con 5hmC específicos de cáncer de páncreas comparados con otras muestras de ADNfc. Estos resultados sugieren que la secuenciación de 5hmC fuera de las células puede ser potencialmente valiosa para la detección temprana del cáncer de páncreas.

Aunque ha habido un mayor interés en usar ADNfc como "biopsia líquida" para detección del cáncer ha sido un desafio identificar el origen del ADNfc del tumor, y por tanto, su ubicación. Estos resultados indican que el análisis de 5hmC fuera de las células podría resolver este problema ya que el análisis de tSNE de los siete tipos de cáncer muestra que el cáncer de pulmón, el HCC y el cáncer de páncreas mostraron firmas distintas y podrían separarse fácilmente entre sí y de muestras sanas (Figura 4A). Los otros cuatro tipos de cáncer mostraron cambios relativamente menores en comparación con las muestras sanas. El uso de otras características tales como la región promotora (5 kb secuencia arriba del sitio de inicio de la transcripción (TSS)) mostró patrones similares (Figura 11A). Se observa que ningún tipo de cáncer en particular que se probó se parecía al perfil de sangre completa (Figura 11B), lo que sugiere que la contaminación de las células sanguíneas no es una fuente significativa de variación. Todos los pacientes del panel se encuentran en el mismo intervalo de edad que los individuos sanos (Figura 11C y Tablas 2-9), por lo que es poco probable que la edad sea un factor de confusión. No se observó ningún efecto de lote (Figura 11D).

Para demostrar aún más el poder de ADNfc 5hmC como biomarcadores para predecir tipos de cáncer, se emplearon dos métodos de aprendizaje automático ampliamente utilizados, el modelo de mezcla normal y de árbol aleatorio. La predicción se centró en el HCC, el cáncer de páncreas, el cáncer de pulmón no metastásico y metastásico. Con base en tres reglas (véase más abajo), se identificaron 90 genes (Tabla 10) cuyos niveles promedio de 5hmC en el cuerpo del gen podían distinguir grupos de cáncer de grupos sanos u entre grupos de cáncer.

Tabla 10A. Conjunto de 90 características del cuerpo génico utilizado para la predicción del cáncer ASF1B GLP2R C2orf62 SPATA31E1 SLAMF7 INSC LINC00304 LOC100507410 DUSP26 IRF7 RNF34 AUNIP

TTC24 ADAMTS4 TPM4 DUSP28 RNF122 SLC9A3R2

LOC255411 ATP6V0A2 SYT2 COMMD6 POU4F3 SYT11

RFPL3 KIF16B SHISA2 EPPIN-WFDC6 CPLX2 SIGLEC10

FLJ31813 RAG1 SLC25A46 FLJ16779 ZNF284 GBX1

PAIP1 PTPN2 APCDD1L-AS1 SOX18 ZNF850 C8orf22 ZNF800 TMEM168 GMCL1P1 CLDN15 RDH11 ZNF423 PODXL2 ABRACL LOCI 00507250 NRADDP BAGE EPN3

THAP7-AS1 GSTP1 CTRC TRAM1 ALDH1A3 PSMG1

MAFF AMOTL1 IGSF9B CC2D1B HOXC5 LHX5

FENDRR LOC100128946 PAX1 TPO CRP LOC100131234

KIF20B NPAS4 STXBP3 ARL6IP6 TMEM65 ETAA1

GNPDA2 ALG10B DAZL LINC00158 TMX2 RBM14-RBM4

SORD HMOX2 LDHD ZNF444 AGFG2 DHRS3

En un segundo análisis usando un método diferente, los cuerpos de los genes enumerados en la Tabla 10B se identificaron como predictivos de cáncer.

Tabla 10B: Conjunto de las principales características del cuerpo del gen utilizado para la predicción de cáncer CLDN15 SLC25A47 ZRANB2 LOC100506963 STXBP3 GPR26

P2RX2 LOC100507410 LHX5 HOXC5 FAM96A CALCB

RNF223 SHISA2 SLAMF7 PAX1 DACH1 LOC100128946 ASF1B KIF16B SSR2 LARS DHRS3 CCDC33 GMCL1P1 COMMD6 SPATA31E1 ABRACL SAMD11 UBQLN4 TCEA3 SYT2 INSL4 RAG1 CCNL2 CRP

DDX11L1 LOC729737 WASH7P LOC100132287

Los loci diana analizados en el método descrito anteriormente pueden incluir uno o más (por ejemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 o más, por ejemplo, 15 o más o 20 o más de los cuerpos de los genes enumerados en las Tablas 10A y/o 10B, como se muestra más arriba.

Además del cuerpo del gen, el 5hmC en las regiones no codificantes podría servir potencialmente como biomarcador para predecir los tipos de cáncer. Se diseñó otro conjunto de características investigando cada una de las ventanas de 2 kb de todo el genoma e identificando hMR diferenciales (DhMR) para cada tipo de cáncer. Se identificaron 17 DhMR marcadores para los cuatro grupos de cáncer distintivos (Tabla 11A).

Tabla 11A. Conjunto de 17 características de DhMR utilizadas para la predicción de cáncer crom9: 88044001-88046000 crom1: 63972001-63974000 crom1: 114670001-114672000 crom2: 133888001-133890000 crom1: 37824001-37826000 crom8: 53686001-53688000 crom2: 49900001-49902000 crom5: 103492001-103494000 crom2: 137676001-137678000 crom2: 200922001-200924000 crom2: 41780001-41782000 crom3: 137070001-137072000 crom7: 11020001-11022000 crom4: 90790001-90792000 crom3: 93728001-93730000 crom3: 87312001-87314000 crom6: 45304001-45306000

Tabla 11B: Conjunto de características principales de DhMR utilizado para la predicción de cáncer crom4: 90790001-90792000 crom6: 45304001-45306000 crom1: 169422001-169424000 crom1: 67584001-67586000 crom5: 103492001-103494000 crom3: 87312001-87314000 crom2: 219148001-219150000 crom1: 198222001-198224000 crom8: 53686001-53688000 crom1: 239846001-239848000 crom3: 23318001-23320000 crom6: 122406001-122408000 crom9: 3496001-3498000 crom1: 24806001-24808000 crom8: 69672001-69674000 crom2: 49900001-49902000 crom3: 107894001-107896000 crom8: 42934001-42936000 crom3: 17352001-17354000 crom6: 157286001-157288000 crom3: 108506001-108508000 crom4: 39342001-39344000 crom6: 129198001-129200000 crom3: 137070001-137072000 crom1: 59248001-59250000 crom5: 83076001-83078000 crom3: 93728001-93730000

Claims

REIVINDICACIONES

1. Un método de secuenciación de ADN fuera de las células hidroximetilado (ADNfc) para generar un patrón de hidroximetilación para identificar la presencia o ausencia de un fenotipo de enfermedad en un sujeto, en el que dicho ADNfc se origina a partir de una muestra de sangre del paciente, comprendiendo el método:

añadir una etiqueta de afinidad sólo a moléculas de ADN hidroximetilado en una muestra de ADNfc obtenida de la muestra de sangre del paciente;

enriquecer las moléculas de ADN que están etiquetadas con la etiqueta de afinidad al unirse a un soporte; amplificar el ADN enriquecido sin liberar el ADN del soporte;

secuenciar las moléculas de ADN amplificadas para producir una pluralidad de lecturas de secuencia específicas para el paciente; y

asignar una pluralidad de lecturas de secuencia específicas para el paciente a cada una de una pluralidad de loci diana para identificar un patrón de hidroximetilación en el ADNfc que indica la presencia o ausencia del fenotipo de la enfermedad en el paciente.

2. El método de la reivindicación 1, que comprende, además antes de añadir la etiqueta de afinidad, añadir secuencias adaptadoras en los extremos del ADNfc para proporcionar ADNfc ligado al adaptador.

3. El método de la reivindicación 2, en el que el ADN enriquecido se amplifica usando cebadores que se unen a los adaptadores.

4. El método de la reivindicación 3, en el que la etiqueta de afinidad comprende una fracción de biotina.

5. El método de la reivindicación 4, en el que el soporte se une a la fracción de biotina.

6. El método de la reivindicación 4 o la reivindicación 5, en el que la etiqueta de afinidad se añade mediante un método que comprende:

incubar el ADNfc ligado al adaptador con una ADN p-glucosiltransferasa y glucosa UDP modificada con un grupo quimioselectivo, marcando así covalentemente las moléculas de ADN hidroximetilado en el ADNfc con el grupo quimioselectivo; y

unir la fracción de biotina al ADNfc quimioselectivamente modificado.

7. El método de cualquiera de las reivindicaciones 2 a 6, en el que las secuencias adaptadoras comprenden un código de barras molecular.

8. El método de la reivindicación 1, que comprende además determinar si una o más secuencias de ácido nucleico en el ADN hidroximetilado enriquecido están sobrerrepresentadas o subrepresentadas.

9. El método de la reivindicación 8, que comprende además hacer un diagnóstico, una decisión de tratamiento o un pronóstico basado en las secuencias de ácido nucleico que están sobrerrepresentadas o subrepresentadas.

10. El método de la reivindicación 9, en el que el diagnóstico, la decisión de tratamiento o el pronóstico comprende un diagnóstico de cáncer.

11. El método de cualquiera de las reivindicaciones 8-10, en el que los loci diana incluyen uno o más de los siguientes cuerpos de los genes: ABRACL, ADAMTS4, AGPG2, ALDH1A3, ALG IOB, AMOTLI, APCDDIL-ASI, ARL6IP6, ASPIB, ATP6V0A2, AUNIP, BAGE, C2orf62, C8orf22, CALCB, CC2D1B, CCDC33, CCNL2, CLDN15, COMMD6, CPLX2, CRP, CTRC, DACHI, DAZL, DDXIILI, DHRS3, DUSP26, DUSP28, EPN3, EPPIN-WPDC6, ETAAI, PAM96A, FENDRR, PU16779, PU31813, GBXI, GLP2R, GMCLIPI, GNPDA2, GPR26, GSTPI, HMOX2, HOXC5, IGSP9B, INSC, INSL4, IRF7, KIP16B, KIP20B, LARS, LDHD, LHX5, LINC00158, LINC00304, LOC100128946, LOC100131234, LOC100132287, LOC100506963, LOC100507250, LOC100507410, LOC255411, LOC729737, MAPP, NPAS4, NRADDP, P2RX2, PAIPI, PAXI, PODXL2, POU4P3, PSMGI, PTPN2, RAGI, RBM14-RBM4, RDHII, RPPL3, RNP122, RNP223, RNP34, SAMDII, SHISA2, SIGLECIO, SLAMP7, SLC25A46, SLC25A47, SLC9A3R2, SORD, SOX18, SPATA31EI, SSR2, STXBP3, SYTI1, SYT2, TCEA3, THAP7-AS1, TMEM168, TMEM65, TMX2, TPM4, TPO, TRAMI, TTC24, UBQLN4, WASH7P, ZNF284, ZNF423, ZNF444, ZNF800, ZNF850, y ZRANB2.

12. El método de cualquiera de las reivindicaciones 8 a 10, en el que los loci diana incluyen uno o más de los siguientes intervalos en el genoma de referencia de hg19:

crom1: 114670001-114672000, crom1: 169422001-169424000, crom1: 198222001-198224000, crom1: 239846001 239848000, crom1: 24806001-24808000, crom1: 3234001-3236000, crom1: 37824001-37826000, crom1: 59248001 59250000, crom1: 63972001-63974000, crom1: 67584001-67586000, crom1: 77664001-77666000, crom2: 133888001-133890000, crom2: 137676001-137678000, crom2: 154460001-154462000, crom2: 200922001 200924000, crom2: 213134001-213136000, crom2: 219148001-219150000, crom2: 41780001-41782000, crom2: 49900001-49902000, crom3: 107894001-107896000, crom3: 108506001-108508000, crom3: 137070001-137072000, crom3: 17352001-17354000, crom3: 23318001-23320000, crom3: 87312001-87314000, crom3: 93728001-93730000, crom4: 39342001-39344000, crom4: 90790001-90792000, crom5: 103492001-103494000, crom5: 39530001 39532000, crom5: 83076001-83078000, crom6: 122406001-122408000, crom6: 129198001-129200000, crom6: 156800001-156802000, crom6: 157286001-157288000, crom6: 45304001-45306000, crom7: 11020001-11022000, crom7: 13364001-13366000, crom8: 42934001-42936000, crom8: 53686001-53688000, crom8: 69672001-69674000, crom9: 3496001-3498000 y crom9: 88044001-88046000.

13. Un método de análisis de muestras, que comprende:

(a) determinar, usando el método de cualquiera de las reivindicaciones 1-12, qué secuencias se hidroximetilan en una primera muestra de ADNfc y cuyas secuencias se hidroximetilan en una segunda muestra de ADNfc, en la que la primera y segunda muestras de ADNfc se obtienen del mismo sujeto en dos puntos de tiempo diferentes; y (b) comparar el patrón de hidroximetilación de la primera muestra con el patrón de hidroximetilación de la segunda muestra para determinar si ha habido un cambio en la hidroximetilación con el tiempo.

14. El método de la reivindicación 13, en el que la comparación da como resultado un mapa de los cambios en la hidroximetilación en el curso de una enfermedad, afección o tratamiento de una enfermedad o afección.