ES2926495T3

ES2926495T3 - Métodos y composiciones para el análisis de ácidos nucleicos

Info

Publication number: ES2926495T3
Application number: ES21157421T
Authority: ES
Inventors: Xinying Zheng; Serge Saxonov; Michael Schnall-Levin; Kevin Ness; Rajiv Bharadwaj
Original assignee: 10X Genomics Inc
Current assignee: 10X Genomics Inc
Priority date: 2015-12-04
Filing date: 2016-12-02
Publication date: 2022-10-26
Anticipated expiration: 2036-12-02
Also published as: DE202016009134U1; SG11201804086VA; US20170159109A1; DK3882357T3; US12421539B2; US11473125B2; CN115369161A; KR20180081164A; JP2022000050A; US11873528B2; US11624085B2; US20230073186A1; US20190085380A1; JP2018537086A; KR20240161696A; US20210238660A1; EP3882357B1; JP6954899B2; WO2017096158A1; US20240167079A1

Abstract

La presente invención está dirigida a métodos, composiciones y sistemas para analizar información de secuencias mientras se retiene el contexto estructural y molecular de esa información de secuencias. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Métodos y composiciones para el análisis de ácidos nucleicos

Antecedentes de la invención

La secuenciación de polinucleótidos sigue encontrando un uso cada vez mayor en aplicaciones médicas, tales como la detección genética y la genotipificación de tumores. Muchos métodos de secuenciación de polinucleótidos se basan en técnicas de procesamiento de muestras de la muestra original, incluida la fragmentación aleatoria de polinucleótidos. Estas técnicas de procesamiento pueden proporcionar ventajas en términos de rendimiento y eficiencia, pero la información de la secuencia resultante obtenida de estas muestras procesadas puede carecer de información contextual importante en términos de la ubicación de secuencias particulares dentro de la secuencia lineal más amplia (bidimensional) de la molécula de ácido nucleico original que contenía esas secuencias. El contexto estructural dentro del espacio tridimensional de la muestra original también se pierde con muchas técnicas de procesamiento y secuenciación de muestras. Por lo tanto, existe la necesidad de tecnologías de secuenciación que retengan el contexto estructural y molecular de las secuencias de ácido nucleico identificadas.

El documento WO 2013/150083 describe métodos para la identificación de áreas de una muestra a partir de las cuales se originan moléculas de ácido nucleico, usando el marcaje de dichas moléculas de ácido nucleico mediante marcadores de oligonucleótidos distribuidos bidimensionalmente.

El documento WO 2014/060483 describe métodos y productos para la detección o el análisis localizado o espacial de ARN en una muestra de tejido o una porción de la misma.

Sumario de la invención

En consecuencia, la presente invención proporciona métodos, sistemas y composiciones para proporcionar información de secuencia que conserva el contexto tanto molecular como estructural de la molécula de ácido nucleico de origen. La presente divulgación proporciona métodos para analizar los ácidos nucleicos obtenidos de una muestra de tejido embebida en parafina fijada con formol (FFPE) mientras se conserva el contexto espacial. Dichos métodos incluyen las etapas de:

a) dividir los ácidos nucleicos obtenidos de la muestra de tejido FFPE en una pluralidad de pocillos; en el que los ácidos nucleicos en proximidad espacial entre sí en la muestra de tejido FFPE se introducen en el mismo pocillo; b) códigos de barras de ácidos nucleicos divididos para formar una pluralidad de ácidos nucleicos con código de barras, en el que los ácidos nucleicos con código de barras dentro de un pocillo discreto dado comprenden cada uno una secuencia de código de barras específica de partición común, de modo que las secuencias de código de barras identifican los ácidos nucleicos de un pocillo determinado;

c) obtener información de secuencia de la pluralidad de ácidos nucleicos con código de barras, en el que la información de secuencia de la pluralidad de ácidos nucleicos con código de barras comprende información de secuencia de la secuencia de código de barras específica de la partición; y

d) atribuir la pluralidad de ácidos nucleicos con código de barras a una región de proximidad espacial, , en la que los ácidos nucleicos con código de barras derivados de una región de proximidad espacial en la muestra de tejido FFPE comprenden el mismo código de barras específico de la partición.

En algunas realizaciones, el código de barras comprende amplificar con un cebador que comprende una secuencia de código de barras.

En algunas realizaciones, al menos dos de los ácidos nucleicos particionados en el mismo pocillo en la etapa de partición a) comprenden secuencias diferentes.

En algunas realizaciones, el método comprende adicionalmente, antes de (a), una etapa previa a la obtención de imágenes de la muestra de tejido FFPE. Dicha formación de imágenes puede comprender etiquetas de formación de imágenes con propiedades ópticas, de tal manera que etiquetas concretas se asocian con regiones concretas de la muestra representada. El método puede comprender además la correlación de ácidos nucleicos con código de barras derivados de una región de proximidad espacial en la muestra de tejido FFPE con las etiquetas de imágenes.

En algunas realizaciones, la muestra de tejido FFPE es una muestra de tejido canceroso.

En algunas realizaciones, los ácidos nucleicos con código de barras en diferentes pocillos se agrupan antes de obtener la información de la secuencia.

La información de la secuencia puede comprender además información relacionada con un ácido nucleico obtenido de la muestra de tejido FFPE.

En algunas realizaciones, el método comprende adicionalmente, antes de a), una etapa previa de liberación de los ácidos nucleicos de la muestra de tejido FFPE.

En algunas realizaciones, los ácidos nucleicos obtenidos de la muestra de tejido FFPE comprenden etiquetas de ácido nucleico aplicadas previamente a la muestra.

En algunas realizaciones, la etapa de obtener información de secuencia comprende la secuenciación de alto rendimiento de la pluralidad de ácidos nucleicos con código de barras.

En algunas realizaciones, las secuencias de códigos de barras específicas de la partición comprenden dos o más subsecuencias separadas.

Breve descripción de los dibujos

La Figura 1 proporciona una ilustración esquemática del contexto molecular y el contexto estructural de acuerdo con los métodos descritos en el presente documento.

La Figura 2 proporciona una ilustración esquemática de un proceso descrito en el presente documento.

La Figura 3 ilustra un flujo de trabajo típico para realizar un ensayo para detectar información de secuencia, usando los métodos y composiciones desvelados en el presente documento.

La Figura 4 proporciona una ilustración esquemática de un proceso para combinar una muestra de ácido nucleico con perlas y particionar los ácidos nucleicos y las perlas en gotículas discretas.

La Figura 5 proporciona una ilustración esquemática de un proceso de codificación de barras y amplificación de fragmentos de ácido nucleico cromosómico.

La Figura 6 proporciona una ilustración esquemática del uso de códigos de barras de fragmentos de ácido nucleico para atribuir datos de la secuencia a su molécula de ácido nucleico de origen.

La Figura 7 proporciona una ilustración esquemática de un método de preparación de muestra de ejemplo.

Descripción detallada de la invención

La práctica de la presente invención puede emplear, a menos que se indique lo contrario, técnicas convencionales y descripciones de química orgánica, tecnología de polímeros, biología molecular (incluidas técnicas recombinantes), biología celular, bioquímica e inmunología, que se encuentran entre las técnicas de la materia. Tales técnicas convencionales incluyen la síntesis de matrices de polímeros, hibridación, ligamiento, presentación en fagos y detección de hibridación usando un marcador. Ilustraciones específicas de la técnica adecuada pueden obtenerse por referencia al ejemplo en el presente documento a continuación. Sin embargo, por supuesto, también pueden usarse otros procedimientos convencionales equivalentes. Dichas técnicas y descripciones convencionales se pueden encontrar en manuales de laboratorio estándar tales como Genome Analysis: A Laboratory Manual Series (Vols. I-IV), Using Antibodies: A Laboratory Manual, Cells: A Laboratory Manual, PCR Primer: A Laboratory Manual, and Molecular Cloning: A Laboratory Manual (todos de Cold Spring Harbor Laboratory Press), Stryer, L. (1995) Biochemistry (4a Ed.) Freeman, Nueva York, Gait, "Oligonucleotide Synthesis: A Practical Approach" 1984, IRL Press, Londres, Nelson y Cox (2000), Lehninger, Principles of Biochemistry 3a Ed., W. H. Freeman Pub., Nueva York, N.Y. y Berg et al. (2002) Biochemistry, 5a Ed., W. H. Freeman Pub., Nueva York, N.Y.

Cabe destacar que, como se utilizan en el presente documento y en las reivindicaciones adjuntas, las formas en singular "un/uno", "una", y "el/la" incluyen los referentes en plural a menos que el contexto indique claramente lo contrario. Por lo tanto, por ejemplo, la referencia a "una polimerasa" se refiere a uno o mezclas de dichos candidatos, y la referencia a "el método" incluye la referencia a etapas y métodos equivalentes conocidos por los expertos en la materia, etc.

A menos que se defina de otra manera, todos los términos técnicos y científicos usados en el presente documento tienen el mismo significado que el entendido comúnmente por un experto en la materia a la que pertenece la presente invención.

Cuando se proporciona un intervalo de valores, se entiende que cada valor intermedio, hasta el décimo de la unidad del límite inferior, a menos que el contexto indique claramente lo contrario, entre el límite superior e inferior de ese intervalo y cualquier otro valor afirmado o intermedio en este intervalo se incluye dentro de la invención. Los límites superior e inferior de estos intervalos más pequeños pueden incluirse independientemente en los intervalos más pequeños que también se engloban dentro de la invención, sujetos a cualquier límite específicamente excluido en el intervalo establecido. Cuando el intervalo indicado incluye uno o ambos límites, los intervalos que excluyen cualquiera de los dos límites incluidos también se incluyen en la invención.

En la siguiente descripción, se exponen numerosos detalles específicos para proporcionar una comprensión exhaustiva de la presente divulgación. Sin embargo, será evidente para un experto en la materia que la presente invención se puede poner en práctica sin uno o más de estos detalles específicos. En otros casos, no se han descrito características y procedimientos bien conocidos por los expertos en la materia para evitar confusiones sobre la invención.

Como se usa en el presente documento, la expresión "que comprende" pretende significar que las composiciones y los métodos incluyen los elementos citados, pero no excluyen otros. "Que consiste esencialmente en" cuando se usa para definir las composiciones y los métodos, significará excluir de la composición o métodos otros elementos de cualquier significado esencial. "Que consistente en" significará la exclusión de más que oligoelementos de otros ingredientes para las composiciones reivindicadas y las etapas sustanciales del método. Las realizaciones definidas por cada uno de estos términos de transición están dentro del alcance de la presente invención. En consecuencia, se pretende que los métodos y las composiciones puedan incluir etapas y componentes adicionales (que comprendan) 0, como alternativa, que incluyan etapas y composiciones poco significativos (que consistan esencialmente en) o como alternativa, que incluyan únicamente las etapas o composiciones del método indicados (que consistan en).

Todas las designaciones numéricas, por ejemplo, pH, temperatura, tiempo, concentración y peso molecular, incluyendo los intervalos, son aproximaciones que varían (+) o (-) en incrementos de 0,1. Debe entenderse, aunque no siempre se indique explícitamente, que todas las designaciones numéricas están precedidas por el término "aproximadamente". El término "aproximadamente" también incluye el valor exacto "X" además de incrementos minoritarios de "X", tales como "X 0,1" o "X - 0,1". También se ha de entender, aunque no siempre se indique explícitamente, que los reactivos descritos en el presente documento son simplemente ilustrativos y que en la técnica se conocen sus equivalentes.

1. Descripción general

La presente divulgación proporciona métodos, composiciones y sistemas para la caracterización de material genético. Por lo general, los métodos, las composiciones y los sistemas descritos en el presente documento proporcionan métodos para analizar los componentes de una muestra al tiempo que conservan información sobre el contexto estructural y molecular de esos componentes tal como estaban originalmente en la muestra.

El ácido desoxirribonucleico (ADN) es una molécula lineal y, como tal, el genoma suele describirse y evaluarse en términos de dimensiones lineales. Sin embargo, los cromosomas no son rígidos y la distancia espacial entre dos loci genómicos no siempre tiene por qué corresponder a su distancia a lo largo de la secuencia lineal del genoma. Las regiones separadas por muchas megabases pueden ser inmediatamente adyacentes en un espacio tridimensional. Desde el punto de vista de la regulación, puede ser útil comprender las interacciones de largo alcance entre los loci genómicos. Por ejemplo, los potenciadores de genes, los silenciadores y los elementos aislantes posiblemente pueden funcionar a través de grandes distancias genómicas. La capacidad de retener tanto el contexto estructural como el molecular de las lecturas de secuencia proporciona la capacidad de comprender tales interacciones de largo alcance.

"Retener el contexto estructural" como se usa en el presente documento significa que las lecturas de secuencias múltiples o las porciones múltiples de lecturas de secuencias son atribuibles a la ubicación relativa tridimensional original de esas lecturas de secuencias dentro de la muestra. En otras palabras, las lecturas de secuencia se pueden asociar con una ubicación relativa dentro de la muestra con respecto a los ácidos nucleicos vecinos (y en algunas situaciones proteínas asociadas) en esa muestra. Esta información espacial está disponible a través de los métodos discutidos en el presente documento incluso si esos ácidos nucleicos vecinos no están ubicados físicamente dentro de la secuencia lineal de una única molécula de ácido nucleico de origen. Con referencia a la ilustración esquemática de la Figura 1: en una muestra (101), las secuencias (104) y (105) están ubicadas dentro de la secuencia lineal de dos moléculas de ácido nucleico de origen diferente ((102) y (103) respectivamente), pero están ubicados en proximidad espacial entre sí dentro de la muestra. Los métodos y composiciones descritos en el presente documento brindan la capacidad de retener esa información en el contexto estructural de las lecturas de secuencias y, por lo tanto, permiten que las lecturas de las secuencias (104) y (105) se atribuyan a su relativa proximidad espacial dentro de la muestra original en las moléculas de ácido nucleico originales (102) y (103) de las que se derivan esas lecturas de secuencia.

Los métodos y composiciones analizados en el presente documento también proporcionan información de secuencia que retiene el contexto molecular. "Retener el contexto molecular", como se usa en el presente documento, significa que múltiples lecturas de secuencias o múltiples porciones de lecturas de secuencias pueden atribuirse a una sola molécula de origen de un ácido nucleico. Si bien esta molécula única de un ácido nucleico puede tener diversas longitudes, en aspectos preferidos, será una molécula relativamente larga, lo que permite la preservación del contexto molecular de largo alcance. En particular, la molécula de origen individual es, de forma preferente sustancialmente más larga que la longitud de secuencia de lectura corta típica, por ejemplo, más de 200 bases, y a menudo tiene al menos 1000 bases o más, 5000 bases o más, 10.000 bases o más, 20.000 bases o más, 30.000 bases o más, 40.000 bases o más, 50.000 bases o más, 60.000 bases o más, 70.000 bases o más, 80.000 bases o más, 90.000 bases o más o 100.000 bases o más y, en algunos casos, hasta 1 megabase o más.

Por lo general, los métodos descritos en el presente documento incluyen el análisis de ácidos nucleicos mientras se mantiene el contexto estructural y molecular. Dichos análisis incluyen métodos en los que se proporciona una muestra que contiene ácidos nucleicos, donde los ácidos nucleicos contienen estructuras tridimensionales. Las porciones de la muestra se separan en particiones discretas de modo que las porciones de las estructuras tridimensionales de ácido nucleico también se separan en particiones discretas: las secuencias de ácido nucleico que están en proximidad espacial entre sí tenderán a separarse en la misma partición, reteniendo así la información tridimensional de esa proximidad espacial incluso cuando las lecturas de secuencias obtenidas más tarde sean de secuencias que no estaban originalmente en la misma molécula de ácido nucleico de origen individual. Con referencia nuevamente a la Figura 1: si la muestra 101, que contiene las moléculas de ácido nucleico 102 y 103 y 106, se separa en particiones discretas de manera que los subconjuntos de la muestra se asignan en diferentes particiones discretas, es más probable que las moléculas de ácido nucleico 102 y 103 se coloquen en la misma partición entre sí que con la molécula de ácido nucleico 106, debido a la distancia física entre la molécula de ácido nucleico 106 y 102 y 103. Como tal, las moléculas de ácido nucleico dentro de las mismas particiones discretas son aquellas que estaban en proximidad espacial entre sí en la muestra original. La información de secuencia obtenida de los ácidos nucleicos dentro de las particiones discretas proporciona una forma de analizar los ácidos nucleicos, por ejemplo, a través de la secuenciación de ácidos nucleicos, y atribuir esas lecturas de secuencias al contexto estructural de las moléculas de ácido nucleico de origen.

En ejemplos adicionales, el contexto estructural (también denominado en el presente documento "contexto geográfico") se puede mantener utilizando etiquetas (tales como oligonucleótidos de código de barras) para codificar la geografía de la muestra. En algunas situaciones, esto puede incluir inyectar una biblioteca vírica que codifica una colección de secuencias con código de barras (tales como secuencias de ARNm) en una muestra. Los códigos de barras viajan a través de la muestra por procesos activos o por difusión. Cuando la muestra se procesa posteriormente de acuerdo con los métodos descritos en el presente documento y conocidos en la técnica, los códigos de barras se pueden correlacionar con posiciones estructurales para identificar secuencias de ácidos nucleicos de la misma ubicación geográfica dentro de la muestra. En ejemplos en los que los códigos de barras se distribuyen a través de la muestra a través de procesos activos, las secuencias con el mismo código de barras pueden estar conectadas geográficamente y/o conectadas a través del mismo proceso. Como se apreciará, este sistema de uso de etiquetas para codificar el contexto estructural se puede usar solo o en combinación con los métodos descritos en el presente documento que utilizan particiones discretas para retener aún más el contexto estructural y molecular. En ejemplos en los que se utilizan etiquetas para codificar ubicaciones espaciales y códigos de barras para identificar moléculas separadas en las mismas particiones discretas, las muestras están, en esencia, etiquetadas o con "doble código de barras", cuando un conjunto de códigos de barras se usa para identificar ubicaciones espaciales y un conjunto de códigos de barras es específico de la partición. En dichos ejemplos, ambos conjuntos de códigos de barras se pueden utilizar para proporcionar información para retener el contexto estructural y molecular de las lecturas de secuencias generadas a partir de la muestra.

En algunos ejemplos, la información de secuencia obtenida de los ácidos nucleicos proporciona información sobre interacciones intracromosómicas y/o intercromosómicas entre loci genómicos. En ejemplos adicionales, la información de secuencia incluye información sobre conformaciones cromosómicas.

En ejemplos adicionales, antes de la separación en las particiones discretas, los ácidos nucleicos en la muestra pueden procesarse para unir diferentes regiones de sus estructuras tridimensionales de manera que las regiones de la secuencia que están próximas entre sí dentro de esas estructuras tridimensionales se unen entre sí. Como tal, la separación de la muestra en particiones discretas separará esas regiones unidas en la misma partición, asegurando así aún más que se conserve el contexto estructural de cualquier lectura de secuencia de esos ácidos nucleicos.

En algunas situaciones, la unión de ácidos nucleicos se puede lograr usando cualquier método conocido en la técnica usado para entrecruzar moléculas en proximidad espacial. Dichos agentes de entrecruzamiento pueden incluir, sin limitación, agentes alquilantes, cisplatino, óxido nitroso, psoralenos, aldehídos, acroleína, glioxal, tetróxido de osmio, carbodiimida, cloruro de mercurio, sales de cinc, ácido pícrico, dicromato de potasio, etanol, metanol, acetona, ácido acético y similares. En ejemplos específicos, los ácidos nucleicos se unen mediante protocolos diseñados para el análisis de la arquitectura tridimensional de los genomas, tales como el protocolo "Hi-C" descrito, por ejemplo, en Dekker et al., "Capturing chromosome conformation" Science 295:1306-1311 (2002) y Berkum et al., J. Vis. Exp. (39), e1869, doi: 10.3791/1869 (2010), que proporciona enseñanzas particulares relacionadas con la unión de moléculas de ácido nucleico. Dichos protocolos generalmente implican la producción de una biblioteca de moléculas mediante entrecruzamiento de la muestra para que los loci genómicos que están en estrecha proximidad espacial se unan. En realizaciones adicionales, el bucle de ADN intermedio entre el entrecruzamiento se digiere y luego las regiones intrasecuenciales se entrecruzan inversamente para añadirlas a la biblioteca. Las etapas de digestión y entrecruzamiento inverso pueden ocurrir antes de una etapa de dividir la muestra en particiones discretas o pueden ocurrir dentro de las particiones después de la etapa de separación.

En otros ejemplos adicionales, los ácidos nucleicos pueden someterse a una etapa de etiquetado o codificación de barras que proporciona un código de barras común para todos los ácidos nucleicos dentro de una partición. Como se apreciará, este código de barras puede ocurrir con o sin las etapas de unión/entrecruzamiento de ácidos nucleicos analizadas anteriormente. El uso de la técnica de código de barras desvelada en el presente documento confiere la capacidad única de proporcionar un contexto estructural y molecular individual para las regiones genómicas, es decir, al atribuir ciertas lecturas de secuencias a moléculas de ácido nucleico de muestra individuales y a través del ensamblaje coordinado de variantes, para proporcionar un contexto inferido más amplio o incluso de mayor alcance, entre múltiples muestras de moléculas de ácido nucleico y/o a un cromosoma específico. La expresión "región genómica" o "región" como se usa en el presente documento, se refiere a cualquier longitud definida de un genoma y/o cromosoma. Por ejemplo, una región genómica puede referirse a la asociación (es decir, por ejemplo, una interacción) entre más de un cromosoma. Una región genómica también puede abarcar un cromosoma completo o un cromosoma parcial. Además, una región genómica puede incluir una secuencia de ácido nucleico específica en un cromosoma (es decir, por ejemplo, un marco de lectura abierto y/o un gen regulador) o una región no codificante intergénica.

El uso de códigos de barras confiere las ventajas adicionales de facilitar la capacidad de discriminar entre constituyentes minoritarios y mayoritarios de la población total de ácidos nucleicos extraídos de la muestra, por ejemplo, para la detección y caracterización del ADN tumoral circulante en el torrente sanguíneo, y también reduce o elimina el sesgo de amplificación durante los pasos de amplificación opcionales. Además, la implementación en un formato de microfluidos confiere la capacidad de trabajar con volúmenes de muestra extremadamente pequeños y cantidades de entrada bajas de ADN, así como la capacidad de procesar rápidamente un gran número de particiones de muestra (gotículas) para facilitar el etiquetado de todo el genoma.

Además de proporcionar la capacidad de obtener información de secuencias de regiones completas o seleccionadas del genoma, los métodos y sistemas descritos en el presente documento también pueden proporcionar otras caracterizaciones de material genómico, incluyendo, sin limitación, la fase de haplotipos, identificación de variaciones estructurales y variaciones en el número de copias, como se describe en USSN 14/316,383 (documento US 2014/0378345); 14/316398 (documento US 2015/0005199); 14/316.416 (documento US 2014/0378349); 14/316.431 (documento US 2015/0005200); 14/316.447 (documento US 2014/0378350); y 14/316,463 (documento US 2014/0378322), que proporcionan una descripción escrita, figuras y ejemplos de trabajo dirigidos a la caracterización de material genómico.

En general, los métodos de la invención incluyen etapas como se ilustra en la Figura 2, que proporciona una visión general esquemática de los métodos de la invención analizados con mayor detalle en el presente documento. Como se apreciará, el método indicado en la Figura 2 es una realización de ejemplo que puede alterarse o modificarse según sea necesario y como se describe en el presente documento. Como se muestra en la figura 2, los métodos descritos en el presente documento pueden incluir una etapa opcional 201 en la que los ácidos nucleicos de muestra se procesan para unir ácidos nucleicos en proximidad espacial entre sí. Con o sin dicha etapa de procesamiento preliminar (201), los métodos descritos en el presente documento incluirán en la mayoría de los ejemplos una etapa en la que se particionan los ácidos nucleicos de muestra que contienen (202). En general, cada partición que contiene ácidos nucleicos de regiones genómicas de interés se someterá a un proceso que da como resultado fragmentos que contienen códigos de barras (203). A continuación, esos fragmentos pueden agruparse (204) antes de la secuenciación (205). Las lecturas de secuencia de (205) se puede atribuir al contexto estructural y molecular de origen (206) generalmente debido a los códigos de barras específicos de partición (203). En algunos ejemplos, cada partición puede incluir más de un ácido nucleico y, en algunos casos, contendrá varios cientos de moléculas de ácido nucleico. Los fragmentos con código de barras de la etapa 203 se pueden generar usando cualquier método conocido en la técnica - en algunos ejemplos, los oligonucleótidos se incluyen con las muestras dentro de las distintas particiones. Dichos oligonucleótidos pueden comprender secuencias aleatorias destinadas a cebar aleatoriamente numerosas regiones diferentes de las muestras, o pueden comprender una secuencia cebadora específica dirigida a cebar aguas arriba de una región objetivo de la muestra. En ejemplos adicionales, estos oligonucleótidos también contienen una secuencia de código de barras, de modo que el proceso de replicación también codifique en barras el fragmento replicado resultante del ácido nucleico de la muestra original. Un proceso particularmente elegante para el uso de estos oligonucleótidos de código de barras en muestras de amplificación y codificación de barras se describe con detalle en USSN 14/316,383 (documento US 2014/0378345); 14/316398 (documento US 2015/0005199); 14/316.416 (documento US 2014/0378349); 14/316.431 (documento US 2015/0005200); 14/316.447 (documento US 2014/0378350); y 14/316,463 (documento US 2014/0378322), que proporcionan enseñanzas relacionadas con la codificación de barras y la amplificación de oligonucleótidos. Los reactivos de la reacción de extensión, por ejemplo, ADN polimerasa, trifosfatos de nucleósidos, cofactores (por ejemplo, Mg2+ o Mn2+, etc.), que también están contenidos en las particiones, extienden después la secuencia del cebador usando la muestra como molde, para producir un fragmento complementario a la hebra del molde con la que se hibridó el cebador y el fragmento complementario incluye el oligonucleótido y su secuencia de código de barras asociada. La hibridación y la extensión de múltiples cebadores a diferentes porciones de la muestra pueden dar como resultado una gran agrupación de fragmentos complementarios superpuestos de la muestra, de modo que cada uno posee su propia secuencia de código de barras indicativa de la partición en la que se creó. En algunos casos, estos fragmentos complementarios se pueden utilizar como molde cebado por los oligonucleótidos presentes en la partición para producir un complemento del complemento que, de nuevo, incluye la secuencia del código de barras. En ejemplos adicionales, este proceso de replicación está configurado de tal manera que cuando se duplica el primer complemento, produce dos secuencias complementarias en o cerca de sus extremos para permitir la formación de una estructura de horquilla o una estructura de horquilla parcial, lo que reduce la capacidad de la molécula para ser la base para producir más copias iterativas. Una ventaja de los métodos y sistemas descritos en el presente documento es que fijar un código de barras específico de partición o muestra a los fragmentos copiados conserva el contexto molecular original de los fragmentos secuenciados, lo que les permite atribuirse a su partición original y, por lo tanto, a su molécula de ácido nucleico de muestra de origen.

A menudo, la muestra se combina con un conjunto de etiquetas de oligonucleótidos que se unen de forma liberable a las perlas antes de la etapa de partición. Los métodos para la codificación con barras de ácidos nucleicos son conocidos en la técnica y se describen en el presente documento. En algunos ejemplos, los métodos se utilizan como se describe en Amini et al, 2014, Nature Genetics, publicación online anticipada), que proporcionan enseñanzas relacionadas con la fijación de códigos de barras u otras etiquetas de oligonucleótidos a ácidos nucleicos. Los métodos de procesamiento y secuenciación de ácidos nucleicos de acuerdo con los métodos y sistemas descritos en la presente solicitud también se describen con mayor detalle en USSN 14/316,383 (documento US 2014/0378345); 14/316398 (documento US 2015/0005199); 14/316.416 (documento US 014/0378349); 14/316.431 (documento US 2015/0005200); 14/316.447 (documento US 2014/0378350); y 14/316,463 (documento US 2014/0378322) que proporcionan una descripción escrita, figuras y ejemplos de trabajo dirigidos al procesamiento y secuenciación de ácidos nucleicos y otras caracterizaciones de material genómico.

Además del flujo de trabajo anterior, las regiones genómicas objetivo pueden enriquecerse, aislarse o separarse, es decir, "extraerse", para análisis adicional, particularmente la secuenciación, utilizando métodos que incluyen métodos de captura basados en chips y en soluciones. Dichos métodos utilizan sondas que son complementarias a las regiones genómicas de interés o a regiones cercanas o adyacentes a las regiones genómicas de interés. Por ejemplo, en captura híbrida (o basada en chip), las micromatrices que contienen sondas de captura (generalmente oligonucleótidos monocatenarios) con secuencias que juntas cubren la región de interés se fijan a una superficie. El ADN genómico está fragmentado y puede someterse a un procesamiento posterior, tal como reparación de extremos para producir extremos romos y/o la adición de características adicionales, como secuencias de cebado universales. Estos fragmentos se hibridan con las sondas en la micromatriz. Los fragmentos no hibridados se eliminan por lavado y los fragmentos deseados se eluyen o se procesan de otro modo en la superficie para la secuenciación u otro análisis y, por lo tanto, la población de fragmentos que quedan en la superficie se enriquece con fragmentos que contienen las regiones objetivo de interés (por ejemplo, las regiones que comprenden las secuencias complementarias a las contenidas en las sondas de captura). La población enriquecida de fragmentos puede amplificarse adicionalmente utilizando cualquier tecnología de amplificación conocida en la técnica. En USSN 14/927,297 (documento US 2016/0122817), presentado el 29 de octubre de 2015, se describen métodos de ejemplo para dichos métodos de enriquecimiento de extracción objetivo, que se incorpora por la presente por referencia en su totalidad para todos los propósitos y, en particular, para todas las enseñanzas relacionadas con los métodos de enriquecimiento de extracción objetivo y los métodos de secuenciación, incluyendo toda la descripción escrita, las figuras y los ejemplos. La población de regiones genómicas objetivo puede enriquecerse adicionalmente antes de los métodos de extraídos descritos anteriormente usando métodos para aumentar la cobertura de esas regiones objetivo. Esta mayor cobertura puede lograrse, por ejemplo, utilizando métodos de amplificación dirigidos, incluyendo los descritos por ejemplo en el documento USSⁿ62/119,996, presentado el 24 de febrero de 2015, que se incorpora en el presente documento por referencia para todos los propósitos y en particular para todas las enseñanzas relacionadas con la cobertura dirigida de moléculas de ácido nucleico.

En casos específicos, los métodos descritos en el presente documento incluyen una etapa en la que las regiones seleccionadas del genoma se amplifican selectivamente antes de la secuenciación. Esta amplificación, que generalmente se lleva a cabo utilizando métodos conocidos en la técnica (incluida, sin limitación, amplificación por PCR) proporciona al menos 1X, 10X, 20X, 50X, 100X, 200X, 500X, 1000X, 1500X, 2000X, 5000X o 10000X de cobertura de las regiones seleccionadas del genoma, proporcionando así una cantidad de ácidos nucleicos para permitir la secuenciación de novo de esas regiones seleccionadas. En realizaciones adicionales, la amplificación proporciona al menos 1X-20X, 50X-100X, 200X-1000X, 1500X-5000X, 5000X-10.000X, 1000X-10000X, 1500X-9000X, 2000X-8000X, 2500X-7000X, 3000X-6500X, 3500X-6000X, 4000X-5500X cobertura de las regiones seleccionadas del genoma.

La amplificación generalmente se lleva a cabo mediante la extensión de cebadores complementarios a las secuencias dentro o cerca de las regiones seleccionadas del genoma. En algunos casos, se utiliza una biblioteca de cebadores que está diseñada para cubrir las regiones de interés; en otras palabras, la biblioteca de cebadores está diseñada para amplificar regiones a distancias específicas a lo largo de las regiones seleccionadas del genoma. En algunos casos, la amplificación selectiva utiliza cebadores que son complementarios cada 10, 15, 20, 25, 50, 100, 200, 250, 500, 750, 1000 o 10000 bases a lo largo de las regiones seleccionadas del genoma. En otros ejemplos adicionales, la biblioteca en mosaico de cebadores está diseñada para capturar una mezcla de distancias; esa mezcla puede ser una mezcla aleatoria de distancias o diseñada inteligentemente de manera que porciones o porcentajes específicos de las regiones seleccionadas se amplifiquen mediante diferentes pares de cebadores. Se proporciona más información sobre la cobertura dirigida del genoma para su uso de acuerdo con los métodos descritos en el presente documento, por ejemplo, en el documento USSN 62/146,834, presentado el lunes, 13 de abril de 2015, que proporciona enseñanzas relacionadas con la cobertura específica de un genoma.

Por lo general, los métodos y sistemas descritos en el presente documento proporcionan ácidos nucleicos para análisis, tal como secuenciación. La información de secuenciación se obtiene usando métodos que tienen las ventajas de las tasas de error de secuenciación extremadamente bajas y el alto rendimiento de las tecnologías de secuenciación de lectura corta. Como se ha descrito anteriormente, la secuenciación de ácidos nucleicos normalmente se lleva a cabo de una manera que conserva el contexto estructural y molecular de las lecturas de secuencias o partes de las lecturas de secuencias. Con esto se quiere decir que las lecturas de secuencias múltiples o las porciones múltiples de lecturas de secuencias pueden atribuirse a la ubicación espacial en relación con otros ácidos nucleicos en la muestra original (contexto estructural) y a la ubicación de esa secuencia leída a lo largo de la secuencia lineal de una única molécula de origen un ácido nucleico (contexto molecular). Si bien esta molécula única de un ácido nucleico puede tener diversas longitudes, en aspectos preferidos, será una molécula relativamente larga, lo que permite la preservación del contexto molecular de largo alcance. En particular, la molécula de origen individual es, de forma preferente sustancialmente más larga que la longitud de secuencia de lectura corta típica, por ejemplo, más de 200 bases, y a menudo tiene al menos 1000 bases o más, 5000 bases o más, 10.000 bases o más, 20.000 bases o más, 30.000 bases o más, 40.000 bases o más, 50.000 bases o más, 60.000 bases o más, 70.000 bases o más, 80.000 bases o más, 90.000 bases o más o 100.000 bases o más y, en algunos casos, hasta 1 megabase o más.

Como se ha señalado anteriormente, los métodos y sistemas descritos en el presente documento proporcionan un contexto molecular individual para lecturas de secuencias cortas de ácidos nucleicos más largos. Como se usa en el presente documento, el contexto molecular individual se refiere al contexto de la secuencia más allá de la secuencia específica leída, por ejemplo, relación con secuencias adyacentes o proximales, que no están incluidos dentro de la secuencia leída en sí, y como tal, normalmente serán tales que no se incluirán en su totalidad o en parte en una lectura de secuencia corta, por ejemplo, una lectura de unas 150 bases o aproximadamente 300 bases para lecturas pareadas. En aspectos particularmente preferidos, los métodos y sistemas proporcionan un contexto de secuencia de largo alcance para lecturas de secuencia corta. Dicho contexto de largo alcance incluye la relación o el enlace de una lectura de secuencia dada con lecturas de secuencia que están a una distancia entre sí de más de 1 kb, más de 5 kb, más de 10 kb, más de 15 kb, más de 20 kb, más de 30 kb, más de 40 kb, más de 50 kb, más de 60 kb, más de 70 kb, más de 80 kb, más de 90 kb o incluso más de 100 kb, o más. Como se apreciará, al proporcionar un contexto molecular individual de largo alcance, también se puede derivar la información de fase de las variantes dentro de ese contexto molecular individual, por ejemplo, las variantes en una molécula larga en particular serán, por definición, comúnmente escalonadas.

Al proporcionar un contexto molecular individual de mayor alcance, los métodos y sistemas de la invención también proporcionan un contexto molecular inferido mucho más largo (también denominado en el presente documento "lectura de molécula única virtual larga"). El contexto de secuencia, como se describe en el presente documento, puede incluir mapear o proporcionar enlaces de fragmentos a través de diferentes intervalos (generalmente en la escala de kilobases) de secuencia genómica completa. Estos métodos incluyen mapear las lecturas de secuencia corta a las moléculas más largas individuales o cóntigos de moléculas unidas, así como la secuenciación de largo alcance de grandes porciones de las moléculas individuales más largas, por ejemplo, que tienen determinadas secuencias contiguas de moléculas individuales cuando dichas secuencias determinadas tienen una longitud de más de 1 kb, más de 5 kb, más de 10 kb, más de 15 kb, más de 20 kb, más de 30 kb, más de 40 kb, más de 50 kb, más de 60 kb, más de 70 kb, más de 80 kb, más de 90 kb o incluso más de 100 kb. Al igual que con el contexto de secuencia, la atribución de secuencias cortas a ácidos nucleicos más largos, por ejemplo, tanto moléculas de ácido nucleico largas individuales como colecciones de moléculas de ácido nucleico unidas o cóntigos, puede incluir tanto el mapeo de secuencias cortas contra tramos de ácido nucleico más largos para proporcionar un contexto de secuencia de alto nivel, así como proporcionar secuencias ensambladas desde las secuencias cortas hasta estos ácidos nucleicos más largos.

Adicionalmente, mientras que uno puede utilizar el contexto de secuencia de largo alcance asociado con moléculas individuales largas, tener un contexto de secuencia de tan largo alcance también permite inferir un contexto de secuencia de mayor alcance. A modo de un ejemplo, proporcionando el contexto molecular de largo alcance descrito anteriormente, se pueden identificar porciones variantes superpuestas, por ejemplo, variantes en fases, secuencias translocadas, etc., entre largas secuencias de diferentes moléculas de origen, permitiendo el enlace inferido entre esas moléculas. Dichos enlaces inferidos o contextos moleculares se denominan en el presente documento "cóntigos inferidos". En algunos casos, cuando se analizan en el contexto de secuencias en fases, los cóntigos inferidos pueden representar secuencias comúnmente en fase, por ejemplo, cuando, en virtud de variantes en fase superpuestas, se puede inferir un cóntigo en fase de longitud sustancialmente mayor que las moléculas de origen individuales. Estos cóntigos en fase se denominan en el presente documento "bloques de fase".

Al comenzar con lecturas de moléculas únicas más largas (por ejemplo, las "lecturas de moléculas únicas virtuales largas" analizadas anteriormente), se pueden derivar cóntigos o bloques de fase inferidos más largos de lo que sería posible obtener utilizando tecnologías de secuenciación de lectura corta u otros enfoques para la secuenciación por fases. Véase, por ejemplo, la solicitud de patente de Estados Unidos publicada n.° 2013-0157870. En particular, usando los métodos y sistemas descritos en el presente documento, se pueden obtener longitudes de bloque de fase o cóntigos inferidos que tienen un N50 (donde la suma de las longitudes de bloque que son mayores que el número N50 indicado es el 50 % de la suma de todas las longitudes de bloque) de al menos aproximadamente 10 kb, al menos aproximadamente 20 kb, al menos aproximadamente 50 kb. En aspectos más preferidos, longitudes de bloque de fase o cóntigos inferidas que tienen un N50 de al menos aproximadamente 100 kb, al menos aproximadamente 150 kb, al menos aproximadamente 200 kb y, en muchos casos, al menos aproximadamente 250 kb, al menos aproximadamente 300 kb, al menos aproximadamente 350 kb, al menos aproximadamente 400 kb y, en algunos casos, se alcanzan al menos aproximadamente 500 kb o más. Incluso en otros casos, se pueden obtener longitudes máximas de bloque de fase superiores a 200 kb, superiores a 300 kb, superiores a 400 kb, superiores a 500 kb, superiores a 1Mb o incluso superiores a 2 Mb.

En un aspecto, y junto con cualquiera de los métodos descritos anteriormente y más adelante en el presente documento, los métodos y sistemas descritos en el presente documento proporcionan prevén la compartimentación, depósito o partición de las muestras de ácidos nucleicos, o fragmentos de los mismos, en compartimentos o particiones discretos (denominados indistintamente en el presente documento particiones), donde cada partición mantiene la separación de su propio contenido del contenido de otras particiones. Identificadores únicos, por ejemplo, códigos de barras, pueden ser liberados previamente, posteriormente o al mismo tiempo a las particiones que contienen los ácidos nucleicos de muestra compartimentados o particionados, para permitir la atribución posterior de las características, por ejemplo, información de secuencia de ácido nucleico, a los ácidos nucleicos de muestra incluidos dentro de un compartimento particular y particularmente a tramos relativamente largos de ácidos nucleicos de muestra contiguos que pueden depositarse originalmente en las particiones. Esta atribución posterior permite además la atribución al contexto estructural original de esos ácidos nucleicos de muestra en la muestra original, porque es más probable que los ácidos nucleicos que estaban cerca uno del otro dentro de las tres dimensiones de la muestra original se depositen en la misma partición. Por lo tanto, la atribución de lecturas de secuencia a las particiones (y los ácidos nucleicos contenidos dentro de esas particiones) no solo proporciona un contexto molecular en cuanto a la ubicación lineal a lo largo de la molécula de ácido nucleico original de la que se derivó la lectura de secuencia, sino que también proporciona un contexto estructural para identificar lecturas de secuencias de ácidos nucleicos que se encontraban en estrecha proximidad espacial unos de otros en el contexto tridimensional de la muestra original.

Los ácidos nucleicos de muestra utilizados en los métodos descritos en el presente documento representan normalmente una serie de porciones superpuestas de la muestra total que se va a analizar, por ejemplo, un cromosoma entero, exoma u otra porción genómica grande. Estos ácidos nucleicos de muestra pueden incluir genomas completos, cromosomas individuales, exomas, amplicones o cualquiera de diversos ácidos nucleicos diferentes de interés. Los ácidos nucleicos de muestra se particionan normalmente de manera que los ácidos nucleicos estén presentes en las particiones en fragmentos o tramos relativamente largos de moléculas de ácido nucleico contiguas. Normalmente, estos fragmentos de los ácidos nucleicos de muestra pueden tener una longitud de más de 1 kb, más de 5 kb, más de 10 kb, más de 15 kb, más de 20 kb, más de 30 kb, más de 40 kb, más de 50 kb, más de 60 kb, más de 70 kb, más de 80 kb, más de 90 kb o incluso más de 100 kb, lo que permite el contexto estructural y molecular de mayor alcance descrito anteriormente.

Los ácidos nucleicos de muestra también se particionan normalmente a un nivel en el que una partición dada tiene una probabilidad muy baja de incluir dos fragmentos superpuestos de un locus genómico. Esto normalmente se logra proporcionando el ácido nucleico de la muestra en una cantidad y/o concentración de entrada baja durante el proceso de partición. Como resultado, en casos preferidos, una partición dada puede incluir un número de fragmentos largos, pero no superpuestos, de los ácidos nucleicos de muestra de partida. Los ácidos nucleicos de muestra en las diferentes particiones se asocian luego con identificadores únicos, donde para cualquier partición dada, los ácidos nucleicos que contiene poseen el mismo identificador único, pero donde diferentes particiones pueden incluir diferentes identificadores únicos. Además, dado que la etapa de partición asigna los componentes de la muestra en particiones o gotícula de volumen muy pequeño, se apreciará que para lograr la asignación deseada como se establece anteriormente, no es necesario realizar una dilución sustancial de la muestra, como se requeriría en procesos de mayor volumen, por ejemplo, en tubos o pocillos de una placa multipocillo. Adicionalmente, dado que los sistemas descritos en el presente documento emplean niveles tan altos de diversidad de códigos de barras, se pueden asignar diversos códigos de barras entre un mayor número de equivalentes genómicos, como se ha proporcionado anteriormente. En particular, como se ha descrito anteriormente, los enfoques de placa multipocillo (véase, por ejemplo, la solicitud publicada en Estados Unidos n.° 2013-0079231 y 2013-0157870) normalmente solo funcionan con cien a unos pocos cientos de secuencias de códigos de barras diferentes y emplean un proceso de dilución limitante de su muestra para poder atribuir códigos de barras a diferentes células/ácidos nucleicos. Como tal, generalmente operarán con mucho menos de 100 células, lo que normalmente proporcionaría una proporción de genomas: (tipo de código de barras) del orden de 1:10 y ciertamente muy por encima de 1:100. En los sistemas descritos en el presente documento, por otro lado, debido al alto nivel de diversidad de códigos de barras, por ejemplo, superior a 10.000, 100.000, 500.000, etc. diversos tipos de códigos de barras, pueden operar en el genoma: proporciones (tipo de código de barras) que están en el orden de 1:50 o menos, 1:100 o menos, 1:1000 o menos o incluso proporciones más pequeñas, mientras que también permite cargar un mayor número de genomas (por ejemplo, del orden de más de 100 genomas por ensayo, más de 500 genomas por ensayo, 1000 genomas por ensayo o incluso más) al mismo tiempo que proporciona una mayor diversidad de código de barras por cada genoma.

En ejemplos adicionales, los oligonucleótidos incluidos con las porciones de la muestra divididas en particiones discretas pueden comprender al menos una primera y una segunda región. La primera región puede ser una región de código de barras que, como entre oligonucleótidos dentro de una partición dada, puede ser sustancialmente la misma secuencia de código de barras, pero como entre diferentes particiones, puede y, en la mayoría de los casos es una secuencia de código de barras diferente. La segunda región puede ser un N-mero (ya sea un N-mero aleatorio o un N-mero diseñado para tener como objetivo una secuencia particular) que se puede usar para cebar los ácidos nucleicos dentro de la muestra dentro de las particiones. En algunos casos, cuando el N-mero está diseñado para tener como objetivo una secuencia particular, puede estar diseñado para tener como objetivo un cromosoma en particular (por ejemplo, cromosoma 1, 13, 18 o 21) o región de un cromosoma, por ejemplo, un exoma u otra región objetivo. En algunos casos, el N-mero puede diseñarse para tener como objetivo un gen o región genética en particular, tal como un gen o una región asociada con una enfermedad o trastorno (por ejemplo, cáncer). Dentro de las particiones, puede llevarse a cabo una reacción de amplificación utilizando el segundo N-mero para cebar la muestra de ácido nucleico en diferentes lugares a lo largo de la longitud del ácido nucleico. Como resultado de la amplificación, cada partición puede contener productos amplificados del ácido nucleico que están unidos a un código de barras idéntico o casi idéntico y que pueden representar fragmentos más pequeños superpuestos de los ácidos nucleicos en cada partición. El código de barras puede servir como un marcador que significa que un conjunto de ácidos nucleicos se originó a partir de la misma partición y, por lo tanto, potencialmente también se originó a partir de la misma hebra de ácido nucleico. Después de la amplificación, los ácidos nucleicos pueden agruparse, secuenciarse y alinearse usando un algoritmo de secuenciación. Debido a que las lecturas de secuencias más cortas pueden, en virtud de sus secuencias de código de barras asociadas, alinearse y atribuirse a un solo fragmento largo del ácido nucleico de la muestra, todas las variantes identificadas en esa secuencia se pueden atribuir a un solo fragmento de origen y un solo cromosoma de origen. Adicionalmente, al alinear múltiples variantes coubicadas en múltiples fragmentos largos, se puede caracterizar aún más esa contribución cromosómica. En consecuencia, por tanto, se pueden sacar conclusiones con respecto a la fase de variantes genéticas particulares, al igual que los análisis de largo alcance de secuencia genómica, por ejemplo, identificación de información de secuencia a través de tramos de regiones pobremente caracterizadas del genoma. Esta información también puede ser útil para identificar haplotipos, que generalmente son un conjunto específico de variantes genéticas que residen en la misma hebra de ácido nucleico o en diferentes hebras de ácido nucleico. Las variaciones del número de copias también pueden identificarse de esta manera.

Los métodos y sistemas descritos proporcionan ventajas significativas sobre las tecnologías actuales de secuenciación de ácidos nucleicos y sus métodos de preparación de muestras asociados. Los métodos de preparación y secuenciación de muestras en conjunto están predispuestos a identificar y caracterizar principalmente los componentes mayoritarios de la muestra y no están diseñados para identificar y caracterizar los componentes minoritarios, por ejemplo, material genético aportado por un cromosoma, desde una región pobremente caracterizada o altamente polimórfica del genoma, o material de una o unas pocas células, o molécula de ADN de célula tumoral fragmentada que circula en el torrente sanguíneo, que constituyen un pequeño porcentaje del ADN total de la muestra extraída. Los métodos descritos en el presente documento incluyen métodos de amplificación selectiva que aumentan el material genético de estos constituyentes minoritarios y la capacidad de retener el contexto molecular de este material genético proporciona además una caracterización genética de estos constituyentes. Los métodos y sistemas descritos también proporcionan una ventaja significativa para detectar poblaciones que están presentes dentro de una muestra más grande. Como tal, son particularmente útiles para evaluar las variaciones en el número de copias y haplotipos; los métodos descritos en el presente documento también son útiles para proporcionar información de secuencias sobre regiones del genoma que están pobremente caracterizadas o representadas en una población de objetivos de ácido nucleico debido a los sesgos introducidos durante la preparación de la muestra.

El uso de la técnica de código de barras descrita en el presente documento confiere la capacidad única de proporcionar un contexto molecular individual para un conjunto determinado de marcadores genéticos, es decir, atribuir un conjunto dado de marcadores genéticos (a diferencia de un solo marcador) a moléculas de ácido nucleico de muestra individuales y a través del ensamblaje coordinado de variantes, proporcionar un contexto estructural y molecular individual inferido más amplio o incluso de mayor alcance, entre múltiples muestras de moléculas de ácido nucleico y/o a un cromosoma específico. Estos marcadores genéticos pueden incluir loci genéticos específicos, por ejemplo, variantes, tales como s Np , o pueden incluir secuencias cortas. Adicionalmente, el uso de códigos de barras confiere las ventajas adicionales de facilitar la capacidad de discriminar entre constituyentes minoritarios y mayoritarios de la población total de ácidos nucleicos extraídos de la muestra, por ejemplo, para la detección y caracterización del ADN tumoral circulante en el torrente sanguíneo, y también reduce o elimina el sesgo de amplificación durante los pasos de amplificación opcionales. Además, la implementación en una forma de microfluidos confiere la capacidad de trabajar con volúmenes de muestra extremadamente pequeños y cantidades de entrada bajas de ADN, así como la capacidad de procesar rápidamente un gran número de particiones de muestra (gotículas) para facilitar el etiquetado de todo el genoma.

Como se ha descrito anteriormente, una ventaja de los métodos y sistemas descritos en el presente documento es que pueden lograr los resultados deseados mediante el uso de tecnologías de secuenciación de lecturas cortas disponibles de forma ubicua. Tales tecnologías tienen la ventaja de estar fácilmente disponibles y ampliamente dispersas dentro de la comunidad de investigación, con protocolos y sistemas de reactivos bien caracterizados y altamente efectivos. Estas tecnologías de secuenciación de lectura corta incluyen las disponibles en, por ejemplo, Illumina, Inc. (GAllx, NextSeq, MiSeq, HiSeq, X10), Ion Torrent division of Thermo-Fisher (Ion Proton y Ion PGM), métodos de pirosecuenciación, así como otras.

De particular ventaja es que los métodos y sistemas descritos en el presente documento utilizan estas tecnologías de secuenciación de lectura corta y lo hacen con sus bajas tasas de error asociadas y altos rendimientos. En particular, los métodos y sistemas descritos en el presente documento logran las longitudes de lectura moleculares individuales deseadas o el contexto, como se ha descrito anteriormente, pero con lecturas de secuencias individuales, excluyendo extensiones de pares coincidentes, que son más cortos que 1000 pb, más cortos que 500 pb, más cortos que 300 pb, más cortos que 200 pb, más cortos que 150 pb o incluso más cortos; y con tasas de error de secuenciación para tales longitudes de lectura moleculares individuales que son menos del 5 %, menos del 1 %, menos del 0,5 %, menos del 0,1 %, menos del 0,05 %, menos del 0,01 %, menos del 0,005 % o incluso menos del 0,001 %.

II. Descripción general del flujo de trabajo

En un aspecto de ejemplo, los métodos y sistemas descritos en la divulgación permiten depositar o particionar muestras en particiones discretas, donde cada partición mantiene la separación de su propio contenido del contenido de otras particiones. Como se analiza con mayor detalle en el presente documento, las muestras pueden comprender muestras derivadas de pacientes, tales como muestras de células o tejidos, que pueden contener ácidos nucleicos y, en determinadas situaciones, proteínas asociadas también. Las muestras utilizadas en los métodos descritos en el presente documento son muestras de tejido y células embebidas en parafina fijadas con formol (FFPE).

En el contexto de la presente invención, las particiones son pocillos, por ejemplo, micro o nanopocillos. Sin embargo, se entenderá que la divulgación proporcionada en el presente documento en relación con otros tipos de partición, tales como los que fluyen dentro de las corrientes de fluidos, puede adaptarse adecuadamente. Estos recipientes pueden estar compuestos por, por ejemplo, microcápsulas o microvesículas que tienen una barrera exterior que rodea un centro o núcleo de fluido interior o pueden ser una matriz porosa que es capaz de arrastrar y/o retener materiales dentro de su matriz. De manera alternativa, estas particiones pueden comprender gotículas de fluido acuoso dentro de una fase continua no acuosa, por ejemplo, una fase oleosa. Diversos recipientes diferentes se describen en, por ejemplo, la solicitud de patente de Estados Unidos n.° 13/966.150, presentada el 13 de agosto de 2013. Del mismo modo, los sistemas de emulsión para crear gotículas estables en fases continuas no acuosas u oleosas se describen con detalle en, por ejemplo, la solicitud de patente de Estados Unidos publicada n.° 2010-0105112. En determinados casos, las redes de canales de microfluidos son particularmente adecuadas para generar particiones como se describe en el presente documento. Los ejemplos de tales dispositivos de microfluidos incluyen los descritos con detalle en la solicitud de patente provisional de Estados Unidos n.° 61/977.804, presentada el viernes, 4 de abril de 2014. También pueden emplearse mecanismos alternativos en la partición de células individuales, incluyendo membranas porosas a través de las cuales se extruyen mezclas acuosas de células en fluidos no acuosos. Dichos sistemas generalmente están disponibles en, por ejemplo, Nanomi, Inc.

En el caso de gotículas en una emulsión, la partición de materiales de muestra en particiones discretas generalmente se puede lograr haciendo fluir una corriente acuosa que contiene la muestra, en una unión en la que también fluye una corriente no acuosa de fluido de partición, por ejemplo, un aceite fluorado, de tal manera que se crean gotículas acuosas dentro del fluido de partición de la corriente que fluye, donde tales gotícula incluyen los materiales de muestra. Como se describe a continuación, las particiones, por ejemplo, gotículas, también incluyen normalmente oligonucleótidos de código de barras co-particionados. La cantidad relativa de materiales de muestra dentro de cualquier partición en particular se puede ajustar controlando diversos parámetros diferentes del sistema, incluyendo, por ejemplo, la concentración de la muestra en la corriente acuosa, el caudal de la corriente acuosa y/o la corriente no acuosa, y similares. Las particiones descritas en el presente documento se caracterizan a menudo por tener volúmenes extremadamente pequeños. Por ejemplo, en el caso de particiones basadas en gotículas, las gotículas pueden tener volúmenes totales de menos de 1000 pl, menos de 900 pl, menos de 800 pl, menos de 700 pl, menos de 600 pl, menos de 500 pl, menos de 400 pl, menos de 300 pl, menos de 200 pl, menos de 100 pl, menos de 50 pl, menos de 20 pl, menos de 10 pl o incluso menos de 1 pl. Cuando se han co-particionado con perlas, se apreciará que el volumen de fluido de la muestra dentro de las particiones puede ser inferior al 90 % de los volúmenes descritos anteriormente, menos del 80 %, menos del 70 %, menos del 60 %, menos del 50 %, menos del 40 %, menos del 30 %, inferior al 20 % o incluso inferior al 10 % de los volúmenes descritos anteriormente. En algunos casos, el uso de particiones de bajo volumen de reacción es particularmente ventajoso al realizar reacciones con cantidades muy pequeñas de reactivos de partida, por ejemplo, ácidos nucleicos de entrada. Los métodos y sistemas para analizar muestras con bajos aportes de ácidos nucleicos se presentan en la solicitud de patente provisional de Estados Unidos n.° 62/017,580 (expediente del abogado n.° 43487-727.101), presentada el 26 de junio de 2014.

En situaciones que implican muestras sujetas a degradación y/o que contienen bajas concentraciones de componentes de interés, las muestras pueden procesarse adicionalmente antes de la partición o dentro de las particiones para liberar más los ácidos nucleicos y/o cualquier proteína asociada para un análisis posterior. Por ejemplo, los ácidos nucleicos contenidos en las muestras de FFPe generalmente se extraen utilizando métodos conocidos en la técnica. Para aislar moléculas de ácido nucleico más largas, dichas muestras también pueden procesarse mediante la adición de organocatalizadores para eliminar los aductos de formaldehído (véase, por ejemplo, Karmakar et al., (2015), Nature Chemistry, DOI: 10.1038/NCHEM.2307, que proporciona enseñanzas relacionadas con el tratamiento y procesamiento de muestras de FFPE).

Una vez que las muestras se introducen en sus respectivas particiones, los ácidos nucleicos de muestra dentro de las particiones pueden someterse a amplificación para aumentar la cantidad de ácidos nucleicos para aplicaciones posteriores (tal como los métodos de secuenciación descritos en el presente documento y conocidos en la técnica). En determinadas realizaciones, esta amplificación se lleva a cabo con una biblioteca de cebadores que se dirigen a diferentes partes de la secuencia genómica, de modo que los productos de amplificación resultantes representen secuencias de subsecciones de las moléculas de ácido nucleico originales. En realizaciones en las que regiones genómicas seleccionadas son de interés, esta amplificación puede incluir una o más rondas de amplificación selectiva, de modo que las regiones del genoma que son de interés para la cobertura objetivo estén presentes en mayor proporción en comparación con otras regiones del genoma (aunque, como se apreciará, esas otras regiones del genoma también pueden ser amplificadas, pero en menor medida, ya que no son de interés para la cobertura de novo). En determinadas realizaciones, la amplificación proporciona al menos 1X, 2X, 5X, 10X, 20X, 30X, 40X o 50X de cobertura de las regiones enteras o seleccionadas del genoma. En realizaciones adicionales, todos los ácidos nucleicos dentro de una partición se amplifican, pero las regiones genómicas seleccionadas se amplifican de manera específica de manera que al menos 1-5, 2-10, 3-15, 4-20, 5-25, 6-30, 7-35, 8-40, 9-45 o 10-50 veces más amplicones a partir de esas regiones genómicas seleccionadas que a partir de otras partes del genoma.

Simultáneamente con o después de la amplificación descrita anteriormente, los ácidos nucleicos (o fragmentos de los mismos) dentro de las particiones reciben identificadores únicos de modo que, tras la caracterización de esos ácidos nucleicos, se les puede atribuir que se derivaron de sus respectivos orígenes. En consecuencia, los ácidos nucleicos de la muestra normalmente se dividen conjuntamente con los identificadores únicos (por ejemplo, secuencias de código de barras). En aspectos particularmente preferidos, los identificadores únicos se proporcionan en forma de oligonucleótidos que comprenden secuencias de códigos de barras de ácidos nucleicos que pueden unirse a esas muestras. Los oligonucleótidos se particionan de tal manera que entre los oligonucleótidos en una partición dada, las secuencias de código de barras de ácido nucleico contenidas en él son las mismas, pero como entre diferentes particiones, los oligonucleótidos pueden tener, y preferentemente tienen, secuencias de código de barras diferentes. En aspectos de ejemplo, solo una secuencia de código de barras de ácido nucleico se asociará con una partición dada, aunque en algunos casos, pueden estar presentes dos o más secuencias de códigos de barras diferentes.

Las secuencias de código de barras de ácido nucleico normalmente incluirán de 6 a aproximadamente 20 o más nucleótidos dentro de la secuencia de los oligonucleótidos. Estos nucleótidos pueden ser completamente contiguos, es decir, en un solo tramo de nucleótidos adyacentes, o pueden estar separados en dos o más subsecuencias separadas que están separadas por uno o más nucleótidos. Normalmente, las subsecuencias separadas pueden tener normalmente de aproximadamente 4 a aproximadamente 16 nucleótidos de longitud.

Los oligonucleótidos co-particionados también comprenden normalmente otras secuencias funcionales útiles en el procesamiento de los ácidos nucleicos particionados. Estas secuencias incluyen, por ejemplo, secuencias de cebadores de amplificación dirigidos o aleatorios/universales para amplificar el ADN genómico de los ácidos nucleicos individuales dentro de las particiones mientras se unen las secuencias de código de barras asociadas, secuenciación de cebadores, hibridación o secuencias de sondeo, por ejemplo, para la identificación de la presencia de las secuencias o para extraer ácidos nucleicos con código de barras, o cualquiera de una serie de otras secuencias funcionales potenciales. De nuevo, la co-partición de oligonucleótidos y códigos de barras asociados y otras secuencias funcionales, junto con los materiales de muestra se describe en, por ejemplo, USSN 14/175,935 (documento US 2014/0227684); 14/316.383 (documento US 2014/0378345); 14/316398 (documento US 2015/0005199); 14/316,416 (documento US2014/0378349); 14/316.431 (documento US 2015/0005200); 14/316.447 (documento US 2014/0378350); y 14/316,463 (documento US 2014/0378322) que proporcionan una descripción escrita, figuras y ejemplos de trabajo dirigidos al procesamiento de ácidos nucleicos, así como la secuenciación y otras caracterizaciones de material genómico.

Resumiendo, en un proceso de ejemplo, se proporcionan perlas que cada una puede incluir un gran número de los oligonucleótidos descritos anteriormente unidos de forma liberable a las perlas, donde todos los oligonucleótidos unidos a una perla en particular pueden incluir la misma secuencia de código de barras de ácido nucleico, pero donde se puede representar un gran número de diversas secuencias de códigos de barras a través de la población de perlas utilizadas. Normalmente, la población de perlas puede proporcionar una biblioteca de secuencias de códigos de barras diversa que puede incluir al menos 1000 secuencias de códigos de barras diferentes, al menos 10.000 secuencias de códigos de barras diferentes, al menos 100.000 secuencias de códigos de barras diferentes o, en algunos casos, al menos 1.000.000 de secuencias de códigos de barras diferentes. De forma adicional, cada perla normalmente puede estar provista de un gran número de moléculas de oligonucleótidos unidas. En particular, el número de moléculas de oligonucleótidos que incluyen la secuencia del código de barras en una perla individual puede ser de al menos aproximadamente 10.000 oligonucleótidos, al menos 100.000 moléculas de oligonucleótidos, al menos 1.000.000 moléculas de oligonucleótidos, al menos 100.000.000 de moléculas de oligonucleótidos y, en algunos casos, al menos mil millones de moléculas de oligonucleótidos.

Los oligonucleótidos pueden liberarse de las perlas tras la aplicación de un estímulo particular a las perlas. En algunos casos, el estímulo puede ser un fotoestímulo, por ejemplo, a través de la escisión de un enlace fotolábil que puede liberar los oligonucleótidos. En algunos casos, se puede utilizar un estímulo térmico, donde la elevación de la temperatura del entorno de las perlas puede dar como resultado la escisión de un enlace u otra liberación de los oligonucleótidos de las perlas. En algunos casos, se puede usar un estímulo químico que rompa un enlace de los oligonucleótidos con las perlas, o de otro modo puede dar como resultado la liberación de los oligonucleótidos de las perlas.

De acuerdo con los métodos y sistemas descritos en el presente documento, las perlas que incluyen los oligonucleótidos unidos pueden co-particionarse con las muestras individuales, tal que una sola perla y una sola muestra estén contenidas dentro de una partición individual. En algunos casos, cuando se desean particiones de un solo perla, puede ser deseable controlar los caudales relativos de los fluidos de tal manera que, en promedio, las particiones contengan menos de una perla por partición, a fin de garantizar que aquellas particiones que estén ocupadas, estén principalmente ocupadas individualmente. Del mismo modo, es posible que desee controlar el caudal para proporcionar que se ocupe un mayor porcentaje de particiones, por ejemplo, permitiendo solo un pequeño porcentaje de particiones desocupadas. En aspectos preferidos, los flujos y las arquitecturas de los canales se controlan para garantizar el número deseado de particiones ocupadas individualmente, menos de cierto nivel de particiones desocupadas y menos de cierto nivel de particiones múltiples ocupadas.

La figura 3 ilustra un método de ejemplo particular para la codificación de barras y, posteriormente, la secuenciación de un ácido nucleico de muestra. En primer lugar, una muestra que comprende ácido nucleico puede obtenerse de una fuente, 300, y también se puede obtener un juego de perlas con código de barras, 310. Las perlas están preferentemente unidas a oligonucleótidos que contienen una o más secuencias de código de barras, así como un cebador, tal como un N-mero aleatorio u otro cebador. Preferentemente, las secuencias de código de barras se pueden liberar de las perlas con código de barras, por ejemplo, a través de la escisión de un enlace entre el código de barras y la perla o mediante la degradación de la perla subyacente para liberar el código de barras, o una combinación de los dos. Por ejemplo, en determinados aspectos preferidos, las perlas con código de barras pueden ser degradadas o disueltas por un agente, tal como un agente reductor para liberar las secuencias de código de barras. En este ejemplo, una pequeña cantidad de la muestra que comprende ácido nucleico, 305, perlas con código de barras, 315, y opcionalmente otros reactivos, por ejemplo, un agente reductor, 320, se combinan y están sujetos a partición. A modo de ejemplo, dicha partición puede implicar la introducción de los componentes en un sistema de generación de gotículas, tal como un dispositivo de microfluidos, 325. Con la ayuda del dispositivo de microfluidos 325, se puede formar una emulsión de agua en aceite 330, en el que la emulsión contiene gotículas acuosas que contienen ácido nucleico de muestra, 305, agente reductor, 320, y perlas con código de barras, 315. El agente reductor puede disolver o degradar las perlas con código de barras, liberando así los oligonucleótidos con los códigos de barras y los N-meros aleatorios de las perlas dentro de las gotículas, 335. Los N-meros aleatorios pueden luego cebar diferentes regiones del ácido nucleico de muestra, dando como resultado copias amplificadas de la muestra después de la amplificación, en la que cada copia está etiquetada con una secuencia de código de barras, 340. Preferentemente, cada gotícula contiene un conjunto de oligonucleótidos que contienen secuencias de código de barras idénticas y diferentes secuencias de N-mero aleatorias. Posteriormente, la emulsión se rompe, 345 y se pueden añadir secuencias adicionales (por ejemplo, secuencias que ayudan en métodos de secuenciación particulares, códigos de barras adicionales, etc.), mediante, por ejemplo, métodos de amplificación, 350 (por ejemplo, PCR). A continuación, se puede realizar la secuenciación, 355 y aplicar un algoritmo para interpretar los datos de secuenciación, 360. Los algoritmos de secuenciación son generalmente capaces, por ejemplo, de realizar análisis de códigos de barras para alinear lecturas de secuenciación y/o identificar la muestra a la que pertenece una lectura de secuencia en particular. Además, y como se describe en el presente documento, estos algoritmos también se pueden usar para atribuir las secuencias de las copias a su contexto molecular de origen.

Como se apreciará, antes o simultáneamente con el etiquetado con la secuencia de código de barras 340, las muestras se pueden amplificar de acuerdo con cualquiera de los métodos descritos en el presente documento para proporcionar cobertura del genoma completo o de regiones seleccionadas del genoma. Para las realizaciones en las que se desea una cobertura dirigida, la amplificación dirigida generalmente da como resultado una población mayor de amplicones que representan secuencias de ácidos nucleicos (o partes de los mismos) en una partición que contiene esas regiones seleccionadas del genoma en comparación con amplicones de otras regiones del genoma. Como resultado, habrá un mayor número de copias amplificadas que contienen la secuencia de código de barras 340 dentro de una partición de las regiones seleccionadas del genoma que de otras regiones del genoma. En realizaciones en las que se desea la amplificación del genoma completo, la amplificación se puede realizar utilizando bibliotecas de cebadores diseñadas para minimizar los sesgos de amplificación y proporcionar un nivel sólido de cobertura en todo el genoma.

Como se ha señalado anteriormente, mientras que la ocupación individual puede ser el estado más deseado, se apreciará que a menudo pueden estar presentes múltiples particiones ocupadas o particiones desocupadas. En la Figura 4 se ilustra esquemáticamente un ejemplo de una estructura de canal de microfluidos para co-particionar muestras y perlas que comprenden oligonucleótidos de código de barras. Como se muestra, los segmentos de canal 402, 404, 406, 408 y 410 se proporcionan en comunicación fluida en la unión de canal 412. Una corriente acuosa que comprende las muestras individuales 414 fluye a través del segmento de canal 402 hacia la unión de canal 412. Como se describe en otra parte en el presente documento, estas muestras pueden suspenderse dentro de un fluido acuoso antes del proceso de partición.

De manera simultánea, una corriente acuosa que comprende las perlas 416 que llevan el código de barras fluye a través del segmento 404 del canal hacia la unión 412 del canal. Se introduce un fluido de partición no acuoso en la unión 412 del canal desde cada uno de los canales 406 y 408 laterales y las corrientes combinadas fluyen hacia el canal 410 de salida. Dentro de la unión 412 del canal, las dos corrientes acuosas combinadas de los segmentos 402 y 404 del canal se combinan y se dividen en gotículas 418, que incluyen muestras co-particionadas 414 y perlas 416. Como se ha indicado anteriormente, controlando las características de flujo de cada uno de los fluidos que se combinan en la unión 412 del canal, además de controlar la geometría de la unión del canal, se puede optimizar la combinación y la partición para lograr el nivel de ocupación deseado de perlas, muestras o ambas, dentro de las particiones 418 que se generan.

Como se apreciará, una serie de otros reactivos pueden co-particionarse junto con las muestras y las perlas, incluyendo, por ejemplo, estímulos químicos, extensión de ácido nucleico, reactivos de transcripción y/o amplificación tales como polimerasas, transcriptasas inversas, nucleósidos trifosfatos o análogos de NTP, secuencias de cebadores y cofactores adicionales, tales como iones metálicos divalentes utilizados en tales reacciones, reactivos de reacción de ligamiento, tales como enzimas ligasas y secuencias de ligamiento, tintes, etiquetas u otros reactivos de marcado. Las secuencias de cebadores pueden incluir secuencias de cebadores aleatorios o cebadores de PCR dirigidos a amplificar regiones seleccionadas del genoma o una combinación de las mismas.

Una vez co-particionados, los oligonucleótidos dispuestos sobre la perla se pueden usar para codificar con barras y amplificar las muestras divididas. Un proceso particularmente elegante para el uso de estos oligonucleótidos de código de barras en muestras de amplificación y codificación de barras se describe con detalle en USSN 14/175,935 (documento US 2014/0227684); 14/316.383 (documento US 2014/0378345); 14/316398 (documento US 2015/0005199); 14/316,416 (documento US2014/0378349); 14/316.431 (documento US 2015/0005200); 14/316.447 (documento US 2014/0378350); y 14/316.463 (documento US 2014/0378322). Resumiendo, en un aspecto, los oligonucleótidos presentes en las perlas que se co-particionan con las muestras y se liberan de sus perlas en la partición con las muestras. Los oligonucleótidos normalmente incluyen, junto con la secuencia del código de barras, una secuencia de cebador en su extremo 5'. La secuencia del cebador puede ser aleatoria o estructurada. Las secuencias de cebadores aleatorias generalmente están destinadas a cebar aleatoriamente numerosas regiones diferentes de las muestras. Las secuencias de cebadores estructurados pueden incluir diversas estructuras diferentes, incluidas secuencias definidas destinadas a cebar aguas arriba de una región objetivo específica de la muestra, así como cebadores que tienen algún tipo de estructura parcialmente definida, incluidos, sin limitación, cebadores que contienen un porcentaje de bases específicas (tal como un porcentaje de N-meros de GC), cebadores que contienen secuencias parcial o totalmente degeneradas, y/o cebadores que contienen secuencias que son parcialmente aleatorias y parcialmente estructuradas de acuerdo con cualquiera de las descripciones del presente documento. Como se apreciará, cualquiera o más de los tipos anteriores de cebadores aleatorios y estructurados pueden incluirse en oligonucleótidos en cualquier combinación.

Una vez liberado, la parte del cebador del oligonucleótido puede hibridarse con una región complementaria de la muestra. Los reactivos de la reacción de extensión, por ejemplo, ADN polimerasa, trifosfatos de nucleósidos, cofactores (por ejemplo, Mg2+ o Mn2+, etc.), que también se co-particionan con las muestras y las perlas, extienden después la secuencia del cebador usando la muestra como molde, para producir un fragmento complementario a la hebra del molde a la que se hibridó el cebador, con fragmento complementario incluye el oligonucleótido y su secuencia de código de barras asociada. La hibridación y la extensión de múltiples cebadores a diferentes porciones de la muestra pueden dar como resultado una gran agrupación de fragmentos complementarios superpuestos de la muestra, de modo que cada uno posee su propia secuencia de código de barras indicativa de la partición en la que se creó. En algunos casos, estos fragmentos complementarios se pueden utilizar como molde cebado por los oligonucleótidos presentes en la partición para producir un complemento del complemento que, de nuevo, incluye la secuencia del código de barras. En algunos casos, este proceso de replicación está configurado de tal manera que cuando se duplica el primer complemento, produce dos secuencias complementarias en o cerca de sus extremos, para permitir la formación de una estructura de horquilla o estructura de horquilla parcial, lo que reduce la capacidad de la molécula para ser la base para producir más copias iterativas. En la Figura 5 se muestra una ilustración esquemática de un ejemplo de esto.

Como muestra la figura, los oligonucleótidos que incluyen una secuencia de código de barras se co-particionan en, por ejemplo, una gotícula 502 en una emulsión, junto con una ácido nucleico 504 de muestra. Como se señala en otra parte del presente documento, los oligonucleótidos 508 se pueden proporcionar en una perla 506 que se co-particiona con el ácido nucleico 504 de muestra, cuyos oligonucleótidos son preferentemente liberables de la perla 506, como se muestra en el panel A. Los oligonucleótidos 508 incluyen una secuencia 512 de código de barras, además de una o más secuencias funcionales, por ejemplo, secuencias 510, 514 y 516. Por ejemplo, se muestra que el oligonucleótido 508 comprende la secuencia 512 de código de barras, así como la secuencia 510 que puede funcionar como una secuencia de fijación o inmovilización para un sistema de secuenciación dado, por ejemplo, una secuencia P5 utilizada para la unión en celdas de flujo de un sistema Illumina Hiseq o Miseq. Como se muestra, los oligonucleótidos también incluyen una secuencia de cebador 516, que puede incluir un N-mero aleatorio o dirigido para cebar la replicación de porciones del ácido nucleico 504 de muestra. También se incluye dentro del oligonucleótido 508 una secuencia 514 que puede proporcionar una región de cebado de secuenciación, tal como una región de cebado "read1" o R1, que se utiliza para cebar la secuenciación dirigida por molde mediada por polimerasa mediante reacciones de síntesis en sistemas de secuenciación. En muchos casos, la secuencia 512 de código de barras, la secuencia 510 de inmovilización y la secuencia de R1 514 pueden ser comunes a todos los oligonucleótidos unidos a una perla dada. La secuencia 516 del cebador puede variar para los cebadores N-mero aleatorios o puede ser común a los oligonucleótidos en una perla dada para ciertas aplicaciones específicas.

Basado en la presencia de la secuencia 516 del cebador, los oligonucleótidos pueden cebar el ácido nucleico de la muestra como se muestra en el panel B, que permite la extensión de los oligonucleótidos 508 y 508a utilizando enzimas polimerasas y otros reactivos de extensión también se co-particionaron con la perla 506 y el ácido nucleico 504 de muestra. Como se muestra en el panel C, después de la extensión de los oligonucleótidos que, para cebadores N-mero aleatorios, se hibridaría con múltiples regiones diferentes del ácido nucleico 504 de muestra; se crean múltiples complementos superpuestos o fragmentos del ácido nucleico, por ejemplo, fragmentos 518 y 520. Aunque incluye porciones de secuencia que son complementarias a porciones de ácido nucleico de muestra, por ejemplo, las secuencias 522 y 524, estos constructos se denominan generalmente en el presente documento que comprenden fragmentos del ácido nucleico 504 de muestra, que tienen las secuencias de código de barras unidas. Como se apreciará, las porciones replicadas de las secuencias molde como se ha descrito anteriormente se denominan a menudo en el presente documento "fragmentos" de esa secuencia molde. No obstante lo anterior, sin embargo, el término "fragmento" abarca cualquier representación de una porción de la secuencia de ácido nucleico de origen, por ejemplo, un molde o muestra de ácido nucleico, incluidos los creados por otros mecanismos para proporcionar porciones de la secuencia del molde, tal como la fragmentación real de una molécula de secuencia dada, por ejemplo, mediante fragmentación enzimática, química o mecánica. En aspectos preferidos, sin embargo, los fragmentos de una secuencia de ácido nucleico de molde o de muestra indicarán porciones replicadas de la secuencia subyacente o complementos de la misma.

Los fragmentos de ácido nucleico con código de barras pueden luego someterse a caracterización, por ejemplo, mediante análisis de secuencias, o pueden amplificarse aún más en el proceso, como se muestra en el panel D. Por ejemplo, oligonucleótidos adicionales, por ejemplo, el oligonucleótido 508b, también liberado de la perla 506, puede cebar los fragmentos 518 y 520. En particular, de nuevo, según la presencia del cebador N-mero aleatorio 516b en el oligonucleótido 508b (que en muchos casos será diferente de otros N-mero aleatorios en una partición dada, por ejemplo, la secuencia 516 del cebador), el oligonucleótido se hibrida con el fragmento 518 y se extiende para crear un complemento 526 de al menos una porción del fragmento 518 que incluye la secuencia 528, que comprende un duplicado de una porción de la secuencia de ácido nucleico de muestra. La extensión del oligonucleótido 508b continúa hasta que se ha replicado a través de la porción 508 de oligonucleótido del fragmento 518. Como se indica en otra parte de el presente documento y como se ilustra en el panel D, los oligonucleótidos pueden configurarse para provocar una parada en la replicación por parte de la polimerasa en un punto deseado, por ejemplo, después de replicar a través de las secuencias 516 y 514 del oligonucleótido 508 que se incluye dentro del fragmento 518. Como se describe en el presente documento, esto puede lograrse por diferentes métodos, incluyendo, por ejemplo, la incorporación de diferentes nucleótidos y/o análogos de nucleótidos que no son susceptibles de ser procesados por la enzima polimerasa utilizada. Por ejemplo, esto puede incluir la inclusión de nucleótidos que contienen uracilo dentro de la región de secuencia 512 para evitar que una polimerasa no tolerante al uracilo detenga la replicación de esa región. Como resultado, se crea un fragmento 526 que incluye el oligonucleótido 508b de longitud completa en un extremo, incluyendo la secuencia 512 de código de barras, la secuencia 510 de unión, la región 514 del cebador R1 y la secuencia 516b N-mero aleatoria. En el otro extremo de la secuencia se incluirá el complemento 516' al N-mero aleatorio del primer oligonucleótido 508, así como un complemento de toda o una parte de la secuencia R1, se muestra como la secuencia 514'. La secuencia R1 514 y su complemento 514' pueden entonces hibridarse para formar una estructura 528 de horquilla parcial. Como se apreciará porque los N-meros aleatorios difieren entre diferentes oligonucleótidos, no se esperaría que estas secuencias y sus complementos participen en la formación de la horquilla, por ejemplo, secuencia 516', que es el complemento de N-mero aleatorio 516, no se esperaría que fuera complementario a la secuencia de N-mero aleatoria 516b. Este no sería el caso para otras aplicaciones, por ejemplo, cebadores objetivo, donde los N-meros serían comunes entre los oligonucleótidos dentro de una partición dada. Al formar estas estructuras parciales en horquilla, permite la eliminación de duplicados de primer nivel de la secuencia de muestra de una replicación posterior, por ejemplo, evitando la copia iterativa de copias. La estructura de horquilla parcial también proporciona una estructura útil para el procesamiento posterior de los fragmentos creados, por ejemplo, fragmento 526.

Todos los fragmentos de múltiples particiones diferentes se pueden agrupar para secuenciar en secuenciadores de alto rendimiento como se describe en el presente documento. Debido a que cada fragmento está codificado en cuanto a su partición de origen, la secuencia de ese fragmento puede atribuirse a su origen en función de la presencia del código de barras. Esto se ilustra esquemáticamente en la Figura 6. Como se muestra en un ejemplo, un ácido nucleico 604 originado a partir de una primera fuente 600 (por ejemplo, cromosoma individual, hebra de ácido nucleico, etc.) y un ácido nucleico 606 derivado de un cromosoma 602 o hebra de ácido nucleico diferente se particionan cada uno junto con sus propios conjuntos de oligonucleótidos de código de barras como se ha descrito anteriormente.

Dentro de cada partición, cada ácido nucleico 604 y 606 luego se procesa para proporcionar por separado un conjunto superpuesto de segundos fragmentos del primer o primeros fragmentos, por ejemplo, conjuntos de segundos fragmentos 608 y 610. Este procesamiento también proporciona a los segundos fragmentos una secuencia de código de barras que es la misma para cada uno de los segundos fragmentos derivados de un primer fragmento particular. Como se muestra, la secuencia de código de barras para el conjunto 608 de segundos se indica con "1", mientras que la secuencia de código de barras para el conjunto 610 de fragmentos se indica con "2". Se puede usar una biblioteca diversa de códigos de barras para codificar diferencialmente grandes cantidades de diferentes conjuntos de fragmentos. Sin embargo, no es necesario que cada segundo conjunto de fragmentos de un primer fragmento diferente tenga un código de barras con diferentes secuencias de códigos de barras. De hecho, en muchos casos, múltiples primeros fragmentos diferentes pueden procesarse simultáneamente para incluir la misma secuencia de código de barras. Diversas bibliotecas de códigos de barras se describen con detalle en otra parte del presente documento.

Los fragmentos con código de barras, por ejemplo, de los conjuntos de fragmentos 608 y 610, luego se pueden agrupar para la secuenciación usando, por ejemplo, secuencia por tecnologías de síntesis disponibles de Illumina o Ion Torrent división de Thermo Fisher, Inc. y similares. Una vez realizada la secuenciación, las lecturas de secuencia de los fragmentos 612 agrupados se pueden atribuir a su respectivo conjunto de fragmentos, por ejemplo, como se muestra en las lecturas 614 y 616 agregadas, al menos en parte en función de los códigos de barras incluidos y, opcionalmente, y preferentemente, en parte en función la secuencia del propio fragmento. Además, las lecturas de secuencia se pueden atribuir al contexto estructural de la posición relativa del ácido nucleico del que se derivan esas lecturas en relación con otras moléculas de ácido nucleico que estaban en estrecha proximidad espacial dentro de la muestra original. Las lecturas de secuencia atribuidas para cada conjunto de fragmentos se ensamblan para proporcionar la secuencia ensamblada para cada fragmento de muestra, por ejemplo, las secuencias 618 y 620, que a su vez, pueden atribuirse además a sus respectivos cromosomas originales o moléculas de ácido nucleico de origen (600 y 602). Los métodos y sistemas para ensamblar secuencias genómicas se describen en, por ejemplo, la solicitud de patente de Estados Unidos n.° 14/752.773, presentada el 26 de junio de 2015 (documento US 2015/0379196), que proporciona enseñanzas relacionadas con el ensamblaje de secuencias genómicas.

III. Métodos y composiciones para retener el contexto estructural

La presente divulgación proporciona métodos, composiciones y sistemas para la caracterización de material genético. Por lo general, los métodos, las composiciones y los sistemas descritos en el presente documento proporcionan métodos para analizar los componentes de una muestra al tiempo que conservan información sobre el contexto estructural y molecular de esos componentes tal como estaban originalmente en la muestra. En otras palabras, la descripción en el presente documento se relaciona generalmente con la detección espacial de ácidos nucleicos en una muestra, incluyendo muestras de tejido que han sido o serán fijadas utilizando métodos conocidos en la técnica, tal como muestras embebidas en parafina fijadas con formol. Como se apreciará, cualquiera de los métodos descritos en esta sección se puede combinar con cualquiera de los métodos descritos anteriormente en las secciones tituladas "Descripción general" y "Descripción general del flujo de trabajo", así como con los métodos de secuenciación de ácidos nucleicos descritos en secciones posteriores de la presente memoria descriptiva.

Por lo general, los métodos desvelados en el presente documento se refieren a la determinación y/o el análisis de ácidos nucleicos en una muestra, incluidos los genomas, particularmente el genoma global, de una muestra. Los métodos descritos en el presente documento brindan la capacidad de analizar cuantitativa o cualitativamente la distribución, localización o expresión de secuencias de ácido nucleico (incluyendo secuencias genómicas) en una muestra en la que se retiene el contexto espacial dentro de la muestra. Los métodos descritos en el presente documento proporcionan una ventaja sobre los métodos convencionales de codificación geográfica de ácidos nucleicos en una muestra, porque la información sobre el contexto estructural se retiene en un método de procesamiento de alto rendimiento sin requerir la identificación de objetivos moleculares particulares (tales como genes específicos u otras secuencias de ácidos nucleicos) antes de procesar la muestra para lecturas de secuencias. Además, se necesitan cantidades bajas de ácido nucleico, lo que es particularmente ventajoso en muestras FFPE en las que los ácidos nucleicos de entrada, particularmente ADN, a menudo están fragmentados o presentes en bajas concentraciones.

Como se ha tratado anteriormente, manteniendo el contexto estructural, también se hace referencia en el presente documento como mantener el contexto geográfico y codificar la geografía, significa el uso de métodos que permiten obtener lecturas de secuencias múltiples o porciones múltiples de lecturas de secuencias que se pueden atribuir a la ubicación relativa tridimensional original de esas lecturas de secuencias dentro de una muestra. En otras palabras, las lecturas de secuencia se pueden asociar con una ubicación relativa dentro de la muestra con respecto a los ácidos nucleicos vecinos (y en algunas situaciones proteínas asociadas) en esa muestra. Esta información espacial está disponible incluso si esos ácidos nucleicos vecinos no están ubicados físicamente dentro de la secuencia lineal de una única molécula de ácido nucleico de origen.

Por lo general, los métodos descritos en el presente documento incluyen análisis en los que se proporciona una muestra que contiene ácidos nucleicos, donde los ácidos nucleicos contienen estructuras tridimensionales. Las porciones de la muestra se separan en particiones discretas de modo que las porciones de las estructuras tridimensionales de ácido nucleico también se separan en particiones discretas: las secuencias de ácido nucleico que están en proximidad espacial entre sí tenderán a separarse en la misma partición, reteniendo así la información tridimensional de esa proximidad espacial incluso cuando las lecturas de secuencias obtenidas más tarde sean de secuencias que no estaban originalmente en la misma molécula de ácido nucleico de origen individual. Con referencia a la figura 1: si la muestra 101, que contiene las moléculas de ácido nucleico 102 y 103 y 106, se separa en particiones discretas de manera que los subconjuntos de la muestra se asignan en diferentes particiones discretas, es más probable que las moléculas de ácido nucleico 102 y 103 se coloquen en la misma partición entre sí que con la molécula de ácido nucleico 106, debido a la distancia física entre la molécula de ácido nucleico 106 y 102 y 103. Como tal, las moléculas de ácido nucleico dentro de las mismas particiones discretas son aquellas que estaban en proximidad espacial entre sí en la muestra original. La información de secuencia obtenida de los ácidos nucleicos dentro de las particiones discretas proporciona una forma de analizar los ácidos nucleicos, por ejemplo, a través de la secuenciación de ácidos nucleicos, y atribuir esas lecturas de secuencias al contexto estructural de las moléculas de ácido nucleico de origen.

En algunos ejemplos, se aplica una biblioteca de etiquetas a la muestra para la codificación espacial o geográfica de la muestra. En determinadas realizaciones, las etiquetas son etiquetas de oligonucleótidos (que pueden incluir "códigos de barras de oligonucleótidos" y "códigos de barras de ADN"), pero como se apreciará, se puede usar cualquier tipo de etiqueta que se pueda añadir a una muestra, incluyendo, sin limitación, partículas, perlas, tintes, sondas de inversión molecular (SIM) y similares. La biblioteca de etiquetas se puede aplicar a la muestra mediante difusión simple o mediante procesos activos, tales como procesos celulares en muestras de cultivos de tejidos o de cultivos celulares. Los procesos de transporte celular incluyen, sin limitación, ósmosis, difusión facilitada a través de la participación de proteínas de transporte celular, transporte pasivo y transporte activo mediante la participación de proteínas de transporte celular y el aporte de energía de moléculas, tales como ATP. Por lo general, las etiquetas se aplican de manera que diferentes ubicaciones espaciales/geográficas dentro de la muestra reciben diferentes etiquetas y/o una diferente concentración de etiquetas. Cualquier procesamiento adicional de la muestra y análisis de los ácidos nucleicos dentro de la muestra se puede atribuir a un contexto espacial particular a través de la identificación de las etiquetas. Por ejemplo, con referencia a la Figura 1, la adición de una biblioteca de etiquetas a la muestra 101 daría como resultado que los ácidos nucleicos 102 y 103 tuvieran proximidad espacial a una porción o concentración diferente de la biblioteca de etiquetas que el ácido nucleico 106. Cualquier procesamiento adicional de la muestra de acuerdo con los flujos de trabajo descritos en el presente documento daría como resultado que los ácidos nucleicos 102 y 103 se asocien con la misma porción/concentración de etiquetas y, por lo tanto, la identificación de esas etiquetas indicaría que los ácidos nucleicos 102 y 103 estaban en proximidad espacial entre sí en la muestra 101 original. La identificación del ácido nucleico 106 con una porción/concentración diferente de etiquetas mostraría que el ácido nucleico 106 estaba en una ubicación espacial diferente a la de los ácidos nucleicos 102 y 103 en la muestra original.

En ejemplos adicionales, también se emplean códigos de barras específicos de partición, de modo que cualquier lectura de secuencia obtenida pueda atribuirse a la partición en la que se ubicaron las moléculas de ácido nucleico de origen. Como se ha tratado anteriormente, asociar lecturas de secuencia a una partición particular identifica moléculas de ácido nucleico que estaban en proximidad espacial entre sí en la geografía de la muestra original. Un uso adicional de los flujos de trabajo, tales como los que se muestran en la Figura 2, también proporciona información sobre el contexto molecular de las lecturas de secuencia, de modo que las lecturas de secuencias individuales se puedan atribuir a las moléculas de ácido nucleico individuales a partir de las cuales se originaron.

Para habilitar el etiquetado de muestras, las muestras se pueden procesar utilizando cualquier método conocido en la técnica para permitir la aplicación de moléculas exógenas tales como etiquetas de oligonucleótidos u otras etiquetas. Por ejemplo, en realizaciones en las que se utilizan muestras de FFPE, las etiquetas se pueden aplicar a las muestras calentando la muestra para permitir el embebido de las etiquetas en la muestra y luego la muestra podría enfriarse y procesarse más de acuerdo con cualquiera de los métodos descritos en el presente documento, incluida la división en particiones discretas y análisis adicionales para identificar secuencias de ácidos nucleicos en la muestra y las etiquetas que también están en estrecha proximidad espacial a esas lecturas de secuencia, conservando así el contexto estructural de esas lecturas de secuencia. Otros métodos de procesamiento de muestras incluyen métodos de procesamiento de tejidos que eliminan la matriz extracelular y/u otros impedimentos estructurales mientras retienen elementos moleculares y proteicos. Dichos métodos incluyen, en algunos ejemplos no limitativos, el método CLARITY, así como el uso de otros métodos de limpieza y etiquetado de tejidos, incluyendo los descritos por ejemplo en Tomer et al., VOL.9 NO.7, 2014, Nature Protocols; Kebschull et al., Neuron, Volumen 91, Número 5, 7 de septiembre de 2016, Páginas 975-987; Chung, K. et al. Structural and molecular interrogation of intact biological systems. Nature 497, 332 337 (2013); Susaki, E.A. et al. Whole-brain imaging with single-cell resolution using chemical cocktails and computational analysis. Cell 157, 726-739 (2014); y Lee et al., ACT-PRESTO: Rapid and consistent tissue clearing and labeling method for 3-dimensional (3D) imaging, Scientific Reports, 2016/01/11/online; Vol. 6, p.18631, que proporcionan enseñanzas relacionadas con el procesamiento de muestras para su uso en métodos de interrogación molecular y estructural.

En determinadas realizaciones, los métodos descritos en el presente documento se utilizan en combinación con técnicas de imagen para identificar ubicaciones espaciales de las etiquetas dentro de la muestra, particularmente para muestras que están inmovilizadas en portaobjetos, tales como muestras de FFPE. Tales técnicas de imagen pueden permitir la correlación de lecturas de secuencias con ubicaciones particulares en las diapositivas, lo que permite la correlación con otros estudios patológicos/de imagen que se hayan realizado con esas muestras. Por ejemplo, pueden utilizarse técnicas de imagen para proporcionar una identificación preliminar de una patología. Las técnicas de secuenciación descritas en el presente documento que proporcionan además lecturas de secuencias manteniendo el contexto estructural podrían combinarse con dicho análisis de imágenes para correlacionar las lecturas de secuencias con el contexto estructural para corroborar o proporcionar más información sobre esa identificación preliminar de la patología. Además, las técnicas de imagen pueden usarse en combinación con etiquetas con propiedades ópticas, de tal manera que etiquetas concretas se asocian con regiones concretas de la muestra representada. Las lecturas de secuencia que están correlacionadas con esas etiquetas identificadas podrían luego correlacionarse aún más con regiones de la muestra de la imagen en virtud de su ubicación con esas etiquetas. Sin embargo, se apreciará que los métodos descritos en el presente documento son independientes de cualquiera de dichas técnicas de formación de imágenes y la capacidad de retener el contexto estructural no depende del uso de una técnica de formación de imágenes para determinar la información espacial de los ácidos nucleicos en la muestra.

En un aspecto de ejemplo, se generan gradientes de oligonucleótidos en una muestra para proporcionar un sistema de coordenadas que se puede descodificar a través del procesamiento posterior a través de la secuenciación. Tal gradiente permitirá marcar células y/o ácidos nucleicos en la muestra con una concentración de oligonucleótidos u oligonucleótidos, que se puede asignar a una ubicación física dentro de la muestra original. Este sistema de coordenadas se puede desarrollar permitiendo que una biblioteca de oligonucleótidos se difunda en una muestra y/o inyectando oligonucleótidos en regiones particulares de la muestra. Al usar la difusión, los cálculos estándar de la cinética de difusión proporcionarán una correlación entre la concentración de las etiquetas de oligonucleótidos y su ubicación espacial en la muestra original. Por lo tanto, cualquier otro ácido nucleico identificado con esa concentración de etiquetas de oligonucleótidos puede a su vez correlacionarse con una región geográfica particular de la muestra.

En realizaciones ilustrativas adicionales, los métodos incluyen procesos para analizar ácidos nucleicos mientras se mantiene el contexto estructural en el que se aplica una biblioteca de etiquetas a una muestra de manera que diferentes regiones geográficas de la muestra reciben diferentes etiquetas. A continuación se separan en particiones discretas porciones de la muestra, que ahora contienen sus ácidos nucleicos originales, así como las etiquetas añadidas, de manera que partes de la biblioteca de etiquetas y partes de los ácidos nucleicos que están cerca entre sí en ubicación geográfica dentro de la muestra terminan en la misma partición discreta. Se usan procesos de secuenciación, tales como los descritos con detalle en el presente documento, para proporcionar lecturas de secuencias de ácidos nucleicos en las particiones discretas. Las etiquetas también se pueden identificar antes, después o simultáneamente con esos procesos de secuenciación. La correlación de lecturas de secuencias con etiquetas particulares (o concentraciones de etiquetas en realizaciones en las que se usan gradientes de concentración de etiquetas) ayuda por lo tanto a proporcionar el contexto espacial de las lecturas de secuencias. Como se ha tratado anteriormente, las realizaciones en las que las etiquetas utilizadas para la codificación espacial se utilizan junto con códigos de barras específicos de partición proporcionan además un contexto estructural y molecular para las lecturas de secuencia.

IV. Aplicaciones de métodos y sistemas a la secuenciación de ácidos nucleicos

Los métodos, las composiciones y los sistemas descritos en el presente documento son particularmente aptos para su uso en tecnologías de secuenciación de ácidos nucleicos. Dichas tecnologías de secuenciación pueden incluir cualquier tecnología conocida en la técnica, incluyendo tecnologías de secuenciación de lectura corta y lectura larga. En determinados aspectos, los métodos, las composiciones y los sistemas descritos en el presente documento se usan en tecnologías de secuenciación de alta precisión de lectura corta.

Por lo general, los métodos y sistemas descritos en el presente documento logran la secuenciación genómica usando métodos que tienen las ventajas de las tasas de error de secuenciación extremadamente bajas y el alto rendimiento de las tecnologías de secuenciación de lectura corta. Como se ha descrito anteriormente, una ventaja de los métodos y sistemas descritos en el presente documento es que pueden lograr los resultados deseados mediante el uso de tecnologías de secuenciación de lecturas cortas disponibles de forma ubicua. Tales tecnologías tienen la ventaja de estar fácilmente disponibles y ampliamente dispersas dentro de la comunidad de investigación, con protocolos y sistemas de reactivos bien caracterizados y altamente efectivos. Estas tecnologías de secuenciación de lectura corta incluyen las disponibles en, por ejemplo, Illumina, Inc. (GAllx, NextSeq, MiSeq, HiSeq, X10), Ion Torrent division of Thermo-Fisher (Ion Proton y Ion PGM), métodos de pirosecuenciación, así como otras.

De particular ventaja es que los métodos y sistemas descritos en el presente documento utilizan estas tecnologías de secuenciación de lectura corta y lo hacen con sus bajas tasas de error asociadas. En particular, los métodos y sistemas descritos en el presente documento logran las longitudes de lectura moleculares individuales deseadas o el contexto, como se ha descrito anteriormente, pero con lecturas de secuencias individuales, excluyendo extensiones de pares coincidentes, que son más cortos que 1000 pb, más cortos que 500 pb, más cortos que 300 pb, más cortos que 200 pb, más cortos que 150 pb o incluso más cortos; y con tasas de error de secuenciación para tales longitudes de lectura moleculares individuales que son menos del 5%, menos del 1 %, menos del 0,5%, menos del 0,1 %, menos del 0,05 %, menos del 0,01 %, menos del 0,005 % o incluso menos del 0,001 %.

Los métodos de procesamiento y secuenciación de ácidos nucleicos de acuerdo con los métodos y sistemas descritos en la presente solicitud también se describen con mayor detalle en USSN 14/316,383 (documento US 2014/0378345); 14/316398 (documento US 2015/0005199); 14/316,416 (documento US2014/0378349); 14/316.431 (documento US 2015/0005200); 14/316.447 (documento US 2014/0378350); y 14/316,463 (documento US 2014/0378322) que proporcionan una descripción escrita, figuras y ejemplos de trabajo dirigidos al procesamiento y secuenciación de ácidos nucleicos y otras caracterizaciones de material genómico.

En algunas realizaciones, los métodos y sistemas descritos en el presente documento para obtener información de la secuencia conservando tanto el contexto estructural como el molecular se utilizan para la secuenciación del genoma completo. En algunas realizaciones, los métodos descritos en el presente documento se utilizan para la secuenciación de regiones específicas del genoma. En realizaciones adicionales, los métodos de secuenciación descritos en el presente documento incluyen una combinación de cobertura profunda de las regiones seleccionadas con lecturas vinculadas de menor nivel a más largo alcance del genoma. Como se apreciará, esta combinación de de novo y resecuenciación proporciona una manera eficiente de secuenciar un genoma completo y/o grandes porciones de un genoma. La cobertura dirigida de regiones pobremente caracterizadas y/o altamente polimórficas proporciona además la cantidad de material de ácido nucleico necesario para el ensamblaje de secuencias de novo, mientras que la secuenciación genómica vinculada sobre otras regiones del genoma mantiene una secuenciación de alto rendimiento del resto del genoma. Los métodos y las composiciones descritos en el presente documento son susceptibles de permitir esta combinación de secuenciación de lectura vinculada y de novo, porque la misma plataforma de secuenciación se puede utilizar para ambos tipos de cobertura. La población de ácidos nucleicos y/o fragmentos de ácidos nucleicos que se secuencian de acuerdo con los métodos descritos en el presente documento pueden contener secuencias tanto de las regiones genómicas para la secuenciación de novo como de las regiones genómicas para la re-secuenciación.

En casos específicos, los métodos descritos en el presente documento incluyen una etapa en la que todo regiones seleccionadas del genoma se amplifican selectivamente antes de la secuenciación. Esta amplificación, que generalmente se lleva a cabo utilizando métodos conocidos en la técnica (incluida, sin limitación, amplificación por PCR) proporciona al menos 1X, 2X, 3X, 4X, 5X, 6X, 7X, 8X, 9X, 10X, 11X, 12X, 13X, 14X, 15X, 16X, 17X, 18X, 19X o 20X de cobertura de todo o de regiones seleccionadas del genoma. En realizaciones adicionales, la amplificación proporciona al menos 1X-30X, 2X-25X, 3X-20X, 4X-15X o 5X-10X de cobertura de todo o de regiones seleccionadas del genoma.

La amplificación para la cobertura de todo el genoma y/o regiones objetivo seleccionadas del genoma generalmente se lleva a cabo a través de la extensión de cebadores complementarios a las secuencias dentro o cerca de las regiones seleccionadas del genoma. En algunos casos, se utiliza una biblioteca de cebadores que está diseñada para cubrir las regiones genómicas de interés; en otras palabras, la biblioteca de cebadores está diseñada para amplificar regiones a distancias específicas a lo largo del genoma, ya sea en regiones seleccionadas o en todo el genoma. En algunos casos, la amplificación selectiva utiliza cebadores que son complementarios cada 10, 15, 20, 25, 50, 100, 200, 250, 500, 750, 1000 o 10000 bases a lo largo de las regiones seleccionadas del genoma. En otros ejemplos adicionales, la biblioteca en mosaico de cebadores está diseñada para capturar una mezcla de distancias; esa mezcla puede ser una mezcla aleatoria de distancias o diseñada inteligentemente de manera que porciones o porcentajes específicos de las regiones seleccionadas se amplifiquen mediante diferentes pares de cebadores. En realizaciones adicionales, los pares de cebadores están diseñados de tal manera que cada par amplifica aproximadamente el 1-5 %, 2-10 %, 3-15%, 4-20%, 5-25%, 6-30%, 7-35%, 8-40%, 9-45% o 10-50% de cualquier región contigua de una porción seleccionada del genoma.

En ciertas realizaciones y de acuerdo con cualquiera de las descripciones anteriores, la amplificación se produce en una región del genoma que tiene una longitud de al menos 3 megapares de bases (Mb). En realizaciones adicionales, una región seleccionada del genoma se amplifica selectivamente de acuerdo con cualquiera de los métodos descritos en el presente documento y esa región seleccionada tiene una longitud de al menos 3,5, 4, 4,5, 5, 5,5, 6, 6,5, 7, 7,5, 8, 8,5, 9, 9,5 o 10 Mb. En otras realizaciones adicionales, la región seleccionada del genoma tiene una longitud de aproximadamente 2-20, 3-18, 4-16, 5-14, 6-12 o 7-10 Mb. La amplificación puede ocurrir a través de estas regiones utilizando un solo par de cebadores complementarios a las secuencias en los extremos o cerca de los extremos de estas regiones. En otras realizaciones, la amplificación se lleva a cabo con una biblioteca de pares de cebadores que se colocan en mosaico a lo largo de la región, tal que se amplifican los segmentos regulares, segmentos aleatorios o alguna combinación de diferentes distancias de segmento a lo largo de la región, con el alcance de la cobertura de acuerdo con la descripción anterior.

En algunas realizaciones, los cebadores utilizados en la amplificación selectiva de regiones seleccionadas del genoma contienen uracilos, por lo que los propios cebadores no se amplifican.

Independientemente de la plataforma de secuenciación utilizada, en general y de acuerdo con cualquiera de los métodos descritos anteriormente, la secuenciación de ácidos nucleicos normalmente se lleva a cabo de una manera que conserva el contexto estructural y molecular de las lecturas de secuencias o partes de las lecturas de secuencias. Con esto se quiere decir que las lecturas de secuencias múltiples o las porciones múltiples de lecturas de secuencias pueden atribuirse a la ubicación espacial relativa dentro de la muestra original con respecto a otros ácidos nucleicos (contexto estructural) y/o a la ubicación dentro de la secuencia lineal de un único origen. molécula de un ácido nucleico (contexto molecular).

Como se apreciará, si bien la molécula única de origen de un ácido nucleico puede tener diversas longitudes, en aspectos preferidos, será una molécula relativamente larga, lo que permite la preservación del contexto molecular de largo alcance. En particular, la molécula de origen individual es, de forma preferente sustancialmente más larga que la longitud de secuencia de lectura corta típica, por ejemplo, más de 200 bases, y a menudo tiene al menos 1000 bases o más, 5000 bases o más, 10.000 bases o más, 20.000 bases o más, 30.000 bases o más, 40.000 bases o más, 50.000 bases o más, 60.000 bases o más, 70.000 bases o más, 80.000 bases o más, 90.000 bases o más o 100.000 bases o más y, en algunos casos, 1 megabase o más.

En general, los métodos de la invención incluyen etapas como se ilustra en la Figura 2, que proporciona una visión general esquemática de los métodos de la invención analizados con mayor detalle en el presente documento. Como se apreciará, el método indicado en la Figura 2 es una realización de ejemplo que puede alterarse o modificarse según sea necesario y como se describe en el presente documento.

Como se muestra en la figura 2, los métodos descritos en el presente documento incluirán en la mayoría de los ejemplos una etapa en la que se particionan las muestras (202). Antes de dicha etapa de partición, puede haber una etapa opcional (201) en la que los ácidos nucleicos de la muestra se unen para unir regiones de secuencia que están en estrecha proximidad espacial entre sí. En general, cada partición que contenga ácidos nucleicos de regiones genómicas de interés sufrirá algún tipo de proceso de fragmentación y, por lo general, se conservará el contexto molecular original de los fragmentos (203), generalmente mediante códigos de barras de los fragmentos que son específicos de la partición en la que están contenidos. En algunos ejemplos, cada partición puede incluir más de un ácido nucleico y, en algunos casos, contendrá varios cientos de moléculas de ácido nucleico, en situaciones en las que hay múltiples ácidos nucleicos dentro de una partición, cualquier locus particular del genoma generalmente estará representado por un solo ácido nucleico individual antes del código de barras. Como se ha tratado anteriormente, los fragmentos con código de barras de la etapa 203 se pueden generar usando cualquier método conocido en la técnica - en algunos ejemplos, los oligonucleótidos son las muestras dentro de las distintas particiones. Dichos oligonucleótidos pueden comprender secuencias aleatorias destinadas a cebar aleatoriamente numerosas regiones diferentes de las muestras, o pueden comprender una secuencia cebadora específica dirigida a cebar aguas arriba de una región objetivo de la muestra. En ejemplos adicionales, estos oligonucleótidos también contienen una secuencia de código de barras, de modo que el proceso de replicación también codifique en barras el fragmento replicado resultante del ácido nucleico de la muestra original. Los reactivos de la reacción de extensión, por ejemplo, ADN polimerasa, trifosfatos de nucleósidos, cofactores (por ejemplo, Mg2+ o Mn2+ etc.), que también están contenidos en las particiones, extienden después la secuencia del cebador usando la muestra como molde, para producir un fragmento complementario a la hebra del molde con la que se hibridó el cebador y el fragmento complementario incluye el oligonucleótido y su secuencia de código de barras asociada. La hibridación y la extensión de múltiples cebadores a diferentes porciones de la muestra pueden dar como resultado una gran agrupación de fragmentos complementarios superpuestos de la muestra, de modo que cada uno posee su propia secuencia de código de barras indicativa de la partición en la que se creó. En algunos casos, estos fragmentos complementarios se pueden utilizar como molde cebado por los oligonucleótidos presentes en la partición para producir un complemento del complemento que, de nuevo, incluye la secuencia del código de barras. En ejemplos adicionales, este proceso de replicación está configurado de tal manera que cuando se duplica el primer complemento, produce dos secuencias complementarias en o cerca de sus extremos para permitir la formación de una estructura de horquilla o una estructura de horquilla parcial, lo que reduce la capacidad de la molécula para ser la base para producir más copias iterativas.

Volviendo al método ilustrado en la Figura 2, una vez que los códigos de barras específicos de la partición se unen a los fragmentos copiados, los fragmentos con código de barras se pueden agrupar opcionalmente (204). A continuación, los fragmentos agrupados se secuencian (205) y las secuencias de los fragmentos se atribuyen a su contexto molecular de origen (206), de manera que las regiones de interés objetivo se identifican y también se vinculan con ese contexto molecular de origen. Una ventaja de los métodos y sistemas descritos en el presente documento es que unir un código de barras específico de partición o muestra a los fragmentos copiados antes de enriquecer los fragmentos para las regiones genómicas objetivo conserva el contexto molecular original de esas regiones objetivo, lo que les permite atribuirse a su partición original y, por lo tanto, a su de ácido nucleico de muestra de origen.

Además del flujo de trabajo anterior, las regiones genómicas objetivo pueden enriquecerse adicionalmente, aislarse o separarse, es decir, "extraerse", para análisis adicional, particularmente la secuenciación, utilizando métodos que incluyen métodos de captura basados en chips y en soluciones. Dichos métodos utilizan sondas que son complementarias a las regiones genómicas de interés o a regiones cercanas o adyacentes a las regiones genómicas de interés. Por ejemplo, en captura híbrida (o basada en chip), las micromatrices que contienen sondas de captura (generalmente oligonucleótidos monocatenarios) con secuencias que juntas cubren la región de interés se fijan a una superficie. El ADN genómico está fragmentado y puede someterse a un procesamiento posterior, tal como reparación de extremos para producir extremos romos y/o la adición de características adicionales, como secuencias de cebado universales. Estos fragmentos se hibridan con las sondas en la micromatriz. Los fragmentos no hibridados se eliminan por lavado y los fragmentos deseados se eluyen o se procesan de otro modo en la superficie para la secuenciación u otro análisis y, por lo tanto, la población de fragmentos que quedan en la superficie se enriquece con fragmentos que contienen las regiones objetivo de interés (por ejemplo, las regiones que comprenden las secuencias complementarias a las contenidas en las sondas de captura). La población enriquecida de fragmentos puede amplificarse adicionalmente utilizando cualquier tecnología de amplificación conocida en la técnica. En el documento USSN 62/072,164, presentado el 29 de octubre de 2014, se describen métodos de ejemplo para tales métodos de enriquecimiento de extracción objetivo, que proporciona enseñanzas relacionadas con métodos de enriquecimiento de extracción objetivo y métodos de secuenciación, en su descripción escrita, las figuras y los ejemplos.

En algunos ejemplos, en lugar de la secuenciación del genoma completo, es deseable centrarse en regiones seleccionadas del genoma. Los métodos descritos en el presente documento son particularmente susceptibles a tales análisis, porque la capacidad de apuntar a subconjuntos del genoma, incluso cuando esos subconjuntos están a grandes distancias lineales pero potencialmente muy próximos en el contexto tridimensional de la muestra original, es una característica ventajosa de estos métodos. En algunos aspectos, los métodos para la cobertura de regiones seleccionadas del genoma incluyen métodos en los que las particiones discretas que contienen moléculas de ácido nucleico y/o fragmentos de las mismas de esas regiones seleccionadas se clasifican para procesamiento adicional. Como se apreciará, esta clasificación de las particiones discretas puede tener lugar en cualquier combinación con otros métodos de amplificación selectiva y/o extracción dirigida de regiones genómicas de interés descritos en el presente documento, en particular en cualquier combinación con las etapas del flujo de trabajo descrito anteriormente.

Por lo general, los métodos de clasificación de las particiones discretas incluyen etapas en las que las particiones que contienen al menos una porción de una o más porciones seleccionadas del genoma se separan de las particiones que no contienen ninguna secuencia de esas porciones del genoma. Estos métodos incluyen las etapas de proporcionar una población enriquecida en secuencias de los fragmentos que comprenden al menos una porción de una o más porciones seleccionadas del genoma dentro de las particiones discretas que contienen secuencias de esas porciones del genoma. Dicho enriquecimiento generalmente se logra mediante el uso de amplificación por PCR dirigida de los fragmentos dentro de las particiones discretas que incluyen al menos una porción de una o más porciones seleccionadas del genoma para producir una población. Esta amplificación por p Cr dirigida produce así amplicones que comprenden al menos una porción de las una o más porciones seleccionadas del genoma. En determinadas realizaciones, estos amplicones están unidos a una etiqueta detectable, que en algunas realizaciones no limitantes puede incluir una molécula fluorescente. Por lo general, dicha unión se produce de manera que sólo aquellos amplicones generados a partir de los fragmentos que contienen una o más porciones seleccionadas del genoma se unen al marcador detectable. En algunas realizaciones, la unión de los marcadores detectables se produce durante la amplificación selectiva de una o más porciones seleccionadas del genoma. Dichos marcadores detectables pueden incluir, en otras realizaciones, sin limitación, marcadores fluorescentes, marcadores electroquímicos, perlas magnéticas y nanopartículas. Esta unión del marcador detectable se puede lograr utilizando métodos conocidos en la técnica. En otras realizaciones adicionales, las particiones discretas que contienen fragmentos que comprenden al menos una porción de una o más porciones seleccionadas del genoma se clasifican en función de las señales emitidas por las etiquetas detectables unidas a los amplicones dentro de esas particiones.

En realizaciones adicionales, las etapas de clasificar particiones discretas que contienen porciones seleccionadas del genoma de aquellas que no contienen dichas secuencias incluyen las etapas de (a) proporcionar material genómico de partida; (b) distribuir moléculas de ácido nucleico individuales del material genómico de partida en particiones discretas de manera que cada partición discreta contenga una primera molécula de ácido nucleico individual; (c) proporcionar una población dentro de al menos algunas de las particiones discretas que está enriquecida en secuencias de los fragmentos que comprenden al menos una porción de una o más porciones seleccionadas del genoma; (d) unir una secuencia de código de barras común a los fragmentos dentro de cada partición discreta de modo que cada uno de los fragmentos sea atribuible a la partición discreta en la que estaba contenido; (e) separar particiones discretas que contienen fragmentos que comprenden al menos una porción de una o más porciones seleccionadas del genoma de particiones discretas que no contienen fragmentos que comprenden una o más porciones seleccionadas del genoma; (f) obtener información de secuencia de los fragmentos que comprenden al menos una porción de una o más porciones seleccionadas del genoma, secuenciando así una o más porciones específicas de la muestra genómica mientras se retiene el contexto molecular. Como se apreciará, la etapa (a) de tal método puede incluir más de una molécula de ácido nucleico individual.

En realizaciones adicionales y de acuerdo con cualquiera de los anteriores, antes de obtener la información de la secuencia de los fragmentos, las particiones discretas se combinan y los fragmentos se agrupan. En realizaciones adicionales, la etapa de obtener información de secuencia de los fragmentos se lleva a cabo de tal manera que se mantenga el contexto estructural y molecular de las secuencias de los fragmentos, de modo que la identificación comprende además la identificación de fragmentos derivados de ácidos nucleicos ubicados en estrecha proximidad física dentro de la muestra original y/o están ubicados en las mismas primeras moléculas individuales de ácido nucleico. En aún otras realizaciones, esta obtención de información de secuencia incluye una reacción de secuenciación seleccionada del grupo que consiste en: reacciones de secuenciación de longitud de lectura corta y reacciones de secuenciación de longitud de lectura larga. En otras realizaciones adicionales, la reacción de secuenciación es una reacción de secuenciación de lectura corta de alta precisión.

En aún otras realizaciones y de acuerdo con cualquiera de los anteriores, las particiones discretas comprenden gotículas en una emulsión. En realizaciones adicionales, los fragmentos con código de barras dentro de las particiones discretas representan una cobertura de aproximadamente 1X-10X de la una o más porciones seleccionadas del genoma. En aún otras realizaciones, los fragmentos con código de barras dentro de las particiones discretas representan una cobertura de aproximadamente 2X-5X de la una o más porciones seleccionadas del genoma. En otras realizaciones adicionales, los fragmentos con código de barras de los amplicones dentro de las particiones discretas representan una cobertura de al menos 1X de las una o más porciones seleccionadas del genoma. En aún otras realizaciones, los fragmentos con código de barras dentro de las particiones discretas representan una cobertura de al menos 2X o 5X de las una o más porciones seleccionadas del genoma.

Además de proporcionar la capacidad de obtener información de secuencias de regiones seleccionadas del genoma, los métodos y sistemas descritos en el presente documento también pueden proporcionar otras caracterizaciones de material genómico, incluyendo, sin limitación, la fase de haplotipos, identificación de variaciones estructurales e identificación de variaciones en el número de copias, como se describe con detalle en USSN 14/316,383 (documento US 2014/0378345); 14/316398 (documento US 2015/0005199); 14/316,416 (documento US2014/0378349); 14/316.431 (documento US 2015/0005200); 14/316.447 (documento US 2014/0378350); y 14/316,463 (documento US 2014/0378322) que proporcionan una descripción escrita, figuras y ejemplos de trabajo dirigidos a la caracterización de material genómico.

En un aspecto, y junto con cualquiera de los métodos descritos anteriormente y más adelante en el presente documento, los métodos y sistemas descritos en el presente documento proporcionan prevén la compartimentación, depósito o partición de las muestras de ácidos nucleicos, o fragmentos de los mismos, en compartimentos o particiones discretos (denominados indistintamente en el presente documento particiones), donde cada partición mantiene la separación de su propio contenido del contenido de otras particiones. Identificadores únicos, por ejemplo, códigos de barras, pueden ser liberados previamente, posteriormente o al mismo tiempo a las particiones que contienen los ácidos nucleicos de muestra compartimentados o particionados, para permitir la atribución posterior de las características, por ejemplo, información de secuencia de ácido nucleico, a los ácidos nucleicos de muestra incluidos dentro de un compartimento particular y particularmente a tramos relativamente largos de ácidos nucleicos de muestra contiguos que pueden depositarse originalmente en las particiones.

Los ácidos nucleicos de muestra utilizados en los métodos descritos en el presente documento representan normalmente una serie de porciones superpuestas de la muestra total que se va a analizar, por ejemplo, un cromosoma entero, exoma u otra porción genómica grande. Estos ácidos nucleicos de muestra pueden incluir genomas completos, cromosomas individuales, exomas, amplicones o cualquiera de diversos ácidos nucleicos diferentes de interés. Los ácidos nucleicos de muestra se particionan normalmente de manera que los ácidos nucleicos estén presentes en las particiones en fragmentos o tramos relativamente largos de moléculas de ácido nucleico contiguas. Normalmente, estos fragmentos de los ácidos nucleicos de muestra pueden tener una longitud de más de 1 kb, más de 5 kb, más de 10 kb, más de 15 kb, más de 20 kb, más de 30 kb, más de 40 kb, más de 50 kb, más de 60 kb, más de 70 kb, más de 80 kb, más de 90 kb o incluso más de 100 kb, lo que permite el contexto molecular de mayor alcance descrito anteriormente.

Los ácidos nucleicos de muestra también se particionan normalmente a un nivel en el que una partición dada tiene una probabilidad muy baja de incluir dos fragmentos superpuestos de un ácido nucleico de la muestra de partida. Esto normalmente se logra proporcionando el ácido nucleico de la muestra en una cantidad y/o concentración de entrada baja durante el proceso de partición. Como resultado, en casos preferidos, una partición dada puede incluir un número de fragmentos largos, pero no superpuestos, de los ácidos nucleicos de muestra de partida. Los ácidos nucleicos de muestra en las diferentes particiones se asocian luego con identificadores únicos, donde para cualquier partición dada, los ácidos nucleicos que contiene poseen el mismo identificador único, pero donde diferentes particiones pueden incluir diferentes identificadores únicos. Además, dado que la etapa de partición asigna los componentes de la muestra en particiones o gotícula de volumen muy pequeño, se apreciará que para lograr la asignación deseada como se establece anteriormente, no es necesario realizar una dilución sustancial de la muestra, como se requeriría en procesos de mayor volumen, por ejemplo, en tubos o pocillos de una placa multipocillo. Adicionalmente, dado que los sistemas descritos en el presente documento emplean niveles tan altos de diversidad de códigos de barras, se pueden asignar diversos códigos de barras entre un mayor número de equivalentes genómicos, como se ha proporcionado anteriormente. En particular, como se ha descrito anteriormente, los enfoques de placa multipocillo (véase, por ejemplo, la solicitud publicada en Estados Unidos n.° 2013-0079231 y 2013-0157870) normalmente solo funcionan con cien a unos pocos cientos de secuencias de códigos de barras diferentes y emplean un proceso de dilución limitante de su muestra para poder atribuir códigos de barras a diferentes células/ácidos nucleicos. Como tal, generalmente operarán con mucho menos de 100 células, que normalmente proporcionaría una proporción de genomas: (tipo de código de barras) del orden de 1:10, y ciertamente muy por encima de 1:100. En los sistemas descritos en el presente documento, por otro lado, debido al alto nivel de diversidad de códigos de barras, por ejemplo, más de 10.000, 100.000, 500.000, 600.000, 700.000, etc. diversos tipos de códigos de barras, puede operar en proporciones de genoma: (tipo de código de barras) que están en el orden de 1:50 o menos, 1:100 o menos, 1: 1000 o menos o incluso proporciones más pequeñas, mientras que también permite cargar un mayor número de genomas (por ejemplo, del orden de más de 100 genomas por ensayo, más de 500 genomas por ensayo, 1000 genomas por ensayo o incluso más) al mismo tiempo que proporciona una mayor diversidad de códigos de por cada genoma.

A menudo, la muestra se combina con un conjunto de etiquetas de oligonucleótidos que se unen de forma liberable a las perlas antes de la etapa de partición. Los métodos para la codificación con barras de ácidos nucleicos son conocidos en la técnica y se describen en el presente documento. En algunos ejemplos, los métodos se utilizan como se describe en Amini et al, 2014, Nature Genetics, publicación online anticipada), que proporciona enseñanzas relacionadas con la fijación de códigos de barras u otras etiquetas de oligonucleótidos a ácidos nucleicos. En ejemplos adicionales, los oligonucleótidos pueden comprender al menos una primera y una segunda región. La primera región puede ser una región de código de barras que, como entre oligonucleótidos dentro de una partición dada, puede ser sustancialmente la misma secuencia de código de barras, pero como entre diferentes particiones, puede y, en la mayoría de los casos es una secuencia de código de barras diferente. La segunda región puede ser un N-mero (ya sea un N-mero aleatorio o un N-mero diseñado para apuntar a una secuencia particular) que se puede usar para cebar los ácidos nucleicos dentro de la muestra dentro de las particiones. En algunos casos, cuando el N-mero está diseñado para tener como objetivo una secuencia particular, puede estar diseñado para tener como objetivo un cromosoma en particular (por ejemplo, cromosoma 1, 13, 18 o 21) o región de un cromosoma, por ejemplo, un exoma u otra región objetivo. Como se analiza en el presente documento, el N-mero también puede diseñarse para regiones seleccionadas del genoma que tienden a estar pobremente caracterizadas o son altamente polimórficas o divergentes de la secuencia de referencia. En algunos casos, el N-mero puede diseñarse para tener como objetivo un gen o región genética en particular, tal como un gen o una región asociada con una enfermedad o trastorno (por ejemplo, cáncer). Dentro de las particiones, puede llevarse a cabo una reacción de amplificación utilizando el segundo N-mero para cebar la muestra de ácido nucleico en diferentes lugares a lo largo de la longitud del ácido nucleico. Como resultado de la amplificación, cada partición puede contener productos amplificados del ácido nucleico que están unidos a un código de barras idéntico o casi idéntico y que pueden representar fragmentos más pequeños superpuestos de los ácidos nucleicos en cada partición. El código de barras puede servir como un marcador que significa que un conjunto de ácidos nucleicos se originó a partir de la misma partición y, por lo tanto, potencialmente también se originó a partir de la misma hebra de ácido nucleico. Después de la amplificación, los ácidos nucleicos pueden agruparse, secuenciarse y alinearse usando un algoritmo de secuenciación. Debido a que las lecturas de secuencias más cortas pueden, en virtud de sus secuencias de código de barras asociadas, alinearse y atribuirse a un solo fragmento largo del ácido nucleico de la muestra, todas las variantes identificadas en esa secuencia se pueden atribuir a un solo fragmento de origen y un solo cromosoma de origen. Adicionalmente, al alinear múltiples variantes coubicadas en múltiples fragmentos largos, se puede caracterizar aún más esa contribución cromosómica. En consecuencia, por tanto, se pueden sacar conclusiones con respecto a la fase de variantes genéticas particulares, al igual que los análisis a largo alcance de secuencia genómica, por ejemplo, identificación de información de secuencia a través de tramos de regiones pobremente caracterizadas del genoma. Esta información también puede ser útil para identificar haplotipos, que generalmente son un conjunto específico de variantes genéticas que residen en la misma hebra de ácido nucleico o en diferentes hebras de ácido nucleico. Las variaciones del número de copias también pueden identificarse de esta manera.

Los métodos y sistemas descritos proporcionan ventajas significativas sobre las tecnologías actuales de secuenciación de ácidos nucleicos y sus métodos de preparación de muestras asociados. Los métodos de preparación y secuenciación de muestras en conjunto están predispuestos a identificar y caracterizar principalmente los componentes mayoritarios de la muestra y no están diseñados para identificar y caracterizar los componentes minoritarios, por ejemplo, material genético aportado por un cromosoma, desde una región pobremente caracterizada o altamente polimórfica del genoma, o material de una o unas pocas células, o molécula de ADN de célula tumoral fragmentada que circula en el torrente sanguíneo, que constituyen un pequeño porcentaje del ADN total de la muestra extraída. Los métodos descritos en el presente documento incluyen métodos de amplificación selectiva que aumentan el material genético de estos constituyentes minoritarios y la capacidad de retener el contexto molecular de este material genético proporciona además una caracterización genética de estos constituyentes. Los métodos y sistemas descritos también proporcionan una ventaja significativa para detectar poblaciones que están presentes dentro de una muestra más grande. Como tal, son particularmente útiles para evaluar las variaciones del número de copias y haplotipos; los métodos desvelados en el presente documento también son útiles para proporcionar información de secuencia para secuencias que estaban ubicadas en proximidad espacial entre sí dentro del espacio tridimensional de la muestra original y las moléculas de ácido nucleico originales de las que se derivaron esas secuencias.

El uso de la técnica de código de barras desvelada en el presente documento confiere la capacidad única de proporcionar un contexto estructural y molecular individual para las secuencias y regiones genómicas. Tales regiones del genoma pueden incluir un conjunto dado de marcadores genéticos, es decir, atribuir un conjunto dado de marcadores genéticos (a diferencia de un solo marcador) a moléculas de ácido nucleico de muestra individuales y a través del ensamblaje coordinado de variantes, proporcionar un contexto molecular individual inferido más amplio o incluso de mayor alcance, entre múltiples muestras de moléculas de ácido nucleico y/o a un cromosoma específico. Estos marcadores genéticos pueden incluir loci genéticos específicos, por ejemplo, variantes, tales como SNP, o pueden incluir secuencias cortas. Adicionalmente, el uso de códigos de barras confiere las ventajas adicionales de facilitar la capacidad de discriminar entre constituyentes minoritarios y mayoritarios de la población total de ácidos nucleicos extraídos de la muestra, por ejemplo, para la detección y caracterización del ADN tumoral circulante en el torrente sanguíneo, y también reduce o elimina el sesgo de amplificación durante los pasos de amplificación opcionales. Además, la implementación en un formato de microfluidos confiere la capacidad de trabajar con volúmenes de muestra extremadamente pequeños y cantidades de entrada bajas de ADN, así como la capacidad de procesar rápidamente un gran número de particiones de muestra (gotículas) para facilitar el etiquetado de todo el genoma.

Como se ha señalado anteriormente, los métodos y sistemas descritos en el presente documento proporcionan un contexto estructural y molecular individual para lecturas de secuencias cortas de ácidos nucleicos más largos. Como se usa en el presente documento, el contexto estructural se refiere a la ubicación de secuencias dentro del espacio tridimensional de sus moléculas de ácido nucleico de origen dentro de la muestra original. Como se ha tratado anteriormente, aunque a menudo se piensa que el genoma es lineal, los cromosomas no son rígidos y la distancia espacial entre dos loci genómicos no se correlaciona necesariamente con su distancia a lo largo del genoma: las regiones genómicas separadas por varias megabases a lo largo de la secuencia lineal pueden estar inmediatamente próximas entre sí en el espacio tridimensional. Al retener la información de la proximidad espacial original de las lecturas de secuencia, los métodos y composiciones descritos en el presente documento proporcionan una forma de atribuir lecturas de secuencias a interacciones genómicas de largo alcance.

De manera similar, la retención del contexto molecular individual posible con los métodos descritos en el presente documento proporciona un contexto de secuencia más allá de la lectura de secuencia específica, por ejemplo, relación con secuencias adyacentes o proximales, que no están incluidos dentro de la secuencia leída en sí, y como tal, normalmente serán tales que no se incluirán en su totalidad o en parte en una lectura de secuencia corta, por ejemplo, una lectura de unas 150 bases o aproximadamente 300 bases para lecturas pareadas. En aspectos particularmente preferidos, los métodos y sistemas proporcionan un contexto de secuencia de largo alcance para lecturas de secuencia corta. Dicho contexto de largo alcance incluye la relación o el enlace de una lectura de secuencia dada con lecturas de secuencia que están a una distancia entre sí de más de 1 kb, más de 5 kb, más de 10 kb, más de 15 kb, más de 20 kb, más de 30 kb, más de 40 kb, más de 50 kb, más de 60 kb, más de 70 kb, más de 80 kb, más de 90 kb o incluso más de 100 kb, o más. Al proporcionar un contexto molecular individual de mayor alcance, los métodos y sistemas de la invención también proporcionan un contexto molecular inferido mucho más largo. El contexto de secuencia, como se describe en el presente documento, puede incluir un contexto de menor resolución, por ejemplo, desde el mapeo de las lecturas de secuencia corta hasta las moléculas individuales más largas o cóntigos de moléculas unidas, así como el contexto de secuencia de mayor resolución, por ejemplo, de la secuenciación de largo alcance de grandes porciones de las moléculas individuales más largas, por ejemplo, que tienen determinadas secuencias contiguas de moléculas individuales cuando dichas secuencias determinadas tienen una longitud de más de 1 kb, más de 5 kb, más de 10 kb, más de 15 kb, más de 20 kb, más de 30 kb, más de 40 kb, más de 50 kb, más de 60 kb, más de 70 kb, más de 80 kb, más de 90 kb o incluso más de 100 kb. Al igual que con el contexto de secuencia, la atribución de secuencias cortas a ácidos nucleicos más largos, por ejemplo, tanto moléculas de ácido nucleico largas individuales como colecciones de moléculas de ácido nucleico unidas o cóntigos, puede incluir tanto el mapeo de secuencias cortas contra tramos de ácido nucleico más largos para proporcionar un contexto de secuencia de alto nivel, así como proporcionar secuencias ensambladas desde las secuencias cortas hasta estos ácidos nucleicos más largos.

Los métodos, composiciones y sistemas descritos en el presente documento permiten la caracterización de interacciones de largo alcance en el genoma, así como la caracterización de proteínas asociadas y otras moléculas dentro de una muestra. Al igual que la organización de alto nivel de las proteínas, la flexión y plegamiento del ADN y la cromatina crean estructuras funcionalmente significativas en una amplia variedad de escalas. A pequeña escala, es bien sabido que el ADN a menudo se enrolla alrededor de proteínas como las histonas para crear una estructura conocida como nucleosoma. Estos nucleosomas se empaquetan en "fibras de cromatina" más grandes y se ha implicado que el patrón de empaquetamiento se ve afectado por procesos celulares como la transcripción. Las estructuras funcionales también existen a escalas más grandes: las regiones separadas por muchas megabases a lo largo de la secuencia lineal del genoma pueden ser inmediatamente adyacentes en un espacio tridimensional. Tales interacciones de largo alcance entre los loci genómicos pueden desempeñar un papel en las características funcionales: por ejemplo, los potenciadores de genes, los elementos silenciadores y aislantes pueden funcionar a través de grandes distancias genómicas y su principal modo de acción podría implicar una asociación física directa con los genes diana, ARN no codificantes y/o elementos reguladores. Las interacciones de largo alcance no se limitan a elementos ubicados en cis, es decir, a lo largo del mismo cromosoma, sino que también pueden ocurrir entre loci genómicos ubicados en trans, es decir, en cromosomas diferentes. La existencia de interacciones de largo alcance puede complicar los esfuerzos para comprender las vías que regulan los procesos celulares, dado que los elementos reguladores que interactúan podrían estar a una gran distancia genómica de un gen objetivo, incluso en otro cromosoma. En el caso de los oncogenes y otros genes asociados a enfermedades, la identificación de reguladores genéticos de largo alcance puede ser de gran utilidad para identificar las variantes genómicas responsables del estado de enfermedad y el proceso por el cual se produce el estado de enfermedad. Por lo tanto, la capacidad de conservar el contexto estructural y molecular de acuerdo con los métodos descritos en el presente documento proporciona una forma de identificar interacciones genómicas de largo alcance y caracterizar también cualquier proteína asociada.

Los métodos descritos en el presente documento son particularmente útiles para la caracterización de ácidos nucleicos de una muestra de tejido FFP^e, incluyendo una muestra histórica de tejido FFPE. Las muestras de FFPE generalmente presentan desafíos para la caracterización de ácidos nucleicos, porque los ácidos nucleicos a menudo están fragmentados o degradados, lo que puede limitar la cantidad de información que se puede obtener usando métodos convencionales. La información del contexto estructural y molecular que se retiene en los métodos descritos en el presente documento proporciona una oportunidad única con tales muestras, porque esa información contextual puede proporcionar caracterizaciones de interacciones genómicas de largo alcance incluso para muestras degradadas, porque esa información de largo alcance es accesible a través de tecnologías de secuenciación de lectura corta. Las aplicaciones de caracterizaciones de ácidos nucleicos FFPE incluyen comparaciones de secuencias de una o más muestras históricas con secuencias de una muestra de un sujeto, por ejemplo, un paciente de cáncer para proporcionar información de diagnóstico o pronóstico. Por ejemplo, el estado de uno o más marcadores moleculares en una muestra histórica se puede correlacionar con uno o más resultados del tratamiento y la correlación de un resultado del tratamiento con el estado del marcador molecular en una o más muestras históricas se puede utilizar para predecir los resultados del tratamiento para el sujeto, por ejemplo, a un paciente con cáncer. Estas predicciones pueden ser la base para determinar si recomendar o no una opción de tratamiento farmacológico al sujeto.

V. Muestras

Como se apreciará, los métodos y sistemas analizados en el presente documento pueden usarse para obtener información de secuencias de cualquier tipo de material genómico. Tal material genómico puede obtenerse de una muestra tomada de un paciente. Los ejemplos de muestras y tipos de material genómico de uso en los métodos y sistemas discutidos en el presente documento incluyen, sin limitación, polinucleótidos, ácidos nucleicos, oligonucleótidos, ácido nucleico libre de células circulantes, células tumorales circulantes (CTC), fragmentos de ácidos nucleicos, nucleótidos, ADN, ARN, polinucleótidos peptídicos, ADN complementario (ADNc), ADN de doble cadena (ADNdc), ADN monocatenario (ADNmc), ADN plasmídico, ADN cosmídico, ADN cromosómico, ADN genómico (ADNg), ADN vírico, ADN bacteriano, ADNmt (a Dn mitocondrial), ARN ribosómico, ADN libre de células, ADN fetal libre de células (ADNflc), ARNm, ARNr, ARNt, ARNn, ARNip, ARNpn, ARNpno, ARNpca, microARN, ARNbc, ARN de virus y similares. Resumiendo, las muestras que se utilizan pueden variar dependiendo de las necesidades particulares de procesamiento.

Las muestras de uso en la presente invención son muestras de tejido y células embebidas en parafina fijadas con formol (FFPE) y similares.

En realizaciones adicionales, las muestras de uso en los métodos y sistemas descritos en el presente documento comprenden matriz nuclear. "Matriz nuclear" se refiere a cualquier composición que comprende ácidos nucleicos y proteínas. Los ácidos nucleicos pueden estar organizados en cromosomas, en los que proteínas (es decir, por ejemplo, histonas) pueden asociarse con los cromosomas que tienen una función reguladora.

Los métodos y sistemas proporcionados en el presente documento son particularmente útiles para aplicaciones de secuenciación de ácidos nucleicos en las que los ácidos nucleicos de partida (por ejemplo, ADN, ARNm, etc.). - o ácidos nucleicos objetivo de partida - están presentes en pequeñas cantidades, o cuando los ácidos nucleicos que son diana para el análisis, están presentes en una proporción relativamente baja de los ácidos nucleicos totales dentro de una muestra. En un aspecto, la presente divulgación proporciona un método para analizar ácidos nucleicos en el que las moléculas de ácido nucleico de entrada están presentes en una cantidad inferior a 50 nanogramos (ng). En realizaciones adicionales, las moléculas de ácido nucleico están en una cantidad de entrada inferior a 40 ng. En algunas realizaciones, la cantidad es inferior a 20 ng. En algunas realizaciones, la cantidad es inferior a 10 ng. En algunas realizaciones, la cantidad es inferior a 5 ng. En algunas realizaciones, la cantidad es inferior a 1 ng. En algunas realizaciones, la cantidad es inferior a 0,1 ng. Los métodos para aislar y analizar ácidos nucleicos en los que la cantidad de entrada inicial es una cantidad pequeña se describen con más detalle, por ejemplo, en USSN 14/752.602, presentada el 26 de junio de 2015 (documento US 2015/0376605), que proporciona enseñanzas relacionadas con el aislamiento y la caracterización de ácidos nucleicos derivados de muestras en las que los ácidos nucleicos están presentes en pequeñas cantidades.

Como se apreciará, las muestras se pueden procesar utilizando métodos conocidos en la técnica en cualquier momento durante los métodos descritos en el presente documento. Por ejemplo, las muestras se pueden procesar antes de la partición o después de que la muestra se haya particionado en particiones discretas.

En determinadas realizaciones, las muestras se procesan para asegurar que se retengan cadenas de ácido nucleico más largas. Las muestras pueden someterse a procesamiento para eliminar los aductos de formaldehído para mejorar los rendimientos de ácido nucleico. Dichos métodos de procesamiento pueden incluir, en un ejemplo no limitante, el uso de organocatalizadores solubles en agua para acelerar la reversión de los aductos de formaldehído de las bases de ARN y ADN, como se describe en Karmakar et al., (2015), Nature Chemistry, DOI: 10.1038/NCHEM.2307, que proporciona enseñanzas relacionadas con el tratamiento y procesamiento de muestras de FFPE.

Cualquier sustancia que comprenda ácido nucleico puede ser la fuente de una muestra. La sustancia puede ser un fluido, por ejemplo, un fluido biológico. Una sustancia fluídica puede incluir, pero sin limitación, sangre, sangre del cordón umbilical, saliva, orina, sudor, suero, semen, fluido vaginal, fluido gástrico y digestivo, líquido espinal, líquido placentario, líquidos de cavidades, líquido ocular, suero, leche materna, líquido linfático o combinaciones de los mismos. La sustancia puede ser sólida, por ejemplo, un tejido biológico. La sustancia puede comprender tejidos sanos normales, tejidos enfermos o una mezcla de tejidos sanos y enfermos. En algunos casos, la sustancia puede comprender tumores. Los tumores pueden ser benignos (no cancerosos) o malignos (cancerosos). Los ejemplos no limitantes de tumores pueden incluir: fibrosarcoma, mixosarcoma, liposarcoma, condrosarcoma, sarcoma osteogénico, cordoma, angiosarcoma, endoteliosarcoma, linfangiosarcoma, linfangioendoteliosarcoma, sinovioma, mesotelioma, sarcoma de Ewing, leiomiosarcoma, rabdomiosarcoma, carcinomas del sistema gastrointestinal, carcinoma de colon, cáncer pancreático, cáncer de mama, carcinomas del sistema genitourinario, cáncer de ovario, cáncer de próstata, carcinoma de células escamosas, carcinoma basocelular, adenocarcinoma, carcinoma de glándulas sudoríparas, carcinoma de glándulas sebáceas, carcinoma papilar, adenocarcinomas papilares, cistadenocarcinoma, carcinoma medular, carcinoma broncogénico, carcinoma de células renales, hepatoma, carcinoma de las vías biliares, coriocarcinoma, seminoma, carcinoma embrionario, tumor de Wilms, cáncer de cuello uterino, carcinomas del sistema endocrino, tumor testicular, carcinoma de pulmón, carcinoma pulmonar microcítico, carcinoma pulmonar no microcítico, carcinoma de vejiga, carcinoma epitelial, glioma, astrocitoma, meduloblastoma, craneofaringioma, ependimoma, pinealoma, hemangioblastoma, neuroma acústico, oligodendroglioma, meningioma, melanoma, neuroblastoma, retinoblastoma o combinaciones de los mismos. La sustancia puede estar asociada con varios tipos de órganos. Los ejemplos no limitantes de órganos pueden incluir cerebro, hígado, pulmón, riñón, próstata, ovario, bazo, ganglios linfáticos (incluidas las amígdalas), tiroides, páncreas, corazón, músculo esquelético, intestino, laringe, esófago, estómago o combinaciones de los mismos. En algunos casos, la sustancia puede comprender diversas células, incluyendo, pero sin limitaciones: células eucariotas, células procariotas, células de hongos, células cardíacas, células pulmonares, células renales, células hepáticas, células del páncreas, células reproductivas, células madre, células madre pluripotenciales inducidas, células gastrointestinales, células sanguíneas, células cancerosas, células bacterianas, células bacterianas aisladas de una muestra de microbioma humano, etc. En algunos casos, la sustancia puede comprender el contenido de una célula, tal como, por ejemplo, el contenido de una sola célula o el contenido de múltiples células. Los métodos y sistemas para analizar células individuales se proporcionan en, por ejemplo, USSN 14/752641, presentada el 26 de junio de 2015 (documento US 2015/0376609).

Las muestras se pueden obtener de varios sujetos. Un sujeto puede ser un sujeto vivo o un sujeto muerto. Los ejemplos de sujetos pueden incluir, pero sin limitación, seres humanos, mamíferos, mamíferos no humanos, roedores, anfibios, reptiles, cánidos, felinos, bovinos, equinos, cabras, ovinos, gallinas, avines, ratones, conejos, insectos, babosas, microbios, bacterias, parásitos o peces. En algunos casos, el sujeto puede ser un paciente que sufre, se sospecha que sufre o está en riesgo de desarrollar una enfermedad o trastorno. En algunos casos, el sujeto puede ser una mujer embarazada. En algún caso, el sujeto puede ser una mujer embarazada sana normal. En algunos casos, el sujeto puede ser una mujer embarazada que corre el riesgo de tener un bebé con cierto defecto de nacimiento.

Se puede obtener una muestra de un sujeto por cualquier medio conocido en la técnica. Por ejemplo, se puede obtener una muestra de un sujeto accediendo al sistema circulatorio (por ejemplo, por vía intravenosa o intraarterial a través de una jeringa u otro aparato), recolectando una muestra biológica secretada (por ejemplo, saliva, esputo, orina, heces, etc.), adquiriendo quirúrgicamente (por ejemplo, biopsia)una muestra biológica (por ejemplo, muestras intraoperatorias, muestras posquirúrgicas, etc.), hisopado (por ejemplo, hisopo bucal, hisopo orofaríngeo) o pipeteo.

VI. Realizaciones

En algunos aspectos, la presente divulgación proporciona métodos para analizar ácidos nucleicos mientras se mantiene el contexto estructural. Dichos métodos incluyen las etapas de: (a) proporcionar una muestra que contenga ácidos nucleicos, en la que los ácidos nucleicos comprenden estructuras tridimensionales; (b) separar porciones de la muestra en particiones discretas de modo que porciones de las estructuras tridimensionales de ácido nucleico también se separen en particiones discretas; (c) obtener información de secuencia de los ácidos nucleicos, analizando así los ácidos nucleicos mientras se mantiene el contexto estructural.

En algunas realizaciones, la información de secuencia de la etapa de obtención (c) incluye la identificación de ácidos nucleicos que están en proximidad espacial entre sí.

En cualquier realización, la etapa de obtención (c) proporciona información sobre interacciones intracromosómicas y/o intercromosómicas entre loci genómicos.

En cualquier realización, la etapa de obtención (c) proporciona información sobre las conformaciones cromosómicas. En cualquier realización, antes de la etapa de separación (b), al menos algunas de las estructuras tridimensionales se procesan para unir diferentes porciones de los ácidos nucleicos que están en proximidad entre sí dentro de las estructuras tridimensionales.

En cualquier realización, la muestra es una muestra embebida en parafina fijada con formol.

En cualquier realización, los ácidos nucleicos no se aíslan de la muestra antes de la etapa de separación (b).

En cualquier realización, las particiones discretas comprenden perlas.

En cualquier realización, las perlas son perlas de gel.

En cualquier realización, antes de la etapa de obtención (c), los ácidos nucleicos dentro de las particiones discretas tienen un código de barras para formar una pluralidad de fragmentos con código de barras, donde los fragmentos dentro de una partición discreta dada comprenden cada uno un código de barras común, de modo que los códigos de barras identifican los ácidos nucleicos de una partición determinada.

En cualquier realización, la etapa de obtención (c) comprende una reacción de secuenciación seleccionada del grupo que consiste en: reacciones de secuenciación de longitud de lectura corta y reacciones de secuenciación de longitud de lectura larga.

En cualquier realización, la muestra comprende una muestra de tumor.

En cualquier realización, la muestra comprende una mezcla de células tumorales y normales.

En cualquier realización, la muestra comprende una matriz nuclear.

En cualquier realización, los ácidos nucleicos comprenden ARN.

En cualquier realización, la cantidad de ácidos nucleicos en la muestra es inferior a 5, 10, 15, 20, 25, 30, 35, 40, 45 o 50 ng/ml.

En algunos aspectos, la presente divulgación proporciona métodos para analizar ácidos nucleicos mientras se mantiene el contexto estructural que incluyen las etapas de (a) formar ácidos nucleicos unidos dentro de la muestra de modo que los segmentos de ácido nucleico espacialmente adyacentes estén unidos; (b) procesar los ácidos nucleicos unidos para producir una pluralidad de productos de ligamiento, en el que los productos de ligamiento contienen porciones de los segmentos de ácido nucleico espacialmente adyacentes; (c) depositar la pluralidad de productos de ligamiento en particiones discretas; (d) codificar con barras los productos de ligamiento dentro de las particiones discretas para formar una pluralidad de fragmentos con código de barras, en el que los fragmentos dentro de una partición discreta dada comprenden cada uno un código de barras común, asociando así cada fragmento con el ácido nucleico unido del que se deriva; (e) obtener información de secuencia de la pluralidad de fragmentos con código de barras, analizando así los ácidos nucleicos de la muestra mientras se mantiene el contexto estructural. En realizaciones adicionales, la etapa de procesamiento (b) incluye el ligamiento de extremos romos en condiciones que favorecen el ligamiento intramolecular, de manera que los segmentos de ácido nucleico espacialmente adyacentes se ligan dentro de la misma molécula.

En cualquier realización, las condiciones que favorecen el ligamiento intramolecular comprenden diluir la muestra para reducir la concentración de los ácidos nucleicos por debajo de 10 ng/pl.

En cualquier realización, los ácidos nucleicos no se aíslan de la muestra antes de la etapa (a).

En cualquier realización, antes de la etapa de formación (a), los ácidos nucleicos se inmunoprecipitan de manera que las proteínas de unión al ADN asociadas permanecen unidas a los ácidos nucleicos.

En cualquier realización, las particiones comprenden perlas.

En cualquier realización, las perlas son perlas de gel.

En cualquier realización, la muestra comprende una muestra de tumor.

En cualquier realización, la etapa de procesamiento incluye la inversión de la unión posterior a la formación de los productos de ligamiento.

En cualquier realización, la etapa de obtención (e) proporciona información sobre interacciones intracromosómicas y/o intercromosómicas entre loci genómicos.

En cualquier realización, la etapa de obtención (e) proporciona información sobre las conformaciones cromosómicas. En cualquier realización, las conformaciones cromosómicas están asociadas con estados de enfermedad.

En cualquier realización, la etapa de procesamiento da como resultado productos de ligamiento que comprenden ácidos nucleicos que originalmente estaban en estrecha proximidad espacial en la muestra.

En cualquier realización, la etapa de obtención (e) comprende una reacción de secuenciación seleccionada del grupo que consiste en: reacciones de secuenciación de longitud de lectura corta y reacciones de secuenciación de longitud de lectura larga.

En cualquier realización, la reacción de secuenciación es una reacción de secuenciación de lectura corta de alta precisión.

En cualquier realización, la etapa de formación (a) incluye ácidos nucleicos entrecruzados en la muestra.

En cualquier realización, la etapa de formación (a) da como resultado enlaces covalentes entre segmentos de ácido nucleico espacialmente adyacentes.

En algunos aspectos, la presente divulgación proporciona métodos para analizar ácidos nucleicos mientras se mantiene el contexto estructural que incluye las etapas de: (a) formar ácidos nucleicos unidos dentro de la muestra de manera que los segmentos de ácido nucleico espacialmente adyacentes estén unidos; (b) depositar los ácidos nucleicos unidos en particiones discretas; (c) procesar los ácidos nucleicos unidos para producir una pluralidad de productos de ligamiento, en el que los productos de ligamiento contienen porciones de los segmentos de ácido nucleico espacialmente adyacentes; (d) codificar con barras los productos de ligamiento dentro de las particiones discretas para formar una pluralidad de fragmentos con código de barras, en el que los fragmentos dentro de una partición discreta dada comprenden cada uno un código de barras común, asociando así cada fragmento con el ácido nucleico unido del que se deriva; (e) obtener información de secuencia de la pluralidad de fragmentos con código de barras, analizando así los ácidos nucleicos de la muestra mientras se mantiene el contexto estructural.

En realizaciones adicionales, la etapa de procesamiento (c) incluye el ligamiento de extremos romos en condiciones que favorecen el ligamiento intramolecular, de manera que los segmentos de ácido nucleico espacialmente adyacentes se ligan dentro de la misma molécula.

En cualquier realización, la muestra comprende una matriz nuclear.

En cualquier realización, los ácidos nucleicos comprenden ARN.

En cualquier realización, las particiones comprenden perlas.

En cualquier realización, las perlas son perlas de gel.

En cualquier realización, la muestra comprende una muestra de tumor.

En cualquier realización, la etapa de procesamiento (c) da como resultado productos de ligamiento que comprenden ácidos nucleicos que originalmente estaban en estrecha proximidad espacial en la muestra.

En algunos aspectos, la presente divulgación proporciona métodos para analizar ácidos nucleicos mientras se mantiene el contexto estructural que incluye las etapas de (a) entrecruzar ácidos nucleicos dentro de la muestra para formar ácidos nucleicos entrecruzados, en el que el entrecruzamiento forma enlaces covalentes entre segmentos de ácido nucleico espacialmente adyacentes; (b) depositar los ácidos nucleicos entrecruzados en particiones discretas; (c) procesar los ácidos nucleicos entrecruzados para producir una pluralidad de productos de ligamiento, en el que los productos de ligamiento contienen porciones de los segmentos de ácido nucleico espacialmente adyacentes; (d) obtener información de secuencia de la pluralidad de productos de ligamiento, analizando así los ácidos nucleicos de la muestra mientras se mantiene el contexto estructural.

En realizaciones adicionales, la etapa de procesamiento (b) incluye el ligamiento de extremos romos en condiciones que favorecen el ligamiento intramolecular, de manera que los segmentos de ácido nucleico espacialmente adyacentes se ligan dentro de la misma molécula.

En cualquier realización, la muestra comprende una matriz nuclear.

En cualquier realización, los ácidos nucleicos comprenden ARN.

En cualquier realización, los ácidos nucleicos no se aíslan de la muestra antes de la etapa de entrecruzamiento (a). En cualquier realización, la cantidad de ácidos nucleicos en la muestra es inferior a 5, 10, 15, 20, 25, 30, 35, 40, 45 o 50 ng/ml.

En cualquier realización, antes de la etapa de entrecruzamiento (a), los ácidos nucleicos se inmunoprecipitan de manera que las proteínas de unión al ADN asociadas permanecen unidas a los ácidos nucleicos.

En cualquier realización, antes de la etapa de obtención (d), los productos de ligamiento están asociados con un código de barras.

En cualquier realización, los productos de ligamiento dentro de la misma partición reciben códigos de barras comunes, de modo que los códigos de barras identifican los productos de ligamiento de una partición determinada.

En cualquier realización, la etapa de obtención (d) comprende una reacción de secuenciación seleccionada del grupo que consiste en: reacciones de secuenciación de longitud de lectura corta y reacciones de secuenciación de longitud de lectura larga.

Ejemplos

Ejemplo 1: Preparación de la muestra

Los métodos de preparación de muestras se modificaron para proporcionar moléculas de ADN largas a partir de muestras de FFPE. La Figura 7 ilustra un flujo de trabajo de ejemplo, con modificaciones indicadas para preparar muestras de FFPE tanto para la secuenciación del genoma completo (WGS) como para la secuenciación del exorna completo (WES). Por ejemplo, después de la extracción de ADN, se modificó un protocolo de termociclado estándar en 701 para mover la etapa de desnaturalización de 98 grados desde el final de cada ciclo hasta el principio. Además, se añadió una retención de 70 grados durante 2 minutos al final de cada ciclo.

Durante la limpieza 702 posterior al ciclo y la preparación de la biblioteca WES y las etapas de enriquecimiento 704 y 705 objetivo se usaron perlas de inmovilización reversible en fase sólida (SPRI) 1,8X sobre los protocolos normales.

Otra modificación incluía cambiar las condiciones durante la etapa de cizallamiento 703, en la que se utilizó un ultrasonicador con un pico de potencia incidente de aproximadamente 450, a diferencia de un sonicador estándar con una potencia incidente máxima de 50.

Una modificación adicional que se puede utilizar en determinadas situaciones es procesar primero la muestra de FFPE con organocatalizadores para eliminar los aductos de formaldehído, como, por ejemplo, se describe en Karmakar et al., (2015), Nature Chemistry, DOI: 10.1038/NCHEM.2307. Dichos protocolos incluyen la adición de organocatalizadores 5 mM en tampón Tris 30 mM a pH 7 a las muestras para efectuar la reversión del aducto. Los organocatalizadores efectivos incluyen, sin limitación, catalizadores bifuncionales solubles en agua, tales como los catalizadores de antranilato y fosfonilato descritos en Karmakar et al. La inversión de los aductos tiene el efecto de mejorar el rendimiento de los rendimientos de ácido nucleico de la muestra.

Ejemplo 2: Aplicación de códigos de barras a muestras de FFPE

Las muestras de FFPE (que pueden incluir muestras de FFPE en un portaobjetos) se pueden etiquetar con códigos de barras de ADN aplicados en un patrón espacialmente bien definido, tales como los que se utilizan en la impresión de micromatrices de ADN. El código de barras de ADN (en lo sucesivo denominado código de barras-1) es largo para que no se difunda en etapas posteriores o se aplica de forma covalente a la muestra de FFPE. Para permitir que el código de barras del ADN se embeba en el portaobjetos de FFPE, la muestra se calienta y luego se añaden los códigos de barras. Los códigos de barras son generalmente una biblioteca de códigos de barras de modo que se proporcionan diferentes códigos de barras en diferentes partes del portaobjetos. Los códigos de barras también se pueden añadir en diferentes concentraciones en diferentes partes del portaobjetos para ayudar en la codificación geográfica; en esa situación, la biblioteca de códigos de barras puede comprender códigos de barras idénticos o diferentes. Después de añadir los códigos de barras, a continuación el portaobjetos se enfría y luego se separa en porciones, generalmente a través del corte, como el uso de microdisección láser, medios mecánicos/acústicos, y similares. También se pueden usar fluoróforos o Qdots en lugar de códigos de barras, sin embargo, el código de barras permite la encapsulación aleatoria masivamente paralela de porciones de muestra al tiempo que conserva la información espacial local (por ejemplo, células tumorales frente a células normales).

Las porciones de muestras que contienen los códigos de barras se pueden poner en un sistema de secuenciación, incluyendo un sistema basado en gotícula como el sistema 10X Genomics Chromium™, de manera que se encapsule una sola porción con código de barras por gotícula.

La desparafinación de la muestra se puede realizar en la gotícula por calentamiento. La parafina es inmiscible en agua pero soluble en ciertos aceites y, por lo tanto, la parafina se puede eliminar fácilmente de la gotícula al calentar las gotículas encima del chip. El xileno también podría usarse en un proceso de extracción líquido-líquido para desparafinar las porciones de muestra y preparar su contenido de ácido nucleico para su posterior procesamiento.

Otras etapas incluyen el desentrecruzamiento de los puentes de metileno de la muestra desparafinada. Para esta etapa, se pueden usar medios químicos especializados para eliminar los entrecruzamientos y, por lo tanto, permitir el acceso a los ácidos nucleicos contenidos para cualquier procesamiento posterior, incluyendo etapas de codificación con barras de ácido nucleico, amplificación y preparación de la biblioteca tratadas en el presente documento (véase, por ejemplo, la Figura 2). Cabe destacar que el ADN del código de barras espacial también está encapsulado en la gotícula. La segunda etapa de codificación de barras de los ácidos nucleicos individuales servirá para codificar los ácidos nucleicos y el código de barras utilizado para codificar espacialmente la muestra. Luego, las lecturas de secuencia se pueden unir para proporcionar información que luego se puede comparar con la ubicación espacial original en la muestra y, por lo tanto, relacionarla con datos patológicos.

En versiones alternativas de este flujo de trabajo de codificación espacial, la etapa de desentrecruzamiento se realiza primero dentro de la gotícula y luego los ácidos nucleicos en la muestra, incluyendo el ADN genómico, así como los códigos de barras de codificación espacial, se unen a partículas o se aíslan de otra manera de la muestra. A continuación, los ácidos nucleicos se vuelven a encapsular y se someten al flujo de trabajo de códigos de barras y secuenciación en los métodos descritos en el presente documento, incluido el que se muestra en la Figura 2.

Debe entenderse que cualquier operación puede realizarse en cualquier orden, a menos que se indique explícitamente lo contrario o que el lenguaje de la reivindicación requiera un orden específico. Se pretende que todo lo contenido en la descripción anterior y mostrado en los dibujos adjuntos se interprete como ilustrativo únicamente de aspectos particulares y no limitante de las realizaciones mostradas. A menos que quede claro en el contexto o expresamente se indique lo contrario, los valores de concentración proporcionados en el presente documento se dan generalmente en términos de valores de mezcla o porcentajes sin tener en cuenta ninguna conversión que se produzca durante o después de la adición del componente particular de la mezcla.

Claims

REIVINDICACIONES

1. Un método para analizar los ácidos nucleicos obtenidos de una muestra de tejido embebida en parafina fijada con formol (FFPE) mientras se conserva el contexto espacial, que comprende:

a) dividir los ácidos nucleicos obtenidos de la muestra de tejido FFPE en una pluralidad de pocillos; en el que los ácidos nucleicos en proximidad espacial entre sí en la muestra de tejido FFPE se introducen en el mismo pocillo; b) aplicar códigos de barras a los ácidos nucleicos divididos para formar una pluralidad de ácidos nucleicos con código de barras, en donde los ácidos nucleicos con código de barras dentro de un pocillo discreto dado comprenden cada uno una secuencia de código de barras específica de partición común, de tal modo que las secuencias de código de barras identifican los ácidos nucleicos de un pocillo determinado;

c) obtener información de secuencia de la pluralidad de ácidos nucleicos con código de barras, en donde la información de secuencia de la pluralidad de ácidos nucleicos con código de barras comprenden información de secuencia de la secuencia de código de barras específica de la partición; y

d) atribuir la pluralidad de ácidos nucleicos con código de barras a una región de proximidad espacial, en donde los ácidos nucleicos con código de barras derivados de una región de proximidad espacial en la muestra de tejido FFPE comprenden la misma secuencia de código de barras específico de la partición.

2. El método de la reivindicación 1, en el que el código de barras comprende la amplificación con un cebador que comprende una secuencia de código de barras.

3. El método de la reivindicación 1, en el que al menos dos de los ácidos nucleicos particionados en el mismo pocillo en la etapa de partición a) comprenden secuencias diferentes.

4. El método de la reivindicación 1, que comprende además, antes de (a), una etapa previa a la obtención de imágenes de la muestra de tejido FFPE.

5. El método de la reivindicación 1, en el que la muestra de tejido FFPE es una muestra de tejido tumoral.

6. El método de la reivindicación 1, en el que, antes de obtener la información de la secuencia, se agrupan en diferentes pocillos los ácidos nucleicos con código de barras .

7. El método de la reivindicación 1, en el que la información de la secuencia comprende además información relacionada con un ácido nucleico obtenido de la muestra de tejido FFPE.

8. El método de la reivindicación 1, que comprende además, antes de a), una etapa previa de liberación de los ácidos nucleicos de la muestra de tejido FFPE.

9. El método de la reivindicación 1, en el que los ácidos nucleicos obtenidos de la muestra de tejido FFPE comprenden etiquetas de ácido nucleico aplicadas previamente a la muestra.

10. El método de la reivindicación 1, en el que la etapa de obtención información de la secuencia comprende la secuenciación de alto rendimiento de la pluralidad de ácidos nucleicos con código de barras.

11. El método de la reivindicación 1, en el que las secuencias de códigos de barras específicas de la partición comprenden dos o más subsecuencias separadas.

12. El método de la reivindicación 4, en el que dicha formación de imágenes comprende etiquetas de formación de imágenes con propiedades ópticas, de tal manera que etiquetas concretas se asocian a regiones concretas de la muestra representada.

13. El método de la reivindicación 12 que comprende además la correlación de ácidos nucleicos con código de barras, derivados de una región de proximidad espacial en la muestra de tejido FFPE, con las etiquetas de las que se han obtenido imágenes.