ES2857565T3

ES2857565T3 - Multinucleótidos marcados útiles para la secuenciación de ácidos nucleicos

Info

Publication number: ES2857565T3
Application number: ES17728103T
Authority: ES
Inventors: Aruna AYER; Dmitriy Gremyachinskiy; Peter Crisalli; Meng Taing
Original assignee: F Hoffmann La Roche AG
Current assignee: F Hoffmann La Roche AG
Priority date: 2016-05-27
Filing date: 2017-05-29
Publication date: 2021-09-29
Anticipated expiration: 2037-05-29
Also published as: CA3025609A1; CN109863161A; WO2017203059A1; US10655174B2; US20170342485A1; US20200263248A1; US10975432B2; AU2017270377A1; WO2017202917A1; JP2019521096A; US20210292832A1; CN109863161B; US20190241952A1; EP3464310A1; EP3464310B1

Abstract

Un compuesto que tiene la fórmula estructural (IIIa), (IIIb) o (IIIc): **(Ver fórmula)** en la que la base se selecciona de adenosina, citidina, guanosina, timidina y uridina; R se selecciona de H y OH; n es de 1 a 4; el conector es un conector que comprende una cadena enlazada covalentemente de 2 a 100 átomos; y la marca es un resto molecular que puede producir una señal detectable.

Description

DESCRIPCIÓN

Multinucleótidos marcados útiles para la secuenciación de ácidos nucleicos

Campo

La presente solicitud se refiere a compuestos de multinucleótidos marcados que comprenden un resto de marca única unido covalentemente a una pluralidad de restos de nucleósido-5'-oligofosfato, procedimientos de preparación y uso de los compuestos divulgados como sustratos para polimerasa en procedimientos para la secuenciación de ácidos nucleicos y, en particular, procedimientos de secuenciación basada en nanoporos.

Antecedentes

La secuenciación de ácidos nucleicos es el procedimiento para determinar la secuencia de nucleótidos de un ácido nucleico. Dicha información de secuencia puede ser útil en el diagnóstico y/o tratamiento de un sujeto. Por ejemplo, se puede usar la secuencia de un ácido nucleico de un sujeto puede para identificar, diagnosticar y potencialmente desarrollar tratamientos para enfermedades genéticas. Como otro ejemplo, la investigación de patógenos puede dar lugar al tratamiento para enfermedades contagiosas. Puesto que algunas enfermedades se caracterizan por una diferencia tan pequeña como de un nucleótido en una cadena de millones de nucleótidos, es esencial una secuenciación altamente exacta.

Se han desarrollado técnicas de secuenciación por síntesis (SBS) de molécula única que usan nanoporos. Véanse, por ejemplo, las pub. de pat. de EE. UU. n.os 2013/0244340 A1, 2013/0264207 A1, 2014/0134616 A1. La SBS por nanoporos implica usar una ADN polimerasa (u otra enzima que extienda la hebra) para sintetizar una hebra de ADN complementaria a un molde de secuencia diana y, de forma simultánea, determinar la identidad de cada monómero nucleotídico a medida que se añade a la hebra creciente, determinando, de este modo, la secuencia diana. Cada monómero nucleotídico añadido se detecta supervisando el flujo de corriente a través de un nanoporo localizado contiguo al sitio activo de polimerasa a lo largo del tiempo a medida que se sintetiza la hebra. Obtener una señal exacta requiere un posicionamiento apropiado del sitio activo de polimerasa cerca de un nanoporo y el uso de una marca en cada nucleótido añadido que puede penetrar en el nanoporo y proporcionar un cambio identificable en la corriente que circula a través del poro. También requiere controlar los parámetros de la reacción de extensión de la hebra por ADN polimerasa, incluyendo la tasa de asociación de monómeros nucleotídicos, capacidad de procesamiento, tasa de transición y la longitud de lectura global. Para proporcionar una secuenciación por nanoporos exacta, es importante que la marca penetre y resida en el nanoporo durante una cantidad de tiempo suficiente (es decir, "tiempo de permanencia"), y, mientras que reside en el nanoporo, proporcione un bloqueo suficientemente detectable e identificable de la corriente a través del nanoporo (es decir, "corriente de bloqueo"), de modo que el nucleótido específico asociado con la marca se puede distinguir inequívocamente de los otros nucleótidos marcados.

Kumar et al., (2012) "PEG-Labeled Nucleotides and Nanopore Detection for Single Molecule DNA Sequencing by Synthesis", Scientific Reports, 2:684; DOI: 10.1038/srep00684, describe el uso de un nanoporo para distinguir cuatro marcas de PEG-cumarina de diferente longitud fijadas por medio de un 5'-fosforamidato terminal a un nucleótido dG, y demuestra, por separado, la incorporación eficaz y exacta de estos cuatro nucleótidos dG marcados con PEG-cumarina por la ADN polimerasa. Véanse también las publicaciones de solicitud de patente de EE. UU. US 2013/0244340 A1, publicada el 19 de septiembre de 2013, US 2013/0264207 A1, publicada el 10 de octubre de 2013 y US 2014/0134616 A1, publicada el 14 de mayo de 2014.

Los documentos WO 2013/154999 y WO 2013/191793 describen el uso de nucleótidos marcados para SBS por nanoporos y divulgan el posible uso de un nucleótido único fijado a una marca única que comprende cadenas de PEG ramificadas.

El documento WO 2015/148402 describe el uso de nucleótidos marcados para SBS por nanoporos que comprenden un nucleótido único fijado a una marca única, en el que la marca comprende cualquiera o una gama de oligonucleótidos (o análogos de oligonucleótidos) que tienen longitudes de 30 unidades monoméricas o más largas.

Las divulgaciones anteriores descritas anteriormente enseñan estructuras de nucleótidos marcados que tienen un resto de nucleótido único fijado a una marca única o una marca ramificada. El enfoque general de estas divulgaciones es incrementar el tamaño y la variabilidad estructural de la marca y, de este modo, facilitar una mejor detección por nanoporos para la SBS. Sin embargo, el tamaño incrementado de estos nucleótidos marcados divulgados anteriormente crea otro obstáculo para su utilidad para la SBS al disminuir las concentraciones de sustrato que se pueden lograr.

Las divulgaciones anteriores descritas anteriormente no enseñan estructuras de nucleótidos marcados específicos que pueden proporcionar concentraciones de sustrato lo suficientemente altas para impulsar la reacción de extensión por polimerasa a tasas deseables para una SBS eficaz, en particular, en un entorno de nanoporos donde los volúmenes de solución son mínimos y las concentraciones moleculares críticas. En consecuencia, sigue existiendo la necesidad de obtener composiciones de nucleótidos marcados y procedimientos que se puedan usar para mejorar la eficacia y el rendimiento en SBS por nanoporos y otras técnicas de secuenciación.

Sumario

La presente divulgación proporciona compuestos de multinucleótidos marcados que comprenden una marca única unida covalentemente a una pluralidad de restos de nucleósido-5'-oligofosfato, en los que la marca es un resto molecular que puede producir una señal detectable, y cada resto de nucleósido-5'-oligofosfato puede ser un sustrato para una polimerasa. La divulgación también proporciona procedimientos para preparar y usar dichos compuestos de multinucleótidos marcados, incluyendo su uso en la secuenciación por nanoporos. Estos compuestos de multinucleótidos marcados son muy adecuados para su uso en cualquier sistema de secuenciación por síntesis de ácidos nucleicos que utilice nucleótidos marcados como sustratos para polimerasa e identifique la secuencia desconocida por detección de los subproductos marcados de la reacción de extensión por polimerasa. La estructura de multinucleótidos marcados específicos que comprende una marca única unida covalentemente a una pluralidad de restos de nucleósido-5'-oligofosfato, pudiendo ser cada uno un sustrato para polimerasa, incrementa la concentración eficaz de sustrato en el sitio activo de polimerasa sin necesidad de restos de marca adicionales que incrementen, en gran medida, la masa molecular y disminuyan la solubilidad. Este incremento de la concentración eficaz incrementa la eficacia global de la reacción de extensión de la hebra por polimerasa, incrementando, de este modo, la detección de marcas, el rendimiento de secuencia y la exactitud de la secuenciación.

En algunos modos de realización, la presente divulgación proporciona un compuesto que comprende una marca única unida covalentemente a una pluralidad de restos de nucleósido-5'-oligofosfato, en el que la marca es un resto molecular que puede producir una señal detectable, y cada resto de nucleósido-5'-oligofosfato puede ser un sustrato para una polimerasa. En diversos modos de realización, el compuesto comprende la marca única unida covalentemente a de 2 a 12 restos de nucleósido-5'-oligofosfato, opcionalmente de 2 a 6 restos de nucleósido-5'-oligofosfato.

En algunos modos de realización, el compuesto de acuerdo con la presente divulgación está dentro de la fórmula estructural (II) general

(II)

en la que la base se selecciona de adenosina, citidina, guanosina, timidina y uridina; R se selecciona de H y OH; n es de 1 a 4; el conector es un conector que comprende una cadena enlazada covalentemente de 2 a 100 átomos; m es de 2 a 12; y la marca es un resto molecular que puede producir una señal detectable.

En algunos modos de realización, el compuesto de fórmula estructural (I) o (II) comprende un compuesto en el que m es de 2 a 6, u opcionalmente en el que m es de 2 a 3.

En algunos modos de realización, el compuesto tiene la fórmula estructural (IIIa), (IIIb) o (IMe):

(Illa)

(IlIb)

(IIIc)

en la que la base se selecciona de adenosina, citidina, guanosina, timidina y uridina; R se selecciona de H y OH; n es de 1 a 4; el conector es un conector que comprende una cadena enlazada covalentemente de 2 a 100 átomos; y la marca es un resto molecular que puede producir una señal detectable.

En algunos modos de realización, el compuesto tiene la fórmula estructural (IIId), (IIIe) o (IIIf):

(IIId)

(lile)

(ilif)

en la que la base se selecciona de adenosina, citidina, guanosina, timidina y uridina; R se selecciona de H y OH; n es de 1 a 4; p es de 2 a 10; y la marca es un resto molecular que puede producir una señal detectable.

En algunos modos de realización de los compuestos divulgados en el presente documento (por ejemplo, compuestos de fórmula estructural (I) y (II)), el compuesto, cuando se usa como un sustrato para polimerasa, da como resultado una eficacia de extensión incrementada en relación con un compuesto que comprende la marca única unida covalentemente a un nucleósido-5'-oligofosfato único; y opcionalmente, el incremento de la eficacia de extensión resultante del uso del compuesto como un sustrato para polimerasa es de al menos 2 veces, al menos 3 veces, al menos 4 veces, al menos 5 veces, al menos 10 veces o más.

En algunos modos de realización de los compuestos divulgados en el presente documento, la señal detectable se selecciona de una señal detectable por nanoporos, una señal detectable ópticamente y una señal detectable por espectrometría de masas. En algunos modos de realización, la señal detectable es una señal detectable ópticamente, opcionalmente una de un resto fluorescente. En algunos modos de realización, la señal detectable es una señal detectable por nanoporos y la marca es un resto molecular que puede penetrar en, situarse en, capturarse por, translocarse a través de y/o atravesar un nanoporo y, de este modo, dar como resultado un cambio detectable en la corriente a través del nanoporo.

En algunos modos de realización de los compuestos divulgados en el presente documento, la marca comprende un resto molecular seleccionado del grupo que consiste en un oligómero de polietilenglicol (PEG), un resto de tinte orgánico, un oligonucleótido (en el que el oligonucleótido comprende unidades monoméricas de análogos naturales y/o no naturales), un polipéptido (en el que el polipéptido comprende unidades monoméricas de análogos naturales y/o no naturales) y un resto oligomérico que comprende una combinación de cualquiera de estos. En algunos modos de realización, la marca comprende un oligonucleótido, opcionalmente un oligonucleótido que tiene una estructura seleccionada de las tablas 3, 7 o 9. En algunos modos de realización, la marca comprende un oligonucleótido que tiene una secuencia seleccionada de SEQ ID NO: 1-109. En algunos modos de realización, la marca comprende un oligonucleótido que tiene una longitud en unidades monoméricas de 15-meros a 45-meros, de 20-meros a 40-meros, de 20-meros a 30-meros o de 20-meros a 25-meros. En algunos modos de realización, la marca comprende una estructura polimérica, opcionalmente una estructura polimérica que comprende al menos una unidad monomérica resultante de la reacción de un reactivo de amidita seleccionado de la tabla 4. En algunos modos de realización, la marca comprende un polipéptido, opcionalmente un polipéptido que tiene una estructura seleccionada de la tabla 5. En algunos modos de realización, la marca comprende un polipéptido que tiene una secuencia seleccionada de SEQ ID NO: 110-123.

En algunos modos de realización de los compuestos divulgados en el presente documento, el oligofosfato consiste en de 3 a 9 grupos fosfato, opcionalmente de 4 a 6 grupos fosfato u opcionalmente 6 grupos fosfato.

En algunos modos de realización de los compuestos divulgados en el presente documento, la marca o conector comprende un resto ramificado o dendrimérico que puede formar enlaces covalentes con tres o más restos moleculares. En algunos modos de realización, el resto ramificado o dendrimérico es un doble conector, opcionalmente en el que el doble conector resulta de la reacción de un reactivo de amidita del compuesto (19). En algunos modos de realización, el resto ramificado o dendrimérico es un triple conector, opcionalmente en el que el triple conector resulta de la reacción de un reactivo de amidita del compuesto (20).

En algunos modos de realización de los compuestos divulgados en el presente documento, el conector comprende un grupo químico seleccionado del grupo que consiste en: éster, éter, tioéter, amina, amida, imida, benceno, éter bencílico, fenol, bis-hidroxietilbenceno, carbonato, carbamato, escuarato, tiazol, tiazolidina, hidrazona, oxima, triazol, dihidropiridacina, fosfodiéster, polietilenglicol (PEG) y combinaciones de los mismos.

En algunos modos de realización, la divulgación proporciona procedimientos de preparación de compuestos como se divulga en el presente documento, el procedimiento comprende las etapas de: (a) proporcionar (i) un nucleótido con de 3 a 12 fosfatos fijados a su posición 5', en el que el fosfato terminal se acopla a un primer grupo formador de conectores; y (ii) una marca, en la que la marca comprende un resto molecular que puede producir una señal detectable, y se acopla a un conector ramificado o dendrimérico que comprende al menos dos segundos grupos formadores de conectores que pueden reaccionar cada uno con un primer grupo formador de conectores para formar un conector covalente entre al menos dos nucleótidos y una marca única; en el que el primer grupo formador de conectores se selecciona de los compuestos de fórmulas estructurales (IVa) - (XVIIa) y el segundo grupo formador de conectores es el correspondiente compuesto reactivo de fórmulas estructurales (IVb) - (XVIIb); o el primer grupo formador de conectores se selecciona de los compuestos de fórmulas estructurales (IVb) - (XVIIb) y el segundo grupo formador de conectores es el correspondiente compuesto reactivo de fórmulas estructurales (IVa) - (XVIIa); y (b) hacer reaccionar el primer grupo formador de conectores con el segundo grupo formador de conectores, formando, de este modo, un enlace covalente entre al menos dos nucleótidos y una marca única.

En algunos modos de realización, la presente divulgación proporciona una composición que comprende un conjunto de cualquiera de los compuestos como se divulga en el presente documento, en la que cada compuesto del conjunto tiene una marca diferente, en la que cada marca diferente provoca una señal detectable diferente; opcionalmente, en la que la señal detectable se selecciona de una señal detectable por nanoporos, una señal detectable ópticamente y una señal detectable por espectrometría de masas. En algunos modos de realización, la señal detectable diferente es una corriente de bloqueo diferente cuando la marca se sitúa en un nanoporo.

En algunos modos de realización de la composición que comprende un conjunto de compuestos, al menos una de las marcas diferentes comprende un oligonucleótido, opcionalmente un oligonucleótido que tiene una estructura seleccionada de las tablas 3, 7 o 9, opcionalmente un oligonucleótido que tiene una secuencia seleccionada de la SEQ ID NO:1-109. En algunos modos de realización, el conjunto de compuestos comprende (dA6P)2-dTs-(BHEB)-dT14-C3; (dC6P)2-dT20-C3; (dT6P)2-dT4-(N3CE-dT)a-dT1a-C3; y (dG6P)2-dT6-(Tmp)6-dT8-C3. En algunos modos de realización, el conjunto de compuestos comprende (dA6P)2-dT4-(idSp-dT)4-dT8-C3; (dC6P)2-dT20-C3; (dT6P)2-dT4 (N3CE-dT)3-dTi3-C3; y (dG6P)2-dT6-(Tmp)6-dT8-C3.

En algunos modos de realización, la presente divulgación proporciona un procedimiento para determinar la secuencia de un ácido nucleico que comprende: (a) proporcionar una composición de secuenciación por nanoporos que comprende: una membrana, un electrodo en el lado cis y el lado trans de la membrana, un nanoporo con su poro que se extiende a través de la membrana, una solución de electrolito en contacto con ambos electrodos, una polimerasa activa situada contigua al nanoporo, y una hebra de cebador complejada con la polimerasa; (b) poner en contacto la composición de secuenciación por nanoporos con (i) una hebra del ácido nucleico; y (ii) un conjunto de compuestos, comprendiendo cada uno una marca única unida covalentemente a una pluralidad de restos de nucleósido-5'-oligofosfato, en el que la marca es un resto molecular que puede producir una señal detectable, y cada resto de nucleósido-5'-oligofosfato puede ser un sustrato para una polimerasa, y cada miembro del conjunto de compuestos tiene una marca diferente que produce una corriente de bloqueo y/o tiempo de permanencia diferente cuando la marca se sitúa en un nanoporo; y (c) detectar las corrientes de bloqueo diferentes y/o tiempos de permanencia diferentes de las marcas a lo largo del tiempo y correlacionar a cada una de las marcas diferentes los compuestos diferentes incorporados por la polimerasa que son complementarios a la secuencia de ácido nucleico, y, de este modo, determinar la secuencia de ácido nucleico. En algunos modos de realización del procedimiento, los al menos dos compuestos que tienen marcas diferentes tienen corrientes de bloqueo que difieren en al menos un 10 %, al menos un 25 %, al menos un 50 % o al menos un 75 %. En algunos modos de realización del procedimiento, cada compuesto del conjunto de compuestos tiene una marca diferente, en el que cada marca diferente provoca una señal detectable diferente. En algunos modos de realización, al menos una de las marcas diferentes comprende un oligonucleótido, opcionalmente un oligonucleótido que tiene una estructura seleccionada de las tablas 3, 7 o 9, opcionalmente un oligonucleótido que tiene una secuencia seleccionada de SEQ ID NO: 1-109. En algunos modos de realización del procedimiento, el conjunto de compuestos comprende (dA6P)2-dT5-(BHEB)-dT14-C3; (dC6P)2-dT20-C3; (dT6P)2-dT4-(N3CE-dT)3-dT13-C3; y (dG6P)2-dT6-(Tmp)6-dT8-C3. En algunos modos de realización del procedimiento, el conjunto de compuestos comprende (dA6P)2-dT4-(idSp-dT)4-dT8-C3; (dC6P)2-dT20-C3; (dT6P)2-dT4-(N3CE-dT)3-dT13-C3; y (dG6P)2-dT6-(Tmp)6-dT8-C3.

BREVE DESCRIPCIÓN DE LOS DIBUJOS

La FIG. 1 representa una reacción de conjugación con doble conector útil para preparar el sustrato de multinucleótidos marcados de estructura [dT6P-conector]2-dT30 (compuesto (3a)).

La FIG. 2 representa una reacción de conjugación con triple conector útil para preparar el sustrato de multinucleótidos marcados de estructura [dT6P-conector]3-dT30-C3 (compuesto(3b)).

La FIG. 3 representa un gráfico de la concentración de marca frente a la tasa (bases/s) como un sustrato para polimerasa en ensayos de desplazamiento de sustratos de multinucleótidos marcados que tienen 2, 3 y 4 sustratos unidos a una marca oligonucleotídica única, así como un sustrato de nucleótido único marcado, y un sustrato de nucleótido hexafosfato no marcado.

DESCRIPCIÓN DETALLADA

Para las descripciones en el presente documento y las reivindicaciones adjuntas, las formas en singular "un" y "una" incluyen referentes al plural a menos que el contexto lo indique claramente de otro modo. Por tanto, por ejemplo, la referencia a "una proteína" incluye más de una proteína y la referencia a "un compuesto" se refiere a más de un compuesto. El uso de "comprender", "comprende", "que comprende", "incluir", "incluye" y "que incluye" son intercambiables y no se pretende que sean limitantes. Se debe entender además que cuando las descripciones de diversos modos de realización usan el término "que comprende", los expertos en la técnica entenderán que, en algunos casos específicos, un modo de realización se puede describir de forma alternativa usando el lenguaje "que consiste esencialmente en" o "que consiste en".

Cuando se proporciona un intervalo de valores, a menos que el contexto lo indique claramente de otro modo, se entiende que cada número entero intermedio del valor, y cada décima parte de cada número entero intermedio del valor, a menos que el contexto lo indique claramente de otro modo, entre el límite superior e inferior de ese intervalo, y cualquier otro valor establecido o intermedio en ese intervalo establecido, se engloba dentro de la divulgación. Los límites superior e inferior de estos intervalos más pequeños se pueden incluir independientemente en los intervalos más pequeños, y también se engloban en la divulgación, sujetos a cualquier límite específicamente excluido en el intervalo establecido. Cuando el intervalo establecido incluye uno o ambos de los límites, los intervalos que excluyen (i) cualquiera o (ii) ambos de estos límites incluidos también se incluyen en la divulgación. Por ejemplo, de "1 a 50" incluye de "2 a 25", de "5 a 20", de "25 a 50", de "1 a 10", etc.

Se debe entender que tanto la descripción general anterior, incluyendo los dibujos, y la siguiente descripción detallada solo son ejemplares y explicativas y no son restrictivas de esta divulgación.

Definiciones

Los términos técnicos y científicos usados en las descripciones en el presente documento tendrán los significados comúnmente entendidos por un experto en la técnica, a menos que se defina específicamente de otro modo. En consecuencia, se pretende que los siguientes términos tengan los siguientes significados.

"Ácido nucleico", como se usa en el presente documento, se refiere a una molécula de una o más subunidades de ácido nucleico que comprenden una de las nucleobases adenina (A), citosina (C), guanina (G), timina (T) y uracilo (U), o variantes de las mismas. El ácido nucleico se puede referir a un polímero de nucleótidos (por ejemplo, dAMP, dCMP, dGMP, dTMP), también denominado polinucleótido u oligonucleótido, e incluye ADN, ARN, tanto en forma monocatenaria como bicatenaria, e híbridos de los mismos.

"Nucleótido", como se usa en el presente documento, se refiere a un compuesto de nucleósido-5'-oligofosfato, o análogo estructural de un nucleósido-5'-oligofosfato, que puede actuar como sustrato o inhibidor de una ácido nucleico polimerasa. Los nucleótidos ejemplares incluyen, pero no se limitan a, nucleósidos-5'-trifosfato (por ejemplo, dATP, dCTP, dGTP, dTTP y dUTP); nucleósidos (por ejemplo, dA, dC, dG, dT y dU) con cadenas de 5'-oligofosfato de 4 o más fosfatos de longitud (por ejemplo, 5'-tetrafosfosfato, 5'-pentafosfosfato, 5'-hexafosfosfato, 5'-heptafosfosfato, 5'-octafosfosfato); y análogos estructurales de nucleósidos-5'-trifosfato que pueden tener un resto de base modificada (por ejemplo, una base de purina o pirimidina sustituida), un resto de glúcido modificado (por ejemplo, un glúcido O alquilado) y/o un resto de oligofosfato modificado (por ejemplo, un oligofosfato que comprende un tiofosfato, un metileno y/u otros puentes entre fosfatos).

"N ucleósido", como se usa en el presente documento, se refiere a un resto molecular que comprende una nucleobase natural o no natural fijada a un resto de glúcido (por ejemplo, ribosa o desoxirribosa).

"O ligofosfa to", como se usa en el presente documento, se refiere a un resto molecular que comprende un oligómero de grupos fosfato. Por ejemplo, un oligofosfato puede comprender un oligómero de desde 2 a 20 fosfatos, un oligómero de desde 3 a 12 fosfatos, un oligómero de desde 3 a 9 fosfatos.

"Polimerasa", como se usa en el presente documento, se refiere a cualquier enzima natural o no natural u otro catalizador que puede catalizar una reacción de polimerización, tal como la polimerización de monómeros nucleotídicos para formar un polímero de ácido nucleico. Las polimerasas ejemplares que se pueden usar en las composiciones y procedimientos de la presente divulgación incluyen las ácido nucleico polimerasas, tales como ADN polimerasa (por ejemplo, enzima de clase EC 2.7.7.7), ARN polimerasa (por ejemplo, enzima de clase EC 2.7.7.6 o EC 2.7.7.48), retrotranscriptasa (por ejemplo, enzima de clase EC 2.7.7.49) y ADN ligasa (por ejemplo, enzima de clase EC 6.5.1.1).

"Conector", como se usa en el presente documento, se refiere a cualquier resto molecular que proporciona una fijación por enlace con algún espacio entre dos o más moléculas, grupos moleculares y/o restos moleculares.

"M arca", como se usa en el presente documento, se refiere a un resto o parte de una molécula que posibilita o potencia la capacidad de detectar y/o identificar, directa o bien indirectamente, una molécula o complejo molecular, que se acopla a la marca. Por ejemplo, la marca puede proporcionar una propiedad o característica detectable, tal como abultamiento estérico o volumen, carga electrostática, potencial electroquímico, firma óptica y/o espectroscópica.

"Nanoporo", como se usa en el presente documento, se refiere a un poro, canal o paso formado o de otro modo proporcionado en una membrana u otro material de barrera que tiene una anchura o diámetro característico de aproximadamente 0,1 nm a aproximadamente 1000 nm. Un nanoporo puede estar fabricado de una proteína formadora de poros natural, tal como a-hemolisina de S. aureus, o un mutante o variante de una proteína formadora de poros natural, no natural (es decir, genomanipulada), tal como a-HL-C46, o bien natural. Una membrana puede ser una membrana orgánica, tal como una bicapa lipídica, o una membrana sintética fabricada de un material polimérico no natural. El nanoporo se puede disponer contiguo o en proximidad a un sensor, un circuito sensor o un electrodo acoplado a un circuito sensor, tal como, por ejemplo, un semiconductor de óxido de metal complementario (CMOS) o circuito de transistores de efecto de campo (FET).

"Marca detectable por nanoporos", como se usa en el presente documento, se refiere a una marca que puede penetrar en, situarse en, capturarse por, translocarse a través de y/o atravesar un nanoporo y, de este modo, dar como resultado un cambio detectable en la corriente a través del nanoporo. Las marcas detectables por nanoporos ejemplares incluyen, pero no se limitan a, polímeros naturales o sintéticos, tales como polietilenglicol, oligonucleótidos, polipéptidos, carbohidratos, polímeros de ácido peptidonucleico, polímeros de ácido nucleico bloqueado, cualquiera de los que opcionalmente se puede modificar con o unir a grupos químicos, tales como restos de tinte, o fluoróforos, que pueden dar como resultado cambios en la corriente por los nanoporos detectables.

"Corriente de fondo", como se usa en el presente documento, se refiere al nivel de corriente medido a través de un nanoporo cuando se aplica un potencial y el nanoporo está abierto y desbloqueado (por ejemplo, no existe ninguna marca en el nanoporo).

"Corriente de bloqueo", como se usa en el presente documento, se refiere al nivel de corriente medido a través de un nanoporo cuando se aplica un potencial y está presente una marca en el nanoporo. En general, la presencia de la marca en el nanoporo restringe el flujo de moléculas cargadas a través del nanoporo, alterando, de este modo, el nivel de corriente de fondo.

"Tiempo de permanencia", como se usa en el presente documento en el contexto de captura de una marca en un nanoporo, se refiere al tiempo que la marca pasa en el nanoporo como se detecta por una corriente de bloqueo.

"Eficacia de extensión", como se usa en el presente documento en el contexto de un compuesto de multinucleótidos marcados que actúa como sustrato para una polimerasa, se refiere a cualquier parámetro asociado con la eficacia de la reacción de extensión de la hebra por polimerasa, incluyendo, pero sin limitarse a: capacidad de procesamiento, tasa de transición, tasa de asociación (kas), longitud de lectura, fidelidad de longitud de lectura, tasa de alargamiento, exactitud de la secuenciación, capacidad de lectura continua larga.

Descripción detallada de diversos modos de realización

Visión general: Compuestos de multinucleótidos marcados y secuenciación por nanoporos

La presente divulgación describe composiciones de compuestos de multinucleótidos marcados y procedimientos, dispositivos y sistemas relacionados que son útiles para la secuenciación por nanoporos de ácidos nucleicos. Los compuestos de multinucleótidos marcados se pueden usar en procedimientos para detectar con exactitud la incorporación de nucleótidos individuales por una ácido nucleico polimerasa en una hebra creciente que es complementaria a una hebra de ácido nucleico molde. En general, la enzima que extiende la hebra (por ejemplo, ADN polimerasa) se une específicamente a un compuesto de multinucleótidos marcados que es complementario a una hebra de ácido nucleico molde que se hibrida a la hebra de ácido nucleico creciente en su sitio activo. A continuación, la enzima que extiende la hebra acopla catalíticamente (es decir, incorpora) el resto de nucleótido complementario del compuesto de multinucleótidos marcados al extremo de la hebra de ácido nucleico creciente. La finalización del acontecimiento de incorporación catalítica da como resultado la liberación del resto de marca y resto de oligofosfato (menos el fosfato incorporado en la hebra creciente) que, a continuación, pasa a través del nanoporo contiguo.

Sin embargo, incluso antes de que se someta a un procedimiento catalítico que lo libere del nucleótido incorporado, el resto de marca de un compuesto de multinucleótidos marcados puede penetrar en el poro del nanoporo, alterando, de este modo, la corriente de fondo del nanoporo bajo un potencial y provocando una corriente de bloqueo que se puede detectar. Diversas propiedades moleculares del resto de marca (por ejemplo, masa, volumen, estructura 3-D, carga electrostática) pueden afectar, en gran medida, a su interacción con el poro y, de este modo, permitir la detección por nanoporos para distinguir diferentes restos de marca, pudiendo corresponder cada uno a un nucleótido diferente. Es conocida en la técnica una variedad de sistemas de nanoporos y procedimientos para usarlos para detectar moléculas marcadas, incluyendo nucleótidos marcados en secuenciación. Véanse, por ejemplo, la solicitud de patente de EE. UU. n.° 12/308.091, Ju et al., presentada el 18 de mayo de 2009; la solicitud de patente de EE. UU. n.° 13/994.431, Ju et al., presentada el 14 de junio de 2013; las publicaciones de solicitud de patente de EE. UU. US 2013/0244340 A1, publicada el 19 de septiembre de 2013, US 2013/0264207 A1, publicada el 10 de octubre de 2013, y US 2014/0134616 A1, publicada el 14 de mayo de 2014; la sol. PCT n.° PCT/US13/35635, Ju et al., presentada el 8 de abril de 2013; y la sol. PCT n.° PCT/US13/35640, Ju et al., presentada el 8 de abril de 2013, y la publicación internacional PCT n.° WO2015/148402.

En la mayoría de los modos de realización, la secuenciación por nanoporos usa una mezcla de cuatro análogos de nucleótidos (por ejemplo, dA6P, dC6P, dG6P y dT6P) que se pueden incorporar por una enzima en una hebra creciente, teniendo cada análogo de nucleótido un resto de marca fijado covalentemente que proporciona una firma identificable y distinguible cuando se detecta con un nanoporo.

Como se describe en la sección Antecedentes, se ha usado una gama de restos de marca en el contexto de la detección por nanoporos, incluyendo una gama de restos moleculares tales como oligómeros de polietilenglicol (PEG), restos de tintes orgánicos, oligonucleótidos (en los que el oligonucleótido puede comprender unidades monoméricas de análogos naturales y/o no naturales), polipéptidos (en los que el polipéptido puede comprender unidades monoméricas de análogos naturales y/o no naturales) y restos poliméricos que comprenden combinaciones de cualquiera de estos. La amplia gama de unidades monoméricas que se pueden sintetizar (por ejemplo, usando procedimientos de síntesis de fosforamidita o péptidos automatizada) proporciona una gama extremadamente amplia de propiedades moleculares que se pueden mezclar y combinar para proporcionar una detección por nanoporos distinguible. Véanse, por ejemplo, la publicación internacional PCT n.° WO2015/148402, las sol. de patente provisionales de EE. UU. n.os 62/235.551, presentada el 30 de septiembre de 2015, y 62/216.634, presentada el 10 de septiembre de 2015

Estructuras de compuestos de m ultinucleótidos marcados

La presente divulgación proporciona modos de realización de compuestos de multinucleótidos marcados que se pueden caracterizar por una gama de estructuras. En general, el compuesto de multinucleótidos marcados de la presente divulgación comprende una marca única unida covalentemente a una pluralidad de restos de nucleósido-5'-oligofosfato, en el que la marca es un resto molecular que puede producir una señal detectable, y cada resto de nucleósido-5'-oligofosfato puede ser un sustrato para una polimerasa. En algunos modos de realización, el compuesto comprende la marca única unida covalentemente a de 2 a 12 restos de nucleósido-5'-oligofosfato, opcionalmente de 2 a 6 restos de nucleósido-5'-oligofosfato.

Como se describe en otra parte en el presente documento, la estructura de compuestos de multinucleótidos marcados de la presente divulgación da como resultado ventajas técnicas, incluyendo el incremento de la concentración eficaz del sustrato para polimerasa y, de este modo, dio como resultado una eficacia de extensión incrementada. En consecuencia, en algunos modos de realización, los compuestos de multinucleótidos marcados de la presente divulgación tienen una eficacia de extensión incrementada como sustrato para una polimerasa en relación con un compuesto de sustrato que comprende una marca única unida covalentemente a un nucleósido-5'-oligofosfato único. En algunos modos de realización, la eficacia como sustrato para una polimerasa se incrementa al menos 2 veces, opcionalmente una eficacia incrementa al menos 3 veces, al menos 4 veces, al menos 5 veces, al menos 10 veces o más.

Aunque la presente divulgación describe numerosos modos de realización donde se pueden usar los compuestos de multinucleótidos marcados en procedimientos de SBS que implican la detección por nanoporos, también se contempla que los compuestos de multinucleótidos marcados se pueden usar en cualquier procedimiento que implique la detección de la incorporación de nucleótidos individuales por un enzima que extiende la hebra de ácido nucleico (por ejemplo, polimerasa). Por tanto, en algunos modos de realización, la presente divulgación proporciona compuestos de multinucleótidos marcados en los que la señal detectable producida por el resto de marca se selecciona de una señal detectable por nanoporos, una señal detectable ópticamente y una señal detectable por espectrometría de masas.

Los restos moleculares que pueden producir señales detectables por espectrometría de masas u ópticamente son bien conocidos en la técnica. Por ejemplo, existen numerosas técnicas de detección o secuenciación de ADN que utilizan un nucleótido único con un marcador fluorescente, fluorógeno o quimioluminiscente fijado a un fosfato terminal del nucleótido (véanse, por ejemplo, la pat. de EE. UU. n.° 6.399.335 y las solicitudes de patente de EE. UU. publicadas n.os 2003/0044781 y 2003/0124576).

Se contempla que cualquiera de los ensayos que usan dichos nucleótidos marcados con fosfato terminal se podría adaptar fácilmente a multinucleótidos marcados, en los que la marca puede ser cualquiera de estos marcadores fluorescentes, fluorógeno o quimioluminiscentes conocidos. Por tanto, el experto en la técnica puede usar las estructuras de compuestos, los conectores ramificados o dendriméricos y los procedimientos de síntesis divulgados en el presente documento para preparar dichos compuestos de multinucleótidos marcados de forma fluorescente.

Las marcas que pueden producir una señal detectable por nanoporos, en general, incluyen cualquier resto molecular que puede penetrar en, situarse en, capturarse por, translocarse a través de y/o atravesar un nanoporo y, de este modo, dar como resultado un cambio detectable en la corriente a través del nanoporo. Como se indica en la sección Antecedentes y en otra parte en el presente documento, se ha descrito en la técnica una gama de restos moleculares detectables por nanoporos, incluyendo oligómeros de polietilenglicol (PEG), restos de tintes orgánicos, oligonucleótidos (en los que el oligonucleótido puede comprender unidades monoméricas de análogos naturales y/o no naturales), polipéptidos (en los que el polipéptido puede comprender unidades monoméricas de análogos naturales y/o no naturales) y restos poliméricos que comprenden combinaciones de cualquiera de estos. En consecuencia, en algunos modos de realización, los compuestos de multinucleótidos marcados comprenden marcas, en los que la marca es un resto molecular seleccionado del grupo que consiste en un oligómero de polietilenglicol (PEG), un resto de tinte orgánico, un oligonucleótido (en el que el oligonucleótido puede comprender unidades monoméricas de análogos naturales y/o no naturales), un polipéptido (en el que el polipéptido puede comprender unidades monoméricas de análogos naturales y/o no naturales), y un resto oligomérico que comprende una combinación de cualquiera de estos.

La presente divulgación proporciona modos de realización específicos de compuestos de multinucleótidos marcados dentro de la fórmula estructural (II) general

(II)

En algunos modos de realización, la nucleobase ("base") puede ser cualquier base natural o no natural (por ejemplo, modificada químicamente) que se puede incorporar por una enzima que extiende la hebra, tal como una polimerasa. En algunos modos de realización, la nucleobase se selecciona del grupo que consiste en adenosina, citidina, guanosina, timidina y uridina.

El resto de oligofosfato (P) de los compuestos de multinucleótidos marcados puede ser cualquier oligofosfato que, cuando se fija al 5'-O del nucleósido, permite que el nucleótido resultante todavía se pueda incorporar por una enzima que extiende la hebra, tal como como polimerasa. En general, las enzimas que extienden la hebra, tales como polimerasa, pueden incorporar nucleótidos que comprenden oligofosfatos que tienen cadenas de desde 3 a 12 grupos fosfato. En consecuencia, en un compuesto de multinucleótidos marcados de la presente divulgación, el grupo oligofosfato (P) puede comprender de 3 a 12 grupos fosfato.

Como se representa en el compuesto de fórmula estructural (II), el oligofosfato de 3 a 12 grupos fosfato estaría representado por valores de n = 1 a n = 10. Por tanto, en algunos modos de realización de la presente divulgación, el compuesto de multinucleótidos marcados comprende un grupo oligofosfato (P) que comprende de 3 a 9 grupos fosfato (o n = 1 a 7 para la fórmula (II)). En algunos modos de realización, el grupo oligofosfato comprende de 4 a 6 grupos fosfato (o n = 2 a 4 para la fórmula (II)). En algunos modos de realización, el grupo oligofosfato comprende 6 grupos fosfato (o n = 4 para la fórmula (II)).

En otros modos de realización, los compuestos de multinucleótidos marcados de la presente divulgación pueden comprender cadenas de oligofosfato de 4 a 20 fosfatos, de 4 a 12 fosfatos, de 4 a 9 fosfatos, de 4 a 6 fosfatos, en los que la cadena se fija en la posición 5' del nucleósido (por ejemplo, 5'-tetrafosfato, 5'-pentafosfato, 5'-hexafosfato, 5'-heptafosfato, 5'-octafosfato, 5'-nonafosfato, 5'-decafosfato, etc.).

Se contempla además que los compuestos de multinucleótidos marcados de la presente divulgación pueden incluir restos de oligofosfato que comprenden grupos fosfato modificados, análogos de fosfato u otros grupos químicos distintos de fosfato, siempre que la inclusión de dichos grupos fosfato no evite que el multinucleótido marcado resultante se incorpore por una enzima que extiende la hebra cuando el oligofosfato se fija al 5'-O del nucleósido. Típicamente, la incorporación por una enzima que extiende la hebra requiere un grupo fosfato natural en la posición a y un enlace fosfodiéster entre las posición a y las posiciones p del oligofosfato. Por tanto, en algunos modos de realización, el oligofosfato puede comprender un grupo tiofosfato. Adicionalmente, se contempla que el oligofosfato puede incluir un oligómero de fosfato o grupos análogos de fosfato con uno o más grupos distintos de fosfato, tal como un metileno, y/o un grupo puente entre dos o más grupos fosfato.

Conectores

También se contempla que se puede usar una amplia gama de conectores en los compuestos de multinucleótidos marcados de fórmulas estructurales (I) y (II). En general, el conector puede comprender cualquier resto molecular que puede proporcionar un acoplamiento covalente y un espaciado o estructura deseado entre multinucleótidos y una marca única.

El espaciado o estructura deseado se puede seleccionar y optimizar para el uso específico del compuesto de multinucleótidos marcados. Por ejemplo, en un uso de detección por nanoporos, se puede seleccionar un conector que proporcione un espaciado que permita que la marca penetre y resida en el nanoporo cuando uno cualquiera de los multinucleótidos forme un complejo ternario con una polimerasa contigua. Dependiendo de cómo se acople la polimerasa al nanoporo, se puede seleccionar un espaciado ligeramente más corto o más largo para proporcionar una señal detectable por nanoporos adecuada (por ejemplo, corriente de bloqueo) cuando la marca se sitúa en el poro. En general, sin embargo, los conectores útiles en los compuestos de multinucleótidos marcados de la presente divulgación comprenden una cadena enlazada covalentemente de 2 a 100 átomos. En algunos modos de realización, la cadena de conector de 2 a 100 átomos comprende uno o más restos químicos seleccionados del grupo que consiste en: alquilo (C1-C12) lineal, alqueno (C1-C12) lineal, alquino (C1-C12) lineal, éster, éter, tioéter, amina, amida, imida, benceno, éter bencílico, fenol, bis-hidroxietilbenceno, carbonato, carbamato, escuarato, tiazol, tiazolidina, hidrazona, oxima, triazol, dihidropiridacina, fosfodiéster, polietilenglicol (PEG) y combinaciones de los mismos. En el presente documento, se describen y ejemplifican una variedad de conectores que comprenden una gama de restos químicos que son útiles en los compuestos de multinucleótidos marcados.

Típicamente, el conector se forma durante la preparación de compuestos de multinucleótidos marcados (II), en una reacción química que acopla covalentemente el fosfato terminal (o análogo de fosfato) del resto de oligofosfato a la marca, o a un resto de conector que se fija a o se puede fijar covalentemente a la marca. Más específicamente, esta reacción química típicamente implica una marca modificada con un grupo formador de conectores reactivo y un nucleótido que comprende un resto de oligofosfato, en el que el extremo del oligofosfato también se modifica con un grupo formador de conectores reactivo. Esta reacción química formadora de conectores se puede representar como en el esquema 1.

Esquema 1

Como se representa en el esquema 1, X^ay X^bson grupos formadores de conectores reactivos, y L^ay L^bson restos químicos que son conectores precursores de los conectores formados finalmente de estructura - L ^b-X-L^a-. Por tanto, X^ay X^bson restos químicos que se pueden someter a una reacción química que dé como resultado un acoplamiento covalente entre uno de los multinucleótidos y la marca. Como en la estructura de la fórmula II, los corchetes grandes con el subíndice m se usan para indicar que de 2 a 12 de los restos reactivos dentro de los corchetes están presentes en la reacción. En consecuencia, el producto resultante comprende m conectores de estructura -L ^b-X-L^aque acoplan m restos de nucleótido a una marca única. El producto de cada reacción de acoplamiento covalente entre los grupos formadores de conectores, X^ay X^b, es un conector que comprende una estructura general - L ^b-X-L^a-. Por tanto, en algunos modos de realización de la presente divulgación, el conector "L" o "conector" como en los compuestos de fórmula (I) y (II) es un conector de fórmula estructural "-L^b-X-L^a-" como se representa en el esquema 1. El resto químico "X" (de la "-L^b-X-L^a-") es el nuevo resto de conector químico producido en la reacción formadora de conectores. A menudo, el nombre del grupo químico particular X se usa para indicar el tipo de conector, aunque las otras partes del conector proporcionadas por L^ay L^bpueden contribuir sustancialmente a la estructura global del conector. Por ejemplo, un resto de conector X característico puede ser un grupo triazol. El grupo triazol se puede formar en una reacción "clic" entre un grupo formador de conectores de acida y un grupo formador de conectores de alquino.

Además, el conector global puede incluir alquilo C5 y grupos amida en uno o ambos lados del resto de triazol. En consecuencia, en algunos modos de realización, el conector comprende un resto químico, X, producido en la reacción formadora de conectores entre los reactivos formadores de conectores, X^ay X^b, en los que X es un resto químico seleccionado del grupo que consiste en éster, éter, tioéter., amina, amida, imida, benceno, éter bencílico, fenol, bishidroxietilbenceno, carbonato, carbamato, escuarato, tiazol, tiazolidina, hidrazona, oxima, triazol, dihidropiridacina, fosfodiéster y polietilenglicol (PEG).

Los restos químicos L^ay L^bson grupos químicos que pueden actuar eficazmente como conectores o espaciadores entre el oligofosfato de nucleótido o la marca y sus grupos formadores de conectores, X^ay X^b. Típicamente, L^ay L^bson restos químicos que no reaccionan en la reacción formadora de conectores pero que proporcionan un espaciado o estructura adicional para el conector formado final. Los restos L^ay L^bpueden ser iguales o diferentes. En algunos modos de realización, L^ao L^bpueden ser mucho más largos o más cortos que el otro y/o proporcionar diferentes rasgos característicos estructurales, por ejemplo, rasgos característicos que dan como resultado más o menos flexibilidad conformacional. En consecuencia, en algunos modos de realización, los restos L^ay L^bútiles en los compuestos de multinucleótidos marcados de la presente divulgación comprenden una cadena enlazada covalentemente de 2 a 100 átomos y, opcionalmente, uno o más restos químicos seleccionados del grupo que consiste en: alquilo (C1-C12) lineal, alqueno (C1-C12) lineal, alquino (C1-C12) lineal, éster, éter, tioéter, amina, amida, imida, benceno, éter bencílico, fenol, bis-hidroxietilbenceno, carbonato, carbamato, escuarato, tiazol, tiazolidina, hidrazona, oxima, triazol, dihidropiridacina, fosfodiéster, polietilenglicol (PEG) y combinaciones de los mismos.

Por tanto, la presente divulgación proporciona un compuesto de multinucleótidos marcados de fórmula estructural (III)

en la que la "base" es una nucleobase natural o no natural; R se selecciona de H y OH; n es de 1 a 10; m es de 2 a 12; la marca es un resto molecular que puede producir una señal detectable; y "-L^b-X-L^a-" es un conector, en el que L^ay L^bcomprenden cada uno una cadena enlazada covalentemente de 2 a 100 átomos y X es un resto químico seleccionado del grupo que consiste en éster, éter, tioéter, amina, amida, imida, benceno, éter bencílico, fenol, bishidroxietilbenceno, carbonato, carbamato, escuarato, tiazol, tiazolidina, hidrazona, oxima, triazol y dihidropiridacina. En algunos modos de realización, L^ay L^bcomprenden cada uno independientemente un resto químico seleccionado del grupo que consiste en: alquilo (C1-C12) lineal, alqueno (C1-C12) lineal, alquino (C1-C12) lineal, éster, éter, tioéter, amina, amida, imida, benceno, éter bencílico, fenol, bis-hidroxietilbenceno, carbonato, carbamato, escuarato, tiazol, tiazolidina, hidrazona, oxima, triazol, dihidropiridacina, fosfodiéster, polietilenglicol (PEG) y combinaciones de los mismos.

Los grupos formadores de conectores, X^ay X^b, los restos precursores de conector, L^ay L^b, y el conector resultante que forman, de fórmula -L ^a-X-L^b-, ejemplares se muestran en la tabla 1, a continuación.

TABLA 1

La tabla 1 ejemplifica la gama de conectores y los correspondientes grupos formadores de conectores reactivos que se someten una reacción que da como resultado el conector de acoplamiento covalente. Estos diversos conectores y reacciones son bien conocidos en la técnica. El experto en la técnica podrá identificar los reactivos necesarios para estas reacciones y sintetizarlos o bien obtenerlos comercialmente. Por ejemplo, se pueden usar reactivos para conjugar o reticular polipéptidos (o proteínas) a otras biomoléculas como grupos formadores de conectores para preparar las estructuras de multinucleótidos marcados de la presente divulgación. (Véase, por ejemplo, el catálogo de "reactivos de reticulación" disponible de Thermo Scientific, EE. UU., en www.piercenet.com o Sigma-Aldrich, EE. UU., en www.sigmaaldrich.com). De forma similar, los nucleósidos modificados con fosfato terminal y/o reactivos para dicha modificación con grupos acida o alquino (u otros grupos formadores de conectores) están disponibles comercialmente (véase, por ejemplo, Jena Bioscience Gmbh, Jena, Alemania). Adicionalmente, una amplia gama de residuos de aminoácido protegidos con FMOC modificados con grupos acida o alquino (u otros grupos formadores de conectores) que se pueden usar en la síntesis de polipéptidos automatizada en fase sólida están disponibles comercialmente (véase, por ejemplo, AnaSpec, Fremont, California, EE. UU.).

De forma similar, se contempla que cualquiera de los pares de grupos formadores de conectores de fórmulas estructurales (IVa) -(XVIIa) y (IVb) -(XVIIb) se puede usar en cualquier configuración en la preparación de un conector en compuestos de multinucleótidos marcados de la presente divulgación (por ejemplo, el compuesto de fórmula (III)). Es decir, cualquiera de los grupos formadores de conectores, Xa y Xb, se puede usar en la marca o bien en el nucleótido, siempre que los grupos formadores de conectores se emparejen para proporcionar la reacción de conectores que forma el resto de conector X. Por tanto, cualquiera de los grupos formadores de conectores de fórmulas estructurales (IVa) -(XVIIa) se podría fijar a la marca o bien al nucleótido, y el grupo formador de conectores conjugado de fórmulas estructurales (IVb) -(XVIIb) se fijaría al otro. Por tanto, los grupos R1 y R2 como se representa en los conectores de forma R1-LA-X-LB-R2 en la tabla 1 pueden representar tanto la marca como el nucleótido, o el nucleótido y la marca, respectivamente. En consecuencia, en algunos modos de realización, la presente divulgación proporciona compuestos de multinucleótidos marcados de fórmula (III), en los que el compuesto comprende un compuesto de fórmula R1-LA-X-LB-R2, en la que R1 y R2 son el nucleótido y la marca, o R1 y R2 son la marca y el nucleótido, respectivamente, y -L a-X-Lb- comprende un resto químico seleccionado de los restos de fórmula estructural (IVc) -(XVIIc) en la tabla 1.

Como se describe anteriormente, los restos químicos La y Lb que constituyen el conector pueden comprender cada uno independientemente restos químicos, incluyendo alquilo (C1-C12) lineal, éster, éter, tioéter, amina, amida, imida, benceno, éter bencílico, fenol, bis-hidroxietilbenceno, carbonato, carbamato, polietilenglicol (PEG) y combinaciones de los mismos. De forma similar a los grupos formadores de conectores Xa y Xb, se contempla que cualquiera de los restos químicos La y Lb, que constituyen el conector, se puede usar cada uno independientemente con cualquiera de los grupos formadores de conectores, y se puede usar en la marca o bien el nucleótido. Adicionalmente, se contempla que los restos químicos La y Lb pueden ser iguales o diferentes. En algunos modos de realización de los compuestos de multinucleótidos marcados de fórmula (III), los restos químicos La y Lb comprenden restos químicos seleccionados independientemente del grupo que consiste en estructuras de restos de fórmula (XVIIla) - fórmula (XVIIIf) como en la tabla 2.

Tabla 2

Aunque la fórmula estructural del compuesto (III) representa el conector "-L^b-X-L^a-" que se forma como un resto separado de la marca, se contempla que, en algunos modos de realización, el conector se puede formar en una reacción con un grupo formador de conectores que puede comprender parte de la marca. Por ejemplo, la marca puede comprender un oligonucleótido, en el que el oligonucleótido incluye una unidad monomérica modificada con un propargilo u otro grupo alquinilo que se puede acoplar covalentemente a un nucleótido deseado (o análogo de nucleótido) por medio de una reacción "clic" acida-alquino. Este grupo propargilo, que también se podría considerar parte de la marca, puede actuar como un grupo formador de conectores (es decir, "X^b") y se somete a una reacción formadora de conectores con un grupo formador de conectores fijado a un nucleótido.

Conectores ramificados o dendriméricos

Además de la amplia gama de conectores que tienen dos extremos reactivos que se pueden acoplar covalentemente a restos moleculares, los multinucleótidos marcados de la presente divulgación, en general, incluyen al menos un conector "ramificado" o "dendrimérico", que es un tipo de resto de conector que tiene tres o más extremos reactivos. El uso de conectores que comprenden un resto de conector ramificado o dendrimérico facilita el acoplamiento covalente de una marca única a dos o más nucleótidos. Los restos de conector ramificado o dendrimérico que pueden proporcionar tres o más extremos reactivos que se pueden usar en los compuestos de multinucleótidos marcados de la presente divulgación son bien conocidos en la técnica. Véase, por ejemplo, Shchepinov et al., "Oligonucleotide dendrimers: synthesis and use as polylabelled DNA probes", Nucleic Acids Research, 1997, vol. 25, n.° 22, 4447-4454. Los restos de conector ramificado o dendrimérico que proporcionan tres o más extremos reactivos útiles en los compuestos de la presente divulgación están disponibles comercialmente de diversos proveedores de reactivos de síntesis de ADN, por ejemplo, Glen Research (Virginia, EE. UU.; www.glenresearch.com).

En consecuencia, en algunos modos de realización, los compuestos de multinucleótidos marcados de la presente divulgación (por ejemplo, fórmula estructural (I) y (II)) pueden comprender un conector, en los que el conector comprende un resto ramificado o dendrimérico que puede formar enlaces covalentes con tres o más restos moleculares.

Los reactivos ejemplares útiles para preparar el compuesto de multinucleótidos marcados de la presente divulgación en los que el conector comprende un resto ramificado o dendrimérico incluyen los compuestos reactivos de fosforamidita protegida (19) y (20) mostrados a continuación.

Las unidades "dobles" y "triples" de fosforamidita ramificadas o dendriméricas de los compuestos (19) y (20) se fijan fácilmente al extremo de las cadenas de oligonucleótido para generar un extremo de conector en el oligonucleótido que se puede fijar a 2 o más restos moleculares, incluyendo conectores adicionales (por ejemplo, como se divulga en otra parte en el presente documento), que, a continuación, se pueden fijar a oligofosfatos terminales de nucleótidos. En consecuencia, se puede usar un oligonucleótido que comprende unidades monoméricas naturales y/o no naturales como marca para generar los multinucleótidos marcados de la presente divulgación.

En algunos modos de realización de la presente divulgación, el compuesto de multinucleótidos marcados comprende un resto de "doble" conector ramificado o dendrimérico y tiene una fórmula estructural ( Illa):

en la que la "base" es una nucleobase natural o no natural; R se selecciona de H y OH; n es de 2-12; el conector es un conector que comprende una cadena enlazada covalentemente de 2 a 100 átomos; y la marca es un resto molecular que puede producir una señal detectable.

En algunos modos de realización de la presente divulgación, el compuesto de multinucleótidos marcados comprende un resto de "triple" conector ramificado o dendrimérico y tiene una fórmula estructural (llb):

(IlIb)

Adicionalmente, dos o más de las unidades "dobles" de fosforamidita ramificadas o dendriméricas del compuesto (19) y/o las unidades "triples" del compuesto (20) se pueden combinar para crear conectores que pueden acoplar covalentemente un resto molecular único (por ejemplo, una marca) a 4, 6, 8, 9, 12 o más nucleótidos. Por tanto, en algunos modos de realización de la presente divulgación, el compuesto de multinucleótidos marcados comprende un resto de conector cuaternario ramificado o dendrimérico que comprende dos unidades dobles y tiene una fórmula estructural (lllc):

Una variedad de conectores que comprenden una gama de restos químicos que son útiles en los compuestos de multinucleótidos marcados de fórmulas estructurales (Illa), (lllb) e (lllc). En algunos modos de realización de los compuestos de fórmulas estructurales (Illa), (lllb) e (lllc), el conector de 2 a 100 átomos puede comprender uno o más restos químicos seleccionados del grupo que consiste en: alquilo (C1-C12) lineal, alqueno (C1-C12) lineal, alquino (C1-C12) lineal, éster, éter, tioéter, amina, amida, imida, benceno, éter bencílico, fenol, bis-hidroxietilbenceno, carbonato, carbamato, escuarato, tiazol, tiazolidina, hidrazona, oxima, triazol, dihidropiridacina, fosfodiéster, polietilenglicol (PEG) y combinaciones de los mismos.

En algunos modos de realización de la presente divulgación, el conector de los compuestos de fórmulas estructurales (Illa), (lllb) e (lllc) comprende un grupo triazol formado en una reacción "clic" entre un grupo formador de conectores de acida y un grupo formador de conectores de alquino. En consecuencia, en algunos modos de realización, el compuesto de multinucleótidos marcados puede tener una fórmula estructural (llld), (llle) o (lllf):

en la que la "base" es una nucleobase natural o no natural; R se selecciona de H y OH; n es de 2 a 12; p es de 2-10; y la marca es un resto molecular que puede producir una señal detectable.

Como se muestra anteriormente para los compuestos de fórmulas estructurales (lllc) e (lllf), la unidad "doble" de fosforamidita ramificada o dendrimérica del compuesto (19) y la unidad "triple" del compuesto (20) se pueden combinar fácilmente para crear conectores que pueden acoplar covalentemente un resto molecular único (por ejemplo, una marca) a 4, 6, 8, 9, 12 o más nucleótidos. Por ejemplo, una marca se puede unir al compuesto (19) y, a continuación, al compuesto (20) por medio de procedimientos de síntesis de fosforamidita estándar para generar el compuesto (21), que se puede unir además a al menos seis restos moleculares adicionales, tales como seis nucleótidos.

La unidad "doble" de fosforamidita de tres extremos del compuesto (19) también se puede preparar (u obtener comercialmente) con un grupo protector DMT y un grupo protector FMOc . Esta unidad "doble" con dos grupos protectores diferentes se puede usar, a continuación, para fijar posteriormente dos unidades dendriméricas o ramificadas diferentes. Por ejemplo, una unidad "doble" del compuesto (19) y una unidad "triple" del compuesto (20) se pueden fijar covalentemente de una manera en serie a una unidad "doble" que tiene grupos protectores DMT y Fmoc que se fijó previamente a una marca única. Dicha combinación proporciona una marca única con un resto de conector que se puede unir además a al menos cinco restos moleculares adicionales, tales como cinco nucleótidos.

El experto en la técnica reconocerá de inmediato que las unidades de fosforamidita ramificadas o dendriméricas de los compuestos (19) y (20), u otros restos de conector ramificado o dendrimérico de este tipo se pueden combinar de numerosos modos para generar compuestos de multinucleótidos marcados de la presente divulgación.

Marcas

Las marcas útiles en los multinucleótidos marcados de la presente divulgación, en general, pueden incluir cualquier resto molecular que posibilite o potencie la capacidad de detectar y/o identificar, directa o bien indirectamente, el resto molecular al que se acopla (por ejemplo, el/los nucleótido(s) que se "marca(n)"). Por ejemplo, las marcas de la presente divulgación pueden incluir restos moleculares que proporcionen una propiedad o característica detectable, tal como abultamiento estérico o volumen, carga electrostática, potencial electroquímico, firma óptica y/o espectroscópica. La selección de una estructura de marca para su uso en un compuesto de multinucleótidos marcados de la presente divulgación se puede variar dependiendo de la señal que se va a detectar en el uso deseado del compuesto.

En algunos modos de realización, los multinucleótidos marcados de la presente divulgación comprenden marcas que tienen estructuras poliméricas. Las marcas que tienen estructuras poliméricas proporcionan una amplia gama de estructuras y propiedades moleculares fácilmente modificables, lo que permite una gama de señales detectables. Los ejemplos de marcas que tienen estructuras poliméricas incluyen, pero no se limitan a, polímeros naturales o sintéticos, tales como polietilenglicol, oligonucleótidos, polipéptidos, carbohidratos, polímeros de ácido peptidonucleico, polímeros de ácido nucleico bloqueado, cualquiera de los que opcionalmente se puede modificar con o unir a grupos químicos, tales como restos de tinte, o fluoróforos. Dichas marcas poliméricas se han usado como marcas detectables por nanoporos, incluyendo polímeros de nucleótidos (por ejemplo, oligonucleótidos), aminoácidos (por ejemplo, polipéptidos) y/o etilenglicol (por ejemplo, PEG de diversas longitudes), y se ha descubierto que dan como resultado una gama de señales detectables por nanoporos (por ejemplo, corrientes de bloqueo).

Marcas oligonucleotídicas

El documento WO2015/148402 (Fuller et al.) divulga una amplia gama de nucleótidos marcados con oligonucleótidos y su uso en la secuenciación por nanoporos. Los nucleótidos marcados con oligonucleótidos divulgados en el documento WO2015/148402 tienen un nucleótido único unido covalentemente a un resto de oligonucleótido único, que típicamente tiene una longitud en el intervalo de aproximadamente 30 unidades monoméricas. Las marcas oligonucleotídicas divulgadas pueden incluir unidades de nucleótidos de ADN dA, dC, dG y dT y/o una amplia gama de unidades monoméricas no naturales. De hecho, el documento WO2015/148402 divulga más de 100 estructuras de marca distintas que comprenden oligonucleótidos constituidos por unidades monoméricas naturales y/o no naturales (es decir, análogos de nucleótidos o unidades de espaciador). Se contempla que los multinucleótidos marcados de la presente divulgación pueden comprender cualquiera de las marcas divulgadas en el documento WO2015/148402. Muchas marcas oligonucleotídicas útiles en los multinucleótidos marcados de la presente divulgación se proporcionan a continuación en la tabla 3.

Tabla 3

Se contempla que los multinucleótidos marcados de la presente divulgación pueden comprender marcas divulgadas anteriormente en la tabla 3.

Como se describe en el presente documento, está disponible una amplia variedad de análogos de nucleótidos naturales, de nucleótidos no naturales o unidades monoméricas de espaciador sintéticas y se pueden usar para sintetizar las marcas que tienen estructuras poliméricas útiles en los multinucleótidos marcados de la presente divulgación. En general, estas marcas se sintetizan fácilmente en un polímero de marca por medio de química de acoplamiento de amidita.

La tabla 4 (a continuación) enumera más de 300 reactivos de amidita ejemplares (por ejemplo, fosforamidita o fosfonamidita) que se pueden usar para sintetizar marcas útiles en los multinucleótidos marcados de la presente divulgación. Cada uno de los reactivos de amidita en la tabla 4 está disponible comercialmente, sin embargo, existen más de cientos, si no miles, de reactivos de amidita que tienen estructuras de análogos de nucleótidos que se han publicado y estarían disponibles para el experto en la técnica para su uso en la preparación de marcas que tienen estructuras poliméricas.

Tabla 4

Los reactivos de amidita enumerados anteriormente en la tabla 4 se pueden usar para preparar una marca que tiene una estructura polimérica por medio de la química de acoplamiento de amidita estándar. Es decir, cada uno de los reactivos de fosforamidita (o fosfonamidita) reaccionará en una reacción de acoplamiento de amidita con un polímero nucleotídico (por ejemplo, oligonucleótido) para insertar una unidad monomérica con su estructura particular en el polímero. Esta estructura polimérica resultante tendrá un enlace fosfato (o fosfonato) a las unidades monoméricas contiguas en el polímero. Por tanto, la tabla 4 proporciona eficazmente una lista de más de 300 unidades monoméricas que se pueden usar para preparar distintas marcas. Véase, por ejemplo, la sol. de patente provisional de EE. UU. n.° 62/235.551, presentada el 30 de septiembre de 2015. A continuación, dichas marcas se pueden usar para producir un multinucleótido marcado de la presente divulgación por medio de química de enlace divulgada en el presente documento, y bien conocida por el experto en la técnica. En consecuencia, la presente divulgación proporciona un compuesto de multinucleótidos marcados (por ejemplo, que tiene la fórmula estructural (I), (II) o (III)), en el que la marca comprende una estructura polimérica que tiene al menos una unidad monomérica resultante de la reacción de un reactivo de amidita seleccionado de la tabla 4.

En general, en cualquiera de los modos de realización de compuestos de multinucleótidos marcados divulgados en el presente documento, la marca puede comprender un oligonucleótido de al menos 10-meros, 15-meros, 20-meros, 25-meros, 30-meros, 35-meros, 40-meros, o más unidades monoméricas de longitud; opcionalmente, en la que el oligonucleótido comprende unidades monoméricas seleccionadas de un nucleótido, un análogo de nucleótido, unidades de espaciador, cualquier unidad monomérica no natural formada por medio de una reacción de fosforamidita y cualquier combinación de los mismos. Los compuestos de multinucleótidos marcados ejemplares, en los que la marca comprende un oligonucleótido, incluyen los compuestos divulgados en los ejemplos, incluyendo el compuesto (3a) y compuesto (3b).

El experto en la técnica reconocerá que algunas de las unidades monoméricas divulgadas en la tabla 4 también se denominan en los catálogos comerciales de síntesis de oligonucleótidos "espaciadores" (por ejemplo, "iSp"), "tintes" (por ejemplo, "iCy3") o "conectares" (por ejemplo, "hexinilo"). El experto en la técnica también reconocerá que algunas de las marcas oligonucleotídicas descritas en el presente documento (por ejemplo, tabla 3 y los ejemplos) hacen referencia al uso de una nomenclatura de síntesis de oligonucleótidos bien conocida (véase, por ejemplo, el sitio web de Integrated DNA Technologies en www.idtdna.com para una descripción adicional de la nomenclatura de síntesis de oligonucleótidos comúnmente usada).

La presente divulgación proporciona al experto en la técnica herramientas para preparar multinucleótidos marcados con marcas que proporcionan características de detección útiles en una amplia gama de esquemas de ensayo y, en particular, el uso con sistemas de detección por nanoporos.

Marcas polipeptídicas

En algunos modos de realización, los multinucleótidos marcados de la presente divulgación pueden comprender una marca que comprende un polímero de aminoácidos, es decir, un polipéptido. El uso de polipéptidos como marcas para nucleótidos marcados útiles en la secuenciación por nanoporos se describe en el documento WO2017/042038.

Las marcas polipeptídicas divulgadas en el documento WO2017/042038, en general, son cadenas poliméricas de 30 o más aminoácidos que tienen una carga global y al menos una estructura helicoidal. Se describe que las estructuras helicoidales de las marcas polipeptídicas proporcionan corrientes de bloqueo más fuertes que muestran menos variación cuando la estructura de marca penetra y reside en un nanoporo. Se propone que las marcas polipeptídicas que tienen estructuras helicoidales, tales como bucles de hélice a, de 16 aminoácidos o más largos (por ejemplo, de 16 a 80 aminoácidos), pueden caber mejor en el poro de un nanoporo para proporcionar corrientes de bloqueo más fuertes y tiempos de permanencia más largos que los polipéptidos que tienen estructuras lineales o en forma de hélice aleatorias. El documento WO2017/042038 divulga una gama de marcas polipeptídicas con secuencias de aminoácidos que tienen un intervalo de longitudes, estructuras helicoidales y cargas globales.

En base a la utilidad de nucleótidos únicos con marcas polipeptídicas únicas en modos de realización de secuenciación por nanoporos como se divulga en el documento WO2017/042038, se contempla que, en cualquiera de los modos de realización de compuestos de multinucleótidos marcados divulgados en el presente documento, la marca puede comprender un polipéptido. En algunos modos de realización de los multinucleótidos marcados, en los que la marca es un polipéptido, el polipéptido tiene una longitud de al menos 10 aminoácidos, al menos 16 aminoácidos, al menos 20 aminoácidos, al menos 25 aminoácidos, al menos 30 aminoácidos, al menos 40 aminoácidos, al menos 50 aminoácidos, al menos 60 aminoácidos, al menos 70 aminoácidos, al menos 80 aminoácidos o incluso más aminoácidos. En algunos modos de realización, la longitud del polipéptido es de 10 a 100 aminoácidos, de 16 a 90 aminoácidos, de 30 a 90 aminoácidos, de 40 a 80 aminoácidos o de 50 a 70 aminoácidos.

En algunos modos de realización de la presente divulgación, la marca polipeptídica de los multinucleótidos marcados comprende una estructura helicoidal. La estructura helicoidal del polipéptido puede comprender todos los residuos de aminoácido del polipéptido o alguna(s) subporción/subporciones del polipéptido. En consecuencia, en algunos modos de realización de las marcas polipeptídicas de un multinucleótido marcado, la estructura helicoidal del polipéptido comprende al menos 10 aminoácidos, al menos 16 aminoácidos, al menos 20 aminoácidos, al menos 25 aminoácidos, al menos 30 aminoácidos, al menos 40 aminoácidos, al menos 50 aminoácidos o al menos 60 aminoácidos.

En algunos modos de realización de la presente divulgación, la marca polipeptídica de los multinucleótidos marcados comprende una estructura helicoidal que comprende una hélice a. En algunos modos de realización, la hélice a comprende al menos dos repeticiones de un motivo de secuencia que comprende al menos tres aminoácidos. Opcionalmente, el motivo de secuencia que comprende al menos tres aminoácidos es un homopolímero y, además, opcionalmente, el motivo de secuencia homopolimérico que comprende al menos tres aminoácidos comprende la secuencia AAA.

La captura y detección de un nucleótido marcado por un nanoporo se puede facilitar por la carga de la molécula de marca. En general, cuando un sistema de detección por nanoporos se configura bajo un potencial de corriente alterna (CA) o de corriente continua (CC) con el lado cis del poro (es decir, el lado del depósito con nucleótidos y polimerasa) que tiene un electrodo cargado negativamente y el lado trans que tiene un electrodo cargado positivamente, es preferente que la marca del nucleótido marcado tenga una carga negativa. En dichas condiciones, la captura y detección de la marca cargada negativamente se puede facilitar por la fuerza electromotriz proporcionada por el electrodo positivo del lado trans. De forma alternativa, en general, sería preferente una marca cargada positivamente en condiciones en las que el lado trans del sistema de nanoporos comprende un electrodo negativo.

La presente divulgación proporciona multinucleótidos marcados que comprenden una marca polipeptídica, en los que el polipéptido tiene 30 o más aminoácidos y una carga global. La carga global es la carga neta de todo el polipéptido en base a la suma de la carga de cada una de las cadenas laterales de aminoácido que constituyen el polipéptido. Debido a que está disponible una gran variedad de residuos de aminoácido cargados que se pueden incorporar en una secuencia polipeptídica, la carga global de una marca polipeptídica de la presente divulgación se puede ajustar (o precisar) fácilmente en un amplio intervalo para permitir una amplia gama de posibles características de detección por nanoporos.

En algunos modos de realización, la presente divulgación proporciona multinucleótidos marcados, en los que la carga global del polipéptido es negativa. En algunos modos de realización, la carga global del polipéptido está entre aproximadamente -10 y -30. En los modos de realización en los que la carga global del polipéptido es negativa, la secuencia polipeptídica puede comprender uno o más residuos de aminoácido cargados negativamente, en los que los residuos cargados negativamente pueden ser iguales o diferentes. Por ejemplo, en el caso de una marca polipeptídica que tiene una carga global de -10, la secuencia polipeptídica necesitaría comprender al menos 10 residuos cargados negativamente. En algunos modos de realización, los residuos cargados negativamente se seleccionan del grupo que consiste en ácido glutámico, ácido aspártico, ácido gamma-carboxiglutámico, ácido homoglutámico, ácido cisteico, fosfoserina, fosfotreonina, fosfotirosina y combinaciones de los mismos.

De forma alternativa, en algunos modos de realización de los multinucleótidos marcados en los que la marca comprende un polipéptido, la carga global del polipéptido es positiva y, opcionalmente, tiene una carga global de entre aproximadamente 10 y 30. En dichos modos de realización, la secuencia polipeptídica puede comprender uno o más residuos de aminoácido cargados positivamente, opcionalmente seleccionados del grupo que consiste en: arginina, lisina e histidina. Se contempla que, en algunos modos de realización, la carga global del polipéptido se puede distribuir igualmente a lo largo de la longitud de la marca. En algunos modos de realización, sin embargo, la carga global de la marca polipeptídica se puede distribuir desigualmente a lo largo de la longitud de la secuencia polipeptídica. Dicha distribución de carga desigual puede proporcionar a la marca otras características distintivas en condiciones de detección por nanoporos, por ejemplo, potencial de CA o de CC. En consecuencia, en algunos modos de realización, la presente divulgación proporciona un multinucleótido marcado, en el que la marca comprende un polipéptido y en el que un 25 % de los residuos de aminoácido localizados en el extremo de la marca polipeptídica distal (es decir, más alejada) del conector tiene un valor absoluto de carga neta mayor que el valor absoluto de carga neta de un 25 % de los residuos de aminoácido localizados en el extremo del polipéptido proximal (es decir, más cercano) al conector. Es decir, si la carga global es negativa, un 25 % de los residuos de aminoácido distales desde el conector estarían más cargados negativamente que un 25 % de los residuos de aminoácido proximales al conector.

Utilizando el conocimiento en la técnica con respecto a los residuos de aminoácido, las características de carga, longitud, volumen y masa, y sus propensiones conocidas a formar determinados tipos de estructuras cuando se polimerizan en secuencias polipeptídicas (por ejemplo, propensión a formar una hélice a), y siguiendo la presente divulgación con respecto a los compuestos de multinucleótidos marcados y su uso, es posible diseñar una variedad de marcas que comprenden polipéptidos que pueden proporcionar una gama de señales detectables, señales detectables por nanoporos particulares. La tabla 5 muestra marcas polipeptídicas ejemplares que se pueden usar en los multinucleótidos marcados de la presente divulgación.

Tabla 5

Las marcas polipeptídicas ejemplares mostradas en la tabla 5 comprenden monómeros de aminoácidos naturales y/o no naturales y se pueden preparar por procedimientos de síntesis de polipéptidos en fase sólida estándar. Adicionalmente, estas marcas polipeptídicas (y virtualmente cualquier otra secuencia polipeptídica de hasta 80 aminoácidos) están disponibles comercialmente de proveedores de péptidos personalizados, tales como Peptide 2.0 (Chantilly, Virginia, EE. UU.) o GenScript (Piscataway, Nueva Jersey, EE. UU.).

Procedimientos de preparación de compuestos de m ultinucleótidos marcados

Se pueden usar procedimientos sintéticos estándar en la preparación de los compuestos de multinucleótidos marcados de la presente divulgación (por ejemplo, compuestos de fórmulas estructurales (I), (II), (III)). La reacción clic acidoalquino estándar se describe anteriormente (por ejemplo, compuestos de (XIX), (XX), (XXI) o (XXII)) y en los ejemplos. Las tablas 1 y 2 ilustran una gama de conectores y reacciones con grupos formadores de conectores que se pueden usar en la preparación de los multinucleótidos marcados de la presente divulgación. En un modo de realización, cualquiera de los grupos formadores de conectores de fórmulas estructurales (IVa) -(XVIla) mostrados en la tabla 1 se puede fijar a un conector ramificado o dendrimérico fijado a una marca, o a un fosfato terminal de un nucleótido, y el correspondiente grupo formador de conectores conjugado de fórmulas estructurales (IVb) -(XVIlb) se fijaría al otro. Las estructuras de conector covalente resultantes que forman el compuesto de oligofosfato de multinucleótidoconector-marca se ejemplifican por las fórmulas estructurales (IVc) - (XVIIc) en la tabla 1. La estructura de enlace covalente e incluye la estructura del grupo dihidropiracidina (XVIIc) que resulta de la reacción clic de los grupos formadores de conectores trans-cicloocteno (XVIIa) y tetracina (XVIIb).

En consecuencia, la presente divulgación proporciona un procedimiento de preparación de un multinucleótido marcado que comprende: (a) proporcionar (i) un nucleótido con de 3 a 12 fosfatos fijados a su posición 5', en el que el fosfato terminal se acopla a un primer grupo formador de conectores (por ejemplo, X a o Xb); y (ii) una marca, en la que la marca se acopla a un conector ramificado o dendrimérico que comprende al menos dos segundos grupos formadores de conectores (por ejemplo, Xb o Xa) que puede reaccionar con el primer grupo formador de conectores para formar un conector (por ejemplo, -X-); y (b) hacer reaccionar el primer grupo formador de conectores con los dos segundos grupos formadores de conectores en el conector ramificado o dendrimérico para unir al menos dos nucleótidos a la marca única. En la tabla 1 anterior se ejemplifican los primeros y segundos grupos formadores de conectores que pueden reaccionar para formar un conector. Por tanto, en algunos modos de realización del procedimiento, el primer grupo formador de conectores se selecciona de los compuestos de fórmulas estructurales (IVa) -(XVIIa) y el segundo grupo formador de conectores es el correspondiente compuesto reactivo de fórmulas estructurales (IVb) -(XVIIb); o, de forma alternativa, el primer grupo formador de conectores se puede seleccionar de los compuestos de fórmulas estructurales (IVb) -(XVIIb) y el segundo grupo formador de conectores es el correspondiente compuesto reactivo de fórmulas estructurales (IVa) -(XVIIa). La estructura de conector ramificado o dendrimérico se puede generar usando las unidades de doble o triple conector de los compuestos (19) o (20). En algunos modos de realización, las unidades de doble o triple conector se pueden unir de una manera en serie para generar conectores ramificados o dendriméricos que tienen cuatro o más grupos formadores de conectores reactivos disponibles (por ejemplo, como en el compuesto (21)).

En algunos modos de realización, la divulgación proporciona un procedimiento de preparación de un compuesto de multinucleótidos marcados de fórmula estructural (II) general

en la que la base se selecciona de adenosina, citidina, guanosina, timidina y uridina; R se selecciona de H y OH; n es de 1 a 4; el conector es un conector que comprende una cadena enlazada covalentemente de 2 a 100 átomos; m es de 2 a 12; y la marca es un resto molecular que puede producir una señal detectable; y el procedimiento comprende las etapas de:

(a) proporcionar (i) un nucleótido con de 3 a 12 fosfatos fijados a su posición 5', en el que el fosfato terminal se acopla a un primer grupo formador de conectores; y (ii) una marca, en la que la marca comprende un resto molecular que puede producir una señal detectable, y se acopla a un conector ramificado o dendrimérico que comprende al menos dos segundos grupos formadores de conectores que pueden reaccionar cada uno con un primer grupo formador de conectores para formar un conector covalente entre al menos dos nucleótidos y una marca única;

en el que

(1) que el primer grupo formador de conectores se selecciona de los compuestos de fórmulas estructurales (IVa) -(XVIIa) y el segundo grupo formador de conectores es el correspondiente compuesto reactivo de fórmulas estructurales (IVb) -(XVIIb); o

(2) el primer grupo formador de conectores se selecciona de los compuestos de fórmulas estructurales (IVb) -(XVIIb) y el segundo grupo formador de conectores es el correspondiente compuesto reactivo de fórmulas estructurales (IVa) -(XVIIa);

y

(b) hacer reaccionar el primer grupo formador de conectores con el segundo grupo formador de conectores, formando, de este modo, un enlace covalente entre al menos dos nucleótidos y una marca única.

En algunos modos de realización de los procedimientos de preparación del compuesto de multinucleótidos marcados, el primer grupo formador de conectores fijado al fosfato terminal es un grupo acida y el segundo grupo formador de conectores fijado a un conector ramificado o dendrimérico fijado a una marca es un alquino. En otros modos de realización, el primer grupo formador de conectores fijado al fosfato terminal es un grupo alquino y el segundo grupo formador de conectores fijado a un conector ramificado o dendrimérico fijado a una marca es una acida.

En algunos modos de realización de los procedimientos de preparación del multinucleótido marcado, el primer grupo formador de conectores fijado al fosfato terminal es una tetracina y el segundo grupo formador de conectores fijado un conector ramificado o dendrimérico fijado a una marca es un frans-cicloocteno. En otros modos de realización, el primer grupo formador de conectores fijado al fosfato terminal es un frans-cicloocteno y el segundo grupo formador de conectores fijado la marca es una tetracina.

Uso de m ultinucleótidos marcados en la secuenciación por nanoporos

Los compuestos de multinucleótidos marcados de la presente divulgación se pueden usar en los procedimientos de secuenciación por nanoporos conocidos en los que un nanoporo detecta la presencia de una marca fijada a un nucleótido complementario a medida que se incorpora (o después de que se incorpora y libera) por una enzima que extiende la hebra (por ejemplo, polimerasa, ligasa) localizada proximal al nanoporo y que extiende un cebador complementario de una secuencia de ácido nucleico diana. Los procedimientos generales, materiales, dispositivos y sistemas para llevar a cabo la secuenciación por nanoporos usando nucleótidos marcados se describen en las pub. de pat. de EE. UU. n.os 2013/0244340 A1, 2013/0264207 A 1 ,2014/0134616 A1, 2015/0119259 A1, 2015/0368710.

Los multinucleótidos marcados de la presente divulgación se pueden emplear en estos procedimientos generales para usar nucleótidos marcados para la secuenciación por nanoporos de ácidos nucleicos. De hecho, como se ilustra en los ejemplos en el presente documento, los compuestos de multinucleótidos marcados de la presente divulgación tienen características mejoradas como sustratos para polimerasa que proporcionan lecturas de secuencia más rápidas, más largas y más exactas en la secuenciación por nanoporos que los correspondientes compuestos de nucleótido único-marca única.

Por tanto, en un modo de realización, la presente divulgación proporciona un procedimiento para determinar la secuencia de un ácido nucleico que comprende: (a) proporcionar una composición de secuenciación por nanoporos que comprende: una membrana, un electrodo en el lado cis y el lado trans de la membrana, un nanoporo con su poro que se extiende a través de la membrana, una solución de electrolito en contacto con ambos electrodos, una polimerasa activa situada contigua al nanoporo, y una hebra de cebador complejada con la polimerasa; (b) poner en contacto la composición de secuenciación por nanoporos con (i) una hebra del ácido nucleico; y (ii) un conjunto de multinucleótidos, cada uno con una marca diferente, en el que cada marca diferente provoca un nivel de corriente de bloqueo diferente a través de los electrodos cuando se sitúa en el nanoporo, y el conjunto comprende al menos un compuesto como se divulga anteriormente de fórmula estructural (II) general:

Cuando se usan en los procedimientos para determinar la secuencia de un ácido nucleico, los compuestos de multinucleótidos marcados que comprenden estructuras de fórmula (I) o (II) pueden incluir cualquiera de las gamas de modos de realización de compuestos divulgados en otra parte en el presente documento. Por ejemplo, el nucleósido (N) de fórmula (I) puede ser cualquier nucleósido que se puede incorporar por una enzima que extiende la hebra, tal como una polimerasa, cuando el nucleósido está acoplado covalentemente a un oligofosfato (P), tal como un trifosfato; y el nucleósido puede comprender una nucleobase natural o no natural, y un resto de glúcido natural o no natural, tal como un grupo ribosa o desoxirribosa.

Conjuntos de m ultinucleótidos marcados

Como se describe en otra parte en el presente documento, los procedimientos para determinar la secuencia de un ácido nucleico usando detección por nanoporos, en general, requieren un conjunto de compuestos de nucleótidos marcados, pudiendo ser cada uno un sustrato para una enzima que extiende la hebra y comprendiendo cada uno una marca diferente asociada con un nucleótido que se desea detectar. En modos de realización estándar para secuenciar hebras de ADN, el procedimiento requiere un conjunto de al menos los cuatro desoxinucleótidos estándar dA, dC, dG y dT, en el que cada nucleótido diferente se fija a una marca única diferente que se puede detectar tras la incorporación del nucleótido por una enzima que extiende la hebra proximal y, además, en el que la detección de la marca es distinguible de la detección por nanoporos de cada una de las otras tres marcas, permitiendo, de este modo, la identificación del nucleótido específico incorporado por la enzima. En general, cada uno de los nucleótidos marcados diferentes en un conjunto se distingue por la señal detectable distintiva que produce la marca cuando se incorpora en una nueva hebra complementaria por una enzima que extiende la hebra.

Entre las características de señal detectable, solas o en combinación, que se pueden usar para distinguir los multinucleótidos marcados en un procedimiento de detección por nanoporos están el nivel de corriente de bloqueo a través de los electrodos del sistema de detección por nanoporos (bajo potencial de CC o de CA), y el tiempo de permanencia de la corriente de bloqueo. En consecuencia, en algunos modos de realización, la presente divulgación proporciona un conjunto de multinucleótidos marcados, cada uno con una marca diferente, en el que cada marca diferente provoca un nivel de corriente de bloqueo diferente a través de los electrodos y/o un tiempo de permanencia diferente cuando se sitúa en el nanoporo, y el conjunto comprende al menos un compuesto como se divulga anteriormente de fórmula estructural (II) general:

Se contempla que los multinucleótidos marcados de la presente divulgación se pueden usar en conjuntos de nucleótidos marcados que también incluyen nucleótidos únicos marcados y/o conjuntos con nucleótidos marcados que tienen diferentes tipos de marcas, tales como tanto marcas oligonucleotídicas como marcas polipeptídicas. Por ejemplo, en algunos modos de realización, el conjunto de multinucleótidos marcados puede comprender un multinucleótido marcado de fórmula estructural (I) o (II) y los otros nucleótidos marcados en el conjunto pueden comprender nucleótidos únicos fijados a marcas únicas. De forma alternativa, el conjunto de multinucleótidos marcados puede incluir una gama de estructuras de marca, tales como una marca oligonucleotídica, una marca polipeptídica, una marca de polietilenglicol, una marca de carbohidrato y/o una marca de compuesto de tinte. Son conocidos en la técnica conjuntos de nucleótidos marcados con oligonucleótidos útiles para la secuenciación por nanoporos y estas marcas se pueden usar en los modos de realización de multinucleótidos marcados divulgados en el presente documento. (Véanse, por ejemplo, las pub. de pat. de EE. UU. n.os 2013/0244340 A1, 2013/0264207 A1, 2014/0134616 A1, 2015/0119259 A1 y 2015/0368710.)

En algunos modos de realización, el conjunto de multinucleótidos marcados comprende al menos dos, al menos tres o al menos cuatro compuestos de multinucleótidos marcados como se divulga anteriormente de fórmula estructural (II) general, en el que cada una de las marcas diferentes de al menos dos, al menos tres o al menos cuatro de los compuestos de multinucleótidos marcados en el conjunto produce una señal detectable por nanoporos que es distinguible de las otras en el conjunto. En la técnica son conocidos procedimientos y técnicas para determinar las características de señal detectable por nanoporos, tales como la corriente de bloqueo y/o el tiempo de permanencia. (Véanse, por ejemplo, las pub. de pat. de EE. UU. n.os 2013/0244340 A1, 2013/0264207 A1, 2014/0134616 A1, 2015/0119259 A1 y 2015/0368710.)

Dichos procedimientos incluyen experimentos de secuenciación por nanoporos bajo potenciales de voltaje de CA usando una matriz de nanoporos como se describe en los ejemplos en el presente documento.

En consecuencia, en algunos modos de realización, la presente divulgación proporciona un conjunto de multinucleótidos marcados que comprende al menos dos multinucleótidos marcados diferentes, teniendo cada uno una marca diferente, en el que las al menos dos marcas diferentes presentan niveles de corriente de bloqueo y/o tiempos de permanencia distinguibles. En algunos modos de realización del conjunto de multinucleótidos marcados, los al menos dos multinucleótidos marcados diferentes comprenden un compuesto como se divulga anteriormente de estructura (II) general. En algunos modos de realización, los al menos dos multinucleótidos marcados diferentes comprenden cada uno una estructura de marca oligonucleotídica diferente seleccionada de la tabla 3, y/o una secuencia de oligonucleótidos seleccionada de SEQ ID NO: 1-109. En algunos modos de realización, las al menos dos marcas diferentes presentan niveles de corriente de bloqueo que difieren en al menos un 10 %, al menos un 25 %, al menos un 50 % o al menos un 75 %. La medición de la diferencia entre los niveles de corriente de bloqueo se puede realizar usando cualquier procedimiento de detección por nanoporos adecuado. Por ejemplo, las corrientes de bloqueo de cada uno de los al menos dos multinucleótidos marcados diferentes, teniendo cada uno una marca oligonucleotídica diferente, se pueden medir en un experimento de secuenciación por nanoporos, como se describe, en general, en los ejemplos en el presente documento.

Dispositivos de nanoporos

Los dispositivos de nanoporos y los procedimientos para fabricarlos y usarlos en aplicaciones de detección por nanoporos, tales como secuenciación por nanoporos usando nucleótidos marcados, son conocidos en la técnica (véanse, por ejemplo, las pat. de EE. UU. n.os; 7.005.264 B2; 7.846.738; 6.617.113; 6.746.594; 6.673.615; 6.627.067; 6.464.842; 6.362.002; 6.267.872; 6.015.714; 5.795.782; y las publicaciones de EE. UU. n.os 2015/0119259, 2014/0134616, 2013/0264207, 2013/0244340, 2004/0121525 y 2003/01 04428.) Los dispositivos de nanoporos útiles para medir la detección por nanoporos también se describen en los ejemplos divulgados en el presente documento. En general, todos los dispositivos de nanoporos comprenden una proteína formadora de poros incrustada en una membrana bicapa lipídica, en la que la membrana se inmoviliza o fija a un sustrato sólido que comprende un pocillo o depósito. El poro del nanoporo se extiende a través de la membrana creando una conexión fluídica entre los lados cis y trans de la membrana. Típicamente, el sustrato sólido comprende un material seleccionado del grupo que consiste en polímero, vidrio, silicio y una combinación de los mismos. Adicionalmente, el sustrato sólido comprende, contiguo al nanoporo, un sensor, un circuito sensor o un electrodo acoplado a un circuito sensor, opcionalmente, un semiconductor de óxido de metal complementario (CMOS) o un circuito de transistores de efecto de campo (FET). Típicamente, existen electrodos en los lados cis y trans de la membrana que permiten establecer un potencial de voltaje de CC o CA a través de la membrana, lo que genera un flujo de corriente de referencia (o nivel de corriente abierta) a través del poro del nanoporo. La presencia de una marca, tal como una marca de un multinucleótido marcado de la presente divulgación da como resultado el bloqueo de este flujo de corriente y, de este modo, genera un nivel de corriente de bloqueo en relación con la corriente abierta que se puede medir.

Se contempla que los compuestos de multinucleótidos marcados de la presente divulgación se pueden usar con una amplia gama de dispositivos de nanoporos que comprenden nanoporos generados por proteínas formadoras de poros tanto naturales como no naturales (por ejemplo, genomanipuladas o recombinantes). Es conocida en la técnica una amplia gama de proteínas formadoras de poros que se pueden usar para generar nanoporos útiles para la detección por nanoporos de los multinucleótidos marcados de la presente divulgación. Las proteínas formadoras de poros representativas incluyen, pero no se limitan a, a-hemolisina, p-hemolisina, Y-hemolisina, aerolisina, citolisina, leucocidina, melitina, porina MspA y porina A. La proteína formadora de poros, a-hemolisina de Staphyloccocus aureus (también denominada en el presente documento "a-HL"), es uno de los miembros más estudiados de la clase de proteínas formadoras de poros y se ha usado extensamente en la creación de dispositivos de nanoporos. (Véanse, por ejemplo, las publicaciones de EE. UU. n.os 2015/0119259, 2014/0134616, 2013/0264207 y 2013/0244340.) La a-HL también se ha secuenciado, clonado y caracterizado extensamente de forma estructural y funcional usando una amplia gama de técnicas que incluyen mutagénesis dirigida a sitio y marcaje químico (véase, por ejemplo, Valeva et al. (2001), y las referencias citadas en la misma). Un complejo heptamérico de monómeros a-HL forma espontáneamente un nanoporo que se incrusta y crea un poro a través de una membrana bicapa lipídica. Se ha demostrado que los heptámeros de a-HL que comprenden una proporción de 6:1 de a-HL natural con respecto a a-HL mutante pueden formar nanoporos (véase, por ejemplo, Valeva et al. (2001), y las referencias citadas en la misma). Además, se ha genomanipulado la a-HL con sustituciones de residuos de cisteína insertadas en numerosas posiciones que permiten la modificación covalente de la proteína a través de la química del conector maleimida (ibid). Por ejemplo, la a-hemolisina-C46 ("a-HL-C46") genomanipulada, comprende una sustitución de residuos de aminoácido K46C que permite la modificación con un conector que se puede usar para fijar covalentemente una enzima que extiende la hebra, tal como polimerasa, usando química de reacción clic común. De forma alternativa, el heptámero de a-HL se puede modificar covalentemente con una ADN-polimerasa usando un procedimiento de conjugación SpyCatcher/SpyTag.

En consecuencia, en algunos modos de realización, las composiciones de multinucleótidos marcados de la presente divulgación se pueden usar con un dispositivo de nanoporos, en el que el nanoporo comprende un complejo de a-HL heptamérico, que tiene una versión de a-HL natural con respecto a una modificada o genomanipulada de a-HL 6:1, en la que la a-HL modificada se conjuga covalentemente a una enzima que extiende la hebra, tal como ADN polimerasa. Por ejemplo, la a-HL-C46 genomanipulada se puede modificar con un conector que permita el uso de química clic con tetracina-trans-cicloocteno para fijar covalentemente una variante Bst2.0 de a Dn polimerasa al nanoporo 6:1 heptamérico. Los modos de realización de este tipo se describen en el documento WO2016/144973.

Los multinucleótidos marcados y los procedimientos asociados proporcionados en el presente documento se pueden usar con una amplia gama de enzimas que extienden la hebra, tales como las polimerasas y ligasas conocidas en la técnica.

Las ADN polimerasas son una familia de enzimas que usan ADN monocatenario como molde para sintetizar la hebra de ADN complementaria. Las ADN polimerasas añaden nucleótidos libres al extremo 3' de una hebra recién formada, lo que da como resultado la extensión de la nueva hebra en el sentido de 5' a 3'. La mayoría de las ADN polimerasas también poseen actividad exonucleolítica. Por ejemplo, muchas ADN polimerasas tienen actividad exonucleasa 3 '^5 '. Dichas ADN polimerasas multifuncionales pueden reconocer un nucleótido incorporado de forma incorrecta y usar la actividad exonucleasa 3 '^ 5 ' para escindir el nucleótido incorrecto, una actividad conocida como corrección de errores. Tras la escisión del nucleótido, la polimerasa puede reinsertar el nucleótido correcto y la extensión de la hebra puede continuar. Algunas ADN polimerasas también tienen actividad exonucleasa 5 '^3 '.

Se usan ADN polimerasas en muchas tecnologías de secuenciación de ADN, incluyendo secuenciación por síntesis basada en nanoporos. Sin embargo, una hebra de ADN se puede mover rápidamente a través del nanoporo (por ejemplo, a una tasa de 1 a 5 ps por base), lo que puede hacer que la detección por nanoporos de cada acontecimiento de incorporación catalizada por polimerasa sea difícil de medir y proclive a un alto ruido de fondo, lo que puede dar como resultado dificultades en la obtención de la resolución de nucleótido único. La capacidad de controlar la tasa de actividad ADN polimerasa, así como de incrementar la señal detectable a partir de la incorporación correcta, es importante durante la secuenciación por síntesis, en particular, cuando se usa la detección por nanoporos. Como se muestra en los ejemplos, los compuestos de multinucleótidos marcados de la presente divulgación proporcionan la capacidad de controlar parámetros de la actividad ADN polimerasa, tales como capacidad de procesamiento, tasa de transición y longitud de lectura, que permiten una detección y secuenciación de ácidos nucleicos más exacta y eficaz.

Los ejemplos de polimerasas que se pueden usar con los compuestos de multinucleótidos marcados y procedimientos de la presente divulgación incluyen las ácido nucleico polimerasas, tales como ADN polimerasa (por ejemplo, enzima de clase EC 2.7.7.7), ARN polimerasa (por ejemplo, enzima de clase EC 2.7.7.6 o EC 2.7.7.48), retrotranscriptasa (por ejemplo, enzima de clase Ec 2.7.7.49) y ADN ligasa (por ejemplo, enzima de clase EC 6.5.1.1).

En algunos modos de realización, la polimerasa útil con multinucleótidos marcados es polimerasa 9°N, ADN polimerasa I de E. coli. ADN polimerasa de bacteriófago T4, Sequenase, ADN polimerasa Taq, polimerasa 9°N (exo-)A485L/Y409V o ADN polimerasa de Phi29 (ADN polimerasa $29).

En algunos modos de realización, la enzima que extiende la hebra que incorpora los multinucleótidos marcados comprende una ADN polimerasa de Bacillus stearothermophilus. En algunos modos de realización, el gran fragmento de ADN polimerasa de B. stearothermophilus. En un modo de realización, la polimerasa es ADN polimerasa Bst 2.0 (disponible comercialmente de New England BioLabs, Inc., Massachusetts, e E. UU.).

En algunos modos de realización, la polimerasa es una ADN polimerasa Pol6, o una variante carente de exonucleasa de una Pol6, tal como Pol6 que tiene la mutación D44A. En el documento US 2017/0251566 se describe una gama de variantes de Pol6 adicionales útiles con los multinucleótidos marcados de la presente divulgación.

EJEMPLOS

Ejemplo 1: Preparación de compuestos de multinucleótidos marcados

Este ejemplo ilustra un procedimiento general para la preparación de un multinucleótido marcado de fórmula estructural (I) o (II), en el que el compuesto comprende dos o tres nucleótidos unidos a una marca única que tiene una estructura polimérica, tal como una marca oligonucleotídica como se enumera en la tabla 3, y/o que comprenden una secuencia de SEQ ID NO: 1-109. En general, cualquier marca que se puede modificar con un grupo propargilo u otro resto de alquino.

Este ejemplo describe la preparación de [dT6P-conector]2-(dT)30-C3 y [dT6P-conector]3-(dT)30-C3, que corresponden a los compuestos (3a) y (3b) mostrados a continuación.

Los multinucleótidos marcados del compuesto (3a) y (3b) se sintetizan por medio de una reacción clic acido-alquino entre un conector "doble" o "triple" modificado con propargilo fijado a una marca oligonucleotídica dT30 única mostrado como compuestos (2a) o (2b), respectivamente

y un nucleósido hexafosfato modificado con conector de acida, dT6P-(CH2)ii-N3 del compuesto (1):

Preparación de 11-acido-1-undecanol: Se prepara 11-acido-1-undecanol de acuerdo con el esquema de reacción y procedimiento a continuación:

En un matraz de fondo redondo seco, se añadió acida de sodio (1,44 g, 22 mM) a una solución de 11-bromo-1-undecanol (1,84 g, 7,38 mmol) en DMF anhidra (40 ml). Se agitó la suspensión blanca resultante bajo atmósfera de nitrógeno a temperatura ambiente durante la noche. Se filtró y aclaró la suspensión con DCM (50 ml). Se concentró la solución a vacío para dar un aceite amarillento. El compuesto se puede usar en las siguientes etapas sin purificación adicional.

Preparación de trifosfato de 11-acido-1-undecanilo: Se prepara trifosfato de 11-acido-1-undecanilo de acuerdo con el esquema de reacción y procedimiento a continuación:

En un matraz de fondo redondo seco, se disolvió 11-acido-1-undecanol (0,20 g, 0,94 mmol) en DMF anhidra (2,0 ml). Se añadió clorofosfito de salicilo (0,20 g, 1,03 mmol) en una porción. Se agitó la solución resultante a temperatura ambiente bajo nitrógeno durante 45 minutos. En otro matraz, se preparó una solución de pirofosfato-tributilamina (0,566, 1,03 mmol) en DMF anhidra y tributilamina (1,39 g, 7,51 mmol) y, a continuación, se añadió a la solución de reacción. Se agitó la mezcla resultante durante una hora y se oxidó con una solución de yodo 20 mM (80 ml, 1,55 mmol), dando un intermedio de meta-trifosfato cíclico que se puede analizar por espectrómetro de masas. Después de otra hora de agitación, en primer lugar, se desactivó la reacción con Na2SO3 (10 %, 4 ml), se dejó agitar durante 20 minutos, seguido de TEAB (0,10 M, 20 ml). Se agitó la mezcla resultante a temperatura ambiente durante la noche. Se purificó el producto bruto por el sistema de columna TeleDyne CombiFlash RF+ usando una columna C18 de HP de 30 g eluyendo con CH3CN/TEAA 0,1 M (CH3CN del 0 % al 50 % en 16 minutos). El producto se concentró a vacío y se secó en un liofilizador.

Preparación de dT6P-acida (compuesto (1)): se prepara dT6P-acida de acuerdo con el esquema de reacción y procedimiento a continuación:

Se disolvió trifosfato de 11-acido-1-undecanilo (0,091 g, 0,12 mmol) en DMF anhidra (1,5 ml) y se activó con carbonildiimidazol ("CDI") (0,078 g, 0,48 mmol) durante 4 horas a temperatura ambiente. Se desactivó el CDI en exceso con metanol (0,029 ml, 0,72 mmol), agitando 30 minutos adicionales. A continuación, se añadió una solución de dTTP+3Bu4N (0,20 g, 0,17 mmol) en Dm F anhidra (2,0 ml), seguido de MgCl2 (0,114 g, 1,20 mmol). Se agitó la solución de suspensión resultante durante 24-36 horas a temperatura ambiente. Se desactivó la reacción con TEAB 0,1 M (20 ml) agitando durante 30 minutos. Se purificó el compuesto bruto (1) se purificó por cromatografía de intercambio iónico (de 0,1 M a 1 M en 30 minutos), seguido de RP-C18 HPLC (CH3CN al 10-45 % en 35 minutos) para proporcionar 15-30 pmol de producto. La formación del compuesto (1) se confirmó por espectrometría de masas (cal.

917,06, observado 916,03 para ion negativo).

B. Síntesis de la marca dT30 con conectores dobles y triples modificados con propargilo (compuestos (2a) y (2b))

El oligonucleótido dT30 usado como marca se sintetizó en un sintetizador de ADN ABI 3900 usando protocolos de química de fosforamidita en fase sólida y reactivos disponibles comercialmente. En la penúltima etapa de síntesis, la unidad de fosforamidita de doble conector del compuesto (19) o la unidad de fosforamidita de triple conector del compuesto (20).

A continuación, en la etapa de síntesis de oligonucleótidos automatizada final, se añadió un conector de propargil-C5-fosforamidita, dando como resultado los reactivos doble y triple modificados con propargilo de los compuestos (2a) y (2b), respectivamente.

C. Conjugación clic de nucleótidos a marcas con dobles o triples conectores para formar multinucleótidos marcados del compuesto (3a) y compuesto (3b)

Conjugación con doble conector: La reacción de conjugación con doble conector para dar el compuesto de multinucleótidos marcados (3a) se lleva a cabo de acuerdo con el esquema de reacción general representado en la FIG. 1 y los siguientes procedimientos. Se mezclaron dT6P-acida (compuesto (1)) (300 nmol) y doble-dT30 (compuesto (2a)) (100 nmol) en agua DI (100 pl). La conjugación se inició por reacción clic acido-alquino catalizada por cobre de acuerdo con el procedimiento de la literatura estándar usando bromuro de Cu(I) (6000 nmol) y THPTA (4000 nmol) en una solución de mezcla de DMSO/t-butanol (3:1). La solución de reacción se mezcló a temperatura ambiente durante la noche en un agitador. Se purificó la mezcla bruta por RP C18-HPLC (TEAA 0,1 M /CH3CN). La formación del producto conjugado deseado del compuesto (3a) se confirmó por espectrómetro de masas (cal. 11708; observado 11708,97 para ion negativo).

Conjugación con triple conector: La reacción de conjugación con triple conector para dar el compuesto de multinucleótidos marcados (3b) se lleva a cabo de acuerdo con el esquema de reacción general representado en la FIG. 2 y el siguiente procedimiento similar al usado para la conjugación con doble conector. Se mezclaron dT6P-acida (compuesto (1)) (450 nmol) y tiple-dT30 (compuesto (2b)) (100 nmol) en agua DI (100 pl). La conjugación se inicia usando bromuro de Cu(I) (6000 nmol) y THPTA (4000 nmol) y se mezcla a una temperatura de 40 °C durante la noche en un agitador. La mezcla bruta se purifica por HPLC y la formación del producto conjugado deseado del compuesto (3a) se confirma por espectrómetro de masas (cal. 12804,7; observado 12806,62 para ion negativo).

Ejemplo 2: Características del sustrato para polimerasa comparativas de multinucleótidos marcados

Este ejemplo ilustra las características del sustrato para polimerasa mejoradas de los compuestos de multinucleótidos marcados que comprenden dos o tres nucleótidos unidos a una marca única en relación con un compuesto de nucleótidos marcados estándar que tiene una marca oligonucleotídica única unida a un nucleótido único.

Protocolo de ensayo: El ensayo es un ensayo de desplazamiento que usa una variante carente de exonucleasa de la polimerasa Pol6 (por ejemplo, "Pol6-44 D44A", que es una variante que tiene una mutación D44A), conjuntamente con un molde de desplazamiento marcado con Cy5 y un cebador extintor marcado con BHQ. Está disponible una gama de variantes de Pol6 adicionales útiles para secuenciación por nanoporos y se puede usar en el ensayo de este ejemplo, tales como las variantes de Pol6 divulgadas en el documento US 2017/0251566.

Se prepara una solución de ensayo que contiene la polimerasa Pol6, el molde de ADN de desplazamiento marcado con 5'-Cy5 y el cebador extintor marcado con 3'-BHQ en glutamato de potasio 75 mM ("K-Glu") en ausencia de cualquier sustrato o ion Mg2+ (otras condiciones tampón: HEPES 25 mM, EDTA 0,2 mM, Triton X-100 al 0,05 %, TCEP 5 mM, 25 pg/ml de BSA, pH 7,5).

El molde de desplazamiento de ADN es una secuencia de horquilla marcada en 5' con Cy5 y un espaciador de 3 carbonos cerca del extremo 3' /5Cy5/AGA ^{gtg ata gta tg a tta tg t}AGA TGT AGG ATT TGA TAT GTG AGT AGC CGA ATG AAA CCT T/iSpC3/TTQGT TTC ATT CGG (SEQ ID NO' 124) La Secuencia de cebador extintor marcada en 3' con BHQ-2 es: TTT TCA TAA TCA TAC TAT CAC TCT /3BHCL 2/ (SEQ ID NO: 125). ("BHQ-2" = EXTINTOR DE AGUJERO NEGRO-2 = 4'-(4-nitro-fenildiazo)-2'-metoxi-5'-metoxi-azobenceno-4"-(N-etil-2-O-(4,4'-dimetoxitritil))-N-etil-2-O-glicolato-CPG; disponible de Glen Research, Sterling, VA, EE. UU.)

Una solución que contiene el compuesto de multinucleótidos marcados que se va a someter a prueba y los otros tres sustratos de nucleótido hexafosfato ("dN6P") (es decir, dA6P, dC6P, dG6P) requeridos para la síntesis por polimerasa de una hebra complementaria al molde de ADN se añade a la solución de polimerasa. Se añade más K-Glu para llevar la concentración de K-Glu total en la mezcla hasta 300 mM. A continuación, se inicia la reacción por la polimerasa por adición de MgCl2. Las concentraciones finales en la mezcla de reacción de ensayo son: enzima Pol6-44 D44A 100 nM, molde de ADN de desplazamiento con Cy550 nM, 40 pM de cada uno de los otros sustratos de dN6P, K-Glu 300 mM, HEPES 25 mM, EDTA 0,2 mM, Triton X-100 al 0,05 %, TCEP 5 mM, 25 pg/ml de BSA, MgCl2 5 mM, pH 7,5. Los ensayos se llevan a cabo para cada uno de los sustratos de prueba en las siguientes concentraciones iniciales: 0 pM, 5 pM, 10 pM, 20 pM y 50 pM. La actividad polimerasa se sigue supervisando fluorométricamente el cambio en f ReT entre los marcadores Cy5 y BHQ a medida que la polimerasa incorpora los sustratos en la reacción de extensión de ADN.

Los sustratos para polimerasa específicos sometidos a prueba en el protocolo de ensayo y los resultados de los ensayos se muestran en la tabla 6:

Tabla 6

Como se muestra por los resultados del ensayo de polimerasa en la tabla 6, el compuesto de multinucleótidos marcados, [dT6P-conector]2-(dT)30-C3 que tiene dos nucleótidos unidos covalentemente a una marca oligonucleotídica única dT30-C3 (SEQ ID NO: 101) presentaron una tasa inicial dos veces mayor que la del sustrato de nucleótido único dT6P con una marca oligonucleotídica única dT30-C3. Esta tasa (kcat kas) incrementada de actividad polimerasa es consecuente con el sustrato de multinucleótidos marcados que tiene una tasa de asociación y/o concentración eficaz significativamente incrementadas en el sitio activo de polimerasa.

Ejemplo 3: Características del sustrato para polimerasa comparativas de nucleótidos únicos, dobles, triples y cuádruples unidos a una marca única

Este ejemplo ilustra las características del sustrato para polimerasa mejoradas de los compuestos de multinucleótidos marcados que comprenden dos, tres o cuatro nucleótidos unidos a una marca única en relación con un compuesto de nucleótidos marcados estándar que tiene una marca oligonucleotídica única unida a un nucleótido único.

El sustrato de nucleótido único marcado estándar usado en este ejemplo es dA6P-dT30-C3 ("marca completa") del compuesto (3d) que incluye un resto dA6P unido a la marca oligonucleotídica dT30-C3 a través de un conector "C11-triazol-C4" de fórmula estructural (XVd) (formado por medio de química clic estándar) como se muestra a continuación:

Los compuestos de multinucleótidos marcados que se usan en este ejemplo son: (dT6P)2-(dT)30-C3 ("marca Y") y (dT6P)3-(dT)30-C3 ("marca W"), que corresponden a los compuestos (3a) y (3b), respectivamente (véase el ejemplo 1). El ejemplo también describe las características del sustrato para polimerasa de un compuesto de multinucleótidos con cuatro nucleótidos por medio de un conector cuaternario, (dT6P)4-(dT)20-C3 ("marca Q"), que corresponde al compuesto (3c):

A. Síntesis de "marca Q" del compuesto (3c)

1 El reactivo, 6-(Fmoc-amino)-1-hexanol monofosfato (2), se preparó de acuerdo con la reacción del esquema 5 y procedimiento descritos a continuación:

Esquema 5

Se coevaporó tres veces 6-(Fmoc-amino)-1-hexanol (2,54 mmol) con acetonitrilo anhidro (20 ml) y, a continuación, se dispuso a alto vacío durante una hora. Se disolvió el aceite amarillo en THF anhidro (12 ml), seguido de trietilamina (5,58 mmol). Se enfrió la solución con un baño de hielo. Después de aproximadamente 10 minutos, se añadió POCb (5,70 mmol) por medio de una jeringa. Se dejó agitar la solución de reacción a temperatura ambiente durante la noche. Se desactivó la reacción con agua y se agitó durante 4 horas. Se ajustó la solución a pH9 con NaHCO3 acuoso saturado y se lavó dos veces con acetato de etilo (20 ml) para retirar las impurezas solubles orgánicas. A continuación, se ajustó la solución acuosa a pH 1 con HCl concentrado. Se extrajo 3x la solución con 20 ml de acetato de etilo para recuperar el producto. Se secó la solución de acetato de etilo con Na2SO4 y, a continuación, se concentró a un evaporador rotatorio para dar un aceite amarillo. El producto 6-(Fmoc-amino)-1-hexanol monofosfato se puede usar en la preparación de 6-(Fmoc-amino)-1-hexanol trifosfato sin purificación adicional.

2. Se preparó el reactivo, 6-(Fmoc-amino)-1-hexanol trifosfato (3), de acuerdo con la reacción del esquema 6 y procedimiento descritos a continuación:

Esquema 6

Se coevaporó 6-(Fmoc-amino)-1-hexanol monofosfato (1,02 mmol) de la etapa 1 (anterior) con acetonitrilo anhidro (20 ml x 3) y se dispuso a vacío durante 1 hora. Se llevó el aceite en DMF anhidro (4 ml) y se añadió CDI (4,1 mmol) en una porción, agitando bajo nitrógeno a temperatura ambiente durante 4 horas. Se añadió metanol (6,14 mmol) y se dejó agitar durante 30 minutos para descomponer el CDI exceso en la solución. A continuación, se añadió una solución de Bu3N-P2O7 (2,56 mol) en DMF (2 ml), agitando bajo nitrógeno a temperatura ambiente durante la noche. Se desactivó la reacción con TEAA (0,1 M, 50 ml). Después de aproximadamente 30 minutos, se purificó el producto bruto por el sistema de columna LC-TeleDyne CombiFlash RF+ en C18 de HP de 30 g, eluyendo con TEAA 0,1 M/CH3CN (CH3CN al 0-50 % en 20 minutos). Se concentró la solución en un SpeedVac y, a continuación, se liofilizó para dar el 6-(Fmoc-amino)-1-hexanol trifosfato deseado como un sólido blanco.

3. Se preparó el reactivo de conector de nucleótido-hexafosfato, dT6P-C6-NH2 (6), de acuerdo con la reacción del esquema 7 y procedimiento descritos a continuación:

Esquema 7

Se coevaporó tres el reactivo 6-(Fmoc-amino)-1-hexanol trifosfato (0,291 mmol) de la etapa 2 (anterior) con acetonitrilo anhidro y, a continuación, se dispuso a alto vacío durante una hora. Se llevó el residuo de aceite a DMF anhidra (2,50 ml) y se hizo reaccionar el trifosfato con CDI (1,16 mmol), agitando bajo nitrógeno durante 4 horas a temperatura ambiente. Se añadió metanol (1,74 mmol) para desactivar el CDI sin reaccionar restante. Después de otros 30 minutos, se añadió una solución de dTTP+(Bu4N)4 (0,407 mmol) en DMF (2 ml), seguido de MgCl2 anhidro (2,9 mmol). Se agitó la suspensión resultante bajo nitrógeno durante 72 horas a temperatura ambiente. A continuación, se desactivó con TEAA (0,1 M, 50 ml), agitando durante una hora. Se eluyó la mezcla bruta a través de una columna de intercambio iónico Sephadex-A25 DEAE usando TEAA (gradiente de 0,1 M a 1 M) para retirar las impurezas iónicas. Las fracciones de producto se recogieron, se analizaron por espectrómetro de masas y, a continuación, se concentraron en un SpeedVac. Se trató el producto recuperado con hidróxido de amonio concentrado durante 2 horas a temperatura ambiente para retirar el grupo protector Fmoc. Se purificó el producto por HPLC en columna C18, eluyendo con TEAA 0,1 M/CH3CN (CH3CN al 10-50 % en 45 minutos) para dar producto puro dT6P-C6-NH2 (6).

4. Se preparó el reactivo de nucleótido hexafosfato modificado con acida, dT6P-C6-N3 (6), de acuerdo con la reacción del esquema 8 y procedimiento descritos a continuación:

Esquema 8

Se secó el producto dT6P-C6-NH2 (2 pmol) de la etapa 3 (anterior) en un SpeedVac y se redisolvió en 400 pl de solución de NaHCO3 (0,1 M, pH 8,9). A continuación, se añadió una solución de éster de NHS del ácido acidobutírico (5 |jmol, 125 mM en DMF). Se mezcló vigorosamente la solución y se dispuso en un termo-mezclador a temperatura ambiente durante la noche. Se llevó a cabo la purificación en una columna C18 de HPLC usando TEAA 0,1 M/CH3CN como disolventes y un gradiente de CH3CN al 10-40 % en 40 minutos.

5. El reactivo del compuesto (2c) comprende una marca única dT20-C3 fijada por medio de enlaces fosfodiéster a un "conector cuaternario" con cuatro grupos reactivos propargilo disponibles para su fijación con química clic a cuatro nucleótidos modificados con acida.

El conector cuaternario con reactivo de marca dT20-C3 del compuesto (2c) se sintetizó en un sintetizador de ADN ABI 3900, en general, como se describe para el compuesto (2b) en el ejemplo 1, salvo que una segunda unidad de fosforamidita de doble conector consecutiva del compuesto (19) se añade en la penúltima etapa de síntesis de oligonucleótidos. El segundo doble conector da como resultado un total de cuatro grupos protegidos con DMT disponibles para la adición de un conector propargil-C5-fosforamidita a cada uno de los cuatro grupos disponibles en los dos dobles conectores. El producto resultante es el conector cuaternario del compuesto (2c).

6. El conector cuaternario del compuesto (2c) producido en la etapa 5 (anterior) se conjuga por medio de química clic con el nucleótido modificado con acida, dT6P-C6-N3 de la etapa 4, para producir el multinucleótido "marca Q" del compuesto (3c), que comprende un conector "C6-amida-C4-triazol-C4" de fórmula (XVe) entre el fosfato terminal del dT6P y el doble conector. La reacción se lleva a cabo de acuerdo con la reacción general del esquema descrito en el ejemplo 1, etapa C, para la conjugación con doble conector. En resumen, se mezclan dT6P-C6-N3 (525 nmol) y el reactivo de conector cuaternario del compuesto (2c) (87,5 nmol) en agua Dl (100 jl). La reacción de conjugación se inicia usando bromuro de Cu(I) (8000 nmol) y THPt A (12000 nmol) y esa reacción se mezcla a 40 °C durante la noche en un agitador. Se purifica la mezcla de producto bruto resultante por HPLC. La formación del producto "marca Q" conjugado del compuesto (3c) se confirmó por espectrómetro de masas (cal. 11521,1; observado 11527,13 para ion negativo).

B. Protocolo de ensayo: El ensayo es un ensayo de desplazamiento que usa una variante carente de exonucleasa de la polimerasa Pol6 como se describe en el ejemplo 2, en el que se sigue la actividad polimerasa supervisando fluorométricamente el cambio en FRET entre los marcadores Cy5 y BHQ a medida que la polimerasa incorpora los sustratos en la reacción de extensión de ADN.

En resumen, se prepara una solución de ensayo que contiene la polimerasa Pol6, el molde de ADN de desplazamiento marcado con 5'-Cy5 de SEQ ID NO: 124, y el cebador extintor marcado con 3'-BHQ de SEQ ID NO: 124 en glutamato de potasio 75 mM ("K-Glu") en ausencia del sustrato o ion Mg2+. Se prepara una solución de sustrato que contiene el compuesto de multinucleótidos que se va a analizar (es decir, "marca Y", "marca W o "marca Q"), el dT6P no marcado ("Hexa-PO4), o el sustrato de nucleótido único marcado, dA6P-dT30-C3 ("marca completa") del compuesto (3d). También se incluyen en la solución de sustrato los otros tres sustratos de nucleótido hexafosfato ("dN6P") requeridos para la síntesis por polimerasa de una hebra complementaria al molde de ADN (es decir, dA6P, dC6P, dG6P). Esta solución de sustrato se añade a la solución de polimerasa. Los ensayos se llevan a cabo para cada uno de los sustratos de prueba en las siguientes concentraciones iniciales: 0,25 pM, 0,5 pM, 1,0 pM, 2,0 pM, 4,0 pM y 8,0 pM. Se añade más K-Glu para llevar la concentración de K-Glu total en la mezcla hasta 300 mM. A continuación, se inicia la reacción por la polimerasa por adición de MgCb. Las concentraciones finales en la mezcla de reacción de ensayo son: enzima Pol6-44 100 nM, molde de ADN de desplazamiento con Cy5 50 nM, 40 pM de cada uno de los otros sustratos de dN6P, K-Glu 300 mM, HEPES 25 mM, EDTA 0,2 mM, Triton X-100 al 0,05 %, TCEP 5 mM, 25 pg/ml de BSA, MgCb 5 mM, pH 7,5. Las tasas iniciales se representan como se muestra en la FIG. 3 y las concentraciones y valores de las tasas se resumen en la tabla 7.

Tabla 7

Como se muestra por los resultados de la FIG. 3 y tabla 7, los compuestos de multinucleótidos marcados con dos o más nucleótidos presentan tasas iniciales casi dos veces mayores que las del sustrato de nucleótido único con una marca oligonucleotídica única dT30-C3 ("marca completa") del compuesto (3d). Los sustratos de nucleótidos dobles, triples y cuádruples marcados de los compuestos (3a), (3b) y (3c) presentan tasas comparativamente incrementadas. La tasa incrementada de actividad polimerasa es consecuente con el sustrato de multinucleótidos marcados que tiene una tasa de asociación y/o concentración eficaz significativamente incrementadas en el sitio activo de polimerasa. Se pueden obtener otros incrementos en las tasas del sustrato de nucleótidos triples y cuádruples a través de la optimización de la distancia de los nucleótidos desde los puntos de ramificación del doble y triple conector en estos compuestos.

Ejemplo 4: Uso de multinucleótidos marcados para secuenciación por nanoporos

Este ejemplo ilustra las características mejoradas de un conjunto de cuatro compuestos de multinucleótidos marcados de forma diferente, comprendiendo cada uno una diferente marca oligonucleotídica única de 20-meros de longitud unida covalentemente por medio de un doble conector a dos restos de nucleótido hexafosfato (dN6P), pudiendo ser cada uno un sustrato para polimerasa. Estos multinucleótidos marcados se comparan con un conjunto de compuestos de nucleótidos únicos marcados, en el que el conjunto de marcas comprende oligonucleótidos de 30-meros comparables conectados al sustrato de nucleótidos por medio del conector C11-triazol-C4 como en el compuesto (3d). El uso de una marca oligonucleotídica de 30-meros en los sustratos de nucleótido único representa un conector más corto en relación con los sustratos de multinucleótidos que incluyen el doble conector adicional entre el sustrato de nucleótidos y la marca. Los dos conjuntos de sustratos de dN6P marcados comparados en el ejemplo se muestran en la tabla 8.

Tabla 8

En resumen, se lleva a cabo la secuenciación por nanoporos usando una matriz de nanoporos de a-HL, cada uno conjugado a polimerasa Pol6. Los conjugados nanoporo de a-HL-Pol6 se incrustan en membranas formadas sobre una matriz de chips de circuitos integrados direccionables individualmente. Esta matriz de nanoporos a-HL-Pol6 se expone a un molde de ADN y un conjunto de los cuatro sustratos de nucleótidos marcados de forma diferente, un conjunto de los cuatro sustratos de dN6P único o bien los sustratos de dN6P doble mostrados en la tabla 8. Los sustratos de dN6P doble se preparan usando conectores dobles de acuerdo con el procedimiento general del ejemplo 1 para preparar el compuesto (3a), salvo que se sustituyen el nucleótido deseado y la marca oligonucleotídica. A medida que el nucleótido marcado específico, que es complementario al molde de ADN, se captura y une al sitio activo de polimerasa Pol6, el resto de marca se sitúa en el nanoporo de a-HL conjugado cerca. Bajo el potencial de CA aplicado, la presencia de la marca en el poro provoca una corriente de bloqueo distintiva en comparación con la corriente por el poro abierto (es decir, corriente sin ninguna marca en el nanoporo). La secuencia de corrientes de bloqueo medida a medida que la Pol6 conjugada sintetiza la hebra de extensión de ADN complementaria al molde identifica la secuencia del molde de ADN.

Sistema de detección por nanoporos: Las mediciones de corriente de bloqueo por los nanoporos se realizan usando un microchip de matriz de nanoporos que comprende un microchip de CMOS que tiene una matriz de 128.000 electrodos de plata dentro de pocillos poco profundos (chip fabricado por Genia Technologies, Mountain View, CA, EE. UU.). Los procedimientos para fabricar y usar dichos microchips de matriz de nanoporos también se pueden encontrar en las publicaciones de solicitud de patente de EE. UU. n.os 2013/0244340 A1, US 2013/0264207 A1 y US2014/0134616 A1. Cada pocillo en la matriz se fabrica usando un procedimiento con CMOS estándar con modificaciones en superficie que permiten un contacto constante con reactivos biológicos y sales conductoras. Cada pocillo puede soportar una membrana bicapa fosfolipídica con un conjugado nanoporo-polimerasa incrustado en la misma. El electrodo en cada pocillo es direccionable individualmente por una interfaz de ordenador. Todos los reactivos usados se introducen en una cubeta de lectura simple por encima del microchip de matriz usando una bomba de jeringa controlada por ordenador. El chip es compatible con conversión de analógico a digital e informa de las mediciones eléctricas de todos los electrodos independientemente a una tasa de más de 1000 puntos por segundo. Las mediciones de corriente de bloqueo por los nanoporos se pueden realizar de forma asíncrona en cada una de las membranas que contienen nanoporos direccionables de 128 K en la matriz al menos una vez cada milisegundo (ms) y registrar en el ordenador interconectado.

Formación de la bicapa lipídica en el chip: La membrana bicapa fosfolipídica en el chip se prepara usando 1,2-diftanoilsn-glicero-3-fosfocolina (Avanti Polar Lipids). El polvo lipídico se disuelve en decano a 15 mM y, a continuación, se pinta en una capa a través de los pocillos del chip. A continuación, se inicia un procedimiento de adelgazamiento bombeando aire a través del lado cis de los pocillos de la matriz, reduciendo así las membranas lipídicas multilaminares a una bicapa única. La formación de la bicapa se somete a prueba usando un voltaje de transición de 0 a 1000 mV. Una típica bicapa única se abriría temporalmente a un voltaje aplicado de entre 300 a 500 mV.

Inserción del conjugado a-HL-Pol6 en la membrana: Después de que se forme la bicapa lipídica en los pocillos del chip de matriz, se añaden 3 |jM del conjunto de nucleótidos marcados (de la tabla 8), 0,1 |jM de un conjugado nanoporo-polimerasa a-HL 6:1-Pol6, 0,4 j M del molde de ADN deseado, todo en una solución tampón de CaCl23 mM, HEPES 20 mM, y K-Glu 500 mM, pH 8, a 20 °C, al lado cis del chip. El conjugado nanoporo-polimerasa en la mezcla se inserta espontáneamente en la bicapa lipídica. Puesto que solo está presente Ca2+ (y ningún ion Mg2+), el complejo ternario se puede formar en el sitio activo de Pol6 pero no se incorpora ningún nucleótido marcado y no se libera la marca unida a fosfato 5'.

El molde de ADN es el molde circular en forma de pesa, "HP7", que tiene la secuencia:

CG ATT ACTTT AGTTTTCGTTTTT ACT ACT G ACT GTCCTCCTCCTCCGTT ATT GT

AAA AACGAAAACT AAAGT AAT CGCG ATT ACTTT AGTTTTCGTTTTT ACT ACT G A CTGTCCTCCTCCTCCGTTATTGTAAAAACGAAAACTAAAGTAATCG (SEQ ID NO: 126).

Mediciones de corriente de bloqueo por los nanoporos: La solución tampón usada como solución de electrolitos para las mediciones de bloqueo de corriente por los nanoporos es glutamato de potasio 500 mM, pH 8, MgCl23 mM, HEPES 20 mM, TCEP 5 mM, a 20 °C. Se usa una configuración de electrodo de Pt/Ag/AgCl y se aplica una corriente CA de una forma de onda cuadrada de -10 mV a 200 mV. La corriente CA puede tener determinadas ventajas para la detección por nanoporos, ya que permite que la marca se dirija repetidamente al y, a continuación, se expulse del nanoporo, lo que proporciona, de este modo, más oportunidades de detección. La corriente CA también puede proporcionar un potencial más invariable para una señal de corriente más estable y menos degradación de los electrodos a lo largo del tiempo.

Las señales que representan cuatro acontecimientos de bloqueo de corriente distintos se observan a partir de los conjuntos de cuatro nucleótidos marcados diferentes a medida que se capturan por los conjugados nanoporopolimerasa a-HL-Pol6 cebados con el molde de ADN. Los gráficos de la secuencia de acontecimientos de corriente de bloqueo se registran a lo largo del tiempo y se analizan. En general, los acontecimientos de corriente de bloqueo que duran más de 10 ms y que reducen la corriente por el canal abierto de 0,8 a 0,2 indican una captura de nucleótidos productiva coincidente con la incorporación de polimerasa de la correcta base complementaria a la hebra molde.

Resultados

Los valores promedio para los parámetros de secuenciación en matriz de nanoporos pertinentes determinados en experimentos llevados a cabo con los dos conjuntos de sustratos de dN6P marcados se muestran en la tabla 9.

Tabla 9

Como se muestra por los resultados de la tabla 9, el conjunto de cuatro sustratos para polimerasa de multinucleótidos marcados de forma diferente presenta una capacidad de procesamiento y longitud de lectura significativamente incrementadas cuando se usa en un experimento de secuenciación por nanoporos. Adicionalmente, los gráficos de la longitud de lectura frente a la exactitud (en la obtención de la secuencia) muestran que los compuestos de multinucleótidos marcados no dan como resultado ninguna pérdida de exactitud con la longitud de lectura más larga en relación con los compuestos de sustrato de nucleótido único-marca única. Los nanoporos seleccionados en las matrices pueden lograr longitudes de lectura de por encima de 800 pb. En un ejemplo típico de una longitud de lectura de heteropolímero más larga que se puede lograr con los sustratos de multinucleótidos marcados, se obtiene una longitud de lectura de secuencia de heteropolímero de 531 pb con la siguiente puntuación: 71 % (375/531), 21 inserciones, 133 deleciones, 2 emparejamientos erróneos. En un ejemplo típico de una longitud de lectura de homopolímero más larga que se puede lograr con los sustratos de multinucleótidos marcados, se obtiene una longitud de lectura de secuencia de homopolímero de 770 pb con la siguiente puntuación: 53 % (521/982), 212 inserciones, 247 deleciones, 2 emparejamientos erróneos.

Ejemplo 5: Condiciones mejoradas para la secuenciación por nanoporos usando multinucleótidos marcados

Este ejemplo ilustra además cómo usar un conjunto de cuatro compuestos de multinucleótidos marcados de forma diferente para la secuenciación por nanoporos y ejemplifica materiales y condiciones que proporcionan otros resultados de secuenciación mejorados. Como en el ejemplo 4, un conjunto de multinucleótidos marcados, con dos nucleótidos por marca fijados por medio de un doble conector a marcas oligonucleotídicas de 20-meros de longitud, se compara con un conjunto de compuestos de nucleótidos únicos marcados que tienen un conjunto comparable de marcas oligonucleotídicas de 30-meros de longitud. Los dos conjuntos de sustratos de dN6P marcados usados en el ejemplo se muestran en la tabla 10.

Tabla 10

Los sustratos de dN6P doble se preparan usando conectores dobles de acuerdo con el procedimiento general del ejemplo 1 para preparar el compuesto (3a), salvo que se sustituyen el nucleótido deseado y la marca oligonucleotídica.

La secuenciación por nanoporos en este ejemplo se lleva a cabo usando los mismos materiales y procedimientos que en el ejemplo 4, salvo por algunos cambios en el tampón y las condiciones de forma de onda de Ca usadas durante las mediciones de corriente de bloqueo. Más significativamente, la concentración de K-Glu es 300 mM en lugar de 500 mM como en el ejemplo 3. El tampón del lado cis contiene K-Glu 300 mM, MgCh 3 mM, TCEP 5 mM y 10 pM de cada uno de los sustratos de dN6P marcados de la tabla 10. El tampón del lado trans contiene K-Glu 340 mM y MgCh 3 mM. La forma de onda de CA se caracteriza como sigue: modo de voltaje, 50 Hz, ciclo de trabajo de un 40 %, 235 mV, 7200 s.

El molde de ADN es el mismo molde circular en forma de pesa, HP7, de SEQ ID NO: 126, descrito en el ejemplo 3.

Resultados

Los valores promedio para los parámetros de secuenciación en matriz de nanoporos pertinentes determinados en experimentos llevados a cabo con los dos conjuntos de sustratos de dN6P marcados se muestran en la tabla 11.

Tabla 11

Como se muestra por los resultados de la tabla 11, el conjunto de cuatro sustratos para polimerasa de multinucleótidos marcados de forma diferente de la tabla 10 presenta una capacidad de procesamiento y longitud de lectura de polimerasa significativamente incrementadas cuando se usa en un experimento de secuenciación por nanoporos en presencia de K-Glu 300 mM. En un ejemplo típico de una longitud de lectura de heteropolímero más larga que se puede lograr con los sustratos de multinucleótidos marcados en las condiciones de K-Glu 300 mM, se logra una longitud de lectura de 2926 pb con la siguiente puntuación: 70 % (1399/2011); duración de procesamiento: 2926; 73 inserciones; 529 deleciones, 10 emparejamientos erróneos. Longitud de lectura homopolimérica que se puede lograr con los sustratos de multinucleótidos marcados en las condiciones de K-Glu 300 Mm: 51 % (1797/3554); duración de procesamiento; 2926; 628 inserciones; 1118 deleciones, 11 emparejamientos erróneos.

Adicionalmente, el conjunto de cuatro nucleótidos multimarcados mostrado en la tabla 10 presenta, en particular, buena separación entre los niveles de corriente de bloqueo buena en las condiciones de K-Glu 300 mM de este ejemplo. Los niveles de corriente de bloqueo (medidos como fracción de corriente abierta) son como sigue:

(dA6P)2-dT5-(BHEB)-dTi4-C3 = 0,88 /- 0,03;

(dC6P)2-dT20-C3 = 0,76 /- 0,04;

(dT6P)2-dT4-(N3CE-dT)a-dT13-C3 = 0,62 /- 0,05;

(dG6P)2-dT6-(Tmp)6-dT8-C3 = 0,38 /- 0,08

La buena separación entre los niveles de corriente de bloqueo de estas marcas permite obtenciones más exactas en la secuenciación por nanoporos.

Claims

REIVINDICACIONES

1. Un compuesto que tiene la fórmula estructural (Illa), (IIIb) o (IIIc):

en la que

la base se selecciona de adenosina, citidina, guanosina, timidina y uridina;

R se selecciona de H y OH;

n es de 1 a 4;

el conector es un conector que comprende una cadena enlazada covalentemente de 2 a 100 átomos; y la marca es un resto molecular que puede producir una señal detectable.

2. El compuesto de la reivindicación 1, en el que el compuesto tiene la fórmula estructural (IIId), (IIIe) o (IIIf):

en la que

la base se selecciona de adenosina, citidina, guanosina, timidina y uridina;

R se selecciona de H y OH;

n es de 1 a 4;

p es de 2 a 10; y

la marca es un resto molecular que puede producir una señal detectable.

3. El compuesto de una cualquiera de las reivindicaciones 1 - 2, en el que la marca comprende un resto molecular seleccionado del grupo que consiste en un oligómero de polietilenglicol (PEG), un resto de tinte orgánico, un oligonucleótido (que comprende unidades monoméricas de análogos naturales y/o no naturales), un polipéptido (que comprende unidades monoméricas de análogos naturales y/o no naturales) y un resto oligomérico que comprende una combinación de cualquiera de estos.

4. El compuesto de una cualquiera de las reivindicaciones 1 - 2, en el que la marca comprende un oligonucleótido, opcionalmente un oligonucleótido que tiene una estructura seleccionada de la tabla 3, 7 o 9, opcionalmente un oligonucleótido que tiene una secuencia seleccionada de SEQ ID NO: 1-109.

5. El compuesto de una cualquiera de las reivindicaciones 1 - 2, en el que la marca comprende una estructura polimérica, opcionalmente una estructura polimérica que comprende al menos una unidad monomérica resultante de la reacción de un reactivo de amidita seleccionado de la tabla 4.

6. El compuesto de una cualquiera de las reivindicaciones 1 - 2, en el que la marca comprende un polipéptido, opcionalmente un polipéptido que tiene una estructura seleccionada de la tabla 5, opcionalmente un polipéptido que tiene una secuencia seleccionada de SEQ ID NO: 110-123.

7. Un procedimiento para determinar la secuencia de un ácido nucleico que comprende:

(a) proporcionar una composición de secuenciación por nanoporos que comprende: una membrana, un electrodo en el lado cis y el lado trans de la membrana, un nanoporo con su poro que se extiende a través de la membrana, una solución de electrolito en contacto con ambos electrodos, una polimerasa activa situada contigua al nanoporo, y una hebra de cebador complejada con la polimerasa;

(b) poner en contacto la composición de secuenciación por nanoporos con (i) una hebra del ácido nucleico; y (ii) un conjunto de compuestos, comprendiendo cada uno una marca única unida covalentemente a una pluralidad de restos de nucleósido-5'-oligofosfato, en el que la marca es un resto molecular que puede producir una señal detectable, y cada resto de nucleósido-5-oligofosfato puede ser un sustrato para una polimerasa, y cada miembro del conjunto de compuestos tiene una marca diferente que produce una corriente de bloqueo y/o tiempo de permanencia diferente cuando la marca se sitúa en un nanoporo; y

(c) detectar las corrientes de bloqueo diferentes y/o tiempos de permanencia diferentes de las marcas a lo largo del tiempo y correlacionar a cada una de las marcas diferentes los compuestos diferentes incorporados por la polimerasa que son complementarios a la secuencia de ácido nucleico, y, de este modo, determinar la secuencia de ácido nucleico.

en el que dicho conjunto de compuestos se selecciona de compuestos de acuerdo con las reivindicaciones 1-6.