ES2846949T3

ES2846949T3 - Variantes de la polimerasa DPO4

Info

Publication number: ES2846949T3
Application number: ES16809239T
Authority: ES
Inventors: Mark Kokoris; Marc Prindle; Melud Nabavi; Craig Ostrander; Taylor Lehmann; Samantha Vellucci; Michael Kovarik; Jack Chase; Robert Busam; Miranda Lahman
Original assignee: Stratos Genomics Inc
Current assignee: Roche Diagnostics Seattle Inc
Priority date: 2015-11-16
Filing date: 2016-11-11
Publication date: 2021-07-30
Anticipated expiration: 2036-11-11
Also published as: US20220186205A1; US10745685B2; EP3904528A1; US20250115895A1; EP3377648B1; US12037577B2; EP3377648A1; US20190078075A1; CA3004883A1; WO2017087281A1; US11299725B2; US20200385701A1

Abstract

Una ADN polimerasa recombinante aislada, ADN polimerasa recombinante que comprende una secuencia de aminoácidos que es al menos un 90% idéntica a la SEQ ID NO: 1, ADN polimerasa recombinante que comprende al menos una mutación en una posición seleccionada del grupo que consiste en los aminoácidos 76, 78, 79, 82, 83, y 86, donde la identificación de las posiciones es relativa a la polimerasa DPO4 de tipo silvestre (SEQ ID NO: 1), y la ADN polimerasa recombinante presenta actividad polimerasa, donde (a) la mutación en la posición 76 se selecciona del grupo que consiste en M76H, M76W, M76V, M76S, M76L, M76T, M76C, M76F y M76Q; (b) la mutación en la posición 78 se selecciona del grupo que consiste en K78P, K78N, K78Q, K78T, K78L, K78V, K78S, K78F, K78E, K78M, K78A, K78I, K78H, K78Y y K78G; (c) la mutación en la posición 79 se selecciona del grupo que consiste en E79L, E79M, E79W, E79V, E79N, E79Y, E79G, E79S, E79H, E79A, E79R, E79T y E79F; (d) la mutación en la posición 82 se selecciona del grupo que consiste en Q82Y, Q82W, Q82N, Q82S, Q82H, Q82D, Q82G, Q82M, Q82R, y Q82V; (e) la mutación en la posición 83 se selecciona del grupo que consiste en Q83G, Q83R, Q83S, Q83T, Q83I, Q83M, Q83D, Q83K y Q83H; y/o (f) la mutación en la posición 86 se selecciona del grupo que consiste en S86E, S86L, S86W, S86K, S86Q, S86V, S86M, S86T, S86R y S86A.

Description

DESCRIPCIÓN

Variantes de la polimerasa DPO4

La divulgación se refiere en general a composiciones y métodos de polimerasa. De manera más particular, la divulgación se refiere a polimerasas DPO4 modificadas y su uso en aplicaciones biológicas que incluyen, por ejemplo, la incorporación de análogos de nucleótidos, extensión de cebadores y reacciones de secuenciación de moléculas individuales.

Antecedentes de la invención

Las ADN polimerasas replican los genomas de los organismos vivos. Además de este papel central en biología, las ADN polimerasas también son herramientas omnipresentes de la biotecnología. Se utilizan ampliamente, por ejemplo, para transcripción inversa, amplificación, marcaje y secuenciación, todas ellas tecnologías básicas para una variedad de aplicaciones, tales como la secuenciación de ácidos nucleicos, amplificación de ácidos nucleicos, clonación, ingeniería de proteínas, diagnóstico, medicina molecular y muchas otras tecnologías.

Debido a su significado, las ADN polimerasas se han estudiado ampliamente, con el foco puesto en, por ejemplo, las relaciones filogenéticas entre las polimerasas, la estructura de las polimerasas, las características estructura-función de las polimerasas y el papel de las polimerasas en la replicación del ADN y otros procesos biológicos básicos, así como formas de utilizar a Dn polimerasas en biotecnología. Para una revisión de polimerasas, véase, por ejemplo, Hubscher et al. (2002) "Eukaryotic DNA Polymerases" Annual Review of Biochemistry Vol. 71: 133-163, Alba (2001) "Protein Family Review: Replicative DNA Polymerases" Genome Biology 2(1): reviews 3002.1-3002.4, Steitz (1999) "DNA polymerases: structural diversity and common mechanisms" J Biol Chem 274:17395-17398, y Burgers et al. (2001) "Eukaryotic DNA polymerases: proposal for a revised nomenclature" J Biol. Chem. 276(47): 43487-90. Se han resuelto las estructuras cristalinas de muchas polimerasas, las cuales a menudo comparten una arquitectura similar. Se han determinado los mecanismos básicos de acción de muchas polimerasas.

Una aplicación fundamental de las ADN polimerasas son las tecnologías de secuenciación de ADN. Desde el método de secuenciación clásico de Sanger hasta las tecnologías recientes de secuenciación de "próxima generación" (next-generation sequencing, NGS), los sustratos de nucleótidos utilizados para la secuenciación necesariamente han cambiado con el tiempo. La serie de modificaciones de nucleótidos requeridas por estas tecnologías que cambian rápidamente ha introducido tareas desalentadoras para que los investigadores de la ADN polimerasa busquen, diseñen o desarrollen enzimas compatibles para las químicas de secuenciación de ADN en constante cambio. Se han identificado mutantes de ADN polimerasa que tienen una variedad de propiedades útiles, que incluyen capacidades de incorporación de análogos de nucleótidos alterados en relación con las enzimas homólogas de tipo silvestre. Por ejemplo, la ADN polimerasa VentA488L puede incorporar ciertos nucleótidos no estándar con una mayor eficacia que la ADN polimerasa Vent nativa. Véase Gardner et al. (2004) "Comparative Kinetics of Nucleotide Analog Incorporation by Vent DNA Polymerase" J. Biol. Chem. 279(12):11834-11842 y Gardner and Jack (1999) "Determinants of nucleotide sugar recognition in an archaeon DNA polymerase" Nucleic Acids Research 27(12):2545-2553. Se predice que el resto alterado en este mutante, A488, se aleja del sitio de unión de nucleótidos de la enzima. El patrón de especificidad relajada en esta posición se correlaciona aproximadamente con el tamaño de la cadena lateral del aminoácido sustituido y afecta a la incorporación por parte de la enzima de una variedad de azúcares nucleotídicos modificados.

El documento WO 2005/113760 divulga polimerasas de la familia Y (Dpo4) termoestables y quimeras fabricadas a partir de las mismas. El documento WO 2015/074756 divulga la síntesis de L-ácidos nucleicos que usan las polimerasas de la familia Y tales como las enzimas Dpo4 mutantes. Kardashliev T. et al. (Mol. Biotechnol. Vol. 56, (2014), p. 274-83) describe un método de detección de alto rendimiento para rediseñar ADN polimerasas para mutagénesis aleatoria. La base de datos UniProt N.° de registro D2PF68 divulga una enzima mutante Dpo4 de Sulfolobus islandicus (cepa L.D.8.5 / Lassen #2). Beckman, J.W. et al. (JBC Vol. 283 (2008), p. 36711-23) divulga una enzima Dpo4 mutante de Sulfolobus solfataricus.

Más recientemente, las tecnologías NGS han introducido la necesidad de adaptar las enzimas ADN polimerasa para aceptar sustratos de nucleótidos modificados con terminadores reversibles en el 3'-OH, tales como -ONH2. Con este fin, Chen y sus colegas combinaron análisis estructurales con un análisis de "ruta adaptativa evolutiva reconstruida" para generar una variante TAQL616A que es capaz de incorporar de manera eficiente terminadores reversibles e irreversibles. Véase Chen et al. (2010) "Reconstructed Evolutionary Adaptive Paths Give Polymerases Accepting Reversible Terminators for Sequencing and SNP Detection" Proc. Nat. Acad. Sci. 107(5):1948-1953. Los estudios de modelado sugirieron que esta variante podría abrir un espacio detrás de Phe-667, lo que le permite acomodar los sustituyentes 3' más grandes. La patente de EE.UU. N.° 8.999.676 de Emig et al. divulga polimerasas modificadas adicionales que presentan propiedades mejoradas útiles para tecnologías de secuenciación de moléculas únicas basadas en detección fluorescente. En particular, se descubrió que la sustitución de la ADN polimerasa 929 en las posiciones E375 y K512 mejora la capacidad de la polimerasa para utilizar análogos de nucleótidos marcados con fosfato, no naturales que incorporan diferentes tintes fluorescentes.

Recientemente, Kokoris et al. han descrito un método, denominado "secuenciación por expansión" (sequencing by expansión, SBX), que usa una ADN polimerasa para transcribir la secuencia de ADN en un polímero medible llamado Xpandomer (véase, por ejemplo, la patente de EE.UU. N.° 8.324.360 de Kokoris et al.). La secuencia transcrita se codifica a lo largo del esqueleto de Xpandomer en informadores de alta relación señal-ruido que están separados por ~10 nm y están diseñados para respuestas bien diferenciadas de alta relación señal-ruido cuando se leen mediante sistemas de secuenciación basados en nanoporos. Los Xpandomer se generan a partir de análogos de nucleótidos no naturales, denominados XNTP, que se caracterizan por sustituyentes voluminosos que permiten expandir la estructura principal de Xpandomer después de la síntesis. Dichos análogos XNTP introducen nuevos desafíos como sustratos para las ADN polimerasas disponibles actualmente.

Por tanto, nuevas polimerasas modificadas, por ejemplo, polimerasas modificadas que muestran propiedades mejoradas útiles para la secuenciación basada en nanoporos y otras aplicaciones de polimerasas (por ejemplo, amplificación de ADN, secuenciación, marcaje, detección, clonación, etc.), tendrían un gran valor en la técnica. La presente invención proporciona nuevas ADN polimerasas recombinantes con propiedades deseables, incluida la capacidad de incorporar análogos de nucleótidos con sustituciones voluminosas con una eficacia mejorada. También se proporcionan métodos para preparar y usar tales polimerasas, y muchas otras características que resultarán evidentes tras una revisión completa de lo siguiente.

Sumario

Las ADN polimerasas recombinantes y las ADN polimerasas modificadas, por ejemplo, la DPO4 modificada, se pueden utilizar en tales aplicaciones tales como, por ejemplo, la secuenciación por expansión (SBX) de moléculas individuales. Entre otros aspectos, la invención proporciona ADN polimerasas recombinantes y variantes de ADN polimerasa modificadas que comprenden mutaciones que confieren propiedades, que pueden ser particularmente deseables para estas aplicaciones. Estas propiedades pueden, por ejemplo, mejorar la capacidad de la polimerasa para utilizar análogos de nucleótidos voluminosos como sustratos durante la polimerización dependiente del molde de una hebra hija. También se proporcionan composiciones que comprenden tales ADN polimerasas y polimerasas de tipo DPO4 modificadas, ácidos nucleicos que codifican tales polimerasas modificadas, métodos para generar tales polimerasas modificadas y métodos en los que tales polimerasas pueden usarse, por ejemplo, para secuenciar un molde de ADN.

Una clase general de realizaciones proporciona una ADN polimerasa de tipo DPO4 recombinante que es al menos 90 % idéntica a la SEQ ID NO: 1 y que tiene al menos una mutación en una posición seleccionada del grupo que consiste en los aminoácidos 76, 78, 79, 82, 83 y 86, en la cual la identificación de las posiciones es relativa a la polimerasa DPO4 de tipo silvestre (SEQ ID NO: 1), y en la cual la ADN polimerasa recombinante presenta actividad polimerasa, en donde las mutaciones en las posiciones 76, 78, 79, 82, 83, y 86 incluyen M76H, M76W, M76V, M76S, M76L, M76T, M76C, M76F, M76Q, K78P, K78N, K78Q, K78T, K78L, K78V, K78S, K78F, K78E, K78M, K78A, K78I, K78H, K78Y, K78G, E79L, E79M, E79W, E79V, E79N, E79Y, E79G, E79S, E79H, E79A, E79R, E79T, E79F, Q82Y, Q82W, Q82N, Q82S, Q82H, Q82D, Q82G, Q82M, Q82R, Q82V, Q83G, Q83R, Q83S, Q83T, Q83I, Q83M, Q83D, Q83K, Q83H, S86E, S86L, S86W, S86K, S86Q, S86V, S86M, S86T, S86R, S86A. En otras realizaciones, la ADN polimerasa de tipo DPO4 recombinante está representada por la secuencia de aminoácidos establecida en una cualquiera de las SEQ ID NO: 2-46.

En un aspecto relacionado, la invención proporciona composiciones que contienen cualquiera de las ADN polimerasa de tipo DPO4 recombinante expuestas anteriormente. En determinadas realizaciones, las composiciones también pueden contener al menos un sustrato análogo de nucleótido no natural.

En otro aspecto relacionado, la invención proporciona ácidos nucleicos modificados que codifican cualquiera de las ADN polimerasa de tipo DPO4 modificadas expuestas anteriormente.

Otra clase general de realizaciones proporciona una ADN polimerasa de tipo DPO4 recombinante que es al menos 90 % idéntica a la SEQ ID NO: 1 y que tiene mutaciones en las posiciones 76, 78, 79, 82, 83, y 86 y al menos una mutación adicional en una posición seleccionada del grupo que consiste en los aminoácidos 5, 42, 56, 62, 66, 141, 150, 152, 153, 155, 156, 184, 187, 189, 190, 212, 214, 215, 217, 221, 226, 240, 241, 248, 289, 290, 291, 292, 293, 300, y 326, en la cual la identificación de las posiciones es relativa a la polimerasa DPO4 de tipo silvestre (SEQ ID NO: 1), y en la cual la ADN polimerasa recombinante presenta actividad polimerasa. En algunas realizaciones, ejemplos de mutaciones en las posiciones 76, 78, 79, 82, 83, y 86 incluyen M76W, K78N, E79L, Q82W, Q82Y, Q83G y S86E. En otras realizaciones, ejemplos de mutaciones en las posiciones 5, 42, 56, 62, 66, 141, 150, 152, 153, 155, 156, 184, 187, 189, 190, 212, 214, 215, 217, 221, 226, 240, 241, 248, 289, 290, 291, 292, 293, 300, y 326 incluyen F5Y, A42V, V62R, K66R, T141S, F150L, K152A, K152G, K152M, K152P, I153F, I153Q, I153W, A155L, A155M, A155N, A155V, A155G, D156Y, D156W, P184L, G187W, G187D, G187E, I189W, T190Y, T190D, T190E, K212V, K212L, K212A, K214S, G215F, I217V, K221D, K221E, K221Q, I226F, R240S, R240T, V241N, V241R, 1248A, I248T, V289W, T290K, E291S, D292Y, L293F, L293W, R300E, R300V y D326E. En otras realizaciones, la ADN polimerasa de tipo DPO4 recombinante está representada por la secuencia de aminoácidos establecida en una cualquiera de las SeQ ID NO: 47-115.

En otra realización más, la polimerasa de tipo DPO4 recombinante incluye además una deleción para eliminar los 12 aminoácidos terminales (es decir, la región de la caja PIP) de la proteína.

En un aspecto relacionado, la invención proporciona composiciones que contienen cualquiera de las ADN polimerasas recombinantes o ADN polimerasa de tipo DPO4 expuestas anteriormente. En determinadas realizaciones, las composiciones también pueden contener al menos un sustrato análogo de nucleótido no natural. En otro aspecto relacionado, la invención proporciona ácidos nucleicos modificados que codifican cualquiera de las ADN polimerasas recombinantes o ADN polimerasa de tipo DPO4 modificada expuestas anteriormente.

La ADN polimerasa recombinante reivindicada es capaz de sintetizar hebras hijas de ácido nucleico utilizando sustratos de análogos de nucleótidos que tienen la siguiente estructura:

en la cual T representa un anclaje; N representa un resto de nucleobase; V representa un sitio de escisión interno del resto de nucleobase; y R1 y R2 representan los mismos o diferentes grupos terminales para la síntesis dirigida por molde de la hebra hija.

En otras realizaciones, la ADN polimerasa recombinante reivindicada tiene una deleción para eliminar la región de la caja PIP de la proteína. En otras realizaciones, la deleción elimina los 12 aminoácidos terminales de la proteína. Breve descripción de las figuras

La FIG. 1 muestra la secuencia de aminoácidos de la proteína polimerasa DPO4 (SEQ ID NO: 1) con las regiones Mut_1 a Mut_13 destacadas y los aminoácidos variables subrayados.

Definiciones

A menos que se defina de otro modo, todos los términos técnicos y científicos utilizados en el presente documento tienen el mismo significado que el que entiende comúnmente una persona normalmente experta en la técnica a la cual pertenece la invención. Las siguientes definiciones complementan las de la técnica y están dirigidas a la solicitud actual y no deben imputarse a ningún caso relacionado o no relacionado, por ejemplo, a ninguna patente o solicitud de propiedad común. Aunque en la práctica para el análisis de la invención también se puede usar cualquier método y material similares o equivalentes a los descritos en el presente documento, se describen en el presente documento los materiales y métodos preferentes. En consecuencia, la terminología utilizada en el presente documento tiene el propósito de describir realizaciones particulares.

Como se usa en esta memoria descriptiva y en las reivindicaciones adjuntas, las formas en singular "un", "una" y "el" o "la" incluyen referentes plurales salvo que el contexto indique claramente lo contrario. Por tanto, por ejemplo, la referencia a "una proteína" incluye una pluralidad de proteínas; la referencia a "una célula" incluye mezclas de células y similares.

El término "aproximadamente" como se usa en el presente documento indica que el valor de una cantidad dada varía en /-10% del valor, u opcionalmente /-5% del valor, o en algunas realizaciones, en /-1 % del valor así descrito.

"Nucleobase" es una base heterocíclica tal como adenina, guanina, citosina, timina, uracilo, inosina, xantina, hipoxantina, o un derivado heterocíclico, análogo o tautómero de la misma. Una nucleobase puede ser natural o sintética. Ejemplos no limitantes de nucleobases son adenina, guanina, timina, citosina, uracilo, xantina, hipoxantina, 8-azapurina, purinas sustituidas en la posición 8 con metilo o bromo, 9-oxo-N6-metiladenina, 2-aminoadenina, 7-desazaxantina, 7-desazaguanina, 7-desaza-adenina, N4-etanocitosina, 2,6-diaminopurina, N6-etano-2,6-diaminopurina, 5-metilcitosina, 5-(C3-C6)-alquinilcitosina, 5-fluorouracilo, 5-bromouracilo, tiouracilo, pseudoisocitosina, 2-hidroxi-5-metil-4-triazolopiridina, isocitosina, isoguanina, inosina, 7,8-dimetilaloxazina, 6-dihidrotimidina, 5,6-dihidrouracilo, 4-metil-indol, etanoadenina y las nucleobases no naturales descritas en las patentes de EE. UU. números 5.432.272 y 6.150.510 y en las publicaciones PCT números WO 92/002258, WO 93/10820, WO 94/22892, y WO 94/24144,y Fasman ("Practical Handbook of Biochemistry and Molecular Biology", págs. 385-394, 1989, CRC Press, Boca Raton, La.).

El "resto de nucleobase" incluye nucleótidos, nucleósidos, fragmentos de los mismos y moléculas relacionadas que tienen la propiedad de unirse a un nucleótido complementario. Los desoxinucleótidos y ribonucleótidos, y sus diversos análogos, se contemplan dentro del alcance de esta definición. Los restos de nucleobase pueden ser miembros de oligómeros y sondas. "Nucleobase" y "resto de nucleobase" pueden usarse indistintamente en el presente documento y generalmente son sinónimos a menos que el contexto indique lo contrario.

"Polinucleótidos", también llamados ácidos nucleicos, son series de nucleótidos unidos covalentemente en donde la posición 3' de la pentosa de un nucleótido está unida por un grupo fosfodiéster a la posición 5' de la siguiente. El ADN (ácido desoxirribonucleico) y el ARN (ácido ribonucleico) son polinucleótidos de origen biológico en los que los restos de nucleótidos están unidos en una secuencia específica mediante enlaces fosfodiéster. Como se utiliza en el presente documento, los términos "polinucleótido" u "oligonucleótido" abarcan cualquier compuesto polimérico que tenga un esqueleto lineal de nucleótidos. Los oligonucleótidos, también denominados oligómeros, son generalmente polinucleótidos de cadena corta.

"Ácido nucleico" es un polinucleótido o un oligonucleótido. Una molécula de ácido nucleico puede ser ácido desoxirribonucleico (ADN), ácido ribonucleico (ARN) o una combinación de ambos. Los ácidos nucleicos se denominan generalmente "ácidos nucleicos diana" o "secuencia diana" si se dirigen a la secuenciación. Los ácidos nucleicos pueden ser mezclas o conjuntos de moléculas dirigidas a la secuenciación.

Una "secuencia de polinucleótidos" o "secuencia de nucleótidos" es un polímero de nucleótidos (un oligonucleótido, un ADN, un ácido nucleico, etc.) o una cadena de caracteres que representa un polímero de nucleótidos, dependiendo del contexto. A partir de cualquier secuencia polinucleotídica especificada, se puede determinar el ácido nucleico dado o la secuencia polinucleotídica complementaria (por ejemplo, el ácido nucleico complementario). Un "polipéptido" es un polímero que comprende dos o más restos de aminoácidos (por ejemplo, un péptido o una proteína). El polímero puede comprender adicionalmente elementos que no son aminoácidos tales como marcadores, inactivadores, grupos de bloqueo o similares y opcionalmente puede comprender modificaciones tales como glicosilación o similares. Los restos de aminoácidos del polipéptido pueden ser naturales o no naturales y pueden ser no sustituidos, no modificados, sustituidos o modificados.

Una "secuencia de aminoácidos" es un polímero de restos de aminoácidos (una proteína, polipéptido, etc.) o una cadena de caracteres que representa un polímero de aminoácidos, dependiendo del contexto.

La numeración de un polímero de aminoácidos o nucleótidos dado “corresponde a la numeración de” o es "relativa a" un polímero de aminoácidos o ácido nucleico seleccionado cuando la posición de cualquier componente polimérico dado (resto de aminoácido, nucleótido incorporado, etc.) se designa por referencia a la misma posición del resto en el polímero de aminoácidos o nucleótidos seleccionado, en lugar de por la posición real del componente en el polímero dado. De manera similar, La identificación de una posición dentro de un polímero de aminoácidos o nucleótidos dado es "relativa a" un polímero de aminoácidos o nucleótidos seleccionado cuando la posición de cualquier componente polimérico dado (resto de aminoácido, nucleótido incorporado, etc.) se designa en referencia al nombre del resto y la posición en el polímero de aminoácidos o nucleótidos seleccionado, en lugar del nombre real y la posición del componente en el polímero dado. La correspondencia de posiciones se determina normalmente alineando las secuencias de aminoácidos o polinucleótidos relevantes.

El término "recombinante" indica que el material (por ejemplo, un ácido nucleico o una proteína) ha sido alterado artificial o sintéticamente (no naturalmente) por intervención humana. La alteración se puede realizar en el material dentro o fuera de su entorno o estado natural. Por ejemplo, un "ácido nucleico recombinante" es uno que se prepara recombinando ácidos nucleicos, por ejemplo, durante la clonación, la mezcla de ADN u otros procedimientos, o mediante mutagénesis química o de otro tipo; un "polipéptido recombinante" o "proteína recombinante" es, por ejemplo, un polipéptido o proteína que se produce mediante la expresión de un ácido nucleico recombinante.

Una "ADN polimerasa de tipo DPO4" es una ADN polimerasa expresada naturalmente por la arquea, Sulfolobus solfataricus, o una ADN polimerasa de la familia Y relacionada, que generalmente funciona en la replicación del ADN dañado mediante un proceso conocido como síntesis de translesión (translesion synthesis, TLS). Las ADN polimerasas de la familia Y son homólogas a la polimerasa DPO4 (por ejemplo, como se enumera en la SEQ ID NO: 1); ejemplos de las cuales incluyen las enzimas procariotas, PolII, PolIV, PolV, la enzima arqueal, Dbh, y las enzimas eucariotas, Rev3p, Revlp, Pol n, REV3, REVI, ADN polimerasas Pol [y Pol ^k, así como sus quimeras. Una ADN polimerasa de tipo DPO4 recombinante modificada incluye una o más mutaciones respecto a las ADN polimerasas de tipo DPO4 de tipo silvestre de origen natural, por ejemplo, una o más mutaciones que aumentan la capacidad de utilizar análogos de nucleótidos voluminosos como sustratos u otra propiedad de la polimerasa, y puede incluir alteraciones o modificaciones adicionales respecto a la ADN polimerasa de tipo DPO4 de tipo silvestre, tal como una o más deleciones, inserciones y/o fusiones de secuencias de péptidos o proteínas adicionales (por ejemplo, para inmovilizar la polimerasa en una superficie o marcar de otra manera la enzima polimerasa).

"Síntesis dirigida por molde", "ensamblaje dirigido por molde", "hibridación dirigida por hibridación", "unión dirigida por plantilla" y cualquier otro proceso dirigidos por molde, por ejemplo, extensión de cebador, se refiere a un proceso mediante el cual restos de nucleótidos o análogos de nucleótidos se unen selectivamente a un ácido nucleico diana complementario y se incorporan en una hebra hija naciente. Una hebra hija producida por una síntesis dirigida por molde es complementaria a la diana monocatenaria a partir de la cual se sintetiza. Cabe señalar que la secuencia correspondiente de una hebra diana puede inferirse de la secuencia de su hebra hija, si se conoce. La "polimerización dirigida por plantilla" es un caso especial de síntesis dirigida por plantilla mediante el cual se polimeriza la hebra hija resultante.

"XNTP" es un sustrato de nucleótido modificado con 5' trifosfato compatible con la polimerización enzimática dependiente de molde. Un XNTP tiene dos componentes funcionales distintos; concretamente, una nucleobase 5'-trifosfato y un anclaje o precursor de anclaje que se une dentro de cada nucleótido en posiciones que permiten la expansión de RT controlada por escisión intra-nucleótidos.

El "intermedio Xpandomer" es un producto intermedio (también denominado en el presente documento como "una hebra hija") ensamblado a partir de los XNTP y que se forma mediante un ensamblaje dirigido por molde de los XNTP usando un molde de ácido nucleico diana. El intermedio Xpandomer contiene dos estructuras; concretamente, el Xpandomer contraído y el esqueleto principal. El Xpandomer contraído comprende todos los anclajes de la hebra hija pero puede comprender todos, una parte o ninguno de las nucleobases 5'-trifosfato según lo requiera el método. El esqueleto principal comprende todas las nucleobases 5'-trifosfato contiguas. En la etapa del proceso en la cual el esqueleto principal se fragmenta o se disocia, el Xpandomer contraído ya no está contraído y es el producto Xpandomer que se extiende cuando se estira el anclaje. “Hebra hija dúplex" se refiere a un intermedio Xpandomer que se hibrida o forma dúplex con el molde diana.

"Xpandomer" o "producto Xpandomer" es una construcción molecular sintética producida por la expansión de un Xpandomer contraído, que a su vez se sintetiza mediante el ensamblaje de XNTP dirigido por molde. El Xpandomer se alarga respecto al molde diana a partir del que se produjo. Está compuesto de una concatenación de XNTP, incluyendo cada XNTP un anclaje que comprende uno o más informadores que codifican información de secuencia. El Xpandomer está diseñado para expandirse para ser más largo que el molde diana, lo que reduce la densidad lineal de la información de secuencia del molde diana a lo largo de su longitud. Además, el Xpandomer proporciona opcionalmente una plataforma para aumentar el tamaño y la abundancia de informadores, lo que a su vez mejora la señal-ruido para la detección. La menor densidad de información lineal y las señales más fuertes aumentan la resolución y reducen los requisitos de sensibilidad para detectar y decodificar la secuencia de la hebra molde.

"Anclaje" o "miembro de anclaje" se refiere a un polímero o construcción molecular que tiene una dimensión generalmente lineal y con un resto final en cada uno de los dos extremos opuestos. Un anclaje se une a una nucleobase 5'-trifosfato con un enlace en al menos un resto final para formar un XNTP. Los restos finales del anclaje pueden conectarse a enlaces escindibles a la nucleobase 5'-trifosfato que sirven para restringir el anclaje en una "configuración contraída". Una vez sintetizada la hebra hija, cada resto final tiene un enlace final que se acopla directa o indirectamente a otros anclajes. Los anclajes acoplados comprenden el Xpandomer contraído que comprende además la hebra hija. Los anclajes tienen una "configuración contraída" y una "configuración expandida". La configuración contraída se encuentra en los XNTP y en la hebra hija. La configuración contraída del anclaje es la precursora de la configuración expandida, como se encuentra en los productos Xpandomer. La transición de la configuración contraída a la configuración expandida da como resultado la escisión de enlaces selectivamente escindibles que pueden estar dentro del esqueleto principal de la hebra hija o enlaces intra-anclaje. También se usa un anclaje en una configuración contraída cuando se agrega un anclaje para formar la hebra hija después del ensamblaje del "esqueleto principal". Los anclajes pueden comprender opcionalmente uno o más informadores o construcciones informadoras a lo largo de su longitud que pueden codificar información de secuencia de sustratos. El anclaje proporciona un medio para expandir la longitud del Xpandomer y de este modo reducir la densidad lineal de la información de la secuencia.

"Elemento de anclaje" o "segmento de anclaje" es un polímero que tiene una dimensión generalmente lineal con dos extremos terminales, donde los extremos forman enlaces finales para concatenar los elementos de anclaje. Los elementos de anclaje pueden ser segmentos de construcciones de anclaje. Tales polímeros pueden incluir, pero sin limitación: polietilenglicoles, poliglicoles, polipiridinas, piliisocianuros, poliisocianatos, poli(triarilmetil)metacrilatos, polialdehídos, polipirrolinonas, poliureas, poliglicol fosfodiésteres, poliacrilatos, polimetacrilatos, poliacrilamidas, polivinil ésteres, poliestirenos, poliamidas, poliuretanos, policarbonatos, polibutiratos, polibutadienos, polibutirolactonas, polipirrolidinonas, polivinilfosfonatos, poliacetamidas, polisacáridos, polihialuronatos, poliamidas, poliimidas, poliésteres, polietilenos, polipropilenos, poliestirenos, policarbonatos, politereftalatos, polisilanos, poliuretanos, poliéteres, poliaminoácidos, poliglicinas, poliprolinas, polilisina N-sustituida, polipéptidos, péptidos con cadena lateral N-sustituida, poli-glicina N-sustituida, peptoides, péptidos con cadena lateral sustituida con carboxilo, homopéptidos, oligonucleótidos, oligonucleótidos de ácido ribonucleico, oligonucleótidos de ácido desoxinucleico, oligonucleótidos modificados para evitar el apareamiento de bases de Watson-Crick, análogos de oligonucleótidos, poli(ácido citidílico), poli(ácido adenílico), poli(ácido uridílico), politimidina, polifosfato, polinucleótidos, polirribonucleótidos, polietilenglicol fosfodiésteres, análogos de polinucleótidos peptídicos, análogos de treosilpolinucleótidos, análogos de glicol-polinucleótidos, análogos de morfolino-nucleótidos, análogos de oligómeros de nucleótidos bloqueados, análogos de polipéptidos, polímeros ramificados, polímeros de peine, polímeros de estrella, polímeros dendríticos, copolímeros aleatorios, de gradiente y de bloques, polímeros aniónicos, polímeros catiónicos, polímeros formadores de tallo-bucle, segmentos rígidos y segmentos flexibles.

En el presente documento se definen o caracterizan de otro modo una variedad de términos adicionales.

Descripción detallada

Un aspecto de la invención se refiere generalmente a composiciones que comprenden una polimerasa recombinante, por ejemplo, una ADN polimerasa de tipo DPO4 recombinante que incluye una o más mutaciones en comparación con una polimerasa de referencia, como se describe en las reivindicaciones adjuntas. Dependiendo de la mutación particular o combinación de mutaciones, la polimerasa presenta una o más propiedades que se pueden utilizar, por ejemplo, en aplicaciones de secuenciación de una sola molécula. Los ejemplos de propiedades presentadas por varias polimerasas de la invención incluyen la capacidad de incorporar análogos de nucleótidos "voluminosos" en una hebra hija en crecimiento durante la replicación del ADN. Las polimerasas pueden incluir una o más características exógenas o heterólogas en las regiones N- y / o C-terminales de la proteína para su uso, por ejemplo, en la purificación de la polimerasa recombinante. Las polimerasas también pueden incluir una o más deleciones que facilitan la purificación de la proteína, por ejemplo, aumentando la solubilidad de la proteína producida de forma recombinante.

Estas nuevas polimerasas son particularmente adecuadas para aplicaciones de secuenciación y/o replicación de ADN, en particular protocolos de secuenciación que incluyen la incorporación de análogos de nucleótidos voluminosos en una hebra hija de ácido nucleico replicada, tal como en el protocolo de secuenciación por expansión (SBX), como se describe adicionalmente a continuación.

Las polimerasas de la invención incluyen, por ejemplo, una ADN polimerasa de tipo DPO4 recombinante que comprende una mutación en una o más posiciones seleccionadas del grupo que consiste en M76, K78, E79, ^q82, Q83 y S86, donde la identificación de posiciones es relativa a la polimerasa DPO4 de tipo silvestre (SEQ ID NO: 1). Opcionalmente, la polimerasa comprende mutaciones en dos o más, tres o más, cuatro o más, cinco o más, seis o más, hasta diez o más, hasta 20 o más, o de 20 a 30 o más de estas posiciones. En el presente documento se describen una serie de sustituciones de ejemplos en estas (y otras) posiciones.

ADN polimerasas

Las ADN polimerasas que pueden modificarse para aumentar la capacidad de incorporar sustratos análogos de nucleótidos voluminosos en una cadena de ácido nucleico hija en crecimiento y/u otras propiedades deseables como se describe en el presente documento están generalmente disponibles. Las ADN polimerasas a veces se clasifican en seis grupos principales, o familias, basándose en varias relaciones filogenéticas, por ejemplo, con E. coli Pol I (clase A), E. coli Pol II (clase B), E. coli Pol III (clase C), Pol II euriarqueota (clase D), Pol beta humana (clase X), y E. coli UmuC/DinB y la variante eucariota RAD30/xeroderma pigmentosum (clase Y). Para una revisión de la nomenclatura reciente, véase, por ejemplo, Burgers et al. (2001) "Eukaryotic DNA polymerases: proposal for a revised nomenclature" J Biol. Chem. 276(47):43487-90. Para una revisión de polimerasas, véase, por ejemplo, Hubscher et al. (2002) "Eukaryotic DNA Polymerases" Annual Review of Biochemistry Vol. 71: 133-163; Alba (2001) "Protein Family Review: Replicative DNA Polymerases" Genome Biology 2(1): reviews 3002.1-3002.4; y Steitz (1999) "DNA polymerases: structural diversity and common mechanisms" J Biol Chem 274:17395-17398. Las ADN polimerasas se han estudiado ampliamente y se han determinado los mecanismos de acción de muchas. Además, es de dominio público las secuencias de literalmente cientos de polimerasas, y las estructuras cristalinas de muchas de estas se han determinado o se pueden inferir basándose en la similitud con estructuras cristalinas resueltas para polimerasas homólogas. Por ejemplo, se dispone de la estructura cristalina de DPO4, un tipo preferido de enzima parental a modificar de acuerdo con la presente invención, véase, por ejemplo, Ling et al. (2001) "Crystal Structure of a Y-Family DNA Polymerase in Action: A Mechanism for Error- Prone and Lesion-Bypass Replication" Cell 107:91-102.

Las ADN polimerasas que son sustratos preferidos para la mutación para aumentar el uso de análogos de nucleótidos voluminosos como sustratos para la incorporación en cadenas hijas de ácido nucleico en crecimiento y/o para alterar una o más de otras propiedades descritas en el presente documento incluyen polimerasas DPO4 y otros miembros de la familia Y de ADN polimerasas translesionales, tales como Dbh, y derivados de tales polimerasas. En un aspecto, la polimerasa que se modifica es una ADN polimerasa de tipo DPO4. Por ejemplo, la ADN polimerasa recombinante modificada puede ser homóloga a una ADN polimerasa DPO4 de tipo silvestre. Como alternativa, la ADN polimerasa recombinante modificada puede ser homóloga a otras ADN polimerasas de clase Y, también conocidas como ADN polimerasas de "translesión", tal como la Dbh polimerasa Sulfolobus acidocaldarius. Para una revisión, véase Goodwin and Woodgate (2013) "Translesion DNA Polymerases" Cold Spring Harb Perspect in Biol doi:10.1101/cshperspect.a010363. Véase, por ejemplo, la SEQ ID NO: 1 para la secuencia de aminoácidos de la polimerasa DPO4 de tipo silvestre.

Muchas polimerasas que son adecuadas para modificación, por ejemplo, para usar en tecnologías de secuenciación, están disponibles en el mercado. Por ejemplo, la polimerasa DPO4 está comercializada por TREVEGAN y New England Biolabs.

Además de las polimerasas de tipo silvestre, se pueden usar polimerasas quiméricas elaboradas a partir de un mosaico de diferentes fuentes. Por ejemplo, las polimerasas de tipo DPO4 preparadas teniendo en cuenta secuencias de más de una polimerasa parental pueden usarse como punto de partida para la mutación para producir las polimerasas de la invención. Se pueden producir quimeras, por ejemplo, utilizando la consideración de regiones de similitud entre las polimerasas para definir secuencias de consenso que se utilizan en la quimera, o utilizando tecnologías de reordenamiento de genes en las que múltiples polimerasas relacionadas con DPO4 se reordenan aleatoria o semi-aleatoriamente mediante técnicas de reordenamiento de genes disponibles (por ejemplo, mediante "reordenamiento de familias de genes"; véase Crameri et al. (1998) "DNA shuffling of a family of genes from diverse species accelerates directed evolution" Nature 391:288-291; Clackson et al. (1991) "Making antibody fragments using phage display libraries" Nature 352:624-628; Gibbs et al. (2001) "Degenerate oligonucleotide gene shuffling (DOGS): a method for enhancing the frequency of recombination with family shuffling" Gene 271:13-20; y Hiraga and Arnold (2003) "General method for sequence-independent site-directed chimeragenesis: J. Mol. Biol. 330:287-296). En estos métodos, los puntos de recombinación pueden predeterminarse de manera que los fragmentos de genes se ensamblen en el orden correcto. Sin embargo, las combinaciones, por ejemplo, quimeras, se pueden formar al azar. Pueden introducirse en las quimeras mutaciones apropiadas para mejorar la incorporación de sustratos de análogos de nucleótidos voluminosas u otra propiedad deseable.

Análogos de nucleótidos

Como se ha descrito, varias polimerasas de la invención pueden incorporar uno o más análogos de nucleótidos en una cadena de oligonucleótidos en crecimiento. Tras la incorporación, el análogo puede dejar un resto que es igual o diferente a un nucleótido natural en el oligonucleótido en crecimiento (la polimerasa puede incorporar cualquier resto no estándar del análogo, o puede escindirlo durante la incorporación al oligonucleótido). Un "análogo de nucleótido" en el presente documento es un compuesto, que, en una aplicación particular, funciona de una manera similar o análoga a un nucleósido trifosfato de origen natural (un "nucleótido"), y no denota ninguna estructura particular. Un análogo de nucleótido es un análogo diferente a un nucleótido estándar de origen natural, es decir, diferente de A, G, C, T o U, aunque tras la incorporación al oligonucleótido, el resto resultante en el oligonucleótido puede ser el mismo (o diferente de) un resto A, G, C, T o U.

Están disponibles muchos análogos de nucleótidos y pueden ser incorporados por las polimerasas de la invención. Estos incluyen estructuras análogas con similitud básica a nucleótidos naturales, tales como los que comprenden uno o más sustituyentes en un resto fosfato, azúcar o base del nucleósido o nucleótido con respecto a un nucleósido o nucleótido natural.

En un aspecto útil de la invención, los análogos de nucleótidos también pueden modificarse para lograr cualquiera de las propiedades mejoradas deseadas. Por ejemplo, se pueden incorporar varios anclajes, enlazadores u otros sustituyentes en análogos para crear un análogo de nucleótido "voluminoso", donde el término "voluminoso" se entiende que significa que el tamaño del análogo es sustancialmente mayor que un nucleótido natural, aunque no denote ninguna dimensión particular. Por ejemplo, el análogo puede incluir un compuesto sustituido (es decir, un "XNTP", como se divulga en la patente de EE. UU. N.° 7.939.259 y en la Publicación PCT N.°WO 2016/081871 asignada a Kokoris et al.) de la fórmula:

Como se muestra en la fórmula anterior, la construcción XNTP monomérica tiene un resto de nucleobase, N, que tiene dos restos separados por un enlace selectivamente escindible (V), estando unido cada resto al extremo de un anclaje (T). Los extremos del anclaje se pueden unir a las modificaciones del grupo enlazador en el heterociclo, el grupo ribosa o la cadena principal de fosfato. El sustrato de monómero también tiene un sitio de escisión intrasustrato posicionado dentro de la cadena principal de fosfororibosilo de manera que la escisión proporcionará la expansión del anclaje contraído. Por ejemplo, para sintetizar un monómero XATP, el enlazador amino del 8-[(6-Amino)hexil]-amino-ATP o N6-(6-Amino)hexil-ATP se puede usar como un primer punto de unión del anclaje, y un enlazador de la cadena principal mixto, tal como la modificación no en puente (N-1-aminoalquil)fosforamidato o (2-aminoetil)fosfonato, puede usarse como un segundo punto de unión del anclaje. Además, una modificación del esqueleto en puente tal como un fosforamidato (3' O--P--N 5') o un fosforotiolato (3' O--P--S 5'), por ejemplo, se puede usar para la escisión química selectiva del esqueleto principal. R1 y R2 son grupos terminales configurados según sea apropiado para el protocolo de síntesis donde se usa la construcción de sustrato. Por ejemplo, R1=5'-trifosfato y R2=3'-OH para un protocolo de polimerasa. El R15'-trifosfato puede incluir modificaciones del esqueleto mixtas, tales como un aminoetil fosfonato o 3'-O--P--S-5' fosforotiolato, para permitir la unión del anclaje y escisión de la cadena principal, respectivamente. Opcionalmente, R2 se puede configurar con un grupo de bloqueo reversible para la adición cíclica de un solo sustrato. Como alternativa, R1 y R2 pueden configurarse con grupos terminales de enlazador para el acoplamiento químico. R1 y R2 pueden ser del tipo general XR, donde X es un grupo de enlace y R es un grupo funcional. Pueden encontrarse estructuras atómicas detalladas de sustratos adecuados para variantes de polimerasa de la presente invención, por ejemplo, en Vaghefi, M. (2005) "Nucleoside Triphosphates and their Analogs" CRC Press Taylor & Francis Group.

Aplicaciones para aumentar la capacidad de incorporar sustratos de análogos de nucleótidos voluminosos

Las polimerasas de la invención, por ejemplo, polimerasas recombinantes modificadas, o variantes, pueden usarse en combinación con nucleótidos y/o análogos de nucleótidos y moldes de ácido nucleico (ADN o ARN) para copiar el ácido nucleico molde. Es decir, se hace reaccionar una mezcla de polimerasa, nucleótidos/análogos y,opcionalmente otros reactivos apropiados, el molde y un resto iniciador de la replicación (por ejemplo, cebador) de modo que la polimerasa sintetiza una hebra de ácido nucleico hija (por ejemplo, extiende el cebador) de forma dependiente del molde. El resto iniciador de la replicación puede ser un cebador oligonucleótido estándar, o, como alternativa, un componente del molde, por ejemplo, el molde puede ser un ADN monocatenario autocebante, un ADN bicatenario con muescas o similares. De manera similar, una proteína terminal puede servir como resto iniciador. Se puede incorporar al menos un análogo de nucleótido al ADN. El ADN molde puede ser un ADN lineal o circular y, en ciertas aplicaciones, es deseablemente un molde circular (por ejemplo, para la replicación de círculo rodante o para la secuenciación de moldes circulares). Opcionalmente, la composición puede estar presente en un sistema de secuenciación y/o replicación de ADN automatizado.

En una realización, la hebra de ácido nucleico hija es un intermedio de Xpandomer compuesto por XNTP, como se divulga en la patente de EE. UU. N.° 7.939.259 y la publicación PCT N.°WO 2016/081871 de Kokoris et al. y asignada a Stratos Genomics. Stratos Genomics ha desarrollado un método llamado Secuenciación por Expansión ("SBX") que usa una ADN polimerasa para transcribir la secuencia de ADN en un polímero medible denominado "Xpandomer". En términos generales, un Xpandomer codifica (analiza) los datos de la secuencia de nucleótidos del ácido nucleico diana en un formato expandido linealmente, mejorando de este modo la resolución espacial, opcionalmente con amplificación de la fuerza de la señal. La secuencia transcrita se codifica a lo largo del esqueleto Xpandomer en informadores de alta relación señal-ruido que están separados por ~10 nm y que están diseñados para respuestas de alta relación señal-ruido bien diferenciadas. Estas diferencias proporcionan mejoras de rendimiento significativas en la eficiencia y precisión de lectura de secuencias de los Xpandomer con respecto al ADN nativo. Los Xpandomer pueden posibilitar varias tecnologías de secuenciación de ADN de próxima generación y son muy adecuados para la secuenciación a través de nanoporos. Como se ha analizado anteriormente, un método de síntesis de Xpandomer usa XNTP como análogos de ácido nucleico para extender la síntesis dependiente de molde y usa una variante de ADN polimerasa como catalizador.

Mutación de polimerasas

Se usan opcionalmente varios tipos de mutagénesis en la presente invención, por ejemplo, para modificar polimerasas para producir variantes, por ejemplo, de acuerdo con modelos de polimerasa y predicciones de modelos como se discutió anteriormente, o usando enfoques mutacionales aleatorios o semialeatorios. En general, se puede usar cualquier procedimiento de mutagénesis disponible para preparar mutantes de polimerasa. Dichos procedimientos de mutagénesis incluyen opcionalmente la selección de ácidos nucleicos y polipéptidos mutantes para una o más actividades de interés (por ejemplo, la capacidad de incorporar análogos de nucleótidos voluminosos en una hebra de ácido nucleico hija). Los procedimientos que se pueden usar incluyen, pero sin limitación: mutagénesis puntual dirigida al sitio, mutagénesis puntual aleatoria, recombinación homóloga in vitro o in vivo (reordenación de ADN y PCR de solapamiento combinatorio), mutagénesis usando moldes que contienen uracilo, mutagénesis dirigida por oligonucleótidos, mutagénesis de ADN modificado con fosforotioato, mutagénesis usando ADN dúplex con huecos, reparación de emparejamientos erróneos puntuales, mutagénesis usando cepas hospedadoras deficientes en reparación, selección de restricción y restricción-purificación, mutagénesis por deleción, mutagénesis por síntesis de genes totales, PCR degenerada, reparación de rotura de doble cadena y muchos otros conocidos por las personas expertas. La polimerasa de partida para la mutación puede ser cualquiera de las indicadas en el presente documento, incluida la polimerasa DPO4 de tipo silvestre.

Opcionalmente, la mutagénesis puede ser guiada por información conocida (por ejemplo, diseño "racional" o "semirracional") de una molécula de polimerasa de origen natural, o de una polimerasa alterada o mutada conocida (por ejemplo, usando una polimerasa mutante existente como se indica en las referencias anteriores), por ejemplo, secuencia, comparaciones de secuencia, propiedades físicas, estructura cristalina y/o similares como se ha descrito anteriormente. Sin embargo, en otra clase de realizaciones, la modificación puede ser esencialmente aleatoria (por ejemplo, como en el reordenamiento de ADN clásico o de "familia", véase, por ejemplo, Crameri et al. (1998) "DNA shuffling of a family of genes from diverse species accelerates directed evolution" Nature 391:288-291.

Se encuentra información adicional sobre formatos de mutación en: Sambrook et al., Molecular Cloning--A Laboratory Manual (3rd Ed.), Vol. 1-3, Cold Spring Harbor Laboratory, Cold Spring Harbor, N.Y., 2000 ("Sambrook"); Current Protocols in Molecular Biology, F. M. Ausubel et al., eds., Current Protocols, una empresa conjunta entre Greene Publishing Associates, Inc. y John Wiley & Sons, Inc., (conmplementado hasta 2011) ("Ausubel")) y PCR Protocols A Guide to Methods and Applications (Innis et al. eds) Academic Press Inc. San Diego, Calif. (1990) ("Innis"). Las siguientes publicaciones y referencias citadas proporcionan detalles adicionales sobre formatos de mutación: Arnold, Protein engineering for unusual environments, Current Opinión in Biotechnology 4:450-455 (1993); Bass et al., Mutant Trp repressors with new DNA-binding specificities, Science 242:240-245 (1988); Bordo and Argos (1991) Suggestions for "Safe" Residue Substitutions in Site-directed Mutagenesis 217:721- 729; Botstein & Shortle, Strategies and applications of in vitro mutagenesis, Science 229:1193-1201 (1985); Carter et al., Improved oligonucleotide site-directed mutagenesis using M13 vectors, Nucl. Acids Res. 13: 4431-4443 (1985); Carter, Sitedirected mutagenesis, Biochem. J. 237:1-7 (1986); Carter, Improved oligonucleotide- directed mutagenesis using M13 vectors, Methods in Enzymol. 154: 382-403 (1987); Dale et al., Oligonucleotide-directed random mutagenesis using the phosphorothioate method, Methods Mol. Biol. 57:369-374 (1996); Eghtedarzadeh & Henikoff, Use of oligonucleotides to generate large deletions, Nucl. Acids Res. 14: 5115 (1986); Fritz et al., Oligonucleotide-directed construction of mutations: a gapped duplex DNA procedure without enzymatic reactions in vitro, Nucl. Acids Res. 16: 6987-6999 (1988); Grundstrom et al., Oligonucleotide-directed mutagenesis by microscale 'shot-gun' gene synthesis, Nucl. Acids Res. 13: 3305-3316 (1985); Hayes (2002) Combining Computational and Experimental Screening for rapid Optimization of Protein Properties PNAS 99(25) 15926-15931; Kunkel, The efficiency of oligonucleotide directed mutagenesis, en Nucleic Acids & Molecular Biology (Eckstein, F. y Lilley, D. M. J. eds., Springer Verlag, Berlín)) (1987); Kunkel, Rapid and efficient site-specific mutagenesis without phenotypic selection, Proc. Natl. Acad. Sci. USA 82:488-492 (1985); Kunkel et al., Rapid and efficient site-specific mutagenesis without phenotypic selection, Methods in Enzymol. 154: 367-382 (1987); Kramer et al., The gapped duplex DNA approach to oligonucleotidedirected mutation construction, Nucl. Acids Res. 12: 9441-9456 (1984); Kramer & Fritz Oligonucleotide-directed construction of mutations via gapped duplex DNA, Methods in Enzymol. 154:350-367 (1987); Kramer et al., Point Mismatch Repair, Cell 38:879-887 (1984); Kramer et al., Improved enzymatic in vitro reactions in the gapped duplex DNA approach to oligonucleotide-directed construction of mutations, Nucl. Acids Res. 16: 7207 (1988); Ling et al., Approaches to DNA mutagenesis: an overview, Anal Biochem. 254(2): 157-178 (1997); Lorimer and Pastan Nucleic Acids Res. 23: 3067-8 (1995); Mandecki, Oligonucleotide-directed double-strand break repair in plasmids of Escherichia coli: a method for site-specific mutagenesis, Proc. Natl. Acad. Sci. USA, 83:7177-7181(1986); Nakamaye & Eckstein, Inhibition of restriction endonuclease Nci I cleavage by phosphorothioate groups and its application to oligonucleotide-directed mutagenesis, Nucl. Acids Res. 14: 9679-9698 (1986); Nambiar et al., Total synthesis and cloning of a gene coding for the ribonuclease S protein, Science 223: 1299-1301(1984); Sakamar and Khorana, Total synthesis and expression of a gene for the a-subunit of bovine rod outer segment guanine nucleotide-binding protein (transducin), Nucl. Acids Res. 14: 6361-6372 (1988); Sayers et al., Y-T Exonucleases in phosphorothioate-based oligonucleotide- directed mutagenesis, Nucl. Acids Res. 16:791-802 (1988); Sayers et al., Strand specific cleavage of phosphorothioate-containing DNA by reaction with restriction endonucleases in the presence of ethidium bromide, (1988) Nucl. Acids Res. 16: 803- 814; Sieber, et al., Nature Biotechnology, 19:456-460 (2001); Smith, In vitro mutagenesis, Ann. Rev. Genet. 19:423-462 (1985); Methods in Enzymol. 100: 468-500 (1983); Methods in Enzymol.

154: 329-350 (1987); Stemmer, Nature 370, 389- 91(1994); Taylor et al., The use of phosphorothioate-modified DNA in restriction enzyme reactions to prepare nicked DNA, Nucl. Acids Res. 13: 8749-8764 (1985); Taylor et al., The rapid generation of oligonucleotide-directed mutations at high frequency using phosphorothioate-modified DNA, Nucl. Acids Res. 13: 8765-8787 (1985); Wells et al., Importance of hydrogen-bond formation in stabilizing the transition state of subtilisin, Phil. Trans. R. Soc. Lond. A 317: 415-423 (1986); Wells et al., Cassette mutagenesis: an efficient method for generation of multiple mutations at defined sites, Gene 34:315-323 (1985); Zoller & Smith, Oligonucleotide-directed mutagenesis using M 13-derived vectors: an efficient and general procedure for the production of point mutations in any DNA fragment, Nucleic Acids Res. 10:6487-6500 (1982); Zoller & Smith, Oligonucleotide-directed mutagenesis of DNA fragments cloned into M13 vectors, Methods in Enzymol. 100:468-500 (1983); Zoller & Smith, Oligonucleotide-directed mutagenesis: a simple method using two oligonucleotide primers and a single-stranded DNA template, Methods in Enzymol. 154:329-350 (1987); Clackson et al. (1991) "Making antibody fragments using phage display libraries" Nature 352:624-628; Gibbs et al. (2001) "Degenerate oligonucleotide gene shuffling (DOGS): a method for enhancing the frequency of recombination with family shuffling" Gene 271:13-20; y Hiraga and Arnold (2003) "General method for sequence-independent site-directed chimeragenesis: J. Mol. Biol.

330:287-296. Se pueden encontrar detalles adicionales sobre muchos de los métodos anteriores en Methods in Enzymology Volume 154, que también describe controles útiles para solucionar problemas con varios métodos de mutagénesis.

Detección de polimerasas

Se pueden usar métodos de detección u otros protocolos para determinar si una polimerasa muestra una actividad modificada, por ejemplo, para un análogo de nucleótido, en comparación con una ADN polimerasa parental. Por ejemplo, la capacidad de unirse e incorporar análogos de nucleótidos voluminosos en una hebra hija durante la síntesis de ADN dependiente del molde. Los ensayos de dichas propiedades y similares, se describen en el presente documento. El rendimiento de una polimerasa recombinante en una reacción de extensión del cebador puede examinarse para analizar propiedades tales como incorporaciones de análogos de nucleótidos, etc., como se describe en el presente documento.

En un aspecto deseable, se puede preparar una biblioteca de ADN polimerasas recombinantes y seleccionar estas propiedades. Por ejemplo, se puede hacer que una pluralidad de miembros de la biblioteca incluyan una o más mutaciones que alteran las incorporaciones y/o mutaciones generadas aleatoriamente (por ejemplo, donde diferentes miembros incluyen diferentes mutaciones o diferentes combinaciones de mutaciones), y la biblioteca puede a continuación ser seleccionada para las propiedades de interés (por ejemplo, incorporaciones, etc.). En general, la biblioteca se puede seleccionar para identificar al menos un miembro que comprende una actividad de interés modificada.

Las bibliotecas de polimerasas pueden ser de naturaleza física o lógica. Por otra parte, se puede utilizar cualquiera de una amplia variedad de formatos de biblioteca. Por ejemplo, las polimerasas se pueden fijar a superficies sólidas en matrices de proteínas. De manera similar, se pueden construir matrices de polimerasas en fase líquida (por ejemplo, en placas de micropocillos) para manipulaciones de fluidos de alto rendimiento convenientes de soluciones que comprenden polimerasas. También se pueden construir bibliotecas líquidas, en emulsión o en fase de gel de células que expresan polimerasas recombinantes, por ejemplo, en placas de micropocillos, o en placas de agar. Pueden producirse bibliotecas de presentación de fagos de polimerasas o dominios de polimerasa (por ejemplo, que incluyen la región del sitio activo o las regiones de estabilidad entre dominios). Asimismo, se pueden usar bibliotecas de presentación en levadura. Se pueden encontrar instrucciones para crear y usar bibliotecas, por ejemplo, en Sambrook, Ausubel y Berger, a los que se hace referencia en el presente documento.

Para la generación de bibliotecas que implican la transferencia de fluidos hacia o desde placas de microtitulación, se utiliza opcionalmente una estación de manipulación de fluidos. Varias estaciones de manipulación de fluidos listas para usar para realizar tales transferencias están comercializadas, incluyendo, por ejemplo, los sistemas Zymate de Caliper Life Sciences (Hopkinton, Massachusetts) y otras estaciones que utilizan pipetas automáticas, por ejemplo, junto con la robótica para el movimiento de la placa (por ejemplo, el robot ORCA, que se usa en una variedad de sistemas de laboratorio disponibles, por ejemplo, en Beckman Coulter, Inc. (Fullerton, Calif.).

En una realización alternativa, la manipulación de fluidos se realiza en microchips, por ejemplo, implica la transferencia de materiales desde placas de micropocillos u otros pocillos a través de microcanales en los chips a sitios de destino (regiones de microcanales, pocillos, cámaras o similares). Los sistemas de microfluidos comercializados incluyen los de Hewlett-Packard/Agilent Technologies (por ejemplo, el bioanalizador HP2100) y el sistema de detección de alto rendimiento de Caliper. El sistema de detección de alto rendimiento de Caliper proporciona un ejemplo de interfaz entre los formatos de biblioteca de micropocillos estándar y las tecnologías Labchip. La plataforma de nanogotas de RainDance Technologies proporciona otro método para manejar un gran número de reacciones separadas espacialmente. Además, la literatura técnica y de patentes incluye muchos ejemplos de sistemas de microfluidos que pueden interactuar directamente con placas de micropocillos para la manipulación de fluidos.

Etiquetas y otras características de polimerasa opcionales

La ADN polimerasa recombinante incluye opcionalmente características adicionales exógenas o heterólogas a la polimerasa. Por ejemplo, la polimerasa recombinante incluye opcionalmente una o más etiquetas, por ejemplo, purificación, unión al sustrato, u otras etiquetas, tal como una etiqueta polihistidina, una etiqueta His10, una etiqueta His6, una etiqueta de alanina, una etiqueta Ala16, una etiqueta Ala16, una etiqueta de biotina, una secuencia de reconocimiento de ligasa de biotina u otro sitio de unión a biotina (por ejemplo, una BiTag o una Btag o una variante de la misma, por ejemplo, BtagV1-11), una etiqueta GST, una etiqueta S, una etiqueta SNAP, una etiqueta HA, una etiqueta DSB (Sso7D), una etiqueta de lisina, una NanoTag, una etiqueta Cmyc, una etiqueta o enlazador que comprende los aminoácidos glicina y serina, una etiqueta o enlazador que comprende los aminoácidos glicina, serina, alanina e histidina, una etiqueta o enlazador que comprende los aminoácidos glicina, arginina, lisina, glutamina y prolina, una pluralidad de etiquetas de polihistidina, una pluralidad de etiquetas His10, una pluralidad de etiquetas His6, una pluralidad de etiquetas de alanina, una pluralidad de etiquetas Ala10, una pluralidad de etiquetas Ala16, una pluralidad de etiquetas de biotina, una pluralidad de etiquetas GST, una pluralidad de BiTags, una pluralidad de etiquetas S, una pluralidad de etiquetas SNAP, una pluralidad de etiquetas HA, una pluralidad de etiquetas DSB (Sso7D), una pluralidad de etiquetas de lisina, una pluralidad de NanoTags, una pluralidad de etiquetas Cmyc, una pluralidad de etiquetas o enlazadores que comprende los aminoácidos glicina y serina, una pluralidad de etiquetas o enlazadores que comprende los aminoácidos glicina, serina, alanina e histidina, una pluralidad de etiquetas o enlazadores que comprende los aminoácidos glicina, arginina, lisina, glutamina y prolina, biotina, avidina, un anticuerpos o dominio de anticuerpo, fragmento de anticuerpo, antígeno, receptor, dominio de receptor, fragmento de receptor, o ligando, uno o más sitio de proteasa (por ejemplo, Factor Xa, enteroquinasa, o sitio de trombina), un tinte, un aceptor, un inactivador, un dominio de unión al ADN (por ejemplo, un dominio hélicehorquilla-hélice de la topoisomerasa V), o una combinación de los mismos. La una o más características exógenas o heterólogas en las regiones N- y/o C-terminales de la polimerasa pueden utilizarse no solo para propósitos de purificación, inmovilización de la polimerasa a un sustrato y similares, sino que también pueden ser útiles para alterar una o más propiedades de la polimerasa.

La o las características exógenas o heterólogas se pueden incluir en el interior de la polimerasa, en la región N-terminal de la polimerasa, en la región C-terminal de la polimerasa, o en las regiones N-terminal y C-terminal de la polimerasa. Cuando la polimerasa incluye una característica exógena o heteróloga en las regiones N-terminal y C-terminal, las características exógenas o heterólogas pueden ser las mismas (por ejemplo, una etiqueta de polihistidina, por ejemplo, una etiqueta His10, tanto en la regiones N- como C-terminales) o diferentes (por ejemplo, una secuencia de reconocimiento de biotina ligasa en la región N-terminal y una etiqueta de polihistidina, por ejemplo, una etiqueta His10, en la región C-terminal). Opcionalmente, una región terminal (por ejemplo, la región N o C-terminal) de una polimerasa de la invención puede comprender dos o más características exógenas o heterólogas que pueden ser iguales o diferentes (por ejemplo, una secuencia de reconocimiento de biotina ligasa y una etiqueta de polihistidina en la región N-terminal, una secuencia de reconocimiento de biotina ligasa, una etiqueta de polihistidina y un sitio de reconocimiento de Factor Xa en la región N-terminal, y similares). Como algunos ejemplos, la polimerasa puede incluir una etiqueta de polihistidina en la región C-terminal, una secuencia de reconocimiento de biotina ligasa y una etiqueta de polihistidina en la región N-terminal, una secuencia de reconocimiento de biotina ligasa y una etiqueta de polihistidina en la región N-terminal y una etiqueta de polihistidina en la región C-terminal, o una etiqueta de polihistidina y una secuencia de reconocimiento de biotina ligasa en la región C-terminal.

Preparación y aislamiento de polimerasas recombinantes

En general, los ácidos nucleicos que codifican una polimerasa de la invención se pueden preparar mediante clonación, recombinación, síntesis in vitro, amplificación in vitro y/u otros métodos disponibles. Puede usarse una variedad de métodos recombinantes para expresar un vector de expresión que codifica una polimerasa de la invención. Los métodos para la preparación, expresión y aislamiento de ácidos nucleicos recombinantes son bien conocidos y se describen en la técnica. En el presente documento se describen una serie de mutaciones y combinaciones de ejemplos de mutaciones, así como estrategias para el diseño de mutaciones deseables. Los métodos para preparar y seleccionar mutaciones en el sitio activo de polimerasas, incluido para modificar características estéricas en o cerca del sitio activo para permitir un acceso mejorado por análogos de nucleótidos se han mencionado anteriormente en el presente documento y, por ejemplo, en las publicaciones PCT números WO 2007/076057 y WO 2008/051530.

Referencias útiles adicionales para mutación, manipulación de ácidos nucleicos recombinantes e in vitro (incluyendo la clonación, expresión, PCR, y similares) incluyen Berger and Kimmel, Guide to Molecular Cloning Techniques, Methods in Enzymology volume 152 Academic Press, Inc., San Diego, Calif. (Berger); Kaufman et al. (2003) Handbook of Molecular and Cellular Methods in Biology and Medicine Second Edition Ceske (ed) CRC Press (Kaufman); y The Nucleic Acid Protocols Handbook Ralph Rapley (ed) (2000) Cold Spring Harbor, Humana Press Inc (Rapley); Chen et al. (ed) PCR Cloning Protocols, Second Edition (Methods in Molecular Biology, volume 192) Humana Press; y en Viljoen et al. (2005)Molecular Diagnostic PCR Handbook Springer, ISBN 1402034032.

Además, hay una plétora de kits disponibles en el mercado para la purificación de plásmidos u otros ácidos nucleicos relevantes de las células, (véase, por ejemplo, EasyPrep FlexiPrep both from Pharmacia Biotech; StrataCleari, de Stratagene; y, QIAprep from Qiagen). Cualquier ácido nucleico aislado y/o purificado puede manipularse adicionalmente para producir otros ácidos nucleicos, usarse para transfectar células, incorporarse en vectores relacionados para infectar organismos para su expresión y/o similares. Los vectores de clonación típicos contienen terminadores de transcripción y traducción, secuencias de iniciación de la transcripción y la traducción y promotores útiles para la regulación de la expresión del ácido nucleico diana particular. Los vectores comprenden opcionalmente casetes de expresión genéricos que contienen al menos una secuencia de terminación independiente, secuencias que permiten la replicación del casete en eucariotas o procariotas, o ambos, (por ejemplo, vectores lanzadera) y marcadores de selección para sistemas procariotas y eucariotas. Los vectores son adecuados para la replicación e integración en procariotas, eucariotas, o ambos.

Otras referencias útiles, por ejemplo, para el aislamiento y cultivo de células (por ejemplo, para el aislamiento posterior del ácido nucleico) incluyen Freshney (1994) Culture of Animal Cells, a Manual of Basic Technique, tercera edición, Wiley-Liss, Nueva York y las referencias citadas en los mismos; Payne et al. (1992) Plant Cell and Tissue Culture in Liquid Systems John Wiley & Sons, Inc. New York, N.Y.; Gamborg and Phillips (eds) (1995) Plant Cell, Tissue and Organ Culture; Fundamental Methods Springer Lab Manual, Springer- Verlag (Berlin Heidelberg New York) y Atlas and Parks (eds) The Handbook of Microbiological Media (1993) CRC Press, Boca Raton, Fla.

Los ácidos nucleicos que codifican las polimerasas recombinantes de la invención también son una característica de la invención. Un aminoácido particular puede estar codificado por múltiples codones, y ciertos sistemas de traducción (por ejemplo, células procariotas o eucariotas) a menudo presentan sesgo de codones, por ejemplo, diferentes organismos a menudo prefieren uno de los varios codones sinónimos que codifican el mismo aminoácido. Como tal, los ácidos nucleicos de la invención están opcionalmente "optimizados por codones", lo que significa que los ácidos nucleicos se sintetizan para incluir codones que son preferidos por el sistema de traducción particular que se emplea para expresar la polimerasa. Por ejemplo, cuando es deseable expresar la polimerasa en una célula bacteriana (o incluso en una cepa particular de bacterias), el ácido nucleico puede sintetizarse para incluir codones que se encuentran con mayor frecuencia en el genoma de esa célula bacteriana, para la expresión eficiente de la polimerasa. Se puede emplear una estrategia similar cuando es deseable expresar la polimerasa en una célula eucariota, por ejemplo, el ácido nucleico puede incluir codones preferidos por esa célula eucariota.

Se conocen una variedad de métodos de detección y aislamiento de proteínas y se pueden usar para aislar polimerasas, por ejemplo, de cultivos recombinantes de células que expresan las polimerasas recombinantes de la invención. Se conocen bien en la técnica una variedad de métodos de aislamiento y detección de proteínas, incluyendo, por ejemplo, los expuestos en R. Scopes, Protein Purification, Springer-Verlag, N.Y. (1982); Deutscher, Methods in Enzymology Vol. 182: Guide to Protein Purification, Academic Press, Inc. N.Y. (1990); Sandana (1997) Bioseparation of Proteins, Academic Press, Inc.; Bollag et al. (1996) Protein Methods, 2.nd Edition Wiley-Liss, NY; Walker (1996) The Protein Protocols Handbook Humana Press, NJ, Harris and Angal (1990) Protein Purification Applications: A Practical Approach IRL Press at Oxford, Oxford, England; Harris and Angal Protein Purification Methods: A Practical Approach IRL Press at Oxford, Oxford, England; Scopes (1993) Protein Purification: Principles and Practice 3.rd Edition Springer Verlag, NY; Janson and Ryden (1998) Protein Purification: Principles, High Resolution Methods and Applications, Second Edition Wiley-VCH, NY; y Walker (1998) Protein Protocols on CD-ROM Humana Press, NJ; y las referencias citadas en los mismos. Se pueden encontrar detalles adicionales sobre los métodos de detección y purificación de proteínas en Satinder Ahuja ed., Handbook of Bioseparations, Academic Press (2000).

Secuencias y variantes de ácidos nucleicos y polipéptidos

Como se describe en el presente documento, la invención también presenta secuencias de polinucleótidos que codifican, por ejemplo, una polimerasa como se describe en el presente documento. Se proporcionan ejemplos de secuencias de polimerasa que incluyen características encontradas en el presente documento, por ejemplo, como se proporcionan en la Tabla 2. Sin embargo, un experto en la materia apreciará inmediatamente que la invención no se limita a las secuencias ilustradas específicamente. Por ejemplo, un experto apreciará que la invención también proporciona, por ejemplo, muchas secuencias relacionadas con las funciones descritas en el presente documento, por ejemplo, polinucleótidos y polipéptidos que codifican variantes conservadoras de una polimerasa de las Tablas 2 y 3 o cualquier otra polimerasa específicamente citada en el presente documento. Las combinaciones de cualquiera de las mutaciones citadas en el presente documento también son características de la invención.

En consecuencia, la invención proporciona una variedad de polipéptidos (polimerasas) y polinucleótidos (ácidos nucleicos que codifican polimerasas). Los ejemplos de polinucleótidos de la invención incluyen, por ejemplo, cualquier polinucleótido que codifique una polimerasa de la Tabla 2 o que se describa de otro modo en el presente documento. Debido a la degeneración del código genético, muchos polinucleótidos codifican de manera equivalente una secuencia de polimerasa dada. De manera similar, un ácido nucleico artificial o recombinante que se hibrida con un polinucleótido indicado anteriormente en condiciones muy estrictas en sustancialmente toda la longitud del ácido nucleico (y es diferente a un polinucleótido de origen natural) es un polinucleótido de la invención. En una realización, una composición incluye un polipéptido de la invención y un excipiente (por ejemplo, tampón, agua, excipiente farmacéuticamente aceptable, etc.). La invención también proporciona un anticuerpo o antisuero específicamente inmunorreactivo con un polipéptido de la invención (por ejemplo, que reconoce específicamente una característica de la polimerasa que confiere ramificación disminuida o estabilidad del complejo aumentada.

En determinadas realizaciones, un vector (por ejemplo, un plásmido, un cósmido, un fago, un virus, etc.) comprende un polinucleótido de la invención. En una realización, el vector es un vector de expresión. En otra realización, el vector de expresión incluye un promotor operativamente unido a uno o más de los polinucleótidos de la invención. En otra realización, una célula comprende un vector que incluye un polinucleótido de la invención.

Un experto también apreciará que en la invención se incluyen muchas variantes de las secuencias divulgadas. Por ejemplo, en la invención se incluyen variaciones conservadoras de las secuencias divulgadas que producen una secuencia funcionalmente similar. Las variantes de las secuencias de polinucleótidos de ácido nucleico, donde las variantes se hibridan con al menos una secuencia divulgada, se consideran incluidas en la invención. Las subsecuencias únicas de las secuencias divulgadas en el presente documento, como se determina, por ejemplo, mediante las técnicas de comparación de secuencias estándar, también se incluyen en la invención.

Variaciones conservadoras

Debido a la degeneración del código genético, las "sustituciones silenciosas" (es decir, sustituciones en una secuencia de ácido nucleico que no dan como resultado una alteración en un polipéptido codificado) son una característica implícita de cada secuencia de ácido nucleico que codifica una secuencia de aminoácidos. De manera similar, "sustituciones conservadoras de aminoácidos", donde uno o un número limitado de aminoácidos en una secuencia de aminoácidos están sustituidos con diferentes aminoácidos con propiedades muy similares, también se identifican fácilmente como muy similares a una construcción divulgada. Dichas variaciones conservadoras de cada secuencia divulgada son una característica de la presente invención.

"Variaciones conservadoras" de una secuencia de ácido nucleico particular se refiere a aquellos ácidos nucleicos que codifican secuencias de aminoácidos idénticas o esencialmente idénticas, o donde el ácido nucleico no codifica una secuencia de aminoácidos, de secuencias esencialmente idénticas. Un experto reconocerá que las sustituciones, deleciones o adiciones individuales que alteran, añaden o eliminan un único aminoácido o un pequeño porcentaje de aminoácidos (normalmente menos del 5%, más normalmente menos del 4%, 2% o 1%) en una secuencia codificada son "variaciones modificadas de forma conservadora" donde las alteraciones dan como resultado la deleción de un aminoácido, la adición de un aminoácido o la sustitución de un aminoácido por un aminoácido químicamente similar, a la vez que se conserva la característica mutacional relevante (por ejemplo, la sustitución conservadora puede ser de un resto distal a la región del sitio activo, o distal a una región de estabilidad entre dominios). Por tanto, las "variaciones conservadoras" de una secuencia polipeptídica citada de la presente invención incluyen sustituciones de un pequeño porcentaje, normalmente menos del 5 %, más normalmente menos del 2 % o 1 %, de los aminoácidos de la secuencia polipeptídica, con un amino ácido del mismo grupo de sustitución conservadora. Por último, la adición de secuencias que no alteran la actividad codificada de una molécula de ácido nucleico, tal como la adición de una secuencia no funcional o marcadora (intrones en el ácido nucleico, poli His o secuencias similares en el polipéptido codificado, etc.), es una variación conservadora del ácido nucleico o polipéptido básico.

Las tablas de sustituciones conservadoras que proporcionan aminoácidos funcionalmente similares son bien conocidas en la técnica, donde un resto de aminoácido se sustituye por otro resto de aminoácido que tiene propiedades químicas similares (por ejemplo, cadenas laterales aromáticas o cadenas laterales cargadas positivamente) y, por lo tanto, no cambia sustancialmente las propiedades funcionales de la molécula polipeptídica. A continuación se exponen ejemplos de grupos que contienen aminoácidos naturales de propiedades químicas similares, donde las sustituciones dentro de un grupo son una "sustitución conservadora".

T l 1

Hibridación de ácidos nucleicos

La hibridación comparativa se puede utilizar para identificar los ácidos nucleicos de la invención, incluidas las variaciones conservadoras de los ácidos nucleicos de la invención. Además, los ácidos nucleicos diana que se hibridan con un ácido nucleico de la invención en condiciones de rigurosidad alta, ultra-alta y ultra-ultra-alta, donde los ácidos nucleicos codifican mutantes correspondientes a los indicados en las Tablas 2 y 3 u otras polimerasas enumeradas, son una característica de la invención. Los ejemplos de tales ácidos nucleicos incluyen aquellos con una o unas pocas sustituciones de ácido nucleico silenciosas o conservadoras en comparación con una secuencia de ácido nucleico dada que codifica una polimerasa de la Tabla 2 (u otra polimerasa ilustrada), donde cualquier sustitución conservadora es para restos distintos a los indicados en la Tabla 2 o en otra parte relevante de una característica de interés (incorporaciones mejoradas de análogos de nucleótidos, etc.).

Se dice que un ácido nucleico de prueba se hibrida específicamente con un ácido nucleico sonda cuando hibrida al menos un 50 % igual de bien con la sonda como con la diana complementaria perfectamente emparejada, es decir, con una relación señal/ruido de al menos la mitad de la hibridación de la sonda con la diana en condiciones en las que la sonda perfectamente emparejada se une a la diana complementaria perfectamente emparejada con una relación señal/ruido que es al menos aproximadamente 5x-10x tan alta como la observada para la hibridación con cualquiera de los ácidos nucleicos diana no emparejados.

Los ácidos nucleicos "hibridan" cuando se asocian, normalmente en solución. Los ácidos nucleicos se hibridan debido a una variedad de fuerzas físico-químicas bien caracterizadas, tales como enlaces de hidrógeno, exclusión de disolventes, apilamiento de bases y similares. Una guía extensa para la hibridación de ácidos nucleicos se encuentra en Tijssen (1993) Laboratory Techniques in Biochemistry and Molecular Biology--Hybridization with Nucleic Acid Probes part I chapter 2, "Overview of principles of hybridization and the strategy of nucleic acid probe assays", (Elsevier, N.Y.), así como en Current Protocols in Molecular Biology, Ausubel et al., eds., Current Protocols, una empresa conjunta entre Greene Publishing Associates, Inc. y John Wiley & Sons, Inc., (complementado hasta 2011); Hames and Higgins (1995) Gene Probes 1 IRL Press at Oxford University Press, Oxford, Inglaterra, (Hames and Higgins 1) y Hames and Higgins (1995) Gene Probes 2 IRL Press at Oxford University Press, Oxford, Inglaterra (Hames and Higgins 2) proporciona detalles sobre la síntesis, marcaje, detección y cuantificación de ADN y ARN, incluyendo oligonucleótidos.

Un ejemplo de condiciones de hibridación rigurosas para la hibridación de ácidos nucleicos complementarios que tienen más de 100 restos complementarios en un filtro en una transferencia Southern o Northern es formalina al 50 % con 1 mg de heparina a 42 °C realizándose la hibridación durante la noche. Un ejemplo de condiciones de lavado rigurosas es un lavado 0,2x un lavado con SSC a 65 °C durante 15 minutos (véase, Sambrook, más arriba para una descripción del tampón SSC). A menudo, el lavado de alta rigurosidad está precedido por un lavado de baja rigurosidad para eliminar la señal de la sonda de fondo. Un ejemplo de condiciones de lavado rigurosas es 2x un lavado con SSC a 40 °C durante 15 minutos. En general, una relación señal/ruido de 5x (o superior) que la observada para una sonda no relacionada en el ensayo de hibridación particular indica la detección de una hibridación específica.

Las "condiciones de lavado e hibridación rigurosas" en el contexto de experimentos de hibridación de ácidos nucleicos tales como las hibridaciones Southern y Northern dependen de la secuencia y son diferentes bajo diferentes parámetros ambientales. Una guía extensa para la hibridación de ácidos nucleicos se encuentra en Tijssen (1993), más arriba, y en Hames and Higgins, 1 y 2. Las condiciones de lavado e hibridación rigurosas pueden determinarse fácilmente empíricamente para cualquier ácido nucleico de prueba. Por ejemplo, al determinar las condiciones de hibridación y lavado rigurosas, las condiciones de hibridación y lavado se aumentan gradualmente (por ejemplo, aumentando la temperatura, disminuyendo la concentración de sal, aumentando la concentración de detergente y/o aumentando la concentración de disolventes orgánicos tales como formalina en la hibridación o lavado), hasta que se cumpla un conjunto seleccionado de criterios. Por ejemplo, en condiciones muy rigurosas de hibridación y lavado, las condiciones de hibridación y lavado aumentan gradualmente hasta que una sonda se une a una diana complementaria perfectamente emparejada con una relación señal/ruido que es al menos 5x veces mayor que la observada para la hibridación de la sonda con una diana no emparejada.

Las "condiciones muy rigurosas" se seleccionan para que sean iguales al punto de fusión térmica (Tm) para una sonda particular. El Tm es la temperatura (a una fuerza iónica y un pH definidos) a la que el 50 % de la secuencia de prueba hibrida con una sonda perfectamente emparejada. Para los fines de la presente invención, generalmente, las condiciones de hibridación y de lavado "muy rigurosas" se seleccionan para que sean aproximadamente 5 °C más bajas que el Tm para la secuencia específica a una fuerza iónica y pH definidos.

Las condiciones de hibridación y lavado de "ultra alta rigurosidad" son aquellas en las que la rigurosidad de las condiciones de hibridación y lavado aumentan hasta que la relación señal/ruido para la unión de la sonda al ácido nucleico diana complementario perfectamente emparejado es al menos 10x tan alta como la observada para la hibridación con cualquiera de los ácidos nucleicos diana no emparejados. Se dice que un ácido nucleico diana que se hibrida con una sonda en tales condiciones, con una relación señal/ruido de al menos 1/2 de la del ácido nucleico diana complementario perfectamente emparejado, se une a la sonda en condiciones de rigurosidad ultra-alta.

De manera similar, se pueden determinar niveles incluso más altos de rigurosidad aumentando gradualmente las condiciones de hibridación y/o lavado del ensayo de hibridación relevante. Por ejemplo, aquellas en las que la rigurosidad de las condiciones de hibridación y lavado aumentan hasta que la relación señal/ruido para la unión de la sonda al ácido nucleico diana complementario perfectamente emparejado es al menos 10x, 20x, 50x, 100x o 500x o más tan alta como la observada para la hibridación con cualquiera de los ácidos nucleicos diana no emparejados. Se dice que un ácido nucleico diana que se hibrida con una sonda en tales condiciones, con una relación señal/ruido de al menos 1/2 de la del ácido nucleico diana complementario perfectamente emparejado se une a la sonda en condiciones de rigurosidad ultra-ultra-alta.

Los ácidos nucleicos que no se hibridan entre sí en condiciones rigurosas siguen siendo sustancialmente idénticos si los polipéptidos que codifican son sustancialmente idénticos. Esto ocurre, por ejemplo, cuando se crea una copia de un ácido nucleico usando la máxima degeneración de codones permitida por el código genético.

Comparación, identidad y homología de secuencias

Los términos "idéntico" o "porcentaje de identidad", en el contexto de dos o más ácidos nucleicos o secuencias polipeptídicas, se refieren a dos o más secuencias o subsecuencias que son iguales o tienen un porcentaje especificado de restos de aminoácidos o nucleótidos que son iguales, cuando se compara y se alinea para una correspondencia máxima, tal como se mide utilizando uno de los algoritmos de comparación de secuencias que se describen a continuación (u otros algoritmos disponibles para personas expertas) o mediante inspección visual. La frase "esencialmente idéntico/a", en el contexto de dos ácidos nucleicos o polipéptidos (por ejemplo, los ADN que codifican una polimerasa, o la secuencia de aminoácidos de una polimerasa) se refiere a dos o más secuencias o subsecuencias que tienen al menos aproximadamente un 60 %, aproximadamente un 80 %, aproximadamente un 90-95 %, aproximadamente un 98 %, aproximadamente un 99 % o más de identidad de restos de aminoácidos, cuando se compara y se alinea para una correspondencia máxima, según se mide usando un algoritmo de comparación de secuencias o mediante inspección visual. Estas secuencias "sustancialmente idénticas" se consideran normalmente "homólogas", sin referencia a la ascendencia real. Preferentemente, la "identidad sustancial" existe en una región de las secuencias que tiene al menos aproximadamente 50 restos de longitud, más preferentemente en una región de al menos aproximadamente 100 restos, y lo más preferentemente, las secuencias son sustancialmente idénticas en al menos aproximadamente 150 restos, o en toda la longitud de las dos secuencias a comparar.

Las proteínas y/o secuencias de proteínas son "homólogas" cuando se derivan, natural o artificialmente, de una proteína o secuencia de proteínas ancestral común. De manera similar, los ácidos nucleicos y/o secuencias de ácidos nucleicos son homólogos cuando se derivan, natural o artificialmente, de un ácido nucleico o secuencia de ácido nucleico común ancestral. La homología se infiere generalmente a partir de la similitud de secuencia entre dos o más ácidos nucleicos o proteínas (o secuencias de los mismos). El porcentaje preciso de similitud entre secuencias que es útil para establecer la homología varía con el ácido nucleico y la proteína en cuestión, pero rutinariamente se usa tan solo un 25 % de similitud de secuencia sobre 50, 100, 150 o más restos para establecer la homología. También se pueden usar niveles más altos de similitud de secuencia, por ejemplo, 30 %, 40 %, 50 %, 60 %, 70 %, 80 %, 90 %, 95 %, o 99 % o más de identidad, para establecer la homología. Los métodos para determinar los porcentajes de similitud de secuencia (por ejemplo, BLASTP y BLASTN usando parámetros predeterminados) se describen en el presente documento y están generalmente disponibles.

Para la comparación de secuencias y la determinación de homología, normalmente una secuencia actúa como una secuencia de referencia con la cual se comparan las secuencias de prueba. Cuando se usa un algoritmo de comparación de secuencias, las secuencias de prueba y de referencia se introducen en un ordenador, se designan las coordenadas de subsecuencia, en caso necesario, y se designan los parámetros del programa del algoritmo de secuencias. A continuación, el algoritmo de comparación de secuencias calcula el porcentaje de identidad de secuencia para la(s) secuencia(s) de prueba con respecto a la secuencia de referencia, basándose en los parámetros designados del programa.

Se puede realizar una alineación óptima de secuencias para la comparación, por ejemplo, mediante el algoritmo de homología local de Smith y Waterman, Adv. Appl. Math. 2:482 (1981), mediante el algoritmo de alineación de homología de Needleman y Wunsch, J. Mol. Biol. 48:443 (1970), mediante el método de búsqueda de similitud de Pearson y Lipman, Proc. Nat'l. Acad. Sci. EE.UU. 85:2444 (1988), mediante implementaciones computarizadas de estos algoritmos (GAP, BESTFIT, FASTA y TFASTA en el paquete informático de Wisconsin Genetics, Genetics Computer Group, 575 Science Dr., Madison, Wis.), o mediante inspección visual (véase en general Current Protocols in Molecular Biology, Ausubel et al., eds., Current Protocols, una empresa conjunta entre Greene Publishing Associates, Inc. y John Wiley & Sons, Inc., (complementado hasta 2011).

Un ejemplo de un algoritmo que es adecuado para determinar el porcentaje de identidad de secuencia y la similitud de secuencia es el algoritmo BLAST, que se describe en Altschul et al., J. Mol. Biol. 215:403-410 (1990). El programa informático para realizar el análisis BLAST está disponible públicamente a través del Centro Nacional de Información Biotecnológica. Este algoritmo implica en primer lugar identificar pares de secuencia con alta puntuación (HSP) identificando palabras cortas de longitud W en la secuencia de consulta, que o bien cumplen o satisfacen alguna puntuación umbral T valorada positivamente cuando se alinea con una palabra de la misma longitud en una base de datos de secuencias. Se denomina T al umbral de puntuación de palabra vecina (Altschul et al., anteriormente citado). Estos aciertos de palabras vecinas iniciales actúan como semilla para iniciar búsquedas a fin de hallar HSP de mayor longitud que las contengan. Después, se extienden los aciertos de palabra en ambas direcciones a lo largo de cada secuencia en la medida en la que pueda aumentarse la puntuación de alineamiento acumulativa. Las puntuaciones acumulativas se calculan usando, para secuencias de nucleótidos, los parámetros M (puntuación de recompensa para un par de restos coincidentes; siempre > 0) y N (puntuación de penalización para restos con emparejamiento erróneo; siempre <0). Para secuencias de aminoácidos, se usa una matriz de puntuación para calcular la puntuación acumulativa. La extensión de los aciertos de palabra en cada dirección se detiene cuando: la puntuación de alineamiento acumulativa se reduce en la cantidad X respecto de su valor máximo logrado; la puntuación acumulativa cae hasta cero o menos, debido a la acumulación de uno o más alineamientos de restos con puntuación negativa; o se alcanza el final de cualquiera de las secuencias. Los parámetros del algoritmo BLAST W, T y X determinan la sensibilidad y la velocidad del alineamiento. El programa BLASTN (para secuencias de nucleótidos) usa como valores por defecto una longitud de palabra (W) de 11, una expectativa (E) de 10, un valor de corte de 100, M=5, N=-4 y una comparación de ambas hebras. Para secuencias de aminoácidos, el programa BLASTP usa como valores por defecto una longitud de palabra (W) de 3, una expectativa (E) de 10 y la matriz de puntuación BLOSUM62 (véase Henikoff y Henikoff (1989) Proc. Natl. Acad. Sci. USA 89:10915).

Además de calcular el porcentaje de identidad de secuencia, el algoritmo BLAST también lleva a cabo un análisis estadístico de la similitud entre dos secuencias (véase, por ejemplo, Karlin & Altschul (1993) Proc. Nat'l. Acad. Sci. USA 90:5873-5787). Una medida de similitud proporcionada por el algoritmo BLAST es la probabilidad de suma más pequeña (P(N)), que proporciona una indicación acerca de la probabilidad de que se produzca al azar una coincidencia entre dos secuencias de nucleótidos o aminoácidos. Por ejemplo, un ácido nucleico se considera similar a una secuencia de referencia si la probabilidad de suma más pequeña en una comparación del ácido nucleico de prueba con el ácido nucleico de referencia es menos de aproximadamente 0,1, más preferentemente menos de aproximadamente 0,01 y lo más preferentemente menos de aproximadamente 0,001.

Como referencia, la secuencia de aminoácidos de una polimerasa DPO4 de tipo silvestre se presenta en la Tabla 2. Ejemplos de combinaciones de mutaciones

En las Tablas 2 y 3 se proporciona una lista de ejemplos de combinaciones de mutaciones de polimerasa y las secuencias de aminoácidos de polimerasas DPO4 recombinantes que albergan las combinaciones de mutaciones de ejemplo. Las posiciones de las sustituciones de aminoácidos se identifican en relación con una ADN polimerasa DPO4 de tipo silvestre (SEQ ID NO: 1). Las polimerasas de la invención (incluidas las proporcionadas en las Tablas 2 y 3) pueden incluir cualquier característica exógena o heteróloga (o combinación de tales características) en la región N- y/o C- terminal. Por ejemplo, se entenderá que los mutantes de polimerasa en las Tablas 2 y 3 que no incluyen, por ejemplo, una etiqueta de polihistidina en la región C-terminal pueden modificarse para incluir una etiqueta de polihistidina en la región C-terminal, sola o en combinación con cualquiera de las características exógenas o heterólogas descritas en el presente documento. Cualquiera de las variantes expuestas en el presente documento también puede incluir una deleción de los últimos 12 aminoácidos de la proteína (es decir, los aminoácidos 341-352) para, por ejemplo, aumentar la solubilidad de la proteína en sistemas de expresión bacterianos.

Tabla 2

Variantes de DPO4 identificadas mediante mutagénesis aleatoria

Tabla 3

Variantes de DPO4 identificadas mediante diseño semi-racional

Los ejemplos y variantes de polimerasa proporcionados a continuación ilustran y ejemplifican adicionalmente las composiciones de la presente invención y los métodos para preparar y usar tales composiciones.

Ejemplos

Ejemplo 1

IDENTIFICACIÓN DE DPO4 COMO UNA ADN POLIMERASA DE TRANSLESIÓN CANDIDATA PARA LA INCORPORACIÓN DE ANÁLOGOS DE NUCLEÓTIDOS VOLUMINOSOS DURANTE LA SÍNTESIS DE ADN MEDIADA POR MOLDE

Para identificar una ADN polimerasa con la capacidad de sintetizar hebras hijas usando sustratos "voluminosos" (es decir, capaces de unirse e incorporar análogos de nucleótidos fuertemente sustituidos en una hebra de ácido nucleico en crecimiento), se realizó un cribado de varias polimerasas disponibles en el mercado. Se evaluó la capacidad de las polimerasas candidatas para extender un cebador unido a oligonucleótidos usando un grupo de análogos de dNTP sustituidos con enlazadores alquinos tanto en el esqueleto a-fosfato como en los restos de nucleobase (sustratos voluminosos modelo, denominados en el presente documento como "dNTP-2c"). Las polimerasas cribadas en cuanto a la actividad incluyeron las siguientes: VentR (Exo-), Deep VentR® (Exo-), Therminator, Therminator II, Therminator III, Therminator Y, 9°Nm, PWO, PWO SuperYield, PyroPhage 3173 (Exo-), Bst, Fragmento grande, Exo- Pfu, Platinum Genotype TSP, Hemo Klen Taq, Taq, MasterAMP Taq, Phi29, Bsu, Fragmento grande, Exo-Minus Klenow (D355A, E357A), Sequenase Versión 2.0, Transcriptor, Maxima, Thermoscript, M-MuLV (RNase H-), AMV, M-MuLV, Monsterscript, y DPO4. De las polimerasas analizadas, DPO4 (expresada de forma natural por las arqueas, Sulfolobus solfataricus) fue la que presentaba mayor capacidad para extender eficazmente un cebador unido al molde con análogos de nucleótidos dNTP-2c. Sin desear quedar ligado a teoría alguna, se especuló que DPO4, y posiblemente otros miembros de la familia de la ADN polimerasa de translesión (es decir, las ^aDⁿpolimerasas de clase Y), podrían utilizar eficazmente análogos de nucleótidos voluminosos debido a sus sitios de unión de sustrato relativamente grandes, que han evolucionado para adaptarse a lesiones de ADN voluminosas naturales.

Ejemplo 2

IDENTIFICACIÓN DE "PUNTOS CRÍTICOS" PARA MUTAGÉNESIS DIRIGIDA EN LA PROTEÍNA DPO4 Y CRIBADO DE BIBLIOTECAS MUTANTES DE DPO4 PARA IDENTIFICAR MOTIVOS DE SECUENCIA OPTIMIZADOS

Como primer paso en la generación de variantes de DPO4 con actividad de polimerasa mejorada con la dificultad de los sustratos voluminosos, se utilizó la herramienta web "HotSpot Wizard" para identificar aminoácidos en la proteína DPO4 para dirigir la mutagénesis. Esta herramienta implementa un protocolo de ingeniería de proteínas que se dirige a posiciones de aminoácidos evolutivamente variables ubicadas en, por ejemplo, el sitio activo de la enzima. Los "puntos críticos" (“hot spots") para la mutación se seleccionan mediante la integración de información estructural, funcional y evolutiva (véase, por ejemplo, Pavelka et al., "HotSpot Wizard: a Web Server for Identification of Hot Spots in Protein Engineering" (2009) Nuc Acids Res 37 doi:10.1093/nar/gkp410). Al aplicar esta herramienta a la proteína DPO4, se observó que los restos de puntos críticos identificados tendían a agruparse en ciertas zonas, o regiones, diseminadas por toda la secuencia de aminoácidos. Se establecieron límites arbitrarios para distinguir 13 de dichas regiones, designadas "Mutl" - "Mutl3", en las que se concentran los puntos críticos de mutagénesis. Estas 13 regiones "Mut" se ilustran en la FIG. 1 con restos de puntos críticos identificados mediante subrayado.

Para detectar variantes de DPO4 con actividad de polimerasa mejorada basada en la cartografía de puntos críticos, se creó una biblioteca de mutagénesis de saturación para cada una de las 13 regiones Mut, en la cual se cambiaron los aminoácidos del punto caliente, mientras que los aminoácidos conservados se dejaron inalterados. El cribado se llevó a cabo utilizando una plataforma de placa de 96 pocillos y la actividad de la polimerasa se evaluó con un ensayo de extensión de cebador utilizando análogos de nucleótidos "dNTP-OAc" como sustratos. Estos sustratos voluminosos modelo se sustituyen con restos de acetato de triazol conjugados con sustituyentes alquino en los restos a-fosfato y la nucleobase. Los resultados del cribado identificaron dos regiones Mut en particular que producían sistemáticamente mutantes DPO4 con actividad mejorada. Estas regiones, "Mut_4" y "Mut_11", corresponden a los aminoácidos 76-86 y aminoácidos 289-304, respectivamente, de la proteína DPO4. Un análisis más detallado de las variantes Mut_4 y Mut_11 de alto rendimiento conduce a la identificación de una secuencia de motivo variante optimizada para cada región. El motivo Mut_4 optimizado identificado en el presente documento es el siguiente: M76W, K78N, E79L, Q82W, Q83G y S86E, mientras que para la región Mut_11 es el siguiente: V289W, T290K, E291S, D292Y y L293W.

Ejemplo 3

CRIBADO DE LA BIBLIOTECA MUT_4 E IDENTIFICACIÓN DE 45 VARIANTES DE DPO4 CON CAPACIDADES MEJORADAS PARA INCORPORAR ANÁLOGOS DE NUCLEÓTIDOS VOLUMINOSOS EN UNA HEBRA HIJA EN CRECIMIENTO

Se realizó un cribado adicional de la biblioteca MUT_4 donde se detectaron 3.000 variantes únicas (lo que representa el 0,005% de la biblioteca), como se ha descrito anteriormente. Este cribado identificó 45 variantes únicas como polimerasas candidatas con capacidades mejoradas para utilizar análogos de nucleótidos voluminosos como sustratos. Estas variantes se exponen en la Tabla 2 y se identifican con el prefijo "SGM". La actividad de las variantes se evaluó adicionalmente en función de sus capacidades para incorporar los sustratos, "2c-OAc" (como se ha descrito anteriormente), "1 espermina" (un análogo de dNTP en el cual un enlazador de alquilo conjugado con la nucleobase se conjuga adicionalmente con un polímero de espermina largo) o "2 espermina" (donde un polímero de espermina largo se conjuga adicionalmente con un enlazador de alquilo conjugado con el alfa fosfato del análogo "1 espermina") en un ensayo de extensión de cebador. Los análogos de "espermina" son modelos para sustratos de polimerasa muy voluminosos y, por tanto, se incorporan de forma menos eficaz en los ensayos de extensión de cebador en comparación con el análogo 2c-Oac menos voluminoso. Las extensiones del cebador, 5'-WGAACCACTATACTCCTCGATG-3' (SEQ ID NO: 116) (donde "W" representa un fluoróforo, por ejemplo, Sima Hex), hibridado con el molde de homopolímero de 10 unidades, 5'XGGGGGGGGGGCATCGAGGAGTATACTGGTTCp- 3'(SEQ ID NO: 117), se realizaron en el tampón de extensión "tampón A" (Tris-OAc 10 mM, pH 8,3, NH4OAc 100 mM, pH 8,5, y MnCh) 2 mM para el sustrato 2c-OAc (dCTP-OAc 2,50 pM), o "tampón B" (Tris-OAc 20 mM, pH 8,3, NH4OAc 200 mM, pH 8,8, DMSO 20%, SSB 0,06 pg/pl, cadena de polifosfato 3 mM, PEG8000 25 %, BSA 10 pM y MnCh 4 mM) para los sustratos de "espermina" (dCTP-espermina 2,50 pM). Las reacciones se llevaron a cabo durante tres horas a 55 °C y los productos se analizaron mediante electroforesis en gel y detección fluorescente para determinar el número de acontecimientos de extensión satisfactorios del cebador unido al molde. Las actividades de las variantes Mut_4 SGM en estos ensayos se exponen en la Tabla 4 a continuación, donde la actividad de DPO4 de tipo silvestre se muestra en la última fila. Como se puede observar, todas las variantes muestran una actividad de extensión con sustratos voluminosos, mostrando la variante "Mothra", en particular, una notable actividad de extensión con los sustratos de espermina muy voluminosos.

Tabla 4

Actividades de extensión de cebador de las variantes de la polimerasa DPO4 utilizando sustratos voluminosos

continuación

Ejemplo 3

CRIBADO DE MUTAGÉNESIS ALEATORIA PARA VARIANTES DE DPO4 MEJORADAS USANDO EL ESQUELETO VARIANTE MUT_4

En un enfoque paralelo para generar variantes de DPO4 con actividad de polimerasa mejorada con la dificultad de los sustratos voluminosos, se seleccionó la variante de DPO4 de alto rendimiento, "MOTHRA", como diana para la mutagénesis aleatoria. El esqueleto MOTHRA es una variante Mut_4 con el siguiente motivo de secuencia: M76W_K78N_E79L_Q82W_Q83S_S86D. Se utilizó la mutagénesis por saturación para crear una biblioteca donde la mutación iba dirigida a los aminoácidos individuales que abarcan toda la cadena principal de MOTHRA. El cribado de variantes se realizó en el formato de placa de 96 pocillos usando un ensayo de extensión del cebador con sustratos dNTP-OAc, como se ha descrito anteriormente. Las variantes que mostraban la mayor actividad en este ensayo se purificaron para su posterior análisis. La actividad polimerasa de cada una de las 63 variantes purificadas se evaluó en un ensayo de extensión de cebador utilizando análogos de nucleótidos más voluminosos, denominados "RT", que tienen conjugados de hidrocarburos más largos que dNTP-OAcs, como sustratos. Los resultados del ensayo se exponen en la Tabla 5; donde cada variante se clasificó como con actividad mejorada (+), similar (-) o reducida (x) en comparación con la variante parental Mut_4, MOTHRA.

Tabla 5

Actividades de extensión de las variantes MOTHRA

Ejemplo 4

ENFOQUE SEMI-ROTACIONAL PARA EL DISEÑO DE VARIANTES DE DPO4 CON ACTIVIDAD DE POLIMERIZACIÓN AUMENTADA

Para seguir desarrollando variantes de DPO4 con utilización de sustratos voluminosos mejorada, se llevó a cabo un diseño "semi-rotacional" después de varias estrategias diferentes. En una estrategia, uno o más de los aciertos identificados en el cribado de mutagénesis aleatoria de la variante del esqueleto MOTHRA se combinaron con los motivos de secuencia optimizados Mut_4 o Mut_4 y Mut11 descritos anteriormente. En otra estrategia, los cambios en otras regiones Mut (por ejemplo, Mut_6 y/o Mut_7) se introdujeron en un esqueleto Mut_4 o Mut_4 y Mut_11. Los ejemplos de variantes diseñadas siguiendo estas estrategias se exponen en la Tabla 3, con cada variante asignada a un identificador único, de "PDC47" a "PDC107". La actividad de cada una de las variantes PDC se evaluó usando un ensayo de extensión de cebador con análogos de nucleótidos sustituidos, como se ha descrito anteriormente. De las 29 variantes PDC generadas y analizadas, una en particular demostró sistemáticamente una actividad de extensión de cebador mejorada en comparación con las variantes parentales. Esta variante, PDC79 (SEQ ID NO:78), se basa en el motivo constituyente Mut_4 y Mut_11 con la adición de las mutaciones A42V, K152G, D156W, P184L, e I189W.

Ejemplo 5

DELECIÓN DEL DOMINIO CAJA PIP C-TERMINAL DE LA POLIMERASA DPO4

Para optimizar aún más las propiedades de las variantes de DPO4 de alto rendimiento, se seleccionó para la deleción el dominio "caja PIP" C-terminal. La caja PIP, correspondiente a los aminoácidos 341-352 de la proteína de tipo silvestre, normalmente funciona, por ejemplo, mediante interacción con PCNA. Cuando no se une a una proteína que interactúa, sin embargo, la caja PIP carece de forma estructurada (véase, por ejemplo, Xing G. et al., (2009) "Structural Insight into Recruitment of Translesion DNA Polymerase Dpo4 to Sliding Clamp PCNA" Mol. Microbiol.

71(3). 678-691). Se especuló que la eliminación de esta región no estructurada podría mejorar ciertas propiedades estructurales y/o funcionales de las variantes de DPO4 y posiblemente otras ADN polimerasas y variantes. Se usó mutagénesis estándar usando el kit de mutagénesis de polimerasa Q5 (disponible en el mercado de NEB®) para eliminar la secuencia de ADN que codifica la caja PIP del ADNc que codifica la variante de DPO4, PDC79. El plásmido que codifica PDC79A34l-352 (también denominado PDC108, SEQ ID NO: 106), fusionado con su etiqueta His C-terminal, se transformó en células T7 Express lys (NEB®) y se indujo la expresión de proteína recombinante con IPTG durante 4 horas a 37 °C Las células se recogieron y lisaron y la proteína recombinante se purificó con perlas recubiertas con Ni++ usando técnicas estándar. La proteína eluida se desaló, se resuspendió en tampón de almacenamiento y se cuantificó mediante densitometría en gel. De manera sorprendente y ventajosa, se observó que la deleción de la caja PIP aumentaba el rendimiento de la proteína PDC79 en aproximadamente 3 veces, probablemente mejorando la solubilidad de la proteína durante la expresión bacteriana. A continuación, el dominio caja PIP se eliminó de varias otras variantes de DPO4 candidatas. Una en particular, CO345 (PDC93A341-352, SEQ ID NO: 109), mostró una mejora considerable en el rendimiento y se convirtió en una candidata superior para análisis y modificaciones adicionales. De particular interés fue la variante, CO416 (SEQ ID NO: 110), donde se introdujeron las mutaciones A115M e I248T en CO345.

Ejemplo 6

OPTIMIZACIÓN ADICIONAL DE MUTANTES DE DELECIÓIN DE LA CAJA PIP

Durante el transcurso del cribado de varias bibliotecas de DPO4, una que se observó que sistemáticamente

Claims

REIVINDICACIONES

1. Una ADN polimerasa recombinante aislada, ADN polimerasa recombinante que comprende una secuencia de aminoácidos que es al menos un 90% idéntica a la SEQ ID NO: 1, ADN polimerasa recombinante que comprende al menos una mutación en una posición seleccionada del grupo que consiste en los aminoácidos 76, 78, 79, 82, 83, y 86, donde la identificación de las posiciones es relativa a la polimerasa DPO4 de tipo silvestre (SEQ ID NO: 1), y la ADN polimerasa recombinante presenta actividad polimerasa, donde

(a) la mutación en la posición 76 se selecciona del grupo que consiste en M76H, M76W, M76V, M76S, M76L, M76T, M76C, M76F y M76Q;

(b) la mutación en la posición 78 se selecciona del grupo que consiste en K78P, K78N, K78Q, K78T, K78L, K78V, K78S, K78F, K78E, K78M, K78A, K78I, K78H, K78Y y K78G;

(c) la mutación en la posición 79 se selecciona del grupo que consiste en E79L, E79M, E79W, E79V, E79N, E79Y, E79G, E79S, E79H, E79A, E79R, E79T y E79F;

(d) la mutación en la posición 82 se selecciona del grupo que consiste en Q82Y, Q82W, Q82N, Q82S, Q82H, Q82D, Q82G, Q82M, Q82R, y Q82V;

(e) la mutación en la posición 83 se selecciona del grupo que consiste en Q83G, Q83R, Q83S, Q83T, Q83I, Q83M, Q83D, Q83K y Q83H; y/o

(f) la mutación en la posición 86 se selecciona del grupo que consiste en S86E, S86L, S86W, S86K, S86Q, S86V, S86M, S86T, S86R y S86A.

2. La ADN polimerasa recombinante de la reivindicación 1, que comprende la secuencia de aminoácidos como la establecida en una cualquiera de las SEQ ID NO: 2-46.

3. Una composición que comprende una ADN polimerasa recombinante como la establecida en una cualquiera de las reivindicaciones 1 o 2.

4. La composición de la reivindicación 3, donde la composición está presente en un sistema de secuenciación de ADN que comprende al menos un sustrato análogo de nucleótido no natural.

5. Un ácido nucleico que codifica una ADN polimerasa de tipo DPO4 modificada como se establece en una cualquiera de las reivindicaciones 1 o 2.

6. Una ADN polimerasa recombinante aislada, donde la ADN polimerasa recombinante comprende una secuencia de aminoácidos que es al menos un 90% idéntica a la SEQ ID NO: 1, donde la ADN polimerasa recombinante comprende mutaciones en las posiciones 76, 78, 79, 82, 83, y 86 y al menos una mutación en una posición seleccionada del grupo que consiste en 5, 42, 56, 57, 62, 66, 141, 150, 152, 153, 155, 156, 184, 187, 188, 189, 190, 212, 214, 215, 217, 221, 226, 240, 241, 248, 289, 290, 291, 292, 293, 295, 297, 299, 300, 301, y 326, donde la identificación de las posiciones es relativa a la polimerasa DPO4 de tipo silvestre (SEQ ID NO: 1), y donde la ADN polimerasa recombinante presenta actividad polimerasa.

7. La ADN polimerasa recombinante de la reivindicación 6, donde

(a) las mutaciones en las posiciones 76, 78, 79, 82, 83, y 86 son M76W, K78N, E79L, Q82W, Q83G y S86E; (b) la mutación en la posición 5 es F5Y;

(c) la mutación en la posición 42 es A42V;

(d) la mutación en la posición 56 es K56Y;

(e) la mutación en la posición 57 es A57P;

(f) la mutación en la posición 62 es V62R;

(g) la mutación en la posición 66 es K66R;

(h) la mutación en la posición 141 es T141S;

(i) la mutación en la posición 150 es F150L;

(j) la mutación en la posición 152 es K152A, K152G, K152M, o K152P;

(k) la mutación en la posición 153 es I153F, I153Q o I153W;

(l) la mutación en la posición 155 es A155L, A155M, A155N, A155V, o A155G;

(m) la mutación en la posición 156 es D156Y o D156W;

(n) la mutación en la posición 184 es P184L;

(o) la mutación en la posición 187 es G187W, G187D, G187P, o G187E;

(p) la mutación en la posición 188 es N188Y;

(q) la mutación en la posición 189 es I189W;

(r) la mutación en la posición 190 es T190Y, T190D, o T190E;

(s) la mutación en la posición 212 es K212V, K212L, o K212A;

(t) la mutación en la posición 214 es K214S;

(u) la mutación en la posición G215F;

(v) la mutación en la posición 217 es I217V;

(w) la mutación en la posición 221 es K221D, K221E, o K221Q;

(x) la mutación en la posición 226 es I226F;

(y) la mutación en la posición 240 es R240S o R240T;

(z) la mutación en la posición 241 es V241N o V241R;

(aa) la mutación en la posición 248 es I248A o I248T;

(bb) la mutación en la posición 289 es V289W;

(cc) la mutación en la posición 290 es T290K o T290R;

(dd) la mutación en la posición 291 es E291S;

(ee) la mutación en la posición 292 es D292Y;

(ff) la mutación en la posición 293 es L293F o L293W;

(gg) la mutación en la posición 295 es I295Y;

(hh) la mutación en la posición 297 es S297H;

(ii) la mutación en la posición 299 es G299L;

(jj) la mutación en la posición 300 es R300E o R300V;

(kk) la mutación en la posición 301 es T301R; y/o

(ll) la mutación en la posición 326 es D326E.

8. La ADN polimerasa recombinante de la reivindicación 6, que comprende la secuencia de aminoácidos como la establecida en una cualquiera de las SEQ ID NO: 47-115.

9. Una composición que comprende una ADN polimerasa recombinante como la establecida en una cualquiera de las reivindicaciones 6-8.

10. La composición de la reivindicación 9, donde la composición está presente en un sistema de secuenciación de ADN que comprende al menos un sustrato análogo de nucleótido no natural.

11. Un ácido nucleico que codifica una ADN polimerasa de tipo DPO4 modificada como la establecida en una cualquiera de las reivindicaciones 6-8.

12. Un método para sintetizar hebras de ácido nucleico hijas usando una ADN polimerasa recombinante aislada, donde la hebra de ácido nucleico hija comprende un análogo de nucleótido que tiene la siguiente estructura:

donde T representa un anclaje; N representa un resto de nucleobase; V representa un sitio de escisión interno del resto de nucleobase; y R1 y R2 representan los mismos o diferentes grupos terminales para la síntesis dirigida por molde de la hebra hija, y donde la ADN polimerasa recombinante es una ADN polimerasa recombinante de acuerdo con una cualquiera de las reivindicaciones 1, 2, 6 o 7.

13. El método de la reivindicación 12, donde la ADN polimerasa recombinante aislada comprende una deleción para eliminar la región de la caja PIP de la proteína, preferentemente la deleción comprende los 12 aminoácidos C terminales de la proteína.

14. El método de la reivindicación 12 o 13, donde la ADN polimerasa recombinante aislada está presente en un sistema de secuenciación de ADN que comprende al menos un sustrato análogo de nucleótido no natural.