ES3030433T3

ES3030433T3 - Cas 9 retroviral integrase systems for targeted incorporation of a dna sequence into a genome of a cell

Info

Publication number: ES3030433T3
Application number: ES16715977T
Authority: ES
Inventors: Ferrukh Sheikh; Tetsuya Kawamura; Gloria Mo
Original assignee: Sohm Inc
Current assignee: Sohm Inc
Priority date: 2015-03-31
Filing date: 2016-03-31
Publication date: 2025-06-30
Anticipated expiration: 2036-03-31
Also published as: KR102769515B1; WO2016161207A1; JP7599740B2; EP4600366A2; US20220315952A1; JP2018513681A; KR20250002825A; CN108124453B; DK3277805T3; US20180080051A1; JP2021176301A; EP3277805A1; CN108124453A; JP2023156355A; JP2025065094A; EP4600366A3; EP3277805B1; KR20180029953A

Abstract

La presente divulgación se refiere al uso de proteínas modificadas genéticamente, como Cas9, Cpfl, TALE y proteínas de dedo de zinc, unidas a integrasas, recombinasas o transposasas virales para administrar una secuencia de ADN de interés (o un gen de interés) a un sitio específico en el genoma de una célula u organismo. El uso de una Cas9 inactiva para su función de corte de ADN permitirá que las proteínas Cas9 se dirijan al ADN mediante guías de ARN sin causar roturas en el ADN, como se pretende en otros sistemas de recombinación homóloga. También se divulga el uso de proteínas de dedo de zinc o TALE (proteínas modificadas genéticamente que se unen a secuencias específicas de ADN) unidas a la integrasa o recombinasa viral. El sistema puede utilizarse con fines de laboratorio y terapéuticos. Por ejemplo, un gen de interés puede incluirse en una célula con un gen que carece de la capacidad de producir su producto génico para recuperar el producto génico normal en la célula (p. ej., el producto génico puede ser una proteína o ARN especializado). (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Sistemas de integrasa retrovírica Cas 9 para la incorporación dirigida de una secuencia de ADN en el genoma de una célula

Referencia a solicitudes relacionadas

La presente solicitud reivindica el beneficio de la solicitud provisional de los Estados Unidos n.º 62.140.454, presentada el 31 de marzo de 2015, de la solicitud provisional de los Estados Unidos n.º 62.210.451, presentada el 27 de agosto de 2015 y de la solicitud provisional de los Estados Unidos n.º 62.240.359, presentada el 12 de octubre de 2015.Introducción

La presente divulgación se refiere al uso de proteínas genomodificadas con proteínas de unión al ADN que muestran especificidad genómica y, en particular, a una proteína Cas9 (CRISPR,clustered regularly interspaced short palindromic repeats, grupos de repeticiones palindrómicas cortas en intervalos regulares) catalíticamente inactiva, unida por un enlazador con una integrasa vírica (por ejemplo, integrasas del HIV o del MMTV) para suministrar una secuencia de ADN de interés (o gen de interés) a un lugar específico en el genoma de una célula u organismo. El uso de una Cas9 que es inactiva para su función de corte del ADN nos permitirá utilizar la capacidad de las proteínas Cas9 para dirigirse al ADN utilizando ARN guías (ARNg) sin causar roturas en el ADN como se pretende en otros sistemas de recombinación homóloga. También se desvelado el uso de proteínas de dedos de zinc o TALE (proteínas genomodificadas que se unen a secuencias específicas de ADN) unidas a la integrasa vírica. El sistema puede utilizarse con fines terapéuticos y de laboratorio. Por ejemplo, un ADN donante que contenga el gen o genes de interés puede introducirse fácilmente en el genoma del hospedador sin posibilidad de que se produzcan cortes inespecíficos mediante métodos convencionales. El ADN donante también puede genomodificarse para facilitar estrategias de "inactivación" (knock out). También se comenta una nueva estrategia para mejorar la especificidad del direccionamiento de Cas9. Esta estrategia utiliza la dCas9 (del inglésdead Cas9, que significa proteína Cas9 inactiva con respecto a su capacidad para cortar el ADN) junto con los ARN guía y el ADN genómico, en un ensayo para encontrar cuales son los ARN guía que proporcionan un direccionamiento específico de Cas9. Esta estrategia será especialmente importante en las aplicacionesin vivode CRISPR/Cas9 y superará las limitaciones de los actuales modelos de predicción informáticos, aunque también puede utilizarse junto con modelos de predicción informáticos para determinar con conocimiento de causa cuales son los ARNg se utilizarán en el ensayo.

Antecedentes

Los avances actuales en las técnicas de secuenciación genómica y los métodos de análisis han acelerado considerablemente la capacidad de catalogar y cartografiar los factores genéticos/genómicos asociados a una amplia gama de funciones biológicas y enfermedades. Se necesitan tecnologías precisas de direccionamiento genómico que permitan realizar una genomodificación inversa sistemática de las variaciones genéticas causales permitiendo la perturbación selectiva de elementos genéticos individuales, así como para avanzar en aplicaciones de la biología sintética, biotecnológicas y médicas. Aunque se dispone de técnicas de reescritura genómica, como los dedos de zinc diseñados, los efectores de tipo activador de la transcripción (TALE), CRISPR/Cas9 o las meganucleasas para producir alteraciones dirigidas en el genoma, sigue existiendo la necesidad de nuevas tecnologías de genomodificación que permitan incorporar secuencias de ADN (incluidas secuencias génicas completas) en un lugar específico de un genoma determinado. Esto permitirá la producción de líneas celulares u organismos transgénicos que expresen un gen genomodificado o la sustitución de genes disfuncionales en un sujeto que lo necesite.

Las integrasas son proteínas víricas que permiten la inserción de ácidos nucleicos víricos en un genoma hospedador (mamífero, ser humano, ratón, rata, mono, rana, pez, plantas (incluidas plantas de cultivo y plantas experimentales comoArabidopsis), líneas celulares de laboratorio o biomédicas o cultivos celulares primarios,C. elegans, mosca (Drosophila), etc.). Las integrasas utilizan proteínas de unión al ADN del hospedador para que la integrasa se asocie con el genoma del hospedador para incorporar la secuencia de ácidos nucleicos víricos en el genoma del hospedador. Las integrasas se encuentran en retrovirus tales como el HIV (virus de la inmunodeficiencia humana). Las integrasas dependen de las secuencias de los genes víricos para insertar su genoma en el ADN del hospedador. Leavitt et al (Journal of Biological Chemistry, 1993, volumen 268, páginas 2113-2119) examinaron la función de la integrasa del HIV1 utilizando mutagénesis dirigida y estudiosin vitro. Leavitt también indica la secuencia de los sitios att de las regiones U5 y U3 del HIV1 que son importantes para la integración del ADN del HIV1 (creado tras la transcripción inversa) en el genoma del hospedador por la integrasa vírica. Su et al (Methods, 2009, volumen 47, páginas 269-276) desvelan la integración específica del ADN retrovírico en células humanas utilizando proteínas de fusión que consisten en la integrasa del HIV-1 y la proteína polidáctil de dedos de zinc E2C diseñada.

La presente divulgación mejora la tecnología actual de reescritura genómica al permitir insertar específicamente en el genoma secuencias deseadas de ácido nucleico (ADN) en lugares específicos del genoma. La integrasa recombinante genomodificada con capacidad de unión al ADN se unirá a una secuencia de ADN dada en el genoma y reconocerá una secuencia de ADN proporcionada que tenga dominios de reconocimiento de integrasa (como los sitios de att del HIV1 (u otro retrovirus)) y/o brazos de homología para insertar la secuencia de ácidos nucleicos dada en el genoma de una manera específica. Un aspecto de la divulgación implica insertar secuencias de ADN de codones de terminación (UAA, UAG y/o UGA) justo después del sitio de inicio de la transcripción de un gen. Esto permitirá una inhibición eficaz de la transcripción génica en el genoma de una célula.

Sumario

La presente divulgación relaciona las tecnologías de direccionamiento de ADN, en particular CRISPR/Cas9, con integrasas retrovíricas para formar integrasas dirigidas al ADN. Un gen de interés (GDI) puede proporcionarse entonces con la integrasa dirigida al ADN, de modo que pueda incorporarse al genoma de manera dirigida. El GDI puede diseñarse con brazos de homología para proporcionar otro nivel de especificidad a su inserción en el genoma. La divulgación se refiere en particular al uso de una variante de Cas9 inactiva para el corte de ADN, para unirlo con una integrasa retrovírica.

Por consiguiente, la presente invención proporciona un sistema para la inserción de un ácido nucleico donante en ADN genómico, que comprende:

(a) una proteína de fusión que comprende:

i) una primera proteína que comprende una proteína Cas9 catalíticamente inactiva;

ii) una segunda proteína que comprende una integrasa retrovírica, y

iii) un enlazador que une la primera proteína a la segunda proteína;

(b) un ARN guía (ARNg); y

(c) un vector de ADN que comprende: el ADN donante, una primera repetición terminal larga retrovírica (rLTR,retroviral long terminal repeat) y una segunda rLTR, en donde el ADN donante está situado entre la primera rLTR y la segunda rLTR. La proteína de fusión puede suministrarse en un vector de expresión o como una proteína purificada. El ADN donante (un gen de interés (o secuencia de ADN de interés) puede proporcionarse con o sin brazos de homología para su incorporación en el genoma deseado. El GDI o la secuencia de ADN de interés, puede modificarse para que la integrasa vírica lo(a) reconozca, según sea necesario. Otros reactivos necesarios para la transfección de polinucleótidos y/o la introducción de proteínas en las células. Ensayo de integración de secuencias de ADN inespecíficas. En un aspecto, se utiliza una secuencia marcadora genomodificada en la secuencia de ADN insertada.

En el presente documento se desvelan construcciones de ácido nucleico que comprenden en enlace operativo: a) una primera secuencia de polinucleótidos que codifica una Cas9 inactiva: b) una segunda secuencia de polinucleótidos que codifica una integrasa retrovírica; y c) una tercera secuencia de polinucleótidos que codifica un enlazador de ácido nucleico; en donde la primera secuencia de polinucleótidos comprende un extremo 5' y un extremo 3' y la segunda secuencia de polinucleótidos comprende un extremo 5' y un extremo 3', y el extremo 3' del primer polinucleótido está conectado al extremo 5' del segundo polinucleótido mediante el enlazador de ácido nucleico, y el primer y el segundo polinucleótido pueden expresarse como una proteína de fusión en una célula o un organismo. En algunas realizaciones, la primera secuencia de polinucleótidos comprende una cualquiera de las SEQ ID NO: 1, 3, 5, 7, 9, 11, 13, 27-46, 49, 56 o 68, o una secuencia que tenga al menos un 80 %, al menos un 85 %, al menos un 90 %, al menos un 95 % o al menos un 99 % de identidad de secuencia con las mismas. En algunas realizaciones, la Cas9 inactiva comprende una cualquiera de las SEQ ID NO: 2, 4, 6, 8, 10, 12, 14, 50 o 52, o una secuencia que tenga al menos un 80 %, al menos un 85 %, al menos un 90 %, al menos un 95 % o al menos un 99 % de identidad de secuencia con las mismas. En algunas realizaciones, la segunda secuencia de polinucleótidos comprende una cualquiera de las SEQ ID NO: 15, 17, 19, 21, 47, 55, 62, 70 o 79, o una secuencia que tenga al menos un 80 %, al menos un 85 %, al menos un 90 %, al menos un 95 % o al menos un 99 % de identidad de secuencia con las mismas. En algunas realizaciones, la integrasa, comprende una cualquiera de las SEQ ID NO: 16, 18, 20, 22, 48, 63, 71 u 80, o una secuencia que tenga al menos un 80 %, al menos un 85 %, al menos un 90 %, al menos un 95 % o al menos un 99 % de identidad de secuencia con las mismas. En el presente documento también se describen organismos que comprenden la construcción de ácido nucleico. En el presente documento también se describe un organismo que comprende la proteína de fusión en donde el organismo tiene un genoma modificado.

En el presente documento de desvelan organismos que comprenden: a) una primera secuencia de polinucleótidos que codifica una Cas9 inactiva: b) una segunda secuencia de polinucleótidos que codifica una integrasa; y c) una tercera secuencia de polinucleótidos que codifica un enlazador de ácido nucleico; en donde la primera secuencia de polinucleótidos comprende un extremo 5' y un extremo 3' y la segunda secuencia de polinucleótidos comprende un extremo 5' y un extremo 3', y el extremo 3' del primer polinucleótido está conectado al extremo 5' del segundo polinucleótido mediante el enlazador de ácido nucleico, y el primer y el segundo polinucleótido pueden expresarse como una proteína de fusión en una célula o un organismo.

En el presente documento también se desvelan proteínas de fusión, que comprenden: a) una primera proteína que es una Cas9 catalíticamente inactiva, en donde la primera proteína se dirige a una secuencia de ADN diana; b) una segunda proteína que es una integrasa; y c) un enlazador que une la primera proteína a la segunda proteína. En algunas realizaciones, la segunda proteína es una integrasa del HIV1 o una integrasa lentivírica; la secuencia enlazadora tiene una longitud de uno o más aminoácidos; y la primera proteína es una Cas9 catalíticamente inactiva. También se desvelan casos en donde la secuencia enlazadora tiene una longitud de 4-8 aminoácidos; la primera proteína es una proteína TALE; o la primera proteína es una proteína de dedo de Zinc. También se desvelan casos en donde la proteína de fusión comprende una proteína TALE o una proteína de dedo de Zinc, la secuencia de ADN diana tiene una longitud de aproximadamente 16 a aproximadamente 24 pares de bases. En algunas realizaciones, la primera proteína es la Cas9 catalíticamente inactiva, en donde se utilizan uno o más ARN guía para dirigir una secuencia de ADN diana de entre 16 y 24 pares de bases aproximadamente.

En el presente documento también se proporciona un método de inserciónin vitrode una secuencia de ADN en ADN genómico, que comprende:

a) identificar una secuencia diana en el ADN genómico;

b) diseñar una proteína de fusión y un ARN guía (ARNg) de la presente invención para que se unan a la secuencia diana en el ADN genómico;

c) diseñar una secuencia de ADN de interés para incorporarla al ADN genómico; y

d) proporcionar la proteína de fusión, el ARNg y la secuencia de ADN de interés, a una célula mediante técnicas que permitan la entrada de la proteína de fusión, del ARNg y de la secuencia de ADN de interés, en la célula; en donde la secuencia de ADN de interés se integra en la secuencia diana en el ADN genómico.

En el presente documento también se desvelan vectores de nucleótidos, que comprende: a) una primera secuencia codificante de una primera proteína que es una proteína Cas9 catalíticamente inactiva; b) una segunda secuencia codificante de una segunda proteína que es una integrasa retrovírica; c) una secuencia de ADN entre la primera y segunda secuencias codificantes que forma un aminoácido enlazador entre la primera y segunda proteínas; d) opcionalmente una secuencia de ADN de interés expresada rodeada por sitios att reconocidos por una integrasa, y opcionalmente uno o más ARN guía, en donde la primera proteína está dirigida a una secuencia de ADN determinada, y en donde la primera proteína está unida a la segunda proteína por la secuencia de aminoácidos enlazadora.

También se proporciona un método de inhibiciónin vitrode transcripción génica en una célula, que comprende: a) identificar un codón de inicio ATG en un gen;

b) diseñar un sistema de proteína de fusión con una proteína de fusión como se define en el presente documento y un ARN guía (ARNg), para unirse a una secuencia diana inmediatamente después del codón de inicio ATG del gen;

c) diseñar una secuencia de ADN de interés que contenga uno o más codones de terminación consecutivos; y d) proporcionar la proteína de fusión, el ARNg y la secuencia de ADN de interés, a una célula mediante técnicas que permitan la entrada de la proteína de fusión, del ARNg y de la secuencia de ADN de interés, en la célula; en donde la secuencia de ADN de interés se integra en la secuencia diana en el ADN genómico; y en donde se inhibe la transcripción del gen.

En una realización, el vector comprende además un gen de retrotranscriptasa (o transcriptasa inversa) que debe expresarse en una célula.

En el presente documento también se desvelan composiciones, que comprenden una proteína purificada de una fusión de proteína de unión al ADN/integrasa y un ARN con una longitud de aproximadamente 15 a aproximadamente 100 pares de bases, en donde la proteína de unión al ADN es una Cas9 catalíticamente inactiva genomodificada para una secuencia de ADN diana en un genoma, y en donde la integrasa es una integrasa del HIV, una integrasa lentivírica, una integrasa adenovírica, una integrasa retrovírica o una integrasa del MMTV (virus del tumor mamario murino).Breve descripción de los dibujos

Estas y otras características, aspectos y ventajas de la presente divulgación se entenderán mejor con respecto a la siguiente descripción, reivindicaciones adjuntas y figuras acompañantes donde:

laFIG.1muestra a) una proteína de fusión ilustrativa de Cas9 catalíticamente inactiva/integrasa del HIV1, b) una proteína de fusión ilustrativa de TALE/integrasa del HIV1, c) una proteína de fusión ilustrativa de proteína de dedo de zinc/integrasa del HIV1 y d) una proteína de fusión ilustrativa de Cas9/integrasa del HIV1 diseñada en lados opuestos del ADN en el sitio diana. Cada una de las proteínas de fusión se une a una secuencia diana específica de ADN. "ZnFn" es una proteína de dedo de zinc. "Integrasa" representa una unidad de integrasa o dos unidades de integrasa unidas, por ejemplo, mediante un aminoácido enlazador corto. Cas9 es catalíticamente inactiva. LaFIG. 2muestra un sistema de plásmido de ADN que comprende, un vector que comprende una proteína de fusión de Cas9 catalíticamente inactiva/integrasa, un vector que comprende una secuencia de ADN de interés, y un vector que comprende una retrotranscriptasa. Se pueden proporcionar por separado uno o varios ARN guía (ARNg). Se puede utilizar otro vector para expresar un ARNg. "1 o 2" se refiere a una integrasa o a dos integrasas unidas, por ejemplo, mediante un aminoácido enlazador.

LaFIG.3muestra un plásmido de ADN ilustrativo que comprende una secuencia de nucleótidos de la proteína de fusión Cas9 catalíticamente inactiva/integrasa, los ARN guía, una secuencia de ADN (gen) de interés, y una retrotranscriptasa. Se pueden proporcionar sitios de att víricos a la secuencia de ADN de interés, que permitan la incorporación de la integrasa en el ADN genómico de la célula. Se pueden proporcionar por separado uno o varios ARN guía (ARNg). Se puede utilizar otro vector para expresar un ARNg. "1 o 2" se refiere a una integrasa o a dos integrasas unidas, por ejemplo, mediante un aminoácido enlazador.

La FIG.4muestra un diagrama de flujo. En laFIG.4se muestra un método ilustrativo del empleo de los vectores mostrados laFIG.2yFIG.3, y es el siguiente: 1) la retrotranscriptasa inversa transcribe la secuencia de ADN de interés con sitios att expresados desde el vector (como alternativa se utiliza un ADN lineal con sitios att), 2) la fusión de Cas9/integrasa se dirige al sitio en el ADN genómico basado en los ARN guía, 3) la integrasa reconoce los sitios (LTR) de att en la secuencia de ADN de interés e integra el ADN en el genoma en el sitio diana, y 4) se realiza un ensayo (por ejemplo, PCR (reacción en cadena de la polimerasa) para comprobar la correcta inserción de la secuencia de ADN de interés. Se puede realizar un ensayo para comprobar la integración inespecífica. LaFIG.5muestra la reescritura genómica con Abbie1 dirigida al exón 2 del Nrf2 (factor nuclear eritroide) usando las guías ARNgs2 y ARNgs3 del NrF2.

LaFIG.6muestra datos teóricos generados mediante reescritura genómica con Abbie1.

LaFIG.7muestra la reescritura genómica con Abbie1 dirigida al exón 2 del Nrf2 usando la guía ARNgs 3 del Nrf2. LaFIG.8muestra la inactivación con Abbie1 del Nrf2 en células Hek293T agrupadas.

LaFIG.9muestra la inactivación con Abbie1 del Nrf2 en células Hek293T agrupadas.

LaFIG.10muestra la reescritura genómica con Abbie1 dirigida al exón 2 del CXCR4 (receptor de quimiocina con motivo C-X-C).

LaFIG.11muestra la detección de la proteína ABBIE1 tras su aislamiento y purificación deE coli. Gel teñido con Coomassie.

Descripción detallada

La siguiente descripción detallada se proporciona para ayudar a los expertos en la materia a poner en práctica la presente divulgación.

Como se utiliza en la presente divulgación y en las reivindicaciones adjuntas, las formas en singular "un", "uno/a" y "el/la", incluyen referencias en plural salvo que el contexto indique claramente lo contrario. Como se utiliza en la presente divulgación y en las reivindicaciones adjuntas, el término "o" puede ser exclusivo o inclusivo. Por ejemplo, A o B, puede ser A y B.

ENDÓGENO

Un ácido nucleico, nucleótido, polipéptido o proteína endógeno(a), tal como se describe en el presente documento, se define en relación con el organismo hospedador. Un ácido nucleico, nucleótido, polipéptido o proteína endógeno(a), es uno que se produce de forma natural en el organismo hospedador.

EXÓGENO

Un ácido nucleico, nucleótido, polipéptido o proteína exógeno(a), tal como se describe en el presente documento, se define en relación con el organismo hospedador. Un ácido nucleico, nucleótido, polipéptido o proteína exógeno(a), es uno que se produce de forma natural en el organismo hospedador.

INACTIVADO

Se considera que un gen está inactivado cuando un ácido nucleico exógeno se transforma en un organismo hospedador (por ejemplo, por inserción aleatoria o recombinación homóloga) dando lugar a la alteración (por ejemplo, por deleción, inserción) del gen.

Después de inactivar un gen, la actividad de la proteína correspondiente puede disminuir. Por ejemplo, en al menos un 10 %, en al menos un 20 %, en al menos un 30 %, en al menos un 40 %, en al menos un 50 %, en al menos un 60 %, en al menos un 70 %, en al menos un 80 %, en al menos un 90 % o un 100 %, en comparación con la actividad de la misma proteína en la que el gen no se ha inactivado.

Al inactivar un gen, la transcripción del gen puede disminuir, en comparación con un gen que no se ha inactivado, en al menos un 20 %, en al menos un 30 %, en al menos un 40 %, en al menos un 50 %, en al menos un 60 %, en al menos un 70 %, en al menos un 80 %, en al menos un 90 % o un 100 %.

MODIFICADO

Un organismo modificado es un organismo que es diferente de un organismo no modificado. Por ejemplo, un organismo modificado puede comprender una proteína de fusión de la divulgación que da como resultado a una inactivación de una secuencia génica diana. Un organismo modificado puede tener un genoma modificado.

Una secuencia de ácidos nucleicos o de aminoácidos modificada es diferente de la secuencia de ácidos nucleicos o de aminoácidos no modificada. Por ejemplo, una secuencia de ácidos nucleicos puede tener uno o más ácidos nucleicos insertados, delecionados o añadidos. Por ejemplo, una secuencia de aminoácidos puede tener uno o más aminoácidos insertados, delecionados o añadidos.

UNIDO OPERATIVAMENTE

En algunas realizaciones, un vector comprende un polinucleótido unido operativamente a uno o más elementos de control, tal como un promotor y/o un terminador de la transcripción. Un ácido nucleico está unido operativamente cuando se coloca en una relación funcional con otra secuencia de ácidos nucleicos. Por ejemplo, el ADN de una presecuencia o líder de secreción está unido operativamente al ADN de un polipéptido si se expresa como una preproteína que participa en la secreción del polipéptido; un promotor está unido operativamente a una secuencia codificante si afecta a la transcripción de la secuencia; o un sitio de unión al ribosoma está unido operativamente a una secuencia codificante si se coloca de manera que facilite la traducción. Las secuencias unidas operativamente pueden ser contiguas y, en el caso de un líder de secreción, son contiguas y están en fase de lectura.

CÉLULA HOSPEDADORA U ORGANISMO HOSPEDADOR

Una célula hospedadora puede contener un polinucleótido que codifica un polipéptido de la presente divulgación. En algunas realizaciones, una célula hospedadora forma parte de un organismo multicelular. En otras realizaciones, se cultiva una célula hospedadora como un organismo unicelular.

Los organismos hospedadores pueden incluir cualquier hospedador adecuado, por ejemplo, un microorganismo. Entre los microorganismos útiles para los métodos descritos en el presente documento se incluyen, por ejemplo, bacterias (por ejemplo,E. coli), levaduras (por ejemplo,Saccharomyces cerevisiae),y plantas. El organismo puede ser procariota o eucariota. El organismo puede ser unicelular o pluricelular.

La célula hospedadora puede ser procariota. Las células procariotas adecuadas incluyen, pero sin limitación, cualquiera de una variedad de cepas de laboratorio deEscherichia coli, Lactobacillussp.,Salmonellasp. yShigellasp. (por ejemplo, como se describe en Carrieret al.(1992) J. Immunol. 148:1176-1181; en la patente de EE. UU. n.º 6.447.784; y en Sizemoreet al.(1995) Science 270:299-302). Ejemplos de cepas deSalmonellaque pueden emplearse en la presente divulgación incluyen, pero sin limitación,Salmonella typhiyS. typhimurium.Como cepas deShigellaadecuadas se incluyen, pero sin limitación,Shigella flexneri, Shigella sonneiyShigella disenteriae.Normalmente, la cepa de laboratorio es una cepa no patógena. Como ejemplos no limitativos de otras bacterias adecuadas se incluyen, pero sin limitación,Pseudomonas pudita, Pseudomonas aeruginosa, Pseudomonas mevalonii, Rhodobacter sphaeroides, Rhodobacter capsulatus, Rhodospirillum rubrumyRhodococcussp.

En algunas realizaciones, el organismo hospedador es eucariota. Como células hospedadoras eucariotas adecuadas se incluyen, pero sin limitación, células de levadura, células de insecto, células vegetales, células de hongos y algas. POLINUCLEÓTIDOS Y POLIPÉPTIDOS [ÁCIDOS NUCLEICOS Y PROTEÍNAS]

Las proteínas de la presente divulgación pueden fabricarse por cualquier método conocido en la técnica. La proteína puede sintetizarse utilizando síntesis peptídica en fase sólida o mediante síntesis peptídica en solución clásica, también conocida como síntesis peptídica en fase líquida. Utilizando Val-Pro-Pro, Enalapril y Lisinopril como moldes de partida, pueden sintetizarse diversas series de análogos peptídicos, tales como X-Pro-Pro, X-Ala-Pro y X-Lys-Pro, en donde X representa cualquier resto de aminoácido, utilizando síntesis peptídica en fase sólida o líquida. También se han descrito métodos para llevar a cabo la síntesis en fase líquida de bibliotecas de péptidos y oligonucleótidos acoplados a un soporte oligomérico soluble. Bayer, Ernst y Mutter, Manfred, Nature 237:512-513 (1972); Bayer, Ernst,et al., J. Am. Chem. Soc.96:7333-7336 (1974); Bonora, Gian Maria,et al., Nucleic Acids Res.18:3155-3159 (1990). Los métodos de síntesis en fase líquida tienen la ventaja sobre los métodos de síntesis en fase sólida en que no requieren que el primer reactante posea una estructura adecuada para su unión a la fase sólida. Además, los métodos de síntesis en fase líquida no requieren evitar condiciones químicas que puedan escindir el enlace entre la fase sólida y el primer reactante (o producto intermedio). Adicionalmente, las reacciones en una solución homogénea pueden ofrecer mejores rendimientos y reacciones más completas que las obtenidas en sistemas heterogéneos de fase sólida/fase líquida, como los que se presentan en la síntesis en fase sólida.

En la síntesis en fase líquida con soporte de oligómeros, el producto en crecimiento se une a un grupo polimérico soluble de gran tamaño. El producto de cada etapa de la síntesis puede separarse después de los reactantes que no han reaccionado basándose en la gran diferencia de tamaño entre el producto relativamente grande unido al polímero y los reactivos que no han reaccionado. Esto permite que las reacciones tengan lugar en soluciones homogéneas y elimina las tediosas etapas de purificación asociadas a la síntesis tradicional en fase líquida. La síntesis en fase líquida con soporte de oligómeros también se ha adaptado a la síntesis automática en fase líquida de péptidos. Bayer, Ernst,et al., Peptides: Chemistry, Structure, Biology, 426-432.

Para la síntesis de péptidos en fase sólida, el procedimiento implica el ensamblaje secuencial de los aminoácidos apropiados en un péptido de una secuencia deseada, mientras que el extremo del péptido en crecimiento se une a un soporte insoluble. Habitualmente, el extremo carboxilo del péptido está unido a un polímero del que puede liberarse al tratarlo con un reactivo de escisión. En un método común, un aminoácido se une a una partícula de resina, y el péptido se genera de forma escalonada mediante adiciones sucesivas de aminoácidos protegidos para producir una cadena de aminoácidos. Se suelen utilizar modificaciones de la técnica descrita por Merrifield. Véase, p. ej., Merrifield, J. Am. Chem. Soc.96: 2989-93

(1964). En un método automatizado en fase sólida, los péptidos se sintetizan cargando el aminoácido carboxiterminal en un enlazador orgánico (p. ej., PAM, 4-oximetilfenilacetamidometilo), que está unido mediante enlace covalente a una resina de poliestireno insoluble reticulada con divinilbenceno. La amina terminal puede protegerse bloqueándola con t-butiloxicarbonilo. Los grupos hidroxilo y carboxilo suelen protegerse bloqueándolos con grupos O-bencilo. La síntesis se realiza en un sintetizador de péptidos automatizado, como el disponible en Applied Biosystems (Foster City, Calif.). Después de la síntesis, el producto puede eliminarse de la resina. Los grupos bloqueantes se eliminan utilizando ácido fluorhídrico o ácido trifluorometilsulfónico de acuerdo con métodos establecidos. Una síntesis rutinaria puede producir 0,5 mmoles de resina peptídica. Después de la escisión y purificación, se suele obtener un rendimiento aproximado del 60 al 70 %. La purificación de los péptidos producto se lleva a cabo, por ejemplo, cristalizando el péptido a partir de un disolvente orgánico como el metilbutil éter, disolviendo después en agua destilada y utilizando diálisis (si el peso molecular del péptido en cuestión es superior a aproximadamente 500 daltons) o cromatografía líquida de fase inversa a alta presión (por ejemplo, utilizando una columna C<18>con ácido trifluoroacético al 0,1 % y acetonitrilo como disolventes) si el peso molecular del péptido es inferior a aproximadamente 500 daltons. El péptido purificado puede liofilizarse y conservarse en estado seco hasta su uso. El análisis de los péptidos resultantes puede realizarse utilizando los métodos habituales de cromatografía líquida de alta presión (HPLC,high pressure liquid chromatography) analítica y espectrometría de masas por electropulverización (ES-MS,electrospray mass spectrometry).

En otros casos, una proteína, por ejemplo, una proteína se produce por métodos recombinantes. Para la producción de cualquiera de las proteínas descritas en el presente documento, pueden utilizarse células hospedadoras transformadas con un vector de expresión que contenga el polinucleótido que codifique dicha proteína. La célula hospedadora puede ser una célula eucariota superior, tal como una célula de mamífero, o una célula eucariota inferior, tal como una levadura, o el hospedador puede ser una célula procariota tal como una célula bacteriana. La introducción del vector de expresión en la célula hospedadora puede realizarse mediante diversos métodos, entre los que se incluyen, transfección con fosfato cálcico, transfección mediada por DEAE-dextrano, polibreno, fusión de protoplastos, liposomas, microinyección directa en los núcleos, carga de raspado, transformación biolística y electroporación. La producción a gran escala de proteínas a partir de organismos recombinantes es un proceso bien establecido, practicado a escala comercial y perfectamente al alcance de un experto en la materia.

OPTIMIZACIÓN DE CODONES

Uno o más codones de un polinucleótido codificante pueden estar "sesgados" u "optimizados" para reflejar el uso de codones del organismo hospedador. Por ejemplo, uno o más codones de un polinucleótido codificante pueden estar "sesgados" u "optimizados" para reflejar el uso de codones en el cloroplasto o en el núcleo. La mayoría de los aminoácidos están codificados por dos o más codones diferentes (degenerados), y se reconoce ampliamente que distintos organismos prefieren el uso de determinados codones sobre otros. La expresión codones "sesgados" u "optimizados" puede utilizarse indistintamente a lo largo de la memoria descriptiva. El sesgo de codones puede variar y sesgarse de diversas maneras en diferentes plantas, incluyendo, por ejemplo, entre un alga y la planta de tabaco. Generalmente, el sesgo de codones seleccionado refleja el uso de codones de la planta (u del orgánulo de la misma) que se está transformando con los ácidos nucleicos de la presente divulgación.

Un polinucleótido que está sesgado para un uso particular de codones puede sintetizarse de nuevo, o puede genomodificarse utilizando técnicas rutinarias de ADN recombinante, por ejemplo, mediante un método de mutagénesis dirigida, para cambiar uno o más codones de forma que estén sesgados para el uso de codones en el cloroplasto.

PORCENTAJE DE IDENTIDAD DE SECUENCIA

Un ejemplo de algoritmo adecuado para determinar el porcentaje de identidad de secuencias o de similitud de secuencias entre secuencias de ácidos nucleicos o polipéptidos es el algoritmo BLAS (siglas del inglésBasic Local Alignment Search Tool, Herramienta Básica de Búsqueda de Alineaciones Locales), que se describe, p. ej., en Altschulet al., J. Mol. Biol. 215:403-410 (1990). El programa informático para realizar el análisis BLAST está disponible públicamente a través del Centro Nacional para la Información Biotecnológica. Los parámetros del algoritmo BLAST, W, T y X, determinan la sensibilidad y velocidad de la alineación. El programa BLASTN (para secuencias de nucleótidos) utiliza por defecto una longitud de palabra (W,word) de 11, una expectativa (E) de 10, un límite de 100, M=5, N=4 y una comparación de ambas cadenas. Para secuencias de aminoácidos, el programa BLASTP utiliza por defecto una longitud de palabra (W) de 3, una expectativa (E) de 10, y la matriz de puntuación BLOSUM62 (como se describe, por ejemplo, en Henikoff y Henikoff (1989) Proc. Natl. Acad. Sci. USA, 89:10915). Además de calcular el porcentaje de identidad de secuencia, el algoritmo BLAST también puede realizar un análisis estadístico de la similitud entre dos secuencias (por ejemplo, como se describe en Karlin y Altschul, Proc. Nat'l. Acad. Sci. USA, 90:5873-5787 (1993)). Una medida de la similitud proporcionada por el algoritmo BLAST es la probabilidad de suma más pequeña (P(N)), que proporciona una indicación de la probabilidad de que ocurra una coincidencia entre dos secuencias de nucleótidos o aminoácidos al azar. Por ejemplo, un ácido nucleico se considera similar a una secuencia de referencia si la probabilidad de suma más pequeña en una comparación del ácido nucleico de prueba con el ácido nucleico de referencia es inferior a aproximadamente 0,1, inferior a aproximadamente 0,01 o inferior a aproximadamente 0,001. La presente divulgación comprende un sistema que comprende: A) Una integrasa vírica unida por enlace covalente a una proteína Cas9 catalíticamente inactiva que es, por ejemplo, inactiva con respecto a su capacidad para cortar ADN. También se desvela la integrasa vírica (o una recombinasa bacteriana o de fago) unida por enlace covalente a una proteína TALE o a proteínas de dedos de zinc, donde estas proteínas están diseñadas para dirigirse a una secuencia específica de ADN en un genoma.

Ésta puede suministrarse en un vector de expresión o como una proteína purificada. B) Un gen de interés (o secuencia de ADN de interés) con o sin brazos de homología a incorporar en el genoma deseado. El GDI o la secuencia de ADN de interés, puede modificarse para que la integrasa vírica lo(a) reconozca, según sea necesario. Por ejemplo, en los extremos de la secuencia de ADN pueden añadirse los sitios att víricos. C) Otros reactivos necesarios para la transfección de polinucleótidos y/o la introducción de proteínas en las células.

ÁCIDO NUCLEICO

Las expresiones "polinucleótido", "nucleótido", "secuencia de nucleótidos", "ácido nucleico" y "oligonucleótido", se utilizan indistintamente en esta divulgación. Se refieren a una forma polimérica de nucleótidos de cualquier longitud, ya sean desoxirribonucleótidos o ribonucleótidos, o análogos de los mismos. Los polinucleótidos pueden tener cualquier estructura tridimensional y pueden realizar cualquier función, conocida o desconocida. Los siguientes son ejemplos no limitativos de polinucleótidos: regiones codificantes o no codificantes de un gen o fragmento génico, loci (locus) definidos a partir del análisis de uniones, exones, intrones, ARN mensajero (ARNm), ARN de transferencia, ARN ribosómico, ARN de interferencia pequeño (ARNip), ARN de horquilla corta (ARNhc), microARN (miARN), ribozimas, ADNc, polinucleótidos recombinantes, polinucleótidos ramificados, plásmidos, vectores, ADN aislado de cualquier secuencia, ARN aislado de cualquier secuencia, sondas y cebadores de ácido nucleico. Un polinucleótido puede comprender uno o más nucleótidos modificados, tales como nucleótidos metilados y análogos de nucleótidos. Si están presentes, pueden incorporarse modificaciones a la estructura del nucleótido antes o después del ensamblaje del polímero. La secuencia de nucleótidos puede estar interrumpida por componentes no nucleotídicos. Un polinucleótido puede modificarse adicionalmente después de la polimerización, tal como mediante conjugación con un componente de marcaje.

ARN GUÍA

En aspectos de la divulgación las expresiones "ARN quimérico", "ARN guía quimérico", "ARN guía", "ARN guía sencillo" y "ARN guía sintético", se utilizan indistintamente y se refieren a la secuencia de polinucleótidos que comprende la secuencia guía, la secuencia tracr y la secuencia tracr complementaria. La expresión "secuencia guía" se refiere a la secuencia de aproximadamente 20 pb (12-30 pb) dentro del ARN guía que especifica el sitio diana y puede utilizarse indistintamente con los términos "guía" o "espaciador". La expresión "secuencia tracr complementaria" también puede utilizarse indistintamente con la expresión "repetición (repeticiones) directa(s)".

TIPO NATURAL

Como se utiliza en el presente documento, la expresión "tipo natural" es una expresión de la técnica conocida por los expertos y significa la forma clásica de un organismo, cepa, gen o característica tal como aparece en la naturaleza, a diferencia de las formas mutantes o variantes.

VARIANTE

Como se utiliza en el presente documento, el término "variante" o "mutante" debe entenderse como la manifestación de cualidades que tienen un patrón que se desvía de lo que ocurre en la naturaleza. En relación con los genes, estos términos indican diversos cambios en un gen que lo hacen diferente del gen de tipo natural, incluidos polimorfismos mononucleotídicos (SNP,Single Nucleotide Polymorphisms), inserciones, deleciones, cambios génicos, entre otros. GENOMODIFICADO

Las expresiones "de origen no natural" o "genomodificado(a)", se utilizan indistintamente e indican la participación de tecnología creada por el ser humano. Cuando se refieren a moléculas de ácido nucleico o de polipéptidos, las expresiones significan que la molécula de ácido nucleico o el polipéptido carece, al menos sustancialmente, de al menos otro componente con el que se asocia en la naturaleza de manera natural y tal como se encuentra en ella. COMPLEMENTARIEDAD

"Complementariedad" se refiere a la capacidad de un ácido nucleico para formar uno o más enlaces de hidrógeno con otra secuencia de ácidos nucleicos ya sea mediante enlaces clásicos de Watson-Crick u otros tipos de enlaces no clásicos. Un porcentaje de complementariedad indica el porcentaje de restos de la molécula de ácido nucleico que pueden formar enlaces de hidrógeno (por ejemplo, emparejamiento de bases de Watson-Crick) con una segunda secuencia de ácidos nucleicos (por ejemplo, siendo 5, 6, 7, 8, 9, 10 de cada 10 un 50 %, 60 %, 70 %, 80 %, 90 % y 100 % complementarios). "Perfectamente complementario" significa que todos los restos contiguos de una secuencia de ácidos nucleicos se unirán por enlaces de hidrógeno con el mismo número de restos contiguos de una segunda secuencia de ácidos nucleicos. "Sustancialmente complementario", como se utiliza en el presente documento, se refiere a un grado de complementariedad que es de al menos 60 %, 70 %, 75 %, 80 %, 85 %, 90 %, 95 %.97 %, 98 %, 99 % o 100 %, o porcentajes intermedios sobre una región de 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 30, 35, 40, 45, 50 o más nucleótidos, o se refiere a dos ácidos nucleicos que hibridan en condiciones estrictas.

AMINOÁCIDOS

Nombre completo, Código de tres letras, Código de una letra

Ácido aspártico Asp D

Ácido glutámico Glu E

Lisina Lys K

Arginina Arg R

Histidina His H

Tirosina Tyr Y

Cisteína Cys C

Asparragina Asn N

Glutamina Gln Q

Serina Ser S

Treonina Thr T

Glicina Gly G

Alanina Ala A

Valina Val V

Leucina Leu L

Isoleucina Ile I

Metionina Met M

Prolina Pro P

Fenilalanina Phe, F

Triptófano Trp W

La expresión "aminoácido", como se utiliza en el presente documento, incluye aminoácidos tanto naturales como sintéticos, y aminoácidos tanto D como L. "Aminoácido convencional" significa cualquiera de los veinte L-aminoácidos convencionales que se encuentran comúnmente en proteínas/péptidos de origen natural. "Resto de aminoácido no convencional" significa cualquier aminoácido, distinto de los aminoácidos convencionales, independientemente de si se prepara mediante síntesis o se obtiene de una fuente natural. Como se utiliza en el presente documento, "aminoácido sintético" abarca aminoácidos químicamente modificados, incluyendo, pero sin limitación, sales, derivados de aminoácidos (tales como amidas) y sustituciones. Los aminoácidos contenidos en los péptidos de la presente divulgación, y en particular en el extremo carboxilo o amino, pueden modificarse mediante metilación, amidación, acetilación o sustitución con otros grupos químicos que pueden cambiar la semivida circulante del péptido sin afectar negativamente a su actividad. Adicionalmente, en los péptidos puede haber o no un enlace disulfuro.

Los aminoácidos pueden clasificarse en siete grupos en función de la cadena lateral R: (1) cadenas laterales alifáticas; (2) cadenas laterales que contienen un grupo hidroxilo (OH); (3) cadenas laterales que contienen átomos de azufre; (4) cadenas laterales que contienen un grupo ácido o amida; (5) cadenas laterales que contienen un grupo básico; (6) cadenas laterales que contienen un anillo aromático; y (7) prolina, un iminoácido en el que la cadena lateral está fusionada con el grupo amino.

Como se utiliza en el presente documento, la expresión "sustitución conservadora de aminoácidos" se define en el presente documento como intercambios dentro de uno de los cinco grupos siguientes:

I. Restos pequeños, alifáticos, no polares o ligeramente polares:

Ala, Ser, Thr, Pro, Gly;

II. Restos polares con carga negativa y sus amidas:

Asp, Asn, Glu, Gln;

III. Restos polares con carga positiva:

His, Arg, Lys;

IV. Restos grandes, alifáticos, no polares:

Met Leu, He, Val, Cys (Ile; autocorrector no alfabetizado)

V. Restos pequeños, aromáticos:

Phe, Tyr, Tip (Trp, del mismo modo)

En la presente divulgación se utilizan, a menos que se indique lo contrario, técnicas convencionales de inmunología, bioquímica, química, biología molecular, microbiología, biología celular, genómica y ADN recombinante, que están incluidas en las habilidades de la técnica. Véanse Sambrook, Fritsch y Maniatis, MOLECULAR CLONING: A LABORATORY MANUAL, 2ª edición (1989); CURRENT PROTOCOLS IN MOLECULAR BIOLOGY (F. M. Ausubel,et al.eds., (1987)); la serie METHODS IN ENZYMOLOGY (Academic Press, Inc.): PCR 2: A PRACTICAL APPROACH (M. J. MacPherson, B. D. Hames y G. R. Taylor eds. (1995)), Harlow y Lane, eds. (1988) ANTIBODIES, A LABORATORY MANUAL, y ANIMAL CELL CULTURE (R. I. Freshney, ed. (1987)).

VECTORES

Para expresar las integrasas de fusión en las células o en los tejidos, así como para proporcionar la secuencia de ADN (o gen) de interés con los sitios apropiados necesarios para que la integrasa o recombinasa integre ese ADN (o gen) en el genoma de la especie o célula hospedadora, se utilizarán vectores de expresión génica (basados en ADN o víricos). En la técnica se conocen diversos vectores de expresión génica. Se utilizarán vectores para el gen de interés (o la secuencia de ADN de interés). Los vectores pueden cortarse con diversas enzimas de restricción conocidas en la técnica.

CRISPR/CAS9

CRISPR/Cas9 se describe en las patentes de EE.UU 8697359, 8889356 y en Ran et al (Nature Protocols, 2013, volumen 8, páginas 2281-2308). La proteína Cas9 utiliza guías de ARN para unirse a secuencias específicas de ADN en un genoma. Las guías de ARN (ARN guía) pueden diseñarse para que tengan una longitud de 10 a 40, de 12 a 35, de 15 a 30, o por ejemplo, de 18 a 22 o de 20 nucleótidos. Véase Hsu et al, Nature Biotechnology, septiembre de 2013, volumen 31, páginas 827-832, donde se utiliza Cas9 deStreptococcus pyogenes. Otra Cas9 clave es la deStaphylococcus aureus(una Cas9 más pequeña que la deS. pyogenes). La proteína Cas9 utiliza ARN guía para unirse a regiones específicas de una secuencia de ADN.

En la presente invención se utiliza una proteína Cas9 catalíticamente inactiva como parte de una proteína de fusión. Una forma catalíticamente inactiva de Cas9 se describe en Guilinger et al., Fusion of catalytically inactive Cas9 to FokI nuclease improves the specificity of genome modification, Nature Biotechnology, 25 de abril de 2014, volumen 32, páginas 577-582. Guilinger et al., unieron la Cas9 catalíticamente inactiva a una enzima Fok1 para lograr una mayor especificidad a la hora de realizar cortes en el ADN genómico. Esta Cas9 catalíticamente inactiva permite a la Cas9 utilizar guías de ARN para la unión del ADN genómico, sin tener que cortar el ADN.

Cas9 también está disponible en su forma natural, tn, y también en una forma humana con codones optimizados para obtener una mejor expresión de las construcciones Cas9 en las células. (Véase Mali et al., Science, 2013, volumen 339, páginas 823-826). La optimización de codones de Cas9 puede realizarse dependiendo de la especie con respecto a su expresión. Dependiendo de si se produce una forma proteica de la proteína de fusión Integrasa/Cas9 (también conocida como ABBIE1) o una forma de vector de expresión de nucleótidos, puede utilizarse la forma optimizada o no optimizada (tn).

Las guías de ARN dirigidas a una secuencia específica de ADN pueden diseñarse mediante diversas herramientas informáticas.

CRISPR/CPF1

Cpf1 es otra proteína, que utiliza un ARN guía para unirse a una secuencia específica del ADN genómico. Cpf1 también corta el ADN realizando un corte escalonado. Cpf1 puede modificarse para que sea catalíticamente inactiva y pierda la capacidad de cortar el ADN.

OTRAS PROTEÍNAS CRISPR

Se trata de proteínas que utilizan un ARN guía para dirigirse a una secuencia de ADN específica y que tienen o no la capacidad de cortar el ADN. Algunas de estas proteínas pueden tener naturalmente otras funciones enzimáticas/catalíticas.

TALEN

También se desvelan las TALEN. Las nucleasas efectoras similares a activadores de la transcripción (TALEN, por sus siglas en inglés) son proteínas de fusión con enzimas de restricción generadas mediante la fusión del dominio de unión al ADN efector TAL con un dominio de escisión de ADN. Estos reactivos permiten realizar una escisión eficaz, programable y específica del ADN y representan poderosas herramientas de reescritura genómicain situ. Los efectores similares a activadores de la transcripción (TALE, por sus siglas en inglés) pueden genomodificarse rápidamente para unirse prácticamente cualquier secuencia de ADN. La expresión TALEN, como se utiliza en el presente documento, es amplia e incluye una TALEN monomérica que puede escindir ADN bicatenario sin ayuda de otra TALEN. La expresión TALEN también se utiliza para referirse a uno o a los dos miembros de un par de TALEN diseñados para actuar conjuntamente y escindir el ADN en el mismo sitio. Las TALEN que actúan conjuntamente pueden denominarse TALEN levógira y TALEN dextrógira, que hace referencia a la quiralidad del ADN. Véase el documento US 8.440.432.

Los efectores TAL son proteínas secretadas por bacterias del géneroXanthomonas. El dominio de unión al ADN contiene una secuencia de 33-34 aminoácidos sumamente conservada, a excepción de los aminoácidos de las posiciones 12 y 13. Estas dos localizaciones son sumamente variables (dos restos variables de repetición (RVD,Repeat Variable Diresidues)) y muestran una fuerte correlación con el reconocimiento específico de nucleótidos. Esta sencilla relación entre la secuencia de aminoácidos y el reconocimiento del ADN ha permitido la genomodificación de dominios específicos de unión al ADN seleccionando una combinación de segmentos repetidos que contienen los RVD adecuados.

La integrasa puede utilizarse para construir integrasas o recombinasas híbridas que sean activas en un ensayo con levaduras o células. Estos reactivos también son activos en células vegetales y animales. En los estudios de TALEN se utilizó el dominio de escisión Fokl de tipo natural, pero algunos estudios de TALEN posteriores también utilizaron variantes del dominio de escisión Fokl con mutaciones diseñadas para mejorar la especificidad y actividad de escisión. Tanto el número de restos de aminoácidos entre el dominio de unión al ADN de TALEN y el dominio de integrasa o recombinasa como el número de bases entre los dos sitios individuales de unión de TALEN, son parámetros para lograr altos niveles de actividad. El número de restos de aminoácidos entre el dominio de unión al ADN de TALEN y el dominio de integrasa o recombinasa puede modificarse mediante la introducción de un espaciador (distinto de la secuencia espaciadora) entre la pluralidad de secuencias repetidas efectoras TAL y el dominio de integrasa o recombinasa. La secuencia espaciadora puede tener una longitud de 6 a 102 o de 9 a 30 nucleótidos o de 15 a 21 nucleótidos. Estos espaciadores normalmente no proporcionarán ninguna otra actividad a la proteína híbrida, aparte de servir como enlace entre la proteína de direccionamiento al ADN (Cas9, TALE o proteína de dedo de zinc) y la integrasa o recombinasa. Los aminoácidos para los espaciadores y para otros usos en la presente divulgación son La relación entre la secuencia de aminoácidos y el reconocimiento del ADN del dominio de unión a TALEN permite diseñar proteínas personalizables. En este caso, la síntesis artificial de genes es problemática debido a una hibridación inadecuada de la secuencia repetitiva que se encuentra en el dominio de unión a TALE. Una solución para esto es utilizar un programa informático disponible públicamente llamado DNAWorks para encontrar oligonucleótidos adecuados para el ensamblaje a través de una PCR en dos etapas; ensamblaje de oligonucleótidos seguido de amplificación de todo el gen. También se han descrito en la técnica diversos métodos de ensamblaje modular para generar construcciones de TALE genomodificadas.

Una vez ensamblados los genes TALEN, éstos se insertan en plásmidos; a continuación, los plásmidos se utilizan para transfectar la célula diana donde se expresan los productos génicos y entran en el núcleo para acceder al genoma. Las TALEN pueden utilizarse en la reescritura genómica induciendo roturas bicatenarias (DSB,double-strand breaks), a las que las células responden con la reparación del ADN, sin embargo, la presente divulgación pretende utilizar el poder de las integrasas víricas para insertar secuencias de ADN de interés en sitios específicos del genoma. Véase la divulgación del documento WO 2014134412 y de la patente de EE.UU.8748134.

PROTEÍNAS DE DEDOS DE ZINC

También se desvelan proteínas de dedos de zinc. Las proteínas de dedos de zinc de unión al ADN y su diseño se describen en los documentos US 7928195, US 2009/0111188 y US 7951925. Las proteínas de dedos de zinc utilizan diversos dominios de dedos de zinc enlazados en un orden específico para unirse a una secuencia específica de ADN. Las proteínas endonucleasas de dedos de zinc están bien establecidas.

Las proteínas de dedos de zinc (ZFP, por sus siglas en inglés) son proteínas que pueden unirse al ADN de una manera específica de secuencia. Los dedos de zinc se identificaron por primera vez en el factor de transcripción TFIIIA de los ovocitos del sapo de uñas africano,Xenopus laevis. Un único dominio de dedo de zinc de esta clase de ZFP tiene una longitud de 30 aminoácidos aproximadamente y varios estudios estructurales han demostrado que contiene un giro beta (que contiene dos restos conservados de cisteína) y una hélice alfa (que contiene dos restos conservados de histidina), que se mantienen en una conformación particular mediante la coordinación de un átomo de zinc por las dos cisteínas y las dos histidinas. Esta clase de ZFP también se conoce como ZFP C2H2 (proteínas de dedos de zinc dos cisteínas y las dos histidinas). También se han sugerido otras clases de ZFP. Véase, p. ej., Jianget al.(1996) J. Biol. Chem. 271:10723-10730 para un análisis de las ZFP con Cys-Cys-His-Cys (C3H). Hasta ahora, se han identificado más de 10.000 secuencias de dedos de zinc en varios miles de factores de transcripción presumibles o conocidos. Los dominios de dedos de zinc no sólo intervienen en el reconocimiento del ADN, sino también en la unión del ARN y en la unión entre proteínas. Las estimaciones actuales indican que esta clase de moléculas constituirá aproximadamente el 2 % de todos los genes humanos.

Muchas proteínas de dedos de zinc tienen restos de cisteína e histidina conservados que coordinan de manera tetraédrica el único átomo de zinc en cada dominio de dedo. En particular, la mayoría de las ZFP se caracterizan por componentes tipo dedo de la secuencia general: -Cys-(X)2-4-Cys-(X)12-His-(X)3-5-His- (SEQ ID NO:49, en la que X representa cualquier aminoácido (las ZFP C2H2). Las secuencias coordinadoras de zinc de esta clase más ampliamente representada, contienen dos cisteínas y dos histidinas con espaciamientos particulares. La estructura plegada de cada dedo contiene un giro β antiparalelo, una región de punta de dedo y una α-hélice anfipática corta. Los ligandos que coordinan el metal se unen al ion zinc y, en el caso de los dedos de zinc de tipo zif268, la α-hélice anfipática corta se une en el surco mayor del ADN. Adicionalmente, la estructura del dedo de zinc está estabilizada por determinados restos de aminoácidos hidrófobos conservados (por ejemplo, el resto que precede directamente a la primera Cys conservada y el resto en la posición 4 del segmento helicoidal del dedo) y por la coordinación del zinc a través de los restos conservados de cisteína e histidina.

OTRAS PROTEÍNAS DE UNIÓN AL ADN QUE PUEDEN UNIRSE A SECUENCIAS DIANA ESPECÍFICAS EN EL ADN GENÓMICO

Las proteínas desveladas incluyen las no relacionadas con las proteínas de dedos de zinc, proteínas TALEN y CRISPR que pueden unirse a secuencias específicas en el ADN genómico de diversos organismos. Estas pueden incluir factores de transcripción, represores transcripcionales, meganucleasas, dominios de unión al ADN de endonucleasas y otras.

INTEGRASAS

En el documento US 2009/0011509 se describen proteínas de fusión de integrasas y endonucleasas de las mismas. Las integrasas introducidas son la integrasa lentivírica y la integrasa del HIV1 (virus de la inmunodeficiencia humana 1). La presente divulgación fusiona una Cas9 catalíticamente inactiva con una integrasa a través de un enlazador para dirigir la integrasa a una región específica de ADN en el genoma que elija el usuario.

La integrasa del HIV-1, al igual que otras integrasas retrovíricas, puede reconocer características especiales en los extremos del ADN vírico situados en las regiones U3 y U5 de las repeticiones terminales largas (LTR) (Brown, 1997). Las secuencias terminales de los extremos de las LTR son las únicas secuencias víricas que se cree que son necesarias en cis para ser reconocidas por la maquinaria de integración de los retrovirus. Las repeticiones invertidas imperfectas cortas están presentes en los bordes exteriores de las LTR tanto en retrovirus murinos como aviares (revisado por Reicinet al., 1995). Junto con el CA subterminal situado en las posiciones más externas 3 y 4 en los extremos del ADN retrovírico (siendo las posiciones 1 y 2 los nucleótidos procesados del extremo 3', estas secuencias son tanto necesarias como suficientes para la correcta integración províricain vitroein vivo. Las secuencias internas al dinucleótido CA parecen ser importantes para la actividad óptima de la integrasa (Brin y Leis, 2002a; Brin y Leis, 2002b; Brown, 1997). Se ha demostrado que los 15 pb terminales de las LTR del HIV-1 son cruciales para el correcto procesamiento del extremo 3' y las reacciones de transferencia de hebrain vitro(Reicinet al., 1995; Brown, 1997). La IN del HIV-1 utiliza sustratos más largos de manera más eficaz que los más cortos, lo que indica que las interacciones de unión se extienden al menos entre 14 y 21 pb hacia el interior desde el extremo del ADN vírico. Brin y Leis (2002a) analizaron las características específicas de las LTR del HIV-1 y concluyeron que tanto las secuencias de reconocimiento LTR U3 como U5 son necesarias para la integración concertada del ADN catalizada por IN, a pesar de que las LTR en U5 son sustratos más eficientes para el procesamientoin vitropor la IN (Bushman y Craigie, 1991; Shermanet al., 1992). Las posiciones 17-20 de las secuencias de reconocimiento de la IN son necesarias para un mecanismo concertado de integración del ADN, pero la IN del HIV-1 tolera variaciones considerables tanto en la terminación U3 como en la U5 que se extienden desde el dinucleótido CA subterminal invariante (Brin y Leis, 2002b). La presente divulgación incluye un vector de ADN que contiene regiones LTR víricas (retrovíricas o HIV) en los extremos 5' y 3' de una localización para alojar la secuencia de ADN o el gen de interés a integrar en el genoma. Las regiones LTR no tienen por qué ser LTR de longitud completa, siempre y cuando funcionen para interactuar con la integrasa para una integración adecuada. Las regiones LTR pueden modificarse para que contengan marcadores detectables (por ejemplo, fluorescentes), de detección por PCR o de selección (por ejemplo, resistencia a antibióticos). El vector está diseñado para ser cortado y linealizado de forma que las regiones LTR queden en los extremos 5' y 3' del fragmento de ADN (a través de los sitios de restricción diseñados para endonucleasas de restricción).

Las integrasas constan de tres dominios conectados por enlazadores flexibles. Estos dominios son un dominio de unión a zinc HH-CC de extremo amínico, un dominio central catalítico y un dominio de unión al ADN de extremo carboxílico (Lodi et al, Biochemistry, 1995, volumen 34, páginas 9826-9833). En algunos aspectos de la divulgación, la integrasa unida a la Cas9 (o a otra molécula de unión al ADN) no tendrá el dominio de unión de extremo carboxílico. En un aspecto de la divulgación, se producirán dos proteínas de fusión diferentes, una con Cas9 catalíticamente inactiva fusionada con el dominio de unión de extremo amínico de una integrasa y la otra con Cas9 catalíticamente inactiva fusionada con el dominio central catalítico de la integrasa. Las dos proteínas de fusión diferentes se diseñarán para unirse a cadenas opuestas del ADN genómico, como se ha visto con los sistemas TALE-Fok1 o dedos de Zinc-Fok1. De esta manera, cuando el dominio de extremo amínico y el central catalítico entran en contacto, en el sitio del ADN genómico, mostrará actividad integrasa. Dado que también se ha observado que la actividad completa de la integrasa implica tetrámeros de integrasa, las proteínas de fusión pueden diseñarse con 1, 2, 3, 4 proteínas integrasa unidas por enlazadores flexibles que pueden tener una longitud de 1 a 20 aminoácidos o de 4 a 12 aminoácidos.

RECOMBINASAS

También se desvelan recombinasas. Las recombinasas, incluyendo las recombinasas Cre, Flp, R, Dre, Kw y Gin, se describen en los documentos US 8816153 y US 2004/0003420. Las recombinasas, tal como la recombinasa Cre, utilizan sitios LoxP para eliminar una secuencia del genoma. Las recombinasas pueden modificarse para que su actividad de recombinación sea constitutivamente activa y también para que sean menos específicas de sitio. Por tanto, es posible dirigir dichas proteínas recombinasas constitutivamente activas sin especificidad de secuencia a secuencias específicas de ADN en un genoma incorporándolas en proteínas de fusión de la presente divulgación. De esta manera, el CRISPR/Cas9 especifica la secuencia de ADN a la que la recombinasa aportará su actividad de recombinación. Dichas proteínas recombinasas pueden ser de tipo natural, constitutivamente activas o inactivas (muertas) con respecto a la actividad recombinasa. Una recombinasa Cas9, tal como Cas9-Gin o Cas9-Cre puede producirse utilizando una secuencia enlazadora o por fusión directa.

SECUENCIA SEÑAL DE LOCALIZACIÓN NUCLEAR (NLS) DE LAS PROTEÍNAS DE FUSIÓN

El dominio del péptido señal (también denominado "NLS", por sus siglas en inglés) procede, por ejemplo, de proteínas como GAL4, SKI3, L29 o la histona H2B de levadura, de la proteína T grande del poliomavirus, de la proteína VP1 o VP2 de la cápside, de la proteína de la cápside VP1 o VP2 del SV40, de la proteína E1a o DBP del adenovirus, de la proteína NS1 del virus de la gripe, de las proteínas del antígeno del núcleo del virus de la hepatitis o la lámina de mamífero, c-myc, max, c-myb, p53, c-erbA, Jun, Tax, receptor de esteroides o Mx (véase Boulikas, Crit. Rev. Eucar. Gene Expression, 3, 193-227 (1993)), del antígeno T del virus simio 40 ("SV40") (Kalderon et. al, Cell, 39, 499-509 (1984)) u otras proteínas con localización nuclear conocida. La NLS procede, por ejemplo, del antígeno T del SV40, pero pueden ser otras secuencias NLS conocidas en la técnica. Pueden utilizarse secuencias NLS en tándem. REGIONES ENLAZADORAS

Los distintos enlazadores utilizados entre las proteínas/péptidos de fusión que se sintetizan estarán compuestos por aminoácidos. Al nivel de DNA, estos están representados por codones de 3 pares de bases (pb), como se conoce en el código genético. Los enlazadores pueden tener una longitud de entre 1 y 1000 aminoácidos, incluyendo cualquier número entero intermedio. Por ejemplo, los enlazadores tienen una longitud de entre 1 y 200 aminoácidos o entre 1 y 20 aminoácidos.

VECTORES DE EXPRESIÓN

Muchos ácidos nucleicos pueden introducirse en las células para dar lugar a la expresión de un gen. Como se utiliza en el presente documento, la expresión ácido nucleico incluye ADN, ARN, y análogos de ácido nucleico, y ácidos nucleicos que son bicatenarios o monocatenarios (es decir, una cadena sencilla en sentido directo (sense) o inverso (antisense). Los análogos de ácido nucleico pueden modificarse en la cadena principal del residuo de base, de azúcar o fosfato, para mejorar, por ejemplo, la estabilidad, la hibridación o la solubilidad del ácido nucleico. Las modificaciones en el residuo de base incluyen la desoxiuridina por la desoximidina, y la 5-metil-2'-desoxicitidina y la 5-bromo-2'-desoxicitidina para la desoxicitidina. Las modificaciones del residuo de azúcar incluyen la modificación del hidroxilo 2' del azúcar ribosa para formar azúcares 2'-0-metilo o 2'-0-alilo. La cadena principal de fosfato de la desoxirribosa fosfato puede modificarse para producir ácidos morfolino nucleicos, en los cuales cada residuo de base está unido a un anillo morfolino de seis miembros o a ácidos peptidonucleidos, en el que la cadena principal de desoxifosfato se sustituye por una cadena principal pseudopeptídicao y se conservan las cuatro bases. Véase, Summerton y Weller (1997) Antisense Nucleic Acid Drug Dev.7(3): 187; y Hyrupet al.(1996) Bioorgan. Med. Chem.4:5. Adicionalmente, la cadena principal de desoxifosfato puede sustituirse, por ejemplo, por una cadena principal de fosforotioato o fosforoditioato, una fosforoamidita o una cadena principal de fosfotriester alquilo. Las secuencias de ácidos nucleicos pueden estar unidas operativamente a una región reguladora, tal como un promotor. Las regiones reguladoras pueden ser de cualquier especie. Como se utiliza en el presente documento, unida operativamente se refiere al posicionamiento de una región reguladora en relación con una secuencia de ácidos nucleicos de forma que permita o facilite la transcripción del ácido nucleico diana. Cualquier tipo de promotor puede unirse operativamente a una secuencia de ácidos nucleicos. Los ejemplos de promotores incluyen, sin limitación, promotores específicos de tejidos, promotores constitutivos, y promotores que responden o no a un estímulo particular (por ejemplo, promotores inducibles).

Regiones adicionales que pueden ser útiles en las construcciones de ácido nucleico, incluyen, pero sin limitación, secuencias de poliadenilación, secuencias de control de la traducción (por ejemplo, un segmento interno de entrada al ribosoma, IRES), potenciadores, elementos inducibles, o intrones. Es posible que estas regiones reguladoras no sean necesarias, aunque pueden aumentar la expresión al afectar a la transcripción, a la estabilidad del ARNm, a la eficiencia de la traducción, o similares. Dichas regiones reguladoras pueden incluirse en una construcción de ácido nucleico según se desee para obtener una expresión óptima de los ácidos nucleicos en la(s) célula(s). A veces puede obtenerse una expresión suficiente sin dichos elementos adicionales.

Puede utilizarse una construcción de ácido nucleico que codifique péptidos señal o marcadores de selección. Los péptidos señalizadores (marcadores) pueden utilizarse de forma que un polipéptido codificado se dirija a una localización celular concreta (por ejemplo, la superficie celular). Son ejemplos no limitativos de tales marcadores de selección la puromicina, el ganciclovir, la adenosina desaminasa (ADA), la aminoglucósido fosfotransferasa (neo, G418, APH), la dihidrofolato reductasa (DHFR), la higromicina-B-fosfotransferasa, la timidina cinasa (TK) y la xantinaguanina fosforribosiltransferasa (XGPRT). Estos marcadores son útiles para seleccionar transformantes estables en cultivo. Otros marcadores de selección incluyen polipéptidos fluorescentes, como la proteína verde fluorescente, la proteína roja fluorescente o la proteína amarilla fluorescente.

Las construcciones de ácido nucleico pueden introducirse en células de cualquier tipo utilizando una variedad de técnicas biológicas conocidas en la materia. Ejemplos no limitativos de estas técnicas incluirían el uso de sistemas de transposones, virus recombinantes que pueden infectar células, o liposomas u otros métodos no víricos tales como la electroporación, la microinyección o la precipitación de fosfato cálcico, que pueden suministrar ácidos nucleicos a las células. También puede utilizarse un sistema denominado Nucleofection<TM>.

Los ácidos nucleicos pueden incorporarse a vectores. Un vector es un término amplio que incluye cualquier segmento específico de ADN diseñado para pasar de un portador a un ADN diana. Un vector puede denominarse vector de expresión o sistema vectorial, que es un conjunto de componentes necesarios para provocar la inserción de ADN en un genoma u otra secuencia de ADN diana, tal como un episoma, un plásmido, o incluso un segmento de ADN de virus/fago. Los vectores suelen contener uno o más casetes de expresión que incluyen una o más secuencias de control de la expresión, en donde una secuencia de control de expresión es una secuencia de ADN que controla y regula la transcripción y/o traducción de otra secuencia de ADN o ARNm, respectivamente.

En la técnica se conocen muchos tipos diferentes de vectores. Por ejemplo, se conocen vectores de plásmidos y víricos, incluyendo vectores retrovíricos. Los plásmidos de expresión de mamífero suelen tener un origen de replicación, un promotor adecuado y un potenciador opcional, así como los sitios de unión a ribosomas que sean necesarios, un sitio de poliadenilación, sitios donadores y aceptores de corte y empalme, secuencias de terminación transcripcional y secuencias 5' flanqueantes no transcritas. Dichos vectores incluyen plásmidos (que también pueden ser portadores de otro tipo de vector), adenovirus, dependoparvovirus (AAV), lentivirus (por ejemplo, HIV-1, SIV o FIV modificados), retrovirus (p. ej., ASV, ALV o MoMLV), y transposones (elementos P, Tol-2, Frog Prince, piggyBac u otros).

Los genes y proteínas bacterianos y víricos que pueden utilizarse en la divulgación se enumeran más adelante en la sección titulada "SECUENCIAS DE LA DIVULGACIÓN". Otras integrasas víricas, por ejemplo, las del virus del tumor mamario murino (MMTV) y adenovirus también pueden utilizarse en los métodos y composiciones que se desvelan en el presente documento.

Una población agrupada de células editadas se considera una mezcla de células que han recibido una reescritura genética y células que no la han recibido.

ENSAYOIN VITROILUSTRATIVO CON ABBIE1

1) Incubar la proteína ABBIE1 con ARN guía;

2) Incubar ABBIE1/ARN guía con ADN donante que tiene LTR parciales para formar el complejo de preiniciación; 3) Incubar el complejo de preiniciación con el plásmido que contiene el gen que se va a reescribir (por ejemplo, CXCR4); y

4) Confirmaciones por PCR y secuenciación del ADN para la integración del ADN donante.

Protocolos con Cas9 se describen, por ejemplo, en Gagnonet al., 2014, http://labs.mcb.harvard.edu/schier/VertEmbryo/Cas9_Protocols.pdf.

Ensayos de actividad integrasa se describen, por ejemplo, en Merkelet al., Methods, 2009, volumen 47, páginas 243-248.

Ejemplos

Los siguientes ejemplos pretenden ilustrar la aplicación de la presente divulgación. Los siguientes ejemplos no pretenden definir completamente ni limitar de otro modo el alcance de la divulgación.

EJEMPLO 1: VECTORES DE ADN PARA LA EXPRESIÓN DE PROTEÍNAS DE FUSIÓN CAS9-INTEGRASA La secuencia de ADN de la Cas9 catalíticamente inactiva se incorpora a un vector de expresión con un espaciador de 12, 15, 18, 21, 24, 27 o 30 pb (que codifica 4, 5, 6, 7, 8, 9 o 10 aminoácidos como enlazador entre la Cas9 y la integrasa) y la integrasa del HIV1. En otros experimentos, se utilizan recombinasas de origen bacteriano o fágico en lugar de integrasas. Estas incluyen la recombinasa Hin (SEQ ID NO: 25) y la recombinasa Cre (SEQ ID NO: 26) con o sin mutaciones que les permitan recombinar ADN en cualquier otro sitio. Puede incluirse una etiqueta de His o cMyc (u otra secuencia útil para la purificación de proteínas) para aislar la proteína de fusión. El vector de expresión utiliza un promotor que se activará en las células a las que se proporcione el vector. El CMV (promotor de citomegalovirus) se utiliza habitualmente en los vectores de expresión para células de mamíferos. También se suele utilizar el promotor de U6. En determinadas realizaciones puede utilizarse un promotor de T7 para la transcripciónin vitro. EJEMPLO 2: VECTOR DE ADN PARA LA EXPRESIÓN DE LA SECUENCIA DE ADN DE INTERÉS (GEN DE INTERÉS)

La secuencia de ADN de interés se insertará en el vector de expresión adecuado y se añadirán sitios apropiados a la secuencia de ADN de interés para que la integrasa del HIV1 reconozca las secuencias para su integración en el genoma. Estos sitios se denominan sitios att (sitios att U5 y U3) (véase Masuda et al, Journal of Virology, 1998, volumen 72, páginas 8396-8402). Los brazos de homología para el sitio diana en el genoma pueden incluirse en regiones que flanquean los extremos 5' y 3' de la secuencia de ADN (gen) de interés (véase Ishii et al, PLOS ONE, 24 de septiembre de 2014, DOI: 10.1371/journal.pone.0108236). Cuando se utiliza una recombinasa, es posible que no se incluyan los sitios de reconocimiento de la integrasa. Se incluirán marcadores, tales como marcadores de resistencia a fármacos (por ejemplo, blasticidina o puromicina), para comprobar la inserción de la secuencia de ADN de interés y ayudar a examinar inserciones aleatorias en el genoma. Estos marcadores de resistencia pueden genomodificarse para eliminarse del genoma diana. Por ejemplo, flanqueando el gen de resistencia a puromicina con sitios LoxP e introduciendo la recombinasa CRE expresada de forma exógena, se elimina la secuencia interna dejando una cicatriz que contenga un sitio LoxP.

EJEMPLO 3: VECTOR DE ADN PARA LA EXPRESIÓN DE LA RETROTRANSCRIPTASA

Una retrotranscriptasa también puede coexpresarse en dichos sistemas ya que la secuencia de ADN (Gen) de interés diseñada en el vector se expresará como ARN y deberá convertirse de nuevo a ADN para su integración por la enzima integrasa. La retrotranscriptasa puede ser de origen vírico (por ejemplo, un retrovirus como el HIV1). Esta puede incorporarse dentro del mismo vector que la secuencia de ADN de interés.

EJEMPLO 4: COEXPRESIÓN DE INTEGRASAS (O RECOMBINASAS) DIRIGIDAS A ADN CON LA SECUENCIA DE ADN DE INTERÉS

Se electroporaron células con los vectores descritos anteriormente junto con las guías de ARN de Cas9 necesarias para el sitio diana en el genoma. En algunos experimentos, se crearon vectores que expresaban todos los componentes (fusión Cas9/integrasa (o recombinasa), las guías de ARN de Cas9, y la secuencia de ADN de interés con sitios de reconocimiento de integrasa y con o sin brazos de homología). Una retrotranscriptasa también puede coexpresarse en dichos sistemas ya que la secuencia de ADN (Gen) de interés diseñada en el vector se expresará como ARN y deberá convertirse de nuevo a ADN para su integración por la enzima integrasa. La retrotranscriptasa puede ser de origen vírico (por ejemplo, un retrovirus como el HIV1). En otros experimentos, la secuencia de ADN de interés se linealiza antes de su introducción en la célula. Las secuencias guía de ARN de Cas9 y la secuencia de ADN de interés tuvieron que diseñarse e insertarse en el vector antes de su uso mediante protocolos estándar de biología molecular.

EJEMPLO 5: EXPERIMENTOS DE PRUEBA Y ENSAYOS DE INSERCIONES INESPECÍFICAS

Células en las que falta la expresión de un gen determinado, tales como fibroblastos embrionarios de ratón de un modelo de ratón con inactivación o células genomodificadas para la inactivación de un gen determinado, se transfectan o electroporan con los vectores anteriores en los que se incluye el gen de interés. Se utilizarán conjuntos de cebadores quiméricos diseñados para cubrir el gen insertado, así como la secuencia genómica flanqueante, para detectar grupos iniciales de células con reescritura genómica. A continuación, para garantizar la monoclonalidad, se realiza clonación por dilución limitada (LDC,Limited Dilution Cloning) y/o análisis FACS (Fluorescence-Activated Cell Sorting, Clasificación de Células Activada por Fluorescencia). Para garantizar que los clones aislados son homogéneos con respecto a la reescritura diseñada, se realiza secuenciación de próxima generación (NGS,Next Generation Sequencing) o análisis del polimorfismos mononucleotídicos (SNP,Single Nucleotide Polymorphism) como etapa final de control de calidad. Otros mecanismos de detección pueden incluir, pero sin limitación, qRT-PCR (reacción en cadena de la polimerasa cuantitativa en tiempo real con retrotranscriptasa) e inmunoelectrotransferencia (Western blotting) con anticuerpos apropiados. Si la proteína está asociada a un determinado fenotipo de las células, éstas pueden examinarse para rescatar ese fenotipo. Los genomas de las células se analizan para determinar la especificidad de la inserción de ADN y el número relativo de inserciones inespecíficas, caso de haberlas.

EJEMPLO 6: EXPRESIÓN Y AISLAMIENTO DE LA PROTEÍNA INTEGRASA UNIDA A CAS9

Los vectores diseñados para la expresión génica enE colio en células de insecto se incorporarán aE colio a células de insecto y se dejarán expresar durante un periodo de tiempo determinado. Para generar la proteína integrasa unida a Cas9 (o Cas9 inactiva) se utilizarán varios diseños. Los vectores también incorporarán una etiqueta que no se limitará a una etiqueta de His o cMyc para el aislamiento final de la proteína con alta pureza y rendimiento. La preparación de la proteína quimérica incluirá, pero sin limitación, técnicas cromatográficas estándar. La proteína también puede diseñarse con una o más NLS (secuencia señal de localización nuclear) y/o con una secuencia TAT. La señal de localización nuclear permite a la proteína entrar en el núcleo. La secuencia TAT facilita la entrada de una proteína en una célula (es un péptido de penetración celular). Pueden contemplarse otros péptidos de penetración celular conocidos. Una vez transcurrido el tiempo suficiente para la expresión, se recogerá el lisado de proteínas de las células y se purificará en la columna adecuada dependiendo de la etiqueta utilizada. A continuación, la proteína purificada se colocará en la solución tampón adecuada y se conservará a -20 o -80 grados centígrados.

EJEMPLO 7: USO DE CAS9-INTEGRASA PARA INCORPORAR CODONES DE TERMINACIÓN JUSTO CADENA ARRIBA DEL SITIO DE INICIO DE LA TRANSCRIPCIÓN

La divulgación incluye un método para crear una línea celular u organismo inactivado. El sistema anterior se utiliza con la secuencia de ADN de interés de 1, 3, 6, 10, 15 o 20 codones de terminación consecutivos que se colocarán justo después del sitio de inicio ATG del gen diana. Esto creará una inactivación génica efectiva ya que la transcripción/traducción se detendrá al alcanzar el codón de terminación inmediato después del sitio de inicio ATG. Los codones de terminación adicionales ayudarán a impedir que la transcriptasa continúe más allá del punto deseado (en caso de que ésta pase por alto el primer codón de terminación).

EJEMPLO 8: USO DE ABBIE1 (O DE OTRAS VARIACIONES QUE TENGAN OTROS DOMINIOS DE UNIÓN ESPECÍFICOS AL ADN) COMO PROTEÍNA PURIFICADA PARA REESCRIBIR LOS GENOMAS DE LAS CÉLULAS Incubar, en un tampón adecuado, la proteína aislada Abbie1 (otra proteína de unión específica de secuencias de ADN unida a la integrasa retrovírica) con ADN insertable/integrable que tenga regiones de LTR víricas (para la formación de tetrámeros u otros multímeros dependiendo del caso). Como alternativa, con la secuencia de ADN insertable, puede combinarse una composición prefabricada de proteína Abbie1 aislada con ARN guía. Incluir ARN guía e incubar para incorporar el ARN guía. Transfectar o electroporar (u otra técnica de suministro de proteínas a las células) la preparación de Abbie1/ADN en las células. Dejar tiempo para que se produzca la reescritura del genoma/ADN. Comprobar la inserción de la secuencia de ADN insertable diseñada en el sitio específico del ADN genómico de la célula. Comprobar si hay inserciones inespecíficas mediante PCR y secuenciación de ADN.

Como está previsto actualmente, el vector de expresión bacteriano será el pMAL-c5e, que es un producto de NEB que ya no se utiliza y una de las opciones de clonación de producción propia de Genscript. Spy Cas9 con codones optimizados se clona con la etiqueta de his y el sitio de escisión de la proteasa TEV (Tobacco Etch Virus, virus del grabado del tabaco) dentro del marco de lectura (in frame) con la etiqueta de la proteína de unión a maltosa (MBP,maltose-binding protein). El ORF (open reading frame, marco abierto de lectura) está bajo el promotor inducible Tac, y el vector también codifica el represor lac (LacI) para una regulación más estricta. La MBP se utilizará únicamente como una etiqueta de estabilización y no como una etiqueta de purificación, ya que la resina de amilosa es bastante costosa. El material expresado soluble se purificará mediante cromatografía de afinidad con Ni (níquel), después, Cas9 se libera de la MBP por acción de la proteasa TEV, se purifica mediante cromatografía de intercambio catiónico, y se realiza un pulido usando filtración en gel.

EJEMPLO 9: DISEÑO DE CONSTRUCCIONES DE PROTEÍNAS DE FUSIÓN

Diseño de dominio de dedo de Zinc específico de secuencia, TALE o ARN guía para la estrategia basada en CRISPR dirigida a una secuencia de ADN diana. Se utiliza un programa informático de diseño en línea de elección.

Se produce una construcción de ADN con secuencias codificantes para la integrasa, transposasa o recombinasa; un aminoácido enlazador adecuado; la proteína adecuada de dedo de zinc, TALE o CRISPR (por ejemplo, Cas9, Cpf1); y una señal de localización nuclear (o señal de localización mitocondrial) para formar la proteína integrasa de fusión específica del sitio. Estas se contemplan en múltiples disposiciones. Si se desea, puede incluirse una etiqueta adecuada para el aislamiento y la purificación de proteínas (por ejemplo, proteína de unión a maltosa (MBP) o etiqueta de His).

La construcción de ADN puede utilizar un promotor celular de mamífero o un promotor bacteriano común en la técnica (por ejemplo, CMV, T7, etc.)

Puede producirse una proteína de fusión recombinante utilizandoE colicomo fuente. Aislar la proteína por medios estándar conocidos en la técnica (por ejemplo, columnas de MBP, columnas de níquel-sefarosa, etc.).

Ensamblar el complejo Donante-RNP (formar un dúplex de los oligos de ARN y mezclarlos con la proteína de fusión de la invención (donde la proteína de fusión tiene una proteína relacionada con CRISPR que es inactiva en su actividad de endonucleasa pero conserva su capacidad de unirse al ADN, p. ej., ABBIE1) - estas etapas de formación de RNP (ribonucleoproteína) no son necesarias para los dominios de dedos de zinc y TALE.

1. Mezclar ADN Donante con dominios de LTR apropiados y la secuencia insertable, y la proteína de fusión e incubar durante 10 minutos, (como alternativa, añadir ADN Donante después de la formación del complejo de RNP) 2. Resuspender cada oligo de ARN (ARNcr y ARNtracr) en tampón IDTE sin nucleasas. Por ejemplo, usando una concentración final de 100 µM.

3. Mezclar los dos oligos de ARN en concentraciones equimolares en un tubo de microcentrífuga esterilizado. Por ejemplo, crear una concentración dúplex final de 3 µM utilizando la siguiente tabla: Componentes y Cantidades, ARNcr (ARN CRISPR) 3 µl a 100 µM, ARNtracr (ARN CRISPR transactivante) 3 µl a 100 µM, tampón de Dúplex sin nucleasas 94 µl, Volumen Final 100 µl

4. Calentar a 95 °C durante 5 min.

5. Retirar del calor y dejar enfriar a temperatura ambiente (15-25 °C) en la encimera.

6. En caso necesario, diluir el ARN duplexado a una concentración de trabajo (por ejemplo, 3 µM) en tampón de Dúplex sin nucleasas.

7. Diluir la proteína de fusión a una concentración de trabajo (por ejemplo, 5 µM) en tampón de trabajo (HEPES 20 mM, KCI 150 mM, Glicerol al 5 %, DTT 1 mM, pH 7,5).

8. Para cada transfección, combinar 1,5 pmol de oligos de ARN duplexado (Etapa A5) con 1,5 pmol de proteína de fusión (Etapa A6) en medio Opti-MEM a un volumen final de 12,5 µl.

9. Incubar a temperatura ambiente durante 5 minutos para ensamblar los complejos de RNP.

EJEMPLO 10: TRANSFECCIÓN INVERSA DE LA PROTEÍNA DE FUSIÓN ARNG EN UNA PLACA DE 96 POCILLOS 1. Incubar lo siguiente a temperatura ambiente durante 20 min para formar complejos de transfección: Componentes y Cantidades, RNP (Etapa A8) 12,5 µl, Reactivo de Transfección RNAiMAX Lipofectamine<®>1,2 µl, Medio Opti-MEM<®>11,3 µl, Volumen Total 25,0 µl

2. Durante la incubación (Etapa B1), diluir las células cultivadas a 400.000 células/ml utilizando medios completos sin antibióticos.

3. Una vez finalizada la incubación, añadir 25 µl de complejos de transfección (de la Etapa B1) a una placa de cultivo tisular de 96 pocillos.

4. Añadir 125 µl de células diluidas (de la Etapa B2) a la placa de cultivo tisular de 96 pocillos (50.000 células/pocillo); la concentración final de RNP será de 10 nM).

5. Incubar la placa que contiene los complejos de transfección y las células en una incubadora de cultivo tisular (37 °C, CO2al 5 %) durante 48 h. Detectar las mutaciones específicas, utilizar la PCR con los cebadores adecuados (cebadores dentro de la secuencia donante y cebadores que rodean el sitio de inserción diana). EJEMPLO 11: PROTOCOLO PARA PROBAR LA ESPECIFICIDAD DE CRISPR/CAS9

Producir dCas9 (Cas9 inactiva para cortar el ADN) unida a biotina (dCas9-biotina). Cas9 (S. pyogenes,S. aureus, etc.). A continuación se describen los métodos de biotinilación (marcaje con biotina).

Método de biotinilación n.º 1: diseñar la etiqueta avi (~15 restos) en el extremo amino (N) o carboxilo (C), expresar y purificar como la proteína TN (de tipo natural) (sin etiqueta). Utilizar la ligasa de biotina (BirA) deE. coliy biotina para biotinilar la Cas9 con etiqueta avi. Este esquema se utiliza para biotinilar quimiocinas. Se cree que la PI (propiedad intelectual) de la tecnología etiqueta-avi expiró hace unos años.

Método de biotinilación n.º 2.1: la biotina funcionalizada con succinimidil-éster puede incorporarse a los restos de lisina expuestos en la superficie (sin necesidad de reacción enzimática). Para proteínas tan grandes como Cas9, puede ser una opción viable.

Método de biotinilación n.º 2.2: en la misma línea, la biotina-maleimida está disponible en el comercio, y pueden conjugarse en las cisteínas expuestas en la superficie (sin enzima).

Se realizarán pruebas para caracterizar la Cas9 biotinilada en términos de escisión y unión al ADN.

Las placas de 96 pocillos recubiertas de estreptavidina están disponibles en el comercio, pero también pueden ser de producción propia.

Unir dCas9-biotina a placas de plástico (96 pocillos, 24 pocillos, 384 pocillos, etc.).

Suministrar a cada pocillo los ARN guía diseñados. Permitir que los ARN guía interaccionen con la proteína Cas9. Suministrar ADN genómico a cada pocillo o ADN con la secuencia diana. Permitir que Cas9 se una al ADN.

Lavar los pocillos con el tampón adecuado.

Proporcionar un adaptador (oligómero de ADN). Permitir que se produzca la unión.

Digerir con enzimas de restricción el ADN genómico para hacerlo más manejable y facilitar el ligamiento del adaptador. Lazar los pocillos.

Realizar la secuenciación del ADN para identificar los sitios de unión (específicos frente a inespecíficos).

EJEMPLO 12: REESCRITURA DEL NRF2 CON ABBIE 1

LaFIG.5muestra la reescritura genómica con Abbie1 dirigida al exón 2 del Nrf2 usando las guías ARNgs2 y ARNgs3 del NrF2. Detección con PCR contra el exón 2 dirigido al locus del Nrf2 para la inactivación con reescritura Abbie1. La transfección con Abbie1 dirigida al exón 2 del Nrf2 utilizando las guías ARNgs 2 y 3 del Nrf2 mostró la integración del donante en la región diana. Las bandas únicas se identifican como 1-8.

LaFIG. 6muestra datos teóricos generados mediante reescritura genómica con Abbie1. Representación de la electroforesis en gel de ADN que visualiza el ADN donante insertado mediante el sistema Abbie1 en el material genómico diana utilizando los ARNgs 1-3. Las bandas negras representan el producto de fondo debido a la metodología de la PCR. Las bandas rojas representan productos únicos generados por la amplificación del inserto y del material genético que flanquea la región del inserto. Las bandas múltiples representan una posible inserción múltiple en la región diana.

LaFIG. 7muestra la reescritura genómica con Abbie1 dirigida al exón 2 del Nrf2 usando la guía ARNgs 3 del Nrf2. Detección con PCR contra el exón 2 dirigido al locus del Nrf2 para la inactivación con reescritura Abbie1. El direccionamiento al exón 2 del Nrf2 usando la guía ARNgs 3 del Nrf2 sugirió inserciones de donantes, tal y como indican los cebadores de la PCR diseñados para la secuencia donante y el sitio adyacente a la inserción esperada. Las bandas únicas se identifican como 1-4

LaFIG. 8muestra la inactivación con Abbie1 del Nrf2 en células Hek293T agrupadas. (A)Análisis de inmunoelectrotransferencia utilizando anticuerpos policlonales contra la isoforma 55kD (Santa Cruz Bio) que muestra la inactivación del Nrf2 en poblaciones de células HEK293T agrupadas. (B) Control de carga de GAPDH (gliceraldehído-3-fosfato deshidrogenasa) (Santa Cruz Bio).

LaFIG. 9muestra la inactivación con Abbie1 del Nrf2 en células Hek293T agrupadas. (A) Análisis de inmunoelectrotransferencia utilizando anticuerpos monoclonales contra el Nrf2 (Abcam) que nuestra la inactivación del Nrf2 en poblaciones de células HEK293T agrupadas. (B) Control de carga de GAPDH. (C) Promedio del análisis densitométrico que muestra la disminución de las proporciones de expresión en comparación con el control.

Las células tratadas con Abbie1 generan una banda de PCR única que indica la integración de ADN donante. La confirmación fenotípica de la inactivación en una línea celular agrupada de HEK293T se confirmó mediante análisis de inmunoelectrotransferencia detectando dos isoformas con anticuerpos únicos y diferentes. En menos de dos semanas, en poblaciones agrupadas, se observó una inactivación de ~80 % por integración.

EJEMPLO 13: REESCRITURA DE CXCR4 MEDIANTE ABBIE1

La FIG.10 muestra la reescritura genómica con Abbie1 dirigida al exón 2 del CXCR4. Detección por PCR dirigido al exón 2 de CXCR4 mediante reescritura genómica con Abbie1. Se diseñaron cuatro conjuntos de cebadores contra la región de interés. Los conjuntos número 2 y 4 parecen haber generado bandas únicas que sugieren la integración de ADN donante en la región de interés.

EJEMPLO 14: TRANSFECCIÓN PARA EL EXPERIMENTO DE INACTIVACIÓN EN EL LOCUS DEL NRF2 USANDO ABBIE1.

Nota: en una sola reacción se utilizan 500 ng de proteína y 120 ng de ARNgs (ARN guía sencillo). La cantidad de ADN depende del tamaño de las construcciones donantes. El ADN donante (ADN con secuencias LTR) puede incubarse antes con ABBIE1, durante, o después de proporcionar/transfectar/electroporar a las células. Todas las reacciones se preparan en una cabina de bioseguridad esterilizada.

Día 1: Células de riñón humano embrionario (HEK 293T) se sembraron en placas de cultivo de 24 pocillos (Corning) a razón de 200.000 células HEK293T (ATCC) por pocillo en 500 µl de DMEM (Gibco) complementado con suero bovino fetal al 10 % (Omega Scientific). Se dejó que las células se recuperaran durante 24 horas.

Día 2: Preparación de ABBIE1:

Tubo 1:

Proteína ABBIE1 purificada (SEQ ID NO: 58) y ADN donante (SEQ ID NO: 101) en un medio de transfección con reducción de suero (OptiMEM, Life Technologies) en proporción molar 1:1 durante 10 minutos a temperatura ambiente. Añadir el ARNgs en exceso molar de 1,3 veces (aproximadamente 120 ng) al complejo de proteína/ADN y continuar la incubación durante 10 minutos más a temperatura ambiente. El volumen de esta mezcla es de 25 µl. Tubo 2:

se añaden 2 µl de reactivo de transfección (RNAiMAX, Life Technologies) a 23 µl de OptiMEM. Y se deja incubar durante 10 minutos a temperatura ambiente.

Mezclar los Tubos 1 y 2 (volumen final de 50 µl) e incubar durante 15 minutos a temperatura ambiente.

Añadir al pocillo toda la mezcla de transfección de 50 µl.

La mitad de las células con reescritura genómica agrupadas se recogió 48 horas después de la transfección para verificar la reescritura del ADN genómico en una población agrupada. La verificación de la reescritura genómica se realizó mediante reacción en cadena de la polimerasa (PCR). Se realizó PCR frente a la región diana, como se ha descrito anteriormente (véase el protocolo de PCR) y el resto se sembró en placas de cultivo de 6 cm (Corning) y se dejó recuperar durante 48 horas.

Día 5: Detección de cambios fenotípicos mediante inmunoelectrotransferencia.

Se realizó un análisis de inmunoelectrotransferencia estándar de las isoformas del NrF2 usando anticuerpos primarios dirigidos a la isoforma 55kD (Santa Cruz Biotechnology, sc-722) así como a la isoforma 98kD (Abcam, ab-62352). GAPDH (Santa Cruz Biotechnology, sc-51907)

EJEMPLO 15: CONDICIONES DE LA PCR PARA LA DETECCIÓN DE LA REESCRITURA GENÓMICA USANDO ABBIE1 PARA LOS LOCUS NRF2 Y CXCR4.

Número de registro del Nrf2 humano

Uniprot: Q16236

ID (identificador) asignado al gen de la base de datos Ensembl: ENSG00000116044

Reescritura de secuencias diana y los PAM del Nrf2 (exón 2): Utilizados para el diseño de los ARNgs 1-3.

GCGACGGAAAGAGTATGAGC TGG TATTTGACTTCAGTCAGCGA CGG TGGAGGCAAGATATAGATCT TGG

Cebadores clave para detectar la integración en la diana del Nrf2

Conjunto de cebador 1: Cebador 1:5'-GTGTTAATTTCAAACATCAGCAGC-3', Cebador 2: 5'-GACAAGACATCCTTGATTTG-3'

Conjunto de cebador 2: Cebador 1:5'-GAGGTTGACTGTGTAAATG-3', Cebador 2: 5'-GATACCAGAGTCACACAACAG-3'

Conjunto de cebador 3: Cebador 1: 5'-TCTACATTAATTCTCTTGTGC-3', Cebador 2:5'-GATACCAGAGTCACACAACAG-3'

Número de registro del CXCR4 humano

Uniprot P61073

ID (identificador) asignado al gen de la base de datos Ensembl: ENSG00000121966

Secuencia diana de reescritura y PAM de CXCR4 (Exón 2): Utilizado para el diseño del ARNgs 1.

GGGCAATGGATTGGTCATCC TGG

Cebadores clave para detectar la integración en la diana del CXCR4

Conjunto de cebador 1: Cebador 1: 5'- TCTACATTAATTCTCTTGTGC-3', Cebador 2: 5'-GACAAGACATCCTTGATTTG-3'

Conjunto de cebador 2: Cebador 1: 5'- TCTACATTAATTCTCTTGTGC-3', Cebador 2: 5'-GATACCAGAGTCACACAACAG -3'

Conjunto de cebador 3: Cebador 1: 5'- GAGGTTGACTGTGTAAATG -3', Cebador 2: 5'-GACAAGACATCCTTGATTTG-3'

Conjunto de cebador 4: Cebador 1: 5'- GAGGTTGACTGTGTAAATG -3', Cebador 2: 5'-GATACCAGAGTCACACAACAG -3'

Condiciones de ciclado de la PCR utilizadas para la detección del ADN donante integrado

*Nota: las temperaturas de hibridación variarán en función de la secuencia del cebador

etiquetar Cas9 con Avi para la biotinilación

Secuencia de la etiqueta avi utilizada para la biotinilación de Cas9

Secuencia de aminoácidos:

G G D L E G S G L N D I F E A Q K I E W H E *

Secuencia de ácidos nucleicos:

Primera sección subrayada = extremo carboxilo de Cas9

Sección en cursiva = sitio de restricción/enlazador

Segunda sección subrayada = etiqueta avi (sitio de biotinilación resaltado)

EJEMPLO 16: PROTOCOLO DE EXPRESIÓN DE LA PROTEÍNA DE FUSIÓN ABBIE1.

Transformación de la construcción de expresión que contiene la proteína de fusión de longitud completa (SEQ ID NO: 57).

Tomar células competentes deE. colidel congelador a -80 °C.

Encender el bañomaría a 42 °C.

Poner las células competentes en un tubo (Eppendorf o similar) de 1,5 ml. Para transformar una construcción de ADN, utilizar 50 ul de células competentes.

Mantener los tubos en hielo.

Añadir 50 ng de ADN circular a las células deE. coli. Incubar en hielo durante 10 min. para descongelar las células competentes.

Poner el/los tubo/s con el ADN y las células deE. colien un bañomaría a 42 °C durante 45 segundos. Volver a poner los tubos en hielo durante 2 minutos para reducir que se produzcan daños a las células deE. coli.

Añadir 1 ml de LB (sin antibiótico). Incubar los tubos durante 1 hora a 37 °C. (Los tubos pueden incubarse durante 30 minutos)

Extender aproximadamente 100 ul del cultivo resultante en placas de LB (medio de cultivo Luria-Bertani) con el antibiótico apropiado

Recoger las colonias 12-16 horas después aproximadamente.

INOCULACIÓN Y EXPANSIÓN

Inocular un matraz de 1 litro que contiene LB y antibiótico

Permitir que el cultivo bacteriano crezca hasta alcanzar una DO de 0,6 e inducir con isopropil β-D-1-tiogalactopiranósido (IPTG) a una concentración final de 1 mM

Permitir que el cultivo se expanda durante 6-8 horas y centrifugar el cultivo bacteriano suspendido a una fuerza mínima de dos mil G durante 10 minutos.

Congelar el sedimento a -80 °C para su posterior procesamiento

PREPARACIÓN Y PURIFICACIÓN DE PROTEÍNAS

Todas las etapas se realizan a temperatura ambiente.

Someter las células a lisis mediante 2 ciclos de congelación-descongelación en Tris 20 mM a un pH de 8,0, NaCl 300 mM, 0,1 mg/ml de lisozima de clara de huevo de gallina. Centrifugar a 6.000 g durante 15 minutos y guardar el sobrenadante.

Cargar el sobrenadante en una columna de agarosa y Ni-IDA (ácido nitrilotriacético-níquel) equilibrada en Tris 20 mM a un pH de 8,0, cloruro sódico 300 mM. Eluir la proteína con un gradiente de 0 a 200 mM de imidazol. Identificar las fracciones que contienen la proteína de fusión mediante SDS-PAGE (electroforesis en gel de poliacrilamida con dodecil sulfato de sodio) al 7 %.

Agrupar las fracciones y diluir con Tris 20 mM a un pH de 8,0 de forma que la concentración final de NaCl sea de 50 mM. Cargar en una columna de Q-sefarosa y eluir con un gradiente de cloruro sódico de 0 a 500 mM. Identificar las fracciones que contienen la proteína de fusión mediante SDS-PAGE al 7 %.

Agrupar las fracciones y diluir con Tris 20 mM a un pH de 8,0 de forma que la concentración final de NaCl sea de 100 mM. Cargar en una columna de SP-sefarosa y eluir con un gradiente de cloruro sódico de 0 a 500 mM. Identificar las fracciones que contienen la proteína de fusión mediante SDS-PAGE al 7 %.

Agrupar las fracciones, medir la concentración por su absorbancia UV a 280 nm, y concentrar mediante un filtro centrífugo hasta la concentración final de 400 µg/ml. Añadir glicerol hasta alcanzar la concentración final del 50 %. Conservar a -20 °C.

Aunque en el presente documento, se han mostrado y descrito determinadas realizaciones, será obvio para los expertos en la materia que dichas realizaciones se proporcionan solamente a modo de ejemplo. Numerosas variaciones, cambios y sustituciones se les ocurrirán ahora a los expertos en la materia sin apartarse de la divulgación. Debe entenderse que se pueden emplear diversas alternativas a los casos de la divulgación descritos en el presente documento para llevar a la práctica la divulgación. Se pretende que las siguientes reivindicaciones definan el alcance de la divulgación y que los métodos y estructuras dentro del alcance de estas reivindicaciones y sus equivalentes estén cubiertos de ese modo.

SECUENCIAS DE LA DIVULGACIÓN

Para cada secuencia proporcionada a continuación, se facilita la siguiente información: tipo de secuencia (ácido nucleico o aminoácido), fuente (por ejemplo,E. coli), longitud y número de identificación (si está disponible).

Un primer polinucleótido de la divulgación puede codificar, por ejemplo, una proteína Cas9, Cpf1, TALE o ZnFn. Un segundo polinucleótido de la divulgación puede codificar, por ejemplo, una integrasa, transposasa o recombinasa. A continuación se enumeran primeras y segundas secuencias de polinucleótidos ilustrativas, así como secuencias de proteínas, junto con secuencias enlazadoras ilustrativas, que pueden utilizarse en las composiciones (construcciones, proteínas de fusión) y métodos descritos en el presente documento. En la divulgación pueden proporcionarse otras secuencias de polinucleótidos, de proteínas o enlazadoras, que no figuran en la Tabla 1, pero que pueden utilizarse en las composiciones (construcciones, proteínas de fusión) y métodos descritos en el presente documento. Por ejemplo, SEQ ID NO: 49, SEQ ID NO: 57, SEQ ID NO: 58, y/o partes de las mismas.

Una secuencia enlazadora puede tener cualquier longitud, por ejemplo, una longitud de 3 a 300 nucleótidos, una longitud de 6 a 60 nucleótidos o cualquier longitud que permita fusionar el primer y el segundo polinucleótido. Un organismo, p. ej.,E. coli, puede producir un polipéptido, o puede fabricarse de forma sintética o puede utilizarse una combinación de ambos.

Secuencias de ácidos nucleicos ilustrativas: 1, 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 27-47, 49, 55, 56, 57, 62, 64, 66, 68, 70, 79, 82 y 83.

Secuencias de aminoácidos ilustrativas: 2, 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 25, 26, 48, 50, 52, 58, 63, 65, 67, 69, 71, 72-78 y 80.

TABLA 1: PRIMERA PROTEÍNA, SEGUNDA PROTEÍNA, O ENLAZADOR

TABLA 2: LISTA PARCIAL DE SECUENCIAS

SECUENCIAS ADICIONALES

SEQ ID NO: 1

NOMBRE:S. thermophiluscds (secuencia codificante) de Csn1, HQ712120.1 SECUENCIA:

SEQ ID NO: 2

SECUENCIA:

SEQ ID NO: 3

NOMBRE:P. multocidaCas9

SECUENCIA:

SEQ ID NO: 4

SECUENCIA:

SEQ ID NO: 5

NOMBRE:S. mutansCas9

SECUENCIA:

SEQ ID NO: 6

SECUENCIA:

SEQ ID NO: 7

NOMBRE:N. meningitidesCas9

SECUENCIA:

SEQ ID NO: 8

SECUENCIA:

SEQID NO: 9

SECUENCIA:

SEQ ID NO: 10

NOMBRE: gi|777888062|gb|KJQ69483.1| endonucleasa Cas9 asociada a CRISPR [Streptococcus mitis]

SECUENCIA:

SEQ ID NO: 11

SECUENCIA:

SEQ ID NO: 12

NOMBRE: gi|357584860|gb|EHJ52063.1| proteína Cas9/Csn1 asociada a CRISPR, subtipo II/NMEMI [Streptococcus macacaeNCTC 11558]

SECUENCIA:

SEQID NO: 13

SECUENCIA:

SEQ ID NO: 14

NOMBRE: gi|409693032|gb|AFV37892.1| proteína asociada a CRISPR, Familia Csn1 (Streptococcus pyogenesA20)

SECUENCIA:

SEQ ID NO: 15

NOMBRE: gi|150381361|gb|EF472760.1| HIV-1 clon 39B del gen de la integrasa (pol) de EEUU, secuencia codificante parcial

SECUENCIA:

SEQ ID NO: 16

NOMBRE: gi|150381362|gb|ABR68182.1| integrasa, parcial [virus de la inmunodeficiencia humana 1] SECUENCIA:

SEQ ID NO: 17

NOMBRE: gi|459980|gb|L20651.1|STLKIAPOL gen de la integrasa (pol) del virus de tipo 1 linfotrópico de células T de simio, secuencia codificante parcial

SECUENCIA:

SEQ ID NO: 18

NOMBRE: gi|459981|gb|AAA47841.1| integrasa, parcial [virus 1 linfotrópico de linfocitos T de simio] SECUENCIA:

LVERSNGILKTLLYKYFTDKPDLPMDNALSIALWTINHLNVLTHCHSEQ ID NO: 19

NOMBRE: gi|321156784:1-1509 elemento integrador y conjugador deStreptococcus pneumoniaeICESpn11930, cepa 11930

SECUENCIA:

SEQ ID NO: 20

NOMBRE: gi|321156785|emb|CBW38769.1| Integrasa [Streptococcus pneumoniae]

SECUENCIA:

SEQ ID NO: 21

NOMBRE: gi|43090: gen de la dhfrVII deE.coli(Tn5086) 1-436 de la dihidrofolato reductasa tipo VII y gen sulI, extremo 5' (integrasa)

SECUENCIA:

SEQ ID NO: 22

NOMBRE: gi|43091|emb|CAA41325.1| integrasa, parcial (plásmido) [Escherichia coli] SECUENCIA:

SEQ ID NO: 23

>gi|397912605:40372-41898 fago THSA-485A deThermoanaerobacterium, genoma completo - recombinasa

SEQ ID NO: 24

>gi|397912662|ref|YP_006546326.1| Recombinasa [fago THSA-485A deThermoanaerobacterium]

SEQ ID NO: 25

Recombinasa gin

>gi|657193240|sp|Q38199.2|GIN_BPD10 Nombre de la rec: Completo=serina recombinasa gin; Nombre Alternativo: Completo=invertasa de segmento G; Abreviado=Gin

SEQ ID NO: 26

recombinasa Cre

>gi|375331813|dbj|BAL61207.1| recombinasa Cre [vector de expresión Cre pHVX2-cre]

SEQ ID NO: 27-46

Se trata de secuencias de polinucleótidos ilustrativas que codifican los módulos de repetición de TALE para su uso en la unión a integrasas o recombinasas como se describe en esta invención.

SEQ ID NO: 27

NOMBRE: NI

SECUENCIA:

SEQ ID NO: 28

NOMBRE: NG

SECUENCIA:

SEQ ID NO: 29

NOMBRE: HD

SECUENCIA:

SEQ ID NO: 30

NOMBRE: NN

SECUENCIA:

SEQ ID NO: 31

NOMBRE: NI-NI

SEQ ID NO: 32

NOMBRE: NI-NG

SECUENCIA:

SEQ ID NO: 33

NOMBRE: NI-HD

SECUENCIA:

SEQ ID NO: 34

NOMBRE: NI-NN

SECUENCIA:

SEQ ID NO: 35

NOMBRE: NG-NI

SECUENCIA:

SEQ ID NO: 36

NOMBRE: NG-NG

SECUENCIA:

SEQ ID NO: 37

NOMBRE: NG-HD

SECUENCIA:

SEQ ID NO: 38

NOMBRE: NG-NN

SECUENCIA:

SEQ ID NO: 39

NOMBRE: HD-NI

SECUENCIA:

SEQ ID NO: 40

NOMBRE: HD-NG

SECUENCIA:

SEQ ID NO: 41

NOMBRE: HD-HD

SECUENCIA:

SEQ ID NO: 42

NOMBRE: HD-NN

SECUENCIA:

SEQ ID NO: 43

NOMBRE: NN-NI

SECUENCIA:

SEQ ID NO: 44

NOMBRE: NN-NG

SECUENCIA:

SEQ ID NO: 45

NOMBRE: NN-HD

SECUENCIA:

SEQ ID NO: 46

NOMBRE: NN-NN

SECUENCIA:

SEQ ID NO: 47

NOMBRE: gi|71796612|gb|DQ084353.1| Gen de la integrasa (pol) del lentivirus ovino aislado Ov10, secuencia codificante parcial

SECUENCIA:

SEQ ID NO: 48

NOMBRE: gi|71796613|gb|AAZ41325.1| integrasa, parcial [Lentivirus ovino]

SECUENCIA:

SEQ ID NO: 49

>gb|AYLT01000127.1|:11804-12046Staphylococcus aureussubsp.aureusSK1585 contig000127, secuencia aleatoria del genoma completo

SEQ ID NO: 50

>gi|669035130|gb|KFD30483.1| proteína hipotética D484_02234 [Staphylococcus aureussubsp.aureusSK1585] -S. aureuscas9

SEQ ID NO: 51

NOMBRE: adn de enlazador2

SECUENCIA:

agcggcagcgaaaccccgggcaccagcgaaagcgcgaccccggaaagc

SEQ ID NO: 52

NOMBRE: proteína dCas9

SECUENCIA:

SEQ ID NO: 53

NOMBRE: Nucleótido NLS con ATG

SECUENCIA:

SEQ ID NO: 54

NOMBRE: nucleótido enlazador GGS

SECUENCIA:

GGGGGAAGTSEQ ID NO: 55

NOMBRE: Integrasa sintética

SECUENCIA:

SEQ ID NO: 56

NOMBRE: nucleótido dCas9 con ATG

SECUENCIA:

SEQ ID NO: 57

NOMBRE: ABBIE1 (NLS-enlazador1-Integrasa-enlazador2-dCas9) -secuencia de ADN

SECUENCIA:

SEQ ID NO: 58

NOMBRE: Traducción de ABBIE1 (A Binding Based Integrase Editor, editor de integrasa basado en la unión) SECUENCIA:

Del ADN donante (sitios att de las regiones LTR de reconocimiento de integrasa).

SEQ ID NO: 59

NOMBRE: U3att

SECUENCIA:

ACTGGAAGGGCTAATTCACTCCCAAAGAASEQ ID NO: 60

NOMBRE: U5att

SECUENCIA:

GACCCTTTTAGTCAGTGTGGAAAATCTCTAGCAGT NLS-enlazador1-Integrasa-enlazador2-dCas9 o Integrasa-enlazador1-NLS-enlazador2-dCas9 o Integrasaenlazador2-dCas9-enlazador1-NLS o Integrasa-enlazador2-dCas9-NLS

Enlazador 1 = GGS

SEQ ID NO: 61

NOMBRE: Enlazador 2

SECUENCIA:

SGSETPGTSESATPESSEQ ID NO: 62

NOMBRE: ADNc de la integrasa del MMTV, gb|AF071010.1|:16-1113 supuesta integrasa del virus del tumor mamario de ratón, poliproteína de la env y ARNm del superantígeno, secuencia codificante completa SECUENCIA:

SEQ ID NO: 63

NOMBRE: gi|3273866|gb|AAC24859.1| supuesta integrasa [virus del tumor mamario de ratón] SECUENCIA:

SEQ ID NO: 64

NOMBRE: gb|AXUN02000059.1|:5116-8850Youngiibacter fragilis232.1 contig_151, secuencia aleatoria del genoma completo - recombinasa

SECUENCIA:

SEQ ID NO: 65

NOMBRE: gi|564135645|gb|ETA81829.1| recombinasa [Youngiibacter fragilis232.1]

SECUENCIA:

SEQ ID NO: 66

NOMBRE: gi|571264543:16423-16770 transposón Tn6218 deClostridium difficile, cepa Ox42 Transposasa SECUENCIA:

SEQ ID NO: 67

NOMBRE: gi|571264559|emb|CDF47133.1| transposasa [Peptoclostridium difficile]

SECUENCIA:

SEQ ID NO: 68

NOMBRE: gb|CP009444.1|:1317724-1320543Francisella philomiragiacepa GA01-2801, genoma completo de Cpf1

SECUENCIA:

SEQ ID NO: 69

NOMBRE: gi|754264888|gb|AJI57252.1| proteína Cpf1 asociada a CRISPR, subtipo PREFRAN [Francisella philomiragia]

SECUENCIA:

SEQ ID NO: 70

NOMBRE: gi|438609|gb|L21188.1|HIV1NY5A gen de la integrasa del virus de la inmunodeficiencia humana tipo 1, extremo 3'

SECUENCIA:

SEQ ID NO: 71

NOMBRE: gi|438610|gb|AAC37875.1| integrasa, parcial [virus de la inmunodeficiencia humana 1] SECUENCIA:

SEQ ID NO: 72

NOMBRE: gi|545612232|ref]WP_021736722.1| proteína Cpf1 asociada a CRISPR de tipo V [Acidaminococcussp. BV3L6]

SECUENCIA:

SEQ ID NO: 73

NOMBRE: gi|769142322|ref|WP_044919442.1| proteína Cpf1 asociada a CRISPR de tipo V [Lachnospiraceae bacteriumMA2020]

SECUENCIA:

SEQ ID NO: 74

NOMBRE: gi|489130501|ref|WP_003040289.11 proteína Cpf1 asociada a CRISPR tipo V [Francisella tularensis]

SECUENCIA:

5SEQ ID NO: 75

NOMBRE: gi|502240446|ref|WP_012739647.1| proteína Cpf1 asociada a CRISPR de tipo V [[Eubacterium]eligens]

SECUENCIA:

SEQ ID NO: 76

NOMBRE: gi|537834683|ref|WP_020988726.1| proteína Cpf1 asociada a CRISPR de tipo V [Leptospira inadai]

SECUENCIA:

SEQ ID NO: 77

NOMBRE: gi|739008549|ref|WP_036890108.1| proteína Cpf1 asociada a CRISPR de tipo V [Porphyromonas crevioricanis]

SECUENCIA:

SEQ ID NO: 78

NOMBRE: gi|517171043|ref|WP_018359861.1| proteína Cpf1 asociada a CRISPR de tipo V [Porphyromonas macacae]

SECUENCIA:

SEQ ID NO: 79

NOMBRE: Secuencia de la proteína integrasa encontrada en el sitio Uniprot. La secuencia de ADN se obtuvo de GenBank.

SECUENCIA:

SEQ ID NO: 80

NOMBRE: sp|P04585|1148-1435

SECUENCIA:

SEQ ID NO: 81

un dominio de proteína que caracteriza a las proteínas de dedos de zinc

CX(2-4)CX(12)HX(3-5)H (X(2-4) significa XX o XXX o XXXX, por ejemplo)

SEQ ID NO: 82

>gi|1616606|emb|X97044.1| Virus del tumor mamario de ratón ADN 5' LTR

5

SEQ ID NO: 83

>gi|1403387|emb|X98457.1| Virus del tumor mamario de ratón 3' LTR

SEQ ID NO: 84

>gi|119662099|emb|AM076881.1| LTR en 5' provírica del virus de la inmunodeficiencia humana 1, Elemento TAR y U3, Regiones de repetición U5 y R, clon PG232.14

SEQ ID NO: 85

>gi|1072081|gb|U37267.1|HIV1U37267 Región LTR en 3' del virus de la inmunodeficiencia humana tipo 1

NO EXISTEN LAS SEQ ID NO: 86-99

SEQ ID NO: 100

Oligo para la inserción de neo en el genoma de una célula (utilizando secuencias completas de las LTR en 5' y 3' del HIV

La primera LTR en 5' se indica subrayada, el texto sin formato es neo y la LTR en 3' se indica ennegrita(1179 pb)SEQ ID NO: 101

Una versión abreviada de LTR en 5' y LTR en 3' con secuencia neo dentro (224 pb) La primera LTR en 5' se indica subrayada, el texto sin formato es neo y la LTR en 3' se indica ennegrita

En cuanto a la SEQ ID NO: 72

ID de proteína del Genbank: WP_021736722.1

Número de identificación de proteína en NCBI (GI) proveniente de la base de datos NR o GI local (para proteínas originadas de la base de datos de WGS (secuenciación del genoma completo): 545612232 ID del cóntigo en la base de datos de WGS: AWUR01000016.1

Descripción del cóntigo:Acidaminococcussp. BV3L6 contig00028, secuencia aleatoria del genoma completo Integridad de la proteína: Completa

Proteínas analizadas experimentalmente: 8

Conjunto no redundante: nr

Organismo: Acidaminococcus_sp_BV3L6

Taxonomía:

Bacterias, Firmicutes, Negativicutes, Selenomonadales, Acidaminococcaceae,Acidaminococcus,Acidaminococcussp. BV3L6

En cuanto a la SEQ ID NO: 73

ID de proteína del Genbank: WP_044919442.1

Número de identificación de proteína en NCBI (GI) proveniente de la base de datos NR o GI local (para proteínas originadas de la base de datos de WGS): 769142322

ID del cóntigo en la base de datos de WGS: JQKK01000008.1

Descripción del cóntigo:Lachnospiraceae bacteriumMA2020

T348DRAFT_scaffold00007.7_C, secuencia aleatoria del genoma completo

Integridad de la proteína: Completa

Proteínas analizadas experimentalmente: 9

Conjunto no redundante: nr

Organismo: Lachnospiraceae_bacterium_MA2020

Taxonomía: Bacterias, Firmicutes, Clostridia, Clostridiales, Lachnospiraceae, Lachnospiraceae sin clasificar, Lachnospiraceae bacterium MA2020

Secuencias adicionales de ácidos nucleicos y de proteínas que pueden utilizarse en las composiciones y métodos desvelados - Alineación de CPF 1.SEQ ID NO: 86-92; en orden de arriba a abajo del gráfico.

Secuencias adicionales de ácidos nucleicos y de proteínas que pueden utilizarse en las composiciones y métodos desvelados - alineación de proteínas de escisión humanas Cfp1. SEQID NO: 86 (primera fila) y SEQ ID NO: 90 (segunda fila).

Secuencias adicionales de ácidos nucleicos y de proteínas que pueden utilizarse en las composiciones y métodos desvelados.Tabla tomada de Haft, D.,et al.PLoS Computational Biology, noviembre de 2005, vol. 1, publicación 6, págs.474-483. SEQ ID NO: 200-253; en orden de arriba a abajo del gráfico.

Reescritura de secuencias diana y los PAM del Nrf2 (exón 2): Utilizado para el diseño de los ARNgs 1-3SEQ ID NO: 254

GCGACGGAAAGAGTATGAGC TGGSEQ ID NO: 255

TATTTGACTTCAGTCAGCGA CGGSEQ ID NO: 256

TGGAGGCAAGATATAGATCT TGG

Cebadores clave para detectar la integración en la diana del Nrf2

Conjunto de cebador 1:

SEQ ID NO: 257

Cebador 1:5'-GTGTTAATTTCAAACATCAGCAGC-3',

SEQ ID NO: 258

Cebador 2: 5'- GACAAGACATCCTTGATTTG-3'

Conjunto de cebador 2:

SEQ ID NO: 259

Cebador 1:5'-GAGGTTGACTGTGTAAATG-3',

SEQ ID NO: 260

Cebador 2: 5'- GATACCAGAGTCACACAACAG-3'

Conjunto de cebador 3:

SEQ ID NO: 261

Cebador 1: 5'-TCTACATTAATTCTCTTGTGC-3',

SEQ ID NO: 262

Cebador 2:5'- GATACCAGAGTCACACAACAG-3'

Número de registro del CXCR4 humano

Uniprot P61073

ID (identificador) asignado al gen de la base de datos Ensembl: ENSG00000121966 Secuencia diana de reescritura y PAM de CXCR4 (Exón 2): Utilizado para el diseño del ARNgs 1SEQ ID NO: 263

GGGCAATGGATTGGTCATCC TGG

Cebadores clave para detectar la integración en la diana del CXCR4

Conjunto de cebador 1:

SEQ ID NO: 264

Cebador 1: 5'- TCTACATTAATTCTCTTGTGC-3',

SEQ ID NO: 265

Cebador 2: 5'- GACAAGACATCCTTGATTTG-3'

Conjunto de cebador 2:

SEQ ID NO: 266

Cebador 1: 5'- TCTACATTAATTCTCTTGTGC-3',

SEQ ID NO: 267

Cebador 2: 5'- GATACCAGAGTCACACAACAG -3'

Conjunto de cebador 3:

SEQ ID NO: 268

Cebador 1: 5'- GAGGTTGACTGTGTAAATG -3',

SEQ ID NO: 269

Cebador 2: 5'- GACAAGACATCCTTGATTTG-3'

Conjunto de cebador 4:

SEQ ID NO: 270

Cebador 1: 5'- GAGGTTGACTGTGTAAATG -3',

SEQ ID NO: 271

Cebador 2: 5'- GATACCAGAGTCACACAACAG -3'

etiquetar Cas9 con Avi para la biotinilación

Secuencia de la etiqueta avi utilizada para la biotinilación de Cas9

Secuencia de aminoácidos:

SEQ ID NO: 272

G G D L E G S G L N D I F E A Q K I E W H E *

Secuencia de ácidos nucleicos:

SEQ ID NO: 273

Claims

REIVINDICACIONES

1. Un sistema para la inserción de un ácido nucleico donante en ADN genómico, que comprende:

(a) una proteína de fusión que comprende:

ii) una segunda proteína que comprende una integrasa retrovírica, y

iii) un enlazador que une la primera proteína a la segunda proteína;

(b) un ARN guía (ARNg); y

(c) un vector de ADN que comprende: el ADN donante, una primera repetición terminal larga retrovírica y una segunda rLTR, en donde el ADN donante está situado entre la primera rLTR y la segunda rLTR.

2. El sistema de la reivindicación 1, en donde la primera proteína está codificada por un polinucleótido que tiene al menos un 80 %, al menos un 85 %, al menos un 90 %, al menos un 95 % o al menos un 99 % de identidad de secuencia con la SEQ ID NO: 56; o comprende una secuencia de aminoácidos que tiene al menos un 80 %, al menos un 85 %, al menos un 90 %, al menos un 95 % o al menos un 99 % de identidad de secuencia con la SEQ ID NO: 52.

3. El sistema de la reivindicación 1 o 2, en donde la primera proteína comprende la secuencia de aminoácidos de la SEQ ID NO:52.

4. El sistema de una cualquiera de las reivindicaciones 1-3, en donde la segunda proteína está codificada por un polinucleótido que tiene al menos un 80 %, al menos un 85 %, al menos un 90 %, al menos un 95 % o al menos un 99 % de identidad de secuencia con una cualquiera de las SEQ ID NO: 15, 17, 47, 62 o 70; y/o comprende al menos un 85 %, al menos un 90 %, al menos un 95 % o al menos un 99 % de identidad de secuencia con una cualquiera de las SEQ ID NO: 16, 18, 48, 63 o 71.

5. El sistema de una cualquiera de las reivindicaciones 1-4, en donde la integrasa retrovírica es una integrasa del HIV1 o una integrasa lentivírica.

6. El sistema de una cualquiera de las reivindicaciones 1-5, en donde la integrasa retrovírica es una integrasa del HIV1.

7. El sistema de una cualquiera de las reivindicaciones 1-6, en donde la proteína de fusión comprende la secuencia de aminoácidos de la SEQ ID NO: 71.

8. El sistema de una cualquiera de las reivindicaciones 1-7, en donde el enlazador tiene una longitud de 4-8 aminoácidos.

9. El sistema de una cualquiera de las reivindicaciones 1-6, en donde el ARNg se dirige a una secuencia de ADN diana que tiene una longitud de 16 a 24 pares de bases.

10. El sistema de una cualquiera de las reivindicaciones 1-6, en donde la primera o segunda rLTR comprende una secuencia de nucleótidos seleccionada de la SEQ ID NO: 59 y 60.

11. Un método de inserciónin vitrode una secuencia de ADN en ADN genómico, que comprende:

a) identificar una secuencia diana en el ADN genómico;

b) diseñar una proteína de fusión y un ARN guía (ARNg) como se define en una cualquiera de las reivindicaciones 1 a 10, para unirse a la secuencia diana en el ADN genómico;

12. Un método de inhibiciónin vitrode transcripción génica en una célula, que comprende:

a) identificar un codón de inicio ATG en un gen;

b) diseñar un sistema de proteína de fusión con una proteína de fusión como se define en una cualquiera de las reivindicaciones 1 a 10, y un ARN guía (ARNg), para unirse a una secuencia diana inmediatamente después del codón de inicio ATG del gen;