[go: up one dir, main page]

ES2970263B2 - Cas9 ENDONUCLEASE PROTEIN AND ASSOCIATED CRISPR-Cas SYSTEM - Google Patents

Cas9 ENDONUCLEASE PROTEIN AND ASSOCIATED CRISPR-Cas SYSTEM

Info

Publication number
ES2970263B2
ES2970263B2 ES202230911A ES202230911A ES2970263B2 ES 2970263 B2 ES2970263 B2 ES 2970263B2 ES 202230911 A ES202230911 A ES 202230911A ES 202230911 A ES202230911 A ES 202230911A ES 2970263 B2 ES2970263 B2 ES 2970263B2
Authority
ES
Spain
Prior art keywords
protein
seq
nucleotide sequence
sequence
ehcas9
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES202230911A
Other languages
Spanish (es)
Other versions
ES2970263A1 (en
Inventor
Ruvira Belén Esquerra
Mozos Ignacio Baquedano
Gonzalez Raúl Ruiz
Mojica Francisco Juan Martinez
Lopez Almudena Fernandez
Jose Lluís Montoliu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Consejo Superior de Investigaciones Cientificas CSIC
Universidad de Alicante
Centro de Investigacion Biomedica en Red CIBER
Original Assignee
Consejo Superior de Investigaciones Cientificas CSIC
Universidad de Alicante
Centro de Investigacion Biomedica en Red CIBER
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Consejo Superior de Investigaciones Cientificas CSIC, Universidad de Alicante, Centro de Investigacion Biomedica en Red CIBER filed Critical Consejo Superior de Investigaciones Cientificas CSIC
Priority to ES202230911A priority Critical patent/ES2970263B2/en
Priority to PCT/ES2023/070618 priority patent/WO2024084124A1/en
Publication of ES2970263A1 publication Critical patent/ES2970263A1/en
Application granted granted Critical
Publication of ES2970263B2 publication Critical patent/ES2970263B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/87Introduction of foreign genetic material using processes not otherwise provided for, e.g. co-transformation
    • C12N15/90Stable introduction of foreign DNA into chromosome
    • C12N15/902Stable introduction of foreign DNA into chromosome using homologous recombination
    • C12N15/907Stable introduction of foreign DNA into chromosome using homologous recombination in mammalian cells
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/195Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from bacteria
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases [RNase]; Deoxyribonucleases [DNase]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/20Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPR]

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Chemical & Material Sciences (AREA)
  • Organic Chemistry (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Microbiology (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • Plant Pathology (AREA)
  • Medicinal Chemistry (AREA)
  • Mycology (AREA)
  • Cell Biology (AREA)
  • Gastroenterology & Hepatology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)

Description

DESCRIPCIÓNDESCRIPTION

PROTEÍNA ENDONUCLEASA Cas9 Y SISTEMA CRISPR-Cas ASOCIADOCas9 ENDONUCLEASE PROTEIN AND ASSOCIATED CRISPR-Cas SYSTEM

CAMPO DE LA INVENCIÓNFIELD OF INVENTION

La presente invención se enmarca en el campo de la ingeniería genética. Más concretamente, el objeto de la invención se refiere a nueva proteína endonucleasa Cas9 y a un sistema CRISPR-Cas que comprende dicha proteína para la edición genética en células y producción de antibacterianos. The present invention is framed in the field of genetic engineering. More specifically, the object of the invention relates to a new endonuclease protein Cas9 and a CRISPR-Cas system comprising said protein for genetic editing in cells and production of antibacterials.

ANTECEDENTES DE LA INVENCIÓNBACKGROUND OF THE INVENTION

Los sistemas CRISPR-Cas se han identificado en la mayoría de las arqueas y aproximadamente la mitad de los genomas de bacterias como mecanismos de defensa contra la infección por ADN exógeno; esto es, plásmidos o virus (bacteriófagos). Cada sistema está constituido por una o varias agrupaciones de repeticiones de secuencias de ADN denominadas CRISPR (del inglésClustered Regularly [nterspaced Short Palindromic Repeats)y un conjunto de genes que codifican las proteínas Cas (del inglésCRISPR associated),cuya presencia dará lugar a las endonucleasas encargadas de cortar y degradar el ADN exógeno. Dichas repeticiones se encuentran regularmente espaciadas dentro de cada agrupación por secuencias no reiteradas denominadas ‘espaciadores’, al menos algunas de las cuales derivan de fragmentos genéticos de origen extracromosómico que el microorganismo adquiere tras entrar por primera vez en contacto con un patógeno. Adyacente a cada agrupación de repeticiones-espaciadores hay una secuencia denominada ‘líder’ donde se localiza el promotor responsable de la transcripción de dicha agrupación en un ARN precursor (pre-crRNA) que abarca la totalidad de la misma. Este pre-crRNA es procesado mediante una ribonucleasa (RNAsa) dando lugar a crRNA maduros, cada uno de los cuales contiene un único espaciador. Cada uno de estos crRNA, comúnmente denominado ‘ARN guía’, aparea con su secuencia complementaria en la molécula de ADN exógeno, activando con ello a una proteína Cas específica que produce la degradación de dicho ADN, protegiendo así a la célula huésped de la infección. CRISPR-Cas systems have been identified in most archaea and approximately half of bacterial genomes as defence mechanisms against infection by exogenous DNA, i.e. plasmids or viruses (bacteriophages). Each system is made up of one or more clusters of DNA sequence repetitions called CRISPR (Clustered Regularly [nterspaced Short Palindromic Repeats) and a set of genes encoding Cas proteins (CRISPR associated), whose presence will give rise to endonucleases responsible for cutting and degrading exogenous DNA. These repetitions are regularly spaced within each cluster by non-repeated sequences called ‘spacers’, at least some of which derive from genetic fragments of extrachromosomal origin that the microorganism acquires after coming into contact with a pathogen for the first time. Adjacent to each cluster of spacer repeats is a sequence called the ‘leader’, which contains the promoter responsible for the transcription of said cluster into a precursor RNA (pre-crRNA) that encompasses the entire cluster. This pre-crRNA is processed by a ribonuclease (RNAse) giving rise to mature crRNAs, each of which contains a single spacer. Each of these crRNAs, commonly called ‘guide RNAs’, pairs with its complementary sequence in the exogenous DNA molecule, thereby activating a specific Cas protein that produces the degradation of said DNA, thus protecting the host cell from infection.

Más allá de su función como sistema natural de inmunidad adaptativa en organismos procariotas, los sistemas CRISPR-Cas se han convertido en unas de las herramientas de edición genética más poderosas en los campos de la biología, la biomedicina y la biotecnología. En concreto, permiten el silenciamiento o la eliminación de genes, mutagénesis, y correcciones de secuencias específicas del genoma de cualquier célula de una manera fácil, rápida, y altamente precisa [Jian, W. et al. Nat. Biotechnol., 2013, 31 (3), 233-239; Mali, P. et al. Science, 2013, 339 (6121), 823-826]. Entre sus numerosas aplicaciones destacan el diagnóstico y tratamiento de enfermedades [Srivastava, S., Upadhyay, D. J., & Srivastava, A. Front. Mol. Biosci., 2020, 7, 378; Jolany vangah, S. et al. Biol Proced Online, 2020, 22 (1), 1-14] y la producción de antimicrobianos específicos de secuencia [Bikard, D. et al. Nat. Biotechnol., 2014, 32 (11), 1146-1150]. Beyond their function as a natural adaptive immunity system in prokaryotes, CRISPR-Cas systems have become one of the most powerful genetic editing tools in the fields of biology, biomedicine and biotechnology. Specifically, they allow gene silencing or deletion, mutagenesis, and specific sequence corrections of the genome of any cell in an easy, fast, and highly precise way [Jian, W. et al. Nat. Biotechnol., 2013, 31 (3), 233-239; Mali, P. et al. Science, 2013, 339 (6121), 823-826]. Among its numerous applications are the diagnosis and treatment of diseases [Srivastava, S., Upadhyay, D. J., & Srivastava, A. Front. Mol. Biosci., 2020, 7, 378; Jolany vangah, S. et al. Biol Proced Online, 2020, 22 (1), 1-14] and the production of sequence-specific antimicrobials [Bikard, D. et al. Nat. Biotechnol., 2014, 32 (11), 1146-1150].

Los sistemas CRISPR-Cas de Clase 2 - Tipo II (también denominados sistemas CRISPR-Cas9) son los más utilizados como herramienta de edición genética debido a la alta tasa de eficiencia de la endonucleasa Cas9. Además, a diferencia de los sistemas de Clase 1, el ARN guía (gRNA) consiste en dos moléculas de ARN parcialmente apareadas entre sí, formando un híbrido tracrRNA:crRNA, que comprende la secuencia activadora tracrRNA, un pequeño ARN no codificante con dos funciones críticas: disparar el procesamiento del pre-crRNA por la enzima RNasa III y, subsecuentemente, servir como nexo de unión entre el crRNA y Cas9 para dirigirla hacia la secuencia diana del ADN bicatenario que debe degradar. Bajo esta configuración, el complejo Cas9:crRNA:tracrRNA escanea dicho ADN en busca de una secuencia corta (1-10 nucleótidos) llamada PAM (del inglés,Protospacer Adjacent Motif),que se encuentra 3-4 nucleótidos aguas abajo del sitio de corte de Cas9. Cuando el dominio PI de Cas9 reconoce dicha secuencia PAM, el ADN bicatenario se desestabiliza y ocurre el apareamiento de bases entre el ADN y el crRNA, dando lugar al heterodúplex tracrRNA:crRNA:ADN, de aproximadamente 20 pares de bases, que se posicionará dentro de Cas9 en el surco central entre los lóbulos REC y NUC. Una vez formado este complejo cuaternario (tracrRNA:crRNA:ADN y Cas9) el dominio HNH del lóbulo NUC se aproximará a la cadena complementaria de la secuencia diana provocando su escisión y lo mismo ocurrirá con el dominio RuvC con la cadena no complementaria. Como consecuencia, entre ambos dominios tendrá lugar un corte de doble cadena (DSB, por sus siglas en inglés). Como alternativa a la guía dual nativa tracrRNA:crRNA, para guiar a las proteínas Cas9 se puede utilizar una molécula de ARN (sgRNA) [Jinek, M. et al. (2012). Science, 337(6096), 816-821], que combina parte de las secuencias del crRNA y el tracrRNA. Class 2 - Type II CRISPR-Cas systems (also called CRISPR-Cas9 systems) are the most widely used gene editing tools due to the high efficiency rate of the Cas9 endonuclease. Furthermore, unlike Class 1 systems, the guide RNA (gRNA) consists of two partially paired RNA molecules forming a tracrRNA:crRNA hybrid, which comprises the tracrRNA activator sequence, a small non-coding RNA with two critical functions: triggering the processing of the pre-crRNA by the RNase III enzyme and subsequently serving as a linker between the crRNA and Cas9 to direct it to the target sequence of double-stranded DNA to be degraded. Under this configuration, the Cas9:crRNA:tracrRNA complex scans the DNA for a short sequence (1-10 nucleotides) called PAM (Protospacer Adjacent Motif), which is located 3-4 nucleotides downstream of the Cas9 cutting site. When the PI domain of Cas9 recognizes the PAM sequence, the double-stranded DNA is destabilized and base pairing occurs between the DNA and the crRNA, giving rise to the tracrRNA:crRNA:DNA heteroduplex, of approximately 20 base pairs, which will be positioned within Cas9 in the central groove between the REC and NUC lobes. Once this quaternary complex (tracrRNA:crRNA:DNA and Cas9) is formed, the HNH domain of the NUC lobe will approach the complementary strand of the target sequence, causing its cleavage, and the same will occur with the RuvC domain with the non-complementary strand. As a result, a double-strand break (DSB) will occur between the two domains. As an alternative to the native dual guide tracrRNA:crRNA, a sgRNA molecule can be used to guide Cas9 proteins [Jinek, M. et al. (2012). Science, 337(6096), 816-821], which combines part of the crRNA and tracrRNA sequences.

De entre todos los sistemas CRISPR-Cas9 destacan los basados en la proteína Cas9 de la bacteriaStreptococcus pyogenes(SpCas9), que requiere la presencia de una secuencia PAM excepcionalmente corta (5'-NGG-3') para el reconocimiento de la secuencia diana, lo cual supone una gran ventaja respecto a otras proteínas Cas9. Sin embargo, su gran tamaño supone una limitación para su administración, especialmente en ensayosin vivocon células eucariotas. Se requiere, por tanto, la identificación y caracterización bioquímica y funcional de proteínas Cas9 alternativas de menor tamaño. Among all the CRISPR-Cas9 systems, those based on the Cas9 protein from the bacterium Streptococcus pyogenes (SpCas9) stand out. It requires the presence of an exceptionally short PAM sequence (5'-NGG-3') for target sequence recognition, which represents a great advantage over other Cas9 proteins. However, its large size is a limitation for its administration, especially in in vivo assays with eukaryotic cells. Therefore, the identification and biochemical and functional characterization of alternative smaller Cas9 proteins is required.

La presente invención está orientada a resolver la limitación expuesta anteriormente mediante una nueva proteína endonucleasa Cas9 de pequeño tamaño (~120 kDa), apta para su uso en diversas herramientas de biología molecular para ingeniería genética equivalentes a las implementadas con otras endonucleasas Cas9, así como para la producción de antimicrobianos específicos de secuencia. The present invention is aimed at solving the limitation outlined above by means of a new small-sized Cas9 endonuclease protein (~120 kDa), suitable for use in various molecular biology tools for genetic engineering equivalent to those implemented with other Cas9 endonucleases, as well as for the production of sequence-specific antimicrobials.

DESCRIPCIÓN BREVE DE LA INVENCIÓNBRIEF DESCRIPTION OF THE INVENTION

La presente invención soluciona el problema del estado de la técnica expuesto en la sección anterior al proporcionar una proteína endonucleasa Cas9 con un tamaño tal que facilita su administración tanto a células procariotas como eucariotas mediante vectores comúnmente empleados en biotecnología y biomedicina; esto es, plásmidos o bacteriófagos, en el caso de las bacterias, y virus adenoasociados (AAV, por sus siglas en inglés), para células de mamíferos. Además, a diferencia de las proteínas Cas9 del estado de la técnica, permite que se puedan incorporar, en tan solo una molécula vector (especialmente en el caso de los AAV), secuencias de elementos genéticos accesorios, como secuencias reguladoras o moldes para la edición genética. The present invention solves the problem of the state of the art set out in the previous section by providing a Cas9 endonuclease protein with a size that facilitates its administration to both prokaryotic and eukaryotic cells by means of vectors commonly used in biotechnology and biomedicine; that is, plasmids or bacteriophages, in the case of bacteria, and adeno-associated viruses (AAV), for mammalian cells. Furthermore, unlike Cas9 proteins of the state of the art, it allows accessory genetic element sequences, such as regulatory sequences or templates for genetic editing, to be incorporated into just one vector molecule (especially in the case of AAVs).

Así pues, en un primer aspecto, la presente invención se refiere a una proteína endonucleasa Cas9 que comprende una secuencia aminoacídica según SEQ ID NO: 1 (de aquí en adelante, “proteína de la presente invención”). Thus, in a first aspect, the present invention relates to a Cas9 endonuclease protein comprising an amino acid sequence according to SEQ ID NO: 1 (hereinafter, “protein of the present invention”).

En una realización preferente, la proteína de la invención comprende una secuencia aminoacídica con al menos un 70% de identidad de secuencia con SEQ ID NO: 1. Concretamente, proteínas con una secuencia aminoacídica con al menos un 70, 75, 80, 85, 90, 95 y 100% de identidad de secuencia con SEQ ID NO: 1. In a preferred embodiment, the protein of the invention comprises an amino acid sequence with at least 70% sequence identity with SEQ ID NO: 1. Specifically, proteins with an amino acid sequence with at least 70, 75, 80, 85, 90, 95 and 100% sequence identity with SEQ ID NO: 1.

En el ámbito de interpretación de la presente invención, el término “identidad de secuencia” se entenderá como el grado de similitud entre dos secuencias nucleotídicas o aminoacídicas, expresado a modo de porcentaje, que se obtiene al alinear dichas secuencias. Este dependerá del número de nucleótidos o residuos comunes entre las secuencias alineadas. Se determina mediante programas bioinformáticos bien establecidos en el estado de la técnica, tales como BLAST (del inglés,Basic Local Alignment Search Tool)o FASTA. Within the scope of the present invention, the term "sequence identity" shall be understood as the degree of similarity between two nucleotide or amino acid sequences, expressed as a percentage, which is obtained by aligning said sequences. This will depend on the number of nucleotides or common residues between the aligned sequences. It is determined by means of bioinformatics programs well established in the state of the art, such as BLAST (Basic Local Alignment Search Tool) or FASTA.

Se considerarán también dentro de la presente invención aquellas secuencias análogas, derivadas o equivalentes a SEQ ID NO: 1 que comprenden al menos un residuo de aminoácido alterado por una inserción, sustitución, deleción, o modificación química de un aminoácido respecto a la secuencia aminoacídica de la proteína de la presente invención. Those sequences analogous, derived or equivalent to SEQ ID NO: 1 that comprise at least one amino acid residue altered by an insertion, substitution, deletion, or chemical modification of an amino acid with respect to the amino acid sequence of the protein of the present invention will also be considered within the present invention.

En una realización preferente, la proteína de la presente invención comprende una secuencia aminoacídica según SEQ ID NO: 5. En una realización aún más preferente, la secuencia aminoacídica comprende una inserción de al menos un aminoácido. En el ámbito de interpretación de la presente invención, se entenderá por "inserción” cualquier tipo de mutación en la secuencia aminoacídica de la proteína de la presente invención que implique la adición de uno o más aminoácidos. La secuencia aminoacídica identificada como SEQ ID NO: 5 comprende una inserción de 19 aminoácidos tras el primer aminoácido de la secuencia identificada como SEQ ID NO: 1. In a preferred embodiment, the protein of the present invention comprises an amino acid sequence according to SEQ ID NO: 5. In an even more preferred embodiment, the amino acid sequence comprises an insertion of at least one amino acid. Within the scope of interpretation of the present invention, "insertion" shall be understood as any type of mutation in the amino acid sequence of the protein of the present invention that involves the addition of one or more amino acids. The amino acid sequence identified as SEQ ID NO: 5 comprises an insertion of 19 amino acids after the first amino acid of the sequence identified as SEQ ID NO: 1.

En otra realización preferente, la proteína de la presente invención comprende una secuencia aminoacídica según SEQ ID NO: 7. En una realización aún más preferente, la secuencia aminoacídica comprende una sustitución de al menos un aminoácido y una inserción de al menos un aminoácido. En el ámbito de interpretación de la presente invención, se entenderá por "sustitución” cualquier tipo de mutación en la secuencia aminoacídica de la proteína de la presente invención que implique el reemplazo de uno o más aminoácidos. La secuencia aminoacídica identificada como SEQ ID NO: 7 comprende la mutación T2A y una inserción de 11 aminoácidos al final de la secuencia identificada como SEQ ID NO: 1. In another preferred embodiment, the protein of the present invention comprises an amino acid sequence according to SEQ ID NO: 7. In an even more preferred embodiment, the amino acid sequence comprises a substitution of at least one amino acid and an insertion of at least one amino acid. Within the scope of interpretation of the present invention, "substitution" shall be understood as any type of mutation in the amino acid sequence of the protein of the present invention that involves the replacement of one or more amino acids. The amino acid sequence identified as SEQ ID NO: 7 comprises the T2A mutation and an insertion of 11 amino acids at the end of the sequence identified as SEQ ID NO: 1.

En un segundo aspecto, la presente invención se refiere a una secuencia nucleotídica que codifica la proteína de la presente invención (de aquí en adelante, "secuencia nucleotídica de la presente invención”). En el ámbito de interpretación de la presente invención, se entenderá por "secuencia nucleotídica que codifica la proteína de la presente invención” cualquier secuencia de nucleótidos que, bajo un control de expresión adecuado, sea capaz de transcribir y traducir la secuencia aminoacídica de la proteína de la presente invención. In a second aspect, the present invention relates to a nucleotide sequence encoding the protein of the present invention (hereinafter, "nucleotide sequence of the present invention"). Within the scope of interpretation of the present invention, "nucleotide sequence encoding the protein of the present invention" shall be understood as any nucleotide sequence that, under suitable expression control, is capable of transcribing and translating the amino acid sequence of the protein of the present invention.

En una realización preferente, la secuencia nucleotídica de la presente invención comprende la secuencia nucleotídica identificada como SEQ ID NO: 2. In a preferred embodiment, the nucleotide sequence of the present invention comprises the nucleotide sequence identified as SEQ ID NO: 2.

En otra realización preferente, la secuencia nucleotídica de la presente invención comprende la secuencia nucleotídica identificada como SEQ ID NO: 4. In another preferred embodiment, the nucleotide sequence of the present invention comprises the nucleotide sequence identified as SEQ ID NO: 4.

En otra realización preferente, la secuencia nucleotídica de la presente invención comprende la secuencia nucleotídica identificada como SEQ ID NO: 6. In another preferred embodiment, the nucleotide sequence of the present invention comprises the nucleotide sequence identified as SEQ ID NO: 6.

En otra realización preferente, la secuencia nucleotídica de la presente invención comprende la secuencia nucleotídica identificada como SEQ ID NO: 8. In another preferred embodiment, the nucleotide sequence of the present invention comprises the nucleotide sequence identified as SEQ ID NO: 8.

En un tercer aspecto, la presente invención se refiere a un vector de expresión que comprende la secuencia nucleotídica de la presente invención (de aquí en adelante, "vector de expresión de la presente invención”). En el ámbito de interpretación de la presente invención, se entenderá por "vector de expresión” cualquier molécula de ADN que pueda utilizarse como vehículo para transportar la secuencia nucleotídica de la presente invención al interior de una célula huésped. El vector de expresión de la presente invención puede comprender una molécula de ácido nucleico monocatenaria, bicatenaria o parcialmente bicatenaria; una molécula de ADN, ARN, o híbrida ADN:ARN. Ejemplos de vectores de expresión son los plásmidos y los bacteriófagos o fagos. In a third aspect, the present invention relates to an expression vector comprising the nucleotide sequence of the present invention (hereinafter, "expression vector of the present invention"). Within the scope of interpretation of the present invention, "expression vector" will be understood as any DNA molecule that can be used as a vehicle to transport the nucleotide sequence of the present invention into a host cell. The expression vector of the present invention may comprise a single-stranded, double-stranded or partially double-stranded nucleic acid molecule; a DNA, RNA, or DNA:RNA hybrid molecule. Examples of expression vectors are plasmids and bacteriophages or phages.

En una realización preferente, el vector de expresión de la presente invención comprende una secuencia nucleotídica según SEQ ID NO: 2. In a preferred embodiment, the expression vector of the present invention comprises a nucleotide sequence according to SEQ ID NO: 2.

En otra realización preferente, el vector de expresión de la presente invención comprende una secuencia nucleotídica según SEQ ID NO: 4. In another preferred embodiment, the expression vector of the present invention comprises a nucleotide sequence according to SEQ ID NO: 4.

En otra realización preferente, el vector de expresión de la presente invención comprende una secuencia nucleotídica según SEQ ID NO: 6. In another preferred embodiment, the expression vector of the present invention comprises a nucleotide sequence according to SEQ ID NO: 6.

En otra realización preferente, el vector de expresión de la presente invención comprende una secuencia nucleotídica según SEQ ID NO: 8. In another preferred embodiment, the expression vector of the present invention comprises a nucleotide sequence according to SEQ ID NO: 8.

En un cuarto aspecto, la presente invención se refiere a una célula que comprende la proteína de la presente invención, y/o la secuencia nucleotídica de la presente invención, y/o el vector de expresión de la presente invención (de aquí en adelante, "célula de la presente invención”). En el ámbito de interpretación de la presente invención, se entenderá por "célula” cualquier unidad básica, estructural y funcional de un ser vivo susceptible a una o más de las siguientes alteraciones genéticas: transformación (absorción directa, incorporación y expresión de la secuencia nucleotídica de la presente invención), transfección o transducción (introducción de material genético externo mediante el vector de expresión de la invención), y translocación (introducción de la proteína de la presente invención en el interior del ribosoma). In a fourth aspect, the present invention relates to a cell comprising the protein of the present invention, and/or the nucleotide sequence of the present invention, and/or the expression vector of the present invention (hereinafter, "cell of the present invention"). Within the scope of interpretation of the present invention, "cell" shall be understood as any basic, structural and functional unit of a living being susceptible to one or more of the following genetic alterations: transformation (direct absorption, incorporation and expression of the nucleotide sequence of the present invention), transfection or transduction (introduction of external genetic material by means of the expression vector of the invention), and translocation (introduction of the protein of the present invention into the ribosome).

En una realización preferente, la célula de la presente invención comprende una proteína con una secuencia aminoacídica con al menos un 70% de identidad de secuencia con SEQ ID NO: 1. In a preferred embodiment, the cell of the present invention comprises a protein with an amino acid sequence with at least 70% sequence identity with SEQ ID NO: 1.

En otra realización preferente, la célula de la presente invención comprende una proteína con una secuencia aminoacídica según SEQ ID NO: 5. In another preferred embodiment, the cell of the present invention comprises a protein with an amino acid sequence according to SEQ ID NO: 5.

En otra realización preferente, la célula de la presente invención comprende una proteína con una secuencia aminoacídica según SEQ ID NO: 7. In another preferred embodiment, the cell of the present invention comprises a protein with an amino acid sequence according to SEQ ID NO: 7.

En otra realización preferente, la célula de la presente invención comprende una secuencia nucleotídica según SEQ ID NO: 2. In another preferred embodiment, the cell of the present invention comprises a nucleotide sequence according to SEQ ID NO: 2.

En otra realización preferente, la célula de la presente invención comprende una secuencia nucleotídica según SEQ ID NO: 4. In another preferred embodiment, the cell of the present invention comprises a nucleotide sequence according to SEQ ID NO: 4.

En otra realización preferente, la célula de la presente invención comprende una secuencia nucleotídica según SEQ ID NO: 6. In another preferred embodiment, the cell of the present invention comprises a nucleotide sequence according to SEQ ID NO: 6.

En otra realización preferente, la célula de la presente invención comprende una secuencia nucleotídica según SEQ ID NO: 8. In another preferred embodiment, the cell of the present invention comprises a nucleotide sequence according to SEQ ID NO: 8.

En otra realización preferente, la célula de la presente invención comprende un vector de expresión que comprende a su vez una secuencia nucleotídica según SEQ ID NO: 2. In another preferred embodiment, the cell of the present invention comprises an expression vector which in turn comprises a nucleotide sequence according to SEQ ID NO: 2.

En otra realización preferente, la célula de la presente invención comprende un vector de expresión que comprende a su vez una secuencia nucleotídica según SEQ ID NO: 4. In another preferred embodiment, the cell of the present invention comprises an expression vector which in turn comprises a nucleotide sequence according to SEQ ID NO: 4.

En otra realización preferente, la célula de la presente invención comprende un vector de expresión que comprende a su vez una secuencia nucleotídica según SEQ ID NO: 6. In another preferred embodiment, the cell of the present invention comprises an expression vector which in turn comprises a nucleotide sequence according to SEQ ID NO: 6.

En otra realización preferente, la célula de la presente invención comprende un vector de expresión que comprende a su vez una secuencia nucleotídica según SEQ ID NO: 8. In another preferred embodiment, the cell of the present invention comprises an expression vector which in turn comprises a nucleotide sequence according to SEQ ID NO: 8.

En un quinto aspecto, la presente invención se refiere a un sistema CRISPR-Cas que comprende un ARN guía y la proteína de la presente invención (de aquí en adelante, "sistema CRISPR-Cas de la presente invención”). In a fifth aspect, the present invention relates to a CRISPR-Cas system comprising a guide RNA and the protein of the present invention (hereinafter, “CRISPR-Cas system of the present invention”).

En el ámbito de interpretación de la presente invención, se entenderá por "sistema CRISPR-Cas” cualquier sistema que comprenda los elementos implicados en la expresión y/o actividad de los genes asociados a dicho sistema, incluyendo tanto la/s secuencia/s nucleotídica/s que se transcribe/n para generar el ARN guía como la secuencia nucleotídica que codifica la proteína de la presente invención. Within the scope of interpretation of the present invention, "CRISPR-Cas system" shall be understood as any system that comprises the elements involved in the expression and/or activity of the genes associated with said system, including both the nucleotide sequence(s) that are transcribed to generate the guide RNA and the nucleotide sequence that encodes the protein of the present invention.

Asimismo, se entenderá por "ARN guía”, cualquier construcción de ARN monocatenaria, bicatenaria o parcialmente bicatenaria que se asocie con la proteína de la presente invención y que comprenda una secuencia ribonucleotídica complementaria a una secuencia de ADN específica de una célula ("secuencia diana”); esto es, que forma enlaces de hidrógeno con las bases nitrogenadas de los nucleótidos de la secuencia diana. Likewise, "guide RNA" shall be understood to mean any single-stranded, double-stranded or partially double-stranded RNA construct that is associated with the protein of the present invention and that comprises a ribonucleotide sequence complementary to a specific DNA sequence of a cell ("target sequence"); that is, that forms hydrogen bonds with the nitrogenous bases of the nucleotides of the target sequence.

Preferentemente, dicho ARN guía comprende dos moléculas de ARN, tracrRNA y crRNA, parcialmente complementarias entre sí formando el híbrido tracrRNA:crRNA, o una molécula de ARN parcialmente bicatenaria (sgRNA). Preferably, said guide RNA comprises two RNA molecules, tracrRNA and crRNA, partially complementary to each other forming the tracrRNA:crRNA hybrid, or a partially double-stranded RNA molecule (sgRNA).

En una realización preferente, el sistema CRISPR-Cas de la presente invención comprende una proteína con una secuencia aminoacídica con al menos un 70% de identidad de secuencia con SEQ ID NO: 1. In a preferred embodiment, the CRISPR-Cas system of the present invention comprises a protein with an amino acid sequence with at least 70% sequence identity with SEQ ID NO: 1.

En otra realización preferente, el sistema CRISPR-Cas de la presente invención comprende una proteína con una secuencia aminoacídica según SEQ ID NO: 5. In another preferred embodiment, the CRISPR-Cas system of the present invention comprises a protein with an amino acid sequence according to SEQ ID NO: 5.

En otra realización preferente, el sistema CRISPR-Cas de la presente invención comprende una proteína con una secuencia aminoacídica según SEQ ID NO: 7. In another preferred embodiment, the CRISPR-Cas system of the present invention comprises a protein with an amino acid sequence according to SEQ ID NO: 7.

En otra realización preferente, el sistema CRISPR-Cas de la presente invención comprende un ARN guía procedente de la transcripción de una secuencia nucleotídica según SEQ ID NO: 3. In another preferred embodiment, the CRISPR-Cas system of the present invention comprises a guide RNA derived from the transcription of a nucleotide sequence according to SEQ ID NO: 3.

En un sexto aspecto, la presente invención se refiere al uso de la proteína de la presente invención, y/o de la secuencia nucleotídica de la presente invención, y/o del vector de expresión de la presente invención, y/o de la célula de la presente invención, y/o del sistema CRISPR-Cas de la presente invención para: In a sixth aspect, the present invention relates to the use of the protein of the present invention, and/or the nucleotide sequence of the present invention, and/or the expression vector of the present invention, and/or the cell of the present invention, and/or the CRISPR-Cas system of the present invention for:

- la modificación genética, regulación de expresión génica y/o visualizaciónin vivode secuencias nucleotídicas concretas; y/o - genetic modification, regulation of gene expression and/or in vivo visualization of specific nucleotide sequences; and/or

- el diagnóstico molecular de enfermedades; y/o - molecular diagnosis of diseases; and/or

- la producción de antimicrobianos específicos de secuencia. - the production of sequence-specific antimicrobials.

Preferentemente, para la modificación genética, regulación de expresión génica y/o visualizaciónin vivode secuencias nucleotídicas concretas de células eucariotas. Preferably, for genetic modification, regulation of gene expression and/or in vivo visualization of specific nucleotide sequences of eukaryotic cells.

Alternativamente, para la producción de antibacterianos. Preferentemente, para la producción de antibacterianos frente aEscherichia coli.Alternatively, for the production of antibacterials. Preferably, for the production of antibacterials against Escherichia coli.

DESCRIPCIÓN DE LAS FIGURASDESCRIPTION OF FIGURES

La Figura 1 muestra una representación esquemática del locus CRISPR-EHCas9 y los dominios de la proteína EHCas9 (de aquí en adelante, proteína de la presente invención). El locus CRISPR-EHCas9 comprende tres genescasen el ordencas9(denominadoehcas9)-cas i-cas2(representados mediante rectángulos apuntando en el sentido de la transcripción) y dos unidades CRISPR de 36 pares de bases (pb; rectángulos blancos) separados por un espaciador de 29 pb (rombo). La ubicación de un posible gen del tracrRNA se representa como una flecha que apunta en el sentido de la transcripción. El genehcas9codifica la proteína de la presente invención, cuya estructura comprende los siguientes dominios: RuvC (motivos I, II y III), Bridge Helix (BH), de reconocimiento (REC), nucleasa HNH, Phosphate Lock Loop (PLL), WED y de interacción con PAM (PI). Figure 1 shows a schematic representation of the CRISPR-EHCas9 locus and the domains of the EHCas9 protein (hereinafter referred to as the protein of the present invention). The CRISPR-EHCas9 locus comprises three case genes in the order cas9 (referred to as ehcas9)-cas i-cas2 (represented by rectangles pointing in the direction of transcription) and two 36 base pair (bp; open rectangles) CRISPR units separated by a 29 bp spacer (diamond). The location of a putative tracrRNA gene is represented as an arrow pointing in the direction of transcription. The hcas9 gene encodes the protein of the present invention, the structure of which comprises the following domains: RuvC (motifs I, II and III), Bridge Helix (BH), recognition (REC), HNH nuclease, Phosphate Lock Loop (PLL), WED and PAM interaction (PI).

La Figura 2A muestra el alineamiento de la secuencia de la proteína de la presente invención, SEQ ID NO: 1, con la del ortólogo estructuralmente caracterizado más cercano, correspondiente aCorynebacterium diphtheriae(CdCas9; ID de la base de datos de proteínas 6JOO). Los límites de los dominios RuvC (motivos RuvCI-III), Bridge Helix (BH), reconocimiento (REC), HNH, Phosphate Lock Loop (PLL), WED y de interacción con PAM (PI) de CdCas9 se indican mediante barras debajo de la secuencia. La Figura 2B muestra el alineamiento múltiple de SEQ ID NO: 1 con la secuencia de los ortólogos estructuralmente caracterizados: CjCas9,Campylobacter jejuni;NmCas9,Neisseria meningitidis8013; StCas9,Streptococcus thermophilusLMD9; SaCas9,Staphylococcus aureus; SpCas9,Streptococcus pyogenes. Se enumeran algunas de las posiciones de aminoácidos de SEQ ID NO: 1. El sitio catalítico RuvC está sombreado y el sitio catalítico HNH se muestra en negrita y subrayado. En ambas figuras, las posiciones conservadas están marcadas con un asterisco. Figure 2A shows the sequence alignment of the protein of the present invention, SEQ ID NO: 1, with that of the closest structurally characterized ortholog, corresponding to Corynebacterium diphtheriae (CdCas9; Protein Database ID 6JOO). The boundaries of the RuvC (RuvCI-III motifs), Bridge Helix (BH), recognition (REC), HNH, Phosphate Lock Loop (PLL), WED and PAM-interacting (PI) domains of CdCas9 are indicated by bars below the sequence. Figure 2B shows the multiple alignment of SEQ ID NO: 1 with the sequence of the structurally characterized orthologs: CjCas9, Campylobacter jejuni; NmCas9, Neisseria meningitidis 8013; StCas9, Streptococcus thermophilus LMD9; SaCas9, Staphylococcus aureus; SpCas9,Streptococcus pyogenes. Some of the amino acid positions of SEQ ID NO: 1 are listed. The RuvC catalytic site is shaded and the HNH catalytic site is shown in bold and underlined. In both figures, conserved positions are marked with an asterisk.

La Figura 3 muestra la relación evolutiva de la proteína de la presente invención mediante el árbol filogenético de dicha proteína y 798 proteínas ortólogas. Los clados II, III, IV y V pertenecen al subtipo II-A, el clado I al subtipo II-B y los clados VI, VII, VIII, IX y X al subtipo II-C. Cas9 deSulfitobacter donghicola(SdoCas9) y ortólogos comúnmente utilizados para la edición del genoma (SaCas9:Staphylococcus aureusCas9; SpCas9:Streptococcus pyogenesCas9; NmCas9:Neisseria meningitidisCas9; CjCas9:Campylobacter je juniCas9; CdCas9:Corynebacterium diphteriaeCas9; StCas9:Streptococcus thermophilusCas9) están etiquetados en su posición aproximada en el árbol. Figure 3 shows the evolutionary relationship of the protein of the present invention through the phylogenetic tree of said protein and 798 orthologous proteins. Clades II, III, IV and V belong to subtype II-A, clade I to subtype II-B and clades VI, VII, VIII, IX and X to subtype II-C. Sulfitobacter donghicola Cas9 (SdoCas9) and orthologs commonly used for genome editing (SaCas9:Staphylococcus aureusCas9; SpCas9:Streptococcus pyogenesCas9; NmCas9:Neisseria meningitidisCas9; CjCas9:Campylobacter je juniCas9; CdCas9:Corynebacterium diphteriaeCas9; StCas9:Streptococcus thermophilusCas9) are labeled in their approximate position in the tree.

La Figura 4 muestra los mapas de los principales plásmidos construidos en esta invención. La Figura 4A muestra el mapa del plásmido pMML02, que incluye un gen que confiere resistencia a cloranfenicol (CmR), un gen que codifica la proteína de la presente invención bajo el control del promotor pBAD, y una agrupación CRISPR constituida por dos repeticiones de 36 pb y un espaciador de 29 pb con diana en el plásmido pSEVA. La transcripción de la agrupación CRISPR está controlada por un promotor constitutivo (Part:BBa_J23101) y finaliza en un terminador artificial (Part:BBa_B1006). La Figura 4B muestra el mapa del plásmido pMML03, que incluye un gen que confiere resistencia a ampicilina (AmpR) y la región intergénica del sistema CRISPR-Cas9 de la presente invención donde se localiza la secuencia codificante de EH tracrRNA bajo el control del promotor de lactosa Part:BBa_R0010 (promotor lac). La Figura 4C muestra el mapa del plásmido pMML09, que incluye un gen que confiere resistencia a cloranfenicol (CmR), el gen que codifica la proteína de la presente invención bajo el promotor PBAD (Part:BBa_I0500), y la región codificante de EH sgRNA. La región espaciadora del EH sgRNA coincide con una secuencia del gen cromosómicopyrFdeE. coli.La transcripción del gen de EH sgRNA está controlada por un promotor constitutivo (Part:BBa_J23101) y finaliza en un terminador artificial (Part:BBa_B1006). La Figura 4D muestra el mapa del plásmido pMML12, que incluye genes que confieren resistencia a kanamicina (KanR) y a ampicilina (AmpR) y el gen que codifica la proteína de la presente invención con uso de codones optimizado para células humanas (EHCas9 humanizada), fusionado a una secuencia codificante de una señal de localización nuclear (SV40 NLS), bajo el control del promotor del citomegalovirus humano (promotor CMV, Part:BBa_K2605001). La Figura 4E muestra el mapa del plásmido pMML13, que incluye un gen que confiere resistencia a ampicilina (AmpR) y un gen bajo el control de un promotor U6 (R1LP2N), que codifica la región constante de EH sgRNA y una zona espaciadora intercambiable, flanqueada por sitios de restricción Esp3I. La Figura 4F muestra el mapa del plásmido pMML22, que incluye un gen que confiere resistencia a kanamicina (KanR) y un gen con uso de codones optimizado paraE. colique codifica la proteína de la presente invención fusionada en el extremo N-terminal con una cola de 6 histidinas (6xHis). La transcripción del genehcas9-6xhis está bajo el control de un promotor T7 (Part:BBa_I719005). Figure 4 shows the maps of the main plasmids constructed in this invention. Figure 4A shows the map of plasmid pMML02, which includes a gene conferring chloramphenicol resistance (CmR), a gene encoding the protein of the present invention under the control of the pBAD promoter, and a CRISPR array consisting of two 36-bp repeats and a 29-bp spacer targeted in plasmid pSEVA. Transcription of the CRISPR array is controlled by a constitutive promoter (Part:BBa_J23101) and terminated by an artificial terminator (Part:BBa_B1006). Figure 4B shows the map of plasmid pMML03, which includes a gene conferring ampicillin resistance (AmpR) and the intergenic region of the CRISPR-Cas9 system of the present invention where the EH tracrRNA coding sequence is located under the control of the lactose promoter Part:BBa_R0010 (lac promoter). Figure 4C shows the map of plasmid pMML09, which includes a gene conferring chloramphenicol resistance (CmR), the gene encoding the protein of the present invention under the PBAD promoter (Part:BBa_I0500), and the EH sgRNA coding region. The spacer region of the EH sgRNA matches a sequence of the chromosomal gene pyrFdeE. coli. Transcription of the EH sgRNA gene is controlled by a constitutive promoter (Part:BBa_J23101) and terminated by an artificial terminator (Part:BBa_B1006). Figure 4D shows the map of plasmid pMML12, which includes genes conferring resistance to kanamycin (KanR) and ampicillin (AmpR) and the gene encoding the protein of the present invention with codon usage optimized for human cells (humanized EHCas9), fused to a sequence coding for a nuclear localization signal (SV40 NLS), under the control of the human cytomegalovirus promoter (CMV promoter, Part:BBa_K2605001). Figure 4E shows the map of plasmid pMML13, which includes an ampicillin resistance gene (AmpR) and a gene under the control of a U6 promoter (R1LP2N), encoding the EH sgRNA constant region and an exchangeable spacer region flanked by Esp3I restriction sites. Figure 4F shows the map of plasmid pMML22, which includes a kanamycin resistance gene (KanR) and a codon usage-optimized E. coli gene encoding the protein of the present invention fused at the N-terminus to a 6-histidine tail (6xHis). Transcription of the hcas9-6xhis gene is under the control of a T7 promoter (Part:BBa_I719005).

La Figura 5 muestra el cribado y validación de PAM. (A) Logotipo de secuencia de la región PAM preferida por la proteína de presente invención para la escisión de la diana, según lo determinado por el cribadoin vivode una genoteca PAM. Se indican las posiciones de los nucleótidos desde el extremo 3’ de la secuencia diana (cadena coincidente con el espaciador). Se ensayaron los nucleótidos de las posiciones 2 a 4 (la primera posición se mantuvo invariable, correspondiendo a timina). (B) Logotipo de la secuencia PAM consenso preferido por la proteína de la presente invención para la escisión de la diana según lo determinado mediante cribadoin vitro.Se indican las posiciones de los nucleótidos desde el extremo 3’ de la secuencia diana. En este caso se ensayaron los nucleótidos desde la posición 1 a la 7. (C) Validación de PAMin vivo.La eficiencia de transformación (número de unidades formadoras de colonias - CFU - por ^g de ADN plasmídico) de células deE. colique expresan (+ EHCas9) o no (- EHCas9) la proteína de la presente invención además de un EH crRNA guía y el EH tracrRNA predicho, con plásmidos que portan una diana adyacente a secuencias que varían en las posiciones 2, 3 y 4 (ACC, GGA, GGC, GGG, GGT) de la región PAM. Los datos son la media de tres réplicas (las barras de error corresponden a la desviación estándar). Figure 5 shows the PAM screening and validation. (A) Sequence logo of the PAM region preferred by the protein of the present invention for target cleavage as determined by in vivo screening of a PAM library. Nucleotide positions from the 3' end of the target sequence (spacer-matched strand) are indicated. Nucleotides from positions 2 to 4 were tested (the first position was kept unchanged, corresponding to thymine). (B) Consensus PAM sequence logo preferred by the protein of the present invention for target cleavage as determined by in vitro screening. Nucleotide positions from the 3' end of the target sequence are indicated. In this case, nucleotides from position 1 to 7 were tested. (C) PAM validation in vivo.The transformation efficiency (number of colony forming units - CFU - per ^g plasmid DNA) of E. coli express (+EHCas9) or not (-EHCas9) the protein of the present invention in addition to a guide EH crRNA and the predicted EH tracrRNA, with plasmids carrying a target adjacent to sequences varying at positions 2, 3 and 4 (ACC, GGA, GGC, GGG, GGT) of the PAM region. Data are the mean of three replicates (error bars correspond to standard deviation).

La Figura 6 muestra el esquema del EH sgRNA que incluye un espaciador genérico de 23 nucleótidos (nt) apareado con la hebra diana en un sustrato de ADN que contiene una secuencia coincidente con el espaciador y un PAM compatible (en cursiva). La secuencia de EH tracrRNA, que comprende el conector (tetraloop 5’-GAAA-3’, subrayado), la anti repetición y los dos segmentos formadores de tallo-bucle está resaltada en negrita, y la secuencia de la región de la repetición se encuentra recuadrada. Figure 6 shows the schematic of the EH sgRNA that includes a generic 23-nucleotide (nt) spacer annealed to the target strand on a DNA substrate containing a spacer-matched sequence and a compatible PAM (in italics). The sequence of the EH tracrRNA, comprising the linker (tetraloop 5’-GAAA-3’, underlined), the anti-repeat, and the two stem-loop-forming segments is highlighted in bold, and the sequence of the repeat region is boxed.

La Figura 7 muestra el resultado de la electroforesis en gel de poliacrilamida SDS de los pasos de la purificación de la proteína de la presente invención, la cual comprende una inserción de 19 aminoácidos tras el primer aminoácido de la secuencia identificada como SEQ ID NO:1, que incluye una cola de 6 histidinas para facilitar su purificación (EHCas9-6xHis; SEQ ID NO: 5). Se incluye un lisado de bacterias que expresan EHCas9-6xHis (Lisado) y muestras de extractos de proteínas purificadas a través de la columna de unión a His (Columna His), así como después de la filtración en gel (Filtración en gel). Se indica el tamaño de las bandas correspondientes a un marcador de peso molecular de proteínas (M). La banda principal de los extractos de proteínas corresponde a una proteína de alrededor de 120 kDa. Figure 7 shows the result of the SDS polyacrylamide gel electrophoresis of the purification steps of the protein of the present invention, which comprises an insertion of 19 amino acids after the first amino acid of the sequence identified as SEQ ID NO:1, which includes a 6-histidine tail to facilitate its purification (EHCas9-6xHis; SEQ ID NO: 5). A lysate of bacteria expressing EHCas9-6xHis (Lysate) and samples of protein extracts purified through the His-binding column (His Column) as well as after gel filtration (Gel Filtration) are included. The size of the bands corresponding to a protein molecular weight marker (M) is indicated. The main band of the protein extracts corresponds to a protein of around 120 kDa.

La Figura 8 muestra los resultados de la electroforesis en gel de agarosa de productos de reacción de la proteína de la invención obtenidos mediante ensayos de digestiónin vitrocon sustratos de ADN bicatenarios. Por defecto, las reacciones se llevaron a cabo bajo las siguientes condiciones estándar: durante 30 min a 37°C en presencia de 20 mM MgCh y 25 nM de ADN diana con PAM 5’-NGG-3’, tras añadir una solución con EHCas9 (0,5 ^M) y EH sgRNA (0,5 ^M) previamente incubada (Preincubado) durante 15 min a 37°C. Se indica el tamaño de bandas relevantes de un marcador de peso molecular de ADN (M, en kpb) y la posición correspondiente al sustrato de ADN sin cortar, así como las de los dos fragmentos que se generarían tras su digestión (cortado). (A) Muestras de reacciones de digestión en condiciones estándar utilizando todos los componentes de la reacción con el complejo EHCas9:EH sgRNA preincubado (carril 2) o sin preincubar (carril 7), y en ausencia de algún componente (MgCh, carril 3; diana con PAM, carril 4; EH sgRNA, carril 5; EHCas9, carril 6), tras preincubar (Preincubado; carriles 3 y 4) o sin preincubación (carriles 5 y 6). (B) Muestras de reacciones de digestión en condiciones estándar con diferentes concentraciones de proteína. (C) Muestras de las reacciones de digestión en condiciones estándar salvo por el tiempo de incubación. (D) Muestras de las reacciones de digestión en condiciones estándar excepto para la temperatura de incubación. Figure 8 shows the results of agarose gel electrophoresis of reaction products of the protein of the invention obtained by in vitro digestion assays with double-stranded DNA substrates. By default, the reactions were carried out under the following standard conditions: for 30 min at 37°C in the presence of 20 mM MgCh and 25 nM of target DNA with PAM 5’-NGG-3’, after adding a solution with EHCas9 (0.5 ^M) and EH sgRNA (0.5 ^M) previously incubated (Preincubated) for 15 min at 37°C. The size of relevant bands of a DNA molecular weight marker (M, in kbp) and the position corresponding to the uncut DNA substrate are indicated, as well as those of the two fragments that would be generated after its digestion (cut). (A) Samples of digestion reactions under standard conditions using all reaction components with EHCas9:EH sgRNA complex preincubated (lane 2) or without preincubation (lane 7), and in the absence of any component (MgCh, lane 3; PAM target, lane 4; EH sgRNA, lane 5; EHCas9, lane 6), after preincubation (Preincubated; lanes 3 and 4) or without preincubation (lanes 5 and 6). (B) Samples of digestion reactions under standard conditions with different protein concentrations. (C) Samples of digestion reactions under standard conditions except for incubation time. (D) Samples of digestion reactions under standard conditions except for incubation temperature.

La Figura 9 se refiere a la edición genética deE. coliasistida por la proteína de la presente invención. La Figura 9A muestra el esquema del procedimiento para la selección positiva de mutantes deE. coliobtenidos tras recombinación genética. La Figura 9B muestra el resultado de la electroforesis en gel de agarosa de productos de PCR obtenidos a partir de colonias de transformantes obtenidas en experimentos de edición del genpyrF(GDI). Las colonias provienen de la co-transformación de un molde de recombinación (la recombinación daría lugar a una deleción de 0,6 kpb enpyrF),y un plásmido que codifica para EHCas9 y un EH sgRNA dirigido a una secuencia diana en el genpyrF(+EHCas9) o con un plásmido equivalente pero que solo codifica el EH sgRNA (-EHCas9). Cada carril se corresponde con una colonia elegida al azar. Se señala el tamaño de bandas relevantes de un marcador de peso molecular de ADN (M, en kpb) y las posiciones esperadas para las bandas correspondientes al amplicón del genpyrForiginal (ca. 1 kpb; Silvestre) y el del gen con la deleción (ca. 0,5 kpb; Mutante). Figure 9 relates to the genetic editing of E. coliasistida by the protein of the present invention. Figure 9A shows the scheme of the procedure for the positive selection of E. coli mutants obtained after genetic recombination. Figure 9B shows the result of agarose gel electrophoresis of PCR products obtained from colonies of transformants obtained in pyrF gene editing experiments (GDI). The colonies come from the co-transformation of a recombination template (recombination would result in a 0.6 kbp deletion in pyrF), and a plasmid encoding EHCas9 and an EH sgRNA directed to a target sequence in the pyrF gene (+EHCas9) or with an equivalent plasmid but encoding only the EH sgRNA (-EHCas9). Each lane corresponds to a randomly chosen colony. The size of the relevant bands of a DNA molecular weight marker (M, in kbp) and the expected positions for the bands corresponding to the amplicon of the original pyrF gene (ca. 1 kbp; Wild) and that of the gene with the deletion (ca. 0.5 kbp; Mutant) are indicated.

La Figura 10 se refiere a la edición genética en cultivos de células N2a de ratón asistida por la proteína de la presente invención. La Figura 10A muestra el esquema del procedimiento de edición genética. La Figura 10B muestra el porcentaje del número de lecturas de secuenciación con inserciones o deleciones (% INDELs; n=3, media ± s.d.) obtenidos para 4 secuencias diana en los genesLrmda (Lrmda.1)yOca2 (Oca2.2, Oca2.3, Oca2.4)del genoma de ratón tras la transfección con plásmidos que codifican para SpCas9 y Sp sgRNA (SpCas9.sgRNA; a), EHCas9 y EH sgRNA (EHCas9.sgRNA; b) o EHCas9 (EHCas9; c). Como control negativo se incluyen los resultados obtenidos con células no transfectadas (N2a; d). La Figura 10C muestra el alineamiento de los 10 alelos más frecuentes revelados para la dianaOca2.3en los experimentos con sistema CRISPR-EHCas9 de la invención. Los códigos de las deleciones figuran en la columna de la izquierda (p. ej., -2:1D, deleción de un nucleótido en la posición -2 respecto al sitio de corte). La posición del sitio de corte preferente de EHCas9 se muestra con una línea discontinua. La secuencia de la región diana original (Oca2.3) se incluye en la primera línea. Las regiones diana y PAM se marcan con letras subrayadas y en un recuadro, respectivamente. En la columna de la derecha se representa la frecuencia de cada alelo (%) como porcentaje promedio de 3 réplicas. Figure 10 relates to gene editing in mouse N2a cell cultures assisted by the protein of the present invention. Figure 10A shows the scheme of the gene editing procedure. Figure 10B shows the percentage of the number of sequencing reads with insertions or deletions (% INDELs; n=3, mean±s.d.) obtained for 4 target sequences in the Lrmda (Lrmda.1) and Oca2 (Oca2.2, Oca2.3, Oca2.4) genes of the mouse genome after transfection with plasmids encoding SpCas9 and Sp sgRNA (SpCas9.sgRNA; a), EHCas9 and EH sgRNA (EHCas9.sgRNA; b) or EHCas9 (EHCas9; c). The results obtained with non-transfected cells (N2a; d) are included as a negative control. Figure 10C shows the alignment of the 10 most frequent alleles revealed for the Oca2.3 target in experiments using the CRISPR-EHCas9 system of the invention. Deletion codes are listed in the left column (e.g., -2:1D, deletion of a nucleotide at position -2 relative to the cleavage site). The position of the preferred EHCas9 cleavage site is shown by a dashed line. The sequence of the original target region (Oca2.3) is included in the first line. The target and PAM regions are marked with underlined and boxed letters, respectively. The frequency of each allele (%) is represented in the right column as an average percentage of 3 replicates.

La Figura 11 muestra el crecimiento de células N2a de ratón expresando componentes de la proteína de la presente invención, EHCas9, y de la proteína Cas9 de la bacteriaStreptococcus pyogenes,SpCas9. (A) Recuento de células nucleadas sin transfectar (Sin plásmido) y transfectadas con 200 ng, 150 ng o 100 ng de plásmidos codificando SpCas9 o EHCas9. (B) Recuento de núcleos en células transfectadas y sin transfectar (Sin plásmido) con 100 ng de plásmidos codificando sgRNA de SpCas9 (Sp sgRNA) o EHCas9 (EH sgRNA) (n=3, media ± DS). (C) Tinción DAPI de células no transfectadas (N2a) y de células transfectadas con plásmidos codificando SpCas9 o EHCas9. Figure 11 shows the growth of mouse N2a cells expressing components of the protein of the present invention, EHCas9, and the Cas9 protein from the bacterium Streptococcus pyogenes, SpCas9. (A) Count of nucleated cells that were untransfected (No plasmid) and transfected with 200 ng, 150 ng, or 100 ng of plasmids encoding SpCas9 or EHCas9. (B) Count of nuclei in cells transfected and untransfected (No plasmid) with 100 ng of plasmids encoding SpCas9 sgRNA (Sp sgRNA) or EHCas9 (EH sgRNA) (n=3, mean±SD). (C) DAPI staining of untransfected cells (N2a) and cells transfected with plasmids encoding SpCas9 or EHCas9.

DESCRIPCIÓN DETALLADA DE LA INVENCIÓNDETAILED DESCRIPTION OF THE INVENTION

La presente invención proporciona una proteína endonucleasa Cas9 con un tamaño tal que facilita su administración tanto a bacterias como células de mamíferos mediante vectores comúnmente empleados en biotecnología y biomedicina para la edición génica de las mismas. Ventajosamente, la proteína de la presente invención comprende una secuencia aminoacídica según SEQ ID NO:1 (de aquí en adelante, "EHCas9”). Preferentemente, una secuencia aminoacídica con al menos un 70% de identidad de secuencia con SEQ ID NO: 1. Aún más preferentemente, una secuencia aminoacídica según SEQ ID NO: 5 o SEQ ID NO: 7. The present invention provides a Cas9 endonuclease protein with a size that facilitates its administration to both bacteria and mammalian cells by means of vectors commonly used in biotechnology and biomedicine for gene editing thereof. Advantageously, the protein of the present invention comprises an amino acid sequence according to SEQ ID NO: 1 (hereinafter, "EHCas9"). Preferably, an amino acid sequence with at least 70% sequence identity with SEQ ID NO: 1. Even more preferably, an amino acid sequence according to SEQ ID NO: 5 or SEQ ID NO: 7.

Las cepas bacterianas, los plásmidos, y los oligonucleótidos utilizados en los ejemplos de la presente invención son los que se relacionan en las Tablas 1 ,2 y 3, respectivamente. The bacterial strains, plasmids, and oligonucleotides used in the examples of the present invention are those listed in Tables 1, 2, and 3, respectively.

Tabla 1.Cepas deE. coliutilizadas en la presente invención. Table 1. E. coli strains used in the present invention.

Cepa Genotipo relevante Uso ReferenciaNZYstarendA1 hsdR17(rk-, mk+) Clonación de plásmidos y NZYTechsupE44thi -1 recA1 gyrA96 generación de biblioteca relA1 lac[F' proA+B+lacIqPAM Strain Relevant genotype Use ReferenceNZYstarendA1 hsdR17(rk-, mk+) Plasmid cloning and NZYTechsupE44thi -1 recA1 gyrA96 library generation relA1 lac[F' proA+B+lacIqPAM

ZDM15:Tn10(TcR)] ZDM15:Tn10(TcR)]

BW 27783lacIq rrnB3AlacZ4787 Cribadoin vivoy validación [1]A(araBAD)567de PAM. Selección positivaA(rhaBAD)568 hsdR514de células deE. coliA(K)®(AaraEpPCP8-araE) editadas genéticamente. BW 27783lacIq rrnB3AlacZ4787 In vivo screening and validation [1] A(araBAD)567 of PAM. Positive selection A(rhaBAD)568 hsd R514 of gene-edited E. coli A(K)® (AaraEpPCP8-araE) cells.

TOP10F- mcrA A(mrr-hsdRMS-Clonación de plásmidos InvitrogenmcrBC) $80lacZAM15utilizados en ediciónAlacX74 nupG recAIgenética en eucariotas TOP10F- mcrA A(mrr-hsdRMS-InvitrogenmcrBC plasmid cloning) $80lacZAM15used in editingAlacX74 nupG recAIgenetics in eukaryotes

araD139 A(ara-leu)7697araD139 A(ara-leu)7697

galE15 galK16 rpsL(StrR)galE15 galK16 rpsL(StrR)

endAI A-BL21(DE3)F- ompT gal dcm lonHsdSB Producción de EHCas9 [2] (rB-mB-) A(DE3 [lacIlacUV5-T7gene 1ind1 sam7 nin5])endAI A-BL21(DE3)F- ompT gal dcm lonHsdSB Production of EHCas9 [2] (rB-mB-) A(DE3 [lacIlacUV5-T7gene 1ind1 sam7 nin5])

[1] Khlebnikov,A. et al (2001). Microbiology, 147, 3241-3247; [2] Rosenberg,A.H. et al. (1987). Gene, 56, 125-135.[1] Khlebnikov,A. et al (2001). Microbiology, 147, 3241-3247; [2] Rosenberg, A.H. et al. (1987). Gene, 56, 125-135.

Tabla 2.Plásmidos utilizados en la presente invención. Table 2. Plasmids used in the present invention.

Plásmido Descripción/Uso ReferenciapBAD33 Vector de expresión en bacterias bajo el promotor de [3] Plasmid Description/Use ReferencepBAD33 Bacterial expression vector under the promoter of [3]

arabinosa. Resistencia a cloranfenicol arabinose. Resistance to chloramphenicol

pUC57 Vector de clonación bacteriana. Resistencia a ampicilina [4] pSEVA431 Vector de clonación bacteriana. Resistencia a [5] pUC57 Bacterial cloning vector. Resistance to ampicillin [4] pSEVA431 Bacterial cloning vector. Resistance to [5]

espectinomicina spectinomycin

pHTP1 Vector de expresión en bacterias bajo el promotor T7 NZYTech con una cola 6x His. Resistencia a kanamicina pHTP1 Bacterial expression vector under the NZYTech T7 promoter with a 6x His tail. Kanamycin resistance

pKD46 Plásmido bacteriano de replicación termosensible [6] pKD46 Thermosensitive replication bacterial plasmid [6]

codificante del sistema de recombinación Lambda Red. encoding the Lambda Red recombination system.

Resistencia a ampicilina Ampicillin resistance

hCas9 Expresión de SpCas9 humanizado para edición [7] hCas9 Expression of humanized SpCas9 for editing [7]

genómica. Resistencia a ampicilina y a la kanamicina genomics. Resistance to ampicillin and kanamycin

MLM3636 Vector de expresión de SpCas9 sgRNA expression. Keith Joung (no Resistencia a ampicilina publicado) pUC57- pUC57 que codifica EHCas9 Esta invención EHCas9 MLM3636 SpCas9 sgRNA expression vector. Keith Joung (unpublished Ampicillin resistance) pUC57- pUC57 encoding EHCas9 This invention EHCas9

pUC57- pUC57 que codifica la agrupación EHCas9 CRISPR Esta invención EHCRISPR pUC57- pUC57 encoding the EHCas9 CRISPR cluster This invention EHCRISPR

pMML01 Derivado de pBAD33 que contiene la agrupación EH Esta invención CRISPR pMML01 Derivative of pBAD33 containing the EH cluster This invention CRISPR

pMML02 Derivado de pMML01 que contiene el genehcas9Esta invención pMML03 Derivado de pUC57 que contiene regiones intergénicas Esta invención de CRISPR-EHCas9 pMML02 Derivative of pMML01 containing the genehcas9This invention pMML03 Derivative of pUC57 containing intergenic regions This invention of CRISPR-EHCas9

pMML04 Derivado de pSEVA431 que contiene una diana y la Esta invención secuencia PAM 5’-TGGA-3’ pMML04 Derivative of pSEVA431 containing a target and the This invention sequence PAM 5’-TGGA-3’

pMML05 Derivado de pSEVA431 que contiene una diana y la Esta invención secuencia PAM 5’-TGGC-3’ pMML05 Derived from pSEVA431 containing a target and the This invention sequence PAM 5’-TGGC-3’

pMML06 Derivado de pSEVA431 que contiene una diana y la Esta invención secuencia PAM 5’-TGGG-3’ pMML06 Derivative of pSEVA431 containing a target and the This invention sequence PAM 5’-TGGG-3’

pMML07 Derivado de pSEVA431 que contiene una diana y la Esta invención secuencia PAM 5’-TGGT-3’ pMML07 Derived from pSEVA431 containing a target and the This invention sequence PAM 5’-TGGT-3’

pMML08 Derivado de pUC57 que contiene la secuencia que Esta invención codifica EH sgRNA sin el espaciador pMML08 Derivative of pUC57 containing the sequence that This invention encodes EH sgRNA without the spacer

Plásm ido Descripción/Uso Referencia pMML09 Derivado de pMML02 en el que se sustituye la Esta invención agrupación EH CRISPR por una secuencia que codifica Plasmid Description/Use Reference pMML09 Derivative of pMML02 in which the EH CRISPR cluster is replaced by a sequence encoding

un EH sgRNA que contiene un espaciador que coincide an EH sgRNA containing a spacer that matches

con una secuencia enpyrFwith an enpyrF sequence

pMML10 Derivado de pMML09 por deleción deehcas9Esta invención pMML11 Derivado de pUC57 que contiene el genehcas9con uso Esta invención de codones optimizado para humanos pMML10 Derived from pMML09 by deletion of ehcas9This invention pMML11 Derived from pUC57 containing the genehcas9with codon usage optimized for humans

pMML12 Derivado de hCas9 que contiene el genehcas9con uso Esta invención de codones optimizado para humanos de pMML11 en pMML12 hCas9 derivative containing the hCas9 gene with codon-optimized human use of pMML11 in

lugar dehcas9place dehcas9

pMML13 Derivado de MLM3636 que codifica EH sgRNA (sin Esta invención espaciador) de pMML08 pMML13 Derivative of MLM3636 encoding EH sgRNA (without This invention spacer) from pMML08

pMML14 Derivado de MLM3636 por inserción de un espaciador Esta invención dirigido al locusOca2.2pMML14 Derived from MLM3636 by insertion of a spacer This invention targets the Oca2.2 locus

pMML15 Derivado de MLM3636 por inserción de un espaciador Esta invención dirigido al locusOca2.3pMML15 Derived from MLM3636 by insertion of a spacer This invention targets the Oca2.3 locus

pMML16 Derivado de MLM3636 por inserción de un espaciador Esta invención dirigido al locus Oca2.4 pMML16 Derived from MLM3636 by insertion of a spacer This invention targets the Oca2.4 locus

pMML17 Derivado de MLM3636 por inserción de un espaciador Esta invención dirigido al locusLrmda.1pMML17 Derived from MLM3636 by insertion of a spacer This invention targets the Lrmda.1 locus

pMML18 Derivado de pMML13 por inserción de un espaciador Esta invención dirigido al locusOca2.2pMML18 Derived from pMML13 by insertion of a spacer This invention targets the Oca2.2 locus

pMML19 Derivado de pMML13 por inserción de un espaciador Esta invención dirigido al locusOca2.3pMML19 Derived from pMML13 by insertion of a spacer This invention targets the Oca2.3 locus

pMML20 Derivado de pMML13 por inserción de un espaciador Esta invención dirigido al locusOca2.4 pMML20 Derived from pMML13 by insertion of a spacer This invention targets the Oca2.4 locus

pMML21 Derivado de pMML13 por inserción de un espaciador Esta invención dirigido al locusLrmda.1pMML21 Derived from pMML13 by insertion of a spacer This invention targets the Lrmda.1 locus

pMML22 Derivado de pHTP1 que contiene el genehcas9con uso Esta invención de codones optimizado paraE. colipMML22 pHTP1 derivative containing the hcas9 gene with codon usage optimized for E. coli

[3] Guzman,L.-M. et al. (1995). J. Bacteriol., 177, 4121-4130; [4] Yanisch-Perron,C. et al. (1985). Gene, 33, 103-119; [5] Silva-Rocha,R. et al. (2013). Nucleic Acids Res., 41, D666-D675; [6] Datsenko,K.A. and Wanner,B.L. (2000). Proc Natl Acad Sci U S A, 97, 6640-6645; [7] Mali,P. et al. (2013). Science, 339, 823-826.[3] Guzman,L.-M. et al. (1995). J. Bacteriol., 177, 4121-4130; [4] Yanisch-Perron,C. et al. (1985). Gene, 33, 103-119; [5] Silva-Rocha,R. et al. (2013). Nucleic Acids Res., 41, D666-D675; [6] Datsenko, K.A. and Wanner,B.L. (2000). Proc Natl Acad Sci U S A, 97, 6640-6645; [7] Mali,P. et al. (2013). Science, 339, 823-826.

A menos que se especifique lo contrario, los cultivos deE. colise crecieron a 37°C en medio líquidoLuria-Bertani(LB) con agitación orbital a 180 rpm, o en LB agar. Para la selección de células portadoras de plásmidos, los medios se suplementaron con cloranfenicol (25 ^g/ml), ampicilina (100 ^g/ml), espectinomicina (50 ^g/ml) o kanamicina (50 ^g/ml), según correspondiera. Unless otherwise specified, E. coli cultures were grown at 37°C in Luria-Bertani (LB) liquid medium with orbital shaking at 180 rpm, or on LB agar. For selection of plasmid-bearing cells, media were supplemented with chloramphenicol (25 µg/ml), ampicillin (100 µg/ml), spectinomycin (50 µg/ml), or kanamycin (50 µg/ml), as appropriate.

Las secuencias espadadoras guía se clonaron en el plásmido pMML13 (Figura 4E) usando el método Golden Gate [Engler,C. et al. (2009). PLOS ONE, 4, e5553]. Los otros ensayos de clonación molecular y sustitución de genes de plásmidos fueron realizados mediante ensamblaje Gibson con el kit de clonación Gibson Assembly® (NEB). The guide spacer sequences were cloned into plasmid pMML13 (Figure 4E) using the Golden Gate method [Engler,C. et al. (2009). PLOS ONE, 4, e5553]. The other molecular cloning and plasmid gene replacement assays were performed by Gibson assembly using the Gibson Assembly® cloning kit (NEB).

Para la preparación de células electrocompetentes deE. coliBL21(DE3) yE. coliBW27783, cultivos líquidos en fase estacionaria se llevaron a una dilución 1/100 en caldo LB y se crecieron hasta una DO600= 0,5. Las células fueron recogidas por centrifugación y lavadas tres veces con agua desionizada y una vez con glicerol al 10%. Las transformaciones se realizaron con 50 ^l de suspensiones de células electrocompetentes recién preparadas, incubadas en hielo durante 25 min después de agregar el ADN. La mezcla de células y ADN se transfirió a una cubeta de electroporación de tamaño de ranura de 2 mm (Molecular Bioproducts) enfriada sobre hielo y se sometió a electroporación a 2,5 kV con un MicroPulser (BIORAD). Inmediatamente a continuación se añadió a la suspensión celular 1 ml de caldo SOC y se incubó durante 1 hora en condiciones estándar en un tubo de 12 ml. Finalmente, las células se sembraron en placas con medios suplementados con el antibiótico correspondiente para la selección del plásmido y se incubaron durante toda la noche a 30°C en el caso del plásmido termosensible pKD46 o a 37°C en el resto de los casos. For preparation of electrocompetent cells of E. coli BL21(DE3) and E. coli BW27783, stationary phase liquid cultures were brought to a 1/100 dilution in LB broth and grown to OD600=0.5. Cells were harvested by centrifugation and washed three times with deionized water and once with 10% glycerol. Transformations were performed with 50 μl of freshly prepared electrocompetent cell suspensions incubated on ice for 25 min after addition of DNA. The cell/DNA mixture was transferred to an ice-cold 2 mm slot-size electroporation cuvette (Molecular Bioproducts) and electroporated at 2.5 kV with a MicroPulser (BIORAD). Immediately afterward, 1 ml of SOC broth was added to the cell suspension and incubated for 1 hour under standard conditions in a 12 ml tube. Finally, the cells were plated on media supplemented with the corresponding antibiotic for plasmid selection and incubated overnight at 30°C in the case of the thermosensitive plasmid pKD46 or at 37°C in the other cases.

Las células deE. coliNZYStar (NZYTech) yE. coliTOP10 (Invitrogen) químicamente competentes se transformaron siguiendo las instrucciones del fabricante. Chemically competent E. coli NZYStar (NZYTech) and E. coli TOP10 (Invitrogen) cells were transformed following the manufacturer's instructions.

Los plásmidos se aislaron deE. colicon el kit PureLink™ HiPure Plasmid Midiprep o el kit PureLink™ HiPure Plasmid Miniprep (Invitrogen). Los productos de PCR y los fragmentos de ADN se purificaron con el GFX™ PCR DNA and Gel Band Purification Kit (Cytiva). Plasmids were isolated from E. coli using the PureLink™ HiPure Plasmid Midiprep Kit or the PureLink™ HiPure Plasmid Miniprep Kit (Invitrogen). PCR products and DNA fragments were purified using the GFX™ PCR DNA and Gel Band Purification Kit (Cytiva).

La concentración y la pureza de las soluciones de ácidos nucleicos se estimaron con un espectrofotómetro NanoDrop ND-1000 (Thermo Scientific), y su integridad se evaluó mediante electroforesis en gel de agarosa. The concentration and purity of nucleic acid solutions were estimated with a NanoDrop ND-1000 spectrophotometer (Thermo Scientific), and their integrity was assessed by agarose gel electrophoresis.

Para visualizar las moléculas de ADN sometidas a electroforesis en gel de agarosa, se tomaron imágenes de geles que contenían GreenSafe premium (NZYTech), empleando ChemiDoc XRS+ Gel Imaging System (BIORAD). El marcador de peso molecular 1 Kb Plus DNA Ladder (Invitrogen) se incluyó en los geles de agarosa para estimar el tamaño de los fragmentos de ADN. To visualize DNA molecules subjected to agarose gel electrophoresis, gels containing GreenSafe premium (NZYTech) were imaged using the ChemiDoc XRS+ Gel Imaging System (BIORAD). The molecular weight marker 1 Kb Plus DNA Ladder (Invitrogen) was included in the agarose gels to estimate the size of DNA fragments.

Ejemplo 1: Identificación y caracterización de la proteína de la invención con secuencia aminoacídica según SEQ ID NO:1Example 1: Identification and characterization of the protein of the invention with amino acid sequence according to SEQ ID NO:1

Para la identificación y caracterización de la proteína de la presente invención con secuencia aminoacídica según SEQ ID NO: 1 (de aquí en adelante, ‘EHCas9’), los inventores recolectaron muestras de agua en una laguna del Parque Natural ‘El Hondo’ (EH) en España. Estas muestras se prefiltraron a través de papel de filtro y un filtro de membrana Durapore® de 5 μm de tamaño de poro (Merk). Posteriormente, se realizó una filtración secuencial a través de un filtro de membrana Durapore® (Merk) de 0,22 μm de tamaño de poro y un dispositivo de ultrafiltración de flujo cruzado VIVAFLOW 200 de 30.000 MWCO (Sartorius). La muestra filtrada se concentró utilizando un filtro 3K Ultra Amicon® (Millipore). El ADN se purificó a partir del concentrado con el kit PureLink® Viral RNA/DNA Mini (Invitrogen). For the identification and characterization of the protein of the present invention with amino acid sequence according to SEQ ID NO: 1 (hereinafter, ‘EHCas9’), the inventors collected water samples in a lagoon of the ‘El Hondo’ (EH) Natural Park in Spain. These samples were prefiltered through filter paper and a 5 μm pore size Durapore® membrane filter (Merk). Subsequently, sequential filtration was performed through a 0.22 μm pore size Durapore® membrane filter (Merk) and a 30,000 MWCO VIVAFLOW 200 cross-flow ultrafiltration device (Sartorius). The filtered sample was concentrated using a 3K Ultra Amicon® filter (Millipore). DNA was purified from the concentrate with the PureLink® Viral RNA/DNA Mini kit (Invitrogen).

La secuenciación del ADN fue realizada utilizando Illumina HiSeq. Las lecturas de baja calidad fueron eliminadas con el programa PRINSEQ-lite [Schmieder, R., & Edwards, R. (2011). Bioinformatics, 27(6), 863-864], utilizando la configuración: min_length: 50, trim_qual_right: 30, trim_qual_type: mean y trim_qual_window: 20. Seguidamente, las secuencias eucariotas se identificaron mediante búsquedas BLASTn (opciones: -taxidlist: taxid:2759, -evalue: 0.005) frente a la base de datos del Centro Nacional para la Información Biotecnológica (NCBI, por sus siglas en inglés; https://blast.ncbi.nlm.nih.gov/Blast.cgi). Las secuencias con una identidad superior a 0,9 se filtraron usando el script FastQ.filter.pl de Enveomics Collection [Rodriguez-R,L.M. & Konstantinidis,K.T. (2016). PeerJ Preprints, 4, e1900v1]. El ensamblajede novode las lecturas restantes se realizó con el programa SPAdes v3.13.0 [Nurk, S., et al. (2017). Genome Res., 27(5), 824-834] usando la opción metaspades con parámetros: -k 21, 33, 55, 77, 99, 127. DNA sequencing was performed using Illumina HiSeq. Low-quality reads were removed with PRINSEQ-lite [Schmieder, R., & Edwards, R. (2011). Bioinformatics, 27(6), 863-864] using the settings: min_length: 50, trim_qual_right: 30, trim_qual_type: mean, and trim_qual_window: 20. Eukaryotic sequences were then identified by BLASTn searches (options: -taxidlist: taxid:2759, -evalue: 0.005) against the National Center for Biotechnology Information (NCBI) database; https://blast.ncbi.nlm.nih.gov/Blast.cgi). Sequences with an identity greater than 0.9 were filtered using the FastQ.filter.pl script from the Enveomics Collection [Rodriguez-R,L.M. & Konstantinidis,K.T. (2016). PeerJ Preprints, 4, e1900v1]. De novo assembly of the remaining reads was performed with the SPAdes v3.13.0 program [Nurk, S., et al. (2017). Genome Res., 27(5), 824-834] using the metaspades option with parameters: -k 21, 33, 55, 77, 99, 127.

Para la identificación de los sistemas CRISPR-Cas en el metagenoma generado a partir de la fracción subcelular de estas muestras de agua, primero se analizaron secuencias de longitud > 2 kb mediante el programa CRISPRCasFinder (CCFinder) con el fin de detectar genescasy agrupaciones CRISPR [Couvin, D. et al. (2018). Nucleic Acids Res., 46(W1), W246-W251]. A continuación, se predijeron los marcos de lectura abierta (ORF) de los 745 cóntigos con componentes CRISPR-Cas así identificados, para lo que se utilizó Prodigal v2.6.3 [Hyatt, D. et al. (2010). BMC bioinformatics, 11(1), 1-11]. El catálogo resultante de secuencias de proteínas se analizó con perfiles Hidden Markov Models (HMM) de dominios de proteínas Cas9 utilizando el programa hmmersearch del paquete HMMER v3.2 [Finn, R. D. et al. (2011). Nucleic Acids Res., 39, W29-W37]. To identify CRISPR-Cas systems in the metagenome generated from the subcellular fraction of these water samples, sequences >2 kb in length were first analyzed using the CRISPRCasFinder (CCFinder) program to detect CRISPR genes and clusters [Couvin, D. et al. (2018). Nucleic Acids Res., 46(W1), W246-W251]. Next, the open reading frames (ORFs) of the 745 contigs with CRISPR-Cas components thus identified were predicted using Prodigal v2.6.3 [Hyatt, D. et al. (2010). BMC bioinformatics, 11(1), 1-11]. The resulting protein sequence catalog was analyzed with Hidden Markov Models (HMM) profiles of Cas9 protein domains using the hmmersearch program of the HMMER v3.2 package [Finn, R. D. et al. (2011). Nucleic Acids Res., 39, W29-W37].

Como primer paso para la identificación de posibles regiones codificantes de tracrRNA, se buscaron secuencias semejantes a repeticiones (repeticiones degeneradas) en las proximidades de los loci CRISPR-cas con la plataforma en línea Benchling (https://benchling.com/editor). Seguidamente, se predijeron secuencias promotoras y terminadoras a ambos lados de las repeticiones degeneradas encontradas con BPROM y FindTerm [Salamov, V. S. A., & Solovyevand, A. (2011). Metagenomics and its applications in agriculture, biomedicine and environmental studies, Nova Science Publishers, 61-78], respectivamente. Finalmente seleccionamos para su posterior análisis funcional y bioquímico un sistema (sistema CRISPR-EHCas9) asociado a un gencas9 (ehcas9)y un posible tracrRNA. As a first step towards the identification of potential tracrRNA coding regions, repeat-like sequences (degenerate repeats) in the vicinity of CRISPR-cas loci were searched using the online platform Benchling (https://benchling.com/editor). Promoter and terminator sequences on either side of the found degenerate repeats were then predicted using BPROM and FindTerm [Salamov, V. S. A., & Solovyevand, A. (2011). Metagenomics and its applications in agriculture, biomedicine and environmental studies, Nova Science Publishers, 61-78], respectively. Finally, a system (CRISPR-EHCas9 system) associated with a cas9 gene (ehcas9) and a potential tracrRNA were selected for further functional and biochemical analysis.

La Figura 1 muestra una representación esquemática del locus CRISPR-EHCas9 y los dominios de la proteína EHCas9 asociada. El locus CRISPR-EHCas9 comprende tres genescas,en el ordencas9(denominadoehcas9)-ca s i-cas2(representados mediante rectángulos apuntando en el sentido de la transcripción), y una agrupación EHCRISPR que consta de dos repeticiones de 36 pb con secuencia SEQ ID NO: 71 (rectángulos blancos) separadas por un espaciador de 29 pb (rombo). Corriente arriba deehcas9se identificó un posible gen de tracrRNA (representado con una flecha que apunta en el sentido de la transcripción en la Figura 1) como una región de ~100 pb, flaqueada por un promotor y un terminador independiente de Rho, que contiene una secuencia anti repetición (parcialmente complementaria a las unidades CRISPR asociadas). El genehcas9codifica la proteína EHCas9, cuya estructura comprende los siguientes dominios: RuvC (motivos I, II y III), Bridge Helix (BH), de reconocimiento (REC), nucleasa HNH, Phosphate Lock Loop (PLL), WED y de interacción con PAM (PI). Figure 1 shows a schematic representation of the CRISPR-EHCas9 locus and the associated EHCas9 protein domains. The CRISPR-EHCas9 locus comprises three cas genes, in the order cas9 (termed ehcas9)-cas i-cas2 (represented by rectangles pointing in the direction of transcription), and an EHCRISPR cluster consisting of two 36 bp repeats with sequence SEQ ID NO: 71 (open rectangles) separated by a 29 bp spacer (diamond). Upstream of ehcas9 a putative tracrRNA gene (represented by an arrow pointing in the direction of transcription in Figure 1) was identified as a ~100 bp region, flanked by a promoter and a Rho-independent terminator, containing an anti-repeat sequence (partially complementary to the associated CRISPR units). The genehcas9 encodes the EHCas9 protein, whose structure comprises the following domains: RuvC (motifs I, II and III), Bridge Helix (BH), recognition (REC), HNH nuclease, Phosphate Lock Loop (PLL), WED and PAM interaction (PI).

La comparación mediante la herramienta BLASTp de la secuencia aminoacídica de EHCas9 con las de las proteínas Cas9 disponibles en la base de datos de secuencias del NCBI (https://blast.ncbi.nlm.nih.gov/Blast.cgi), muestra una identidad de secuencia inferior al 68%. La comparación con ortólogos nativos Cas9 empleados para la edición de genomas en células de mamíferos muestra una identidad de secuencia inferior al 29% (ver Tabla 4). En concreto, estos alineamientos revelaron la arquitectura de dominios típica de esta familia de proteínas [Jinek, M. et al. (2014). Science, 343(6176), 1247997; Yamada, M. et al. (2017). Mol. Cell, 65(6), 1109-1121; Hirano, S. et al. (2019). Nat. Commun., 10(1), 1-11; Nishimasu, H. et al. (2015). Cell, 162(5), 1113-1126; Fuchsbauer, O. et al. (2019). Mol. Cell, 76(6), 922-937; Sun, W. et al. (2019). Mol. Cell, 76(6), 938-952] con residuos catalíticos conservados en los dominios nucleasa RuvC (D11, E521, H747 y D750) y HNH (D605, H606 y N629) (ver Figuras 2A y 2B). Sin embargo, la secuencia del dominio que interactúa con PAM difiere considerablemente. En conjunto, estas observaciones sugieren que EHCas9 podría actuar como una nucleasa guiada por crRNA:tracrRNA de manera similar a los ortólogos caracterizados bioquímicamente, pero reconociendo PAM distintos. Comparison of the amino acid sequence of EHCas9 with those of Cas9 proteins available in the NCBI sequence database (https://blast.ncbi.nlm.nih.gov/Blast.cgi) using the BLASTp tool shows a sequence identity of less than 68%. Comparison with native Cas9 orthologs used for genome editing in mammalian cells shows a sequence identity of less than 29% (see Table 4). Specifically, these alignments revealed the typical domain architecture of this protein family [Jinek, M. et al. (2014). Science, 343(6176), 1247997; Yamada, M. et al. (2017). Mol. Cell, 65(6), 1109-1121; Hirano, S. et al. (2019). Nat. Commun., 10(1), 1-11; Nishimasu, H. et al. (2015). Cell, 162(5), 1113-1126; Fuchsbauer, O. et al. (2019). Mol. Cell, 76(6), 922-937; Sun, W. et al. (2019). Mol. Cell, 76(6), 938-952] with conserved catalytic residues in the RuvC (D11, E521, H747 and D750) and HNH (D605, H606 and N629) nuclease domains (see Figures 2A and 2B). However, the sequence of the PAM-interacting domain differs considerably. Taken together, these observations suggest that EHCas9 might act as a crRNA:tracrRNA-guided nuclease in a manner similar to biochemically characterized orthologs, but recognizing distinct PAMs.

Con respecto a su tamaño, EHCas9 está en el rango de los ortólogos más pequeños, presentando una longitud total de 1.070 aa y una masa de aproximadamente 120 kDa. Ello permite la administración de las secuencias codificantes de la herramienta EHCas9 a células eucariotas empleando un vector de tamaño restringido, como los virus adenoasociados (AAV), comúnmente utilizados en biomedicina. Además, su pequeño tamaño también puede facilitar la administración de derivados inactivos de la nucleasa fusionados con péptidos con distintas actividades relacionadas con el ADN, como se ha hecho con las proteínas dead-Cas9 (dCas9). Regarding its size, EHCas9 is in the range of the smallest orthologs, presenting a total length of 1,070 aa and a mass of approximately 120 kDa. This allows the delivery of the coding sequences of the EHCas9 tool to eukaryotic cells using a size-restricted vector, such as adeno-associated viruses (AAV), commonly used in biomedicine. In addition, its small size can also facilitate the delivery of inactive derivatives of the nuclease fused to peptides with different DNA-related activities, as has been done with dead-Cas9 (dCas9) proteins.

La relación evolutiva de EHCas9 se analizó mediante la reconstrucción de un árbol filogenético que incluye 798 secuencias de proteínas Cas9 ortólogas (Figura 3). En concreto, se llevó a cabo un alineamiento múltiple entre SEQ ID NO: 1 y las secuencias de una base de datos de ortólogos de Cas9 recopiladas por Gasiunas et al. [Nat. Commun. The evolutionary relationship of EHCas9 was analyzed by reconstructing a phylogenetic tree including 798 orthologous Cas9 protein sequences (Figure 3). Specifically, a multiple alignment was performed between SEQ ID NO: 1 and the sequences of a Cas9 ortholog database compiled by Gasiunas et al. [Nat. Commun.

2020, 11(1), 1-10] mediante el programa MUSCLE. El árbol filogenético se generó a partir de los alineamientos con el programa Fast Tree utilizando un modelo evolutivo JTT y un modelo gamma discreto, obteniéndose como conclusión que la proteína EHCas9 pertenece al clado IX del subtipo II-C y está lejanamente emparentada con las proteínas Cas9 comúnmente utilizadas en la edición de genomas, siendo Cas9 de S.donghicola(SdoCas9) la más estrechamente relacionada de entre los ortólogos caracterizados bioquímicamente. 2020, 11(1), 1-10] using the MUSCLE program. The phylogenetic tree was generated from the alignments with the Fast Tree program using a JTT evolutionary model and a discrete gamma model, concluding that the EHCas9 protein belongs to clade IX of subtype II-C and is distantly related to the Cas9 proteins commonly used in genome editing, with Cas9 from S.donghicola (SdoCas9) being the most closely related among the biochemically characterized orthologs.

Ejemplo 2: Detección y validación in vivo de PAM y determinación de los requisitos del ARN guía para la escisión de ADN mediada por EHCas9. Example 2: In vivo detection and validation of PAMs and determination of guide RNA requirements for EHCas9-mediated DNA cleavage.

Para el cribadoin vivode los motivos PAM reconocidos por EHCas9, se generó en primer lugar el plásmido pMML01 (control negativo de la actividad de EHCas9) mediante la clonación en pBAD33 de una agrupación EH CRISPR formada por dos repeticiones de 36 pb de longitud separadas por un espaciador de 29 pb. Se diseñó otro plásmido derivado de pBAD33 que lleva además el genehcas9(pMML02, Figura 4A), y un plásmido basado en pUC57 que contiene un inserto de 300 pb de longitud que abarca la secuencia codificante de EH tracrRNA (pMML03, Figura 4B). Para construir pMML02, se clonaron en el vector un genehcas9cuyos codones fueron optimizados para su expresión enE. coli(SEQ ID NO:4) bajo promotores inducibles, junto con una agrupación CRISPR formada por un espaciador flaqueado por dos repeticiones, transcrita a partir de un promotor constitutivo (Part:BBa_J23101, colección BioBricks) y la secuencia terminadora BBa_B1006, adquirida como bloques G de NZYTech, de tal forma queehcas9queda bajo el control del promotor de arabinosa PBAD. Para la construcción de pMML03, el inserto sintetizado por NZYtech como un bloque G se clonó bajo el promotor T7 (inducible por lac/IPTG) del vector. For in vivo screening of PAM motifs recognized by EHCas9, plasmid pMML01 (negative control for EHCas9 activity) was first generated by cloning an EH CRISPR cluster consisting of two 36-bp long repeats separated by a 29-bp spacer into pBAD33. Another plasmid derived from pBAD33 was designed that also carries the hcas9 gene (pMML02, Figure 4A), and a pUC57-based plasmid containing a 300-bp long insert encompassing the EH tracrRNA coding sequence (pMML03, Figure 4B). To construct pMML02, a hcas9 gene codon-optimized for expression in E. coli was cloned into the vector. coli(SEQ ID NO:4) under inducible promoters, together with a CRISPR cluster consisting of a spacer flanked by two repeats, transcribed from a constitutive promoter (Part:BBa_J23101, BioBricks collection) and the terminator sequence BBa_B1006, purchased as G blocks from NZYTech, such that ehcas9 is under the control of the arabinose promoter PBAD. For the construction of pMML03, the insert synthesized by NZYtech as a G block was cloned under the T7 promoter (lac/IPTG-inducible) of the vector.

Por otro lado, se generó una genoteca de plásmidos derivados de pSEVA431 (resistencia a la espectinomicina) con motivos PAM aleatorios de 3 nt, mediante mutagénesis por PCR con cebadores (SEQ ID NO: 17 y SEQ ID NO: 18; ver Tabla 3) que contenían nucleótidos aleatorios en las posiciones 2, 3 y 4 respecto al extremo 3' de la secuencia diana en la hebra que coincide con el espaciador, SEQ ID NO: 72; es decir, la región PAM. En concreto, dada la tolerancia de cualquier nucleótido en la primera posición de la región PAM exhibida por la mayoría de las proteínas Cas9 [Gasiunas, G. et al. (2020). Nat. Commun., 11(1), 1-10], se mantuvo invariable una timina en esta ubicación y nucleótidos aleatorios en las posiciones 2, 3 y 4 (consenso 5'-TNNN-3'). On the other hand, a library of plasmids derived from pSEVA431 (spectinomycin resistance) with random 3-nt PAM motifs was generated by PCR mutagenesis with primers (SEQ ID NO: 17 and SEQ ID NO: 18; see Table 3) containing random nucleotides at positions 2, 3 and 4 relative to the 3' end of the target sequence on the strand matching the spacer, SEQ ID NO: 72; that is, the PAM region. Specifically, given the tolerance of any nucleotide in the first position of the PAM region exhibited by most Cas9 proteins [Gasiunas, G. et al. (2020). Nat. Commun., 11(1), 1-10], a thymine at this location and random nucleotides at positions 2, 3 and 4 remained unchanged (consensus 5'-TNNN-3').

Células electrocompetentes deE. coliBW 27783 fueron co-transformadas con pMML03 y con pMML01 o pMML02 y se seleccionaron en placas de LB agar conteniendo ampicilina y cloranfenicol. Las colonias transformantes se crecieron en medio líquido suplementado con ampicilina, cloranfenicol, L-arabinosa (0,2 %) e IPTG (1 mM). A continuación, se prepararon células electrocompetentes a partir de cultivos a OD600= 0,5 y se realizaron tres experimentos de transformación independientes con 300 ng de la genoteca PAM para los portadores de pMML01 y pMML02. Los transformantes que portaban plásmidos derivados de pSEVA431 se seleccionaron en LB agar suplementado con espectinomicina y los plásmidos fueron aislados a partir de ca. 105 colonias. La región del plásmido que flanquea al PAM se amplificó por PCR utilizando como cebadores SEQ ID NO: 24 y SEQ ID NO: 25 (ver Tabla 3), y se secuenció mediante secuenciación masiva (HTS) con el sistema de secuenciación Illumina NovaSeq PE250 (Novagene). La proporción de lecturas con cada secuencia PAM específica obtenida de las células portadoras de pMML02 se comparó con los valores correspondientes a las células que portaban el control negativo pMML01 para estimar su cambio log2 (log2 fold change). Se utilizaron secuencias PAM con un valor de log2 superior a 7 para generar logotipos de secuencias con la aplicación WebLogo (https://weblogo.berkeley.edu/logo.cgi). Electrocompetent cells of E. coli BW 27783 were co-transformed with pMML03 and either pMML01 or pMML02 and selected on LB agar plates containing ampicillin and chloramphenicol. Transformant colonies were grown in liquid medium supplemented with ampicillin, chloramphenicol, L-arabinose (0.2%) and IPTG (1 mM). Electrocompetent cells were then prepared from cultures at OD600=0.5 and three independent transformation experiments were performed with 300 ng of the PAM library for pMML01 and pMML02 carriers. Transformants carrying pSEVA431-derived plasmids were selected on LB agar supplemented with spectinomycin and plasmids were isolated from ca. 105 colonies. The plasmid region flanking the PAM was amplified by PCR using SEQ ID NO: 24 and SEQ ID NO: 25 as primers (see Table 3) and sequenced by deep sequencing (HTS) using the Illumina NovaSeq PE250 sequencing system (Novagene). The proportion of reads containing each specific PAM sequence obtained from cells carrying pMML02 was compared with the values for cells carrying the negative control pMML01 to estimate their log2 fold change. PAM sequences with a log2 value greater than 7 were used to generate sequence logos using the WebLogo application (https://weblogo.berkeley.edu/logo.cgi).

La comparación de la incidencia de cada secuencia en la región PAM en presencia o ausencia de EHCas9 reveló que el nucleótido guanina estaba infrarrepresentado en las posiciones 2 y 3 cuando se producía la proteína (Figura 5A), pero no se observaron diferencias en la frecuencia de cualquier nucleótido específico en la posición 4. Estos resultados demuestran que EHCas9 puede interferir de manera específica con plásmidos diana si hay una guanina en la segunda y la tercera posición del PAM. También apoyan la identidad del EH tracrRNA, así como la dirección de transcripción de la agrupación CRISPR inferida. Además, prueban que, bajo las condiciones ensayadas enE. coli,se genera un crRNA funcional a partir del EH pre-crRNA diseñado. Comparison of the incidence of each sequence in the PAM region in the presence or absence of EHCas9 revealed that the guanine nucleotide was underrepresented at positions 2 and 3 when the protein was produced (Figure 5A), but no differences were observed in the frequency of any specific nucleotide at position 4. These results demonstrate that EHCas9 can specifically interfere with target plasmids if a guanine is present at the second and third positions of the PAM. They also support the identity of the EH tracrRNA as well as the transcription direction of the inferred CRISPR cluster. Furthermore, they prove that, under the conditions tested in E. coli, a functional crRNA is generated from the designed EH pre-crRNA.

Para la implementación de una herramienta EHCas9 simplificada, se dedujo la secuencia de un sgRNA (EH sgRNA) a partir de la secuencia validada bioquímicamente del sistema tipo II-C de S.donghicola.Después de comparar el crRNA y el tracrRNA de los dos sistemas, se concibió un EH sgRNA de 118 nt de longitud, compuesto por una región espaciadora variable de 23 nt y una secuencia constante (SEQ ID NO:3) de 95 nt que consta de una repetición truncada de 18 nt, un conector de 4 nt (tetraloop 5'-GAAA-3') y un fragmento del EH tracrRNA de 73 nt que contiene la anti-repetición seguida de una secuencia que presumiblemente adopta dos estructuras de tallo-bucle (Figura 6). For the implementation of a simplified EHCas9 tool, the sequence of an sgRNA (EH sgRNA) was deduced from the biochemically validated sequence of the S. donghicola type II-C system. After comparing the crRNA and tracrRNA of the two systems, a 118 nt long EH sgRNA was conceived, composed of a 23 nt variable spacer region and a 95 nt constant sequence (SEQ ID NO:3) consisting of an 18 nt truncated repeat, a 4 nt linker (5'-GAAA-3' tetraloop) and a 73 nt EH tracrRNA fragment containing the anti-repeat followed by a sequence presumably adopting two stem-loop structures (Figure 6).

Para probar la funcionalidad del EH sgRNA y expandir el PAM inferido a partir del cribadoin vivo,se testaron las primeras siete posiciones de la región PAM utilizando un procedimiento de traducciónin vitro(IVT) siguiendo el mismo procedimiento empleado previamente por otros autores [Gasiunas, G. et al. (2020). Nat. Commun., 11(1), 1-10]. Esta detección de PAM se llevó a cabo en colaboración con la empresa CasZyme, utilizando EHCas9 y un EH sgRNA con diana en una genoteca de plásmidos con secuencias aleatorias en cada una de las 7 posiciones PAM a testar (Tabla 5). Se incluyó MgCl2en la reacción, ya que se ha demostrado que las proteínas Cas9 requieren cationes divalentes para adoptar el estado competente para la escisión [Jinek, M. et al. (2012). Science, 337(6096), 816-821; Mougiakos, I. et al. (2017). Nat. Commun., 8(1), 1-11; Chen, H. et al. (2014). J. Biol. Chem., 289(19), 13284-13294; Dagdas, Y. S. et al. (2017). Sci. Adv., 3(8), eaao0027]. El análisis de secuencias reveló la escisión de la diana, lo que corrobora la funcionalidad del EH sgRNA diseñado. Al igual que algunas nucleasas Cas9 previamente caracterizadas [Jinek, M. et al. (2012). Science, 337(6096), 816-821; Gasiunas, G. et al. (2020). Nat. Commun., 11(1), 1-10], la escisión se observó preferentemente entre los nucleótidos en las posiciones 3 y 4 respecto del PAM, en ambas cadenas de la diana, lo que sugiere la formación de extremos romos. El análisis de la región PAM (Figura 5B) confirmó que, de acuerdo con los resultados de la detección de PAMin vivo,guanina en las posiciones 2 y 3 es indispensable para la escisión. Sin embargo, en contraste con la tolerancia de cualquier nucleótido en la posición 4 observadain vivo,se evidenció una cierta discriminación contra citosina. Además, aunque para la actividad de EHCas9 no se requerían nucleótidos específicos en las posiciones restantes, se reveló una preferencia por timina en la 5a posición, lo que sugiere que la ausencia de este nucleótido en el cribadoin vivopodría haber comprometido el reconocimiento de la diana cuando citosina está presente en la4a posición. En resumen, mientras que los PAM compatibles con la escisión de la diana de EHCas9 en las condicionesin vitroutilizadas se corresponden con la secuencia consenso 5'-NGGNNNN-3', el PAM responde al consenso 5'-NGGDTNN-3' (D = A o T o G). To test the functionality of the EH sgRNA and to expand the PAM inferred from the in vivo screening, the first seven positions of the PAM region were tested using an in vitro translation (IVT) procedure following the same procedure previously used by other authors [Gasiunas, G. et al. (2020). Nat. Commun., 11(1), 1-10]. This PAM screening was carried out in collaboration with the company CasZyme, using EHCas9 and an EH sgRNA targeting a plasmid library with random sequences at each of the 7 PAM positions to be tested (Table 5). MgCl2 was included in the reaction, since it has been shown that Cas9 proteins require divalent cations to adopt the cleavage-competent state [Jinek, M. et al. (2012). Science, 337(6096), 816-821; Mougiakos, I. et al. (2017). Nat. Commun., 8(1), 1-11; Chen, H. et al. (2014). J. Biol. Chem., 289(19), 13284-13294; Dagdas, Y. S. et al. (2017). Sci. Adv., 3(8), eaao0027]. Sequence analysis revealed target cleavage, corroborating the functionality of the designed EH sgRNA. Like some previously characterized Cas9 nucleases [Jinek, M. et al. (2012). Science, 337(6096), 816-821; Gasiunas, G. et al. (2020). Nat. Commun., 11(1), 1-10], cleavage was preferentially observed between nucleotides at positions 3 and 4 relative to the PAM, on both strands of the target, suggesting the formation of blunt ends. Analysis of the PAM region (Figure 5B) confirmed that, in agreement with the results of the in vivo PAMin screening, guanine at positions 2 and 3 is indispensable for cleavage. However, in contrast to the tolerance of any nucleotide at position 4 observed in vivo, some discrimination against cytosine was evident. Furthermore, although no specific nucleotides at the remaining positions were required for EHCas9 activity, a preference for thymine at the 5th position was revealed, suggesting that the absence of this nucleotide in the in vivo screening might have compromised target recognition when cytosine is present at the 4th position. In summary, while the PAMs compatible with EHCas9 target cleavage under the in vitro conditions used correspond to the consensus sequence 5'-NGGNNNN-3', the PAM responds to the consensus 5'-NGGDTNN-3' (D = A or T or G).

Tabla 5.Secuencias diana de Cas9 utilizadas en la validaciónin vivode PAM. Table 5. Cas9 target sequences used in in vivo validation of PAM.

Secuencia de la hebra coincidente con el espaciador Región PAMStrand sequence matching the spacer PAM region

(5’^3’) [SEQ ID NO: 72] (5’ - 3’)CCTGTATATCGTGCGAAAAAGGATGGATA TACCGAA CCTGTATATCGTGCGAAAAAGGATGGATA TGGAGAA CCTGTATATCGTGCGAAAAAGGATGGATA TGGCGAA CCTGTATATCGTGCGAAAAAGGATGGATA TGGGGAA CCTGTATATCGTGCGAAAAAGGATGGATA TGGTGAA (5’^3’) [SEQ ID NO: 72] (5’ - 3’)CCTGTATATCGTGCGAAAAAGGATGGATA TACCGAA CCTGTATATCGTGCGAAAAAGGATGGATA TGGAGAA CCTGTATATCGTGCGAAAAAGGATGGATA TGGCGAA CCTGTATATCGTGCGAAAAAGGATGGATA TGGGGAA CCTGTATATCGTGCGAAAAAGGATGGATA TGGTGAA

A continuación, se verificó la tolerancia por citosina en la cuarta posición del PAM junto con el requerimiento de timina en la quinta posición. Con este fin, se llevaron a cabo ensayos de transformación con plásmidos equivalentes a los utilizados para la detección de PAMin vivo,pero en lugar de una genoteca de PAM se emplearon plásmidos individuales (pMML04-07; ver Tabla 2) que contienen en este caso la secuencia diana adyacente a 5'-TGGCG-3', 5'- TGGTG-3', 5'-TGGAG-3' o 5'-TGGGG-3' (Tabla 5). De la misma manera, se analizó el motivo 5'-TACCG-3' como control en ausencia de PAM. Como era de esperar, cuando el plásmido diana con la secuencia flanqueante 5'-TACCG-3' se transformó en células que expresaban los tres componentes del locus CRISPR-EHCas9, la eficiencia de la transformación no difirió significativamente de la eficiencia observada en ausencia de EHCas9. Sin embargo, se encontró una marcada disminución en la eficiencia de la transformación cuando los plásmidos 5'-TGGNG-3' se transformaron en células que expresan EHCas9 en comparación con hospedadores sin la nucleasa, mostrando una diferencia de aproximadamente cuatro órdenes de magnitud en el caso del plásmido con citosina en la 4a posición del PAM, y aproximadamente cinco órdenes de magnitud para el resto (Figura 5C). Estos resultados confirman que, incluso en ausencia de timina en la5a posición, EHCas9 cataliza de forma eficaz la escisión de la diana enE. coliindependientemente de la identidad del nucleótido en la4a posición, siendo citosina la que muestra una menor actividad. Next, cytosine tolerance at the fourth PAM position was verified together with the requirement for thymine at the fifth position. For this purpose, transformation assays were carried out with plasmids equivalent to those used for the detection of live PAMin, but instead of a PAM library, single plasmids (pMML04-07; see Table 2) were used, which in this case contain the target sequence adjacent to 5'-TGGCG-3', 5'-TGGTG-3', 5'-TGGAG-3' or 5'-TGGGG-3' (Table 5). In the same way, the motif 5'-TACCG-3' was analyzed as a control in the absence of PAM. As expected, when the target plasmid with the 5'-TACCG-3' flanking sequence was transformed into cells expressing all three components of the CRISPR-EHCas9 locus, transformation efficiency did not differ significantly from the efficiency observed in the absence of EHCas9. However, a marked decrease in transformation efficiency was found when 5'-TGGNG-3' plasmids were transformed into cells expressing EHCas9 compared to hosts without the nuclease, showing a difference of approximately four orders of magnitude in the case of the plasmid with cytosine at the 4th position of the PAM, and approximately five orders of magnitude for the rest (Figure 5C). These results confirm that even in the absence of thymine at the 5th position, EHCas9 efficiently catalyzes target cleavage in E. coli regardless of the identity of the nucleotide at the 4th position, with cytosine showing the lowest activity.

Ejemplo 3: Purificación de la proteína de la presente invención con secuencia aminoacídica según SEQ ID NO: 5.Example 3: Purification of the protein of the present invention with amino acid sequence according to SEQ ID NO: 5.

Para la expresión heteróloga de la proteína de la presente invención con secuencia aminoacídica según SEQ ID NO: 5, el genehcas9con uso de codones optimizado paraE. coli(suministrado por NZYtech) se fusionó con una cola N-terminal de seis histidinas (SEQ ID NO: 6) bajo un promotor inducible por lac/IPTG en un vector pHTPI, generando el plásmido pMML22 (Figura 4F).E. coliBL21(DE3) previamente transformada con pMML22 se creció a 37°C en LB suplementado con kanamicina. Cuando el cultivo alcanzó una DO600= 0,5, se indujo la expresión de la proteína añadiendo IPTG 1 mM y tras 16 h de incubación a 16°C se recolectaron las células por centrifugación (5.000 x g durante 15 min a 4°C) y se resuspendieron en tampón de unión compuesto por tampón fosfato pH 7,6 (50 mM), NaCl (500 mM), imidazol (10 mM), glicerol (5%), B-mercaptoetanol (10 mM) y fluoruro de fenilmetilsulfonilo (PMSF; 1 mM). Las células se rompieron mediante sonicación con un Branson Digital Sonifier®. Después de centrifugar (23.700 x g durante 25 min a 4°C), el sobrenadante se cargó en una columna HisTrap HP de 1 ml (GE Healthcare), se lavó la columna con 20 volúmenes de tampón de unión y se la proteína se eluyó con tampón de elución (tampón fosfato 50 mM pH 7,6, 500 NaCl mM, 150 mM imidazol, glicerol al 5%, 10 mM B-mercaptoetanol, 1 mM PMFS). La fracción eluida se concentró hasta un volumen de 1 ml en tampón de digestión (tampón fosfato 50 mM pH 7,6, 150 mM NaCI, glicerol al 5%, 10 mM B-mercaptoetanol) utilizando filtros Amicon Ultra (Millipore) y se cargó en un gel de filtración HiLoad™ 16 /600 Superdex™ 200 pg (Cytiva). Las fracciones eluidas se analizaron mediante SDS-PAGE y la fracción conteniendo una proteína del tamaño esperado para EHCas9 se concentró como se indica anteriormente (Figura 7). For heterologous expression of the protein of the present invention with amino acid sequence according to SEQ ID NO: 5, the codon-optimized hcas9 gene for E. coli (supplied by NZYtech) was fused with a six-histidine N-terminal tail (SEQ ID NO: 6) under a lac/IPTG-inducible promoter in a pHTPI vector, generating plasmid pMML22 (Figure 4F). E. coli BL21(DE3) previously transformed with pMML22 was grown at 37°C in LB supplemented with kanamycin. When the culture reached an OD600=0.5, protein expression was induced by adding 1 mM IPTG and after 16 h of incubation at 16°C, the cells were harvested by centrifugation (5,000 x g for 15 min at 4°C) and resuspended in binding buffer composed of phosphate buffer pH 7.6 (50 mM), NaCl (500 mM), imidazole (10 mM), glycerol (5%), B-mercaptoethanol (10 mM) and phenylmethylsulfonyl fluoride (PMSF; 1 mM). Cells were disrupted by sonication with a Branson Digital Sonifier®. After centrifugation (23,700 x g for 25 min at 4°C), the supernatant was loaded onto a 1 mL HisTrap HP column (GE Healthcare), the column was washed with 20 volumes of binding buffer, and the protein was eluted with elution buffer (50 mM phosphate buffer pH 7.6, 500 mM NaCl, 150 mM imidazole, 5% glycerol, 10 mM B-mercaptoethanol, 1 mM PMFS). The eluted fraction was concentrated to a volume of 1 mL in digestion buffer (50 mM phosphate buffer pH 7.6, 150 mM NaCl, 5% glycerol, 10 mM B-mercaptoethanol) using Amicon Ultra filters (Millipore) and loaded onto a HiLoad™ 16/600 Superdex™ 200 pg gel filtration (Cytiva). The eluted fractions were analyzed by SDS-PAGE and the fraction containing a protein of the expected size for EHCas9 was concentrated as indicated above (Figure 7).

Para la estimación del tamaño de las proteínas se utilizó NZYBlue Protein Marker (NZYtech) y la concentración de proteínas se midió con QUBIT® 2.0 (Invitrogen). For protein size estimation, NZYBlue Protein Marker (NZYtech) was used and protein concentration was measured with QUBIT® 2.0 (Invitrogen).

Ejemplo 4: Optimización in vitro de las condiciones de reacción requeridas para la escisión de diana mediada por la proteína de la presente invención. Example 4: In vitro optimization of the reaction conditions required for target cleavage mediated by the protein of the present invention.

Para la optimización de las condiciones de reacción requeridas por la proteína de la presente invención para la escisión de ADN bicatenario (ADNbc), se diseñó y generóin vitroun EH sgRNA. Para obtener un molde de ADNbc mediante amplificación por PCR de la región constante codificante de sgRNA (SEQ ID NO:3) a partir del plásmido pMML08, se utilizaron oligonucleótidos que portan un promotor T7 y una secuencia coincidente con el espaciador de 23 nt de longitud en pSEVA431 (SEQ ID NO: 26 y SEQ ID NO: 27; ver Tabla 3). El amplicón se transcribió con HiScribe T7 Quick (NEB) siguiendo las instrucciones del fabricante, incluido el tratamiento opcional con ADNasa, y el ARN se purificó con el kit de limpieza de ARN Monarch® (NEB). Las alícuotas de sgRNA se almacenaron a -80°C. For the optimization of the reaction conditions required by the protein of the present invention for the cleavage of double-stranded DNA (dsDNA), an EH sgRNA was designed and generated in vitro. To obtain a dsDNA template by PCR amplification of the sgRNA coding constant region (SEQ ID NO:3) from plasmid pMML08, oligonucleotides carrying a T7 promoter and a sequence matching the 23 nt long spacer in pSEVA431 (SEQ ID NO: 26 and SEQ ID NO: 27; see Table 3) were used. The amplicon was transcribed with HiScribe T7 Quick (NEB) following the manufacturer's instructions, including optional DNase treatment, and RNA was purified with the Monarch® RNA Clean-Up Kit (NEB). Aliquots of sgRNA were stored at -80°C.

Como sustrato de escisión se utilizó un fragmento de 840 pb amplificado por PCR a partir de pMML05 (derivado de pSEVA431 que contiene una diana con PAM 5'-TGGCG-3'). Como control sin PAM, se amplificó un fragmento de pMML05 que contenía una diana con la secuencia 5'-TACCG-3' en la región de la PAM (Tabla 6). La escisión específica de la diana guiada por EH sgRNA producirá dos fragmentos de ADNbc (520 pb y 320 pb de longitud, respectivamente). An 840-bp fragment amplified by PCR from pMML05 (derived from pSEVA431 containing a PAM target 5'-TGGCG-3') was used as a cleavage substrate. As a control without PAM, a fragment from pMML05 containing a target with the sequence 5'-TACCG-3' in the PAM region was amplified (Table 6). Target-specific cleavage guided by EH sgRNA will yield two dsDNA fragments (520 bp and 320 bp in length, respectively).

Tabla 6.Secuencias diana de Cas9 utilizadas en la optimizaciónin vitrode las condiciones de reacción requeridas para la escisión de diana mediada por EHCas9. Table 6. Cas9 target sequences used in the in vitro optimization of reaction conditions required for EHCas9-mediated target cleavage.

En primer lugar, evaluamos la especificidad de escisión de la diana de ADNbc a 37°C y el requerimiento de Mg2+ (Figura 8A). Para facilitar la formación del complejo ribonucleoproteico, pre-incubamos (15 min a 37°C) la nucleasa con EH sgRNA (relación molar 1:1) antes de mezclarla con la diana (la relación molar final Cas9:sgRNA:diana en la solución de reacción fue 20:20:1) en presencia de MgCE Como era de esperar, la pre incubación aumentó la tasa de escisión de la diana en comparación con reacciones en las que todos los componentes se mezclaron simultáneamente (30 minutos después de añadir al sustrato la proteína pre-incubada con la guía o ambas soluciones sin pre-incubar, se había escindido el 21,6% y el 15,6% de sustrato, respectivamente). En base a estos resultados, los experimentosin vitroposteriores con EHCas9 y EH sgRNA se llevaron a cabo después de pre-incubar en las mismas condiciones ensayadas. No se observaron productos de escisión en la diana sin PAM, ni cuando no se agregó EH sgRNA o Mg2+ a la reacción. En presencia de todos los reactivos, el sustrato con el PAM compatible se cortó una vez, generando dos fragmentos de ADN cuyos tamaños coincidían con los esperados por la escisión dentro de la secuencia diana. Estos resultados corroboran que EHCas9 es una endonucleasa de ADNbc dependiente de metales, específica de secuencia y guiada por ARN. First, we assessed the dsDNA target cleavage specificity at 37°C and the Mg2+ requirement (Figure 8A). To facilitate ribonucleoprotein complex formation, we pre-incubated (15 min at 37°C) the nuclease with EH sgRNA (1:1 molar ratio) before mixing it with the target (the final Cas9:sgRNA:target molar ratio in the reaction solution was 20:20:1) in the presence of MgCE. As expected, preincubation increased the target cleavage rate compared to reactions in which all components were mixed simultaneously (30 min after adding the pre-incubated protein with the guide or both solutions without preincubation to the substrate, 21.6% and 15.6% of the substrate had been cleaved, respectively). Based on these results, subsequent in vitro experiments with EHCas9 and EH sgRNA were carried out after pre-incubation under the same conditions tested. No cleavage products were observed on the target without PAM, nor when no EH sgRNA or Mg2+ was added to the reaction. In the presence of all reagents, the substrate with the compatible PAM was cleaved once, generating two DNA fragments whose sizes matched those expected for cleavage within the target sequence. These results corroborate that EHCas9 is a metal-dependent, sequence-specific, RNA-guided dsDNA endonuclease.

Seguidamente, se caracterizó la actividad de corte de ADNbc guiada por ARN en presencia de MgCh, bajo distintos tiempos de digestión y temperatura. Para decidir la cantidad de EHCas9 a utilizar en estos experimentos, se pre-incubaron concentraciones constantes de EH sgRNA durante 15 min a 37°C con 10 nM a 0,5 ^M de EHCas9 y posteriormente se mezclaron con una concentración fija de sustrato, de modo que la relación molar proteína:sgRNA:sustrato en la reacción de digestión varió de 1:50:2,5 a 20:20:1. Concentraciones de proteína por encima de 0,1 ^M produjeron productos de digestión perceptibles después de 30 min, eligiéndose una concentración de EHCas9 de 0,5 ^M para los posteriores ensayos de temperatura y tiempo de incubación (Figura 8B). Cuando se evaluaron diferentes tiempos de reacción (hasta 40 min) a 37°C, aunque se cortó una proporción sustancial (21,6%) del sustrato dentro de los primeros 5 minutos, lo que subraya la robustez de la nucleasa, el máximo porcentaje de digestión (alrededor del 27% de sustrato escindido) se alcanzó después de 30 min (Figura 8C). Curiosamente, la incubación durante 10 minutos más no aumentó la cantidad de sustrato cortado, lo que sugiere que EHCas9 permanece unido al ADN después de catalizar su escisión, evitando así que actúe sobre otras moléculas diana. En cuanto a la temperatura de incubación, en los ensayos de digestión realizados a intervalos de 5°C dentro del rango 20 a 45°C, únicamente se detectaron productos de digestión a 30°C y 35°C, estableciéndose un rango de temperatura de trabajo entre por encima de 25°C y menos de 40°C, con temperatura óptima alrededor de 35°C (Figura 8D). Next, the RNA-guided dsDNA cleavage activity in the presence of MgCh was characterized under different digestion times and temperatures. To decide the amount of EHCas9 to be used in these experiments, constant concentrations of EH sgRNA were pre-incubated for 15 min at 37°C with 10 nM to 0.5 µM EHCas9 and subsequently mixed with a fixed concentration of substrate, such that the protein:sgRNA:substrate molar ratio in the digestion reaction varied from 1:50:2.5 to 20:20:1. Protein concentrations above 0.1 µM produced detectable digestion products after 30 min, and an EHCas9 concentration of 0.5 µM was chosen for subsequent temperature and incubation time assays (Figure 8B). When different reaction times (up to 40 min) were evaluated at 37°C, although a substantial proportion (21.6%) of the substrate was cleaved within the first 5 min, underlining the robustness of the nuclease, the maximum percentage of digestion (around 27% of cleaved substrate) was reached after 30 min (Figure 8C). Interestingly, incubation for a further 10 min did not increase the amount of cleaved substrate, suggesting that EHCas9 remains bound to DNA after catalyzing its cleavage, thus preventing it from acting on other target molecules. Regarding the incubation temperature, in the digestion tests carried out at intervals of 5°C within the range 20 to 45°C, digestion products were only detected at 30°C and 35°C, establishing a working temperature range between above 25°C and less than 40°C, with an optimal temperature around 35°C (Figure 8D).

Ejemplo 5: Uso de la herramienta EHCas9 para la selección positiva de células de E. coli con genoma editado.Example 5: Using the EHCas9 tool for positive selection of genome-edited E. coli cells.

Para la selección de células deE. colicon genoma editado (Figura 9A), se construyó el plásmido pMML09 (Figura 4C) que codifica EHCas9 y un EH sgRNA dirigido al gen cromosómicopyrF,a partir de pMML02 reemplazando la región entre el promotor y el terminador de la agrupación CRISPR con una secuencia codificante de sgRNA que contiene un espaciador que coincide con una secuencia depyrF,ubicado junto a la secuencia 5'-TGGAT-3' en la región PAM (SEQ ID NO: 76). Como control negativo de la actividad de EHCas9, se generó un plásmido sinehcas9(pMML10) mediante amplificación por PCR de pMML09. For selection of genome-edited E. coli cells (Figure 9A), plasmid pMML09 (Figure 4C) encoding EHCas9 and an EH sgRNA targeting the chromosomal pyrF gene was constructed from pMML02 by replacing the region between the promoter and the terminator of the CRISPR cluster with an sgRNA coding sequence containing a spacer matching a pyrF sequence, located next to the 5'-TGGAT-3' sequence in the PAM region (SEQ ID NO: 76). As a negative control for EHCas9 activity, a sinehcas9 plasmid (pMML10) was generated by PCR amplification of pMML09.

Mediante ensamblaje por Gibson se generó un molde de recombinación de ADN lineal de 308 pb consistente en secuencias flanqueantes depyrF; en concreto, una secuencia de 145 pb que coincide con la región intergénica corriente arriba depyrFy una secuencia de 163 pb que coincide con la región aguas abajo del gen. A 308-bp linear DNA recombination template consisting of pyrF flanking sequences was generated by Gibson assembly; specifically, a 145-bp sequence matching the intergenic region upstream of pyrF and a 163-bp sequence matching the downstream region of the gene.

Se transformaron células electrocompetentes deE. coliBW 27783 con el plásmido pKD46 (resistencia a la ampicilina) que codifica el sistema de recombinación Lambda Red (Exo, Beta, Gam) [Datsenko, K. A., & Wanner, B. L. (2000). Proc. Natl. Acad. Sci. U.S.A, 97(12), 6640-6645]. Dado que la replicación de este plásmido es sensible a la temperatura, inhibiéndose a 37°C, los transformantes se crecieron a 30°C en placas de LB agar conteniendo ampicilina. Las colonias portadoras de pKD46 se transfirieron a un medio líquido suplementado con ampicilina y se crecieron a 30°C hasta una DO600= 0,2. A continuación, se añadió L-arabinosa al 0,2 % para inducir la expresión de las proteínas Lamba Red y cuando se alcanzó una DO600= 0,5 se prepararon células electrocompetentes a partir del cultivo. A continuación, 3 alícuotas fueron co transformadas con 150 ng de ADN molde y con 50 ng de pMML09 o de pMML10. Electrocompetent E. coli BW 27783 cells were transformed with plasmid pKD46 (ampicillin resistance) encoding the Lambda Red (Exo, Beta, Gam) recombination system [Datsenko, K. A., & Wanner, B. L. (2000). Proc. Natl. Acad. Sci. U.S.A, 97(12), 6640-6645]. Since replication of this plasmid is temperature sensitive, being inhibited at 37°C, transformants were grown at 30°C on LB agar plates containing ampicillin. Colonies carrying pKD46 were transferred to liquid medium supplemented with ampicillin and grown at 30°C to OD600= 0.2. Next, 0.2% L-arabinose was added to induce the expression of Lamba Red proteins and when an OD600= 0.5 was reached, electrocompetent cells were prepared from the culture. Three aliquots were then co-transformed with 150 ng of template DNA and 50 ng of pMML09 or pMML10.

Las colonias transformantes de tres experimentos independientes se crecieron en LB agar suplementado con cloranfenicol (selección de plásmidos pMML09 y pMML10) y L-arabinosa al 0,2 % (inducción de la transcripción de ehcas9) a 37°C, impidiendo de esta manera la replicación de pKD46. La regiónpyrFse amplificó por PCR a partir de 90 colonias seleccionadas aleatoriamente (20 de cada experimento con el plásmido que expresa EHCas9 y 10 de cada una de las réplicas de control negativo). La electroforesis en gel de agarosa al 1% de los productos de la PCR invariablemente reveló una sola banda, cuyo tamaño se correspondía con el del fragmento delecionado en el caso de los clones que expresan EHCas9 o con el de la secuencia nativa para el control negativo (Figura 9B). Estos resultados demuestran la eficacia de EHCas9 como agente antibacteriano específico de secuencia y su idoneidad como complemento para aplicaciones que se beneficien de la selección positiva de mutantes deE. coli,incluida la edición del genoma. Transformant colonies from three independent experiments were grown on LB agar supplemented with chloramphenicol (selection for plasmids pMML09 and pMML10) and 0.2% L-arabinose (induction of ehcas9 transcription) at 37°C, thereby preventing pKD46 replication. The pyrF region was amplified by PCR from 90 randomly selected colonies (20 from each experiment with the EHCas9-expressing plasmid and 10 from each of the negative control replicates). 1% agarose gel electrophoresis of the PCR products invariably revealed a single band, the size of which corresponded to that of the deleted fragment in the case of the EHCas9-expressing clones or to that of the native sequence for the negative control (Figure 9B). These results demonstrate the efficacy of EHCas9 as a sequence-specific antibacterial agent and its suitability as a complement for applications that benefit from positive selection of E. coli mutants, including genome editing.

Ejemplo 6: Edición genética de células de mamífero mediada por la proteína de la presente invención.Example 6: Genetic editing of mammalian cells mediated by the protein of the present invention.

Para los ensayos de edición genética en células de mamíferos, el plásmido hCas9 (Addgene #41815; Mali, P. et al. Science, 2013, 339 (6121), 823-826) que lleva el genspcas9fusionado a una secuencia de localización nuclear (SV40 NLS) controlada por un promotor constitutivo de citomegalovirus (CMV), y el plásmido MLM3636 (Addgene #43860) que codifica un sgRNA compatible (Sp sgRNA) bajo el promotor constitutivo U6, se utilizaron como base para construir plásmidos equivalentes donde las secuencias codificantes de SpCas9 y Sp sgRNA fueron reemplazadas por el genehcas9con uso de codones optimizado para humanos (pMML12, Figura 4D) y una región constante de EH sgRNA (pMML13, Figura 4E), respectivamente (Fig. 10A). De este modo, el plásmido pMML12 lleva el genehcas9fusionado a una secuencia SV40 NLS (SEQ ID NO:8). Los dos insertos se adquirieron de NZYTech como bloques G. For gene editing assays in mammalian cells, the hCas9 plasmid (Addgene #41815; Mali, P. et al. Science, 2013, 339 (6121), 823-826) carrying the spcas9 gene fused to a nuclear localization sequence (SV40 NLS) controlled by a constitutive cytomegalovirus (CMV) promoter, and the MLM3636 plasmid (Addgene #43860) encoding a compatible sgRNA (Sp sgRNA) under the constitutive U6 promoter, were used as a basis to construct equivalent plasmids where the SpCas9 and Sp sgRNA coding sequences were replaced by the human-optimized codon usage hcas9 gene (pMML12, Figure 4D) and an EH sgRNA constant region (pMML13, Figure 4E), respectively (Fig. 10A). Thus, plasmid pMML12 carries the hcas9 gene fused to a SV40 NLS sequence (SEQ ID NO:8). The two inserts were purchased from NZYTech as G blocks.

Células Neuro-2a (N2a) deMus musculus(neuroblastos de ratón; ATCC, CLC-131™) se mantuvieron en Dulbecco’s Modified Eagle’s Medium (DMEM) suplementado con glucosa (Sigma) y suero bovino fetal al 10%, 10 mM HEPES pH 7,4, L-glutamina 2 mM, penicilina 100 Ul/ml y estreptomicina 100 ^g/ml, a 37°C con 5% de CO2y 95% de humedad. Neuro-2a (N2a) cells from Mus musculus (mouse neuroblasts; ATCC, CLC-131™) were maintained in Dulbecco’s Modified Eagle’s Medium (DMEM) supplemented with glucose (Sigma) and 10% fetal bovine serum, 10 mM HEPES pH 7.4, 2 mM L-glutamine, 100 IU/ml penicillin and 100 ^g/ml streptomycin, at 37°C with 5% CO2 and 95% humidity.

Se testaron cuatro regiones diana del genoma de ratón, ubicadas en los genesOca2 (Oca2.2, Oca2.3, Oca2.4)yLrmda (Lrmda.1),adyacentes a 5'-TGGGA-3', 5'-TGGAT- 3', 5'-TGGCA-3' y 5'-TGGTG-3' en la región PAM, respectivamente (Figura 10B y Tabla 7). La longitud de la región espadadora del sgRNA es un determinante importante de la precisión del reconocimiento de dianas [Hirano, S. et al. (2019). Nat. Commun., 10(1), 1 11; Fedorova, I. et al. (2020). Nucleic Acids Res., 48(21), 12297-12309; Kim, E. et al. (2017). Nat. Commun., 8(1), 1-12; Harrington, L. B. et al. (2017). Nat. Commun., 8(1), 1-8; Edraki, A. et al. (2019). Mol. Cell, 73(4), 714-726]. Se decidió usar un espaciador con 23 nt, ya que esta longitud es efectiva en la mayoría de las proteínas Cas9 probadas previamente para la edición del genoma de mamíferos, incluida SpCas9. Four target regions of the mouse genome, located in the Oca2 (Oca2.2, Oca2.3, Oca2.4) and Lrmda (Lrmda.1) genes, adjacent to 5'-TGGGA-3', 5'-TGGAT-3', 5'-TGGCA-3' and 5'-TGGTG-3' in the PAM region, respectively, were tested (Figure 10B and Table 7). The length of the sgRNA spacer region is an important determinant of target recognition accuracy [Hirano, S. et al. (2019). Nat. Commun., 10(1), 1 11; Fedorova, I. et al. (2020). Nucleic Acids Res., 48(21), 12297-12309; Kim, E. et al. (2017). Nat. Commun., 8(1), 1-12; Harrington, L. B. et al. (2017). Nat. Commun., 8(1), 1-8; Edraki, A. et al. (2019). Mol. Cell, 73(4), 714-726]. It was decided to use a 23 nt spacer, since this length is effective in most of the Cas9 proteins previously tested for mammalian genome editing, including SpCas9.

Tabla 7.Secuencias diana de Cas9 utilizadas para la edición génica de células de mamífero. Table 7. Cas9 target sequences used for gene editing of mammalian cells.

En primer lugar, se evaluó la toxicidad celular de las herramientas EHCas9 y SpCas9. Soluciones de células N2a se depositaron en placas de 96 pocillos a una densidad de 1,5-104 células/mL por pocillo en un volumen total de 100 ^l de DMEM sin antibióticos y se co-transfectaron con 200, 150 y 100 ng de pMML12 o hCas9 y 100 ng de pMML13 o MLM3636, respectivamente. Las transfecciones se realizaron con Lipofectamine 2000 (Invitrogen), siguiendo las instrucciones del fabricante. Tres días después de la transfección, las células se fijaron con paraformaldehído al 4% durante 30 min a temperatura ambiente y, tras teñir los núcleos celulares con DAPI, se contaron con un lector de fluorescencia Spark® (TECAN) (Figura 11). Aunque se observó una ligera disminución en el número de núcleos en relación con células no transfectadas, no se encontraron diferencias significativas entre las dos herramientas Cas9. Por lo tanto, este efecto adverso sobre el crecimiento celular se consideró aceptable para proseguir con los experimentos de edición genética. First, the cellular toxicity of the EHCas9 and SpCas9 tools was assessed. N2a cell solutions were plated in 96-well plates at a density of 1.5-104 cells/mL per well in a total volume of 100 µl of antibiotic-free DMEM and co-transfected with 200, 150, and 100 ng of pMML12 or hCas9 and 100 ng of pMML13 or MLM3636, respectively. Transfections were performed with Lipofectamine 2000 (Invitrogen), following the manufacturer's instructions. Three days after transfection, cells were fixed with 4% paraformaldehyde for 30 min at room temperature and, after staining cell nuclei with DAPI, they were counted with a Spark® fluorescence reader (TECAN) (Figure 11). Although a slight decrease in the number of nuclei was observed relative to non-transfected cells, no significant differences were found between the two Cas9 tools. Therefore, this adverse effect on cell growth was considered acceptable to proceed with the gene editing experiments.

A continuación, se evaluó la aplicabilidad de EHCas9 como herramienta de edición genética mediante el análisis de inserciones y deleciones (INDELs), detectadas tras secuenciación HTS de la región diana amplificada por PCR después de co-transfectar plásmidos codificantes de EHCas9 y EH sgRNA en células N2a (Figura 10B). En concreto, las células N2a se sembraron en placas de 24 pocilios a una densidad de 4105 células/mL por pocillo en un volumen total de 500 ^l de DMEM sin antibióticos y se co-transfectaron con 1 ^g de pMML12 o hCas9 y 500 ng del plásmido codificante del sgRNA correspondiente (pMML18-pMML21 o pMML14-pMML17 respectivamente). Las transfecciones se realizaron con Lipofectamine 2000 (Invitrogen), siguiendo las instrucciones del fabricante. El ADN genómico se extrajo de las células recogidas 72 horas después de la transfección mediante el kit High Pure PCR Template Preparation (Roche). Se incluyeron controles negativos que carecían de EH sgRNA y se realizaron experimentos equivalentes con los componentes de la herramienta SpCas9. The applicability of EHCas9 as a gene editing tool was then assessed by analyzing insertions and deletions (INDELs) detected by HTS sequencing of the PCR-amplified target region after co-transfecting plasmids encoding EHCas9 and EH sgRNA into N2a cells (Figure 10B). Specifically, N2a cells were seeded in 24-well plates at a density of 4105 cells/mL per well in a total volume of 500 µl of antibiotic-free DMEM and co-transfected with 1 µg of pMML12 or hCas9 and 500 ng of the plasmid encoding the corresponding sgRNA (pMML18-pMML21 or pMML14-pMML17, respectively). Transfections were performed with Lipofectamine 2000 (Invitrogen), following the manufacturer's instructions. Genomic DNA was extracted from cells harvested 72 hours after transfection using the High Pure PCR Template Preparation kit (Roche). Negative controls lacking EH sgRNA were included and equivalent experiments were performed with the SpCas9 tool components.

Para el análisis de frecuencia de INDELs, se generaron amplicones de 300-400 pb mediante amplificación por PCR de las regiones que flaquean la diana, utilizando como molde 100 ng de ADN genómico de N2a. Los productos de PCR se secuenciaron en Novogene utilizando Illumina NovaSeq 6000. Las lecturas de baja calidad y los adaptadores se eliminaron con Trimmomatic v0.39 (parámetros: java —jar trimmomatic-0.39.jar PE ILLUMINACLIP:2:30:10 SLIDINGWINDOW:4:15 MINLEN:50). Las lecturas de secuenciación se contrastaron con la secuencia diana mediante el programa Bowtie2 v2.4.2 (87) y se convirtieron al formato de archivos BAM con el paquete Samtools [Li,H. et al. (2009). Bioinformatics, 25, 2078-2079]. El análisis de INDELs se realizó con R Core Team (2021) utilizando el paquete CrispRVariants 1.20.0 [Lindsay,H. et al. (2016) Nat Biotechnol, 34, 701-702]. Dicho análisis reveló INDELs para las cuatro dianas cuando se empleó la herramienta SpCas9. Con EHCas9, se detectaron INDELs alrededor del sitio diana tan solo en el caso deOca2.3.Es de destacar queOca2.3es la única diana ensayada con timina en la quinta posición del PAM (5'-TGGAT-3'). For INDEL frequency analysis, 300-400 bp amplicons were generated by PCR amplification of target-flagging regions using 100 ng of N2a genomic DNA as template. PCR products were sequenced at Novogene using an Illumina NovaSeq 6000. Low-quality reads and adapters were removed with Trimmomatic v0.39 (parameters: java —jar trimmomatic-0.39.jar PE ILLUMINACLIP:2:30:10 SLIDINGWINDOW:4:15 MINLEN:50). Sequencing reads were cross-checked against the target sequence using Bowtie2 v2.4.2 (87) and converted to BAM file format using the Samtools package [Li,H. et al. (2009). Bioinformatics, 25, 2078-2079]. INDEL analysis was performed with R Core Team (2021) using the CrispRVariants 1.20.0 package [Lindsay,H. et al. (2016) Nat Biotechnol, 34, 701-702]. This analysis revealed INDELs for all four targets when the SpCas9 tool was used. With EHCas9, INDELs around the target site were detected only for Oca2.3. It is noteworthy that Oca2.3 is the only target tested with thymine at the fifth position of the PAM (5'-TGGAT-3').

La eficiencia de la edición deOca2.3se cuantificó como la proporción de lecturas con INDELs encontradas en esa muestra, excluyendo otras variaciones de secuencia que podrían estar presentes en la población debido a mutaciones espontáneas (Figura 10C). La herramienta EHCas9 dio lugar a un 0,84% de lecturas con la secuenciaOca2.3modificada, mientras que la eficiencia de edición encontrada con SpCas9 fue de 3,92%. Cabe resaltar que la identidad y la frecuencia relativa de los alelos mutados fueron similares para ambas proteínas. The editing efficiency of Oca2.3 was quantified as the proportion of reads with INDELs found in that sample, excluding other sequence variations that could be present in the population due to spontaneous mutations (Figure 10C). The EHCas9 tool resulted in 0.84% of reads with the modified Oca2.3 sequence, while the editing efficiency found with SpCas9 was 3.92%. It is worth noting that the identity and relative frequency of the mutated alleles were similar for both proteins.

Claims (18)

REIVINDICACIONES 1. Proteína endonucleasa Cas9 que comprende una secuencia aminoacídica según SEQ ID NO: 1.1. Cas9 endonuclease protein comprising an amino acid sequence according to SEQ ID NO: 1. 2. Proteína según la reivindicación 1, que comprende una secuencia aminoacídica con al menos un 70% de identidad de secuencia con SEQ ID NO: 1.2. Protein according to claim 1, comprising an amino acid sequence with at least 70% sequence identity with SEQ ID NO: 1. 3. Proteína según la reivindicación 2, que comprende una secuencia aminoacídica según SEQ ID NO: 5.3. Protein according to claim 2, comprising an amino acid sequence according to SEQ ID NO: 5. 4. Proteína según la reivindicación 2, que comprende una secuencia aminoacídica según SEQ ID NO: 7.4. Protein according to claim 2, comprising an amino acid sequence according to SEQ ID NO: 7. 5. Secuencia nucleotídica que codifica la proteína según cualquiera de las reivindicaciones 1-4.5. Nucleotide sequence encoding the protein according to any of claims 1-4. 6. Secuencia nucleotídica según la reivindicación 5, que comprende una secuencia nucleotídica según SEQ ID NO: 2.6. Nucleotide sequence according to claim 5, comprising a nucleotide sequence according to SEQ ID NO: 2. 7. Secuencia nucleotídica según la reivindicación 5, que comprende una secuencia nucleotídica según SEQ ID NO: 4.7. Nucleotide sequence according to claim 5, comprising a nucleotide sequence according to SEQ ID NO: 4. 8. Secuencia nucleotídica según la reivindicación 5, que comprende una secuencia nucleotídica según SEQ ID NO: 6.8. Nucleotide sequence according to claim 5, comprising a nucleotide sequence according to SEQ ID NO: 6. 9. Secuencia nucleotídica según la reivindicación 5, que comprende una secuencia nucleotídica según SEQ ID NO: 8.9. Nucleotide sequence according to claim 5, comprising a nucleotide sequence according to SEQ ID NO: 8. 10. Vector de expresión que comprende una secuencia nucleotídica según cualquiera de las reivindicaciones 5-9.10. Expression vector comprising a nucleotide sequence according to any of claims 5-9. 11. Célula que comprende una proteína según cualquiera de las reivindicaciones 1-4 y/o una secuencia nucleotídica según cualquiera de las reivindicaciones 5-9, y/o un vector según la reivindicación 10.11. Cell comprising a protein according to any of claims 1-4 and/or a nucleotide sequence according to any of claims 5-9, and/or a vector according to claim 10. 12. Sistema CRISPR-Cas que comprende un ARN guía y una proteína según cualquiera de las reivindicaciones 1-4.12. CRISPR-Cas system comprising a guide RNA and a protein according to any of claims 1-4. 13. Sistema CRISPR-Cas según la reivindicación 12, que comprende un ARN guía procedente de la transcripción de una secuencia nucleotídica según SEQ ID NO: 3.13. CRISPR-Cas system according to claim 12, comprising a guide RNA derived from the transcription of a nucleotide sequence according to SEQ ID NO: 3. 14. Método para editar un genoma que incluye una secuencia nucleotídica diana, donde dicho método comprende una etapa de poner en contacto una secuencia nucleotídica diana con un sistema CRISPR-Cas según cualquiera de las reivindicaciones 12-13.14. A method for editing a genome that includes a target nucleotide sequence, wherein said method comprises a step of contacting a target nucleotide sequence with a CRISPR-Cas system according to any of claims 12-13. 15. Uso de una proteína según cualquiera de las reivindicaciones 1-4, y/o una secuencia nucleotídica según cualquiera de las reivindicaciones 5-9, y/o un vector de expresión según la reivindicación 10, y/o una célula según la reivindicación 11, y/o un sistema CRISPR-Cas según cualquiera de las reivindicaciones 12-13 para:15. Use of a protein according to any of claims 1-4, and/or a nucleotide sequence according to any of claims 5-9, and/or an expression vector according to claim 10, and/or a cell according to claim 11, and/or a CRISPR-Cas system according to any of claims 12-13 for: - la modificación genética, regulación de expresión génica y/o visualizaciónin vivode secuencias nucleotídicas concretas; y/o- genetic modification, regulation of gene expression and/or in vivo visualization of specific nucleotide sequences; and/or - el diagnóstico molecular de enfermedades; y/o- molecular diagnosis of diseases; and/or - la producción de antimicrobianos específicos de secuencia.- the production of sequence-specific antimicrobials. 16. Uso según la reivindicación 15 para la modificación genética, regulación de expresión génica y/o visualizaciónin vivode secuencias nucleotídicas concretas de células eucariotas.16. Use according to claim 15 for genetic modification, regulation of gene expression and/or in vivo visualization of specific nucleotide sequences of eukaryotic cells. 17. Uso según la reivindicación 15 para la producción de antibacterianos.17. Use according to claim 15 for the production of antibacterials. 18. Uso según la reivindicación 17 para la producción de antibacterianos frente aEschenchia coli.18. Use according to claim 17 for the production of antibacterials against Eschenchia coli.
ES202230911A 2022-10-21 2022-10-21 Cas9 ENDONUCLEASE PROTEIN AND ASSOCIATED CRISPR-Cas SYSTEM Active ES2970263B2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
ES202230911A ES2970263B2 (en) 2022-10-21 2022-10-21 Cas9 ENDONUCLEASE PROTEIN AND ASSOCIATED CRISPR-Cas SYSTEM
PCT/ES2023/070618 WO2024084124A1 (en) 2022-10-21 2023-10-20 Cas9 endonuclease protein and associated crispr-cas system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
ES202230911A ES2970263B2 (en) 2022-10-21 2022-10-21 Cas9 ENDONUCLEASE PROTEIN AND ASSOCIATED CRISPR-Cas SYSTEM

Publications (2)

Publication Number Publication Date
ES2970263A1 ES2970263A1 (en) 2024-05-27
ES2970263B2 true ES2970263B2 (en) 2024-10-11

Family

ID=88920863

Family Applications (1)

Application Number Title Priority Date Filing Date
ES202230911A Active ES2970263B2 (en) 2022-10-21 2022-10-21 Cas9 ENDONUCLEASE PROTEIN AND ASSOCIATED CRISPR-Cas SYSTEM

Country Status (2)

Country Link
ES (1) ES2970263B2 (en)
WO (1) WO2024084124A1 (en)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11692184B2 (en) * 2017-05-16 2023-07-04 The Regents Of The University Of California Thermostable RNA-guided endonucleases and methods of use thereof
KR102794727B1 (en) * 2020-03-31 2025-04-11 메타지노미, 인크. Class II, Type II CRISPR system
WO2023102329A2 (en) * 2021-11-30 2023-06-08 Mammoth Biosciences, Inc. Effector proteins and uses thereof

Also Published As

Publication number Publication date
WO2024084124A1 (en) 2024-04-25
ES2970263A1 (en) 2024-05-27

Similar Documents

Publication Publication Date Title
AU2021231074C1 (en) Class II, type V CRISPR systems
WO2019241649A1 (en) Evolution of cytidine deaminases
CN104109687A (en) Construction and application of Zymomonas mobilis CRISPR (clustered regularly interspaced short palindromic repeats)-Cas (CRISPR-association proteins)9 system
CN114410625A (en) RNA-guided DNA cleavage by the Cas9-crRNA complex
KR20240027724A (en) A novel RNA-programmable system for polynucleotide targeting
WO2019189147A1 (en) Method for modifying target site in double-stranded dna in cell
WO2021001534A1 (en) Crispr type v-u1 system from mycobacterium mucogenicum and uses thereof
JP7698579B2 (en) DNA cutting means based on Cas9 protein from Defluviimonas species
AU2019388420B2 (en) DNA-cutting agent
ES2970263B2 (en) Cas9 ENDONUCLEASE PROTEIN AND ASSOCIATED CRISPR-Cas SYSTEM
Esquerra‐Ruvira et al. Identification of the EH CRISPR‐Cas9 system on a metagenome and its application to genome engineering
AU2023364078A1 (en) Gene editing systems comprising reverse transcriptases
CN118202044A (en) Base editing enzymes
RU2778156C1 (en) DNA-CUTTING AGENT BASED ON THE Cas9 PROTEIN FROM THE BACTERIUM CAPNOCYTOPHAGA OCHRACEA
RU2788197C1 (en) DNA-CUTTING AGENT BASED ON Cas9 PROTEIN FROM THE BACTERIUM STREPTOCOCCUS UBERIS NCTC3858
JP7621281B2 (en) DNA cutting agent based on Cas9 protein derived from the bacterium Pasteurella pneumotropica
WO2025039972A9 (en) Tls-based gene editing systems
US12503710B2 (en) Base editing enzymes
JP7708752B2 (en) Use of the Cas9 protein from the bacterium Pasteurella pneumotropica
US20240309404A1 (en) Base editing enzymes
Esquerra et al. Identification of the EH CRISPR-Cas9 system on a metagenome and its application to genome engineering
HK40063723A (en) Dna-cutting agent
WO2024243456A2 (en) Endonuclease systems
Lee Anti-CRISPR proteins: Applications in genome engineering
WO2025074246A2 (en) New crispr-cas effector proteins and the use thereof

Legal Events

Date Code Title Description
BA2A Patent application published

Ref document number: 2970263

Country of ref document: ES

Kind code of ref document: A1

Effective date: 20240527

FG2A Definitive protection

Ref document number: 2970263

Country of ref document: ES

Kind code of ref document: B2

Effective date: 20241011