CN116801901A

CN116801901A - 用于治疗1型强直性肌营养不良的靶向rna的组合物和方法

Info

Publication number: CN116801901A
Application number: CN202180092087.8A
Authority: CN
Inventors: D·A·内尔斯; R·巴特拉; D·罗斯; D·齐苏里斯; A·塔
Original assignee: Rocana Biological Co ltd
Current assignee: Rocana Biological Co ltd
Priority date: 2020-12-01
Filing date: 2021-12-01
Publication date: 2023-09-22

Abstract

公开了用于破坏或阻断毒性靶CUG重复RNA和治疗DM1的靶向RNA的基因疗法组合物和方法。

Description

用于治疗1型强直性肌营养不良的靶向RNA的组合物和方法

技术领域

本公开文本涉及分子生物学、基因疗法、以及用于修饰RNA分子的表达和活性的组合物和方法。

相关申请的交叉引用

本申请要求2020年12月1日提交的U.S.S.N.63/119,977、2020年12月23日提交的U.S.S.N.63/130,092和2021年11月12日提交的U.S.S.N.63/278,746的权益和优先权，将其各自的内容通过引用以其整体特此并入。

通过引用序列表并入

将2021年12月1日创建的大小为1.81MB的名为“LOCN_007_001WO_SeqList_ST25”的文本文件的内容通过引用以其整体特此并入。

背景技术

对于提供有效的靶向RNA的系统(其提供有效的基因疗法)，本领域存在长期但未满足的需求。特别地，本公开文本提供了在被称为1型强直性肌营养不良(DM1)的微卫星重复扩增(MRE)疾病中用于特异性靶向和破坏从重复性段表达的毒性RNA的组合物和方法。DM1是由DMPK基因的3’非翻译区中的CTG MRE引起的多系统、常染色体显性遗传性障碍。对于所有MRE疾病，可用的治疗方法解决了DM1的症状，但是不能针对其潜在病因。通过基因组编辑消除DNA中的MRE可以消除引起DM1的致病性MRE，但是在重复附近产生的DNA断裂激活修复机制，所述修复机制的活性与扩增生长相关，并且可能导致重复的进一步突变和/或可能无法区分致病性重复与在转录中具有调节作用的正常重复。已经评价了其他潜在的DM1治疗剂，如反义寡核苷酸、shRNA和小分子，但是这些治疗剂具有与频繁的重复给药相关的问题、对受影响组织的渗透性差、缺乏与重复的直接接合、毒性和脱靶效应。在克服这些问题的努力中，基于Cas9的靶向RNA的系统(RCas9)已经被证明在小鼠的成年发作的强直性肌营养不良中能够特异性靶向毒性CUG重复RNA并且提供与DM1相关的疾病表型的长期修复。然而，需要描述和开发其他非Cas9 RNA结合系统，以提供用于治疗DM1的有效、持续和可扩展的基因疗法。这种靶向CUG MRE的非Cas9 RNA结合系统对于制造规模是重要的，因为系统组分足够小以依赖于单一载体。这些非RCas9系统对于避免由免疫原性Cas9组分引发的任何有害的免疫应答也是重要的。因此，本文提供了能够消除毒性CUG重复的新的和改进的靶向RNA的非RCas9基因疗法组合物和系统，以及使用所述组合物和系统治疗DM1的方法。

发明内容

本公开文本提供了用于治疗1型强直性肌营养不良(DM1)的组合物和方法。本文公开的组合物和方法经由破坏或阻断降低的DMPK以及随后在选择性剪接和肌强直中的校正导致CUG^exp(CUG重复扩增)RNA的剂量依赖性降低。

本文公开了一种组合物，所述组合物包含编码非指导的RNA结合蛋白的核酸，所述非指导的RNA结合蛋白包含能够结合毒性靶CUG重复RNA序列的PUF或PUMBY蛋白，其中所述RNA结合蛋白不能切割所述毒性靶CUG重复RNA序列。

本文公开了一种组合物，所述组合物包含编码非指导的RNA结合融合蛋白的核酸序列，所述非指导的RNA结合融合蛋白包含a)能够结合毒性靶CUG重复RNA序列的PUF或PUMBY蛋白和b)能够切割所述毒性靶RNA序列的核酸内切酶，其中所述核酸内切酶是ZC3H12A锌指核酸内切酶的核酸酶结构域。

本公开文本提供了一种组合物，所述组合物包含编码RNA结合多肽的核酸序列，所述RNA结合多肽包含能够结合毒性靶CUG重复RNA序列的非指导的RNA结合多肽或指导的RNA结合多肽。

在一些实施方案中，所述RNA结合多肽是融合蛋白。

在一些实施方案中，所述融合蛋白包含所述RNA结合多肽，所述RNA结合多肽与能够切割所述毒性CUG重复RNA序列的核酸内切酶融合。

在一些实施方案中，所述非指导的RNA结合多肽是PUF或PUMBY蛋白。

在一些实施方案中，所述指导的RNA结合多肽是Cas13d蛋白。在一些实施方案中，所述cas13d蛋白是无催化活性的。在一些实施方案中，所述cas13d蛋白包含SEQ ID NO:583或586-589中任一个所示的氨基酸序列。

在一些实施方案中，所述核酸内切酶是ZC3H12A锌指核酸内切酶的核酸酶结构域。

在一些实施方案中，所述PUF RNA结合蛋白包含SEQ ID NO:444-451、461、570或638-649中任一个所示的氨基酸序列。在一些实施方案中，所述PUF RNA结合蛋白包含SEQID NO:444中所示的氨基酸序列。

在一些实施方案中，所述毒性靶CUG RNA重复序列包含SEQ ID NO:453-456中所示的核酸序列中的任一种。

在一些实施方案中，所述毒性靶CUG RNA重复序列包含SEQ ID NO:454中所示的核酸序列。

在一些实施方案中，所述靶向CUG的PUF蛋白由SEQ ID NO:452中所示的核酸序列编码。在一些实施方案中，所述PUF或PUMBY蛋白是人PUF或PUMBY蛋白。

在一些实施方案中，所述PUF或PUMBY蛋白通过接头序列与所述ZC3H12A核酸内切酶连接。

在一些实施方案中，所述接头包含SEQ ID NO:411中所示的氨基酸序列。

在一些实施方案中，所述融合蛋白包含选自核定位序列(NLS)和核输出序列(NES)的一个或多个信号序列。

在一些实施方案中，所述ZC3H12A锌指核酸酶包含SEQ ID NO:358或SEQ ID NO:359中所示的氨基酸序列。

在一些实施方案中，所述融合蛋白包含SEQ ID NO:559-567中任一个所示的氨基酸序列。在一些实施方案中，所述融合蛋白由包含SEQ ID NO:460、SEQ ID NO:516或SEQ IDNO:517的核酸序列编码。

在一些实施方案中，编码所述融合蛋白的核酸分子包含启动子。在一些实施方案中，所述启动子是tCAG启动子、EFS/UBB启动子、结蛋白启动子、CK8e启动子或EFS启动子。

本公开文本提供了一种包含本公开文本的任何实施方案的组合物的载体。

在一些实施方案中，所述载体选自：腺相关病毒(AAV)、逆转录病毒、慢病毒、腺病毒、纳米颗粒、胶束、脂质体、阳离子脂质体/DNA复合物(lipoplex)、聚合物囊泡、多聚复合物(polyplex)和树状聚合物。在一些实施方案中，是AAV载体。本公开文本提供了本公开文本的任何实施方案的AAV载体，其中所述AAV载体包含：第一AAV ITR序列；第一启动子序列；编码至少一个CUG重复RNA结合多肽的多核苷酸序列；和第二AAV ITR序列。

在一些实施方案中，所述CUG重复RNA结合多肽包含PUF或PUMBY蛋白。在一些实施方案中，编码所述PUF或PUMBY序列的所述多核苷酸序列包含SEQ ID NO:452中所示的核酸序列。

在一些实施方案中，所述CUG重复RNA结合多肽包含Cas13d蛋白。在一些实施方案中，编码所述Cas13d序列的所述多核苷酸序列包含SEQ ID NO:601、612或615-618中所示的核酸序列。

在一些实施方案中，所述第一启动子序列包含SEQ ID NO:568、569、608、609、634-637中所示的核酸序列。

在一些实施方案中，所述第一AAV ITR序列包含SEQ ID NO:599或600中所示的核酸序列。在一些实施方案中，所述第二AAV ITR序列包含SEQ ID NO:599或600中所示的核酸序列。

在一些实施方案中，所述载体进一步包含第二启动子序列。在一些实施方案中，所述第二启动子控制指导RNA(gRNA)的表达，其中所述gRNA包含(i)DR序列和(ii)间隔子序列。在一些实施方案中，所述第二启动子包含SEQ ID NO:519中所示的核酸序列。

在一些实施方案中，所述载体进一步包含聚A序列。在一些实施方案中，所述载体包含至少一个接头序列。在一些实施方案中，所述载体包含至少一个核定位序列。

在一些实施方案中，所述载体由SEQ ID NO:574-582、584-585、590-597中任一个所示的核酸编码。

本公开文本提供了一种药物组合物，所述药物组合物包含：a)本公开文本的任何实施方案的AAV病毒载体；和b)至少一种药学上可接受的赋形剂和/或添加剂。

本公开文本提供了一种AAV病毒载体，所述AAV病毒载体包含：a)本公开文本的任何实施方案的AAV载体；和b)AAV衣壳蛋白。在一些实施方案中，所述AAV衣壳蛋白是AAV1衣壳蛋白、AAV2衣壳蛋白、AAV4衣壳蛋白、AAV5衣壳蛋白、AAV6衣壳蛋白、AAV7衣壳蛋白、AAV8衣壳蛋白、AAV9衣壳蛋白、AAV10衣壳蛋白、AAV11衣壳蛋白、AAV12衣壳蛋白、AAV13衣壳蛋白、AAVPHP.B衣壳蛋白、AAVrh74衣壳蛋白或AAVrh.10衣壳蛋白。在一些实施方案中，所述AAV衣壳蛋白是AAV9衣壳蛋白。

一种细胞，所述细胞包含本公开文本的实施方案中任一项所述的载体。

本公开文本提供了一种治疗哺乳动物的1型强直性肌营养不良(DM1)的方法，所述方法包括将根据本公开文本的任何实施方案的组合物或AAV载体施用至所述哺乳动物的组织中的毒性靶CUG微卫星重复扩增(MRE)RNA序列，从而降低所述毒性靶RNA的表达水平。

在一些实施方案中，将所述组合物或AAV载体以如下方式施用于所述受试者：静脉内、鞘内、大脑内、心室内、鼻内、气管内、耳内、眼内或眼周、口服、直肠、透粘膜、吸入、经皮、肠胃外、皮下、皮内、肌内、脑池内、神经内、胸膜内、外用、淋巴内、脑池内或神经内。

在一些实施方案中，将所述组合物或AAV载体静脉内施用于所述受试者。

在一些实施方案中，所述毒性靶RNA的降低的表达水平因此改善了所述哺乳动物中DM1的症状。在一些实施方案中，与未经处理的毒性靶CUG RNA的表达水平的降低相比，所述毒性靶RNA的表达水平降低。在一些实施方案中，降低的水平在1倍与20倍之间。

在一些实施方案中，所述PUF RNA结合蛋白包含SEQ ID NO:444-451、461、570或638-649中任一个所示的氨基酸序列。

在一些实施方案中，所述PUF RNA结合蛋白包含SEQ ID NO:444中所示的氨基酸序列。

在一些实施方案中，所述毒性靶CUG RNA重复序列包含SEQ ID NO:453-456中的任一个。

在一些实施方案中，所述毒性靶CUG RNA重复序列包含SEQ ID NO:454。

在一些实施方案中，所述靶向CUG的PUF蛋白由SEQ ID NO:452中所示的核酸序列编码。

在一些实施方案中，所述PUF或PUMBY蛋白是人PUF或PUMBY蛋白。

在一些实施方案中，所述PUF或PUMBY蛋白通过接头序列与所述ZC3H12A连接。

在一些实施方案中，所述融合蛋白包含SEQ ID NO:559-567中任一个所示的氨基酸序列。

在一些实施方案中，所述融合蛋白由包含SEQ ID NO:460、SEQ ID NO:516或SEQID NO:517的核酸序列编码。

在一些实施方案中，编码所述融合蛋白的核酸分子包含启动子。

在一些实施方案中，所述启动子是tCAG启动子。

本公开文本提供了一种载体，所述载体包含前述组合物中的任一种。

在一些实施方案中，所述载体选自：腺相关病毒(AAV)、逆转录病毒、慢病毒、腺病毒、纳米颗粒、胶束、脂质体、阳离子脂质体/DNA复合物、聚合物囊泡、多聚复合物和树状聚合物。在一些实施方案中，所述载体是AAV载体。在一些实施方案中，所述AAV载体是AAV9或AAVrh74。

本公开文本提供了一种包含本公开文本的载体的细胞。

本文公开了一种治疗哺乳动物的1型强直性肌营养不良(DM1)的方法，所述方法包括将组合物施用至所述哺乳动物的组织中的毒性靶CUG微卫星重复扩增(MRE)RNA序列，其中所述组合物包含编码非指导的RNA结合融合蛋白的核酸序列，所述非指导的RNA结合融合蛋白包含a)能够结合毒性靶CUG RNA重复序列的PUF RNA结合蛋白，和b)能够切割所述毒性靶CUG RNA重复序列的核酸内切酶，从而降低所述毒性靶RNA的表达水平。

在一些实施方案中，所述PUF RNA结合蛋白包含SEQ ID NO:444-451、461、570或638-649中的任一个。

在一些实施方案中，所述PUF RNA结合蛋白包含SEQ ID NO:444。

在一些实施方案中，所述毒性靶CUG RNA重复序列包含SEQ ID NO:453。

在一些实施方案中，通过静脉内施用将所述组合物施用至所述哺乳动物的组织。

在一些实施方案中，所述毒性靶RNA的降低的表达水平因此改善了所述哺乳动物中DM1的症状。

在一些实施方案中，与未经处理的毒性靶CUG RNA的表达水平的降低相比，所述毒性靶RNA的表达水平降低。

在一些实施方案中，降低的水平在1倍与20倍之间。

在一些实施方案中，所述核酸内切酶是ZC3H12A锌指核酸内切酶。

在一些实施方案中，编码所述融合蛋白的核酸序列包含启动子。

在一些实施方案中，所述启动子是tCAG启动子。

在一些实施方案中，所述启动子是肌肉特异性启动子。

在一些实施方案中，所述肌肉特异性启动子是结蛋白启动子(全长或截短的)。

一种组合物，所述组合物包含编码非天然存在的或工程化的规律间隔成簇短回文重复序列(CRISPR)相关(Cas)系统的核酸序列，所述系统包含：(a)至少一种RNA指导的RNA酶Cas蛋白；和b)能够与所述至少一种Cas蛋白中的一种形成复合物的至少一种同源CRISPR-Cas系统指导RNA(gRNA)，其中所述gRNA包含(i)DR序列和(ii)间隔子序列，其中所述间隔子序列与所述靶CUG MRE分子杂交，并且其中所述间隔子序列包含选自以下的间隔子序列：agcagcagcagcagcagcagcagcag(SEQ ID NO:457)、gcagcagcagcagcagcagcagcagc(SEQ ID NO:458)和cagcagcagcagcagcagcagcagca(SEQ ID NO:459)或其部分，其中所述CRISPR-Cas系统能够结合并切割所述靶CUG MRE。

一种组合物，所述组合物包含编码非天然存在的或工程化的规律间隔成簇短回文重复序列(CRISPR)相关(Cas)系统的核酸序列，所述系统包含：(a)至少一种RNA指导的RNA酶Cas蛋白；和b)能够与所述至少一种Cas蛋白中的一种形成复合物的至少一种同源CRISPR-Cas系统指导RNA(gRNA)，其中所述gRNA包含(i)DR序列和(ii)间隔子序列，其中所述间隔子序列与所述靶CUG MRE分子杂交，并且其中所述间隔子序列包含选自以下的间隔子序列：agcagcagcagcagcagcagcagcag(SEQ ID NO:457)、gcagcagcagcagcagcagcagcagc(SEQ ID NO:458)和cagcagcagcagcagcagcagcagca(SEQ ID NO:459)或其部分，其中所述CRISPR-Cas系统能够结合并切割所述靶CUG MRE，其中所述CRISPR-Cas系统是无催化活性的，并且其中所述CRISPR-Cas能够结合但不切割所述靶CUG MRE。

在一些实施方案中，所述Cas蛋白是Cas13a、Cas13b、Cas13c或Cas13d。在一些实施方案中，所述Cas蛋白是Cas13d。

在一些实施方案中，所述RNA指导的RNA酶Cas蛋白或所述非指导的RNA结合多肽是第一RNA结合多肽，所述第一RNA结合多肽与第二RNA结合多肽融合。在一个实施方案中，所述第二RNA结合多肽能够以其与RNA缔合的方式结合RNA。在一些实施方案中，所述第二RNA结合多肽能够以其切割RNA的方式与RNA缔合。在一个实施方案中，所述第二RNA结合多肽是ZC3H12A锌指核酸内切酶的核酸酶结构域。

在一些实施方案中，编码所述Cas或dCas系统的核酸包含启动子。在一些实施方案中，所述启动子是EFS启动子。在一些实施方案中，所述启动子是肌肉特异性启动子。在一些实施方案中，所述肌肉特异性启动子是结蛋白启动子(全长或截短的)。

本文公开了一种载体，所述载体包含前述组合物中的任一种。

在另一个实施方案中，所述载体选自：腺相关病毒(AAV)、逆转录病毒、慢病毒、腺病毒、纳米颗粒、胶束、脂质体、阳离子脂质体/DNA复合物、聚合物囊泡、多聚复合物和树状聚合物。

在另一个实施方案中，所述载体是AAV载体。

在另一个实施方案中，所述AAV载体是AAV9或AAVrh74。

本文公开了包含所述载体的细胞。

附图说明

本专利或申请文件包含至少一幅彩色附图。具有一副或多副彩色附图的本专利或专利申请公开文本的副本将在请求和支付必要费用后由主管局提供。

图1示出了CUG⁹⁶⁰ qPCR测定的结果，其展示了本文公开的靶向CUG的Cas13d组合物和PUF组合物的示例性实施方案破坏DM1毒性CUG重复。示出了使用三种不同的指导物CUG-g1、CUG-g2和CUG-g3，在基于Cas13d的系统(标记为Cas13d-L1)中的毒性重复的减少。示出了使用编码PUF(CUG)-E17融合蛋白(标记的CUG-f1)和E17-PUF(CUG)融合蛋白(标记的CUG-f2)的示例性核酸分子，在基于PUF的系统中的毒性重复的减少。E17是ZC3H12A核酸内切酶的结构域。将结果相对于非靶向对照归一化，并显示为生物重复实验的平均值+/-s.d.(n＝2)。

图2示出了与非靶向对照相比，使用本文公开的示例性靶向CUG的Cas13d和PUF组合物的RNA荧光原位杂交(FISH)测定的结果。

图3示出了CUG⁹⁶⁰ qPCR测定的结果，所述测定展示了与RCas9系统相比，使用本文公开的Cas13d组合物和PUF组合物时DM1毒性CUG重复RNA的破坏。将结果相对于非靶向对照归一化，并显示为生物重复实验的平均值+/-s.d.(n＝2)。

图4A-图4C示出了本文公开的DM1基因疗法组合物的示例性载体配置。图4A展示了DM1基因疗法构建体配置，其包含与截短的CAG启动子(tCAG)可操作连接的靶向CUG的PUF-E17。图4B展示了DM1基因疗法构建体配置，其包含与EFS启动子可操作连接的与E17融合的靶向CUG的无催化活性的Cas13d和相应指导物。图4C展示了DM1基因疗法构建体配置，其包含与EFS启动子可操作连接的靶向CUG的Cas13d和相应指导物。

图5描绘了靶向CUG的PUF与人PUM1的比对，其中突出显示了错配。

图6A-图6B示出了CUG⁹⁶⁰测定的结果。图6A示出了DMPK-CUG⁹⁶⁰报告mRNA的敲低。具体地，Cas13d-CUG(A01215)降低了CosM6细胞中的CUG⁹⁶⁰重复mRNA表达。将CUG⁹⁶⁰重复mRNA的水平(在人DMPK外显子11-15的背景下)相对于参考基因GAPDH和转染对照GFP(从与CUG⁹⁶⁰相同的质粒表达)归一化。将数据表示为用Cas13d-CUG转染的细胞相对于用Cas13d非靶向(NT)阴性对照转染的细胞的倍数变化(n＝3个不同的实验)。图6B示出了内源性DMPK mRNA被保留。具体地，Cas13d-CUG没有降低HEK293细胞中正常DMPK mRNA水平，而靶向重复侧翼区域的Cas13d-DMPK阳性对照将总DMPK mRNA敲低了58％。

图7描绘了DM1基因疗法的两种作用机制：1)重复破坏，和2)重复阻断。

图8示出了本文公开的在AAV9载体中包装的基于DM1 AAV的基因疗法组合物的三个不同实施方案。具体地，图8描绘了1)用于破坏重复CUG的基于具有同源CUG靶向gRNA的CRISPR/Cas13d系统的治疗性构建体A01215，2)用于破坏重复CUG的基于与人核酸内切酶结构域(E17)融合的PUF(人PUM1来源的)蛋白的治疗性构建体A01344，所述PUF(人PUM1来源的)蛋白被工程化以靶向和切割重复CUG RNA，和3)基于PUF(人PUM1来源的)蛋白的治疗性构建体A01686，所述PUF(人PUM1来源的)蛋白被工程化以靶向和结合(但不切割)重复的CUGRNA。

图9A-图9B示出了患者肌肉细胞中核CUG^exp团簇的减少。图9A示出了RNA-FISH，以评价用编码GFP(A01475-对照)、Cas13d-CUG(A01215)或PUF(CUG)-E17(A01344)的经修饰的AAVrh74(eAAV)处理的DM1患者肌细胞中的核CUG^exp RNA团簇(2600个CUG重复)。图9B示出了通过RNA FISH定量相对于eAAV-GFP(A01475-对照)归一化的核CUG^exp RNA团簇数量，展示了在A01215(Cas13d-CUG)和A01344(PUF(CUG)-E17)的情况下毒性CUG RNA团簇的剂量依赖性减少。

图10A-图10G示出了在HSA_LR DM1小鼠中CUG^exp RNA的破坏和DM1相关错剪接和肌强直的校正。图10A描绘了基于AAV的A01215(Cas13d-CUG)和A01344(PUF(CUG)-E17)介导的CUG^exp的破坏以及选择性剪接和肌强直的后续校正的作用机制。图10B描绘了示出在对侧胫骨前肌(TA)中注射媒介物和治疗的注射方案。图10C示出了使用具有CAG10探针的RNA-FISH测得的在处理的TA肌肉中核CUG^exp RNA团簇的减少。图10D示出了使用RT-ddPCR测得的在基于AAV9的A01344(PUF(CUG)-E17)的情况下HSA-CUG^exp RNA的剂量依赖性减少。图10E-图10F示出了使用半定量RT-PCR然后是毛细管电泳测得的DM1相关Atp2a1外显子22和ClCn1外显子7a各自的选择性剪接的校正。图10G示出了肌强直的减少，表示为使用针式肌电描记术(EMG)导致肌强直运行的针插入物的％。

图11A-图11G示出了在HSA_LR DM1小鼠中CUG^exp RNA的阻断以及DM1相关错剪接和肌强直的校正。图11A描绘了基于AAV的A01686(PUF(CUG))介导的CUG^exp的阻断以及选择性剪接和肌强直的后续校正的作用机制。图11B描绘了示出在对侧胫骨前肌(TA)中注射媒介物和治疗的注射方案。图11C示出了使用具有CAG10探针的RNA-FISH测得的在处理的TA肌肉中核CUG^exp RNA团簇的减少。图11D示出了使用RT-ddPCR测得的在基于AAV9的A01686(PUF(CUG))的情况下HSA-CUG^exp RNA的剂量依赖性减少。图11E-图11F示出了使用半定量RT-PCR然后是毛细管电泳测得的DM1相关Atp2a1外显子22和ClCn1外显子7a各自的选择性剪接的校正。图11G示出了肌强直的减少，表示为使用针式肌电描记术(EMG)导致肌强直运行的针插入物的％。

图12A-图12B描绘了本文公开的DM1阻断(无切割)基因疗法组合物的示例性载体配置。图12A示出了几个PUF(CUG)实施方案，并且图12B示出了几个dCas13d(CUG)实施方案。

具体实施方式

本公开文本提供了用于治疗1型强直性肌营养不良(DM1)的靶向RNA的基因疗法组合物和方法。

DM1是由DMPK基因的3’非翻译区中的CTG微卫星重复扩增(MRE)引起的多系统、常染色体显性遗传性障碍。含有CUG重复扩增的RNA转录物隔绝盲肌样(MBNL)蛋白，所述盲肌样蛋白是从胎儿到成人同种型的选择性剪接转换的调节剂。成年DM1患者经历使人衰弱的肌强直和骨骼肌进行性无力，而出生时患有DM1(先天性DM或CDM)的婴儿则是低张力的并展示出呼吸功能不全。DMPK基因编码称为强直性肌营养不良蛋白激酶的蛋白质，据信所述蛋白质在肌肉细胞、心脏细胞和脑细胞中起作用。所述蛋白质可能参与细胞内的通信。它似乎还通过与其他蛋白质相互作用来调节肌肉细胞内重要结构的产生和功能。例如，强直性肌营养不良蛋白激酶已经被证明抑制称为肌球蛋白磷酸酶的肌肉蛋白的一部分。肌球蛋白磷酸酶是一种在肌肉紧张(收缩)和松弛中起作用的酶。DMPK基因的一个区域含有多次重复的三个DNA构建块(核苷酸)的区段。此序列(被写为CTG)被称为三联体或三核苷酸重复。在大多数未受影响的人中，此基因中CTG重复的数量范围为5至34。在DM1患者中，存在CTG重复扩增，这增加DMPK基因中CTG重复的大小。DM1被分类为成人发作形式或先天性形式，其通过扩增的CTG段的大小来区分。在大多数细胞中，此类CTG重复扩增中的重复范围可以为约50至约1,000个CTG重复，并且在某些细胞类型(如肌肉细胞)中，重复的数量通常更大。实际上，三核苷酸重复扩增的大小与DM1的体征和症状的严重程度相关。经典特征(如肌无力和消瘦)开始于成年期，并与每个细胞约100至约1,000个CTG重复相关。更严重的先天性形式的DM1倾向于与每个细胞超过1,000个CTG重复相关。轻度形式的DM1典型地在每个细胞约50至约150个CTG重复范围内。DM1被分类为成人发作形式或先天性形式，其通过扩增的CTG段的大小来区分。由DMPK基因座产生的重复RNA形成核RNA团簇，所述核RNA团簇隔绝RNA结合蛋白，如MBNL1(盲肌样剪接调节剂1)，并使它们脱离其稳态RNA加工活动。MBNL1功能的丧失与数百种选择性剪接缺陷和呼吸功能不全相关，所述选择性剪接缺陷和呼吸功能不全在不同程度上促进患者死亡。靶向和消除(或阻断)CUG重复是针对DM1的治疗策略。

本文公开的基因疗法组合物在治疗DM1的方法中提供了毒性CUG重复的有效切割或阻断。在使用RCas9系统的先前工作的基础上，本文公开了不依赖于RCas9系统组分的多个RNA结合系统。虽然基于Cas9的靶向RNA的系统(RCas9)能够特异性靶向毒性CUG重复RNA并在小鼠的成年发作的强直性肌营养不良中提供与DM1相关的疾病表型的长期修复，但是本文公开的其他非Cas9 RNA结合系统提供毒性CUG重复RNA的有效切割或阻断。这种靶向CUG MRE的非Cas9 RNA结合系统对于在制造中治疗系统的缩放是重要的。特别地，非Cas9系统组分具有足够小的尺寸以依赖于单一(单个)载体。与RCas9系统相比，本文公开的非RCas9系统能够实现毒性CUG重复的有效敲低或阻断，并且非RCas9系统对于避免由免疫原性和难处理的Cas9组分引发的任何有害的免疫应答也是重要的。

本文公开了用于治疗DM1的包含核酸分子的组合物和包含所述核酸分子的载体，所述核酸分子编码能够结合毒性CUG重复RNA的非Cas9 RNA结合系统。此类组合物能够靶向和结合以敲低/破坏或阻断毒性CUG重复，这两种机制(破坏和阻断)均引起MBNL隔绝、选择性剪接和肌强直的校正。实际上，在一个实施方案中，包含PUF(CUG)的基因疗法阻断组合物将直接结合CUG^exp RNA并阻断MBNL隔绝以保留接近正常的游离MBNL水平以及将逆转DM1疾病表型(如剪接功能障碍、肌强直等)的功能。在一些方面，适于阻断CAG重复RNA的组合物结合含有CUG重复的RNA并阻止CUG重复RNA的翻译。在一些方面，这阻止翻译，导致含有CUG重复的RNA序列的蛋白质表达降低。这些本文公开的系统包含RNA指导的RNA酶Cas或非指导的PUF、PUMBY或PPR蛋白配置。

在一些实施方案中，所述指导的或非指导的CUG重复靶向系统靶向扩增的CUG重复(CUG^exp)，其中所述CUG重复是CUG⁵⁰或更多。在一些实施方案中，所述CUG重复是CUG¹⁰⁰或更多。在一些方面，所述CUG重复是CUG⁵⁰⁰或更多。在一些方面，所述CUG重复是CUG⁹⁶⁰。在一些方面，所述CUG¹⁰⁰⁰重复是1000个CUG重复或更多。明确地说，CUG⁵⁰或CUG¹⁰⁰或CUG⁹⁶⁰或CUG¹⁰⁰⁰分别是指在含有CUG重复的基因中，50个CUG重复或100个CUG重复或960个CUG重复或1000个CUG重复。任何其他数量或范围的CUG重复都是可能的，包括50、55、60、65、70、75、76、77、78、79、80、81、82、83、84、85、90、95、100、105、110、115、120、150、180、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、960、1000个CUG重复，或在其间任何数量的CUG重复。

在用于治疗DM1的任何前述或随后的靶向RNA的组合物中，在特定的靶向RNA的组合物的上下文中描述的任何特定构建体元件(例如，接头、启动子、信号序列等)可以被取代为具有相同元件类型的另一个元件(例如，接头、启动子、信号序列等)。在一些实施方案中，可以省略或去除任何特定构建体元件(如标签序列)。换句话说，本文所述的任何特定基因疗法组合物中的元件的示例性组合并不旨在限制。

RNA指导的CUG重复RNA结合系统

在一些实施方案中，非Cas9结合系统由RNA指导的RNA结合多肽组成。在一些实施方案中，核酸序列编码作为RNA酶Cas蛋白(或失活的RNA酶Cas蛋白)的RNA指导的RNA结合多肽。在一个实施方案中，核酸序列进一步包含gRNA序列，其含有与毒性靶CUG重复RNA结合的间隔子序列和与RNA酶Cas蛋白结合的同向重复(DR)序列。在一个实施方案中，Cas13d(CUG)系统是有催化活性的，在这种情况下，所述Cas13d核蛋白复合物切割并破坏毒性RNA CUG重复。在另一个实施方案中，Cas13d(CUG)系统是无催化活性的，在这种情况下，Cas13d核蛋白复合物结合并阻断(但不切割)RNA CUG重复。在又另一个实施方案中，Cas13d(CUG)包含与核酸内切酶融合的无催化活性的Cas13d(CUG)，所述核酸内切酶能够切割毒性RNA CUG重复。在这样一个实施方案中，所述核酸内切酶是活性RNA酶。可以在本文中找到具有RNA酶活性的示例性核酸内切酶，并且这些包括例如来自ZC3H12A锌指的结构域(在本文中也称为E17)或PIN核酸内切酶的结构域。在一些实施方案中，编码靶向CUG重复的组合物的核酸序列包含控制Cas13d蛋白或Cas13d融合蛋白表达的第一启动子序列和控制所述至少一个指导RNA序列表达的第二启动子序列。

表1：用RNA酶Cas系统进行CUG靶向以治疗DM1的sgRNA中使用的示例性间隔子序列：

间隔子	间隔子序列
		1	agcagcagcagcagcagcagcagcag(SEQ ID NO:457)
2	gcagcagcagcagcagcagcagcagc(SEQ ID NO:458)
		3	cagcagcagcagcagcagcagcagca(SEQ ID NO:459)

在一个实施方案中，RNA酶Cas蛋白是Cas13蛋白。在另一个实施方案中，Cas13蛋白是Cas13d蛋白。在另一个实施方案中，Cas13d蛋白是失活的RNA酶Cas13d蛋白(dCas13d)。在另一个实施方案中，dCas13d蛋白是融合蛋白，其包含1)dCas13d和2)编码具有核酸酶活性的蛋白质或其片段的多肽。在另一个实施方案中，所述dCas13d蛋白是融合蛋白，所述融合蛋白包含1)dCas13d和2)ZC3H12A(一种锌指核酸内切酶)或其截短形式(本文称为E17或SEQID NO:358)。在一些实施方案中，Cas配置包含一个或多个信号序列，如一个或多个NLS和/或一个或多个NES。在一些实施方案中，所述dCas13d经由接头序列与E17核酸内切酶连接。在一个实施方案中，所述接头序列是VDTANGS(SEQ ID NO:411)。在一些实施方案中，所述Cas13d或dCas13d融合蛋白与启动子序列可操作地连接。在一些实施方案中，所述启动子序列包含增强子和/或内含子。在一些实施方案中，所述启动子序列是EFS启动子序列(图4B和图4C)。

在一些实施方案中，本公开文本的靶向CUG重复的cas13d或dCas13d蛋白从N末端至C末端包含：Cas13d(Seq212)、接头和SV-40NLS。在一些方面，将所述靶向CUG重复的dCas13d蛋白用于阻断CUG重复RNA序列表达的方法中。

具有截短的结蛋白启动子的活性Cas13d(Seq212)(A02207)

非指导的CUG重复RNA结合系统

在一些实施方案中，所述非Cas9 RNA结合系统不包含RNA指导的RNA结合多肽。相反，所述非Cas9 RNA结合系统由非RNA指导的RNA结合多肽(如PUF蛋白或PUMBY蛋白)或其RNA结合部分组成。在一个实施方案中，本文公开的非指导的RNA结合融合蛋白包含a)能够结合包含UGCUGCUG(SEQ ID NO:453)的毒性靶CUG重复序列的PUF或PUMBY RNA结合序列)和b)能够切割毒性靶CUG重复序列的核酸内切酶。

在一个实施方案中，所述靶RNA序列选自UGCUGCUGCUGCUG(SEQ ID NO:454)、UGCUGCUGCUGCUGC(SEQ ID NO:455)和UGCUGCUGCUGCUGCU(SEQ ID NO:456)。

在一个实施方案中，所述靶RNA序列选自CUGCUGCU(SEQ ID NO:472)、CUGCUGCUGCUGCU(SEQ ID NO:473)、CUGCUGCUGCUGCUG(SEQ ID NO:474)和CUGCUGCUGCUGCUGC(SEQ ID NO:475)。

在一个实施方案中，所述靶RNA序列选自GCUGCUGC(SEQ ID NO:476)、GCUGCUGCUGCUGC(SEQ ID NO:477)、GCUGCUGCUGCUGCU(SEQ ID NO:478)和GCUGCUGCUGCUGCUG(SEQ ID NO:479)。

在一个实施方案中，所述PUF或PUMBY RNA结合融合蛋白包含a)PUF或PUMBYCUG靶向蛋白和b)ZC3H12A(一种锌指核酸内切酶)或其截短形式(本文称为E17或SEQ ID NO:358)。在一些实施方案中，将所述靶向CUG的PUF或PUMBY融合蛋白以N末端至C末端如下配置：

PUF(CUG)-E17

E17-PUF(CUG)

PUMBY(CUG)-E17或

E17-PUMBY(CUG)。

在一些实施方案中，PUF或PUMBY融合物配置包含PUF(CUG)或PUMBY(CUG)与E17之间的接头。在一个实施方案中，所述接头序列是VDTANGS(SEQ ID NO:411)。

在一些实施方案中，将包含接头的靶向CUG的PUF或PUMBY融合蛋白以N末端至C末端如下配置：

PUF(CUG)-接头-E17

E17-接头-PUF(CUG)

PUMBY(CUG)-接头-E17；或

E17-接头-PUMBY(CUG)。

PUF(CUG)-接头-E17的N末端至C末端方向的示例性实施方案是图1的第一方向CUG框架(CUG-f1)，其从N末端至C末端方向上为PUF(CUG)-E17。E17-接头-PUF(CUG)的N末端至C末端方向的示例性实施方案是图1的第二方向CUG框架(CUG-f2)，其从N末端至C末端方向上为E17-接头-PUF(CUG)。

在一个实施方案中，靶向CUG的PUF或PUMBY融合蛋白配置从N末端至C末端为PUF(CUG)-VDTANGS-E17或PUMBY(CUG)-VDTANGS-E17。在另一个实施方案中，靶向CUG的PUF或PUMBY融合蛋白配置从N末端至C末端为E17-VDTANGS-PUF(CUG)或E17-VDTANGS-PUMBY(CUG)。

在一些实施方案中，PUF或PUMBY配置包含一个或多个标签和/或信号序列，如FLAG、NLS、NES或其组合。在一个实施方案中，FLAG标签序列是DYKDDDDK(SEQ ID NO:436)。在一个实施方案中，NLS信号序列是人NLS。在一个实施方案中，NES是人NES。在一个实施方案中，NLS是SV40 NLS。在另一个实施方案中，SV40 NLS序列是PKKKRKV(SEQ ID NO:437)。在一个实施方案中，所述配置包含两个不同的标签和/或信号序列。在另一个实施方案中，所述配置包含两个或更多个信号序列。在一些实施方案中，所述一个或多个标签和/或一个或多个信号位于N末端。在一些实施方案中，所述一个或多个标签和/或一个或多个信号位于C末端。在一些实施方案中，一个或多个标签和/或一个或多个信号位于N末端，并且一个或多个标签和/或一个或多个信号位于C末端。在一个实施方案中，将包含一个或多个标签和/或信号的靶向CUG的PUF或PUMBY融合蛋白以N末端至C末端如下配置：

FLAG-NLS-PUF(CUG)-接头-E17；或

FLAG-NLS-PUMBY(CUG)-接头-E17；

NLS-PUF(CUG)-接头-E17；或

NLS-PUMBY(CUG)-接头-E17。

在一个实施方案中，将包含一个或多个标签和/或一个或多个信号的靶向CUG的PUF或PUMBY融合蛋白以N末端至C末端如下配置：

FLAG-NLS-PUF(CUG)-VDTANGS-E17；或

FLAG-NLS-PUMBY(CUG)-VDTANGS-E17；

NLS-PUF(CUG)-VDTANGS-E17；或

NLS-PUMBY(CUG)-VDTANGS-E17。

表2A-表2B：用于靶向CUG MRE的示例性PUF配置：

靶向CUG的PUF(DM1)与核酸内切酶一起用于破坏：

在没有核酸内切酶的情况下靶向CUG的PUF(DM1)用于阻断：

在一些实施方案中，本公开文本的包含靶向CUG的PUF蛋白的AAV载体从5’至3’包含如表A所示的内容。在一些方面，所述AAV载体包含SEQ ID NO:573或574中所示的核酸序列。

表A：具有结蛋白(FL)启动子的PUF-CUG-E17(A02205)

在一个实施方案中，编码PUF(CUG)或PUMBY(CUG)融合构建体或不含核酸内切酶的PUF(CUG)或PUMBY(CUG)的核酸与启动子序列可操作地连接以用于在细胞内表达。在一个实施方案中，启动子序列是截短的CAG(tCAG)启动子(图4A)。在一些实施方案中，启动子序列包含增强子序列和/或内含子序列。在一个实施方案中，启动子是EFS/UBB启动子。在一些实施方案中，启动子序列是肌肉特异性启动子。

在一个实施方案中，编码PUF(CUG)(含或不含核酸内切酶)、Cas13d(CUG)或dCas13d(CUG)(含或不含核酸内切酶的dCas13d(CUG))的核酸与启动子序列可操作地连接以用于在细胞内表达(图4B-图4C和图12B)。在一个实施方案中，启动子序列是EFS启动子(图4B-图4C)。在一个实施方案中，启动子是EFS/UBB启动子(图12B)。在一些实施方案中，启动子序列包含增强子序列和/或内含子序列。在一些实施方案中，启动子序列是肌肉特异性启动子(图12B)。

在一些实施方案中，肌肉特异性启动子是如下结蛋白启动子：

肌肉特异性结蛋白启动子的序列：

在另一个实施方案中，将PUF(CUG)或PUMBY(CUG)或Cas13d(CUG)或dCas13d(CUG)配置包装在AAV载体中。在一个实施方案中，AAV载体是AAV9载体。在另一个实施方案中，AAV载体是AAVrh74载体。

在一些实施方案中，本公开文本的包含靶向CUG的活性Cas13d蛋白的AAV载体从5’至3’包含如表B所示的内容。在一些方面，所述AAV载体包含SEQ ID NO:573或574中所示的核酸序列。

表B：示例性靶向CUG的Cas13d AAV载体

在一些实施方案中，本公开文本的包含与核酸内切酶融合的靶向CUG的PUF蛋白的AAV载体(称为A02205)从5’至3’包含如表C所示的元件。在一些方面，所述AAV载体包含SEQID NO:574或575中所示的核酸序列。

表C：示例性靶向CUG的PUF-核酸内切酶AAV载体A02205

含结蛋白(FL)启动子的无核酸内切酶的PUF-CUG(A02239)

在一些实施方案中，本公开文本提供了如表D所示的与RB NLS融合的靶向CUG的PUF蛋白。

表D：示例性的靶向CUG的8PUF

在一些实施方案中，本公开文本的包含靶向CUG的PUF蛋白的AAV载体(称为A02239)从5’至3’包含如表E所示的元件。在一些方面，所述AAV载体包含SEQ ID NO:576或577中所示的核酸序列。

表E：示例性的靶向CUG的PUF AAV载体A02239

示例性阻断性RNA靶向组合物

在DMPK的非编码3’非翻译区中的CTG微卫星扩增导致DM1。DMPK mRNA中的扩增的CUG(CUG^exp)重复直接隔绝MBNL蛋白质，从而导致所述MBNL蛋白质的功能丧失。MBNL功能丧失是在DM1中观察到的选择性剪接缺陷和临床表现的直接原因。PUF(CUG)或dCas13d(CUG)将直接结合CUG^exp RNA并阻断MBNL隔绝，以保留接近正常的游离MBNL水平和将逆转DM1疾病表型(如剪接功能障碍、肌强直等)的功能。以下PUF(CUG)和dCas13d(CUG)RNA靶向构建体是用于阻断的示例性实施方案。

在一些实施方案中，本公开文本提供了如表F中所示的与RB NLS融合的靶向CUG的PUF蛋白。

表F：用于阻断CUG RNA的示例性的靶向CUG的8PUF

在一些实施方案中，本公开文本的包含适合于阻断的靶向CUG的PUF蛋白的AAV载体从5’至3’包含如表G所示的元件。在一些方面，所述AAV载体包含SEQ ID NO:578或579中所示的核酸序列。

表G：示例性的靶向CUG的阻断性PUF

以N末端至C末端顺序的质粒元件的核苷酸序列

无核酸内切酶且含myc标签的靶向CUG的PUF(DM1)

在一些实施方案中，本公开文本提供了如表H所示的与RB NLS融合的靶向CUG的PUF蛋白。

表H：用于阻断CUG RNA的示例性的靶向CUG的8PUF

在一些实施方案中，本公开文本的包含适合于阻断的靶向CUG的PUF蛋白的AAV载体从5’至3’包含如表I所示的元件。在一些方面，所述AAV载体包含SEQ ID NO:581或582中所示的核酸序列。

表I：包含靶向CUG的阻断性PUF的示例性AAV载体

A01560：无核酸内切酶的靶向CUG的dCas13d dSeq212(催化结构域上4个点突变)

在一些实施方案中，本公开文本提供了如表J所示的具有4个点突变的靶向CUG的无催化活性的Cas(dCas13d)。

表J：用于阻断CUG RNA的示例性的靶向CUG的dCas13d

在一些实施方案中，本公开文本的包含靶向CUG的dCas13d蛋白的AAV载体(称为A01560)从5’至3’包含如表K所示的元件。在一些方面，所述AAV载体包含SEQ ID NO:584或585中所示的核酸序列。

表K：包含靶向CUG的dCas13d的示例性AAV载体A01560

Cas13d：无核酸内切酶的靶向CUG的dSeq212(在HEPN2处具有1个点突变H919A)

在一些实施方案中，本公开文本提供了如表L中所示的具有HEPN2处的H919A突变的靶向CUG的无催化活性的Cas(dCas13d)。

表L：用于阻断CUG RNA的示例性的靶向CUG的dcas13d

在一些实施方案中，本公开文本的包含靶向CUG的dCas13d蛋白的AAV载体从5’至3’包含如表M所示的元件。在一些方面，所述AAV载体包含SEQ ID NO:590或591中所示的核酸序列。

表M：包含靶向CUG的dCas13d的示例性AAV载体

Cas13d：无核酸内切酶的靶向CUG的dSeq212(在HEPN2处具有1个点突变R914A)

在一些实施方案中，本公开文本提供了如表N中所示的具有H914A突变的靶向CUG的无催化活性的Cas(dCas13d)。

表N：用于阻断CUG RNA的示例性的靶向CUG的dcas13d

在一些实施方案中，本公开文本的包含靶向CUG的dCas13d蛋白的AAV载体从5’至3’包含如表O所示的元件。在一些方面，所述AAV载体包含SEQ ID NO:592或593中所示的核酸序列。

表O：包含靶向CUG的dCas13d的示例性AAV载体

Cas13d：无核酸内切酶的靶向CUG的dSeq212(在HEPN1处具有1个点突变R293A)

在一些实施方案中，本公开文本提供了如表P中所示的具有HEPN1处的R293A突变的靶向CUG的无催化活性的Cas(dCas13d)。

表P：用于阻断CUG RNA的示例性的靶向CUG的dcas13d

在一些实施方案中，本公开文本的包含靶向CUG的dCas13d蛋白的AAV载体从5’至3’包含如表Q所示的元件。在一些方面，所述AAV载体包含SEQ ID NO:594或595中所示的核酸序列。

表Q：包含靶向CUG的dCas13d的示例性AAV载体

Cas13d：无核酸内切酶的靶向CUG的dSeq212(在HEPN1处具有1个点突变H298A)

在一些实施方案中，本公开文本提供了如表R中所示的具有HEPN1处的H298A突变的靶向CUG的无催化活性的Cas(dCas13d)。

表R：用于阻断CUG RNA的示例性的靶向CUG的dcas13d

在一些实施方案中，本公开文本的包含靶向CUG的dCas13d蛋白的AAV载体从5’至3’包含如表S所示的元件。在一些方面，所述AAV载体包含SEQ ID NO:596或597中所示的核酸序列。

表S：包含靶向CUG的dCas13d的示例性AAV载体

用于RNA指导的RNA结合蛋白的指导RNA

术语指导RNA(gRNA)与单一指导RNA(sgRNA)在整个本公开文本中可互换使用。

本公开文本的指导RNA(gRNA)可以由间隔子序列和“同向重复”(DR)序列组成。在一些实施方案中，指导RNA是包含连续间隔子序列和DR序列的单一指导RNA(sgRNA)。在一些实施方案中，间隔子序列和DR序列是不连续的。在一些实施方案中，gRNA包含DR序列。DR序列是指CRISPR基因座(天然存在于细菌基因组或质粒中)中的重复性序列，其中散布有间隔子序列。众所周知，如果相关CRISPR基因座的序列是已知的，则将能够推断相应(或同源)Cas蛋白的DR序列。在一些实施方案中，指导RNA包含同向重复(DR)序列和间隔子序列。在一些实施方案中，编码本公开文本的指导RNA或单一指导RNA的序列包含由接头序列隔开的间隔子序列和DR序列或由其组成。在一些实施方案中，接头序列可以包含1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50个或其间的任何数量的核苷酸(nt)或由其组成。在一些实施方案中，接头序列可以包含至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50个或之间的任何数量的核苷酸。在一些实施方案中，DR序列是Cas13d DR序列。

在一个实施方案中，以Cas l3d介导的方式与一种或多种靶RNA分子杂交的gRNA包含一个或多个同向重复(DR)序列、一个或多个间隔子序列，例如像一个或多个包含DR-间隔子-DR-间隔子阵列的序列。在一个实施方案中，多个gRNA由单个阵列产生，其中每个gRNA可以是不同的，例如靶向不同的RNA或靶向单个RNA的多个区域，或其组合。在一些实施方案中，分离的gRNA包含一个或多个同向重复序列，如未经加工的DR(例如，约36nt)或经加工的DR(例如，约30nt)。在一些实施方案中，gRNA可以进一步包含对靶RNA具有特异性(例如，与靶RNA互补)的一个或多个间隔子序列。在某些这样的实施方案中，多个polIII启动子可以用于驱动多个gRNA、间隔子和/或DR。在一个实施方案中，指导阵列包含DR(约36nt)-间隔子(约30nt)-DR(约36nt)-间隔子(约30nt)。

本公开文本的指导RNA(gRNA)可以包含非天然存在的核苷酸。在一些实施方案中，本公开文本的指导RNA或编码所述指导RNA的序列包含修饰的或合成的RNA核苷酸或由其组成。示例性的修饰的RNA核苷酸包括但不限于假尿苷(Ψ)、二氢尿苷(D)、肌苷(I)、和7-甲基鸟苷(m7G)、次黄嘌呤、黄嘌呤、黄苷、7-甲基鸟嘌呤、5,6-二氢尿嘧啶、5-甲基胞嘧啶、5-甲基胞苷、5-羟甲基胞嘧啶、异鸟嘌呤和异胞嘧啶。

本公开文本的指导RNA(gRNA)可以结合靶序列内的修饰的RNA。在靶序列内，本公开文本的指导RNA(gRNA)可以结合经修饰的或突变的(例如，致病性)RNA。示例性的表观遗传或转录后修饰的RNA包括但不限于2’-O-甲基化(2'-OMe)(2'-O-甲基化发生在核糖部分的游离2'-OH的氧上)、N6-甲基腺苷(m6A)和5-甲基胞嘧啶(m5C)。

在本公开文本的组合物的一些实施方案中，本公开文本的指导RNA包含编码非编码C/D盒核仁小RNA(snoRNA)序列的至少一个序列。在一些实施方案中，snoRNA序列包含与靶RNA互补的至少一个序列，其中所述RNA分子的靶序列包含至少一个2’-OMe。在一些实施方案中，snoRNA序列包含与靶RNA互补的至少一个序列，其中与靶RNA互补的所述至少一个序列包含盒C基序(RUGAUGA)(SEQ ID NO:523)和盒D基序(CUGA)(SEQ ID NO:524)。

本公开文本的间隔子序列与RNA分子的所述靶序列结合。在一些实施方案中，本公开文本的间隔子序列与致病性靶RNA结合。

在本公开文本的组合物的一些实施方案中，包含所述gRNA的序列还包含与所述靶RNA序列特异性结合的间隔子序列。在一些实施方案中，所述间隔子序列与所述靶RNA序列具有至少50％、55％、60％、65％、70％、75％、80％、87％、90％、95％、97％、99％或其间的任何百分比的互补性。在一些实施方案中，所述间隔子序列与所述靶RNA序列具有100％互补性。在一些实施方案中，所述间隔子序列包含20个核苷酸或由其组成。在一些实施方案中，所述间隔子序列包含21个核苷酸、22个核苷酸、23个核苷酸、24个核苷酸、25个核苷酸、26个核苷酸、27个核苷酸、28个核苷酸、或29个核苷酸或由其组成。在一些实施方案中，所述间隔子序列包含26个核苷酸或由其组成。在一些实施方案中，所述间隔子序列是未经加工的并且包含30个核苷酸或由其组成。在一些实施方案中，未经加工的间隔子序列包含30-36个核苷酸或由其组成。

本公开文本的DR序列结合本公开文本的Cas多肽。在gRNA的间隔子序列与靶RNA序列结合后，与gRNA的DR序列结合的Cas蛋白定位于靶RNA序列上。与其同源Cas蛋白或其核酸具有足够互补性的DR序列选择性地结合Cas蛋白的靶核酸序列，并且与所述序列具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、96、97％、98％，99％或其间的任何百分比的同一性。在一些实施方案中，具有足够互补性的序列具有100％同一性。在一些实施方案中，本公开文本的DR序列包含二级结构或三级结构。示例性二级结构包括但不限于螺旋、茎环、凸起、四环和假结。示例性三级结构包括但不限于螺旋的A形式、螺旋的B形式和螺旋的Z形式。示例性三级结构包括但不限于扭曲的或螺旋化的茎环。示例性三级结构包括但不限于扭曲的或螺旋化的假结。在一些实施方案中，本公开文本的DR序列包含至少一个二级结构或至少一个三级结构。在一些实施方案中，本公开文本的DR序列包含一个或多个二级结构或者一个或多个三级结构。

在本公开文本的组合物的一些实施方案中，指导RNA或其部分与本公开文本的RNA分子中的四环基序选择性结合。在一些实施方案中，RNA分子的靶序列包含四环基序。在一些实施方案中，四环基序是“GRNA”基序，所述基序包含GAAA、GUGA、GCAA或GAGA的序列中的一种或多种或由其组成。

在本公开文本的组合物的一些实施方案中，与RNA分子的靶序列结合的指导RNA或其部分与所述RNA分子的靶序列杂交。在一些实施方案中，与第一RNA结合蛋白或与第二RNA结合蛋白结合的指导RNA或其部分与第一RNA结合蛋白或与第二RNA结合蛋白共价结合。在一些实施方案中，与第一RNA结合蛋白或与第二RNA结合蛋白结合的指导RNA或其部分与第一RNA结合蛋白或与第二RNA结合蛋白非共价结合。

在本公开文本的组合物的一些实施方案中，指导RNA或其部分包含在10个与100个之间的核苷酸(包括端点)或由所述核苷酸组成。在一些实施方案中，本公开文本的间隔子序列包含在10个与30个之间的核苷酸(包括端点)或由其组成。在一些实施方案中，本公开文本的间隔子序列包含15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个核苷酸或由其组成。在一些实施方案中，本公开文本的间隔子序列包含20个核苷酸或由其组成。在一些实施方案中，本公开文本的间隔子序列包含21个核苷酸或由其组成。在一些实施方案中，本公开文本的间隔子序列包含26个核苷酸或由其组成。

指导分子通常以各种加工状态存在。在一个例子中，未经加工的指导RNA是36nt的DR，然后是30-32nt的间隔子。通过Cas l3d本身或其他RNA酶将指导RNA加工成更短的“成熟”形式。在一些实施方案中，未经加工的指导序列的长度是约或至少约30、35、40、45、50、55、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75或更多个核苷酸(nt)。在一些实施方案中，经加工的指导序列是约44至60nt(如40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69或70nt)。在一些实施方案中，未经加工的间隔子是约28-32nt长(如25、26、27、28、29、30、31、32、33、34或35nt)，而成熟的(经加工的)间隔子可以是约10至30nt、10至25nt、14至25nt、20至22nt或14-30nt(如10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34或35nt)。在一些实施方案中，未经加工的DR是约36nt(如30、31、32、33、34、35、36、37、38、39、40或41nt)，而经加工的DR是约30nt(如25、26、27、28、29、30、31、32、33、34或35nt)。在一些实施方案中，DR序列在例如5’端被截短1-10个核苷酸(如1、2、3、4、5、6、7、8、9至10个核苷酸)以被表达为成熟的加工前指导RNA。

在本公开文本的组合物的一些实施方案中，指导RNA或其部分不包含核定位序列(NLS)。

在本公开文本的组合物的一些实施方案中，指导RNA或其部分包含与原间隔子侧翼序列(PFS)互补的序列。在一些实施方案(包括其中指导RNA或其部分包含与PFS互补的序列的那些实施方案)中，第一RNA结合蛋白可以包含从Cas13蛋白分离或衍生的序列。在一些实施方案(包括其中指导RNA或其部分包含与PFS互补的序列的那些实施方案)中，第一RNA结合蛋白可以包含编码Cas13蛋白或其RNA结合部分的序列。在一些实施方案中，所述指导RNA或其部分不包含与PFS互补的序列。

在本公开文本的组合物的一些实施方案中，本公开文本的指导RNA序列包含用于驱动指导RNA的表达的启动子序列。在一些实施方案中，包含本公开文本的指导RNA序列的载体包含用于驱动指导RNA的表达的启动子序列。在一些实施方案中，用于驱动指导RNA的表达的启动子是组成型启动子。在一些实施方案中，所述启动子序列是诱导型启动子。在一些实施方案中，所述启动子是作为组织特异性和/或细胞类型特异性启动子的序列。在一些实施方案中，所述启动子是杂合启动子或重组启动子。在一些实施方案中，所述启动子是能够在哺乳动物细胞中表达指导RNA的启动子。在一些实施方案中，所述启动子是能够在人细胞中表达指导RNA的启动子。在一些实施方案中，所述启动子是能够表达指导RNA并将指导RNA限制于细胞核的启动子。在一些实施方案中，所述启动子是人RNA聚合酶启动子或从编码人RNA聚合酶启动子的序列分离或衍生的序列。在一些实施方案中，所述启动子是U6启动子或从编码U6启动子的序列分离或衍生的序列。在一些实施方案中，所述U6启动子是人U6启动子。在一些实施方案中，所述启动子是人tRNA启动子或从编码人tRNA启动子的序列分离或衍生的序列。在一些实施方案中，所述启动子是人缬氨酸tRNA启动子或从编码人缬氨酸tRNA启动子的序列分离或衍生的序列。

在本公开文本的组合物的一些实施方案中，用于驱动指导RNA的表达的启动子还包含调节元件。在一些实施方案中，包含用于驱动指导RNA的表达的启动子序列的载体还包含调节元件。在一些实施方案中，调节元件增强指导RNA的表达。示例性调节元件包括但不限于增强子元件、内含子、外显子或其组合。

在本公开文本的组合物的一些实施方案中，本公开文本的载体包含编码指导RNA的序列、用于驱动指导RNA的表达的启动子序列和编码调节元件的序列中的一种或多种。在本公开文本的组合物的一些实施方案中，所述载体还包含编码本公开文本的融合蛋白的序列。

RNA指导的RNA结合蛋白

在本公开文本的组合物的一些实施方案中，gRNA对应于靶RNA分子和RNA指导的RNA结合蛋白。在一些实施方案中，gRNA对应于RNA指导的RNA结合融合蛋白，其中所述融合蛋白包含第一RNA结合蛋白和第二RNA结合蛋白。在一些实施方案中，融合蛋白中的第一RNA结合蛋白是失活的RNA结合蛋白，例如失活的Cas或无催化活性的Cas蛋白。在一些实施方案中，沿着编码RNA结合融合蛋白的序列，编码第一RNA结合蛋白的序列定位于编码第二RNA结合蛋白的序列的5’。在一些实施方案中，沿着编码融合蛋白的序列，编码第一RNA结合蛋白的序列定位于编码第二RNA结合蛋白的序列的3’。

在本公开文本的组合物的一些实施方案中，编码第一RNA结合蛋白的序列包含从蛋白质分离或衍生的序列，所述蛋白质能够结合RNA分子。在一些实施方案中，编码第一RNA结合蛋白的序列包含从蛋白质分离或衍生的序列，所述蛋白质能够选择性结合RNA分子，并且不结合DNA分子、哺乳动物DNA分子或任何DNA分子。在一些实施方案中，编码第一RNA结合蛋白的序列包含从蛋白质分离或衍生的序列，所述蛋白质能够结合RNA分子，并且诱导所述RNA分子中的断裂。在一些实施方案中，编码第一RNA结合蛋白的序列包含从蛋白质分离或衍生的序列，所述蛋白质能够结合RNA分子，诱导所述RNA分子中的断裂，并且不结合DNA分子、哺乳动物DNA分子或任何DNA分子。在一些实施方案中，编码第一RNA结合蛋白的序列包含从蛋白质分离或衍生的序列，所述蛋白质能够结合RNA分子，诱导所述RNA分子中的断裂，并且既不结合DNA分子、哺乳动物DNA分子或任何DNA分子，也不诱导所述DNA分子中的断裂。

在本公开文本的组合物的一些实施方案中，编码第一RNA指导的RNA结合蛋白的序列包含从没有DNA核酸酶活性的蛋白质分离或衍生的序列。

在本公开文本的组合物的一些实施方案中，编码本文公开的RNA指导的RNA结合蛋白的序列包含从CRISPR Cas蛋白分离或衍生的序列。在一些实施方案中，CRISPR Cas蛋白不是II型CRISPR Cas蛋白。在一些实施方案中，CRISPR Cas蛋白不是Cas9蛋白。

在本公开文本的组合物的一些实施方案中，编码RNA指导的RNA结合蛋白的序列包含VI型CRISPR Cas蛋白或其部分。在一些实施方案中，所述VI型CRISPR Cas蛋白包含Cas13蛋白或其部分。本公开文本的示例性Cas13蛋白可以从任何物种分离或衍生，所述物种包括但不限于细菌或古生菌。本公开文本的示例性Cas13蛋白可以从任何物种分离或衍生，所述物种包括但不限于韦德纤毛菌(Leptotrichia wadei)、西尔李斯特菌血清变型(Listeriaseeligeri serovar)1/2b(菌株ATCC 35967/DSM 20751/CIP 100100/SLCC 3954)、毛螺科细菌、嗜氨基梭菌(Clostridium aminophilum)DSM 10710、鸡肉杆菌(Carnobacteriumgallinarum)DSM 4847、产丙酸沼杆菌(Paludibacter propionicigenes)WB4、韦氏李斯特菌(Listeria weihenstephanensis)FSL R9-0317、韦氏李斯特菌FSL R9-0317、细菌FSLM6-0635(纽约李斯特菌(Listeria newyorkensis))、韦德纤毛菌F0279、荚膜红细菌(Rhodobacter capsulatus)SB 1003、荚膜红细菌R121、荚膜红细菌DE442和溃疡棒状杆菌(Corynebacterium ulcerans)。本公开文本的示例性Cas13蛋白可以是DNA核酸酶失活的。本公开文本的示例性Cas13蛋白包括但不限于Cas13a、Cas13b、Cas13c、Cas13d及其直向同源物。本公开文本的示例性Cas13b蛋白包括但不限于亚型1和2，在本文中分别称为Csx27和Csx28。

示例性Cas13a蛋白包括但不限于：

本公开文本的示例性野生型Cas13a蛋白可以包含SEQ ID NO:408的氨基酸序列或由其组成。

示例性Cas13b蛋白包括但不限于：

本公开文本的示例性野生型动物溃疡伯格菌ATCC 43767Cas13b(BzCas13b)蛋白可以包含SEQ ID NO:409的氨基酸序列或由其组成。

在本公开文本的组合物的一些实施方案中，编码RNA结合蛋白的序列包含从Cas13d蛋白分离或衍生的序列。Cas13d是VI-D型CRISPR-Cas系统的效应子。在一些实施方案中，Cas13d蛋白是可以切割或结合RNA的RNA指导的RNA核酸内切酶。在一些实施方案中，Cas13d蛋白可以包含一个或多个高等真核生物和原核生物核苷酸结合(HEPN)结构域。在一些实施方案中，Cas13d蛋白可以包含野生型或突变的HEPN结构域。在一些实施方案中，Cas13d蛋白包含无法切割RNA但可以加工指导RNA的突变的HEPN结构域。在一些实施方案中，Cas13d蛋白不需要原间隔子侧翼序列。在没有限制的情况下，关于Cas13d蛋白的其他例子和序列还参见WO公开号WO2019/040664和US2019/0062724，将其通过引用以其整体并入本文。

在一些实施方案中，本公开文本的Cas13d序列包括但不限于WO 2019/040664的SEQ ID NO:1-296，在本文中也是如此编号的并且如此包含在本文内。

SEQ ID NO:1是来自惰性真杆菌(Eubacterium siraeum)的含有HEPN位点的示例性Cas13d序列。

SEQ ID NO:2是来自惰性真杆菌的含有突变的HEPN位点的示例性Cas13d序列。

SEQ ID NO:3是来自未培养的瘤胃球菌属属物种(Ruminococcus sp.)的含有HEPN位点的示例性Cas13d序列。

SEQ ID NO:4是来自未培养的瘤胃球菌属物种的含有突变的HEPN位点的示例性Cas13d序列。

SEQ ID NO:5是来自肠道_宏基因组_重叠群2791000549的示例性Cas13d序列。

SEQ ID NO:6是来自肠道_宏基因组_重叠群855000317的示例性Cas13d序列。

SEQ ID NO:7是来自肠道_宏基因组_重叠群3389000027的示例性Cas13d序列。

SEQ ID NO:8是来自肠道_宏基因组_重叠群8061000170的示例性Cas13d序列。

SEQ ID NO:9是来自肠道_宏基因组_重叠群l509000299的示例性Cas13d序列。

SEQ ID NO:10是来自肠道_宏基因组_重叠群9549000591的示例性Cas13d序列。

SEQ ID NO:11是来自肠道_宏基因组_重叠群71000500的示例性Cas13d序列。

SEQ ID NO:12是来自人肠道宏基因组的示例性Cas13d序列。

SEQ ID NO:13是来自肠道_宏基因组_重叠群3915000357的示例性Cas13d序列。

SEQ ID NO:14是来自肠道_宏基因组_重叠群4719000173的示例性Cas13d序列。

SEQ ID NO:15是来自肠道_宏基因组_重叠群6929000468的示例性Cas13d序列。

SEQ ID NO:16是来自肠道_宏基因组_重叠群7367000486的示例性Cas13d序列。

SEQ ID NO:17是来自肠道_宏基因组_重叠群7930000403的示例性Cas13d序列。

SEQ ID NO:18是来自肠道_宏基因组_重叠群993000527的示例性Cas13d序列。

SEQ ID NO:19是来自肠道_宏基因组_重叠群6552000639的示例性Cas13d序列。

SEQ ID NO:20是来自肠道_宏基因组_重叠群ll932000246的示例性Cas13d序列。

SEQ ID NO:21是来自肠道_宏基因组_重叠群l2963000286的示例性Cas13d序列。

SEQ ID NO:22是来自肠道_宏基因组_重叠群2952000470的示例性Cas13d序列。

SEQ ID NO:23是来自肠道_宏基因组_重叠群451000394的示例性Cas13d序列。

SEQ ID NO:24是来自惰性真杆菌_DSM_l5702的示例性Cas13d序列。

SEQ ID NO:25是来自肠道_宏基因组_P19E0k2120140920,_c369000003的示例性Cas13d序列。

SEQ ID NO:26是来自肠道_宏基因组_重叠群7593000362的示例性Cas13d序列。

SEQ ID NO:27是来自肠道_宏基因组_重叠群l2619000055的示例性Cas13d序列。

SEQ ID NO:28是来自肠道_宏基因组_重叠群l405000151的示例性Cas13d序列。

SEQ ID NO:29是来自鸡_肠道_宏基因组_c298474的示例性Cas13d序列。

SEQ ID NO:30是来自肠道_宏基因组_重叠群l516000227的示例性Cas13d序列。

SEQ ID NO:31是来自肠道_宏基因组_重叠群l838000319的示例性Cas13d序列。

SEQ ID NO:32是来自肠道_宏基因组_重叠群13123000268的示例性Cas13d序列。

SEQ ID NO:33是来自肠道_宏基因组_重叠群5294000434的示例性Cas13d序列。

SEQ ID NO:34是来自肠道_宏基因组_重叠群6415000192的示例性Cas13d序列。

SEQ ID NO:35是来自肠道_宏基因组_重叠群6144000300的示例性Cas13d序列。

SEQ ID NO:36是来自肠道_宏基因组_重叠群9118000041的示例性Cas13d序列。

SEQ ID NO:37是来自活性_污泥_宏基因组_转录物_124486的示例性Cas13d序列。

SEQ ID NO:38是来自肠道_宏基因组_重叠群1322000437的示例性Cas13d序列。

SEQ ID NO:39是来自肠道_宏基因组_重叠群4582000531的示例性Cas13d序列。

SEQ ID NO:40是来自肠道_宏基因组_重叠群9190000283的示例性Cas13d序列。

SEQ ID NO:41是来自肠道_宏基因组_重叠群l709000510的示例性Cas13d序列。

SEQ ID NO:42是来自M24_(LSQX01212483_厌氧_消化器_宏基因组)的具有HEPN结构域的示例性Cas13d序列。

SEQ ID NO:43是来自肠道_宏基因组_重叠群3833000494的示例性Cas13d序列。

SEQ ID NO:44是来自活性_污泥_宏基因组_转录物_117355的示例性Cas13d序列。

SEQ ID NO:45是来自肠道_宏基因组_重叠群ll061000330的示例性Cas13d序列。

SEQ ID NO:46是来自绵羊肠道宏基因组的肠道_宏基因组_重叠群338000322的示例性Cas13d序列。

SEQ ID NO:47是来自人肠道宏基因组的示例性Cas13d序列。

SEQ ID NO:48是来自肠道_宏基因组_重叠群9530000097的示例性Cas13d序列。

SEQ ID NO:49是来自肠道_宏基因组_重叠群l750000258的示例性Cas13d序列。

SEQ ID NO:50是来自肠道_宏基因组_重叠群5377000274的示例性Cas13d序列。

SEQ ID NO:51是来自肠道_宏基因组_P19E0k2120140920_c248000089的示例性Cas13d序列。

SEQ ID NO:52是来自肠道_宏基因组_重叠群ll400000031的示例性Cas13d序列。

SEQ ID NO:53是来自肠道_宏基因组_重叠群7940000191的示例性Cas13d序列。

SEQ ID NO:54是来自肠道_宏基因组_重叠群6049000251的示例性Cas13d序列。

SEQ ID NO:55是来自肠道_宏基因组_重叠群l137000500的示例性Cas13d序列。

SEQ ID NO:56是来自肠道_宏基因组_重叠群9368000105的示例性Cas13d序列。

SEQ ID NO:57是来自肠道_宏基因组_重叠群546000275的示例性Cas13d序列。

SEQ ID NO:58是来自肠道_宏基因组_重叠群7216000573的示例性Cas13d序列。

SEQ ID NO:59是来自肠道_宏基因组_重叠群4806000409的示例性Cas13d序列。

SEQ ID NO:60是来自肠道_宏基因组_重叠群l0762000480的示例性Cas13d序列。

SEQ ID NO:61是来自肠道_宏基因组_重叠群4114000374的示例性Cas13d序列。

SEQ ID NO:62是来自生黄瘤胃球菌(Ruminococcus_flavefaciens)_FD1的示例性Cas13d序列。

SEQ ID NO:63是来自肠道_宏基因组_重叠群7093000170的示例性Cas13d序列。

SEQ ID NO:64是来自肠道_宏基因组_重叠群l1113000384的示例性Cas13d序列。

SEQ ID NO:65是来自肠道_宏基因组_重叠群6403000259的示例性Cas13d序列。

SEQ ID NO:66是来自肠道_宏基因组_重叠群6193000124的示例性Cas13d序列。

SEQ ID NO:67是来自肠道_宏基因组_重叠群721000619的示例性Cas13d序列。

SEQ ID NO:68是来自肠道_宏基因组_重叠群l666000270的示例性Cas13d序列。

SEQ ID NO:69是来自肠道_宏基因组_重叠群2002000411的示例性Cas13d序列。

SEQ ID NO:70是来自白色瘤胃球菌(Ruminococcus albus)的示例性Cas13d序列。

SEQ ID NO:71是来自肠道_宏基因组_重叠群13552000311的示例性Cas13d序列。

SEQ ID NO:72是来自肠道_宏基因组_重叠群l0037000527的示例性Cas13d序列。

SEQ ID NO:73是来自肠道_宏基因组_重叠群238000329的示例性Cas13d序列。

SEQ ID NO:74是来自肠道_宏基因组_重叠群2643000492的示例性Cas13d序列。

SEQ ID NO:75是来自肠道_宏基因组_重叠群874000057的示例性Cas13d序列。

SEQ ID NO:76是来自肠道_宏基因组_重叠群4781000489的示例性Cas13d序列。

SEQ ID NO:77是来自肠道_宏基因组_重叠群l2144000352的示例性Cas13d序列。

SEQ ID NO:78是来自肠道_宏基因组_重叠群5590000448的示例性Cas13d序列。

SEQ ID NO:79是来自肠道_宏基因组_重叠群9269000031的示例性Cas13d序列。

SEQ ID NO:80是来自肠道_宏基因组_重叠群8537000520的示例性Cas13d序列。

SEQ ID NO:81是来自肠道_宏基因组_重叠群l845000130的示例性Cas13d序列。

SEQ ID NO:82是来自肠道_宏基因组_P13E0k2l20140920_c3000072的示例性Cas13d序列。

SEQ ID NO:83是来自肠道_宏基因组_P1 E0k2l20140920_c I000078的示例性Cas13d序列。

SEQ ID NO:84是来自肠道_宏基因组_重叠群l2990000099的示例性Cas13d序列。

SEQ ID NO:85是来自肠道_宏基因组_重叠群525000349的示例性Cas13d序列。

SEQ ID NO:86是来自肠道_宏基因组_重叠群7229000302的示例性Cas13d序列。

SEQ ID NO:87是来自肠道_宏基因组_重叠群3227000343的示例性Cas13d序列。

SEQ ID NO:88是来自肠道_宏基因组_重叠群7030000469的示例性Cas13d序列。

SEQ ID NO:89是来自肠道_宏基因组_重叠群5149000068的示例性Cas13d序列。

SEQ ID NO:90是来自肠道_宏基因组_重叠群400200045的示例性Cas13d序列。

SEQ ID NO:91是来自肠道_宏基因组_重叠群l0420000446的示例性Cas13d序列。

SEQ ID NO:92是来自新_生黄瘤胃球菌(flavefaciens)_菌株_XPD3002的示例性Cas13d序列(CasRx)。

SEQ ID NO:93是来自M26_肠道_宏基因组_重叠群698000307的示例性Cas13d序列。

SEQ ID NO:94是来自M36_未培养的_真杆菌属物种(Eubacterium_sp)_TS28_c40956的示例性Cas13d序列。

SEQ ID NO:95是来自M12_肠道_宏基因组_P25C0k2l20140920_c134000066的示例性Cas13d序列。

SEQ ID NO:96是来自人肠道宏基因组的示例性Cas13d序列。

SEQ ID NO:97是来自MlO_肠道_宏基因组_P25C90k2120 l 40920_c2800004l的示例性Cas13d序列。

SEQ ID NO:98是来自30Ml I_肠道_宏基因组_P25C7k2120140920_c4078000105的示例性Cas13d序列。

SEQ ID NO:99是来自肠道_宏基因组_P25C0k2120l40920_c32000045的示例性Cas13d序列。

SEQ ID NO:100是来自M13_肠道_宏基因组_P23C7k2l20140920_c3000067的示例性Cas13d序列。

SEQ ID NO:101是来自M5_肠道_宏基因组_Pl8E90k2120140920的示例性Cas13d序列。

SEQ ID NO:102是来自M2l_肠道_宏基因组_Pl8E0k2120140920的示例性Cas13d序列。

SEQ ID NO:103是来自M7_肠道_宏基因组_P38C7k2120 l 40920_c484 l000003的示例性Cas13d序列。

SEQ ID NO:104是来自双环瘤胃球菌(Ruminococcus_bicirculans)的示例性Cas13d序列。

SEQ ID NO:105是示例性Cas13d序列。

SEQ ID NO:106是示例性Cas13d共有序列。

SEQ ID NO:107是来自M18_肠道_宏基因组_P22EOk2l20140920_c3395000078的示例性Cas13d序列。

SEQ ID NO:108是来自M17_肠道_宏基因组_P22E90k2120140920_c114的示例性Cas13d序列。

SEQ ID NO:109是来自瘤胃球菌属_物种_CAG57的示例性Cas13d序列。

SEQ ID NO:110是来自肠道_宏基因组_Pl 1E90k2120 l 40920_c43000123的示例性Cas13d序列。

SEQ ID NO:111是来自M6_肠道_宏基因组_P13E90k2120 l 40920_c7000009的示例性Cas13d序列。

SEQ ID NO:112是来自Ml9_肠道_宏基因组_Pl 7E90k2120140920的示例性Cas13d序列。

SEQ ID NO:113是来自肠道_宏基因组_Pl7E0k2120l40920,_c87000043的示例性Cas13d序列。

SEQ ID NO:114是示例性人密码子优化的惰性真杆菌(Eubacterium siraeum)Cas13d核酸序列。

SEQ ID NO:115是具有突变型HEPN结构域的示例性人密码子优化的惰性真杆菌Cas13d核酸序列。

SEQ ID NO:116是具有N末端NLS的示例性人密码子优化的惰性真杆菌Cas13d核酸序列。

SEQ ID NO:117是具有N末端和C末端NLS标签的示例性人密码子优化的惰性真杆菌Cas13d核酸序列。

SEQ ID NO:118是示例性人密码子优化的未培养的瘤胃球菌属物种Cas13d 30核酸序列。

SEQ ID NO:119是具有突变型HEPN结构域的示例性人密码子优化的未培养的瘤胃球菌属物种Cas13d核酸序列。

SEQ ID NO:120是具有N末端NLS的示例性人密码子优化的未培养的瘤胃球菌属物种Cas13d核酸序列。

SEQ ID NO:121是具有N末端和C末端NLS标签的示例性人密码子优化的未培养的瘤胃球菌属物种Cas13d核酸序列。

SEQ ID NO:122是示例性人密码子优化的未培养的生黄瘤胃球菌FDl Cas13d核酸序列。

SEQ ID NO:123是具有突变的HEPN结构域的示例性人密码子优化的未培养的生黄瘤胃球菌FDl Casl3d核酸序列。

SEQ ID NO:124是来自双环瘤胃球菌的示例性Cas13d核酸序列。

SEQ ID NO:125是来自惰性真杆菌的示例性Cas13d核酸序列。

SEQ ID NO:126是来自生黄瘤胃球菌FD1的示例性Cas13d核酸序列。

SEQ ID NO:127是来自白色瘤胃球菌的示例性Cas13d核酸序列。

SEQ ID NO:128是来自生黄瘤胃球菌XPD的示例性Cas13d核酸序列。

SEQ ID NO:129是惰性真杆菌(E.siraeum)Cas13d的示例性共有DR核酸序列。

SEQ ID NO:130是瘤胃球菌属物种(Rum.Sp.)Cas13d的示例性共有DR核酸序列。

SEQ ID NO:131是生黄瘤胃球菌(Rum.Flavefaciens)菌株XPD3002 Cas13d(CasRx)的示例性共有DR核酸序列。

SEQ ID NO:132-137是示例性共有DR核酸序列。

SEQ ID NO:138是七个全长Cas13d直向同源物的示例性50％共有序列。

SEQ ID NO:139是来自肠道宏基因组PlEO的示例性Cas13d核酸序列。

SEQ ID NO:140是来自厌氧消化器的示例性Cas13d核酸序列。

SEQ ID NO:141是来自瘤胃球菌属物种CAG:57的示例性Cas13d核酸序列。

SEQ ID NO:142是示例性人密码子优化的未培养的肠道宏基因组PlEO Cas13d核酸序列。

SEQ ID NO:143是示例性人密码子优化的厌氧消化器Cas13d核酸序列。

SEQ ID NO:144是示例性人密码子优化的生黄瘤胃球菌XPD Cas13d核酸序列。

SEQ ID NO:145是示例性人密码子优化的白色瘤胃球菌Cas13d核酸序列。

SEQ ID NO:146是瘤胃球菌属物种CAG:57CRISPR阵列的示例性加工。

SEQ ID NO:147是来自重叠群emb|OBVH01003037.l，人肠道宏基因组序列(也发现于WGS重叠群emb|OBXZ01000094.l|和emb|OBJFO1000033.1)的示例性Cas13d蛋白序列。

SEQ ID NO:148是示例性共有DR核酸序列(与SEQ ID NO:147一起)。

SEQ ID NO:149是来自重叠群tpg|DBYI01000091.l|(从牛肠道宏基因组组装的未培育的生黄瘤胃球菌UBA1190)的示例性Cas13d蛋白序列。

SEQ ID NO:150-152是示例性共有DR核酸序列(与SEQ ID NO:149一起)。

SEQ ID NO:153是来自重叠群tpg|DJXD01000002.l|(未培育的瘤胃球菌组装，UBA7013，来自绵羊肠道宏基因组)的示例性Cas13d蛋白序列。

SEQ ID NO:154是示例性共有DR核酸序列(与SEQ ID NO:153一起)。

SEQ ID NO:155是来自重叠群OGZC01000639.l(人肠道宏基因组组装)的示例性Cas13d蛋白序列。

SEQ ID NO:156-177是示例性共有DR核酸序列(与SEQ ID NO:155一起)。

SEQ ID NO:158是来自重叠群emb|OHBM01000764.l(人肠道宏基因组组装)的示例性Cas13d蛋白序列。

SEQ ID NO:159是示例性共有DR核酸序列(与SEQ ID NO:158一起)。

SEQ ID NO:160是来自重叠群emb|0HCP01000044.l(人肠道宏基因组组装)的示例性Cas13d蛋白序列。

SEQ ID NO:161是示例性共有DR核酸序列(与SEQ ID NO:160一起)。

SEQ ID NO:162是来自重叠群embl0GDF01008514.l|(人肠道宏基因组组装)的示例性Cas13d蛋白序列。

SEQ ID NO:163是示例性共有DR核酸序列(与SEQ ID NO:162一起)。

SEQ ID NO:164是来自重叠群emb|0GPN01002610.l(人肠道宏基因组组装)的示例性Cas13d蛋白序列。

SEQ ID NO:165是示例性共有DR核酸序列(与SEQ ID NO:164一起)。

SEQ ID NO:166是来自重叠群NFIR01000008.l(真杆菌属物种An3，来自鸡肠道宏基因组)的示例性Cas13d蛋白序列。

SEQ ID NO:167是示例性共有DR核酸序列(与SEQ ID NO:166一起)。

SEQ ID NO:168是来自重叠群NFLV01000009.l(来自鸡肠道宏基因组的真杆菌属物种An11)的示例性Cas13d蛋白序列。

SEQ ID NO:169是示例性共有DR核酸序列(与SEQ ID NO:168一起)。

SEQ ID NO:171-174是示例性Cas13d基序序列。

SEQ ID NO:175是来自重叠群OJMM01002900人肠道宏基因组序列的示例性Cas13d蛋白序列。

SEQ ID NO:176是示例性共有DR核酸序列(与SEQ ID NO:175一起)。

SEQ ID NO:177是来自重叠群ODAI011611274.l肠道宏基因组序列的示例性Cas13d蛋白序列。

SEQ ID NO:178是示例性共有DR核酸序列(与SEQ ID NO:177一起)。

SEQ ID NO:179是来自重叠群OIZX01000427.l的示例性Cas13d蛋白序列。

SEQ ID NO:180是示例性共有DR核酸序列(与SEQ ID NO:179一起)。

SEQ ID NO:181是来自重叠群emb|OCVV012889144.l|的示例性Cas13d蛋白序列。

SEQ ID NO:182是示例性共有DR核酸序列(与SEQ ID NO:181一起)。

SEQ ID NO:183是来自重叠群OCTW011587266.l的示例性Cas13d蛋白序列。

SEQ ID NO:184是示例性共有DR核酸序列(与SEQ ID NO:183一起)。

SEQ ID NO:185是来自重叠群emb|OGNFO 1009141.1的示例性Cas13d蛋白序列。

SEQ ID NO:186是示例性共有DR核酸序列(与SEQ ID NO:185一起)。

SEQ ID NO:187是来自重叠群emb|OIEN01002l96.l的示例性Cas13d蛋白序列。

SEQ ID NO:188是示例性共有DR核酸序列(与SEQ ID NO:187一起)。

SEQ ID NO:189是来自重叠群e-k87_11092736的示例性Cas13d蛋白序列。

SEQ ID NO:190-193是示例性共有DR核酸序列(与SEQ ID NO:189一起)。

SEQ ID NO:194是来自肠道_宏基因组_重叠群6893000291的示例性Cas13d序列。

SEQ ID NO:195-197是示例性Cas13d基序序列。

SEQ ID NO:198是来自Ga0224415_10007274的示例性Cas13d蛋白序列。

SEQ ID NO:199是示例性共有DR核酸序列(与SEQ ID NO:198一起)。

SEQ ID NO:200是来自EMG_l0003641的示例性Cas13d蛋白序列。

SEQ ID NO:202是来自Ga0129306_1000735的示例性Cas13d蛋白序列。

SEQ ID NO:201是示例性共有DR核酸序列(与SEQ ID NO:200一起)。

SEQ ID NO:202是来自Ga0129306_1000735的示例性Cas13d蛋白序列。

SEQ ID NO:203是示例性共有DR核酸序列(与SEQ ID NO:203一起)。

SEQ ID NO:204是来自GaO129317_l 008067的示例性Cas13d蛋白序列。

SEQ ID NO:205是示例性共有DR核酸序列(与SEQ ID NO:204一起)。

SEQ ID NO:206是来自Ga0224415_10048792的示例性Cas13d蛋白序列。

SEQ ID NO:207是示例性共有DR核酸序列(与SEQ ID NO:206一起)。

SEQ ID NO:208是来自160582958_基因49834的示例性Cas13d蛋白序列。

SEQ ID NO:209是示例性共有DR核酸序列(与SEQ ID NO:208一起)。

SEQ ID NO:210是来自250twins_35838_GL0110300的示例性Cas13d蛋白序列。

SEQ ID NO:211是示例性共有DR核酸序列(与SEQ ID NO:210一起)。

SEQ ID NO:212是来自250twins_36050_GLOI58985的示例性Cas13d蛋白序列。

SEQ ID NO:213是示例性共有DR核酸序列(与SEQ ID NO:212一起)。

SEQ ID NO:214是来自31009_GL0034153的示例性Cas13d蛋白序列。

SEQ ID NO:215是示例性共有DR核酸序列(与SEQ ID NO:214一起)。

SEQ ID NO:216是来自530373_GL0023589的示例性Cas13d蛋白序列。

SEQ ID NO:217是示例性共有DR核酸序列(与SEQ ID NO:216一起)。

SEQ ID NO:218是来自BMZ-l 1B_GL0037771的示例性Cas13d蛋白序列。

SEQ ID NO:219是示例性共有DR核酸序列(与SEQ ID NO:218一起)。

SEQ ID NO:220是来自BMZ-l 1B_GL0037915的示例性Cas13d蛋白序列。

SEQ ID NO:221是示例性共有DR核酸序列(与SEQ ID NO:220一起)。

SEQ ID NO:222是来自BMZ-l 1B_GL00696 l 7的示例性Cas13d蛋白序列。

SEQ ID NO:223是示例性共有DR核酸序列(与SEQ ID NO:222一起)。

SEQ ID NO:224是来自DLF014_GL0011914的示例性Cas13d蛋白序列。

SEQ ID NO:225是示例性共有DR核酸序列(与SEQ ID NO:224一起)。

SEQ ID NO:226是来自EYZ-362B_GL0088915的示例性Cas13d蛋白序列。

SEQ ID NO:227-228是示例性共有DR核酸序列(与SEQ ID NO:226一起)。

SEQ ID NO:229是来自Ga0099364 10024192的示例性Cas13d蛋白序列。

SEQ ID NO:230是示例性共有DR核酸序列(与SEQ ID NO:229一起)。

SEQ ID NO:231是来自Ga0187910_10006931的示例性Cas13d蛋白序列。

SEQ ID NO:232是示例性共有DR核酸序列(与SEQ ID NO:231一起)。

SEQ ID NO:233是来自Ga0187910_10015336的示例性Cas13d蛋白序列。

SEQ ID NO:234是示例性共有DR核酸序列(与SEQ ID NO:233一起)。

SEQ ID NO:235是来自Ga0187910_10040531的示例性Cas13d蛋白序列。

SEQ ID NO:236是示例性共有DR核酸序列(与SEQ ID NO:23一起)。

SEQ ID NO:237是来自Ga0187911_10069260的示例性Cas13d蛋白序列。

SEQ ID NO:238是示例性共有DR核酸序列(与SEQ ID NO:237一起)。

SEQ ID NO:239是来自MH0288_GL0082219的示例性Cas13d蛋白序列。

SEQ ID NO:240是示例性共有DR核酸序列(与SEQ ID NO:239一起)。

SEQ ID NO:241是来自O2.UC29-0_GL0096317的示例性Cas13d蛋白序列。

SEQ ID NO:242是示例性共有DR核酸序列(与SEQ ID NO:241一起)。

SEQ ID NO:243是来自PIG-014_GL0226364的示例性Cas13d蛋白序列。

SEQ ID NO:244是示例性共有DR核酸序列(与SEQ ID NO:243一起)。

SEQ ID NO:245是来自PIG-018_GL0023397的示例性Cas13d蛋白序列。

SEQ ID NO:246是示例性共有DR核酸序列(与SEQ ID NO:245一起)。

SEQ ID NO:247是来自PIG-025_GL0099734的示例性Cas13d蛋白序列。

SEQ ID NO:248是示例性共有DR核酸序列(与SEQ ID NO:247一起)。

SEQ ID NO:249是来自PIG-028_GL0185479的示例性Cas13d蛋白序列。

SEQ ID NO:250是示例性共有DR核酸序列(与SEQ ID NO:249一起)。

SEQ ID NO:251是来自Ga0224422_10645759的示例性Cas13d蛋白序列。

SEQ ID NO:252是示例性共有DR核酸序列(与SEQ ID NO:251一起)。

SEQ ID NO:253是来自ODAI嵌合体的示例性Cas13d蛋白序列。

SEQ ID NO:254是示例性共有DR核酸序列(与SEQ ID NO:253一起)。

SEQ ID NO:255是HEPN基序。

SEQ ID NO:256和257分别是示例性Cas13d核定位信号氨基酸序列和核酸序列。

SEQ ID NO:258和260分别是示例性SV40大T抗原核定位信号氨基酸序列和核酸序列。

SEQ ID NO:259是dCas9靶序列。

SEQ ID NO:261是靶向ccdB的人工惰性真杆菌nCasl阵列。

SEQ ID NO:262是完整的36nt同向重复。

SEQ ID NO:263-266是间隔子序列。

SEQ ID NO:267是靶向ccdB的人工未培养的瘤胃菌属物种(Ruminoccussp.)nCasl阵列。

SEQ ID NO:268是完全36nt同向重复。

SEQ ID NO:269-272是间隔子序列。

SEQ ID NO:273是ccdB靶RNA序列。

SEQ ID NO:274-277是间隔子序列。

SEQ ID NO:278是突变的Cas13d序列，NLS-Ga_053l(trunc)-NLS-HA。此突变体具有非保守N末端的缺失。

SEQ ID NO:279是突变的Cas13d序列，NES-Ga_053l(trunc)-NES-HA。此突变体具有非保守N末端的缺失。

SEQ ID NO:280是全长Cas13d序列，NLS-RfxCas13d-NLS-HA。

SEQ ID NO:281是突变的Cas13d序列，NLS-RfxCas13d(del5)-NLS-HA。此突变体具有氨基酸558-587的缺失。

SEQ ID NO:282是突变的Cas13d序列，NLS-RfxCas13d(del5.12)-NLS-HA。此突变体具有氨基酸558-587和953-966的缺失。

SEQ ID NO:283是突变的Cas13d序列，NLS-RfxCas13d(del5.13)-NLS-HA。此突变体具有氨基酸376-392和558-587的缺失。

SEQ ID NO:284是突变的Cas13d序列，NLS-RfxCas13d(del5.12+5.13)-NLS-HA。此突变体具有氨基酸376-392、558-587和953-966的缺失。

SEQ ID NO:285是突变的Cas13d序列，NLS-RfxCas13d(dell3)-NLS-HA。此突变体具有氨基酸376-392的缺失。

SEQ ID NO:286是用于编辑ADAR2的表达的效应子序列。氨基酸1至969是dRfxCas13，aa 970至991是NLS序列，并且氨基酸992至1378是ADAR2DD。

SEQ ID NO:287是示例性HIV NES蛋白序列。

SEQ ID NO:288-291是示例性Cas13d基序序列。

SEQ ID NO:292是Cas13d直向同源序列MH_4866。

SEQ ID NO:293是来自037_-_emblOIZA01000315.ll的示例性Cas13d蛋白序列。

SEQ ID NO:294是来自PIG-022GL002635l的示例性Cas13d蛋白序列。

SEQ ID NO:295是来自PIG-046_GL0077813的示例性Cas13d蛋白序列。

SEQ ID NO:296是来自猪_嵌合体(pig_chimera)的示例性Cas13d蛋白序列。

SEQ ID NO:297是来自生黄瘤胃球菌XPD3002(CasRx)的示例性核酸酶失活或无核酸酶活性的Cas13d(dCas13d)蛋白。

SEQ ID NO:298是示例性Cas13d蛋白序列。

SEQ ID NO:299是来自(重叠群tpg|DJXD01000002.1|；未培育的瘤胃球菌组装，UBA7013，来自绵羊肠道宏基因组)的示例性Cas13d蛋白序列。

SEQ ID NO:300是来自Cas13d(重叠群tpg|DJXD01000002.1|；未培育的瘤胃球菌组装，UBA7013，来自绵羊肠道宏基因组)的示例性Cas13d同向重复核苷酸序列(与SEQ IDNO:299一起)。

SEQ ID NO:301是示例性Cas13d蛋白重叠群emb|OBLI01020244。

Yan等人(2018)Mol Cell.70(2):327-339(doi:10.1016/j.molcel.2018.02.2018)和Konermann等人(2018)Cell 173(3):665-676(doi:10.1016/j.cell/2018.02.033)已经描述了Cas13d蛋白，并且将这两者均通过引用以其整体并入本文。还参见WO公开号WO2018/183403(CasM，其是Cas13d)和WO2019/006471(Cas13d)，将其通过引用以其整体并入本文。

SEQ ID NO:586是无催化活性的示例性cas13d，称为失活的Cas13d或dCas13d。

SEQ ID NO:587是无催化活性的示例性cas13d，称为失活的Cas13d或dCas13d。

SEQ ID NO:588是无催化活性的示例性cas13d，称为失活的Cas13d或dCas13d。

SEQ ID NO:589是无催化活性的示例性cas13d，称为失活的Cas13d或dCas13d。

SEQ ID NO:303是来自惰性真杆菌的示例性CasM蛋白。

SEQ ID NO:304是来自瘤胃球菌属物种分离株2789STDY5834971的示例性CasM蛋白。

SEQ ID NO:305是来自双环瘤胃球菌的示例性CasM蛋白。

SEQ ID NO:306是来自瘤胃球菌属物种分离株2789STDY5608892的示例性CasM蛋白。

SEQ ID NO:307是来自瘤胃球菌属物种CAG:57的示例性CasM蛋白。

SEQ ID NO:308是来自生黄瘤胃球菌FD-1的示例性CasM蛋白。

SEQ ID NO:309是来自白色瘤胃球菌菌株KH2T6的示例性CasM蛋白。

SEQ ID NO:310是来自生黄瘤胃球菌菌株XPD3002的示例性CasM蛋白。

SEQ ID NO:311是来自瘤胃球菌属物种分离株2789STDY5834894的示例性CasM蛋白。

SEQ ID NO:312是示例性RtcB同源物。

SEQ ID NO:313是来自惰性真杆菌的示例性WYL+C末端NLS。

SEQ ID NO:314是来自瘤胃球菌属物种分离株2789STDY5834971的示例性WYL+C末端NLS。

SEQ ID NO:315是来自双环瘤胃球菌的示例性WYL+C末端NLS。

SEQ ID NO:316是来自瘤胃球菌属物种分离株2789STDY5608892的示例性WYL+C末端NLS。

SEQ ID NO:317是来自瘤胃球菌属物种CAG:57的示例性WYL+C末端NLS。

SEQ ID NO:318是来自生黄瘤胃球菌FD-1的示例性WYL+C末端NLS。

SEQ ID NO:319是来自白色瘤胃球菌菌株KH2T6的示例性WYL+C末端NLS。

SEQ ID NO:320是来自生黄瘤胃球菌菌株XPD3002的示例性WYL+C末端NLS。

SEQ ID NO:321是来自惰性真杆菌的示例性RtcB+C末端NLS。

SEQ ID NO:322是生黄瘤胃球菌XPD3002 Cas13d(CasRx)的示例性同向重复序列。

SEQ ID NO:530是示例性Cas13d核酸序列seq198。

SEQ ID NO:535是示例性Cas13d核酸序列seq179。

SEQ ID NO:538是示例性Cas13d核酸序列seq42。

SEQ ID NO:540是示例性Cas13d核酸序列seq212。

SEQ ID NO:537是编码对应于SEQ ID NO:538的示例性DR核酸序列的示例性核酸序列。

本公开文本的示例性野生型Cas13d蛋白可以包含氨基酸序列SEQ ID NO:92或SEQID NO:298(Cas13d蛋白也称为CasRx)或由其组成。

生黄瘤胃球菌XPD3002 Cas13d(CasRx)的示例性同向重复序列包含核酸序列：AACCCCTACCAACTGGTCGGGGTTTGAAAC(SEQ ID NO:302)。

gRNA靶序列

本公开文本的组合物结合并破坏RNA分子的包含致病性重复序列的靶序列。在一个实施方案中，靶RNA包含对应于指导RNA的间隔子序列的序列基序，所述指导RNA对应于RNA指导的RNA结合蛋白。在一些实施方案中，一个或多个间隔子序列用于靶向一个或多个靶序列。在一些实施方案中，多个间隔子用于靶向多个靶RNA。此类靶RNA可以是相同RNA分子内的不同靶位点，或者可以是不同RNA分子内的不同靶位点。间隔子序列也可以靶向非编码RNA。在一些实施方案中，多个启动子(例如Pol III启动子)可以用于驱动gRNA中多个间隔子以靶向多个靶RNA。在一个实施方案中，一个或多个靶RNA或者一个或多个靶序列基序的破坏降低了致病性CUG重复RNA的表达，从而治疗DM1和/或改善与DM1相关的一种或多种症状。

在本公开文本的组合物和方法的一些实施方案中，所述靶RNA的序列基序是疾病或障碍的标志。

本公开文本的序列基序可以从基因组序列中发现的外来或外源序列的序列分离或衍生，并且因此翻译为本公开文本的mRNA分子或在本公开文本的RNA序列中发现的外来或外源序列的序列。

本公开文本的靶序列基序可以包含引起疾病或障碍的内源性序列中的突变、由所述突变组成、位于所述突变旁或与所述突变相关。所述突变可以包含序列取代、倒位、缺失、插入、转座或其任何组合，或者由其组成。

本公开文本的靶序列基序可以包含重复的序列或由其组成。在一些实施方案中，所述重复的序列可能与微卫星不稳定性(MSI)相关。一个或多个基因座处的MSI是由于本公开文本的细胞的DNA错配修复机制受损所致。可以将DNA的超变序列转录为本公开文本的包含靶序列的mRNA，所述靶序列包含所述超变序列或由其组成。

本公开文本的靶序列基序可以包含生物标记物或由其组成。所述生物标记物可以指示患上疾病或障碍的风险。所述生物标记物可以指示健康基因(低或无可确定的患上疾病或障碍的风险)。所述生物标记物可以指示编辑的基因。示例性生物标记物包括但不限于单核苷酸多态性(SNP)、序列变异或突变、表观遗传标记、剪接受体位点、外源序列、异源序列及其任何组合。

本公开文本的靶序列基序可以包含二级、三级或四级结构或者由其组成。所述二级、三级或四级结构可以是内源的或天然存在的。所述二级、三级或四级结构可以是诱导的或非天然存在的。所述二级、三级或四级结构可以由内源、外源或异源序列编码。

在本公开文本的组合物和方法的一些实施方案中，RNA分子的所述靶序列包含在2个与100个之间的核苷酸或核酸碱基(包括端点)或由其组成。在一些实施方案中，RNA分子的所述靶序列包含在2个与50个之间的核苷酸或核酸碱基(包括端点)或由其组成。在一些实施方案中，RNA分子的所述靶序列包含在2个与20个之间的核苷酸或核酸碱基(包括端点)或由其组成。在一些实施方案中，RNA分子的所述靶序列包含在20-30个之间的核苷酸或核酸碱基(包括端点)或由其组成。在一些实施方案中，RNA分子的所述靶序列包含约26个核苷酸或核酸碱基(包括端点)或由其组成。

在本公开文本的组合物和方法的一些实施方案中，RNA分子的靶序列是连续的。在一些实施方案中，RNA分子的所述靶序列是不连续的。例如，RNA分子的所述靶序列可以包含不连续的一个或多个核苷酸或核酸碱基或由其组成，因为一个或多个间断的核苷酸定位于所述靶序列的核苷酸之间。

在本公开文本的组合物和方法的一些实施方案中，RNA分子的靶序列是天然存在的。在一些实施方案中，RNA分子的所述靶序列是非天然存在的。示例性的非天然存在的靶序列可以包含序列变异或突变、嵌合序列、外源序列、异源序列、嵌合序列、重组序列、包含修饰的或合成的核苷酸的序列或其任何组合，或者由其组成。

在本公开文本的组合物和方法的一些实施方案中，RNA分子的靶序列与本公开文本的指导RNA结合。在本公开文本的组合物和方法的一些实施方案中，RNA分子的一个或多个靶序列与本公开文本的一个或多个指导RNA间隔子序列结合。

在本公开文本的组合物和方法的一些实施方案中，RNA分子的靶序列与本公开文本的第一RNA结合蛋白结合。

在本公开文本的组合物和方法的一些实施方案中，RNA分子的靶序列与本公开文本的第二RNA结合蛋白结合。

本公开文本的组合物包含gRNA，所述gRNA包含与靶毒性CUG RNA重复序列特异性结合的间隔子序列。在一些实施方案中，结合靶CUG RNA重复序列的间隔子包含约20-30个核苷酸或由其组成。在一些实施方案中，gRNA包含一个或多个间隔子序列。

本公开文本的与RNA分子的靶CUG序列特异性结合的示例性gRNA间隔子序列示于SEQ ID NO:457-459中。

核酸内切酶

在一些实施方案中，本公开文本的组合物包含第二RNA结合蛋白，所述第二RNA结合蛋白包含核酸酶或核酸内切酶结构域或者由其组成。在一些实施方案中，所述第二RNA结合蛋白是效应蛋白。在一些实施方案中，所述第二RNA结合蛋白以与RNA缔合的方式结合RNA。在一些实施方案中，所述第二RNA结合蛋白以切割RNA的方式与RNA缔合。在一些实施方案中，所述第二RNA结合蛋白与第一RNA结合蛋白融合，所述第一RNA结合蛋白是基于PUF、PUMBY或PPR的蛋白质。在一个实施方案中，所述第二RNA结合蛋白与第一RNA结合蛋白融合，所述第一RNA结合蛋白是无活性的基于Cas(基于dCas)的蛋白。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含RNA酶或由其组成。

在一些实施方案中，所述第二RNA结合蛋白包含RNA酶1或由其组成。在一些实施方案中，所述RNA酶1蛋白包含SEQ ID NO:325或由其组成。

在一些实施方案中，所述第二RNA结合蛋白包含RNA酶4或由其组成。在一些实施方案中，所述RNA酶4蛋白包含SEQ ID NO:326或由其组成。

在一些实施方案中，所述第二RNA结合蛋白包含RNA酶6或由其组成。在一些实施方案中，所述RNA酶6蛋白包含SEQ ID NO:327或由其组成。

在一些实施方案中，所述第二RNA结合蛋白包含RNA酶7或由其组成。在一些实施方案中，所述RNA酶7蛋白包含SEQ ID NO:328或由其组成。

在一些实施方案中，所述第二RNA结合蛋白包含RNA酶8或由其组成。在一些实施方案中，所述RNA酶8蛋白包含SEQ ID NO:329或由其组成。

在一些实施方案中，所述第二RNA结合蛋白包含RNA酶2或由其组成。在一些实施方案中，所述RNA酶2蛋白包含SEQ ID NO:330或由其组成。

在一些实施方案中，所述第二RNA结合蛋白包含RNA酶6PL或由其组成。在一些实施方案中，所述RNA酶6PL蛋白包含SEQ ID NO:331或由其组成。

在一些实施方案中，所述第二RNA结合蛋白包含RNA酶L或由其组成。在一些实施方案中，所述RNA酶L蛋白包含SEQ ID NO:332或由其组成。

在一些实施方案中，所述第二RNA结合蛋白包含RNA酶T2或由其组成。在一些实施方案中，所述RNA酶T2蛋白包含SEQ ID NO:333或由其组成。

在一些实施方案中，所述第二RNA结合蛋白包含RNA酶11或由其组成。在一些实施方案中，所述RNA酶11蛋白包含SEQ ID NO:334或由其组成。

在一些实施方案中，所述第二RNA结合蛋白包含RNA酶T2样蛋白或由其组成。在一些实施方案中，所述RNA酶T2样蛋白包含SEQ ID NO:335或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含突变的RNA酶或由其组成。

在一些实施方案中，所述第二RNA结合蛋白包含突变的RNA酶1(RNA酶1(K41R))多肽或由其组成。在一些实施方案中，所述RNA酶1(K41R)多肽包含SEQ ID NO:336或由其组成。

在一些实施方案中，所述第二RNA结合蛋白包含突变的RNA酶1(RNA酶1(K41R、D121E))多肽或由其组成。在一些实施方案中，所述RNA酶1(RNA酶1(K41R、D121E))多肽包含SEQ ID NO:337或由其组成。

在一些实施方案中，所述第二RNA结合蛋白包含突变的RNA酶1(RNA酶1(K41R、D121E、H119N))多肽或由其组成。在一些实施方案中，所述RNA酶1(RNA酶1(K41R、D121E、H119N))多肽包含SEQ ID NO:338或由其组成。

在一些实施方案中，所述第二RNA结合蛋白包含突变的RNA酶1或由其组成。在一些实施方案中，所述第二RNA结合蛋白包含突变的RNA酶1(RNA酶1(H119N))多肽或由其组成。在一些实施方案中，所述RNA酶1(RNA酶1(H119N))多肽包含SEQ ID NO:339或由其组成。

在一些实施方案中，所述第二RNA结合蛋白包含突变的RNA酶1(RNA酶1(R39D、N67D、N88A、G89D、R91D、H119N))多肽或由其组成。

在一些实施方案中，所述RNA酶1(RNA酶1(R39D、N67D、N88A、G89D、R91D、H119N))多肽包含SEQ ID NO:340或由其组成。

在一些实施方案中，所述第二RNA结合蛋白包含突变的RNA酶1(RNA酶1(R39D、N67D、N88A、G89D、R91D、H119N))多肽或由其组成。在一些实施方案中，所述RNA酶1(RNA酶1(R39D、N67D、N88A、G89D、R91D、H119N、K41R、D121E))多肽包含SEQ ID NO:341或由其组成。

在一些实施方案中，所述第二RNA结合蛋白包含突变的RNA酶1(RNA酶1(R39D、N67D、N88A、G89D、R91D、H119N))多肽或由其组成。在一些实施方案中，所述RNA酶1(RNA酶1(R39D、N67D、N88A、G89D、R91D))多肽包含SEQ ID NO:342或由其组成。

在一些实施方案中，所述第二RNA结合蛋白包含突变的RNA酶1(RNA酶1(R39D、N67D、N88A、G89D、R91D、H119N、K41R、D121E))多肽或由其组成，所述多肽包含SEQ ID NO:343或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含NOB1多肽或由其组成。在一些实施方案中，所述NOB1多肽包含SEQ ID NO:344或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含核酸内切酶或由其组成。在一些实施方案中，所述第二RNA结合蛋白包含核酸内切酶V(ENDOV)或由其组成。在一些实施方案中，所述ENDOV蛋白包含SEQ ID NO:345或由其组成。

在一些实施方案中，所述第二RNA结合蛋白包含核酸内切酶G(ENDOG)或由其组成。在一些实施方案中，所述ENDOG蛋白包含SEQ ID NO:346或由其组成。

在一些实施方案中，所述第二RNA结合蛋白包含核酸内切酶D1(ENDOD1)或由其组成。在一些实施方案中，所述ENDOD1蛋白包含SEQ ID NO:347或由其组成。

在一些实施方案中，所述第二RNA结合蛋白包含人瓣状核酸内切酶-1(hFEN1)或由其组成。在一些实施方案中，所述hFEN1多肽包含SEQ ID NO:348或由其组成。

在一些实施方案中，所述第二RNA结合蛋白包含DNA修复核酸内切酶XPF(ERCC4)多肽或由其组成。在一些实施方案中，所述ERCC4多肽包含SEQ ID NO:349或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含核酸内切酶III样蛋白1(NTHL)多肽或由其组成。在一些实施方案中，所述NTHL多肽包含SEQ ID NO:340或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含人斯库拉芬蛋白14(hSLFN14)多肽或由其组成。在一些实施方案中，所述hSLFN14多肽包含SEQ IDNO:351或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含人β-内酰胺酶样蛋白2(hLACTB2)多肽或由其组成。在一些实施方案中，所述hLACTB2多肽包含SEQ IDNO:352或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含无嘌呤/无嘧啶(AP)内切脱氧核糖核酸酶(APEX)多肽或由其组成。在一些实施方案中，所述第二RNA结合蛋白包含无嘌呤/无嘧啶(AP)内切脱氧核糖核酸酶(APEX2)多肽或由其组成。在一些实施方案中，所述APEX2多肽包含SEQ ID NO:353或由其组成。

在一些实施方案中，所述APEX2多肽包含SEQ ID NO:354或由其组成。

在一些实施方案中，所述第二RNA结合蛋白包含无嘌呤或无嘧啶位点裂解酶(APEX1)多肽或由其组成。在一些实施方案中，所述APEX1多肽包含SEQ ID NO:355或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含血管生成素(ANG)多肽或由其组成。在一些实施方案中，所述ANG多肽包含SEQ ID NO:356或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含热反应蛋白12(HRSP12)多肽或由其组成。在一些实施方案中，所述HRSP12多肽包含SEQ ID NO:357或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含含锌指CCCH型12A(ZC3H12A)多肽或由其组成。在一些实施方案中，所述ZC3H12A多肽是Z3H12A多肽的核酸内切酶结构域，所述核酸内切酶结构域包含SEQ ID NO:358或由其组成，本文也称为E17。在一些实施方案中，所述ZC3H12A多肽包含SEQ ID NO:359或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含反应性中间亚胺脱氨酶A(RIDA)多肽或由其组成。在一些实施方案中，所述RIDA多肽包含SEQ ID NO:360或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含磷脂酶D家族成员6(PDL6)多肽或由其组成。在一些实施方案中，所述PDL6多肽包含SEQ ID NO:361或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含线粒体核糖核酸酶P催化亚基(KIAA0391)多肽或由其组成。在一些实施方案中，所述KIAA0391多肽包含SEQ ID NO:362或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含阿尔古蛋白2(AGO2)多肽或由其组成。

在本公开文本的组合物的一些实施方案中，所述AGO2多肽包含SEQ ID NO:363或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含线粒体核酸酶EXOG(EXOG)多肽或由其组成。在一些实施方案中，所述EXOG多肽包含SEQ ID NO:364或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含含锌指CCCH型12D(ZC3H12D)多肽或由其组成。在一些实施方案中，所述ZC3H12D多肽包含SEQ IDNO:365或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含内质网核信号转导蛋白2(ERN2)多肽或由其组成。在一些实施方案中，所述ERN2多肽包含SEQ ID NO:366或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含回力球mRNA监督和核糖体挽救因子(PELO)多肽或由其组成。在一些实施方案中，所述PELO多肽包含SEQ ID NO:367或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含YBEY金属肽酶(YBEY)多肽或由其组成。在一些实施方案中，所述YBEY多肽包含SEQ ID NO:368或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含剪切和多聚腺苷酸化特异性因子4样蛋白(CPSF4L)多肽或由其组成。在一些实施方案中，所述CPSF4L多肽包含SEQ ID NO:369或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含hCG_2002731多肽或由其组成。在一些实施方案中，所述hCG_2002731多肽包含SEQ ID NO:370或由其组成。

在一些实施方案中，所述hCG_2002731多肽包含SEQ ID NO:371或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含切除修复交叉互补组1(ERCC1)多肽或由其组成。在一些实施方案中，所述ERCC1多肽包含SEQ ID NO:372或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含ras相关C3肉毒杆菌毒素底物1亚型(RAC1)多肽或由其组成。在一些实施方案中，所述RAC1多肽包含SEQ ID NO:373或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含核糖核酸酶A A1(RAA1)多肽或由其组成。在一些实施方案中，所述RAA1多肽包含SEQ ID NO:374或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含Ras相关蛋白(RAB1)多肽或由其组成。在一些实施方案中，所述RAB1多肽包含SEQ ID NO:375或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含DNA复制解旋酶/核酸酶2(DNA2)多肽或由其组成。在一些实施方案中，所述DNA2多肽包含SEQ ID NO:376或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含FLJ35220多肽或由其组成。在一些实施方案中，所述FLJ35220多肽包含SEQ ID NO:377或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含FLJ13173多肽或由其组成。在一些实施方案中，所述FLJ13173多肽包含SEQ ID NO:378或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含特诺伊林跨膜蛋白(TENM)多肽或由其组成。在一些实施方案中，所述第二RNA结合蛋白包含特诺伊林跨膜蛋白1(TENM1)多肽或由其组成。在一些实施方案中，所述TENM1多肽包含SEQ ID NO:379或由其组成。

在一些实施方案中，所述第二RNA结合蛋白包含特诺伊林跨膜蛋白2(TENM2)多肽或由其组成。在一些实施方案中，所述TENM2多肽包含SEQ ID NO:380或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含核糖核酸酶κ(RNA酶K)多肽或由其组成。在一些实施方案中，所述RNA酶K多肽包含SEQ ID NO:381或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含转录激活因子样效应物核酸酶(TALEN)多肽或所述多肽的核酸酶结构域或由其组成。在一些实施方案中，所述TALEN多肽包含SEQ ID NO:382或由其组成。在一些实施方案中，所述TALEN多肽包含SEQ ID NO:383或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含锌指核酸酶多肽或所述多肽的核酸酶结构域或由其组成。在一些实施方案中，所述第二RNA结合蛋白包含ZNF638多肽或所述多肽的核酸酶结构域或由其组成。在一些实施方案中，所述ZNF638多肽包含SEQ ID NO:384或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含从人SMG6蛋白衍生的PIN结构域或由其组成，所述人SMG6蛋白通常也称为端粒酶结合蛋白EST1A亚型3，NCBI参考序列：NP_001243756.1。在一些实施方案中，来自hSMG6的PIN以Cas融合蛋白的形式在本文中使用并且例如但不限于作为内部对照。在一些实施方案中，所述PIN多肽包含SEQ ID NO:598或由其组成。

在本公开文本的组合物的一些实施方案中，所述组合物进一步包含(a)含有特异性结合在RNA分子内的gRNA的序列；以及(b)编码核酸酶的序列。在一些实施方案中，核酸酶包含从CRISPR/Cas蛋白分离或衍生的序列。在一些实施方案中，核酸酶包含从TALEN或其核酸酶结构域分离或衍生的序列。在一些实施方案中，核酸酶包含从锌指核酸酶或其核酸酶结构域分离或衍生的序列。

AAV载体

如本文所用的“AAV载体”是指这样一种载体，所述载体包含一个或多个核酸分子和一个或多个AAV反向末端重复序列(ITR)，基本上由其组成或由其组成。在一些方面，所述核酸分子编码本公开文本的靶向CAG重复的蛋白质和/或组合物。当存在于提供rep和cap基因产物的功能的宿主细胞中(例如通过转染宿主细胞)时，此类AAV载体可以被复制并包装到感染性病毒颗粒中。在一些方面，AAV载体含有启动子、可编码至少一种蛋白质或RNA的至少一种核酸、和/或包装到感染性AAV颗粒中的侧翼ITR内的增强子和/或终止子。衣壳化的核酸部分可以称为AAV载体基因组。含有AAV载体的质粒还可以含有用于制造目的的元件，例如抗生素抗性基因、复制起点序列等，但是这些元件没有被衣壳化，因此不形成AAV颗粒的一部分。

在一些方面，AAV载体可以包含至少一种编码本公开文本的靶向CUG重复的组合物的核酸分子。在一些方面，AAV载体可以包含至少一个调节序列。在一些方面，AAV载体可以包含至少一个AAV反向末端(ITR)序列。在一些方面，AAV载体可以包含第一ITR序列和第二ITR序列。在一些方面，AAV载体可以包含至少一个启动子序列。在一些方面，AAV载体可以包含至少一个增强子序列。在一些方面，AAV载体可以包含至少一个聚A序列。在一些方面，AAV载体可以包含至少一个接头序列。在一些方面，本公开文本的AAV载体可以包含至少一个核定位信号。在一些方面，本公开文本的AAV载体可以包含靶向CUG重复的PUF或PUMBY蛋白、肽或其片段。在一些方面，本公开文本的AAV载体可以包含Cas蛋白、肽或其片段。在一些方面，本公开文本的AAV载体可以包含核酸内切酶蛋白、肽或其片段。在一些方面，本公开文本的AAV载体可以包含指导RNA，在一些情况下，靶向CUG重复的指导RNA。在一些方面，本公开文本的AAV载体可以包含融合蛋白，所述融合蛋白包含本公开文本的一个或多个元件，包括但不限于靶向CUG重复的蛋白质(如Cas、PUF或PUMBY)和核酸内切酶。任选地，AAV载体的融合蛋白可以进一步包含本公开文本的一个或多个元件之间的接头氨基酸序列。

在一些方面，AAV载体可以包含第一AAV ITR序列、启动子序列、靶向CUG重复的组合物核酸分子、调节序列和第二AAV ITR序列。在一些方面，AAV载体可以在5’至3’方向上包含第一AAV ITR序列、启动子序列、转基因核酸分子和第二AAV ITR序列。

靶向CUG的Cas13d载体

在本公开文本的组合物的一些实施方案中，将靶向CUG的Cas13d组合物包装为AAV单一载体。在一些实施方案中，被包装为AAV单一载体的靶向CUG的Cas13d组合物示于SEQID NO 518、528、534、536和539中。

在一些实施方案中，靶向CUG的Cas13d组合物从5’至3’包含：人U6启动子、cas13dgRNA，其中所述gRNA包含同向重复序列和靶向CUG的间隔子序列、EFS启动子、kozak序列、SV-40NLS序列、接头序列、编码Cas13d的序列、接头序列、SV40 NLS序列、接头序列、HA标签序列和BGH聚a序列。在一些实施方案中，编码靶向CUG的Cas13d组合物的核酸示于SEQ IDNO:518中。在一些实施方案中，将靶向CUG的Cas13d组合物如表3中所描绘的布置。

表3：用于包装在AAV单一载体中的靶向CUG的Cas13d组合物

在一些实施方案中，包含靶向CUG的Cas13d组合物的AAV载体从5’至3’包含：人U6启动子、cas13d gRNA，其中所述gRNA包含同向重复序列和靶向CUG的间隔子序列、EFS启动子、kozak序列、编码Cas13d的序列、接头序列、SV40 NLS序列和SV40聚a序列。在一些实施方案中，编码靶向CUG的Cas13d组合物的核酸示于SEQ ID NO:528中。在一些实施方案中，将靶向CUG的Cas13d组合物如表4中所描绘的布置。

表4：用于包装在AAV单一载体中的靶向CUG的Cas13d组合物

在一些实施方案中，包含靶向CUG的Cas13d组合物的AAV载体从5’至3’包含：人U6启动子、cas13d gRNA，其中所述gRNA包含同向重复序列和靶向CUG的间隔子序列、EFS启动子、kozak序列、编码Cas13d的序列、接头序列、SV40 NLS序列和SV40聚a序列。在一些实施方案中，编码靶向CUG的Cas13d组合物的核酸示于SEQ ID NO:534中。在一些实施方案中，将靶向CUG的Cas13d组合物如表5中所描绘的布置。

表5：用于包装在AAV单一载体中的靶向CUG的Cas13d组合物

在一些实施方案中，包含靶向CUG的Cas13d组合物的AAV载体从5’至3’包含：人U6启动子、cas13d gRNA，其中所述gRNA包含同向重复序列和靶向CUG的间隔子序列、EFS启动子、kozak序列、编码Cas13d的序列、接头序列、SV40 NLS序列和SV40聚a序列。在一些实施方案中，编码靶向CUG的Cas13d组合物的核酸示于SEQ ID NO:536中。在一些实施方案中，将靶向CUG的Cas13d组合物如表6中所描绘的布置。

表6：用于包装在AAV单一载体中的靶向CUG的Cas13d组合物

在一些实施方案中，包含靶向CUG的Cas13d组合物的AAV载体从5’至3’包含：人U6启动子、cas13d gRNA，其中所述gRNA包含同向重复序列和靶向CUG的间隔子序列、EFS启动子、kozak序列、编码Cas13d的序列、接头序列、SV40 NLS序列和SV40聚a序列。在一些实施方案中，编码靶向CUG的Cas13d组合物的核酸示于SEQ ID NO:539中。在一些实施方案中，将靶向CUG的Cas13d组合物如表7中所描绘的布置。

表7：用于包装在AAV单一载体中的靶向CUG的Cas13d组合物

在一些实施方案中，本公开文本的编码靶向CUG的Cas13d蛋白的核酸序列是密码子优化的核酸序列。在一些实施方案中，在人受试者中，编码靶向CUG的Cas13d蛋白的密码子优化的序列相对于野生型或非密码子优化的核酸序列展现出至少5％、至少10％、至少20％、至少30％、至少50％、至少75％、至少100％、至少200％、至少300％、至少500％，或至少1000％增加的翻译。

在一些方面，编码靶向CUG的Cas13d蛋白的密码子优化的核酸序列(如SEQ ID NO:518、528、534、536和539中所示的那些)展现出增加的稳定性。在一些方面，编码靶向CUG的Cas13d蛋白的密码子优化的核酸序列通过增加的对水解的抗性展现出增加的稳定性。在一些实施方案中，编码靶向CUG的Cas13d蛋白的密码子优化的序列相对于野生型或非密码子优化的核酸序列展现出至少5％、至少10％、至少20％、至少30％、至少50％、至少75％、至少100％、至少200％、至少300％、至少500％或至少1000％增加的稳定性。在一些实施方案中，在人受试者中，编码靶向CUG的Cas13d蛋白的密码子优化的序列相对于野生型或非密码子优化的核酸序列展现出至少5％、至少10％、至少20％、至少30％、至少50％、至少75％、至少100％、至少200％、至少300％、至少500％或至少1000％增加的对水解的抗性。

在一些方面，编码靶向CUG的Cas13d蛋白的密码子优化的核酸序列(如SEQ IDNO:518、528、534、536和539中所示的那些)可以不包含供体剪接位点。在一些方面，编码靶向CUG的Cas13d蛋白的密码子优化的核酸序列可以包含不超过约一个、或约两个、或约三个、或约四个、或约五个、或约六个、或约七个、或约八个、或约九个、或约十个供体剪接位点。在一些方面，与编码靶向CUG的Cas13d蛋白的非密码子优化的核酸序列相比，编码靶向CUG的Cas13d蛋白的密码子优化的核酸序列包含少至少一个、或至少两个、或至少三个、或至少四个、或至少五个、或至少六个、或至少七个、或至少八个、或至少九个、或至少十个的供体剪接位点。

不希望受理论束缚，在密码子优化的核酸序列中去除供体剪接位点可以出乎意料地且不可预测地增加体内靶向CUG的Cas13d蛋白的表达，因为阻止了隐蔽剪接。此外，隐蔽剪接在不同受试者之间可能变化，这意味着包含供体剪接位点的靶向CUG的Cas13d蛋白的表达水平在不同受试者之间可能不可预测地变化。这种不可预测性在人类疗法的背景下是不可接受的。因此，SEQ ID NO:518、528、534、536和539中所示的缺乏供体剪接位点的密码子优化的核酸序列出乎意料地且令人惊讶地允许人受试者中靶向CUG的Cas13d蛋白的表达增加，并且使不同人受试者中靶向CUG的Cas13d蛋白的表达规范化。

在一些方面，编码靶向CUG的Cas13d蛋白的密码子优化的核酸序列(如SEQ ID NO:518、528、534、536和539中所示的那些)可以具有与编码靶向CUG的Cas13d蛋白的非密码子优化的核酸序列的GC含量不同的GC含量。在一些方面，与编码靶向CUG的Cas13d蛋白的非密码子优化的核酸序列相比，编码靶向CUG的Cas13d蛋白的密码子优化的核酸序列的GC含量更均匀地分布在整个核酸序列上。

不希望受理论束缚，通过将GC含量更均匀地分布在整个核酸序列上，密码子优化的核酸序列在转录物的长度上展现出更统一的解链温度(“Tm”)。解链温度的统一性出乎意料地导致人受试者中密码子优化的核酸的增加的表达，因为核酸序列的转录和/或翻译发生时聚合酶和/或核糖体的停滞较少。

在一些方面，与编码靶向CUG的Cas13d蛋白的非密码子优化的核酸序列相比，编码靶向CUG的Cas13d蛋白的密码子优化的核酸序列(如SEQ ID NO:518、528、534、536和539中所示的那些)可以具有更少的抑制性微小RNA靶结合位点。在一些方面，与编码靶向CUG的Cas13d蛋白的非密码子优化的核酸序列相比，编码靶向CUG的Cas13d蛋白的密码子优化的核酸序列可以具有少至少一个、或至少两个、或至少三个、或至少四个、或至少五个、或至少六个、或至少七个、或至少八个、或至少九个、或至少十个、或至少十个的抑制性微小RNA靶结合位点。

不希望受到理论的束缚，通过具有更少的抑制性微小RNA靶结合位点，编码靶向CUG的Cas13d蛋白的密码子优化的核酸序列出乎意料地在人受试者中展现出增加的表达。

融合蛋白

在本公开文本的组合物和方法的一些实施方案中，所述组合物包含编码靶RNA结合融合蛋白的序列，所述序列包含(a)编码第一RNA结合多肽或其部分的序列；以及任选地(b)编码第二RNA结合多肽的序列，其中所述第一RNA结合多肽结合靶RNA，并且其中所述第二RNA结合多肽包含RNA核酸酶活性。

在一些实施方案中，靶RNA结合融合蛋白是RNA指导的靶RNA结合融合蛋白。RNA指导的靶RNA结合融合蛋白包含至少一种RNA结合多肽，其对应于将所述RNA结合多肽指导至靶RNA的gRNA。RNA指导的靶RNA结合融合蛋白包括但不限于RNA结合多肽，其是基于CRISPR/Cas的RNA结合多肽或其部分。

信号序列

在一些实施方案中，本公开文本的靶RNA结合融合蛋白包含信号序列。在一些实施方案中，靶RNA结合融合蛋白包含一个或多个信号序列。在一些实施方案中，信号序列是核定位序列(NLS)、核输出信号(NES)或其组合。在一些实施方案中，信号序列包含一个或多个核定位信号(NLS)。在一些实施方案中，一个或多个NLS序列包含表8中所列的序列。在一些实施方案中，NLS信号序列是SV40 NLS信号序列。在一些实施方案中，SV40 NLS信号序列是PKKKRKV(SEQ ID NO:437)。

表8：本公开文本的核定位序列

名称	氨基酸序列	SEQ ID NO:
			SV40-NLS	PKKKRKV	437
人H2B-NLS	GKKRKRSRK	438
			酵母H2B-NLS	GKKRSKV	439
人p53-NLS	KRALPNNTSSSPQPKKKP	440
			人cmyc-NLS	PAAKRVKLD	441
人pRB-NLS	KRSAEGSNPPKPLKKLR	442
			人核质蛋白-NLS	KRPAATKKAGQAKKKKLDK	443
人pRB-NLS(延伸形式)	DRVLKRSAEGSNPPKPLKKLR	543

在一些实施方案中，信号序列包含一个或多个NES序列。在一些实施方案中，所述一个或多个NES序列包含表9中所列的序列。

表9：本公开文本的核输出序列

名称	氨基酸序列	SEQ ID NO:
			HIV REV NES	LPPLERLTLD	544
人PKI NES	LALKLAGLDI	545

在一些实施方案中，本公开文本的靶RNA结合融合蛋白包含标签序列。在一些实施方案中，标签序列是FLAG标签。在一些实施方案中，FLAG标签序列是DYKDDDDK(SEQ ID NO:436)。

接头序列

在一些实施方案中，靶RNA结合融合蛋白包含接头序列。在一些实施方案中，接头序列可以包含1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50个或其间任何数量的氨基酸，或者由其组成。在一些实施方案中，接头序列包含表10中所列的接头序列。

表10.本公开文本的接头序列

启动子序列

在一个方面，本公开文本的靶向CUG的组合物包含启动子序列。在一些实施方案中，本文公开的任何启动子可以被取代为本文公开的靶向RNA的构建体中所述的任何其他启动子。在一些方面，靶向CUG的组合物包含截短的CAG(tCAG)启动子(SEQ ID NO:385)。在一些方面，靶向CUG的组合物包含如SEQ ID NO:520中所示的短EF1-α(EFS)启动子。在一些方面，靶向CUG的组合物包含如SEQ ID NO:519中所示的人U6启动子。在一些方面，靶向CUG的组合物包含SEQ ID NO:609中所示的EFS-UBB启动子。在一些方面，靶向CUG的组合物包含肌肉特异性启动子。在一些方面，靶向CUG的组合物包含肌肉特异性启动子，所述肌肉特异性启动子是SEQ ID NO:568(全长)、SEQ ID NO:608(全长)或SEQ ID NO:569(截短的)中所示的结蛋白启动子。在一些方面，靶向CAG的组合物包含SEQ ID NO:619中所示的突触素启动子。在一些实施方案中，本公开文本的启动子序列包含人EF1-α核心启动子(SEQ ID NO:642)。在一些实施方案中，本公开文本的启动子序列包含经修饰的UBB内含子(SEQ ID NO:643)。在一些实施方案中，本公开文本的启动子序列包含经修饰的CMV增强子序列(SEQ IDNO:644)。在一些实施方案中，本公开文本的启动子序列包含eCMV-EFS-UBB启动子序列(SEQID NO:645)。

。在一些实施方案中，启动子对表达的控制是组成型的或遍在的。非限制性示例性启动子包括Pol III启动子(例如像U6和H1启动子)和/或Pol II启动子，例如SV40、CMV(任选地包括CMV增强子)、RSV(劳斯肉瘤病毒LTR启动子(任选地包括RSV增强子))、CBA(杂合CMV增强子/鸡β-肌动蛋白)、CAG(与鸡β-肌动蛋白融合的杂合CMV增强子)、截短的CAG、Cbh(杂合CBA)、EF-1a(人延伸因子α-1)或EFS(短的少内含子的EF-1α)、PGK(磷酸甘油激酶)、CEF(鸡胚成纤维细胞)、UBC(泛素C)、GUSB(溶酶体酶β-葡糖醛酸糖苷酶)、UCOE(遍在染色质开放元件)、hAAT(α-1抗胰蛋白酶)、TBG(甲状腺素结合球蛋白)、结蛋白(全长或截短的)、MCK(肌肉肌酸激酶)、C5-12(合成的肌肉启动子)、CK8e(肌酸激酶8)、NSE(神经元特异性烯醇化酶)、突触素、突触素-1(SYN-1)、视蛋白、PDGF(血小板源性生长因子)、PDGF-A、MecP2(甲基CpG结合蛋白2)、CaMKII(钙/钙调蛋白依赖性蛋白激酶II)、mGluR2(代谢型谷氨酸受体2)、NFL(神经丝轻链)、NFH(神经丝重链)、nβ2、PPE(大鼠前脑啡肽原)、ENK(前脑啡肽原)、前脑啡肽原-神经丝嵌合启动子、EAAT2(谷氨酸转运蛋白)、GFAP(胶质纤维酸性蛋白)、MBP(髓磷脂碱性蛋白质)、人视紫红质激酶启动子(hGRK1)、β-肌动蛋白启动子、二氢叶酸还原酶启动子、MHCK7(肌肉肌酸激酶和α肌球蛋白重链基因的增强子/启动子区的杂合启动子)及其组合。“增强子”是DNA中可以由激活蛋白结合以增加转录的可能性或频率的区域。非限制性示例性增强子和转录后调节元件包括CMV增强子、MCK增强子、HTLV-1的LTR中的R-U5’区段、SV40增强子、兔β-珠蛋白的外显子2与外显子3之间的内含子序列和WPRE。在一些实施方案中，使用内含子如UBB内含子来增强启动子活性。在一些实施方案中，将UBB内含子与EFS启动子一起使用。在一些实施方案中，可以将增强子序列添加到5’或3’UTR中。在一些实施方案中，5’增强子可以是如SEQ ID NO:652中所示的Hsp70：TAACGGCTAGCCTGAGGAGCTGCTGCGACAGTCCACTACCTTTTTCGAGAGTGACTCCCGTTGTCCCAAGGCTTCCCAGAGCGAACCTGTGCGGCTGCAGGCACCGGCGCGTCGAGTTTCCGGCGTCCGGAAGGACCGAGCTCTTCTCGCGGATCCAGTGTTCCGTTTCCAGCCCCCAATCTCAGAGCGGAGCCGACAGAGAGCAGGGAACCGGC。

非指导的RNA结合融合蛋白

在一些实施方案中，靶RNA结合融合蛋白不是RNA指导的靶RNA结合融合蛋白，并且因此包含至少一种RNA结合多肽，其能够在没有相应gRNA序列的情况下结合靶RNA。此类非指导的RNA结合多肽包括但不限于作为PUF(Pumilio和FBF同源家族)蛋白的至少一种RNA结合蛋白或其RNA结合部分。这种类型的RNA结合多肽可以用于代替gRNA指导的RNA结合蛋白如CRISPR/Cas。参与介导mRNA稳定性和翻译的PUF蛋白(以果蝇(Drosophila)Pumilio和秀丽隐杆线虫(C.elegans)fem-3结合因子命名)的独特RNA识别模式是本领域中熟知的。也是本领域中已知的人Pumilio1的PUF结构域与同源RNA序列紧密结合，并且可以修饰其特异性。其含有八个PUF模块，它们识别八个保守RNA碱基，且每个模块重复识别单个碱基。由于每个模块中的两条氨基酸侧链识别相应碱基的Watson-Crick边缘并决定该模块的特异性，PUF蛋白可以被设计为特异性结合大多数8至16nt RNA。Wang等人,Nat Methods.2009；6(11):825-830。还参见WO2012/068627，将其通过引用以其整体并入本文。

已经使用PUF-RNA相互作用的模块性质合理地工程化PUF结构域的结合特异性(Cheong,C.G.和Hall,T.M.(2006)PNAS103:13635-13639；Wang,X.等人(2002)Cell110:501-512)。然而，在WO2012/06827(同上)的教导之前，仅报道了具有识别腺嘌呤、鸟嘌呤或尿嘧啶的模块的PUF结构域的成功设计。虽然野生型PumHD不结合胞嘧啶(C)，但是分子工程化已经表明，可以使一些Pum单元突变从而以良好的产率和特异性结合C。参见例如，Dong,S.等人Specific and modular binding code for cytosine recognition in Pumilio/FBF(PUF)RNA-binding domains,The Journal of biological chemistry 286,26732-26742(2011)。因此，PumHD是WT Pumilio蛋白的经修饰形式，其展现出与RNA的任意8碱基序列的可编程结合。PumHD的八个单元中的每一个都可以与所有四种RNA碱基结合，并且侧接靶序列的RNA碱基不影响结合。还参见以下关于本领域承认的PUF设计的RNA结合规则：Filipovska A,Razif MF,KK和Rackham O.A universal code for RNArecognition by PUF proteins.Nature chemical biology,7(7),425-427(2011)；Filipovska A和Rackham O.Modular recognition of nucleic acids by PUF,TALE andPPR proteins.Molecular BioSystems,8(3),699-708(2012)；Abil Z,Denard CA和ZhaoH.Modular assembly of designer PUF proteins for specific post-transcriptionalregulation of endogenous RNA.Journal of biological engineering,8(1),7(2014)；Zhao Y,Mao M,Zhang W,Wang J,Li H,Yang Y,Wang Z和Wu J.Expanding RNA bindingspecificity and affinity of engineered PUF domains.Nucleic Acids Research,46(9),4771–4782(2018)；Shinoda K,Tsuji S,Futaki S和Imanishi M.Nested PUFProteins:Extending Target RNA Elements for Gene Regulation.ChemBioChem,19(2),171-176(2018)；Koh YY,Wang Y,Qiu C,Opperman L,Gross L,Tanaka Hall TM和WickensM.Stacking Interactions in PUF-RNA Complexes.RNA,17(4),718-727(2011)。

因此，本领域熟知，人PUM1(1186个氨基酸)在蛋白质的C末端含有RNA结合结构域(RBD)(也称为Pumilio同源结构域PUM-HD氨基酸828-氨基酸1175)，并且PUF基于人PUM1的RBD。存在8个36个氨基酸的结构模块(除了具有43个氨基酸的模块7之外)，以用于RNA结合和侧接对蛋白质结构和稳定性重要的N末端和C末端区域。在每个模块中，氨基酸12、13和16对于RNA结合很重要，其中12和16负责RNA碱基识别。氨基酸13与RNA碱基堆叠，并可以被修饰以调节特异性和亲和力。可替代地，PUF设计可以保持氨基酸13作为人PUM1的天然残基。在本文公开的PUF(CUG)或PUMBY(CUG)组合物的一些实施方案中，氨基酸13(用于堆叠)将用H工程化，而在其他实施方案中，将用Y工程化。在一些实施方案中，可以修饰堆叠残基以改善结合和特异性。在反向方向上发生识别，因为N末端至C末端PUF识别3’至5’RNA。因此，本领域已知的8个模块(8PUF)的PUF工程化模拟人蛋白质。将如下设计示例性8聚体RNA识别(8PUF)：R1’-R1-R2-R3-R4-R5-R6-R7-R8-R8’。在一个实施方案中，将8PUF用作RBD。在另一个实施方案中，使用8PUF设计的变型来创建14聚体RNA识别(14PUF)RBD、15聚体RNA识别(15PUF)RBD或16聚体RNA识别(16PUF)RBD。在另一个实施方案中，可以将PUF工程化以包含4聚体、5聚体、6聚体、7聚体、8聚体、9聚体、10聚体、11聚体、12聚体、13聚体、14聚体、15聚体、16聚体、24聚体、30聚体、36聚体或其间任何数量的模块。Shinoda等人,2018；Criscuolo等人,2020。分别以SEQ ID NO:462-469随同提供了野生型PUM1人的重复1-8。编码来自人PUM1的PUF结构域的核酸序列是SEQ ID NO:470，并且来自人PUM1氨基酸828-1176的PUF结构域的氨基酸序列是SEQ ID NO:471。还参见美国专利9,580,714，将其以其整体并入本文。

在本公开文本的非指导的RNA结合融合蛋白的一些实施方案中，所述融合蛋白包含作为PUMBY(基于Pumilio的组装)蛋白的至少一种RNA结合蛋白或其RNA结合部分。已经以天然和修饰形式广泛用于靶向RNA的RNA结合蛋白PumHD已经被工程化为这样一种蛋白质结构，其被设计以产生一组四个规范蛋白质模块，其中的每一个靶向一个RNA碱基。这些模块(即，Pumby，代表基于Pumilio的组装)以不同组成和长度的链进行链状结合，以结合所需靶RNA。本质上，PUMBY是PumHD的一种更简单和模块化的形式，其中PumHD的单个蛋白质单元被串联成具有任意大小和结合序列特异性的阵列。此类Pumby-RNA相互作用的特异性高，且Pumby链与携带相对于靶序列的三个或更多个错配的RNA序列的结合不可检测。Katarzyna等人,PNAS,2016；113(19):E2579-E2588。还参见US2016/0238593，将其通过引用以其整体并入本文。

在本公开文本的组合物的一些实施方案中，所述第一RNA结合蛋白包含Pumilio和FBF(PUF)蛋白。在一些实施方案中，所述第一RNA结合蛋白包含基于Pumilio的组装(PUMBY)蛋白。在一些实施方案中，所述PUF或PUMBY RNA结合蛋白与核酸酶结构域如E17(SEQ IDNO:358)融合。在另一个实施方案中，单个载体包含dCas13dRNA结合系统，所述dCas13d RNA结合系统与来自ZC3H12A的核酸酶结构域如E17(SEQ ID NO:359)融合。

在本公开文本的组合物的一些实施方案中，至少一种RNA结合蛋白或其RNA结合部分是PPR蛋白。PPR蛋白(从植物衍生的具有三角状五肽重复(PPR)基序的蛋白质)是核编码的并且仅在RNA水平上受控制的细胞器(叶绿体和线粒体)，切割，翻译，剪接，RNA编辑，特异性作用于RNA稳定性的基因。PPR蛋白通常是35个氨基酸的基序，并且具有以下结构，其中PPR基序是约10个连续氨基酸。PPR基序的组合可以用于与RNA的序列选择性结合。PPR蛋白通常由约10个重复结构域的PPR基序构成。PPR结构域或RNA结合结构域可以被配置为无催化活性的。将WO 2013/058404通过引用以其整体并入本文。

在一些实施方案中，本文公开的融合蛋白在所述至少两种RNA结合多肽之间包含接头。在一些实施方案中，所述接头是肽接头。在一个实施方案中，所述接头是VDTANGS(SEQID NO:411)。在一些实施方案中，所述肽接头包含三肽GGS的一个或多个重复。在其他实施方案中，所述接头是非肽接头。在一些实施方案中，所述非肽接头包含聚乙二醇(PEG)、聚丙二醇(PPG)、共-聚(乙二醇/丙二醇)、聚氧乙烯(POE)、聚氨基甲酸酯、聚膦腈、多糖、葡聚糖、聚乙烯醇、聚乙烯吡咯烷酮、聚乙烯基乙醚、聚丙烯酰胺、聚丙烯酸酯、聚氰基丙烯酸酯、脂质聚合物、甲壳素、透明质酸、肝素或烷基接头。

在一些实施方案中，所述至少一种RNA结合蛋白不需要多聚化以用于RNA结合活性。在一些实施方案中，所述至少一种RNA结合蛋白不是多聚体复合物的单体。在一些实施方案中，多聚体蛋白复合物不包含所述RNA结合蛋白。在一些实施方案中，所述至少一种RNA结合蛋白与所述RNA分子内的靶序列选择性结合。在一些实施方案中，所述至少一种RNA结合蛋白不包含对所述RNA分子内的第二序列的亲和力。在一些实施方案中，所述至少一种RNA结合蛋白不包含对所述RNA分子内的第二序列的高亲和力或不选择性结合所述第二序列。在一些实施方案中，所述至少一种RNA结合蛋白包含在2个与1300个之间的氨基酸，包括端点。

在一些实施方案中，本文公开的融合蛋白的所述至少一种RNA结合蛋白还包含编码核定位信号(NLS)的序列。在一些实施方案中，核定位信号(NLS)定位于所述RNA结合蛋白的N末端。在一些实施方案中，所述至少一种RNA结合蛋白包含在所述蛋白质的C末端的NLS。在一些实施方案中，所述至少一种RNA结合蛋白还包含编码第一NLS的第一序列和编码第二NLS的第二序列。在一些实施方案中，所述第一NLS或所述第二NLS定位于所述RNA结合蛋白的N末端。在一些实施方案中，所述至少一种RNA结合蛋白包含在所述蛋白质的C末端的第一NLS或第二NLS。在一些实施方案中，所述至少一种RNA结合蛋白还包含NES(核输出信号)或其他肽标签或分泌信号。在一个实施方案中，所述标签是FLAG标签。

在一些实施方案中，本文公开的融合蛋白包含所述至少一种RNA结合蛋白作为第一RNA结合蛋白以及包含核酸酶结构域或由其组成的第二RNA结合蛋白。

在一些实施方案中，所述第二RNA结合多肽被可操作地配置到在所述第一RNA结合多肽的C末端的第一RNA结合多肽。在一些实施方案中，所述第二RNA结合多肽被可操作地配置到在所述第一RNA结合多肽的N末端的第一RNA结合多肽。在一个实施方案中，示例性融合蛋白是与第二RNA结合蛋白融合的基于PUF或PUMBY的第一RNA结合蛋白，所述第二RNA结合蛋白是SEQ ID NO:358中所示的称为ZC3H12A的锌指核酸内切酶或其截短(也称为E17)。

靶向UGCUGCUGCUGCUG(SEQ ID NO:454)的示例性14聚体RNA识别(14PUMBY)包含氨基酸序列：

GRSRLLEDFRNNRYPNLQLREIAGHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGNYVIQHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGNYVIQHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGNYVIQHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGNYVIQHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGNYVIQHVLEHGRPEDKSKIVAEIRGHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:547)。

在一些方面，SEQ ID NO:547包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R6-R7-R8-R8’。在一些方面，SEQ ID NO:547由表11中详述的序列组成。

表11：根据SEQ ID NO:547的8PUF蛋白

GRSRLLEDFRNNRYPNLQLREIAGHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGNYVIQHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGNYVIQHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGNYVIQHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGNYVIQHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGNYVIQHVLEHGRPEDKSKIVAEIRGHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:547)。在一些方面，SEQ ID NO:547包含从N末端至C末端根据以下进行的结构：R1’-R6-R6-R6-R6-R6-R6-R6-R6-R6-R6-R6-R6-R6-R6-R8’。在一些方面，SEQ ID NO:547由表12中详述的序列组成。

表12：根据SEQ ID NO:547的14Pumby蛋白

靶向CUGCUGCUGCUGCU(SEQ ID NO:473)的示例性14聚体RNA识别(14PUMBY)包含氨基酸序列：

GRSRLLEDFRNNRYPNLQLREIAGHTEQLVQDQYGNYVIQHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGNYVIQHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGNYVIQHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGNYVIQHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGNYVIQHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:548)。在一些方面，SEQ ID NO:548包含从N末端至C末端根据以下进行的结构：R1’-R6-R6-R6-R6-R6-R6-R6-R6-R6-R6-R6-R6-R6-R6-R8’。在一些方面，SEQ ID NO:548由表13中详述的序列组成。

表13：根据SEQ ID NO:548的14Pumby蛋白

靶向GCUGCUGCUGCUGC(SEQ ID NO:477)的示例性14聚体RNA识别(14PUMBY)包含氨基酸序列：

GRSRLLEDFRNNRYPNLQLREIAGHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGNYVIQHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGNYVIQHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGNYVIQHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGNYVIQHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:558)。在一些方面，SEQ ID NO:558包含从N末端至C末端根据以下进行的结构：R1’-R6-R6-R6-R6-R6-R6-R6-R6-R6-R6-R6-R6-R6-R6-R8’。在一些方面，SEQ ID NO:558由表14中详述的序列组成。

表14：根据SEQ ID NO:558的14Pumby蛋白

靶向UGCUGCUG(SEQ ID NO:453)的示例性8聚体RNA识别(8PUF)包含氨基酸序列：

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIELKLERATPAERQLVFNEILQAAYQLMVDVFGNYVIQKFFEFGSLEQKLALAERIRGHVLSLALQMYGSYVIRKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVEKCIECVQPQSLQFIIDAFKGQVFALSTHPYGNRVIQRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASNVVEKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYANYVVQKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:444)。在一些方面，SEQ ID NO:444包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R6-R7-R8-R8’。在一些方面，SEQ ID NO:444由表15中详述的序列组成。

表15：根据SEQ ID NO:444的8PUF蛋白

在一些实施方案中，本公开文本的编码PUF蛋白的核酸序列是密码子优化的核酸序列。在一些实施方案中，在人受试者中，编码PUF蛋白的密码子优化的序列相对于野生型或非密码子优化的核酸序列展现出至少5％、至少10％、至少20％、至少30％、至少50％、至少75％、至少100％、至少200％、至少300％、至少500％或至少1000％增加的表达。在一些实施方案中，本公开文本的8PUF蛋白由包含SEQ ID NO:452的核酸序列编码。在一些实施方案中，编码包含靶向CUG的8PUF和E17核酸酶的融合蛋白的核苷酸序列包含SEQ ID NO:460。在一些实施方案中，编码靶向CUG的融合蛋白的核苷酸序列从5’至3’包含：flag标签、SV-40核定位序列、8PUF和E17核酸酶，如SEQ ID NO:515中所示。在一些实施方案中，编码靶向CUG的融合蛋白的核苷酸序列从5’至3’包含：SV-40核定位序列、8PUF和E17核酸酶，如SEQ ID NO:517中所示。在一些实施方案中，编码靶向CUG的融合蛋白的核苷酸序列从5’至3’包含：8PUF和E17核酸酶，如SEQ ID NO:516中所示。

在一些实施方案中，本公开文本的编码PUF蛋白的核酸序列是密码子优化的核酸序列。在一些实施方案中，在人受试者中，编码PUF蛋白的密码子优化的序列相对于野生型或非密码子优化的核酸序列展现出至少5％、至少10％、至少20％、至少30％、至少50％、至少75％、至少100％、至少200％、至少300％、至少500％或至少1000％增加的翻译。

在一些方面，编码PUF蛋白的密码子优化的核酸序列(如SEQ ID NO:452和515-517中所示的那些)展现出增加的稳定性。在一些方面，编码PUF蛋白的密码子优化的核酸序列通过增加的对水解的抗性展现出增加的稳定性。在一些实施方案中，编码PUF蛋白的密码子优化的序列相对于野生型或非密码子优化的核酸序列展现出至少5％、至少10％、至少20％、至少30％、至少50％、至少75％、至少100％、至少200％、至少300％、至少500％或至少1000％增加的稳定性。在一些实施方案中，在人受试者中，编码PUF蛋白的密码子优化的序列相对于野生型或非密码子优化的核酸序列展现出至少5％、至少10％、至少20％、至少30％、至少50％、至少75％、至少100％、至少200％、至少300％、至少500％或至少1000％增加的对水解的抗性。

在一些方面，编码PUF蛋白的密码子优化的核酸序列(如SEQ ID NO:452和515-517中所示的那些)可以不包含供体剪接位点。在一些方面，编码PUF蛋白的密码子优化的核酸序列可以包含不超过约一个、或约两个、或约三个、或约四个、或约五个、或约六个、或约七个、或约八个、或约九个、或约十个供体剪接位点。在一些方面，与编码PUF蛋白的非密码子优化的核酸序列相比，编码PUF蛋白的密码子优化的核酸序列包含少至少一个、或至少两个、或至少三个、或至少四个、或至少五个、或至少六个、或至少七个、或至少八个、或至少九个、或至少十个的供体剪接位点。

不希望受理论束缚，在密码子优化的核酸序列中去除供体剪接位点可以出乎意料地且不可预测地增加体内PUF蛋白的表达，因为阻止了隐蔽剪接。此外，隐蔽剪接在不同受试者之间可能变化，这意味着包含供体剪接位点的PUF蛋白的表达水平在不同受试者之间可能不可预测地变化。这种不可预测性在人类疗法的背景下是不可接受的。因此，SEQ IDNO:452和515-517中所示的缺乏供体剪接位点的密码子优化的核酸序列出乎意料地且令人惊讶地允许人受试者中PUF蛋白的表达增加，并且使不同人受试者中PUF蛋白的表达规范化。

在一些方面，编码PUF蛋白的密码子优化的核酸序列(如SEQ ID NO:452和515-517中所示的那些)可以具有与编码PUF蛋白的非密码子优化的核酸序列的GC含量不同的GC含量。在一些方面，与编码PUF蛋白的非密码子优化的核酸序列相比，编码PUF蛋白的密码子优化的核酸序列的GC含量更均匀地分布在整个核酸序列上。

在一些方面，与编码PUF蛋白的非密码子优化的核酸序列相比，编码PUF蛋白的密码子优化的核酸序列(如SEQ ID NO:452和515-517中所示的那些)可以具有更少的抑制性微小RNA靶结合位点。在一些方面，与编码PUF蛋白的非密码子优化的核酸序列相比，编码PUF蛋白的密码子优化的核酸序列可以具有少至少一个、或至少两个、或至少三个、或至少四个、或至少五个、或至少六个、或至少七个、或至少八个、或至少九个、或至少十个、或至少十个的抑制性微小RNA靶结合位点。

不希望受到理论的束缚，通过具有更少的抑制性微小RNA靶结合位点，编码PUF蛋白的密码子优化的核酸序列出乎意料地在人受试者中展现出增加的表达。

在一些实施方案中，8PUF蛋白可以由包含以下的核酸序列编码：

GGACGAAGCCGACTCTTGGAAGACTTCAGAAACAATCGGTATCCGAACCTTCAGCTGAGAGAAATTGCTGGTCACATCATGGAATTTTCTCAAGATCAACATGGAAGCCGGTTTATTGAACTTAAACTCGAACGAGCCACCCCGGCCGAAAGGCAATTGGTGTTCAATGAAATTCTTCAGGCCGCATACCAACTCATGGTTGATGTTTTTGGGAACTATGTTATTCAAAAGTTTTTTGAGTTCGGGTCACTGGAGCAAAAGTTGGCATTGGCAGAGCGAATCCGGGGCCATGTTCTGAGCCTCGCTCTCCAAATGTACGGTAGTTATGTCATTCGCAAAGCACTCGAGTTCATACCATCAGATCAACAGAATGAGATGGTGCGGGAGCTGGATGGGCATGTTTTGAAATGCGTGAAAGACCAAAACGGTAGCTACGTAGTTGAGAAATGCATCGAATGCGTCCAACCACAGTCTCTCCAATTTATTATAGATGCATTTAAGGGTCAGGTTTTCGCGCTTTCTACGCACCCGTATGGGAACCGAGTGATTCAGAGAATCTTGGAGCACTGCCTGCCGGATCAGACACTCCCTATCTTGGAGGAATTGCACCAGCATACCGAACAATTGGTGCAAGATCAATACGGTTCATATGTTATTCGGCACGTTCTTGAGCATGGAAGGCCAGAGGACAAGTCAAAGATCGTCGCTGAGATTAGAGGTAACGTATTGGTGCTCTCACAACACAAATTTGCATCTAATGTGGTGGAGAAATGTGTTACTCATGCTTCTAGAACGGAAAGGGCAGTTCTCATAGACGAAGTTTGCACAATGAATGATGGTCCTCATAGCGCACTTTATACCATGATGAAGGACCAGTATGCAAACTATGTCGTCCAGAAAATGATCGATGTGGCGGAGCCCGGTCAACGGAAAATCGTGATGCACAAAATCCGACCTCACATTGCTACACTCAGAAAATACACGTATGGAAAACATATTCTGGCTAAGCTGGAGAAATATTACATGAAGAATGGAGTGGATCTGGGG(SEQ IDNO:452)。

靶向UGCUGCUGCUGCUG(SEQ ID NO:454)的示例性14聚体RNA识别(14PUF)包含氨基酸序列：

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIELKLERATPAERQLVFNEILQAAYQLMVDVFGNYVIQKFFEFGSLEQKLALAERIRGHVLSLALQMYGSYVIRKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVEKCIECVQPQSLQFIIDAFKGQVFALSTHPYGNRVIQRILEHCLPDQTLPILEELHQHIMEFSQDQHGSRFIRLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIEKFFEFGSLEQKLALAERIRGHVLSLALQMYGNRVIQKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVRKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIERILEHCLPDQTLPILEELHQHTEQLVQDQYGNYVIQHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASNVVEKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYANYVVQKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:445)。在一些方面，SEQ IDNO:445包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R1-R2-R3-R4-R5-R6-R6-R7-R8-R8’。在一些方面，SEQ ID NO:445由表16中详述的序列组成。

表16：根据SEQ ID NO:445的14PUF蛋白

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIELKLERATPAERQLVFNEILQAAYQLMVDVFGNYVIQKFFEFGSLEQKLALAERIRGHVLSLALQMYGSYVIRKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVEKCIECVQPQSLQFIIDAFKGQVFALSTHPYGNRVIQRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGHIMEFSQDQHGSRFIELKLERATPAERQLVFNEILQAAYQLMVDVFGNYVIQKFFEFGSLEQKLALAERIRGHVLSLALQMYGSYVIRKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVEKCIECVQPQSLQFIIDAFKGQVFALSTHPYGNRVIQRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASNVVEKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYANYVVQKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:446)。在一些方面，SEQ IDNO:446包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R6-R1-R2-R3-R4-R5-R6-R7-R8-R8’。在一些方面，SEQ ID NO:446由表17中详述的序列组成。

表17：根据SEQ ID NO:446的14PUF蛋白

靶向UGCUGCUGCUGCUGC(SEQ ID NO:455)的示例性15聚体RNA识别(15PUF)包含氨基酸序列：

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIRLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIEKFFEFGSLEQKLALAERIRGHVLSLALQMYGNRVIQKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVRKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIERILEHCLPDQTLPILEELHQHIMEFSQDQHGNRFIQLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIRKFFEFGSLEQKLALAERIRGHVLSLALQMYGSRVIEKALEFIPSDQQNEMVRELDGHVLKCVKDQNGNHVVQKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIRRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFANNVVQKCVTHASRTERAVLIDEVCTMNDGPHSHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASNVVEKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYANYVVQKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:447)。在一些方面，SEQ ID NO:447包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R1-R2-R3-R4-R5-R6-R7-R6-R7-R8-R8’。在一些方面，SEQID NO:447由表18中详述的序列组成。

表18：根据SEQ ID NO:447的15PUF蛋白

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIRLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIEKFFEFGSLEQKLALAERIRGHVLSLALQMYGNRVIQKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVRKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIERILEHCLPDQTLPILEELHQHTEQLVQDQYGNYVIQHVLEHGRPEDKSKIVAEIRGHIMEFSQDQHGSRFIRLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIEKFFEFGSLEQKLALAERIRGHVLSLALQMYGNRVIQKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVRKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIERILEHCLPDQTLPILEELHQHTEQLVQDQYGNYVIQHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASYVVRKCVTHASRTERAVLIDEVCTMNDGPHSNVLVLSQHKFASNVVEKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYANYVVQKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:448)。在一些方面，SEQ ID NO:448包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R6-R1-R2-R3-R4-R5-R6-R7-R7-R8-R8’。在一些方面，SEQID NO:448由表19中详述的序列组成。

表19：根据SEQ ID NO:448的15PUF蛋白

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIRLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIEKFFEFGSLEQKLALAERIRGHVLSLALQMYGNRVIQKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVRKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIERILEHCLPDQTLPILEELHQHTEQLVQDQYGNYVIQHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASYVVRKCVTHASRTERAVLIDEVCTMNDGPHSHIMEFSQDQHGSRFIELKLERATPAERQLVFNEILQAAYQLMVDVFGNYVIQKFFEFGSLEQKLALAERIRGHVLSLALQMYGSYVIRKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVEKCIECVQPQSLQFIIDAFKGQVFALSTHPYGNRVIQRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASNVVEKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYANYVVQKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:461)。在一些方面，SEQ ID NO:461包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R6-R7-R1-R2-R3-R4-R5-R6-R7-R8-R8’。在一些方面，SEQID NO:461由表20中详述的序列组成。

表20：根据SEQ ID NO:461的15PUF蛋白

靶向UGCUGCUGCUGCUGCU(SEQ ID NO:456)的示例性16聚体RNA识别(16PUF)包含氨基酸序列：

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGNRFIQLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIRKFFEFGSLEQKLALAERIRGHVLSLALQMYGSRVIEKALEFIPSDQQNEMVRELDGHVLKCVKDQNGNHVVQKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIRRILEHCLPDQTLPILEELHQHIMEFSQDQHGSRFIELKLERATPAERQLVFNEILQAAYQLMVDVFGNYVIQKFFEFGSLEQKLALAERIRGHVLSLALQMYGSYVIRKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVEKCIECVQPQSLQFIIDAFKGQVFALSTHPYGNRVIQRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASNVVEKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYANYVVQKMIDVAEPGQRKIVMHKIRPHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASNVVEKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYANYVVQKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:449)。在一些方面，SEQ IDNO:449包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R1-R2-R3-R4-R5-R6-R7-R8-R6-R7-R8-R8’。在一些方面，SEQ ID NO:449由表21中详述的序列组成。

表21：根据SEQ ID NO:449的16PUF蛋白

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGNRFIQLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIRKFFEFGSLEQKLALAERIRGHVLSLALQMYGSRVIEKALEFIPSDQQNEMVRELDGHVLKCVKDQNGNHVVQKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIRRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGHIMEFSQDQHGNRFIQLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIRKFFEFGSLEQKLALAERIRGHVLSLALQMYGSRVIEKALEFIPSDQQNEMVRELDGHVLKCVKDQNGNHVVQKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIRRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFANNVVQKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASYVVRKMIDVAEPGQRKIVMHKIRPNVLVLSQHKFASNVVEKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYANYVVQKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:450)。在一些方面，SEQ IDNO:450包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R6-R1-R2-R3-R4-R5-R6-R7-R8-R7-R8-R8’。在一些方面，SEQ ID NO:450由表22中详述的序列组成。

表22：根据SEQ ID NO:450的16PUF蛋白

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGNRFIQLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIRKFFEFGSLEQKLALAERIRGHVLSLALQMYGSRVIEKALEFIPSDQQNEMVRELDGHVLKCVKDQNGNHVVQKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIRRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFANNVVQKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASYVVRKMIDVAEPGQRKIVMHKIRPHIMEFSQDQHGSRFIELKLERATPAERQLVFNEILQAAYQLMVDVFGNYVIQKFFEFGSLEQKLALAERIRGHVLSLALQMYGSYVIRKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVEKCIECVQPQSLQFIIDAFKGQVFALSTHPYGNRVIQRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASNVVEKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYANYVVQKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:451)。在一些方面，SEQ IDNO:451包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R6-R7-R8-R1-R2-R3-R4-R5-R6-R7-R8-R8’。在一些方面，SEQ ID NO:451由表23中详述的序列组成。

表23：根据SEQ ID NO:451的16PUF蛋白

靶向CUGCUGCU(SEQ ID NO:472)的示例性8聚体RNA识别(8PUF)包含氨基酸序列：

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGNRFIQLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIRKFFEFGSLEQKLALAERIRGHVLSLALQMYGSRVIEKALEFIPSDQQNEMVRELDGHVLKCVKDQNGNHVVQKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIRRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFANNVVQKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASYVVRKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:480)。在一些方面，SEQ ID NO:480包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R6-R7-R8-R8’。在一些方面，SEQ ID NO:480由表24中详述的序列组成。

表24：根据SEQ ID NO:480的8PUF蛋白

靶向CUGCUGCUGCUGCU(SEQ ID NO:473)的示例性14聚体RNA识别(14PUF)包含氨基酸序列：

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGNRFIQLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIRKFFEFGSLEQKLALAERIRGHVLSLALQMYGSRVIEKALEFIPSDQQNEMVRELDGHVLKCVKDQNGNHVVQKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIRRILEHCLPDQTLPILEELHQHIMEFSQDQHGSRFIELKLERATPAERQLVFNEILQAAYQLMVDVFGNYVIQKFFEFGSLEQKLALAERIRGHVLSLALQMYGSYVIRKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVEKCIECVQPQSLQFIIDAFKGQVFALSTHPYGNRVIQRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFANNVVQKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASYVVRKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:481)。在一些方面，SEQ IDNO:481包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R1-R2-R3-R4-R5-R6-R6-R7-R8-R8’。在一些方面，SEQ ID NO:481由表25中详述的序列组成。

表25：根据SEQ ID NO:481的14PUF蛋白

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGNRFIQLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIRKFFEFGSLEQKLALAERIRGHVLSLALQMYGSRVIEKALEFIPSDQQNEMVRELDGHVLKCVKDQNGNHVVQKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIRRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGHIMEFSQDQHGNRFIQLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIRKFFEFGSLEQKLALAERIRGHVLSLALQMYGSRVIEKALEFIPSDQQNEMVRELDGHVLKCVKDQNGNHVVQKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIRRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFANNVVQKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASYVVRKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:482)。在一些方面，SEQ IDNO:482包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R6-R1-R2-R3-R4-R5-R6-R7-R8-R8’。在一些方面，SEQ ID NO:482由表26中详述的序列组成。

表26：根据SEQ ID NO:482的14PUF蛋白

靶向CUGCUGCUGCUGCUG(SEQ ID NO:474)的示例性15聚体RNA识别(15PUF)包含氨基酸序列：

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIELKLERATPAERQLVFNEILQAAYQLMVDVFGNYVIQKFFEFGSLEQKLALAERIRGHVLSLALQMYGSYVIRKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVEKCIECVQPQSLQFIIDAFKGQVFALSTHPYGNRVIQRILEHCLPDQTLPILEELHQHIMEFSQDQHGSRFIRLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIEKFFEFGSLEQKLALAERIRGHVLSLALQMYGNRVIQKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVRKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIERILEHCLPDQTLPILEELHQHTEQLVQDQYGNYVIQHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASYVVRKCVTHASRTERAVLIDEVCTMNDGPHSHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFANNVVQKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASYVVRKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:483)。在一些方面，SEQ ID NO:483包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R1-R2-R3-R4-R5-R6-R7-R6-R7-R8-R8’。在一些方面，SEQID NO:483由表27中详述的序列组成。

表27：根据SEQ ID NO:483的15PUF蛋白

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIELKLERATPAERQLVFNEILQAAYQLMVDVFGNYVIQKFFEFGSLEQKLALAERIRGHVLSLALQMYGSYVIRKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVEKCIECVQPQSLQFIIDAFKGQVFALSTHPYGNRVIQRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGHIMEFSQDQHGSRFIELKLERATPAERQLVFNEILQAAYQLMVDVFGNYVIQKFFEFGSLEQKLALAERIRGHVLSLALQMYGSYVIRKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVEKCIECVQPQSLQFIIDAFKGQVFALSTHPYGNRVIQRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASNVVEKCVTHASRTERAVLIDEVCTMNDGPHSNVLVLSQHKFANNVVQKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASYVVRKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:484)。在一些方面，SEQ ID NO:484包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R6-R1-R2-R3-R4-R5-R6-R7-R7-R8-R8’。在一些方面，SEQID NO:484由表28中详述的序列组成。

表28：根据SEQ ID NO:484的15PUF蛋白

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIELKLERATPAERQLVFNEILQAAYQLMVDVFGNYVIQKFFEFGSLEQKLALAERIRGHVLSLALQMYGSYVIRKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVEKCIECVQPQSLQFIIDAFKGQVFALSTHPYGNRVIQRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASNVVEKCVTHASRTERAVLIDEVCTMNDGPHSHIMEFSQDQHGNRFIQLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIRKFFEFGSLEQKLALAERIRGHVLSLALQMYGSRVIEKALEFIPSDQQNEMVRELDGHVLKCVKDQNGNHVVQKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIRRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFANNVVQKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASYVVRKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:485)。在一些方面，SEQ ID NO:485包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R6-R7-R1-R2-R3-R4-R5-R6-R7-R8-R8’。在一些方面，SEQID NO:485由表29中详述的序列组成。

表29：根据SEQ ID NO:485的15PUF蛋白

靶向CUGCUGCUGCUGCUGC(SEQ ID NO:475)的示例性16聚体RNA识别(16PUF)包含氨基酸序列：

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIRLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIEKFFEFGSLEQKLALAERIRGHVLSLALQMYGNRVIQKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVRKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIERILEHCLPDQTLPILEELHQHIMEFSQDQHGNRFIQLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIRKFFEFGSLEQKLALAERIRGHVLSLALQMYGSRVIEKALEFIPSDQQNEMVRELDGHVLKCVKDQNGNHVVQKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIRRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFANNVVQKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASYVVRKMIDVAEPGQRKIVMHKIRPHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFANNVVQKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASYVVRKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:486)。在一些方面，SEQ IDNO:486包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R1-R2-R3-R4-R5-R6-R7-R8-R6-R7-R8-R8’。在一些方面，SEQ ID NO:486由表30中详述的序列组成。

表30：根据SEQ ID NO:486的16PUF蛋白

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIRLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIEKFFEFGSLEQKLALAERIRGHVLSLALQMYGNRVIQKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVRKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIERILEHCLPDQTLPILEELHQHTEQLVQDQYGNYVIQHVLEHGRPEDKSKIVAEIRGHIMEFSQDQHGSRFIRLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIEKFFEFGSLEQKLALAERIRGHVLSLALQMYGNRVIQKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVRKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIERILEHCLPDQTLPILEELHQHTEQLVQDQYGNYVIQHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASYVVRKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASYVVEKMIDVAEPGQRKIVMHKIRPNVLVLSQHKFANNVVQKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASYVVRKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:487)。在一些方面，SEQ IDNO:487包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R6-R1-R2-R3-R4-R5-R6-R7-R8-R7-R8-R8’。在一些方面，SEQ ID NO:487由表31中详述的序列组成。

表31：根据SEQ ID NO:487的16PUF蛋白

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIRLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIEKFFEFGSLEQKLALAERIRGHVLSLALQMYGNRVIQKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVRKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIERILEHCLPDQTLPILEELHQHTEQLVQDQYGNYVIQHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASYVVRKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASYVVEKMIDVAEPGQRKIVMHKIRPHIMEFSQDQHGNRFIQLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIRKFFEFGSLEQKLALAERIRGHVLSLALQMYGSRVIEKALEFIPSDQQNEMVRELDGHVLKCVKDQNGNHVVQKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIRRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFANNVVQKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASYVVRKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:488)。在一些方面，SEQ IDNO:488包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R6-R7-R8-R1-R2-R3-R4-R5-R6-R7-R8-R8’。在一些方面，SEQ ID NO:488由表32中详述的序列组成。

表32：根据SEQ ID NO:488的16PUF蛋白

靶向GCUGCUGC(SEQ ID NO:476)的示例性8聚体RNA识别(8PUF)包含氨基酸序列：

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIRLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIEKFFEFGSLEQKLALAERIRGHVLSLALQMYGNRVIQKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVRKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIERILEHCLPDQTLPILEELHQHTEQLVQDQYGNYVIQHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASYVVRKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASYVVEKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:549)。在一些方面，SEQ ID NO:549包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R6-R7-R8-R8’。在一些方面，SEQ ID NO:549由表33中详述的序列组成。

表33：根据SEQ ID NO:549的8PUF蛋白

靶向GCUGCUGCUGCUGC(SEQ ID NO:477)的示例性14聚体RNA识别(14PUF)包含氨基酸序列：

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIRLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIEKFFEFGSLEQKLALAERIRGHVLSLALQMYGNRVIQKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVRKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIERILEHCLPDQTLPILEELHQHIMEFSQDQHGNRFIQLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIRKFFEFGSLEQKLALAERIRGHVLSLALQMYGSRVIEKALEFIPSDQQNEMVRELDGHVLKCVKDQNGNHVVQKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIRRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGNYVIQHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASYVVRKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASYVVEKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:550)。在一些方面，SEQ IDNO:550包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R1-R2-R3-R4-R5-R6-R6-R7-R8-R8’。在一些方面，SEQ ID NO:550由表34中详述的序列组成。

表34：根据SEQ ID NO:550的14PUF蛋白

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIRLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIEKFFEFGSLEQKLALAERIRGHVLSLALQMYGNRVIQKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVRKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIERILEHCLPDQTLPILEELHQHTEQLVQDQYGNYVIQHVLEHGRPEDKSKIVAEIRGHIMEFSQDQHGSRFIRLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIEKFFEFGSLEQKLALAERIRGHVLSLALQMYGNRVIQKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVRKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIERILEHCLPDQTLPILEELHQHTEQLVQDQYGNYVIQHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASYVVRKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASYVVEKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:551)。在一些方面，SEQ IDNO:551包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R6-R1-R2-R3-R4-R5-R6-R7-R8-R8’。在一些方面，SEQ ID NO:551由表35中详述的序列组成。

表35：根据SEQ ID NO:551的14PUF蛋白

靶向GCUGCUGCUGCUGCU(SEQ ID NO:478)的示例性15聚体RNA识别(15PUF)包含氨基酸序列：

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGNRFIQLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIRKFFEFGSLEQKLALAERIRGHVLSLALQMYGSRVIEKALEFIPSDQQNEMVRELDGHVLKCVKDQNGNHVVQKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIRRILEHCLPDQTLPILEELHQHIMEFSQDQHGSRFIELKLERATPAERQLVFNEILQAAYQLMVDVFGNYVIQKFFEFGSLEQKLALAERIRGHVLSLALQMYGSYVIRKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVEKCIECVQPQSLQFIIDAFKGQVFALSTHPYGNRVIQRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASNVVEKCVTHASRTERAVLIDEVCTMNDGPHSHTEQLVQDQYGNYVIQHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASYVVRKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASYVVEKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:552)。在一些方面，SEQ ID NO:552包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R1-R2-R3-R4-R5-R6-R7-R6-R7-R8-R8’。在一些方面，SEQID NO:552由表36中详述的序列组成。

表36：根据SEQ ID NO:552的15PUF蛋白

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGNRFIQLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIRKFFEFGSLEQKLALAERIRGHVLSLALQMYGSRVIEKALEFIPSDQQNEMVRELDGHVLKCVKDQNGNHVVQKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIRRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGHIMEFSQDQHGNRFIQLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIRKFFEFGSLEQKLALAERIRGHVLSLALQMYGSRVIEKALEFIPSDQQNEMVRELDGHVLKCVKDQNGNHVVQKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIRRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFANNVVQKCVTHASRTERAVLIDEVCTMNDGPHSNVLVLSQHKFASYVVRKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASYVVEKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:553)。在一些方面，SEQ ID NO:553包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R6-R1-R2-R3-R4-R5-R6-R7-R7--R8-R8’。在一些方面，SEQID NO:553由表37中详述的序列组成。

表37：根据SEQ ID NO:553的15PUF蛋白

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGNRFIQLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIRKFFEFGSLEQKLALAERIRGHVLSLALQMYGSRVIEKALEFIPSDQQNEMVRELDGHVLKCVKDQNGNHVVQKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIRRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFANNVVQKCVTHASRTERAVLIDEVCTMNDGPHSHIMEFSQDQHGSRFIRLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIEKFFEFGSLEQKLALAERIRGHVLSLALQMYGNRVIQKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVRKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIERILEHCLPDQTLPILEELHQHTEQLVQDQYGNYVIQHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASYVVRKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASYVVEKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:554)。在一些方面，SEQ ID NO:554包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R6-R7-R1-R2-R3-R4-R5-R6-R7-R8-R8’。在一些方面，SEQID NO:554由表38中详述的序列组成。

表38：根据SEQ ID NO:554的15PUF蛋白

靶向GCUGCUGCUGCUGCUG(SEQ ID NO:479)的示例性16聚体RNA识别(16PUF)包含氨基酸序列：

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIELKLERATPAERQLVFNEILQAAYQLMVDVFGNYVIQKFFEFGSLEQKLALAERIRGHVLSLALQMYGSYVIRKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVEKCIECVQPQSLQFIIDAFKGQVFALSTHPYGNRVIQRILEHCLPDQTLPILEELHQHIMEFSQDQHGSRFIRLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIEKFFEFGSLEQKLALAERIRGHVLSLALQMYGNRVIQKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVRKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIERILEHCLPDQTLPILEELHQHTEQLVQDQYGNYVIQHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASYVVRKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASYVVEKMIDVAEPGQRKIVMHKIRPHTEQLVQDQYGNYVIQHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASYVVRKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASYVVEKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:555)。在一些方面，SEQ IDNO:555包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R1-R2-R3-R4-R5-R6-R7-R8-R6-R7-R8-R8’。在一些方面，SEQ ID NO:555由表39中详述的序列组成。

表39：根据SEQ ID NO:555的16PUF蛋白

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIELKLERATPAERQLVFNEILQAAYQLMVDVFGNYVIQKFFEFGSLEQKLALAERIRGHVLSLALQMYGSYVIRKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVEKCIECVQPQSLQFIIDAFKGQVFALSTHPYGNRVIQRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGHIMEFSQDQHGSRFIELKLERATPAERQLVFNEILQAAYQLMVDVFGNYVIQKFFEFGSLEQKLALAERIRGHVLSLALQMYGSYVIRKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVEKCIECVQPQSLQFIIDAFKGQVFALSTHPYGNRVIQRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASNVVEKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYANYVVQKMIDVAEPGQRKIVMHKIRPNVLVLSQHKFASYVVRKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASYVVEKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:556)。在一些方面，SEQ IDNO:556包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R6-R1-R2-R3-R4-R5-R6-R7-R8-R7-R8-R8’。在一些方面，SEQ ID NO:556由表40中详述的序列组成。

表40：根据SEQ ID NO:556的16PUF蛋白

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIELKLERATPAERQLVFNEILQAAYQLMVDVFGNYVIQKFFEFGSLEQKLALAERIRGHVLSLALQMYGSYVIRKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVEKCIECVQPQSLQFIIDAFKGQVFALSTHPYGNRVIQRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASNVVEKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYANYVVQKMIDVAEPGQRKIVMHKIRPHIMEFSQDQHGSRFIRLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIEKFFEFGSLEQKLALAERIRGHVLSLALQMYGNRVIQKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVRKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIERILEHCLPDQTLPILEELHQHTEQLVQDQYGNYVIQHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASYVVRKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASYVVEKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:557)。在一些方面，SEQ IDNO:557包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R6-R7-R8-R1-R2-R3-R4-R5-R6-R7-R8-R8’。在一些方面，SEQ ID NO:557由表41中详述的序列组成。

表41：根据SEQ ID NO:557的16PUF蛋白

在一些方面，本公开文本的融合蛋白包含根据SEQ ID NO:444-451、461、480-488、547-558、570或638-649的PUF。在一些方面，本公开文本的融合蛋白包含根据SEQ ID NO:444的PUF。在一些方面，本公开文本的融合蛋白从N末端至C末端包含：人NLS序列；根据SEQID NO:444的PUF；接头序列；和核酸内切酶。在一些方面，将本公开文本的示例性8PUF靶向CUG融合蛋白从N末端至C末端根据表42-50中的任一个中所列的元件布置。在一些实施方案中，本公开文本的包含8PUF蛋白的靶向CUG的融合蛋白包含SEQ ID NO:559。在一些实施方案中，本公开文本的包含14PUF蛋白的靶向CUG的融合蛋白包含SEQ ID NO:560。在一些实施方案中，本公开文本的包含14PUF蛋白的靶向CUG的融合蛋白包含SEQ ID NO:561。在一些实施方案中，本公开文本的包含15PUF蛋白的靶向CUG的融合蛋白包含SEQ ID NO:562。在一些实施方案中，本公开文本的包含15PUF蛋白的靶向CUG的融合蛋白包含SEQ ID NO:563。在一些实施方案中，本公开文本的包含15PUF蛋白的靶向CUG的融合蛋白包含SEQ ID NO:567。在一些实施方案中，本公开文本的包含16PUF蛋白的靶向CUG的融合蛋白包含SEQ ID NO:565。在一些实施方案中，本公开文本的包含16PUF蛋白的靶向CUG的融合蛋白包含SEQ ID NO:566。在一些实施方案中，本公开文本的包含16PUF蛋白的靶向CUG的融合蛋白包含SEQ IDNO:567。

表42：示例性8PUF靶向CUG融合蛋白

表43：示例性14PUF靶向CUG融合蛋白

表44：示例性14PUF靶向CUG融合蛋白

表45：示例性15PUF靶向CUG融合蛋白

表46：示例性15PUF靶向CUG融合蛋白

表47：示例性15PUF靶向CUG融合蛋白

表48：示例性16PUF靶向CUG融合蛋白

表49：示例性16PUF靶向CUG融合蛋白

另外的PUF(CUG)RNA靶向组合物如下：含或不含核酸内切酶的靶向CUGf3的16PUFN5(DM1)

表T：示例性16PUF靶向CUG融合蛋白(阻断或*切割)

含或不含核酸内切酶的靶向CUGf3的16PUFN6(DM1)

以N末端至C末端的顺序的转基因元件的氨基酸序列(阻断或*切割)

含或不含核酸内切酶的靶向CUGf3的16PUFN0(DM1)

含或不含核酸内切酶的含C末端堆叠突变的靶向CUGf3的8PUF(DM1)

用于与或不与核酸内切酶一起使用的含堆叠突变的靶向CUGf3的8PUF(DM1)

载体

在本公开文本的组合物和方法的一些实施方案中，载体包含本公开文本的指导RNA。在一些实施方案中，所述载体包含本公开文本的至少一种指导RNA。在一些实施方案中，所述载体包含本公开文本的一种或多种指导RNA。在一些实施方案中，所述载体包含本公开文本的两种或更多种指导RNA。在一个实施方案中，所述载体包含三种指导RNA。在一个实施方案中，所述载体包含四种指导RNA。在一些实施方案中，所述载体进一步包含本公开文本的指导的或非指导的RNA结合蛋白。在一些实施方案中，所述载体进一步包含本公开文本的RNA结合融合蛋白。在一些实施方案中，所述融合蛋白包含第一RNA结合蛋白和第二RNA结合蛋白。在一些实施方案中，包含RNA结合蛋白和gRNA的RNA指导的RNA结合系统是在单个载体中。在一个具体实施方案中，单个载体包含RNA指导的RNA结合系统，所述RNA指导的RNA结合系统是Cas13d RNA指导的RNA结合系统或催化失活的Cas13d(dCas13d)RNA指导的RNA结合系统。在一个实施方案中，单个载体包含Cas13d RNA指导的RNA结合系统，所述Cas13dRNA指导的RNA结合系统是CasRx或dCasRx RNA指导的RNA结合系统。在另一个实施方案中，单个载体包含非指导的RNA结合系统，所述非指导的RNA结合系统包含与来自ZC3H12A的核酸酶结构域如E17(SEQ ID NO:358)融合的基于PUF或PUMBY的蛋白质。在另一个实施方案中，单个载体包含dCas13d RNA结合系统，所述dCas13d RNA结合系统与来自ZC3H12A的核酸酶结构域如E17(SEQ ID NO:358)融合。

在本公开文本的组合物和方法的一些实施方案中，第一载体包含本公开文本的指导RNA，并且第二载体包含本公开文本的RNA结合蛋白或RNA结合融合蛋白。在一些实施方案中，所述第一载体包含本公开文本的至少一种指导RNA。在一些实施方案中，所述第一载体包含本公开文本的一种或多种指导RNA。在一些实施方案中，所述第一载体包含本公开文本的两种或更多种指导RNA。在一些实施方案中，所述融合蛋白包含第一RNA结合蛋白和第二RNA结合蛋白。在一些实施方案中，所述第一载体和所述第二载体是相同的载体或载体血清型。在一些实施方案中，所述第一载体和所述第二载体不是相同的载体或载体血清型。在本公开文本的组合物和方法的一些实施方案中，能够靶向毒性CUG RNA重复的RNA结合系统是在单个载体中。

一种类型的载体是“质粒”，其是指可以在其中插入(如通过标准分子克隆技术)另外的DNA区段的环状双链DNA环。另一种类型的载体是病毒载体，其中病毒来源的DNA或RNA序列存在于载体中以包装成病毒(例如逆转录病毒、复制缺陷型逆转录病毒、腺病毒、复制缺陷型腺病毒和腺相关病毒)。病毒载体还包含病毒携带的用于转染至宿主细胞中的多核苷酸。在一些实施方案中，所述载体是慢病毒(如整合缺陷型慢病毒载体)或腺相关病毒(AAV)载体。载体能够在其被引入的宿主细胞中自主复制(例如像具有细菌复制起点的细菌载体和附加体哺乳动物载体以及其他载体，例如像非附加体哺乳动物载体)，在引入宿主细胞后整合到宿主细胞的基因组中，从而与宿主基因组一起复制。

在一些实施方案中，载体(例如像表达载体)能够指导它们可操作连接的基因的表达。常见的表达载体通常呈质粒的形式。在一些实施方案中，重组表达载体包含本文提供的核酸(例如像可从DNA序列表达的指导RNA)和编码Cas 13d蛋白的呈适于在宿主细胞中表达蛋白质的形式的核酸。重组表达载体包含一个或多个调节元件，所述一个或多个调节元件是基于要用于表达的宿主细胞选择的，所述一个或多个调节元件可操作地连接至待表达的核酸序列。在重组表达载体中，“可操作地连接”旨在意指目的核苷酸序列与一个或多个调节元件以允许所述核苷酸序列表达(例如像在体外转录/翻译系统中或将载体引入宿主细胞时在宿主细胞中)的方式连接。载体的某些实施方案取决于这样的因素，如待转化的宿主细胞的选择以及所需的表达水平。可以将载体引入宿主细胞中，从而产生由如本文所述的核酸编码的转录物、蛋白质或肽(包括融合蛋白或肽)，例如像CRISPR转录物、蛋白质、酶、其突变型形式、其融合蛋白等。

在本公开文本的组合物和方法的一些实施方案中，本公开文本的载体是病毒载体。在一些实施方案中，所述病毒载体包含从逆转录病毒分离或衍生的序列。在一些实施方案中，所述病毒载体包含从慢病毒分离或衍生的序列。在一些实施方案中，所述病毒载体包含从腺病毒分离或衍生的序列。在一些实施方案中，所述病毒载体包含从腺相关病毒(AAV)分离或衍生的序列。在一些实施方案中，所述病毒载体无复制能力。在一些实施方案中，所述病毒载体是分离的或重组的。在一些实施方案中，所述病毒载体是自身互补的。

如本文所用的术语“腺相关病毒”或“AAV”是指与此名称相关并且属于细小病毒科(Parvoviridae)依赖细小病毒属(Dependoparvovirus)的一类病毒的成员。腺相关病毒是在细胞中生长的单链DNA病毒，其中某些功能由共同感染的辅助病毒提供。AAV的一般信息和综述可以在例如Carter,1989,Handbook of Parvoviruses,第1卷,第169-228页和Berns,1990,Virology,第1743-1764页,Raven Press,(New York)中找到。完全可以预期，这些综述中描述的相同原则将适用于在综述发表日期之后表征的另外的AAV血清型，因为众所周知，各种血清型在结构和功能上甚至在遗传水平上都非常密切相关。(参见例如，Blacklowe,1988,Parvoviruses and Human Disease,第165-174页,J.R.Pattison编辑；和Rose,Comprehensive Virology 3:1-61(1974))。例如，所有AAV血清型显然都展现出由同源rep基因介导的非常相似的复制特性；并且都带有三种相关的衣壳蛋白，如在AAV2中表达的那些。异源双链分析进一步表明了相关性的程度，所述分析揭示了血清型之间沿基因组长度的广泛的交叉杂交；以及在末端对应于“反向末端重复序列”(ITR)的类似自退火区段的存在。相似的感染性模式也表明每种血清型中的复制功能都是在相似的调节控制之下。已知此病毒的多种血清型适用于基因递送；所有已知的血清型均可以感染来自各种组织类型的细胞。

AAV具有独特的功能，使其具有作为例如在基因疗法中用于将外来DNA递送到细胞的载体的吸引力。培养物中细胞的AAV感染是非致细胞病变的，并且人和其他动物的自然感染是沉默的且无症状的。此外，AAV感染许多哺乳动物细胞，从而有可能在体内靶向许多不同的组织。此外，AAV转导缓慢分裂细胞和非分裂细胞，并且可以在这些细胞的整个生命周期中作为有转录活性的核附加体(染色体外元件)基本上持续存在。将AAV前病毒基因组作为克隆的DNA插入质粒中，这使得重组基因组的构建可行。此外，因为指导AAV复制和基因组衣壳化的信号包含在AAV基因组的ITR内，所以内部约4.3kb的基因组的一些或全部(编码复制和结构衣壳蛋白，rep-cap)可以被外来DNA替代以产生AAV载体。可以提供呈反式的rep和cap蛋白。AAV的另一个重要特征是它是一个极其稳定和强健的病毒。它很容易承受用于灭活腺病毒的条件(56℃至65℃持续数小时)，使得冷藏保存AAV不那么重要。AAV甚至可以被冻干。最后，AAV感染的细胞对重复感染没有抵抗力。

本发明的AAV(AAV或AAV载体)基因组包含编码靶向CUG重复的组合物(如PUF、PUMBY或RNA指导的蛋白质)的核酸分子和侧接所述核酸分子的一种或多种AAV ITR，基本上由其组成或由其组成。假型化AAV的生产披露于例如WO 2001083692中。还考虑了其他类型的AAV变体，例如具有衣壳突变的rAAV。参见例如，Marsic等人,Molecular Therapy,22(11):1900-1909(2014)。各种AAV血清型的基因组的核苷酸序列是本领域已知的。

在本公开文本的组合物和方法的一些实施方案中，所述病毒载体包含从腺相关病毒(AAV)分离或衍生的序列。在一些实施方案中，所述病毒载体包含从血清型AAVrh.74、AAV1、AAV2、AAV3、AAV4、AAV5、AAV6、AAV7、AAV8、AAV9、AAV10(AAVrh10)、AAV11或AAV12的AAV分离或衍生的反向末端重复序列或衣壳序列。在一个实施方案中，所述AAV载体包含经修饰的衣壳。在一个实施方案中，所述AAV载体是AAV2-Tyr突变型载体。在一个实施方案中，所述AAV载体包含在对应于野生型AAV2的位置Tyr252、Tyr272、Tyr275、Tyr281、Tyr508、Tyr612、Tyr704、Tyr720、Tyr730或Tyr673中的表面暴露的酪氨酸残基的位置处具有非酪氨酸氨基酸的衣壳。还参见WO 2008/124724，以其整体并入本文。在一些实施方案中，所述AAV载体包含工程化衣壳。包含工程化衣壳的AAV载体包括但不限于AAV2.7m8、AAV9.7m8、AAV2 2tYF和AAV8Y733F。在一些实施方案中，所述病毒载体无复制能力。在一些实施方案中，所述病毒载体是分离的或重组的(rAAV)。在一些实施方案中，所述病毒载体是自身互补的(scAAV)。

在本公开文本的组合物和方法的一些实施方案中，本公开文本的载体是非病毒载体。在一些实施方案中，所述载体包含以下项或由以下项组成：纳米颗粒、胶束、脂质体或阳离子脂质体/DNA复合物、聚合物囊泡、多聚复合物或树状聚合物。在一些实施方案中，所述载体是表达载体或重组表达系统。如本文所用，术语“重组表达系统”是指用于表达通过重组形成的某些遗传物质的遗传构建体。

在本公开文本的组合物和方法的一些实施方案中，本文提供的表达载体、病毒载体或非病毒载体包括但不限于表达控制元件。如本文所用的“表达控制元件”是指调节编码序列如基因的表达的任何序列。示例性表达控制元件包括但不限于启动子、增强子、微小RNA、转录后调节元件、多聚腺苷酸化信号序列和内含子。例如，表达控制元件可以是组成型的、诱导型的、阻抑型的或组织特异性的。“启动子”是以下控制序列，其是多核苷酸序列中控制转录起始和速率的区域。它可以含有调节蛋白和分子可以结合的遗传元件，如RNA聚合酶和其他转录因子。在一些实施方案中，启动子对表达的控制是组织特异性的。在一些实施方案中，启动子对表达的控制是组成型的或遍在的。非限制性示例性启动子包括Pol III启动子(例如像U6和H1启动子)和/或Pol II启动子，例如SV40、CMV(任选地包括CMV增强子)、RSV(劳斯肉瘤病毒LTR启动子(任选地包括RSV增强子))、CBA(杂合CMV增强子/鸡β-肌动蛋白)、CAG(与鸡β-肌动蛋白融合的杂合CMV增强子)、截短的CAG、Cbh(杂合CBA)、EF-1a(人延伸因子α-1)或EFS(短的少内含子的EF-1α)、PGK(磷酸甘油激酶)、CEF(鸡胚成纤维细胞)、UBC(泛素C)、GUSB(溶酶体酶β-葡糖醛酸糖苷酶)、UCOE(遍在染色质开放元件)、hAAT(α-1抗胰蛋白酶)、TBG(甲状腺素结合球蛋白)、结蛋白(全长或截短的)、MCK(肌肉肌酸激酶)、C5-12(合成的肌肉启动子)、CK8e(肌酸激酶8)、NSE(神经元特异性烯醇化酶)、突触素、突触素-1(SYN-1)、视蛋白、PDGF(血小板源性生长因子)、PDGF-A、MecP2(甲基CpG结合蛋白2)、CaMKII(钙/钙调蛋白依赖性蛋白激酶II)、mGluR2(代谢型谷氨酸受体2)、NFL(神经丝轻链)、NFH(神经丝重链)、nβ2、PPE(大鼠前脑啡肽原)、ENK(前脑啡肽原)、前脑啡肽原-神经丝嵌合启动子、EAAT2(谷氨酸转运蛋白)、GFAP(胶质纤维酸性蛋白)、MBP(髓磷脂碱性蛋白质)、人视紫红质激酶启动子(hGRK1)、β-肌动蛋白启动子、二氢叶酸还原酶启动子、MHCK7(肌肉肌酸激酶和α肌球蛋白重链基因的增强子/启动子区的杂合启动子)及其组合。“增强子”是DNA中可以由激活蛋白结合以增加转录的可能性或频率的区域。非限制性示例性增强子和转录后调节元件包括CMV增强子、MCK增强子、HTLV-1的LTR中的R-U5’区段、SV40增强子、兔β-珠蛋白的外显子2与外显子3之间的内含子序列和土拨鼠肝炎病毒(WHP)转录后调节元件(WPRE)。在一些实施方案中，使用内含子如UBB内含子来增强启动子活性。在一些实施方案中，将UBB内含子与EFS启动子一起使用。

在本公开文本的组合物和方法的一些实施方案中，本文提供的表达载体、病毒载体或非病毒载体包括但不限于用于配置“多顺反子(multicistronic)”或“多顺反子(polycistronic)”或“双顺反子”或“三顺反子”构建体(即，具有双或三或多编码区或外显子)的载体元件(如IRES或2A肽位点)，并且因此将具有从mRNA表达来自单一构建体的两种或更多种蛋白质的能力。多顺反子载体从同一mRNA同时表达两种或更多种单独蛋白质。最广泛用于构建多顺反子配置的两种策略是通过使用IRES或2A自切割位点。“IRES”是指用于多顺反子载体构建体内的病毒、原核或真核来源的内部核糖体进入位点或其部分。在一些实施方案中，IRES是允许以非帽依赖性方式进行翻译起始的RNA元件。术语“自切割肽”或“编码自切割肽的序列”或“2A自切割位点”是指在载体构建体内用于并入位点以促进核糖体跳跃且因此从单一启动子产生两种多肽的连接序列，此类自切割肽包括但不限于T2A和P2A肽或编码自切割肽的其他序列。

在一个实施方案中，示例性载体配置示于图4A-图4C中。示例性载体配置包含驱动编码靶向CUG的PUF-核酸内切酶融合物的核酸表达的启动子或调节序列(启动子/增强子组合)。在另一个实施方案中，载体配置包含驱动RNA指导的Cas RNA酶RNA结合蛋白表达的启动子，或与驱动同源gRNA表达的第二启动子可操作连接的dCas蛋白融合物。在另一个实施方案中，载体配置包含接头和一个或多个标签。

在一些实施方案中，所述载体是病毒载体。在一些实施方案中，所述载体是腺病毒载体、腺相关病毒(AAV)载体或慢病毒载体。在一些实施方案中，所述载体是逆转录病毒载体、腺病毒/逆转录病毒嵌合体载体、单纯疱疹病毒I或II载体、细小病毒载体、网状内皮组织增殖病病毒载体、脊髓灰质炎病毒载体、乳头状瘤病毒载体、痘苗病毒载体或者并入两种或更多种病毒载体的有利方面的任何杂合或嵌合载体。在一些实施方案中，所述载体还包含与多核苷酸可操作地连接的一种或多种表达控制元件。在一些实施方案中，所述载体还包含一种或多种选择标记物。在一些实施方案中，所述AAV载体具有低毒性。在一些实施方案中，所述AAV载体不并入宿主基因组中，从而具有低的引起插入诱变的概率。在一些实施方案中，所述AAV载体可以编码4.5kb至4.75kb的一系列总多核苷酸。在一些实施方案中，可以用于任何本文所述的组合物、系统、方法和试剂盒中的示例性AAV载体可以包括AAV1载体、经修饰的AAV1载体、AAV2载体、经修饰的AAV2载体、AAV2-Tyr突变载体、AAV3载体、经修饰的AAV3载体、AAV4载体、经修饰的AAV4载体、AAV5载体、经修饰的AAV5载体、AAV6载体、经修饰的AAV6载体、AAV7载体、经修饰的AAV7载体、AAV8载体、AAV9载体、AAV.rh10载体、经修饰的AAV.rh10载体、AAV.rh32/33载体、经修饰的AAV.rh32/33载体、AAV.rh43载体、经修饰的AAV.rh43载体、AAV.rh64R1载体和经修饰的AAV.rh64R1载体、AAV-Tyr突变载体及其任何组合或等效物。在一些实施方案中，所述慢病毒载体是有整合酶能力的慢病毒载体(integrase-competent lentiviral vector，ICLV)。在一些实施方案中，所述慢病毒载体可以是指转基因质粒载体，以及与相关质粒(例如，包装质粒、rev表达质粒、包膜质粒)结合的转基因质粒载体，以及能够通过病毒或病毒样进入机制将外源核酸引入细胞中的基于慢病毒的颗粒。慢病毒载体是本领域中熟知的(参见例如，Trono D.(2002)Lentiviralvectors,New York:Spring-Verlag Berlin Heidelberg和Durand等人(2011)Viruses3(2):132-159doi:10.3390/v3020132)。在一些实施方案中，可以用于任何本文所述的组合物、系统、方法和试剂盒中的示例性慢病毒载体可以包括人免疫缺陷病毒(HIV)1载体、经修饰的人免疫缺陷病毒(HIV)1载体、人免疫缺陷病毒(HIV)2载体、经修饰的人免疫缺陷病毒(HIV)2载体、白领白眉猴(sooty mangabey)猿猴免疫缺陷病毒(SIV_SM)载体、经修饰的白领白眉猴猿猴免疫缺陷病毒(SIV_SM)载体、非洲绿猴猿猴免疫缺陷病毒(SIV_AGM)载体、经修饰的非洲绿猴猿猴免疫缺陷病毒(SIV_AGM)载体、马传染性贫血病毒(EIAV)载体、经修饰的马传染性贫血病毒(EIAV)载体、猫免疫缺陷病毒(FIV)载体、经修饰的猫免疫缺陷病毒(FIV)载体、维斯纳/梅迪病毒(Visna/maedi virus)(VNV/VMV)载体、经修饰的维斯纳/梅迪病毒(VNV/VMV)载体、羊关节炎-脑炎病毒(CAEV)载体、经修饰的羊关节炎-脑炎病毒(CAEV)载体、牛免疫缺陷病毒(BIV)或经修饰的牛免疫缺陷病毒(BIV)。

核酸

本文提供了编码本文公开的RNA结合CUG重复靶向系统的核酸序列，其用于本文所述的基因转移和表达技术中。虽然没有总是明确陈述，但是应当理解，本文提供的序列可以用于提供表达产物以及产生具有相同生物特性的蛋白质的基本上相同的序列。这些“生物等效的”或“生物活性的”或“等效的”多肽是由如本文所述的等效多核苷酸编码的。当使用在默认条件下运行的序列同一性方法比较时，它们可以具有与参考多肽至少60％、或可替代地至少65％、或可替代地至少70％、或可替代地至少75％、或可替代地至少80％、或可替代地至少85％、或可替代地至少90％、或可替代地至少95％、或可替代地至少98％相同的初级氨基酸序列。提供了特定多肽序列作为具体实施方案的例子。用具有类似电荷的可替代氨基酸对序列中的氨基酸进行修饰。另外，等效多核苷酸是在严格条件下与参考多核苷酸或其互补体杂交的多核苷酸，或者就多肽而言，是由在严格条件下与参考编码多核苷酸或其互补链杂交的多核苷酸编码的多肽。可替代地，等效多肽或蛋白质是从等效多核苷酸表达的多肽或蛋白质。

本文公开的核酸序列(例如，多核苷酸序列)可以是密码子优化的，密码子优化是本领域熟知的技术。在本文公开的一些实施方案中，将示例性Cas序列，例如像编码SEQ IDNO:92(称为CasRx的Cas13d)的核酸序列或编码SEQ ID NO:298(称为CasRx的Cas13d)的核酸序列针对在人细胞中表达进行密码子优化。密码子优化涉及以下事实，即不同细胞在对特定密码子的使用方面有所不同。该密码子偏倚对应于特定tRNA在细胞类型中的相对丰度的偏倚。通过改变序列中的密码子以与相应tRNA的相对丰度匹配，可能增加表达。还可能通过故意选择已知相应tRNA在特定细胞类型中罕见的密码子来减少表达。哺乳动物细胞以及多种其他生物的密码子使用表是本领域中已知的。基于遗传密码，可以产生编码例如Cas蛋白的核酸序列。在一些实施方案中，这样的序列被优化以用于在宿主细胞或靶细胞中表达，所述宿主细胞或靶细胞是如用于表达Cas蛋白的宿主细胞或在其中实践所公开方法的细胞(如在哺乳动物细胞例如人细胞中)。特定物种的密码子偏好和密码子使用表可以用于利用该特定物种的密码子使用偏好，工程化分离的编码Cas蛋白的核酸分子(如编码与其相应野生型蛋白具有至少80％、至少85％、至少90％、至少92％、至少95％、至少96％、至少97％、至少98％、至少99％或100％序列同一性的蛋白质的核酸分子)。例如，本文公开的Cas蛋白可以被设计为具有特定目标生物优先使用的密码子。在一个例子中，Cas核酸序列被优化以用于在人细胞中表达，如与其相应野生型或起源核酸序列具有至少70％、至少80％、至少85％、至少90％、至少92％、至少95％、至少98％或至少99％序列同一性的Cas核酸序列。在一些实施方案中，编码至少一种Cas蛋白(其可能是载体的一部分)的分离的核酸分子包括被密码子优化以用于在真核细胞中表达的至少一个Cas蛋白编码序列或被密码子优化以用于在人细胞中表达的至少一个Cas蛋白编码序列。在一个实施方案中，这样的密码子优化的Cas编码序列与其相应野生型或起源序列具有至少80％、至少85％、至少90％、至少92％、至少95％、至少96％、至少97％、至少98％、至少99％或100％序列同一性。在另一个实施方案中，真核细胞密码子优化的核酸序列编码与其相应野生型或起源蛋白具有至少85％、至少90％、至少92％、至少95％、至少96％、至少97％、至少98％、至少99％或100％序列同一性的Cas蛋白。在另一个实施方案中，可以常规地产生含有功能等效核酸的多个克隆，所述功能等效核酸是如序列不同但编码相同Cas蛋白序列的核酸。编码序列中的沉默突变是由于遗传密码的简并性(即，冗余)所致，借此多于一种密码子可以编码相同氨基酸残基。因此，例如，亮氨酸可以由CTT、CTC、CTA、CTG、TTA或TTG编码；丝氨酸可以由TCT、TCC、TCA、TCG、AGT或AGC编码；天冬酰胺可以由AAT或AAC编码；天冬氨酸可以由GAT或GAC编码；半胱氨酸可以由TGT或TGC编码；丙氨酸可以由GCT、GCC、GCA或GCG编码；谷氨酰胺可以由CAA或CAG编码；酪氨酸可以由TAT或TAC编码；并且异亮氨酸可以由ATT、ATC或ATA编码。显示标准遗传密码的表格可以在多个来源(参见例如，Stryer,1988,Biochemistry,第3版,W.H.5Freeman andCo.,NY)发现。

“杂交”是指一种或多种多核苷酸反应形成通过核苷酸残基的碱基之间的氢键合稳定化的复合物的反应。氢键合可以通过Watson-Crick碱基配对、Hoogstein结合或以任何其他序列特异性方式来进行。所述复合物可以包含形成双链体结构的两条链、形成多链复合物的三条或更多条链、单条自杂交链或这些的任何组合。杂交反应可以构成更广泛过程(如PC反应的起始或核酶对多核苷酸的酶促切割)中的步骤。

严格杂交条件的例子包括：约25℃至约37℃的孵育温度；约6x SSC至约10x SSC的杂交缓冲液浓度；约0％至约25％的甲酰胺浓度；以及约4x SSC至约8x SSC的洗涤溶液。中度杂交条件的例子包括：约40℃至约50℃的孵育温度；约9x SSC至约2x SSC的缓冲液浓度；约30％至约50％的甲酰胺浓度；以及约5x SSC至约2x SSC的洗涤溶液。高严格条件的例子包括：约55℃至约68℃的孵育温度；约lx SSC至约0.1x SSC的缓冲液浓度；约55％至约75％的甲酰胺浓度；以及约lx SSC、0.1x SSC的洗涤溶液或去离子水。通常，杂交孵育时间为5分钟至24小时，有1个、2个或更多个洗涤步骤，并且洗涤孵育时间为约1、2或15分钟。SSC是0.15M NaCl和15mM柠檬酸盐缓冲液。应理解，可以采用使用其他缓冲液系统的SSC的等效物。

“同源性”或“同一性”或“相似度”是指两个肽之间或两个核酸分子之间的序列相似度。同源性可以通过比较每个序列中的位置来确定，所述序列可以出于比较目的进行比对。在所比较序列中的位置由相同的碱基或氨基酸占据时，则所述分子在该位置是同源的。序列之间的同源性程度随着序列共有的匹配或同源位置的数量而变。“不相关”或“非同源”序列与本发明的序列之一共享小于40％同一性，或可替代地小于25％同一性。

细胞

在本公开文本的组合物和方法的一些实施方案中，本公开文本的细胞是原核细胞。

在本公开文本的组合物和方法的一些实施方案中，本公开文本的细胞是真核细胞。在一些实施方案中，所述细胞是哺乳动物细胞。在一些实施方案中，所述细胞是牛、鼠、猫、马、猪、犬、猿猴或人细胞。在一些实施方案中，所述细胞是非人哺乳动物细胞，如非人灵长类动物细胞。

在一些实施方案中，本公开文本的细胞是体细胞。在一些实施方案中，本公开文本的细胞是性细胞。在一些实施方案中，本公开文本的性细胞不是人细胞。

在本公开文本的组合物和方法的一些实施方案中，本公开文本的细胞是干细胞。在一些实施方案中，本公开文本的细胞是胚胎干细胞。在一些实施方案中，本公开文本的胚胎干细胞不是人细胞。在一些实施方案中，本公开文本的细胞是多潜能干细胞或多能干细胞。在一些实施方案中，本公开文本的细胞是成体干细胞。在一些实施方案中，本公开文本的细胞是诱导多能干细胞(iPSC)。在一些实施方案中，本公开文本的细胞是造血干细胞(HSC)。

在本公开文本的组合物和方法的一些实施方案中，本公开文本的体细胞是肌肉细胞。在一些实施方案中，本公开文本的肌肉细胞是成肌细胞或肌细胞。在一些实施方案中，本公开文本的肌肉细胞是心肌细胞、骨骼肌细胞或平滑肌细胞。在一些实施方案中，本公开文本的肌肉细胞是横纹肌细胞。在一个实施方案中，用本文公开的组合物治疗的患者的一种或多种细胞包括但不限于骨骼肌(正在发育的和成熟的肌纤维和卫星细胞)、神经肌肉接头、心肌细胞、平滑肌细胞、周围神经系统(神经元)、周围运动神经元和/或感觉神经元。

在本公开文本的组合物和方法的一些实施方案中，本公开文本的体细胞是成纤维细胞或上皮细胞。在一些实施方案中，本公开文本的上皮细胞形成鳞状细胞上皮、立方细胞上皮、柱状细胞上皮、层状细胞上皮、假复层柱状细胞上皮或移行细胞上皮。在一些实施方案中，本公开文本的上皮细胞形成腺体，包括但不限于松果腺、胸腺、垂体、甲状腺、肾上腺、顶质分泌腺、全质分泌腺、局质分泌腺、浆液腺、粘液腺和皮脂腺。在一些实施方案中，本公开文本的上皮细胞接触器官的外表面，所述器官包括但不限于肺、脾、胃、胰腺、膀胱、肠、肾、胆囊、肝、喉或咽。在一些实施方案中，本公开文本的上皮细胞接触血管或静脉的外表面。

在本公开文本的组合物和方法的一些实施方案中，本公开文本的体细胞是原代细胞。

在本公开文本的组合物和方法的一些实施方案中，本公开文本的体细胞是培养的细胞。

在本公开文本的组合物和方法的一些实施方案中，本公开文本的体细胞是体内的、体外的、离体的或原位的。

在本公开文本的组合物和方法的一些实施方案中，本公开文本的体细胞是自体的或同种异体的。

使用方法

本公开文本提供了修饰本公开文本的RNA分子或由所述RNA分子编码的蛋白质的表达水平的方法，所述方法包括在适合于指导RNA或RNA结合蛋白或RNA结合融合蛋白(或其部分)中的一种或多种与所述RNA分子结合的条件下使本公开文本的组合物与所述RNA分子接触。

本公开文本提供了修饰由RNA分子编码的蛋白质的活性的方法，所述方法包括在适合于指导RNA或RNA结合蛋白或融合蛋白(或其部分)中的一种或多种与所述RNA分子结合的条件下使本公开文本的组合物与所述RNA分子接触。

本公开文本提供了修饰本公开文本的RNA分子或由所述RNA分子编码的蛋白质的表达水平的方法，所述方法包括在适合于所述指导RNA或RNA结合蛋白或融合蛋白(或其部分)中的一种或多种与所述RNA分子结合的条件下使本公开文本的组合物与包含所述RNA分子的细胞接触。在一些实施方案中，所述细胞是体内的、体外的、离体的或原位的。在一些实施方案中，本公开文本的组合物包含载体，所述载体包含本公开文本的指导RNA和本公开文本的RNA结合蛋白或融合蛋白。在一些实施方案中，所述载体是AAV。

本公开文本提供了修饰由RNA分子编码的蛋白质的活性的方法，所述方法包括在适合于指导RNA或RNA结合蛋白或融合蛋白(或其部分)中的一种或多种与所述RNA分子结合的条件下使本公开文本的组合物与包含所述RNA分子的细胞接触。

本公开文本提供了修饰本公开文本的RNA分子或由所述RNA分子编码的蛋白质的表达水平的方法，所述方法包括在适合于RNA核酸酶活性的条件下使本公开文本的组合物与所述RNA分子接触，其中所述RNA结合蛋白或融合蛋白诱导所述RNA分子中的断裂。

本公开文本提供了修饰由RNA分子编码的蛋白质的活性的方法，所述方法包括在适合于RNA核酸酶活性的条件下使本公开文本的组合物与所述RNA分子接触，其中所述RNA结合蛋白或融合蛋白诱导所述RNA分子中的断裂。

本公开文本提供了修饰本公开文本的RNA分子或由所述RNA分子编码的蛋白质的表达水平的方法，所述方法包括在适合于RNA核酸酶活性的条件下使本公开文本的组合物与包含所述RNA分子的细胞接触，其中所述RNA结合蛋白或融合蛋白诱导所述RNA分子中的断裂。在一些实施方案中，所述细胞是体内的、体外的、离体的或原位的。在一些实施方案中，所述组合物包含载体，所述载体包含含有本公开文本的指导RNA和本公开文本的RNA结合融合蛋白的组合物。在一些实施方案中，所述载体是AAV。

本公开文本提供了修饰由RNA分子编码的蛋白质的活性的方法，所述方法包括在适合于RNA核酸酶活性的条件下使所述组合物与包含所述RNA分子的细胞接触，其中所述RNA结合蛋白或融合蛋白诱导所述RNA分子中的断裂。在一些实施方案中，所述细胞是体内的、体外的、离体的或原位的。在一些实施方案中，所述组合物包含载体，所述载体包含含有本公开文本的指导RNA或单一指导RNA和编码本公开文本的RNA结合蛋白或融合蛋白的核酸序列的组合物。在一些实施方案中，所述载体是AAV。

本公开文本提供了治疗疾病或障碍的方法，所述方法包括向受试者施用治疗有效量的本公开文本的组合物。在一个实施方案中，本公开文本提供了一种治疗DM1的方法。

本公开文本提供了一种治疗需要这种治疗的患者的DM1的方法，所述方法包括向所述患者施用治疗有效量的本公开文本的组合物，其中所述组合物包含载体，所述载体包含本公开文本的指导RNA和编码本公开文本的RNA结合蛋白或RNA结合蛋白融合蛋白的核酸序列，其中所述组合物修饰、降低、破坏、敲低或消融毒性CUG重复RNA的表达水平(与用非靶向(NT)对照处理的毒性CUG重复RNA的表达水平相比或者与未处理相比)。在一个实施方案中，将靶毒性CUG重复RNA或由所述靶RAN编码的毒性重复的降低水平与当用RCas9系统处理时靶RNA或由所述靶RAN编码的毒性重复的降低水平进行比较。在另一个实施方案中，降低水平为1倍或更大。在另一个实施方案中，降低水平为2倍、3倍、4倍、5倍、6倍。7倍、8倍、9倍或10倍。在另一个实施方案中，降低水平为10倍或更大。在另一个实施方案中，降低水平为在10倍与20倍之间。在另一个实施方案中，降低水平为11倍、12倍、13倍、14倍、15倍、16倍、17倍、18倍、19倍或20倍。在另一个实施方案中，本文公开的基因疗法组合物当施用于DM1患者时导致毒性CUG重复RNA的20％-100％破坏(或消除)。在一个实施方案中，毒性CUG重复RNA的消除％是20％-99％、25％-99％、50％-99％、80％-99％、90％-99％、95％-99％中的任一种。在一个实施方案中，消除％是90％、91％、92％、93％、94％、95％、96％、97％、98％或99％。在另一个实施方案中，消除％是毒性CUG重复RNA的完全消除或100％消除。

在本公开文本的组合物和方法的一些实施方案中，待治疗的患者的疾病或障碍包括但不限于与CTG微卫星重复扩增表达相关的疾病或障碍。在一些实施方案中，所述疾病或障碍与DMPK基因的3’非翻译区中的CTG微卫星重复扩增相关。在本公开文本的组合物和方法的一些实施方案中，本公开文本的疾病或障碍是1型强直性肌营养不良(DM1)。

在本公开文本的方法的一些实施方案中，本公开文本的受试者已经被诊断患有DM1。在一些实施方案中，本公开文本的受试者呈现DM1的至少一种体征或症状。至少一种DM1体征或DM1症状包括但不限于肌强直、肌肉萎缩、集中化肌核(centralizedmyonuclei)、肌力恢复、胃肠道不适、心脏传导缺陷、吞咽困难、呼吸量。在一个实施方案中，通过用本文公开的组合物治疗来改善DM1的至少一种体征或症状。在一些实施方案中，所述受试者具有预测患上DM1的风险的生物标记物。在一些实施方案中，所述生物标记物是基因突变。

在本公开文本的方法的一些实施方案中，本公开文本的受试者是雌性。在本公开文本的方法的一些实施方案中，本公开文本的受试者是雄性。在一些实施方案中，本公开文本的受试者具有两个XX或XY染色体。在一些实施方案中，本公开文本的受试者具有两个XX或XY染色体和第三染色体(X或Y)。

在本公开文本的方法的一些实施方案中，本公开文本的受试者是新生儿、婴儿、儿童、成人、年长成人或老年人。在本公开文本的方法的一些实施方案中，本公开文本19、20、21、22、23、24、25、26、27、28、29、30或31日龄。在本公开文本的方法的一些实施方案中，本公开文本的受试者为至少1、2、3、4、5、6、7、8、9、10、11或12月龄。在本公开文本的方法的一些实施方案中，本公开文本的受试者为至少1、2、3、4、90、95、100岁或之间的任何岁数或非整岁数。

在本公开文本的方法的一些实施方案中，本公开文本的受试者是哺乳动物。在一些实施方案中，本公开文本的受试者是非人哺乳动物。

在本公开文本的方法的一些实施方案中，本公开文本的受试者是人。

在本公开文本的方法的一些实施方案中，治疗有效量包含本公开文本的组合物的单个剂量。在一些实施方案中，治疗有效量包含治疗有效量包含本公开文本的组合物的至少一个剂量。在一些实施方案中，治疗有效量包含治疗有效量包含本公开文本的组合物的一个或多个剂量。

在本公开文本的方法的一些实施方案中，治疗有效量消除所述疾病或障碍的体征或症状。在一些实施方案中，治疗有效量降低所述疾病或障碍的体征或症状的严重程度。

在本公开文本的方法的一些实施方案中，治疗有效量消除所述疾病或障碍。

在本公开文本的方法的一些实施方案中，治疗有效量预防疾病或障碍的发作。在一些实施方案中，治疗有效量延迟疾病或障碍的发作。在一些实施方案中，治疗有效量降低所述疾病或障碍的体征或症状的严重程度。在一些实施方案中，治疗有效量改善所述受试者的预后。

在本公开文本的方法的一些实施方案中，将本公开文本的组合物肌内施用至所述受试者。在一些实施方案中，将本公开文本的组合物通过静脉内途径施用至所述受试者。在一些实施方案中，将本公开文本的组合物通过注射或输注施用至所述受试者。在一些实施方案中，将所述组合物全身施用。在本公开文本的方法的一些实施方案中，将本公开文本的组合物局部施用至所述受试者。

在一些实施方案中，将本文公开的组合物配制成药物组合物。简言之，如本文所公开的用于所述用途的药物组合物可以包含与一种或多种药学上或生理上可接受的载体、稀释剂或赋形剂组合的一种或多种蛋白质或编码所述一种或多种蛋白质的多核苷酸，所述一种或多种蛋白质或多核苷酸任选地包含于AAV中，所述AAV任选地也是免疫正交的。所述组合物可包含缓冲液，例如中性缓冲盐水、磷酸盐缓冲盐水等；碳水化合物，例如葡萄糖、甘露糖、蔗糖或葡聚糖、甘露醇；蛋白质；多肽或氨基酸，例如甘氨酸；抗氧化剂；螯合剂，例如EDTA或谷胱甘肽；佐剂(例如氢氧化铝)；和防腐剂。本公开文本的组合物可以配制用于施用途径，例如像口服、肠内、外用、经皮、鼻内和/或吸入；以及用于经由注射或输注的施用途径，例如像静脉内、肌内、软膜下、鞘内、纹状体内、皮下、皮内、腹膜内、瘤内、静脉内、眼内和/或肠胃外施用。在某些实施方案中，将本公开文本的组合物配制用于静脉内施用。

示例实施方案：

实施方案1.一种治疗哺乳动物的1型强直性肌营养不良(DM1)的方法，所述方法包括将组合物施用至所述哺乳动物的组织中的毒性靶CUG微卫星重复扩增(MRE)分子，其中所述组合物包含编码非天然存在的或工程化的规律间隔成簇短回文重复序列(CRISPR)相关(Cas)系统的核酸序列，所述系统包含：(a)至少一种RNA指导的RNA酶Cas蛋白(或dCas蛋白)；和(b)能够与所述至少一种Cas蛋白中的一种形成复合物的至少一种同源CRISPR-Cas系统指导RNA(gRNA)，其中所述gRNA包含(i)DR序列和(ii)间隔子序列，其中所述间隔子序列与所述靶CUG MRE分子杂交，并且由此由所述组合物形成的复合物直接靶向并破坏或阻断所述靶CUG MRE分子，从而治疗所述哺乳动物的DM1。

实施方案2：根据任何前述实施方案所述的方法，其中所述间隔子序列包含选自以下的间隔子序列：agcagcagcagcagcagcagcagcag(SEQ ID NO:457)、gcagcagcagcagcagcagcagcagc(SEQ ID NO:458)和cagcagcagcagcagcagcagcagca(SEQ IDNO:459)。

实施方案3：根据任何前述实施方案所述的方法，其中通过静脉内施用将所述组合物施用至所述哺乳动物的组织。

实施方案4：根据任何前述实施方案所述的方法，其中所述RNA指导的RNA酶Cas蛋白选自Cas13a、Cas13b、Cas13c、Cas13d及其RNA结合部分。

实施方案5：根据任何前述实施方案所述的方法，其中所述RNA指导的RNA酶Cas蛋白是Cas13d或其RNA结合部分。

实施方案6：根据任何前述实施方案所述的方法，其中所述RNA指导的RNA酶Cas蛋白是无活性的(dCas)。

实施方案7：根据任何前述实施方案所述的方法，其中Cas13d由SEQ ID NO:522、530、535、538或540中任一个所示的核酸序列编码。

实施方案8：根据任何前述实施方案所述的方法，其中所述dCas蛋白与核酸内切酶连接。

实施方案9：根据任何前述实施方案所述的方法，其中所述核酸内切酶是ZC3H12A锌指核酸内切酶。

实施方案10：根据任何前述实施方案所述的方法，其中所述ZC3H12A锌指核酸酶包含SEQ ID NO:358或SEQ ID NO:359中所示的氨基酸序列。

实施方案11：一种组合物，所述组合物包含编码非天然存在的或工程化的规律间隔成簇短回文重复序列(CRISPR)相关(Cas)系统的核酸序列，所述系统包含：(a)至少一种RNA指导的RNA酶Cas蛋白；和b)能够与所述至少一种Cas蛋白中的一种形成复合物的至少一种同源CRISPR-Cas系统指导RNA(gRNA)，其中所述gRNA包含(i)DR序列和(ii)间隔子序列，其中所述间隔子序列与所述靶CUG MRE分子杂交，并且其中所述间隔子序列包含选自以下的间隔子序列：agcagcagcagcagcagcagcagcag(SEQ ID NO:457)、gcagcagcagcagcagcagcagcagc(SEQ ID NO:458)和cagcagcagcagcagcagcagcagca(SEQ IDNO:459)或其部分。

实施方案12：一种AAV载体，所述AAV载体包含根据任何前述实施方案所述的组合物。

实施方案13：根据任何前述实施方案所述的AAV载体，所述AAV载体是AAV9载体。

实施方案14：一种治疗哺乳动物的1型强直性肌营养不良(DM1)的方法，所述方法包括将组合物施用至所述哺乳动物的组织中的毒性靶CUG微卫星重复扩增(MRE)分子，其中所述组合物包含编码非指导的RNA结合融合蛋白的核酸序列，所述非指导的RNA结合融合蛋白包含a)能够结合毒性靶CUG RNA重复序列的PUF或PUMBY RNA结合序列，其中所述毒性靶CUG重复序列包含UGCUGCUG(SEQ ID NO:453)，和b)能够切割所述毒性靶CUG RNA重复序列的核酸内切酶，从而降低所述毒性靶RNA的表达水平。

实施方案15：根据任何前述实施方案所述的实施方案，其中所述组合物的施用是经由静脉内施用。

实施方案16：一种消除患有DM1的哺乳动物的组织中的毒性CUG微卫星重复扩增(MRE)RNA的方法，所述方法包括使所述CUG MRE RNA序列与组合物在适合于所述组合物与所述CUG MRE RNA结合的条件下接触，其中所述组合物包含编码融合蛋白的核酸序列，所述融合蛋白包含a)能够结合包含UGCUGCUG(SEQ ID NO:453)的毒性靶序列的PUF或PUMBY RNA结合序列，和b)能够切割所述毒性靶RNA序列的核酸内切酶，从而消除所述毒性靶RNA。在一个实施方案中，所述毒性靶RNA的切割因此降低了所述毒性靶RNA的表达水平。在另一个实施方案中，所述毒性靶RNA的表达水平的降低因此消除了所述毒性靶RNA。

实施方案17：一种组合物，所述组合物包含编码非指导的RNA结合融合蛋白的核酸序列，所述非指导的RNA结合融合蛋白包含a)能够结合包含UGCUGCUG(SEQ ID NO:453)的毒性靶序列的PUF或PUMBY蛋白和b)能够切割所述毒性靶RNA序列的核酸内切酶。

实施方案18：一种AAV载体，所述AAV载体包含根据任何前述实施方案所述的组合物。

实施方案19：根据任何前述实施方案所述的AAV载体，其中所述载体是AAV9。

实施方案20：根据任何前述实施方案所述的方法或组合物，其中所述核酸内切酶选自：RNA酶1、RNA酶4、RNA酶6、RNA酶7、RNA酶8、RNA酶2、RNA酶6PL、RNA酶L、RNA酶T2、RNA酶11、RNA酶T2样、NOB1、ENDOV、ENDOG、ENDOD1、hFEN1、hSLFN14、hLACTB2、APEX2、ANG、HRSP12、ZC3H12A、RIDA、PDL6、NTHL、KIAA0391、APEX1、AGO2、EXOG、ZC3H12D、ERN2、PELO、YBEY、CPSF4L、hCG_2002731、ERCC1、RAC1、RAA1、RAB1、DNA2、FLJ35220、FLJ13173、ERCC4、RNA酶1(K41R)、RNA酶1(K41R、D121E)、RNA酶1(K41R、D121E、H119N)、RNA酶1(H119N)、RNA酶1(R39D、N67D、N88A、G89D、R91D、H119N)、RNA酶1(R39D、N67D、N88A、G89D、R91D、H119N、K41R、D121E)、RNA酶1(R39D、N67D、N88A、G89D、R91D)、TENM1、TENM2、RNA酶K、TALEN、ZNF638和hSMG6(PIN)。实施方案XX：根据任何前述实施方案所述的方法或组合物，其中所述核酸内切酶是

在本文公开的方法和组合物的一些实施方案中，所述RNA结合多肽是RNA指导的RNA酶Cas蛋白。在一些实施方案中，所述Cas蛋白是Cas13a、Cas13b、Cas13c或Cas13d。在一些实施方案中，所述Cas蛋白是Cas13d。

在一些实施方案中，所述RNA结合多肽是非指导的RNA结合多肽。在一些实施方案中，所述非指导的RNA结合多肽是PUF蛋白或PUMBY蛋白。在一些实施方案中，所述PUF或PUMBY蛋白是人PUF或PUMBY蛋白。在一些实施方案中，所述非指导的RNA结合多肽是PUF或PUMBY融合蛋白。在一个实施方案中，基于PUF或PUMBY的第一RNA结合蛋白与第二RNA结合蛋白融合。在一些实施方案中，所述第二RNA结合蛋白是SEQ ID NO:358的被称为ZC3H12A的锌指核酸内切酶的核酸酶结构域(本文也称为E17)。

在本文公开的方法和组合物的一些实施方案中，所述核酸序列包含至少一个启动子。在一些实施方案中，所述至少一个启动子是组成型启动子或组织特异性启动子。在一个实施方案中，所述启动子是CAG或截短的CAG(tCAG)启动子。在另一个实施方案中，所述启动子是EFS启动子。在一个实施方案中，所述组织特异性启动子是肌肉特异性启动子。在另一个实施方案中，所述肌肉特异性启动子是MHCK7启动子。在另一个实施方案中，所述肌肉特异性启动子是结蛋白启动子。在一个实施方案中，所述结蛋白启动子是全长结蛋白启动子。在另一个实施方案中，所述结蛋白启动子是截短的结蛋白启动子。

在本文公开的方法和组合物的一些实施方案中，所述RNA指导的RNA酶Cas蛋白或所述非指导的RNA结合多肽是第一RNA结合多肽，所述第一RNA结合多肽与第二RNA结合多肽融合。在一个实施方案中，所述第二RNA结合多肽能够以其与RNA缔合的方式结合RNA。在一些实施方案中，所述第二RNA结合多肽能够以其切割RNA的方式与RNA缔合。在一些实施方案中，所述第二RNA结合多肽选自：RNA酶1、RNA酶4、RNA酶6、RNA酶7、RNA酶8、RNA酶2、RNA酶6PL、RNA酶L、RNA酶T2、RNA酶11、RNA酶T2样蛋白、NOB1、ENDOV、ENDOG、ENDOD1、hFEN1、hSLFN14、hLACTB2、APEX2、ANG、HRSP12、ZC3H12A、RIDA、PDL6、NTHL、KIAA0391、APEX1、AGO2、EXOG、ZC3H12D、ERN2、PELO、YBEY、CPSF4L、hCG_2002731、ERCC1、RAC1、RAA1、RAB1、DNA2、FLJ35220、FLJ13173、ERCC4、RNA酶1(K41R)、RNA酶1(K41R、D121E)、RNA酶1(K41R、D121E、H119N)、RNA酶1(H119N)、RNA酶1(R39D、N67D、N88A、G89D、R91D、H119N)、RNA酶1(R39D、N67D、N88A、G89D、R91D、H119N、K41R、D121E)、RNA酶1(R39D、N67D、N88A、G89D、R91D)、TENM1、TENM2、RNA酶K、TALEN、ZNF638和hSMG6(PIN)。在一个实施方案中，所述第二RNA结合多肽是来自ZC3H12A的核酸酶结构域(E17)。在一些实施方案中，所述第一RNA结合蛋白是失活的RNA指导的RNA酶Cas蛋白。

在一些实施方案中，本文公开了一种载体，所述载体包含本文公开的靶向CUG的DM1组合物。在一些实施方案中，所述载体选自：腺相关病毒、逆转录病毒、慢病毒、腺病毒、纳米颗粒、胶束、脂质体、阳离子脂质体/DNA复合物、聚合物囊泡、多聚复合物和树状聚合物。在一个实施方案中，AAV载体包含本文公开的靶向CUG的DM1组合物。在一个实施方案中，所述AAV载体是AAV9。在另一个实施方案中，所述AAV载体是AAVrh.74。在一些实施方案中，本文公开了一种细胞，所述细胞包含本文公开的一种或多种载体。

在本公开文本的组合物的一些实施方案中，包含所述gRNA的序列还包含编码能够在真核细胞中表达所述gRNA的启动子的序列。

在本公开文本的组合物的一些实施方案中，所述真核细胞是动物细胞。在一些实施方案中，所述动物细胞是哺乳动物细胞。在一些实施方案中，所述动物细胞是人细胞。在一些实施方案中，所述人细胞是肌肉细胞。

在本公开文本的组合物的一些实施方案中，所述启动子是组成型活性启动子。在一些实施方案中，所述启动子序列是从能够驱动RNA聚合酶的表达的启动子分离或衍生的。在一些实施方案中，所述启动子序列是Pol III启动子。在一些实施方案中，所述启动子序列是从人U6启动子分离或衍生的。在一些实施方案中，所述启动子是从能够驱动转移RNA(tRNA)的表达的启动子分离或衍生的序列。在一些实施方案中，所述启动子是从以下启动子分离或衍生的：丙氨酸tRNA启动子、精氨酸tRNA启动子、天冬酰胺tRNA启动子、天冬氨酸tRNA启动子、半胱氨酸tRNA启动子、谷氨酰胺tRNA启动子、谷氨酸tRNA启动子、甘氨酸tRNA启动子、组氨酸tRNA启动子、异亮氨酸tRNA启动子、亮氨酸tRNA启动子、赖氨酸tRNA启动子、甲硫氨酸tRNA启动子、苯丙氨酸tRNA启动子、脯氨酸tRNA启动子、丝氨酸tRNA启动子、苏氨酸tRNA启动子、色氨酸tRNA启动子、酪氨酸tRNA启动子或缬氨酸tRNA启动子。在一些实施方案中，所述启动子是从缬氨酸tRNA启动子分离或衍生的。

在本公开文本的组合物的一些实施方案中，所述gRNA的DR序列是Cas13d DR序列。

在本公开文本的组合物的一些实施方案中，所述第一RNA结合蛋白包含CRISPR-Cas蛋白，其不是Cas9 CRISPR-Cas蛋白。在一些实施方案中，所述CRISPR-Cas蛋白包含天然RNA核酸酶活性。在一些实施方案中，所述天然RNA核酸酶活性被降低或抑制。在一些实施方案中，所述天然RNA核酸酶活性被增加或诱导。在一些实施方案中，所述CRISPR-Cas蛋白和/或同源gRNA包含突变。在一些实施方案中，所述CRISPR-Cas蛋白的核酸酶结构域包含所述突变。在一些实施方案中，所述gRNA的DR序列包含所述突变。在一些实施方案中，所述突变发生在编码所述CRISPR-Cas蛋白的核酸中或编码所述gRNA的核酸中。在一些实施方案中，所述突变发生在编码所述CRISPR-Cas蛋白的氨基酸中。在一些实施方案中，所述突变包含取代、插入、缺失、移码、倒位或转座。在一些实施方案中，所述突变包含核酸酶结构域、所述核酸酶结构域内的结合位点、所述核酸酶结构域内的活性位点或所述核酸酶结构域内的至少一个必需氨基酸残基的缺失。在一些实施方案中，所述突变是gRNA的DR序列中的点突变。

在一些实施方案中，所述CRISPR-Cas蛋白是VI型CRISPR-Cas蛋白。在一些实施方案中，所述RNA结合蛋白包含Cas13多肽或其RNA结合部分。在一些实施方案中，所述RNA结合蛋白包含Cas13d多肽或其RNA结合部分。在一些实施方案中，所述CRISPR-Cas蛋白包含天然RNA核酸酶活性。在一些实施方案中，所述天然RNA核酸酶活性被降低或抑制。在一些实施方案中，所述天然RNA核酸酶活性被增加或诱导。在一些实施方案中，所述CRISPR-Cas蛋白和/或其同源gRNA包含突变。在一些实施方案中，所述CRISPR-Cas蛋白的核酸酶结构域包含所述突变。在一些实施方案中，所述突变发生在编码所述CRISPR-Cas蛋白的核酸中或发生在编码所述gRNA的核酸中。在一些实施方案中，所述突变发生在CRISPR-Cas蛋白的氨基酸序列中。在一些实施方案中，所述突变包含取代、插入、缺失、移码、倒位或转座。在一些实施方案中，所述突变包含核酸酶结构域、所述核酸酶结构域内的结合位点、所述核酸酶结构域内的活性位点或所述核酸酶结构域内的至少一个必需氨基酸残基的缺失。在一些实施方案中，所述突变是gRNA的DR序列中的点突变。在一个实施方案中，所述突变的DR序列是包含点突变的Cas13d DR序列。

在本公开文本的方法和/或组合物的一些实施方案中，非指导的RNA结合蛋白不需要多聚化以用于RNA结合活性。在一些实施方案中，所述非指导的RNA结合蛋白不是多聚体复合物的单体。在一些实施方案中，多聚体蛋白复合物不包含所述RNA结合蛋白。

在本公开文本的方法和/或组合物的一些实施方案中，所述RNA结合蛋白与RNA分子内的靶序列选择性地结合。在一些实施方案中，所述RNA结合蛋白不包含对所述RNA分子内的第二序列的亲和力。在一些实施方案中，所述RNA结合蛋白不包含对所述RNA分子内的第二序列的高亲和力或不选择性地结合所述第二序列。

在本公开文本的方法和/或组合物的一些实施方案中，RNA基因组或RNA转录组包含RNA分子。

在本公开文本的方法和/或组合物的一些实施方案中，所述RNA结合蛋白包含在2个与1300个之间的氨基酸，包含端点。

在本公开文本的方法和/或组合物的一些实施方案中，所述RNA结合融合蛋白包含在2个与2000个之间的氨基酸，包含端点。

在本公开文本的方法和/或组合物的一些实施方案中，编码所述RNA结合蛋白的序列进一步包含编码核定位信号(NLS)、核输出信号(NES)或标签的序列。在一些实施方案中，编码核定位信号(NLS)的序列位于编码所述RNA结合蛋白的序列的N末端。在一些实施方案中，所述RNA结合蛋白包含所述蛋白质的C末端处的NLS。在一些实施方案中，编码所述RNA结合蛋白或系统的序列包含两个NLS或两个NES。

在本公开文本的方法和/或组合物的一些实施方案中，编码所述RNA结合蛋白的序列进一步包含编码第一NLS的第一序列和编码第二NLS的第二序列。在一些实施方案中，编码所述第一NLS或所述第二NLS的序列定位于编码所述RNA结合蛋白的序列的N末端。在一些实施方案中，所述RNA结合蛋白包含在所述蛋白质的C末端处的第一NLS或第二NLS。在一些实施方案中，所述RNA结合组合物包含至少一个接头。

在本公开文本的方法和/或组合物的一些实施方案中，所述组合物进一步包含第二RNA结合蛋白。在一些实施方案中，所述第二RNA结合蛋白包含核酸酶结构域或由其组成。在一些实施方案中，所述第二RNA结合蛋白以与RNA缔合的方式结合RNA。在一些实施方案中，所述第二RNA结合蛋白以切割RNA的方式与RNA缔合。在本公开文本的组合物的一些实施方案中，编码所述第二RNA结合蛋白的序列包含RNA酶或由其组成。

本文还公开了制造本文公开的组合物和/或包含所述组合物的载体的方法。

根据前述实施方案中的任一项，其中所述核酸序列包含至少一个启动子，其中所述至少一个启动子是组成型启动子或组织特异性启动子，其中所述至少一个启动子是EFS启动子或tCAG启动子，其中所述组织特异性启动子是肌肉特异性启动子，其中所述肌肉特异性启动子是MHCK7启动子，和/或其中任何前述启动子包含增强子和/或内含子。

根据前述实施方案中的任一项，其中与所述未处理的毒性靶RNA的表达水平的降低相比，所述毒性靶RNA的表达水平降低，其中与用基于RCas9的系统处理的毒性靶RNA的降低水平相比，所述毒性靶RNA的表达水平降低，其中降低的水平为1倍或更大，其中降低的水平为2倍、3倍、4倍、5倍、6倍、7倍、8倍、9倍或10倍，其中降低的水平为10倍或更大，其中降低的水平在10倍与20倍之间。

根据前述实施方案中任一项所述的方法和组合物，所述核酸序列包含能够在人细胞中表达所述gRNA的启动子，其中所述启动子是人U6启动子，其中所述启动子是从能够驱动转移RNA(tRNA)表达的启动子分离或衍生的，其中所述启动子选自丙氨酸tRNA启动子、精氨酸tRNA启动子、天冬酰胺tRNA启动子、天冬氨酸tRNA启动子、半胱氨酸tRNA启动子、谷氨酰胺tRNA启动子、谷氨酸tRNA启动子、甘氨酸tRNA启动子、组氨酸tRNA启动子、异亮氨酸tRNA启动子、亮氨酸tRNA启动子、赖氨酸tRNA启动子、甲硫氨酸tRNA启动子、苯丙氨酸tRNA启动子、脯氨酸tRNA启动子、丝氨酸tRNA启动子、苏氨酸tRNA启动子、色氨酸tRNA启动子、酪氨酸tRNA启动子和缬氨酸tRNA启动子，其中所述gRNA的DR序列是Cas13d DR序列，其中所述核酸序列进一步包含编码至少一个核定位信号(NLS)、核输出信号(NES)或标签的序列，其中所述至少一个核定位信号(NLS)位于编码所述RNA结合蛋白的序列的N末端，其中所述至少一个核定位信号(NLS)位于编码所述RNA结合蛋白的序列的C末端，其中所述核酸序列进一步包含编码两个核定位信号(NLS)或两个核输出信号(NES)的序列，其中所述RNA结合蛋白或融合蛋白包含至少一个接头。

实施例

实施例1：破坏DM1毒性CUG重复的Cas13d系统

材料

质粒：CTG960(960个CTG重复)、Tet反式激活子、在人U6启动子下表达Cas和sgRNA的pcDNA3.1

转染试剂：Lipofectamine 3000，opti-MEM，PBS，DMEM

RNA提取试剂盒：RNEASY PLUS(Qiagen)

qScript^TM一步法绿色qRT-PCR试剂盒，Quantabio

方法

转染、RNA提取、RNA-FISH和qRT-PCR分析

为了评估含CUG重复的RNA的敲低，将5x10⁴个COSM6细胞接种于24孔板上并且用50ng DMPK-CTG960质粒(其中CUG-960表达是在四环素可调节启动子元件(TRE)的控制下驱动的)、25ng Tet反式激活子(tTA)质粒和1μg RBP转染(Cas+sgRNA)。用Cas13d系统进行CUG靶向的sgRNA中使用的间隔子序列列于表T中。从同一质粒表达Cas蛋白和相应sgRNA。将细胞与100ng/ml多西环素在Opti-MEM(含有5％FBS)中一起孵育过夜，这是驱动CUG-960 RNA的表达所必需的。将细胞用PBS洗涤并且在补充有100ng/ml多西环素的完全DMEM培养基中再次孵育24小时。收获细胞，提取RNA并且进行qRT-PCR。计算CUG表达ΔΔCT，将其相对于管家基因归一化并且相对于非靶向(NT)sgRNA归一化以定量CUG-960敲低。

表51：用Cas13d系统进行CUG靶向的sgRNA中使用的间隔子序列：

图1展示了与对照相比，利用间隔子序列SEQ ID NO:457-459的靶向CUG的Cas13d系统消除了>90％的CUG靶标。

图2展示了如通过RNA荧光原位杂交(RNA-FISH)分析，与对照相比，靶向CUG的Cas13d系统消除了>90％的CUG重复RNA。

图3示出了与RCas9系统相比的Cas13d系统。与对照NT sgRNA相比，Cas13d系统导致有效切割消除>90％的CUG靶标。用RCas9处理的细胞展现出靶CUG重复的约80％敲低。

实施例2：PUF系统破坏DM1毒性CUG重复

材料

质粒：CTG960(960个CTG重复)、Tet反式激活子、表达RBP的pcDNA3.1

转染试剂：Lipofectamine 3000，opti-MEM，PBS，DMEM

RNA提取试剂盒：RNEASY PLUS(Qiagen)

qScript^TM一步法绿色qRT-PCR试剂盒，Quantabio

方法

转染，RNA提取，FISH和qRT-PCR分析

为了评估含CUG重复的RNA的敲低，将5x10⁴个COSM6细胞接种于24孔板上并且用50ng DMPK-CTG960质粒(其中CUG-960表达是在四环素可调节启动子元件(TRE)的控制下驱动的)、25ng Tet反式激活子(tTA)质粒和1μg RBP转染(PUF)。将细胞与100ng/ml多西环素在Opti-MEM(含有5％ FBS)中孵育过夜。将细胞用PBS洗涤并且在补充有100ng/ml多西环素的完全DMEM培养基中再次孵育24小时。收获细胞，提取RNA并且进行qRT-PCR。计算CUG表达ΔΔCT，将其相对于管家基因归一化并且相对于非靶向(NT)对照归一化以定量CUG960 RNA敲低。

PUF构建体(在图1中标记为CUG-f1和CUG-f2)靶向毒性序列UGCUGCUG(SEQ ID NO:453)。

图1展示了与对照相比，靶向CUG的PUF-E17融合物系统消除了>90％的CUG靶标的。

图2展示了如通过RNA荧光原位杂交(RNA-FISH)分析，与对照相比，PUF(CUG)-E17融合物系统消除了>90％的CUG重复RNA的。

图3示出了与RCas9系统相比的PUF(CUG)系统。与对照NT相比，PUF(CUG)系统导致有效切割消除>90％的CUG靶标的。用RCas9处理的细胞展现出靶CUG重复的约80％敲低。

实施例3：在RNA水平上靶向扩增的CUG重复以治疗1型强直性肌营养不良(破坏和阻断机制)

经由基于AAV的方法经由全身途径或肌内途径递送本文公开的靶向RNA的组合物A01215(用于破坏的Cas13d(CUG))、A01344(用于破坏的PUF(CUG)-E17)和A01686(用于阻断)。例如，在以下本领域承认的强直性肌营养不良的动物模型中用于基于AAV9的递送的PUF靶向CUG构建体呈现于表53中。

表53：用于基于AAV9的递送的PUF靶向CUG构建体

为了靶向与强直性肌营养不良相关的扩增的CUG重复，通过AAV载体递送具有编码靶向CUG的组合物的DNA的载体。由启动子驱动单独的PUF(CUG)-E17、Cas13d(CUG)或PUF(CUG)表达(图4A-图4C和图12A-图12B)。在一些方面，使用截短的CAG(tCAG)启动子(SEQ IDNO:385)。在一些方面，使用短EF1-α(EFS)启动子(SEQ ID NO:520)。在一些方面，使用具有UBB内含子的EFS启动子(SEQ ID NO:609)。

根据标准技术(三重转染法)产生AAV-9制剂，并将其通过IDX梯度超速离心纯化。通过qPCR和衣壳ELISA滴定AAV。接下来，将上述AAV9形式静脉内注射(150μL总体积，1*10^12vg)或注射到HSA-LR 1型强直性肌营养不良小鼠的胫骨前肌(50μL总体积，2*10^10vg，1*10^11vg)，并且随后进行每日临床观察。注射后4w和12w处死小鼠。对于每只动物，收集胫骨前肌(用于IM注射的注射部位)、股四头肌、隔膜、腓肠肌、心脏、脾脏、肝脏(代表性部分，即一叶)、肠和肾脏的近端半部分，将它们单独(成对器官除外)放入冷冻小瓶中，并在液氮中快速冷冻，以用于RNA/蛋白质评估和基因表达的变化。将所有组织的另一半包埋在OCT中并冷冻。以横向方式切割肌肉切片。将组织的另一半用于制备总RNA。

在4周和12周时间点处死小鼠之前进行肌电描记术，以评估疾病相关的肌强直(肌肉松弛缺陷)的逆转，其作为靶向RNA的组合物在逆转1型强直性肌营养不良生理表型方面的功效的量度。

将RNA从冷冻组织分离是用RNAeasy柱(Qiagen)根据制造商的方案来进行的。使用Nanodrop分光光度计估计RNA质量和浓度。根据制造商的方案，使用Superscript III(Thermofisher)和随机引物进行cDNA制备。进行qPCR和数字液滴PCR(ddPCR)以评估两个小鼠组(靶向RNA的组合物、媒介物)的组织中的靶向RNA的组合物的水平并评估转基因表达的持久性。

进行RNA荧光原位杂交(FISH)以测量肌肉切片中RNA团簇的消失，其作为靶向RNA的组合物在消除或阻断扩增的CUG重复方面的功效的量度。

使用针对氯化物通道Clcn1和Mbnl1的抗体进行免疫荧光，其作为靶向RNA的组合物对于治疗1型强直性肌营养不良分子病理学的功效的量度。Clcn1的重构和核Mbnl1的重新分布标志着逆转的1型强直性肌营养不良分子病理学。

从分离自肌肉组织的RNA制备cDNA。用引物在Atp2a1的选择性剪接外显子22、Clcn1的外显子7、BIN1的外显子11侧翼进行RT-PCR，以显示1型强直性肌营养不良相关的选择性剪接的逆转。

实施例4：通过dCas13d和靶向CUG的指导RNA在RNA水平上靶向扩增的CUG重复以治疗1型强直性肌营养不良

经由全身途径或肌内途径经由病毒手段或非病毒手段递送编码在人U6启动子控制下的靶向CUG的指导RNA(gRNA)和与核酸内切酶E17(源自人ZC3H112A基因)连接的无核酸酶活性的dCas13d或无核酸酶活性的dCas13d(单独)的单个转基因。为了靶向与强直性肌营养不良相关的扩增的CUG重复，通过AAV载体递送具有编码靶向CUG的gRNA和dCas13d(CUG)的DNA的载体。由启动子驱动Cas13d(或dCas13d)表达(图4B、图4C和图12B)。在一些方面，使用截短的CAG(tCAG)启动子(SEQ ID NO:385)。在一些方面，使用短EF1-α(EFS)启动子(SEQID NO:520)。在一些方面，使用具有UBB内含子的EFS启动子(SEQ ID NO:609)。

根据标准技术(三重转染法)产生AAV9制剂，并将其通过IDX梯度超速离心纯化。通过qPCR和衣壳ELISA滴定AAV。接下来，将上述AAV9形式静脉内注射(150μL总体积，1*10^12vg)或注射到HSA-LR 1型强直性肌营养不良小鼠的胫骨前肌(50μL总体积，2*10^10vg，1*10^11vg)，并且随后进行每日临床观察。注射后4w和12w处死小鼠。对于每只动物，收集胫骨前肌(IM注射的注射部位)、股四头肌、隔膜、腓肠肌、心脏、脾脏、肝脏(代表部分，即一叶)、肠和肾脏的近端半部分，将它们单独(成对器官除外)放入冷冻小瓶中，并在液氮中快速冷冻，以用于RNA/蛋白质评估和基因表达的变化。将所有组织的另一半包埋在OCT中并冷冻。以横向方式切割肌肉切片。将组织的另一半用于制备总RNA。

在4周和12周时间点处死小鼠之前进行肌电描记术，以评估疾病相关的肌强直(肌肉松弛缺陷)的逆转，其作为dCas13d(CUG)-E17经由破坏或者dCas13d(CUG)经由阻断在逆转1型强直性肌营养不良生理表型方面的功效的量度。将RNA从冷冻组织分离是用RNAeasy柱(Qiagen)根据制造商的方案来进行的。使用Nanodrop分光光度计估计RNA质量和浓度。根据制造商的方案，使用Superscript III(Thermofisher)和随机引物进行cDNA制备。进行qPCR和数字液滴PCR(ddPCR)以评估两个小鼠组(靶向CUG的RNA连同Cas13d或dCas13d、媒介物)的组织中的Cas13d(或dCas13d)和gRNA的水平，以评估转基因表达的持久性。进行RNA荧光原位杂交(FISH)以测量肌肉切片中RNA团簇的消失，其作为靶向CUG的gRNA+Cas13d(或dCas13d)在消除扩增的CUG重复方面的功效的量度。使用针对氯化物通道Clcn1和Mbnl1的抗体进行免疫荧光，其作为gRNA+Cas13d(或dCas13d)对于治疗1型强直性肌营养不良分子病理学的功效的量度。Clcn1的重构和核Mbnl1的重新分布标志着逆转的1型强直性肌营养不良分子病理学。从分离自肌肉组织的RNA制备cDNA。用引物在Atp2a1的选择性剪接外显子22、Clcn1的外显子7、BIN1的外显子11侧翼进行RT-PCR，以显示1型强直性肌营养不良相关的选择性剪接的逆转。

实施例5：在患者肌细胞和HSA DM1小鼠中经由破坏或阻断实现的CUG^exp RNA剂量依赖性减少(如上所述)

I型强直性肌营养不良(DM1)是由DMPK mRNA的3’非翻译区(UTR)中的CUG微卫星重复扩增(MRE)引起的多系统、常染色体显性遗传性障碍。以前，我们证明了基于CRISPR/Cas9的靶向RNA的基因疗法有可能消除原代患者细胞和DM1小鼠模型的DM1中从重复段表达的毒性RNA。为了进一步探索不太易于使用且更适合降低或消除脱靶效应的治疗性MRE靶向策略，我们设计了靶向RNA的系统：1)新型CRISPR/Cas13d(A01215)，2)源自与源自人ZC3H112A(A01344)的RNA核酸内切酶连接的天然存在的人PUM1蛋白(PUF-E17)的PUF RNA结合蛋白系统，和3)不含核酸内切酶的PUF RNA结合蛋白系统(A01686)，其用于靶向并切割(1和2)或阻断扩增的DM1相关CUG重复。经修饰的AAvrh74包装的Cas13d和PUF-E17以剂量依赖性方式减少DM1患者肌细胞中的核CUG RNA团簇。此外，将单一AAV9包装的Cas13d、PUF-E17和PUF(阻断)经由肌内(IM)和静脉内(IV)注射分别递送至成年(8-12周龄)_HSALR DM1小鼠。在所有靶向RNA的系统的情况下IM注射后4周，使用肌电描记术我们报告了剂量依赖性转基因表达、DM1相关的选择性剪接的校正和肌强直的减少。如所预期，在Cas13d和PUF-E17的情况下RNA团簇的减少以及剪接的改善伴随着CUG RNA水平的降低(>50％)。总之，我们展示了可以有效地靶向DMPK中的MRE并改善DM1的分子特征和临床特征的不同的机制方法(破坏和阻断)。图6-图12。

实施例6：NHP研究中的耐受性和转基因表达

使用在肌肉(骨骼肌、平滑肌和心肌)特异性启动子的控制下编码上述靶向RNA的组合物(A01215、A01344和A01686)的AAV9进行非人灵长类动物(NHP)研究，以评估在靶组织中的耐受性和转基因表达水平(生物分布)。靶向RNA的组合物。通过AAV9载体递送具有编码靶向CUG的组合物的DNA的载体。由启动子驱动单独的PUF(CUG)-E17、Cas13d(CUG)或PUF(CUG)表达(图4A-图4C和图12A-图12B)。在一些方面，使用结蛋白启动子(全长结蛋白SEQID NO:568或截短的结蛋白SEQ ID NO:569)。

通过引用并入

将在本文中引用的每个文件(包括任何交叉参考或相关的专利或申请)通过引用以其整体特此并入本文，除非明确排除或另有限制。引用任何文件并非承认，它是关于本文公开或具体化的任何发明的现有技术，或者它单独地或与任何其他一个或多个参考文献的任何组合传授、表明或公开任何这种发明。此外，在本文件中术语的任何含义或定义与通过引用并入的文件中相同术语的任何含义或定义矛盾的方面来说，应当以分配给本文件中该术语的含义或定义为准。

其他实施方案

虽然已经说明并描述了本公开文本的具体实施方案，但是可以在不背离本公开文本的精神和范围的情况下做出各种其他变化和修改。所附权利要求的范围包括在本公开文本的范围内的所有此类变化和修改。

Claims

1.一种组合物，所述组合物包含编码RNA结合多肽的核酸序列，所述RNA结合多肽包含能够结合毒性靶CUG重复RNA序列的非指导的RNA结合多肽或指导的RNA结合多肽。

2.根据权利要求1所述的组合物，其中所述RNA结合多肽是融合蛋白。

3.根据权利要求2所述的组合物，其中所述融合蛋白包含所述RNA结合多肽，所述RNA结合多肽与能够切割所述毒性CUG重复RNA序列的核酸内切酶融合。

4.根据前述权利要求中任一项所述的组合物，其中所述非指导的RNA结合多肽是PUF或PUMBY蛋白。

5.根据前述权利要求中任一项所述的组合物，其中所述指导的RNA结合多肽是Cas13d蛋白。

6.根据前述权利要求中任一项所述的组合物，其中所述cas13d蛋白是无催化活性的。

7.根据前述权利要求中任一项所述的组合物，其中所述cas13d蛋白包含SEQ ID NO:583或586-589中任一个所示的氨基酸序列。

8.根据前述权利要求中任一项所述的组合物，其中所述核酸内切酶是ZC3H12A锌指核酸内切酶的核酸酶结构域。

9.根据前述权利要求中任一项所述的组合物，其中所述PUF RNA结合蛋白包含SEQ IDNO:444-451、461、570或638-649中任一个所示的氨基酸序列。

10.根据前述权利要求中任一项所述的组合物，其中所述PUF RNA结合蛋白包含SEQ IDNO:444中所示的氨基酸序列。

11.根据前述权利要求中任一项所述的组合物，其中所述毒性靶CUG RNA重复序列包含SEQ ID NO:453-456中所示的核酸序列中的任一种。

12.根据前述权利要求中任一项所述的组合物，其中所述毒性靶CUG RNA重复序列包含SEQ ID NO:454中所示的核酸序列。

13.根据前述权利要求中任一项所述的组合物，其中所述靶向CUG的PUF蛋白由SEQ IDNO:452中所示的核酸序列编码。

14.根据前述权利要求中任一项所述的组合物，其中所述PUF或PUMBY蛋白是人PUF或PUMBY蛋白。

15.根据前述权利要求中任一项所述的组合物，其中所述PUF或PUMBY蛋白通过接头序列与所述ZC3H12A核酸内切酶连接。

16.根据前述权利要求中任一项所述的组合物，其中所述接头包含SEQ ID NO:411中所示的氨基酸序列。

17.根据前述权利要求中任一项所述的组合物，其中所述融合蛋白包含选自核定位序列(NLS)和核输出序列(NES)的一个或多个信号序列。

18.根据前述权利要求中任一项所述的组合物，其中所述ZC3H12A锌指核酸酶包含SEQID NO:358或SEQ ID NO:359中所示的氨基酸序列。

19.根据前述权利要求中任一项所述的组合物，其中所述融合蛋白包含SEQ ID NO:559-567中任一个所示的氨基酸序列。

20.根据前述权利要求中任一项所述的组合物，其中所述融合蛋白由包含SEQ ID NO:460、SEQ ID NO:516或SEQ ID NO:517的核酸序列编码。

21.根据前述权利要求中任一项所述的组合物，其中编码所述融合蛋白的核酸分子包含启动子。

22.根据前述权利要求中任一项所述的组合物，其中所述启动子是tCAG启动子、EFS/UBB启动子、结蛋白启动子、CK8e启动子或EFS启动子。

23.一种载体，所述载体包含根据前述权利要求中任一项所述的组合物。

24.根据权利要求23所述的载体，其中所述载体选自：腺相关病毒(AAV)、逆转录病毒、慢病毒、腺病毒、纳米颗粒、胶束、脂质体、阳离子脂质体/DNA复合物、聚合物囊泡、多聚复合物和树状聚合物。

25.根据权利要求23所述的载体，所述载体是AAV载体。

26.根据前述权利要求中任一项所述的AAV载体，其中所述AAV载体包含：

第一AAV ITR序列；

第一启动子序列；

编码至少一种CUG重复RNA结合多肽的多核苷酸序列；和

第二AAV ITR序列。

27.根据前述权利要求中任一项所述的AAV载体，其中所述CUG重复RNA结合多肽包含PUF或PUMBY蛋白。

28.根据前述权利要求中任一项所述的AAV载体，其中编码所述PUF或PUMBY序列的所述多核苷酸序列包含SEQ ID NO:452中所示的核酸序列。

29.根据前述权利要求中任一项所述的AAV载体，其中所述CUG重复RNA结合多肽包含Cas13d蛋白。

30.根据前述权利要求中任一项所述的AAV载体，其中编码所述Cas13d序列的所述多核苷酸序列包含SEQ ID NO:601、612或615-618中所示的核酸序列。

31.根据前述权利要求中任一项所述的AAV载体，其中所述第一启动子序列包含SEQ IDNO:568、569、608、609、634-637中所示的核酸序列。

32.根据前述权利要求中任一项所述的AAV载体，其中所述第一AAV ITR序列包含SEQID NO:599或600中所示的核酸序列。

33.根据前述权利要求中任一项所述的AAV载体，其中所述第二AAV ITR序列包含SEQID NO:599或600中所示的核酸序列。

34.根据前述权利要求中任一项所述的AAV载体，其中所述载体进一步包含第二启动子序列。

35.根据前述权利要求中任一项所述的AAV载体，其中所述第二启动子控制指导RNA(gRNA)的表达，其中所述gRNA包含(i)DR序列和(ii)间隔子序列。

36.根据前述权利要求中任一项所述的AAV载体，其中所述第二启动子包含SEQ ID NO:519中所示的核酸序列。

37.根据前述权利要求中任一项所述的AAV载体，其中所述载体进一步包含聚A序列。

38.根据前述权利要求中任一项所述的AAV载体，其中所述载体包含至少一个接头序列。

39.根据前述权利要求中任一项所述的AAV载体，其中所述载体包含至少一个核定位序列。

40.根据前述权利要求中任一项所述的AAV载体，其中所述载体由SEQ ID NO:574-582、584-585、590-597中任一个所示的核酸编码。

41.一种药物组合物，所述药物组合物包含：

a)根据权利要求26-40中任一项所述的AAV病毒载体；和

b)至少一种药学上可接受的赋形剂和/或添加剂。

42.一种AAV病毒载体，所述AAV病毒载体包含：

a)根据前述权利要求中任一项所述的AAV载体；和

b)AAV衣壳蛋白。

43.根据权利要求42所述的AAV病毒载体，其中所述AAV衣壳蛋白是AAV1衣壳蛋白、AAV2衣壳蛋白、AAV4衣壳蛋白、AAV5衣壳蛋白、AAV6衣壳蛋白、AAV7衣壳蛋白、AAV8衣壳蛋白、AAV9衣壳蛋白、AAV10衣壳蛋白、AAV11衣壳蛋白、AAV12衣壳蛋白、AAV13衣壳蛋白、AAVPHP.B衣壳蛋白、AAVrh74衣壳蛋白或AAVrh.10衣壳蛋白。

44.根据权利要求21所述的AAV病毒载体，其中所述AAV衣壳蛋白是AAV9衣壳蛋白。

45.一种细胞，所述细胞包含根据前述权利要求中任一项所述的载体。

46.一种治疗哺乳动物的1型强直性肌营养不良(DM1)的方法，所述方法包括将根据权利要求1-45中任一项所述的组合物或AAV载体施用至所述哺乳动物的组织中的毒性靶CUG微卫星重复扩增(MRE)RNA序列，从而降低所述毒性靶RNA的表达水平。

47.根据权利要求46所述的方法，其中将所述组合物或AAV载体以如下方式施用于所述受试者：静脉内、鞘内、大脑内、心室内、鼻内、气管内、耳内、眼内或眼周、口服、直肠、透粘膜、吸入、经皮、肠胃外、皮下、皮内、肌内、脑池内、神经内、胸膜内、外用、淋巴内、脑池内或神经内。

48.根据权利要求46所述的方法，其中将所述组合物或AAV载体静脉内施用于所述受试者。

49.根据权利要求46所述的方法，其中所述毒性靶RNA的降低的表达水平因此改善了所述哺乳动物中DM1的症状。

50.根据权利要求46所述的方法，其中与未经处理的毒性靶CUG RNA的表达水平的降低相比，所述毒性靶RNA的表达水平降低。

51.根据权利要求46所述的方法，其中降低的水平在1倍与20倍之间。