CN117836009A

CN117836009A - 用于基因组整合的方法和组合物

Info

Publication number: CN117836009A
Application number: CN202280049196.6A
Authority: CN
Inventors: 丹尼尔·盖茨; 王宇枭; 纳米塔·比萨里亚; 因娜·谢尔巴科娃; 索奇塔·李
Original assignee: Merlot Biomedical Co
Current assignee: Merlot Biomedical Co
Priority date: 2021-05-11
Filing date: 2022-05-11
Publication date: 2024-04-05

Abstract

公开了用于调节靶基因组并将目标转基因稳定整合到细胞的基因组中的方法和组合物。

Description

用于基因组整合的方法和组合物

交叉引用

本申请要求2021年5月11日提交的美国临时申请号63/187,117、2021年10月12日提交的美国临时申请号63/254,791以及2021年11月2日提交的美国临时申请号63/274,907的优先权权益，其中的每一个申请特此通过引用以其整体并入。

背景技术

细胞疗法是一个快速发展的领域，用于解决难以治疗的疾病，诸如癌症、持续性感染和其他治疗形式难以治疗的某些疾病。细胞疗法通常利用离体工程化并施用于生物体的细胞来纠正体内的缺陷。有效且可靠的细胞基因组操纵系统至关重要，因为当工程化细胞被施用到生物体中时，它发挥最佳功能和持久功效。同样，可靠的基因操纵机制形成基因疗法成功的基石。然而，以治疗上安全且有效的方式递送核酸货物(cargo)(例如，大货物)的方法存在严重缺陷。病毒递送机制经常用于在细胞中递送大核酸货物，但与安全问题有关，并且不能用于在一些细胞类型中表达货物。此外，对细胞进行重复的基因操作可能影响细胞健康，诱导细胞周期的改变，并使细胞不适合治疗性用途。在所述领域中不断寻求进步以有效递送和稳定化用于治疗目的的外源引入的遗传物质。

发明内容

本文提供了一种药物组合物，其包含治疗有效量的一个或多个多核酸或至少一个编码所述一个或多个多核酸的载体，所述一个或多个多核酸包含：包含编码多肽的序列的可移动遗传元件；和插入序列，其中所述插入序列包含作为编码外源性治疗性多肽的序列的反向补体的序列，其中由所述可移动遗传元件的序列编码的所述多肽促进将所述插入序列整合到细胞的基因组中；并且其中所述药物组合物对于人对象是基本上非免疫原性的。

在一些实施方案中，由所述可移动遗传元件的序列编码的所述多肽包含一个或多个长散布核元件(LINE)多肽，其中所述一个或多个LINE多肽包含：人ORF1p或其功能性片段，和人ORF2p或其功能性片段。

在一些实施方案中，所述插入序列稳定地整合和/或逆转录转座到人细胞的基因组中。

在一些实施方案中，所述人细胞是选自以下的免疫细胞：T细胞、B细胞、骨髓细胞、单核细胞、巨噬细胞和树突状细胞。

在一些实施方案中，所述插入序列(i)通过由所述一个或多个多核酸编码的核酸内切酶切割靶位点的DNA链，(ii)经由靶标引发的逆转录(TPRT)，或(iii)经由将所述插入序列反向剪接到所述基因组的DNA靶位点中，被整合到所述基因组中。在一些实施方案中，使用所述人ORF2p的核酸内切酶结构域的特异性将所述插入序列整合到所述基因组中的多聚T位点处。在一些实施方案中，多聚T位点包含序列TTTTTA。在一些实施方案中，所述一个或多个多核酸包含与所述基因组中的靶位点互补的同源臂。在一些实施方案中，所述插入序列整合到：(a)不是核糖体RNA基因座的基因座处的基因组中；(b)所述基因组的基因或基因的调控区中，从而破坏所述基因或下调所述基因的表达；(c)所述基因组的基因或基因的调控区中，从而上调所述基因的表达；或(d)所述基因组中并替换所述基因组的基因。在一些实施方案中，所述药物组合物还包含(i)一个或多个siRNA和/或(ii)RNA向导序列或编码所述RNA向导序列的多核酸，并且其中所述RNA向导序列靶向所述基因组的DNA靶位点，并且所述插入序列在所述基因组的DNA靶位点处被整合到所述基因组中。在一些实施方案中，所述一个或多个多核酸具有3kb至20kb的总长度。在一些实施方案中，所述一个或多个多核酸包含一个或多个多核糖核酸、一个或多个RNA或一个或多个mRNA。在一些实施方案中，所述外源性治疗性多肽选自配体、抗体、受体、酶、转运蛋白、结构蛋白、激素、收缩蛋白、储存蛋白和转录因子。在一些实施方案中，所述外源性治疗性多肽是选自嵌合抗原受体(CAR)或T细胞受体(TCR)的受体。在一些实施方案中，所述一个或多个多核酸包含第一表达盒，所述第一表达盒包含启动子序列、5’UTR序列、3’UTR序列和多聚A序列；其中：所述启动子序列位于所述5’UTR序列的上游，所述5’UTR序列位于所述可移动遗传元件的编码多肽的序列的上游，所述3’UTR序列位于所述插入序列的下游；并且所述3’UTR位于所述多聚A序列的上游；并且其中所述5’UTR序列、所述3’UTR序列或所述多聚A序列包含人ORF2p或其功能性片段的结合位点。在一些实施方案中，所述插入序列包含第二表达盒，所述第二表达盒包含作为启动子序列的反向补体的序列、作为5’UTR序列的反向补体的序列、作为3’UTR序列的反向补体的序列以及作为多聚A序列的反向补体的序列；其中：(i)所述作为启动子序列的反向补体的序列位于所述作为5’UTR序列的反向补体的序列的下游，(ii)所述作为5’UTR序列的反向补体的序列位于所述作为编码外源性治疗性多肽的序列的反向补体的序列的下游，(iii)所述作为3’UTR序列的反向补体的序列位于所述作为编码外源性治疗性多肽的序列的反向补体的序列的上游，并且(iv)所述作为多聚A序列的反向补体的序列位于所述作为3’UTR序列的反向补体的序列的上游和所述可移动遗传元件的编码多肽的序列的下游。在一些实施方案中，第一表达盒的启动子序列不同于第二表达盒的启动子序列。在一些实施方案中，所述一个或多个LINE多肽包含含有所述人ORF1p或其功能性片段的第一LINE多肽和含有所述人ORF2p或其功能性片段的第二LINE多肽，其中所述第一LINE多肽和所述第二LINE多肽由不同的开放阅读框(ORF)翻译。在一些实施方案中，所述一个或多个多核酸包含编码所述人ORF1p或其功能性片段的第一多核酸分子和编码所述人ORF2p或其功能性片段的第二多核酸分子。在一些实施方案中，所述一个或多个多核酸包含5’UTR序列和3’UTR序列，其中所述5’UTR包含来自LINE-1或与ACUCCUCCCCAUCCUCUCCCUCUGUCCCUCUGUCCCUCUGACCCUGCACUGUCCCAGCACC具有至少80％序列同一性的序列的5’UTR；并且/或者所述3’UTR包含来自LINE-1或与CAGGACACAGCCUUGGAUCAGGACAGAGACUUGGGGGCCAUC CUGCCCCUCCAACCCGACAUGUGUACCUCAGCUUUUUCCCUCA CUUGCAUCAAUAAAGCUUCUGUGUUUGGAACAG具有至少80％序列同一性的序列的3’UTR。在一些实施方案中，所述编码外源性治疗性多肽的序列不包括内含子。在一些实施方案中，由所述可移动遗传元件的序列编码的多肽包含C末端核定位信号(NLS)、N末端NLS或两者。在一些实施方案中，编码所述外源性多肽的序列与编码ORF1p或其功能性片段的序列不同框并且/或者与编码ORF2p或其功能性片段的序列不同框。在一些实施方案中，所述一个或多个多核酸包含编码以下的序列：核酸酶结构域、不是衍生自ORF2p的核酸酶结构域、megaTAL核酸酶结构域、TALEN结构域、Cas9结构域、Cas6结构域、Cas7结构域、Cas8结构域、来自R2逆转录元件的锌指结合结构域、或与重复序列结合的DNA结合结构域。在一些实施方案中，所述一个或多个多核酸包含编码核酸酶结构域的序列，其中所述核酸酶结构域不具有核酸酶活性或包含与没有突变的核酸酶结构域相比降低核酸酶结构域的活性的突变。在一些实施方案中，所述ORF2p或其功能性片段缺乏核酸内切酶活性或包含选自S228P和Y1180A的突变，并且/或者其中所述ORF1p或功能性片段包含K3R突变。在一些实施方案中，所述插入序列包含作为编码两个或更多个外源性治疗性多肽的序列的反向补体的序列。在一些实施方案中，所述一个或多个多核酸包含一个或多个多核糖核酸，其中所述外源性治疗性多肽是选自嵌合抗原受体(CAR)或T细胞受体(TCR)的受体，并且其中所述药物组合物被配制用于全身施用于人对象。在一些实施方案中，所述一个或多个多核酸被配制在选自(i)脂质纳米颗粒和聚合物纳米颗粒的纳米颗粒中；并且/或者(ii)包含选自以下的一个或多个多核酸：糖基化RNA、环状RNA和自复制RNA。

本文提供了一种方法，其中所述方法是：(i)一种治疗有需要的人对象的疾病或病状的方法，所述方法包括将本文所述的药物组合物施用于所述人对象；或(ii)一种离体修饰人细胞群体的方法，所述方法包括使组合物与人细胞群体离体接触，从而形成离体修饰的人细胞群体，所述组合物包含一个或多个多核酸或至少一个编码所述一个或多个多核酸的载体，所述一个或多个多核酸包含：包含编码多肽的序列的可移动遗传元件；和插入序列，其中所述插入序列是编码外源性治疗性多肽的序列的反向补体，其中所述离体修饰的人细胞群体对于人对象是基本上非免疫原性的。在一些实施方案中，所述一个或多个多核酸还包含(i)编码用于将插入序列定点整合到基因组中的整合酶或其片段的序列和(ii)可由所述整合酶操作的整合酶基因组着陆位点序列，其中所述基因组着陆序列的长度大于4个连续核苷酸。在一些实施方案中，所述ORF2和所述整合酶在不同的多核苷酸上。在一些实施方案中，所述ORF2和所述整合酶在单个多核苷酸上。在一些实施方案中，所述整合酶不被整合到细胞的基因组中。在一些实施方案中，所述整合酶是突变或截短的重组蛋白。在一些实施方案中，所述可由所述整合酶操作的整合酶基因组着陆序列的长度大于20个核苷酸或大于30个核苷酸。在一些实施方案中，所述插入序列包含可由所述整合酶操作的附接位点。在一些实施方案中，使用向导RNA和Cas系统将所述整合酶基因组着陆位点插入到所述基因组中。在一些实施方案中，所述向导RNA、所述CAS系统和所述基因组着陆序列在与包含编码LINE1-ORF的序列和插入序列的多核苷酸不同的多核苷酸中。在一些实施方案中，一个或多个ORF多肽序列包含突变。一种用于将异源性基因组插入序列位点特异性整合到哺乳动物细胞的基因组中的方法，所述方法包括：(i)将以下各项引入到所述细胞中：(a)包含编码与所述异源性插入序列缔合的一个或多个人逆转录转座子元件的序列的多核苷酸，和(b)包含编码向导RNA、RNA导向的整合酶或其片段和可由所述整合酶操作的着陆序列的序列的多核苷酸；(ii)验证所述异源性插入序列被整合到所述基因组的位点中。

本文提供了一种用于使用LINE逆转录转座子系统进行异源性基因组插入物的位点特异性整合的方法，其中所述LINE逆转录转座子系统被修饰以掺入可以识别长度大于10个连续核苷酸的基因组着陆序列的整合酶蛋白的片段，并且其中所述LINE逆转录转座子系统将所述异源性基因组插入物整合到被所述整合酶蛋白的片段识别的所述基因组着陆序列中。在一些实施方案中，所述方法还包括将长度大于4个连续核苷酸的基因组着陆序列掺入到所述基因组中的步骤。在一些实施方案中，将基因组着陆序列掺入到基因组中的步骤通过RNA导向的CRISPR-Cas系统进行。在一些实施方案中，所述RNA导向的CRISPR-Cas系统具有能够将长度大于4个连续核苷酸的序列掺入到特定基因组位点中的编辑功能。在一些实施方案中，所述RNA导向的CRISPR-Cas系统将ORF-mRNA结合序列掺入到与向导RNA的序列具有序列同源性的基因组内的指定位置中。在一些实施方案中，所述插入物为约10千碱基或大于10千碱基。在一些实施方案中，所述多核苷酸是mRNA。

本文提供了一种将插入序列稳定地整合到靶细胞的基因组DNA中的方法，所述方法包括：使组合物与所述靶细胞接触，所述组合物包含多核酸，其中所述多核酸包含：插入序列，其中所述插入序列包含作为编码外源性多肽的序列的反向补体的序列，和包含编码多肽的序列的可移动遗传元件，其中由可移动遗传元件的序列编码的多肽促进将所述插入序列整合到基因组DNA中；将所述插入序列稳定地整合到所述靶细胞的基因组DNA中；以及在所述靶细胞中表达外源性多肽，其中所述靶细胞是人肝细胞。在一些实施方案中，所述人肝细胞是原代细胞。在一些实施方案中，所述人肝细胞来自培养的肝细胞系。在一些实施方案中，掺入包括在对于人肝细胞最佳的条件下进行电穿孔。在一些实施方案中，所述方法还包括在掺入之后体外培养所述人肝细胞约2小时、约3小时、约4小时、约5小时、约6小时、约8小时、约10小时或约24小时。在一些实施方案中，所述方法还包括将表达外源性多肽的人肝细胞引入到有需要的人对象中。在一些实施方案中，至少2％的人肝细胞在掺入之后第10天表达外源性多肽。

本文提供了一种将插入序列稳定地整合到靶细胞的基因组DNA中的方法，所述方法包括：使组合物与所述靶细胞接触，所述组合物包含多核酸，其中所述多核酸包含：插入序列，其中所述插入序列包含作为编码外源性多肽的序列的反向补体的序列，和包含编码多肽的序列的可移动遗传元件，其中由可移动遗传元件的序列编码的多肽促进将所述插入序列整合到基因组DNA中；将所述插入序列稳定地整合到所述靶细胞的基因组DNA中；以及在所述靶细胞中表达外源性多肽，其中所述靶细胞是人心肌细胞。在一些实施方案中，所述人心肌细胞是原代细胞。在一些实施方案中，所述人心肌细胞来自培养的心肌细胞系。在一些实施方案中，掺入包括在对于人心肌细胞最佳的条件下进行电穿孔。在一些实施方案中，所述方法还包括在掺入之后体外培养所述心肌细胞约2小时、约3小时、约4小时、约5小时、约6小时、约8小时、约10小时或长达24小时。在一些实施方案中，所述方法还包括将表达外源性多肽的人心肌细胞引入到有需要的人对象中。在一些实施方案中，至少2％的人心肌细胞在掺入之后第10天表达外源性多肽。

本文提供了一种将插入序列稳定地整合到靶细胞的基因组DNA中的方法，所述方法包括：使组合物与所述靶细胞接触，所述组合物包含多核酸，其中所述多核酸包含：插入序列，其中所述插入序列包含作为编码外源性多肽的序列的反向补体的序列，和包含编码多肽的序列的可移动遗传元件，其中由可移动遗传元件的序列编码的多肽促进将所述插入序列整合到基因组DNA中；将所述插入序列稳定地整合到所述靶细胞的基因组DNA中；以及在所述靶细胞中表达外源性多肽，其中所述靶细胞是人视网膜色素上皮细胞。在一些实施方案中，所述人视网膜色素上皮细胞是原代细胞。在一些实施方案中，所述人视网膜色素上皮细胞来自培养的视网膜色素上皮细胞系。在一些实施方案中，掺入包括在对于人视网膜色素上皮细胞最佳的条件下进行电穿孔。在一些实施方案中，所述方法还包括在掺入之后体外培养所述视网膜色素上皮细胞约2小时、约3小时、约4小时、约5小时、约6小时、约8小时、约10小时或长达24小时。在一些实施方案中，所述方法还包括将表达外源性多肽的人视网膜色素上皮细胞引入到有需要的人对象中。在一些实施方案中，至少2％的人RPE在掺入之后第10天表达外源性多肽。

本文提供了一种将插入序列稳定地整合到靶细胞的基因组DNA中的方法，所述方法包括：使组合物与所述靶细胞接触，所述组合物包含多核酸，其中所述多核酸包含：插入序列，其中所述插入序列包含作为编码外源性多肽的序列的反向补体的序列，和包含编码多肽的序列的可移动遗传元件，其中由可移动遗传元件的序列编码的多肽促进将所述插入序列整合到基因组DNA中；将所述插入序列稳定地整合到所述靶细胞的基因组DNA中；以及在所述靶细胞中表达外源性多肽，其中所述靶细胞是人神经元细胞。在一些实施方案中，所述人神经元细胞是原代细胞。在一些实施方案中，所述人神经元细胞来自培养的神经元细胞系。在一些实施方案中，掺入包括在对于人神经元细胞最佳的条件下进行电穿孔。在一些实施方案中，所述方法还包括在掺入之后体外培养所述神经元细胞约2小时、约3小时、约4小时、约5小时、约6小时、约8小时、约10小时或长达24小时。在一些实施方案中，所述方法还包括将表达外源性多肽的人神经元细胞引入到人中。在一些实施方案中，至少2％的人神经元细胞在掺入之后第10天表达外源性多肽。在一些实施方案中，所述插入序列是人插入序列。在一些实施方案中，所述外源性多肽是外源性治疗性多肽。在一些实施方案中，所述外源性多肽是外源性人多肽。在一些实施方案中，由可移动遗传元件的序列编码的多肽促进经由靶标引发的逆转录(TPRT)将所述插入序列整合到基因组DNA中。在一些实施方案中，所述多核酸是mRNA或mRNA分子。在一些实施方案中，所述可移动遗传元件包括人LINE1逆转录转座子元件。在一些实施方案中，所述ORF2p选自非人物种。在一些实施方案中，所述选自非人物种的ORF2p被进一步修饰以增强逆转录转座效率和/或翻译效率。在一些实施方案中，所述细胞是免疫细胞、肝细胞、心肌细胞、视网膜色素上皮细胞或神经元。在一些实施方案中，所述ORF2p包含核定位序列(NLS)。在一些实施方案中，所述ORF2p包含至少2个相同或不同的NLS。在一些实施方案中，所述NLS位于编码ORF1p、ORF2p或两者的序列的N末端。在一些实施方案中，所述NLS位于编码ORF1p、ORF2p或两者的序列的C末端。在一些实施方案中，所述NLS来自SV40。在一些实施方案中，所述NLS来自核质蛋白。在一些实施方案中，至少2个NLS中的第一NLS来自SV40，并且至少2个NLS中的第二NLS来自核质蛋白。在一些实施方案中，至少2个NLS中的第一和第二NLS来自SV40。在一些实施方案中，至少2个NLS中的第一和第二NLS来自核质蛋白。在一些实施方案中，至少2个NLS中的每一个是相同的。

援引并入

本说明书中提及的所有出版物、专利和专利申请均通过引用以相同程度并入本文，如同每个单独的出版物、专利或专利申请被明确地且单独地指示通过引用而并入。就通过引用并入的出版物和专利或专利申请与本说明书中包含的公开内容相矛盾而言，本说明书旨在取代和/或优先于任何这种矛盾的材料。

附图说明

本发明的新型特征在所附权利要求书中具体地阐述。通过参考以下详细描述和附图将获得对本发明的特征和优点的更好理解，所述详细描述阐述了其中利用本发明的原理的说明性实施方案，在附图中(在本文中也称为“图”)：

图1A说明了逆转录转座子的一般作用机制。(I)是表示自主性逆转录转座子的整个生命周期的示意图。(II)LINE-1逆转录转座子包含LINE-1元件，其编码表达为mRNA的两种蛋白质ORF1p和ORF2p。双顺反子mRNA被翻译成两种蛋白质，并且当ORF2p由核糖体通过通读事件进行翻译时，它通过多聚A尾(III)结合其自身mRNA的3’端。ORF2p在共有序列TAAAA处裂解，其中mRNA 3’端处的多聚A杂交并引发ORF2蛋白的逆转录酶活性。所述蛋白质将mRNA逆转录回为DNA，导致LINE-1序列插入回基因组中的新位置(IV)。

图1B是包含可以被设计用于整合到基因组(右)中的遗传有效载荷(左)的mRNA构建体的示意图的说明。

图1C说明了用于将编码转基因的mRNA整合到细胞的基因组中的各种示例性设计。此处方框中显示的GFP是示例性转基因。

图1D说明了用于将编码转基因的mRNA整合到细胞的基因组中的各种示例性设计。此处方框中显示的GFP是示例性转基因。

图1E是LINE-1逆转录转座循环的示意图的说明，其示出了LINE转座子的作用机制和将转基因货物引入到逆转录转座子位点中。LINE-1逆转录转座子是编码ORF1和ORF2两种蛋白质的基因组序列。这些元件被转录并翻译成与LINE-1mRNA、ORF1三聚体和ORF2(一种逆转录酶核酸内切酶)形成RNA-蛋白质复合物的蛋白质。此复合物易位回到核酸酶中，在核酸酶中它在5’-TTTT N-3’基序处切割DNA，并且通过与mRNA的多聚A尾和切除的切割DNA形成RNA-DNA杂交体，启动ORF2蛋白对LINE-1RNA的逆转录。LINE-1逆转录为cDNA导致新的LINE-1整合事件。

图2A说明了通过使用构建体稳定地掺入编码GFP的序列来表达示例性转基因GFP的三种示例性设计。72小时时预期的GFP表达水平在右侧示出。

图2B说明了通过使用构建体稳定地掺入编码RFP、RFP和GFP或ORF2p和GFP的序列来表达示例性转基因GFP的三种示例性设计。72小时时预期的GFP和RFP表达水平在右侧示出。

图3A说明了常规circRNA结构和形成的示例图。

图3B说明了示例性RL-GAAA tectoRNA基序设计的两个视图。

图3C说明了芯片-流动工件(chip-flow piece)RNA的示例性结构作为测试潜在tectoRNA的平台。

图4A说明了显示ORF2p与ORF2多聚A区结合的示例性示意图。

图4B说明了示例性示意图，其示出了ORF2p与MS2 RNA结合结构域的融合物如何与编码ORF2的mRNA的3’UTR中的MS2结合RNA序列结合以增加特异性。

图4C说明了用于在特定位点处将核酸稳定整合到细胞的基因组中的逆转录转座子系统的示例性设计。上部子图示出了使用ORFp2-MegaTAL DNA结合结构域融合物的设计，其中ORF2p的DNA结合和核酸内切酶活性被突变为无活性的。中间子图示出了嵌合ORF2p，其中核酸内切酶结构域已被另一种蛋白质的高特异性且高保真度核酸酶结构域替换。下部子图示出了异源性蛋白的DNA结合结构域与ORF2p的融合物，使得融合蛋白结合至ORF2结合位点以及ORF2位点附近的额外DNA序列。

图5说明了用于将编码转基因的mRNA整合到细胞的基因组中的示例性构建体(I)-(X)。

图6A说明了具有编码ORF1p的序列的示例性构建体，用于将编码转基因的mRNA整合到细胞的基因组中。

图6B说明了没有编码ORF1p的序列的示例性构建体，用于将编码转基因的mRNA整合到细胞的基因组中。

图7A说明了通过引入与以下各项对应的结构来抑制由5’-3’核酸外切酶(诸如XRN1)降解或3’-5’外泌体降解从而改善mRNA半衰期的示例性方法：G-四链体或5’UTR中的假结；和/或xrRNA、三链体基序和/或在3’UTR中的非A核苷酸残基。

图7B说明了表达编码嵌合受体的转基因的骨髓细胞的示例性示意图，所述嵌合受体结合癌细胞并诱导抗癌活性。

图7C示出了引入编码嵌合受体的散装或纯化的RNA对增加和延长嵌合受体的表达的预期结果，所述嵌合受体结合如图7B中所述的癌细胞。

图8A示出了具有货物核酸序列的示例性质粒设计和预期的LINE-1mRNA转录物。所述质粒具有LINE-1序列(包括ORF1和ORF2蛋白编码序列)和货物序列，所述货物序列是编码GFP的核酸序列，其中GFP的编码序列被内含子中断。直到所述序列被整合到基因组中并且内含子被剪接后，GFP才被表达。

图8B示出了示例性结果，展示了由图8A中所示的质粒编码的mRNA转录物的成功整合和相对于模拟转染细胞GFP的表达(示出了GFP阳性细胞的平均荧光强度的倍数增加)。模拟转染细胞由缺乏GFP货物序列的载体进行转染。

图8C示出了来自图8B所示结果的示例性流式细胞术结果。

图9A示出了具有货物核酸序列的示例性质粒设计和预期的LINE-1mRNA转录物。所述质粒具有LINE-1序列(包括ORF1和ORF2蛋白编码序列)和货物序列，所述货物序列是编码重组嵌合融合受体蛋白(ATAK受体)的核酸序列，所述重组嵌合融合受体蛋白具有能够与CD5结合的胞外区及胞内区，所述胞内区包含FCR胞内结构域和PI3激酶募集结构域。ATAK受体的编码序列被内含子中断。

图9B示出了示例性结果，展示了由图9A中所示的质粒编码的mRNA转录物的成功整合和相对于模拟转染细胞ATAK的表达(示出了ATAK阳性细胞的平均荧光强度的倍数增加)。模拟转染细胞由缺乏ATAK货物序列的载体进行转染。通过与标记的CD5抗体结合来检测ATAK受体蛋白的表达。

图9C示出了来自图9B所示结果的示例性流式细胞术结果。

图10A示出了具有货物核酸序列的示例性质粒设计和预期的LINE-1mRNA转录物。所述质粒具有LINE-1序列(包括ORF1和ORF2蛋白编码序列)和货物序列，所述货物序列是编码重组嵌合融合受体蛋白(ATAK受体)的核酸序列，其后是T2A自切割型序列，然后是分裂的GFP序列(相对于LINE-1序列都在反向取向上)。GFP的编码序列被内含子中断。描绘了货物的逆转录和整合后预期的mRNA。

图10B示出了示例性结果，展示了由图10A中所示的质粒编码的mRNA转录物的成功整合和相对于模拟转染细胞ATAK-T2A-GFP的表达(示出了GFP和ATAK双重阳性细胞的倍数变化)。模拟转染细胞由缺乏ATAK货物序列的载体进行转染。通过与标记的CD5抗体结合来检测ATAK受体蛋白的表达。

图10C示出了使用图10A中所示的实验设置针对GFP和CD5结合剂(ATAK)的表达进行两轮单独实验的代表性流式细胞术数据。

图10D示出了使用图10A中所示的实验设置针对GFP和CD5结合剂(ATAK)的表达进行两轮单独实验的代表性流式细胞术数据。

图11A示出了用于基于逆转录转座的基因递送的示例性mRNA构建体。ORF1和ORF2序列位于两个不同的mRNA分子中。ORF2p(ORF2)编码mRNA包含反向GFP编码序列。

图11B描绘了示例性数据，展示了在电穿孔ORF1-mRNA和ORF2-FLAG-GFPai mRNA两者后GFP的表达(示出了GFP阳性细胞的平均荧光强度的倍数增加)，仅归一化至电穿孔ORF2-FLAG-GFPai mRNA。

图12A描绘了示例性数据，展示了在以不同量电穿孔ORF1-mRNA和ORF2-FLAG-GFPai mRNA后GFP的表达(示出了GFP阳性细胞的平均荧光强度的倍数增加)。倍数增加是相对于1xORF2-GFPao和1x ORF1 mRNA。

图12B示出了在图11A中所描绘的mRNA电穿孔后GFP+细胞的示例性荧光显微图像。

图13A示出了示例性mRNA构建体，其中ORF1和ORF2序列位于两个不同的mRNA分子中(顶部子图)；和在单个mRNA分子上包含ORF1和ORF2蛋白编码序列的LINE-1mRNA转录物(底部子图)，以用于基因递送。mRNA含有双顺反子ORF1和ORF2序列，其中3’UTR中的CMV-GFP序列从3’-5’开始。在所递送的ORF2-cmv-GFP反义(LINE-1mRNA)的逆转录转座后，预计细胞会表达GFP。

图13B描绘了示例性数据，展示了在图13A中所描绘对构建体进行电穿孔后GFP的表达(示出了GFP阳性细胞的平均荧光强度的倍数增加)。

图14A示出了用于测试多次电穿孔是否增加逆转录转座效率的示例性实验设计。将HEK293T细胞用Maxcyte系统每48小时进行电穿孔，并在培养24-72小时后使用流式评估GFP阳性细胞。

图14B描绘了示例性数据，展示了在根据图14A电穿孔1-5次后在指示时间下GFP的表达(示出了GFP阳性细胞的平均荧光强度的倍数增加)。

图15A描绘了经由mRNA递送而增强逆转录转座的示例性构建体。在一个构建体中，核定位信号(NLS)序列与ORF2序列的C末端融合(ORF2-NLS融合物)。在一个构建体中，使用小须鲸ORF2序列代替人ORF2。在一个构建体中，将Alu元件(AJL-H33δ)的最小序列插入到LINE-1序列的3’UTR中。在一个构建体中，将MS2发夹插入LINE-1序列的3’UTR中，并且使MS2发夹结合蛋白(MCP)序列与ORF2序列融合。

图15B描绘了示例性数据，展示了使用图15A中描绘的构建体时GFP的表达(示出了GFP阳性细胞的平均荧光强度的倍数增加)。

图16A示出了示例性质粒构建体，其中ORF1和ORF2序列位于两个不同的质粒分子中(顶部子图)；和编码LINE-1mRNA转录物的质粒，所述转录物在单个mRNA分子上包含ORF1和ORF2蛋白编码序列，具有介于ORF1与ORF2之间的ORF间序列的各种替换(底部子图)，以用于基因递送。

图16B描绘了示例性数据，展示了使用图16A中描绘的构建体时GFP的表达(示出了GFP阳性细胞的平均荧光强度的倍数增加)。

图17A描绘了编码LINE-1mRNA转录物的示例性质粒构建体，所述转录物在具有GFP序列的单个mRNA分子上包含ORF1和ORF2蛋白编码序列(顶部子图)；和示例性LINE-1mRNA转录物，所述转录物在具有GFP序列的单个mRNA分子上包含ORF1和ORF2蛋白编码序列。

图17B描绘了示例性数据，展示了使用图17A中描绘的构建体在Jurkat细胞中GFP的表达(示出了GFP阳性细胞的平均荧光强度的倍数增加)。质粒构建体被转染，并对mRNA构建体进行电穿孔。

图18A示出了具有货物核酸序列的示例性质粒设计和预期的LINE-1mRNA转录物。所述质粒具有LINE-1序列(包括ORF1和ORF2蛋白编码序列)和货物序列，所述货物序列是编码重组嵌合融合受体蛋白(ATAK受体)的核酸序列，其后是T2A自切割型序列，然后是分裂的GFP序列(相对于LINE-1序列都在反向取向上)。GFP的编码序列被内含子中断。描绘了货物的逆转录和整合后预期的mRNA。

图18B示出了示例性结果，展示了在骨髓细胞系(THP-1)中由图10A所示的质粒编码的mRNA转录物的成功整合和相对于模拟转染细胞ATAK-T2A-GFP的表达(示出了GFP和ATAK双重阳性细胞的倍数变化)。数据代表转染后6天的表达，相对于模拟质粒转染的细胞进行归一化，其中模拟质粒不具有GFP编码序列。

图19说明了用于细胞同步化的示例性实验设置。在递送外源性核酸之前，基于细胞周期阶段对异质细胞群进行分选。细胞周期同步化被预期可能导致所递送的外源性核酸的更高的表达和稳定化。如果在细胞分选后细胞不是均质的，则可以进一步将细胞与使细胞周期停滞在某阶段的合适的剂一起孵育。

图20说明了在有或没有抑制DNA修复途径的情况下通过诱导DNA双链断裂来增加逆转录转座子效率的示例性方法，诸如通过诱导DNA连接酶抑制剂SCR7或抑制宿主监视蛋白，例如，使用HUSH复合物TASOR蛋白的miRNA。

图21说明了用于将编码转基因的mRNA整合到细胞的基因组中的示例性构建体。

图22说明了用于将编码转基因的mRNA整合到细胞的基因组中的示例性构建体。

图23说明了用于将编码转基因的mRNA整合到细胞的基因组中的示例性构建体。

图24说明了用于将编码转基因的mRNA整合到细胞的基因组中的示例性构建体。

图25说明了用于将编码转基因的mRNA整合到细胞的基因组中的示例性构建体。

图26说明了用于将编码转基因的mRNA整合到细胞的基因组中的示例性构建体。

图27说明了用于将编码转基因的mRNA整合到细胞的基因组中的示例性构建体。

图28说明了用于将编码转基因的mRNA整合到细胞的基因组中的示例性构建体。

图29说明了带有具有逆转录转座子的一般作用机制的2.4kb货物的示例性逆转录转座子构建体(左)和由来自整合到基因组中的核酸序列的货物编码的荧光GFP标志物在HEK293细胞中的表达的代表性数据(右)。放置在有义方向上用内含子分裂的反义GFP基因和在LINE-1的3’UTR中的启动子序列导致GFP货物的重构和逆转录转座。用左侧所示的构建体转染的293T细胞中GFP的表达，通过流式细胞术(右)和定量条形图(左下)测量。在强力霉素诱导ORF之后35天收集数据。

图30说明了具有包含膜蛋白(CD5结合剂嵌合抗原受体，CD5-CAR)的3.0kb货物的示例性逆转录转座子构建体(左)和来自整合到基因组中的核酸序列的CD5结合剂在HEK293细胞中的表达的代表性流式细胞术数据(右)。CD5结合剂阳性(+)细胞的％在插图中指示。

图31说明了具有包含膜蛋白(CD5结合剂嵌合抗原受体CD5-CAR和通过可自动切割的T2A元件分离的GFP)的3.7kb货物的示例性逆转录转座子构建体(顶部)和展示CD5结合剂和GFP的表达的代表性流式细胞术数据(底部)。

图32说明了具有包含膜蛋白(HER2结合剂嵌合抗原受体和通过可自动切割的T2A元件分离的GFP)的3.9kb货物的示例性逆转录转座子构建体(顶部)和展示HER2结合剂和GFP的表达的代表性流式细胞术数据(底部)。

图33A示出了作为mRNA递送的逆转录转座子元件的递送的示例性数据。

图33B示出了显示用于递送具有GFP货物的LINE1 mRNA的反式和顺式mRNA设计的示意图(顶部子图)。用具有单独的ORF1和ORF2 mRNA的反式mRNA对293T细胞进行电穿孔的代表性结果。用以下对293T细胞进行电穿孔：100ug/mL的仅具有ORF2的mRNA、ORF1+ORF2mRNA(各自100ug/mL)或具有与ORF1 mRNA相同的5’和3’UTR的编码GFP的mRNA(数据图的左侧子图)。逆转录转座事件导致GFP阳性细胞。在电穿孔后4天和10天通过流式细胞术测定细胞的GFP荧光。模拟电穿孔细胞充当用于门控的阴性对照群体。右侧的条形图示出了来自代表性实验的结果，指示在电穿孔期间反式mRNA和含有ORF1和ORF2的顺式mRNA浓度的滴定。反式mRNA为实心条并且顺式mRNA为条纹。在电穿孔反应中，20X是2000ug/mL。

图33C示出了ORF1和ORF2-GFPai反式mRNA的滴定。在电穿孔期间单独和一起将浓度增加至200ug/mL增加了GFP基因货物的逆转录转座。

图33D说明了在图中的每个流式细胞术数据图(第4天的顶部子图和第13天的底部子图)上指示的不同构建体的示例性数据。右侧图说明了培养物中表达GFP的细胞的光和荧光显微镜图像。在右下角展示了第13天的整合货物拷贝/构建体。示出了来自不同LINE-1质粒转染、LINE-1mRNA(逆转录-mRNA)以及ORF1和ORF2-GFP mRNA电穿孔的细胞的基因组DNA整合的qPCR测定。使用了两个qPCR引物-探针组，一个用于管家基因RPS30，另一个用于GFP基因。质粒转染的细胞使用不含SV40维持序列的质粒。通过对质粒和基因组DNA的标准曲线进行插值来确定每个样品的拷贝数，并对每个293T细胞的两个RPS30拷贝进行归一化，从而计算每个细胞的整合。误差条代表三次技术重复测量的标准偏差。

图34说明了示例性逆转录转座子构建体(左)和在指示细胞系中的表达数据(右)。

图35说明了显示LINE1 GFP构建体在K562、293T和THP1细胞中的表达的流式细胞术数据(上部子图)；以及K562和THP-1细胞系中每个细胞的LINE-2-GFP mRNA的整合数(下部子图)。

图36说明了流式细胞术数据，其显示LINE1 GFP构建体在原代T细胞中的表达(左)。在右侧图中指示了每个细胞的整合。在电穿孔之后第6天收集数据。

图37A示出了分离的原代T细胞的激活、培养时间、电穿孔和GFP表达测定的示意图。

图37B说明了流式细胞术数据，其显示在指示浓度下以及在如图所示的冻融前后LINE1 GFP mRNA构建体在原代T细胞中的表达。在条形图中示出了每个细胞的整合。使用具有GFP货物的逆转录-mRNA电穿孔的GFP表达。在电穿孔后4天和电穿孔后培养15天时测定GFP表达。在此期间，对原代T细胞进行冷冻保存和解冻。用于GFP整合的qPCR整合测定。从20X样品中分离基因组DNA，并测定GFP的拷贝。

图38展示了逆转录转座子整合和跨细胞类型表达的结果总结。

图39示出了本文所述技术的各种应用，包括但不限于CART细胞、NK细胞、神经元和其他细胞用于细胞疗法的用途，以及体内应用的用途，包括但并不限于基因疗法、基因编辑、转录调控和基因组工程化。

图40描绘了示例性流式细胞术数据，其显示分选和富集用2000ng/μL LINE1-GFPmRNA电穿孔的GFP+293T细胞。第一个子图示出了在不存在LINE1-GFP mRNA的情况下模拟电穿孔细胞的流式细胞术数据。第二个子图示出了在电穿孔后5天针对用LINE1-GFP mRNA电穿孔的未分选细胞收集的流式细胞术数据。对来自第二个子图的GFP+细胞进行分选，并且在第三个子图中示出流式细胞术数据。将来自第三个子图的GFP+细胞在分选后培养9天，并使用10^3或10^4个GFP荧光强度门进行重新分选。第四个子图示出了针对使用GFP+在10^3个GFP门处重新分选的细胞在重新分选之后4天收集的流式细胞术数据。第五个子图示出了针对使用GFP+在10^3个GFP门处重新分选的细胞在重新分选之后4天收集的流式细胞术数据。

图41A示出了GFP(NB2质粒)和管家基因(FAU)的标准曲线，用于使用定量PCR评价每个细胞的编码GFP的核酸的基因组整合。

图41B示出了示例性图的结果，其描绘用于定量基因组整合的图41A的标准曲线的插值。

图41C示出了在如图40所示的LINE1-GFP mRNA电穿孔和双重分选后整合到293T细胞的基因组中的GFP基因的数量。示出了根据qPCR在10^3个GFP+细胞和10^4个GFP+细胞下门控时每个细胞的平均GFP整合数。

图42描绘了在电穿孔后培养3天之后的示例性流式细胞术数据，其显示用指示的滴定量的LINE1-GFP mRNA在电穿孔溶液中电穿孔的GFP+293T细胞，以ng/μL为单位。

图43描绘了在电穿孔后培养5天之后的示例性流式细胞术数据，其显示用指示的滴定量的LINE1-GFP mRNA在电穿孔溶液中电穿孔的GFP+293T细胞，以ng/μL为单位。

图44描绘了在电穿孔后培养7天之后的示例性流式细胞术数据，其显示用指示的滴定量的LINE1-GFP mRNA在电穿孔溶液中电穿孔的GFP+293T细胞，以ng/μL为单位。

图45示出了根据图42-44，在电穿孔后培养3、5或7天之后，根据qPCR，每个用指示的滴定量的LINE1-GFP mRNA在电穿孔溶液中电穿孔的293T细胞的基因组的GFP整合数的图，以ng/μL为单位(顶部)，以及根据图42-44的数据的整合动力学的图(底部)。

图46描绘了在电穿孔后培养6天之后的示例性流式细胞术数据(右)，其显示用指示的滴定量的LINE1-GFP mRNA在电穿孔溶液中电穿孔的GFP+K562细胞，以ng/μL为单位，以及根据qPCR每个基因组的GFP整合数的图(左)。

图47描绘了在电穿孔后培养3天之后的示例性流式细胞术数据(顶部)，其显示用指示的滴定量的LINE1-GFP mRNA电穿孔的GFP+人原代单核细胞，以及根据qPCR每个基因组的GFP整合数的图(底部)。

图48描绘了在电穿孔后培养4天之后的示例性流式细胞术数据(底部)，其显示用2000ng/μL LINE1-GFP mRNA和100ng/μL、200ng/μL或300ng/μL的siRNA靶向BRCA1(siBRCA1)电穿孔的GFP+293T细胞，以及根据qPCR每个基因组的GFP整合数的图(顶部)。

图49描绘了在电穿孔后培养6天之后的示例性流式细胞术数据(底部)，其显示用2000ng/μL LINE1-GFP mRNA和100ng/μL的siRNA靶向RNASEL(siRNASEL)、ADAR1(siADAR1)或ADAR2(siADAR2)电穿孔的GFP+293T细胞，以及根据qPCR每个基因组的GFP整合数的图(顶部)。

图50描绘了在电穿孔后培养6天之后的示例性流式细胞术数据(底部)，其显示用2000ng/μL LINE1-GFP mRNA和100ng/μL的siRNA靶向APOBEC3C(siAPOBEC3C)或FAM208A(siFAM208A)电穿孔的GFP+293T细胞，以及根据qPCR每个基因组的GFP整合数的图(顶部)。

图51描绘了在电穿孔后培养6天之后的示例性流式细胞术数据(底部)，其显示用1000ng/μL或1500ng/μL LINE1-GFP mRNA和siRNA与25ng/μL、50ng/μL或75ng/μL的每个siRNA靶向RNASEL(siRNASEL)、ADAR1(siADAR1)、ADAR2(siADAR2)和BRCA1(siBRCA1)的混合物电穿孔的GFP+293T细胞，以及根据qPCR每个基因组的GFP整合数的图(顶部)。

图52描绘了在电穿孔后培养5天之后的示例性流式细胞术数据(底部)，其显示用1000ng/μL LINE1-GFP mRNA和siRNA与25ng/μL、50ng/μL或75ng/μL的每个siRNA靶向RNASEL(siRNASEL)、ADAR1(siADAR1)、ADAR2(siADAR2)和BRCA1(siBRCA1)的混合物电穿孔的GFP+K562细胞，以及根据qPCR每个细胞的GFP整合数的图(顶部)。

图53描绘了示出示例性LINE1-GFP mRNA构建体的无关核定位序列(NLS)的示例性位置以及示例性ORF1p和ORF2p突变的示意图。

图54A描绘了示出示例性LINE1-GFP构建体的示意图，其中在编码ORF1的序列的N末端处插入NLS。

图54B描绘了示出指示构建体电穿孔到293T细胞中后第4天每个细胞的GFP整合的条形图。

图54C描述了示例性流式细胞术，其显示指示构建体电穿孔后第4天的GFP+293T细胞。

图55A描绘了示出示例性LINE1-GFP构建体的示意图，其中在编码ORF1的序列的C末端处插入NLS。

图55B描绘了示出指示构建体电穿孔到293T细胞中后第4天每个细胞的GFP整合的条形图。

图55C描述了示例性流式细胞术，其显示指示构建体电穿孔后第4天的GFP+293T细胞。

图56A描绘了示出示例性LINE1-GFP构建体的示意图，其中在编码ORF2的序列的N末端处插入NLS。

图56B描绘了示出指示构建体电穿孔到293T细胞中后第4天每个细胞的GFP整合的条形图。

图56C描述了示例性流式细胞术，其显示指示构建体电穿孔后第4天的GFP+293T细胞。

图57A描绘了示出示例性LINE1-GFP构建体的示意图，其中在编码ORF2的序列的N末端处插入NLS和接头。

图57B描绘了示出指示构建体电穿孔到293T细胞中后第5天每个细胞的GFP整合的条形图。

图57C描述了示例性流式细胞术，其显示指示构建体电穿孔后第5天的GFP+293T细胞。

图58A描绘了示出示例性LINE1-GFP构建体的示意图，其中在编码ORF2的序列的C末端处插入NLS。

图58B描绘了示出指示构建体电穿孔到293T细胞中后第5天每个细胞的GFP整合的条形图。

图58C描述了示例性流式细胞术，其显示指示构建体电穿孔后第5天的GFP+293T细胞。

具体实施方式

本发明部分地源于激动人心的发现，即多核苷酸可以被设计和开发为实现将遗传货物(例如，大的遗传货物)转移和整合到细胞的基因组中。在一些实施方案中，多核苷酸包含(i)用于稳定表达的遗传物质，和(ii)自整合型基因组整合机制，其允许通过非病毒方式将遗传物质稳定整合到细胞中，这既安全又有效。此外，遗传物质可被整合到除核糖体基因座以外的基因座处；遗传物质可被位点特异性地整合；和/或整合的遗传物质似乎在不触发细胞自然沉默机制的情况下表达。

规律间隔性成簇短回文重复序列(CRISPR)彻底改变了分子生物学领域，并已发展成为一种有效的基因编辑。它利用同源定向修复(HDR)并且可以定向到基因组位点。CRISPR/Cas9是天然存在的RNA导向的核酸内切酶。虽然CRISPR/Cas9系统在位点特异性基因编辑和其他应用中已显示出巨大的前景，但有几个因素影响其功效，必须加以解决，特别是如果它要用于体内人基因疗法。这些因素包括靶DNA位点选择、sgRNA设计、脱靶切割、HDR相对于NHEJ的发生率/效率、Cas9活性及递送方法。递送仍然是CRISPR用于体内应用的主要障碍。锌指核酸酶ZFN是Cys2-His2锌指蛋白(ZFP)与衍生自FokI核酸内切酶的非特异性DNA限制酶的融合蛋白。ZFP面临的挑战包括ZFP的设计和工程化，以实现对所需序列的高亲和力结合，这是非常重要的。而且，并非所有序列都可用于ZFP结合，因此位点选择受到限制。另一个重大挑战是脱靶切割。转录激活因子样效应子核酸酶(TALEN)是由TALE和FokI核酸酶构成的融合蛋白。虽然脱靶切割仍然是一个问题，但一项并排比较研究已表明，TALEN比ZFN更具特异性且细胞毒性更小。然而，TALEN显著更大，且编码TALEN的cDNA只有3kb。由于递送媒介物(vehicle)货物尺寸的限制，这使得一对TALEN的递送比一对ZFN更具挑战性。此外，由于TALEN序列中的高水平重复，TALEN在一些病毒载体中的包装和递送可能存在问题。突变Cas9系统(即失活dCas9与FokI核酸酶二聚体的融合蛋白)提高了特异性并减少了脱靶切割，由于PAM和其他sgRNA设计限制，所以潜在靶位点的数量较低。

本发明通过提供新的、有效的和高效的组合物来解决上述问题，所述组合物包含基于转座子的载体，用于向动物和人提供疗法，包括基因疗法。本发明提供了使用这些组合物为动物和人提供疗法的方法。这些基于转座子的载体可用于制备适用于在施用后向接受者提供所需效果的药物。基因疗法包括但不限于使用基于转座子的载体将基因诸如外源性基因引入到动物中。这些基因可以在接受者中发挥多种功能，诸如编码核酸(例如RNA)的产生，或编码蛋白质和肽的产生。本发明可以促进多核苷酸序列的有效掺入，包括目标基因、启动子、插入序列、多聚A及任何调控序列。本发明基于以下发现：人LINE-1元件能够在人细胞以及其他动物物种的细胞中进行逆转录转座，并且可以以通用方式进行操纵以实现将遗传货物有效递送和整合到细胞的基因组中。此类LINE-1元件在人和动物遗传学中具有多种用途，包括但不限于在遗传性病症和癌症的诊断和治疗中的用途。本发明的LINE-1元件也适用于治疗各种疾病的各种表型效应。例如，LINE-1元件可用于将编码抗肿瘤发生性基因产物的DNA转移到癌细胞中。在阅读本说明书后，本领域技术人员将清楚本发明的LINE-1元件的其他用途。

一般而言，人LINE-1元件包含具有内部启动子的5’UTR、两个非重叠阅读框(ORF1和ORF2)、200bp的3’UTR和3’多聚A尾。LINE-1逆转录转座子还可以在LINE-1ORF2 N末端处包含核酸内切酶结构域。LINE-1编码核酸内切酶的发现表明所述元件能够自主性逆转录转座。LINE-1是模块化蛋白质，其含有介导其逆转录和整合的非重叠功能性结构域。在一些实施方案中，可以改变LINE-1核酸内切酶本身的序列特异性，或者LINE-1核酸内切酶可以被替换为另一种位点特异性核酸内切酶。

LINE-1逆转录转座子可以使用重组技术进行操纵，以包含和/或与其他核酸元件邻接，所述核酸元件使逆转录转座子适合将相当长(长达1kb，或大于1kb，例如大于5、6、7、8、9或10kb)的异源或同源核酸插入到细胞的基因组中。LINE-1逆转录转座子也可以使用相同类型的技术进行操纵，使得异源或同源核酸的核酸序列向细胞基因组中的插入是定点的(这种DNA插入的位点是已知的)。或者，可以操纵LINE-1逆转录转座子，以使得DNA的插入位点是随机的。还可以操纵逆转录转座子以实现将所需DNA序列插入到通常转录沉默的DNA区域中，其中对DNA序列进行表达的方式使得其不破坏细胞中基因的正常表达。在一些实施方案中，整合或逆转录转座在反式取向上。在一些实施方案中，整合或逆转录转座发生在顺式取向上。

由于LINE-1是人细胞的天然产物，因此当将构建体放入人细胞中时，它们不应被免疫系统视为外来物而被排斥。此外，LINE-1反向整合的机制确保只有一个基因拷贝被整合在任何特定的染色体位置处。因此，系统中内置了拷贝数控制。相比之下，使用普通质粒的基因转移程序对拷贝数提供很少或没有控制，并且通常会导致复杂的DNA分子阵列串联整合到同一基因组位置中。

所有术语都旨在被理解为它们将被本领域技术人员所理解的。除非另外定义，否则在本文中使用的所有技术和科学术语具有与由本公开所属领域的普通技术人员通常所理解的相同的含义。

本文使用的章节标题仅用于组织目的，不应被解释为限制所描述的主题。

除非上下文中另有明确指出，否则本文所用的单数形式“一个(a)”、“一种(an)”和“所述(the)”也意在包括复数形式。

在本申请中，除非另有陈述，否则“或”的使用意指“和/或”。如本文所用，术语“和/或”和“其任何组合”及其语法对应词可以互换使用。这些术语可以表示具体设想的任何组合。仅出于说明目的，以下短语“A、B和/或C”或“A、B、C或其任何组合”可意指“A单独；B单独；C单独；A和B；B和C；A和C；以及A、B和C”。除非上下文特别提到析取式使用，否则术语“或”可以合取式或析取式使用。

术语“约”或“大约”可以意指由本领域普通技术人员确定的具体值处于可接受的误差范围内，这将部分取决于所述值的测量或确定方式，即测量系统的限制性。例如，根据本领域的实践，“约”可以意指在1个或多于1个标准偏差内。或者，“约”可以意指给定值的至多20％、至多10％、至多5％或至多1％的范围。或者，特别是关于生物系统或过程，所述术语可意指在值的一个数量级以内、在值的5倍以内、及更优选在值的2倍以内。在本申请和权利要求书中描述特定值的情况下，除非另有说明，否则应当假设术语“约”意指所述特定值在可接受的误差范围内。

如本说明书和权利要求中所用，词语“包含(comprising)”(以及包含(comprising)的任何形式诸如“包含(comprise)”和“包含(comprises)”)、“具有(having)”(以及具有(having)的任何形式诸如“具有(have)”和“具有(has)”)、“包括(including)”(以及包括(including)的任何形式诸如“包括(includes)”和“包括(include)”)或“含有(containing)”(以及含有(containing)的任何形式诸如“含有(contains)”和“含有(contain)”)是包含性的或开放式的，并且不排除另外的未陈述的元素或方法步骤。本说明书中讨论的任何实施方案被视为可以关于本公开的任何方法或组合物来实施，并且反之亦然。此外，本公开的组合物可以用于实现本公开的方法。

在说明书中对“一些实施方案”、“实施方案”、“一个实施方案”或“其他实施方案”的提及意指与实施方案相关地描述的具体特征、结构或特性被包括在本公开的至少一些实施方案中，但不一定被包括在本公开的所有实施方案中。为了有助于理解本公开，下文中定义了一些术语和短语。

尽管可以在单个实施方案的上下文中描述本公开的各种特征，但是也可以单独地或以任何合适的组合来提供这些特征。相反，尽管为了清楚起见可以在单独的实施方案的上下文中在本文中描述本公开，但是本公开也可以在单个实施方案中实施。

本公开的应用涵盖但不限于与外源性核酸在细胞中的表达相关的方法和组合物。在一些实施方案中，外源性核酸被配置用于稳定整合到细胞诸如骨髓细胞的基因组中。在一些实施方案中，外源性核酸的稳定整合可以在基因组内的特定靶标处。在一些实施方案中，外源性核酸包含一个或多个编码序列。在一些实施方案中，外源性核酸可以包含一种或多种编码，所述编码包含编码免疫受体的核酸序列。在一些实施方案中，本公开提供了用于将编码涉及免疫应答功能的跨膜受体(例如吞噬细胞受体或合成嵌合抗原受体)的核酸稳定掺入到人巨噬细胞或树突状细胞或合适的骨髓细胞或骨髓前体细胞中的方法和组合物。外源性核酸可以是指最初不在细胞中并且从细胞外添加的核酸，无论它是否包含可能已经内源性存在于细胞中的序列。外源性核酸可以是DNA或RNA分子。外源性核酸可以包含编码转基因的序列。外源性核酸可以编码重组蛋白，诸如重组受体或嵌合抗原受体(CAR)。在外源性核酸被递送到细胞内的情况下，外源性核酸可被称为“遗传货物”。遗传货物可以是DNA或RNA。遗传物质通常可以通过几种不同的已知技术，使用化学(CaCl₂介导的转染)或物理(电穿孔)或生物(例如病毒感染或转导)手段而离体被递送到细胞内。

本文提供了用于将遗传物质稳定地非病毒转移和整合到细胞中的组合物和方法。在一方面，遗传物质是自整合型多核苷酸。遗传物质可以稳定地整合到细胞的基因组中。细胞可以是人细胞。所述方法被设计用于将遗传物质安全可靠地整合到细胞的基因组中。

本文提供了一种药物组合物，其包含治疗有效量的一个或多个多核酸或至少一个编码所述一个或多个多核酸的载体，所述一个或多个多核酸包含：(a)包含编码多肽的序列的可移动遗传元件；和(b)插入序列，其中所述插入序列包含作为编码外源性治疗性多肽的序列的反向补体的序列，其中由所述可移动遗传元件的序列编码的所述多肽促进将所述插入序列整合到细胞的基因组中；并且其中所述药物组合物对于人对象是基本上非免疫原性的。

在一些实施方案中，由所述可移动遗传元件的序列编码的所述多肽包含一个或多个长散布核元件(LINE)多肽，其中所述一个或多个LINE多肽包含：(i)人ORF1p或其功能性片段，和(ii)人ORF2p或其功能性片段。

在一些实施方案中，所述插入序列(i)通过由所述一个或多个多核酸编码的核酸内切酶切割靶位点的DNA链，(ii)经由靶标引发的逆转录(TPRT)，或(iii)经由将所述插入序列反向剪接到所述基因组的DNA靶位点中，被整合到所述基因组中。

在一些实施方案中，使用所述人ORF2p的核酸内切酶结构域的特异性将所述插入序列整合到所述基因组中的多聚T位点处。

在一些实施方案中，所述多聚T位点包含序列TTTTTA。

在一些实施方案中，所述一个或多个多核酸包含与所述基因组中的靶位点互补的同源臂。

在一些实施方案中，所述插入序列整合到：(a)不是核糖体基因座的基因座处的基因组中；(b)基因组的基因或基因的调控区中，从而破坏基因或下调基因的表达；(c)基因组的基因或基因的调控区中，从而上调基因的表达；或(d)基因组中并替换基因组的基因。

在一些实施方案中，所述药物组合物还包含(i)一个或多个siRNA和/或(ii)RNA向导序列或编码所述RNA向导序列的多核酸，并且其中所述RNA向导序列靶向所述基因组的DNA靶位点，并且所述插入序列在所述基因组的DNA靶位点处被整合到所述基因组中。

在一些实施方案中，一个或多个基因在本文提供的方法中被敲低。在一些实施方案中，在本文所述的组合物或方法中采用一个或多个siRNA。例如，一个或多个基因可以被敲低以增强整合，诸如通过调节可以抑制LINE-1的途径。在一些实施方案中，所述一个或多个被敲低的基因包括ADAR1、ADAR2(ADAR1B)、APOBEC3C、BRCA1、let-7miRNA、RNase L、TASHOR(HUSH复合物)和/或RAD51。例如，RNase L的敲低可以用于通过抑制或防止mRNA(诸如从LINE-1转录的mRNA)的降解来增强整合。例如，ADAR1、ADAR2(ADAR1B)和/或BRCA1的敲低可以用于通过抑制或防止ADAR1、ADAR2(ADAR1B)和/或BRCA1抑制ORF2p与L1 RNP组装的多聚A尾的顺式结合来增强整合。例如，let-7miRNA的敲低可以用于通过抑制或防止let-7miRNA抑制翻译(诸如ORF2p.let-7miRNA的翻译)来增强整合。例如，RAD51和/或BRCA1的敲低可以用于通过抑制或防止RAD51和/或BRCA1对切割的DNA进行修复来增强整合。

在一些实施方案中，所述一个或多个多核酸具有3kb至20kb的总长度。

在一些实施方案中，所述一个或多个多核酸包含一个或多个多核糖核酸、一个或多个RNA或一个或多个mRNA。

在一些实施方案中，所述外源性治疗性多肽选自配体、抗体、受体、酶、转运蛋白、结构蛋白、激素、收缩蛋白、储存蛋白和转录因子。

在一些实施方案中，所述外源性治疗性多肽是选自嵌合抗原受体(CAR)或T细胞受体(TCR)的受体。

在一些实施方案中，所述一个或多个多核酸包含第一表达盒，所述第一表达盒包含启动子序列、5’UTR序列、3’UTR序列和多聚A序列；其中：(i)所述启动子序列位于所述5’UTR序列的上游，(ii)所述5’UTR序列位于所述可移动遗传元件的编码多肽的序列的上游，(iii)所述3’UTR序列位于所述插入序列的下游；并且(iv)所述3’UTR位于所述多聚A序列的上游；并且其中所述5’UTR序列、所述3’UTR序列或所述多聚A序列包含人ORF2p或其功能性片段的结合位点。

在一些实施方案中，所述插入序列包含第二表达盒，所述第二表达盒包含作为启动子序列的反向补体的序列、作为5’UTR序列的反向补体的序列、作为3’UTR序列的反向补体的序列以及作为多聚A序列的反向补体的序列；其中：(i)所述作为启动子序列的反向补体的序列位于所述作为5’UTR序列的反向补体的序列的下游，(ii)所述作为5’UTR序列的反向补体的序列位于所述作为编码外源性治疗性多肽的序列的反向补体的序列的下游，(iii)所述作为3’UTR序列的反向补体的序列位于所述作为编码外源性治疗性多肽的序列的反向补体的序列的上游，并且(iv)所述作为多聚A序列的反向补体的序列位于所述作为3’UTR序列的反向补体的序列的上游和所述可移动遗传元件的编码多肽的序列的下游。

在一些实施方案中，第一表达盒的启动子序列不同于第二表达盒的启动子序列。

在一些实施方案中，所述一个或多个LINE多肽包含含有所述人ORF1p或其功能性片段的第一LINE多肽和含有所述人ORF2p或其功能性片段的第二LINE多肽，其中所述第一LINE多肽和所述第二LINE多肽由不同的开放阅读框(ORF)翻译。

在一些实施方案中，所述一个或多个多核酸包含编码所述人ORF1p或其功能性片段的第一多核酸分子和编码所述人ORF2p或其功能性片段的第二多核酸分子。

在一些实施方案中，所述一个或多个多核酸包含5’UTR序列和3’UTR序列，其中(a)所述5’UTR包含来自LINE-1或与ACUCCUCCCCAUCCUCUCCCUCUGUCCCUCUGUCCCUCUGACCCUGCACUGUCCCAGCACC具有至少80％序列同一性的序列的5’UTR；并且/或者(b)所述3’UTR包含来自LINE-1或与CAGGACACAGCCUUGGAUCAGGACAGAGACUUGGGGGCCAUC CUGCCCCUCCAACCCGACAUGUGUACCUCAGCUUUUUCCCUCA CUUGCAUCAAUAAAGCUUCUGUGUUUGGAACAG具有至少80％序列同一性的序列的3'UTR。

在一些实施方案中，所述编码外源性治疗性多肽的序列不包括内含子。

在一些实施方案中，由所述可移动遗传元件的序列编码的多肽包含C末端核定位信号(NLS)、N末端NLS或两者。

在一些实施方案中，编码所述外源性多肽的序列与编码ORF1p或其功能性片段的序列不同框并且/或者与编码ORF2p或其功能性片段的序列不同框。

在一些实施方案中，所述一个或多个多核酸包含编码以下的序列：核酸酶结构域、不是衍生自ORF2p的核酸酶结构域、megaTAL核酸酶结构域、TALEN结构域、Cas9结构域、Cas6结构域、Cas7结构域、Cas8结构域、来自R2逆转录元件的锌指结合结构域、或与重复序列结合的DNA结合结构域。

在一些实施方案中，所述一个或多个多核酸包含编码核酸酶结构域的序列，其中所述核酸酶结构域不具有核酸酶活性或包含与没有突变的核酸酶结构域相比降低核酸酶结构域的活性的突变。

在一些实施方案中，所述ORF2p或其功能性片段缺乏核酸内切酶活性或包含选自S228P和Y1180A的突变，并且/或者其中所述ORF1p或功能性片段包含K3R突变。

在一些实施方案中，所述插入序列包含作为编码两个或更多个外源性治疗性多肽的序列的反向补体的序列。

在一些实施方案中，所述一个或多个多核酸包含一个或多个多核糖核酸，其中所述外源性治疗性多肽是选自嵌合抗原受体(CAR)或T细胞受体(TCR)的受体，并且其中所述药物组合物被配制用于全身施用于人对象。

在一些实施方案中，所述一个或多个多核酸(i)被配制在选自脂质纳米颗粒和聚合物纳米颗粒的纳米颗粒中；并且/或者(ii)包含选自以下的一个或多个多核酸：糖基化RNA、环状RNA和自复制RNA。

本文还提供了一种治疗有需要的人对象的疾病或病状的方法，所述方法包括将本文所述的药物组合物施用于所述人对象。

本文还提供了一种离体修饰人细胞群体的方法，所述方法包括使组合物与人细胞群体离体接触，从而形成离体修饰的人细胞群体，所述组合物包含一个或多个多核酸或至少一个编码所述一个或多个多核酸的载体，所述一个或多个多核酸包含：(a)包含编码多肽的序列的可移动遗传元件；和(b)插入序列，其中所述插入序列是编码外源性治疗性多肽的序列的反向补体，其中所述离体修饰的人细胞群体对于人对象是基本上非免疫原性的。

在一方面，本文提供了允许将遗传物质整合到细胞的基因组中的组合物和方法，其中可以被整合的遗传物质不受大小的具体限制。在一些方面，本文所述的方法提供了在细胞基因组中对遗传“货物”的一步单一多核苷酸介导的递送和整合。遗传物质可以包含编码序列，例如编码转基因、肽、重组蛋白或抗体或其片段的序列，其中所述方法和组合物确保由所述编码序列编码的转录产物的稳定表达。遗传物质可以包含非编码序列，例如调节性RNA序列，例如调节性小抑制性RNA(siRNA)、微RNA(miRNA)、长链非编码RNA(lncRNA)或一种或多种转录调节物，诸如启动子和/或增强子，并且还可以包含但不限于结构生物分子，诸如核糖体RNA(rRNA)、转移RNA(tRNA)或其片段或其组合。

在另一方面，本文提供了用于通过确保转移的安全性和有效性的非病毒递送将可能不受大小具体限制的遗传物质位点特异性地整合到细胞的基因组中的方法和组合物。所提供的方法和组合物可特别适用于开发治疗剂，诸如包含多核苷酸的治疗剂，所述多核苷酸包含遗传物质和机制，其允许转移到细胞中并稳定整合到多核苷酸或编码多核苷酸的mRNA所转移到的细胞基因组中。在一些实施方案中，治疗剂可以是包含多核苷酸的细胞，所述多核苷酸已通过使用本文所述的方法和组合物而被稳定整合到细胞的基因组中。

在一方面，本公开提供了用于将基因稳定转移到细胞中的组合物和方法。在一些实施方案中，所述组合物和方法用于将基因稳定转移到免疫细胞中。在一些情况下，免疫细胞是骨髓细胞。在一些情况下，本文所述的方法涉及开发用于免疫疗法的骨髓细胞。

本文提供了一种治疗有需要的对象的疾病的方法，所述方法包括：将药物组合物施用于所述对象，其中所述药物组合物包含编码基因或其片段的多顺反子mRNA序列，其可操作地连接到编码L1逆转录转座子的序列；其中所述基因或其片段的长度为至少10.1kb。

本文提供了一种用于将核酸序列整合到细胞的基因组中的方法，所述方法包括使所述细胞与包含编码基因或其片段的多顺反子mRNA序列的组合物接触，所述多顺反子mRNA序列可操作地连接到编码L1逆转录转座子的序列；其中所述基因或其片段的长度为至少10.1kb。在一些实施方案中，所述基因或其片段(例如，有效载荷)的长度为至少约10.2kb、10.3kb、10.4kb、10.5kb、10.6kb、10.7kb、10.8kb、10.9kb、11kb、12kb、13kb、14kb、15kb、16kb、17kb、18kb、19kb、20kb或更大。

本文提供了一种用于将核酸序列整合到细胞的基因组中的方法，所述方法包括使所述细胞与包含编码基因或其片段的多顺反子mRNA序列的组合物接触，所述多顺反子mRNA序列可操作地连接到编码L1逆转录转座子的序列；其中所述基因或其片段选自ABCA4、MY07A、CEP290、CDH23、EYS、USH2a、GPR98、ALMS1、GDE、OTOF和F8。

本文提供了一种在细胞中表达由重组核酸编码的蛋白质的方法，所述方法包括通过使所述细胞与包含编码基因或其片段的多顺反子mRNA序列的组合物接触来将核酸序列整合到细胞的基因组中，所述多顺反子mRNA序列可操作地连接到编码L1逆转录转座子的序列；以及表达由所述基因或其片段编码的蛋白质，其中所述蛋白质的表达在(a)之后超过30天可检测。

在本文所述的方法的一个实施方案中，所述疾病是遗传病。

本文提供了一种治疗对象的Stargardt病(Stargardt disease)、LCA10、USH1D、DFNB12、视网膜色素变性(RP)、USH2A、USH2C、阿尔斯特伦综合征、糖原贮积症III、非综合征性耳聋、血友病A或Leber先天性黑矇的方法，所述方法包括：(i)将编码合适的基因或其片段的mRNA引入到对象中，所述mRNA可操作地连接到人L1转座子，或(ii)将包含编码合适的基因或其片段的mRNA的细胞群体引入到所述对象中，所述mRNA可操作地连接到人L1转座子。

在本文所述的方法的一个实施方案中，所述方法包括治疗有需要的对象的Stargardt病，并且其中所述mRNA编码ABCA4基因或其片段。

在本文所述的方法的一个实施方案中，所述方法包括治疗有需要的对象的Usher综合征1b型(Usher 1b)疾病，并且其中所述mRNA编码MY07A基因或其片段。

在本文所述的方法的一个实施方案中，所述方法包括治疗有需要的对象的Leber先天性黑矇(LCA)10疾病，并且其中所述mRNA编码CEP290基因或其片段。

在本文所述的方法的一个实施方案中，所述方法包括治疗有需要的对象的Usher综合征1D型(USH1D)、非综合征性耳聋或听力损失USH1D、DFN12疾病，并且其中所述mRNA编码CDH23基因或其片段。

在本文所述的方法的一个实施方案中，所述方法包括治疗有需要的对象的视网膜色素变性(RP)疾病，并且其中所述mRNA编码EYS基因或其片段。

在本文所述的方法的一个实施方案中，所述方法包括治疗Usher综合征2A型(USH2A)，并且其中所述mRNA编码USH2a基因或其片段。

在本文所述的方法的一个实施方案中，所述方法包括治疗Usher综合征2C型(USH2C)，并且其中所述mRNA编码GPR98基因或其片段。

在本文所述的方法的一个实施方案中，所述方法包括治疗阿尔斯特伦综合征，并且其中所述mRNA编码ALMS1基因或其片段。

在本文所述的方法的一个实施方案中，所述方法包括治疗糖原贮积症III，并且其中所述mRNA编码GDE基因或其片段。

在本文所述的方法的一个实施方案中，所述方法包括治疗非综合征性耳聋或听力损失，并且其中所述mRNA编码OTOF基因或其片段。

在本文所述的方法的一个实施方案中，所述方法包括治疗血友病A，并且所述mRNA编码因子VIII(F8)基因或其片段。

本文提供了一种用于靶向替换细胞的基因组核酸序列的方法，所述方法包括：(A)将编码第一蛋白复合物的多核苷酸序列引入所述细胞中，所述第一蛋白复合物包含用于从所述细胞的基因组中切除包含一个或多个突变的核酸序列的靶向切除机器；以及(B)将编码第二蛋白复合物的重组mRNA引入所述细胞中，其中所述重组mRNA包含：(i)包含(A)中的不含一个或多个突变的切除核酸序列的核酸序列，和(ii)在独立启动子的影响下编码L1逆转录转座子ORF2蛋白的序列。

在本文所述的方法的一个实施方案中，包含一个或多个突变的核酸序列包含细胞基因的致病性变体。

在本文所述的方法的一个实施方案中，(B)中的包含不含一个或多个突变的核酸序列的核酸序列可操作地连接到ORF2序列。

在本文所述的方法的一个实施方案中，所述方法还包括在切除位点处引入包含多个胸苷残基的序列。

在一些实施方案中，引入所述序列包括引入至少四个胸苷残基。

在本文所述的方法的一个实施方案中，靶向切除机器包含序列导向的位点特异性切除核酸内切酶。

在本文所述的方法的一个实施方案中，靶向切除机器包含CRISPR-CAS系统。

在一些实施方案中，靶向切除机器是经修饰的LINE1(L1)核酸内切酶。

在一些实施方案中，引入包含多个胸苷残基的序列包括在切除位点处通过引物编辑进行碱基延伸。

在一些实施方案中，编码L1逆转录转座子ORF2蛋白的mRNA序列还包含编码L1逆转录转座子ORF1蛋白的序列。

在一些实施方案中，所述mRNA包含诱导型启动子的序列。

在本文所述的方法的一个实施方案中，所述切除序列大于1000个碱基。

在本文所述的方法的一个实施方案中，所述切除序列大于6kb。

在本文所述的方法的一个实施方案中，所述切除序列是约10kb。

在一些实施方案中，所述细胞是淋巴细胞。在一些实施方案中，所述细胞是骨髓细胞。在一些实施方案中，所述细胞是上皮细胞。在一些实施方案中，所述细胞是癌细胞。

在一些实施方案中，所述核酸序列编码ATP结合盒(ABC)转运蛋白基因，(ABCA4)基因或其片段。

在一些实施方案中，所述核酸序列编码MY07A、CEP290、CDH23、EYS、USH2a、GPR98、ALMS1、GDE、OTOF或F8基因或其片段。

在一些实施方案中，引入包括离体引入细胞中。在一些实施方案中，引入包括电穿孔。在一些实施方案中，引入包括体内引入细胞中。在一些实施方案中，包含不含一个或多个突变的序列的核酸序列的表达在引入细胞中之后至少35天可检测。在一些实施方案中，引入到对象中包括直接全身施用mRNA。

在一些实施方案中，引入到对象中包括局部施用mRNA。

在一些实施方案中，所述mRNA序列包含细胞靶向部分。

在一些实施方案中，所述细胞靶向部分是适体。

在一些实施方案中，引入到对象中包括将mRNA引入对象的视网膜中。

本文提供了一种将核酸序列整合到细胞的基因组中的方法，所述方法包括将重组mRNA或编码mRNA的载体引入到所述细胞中，其中所述mRNA包含：(a)插入序列，其中所述插入序列包含(i)外源性序列或(ii)作为所述外源性序列的反向补体的序列；(b)5’UTR序列和所述5’UTR序列下游的3’UTR序列；其中所述5’UTR序列或所述3’UTR序列包含人ORF蛋白的结合位点，并且其中所述插入序列被整合到所述细胞的所述基因组中，其中所述插入序列是选自以下的基因：ABCA4、MY07A、CEP290、CDH23、EYS、USH2a、GPR98、ALMS1、GDE、OTOF和F8。

在一些实施方案中，5’UTR序列或3’UTR序列包含人ORF2p的结合位点。

本文提供了一种用于将核酸序列整合到免疫细胞的基因组中的方法，所述方法包括引入重组mRNA或编码mRNA的载体，其中所述mRNA包含：(a)插入序列，其中所述插入序列包含(i)外源性序列或(ii)作为所述外源性序列的反向补体的序列；(b)5’UTR序列和所述5’UTR序列下游的3’UTR序列，其中所述5’UTR序列或所述3’UTR序列包含核酸内切酶结合位点和/或逆转录酶结合位点，并且其中所述插入序列被整合到所述免疫细胞的所述基因组中，其中所述插入序列是选自以下的基因：ABCA4、MY07A、CEP290、CDH23、EYS、USH2a、GPR98、ALMS1、GDE、OTOF和F8。

本文提供了一种用于将核酸序列整合到细胞的基因组中的方法，所述方法包括引入重组mRNA或编码mRNA的载体，其中所述mRNA包含：(a)插入序列，其中所述插入序列包含(i)外源性序列或(ii)作为所述外源性序列的反向补体的序列；(b)5’UTR序列、所述5’UTR序列下游的人逆转录转座子序列和所述人逆转录转座子序列下游的3’UTR序列；其中所述5’UTR序列或所述3’UTR序列包含核酸内切酶结合位点和/或逆转录酶结合位点，并且其中所述人逆转录转座子序列编码编码从含有两个ORF的单个RNA翻译的两种蛋白质，并且其中所述插入序列被整合到所述细胞的所述基因组中，其中所述插入序列是选自以下的基因：ABCA4、MY07A、CEP290、CDH23、EYS、USH2a、GPR98、ALMS1、GDE、OTOF和F8。

在一些实施方案中，5’UTR序列或3’UTR序列包含ORF2p结合位点。在一些实施方案中，ORF2p结合位点是3’UTR序列中的多聚A序列。

在一些实施方案中，mRNA包含人逆转录转座子序列。在一些实施方案中，人逆转录转座子序列位于5’UTR序列的下游。

在一些实施方案中，人逆转录转座子序列位于3’UTR序列的上游。在一些实施方案中，人逆转录转座子序列编码两种蛋白质，所述两种蛋白质是从含有两个ORF的单个RNA翻译而来的。在一些实施方案中，这两个ORF是非重叠的ORF。

在一些实施方案中，人逆转录转座子序列包含非LTR逆转录转座子的序列。在一些实施方案中，人逆转录转座子序列编码包含LINE-1逆转录转座子。在一些实施方案中，LINE-1逆转录转座子是人LINE-1逆转录转座子。在一些实施方案中，人逆转录转座子序列包含编码核酸内切酶和/或逆转录酶的序列。

在一些实施方案中，核酸内切酶和/或逆转录酶是ORF2p。

在一些实施方案中，逆转录酶是II组内含子逆转录酶结构域。

在一些实施方案中，核酸内切酶和/或逆转录酶是小须鲸核酸内切酶和/或逆转录酶。

在一些实施方案中，人逆转录转座子序列包含编码ORF2p的序列。在一些实施方案中，使用ORF2p的核酸内切酶结构域的特异性将插入序列整合到基因组中的多聚T位点处。在一些实施方案中，多聚T位点包含序列TTTTTA。在一些实施方案中，逆转录转座子包含与核保留序列融合的ORF1p和/或ORF2p。在一些实施方案中，核保留序列是Alu序列。在一些实施方案中，ORF1p和/或ORF2p与MS2外壳蛋白融合。在一些实施方案中，5’UTR序列或3’UTR序列包含至少一个、两个、三个或更多个MS2发夹序列。

本文提供了一种包含重组mRNA或编码mRNA的载体的组合物，其中所述mRNA包含人LINE-1转座子序列，所述人LINE-1转座子序列包含：(i)人LINE-1转座子5’UTR序列，(ii)所述人LINE-1转座子5’UTR序列下游的编码ORF1p的序列，(iii)所述编码ORF1p的序列下游的ORF间接头序列，(iv)所述ORF间接头序列下游的编码ORF2p的序列，以及(v)所述编码ORF2p的序列下游的衍生自人LINE-1转座子的3’UTR序列，其中所述3’UTR序列包含插入序列，其中所述插入序列是编码外源性多肽的序列的反向补体，或是编码外源性调控元件的序列的反向补体，其中所述插入系列是选自以下的基因：ABCA4、MY07A、CEP290、CDH23、EYS、USH2a、GPR98、ALMS1、GDE、OTOF和F8。

本文提供了一种包含核酸的组合物，所述核酸包含编码以下各项的核苷酸序列：(a)长散布核元件(LINE)多肽，其中所述LINE多肽包含人ORF1p和人ORF2p；和(b)插入序列，其中所述插入序列是编码外源性多肽的序列的反向补体，或是编码外源性调控元件的序列的反向补体，其中所述组合物是基本上非免疫原性的，其中所述插入系列是选自以下的基因：ABCA4、MY07A、CEP290、CDH23、EYS、USH2a、GPR98、ALMS1、GDE、OTOF和F8。

使用吞噬细胞的免疫疗法涉及制造和使用工程化的骨髓细胞，诸如巨噬细胞或其他吞噬细胞，它们攻击并杀死患病细胞，诸如癌细胞或受感染的细胞。工程化的骨髓细胞诸如巨噬细胞和其他吞噬细胞是通过重组核酸技术在其中掺入合成的重组核酸来制备的，所述合成的重组核酸编码工程化的蛋白质，诸如嵌合抗原受体，其包含被设计成与靶标(诸如靶细胞，诸如癌细胞)表面上的特异性抗原结合的靶向抗原结合胞外结构域。工程化嵌合受体与靶标上的抗原诸如癌抗原(或类似的疾病靶标)的结合启动对靶标的吞噬。这触发了两方面的作用：一是作为免疫防御的第一道防线，对靶标的吞噬和裂解会破坏靶标并将其消除；二是来自靶标的抗原在骨髓细胞的吞噬溶酶体中被消化，呈递在骨髓细胞表面上，进而导致激活T细胞，并进一步激活免疫应答并形成免疫记忆。嵌合受体被工程化用于对其被掺入和表达所在的骨髓细胞的增强吞噬和免疫激活。本公开的嵌合抗原受体在本文中被不同地称为嵌合融合蛋白、CFP、吞噬细胞受体(PR)融合蛋白(PFP)或用于吞噬的嵌合抗原受体(CAR-P)，而每个术语都针对重组嵌合和/或融合受体蛋白的概念。在一些实施方案中，编码非受体蛋白的基因也在骨髓细胞中共表达，通常用于增强嵌合抗原受体功能。总之，本文设想了各种工程化的受体和非受体重组蛋白，其被设计成增强骨髓细胞对疾病靶标的吞噬和/或免疫应答；以及用于产生和掺入编码工程化的受体或非受体重组蛋白的重组核酸的方法和组合物，由此所述方法和组合物适用于产生用于免疫疗法的工程化骨髓细胞。

在一方面，本公开提供了用于将基因稳定转移到细胞中的组合物和方法，其中所述细胞可以是任何体细胞。在一些实施方案中，所述组合物和方法被设计用于细胞特异性或组织特异性递送。在一些情况下，本文所述的方法涉及提供功能性蛋白质或其片段以补偿体内缺失或缺陷(突变)的蛋白质，例如用于蛋白质替代疗法。

在细胞中掺入重组核酸可以通过现有技术中可用的一种或多种基因转移技术来实现。然而，出于治疗目的将外源遗传(例如核酸)元件掺入到基因组中仍然面临着一些挑战。以安全可靠的方式实现稳定的整合，以及有效和持久的表达是其中的一小部分。旨在货物核酸序列的基因组整合的大多数成功基因转移系统依赖于病毒递送机制，这具有一些固有的安全性和有效性问题。目前的基因编辑系统无法实现对长核酸序列的递送和整合。

迄今为止，尚少有关注致力于制造和使用工程化的骨髓细胞来实现稳定的长期基因转移和转基因的表达。例如，可以通过病毒基因转移机制而离体将基因转移到分化的哺乳动物细胞中以用于细胞疗法。然而，存在着与使用病毒基因转移载体(vector)相关的几个策略性劣势，包括随着时间推移转基因沉默的不良潜在性、优先整合到基因组的转录活性位点以及其他基因(例如癌基因)的相关不良激活和遗传毒性。除了安全性问题增加的成本以及制造、储存和处理整合病毒带来的繁琐工作之外，经常阻碍基因修饰的细胞介导的病毒载体在治疗应用中的大规模使用。与病毒载体有关的关于安全性以及载体的生产成本和规模的这些持续不断的问题使得有效疗法的替代方法成为必要。

将转基因整合到有待用于免疫疗法的细胞基因组中的有利意义可能在于它是稳定的，并且在疗法期间需要递送较少数量的细胞。另一方面，将转基因整合到非分裂细胞中存在的挑战性可能在于影响细胞的健康和功能以及细胞在体内的最终寿命，且因此影响其作为治疗剂的整体效用。在一些实施方案中，本文所述的用于产生供免疫疗法用的骨髓细胞的方法可以是多个步骤和组合物的累积产物，包括但不限于例如选择用于修饰的骨髓细胞；用于将重组核酸掺入骨髓细胞中的方法和组合物；用于增强重组核酸的表达的方法和组合物；用于选择和修饰载体的方法和组合物；制备适用于体内施用的重组核酸的方法以供骨髓细胞在体内摄取和掺入所述重组核酸并由此产生用于疗法的骨髓细胞。在一些方面，本文所述的各种发明的一个或多个实施方案可在彼此之间转移，并且预料到本领域技术人员以替代、组合或可互换的方式使用它们，而无需过度实验。所公开的元素的所有这些变化都在本文中被设想和完全涵盖。

在一方面，本文考虑了转座子或转座元件(TE)，用于将编码目标转基因的异源、合成或重组核酸掺入骨髓细胞中的工具。转座子或转座元件是具有通过使用称为转座酶的酶将遗传物质片段转座到基因组中的能力的遗传元件。哺乳动物基因组包含大量转座元件(TE)衍生序列，且我们的基因组中高达70％代表TE衍生序列(de Koning等人2011；Richardson等人2015)。可以利用这些元件将遗传物质引入到细胞的基因组中。TE元件能够活动化，通常被称为基因组内的“跳跃(jumping)”遗传物质。TE通常以可逆地无活性、表观遗传上沉默的形式存在于真核基因组中。在本公开中，用于将转基因有效且稳定地整合到巨噬细胞和其他吞噬细胞中的方法和组合物。所述方法是基于使用转座酶和转座元件mRNA编码的转座酶。在一些实施方案中，长散布元件-1(L1)RNA用于将转基因稳定地整合和/或逆转录转座到细胞(例如，巨噬细胞或吞噬细胞)中。

本文设想了用于将外源性核酸序列稳定整合到细胞的基因组中的逆转录转座子介导的方法。所述方法可以利用逆转录转座子的随机基因组整合机制进入细胞而不会产生不利影响。本文所述的方法可用于将外源性核酸序列稳健且通用地掺入细胞中，以使得外源性核酸被掺入基因组内的安全基因座处并在不被细胞固有防御机制沉默的情况下表达。本文所述的方法可用于掺入约1kb、约2kb、约3kb、约4kb、约5kb、约6kb、约7kb、约8kb、约9kb、约10kb或更大尺寸的外源性核酸。在一些实施方案中，外源性核酸未掺入核糖体基因座内。在一些实施方案中，外源性核酸未掺入ROSA26基因座或另一个安全港基因座内。在一些实施方案中，本文所述的方法和组合物可以在细胞基因组内的任何位置处掺入外源性核酸序列。此外，本文设想了一种逆转录转座系统，其被开发用于将外源性核酸序列掺入细胞基因组内的特定预定位点，而不产生不利影响。所公开的方法和组合物纳入了工程化逆转录转座子的几种机制，从而以高保真度将外源性核酸高度特异性地掺入细胞中。为此目的而选择的逆转录转座子可以是人逆转录转座子。

本文所述的方法和组合物代表了用于操纵细胞基因组的分子系统和机制的重大突破。在此首次展示了一种方法，所述方法利用人逆转录转座子系统将外源性核酸序列的大片段(至少大于100个核碱基、至少大于1kb、至少大于2kb、至少大于3kb等)非病毒地递送和稳定整合到基因组的非保守区域中，所述非保守区域不是rDNA或核糖体基因座或指定的安全港基因座，诸如ROSA 26基因座。

在一些实施方案中，逆转录转座系统用于将非内源性核酸稳定掺入基因组中并表达所述非内源性核酸，其中非内源性核酸包含核酸序列内的逆转录转座元件。在一些实施方案中，细胞的内源性逆转录转座系统(例如蛋白质和酶)用于在细胞中稳定表达非内源性核酸。在一些实施方案中，使用细胞的内源性逆转录转座系统(例如，蛋白质和酶，诸如LINE-1逆转录转座系统)，但可进一步表达逆转录转座系统的一种或多种组分，以在细胞中稳定表达非内源性核酸。

在一些实施方案中，本文提供了一种合成核酸，所述合成核酸编码转基因，并编码用于基因组整合和/或逆转录转座的一种或多种组分。

在一方面，本文提供了一种将核酸序列整合到细胞的基因组中的方法，所述方法包括将重组mRNA或编码mRNA的载体引入到细胞中，其中所述mRNA包含：插入序列，其中所述插入序列包含外源性序列或作为外源性序列的反向补体的序列；5’UTR序列和5’UTR序列下游的3’UTR序列；其中5’UTR序列或3’UTR序列包含人ORF蛋白的结合位点，并且其中所述插入序列被整合到细胞的基因组中。在一些实施方案中，5’UTR序列或3’UTR序列包含人ORF2p的结合位点。

在一方面，本文提供了一种将核酸序列整合到免疫细胞的基因组中的方法，所述方法包括引入重组mRNA或编码mRNA的载体，其中所述mRNA包含插入序列，其中所述插入序列包含(i)外源性序列或(ii)作为外源性序列的反向补体的序列；5’UTR序列和5’UTR序列下游的3’UTR序列，其中5’UTR序列或3’UTR序列包含核酸内切酶结合位点和/或逆转录酶结合位点，并且其中所述转基因序列被整合到免疫细胞的基因组中。

在一方面，本文提供了一种将核酸序列整合到细胞的基因组中的方法，所述方法包括引入重组mRNA或编码mRNA的载体，其中所述mRNA包含插入序列，其中所述插入序列包含(i)外源性序列或(ii)作为外源性序列的反向补体的序列；5’UTR序列、5’UTR序列下游的人逆转录转座子序列和人逆转录转座子序列下游的3’UTR序列；其中5’UTR序列或3’UTR序列包含核酸内切酶结合位点和/或逆转录酶结合位点，并且其中人逆转录转座子序列编码从含有两个ORF的单个RNA翻译的两种蛋白质，并且其中所述插入序列被整合到细胞的基因组中。

在一些实施方案中，mRNA包含人逆转录转座子序列。在一些实施方案中，人逆转录转座子序列位于5’UTR序列的下游。在一些实施方案中，人逆转录转座子序列位于3’UTR序列的上游。在一些实施方案中，将需要转移和掺入到细胞基因组中的多核苷酸序列(例如插入物)插入重组核酸构建体中编码ORF1的序列的3’位点处。在一些实施方案中，将需要转移和掺入到细胞基因组中的多核苷酸序列插入重组核酸构建体中编码ORF2的序列的3’位点处。在一些实施方案中，将需要转移和掺入到细胞基因组中的序列插入到ORF1或ORF2或这两者的3’-UTR内。在一些实施方案中，多核苷酸序列，即需要被转移和掺入到细胞基因组中的序列，被插入在重组核酸构建体中ORF2的多聚A尾的上游。

在一些实施方案中，人逆转录转座子序列编码两种蛋白质，所述两种蛋白质是从含有两个ORF的单个RNA翻译而来的。在一些实施方案中，这两个ORF是非重叠的ORF。在一些实施方案中，这两个ORF是ORF1和ORF2。在一些实施方案中，ORF1编码ORF1p且ORF2编码ORF2p。

在一些实施方案中，人逆转录转座子序列包含非LTR逆转录转座子的序列。在一些实施方案中，人逆转录转座子序列包括LINE-1逆转录转座子。在一些实施方案中，LINE-1逆转录转座子是人LINE-1逆转录转座子。在一些实施方案中，人逆转录转座子序列包含编码核酸内切酶和/或逆转录酶的序列。在一些实施方案中，核酸内切酶和/或逆转录酶是ORF2p。在一些实施方案中，逆转录酶是II组内含子逆转录酶结构域。在一些实施方案中，核酸内切酶和/或逆转录酶是小须鲸核酸内切酶和/或逆转录酶。在一些实施方案中，人逆转录转座子序列包含编码ORF2p的序列。在一些实施方案中，使用ORF2p的核酸内切酶结构域的特异性将插入序列整合到基因组中的多聚T位点处。在一些实施方案中，多聚T位点包含序列TTTTTA。

在一些实施方案中，本文提供了一种包含mRNA的多核苷酸构建体，其中所述mRNA包含编码人逆转录转座子的序列，其中，(i)人逆转录转座子序列包含编码ORF1p的序列，(ii)所述mRNA不包含编码ORF1p的序列，或(iii)所述mRNA包含将编码ORF1p的序列替换为来自补体基因的5’UTR序列。在一些实施方案中，mRNA包含编码ORF1p的第一mRNA分子和编码核酸内切酶和/或逆转录酶的第二mRNA分子。在一些实施方案中，mRNA是包含编码ORF1p的第一序列和编码核酸内切酶和/或逆转录酶的第二序列的mRNA分子。在一些实施方案中，编码ORF1p的第一序列与编码核酸内切酶和/或逆转录酶的第二序列由接头序列分隔开。

在一些实施方案中，接头序列包含内部核糖体进入序列(IRES)。在一些实施方案中，IRES是来自CVB3或EV71的IRES。在一些实施方案中，接头序列编码自切割肽序列。在一些实施方案中，接头序列编码T2A、E2A或P2A序列

在一些实施方案中，人逆转录转座子序列包含编码与额外蛋白质序列融合的ORF1p的序列，和/或编码与额外蛋白质序列融合的ORF2p的序列。在一些实施方案中，ORF1p和/或ORF2p与核保留序列融合。在一些实施方案中，核保留序列是Alu序列。在一些实施方案中，ORF1p和/或ORF2p与MS2外壳蛋白融合。在一些实施方案中，5’UTR序列或3’UTR序列包含至少一个、两个、三个或更多个MS2发夹序列。在一些实施方案中，5’UTR序列或3’UTR序列包含促进或增强mRNA的多聚A尾与核酸内切酶和/或逆转录酶相互作用的序列。在一些实施方案中，5’UTR序列或3’UTR序列包含促进或增强多聚A结合蛋白(例如PABP)与核酸内切酶和/或逆转录酶相互作用的序列。在一些实施方案中，5’UTR序列或3’UTR序列包含相对于由细胞表达的另一种mRNA增加核酸内切酶和/或逆转录酶对所述mRNA的特异性的序列。在一些实施方案中，5’UTR序列或3’UTR序列包含Alu元件序列。

在一些实施方案中，编码ORF1p的第一序列和编码核酸内切酶和/或逆转录酶的第二序列具有相同的启动子。在一些实施方案中，插入序列具有与编码ORF1p的第一序列的启动子不同的启动子。在一些实施方案中，插入序列具有与编码核酸内切酶和/或逆转录酶的第二序列的启动子不同的启动子。在一些实施方案中，编码ORF1p的第一序列和/或编码核酸内切酶和/或逆转录酶的第二序列具有选自以下的启动子或转录起始位点：诱导型启动子、CMV启动子或转录起始位点、T7启动子或转录起始位点、EF1a启动子或转录起始位点及其组合。在一些实施方案中，插入序列具有选自以下的启动子或转录起始位点：诱导型启动子、CMV启动子或转录起始位点、T7启动子或转录起始位点、EF1a启动子或转录起始位点及其组合。

在一些实施方案中，编码ORF1p的第一序列和编码核酸内切酶和/或逆转录酶的第二序列为了在人细胞中表达而进行密码子优化。

在一些实施方案中，mRNA包含WPRE元件。在一些实施方案中，mRNA包含选择标志物。在一些实施方案中，mRNA包含编码亲和标签的序列。在一些实施方案中，亲和标签与编码核酸内切酶和/或逆转录酶的序列连接。

在一些实施方案中，3’UTR包含多聚A序列或其中多聚A序列在体外被添加到mRNA中。在一些实施方案中，多聚A序列位于编码核酸内切酶和/或逆转录酶的序列的下游。在一些实施方案中，插入序列位于多聚A序列的上游。

在一些实施方案中，3’UTR序列包含插入序列。在一些实施方案中，插入序列包含作为编码所述外源性多肽的序列的反向补体的序列。在一些实施方案中，插入序列包含多聚腺苷酸化位点。在一些实施方案中，插入序列包含SV40多聚腺苷酸化位点。在一些实施方案中，插入序列在作为编码外源性多肽的序列的反向补体的序列上游包含多聚腺苷酸化位点。在一些实施方案中，插入序列在不是核糖体基因座的基因座处整合到基因组中。在一些实施方案中，插入序列在不是rDNA基因座的基因座处整合到基因组中。在一些实施方案中，插入序列整合到基因或基因的调控区中，从而破坏基因或下调基因的表达。在一些实施方案中，插入序列整合到基因或基因的调控区中，从而上调基因的表达。在一些实施方案中，插入序列整合到基因组中并替换基因。在一些实施方案中，插入序列被稳定地整合到基因组中。在一些实施方案中，插入序列被逆转录转座到基因组中。在一些实施方案中，插入序列通过由mRNA编码的核酸内切酶切割靶位点的DNA链而被整合到基因组中。在一些实施方案中，插入序列通过靶标引发的逆转录(TPRT)而被整合到基因组中。在一些实施方案中，插入序列通过将mRNA反向剪接到基因组的DNA靶位点中而被整合到基因组中。

在一些实施方案中，细胞是免疫细胞。在一些实施方案中，免疫细胞是T细胞或B细胞。在一些实施方案中，免疫细胞是骨髓细胞。在一些实施方案中，免疫细胞选自：单核细胞、巨噬细胞、树突状细胞、树突状前体细胞和巨噬细胞前体细胞。

在一些实施方案中，mRNA是自整合mRNA。在一些实施方案中，所述方法包括将mRNA引入到细胞中。在一些实施方案中，所述方法包括将编码mRNA的载体引入到细胞中。在一些实施方案中，所述方法包括将mRNA或编码mRNA的载体离体引入到细胞中。在一些实施方案中，所述方法还包括向人类对象施用所述细胞。在一些实施方案中，所述方法包括向人类对象施用mRNA或编码mRNA的载体。在一些实施方案中，免疫应答在人类对象中未被引发。在一些实施方案中，mRNA或载体是基本上非免疫原性的。

在一些实施方案中，载体是质粒或病毒载体。在一些实施方案中，载体包含非LTR逆转录转座子。在一些实施方案中，载体包含人L1元件。在一些实施方案中，载体包含L1逆转录转座子ORF1基因。在一些实施方案中，载体包含L1逆转录转座子ORF2基因。在一些实施方案中，载体包含L1逆转录转座子。在一些实施方案中，本文提供了一种mRNA，其包含编码人LINE1逆转录转座元件的序列，和包含核酸序列的有效载荷，所述核酸序列可以被逆转录转座并整合到包含mRNA的细胞的基因组中。在一些实施方案中，本文提供了一种mRNA，其可以被递送到活细胞，例如人细胞中，其中所述mRNA包含编码人LINE1逆转录转座元件的序列，和包含核酸序列的有效载荷，所述核酸序列可以被逆转录转座并整合到细胞的基因组中。在一些实施方案中，所述编码人LINE1逆转录转座元件的序列包含L1逆转录转座子ORF1序列或其片段。在一些实施方案中，所述编码人LINE1逆转录转座元件的序列包含L1逆转录转座子ORF2序列或其片段。在一些实施方案中，所述编码人LINE1逆转录转座元件的序列包含L1逆转录转座子ORF1序列或其片段和L1逆转录转座子ORF2序列或其片段，并且作为异源性序列的核酸“有效载荷”序列通过逆转录转座被整合到细胞的基因组中。(参见例如图1B)。

在一些实施方案中，mRNA为至少约1、1.1、1.2、1.3、1.4、1.5、1.6、1.7、1.8、1.9、2、2.1、2.2、2.3、2.4、2.5、2.6、2.7、2.8、2.9或3千碱基。在一些实施方案中，mRNA为至多约2.5、2.6、2.7、2.8、2.9、3、3.1、3.2、3.3、3.4、3.5、3.6、3.7、3.8、3.9、4、4.1、4.2、4.3、4.4、4.5、4.6、4.7、4.8、4.9或5千碱基。在一些实施方案中，mRNA为至少约5.1、5.2、5.3、5.4、5.5、5.6、5.7、5.8、5.9或6千碱基。在一些实施方案中，mRNA为至少约6.1、6.2、6.3、6.4、6.5、6.6、6.7、6.8、6.9或7千碱基。在一些实施方案中，mRNA为至少约7.1、7.2、7.3、7.4、7.5、7.6、7.7、7.8、7.9或8千碱基。在一些实施方案中，mRNA为至少约8.1、8.2、8.3、8.4、8.5、8.6、8.7、8.8、8.9或9千碱基。在一些实施方案中，mRNA为至少约9.1、9.2、9.3、9.4、9.5、9.6、9.7、9.8、9.9或10千碱基。

在一些实施方案中，mRNA包含抑制或防止mRNA降解的序列。在一些实施方案中，抑制或防止mRNA降解的序列抑制或防止核酸外切酶或RNAse对mRNA的降解。在一些实施方案中，抑制或防止mRNA降解的序列是G四链体、假结或三链体序列。在一些实施方案中，抑制或防止mRNA降解的序列是来自黄病毒RNA的核糖核酸外切酶抗性RNA结构或来自KSV的ENE元件。在一些实施方案中，抑制或防止mRNA降解的序列抑制或防止脱腺苷酸化酶对mRNA的降解。在一些实施方案中，抑制或防止mRNA降解的序列包括在mRNA的多聚A尾之内或末端处的非腺苷核苷酸。在一些实施方案中，抑制或防止mRNA降解的序列提高了mRNA的稳定性。在一些实施方案中，外源性序列包括编码外源性多肽的序列。在一些实施方案中，编码外源性多肽的序列与编码核酸内切酶和/或逆转录酶的序列不同框。在一些实施方案中，编码外源性多肽的序列与编码核酸内切酶和/或逆转录酶的序列不同框。在一些实施方案中，外源性序列不包括内含子。在一些实施方案中，外源性序列包括编码选自以下的外源性多肽的序列：酶、受体、转运蛋白、结构蛋白、激素、抗体、收缩蛋白和储存蛋白。在一些实施方案中，外源性序列包括编码选自以下的外源性多肽的序列：嵌合抗原受体(CAR)、配体、抗体、受体和酶。在一些实施方案中，外源性序列包括调控序列。在一些实施方案中，调控序列包括顺式作用调控序列。在一些实施方案中，调控序列包括选自以下的顺式作用调控序列：增强子、沉默子、启动子或应答元件。在一些实施方案中，调控序列包括反式作用调控序列。在一些实施方案中，调控序列包括编码转录因子的反式作用调控序列。

在一些实施方案中，插入序列的整合没有对细胞健康产生不利影响。在一些实施方案中，核酸内切酶、逆转录酶或两者都能够对插入序列进行位点特异性整合。

在一些实施方案中，本文所用的逆转录转座子系统被进一步工程化用于精确的位点特异性整合。在一些实施方案中，本文使用的逆转录转座子系统与CRISPR-Cas系统配对以增加特异性。在一些实施方案中，ORF多肽结合序列，例如TTTTTA可以被位点特异性工程化到细胞的基因组序列中。

在一些实施方案中，mRNA包含编码额外的核酸酶结构域或不是衍生自ORF2的核酸酶结构域的序列。在一些实施方案中，mRNA包含编码以下各项的序列：megaTAL核酸酶结构域、TALEN结构域、Cas9结构域、来自R2逆转录元件的锌指结合结构域、或与重复序列(诸如来自AAV的Rep78)结合的DNA结合结构域。在一些实施方案中，核酸内切酶包含与没有突变的核酸内切酶相比降低核酸内切酶活性的突变。在一些实施方案中，核酸内切酶是ORF2p核酸内切酶，并且突变是S228P。在一些实施方案中，mRNA包含编码增加逆转录酶的保真度和/或进行性的结构域的序列。在一些实施方案中，逆转录酶是来自除ORF2之外的逆转录元件的逆转录酶，或是与ORF2p的逆转录酶相比具有更高的保真度和/或进行性的逆转录酶。在一些实施方案中，逆转录酶是II组内含子逆转录酶。在一些实施方案中，II组内含子逆转录酶是IIA组内含子逆转录酶、IIB组内含子逆转录酶或IIC组内含子逆转录酶。在一些实施方案中，II组内含子逆转录酶是TGIRT-II或TGIRT-III。

在一些实施方案中，mRNA包含含有Alu元件和/或核糖体结合适体的序列。在一些实施方案中，mRNA包含编码多肽的序列，所述多肽包含DNA结合结构域。在一些实施方案中，3’UTR序列衍生自病毒3’UTR或β-珠蛋白3’UTR。

在一方面，本文提供了一种包含重组mRNA或编码mRNA的载体的组合物，其中所述mRNA包含人LINE-1转座子序列，所述人LINE-1转座子序列包含人LINE-1转座子5’UTR序列、人LINE-1转座子5’UTR序列下游的编码ORF1p的序列、编码ORF1p的序列下游的ORF间接头序列、ORF间接头序列下游的编码ORF2p的序列、以及编码ORF2p的序列下游的衍生自人LINE-1转座子的3’UTR序列；其中所述3’UTR序列包含插入序列，其中所述插入序列是编码外源性多肽的序列的反向补体，或是编码外源性调控元件的序列的反向补体。

在一些实施方案中，插入序列在引入到细胞中时整合到细胞的基因组中。在一些实施方案中，插入序列整合到与病状或疾病相关的基因中，从而破坏基因或下调基因的表达。在一些实施方案中，插入序列整合到基因中，从而上调基因的表达。在一些实施方案中，重组mRNA或编码mRNA的载体被分离或纯化。

在一方面，本文提供了一种包含核酸的组合物，所述核酸包含编码以下的核苷酸序列：(a)长散布核元件(LINE)多肽，其中所述LINE多肽包含人ORF1p和人ORF2p；和(b)插入序列，其中所述插入序列是编码外源性多肽的序列的反向补体，或是编码外源性调控元件的序列的反向补体，其中所述组合物是基本上非免疫原性的。在一些实施方案中，插入序列的整合没有对细胞健康产生不利影响。

在一些实施方案中，组合物包含人ORF1p和人ORF2p蛋白。在一些实施方案中，组合物包含核糖核蛋白(RNP)，所述核糖核蛋白(RNP)包含与核酸复合的人ORF1p和人ORF2p。在一些实施方案中，核酸是mRNA。

在一方面，本文提供了一种包含细胞的组合物，包括本文所述的组合物。在一些实施方案中，细胞是免疫细胞。在一些实施方案中，免疫细胞是T细胞或B细胞。在一些实施方案中，免疫细胞是骨髓细胞。在一些实施方案中，免疫细胞选自：单核细胞、巨噬细胞、树突状细胞、树突状前体细胞和巨噬细胞前体细胞。在一些实施方案中，插入序列是编码外源性多肽的序列的反向补体，并且外源性多肽是嵌合抗原受体(CAR)。

在一方面，本文提供了一种药物组合物，其包含本文所述的组合物和药学上可接受的赋形剂。在一些实施方案中，所述药物组合物用于基因疗法中。在一些实施方案中，所述药物组合物用于制备用于治疗疾病或病状的药物。在一些实施方案中，所述药物组合物用于治疗疾病或病状。在一方面，本文提供了一种治疗对象的疾病的方法，所述方法包括将本文所述的药物组合物施用于患有疾病或病状的对象。在一些实施方案中，所述方法使对象中蛋白质或功能性RNA的量或活性增加。在一些实施方案中，对象中蛋白质或功能性RNA的量或活性不足。在一些实施方案中，蛋白质或功能性RNA的量或活性不足与疾病或病状相关或导致疾病或病状。

在一些实施方案中，所述方法还包括施用抑制人沉默中心(HUSH)复合物的剂、抑制FAM208A的剂或抑制TRIM28的剂。在一些实施方案中，抑制人沉默中心(HUSH)复合物的剂是抑制Periphilin、TASOR和/或MPP8的剂。在一些实施方案中，抑制人沉默中心(HUSH)复合物的剂抑制HUSH复合物的组装。在一些实施方案中，所述剂抑制范可尼贫血复合物。在一些实施方案中，所述剂抑制FANCD2-FANC1异二聚体单泛素化。在一些实施方案中，所述剂抑制FANCD2-FANC1异二聚体形成。在一些实施方案中，所述剂抑制范可尼贫血(FA)核心复合物。FA核心复合物是范可尼贫血DNA损伤修复途径的组分，例如，在化疗诱导的DNA链间交联中。FA核心复合物包含FANCB的两个中心二聚体和100kDa的FA相关蛋白(FAAP100)亚基，侧翼有RING指亚基FANCL的两个拷贝。这两个异三聚体充当支架来组装剩余的五个亚基，从而形成扩展的不对称结构。支架的不稳定化可能破坏整个复合物，导致非功能性FA途径。可以抑制FA核心复合物的剂的实例包括硼替佐米及姜黄素类似物EF24和4H-TTD。

因此，本发明的一个目的是提供基于转座子的新型载体，其适用于为动物提供基因疗法。本发明的一个目的是提供基于转座子的新型载体，其用于制备适用于为动物或人提供基因疗法的药物。本发明的另一个目的是提供基于转座子的新型载体，其编码以在细胞中产生所需的蛋白质或肽。本发明的又一个目的是提供基于转座子的新型载体，其编码以在细胞中产生所需的核酸。本发明的又一个目的是提供用于细胞和组织特异性掺入基于转座子的DNA或RNA构建体的方法，所述方法包括将所选基因靶向动物的特定细胞或组织。本发明的又一个目的是提供对基于转座子的DNA或RNA构建体的细胞和组织特异性表达的方法，所述方法包括设计具有细胞特异性启动子的DNA或RNA构建体，所述启动子增强转座酶对所选基因的稳定掺入，以及在细胞中表达选定的基因。本发明的一个目的是提供通过种系施用基于转座子的载体而进行的世代基因疗法。本发明的另一个目的是提供通过非种系施用基于转座子的载体在动物中的基因疗法。本发明的另一个目的是提供通过施用基于转座子的载体在动物中的基因疗法，其中所述动物产生所需的蛋白质、肽或核酸。本发明的又一个目的是提供通过施用基于转座子的载体在动物中的基因疗法，其中所述动物产生被靶细胞上的受体识别的所需蛋白质或肽。本发明的又一个目的是提供通过施用基于转座子的载体在动物中的基因疗法，其中所述动物产生所需的融合蛋白或融合肽(其部分被靶细胞上的受体识别)，以向细胞递送融合蛋白或融合肽的其他蛋白质或肽组分，从而诱导生物应答。本发明的又一个目的是提供一种通过施用基于转座子的载体进行动物基因疗法的方法，所述载体包含组织特异性启动子和目标基因，以促进对目标基因的组织特异性掺入和表达，从而产生所需的蛋白质、肽或核酸。本发明的另一个目的是提供一种通过施用基于转座子的载体进行动物基因疗法的方法，所述载体包含细胞特异性启动子和目标基因，以促进对目标基因的细胞特异性掺入和表达，从而产生所需的蛋白质、肽或核酸。本发明的又一个目的是提供一种通过施用基于转座子的载体进行动物基因疗法的方法，所述载体包含细胞特异性启动子和目标基因，以促进对目标基因的细胞特异性掺入和表达，从而产生所需的蛋白质、肽或核酸，其中所需的蛋白质、肽或核酸在动物中具有所需的生物效应。

在一方面，本文提供了用于将一个或多个核酸递送和稳定掺入在细胞(例如骨髓细胞)内的方法和组合物，所述核酸包含编码一种或多种蛋白质的核酸序列，其中所述稳定掺入可以通过非病毒机制。在一些实施方案中，核酸组合物向骨髓细胞中的递送是通过非病毒机制。在一些实施方案中，核酸的递送可以进一步绕过质粒介导的递送。如本文所用，“质粒”是指非病毒表达载体，例如编码基因和/或基因表达所必需的调控元件的核酸分子。如本文所用，“病毒载体”是指能够将另一个核酸转运到细胞中的病毒衍生的核酸。当病毒载体存在于适当的环境中时，所述病毒载体能够指导由所述载体携带的一个或多个基因编码的一种或多种蛋白质的表达。病毒载体的实例包括但不限于逆转录病毒、腺病毒、慢病毒和腺相关病毒载体。

在一些实施方案中，本文提供了一种将组合物递送在细胞内诸如在骨髓细胞内的方法，所述组合物包含编码一种或多种蛋白质的一个或多个核酸序列，其中所述一个或多个核酸序列是RNA。在一些实施方案中，RNA是mRNA。在一些实施方案中，递送包含一个或多个核酸序列的一个或多个mRNA。在一些实施方案中，所述一个或多个mRNA可以包含至少一个修饰的核苷酸。如本文所用，术语“核苷酸”是指碱基-糖-磷酸组合。核苷酸可以包括合成的核苷酸。核苷酸可以包括合成的核苷酸类似物。核苷酸可以是核酸序列(例如脱氧核糖核酸(DNA)和核糖核酸(RNA))的单体单元。术语核苷酸可以包括核糖核苷三磷酸腺苷三磷酸(ATP)、尿苷三磷酸(UTP)、胞嘧啶三磷酸(CTP)、鸟苷三磷酸(GTP)和脱氧核糖核苷三磷酸，诸如dATP、dCTP、dITP、dUTP、dGTP或其衍生物。这类衍生物可以包括例如[aS]dATP、7-脱氮-dGTP和7-脱氮-dATP，以及赋予含有它们的核酸分子以核酸酶抗性的核苷酸衍生物。如本文所用，术语核苷酸可以是指双脱氧核糖核苷三磷酸(ddNTP)及其衍生物。双脱氧核糖核苷三磷酸的说明性实例可以包括但不限于ddATP、ddCTP、ddGTP、ddITP和ddTTP。核苷酸可以是未标记的或通过公知技术可检测标记的。也可以用量子点进行标记。可检测标记可包括例如放射性同位素、荧光标记、化学发光标记、生物发光标记和酶标记。核苷酸的荧光标记可以包括但不限于荧光素、5-羧基荧光素(FAM)、2'7'-二甲氧基-4'5-二氯-6-羧基荧光素(JOE)、罗丹明、6-羧基罗丹明(R6G)、N,N,NcN'-四甲基-6-羧基罗丹明(TAMRA)、6-羧基-X-罗丹明(ROX)、4-(4'二甲基氨基苯偶氮基)苯甲酸(DABCYL)、Cascade Blue、Oregon Green、Texas Red、花青和5-(2'-氨基乙基)氨基萘-1-磺酸(EDANS)。荧光标记的核苷酸的具体实例可以包括[R6G]dUTP、[TAMRA]dUTP、[R110]dCTP、[R6G]dCTP、[TAMRA]dCTP、[JOE]ddATP、[R6G]ddATP、[FAM]ddCTP、[R110]ddCTP、[TAN1RA]ddGTP、[ROX]ddTTP、[dR6G]ddATP、[dR110]ddCTP、[dTAMRA]ddGTP和[dROX]ddTTP，可获自Perkin Elmer,Foster City,Calif.；FluoroLink脱氧核苷酸、FluoroLink Cy3-dCTP、FluoroLink Cy5-dCTP、FluoroLink Fluor X-dCTP、FluoroLink Cy3-dUTP和FluoroLink Cy5-dUTP，可获自Amersham,Arlington Heights,Ill.；荧光素-15-dATP、荧光素-12-dUTP、四甲基-罗丹明-6-dUTP、TR770-9-dATP、荧光素-12-ddUTP、荧光素-12-UTP和荧光素-15-2'-dATP，可获自Boehringer Mannheim,Indianapolis,Ind.；以及染色体标记的核苷酸、BODIPY-FL-1 4-UTP、BODIPY-FL-4-UTP、BODIPY-TMR-14-UTP、BODIPY-TMR-14-dUTP、BODIPY-TR-14-UTP、BODIPY-TR-14-dUTP、Cascade Blue-7-UTP、Cascade Blue-7-dUTP、荧光素-12-UTP、荧光素-12-dUTP、Oregon Green 488-5-dUTP、罗丹明Green-5-UTP、罗丹明Green-5-dUTP、四甲基罗丹明-6-UTP、四甲基罗丹明-6-dUTP、Texas Red-5-UTP、Texas Red-5-dUTP和TexasRed-12-dUTP，可获自Molecular Probes,Eugene,Oreg.。核苷酸也可以通过化学修饰来标记或标志。化学修饰的单核苷酸可以是生物素-dNTP。生物素化dNTP的一些非限制性实例可包括生物素-dATP(例如，bio-N6-ddATP、生物素-14-dATP)、生物素-dCTP(例如，生物素-11-cICTP、生物素-14-dCTP)和生物素-dUTP(例如，生物素-11-dUTP、生物素-1.6-dUTP、生物素-20-dUTP)。

术语“多核苷酸”、“寡核苷酸”和“核酸”可互换使用，是指核苷酸(脱氧核糖核苷酸或核糖核苷酸)或其类似物的任何长度的聚合形式，呈单链、双链或多链形式。多核苷酸对于细胞可以是外源性或内源性的。多核苷酸可以存在于无细胞的环境中。多核苷酸可以是基因或其片段。多核苷酸可以是DNA。多核苷酸可以是RNA。多核苷酸可以具有任何三维结构，并且可以执行任何已知或未知的功能。多核苷酸可以包含一种或多种类似物(例如改变的骨架、糖或核碱基)。如果存在，则可以在聚合物组装之前或之后对核苷酸结构加以修饰。修饰的核苷酸或类似物的一些非限制性实例包括：假尿苷、5-溴尿嘧啶、5-甲基胞嘧啶、肽核酸、异种核酸、吗啉基、锁核酸、二醇核酸、苏糖核酸、双脱氧核苷酸、虫草素、7-脱氮-GTP、荧光团(例如，与糖连接的罗丹明或荧光素)、含硫醇的核苷酸、生物素连接的核苷酸、荧光碱基类似物、CpG岛、甲基-7-鸟苷、甲基化核苷酸、肌苷、硫尿苷、假尿苷、二氢尿苷、辫苷(queuosine)和怀俄苷。多核苷酸的非限制性实例包括基因或基因片段的编码或非编码区、由连锁分析所定义的基因座、外显子、内含子、信使RNA(mRNA)、转移RNA(tRNA)、核糖体RNA(rRNA)、短干扰RNA(siRNA)、短发夹RNA(shRNA)、微RNA(miRNA)、核酶、eDNA、重组多核苷酸、支链多核苷酸、质粒、载体、任何序列的分离的DNA、任何序列的分离的RNA、无细胞的多核苷酸包括无细胞DNA(cfDNA)和无细胞RNA(cfRNA)、核酸探针和引物。核苷酸序列可以被非核苷酸组分中断。

在一些实施方案中，核酸组合物可以包含一种或多种mRNA，其包含编码跨膜受体的至少一种mRNA，所述跨膜受体参与人巨噬细胞或树突状细胞或合适的骨髓细胞或骨髓前体细胞中的免疫应答功能(例如吞噬细胞受体或合成嵌合抗原受体)。在一些实施方案中，核酸组合物包含一种或多种mRNA和一种或多种脂质，用于将所述核酸递送到造血来源的细胞诸如骨髓细胞或骨髓细胞前体细胞中。在一些实施方案中，所述一种或多种脂质可以形成脂质体复合物。

如本文所用，本文所述的组合物可以用于递送在细胞内。细胞可以源自具有一种或多种细胞的任何生物体。一些非限制性实例包括：原核细胞、真核细胞、细菌细胞、古细菌细胞、单细胞真核生物体的细胞、原生动物细胞、来自植物的细胞(例如来自植物作物、水果、蔬菜、谷物、大豆、玉米、玉蜀黍、小麦、种子、番茄、水稻、木薯、甘蔗、南瓜、干草、土豆、棉花、大麻、烟草、开花植物、针叶树、裸子植物、蕨类植物、石松、金鱼藻、地钱、苔藓的细胞)、藻细胞(例如，布朗葡萄藻(Botryococcus braunii)、莱茵衣藻(Chlamydomonasreinhardtii)、微拟球藻(Nannochloropsis gaditana)、蛋白核小球藻(Chlorellapyrenoidosa)、展枝马尾藻(Sargassum patens C.Agardh)等)、海藻类(例如海带)、真菌细胞(例如酵母细胞、来自蘑菇的细胞)、动物细胞、来自无脊椎动物(例如果蝇、刺胞动物、棘皮动物、线虫等)的细胞、来自脊椎动物(例如鱼、两栖动物、爬行动物、鸟类、哺乳动物)的细胞、来自哺乳动物(例如，猪、奶牛、山羊、绵羊、啮齿动物、大鼠、小鼠、非人灵长类、人等)的细胞等等。有时，细胞可能并非源自天然生物体(例如，细胞可以是合成的，有时称为人工细胞)。在一些实施方案中，本文提及的细胞是哺乳动物细胞。在一些实施方案中，细胞是人细胞。本文所述的方法和组合物涉及将遗传物质掺入细胞、更具体地人细胞中，其中所述人细胞可以是任何人细胞。如本文所用，人细胞可以是任何来源的，例如，体细胞、神经元、成纤维细胞、肌细胞、上皮细胞、心肌细胞或造血细胞。本文所述的方法和组合物还可应用于并适用于将外源性核酸掺入难以转染的人细胞中。一旦已设计和开发了合适的外源性核酸构建体，所述方法就简单且普遍适用。本文所述的方法和组合物可应用于离体将外源性核酸掺入在细胞中。在一些实施方案中，所述组合物可应用于全身施用在生物体中，其中所述组合物中的核酸物质可在体内被细胞吸收，从而在体内掺入细胞中。

在一些实施方案中，本文所述的方法和组合物可以涉及将外源性核酸掺入人造血细胞，例如人造血来源的细胞，诸如人骨髓细胞或骨髓细胞前体中。然而，本文所述的方法和组合物可用于或使得适用于任何生物细胞，且伴有最少的修改。因此，细胞可以是指作为活生物体的基本结构、功能和/或生物单元的任何细胞。

在一方面，本文提供了利用转座元件将一个或多个核酸稳定掺入细胞的基因组中的方法和组合物，其中所述细胞是造血细胞例如骨髓细胞的成员。在一些实施方案中，所述一个或多个核酸包含编码跨膜受体蛋白的至少一个核酸序列，所述跨膜受体蛋白在免疫应答中起作用。在一些实施方案中，所述方法和组合物涉及使用逆转录转座元件将一个或多个核酸序列掺入到骨髓细胞中。核酸组合物可以包含一个或多个核酸序列，诸如基因，其中所述基因是转基因。如本文所用，术语“基因”是指核酸(例如，DNA，诸如基因组DNA和cDNA)及其对应的核苷酸序列，其参与编码RNA转录物。如本文所用的关于基因组DNA的术语包括间插非编码区以及调控区并且可以包括5’和3’端。在一些用途中，所述术语涵盖转录序列，包括5’和3’非翻译区(5’-UTR和3’-UTR)、外显子和内含子。在一些基因中，转录区将含有编码多肽的“开放阅读框”。在所述术语的一些用途中，“基因”仅包含编码多肽所必需的编码序列(例如，“开放阅读框”或“编码区”)。在一些情况下，基因不编码多肽，例如核糖体RNA基因(rRNA)和转移RNA(tRNA)基因。在一些情况下，术语“基因”不仅包括转录序列，而且还包括非转录区，包括上游和下游调控区、增强子和启动子。基因可以是指“内源性基因”或在生物体基因组中其天然位置处的天然基因。基因可以是指“外源性基因”或非天然基因。非天然基因可以是指通常不存在于宿主生物体中但通过基因转移而被引入到宿主生物体中的基因。非天然基因也可以是指不在生物体基因组中其天然位置处的基因。非天然基因也可以是指包含突变、插入和/或缺失的天然存在的核酸或多肽序列(例如，非天然序列)。

术语“转基因”是指被引入到细胞(其在本文中可间或地将其称为受者细胞)中的任何核酸分子。接受转基因后得到的细胞可被称为转基因细胞。转基因可包括对于转基因生物体或转基因细胞是部分或完全异源(即外来)的基因，或可代表与所述生物体或细胞的内源性基因同源的基因。在一些情况下，转基因包括任何多核苷酸，诸如编码多肽或蛋白质的基因、转录成抑制性多核苷酸的多核苷酸或未被转录的多核苷酸(例如，缺乏表达控制元件，诸如驱动转录的启动子)。转录物和编码的多肽可统称为“基因产物”。如果多核苷酸来源于基因组DNA，则在真核细胞中的表达可以包括mRNA的剪接。就表达而言，“上调”是指多核苷酸(例如，RNA，诸如mRNA)和/或多肽序列的表达水平相对于其在野生型状态下的表达水平有所增加，而“下调”是指多核苷酸(例如，RNA，诸如mRNA)和/或多肽序列的表达水平相对于其在野生型状态下的表达有所减少。转染基因的表达可以在细胞中瞬时或稳定地发生。在“瞬时表达”期间，转染的基因在细胞分裂期间未被转移到子细胞。由于其表达限于转染的细胞，因此基因的表达随着时间而丧失。相比之下，当基因与向转染细胞赋予选择优势的另一种基因共转染时，可以发生对转染基因的稳定表达。这种选择优势可以是对呈递至细胞的某种毒素的抗性。在需要表达转染的基因的情况下，本申请设想到使用密码子优化的序列。密码子优化的序列的实例可以是为了在真核生物例如人中表达而优化的序列(即，为了在人中表达而被优化)，或为了另一种真核生物、动物或哺乳动物而优化的序列。针对除人以外的宿主物种的密码子优化或针对特定器官的密码子优化是已知的。在一些实施方案中，编码蛋白质的编码序列可以为了在特定细胞诸如真核细胞中表达而进行密码子优化。真核细胞可以是属于或来源于特定生物体的那些细胞，诸如植物或哺乳动物，包括但不限于本文讨论的人或非人真核生物或动物或哺乳动物，例如小鼠、大鼠、兔、狗、牲畜或非人哺乳动物或灵长类动物。密码子优化是指通过用在宿主细胞的基因中更频繁或最频繁使用的密码子替换天然序列的至少一个密码子(例如，约或多于约1、2、3、4、5、10、15、20、25、50个或更多个密码子)来修饰核酸序列以增加在目标宿主细胞中的表达同时保持天然氨基酸序列的过程。不同的物种对于具有特定氨基酸的某些密码子表现出特殊偏倚。密码子偏倚(生物体之间密码子使用的差异)通常与信使RNA(mRNA)的翻译效率相关，而信使RNA(mRNA)的翻译效率又被认为尤其取决于被翻译的密码子的性质和特定转移RNA(tRNA)分子的可用性。所选tRNA在细胞中的优势通常可以反映肽合成中最常使用的密码子。因此，可基于密码子优化来定制基因以便于在给定生物体中最佳的基因表达。密码子使用表是易于获得的，例如在www.kazusa.orjp/codon/上可获得的“密码子使用数据库(Codon UsageDatabase)”，并且这些表可以按多种方式进行改编。用于密码子优化特定序列以在特定宿主细胞中表达的计算机算法也是可获得的，诸如Gene Forge(Aptagen；Jacobus,PA)。

如本文所用，“多顺反子转录物”是指含有多于一个蛋白质编码区或顺反子的mRNA分子。包含两个编码区的mRNA被称为“双顺反子转录物”。“5’-近端”编码区或顺反子是其翻译起始密码子(通常为AUG)最接近多顺反子mRNA分子5’端的编码区。“5’-远端”编码区或顺反子是其翻译起始密码子(通常是AUG)不是最接近mRNA 5’端的起始密码子的区域。

术语“转染”或“转染的”是指通过非病毒或基于病毒的方法将核酸引入到细胞中。核酸分子可以是编码完整蛋白质或其功能部分的基因序列。参见，例如Sambrook等人,1989,Molecular Cloning:ALaboratory Manual,18.1-18.88。

如本文所用，术语“启动子”是指能够驱动编码序列在细胞中的转录的多核苷酸序列。因此，在本公开的多核苷酸构建体中使用的启动子包括顺式作用的转录控制元件和调控序列，其参与调控或调节基因转录的时机和/或速率。例如，启动子可以是顺式作用的转录控制元件，包括增强子、启动子、转录终止子、复制起点、染色体整合序列、5’和3’非翻译区或内含子序列，它们参与转录调控。这些顺式作用序列通常与蛋白质或其他生物分子相互作用以进行(打开/关闭、调控、调节等)基因转录。“组成型启动子”是能够在几乎所有组织类型中起始转录的启动子，而“组织特异性启动子”仅在一种或几种特定组织类型中起始转录。“诱导型启动子”是仅在特定环境条件、发育条件或药物或化学条件下起始转录的启动子。示例性诱导型启动子可以是强力霉素或四环素诱导型启动子。四环素调控的启动子可以是四环素诱导型或四环素抑制型，称为tet-on和tet-off系统。tet调控系统依赖于两个组分，即四环素控制的调控子(也称为反式激活因子)(tTA或rtTA)和以四环素依赖性方式控制下游cDNA表达的tTA/rtTA依赖性启动子。tTA是融合蛋白，其含有大肠杆菌的Tn10四环素抗性操纵子的阻遏物和单纯疱疹病毒(VP16)的蛋白16的羧基末端部分。tTA依赖性启动子由最小的RNA聚合酶II启动子组成，所述启动子与tet操纵子(tetO)序列(七个同源操纵子序列的阵列)融合。这种融合将tet阻遏物转化为真核细胞中的强转录激活因子。在没有四环素或其衍生物(诸如强力霉素)的情况下，tTA与tetO序列结合，从而允许tTA依赖性启动子的转录激活。然而，在存在强力霉素的情况下，tTA不能与其靶标相互作用并且不会发生转录。使用tTA的tet系统被称为tet-OFF，因为四环素或强力霉素允许转录下调。相比之下，在tet-ON系统中，已使用随机诱变而分离了tTA的突变形式，称为rtTA。与tTA相比，rtTA在不存在强力霉素的情况下不起作用，而需要存在配体才能进行反式激活。术语“外显子”是指在基因组DNA中存在的核酸序列，其被生物信息学预测和/或实验证实对成熟mRNA转录物贡献邻接序列。术语“内含子”是指存在于基因组DNA中的序列，其被生物信息学预测和/或实验证实为不编码所表达的蛋白质的部分或全部，并且在内源性条件下转录成RNA(例如前mRNA)分子，但在RNA被翻译成蛋白质之前，它从内源性RNA(例如前mRNA)中被剪接出来。

术语“剪接受体位点”是指在基因组DNA中存在的序列，其被生物信息学预测和/或实验证实在前mRNA的剪接期间是受体位点，其可以包括鉴定和未鉴定的天然和人工衍生的或可衍生的剪接受体位点。

“内部核糖体进入位点”或“IRES”是指允许非5’端/帽依赖性翻译起始且由此提高从单个信使RNA(mRNA)分子表达2种蛋白质的可能性的核苷酸序列。IRES常位于基因组未加帽的正链RNA病毒的5’UTR中。从单个mRNA分子表达2种蛋白质的另一种手段是在它们的编码序列之间插入2A肽(样)序列。2A肽(样)序列通过不同地被称为“核糖体跳过”、“停止-继续(stop-go)”翻译和“停止进行(stop carry-on)”翻译的过程介导初级翻译产物的自加工。2A肽(样)序列存在于各种正链和双链RNA病毒组中，包括小核糖核酸病毒科(Picornaviridae)、黄病毒科(Flaviviridae)、四病毒科(Tetraviridae)、双顺反病毒科(Dicistroviridae)、呼肠孤病毒科(Reoviridae)和整体病毒科(Totiviridae)。

术语“2A肽”是指一类18-22个氨基酸(AA)长的病毒寡肽，其在真核细胞中在翻译过程中介导多肽的“切割”。名称“2A”是指病毒基因组的特定区域，并且不同的病毒2A通常以它们所源自的病毒命名。最早发现的2A是F2A(口蹄疫病毒)，之后还鉴定了E2A(马鼻炎A病毒)、P2A(猪捷申病毒(teschovirus)-1 2A)和T2A(明脉扁刺蛾病毒(thosea asignavirus)2A)。2A介导的“自切割”机制被认为是核糖体在2A序列的C末端跳过了甘氨酰-脯氨酰肽键的形成。2A肽(样)序列通过不同地被称为“核糖体跳过”、“停止-继续(stop-go)”翻译和“停止进行(stop carry-on)”翻译的过程介导初级翻译产物的自加工。2A肽(样)序列存在于各种正链和双链RNA病毒组中，包括小核糖核酸病毒科(Picornaviridae)、黄病毒科(Flaviviridae)、四病毒科(Tetraviridae)、双顺反病毒科(Dicistroviridae)、呼肠孤病毒科(Reoviridae)和整体病毒科(Totiviridae)。

如本文所用，术语“可操作地连接”是指两个或更多个区段诸如核酸区段或多肽区段之间的功能关系。通常，它是指转录调控序列与已转录序列的功能性关系。

术语“终止序列”是指被宿主细胞的聚合酶识别并导致转录终止的核酸序列。终止序列是在天然或合成基因的3’端提供对上游开放阅读框的mRNA转录或mRNA转录和核糖体翻译两者的终止的DNA序列。原核终止序列通常包含具有双重对称性的富含GC的区域，然后是富含AT的序列。常用的终止序列是T7终止序列。多种终止序列是本领域已知的并且可用于本发明的核酸构建体中，包括源自λ噬菌体的TINT3、TL13、TL2、TR1、TR2和T6S终止信号，以及源自细菌基因诸如大肠杆菌的trp基因的终止信号。

术语“多聚腺苷酸化序列”(也称为“多聚A位点”或“多聚A序列”)是指指导新生RNA转录物的终止和多聚腺苷酸化的DNA序列。重组转录物的有效多聚腺苷酸化是可取的，因为缺乏多聚A尾的转录物通常不稳定且迅速降解。表达载体中使用的多聚A信号可以是“异源的”或“内源的”。内源性多聚A信号是在基因组中给定基因的编码区的3’端处天然存在的信号。异源性多聚A信号是从一个基因中分离出来并放置在另一基因(例如蛋白质的编码序列)的3’端的信号。常用的异源性多聚A信号是SV40多聚A信号。SV40多聚A信号被包含在237bp BamHI/BclI限制性片段上，并且指导终止和多聚腺苷酸化；许多载体含有SV40多聚A信号。另一种常用的异源性多聚A信号衍生自牛生长激素(BGH)基因；BGH多聚A信号也可在许多商购载体上获得。来自单纯疱疹病毒胸苷激酶(HSV tk)基因的多聚A信号也被用作许多商业表达载体上的多聚A信号。多聚腺苷酸化信号促进RNA从细胞核内转运到细胞质中，并增加这种RNA的细胞半衰期。多聚腺苷酸化信号存在于mRNA的3’端。

如本文所用，术语“互补”、“互补序列”、“互补的”和“互补性”是指与给定序列互补并且可杂交的序列。在一些情况下，与给定核酸杂交的序列被称为给定分子的“互补序列”或“反向补体”，如果其在给定区域上的碱基序列能够互补地结合其结合配偶体的碱基，从而形成例如A-T、A-U、G-C和G-U碱基对。一般而言，可与第二序列杂交的第一序列可与第二序列特异性或选择性地杂交，从而在杂交反应期间使得与第二序列或第二序列组的杂交(例如在一组给定的条件诸如本领域常用的严格条件下热力学上更稳定)优先于与非靶序列杂交。通常，可杂交的序列在它们各自长度的全部或部分上共享一定程度的序列互补性，诸如介于25％-100％之间的互补性，包括至少25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％和100％的序列互补性。序列同一性，诸如出于评估互补性百分比的目的，可以通过任何合适的比对算法来测量，包括但不限于Needleman-Wunsch算法(参见，例如可在www.ebi.ac.uk/Tools/psa/embossneedle/nucleotide.html上获得的EMBOSS Needle比对器)、BLAST算法(参见，例如可在blast.ncbi.nlm.nih.gov/Blast.cgi上获得的BLAST比对工具，任选地默认设置)或Smith-Waterman算法(参见，例如可在www.ebi.ac.ukaools/psa/emboss_water/nucleotide.html上获得的EMBOSS Water比对器，任选地默认设置)。可以使用所选算法的任何合适参数(包括默认参数)来评估最佳比对。

互补性可以是完美的或基本的/充分的。两个核酸之间的完美互补性可意味着两个核酸可以形成双链体，其中双链体中的每个碱基通过沃森-克里克配对而与互补碱基键合。基本上或充分互补可意味着一条链中的序列与相反链中的序列不完全和/或不完美地互补，但两条链上的碱基之间发生足够的键合而在一组杂交条件(例如，盐浓度和温度)下形成稳定的杂交复合物。此类条件可以通过以下来预测：使用序列和标准数学计算以预测杂交链的解链温度(T_m)，或通过使用常规方法以经验确定T_m。

如本文所用，“转座子”是染色体内可以在基因组内易位的区段，也称为“跳跃基因”。有两种不同类别的转座子：1类或逆转录转座子，通过RNA中间体和“复制和粘贴”机制进行活动化；和II类或DNA转座子，通过切除整合或“切割和粘贴”机制进行活动化(IvicsNat Methods 2009)。细菌、低等真核生物(例如酵母)和无脊椎动物转座子似乎在很大程度上是物种特异性的，并且不能用于脊椎动物细胞中DNA的有效转座。“Sleeping Beauty”(Ivics Cell 1997)是首个活性转座子，其通过对鱼的非活性TE进行序列改组而人工重建。这使得通过转座到脊椎动物细胞(包括人细胞)中成功地实现DNA整合成为可能。SleepingBeauty是属于Tcl/mariner转座子家族的II类DNA转座子(Ni Genomics Proteomics2008)。与此同时，已经从包括果蝇、青蛙和甚至人基因组在内的不同物种中鉴定或重建了额外的功能性转座子，所有这些都已被证明允许DNA转座到脊椎动物以及人宿主细胞基因组中。这些转座子中的每个都具有与转座效率、表达稳定性、遗传有效载荷能力等相关的优点和缺点。已产生的示例性II类转座酶包括Sleeping Beauty、PiggyBac、Frog Prince、Himarl、Passport、Minos、hAT、Toll、To12、AciDs、PIF、Harbinger、Harbinger3-DR和Hsmarl。

如本文所用，“异源”包括分子，诸如DNA和RNA，它们不会天然地存在于它所插入的细胞中。例如，当将小鼠或细菌DNA插入人细胞的基因组中时，这种DNA在本文中称为异源性DNA。相比之下，如本文所用的术语“同源的”是指在其插入的细胞中天然存在的分子，诸如DNA和RNA。例如，将小鼠DNA插入小鼠细胞的基因组中就构成了将同源性DNA插入所述细胞中。在后一种情况下，同源性DNA不一定被插入其在细胞基因组中天然存在的位点；确切地，同源性DNA可能被插入到其天然存在的位点以外的位点处，从而在插入位点产生基因改变(突变)。

“转座酶”是一种酶，其能够与含有转座子端的组合物(例如，转座子、转座子端)形成功能性复合物并催化含有转座子端的组合物插入或转座到用体外转座子反应孵育的双链DNA中。术语“转座子端”意指含有与在体外转座反应中起作用的转座酶或整合酶形成复合物所必需的核苷酸序列(“转座子端序列”)的双链DNA。

转座子端与识别并结合转座子端的转座酶或整合酶形成复合物或突触复合物或转座子复合物或转座子组合物，并且所述复合物能够将转座子端插入或转座到在体外转座反应中孵育的靶DNA中。转座子端表现出两个互补序列，其由转移的转座子端序列或转移链和非转移的转座子端序列或非转移链组成。例如，与过度活性的Tn5转座酶(其在体外转座反应中有活性)形成复合物的一个转座子端包含：显示如下的转移转座子端序列的转移链：5’AGATGTGTATAAGAGACAG 3’；和显示如下的“非转移转座子端序列”的非转移链：5’CTGTCTCTTATACACATCT 3’。在体外转座反应中，转移链的3’端连接或转移到靶DNA。在体外转座反应中，呈现与转移的转座子端序列互补的转座子端序列的非转移链不连接或转移到靶DNA。

在一些实施方案中，转移链与非转移链是共价连接的。例如，在一些实施方案中，转移的和非转移的链序列被提供在单个寡核苷酸上，例如呈发夹构型。因此，虽然非转移链的自由端没有通过转座反应直接连接到靶DNA，但非转移链变为间接连接到DNA片段上，因为非转移链与转移链通过发夹结构的环相连。如本文所用，“切割结构域”是指易于通过剂，例如酶进行切割的核酸序列。

“限制性位点结构域”意指展示用于促进使用限制性核酸内切酶进行切割的序列的标签结构域。例如，在一些实施方案中，限制性位点结构域用于产生双标签的线性ssDNA片段。在一些实施方案中，限制性位点结构域用于在标签结构域中生成相容性双链5’端，以便可以使用模板依赖性DNA连接酶将此末端连接到另一DNA分子。在一些实施方案中，标签中的限制性位点结构域显示的限制性位点序列在靶DNA中仅稀少地(如果有的话)存在(例如，罕见切割限制性核酸内切酶的限制性位点，诸如NotI或AscI)。

如本文所用，术语“重组核酸分子”是指重组DNA分子或重组RNA分子。重组核酸分子是含有来自不同原始来源并且并非天然附接在一起的连接核酸分子的任何核酸分子。重组RNA分子包括从重组DNA分子转录的RNA分子。可以在实验室中合成重组核酸。可以通过使用DNA的酶促修饰，诸如酶促限制消化、连接和DNA克隆而通过使用重组DNA技术来制备重组核酸。可以在体外转录重组DNA以产生信使RNA(mRNA)，可以分离、纯化重组mRNA并且将其用于转染细胞。重组核酸可以编码蛋白质或多肽。可以将重组核酸在合适的条件下掺入到活细胞中，并且可以在活细胞内表达。如本文所用，核酸的“表达”通常是指核酸的转录和/或翻译。核酸表达的产物通常是蛋白质，但也可以是mRNA。在已经掺有重组核酸的细胞中检测到由重组核酸编码的mRNA被认为是所述核酸在所述细胞中“表达”的阳性证据。将核酸插入或掺入到细胞中的过程可以经由转化、转染或转导进行。转化是由细菌细胞摄取外来核酸的过程。此过程适于增殖质粒DNA、蛋白质产生和其他应用。转化将重组质粒DNA引入到从环境中摄取胞外DNA的感受态细菌细胞中。一些细菌物种在某些环境条件下天然是感受态的，但在实验室环境中人工诱导感染态。转染是迫使小分子诸如DNA、RNA或抗体引入到真核细胞中。只是产生混淆，“转染”也是指将噬菌体引入到细菌细胞中。‘转导’主要用于描述将重组病毒载体颗粒引入到靶细胞中，而‘感染’是指用野生型病毒对人或动物的自然感染。

“茎-环”序列是指具有足够的自互补性以杂交并形成茎和凸出成环的非互补区域的核酸序列(例如，RNA序列)。茎可包括错配或凸出。

术语“载体”是指能够转运或介导异源性核酸表达的核酸分子。如本文所用，“载体序列”是指包含至少一个复制起点和至少一个可选择性标记基因的核酸序列。能够指导它们可操作地连接的基因和/或核酸序列的表达的载体在本文中称为“表达载体”。

质粒是由术语“载体”所涵盖的属的物种。一般来讲，具有效用的表达载体常常呈“质粒”形式，其是指环状双链DNA分子，所述分子在其载体形式下不与染色体结合，并且典型地包含用于稳定或瞬时表达所编码的DNA的实体。可用于本文公开的方法中的其他表达载体包括但不限于质粒、附加体、细菌人工染色体、酵母人工染色体、噬菌体或病毒载体，并且此类载体可以整合至宿主的基因组中或在细胞中自主性地复制。载体可以是DNA或RNA载体。也可以使用本领域技术人员已知的发挥等同功能的其他形式的表达载体，例如，自复制型染色体外载体或能够整合至宿主基因组中的载体。示例性载体是能够自主性复制和/或表达与其连接的核酸的那些载体。安全港基因座是基因组内可以插入额外的外源性或异源性核酸序列的区域，并且宿主基因组能够容纳所插入的遗传物质。示例性安全港位点包括但不限于：AAVS1位点、GGTA1位点、CMAH位点、B4GALNT2位点、B2M位点、ROSA26位点、COLA1位点和TIGRE位点。例如，本公开中描述的异源性核酸可被整合在细胞基因组的一个或多个位点处，其中一个或多个位点选自：AAVS1位点、GGTA1位点、CMAH位点、B4GALNT2位点、B2M位点、ROSA26位点、COLA1位点和TIGRE位点。在一些实施方案中，可以将包含转基因的核酸货物递送到R2D基因座。

在一些实施方案中，可以将包含转基因的核酸货物递送到基因组的基因间或基因内区域中。在一些实施方案中，包含转基因的核酸货物被整合到基因组5’或3’的0.1kb、0.25kb、0.5kb、0.75、kb、1kb、2kb、3kb、4kb、5kb、7.5kb、10kb、15kb、20kb、25kb、50、75kb或100kb的内源性活性基因内。在一些实施方案中，包含转基因的核酸货物被整合到基因组5’或3’的0.1kb、0.25kb、0.5kb、0.75、kb、1kb、2kb、3kb、4kb、5kb、7.5kb、10kb、15kb、20kb、25kb、50、75kb或100kb的内源性启动子或增强子内。在一些实施方案中，包含转基因的核酸货物是50-50,000个碱基对，例如介于50-40,000bp之间、介于500-30,000bp之间、介于500-20,000bp之间、介于100-15,000bp之间、介于500-10,000bp之间、介于50-10,000bp之间、介于50-5,000bp之间。在一些实施方案中，包含转基因的核酸货物的长度小于1,000、1,300、1500、2,000、3,000、4,000、5,000或7,500个核苷酸。

L1和非L1逆转录转座子系统

逆转录转座子可以含有转座元件，它们是重新组织其驻留基因组的积极参与者。从广义上讲，逆转录转座子可以是指被转录成RNA并翻译成蛋白质并具有将自身逆转录回DNA的能力的DNA序列。大约45％的人基因组由转座事件产生的序列构成。逆转录转座偶尔产生靶位点缺失或通过称为5’和3’转导的过程将非逆转录转座子DNA添加到基因组中。非同源性逆转录转座子之间的重组导致基因序列的缺失、重复或重排。进行中的逆转录转座可以产生新型剪接位点、多聚腺苷酸化信号和启动子，从而构建新的转录模块。

通常，逆转录转座子可以分为两类，逆转录病毒样LTR逆转录转座子和非LTR元件，诸如人L1元件、脉孢菌(Neurospora)TAD元件(Kinsey,1990,Genetics 126:317-326)、来自果蝇(Drosophila)的因子I(Bucheton等人,1984,Cell 38:153-163)和来自家蚕(Bombyxmori)的R2Bm(Luan等人,1993,Cell 72:595-605)。这两种类型的逆转录转座子在结构上是不同的，并且还使用完全不同的机制进行逆转录转座。LINE编码的多肽的示例性非限制性实例见于GenBank登录号AAC51261、AAC51262、AAC51263、AAC51264、AAC51265、AAC51266、AAC51267、AAC51268、AAC51269、AAC51270、AAC51271、AAC51272、AAC51273、AAC51274、AAC51275、AAC51276、AAC51277、AAC51278和AAC51279中。

出于多种原因，决定将重点放在LINE-1以发展成如本公开中所述的系统，其中至少一些原因如下所例示：(a)LINE-1(或L1-)元件是自主性的，因为它们单独编码所有机构以完成此逆转录和整合过程；(b)人基因组中的L1元件丰富，因此这些元素可被视为基因组的自然化元件；(c)与漂浮在细胞中的其他mRNA相比，L1逆转录转座子以高度特异性逆转录转座其自身的mRNA。

L1表达6-kb的双顺反子RNA，所述RNA编码具有基本但不确定功能的40kDa开放阅读框-1RNA结合蛋白(ORF1p)，以及具有核酸内切酶和逆转录酶(RT)活性的150kDa ORF2蛋白。L1逆转录转座是一个复杂的过程，包括L1的转录、其RNA向细胞质的转运、双顺反子RNA的翻译、核糖核蛋白(RNP)颗粒的形成、其重新输入至细胞核以及在整合位点处靶标引发的逆转录。已经鉴定了与L1相互作用的一些转录因子。转录的L1 RNA与从转录物翻译的蛋白质形成顺式RNP。L1经由ORF2p在5’-TTTT-3’处裂解通过靶位点引物逆转录(TPRT)而整合到基因组DNA中，其中L1 RNA的多聚A序列退火并引发逆转录酶(RT)活性以生成L1 cDNA。

基因组的其他可移动元件可以“劫持(hijack)”L1 ORF进行逆转录转座。例如，Alu元件是属于短散布元件(SINE)类别的这种可移动DNA元件，它们是非自主性逆转录转座子并获得反式因子进行整合。Alu元件和SINE-1元件可反式地与L1核糖核蛋白缔合，也可被ORF1p和ORF2p逆转录转座。与L1 RNA有点相似，Alu元件以长A-连串(run)(常称为A-尾)结束，并且它还有较小的富含A的区域(由AA表示)，所述区域将分歧二聚体结构的两半分隔开。Alu元件可能具有RNA聚合酶III启动子的内部组分(诸如，通常称为A框和B框启动子)，但它们不编码RNA聚合酶III的终止子。它们可以利用Alu元件下游不同距离处的一段T核苷酸来终止转录。典型的Alu转录物涵盖整个Alu，包括A尾，并具有每个基因座所独有的3’区。Alu RNA折叠成每个单体单元的单独结构。RNA已显示将7SL RNA SRP9和14异二聚体以及多聚A结合蛋白(PABP)结合在一起。Alu的多聚A尾与基因组的富含T(TTTT)的区域一起引发并吸引ORF2p与引发区域结合并经由其核酸内切酶活性在富含T的区域处进行切割。富含T的区域通过Alu元件的3’A尾区域上的ORF2p引发逆转录。这将生成Alu元件主体的cDNA拷贝。通过未知机制在第二条链上制造切口，并引发第二条链合成。新的Alu元件则侧接有短的直接重复序列，所述重复序列是第一切口与第二切口之间的DNA序列的重复。Alu元件在RNA分子内极为普遍，因为它们偏爱富含基因的区域。全长Alu(～ 300bp)衍生自信号识别颗粒RNA 7SL并由以下组成：中间有一个富含A的接头的两个相似单体、存在于5’单体中的A框和B框、以及多聚A尾，所述多聚A尾缺少前面的多聚腺苷酸化信号，从而得到拉长的尾(长度可达100bp)。Alu可以通过RNA聚合酶III，使用A框和B框内的内部启动子进行转录；然而，Alu不含ORF，并且因此不编码蛋白质产物。

其他非L1转座子包括SVA和HERV-K。全长SVA(SINE-VNTR-Alu)元件(～2–3kb)是复合单元，其含有CCCTCT重复序列、两个Alu样序列、VNTR、具有env(包膜)基因的SINE-R区、HERV-K10的3’LTR和多聚腺苷酸化信号，后接多聚A尾。SVA很可能是由RNA聚合酶II转录的，尽管尚不清楚SVA元件是否携带内部启动子。

全长HERV-K元件(～ 9–10kb)由内源性逆转录病毒序列的古老残余物构成并且包括围绕三个逆转录病毒ORF的两个侧翼LTR区域：(1)编码逆转录病毒衣壳结构蛋白的gag；(2)编码以下酶的pol-pro：蛋白酶、RT和整合酶；以及(3)编码蛋白质以允许水平转移的env。HERV-K的LTR含有内部的双向启动子，所述启动子似乎处于RNA聚合酶II的转录控制之下。

L1逆转录转座和RNA结合可以在多聚A尾处或附近发生。3’-UTR在识别ORF1蛋白(ORF1p)的严格型LINE RNA中起作用。严格型LINE可以含有位于3’UTR的末端处的茎环结构。在体外L1逆转录转座的初始阶段期间检测到由转座子3’-端cDNA与靶DNA之间的连接以及L1 RNA在ORF2蛋白(ORF2p)内的特定定位组成的分支分子。L1和Alu共有的二级或三级RNA结构可能是ORF2识别和结合的原因，可能还有多聚A尾。在一些实施方案中，位于多聚A序列下游的茎环结构与切割强度相关。

为了保持基因组的遗传完整性和稳定性，限制或解决L1整合的机制也得到了发展。非同源性末端连接修复蛋白诸如XRCC1、Ku70和DNA-PK都牵涉到插入时L1整合的解析度。此外，细胞已经进化出许多抵抗不受限制的逆转录转座的蛋白质，包括胞嘧啶脱氨酶的APOBEC3家族、腺苷脱氨酶ADAR1、染色质重塑因子和用于在雄性生殖系中起作用的转录后基因沉默的piRNA通路的成员。

I.包含核酸构建体的组合物和涉及稳定表达编码蛋白质的方法

本文提供了一种重组核酸，其编码一种或多种蛋白质以用于在细胞诸如骨髓细胞中表达。在一个实施方案中，重组核酸被设计用于稳定表达由重组核酸编码的一种或多种蛋白质或多肽。在一些实施方案中，通过将重组核酸掺入在细胞基因组内来实现稳定表达。

本领域技术人员可以易于理解，本文所述的组合物和方法可以用于设计产物，其中重组核酸可以包含一个或多个序列，所述序列不翻译为蛋白质或多肽组分，但可以编码可以是调控核酸的寡核苷酸，诸如抑制剂寡核苷酸产物，诸如激活剂寡核苷酸。

在一方面，本文提供了一种包含合成核酸的组合物，所述合成核酸包含编码目标基因的核酸序列和一个或多个逆转录转座元件以将非内源性核酸稳定地掺入细胞中。在一些实施方案中，细胞是造血细胞。在一些实施方案中，细胞是骨髓细胞。在一些实施方案中，细胞是前体细胞。在一些实施方案中，细胞是未分化的。在一些实施方案中，细胞具有进一步的分化潜能。在一些实施方案中，细胞不是干细胞。

A.LINE/Alu逆转录转座子构建体

在一些实施方案中，本公开可以利用逆转录转座系统来稳定地掺入到基因组中并表达非内源性核酸，其中所述非内源性核酸包含核酸序列内的逆转录转座元件。在一些实施方案中，本公开可以利用细胞的内源性逆转录转座系统(例如蛋白质和酶)以在细胞中稳定表达非内源性核酸。在一些实施方案中，本公开可以利用细胞的内源性逆转录转座系统(例如蛋白质和酶，例如LINE1逆转录转座系统)，但可进一步表达逆转录转座系统的一种或多种组分以在细胞中稳定表达非内源性核酸。

在一些实施方案中，本文提供了一种合成核酸，所述合成核酸编码转基因，并编码一种或多种用于逆转录转座的组分。本文所述的合成核酸可互换地称为核酸构建体、转基因或外源性核酸。

在一方面，本文提供了一种将核酸序列整合到细胞的基因组中的方法，所述方法包括将重组mRNA或编码mRNA的载体引入到细胞中，其中所述mRNA包含：插入序列，其中所述插入序列包含外源性序列或作为外源性序列的反向补体的序列；5’UTR序列和5’UTR序列下游的3’UTR序列；其中5’UTR序列或3’UTR序列包含人ORF蛋白的结合位点，并且其中所述插入序列被整合到细胞的基因组中。

在一些实施方案中，mRNA包含人逆转录转座子序列。在一些实施方案中，人逆转录转座子序列位于5’UTR序列的下游。在一些实施方案中，人逆转录转座子序列位于3’UTR序列的上游。

在一些实施方案中，人逆转录转座子序列包含非LTR逆转录转座子的序列。在一些实施方案中，人逆转录转座子序列编码包含LINE-1逆转录转座子。在一些实施方案中，LINE-1逆转录转座子是人LINE-1逆转录转座子。在一些实施方案中，人逆转录转座子序列包含编码核酸内切酶和/或逆转录酶的序列。在一些实施方案中，核酸内切酶和/或逆转录酶是ORF2p。在一些实施方案中，逆转录酶是II组内含子逆转录酶结构域。在一些实施方案中，核酸内切酶和/或逆转录酶是小须鲸核酸内切酶和/或逆转录酶。在一些实施方案中，人逆转录转座子序列包含编码ORF2p的序列。在一些实施方案中，使用ORF2p的核酸内切酶结构域的特异性将插入序列整合到基因组中的多聚T位点处。在一些实施方案中，多聚T位点包含序列TTTTTA。

在一些实施方案中，(i)人逆转录转座子序列包含编码ORF1p的序列，(ii)所述mRNA不包含编码ORF1p的序列，或(iii)所述mRNA包含将编码ORF1p的序列替换为补体基因的5’UTR序列。在一些实施方案中，mRNA包含编码ORF1p的第一mRNA分子和编码核酸内切酶和/或逆转录酶的第二mRNA分子。在一些实施方案中，mRNA是包含编码ORF1p的第一序列和编码核酸内切酶和/或逆转录酶的第二序列的mRNA分子。在一些实施方案中，编码ORF1p的第一序列与编码核酸内切酶和/或逆转录酶的第二序列由接头序列分隔开。

在一些实施方案中，人逆转录转座子序列包含编码与额外蛋白质序列融合的ORF1p的序列，和/或编码与额外蛋白质序列融合的ORF2p的序列。在一些实施方案中，ORF1p和/或ORF2p与核保留序列融合。在一些实施方案中，核保留序列是Alu序列。在一些实施方案中，ORF1p和/或ORF2p与MS2外壳蛋白融合。在一些实施方案中，5’UTR序列或3’UTR序列包含至少一个、两个、三个或更多个MS2发夹序列。在一些实施方案中，5’UTR序列或3’UTR序列包含促进或增强mRNA的多聚A尾与核酸内切酶和/或逆转录酶相互作用的序列。在一些实施方案中，5’UTR序列或3’UTR序列包含促进或增强多聚A结合蛋白(PABP)与核酸内切酶和/或逆转录酶相互作用的序列。在一些实施方案中，5’UTR序列或3’UTR序列包含相对于由细胞表达的另一种mRNA增加核酸内切酶和/或逆转录酶对所述mRNA的特异性的序列。在一些实施方案中，5’UTR序列或3’UTR序列包含Alu元件序列。

在一些实施方案中，3’UTR序列包含插入序列。在一些实施方案中，插入序列包含作为编码所述外源性多肽的序列的反向补体的序列。在一些实施方案中，插入序列包含多聚腺苷酸化位点。在一些实施方案中，插入序列包含SV40多聚腺苷酸化位点。在一些实施方案中，插入序列在作为编码外源性多肽的序列的反向补体的序列上游包含多聚腺苷酸化位点。在一些实施方案中，插入序列在不是核糖体基因座的基因座处整合到基因组中。在一些实施方案中，插入序列整合到基因或基因的调控区中，从而破坏基因或下调基因的表达。在一些实施方案中，插入序列整合到基因或基因的调控区中，从而上调基因的表达。在一些实施方案中，插入序列整合到基因组中并替换基因。在一些实施方案中，插入序列被稳定地整合到基因组中。在一些实施方案中，插入序列被逆转录转座到基因组中。在一些实施方案中，插入序列通过由mRNA编码的核酸内切酶切割靶位点的DNA链而被整合到基因组中。在一些实施方案中，插入序列通过靶标引发的逆转录(TPRT)而被整合到基因组中。在一些实施方案中，插入序列通过将mRNA反向剪接到基因组的DNA靶位点中而被整合到基因组中。

在一些实施方案中，载体是质粒或病毒载体。在一些实施方案中，载体包含非LTR逆转录转座子。在一些实施方案中，载体包含人L1元件。在一些实施方案中，载体包含L1逆转录转座子ORF1基因。在一些实施方案中，载体包含L1逆转录转座子ORF2基因。在一些实施方案中，载体包含L1逆转录转座子。

在一些实施方案中，mRNA为至少约1、1.1、1.2、1.3、1.4、1.5、1.6、1.7、1.8、1.9、2、2.1、2.2、2.3、2.4、2.5、2.6、2.7、2.8、2.9或3千碱基。在一些实施方案中，mRNA为至多约2.5、2.6、2.7、2.8、2.9、3、3.1、3.2、3.3、3.4、3.5、3.6、3.7、3.8、3.9、4、4.1、4.2、4.3、4.4、4.5、4.6、4.7、4.8、4.9或5千碱基。

在一些实施方案中，mRNA包含至少约1、1.1、1.2、1.3、1.4、1.5、1.6、1.7、1.8、1.9、2、2.1、2.2、2.3、2.4、2.5、2.6、2.7、2.8、2.9或3千碱基的有效载荷。在一些实施方案中，mRNA为至多约2.5、2.6、2.7、2.8、2.9、3、3.1、3.2、3.3、3.4、3.5、3.6、3.7、3.8、3.9、4、4.1、4.2、4.3、4.4、4.5、4.6、4.7、4.8、4.9或5千碱基。在一些实施方案中，mRNA为至少约5.1、5.2、5.3、5.4、5.5、5.6、5.7、5.8、5.9或6千碱基。在一些实施方案中，mRNA为至少约6.1、6.2、6.3、6.4、6.5、6.6、6.7、6.8、6.9或7千碱基。在一些实施方案中，mRNA为至少约7.1、7.2、7.3、7.4、7.5、7.6、7.7、7.8、7.9或8千碱基。在一些实施方案中，mRNA为至少约8.1、8.2、8.3、8.4、8.5、8.6、8.7、8.8、8.9或9千碱基。在一些实施方案中，mRNA为至少约9.1、9.2、9.3、9.4、9.5、9.6、9.7、9.8、9.9或10千碱基。在一些实施方案中，mRNA为至少约10.1、10.2、10.3、10.4、10.5、10.6、10.7、10.8、10.9或11千碱基。在一些实施方案中，mRNA为至少约11.1、11.2、11.3、11.4、11.5、11.6、11.7、11.8、11.9或12千碱基。在一些实施方案中，mRNA包含约6.8kB的有效载荷，例如编码ABCA4基因产物的序列。在一些实施方案中，mRNA包含约6.7kB的有效载荷，例如编码MY07A基因产物的序列。在一些实施方案中，mRNA包含约7.5kB的有效载荷，例如编码CEP290基因产物的序列。在一些实施方案中，mRNA包含约10.1kB的有效载荷，例如编码CDH23基因产物的序列。在一些实施方案中，mRNA包含约9.4kB的有效载荷，例如编码EYS基因产物的序列。在一些实施方案中，mRNA包含约15.6kB的有效载荷，例如编码USH2a基因产物的序列。在一些实施方案中，mRNA包含约12.5kB的有效载荷，例如编码ALMS1基因产物的序列。在一些实施方案中，mRNA包含约4.6kB的有效载荷，例如编码GDE基因产物的序列。在一些实施方案中，mRNA包含约6kB的有效载荷，例如编码OTOF基因产物的序列。在一些实施方案中，mRNA包含约7.1kB的有效载荷，例如编码F8基因产物的序列。

使用逆转录转座将核酸整合到基因组中的方法的优点之一是，它可以如本文所述被设计为递送比使用任何其他现有方法大得多的核酸货物。例如，慢病毒和腺相关病毒(AAV)基因递送方法预计不会递送大于4kB的核酸货物。此外，慢病毒递送带来插入诱变和其他毒性的风险。AAV介导的递送带来未解决的肝脏和CNS毒性。另一方面，如本文所述，使用mRNA的逆转录转座介导方法(Retro-T)比这些病毒方法快速、安全且不那么复杂。

在一方面，本文提供了一种包含核酸的组合物，所述核酸包含编码以下的核苷酸序列：(a)长散布核元件(LINE)多肽，其中所述LINE多肽包含人ORF1p和人ORF2p；和(b)插入序列，其中所述插入序列是编码外源性多肽的序列的反向补体，或是编码外源性调控元件的序列的反向补体，其中所述组合物是基本上非免疫原性的。

在一些实施方案中，所述方法还包括施用抑制人沉默中心(HUSH)复合物的剂、抑制FAM208A的剂或抑制TRIM28的剂。在一些实施方案中，抑制人沉默中心(HUSH)复合物的剂是抑制Periphilin、TASOR和/或MPP8的剂。在一些实施方案中，抑制人沉默中心(HUSH)复合物的剂抑制HUSH复合物的组装。

在一些实施方案中，所述剂抑制范可尼贫血复合物。在一些实施方案中，所述剂抑制FANCD2-FANC1异二聚体单泛素化。在一些实施方案中，所述剂抑制FANCD2-FANC1异二聚体形成。在一些实施方案中，所述剂抑制范可尼贫血(FA)核心复合物。FA核心复合物是范可尼贫血DNA损伤修复途径的组分，例如，在化疗诱导的DNA链间交联中。FA核心复合物包含FANCB的两个中心二聚体和100kDa的FA相关蛋白(FAAP100)亚基，侧翼有RING指亚基FANCL的两个拷贝。这两个异三聚体充当支架来组装剩余的五个亚基，从而形成扩展的不对称结构。支架的不稳定化可能破坏整个复合物，导致非功能性FA途径。可以抑制FA核心复合物的剂的实例包括硼替佐米及姜黄素类似物EF24和4H-TTD。

在一些实施方案中，待插入的序列可以置于组织特异性元件的控制之下，使得整个插入的DNA仅在组织特异性元件有活性的那些细胞中起作用。

在一方面，本文提供了通过将异源性核酸或目标基因(例如，转基因、调控序列，例如抑制性核酸序列、siRNA、miRNA)引入细胞中来将基因稳定地转移到细胞中的方法和组合物，所述异源性核酸或目标基因侧接有使异源性核酸序列逆转录转座到细胞的基因组中的序列。在一些实施方案中，出于本文件中描述的目的，异源性核酸被称为插入物，其中插入物是将通过本文所述的构建体的预期设计而被逆转录并插入到细胞基因组中的核酸序列。在一些实施方案中，出于本文件中描述的目的，异源性核酸也称为货物或货物序列。货物可以包含被插入基因组中的异源性核酸序列。在一些实施方案中，细胞可以是哺乳动物细胞。哺乳动物细胞可以来源于上皮、间皮或内皮。在一些实施方案中，细胞可以是干细胞。在一些实施方案中，细胞可以是前体细胞。在一些实施方案中，细胞可以是终末分化的细胞。在一些实施方案中，细胞可以是肌肉细胞、心肌细胞、上皮细胞、造血细胞、粘液细胞、表皮细胞、鳞状细胞、软骨细胞、骨细胞或哺乳动物来源的任何细胞。在一些实施方案中，细胞属于造血谱系。在一些实施方案中，细胞是骨髓谱系的或吞噬细胞，例如单核细胞、巨噬细胞、树突状细胞或骨髓前体细胞。在一些实施方案中，编码转基因的核酸是mRNA。

在一些实施方案中，逆转录转座元件可以衍生自非LTR逆转录转座子。

本文提供了一种将核酸序列整合到细胞的基因组中的方法，所述方法包括将重组mRNA或编码mRNA的载体引入到细胞中，其中所述mRNA包含插入序列并且其中所述插入序列被整合到细胞的基因组中。在一些实施方案中，插入序列包含(i)外源性序列，或(ii)作为外源性序列的反向补体的序列；5’UTR序列和5’UTR序列下游的3’UTR序列；其中5’UTR序列或3’UTR序列包含人ORF蛋白的结合位点。在一些实施方案中，ORF蛋白是人LINE1 ORF2蛋白。在一些实施方案中，ORF蛋白是非人ORF蛋白。在一些实施方案中，ORF蛋白是嵌合蛋白、重组蛋白或工程化蛋白。

本文提供了一种将核酸序列整合到免疫细胞的基因组中的方法，所述方法包括引入重组mRNA或编码mRNA的载体，其中所述mRNA包含：(a)插入序列，其中所述插入序列包含(i)外源性序列或(ii)作为外源性序列的反向补体的序列；(b)5’UTR序列和5’UTR序列下游的3’UTR序列，其中5’UTR序列或3’UTR序列包含核酸内切酶结合位点和逆转录酶结合位点，并且其中所述转基因序列被整合到免疫细胞的基因组中。

在一些实施方案中，介导RNA整合或转座的结构元件可以在合成构建体中进行编码，并依赖于所述结构元件将异源性目标基因递送到细胞。在一些实施方案中，合成构建体可以包含编码异源性目标基因的核酸和使异源性目标基因整合或逆转录转座到基因组中的结构元件。在一些实施方案中，引起整合或逆转录转座的结构元件可包括5’L1 RNA区和3’-L1区，后者包含用于引发的多聚A 3’区。在一些实施方案中，5’L1 RNA区可以包含一个或多个茎环区。在一些实施方案中，L1-3’区可以包含一个或多个茎环区。在一些实施方案中，5’L1和3’L1区被构建成侧接编码异源性目标基因(转基因)的核酸序列。在一些实施方案中，结构元件可以包括来自L1或Alu RNA的区域，所述区域包含发夹环结构，包括作为核糖体结合位点的A-框和B-框元件。在一些实施方案中，所述合成核酸可以包含L1-Ta启动子。

ORF2p对LINE RNA的识别可以有两种类型-严格型和松弛型。在严格型中，RT识别它自己的3’UTR尾，而在松弛型中，RT除了多聚A尾之外不需要任何特异性识别。严格型和宽松型的划分来自观察到一些LINE/SINE对享有相同的3’-端。对于严格型，实验研究表明3’UTR茎环促进逆转录转座。LINE逆转录转座序列的5’-UTR已显示包含三个保守的茎环区。

在一些实施方案中，目标转基因或转录物在5’和3’端可以侧接有来自L1或Alu序列的转座元件。在一些实施方案中，逆转录转座子的5’区包含Alu序列。在一些实施方案中，逆转录转座子的3’区包含Alu序列。在一些实施方案中，逆转录转座子的5’区包含L1序列。在一些实施方案中，逆转录转座子的3’区包含L1序列。在一些实施方案中，目标转基因或转录物侧接有SVA转座子序列。

在一些实施方案中，目标转录物可以包含L1或Alu序列，编码ORF2p的结合区和3’-多聚A引发区。在一些实施方案中，编码目标转基因的异源性核酸可侧接有L1或Alu序列，编码ORF1p的结合区和3’-多聚A引发区。3’-区可以包含一个或多个茎环结构。在一些实施方案中，目标转录物被构造用于顺式整合或逆转录转座。在一些实施方案中，目标转录物被构造用于反式整合或逆转录转座。

在一些实施方案中，逆转录转座子是人逆转录转座子。人逆转录转座子序列可以包括编码核酸内切酶和/或逆转录酶的序列。人逆转录转座子序列可以编码两种蛋白质，这些蛋白质是从含有两个非重叠ORF的单个RNA翻译而来。在一些实施方案中，这两个ORF是ORF1和ORF2。

因此，本文提供了一种用于将编码转基因的异源性核酸稳定整合到细胞诸如骨髓细胞的基因组中的方法，所述方法包括将编码以下各项的核酸引入细胞中：转基因；在编码转基因的区域侧翼的一个或多个5’核酸序列，包含逆转录转座子的5’区；和在编码转基因的区域侧翼的一个或多个3’核酸序列，包含逆转录转座子的3’区，其中所述逆转录转座子的3’区包含基因组DNA引发序列和LINE转座酶结合序列，它们具有相应的核酸内切酶和逆转录酶(RT)活性。

本文提供了一种将核酸序列整合到细胞的基因组中的方法，所述方法包括引入重组mRNA或编码mRNA的载体，其中所述mRNA包含插入序列，其中所述插入序列包含(i)外源性序列或(ii)作为外源性序列的反向补体的序列；(b)5’UTR序列、5’UTR序列下游的人逆转录转座子序列和人逆转录转座子序列下游的3’UTR序列；其中5’UTR序列或3’UTR序列包含核酸内切酶结合位点和逆转录酶结合位点，并且其中人逆转录转座子序列编码从含有两个ORF的单个RNA翻译的两种蛋白质，并且其中所述插入序列被整合到细胞的基因组中。

在一些实施方案中，所述方法包括使用单个核酸分子将插入序列递送和整合到细胞的基因组中。单个核酸分子可以是质粒载体。单个核酸可以是DNA或RNA分子。单个核酸可以是mRNA。

在一些实施方案中，所述方法包括将包含人逆转录转座子和异源性核酸序列的一个或多个多核苷酸引入到细胞中。在一些实施方案中，所述一个或多个多核苷酸包含(i)编码ORF1p的第一核酸分子；(ii)编码ORF2p的第二核酸分子和编码货物的序列。在一些实施方案中，第一核酸和第二核酸是mRNA。在一些实施方案中，第一核酸和第二核酸是DNA，例如，在不同的质粒载体中编码。

本文提供了一种自整合型多核苷酸，其包含被插入细胞基因组中的序列，并且插入物通过自整合型裸多核苷酸而被稳定地整合到基因组中。在一些实施方案中，多核苷酸是RNA。在一些实施方案中，多核苷酸是mRNA。在一些实施方案中，多核苷酸是具有修饰的mRNA。在一些实施方案中，所述修饰确保防御胞内环境中的RNase。在一些实施方案中，所述修饰包括取代的修饰核苷酸，例如5-甲基胞苷、假尿苷或2-硫代尿苷。

在一些实施方案中，单个多核苷酸用于对插入(或货物)核酸的递送和基因组整合。在一些实施方案中，单个多核苷酸是双顺反子。在一些实施方案中，单个多核苷酸是三顺反子。在一些实施方案中，单个多核苷酸是多顺反子。在一些实施方案中，两个或更多个多核苷酸分子用于对插入(或货物)核酸的递送和基因组整合。

在一些实施方案中，可以生成逆转录转座遗传元件，所述逆转录转座遗传元件包含(i)编码待插入细胞基因组中的转基因或非编码序列的异源性核酸(插入物)；(ii)编码一种或多种逆转录转座子ORF编码序列的核酸序列；(iii)ORF编码序列的一个或多个UTR区，以便编码待插入的转基因或非编码序列的异源性核酸被包含在UTR序列内；其中所述逆转录转座子ORF编码序列的3’区包含基因组DNA引发序列。

在一些实施方案中，可以将逆转录转座遗传元件引入到细胞中，以将转基因稳定地整合到基因组DNA中。在一些实施方案中，逆转录转座遗传元件包含(a)逆转录转座子蛋白编码序列和3’UTR；和(b)包含异源性核酸的序列，所述异源性核酸要被插入(例如，整合)到细胞基因组内。逆转录转座子蛋白编码序列和3’UTR可以是用于将异源性核酸序列递送在细胞基因组内的完整且足够的单元，并且包含逆转录转座元件，诸如核酸内切酶、逆转录酶、3’UTR中的序列，用于结合并引发被核酸内切酶切割的区域处的基因组DNA，以起始对异源性核酸的逆转录和掺入。

在一些实施方案中，插入物的编码序列相对于一个或多个ORF的编码序列是正向取向的。在一些实施方案中，插入物的编码序列相对于一个或多个ORF的编码序列是反向取向的。插入物的编码序列和一个或多个ORF的编码序列可以包含不同的调控元件，包括5’UTR、3’UTR、启动子、增强子等。在一些实施方案中，插入物的3’UTR或5’-UTR可以包含一个或多个ORF的编码序列，并且同样地，插入物的编码序列可以位于一个或多个ORF的编码序列的3’UTR内。

在一些实施方案中，可以生成逆转录转座遗传元件，所述逆转录转座遗传元件包含：(a)插入序列，其包含(i)外源性序列，作为外源性序列的反向补体的序列；5’UTR序列和5’UTR序列下游的3’UTR序列；其中5’UTR序列或3’UTR序列包含人ORF蛋白的结合位点。

在一些实施方案中，逆转录转座子可以包含SINE或LINE元件。在一些实施方案中，逆转录转座子包含SINE或LINE茎环结构，诸如Alu元件。

在一些实施方案中，逆转录转座子是LINE-1(L1)逆转录转座子。在一些实施方案中，逆转录转座子是人LINE-1。人LINE-1序列在人基因组中是丰富的。人L1总数约为13,224种，其中480种有活性，约占3.6％。因此，人L1蛋白在人中具有良好的耐受性和非免疫原性。此外，人中对随机转座的严格调控确保了随机转座酶活性不会因如本文所述的L1系统的引入而被触发。此外，本文设计的逆转录转座构建体可以包括对插入序列的靶向和特异性掺入。在一些实施方案中，逆转录转座遗传元件可以包括旨在克服人细胞中活性地普遍存在的沉默机制的设计，同时注意不会引发导致基因组不稳定的随机整合。

因此，逆转录转座构建体可以包含编码人LINE-1ORF1蛋白和人LINE-1ORF2蛋白的序列。在一些实施方案中，所述构建体包含编码与以下序列具有至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％序列同一性的ORF1p蛋白的核酸序列：MGKKQNRKTGNSKTQSASPPPKERSSSPATEQSWMENDFDELREEGFRRSNYSELREDIQTKGKEVENFEKNLEECITRITNTEKCLKELMELKTKARELREECRSLRSRCDQLEERVSAMEDEMNEMKREGKFREKRIKRNEQSLQEIWDYVKRPNLRLIGVPESDVENGTKLENTLQDIIQENFPNLARQANVQIQEIQRTPQRYSSRRATPRHIIVRFTKVEMKEKMLRAAREKGRVTLKGKPIRLTVDLSAETLQARREWGPIFNILKEKNFQPRISYPAKLSFISEGEIKYFIDKQMLRDFVTTRPALKELLKEALNMERNNRYQPLQNHAKM。在一些实施方案中，所述构建体包含与以下序列具有至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％序列同一性的核酸序列：atgggcaagaagcaaaatcgcaagacggggaattccaagacacaatccgctagcccaccacctaaagagcgttctagctcccctgctactgagcagtcctggatggaaaacgacttcgatgaactccgggaagagggatttaggcgatccaactattcagaactccgcgaagatatccagacaaaggggaaggaagtcgagaatttcgagaagaacctcgaggagtgcatcacccgtatcacaaacactgagaaatgtctcaaagaactcatggaacttaagacaaaagccagggagcttcgagaggagtgtcggagtctgagatccaggtgtgaccagctcgaggagcgcgtgagcgcgatggaagacgagatgaacgagatgaaaagagagggcaaattcagggagaagcgcattaagaggaacgaacagagtctgcaggagatttgggattacgtcaagaggcctaacctgcggttgatcggcgtccccgagagcgacgtagaaaacgggactaaactggagaatacacttcaagacatcattcaagaaaattttccaaacctggctcggcaagctaatgtgcaaatccaagagatccaacgcacaccccagcggtatagctctcggcgtgccacccctaggcatattatcgtgcgctttactaaggtggagatgaaagagaagatgctgcgagccgctcgggaaaagggaagggtgactttgaagggcaaacctattcggctgacggttgaccttagcgccgagacactccaggcacgccgggaatggggccccatctttaatatcctgaaggagaagaacttccagccacgaatctcttaccctgcaaagttgagttttatctccgagggtgagattaagtatttcatcgataaacagatgctgcgagacttcgtgacaactcgcccagctctcaaggaactgctcaaagaggctcttaatatggagcgcaataatagatatcaacccttgcagaaccacgcaaagatgtga。

在一些实施方案中，所述构建体包含编码与以下序列具有至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％序列同一性的ORF2p蛋白的核酸序列：MTGSNSHITILTLNINGLNSAIKRHRLASWIKSQDPSVCCIQETHLTCRDTHRLKIKGWRKIYQANGKQKKAGVAILVSDKTDFKPTKIKRDKEGHYIMVKGSIQQEELTILNIYAPNTGAPRFIKQVLSDLQRDLDSHTLIMGDFNTPLSTLDRSTRQKVNKDTQELNSALHQADLIDIYRTLHPKSTEYTFFSAPHHTYSKIDHIVGSKALLSKCKRTEIITNYLSDHSAIKLELRIKNLTQSRSTTWKLNNLLLNDYWVHNEMKAEIKMFFETNENKDTTYQNLWDAFKAVCRGKFIALNAYKRKQERSKIDTLTSQLKELEKQEQTHSKASRRQEITKIRAELKEIETQKTLQKINESRSWFFERINKIDRPLARLIKKKREKNQIDTIKNDKGDITTDPTEIQTTIREYYKHLYANKLENLEEMDTFLDTYTLPRLNQEEVESLNRPITGSEIVAIINSLPTKKSPGPDGFTAEFYQRYMEELVPFLLKLFQSIEKEGILPNSFYEASIILIPKPGRDTTKKENFRPISLMNIDAKILNKILANRIQQHIKKLIHHDQVGFIPGMQGWFNIRKSINVIQHINRAKDKNHMIISIDAEKAFDKIQQPFMLKTLNKLGIDGTYFKIIRAIYDKPTANIILNGQKLEAFPLKTGTRQGCPLSPLLFNIVLEVLARAIRQEKEIKGIQLGKEEVKLSLFADDMIVYLENPIVSAQNLLKLISNFSKVSGYKINVQKSQAFLYTNNRQTESQIMGELPFVIASKRIKYLGIQLTRDVKDLFKENYKPLLKEIKEDTNKWKNIPCSWVGRINIVKMAILPKVIYRFNAIPIKLPMTFFTELEKTTLKFIWNQKRARIAKSILSQKNKAGGITLPDFKLYYKATVTKTAWYWYQNRDIDQWNRTEPSEIMPHIYNYLIFDKPEKNKQWGKDSLFNKWCWENWLAICRKLKLDPFLTPYTKINSRWIKDLNVKPKTIKTLEENLGITIQDIGVGKDFMSKTPKAMATKDKIDKWDLIKLKSFCTAKETTIRVNRQPTTWEKIFATYSSDKGLISRIYNELKQIYKKKTNNPIKKWAKDMNRHFSKEDIYAAKKHMKKCSSSLAIREMQIKTTMRYHLTPVRMAIIKKSGNNRCWRGCGEIGTLLHCWWDCKLVQPLWKSVWRFLRDLELEIPFDPAIPLLGIYPNEYKSCCYKDTCTRMFIAALFTIAKTWNQPKCPTMIDWIKKMWHIYTMEYYAAIKNDEFISFVGTWMKLETIILSKLSQEQKTKHRIFSLIGGN。在一些实施方案中，所述构建体包含与以下序列具有至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％序列同一性的核酸序列：atgaccggctctaactcacatatcaccatccttacacttaacattaacggcctcaactcagctatcaagcgccatcggctggccagctggatcaaatcacaggatccaagcgtttgttgcatccaagagacccacctgacctgtagagatactcaccgcctcaagatcaagggatggcgaaagatttatcaggcgaacggtaagcagaagaaagccggagtcgcaattctggtctcagacaagacggatttcaagcccaccaaaattaagcgtgataaggaaggtcactatattatggtgaaaggcagcatacagcaggaagaacttaccatattgaacatctacgcgccaaacaccggcgcacctcgctttatcaaacaggtcctgtccgatctgcagcgagatctggattctcatacgttgattatgggtgatttcaatacaccattgagcaccctggatcgcagcaccaggcaaaaggtaaataaagacacgcaagagctcaatagcgcactgcatcaggcagatctcattgatatttatcgcactcttcatcctaagagtaccgagtacacattcttcagcgccccacatcatacatactcaaagatcgatcatatcgtcggctc

aaaggctctgctgtcaaagtgcaagcgcacagagataattacaaattacctgtcagatcatagcgcgatc

aagctcgagctgagaatcaagaacctgacccagagccggagtaccacttggaagcttaataacctgctg

ctcaacgattattgggtccacaatgagatgaaggcagagattaaaatgttcttcgaaacaaatgagaataa

ggatactacctatcaaaacctttgggatgcctttaaggccgtctgcagaggcaagttcatcgccctcaac

gcctataaaagaaaacaagagagatctaagatcgatactctcacctctcagctgaaggagttggagaaa

caggaacagacccactccaaggcgtcaagacggcaggagatcacaaagattcgcgccgagttgaaag

agatcgaaacccaaaagactcttcagaaaattaacgagtctcgtagttggttcttcgagcggattaataag

atagacagacctctggcacgactgattaagaagaagcgcgaaaagaaccagattgataccatcaagaa

cgacaagggcgacatcactactgacccgaccgagatccagaccactattcgggagtattataagcattt

gtatgctaacaagcttgagaacctggaagagatggacacttttctggatacctatactctgccacggctta

atcaagaggaagtcgagtccctcaaccgcccaattacaggaagcgagattgtggccataattaactccct

gccgacaaagaaatctcctggtccggacgggtttacagctgagttttatcaacggtatatggaagagctt

gtaccgtttctgctcaagctctttcagtctatagaaaaggaaggcatcttgcccaattccttctacgaagctt

ctataatacttattcccaaaccaggacgcgataccacaaagaaggaaaacttccggcccattagtctcat

gaatatcgacgctaaaatattgaacaagattctcgccaacagaatccaacaacatattaagaaattgatac

atcacgaccaggtggggtttatacctggcatgcagggctggtttaacatccggaagagtattaacgtcatt

caacacattaatagagctaaggataagaatcatatgatcatctctatagacgcggaaaaggcattcgata

agattcagcagccatttatgctcaagactctgaacaaactcggcatcgacggaacatattttaagattattc

gcgcaatttacgataagccgactgctaacattatccttaacggccaaaagctcgaggcctttccgctcaa

gactggaacccgccaaggctgtcccctctccccgcttttgtttaatattgtactcgaggtgctggctaggg

ctattcgtcaagagaaagagattaaagggatacagctcgggaaggaagaggtcaagctttccttgttcgc

cgatgatatgattgtgtacctggagaatcctattgtgtctgctcagaaccttcttaaacttatttctaactttag

caaggtcagcggctataagattaacgtccagaaatctcaggcctttctgtacacaaataatcgacagacc

gaatcccagataatgggtgagcttccgtttgtcatagccagcaaaaggataaagtatctcggaatccagc

tgacacgagacgttaaagatttgtttaaggaaaattacaagcctctcctgaaagagattaaggaagatact

aataagtggaagaatatcccctgttcatgggttggcagaatcaacatagtgaagatggcaatacttcctaa

agtgatatatcgctttaacgccatcccaattaaactgcctatgaccttctttacggagctcgagaaaacaac

ccttaaatttatatggaatcaaaagagagcaagaatagcgaagtccatcttgagccagaagaataaggcc

ggtgggattactttgcctgattttaagttgtattataaagccacagtaactaagacagcctggtattggtatc

agaatagagacatcgaccagtggaatcggaccgaaccatcagagataatgccccacatctataattacc

ttatattcgataagccagaaaagaataaacagtggggcaaagacagcctcttcaacaagtggtgttggga

gaattggctggccatatgccggaaactcaagctcgacccctttcttacaccctacactaaaatcaacagta

ggtggatcaaggacttgaatgtcaagccaaagactataaagacactggaagagaatcttgggatcacaa

tacaagatataggcgtcggcaaagattttatgtcaaagacgcccaaggccatggccactaaggataaga

ttgataagtgggaccttattaagctcaaaagcttctgtactgccaaggagaccacgatcagagttaatagg

cagcccactacatgggaaaagattttcgccacttattcatcagataaggggttgataagcagaatatataa

cgagctgaagcagatctacaagaagaaaacgaataatcccatcaagaagtgggcaaaagatatgaaca

ggcattttagcaaagaggatatctacgccgcgaagaagcatatgaagaagtgtagttcaagcttggccat

tcgtgagatgcagattaagacgaccatgcgataccaccttaccccagtgaggatggcaattatcaagaa

atctggcaataatagatgttggcggggctgtggcgagattggcaccctgctccattgctggtgggattgc

aagctggtgcagccgctttggaaatcagtctggcgctttctgagggacctcgagcttgagattcccttcga

tcccgcaattcccttgctcggaatctatcctaacgaatacaagagctgttgttacaaggatacgtgtaccc

ggatgttcatcgcggccttgtttacgatagctaagacgtggaatcagcctaagtgccccacaatgatcgat

tggatcaagaaaatgtggcatatttataccatggagtattacgcagcaattaagaatgacgaatttatttcct

tcgttgggacctggatgaagctggagactattattctgagcaagctgtctcaggagcaaaagacaaagcatagaatcttctctctcattggtggtaactaa。

在一些实施方案中，所述构建体包含编码与以下序列具有至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％序列同一性的ORF2p蛋白的核酸序列：MVIGTYISIITLNVNGLNAPTKRHRLAEWIQKQDPYICCLQETHFRPRDTYRLKVRGWKKIFHANGNQKKAGVAILISDKIDFKIKNVTRDKEGHYIMIQGSIQEEDITIINIYAPNIGAPQYIRQLLTAIKEEIDSNTIIVGDFNTSLTPMDRSSKMKINKETEALNDTIDQIDLIDIYRTFHPKTADYTFFSSAHGTFSRIDHILGHKSSLSKFKKIEIISSIFSDHNAMRLEMNHREKNVKKTNTWRLNNTLLNNQEITEEIKQEIKKYLETNDNENTTTQNLWDAAKAVLRGKFIAIQAYLKKQEKSQVNNLTLHLKKLEKEEQTKPKVSRRKEIIKIRAEINEIETKKTIAKINKTKSWFFEKINKIDKPLARLIKKKRERTQINKIRNEKGEVTTDTAEIQNILRDYYKQLYANKMDNLEEMDKFLERYNLPRLNQEETENINRPITSNEIETVIKNLPTNKSPGPDGFTGEFYQTFREELTPILLKLFQKIAEEGTLPNSFYEATITLIPKPDKDTTKKENYRPISLMNIDAKILNKILANRIQQHIKRIIHHDQVGFIPGMQGFFNIRKSINVIHHINKLKKKNHMIISIDAEKAFDKIQHPFMIKTLQKVGIEGTYLNIIKAIYDKPTANIILNGEKLKAFPLRSGTRQGCPLSPLLFNIVLEVLATAIREEKEIKGIQIGKEEVKLSLFADDMILYIENPKTATRKLLELINEYGKVAGYKINAQKSLAFLYTNDEKSEREIMETLPFTIATKRIKYLGINLPKETKDLYAENYKTLMKEIKDDTNRWRDIPCSWIGRINIVKMSILPKAIYRFNAIPIKLPMAFFTELEQIILKFVWRHKRPRIAKAVLRQKNGAGGIRLPDFRLYYKATVIKTIWYWHKNRNIDQWNKIESPEINPRTYGQLIYDKGGKDIQWRKDSLFNKWCWENWTATCKRMKLEYSLTPYTKINSKWIRDLNIRLDTIKLLEENIGRTLFDINHSKIFFDPPPRVMEIKTKINKWDLMKLQSFCTAKETINKTKRQPSEWEKIFANESTDKGLISKIYKQLIQLNIKETNTPIQKWAEDLNRHFSKEDIQTATKHMKRCSTSLIIREMQIKTTMRYHLTPVRMGIIRKSTNNKCWRGCGEKGTLLHCWWECKLIQPLWRTIWRFLKKLKIELPYDPAIPLLGIYPEKTVIQKDTCTRMFIAALFTIARSWKQPKCPSTDEWIKKMWYIYTMEYYSAIKRNEIGSFLETWMDLETVIQSEVSQKEKNKYRILTHICGTWKNGTDEPVCRTEIETQM。在一些实施方案中，所述构建体包含与以下序列具有至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％序列同一性的核酸序列：atggtcataggaacatacatatcgataattaccttaaacgtgaatggattaaatgccccaaccaaaagacatagactggctgaatggatacaaaaacaagacccatatatatgctgtctacaagagacccacttcagacctagggacacatacagactgaaagtgaggggatggaaaaagatattccatgcaaatggaaatcaaaagaa

agctggagtagctatactcatatcagataaaatagactttaaaataaagaatgttacaagagacaaggaa

ggacactacataatgatccagggatcaatccaagaagaagatataacaattataaatatatatgcaccca

acataggagcacctcaatacataaggcaactgctaacagctataaaagaggaaatcgacagtaacaca

ataatagtgggggactttaacacctcacttacaccaatggacagatcatccaaaatgaaaataaataagg

aaacagaagctttaaatgacacaatagaccagatagatttaattgatatatataggacattccatccaaaaa

cagcagattacacgttcttctcaagtgcgcacggaacattctccaggatagatcacatcttgggtcacaaa

tcaagcctcagtaaatttaagaaaattgaaatcatatcaagcatcttttctgaccacaacgctatgagattag

aaatgaatcacagggaaaaaaacgtaaaaaagacaaacacatggaggctaaacaatacgttactaaata

accaagagatcactgaagaaatcaaacaggaaataaaaaaatacctagagacaaatgacaatgaaaac

acgacgacccaaaacctatgggatgcagcaaaagcggttctaagagggaagtttatagctatacaagcc

tacctaaagaaacaagaaaaatctcaagtaaacaatctaaccttacacctaaagaaactagagaaagaa

gaacaaacaaaacccaaagttagcagaaggaaagaaatcataaagatcagagcagaaataaatgaaat

agaaacaaagaaaacaatagcaaagatcaataaaactaaaagttggttctttgagaagataaacaaaatt

gataagccattagccagactcatcaagaaaaagagggagaggactcaaatcaataaaatcagaaatga

aaaaggagaagttacaacagacaccgcagaaatacaaaacatcctaagagactactacaagcaacttta

tgccaataaaatggacaacctggaagaaatggacaaattcttagaaaggtataaccttccaagactgaac

caggaagaaacagaaaatatcaacagaccaatcacaagtaatgaaattgaaactgtgattaaaaatcttc

caacaaacaaaagtccaggaccagatggcttcacaggtgaattctatcaaacatttagagaagagctaa

cacccatccttctcaaactcttccaaaaaattgcagaagaaggaacactcccaaactcattctatgaggcc

accatcaccctgataccaaaaccagacaaagacactacaaaaaaagaaaattacagaccaatatcactg

atgaatatagatgcaaaaatcctcaacaaaatactagcaaacagaatccaacaacacattaaaaggatca

tacaccacgatcaagtgggatttatcccagggatgcaaggattcttcaatatacgcaaatcaatcaatgtg

atacaccatattaacaaattgaagaagaaaaaccatatgatcatctcaatagatgcagaaaaagcttttga

caaaattcaacacccatttatgataaaaactctccagaaagtgggcatagagggaacctacctcaacata

ataaaggccatatatgacaaacccacagcaaacatcattctcaatggtgaaaaactgaaagcatttcctct

aagatcaggaacgagacaaggatgtccactctcaccactattattcaacatagttctggaagtcctagcc

acggcaatcagagaagaaaaagaaataaaaggaatacaaattggaaaagaagaagtaaaactgtcact

gtttgcggatgacatgatactatacatagagaatcctaaaactgccaccagaaaactgctagagctaatta

atgaatatggtaaagttgcaggttacaaaattaatgcacagaaatctcttgcattcctatacactaatgatga

aaaatctgaaagagaaattatggaaacactcccatttaccattgcaacaaaaagaataaaatacctagga

ataaacctacctaaggagacaaaagacctgtatgcagaaaactataagacactgatgaaagaaattaaa

gatgataccaacagatggagagatataccatgttcttggattggaagaatcaacattgtgaaaatgagtat

actacccaaagcaatctacagattcaatgcaatccctatcaaattaccaatggcattttttacggagctaga

acaaatcatcttaaaatttgtatggagacacaaaagaccccgaatagccaaagcagtcttgaggcaaaaa

aatggagctggaggaatcagactccctgacttcagactatactacaaagctacagtaatcaagacaatat

ggtactggcacaaaaacagaaacatagatcaatggaacaagatagaaagcccagagattaacccacgc

acctatggtcaactaatctatgacaaaggaggcaaagatatacaatggagaaaagacagtctcttcaata

agtggtgctgggaaaactggacagccacatgtaaaagaatgaaattagaatactccctaacaccataca

caaaaataaactcaaaatggattagagacctaaatataagactggacactataaaactcttagaggaaaa

cataggaagaacactctttgacataaatcacagcaagatctttttcgatccacctcctagagtaatggaaat

aaaaacaaaaataaacaagtgggacctaatgaaacttcaaagcttttgcacagcaaaggaaaccataaa

caagacgaaaagacaaccctcagaatgggagaaaatatttgcaaatgaatcaacggacaaaggattaat

ctccaaaatatataaacagctcattcagctcaatatcaaagaaacaaacaccccaatccaaaaatgggca

gaagacctaaatagacatttctccaaagaagacatacagacggccacgaagcacatgaaaagatgctc

aacatcactaattattagagaaatgcaaatcaaaactacaatgaggtatcacctcactcctgttagaatgg

gcatcatcagaaaatctacaaacaacaaatgctggagagggtgtggagaaaagggaaccctcttgcact

gttggtgggaatgtaaattgatacagccactatggagaacaatatggaggttccttaaaaaactaaaaata

gaattaccatatgacccagcaatcccactactgggcatatacccagagaaaaccgtaattcaaaaagac

acatgcacccgaatgttcattgcagcactatttacaatagccaggtcatggaagcaacctaaatgcccatc

gacagacgaatggataaagaagatgtggtacatatatacaatggaatattactcagccataaaaaggaac

gaaattgggtcatttttagagacgtggatggatctagagactgtcatacagagtgaagtaagtcagaaag

agaaaaacaaatatcgtatattaacgcatatatgtggaacctggaaaaatggtacagatgaaccggtctgcaggacagaaattgagacacaaatgtaa。

在一些实施方案中，所述构建体包含编码与PAAKRVKLD具有至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％序列同一性的核定位序列的核酸序列。在一些实施方案中，核定位序列与ORF2p序列融合。在一些实施方案中，所述构建体包含编码具有序列DYKDDDDK的flag标签的核酸序列。在一些实施方案中，flag标签与ORF2p序列融合。在一些实施方案中，flag标签与核定位序列融合。

在一些实施方案中，所述构建体包含编码与以下序列具有至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％或100％序列同一性的MS2外壳蛋白的核酸序列：ASNFTQFVLVDNGGTGDVTVAPSNFANGIAEWISSNSRSQAYKVTCSVRQSSAQNRKYTIKVEVPKGAWRSYLNMELTIPIFATNSDCELIVKAMQGLLKDGNPIPSAIAANSGIYAMASNFTQFVLVDNGGTGDVTVAPSNFANGIAEWISSNSRSQAYKVTCSVRQSSAQNRKYTIKVEVPKGAWRSYLNMELTIPIFATNSDCELIVKAMQGLLKDGNPIPSAIAANSGIY。在一些实施方案中，MS2外壳蛋白序列与ORF2p序列融合。

在一些实施方案中，转基因可以包含侧翼序列，所述侧翼序列包含Alu ORF2p识别序列。

在一些实施方案中，可以将额外的元件引入到mRNA中。在一些实施方案中，额外的元件可以是IRES元件或T2A元件。在一些实施方案中，mRNA转录物在3’端包含一个、两个、三个或更多个终止密码子。

在一些实施方案中，一个、两个、三个或更多个终止密码子被设计成串联的。在一些实施方案中，一个、两个、三个或更多个终止密码子被设计成在所有三个阅读框中。在一些实施方案中，一个、两个、三个或更多个终止密码子可以被设计成在多个阅读框中并呈串联。

在一些实施方案中，可以在L1或Alu RNA引发区的引发端添加一个或多个靶标特异性核苷酸。

在一些实施方案中，5’UTR序列或3’UTR序列除了能够结合ORF蛋白之外，还可以能够结合一种或多种内源性蛋白，所述内源性蛋白调控基因逆转录转座和/或稳定整合。在一些实施方案中，侧翼序列能够与PABP蛋白结合。

在一些实施方案中，侧接转录物的5’区可以包含强启动子。在一些实施方案中，启动子是CMV启动子。

在一些实施方案中，将编码L1 ORF2p的额外核酸引入到细胞中。在一些实施方案中，省略编码L1 ORF1的序列，并且仅包括L1-ORF2。在一些实施方案中，编码具有侧翼元件的转基因的核酸是mRNA。在一些实施方案中，内源性L1-ORF1p功能可被遏制或抑制。

在一些实施方案中，编码具有逆转录转座侧翼元件的转基因的核酸包含一个或多个核酸修饰。在一些实施方案中，编码具有逆转录转座侧翼元件的转基因的核酸在转基因中包含一个或多个核酸修饰。在一些实施方案中，修饰包括对转基因序列的密码子优化。在一些实施方案中，密码子优化是为了更有效地被人翻译机制识别，从而在人细胞中更有效地表达。在一些实施方案中，在包括一个或多个茎环区的5’-侧翼序列或3’-侧翼序列中进行一种或多种核酸修饰。编码具有逆转录转座侧翼元件的转基因的核酸包含一种、两种、三种、四种、五种、六种、七种、八种、九种、十种或更多种核酸修饰。

在一些实施方案中，逆转录转座的转基因在细胞的生命周期内被稳定表达。在一些实施方案中，细胞是骨髓细胞。在一些实施方案中，骨髓细胞是单核细胞前体细胞。在一些实施方案中，骨髓细胞是不成熟的单核细胞。在一些实施方案中，单核细胞是未分化的单核细胞。在一些实施方案中，骨髓细胞是CD14+细胞。在一些实施方案中，骨髓细胞不表达CD16标志物。在一些实施方案中，骨髓细胞能够在合适的条件下保持功能活性持续大于3天、大于4天、大于5天、大于6天、大于7天、大于8天、大于9天、大于10天、大于11天、大于12天、大于13天、大于14天或更多天的所需时段。合适的条件可以表示体外条件或体内条件或这两者的组合。

在一些实施方案中，逆转录转座的转基因可以在细胞中在约2天、约3天、约4天、约5天、约6天、约7天、约8天、约9天或约10天期间进行稳定表达。在一些实施方案中，逆转录转座的转基因在细胞中在大于10天期间进行稳定表达。在一些实施方案中，逆转录转座的转基因在细胞中在大于2周期间进行稳定表达。在一些实施方案中，逆转录转座的转基因在细胞中在约1个月期间进行稳定表达。

在一些实施方案中，可以对逆转录转座的转基因进行修饰以便稳定表达。在一些实施方案中，可以对逆转录转座的转基因进行修饰以便抵抗在体内沉默。

在一些实施方案中，逆转录转座的转基因的表达可以受到强启动子的控制。在一些实施方案中，逆转录转座的转基因的表达可以受到中等强度的启动子的控制。在一些实施方案中，逆转录转座的转基因的表达可以受到强启动子的控制，所述强启动子可以在体内环境中被调控。在一些实施方案中，启动子是CMV启动子。在一些实施方案中，启动子是L1-Ta启动子。

在一些实施方案中，ORF1p可能被过度表达。在一些实施方案中，ORF2可能被过度表达。在一些实施方案中，ORF1p或ORF2p或这两者被过度表达。在一些实施方案中，在ORF1过度表达时，ORF1p与细胞未过度表达ORF1时相比高至少1.1倍、1.5倍、2倍、3倍、4倍、5倍、6倍、7倍、8倍、9倍、10倍、12倍、14倍、16倍、18倍、20倍、30倍、40倍、50倍、60倍、70倍、80倍、90倍或至少100倍。

在一些实施方案中，在ORF2序列过度表达时，ORF2p与细胞未过度表达ORF2p时相比高至少1.1倍、1.5倍、2倍、3倍、4倍、5倍、6倍、7倍、8倍、9倍、10倍、12倍、14倍、16倍、18倍、20倍、30倍、40倍、50倍、60倍、70倍、80倍、90倍或至少100倍。

逆转录转座保真度和靶标特异性

LINE-1元件可以与它们自身的mRNA多聚A尾结合以起始逆转录转座。相对于随机mRNA，LINE-1元件优选地将它们自身的mRNA逆转录转座(Dewannieux等人，2013，与随机mRNA相比，LINE-1逆转录转座高3,000倍)。此外，LINE-1元件还可以在基因组内整合非特异性多聚A序列。

在一方面，本文提供了具有提高的逆转录转座特异性的逆转录转座组合物及其使用方法。例如，具有高特异性的逆转录转座组合物可用于高度特异性和有效的逆转录，并随后整合到靶细胞例如骨髓细胞的基因组中。在一些实施方案中，本文提供的逆转录转座组合物包含逆转录转座盒，其包含提高整合或逆转录转座特异性的一种或多种额外组分。例如，逆转录转座子盒可以编码一种或多种额外的元件，这些元件允许高亲和力RNA-蛋白质相互作用以竞争超过多聚A序列与ORF2之间的非特异性结合。

因此，本文公开了几种用于提高整合或逆转录转座效率的措施。

提高整合或逆转录转座效率的一种示例性措施是对细胞的外部操纵。递送在细胞中的逆转录转座机制的核酸内切酶功能可能受到细胞转座沉默机制(诸如DNA修复途径)的抑制。例如，小分子可用于在引入核酸之前调节或抑制细胞中的DNA修复途径。例如，细胞分选和/或同步化可以在引入核酸之前使用，诸如通过电穿孔进行，因为细胞周期同步化的细胞群体已显示出增加基因向细胞的转移。细胞分选可用于使细胞类型同步化或均质化并增加外源性核酸的均匀转移和表达。可以实现从非干细胞中分选干细胞的均匀性。提高整合或逆转录转座效率的另一个示例性措施是提高生化活性。例如，这可以通过增强逆转录酶进行性或DNA裂解(核酸内切酶)活性来实现。提高整合或逆转录转座效率的另一个示例性措施是破坏内源性沉默机制。例如，这可以通过用不同生物体的LINE-1替换整个LINE-1序列来实现。增强整合或逆转录转座效率的另一个示例性措施是增强翻译和核糖体结合。例如，这可以通过增加LINE-1蛋白的表达、增加LINE蛋白结合LINE-1mRNA或增加LINE-1复合物与核糖体的结合来实现。提高整合或逆转录转座效率的另一个示例性措施是增加核输入或保留。例如，这可以通过将LINE-1序列与核保留信号序列融合来实现。提高整合或逆转录转座效率的另一个示例性措施是增强序列特异性插入。例如，这可以通过将靶向结构域与ORF2融合以增加序列特异性逆转录转座来实现。

在一个实施方案中，所述方法包括通过修饰LINE-1ORF的UTR序列来增强逆转录转座子以提高货物表达的特异性和稳健性。在一些实施方案中，ORF1或ORF2编码序列上游的5’UTR可以进一步被修饰以包含与基因组内的靶区域序列互补的序列，所述序列有助于在ORF核酸酶可发挥作用且逆转录转座可以发生的特定位点处的同源重组。在一些实施方案中，可以通过同源性与靶序列结合的序列的长度在2-15个核苷酸之间。在一些实施方案中，与包含在ORF1 mRNA的5’UTR中的基因组靶标具有同源性的序列可以是约3个核苷酸、约4个核苷酸、约5个核苷酸、约6个核苷酸、约7个核苷酸、约8个核苷酸、约9个核苷酸或约10个核苷酸长。在一些实施方案中，与基因组靶标具有同源性的序列的长度为约12或约15个核苷酸。在一些实施方案中，与基因组靶标具有同源性的序列的长度为至少约10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、105、110、115、1120或125个核苷酸。在一些实施方案中，与基因组靶标具有同源性的序列包含约2-5、约2-6、约2-8或约2-10或约2-12个与基因组内的相应靶区域共享互补性的邻接核苷酸。在一些实施方案中，与基因组靶标具有同源性的序列包含至少约或约10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、105、110、115、1120或125个与基因组内的相应靶区域共享互补性的邻接核苷酸。

在一些实施方案中，ORF2与包含RNA结合活性的额外蛋白质结构域缔合或融合。在一些实施方案中，逆转录转座子盒包含同源RNA序列，所述序列包含对与ORF2缔合或融合的额外蛋白质结构域的亲和力。在一些实施方案中，ORF2与MS2-MCP外壳蛋白缔合或融合。在一些实施方案中，逆转录转座子盒在3’或5’UTR序列中还包含与MS2-MCP外壳蛋白相互作用的MS2发夹RNA序列。在一些实施方案中，ORF2与PP7外壳蛋白缔合或融合。在一些实施方案中，逆转录转座子盒在3’或5’UTR序列中还包含与MS2-MCP外壳蛋白相互作用的PP7发夹RNA序列。在一些实施方案中，一个或多个额外元件将逆转录转座特异性与没有所述一个或多个额外元件的逆转录转座子盒相比提高了至少1.5倍、至少2倍、至少3倍、至少4倍、至少5倍、至少10倍、至少20倍、至少30倍、至少50倍、至少100倍、至少200倍、至少300倍、至少500倍、至少1000倍、至少1500倍、至少2000倍、至少3000倍、至少5000倍或更多倍。

DNA核酸内切酶结构域似乎对靶位点3’处的一系列嘌呤具有特异性，然后是一系列嘧啶(Py)_n↓(Pu)_n。示例性序列可以是(腺苷)_n↓(胸苷)_n。

在一方面，本文提供了使用具有高靶标特异性的逆转录转座的方法。在一些实施方案中，将CRISPR-Cas向导RNA系统与在此使用的LINE-逆转录转座子系统组合，以提高定点逆转录转座的精度。在一些实施方案中，所述系统掺入引物编辑向导RNA(pegRNA)以将一个或多个ORF结合序列掺入到特定基因组基因座中。在一些实施方案中，pegRNA以位点特异性方式掺入结合人ORF的序列，例如TTTTTA。在一些实施方案中，所述CRISPR-Cas系统包含Cas9酶。在一些实施方案中，所述CRISPR-Cas包含Cfp1酶。在一些实施方案中，Cas9是dCas9，与切口酶系统配对。

因此，本文提供了一种用于将转基因稳定掺入到骨髓细胞(诸如单核细胞或巨噬细胞)基因组中的方法和组合物，其中所述方法包括使用非LTR逆转录转座子系统掺入转基因，其中逆转录转座以靶标特异性、高精度和高保真度发生在特定基因组基因座处。因此，在一些实施方案中，所述方法包括向细胞施用组合物，所述组合物包含系统，所述系统具有至少一种转基因、侧接有一个或多个逆转录转座元件、以及编码一种或多种用于提高转座特异性的蛋白质的一个或多个核酸，并且/或者还包括修饰与逆转录转座相关的一种或多种基因。

位于逆转录转座元件的3’UTR区中的包含转基因的核酸通常被称为逆转录转座盒。因此，在一些实施方案中，逆转录转座盒包含编码转基因的核酸和侧翼的Alu转座元件。逆转录转座元件包含用于结合逆转录转座子的序列，例如L1-转座子，诸如L1-ORF蛋白、ORF1p和ORF2p。已知ORF蛋白与它们自身的mRNA序列结合以进行逆转录转座。因此，逆转录转座盒包含编码转基因的核酸；侧翼的L1-ORF2p结合序列和/或L1-ORF1p结合序列，包括转基因序列外的编码L1-ORF1p编码序列和L1-ORF2p编码序列的序列。在一些实施方案中，L1-ORF1和L1-ORF2散布有间隔区，也称为ORF1-ORF2间区域。在一些实施方案中，L1-ORF1和L1-ORF2编码序列相对于转基因的编码区呈相反取向。逆转录转座盒可包含位于L1-ORF2编码序列下游的多聚A区，并且转基因序列位于多聚A序列下游。L1-ORF2包含编码核酸内切酶(EN)和逆转录酶(RT)的核酸序列，随后是多聚A序列。在一些实施方案中，本文所述的逆转录转座盒中的L1-ORF2序列是完全(完整)序列，即编码全长天然(WT)L1-ORF2序列。在一些实施方案中，本文所述的逆转录转座盒中的L1-ORF2序列包含部分序列或修饰的序列。

本文所述的系统可以包含用于表达L1-ORF1p和L1-ORF2p的启动子。在一些实施方案中，转基因表达由单独的启动子驱动。在一些实施方案中，转基因和ORF是串联取向的。在一些实施方案中，转基因和ORF是相反取向的。

在一些实施方案中，所述方法包括除了逆转录转座子盒外还掺入一个或多个元件。在一些实施方案中，一个或多个额外元件包含编码异源性蛋白的一个或多个结构域的核酸序列。异源性蛋白可以是序列特异性核酸结合蛋白，例如，序列特异性DNA结合蛋白结构域(DBD)。在一些实施方案中，异源性蛋白是核酸酶或其片段。在一些实施方案中，额外的元件包含编码来自异源性蛋白的一个或多个核酸酶结构域或其片段的核酸序列。在一些实施方案中，异源性核酸酶结构域具有降低的核酸酶活性。在一些实施方案中，使异源性核酸酶结构域失活。在一些实施方案中，使ORF2核酸酶失活；而来自异源性蛋白的一个或多个核酸酶结构域被配置为呈现对逆转录转座的特异性。在一些实施方案中，来自异源性蛋白的一个或多个核酸酶结构域或其片段靶向基因组内特定的所需多核苷酸，其中将包括对目标多核苷酸的逆转录转座和掺入。在一些实施方案中，来自异源性蛋白的一个或多个核酸酶结构域包括mega-TAL核酸酶结构域、TALEN或锌指核酸酶结构域，例如与核酸酶结构域(例如，FokI核酸酶结构域)融合或缔合的mega-TAL、TALE或锌指结构域。在一些实施方案中，来自异源性蛋白的一个或多个核酸酶结构域包括CRISPR-Cas蛋白结构域，其负载有特定向导核酸，例如针对特定靶基因座的向导RNA(gRNA)。在一些实施方案中，CRISPR-Cas蛋白是Cas9、Cas12a、Cas12b、Cas13、CasX或CasY蛋白结构域。在一些实施方案中，来自异源性蛋白的一个或多个核酸酶结构域具有靶标特异性。

在一些实施方案中，额外的核酸酶结构域可以被掺入到ORF2结构域中。在一些实施方案中，额外的核酸酶可与ORF2p结构域融合。在一些实施方案中，额外的核酸酶结构域可与ORF2p融合，其中ORF2p包括ORF2p核酸内切酶结构域中的突变。在一些实施方案中，所述突变使ORF2p核酸内切酶结构域失活。在一些实施方案中，突变是点突变。在一些实施方案中，突变是缺失。在一些实施方案中，突变是插入。在一些实施方案中，突变消除ORF2核酸内切酶(切口酶)活性。在一些实施方案中，突变使ORF2p核酸内切酶的DNA靶标识别失活。在一些实施方案中，突变覆盖与ORF2p核酸酶-DNA识别相关的区域。在一些实施方案中，突变降低ORF2p核酸内切酶的DNA靶标识别。在一些实施方案中，ORF2p核酸内切酶结构域突变在蛋白质的N末端区域中。在一些实施方案中，ORF2p核酸内切酶结构域突变在蛋白质的保守区域中。在一些实施方案中，ORF2p核酸内切酶结构域突变在蛋白质的保守N末端区域中。在一些实施方案中，突变包含L1核酸内切酶结构域内的N14氨基酸。在一些实施方案中，突变包含L1核酸内切酶结构域内的包括N14氨基酸的2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20个或更多个连续氨基酸。在一些实施方案中，突变包含L1核酸内切酶内的E43氨基酸。在一些实施方案中，突变包含L1核酸内切酶结构域内的包括E43氨基酸的2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20个或更多个连续氨基酸。在一些实施方案中，突变包含L1核酸内切酶结构域中的包括N14或E43或其组合的2个或更多个氨基酸。在一些实施方案中，突变包含L1核酸内切酶结构域的D145。在一些实施方案中，突变可以是D145A。在一些实施方案中，突变可以包含L1核酸内切酶结构域的D205。在一些实施方案中，突变可以是D205G。在一些实施方案中，突变可以包含L1核酸内切酶结构域的H230。在一些实施方案中，突变可以包含L1核酸内切酶结构域的S228。在一些实施方案中，突变可以是S228P。

在一些实施方案中，突变使ORF2p核酸内切酶的DNA靶标识别降低了至少50％。在一些实施方案中，突变使ORF2p核酸内切酶的DNA靶标识别降低了至少60％。在一些实施方案中，突变使ORF2p核酸内切酶的DNA靶标识别降低了至少70％。在一些实施方案中，突变使ORF2p核酸内切酶的DNA靶标识别降低80％。在一些实施方案中，突变使ORF2p核酸内切酶的DNA靶标识别降低90％。在一些实施方案中，突变使ORF2p的DNA靶标识别降低了95％。在一些实施方案中，突变使ORF2p的DNA靶标识别降低了100％。

在一些实施方案中，突变是缺失。在一些实施方案中，缺失是完全的，即100％的L1核酸内切酶结构域缺失。在一些实施方案中，缺失是部分的。在一些实施方案中，约98％、约95％、约94％、约93％、约92％、约91％、约90％、约85％、约80％、约75％、约70％、约65％、约60％或约50％的ORF2核酸内切酶结构域缺失。

在一些实施方案中，额外的核酸酶结构域被插入到ORF2蛋白序列中。在一些实施方案中，ORF2核酸内切酶结构域缺失，并被来自异源性蛋白的核酸内切酶结构域替换。在一些实施方案中，ORF2核酸内切酶部分地缺失并被来自异源性蛋白的核酸内切酶结构域替换。来自异源性蛋白的核酸内切酶结构域可以是mega-TAL核酸酶结构域。来自异源性蛋白的核酸内切酶结构域可以是TALEN。来自异源性蛋白的核酸内切酶结构域可以是负载有基因座的特定gRNA的Cas9。

在一些实施方案中，核酸内切酶是具有以下特点的核酸内切酶：(i)基因组上的特定靶标和(ii)它在切割位点处生成5’-P和3’-OH末端。

在一些实施方案中，来自异源性蛋白的额外核酸内切酶结构域是来自相关逆转录转座子的核酸内切酶结构域。

在一些实施方案中，来自异源性蛋白的核酸内切酶结构域可以包含被工程化用于靶向特定位点的细菌核酸内切酶。在一些实施方案中，来自异源性蛋白的核酸内切酶结构域可以包含归巢核酸内切酶或其片段的结构域。在一些实施方案中，核酸内切酶是归巢核酸内切酶。在一些实施方案中，归巢核酸内切酶是工程化的LAGLIDADG归巢核酸内切酶(LHE)或其片段。在一些实施方案中，额外的核酸内切酶可以是限制性核酸内切酶、Cre、CasTAL或其片段。在一些实施方案中，核酸内切酶可以包含II组内含子编码的蛋白质(核酶)或其片段。

如前述段落中所讨论的工程化或修饰的L1-ORF2p，由于额外的/异源性核酸内切酶而被赋予特定的DNA靶向能力，被预计非常有利于驱动转基因向基因组中的靶向稳定整合。与使用天然的、非工程化的L1-ORF2p相比，工程化的L1-ORF2p在细胞中表达时可以产生大大减轻的脱靶效应。在一些实施方案中，工程化的L1-ORF2p没有产生脱靶效应。

在一些实施方案中，工程化或修饰的L1-ORF2p靶向除惯常的(Py)_n↓(Pu)_n位点以外的识别位点。在一些实施方案中，工程化的L1-ORF2p靶向包含(Py)_n↓(Pu)_n位点的识别位点，例如TTTT/AA位点，诸如杂交靶位点。在一些实施方案中，工程化的L1-ORF2p除了常规的L1-ORF2(Py)_n↓(Pu)_n位点之外还靶向具有至少一个核苷酸的识别位点，例如TTTT/AAG、或TTTT/AAC、或TTTT/AAT、TTTT/AAA、GTTTT/AA、CTTTT/AA、ATTTT/AA或TTTTT/AA。在一些实施方案中，工程化的L1-ORF2p除了常规的L1-ORF2p(Py)_n↓(Pu)_n位点之外还靶向识别位点。在一些实施方案中，工程化的L1-ORF2p靶向除了常规的L1-ORF2p(Py)_n↓(Pu)_n位点以外的识别位点。在一些实施方案中，工程化的L1-ORF2p靶向4、5、6、7、8、9、10个或更多个核苷酸长的识别位点。在一些实施方案中，工程化或修饰的L1-ORF2p识别位点可以是11、12、13、14、15、16、17、18、19、20个或更多个核苷酸。

工程化的L1-ORF2p可以被工程化为在翻译后保留其与自身mRNA结合的能力，并且高效地逆转录。在一些实施方案中，与天然(WT)L1-ORF2p相比，工程化的L1-ORF2p具有增高的逆转录效率。

在一些实施方案中，包含逆转录转座元件的系统还包含减少非特异性逆转录转座的基因修饰。在一些实施方案中，基因修饰可以包括编码L1-ORF2p的序列。在一些实施方案中，修饰可以包括一个或多个氨基酸的突变，这些氨基酸对于与有助于ORF2p与靶基因组DNA结合的蛋白质结合是必不可少的。有助于ORF2p与靶基因组DNA结合的蛋白质可以是染色质-ORF相互作用组(interactome)的部分。在一些实施方案中，修饰可以包括一个或多个氨基酸，所述氨基酸对于与有助于ORF2p DNA核酸内切酶活性的蛋白质结合是必需的。在一些实施方案中，修饰可以包括一个或多个氨基酸，这些氨基酸对于与有助于ORF2p RT活性的蛋白质结合是必需的。在一些实施方案中，修饰可以包括ORF2p上的蛋白质结合位点，从而更改蛋白质与ORF2p的缔合，其中蛋白质与ORF2p的结合是与染色质的结合所必需的。在一些实施方案中，修饰可以包括ORF2p上的蛋白质结合位点，从而蛋白质与ORF2p的缔合比不存在修饰时更严格和/或更有特异性。在一些实施方案中，由于ORF2p编码序列在蛋白质结合位点处的修饰，ORF2p与蛋白质的缔合发生了更改，所以ORF2p与靶DNA的结合具有提高的特异性。在一些实施方案中，修饰可以减少ORF2与作为ORF2p染色质相互作用组的部分的一种或多种蛋白质的结合。

在一些实施方案中，基因修饰可以在ORF2p的PIP结构域中。

在一些实施方案中，基因修饰可以在编码蛋白质的一个或多个基因中，所述蛋白质与ORF2p结合并有助于ORF2p的识别、结合、核酸内切酶或RT活性。在一些实施方案中，基因修饰可以在编码PCNA、PARP1、PABP、MCM、TOP1、RPA、PURA、PURB、RUVBL2、NAP1、ZCCHC3、UPF1或MOV10蛋白的一个或多个基因中在每种蛋白质的ORF2p相互作用位点处或在影响蛋白质与ORF2p的相互作用或ORF2p与靶DNA的相互作用的位点处。在一些实施方案中，修饰可以在PCNA的ORF2p结合结构域上在ORF2p相互作用位点处或在影响蛋白质与ORF2p相互作用或ORF2p与靶DNA相互作用的位点处。在一些实施方案中，修饰可以在TOP1的ORF2p结合结构域上。在一些实施方案中，修饰可以在RPA的ORF2p结合结构域上。在一些实施方案中，修饰可以在PARP1的ORF2p结合结构域上在ORF2p相互作用位点处或在影响蛋白质与ORF2p相互作用或ORF2p与靶DNA相互作用的位点处。在一些实施方案中，修饰可以在PABP(例如PABPC1)的ORF2p结合结构域上在ORF2p相互作用位点处或在影响蛋白质与ORF2p相互作用或ORF2p与靶DNA相互作用的位点处。在一些实施方案中，基因修饰可以在MCM基因上。在一些实施方案中，基因修饰可以在编码MCM3蛋白的基因上在ORF2p相互作用位点处或在影响蛋白质与ORF2p相互作用或ORF2p与靶DNA相互作用的位点处。在一些实施方案中，基因修饰可以在编码MCM5蛋白的基因上在ORF2p相互作用位点处或在影响蛋白质与ORF2p相互作用或ORF2p与靶DNA相互作用的位点处。在一些实施方案中，基因修饰可以在编码MCM6蛋白的基因上在ORF2p相互作用位点处或在影响蛋白质与ORF2p相互作用或ORF2p与靶DNA相互作用的位点处。在一些实施方案中，基因修饰可以在编码MEPCE蛋白的基因上在ORF2p相互作用位点处或在影响蛋白质与ORF2p相互作用或ORF2p与靶DNA相互作用的位点处。在一些实施方案中，基因修饰可以在编码RUVBL1或RUVBL2蛋白的基因上在ORF2p相互作用位点处或在影响蛋白质与ORF2p相互作用或ORF2p与靶DNA相互作用的位点处。在一些实施方案中，基因修饰可以在编码TROVE蛋白的基因上在ORF2p相互作用位点处或在影响蛋白质与ORF2p相互作用或ORF2p与靶DNA相互作用的位点处。

在一些实施方案中，本文公开的逆转录转座系统包含提高逆转录保真度的一个或多个元件。

在一些实施方案中，L1-ORF2 RT结构域被修饰。在一些实施方案中，修饰包括以下中的一项或多项：提高保真度、增强进行性、提高DNA-RNA底物亲和力；或使RNase H活性失活。

在一些实施方案中，修饰包括在L1-ORF2的RT结构域中引入一个或多个突变，从而提高RT的保真度。在一些实施方案中，突变包括点突变。在一些实施方案中，突变包括更改，诸如对L1-ORF2p RT结构域中一个、两个三个、四个、五个、六个或更多个氨基酸的取代。在一些实施方案中，突变包括L1-ORF2p RT结构域中一个或多个氨基酸的缺失，例如，一个、两个、三个、四个、五个、六个、七个、八个、九个、十个或更多个氨基酸的缺失。在一些实施方案中，突变可以包括得失位(in-del)突变。在一些实施方案中，突变可以包括移码突变。

在一些实施方案中，修饰可以包括纳入来自第二蛋白质的额外RT结构域或其片段。在一些实施方案中，第二蛋白质是病毒逆转录酶。在一些实施方案中，第二蛋白质是非病毒逆转录酶。在一些实施方案中，第二蛋白质是逆转录转座元件。在一些实施方案中，第二蛋白质是非LTR逆转录转座元件。在一些实施方案中，第二蛋白质是II组内含子蛋白。在一些实施方案中，II组内含子是作为TGIRTII。在一些实施方案中，第二蛋白质是Cas切口酶，其中逆转录转座系统还包括引入向导RNA。在一些实施方案中，第二蛋白质是Cas9核酸内切酶，其中逆转录转座系统还包括引入向导RNA。在一些实施方案中，第二蛋白质或其片段与L1-ORF2 RT结构域或修饰的L1-ORF2RT结构域的N末端融合。在一些实施方案中，第二蛋白质或其片段与L1-ORF2 RT结构域或修饰的L1-ORF2 RT结构域的C末端融合。

在一些实施方案中，除了全长WT L1-ORF2p RT结构域之外，来自第二蛋白质的额外RT结构域或其片段也被掺入逆转录转座系统中。在一些实施方案中，来自第二蛋白质的额外RT结构域或其片段在修饰的(工程化的)L1-ORF2p RT结构域或其片段的存在下掺入，其中修饰(或工程化)可以包括突变，所述突变与天然或WT ORF2p相比增强L1-ORF2p RT的进行性、修饰的L1-ORF2p RT的稳定性和/或保真度。

在一些实施方案中，逆转录酶结构域可以被替换为来自其他逆转录元件或II组内含子(诸如TGIRTII)的其他更高进行性和更高保真度的RT结构域。

在一些实施方案中，修饰可以包括与来自第二蛋白质的额外RT结构域或其片段的融合。在一些实施方案中，第二蛋白质可以包含逆转录元件。来自第二蛋白质的额外RT结构域或其片段被配置为提高融合的L1-ORF2p RT结构域的逆转录保真度。在一些实施方案中，将编码额外RT结构域或其片段的核酸与天然或WT L1-ORF2编码序列融合。在一些实施方案中，将编码来自第二蛋白质的额外RT结构域或其片段的核酸与修饰的L1-ORF2编码序列融合。在一些实施方案中，修饰包括在L1-ORF2或其片段的RT结构域中引入一个或多个突变，从而提高融合的RT的保真度。在一些实施方案中，L1-ORF2或其片段的RT结构域中的突变包括点突变。在一些实施方案中，突变包括更改，诸如对L1-ORF2p RT结构域中一个、两个三个、四个、五个、六个或更多个氨基酸的取代。在一些实施方案中，突变包括L1-ORF2p RT结构域中一个或多个氨基酸的缺失，例如，一个、两个、三个、四个、五个、六个、七个、八个、九个、十个或更多个氨基酸的缺失。在一些实施方案中，突变可以包括得失位(in-del)突变。在一些实施方案中，突变可以包括移码突变。

在一些实施方案中，修饰的L1-ORF2p RT结构域具有比WT L1-ORF2p RT结构域增高的进行性。

在一些实施方案中，修饰的L1-ORF2p RT结构域具有比WT L1-ORF2p RT结构域高至少10％的进行性和/或保真度。在一些实施方案中，修饰的L1-ORF2p RT结构域具有比WTL1-ORF2p RT结构域高至少20％、30％、40％、50％、60％、70％、80％、90％、100％、110％、120％、150％、200％、300％、400％、500％、1000％或更高的进行性和/或保真度。在一些实施方案中，修饰的RT可以加工大于6kb的核酸区段。在一些实施方案中，修饰的RT可以加工大于7kb的核酸区段。在一些实施方案中，修饰的RT可以加工大于8kb的核酸区段。在一些实施方案中，修饰的RT可以加工大于9kb的核酸区段。在一些实施方案中，修饰的RT可以加工大于10kb的核酸区段。

B.II组内含子和核酶

II组酶是活动型核酶，其自剪接前体RNA，产生切除的内含子套索RNA。内含子编码逆转录酶。逆转录酶可以使RNA稳定以进行正向和反向剪接，然后将整合的内含子RNA转化为DNA。

II组RNA的特征是具有范围在400-800个核苷酸的保守二级结构。二级结构由六个结构域DI-VI形成，并以类似轮子的结构进行组织，其中结构域从中心点辐射。这些结构域相互作用而形成保守的三级结构，将远处的序列聚集在一起而形成活性位点。活性位点结合剪接位点和分支点残基核苷酸，并与Mg2+阳离子缔合，激活对剪接的催化。DV结构域位于活性位点内，其具有保守的催化性AGC和AY凸出，并且这两个区域都与催化所需的Mg2+离子结合。DI是最大的结构域，其上半部与下半部由κ和ζ基序分隔。下半部含有与活性位点缔合的ε’基序。上半部含有与活性位点处的5’和3’外显子结合的序列元件。DIV编码内含子编码蛋白(IEP)，其5’端附近的子结构域IVa含有IEP的高亲和力结合位点。II组内含子具有保守的5’-和3’-端序列，分别为GUGYG和AY。

II组RNA内含子可以用于经由靶标引发的逆转录而将目标序列逆转录转座到DNA中。这种由II组RNA内含子进行的转座过程通常被称为逆转录归巢。II组内含子通过内含子RNA与DNA靶序列的碱基配对来识别DNA靶位点，它们可以被修饰以将内含子内携带的特定序列重新靶向所需的DNA位点。

在一些实施方案中，本文所述的用于逆转录转座的方法和组合物可以包含II组内含子序列、修饰的II组内含子序列或其片段。示例性II组IEP(成熟酶)包括但不限于在人细胞中起作用的细菌、真菌、酵母IEP。具体地，核酸酶在DNA的切割位点处留下3’-OH，另一RT可以利用所述3’-OH进行引发和逆转录。示例性II组成熟酶可以是TGIRT(热稳定的II组内含子成熟酶)。

在本文所述的几个方面的一个或多个实施方案中，核酸构建体包含RNA。在本公开的几个方面的一个或多个实施方案中，核酸构建体是RNA。在本公开的几个方面的一个或多个实施方案中，核酸构建体是mRNA。在一方面，mRNA包含异源性基因或其部分的序列，其中异源性基因或其部分编码多肽或蛋白质。在一些实施方案中，mRNA包含编码融合蛋白的序列。在一些实施方案中，mRNA包含编码重组蛋白的序列。在一些实施方案中，mRNA包含编码合成蛋白质的序列。在一些实施方案中，核酸包含一个或多个序列，其中所述一个或多个序列编码一种或多种异源性蛋白、一种或多种重组蛋白、或一种或多种合成蛋白或其组合。在一些实施方案中，核酸包含一个或多个序列，其中所述一个或多个序列编码一种或多种异源性蛋白，所述异源性蛋白包括合成蛋白或重组蛋白。在一些实施方案中，合成或重组蛋白是重组融合蛋白。

C.包含定点编辑和/或整合酶的逆转录转座子系统

在一方面，本文提供了在向导RNA和Cas蛋白的帮助下，在修饰pegRNA介导的将LINE结合序列位点特异性掺入到基因组中后，使用具有高靶标特异性的逆转录转座的方法。在一些实施方案中，将CRISPR-Cas向导RNA系统与在此使用的LINE-逆转录转座子系统组合，以提高定点逆转录转座的精度；例如，所述系统掺入引物编辑向导RNA(pegRNA)以将一个或多个ORF结合序列掺入到特定基因组基因座中。在一些实施方案中，pegRNA以位点特异性方式掺入结合人ORF的序列，例如TTTTTA。在一些实施方案中，所述CRISPR-Cas系统包含Cas9酶。在一些实施方案中，所述CRISPR-Cas包含Cfp1酶。在一些实施方案中，Cas9是dCas9，与切口酶系统配对。

在一些实施方案中，本文所述的逆转录转座子系统包含(i)LINE1逆转录转座子元件，和(ii)整合酶系统或其部分。一些整合酶系统能够位点特异性整合双链DNA。为了绕过双链DNA递送和/或整合到基因组中，本文提供了一种重组杂交系统，其中整合酶或其片段掺入在重组ORF蛋白内，或作为编码识别特定基因组位点的整合酶或其片段的单独核酸(例如，mRNA)单独递送；并且在由整合酶的特异性引导的精确位置处与LINE1逆转录和货物序列在细胞或生物体的基因组内的插入结合。这可以通过几种替代方式实现。在一些实施方案中，货物序列包含附接位点，所述附接位点被整合酶识别并利用以将货物拉到基因组内的着陆位点，所述着陆位点也被相同的整合酶识别。整合酶能够进行单链切割。整合酶DNA识别位点(即，基因组着陆序列)的长度可以是10个核苷酸，例如12、14、16、18、20、22、24、26、28、30或更多个核苷酸，从而赋予比任何其他系统更大的特异性。整合酶可以被截短或以其他方式突变，以允许ORF在整合酶指定的基因组位点处逆转录和整合货物序列。相反，ORF蛋白也可以在RNA识别位点处突变，以允许整合酶识别被整合酶优先识别的基因组整合序列(也称为“基因组着陆序列或位点”)。在替代实施方案中，所述整合酶由不同的多核苷酸编码，并且可以由CRISPR Cas系统和向导RNA驱动至可以被切割的位点，并且可以引入还包含含有4个核苷酸的ORF结合位点的整合酶着陆序列，此后整合酶将包含附接序列的货物序列牵引至着陆序列，随后是LINE1活性，导致在整合酶系统指定的位点处进行基因组整合。导致双链DNA掺入基因组中的整合酶的任何催化活性都是突变或截短的，否则就是沉默的。

在本公开的几个方面的一个或多个实施方案中，核酸构建体被开发用于在真核细胞中表达。在一些实施方案中，核酸构建体被开发用于在人细胞中表达。在一些实施方案中，核酸构建体被开发用于在造血细胞中表达。在一些实施方案中，核酸构建体被开发用于在骨髓细胞中表达。在一些实施方案中，骨髓细胞是人细胞。

II.用于增加编码的蛋白质表达的方法的核酸构建体中的修饰

在本公开的一些方面，重组核酸被修饰以增加由所述核酸序列编码的蛋白质的表达。其中所编码的蛋白质的表达增加可以随着核酸稳定性、翻译效率和所翻译蛋白质的稳定性而变。在本文中设想了许多修饰以用于掺入到核酸构建体的设计中，这些修饰可以赋予核酸稳定性，诸如编码外源性或异源性蛋白的信使RNA的稳定性，所述外源性或异源性蛋白可以是合成的重组蛋白或其片段。

在一些实施方案中，所述核酸是包含一个或多个序列的mRNA，其中所述一个或多个序列编码一种或多种异源性蛋白，所述异源性蛋白包括合成或重组融合蛋白。

在一些实施方案中，在包含编码重组或融合蛋白的序列的mRNA中进行一种或多种修饰以增加mRNA半衰期。

阻断由核酸外切酶进行的5’-和3’-降解的结构元件：5’-帽和3’UTR修饰

适当的5’-帽结构在功能性信使RNA的合成中很重要。在一些实施方案中，5’-帽包含鸟苷三磷酸，在核酸的5’末端处排列成GpppG。在一些实施方案中，mRNA包含5’7-甲基鸟苷帽，m7-GpppG。5’7-甲基鸟苷帽提高mRNA翻译效率并防止mRNA 5’-3’核酸外切酶降解。在一些实施方案中，mRNA包含“抗逆转录”帽类似物(ARCA，m^7,3'-OGpppG)。然而，通过使用ARCA可以显著提高翻译效率。在一些实施方案中，鸟苷帽是Cap 0结构。在一些实施方案中，鸟苷帽是Cap 1结构。除了帽依赖性蛋白质合成起始的重要作用外，mRNA帽还用作5’到3’核酸外切酶裂解的保护基团，并且用作为前mRNA剪接、多聚腺苷酸化和核输出的募集蛋白质因子的独特标识。在翻译过程中，它充当起始蛋白质合成和mRNA 5’到3’成环的募集起始因子的锚定物。生成Cap 0结构需要三种酶活性，即RNA三磷酸酶(TPase)、RNA鸟苷酸转移酶(GTase)和鸟嘌呤-N7甲基转移酶(鸟嘌呤-N7MTase)。这些酶活性中的每种都在将新生RNA的5’三磷酸转化为Cap 0结构的过程中执行关键步骤。RNA TPase从5’三磷酸中移除γ-磷酸，生成5’二磷酸RNA。GTase通过赖氨酸-GMP共价中间体将GMP基团从GTP转移到5’二磷酸。然后鸟嘌呤-N7 MTase将甲基添加到鸟嘌呤帽的N7胺中以形成帽0结构。对于Cap 1结构，m7G特异性2’O甲基转移酶(2’O MTase)将核糖的2’O位置处的+1核糖核苷酸甲基化而产生帽1结构。核RNA加帽酶在C末端七肽(七肽)重复序列的磷酸化Ser5处与RNA聚合酶II复合物的聚合酶亚基相互作用。RNA鸟嘌呤-N7甲基转移酶也与RNA聚合酶II磷酸化的七肽重复序列相互作用。在一些实施方案中，所述帽是G-四链体帽。

在一些实施方案中，mRNA通过体外转录(IVT)进行合成。在一些实施方案中，mRNA合成和加帽可以在一个步骤中进行。加帽可以发生在与IVT相同的反应混合物中。在一些实施方案中，mRNA合成和加帽可以在单独的步骤中进行。通过IVT如此形成的mRNA被纯化，然后加帽。

在一些实施方案中，核酸构建体(例如mRNA构建体)包含编码目标蛋白质或多肽的一个或多个序列，所述一个或多个序列可被设计成包含保护、防止、抑制或减少内源性5’-3’核糖核酸外切酶(例如Xrn1)对mRNA的降解的元件。Xrn1是正常RNA衰变途径中的细胞酶，其降解5’单磷酸化RNA。然而，发现一些病毒RNA结构元件对此类RNase具有特别的抗性，例如，黄病毒sfRNA中的Xrn1抗性结构，称为‘xrRNA’。例如，蚊媒黄病毒(MBFV)基因组在其3’-非翻译区(UTR)中包含离散的RNA结构，其阻断Xrn1的进展。这些RNA元件足以在不使用辅助蛋白的情况下阻断Xrn1。xrRNA在限定位置处使酶停止，从而保护位于xrRNA下游的病毒RNA免于降解。例如，来自寨卡病毒(Zika virus)或墨莱溪谷脑炎病毒(Murray Valleyencephalitis virus)的xrRNA包含三向连接和多个假结相互作用，它们生成不寻常且复杂的折叠，从而需要在MBFV结构中保守的一组核苷酸。xrRNA在限定位置处使酶停止，从而保护位于xrRNA下游的病毒RNA免于降解。RNA的5’端穿过折叠的环状结构，并据信受到保护以免被Xrn1样核酸外切酶降解。

在一些实施方案中，包含编码目标蛋白质的一个或多个序列的核酸构建体可以包含掺入其中的一种或多种xrRNA结构。在一些实施方案中，xrRNA是一段核苷酸，其具有一个或多个病毒xrRNA序列的3’UTR的保守区域。在一些实施方案中，1、2、3、4、5、6、7、8、9、10个或更多个xrRNA元件被掺入核酸构建体中。在一些实施方案中，2个或更多个xrRNA元件被串联掺入核酸构建体中。在一些实施方案中，xrRNA包含一个或多个包含保守序列或其片段或其修饰的区域。在一些实施方案中，xrRNA位于逆转录转座子元件的3’UTR处。在一些实施方案中，xrRNA位于编码一种或多种蛋白质或多肽的序列的上游。在一些实施方案中，xrRNA位于逆转录转座子元件(诸如ORF2序列)的3’UTR中，并且位于编码一种或多种蛋白质或多肽的序列的上游。

在一些实施方案中，xrRNA结构包含MBFV xrRNA序列或与其至少90％相同的序列。在一些实施方案中，xrRNA结构包含蜱传黄病毒(TBFV)xrRNA序列或与其至少90％相同的序列。在一些实施方案中，xrRNA结构包含蜱传黄病毒(TBFV)xrRNA序列或与其至少90％相同的序列。在一些实施方案中，xrRNA结构包含蜱传黄病毒(TBFV)xrRNA序列或与其至少90％相同的序列。在一些实施方案中，xrRNA结构包含来自未知节肢动物载体黄病毒(NKVFV)成员的xrRNA序列或与其至少90％相同的序列。在一些实施方案中，xrRNA结构包含来自昆虫特异性黄病毒(ISFV)成员的xrRNA序列或与其至少90％相同的序列。在一些实施方案中，xrRNA结构包含寨卡病毒xrRNA序列或与其至少90％相同的序列。因此，设想到任何已知的xrRNA结构元件或其可想到的非显而易见的变体可用于本文所述的目的。

来自不同生物体的几个信使RNA表现出一个或多个假结结构，这些假结结构表现出对5’-3’核酸外切酶的抗性。假结是一种RNA结构，最少由两个由单链区或环连接的螺旋区段构成。尽管存在几种不同的假结折叠拓扑。

多聚A尾修饰

mRNA的3’UTR中的多聚A结构是mRNA半衰期的重要调控因子。多聚A尾的3’端的脱腺苷酸化是细胞内mRNA降解的第一个步骤。在一些实施方案中，mRNA构建体的多聚A尾的长度被严格考虑并设计用于最大化由mRNA编码区编码的蛋白质的表达和mRNA稳定性。在一些实施方案中，核酸构建体包含一个或多个多聚A序列。在一些实施方案中，编码一种或多种蛋白质或多肽的序列的3’UTR处的多聚A序列包含20-200个腺苷核碱基。在一些实施方案中，多聚A序列包含30-200个腺苷核碱基。在一些实施方案中，多聚A序列包含50-200个腺苷核碱基。在一些实施方案中，多聚A序列包含80-200个腺苷核碱基。在一些实施方案中，包含编码一种或多种蛋白质或多肽的序列的mRNA区段包含3’-UTR，其具有包含约180个腺苷核碱基或约140个腺苷核碱基或约120个腺苷核碱基的多聚A尾。在一些实施方案中，多聚A尾包含约122个腺苷核碱基。在一些实施方案中，多聚A序列包含50个腺苷核碱基。在一些实施方案中，多聚A序列包含30个腺苷核碱基。在一些实施方案中，多聚A尾中的腺苷核碱基串联放置，有或没有介入的非腺苷碱基。在一些实施方案中，一个或多个非腺苷核碱基掺入多聚A尾中，这赋予了对某些核酸外切酶的进一步抗性。

在一些实施方案中，构建体的多聚A尾中的一段腺苷包含一个或多个非腺苷(A)核碱基。在一些实施方案中，非A核碱基存在于多聚A 3’-末端区域的-3、-2、-1和/或+1位置处。在一些实施方案中，非A碱基包括鸟苷(G)或胞嘧啶(C)或尿嘧啶碱基(U)。在一些实施方案中，非A碱基是G。在一些实施方案中，非A碱基多于一个，呈串联，例如GG。在一些实施方案中，用一个或多个非A碱基在多聚A尾的3’端处的修饰旨在破坏多聚A尾处的A碱基堆叠。多聚A碱基堆叠促进由各种脱腺苷酸化酶进行的脱腺苷酸化，并且因此以-AAAG、-AAAGA或-AAAGGA封端的多聚A尾的3’端有效赋予抗脱腺苷酸化的稳定性。在一些生物体中，间插多聚A序列的GC序列显示有效地减缓3’-5’核酸外切酶介导的衰变。本文设想的修饰包括间插非A残基，或在3’端间插多聚A区段的非A残基双链体。

在一些实施方案中，在3’UTR中引入三链体结构，这有效地阻止或减慢涉及3’端的核酸外切酶活性。

在一些实施方案中，与未修饰的mRNA相比，具有上述修饰的mRNA具有延长的半衰期并且在更长的时间段内表现出稳定的表达。在一些实施方案中，mRNA稳定表达持续大于2天、3天、4天、5天、6天、7天、8天、9天或10天或更多天，并且在体内可检测到mRNA或其蛋白质产物。在一些实施方案中，检测到mRNA在体内长达3天、4天、5天、6天、7天、8天、9天、10天、11天、12天、13天、14天或15天。在一些实施方案中，检测到mRNA的蛋白质产物在体内长达3天、4天、5天、6天、7天、8天、9天、10天、11天、12天、13天、14天、15天、16天、17天、18天、20天、25天或30天。

CircRNA和tectoRNA

环状RNA适用于设计和产生稳定形式的RNA，所述RNA用作信使RNA以指导合成蛋白质链，诸如长的、多重复的蛋白质链。制备环状RNA(circRNA)的方法很少。它们包括使用RNA连接酶和使用分裂的自剪接型内含子进行蛋白质介导的RNA端连接，使得如果内含子的两半位于转录的mRNA的末端处，则内含子将自身剪接并留下连接产物(图3A)。另一种技术依赖于T4 DNA连接酶在待连接的RNA端通过寡核苷酸保持在一起时充当RNA连接酶的能力。这两种技术都效率低下并且需要大量的酶。第三种技术使用I组内含子的环化或环状化活性，其中进行反应的大多数内含子序列必须保留在环的一部分上。I组内含子享有一组复杂的二级和三级结构，其含有一系列形成催化核心的保守RNA茎环。这些内含子中的许多在体外是自剪接的，并且可以剪接并形成两个连接的外显子，作为没有辅助蛋白质因子的RNA。由I组自催化反应生成的产物是(1)上游外显子，其在5’剪接位点与下游外显子的3’剪接位点连接；和(2)线性内含子，其可以进一步经历可逆的自催化以形成环状内含子。如此大的高度结构化的核酸序列的存在严重限制了可以通过所述技术制成环状的RNA序列的类型。此外，内含子的催化活性可能保留并干扰环状RNA的结构和功能。

通过使RNA的末端更加接近，可用于提高反应速率，从而提高整体效率。先前的研究通过在mRNA末端的3’和5’处纳入互补RNA序列来实现这点，使得在这些序列杂交时，mRNA的末端更接近，由此它便可以比没有互补序列的情况快的总体速率进行连接或自剪接反应。这些被称为环状化反应的自剪接形式的同源臂(图3A)。这种杂交策略的主要问题是，如果编码区内有与任一同源臂互补的序列，则杂交实际上可能抑制剪接反应，并且可能需要针对每个新编码区来优化臂。本文所述的此策略的替代方案是使用RNA序列，所述RNA序列折叠成三维结构而形成独立于序列的稳定结合相互作用。

非沃森克里克(Watson-Crick)RNA三级相互作用可以用于构建‘tectoRNA’分子单元，定义为能够自组装的RNA分子。使用这种类型的三级相互作用允许通过操纵阳离子浓度(例如Mg²⁺)和/或合适的温度以及采用模块化设计的‘选择器’RNA分子来控制和调节组装过程。对于一维阵列的自组装，设计了基本的模块化单元，所述单元包括4向连接，每个螺旋臂上都有相互作用的模块。在一些实施方案中，相互作用模块是GAAA环或特异性GAAA环受体。每个tectoRNA可以通过形成四个环–受体相互作用(每个配偶体分子两个)而与其他两个tectoRNA相互作用。

在一些实施方案中，tectoRNA结构被适当地选择并整合在包含外显子和内含子的RNA中以形成circRNA。在一些实施方案中，整合是通过公知的分子生物学技术诸如连接来完成。在一些实施方案中，tectoRNA在高温下形成稳定的结构。tectoRNA结构不与内部RNA序列竞争，从而产生高效的环状化和剪接。

circRNA可以包含前述任何部分中描述的编码序列。例如，它可以包含编码融合蛋白的序列，所述融合蛋白包含束缚分子或受体分子。受体可以是吞噬细胞受体融合蛋白。

在一些实施方案中，内含子是自剪接型内含子。

在一些实施方案中，具有三级结构的末端区域，也称为circRNA的支架区域，长约30个核苷酸至约100个核苷酸。在一些实施方案中，三级结构基序为约45个核苷酸、约50个核苷酸、约55个核苷酸、约60个核苷酸、约65个核苷酸、约70个核苷酸或约75个核苷酸长。在一些实施方案中，三级基序是在高温下形成的。在一些实施方案中，三级基序是稳定的。

在一些实施方案中，具有如本文所述的一种或多种修饰并且包含编码一种或多种蛋白质或多肽的一个或多个序列的核酸构建体在体内施用时是稳定的。在一些实施方案中，核酸是mRNA。在一些实施方案中，包含编码一种或多种蛋白质或多肽的一个或多个序列的mRNA在体内超过2天、超过3天、超过4天、超过5天、超过6天、超过7天、超过8天、超过9天、超过10天、超过11天、超过12天、超过13天、超过14天、超过15天、超过16天、超过17天、超过18天、超过19天或超过20天是稳定的。在一些实施方案中，由mRNA中的序列编码的蛋白质可以在体内在大于3天、4天、5天、6天、7天、8天、9天、10天、11天、12天、13天、14天、15天、16天、17天、18天、19天或20天时被检测到。在一些实施方案中，由mRNA中的序列编码的蛋白质在mRNA被施用后约7天可在体内被检测到。在一些实施方案中，由mRNA中的序列编码的蛋白质在mRNA被施用后约14天可在体内被检测到。在一些实施方案中，由mRNA中的序列编码的蛋白质在mRNA被施用后约21天可在体内被检测到。在一些实施方案中，由mRNA中的序列编码的蛋白质在mRNA被施用后约30天可在体内被检测到。在一些实施方案中，由mRNA中的序列编码的蛋白质可以在mRNA被施用后超过约30天在体内被检测到。

在一些方面，设想了增强细胞内的核酸摄取或掺入以增加逆转录转座的表达。一种方法包括获得同质细胞群以起始核酸的掺入，例如，在质粒载体构建体的情况下通过转染进行，或通过电穿孔或可适用于将核酸分子递送到细胞中的任何其他手段进行。在一些实施方案中，可以寻求细胞周期同步化。细胞周期同步化可以通过针对某种共同表型对细胞进行分选来实现。在一些实施方案中，可以用可使所有细胞的细胞周期进程停止在某个阶段的试剂对细胞群进行处理。示例性试剂可以参见于商业数据库诸如www.tocris.com/cell-biology/cell-cycle-inhibitors或www.scbt.com/browse/chemicals-Other-Chemicals-cell-cycle-arresting-compounds中。例如，伊曲康唑(itraconazole)或诺考达唑(nocodazole)将细胞周期抑制在G1期，或使细胞周期停滞在G0/G1期的试剂，例如，5-[(4-乙基苯基)亚甲基]-2-硫代-4-噻唑啉酮(化合物10058-F4)(Tocris Bioscience)；或G2M细胞周期阻断剂，诸如AZD 5438(化学名称，4-[2-甲基-1-(1-甲基乙基)-1H-咪唑-5-基]-N-[4-(甲基磺酰基)苯基]-2-嘧啶胺)，其使细胞周期阻断在G2M、G1或S期，仅举几例。环孢菌素、羟基脲、胸苷是众所周知的可引起细胞周期停滞的试剂。一些试剂可以不可逆地更改细胞状态或可能对细胞有毒性。根据细胞类型，在电穿孔或转染前约2-16小时对细胞进行血清剥夺也可以是一种简单且可逆的细胞同步化策略。

在一些实施方案中，可以通过促进已用本文所述的逆转录转座构建体转染或电穿孔的细胞产生DNA双链断裂和/或调节DNA修复机制来提高逆转录转座效率。这些技术的应用可能受到限制，这取决于细胞的最终用途，所述细胞将经历离体遗传操纵以通过此方法稳定掺入核酸序列。在一些情况下，可以设想使用此类技术，其中预期由所掺入的核酸编码的蛋白质或转录物的稳健表达作为确定时间段的结果。在细胞中引入双链断裂的方法包括使细胞在短时间内经受约0.1Gy或更低的受控电离辐射。

在一些实施方案中，LINE-1介导的逆转录转座的效率可以通过用DNA修复蛋白的小分子抑制剂处理细胞以增加逆转录酶发挥作用的窗口来提高。DNA修复蛋白的示例性小分子抑制剂可以是苯甲酰胺(CAS 55-21-0)、奥拉帕尼(Lynparza)(CAS 763113-22-0)、卢卡帕尼(Clovis-AG014699,PF-01367338Pfizer)、尼拉帕利(MK-827Tesaro)CAS1038915-60-4)；维利帕尼(ABT-888Abbvie)(CAS 912444-00-9)；喜树碱(CPT)(CAS 7689-03-4)；伊立替康(CAS 100286-90-6)；拓扑替康(GlaxoSmithKline)(CAS 123948-87-8)；NSC 19630(CAS 72835-26-8)；NSC 617145(CAS 203115-63-3)；ML216(CAS1430213-30-1)；6-羟基DL-多巴(CAS 21373-30-8)；D-103；D-G23；DIDS(CAS 67483-13-0)；B02(CAS1290541-46-6)；RI-1(CAS 415713-60-9)；RI-2(CAS1417162-36-7)；链霉黑素(SN)(CAS3930-19-6)。

III.核酸货物：

A.转基因

在一方面，将作为待插入细胞基因组内的异源性核酸序列的转基因或非编码序列作为mRNA进行递送。mRNA可包含大于约100、200、300、400、500、600、700、800、900、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900、2000、3000、4000、5000、6000、7000、8000、9000、10,000个碱基。在一些实施方案中，mRNA的长度可以大于10,000个碱基。在一些实施方案中，mRNA的长度可为约11,000个碱基。在一些实施方案中，mRNA的长度可为约12,000个碱基。在一些实施方案中，mRNA包含编码融合蛋白的转基因序列。在一些实施方案中，将核酸作为质粒进行递送。

在一些实施方案中，通过转染将核酸递送到细胞中。在一些实施方案中，通过电穿孔将核酸递送到细胞中。在一些实施方案中，多于一次重复转染或电穿孔以增加核酸向细胞中的掺入。

本文设想了对编码吞噬细胞受体或束缚受体(PR)融合蛋白(CFP)的重组核酸进行逆转录转座子介导的稳定整合。在一些实施方案中，CFP包含：PR亚基，其包含：跨膜结构域和包含胞内信号传导结构域的胞内结构域；和胞外结构域，其包含对靶细胞的抗原有特异性的抗原结合结构域；其中跨膜结构域与胞外结构域可操作地连接。

在一些实施方案中，所述核酸包含编码嵌合融合蛋白(CFP)的序列，所述CFP包含含有CD5结合结构域的胞外结构域以及与所述胞外结构域可操作地连接的跨膜结构域。在一些实施方案中，CD5结合结构域是CD5结合蛋白，诸如抗体的抗原结合片段、Fab片段、scFv结构域或sdAb结构域。在一些实施方案中，其中CD5结合结构域包含scFv，所述scFv包含(i)可变重链(VH)序列，其与以下序列具有至少90％的序列同一性：EIQLVQSGGGLVKPGGSVRISCAASGYTFTNYGMNWVRQAPGKG LEWMGWINTHTGEPTYADSFKGRFTFSLDDSKNTAYLQINSLRAEDTAVYFCTRRGYDWYFDVWGQGTTVTV；和(ii)可变轻链(VL)序列，其与以下序列具有至少90％的序列同一性：DIQMTQSPSSLSASVGDRVTITCRASQDINSYLSWFQQKPGKAPKT LIYRANRLESGVPSRFSGSGSGTDYTLTISSLQYEDFGIYYCQQYDE SPWTFGGGTKLEIK。在一些实施方案中，CFP还包含胞内结构域，其中胞内结构域包含一个或多个胞内信号传导结构域，并且其中包含胞内结构域的野生型蛋白质不包含胞外结构域。在一些实施方案中，所述一个或多个胞内信号传导结构域包含吞噬信号传导结构域。在一些实施方案中，吞噬信号传导结构域包含衍生自除Megf10、MerTk、FcαR和Bai1以外的受体的胞内信号传导结构域。在一些实施方案中，吞噬信号传导结构域包含衍生自FcγR、FcαR或FcεR的胞内信号传导结构域。在一些实施方案中，吞噬信号传导结构域包含与以下序列具有至少90％序列同一性的胞内信号传导结构域：LYCRRLKIQVRKAAITSYEKSDGVYTGLSTRNQETYETLKHEKPP。在一些实施方案中，一个或多个胞内信号传导结构域还包含促炎信号传导结构域。在一些实施方案中，促炎信号传导结构域包含PI3-激酶(PI3K)募集结构域。在一些实施方案中，促炎信号传导结构域包含与以下序列具有至少90％序列同一性的序列：YEDMRGILYAAPQLRSIRGQPGPNHEEDADSYENM。在一些实施方案中，促炎信号传导结构域衍生自CD40的胞内信号传导结构域。在一些实施方案中，促炎信号传导结构域包含与以下序列具有至少90％序列同一性的序列：KVAKKPTNKAPHPKQEPQEINFPDDLPGSNTAAPVQETLHGCQPV TQEDGKESRISVQERQ。在一些实施方案中，跨膜结构域包含CD8跨膜结构域。在一些实施方案中，跨膜结构域包含与以下序列具有至少90％序列同一性的序列：IYIWAPLAGTCGVLLLSLVIT。在一些实施方案中，胞外结构域还包含衍生自CD8的铰链结构域，其中所述铰链结构域可操作地连接到跨膜结构域和CD5结合结构域。在一些实施方案中，胞外结构域包含与以下序列具有至少90％序列同一性的序列：ALSNSIMYFSHFVPVFLPAKPTTTPAPRPPTPAPTIASQPLSLRPEAC RPAAGGAVHTRGLD。在一些实施方案中，CFP包含：含有特异性结合CD5的scFv和衍生自CD8的铰链结构域的胞外结构域；衍生自CD28的铰链结构域或来自CD68的胞外结构域的至少一部分；CD8跨膜结构域、CD28跨膜结构域或CD68跨膜结构域；以及包含至少两个胞内信号传导结构域的胞内结构域，其中所述至少两个胞内信号传导结构域包含：衍生自FcγR或FcεR的第一胞内信号传导结构域，和包含PI3K募集结构域或衍生自CD40的第二胞内信号传导结构域。在一些实施方案中，重组多核酸是mRNA或circRNA。在一些实施方案中，核酸被递送到骨髓细胞中。在一些实施方案中，核酸被递送到CD14+细胞、CD14+CD16-细胞、M0巨噬细胞、M2巨噬细胞、M1巨噬细胞或镶嵌骨髓细胞/巨噬细胞中。在一些实施方案中，融合蛋白包含与以下序列具有至少90％序列同一性的序列：EIQLVQSGGGLVKPGGSVRISCAASGYTFTNYGMNWVRQAPGKGLEWMGWINTHTGEPTYADSFKGRFTFSLDDSKNTAYLQINSLRAEDTAVYFCTRRGYDWYFDVWGQGTTVTVSSGGGGSGGGGSGGGGSDIQMTQSPSSLSASVGDRVTITCRASQDINSYLSWFQQKPGKAPKTLIYRANRLESGVPSRFSGSGSGTDYTLTISSLQYEDFGIYYCQQYDESPWTFGGGTKLEIKSGGGGSGALSNSIMYFSHFVPVFLPAKPTTTPAPRPPTPAPTIASQPLSLRPEACRPAAGGAVHTRGLDIYIWAPLAGTCGVLLLSLVITLYCRRLKIQVRKAAITSYEKSDGVYTGLSTRNQETYETLKHEKPPQGSGSYEDMRGILYAAPQLRSIRGQPGPNHEEDADSYENM。在一些实施方案中，融合蛋白包含与以下序列具有至少90％序列同一性的序列：EIQLVQSGGGLVKPGGSVRISCAASGYTFTNYGMNWVRQAPGKGLEWMGWINTHTGEPTYADSFKGRFTFSLDDSKNTAYLQINSLRAEDTAVYFCTRRGYDWYFDVWGQGTTVTVSSGGGGSGGGGSGGGGSDIQMTQSPSSLSASVGDRVTITCRASQDINSYLSWFQQKPGKAPKTLIYRANRLESGVPSRFSGSGSGTDYTLTISSLQYEDFGIYYCQQYDESPWTFGGGTKLEIKSGGGGSGALSNSIMYFSHFVPVFLPAKPTTTPAPRPPTPAPTIASQPLSLRPEACRPAAGGAVHTRGLDIYIWAPLAGTCGVLLLSLVITLYCRLKIQVRKAAITSYEKSDGVYTGLSTRNQETYETLKHEKPPQKKVAKKPTNKAPHPKQEPQEINFPDDLPGSNTAAPVQETLHGCQPVTQEDGKESRISVQERQ或EIQLVQSGGGLVKPGGSVRISCAASGYTFTNYGMNWVRQAPGKGLEWMGWINTHTGEPTYADSFKGRFTFSLDDSKNTAYLQINSLRAEDTAVYFCTRRGYDWYFDVWGQGTTVTVSSGGGGSGGGGSGGGGSDIQMTQSPSSLSASVGDRVTITCRASQDINSYLSWFQQKPGKAPKTLIYRANRLESGVPSRFSGSGSGTDYTLTISSLQYEDFGIYYCQQYDESPWTFGGGTKLEIKSGGGGSGALSNSIMYFSHFVPVFLPAKPTTTPAPRPPTPAPTIASQPLSLRPEACRPAAGGAVHTRGLDIYIWAPLAGTCGVLLLSLVITLYCRRLKIQVRKAAITSYEKSDGVYTGLSTRNQETYETLKHEKPPQKKVAKKPTNKAPHPKQEPQEINFPDDLPGSNTAAPVQETLHGCQPVTQEDGKESRISVQERQ。

在一些实施方案中，融合蛋白为跨膜蛋白、胞内蛋白或胞内蛋白。在一个实施方案中，融合蛋白旨在增强选自以下的免疫细胞(例如，骨髓细胞)的功能：单核细胞、巨噬细胞树突状细胞或其前体。在一个实施方案中，融合蛋白增强免疫细胞的细胞功能，诸如吞噬作用。本公开不受可使用所述方法和组合物表达的转基因的限制。本部分中指出的转基因是示例性的。

本文提供了示例性转基因候选物，用于稳定整合到吞噬细胞的基因组中。在一个实施方案中，转基因是编码吞噬细胞受体(PR)融合蛋白(CFP)的重组核酸。重组核酸具有PR亚基，其包含：(i)跨膜结构域，和(ii)包含吞噬细胞受体胞内信号传导结构域的胞内结构域；以及对靶细胞的抗原有特异性的胞外抗原结合结构域；其中跨膜结构域与胞外抗原结合结构域可操作地连接，从而抗原通过在吞噬细胞受体的胞内信号传导结构域中激活的融合受体的胞外抗原结合结构域而与靶标结合。在一些实施方案中，重组核酸编码嵌合抗原受体。在一些实施方案中，嵌合抗原受体是嵌合抗原受体(吞噬作用)(CAR-P)。在一些实施方案中，融合蛋白是用于锁定抗吞噬信号的重组蛋白。在一些实施方案中，融合蛋白是增强吞噬作用的嵌合蛋白。在一些实施方案中，嵌合蛋白具有包含活性吞噬信号转导结构域的胞内结构域。在一些实施方案中，嵌合蛋白通过增强其表达所在的吞噬细胞的炎症潜能来增强吞噬潜能。在一些实施方案中，转基因被设计为表达嵌合蛋白，所述嵌合蛋白通过与靶细胞中的抗原接触而被激活，由此吞噬细胞吞噬靶细胞并杀死靶细胞。

如关于融合蛋白所用的术语“间隔子”或“接头”是指连接融合蛋白的蛋白质结构域的肽序列。一般来说，除了连接或保持蛋白质或RNA序列之间的一定最小距离或其他空间关系之外，间隔子没有特定的生物活性。然而，在一些实施方案中，可以选择间隔子的组成氨基酸以影响分子的一些特性，诸如分子的折叠、净电荷或疏水性。适用于本公开的实施方案的合适接头是本领域技术人员熟知的并且包括但不限于直链或支链碳接头、杂环碳接头或肽接头。接头用于将两种抗原性肽分开足以确保在一些实施方案中每种抗原性肽适当折叠的距离。示例性肽接头序列采用柔性延伸构象，并且未表现出发展有序二级结构的倾向。柔性蛋白质区域中的典型氨基酸包括Gly、Asn和Ser。可预期含有Gly、Asn和Ser的氨基酸序列的几乎任何排列满足接头序列的以上标准。其他近中性氨基酸(诸如Thr和Ala)也可用于接头序列中。

下面描述了由转基因编码的各种示例性蛋白质，所述蛋白质可以被表达以增强吞噬细胞的免疫潜能。这不是详尽的列表，而是用作本公开范围内的转基因设计的示例性列表。

在一些实施方案中，PSP亚基包含吞噬细胞受体的跨膜(TM)结构域。

在一些实施方案中，PSP亚基包含吞噬细胞受体的ICD结构域。

在一些实施方案中，由重组核酸编码的ICD包含选自以下的结构域：凝集素、dectin 1、甘露糖受体(CD206)、清道夫受体A1(SRA1)、MARCO、CD36、CD163、MSR1、SCARA3、COLEC12、SCARA5、SCARB1、SCARB2、CD68、OLR1、SCARF1、SCARF2、CXCL16、STAB1、STAB2、SRCRB4D、SSC5D、CD205、CD207、CD209、RAGE、CD14、CD64、F4/80、CCR2、CX3CR1、CSF1R、Tie2、HuCRIg(L)和CD169受体。

在一些实施方案中，ICD包含衍生自以下各项中的任何一种或多种的信号传导结构域：凝集素、dectin 1、甘露糖受体(CD206)、清道夫受体A1(SRA1)、MARCO(具有胶原结构的巨噬细胞受体，别名：SRA6、SCARA2)、CD36(血小板反应蛋白受体，别名：清道夫受体B类，成员3)、CD163(清道夫受体，富含半胱氨酸-1型)、MSR1、SCARA3、COLEC12(别名：具有C型凝集素、SCARA4或胶原凝集素12的清道夫受体)、SCARA5、SCARB1、SCARB2、CD68(SCARD、微唾液酸转运蛋白(microsialin))、OLR1(氧化低密度脂蛋白受体1、LOX1或C型凝集素结构域家族8成员A)、SCARF1、SCARF2、SRCRB4D、SSC5D和CD169(别名，唾液酸粘附素受体，SIGLEC1)。

在一些实施方案中，重组核酸编码例如，人MARCO的胞内结构域。PSR亚基包含具有人MARCO的44个氨基酸的胞内结构域ICD，其具有氨基酸序列：MRNKKILKEDELLSETQQAAFHQIAMEPFEINVPKPKRRNGVNF。在一些实施方案中，PSR亚基包含与MARCO的胞内结构域至少70％、75％、80％、85％、90％或95％相同的变体。

在一些实施方案中，例如，PSR(吞噬性清道夫受体)包含人MARCO的跨膜区。

在一些实施方案中，重组核酸编码人SRA1的胞内结构域。PSR亚基包含具有人SRA1的50个氨基酸的胞内结构域ICD，其具有氨基酸序列：MEQWDHFHNQQEDTDSCSESVKFDARSMTALLPPNPKNSPSLQEKLKSFK。在一些实施方案中，PSR亚基包含与人SRA1的胞内结构域至少70％、75％、80％、85％、90％或95％相同的变体。SRA的胞内区具有磷酸化位点。

在一些实施方案中，PSR包含人SRA1的跨膜区。

在一些实施方案中，例如，重组核酸包含CD36的胞内结构域。在一些实施方案中，重组核酸包含CD36的TM结构域。天然存在的全长CD36具有两个TM结构域和两个短的胞内结构域，并且CD36的胞外结构域与氧化的LDL结合。两个胞内结构域都含有脂肪酸酰化的半胱氨酸对。它缺乏已知的信号传导结构域(例如，激酶、磷酸酶、g-蛋白结合或支架结构域)。N末端胞质结构域极短(5-7个氨基酸残基)，并且与质膜内部小叶紧密相连。羧基末端结构域包含13个氨基酸，包含与CD4和CD8的胞内结构域中已知与信号传导分子相互作用的区域同源的CXCX5K基序。CD36的胞内结构域能够组装信号传导复合物，其激活lyn激酶、MAP激酶和粘着斑激酶(FAK)，并使含有src同源性2的磷酸酪氨酸磷酸酶(SHP-2)失活。鸟嘌呤核苷酸交换因子(GEF)的成员已被确定为潜在的关键信号传导中间体。

在一些实施方案中，重组核酸编码例如，人SCARA3的胞内结构域。在一些实施方案中，PSR亚基包含与人SCARA3的胞内结构域至少70％、75％、80％、85％、90％或95％相同的变体。在一些实施方案中，PSR包含SCARA3的TM结构域。在一些实施方案中，TM结构域长约20-30个氨基酸。

清道夫受体可以以同二聚体或异二聚体的形式出现。例如，MARCO作为同三聚体出现。

在一些实施方案中，PSP的TM结构域或ICD结构域不是衍生自FcR、Megf10、Bai1或MerTK。在一些实施方案中，PSR的ICD不包含CD3ζ胞内结构域。

在一些实施方案中，胞内结构域和跨膜结构域衍生自FcRβ。

在一个方面，重组核酸编码增强的吞噬作用的嵌合抗原受体(CAR-P)，其是吞噬性清道夫受体(PSR)融合蛋白(CFP)，包括：(a)胞外结构域，包含对靶细胞的抗原具有特异性的胞外抗原结合结构域，(b)跨膜结构域，和(c)重组PSR胞内信号传导结构域，其中重组PSR胞内信号传导结构域包含衍生自吞噬细胞受体的第一部分和衍生自非吞噬细胞受体的第二部分。

在一些实施方案中，第二部分不是PI3K募集结构域。在一些实施方案中，第二部分是PI3K募集结构域。

衍生自非吞噬细胞受体的第二部分可以包含胞内信号传导结构域，其增强表达重组核酸的工程化吞噬细胞的吞噬作用和/或炎症潜能。在一些实施方案中，衍生自非吞噬细胞受体的第二部分包含多于一个胞内结构域(ICD)。在一些实施方案中，衍生自非吞噬细胞受体的第二部分包含第二ICD。在一些实施方案中，衍生自非吞噬细胞受体的第二部分包含第二和第三ICD。在一些实施方案中，衍生自非吞噬细胞受体的第二部分包含第二、第三和第四ICD，其中第二部分由重组核酸编码。包含衍生自非吞噬细胞受体的第二、或第三或第四ICD的相应第二部分描述如下。

用于增强胞内信号传导和炎症激活的嵌合抗原受体

在一个方面，除了吞噬性ICD之外，重组核酸还编码第二胞内结构域，其赋予有效促炎免疫激活的能力，例如当巨噬细胞参与对抗感染时。第二胞内结构域(第二ICD)融合到第一吞噬性ICD的胞质末端。第二胞内结构域提供了触发炎性体和促炎信号所必需的第二信号。Nod样受体(NLR)是先天免疫应答中激活的受体亚群，其寡聚化以形成多蛋白复合物，所述多蛋白复合物充当募集促炎半胱天冬酶并诱导其切割和激活的平台。这导致ROS的直接激活，并经常导致称为细胞焦亡(Pyroptosis)的剧烈细胞死亡。有四种炎性体复合物，NLRP1m、NLRP3、IPAF和AIM2。

肿瘤微环境(TME)构成了免疫抑制性环境。IL-10、糖皮质激素、凋亡细胞和免疫复合物的影响可干扰先天免疫细胞功能。包括吞噬细胞在内的免疫细胞形成耐受性表型。在巨噬细胞中，这种表型(通常称为M2表型)不同于M1表型，其中巨噬细胞有效且能够杀伤病原体。例如，暴露于LPS或IFN-γ的巨噬细胞可以朝向M1表型极化，而暴露于IL-4或IL-13的巨噬细胞将朝向M2表型极化。LPS或IFN-γ可以与巨噬细胞表面上的Toll样受体4(TLR4)相互作用，从而诱导Trif和MyD88途径，诱导转录因子IRF3、AP-1和NFKB的激活且因此激活在促炎性M1巨噬细胞应答中必需的TNF基因、干扰素基因、CXCL10、NOS2、IL-12等。类似地，IL-4和IL-13结合至IL-4R，激活Jak/Stat6途径，从而调控作为与抗炎应答(M2应答)相关的基因CCL17、ARG1、IRF4、IL-10、SOCS3等的表达。CD14、CD80、D206的表达和CD163的低表达指示朝向M1表型的巨噬细胞极化。

在一些实施方案中，重组核酸编码一个或多个另外的胞内结构域，包括用于炎症应答的胞质结构域。在一些实施方案中，编码包含用于工程化巨噬细胞中的炎症性应答的胞质结构域的吞噬细胞受体(PR)融合蛋白(CFP)的重组核酸的表达赋予类似于M1表型的强促炎性应答。

在一些实施方案中，用于炎症应答的胞质结构域可以是以下各项的信号转导结构域或区：TLR3、4、9、MYD88、TRIF、RIG-1、MDA5、CD40、IFN受体、NLRP-1-14、NOD1、NOD2、Pyrin、AIM2、NLRC4、CD40。

在一些实施方案中，编码吞噬性清道夫受体(PSR)融合蛋白(CFP)的重组核酸的表达包含用于激活IL-1信号传导级联的促炎性胞质结构域。

在一些实施方案中，嵌合受体(例如，吞噬细胞受体(PR)融合蛋白(CFP))的胞质部分包含来自toll样受体的胞质结构域，例如toll样受体3(TLR3)、toll样受体4(TLR4)、toll样受体7(TLR7)、toll样受体8(TLR8)、toll样受体9(TLR9)的胞内信号传导结构域。在一些实施方案中，嵌合受体的胞质部分包含来自白介素-1受体相关激酶1(IRAK1)的合适区域。在一些实施方案中，嵌合受体的胞质部分包含来自分化初级应答蛋白(MYD88)的合适区域。在一些实施方案中，嵌合受体的胞质部分包含来自髓磷脂和淋巴细胞蛋白(MAL)的合适区域。在一些实施方案中，嵌合受体的胞质部分包含来自视黄酸诱导型基因(RIG-1)的合适区域。

在一些实施方案中，PSR的跨膜结构域包含MYD88、TLR3、TLR4、TLR7、TLR8、TLR9、MAL、IRAK1蛋白质中任一种的跨膜结构域。

在一些实施方案中，重组PSR胞内信号传导结构域包含衍生自吞噬细胞受体的第一部分和衍生自非吞噬细胞受体的第二部分，其中衍生自非吞噬细胞受体的第二部分包含磷酸化位点。在一些实施方案中，磷酸化位点包含适用于自磷酸化位点的氨基酸序列。在一些实施方案中，磷酸化位点包含适合被Src家族激酶磷酸化的氨基酸序列。在一些实施方案中，磷酸化位点包含氨基酸序列，其在磷酸化时能够与激酶中的SH2结构域结合。在一些实施方案中，除了第一胞质部分之外，受体酪氨酸激酶结构域在CFP的胞质末端融合。在一些实施方案中，磷酸化是酪氨酸磷酸化。

在一些实施方案中，第二胞内结构域是免疫受体酪氨酸激活基序(ITAM)。ITAM基序存在于哺乳动物α和β免疫球蛋白、TCRγ受体、FCRγ受体亚基、CD3链受体和NFAT激活分子中。

在一些实施方案中，CFP胞内结构域包含一个ITAM基序。在一些实施方案中，CFP胞内结构域包含多于一个ITAM基序。在一些实施方案中，CFP胞内结构域包含两个或更多个ITAM基序。在一些实施方案中，CFP胞内结构域包含三个或更多个ITAM基序。在一些实施方案中，CFP胞内结构域包含四个或更多个ITAM基序。在一些实施方案中，CFP胞内结构域包含五个或更多个ITAM基序。在一些实施方案中，CFP胞内结构域包含六个或更多个ITAM基序。在一些实施方案中，CFP胞内结构域包含七个或更多个ITAM基序。在一些实施方案中，CFP胞内结构域包含八个或更多个ITAM基序。在一些实施方案中，CFP胞内结构域包含九个或更多个ITAM基序。在一些实施方案中，CFP胞内结构域包含十个或更多个ITAM基序。

在一些实施方案中，第一吞噬性ICD中的一个或多个结构域包含突变。

在一些实施方案中，第二ICD中的一个或多个结构域包含突变以增强激酶结合结构域、产生磷酸化位点、产生SH2对接位点或其组合。

炎症基因的共表达

在一个方面，重组核酸包含促炎基因的编码序列，其在工程化细胞中与CFP共表达。在一些实施方案中，促炎基因是细胞因子。实例包括但不限于TNF-α、IL-1α、IL-1β、IL-6、CSF、GMCSF或IL-12或干扰素。

编码促炎基因的重组核酸可以是单顺反子的，其中(a)PSP和(b)促炎基因的两个编码序列被转录后或翻译后切割以独立表达。

在一些实施方案中，两个编码序列包含例如编码P2A序列的自切割型结构域。

在一些实施方案中，两个编码区被IRES位点分开。

在一些实施方案中，两个编码序列由双顺反子遗传元件编码。(a)PSP和(b)促炎基因的编码区可以是单向的，其中每个都处于单独的调控控制之下。在一些实施方案中，两者的编码区是双向的并且以相反方向驱动。每个编码序列都处于单独的调控控制之下。

促炎基因的共表达被设计为赋予巨噬细胞强烈的炎症刺激，并激活周围组织的炎症。

整合素激活结构域

细胞-细胞和细胞-基质粘附是由整合素胞外结构域与多种蛋白质配体的结合介导的；然而，对这些粘附相互作用的细胞控制及其转化为动态细胞应答，诸如细胞扩散或迁移，需要整合素胞质尾区。这些短尾与胞内配体结合，胞内配体将受体连接到信号传导通路和细胞骨架网络(Calderwood DA,2004,Integrin Activation,Journal of Cell Science117,657-666)。整合素是由α和β亚基非共价缔合形成的异二聚体粘附受体。每个亚基都是I型跨膜糖蛋白，具有相对较大的胞外结构域，并且除了β4亚基外，还有短的胞质尾区。各个整合素家族成员具有识别多个配体的能力。整合素可以与大量的胞外基质蛋白(骨基质蛋白、胶原蛋白、纤连蛋白、纤维蛋白原、层粘连蛋白、血小板反应蛋白、玻连蛋白和血管性血友病因子)结合，反映了整合素在细胞与胞外基质粘附中的主要功能。许多“反受体”是配体，反映了整合素在介导细胞间相互作用中的作用。整合素经历构象变化以增加配体亲和力。

整合素β₂亚家族由四种不同的整合素受体组成，即α_Mβ₂(CD11b/CD18、Mac-1、CR3,Mo-1)、α_Lβ₂(CD11a/CD18、LFA-1)、α_Xβ₂(CD11c/CD18)和α_Dβ₂(CD11d/CD18)。这些白细胞整合素几乎参与白细胞功能的每个方面，包括免疫应答、对内皮细胞的粘附和通过内皮细胞的转运、对病原体的吞噬和白细胞激活。

所有β₂整合素的α亚基包含约200个氨基酸的插入区域，称为I或A结构域。在其他几种整合素α亚基和其他蛋白质(例如，某些凝血蛋白和补体蛋白)中发现了高度保守的I结构域。I结构域介导蛋白质-蛋白质相互作用，并且在整合素中，它们完整地参与蛋白质配体的结合。尽管I结构域在其整合素的配体结合功能中占主导地位，但α亚基的其他区域确实影响配体识别。例如，在α_Mβ₂中，识别I结构域外但在α_M亚基中的表位的mAb(OKM1)抑制配体结合；α_Lβ₂和α₂β₁中的EF-手掌区，在其α亚基中具有I结构域的整合素，有助于配体识别。α_M亚基，也许还有其他α亚基，包含凝集素样结构域，它参与对非蛋白质配体的接合，并且占据可能调节I结构域的功能。

由于整合素缺乏酶活性，因此信号传导是由质膜的细胞质面上的信号传导复合物的组装诱导的。这些复合物的形成以两种方式实现：首先，通过受体簇集，由此增加了分子相互作用的亲合力，从而增加了效应分子的结合率，其次，通过诱导受体的构象变化，由此产生或暴露效应物结合位点。在ECM中，整合素能够结合纤连蛋白、层粘连蛋白、胶原蛋白、腱生蛋白、玻连蛋白和血小板反应蛋白。整合素/ECM相互作用的簇形成粘着斑，将细胞骨架组分和信号传导分子集中在细胞内。整合素的胞质尾区充当α-辅肌动蛋白和踝蛋白的结合位点，然后募集粘着斑蛋白，即一种参与将F-肌动蛋白锚定到膜上的蛋白质。踝蛋白被激酶例如蛋白激酶C(PKCα)激活。

整合素由选择素激活。白细胞表达L-选择素，激活的血小板表达P-选择素，并且激活的内皮细胞表达E-选择素和P-选择素。P-选择素介导的粘附能实现对β2整合素的趋化因子或血小板激活因子触发的激活，其使粘附稳定化。它还有助于从粘附的白细胞中释放趋化因子。P-选择素糖蛋白配体1的胞质结构域与Nef相关因子1形成组成型复合物。在结合P-选择素后，Src激酶磷酸化Nef相关因子1，其募集磷酸肌醇-3-OH激酶p85-p110δ异二聚体并导致白细胞整合素的激活。E-选择素配体转导也影响β2整合素功能的信号。选择素触发Src家族激酶的激活。通过选择素参与而激活的SFK磷酸化DAP12和FcRγ的胞质结构域中基于免疫受体酪氨酸的激活基序(ITAM)。在一些方面，CD44足以转导来自E-选择素的信号。CD44触发整合素的由内而外的信号传导。整合素激活的最后常见步骤是将踝蛋白结合到β亚基的胞质尾区。Kindlin是另一组胞质衔接子，与整合素β尾区的不同区域结合。Kindlin增加了踝蛋白激活的整合素的簇集。Kindlin对选择素信号传导作出应答，然而，kindlin主要存在于造血细胞中，例如嗜中性粒细胞。选择素信号传导以及趋化因子组分激活整合素时的信号传导具有共同的组分，包括SFK、Syk和SLP-76。

在一些实施方案中，重组PSR融合蛋白的胞内结构域包含整合素激活结构域。整合素激活结构域包含选择素例如P-选择素、L-选择素或E-选择素的胞内结构域。

在一些实施方案中，重组PSR融合蛋白的胞内结构域包含层粘连蛋白的整合素激活结构域。

在一些实施方案中，重组PSR融合蛋白的胞内结构域包含用于激活踝蛋白的整合素激活结构域。

在一些实施方案中，重组PSR融合蛋白的胞内结构域包含与吞噬细胞受体ICD结构域的胞质末端融合的整合素激活结构域。

用于增强抗原交叉呈递的嵌合受体

在一些实施方案中，重组核酸编码能够实现抗原的交叉呈递的结构域。通常，MHCI类分子呈递在细胞内合成的自身或病原体衍生的抗原，而通过内吞摄取衍生的外源性抗原被加载到MHC II类分子上以呈递给CD4+T细胞。内源性抗原的MHC I限制性呈递，其中肽由蛋白酶体产生。然而，在某些情况下，DC可以将外源性抗原加工成MHC-I通路以呈递给CD8+T细胞。这被称为抗原的交叉呈递。可溶性或外源性抗原组分可能被液泡中的溶酶体蛋白酶降解并被DC交叉呈递，而不是遵循内吞通路。在某些情况下，分子伴侣，例如热激蛋白质90(Hsp90)已显示有助于由某些APC交叉呈递抗原。已知与游离多肽相比，HSP-肽复合物被一组不同的受体内化。这些受体来自清道夫受体家族，并且包括LOX-1、SREC-I/SCARF-I和FEEL1/Stabilin-1。SREC-I和LOX-1均已显示介导分子伴侣结合的抗原的交叉呈递并导致CD8+T淋巴细胞的激活。

SREC-1(由内皮细胞表达的清道夫受体)与其他类型的清道夫受体没有明显的同源性，但具有独特的结构域结构。它在胞外结构域中包含10个EGF样富含半胱氨酸的基序的重复。最近，SREC-I的结构被证明与具有由秀丽隐杆线虫(Caenorhabditis elegans)基因ced-I编码的16个EGF样重复序列的跨膜蛋白的结构相似，其充当识别凋亡细胞的细胞表面吞噬细胞受体。

通过I类MHC通路交叉呈递癌抗原导致增强的CD8+T细胞应答，这与细胞毒性有关，因此有利于肿瘤消退。在一些实施方案中，CFP的胞内结构域包含SREC1胞内结构域。在一些实施方案中，CFP的胞内结构域包含SRECII胞内结构域。

在一些实施方案中，PSR亚基包括：包含来自SREC1或SRECII的PSR胞内信号传导结构域的胞内结构域。

在一些实施方案中，PSR亚基包括：(i)跨膜结构域，和(ii)包含来自SREC1或SRECII的PSR胞内信号传导结构域的胞内结构域。

在一些实施方案中，PSR亚基包括：(i)跨膜结构域，(ii)包含PSR胞内信号传导结构域的胞内结构域，和(iii)来自SREC1或SRECII的胞外结构域。

CFP融合蛋白的跨膜结构域

在一些实施方案中，由重组核酸编码的TM包含清道夫受体(SR)的结构域。在一些实施方案中，TM可以是以下各项中的任何一种或多种的TM结构域或衍生自以下各项中的任何一种或多种的TM结构域：凝集素、dectin 1、甘露糖受体(CD206)、SRA1、MARCO、CD36、CD163、MSR1、SCARA3、COLEC12、SCARA5、SCARB1、SCARB2、CD68、OLR1、SCARF1、SCARF2、SRCRB4D、SSC5D和CD169。

在一些实施方案中，TM结构域长约20-30个氨基酸。SR的TM结构域长约20-30个氨基酸。

PSP的TM结构域或ICD结构域并非衍生自Megf10、Bai1或MerTK。PSR的ICD不包含CD3ζ胞内结构域。

在一些实施方案中，TM衍生自与ICD相同的吞噬细胞受体。

在一些实施方案中，TM区衍生自质膜蛋白。TM可以选自Fc受体(FcR)。在一些实施方案中，编码来自特定FcR的结构域的核酸序列用于对重组构建体的细胞特异性表达。包含TM结构域的FCR-α区可用于巨噬细胞对构建体的特异性表达。FcRβ重组蛋白可以在肥大细胞中表达。

在一些实施方案中，CFP包含FCR-β(FcRβ)的TM。

在一些实施方案中，CFP包含FcRβΤΜ和ICD结构域两者。

在一些实施方案中，TM结构域衍生自CD8。

在一些实施方案中，TM衍生自CD2。

在一些实施方案中，TM衍生自FCRα。

CFP融合蛋白的胞外结构域

胞外结构域包含与靶细胞上的一种或多种靶抗原结合的抗原结合结构域。靶标结合结构域对靶标有特异性。胞外结构域可以包括抗体或抗原结合结构域，其选自胞内抗体、肽抗体、纳米抗体、单域抗体、SMIP和多特异性抗体。

在一些实施方案中，胞外结构域包括Fab结合结构域。在其他这样的实施方案中，胞外结构域包括scFv。

在一些实施方案中，嵌合抗原受体包含衍生自以下各项中的胞外抗原结合结构域：抗原结合片段(Fab)、单链可变片段(scFv)、纳米抗体、VH结构域、VL结构域、单域抗体(sdAb)、VNAR结构域和VHH结构域、双特异性抗体、双抗体或其任何的功能性片段。在一些实施方案中，抗原结合片段(Fab)、单链可变片段(scFv)、纳米抗体、VH结构域、VL结构域、单域抗体(sdAb)、VNAR结构域和VHH结构域、双特异性抗体、双抗体或其任何的功能性片段特异性结合至一种或多种抗原。

在一些实施方案中，抗原是癌抗原，并且靶细胞是靶癌细胞。在一些实施方案中，靶癌细胞的抗原选自CD3、CD4、CD5、CD7、CD19、CCR2、CCR4、CD30、CD37、TCRB1/2、TCR、TCR、CD22、HER2(ERBB2/neu)、间皮素、PSCA、CD123、CD30、CD171、CD138、CS-1、CLECL1、CD33、CD79b、EGFRvIII、GD2、GD3、BCMA、PSMA、ROR1、FLT3、TAG72、CD38、CD44v6、CEA、EPCAM、B7H3(CD276)、KIT(CD 117)、CD213A2、IL-1IRa、PRSS21、VEGFR2、CD24、MUC-16、PDGFR-β、SSEA-4、CD20、MUC1、EGFR、NCAM、前列腺酶、PAP、ELF2M、肝配蛋白B2、FAP、EphA2、GM3、TEM1/CD248、TEM7R、CLDN6、TSHR、GPRC5D、CD97、CD179a、ALK和IGLL1。

多种癌抗原靶标可以选自本领域技术人员已知的癌抗原。根据癌症和涉及的细胞类型，癌抗原是突变的天然蛋白质。针对突变/癌抗原而非天然抗原的特异性来筛选抗原结合结构域。

在一些实施方案中，例如，靶癌细胞的癌抗原可以是突变/癌抗原中的一种或多种：MUC16、CCAT2、CTAG1A、CTAG1B、MAGE A1、MAGEA2、MAGEA3、MAGE A4、MAGEA6、PRAME、PCA3、MAGE C1、MAGEC2、MAGED2、AFP、MAGEA8、MAGE9、MAGEA11、MAGEA12、IL13RA2、PLAC1、SDCCAG8、LSP1、CT45A1、CT45A2、CT45A3、CT45A5、CT45A6、CT45A8、CT45A10、CT47A1、CT47A2、CT47A3、CT47A4、CT47A5、CT47A6、CT47A8、CT47A9、CT47A10、CT47A11、CT47A12、CT47B1、SAGE1和CT55。

在一些实施方案中，例如，靶癌细胞的癌抗原可以是突变/癌抗原中的一种或多种：CD2、CD3、CD4、CD5、CD7、CD8、CD20、CD30、CD45、CD56，其中癌症是T细胞淋巴瘤。

在一些实施方案中，例如，靶癌细胞的癌抗原可以是突变/癌抗原中的一种或多种：IDH1、ATRX、PRL3或ETBR，其中癌症是胶质母细胞瘤。

在一些实施方案中，例如，靶癌细胞的癌抗原可以是突变/癌抗原中的一种或多种：CA125、β-hCG、尿促性腺激素片段、AFP、CEA、SCC、抑制素或外二醇，其中癌症是卵巢癌。

在一些实施方案中，靶癌细胞的癌抗原可以是HER2。

在一些实施方案中，靶癌细胞的癌抗原可以是EGFR变体III。

在一些实施方案中，靶癌细胞的癌抗原可以是CD19。

在一些实施方案中，SR亚基区包含清道夫受体的胞外结构域(ECD)。在一些实施方案中，清道夫受体的ECD包含含有ICD和TM结构域的SR的ECD结构域。在一些实施方案中，SR-ECD有助于吞噬细胞与靶细胞的结合，进而被激活，并激活对靶细胞的吞噬。

在一些实施方案中，PSR结构域任选地包含相应清道夫受体的ECD结构域或其部分，其ICD和TM结构域被掺入PSR中。因此，在一些实施方案中，在一些实施方案中，由重组核酸编码的ECD包含选自凝集素、dectin 1、甘露糖受体(CD206)、清道夫受体A1(SRA1)、MARCO、CD36、CD163、MSR1、SCARA3、COLEC12、SCARA5、SCARB1、SCARB2、CD68、OLR1、SCARF1、SCARF2、CXCL16、STAB1、STAB2、SRCRB4D、SSC5D、CD205、CD207、CD209、RAGE、CD14、CD64、F4/80、CCR2、CX3CR1、CSF1R、Tie2、HuCRIg(L)和CD169受体中的结构域。大多数巨噬细胞清道夫受体的胞外结构域包含具有广泛结合特异性的清道夫受体，其可用于在外来物质的非特异性抗体非依赖性识别中区分自身和非自身。I型和II型A类清道夫受体(SR-AI1和SR-AII)是三聚体膜糖蛋白，具有小的NH2末端胞内结构域，且胞外部分含有短间隔区结构域、a-螺旋卷曲螺旋结构域和三螺旋胶原结构域。I型受体还包含富含半胱氨酸的COOH末端(SRCR)结构域。这些受体存在于全身各种组织中的巨噬细胞中，并表现出异常广泛的配体结合特异性。它们结合各种聚阴离子，包括化学修饰的蛋白质，例如修饰的LDL，并且它们与动脉粥样硬化形成过程中胆固醇沉积有关。它们还可在巨噬细胞相关宿主防御和炎症条件下在细胞粘附过程中发挥作用。

在一些实施方案中，SR ECD被设计为与促凋亡性细胞结合。在一些实施方案中，清道夫受体ECD包含针对癌细胞或受感染细胞的细胞表面分子的结合结构域。

在一些实施方案中，PR亚基的胞外结构域通过接头而连接至靶细胞结合结构域，例如对癌抗原特异的抗体或其部分。

在一些实施方案中，胞外抗原结合结构域包含一个抗原结合结构域。在一些实施方案中，胞外抗原结合结构域包含多于一个结合结构域。在一些实施方案中，结合结构域是scFv。在一些实施方案中，结合结构域是单域抗体(sdAb)。在一些实施方案中，结合结构域在胞外结构域处与重组PR融合。在一些实施方案中，结合结构域(例如scFv)与PR的胞外结构域通过接头连接。

在一些实施方案中，ECD抗原结合结构域可以结合至胞内抗原。在一些实施方案中，胞内抗原是癌抗原。

在一些实施方案中，胞外抗原结合结构域以小于1000nM的亲和力结合至靶配体。在一些实施方案中，胞外抗原结合结构域以小于500nM的亲和力结合至靶配体。在一些实施方案中，胞外抗原结合结构域以小于450nM的亲和力结合至靶配体。在一些实施方案中，胞外抗原结合结构域以小于400nM的亲和力结合至靶配体。在一些实施方案中，胞外抗原结合结构域以小于350nM的亲和力结合至靶配体。在一些实施方案中，胞外抗原结合结构域以小于250nM的亲和力结合至靶配体。在一些实施方案中，胞外抗原结合结构域以小于200nM的亲和力结合至靶配体。在一些实施方案中，胞外抗原结合结构域以小于100nM的亲和力结合至靶配体。在一些实施方案中，胞外抗原结合结构域以范围在200nM至1000nM之间的亲和力结合至靶配体。在一些实施方案中，胞外抗原结合结构域以范围在300nM至1.5mM之间的亲和力结合至靶配体。在一些实施方案中，抗原结合结构域以>200nM、>300nM或>500nM的亲和力结合至靶配体。

肽接头

在一些实施方案中，胞外抗原结合结构域scFv通过接头连接到TM结构域或其他胞外结构域。在一些实施方案中，当胞外抗原结合结构域处存在多于一个scfv时，多于一个scfv通过接头彼此连接。

在一些实施方案中，接头是柔性的。在一些实施方案中，接头包含铰链区。接头通常是短肽序列。在一些实施方案中，接头是甘氨酸和一个或多个丝氨酸残基的区段。对于短肽接头优选的其他氨基酸包括但不限于苏氨酸(Thr)、丝氨酸(Ser)、脯氨酸(Pro)、甘氨酸(Gly)、天冬氨酸(Asp)、赖氨酸(Lys)、谷氨酰胺(Gln)、天冬酰胺(Asn)、和丙氨酸(Ala)、精氨酸(Arg)、苯丙氨酸(Phe)、谷氨酸(Glu)。在这些之中，Pro、Thr和Gln是天然接头经常使用的氨基酸。Pro是独特的氨基酸，其具有导致非常受限的构象的环状侧链。富含Pro的序列用作结构域之间的接头，包括丙酮酸脱氢酶中硫辛酰基与E3结合结构域之间的接头(GA₂PA₃PAKQEA₃PAPA₂KAEAPA₃PA₂KA)。出于本公开文本的目的，经验性接头可以是柔性接头、刚性接头和可裂解型接头。序列诸如(G4S)x(其中x是部分的多个拷贝，指定为1、2、3、4等)包含柔性接头序列。本文所用的其他柔性序列包含若干个甘氨酸重复，例如(Gly)6或(Gly)8。另一方面，可以使用刚性接头，例如接头(EAAAK)x，其中x是整数1、2、3、4等，产生刚性接头。

在一些实施方案中，接头包含至少2个或至少3个氨基酸。在一些实施方案中，接头包含4个氨基酸。在一些实施方案中，接头包含5个氨基酸。在一些实施方案中，接头包含6个氨基酸。在一些实施方案中，接头包含7个氨基酸。在一些实施方案中，接头包含8个氨基酸。在一些实施方案中，接头包含9个氨基酸。在一些实施方案中，接头包含8个氨基酸。在一些实施方案中，接头包含10个氨基酸。在一些实施方案中，接头包含11个氨基酸。在一些实施方案中，接头包含12个氨基酸。在一些实施方案中，接头包含13个氨基酸。在一些实施方案中，接头包含14个氨基酸。在一些实施方案中，接头包含15个氨基酸。在一些实施方案中，接头包含16个氨基酸。在一些实施方案中，接头包含17个氨基酸。在一些实施方案中，接头包含18个氨基酸。在一些实施方案中，接头包含19个氨基酸。在一些实施方案中，接头包含20个氨基酸。

如本文所设想，任何合适的ECD、TM或ICD结构域可被可互换地克隆到本公开中描述的任一CARP受体的合适部分中以获得与内源性受体相比具有增强的吞噬作用的蛋白质。

融合蛋白的特征：

CFP可以在结构上掺入其表达所在的细胞的细胞膜中。核酸构建体中的特定前导序列，诸如信号肽，可用于指导编码的蛋白质的质膜表达。由构建体编码的跨膜结构域可以将所表达的蛋白质掺入细胞的质膜中。

在一些实施方案中，跨膜结构域包含FcRα受体的TM结构域，其与巨噬细胞中的内源性FcR-γ受体二聚化，从而确保巨噬细胞特异性表达。

CFP可以使表达它的细胞具有强吞噬能力。当编码CFP的重组核酸在细胞中表达时，与不表达所述重组核酸的细胞相比，细胞可以表现出对具有靶细胞抗原的靶细胞增强的吞噬作用。当重组核酸在细胞中表达时，与不表达所述重组核酸的细胞相比，细胞可以表现出对具有靶细胞抗原的靶细胞增强的吞噬作用。在一些实施方案中，当重组核酸在细胞中表达时，与不表达所述重组核酸的细胞相比，细胞表现出对具有靶细胞抗原的靶细胞增强至少2倍的吞噬作用。在一些实施方案中，当重组核酸在细胞中表达时，与不表达所述重组核酸的细胞相比，细胞表现出对具有靶细胞抗原的靶细胞增强至少3倍、4倍、5倍、6倍、7倍、8倍、9倍、10倍、20倍、30倍或至少5倍的吞噬作用。

在一些实施方案中，SIRP-ΔICD的表达将对表达它的细胞的吞噬作用与不表达SIRP-ΔICD的细胞相比增强了1.1倍或更多、1.2倍或更多、1.3倍或更多、q.4倍或更多、1.5倍或更多、1.6倍或更多、1.7倍或更多、1.8倍或更多、1.9倍或更多、2倍或更多、3倍或更多、4倍或更多、5倍或更多、8倍或更多、10倍或更多、15倍或更多、20倍或更多、30倍或更多、40倍或更多、50倍或更多、60倍或更多、70倍或更多、80倍或更多、90倍或更多、100倍或更多。

在一些实施方案中，与不表达任一种蛋白质的细胞相比，共表达SIRP-ΔICD和编码如本文所述的吞噬细胞受体的CFP的细胞表现出增强的吞噬作用。在一些实施方案中，共表达SIRP-ΔICD和编码如本文所述的吞噬细胞受体的CFP，与既不表达SIRP-ΔICD也不表达编码吞噬细胞受体的CFP的细胞相比，表现出增强多于2倍、多于3倍、多于4倍、多于5倍、多于6倍、多于7倍、多于8倍、多于9倍、多于10倍、多于20倍、多于30倍、多于40倍、多于50倍、多于60倍、多于70倍、多于80倍、多于90倍、多于100倍或多于150倍或多于200倍的吞噬潜能(以吞噬指数的倍数变化测量)。

在一些实施方案中，表达SIRPα的CD47阻断胞外结构域和吞噬细胞受体的胞内结构域的任一种CFP的表达使表达它的细胞的吞噬活性与不表达CFP的细胞相比或与表达SIRP-ΔICD的细胞相比提高了至少1.5倍或更多、1.6倍或更多、1.7倍或更多、1.8倍或更多、1.9倍或更多、2倍或更多、3倍或更多、4倍或更多、5倍或更多、8倍或更多、10倍或更多、15倍或更多、20倍或更多、30倍或更多、40倍或更多、50倍或更多、60倍或更多、70倍或更多、80倍或更多、90倍或更多、100倍或更多。

在一些实施方案中，与不表达SIRP-ΔICD的吞噬细胞相比，表达任一SIRP-ΔICD的细胞对靶细胞的吞噬作用的增强得到高度提高。

在一些实施方案中，与不表达融合蛋白的对照吞噬细胞或表达SIRP-ΔICD的对照吞噬细胞相比，表达包含SIRPα的CD47阻断胞外结构域和吞噬细胞受体的胞内结构域的CFP的细胞对靶细胞的吞噬作用的增强得到高度提高。

在一些实施方案中，当本文所述的重组核酸在细胞中表达时，细胞表现出增加的细胞因子产量。细胞因子可以包括以下中的任一种：IL-1、IL-6、IL-12、IL-23、TNF、CXCL9、CXCL10、CXCL11、IL-18、IL-23、IL-27和干扰素。

在一些实施方案中，当本文所述的重组核酸在细胞中表达时，细胞表现出增加的细胞迁移。

在一些实施方案中，当本文所述的重组核酸在细胞中表达时，细胞表现出提高的免疫活性。在一些实施方案中，当重组核酸在细胞中表达时，细胞表现出增加的MHC II表达。在一些实施方案中，当重组核酸在细胞中表达时，细胞表现出增加的CD80表达。在一些实施方案中，当重组核酸在细胞中表达时，细胞表现出增加的CD86表达。在一些实施方案中，当重组核酸在细胞中表达时，细胞表现出增加的iNOS产量。

在一些实施方案中，当重组核酸在细胞中表达时，与不表达所述重组核酸的细胞相比，细胞表现出对表达靶细胞抗原的靶细胞的吞噬作用减弱。

在实施方案中，嵌合受体可以被糖基化、聚乙二醇化和/或以其他方式进行翻译后修饰。在进一步的实施方案中，糖基化、聚乙二醇化和/或其他翻译后修饰可以在体内或体外发生和/或可以使用化学技术进行。在另外的实施方案中，任何糖基化、聚乙二醇化和/或其他翻译后修饰可以是N-连接的或O-连接的。在实施方案中，任何一种嵌合受体可以是酶促或功能活性的，从而当胞外结构域被配体结合时，信号被转导以极化巨噬细胞。

在一些实施方案中，嵌合融合蛋白(CFP)包含靶向结合CD5(CD5结合结构域)的胞外结构域(ECD)，例如，包含具有如SEQ ID NO:1所示的氨基酸序列的重链可变区(VH)。在一些实施方案中，嵌合CFP包含CD5结合重链可变结构域，其包含与SEQ ID NO:1具有至少80％、85％、90％、95％、96％、97％、98％、99％序列同一性的氨基酸序列。在一些实施方案中，靶向结合CD5的胞外结构域(ECD)(CD5结合结构域)包含具有如SEQ ID NO:2所示的氨基酸序列的轻链可变结构域(V_L)。在一些实施方案中，嵌合CFP包含CD5结合轻链可变结构域，其包含与SEQ ID NO:2具有至少80％、85％、90％、95％、96％、97％、98％、99％序列同一性的氨基酸序列。

在一些实施方案中，CFP包含靶向结合HER2的胞外结构域(HER2结合结构域)，其具有例如SEQ ID NO:8所示的氨基酸序列的重链可变结构域和如SEQ ID NO:9所示的氨基酸序列的轻链可变结构域。在一些实施方案中，CFP包含HER2结合重链可变结构域，其包含与SEQ ID NO:8具有至少80％、85％、90％、95％、96％、97％、98％、99％序列同一性的氨基酸序列。在一些实施方案中，CFP包含HER2结合轻链可变结构域，其包含与SEQ ID NO:9具有至少80％、85％、90％、95％、96％、97％、98％、99％序列同一性的氨基酸序列。

在一些实施方案中，CFP包括将ECD连接到跨膜(TM)的铰链。在一些实施方案中，铰链包含CD8受体的铰链区的氨基酸序列。在一些实施方案中，CFP可以包含具有SEQ ID NO:7所示的氨基酸序列的铰链(CD8α链铰链结构域)。在一些实施方案中，PFP铰链区包含与SEQID NO:7具有至少80％、85％、90％、95％、96％、97％、98％、99％序列同一性的氨基酸序列。

在一些实施方案中，CFP包含CD8跨膜区，其例如具有SEQ ID NO:6中所示的氨基酸序列。在一些实施方案中，CFP TM区包含与SEQ ID NO:6具有至少80％、85％、90％、95％、96％、97％、98％、99％序列同一性的氨基酸序列。

在一些实施方案中，CFP包含具有FcR结构域的胞内结构域。在一些实施方案中，CFP包含FcR结构域，胞内结构域包含SEQ ID NO:3中所示的氨基酸序列，或与SEQ ID NO:3具有80％、85％、90％、95％、96％、97％、98％、99％序列同一性的至少一个序列。

在一些实施方案中，CFP包含具有PI3K募集结构域的胞内结构域。在一些实施方案中，PI3K募集结构域包含SEQ ID No:4所示的氨基序列。在一些实施方案中，PI3K募集结构域包含与SEQ ID NO:4具有至少80％、85％、90％、95％、96％、97％、98％、99％序列同一性的氨基酸序列。

在一些实施方案中，CFP包含具有CD40胞内结构域的胞内结构域。在一些实施方案中，CD40 ICD包含SEQ ID NO:5中所示的氨基序列。在一些实施方案中，CD40 ICD包含与SEQID NO:5具有至少80％、85％、90％、95％、96％、97％、98％、99％序列同一性的氨基酸序列。

在一些实施方案中，CD5结合结构域包含scFv，所述scFv包含：(i)SEQ ID NO:1或与SEQ ID NO:1具有至少90％序列同一性的可变重链(V_H)序列；和(ii)SEQ ID NO:2或与SEQ ID NO:2具有至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％序列同一性的可变轻链(V_L)序列。在一些实施方案中，CD5结合结构域包含scFv，所述scFv包含SEQ ID NO:33或与SEQ ID NO:33具有至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％序列同一性。在一些实施方案中，HER2结合结构域包含scFv，所述scFv包含：(i)SEQ ID NO:8或与SEQ ID NO:8具有至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％序列同一性的可变重链(V_H)序列；和(ii)SEQ ID NO:9或与SEQ ID NO:9具有至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％序列同一性的可变轻链(V_L)序列。在一些实施方案中，CD5结合结构域包含scFv，所述scFv包含SEQ ID NO:32或与SEQ ID NO:32具有至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％序列同一性。在一些实施方案中，CFP还包含胞内结构域，其中胞内结构域包含一个或多个胞内信号传导结构域，并且其中包含胞内结构域的野生型蛋白质不包含胞外结构域。

在一些实施方案中，胞外结构域还包含衍生自CD8的铰链结构域，其中铰链结构域可操作地连接至跨膜结构域和抗CD5结合结构域。在一些实施方案中，胞外铰链结构域包含SEQ ID NO:7或与SEQ ID NO:7具有至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％序列同一性的序列。

在一些实施方案中，CFP包含胞外结构域，所述胞外结构域与SEQ ID NO:30或与SEQ ID NO:30具有至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％序列同一性的跨膜结构域融合。在一些实施方案中，CFP包含胞外结构域，所述胞外结构域与SEQ ID NO:31或与SEQ ID NO:31具有至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％序列同一性的跨膜结构域融合。

在一些实施方案中，跨膜结构域包含CD8跨膜结构域。在一些实施方案中，跨膜结构域包含SEQ ID NO:6或29或与SEQ ID NO:6或29具有至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％序列同一性的序列。在一些实施方案中，跨膜结构域包含SEQ ID NO:18或与SEQ ID NO:18具有至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％序列同一性的序列。在一些实施方案中，跨膜结构域包含SEQ ID NO:34或与SEQ ID NO:34具有至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％序列同一性的序列。在一些实施方案中，跨膜结构域包含SEQ ID NO:19或与SEQ ID NO:19具有至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％序列同一性的序列。

在一些实施方案中，CFP包含一个或多个胞内信号传导结构域，其包含吞噬信号传导结构域。在一些实施方案中，吞噬信号传导结构域包含衍生自除Megf10、MerTk、FcRα和Bai1之外的受体的胞内信号传导结构域。在一些实施方案中，吞噬信号传导结构域包含衍生自除Megf10、MerTk、FcR和Bai1之外的受体的胞内信号传导结构域。在一些实施方案中，吞噬信号传导结构域包含衍生自除CD3ζ之外的受体的胞内信号传导结构域。在一些实施方案中，吞噬信号传导结构域包含衍生自FcRγ、FcRα或FcRε的胞内信号传导结构域。在一些实施方案中，吞噬信号传导结构域包含衍生自CD3ζ的胞内信号传导结构域。在一些实施方案中，CFP包含SEQ ID NO:3、20、27和28中的任一个或与SEQ ID NO:3、20、27和28中的任一个具有至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％序列同一性的胞内信号传导结构域。在一些实施方案中，一个或多个胞内信号传导结构域还包含促炎信号传导结构域。在一些实施方案中，促炎信号传导结构域包含PI3-激酶(PI3K)募集结构域。在一些实施方案中，促炎信号传导结构域包含SEQ ID NO:4或与SEQ IDNO:4具有至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％序列同一性的序列。在一些实施方案中，促炎信号传导结构域衍生自CD40的胞内信号传导结构域。在一些实施方案中，促炎信号传导结构域包含SEQ ID NO:5或与SEQ ID NO:5具有至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％序列同一性的序列。在一些实施方案中，CFP包含SEQ ID NO:21或与SEQ ID NO:21具有至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％序列同一性的胞内信号传导结构域。在一些实施方案中，CFP包含SEQ ID NO:23或与SEQ IDNO:23具有至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％序列同一性的胞内信号传导结构域。

在一些实施方案中，CFP包含SEQ ID NO:14或与SEQ ID NO:14具有至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％序列同一性的序列。在一些实施方案中，CFP包含SEQ ID NO:15或与SEQ ID NO:15具有至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％序列同一性的序列。在一些实施方案中，CFP包含SEQ ID NO:16或与SEQ ID NO:16具有至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％序列同一性的序列。在一些实施方案中，CFP包含SEQ ID NO:24或与SEQ ID NO:24具有至少70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％序列同一性的序列。在一些实施方案中，CFP包含SEQ ID NO:25或与SEQ ID NO:25具有至少70％、75％、80％、85％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％、91％、92％、93％、94％、95％、96％、97％、98％或99％序列同一性的序列。

在一些实施方案中，CFP包括：(a)胞外结构域，所述胞外结构域包括：(i)特异性结合CD5的scFv，和(ii)衍生自CD8的铰链结构域；衍生自CD28的铰链结构域或衍生自CD68的胞外结构域的至少一部分；(b)CD8跨膜结构域、CD28跨膜结构域、CD2跨膜结构域或CD68跨膜结构域；和(c)包含至少两个胞内信号传导结构域的胞内结构域，其中所述至少两个胞内信号传导结构域包含：(i)衍生自FcRα、FcRγ或FcRε的第一胞内信号传导结构域，和(ii)第二胞内信号传导结构域：(A)包含PI3K募集结构域，或(B)衍生自CD40。在一些实施方案中，作为上述(c)的替代，CFP包含：包含至少两个胞内信号传导结构域的胞内结构域，其中所述至少两个胞内信号传导结构域包含：(i)衍生自吞噬细胞受体胞内结构域的第一胞内信号传导结构域，和(ii)衍生自清道夫受体吞噬细胞受体胞内结构域的第二胞内信号传导结构域，其包含：(A)包含PI3K募集结构域，或(B)衍生自CD40。可在表2中找到可从中衍生出胞内信号传导结构域的示例性清道夫受体。在一些实施方案中，CFP包含源自先天免疫受体的胞内信号传导结构域的胞内信号传导结构域。

在一些实施方案中，重组多核酸是mRNA。在一些实施方案中，重组多核酸是环状RNA。在一些实施方案中，重组多核酸是病毒载体。在一些实施方案中，重组多核酸通过病毒载体来递送。

在一些实施方案中，骨髓细胞是CD14+细胞、CD14+/CD16-细胞、CD14+/CD16+细胞、CD14-/CD16+细胞、CD14-/CD16-细胞、树突状细胞、M0巨噬细胞、M2巨噬细胞，M1巨噬细胞或镶嵌骨髓细胞/巨噬细胞/树突状细胞。

在一方面，本文提供了一种治疗有需要的人对象的癌症的方法，所述方法包括将药物组合物施用于所述人对象，所述药物组合物包含：(a)包含重组多核酸序列的骨髓细胞，其中所述多核酸序列包含编码嵌合融合蛋白(CFP)的序列，所述CFP包含：(i)包含抗CD5结合结构域的胞外结构域，和(ii)与胞外结构域可操作地连接的跨膜结构域；和(b)药学上可接受的载剂；其中所述骨髓细胞表达CFP。

在一些实施方案中，在CFP与由对象的靶癌细胞表达的CD5结合时，与不表达CFP的骨髓细胞相比，所述骨髓细胞的杀伤或吞噬活性增加了大于20％。在一些实施方案中，人类对象中的肿瘤生长受到抑制。

在一些实施方案中，癌症是CD5+癌症。在一些实施方案中，癌症是白血病、T细胞淋巴瘤或B细胞淋巴瘤。在一些实施方案中，CFP包含下表A和/或表B中所示的一个或多个序列。

表A-CFP及其结构域的示例性序列

表B-接头序列

SEQ ID	序列
		10	SSGGGGSGGGGSGGGGS
11	SGGGGSG
		12	SGGG
13	GSGS

IV.用于递送和掺入到细胞基因组中的非编码外源性序列

非编码序列可以被递送到细胞中并被设计为掺入到细胞的基因组中。如本文所用，非编码序列是不产生翻译的蛋白质产物但可能具有调控元件(诸如转录产物，诸如抑制性RNA)的序列。在一些实施方案中，这样的序列可以是miRNA序列。在一些实施方案中，序列可以是用于产生siRNA的序列。在一些实施方案中，序列可以包含内含子序列或产生的结合位点，以便一种或多种DNA结合蛋白可以对接在所述位点上并影响相邻区域的性质和行为。在一些实施方案中，序列可以是转录因子结合位点。在一些实施方案中，序列可以包含增强子结合位点。在一些实施方案中，序列可以包含用于拓扑异构酶、旋转酶、逆转录酶、聚合酶、多聚A结合蛋白、鸟苷酸环化酶、连接酶、限制酶、DNA甲基化酶、HDAC酶等的结合位点。在一些实施方案中，非编码序列可用于操纵异染色质。也可在此提及的非编码插入序列的长度可以是几个核苷酸至5kB。

V.包含插入序列的质粒设计和重组核酸设计

将包含编码一种或多种蛋白质或多肽的一个或多个序列的核酸构建体掺入质粒中以用于转录和产生mRNA。可以使用细胞提取物的合成系统在体外系统中转录mRNA。或者，可以在细胞中产生并收获mRNA。细胞可以是原核细胞，诸如细菌细胞。在一些实施方案中，细胞是真核细胞。在一些实施方案中，转录发生在合成系统中。本文提供了示例性质粒设计。

在本公开的各个方面的一些实施方案中，质粒被设计用于表达包含编码蛋白质或多肽的目标异源性序列的mRNA分子。所述质粒尤其包含：基因组整合元件的序列，用于整合编码蛋白质或多肽的目标异源性序列；包含转基因或其片段的序列，其可操作地与其在宿主基因组(诸如，被施用mRNA的对象)中整合后在宿主中表达所需的单独启动子和调控元件连接；用于mRNA转录和产生的一种或多种调控元件，包括用于表达mRNA的启动子(例如在细菌细胞或细胞提取物中)和3’稳定化元件；用于一种或多种检测标志物和/或选择标志物的序列。

如本领域技术人员所知，质粒骨架可以是可得到的载体，诸如内部或商业开发的载体，其可以各种方式改进以实现转录序列的最佳表达，例如(但不限于)通过在MCS(多克隆位点)中引入一个或多个所需的限制性消化位点，引入用于整体mRNA转录的所需启动子，诸如T7启动子，将质粒载体内的现有序列交换为一个或多个所需序列，或引入一个或多个所需区段，诸如选择标志物序列。

质粒包含转录调控元件，诸如在5’区处的启动子和3’稳定化元件。在一些实施方案中，启动子被选出以增强所需细胞(诸如大肠杆菌细胞)中的mRNA转录。在一些实施方案中，用于质粒转录的启动子选自T7启动子、Sp6启动子、pL(λ)启动子、T3启动子、trp启动子、araBad启动子、lac启动子或Ptac启动子。在一些实施方案中，启动子是T7启动子。T7或Sp6启动子是组成型启动子，并且适用于高水平转录或体外转录。在一些实施方案中，3’稳定化元件是来自BGH 3’元件、WPRE 3’元件、SV40元件、hGH元件和其他元件的序列。3’元件包含必需的多聚A和转录终止序列。

示例性选择标志物包括抗生素选择标志物和/或表达检测标志物。抗生素选择标志物包括但不限于赋予氨苄青霉素抗性的氨苄青霉素抗性基因序列(β内酰胺酶基因或其片段)，例如G418选择标志物；赋予对四环素抗性的四环素抗性基因序列；赋予对卡那霉素抗性的卡那霉素抗性基因序列；赋予对红霉素抗性的红霉素抗性基因序列；赋予对氯霉素抗性的氯霉素抗性基因序列；赋予对新霉素抗性的新霉素抗性基因序列等。示例性表达检测标志物包括FLAG、HA、GFP等。

在一些实施方案中，所述及其他标签可以与一个或多个编码序列融合以充当用于表达与其融合的所需蛋白质或肽的替代物。

在一些实施方案中，质粒的长度小于20kb。在一些实施方案中，质粒的长度小于19kb。在一些实施方案中，质粒的长度小于20kb。在一些实施方案中，质粒的长度小于18kb。在一些实施方案中，质粒的长度小于20kb。在一些实施方案中，质粒的长度小于17kb。在一些实施方案中，质粒的长度小于20kb。在一些实施方案中，质粒的长度小于16kb。在一些实施方案中，质粒的长度小于15kb。在一些实施方案中，质粒的长度小于14kb。在一些实施方案中，质粒的长度小于13kb。在一些实施方案中，质粒的长度小于12kb。在一些实施方案中，质粒的长度为15kb、约14kb、约13kb、约12kb或约10kb。

在一些实施方案中，密码子被优化用于适合于转录系统的最大化转录。

VI.与体内转基因表达相关的特征

重组核酸构建体(转基因)中的转录调控元件

在一些实施方案中，重组核酸在非编码区内包含一种或多种调控元件，其可以被操纵用于所编码蛋白质的期望表达谱。在一些实施方案中，非编码区可包含合适的增强子。在一些实施方案中，增强子包含调控蛋白的结合区，或可以将肽添加到细胞或包含细胞的系统中，以在增强子的影响下开始表达编码的蛋白质。相反，调控元件可包含蛋白结合结构域，其保持与同源蛋白结合并继续抑制重组蛋白的转录和/或翻译，直到提供细胞外信号而使蛋白从结合位置解偶联以允许开始蛋白质合成。实例包括但不限于本领域技术人员已知的四环素诱导型(Tet-诱导型或Tet-开启)和四环素抑制型(Tet-关闭)系统。

包含代谢开关的构建体：在一些实施方案中，可以操纵位于构建体编码区侧翼的5’和3’非翻译区以调节由上述核酸构建体编码的重组蛋白的表达。例如，3’UTR可以包含一个或多个插入的元件以稳定化mRNA。在一些实施方案中，富含AU的元件(ARE)序列被插入3’UTR中，导致RNA结合蛋白的结合，所述RNA结合蛋白使mRNA稳定或不稳定，从而能够控制mRNA半衰期。

在一些实施方案中，3’UTR可包含用于与阻止翻译的成熟mRNA链结合的RNA结合蛋白(例如，GAPDH)的保守区域。在一些实施方案中，糖酵解导致RNA结合蛋白(例如，GAPDH)解偶联，从而允许mRNA链翻译。代谢开关的原理是当细胞进入某种代谢状态时触发靶基因的表达。例如，在静息细胞中，GAPDH是RNA结合蛋白(RBP)。它与3’UTR中的ARE序列结合，以阻止mRNA的翻译。当细胞进入糖酵解时，需要GAPDH将葡萄糖转化为ATP，从mRNA上脱离以允许进行蛋白质的翻译。在一些实施方案中，其中存在包含重组核酸的细胞的环境提供基因表达的代谢开关。例如，低氧条件可以触发代谢开关，从而诱导GAPDH从mRNA中脱离。因此，当巨噬细胞离开循环并进入低氧的肿瘤环境时，可以诱导mRNA的表达。这允许全身施用核酸或包含核酸的细胞，但确保局部表达，特别是靶向肿瘤环境。

在一些实施方案中，核酸构建体可以是分裂式构建体，例如，允许构建体的部分在组成型表达系统的控制下表达，而核酸的另一部分在代谢开关的控制下表达，如上所述。在一些实施方案中，核酸可以处于双顺反子控制之下。在一些实施方案中，双顺反子载体包含在第一调控控制下的第一编码序列，包括可能在组成型控制下的靶识别部分的编码序列；和可能在代谢开关下的编码炎症基因表达的第二编码序列。在一些实施方案中，双顺反子载体可以是单向的。在一些实施方案中，双顺反子载体可以是双向的。

在一些实施方案中，ARE序列包含用于结合与ADK、ALDH18A1、ALDH6A1、ALDOA、ASS1、CCBL2、CS、DUT、ENO1、FASN、FDPS、GOT2、HADHB、HK2、HSD17B10、MDH2、NME1、NQ01、PKM2、PPP1CC、SUCLG1、TP11、GAPDH或LDH结合的ARE序列的蛋白结合基序。

药物组合物和免疫疗法

在一方面，本文提供了一种药物组合物，其包含(i)编码掺入转座或逆转录转座系统中的转基因的核酸，所述转座或逆转录转座系统包含转基因、5’-和3’-侧翼转座或逆转录转座元件、表达调控元件诸如启动子、内含子；和编码转座酶或逆转录转座酶的核酸，(ii)核酸递送媒介物和药学上可接受的盐或赋形剂。

在一些实施方案中，所述药物组合物包含细胞和药学上可接受的赋形剂，所述细胞包含编码稳定整合到细胞的基因组中的转基因的核酸。核酸构建体可以使用病毒载体(Monahan等人,Gene Therapy4:40-49,1997；Onodera等人,Blood 91:30-36,1998)，通过摄取“裸DNA”等与阳离子型脂质(Goddard等人,Gene Therapy,4:1231-1236,1997；Gorman等人,Gene Therapy 4:983-992,1997；Chadwick等人,Gene Therapy 4:937-942,1997；Gokhale等人,Gene Therapy4:1289-1299,1997；Gao和Huang,Gene Therapy 2:710-722,1995)一起递送。本领域熟知的细胞转化技术(参见上文讨论)可以用于核酸构建体的离体施用。可以凭经验选择确切的制剂、施用途径和剂量。(参见，例如Fingl等人,1975,“ThePharmacological Basis of Therapeutics”,Ch.1pl)。

在一些实施方案中，包含转基因和转座元件的核酸通过已知的细胞内核酸转移方法，诸如使用lipofectamine或磷酸钙，或通过物理手段，诸如电穿孔或核转染，而被引入或掺入细胞中。在一些实施方案中，核酸被包裹在脂质体或脂质纳米颗粒中。LNP直径为100-300nm，提供了向各种细胞类型(包括巨噬细胞)递送mRNA的有效手段。在一些实施方案中，核酸是通过其他纳米颗粒转移的。在一些实施方案中，用于表达CFP的载体来源于病毒，即慢病毒载体或腺病毒载体。在一些实施方案中，编码重组核酸的核酸是由慢病毒载体编码的。在一些实施方案中，将慢病毒载体在内部制备并且出于所述目的大规模制造。在一些实施方案中，如本领域技术人员所知的，利用可商购获得的慢病毒载体。

在一些实施方案中，病毒载体是腺相关病毒(AAV)载体。

所述方法可用于其中需要将外源性核酸引入到靶细胞中的多种应用中，并且在需要在靶细胞中表达由表达盒编码的蛋白质的情况下尤其有意义，其中一个或多个所述靶细胞是多细胞生物体的部分。转座酶系统可以施用于生物体或宿主，以便例如通过体内或离体方案靶向构建体能够进入靶细胞。这样的细胞或器官通常会返回到活体中。

在一些实施方案中，编码与免疫功能相关的融合蛋白的转基因离体被稳定地整合到对象的活细胞中，随后使包含转基因的细胞返回对象。举例来说，CFP转基因(吞噬细胞受体融合蛋白)旨在用于在免疫细胞诸如骨髓细胞、吞噬细胞、巨噬细胞、单核细胞或树突状细胞谱系的细胞中表达，这些细胞与重组核酸离体接触以用于稳定转移转基因并重新引入同一对象中以对抗对象的疾病。所考虑的疾病包括传染病、癌症和自身免疫性疾病。本文所述的编码包含融合蛋白(CFP)的PSR亚基的核酸用于产生用于治疗癌症的工程化吞噬细胞。

癌症包括但不限于，T细胞淋巴瘤、皮肤淋巴瘤、B细胞癌(例如，多发性骨髓瘤、华氏巨球蛋白血症)、重链疾病(诸如，α链疾病、γ链疾病和mu链疾病)、良性单克隆丙种球蛋白病和免疫细胞淀粉样变性、黑素瘤、乳腺癌、肺癌、支气管癌、结直肠癌、前列腺癌(例如，转移性、激素难治性前列腺癌)、胰腺癌、胃癌、卵巢癌、膀胱癌、脑或中枢神经系统癌症、周围神经系统癌症、食道癌、宫颈癌、子宫或子宫内膜癌、口腔癌或咽癌、肝癌、肾癌、睾丸癌、胆道癌、小肠癌或阑尾癌、唾液腺癌、甲状腺癌、肾上腺癌、骨肉瘤、软骨肉瘤、血液组织癌等。适用于本公开所涵盖的方法的癌症类型的其他非限制性实例包括人类肉瘤和癌，例如纤维肉瘤、粘液肉瘤、脂肪肉瘤、软骨肉瘤、成骨肉瘤、脊索瘤、血管肉瘤、内皮肉瘤、淋巴管肉瘤、淋巴管内皮肉瘤、滑膜瘤、间皮瘤、尤文氏瘤、平滑肌肉瘤、横纹肌肉瘤、结肠癌、结直肠癌、胰腺癌、乳腺癌、卵巢癌、鳞状细胞癌、基底细胞癌、腺癌、汗腺癌、皮脂腺癌、乳头状癌、乳头状腺癌、囊腺癌、髓样癌、支气管癌、肾细胞癌、肝细胞瘤、胆管癌、肝癌、绒毛膜癌、精原细胞瘤、胚胎癌、维尔姆斯瘤、宫颈癌、骨癌、脑肿瘤、睾丸癌、肺癌、小细胞肺癌、膀胱癌、上皮癌、神经胶质瘤、星形细胞瘤、髓母细胞瘤、颅咽管瘤、室管膜瘤、松果体瘤、血管母细胞瘤、听神经瘤、少突神经胶质细胞瘤、脑膜瘤、黑素瘤、神经母细胞瘤、视网膜母细胞瘤；白血病，例如急性淋巴细胞性白血病和急性髓细胞性白血病(成髓细胞性、早幼粒细胞性、髓单核细胞性、单核细胞性和红白血病)；慢性白血病(慢性髓细胞性(粒细胞)白血病和慢性淋巴细胞白血病)；和真性红细胞增多症、淋巴瘤(霍奇金病和非霍奇金病)、多发性骨髓瘤、华氏巨球蛋白血症和重链病。在一些实施方案中，癌症是上皮癌，例如但不限于膀胱癌、乳腺癌、宫颈癌、结肠癌、妇科癌症、肾癌、喉癌、肺癌、口腔癌、头颈癌、卵巢癌、胰腺癌、前列腺癌或皮肤癌。在其他实施方案中，癌症是乳腺癌、前列腺癌、肺癌或结肠癌。在其他实施方案中，上皮癌是非小细胞肺癌、非乳头状肾细胞癌、宫颈癌、卵巢癌(例如，浆液性卵巢癌)或乳腺癌。上皮癌可以在其他方面有不同的特点，包括但不限于浆液性、子宫内膜样、粘液性、透明细胞或未分化性。在一些实施方案中，本公开用于淋巴瘤或其亚型的治疗、诊断和/或预后，包括但不限于套细胞淋巴瘤。淋巴增生性疾病也被认为是增生性疾病。

通常，细胞免疫疗法包括向患者提供包含活细胞的药物，所述活细胞应关于对象的相容性进行HLA匹配，并且使得细胞不会导致移植物抗宿主疾病(GVHD)。对象为了如上所述的个体化医学和免疫疗法而到达诊所时，通常对HLA进行分型以确定由对象表达的HLA抗原。

mRNA驱动的递送的治疗优点

在一个实施方案中，本文提供了一种将核酸序列引入到细胞中以在细胞中进行持续基因表达而没有不良作用的方法。在一些实施方案中，所述细胞在活体系统内，例如宿主生物体，诸如人。所述核酸序列是mRNA。

特别地，经由逆转录转座子进行递送是一种非常有利可图的模式。mRNA驱动的递送简化了基因递送。虽然其他技术需要昂贵而复杂的设计和制造、和将核酸递送到细胞中的解决方案，以及帮助整合的基因编辑技术，但逆转录转座子介导的递送本身编码编辑机器，编码待递送的新基因。此外，单个mRNA可以足以进行基因递送和编辑。

在一个实施方案中，mRNA递送的优点在于它可以确保核酸货物的引入而不受尺寸限制。

表9总结了与其他现有核酸递送方法相比的一些优点。

表9.逆转录转座子介导的基因递送的优点

逆转录转座子有利于跨多种模式的应用。使用这种方法的基因操纵在体内和离体都很容易实现。在一个实施方案中，逆转录转座子的应用可以在体内进行，可以通过全身或局部引入将编码在mRNA中的遗传物质片段直接引入患者体内。相比之下，细胞可以从对象身上取出，并离体操纵，然后引入同一对象(自体)或另一个人(异源)。

在一个实施方案中，本文所述的逆转录转座子和相关方法可以用于基因疗法。由于能够引入大的有效载荷，携带编码整个蛋白质的基因的大部分DNA可以在一次注射中引入，而不需要多次引入和多个编辑事件。在一个实施方案中，例如，可以切除编码缺陷蛋白的基因，可以使用逆转录转座子介导的递送在一个整合事件中将正确的基因引入正确的位点。在一个实例中，CRISPR编辑可以用于从精确的基因座中切除基因，并且逆转录转座可以用于替换正确的基因。在一些实施方案中，优选的逆转录转座子整合位点可以引入在切除位点处。

在一个实施方案中，本文所述的逆转录转座子和相关方法可以用于基因编辑。

在一个实施方案中，本文所述的逆转录转座子和相关方法可以用于转录调控。

在一个实施方案中，本文所述的逆转录转座子和相关方法可以用于基因组工程化。

在一个实施方案中，本文提供了一种用于将异源性核酸序列掺入包含一个或多个多核酸的基因组中的组合物，所述多核酸还包含(i)编码用于将插入序列定点整合到基因组中的整合酶或其片段的序列和(ii)可由所述整合酶操作的基因组着陆位点序列，其中所述基因组着陆序列的长度大于4、5、6、7、8、9或10个连续核苷酸。在一些实施方案中，所述整合酶是细菌整合酶。在一些实施方案中，所述整合酶是丝氨酸整合酶。

在一些实施方案中，所述组合物包含ORF2和整合酶或其片段，其中所述整合酶和所述ORF2在不同的多核苷酸上。在一些实施方案中，整合酶能够将核酸序列整合到基因组位点中，所述基因组位点具有长度为约10个核苷酸、约20个核苷酸、约30个核苷酸、约40个核苷酸的基因组着陆序列。

在一些实施方案中，所述ORF2和所述整合酶在单个多核苷酸上。在一些实施方案中，所述ORF2被修饰以掺入可以识别长度大于10个连续核苷酸的基因组着陆序列的整合酶蛋白的片段，并且其中所述LINE逆转录转座子系统将异源性基因组插入物整合到被已经掺入到基因组中的整合酶蛋白的片段识别的基因组着陆序列中。

在一些实施方案中，所述整合酶不被整合到细胞的基因组中。在一些实施方案中，所述整合酶是重组蛋白。在一些实施方案中，所述ORF蛋白，例如ORF2蛋白是重组(例如，嵌合)蛋白，其包含细菌丝氨酸整合酶的至少一个片段，所述片段能够识别整合酶(例如细菌整合酶，例如细菌丝氨酸整合酶)的基因组着陆序列，其中所述基因组着陆序列可由所述整合酶操作并且长度大于20个核苷酸、或长度大于30个核苷酸。在一些实施方案中，所述ORF蛋白序列中的一个或多个包含突变。在一些实施方案中，所述重组(例如，嵌合)ORF蛋白包含靶识别序列的缺失。在一些实施方案中，重组(例如，嵌合)ORF蛋白包含整合酶(例如细菌整合酶，例如细菌丝氨酸整合酶)的片段，其包含催化结构域或其片段，位点特异性基因组整合识别结构域。

本文提供了一种药物组合物，其中所述插入序列包含可由所述整合酶操作的附接位点。

在一些实施方案中，使用向导RNA和Cas系统将所述基因组着陆序列插入到所述基因组中。在一些实施方案中，所述向导RNA、所述CAS系统和所述基因组着陆序列在与包含编码LINE1-ORF的序列和插入序列的多核苷酸不同的多核苷酸中。

本文提供了一种用于将异源性基因组插入序列位点特异性整合到哺乳动物细胞的基因组中的方法，所述方法包括：(i)将以下各项引入到所述细胞中：(a)包含编码与所述异源性插入序列缔合的一个或多个人逆转录转座子元件的序列的多核苷酸，和(b)包含编码向导RNA、RNA导向的整合酶或其片段和可由所述整合酶操作的着陆序列的序列的多核苷酸；(ii)验证所述异源性插入序列被整合到所述基因组的位点中。

本文提供了一种用于使用LINE逆转录转座子系统进行异源性基因组插入物的位点特异性整合的方法，其中所述LINE逆转录转座子系统被修饰以掺入可以识别长度大于10个连续核苷酸的基因组着陆序列的整合酶蛋白的片段，并且其中所述LINE逆转录转座子系统将所述异源性基因组插入物整合到被已经掺入到所述基因组中的所述整合酶蛋白的片段识别的所述基因组着陆序列中。在一些实施方案中，所述整合酶识别并接触基因组着陆序列，并且LINE(L1)逆转录转座子系统的逆转录酶元件在基因组着陆序列的特定位点处逆转录并掺入插入序列(例如，货物序列)。在一些实施方案中，所述方法包括将长度大于10个连续核苷酸的基因组着陆序列掺入到所述基因组中的步骤。在一些实施方案中，所述将基因组着陆序列掺入到基因组中的步骤通过RNA导向的CRISPR-Cas系统进行。在一些实施方案中，所述RNA导向的CRISPR-Cas系统具有能够将长度大于10个连续核苷酸的序列掺入到特定基因组位点中的编辑功能。

因此，本文提供了一种修饰的L1逆转录转座系统，其包含位点特异性整合酶DNA识别部分；其中所述整合酶DNA识别部分识别所述基因组序列以进行位点特异性整合，并且其中所述L1逆转录转座系统在被所述整合酶识别的位点处或附近将包含所述异源性插入物的序列逆转录并整合到所述基因组位点中。掺入整合酶诸如丝氨酸整合酶的现有系统可以包括DNA整合系统，使用例如质粒、病毒递送系统，对于如本文所用的更安全和可靠的mRNA系统，它们中的每一个都可以被绕过，并且不受货物大小的限制。

在一个实施方案中，本文所述的逆转录转座子和相关方法可以用于开发细胞疗法，例如嵌合抗原受体(CAR)T细胞，用于NK细胞疗法或骨髓细胞疗法。在一个实施方案中，本文所述的逆转录转座子和相关方法可以用于将基因递送到神经元中，这是现有技术难以获得的。

在一方面，本文提供了一种用于靶向替换细胞的基因组核酸序列的方法，所述方法包括：(A)将编码第一蛋白复合物的多核苷酸序列引入所述细胞中，所述第一蛋白复合物包含用于从所述细胞的基因组中切除包含一个或多个突变的核酸序列的靶向切除机器；以及(B)将编码第二蛋白复合物的重组mRNA引入所述细胞中，其中所述重组mRNA包含：(i)包含(A)中的不含一个或多个突变的切除核酸序列的核酸序列，和(ii)在独立启动子的影响下编码L1逆转录转座子ORF2蛋白的序列。

在一个实施方案中，所述第一蛋白复合物可以是独立于所述第二蛋白复合物的核酸内切酶复合物。在一个实施方案中，所述第一蛋白复合物包含使用序列导向的基因组DNA切除的CRISPR-CAS系统。在一个实施方案中，本文所述的方法将CRISPR CAS系统或任何其他基因编辑系统与L1转座子机器(例如，第二蛋白复合物)结合，所述L1转座子机器递送具有大于4kb、或5kb、或6kb、或7kb、或8kb、或9kb或10kb的有效载荷容量的替换基因。这种结合可以用于从基因组基因座中精确地切除大片段(引起疾病的突变基因)，并整合编码正确的、非突变序列的基因的大片段或整个基因。

大量的遗传病可能需要传递大的有效载荷的基因，这往往超出了现有方法的功能能力。本文设想了本文公开的方法和组合物，其可以用于使用逆转录转座子进一步设计针对此类疾病的疗法。遗传病的示例性列表包括但不限于表10中所列的那些。

表10.潜在基因疗法应用的列表

本文提供了一种用于靶向替换细胞中的基因组核酸序列的方法。在一个实施方案中，所述方法包括：(A)从所述细胞的基因组中切除包含一个或多个突变的核酸序列，和(B)将编码以下的重组mRNA引入到细胞中：(i)相对于(A)中切除的序列包含不含一个或多个突变的野生型序列的核酸序列，(ii)在独立启动子的影响下编码L1逆转录转座子ORF2蛋白的序列。在一个实施方案中，步骤(A)还包括在切除位点处引入包含至少多个腺苷酸残基的短序列。在一个实施方案中，在一个实施方案中，包含野生型序列的核酸序列以一种方式与ORF2编码序列可操作地连接，使得ORF2逆转录酶将包含野生型非突变序列的序列整合到基因组中。

在一个实施方案中，所述细胞是淋巴细胞。

在一个实施方案中，所述细胞是上皮细胞。在一些实施方案中，所述细胞是视网膜色素上皮细胞(RPE)。

在一个实施方案中，所述细胞是神经元。

在一个实施方案中，所述细胞是骨髓细胞。

在一些实施方案中，所述细胞是干细胞。

在一个实施方案中，所述细胞是癌细胞。

在一个实施方案中，所述基因选自ABCA4、MY07A、CEP290、CDH23、EYS、USH2a、GPR98、ALMS1、GDE、OTOF和F8。

在一个实施方案中，所述mRNA包含诱导型启动子的序列。

在一个实施方案中，包含非突变序列的核酸序列的表达在感染后至少20、21、22、23、24、25、26、27、28、29、30、31、32、33、34或35天可检测。

在一个实施方案中，所述方法包括将重组mRNA体内引入到细胞中。

在一个实施方案中，所述方法包括将重组mRNA离体引入到细胞中。

本文提供了一种治疗有需要的对象的遗传病的方法，所述方法包括：将组合物引入到所述对象中，所述组合物包含编码基因或其片段的多顺反子mRNA，其可操作地连接到编码L1逆转录转座子的序列；其中所述基因或其片段的长度为至少10.1kb。

在一个实施方案中，所述方法包括直接全身引入所述mRNA。

在一个实施方案中，所述方法包括直接局部引入所述mRNA。

在一个实施方案中，所述遗传病是视网膜疾病。例如，所述疾病是黄斑营养不良。在一个实施方案中，所述疾病是Stargardt病，也称为少年黄斑变性，或眼底黄色斑点症。所述疾病导致黄斑进行性变性和损伤。所述病状具有由于ATP结合盒(ABC)转运蛋白基因，(ABCA4)基因中的突变引起的遗传基础，并且是由脂褐素样物质沉积在视网膜色素上皮(RPE)中伴继发性光感受器细胞死亡引起的。在一些实施方案中，所述方法包括将mRNA直接递送到视网膜中。

在一个实施方案中，所述方法包括治疗非综合征性常染色体隐性遗传性耳聋(DFNB12)和与视网膜色素变性和前庭功能障碍相关的耳聋(USH1D)。在一个实施方案中，本文提供了一种治疗非综合征性耳聋(DFNB12)或Usher综合征(USH1D)的方法，所述方法包括引入包含CDH23拷贝或其片段的mRNA，其可操作地连接到编码L1逆转录转座子的序列。

外源性多肽的细胞特异性表达

外源性多肽的稳定表达可以在多种细胞类型(例如，靶细胞类型)中使用可移动遗传元件来靶向多核苷酸序列(例如，本文中通常称为构建体中的插入序列)在细胞(例如，靶细胞)的基因组中的整合来实现。在一些实施方案中，靶细胞是有丝分裂后细胞，例如哺乳动物心肌细胞或RPE细胞。在一些实施方案中，所述可移动遗传元件包含人LINE1序列。在一些实施方案中，所述可移动遗传元件是人LINE1序列。在一些实施方案中，所述可移动遗传元件包含编码人L1 ORFp1蛋白的序列。在一些实施方案中，所述可移动遗传元件包含编码人L1-ORFp2蛋白的序列。在一些实施方案中，所述可移动遗传元件包含编码人ORFp1和人ORFp2多肽的序列。在一些实施方案中，将多核苷酸序列引入靶细胞中，所述多核苷酸包含编码可移动遗传元件的序列和插入序列。在一些实施方案中，可移动遗传元件包含翻译后促进插入序列稳定整合到靶细胞的基因组中的多肽。在一些实施方案中，所述可移动遗传元件包含多肽，所述多肽进一步被配置用于将给定插入序列位点特异性整合到靶细胞的基因组中，例如但不限于说明书中其他地方所述的实施方案。

在一些实施方案中，本文所述的多核苷酸是mRNA。所述mRNA可以是双顺反子或多顺反子。如通过工作实施方案所例示的，插入序列和编码可移动遗传元件的序列可以相对于彼此呈反向取向。所述可移动遗传元件可以经由靶标引发的逆转录(TPRT)来整合插入序列。在一些实施方案中，所述可移动遗传元件包含人L1逆转录转座子或其片段。

在一些实施方案中，所述多核苷酸可以特异性靶向细胞类型。在一些实施方案中，多核苷酸可以在纳米颗粒中组成，其中所述纳米颗粒包含本领域技术人员已知的一个或多个靶向部分。

本文提供了一种将插入序列稳定地整合到靶细胞的基因组DNA中的方法，所述方法包括：使组合物与所述靶细胞接触，所述组合物包含多核酸，其中所述多核酸包含：插入序列，其中所述插入序列包含作为编码外源性多肽的序列的反向补体的序列，和包含编码多肽的序列的可移动遗传元件，其中由可移动遗传元件的序列编码的多肽促进将所述插入序列整合到基因组DNA中；将所述插入序列稳定地整合到所述靶细胞的基因组DNA中；以及在所述靶细胞中表达外源性多肽，其中所述靶细胞是人肝细胞。在一些实施方案中，多核酸是mRNA。在一些实施方案中，所述mRNA被包封在纳米颗粒中用于细胞内递送。在一些实施方案中，所述纳米颗粒包含脂质。在一些实施方案中，通过使包含例如多核酸和递送媒介物(例如，包含脂质的纳米颗粒)的组合物与肝细胞接触，使得其导致多核酸被肝细胞成功摄取来将多核酸引入到肝细胞中。在一些实施方案中，所述掺入是经由电穿孔进行的。在一些实施方案中，所述多核酸组合物被电穿孔在肝细胞中。在一些实施方案中，肝细胞在适合表达多核酸编码的多肽并有利于肝细胞活力的条件下被电穿孔。在一些实施方案中，通过本领域技术人员已知的方法，例如通过基因组测序，在掺入多核酸之后验证插入物被整合到肝细胞的基因组中。在一些实施方案中，在将多核酸掺入肝细胞后以合适的间隔验证来自整合插入序列的多肽的表达，其中所述合适的间隔为约4、6、8、10、12、24或48小时。在一些实施方案中，在对包含肝细胞的细胞群体进行电穿孔后，在适合肝细胞的条件下培养已经受电穿孔的包含肝细胞的细胞群体至少约2小时、约3小时、约4小时、约5小时、约6小时、约8小时、约10小时或约24小时。在一些实施方案中，在适合肝细胞生长的条件下培养肝细胞约48小时、72小时、96小时或更长时间。在一些实施方案中，在培养物中48、72或96小时之后，或4天、5天、6天、7天、8天、9天、10天或更长时间之后，验证由多核苷酸(例如，插入物)编码的多肽的表达。在一些实施方案中，至少2％的人肝细胞在掺入之后第10天表达外源性多肽。在一些实施方案中，经受电穿孔的细胞群体中约2％、或约5％、或约10％或更多的人肝细胞在掺入之后第10天表达外源性多肽。

本文提供了一种将插入序列稳定地整合到靶细胞的基因组DNA中的方法，所述方法包括：使组合物与所述靶细胞接触，所述组合物包含多核酸，其中所述多核酸包含：插入序列，其中所述插入序列包含作为编码外源性多肽的序列的反向补体的序列，和包含编码多肽的序列的可移动遗传元件，其中由可移动遗传元件的序列编码的多肽促进将所述插入序列整合到基因组DNA中；将所述插入序列稳定地整合到所述靶细胞的基因组DNA中；以及在所述靶细胞中表达外源性多肽，其中所述靶细胞是人心肌细胞。在一些实施方案中，多核酸是mRNA。在一些实施方案中，所述mRNA被包封在纳米颗粒中用于细胞内递送。在一些实施方案中，所述纳米颗粒包含脂质。在一些实施方案中，通过使包含例如多核酸和递送媒介物(例如，包含脂质的纳米颗粒)的组合物与心肌细胞接触，使得其导致多核酸被心肌细胞成功摄取来将多核酸引入到心肌细胞中。在一些实施方案中，所述掺入是经由电穿孔进行的。在一些实施方案中，所述多核酸组合物被电穿孔在心肌细胞中。在一些实施方案中，心肌细胞在适合表达多核酸编码的多肽并有利于心肌细胞活力的条件下被电穿孔。在一些实施方案中，通过本领域技术人员已知的方法，例如通过基因组测序，在掺入多核酸之后验证插入物被整合到心肌细胞的基因组中。在一些实施方案中，在将多核酸掺入心肌细胞后以合适的间隔验证来自整合插入序列的多肽的表达，其中所述合适的间隔为约4、6、8、10、12、24或48小时。在一些实施方案中，在对包含心肌细胞的细胞群体进行电穿孔后，在适合心肌细胞的条件下培养已经受电穿孔的包含心肌细胞的细胞群体至少约2小时、约3小时、约4小时、约5小时、约6小时、约8小时、约10小时或约24小时。在一些实施方案中，在适合心肌细胞生长的条件下培养心肌细胞约48小时、72小时、96小时或更长时间。在一些实施方案中，在培养物中48、72或96小时之后，或4天、5天、6天、7天、8天、9天、10天或更长时间之后，验证由多核苷酸(例如，插入物)编码的多肽的表达。在一些实施方案中，至少2％的人心肌细胞在掺入之后第10天表达外源性多肽。在一些实施方案中，经受电穿孔的细胞群体中约2％、或约5％、或约10％或更多的人心肌细胞在掺入之后第10天表达外源性多肽。本文提供了一种将插入序列稳定地整合到靶细胞的基因组DNA中的方法，所述方法包括：使组合物与所述靶细胞接触，所述组合物包含多核酸，其中所述多核酸包含：插入序列，其中所述插入序列包含作为编码外源性多肽的序列的反向补体的序列，和包含编码多肽的序列的可移动遗传元件，其中由可移动遗传元件的序列编码的多肽促进将所述插入序列整合到基因组DNA中；将所述插入序列稳定地整合到所述靶细胞的基因组DNA中；以及在所述靶细胞中表达外源性多肽，其中所述靶细胞是人视网膜色素上皮细胞(RPE)。在一些实施方案中，多核酸是mRNA。在一些实施方案中，所述mRNA被包封在纳米颗粒中用于细胞内递送。在一些实施方案中，所述纳米颗粒包含脂质。在一些实施方案中，通过使包含例如多核酸和递送媒介物(例如，包含脂质的纳米颗粒)的组合物与RPE接触，使得其导致多核酸被RPE成功摄取来将多核酸引入到RPE中。在一些实施方案中，所述掺入是经由电穿孔进行的。在一些实施方案中，所述多核酸组合物被电穿孔在RPE中。在一些实施方案中，RPE在适合表达多核酸编码的多肽并有利于RPE活力的条件下被电穿孔。在一些实施方案中，通过本领域技术人员已知的方法，例如通过基因组测序，在掺入多核酸之后验证插入物被整合到RPE的基因组中。在一些实施方案中，在将多核酸掺入RPE后以合适的间隔验证来自整合插入序列的多肽的表达，其中所述合适的间隔为约4、6、8、10、12、24或48小时。在一些实施方案中，在对包含RPE的细胞群体进行电穿孔后，在适合RPE的条件下培养已经受电穿孔的包含RPE的细胞群体至少约2小时、约3小时、约4小时、约5小时、约6小时、约8小时、约10小时或约24小时。在一些实施方案中，在适合RPE生长的条件下培养RPE约48小时、72小时、96小时或更长时间。在一些实施方案中，在培养物中48、72或96小时之后，或4天、5天、6天、7天、8天、9天、10天或更长时间之后，验证由多核苷酸(例如，插入物)编码的多肽的表达。在一些实施方案中，至少2％的人RPE在掺入之后第10天表达外源性多肽。在一些实施方案中，经受电穿孔的细胞群体中约2％、或约5％、或约10％或更多的人RPE在掺入之后第10天表达外源性多肽。

本文提供了一种将插入序列稳定地整合到靶细胞的基因组DNA中的方法，所述方法包括：使组合物与所述靶细胞接触，所述组合物包含多核酸，其中所述多核酸包含：插入序列，其中所述插入序列包含作为编码外源性多肽的序列的反向补体的序列，和包含编码多肽的序列的可移动遗传元件，其中由可移动遗传元件的序列编码的多肽促进将所述插入序列整合到基因组DNA中；将所述插入序列稳定地整合到所述靶细胞的基因组DNA中；以及在所述靶细胞中表达外源性多肽，其中所述靶细胞是人神经元细胞。在一些实施方案中，多核酸是mRNA。在一些实施方案中，所述mRNA被包封在纳米颗粒中用于细胞内递送。在一些实施方案中，所述纳米颗粒包含脂质。在一些实施方案中，通过使包含例如多核酸和递送媒介物(例如，包含脂质的纳米颗粒)的组合物与神经元细胞接触，使得其导致多核酸被神经元细胞成功摄取来将多核酸引入到神经元细胞中。在一些实施方案中，所述掺入是经由电穿孔进行的。在一些实施方案中，所述多核酸组合物被电穿孔在神经元细胞中。在一些实施方案中，神经元细胞在适合表达多核酸编码的多肽并有利于神经元细胞活力的条件下被电穿孔。在一些实施方案中，通过本领域技术人员已知的方法，例如通过基因组测序，在掺入多核酸之后验证插入物被整合到神经元细胞的基因组中。在一些实施方案中，在将多核酸掺入神经元细胞后以合适的间隔验证来自整合插入序列的多肽的表达，其中所述合适的间隔为约4、6、8、10、12、24或48小时。在一些实施方案中，在对包含神经元细胞的细胞群体进行电穿孔后，在适合神经元细胞的条件下培养已经受电穿孔的包含神经元细胞的细胞群体至少约2小时、约3小时、约4小时、约5小时、约6小时、约8小时、约10小时或约24小时。在一些实施方案中，在适合神经元细胞生长的条件下培养神经元细胞约48小时、72小时、96小时或更长时间。在一些实施方案中，在培养物中48、72或96小时之后，或4天、5天、6天、7天、8天、9天、10天或更长时间之后，验证由多核苷酸(例如，插入物)编码的多肽的表达。在一些实施方案中，至少2％的人神经元细胞在掺入之后第10天表达外源性多肽。在一些实施方案中，经受电穿孔的细胞群体中约2％、或约5％、或约10％或更多的人神经元细胞在掺入之后第10天表达外源性多肽。

实施例

应当理解，本发明不应被解释为限于现在描述的实施例；相反，本发明应被解释为包括本文提供的任何和所有应用以及在普通技术人员的技术范围内的所有等同变化。

实施例1.示例性逆转录转座子设计构建体：

在此提供了设计用于掺入到细胞基因组中并表达示例性转基因的逆转录转座子构建体的示例性策略。图1B和图1C说明了将编码转基因的mRNA整合到细胞的基因组中的各种策略设计。此处方框中显示的GFP是示例性转基因。编码转基因(例如，GFP)的mRNA可以与编码ORF2p蛋白的核酸序列在有义或反义取向上共表达；各自的编码序列可以在示例性顺反子策略下所示的单顺反子或双顺反子构建体中(图1B和图1C)。CMV/T7是启动子。

另一方面，同样可以指示以反式方式表达。反式策略可以包括从双顺反子序列编码ORF2p蛋白或ORF1p和ORF2p蛋白的序列，以及在任何基因的3’UTR中在有义或反义方向上编码GFP的mRNA。转基因的侧翼是逆转录转座序列，其包含转座酶结合序列、A-框和B-框以及多聚A尾。图2A说明了通过使用构建体稳定地掺入编码GFP的序列来表达示例性转基因GFP的三种示例性设计。第一构建体包含编码GFP的序列，侧翼是L1 5’-UTR；和在不存在任何转座酶结合元件的情况下，在3’UTR处的多聚A序列。第二和第三构建体包含编码GFP的序列、3’UTR A框和B-框、以及在3’UTR处的多聚A序列。第三构建体包含编码ORF2p的额外序列。72小时时预期的GFP表达水平在右侧示出。图2B说明了通过使用构建体稳定掺入编码GFP的序列，在编码RFP或ORF2p的mRNA中表达示例性转基因GFP的三种示例性设计。第一构建体包含编码RFP的序列；和在不存在任何L1元件的情况下，在3’UTR处的多聚A序列。第二和第三构建体包含具有A框和B-框的3’UTR，以及在3’UTR处的多聚A序列。第二构建体包含编码RFP的序列，且第三构建体包含编码ORF2p的序列。72小时时预期的RFP和GFP表达水平在右侧示出。

实施例2.示例性circRNA设计构建体：

在本实施例中，展示了circRNA的模块化设计，其掺有一段约50个核苷酸长的RNA，所述RNA具有天然存在的三级结构，以制备circRNA。使用形成三级结构的RNA使得circRNA形成过程独立于序列介导的环状化杂交。这些具有三级结构的RNA基序可以被掺入具有外显子和内含子代替5’和3’同源臂的所需RNA中，从而形成用于环状化的末端RNA支架。

TectoRNA：RNA–RNA结合界面是通过组合GNRA环/环-受体相互作用基序对构建的，产生高亲和力、高特异性的三级结构。(图3B)。GNRA环/环-受体相互作用基序对通过使用来自发夹核酶的四向连接进行融合，以产生二价的自组装支架单元(‘tectoRNA’)，这有助于形成封闭的协同组装环状复合物。使用两个正交的环/环-受体相互作用基序，RNA单体被设计为能够以平行(“上-上”)或反平行(“上-下”)组装模式进行定向组装。在相互作用分子的反平行组装中，每个掺入的单体都改变生长链的方向，从而补偿其固有的弯曲度，产生长的、相对较直的多单元链。为了选择具有最少出现的替代二级结构的tectoRNA支架，通过将序列提交给RNA折叠程序Mfold(bioinfo.math.rpi.edu/～zukerm/rna/mfold)来检查序列，所述程序预测给定的RNA序列的热力学上有利的二级结构。选择热力学上有利的结构用于具有最少替代二级结构的支架(通常但不排他地，没有其他二级结构在能量上更接近最低能量结构的15％)。RNA分子通过常规方法制备，诸如使用T7 RNA聚合酶进行体外失控转录。图3B示出了RL-GAAA环结构。为了分析tectoRNA异二聚体，使用基于荧光的芯片-流动工件测试方法。在这种方法中，结构化RNA(芯片工件)的潜在变体文库被合成为DNA模板，并被扩增以包括用于RNAP起始的测序衔接子和区域。每个DNA变体都被原位转录成RNA，从而能够在测序芯片表面上展示序列鉴定的RNA簇。将荧光标记的tectoRNA结合配偶体“流动工件”以递增的浓度引入测序芯片流动池中，允许在平衡后对每个RNA簇的结合荧光进行量化。根据解离常数(K_d)和结合自由能(ΔG＝RT log(K_d))，这些荧光值用于导出流动工件对每个芯片工件变体的亲和力(图3C)。

所选的包含三级结构的末端RNA支架区段通过使用T7转录或连接在有待环化的所需RNA的5’和3’端处而被掺入；或通过任何已知的分子生物学技术掺入所需RNA中。

实施例3：具有提高的特异性的示例性逆转录转座子设计

在本实施例中，展示了用于L1介导的逆转录转座子的核酸构建体的设计，以提高靶标特异性。mRNA被设计为包含ORF2编码序列和编码目标基因的序列，以便使用ORF2将目标基因掺入到细胞基因组中。在一种示例性设计中，构建体包含进一步被修饰的ORF2。

如图4A所示，ORF2蛋白通过与其自身的多聚A序列结合来起始逆转录转座。然而，由于多聚A大量存在于mRNA中，所以非特异性结合和整合成为可能。为了提高特异性，重组ORF2被设计为包含异源性蛋白的mRNA结合结构域，并且异源性mRNA结合结构域的同源mRNA序列被插入到3’-UTR中的多聚A序列和ORF2多聚A结合位点附近。

由此生成嵌合的ORF2，如(图4B)所示，其中异源性蛋白编码序列的高亲和力RNA结合结构域被掺入或融合到ORF2序列，并且与高亲和力RNA结合蛋白对应的同源RNA序列被掺入mRNA的3’UTR区中，靠近多聚A区域。在本实施例中，异源性高亲和力RNA结合结构域衍生自MCP外壳蛋白MS2(在图中示为M)，被掺入ORF2序列中，并且同源序列MS2发夹被包含在mRNA的3’UTR序列中(图4B)。MS2与同源序列结合，从而提高嵌合ORF2对其自身mRNA的特异性以用于逆转录并将与ORF2 mRNA相关的相应序列掺入哺乳动物细胞的基因组中(图4B)。

在其他示例性设计中，试图提高通过ORF2将转基因整合在靶细胞基因组内的特异性。在一个示例性设计中，Mega TAL编码序列与ORF2融合，如图4C(上部子图)所示。与此同时，ORF2发生突变，以消除其识别并结合特异性较低的RNA序列的能力。融合蛋白被定向到掺入3’UTR内的TAL结合序列并执行核酸内切酶功能。Mega TAL DNA结合序列被融合蛋白靶向。同样，设计了其他嵌合体(图4C(中间子图))和具有特定DNA结合结构域的融合蛋白图4C(下部子图)。

实施例4.用于LINE-1介导的外源性核酸序列逆转录转座的示例性质粒设计和开发

在本实施例中，生成质粒载体以用于递送和掺入重组LINE-1构建体，所述构建体包含可操作地连接到可转座到哺乳动物细胞中的转基因的ORF2转座子元件，以及用于mRNA转录和稳定化的调控元件。mRNA可以在细菌宿主细胞中转录，可以进一步被加工和/或纯化以在体外引入到哺乳动物细胞中或施用在生物体诸如哺乳动物、啮齿动物、绵羊、猪或人中。

任何合适的载体骨架用于将重组核酸序列作为插入物掺入并在细菌系统中转录以生成mRNA；或者体外转录系统可以用于生成包含重组核酸序列的mRNA。向质粒添加几个特征。在成功的可扩张的mRNA产生和纯化后，可以将mRNA引入目标哺乳动物细胞诸如骨髓细胞中。

传统上用于逆转录转座研究领域的质粒缺乏设计师基因(designer gene)，基因块和吉布森(Gibson)组装方法，常被用于插入不同的特征。从旧载体中获取特征但具有插入新特征的灵活性的新载体对于作为基因递送系统的LINE-1元件的研究和优化而言都是有益的。以下是可以提高逆转录转座频率的基本特征和额外特征的概述，无论是单独使用质粒还是从质粒转录的mRNA。在图5(I)中图示的示例性质粒设计中，其含有具有原始5’UTR、3’UTR和ORF间序列的天然LINE-1序列，没有限制位点来交换任何这些特征。新优化的质粒：

移除Dox诱导型启动子，替换为CMV或EIF1a或EF1a启动子

添加T7位点以得到mRNA

密码子优化ORF1和ORF2

添加WPRE元件以使mRNA稳定

将FLAG标签添加到ORF2中以帮助蛋白质检测

将尺寸从18kb减至14kb

在每个特征处添加钝性限制位点(带钝箭头的虚线)以方便插入

纳入G418选择标志物

质粒示于图5(II)中。

使用吉布森,为图5(III)中所示的质粒报告基因插入反向分裂的GFP。如图5(IV)中所示插入mRNA报告基因的完整反向GFP。

使用图5(V)中的质粒构建体作为亲本，在ORF2的N末端处插入核定位序列(NLS)以帮助核输入(图5(VI))。插入IRES或另一个终止/启动子序列以增加ORF2的表达(图5(VII))。为了促进ORF2与mRNA之间更强的相互作用，MS2发夹被插入到ORF2蛋白的N末端中的3’UTR和MS2外壳蛋白序列中(图5(VIII))。具有提高的特异性的相应示例性ORF2及其作用机制在前述实施例和图4B中公开。为了促进mRNA与翻译核糖体的更强相互作用并停止翻译以使新生的ORF2更有可能结合mRNA，在mRNA的3’UTR中插入Alu元件(图5(IX))。为了可能使用更有活性的ORF2蛋白，ORF2的RT结构域被替换为II组内含子的逆转录酶结构域(图5(X))。另外，小须鲸基因组中活性LINE元件的数量和百分比最高(约5,000个，其中60％有活性，而人类有480个，活性率为3.6％)。这两个序列67％相同，并且鲸鱼序列具有活性核酸内切酶和逆转录酶残基。相应的小须鲸结构域可用于替换天然ORF2核酸内切酶和/或RT结构域或设计嵌合结构域。

实施例5.mRNA设计合成mRNA生成

mRNA可以策略性地被设计用于通过寡核苷酸的合成和/或连接进行合成生产。另外，此类设计适用于体外转录(IVT)介导的mRNA生成。mRNA策略可以包括与前面实施例中讨论的质粒策略相同的变体。主要区别在于报告GFP序列不包含内含子(图6A)并且构建体可以在没有ORF1编码区的情况下递送(图6B)。

实施例6.增加mRNA半衰期的结构特征

在本实施例中，结构特征被引入包含逆转录转座元件和/或转基因的mRNA中以用于增加mRNA半衰期。目标是将原代单核细胞中mRNA的蛋白质表达持续时间从三天增加到至少5天，最终目标是10天。

如图7B(左)中所示，当引入到CD14+骨髓细胞(单核细胞)中时，包含编码转基因的序列的mRNA被翻译并表达能够与癌细胞上的抗原结合的嵌合受体(ATAK构建体)。

许多mRNA设计是通过合成各种基因块产生的，所述基因块单独或以组合形式包含以下各项中的一种或多种：(i)G-四链体，(ii)5’UTR中的病毒假结结构；和/或(iii)3’UTR中的一个或(iv)多个xrRNA环结构(v)如图7A中所示的三链体RNA结构；并在与转基因的编码序列相邻的各个UTR处克隆到转录载体中。这些构建体由外部供应商单独制备并在内部测试以确定mRNA的稳定性，如通过嵌合受体的表达来测量(示例性受体及其功能在图7B(左)中以图形描绘。工序流程图如图7B(右)所示。简言之，将构建体克隆到具有编码或修饰的多聚A尾的质粒中。将mRNA转录并纯化。同时，解冻并收获冷冻的单核细胞。将收获的细胞用纯化的mRNA(5-10ug)电穿孔，并培养1、2、3、5天。嵌合受体阳性细胞(结合剂阳性细胞)通过它们与靶细胞或包被有靶抗原的底物结合的能力来检测。预期结果示于图7C中。表达(i)-(v)中概述的一种或多种结构特征(数据由实心方块表示)或其组合的散装或纯化mRNA表现得优于不包含(i)-(v)中概述的任何特征的可商购获得的对应物(数据由三角形表示)。

实施例7.LINE-1逆转录转座子质粒介导的GFP基因递送

在此测试运行中，验证了GFP货物的基因组整合和使用LINE-1逆转录转座子系统表达GFP蛋白。LINE-1-GFP构建体(LINE-1质粒GFP)例示于图8A中：质粒构建体具有编码ORF1p(ORF1)的LINE-1序列、编码ORF2p(ORF2)的序列和CMV启动子驱动的分裂GFP基因，所述基因以与ORF相反的取向位于LINE-1的3’UTR中。分裂的GFP被设计成在剪接供体与受体位点之间插入内含子序列，这确保了GFP只有在整合和剪接介导的编码序列中间的非编码序列去除后才能表达。在这种情况下，货物为2.1kb。使用Fugene试剂，用质粒转染HEK293T细胞，并通过嘌呤霉素选择质粒阳性细胞。由基因组整合的GFP产生的mRNA成功地翻译并通过流式细胞术来测量，表示为与模拟转染细胞相比平均荧光强度(MFI)的变化(图8B)和具有GFP荧光强度的细胞分率的变化(图8C)。模拟转染细胞接受缺乏GFP序列的质粒。

实施例8.LINE-1逆转录转座子质粒介导的嵌合受体基因递送

本实施例证明了重组基因可以在细胞中使用LINE-1序列成功地表达。将HEK 293细胞用具有LINE-1元件的质粒转染，其中3kb货物序列编码重组受体蛋白CD5-内含子-fcr-PI3K(ATAK)，所述序列被CD5结合结构域中的内含子序列中断。所述货物是嵌合受体，具有结合CD5的胞外结构域、FCRγ跨膜结构域和具有PI3-激酶募集结构域的胞内结构域。逆转录转座子质粒的示意图示于图9A中。正如上面实验的设计，ATAK受体不能表达，除非它被整合到基因组中并且内含子被剪掉。在HEK293T细胞中转染后，使用标记的CD5作为CD5结合胞外结构域的诱饵来检测受体表达。图9B和9C中所示的结果示出了受体的成功整合和表达。36.5％的细胞是ATAK(CD5结合剂)阳性的(图9C)。

在进一步的修饰中，具有较长3.7kb货物序列的LINE-1构建体(LINE-1质粒-cd5_fcr-pi3k_t2a_GFP内含子)编码非中断的重组受体蛋白CD5-内含子-fcr-PI3K和中断的GFP序列，在受体与GFP序列之间具有T2A序列(图10A)。针对模拟转染的细胞进行归一化，ATAK受体增加了大于10倍，并且注意到GFP双阳性细胞(图10B)。GFP的示例性荧光鉴定和用于实验运行的荧光标记的CD5结合和门控定量示于图10C和图10D中。

实施例9.用于递送货物基因的编码LINE-1逆转录转座子的mRNA

在此测定中，测试了将LINE-1逆转录转座基因序列作为mRNA递送和表达的能力。编码ORF1的mRNA(ORF1-FLAG-mRNA)，以及用CMV启动子序列在反义方向上编码ORF2和GFP的mRNA(ORF2-FLAG-GFPai)的设计如图11A所示。此测定中货物大小为2.4kb，并且GFP相对于ORF2序列处于反义取向。将mRNA在293T细胞中电穿孔，并且报告基因表达如图11B所示来证明。此实验设置表明，ORF2p的表达不需要ORF1通读，并且来自不同mRNA分子的ORF2p的表达可以允许ORF2p和GFP的更高表达。有了这些结果，实现了LINE-1和mRNA形式的货物的成功递送。

为了确定ORF1和ORF2 mRNA的相对水平是否影响GFP表达，建立了实验来测试不同量的ORF1和ORF2 mRNA(图11A)。针对GFP+细胞的增加测试了3x各自和一起的量，并且结果示于图12A中。倍数增加是相对于1x ORF2-GFP和1x ORF1 mRNA。当3x ORF1与1x ORF2一起使用时，GFP表达更高，但反之则不然；而同时具有3xORF1和3x ORF2显示了所比较的集合中GFP表达的最高水平。此处货物大小是2.4kb。图12B示出了逆转录转座子mRNA电穿孔后GFP+细胞的荧光显微图像。

测试了在单个mRNA分子(LINE1-GFP mRNA构建体)中编码ORF1和ORF2二者以及处于反义取向上的GFP转基因的完整LINE-1mRNA在细胞中的递送和基因组整合。mRNA含有双顺反子ORF1和ORF2序列，其中3’UTR中的CMV-GFP序列从3’-5’开始(图13A)。在此项研究中，货物大小为2.4kb。如图13B所示，在递送的ORF2-cmv-GFP反义物(LINE-1mRNA)逆转录转座后，左起第三个条形图，与处于单独的mRNA分子上的ORF1和ORF2(图表条1、2)相比，细胞表达更高的GFP。除了LINE-1完整mRNA之外，在单独的mRNA中还纳入ORF1比单独的LINE-1增加了GFP表达。ORF2+GFP的纳入预期显示更高的GFP，这可能是额外的ORF2与GFP货物编码mRNA的贡献。

为了测试后续电穿孔是否提高了逆转录转座效率，每48小时对细胞进行电穿孔。在培养24-72小时后使用流式评估GFP阳性细胞。将荧光数据归一化为具有单个电穿孔事件的集合中的值。如图14A和14B所示，多次电穿孔导致转座基因表达呈上升趋势，但变化适中。

实施例10.对ORF2蛋白序列的修饰以增强mRNA的逆转录转座

使用GFP报告基因作为读数，测试了LINE-1序列的修饰以通过mRNA递送增强逆转录转座。如下进行实验。所有修饰都在双顺反子ORF1和ORF2序列的背景下。(i)通过将C末端NLS序列插入ORF2序列来产生ORF2-NLS融合物。(ii)将人ORF2替换为小须鲸ORF2；(Ivancevic等人,2016)。(iii)在3’UTR中掺入Alu元件：在LINE-1的3’UTR中使用Alu元件的最小序列(AJL-H33Δ；Ahl等人,2015)。(iv)3’UTR+ORF2-MCP融合物中的MS2-发夹：LINE-1序列的3’UTR中的MS2发夹和与ORF2序列融合的MS2发夹结合蛋白(MCP)(图15A)。模拟构建体具有野生型人ORF2序列。

相对于模拟构建体电穿孔细胞，GFP阳性细胞分率的倍数增加的量化示于图15B中。

实施例11.免疫细胞中的逆转录转座

在这个实验中，ORF间区域被进一步操纵以确定是否有任何变化改善了HEK细胞转染后GFP表达。以LINE-1质粒GFP为例，如下操纵ORF间区域：(a)在一个构建体中，ORF间区域被来自CVB3的IRES替换；(b)在另一个构建体中，ORF间区域被EV71的IRES替换；(c)在三个单独的构建体中，E2A或P2A或T2A自切割型序列被插入ORF间区域中。结果如图16所示。与LINE-1质粒相比，GFP(LINE-1野生型质粒)仅导致GFP读数发生适度变化，尤其是T2A序列插入。EV71 IRES序列的插入改善了GFP表达，而CVB3IRES没有显示任何改善。

实施例12.免疫细胞中的逆转录转座

为了测试免疫细胞中的逆转录转座，LINE-1质粒和mRNA通过电穿孔进入Jurkat细胞(T细胞淋巴瘤系)中而与CMV-GFP反义报告基因货物一起测试(图17A-图17B)。用没有GFP序列的质粒对模拟集合进行电穿孔。评估了转染细胞中的GFP表达，电穿孔后4天的代表性数据示于图17B中。报道了相对于模拟转染细胞的倍数增加。质粒和mRNA递送模式都导致了成功的GFP表达。

接下来，用具有LINE-1序列及编码嵌合HER-2结合受体和分裂GFP的3.7kb货物的质粒(LINE-1质粒Her2-Cd3z-T2A-GFP内含子)对THP-1细胞(骨髓、单核细胞系)进行电穿孔(图18A)。所述货物是一种嵌合受体，其包含HER2结合胞外结构域、CD3z跨膜结构域和分裂的GFP报告基因。质粒被成功地整合到基因组中并显示出延长的表达，如图18B所示。转染后第6天的代表性表达如图所示。这些研究表明，LINE-1介导的基因递送可以成功地将稳定基因组整合到各种细胞类型中，包括上皮细胞类型(HEK-293T细胞)；T细胞(例如，Jurkat细胞)；和骨髓细胞(例如THP-1细胞)，并导致表达延长。此外，与诸如Prime编辑的CRISPR依赖性技术不同，逆转录转座可以造成大量遗传货物的整合，并且这些可以作为单个核酸构建体递送。

实施例13.进一步提高LINE-1介导的货物序列逆转录转座效率的外部方法

在本部分中，详述了进一步提高货物序列逆转录转座到细胞基因组中的效率的方法。

通过选择群体中处于细胞周期的某个阶段的细胞或通过合适的剂阻滞G1进行细胞周期同步化可以产生更高的核酸摄取效率，例如质粒载体转染效率或电穿孔效率。在此测定中，将细胞预分选，且每组单独进行电穿孔，以确保电穿孔均匀。比较这些组之间的电穿孔效率，并选择由GFP测试质粒或mRNA的表达所确定的效率最高的细胞周期阶段(图19)。

在此实验的另一变型中，通过在电穿孔前用细胞周期阻滞试剂处理细胞数小时，在分选或不分选的情况下同步化细胞。表1提供了细胞周期阻滞试剂的示例性列表。所述列表并非详尽无遗的，并且包括可促凋亡的试剂，因此为适合培育目的和剂量和时间而进行的仔细选择已针对特定情况进行了优化。

表1.用于抑制细胞周期的小分子试剂的示例性非详尽列表

对于某些离体用途，通过在细胞中诱导DNA双链断裂(DSB)来增强逆转录转座，所述细胞通过受控辐照表达上述任何实施例中所述的逆转录转座机制，这为同源重组和逆转录酶的引发创造了机会(图20)。在另一实施例中，细胞被LINE-1质粒GFP构建体转染并经受辐照脉冲。监测GFP表达。辐照强度和时间经过优化以获得最大的益处，如较高的GFP表达所示。

在另一实施例中，将用LINE-1质粒GFP转染的细胞分成实验集合，如下进行处理：(i)辐照以诱导DSB(如上所述)；(ii)用小分子(诸如SCR7)处理此集合中的细胞，所述小分子阻断DNA连接酶，从而抑制DNA损伤修复机制。防止保护性修复机制抑制逆转录转座的进程有望增加GFP表达：(iii)辐照细胞，然后用SCR7处理细胞，预计两者的组合会显示出更强大的效果。在6天的时间内监测GFP表达，并且在最长的时间内显示最大GFP荧光的集合表示在进一步研究中采用的条件。

实施例14.通过进一步修饰构建体提高LINE-1介导的货物序列逆转录转座的效率

I.增强构建体的非编码区以提供稳定性和更高的表达。在本实施例中，LINE-1质粒-GFP被进一步修饰以测试增加的GFP表达，如下所示：(a)在一个构建体中，5’UTR被补体基因的UTR替换；(b)在另一个构建体中，3’UTR被B-珠蛋白基因的UTR序列替换以增加稳定性；(c)在另一个构建体中，ORF间区域被来自CVB3的IRES替换；(d)在另一个构建体中，ORF间区域被来自EV71的IRES替换；(e)在三个单独的构建体中，E2A或P2A或T2A自切割型序列被插入ORF间区域中，如图21中的图解表示所示。除了上述之外，还将(a)-(e)的各种组合和表2中列出的额外组合使用与上述相同的设置进行测试。在将平行测试集中的构建体转染到HEK293T细胞中后监测GFP表达，以查看与单独的LINE-1质粒GFP相比，这些构建体中的任何一个是否增加了GFP表达。采用显示改善的组合。

表2-5’和3’UTR和ORF间插入元件的示例性组合，用于包含在LINE-1构建体中以提高逆转录转座效率。

II.增强ORF在细胞核中的定位和保留。在本实施例中，LINE-1质粒-GFP如下被进一步修饰以测试增加的GFP表达：(a)ORF2编码序列与核定位序列(NLS)融合(如图15A中图形表示，从上数第二个构建体)。(b)ORF1编码序列与核定位序列(NLS)融合，如图22中图形表示；及(c)Alu结合序列被插入到编码ORF2逆转录酶的序列的3’端(如图15A中图形表示，从上数第四个构建体；(d)(a)和(c)一起(未示出)；(e)(b)和(c)一起，NLS序列与ORF1 N末端融合，并且Alu结合序列被插入编码ORF2逆转录酶的序列的3’端(图22)；以及(f)将SINE衍生的核RNA定位(SIRLOIN)序列整合到LINE-1 3’UTR中。将HEK-293T细胞用构建体(a)-(f)和LINE-质粒GFP构建体平行转染。在转染到HEK293T细胞中后监测GFP表达。采用在最长时间内显示最大GFP荧光的集合。

III.修饰构建体以增强LINE-1-蛋白质-RNA复合物与核糖体的结合。在本实施例中，在LINE-1构建体的3’UTR中插入额外序列，以增强LINE-1蛋白RNA构建体与核糖体的缔合，所述序列是Alu元件或核糖体结合适体(图23)。

为了增强LINE-1蛋白-RNA复合物与核糖体的结合，在mRNA的3’UTR中插入以下元件，并进行类似于上述实验的测试。上面描述了Alu元件的插入。在单独的构建体中，插入Alu元件截短、核糖体结合适体(109.2-3)和核糖体扩增区段(ES9S)结合序列，并分别测试GFP表达的增加。

IV.增强ORF2与其自身mRNA的结合以进行逆转录转座。在本实施例中，将包含MS2结合环结构的序列引入到LINE-1的3’UTR中，并将编码MS2 RNA结合结构域的序列与ORF2p-RT的RNA结合结构域融合(在图4A和4B及图24中以图形表示，构建体SEQ ID NO:15)。融合蛋白将特异性附接在3’UTR中的MS2结合结构基序上，因此任何非特异性结合和逆转录转座都被最小化(图24)。在转染到HEK293T细胞中后监测GFP表达。按照类似的设计，ORF与下表3的左栏中所示的蛋白质结合序列融合，并与插入ORF2的3’UTR区域(在同一行相应右栏中所示)中的同源序列组合。

表3-提高LINE-1蛋白的翻译效率和稳定性并增加LINE-1蛋白表达的示例性元件列表。

V.修饰逆转录转座子的核酸内切酶功能。在本实施例中，构建体如下被修饰以测试GFP表达的增加。在第一实验集中，LINE-1质粒GFP在ORF2的核酸内切酶编码序列的3’端被切割，并插入编码异源性锌指蛋白(ZFP)的DNA结合结构域(DBD)的序列。在另一实验集中，核酸内切酶结构域与CRISPR核酸酶融合。可以通过使用如表4中的非详尽列表所示的DNA结合结构域和裂解结构域创建融合蛋白来修饰LINE-1质粒GFP ORF以测试多种核酸酶。此外，两个ORF-2结构域在一个集合中编码以促进二聚化。可以进一步选择具有比ORF2核酸内切酶更高的GFP表达的构建体。质粒设计在图25中以图形表示。将质粒转染到HEK293T细胞中后监测GFP表达，并监测表现最佳的集合。

表4-可以被融合或插入以代替LINE-1核酸内切酶的额外DNA裂解结构域/酶的示例性非详尽列表。

VI.修饰逆转录转座子的逆转录酶功能。在本实施例中，ORF2的逆转录酶结构域被修饰以提高其效率。在一个实验集中，LINE-1质粒GFP中编码人ORF2的序列被切除并替换为编码MMLV或TGIRTII的序列。在另一实验集中，ORF2逆转录酶结构域与异源性蛋白的DNA结合结构域融合。逆转录酶结构域和/或DNA结合结构域可以选自表5A-表5B中提供的非详尽列表。构建体在图26中以图形方式例示。在转染到HEK293T细胞中后监测GFP表达。

表5A-用于替换LINE-1RT以获得更高效率的逆转录酶的选定非详尽列表

表5B-用于与RT融合以提高效率的DNA结合结构域的选定非详尽列表

DNA结合结构域(DBD)
	锌指结构域
亮氨酸拉链(bZip)
	螺旋-转角-螺旋结构域
HMG-框
	R2逆转录元件DBD
Sso7d
	蛋白A(ssDNA)
OB-折叠(ssDNA)

VII.用来自其他生物体的LINE-1替换人LINE-1。在本实施例中，编码人LINE-1的序列被来自不同生物体的LINE-1替换。在一个实施例中，将人LINE-1构建体与人LINE-1被小须鲸LINE-1序列替换的构建体进行比较(图27)。使用相同的实验框架，测试了许多ORF。下面的表6中提供了示例性的非详尽列表。Ivancevic A.等人,Genome Biol Evol 8(11):3301-3322中提供了更全面的列表。

表6-用于替换人LINE-1的来自生物体的示例性LINE-1元件

在另一集合中，人LINE-1与在GFP质粒中一样被保留，但人LINE-1沉默子的抑制剂被用来阻止被内源性蛋白质(如HUSH复合物TASOR蛋白)识别。在这种情况下，TASOR抑制剂是抑制性RNA，诸如miRNA。

VIII.用于靶标特异性的LINE-1融合蛋白。在本实施例中，LINE-1质粒GFP ORF2与MegaTAL核酸酶、CRISPR-CAS核酸酶、TALEN、R2逆转录元件结合锌指结合结构域或可与重复元件诸如Rep78 AAV结合的DNA结合结构域融合。图28例示了所述设计。表7提供了可以被融合以增强序列特异性逆转录转座的不同元件的列表。

表7-具有有待与ORF2融合以提高逆转录转座特异性的DNA结合结构域的示例性蛋白质

元件
	转录因子
MegaTAL核酸酶
	TALEN
来自其他逆转录元件的锌指结合结构域
	安全港结合蛋白
Cfp1

将每个质粒转染到HEK293细胞中并监测GFP表达。

本部分(I)-(VIII)中描述的修饰被设计用来测试逆转录转座效率的提高，使用GFP作为读数。据此，将(I)-(VIII)中的许多有用修饰掺入到单个逆转录转座构建体中，用GFP作为插入物测试结果，并将GFP序列替换为所需的插入序列。

实施例15.使用逆转录转座子技术递送大的有效载荷以延长表达

在此提供了可用于将核酸有效载荷掺入到细胞的基因组中并表达示例性转基因的逆转录转座子构建体的示例性展示。如本公开其他部分所述设计逆转录转座子构建体。

简而言之，在一组验证实验中，如下构建编码GFP的有效载荷：将在强力霉素可诱导的控制下的反义启动子序列，然后是在有义方向上用内含子分裂的反义GFP基因置于LINE-1ORF的下游(图29)。剪接供体(SD)和剪接受体(SA)序列只有当mRNA从顶链的启动子产生时才能被识别和剪接出来，因此只有从剪接的mRNA整合到基因组中的GFP基因才会生成荧光信号。如图2中的代表性流式细胞术数据所示，与阴性对照质粒(灰色直方图)相比，使用流式细胞术在强力霉素诱导ORF表达后35天测量GFP表达(绿色直方图)。在这种情况下，货物大小为2.4kb。

将先前构建体中的货物GFP基因用内含子中断的CD5-FcR-PI3K CAR-M序列替换(Morrissey等人,2018)。使用Alexa647缀合的CD5蛋白通过流式细胞术测量CD5结合剂表达，使得逆转录转座的细胞与质粒转染的阴性对照细胞群体(灰色直方图)相比为CD5-AF647阳性(红色直方图)(图30)。展示了3.0kb构建体的成功表达，如图所示。

通过在CD5-FcR-PI3K CAR-M序列下游的T2A序列之后添加内含子中断的GFP基因来延长货物基因长度(图31)。使用Alexa647缀合的CD5蛋白通过流式细胞术测量CD5结合剂表达。与阴性对照(灰色直方图)相比，CD5结合剂阳性细胞通过红色直方图示出。与阴性对照质粒转染的细胞(灰色直方图)相比，使用流式细胞术测量GFP表达(绿色直方图)。Q2中的流式细胞术信号显示10.8％的细胞表达CAR-M和GFP蛋白两者。

如图32所示，逆转录转座子递送和与3.9kb有效载荷的整合(Retro-T递送)尚未达到有效载荷大小限值。在此所述的递送机制对于第一代CART构建体和GFP(通过T2A位点分离)的表达是成功的。在本实施例中，测试了不同构建体的插入序列的逆转录转座效率。图33A显示了作为mRNA的基因递送产生成功整合。这一数据首次表明Retro T可以作为mRNA被递送。如图33B(顶部子图)以图形的方式所例示，探索了使用编码ORF1和ORF2且在3’UTR中具有反义启动子和GFP货物(ORF2-GFPai)的单独mRNA进行基因递送的反式策略。图33B-33D展示了多个代表性测定的实验结果。表达LINE-1蛋白的单独mRNA可以重构逆转录转座所需的RNA-蛋白复合物。顺式策略使用在3’UTR中具有反义启动子和GFP基因货物的单个双顺反子LINE-1mRNA。将包含可变量和比例的ORF2和ORF1的构建体进行比较，如图33B和图33C所示，以GFP编码序列作为有效载荷。图33D显示引入单个mRNA产生更高的整合数/细胞。对293T GFP细胞进行分选，以富集用于生物化学和整合测定的逆转录转座细胞。细胞与图33B中的细胞相同，并且在底部子图中显示分选后4天的GFP表达。所述图示出了来自不同LINE-1质粒转染、LINE-1mRNA(逆转录-mRNA)以及ORF1和ORF2-GFP mRNA电穿孔的细胞的基因组DNA整合的qPCR测定。使用了两个qPCR引物-探针组，一个用于管家基因RPS30，另一个用于GFP基因。质粒转染的细胞使用不含SV40维持序列的质粒。通过对质粒和基因组DNA的标准曲线进行插值来确定每个样品的拷贝数，并对每个293T细胞的两个RPS30拷贝进行归一化，从而计算每个细胞的整合。误差条代表三次技术重复测量的标准偏差。

实施例16.递送至不同的细胞类型

如图34-38所示，包含目标基因(例如，编码CAR蛋白或例如GFP蛋白)的mRNA构建体可以在不同的细胞类型中有效表达，诸如上皮细胞(例如，HEK 293细胞)、单核细胞系(例如，THP-1细胞)、淋巴母细胞系(例如，K562细胞)和原代淋巴细胞(T细胞)。激活的原代T细胞也成功地用具有基因组整合和GFP表达的mRNA转染(图36)。使用IL7/IL15分离并扩增原代T细胞；并且在激活后第2天递送第1代CAR构建体。对细胞进行分选并冷冻。在冻融循环之后可检测到GFP表达(图37A-B)。这指示mRNA介导的递送和L1转座子介导的整合的多功能性。图38示出了293T细胞、K562细胞、THP-1细胞和原代T细胞中GFP mRNA整合和表达的代表性测定。

实施例17.修饰逆转录转座系统，交换整合酶的位点特异性进行基因组整合

在本预言性实施例中，使用逆转录转座子整合系统将大的mRNA构建体稳定地掺入非分裂哺乳动物细胞中并表达，使用丝氨酸整合酶以高度位置特异性整合到细胞的基因组中。如本公开其他部分所述设计逆转录转座子构建体。

在本实施例中，第一构建体，mRNA构建体被设计为包含与丝氨酸整合酶融合的Cas核酸内切酶，所述丝氨酸整合酶包含催化结构域中的突变，所述突变消除了通过整合酶整合双链多核苷酸的可能性，以及定向至特定基因组基因座(例如，组蛋白基因座、肌动蛋白基因座等，取决于具体设计的向导RNA)的引物编辑向导RNA(pegRNA)寡核苷酸。一个或多个T2A切割位点分离单个蛋白(例如，Cas9)的编码序列及其片段的丝氨酸整合酶。pegRNA被设计为插入41bp AttB着陆位点。在一个或多个替代设计中，掺入LINE1 ORF2结合位点，所述位点被方便地定位且定位在附近(例如，并置)，以用于ORF2蛋白与整合酶结合位点结合。

第二mRNA构建体被设计为包含与大于5、6、7、8、9、10千碱基的货物序列融合并编码蛋白质的LINE1 mRNA；突变的核酸内切酶和与整合酶的货物序列融合以吸引货物序列并将货物序列带到着陆序列的AttP附接位点。AttP附接位点与AttB着陆位点互补。

通过体外转录制备信mRNA构建体，然后进行纯化。将所得的每个纯化的mRNA构建体单独掺入到脂质纳米颗粒(LNP)中。使用电穿孔，使用LNP将两种mRNA构建体共同递送到细胞中。引导与pegRNA融合的Cas9核酸内切酶来将基因组着陆序列插入到特定基因座中。AttB着陆位点的作用类似于吸引AttP附接位点的信标，所述附接位点通过设计被包含在与LINE1 mRNA缔合的货物序列内。蛋白质的共翻译导致ORF多肽的生成，并且由整合酶引导并被附接位点拴系，ORF在附近与相关的ORF结合位点接触，并在特定位点处整合货物。

在又一个替代设计系统中，整合酶系统被完全绕过，并且PEG-RNA在通过向导RNA定向的特定基因组基因座处仅掺入ORF结合位点。

通过Sanger测序确认位点特异性整合。进行流式细胞术以展示插入序列在细胞中的表达。人们发现，细胞存活率和基因组整合率高于基于质粒或载体的系统，因为mRNA对细胞的有害影响较小。

实施例18.示例性序列

以下是实施例中使用的构建体的示例性序列。这些序列用于参考示例性目的，并且本领域技术人员在没有过度实验的情况下可以想到的序列变化和优化被考虑并涵盖在本公开内容中。在序列标题中提及mRNA序列的情况下，构建体列举了DNA模板的核苷酸，并且本领域技术人员可以容易地推导出相应的mRNA序列。

实施例19.富集稳定逆转录转座的细胞

为了提高具有稳定整合的核酸序列的细胞产量，尝试了分选和培养的方法，如本实施例中所述。用通过IVT产生的LINE1-GFP mRNA对293T细胞进行电穿孔，并在体外培养至少3天。使用流式细胞术定期确定GFP的表达，如图40所示。使用定量PCR评价每个基因组的基因组整合。使用GFP和管家基因(FAU)的标准曲线评价每个基因组的基因组中编码GFP的核酸的插值。在GFP阳性细胞的分选和富集培养物中，如图40所示，很明显，整合对于多个细胞传代是稳定的(EP后至少18天)，并且相当大的富集是可能的。EP后5天，在～1％的293T细胞中可检测到GFP表达。第一次分选之后，GFP+细胞富集至～28％，并且第2次分选之后进一步富集至～74％。(图40，图41C)。

基因组整合的标准曲线和示例性定量分别如图41A和41B所示。图41C示出了当在10^3个单位的GFP荧光强度和10^4个单位的荧光强度下门控时每个基因组的平均GFP整合数。

实施例20.用于增强转座子介导的整合的mRNA浓度的滴定

滴定用于电穿孔的LINE1-GFP mRNA的浓度，以获得不同细胞类型，293T细胞、K562和THP-1细胞中每个细胞的最佳基因组整合(图42-46)。测试100、500、1000、1500和2000ng/μL的mRNA的GFP表达和每个细胞的整合数。浓度高于1000ng/μl导致细胞死亡。从图42、43和44所示的结果来看，1000ng/μl产生由逆转录转座整合的核酸编码的GFP的更高和长期表达。整合的DNA编码的蛋白质表达在第3天开始可检测到，并在第6-7天左右达到峰值(图45)。然而，LINE-1GFP mRNA在K562和THP-1中的基因组整合和表达相当低；在K562细胞中检测到约0.067-0.155/细胞的整合(图46)。(THP-1数据未示出)。较高的LINE1-GFP mRNA浓度(1500和2000ng/μl)导致这些细胞中的细胞死亡。在电穿孔后第3天检测到PD-0015单核细胞中的GFP mRNA表达，每个细胞都具有可检测的整合。(图47)。采取步骤进行更广泛的DNase 1处理，并在电穿孔之前评价测试mRNA批次的残留质粒。通过首先通过PCR富集整合的DNA序列，然后进行双端测序，从而映射基因组内的整合位点，可以提高确定基因组中整合水平的准确性。在这方面，下一代测序被认为是黄金标准，它涉及gDNA提取通过超声处理进行剪切将DNA接头连接到DNA末端上嵌套PCR(1：一个接头引物，仅次于整合的DNA，2：添加Illumina测序衔接子)双端测序。

实施例21.通过敲低阻止转座子介导的整合的候选物来提高整合效率

在本实施例中，使用siRNA敲低多种内源性候选物，以确定敲除是否可以导致编码GFP的测试核酸的更高整合。候选物包括LINE1逆转录转座的抑制剂：ADAR1、ADAR2(ADAR1B)、APOBEC3C、BRCA1、let-7miRNA、RNase L、TASOR(HUSH复合物)、RAD51。制备siRNA(每个靶候选物3个)，与LINE1-GFP mRNA一起在测试细胞中进行电穿孔，并且通过流式细胞术测试LINE-1GFP表达的改变并通过qPCR测试其基因组整合，并且选择有助于增加LINE-1GPP整合和表达的siRNA混合物进行进一步滴定。来自测试的不同siRNA的结果在图48-51中示出。单独测试的ADAR1、BRCA和RNASEL的敲低诱导LINE1-GFP的整合增加约2倍。ADAR2、RAD51和APOEBEC3C各自导致小于1.5倍的增加，并且let7 miRNA和TASOR各自不导致增加。在图48所示的研究中，在293细胞中用siBRCA以100、200和300ng/μL对LINE-1GFP(2000ng/μL)进行电穿孔，在电穿孔后4天示出数据。在100ng/μL的情况下，整合率为大约每个细胞～0.06个GFP拷贝，并且siBRCA1_s459(100ng/μl)将整合率增加～2倍。图49中所示的数据表明，在电穿孔后第6天，siRNASEL和siADAR1 siRNA中的每一个分别将整合增加约2倍。另一方面，电穿孔后6天，siAPOBEC3C_s2617在将GFP整合增加<1.5倍(图50)。

表11.特定敲低对于基因组整合率的影响

选择针对ADAR、APOEBEC3C、BRCA和RNASEL的siRNA作为siRNA混合物。在两组实验中使用1000ng/μL和1500ng/μLLINE1-GFP mRNA，接下来滴定用于电穿孔的siRNA的浓度。观察到1500ng/μL的LINE1-GFP mRNA具有轻微毒性(图51)。在1000ng/μL的情况下，75ng/uL的每种siRNA使293T细胞中GFP的整合提高～5倍。这些结果是非常令人鼓舞的，并且支持进一步开发。K562细胞中的类似实验的结果在图52中示出。

实施例20.逆转录转座效率的提高

逆转录转座的效率可能受到许多变量的影响，诸如逆转录转座子基因整合的水平以及整合基因的后续转录和翻译效率。在本实施例中，测试了诸如LINE-1突变、mRNA序列改变/添加和mRNA化学变化等变量对于提高逆转录转座效率和构建体在细胞中的表达的影响。为了改善货物基因整合，将进行以下示例性实验以测试它们对于提高逆转录转座效率和构建体在细胞中的表达的影响：(1)mRNA修饰，诸如增加mRNA稳定性和蛋白质表达的那些；(2)序列修饰，诸如添加核定位序列(NLS)和将突变引入LINE-1蛋白中以增加定位和整合；(3)改善货物表达的方法；以及(4)对于来自不同生物体的各种逆转录元件的生物信息学分析。这些实验的经验教训适用于多种人细胞类型，包括骨髓细胞、T细胞、肝细胞、心肌细胞、神经元和视网膜色素上皮细胞，以确定这些方法对于不同细胞类型的特异性和多功能性。还将在小鼠中进行逆转录转座子的体内递送。

这些实验中包括的示例性细胞包括肝细胞、心肌细胞、视网膜色素上皮细胞和神经元。将使用原代细胞和细胞系，并且可以在每种细胞类型/细胞系的最佳条件下进行培养。测试构建体包括质粒构建体和mRNA构建体，其包含编码GFP的序列以及启动子和相对于ORF1/2基因以反向取向插入逆转录转座子复合物中的多聚A序列，如说明书中其他地方所述。对于质粒构建体，测试构建体包括含有处于反义取向的GFP基因的构建体，所述GFP基因被处于有义取向的内含子中断。对于mRNA构建体，测试构建体包括没有内含子的构建体。逆转录转座条件可以包括增加整合的试剂，其中GFP逆转录转座子经由电穿孔和/或转染试剂体外递送到细胞中。使用针对每种特定细胞类型优化的电穿孔条件。整合的效率通过流式细胞术来确定，例如使用基于SSC和FSC设置的门。在阴性对照和阳性对照中测量GFP以设置流式细胞术的门。将所使用的示例性阴性对照设置为<0.1％ GFP+。将所使用的示例性阳性对照设置为>90％ GFP+。在阴性对照和阳性对照中测量GFP以设置流式细胞术的门。将所使用的示例性阴性对照设置为<0.1％ GFP+。将所使用的示例性阳性对照设置为>90％ GFP+。指示成功整合的示例性测量是如通过流式细胞术确定的在逆转录转座后第10天>2％的细胞中GFP表达的测量。指示成功整合的另一个示例性测量是如通过流式细胞术确定的在逆转录转座后第10天>10％的细胞中GFP表达的测量。

进行额外的测定，诸如PCR和下一代测序(NGS)，以确认整合。可以对转染/电穿孔的细胞进行下一代测序。

可以直接影响mRNA稳定性和翻译效率的示例性mRNA结构包括5’CAP、多聚(A)尾和非翻译区(UTR)，将测试对所述结构的用于增加稳定性和蛋白质表达的修饰。例如，将测试5’CAP的酶促掺入和CAP类似物(诸如7-甲基鸟苷)的使用。5’CAP的酶促掺入可以比使用CAP类似物更有效。例如，还将测试多聚(A)尾长度的变化，以确定多聚(A)尾长度是否影响翻译效率。例如，将测试mRNA的GC含量百分比的变化，以确定GC含量是否影响翻译效率。高GC含量可以增加mRNA二级结构的稳定性。低mRNA含量可以降低mRNA的可翻译性。可以测试序列特异性mRNA变异，以获得最佳GC含量。在另一个示例性方法中，将用稀有密码子取代某些密码子并插入修饰的核苷酸，以确定其是否可以影响翻译效率。将被测试以增加稳定性和蛋白质表达的其他示例性核苷酸修饰包括使用5-甲基胞苷(m5C)和假尿苷(ψ)核苷酸。指示成功整合的示例性测量是如通过流式细胞术确定的在逆转录转座后第10天>2％的细胞中GFP表达的测量。指示成功整合的另一个示例性测量是如通过流式细胞术确定的在逆转录转座后第10天>10％的细胞中GFP表达的测量。

还将测试不同的mRNA生产过程以增加全长mRNA的转录。

将测试示例性NLS序列修饰，诸如用于增加定位和整合，包括各种NLS序列、将NLS序列置于LINE-1元件的上游或下游以及所使用的NLS序列的数量。如上，在阴性对照和阳性对照中测量GFP以设置流式细胞术的门。如上，将所使用的示例性阴性对照设置为<0.1％GFP+。如上，将所使用的示例性阳性对照设置为>90％ GFP+。指示成功货物基因表达的示例性测量是如通过流式细胞术确定的在逆转录转座后第10天>10％的细胞中增加GFP表达的测量。

将被测试的编码LINE-1蛋白的突变的示例性序列修饰，诸如用于增加定位和整合，包括ORF1蛋白的K3R和ORF2的Y1180A。如上，在阴性对照和阳性对照中测量GFP以设置流式细胞术的门。如上，将所使用的示例性阴性对照设置为<0.1％ GFP+。如上，将所使用的示例性阳性对照设置为>90％ GFP+。指示成功货物基因表达的示例性测量是如通过流式细胞术确定的在逆转录转座后第10天>10％的细胞中增加GFP表达的测量。

实施例21.在逆转录转座中通过人LINE1构建体引入核定位信号的作用

在本实施例中，生成并测试了几种构建体，其中将核定位信号插入如下所述的不同位置中，并在HEK293T细胞中测试逆转录转座活性。在293T细胞中对含有一个或多个不同的NLS和不同数量的包含本文所述的逆转录转座子序列的总NLS的mRNA构建体进行电穿孔，并且研究细胞基因组中测试基因的插入数量。在LINE1-GFP mRNA中的以下位置单独测试NLS，如图53所总结：(i)ORF1-N，其中NLS插入在编码LINE1-GFP构建体的ORF1的序列的N末端(图54A)；(ii)ORF1-C，其中NLS插入在编码LINE1-GFP构建体的ORF1的序列的C末端(图55A)，(iii)ORF2-N，其中NLS插入在编码LINE1-GFP构建体的ORF2的序列的N末端(图56A)；(iv)ORF2-N，其中SV40 NLS和接头插入在编码LINE1-GFP构建体的ORF2的序列的N末端(图57A)；以及(v)ORF2-C，其中NLS插入在编码LINE1-GFP构建体的ORF2的序列的C末端(图58A)。在每种情况下，使用LINE-GFP-NLS构建体进行的逆转录转座以每个细胞(基因组)的GFP插入数进行测量。

表12A详细说明了与针对图54A-55C描述的测试中的构建体相关的序列。

表12A

如图54B-54C和图55B-55C所示，在ORF1序列的N末端和C末端插入NLS消除了LINE-1构建体的逆转录转座活性。另一方面，图56A-58C中所示的每个构建体在逆转录转座方面都显示出一些改善，NLS在ORF2 N或C末端处插入。

表12B详细说明了与针对图56-56C描述的测试中的构建体相关的序列。

表12B

在ORF2序列的N末端插入NLS，每个细胞的插入数增加约2倍。(图56B和56C)。然而，使用添加了表12C所示接头序列的SV40 NLS，GFP整合数增加了约3.5倍(图57B和57C)。

表12C详细说明了与针对图57-57C描述的测试中的构建体相关的序列。

表12C

然而，令人意外的是，在ORF2 C末端插入NLS使逆转录转座增加了约5倍(图58B-58C)。

表12D详细说明了与针对图58A-58C描述的测试中的构建体相关的序列。

表12D

将SV40 NLS和核质蛋白NLS插入ORF2的C末端产生>5％的GFP阳性细胞，相比之下，在用没有NLS序列的LINE1-GFP mRNA构建体电穿孔的细胞中为小于2％。这些结果指示，用NLS进行ORF2修饰提高了逆转录转座效率。最显著的是，在C末端进行插入导致LINE1元件的逆转录转座的增加更高。

用于这些实验的示例性质粒在表13中示出。

表13-示例性质粒序列

实施例22.通过人LINE1构建体引入核输出信号对于逆转录转座的作用

在本实施例中，为了改善货物序列的翻译，测试了核输出序列的添加。测试在GFP的C末端或N末端添加NES以增加表达。测试在GFP的C末端或N末端添加多个NES以增加表达。将测试较大的货物(大于5kB的编码序列或大于7.5kB的编码序列)，以确定NES是否对特定大小的货物产生影响。可以测试特别地需要跨高尔基体或ER定位的额外货物，例如具有跨膜结构域的货物。

实施例23.筛选用于各种人细胞的逆转录转座的有效LINE1系统。

在本实施例中，使用生物信息学对大量生物体进行系统发育筛选，然后进行实验室测试，以选择一种或多种可以在人基因组内有效移动的超活性逆转录转座子元件。鉴定了来自503个不同基因组的超过1000万个LINE-1序列(Ivancevic等人,2016)，包括具有新结构域变异的ORF1和ORF2蛋白。其中，‘高活性’LINE-1物种显示出优于人类、大鼠和小鼠的逆转录转座活性。将这些元件克隆到LINE-1-GFPai质粒中，并在HEK293T细胞中进行筛选。使用测试mRNA构建体对细胞进行电穿孔，所述构建体包含编码GFP的序列以及启动子和相对于ORF1/2基因以反向取向插入逆转录转座子复合物中的多聚A序列，如说明书中其他地方所述。通过流式细胞术和PCR确定整合效率。如上，在阴性对照和阳性对照中测量GFP以设置流式细胞术的门。如上，将所使用的示例性阴性对照设置为<0.1％GFP+。如上，将所使用的示例性阳性对照设置为>90％ GFP+。使用PCR测试整合。指示成功整合的示例性测量是如通过流式细胞术确定的在逆转录转座后第10天>10％的细胞中GFP表达的测量。

实施例24.货物基因表达的改善

为了改善货物基因的表达，将测试各种货物基因启动子和多聚(A)信号。为了改善货物基因的表达，还将测试短组成型剪接内含子的各种插入。为了改善货物基因的表达，还将测试密码子优化序列，诸如使用各种替代密码子算法生成的那些序列。如上，在阴性对照和阳性对照中测量GFP以设置流式细胞术的门。如上，将所使用的示例性阴性对照设置为<0.1％ GFP+。如上，将所使用的示例性阳性对照设置为>90％ GFP+。指示成功货物基因表达的示例性测量是如通过流式细胞术确定的在逆转录转座后第10天>10％的细胞中增加GFP表达的测量。

实施例25.改编效率优化的逆转录转座子系统用于体内货物基因递送

对逆转录转座子mRNA进行工程化用于使用肝脏靶向LNP进行体内递送，以检测小鼠中的细胞内或分泌蛋白。货物基因mRNA的3’UTR中的细胞类型特异性miRNA靶标将用于靶向其在不希望的细胞类型中的降解。将测试LNP的有效体内递送。将向小鼠施用LNP包封的mRNA构建体，其包含编码GFP的序列以及启动子和位于GFP编码序列侧翼的多聚A序列。GFP基因相对于ORF1/2基因以反向取向插入逆转录转座子复合物中，如说明书中其他地方所述。将通过成像检查蛋白质表达，并将测试小鼠处死，并且在确定的时间点收获组织以进行组织学分析和PCR。

在全身施用LNP包封的mRNA后实现细胞特异性靶向，其中LNP包含表面修饰以展示识别靶细胞中的同源对应物的抗体或配体。

在设计特异性构建体后测试细胞特异性靶向，其中所述UTR被修饰以编码一种或多种细胞类型特异性miRNA。当重组mRNA被作为非预期靶细胞的细胞吸收时，细胞中存在的miRNA将与mRNA结合并将其破坏。因此，mRNA可以在预期的细胞类型中表达。

指示mRNA成功体内递送到肝脏中的示例性测量包括如通过流式细胞术或肝细胞中的组织学确定的GFP表达的测量。

实施例26.将逆转录转座靶向到特定的基因组位置

在本实施例中，进行逆转录转座设计修改以提高特定基因组位置处的靶向特异性。生成逆转录转座子融合构建体，其中掺入靶向部分以确保ORF2p的靶向特异性增加。一种方法是重新靶向具有货物的LINE1元件，使其特异性地整合到具有高且可持续转录活性的基因组安全港(GHS)位点之一。AAVS1、CCR5和ROSA26是GHS位点中的一些。如上所述，在合适的筛选之后选择特定的LINE1元件，用于鉴定容易在人体内转座的有效LINE1元件。所选择的LINE1可以是整合到GHS基因座之一的LINE1。

另一种方法是将逆转录转座子ORF2工程化，携带ORF2与Cas9及其突变体的融合物。具有异源性DNA结合结构域(具有或没有核酸内切酶活性)的其他候选元件是Cpf1、锌指元件、TAL效应子、Cas6-8‘级联’、限制性核酸内切酶，其将替换或补充ORF2p的核酸内切酶结构域。

还将测试在mRNA货物周围添加不同长度的同源臂。

设计了一种示例性构建体，其包含编码以下各项的序列：ORF1；RT和dCas9；处于反向取向的货物基因，以及用于启动RT活性的靶位点的向导RNA。在一个示例性构建体中，测试两个向导RNA的使用，每个向导RNA与dCas9切口酶融合，以确定在靶向位置的上游和下游引入切口是否改善了基因货物的位点特异性整合和取向。

设计并测试了示例性构建体，其中ORF2p缺乏EN(缺失)，并与Cas 9或其突变体、Cas 12a(Cpf1)、Cas6-8‘级联’、兆核酸酶(Meganuclease)、锌指核酸酶、TALEN或限制性核酸内切酶融合，其指导特异性并在基因组DNA上引入切口。

设计并测试了示例性构建体，其中ORF2p包含具有降低或改变的活性的突变体EN，并与Cas 9或其突变体、Cas 12a(Cpf1)、Cas6-8‘级联’、兆核酸酶(Meganuclease)、锌指核酸酶、TALEN或限制性核酸内切酶融合，其指导特异性并在基因组DNA上引入切口。例如，设计并测试了构建体，其中将逆转录转座子质粒工程化，其编码ORF2蛋白与Cas9和Cas9突变体的融合物。将含有ORF1的mRNA、和编码RT和dCas9的mRNA、和处于反向取向的货物基因、以及pegRNA递送到靶位点，以用于启动RT活性。可以评价两个向导sgRNA(每个与dCas9切口酶融合)的使用，以确定在靶向位置的上游和下游引入切口是否改善了基因货物的位点特异性整合和取向。如果经修饰的LINE-1RT融合蛋白可以结合其自身mRNA并转运到细胞核，则pegRNA可以靶向基因组区域并启动RT活性(经由dCas9缺口酶活性)，因此LINE-1RT可以逆转录mRNA基因货物以整合到基因组DNA中。

将通过流式细胞术确定整合效率。如上，在阴性对照和阳性对照中测量GFP以设置流式细胞术的门。如上，将所使用的示例性阴性对照设置为<0.1％ GFP+。如上，将所使用的示例性阳性对照设置为>90％ GFP+。将通过PCR确认整合。使用NGS分析基因组整合的位点。在特定基因组位置中具有优先整合的任何构建体经历几个定向进化周期，以提高其效率和/或整合精度。指示成功基因整合和表达的示例性测量是如通过流式细胞术确定的在逆转录转座后第10天>2％的细胞中在特定基因组位置中检测到90％的货物基因整合和GFP表达。

Claims

1.一种药物组合物，其包含治疗有效量的一个或多个多核酸或至少一个编码所述一个或多个多核酸的载体，所述一个或多个多核酸包含：

(a)包含编码多肽的序列的可移动遗传元件；和

(b)插入序列，其中所述插入序列包含作为编码外源性治疗性多肽的序列的反向补体的序列，

其中由所述可移动遗传元件的所述序列编码的所述多肽促进将所述插入序列整合到细胞的基因组中；并且

其中所述药物组合物对于人对象是基本上非免疫原性的。

2.如权利要求1所述的药物组合物，其中由所述可移动遗传元件的所述序列编码的所述多肽包含一个或多个长散布核元件(LINE)多肽，其中所述一个或多个LINE多肽包含：

(i)人ORF1p或其功能性片段，和

(ii)人ORF2p或其功能性片段。

3.如权利要求2所述的药物组合物，其中所述插入序列稳定地整合和/或逆转录转座到人细胞的所述基因组中。

4.如权利要求3所述的药物组合物，其中所述人细胞是选自以下的免疫细胞：T细胞、B细胞、骨髓细胞、单核细胞、巨噬细胞和树突状细胞。

5.如权利要求3所述的药物组合物，其中所述插入序列(i)通过由所述一个或多个多核酸编码的核酸内切酶切割靶位点的DNA链，(ii)经由靶标引发的逆转录(TPRT)，或(iii)经由将所述插入序列反向剪接到所述基因组的DNA靶位点中，被整合到所述基因组中。

6.如权利要求5所述的药物组合物，其中使用所述人ORF2p的核酸内切酶结构域的特异性将所述插入序列整合到所述基因组中的多聚T位点处。

7.如权利要求6所述的药物组合物，其中所述多聚T位点包含序列TTTTTA。

8.如权利要求3所述的药物组合物，其中所述一个或多个多核酸包含与所述基因组中的靶位点互补的同源臂。

9.如权利要求3所述的药物组合物，其中所述插入序列整合到：(a)不是核糖体RNA基因座的基因座处的基因组中；(b)所述基因组的基因或基因的调控区中，从而破坏所述基因或下调所述基因的表达；(c)所述基因组的基因或基因的调控区中，从而上调所述基因的表达；或(d)所述基因组中并替换所述基因组的基因。

10.如权利要求3所述的药物组合物，其中所述药物组合物还包含(i)一个或多个siRNA和/或(ii)RNA向导序列或编码所述RNA向导序列的多核酸，并且其中所述RNA向导序列靶向所述基因组的DNA靶位点，并且所述插入序列在所述基因组的所述DNA靶位点处被整合到所述基因组中。

11.如权利要求1所述的药物组合物，其中所述一个或多个多核酸具有3kb至20kb的总长度。

12.如权利要求1所述的药物组合物，其中所述一个或多个多核酸包含一个或多个多核糖核酸、一个或多个RNA或一个或多个mRNA。

13.如权利要求1所述的药物组合物，其中所述外源性治疗性多肽选自配体、抗体、受体、酶、转运蛋白、结构蛋白、激素、收缩蛋白、储存蛋白和转录因子。

14.如权利要求13所述的药物组合物，其中所述外源性治疗性多肽是选自嵌合抗原受体(CAR)或T细胞受体(TCR)的受体。

15.如权利要求1所述的药物组合物，其中所述一个或多个多核酸包含第一表达盒，所述第一表达盒包含启动子序列、5’UTR序列、3’UTR序列和多聚A序列；其中：

(i)所述启动子序列位于所述5’UTR序列的上游，

(ii)所述5’UTR序列位于所述可移动遗传元件的编码多肽的序列的上游，

(iii)所述3’UTR序列位于所述插入序列的下游；并且

(iv)所述3’UTR位于所述多聚A序列的上游；并且

其中所述5’UTR序列、所述3’UTR序列或所述多聚A序列包含人ORF2p或其功能性片段的结合位点。

16.如权利要求15所述的药物组合物，其中所述插入序列包含第二表达盒，所述第二表达盒包含作为启动子序列的反向补体的序列、作为5’UTR序列的反向补体的序列、作为3’UTR序列的反向补体的序列以及作为多聚A序列的反向补体的序列；其中：

(i)所述作为启动子序列的反向补体的序列位于所述作为5’UTR序列的反向补体的序列的下游，

(ii)所述作为5’UTR序列的反向补体的序列位于所述作为编码外源性治疗性多肽的序列的反向补体的序列的下游，

(iii)所述作为3’UTR序列的反向补体的序列位于所述作为编码外源性治疗性多肽的序列的反向补体的序列的上游，并且

(iv)所述作为多聚A序列的反向补体的序列位于所述作为3’UTR序列的反向补体的序列的上游和所述可移动遗传元件的编码多肽的序列的下游。

17.如权利要求16所述的药物组合物，其中所述第一表达盒的所述启动子序列不同于所述第二表达盒的所述启动子序列。

18.如权利要求2所述的药物组合物，其中所述一个或多个LINE多肽包含含有所述人ORF1p或其功能性片段的第一LINE多肽和含有所述人ORF2p或其功能性片段的第二LINE多肽，其中所述第一LINE多肽和所述第二LINE多肽由不同的开放阅读框(ORF)翻译。

19.如权利要求2所述的药物组合物，其中所述一个或多个多核酸包含编码所述人ORF1p或其功能性片段的第一多核酸分子和编码所述人ORF2p或其功能性片段的第二多核酸分子。

20.如权利要求1所述的药物组合物，其中所述一个或多个多核酸包含5’UTR序列和3’UTR序列，其中

(a)所述5’UTR包含来自LINE-1或与ACUCCUCCCCAUCCUCUCCCUCUGUCCCUCUGUCCCUCUGACCCUGCACUGUCCCAGCACC具有至少80％序列同一性的序列的5’UTR；并且/或者

(b)所述3’UTR包含来自LINE-1或与CAGGACACAGCCUUGGAUCAGGACAGAGACUUGGGGGCCAUCCUGCCCCUCCAACCCGACAUGUGUACCUCAGCUUUUUCCCUCA CUUGCAUCAAUAAAGCUUCUGUGUUUGGAACAG具有至少80％序列同一性的序列的3’UTR。

21.如权利要求1所述的药物组合物，其中所述编码所述外源性治疗性多肽的序列不包括内含子。

22.如权利要求1所述的药物组合物，其中由所述可移动遗传元件的序列编码的多肽包含C末端核定位信号(NLS)、N末端NLS或两者。

23.如权利要求2所述的药物组合物，其中所述编码所述外源性多肽的序列与编码所述ORF1p或其功能性片段的序列不同框并且/或者与编码所述ORF2p或其功能性片段的序列不同框。

24.如权利要求1所述的药物组合物，其中所述一个或多个多核酸包含编码以下的序列：核酸酶结构域、不是衍生自ORF2p的核酸酶结构域、megaTAL核酸酶结构域、TALEN结构域、Cas9结构域、Cas6结构域、Cas7结构域、Cas8结构域、来自R2逆转录元件的锌指结合结构域、或与重复序列结合的DNA结合结构域。

25.如权利要求24所述的药物组合物，其中所述一个或多个多核酸包含编码所述核酸酶结构域的序列，其中所述核酸酶结构域不具有核酸酶活性或包含与没有突变的核酸酶结构域相比降低核酸酶结构域的活性的突变。

26.如权利要求2所述的药物组合物，其中所述ORF2p或其功能性片段缺乏核酸内切酶活性或包含选自S228P和Y1180A的突变，并且/或者其中所述ORF1p或功能性片段包含K3R突变。

27.如权利要求1所述的药物组合物，其中所述插入序列包含作为编码两个或更多个外源性治疗性多肽的序列的反向补体的序列。

28.如权利要求2所述的药物组合物，其中所述一个或多个多核酸包含一个或多个多核糖核酸，其中所述外源性治疗性多肽是选自嵌合抗原受体(CAR)或T细胞受体(TCR)的受体，并且其中所述药物组合物被配制用于全身施用于人对象。

29.如权利要求1所述的药物组合物，其中所述一个或多个多核酸

(i)被配制在选自脂质纳米颗粒和聚合物纳米颗粒的纳米颗粒中；和/或

(ii)包含选自以下的一个或多个多核酸：糖基化RNA、环状RNA和自复制RNA。

30.一种方法，其中所述方法是：

(i)一种治疗有需要的人对象的疾病或病状的方法，所述方法包括将如权利要求1所述的药物组合物施用于所述人对象；或

(ii)一种离体修饰人细胞群体的方法，所述方法包括使组合物与人细胞群体离体接触，从而形成离体修饰的人细胞群体，所述组合物包含一个或多个多核酸或至少一个编码所述一个或多个多核酸的载体，所述一个或多个多核酸包含：

(a)包含编码多肽的序列的可移动遗传元件；和

(b)插入序列，其中所述插入序列是编码外源性治疗性多肽的序列的反向补体，

其中所述离体修饰的人细胞群体对于人对象是基本上非免疫原性的。

31.如权利要求1所述的药物组合物，其中所述一个或多个多核酸还包含(i)编码用于将所述插入序列定点整合到所述基因组中的整合酶或其片段的序列和(ii)可由所述整合酶操作的整合酶基因组着陆位点序列，其中所述基因组着陆序列的长度大于4个连续核苷酸。

32.如权利要求31所述的药物组合物，其中所述ORF2和所述整合酶在不同的多核苷酸上。

33.如权利要求31所述的药物组合物，其中所述ORF2和所述整合酶在单个多核苷酸上。

34.如权利要求31和32所述的药物组合物，其中所述整合酶不被整合到所述细胞的所述基因组中。

35.如权利要求31-34中任一项所述的药物组合物，其中所述整合酶是突变或截短的重组蛋白。

36.如权利要求31-35中任一项所述的药物组合物，其中所述可由所述整合酶操作的整合酶基因组着陆序列的长度大于20个核苷酸或大于30个核苷酸。

37.如权利要求31-36中任一项所述的药物组合物，其中所述插入序列包含可由所述整合酶操作的附接位点。

38.如权利要求31-37中任一项所述的药物组合物，其中使用向导RNA和Cas系统将所述整合酶基因组着陆位点插入到所述基因组中。

39.如权利要求31-38中任一项所述的药物组合物，其中所述向导RNA、所述CAS系统和所述基因组着陆序列在与包含编码LINE1-ORF的序列和所述插入序列的多核苷酸不同的多核苷酸中。

40.如权利要求31-39中任一项所述的药物组合物，其中一个或多个ORF多肽序列包含突变。

41.一种用于将异源性基因组插入序列位点特异性整合到哺乳动物细胞的基因组中的方法，所述方法包括：(i)将以下各项引入到所述细胞中：(a)包含编码与所述异源性插入序列缔合的一个或多个人逆转录转座子元件的序列的多核苷酸，和(b)包含编码向导RNA、RNA导向的整合酶或其片段和可由所述整合酶操作的着陆序列的序列的多核苷酸；(ii)验证所述异源性插入序列被整合到所述基因组的位点中。

42.一种用于使用LINE逆转录转座子系统进行异源性基因组插入物的位点特异性整合的方法，其中所述LINE逆转录转座子系统被修饰以掺入可以识别长度大于10个连续核苷酸的基因组着陆序列的整合酶蛋白的片段，并且其中所述LINE逆转录转座子系统将所述异源性基因组插入物整合到被所述整合酶蛋白的片段识别的所述基因组着陆序列中。

43.如权利要求41和42所述的方法，其还包括将长度大于4个连续核苷酸的所述基因组着陆序列掺入到所述基因组中的步骤。

44.如权利要求43所述的方法，其中将所述基因组着陆序列掺入到所述基因组中的步骤通过RNA导向的CRISPR-Cas系统进行。

45.如权利要求44所述的方法，其中所述RNA导向的CRISPR-Cas系统具有能够将长度大于4个连续核苷酸的序列掺入到特定基因组位点中的编辑功能。

46.如权利要求30或44所述的方法，其中所述RNA导向的CRISPR-Cas系统将ORF-mRNA结合序列掺入到与向导RNA的序列具有序列同源性的基因组内的指定位置中。

47.如权利要求30或41-46所述的方法，其中所述插入物为约10千碱基或大于10千碱基。

48.如权利要求30或41-47所述的方法，其中所述多核苷酸是mRNA。