[go: up one dir, main page]

CN117677694A - 体内dna组装和分析 - Google Patents

体内dna组装和分析 Download PDF

Info

Publication number
CN117677694A
CN117677694A CN202280032995.2A CN202280032995A CN117677694A CN 117677694 A CN117677694 A CN 117677694A CN 202280032995 A CN202280032995 A CN 202280032995A CN 117677694 A CN117677694 A CN 117677694A
Authority
CN
China
Prior art keywords
oligonucleotide
donor
plasmid
cell
dna
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280032995.2A
Other languages
English (en)
Inventor
S·利维
刘夏楠
松井刚
D·米勒
李唯一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Leland Stanford Junior University
Research Foundation of the State University of New York
Original Assignee
Leland Stanford Junior University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Leland Stanford Junior University filed Critical Leland Stanford Junior University
Priority claimed from PCT/US2022/019012 external-priority patent/WO2022187697A1/en
Publication of CN117677694A publication Critical patent/CN117677694A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Micro-Organisms Or Cultivation Processes Thereof (AREA)

Abstract

本文特别提供用于体内组装寡核苷酸片段的方法和组合物。所述方法绕过了低效的克隆方法和对昂贵的酶的需求。所述方法可以进一步用于组装DNA长片段。所述方法可用于产生变体文库和组合文库,并且可以用于追踪生物学过程。本文还特别提供用于体内DNA条形码化寡核苷酸序列的方法。本文提供的方法预期产生独特的条形码‑寡核苷酸融合序列,用于例如从混合物中鉴定和分离寡核苷酸序列。因此,还提供从寡核苷酸混合物中鉴定寡核苷酸的方法。

Description

体内DNA组装和分析
相关申请
根据35 U.S.C.§119(e),本申请要求2021年3月5日提交的美国临时申请63/157,497号和2021年3月5日提交的美国临时申请63/157,498号的优先权,每个所述申请的全部内容援引加入本文。
援引加入序列表
文件名为“41243-570001WO_Sequence_Listing_ST25.txt”的序列表的内容整体援引加入本文,其创建日期为2022年2月15日,并且大小为24,576字节。
关于在联邦资助的研究和开发下所作发明的权利的声明
本发明是在能源部授予的DOE FWP#100582和美国国家标准与技术研究授予NISTIAA P18-630-0001的政府支持下完成的。政府对本发明享有一定的权利。
背景技术
重组寡核苷酸技术的最新进展点燃了传统生物学和生物工程领域的研究。然而,寡核苷酸组装过程可以是昂贵且耗时的,需要多个纯化步骤和各种酶。此外,当前的分子生物学方法在可组合的DNA元件的大小和组成方面存在限制。因此,需要用于将DNA元件(例如,启动子、基因片段等)组装到一起的方法,以解决这些限制并绕过对大量且昂贵的酶(例如连接酶等)的需要。需要新的方法以在大规模并行的规模上高效、高通量和多功能地组装DNA片段。
测序技术的进步允许DNA长片段的鉴定。然而,由于复杂的纯化要求、样本回收低或测序工作流低效以及其他问题,鉴定和分离复杂混合物中的独特DNA序列仍然具有挑战性。
本文特别提供本领域中这些和其他问题的解决方案。
发明内容
本文特别提供用于体内DNA元件组装和寡核苷酸序列DNA条形码化的方法和组合物。
本发明提供在受体细胞中将多个DNA元件组装成组装的DNA元件的方法,该方法包括:(a)使包含第一供体质粒的第一供体细胞与包含受体寡核苷酸的受体细胞在以下条件下接触:(i)通过接合,使第一供体质粒从第一供体细胞转移至受体细胞,以及(ii)通过同源重组,在受体细胞中使第一供体质粒和受体寡核苷酸重组,其中第一供体质粒依次包含:任选存在的第一核酸内切酶位点(C1)、第一同源重组区(HR1)、包含第一DNA元件片段(oligo1)的第一寡核苷酸、包含两个同源重组区(HR2.1、HR2.2)的第二同源重组区(HR2)和任选存在的第三核酸内切酶位点(C3);受体寡核苷酸包含与HR1同源的第三同源重组区(HR3),以及与HR2.2同源的第四同源重组区(HR4);从而在HR1与HR3以及HR2.2与HR4同源重组之后,提供包含第一DNA元件片段的第一重组受体寡核苷酸;(b)使包含第二供体质粒的第二供体细胞与包含第一重组受体寡核苷酸的受体细胞在以下条件下接触:(i)通过接合,将第二供体质粒从第二供体细胞转移至第一受体细胞,以及(ii)通过同源重组,在受体细胞中使所述第二供体质粒和第一重组受体寡核苷酸重组,以形成第二重组受体寡核苷酸,其中第二供体质粒依次包含:任选存在的第五核酸内切酶位点(C5)、与HR2.1同源的第五同源重组区(HR5)、编码第二DNA元件片段(oligo2)的第二寡核苷酸、包含两个同源重组区(HR6.1、HR6.2)的第六同源重组区(HR6)和任选存在的第六核酸内切酶位点(C6);从而在HR5与HR2.1以及HR6.2与HR4同源重组之后,提供包含第一和第二DNA元件片段(oligo1、oligo2)的第二重组受体寡核苷酸,第一和第二DNA元件片段形成DNA组装物。在实施方案中,HR2.1和HR2.2位于包含一个(C2)或两个核酸内切酶位点(C2.1、C2.2)的非同源区两侧;任选地,其中HR3和HR4位于包含一个(C4)或两个核酸内切酶位点(C4.1、C4.2)的非同源区两侧。在实施方案中,HR6.1和HR6.2位于包含一个(C7)或两个核酸内切酶位点(C7.1、C7.2)的非同源区两侧。在实施方案中,受体寡核苷酸位于受体细胞质粒或受体细胞基因组中。在实施方案中,DNA组装物包含基因、启动子、增强子、终止子、内含子、基因间区域、条形码、向导RNA (gRNA)或其组合的至少一部分。
在实施方案中,用第三或后续供体细胞重复步骤(b)一次或多次重复,所述第三或后续供体细胞包含第三或后续供体质粒,所述第三或后续供体质粒包含相容的HR区域和编码第三或后续DNA元件片段(oligo3、oligo4…oligoN)的第三或后续寡核苷酸,从而形成包含第一、第二和第三或后续DNA元件片段的第三或后续重组受体寡核苷酸,第一、第二和第三或后续DNA元件片段一起形成DNA组装物。
在实施方案中,步骤(a)包括多个第一供体细胞,每个细胞包含不同的第一供体质粒;以及步骤(b)包括多个第二、第三或后续供体细胞,每个细胞包含不同的第二、第三或后续供体质粒;任选地,其中每个第一供体细胞位于第一有序阵列以及每个第二、第三或后续供体细胞位于第二、第三或后续有序阵列;任选地,其中所述方法产生包含多个不同的组装的DNA元件的组合文库。
在实施方案中,在第一供体质粒上和/或在受体细胞中存在编码靶向第一、第三和/或第四核酸内切酶位点的第一核酸内切酶的寡核苷酸。在实施方案中,在第二供体质粒上和/或在受体细胞中存在编码靶向第二、第五和/或第六核酸内切酶位点的第二核酸内切酶的寡核苷酸。在实施方案中,所述第一和/或第二核酸内切酶的表达是可诱导的,并且所述方法进一步包括诱导第一和/或第二核酸内切酶的表达。在实施方案中,所述第一和/或第二核酸内切酶选自RNA-引导的核酸内切酶、归巢核酸内切酶、转录激活因子样效应物核酸酶和锌指核酸酶。
在实施方案中,所述第一、第二或后续供体质粒包含选择标记,所述选择标记就所述第一寡核苷酸、第二寡核苷酸或后续寡核苷酸整合到所述受体寡核苷酸中进行选择;任选地,其中所述选择标记位于HR2.1与HR2.2之间和/或HR6.1与HR6.2之间,和/或后续HR区域之间的非同源区内。在实施方案中,所述受体寡核苷酸包含反选择标记,所述反选择标记针对不包含第一、第二、第三或后续寡核苷酸的受体细胞进行选择;任选地,其中所述反选择标记位于HR2.1与HR2.2之间和/或HR6.1与HR6.2之间,和/或后续HR区域之间的非同源区内。
在实施方案中,所述供体质粒包含转移起点.
在实施方案中,所述供体质粒包含条件复制起点。在实施方案中,所述条件复制起点依赖于寡核苷酸的存在或细胞生长条件。在实施方案中,所述供体质粒或受体寡核苷酸包含可诱导的高拷贝复制起点。
在实施方案中,所述供体质粒或受体寡核苷酸包含可以复制长度大于30千碱基的质粒的复制子。
在实施方案中,所述供体质粒或受体寡核苷酸是酵母人工染色体(YAC)、哺乳动物人工染色体(MAC)、人类人工染色体(HAC)或植物人工染色体。
在实施方案中,所述供体质粒或受体寡核苷酸是病毒载体。
在实施方案中,所述供体质粒包含使质粒能接合的寡核苷酸。
在实施方案中,所述供体质粒或受体细胞包含编码一个或多个同源DNA修复基因的寡核苷酸;任选地,其中所述一个或多个同源DNA修复基因的表达是可诱导的。
在实施方案中,所述供体质粒或受体细胞包含编码一个或多个重组介导的遗传工程基因的寡核苷酸。
在实施方案中,所述供体细胞和受体细胞独立地为细菌细胞;任选地,其中所述细菌细胞是大肠杆菌(E.coli)、纳氏弧菌(Vibrio natriegens)或霍乱弧菌(V.cholerae)。
在实施方案中,所述组装的DNA元件的长度从100个核苷酸至500,000个核苷酸。
在实施方案中,所述第一、第二或后续同源重组(HR)区域及它们在受体寡核苷酸上相应的HR区域各自包含从约20个碱基对至约500个碱基对;任选地,约50个至100个碱基对。
在实施方案中,任一前述方法可以进一步包括一个或多个以下步骤:裂解受体细胞;扩增组装的DNA元件;分离组装的DNA元件;分离受体寡核苷酸;测序组装的DNA元件以及测序受体寡核苷酸。
在实施方案中,同时进行使第一和第二或后续供体细胞与第一受体细胞接触的步骤;任选地,其中仅有最终供体质粒包含选择标记,或者每个供体质粒包含受体寡核苷酸上不存在的选择标记。
在任一前述方法的实施方案中,包含形成部分组装的DNA元件的最后DNA元件的供体质粒包含条形码同源重组(BHR)区域以产生受体细胞,每个受体细胞含有重组受体寡核苷酸,所述重组受体寡核苷酸包含组装的DNA元件、BHR和进一步的HR;并且所述方法进一步包括:(i)构建或获取条形码供体细胞阵列,每个细胞含有条形码供体质粒,所述条形码供体质粒包含与BHR同源的HR、独特的条形码寡核苷酸和与重组受体寡核苷酸的进一步的HR同源的第二HR;(ii)使条形码供体细胞阵列在以下条件下与受体细胞阵列接触:(a)通过接合,使条形码供体质粒从条形码供体细胞转移至受体细胞,以及(b)通过同源重组,在受体细胞中使条形码供体质粒和受体寡核苷酸重组,从而产生包含条形码化的组装物的受体细胞阵列。
在任一前述方法的实施方案中,每个供体质粒包含进一步的独特的核酸内切酶位点CX、CY对,其位于条形码同源重组(BHR)区域两侧,并且所述方法进一步包括使受体细胞阵列与条形码供体细胞阵列接触,以产生包含条形码化的组装物的受体细胞阵列,每个受体细胞包含DNA组装物,每个条形码供体细胞含有条形码供体质粒,所述条形码供体质粒包含一对HR区域,HR区域与位于独特的条形码寡核苷酸两侧的BHR同源。
在任一前述方法的实施方案中,所述方法进一步包括使包含重置(reset)供体质粒的重置供体细胞与包含重组受体寡核苷酸的受体细胞接触,其中所述重置供体质粒依次包含,与DNA组装物的末端序列同源的同源重组区(HRt)、重置核酸内切酶位点、选择标记、重置核酸内切酶位点、同源重组区(HRX)以及转移起点;其中重组受体寡核苷酸依次包含,重置核酸内切酶位点、DNA组装物、与HRX同源的同源重组区(HRXa)以及重置核酸内切酶位点;从而在HRt与DNA组装物的末端序列之间以及HRX和HRXa之间的同源重组之后,提供包含转移起点和DNA组装物的重置质粒。在实施方案中,重置质粒在供体细胞中。在实施方案中,重置质粒含有限制复制起点,所述限制复制起点在供体细胞和受体细胞中均起作用。在实施方案中,通过包括以下的方法构建重置供体质粒:引入寡核苷酸插入物,所述寡核苷酸插入物包含位于两个核酸内切酶位点(C1、C2)和反选择标记(CM)两侧的同源重组区HRt、HRX,HRt-C1-CM-C2-HRX;或者引入这种寡核苷酸插入物的文库;允许核酸内切酶切割核酸内切酶位点,并使用同源重组在切割位点引入反选择标记。
在任一前述方法的实施方案中,所述受体寡核苷酸包含能够将DNA组装物转移至其他细胞类型的可移动遗传元件,其他细胞类型包括酵母细胞、植物细胞、哺乳动物细胞或其他细菌细胞。
在任一前述方法的实施方案中,所述方法包括利用两个或更多个具有相容同源重组区的受体寡核苷酸来构建DNA文库。
在任一前述方法的实施方案中,供体质粒寡核苷酸包含第一接头寡核苷酸和第二接头寡核苷酸,第一接头寡核苷酸与第一DNA组装物的末端序列同源,第二接头寡核苷酸与第二寡核苷酸同源。在实施方案中,接头寡核苷酸进一步包含额外DNA元件片段,额外DNA元件片段与第一DNA组装物或第二DNA寡核苷酸不同源。在实施方案中,方法用于:组装诱变文库;用于组合来自不同物种的遗传区域例如基因、启动子、终止子和调节区域;用于构建和/或组合遗传调控途径;用于构建组合gRNA文库;或者用于组装含有用于筛选实验的质粒的细菌阵列。
在任一前述方法的实施方案中,在步骤(a)和(b)之前,将第一和第二寡核苷酸插入至第一和第二供体质粒中,所述第一和第二寡核苷酸包含第一和第二DNA元件片段。
本发明还提供将条形码与寡核苷酸缀合的方法,该方法包括:(a)将寡核苷酸混合物的每个寡核苷酸插入至供体质粒中,每个供体质粒依次包含,任选存在的第一核酸内切酶位点(C1)、第一同源重组区(HR1)、第二同源重组区(HR2)和任选存在的第二核酸内切酶位点(C2);其中每个寡核苷酸插入到HR1和HR2之间,从而提供多个包含供体寡核苷酸的供体质粒,每个供体质粒包含来自寡核苷酸混合物的单个供体寡核苷酸:C1-HR1-oligo-HR2-C2;(b)用所述多个供体质粒转化多个细胞,使得每个细胞包含供体质粒,从而形成多个供体细胞;(c)铺板并培养所述多个供体细胞,每个供体细胞位于第一有序阵列上的独特位置,从而提供供体细胞的第一有序阵列;(d)在第二有序阵列中提供多个受体细胞,其中每个受体细胞包含受体寡核苷酸,所述受体寡核苷酸依次包含独特的条形码序列、与HR1同源的第三同源重组区(HR3)、任选存在的第三核酸内切酶位点(C3)和与HR2同源的第四同源重组区(HR4),其中所述独特的条形码序列表明在第二有序阵列中受体细胞的位置;(e)使供体细胞的第一有序阵列与受体细胞的第二有序阵列在以下条件下接触:(i)通过接合,使供体质粒从供体细胞转移至在阵列上相应位置的受体细胞,(ii)任选地,切割所述第一、第二和第三核酸内切酶位点,以及(ii)通过同源重组,使所述寡核苷酸从供体质粒转移至受体细胞寡核苷酸,从而形成融合寡核苷酸的第三阵列,每个融合寡核苷酸包含独特的条形码序列和来自寡核苷酸混合物的供体寡核苷酸;以及(f)任选地,测序融合寡核苷酸,并且从而通过其条形码序列来鉴定阵列中的每个寡核苷酸。在实施方案中,受体寡核苷酸位于受体细胞质粒或受体细胞基因组中。在实施方案中,供体质粒包含在HR1和HR2之间的选择标记,选择标记就所述寡核苷酸整合到所述受体细胞寡核苷酸中进行选择;任选地,其中供体质粒包含反选择标记。在实施方案中,受体细胞寡核苷酸包含第四核酸内切酶位点(C4)。
本发明还提供从多个寡核苷酸鉴定寡核苷酸的方法,方法包括(a)在第一有序阵列中提供多个供体细胞,其中每个供体细胞包含供体质粒,每个供体质粒依次包含,任选存在的第一核酸内切酶位点(C1)、第一同源重组区(HR1)、独特的条形码序列、第二同源重组区(HR2)以及任选存在的第二核酸内切酶位点(C2),其中独特的条形码序列表明在第一有序阵列中宿主细胞的位置;(b)提供多个受体细胞,其中每个受体细胞包含受体质粒,受体质粒依次包含来自多个寡核苷酸的寡核苷酸、与HR1同源的第三同源重组区(HR3)、任选存在的第三核酸内切酶位点(C3),以及与HR2同源的第四同源重组区(HR4);(c)铺板并培养所述多个受体细胞,每个受体细胞在第二有序阵列上的独特位置,从而提供受体细胞的第二有序阵列;(d)在以下条件下使第一有序阵列与第二有序阵列接触:(i)通过细菌接合,使供体质粒从供体细胞转移至在阵列上相应位置的受体细胞,(ii)切割第一、第二和第三核酸内切酶位点,以及(ii)通过同源重组,使条形码序列从供体质粒转移至受体细胞寡核苷酸,从而形成融合寡核苷酸的第三阵列,每个融合寡核苷酸包含独特的条形码序列和来自寡核苷酸混合物的寡核苷酸;以及(e)测序融合寡核苷酸,从而通过其条形码序列来鉴定阵列中的每个寡核苷酸。在实施方案中,受体寡核苷酸位于受体细胞质粒或受体细胞基因组中。在实施方案中,供体质粒包含在HR1和HR2之间的选择标记,选择标记就条形码序列整合到受体细胞寡核苷酸中进行选择;任选地,其中供体质粒包含反选择标记。在实施方案中,受体细胞寡核苷酸包含第四核酸内切酶位点(C4)。在实施方案中,第一核酸内切酶位点、第二核酸内切酶位点和第三核酸内切酶位点相同或不同。在实施方案中,供体质粒包含转移起点和/或条件复制起点;任选地,其中转移起点来自可移动元件;进一步任选地,其中条件复制起点依赖于寡核苷酸的存在或细胞生长的条件。在实施方案中,供体质粒或受体质粒包含复制子,复制子可以复制长度至少30千碱基的质粒,任选地,其中复制子来自P1-衍生的人工染色体或细菌人工染色体。在实施方案中,供体质粒或受体细胞寡核苷酸包含可诱导的高拷贝复制起点。在实施方案中,供体质粒或受体细胞寡核苷酸包含酵母人工染色体(YAC)、哺乳动物人工染色体(MAC)、人类人工染色体(HAC)或植物人工染色体。在实施方案中,供体质粒或受体细胞寡核苷酸包含病毒载体。在实施方案中,一种或多种核酸内切酶切割核酸内切酶位点,所述一种或多种核酸内切酶由受体细胞中一种或多种寡核苷酸编码,和/或在供体质粒中编码;任选地,其中所述一种或多种核酸内切酶是归巢核酸内切酶,或者RNA-引导的DNA核酸内切酶;进一步任选地,其中核酸内切酶是HO。在实施方案中,供体细胞或受体细胞包含(i)使质粒能接合的寡核苷酸;(ii)编码一种或多种同源DNA修复基因的寡核苷酸;或(iii)编码一种或多种重组介导的遗传工程基因的寡核苷酸。在实施方案中,供体细胞、受体细胞或重组受体细胞被转移至第三有序阵列、第四有序阵列或后续有序阵列上的位置。在实施方案中,供体细胞和受体细胞独立地为细菌细胞;任选地,其中细菌细胞是大肠杆菌、纳氏弧菌或霍乱弧菌。在实施方案中,条形码序列的长度为从约四个核苷酸至约100个核苷酸,任选地,其中条形码序列的长度为约30个核苷酸。在实施方案中,寡核苷酸混合物是DNA合成或组装技术的产物,所述DNA合成或组装技术选自化学偶联、使用聚合酶核苷酸结合物(conjugate)的不依赖模板的酶促合成、聚合酶链组装(聚合酶循环组装)、Gibson组装(Chew back、退火和修复)、连接酶链反应/连接酶循环反应、Phi29聚合酶、滚环扩增、环介导等温扩增(LAMP)、链置换扩增(SDA)、解旋酶依赖扩增(HAD)、重组酶聚合酶扩增(RPA)、基于核酸序列扩增(NASBA)、Golden Gate克隆、MoClo克隆、BioBricks或组装的BioBricks、热力学平衡内外合成、DNA克隆、不依赖连接的克隆、选择性连接克隆、重组工程、酵母组装、PCR、由分子倒置探针或LASSO探针捕获、DropSynth以及酶促DNA合成。在实施方案中,寡核苷酸混合物是汇集的诱变技术的产物,诱变技术选自聚合酶链反应技术,包括易错PCR、用简并寡核苷酸的PCR和常规PCR,化学或光诱变,用编辑寡核苷酸文库进行的体外合成,体内编辑,例如MAGE、MAGESTIC、CRISPR、先导编辑、反转录子编辑和用CRISPR、TALEN和锌指核酸酶的碱基修饰。在实施方案中,寡核苷酸混合物包含基因组DNA、cDNA、细胞器DNA或天然质粒DNA的至少一个片段。在实施方案中,寡核苷酸混合物包含捕获的或扩增的DNA,所述DNA源于gDNA、cDNA或细胞器DNA,例如来自平衡的cDNA文库、PCR产物如多重PCR产物、分子倒置探针,包括LASSO探针、退火或消减杂交捕获物、共转化和同源重组、滚环扩增或LAMP。在实施方案中,寡核苷酸混合物包含从质粒或质粒文库捕获或扩增的DNA,例如开放阅读框(ORF)文库、启动子文库、终止子文库、内含子文库、BAC文库、PAC文库、慢病毒文库、gRNA文库、PCR产物、限制性消化产物或GATEWAY穿梭产物。在实施方案中,通过包括共转化和重组工程、转化和重组工程或接合和重组工程的方法将寡核苷酸混合物的寡核苷酸整合至供体质粒中。在实施方案中,共转化和重组工程的方法包括:构建线性或环状供体质粒,供体质粒包含选择标记和两个同源重组区,每个同源重组区与混合物中寡核苷酸末端序列同源;将供体质粒和寡核苷酸共转化至细胞中;诱导同源重组;以及就选择标记进行选择;任选地,其中方法用供体质粒和/或寡核苷酸的文库或池(pool)进行。在实施方案中,转化和重组工程的方法包括:构建线性或环状供体质粒,供体质粒包含选择标记和两个同源重组区,每个同源重组区与混合物中寡核苷酸末端序列同源,其中寡核苷酸存在于宿主细胞内的质粒上;用供体质粒转化宿主细胞;诱导同源重组;以及就选择标记进行选择。在实施方案中,接合和重组工程的方法包括:构建线性或环状供体质粒,供体质粒包含两侧为两个任选存在的核酸内切酶位点和两个同源重组(HR)区域的反选择标记(-1);其中供体质粒存在于含有残缺的F-质粒的供体细胞,所述残缺的F-质粒可以诱导接合但不可以接合,并且混合物的寡核苷酸存在于受体细胞内的质粒上,每个寡核苷酸两侧为与供体质粒的HR区域同源的HR区域并且与至少一个选择标记(+1)相邻,以就每个寡核苷酸重组到供体质粒中进行选择;提供同源重组酶以及任选存在的一种或多种核酸内切酶,其在受体细胞中或由供体质粒编码;在以下条件下使供体细胞与受体细胞接触:(i)通过细菌接合,使供体质粒从供体细胞转移至受体细胞,以及(ii)通过同源重组,使供体质粒和受体质粒重组;以及选择包含选择标记而不包含反选择标记的细胞。在实施方案中,方法用供体质粒和/或受体质粒文库进行。在实施方案中,寡核苷酸包含文库,例如ORF文库、启动子文库、终止子文库、内含子文库、BAC文库、PAC文库、慢病毒文库、gRNA文库、gDNA文库、cDNA文库、蛋白结构域文库、启动子文库、终止子文库、调节元件文库、结构元件文库或来源于DNA诱变的DNA变体文库。在实施方案中,寡核苷酸混合物包含细胞阵列,细胞阵列包含质粒文库,例如gRNA文库、gDNA文库、cDNA文库、开放阅读框(ORF)文库、蛋白结构域文库、启动子文库、终止子文库、调节元件文库、结构元件文库或来源于DNA诱变的DNA变体文库。在实施方案中,寡核苷酸混合物包含细胞阵列,所述细胞阵列包含用于权利要求1-35中任一项的方法的DNA元件片段。
附图说明
图1.本文所述的用于DNA组装的方法的实施方案的示意图,供体质粒和受体寡核苷酸元件显示为阴影框。该图显示三“轮”“DNA拼接”,其中每轮都将包含DNA元件片段的新寡核苷酸添加至受体寡核苷酸中。在整个附图中,可以将DNA元件片段不同地描述为重组前:输入DNA 1、输入DNA 2等,以及重组后:DNA 1、DNA 2等;或者可替换地为oligo1、oligo2等,或者可以更一般地称为“DNA块(block)”。标为C1、C2等的框是指核酸内切酶位点;标为HR1、HR2等的框是指同源重组区;标为oligo1、oligo2等的框是指包含DNA元件片段的寡核苷酸;标有数字和加减符号的框是指选择标记(+)和反选择标记(-)。示意图所示的所有元件并非在本文所述方法的每个实施方案中都是必须的;例如,标志物和标为C2.1、C2.2、C7.1、C7.2的核酸内切酶位点是任选存在的。
图2A-B图A是本文所述的方法中使用的示例性受体寡核苷酸(以质粒形式)示意图图谱。图B示出示例性供体质粒和辅助质粒的两个示意图图谱。
图3CRISPR/Cas9提高DNA组装(在此也称为“拼接”)效率。在选择平板上每6×106个细胞的克隆数量。将两种供体质粒(其中只有一种表达功能性gRNA)转化至三种受体菌株中的每一种:(1)BW28705(没有λ-red,并且没有Cas9);(2)BW28705/pML300(λ-red但没有Cas9);(3)BW28705/pSL359(Cas9且λ-red)。
图4可用于本文所述的体内DNA组装物或“拼接”方法的示例性质粒的示意图图谱。在供体细胞中,接合能力辅助质粒可以含有用于质粒转移的基因(Tra操纵子)。为固定接合质粒本身,将转移起点(oriT)替换为选择标记(+6)。供体质粒含有一个交换盒(+1/-1或+2/-2)、两个同源区域(H2和H3)、四个核酸内切酶切割位点(两个标记为1的圆圈和两个标记为2的圆圈)、一个骨架选择标记(+4)、一个依赖于供体基因组中等位基因(pir1-116)的条件复制起点(R6K)、oriT序列、以及一个gRNA表达盒(gRNA1或gRNA2)。
图5可用于本文所述的体内拼接方法的示例性质粒的示意图图谱。在受体细胞中,辅助质粒含有鼠李糖诱导的red操纵子(PrhaBAD-red)、阿拉伯糖诱导的Cas9(ParaBAD-Cas9)、用于促进同源重组的大肠杆菌RecA基因、骨架选择标记(+5)、以及可固化的(curable)复制起点(pSC101 oriTS)。受体质粒包括两个核酸内切酶切割位点(两个标记为1的圆圈)、一个交换盒(+2/-2)、两个同源区(H2和H3)、以及一个复制起点(ColE1)。+1:HygR;+2:NsrR;-1:SacB;-2:PheS;+3:GmR;+4:KanR;+5:SpR;+6:TcR。
图6体内拼接的示例性方法的示意图概述。将携带DNA片段(向上或向下的条纹长方形)的供体质粒引入至供体质粒和供体细胞中。供体质粒与受体细胞接合,且DNA片段从供体质粒转移至受体质粒。使用由阿拉伯糖诱导的CRISPR/Cas9来切割质粒。供体质粒上的向导RNA(gRNA1或gRNA2,在组装轮次之间交替)指定用于切割的识别序列(“1”和“2”圆圈,在组装轮次之间交替)。合成的寡核苷酸和质粒骨架上的同源区(第1轮中H1和H3)促进由鼠李糖诱导的重组,并且将寡核苷酸无缝拼接在一起以组装基因。供体质粒上的交替选择标记(+1和+2)以及反选择标记(-1和-2)允许递归(recursive)DNA转移,理论上最大基因长度由最大可耐受质粒大小设定。R6K和ColE1是复制起点。+3和+4是用于质粒维持的选择标记。
图7A-IDNA组装的实例。图A示出三个供体质粒,每个携带mEGFP的一部分,它们相继拼接并组装成受体质粒(3个拼接)。图B示出来自阴性对照、阳性对照和在液体中组装三轮后的体内拼接产物的菌落的荧光。菌落代表独立接合和重组事件,并且100%是荧光的。图C示出在96-和384-位格式中mEGFP的阵列组装物。所有克隆表现出荧光。图D示出使用与第二mEGFP片段具有不同同源长度的第三mEGFP片段的最终轮后,液体组装物的荧光菌落的百分比。图E示出菌落的代表性限制性消化,所述菌落含有从琼脂刮下的组装物中的不同质粒。在选择重组子或固化辅助质粒之后,没有观察到来自非重组受体质粒的预期产物(箭头指出)。图F示出mEGFP组装后96个菌落的Sanger测序结果分析的示意图。测序产物源于与每个菌落接触的移液枪头的菌落PCR。一个菌落含有中间产物(第一轮组装产物),并且一个含有拼接错误(大片段缺失)。图G示出对2个荧光基因(mPapaya和sfGFP)以及4个重组酶基因进行五轮组装后,来自体内拼接产物菌落的荧光。克隆可以代表独立接合和重组事件。全部mPapaya和sfGFP克隆是荧光的。图H是五轮组装后mPapaya体内拼接产物Sanger测序的追踪文件。与预期序列的比对示出,组装是100%准确和纯的。图I示出来自3个约3kb片段的组装物的结果,总组装物长度约9kb。在组装物的不同阶段用限制性酶消化受体质粒以从载体骨架分离拼接产物。然后对消化产物进行琼脂糖凝胶电泳以检查拼接产物的大小(泳道1-3)。相应的拼接产物的凝胶条带用箭头标记。没有拼接产物的线性化的载体骨架于泳道5-6示出。交换盒中的选择和反选择标记在组装轮之间不同,第一和第三组装轮中的交换盒比原始受体质粒或第二组装轮中的交换盒长约1.5kb。
图8A-B在第一轮DNA拼接开始时的示例性供体和受体质粒的示意图。图A示出两个示例性质粒示意图,其中供体质粒含有第一寡核苷酸(1)。图B示出用于说明相应序列的形状图例:示例性基因组、阳性选择标记、阴性选择标记、转移起点(oriT)、gRNA表达单元(gRNA)、位置条形码、与重组结构域同源(H)、可诱导的λ-red操纵子(λred)、可诱导的I-SceI核酸内切酶、质粒、可诱导的核酸内切酶(Cas9)、gRNA靶位点、I-SceI靶位点、接合Tra操纵子、缺失oriT(oriΔ::TcR)、温度敏感起点(pSC101 ori)、条件复制起点(R6K)和复制起点受体(ColE1)。图8中相同的形状图例用于图9-35。
图9本文所述的方法中使用的示例性初始质粒的示意图:含有第一寡核苷酸(1)的供体质粒、受体质粒和含有oriT的质粒,其介导供体质粒至受体细胞的接合。
图10使用描绘于图9的供体和受体质粒的DNA拼接的示例性方法中的后续步骤的示意图:在受体细胞中gRNA1引导Cas9产生在供体和受体质粒上位点特异性双链断裂(由向下的箭头指示)。
图11描绘于图9-10的DNA拼接示例性方法中的后续步骤示意图:此处深色阴影序列元件会用作λ-red介导的同源重组的同源区域。
图12描绘于图9-11的DNA拼接示例性方法中的后续步骤示意图:质粒之间的同源重组显示在λ-red系统的协助下,来自供体质粒的序列插入至受体质粒的位置和方向。
图13描绘于图9-12的DNA拼接示例性方法中的后续步骤示意图:将含有第一寡核苷酸的片段整合至所示的受体质粒。
图14描绘于图9-13的DNA拼接示例性方法中的后续步骤示意图:就获得+2阳性选择标记对质粒进行选择。
图15描绘于图9-14的DNA拼接示例性方法中的后续步骤示意图:就丢失先前反选择标记对质粒进行反选择。
图16描绘于图9-15的DNA拼接示例性方法中的后续步骤示意图:就在原始受体骨架上保留+3阳性选择标记,另外对质粒进行选择。
图17描绘于图9-16的DNA拼接示例性方法中的后续步骤示意图:含有第二寡核苷酸的第二供体质粒准备好组装至含有第一寡核苷酸的先前连接产物(新的受体质粒)。
图18描绘于图9-17的DNA拼接示例性方法中的后续步骤示意图:oriT引导供体质粒接合。
图19描绘于图9-18的DNA拼接示例性方法中的后续步骤示意图:第二gRNA表达引导Cas9在由向下箭头指示的位点上产生双链断裂。
图20描绘于图9-19的DNA拼接示例性方法中的后续步骤示意图:突出的区域(深色阴影区域)是用于重组的同源区域。
图21描绘于图9-20的DNA拼接示例性方法中的后续步骤示意图:将含有第一寡核苷酸的片段整合至所示的受体质粒。
图22描绘于图9-21的DNA拼接示例性方法中的后续步骤意图:将第二寡核苷酸组装在受体质粒中相邻的第一寡核苷酸3’末端,产生新的受体质粒。
图23描绘于图9-22的DNA拼接示例性方法中的后续步骤示意图:就获得+1阳性选择标记,对含有第一和第二寡核苷酸的质粒进行选择。
图24描绘于图9-23的DNA拼接示例性方法中的后续步骤示意图:就丢失-2反选择标记,对含有第一和第二寡核苷酸的质粒进行选择。
图25描绘于图9-24的DNA拼接示例性方法中的后续步骤示意图:还就保留骨架选择标记,对含有第一和第二寡核苷酸的质粒进行选择。
图26描绘于图9-25的DNA拼接示例性方法中的后续步骤示意图:含有寡核苷酸三的供体质粒,以及为启动第三轮DNA拼接的带有寡核苷酸一和二的受体质粒的示意图。
图27描绘于图9-26的DNA拼接示例性方法中的后续步骤示意图:oriT质粒启动接合。
图28描绘于图9-27的DNA拼接示例性方法中的后续步骤示意图:在受体细胞中gRNA1引导Cas9在供体和受体质粒上产生位点特异性双链断裂(由向下箭头指示)。
图29描绘于图9-28的DNA拼接示例性方法中的后续步骤示意图:此处突出的序列是用作λ-red介导的同源重组的同源区域。
图30描绘于图9-29的DNA拼接示例性方法中的后续步骤示意图:同源重组后,显示将来自供体质粒的序列插入至受体质粒中的位置和方向。
图31描绘于图9-30的DNA拼接示例性方法中的后续步骤示意图:将第三寡核苷酸组装在受体质粒中相邻的第二寡核苷酸3’末端,产生新的受体质粒。
图32描绘于图9-31的DNA拼接示例性方法中的后续步骤示意图:类似于第一轮DNA拼接,就获得+2阳性选择标记对质粒进行选择。
图33描绘于图9-32的DNA拼接示例性方法中的后续步骤示意图:就丢失-1反选择标记,对质粒进行反选择。
图34描绘于图9-33的DNA拼接示例性方法中的后续步骤示意图:就保留骨架选择标记,对质粒进行选择。
图35A-B图A图示了示例于图9-34中的方法的步骤,其说明了一个实施方案,在该实施方案中,可以以相同方式加入(直到达到总序列长度的大小上限)后续寡核苷酸,在两个接合、双链断裂过程、组装和选择/反向选择/骨架筛选过程之间二选一。图B是示例性体内组装示意图概述,其中在单轮结合中添加两个DNA元件片段(在图中描绘为:在重组之前为输入DNA 1、输入DNA 2,在重组后为DNA1、DNA2;以及也可以在此称为oligo1、oligo2等,或者更一般地为“DNA块”)。在每孔中,受体细胞首先与包含第一供体质粒的第一供体细胞接合,其次与包含第二供体质粒的第二供体细胞接合。通过第二供体质粒引入选择标记,以及受体质粒上和任选地在第一供体质粒上的反选择标记使得能够选择含有由两种供体质粒引入的寡核苷酸重组组装产物。
图36A-D图A是本文所述的用于体内DNA分析的示例性方法的示意图概述。在该示例中,索引条形码位于受体质粒中。图B是本文所述的另一个用于体内DNA分析的示例性方法的示意图概述。在该示例中,索引条形码位于供体质粒中,并使用组装产物末端的同源区将其添加至体内DNA组装产物。在该示例中,使用的核酸内切酶位点与用于体内DNA组装物的那些相同。图C是本文所述的另一个用于体内DNA分析的示例性方法的示意图概述。在该示例中,索引条形码位于供体质粒中,并将其添加至体内DNA组装产物。在该示例中,核酸内切酶靶位点(C)和同源区(相邻C的箱)与用于体内DNA组装的那些不同。这个实例使得能在组装过程的多个步骤进行DNA分析。图D是包含质粒重置方法的示意图概述,质粒重置是将DNA组装物从受体质粒移动至供体质粒,使得能用更大的DNA块进行进一步组装的轮次。在图D的A部分中,供体细胞中重置供体质粒与受体质粒上DNA组装物的起始部分同源,将重置供体质粒接合至受体细胞中。位点特异性核酸内切酶在“D”核酸内切酶靶位点上切割,该位点在重置供体质粒和受体质粒中。在与“D”核酸内切酶靶位点相邻的区域的同源重组将DNA组装物盒从受体质粒移动至重置供体质粒。从受体细胞中纯化重置供体质粒并将其转化至新的供体细胞,其可以用于进一步组装的轮次。在图D的B部分中,示意图显示用于长DNA构建体组装的工作流程。使用四轮DNA拼接,可以将小DNA块组装成大DNA块。使用重置供体质粒将大块移动至供体质粒和供体细胞中。然后可以用进一步拼接轮次将大块组装成更大的块。
图37描绘用于体内DNA分析的示例性质粒的示意图图谱。在供体细胞中,接合能力辅助质粒含有用于质粒转移(Tra操纵子)的基因。为固定辅助质粒本身,将转移起点(oriT)替换为选择标记(+6)。供体质粒含有一个交换盒(+和-)、两个同源区域(H1和H4)、两个用于靶向质粒切割位点(椭圆形)、一个骨架选择标记(+4)、一个依赖于供体基因组(pir1-116)中等位基因的条件复制起点(R6K)和oriT序列。在受体细胞中,辅助质粒含有lac-可诱导的red操纵子(Plac-red)、用于促进同源重组的大肠杆菌RecA基因、骨架选择标记(+5)以及可固化的温度敏感复制起点(pSC101 oriTS)。受体质粒包括两个核酸内切酶切割位点(两个椭圆形)、负选择标记(-3)和两个同源区域(H1和H4)。除了两个质粒,受体细胞也具有整合的阿拉伯糖诱导的核酸内切酶I-SceI(ParaBAD-I-SceI)以在靶质粒上产生DNA切割。+:HygR或NsrR;-:SacB或PheS;+3:GmR;-3:relE;+4:KanR;+5:SpR;+6:TcR。
图38描绘了用于体内DNA分析的示例性质粒的示意图图谱。选择标记:HygR、KanR、GmR、SpR。反选择标记:SacB、relE。
图39A-B描绘了用于DNA解析的示例性供体质粒和受体质粒的示意图图谱。图A显示质粒示意图,其中供体质粒含有第一寡核苷酸。图B显示用于说明相应序列的形状图例:基因组、正选择标记、负选择标记、转移起点(oriT)、gRNA表达单元(gRNA)、位置条形码、重组结构域(H)同源性、可诱导的λ-red操纵子(λred)、可诱导的I-SceI核酸内切酶、质粒、可诱导的核酸内切酶(Cas9)、gRNA靶位点、I-SceI靶位点、接合Tra操纵子、缺失oriT(oriΔ::TcR)、温度敏感起点(pSC101 ori)、条件复制起点(R6K)和复制起点(ColE1)受体。图B中的图例也适用于图40-46。
图40显示用于本文所述的示例性方法的供体和受体质粒图示。
图41是显示图40的示例性方法中的第二步的图像:gRNA1引导受体细胞中Cas9在供体和受体质粒上产生位点特异性双链断裂(由向下箭头指示)。SceI是I-SceI,归巢核酸内切酶。
图42显示图40和41的示例性方法中的步骤的图像:此处的H1和H4序列将作为同源区,用于λ-red介导同源重组。
图43显示图40-42的示例性方法中的步骤的图像:显示来自供体质粒的序列将插入至受体质粒的同源重组位置和方向。
图44是显示图40-43的示例性方法中的步骤的图像:就获得+正选择标记,对质粒进行选择。
图45显示图40-44的示例性方法中的步骤的图像:就丢失先前反选择标记,对质粒进行反选择。
图46是显示图40-45的示例性方法中的步骤的图像:就在原始受体骨架上保留+3正选择标记,另外对质粒进行选择。
图47A-D图A显示为了确定体内DNA分析以在每个阵列供体细胞平板的每个位置上正确地识别序列的能力的实验结果,所述阵列供体细胞在每个位置含有独特DNA条形码。将每个阵列条形码供体与两个至三个条形码受体平板接合(mated),并在琼脂板上选择重组细胞菌落,每个菌落含有供体和受体条形码。将来自平板的重组细胞合并,并且在Illumina平台上测序双条形码。当与一个、两个或三个分离的条形码受体阵列接合时,使用测序数据来确定可以被正确索引的阵列条形码供体的百分比(回收率)。没有条形码供体被不正确地分配到错误的位置。图B显示了对从IDT订购的100个244个碱基寡核苷酸池进行索引和序列验证的实验的结果,将其作为oPool。将寡核苷酸整合至供体质粒,然后将其转化至供体细胞。以少于每孔一个细胞的预期频率,将供体细胞随机阵列至384-孔平板中。将供体细胞接合至条形码受体细胞阵列,并使用Oxford Nanopore测序仪测序重组寡核苷酸-条形码受体质粒。示出两个384-孔平板的分析结果。阴影表示孔中是否有输入阵列DNA、序列是否与oPool中244个碱基序列之一100%匹配、以及孔是否是纯的(即在孔中仅可以检测到一个244个碱基序列)。通常情况下,将标记为“100%匹配的纯的孔”的位置用于下游DNA组装物。图C是使用图B中的实验数据,显示由Oxford Nanopore测序确定的在共有序列和oPool中与共有序列最接近的预期DNA序列之间的误差分布的柱状图。大多数孔含有与oPool中序列之一相同的寡核苷酸。图D是使用图B中的实验数据,显示为每个可索引的寡核苷酸回收的独立克隆计数分布的柱状图。
图48是DNA组装工作流程的示意图概述,用于从一组输入寡核苷酸建立定向组合文库。将来自多个来源的输入DNA池整合至供体质粒,并解析成有序阵列。将有序阵列重新阵列到多个供体平板上用户定义的位置。将供体平板相继接合至受体平板以组装所需的构建体。通过将含有寡核苷酸的供体细胞重新阵列至供体平板上多个位置,可以将输入寡核苷酸用于多个组装物中。
图49是分支的DNA组装的示意图概述。如果存在同源区域,可以将部分的DNA组装物用多个DNA块扩展。如果不存在同源区域,“DNA接头”必需首先添加到部分DNA组装物中。DNA接头含有与部分DNA组装物末端和待连接的后续DNA块起始的同源性。
发明详述
I.定义及相关实施方案
除非另有定义,本文使用的所有技术和科学术语均具有与本发明所属领域的技术人员通常理解的相同含义。以下参考文献给本领域技术人员提供本发明所使用的许多术语的一般定义:Singleton et al.,Dictionary of Microbiology and Molecular Biology(2nd ed.1994)、The Cambridge Dictionary of Science and Technology(Walker ed.,1988)、The Glossary of Genetics,5th Ed.,R.Rieger et al.(eds.),Springer Verlag(1991)以及Hale&Marham,The Harper Collins Dictionary of Biology(1991)。如本文所用,除非另有说明,以下术语具有它们被认为具有的含义。
本公开和所附权利要求中单数不定冠词或定冠词(例如“一”、“一个”、“该”等)的使用遵循专利中意为“至少一个”的传统方法,除非在特定实例中从上下文清楚地看出该术语意图在特定实例中明确意为一个且只有一个。同样地,术语“包含”是开放式的,不排除附加的项目、特征、组分等。除非另有说明,否则本文指明的参考文献的全部内容援引加入本文。
“任选的”或“任选地”意为后续描述的事件或情况可以或不可以发生,并且本说明书包括包括事件或情况发生的实例以及这些没有发生的实例。
在包括范围的数值名称(例如温度、时间、数量、浓度等)前使用术语“约”时,表示可以有(+)或(-)10%、5%、1%变化或者其间任何子范围或子值的近似值。优选地,术语“约”意为该值可以变化+/-10%。
如本文所用,术语“包含”或“包括”意图意为组合物和方法包括所述元素,但不排除其他。当用于定义组合物和方法时,“基本由……组成”应意为排除对用于所述目的的组合物而言,具有任何基本意义的其他元素。因此,基本由本文定义的元素组成的组合物不排除不会实质上影响要求保护的发明的基本和新颖特征的其他材料或步骤。“由……组成”应意为排除超过其他成分的痕量元素和实质性的方法步骤。由这些过渡术语中的每一个定义的实施方案都在本发明的范围内。
如本文中可用,术语“核酸”、“核酸分子”、“核酸序列”和“多核苷酸”可互换使用,并且意图包括但不限于共价连接到一起的可以具有各种长度的核苷酸的聚合形式,是脱氧核糖核苷酸或核糖核苷酸,或者其类似物、衍生物或修饰。不同的多核苷酸可以具有不同的三维结构,并且可以进行各种已知或者未知的功能。多核苷酸的非限制性实例包括基因、基因片段、外显子、内含子、基因间DNA(包括但不限于异染色质DNA)、信使RNA(mRNA)、转移RNA、核糖体RNA、核酶、cDNA、sgRNA、向导RNA、tracr RNA、重组多核苷酸、分支多核苷酸、质粒、载体、一定序列的分离的DNA、一定序列的分离的RNA、PCR产物、核酸探针和引物。本发明的方法中有用的多核苷酸可以包含天然核酸序列及其变体、人工核酸序列或者这些序列的组合。
“核酸”是指核苷酸(例如,脱氧核糖核苷酸或核糖核苷酸)及其单链、双链或多链形式的聚合物,或其互补物;或者核苷(例如,脱氧核糖核苷或核糖核苷)。在实施方案中,“核酸”不包括核苷。在通常和惯用意义上,术语“多核苷酸”、“寡核苷酸”、“寡聚核苷酸”等是指核苷酸线性序列。在通常和惯用意义上,术语“核苷”是指包括核碱基和五碳糖(核糖或脱氧核糖)的糖基胺。核苷的非限制性实例包括胞苷、尿苷、腺苷、鸟苷、胸苷和肌苷。在通常和惯用意义上,术语“核苷酸”是指多核苷酸的单个单元,即单体。核苷酸可以是核糖核苷酸、脱氧核糖核苷酸或其修饰形式。本文关注的多核苷酸实例包括单链和双链DNA、单链和双链RNA和具有单链和双链DNA和RNA的混合物的杂交分子。本文关注的核酸的实例(例如多核苷酸)包括RNA的任何类型:例如mRNA、siRNA、miRNA和向导RNA,以及DNA的任何类型:基因组DNA、质粒DNA和微环DNA及其任何片段。在通常和惯用意义上,在提及多核苷酸的上下文中,术语“双链体”是指双链。核酸可以是线性或分支的。例如,核酸可以是核苷酸线性链,或者核酸可以是分支的(例如使得核酸包含一个或多个核苷酸臂或分支)。任选地,分支核酸重复地分支以形成更高级(higher ordered)结构,例如树枝状大分子等。
核酸(包括例如具有硫代骨架的核酸)可以包括一个或多个反应性部分。如本文所用,术语“反应性部分”包括能通过共价、非共价或其他相互作用与另一个分子(例如核酸或多肽)反应的任何基团。举例而言,核酸可以包括通过共价、非共价或其他相互作用与蛋白或多肽上的氨基酸反应的氨基酸反应性部分。
该术语还涵盖包括已知核苷酸类似物或修饰的骨架残基或连接(linkage)的核酸,核酸是合成的、自然存在的和非自然存在的,具有与参考核酸相似的接合特性,并且以与参考核苷酸相似的的方式代谢。这种类似物的实例包括不限于,磷酸二酯衍生物(包括例如磷酰胺、磷酸二酰胺、硫代磷酸酯(也称为phosphothioate,具有二硫键取代磷酸盐中的氧)、二硫代磷酸酯、羧膦酸、羧膦酸酯、磷酰基乙酸、磷酰基甲酸、甲基磷酸酯、硼磷酸酯或者O-甲基亚磷酰胺(O-methylphosphoroamidite)连接(见Eckstein,OLIGONUCLEOTIDESAND ANALOGUES:A PRACTICAL APPROACH,Oxford University Press)以及对核苷酸碱基的修饰,例如5-甲基胞苷或假尿苷;以及肽核酸骨架和键。其他类似物核酸包括具有正电(positive)骨架、非离子骨架、修饰的糖以及非核糖骨架(例如本领域已知的磷酸二酰胺吗啉寡核苷酸或锁核酸(LNA)),包括描述于美国专利5,235,033和5,034,506以及ASCSymposium Series 580,CARBOHYDRATE MODIFICATIONS IN ANTISENSE RESEARCH,Sanghui&Cook,eds的第6和7章节的那些。在核酸的一种定义内,还包括一种或多种碳环糖的核酸。可以就各种原因进行核糖-磷酸骨架修饰,例如为提高这些分子在生理环境中或作为探针在生物芯片上的稳定性和半衰期。可以制备自然存在的核酸和类似物的混合物;或者,可以制备不同核酸类似物的混合物以及自然存在的核酸和类似物的混合物。在实施方案中,DNA中的核苷酸间的连接是磷酸二酯、磷酸二酯衍生物或其组合。
“条形码”是指用于识别带有相关条形码的一种或多种细胞的一种或多种核苷酸序列。条形码长度可以是3-1000个或更多个核苷酸,长度优选为3-250个核苷酸,长度更优选为4-40个核苷酸,包括这些范围中的任何长度,例如长度为3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900或1000个核苷酸。当于细胞群中约一个细胞内(统计学上)存在条形码时,该条形码是“独特的”。可以扩增含有该条形码的细胞以制备克隆的多个细胞,使得多个细胞中的每一个细胞含有相同的条形码。例如,“多个条形码细胞,其中每个条形码细胞包含单个、独特的条形码”可以指(统计学上)含有单个细胞的细胞群,该单个细胞含有给定条形码或者独特条形码组合。或者,其可以指含有多个克隆的细胞群的细胞群,每个克隆的群中的每个细胞含有相同的条形码,但是不同克隆的群的细胞含有不同的条形码。
如本文所用,术语“互补物”是指能够与互补核苷酸或核苷酸序列碱基配对的核苷酸(例如RNA或DNA)或核苷酸序列。如本文所述和本领域公知的,腺苷的互补(匹配)核苷酸是胸苷,鸟苷的互补物(匹配)核苷酸是胞嘧啶。因此,互补物可以包括与第二核酸序列的相应的互补核苷酸碱基配对的核苷酸序列。互补物的核苷酸可以部分或完全与第二核酸序列的核苷酸匹配。在互补物核苷酸与第二核酸序列每个核苷酸完全匹配的情况下,互补物与第二核酸序列的每个核苷酸形成碱基对。在互补物核苷酸与第二核酸序列核苷酸部分匹配的情况下,只有一些互补物核苷酸与第二核酸序列核苷酸形成碱基对。
如本文所述,序列互补性可以是部分的,其中只有一些核酸根据碱基配对匹配;或者完全的,其中所有核酸根据碱基配对匹配。因此,相互互补的的两个序列可以具有指定百分比的相同核苷酸(即约60%相同性,优选65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或在指定区域上更高的相同性)。
如本文所用,术语“基因”根据其显见的普通含义使用,是指参与产生蛋白的DNA片段;其包括在编码区(前导序列和尾随序列)之前和之后的区域,以及在单独编码片段(外显子)之间的中间序列(内含子)。基因的前导序列、尾随序列和内含子都包括基因转录和翻译过程中必需的调节元件。此外,“蛋白基因产物”是由特定基因表达的蛋白。
术语“表达载体”是指编码基因表达所必需的基因和/或调节元件的核酸分子。基因的表达可以从载体顺式或反式发生,所述载体可以是质粒形式。如果基因以顺式表达,则该基因和调节元件由相同质粒编码。反式表达是指基因和调节元件由不同的质粒编码的实例。
如本文所用,术语“载体”是指能够运输与之连接的另一核酸的核酸分子。载体可以是“质粒”形式,在上下文中质粒是指可以将额外DNA区段连接到其中的线性或环状双链DNA环。载体的另一类型是病毒载体,其可以将额外DNA区段连接到病毒基因组中。某些载体能够在被引入的宿主细胞中自主复制(例如,具有细菌复制起点的细菌载体和染色体外(episomal)哺乳动物载体)。在引入至宿主细胞后,其他载体(例如非染色体外哺乳动物载体)被整合至宿主细胞基因组中,从而与宿主基因组一起复制。此外,某些载体能够指导与其可操作地连接的基因表达。在本文中称这些载体为“表达载体”。通常,重组DNA技术中有用的表达载体常为质粒形式。因为质粒是最常用的载体形式,所以在本说明书中“质粒”和“载体”可互换使用。然而,本发明意图包括具有同等功能的其他形式表达载体,例如病毒载体(例如,复制缺陷型逆转录病毒、腺病毒和腺相关病毒)。此外,一些病毒载体能够特异性或非特异性地靶向特定细胞类型。无复制能力病毒载体或复制缺陷病毒载体是指能够感染其靶细胞并递送其病毒有效负载,但随后无法继续导致细胞裂解和死亡的典型裂解途径的病毒载体。
根据本文描述的方法,寡核苷酸、质粒或载体可以含有至少一种选择标记。用于本文所描述方法的选择标记可以是任何合适的选择标记。在实施方案中,选择标记是HygR、NsrR、ZeoR、TetA、CmR、SpR、GmR、mFabI、TmR、neoR或kanR并且不限于此。在实施方案中,选择标记是HygR。在实施方案中,选择标记是NsrR。在实施方案中,选择标记是ZeoR。在实施方案中,选择标记是TetA。在实施方案中,选择标记是CmR。在实施方案中,选择标记是SpR。在实施方案中,选择标记是GmR。在实施方案中,选择标记是mFabI。在实施方案中,选择标记是TmR。在实施方案中,选择标记是neoR。在实施方案中,选择标记是kanR。
根据本文描述的方法,寡核苷酸、质粒或载体可以含有至少一种反选择标记,例如,在本文所描述组装DNA元件的方法中,反选择标记就第二或后续寡核苷酸整合到重组受体寡核苷酸中进行选择。用于本文所描述方法的反选择标记可以是任何合适的反选择标记。在实施方案中,反选择标记是PheS、SacB rpsL、tolC、galK、ccdB、tetA、thyA、lacY、gata-1、URA3、relE、mqsR、chpB、vhaV或tse2并且不限于此。在实施方案中,反选择标记是PheS。在实施方案中,反选择标记是SacB。在实施方案中,反选择标记是rpsL。在实施方案中,反选择标记是tolC。在实施方案中,反选择标记是galK。在实施方案中,反选择标记是ccdB。在实施方案中,反选择标记是ccdB。在实施方案中,反选择标记是tetA。在实施方案中,反选择标记是thyA。在实施方案中,反选择标记是lacY。在实施方案中,反选择标记是gata-1。在实施方案中,反选择标记是URA3。在实施方案中,反选择标记是relE。在实施方案中,反选择标记是mqsR。在实施方案中,反选择标记是chpB。在实施方案中,反选择标记是vhaV。在实施方案中,反选择标记是tse2。
术语“转染”、“转导”、“使转染”或“使转导”可以互换使用,并且定义为将核酸分子和/或蛋白引入至细胞的过程。可以使用非病毒或基于病毒的方法将核酸引入细胞。核酸分子可以是编码完整蛋白或其功能性部分的序列。通常情况下,核酸载体包括蛋白表达必需元件(例如,启动子、转录起始点等)。转染的非病毒方法包括不使用病毒DNA或病毒颗粒作为将核酸分子引入至细胞的传递系统的任何适当的方法。示例性非病毒转染方法包括磷酸钙转染、脂质体转染、核转染、声波转染、通过热休克转染、磁转染和电穿孔。对于基于病毒的方法,在本文所描述的方法中可以使用任何有用的病毒载体。病毒载体的实例包括但不限于逆转录病毒、腺病毒、慢病毒和腺相关病毒载体。在一些方面,按照本领域公知的标准程序,使用逆转录病毒载体将核酸分子引入细胞中。术语“转染”或“转导”也指将蛋白从外部环境引入细胞。通常情况下,蛋白转导或转染依赖能够穿过细胞膜的肽或蛋白与感兴趣蛋白的连接。见,例如Ford et al.(2001)Gene Therapy 8:1-4and Prochiantz(2007)Nat.Methods 4:119-20。
如本文所用,术语“启动子”是指启动特定基因转录的DNA区域。通常情况下,启动子在DNA上位于基因转录起始点附近、基因上游以及同一条链上(即,5’在正义链上)。启动子的长度可以是,例如约100至约1000个碱基对。
核苷酸碱基“位置”由数字表示,在参考序列中该数字基于其相对于5’端的位置相继识别每个氨基酸(或核苷酸碱基)。由于确定最佳比对时必须考虑缺失、插入、截断、融合等,通常通过简单地从5’端开始计数来确定的测试序列中的氨基酸残基数量,数量不一定与其在参考序列中的相应位置的数量相同。例如,在变体相对于比对的参考序列具有缺失的情况下,变体中将不存在与参考序列中缺失位点上相对应位置的核苷酸碱基。在比对的参考序列中存在插入的情况下,该插入将不对应于参考序列中编号的核苷酸位置。在截断或融合存在的情况下,在参考或比对的序列中都可以存在与相应的序列中任何核苷酸都不对应的核苷酸延伸。
当在给定的多核苷酸序列的编号上下文中使用时,术语“参考……编号的”或“与……相应的”是指当给定的多核苷酸序列与参考序列比较时,指定的参考序列残基的编号。
如本文所用,在病毒转导的上下文中,术语“病毒”或“病毒颗粒”根据其显见的普通含义使用。用病毒载体转导可以用于在哺乳动物细胞中插入或修饰基因。
如本文所用,术语“遗传修饰”、“基因修饰”、“基因编辑”、“遗传编辑”、“基因组编辑”、“基因组工程”等是指在细胞基因组中一个或多个指定位置DNA插入、缺失、修饰或替换的基因工程类型。在基因或基因组内特定点上创造断裂是基因编辑中一个关键步骤。完成该步骤的基因编辑工具的实例例如核酸酶,包括但不限于锌指核酸酶(ZFN)、转录激活因子样效应子核酸酶(TALEN)、归巢核酸内切酶、以及成簇规律间隔短回文重复系统(CRISPR/Cas)。
如本文所用,“DNA元件”是指可以在细胞之间转移(例如在供体细胞受体细胞之间转移)的任何DNA序列。因此,DNA元件包括,但不限于基因、启动子、增强子、终止子、内含子、基因间隔区、条形码或gRNA。DNA元件可以是基因片段、启动子、增强子、终止子、内含子、基因间隔区、条形码或gRNA。DNA元件可以是基因、启动子、增强子、终止子、内含子、基因间隔区、条形码、gRNA的组合,以及基因、启动子、增强子、终止子、内含子、基因间隔区、条形码、gRNA的片段。在实施方案中,DNA元件位于供体质粒中。在其他实施方案中,DNA元件被移至或位于受体寡核苷酸中。在其他实施方案中,DNA元件从受体寡核苷酸移至重置供体质粒。
如本文所用,术语“基因编辑试剂”是指基因编辑工具所需的组分,并且可以包括酶、核糖蛋白、溶液、辅因子等。例如,基因编辑试剂包括锌指核酸酶(ZFN)、转录激活因子样效应子核酸酶(TALEN)、归巢核酸内切酶以及成簇规律间隔短回文重复系统(CRISPR/Cas)基因编辑所需的一种或多种组分。
如本文所用,术语“核酸内切酶”是指核酸内切酶系统(例如,CRISPR的任何组分,包括gRNA)的一种酶或组分,核酸内切酶系统具有用于多核苷酸切割(cleavage)的内切催化活性。例如,核酸内切酶或其组分可以切割寡核苷酸或多核苷酸的磷酸二酯键。核酸内切酶在其识别位点序列内或者相邻的磷酸二酯键处切割,其横跨长度至少为4bp。核酸内切酶的类型包括但不限于限制性酶、AP核酸内切酶、T7核酸内切酶、T4核酸内切酶、Bal 31核酸内切酶、核酸内切酶I、微球菌核酸酶、核酸内切酶II、脉孢菌核酸内切酶、S1核酸内切酶、P1-核酸酶、绿豆核酸酶I、DNAse I、RNA-引导的DNA核酸内切酶(例如CRISPR,包括任何CRISPR组分,例如Cas蛋白、gRNA等)、交配型转换(homothallic switching)核酸内切酶、TALEN、锌指核酸酶和Endo R。
“切割”是指DNA分子共价骨架断裂。切割可以由各种方法启动,包括但不限于磷酸二酯键的酶或化学水解。单链切割和双链切割都是可能的,并且双链切割可以作为两个不同的单链切割事件的结果而发生。DNA切割可以导致平端或粘性末端。在一些实施方案中,将包括向导RNA和位点特异性修饰酶的复合物用于靶向双链DNA切割。
如本文所用,术语“CRISPR”或“成簇规律间隔短回文重复”根据其显见的普通含义使用,且是指细菌用其作为一种获得性免疫类型来抵御病毒的遗传元件。CRISPR包括起源于病毒基因组并整合至细菌基因组的的短序列。Cas(CRISPR相关蛋白)处理这些序列并且切割匹配病毒DNA序列。因此,CRISPR序列作为Cas识别并切割与CRISPR序列至少部分互补的DNA的向导起作用。通过将包括Cas基因和特意构建的CRISPR的质粒引入至真核细胞,可以在任何所需位置切割真核生物基因组。
如本文所用,术语“Cas9”或“CRISPR-相关蛋白9”根据其显见的普通含义使用,是指使用CRISPR序列作为向导来识别并切割与CRISPR序列至少部分互补的DNA特定链的酶。Cas9酶与CRISPR序列一起构成了名为CRISPR-Cas9技术的基础,该技术可用于生物体内基因编辑。这种编辑过程具有广泛的应用,包括基础生物学研究、生物技术产品开发和疾病治疗。
如本文所指,“CRISPR相关蛋白9”、“Cas9”、“Csn1”或“Cas9蛋白”包括保持Cas9核酸内切酶酶活性(例如,与Cas9相比在至少50%、80%、90%、95%、96%、97%、98%、99%或100%活性内)的任何Cas9核酸内切酶或者其变体或同系物的重组或自然存在的形式。在一些方面,与自然存在的Cas9蛋白相比,变体或同系物在整个序列或序列的一部分上具有至少90%、95%、96%、97%、98%、99%或100%氨基酸序列相同性(例如,50、100、150或200个连续氨基酸部分)。在一些方面,Cas9蛋白与由UniProt参考号Q99ZW2识别的蛋白实质相同,或与其具有实质相同性的变体或同系物实质相同。在一些方面,Cas9蛋白与由UniProt参考号Q99ZW2识别的蛋白的氨基酸序列具有至少75%序列相同性。在一些方面,Cas9蛋白与由UniProt参考号Q99ZW2识别的蛋白的氨基酸序列具有至少80%序列相同性。在一些方面,Cas9蛋白与由UniProt参考号Q99ZW2识别的蛋白的氨基酸序列具有至少85%序列相同性。在一些方面,Cas9蛋白与由UniProt参考号Q99ZW2识别的蛋白的氨基酸序列具有至少90%序列相同性。在一些方面,与由UniProt参考号Q99ZW2识别的蛋白的氨基酸序列具有至少95%序列相同性。
如本文所指,“CRISPR-相关核酸内切酶Cas12a”、“Cas12a”、”Cas12”或“Cas12蛋白”包括保持Cas12核酸内切酶酶活性(例如,与Cas12相比在至少50%、80%、90%、95%、96%、97%、98%、99%或100%活性内)的任何Cas12核酸内切酶或者其变体或同系物的重组或自然存在的形式。在一些方面,与自然存在的Cas12蛋白相比,变体或同系物在整个序列或序列的一部分上具有至少90%、95%、96%、97%、98%、99%或100%氨基酸序列相同性(例如,50、100、150或200个连续氨基酸部分)。在一些方面,Cas12蛋白与由UniProt参考号A0Q7Q2识别的蛋白实质相同,或与其具有实质相同性的变体或同系物实质相同。
如本文所指,“CRISPR-相关核糖核酸内切酶Cas13a”、“Cas13a”、“Cas13”或“Cas13蛋白”包括保持Cas13核糖核酸内切酶酶活性(例如,与Cas13相比在至少50%、80%、90%、95%、96%、97%、98%、99%或100%活性内)的任何Cas13核糖核酸内切酶或者其变体或同系物的重组或自然存在的形式。在一些方面,与自然存在的Cas13蛋白相比,变体或同系物在整个序列或序列的一部分上具有至少90%、95%、96%、97%、98%、99%或100%氨基酸序列相同性(例如,50、100、150或200个连续氨基酸部分)。在一些方面,Cas13蛋白与由UniProt参考号P0DPB8识别的蛋白实质相同,或与其具有实质相同性的变体或同系物实质相同。
如本文所用,“TALEN”或“转录激活因子样效应物核酸酶”是指通过将DNA结合结构域(例如TAL效应物DNA-结合结构域)连接核酸酶(例如FokI)而产生的限制性酶。通常情况下,TALEN包括自然存在的DNA-结合结构域,其包括多个组件,术语为“TAL”或“TALE”。因此,包括可变二残基的TAL赋予了DNA结合特异性。
本文提供的“向导RNA”或“gRNA”是指与靶多核苷酸序列具有足够互补性以与靶序列杂交,并指导CRISPR复合物与靶序列的序列特异性结合的RNA序列。例如,gRNA可以指导Cas至靶多核苷酸。在实施方案中,gRNA包括crRNA和tracr RNA。例如,gRNA可以包括通过碱基配对杂交的crRNA和tracr RNA。因此,在实施方案中,crRNA和tracr RNA可以分别将两个RNA编码为两个RNA分子,然后由于crRNA和tracr RNA之间碱基互补配对而形成RNA/RNA复合物。在一些方面,当使用合适的比对算法进行最佳比对时,向导RNA序列和其相应的靶序列之间的互补程度为约50%、60%、75%、80%、85%、90%、95%、97.5%、99%或更多。在一些方面,当使用合适的比对算法进行最佳比对时,向导RNA序列和其相应的靶序列之间的互补程度为至少约50%、60%、75%、80%、85%、90%、95%、97.5%、99%。
CRISPR酶的非限制性实例包括Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas6、Cas7、Cas8、Cas9(也称为Csn1和Csx12)、Cas10、Cas12、Cas13、Csy1、Csy2、Csy3、Cse1、Cse2、Csc1、Csc2、Csa5、Csn2、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、Csx10、Csx16、CsaX、Csx3、Csx1、Csx15、Csf1、Csf2、Csf3、Csf4、其同系物、或其修饰形式。在实施方案中,CRISPR酶是Cas9酶。在实施方案中,Cas9酶是肺炎链球菌(S.pneumonia)、化脓链球菌(S.pyogene)或嗜热链球菌(S.thermophile)的Cas9,或在这些生物中衍生的突变体。在实施方案中,CRISPR酶是密码子优化的,用于在真核细胞中表达。在实施方案中,CRISPR酶在靶序列的位置上指导一条或两条链的切割。在实施方案中,CRISPR酶缺乏DNA链切割活性。
如本文所用,“锌指”是围绕结合的锌阳离子折叠的多肽结构基序。在实施方案中,锌指的多肽具有形式为X3-Cys-X2-4-Cys-X12-His-X3-5-His-X4的序列,其中X是任何氨基酸(例如,X2-4表示长度为2-4个氨基酸的寡肽)。因此,如本文所用,“锌指核酸酶”是指包括锌指基序和能够在靶DNA中诱导断裂的结构域的核酸酶。
术语“同源重组”是指在两个相似或相同核酸序列(在本文可以称为“同源区”)之间交换信息的基因重组的类型。在本文描述的方法的一些实施方案中,同源区可以包含,例如两个可以任选位于非同源区两侧的同源区(area)。在本文描述的方法的一些实施方案中,可以用大肠杆菌RecA基因促进同源重组。“RecA”是指普遍存在的38-kD同源DNA修复蛋白家族的细菌同系物,其在细菌中介导ATP-依赖的同源重组。在实施方案中,本文描述的方法的供体细胞或受体细胞包括编码一种或多种同源DNA修复基因的寡核苷酸(例如RecA)。在实施方案中,同源DNA修复基因表达是可诱导的。在实施方案中,同源DNA修复基因是RecA。在实施方案中,同源DNA修复基因是重组工程基因Redα、Redβ和Redγ。可以找到使用各种核酸酶系统进行同源重组和基因编辑的方法的非限制性实例,例如于美国专利号8945839、国际PCT申请公开号WO2013/163394以及美国专利号2016/0060657、2012/0192298A1和US2007/0042462。可以将这些和其他已知的用于同源重组的方法与本文所述的方法结合使用。
如本文所用,术语“转染”根据其显见的普通含义使用,是指将裸露或纯化的核酸刻意引入至真核细胞中的过程。在一些实例中,尽管其他术语通常是优选的,“转染”可以指其他方法和细胞类型。例如,通常情况下,用术语“转化”描述在细菌和非动物真核细胞(包括植物细胞)中非病毒DNA转移。在动物细胞中,转染是优选的术语。例如,通常用术语“转导”描述病毒介导的基因转移至真核细胞中。
术语“细菌接合(bacterial conjugation和bacterial mating)”是可互换的,且是指在细菌间基因的交换方式。通常情况下,细菌接合只涉及其中一个细胞(供体)的基因组的一部分和其伴侣(受体细胞)的完整基因组。因此,通常情况下细菌接合中基因的转移是部分的。在实施方案中,细菌接合是非基因组细菌DNA从供体细胞转移至受体细胞。在一些实例中,通过质粒发生细菌接合。在一些实例中,通过细菌中外源DNA发生细菌接合。在实施方案中,供体细胞和受体细胞接触以发生细菌接合。在实施方案中,供体细胞和受体细胞包括用于发生细菌接合的连接桥(例如菌毛)。
在实施方案中,受体细胞或供体细胞包括使质粒能接合的寡核苷酸。在实施方案中,使质粒能接合的寡核苷酸位于供体细胞基因组中。在实施方案中,使质粒能接合的寡核苷酸位于辅助质粒中。在实施方案中,使质粒能接合的寡核苷酸是Tra操纵子。在实施方案中,使质粒能接合的寡核苷酸选自:IncF1 Tra(traA、traB、traC、traD、traE、traF、traG、traH、traI、traJ、traK、traL、traM、traN、traO、traP、traQ、traR、traS、traT)、IncP Tra操纵子:(trbA、trbB、trbC、trbD、trbE、trbF、trbG、trbH、trbI、trbJ、trbK、trbL、traA、traB、traC、traD、traE、traF、traG、traH、traI、traJ、traK、traL、traM、traN、traO)、IncI1 tra操纵子:(traE、traF、traG、traH、traI、traJ、traK、traL、traM、traN、traO、traP、traQ、traS、traT、traU、traV、traW、traY)、pTiC58 tra基因:(traA、traF、traB、traC、traG、traD、traR、traI)和pIJ101:clt、korB。在实施方案中,使质粒能接合的寡核苷酸是IncF1 Tra(traA、traB、traC、traD、traE、traF、traG、traH、traI、traJ、traK、traL、traM、traN、traO、traP、traQ、traR、traS、traT)。在实施方案中,使质粒能接合的寡核苷酸是IncP Tra操纵子:(trbA、trbB、trbC、trbD、trbE、trbF、trbG、trbH、trbI、trbJ、trbK、trbL、traA、traB、traC、traD、traE、traF、traG、traH、traI、traJ、traK、traL、traM、traN、traO)。在实施方案中,使质粒能接合的寡核苷酸是IncI1tra操纵子:(traE、traF、traG、traH、traI、traJ、traK、traL、traM、traN、traO、traP、traQ、traS、traT、traU、traV、traW、traY)。在实施方案中,使质粒能接合的寡核苷酸是pTiC58 tra基因:(traA、traF、traB、traC、traG、traD、traR、traI)。在实施方案中,使质粒能接合的寡核苷酸是pIJ101:clt、korB。
如本文所用,“供体细胞”是指将遗传物质转移至另一个细胞(例如细菌细胞、植物细胞等)的细胞(例如细菌细胞)。在本文中,将接收转移的遗传物质的细胞称为“受体细胞”。
如本文所用,术语“供体质粒”是指将来自供体细胞(例如细菌细胞)的DNA转移至受体细胞(例如细菌细胞、酵母细胞、植物细胞等),供体细胞包括寡核苷酸序列(例如供体DNA、包括DNA元件的寡核苷酸)。通常情况下,供体质粒是与基因组DNA分离的环状双链DNA。因此,术语“受体质粒”是指来自接受供体DNA的受体细胞的DNA。在实施方案中,来自供体质粒的DNA由来自受体质粒DNA以外的DNA接受。因此,在实施方案中,供体DNA可以被整合至基因组DNA。
在实施方案中,供体质粒包括转移起点。在实施方案中,转移起点来自移动元件。在实施方案中,移动元件是质粒。在实施方案中,质粒是IncFI质粒、IncPɑ质粒、IncI1质粒、来自农杆菌(Agrobacterium tumefacien)的pTiC58、pAD1质粒、Inc18质粒或者IncH质粒。在实施方案中,质粒是IncFI质粒。在实施方案中,质粒是IncPɑ质粒。在实施方案中,质粒是IncI1质粒。在实施方案中,质粒是来自农杆菌(Agrobacterium tumefacien)的pTiC58。在实施方案中,质粒是pAD1质粒。在实施方案中,质粒是Inc18质粒。在实施方案中,质粒是IncH质粒。以下更详细地讨论了质粒:Ippen-Ihler,K.A.,and Minkley,E.G.,Jr.,(1986).The conjugation system of F,the fertility factor of Escherichiacoli.Ann.Rev.Genet.20:593-624.;Guiney,D.G.,and Lanka,E.,(1989),Conjugationtransfer of IncP plasmids,in:Promiscuous Plasmids of Gram-negative Bacteria(C.M.Thomas,ed.),Academic Press,London,pp.27-56.;Catherine E.D.Rees,DavidE.Bradley,Brian M.Wilkins,(1987)Organization and regulation of theconjugation genes of IncI1 plasmid ColIb-P9.Plasmid.18:223-236.;von BodmanSB,McCutchan JE,Farrand SK.(1989)Characterization of conjugal transferfunctions of Agrobacterium tumefaciens Ti plasmid pTiC58.J.Bacteriol.171(10):5281-5289.;Clewell DB,Weaver KE.(1989)Sex pheromones and plasmid transfer inEnterococcus faecalis.Plasmid.21(3):175-84.;Kohler V,Vaishampayan A,GrohmannE.(2018)Broad-host-range Inc18 plasmids:Occurrence,spread and transfermechanisms.Plasmid.99:11-21.;Andreas Schlüter,Patrice Nordmann,Rémy A.Bonnin,Yves Millemann,Felix.Eikmeyer,Daniel Wibberg,Alfred Pühler,Laurent Poirel.(2014)IncH-Type Plasmid Harboring blaCTX-M-15,blaDHA-1,and qnrB4 Genes Recoveredfrom Animal Isolates.Antimicrobial Agents and Chemotherapy 58(7):3768-3773。出于所有目的,这些参考的全部内容整体援引加入本文。
在实施方案中,转移起点来自移动元件。在实施方案中,移动元件来自接合转座子。在实施方案中,接合转座子是来自粪肠球菌(Enterococcus faecalis)的Tn916或来自类杆菌(Bacteroides)的CTnDOT。在实施方案中,接合转座子是来自粪肠球菌的Tn916。在实施方案中,接合转座子是来自类杆菌的CTnDOT。在实施方案中,移动元件来自整合接合元件。在实施方案中,移动元件是来自霍乱弧菌(Vibrio cholerae)的来自SXT或来自雷氏普罗威登斯菌(Providencia rettgeri)的R391。在实施方案中,移动元件是来自霍乱弧菌的来自SXT。在实施方案中,移动元件是来自雷氏普罗威登斯菌的R391。在以下参考文献中更详细描述该元件:Rice L.B.(1998).Tn916 family conjugative transposons anddissemination of antimicrobial resistance determinants.Antimicrobial agentsand chemotherapy,42(8),1871–1877.;Cheng Q,Paszkiet BJ,Shoemaker NB,GardnerJF,Salyers AA.(2000)Integration and excision of a Bacteroides conjugativetransposon,CTnDOT.J Bacteriol.182(14):4035-43.;Bianca Hochhut and MatthewK.Waldor.(1999)Site-specific integration of the conjugal Vibrio cholerae SXTelement into prfC.Mol.Microbiology.32(1):99-110.;D,MacMahon C,PembrokeJT,Strike P,Osborn AM.R391:a conjugative integrating mosaic comprised ofphage,plasmid,and transposon elements.J Bacteriol.2002;184(18):5158-5169.,每篇参考文献整体援引加入本文。
在实施方案中,供体质粒包括条件复制起点。在实施方案中,条件复制子是R6K-pir、RSF1010 oriV-RepA/B/C、ColE2 P9–RepA、RP4 oriV-trfA、pPS10 oriV-RepA、pSC101ori-RepCTS.、RK2 oriV、噬菌体P1 ori、质粒pSC101复制起点、噬菌体λori、pBR322质粒、pSU739质粒或pSU300质粒。在实施方案中,条件复制子是R6K-pir。在实施方案中,条件复制子是RSF1010 oriV-RepA/B/C。在实施方案中,条件复制子是ColE2 P9–RepA。在实施方案中,条件复制子是RP4 oriV-trfA。在实施方案中,条件复制子是pPS10 oriV-RepA。在实施方案中,条件复制子是pSC101 ori–RepCTS。在实施方案中,条件复制子是RK2 oriV。在实施方案中,条件复制子是噬菌体P1 ori。在实施方案中,条件复制子是质粒pSC101复制起点。在实施方案中,条件复制子是噬菌体λori。在实施方案中,条件复制子是pBR322质粒。在实施方案中,条件复制子是pSU739质粒。在实施方案中,条件复制子是pSU300质粒。在以下参考文献中描述了质粒:Metcalf WW,Jiang W,Daniels LL,Kim SK,Haldimann A,WannerBL.(1996)Conditionally replicative and conjugative plasmids carrying lacZalpha for cloning,mutagenesis,and allele replacement in bacteria.Plasmid.35(1):1-13.;Scherzinger E,Bagdasarian MM,Scholz P,Lurz R,Rückert B,BagdasarianM.(1984)Replication of the broad host range plasmid RSF1010:requirement forthree plasmid-encoded proteins.Proc Natl Acad Sci U S A.81(3):654-8.;ColE2-P9:Yagura M,Nishio SY,Kurozumi H,Wang CF,Itoh T.(2006)Anatomy of thereplication origin of plasmid ColE2-P9.J Bacteriol.188(3):999-1010.;Ayres EK,Thomson VJ,Merino G,Balderes D,Figurski DH.Precise deletions in largebacterial genomes by vector-mediated excision(VEX).(1993)The trfA gene ofpromiscuous plasmid RK2 is essential for replication in several gram-negativehosts.J Mol Biol.5;230(1):174-85.;Maestro B,Sanz JM,Díaz-Orejas R,Fernández-Tresguerres E.(2003)Modulation of pPS10host range by plasmid-encoded RepAinitiator protein.J Bacteriol.185(4):1367-75.;Hashimoto-Gotoh,T.,&Sekiguchi,M.(1977).Mutations of temperature sensitivity in R plasmid pSC101.Journal ofbacteriology,131(2),405–412.;Ayres EK,Thomson VJ,Merino G,Balderes D,FigurskiDH.Precise deletions in large bacterial genomes by vector-mediated excision(VEX).(1993)The trfA gene of promiscuous plasmid RK2 is essential forreplication in several gram-negative hosts.J Mol Biol.5;230(1):174-85.StenzelTT,Patel P,Bastia D.(1987)The integration host factor of Escherichia colibinds to bent DNA at the origin of replication of the plasmid pSC101.Cell.5;49(5):709-17.;Sugiura S,Ohkubo S,Yamaguchi K.(1993)Minimal essential originof plasmid pSC101 replication:requirement of a region downstream of iterons.JBacteriol.175(18):5993-6001.;Pal SK,Mason RJ,Chattoraj DK.(1986)P1 plasmidreplication.Role of initiator titration in copy number control.J Mol Biol.20;192(2):275-85.;LeBowitz JH,McMacken R.(1984)The bacteriophage lambda O and Pprotein initiators promote the replication of single-stranded DNA.NucleicAcids Res.12(7):3069-3088.;Grindley ND,Kelley WS.(1976)Effects of differentalleles of the E.coli K12 pol A gene on the replication of non-transferringplasmids.Mol Gen Genet.2;143(3):311-8.;Francia,M.V.,&García Lobo,J.M.(1996).Gene integration in the Escherichia coli chromosome mediated by Tn21integrase(Int21).Journal of bacteriology,178(3),894–898.;Mendiola MV,de laCruz F.(1989)Specificity of insertion of IS91,an insertion sequence presentin alpha-haemolysin plasmids ofEscherichia coli.Mol Microbiol.3(7):979-84。所述参考文献整体加入本文。
在实施方案中,条件复制起点依赖于寡核苷酸的存在。在实施方案中,寡核苷酸编码pir1、pir1-116、repA/repB/repC(RSF1010复制子)、repA(ColE2-P9复制子)、trfA(RP4复制子)、RepA(pSP10复制子)、RepCTS(pSC101复制子)或其组合。在实施方案中,寡核苷酸编码pir1。在实施方案中,寡核苷酸编码pir1-116。在实施方案中,寡核苷酸编码repA/repB/repC(RSF1010复制子)。在实施方案中,寡核苷酸编码repA(ColE2-P9复制子)。在实施方案中,寡核苷酸编码trfA(RP4复制子)。在实施方案中,寡核苷酸编码RepA(pSP10复制子)。在实施方案中,寡核苷酸编码RepCTS(pSC101复制子)。
在实施方案中,条件复制起点依赖于细胞生长的条件。在实施方案中,所述条件是温度。
对于本文提供的方法,在实施方案中,供体质粒或受体寡核苷酸包括复制子,所述复制子可以复制长度从20或30千碱基的质粒。
对于本文提供的方法,在实施方案中,供体质粒或受体寡核苷酸包括复制子,复制子可以复制长度超过30千碱基的质粒。在实施方案中,复制子可以复制长度为约30千碱基至约500千碱基的质粒。在实施方案中,复制子可以复制长度为约30千碱基的质粒。在实施方案中,复制子可以复制长度为约50千碱基的质粒。在实施方案中,复制子可以复制长度为约70千碱基的质粒。在实施方案中,复制子可以复制长度为约90千碱基的质粒。在实施方案中,复制子可以复制长度为约100千碱基的质粒。在实施方案中,复制子可以复制长度为约120千碱基的质粒。在实施方案中,复制子可以复制长度为约140千碱基的质粒。在实施方案中,复制子可以复制长度为约160千碱基的质粒。在实施方案中,复制子可以复制长度为约180千碱基的质粒。在实施方案中,复制子可以复制长度为约200千碱基的质粒。在实施方案中,复制子可以复制长度为约220千碱基的质粒。在实施方案中,复制子可以复制长度为约240千碱基的质粒。在实施方案中,复制子可以复制长度为约260千碱基的质粒。在实施方案中,复制子可以复制长度为约280千碱基的质粒。在实施方案中,复制子可以复制长度为约300千碱基的质粒。在实施方案中,复制子可以复制长度为约400千碱基的质粒。在实施方案中,复制子可以复制长度为约500千碱基的质粒。长度可以是指定范围内任意值或子范围,包括端点。
在实施方案中,复制子来自P1-衍生的人工染色体或细菌人工染色体。在实施方案中,复制子来自P1-衍生的人工染色体。在实施方案中,复制子来自细菌人工染色体。在实施方案中,供体质粒或受体寡核苷酸包括可诱导的高拷贝复制起点。在实施方案中,供体质粒包括可诱导的高拷贝复制起点。在实施方案中,受体寡核苷酸包括可诱导的高拷贝复制起点。
在实施方案中,供体质粒或受体寡核苷酸是酵母人工染色体(YAC)、哺乳动物人工染色体(MAC)、人类人工染色体(HAC)或植物人工染色体。在实施方案中,供体质粒是酵母人工染色体(YAC)。在实施方案中,供体质粒是哺乳动物人工染色体(MAC)。在实施方案中,供体质粒是人类人工染色体(HAC)。在实施方案中,供体质粒是植物人工染色体。在实施方案中,受体寡核苷酸是酵母人工染色体(YAC)。在实施方案中,受体寡核苷酸是哺乳动物人工染色体(MAC)。在实施方案中,受体寡核苷酸是人类人工染色体(HAC)。在实施方案中,受体寡核苷酸是植物人工染色体。
在实施方案中,供体质粒或受体寡核苷酸包含适合接合的载体,其可以是病毒载体。在实施方案中,供体质粒是病毒载体。在实施方案中,受体寡核苷酸是病毒载体。在实施方案中,病毒载体是逆转录病毒。在实施方案中,病毒载体是慢病毒。在实施方案中,病毒载体是腺病毒。在实施方案中,病毒载体是腺相关病毒。在实施方案中,病毒载体是烟草花叶病毒。在实施方案中,病毒载体是杆状病毒。在实施方案中,病毒载体单纯疱疹病毒。在实施方案中,病毒载体痘病毒。在实施方案中,病毒载体γ逆转录病毒。在实施方案中,病毒载体是仙台病毒。
如本文所用,术语“对照”或“对照实验”根据其显见的普通含义使用,是指除省略实验的程序、试剂或变量外,如平行实验中一样处理实验的受试者或试剂的实验。在一些实例中,用对照作为评估实验效果的比较标准。
“对照”样品或值是指作为参考的样品,通常是已知参考,用于与测试样品比较。例如,可以从测试条件(例如存在测试化合物)下获取测试样品,并与已知条件的样品比较,已知条件例如不存在测试化合物(阴性对照)或者存在已知化合物(阳性对照)。对照也可以代表从多次测试或结果中收集的平均值。本领域技术人员会认识到,可以为评估任何数量的参数而设计对照。例如,可以设计对照来比较基于药理学数据(例如,半衰期)的治疗益处或治疗手段(例如,副作用比较)。本领域技术人员会理解,在给定情况下对照是有价值的,并且能够基于与对照值比较来分析数据。对照度对确定数据重要性也是有价值的。例如,如果对于给定的参数的值在对照中变化很大,那么在测试样品中的变化将不会被认为是显著的。
如本文所用,术语“接触”根据其显见的普通含义使用,是指与允许至少两个不同事物(species)(例如化学化合物,包括生物分子或细胞)变得足够接近以反应、相互作用或物理接触的过程。然而,应当理解,所得到的反应产物可以直接从添加的试剂之间的反应产生,或者从可在反应混合物中产生的来自一种或多种添加的试剂的中间体产生。
术语“表达”包括任何涉及产生多肽的步骤,包括但不限于转录、转录后修饰、翻译、翻译后修饰和分泌。可以使用检测蛋白的常规技术来检测表达(例如,ELISA、Westernblotting、流式细胞术、免疫荧光、免疫组织化学等)。
当关于例如,细胞、核酸、蛋白或载体使用时,术语“重组”表示细胞、核酸、蛋白或载体已经提高引入异源核酸或蛋白或改变天然核酸或蛋白而被修饰,或细胞是来源于如此修饰的细胞。因此,例如,重组细胞表达在该细胞天然(非重组)形式中找不到的基因,或者表达以其他方式异常表达、表达不足或不表达的天然基因。转基因细胞和植物是那些表达异源基因或编码序列的细胞和植物,通常情况下作为重组方法的结果。
如本文所用,术语“转移起点”或“oriT”是指在细菌接合过程中,从细菌宿主和受体转移DNA所必需的短序列(最多500bp)。
如本文所用,“可矫正的复制起点”是指当细胞在存在某些化学物质或环境条件下生长时不复制的复制起点。在这些条件下,含有可矫正的复制起点的质粒从细胞中丢失。例如,pSC101 oriTS在高温下不起作用并且丢失。
如本文所用,术语“移动元件”是一类可以在基因组内移动,或者可以在基因组之间,甚至在物种之间转移的遗传物质。
如本文所用,术语“接合转座子”是指能自身切割以形成共价闭合环状中间体的整合的DNA元件,可以在相同细胞内重整合或通过结合转移到受体细胞。
如本文所用,术语“整合接合元件”是指一组染色体整合的、可自我传递的遗传元件。
如本文所用,术语“P1-衍生的人工染色体”是指起源于P1噬菌体的DNA构建体。
如本文所用,术语“细菌人工染色体”是指用于将DNA序列克隆至细菌中的工程DNA序列。
术语“重组介导的遗传工程基因”或“重组工程基因”是指协助在DNA序列中创造基因修饰的基因。在一些实例中,重组介导的遗传工程基因允许在没有体外基因工程技术下,细胞(例如细菌细胞)中构建体的体内构建。在一些实例中,重组介导的遗传工程基因允许在没有引入酶(包括连接酶和限制性酶)的情况下发生基因修饰。例如,在没有本领域已知的传统分子生物学技术存在下,基因可以涉及细菌的同源重组的天然过程。在实施方案中,重组工程基因是λred基因。重组工程基因是Redα、Redβ和Redγ。例如,基因可以在细菌中高效率诱导同源重组。在供体细胞或受体细胞中,一种或多种重组工程基因的表达可以是可诱导的。在实施方案中,供体细胞或受体细胞包括编码一种或多种重组介导的遗传工程基因的寡核苷酸。在实施方案中,编码一种或多种重组介导的遗传工程基因的寡核苷酸位于供体细胞质粒中。在实施方案中,重组介导的遗传工程基因是可诱导的。在实施方案中,重组介导的遗传工程基因是Redα、Redβ和Redγ。在实施方案中,编码一种或多种同源DNA修复基因的寡核苷酸位于受体细胞基因组中。在实施方案中,编码一种或多种同源DNA修复基因的寡核苷酸位于辅助质粒中。在实施方案中,编码一种或多种同源DNA修复基因的寡核苷酸位于受体寡核苷酸中,受体寡核苷酸可以是以质粒的形式。在实施方案中,编码一种或多种同源DNA修复基因的寡核苷酸位于受体细胞基因组中。
如本文所用,术语“可诱导的高拷贝复制起点”是指含有大量复制起点(例如,在大肠杆菌质粒pUC中,拷贝数在150-200之间)的质粒或载体,复制起点可由环境条件诱导(例如温度变化)。
如本文所用,术语“辅助质粒”是含有细菌执行指定功能所必需的基因或其他DNA元件的质粒。辅助质粒可以含有核酸内切酶、将外来DNA转移至基因组的元件、将质粒转移另一个细胞的元件或进行同源重组的元件。在实施方案中,辅助质粒是来自根癌农杆菌(Agrobacterium tumefaciens)的IncF1质粒、IncPɑ质粒、IncI1质粒、pTiC58,来自链霉菌(Streptomyces)的cAD1质粒、Inc18质粒、pIJ101,或IncH质粒。在实施方案中,辅助质粒是IncF1质粒。在实施方案中,辅助质粒是IncPɑ质粒。在实施方案中,辅助质粒是IncI1质粒。在实施方案中,辅助质粒是来自根癌农杆菌的pTiC58。在实施方案中,辅助质粒是cAD1质粒。在实施方案中,辅助质粒是Inc18质粒。在实施方案中,辅助质粒是来自链霉菌的pIJ101。在实施方案中,辅助质粒是IncH质粒。在实施方案中,辅助质粒缺乏功能性转移起点。在实施方案中,辅助质粒包括选择标记,选择标记就供体细胞中辅助质粒的保留进行选择。
如本文所用,术语“归巢核酸内切酶”是指作为内含子序列中的独立基因编码,作为与宿主蛋白融合编码,或者作为自剪切蛋白编码的核酸内切酶。与Group II限制酶相比,归巢核酸内切酶催化在更长的识别位点上的DNA水解。归巢核酸内切酶的实例包括但不限于LAGLIDAG、GIY-YIG、His-Cys box、H-N-H、PD-(D/E)xK和Vsr-like/EDxHD。在实施方案中,归巢核酸内切酶是I-ScaI、PI-SceI、I-AniI、I-CeuI、I-ChuI、I-CpaI、I-CpaII、I-CreI、I-DmoI、H-DreI、I-HmuI、I-HmuII、I-LlaI、I-MsoI、PI-PfuI、PI-PkoII、I-PorI、I-PpoI、PI-PspI、I-SceI、I-SceII、I-SceIII、I-SceIV、I-SceV、I-SceVI、I-SceVII、I-Ssp6803I、I-TevI、I-TevII、I-TevIII、PI-TliI、PI-TliII、I-Tsp061I或I-Vdi141I。在实施方案中,归巢核酸内切酶是I-ScaI。在实施方案中,归巢核酸内切酶是PI-SceI。在实施方案中,归巢核酸内切酶是I-AniI。在实施方案中,归巢核酸内切酶是I-CeuI。在实施方案中,归巢核酸内切酶是I-ChuI。在实施方案中,归巢核酸内切酶是I-CpaI。在实施方案中,归巢核酸内切酶是I-CpaII。在实施方案中,归巢核酸内切酶是I-CreI。在实施方案中,归巢核酸内切酶是I-DmoI。在实施方案中,归巢核酸内切酶是H-DreI。在实施方案中,归巢核酸内切酶是I-HmuI。在实施方案中,归巢核酸内切酶是I-HmuII。在实施方案中,归巢核酸内切酶是I-LlaI。在实施方案中,归巢核酸内切酶是I-MsoI。在实施方案中,归巢核酸内切酶是PI-PfuI。在实施方案中,归巢核酸内切酶是PI-PkoII。在实施方案中,归巢核酸内切酶是I-PorI。在实施方案中,归巢核酸内切酶是I-PpoI。在实施方案中,归巢核酸内切酶是PI-PspI。在实施方案中,归巢核酸内切酶是I-SceI。在实施方案中,归巢核酸内切酶是I-SceII。在实施方案中,归巢核酸内切酶是I-SceIII。在实施方案中,归巢核酸内切酶是I-SceIV。在实施方案中,归巢核酸内切酶是I-SceV。在实施方案中,归巢核酸内切酶是I-SceVI。在实施方案中,归巢核酸内切酶是I-SceVII。在实施方案中,归巢核酸内切酶是I-Ssp6803I。在实施方案中,归巢核酸内切酶是I-TevI。在实施方案中,归巢核酸内切酶是I-TevII。在实施方案中,归巢核酸内切酶是I-TevIII。在实施方案中,归巢核酸内切酶是PI-TliI。在实施方案中,归巢核酸内切酶是PI-TliII。在实施方案中,归巢核酸内切酶是I-Tsp061I或I-Vdi141I。在实施方案中,归巢核酸内切酶是I-Vdi141I。
如本文所用,术语“RNA引导的DNA核酸内切酶”是指由辅助或向导RNA分子引导至靶DNA序列的任何DNA核酸内切酶。RNA引导的DNA核酸内切酶的实例包括但不限于Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas6、Cas7、Cas8、Cas9(也称为Csn1和Csx12)、Cas10、Cas12、Cas13、Csy1、Csy2、Csy3、Cse1、Cse2、Csc1、Csc2、Csa5、Csn2、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、Csx10、Csx16、CsaX、Csx3、Csx1、Csx15、Csf1、Csf2、Csf3和Csf4、其所有变体和同系物。
如本文所用,术语“HO”或“交配型转换核酸内切酶”是指在酿酒酵母(Saccharomyces cerevisiae)中负责启动交配型转换的锌指核酸酶。
如本文所用,“细胞”是指执行新陈代谢或其他足以保存或复制其基因组DNA的功能的细胞。可以通过本领域熟知的方法鉴定细胞,包括,例如,完整膜的存在、特定染料染色、产生后代的能力,或在配子的情况下能与第二配子结合以产生可存活后代的能力。细胞可以包括原核和真核细胞。原核细胞包括但不限于细菌。真核细胞包括但不限于酵母细胞和来源于植物和动物的细胞,例如哺乳动物、昆虫(例如,鞘翅目)和人细胞。当细胞天然地无附着性或者经处理(例如通过胰蛋白酶消化)不黏附于表面时,细胞可以是有用的。
如本文所用,“供体细胞”是指将遗传物质转移至另一个细胞(例如细菌细胞、植物细胞等)的细胞(例如细菌细胞)。在本文中,接受转移的遗传物质的细胞称为“受体细胞”。
如本文所用,术语“供体质粒”是指来自供体细胞(例如细菌细胞)的DNA,包括从供体细胞转移至受体细胞(例如细菌细胞、酵母细胞、植物细胞等)的寡核苷酸序列(例如供体DNA、包括DNA元件或其片段的寡核苷酸)。通常情况下,供体质粒是与基因组DNA分离的环状双链DNA。因此,术语“受体寡核苷酸”可以是指接受供体DNA(例如将供体DNA通过同源重组到受体中)的受体细胞中的质粒DNA;或者术语“受体寡核苷酸”可以是指接受供体DNA的受体细胞中的任何寡核苷酸,例如受体细胞的基因组DNA。在实施方案中,来自受体质粒的DNA以外的DNA接受来自供体质粒的DNA。因此,在实施方案中,供体DNA可以被整合至基因组DNA。
当应用于核酸或蛋白时,术语“分离的”指示核酸或蛋白基本上不含有在天然状态下与之相关的其他细胞组分。例如,它可以是均质状态并且可以是干燥物或者水溶液。通常情况下,使用分析化学技术(例如聚丙烯酰胺凝胶电泳或高效液相色谱法)来确定纯度和均质性。作为制剂中存在的主要种类的蛋白是基本上纯的。
应当理解,本文描述的实例和实施方案仅用于说明性目的,并且根据其各种修改或改变向本领域技术人员建议,并且将包括在本申请的精神和所附权利要求的范围内。出于所有目的,本文所引用的所有出版物、专利和专利申请在此整体援引加入本文。
在本文描述的方法的一些实施方案中,供体细胞或受体细胞包括编码一种或多种同源DNA修复基因的寡核苷酸。在实施方案中,编码一种或多种同源DNA修复基因的寡核苷酸位于第一、第二或后续供体质粒。在实施方案中,同源DNA修复基因表达是可诱导的。在实施方案中,同源DNA修复基因是RecA。
在本文描述的方法的一些实施方案中,供体细胞或受体细胞包括编码一种或多种重组介导的遗传工程基因的寡核苷酸。在实施方案中,编码一种或多种重组介导的遗传工程基因位于供体细胞质粒。
在本文描述的方法的一些实施方案中,重组介导的遗传工程基因是可诱导的。在实施方案中,重组介导的遗传工程基因是Redα、Redβ和Redγ。在实施方案中,编码一种或多种同源DNA修复基因的寡核苷酸位于受体细胞基因组。在实施方案中,编码一种或多种同源DNA修复基因的寡核苷酸位于辅助质粒。在实施方案中,编码一种或多种同源DNA修复基因的寡核苷酸位于受体寡核苷酸,受体寡核苷酸可以是以质粒形式。在实施方案中,编码一种或多种同源DNA修复基因寡核苷酸位于受体细胞基因组。
在本文描述的方法的一些实施方案中,供体细胞、受体细胞或重组受体细胞可以位于有序阵列、或者位于第一或第二有序阵列。在实施方案中,供体细胞、受体细胞或重组受体细胞可以转移至第三有序阵列、第四有序阵列或者后续有序阵列上的位置。
在本文描述的方法的一些实施方案中,供体细胞和受体细胞是细菌细胞。在实施方案中,受体细胞不是细菌细胞。在实施方案中,受体细胞是植物细胞。在实施方案中,受体细胞是酵母细胞。在实施方案中,受体细胞是哺乳动物细胞。
II.组装DNA元件的方法
本发明提供一种在受体细胞中将多个DNA元件组装成组装的DNA元件的方法,所述方法包括:(a)使包含第一供体质粒的第一供体细胞与包含受体寡核苷酸的受体细胞在以下条件下接触:(i)通过接合,使第一供体质粒从第一供体细胞转移至受体细胞,以及(ii)通过同源重组,在受体细胞中使第一供体质粒和受体寡核苷酸重组,其中第一供体质粒依次包含:任选存在的第一核酸内切酶位点(C1)、第一同源重组区(HR1)、包含第一DNA元件片段(oligo1)的第一寡核苷酸、包含两个同源重组区(HR2.1、HR2.2)的第二同源重组区(HR2)和任选存在的第三核酸内切酶位点(C3);受体寡核苷酸包含与HR1同源的第三同源重组区(HR3),以及与HR2.2同源的第四同源重组区(HR4);从而在HR1与HR3以及HR2.2与HR4同源重组之后,提供包含第一DNA元件片段的第一重组受体寡核苷酸;(b)使包含第二供体质粒的第二供体细胞与包含第一重组受体寡核苷酸的受体细胞在以下条件下接触:(i)通过接合,将第二供体质粒从第二供体细胞转移至第一受体细胞,以及(ii)通过同源重组,在受体细胞中使第二供体质粒和第一重组受体寡核苷酸重组,以形成第二重组受体寡核苷酸,其中第二供体质粒依次包含:任选存在的第五核酸内切酶位点(C5)、与HR2.1同源的第五同源重组区(HR5)、编码第二DNA元件片段(oligo2)的第二寡核苷酸、包含两个同源重组区(HR6.1、HR6.2)的第六同源重组区(HR6)和任选存在的第六核酸内切酶位点(C6);从而在HR5与HR2.1以及HR6.2与HR4同源重组之后,提供包含第一和第二DNA元件片段(oligo1、oligo2)的第二重组受体寡核苷酸,第一和第二DNA元件片段形成DNA组装物。在实施方案中,HR2.1和HR2.2位于包含一个(C2)或两个核酸内切酶位点(C2.1、C2.2)的非同源区两侧;任选地,其中HR3和HR4位于包含一个(C4)或两个核酸内切酶位点(C4.1、C4.2)的非同源区两侧。在实施方案中,HR6.1和HR6.2位于包含一个(C7)或两个核酸内切酶位点(C7.1、C7.2)的非同源区两侧。在实施方案中,受体寡核苷酸位于受体细胞质粒或受体细胞基因组中。在实施方案中,DNA组装物包含基因、启动子、增强子、终止子、内含子、基因间区域、条形码、向导RNA(gRNA)或其组合的至少一部分。在实施方案中,用第三或后续供体细胞重复步骤(b)一次或多次重复,第三或后续供体细胞包含第三或后续供体质粒,第三或后续供体质粒包含相容的HR区域和编码第三或后续DNA元件片段(oligo3、oligo4…oligoN)的第三或后续寡核苷酸,从而形成包含第一、第二和第三或后续DNA元件片段的第三或后续重组受体寡核苷酸,所述第一、第二和第三或后续DNA元件片段一起形成DNA组装物。在实施方案中,步骤(a)包括多个第一供体细胞,每个细胞包含不同的第一供体质粒;以及步骤(b)包括多个第二、第三或后续供体细胞,每个细胞包含不同的第二、第三或后续供体质粒;任选地,其中每个第一供体细胞位于第一有序阵列以及每个第二、第三或后续供体细胞位于第二、第三或后续有序阵列;任选地,其中所述方法产生组合文库,所述组合文库包含多个不同的组装的DNA元件。
在实施方案中,包含形成部分组装的DNA元件的最后DNA元件的供体质粒包含条形码同源重组(BHR)区域以产生受体细胞,每个受体细胞含有重组受体寡核苷酸,重组受体寡核苷酸包含组装的DNA元件、BHR和进一步的HR;并且方法进一步包括:(i)构建或获取条形码供体细胞阵列,每个细胞含有条形码供体质粒,条形码供体质粒包含与BHR同源的HR、独特的条形码寡核苷酸和与重组受体寡核苷酸的进一步的HR同源的第二HR;(ii)使条形码供体细胞阵列在以下条件下与受体细胞阵列接触:(a)通过接合,使条形码供体质粒从条形码供体细胞转移至受体细胞,以及(b)通过同源重组,在受体细胞中使条形码供体质粒和受体寡核苷酸重组,从而产生包含条形码化的组装物的受体细胞阵列。
在实施方案中,每个供体质粒包含进一步的独特的核酸内切酶位点CX、CY对,其位于条形码同源重组区(BHR)两侧,并且所述方法进一步包括使受体细胞阵列与条形码供体细胞阵列接触,以产生包含条形码化的组装物的受体细胞阵列,每个受体细胞包含DNA组装物,每个条形码供体细胞含有条形码供体质粒,条形码供体质粒包含一对HR区域,HR区与位于独特的条形码寡核苷酸两侧的BHR同源。
在实施方案中,DNA组装物方法可以进一步包括使包含重置供体质粒的重置供体细胞与包含重组受体寡核苷酸的受体细胞接触,其中重置供体质粒依次包含,与DNA组装物的末端序列同源的同源重组区(HRt)、重置核酸内切酶位点、选择标记、重置核酸内切酶位点、同源重组区(HRX)以及转移起点,其中重组受体寡核苷酸依次包含,重置核酸内切酶位点、DNA组装物、与HRX同源的同源重组区(HRXa)以及重置核酸内切酶位点,从而在HRt与DNA组装物的末端序列之间以及HRX和HRXa之间的同源重组之后,提供包含转移起点和DNA组装物的重置质粒。在实施方案中,重置质粒在供体细胞中。在实施方案中,重置质粒含有限制复制起点,限制复制起点在供体细胞和受体细胞中均起作用。在实施方案中,通过包括以下的方法构建重置供体质粒,引入寡核苷酸插入物,所述寡核苷酸插入包含位于两个核酸内切酶位点(C1、C2)和反选择标记(CM)两侧的同源重组区HRt、HRX,HRt-C1-CM-C2-HRX;或者引入这种寡核苷酸插入物的文库;允许核酸内切酶切割核酸内切酶位点,并使用同源重组在切割位点引入反选择标记。
本发明还提供一种将条形码与寡核苷酸缀合的方法,方法包括:(a)将寡核苷酸混合物的每个寡核苷酸插入至供体质粒中,每个供体质粒依次包含,任选存在的第一核酸内切酶位点(C1)、第一同源重组区(HR1)、第二同源重组区(HR2)和任选存在的第二核酸内切酶位点(C2);其中每个寡核苷酸插入到HR1和HR2之间,从而提供多个包含供体寡核苷酸的供体质粒,每个供体质粒包含来自寡核苷酸混合物的单个供体寡核苷酸:C1-HR1-oligo-HR2-C2;(b)用多个供体质粒转化多个细胞,使得每个细胞包含供体质粒,从而形成多个供体细胞;(c)铺板并培养所述多个供体细胞,每个供体细胞位于第一有序阵列上的独特位置,从而提供供体细胞的第一有序阵列;(d)在第二有序阵列中提供多个受体细胞,其中每个受体细胞包含受体寡核苷酸,所述受体寡核苷酸依次包含独特的条形码序列、与HR1同源的第三同源重组区(HR3)、任选存在的第三核酸内切酶位点(C3)和与HR2同源的第四同源重组区(HR4),其中独特的条形码序列表明在第二有序阵列中受体细胞的位置;(e)使供体细胞的第一有序阵列与受体细胞的第二有序阵列在以下条件下接触:(i)通过接合,使供体质粒从供体细胞转移至在阵列上相应位置的受体细胞,(ii)任选地,切割所述第一、第二和第三核酸内切酶位点,以及(ii)通过同源重组,使寡核苷酸从供体质粒转移至受体细胞寡核苷酸,从而形成融合寡核苷酸的第三阵列,每个融合寡核苷酸包含独特的条形码序列和来自寡核苷酸混合物的供体寡核苷酸;以及(f)任选地,测序融合寡核苷酸,并且从而通过其条形码序列来鉴定阵列中的每个寡核苷酸;在实施方案中,受体寡核苷酸位于受体细胞质粒或受体细胞基因组中。在实施方案中,供体质粒包含在HR1和HR2之间的选择标记,选择标记就所述寡核苷酸整合到受体细胞寡核苷酸中进行选择;任选地,其中供体质粒包含反选择标记。实施方案中,受体细胞寡核苷酸包含第四核酸内切酶位点(C4)。
在进一步方面,提供一种组装DNA元件的方法。所述方法包括(a)提供包含第一供体质粒的第一宿主细胞,所述第一供体质粒依次包括:(i)第一核酸内切酶靶位点、(ii)第一同源重组区、(iii)任选存在的包括第一DNA元件片段的第一寡核苷酸、(iv)第二同源重组区、(v)第二核酸内切酶靶位点、(vi)以及第三核酸内切酶靶位点,(b)提供包含受体寡核苷酸的受体细胞,其中受体寡核苷酸包括(i)第三同源区,其中第三同源重组区域与第一同源重组区同源,(ii)第四核酸内切酶靶位点,以及(iii)第四同源区,其中第四同源重组区与第二同源重组区同源;以及(c)使受体细胞与第一宿主细胞在以下条件下接触:(i)通过细菌接合,使第一供体质粒从第一宿主细胞转移至受体细胞;(ii)引导第一核酸内切酶至第一核酸内切酶靶位点、第三核酸内切酶靶位点或第四核酸内切酶靶位点的至少一个,从而在第一供体质粒和受体寡核苷酸中产生双链断裂,以及(iii)通过经由第一和第二同源重组区与第三和第四相应的同源重组区的同源重组,在受体细胞中使第一供体质粒和受体寡核苷酸重组,从而形成重组受体寡核苷酸。所述方法可以进一步包括:(d)提供包括第二供体质粒的第二宿主细胞,所述第二供体质粒依次包括:(i)第五核酸内切酶靶位点、(ii)与第二同源区同源的第五同源重组区、(iii)包括第二DNA元件片段的第二寡核苷酸、(iv)与第四同源区同源的第六同源重组区,以及(v)第六核酸内切酶靶位点;(e)使含有重组受体寡核苷酸的受体细胞与第二宿主细胞在以下条件下接触:(i)通过细菌接合,使第二供体质粒从第二宿主细胞转移至受体细胞,(ii)表达第二核酸内切酶,(iii)引导第二核酸内切酶至第二核酸内切酶靶位点、第五核酸内切酶靶位点和/或第六核酸内切酶靶位点,从而产生双链断裂,(iv)通过经由第五和第六同源重组位点与相应的第二和第四同源重组位点的同源重组,在受体细胞中使第二供体质粒和重组受体寡核苷酸重组,从而形成包括组装的DNA元件的第二重组受体寡核苷酸。在实施方案中,和与第二同源重组区同源的第四同源区部分相比,第四同源区的不同部分与第六同源重组区同源。
在实施方案中,步骤(a)包括多个第一宿主细胞,其中每个细胞包括独特第一寡核苷酸。在实施方案中,步骤(d)包括多个第二宿主细胞,其中每个细胞包括独特第二寡核苷酸。在实施方案中,每个第一宿主细胞包括独特质粒。在实施方案中,每个第二宿主细胞包括独特质粒。在实施方案中,每个第一宿主细胞位于第一有序阵列。在实施方案中,多个第一宿主细胞位于第一有序阵列,从而在第一有序阵列中形成第一宿主细胞池。在实施方案中,每个第二宿主细胞位于第二有序阵列。在实施方案中,多个第二宿主细胞位于第二有序阵列,从而形成在第二有序阵列中每个位置的第二宿主细胞的池。
在实施方案中,第一供体细胞位于第一有序阵列,第二供体细胞位于第二有序阵列,一个或多个后续供体细胞位于一个或多个后续阵列。因此,在实施方案中,本文提供的的方法产生包括多个不同组装的DNA元件的变体文库。在实施方案中,通过以下产生变体文库:1)使用位于第一、第二或后续阵列的第一宿主细胞、第二宿主细胞或后续宿主细胞来独立地制作每个变体,2)使用位于第一、第二或后续阵列的多个第一宿主细胞、第二宿主细胞或后续宿主细胞来产生变体池。在实施方案中,使用位于第一、第二或后续阵列的第一宿主细胞、第二宿主细胞或后续宿主细胞,通过独立地制作每个变体来产生变体文库。在实施方案中,使用位于第一、第二或后续阵列的多个第一宿主细胞、第二宿主细胞或后续宿主细胞,通过产生变体池来产生变体文库。例如,对于本文提供的包括其实施方案的方法,第一DNA元件和/或第二DNA元件可以是DNA条形码或多个DNA条形码。在实施方案中,方法产生递归条形码平台。例如,在一些实施方案中,其中第一DNA元件和/或第二DNA元件是DNA条形码或多个DNA条形码,可以使用该方法追踪细胞系。
例如,第一DNA元件和/或DNA元件可以是gRNA或多个gRNA。因此,在实施方案中,方法包括组合gRNA文库产生。
在实施方案中,第一核酸内切酶靶向第一核酸内切酶靶位点。在实施方案中,第一核酸内切酶靶向第三核酸内切酶靶位点。在实施方案中,第一核酸内切酶靶向第四核酸内切酶靶位点。在实施方案中,第二核酸内切酶靶向第二核酸内切酶靶位点。在实施方案中,第二核酸内切酶靶向第五核酸内切酶靶位点。在实施方案中,第二核酸内切酶靶向第六核酸内切酶靶位点。
在实施方案中,DNA元件是基因。在实施方案中,DNA元件是启动子。在实施方案中,DNA元件是增强子。在实施方案中,DNA元件是终止子。在实施方案中,DNA元件是内含子。在实施方案中,DNA元件是基因间区域。在实施方案中,DNA元件是条形码。在实施方案中,DNA元件是翻译起始位点。在实施方案中,DNA元件是gRNA。在实施方案中,DNA元件是前述的任一者的片段。
在实施方案中,受体寡核苷酸是受体质粒。在实施方案中,受体寡核苷酸在受体细胞基因组中。
在实施方案中,第二供体质粒进一步包括第七同源重组区和位于(d)iii)和(d)iv)的组分之间的第七核酸内切酶靶位点。在实施方案中,第一核酸内切酶靶向第七核酸内切酶位点。
在实施方案中,供体质粒包括编码gRNA的寡核苷酸,以及受体细胞包括编码RNA-引导的DNA核酸内切酶的寡核苷酸。在实施方案中,供体质粒包括编码gRNA的寡核苷酸,以及其中受体细胞基因组包括编码RNA-引导的DNA核酸内切酶的寡核苷酸。在实施方案中,供体质粒包括编码gRNA的寡核苷酸,以及受体质粒包括编码RNA-引导的DNA核酸内切酶的寡核苷酸。在实施方案中,供体质粒包括编码gRNA的寡核苷酸,以及受体辅助质粒包括编码RNA-引导的DNA核酸内切酶的寡核苷酸。在实施方案中,供体质粒包括编码gRNA的寡核苷酸,以及供体质粒包括编码可诱导的RNA-引导的DNA核酸内切酶的寡核苷酸。在实施方案中,供体质粒包括编码gRNA的寡核苷酸,以及受体基因组包括编码可诱导的RNA-引导的DNA核酸内切酶的寡核苷酸。在实施方案中,供体质粒包括编码gRNA的寡核苷酸,以及受体质粒包括编码可诱导的RNA-引导的DNA核酸内切酶的寡核苷酸。在实施方案中,供体质粒包括编码gRNA的寡核苷酸,以及受体辅助质粒包括编码可诱导的RNA-引导的DNA核酸内切酶的寡核苷酸。
在实施方案中,受体细胞包括可诱导的gRNA。在实施方案中,供体细胞包括编码RNA-引导的DNA核酸内切酶的寡核苷酸。在实施方案中,受体细胞包括编码RNA-引导的DNA核酸内切酶的寡核苷酸。在实施方案中,RNA-引导的DNA的表达是组成型。在实施方案中,RNA-引导的DNA的表达是可诱导的。
在实施方案中,RNA-引导的DNA核酸内切酶是Cas9。在实施方案中,RNA-引导的DNA核酸内切酶是Cas10。在实施方案中,RNA-引导的DNA核酸内切酶是Cpf1。在实施方案中,RNA-引导的DNA核酸内切酶C2c1。在实施方案中,RNA-引导的DNA核酸内切酶是C2c2。在实施方案中,RNA-引导的DNA核酸内切酶是C2c3。在实施方案中,RNA-引导的DNA核酸内切酶是Cas12c1。在实施方案中,RNA-引导的DNA核酸内切酶是Cas12a。在实施方案中,RNA-引导的DNA核酸内切酶是Cas12b。在实施方案中,RNA-引导的DNA核酸内切酶是Cas12c2。在实施方案中,RNA-引导的DNA核酸内切酶是Cas12g。在实施方案中,RNA-引导的DNA核酸内切酶是Cas12e。在实施方案中,RNA-引导的DNA核酸内切酶是Cas12i1。在实施方案中,RNA-引导的DNA核酸内切酶是Cas12i2。
对于本文提供的方法,在实施方案中,编码第一核酸内切酶的寡核苷酸在供体质粒中。在实施方案中,编码第一核酸内切酶的寡核苷酸是受体寡核苷酸。在实施方案中,编码第一核酸内切酶的寡核苷酸在受体细胞辅助质粒中。在实施方案中,编码第一核酸内切酶的寡核苷酸在受体基因组中。在实施方案中,第一核酸内切酶的表达是可诱导的。在实施方案中,编码第二核酸内切酶的寡核苷酸在供体质粒中。在实施方案中,编码第二核酸内切酶的寡核苷酸在受体寡核苷酸中。实施方案中,编码第二核酸内切酶的寡核苷酸在受体细胞辅助质粒中。
在实施方案中,第一核酸内切酶和/或第二核酸内切酶是归巢核酸内切酶。在实施方案中,归巢核酸内切酶是I-ScaI、PI-SceI、I-AniI、I-CeuI、I-ChuI、I-CpaI、I-CpaII、I-CreI、I-DmoI、H-DreI、I-HmuI、I-HmuII、I-LlaI、I-MsoI、PI-PfuI、PI-PkoII、I-PorI、I-PpoI、PI-PspI、I-SceI、I-SceII、I-SceIII、I-SceIV、I-SceV、I-SceVI、I-SceVII、I-Ssp6803I、I-TevI、I-TevII、I-TevIII、PI-TliI、PI-TliII、I-Tsp061I或I-Vdi141I。在实施方案中,归巢核酸内切酶是I-ScaI。在实施方案中,归巢核酸内切酶是PI-SceI。在实施方案中,归巢核酸内切酶是I-AniI。在实施方案中,归巢核酸内切酶是I-CeuI。在实施方案中,归巢核酸内切酶是I-ChuI。在实施方案中,归巢核酸内切酶是I-CpaI。在实施方案中,归巢核酸内切酶是I-CpaII。在实施方案中,归巢核酸内切酶是I-CreI。在实施方案中,归巢核酸内切酶是I-DmoI。在实施方案中,归巢核酸内切酶是H-DreI。在实施方案中,归巢核酸内切酶是I-HmuI。在实施方案中,归巢核酸内切酶是I-HmuII。在实施方案中,归巢核酸内切酶是I-LlaI。在实施方案中,归巢核酸内切酶是I-MsoI。在实施方案中,归巢核酸内切酶是PI-PfuI。在实施方案中,归巢核酸内切酶是PI-PkoII。在实施方案中,归巢核酸内切酶是I-PorI。在实施方案中,归巢核酸内切酶是I-PpoI。在实施方案中,归巢核酸内切酶是PI-PspI。在实施方案中,归巢核酸内切酶是I-SceI。在实施方案中,归巢核酸内切酶是I-SceII。在实施方案中,归巢核酸内切酶是I-SceIII。在实施方案中,归巢核酸内切酶是I-SceIV。在实施方案中,归巢核酸内切酶是I-SceV。在实施方案中,归巢核酸内切酶是I-SceVI。在实施方案中,归巢核酸内切酶是I-SceVII。在实施方案中,归巢核酸内切酶是I-Ssp6803I。在实施方案中,归巢核酸内切酶是I-TevI。在实施方案中,归巢核酸内切酶是I-TevII.在实施方案中,归巢核酸内切酶是I-TevIII。在实施方案中,归巢核酸内切酶是PI-TliI。在实施方案中,归巢核酸内切酶是PI-TliII。在实施方案中,归巢核酸内切酶是I-Tsp061I或I-Vdi141I。在实施方案中,归巢核酸内切酶是I-Vdi141I。
在实施方案中,核酸内切酶是转录激活因子样效应物核酸酶。在实施方案中,核酸内切酶是锌指核酸酶。
对于本文提供的方法,在实施方案中,重复步骤(d)至(e)一次或多次重复,从而形成一个或多个后续组装的DNA元件。在实施方案中,第一、第二或后续供体质粒包括就第一寡核苷酸、第二寡核苷酸或后续寡核苷酸整合至受体细胞寡核苷酸进行选择的选择标记。在实施方案中,第一供体质粒包括就第一寡核苷酸整合至受体细胞寡核苷酸进行选择的选择标记。在实施方案中,第二供体质粒包括就第二寡核苷酸整合至受体细胞寡核苷酸进行选择的选择标记。在实施方案中,后续供体质粒包括就后续寡核苷酸整合至受体细胞寡核苷酸进行选择的选择标记。
在实施方案中,第一供体质粒包括就第一寡核苷酸整合至受体寡核苷酸进行选择的选择标记。在实施方案中,选择标记位于(a)(v)和(a)(iv)的组分之间。在实施方案中,第二供体质粒包括就第二寡核苷酸整合至受体寡核苷酸进行选择的选择标记。
在实施方案中,受体细胞寡核苷酸包括就第一寡核苷酸整合至受体细胞寡核苷酸进行选择的反选择标记。在实施方案中,重组受体细胞寡核苷酸包括就第二或后续寡核苷酸整合至重组受体细胞寡核苷酸进行选择的反选择标记。上文描述了本文描述的方法中使用的反选择标记。
在实施方案中,组装的DNA元件(也可以称为DNA组装物)是测序的。在实施方案中,受体寡核苷酸是测序的。在实施方案中,重组受体寡核苷酸是测序的。在实施方案中,重组受体寡核苷酸是质粒,并且将所述质粒线性化、连接至测序接头(sequencing adaptor)并测序。在实施方案中,通过PCR扩增组装的DNA元件并测序。在实施方案中,(a)裂解受体细胞,(b)用核酸内切酶或多个核酸内切酶消化寡核苷酸,(c)分离组装的DNA元件,以及(d)将组装的DNA元件或多个组装的基因连接至测序接头并测序。在实施方案中,分离组装的DNA元件。在实施方案中,分离重组受体寡核苷酸。
在实施方案中,组装的DNA元件的长度从约100个核苷酸至约500,000个核苷酸。长度可以是指定范围内的任意值或子范围,包括端点。
在实施方案中,组装的DNA元件的长度是从约100个核苷酸、约1000个核苷酸、约10,000个核苷酸、约20,000个核苷酸、约40,000个核苷酸、约60,000个核苷酸、约80,000个核苷酸、约100,000个核苷酸、约120,000个核苷酸、约140,000个核苷酸、约160,000个核苷酸、约180,000个核苷酸、约20,000个核苷酸、约240,000个核苷酸、约260,000个核苷酸、约280,000个核苷酸、约300,000个核苷酸、约320,000个核苷酸、约340,000个核苷酸、约360,000个核苷酸、约380,000个核苷酸、约400,000个核苷酸、约420,000个核苷酸、约440,000个核苷酸、约460,000个核苷酸、约480,000个核苷酸、或约500,000个核苷酸。长度可以是指定范围内的任意值或子范围,包括端点。
在实施方案中,第一、第二或后续同源区和相应的第一、第二或后续同源区的长度为约20个碱基对至约500个碱基对。长度可以是指定范围内的任意值或子范围,包括端点。
在实施方案中,第一、第二或后续同源区和相应的第一、第二或后续同源区的长度为约20个碱基对、40个碱基对、60个碱基对、80个碱基对、100个碱基对、120个碱基对、140个碱基对、160个碱基对、180个碱基对、200个碱基对、220个碱基对、240个碱基对、260个碱基对、280个碱基对、300个碱基对、320个碱基对、340个碱基对、360个碱基对、380个碱基对、400个碱基对、420个碱基对、440个碱基对、460个碱基对、480个碱基对、或500个碱基对。在实施方案中,第一、第二或后续同源区和相应的第一、第二或后续同源区的长度为约50个碱基对。长度可以是指定范围内的任意值或子范围,包括端点。
III.分析方法
在一方面,提供一种从寡核苷酸混合物中鉴定寡核苷酸的方法,所述方法包括:(a)提供寡核苷酸混合物;(b)将每个寡核苷酸插入至供体质粒,其中每个供体质粒依次包括:i)第一核酸内切酶切割位点、ii)第一同源重组区、iii)第二同源重组区、以及iv)第二核酸内切酶切割位点,其中寡核苷酸插入至第一同源重组区和第二同源重组区之间,从而产生多个供体质粒,每个供体质粒包括来自寡核苷酸混合物的单个寡核苷酸;(c)用多个供体质粒转化多个细胞,使得每个细胞包括供体质粒,从而形成多个转化的宿主细胞;(d)铺板并培养多个位于第一有序阵列上的转化的宿主细胞,其中每个转化的宿主细胞产生在第一有序阵列中的克隆菌落;(e)在第二有序阵列中提供多个受体细胞,其中每个受体细胞包括受体寡核苷酸,受体寡核苷酸依次包括:(i)独特条形码序列,其中独特条形码序列表明在第二有序阵列中受体细胞的位置,(ii)相应的第一同源重组区,其中第一同源重组区与相应的第一同源重组区同源,(iii)第三核酸内切酶切割位点,以及(iv)相应的第二同源重组位点,其中第二同源重组区与相应的第二同源重组区同源,其中核酸内切酶可以切割第一核酸内切酶切割位点、第二核酸内切酶切割位点和第三核酸内切酶切割位点;(f)使来自第一有序阵列的每个克隆菌落与在第二有序阵列相应位点的受体细胞在以下条件下接触:(i)通过细菌接合,使供体质粒从克隆菌落转移至受体细胞,(ii)通过核酸内切酶切割第一、第二和第三核酸内切酶切割位点,以及(ii)通过同源重组,使寡核苷酸从供体质粒转移至受体细胞寡核苷酸,从而产生包括条形码序列和寡核苷酸的融合序列;(g)测序融合序列;并且通过鉴定条形码序列,鉴定在供体细胞和/或受体细胞的第一和/或第二有序阵列中的测序的寡核苷酸。
在实施方案中,铺板并培养细胞包括铺板并培养在表面的细胞。例如,表面可以是固体培养基。因此,在实施方案中,克隆菌落是在固体培养基上的细胞菌落。在实施方案中,铺板并培养细胞包括铺板并培养在液体培养基中的细胞。例如可以在液体培养基里铺板并培养单细胞。因此,在实施方案中,克隆菌落是在液体培养基中的细胞菌落。
在实施方案中,受体寡核苷酸位于受体细胞质粒中。在实施方案中,受体寡核苷酸位于受体细胞基因组中。在实施方案中,供体质粒包括在第一同源重组区和第二同源重组区之间的选择标记,选择标记就寡核苷酸整合至受体细胞寡核苷酸进行选择。在实施方案中,受体细胞寡核苷酸包括步骤(e)(iii)中的两个核酸内切酶切割位点。在实施方案中,所述方法进一步包括在两个核酸内切酶切割位点之间的反选择标记,其中反选择标记就寡核苷酸整合至受体寡核苷酸进行选择。
在一方面,提供一种从寡核苷酸混合物中鉴定寡核苷酸的方法。所述方法包括(a)在第一有序阵列中提供多个宿主细胞,其中每个宿主细胞包括供体质粒,其中每个供体质粒依次包括:i)第一核酸内切酶切割位点、ii)第一同源重组区、iii)独特条形码序列、iv)第二同源重组区,以及v)第二核酸内切酶切割位点;其中独特条形码序列表明在第一有序阵列中宿主细胞的位置;(b)提供多个受体细胞,其中每个受体细胞包括受体寡核苷酸,受体寡核苷酸包括来自多个寡核苷酸的寡核苷酸,其中每个受体质粒依次包括:i)所述寡核苷酸序列、ii)相应的第一同源重组区,其中第一同源重组区与相应的第一同源重组区同源,iii)第三核酸内切酶切割位点,其中核酸内切酶可以切割第一核酸内切酶切割位点、第二核酸内切酶切割位点和第三核酸内切酶切割位点,以及iv)相应的第二同源重组区,其中第二同源重组区与相应的第二同源重组区同源;(c)铺板并培养多个位于第二有序阵列上的受体细胞,其中每个受体细胞产生在第二有序阵列中的克隆菌落;(d)使来自第一有序阵列的每个克隆菌落与在第二有序阵列相应位点的供体细胞在以下条件下接触:(i)通过细菌接合,使供体质粒从供体细胞转移至克隆菌落,(ii)通过核酸内切酶切割第一、第二和第三核酸内切酶切割位点,以及(ii)通过同源重组,使条形码序列从供体质粒转移至受体细胞寡核苷酸,从而产生包括条形码序列和寡核苷酸的融合序列;(g)测序融合序列;以及(h)通过鉴定条形码序列,鉴定在受体细胞的第一和/或第二有序阵列中的测序的寡核苷酸。
在实施方案中,受体寡核苷酸位于受体细胞质粒中。
在实施方案中,受体寡核苷酸位于受体细胞基因组中。在实施方案中,供体质粒包括位于第一同源重组区和第二同源重组区之间的选择标记,所述选择标记就条形码整合到受体寡核苷酸中进行选择。在实施方案中,受体寡核苷酸包括在步骤(b)(iii)中的两个核酸内切酶切割位点。在实施方案中,所述方法进一步包括在两个核酸内切酶切割位点之间的反选择标记,所述反选择标记就条形码整合到受体细胞寡核苷酸中进行选择。
对于本文提供的方法,在实施方案中,第一核酸内切酶切割位点、第二核酸内切酶切割位点和第三核酸内切酶切割位点是相同的核酸内切酶切割位点。在实施方案中,第一核酸内切酶切割位点、第二核酸内切酶切割位点和第三核酸内切酶切割位点是不同的核酸内切酶切割位点。在实施方案中,核酸内切酶包括多个核酸内切酶。
在实施方案中,核酸内切酶由受体细胞中的寡核苷酸编码。在实施方案中,寡核苷酸位于受体细胞基因组中。在实施方案中,其中寡核苷酸位于受体质粒中。在实施方案中,编码核酸内切酶的寡核苷酸位于辅助质粒中。在实施方案中,核酸内切酶由位于供体质粒的寡核苷酸编码。在实施方案中,核酸内切酶由位于供体质粒的寡核苷酸编码。在实施方案中,核酸内切酶的表达是可诱导的。
在实施方案中,核酸内切酶是转录激活因子样效应物核酸酶。在实施方案中,核酸内切酶是锌指核酸酶。在实施方案中,核酸内切酶是HO。
在实施方案中,RNA-引导的DNA核酸内切酶是CRISPR系统。在实施方案中,核酸内切酶是RNA-引导的DNA核酸内切酶。在实施方案中,RNA-引导的DNA核酸内切酶是Cas9。在实施方案中,RNA-引导的DNA核酸内切酶是Cas10。在实施方案中,RNA-引导的DNA核酸内切酶是Cpf1。在实施方案中,RNA-引导的DNA核酸内切酶C2c1。在实施方案中,RNA-引导的DNA核酸内切酶是C2c2。在实施方案中,RNA-引导的DNA核酸内切酶是C2c3。在实施方案中,RNA-引导的DNA核酸内切酶是Cas12c1。在实施方案中,RNA-引导的DNA核酸内切酶是Cas12a。在实施方案中,RNA-引导的DNA核酸内切酶是Cas12b。在实施方案中,RNA-引导的DNA核酸内切酶是Cas12c2。在实施方案中,RNA-引导的DNA核酸内切酶是Cas12g。在实施方案中,RNA-引导的DNA核酸内切酶是Cas12e。在实施方案中,RNA-引导的DNA核酸内切酶是Cas12i1。在实施方案中,RNA-引导的DNA核酸内切酶是Cas12i2。
对于本文提供的方法,在实施方案中,供体质粒包括编码向导RNA的寡核苷酸,以及受体基因组包括编码RNA-引导的DNA核酸内切酶的寡核苷酸。在实施方案中,供体质粒包括编码向导RNA的寡核苷酸,以及受体质粒包括编码RNA-引导的DNA核酸内切酶的寡核苷酸。在实施方案中,供体质粒包括编码向导RNA的寡核苷酸,以及受体辅助质粒包括编码RNA-引导的DNA核酸内切酶的寡核苷酸。在实施方案中,供体质粒包括编码向导RNA的寡核苷酸,以及受体质粒,受体质粒包括编码可诱导的RNA-引导的DNA核酸内切酶的寡核苷酸。
在实施方案中,受体细胞包括可诱导的gRNA。在实施方案中,供体细胞包括编码RNA-引导的DNA核酸内切酶的寡核苷酸。在实施方案中,受体细胞包括编码RNA-引导的DNA核酸内切酶的寡核苷酸。在实施方案中,RNA-引导的DNA的表达是组成型。在实施方案中,RNA-引导的DNA的表达是可诱导的。
在实施方案中,所述方法进一步包括分离供体质粒。在实施方案中,所述方法进一步包括分离受体质粒。在实施方案中,所述方法进一步包括分离重组受体质粒。在实施方案中,所述方法进一步包括分离测序的寡核苷酸。在实施方案中,所述方法进一步包括分离供体细胞、受体细胞、重组受体细胞、受体寡核苷酸或重组受体寡核苷酸的一种或多种。
在实施方案中,所述方法包括组合一个或多个菌落子集。因此,在实施方案中,所述方法包括组合一个或多个菌落子集和从菌落子集中分离多个供体质粒。在实施方案中,所述方法包括组合一个或多个菌落子集和从菌落子集中分离多个受体质粒。在实施方案中,所述方法包括组合一个或多个菌落子集的从菌落子集中分离多个重组受体质粒。在实施方案中,所述方法进一步包括分离多个测序的寡核苷酸。
在实施方案中,受体细胞或供体细胞包括使质粒能接合的寡核苷酸。在实施方案中,使质粒能接合的寡核苷酸位于供体细胞基因组中。在实施方案中,使质粒能接合的寡核苷酸位于辅助质粒中。在实施方案中,使质粒能接合的寡核苷酸是Tra操纵子。使质粒能接合的其他寡核苷酸描述于前。
在实施方案中,供体细胞、受体细胞或重组受体细胞被转移至第三有序阵列、第四有序阵列或后续有序阵列上的位置。
在实施方案中,条形码序列的长度为约4个核苷酸至约50个核苷酸。在实施方案中,条形码序列的长度为约8个核苷酸至约50个核苷酸。在实施方案中,条形码序列的长度为约12个核苷酸至约50个核苷酸。在实施方案中,条形码序列的长度为约16个核苷酸至约50个核苷酸。在实施方案中,条形码序列的长度为约20个核苷酸至约50个核苷酸。在实施方案中,条形码序列的长度为约24个核苷酸至约50个核苷酸。在实施方案中,条形码序列的长度为约28个核苷酸至约50个核苷酸。在实施方案中,条形码序列的长度为约32个核苷酸至约50个核苷酸。在实施方案中,条形码序列的长度为约36个核苷酸至约50个核苷酸。条形码的长度可以是本文提供的范围内任意值或子范围,包括端点。
在实施方案中,条形码序列的长度为约4个核苷酸至约36个核苷酸。在实施方案中,条形码序列的长度为约4个核苷酸至约32个核苷酸。在实施方案中,条形码序列的长度为约4个核苷酸至约28个核苷酸。在实施方案中,条形码序列的长度为约4个核苷酸至约24个核苷酸。在实施方案中,条形码序列的长度为约4个核苷酸至约20个核苷酸。在实施方案中,条形码序列的长度为约4个核苷酸至约16个核苷酸。在实施方案中,条形码序列条形码序列的长度为约4个核苷酸至约12个核苷酸。在实施方案中,条形码序列的长度为约4个核苷酸至约8个核苷酸。在实施方案中,条形码序列的长度为约4个核苷酸、8个核苷酸、12个核苷酸、16个核苷酸、20个核苷酸、24个核苷酸、28个核苷酸、32个核苷酸、36个核苷酸或40个核苷酸。在实施方案中,条形码序列的长度为约15个核苷酸。在实施方案中,条形码序列的长度为约40个核苷酸。条形码序列的长度可以是本文提供的范围内任意值或子范围,包括端点。
进一步实的施方案
通过以下额外实施方案进一步描述本发明。
实施方案1:一种组装DNA元件的方法,所述方法包括:(1)提供包含第一供体质粒的第一宿主细胞,第一供体质粒依次包含:第一核酸内切酶靶位点、第一同源重组区、任选存在的包含第一DNA元件片段的第一寡核苷酸、第二同源重组区、第二核酸内切酶靶位点、以及第三核酸内切酶靶位点;(2)提供包含受体寡核苷酸的受体细胞,其中受体寡核苷酸包含:第三同源区,其中第三同源重组区与第一同源重组区同源、第四核酸内切酶靶位点、以及第四同源区,其中第四同源重组区与第二同源重组区同源;以及(3)使受体细胞与第一宿主细胞在以下条件下接触:(i)通过细菌接合,使第一供体质粒从第一宿主细胞转移至受体细胞;(ii)引导第一核酸内切酶至第一核酸内切酶靶位点、第三核酸内切酶靶位点或第四核酸内切酶靶位点的至少一个,从而在第一供体质粒和受体寡核苷酸中产生双链断裂,以及(iii)通过经由第一和第二同源重组区与第三和第四相应的同源重组区的同源重组,在受体细胞中使第一供体质粒和受体寡核苷酸重组,从而形成重组受体寡核苷酸;(4)提供包含第二供体质粒的第二宿主细胞,第二供体质粒依次包含:第五核酸内切酶靶位点、与第二同源区同源的第五同源重组区、编码第二DNA元件片段的第二寡核苷酸、与第四同源区同源的第六同源重组区和第六核酸内切酶靶位点;以及(5)使含有重组受体寡核苷酸的受体细胞与第二宿主细胞在以下条件下接触:(i)通过细菌接合,使第二供体质粒从第二宿主细胞转移至受体细胞,(ii)表达第二核酸内切酶,(iii)引导第二核酸内切酶至第二核酸内切酶靶位点、第五核酸内切酶靶位点和/或第六核酸内切酶靶位点,从而产生双链断裂,(iv)通过经由第五和第六同源重组位点与相应的第二和第四同源重组位点的同源重组,在受体细胞中使第二供体质粒和重组受体寡核苷酸重组,从而形成包括组装的DNA元件的第二重组受体寡核苷酸。
在进一步实施方案中,步骤(a)包括多个第一宿主细胞,其中每个细胞包含不同的第一寡核苷酸和/或步骤(d)包含多个第二宿主细胞,其中每个细胞包含不同的第二寡核苷酸。
在进一步实施方案中,每个第一宿主细胞位于第一有序阵列。
在进一步实施方案中,多个第一宿主细胞位于第一有序阵列,从而在第一有序阵列中形成第一宿主细胞池。
在进一步实施方案中,每个第二宿主细胞位于第二有序阵列。
在进一步实施方案中,多个第二宿主细胞位于第二有序阵列,从而在第二有序阵列中形成第二宿主细胞池。
在进一步实施方案中,第一供体细胞位于第一有序阵列,第二供体细胞位于第二有序阵列,以及一个或更多后续供体细胞位于一个或更多后续阵列。
在进一步实施方案中,所述方法产生组合文库,所述文库包含多个不同的组装的DNA元件。
在进一步实施方案中,第一核酸内切酶靶向第一、第三或第四核酸内切酶靶位点。
在进一步实施方案中,第二核酸内切酶靶向第二、第五或第六核酸内切酶靶位点。
在进一步实施方案中,DNA元件是基因、启动子、增强子、终止子、内含子、基因间隔区、条形码或gRNA。
在进一步实施方案中,受体寡核苷酸位于受体质粒。
在进一步实施方案中,受体寡核苷酸位于受体细胞基因组。
在进一步实施方案中,第二供体质粒进一步包含位于(d)iii)和(d)iv)的组分之间的第七同源重组区和第七核酸内切酶靶位点。
在进一步实施方案中,第一核酸内切酶靶向第七核酸内切酶位点。
在进一步实施方案中,第一和第二核酸内切酶独立地选自RNA-引导的DNA核酸内切酶、归巢核酸内切酶、转录激活因子样效应物核酸酶和锌指核酸酶。
在进一步实施方案中,编码第一核酸内切酶的寡核苷酸位于供体细胞或受体细胞。
在进一步实施方案中,第一和/或第二核酸内切酶的表达是可诱导的。
在进一步实施方案中,编码第二核酸内切酶寡核苷酸位于供体细胞或受体细胞。
在进一步实施方案中,重复步骤(d)至(e)一次或多次重复,从而形成一个或多个后续组装的DNA元件。
在进一步实施方案中,第一、第二或后续供体质粒包含就第一寡核苷酸、第二寡核苷酸或后续寡核苷酸整合至受体细胞寡核苷酸进行选择的选择标记。
在进一步实施方案中,第一供体质粒包含就第一寡核苷酸整合至受体寡核苷酸进行选择的选择标记,任选地其中选择标记位于第二和第三核酸内切酶靶位点之间。在实施方案中,第二供体质粒包含就第二寡核苷酸整合至受体寡核苷酸进行选择的选择标记。
在进一步实施方案中,受体细胞寡核苷酸包含就第一寡核苷酸整合至受体细胞寡核苷酸进行选择的反选择标记。
在进一步实施方案中,供体质粒包含转移起点,任选地,其中所述转移起点来自移动元件。
在进一步实施方案中,供体质粒包含条件复制起点;任选地,其中所述条件复制起点依赖于寡核苷酸的存在或细胞生长的条件。
在进一步实施方案中,供体质粒或受体寡核苷酸包含复制子,所述复制子可以复制长度大于30千碱基的质粒。
在进一步实施方案中,供体质粒或受体寡核苷酸包含可诱导的高拷贝复制起点。
在进一步实施方案中,供体质粒或受体寡核苷酸是酵母人工染色体(YAC)、哺乳动物人工染色体(MAC)、人类人工染色体(HAC)或植物人工染色体。在进一步实施方案中,供体质粒或受体寡核苷酸是病毒载体。
在进一步实施方案中,供体细胞包含使质粒能接合的寡核苷酸。
在进一步实施方案中,供体细胞或受体细胞包含寡核苷酸,寡核苷酸编码一种或多种同源DNA修复基因;任选地,其中同源DNA修复基因表达是可诱导的。
在进一步实施方案中,供体细胞或受体细胞包含编码一种或多种重组介导的遗传工程基因的寡核苷酸。
在进一步实施方案中,供体细胞和受体细胞独立地为细菌细胞。
在进一步实施方案中,测序组装的DNA元件(也可以称为DNA组装物),测序受体寡核苷酸,和/或测序重组受体寡核苷酸。
在进一步实施方案中,重组受体寡核苷酸是质粒,并将所述质粒线性化、连接至测序接头并测序。
在进一步实施方案中,通过PCR扩增组装的DNA元件并测序;任选地,其中(a)裂解受体细胞,(b)用核酸内切酶或多个核酸内切酶消化寡核苷酸,(c)分离组装的DNA元件,以及(d)将组装的DNA元件或多个组装的基因连接至测序接头并测序。
在进一步实施方案中,分离组装的DNA元件或重组受体寡核苷酸。
在进一步实施方案中,组装的DNA片段的长度从约100个核苷酸至500,000个核苷酸。
在进一步实施方案中,第一、第二或后续同源区域和相应的第一、第二或后续同源区域的长度是约20个碱基对至约500个碱基对。
在进一步实施方案中,第一、第二或后续同源区域和相应的第一、第二或后续同源区域的长度是约50个碱基对。
在实施方案中,提供一种从寡核苷酸混合物中鉴定寡核苷酸的方法,所述方法包括:(a)提供寡核苷酸混合物;(b)将每个寡核苷酸插入至供体质粒,其中每个供体质粒依次包含:(i)第一核酸内切酶切割位点、ii)第一同源重组区、iii)第二同源重组区、以及iv)第二核酸内切酶切割位点,其中寡核苷酸插入至第一同源重组区和第二同源重组区之间,从而产生多个供体质粒,每个供体质粒包含来自寡核苷酸混合物的单个寡核苷酸;(c)用多个供体质粒转化多个细胞,使得每个细胞包含供体质粒,从而形成多个转化的宿主细胞;(d)铺板并培养多个位于第一有序阵列上的转化的宿主细胞,其中每个转化的宿主细胞产生在第一有序阵列中的克隆菌落;(e)在第二有序阵列中提供多个受体细胞,其中每个受体细胞包含受体寡核苷酸,所述受体寡核苷酸依次包含:(i)独特条形码序列,其中独特条形码序列表明在第二有序阵列中受体细胞的位置,(ii)相应的第一同源重组区,其中第一同源重组区与相应的第一同源重组区同源,(iii)第三核酸内切酶切割位点,以及(iv)相应的第二同源重组位点,其中第二同源重组区与相应的第二同源重组区同源,其中核酸内切酶可以切割第一核酸内切酶切割位点、第二核酸内切酶切割位点和第三核酸内切酶切割位点;(f)使来自第一有序阵列的每个克隆菌落与在第二有序阵列相应位点的受体细胞在以下条件下接触:(i)通过细菌接合,使供体质粒从克隆菌落转移至受体细胞,(ii)通过核酸内切酶切割第一、第二和第三核酸内切酶切割位点,以及(ii)通过同源重组,使寡核苷酸从供体质粒转移至受体细胞寡核苷酸,从而产生包含条形码序列和寡核苷酸的融合序列;(g)测序融合序列;以及(h)通过鉴定条形码序列,鉴定在供体细胞和/或受体细胞的第一和/或第二有序阵列中的测序的寡核苷酸。
在进一步实施方案中,受体寡核苷酸位于受体细胞质粒。
在进一步实施方案中,受体寡核苷酸位于受体细胞基因组。
在进一步实施方案中,所述方法提供包含位于第一同源重组区和第二同源重组区之间的选择标记的供体质粒,所述选择标记就寡核苷酸整合至受体细胞寡核苷酸进行选择。
在进一步实施方案中,本文方法提供步骤(e)(iii)中的两个核酸内切酶切割位点的受体细胞寡核苷酸。
在本文一些实施方案中,方法进一步包含位于两个核酸内切酶切割位点之间的反选择标记,其中反选择标记就寡核苷酸整合至受体寡核苷酸进行选择。
在实施方案中,本文提供从多个寡核苷酸鉴定寡核苷酸的方法,所述方法包括:(a)在第一有序阵列中提供多个宿主细胞,其中每个宿主包含供体质粒,其中每个供体质粒依次包含:(i)第一核酸内切酶位点、(ii)第一同源重组区、(iii)独特条形码序列、(iv)第二同源重组区以及(v)第二核酸内切酶位点;其中独特条形码序列表明在第一有序阵列中宿主细胞的位置;(b)提供多个受体细胞,其中每个受体细胞包含受体寡核苷酸,受体寡核苷酸包含来自多个寡核苷酸的寡核苷酸,其中每个受体质粒依次包含:i)所述寡核苷酸序列,ii)相应的第一同源重组区,其中第一同源重组区与相应的第一同源重组区同源,iii)第三核酸内切酶切割位点,其中核酸内切酶可以切割第一核酸内切酶切割位点、第二核酸内切酶切割位点和第三核酸内切酶切割位点,和iv)相应的第二同源重组区,其中第二同源重组区与相应的第二同源重组区同源;(c)铺板并培养多个第二有序阵列上的受体细胞,其中每个受体细胞在第二有序阵列中产生克隆菌落;(d)在以下条件下使来自第一有序阵列的供体细胞与在第二有序阵列的相应的位点每个克隆菌落接触:(i)通过细菌接合,使供体质粒从供体细胞转移至克隆菌落,(ii)通过核酸内切酶切割第一、第二和第三核酸内切酶位点,以及(ii)通过同源重组,使条形码序列从供体质粒转移至受体细胞寡核苷酸,从而产生包含条形码序列和寡核苷酸的融合序列;(e)测序融合序列;以及(f)通过鉴定条形码序列,鉴定在供体细胞和/或受体细胞的第一和/或第二有序阵列中的测序的寡核苷酸。
在实施方案中,所述方法提供位于受体细胞质粒的受体寡核苷酸。
在进一步实施方案中,受体寡核苷酸位于受体细胞基因组。
在实施方案中,供体质粒包含位于第一同源重组区和第二同源重组区之间的选择标记,所述选择标记就条形码整合到受体寡核苷酸中进行选择。
在进一步实施方案中,受体寡核苷酸包含在步骤(b)(iii)中的两个核酸内切酶切割位点。
在进一步实施方案中,方法包含在两个核酸内切酶切割位点之间的反选择标记,反选择标记就条形码整合到受体细胞寡核苷酸中进行选择。
在进一步实施方案中,第一核酸内切酶切割位点、第二核酸内切酶切割位点和第三核酸内切酶切割位点是相同的核酸内切酶切割位点。
在进一步实施方案中,第一核酸内切酶切割位点、第二核酸内切酶切割位点和第三核酸内切酶切割位点是不同的核酸内切酶切割位点。
在进一步实施方案中,核酸内切酶包含多个核酸内切酶。
在进一步实施方案中,供体质粒包含转移起点。
在进一步实施方案中,转移起点来自移动元件。
在进一步实施方案中,供体质粒包含条件复制起点。
在进一步实施方案中,条件复制起点依赖于寡核苷酸的存在。
在进一步实施方案中,条件复制起点依赖于细胞生长的条件。
在进一步实施方案中,供体质粒或受体质粒包含复制子,所述复制子可以复制长度至少30千碱基的质粒。
在进一步实施方案中,复制子来自P1-衍生的人工染色体或细菌人工染色体。
在进一步实施方案中,供体质粒或受体细胞寡核苷酸包含可诱导的高拷贝复制起点。
在进一步实施方案中,供体质粒或受体细胞寡核苷酸是酵母人工染色体(YAC)、哺乳动物人工染色体(MAC)、人类人工染色体(HAC)或植物人工染色体。
在进一步实施方案中,供体质粒或受体寡核苷酸是病毒载体。
在进一步实施方案中,核酸内切酶由受体细胞中的寡核苷酸编码。
在进一步实施方案中,核酸内切酶由供体质粒中的寡核苷酸编码。
在进一步实施方案中,核酸内切酶是归巢核酸内切酶。
在进一步实施方案中,核酸内切酶是RNA-引导的DNA核酸内切酶。
在进一步实施方案中,核酸内切酶是HO。
在进一步实施方案中,所述方法进一步包括分离供体质粒。
在进一步实施方案中,所述方法进一步包括分离受体质粒。
在进一步实施方案中,所述方法进一步包括分离重组受体质粒。
在进一步实施方案中,所述方法进一步包括分离测序的寡核苷酸。
在进一步实施方案中,供体细胞或受体细胞包含使质粒能接合的寡核苷酸。
在进一步实施方案中,供体细胞或受体细胞包含编码一种或多种同源DNA修复基因的寡核苷酸。
在进一步实施方案中,供体细胞或受体细胞包含编码一种或多种重组介导的遗传工程基因的寡核苷酸。
在进一步实施方案中,供体细胞、受体细胞或重组受体细胞被转移至第三有序阵列、第四有序阵列或后续有序阵列上的位置。
在进一步实施方案中,供体细胞和受体细胞独立地为细菌细胞。
在进一步实施方案中,条形码序列的长度从约4个核苷酸至约40个核苷酸。
在进一步实施方案中,条形码序列的长度为约15个核苷酸。
应当理解,本文描述的实例和实施方案仅用于说明性目的,并且根据其各种修改或改变向本领域技术人员建议,并且将包括在本申请的精神和所附权利要求的范围内。出于所有目的,本文所引用的所有出版物、专利和专利申请在此整体援引加入本文。
实施例
实施例1:体内DNA拼接方法
细菌菌株:使用的供体菌株为BUN20[Δlac-169rpoS(Am)robA1 creC510 hsdR514ΔuidA(MluI):pir-116endA(BT333)recA1 F’(lac+pro+ΔoriT:tet)](Li,M.etal.Nat.Genet.37,311–319(2005))。使用的用于所有供体质粒克隆和增殖的宿主菌株为BW23474:[Δlac-169rpoS(Am)robA1 creC510 hsdR514ΔuidA(MluI):pir-116endA(BT333)recA1](Haldimann,A.et al.Proc.Natl.Acad.Sci.93,14361(1996))。使用的用于体内拼接的受体菌株为BW28705[lacIQ rrnB3ΔlacZ4787 hsdR514Δ(araBAD)567Δ(rhaBAD)568galU95ΔendA9:FRTΔrecA635:FRT]或RE1133(Egbert et al.,NucleicAcids Research,,vol.47(6),08April 2019,Pages 3244–3256)[cmR::mutS pTet2-gam-bet-exo-dam/tetR::bioA/B ilvG+dnaG.Q576A lacIQ1 Pcp8-araEΔaraBAD pConst-araCΔrecJΔxonA Pkm-cymR-Cas9::bioC]。使用DH5α和DH10β来克隆受体质粒。
用于第一和第二步PCR的DNA寡核苷酸在表1和2中给出。
表1:用于第一步PCR的引物
表2:用于第二步PCR的引物
培养基和化学品 常规地使用Luria-Bertani(LB)肉汤(1%w/v胰蛋白胨、0.5%w/v酵母提取物、1%w/v NaCl)作为复合培养基用于克隆和用于供体和受体质粒生长。为了保持质粒,以表3中列出的浓度加入抗生素。对于包括潮霉素的LB培养基,因为潮霉素是盐敏感的,所以使用0.5%w/v氯化钠。分别使用L-阿拉伯糖(0.2%w/v)、L-鼠李糖(0.2%w/v)、无水四环素(100ng/ml)、4-异丙基苯甲酸(cumate;15ug/ml)和异丙基-β-D-硫代半乳糖苷(IPTG;500uM)诱导ParaBAD、PrhaBAD、PTet2、Pkm-cymR和PlacIQ启动子。用蔗糖琼脂平板(0.5%w/v酵母提取物、1%w/v胰蛋白胨、6%w/v蔗糖、1.5%琼脂)和适量抗生素针SacB反选择标记进行选择。用Cl-Phe琼脂平板(0.5%w/v酵母提取物、1%w/v NaCl、0.4%w/v甘油、2%w/v琼脂、10mM D,L-p-Cl-Phe)和适量抗生素进行反选择PheS Gly294。用YEG琼脂平板(0.5%w/v酵母提取物、1%w/v NaCl、0.4%w/v葡萄糖、2%w/v琼脂)和适量抗生素来亚克隆含有PheSGly294片段的受体质粒。
表3:选择药物浓度
药物 工作浓度
潮霉素B 200ug/ml
硫酸诺尔丝菌素 100ug/ml
卡那霉素 50ug/ml
庆大霉素 20ug/ml
壮观霉素 50ug/ml
D,L-p-Cl-Phe 200ug/ml
博来霉素 5ug/ml
氯霉素 25ug/ml
氨苄青霉素 50ug/ml
可以在表4中找到用于体内DNA拼接的质粒序列。
表4:用于体内拼接的质粒。
体内DNA拼接系统的构建 辅助质粒和宿主受体菌株的构建。在相关的MAGIC克隆系统(Li,M.et al.Nat.Genet.37,311–319(2005))中,受体细胞含有辅助质粒pML300,所述pML300带有可诱导的λ-red和温度敏感复制起点(pSC101-oriTS)。MAGIC受体细胞也具有基因组整合的可诱导的I-SceI核酸内切酶等位基因。为实现递归切割和同源重组,需要含有λ-red和Cas9的不同的辅助质粒。为构建这样的辅助质粒,首先使pML300经过HindIII和NheI消化并连接至多克隆位点(MCS),由此得到pSL270。使用Gibson Assembly构建一个含有araC-ParaBaAD-Cas9的DNA片段,并且然后使用PacI和XhoI限制性位点将其克隆至pSL270以制备辅助质粒pSL359。这个质粒含有鼠李糖可诱导的λ-red重组系统(PrhaBAD-red)、阿拉伯糖可诱导的核酸内切酶(ParaBAD-Cas9)、pSC101-orits和壮观霉素抗性标记物(SpR)。然后将pSL359转化至BW28705以制备受体宿主细胞BW28705/pSL359。使用无辅助质粒的RE1133(Egbert et al.Nucleic Acids Research,vol.47(6)08April 2019,Pages 3244–3256)[cmR::mutS pTet2-gam-bet-exo-dam/tetR::bioA/B ilvG+dnaG.Q576A lacIQ1 Pcp8-araEΔaraBAD pConst-araCΔrecJΔxonA Pkm-cymR-Cas9::bioC]作为替代受体菌株。RE1133含有四环素-可诱导的λ-red重组系统(pTet2-gam-bet-exo-dam/tetR::bioA/B)和cumate-可诱导的Cas9核酸内切酶(Pkm-cymR-Cas9::bioC)。
交换盒的构建 将交换盒定义为参与DNA交换的供体和受体质粒上的DNA延伸(stretch):经由同源重组,受体质粒上的盒被最初在供体质粒上找到的盒取代。为了递归选择用于体内交换的盒,将每个盒工程化为均含有选择和反选择标记。每一轮中都需要供体盒中的选择标记和在受体盒中的反选择标记。为实现这种双重选择策略,通过标准克隆方法从以下来源构建两种不同的选择盒:1)PheS Gly294(D,L-p-Cl-Phe敏感性)(Kast,P.Gene 138,109–114(1994))、2)SacB(蔗糖敏感性)(Pelicic,V.et al.J.Bacteriol.178,1197–1199(1996))、3)具有EM7细菌启动子的HygR(潮霉素抗性)(Gritz,L et al.Gene 25,179–188(1983))、4)NsrR(诺尔丝菌素抗性)Gene 62,209–217(1988)。构建一个含有PheSGly294和NsrR的盒,和构建含有HygR和SacB的第二盒。为表征体内拼接系统,还构建了数个其他选择盒以进行多次实验:5)ZeoR(博莱霉素抗性)(Drocourt,D.Nucleic AcidsRes.18,4009–4009(1990))、6)ampR(氨苄青霉素抗性)、和7)CmR(氯霉素抗性)。在一些情况下,构建一个含有PheS Gly294和NsrR的盒,以及构建含有HygR和SacB的第二盒。
供体和受体载体骨架的构建 构建的供体载体含有以下重要组分:kanR、oriT、R6Koriγ和由细菌启动子J23119驱动的组成型gRNA表达盒(Standage-Beier,K.Et al ACSSynth.Biol.4,1217–1225(2015))。重构交换区域以产生T1(F)-H1-T2(R)-T2(F)-H3-T1(R)片段,其中T1(5’-GGGGCCACTAGGGACAGGATtgg-3’(SEQ ID NO:37)和T2(5’-CAGGCGGGCTCACCTCCGTGtgg-3’(SEQ ID NO:38))是两个用于CRISPR-Cas9切割的独特靶序列,以及H1(5’-CGAGGGCTAGAATTACCTACCGGCCTCCACCATGCCTGCG-3’(SEQ ID NO:39)和H3(5’-GTACGGGCAACCCGAGAAGGCTGAGCCTGGACTCAACGGGTTGCTGGGTGGACTCCAGACTCGGGGCGACGACTCTTCACGCGCAGAGCAAGGGCGTCGAGCGGTCGTGAAAGTCTTAGTACCGCACGTGCCGACTCACTGGGGATATTGCCTGGAGCTGTACCGTTCTAGGGGGGGGAGGTTGGAGACCTCCTCTTCTCACGACTGGACCCGCGAGGGCCGCGTTGCCGGTTCCCCCAGAGGCTGAAGAACAAGGGCTTACTGTGGGCAGGGGGACGCCCATTCAGCGGCTGGCGCTTT-3’(SEQ ID NO:40))是用于同源重组的同源位点,以及(F)和(R)表示是以正向还是反向(反向互补物)包括DNA片段。在T2(R)和T2(F)之间插入选择盒(HygR-SacB或NsrR-PheS)以产生可供拼接的供体质粒。在一些情况下,重构供体质粒交换区域以产生T2(F)-T1(R)-T1(F)-H3-T2(R)片段,其中在T2(R)和T2(F)之间插入选择盒(HygR-SacB或NsrR-PheS)。gRNA靶位点都位于适当的方向上以确保双链断裂和同源区域的基因座之间的距离尽可能短。H3是300-bp的合成的DNA片段,其在所有组装轮次中用作同源臂。H1是在第一轮体内拼接中使用的同源区域,并且可以加入到供体骨架中或者作为拼接的第一寡核苷酸的部分被引入。其他同源区域(H2、H4、H5等)作为后续寡核苷酸的部分被引入至供体质粒中,并且在组装中与先前寡核苷酸同源区域重叠以无缝拼接。入门受体载体含有选择标记(GmR)和复制起点(ColE1)。将交换区域修饰为H1-T1(R)-T1(F)-H3构型,以及将选择盒(HygR-SacB或NsrR-PheS)克隆到T1(R)和T1(F)之间。
核酸内切酶切割和同源重组效率测试 为测试CRISPR/Cas9系统是否提供精确DNA切割并促进同源重组,在存在或者不存在靶向gRNA、Cas9和λred下完成拼接操作。将受体质粒pSL402转化至三个不同的受体宿主细胞以构建:1)BW28705/pSL402(-λred/-Cas9)、2)BW28705/pML300/pSL402(+λred/-Cas9)、3)BW28705/pSL359/pSL402(+λred/+Cas9)。然后将两个不同的供体质粒(pSL414和pSL415)转化至BUN20以制备BUN20/pSL414和BUN20/pSL415,其分别含有功能性和模拟的gRNA单元。两种供体菌株中的每种都与描述于前的三种不同的类型受体细胞的每种接合。将细胞稀释并接种到选择平板上(Cl-Phe+Gm+Cm+0.2%葡萄糖)以于37℃过夜复苏重组克隆。计数菌落以量化重组事件。
在液体中mEGFP基因的组装 通过PCR产生三个mEGFP基因片段。将含有组成型启动子pJ23100、核糖体结合位点和核苷酸1-251的第一片段克隆至供体骨架以制备pSL485。将含有核苷酸198-517的第二片段克隆至供体载体以制备pSL486。将含有核苷酸454-720和rrnB T1终止子的第三片段克隆至供体载体以制备pSL488。将所有三种供体载体转化至BUN20,并在LB+Kan平板上于37℃过夜生长。将入门受体载体pSL398转化至BW28705/pSL359,并在含有庆大霉素、壮观霉素和葡萄糖的LB琼脂平板上生长。供体BUN20/pSL485(D1)和受体BW28705/pSL359/pSL398(R0)的克隆在适当的液体培养基中,分别于37℃和30℃过夜生长。将来自供体和受体的细胞离心沉降、混合、重悬于1ml预热的LB+Ara+Rha液体培养基。于30℃无摇动下培养约4h后,在接合培养物中进行连续稀释,并将细胞接种在6%Suc+Carb+Gm+Sp+0.2%葡萄糖中筛选重组子(R1)。实施菌落PCR来确认正确的R1克隆,将正确的克隆接种在L+Gm+Sp+0.2%葡萄糖中于30℃过夜。重新培养含有pSL486(D2)的供体细胞,然后将其离心、混合、在液体接合培养基中于30℃用R1重悬约4小时。通过铺板在Cl-Phe+Hyg+Gm+Sp+0.2%葡萄糖上筛选重组克隆。通过菌落PCR确认的正确克隆(R2)在LB+Gm+Sp+0.2%葡萄糖中于30℃过夜生长。和前几轮一样,将D3(BUN20/pSL488)和R2细胞混合并重悬在液体接合培养基中。实施连续稀释并即将细胞铺板至6% Suc+Carb+Gm+Sp+0.2%葡萄糖上。在UV光下成像来自每轮组装平板,以计数GFP荧光克隆的比例。每轮组装后,挑出选择的克隆,并纯化质粒用于判断限制性消化和Sanger测序。
同源长度对拼接的效果测试 为测试同源长度对拼接准确性的影响,构建一系列含有与pSL486中第二mEGFP片段不同同源大小的质粒:1)pSL684(0bp)、2)pSL685(10bp)、3)pSL510(20bp)、4)pSL511(30bp)、5)pSL512(40bp)、6)pSL681(53bp)。将这些质粒和pSL488(63bp)一起转化至供体宿主细胞以构建一组D3,与含有R2的受体细胞接合。将来自每个接合对的细胞稀释并接种至选择平板(6% Suc+Carb+Gm+Sp+0.2%葡萄糖)。过夜复苏克隆,并在UV光下检查以观察荧光。计数荧光和非荧光克隆并计算正确组装百分比。
mEGFP阵列组装 将所有菌株以384-格式阵列在琼脂平板上。首先,在预热的接合平板(LB+Ara+Rha)上使用SINGER ROTOR HAD,阵列BUN20/pSL1065(D1)和BW28705/pSL359/pSL1060(R0)并混合在一起,于30℃生长约5小时。然后转移接合的细胞至第一选择平板(Cl-Phe+Hyg+Gm+Sp+0.2%葡萄糖)。在转移至预接合平板(LB+Hyg+Gm+Sp+0.2%葡萄糖)之前,将重组克隆(R1)于30℃富集过夜,其优化了下一轮组装的质粒的生长。然后将BUN20/pSL1062(D2)新鲜过夜阵列与R1在接合平板上接合。然后将接合的细胞转移至第一选择上(LB+Nat+Gm+Sp+0.2%葡萄糖),于30℃过夜选择重组克隆。然后将选择的克隆(R2)转移至预接合平板上(6% Suc+Nat+Gm+Sp+0.2葡萄糖)。然后将BUN20/pSL1066(D3)新鲜过夜阵列与R2在接合平板上接合。在Cl-Phe+Hyg+Gm+Sp+0.2%葡萄糖上选择后、然后在LB+Hyg+Gm+Sp+0.2%葡萄糖上选择后,选择出最终组装产物(R3)。来自每轮组装的平板在紫外光透射器上成像,在UV光下监测GFP荧光。在组装过程中,挑出选择的克隆,并纯化质粒用于判断性限制性消化和Sanger测序。
使用汇集的寡核苷酸对12个基因阵列组装 选择九个不同的丝氨酸/酪氨酸重组酶和3个不同的荧光基团(mPapaya、mPlum、sfGFP)用于组装。为产生每个基因组装必需的寡核苷酸列表编写了python脚本,输入含有要合成的基因的FASTA文件,并输出要从商业供应商订购的寡核苷酸列表(IDT oPool),脚本具有用户定义的变量,变量包括合成的寡核苷酸长度、相邻寡核苷酸之间最小同源重叠长度和最大同源重叠长度。尽管没有已知关于该效果的定量研究,DNA发夹和/或重复可以干扰同源重组机制并降低组装保真度。因此,对于每个基因,使用Primer3 python扩展(Untergasser,A.et al.Nucleic Acids Res.35,W71–W74(2007))和核苷酸分布均匀度来鉴定这些区域。如果较小的同源区可能含有干扰元件,评分每个核苷酸的位置,并使用用户定义的阈值来扩展同源区。一旦确定了每个基因组装必需的寡核苷酸,在每个末端添加限制性位点(NotI和AscI),限制性位点用于将寡核苷酸克隆至供体载体和轮特异性引物位点(Priming site)。引物位点允许来自平行基因组装的轮特异性的寡核苷酸一起扩增,并且由体内解析平台解析。轮特异性引物选自先前设计引物列表,用于在大型寡核苷酸池中使用时降低引物(减少不期望的PCR产物的数量)之间交叉反应的可能性。(Kosuri,S.et al.Nat.Biotechnol.28,1295–1299(2010))。使用这个python脚本,每个基因被分成五个约300bp的寡核苷酸,在后续寡核苷酸之间有50-70bp同源。使用限制性消化和连接将PCR扩增的寡核苷酸插入至供体质粒。对于每个基因的第一轮组装,扩增寡核苷酸并克隆至供体骨架pSL1064中,其包括与入门受体质粒pSL1060中起始H1区域同源的40bp起始H1区域。将在附加拼接奇数轮(例如3、5、7、9)中添加的寡核苷酸克隆至pSL1063中,其含有与pSL1064相同的元件,除了缺乏H1同源区域。将在附加拼接偶数轮(例如2、4、6、8)中添加的寡核苷酸克隆至pSL1071中。于37℃下,用AscI和NotI消化PCR扩增的寡核苷酸和供体质粒4小时。使用Zymoclean Gel DNA Recovery试剂盒,经由凝胶提取对消化产物进行大小选择和纯化。通过与1ul T4连接酶混合并于22℃下培养1小时,来连接0.02pmol消化供体质粒和0.06pmol消化寡核苷酸。使用标准细菌转化实验方案,将连接的供体质粒转移至BUN20供体菌株中。将2ul连接产物添加至50ul化学感受态BUN20供体菌株中。然后将混合物于冰上温育30分钟,于42℃热激30秒,再次于冰上温育3分钟。将细胞重悬于950ml NEB SOC复苏培养基并于37℃复苏1小时。然后将细胞接种至选择平板上(奇数轮供体质粒用LB+Hyg、偶数轮供体质粒用LB+Nat),并于37℃过夜温育。随机选择含有克隆寡核苷酸的结果克隆,并阵列在96孔平上。体内DNA解析系统,解析阵列的寡核苷酸文库并验证序列。将每个平板与两个不同的受体条形码平板接合。对于奇数组装轮中的寡核苷酸平板,供体骨架(pSL1063或pSL1064)含有HygR-SacB盒。与在LB+Ara+IPTG琼脂上的BPS受体阵列于37℃下接合~3小时之后,在LB+Hyg+Gm+Rha+Ara平板上于37℃过夜筛选重组质粒。对于含有NsrR-PheS盒的偶数轮寡核苷酸阵列,在与BPS收集物(收集物)接合之后,在LB+Nat+Gm+Rha+Ara平板上于37℃过夜筛选重组质粒。为组装12个基因,首先将携带第一轮寡核苷酸的BUN20供体菌株与携带pSL1086受体质粒的RE1133受体菌株接合。混合50ul每种过夜培养,于8000rpm离心沉降1分钟,重悬于50ul LB,并且于37℃培养30分钟。然后将接合的细胞接种至LB+aTC+cumate平板上并于37℃培养4小时以诱导Cas9和λ-red。为分离携带有第一轮寡核苷酸的重组受体质粒的细胞,将接合的细胞在LB+Hyg+Gm+IPTG琼脂平板上划线并于37℃过夜培养。快速移除任何未重组供体质粒,因为供体质粒上的R6Kγ起点在pir+RE1133受体菌株背景中是无功能的。通过在LB+Hyg+Gm+IPTG+4CP上筛选以移除任何剩下的未重组pSL1086受体质粒,来进一步纯化来自选择平板的克隆。为组装第二轮寡核苷酸,将携带有第一轮寡核苷酸的重组受体质粒的纯化的克隆与携带第二轮寡核苷酸的BUN20供体菌株接合。除了在LB+Nat+Gm+IPTG上选择携带重组受体质粒的细胞并进一步在LB+Nat+Gm+IPTG+6%蔗糖上纯化,使用与第一次组装相同的程序。对于全部后续组装步骤使用相同的组装程序,程序有对于奇数轮组装筛选使用LB+Hyg+Gm+IPTG+6%蔗糖,且对于偶数轮组装使用LB+Nat+Gm+IPTG。重复这个过程5次直到全部12个基因完全组装(图7G)。使用序列Sanger测序(图7H)和Oxford Nanopore MinION测序仪验证组装产物序列是正确的。
9kb片段组装 组装来自BY4741酿酒酵母菌株的染色体II 41489至50489位置的9kb DNA块。使用相同的用于组装12个基因的Python脚本,将9kb块分成三个约3kb DNA块,DNA块与后续DNA块之间有50-75bp同源。使用来自酵母菌株BY4741的基因组DNA作为DNA模板,PCR扩增这3个DNA块。使用MasterPure Yeast DNA纯化试剂盒提取基因组DNA。分别使用AscI/NotI限制性消化和T4连接,将第一、第二和第三DNA块插入至供体质粒pSL1064、pSL1063和pSL1107中。使用标准细菌转化程序,将结果连接产物转化至BUN20供体菌株。使用Sanger测序对供体质粒序列验证后,将DNA块组装至RE1133/pSL1086受体菌株中。携带第一DNA块的供体菌株与RE1133/pSL1086接合并且在LB+aTC+cumate上于37℃生长4小时。在LB+Hyg+Gm+IPTG上选择携带重组受体质粒的细胞并进一步在LB+Hyg+Gm+IPTG+6%蔗糖上纯化。然后将结果克隆与携带第二DNA块的供体菌株接合,在LB+Nat+Gm+IPTG上选择重组受体质粒,并在LB+Nat+Gm+IPTG+4CP上纯化。最后,将结果克隆与携带第三DNA块的供体菌株接合,在LB+Hyg+Gm+IPTG上选择重组受体质粒,并在LB+Hyg+Gm+IPTG+6%蔗糖上纯化。然后使用Oxford Nanopore MinION测序仪和凝胶电泳验证组装产物的序列为预期序列(图7I)。
扩增子测序以分析寡核苷酸库 为提取重组质粒,从选择平板刮下细胞并且使用质粒Plus Mini试剂盒(QIAGEN)小量制备。然后定量质粒DNA并稀释至约1ng/μl,这是在96阵列接合平板上的每个独特条形码-条形码对大约1.5e6个拷贝。如描述于(Levy,S.F.etal.Nature 519,181–186(2015))并且修改,进行两步PCR。首先,用OneTaq聚合酶(NewEngland Biolabs)进行4-5个PCR循环,使用表1所列的正向引物(pBPS_fwr)和反向引物(pBPS_rev)。单个50μl PCR反应中,扩增了约1ng重组质粒DNA。第一步PCR的引物具有以下常规构型:
pBPS_fwr:ACACTCTTTCCCTACACGACGCTCTTCCGATCTNNNNNNNNXXXXXXttcggttagagcggatgtg(SEQ ID NO:41)
pBPS_rev:GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCNNNNNNNNXXXXXXXXXaggtaacccatatgcatggc(SEQ ID NO:42).
这些序列中的N相当于任何随机核苷酸,并且用于下游分析以移除由PCR jack-potting导致的计数偏差。X相当于数个多路复用(multiplexing)标签之一(例如,上表1中的多路复用标签),其允许在相同的测序流动池(flow cell)上加样时区分不同的样品。表1中带下划线的序列是多路复用标签的实例。小写序列相当于重组质粒上的引物位点。大写序列相当于Illumina Read 1或Read 2测序引物。使用NucleoSpin柱(Macherey-Nagel)纯化PCR产物,并洗脱至33μl水中。用PrimeStar HS聚合酶(Takara)进行第二次的23-25个PCR循环,用33μl第一次PCR的净化产物作为模板,并且每管总体积50μl。这个反应的引物是表2所列的标准Illumina TruSeq双重-索引(indexed)引物(D501-D508和D701-D712)。使用NucleoSpin柱净化PCR产物。用定制的多路复用标签以及Illumina标准指数(indices)对来自每个接合平板的扩增子进行独特地标记。这个四重-索引策略不仅将提高测序库的多路复用能力,还有利于对扩增子嵌合体的下游分析。合并净化的扩增子,并在有25% PhiXDNA掺入的Illumina MiSeq(2X 300bp)上双端测序。通过使用Bartender将测序读数成簇成条形码(Zhao,L.,Bioinformatics 34,739–747(2017))。
递归体内拼接技术的设计 体内拼接系统利用细菌接合机制和lambda-Red同源重组。供体载体含有来自R6K oriγ的条件复制起点,复制起点依赖于由pir1基因或其松弛拷贝数的对照版本pir1-116(Metcalf,W.Gene 138,1–7(1994))编码的功能性反式作用因子π。这个特殊的起点允许该质粒保持在怀有pir116等位基因(例如BUN20)基因整合的供体宿主细胞中,但不能在缺少这个等位基因的受体细胞中。供体载体中其他重要特征包括oriT、骨架标记(kanR)、组成型gRNA表达盒(gRNAT1或gRNAT2)和交换区域。在交换区域内,由两对独特gRNA靶位点、双重选择盒和用于每轮拼接的共同的长同源序列(300bp)。
入门受体载体含有复制起点(ColE1或pLacIQ-p15A)、骨架标记(GmR)和交换区域,其由同源序列、两个gRNA靶位点和双重选择盒组成。一些受体宿主细胞拥有含有鼠李糖-可诱导的λ-red重组系统和阿拉伯糖-可诱导的Cas9核酸内切酶的辅助质粒。复制起点(pSC101-oriTS)的温度敏感突变体衍生物提供在组装完成时于42℃固化辅助质粒的方便的方法(Hashimoto,T.J.Bacteriol.127,1561–1563(1976))。其他受体宿主细胞(RE1133)含有基因整合的四环素-可诱导的λ-red重组系统以及cumate-可诱导的Cas9核酸内切酶。
在每一轮,供体载体转移至受体细胞之后,根据受体细胞,λ-red和Cas9在阿拉伯糖和鼠李糖或cumate和四环素存在下都被诱导。组成型表达的gRNAT1引导Cas9至供体和受体质粒以产生双链断裂。DNA块已被证明极大地刺激同源重组(见下文)(Kuzminov,A.Microbiol.Mol.Biol.Rev.63,751(1999))。片段来自含有感兴趣DNA的供体、用于下一轮组装两个不同的gRNA靶位点、双重选择标记和H3同源区域。将用于组装的DNA设计成前50bp与位于受体质粒上组装的序列的最后50bp同源。这50bp作为用于双交叉同源重组的一个同源臂,另一个是H3。这个交换事件导致重组受体质粒含有来自供体的锌的DNA。为保证重组准确性,实现了三种不同的筛选:1)就反选择标记(PheS或SacB)进行选择,2)选择阳性选择标记(HygR或NsrR),以及3)选择在受体骨架上的(GmR)标记。还实施了用于辅助质粒的选择以及ParaBAD和PrhaBAD启动子或Pkm-cymR和PTet2启动子的抑制以防止超重组和不期望的DNA块。交替使用两个不同的gRNA和两个不同的双重选择盒使得递归体内拼接能够以线性方式高效地组装新DNA片段,而产生所需的序列,理论上唯一的限制是可耐受的质粒大小。通过液体处理和多重组装钉式(pinning)机器人,这个平台式高度是可扩展性的,每轮允许数千个平行基因组装。
CRISPR-Cas9可以高效地刺激体内拼接 为测试CRISPR/Cas9系统是否提供精确DNA切割并促进同源重组,在存在或不存在靶向gRNA、Cas9和λ-red下完成体内拼接。当三种都存在时回收到了重组质粒(图3),表明CRISPR/Cas9促进DNA双链断裂以提高λ-red重组效率。
在液体中功能性荧光基因的组装 为证明使用体内拼接系统将多个片段组装至功能性基因的能力,通过构建PCR mEGFP基因的三个片段并将其克隆至适当的供体骨架。然后将三个片段相继组装至入门受体载体中。每一轮后,通过限制性消化和Sanger测序检查回收的克隆以在下一轮之前验证组装准确性。为确保在每一轮都保留辅助质粒,进行菌落接触PCR和质粒提取。最后一轮组装中,在选择平板上的全部克隆(约300个)中都观察到绿色荧光,表明组装保真度高(图7A-I)。
同源长度对拼接保真度的效果 为测试体内拼接保真度如何依赖于片段之间的同源长度,构建了7种供体载体含有mEGFP组装的第三片段,第三片段与第二片段具有不同的同源长度。在接合和重组之后,将来源于不同的接合/重组事件的细胞接种至选择培养基,计数荧光克隆的比例。结果表明,在这个实例中,40bp同源可能产生无误的融合产物(图7A-7I).
在琼脂上功能性荧光基因的多重组装组装 为证明在琼脂平板上组装功能性基因的能力,通过PCR构建三个mEGFP基因片段并将其克隆至适当的供体骨架。然后将三个片段以96-或384-针(pin)格式相继组装至入门受体载体中。在最后一轮组装后,在96-针格式的96/96位置和384-针格式的383/384位置上观察到绿色荧光,表明琼脂上的拼接保真度与在液体中相当(图7A-7I)。在组装过程中,从各种克隆中回收质粒(刮下整个菌落)并通过限制性消化检查,以验证组装准确性和/或辅助质粒的保留。组装终产物的典型消化图谱表示干净的重组质粒,没有可观察到的不期望的产物(例如非重组质粒)。为进一步表征拼接保真度,通过Sanger测序对从384-位置组装物中的96位置测序。测序产物来源于接触每个菌落的移液枪头的菌落PCR。发现94/96菌落含有正确mEGFP序列。一个菌落含有中间产物(第一轮组装产物),一个菌落含有拼接错误(大缺失)。
来自寡核苷酸池的基因的多重组装组装 为证明从寡核苷酸池组装各种DNA构建的能力,我们从购自IDT的300bp寡核苷酸池(oPool)中构建了九种不同的丝氨酸/酪氨酸重组酶和三种不同的萤光团(mPapaya、mPlum、sfGFP)。由按顺序拼接在一起的五个寡核苷酸组装每个基因。将寡核苷酸池整合至适当的供体质粒中,转化至供体细菌,并且使用描述于实施例2:体内DNA分析方法的方法将细菌池解析为序列验证的有序阵列。按顺序接合供体细胞阵列与受体细胞以将每个基因组装成至少三倍复制。Sanger测序确定每个组装含有正确DNA序列(图7G)。
长DNA组装 为证明与长DNA块组装并且产生长组装物的能力,我们从三个3kb块重新构建了酿酒酵母基因组的9kb片段。从基因组DNA扩增所述3kb块,整合至适当供体质粒、转化至供体细菌并序列验证。按顺序接合供体细胞与受体细胞。为验证每个组装步骤的正确组装产物,纯化来自受体细胞的重组受体质粒,用限制性酶线性化,并通过凝胶电泳分析(图7H)。也通过Sanger测序验证组装产物序列正确。
实施例2:对体内DNA分析的方法
质粒序列:可以在表5和图37中找到关于用于体内DNA解析的质粒信息。
表5:用于体内解析的质粒
名称 质粒类型 同源区 交换盒 其他特征
pML104 辅助 NA NA Plac-red,recA
pSL937 受体 H1,H4 PrhaBAD-relE GmR
pSL438 供体 H1,H4 HygR-SacB oriT,KanR
pSL439 供体 H1,H4 HygR-SacB oriT,KanR
pSL1071 供体 H1,H4 NsrR-PheS oriT,KanR
条形码供体质粒的构建:使用标准克隆方法构建供体载体。含有1)KanR(卡那霉素抗性)、2)oriT(转移起点)、3)R6K oriγ(依赖于噬菌体-衍生的pir1表达的条件复制起点)以及4)交换区域,I-SceI-H1-H4-I-SceI构型,其中I-SceI是核酸内切酶SceI和H1的识别位点(5’-ttgccctctctcttcattcagggtcatgagaggcacgccattcaaggggagaagtgagatc-3’(SEQ IDNO:43))和H4(5’-aagaacttttctatttctgggtaggcatcatcaggagcagga-3’(SEQ ID NO:44))是重组的同源区域。在供体载体的交换区域,在H1和H4之间克隆选择盒(HygR-SacB或NsrR-PheS)以产生用于解析的供体骨架质粒。为将随机条形码插入至供体骨架(pSL438和pSL439),从IDT订购含有NotI限制性位点、包括随机15个核苷酸的条形码区域以及与两个供体骨架同源的区域的寡核苷酸(pXL633)。pXL633与pXL585配对,以约1 ngpSL438或pSL439作为模板用于条形码PCR。限制性消化结果PCR产物并通过NotI和XmaI位点连接至相应的供体载体。按照上述相同克隆实验方案,将连接产物转化至感受态供体细胞BUN20,并于37℃在含有50μg/ml卡那霉素(Kan)LB琼脂平板上筛选条形码供体克隆。然后随机选择转化子并阵列以产生两个96孔条形码供体收集物:pSL438_BC和pSL439_BC。为鉴定阵列的供体收集物中的条形码序列,使用pXL583的pXL584作为引物,通过菌落接触PCR扩增含有该条形码区域。然后纯化并使用pXL583Sanger测序扩增子。然后提取条形码以编制供体条形码收集物的两个列表。
条形码受体质粒的构建 通过标准方法,从以下来源构建用作插入随机条形码以产生阵列的和条形码受体收集物的骨架的质粒pSL937:1)来自pBR322的质粒骨架/复制起点、2)来自pUC18-mini-Tn7T-Gm3的GmR(庆大霉素抗性标记)、3)同源序列H1和H4、和两个在H1-I-SceI-I-SceI-H4构型中的I-SceI识别位点、4)在两个SceI位点之间克隆来自pSLC-2174鼠李糖-可诱导的毒素relE(PrhaBAD-relE)。通过IDT合成含有随机条形码的寡核苷酸,并经由限制性消化和连接将其插入至pSL937。
为将随机条形码插入至受体骨架(pSL937),从IDT订购含有XhoI限制性位点、包括20个随机核苷酸的条形码区域以及与pSL937同源的区域的寡核苷酸(pXL631)。pXL631与pXL154配对,用于经由以约1 ng pSL937作为模板PCR产生条形码。消化结果PCR产物,并使用MluI和XhoI限制性位点连接至pSL937。用3:1摩尔比的条形码插入和载体进行连接反应,于16℃过夜。然后将连接产物转化至感受态BUN21细胞,其含有壮观霉素抗性辅助质粒pML1041。在含有50μg/ml壮观霉素(Sp)、20μg/ml庆大霉素(Gm)和2%葡萄糖的LB琼脂平板上,于30℃选择条形码受体克隆。然后随机选择转化子并阵列至96孔平板。通过测序鉴定阵列的受体收集物中每个位置的条形码序列。总计可以自信地鉴定出841个条形码。将这些条形码重新阵列至8个新的96孔板,从而在每个位置有独特条形码。
阵列的接合 使每个条形码供体平板(两个96-位置平板)与每个条形码受体平板(8个96-位置平板)接合。供体条形码收集物在LB+Kan平板上于37℃过夜生长;受体阵列在LB+Sp+Gm+2%葡萄糖上于30℃过夜生长。用于阵列接合的琼脂培养基含有0.2%阿拉伯糖(Ara)和0.1 mM IPTG,并且于37℃预热1小时。使用SINGER ROTOR HDA针盘将转移供体和受体克隆至接合平板上,并且于37℃生长约3小时。使每个受体平板与两个供体条形码平板(pSL438_BC和pSL439_BC)接合。然后转移接合的细胞至含有0.2%阿拉伯糖、0.2%鼠李糖(Rha)、25μg/ml庆大霉素和50μg/ml潮霉素(Hyg)的选择LB平板上(LB+Ara+Rha+Gm+Hyg)。然后于37℃过夜选择重组克隆。
扩增子测序 为提取重组质粒,将细胞从选择平板刮下细胞并且使用质粒PlusMini试剂盒(QIAGEN)小量制备。然后定量质粒DNA并稀释至约1ng/μl,即每个96阵列接合平板上的每个独特条形码-条形码对的大约1.5 x 106个拷贝。进行两步PCR。首先,用OneTaq聚合酶(New England Biolabs)进行4-5个PCR循环,使用表1所列的正向引物(pBPS_fwr)和反向引物(pBPS_rev)。单个50μl PCR反应中,扩增了约1 ng重组质粒DNA。为增加测序样品的多路复用,将第一步PCR和第二步PCR引物(见表1和2)的独特对用于从接合平板的特定对中扩增质粒DNA,使得能够在一个测序文库中将多个接合平板汇集在一起。用于第一步的循环条件如下表6:
表6:循环条件
用于第一步PCR的引物具有常规构型:
pBPS_fwr:ACACTCTTTCCCTACACGACGCTCTTCCGATCTNNNNNNNNXXXXXXttcggttagagcggatgtg(SEQ ID NO:45)
pBPS_rev:GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCNNNNNNNNXXXXXXXXXaggtaacccatatgcatggc(SEQ ID NO:46).
这些序列中的N相当于任何随机核苷酸,并且用于下游分析以移除由PCR jack-potting导致的计数偏差。X相当于数个多路复用标签之一,其允许在相同的测序流动池上加样时区分不同的样品。小写序列相当于重组质粒上的引物位点。大写序列相当于Illumina Read 1或Read 2测序引物。使用NucleoSpin柱(Macherey-Nagel)纯化PCR产物,并洗脱至33μl水中。用PrimeStar HS聚合酶(Takara)进行第二次的23-25个PCR循环,用33μl第一次PCR的净化产物作为模板,并且每管总体积50μl。这个反应的引物是表1和表2所列的标准Illumina TruSeq双重-索引引物(D501-D508和D701-D712)。用于第二步的循环条件如下表7:
表7用于第二步的循环条件
然后使用NucleoSpin柱净化PCR产物。用定制的引物索引(第一PCR)以及标准Illumina指数(第二PCR),对来自每个接合平板的扩增子进行独特地标记。这个四重-索引策略提高了用于测序的多路复用能力。合并净化的扩增子,并对扩增子在有25% PhiX DNA掺入的Illumina MiSeq、HiSeq或NextSeq上,以每条形码-条形码对约800个读取进行双端测序。
测序分析 通过定制的Python脚本和Bartender,使用以下步骤分析供体-受体双条形码扩增子测序数据:首先,使用Illumina指数多重分解Illumina读数。丢弃与两个Illumina指数无精确匹配的任何序列。使用常规表达从多重分解序列中提取条形码“\D*?(.GGC|T.GC|TG.C|TGG.)\D{4,7}?AA\D{4,7}?TT\D{4,7}?(.CGG|G.GG|GC.G|GCG.)\D*”(供体条形码)和“\D*?(.ACA|G.CA|GA.A|GAC.)\D{4,7}?AA\D{4,7}?AA\D{4,7}?TT\D{4,7}?(.TCG|C.CG|CT.G|CTC.)\D*”(受体条形码)。基于它们在Illumina读数中预期的位置,还提取独特分子识别符(UMI,pBPS_fwr和pBPS_rev中的N)。条形码读数含有真实条形码序列和含有来自PCR或测序的错误的序列,接下来使用Bartender将其归类(clustered)为共有序列。接着使用Bartender检查每个条形码簇复制UMI(表明PCR复制(duplicate)),并移除全部复制以产生条形码对的最终计数。排除少于20个读数的双条形码,其中许多预期是PCR嵌合体(通过PCR扩增融合的条形码)。剩下的读数用于从每个相应的受体条形码中确定每个供体条形码的位置。
在Oxford Nanopore平台上的全质粒测序 如先前扩增子测序部分所描述,提取含有位置条形码和寡核苷酸的重组质粒。通过限制性酶PmlI(NEB)于37℃线性化环状质粒2小时。通过运行1.2%琼脂糖凝胶对线性化产物进行大小筛选,并且使用Zymoclean Gel DNA回收试剂盒(Zymoresearch)回收。使用连接测序试剂盒(SQK-LSK110,Nanoporetech)为Oxford Nanopore平台构建测序文库。使用NEBNext FFPE Repair Mix和NEBNext Ultra IIEnd repair/dA-tailing Module(NEB)对300ng(约100fmol)线性化的重组质粒库进行末端修复。通过NEBNext Quick T4 DNA连接酶(NEB)连接Nanopore测序接头(AMX-F)。将30ng(约10fmol)文库加样至Flongle流动池(R9.4.1,Oxford Nanopore)以产生重组质粒的读数。使用Miniknow测序仪控制软件(版本:21.11.7,Oxford Nanopore)运行流动池16小时。
Oxford Nanopore测序分析 (2)使用Guppy版本6.0.1+652ffd179的"guppy_barcoder",通过样品-多路复用条形码识别并移除测序接头并分离文件;(3)使用"minimap2"版本2.22-r1110-dirty比对以查询污染物序列(复制起点或用于供体和/或辅助质粒转移序列),去除与这些与污染物比对的不想要的序列;(4)使用"minimap2"版本2.22-r1110-dirty生成与重组受体质粒预期的骨架序列的比对,并使用自定义python脚本从每次读数中修剪相同骨架序列;(5)使用"itermae"版本0.6.0.1对条形码周围序列使用模糊常规表达,从这个序列提取位置-特定条形码,然后使用"starcode"版本1.4消息传递编辑距离方法进行成簇;(6)使用自定义shell/awk脚本,使用这些条形码移除的质粒骨架序列分离至分离文件中,文件用于每个多重分解样品和成簇条形码序列;(7)使用"kalign3"版本3.3.1,使用每个样品中的每个条形码的序列产生多个-序列比对;(8)使用自定义python脚本,通过投票过程从多个-序列比对产生单个草稿共有序列;(9)通过使用"racon"版本1.5.0,完善(polished)草稿共有序列以更新基于读取的协议和序列质量的共有;(10)使用"medaka"版本进一步圆滑这个共有序列,以在每个样品中每个位置条形码产生圆滑的序列;(11)使用带有不同的常规表达的"itermae"版本0.6.0.1再次从圆滑区域提取负载序列,负载序列是重阵列项目的预期目标。通过校准原始去除的骨架序列区域与圆滑的区域、通过校准从圆滑的区域提取的负载与预期的靶序列,以及通过校准去除的原始骨架序列区域与数据集中产生的全部圆滑的区域,分析圆滑的和定位的负载。使用BioPythonPairwise比对功能,用"minimap"版本2.22-r1110-dirty或自定义python脚本进行比对。使用自定义R脚本将读数识别为"on target":那些具有与为样品和条形码(即,孔)产生的圆滑的区域>90%相同性。如果>90%的原始读数与经完善的共有序列“中靶(on target)”,则将孔归类为“纯(pure)”。将序列与圆滑的负载的长度和与预期的靶序列相比,如果圆滑的负载与预期的靶序列完全相同,则定义为"正确(correct)"。
含有寡核苷酸池的供体质粒文库的构建 将质粒pSL1071用作插入至寡核苷酸池的骨架,该质粒含有NsrR-PheS盒、两个I-SceI位点和两个用于重组的同源区域(H1和H4)。根据设计,从IDT订购含有单臂300bp寡核苷酸的寡核苷酸池:
GCTTATTCGTGCCGTGTTATGGCGCGCCNN…NNGCGGCCGCGGGCACAGCAATCAAAAGTA(SEQ IDNO:47),
其中GCTTATTCGTGCCGTGTTAT和GGGCACAGCAATCAAAAGTA(SEQ IDNO:48)是用于正向和反向引物以扩增寡核苷酸池的引物位点;GGCGCGCC(SEQ IDNO:49)和GCGGCCGC(SEQ IDNO:50)是用于限制性酶AscI和NotI的识别位点;以及NN…NN指示244-nt序列,其随机选自人基因组组装物GRCh38。使用如表8描述的循环条件,用7 ng模板DNA和KAPA HiFi聚合酶(Roche)进行寡核苷酸池的扩增。
表8:循环条件
使用DNAClean&Concentrator-5(Zymoresearch)纯化PCR产物。为将PCR产物克隆至供体质粒pSL1071,使用AscI和NotI限制性酶识别位。于37℃进行4小时PCR产物pSL1071的消化反应。通过运行1.2%琼脂糖凝胶对消化产物进行大小筛选,并使用Zymoclean GelDNA回收试剂盒(Zymoresearch)回收。使用T4 DNA连接酶(NEB),用25 ng消化载体和3.8 ng插入物于16℃进行15小时连接反应。将连接产物转化至BUN20,并接合至条形码受体质粒阵列(描述于前)以确定在供体阵列中每个位置的构建体序列。
结果:条形码阵列定位
为验证解析和定位的准确性,将两个已知的供体条形码96孔平板(pSL438_BC和pSL439_BC)的每个与8个96孔受体平板接合。使用从这些1536个接合事件的数据,发现使用1、2和3事件可以分别对93.82%±0.34%、95.59%±0.27%和96.04%±0.21%的供体进行正确位置的识别并序列验证(图47A-47D)。所有的遗漏是由于缺少测序数据。测序数据中从未识别供体的错误位置。在从供体条形码中确定受体条形码的位置时,也发现了类似的结果。
结果:寡核苷酸池的解析
为进一步验证解析的准确性,我们对100个寡核苷酸进行阵列和序列-验证。这个池含有随机选自人基因组的244个核苷酸序列,由IDT(Integrated DNATechnologies)合成为“oPool”,并使用连接插入至我们的供体质粒pSL1071。合并携带这些质粒的BUN20转化子,然后随机阵列至总共20个384-孔平板。将这些细菌的阵列平板与受体条形码菌株阵列的收集物接合(条形码位置已知)。合并含有重组寡核苷酸-条形码质粒的受体细胞。使用Nanopore测序来测序质粒。测序结果用于为每个平板中的每个孔确定:寡核苷酸的共有序列,共有序列是否与寡核苷酸池中的预期序列相同,以及是否以低频(污染)存在任何其他寡核苷酸序列(图47B、图47C、图47D)。穿过全部平板的可用的7,680个孔中,5,101个孔产生了共有序列。共有序列孔中,2,329个孔(45.6%)是纯的并且与目标寡核苷酸完美匹配。这些2,329个完美-匹配寡核苷酸占池中预期寡核苷酸的82%。

Claims (65)

1.一种在受体细胞中将多个DNA元件组装成组装的DNA元件的方法,所述方法包括:
(a)使包含第一供体质粒的第一供体细胞与包含受体寡核苷酸的受体细胞在以下条件下接触:
(i)通过接合,使所述第一供体质粒从所述第一供体细胞转移至所述受体细胞,以及
(ii)通过同源重组,在所述受体细胞中使所述第一供体质粒和受体寡核苷酸重组,其中
所述第一供体质粒依次包含:任选存在的第一核酸内切酶位点(C1)、第一同源重组区(HR1)、包含第一DNA元件片段(oligo1)的第一寡核苷酸、包含两个同源重组区(HR2.1、HR2.2)的第二同源重组区(HR2)和任选存在的第三核酸内切酶位点(C3);
所述受体寡核苷酸包含与HR1同源的第三同源重组区(HR3),以及与HR2.2同源的第四同源重组区(HR4);
从而在所述HR1与HR3以及HR2.2与HR4同源重组之后,提供包含所述第一DNA元件片段的第一重组受体寡核苷酸;
(b)使包含第二供体质粒的第二供体细胞与包含所述第一重组受体寡核苷酸的受体细胞在以下条件下接触:
(i)通过接合,将所述第二供体质粒从所述第二供体细胞转移至第一受体细胞,以及
(ii)通过同源重组,在所述受体细胞中使所述第二供体质粒和所述第一重组受体寡核苷酸重组,以形成第二重组受体寡核苷酸,其中
所述第二供体质粒依次包含:任选存在的第五核酸内切酶位点(C5)、与HR2.1同源的第五同源重组区(HR5)、编码第二DNA元件片段(oligo2)的第二寡核苷酸、包含两个同源重组区(HR6.1、HR6.2)的第六同源重组区(HR6)和任选存在的第六核酸内切酶位点(C6);
从而在所述HR5与HR2.1以及HR6.2与HR4同源重组之后,提供包含所述第一和第二DNA元件片段(oligo1、oligo2)的第二重组受体寡核苷酸,所述第一和第二DNA元件片段形成DNA组装物;
任选地,其中HR2.1和HR2.2位于包含一个(C2)或两个核酸内切酶位点(C2.1、C2.2)的非同源区两侧;
任选地,其中HR3和HR4位于包含一个(C4)或两个核酸内切酶位点(C4.1、C4.2)的非同源区两侧;
任选地,其中HR6.1和HR6.2位于包含一个(C7)或两个核酸内切酶位点(C7.1、C7.2)的非同源区两侧;
任选地,其中所述受体寡核苷酸位于受体细胞质粒或所述受体细胞基因组中;
任选地,其中所述DNA组装物包含基因、启动子、增强子、终止子、内含子、基因间区域、条形码、向导RNA(gRNA)或其组合的至少一部分。
2.权利要求1的方法,其中
用第三或后续供体细胞重复步骤(b)一次或多次重复,所述第三或后续供体细胞包含第三或后续供体质粒,所述第三或后续供体质粒包含相容的HR区域和编码第三或后续DNA元件片段(oligo3、oligo4…oligoN)的第三或后续寡核苷酸,从而形成包含所述第一、第二和第三或后续DNA元件片段的第三或后续重组受体寡核苷酸,所述第一、第二和第三或后续DNA元件片段一起形成DNA组装物。
3.权利要求1或2的方法,其中
步骤(a)包括多个第一供体细胞,每个细胞包含不同的第一供体质粒;以及
步骤(b)包括多个第二、第三或后续供体细胞,每个细胞包含不同的第二、第三或后续供体质粒;
任选地,其中每个第一供体细胞位于第一有序阵列以及每个第二、第三或后续供体细胞位于第二、第三或后续有序阵列;
任选地,其中所述方法产生组合文库,所述组合文库包含多个不同的组装的DNA元件。
4.权利要求1-3中任一项的方法,其中
在所述第一供体质粒上和/或在所述受体细胞中存在编码靶向所述第一、第三和/或第四核酸内切酶位点的第一核酸内切酶的寡核苷酸。
5.权利要求1-4中任一项的方法,其中
在所述第二供体质粒上和/或在所述受体细胞中存在编码靶向所述第二、第五和/或第六核酸内切酶位点的第二核酸内切酶的寡核苷酸。
6.权利要求4或5的方法,其中
所述第一和/或第二核酸内切酶的表达是可诱导的,并且所述方法进一步包括诱导所述第一和/或第二核酸内切酶的表达。
7.权利要求4-6中任一项的方法,其中
所述第一和/或第二核酸内切酶选自RNA-引导的核酸内切酶、归巢核酸内切酶、转录激活因子样效应物核酸酶和锌指核酸酶。
8.权利要求1-7中任一项的方法,其中
所述第一、第二或后续供体质粒包含选择标记,所述选择标记就所述第一寡核苷酸、第二寡核苷酸或后续寡核苷酸整合到所述受体寡核苷酸中进行选择;
任选地,其中所述选择标记位于HR2.1与HR2.2之间和/或HR6.1与HR6.2之间,和/或后续HR区域之间的非同源区内。
9.权利要求1-8中任一项的方法,其中
所述受体寡核苷酸包含反选择标记,所述反选择标记针对不包含所述第一、第二、第三或后续寡核苷酸的受体细胞进行选择;
任选地,其中所述反选择标记位于HR2.1与HR2.2之间和/或HR6.1与HR6.2之间,和/或后续HR区域之间的非同源区内。
10.权利要求1-9中任一项的方法,其中所述供体质粒包含转移起点。
11.权利要求1-10中任一项的方法,其中
所述供体质粒包含条件复制起点;
任选地,其中所述条件复制起点依赖于寡核苷酸的存在或细胞生长条件。
12.权利要求1-11中任一项的方法,其中
所述供体质粒或受体寡核苷酸包含可诱导的高拷贝复制起点。
13.权利要求1-12中任一项的方法,其中
所述供体质粒或受体寡核苷酸包含复制子,所述复制子可以复制长度大于30千碱基的质粒。
14.权利要求1-13中任一项的方法,其中
所述供体质粒或受体寡核苷酸是酵母人工染色体(YAC)、哺乳动物人工染色体(MAC)、人类人工染色体(HAC)或植物人工染色体。
15.权利要求1-13中任一项的方法,其中
所述供体质粒或受体寡核苷酸是病毒载体。
16.权利要求1-15中任一项的方法,其中
所述供体质粒包含使质粒能接合的寡核苷酸。
17.权利要求1-16中任一项的方法,其中
所述供体质粒或受体细胞包含编码一个或多个同源DNA修复基因的寡核苷酸;
任选地,其中所述一个或多个同源DNA修复基因的表达是可诱导的。
18.权利要求1-17中任一项的方法,其中
所述供体质粒或受体细胞包含编码一个或多个重组介导的遗传工程基因的寡核苷酸。
19.权利要求1-18中任一项的方法,其中
所述供体细胞和受体细胞独立地为细菌细胞;
任选地,其中所述细菌细胞是大肠杆菌(E.coli)、纳氏弧菌(Vibrio natriegens)或霍乱弧菌(V.cholerae)。
20.权利要求1-19中任一项的方法,其中
所述组装的DNA元件的长度从100个核苷酸至500,000个核苷酸。
21.权利要求1-20中任一项的方法,其中
所述第一、第二或后续同源重组(HR)区域及它们在所述受体寡核苷酸上相应的HR区域各自包含从约20个碱基对至约500个碱基对;
任选地,约50个至100个碱基对。
22.权利要求1-21中任一项的方法,进一步包括一个或多个以下步骤:
裂解受体细胞;扩增组装的DNA元件;分离组装的DNA元件;分离受体寡核苷酸;测序组装的DNA元件以及测序受体寡核苷酸。
23.权利要求1-22中任一项的方法,其中
同时进行使所述第一和第二或后续供体细胞与所述第一受体细胞接触的步骤;
任选地,其中仅有最终供体质粒包含选择标记,或者每个供体质粒包含受体寡核苷酸上不存在的选择标记。
24.权利要求3-23中任一项的方法,其中
包含形成部分组装的DNA元件的最后DNA元件的供体质粒包含条形码同源重组(BHR)区域以产生受体细胞,每个受体细胞含有重组受体寡核苷酸,所述重组受体寡核苷酸包含组装的DNA元件、BHR和进一步的HR;并且
所述方法进一步包括:
(i)构建或获取条形码供体细胞阵列,每个细胞含有条形码供体质粒,所述条形码供体质粒包含与BHR同源的HR、独特的条形码寡核苷酸和与所述重组受体寡核苷酸的进一步的HR同源的第二HR;
(ii)使所述条形码供体细胞阵列在以下条件下与受体细胞阵列接触:
(a)通过接合,使所述条形码供体质粒从条形码供体细胞转移至所述受体细胞,以及
(b)通过同源重组,在受体细胞中使所述条形码供体质粒和受体寡核苷酸重组,从而产生包含条形码化的组装物的受体细胞阵列。
25.权利要求3-23中任一项的方法,其中
每个供体质粒包含进一步的独特的核酸内切酶位点CX、CY对,其位于条形码同源重组(BHR)区域两侧,并且所述方法进一步包括使受体细胞阵列与条形码供体细胞阵列接触,以产生包含条形码化的组装物的受体细胞阵列,每个受体细胞包含DNA组装物,每个条形码供体细胞含有条形码供体质粒,所述条形码供体质粒包含一对HR区域,所述HR区域与位于独特的条形码寡核苷酸两侧的BHR同源。
26.权利要求1-25中任一项的方法,进一步包括
使包含重置供体质粒的重置供体细胞与包含重组受体寡核苷酸的受体细胞接触,
其中所述重置供体质粒依次包含,与所述DNA组装物的末端序列同源的同源重组区(HRt)、重置核酸内切酶位点、选择标记、重置核酸内切酶位点、同源重组区(HRX)以及转移起点,
其中所述重组受体寡核苷酸依次包含,重置核酸内切酶位点、所述DNA组装物、与HRX同源的同源重组区(HRXa)以及重置核酸内切酶位点,
从而在所述HRt与所述DNA组装物的末端序列之间以及HRX和HRXa之间的同源重组之后,提供包含所述转移起点和DNA组装物的重置质粒。
27.权利要求26的方法,其中所述重置质粒在供体细胞中。
28.权利要求26的方法,其中
所述重置质粒含有限制复制起点,所述限制复制起点在供体细胞和受体细胞中均起作用。
29.权利要求26-28中任一项的方法,其中
通过包括以下的方法构建所述重置供体质粒,引入寡核苷酸插入物,所述寡核苷酸插入物包含位于两个核酸内切酶位点(C1、C2)和反选择标记(CM)两侧的同源重组区HRt、HRX,HRt-C1-CM-C2-HRX;或者引入这种寡核苷酸插入物的文库;允许核酸内切酶切割所述核酸内切酶位点,并使用同源重组在切割位点引入反选择标记。
30.权利要求1-29中任一项的方法,其中
所述受体寡核苷酸包含能够将DNA组装物转移至其他细胞类型的可移动遗传元件,所述其他细胞类型包括酵母细胞、植物细胞、哺乳动物细胞或其他细菌细胞。
31.权利要求1-30中任一项的方法,其中
所述方法包括利用两个或更多个具有相容同源重组区的受体寡核苷酸来构建DNA文库。
32.权利要求1-30中任一项的方法,其中
所述供体质粒寡核苷酸包含第一接头寡核苷酸和第二接头寡核苷酸,所述第一接头寡核苷酸与第一DNA组装物的末端序列同源,所述第二接头寡核苷酸与第二寡核苷酸同源。
33.权利要求32的方法,其中
所述接头寡核苷酸进一步包含额外DNA元件片段,所述额外DNA元件片段与第一DNA组装物或第二DNA寡核苷酸不同源。
34.权利要求31-33中任一项的方法,其中
所述方法用于组装诱变文库;
用于组合来自不同物种的遗传区域例如基因、启动子、终止子和调节区域;
用于构建和/或组合遗传调控途径;
用于构建组合gRNA文库;
或者用于组装细菌阵列,所述细菌含有用于筛选实验的质粒。
35.权利要求1-34中任一项的方法,其中
在权利要求1的步骤(a)和(b)之前,将第一和第二寡核苷酸插入至第一和第二供体质粒中,所述第一和第二寡核苷酸包含所述第一和第二DNA元件片段。
36.一种将条形码与寡核苷酸缀合的方法,所述方法包括:
(a)将寡核苷酸混合物的每个寡核苷酸插入至供体质粒中,
每个供体质粒依次包含,任选存在的第一核酸内切酶位点(C1)、第一同源重组区(HR1)、第二同源重组区(HR2)和任选存在的第二核酸内切酶位点(C2);其中
每个寡核苷酸插入到HR1和HR2之间,从而提供多个包含供体寡核苷酸的供体质粒,每个供体质粒包含来自寡核苷酸混合物的单个供体寡核苷酸:C1-HR1-oligo-HR2-C2;
(b)用所述多个供体质粒转化多个细胞,使得每个细胞包含供体质粒,从而形成多个供体细胞;
(c)铺板并培养所述多个供体细胞,每个供体细胞位于第一有序阵列上的独特位置,从而提供供体细胞的第一有序阵列;
(d)在第二有序阵列中提供多个受体细胞,其中
每个受体细胞包含受体寡核苷酸,所述受体寡核苷酸依次包含独特的条形码序列、与HR1同源的第三同源重组区(HR3)、任选存在的第三核酸内切酶位点(C3)和与HR2同源的第四同源重组区(HR4),其中所述独特的条形码序列表明在第二有序阵列中受体细胞的位置;
(e)使所述供体细胞的第一有序阵列与受体细胞的第二有序阵列在以下条件下接触:
(i)通过接合,使所述供体质粒从供体细胞转移至在阵列上相应位置的受体细胞,
(ii)任选地,切割所述第一、第二和第三核酸内切酶位点,以及
(ii)通过同源重组,使所述寡核苷酸从供体质粒转移至受体细胞寡核苷酸,从而形成融合寡核苷酸的第三阵列,每个融合寡核苷酸包含独特的条形码序列和来自寡核苷酸混合物的供体寡核苷酸;以及
(f)任选地,测序所述融合寡核苷酸,并且从而通过其条形码序列来鉴定阵列中的每个寡核苷酸;
任选地,其中所述受体寡核苷酸位于受体细胞质粒或受体细胞基因组中。
37.权利要求36的方法,其中
所述供体质粒包含在HR1和HR2之间的选择标记,所述选择标记就所述寡核苷酸整合到所述受体细胞寡核苷酸中进行选择;
任选地,其中所述供体质粒包含反选择标记。
38.权利要求36或37的方法,其中
所述受体细胞寡核苷酸包含第四核酸内切酶位点(C4)。
39.一种从多个寡核苷酸鉴定寡核苷酸的方法,所述方法包括
(a)在第一有序阵列中提供多个供体细胞,其中每个供体细胞包含供体质粒,每个供体质粒依次包含,任选存在的第一核酸内切酶位点(C1)、第一同源重组区(HR1)、独特的条形码序列、第二同源重组区(HR2)以及任选存在的第二核酸内切酶位点(C2),其中所述独特的条形码序列表明在第一有序阵列中宿主细胞的位置;
(b)提供多个受体细胞,其中每个受体细胞包含受体质粒,所述受体质粒依次包含来自多个寡核苷酸的寡核苷酸、与HR1同源的第三同源重组区(HR3)、任选存在的第三核酸内切酶位点(C3),以及与HR2同源的第四同源重组区(HR4);
(c)铺板并培养所述多个受体细胞,每个受体细胞在第二有序阵列上的独特位置,从而提供受体细胞的第二有序阵列;
(d)在以下条件下使所述第一有序阵列与第二有序阵列接触:
(i)通过细菌接合,使所述供体质粒从供体细胞转移至在阵列上相应位置的受体细胞,
(ii)切割所述第一、第二和第三核酸内切酶位点,以及
(ii)通过同源重组,使所述条形码序列从供体质粒转移至受体细胞寡核苷酸,从而形成融合寡核苷酸的第三阵列,每个融合寡核苷酸包含独特的条形码序列和来自寡核苷酸混合物的寡核苷酸;以及
(e)测序所述融合寡核苷酸,从而通过其条形码序列来鉴定阵列中的每个寡核苷酸;
任选地,其中所述受体寡核苷酸位于受体细胞质粒或受体细胞基因组中。
40.权利要求39的方法,其中
所述供体质粒包含在HR1和HR2之间的选择标记,所述选择标记就所述条形码序列整合到受体细胞寡核苷酸中进行选择;
任选地,其中所述供体质粒包含反选择标记。
41.权利要求39或40的方法,其中
所述受体细胞寡核苷酸包含第四核酸内切酶位点(C4)。
42.权利要求36-41中任一项的方法,其中
所述第一核酸内切酶位点、第二核酸内切酶位点和第三核酸内切酶位点相同或不同。
43.权利要求36-42中任一项的方法,其中
所述供体质粒包含转移起点和/或条件复制起点;
任选地,其中所述转移起点来自可移动元件;
进一步任选地,其中所述条件复制起点依赖于寡核苷酸的存在或细胞生长的条件。
44.权利要求36-43中任一项的方法,其中
所述供体质粒或受体质粒包含复制子,所述复制子可以复制长度至少30千碱基的质粒,
任选地,其中所述复制子来自P1-衍生的人工染色体或细菌人工染色体。
45.权利要求36-44中任一项的方法,其中
所述供体质粒或受体细胞寡核苷酸包含可诱导的高拷贝复制起点。
46.权利要求36-44中任一项的方法,其中
所述供体质粒或受体细胞寡核苷酸包含酵母人工染色体(YAC)、哺乳动物人工染色体(MAC)、人类人工染色体(HAC)或植物人工染色体。
47.权利要求36-44中任一项的方法,其中
所述供体质粒或受体细胞寡核苷酸包含病毒载体。
48.权利要求36-47中任一项的方法,其中
一种或多种核酸内切酶切割所述核酸内切酶位点,所述一种或多种核酸内切酶由受体细胞中一种或多种寡核苷酸编码,和/或在所述供体质粒中编码;
任选地,其中所述一种或多种核酸内切酶是归巢核酸内切酶,或者RNA-引导的DNA核酸内切酶;
进一步任选地,其中所述核酸内切酶是HO。
49.权利要求36-48中任一项的方法,其中
所述供体细胞或受体细胞包含
(i)使质粒能接合的寡核苷酸;
(ii)编码一种或多种同源DNA修复基因的寡核苷酸;或
(iii)编码一种或多种重组介导的遗传工程基因的寡核苷酸。
50.权利要求36-49中任一项的方法,其中
所述供体细胞、受体细胞或重组受体细胞被转移至第三有序阵列、第四有序阵列或后续有序阵列上的位置。
51.权利要求36-50中任一项的方法,其中
所述供体细胞和受体细胞独立地为细菌细胞;
任选地,其中所述细菌细胞是大肠杆菌、纳氏弧菌或霍乱弧菌。
52.权利要求36-51任一项的方法,其中
所述条形码序列的长度为从约四个核苷酸至约100个核苷酸,
任选地,其中条形码序列的长度为约30个核苷酸。
53.权利要求36-52任一项的方法,其中
所述寡核苷酸混合物是DNA合成或组装技术的产物,所述DNA合成或组装技术选自化学偶联、使用聚合酶核苷酸结合物的不依赖模板的酶促合成、聚合酶链组装(聚合酶循环组装)、Gibson组装(Chew back、退火和修复)、连接酶链反应/连接酶循环反应、Phi29聚合酶、滚环扩增、环介导等温扩增(LAMP)、链置换扩增(SDA)、解旋酶依赖扩增(HAD)、重组酶聚合酶扩增(RPA)、基于核酸序列扩增(NASBA)、Golden Gate克隆、MoClo克隆、BioBricks或组装的BioBricks、热力学平衡内外合成、DNA克隆、不依赖连接的克隆、选择性连接克隆、重组工程、酵母组装、PCR、由分子倒置探针或LASSO探针捕获、DropSynth以及酶促DNA合成。
54.权利要求36-52中任一项的方法,其中
所述寡核苷酸混合物是汇集的诱变技术的产物,所述诱变技术选自聚合酶链反应技术,包括易错PCR、用简并寡核苷酸的PCR和常规PCR,化学或光诱变,用编辑寡核苷酸文库进行的体外合成,体内编辑,例如MAGE、MAGESTIC、CRISPR、先导编辑、反转录子编辑和用CRISPR、TALEN和锌指核酸酶的碱基修饰。
55.权利要求36-52中任一项的方法,其中
所述寡核苷酸混合物包含基因组DNA、cDNA、细胞器DNA或天然质粒DNA的至少一个片段。
56.权利要求36-52中任一项的方法,其中
所述寡核苷酸混合物包含捕获的或扩增的DNA,所述DNA源于gDNA、cDNA或细胞器DNA,例如来自平衡的cDNA文库、PCR产物如多重PCR产物、分子倒置探针,包括LASSO探针、退火或消减杂交捕获物、共转化和同源重组、滚环扩增或LAMP。
57.权利要求36-52中任一项的方法,其中
所述寡核苷酸混合物包含从质粒或质粒文库捕获或扩增的DNA,例如开放阅读框(ORF)文库、启动子文库、终止子文库、内含子文库、BAC文库、PAC文库、慢病毒文库、gRNA文库、PCR产物、限制性消化产物或GATEWAY穿梭产物。
58.权利要求36-57中任一项的方法,其中
通过包括共转化和重组工程、转化和重组工程或接合和重组工程的方法将所述寡核苷酸混合物的寡核苷酸整合至供体质粒中。
59.权利要求58的方法,其中
所述共转化和重组工程的方法包括:
构建线性或环状供体质粒,所述供体质粒包含选择标记和两个同源重组区,每个同源重组区与混合物中寡核苷酸末端序列同源;
将所述供体质粒和寡核苷酸共转化至细胞中;
诱导同源重组;以及
就所述选择标记进行选择;
任选地,其中所述方法用供体质粒和/或寡核苷酸的文库或池进行。
60.权利要求58的方法,其中
所述转化和重组工程的方法包括:
构建线性或环状供体质粒,所述供体质粒包含选择标记和两个同源重组区,每个同源重组区与混合物中寡核苷酸末端序列同源,其中所述寡核苷酸存在于宿主细胞内的质粒上;
用所述供体质粒转化宿主细胞;
诱导同源重组;以及
就所述选择标记进行选择。
61.权利要求58的方法,其中
所述接合和重组工程的方法包括:
构建线性或环状供体质粒,所述供体质粒包含两侧为两个任选存在的核酸内切酶位点和两个同源重组(HR)区域的反选择标记(-1);其中所述供体质粒存在于含有残缺的F-质粒的供体细胞,所述残缺的F-质粒可以诱导接合但不可以接合,并且混合物的寡核苷酸存在于受体细胞内的质粒上,每个寡核苷酸两侧为与供体质粒的HR区域同源的HR区域并且与至少一个选择标记(+1)相邻,以就每个寡核苷酸重组到供体质粒中进行选择;提供同源重组酶以及任选存在的一种或多种核酸内切酶,其在受体细胞中或由供体质粒编码;
在以下条件下使所述供体细胞与受体细胞接触:
(i)通过细菌接合,使所述供体质粒从供体细胞转移至受体细胞,以及
(ii)通过同源重组,使所述供体质粒和受体质粒重组;以及选择包含选择标记而不包含反选择标记的细胞。
62.权利要求60或61的方法,其中
所述方法用供体质粒和/或受体质粒文库进行。
63.权利要求60、61或62的方法,其中所述寡核苷酸包含文库,例如ORF文库、启动子文库、终止子文库、内含子文库、BAC文库、PAC文库、慢病毒文库、gRNA文库、gDNA文库、cDNA文库、蛋白结构域文库、启动子文库、终止子文库、调节元件文库、结构元件文库或来源于DNA诱变的DNA变体文库。
64.权利要求36-57中任一项的方法,其中
所述寡核苷酸混合物包含细胞阵列,所述细胞阵列包含质粒文库,例如gRNA文库、gDNA文库、cDNA文库、开放阅读框(ORF)文库、蛋白结构域文库、启动子文库、终止子文库、调节元件文库、结构元件文库或来源于DNA诱变的DNA变体文库。
65.权利要求36-57中任一项的方法,其中
所述寡核苷酸混合物包含细胞阵列,所述细胞阵列包含用于权利要求1-35中任一项方法的DNA元件片段。
CN202280032995.2A 2021-03-05 2022-03-04 体内dna组装和分析 Pending CN117677694A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US202163157498P 2021-03-05 2021-03-05
US63/157,498 2021-03-05
US63/157,497 2021-03-05
PCT/US2022/019012 WO2022187697A1 (en) 2021-03-05 2022-03-04 In vivo dna assembly and analysis

Publications (1)

Publication Number Publication Date
CN117677694A true CN117677694A (zh) 2024-03-08

Family

ID=90069942

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280032995.2A Pending CN117677694A (zh) 2021-03-05 2022-03-04 体内dna组装和分析

Country Status (1)

Country Link
CN (1) CN117677694A (zh)

Similar Documents

Publication Publication Date Title
Gelsinger et al. Bacterial genome engineering using CRISPR-associated transposases
US20200362346A1 (en) Genome editing using crispr in corynebacterium
EP3872171A1 (en) Rna detection and transcription-dependent editing with reprogrammed tracrrnas
WO2015144045A1 (zh) 包含两个随机标记的质粒库及其在高通量测序中的应用
AU2021350637A1 (en) Systems and methods for transposing cargo nucleotide sequences
US20200392538A1 (en) Iterative genome assembly
US20240301374A1 (en) Systems and methods for transposing cargo nucleotide sequences
US20180171386A1 (en) Long Adapter Single Stranded Oligonucleotide (LASSO) Probes to Capture and Clone Complex Libraries
US20200255823A1 (en) Guide strand library construction and methods of use thereof
AU2022228362B2 (en) In vivo dna assembly and analysis
WO2024119461A1 (en) Compositions and methods for detecting target cleavage sites of crispr/cas nucleases and dna translocation
WO2025010350A2 (en) Compositions and methods for precise genome editing using retrons
CN117677694A (zh) 体内dna组装和分析
EP4482971A2 (en) Systems and methods for transposing cargo nucleotide sequences
JP2024543216A (ja) Crispr関連トランスポザーゼおよびその使用方法
JP7473953B2 (ja) 連結dnaの製造方法及びそれに用いるためのベクターの組み合わせ
US20250270571A1 (en) Compositions and methods related to gene stacking systems
US20230123171A1 (en) Dna recombinase mediated assembly of dna long adapter single stranded oligonucleotide (lasso) probes
US7781190B2 (en) Method for constructing and modifying large DNA molecules
EP1546395A2 (en) Methods and nucleic acid vectors for rapid expression and screening of cdna clones
JP2015136314A (ja) クローン開発製造販売の方法
HK40037626A (zh) 使用crispr在棒状杆菌属中进行基因组编辑

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20240614

Address after: California, USA

Applicant after: THE BOARD OF TRUSTEES OF THE LELAND STANFORD JUNIOR University

Country or region after: U.S.A.

Applicant after: THE RESEARCH FOUNDATION OF STATE University OF NEW YORK

Address before: California, USA

Applicant before: THE BOARD OF TRUSTEES OF THE LELAND STANFORD JUNIOR University

Country or region before: U.S.A.

TA01 Transfer of patent application right