[go: up one dir, main page]

CN108026137A - Dna寡核苷酸的多对组装 - Google Patents

Dna寡核苷酸的多对组装 Download PDF

Info

Publication number
CN108026137A
CN108026137A CN201680055052.6A CN201680055052A CN108026137A CN 108026137 A CN108026137 A CN 108026137A CN 201680055052 A CN201680055052 A CN 201680055052A CN 108026137 A CN108026137 A CN 108026137A
Authority
CN
China
Prior art keywords
polynucleotides
double
stranded
oligonucleotides
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201680055052.6A
Other languages
English (en)
Inventor
M·J·拉乔伊
J·C·克莱因
J·J·施瓦兹
D·贝克
J·A·森迪莱
L·J·斯图尔特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Washington
Original Assignee
University of Washington
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Washington filed Critical University of Washington
Publication of CN108026137A publication Critical patent/CN108026137A/zh
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/102Mutagenizing nucleic acids
    • C12N15/1031Mutagenizing nucleic acids mutagenesis by gene assembly, e.g. assembly by oligonucleotide extension PCR
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12PFERMENTATION OR ENZYME-USING PROCESSES TO SYNTHESISE A DESIRED CHEMICAL COMPOUND OR COMPOSITION OR TO SEPARATE OPTICAL ISOMERS FROM A RACEMIC MIXTURE
    • C12P19/00Preparation of compounds containing saccharide radicals
    • C12P19/26Preparation of nitrogen-containing carbohydrates
    • C12P19/28N-glycosides
    • C12P19/30Nucleotides
    • C12P19/34Polynucleotides, e.g. nucleic acids, oligoribonucleotides

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Plant Pathology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • General Chemical & Material Sciences (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了用于多重组装寡核苷酸的方法。

Description

DNA寡核苷酸的多对组装
交叉引用
本申请涉及2015年10月1日提交的美国临时专利申请序列号62/235,974,其公开内容通过引用整体并入本文。
关于联邦资助研究的说明
本发明是在美国政府的能源部门-劳伦斯伯克利国家实验室-联合基因组研究所奖金号DE-AC02-05CH11231和国立卫生研究院(NIH)奖金号1R21CA160080下进行的。美国政府对本发明享有一定的权利。
序列表
在此提交的标题为“16-1242-PCT_SequenceListing_ST25.txt”和大小为7kb的序列表通过引用整体并入。
背景技术
传统上,DNA已经通过固相亚磷酰胺化学合成。基于柱的合成产生多达200元(mer),差错率约为每200个核苷酸1个,且每个产物的收率为10至100nmol。基于柱的DNA合成受限于对384-孔板的通量,并且寡核苷酸取决于长度和收率花费0.05美元至1.00美元/碱基对(bp)。用亚磷酰胺化学(例如Agilent)和基于半导体的电化学酸生产阵列(例如CustomArray)而进行的基于喷墨的核苷酸印刷的商业化,具有增加的通量并降低了寡核苷酸合成的成本。这些寡核苷酸的成本范围取决于长度、规模和平台为0.00001-0.001美元/bp。然而,这些平台受限于合成长度短、合成误差率高、收率低以及从复杂库中组装长构建体的挑战。
近来,许多方法解决了阵列合成的寡核苷酸的高错误率,具有成本和保真度之间的折衷。低成本的方法包括蛋白质,例如MutS、聚合酶和其它结合和切割(cleavage)异源双链体的蛋白质。然而,由于这些方法依赖于识别错配并且要求大部分序列相同,所以它们并不总是与复杂库相容,因此必须在单个基因组装之后进行。此外,由于这些方法保持错误率高达每1000个核苷酸1个,因此需要进一步筛选以确认正确的序列。诸如拨出(Dial-Out)PCR的最近的方法依赖于DNA测序,然后检索序列验证的构建体,实现错误率低至10-7。虽然这些方法可以用于复杂的寡核苷酸池,并且产生非常低的错误率,但是这些方法成本高、时间密集且不总是能回收目标分子。
尽管它们的误差率高,但从微阵列切割的廉价寡核苷酸池最近能够对启动子和增强子功能进行高通量分析,为这些调控元件的词汇提供了新的见解。它们也被用于破译遗传变异体在蛋白质功能中的作用。然而,这些研究都受到合成长度短的限制-CustomArray为约160bp,Agilent为约230bp。
合成长度短和错误率高对使用阵列衍生的寡核苷酸用于功能测定和基因组装表现出瓶颈。本文描述了将数千个阵列衍生的寡核苷酸组装成接近顺式调控元件和蛋白结构域的长度估计值的靶标的方法。与现有方法相比,这里描述的方法不限制使用限制性酶的序列空间,具有高通量,并且提供检索无错组装的有效方法。
发明内容
在第一方面,本发明提供了用于组装一个或多个双链多核苷酸的方法,所述方法包括:(a)扩增第一多个单链重叠寡核苷酸,其中所述第一多个单链重叠寡核苷酸包含:(i)能够退火以产生一个或多个双链多核苷酸的具有同源性的重叠区域,和(ii)每个单链重叠寡核苷酸中的至少一个共同引物结合位点;(b)组装一个或多个双链多核苷酸,其中所述组装包括变性、退火和延伸所述第一多个单链重叠寡核苷酸以产生一个或多个双链多核苷酸。
本发明人已经令人惊讶地发现,本发明的方法提供长度在大约200-400或更多个核苷酸之间的数千个多核苷酸的高通量多重组装。此外,本发明的方法提供了检索数千个多核苷酸的无错组装的有效方法。这些发现可以为复杂库的生成和基因合成提供方法。例如,创建3118个这种200bp多核苷酸的库比基于柱的合成方法(约0.84美元/靶标)便宜38倍。本发明的方法可用于以前所未有的成本合成多核苷酸库,使研究人员能够使用精确设计的序列解决问题,而不是依赖于偏倚诱变方法。此外,本文描述的方法可用于基因合成、基因调控、蛋白质功能和定向进化,所有这些都有助于新药物和更好地理解基因组组织。最后,增加可用低成本、高复杂性DNA合成产生的多核苷酸组装的长度将为蛋白质设计和合成生物学提供新的机会。
在一些实施方式中,所述方法还包括:(c)标记所述一个或多个双链多核苷酸,其中所述标记包括使用一对标记引物扩增所述一个或多个双链寡核苷酸以产生一个或多个标记的双链多核苷酸,其中该对标记引物中的每个标记引物包含:(i)包含独特侧翼序列的第一区段,和(ii)包含种子序列的第二区段;(d)对所述一个或多个标记的双链多核苷酸进行测序,其中所述测序包括将所述种子序列结合到测序平台并进行测序反应以识别一个或多个序列验证的多核苷酸;以及(e)检索所述一个或多个序列验证的多核苷酸,其中所述检索包括将互补引物与所述一个或多个序列验证的多核苷酸中的至少一个标记引物的第一区段碱基配对,并且在合适条件和合适试剂的存在下,扩增序列验证的多核苷酸以产生一个或多个验证的多核苷酸;或(c)功能性多肽的表型选择,其中所述表型选择包括酵母展示、噬菌体展示、mRNA展示、核糖体展示、哺乳动物细胞展示、细菌细胞展示、基于乳液的蛋白质选择、一部分基因组的功能互补、或多肽进化领域的专家已知的其它选择方法。
在另一个实施方式中,所述方法进一步包括将两个或更多个双链或验证的多核苷酸逐步组装成组装的多核苷酸产物,其中所述两个或更多个双链或验证的多核苷酸具有能够退火的具有同源性的重叠区域和每个双链或验证的多核苷酸中的至少一个共同引物结合位点;以及(f)在适于退火具有同源性的重叠区域的条件和合适试剂的存在下,将两个或更多个双链或验证的多核苷酸组合,所述试剂用于通过延伸双链或验证的多核苷酸来组装初始所需的多核苷酸产物以产生初始所需的多核苷酸产物;以及(g)将初始所需的多核苷酸产物和下一个双链或验证的多核苷酸组合,其中初始所需的多核苷酸产物和下一个双链或验证的多核苷酸具有能够退火的具有同源性的重叠区域和每个双链或验证的多核苷酸中的至少一个共同引物结合位点,并且在合适试剂的存在下组装初始所需的多核苷酸产物和下一个双链或验证的多核苷酸,所述试剂用于通过延伸初始所需的多核苷酸产物和下一个双链或验证的多核苷酸来对组装的多核苷酸产物进行组装;以及(h)反复地重复(g)以逐步将另外的下一个双链或验证的多核苷酸添加至初始所需的多核苷酸产物以产生组装的多核苷酸产物。
在又一个实施方式中,所述方法进一步包括将两个或更多个双链或验证的多核苷酸分层组装成组装的多核苷酸产物,其中所述两个或更多个双链或验证的多核苷酸具有能够退火的具有同源性的重叠区域和每个双链或验证的多核苷酸中的至少一个共同引物结合位点;以及(f)在适于退火具有同源性的重叠区域的条件和合适试剂的存在下,将两个双链或验证的多核苷酸组合,所述试剂用于通过延伸双链或验证的多核苷酸来组装第一所需的多核苷酸产物以产生第一所需的多核苷酸产物;以及(g)用另外的两个双链或验证的多核苷酸重复(f)以产生第二所需的多核苷酸产物;(e)合并第一所需的多核苷酸产物和第二所需的多核苷酸产物,其中第一所需的多核苷酸产物和第二所需的多核苷酸产物具有能够退火的具有同源性的重叠区域以及第一所需的多核苷酸产物和第二所需的多核苷酸产物中的至少一个共同引物结合位点,并且在合适试剂的存在下组装第一所需的多核苷酸产物和第二所需的多核苷酸产物,所述试剂用于通过延伸第一所需的多核苷酸产物和第二所需的多核苷酸产物来对组装的多核苷酸产物进行组装;以及(h)重复(f)、(g)和(e)以分层组装成对的所需的多核苷酸以产生组装的多核苷酸产物。
附图说明
所公开的示例性方面具有其它优点和特征,这些优点和特征将从详细描述、所附权利要求和附图中更容易地显现。下面简要描述附图。
图1示出了多对组装的概况。总共2271个寡核苷酸靶标被分成10组131-250个寡核苷酸。每个寡核苷酸被分成A和B片段,重叠序列为PCR介导的组装提供>56℃的解链温度(Tm)。所有的寡核苷酸从阵列中切割成一个管。然后用一个共同引物和一个含尿嘧啶的池特异性引物扩增每个亚池。然后用尿嘧啶特异性切除试剂(USERTM),然后用New EnglandBioLabs End Repair试剂盒去除含尿嘧啶的池特异性引物。在PCR组装期间,在添加一组用于扩增的共同外部引物之前,允许相应的亚池退火并延伸5个PCR循环。在PCR组装过程中,可以将M13F和M13R序列引入多核苷酸产物,以允许进行拨出标记和检索序列验证的多核苷酸产物。由160元CustomArray寡核苷酸组装高达252元。
图2示出了用于生成静态标记池的流水线。首先,产生120万个随机13元(5'-NNNNNNNNNNNNN-3';SEQ ID NO:26),并且筛选没有同型鸟嘌呤或同型胞嘧啶片段>5bp(5'-ATTCGGCGGATAT-3';SEQ ID NO:27),没有同型腺嘌呤或同型胸腺嘧啶片段>8bp且GC含量在45%至65%之间。在最后的10bp中也筛选出13元<90%核苷酸同一性,其产生了一组7411个13元。从这组7411个序列中,计算每个成对的吉布斯自由能,并且确定序列的最大数量使得没有两个成员具有dG≤-9kcal/mol。这留下了一组4637个序列,其被分成一组2318个正向标记和2319个反向标记。
图3A示出了以131-250的组组装的所有2271个寡核苷酸靶标通过排序百分比的无错阵列衍生的寡核苷酸的均一性图。
图3B示出了寡核苷酸靶标的数量和大小以及以131-250的组组装的每组寡核苷酸的无错收率。
图3C示出了以131-250的组组装寡核苷酸靶标时组装的收率百分比。基于限制性寡核苷酸计数将每个寡核苷酸靶标置于仓内,该限制性寡核苷酸计数是对于其相应寡核苷酸靶标限制的120万中的无错reads的数量。组装的收率百分比是具有至少一个完全组装的那个仓中的寡核苷酸靶标的百分比。
图3D示出了当以131-250的组组装时,对于所有寡核苷酸,完全、仅错配、小插入缺失(<5bp)、大插入缺失(≥5bp)、截短和未映射reads的百分比。
图3E示出了当以131-250的组组装时,对于每个组装库组,完全、仅错配、小插入缺失(<5bp)、大插入缺失(≥5bp)、嵌合体、截短和未映射reads的百分比。
图3F示出了每组寡核苷酸靶标的均一性(组1-9在131-250个寡核苷酸靶标之间,组10具有131个寡核苷酸靶标)。
图4A示出了复杂性对组装性能和寡核苷酸靶标的百分比的影响,其中每个复杂性级别具有至少一个无错组装。
图4B示出了复杂性对组装性能的影响以及收率(具有至少一个完全reads的寡核苷酸靶标的数量)与复杂性。红条示出了每个复杂性级别的无错组装的寡核苷酸靶标的总数。黑条示出了来自相应组的无错组装的寡核苷酸靶标的数量,它们分别以131-250范围的复杂性的组组装。
图4C示出了复杂性对组装性能的影响,并且基于限制性寡核苷酸计数将每个寡核苷酸靶标置于仓内,该限制性寡核苷酸计数是对于其相应寡核苷酸靶标限制的(120万中的)无错reads的数量。组装的收率百分比是具有至少一个完全组装的那个仓中的寡核苷酸靶标的百分比。
图4D示出了复杂性对组装性能的影响,以及仅在在复杂性增加的组中,完全、仅错配、小插入缺失(<5bp)、大插入缺失(≥5bp)、嵌合体、截短和未映射reads的百分比。
图4E示出了复杂性对组装性能的影响以及每组寡核苷酸靶标的均一性。
图5A示出了组装构建体的误差校正以及黑色的组装构建体及红色和蓝色的其相应的寡核苷酸的每碱基准确度。在启动位置和重叠区域都可以看到更高的准确性。
图5B示出了组装构建体的误差校正和在测序库中仅一个、两个、三个、四个或至少五个不同分子上鉴定的标记百分比的条形图。橙条(池2)和紫条(池6)是两种不同的组装组,各自具有250个寡核苷酸靶标。
图5C示出了组装构建体的误差校正和对于25个检索的组装中的每一个不包含误差的比对reads的百分比。
图6A示出了对于使用一个或两个独特引物初始扩增寡核苷酸的组装,对于在比较每个寡核苷酸池的一个与两个独特引物时两个独立的亚池,完全、仅错配、小插入缺失(<5bp)、大插入缺失(≥5bp)、嵌合、截短和未映射reads的百分比。使用一个独特引物(含尿嘧啶的A/B片段引物)和一种共同引物(YF/YR)或两个独特引物(含尿嘧啶的A/B片段引物和A/B片段独特F/R)(表1)。然后将每个池组装并测序至115000reads。
图6B示出了在比较每个寡核苷酸池的一个与两个独特引物时,具有一个或两个独特引物的一个亚池的一致性。
图7A示出了用于拨出PCR检索的22/25检索反应的代表性Sanger曲线(SEQ ID NO:28)。
图7B示出了用于拨出PCR检索的3/25检索反应的代表性Sanger曲线(SEQ ID NO:29)。
图8A示出了跨越10000个寡核苷酸的寡核苷酸均一性,其对应于用于组装的寡核苷酸靶标的没有重复寡核苷酸的10个亚池。
图8B示出了用于组装的500个寡核苷酸靶标组的没有重复寡核苷酸的组装收率。
图8C示出了来自所有500个池的没有重复寡核苷酸的用于组装的汇编数据。基于限制性寡核苷酸计数将每个寡核苷酸靶置于仓内,该限制性寡核苷酸计数是对于其相应寡核苷酸靶标限制的(52.5万中的)无错reads的数量。组装的收率百分比是具有≥1个完全组装的那个仓中的寡核苷酸靶标的百分比。
图8D示出了来自所有2000个池的没有重复寡核苷酸的用于组装的汇编数据。基于限制性寡核苷酸计数将每个寡核苷酸靶置于仓内,该限制性寡核苷酸计数是对于其相应寡核苷酸靶标限制的(52.5万中的)无错reads的数量。组装的收率百分比是具有≥1个完全组装的那个仓中的寡核苷酸靶标的百分比。
图9示出了收率与寡核苷酸靶标长度。组装后,根据其靶标大小对寡核苷酸靶标进行分仓。黑条示出了在131-250的个别亚池中组装有至少一个无错收率的寡核苷酸靶标的百分比。红条示出了与在一个2271个寡核苷酸靶标的池中的组装相同的分解。
图10示出了与来自CustomArray的之前的输入寡核苷酸相比,当用来自Twist的更高质量、更高均一性的输入寡核苷酸进行时,寡核苷酸靶标的每个组1和组9的均一性图。
图11示出了来自不同供应商(Agilent)的较小组的较长寡核苷酸(230bp序列)的均一性图,导致大于90%的393bp靶序列的组装。
图12示出了分层多对组装的概述。
图13示出了展示分层多对组装的DNA凝胶。
图14示出了分层多对组装的均一性图。
图15示出了使用USERTM切割和另外的尿嘧啶进行衔接子切割而增加的衔接子切割效率。
具体实施方式
引用的所有参考文献均通过引用整体并入本文。在本申请中,除非另有说明,使用的技术可以在几个众所周知的参考文献中的任一个中找到,例如:Molecular Cloning(分子克隆):A Laboratory Manual(实验室手册)(Sambrook等,1989,Cold Spring HarborLaboratory Press),Gene Expression Technology(基因表达技术)(Methods inEnzymology,Vol.185,D.Goeddel编辑,1991.Academic Press,San Diego,CA),“Guide toProtein Purification”,Methods in Enzymology(“蛋白纯化指南”,酶学方法),(MPDeutshcer编辑,(1990)Academic Press,Inc.);PCR Protocols:A Guide to Methods andApplications(PCR协议:方法和应用指南)(Innis等,1990.Academic Press,San Diego,CA),Culture of Animal Cells:A Manual of Basic Technique(动物细胞培养,基本技术手册),第二版(R.I.Freshney.1987.Liss,Inc.New York,NY),Gene Transfer andExpression Protocols(基因转移和表达手册),第109-128页,E.J.Murray编辑,TheHumana Press Inc.,Clifton,N.J.)和Ambion 1998 Catalog(1998年Ambion公司目录)(Ambion,Austin,TX)。
除非另有说明,权利要求和说明书中使用的术语定义如下。在与先前临时专利申请中使用的术语直接冲突的情况下,本说明书中使用的术语应当控制。
本文所示的细节仅作为示例并且仅出于对本发明的优选实施方式的说明性讨论的目的,并且呈现为提供被认为是最有用和容易理解本发明的各种实施方式的原理和概念方面描述的原因。在这方面,并不试图比本发明的基本理解所需要的更详细地示出本发明的结构细节,附图和/或实施例所作的描述使得本领域技术人员对实际上如何可以体现本发明的形式显而易见。
除非在以下实施例中清楚且明确地修改,或者当意义的应用使得任何结构无意义或基本上无意义时,以下定义和解释意味着并旨在控制任何未来的结构。在该术语的构建将使其无意义或基本上无意义的情况下,该定义应取自Webster's Dictionary,第三版或本领域技术人员已知的词典,例如牛津生物化学和分子生物学词典(the OxfordDictionary of Biochemistry and Molecular Biology)(Anthony Smith编辑,牛津大学出版社,牛津,2004年)。
如本文所用,除非上下文另有明确规定,否则单数形式“一个”、“一种”和“该”包括复数指代物。除非另有明确说明,否则本文使用的“和”可与“或”互换使用。
术语“核酸”、“多核苷酸”和“寡核苷酸”可互换使用,是指单链或双链形式的脱氧核糖核苷酸或核糖核苷酸或任一类核苷酸的修饰形式及其聚合物。这些术语应该被理解为包括等同物、由核苷酸类似物制备并适用于所描述的实施方式的RNA或DNA类似物、单链或双链多核苷酸。在某些实施方式中,寡核苷酸可以是化学合成的。
除非上下文另有明确规定,否则本文公开的所有实施方式可以组合使用。
在第一方面,本发明提供了用于组装一个或多个双链多核苷酸的方法,所述方法包括:(a)扩增第一多个单链重叠寡核苷酸,其中所述第一多个单链重叠寡核苷酸包含:(i)能够退火以产生一个或多个双链多核苷酸的具有同源性的重叠区域,和(ii)每个单链重叠寡核苷酸中的至少一个共同引物结合位点;(b)组装一个或多个双链多核苷酸,其中所述组装包括变性、退火和延伸所述第一多个单链重叠寡核苷酸以产生一个或多个双链多核苷酸。
在一些实施方式中,第一多个单链重叠寡核苷酸可以来源于阵列。在这种实施方式中,寡核苷酸可以从商业来源获得。例如,寡核苷酸可以来自构建、定制订购或从商业供应商购买的阵列。这些供应商包括但不限于Agilent、Affymetrix、CustomArray、Nimblegen、MycroArray、LC Sciences和Twist。通常在常规载体上原位合成单链寡核苷酸,其中每个寡核苷酸在基板上的独立点上合成。在一个实施方式中,寡核苷酸可以具有任何长度,但通常为10-400个碱基长或更长。例如,寡核苷酸可以是10至约300个核苷酸,20至约400个核苷酸,30至约500个核苷酸,40至约600个核苷酸或大于约600个核苷酸长。因此,具有5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、110、120、130、140、150、160、170、180、190、200、210、220、230、240、250、260、270、280、290、300、310、320、330、340、350、360、370、380、390、400、410、420、430、440、450、460、470、480、490、500、510、520、530、540、550、560、570、580、590和600个核苷酸长度的寡核苷酸是预期的。来自这种阵列的寡核苷酸可以共价连接到表面或沉积在表面上。本领域已知各种阵列构建方法(例如,无掩模阵列合成器、利用掩模的光引导方法、流动通道方法或点样方法)。
在一些实施方式中,多个单链寡核苷酸可以是2、3、4、5或更多、10或更多、20或更多、50或更多、100或更多、250或更多、500或更多、1000或更多、1500或更多、2000或更多、或2500或更多个寡核苷酸。例如,多个可以是大约2-100、100-250、大约250-450、大约450-700、大约700-950、大约950-1200、大约1200-1450、大约1450-1675、大约1675-1800、大约1800-2025、或大约2025-2275个寡核苷酸。更具体地,多个可以是250、或462、或712、或962、或1212、或1452、或1674、或1805、或2021或2271个寡核苷酸。
在本文所述的方法中使用和产生的寡核苷酸和/或多核苷酸可以预定义或具有所需的序列,这意味着寡核苷酸和/或多核苷酸的序列在合成或组装寡核苷酸和/或多核苷酸之前是已知的和选择的。在一些实施方式中,本文描述的方法使用具有基于待合成的最终组装的多核苷酸产物的序列而确定的序列的寡核苷酸和/或多核苷酸。应该理解,不同的寡核苷酸可以被设计为具有不同的长度。在一些实施方式中,组装的多核苷酸产物的序列可以分成多个较短的寡核苷酸序列,其可以使用本文描述的方法而逐步地、分层地和/或平行地组装成单个或多个所需的或组装的多核苷酸产物。在某些实施方式中,第一多个单链重叠寡核苷酸中的每个寡核苷酸的预定义序列还包含衔接子序列。在一些实施方式中,衔接子序列可以包含是完全简并序列或部分简并序列的简并序列。
在某些实施方式中,衔接子序列可以具有任何合适的长度。在一些实施方式中,衔接子序列在大约5至30、5至25、5至20、5至15、5至10、10至30、10至25、10至20、10至15、15至30、15至25、15至20、20至30、20至25、25至30之间或超过30个核苷酸长度。在其它实施方式中,衔接子序列为大约5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30或超过30个核苷酸长度。在其它实施方式中,衔接子序列的长度可以高达大约100个或更多个核苷酸。无论其长度如何,衔接子序列可以包括完全简并序列、部分简并序列或已知的非简并序列。在某些实施方式中,衔接子序列可以是完全简并序列。例如,衔接子序列可以包含长度为13个核苷酸的序列(13元)并且可以具有完全简并序列5'-NNNNNNNNNNNNN-3'(SEQ ID NO:26),其中每个N可以是任何天然或非天然的核苷酸。尽管使用13元作为示例,但应该理解,完全简并序列可以具有如上所述的任何合适长度。在其它实施方式中,衔接子序列可以是散布有恒定碱基的部分简并序列。例如,在一个实施方式中,衔接子可以是长度为20个核苷酸(20元),其具有15个简并核苷酸,其中散布有5个固定或恒定核酸。在其它实施方式中,部分简并序列可以包括多个恒定核酸,其被设计为含有特定CG偏差或百分比(例如,40%CG以下,40-45%CG,45-50%CG,50-55%CG,55-60%CG或超过60%CG)。尽管使用20元作为示例,但应该理解,部分简并序列可以具有如上所述的任何合适长度。此外,简并或固定的部分简并序列的部分可以被确定或设计为任何长度或其部分,并且可以以任何合适的组合。在其它实施方式中,寡核苷酸可以用一组已知的非简并衔接子序列标记。如下面进一步描述的,该组已知的非简并衔接子序列可以是用作识别标记的独特侧翼序列的一部分。可以设计独特侧翼序列,使得每个已知的衔接子序列对于每个成员都是不同的。
在一些实施方式中,可以扩增寡核苷酸或多核苷酸以获得用于另外或下游步骤的更大量的寡核苷酸或多核苷酸。聚合酶链式反应(PCR)是本领域技术人员常规进行的分子生物学中的DNA扩增方法,并且可用于扩增DNA片段的单个拷贝或几个拷贝(即寡核苷酸或多核苷酸)横跨几个数量级,产生数千至数百万个特定DNA序列的拷贝。PCR依赖于热循环,所述热循环由重复加热和冷却用于DNA熔解(即变性)和DNA酶促复制的反应的循环组成。含有与目标区域互补的序列以及DNA聚合酶的引物是实现选择性和重复扩增的关键组件。随着PCR的进行,所产生的DNA本身被用作复制模板,开始DNA模板成指数扩增的链式反应。通常,PCR使用热稳定的DNA聚合酶,实例包括但不限于KAPA HIFITM、Taq(来自细菌Thermusaquaticus的热稳定DNA聚合酶)和Pfu(来自细菌Pyrococcus furiosus的具有3'至5'外切核酸酶/校读活性的嗜热DNA聚合酶)。通常,PCR由一组20-40次重复的温度变化(即循环)组成,每个循环(变性、退火和延伸)通常由包含聚合酶、引物和dNTP的溶液中的2-3个离散温度步骤组成。
在另一个实施方式中,寡核苷酸或多核苷酸可以包括侧接5'和3'序列的预定义的寡核苷酸组装序列。预定义的寡核苷酸组装序列被设计用于掺入组装的寡核苷酸或所需的多核苷酸产物。侧翼序列被设计用作用于扩增、标记或检索的衔接子,并且不打算将其掺入组装的寡核苷酸或所需的多核苷酸产物中。侧翼衔接子、扩增、标记或检索序列可以用作通用引物或共同引物或设定特异性引物序列以扩增共享相同扩增序列但具有不同中央组装序列的多种不同的组装寡核苷酸。在一些实施方式中,扩增后去除侧翼序列以产生仅包含组装序列的寡核苷酸。
在某些实施方式中,寡核苷酸或多核苷酸包含至少一个含尿嘧啶的引物区域。在一些实施方式中,尿嘧啶残基位于寡核苷酸的末端。在其它实施方式中,尿嘧啶残基是内部的。在其它实施方式中,含尿嘧啶的引物区域含有两个连续的尿嘧啶残基。在一些实施方式中,尿嘧啶DNA糖基化酶(UDG)可用于水解寡核苷酸中的尿嘧啶糖苷键,从而去除尿嘧啶并在DNA中产生碱敏感的碱性位点,随后可以通过内切核酸酶、加热或碱处理。例如,通过使寡核苷酸与尿嘧啶DNA糖基化酶和DNA糖基化酶-裂解酶核酸内切酶VIII接触以在尿嘧啶位置产生单核苷酸间隙,以从寡核苷酸中去除含尿嘧啶的引物区域。
如本文所用,引物或引物对指天然或合成的寡核苷酸对(即正向和反向引物),其能够在与多核苷酸模板形成双链体时充当核酸合成的启动点并从其3'末端沿着模板延伸以形成延伸双链体。在延伸过程中添加的核苷酸序列由模板多核苷酸的序列决定。引物通常通过DNA聚合酶延伸。在某些实施方式中,通用引物或共同引物结合位点是指用于扩增寡核苷酸的序列对于所有寡核苷酸都是通用的,使得可以使用单组通用引物扩增所有这种寡核苷酸。在某些实施方式中,单独或独特的引物对每个寡核苷酸都是特异性的,并且在5'末端或3'末端或两者上具有结合位点。在一些实施方式中,引物/引物结合位点可以被设计为临时的。例如,临时引物可以通过化学、光基或酶裂解来去除。例如,引物/引物结合位点可以被设计为包括限制性内切酶切割位点或尿嘧啶残基。在示例性实施方式中,引物/引物结合位点含有至少一个尿嘧啶残基,其可以通过使寡核苷酸与尿嘧啶DNA糖基化酶(UDG)和DNA糖基化酶-裂解酶核酸内切酶VIII接触以在尿嘧啶位置处产生单核苷酸间隙。
在又一个实施方式中,寡核苷酸和/或多核苷酸含有能够退火的具有同源性的重叠区域,并且重叠区域具有大于56℃的解链温度(Tm)。寡核苷酸可以包括具有重叠相同序列的一个或多个寡核苷酸对、具有重叠互补序列的一个或多个寡核苷酸对或其组合。组装的寡核苷酸和/或多核苷酸被设计成具有能够退火的具有同源性的重叠区(即互补序列)。在一些实施方式中,寡核苷酸和/或多核苷酸是双链DNA。在两个DNA片段上存在具有能够退火的具有同源性(互补序列)的重叠区域促进了寡核苷酸和/或多核苷酸的组装。重叠序列可以具有任何合适的长度。例如,重叠序列可以涵盖组装反应中使用的一个或多个多核苷酸的全长。重叠序列长度可以在约5至约500个寡核苷酸之间。例如,约10至100之间,约10至75之间,约10至50个核苷酸之间。或约20,约25,约30,约35,约45,约50,约55,约60,约65,约70,约75,约80,约85,约90,约95或约100个核苷酸长。然而,可以使用更短、更长或中间的重叠长度。应该理解的是,组装反应中使用的不同多核苷酸之间的重叠可以具有不同的长度。更具体地,可以使用定制python脚本将每个靶多核苷酸片段化成两个片段(例如A和B),该脚本确定交叉杂交的最小机会的重叠。简而言之,使用python自动执行以下步骤:重叠区域的碱基从中点7位置开始动态添加,直到熔解温度>56℃。然后针对一组寡核苷酸中的所有序列检查重叠区域,并且如果<15个连续碱基与该组中任何其它序列比对,则接受重叠区域。为了快速评估针对给定组中所有序列的比对,使用简单的滑动算法,其评分最长的连续比对。如果重叠序列在这些条件下失败,则在该序列区域内最多可以随机换出6个密码子,并且如果熔解温度仍然>56℃,则重复比对步骤。如果条件仍未满足,则重叠区域的起始位置被偏移并重复该过程。探索围绕起始位置的6个碱基的窗口。
在一个实施方式中,寡核苷酸和/或多核苷酸可以在聚合酶介导的组装反应中从一个或多个寡核苷酸和/或多核苷酸组装,所述寡核苷酸和/或多核苷酸在一轮或多轮聚合酶介导的延伸中组合并延伸。在一些实施方式中,待组装的寡核苷酸和/或多核苷酸可以是扩增产物(例如PCR产物)。在其它实施方式中,一个或多个双链寡核苷酸的组装包括变性、退火和延伸寡核苷酸和/或多核苷酸。基于聚合酶的组装技术可能涉及一种或多种合适的聚合酶,其可以在合适的核苷酸和退火的模板存在下在5'至3'方向上催化寡核苷酸的基于模板的延伸。聚合酶可以是热稳定的。聚合酶可以从重组或天然来源获得。在一些实施方式中,可以使用来自嗜热生物体的热稳定聚合酶。在一些实施方式中,聚合酶可能不具有或几乎不具有校读活性。热稳定DNA聚合酶的示例包括但不限于:KAPA HIFITM、Taq(来自细菌Thermus aquaticus的热稳定DNA聚合酶);Pfu(来自Pyrococcus furiosus的具有3'至5'外切核酸酶/校读活性的嗜热DNA聚合酶);DNA聚合酶和(外切)DNA聚合酶(来自Thermococcus litoralis的具有或不具有3'至5'外切核酸酶/校读活性的嗜热DNA聚合酶;也称为Tli聚合酶);DeepDNA聚合酶和Deep(外切)DNA聚合酶(来自Pyrococcus种GB-D的具有或不具有3'至5'外切核酸酶和/或校读活性的嗜热DNA聚合酶;可从New England Biolabs获得);KOD HiFi(具有3'至5'核酸外切酶/校读活性的重组Thermococcus kodakaraensis KOD1 DNA聚合酶,可从Novagen获得);BIO-X-ACT(具有5'至3'DNA聚合酶活性和3'至5'校读活性的聚合酶的混合物);Klenow片段(大肠杆菌DNA聚合酶I的N-末端截短,其保留聚合酶活性,但失去了5'至3'外切核酸酶活性,可从例如Promega和NEB获得);SEQUENASETM(缺乏3'至5'外切核酸酶活性的T7DNA聚合酶);Phi29(噬菌体29DNA聚合酶,可用于例如TEMPLIPHITM DNA测序模板扩增试剂盒中的滚环扩增,可从Amersham Biosciences获得);TOPOTAQTM(一种杂合聚合酶,其结合超稳定DNA结合结构域和Methanopyrus拓扑异构酶的DNA解链活性,不具有外切核酸酶活性,可从Fidelity Systems获得);包含具有核酸外切酶活性的校读结构域的TOPOTAQ HIFI;PHUSIONTM(具有持续合成增强结构域的Pyrococcus样酶,可从New England Biolabs获得);任何其它合适的DNA聚合酶,或其两种或更多种的任何组合。
在其它实施方式中,寡核苷酸和/或多核苷酸可以使用其它组装方法组装,例如连接酶链式反应(LCR;参见Wiedmann等,PCR Methods Appl.3(4):S51-64(1994))。更具体地,基于连接的多重组装是指涉及多个寡核苷酸和/或多核苷酸的连接的多重组装模式。在一些实施方式中,基于连接的组装反应可用于组装含有一个或多个已知或预测会干扰基于聚合酶的组装反应的序列特征的寡核苷酸。因此,可以从多个中间片段(例如在200和1000个碱基长之间的片段)组装多核苷酸,其中每个中间片段使用基于聚合酶的反应或基于连接酶的反应进行组装,这取决于中间片段是否包含干扰序列特征。在一些实施方式中,选择片段边界以便分离使用基于连接的技术而组装的一个或几个(例如2、3、4或5个)片段中的干扰序列。应该理解,包含所有干扰序列特征所需的片段的数量可取决于组装的靶多核苷酸的长度,干扰序列特征在多核苷酸上的分布和/或正在通过连接进行组装的片段的长度。在一些实施方式中,选择片段大小和边界以便通过连接组装少于约50%(例如,约45%,40%,35%,30%,25%,20%,15%,10%,5%,或更少)的片段。在一些实施方式中,在进一步组装之前,通过连接组装的一个或多个片段可以在宿主细胞中体内扩增(例如克隆到载体中并转化到宿主细胞中)。在某些实施方式中,在进一步组装之前,通过连接组装的一个或多个片段可以在体外扩增(例如使用扩增反应如PCR或LCR反应等)。例如,通过连接和/或延伸组装的每个片段可在其5'和/或3'末端包含标记序列,使得对应于连接组装片段的5'末端的寡核苷酸和/或对应于连接组装片段的3'末端的寡核苷酸可以被设计为含有非靶序列的片段(例如标记),其中标记序列与可以用作扩增引物(例如作为PCR引物)的特定引物相同或互补。因此,非靶序列或标记可以用于扩增每个连接组装片段和/或聚合酶组装片段。在一些实施方式中,两个或更多个中间组装片段(通过基于连接或基于聚合酶的方法组装)可以包含共同的5'非靶序列(例如5'标记)和/或共同的3'非靶序列(例如3'标记)。因此,可以使用对应于共同的非靶序列的适当引物对来同时扩增这些片段(例如平行或在相同的反应混合物中)。在一些情况下,用于扩增多个寡核苷酸或其组装序列(例如靶标片段)的非靶序列可以用于扩增组装在不同的基于连接的组装反应中的两个或更多个不同片段。随后可通过本文其它地方描述的各种方法从扩增的多核苷酸中去除非靶序列,包括例如IIS型限制性酶、UDG或基于T4DNA聚合酶的技术。在一些实施方式中,通过连接组装的一个或多个片段可以在没有任何插入扩增的情况下被添加至随后的组装反应(例如随后的基于连接或聚合酶的延伸反应)。然而,应该理解,在进一步组装之前,通过连接组装的片段可以被浓缩和/或纯化,不管它们是否被扩增。剩余的片段可以通过延伸组装(例如在基于聚合酶的组装反应中)。
在其它实施方式中,寡核苷酸和/或多核苷酸可以使用其它组装方法组装,例如迭代封盖组装(ICA)。迭代封端组装可以特别用于重复模块DNA的组装,并且包括单体在固体支持物上的连续连接以及封闭寡核苷酸以增加全长产物的频率(参见Briggs等,Nucl.Acids Res.40(15):e117(2012))。
在某些实施方式中,一个或多个双链寡核苷酸的组装包含至少5个变性、退火和延伸循环。例如,使用qPCR以及相应的A和B DNA片段,用高保真度DNA聚合酶(例如KAPAHIFITM)组装相应的A和B片段寡核苷酸。经过5个循环的退火和延伸后,可以加入另外的引物,并且反应可以继续进行另外的循环(除了前5个循环之外,通常为20-25个循环)。
在其它实施方式中,双链或验证的多核苷酸的组装发生在寡核苷酸的各组或池中。在某些实施方式中,寡核苷酸的每个组或池可以共享独特引物结合位点,其选择性扩增寡核苷酸的特定组或池。每个组中寡核苷酸的数量可以在大约100-250、大约250-450、大约450-700、大约700-950、大约950-1200、大约1200-1450、大约1450-1675、大约1675-1800、大约1800-2025、或大约2025-2275个双链或验证的多核苷酸的范围内。更具体地,组或池可以是250、或462、或712、或962、或1212、或1452、或1674、或1805、或2021或2271个寡核苷酸。在一些实施方式中,双链或验证的多核苷酸的组装可以发生在多于2275个寡核苷酸的组或池中。在一个实施方式中,所述方法包括组装超过2000个双链或验证的多核苷酸,并且其中所述双链或验证的多核苷酸具有>50%的准确度,>60%的准确度,>70%的准确度,>80%的准确度,>90%的准确度,>95%的准确度,或>99%的准确度。
寡核苷酸组装或多重寡核苷酸组装是指其中预定的或预定义的核酸区段(即寡核苷酸和/或多核苷酸的序列在合成或组装寡核苷酸和/或多核苷酸之前是已知和选择的)可以是在多重组装反应中由多个不同的起始核酸片段(例如寡核苷酸)组装。多重寡核苷酸组装反应的某些方面通过以下对多重寡核苷酸组装反应的某些实施方式的描述来说明。应该理解的是,在寡核苷酸的情况下对组装反应的描述并不是限制性的。本文所述的组装反应可以使用从一个或多个不同来源获得的起始核酸进行。如本文所用,组装寡核苷酸具有设计成并入在组装过程期间产生的所需的多核苷酸产物中的序列。然而,应该理解的是,在单链寡核苷酸的背景下对组装反应的描述并非意在限制。在一些实施方式中,图中所示和本文所述的一个或多个起始寡核苷酸可以作为双链核酸提供。因此,应该理解的是,在附图和说明书阐述了单链核酸的组装的情况下,预期了一个或多个互补核酸的存在。因此,本文描述的在单链组装寡核苷酸的背景下的反应中可以包括一个或多个双链互补寡核苷酸。然而,在一些实施方式中,一个或多个互补核酸的存在可以通过与输入组装寡核苷酸之一竞争杂交来干扰组装反应。因此,如本文所述或所示,在一些实施方式中,组装反应可以仅涉及单链组装寡核苷酸(即第一多个单链寡核苷酸可以以没有它们的互补链的单链形式提供)。然而,在某些实施方式中,一个或多个互补寡核苷酸的存在可能对组装反应没有或几乎没有影响。在一些实施方式中,可以在组装的一个或多个步骤期间掺入互补寡核苷酸。在又一些实施方式中,组装寡核苷酸及其互补链可以在相同的组装条件下经由在相同反应混合物中的平行组装反应来组装。在某些实施方式中,由多个起始寡核苷酸的组装产生的所需的多核苷酸产物可以与寡核苷酸的组装产生的寡核苷酸产物相同,所述寡核苷酸产物与起始寡核苷酸互补(例如在一些实施方式中,其中组装步骤导致生产双链核酸产物)。在一些实施方式中,输入寡核苷酸可在使用前扩增。所得产物可能是双链的。在一些实施方式中,双链寡核苷酸的一条链可以在使用之前被去除,使得仅预定的单链被添加到组装反应中。
在一些实施方式中,所述方法还包括:(c)标记所述一个或多个双链多核苷酸,其中所述标记包括使用一对标记引物扩增所述一个或多个双链寡核苷酸以产生一个或多个标记的双链多核苷酸,其中该对标记引物中的每个标记引物包含:(i)包含独特侧翼序列的第一区段,和(ii)包含种子序列的第二区段;(d)对所述一个或多个标记的双链多核苷酸进行测序,其中所述测序包括将所述种子序列结合到测序平台并进行测序反应以鉴定一个或多个序列验证的多核苷酸;以及(e)检索所述一个或多个序列验证的多核苷酸,其中所述检索包括将互补引物与所述一个或多个序列验证的多核苷酸中的至少一个标记引物的第一区段碱基配对,并且在合适条件和合适试剂的存在下,扩增序列验证的多核苷酸以产生一个或多个验证的多核苷酸;或(c)功能性多肽的表型选择,其中所述表型选择包括酵母展示、噬菌体展示、mRNA展示、核糖体展示、哺乳动物细胞展示、细菌细胞展示、基于乳液的蛋白质选择、一部分基因组的功能互补、或多肽进化领域的专家已知的其它选择方法。
在另一个实施方式中,所述方法进一步包括将两个或更多个双链或验证的多核苷酸逐步组装成组装的多核苷酸产物,其中所述两个或更多个双链或验证的多核苷酸具有能够退火的具有同源性的重叠区域和每个双链或验证的多核苷酸中的至少一个共同引物结合位点;以及(f)在适于退火具有同源性的重叠区域的条件和合适试剂的存在下,将两个或更多个双链或验证的多核苷酸组合,所述试剂用于通过延伸双链或验证的多核苷酸来组装初始所需的多核苷酸产物以产生初始所需的多核苷酸产物;以及(g)将初始所需的多核苷酸产物和下一个双链或验证的多核苷酸组合,其中初始所需的多核苷酸产物和下一个双链或验证的多核苷酸具有能够退火的具有同源性的重叠区域和每个双链或验证的多核苷酸中的至少一个共同引物结合位点,并且在合适试剂的存在下组装初始所需的多核苷酸产物和下一个双链或验证的多核苷酸,所述试剂用于通过延伸初始所需的多核苷酸产物和下一个双链或验证的多核苷酸来对组装的多核苷酸产物进行组装;以及(h)反复地重复(g)以逐步将另外的下一个双链或验证的多核苷酸添加至初始所需的多核苷酸产物以产生组装的多核苷酸产物。
在又一个实施方式中,所述方法进一步包括将两个或更多个双链或验证的多核苷酸分层组装成组装的多核苷酸产物,其中所述两个或更多个双链或验证的多核苷酸具有能够退火的具有同源性的重叠区域和每个双链或验证的多核苷酸中的至少一个共同引物结合位点;以及(f)在适于退火具有同源性的重叠区域的条件和合适试剂的存在下,将两个双链或验证的多核苷酸组合,所述试剂用于通过延伸双链或验证的多核苷酸来组装第一所需的多核苷酸产物以产生第一所需的多核苷酸产物;以及(g)用另外的两个双链或验证的多核苷酸重复(f)以产生第二所需的多核苷酸产物;(e)合并第一所需的多核苷酸产物和第二所需的多核苷酸产物,其中第一所需的多核苷酸产物和第二所需的多核苷酸产物具有能够退火的具有同源性的重叠区域以及第一所需的多核苷酸产物和第二所需的多核苷酸产物中的至少一个共同引物结合位点,并且在合适试剂的存在下组装第一所需的多核苷酸产物和第二所需的多核苷酸产物,所述试剂用于通过延伸第一所需的多核苷酸产物和第二所需的多核苷酸产物来对组装的多核苷酸产物进行组装;以及(h)重复(f)、(g)和(e)以分层组装成对的所需的多核苷酸以产生组装的多核苷酸产物。
在其它实施方式中,组装的多核苷酸产物是至少约250个核苷酸,至少约500个核苷酸,至少约1000个核苷酸,至少约2500个核苷酸,至少约5000个核苷酸,至少约10000个核苷酸,至少约10000个核苷酸,至少约50000个核苷酸,至少约100000个核苷酸或至少约300000个核苷酸的长度。应该理解的是,对组装的多核苷酸产物的核苷酸长度没有限制。
如本文所用,两个或更多个多核苷酸的分步组装指的是组合两个或更多个多核苷酸以产生更大的多核苷酸。例如,可以组装两个多核苷酸(例如A和B)以产生第一所需的多核苷酸(例如AB),并且可以组装下一个多核苷酸(例如C)以产生下一个所需的多核苷酸产物(例如ABC),然后可以添加另一个多核苷酸(例如D)以产生所需的多核苷酸产物(例如ABCD)。该过程可以根据需要重复以产生所需的多核苷酸产物。在另一个实施方式中,组装的多核苷酸产物是至少约250个核苷酸,至少约500个核苷酸,至少约1000个核苷酸,至少约2500个核苷酸,至少约5000个核苷酸,至少约10000个核苷酸,至少约50000个核苷酸,至少约100000个核苷酸或至少约300000个核苷酸长度。可以组装1、2、3、4、5或更多、10或更多、20或更多、50或更多、100或更多、250或更多、500或更多、1000或更多、1500或更多、2000或更多、或2500或更多个多核苷酸。
如本文所用,两个或更多个多核苷酸的分层组装是指组合两个或更多个多核苷酸以产生更大的多核苷酸。例如,可以组装两个多核苷酸(例如A和B)以产生第一所需的多核苷酸(例如AB),并且可以组装另外两个多核苷酸(例如C和D)以产生第二所需的多核苷酸产物(例如CD),并且然后可以组装第一所需的多核苷酸(例如AB)和第二所需的多核苷酸产物(例如CD)以产生所需的多核苷酸产物(例如ABCD)。在一些实施方式中,可以组装两个或更多个亚组装(例如ABCD和EFGH)(例如ABDCEFGH)。该过程可以根据需要重复以产生所需的多核苷酸产物。在另一个实施方式中,组装的多核苷酸产物是至少约250个核苷酸,至少约500个核苷酸,至少约1000个核苷酸,至少约2500个核苷酸,至少约5000个核苷酸,至少约10000个核苷酸,至少约50000个核苷酸,至少约100000个核苷酸或至少约300000个核苷酸长度。可以组装1、2、3、4、5或更多、10或更多、20或更多、50或更多、100或更多、250或更多、500或更多、1000或更多、1500或更多、2000或更多、或2500或更多个多核苷酸。多核苷酸和/或亚组装片段可以更快速和可重复地结合和处理以增加组装的通量速率。
在一些实施方式中,逐步或分层组装可以组装3、4、5、6、7、8、9、10或更多、15或更多、20或更多、25或更多、30或更多、或50或更多个多核苷酸。例如,可以组装15至20、20至25、25至30、30至35、35至40、40至45、45至50、或50或更多个不同的多核苷酸。组装的每个多核苷酸产物可以在约100个核苷酸长和约1000个核苷酸长之间。例如,组装的多核苷酸产物可以是至少约250个核苷酸,至少约500个核苷酸,至少约1000个核苷酸,至少约2500个核苷酸,至少约5000个核苷酸,至少约10000个核苷酸,至少约50000个核苷酸,至少约100000个核苷酸或至少约300000个核苷酸。应该理解的是,对组装的多核苷酸产物的核苷酸长度没有限制。
在一些实施方式中,标记引物含有独特侧翼序列或标记,其可以具有任何合适的长度,以允许产生足够数量的独特序列,足以允许每个寡核苷酸在一个或两个末端上用独特序列标记。例如,每个寡核苷酸或多核苷酸可以在其5'和/或3'末端包含独特侧翼序列或标记序列,使得对应于组装的多核苷酸产物的5'末端的寡核苷酸或对应于组装的多核苷酸产物的3'末端的寡核苷酸可以被设计成含有非靶序列(例如标记)的区段,其中标记序列与可以用作扩增引物(例如作为PCR引物)的特异性引物相同或互补。因此,非靶序列或标记可用于扩增每个组装的多核苷酸产物。在某些实施方式中,每个独特侧翼序列或标记具有以下特性:(a)同型鸟嘌呤或同型胞嘧啶的连续核苷酸残基(例如GGGGGG或CCCCCC或GCGCGC或GGGCCC)不超过5个;(b)同型腺嘌呤或同型胸腺嘧啶连续核苷酸残基(例如AAAAAAAAA或TTTTTTTTT或ATATATATA或AAAAATTTT)不超过8个;以及(c)鸟嘌呤-胞嘧啶(GC)含量在45%至65%之间。在一些实施方式中,独特侧翼序列是大约5至30、5至25、5至20、5至15、5至10之间或超过30个核苷酸长度。在其它实施方式中,独特侧翼序列是大约5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30或超过30个核苷酸长度。在一个实施方式中,标记引物的独特侧翼序列包含具有以下特性的随机13核苷酸序列(5'-NNNNNNNNNNNNN-3';SEQ ID NO:26):(a)同型鸟嘌呤或同型胞嘧啶连续核苷酸残基不超过5个;(b)同型腺嘌呤或同型胸腺嘧啶连续核苷酸残基不超过8个;以及(c)鸟嘌呤-胞嘧啶(GC)含量在45%至65%之间。
在某些实施方式中,标记引物的种子序列包含能够将种子序列结合到测序平台并进行测序反应的15-25个核苷酸的序列。例如,可以根据本文所述的方法使用的合适的DNA测序技术可以包括但不限于454焦磷酸测序、Illumina基因组分析仪、AB SOLiD和HeliScope、纳米孔测序方法、DNA合成的实时观察、电子显微镜测序、双脱氧终止和电泳、微电泳方法、杂交测序和质谱法。基于特定因素和本文的教导,本领域技术人员可以确定合适的测序条件。
在某些实施方式中,共同引物结合位点是指用于扩增寡核苷酸的序列,所述寡核苷酸对每个单独的组装的寡核苷酸的所有寡核苷酸是共同的。例如,当待组装的寡核苷酸包含两个寡核苷酸(例如寡核苷酸A和寡核苷酸B)时,共同引物结合位点可以指寡核苷酸A在所有寡核苷酸上具有相同的引物结合位点,其中所有A寡核苷酸具有彼此相同的引物结合位点,并且寡核苷酸B的所有寡核苷酸应该具有彼此相同的引物结合位点。在某些实施方式中,寡核苷酸A的共同引物不同于寡核苷酸B的共同引物结合位点。在其它实施方式中,共同引物结合位点是指用于扩增对每个单独组的组装的寡核苷酸的所有寡核苷酸是共同的寡核苷酸的序列。例如,当待组装的寡核苷酸包含两组寡核苷酸(例如,寡核苷酸组A和寡核苷酸组B)时,共同引物结合位点可以指寡核苷酸组A在所有寡核苷酸上具有相同的引物结合位点,其中所有组A寡核苷酸具有彼此相同的引物结合位点,并且寡核苷酸组B的所有寡核苷酸应该具有彼此相同的引物结合位点。在某些实施方式中,寡核苷酸组A的共同引物不同于寡核苷酸组B的共同引物结合位点。
在通过测序多核苷酸组或多聚核苷酸产物组来验证每个多核苷酸的准确性之后,多核苷酸组或多聚核苷酸产物的每个成员的序列是已知的,并且验证一个或多个所需的准确序列,并且选择回收和扩增。用于选择、回收和扩增一个或多个所需的多核苷酸或组装的多核苷酸产物的方法包括利用独特侧翼序列选择性靶向选择所需的多核苷酸或组装的多核苷酸产物的任何合适的选择方法,所述多核苷酸或多核苷酸产物被确认为一个或多个准确序列。这种选择方法在本文中被称为“拨出检索”(参见美国专利申请公开号20120283110,其通过引用并入)。合适的拨出选择方法可以包括但不限于基于杂交的捕获方法,针对用两组包括两个拨出标记序列的衔接子序列标记的核酸库成员的基于2-引物的PCR方法,针对用一组具有单个拨出标记序列的衔接子序列标记的核酸库成员的1-引物PCR方法,线性扩增,多重置换扩增,滚环扩增和基于连接的方法(例如选择性环化方法、分子反转探针)。
在一个实施方式中,用于选择、回收和扩增一个或多个所需的多核苷酸或组装的多核苷酸产物的检索方法可以是在本文中称为“拨出PCR”的选择性扩增方法。拨出PCR方法是用于获得序列验证的核酸(例如寡核苷酸或所需的多核苷酸或组装的多核苷酸产物)的无克隆且高度平行的方法。可以使用本领域已知的任何合适的PCR协议来扩增序列验证的靶向所需的多核苷酸或组装的多核苷酸产物酸,包括但不限于以下实施例中描述的那些方法。
在其它实施方式中,用于选择、回收和扩增一个或多个所需的多核苷酸或组装的多核苷酸产物的检索方法可以是功能性多肽的表型选择方法,其中表型选择包括酵母展示(参见Tinberg等,Nature 501(7466):212-16(2013))、噬菌体展示、mRNA展示、核糖体展示、哺乳动物细胞展示、细菌细胞展示、基于乳液的蛋白质选择、一部分基因组的功能互补、或多肽进化领域的专家已知的其它选择方法中的一种或多种。例如,可以将来自大肠杆菌基因组的必需多核苷酸序列的变体组装成多核苷酸产物,然后将其导入大肠杆菌基因组中,同时删除内源大肠杆菌多核苷酸序列。在这种示例中,存活细胞将具有可以功能性取代原始的所需的多核苷酸产物序列。在另一个实施方式中,可以进行蛋白质功能的高通量筛选。
在某些实施方式中,为了从多重寡核苷酸组装获得所需的多核苷酸产物,可以使用纯化步骤来去除起始寡核苷酸和/或不完全组装的片段。在一些实施方式中,纯化步骤可以涉及色谱法、电泳或其它物理尺寸分离技术(例如,XP珠;Agencourt)。在某些实施方案中,纯化步骤可以涉及扩增全长产物。例如,对应于组装的多核苷酸产物的预定5'和3'末端的一对扩增引物(例如PCR引物)将以指数方式优先扩增全长产物。应该认识到,如果较小的组装产物包含预定的5'和3'末端,则它们可以被放大。然而,只有在组装过程中发生错误(例如导致靶核酸的一个或多个区域缺失或遗漏)可能产生含有预定5'和3'末端的这种小于预期的产物且可以通过扩增产物的大小分离去除。因此,含有相对高量的全长产物的制剂可以通过使用与预定的5'和3'末端对应的引物扩增组装反应的产物而直接获得。在一些实施方式中,可以使用另外的纯化(例如大小选择)技术来获得扩增的全长核酸片段的更纯化的制备物。
本领域技术人员将理解,通过本文所述方法产生的多核苷酸产物可用于涉及合成核酸的生产和/或使用的一系列应用。如本文所述,这些方法提供了以更高的效率组装合成的核酸,具有显著更高的准确性并且具有显著更低的成本。可以在体外(例如使用PCR)或体内(例如通过克隆到合适的载体中)进一步扩增得到的多核苷酸产物,并分离和/或纯化。组装的多核苷酸产物可以转化到宿主细胞(例如原核生物、真核生物或其它宿主细胞)中。因此,多核苷酸产物可用于产生重组生物体。在一些实施方式中,多核苷酸产物可以是用于替代宿主生物体的全部或部分基因组的全基因组或大片段基因组。重组生物体也可以用于各种研究,工业、农业和/或医学应用。在其它实施方式中,可以制备针对由一个或多个多核苷酸产物编码的多肽或其片段的抗体。在某些实施方式中,可以将多核苷酸产物作为库提供用于研究和开发(例如鉴定潜在的治疗性蛋白质或多肽,鉴定药物开发的潜在蛋白质靶标)中的筛选。在一些实施方式中,多核苷酸产物可以用作治疗剂(例如用于基因治疗或用于基因调节)。
示例性方面
以下是用于实施本发明的具体方面的实施例。这些实施例仅用于说明的目的,并不意图以任何方式限制本发明的范围。已经努力确保所使用的数字(例如量和温度等)的准确性,但是当然应当允许一些实验误差和偏差。
材料和方法
靶标设计
靶多核苷酸序列的范围为独特序列的156-216个碱基,并分成10组。使用定制的python脚本将每个寡核苷酸靶标分成两个片段(A和B),其确定交叉杂交的最小机会的重叠(参见Klein等,Nucleic Acids Research,44(5):e43,补充材料)。简而言之,使用python自动执行以下步骤:重叠区域的碱基从中点7位置开始动态添加,直到熔解温度>56℃。然后针对一组寡核苷酸中的所有序列检查重叠区域,并且如果<15个连续碱基与该组中任何其它序列比对,则接受重叠区域。为了快速评估针对给定组中所有序列的比对,使用简单的滑动算法,其对最长的连续比对评分。如果重叠序列在这些条件下失败,则在该序列区域内最多可以随机换出6个密码子,并且如果熔解温度仍然>56℃,则重复比对步骤。如果条件仍未满足,则重叠区域的起始位置被偏移并重复该过程。探索围绕起始位置的6个碱基的窗口。A片段的5'末端和B片段的3'末端附加有常见的18bp衔接子。两个腺嘌呤被附加到A片段的3'末端,并且两个胸腺嘧啶被附加到B片段的5'末端。最后,根据长度,向所有寡核苷酸设计添加一个或两个池特异性引物位点,并且针对每个寡核苷酸设计在3'侧上添加随机碱基以达到160个碱基(参见图1)。然后通过CustomArray一式两份合成寡核苷酸池以减少寡核苷酸丢失并增加均一性。
成对寡核苷酸组装
靶标被分成131-250范围内的复杂性组。使用一个共同引物和一个池特异性的含尿嘧啶的引物与KAPA HIFITM热启动尿嘧啶+Readymix从阵列中扩增A和B片段的每个池。在具有2.5ng模板的MiniOpticon Real-Time PCR系统(Bio-Rad)上用SYBRTM Green在25μL反应中进行定量PCR(qPCR)。将每个池在平稳前一个循环从热循环仪中取出,然后用1.8xXP珠进行纯化并用20μL洗脱。将两微升NEB USERTM酶与纯化的PCR池混合,并在37℃下温育15分钟,然后在室温下温育15分钟。然后按照制造商的协议用末端修复模块处理池以去除衔接子序列。使用Zymo DNA Clean and ConcentratorTM将池纯化并浓缩成10μL。
用KAPA HIFITM Hotstart Readymix(KAPA Biosystems)使用qPCR将相应的A和B片段库与总共1.5ng纯化的相应输入DNA池组装。在5个循环的退火和延伸之后,加入7.5×10-12摩尔的每个外部引物(YF-pu1L和YR-pu1R),并且反应持续另外的循环。在实时qPCR仪器上监测反应,并在稳定前终止一个或几个循环。通常,除了前5个循环外,这需要20-25个循环。对于每个阶段,使用如下协议:(i)95℃2分钟,(ii)98℃20秒,(iii)65℃15秒,(iv)72℃45秒,(v)重复步骤ii-iv。然后用1.8xXP珠纯化反应物并用20μL洗脱。
将两纳克的纯化反应物用于另一个实时PCR,其中使用具有Pu1L Flowcell和Pu1RFlowcell引物的KAPA HIFITM Hotstart Readymix。将反应在平稳前一个循环从循环仪中取出,用1.8xXP珠进行纯化,并在Illumina MiSeq上用具有Pu1测序F、Pu1测序R和Pu1测序I的成对末端155bpreads进行测序(表1)。对于多达2271个靶标的复杂组,将来自相应亚池的输入DNA混合在一起,保持总量相同的1.5ng输入DNA。
表1、方法中使用的引物
静态标记库的计算机模拟设计
产生随机13元序列,并筛选它们几个特性:没有同型鸟嘌呤或同型胞嘧啶片段>5bp,没有同型腺嘌呤或同型胸腺嘧啶片段>8bp,以及GC含量在45%至65%之间。如果最后10个碱基与已经在列表中的任何其它正向、反向、互补或反向互补具有<90%的核苷酸同一性,则将通过该过滤器的13元添加到潜在组中。重复该流水线几次,最终以120万次迭代的方式生成7411个13元的池。
使用Unafold用以下设置计算每个可能的引物对的吉布斯自由能:-NA=DNA,-run-type=html,-Ct=0.000001,-钠=0.050,-镁=0.002。将所有具有dG>-9kcal/mol的13元对索引并添加到Matrix Market Matrix。然后使用Parallel Maximum CliqueLibrary(arXiv:1302.6256)识别出具有所有成对dG>-9kcal/mol的13元的最大库。索引的13元被转换回相应的序列,并且应用另外的步骤去除具有潜在同二元的任何引物。这留下了一组4637个13元,其被分成2318个标记的正向池和2319个标记的反向池,总标记复杂性为5444982(图2)。
对于正向13元,将5'-CGACAGTAACTACACGGCGA-3'(SEQ ID NO:21)添加到5'末端作为用于流动池衔接子的桥,并且将M13F(5'-GTTTTCCCAGTCACGAC-3';SEQ ID NO:22)添加到3'末端作为拨出种子序列。对于反向13元,将5'-GTAGCAATTGGCAGGTCCAT-3'(SEQ ID NO:23)用作桥,将M13R(5'-CAGGAAACAGCTATGAC-3';SEQ ID NO:24)用作种子序列。
拨出检索引物的设计和合成
对于每个13元,使用Tm=81.5+16.6×log10[Na+]+41×(GC)–600n计算Tm。引物序列通过从桥序列至引物5'末端递归添加2bp直至Tm在58℃至61℃之间来确定。在此过程之后,所有引物均为17个核苷酸或19个核苷酸长,Tm在58.2℃至60.6℃之间。通过标准脱盐,以96孔板格式从Integrated DNA Technologies(IDT)订购引物。
静态标记池的合成与制备
使用CustomArray的半导体电化学过程一式两份地合成4637个标记。使用FP:5'-CGACAGTAACTACACGGCGA-3'(SEQ ID NO:21)和RP:5'-GTCGTGACTGGGAAAAC-3'(SEQ ID NO:25)用KAPA HIFITM Hotstart Readymix从1.25×10-14摩尔模板/反应的24个平行50μL反应中扩增正向和反向标记组共17个循环。按照制造商的协议,用NEBλ外切核酸酶消化10纳摩尔PCR产物。将113纳克样品与等量的TBE尿素样品缓冲液混合,并在70℃加热3分钟,然后在冰上冷冻。样品和ladder(梯状物)在TBE尿素凝胶上运行,切割相应的50bp条带。将条带切割并通过带有22号针头的孔的600ml Eppendorf离心。将浆液与TE缓冲液在65℃下温育2小时,并在Spin-X柱(Corning)上纯化。按照制造商的协议,用Qiagen核苷酸去除试剂盒处理纯化的DNA。
组装靶标的标记
用几种不同的聚合酶测试几种浓度的标记和输入用于最佳标记(表2)。使用KAPAHIFTM HotStart Readymix确定8.5×10-14摩尔标记具有3ng输入(10:1标记:输入分子比),可获得最佳性能。在装置过程中,根据上述装置协议,用含有M13F和M13R的引物扩增靶。用1.8xXP珠纯化库,并用20μL洗脱。使用KAPA HIFITM HotStart Readymix以8.5x10-14摩尔的拨出标记(拨出标记F和拨出标记R)标记3纳克的纯化组装库,使用qPCR和以下循环条件:(i)95℃2分钟,(ii)98℃20秒,(iii)65℃15秒,(iv)72℃45秒,(v)重复步骤ii-iv 30次和(vi)72℃5分钟。在前5个循环后,停止反应,加入1.5×10-11摩尔标上条形码的正向和反向流动池引物(Dial-Out Flow Cell F和Dial-Out Flow Cell R)。将标记的库在平稳前一个循环从循环仪中取出,然后使用1.8xXP珠进行纯化。
表2.优化聚合酶和标记浓度。
首先测试了几种不同标记浓度对KAPA HIFITM聚合酶组装收率的影响。对于该数据组,M13序列存在于寡核苷酸上,并且在组装过程中引入标记。以大标记:模板约10:1摩尔比获得最大的收率,而独特标记对的百分比没有大损失。然后使用两种不同的聚合酶KAPA2GTMRobust和KAPA2GTM Multiplex测试该比例。
拨出标记靶标的序列验证
使用Dial-out Sequencing F,Dial-Out Sequencing R和Dial-Out SequencingI引物,在具有PE155bpreads的Illumina MiSeq上对加标记的库进行测序。使用默认设置将reads与PEAR合并,并识别所有reads的标记对。使用定制的python脚本(参见Klein等,Nucleic Acids Research,44(5):e43,Supplementary materials),识别出含有序列验证的构建体的所有reads及其对应的标记对。随机选择一个满足以下标准的正确装配的分子以用于检索:(i)含有未在任何其它分子上识别的独特标记组;和(ii)以至少5个测序reads表示。
拨出检索
使用具有0.135ng模板和1.5×10-11摩尔每种相应的正向和反向拨出检索引物的实时PCR,经由PCR用KAPA HIFITM Hotstart Readymix来检索所选择的寡核苷酸,按照以下条件:(i)95℃3分钟,(ii)98℃20秒,(iii)65℃15秒,(iv)72℃40秒,(v)重复步骤ii-iv 34次和(vi)72℃5分钟。将反应物在即将平稳前从循环仪中取出,用纯化并使用QubitTM(Invitrogen)进行定量。将各个检索反应的等浓度混合用于测序。
平均核苷酸准确性分析
使用BWA v.0.7.3将所有测序reads与预期靶序列的参照比对。平均核苷酸准确度是基于具有碱基和质量映射得分>20的比对reads的碱基计算的。为了比较实验之间的准确率,在组装之前和之后分析第5组的错误率。在组装组的15935028个碱基上进行了精确的泊松检验,并且相应的寡核苷酸池的9325493个碱基通过了我们的质量截止值,以及在组装组中的重叠区域的1546665个碱基上进行了精确的泊松检验,并且在寡核苷酸池中的1617760个碱基通过了我们的质量截止值。
实施例1.以131-250的组的组装靶标
获得192-252碱基范围内的2271个靶标(独特序列的156-216个)以从阵列衍生的寡核苷酸组装。所有靶标通过同样的18bp 5'和3'共同衔接子由独特序列组成衔接子。每个靶序列被分成两个片段,A和B,含有Tm>56℃的重叠区域。将2271个靶序列分成131-250个靶标的10组,每组接受侧接A片段的3'末端和B片段的5'末端的独特衔接子,以设计用于尿嘧啶掺入(图1)。通过CustomArray一式两份合成相应的寡核苷酸(具有缓冲液序列的160元)以减少寡核苷酸丢失并提高均一性。
首先将寡核苷酸的每个池用在一端上的亚池特异性引物(A片段独特正向或B片段独特反向)和另一端上的共同引物(YF/YR)从阵列中扩增出来(表1)。寡核苷酸库的测序显示良好的一致性,四分位距为5.5(图3A)。
然后使用含尿嘧啶的A片段引物和共同引物YF或含尿嘧啶的B片段引物和共同引物YR(表1)扩增由CustomArray提供的寡核苷酸池,并且用尿嘧啶特异性切除试剂(USERTM)移除对应的特异性衔接子。对于两个池,扩增寡核苷酸用一个或两个独特引物位点进行测试,并且观察不到组装组成或均一性方面的差异(图6A和图6B)。对于每组靶标混合相应的A和B片段,并通过5个循环的退火及延伸和用KAPA HIFITM扩增大约25个循环来进行组装。在所有情况下,观察到正确尺寸的条带。每个组装组都标上条形码和并被测序。
对于每组,在90000reads的测序深度处识别72.7-96.4%靶标的无错组装构建体(图3B)。对于每个靶标,检查相应的A和B寡核苷酸的无错reads数量(120万reads中)。在识别的无错误组装的223个靶标中,有55个(24.7%)下降到限制性寡核苷酸浓度的底部10个百分点(120万个中<6个无错reads),97个(43.5%)下降到限制寡核苷酸计数的底部20个百分点(120万个中<11个无错reads)。图3C示出了阵列池中由更好表现的限制性寡核苷酸组装的靶标的更高产率(具有至少一个完全组装序列的靶标%),表明增加寡核苷酸均一性可能会提高全长设计的收率。接下来检查原始寡核苷酸池和组装靶标库的组成(图3D和图3E)。总共23.8%的分子表现无错组装,36.2%包含无插入缺失组装,53.4%包含小插入缺失(<5bp)。另外2.3%含有大插入缺失(>5bp),4.8%含有嵌合体,2.1%含有截短的构建体和0.6%未定位的reads。在每组中,10组中的6组在中间四分位距中的差异小于15倍。虽然这可能是一些应用的问题,但均一性足够紧密,以使各组直接用于一些下游筛选应用,例如功能性蛋白质筛选。图3F中示出了均一性图。
在单独组中合成的2271个靶标中,组装了2055个无错构建体(90.5%)。大部分退出(drop-out)似乎是由于阵列池中相应寡核苷酸的代表性差(图3C)。此外,由于在寡核苷酸池中识别出类似的错误特征,所以在组装组中识别的大部分错误可能来自阵列合成(图3D和图3E)。嵌合组装(A和B片段错误的组装)很少见。
实施例2.2271对片段的多重组装
为了测试组装协议的限制,通过一次增加一个额外组来增加复杂性,直到2271个设计的复杂性。复杂性为2271时,在300000reads的测序深度处为70.6%靶标组装了无错构建体(图4A和图B)。与较小组相比,在阵列池中的限制性寡核苷酸的收率和表现之间观察到甚至更大的相关性(图4C)。
可能增加的复杂性可能影响组装库的组成。虽然两个最低复杂性组(250和462个靶标)示出了完全和无插入缺失reads的百分比最高,但可能是由于这两个组由组2和组3组成的事实,其分别示出了完全和无插入缺失reads的百分比高(图3E)。其余的池都共享相似的组合。对于所有复杂性水平,11.8-31.3%的reads表示完全的构建体,10.0-18.7%表示仅具有错配的构建体,41.4-48.5%表示小插入缺失,2.6-3.5%表示大插入缺失,3.7-21.5%表示嵌合体,2.5-4.9%表示截短和0.1-0.7%未映射reads(图4D)。在每组中,四分位距中存在10至34倍的差异(均一性图显示在图4E中)。
实施例3.组装靶标的错误修正
对寡核苷酸池进行测序并与预期靶序列的参照比对。对于错误分析,检查了一组250个靶标,每个为237个碱基长(组5)。平均核苷酸准确度由具有质量映射分数>20的比对reads的碱基计算。从阵列扩增后识别出寡核苷酸的平均核苷酸准确度为98.68%。由于组装过程依赖于两个引物位点和一个重叠区域,所以组装可能会在本质上提高这些区域的准确性。事实上,发现250-多重反应中所有比对分子的平均核苷酸准确度为99.02%(泊松比率95%CI 1.36-1.38),示出了围绕两个引物位点和重叠区域的最高准确性(图5A)。特别是,重叠区域的平均核苷酸准确度从98.53%增加到99.44%(泊松比率95%CI 2.64-2.77)。
在核苷酸水平(P~4.9e-324)观察到精确度的显著增加,然而在组装组中观察到最大37%完全reads。对于依赖于精确分子(如基因组装)的下游应用,从组装集合中检索完全组装是高度感兴趣的。为此,对拨出PCR协议进行了修改,并入一组内部静态拨出标记,以便对序列验证的构建体进行经济高效的PCR检索。
设计了引物,其在组装反应期间添加M13F和M13R序列以用于来自组2和6(每个250个靶)的靶标。然后将组装库用静态拨出标记进行标记,并对其进行测序以进行验证。首先分析标记对的分布,发现组装和标记的组2和6中所有分子的84.0%和85.6%含有独特的可检索标记对(组2的130万reads和组6的160万reads中)(图5B)。98.4%和95.6%的靶标都具有含独特标记对的序列验证的组装。
从组2中,选择25个靶标进行检索,其中每一个都以130万reads中的至少5个表示。扩增所有25个靶标,并通过将所有25个检索反应合并在一起并以100万reads测序来评估检索准确度。所有25个靶标在8600和62000次之间进行测序,揭示了Illumina测序化学的检测极限的无误reads,其比Sanger测序更加定量(图5C)。所有测序reads中的总共78%与25个靶标中的一个比对。当与所有2271个潜在靶标比对时,>99%的reads比对,表明在测序中未观察到的低丰度组装的一些背景扩增,但是恰巧共享相同的拨出引物组合。与此一致,Sanger测序揭示了25个靶标中的22个为干净条带(trace),但是3个条带具有高噪声水平(图7A和图7B)。
实施例4.改善均一性和收率
潜在的限制是DNA合成错误率(例如错配和插入缺失)、中等DNA组装错误率(例如嵌合体)和低均一性。输入寡核苷酸的低均一性损害了组装组中的靶标均一性。这在图4C中以及在其中寡核苷酸未被复制的单独阵列中是显而易见的(图8)。如果所有寡核苷酸在合成过程中都被复制,则可能出现收率和均一性增加。
由另一制造商(Twist)合成的较高均一性、较高质量的寡核苷酸池与CustomArray相比具有较高的均一性,消除了复制阵列上所有序列的需要,并且在两种情况下增加了均一性和收率(图10)。较长的序列可以由较长的寡核苷酸组装而效率降低最小。用更高质量的输入寡核苷酸复制全部2271-多重组装的组装,将收率从70.6%提高到>99%。来自不同供应商(Agilent)的较小组较长的寡核苷酸(230bp序列)导致393bp靶序列中超过90%的组装(图11)。
实施例5.分层多对组装
高通量功能筛选将受益于高度精确和均一的组装。图12中示出了分层多对组装的总体概述。对于需要非常高准确度的基因组装,实施拨出PCR以分离完全的核苷酸序列。对于分层组装来说,收率是一个关注点,因为每个片段必须被表示以组装更大的构建体。在用于分层基因组装的应用中,构建体应该组装成更小的组,因为本文公开的方法能够以250的组实现高达>99%的产率。然而,在许多应用中,含有错误的分子可以在分析阶段过滤,或为定向进化提供额外的多样性。通过将选择后样品标准化为选择前样品,通过事后分析也可以考虑均一性的扩散。
除了嵌合体之外,高误差率和缺乏均一性均是由于输入试剂而导致(参见图10),而不是多对组装方法而导致。组装组的错误特征与原始寡核苷酸的特征紧密匹配(见图3)。事实上,从组装协议中观察到引物和组装位点的准确性提高。此外,组装至少无一个错误的序列以使每个目标具有两个寡核苷酸的高代表性,表明大部分的退出和均一性问题是由于阵列合成中的均一性差。如上所示,使用更高保真度和更均一的阵列可减少这些限制。
本文描述的方法可以固有地倾向于产生嵌合体。虽然这些可以在大多数下游应用中被滤除,但它们可能会通过稀释设计的库而在更复杂的反应中引起问题。通过利用检查所有可能的交叉杂交的定制脚本,可以使嵌合体最小化,最高达21.5%。在没有脚本的单独实验中,观察到高达42%的嵌合率(图8)。但是,由于设计不同,可以比较嵌合率的直接比较。
通过拨出PCR,本文的方法能够检索25/25靶标的无错组装。然而,注意到一些背景放大,占了测序池的高达22%。为了在未来的方法中减少这种噪声,可以增加标记池的测序深度,或者对标记池中观察到构建体的次数应用更严格的过滤器。
由于输入寡核苷酸池为160元(CustomArray),因此上述方法限于合成252元作为寡核苷酸的最大长度。然而,191-252bp的目标大小增加没有观察到收率降低(图9),通过使用更长的寡核苷酸池可以增加目标大小,例如,Agilent的230元允许使用目前的方法组装392元(图11)。随着阵列技术的发展和更长寡核苷酸的出现,上述方法可以按比例缩放。此外,成对池可以用于分层组装。这可能在组装后直接发生,或经过一轮多重拨出PCR检索后发生,以降低复杂性并提高均一性。在其它地方描述的鸟枪法合成技术的更新版本中,也可以修改方法以组装成三个或更多个寡核苷酸的组而不是成对的(参见Kim等(2012)NucleicAcids Res.,40,e140)。
用于阵列衍生的DNA寡核苷酸的多对组装的以上方法提供了用于阵列合成的便宜、序列验证的寡核苷酸组装的方法。这是以多重方式组装数千个阵列衍生的寡核苷酸的首次演示,并且使用一组静态PCR标记来检索序列验证的分子。该协议可适用于复杂的库生成和基因合成。创建一个含3118个这种200元的库比基于柱的合成方法(约0.84美元/靶标)便宜至少约38倍。使用内部拨出标记和检索引物,对于3118个中每个的检索单独序列验证的组装体,便宜17倍,并且在包括拨出标记和检索引物池的一次性成本中,便宜4倍(表3)。尽管基于柱的合成限于200个碱基,但这些方法以0.84USD/靶标(0.0042USD/碱基)合成252元,具有与200元相似的效率(图9)。随着下一代测序的出现,DNA的高通量功能筛选揭示了基因调控机制和不确定意义变异的分类。以前所未有的成本合成定义的库的能力将使研究人员能够使用精确设计的序列来解决这些问题,而不是依靠偏倚诱变方法。此外,基因合成有助于新型药物和对基因组组织的更好理解,可用低成本、高复杂性DNA合成产生的DNA组装的长度增加将为蛋白质设计和合成生物学提供新的机会。
表3.3118个200元的成本明细。
除非上下文另有明确要求,否则在整个说明书和权利要求书中,词语“包括”、“包含”等将被解释为包含性的意义,而不是排他性或穷举性意义;也就是说,以“包括但不限于”的意义。使用单数或复数的词语也分别包括复数和单数。此外,当在本申请中使用时,“在此”,“上方”和“下方”以及类似含义的词语,应该是指将该申请作为整体而不是本申请的任何特定部分。
尽管已经参考一个方面和各种替代方面具体示出和描述了本发明,但相关领域的技术人员将会理解,可以在其中进行形式和细节上的各种改变而不脱离本发明的精神和范围。本公开的实施方式的描述并非旨在穷举或将本公开限制为所公开的精确形式。尽管为了说明的目的在此描述了本公开的具体实施方式和实施例,但是在本公开的范围内进行各种等同修改是可能的,如相关领域的技术人员将认识到的。
出于所有目的,在本说明书正文中引用的所有参考文献、授权专利和专利申请的全部内容通过引用并入本文。如果需要,可以修改本公开的各方面以采用上述参考和申请的系统、功能和概念来提供本公开的另外的实施方式。根据详细描述,可以对本公开进行这些和其它改变。
参考文献
ALLAWI and SANTA-LUCIA,(1997)Thermodynamics and NMR of internal G.Tmismatches in DNA.Biochemistry,36,10581–10594.
BANG and CHURCH(2008).Gene synthesis by circular assemblyamplification.Nat.Methods,5,37–39.
BEAUCAGE and CARUTHERS,(1981)Deoxynucleoside phosphoramidites-a newclass of key intermediates for deoxynucleotide synthesis.Tetrahedron Lett.,22,1859–1862.
BINKOWSKI et al.,(2005)Correcting errors in synthetic DNA throughconsensus shuffling.Nucleic Acids Res.,33,e55.
BLANCHARD et al.,(1996)High-density oligonucleotidearrays.Biosens.Bioelectron.,11,687–690.
BOROVKOV et al.,(2010)High-quality gene assembly directly fromunpurified mixtures of microarray-synthesized oligonucleotides.Nucleic AcidsRes.,38,e180.
CARR et al.,(2004)Protein-mediated error correction for de novo DNAsynthesis.Nucleic Acids Res.,32,e162.
DORMITZER et al.,(2013)Synthetic generation of influenza vaccineviruses for rapid response to pandemics.Sci.Transl.Med.,5,185ra68.
FINDLAY et al.,(2014)Saturation editing of genomic regions bymultiplex homology-directed repair.Nature,513,120–123.
FUHRMANN et al.,(2005)Removal of mismatched bases from syntheticgenes by enzymatic mismatch cleavage.Nucleic Acids Res.,33,e58.
GHINDILIS et al.,(2007)Combimatrix oligonucleotide arrays:genotypingand gene expression assays employing electrochemicaldetection.Biosens.Bioelectron.,22,1853–1860.
HUGHES et al.,(2001)Expression profiling using microarrays fabricatedby an ink-jet oligonucleotide synthesizer.Nat.Biotechnol.,19,342–347.
KIM et al.,(2012)‘Shotgun DNA synthesis’for the high-throughputconstruction of large DNA molecules.Nucleic Acids Res.,40,e140.
KONG et al.,(2007)Parallel gene synthesis in a microfluidicdevice.Nucleic Acids Res.,25,e61.
KOSURI and CHURCH,(2014)Large-scale de novo DNA synthesis:technologies and applications.Nat.Methods,11,499–507.
KOSURI et al.,(2010)Scalable gene synthesis by selectiveamplification of DNA pools from high-fidelity microchips.Nat.Biotechnol.,28,1295–1299.
KRISTIANSSON et al.,(2009)Evolutionary forces act on promoter length:identification of enriched cis-regulatory elements.Mol.Biol.Evol.,26,1299–1307.
LEVINE and TJIAN,(2003)Transcription regulation and animaldiversity.Nature,424,147–151.
LINSHIZ et al.,(2008)Recursive construction of perfect DNA moleculesfrom imperfect oligonucleotides.Mol.Syst.Biol.,4,191.
MARKHAM and ZUKER,(2008)UNAFold:software for nucleic acid folding andhybridization.Methods Mol.Biol.,453,3–31.
MATZAS et al.,(2010)High-fidelity gene synthesis by retrieval ofsequence-verified DNA identified using high-throughputpyrosequencing.Nat.Biotechnol.,28,1291–1294.
MELNIKOV et al.,(2012)Systematic dissection and optimization ofinducible enhancers in Biotechnol.,30,271–277.
NGUYEN-DUMONT et al.,(2013)A high-plex PCR approach for massivelyparallel sequencing.Biotechniques,55,69–74.
PATWARDHAN et al.,(2009)High-resolution analysis of DNA regulatoryelements by synthetic saturation mutagenesis.Nat.Biotechnol.,27,173–1175.
QUAN et al.,(2011)Parallel on-chip gene synthesis and application tooptimization of protein expression.Nat.Biotechnol.,29,449–452.
SAAEM et al.,(2010)In situ synthesis of DNA microarray onfunctionalized cyclic olefin copolymer substrate.ACS Appl.Mater.Interfaces,2,491–497.
SAMBROOK et al.,(1989)Molecular Cloning:A Laboratory Manual.ColdSpring Harbor Laboratory Press,Cold Spring Harbor,NY.
SCHLABACH et al.,(2010)Synthetic design of strongpromoters.Proc.Natl.Acad.Sci.U.S.A.,107,2538–2543.
SCHWARTZ et al.,(2012)Accurate gene synthesis with tag-directedretrieval of sequence-verified DNA molecules.Nat.Methods,9,913–915.
SHARON et al.,(2012)Inferring gene regulatory logic from high-throughput measurements of thousands of systematically designedpromoters.Nat.Biotechnol.,30,521–530.
SMITH et al.,(2013)Massively parallel decoding of mammalianregulatory sequences supports a flexible organizational model.Nat.Genet.,45,1021–1028.
SMITH and MODRICH(1997)Removal of polymerase-produced mutantsequences from PCR products.Proc.Natl.Acad.Sci.U.S.A.,94,6847–6850.
TIAN et al.,(2004)Accurate multiplex gene synthesis from programmableDNA microarrays.Nature,432,1050–1054.
WAN et al.,(2014)Error removal in microchip-synthesized DNA usingimmobilized MutS.Nucleic Acids Res.,42,e102.
XU and NUSSINOV,(1998)Favorable domain size in proteins.Fold.Des.,3,11–17.YOUNG and DONG,(2004)Two-step total gene synthesis method.Nucleic AcidsRes.,32,e59.
ZHANG et al.,(2014).PEAR:a fast and accurate Illumina Paired-End readmerger.Bioinformatics,30,614–620.
ZHOU et al.,(2004)Microfluidic PicoArray synthesis ofoligodeoxynucleotides and simulataneous assembling of multiple DNAsequences.Nucleic Acids Res.,32,5409–5417.
序列表
<110> 华盛顿大学
M·J·拉乔伊
J·C·克莱因
J·J·施瓦兹
D·贝克
J·A·森迪莱
L·J·斯图尔特
<120> DNA寡核苷酸的多重成对组装
<130> 16-1242-PCT
<150> US 62/235,974
<151> 2015-10-01
<160> 29
<170> PatentIn version 3.5
<210> 1
<211> 19
<212> DNA
<213> 人工序列
<220>
<223> 合成的寡核苷酸
<220>
<221> 尚未归类的特征
<222> (5)..(17)
<223> n 是 a, c, g, t 或 u
<400> 1
gcgannnnnn nnnnnnnuu 19
<210> 2
<211> 19
<212> DNA
<213> 人工序列
<220>
<223> 合成的寡核苷酸
<220>
<221> 尚未归类的特征
<222> (5)..(17)
<223> n 是 a, c, g, t 或 u
<400> 2
ccatnnnnnn nnnnnnnuu 19
<210> 3
<211> 17
<212> DNA
<213> 人工序列
<220>
<223> 合成的寡核苷酸
<220>
<221> 尚未归类的特征
<222> (5)..(17)
<223> n 是 a, c, g, t 或 u
<400> 3
ccatnnnnnn nnnnnnn 17
<210> 4
<211> 17
<212> DNA
<213> 人工序列
<220>
<223> 合成的寡核苷酸
<220>
<221> 尚未归类的特征
<222> (5)..(17)
<223> n 是 a, c, g, t 或 u
<400> 4
gcgannnnnn nnnnnnn 17
<210> 5
<211> 17
<212> DNA
<213> 人工序列
<220>
<223> 合成的寡核苷酸
<400> 5
gttttcccag tcacgac 17
<210> 6
<211> 17
<212> DNA
<213> 人工序列
<220>
<223> 合成的寡核苷酸
<400> 6
caggaaacag ctatgac 17
<210> 7
<211> 50
<212> DNA
<213> 人工序列
<220>
<223> 合成的寡核苷酸
<220>
<221> 尚未归类的特征
<222> (21)..(33)
<223> n 是 a, c, g, t 或 u
<400> 7
cgacagtaac tacacggcga nnnnnnnnnn nnngttttcc cagtcacgac 50
<210> 8
<211> 50
<212> DNA
<213> 人工序列
<220>
<223> 合成的寡核苷酸
<220>
<221> 尚未归类的特征
<222> (21)..(33)
<223> n 是 a, c, g, t 或 u
<400> 8
gtagcaattg gcaggtccat nnnnnnnnnn nnncaggaaa cagctatgac 50
<210> 9
<211> 57
<212> DNA
<213> 人工序列
<220>
<223> 合成的寡核苷酸
<400> 9
aatgatacgg cgaccaccga gatctacaca cgtaggccga cagtaactac acggcga 57
<210> 10
<211> 63
<212> DNA
<213> 人工序列
<220>
<223> 合成的寡核苷酸
<220>
<221> 尚未归类的特征
<222> (25)..(33)
<223> n 是 a, c, g, t 或 u
<400> 10
caagcagaag acggcatacg agatnnnnnn nnngaccgtc ggcgtagcaa ttggcaggtc 60
cat 63
<210> 11
<211> 28
<212> DNA
<213> 人工序列
<220>
<223> 合成的寡核苷酸
<400> 11
acgtaggccg acagtaacta cacggcga 28
<210> 12
<211> 30
<212> DNA
<213> 人工序列
<220>
<223> 合成的寡核苷酸
<400> 12
gaccgtcggc gtagcaattg gcaggtccat 30
<210> 13
<211> 30
<212> DNA
<213> 人工序列
<220>
<223> 合成的寡核苷酸
<400> 13
atggacctgc caattgctac gccgacggtc 30
<210> 14
<211> 41
<212> DNA
<213> 人工序列
<220>
<223> 合成的寡核苷酸
<400> 14
ctaaatggct gtgagagagc tcaggttttc ccagtcacga c 41
<210> 15
<211> 41
<212> DNA
<213> 人工序列
<220>
<223> 合成的寡核苷酸
<400> 15
actttatcaa tctcgctcca aacccaggaa acagctatga c 41
<210> 16
<211> 61
<212> DNA
<213> 人工序列
<220>
<223> 合成的寡核苷酸
<400> 16
aatgatacgg cgaccaccga gatctacaca cgtaggccta aatggctgtg agagagctca 60
g 61
<210> 17
<211> 67
<212> DNA
<213> 人工序列
<220>
<223> 合成的寡核苷酸
<220>
<221> 尚未归类的特征
<222> (25)..(33)
<223> n 是 a, c, g, t 或 u
<400> 17
caagcagaag acggcatacg agatnnnnnn nnngaccgtc ggcactttat caatctcgct 60
ccaaacc 67
<210> 18
<211> 32
<212> DNA
<213> 人工序列
<220>
<223> 合成的寡核苷酸
<400> 18
acgtaggcct aaatggctgt gagagagctc ag 32
<210> 19
<211> 34
<212> DNA
<213> 人工序列
<220>
<223> 合成的寡核苷酸
<400> 19
gaccgtcggc actttatcaa tctcgctcca aacc 34
<210> 20
<211> 34
<212> DNA
<213> 人工序列
<220>
<223> 合成的寡核苷酸
<400> 20
ggtttggagc gagattgata aagtgccgac ggtc 34
<210> 21
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 合成的寡核苷酸
<400> 21
cgacagtaac tacacggcga 20
<210> 22
<211> 17
<212> DNA
<213> 人工序列
<220>
<223> 合成的寡核苷酸
<400> 22
gttttcccag tcacgac 17
<210> 23
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 合成的寡核苷酸
<400> 23
gtagcaattg gcaggtccat 20
<210> 24
<211> 17
<212> DNA
<213> 人工序列
<220>
<223> 合成的寡核苷酸
<400> 24
caggaaacag ctatgac 17
<210> 25
<211> 17
<212> DNA
<213> 人工序列
<220>
<223> 合成的寡核苷酸
<400> 25
gtcgtgactg ggaaaac 17
<210> 26
<211> 13
<212> DNA
<213> 人工序列
<220>
<223> 合成的寡核苷酸
<220>
<221> 尚未归类的特征
<222> (1)..(13)
<223> n 是 a, c, g, t 或 u
<400> 26
nnnnnnnnnn nnn 13
<210> 27
<211> 13
<212> DNA
<213> 人工序列
<220>
<223> 合成的寡核苷酸
<400> 27
attcggcgga tat 13
<210> 28
<211> 59
<212> DNA
<213> 人工序列
<220>
<223> 合成的寡核苷酸
<400> 28
ggttcgccgc ggcgacgaag aaaccgaaaa acgcgttgaa cacgacattg ttcgcgaag 59
<210> 29
<211> 67
<212> DNA
<213> 人工序列
<220>
<223> 合成的寡核苷酸
<400> 29
catgacaaaa ttcgtttatt aattcgcatt gacattgaca ttcgccgcaa actgggcgat 60
taacaaa 67

Claims (34)

1.一种用于组装一个或多个双链多核苷酸的方法,所述方法包括:
(a)扩增第一多个单链重叠寡核苷酸,其中,所述第一多个单链重叠寡核苷酸包含:
(i)能够退火以产生一个或多个双链多核苷酸的具有同源性的重叠区域,和
(ii)每个单链重叠寡核苷酸中的至少一个共同引物结合位点;
(b)组装一个或多个双链多核苷酸,其中,所述组装包括变性、退火和延伸所述第一多个单链重叠寡核苷酸以产生所述一个或多个双链多核苷酸。
2.根据权利要求1所述的方法,其还包括:
(c)标记所述一个或多个双链多核苷酸,其中,所述标记包括使用一对标记引物扩增所述一个或多个双链寡核苷酸以产生一个或多个标记的双链多核苷酸,其中,该对标记引物中的每个标记引物包含:
(i)包含独特侧翼序列的第一区段,和
(ii)包含种子序列的第二区段;
(d)对所述一个或多个标记的双链多核苷酸进行测序,其中,所述测序包括将所述种子序列结合到测序平台并进行测序反应以鉴定一个或多个序列验证的多核苷酸;以及
(e)检索所述一个或多个序列验证的多核苷酸,其中,所述检索包括将互补引物与所述一个或多个序列验证的多核苷酸中的至少一个标记引物的第一区段碱基配对,并且在合适条件和合适试剂的存在下,扩增序列验证的多核苷酸以产生一个或多个验证的多核苷酸;或
(c)功能性多肽的表型选择,其中,所述表型选择包括酵母展示、噬菌体展示、mRNA展示、核糖体展示、哺乳动物细胞展示、细菌细胞展示、基于乳液的蛋白质选择、一部分基因组的功能互补、或多肽进化领域的专家已知的其它选择方法。
3.根据权利要求1或2所述的方法,其中,所述一个或多个双链多核苷酸包含至少100、至少200、至少300、至少500、至少750、至少1000、至少1250、至少1500、至少1750或至少2000个双链多核苷酸。
4.根据权利要求2所述的方法,其还包括将两个或更多个双链或验证的多核苷酸逐步组装成组装的多核苷酸产物,其中所述两个或更多个双链或验证的多核苷酸具有能够退火的具有同源性的重叠区域和每个双链或验证的多核苷酸中的至少一个共同引物结合位点;以及
(f)在适于退火具有同源性的重叠区域的条件和合适试剂的存在下,将两个或更多个双链或验证的多核苷酸组合,所述试剂用于通过延伸双链或验证的多核苷酸来组装初始所需的多核苷酸产物以产生初始所需的多核苷酸产物;以及
(g)将初始所需的多核苷酸产物和下一个双链或验证的多核苷酸组合,其中初始所需的多核苷酸产物和下一个双链或验证的多核苷酸具有能够退火的具有同源性的重叠区域和每个双链或验证的多核苷酸中的至少一个共同引物结合位点,并且在合适试剂的存在下组装初始所需的多核苷酸产物和下一个双链或验证的多核苷酸,所述试剂用于通过延伸初始所需的多核苷酸产物和下一个双链或验证的多核苷酸来对组装的多核苷酸产物进行组装;以及
(h)反复地重复(g)以逐步将另外的下一个双链或验证的多核苷酸添加至初始所需的多核苷酸产物以产生组装的多核苷酸产物。
5.根据权利要求2所述的方法,其还包括将两个或更多个双链或验证的多核苷酸分层组装成组装的多核苷酸产物,其中所述两个或更多个双链或验证的多核苷酸具有能够退火的具有同源性的重叠区域和每个双链或验证的多核苷酸中的至少一个共同引物结合位点;以及
(f)在适于退火具有同源性的重叠区域的条件和合适试剂的存在下,将两个双链或验证的多核苷酸组合,所述试剂用于通过延伸双链或验证的多核苷酸来组装第一所需的多核苷酸产物以产生第一所需的多核苷酸产物;以及
(g)用另外的两个双链或验证的多核苷酸重复(f)以产生第二所需的多核苷酸产物;
(e)合并第一所需的多核苷酸产物和第二所需的多核苷酸产物,其中第一所需的多核苷酸产物和第二所需的多核苷酸产物具有能够退火的具有同源性的重叠区域以及第一所需的多核苷酸产物和第二所需的多核苷酸产物中的至少一个共同引物结合位点,并且在合适试剂的存在下组装第一所需的多核苷酸产物和第二所需的多核苷酸产物,所述试剂用于通过延伸第一所需的多核苷酸产物和第二所需的多核苷酸产物来对组装的多核苷酸产物进行组装;以及
(h)重复(f)、(g)和(e)以分层组装成对的所需的多核苷酸以产生组装的多核苷酸产物。
6.根据权利要求1-5中任一项所述的方法,其中,所述第一多个单链重叠寡核苷酸中的每个寡核苷酸的核苷酸序列是预定义序列。
7.根据权利要求6所述的方法,其中,所述第一多个单链重叠寡核苷酸中的每个寡核苷酸的所述预定义序列还包含衔接子序列。
8.根据权利要求7所述的方法,其中,衔接子序列包含是完全简并序列或部分简并序列的简并序列。
9.根据权利要求1-8中任一项所述的方法,其中,所述第一多个单链重叠寡核苷酸源于阵列。
10.根据权利要求1-9中任一项所述的方法,其中,所述第一多个单链重叠寡核苷酸扩增自阵列。
11.根据权利要求1-10中任一项所述的方法,其中,所述第一多个单链重叠寡核苷酸使用共同引物和组特异性引物扩增自阵列。
12.根据权利要求1-11中任一项所述的方法,其中,所述第一多个单链重叠寡核苷酸包含至少一个含尿嘧啶的引物区域。
13.根据权利要求9-12中任一项所述的方法,其中,所述组特异性引物也是含尿嘧啶的引物。
14.根据权利要求10-13中任一项所述的方法,其中,所述含尿嘧啶的引物区域含有两个连续尿嘧啶残基。
15.根据权利要求14所述的方法,其中,所述两个连续尿嘧啶残基在含尿嘧啶的引物区域内部。
16.根据权利要求12-15中任一项所述的方法,其中,通过使寡核苷酸与尿嘧啶DNA糖基化酶(UDG)和DNA糖基化酶-裂解酶核酸内切酶VIII接触,以使所述含尿嘧啶的引物区域从第一多个单链重叠寡核苷酸中去除。
17.根据权利要求1-16中任一项所述的方法,其中,所述重叠区域具有高于56℃的解链温度(Tm)。
18.根据权利要求1-17中任一项所述的方法,其中,所述重叠区域具有在约10和100之间、约10和75之间、或约10和50之间个核苷酸。
19.根据权利要求1-18中任一项所述的方法,其中,所述一个或多个双链多核苷酸包含至少5个循环的变性、退火和延伸。
20.根据权利要求1-19中任一项所述的方法,其中,所述一个或多个双链多核苷酸还包含另外20-25个循环的变性、退火和延伸。
21.根据权利要求1-20中任一项所述的方法,其中,所述双链或验证的多核苷酸的组装发生在组中。
22.根据权利要求21所述的方法,其中,所述组在大约100-250、大约250-450、大约450-700、大约700-950、大约950-1200、大约1200-1450、大约1450-1675、大约1675-1800、大约1800-2025、或大约2025-2275个双链或验证的多核苷酸的范围内。
23.根据权利要求21-22中任一项所述的方法,其中,所述组在131-150个双链或验证的多核苷酸的范围内。
24.根据权利要求21-23中任一项所述的方法,其中,所述组是250、或462、或712、或962、或1212、或1452、或1674、或1805、或2021或2271个寡核苷酸。
25.根据权利要求21-24中任一项所述的方法,其中,各组中的所述双链或验证的多核苷酸共享组特异性引物。
26.根据权利要求1-25中任一项所述的方法,其中,所述方法包括组装超过2000个双链或验证的多核苷酸,并且其中,所述双链或验证的多核苷酸以>50%的准确度、>60%的准确度、>70%的准确度、>80%的准确度、>90%的准确度、>95%的准确度、或>99%的准确度组装。
27.根据权利要求2-26中任一项所述的方法,其中,所述标记引物的独特侧翼序列包含具有以下特性的13核苷酸序列:
(a)不超过5个连续核苷酸残基的同型鸟嘌呤或同型胞嘧啶;
(b)不超过8个连续核苷酸残基的同型腺嘌呤或同型胸腺嘧啶;以及
(c)鸟嘌呤-胞嘧啶(GC)含量在45%至65%之间。
28.根据权利要求2-27中任一项所述的方法,其中,所述标记引物的种子序列包含能够将种子序列结合到测序平台并进行测序反应的15-25个核苷酸的序列。
29.根据权利要求2-28中任一项所述的方法,其中,对于正向标记引物的所述种子序列为5′-GTTTTCCCAGTCACGAC-3′(SEQ ID NO:22),并且对于反向标记引物的所述种子序列为5′-CAGGAAACAGCTATGAC-3′(SEQ ID NO:24)。
30.根据权利要求1-29中任一项所述的方法,其中,所述第一多个单链重叠寡核苷酸或所述双链多核苷酸是至少约100、至少约150、至少约200、至少约300、至少约400个核苷酸的长度。
31.根据权利要求1-30中任一项所述的方法,其中,所述第一多个单链重叠寡核苷酸或所述双链多核苷酸是192-393个核苷酸的长度。
32.根据权利要求4-31或5中任一项所述的方法,其中,所述组装的多核苷酸产物是至少约250个核苷酸,至少约500个核苷酸,至少约1000个核苷酸,至少约2500个核苷酸,至少约5000个核苷酸,至少约10000个核苷酸,至少约10000个核苷酸,至少约50000个核苷酸,至少约100000个核苷酸或至少约300000个核苷酸的长度。
33.根据权利要求4-32中任一项所述的方法,其还包括确认所述组装的多核苷酸产物的序列。
34.根据权利要求4-33中任一项所述的方法,其中,所述组装的多核苷酸产物是是编码蛋白质的启动子区域或开放阅读框。
CN201680055052.6A 2015-10-01 2016-10-01 Dna寡核苷酸的多对组装 Pending CN108026137A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201562235974P 2015-10-01 2015-10-01
US62/235,974 2015-10-01
PCT/US2016/055078 WO2017059399A1 (en) 2015-10-01 2016-10-01 Multiplex pairwise assembly of dna oligonucleotides

Publications (1)

Publication Number Publication Date
CN108026137A true CN108026137A (zh) 2018-05-11

Family

ID=58427995

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680055052.6A Pending CN108026137A (zh) 2015-10-01 2016-10-01 Dna寡核苷酸的多对组装

Country Status (3)

Country Link
US (1) US20180320166A1 (zh)
CN (1) CN108026137A (zh)
WO (1) WO2017059399A1 (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI707038B (zh) 2013-08-05 2020-10-11 美商扭轉生物科技有限公司 重新合成之基因庫
WO2016126882A1 (en) 2015-02-04 2016-08-11 Twist Bioscience Corporation Methods and devices for de novo oligonucleic acid assembly
US9981239B2 (en) 2015-04-21 2018-05-29 Twist Bioscience Corporation Devices and methods for oligonucleic acid library synthesis
HK1258869A1 (zh) 2015-09-18 2019-11-22 Twist Bioscience Corporation 寡核酸变体文库及其合成
CN108698012A (zh) 2015-09-22 2018-10-23 特韦斯特生物科学公司 用于核酸合成的柔性基底
US9895673B2 (en) 2015-12-01 2018-02-20 Twist Bioscience Corporation Functionalized surfaces and preparation thereof
SG11201901563UA (en) 2016-08-22 2019-03-28 Twist Bioscience Corp De novo synthesized nucleic acid libraries
US10417457B2 (en) 2016-09-21 2019-09-17 Twist Bioscience Corporation Nucleic acid based data storage
WO2018111914A1 (en) * 2016-12-14 2018-06-21 Synthetic Genomics, Inc. Methods for assembling dna molecules
AU2017378492B2 (en) 2016-12-16 2022-06-16 Twist Bioscience Corporation Variant libraries of the immunological synapse and synthesis thereof
US11550939B2 (en) 2017-02-22 2023-01-10 Twist Bioscience Corporation Nucleic acid based data storage using enzymatic bioencryption
EP3595674A4 (en) 2017-03-15 2020-12-16 Twist Bioscience Corporation BANKS OF VARIANTS OF IMMUNOLOGICAL SYNAPSE AND THEIR SYNTHESIS
WO2018231864A1 (en) 2017-06-12 2018-12-20 Twist Bioscience Corporation Methods for seamless nucleic acid assembly
IL271205B2 (en) 2017-06-12 2025-02-01 Twist Bioscience Corp Methods for assembling continuous nucleic acids
GB2581620A (en) 2017-09-11 2020-08-26 Twist Bioscience Corp GPCR binding proteins and synthesis thereof
CA3079613A1 (en) 2017-10-20 2019-04-25 Twist Bioscience Corporation Heated nanowells for polynucleotide synthesis
GB2585506A (en) 2018-01-04 2021-01-13 Twist Bioscience Corp DNA-based digital information storage
CA3100739A1 (en) 2018-05-18 2019-11-21 Twist Bioscience Corporation Polynucleotides, reagents, and methods for nucleic acid hybridization
EP3902816A4 (en) 2018-12-26 2022-09-14 Twist Bioscience Corporation HIGHLY ACCURATE POLYNUCLEOTIDE DE NOVO SYNTHESIS
AU2020227802A1 (en) 2019-02-26 2021-10-14 Twist Bioscience Corporation Variant nucleic acid libraries for antibody optimization
JP2022521551A (ja) 2019-02-26 2022-04-08 ツイスト バイオサイエンス コーポレーション Glp1受容体の変異体核酸ライブラリ
AU2020298294A1 (en) 2019-06-21 2022-02-17 Twist Bioscience Corporation Barcode-based nucleic acid sequence assembly
US12091777B2 (en) 2019-09-23 2024-09-17 Twist Bioscience Corporation Variant nucleic acid libraries for CRTH2
EP4034564A4 (en) 2019-09-23 2023-12-13 Twist Bioscience Corporation VARIANT NUCLEIC ACID LIBRARIES FOR SINGLE-DOMAIN ANTIBODIES
EP4114936A4 (en) 2020-03-03 2024-03-27 Codex Dna, Inc. METHOD FOR ASSEMBLY OF NUCLEIC ACIDS

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101680012A (zh) * 2007-02-02 2010-03-24 杰纳罗生物系统有限公司 核酸分子的生成
US8008005B2 (en) * 2001-05-18 2011-08-30 Wisconsin Alumni Research Foundation Method for the synthesis of DNA sequences
CN103502448A (zh) * 2010-11-12 2014-01-08 Gen9股份有限公司 核酸合成的方法和设备
US20140148364A1 (en) * 2010-12-13 2014-05-29 Chaouki Miled Multiplexed anchor scanning parallel end tag sequencing

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8008005B2 (en) * 2001-05-18 2011-08-30 Wisconsin Alumni Research Foundation Method for the synthesis of DNA sequences
CN101680012A (zh) * 2007-02-02 2010-03-24 杰纳罗生物系统有限公司 核酸分子的生成
CN103502448A (zh) * 2010-11-12 2014-01-08 Gen9股份有限公司 核酸合成的方法和设备
US20140148364A1 (en) * 2010-12-13 2014-05-29 Chaouki Miled Multiplexed anchor scanning parallel end tag sequencing

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
STEVEN R HEAD等: "Library construction for next-generation sequencing: overviews and challenges", 《BIOTECHNIQUES》 *

Also Published As

Publication number Publication date
WO2017059399A1 (en) 2017-04-06
US20180320166A1 (en) 2018-11-08

Similar Documents

Publication Publication Date Title
CN108026137A (zh) Dna寡核苷酸的多对组装
Carøe et al. Single‐tube library preparation for degraded DNA
US11162094B2 (en) Capture methodologies for circulating cell free DNA
CN110036117B (zh) 通过多联短dna片段增加单分子测序的处理量的方法
Sabina et al. Bias in whole genome amplification: causes and considerations
CN105121664B (zh) 混合物及其相关组合物中的核酸的测序方法
US20220127597A1 (en) Haplotagging - haplotype phasing and single-tube combinatorial barcoding of nucleic acid molecules using bead-immobilized tn5 transposase
US20120003657A1 (en) Targeted sequencing library preparation by genomic dna circularization
WO2018227025A1 (en) Creation and use of guide nucleic acids
EP4090766A1 (en) Methods of targeted sequencing
CN106554957A (zh) 测序文库及其制备和应用
US10920272B2 (en) High-throughput method for characterizing the genome-wide activity of editing nucleases in vitro
CN103602735A (zh) 利用高通量测序精确测定线粒体dna高频和低频突变的方法
CN113710815A (zh) 用于多重拷贝数变异检测和等位基因比率定量的定量扩增子测序
ES2965194T3 (es) Algoritmo de secuenciación
CN109825552B (zh) 一种用于对目标区域进行富集的引物及方法
CN108359723B (zh) 一种降低深度测序错误的方法
US20160017410A1 (en) Highly multiplex single amino acid mutagenesis for massively parallel functional analysis
WO2022221853A1 (en) Methods and compositions for cell-free cloning
WO2022007863A1 (zh) 一种靶基因区域快速富集方法
Knyphausen et al. Error-free synthetic DNA by molecular dictation
CN118434882A (zh) 一种生成标记的核酸分子群的方法及其试剂盒
CN116411049A (zh) 用于核酸恒温扩增反应的酶组合产品及其应用
CN115279918A (zh) 用于测序的新型核酸模板结构
Villegas Innovations in Programmable Nucleic Acid Libraries and CRISPR Enrichment for Molecular Biology Applications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180511

WD01 Invention patent application deemed withdrawn after publication