CN114507903A

CN114507903A - 质粒测序方法

Info

Publication number: CN114507903A
Application number: CN202011289189.2A
Authority: CN
Inventors: 周水荣; 孟飞龙; 陈飞; 牛志杰; 钱韵婷
Original assignee: Suzhou Zhongke Cell Transformation Research Institute
Current assignee: Suzhou Zhongke Cell Transformation Research Institute
Priority date: 2020-11-17
Filing date: 2020-11-17
Publication date: 2022-05-17

Abstract

本发明设计利用多标签接头和/或引物对大规模质粒进行TN5建库的方法和组合物。所述方法包括(1)使用多种转座体复合物对多种质粒进行片段化处理，(2)任选的混合多种质粒的片段和纯化，(3)使用第一连接引物和第二连接引物对片段化产物进行扩增，(4)使用含有测序接头的第三引物和第四引物对步骤(3)的扩增产物进行扩增，和任选的(5)对步骤(4)的扩增产物进行纯化。

Description

质粒测序方法

技术领域

本发明涉及测序方法，具体涉及大规模、高通量质粒测序方法。

背景技术

质粒(Plasmid)是细菌等微生物染色体之外的一种环形的、裸露的双链DNA分子，其长度从1kb至1000kb不等(Doghaither and Gull,2019)。质粒在二十世纪四五十年代被陆续发现，并于1952年由Joshua Lederberg统一其命名(Lederberg,1952)。随着DNA限制性内切酶、连接酶等DNA操作工具的发现，1973年，Stanley N.Cohen及其同事开启了体外重组质粒并利用其作为遗传操作工具的历史(Cohen et al.,1973)。从此，质粒成为了基因克隆和表达的基础工具，并被广泛应用于生物学、生态学、农业、医学等相关领域。

从结构上看，质粒序列一般可分为两部分，即骨架和插入序列。骨架一般包含复制子、抗生素抗性基因等用于在质粒扩增中进行复制和筛选的元件，以及启动子、增强子、终止子等基因表达元件。这部分序列在不同的质粒中相对固定，可根据转化细菌、表达细胞的不同以及筛选需要等进行一些有限的选择。插入序列是指实现质粒特殊功能的元件，一般是蛋白或RNA的编码基因。这部分序列根据具体需求可插入不同序列，几乎没有限制，因此其序列在不同的质粒中是高度多样的。

作为一种基础工具，质粒被广泛使用，并在不同的科研团队、商业公司中分享和传播。广泛的分享与传播也为质粒的准确性带来了一些问题。一、骨架上可能存在突变。鉴于质粒骨架序列相对固定，许多质粒在构建之初，其骨架序列并未被完全鉴定，通常仅插入序列被测序鉴定。然而，由于一些骨架被长期的大量使用，而DNA的复制并非绝对准确，部分质粒骨架或已累积未知的突变。二、插入序列不详。质粒在多个团队间分享传播过程中难以避免的会出现信息缺失或混淆，这导致部分质粒的插入序列信息不详，或信息与实际质粒不匹配。上述问题表明了质粒在分享传播过程中进行质粒序列再鉴定的重要性。通常质粒序列的再鉴定可以通过对质粒进行测序来解决。对于单个质粒，通常使用桑格测序通过逐段设计引物进行测序，然后拼接以获得质粒的完整序列。但是该法费用较高，一般每个质粒需要几十至数百元人民币；且该法通量低，只能逐个测序，每个质粒又需多次测序；针对未知序列的质粒，该法更为繁琐，需先设法获取部分序列，如构建特定片段到已知质粒载体上并测序，再逐步设计引物测序，周期漫长，耗费颇多。当需要进行大量质粒的再鉴定时，桑格测序已难以胜任。鉴于此，我们使用转座酶Tn5对每个质粒进行打断并标记，然后借助高通量测序技术可大量并行测序的能力，建立了一种可同时检测数百至上千个质粒的测序方法，以实现低成本、高通量、快速简便的质粒序列再鉴定。

发明内容

本发明涉及用于处理多种质粒的方法、组合物和试剂盒，尤其是使用转座体复合物将质粒断裂和加标签的方法和组合物。

本发明提供一种多质粒TN5建库方法，其特征在于，所述方法包括：

(1)使用多种转座体复合物对多种质粒进行片段化处理，其中所述多种转座体复合物包含TN5转座酶和含多种核酸序列的多种核酸分子，所述多种核酸序列包含转座子末端序列和多种标签序列，所述多种转座体复合物包含的多种标签序列不同，

(2)任选的混合多种质粒的片段和纯化，

(3)使用第一连接引物和第一连接引物对片段化产物进行扩增，

(4)使用含有测序接头的第三和第四引物对步骤(3)的扩增产物进行扩增，和

任选的(5)对步骤(4)的扩增产物进行纯化。

在一个或多个实施方案中，所述方法包括：

(1)使用多种转座体复合物对多种质粒进行片段化处理，其中

(1.1)至少一种转座体复合物包含TN5转座酶和含第一核酸序列的至少第一核酸分子，和

(1.2)至少一种转座体复合物包含TN5转座酶和含第二核酸序列的至少第二核酸分子，

(2)任选的混合多种质粒的片段和纯化，

(3)使用第一连接引物和第二连接引物对片段化产物进行扩增，

(4)使用含有测序接头的第三引物和第四引物对步骤(3)的扩增产物进行扩增，和

任选的(5)对步骤(4)的扩增产物进行纯化，

其中，第一核酸序列包含第一转座子末端序列和第一标签序列，第二核酸序列包含第二转座子末端序列和第二标签序列，所述第一标签序列和第二标签序列不同。

在一个或多个实施方案中，(1)是使用多种转座体复合物对多种质粒分别进行片段化处理。

在一个或多个实施方案中，(1.1)的转座体复合物包含两种或更多种所述第一核酸分子，所述两种或更多种第一核酸分子的核酸序列中的第一标签序列彼此不同。

在一个或多个实施方案中，第一标签序列是NNNNNNNN，各N独立地为A、T、G或C。优选地，第一标签序列选自TATAGCCT、ATAGAGGC、TCGCCTTA、CTAGTACG、TTCTGCCT、GCTCAGGA、AGGAGTCC、CATGCCTA、GTAGAGAG、CCTCTCTG。

在一个或多个实施方案中，(1.2)的转座体复合物包含两种或更多种所述第二核酸分子，所述两种或更多种第二核酸分子的核酸序列中的第二标签序列彼此不同。

在一个或多个实施方案中，第二标签序列是NNNNNNNN，各N独立地为A、T、G或C。优选地，第二标签序列选自CGAGTAAT、TCTCCGGA、AGCGTAGC、CAGCCTCG、TGCCTCTT、TCCTCTAC、ATCACGAC、ACAGTGGT、CAGATCCA、ACAAACGG、ACCCAGCA、AACCCCTC、CCCAACCT、CACCACAC。

在一个或多个实施方案中，所述第一转座子末端序列和所述第二转座子末端序列不同或相同。

在一个或多个实施方案中，所述第一转座子末端序列和所述第二转座子末端序列中任一或二者是AGATGTGTATAAGAGACAG。

在一个或多个实施方案中，第一核酸序列的部分序列与第一连接引物的部分序列相同；第二核酸序列的部分序列与第二连接引物的部分序列相同。

在一个或多个实施方案中，第一连接引物的部分序列与含有测序接头的第三引物的部分序列相同；第二连接引物的部分序列与含有测序接头的第四引物的部分序列相同。

在一个或多个实施方案中，第一核酸序列的部分序列与第一连接引物的部分序列相同，所述第一连接引物还含有与含有测序接头的第三引物的部分序列相同的序列；第二核酸序列的部分序列与第二连接引物的部分序列相同，所述第二连接引物还含有与含有测序接头的第四引物的部分序列相同的序列。

在一个或多个实施方案中，测序接头包含第三标签序列NNNNNN，各N独立地为A、T、G或C。优选地，第三标签序列选自TGCCGA、CTTCGA。

在一个或多个实施方案中，含有测序接头的第三引物和第四引物是P5和P7测序接头引物，所述P5和P7测序接头引物中任一包含所述第三标签序列。优选地，所述P5和P7测序接头引物是illumina的P5和P7测序接头引物，其中任一包含所述第三标签序列。

在一个或多个实施方案中，第一核酸序列如下所示：

tcgtcggcagcgtctccacgcNNNNNNNNGCGATCGAGGACGGCAGATGTGTATAAGAGACAG(SEQID NO:1)

在一个或多个实施方案中，第二核酸序列如下所示：

(SEQ ID NO:2)。

在一个或多个实施方案中，第一连接引物和第二连接引物的序列如SEQ ID NO:3或4所示：

SEQ ID NO:3

ACACTCTTTCCCTACACGACGCTCTTCCGATCTtcgtcggcagcgtctccacgc

SEQ ID NO:4

在一个或多个实施方案中，含有测序接头的第三引物和第四引物如SEQ ID NO:5或6：

SEQ ID NO:5：

AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT

SEQ ID NO:6：

其中NNNNNN是标签序列，各N独立地为A、T、G或C；*为硫代磷酸(Phosphorothioate)修饰。

在一个或多个实施方案中，至少一种标签序列包含标签域，并且连接引物或含有测序接头的引物的部分对应于所述标签域。

在一个或多个实施方案中，标签域选自限制性位点域、捕获标签域、测序标签域、扩增标签域、检测标签域、地址标签域和转录启动子域中的一种或多种。在一些实施方案中，标签域为包括选自以下的测序标签或由选自以下的测序标签构成的测序标签域：Roche454A测序标签和Roche454B测序标签，ILLUMINATM SOLEXATM测序标签、AppliedBiosystems的SOLIDTM测序标签、Pacific Biosciences的SMRTTM测序标签、PollonatorPolony测序标签、或Complete Genomics测序标签。

在一个或多个实施方案中，扩增包括使用PCR扩增反应、链置换扩增反应、滚环扩增反应、连接酶链反应、转录介导的扩增反应或环介导的扩增反应中的一种或多种。

在一个或多个实施方案中，所述方法还包括在片段中填充缺口和连接切口。

在一个或多个实施方案中，所述方法还包括在(3)所述的扩增前的填充缺口和连接切口步骤，优选为72℃5分钟。

在一个或多个实施方案中，步骤(2)的纯化是纯化200bp至500bp的片段。

本发明还提供由本文方法制备的DNA文库。

本发明还提供一种组合物，包含多种转座体复合物、第一连接引物、第二连接引物、含有测序接头的第三引物和第四引物，其中

(1)至少一种转座体复合物包含TN5转座酶和含第一核酸序列的至少第一核酸分子，和

(2)至少一种转座体复合物包含TN5转座酶和含第二核酸序列的至少第二核酸分子，

在一个或多个实施方案中，所述多种转座体复合物用于对多种质粒进行片段化。

在一个或多个实施方案中，第一连接引物和第二连接引物用于对片段化产物进行扩增。

在一个或多个实施方案中，含有测序接头的第三引物和第四引物用于对第一连接引物和第二连接引物的扩增产物进行扩增。

在一个或多个实施方案中，(1)的转座体复合物包含两种或更多种所述第一核酸分子，所述两种或更多种第一核酸分子的核酸序列中的第一标签序列彼此不同。

在一个或多个实施方案中，(2)的转座体复合物包含两种或更多种所述第二核酸分子，所述两种或更多种第二核酸分子的核酸序列中的第二标签序列彼此不同。

在一个或多个实施方案中，第一核酸序列如下所示：

tcgtcggcagcgtctccacgcNNNNNNNNGCGATCGAGGACGGCAGATGTGTATAAGAGACAG(SEQID NO:1)

在一个或多个实施方案中，第二核酸序列如下所示：

(SEQ ID NO:2)。

SEQ ID NO:3

ACACTCTTTCCCTACACGACGCTCTTCCGATCTtcgtcggcagcgtctccacgcSEQ ID NO:4

SEQ ID NO:5：

AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT

SEQ ID NO:6：

在一个或多个实施方案中，所述组合物还包含靶质粒。

本发明还提供一种引物组合物，包含具有SEQ ID NO:1和SEQ ID NO:2所示序列的引物。

在一个或多个实施方案中，所述引物组合物还包含具有SEQ ID NO:3和SEQ IDNO:4所示序列的引物和/或具有SEQ ID NO:5和SEQ ID NO:6所示序列的引物。

本发明还提供一种试剂盒，包含本文任一实施方案所述组合物或引物组合物。

在一个或多个实施方案中，所述试剂盒还包括用于DNA测序反应的试剂。

在一个或多个实施方案中，所述试剂盒还包括Tn5转座酶或编码Tn5转座酶的核酸分子或包含该核酸分子的核酸构建物。

附图说明

图1显示Tn5建库的方案设计。A：对大规模质粒进行Tn5建库的实验流程；B：Tn5建库为每个质粒的测序片段添加三个标签以及测序引物和接头。

图2显示利用已知序列的质粒进行方法学验证。A：测序数据的处理流程；B：测序效率的检测；C：质粒读段数的统计；D：测序深度低于10000个读段时质粒测序区域的覆盖度；E：测序深度为10000-20000个读段时质粒测序区域的覆盖度；F：突变的检测。

图3显示利用未知序列的质粒进行方法学测试。A：质粒读段数的统计；B：质粒读段数的分布情况；C：质粒的组装情况及NCBI注释结果分析。

具体实施方式

发明人经深入研究和测试得到Tn5建库方法和核酸分子组，使用TN5转座酶进行微量、高效、快速的二代测序文库构建，构建的文库可以直接上机测序。本发明提供了用于同时使多种质粒产生加标签的DNA测序文库并进行高通量测序的方法、组合物和试剂盒。

本发明涉及产生质粒DNA的加标签的DNA文库的方法，所述方法包括将该质粒DNA与转座酶和转座子末端组合物一起孵育，其中转座子末端组合物包含具有标签序列和转座子末端序列的转移链以及非转移链。在一个具体实施方式中，转移链以单链形式分别接在DNA双链的两条链各自的5′端。所述孵育是在如下条件下进行：其中转座酶催化转座反应，并且其中质粒DNA断裂产生多个DNA片段，并且所述含有转座子末端序列的转移链以单链形式分别接在所述多个DNA片段中的每一个片段双链的5′端。在使用不同转座子末端组合物孵育时，经转座的DNA片段的两端可以具有相同或不同的标签序列(和转座子末端序列)，在用第一和第二连接引物扩增后，具有相同标签序列的DNA片段由于semi-suppressive PCR而不能被有效的扩增，仅那些具有不同标签序列的DNA片段可被顺利扩增，从而获得包含多个在两端加双标签的DNA片段的库。本发明还涉及对上述文库测序的方法。

当本文使用术语“例如”、“如”、“诸如”、“包括”、“包含”或其变体时，这些术语将不被认为是限制性术语，而将被解释为表示“但不限于”或“不限于”。

除非本文另外指明或根据上下文明显矛盾，否则术语“一个”和“一种”以及“该”和类似指称物在描述本发明的上下文中(尤其在以下权利要求的上下文中)使用应被解释成覆盖单数和复数。

在本发明的方法的实施方案中的一个重要步骤是使用体外转座反应将靶DNA断裂并加标签以产生加标签的DNA片段。体外转座反应需要转座酶、转座子末端组合物以及适合的反应条件。

“转座酶”能够与转座子末端序列形成功能复合物并催化该转座子末端序列插入该酶孵育的双链DNA中的转座反应。“转座反应”是其中一个或多个转座子末端序列在随机位点或几乎随机的位点插入靶DNA中的反应。本文的转座酶可为Tn5转座酶。

术语“转座子末端序列”表示只显示在体外转座反应中与转座酶形成有功能的复合物所必需的核苷酸序列的双链DNA。转座子末端与识别并结合该转座子末端的转座酶形成“复合物”或“转座体复合物”，并且该复合物能够将该转座子末端序列插入与其孵育的DNA中。转座子末端组合物由“转移链(或称转移序列)”以及“非转移链(或称非转移序列)”构成。例如，与Tn5转座酶形成复合物的一种转座子末端组合物包括转移链：AGATGTGTATAAGAGACAG，和非转移链CTGTCTCTTATACACATCT(SEQ ID NO:7)。

如本文所用，“标签”是指向它所接合的核酸片段提供寻址手段的非靶核酸组分，一般为DNA。在优选的实施方案中，标签包括允许与其相连的DNA的鉴定、识别和/或分子操作或生物化学操作的核苷酸序列(例如，通过提供用于使寡核苷酸退火的位点，所述寡核苷酸诸如用于DNA聚合酶延伸的引物或者捕获反应或连接反应的寡核苷酸)。

如本文所用，“标签域”表示显示用于期望的预定目的或应用的序列的标签的部分或结构域。一种标签域是“转座子末端域”，该标签域显示转移的转座子末端序列。如本文所用，“切割域”是指易感的核酸序列。如本文所用，“限制性位点域”表示显示用于使利用限制性内切核酸酶的切割更容易的目的的序列的标签域。如本文所用，“捕获标签域”表示如下标签域：显示用于使该标签域接合的ssDNA片段的捕获更容易的目的的序列。如本文所用，“测序标签域”表示显示用于如下目的的序列的标签域：使利用合成加标签的环状ssDNA片段的方法对该标签接合的ssDNA片段的测序更容易。如本文所用，“扩增标签域”表示显示用于如下目的的序列的标签域：使所述标签附加的核酸的扩增更容易。例如，在一些实施方案中，扩增标签域提供用于使用DNA聚合酶的核酸扩增反应(例如，PCR扩增反应)的引发位点。如本文所用，“检测标签域”表示显示用于如下目的的序列或可检测的化学部分或生物化学部分的标签域：使加标签的环状ssDNA片段或加双标签的线性ssDNA片段的检测更容易。如本文所用，“地址标签域”表示显示允许特定样品的鉴定的序列的标签域。如本文所用，“转录启动子域”表示显示用于RNA聚合酶启动子的正义启动子序列或反义启动子序列的序列的标签域。

如本文所用，在提到核酸或核酸反应时使用的术语“扩增”是指制备靶核酸或例如按照本发明的实施方案产生的加标签的核酸的拷贝的体外方法。扩增核酸的许多方法是本领域已知的，并且扩增反应包括聚合酶链反应、连接酶链反应、链置换扩增反应、滚环扩增反应、转录介导的扩增方法诸如NASBA、环介导的扩增方法。本领域知晓可用于通过PCR进行扩增反应的试剂和条件。示例性的试剂包括DNA聚合酶、dNTP、缓冲液、内标、对照物、KCl、MgCl₂或(NH4)₂SO₄。

术语“退火”或“杂交”是指具有经由沃森-克里克碱基配对形成复合物的充分互补性的核苷酸序列之间形成复合物。在讨论引物或探针时，本文所述“退火”或“杂交”指引物或探针与模板序列在严谨或高度严谨条件下配对。本文所述核酸杂交的严谨条件本领域技术人员已知。优选地，所述条件是使得序列彼此至少约65％、70％、75％、85％、90％、95％、98％或99％同源，通常保持彼此杂交。严谨杂交条件的非限制性实例是在含有6xSSC、50mMTris-HCl(pH7.5)、1m MEDTA、0.02％PVP、0.02％Ficolll、0.02％BSA和500mg/ml变性鲑鱼精子DNA的高盐缓冲剂中在65℃杂交，和任选的在0.2xSSC、0.01％BSA中50℃洗涤一次或两次。

如本文所用，“DNA聚合酶”是指催化脱氧核糖核苷酸聚合成DNA链的酶。DNA聚合酶包括需要模板核酸来确定聚合物中添加脱氧核糖核酸的次序的“依赖模板的DNA聚合酶”，或者它们可以是“不依赖模板的”，以致它们催化聚合作用而不参考模板序列。“依赖模板的DNA聚合酶”是通过延伸与DNA模板退火的引物来合成互补的DNA拷贝的酶。

在本发明的优选实施方案中，可以按大小选择在体外转座反应中产生的加标签的DNA片段的文库。在大小选择或纯化对于某些应用而言是必要的情况下，可通过琼脂糖凝胶电泳按大小选择加标签的DNA片段并纯化。在一些实施方案中，选择并纯化200bp至500bp的DNA片段的文库。

在所述方法的任何一种的一些实施方案中，转移的转座子末端寡核苷酸、连接加标签寡核苷酸或PCR引物包含亲和性分子或与亲和性分子接合，并且所述方法另外包括如下步骤：提供用亲和性结合物质共价或非共价包被的固体表面，所述亲和性结合物质能够与亲和性分子特异性结合；以及，在亲和性结合物质与亲和性分子特异性结合的条件下使固体表面与转座产物或扩增产物接触。转座产物或扩增产物通过结合固体表面被捕获、分离或纯化。本发明不限于特定的固体表面，固体表面可以选自：磁珠、包被的珠子、载玻片、微量滴定板的孔、管、以及由玻璃、塑料、硅石、特氟隆或其他适合的材料构成的浸渍片。在一些优选的实施方案中，亲和性分子是生物素并且亲和性结合物质是抗生物素蛋白或抗生蛋白链菌素，或者其中亲和性分子是洋地黄毒苷并且亲和性结合物质是特异性结合洋地黄毒苷的抗体。

组合物和试剂盒

本发明还包括用于本发明的任何一种方法的试剂盒和单独组合物。试剂盒是可用于执行本发明的方法的单独组合物的组合，其中将这些组合物优化以在该方法中一起使用。组合物包括用于本发明的方法的至少一个步骤的单独的组分或组分的掺合物。本发明包括可由本发明的任两种组合物的组合组装的任何试剂盒以及在本发明的试剂盒或方法中使用的任何新颖组合物。可选地，试剂盒可以由处于便利使用形式例如按单次使用部分预先等分的形式的单一组分或组合物组装，并且可任选地包括一套使用该组分或组合物的说明书。

为了实现大量质粒的并行测序，发明人为每个质粒的测序片段添加了三个标签，用以区分大量并行测序的质粒。首先利用带有不同标签序列的Tn5转座酶来打断并标记质粒DNA。在DNA的两段分别加上不同的标签(第一标签和第二标签)，仅使用20种标签便可标记96(8×12)个质粒。进一步的，将96个质粒的打断产物混合纯化后通过PCR添加第三个标签序列(第三标签)来增加标签组合。利用三个标签序列，一次可以进行数千个质粒的并行测序，理论上，甚至可以进行超过10¹⁰个质粒的并行测序。

以下结合附图和具体实施例来进一步说明本发明，但实施例并不对本发明做任何形式的限定。除非特别说明，本发明采用的试剂、方法和设备为本技术领域常规试剂、方法和设备。除非特别说明，以下实施例所用试剂和材料均为市购。

实施例

实施例1，材料和试剂

1.1试剂列表如下：

1.2引物(均在生工生物工程合成)，列表如下，其中中括号“[]”内为标签序列：

1.3菌株与质粒

大肠杆菌BL21感受态细胞(CB105)购自天根生化科技，pTXB1-Tn5-GryA-CBD基于pTXB1-Tn5(Addgene质粒#60240)构建。

1.4缓冲液配方

缓冲液配方如下表：

实施例2，测序方法

2.1Tn5融合蛋白纯化

将pTXB1-Tn5-GryA-CBD质粒转化至BL21感受态细胞中，涂布在氨苄平板上37摄氏度培养过夜。从平板上挑取一个单克隆接种至3mL含有100μg/mL氨苄的LB培养基中，37摄氏度振荡培养4小时，将该培养物转接至400mL的含氨苄LB培养基中，振荡培养至OD600nm约为0.6，将培养物在冰上冷却30分钟，加入IPTG至终浓度0.25mM，18℃振荡培养过夜诱导蛋白表达。

培养物在4℃以5000rcf离心10分钟，收集菌体沉淀。将菌体用40mL冰冷的HEGX缓冲液(预先加入蛋白酶抑制剂PMSF至1mM)重悬，通过永联UH-03压力破碎仪破碎(压力800bar)至悬液清澈。破碎产物在4℃以10000rcf离心30分钟，将上清液转移至洁净离心管中，暂放在冰上待用。

用一个柱体积的HEGX缓冲液洗涤层析柱，将2mL几丁质树脂装填至亲和层析柱，待保护液流尽后用一个柱体积的HEGX缓冲液洗涤树脂，用少量的破碎菌液上清将洗净的树脂重悬，并转移至洁净的50mL离心管中，在旋转混合器上4度孵育过夜。

将孵育的混合物流过层析柱，使液体流尽，用3-6个柱体积的包含1mM PMSF的HEGX缓冲液洗涤层析柱中结合了目标蛋白的树脂，将杂蛋白尽量除去，直到流出液不能使考马斯亮蓝染液明显变色。将层析柱中的树脂用洗脱缓冲液(包含100mM DTT的HEGX缓冲液，现配现用)重悬，转移至一个洁净的15mL离心管，在旋转混合器上4度孵育48小时。

将洗脱液流过层析柱，并收集流出的包含目标蛋白的洗脱液，将其转移至透析膜中，在800mL 2x Tn5透析缓冲液中透析4小时并重复一次。透析后的样品用超滤离心管浓缩，浓缩至合适体积后测定蛋白浓度，并加入灭菌的甘油制成含55％的甘油的保存母液，分装后保存至-20℃。

2.2组装Tn5复合体(Tnp)

粗纯化的Tn5蛋白可以直接用于后续实验(Picelli等,2014)，通过与带有Tn5识别末端序列的双链寡聚核苷酸结合，可以组装成具有转座活性的Tnp复合体(Reznikoff,2008)，我们使用的组装流程如下：将200mM的非转移链与200mM的T5或者T7引物等体积混合，在加热至沸腾的水中自然降温至室温。在50mL的11mM LaG16-Tn5蛋白溶液(即保存母液，可用含55％甘油的2x Tn5透析缓冲液稀释)中加入6.2mL提前退火的100mM双链，混匀后在25℃孵育60分钟可以获得11mM的带有不同标签序列的Tnp。

2.3利用Tnp片段化质粒序列

利用Tnp的转座酶活性，我们向质粒的序列中转座Tnp中组装的T5或者T7序列并使质粒片段化，对每一种质粒用一对T5和T7的标签组合标记所有来源于该质粒的序列。反应如下：

5xTAPs-DMF	2
		T5-Barcode-Tnp(11mM)	2
T7-Barcode-Tnp(11mM)	2
		质粒(50ng/ml)	1
ddH2O	3
		总计	10(ml)

混匀后在37℃孵育2小时。

2.4混合样品并进行片段大小选择

将具有不同T5与T7标签组合的样品混合到同一个离心管中，注意不要混合使用了同样T5与T7标签的样品(后续通过在序列外侧PCR连接illumina测序的NEB P7标签区分)，在反应产物中加入终浓度为0.02％的SDS终止反应，将终止反应后的产物通过1.5％的琼脂糖凝胶电泳分离大小不一的片段，切割200bp至500bp的凝胶条并纯化回收其中的产物。

2.5第一轮PCR扩增：在序列两端加上连接序列

为了连接NEB生产的标准测序引物序列，首先要在反应产物两侧加上连接序列，设置如下PCR反应：

5xQ5反应缓冲液	5
		5xQ5 HighGC增强剂	5
Q5聚合酶	0.25
		dNTP(10mM)	1
连接序列正向引物	1
		连接序列反向引物	1
模板(标签产物混合物)	5
		ddH2O	6.25
总计	25(ml)

PCR反应程序如下：

无需纯化产物，直接进行下一步PCR连接测序接头。

2.6第二轮PCR扩增：在序列两端连接illumina标准测序接头

最后我们在序列两端连接上适用于illumina的标准测序P5/P7接头,设置PCR反应如下：

5xQ5反应混合物	5
		5xQ5 HighGC增强剂	5
Q5聚合酶	0.25
		dNTP(10mM)	1
NEB Universal P5，Illumina	1
		NEB P7，Illumina Ixx	1
模板(带有连接序列的标签产物)	1
		ddH2O	10.25
总计	25(ml)

PCR反应程序如下：

2.7纯化PCR产物与片段选择

将不同P7 index标记的PCR产物按包含的质粒个数的比例混合，向混合产物中加入0.5x体积的Magbio HighPrep PCR DNA纯化磁珠，涡旋混合均匀后室温静置10分钟，将离心管放置到磁力架上静置2分钟。将上清液转移至一个新的离心管中，继续向上清液中加入0.7x体积的Magbio HighPrep PCR DNA纯化磁珠，最终为1.2x，涡旋混合均匀后室温静置10分钟，将离心管放置到磁力架上静置2分钟，待磁珠完全被吸附后将上清丢弃，保持离心管在磁力架上，用80％的乙醇洗涤磁珠两次，每次静置30s，将乙醇完全吸净，在室温晾干残余的液体，加入25mL(若样品较多可以增加洗脱体积)双蒸水重悬磁珠，室温静置5分钟后将离心管放置到磁力架上静置2分钟，将洗脱液转移至一个新离心管中，-20℃保存。

2.8质检与测序

测序文库用QIAxcel全自动核酸分析系统进行毛细管电泳分析片段大小，文库最终片段大小在300-600bp，进一步在Illumina X10测序平台上进行PE150规格的测序。

实施例3，实验结果

3.1测序接头及方案设计

为了实现大量质粒的并行测序，我们为每个质粒的测序片段添加了三个标签(图1，B)，用以区分大量并行测序的质粒。首先我们利用带有不同标签序列的Tn5转座酶来打断并标记质粒DNA(图1，A)。我们在DNA的两端分别加上不同的标签，仅使用20种标签便可标记96(8×12)个质粒。进一步的，我们将一组96个质粒的打断产物混合纯化后通过PCR添加第三个标签序列来增加标签组合(图1，A)。利用三个标签序列，我们一次可以进行数千个质粒的并行测序，理论上，我们甚至可以进行超过10¹⁰个质粒的并行测序。

3.2测序方法验证

测序深度和效率的检测：我们首先利用已知序列的质粒进行了验证。测序之后，我们首先切除读段3’的接头序列和低质量序列，以防止错误的比对和组装；然后我们切除5’端接头序列，并按标签序列拆分数据，同时去除接头和标签无法辨识的读段(图2，A)。最终测序效率(即能成功识别标签的读段与测序获得总读段的比例)为70±15％C(图2，B)。我们预期为每个质粒测10000个读段(以10kb的质粒计算，覆盖度约为160×)，实际上我们获得读段数目为11196±4055(图2，C)。以上数据表明，我们的方法能高效的测得质粒序列，且不同质粒间的分布较为均一。

序列的组装：通过标签序列将读段分配给每个质粒后，我们逐个对每个质粒进行从头组装。我们发现尽管数千个读段就足以覆盖几乎全部质粒序列(图2，D)，但是在一些AT富集的区域内存在着少数的区域没有覆盖到。这种偏好性可能与测序本身的误差有关(Chen et al.,2013)。尽管存在一定的偏好性，当测序读段进一步增加至10000以上时，AT富集区基本能被覆盖到(图2，E)。以上数据表明，利用我们的方法，仅需数千个读段基本能完整的覆盖整个质粒，通过增加测序深度至10000-20000个读段即可覆盖到AT富集等的较难测通的区域。

突变的检测：质粒在构建过程中通常仅检测了插入部分，骨架部分的突变则常被忽视。我们发现，部分质粒的骨架部分存在着突变。如图2，F，该质粒的复制子上存在着一个突变，这个突变可能会影响质粒的复制，进而影响其拷贝数，从而改变质粒抽提的产量。由于我们的方法可以获得较高的覆盖度，可以通过多个读段验证突变的存在(图2，F)，具有很高的灵敏度和准确性。

3.3测序方法测试

我们对本发明的实验方法进行了两次测试，每次实验的质粒数均为100个。第一次测试我们预期为每个质粒测30000个读段，实际上我们获得读段数目为35722±1536(图3，A)；其中81％质粒的读段数介于10000-50000之间，而读段数小于10000的质粒有6个(图3，B)。从组装情况看，组装成环(完全组装)的质粒数为56个，组装失败的质粒数为3个，其余41个质粒为部分组装(只获得部分序列)；经过NCBI数据库注释，一共获得93个可用质粒(至少获得完整的插入序列的质粒)，质粒可用率为93％(图3，C)。同时我们分析了不同情况下质粒的平均读段数，组装失败质粒的平均读段数仅为168；而不可用质粒的平均读段数为10660，显著低于可用质粒的平度读段数37608(图3，C)。

为了进一步提高质粒的组装成功率和可用率，第二次测试我们预期为每个质粒测50000个读段，实际上我们获得读段数目为53336±1926(图3，A)；其中57％质粒的读段数大于50000，并且所有质粒的读段数均大于10000(图3，B)。此次完全组装和部分组装的质粒数分别为85个和15个；仅有1个质粒不可用，质粒可用率达到99％(图3，C)。以上两次测试表明，利用我们的方法，通过增加测序深度至30000-50000个读段就能够稳定、高效并且高质量地获得质粒序列。

序列表

<110> 中国科学院生物化学与细胞生物学研究所苏州研究院

<120> 质粒测序方法

<130> 205702

<141> 2020-11-16

<160> 7

<170> SIPOSequenceListing 1.0

<210> 1

<211> 63

<212> DNA

<213> Artificial Sequence

<221> misc_feature

<222> (22)..(29)

<223> n =a, g, c or t

<400> 1

tcgtcggcag cgtctccacg cnnnnnnnng cgatcgagga cggcagatgt gtataagaga 60

cag 63

<210> 2

<211> 69

<212> DNA

<213> Artificial Sequence

<221> misc_feature

<222> (28)..(35)

<223> n =a, g, c or t

<400> 2

gtctcgtggg ctcggctgtc cctgtccnnn nnnnncaccg tctccgcctc agatgtgtat 60

aagagacag 69

<210> 3

<211> 54

<212> DNA

<213> Artificial Sequence

<400> 3

acactctttc cctacacgac gctcttccga tcttcgtcgg cagcgtctcc acgc 54

<210> 4

<211> 57

<212> DNA

<213> Artificial Sequence

<400> 4

gactggagtt cagacgtgtg ctcttccgat ctgtctcgtg ggctcggctg tccctgt 57

<210> 5

<211> 58

<212> DNA

<213> Artificial Sequence

<400> 5

aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatct 58

<210> 6

<211> 64

<212> DNA

<213> Artificial Sequence

<221> misc_feature

<222> (25)..(30)

<223> n =a, g, c or t

<400> 6

caagcagaag acggcatacg agatnnnnnn gtgactggag ttcagacgtg tgctcttccg 60

atct 64

<210> 7

<211> 19

<212> DNA

<213> Artificial Sequence

<400> 7

ctgtctctta tacacatct 19

Claims

1.一种多质粒TN5建库方法，其特征在于，所述方法包括：

(1)使用多种转座体复合物对多种质粒进行片段化处理，其中

(2)任选的混合多种质粒的片段和纯化，

任选的(5)对步骤(4)的扩增产物进行纯化，

其中，所述第一核酸序列包含第一转座子末端序列和第一标签序列，所述第二核酸序列包含第二转座子末端序列和第二标签序列，所述第一标签序列和第二标签序列不同。

优选地，(1.1)的转座体复合物包含两种或更多种所述第一核酸分子，所述两种或更多种第一核酸分子的核酸序列中的第一标签序列彼此不同；

优选地，(1.2)的转座体复合物包含两种或更多种所述第二核酸分子，所述两种或更多种第二核酸分子的核酸序列中的第二标签序列彼此不同。

2.如权利要求1所述的方法，其特征在于，

所述第一标签序列是NNNNNNNN，各N独立地为A、T、G或C；优选地，所述第一标签序列选自TATAGCCT、ATAGAGGC、TCGCCTTA、CTAGTACG、TTCTGCCT、GCTCAGGA、AGGAGTCC、CATGCCTA、GTAGAGAG、CCTCTCTG，和/或

所述第二标签序列是NNNNNNNN，各N独立地为A、T、G或C；优选地，所述第二标签序列选自CGAGTAAT、TCTCCGGA、AGCGTAGC、CAGCCTCG、TGCCTCTT、TCCTCTAC、ATCACGAC、ACAGTGGT、CAGATCCA、ACAAACGG、ACCCAGCA、AACCCCTC、CCCAACCT、CACCACAC，和/或

所述第一转座子末端序列和所述第二转座子末端序列中任一或二者是AGATGTGTATAAGAGACAG。

3.如权利要求1或2所述的方法，其特征在于，

所述第一核酸序列的部分序列与所述第一连接引物的部分序列相同；所述第二核酸序列的部分序列与所述第二连接引物的部分序列相同，或

所述第一连接引物的部分序列与含有测序接头的第三引物的部分序列相同；所述第二连接引物的部分序列与含有测序接头的第四引物的部分序列相同，或

所述第一核酸序列的部分序列与所述第一连接引物的部分序列相同，所述第一连接引物还含有与含有测序接头的第三引物的部分序列相同的序列；所述第二核酸序列的部分序列与所述第二连接引物的部分序列相同，所述第二连接引物还含有与含有测序接头的第四引物的部分序列相同的序列。

4.如权利要求1或2所述的方法，其特征在于，所述方法具有选自以下一项或多项的特征：

所述测序接头包含第三标签序列NNNNNN，各N独立地为A、T、G或C；优选地，第三标签序列选自TGCCGA、CTTCGA，

所述第一核酸序列如SEQ ID NO:1所示，

所述第二核酸序列如SEQ ID NO:2所示，

所述第一连接引物如SEQ ID NO:3所示，

所述第二连接引物如SEQ ID NO:4所示，

所述第三引物如SEQ ID NO:5所示，

所述第四引物如SEQ ID NO:6所示，

所述方法还包括在(3)所述的扩增前的填充缺口和连接切口步骤，

步骤(2)的纯化是纯化200bp至500bp的片段。

5.由权利要求1或2所述的方法制备的质粒DNA文库。

6.一种组合物，包含多种转座体复合物、任选的第一连接引物和第二连接引物、和任选的含有测序接头的第三引物和第四引物，其中

其中，所述第一核酸序列包含第一转座子末端序列和第一标签序列，所述第二核酸序列包含第二转座子末端序列和第二标签序列，所述第一标签序列和第二标签序列不同，

优选地，(1)的转座体复合物包含两种或更多种所述第一核酸分子，所述两种或更多种第一核酸分子的核酸序列中的第一标签序列彼此不同，

优选地，(2)的转座体复合物包含两种或更多种所述第二核酸分子，所述两种或更多种第二核酸分子的核酸序列中的第二标签序列彼此不同。

7.如权利要求6所述的组合物，其特征在于，

所述第一核酸序列的部分序列与所述第一连接引物的部分序列相同，所述第一连接引物所述还含有与含有测序接头的第三引物的部分序列相同的序列；所述第二核酸序列的部分序列与所述第二连接引物的部分序列相同，所述第二连接引物还含有与含有测序接头的第四引物的部分序列相同的序列。

8.如权利要求6或7所述的组合物，其特征在于，所述组合物具有选自以下一项或多项的特征：

所述第一标签序列是NNNNNNNN，各N独立地为A、T、G或C；优选地，第一标签序列选自TATAGCCT、ATAGAGGC、TCGCCTTA、CTAGTACG、TTCTGCCT、GCTCAGGA、AGGAGTCC、CATGCCTA、GTAGAGAG、CCTCTCTG，

所述第二标签序列是NNNNNNNN，各N独立地为A、T、G或C；优选地，第二标签序列选自CGAGTAAT、TCTCCGGA、AGCGTAGC、CAGCCTCG、TGCCTCTT、TCCTCTAC、ATCACGAC、ACAGTGGT、CAGATCCA、ACAAACGG、ACCCAGCA、AACCCCTC、CCCAACCT、CACCACAC，

所述第一转座子末端序列和所述第二转座子末端序列中任一或二者是AGATGTGTATAAGAGACAG，

测序接头包含第三标签序列NNNNNN，各N独立地为A、T、G或C；优选地，第三标签序列选自TGCCGA、CTTCGA，

第一核酸序列如SEQ ID NO:1所示，

第二核酸序列如SEQ ID NO:2所示，

第一连接引物如SEQ ID NO:3所示，

第二连接引物如SEQ ID NO:4所示，

第三引物如SEQ ID NO:5所示，

第四引物如SEQ ID NO:6所示，

所述组合物还包含靶质粒。

9.一种引物组合物，包含具有SEQ ID NO:1和SEQ ID NO:2所示序列的引物，

优选地，所述引物组合物还包含具有SEQ ID NO:3和SEQ ID NO:4所示序列的引物和/或具有SEQ ID NO:5和SEQ ID NO:6所示序列的引物。

10.一种试剂盒，包含权利要求6-8中任一项所述的组合物或权利要求9所述的引物组合物，

优选地，所述试剂盒还包括Tn5转座酶或编码Tn5转座酶的核酸分子或包含该核酸分子的核酸构建物，

优选地，所述试剂盒还包括用于DNA测序反应的试剂。