CN111936634A

CN111936634A - 用于制备用于测序的核酸分子的方法

Info

Publication number: CN111936634A
Application number: CN201880089087.0A
Authority: CN
Inventors: 维加德·彼得·克洛斯特曼; 耶罗·德·里德; 阿莱西奥·马尔科齐
Original assignee: UMC Utrecht Holding BV
Current assignee: UMC Utrecht Holding BV
Priority date: 2017-12-11
Filing date: 2018-12-11
Publication date: 2020-11-13
Anticipated expiration: 2038-12-11
Also published as: US20210180109A1; US11781170B2; WO2019117714A8; WO2019117714A1; US20240132937A1; EP3724353A1; CA3085420C; US12486531B2; CN111936634B; CN120350093A; CA3085420A1

Abstract

本发明涉及用于制备用于测序的双链靶DNA分子的手段和方法。在实施方式中，提供包括5’端和3’端的双链主链DNA分子，所述5’端和3’端提供为：与所述靶DNA的5’端和3’端为连接兼容的；当自连接时形成第一限制酶识别位点；为能够自连接的形式。方法可包括如果还不存在，为所述靶DNA提供5’端和3’端，以使所述5’端和3’端为防止自连接的形式，并且与所述主链DNA的5’端和3’端为连接兼容的。方法进一步包括在存在连接酶和切割所述第一限制酶识别位点的第一限制酶的情况下，将所述靶DNA连接至所述主链DNA，从而产生包括主链DNA分子和靶DNA分子的至少一个DNA环。此时可去除线性DNA，并且随后通过滚环扩增产生包括所述至少一个DNA环的拷贝的有序阵列的多连体DNA分子，该多连体DNA分子可被测序。

Description

用于制备用于测序的核酸分子的方法

技术领域

本发明涉及用于确定核酸分子的序列的手段和方法。具体地，本发明涉及利用待确定序列的核酸分子的滚环扩增的方法。

背景技术

随着时间的推移，测序方法在不断发展。旧的桑格(Sanger)测序方法已被目前常用的下一代测序(NGS)方法代替。最近，这些方法已在文献(Goodwin等2016；NatureReviews|Genetics Volume 17:pp 333-351：doi：10.1038/nrg.2016.49)中综述。最常用的NGS方法依赖于DNA的短延伸的测序。用于DNA的短延伸的测序技术存在固有的错误。通过对相同靶序列的多个拷贝进行独立测序可降低错误。然而，为每个单个序列读取，不可能确定改变代表错误还是真实突变。跨越几个独立序列读取的累积证据允许过滤扩增期间引入的突变和测序较长的靶DNA(也可利用短读取方法测序)中的错误。这通常通过对可被对齐的重叠片段进行测序来完成，以产生组装的较长序列。这种所谓的短读取配对末端技术已在大的靶核酸测序中非常成功，并且对各种基因组计划非常有用。基因组计划已经揭示了基因组是高度复杂的，具有很多长的重复要素、拷贝数改变以及结构变异。许多这类要素是这样长，以至于短读取配对末端技术缺陷以解决它们。长读取测序提供的读取长度超过几个千碱基，并且允许整个基因组中的这些大的结构特征的解析。两种流行的用于长读取测序的平台是Pacific Biosciences系统(RSII和Sequel)和Oxford Nanopore系统(MK1 MinION和PromethION)。两种均是单分子测序仪。两种平台允许的读取长度超过55kb甚至更长。然而，这些系统具有比下一代(第二代)测序仪甚至更高的错误率。这些错误可通过增加相同靶核酸的测序次数来降低(Goodwinetal2016；doi：10.1038/nrg.2016.49)。

本发明提供了新的用于制备用于测序的核酸分子的方案。

发明内容

本发明的实施方式提供了用于制备用于测序的双链靶DNA分子的方法，包括：

-提供包括5’端和3’端的双链主链DNA分子，所述双链主链DNA分子：

-与所述靶DNA的5’端和3’端为连接兼容的；

-当自连接时形成第一限制酶识别位点；

-为能够自连接的形式；以及

-如果还不存在，则为所述靶DNA提供作为防止自连接的形式并且与所述主链DNA的5’端和3’端为连接兼容的5’端和3’端；

所述方法进一步包括：

-在存在连接酶和切割所述第一限制酶识别位点的第一限制酶的情况下，将所述靶DNA连接至所述主链DNA，从而产生包括主链DNA分子和靶DNA分子的

至少一个DNA环；

-任选地去除线性DNA；

-通过滚环扩增产生包括所述至少一个DNA环的拷贝的有序阵列的多连体DNA分子；以及

-对所述至少一个多连体进行测序。

还提供了长度在50至1000个核苷酸的DNA分子(主链)的集合，所述DNA分子包括5’端和3’端，所述5’端在最末端包括第一限制酶识别位点的一部分，所述3’端在最末端包括第一限制酶识别位点的另一部分，以及所述5’端和所述3’端为彼此连接兼容的，并且当自连接时可形成限制酶(第一限制酶)识别位点，并且其中每个所述主链包括：

连接体；

任选的与集合中的其他主链的标识符的序列不同的标识符序列(条形码)；

任选地对主链分子的集合唯一的第二标识符；以及

任选地用于切口酶的限制酶切位点。

进一步提供了用于确定核酸分子的集合的序列的方法，包括：

-提供具有5’端和3’端的双链靶DNA分子，其中在DNA分子的两条链的3’端具有突出的腺嘌呤残基；

-提供双链主链DNA分子的集合，所述双链主链DNA分子包括与靶DNA的5’端和3’端为连接兼容的5’端和3’端；

所述方法进一步包括：

-在存在连接酶的情况下，将所述靶DNA连接至所述主链，从而产生包括主链和靶DNA分子的DNA环；

-任选地去除线性DNA；

-通过滚环扩增产生包括至少两个所述DNA环的拷贝的有序阵列的多连体；以及

-对所述多连体进行测序。

-提供双链靶DNA分子，所述双链靶DNA分子在5’端和所述3’端具有对于靶位点特异性重组酶特异性的重组酶识别位点；

-提供包括被包括连接体的DNA隔开的所述识别位点的主链；

-在存在所述靶位点特异性重组酶的情况下，孵育所述靶DNA分子与所述主链，所述靶位点特异性重组酶优选地为Cre重组酶、FLP重组酶或噬菌体λ(lambda)整合酶，从而产生包括主链和靶DNA分子的DNA环；

-任选地去除线性DNA；以及

-对所述多连体进行测序。

在优选的实施方式中，主链为包括两个重组酶识别位点的环，所述重组酶识别位点在一侧上被包括连接体的DNA隔开，并且在另一侧上被用于编码限制酶识别位点的DNA隔开，并且其中所述限制酶切位点为所述主链中用于所述限制酶的唯一识别位点。在该实施方式中，所述方法优选地进一步包括在所述重组之后用所述限制酶消化所述DNA，并且随后去除线性DNA，接着产生所述多连体。

-提供双链靶DNA分子，所述双链靶DNA分子在5’端和3’端具有对于靶位点特异性重组酶特异性重组酶识别位点；

-提供包括所述重组酶识别位点和连接体的双链环状主链DNA分子的集合；

所述方法进一步包括：

-在存在用于所述识别位点的靶位点特异性重组酶的情况下，孵育所述靶DNA分子与所述主链，从而产生包括主链和靶DNA分子的DNA环；

-任选地去除线性DNA；以及

-对所述多连体进行测序。

进一步提供了包括一条或多条主链的试剂盒。

具体实施方式

本文所述的手段和方法可多次确定相同靶DNA分子的序列。这可被用作改正错误的手段。这与通过对覆盖相同基因组基因座的多个独立分子进行测序来纠正错误的经典的第二代测序方法不同。在这种情况下，每次读取通常代表一个分子的一个测序事件。用本发明的方法，单一(靶)分子被反复复制，所以一次读取代表相同分子的多个测序事件。

靶核酸通常为双链DNA。需要确定序列的单链DNA或RNA可通过本领域已知的方法容易地转化成双链DNA。这种方法包括但不限于cDNA合成、逆转录酶(RT)聚合酶链反应(PCR)、PCR、随机引物延伸等。在进行方法之前，靶DNA为线性的或被制成线性的。

主链通常为双链DNA。在利用限制酶将靶DNA连接至主链的方法中，在方法之前或在方法期间，主链通常为线性的或被制成线性的。在利用靶位点特异性重组酶将靶DNA插入至主链的方法中，在方法之前或在方法期间主链可为线性的或被制成环状。

本文，自连接定义为将一个和相同核酸分子的5’端连接至3’端。

选择靶DNA的5’端和3’端，使得靶DNA的5’端和3’端与反应中使用的主链的5’端和3’端为连接兼容的。连接兼容的是指末端的彼此连接产生具有正确配对的核苷酸的双链DNA，而在连接接头处没有缺口。当然可稍后引入缺口，以允许启动RCA反应。平端与其他平端为连接兼容的。如果突出的DNA链可被一起退火，而没有未配对的碱基，则具有粘性(也被称为“粘着”)末端的DNA与其他粘性末端为连接兼容的。这种通常是末端具有互补序列时的情况。“连接兼容的末端”在本领域中也称为“兼容的末端”或“兼容的粘着末端”或“兼容的粘性末端”。

双链靶DNA分子包括待确定序列的核酸分子的序列。待确定序列的核酸分子可已经为具有与待使用的主链的5’端和3’端为连接兼容的5’端和3’端的双链DNA。有时核酸需要被制成双链DNA，例如，在cDNA或mRNA的情况下。靶DNA可已经具有合适的5’端和3’端，例如，各种聚合酶产生平端片段。这种平端片段与具有平头5’端和3’端的主链为连接兼容的。靶核酸也可提供合适的5’端和3’端，例如，通过用适当的一种或多种限制酶来消化，或通过末端转移酶来添加脱氧核苷酸。合适的5’端和3’端还可通过限制酶位点、重组酶识别位点和/或同源部的插入来引入。例如，通过将含有位点的适配体连接至靶DNA，或通过用含有限制酶位点、重组酶识别位点和/或同源部的引物扩增靶DNA。

产生与主链的末端为连接兼容的，但是与紧邻突出末端的区域中的核苷酸不同的末端的酶是可用的。在该实施方式中，优选地，酶的识别位点与所述第一限制酶的限制酶位点不同。如此，兼容末端的连接不产生可被所述第一限制酶切割的位点。如果限制酶被用于提供具有适当的末端的靶核酸，优选地，酶为产生平端的酶。在一个实施方式中，通过用一种或多种限制酶的消化，提供具有与待使用的主链的5’端和3’端为连接兼容的5’端和3’端的靶DNA分子。

在一个实施方式中，将靶DNA的末端连接至主链的末端产生靶-主链接头，靶-主链接头具有不被切割通过主链的自连接形成的(第一)限制酶位点的限制酶识别/切割的序列。

在优选的实施方式中，防止自连接的所述形式为一个DNA末端的5’-羟基和另一个DNA末端的3’-羟基，并且允许自连接的所述形式为一个DNA末端的5’-磷酸基和另一个DNA末端的3’-羟基。连接需要5’-磷酸基的存在。通过核酸分子的5’端上适当的磷酸酶去除，可防止自连接和连接至被类似处理的其他DNA分子。即使末端具有连接兼容的末端，也防止了连接。

在一个实施方式中，主链包括用于切口酶的识别位点。

靶DNA分子具有防止自连接形式的5’端和3’端。优选地，靶DNA为防止连接至其他靶DNA分子的形式。可通过提供去磷酸化形式的末端或在所述靶DNA分子的3’端添加核苷酸(3’突出端)满足了这两个要求。

当靶DNA的5’端和3’端为连接不兼容时，固有地防止了自连接。然而，在这些情况下，优选地，也防止了连接至其他靶分子。因此，在这种环境下，优选地，也以脱磷酸化的形式提供末端。不兼容的末端为例如但不限于平端和突出末端或其中突出的核苷酸(突出端)为不兼容的突出末端。

防止自连接和/或防止连接至其他靶DNA分子并不一定是绝对的。过程可/将在某种程度上发生。这在本发明的方法中是可容许的。即使连接效率低，也可获得良好的读取。

主链DNA的5’端和3’端可为彼此连接兼容的。在这种实施方式中，优选地，靶DNA的5’端和3’端彼此也为连接兼容的。优选地，不防止主链的末端的自连接。优选地，靶DNA的5’端被脱磷酸化。优选地，在存在识别和切割所述第一限制酶位点的限制酶的情况下进行连接。

在捕获双链靶DNA的实施方式中，主链为双链核酸分子。这种主链包括与靶DNA的5’端和3’端为连接兼容的的5’端和3’端。主链的5’端和3’端彼此也可为连接兼容的。

在实施方式中，主链包括一个或多个下述的部分：

-编码第一限制酶切位点的第一部分，优选第一限制酶切位点的第一半的5’端(例如，见下面示意示例中的1)，

-允许双链主链序列的切口的一个或多个位点(例如，见下面的2)，

-一个或多个1型或2型限制酶切位点(例如，见下面的3)，

-二级克隆位点(例如，见下面的4)，

-使主链分子的有效环化(弯曲)的柔性DNA延伸，下面的5)

-用来标记每个单个主链分子的唯一分子条形码(识别符)序列(例如，见下面的6)

-编码另一部分，优选提到的第一限制酶切位点的另一半的3’端。

-主链分子的5’端处的磷酸化和在主链分子的3’端的羟基。

-可用于识别单个样品的二级条形码序列。

双链主链序列的示意示例：

(1)(2)(3)(4)(5)(6)(1)

5’-GGGC..CCTCAGC..ATTTAAAT..GTCTTCGAGAAGAC..CATACTATCATG..(N)..GCCC-3’

3’-CCCG..GGAGTCG..TAAATTTA..CAGAAGCTCTTCTG..GTATGATAGTAC..(N)..CGGG-5’

圆点代表0个核苷酸；1个核苷酸；2个核苷酸或更多个核苷酸。

序列GGGC和GCCC代表限制酶位点的一半。序列构成SrfI位点，但是另一个限制酶位点也将起作用。在SrfI(GCCC|GGGC)的情况下，优势在于其为平端位点。另一个优点为其识别8个碱基长的位点，而大多数商业上可用的替代品识别6个碱基长的位点。

优选地，第一限制酶位点不出现在主链序列的其他位置。

连接兼容的末端的连接能够产生限制酶切位点。如果末端和侧翼序列(如果有的话)彼此连接时编码限制酶位点，就会出现这种情况。作为示例，具有序列为5’-AATT…的单链的双链DNA分子的末端与具有序列为…TTAA-5’的单链的双链DNA分子为连接兼容的，其中圆点指示双链部分，且5’或3’指示各自分子的游离端。两个末端的连接产生具有下述双链序列的分子：

…AATT…

…TTAA…

突出端与EcoRI限制酶产生的突出端相同。连接只在一些情况下产生限制酶切位点EcoRI，即，在加粗的核苷酸具有指示的碱基的情况下：

…GAATTC…

…CTTAAG…

在加粗的核苷酸具有不同的碱基时EcoRI不能切割。例如，下面的序列不被EcoRI切割：

…CAATTC…；或…AAATTC…；或…GAATTA…

…GTTAAG…；…TTTAAG…；…CTTAAT…

靶DNA的末端的序列因此确定通过兼容末端的连接形成的连接接头是否能被切割所述第一限制酶位点的酶消化。

在实施方式中，可优化主链的插入捕获效率，其中较高的效率体现在较高效的环化和滚环扩增(RCA)的产物形成。主链的插入捕获效率可通过可形成的多聚体的数量来估计。

在本文所述的用于测序靶DNA的方法中，优选地，靶DNA连接至主链DNA不在靶/主链DNA接头产生第一限制酶识别位点。在本发明中，优选地，主链的自连接产生第一限制酶位点，并且主链连接至靶DNA不产生所述位点。优选的第一限制酶位点为在连接接头中允许最多序列变异的酶。由于主链的序列具有第一限制酶位点的识别序列的一部分，并且优选为一半，所以变异来自靶末端的序列。在第一限制酶位点为EcoRI位点的情况下，编码第一限制酶位点的主链序列具有序列为5’-AATTC的5’端。取决于在靶DNA中的突出端的侧翼的核苷酸的碱基，与目标DNA的接头可具有四种不同序列中的一种。只有在靶序列具有序列为5’-AATTC..的末端时，与主链的连接接头为可被EcoRI酶切的。与其他序列的接头不被EcoRI酶切。通过选择产生很少或不产生突出端的酶和通过选择在识别位点需要更多特异性碱基的酶，改进了接头中的变异。第一限制酶位点优选地包括6个和更优选8个和优选更多个碱基。所以，切割所述第一限制酶位点的酶优选为至少6切割子(cutter)，更优选为至少7切割子，更优选为8切割子。数量指示在酶的识别位点中的碱基的数量。例如，EcoRI为6-切割子；识别AGCT的AluI为4-切割子。也存在为5-切割子(例如，AvaII)、7-切割子(例如，BbvCI)、8-切割子(例如，NotI)以及甚至其他限制酶。再加上优选的较少或没有突出端，这确保了连接接头中序列变异的高可能性，并且这降低了靶序列与主链序列的接头为第一限制酶位点的可能性。在识别位点中具有更多核苷酸的第一限制酶也是优选的，因为这种酶可允许更大的靶核酸插入。该方法适于多种靶核酸来源。本发明的方法可用具有不同第一限制酶位点的两个或更多个主链进行。如此，更多的靶分子可被捕获至DNA环中。在靶DNA具有两个非常接近的第一限制酶位点的情况下，可有效地对中间序列进行测序，例如通过用具有其他第一限制酶位点的主链来捕获该中间序列。在限制酶切位点的上下文中提及“第一”指主链上位点的位置(位点的一半)。主链中其他位置的限制酶识别位点将被称为第二、第三限制酶识别位点等。

优选的第一限制酶识别位点为用于限制酶SrfI(GGGC|GCCC)、PmeI(GTTT|AAAC)以及SweI(ATTT|AAAT)的位点。特别优选的第一限制酶位点为用于限制酶SrfI的位点。

主链的5’端包括在第一限制酶识别位点的最末端的一部分。其在内部可以但不一定含有另外的核苷酸。可改变末端的核苷酸的数量。5’端通常具有在2至15之间，优选地在2至10之间，优选地在2至8之间的核苷酸，更优选地为2、3、4、5、6、7或8个核苷酸。在一些实施方式中，5’端为3或4个核苷酸。

主链的3’端包括在第一限制酶识别位点的最末端的一部分。其可但不一定在内部含有另外的核苷酸。可改变末端的核苷酸的数量。3’端通常具有在2至15之间，优选地在2至10之间，优选地在2至8之间的核苷酸，更优选地为2、3、4、5、6、7或8个核苷酸。在一些实施方式中，3’端为3或4个核苷酸。

靶DNA的5’端和3’端优选地为平端。如果自连接不被防止，5’端和3’端也可为能连接在一起的粘性末端。靶DNA的5’端和3’端优选地以脱磷酸化的形式提供，以防止自连接。靶DNA的5’端和3’端也可为不能连接在一起的粘性末端，比如，通过末端转移酶添加的腺嘌呤突出端。

优选地，在存在连接酶和切割所述第一限制酶位点的限制酶(第一限制酶)的情况下进行连接。将主链的末端连接至靶DNA的末端产生双链DNA环。在本发明的方法中经常不防止主链的自连接。在存在连接酶的情况下，主链的两个末端的彼此连接或连接至其他主链的末端可阻碍通过该主链捕获靶核酸。通过第一限制酶的存在可抵制主链末端的连接。由于这种连接通常产生(重新产生)第一限制酶位点，所以主链被线性化和/或去多连体化。在同时支持有效的连接和利用第一限制酶的有效的切割的缓冲条件下进行连接反应。本发明的方法特别适于产生具有一个主链和一个靶核酸的DNA环。

在本发明的实施方式中，线性DNA，如果存在的话，优选地在滚环扩增之前被去除。在去除线性DNA之后进行滚环扩增通常产生主链和靶DNA的更高分子量的多连体。

方法包括：使在连接反应中产生的DNA环进行滚环扩增(RCA)。滚环扩增产生至少两个所述DNA环的拷贝的有序阵列。滚环扩增产生高分子量的DNA分子。高分子量适于测序，尤其适于长读取测序。

滚环扩增现已被文献(Mohsen和Kool(2016)Acc Chem Res.Vol 49(11)：pp2540-2550；网络公布于2016Oct 24.doi：10.1021/acs.accounts.6b00417)综述。术语滚环扩增和滚环复制在本领域有时被替换使用。在其他情况下，滚环扩增被用于指自然发生的质粒和病毒基因组的复制。这些术语指的是类似的基本原理，即，用主链-靶核酸拷贝的有序阵列对产生较长核酸分子的相同环状DNA进行重复拷贝。用于滚环扩增的现有技术使得产生含有所产生的DNA环的许多拷贝的大阵列。多连体可具有2个或更多拷贝，优选4个或更多个拷贝的所产生的环。

通过聚合酶进行滚环扩增，并且需要常用的引入序列来产生启动子。可使用具有高持续合成能力的特异性聚合酶以产生相当长的多连体。具有高持续合成能力的聚合酶是可聚合一千个或更多的核苷酸而不从DNA模板分开的聚合酶。它们可优选聚合两千个、三千个、四千个或更多的核苷酸而不与DNA模板分开。具有高持续合成能力的聚合酶在文献(Kelman等；1998：Structure Vol 6；pp 121-125)中被讨论。滚环扩增利用具有高持续合成能力和链置换能力的比如phi29聚合酶的聚合酶能够产生非常高的分子量的多连体。该聚合酶可聚合10kb或更多。所以优选的高持续合成能力的聚合酶是聚合10kb或更多而不与DNA模板分开的聚合酶(Blanco等；1999.J.Biol.Chem.264(15)：8935-40)。在存在一个或多个合适的引物的情况下，聚合可在双链DNA的切口上开始或DNA可解链和退火。合适的引物的示例为六聚体随机引物、一条或多条主链特异性引物、一个或多个靶核酸特异性引物或其组合。在靶核酸序列为未知的或在多种靶核酸序列要被测序时通常优选随机引物。一个或多个特异性引物可被用于已知基础序列的特异性靶核酸的测序。在一个实施方式中，一个或多个引物是主链所特有的。这种引物可被用于不同的情景中，例如、但不限于具有优化的主链的高通量系统。

具有双链环状DNA的优势在于其中一条链可被用作滚环扩增的模板。例如通过使用链特异性引物来启动RCA反应。牛津纳米孔(Oxford nanopore)测序结果的数据分析允许分别对每个链确定碱基调用(base-calling)和变异调用的准确性。具体地，我们发现由于C碱基和A碱基的原始电流强度相似，经常很难区分它们。然而，来自T的电流信号与所有其他碱基实质不同，并且容易被正确的分类。例如，如果A被期望在正链上突变，反链的测序将得到更清晰的结果，因为正链中的A可能被错判为G。因此，在此场景中，反链的特异性富集将会是有利的。因此在优选的实施方式中，滚环启动引物为链选择性引物。

对获得链特异性序列的进一步优化可涉及使用(或另外使用)实时选择测序方法，比如，现有技术(Loose等2016.Nature methods.Real-time selective sequencing usingnanopore technology)中所描述的那些。

主链优选为20至1000个核苷酸长，优选为20至800个核苷酸长，优选为50至800个核苷酸长，更优选为100至600个核苷酸长，优选为200至600个核苷酸长。取决于应用，靶核酸优选为40至15000个核苷酸长。

自由循环的或与血液或其他体液样品中细胞颗粒结合的DNA通常小于400个核苷酸。这种长度的靶核酸分子尤其适于本发明的方法。其他具有相对小的核酸分子的样品为一些种类的法医样品、化石样品、从对核酸分子完整性天生不友好的环境中分离出来的，比如粪便样品、地表水样品和其他富含微生物的样品的核酸样品。对于小的靶DNA(小于100个核苷酸)，优选地使用如本文所述的较大的主链。靶核酸也可为双链循环肿瘤DNA(ctDNA)或存在于液体活检(包括但不限于血液、唾液、胸腔液体或腹水)中的细胞游离DNA(cfDNA)。靶核酸也可为来源于信使RNA、微RNA、CRISPR RNA、非编码RNA、病毒RNA或其他来源的RNA的双链或单链cDNA。靶核酸也可为来源于基因组DNA、PCR产物、质粒DNA、病毒DNA或其他来源的双链DNA的双链DNA。本发明的手段和方法尤其适于捕获小的DNA。优选地400个或更少的碱基对。靶DNA捕获在本发明的主链中。该被捕获的DNA也被称为插入DNA或靶DNA。靶DNA优选地为400个或更少的碱基对，更优选地为300个或更少的碱基对，更优选地为200个或更少的碱基对，更优选地为150个或更少的碱基对。靶DNA的下限优选地为20个碱基对，更优选地为30个碱基对，更优选地为40个碱基对，以及更优选地为50个碱基对。任意下限可与任意上限组合。

这里，以核苷酸计给出DNA片段的大小。这当然指一条链中的数量。也可以以碱基对计，给出双链DNA的大小。所以，400个核酸的DNA为400个碱基对长。

产生的多连体可用多种不同的方法测序。其中优选长读取测序方法。技术人员可使用多种长读取测序方。它们共有的特征为，在测序反应中产生大于200个核苷酸的分子。通常大于500个核苷酸和甚至几千个核苷酸的长度。用于长读取、实时、单分子测序的两个现有平台为太平洋生物科学(PacificBiosciences)系统(RSII和Sequel)和牛津纳米孔(Oxford Nanopore)系统(MK1 MinION，GridION和PromethION)。这些允许的读取长度超过55kb甚至更长(Goodwin等2016；doi：10.1038/nrg.2016.49)。长读取系统优选地为单分子实时测序系统。单分子系统不依赖于扩增的DNA片段的克隆群体来产生可检测的信号。这些系统将序列决定蛋白质固定在特定位置，并允许核酸链通过蛋白质前进。现有的太平洋生物科学系统使用聚合酶，而牛津纳米孔系统当前使用膜通道蛋白。在优选的实施方式中，测序方法为单分子实时(SMRT)测序方法。产生的多连体具有至少一个所述DNA环的拷贝的有序阵列，优选地为所述DNA环的至少2个、3个、4个或优选的5个。

在一些本发明的实施方式中，主链具有标识符。这种标识符也称为条形码。条形码或标识符为序列可在主链之间不同的核酸的延伸。条形码可被用于对特异性DNA环的测序结果进行分组。条形码可识别DNA环。条形码可被用于对通过DNA环的RCA产生的多连体的有序阵列的片段的测序结果进行分组。使用具有条形码的主链的方法通常具有一条或多条主链集合，其中集合中的主链在其他类似或相同的主链中具有唯一条形码。可使用两个或更多主链集合，例如，来容纳上面所提到的不同的第一限制酶位点，或来识别不同样品的测序结果。集合之间的条形码可以是相同的，因为主链的另一部分中的序列差异识别该集合。主链集合可包括含有主链的特异性条形码的多于一个的拷贝。条形码与特异性总体靶序列的组合也可明确地将核酸识别为来源于特异性DNA环，例如，在靶核酸是复杂的和/或主链集合中的相同条形码的数量是低的时候。一组DNA环的序列的测序结果可被用于过滤掉比如扩增错误或聚合酶错误的错误。这示意性阐释在图1A和图1B中。如本文所公开的方法中的主链优选的包括至少两个具有唯一标识符的主链。

在连接步骤中产生DNA环。通常分子越长，环化的效率越高。柔性分子比刚性分子更容易被环化。小的靶核酸(20至200核苷酸)被较大的主链捕获，且主链越大、捕获效率越高。对于小的靶核酸主链，优选地具有200个或更多核苷酸，优选地300个或更多核苷酸，更优选地具有300个或更多核苷酸，更优选地具有400个或更多核苷酸，优选地在450至650个核苷酸之间。较小的主链通常允许每个DNA环有更多的多连体。靶核酸的平均长度和DNA环中的主链的长度优选地为90至16000个核苷酸，优选地为200至12000个核苷酸，优选地为300至8000个核苷酸，优选地为400至4000个核苷酸，优选地为500至2000个核苷酸。靶核酸的平均长度加上主链核酸优选地约为1000个核苷酸。

主链DNA分子优选地包括下述的序列：

>BB1(199bp)

GGGCATGCACAGATGTACACGTACGATCATGTACGTCACGCGAGTGCACGTCGTCATAGCTGTCGAGTACTGTACTGACTGTCTCGAGCCTCAGCGAGTATTTAAATCTACGTAGAGTACGACTGCGCAGATGTGATCAGTGACTACGTGACACTGTACATCAGCACGATCGATGACTAGATGCTGCATGACATAGCCC；

>BB2(259bp)

GGGCATGCACAGATGTACACGTACGATCATGTACGTCACGCGAGTGCACGTCGTCATAGCTGTCGAGTACTGTACTGACTGTCTCGAGCCTCAGCGAGTATTTAAATCTACGTCACCGGGTCTTCGAGAAGACCTGTTTAGAGTACGACTGCAAATGGCTCTAGAGGTACCCGTTACATAACTTACGCAGATGTGATCAGTGACTACGTGACACTGTACATCAGCACGATCGATGACTAGATGCTGCATGACATAGCCC；

>BB2_100(341)

GGGCATGCACAGATGTACACGTACGATCATGTACGTCACGCGAGTGCACGTCGTCATAGCTGTCGAGTACTGTACTGACTGTCTCGAGCCTCAGCGAGTATTTAAATCTACGTCACCATATATATGGATATATATATGGATATATATATATATGGATATATGGATATATATATATATATATGGATATGTATGGATATATATATATATGGATATGGATGTTTAGAGTACGACTGCAAATGGCTCTAGAGGTACCCGTTACATAACTTACGCAGATGTGATCAGTGACTACGTGACACTGTACATCAGCACGATCGATGACTAGATGCTGCATGACATAGCCC；或

>BBpX2(557bp)

GGGCATGCACAGATGTACACGAACGCCAGCAACGCGGCCTTTTTACGGTTCCTGGCCTTTTGCTGGCCTTTTGCTCACATGTGAGGGCCTATTTCCCATGATTCCTTCATATTTGCATATACGATACAAGGCTGTTAGAGAGATAATTGGAATTAATTTGACTGTAAACACAAAGATATTAGTACAAAATACGTGACGTAGAAAGTAATAATTTCTTGGGTAGTTTGCAGTTTTAAAATTATGTTTTAAAATGGACTATCATATGCTTACCGTAACTTGAAAGTATTTCGATTTCTTGGCTTTATATATCTTGTGGAAAGGACGAAACACCGGGTCTTCGAGAAGACCTGTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGCACCGAGTCGGTGCTTTTTTGTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTTTTAGCGCGTGCGCCAATTCTGCAGACAAATGGCTCTAGAGGTACCCGTTACATAACTTATAGATGCTGCATGACATAGCCC。

>BB100_1(143bp)

GGGCATGCACAGATGTACACGATTCCCAACACACCGTGCGGGCCATCGACCTATGCATACCGTACATATCATATATAAATCACATAATTTATTATACGTATGTCGCGCGGGTGGCTGTGGGTAGATGCTGCATGACATAGCCC

>BB100_2(143bp)

GGGCATGCACAGATGTACACGCACTACATGCCAATGCCCAAGCAGTGCGCATATCACGTATCATATCTAATATATTATAATATTATGATAATGAGTATTTATTTAATTTGTTTGTGTGAGGTAGATGCTGCATGACATAGCCC

>BB100_3(143bp)

GGGCATGCACAGATGTACACGCATTGGCCGTCTGTGCTGTCCATGGATCGTCTGATTGATATGATATCATATATTATAATTATACAGTAAGGTGATTGGGTATTGAGGGTTGTGTGGTTGGTAGATGCTGCATGACATAGCCC

>BB100_4(145 bp)

GGGCATGCACAGATGTACACGGTAGACATGCGAAGCGTGCGATGACAATCGATGTGGACATCATGCATATATATGTTGTATAATTAAACAAATATGTGTAGTGTGTGAGGTGGGTGTAGGAAGTAGATGCTGCATGACATAGCCC

>BB100_5(143 bp)

GGGCATGCACAGATGTACACGTTGTCATGGGAATTTGTGGTTATGAAATGAGTATGCGACGAATATGTATACATATATATTAAATTATAGAGTGATGTATGAGTTTGTGATGTGTGGTGTATAGATGCTGCATGACATAGCCC

>BB200_1(243 bp)

GGGCATGCACAGATGTACACGGCGGCGCAAGATGATGTGCCGAACCTGACATGGCATCGACTGGTATGGATCAATACTGATGCGATATCGATACCGGATAAATCATATATGCATAATATCACATTATATTAATTATAATACATCGGCGTACATATACACGTACGCATCATTTCACTATCTATCGGTACTATACGTAGTGCCGGTCTGTTGGCCGGGCGACATAGATGCTGCATGACATAGCCC

>BB200_2(244 bp)

GGGCATGCACAGATGTACACGTGACGCAACGATGATGTTAGCTATTTGTTCAATGACAAATCTGGTATGATCAATACCGATGCGATATTGATATCTGATAACTCATATATGTAGAATATCACATTATATTTATTATAATACATCGTCGAACATATACACAATGCATCTTATCTATACGTATCGGGATAGCGTTGGCATAGCACTGGATGGCATGACCCTCATTAGATGCTGCATGACATAGCCC

>BB200_3(244 bp)

GGGCATGCACAGATGTACACGAGACCGCAAGATGATGTTCATTCTTGAACATGAGATCGGATGGGTATGGATCAATACCGATGCGATATGATAACTGATAAATCATATATCTATAATATCACATTATATTAATTATAATACAGGATCGTTACATGCATACACAATGTATACTATACGTATTCGGTAGTTAGTGTACGGTCGGAATGGAGGTGGTGGCGGTGATAGATGCTGCATGACATAGCCC

>BB200_4(243 bp)

GGGCATGCACAGATGTACACGAATCCCGAAGATGTTGTCCATTCATTGAATATGAGATCTCATGGTATGATCAATATCGGATGCGATATTGATACTGATAAATCATATATGCATAATCTCACATTATATTTATTATAATAAATCATCGTAGATATACACAATGTGAATTGTATACAATGGATAGTATAACTATCCAATTTCTTTGAGCATTGGCCTTGGTGTAGATGCTGCATGACATAGCCC

>BB200_5(243 bp)

GGGCATGCACAGATGTACACGAATCCGTGAGATGACTATCTTATTTGTGACATTCATCGATCTGGATATGATCAATACCATGCGATATTGATTACTGATAAATCATATATGTAGAATATCACATTATATTAATTATAATAAATCGTCGTACATATACATCCACAATTAGCTATGTATACTATCTATAGAGATGGTGCATCATCGTACTCCACCATTCCCACTAGATGCTGCATGACATAGCCC

>BB300_1(348 bp)

GGGCATGCACAGATGTACACGCATAAGACCACAGGGTGCAAATCTGGATTGCGGCATGGATGATTCATCATCGTGGCATATTCGCTATGGATATATCCATCATAATACATTGATACGTCATGCGTATAATCGCATTATATGTCGATATTGGTCATAGGGATACATCCGTGTATACTATCGTATATGCGTGCAATGTAGCCATGTTAATCATGCTATAACCATAACATAAATATAATATATACAGATGGTGTATCTCTACTTATGTATGCTTGTATAGTAATGTCGATACTGATGGGTCTCCGGCCCACTACACCACCTGGCCGCTCTAGATGCTGCATGACATAGCCC

>BB300_2(343 bp)

GGGCATGCACAGATGTACACGGGCAATCCGCCAGGGTTCAAATATGGATATGTGATGATCGATTCAACATGCACATATGCACGATATCATATATTACTCCAGATGTCATCATCGTCGTGCGTATATGAGATATGTATTTATGCATATAATCCACCATACATGGTAGCGATATTATAGTGCGATTATGTGTATATGACTATCATGGCTATTGTTAATATATAAATCATAACCATACCACTTCCACGCCTGGTATGGCGTATAGTATAGAGATATTGTGTGATGCCCTATGTCGACCATGATGTGCCGTTGTACTGCCAATCCTAGATGCTGCATGACATAGCCC

>BB300_3(344 bp)

GGGCATGCACAGATGTACACGTATCCATGCAGCTTATTGTAACTAGCGCATGCACGTGGTGATTCATCACATCTATATATACGATATGATATATTACACATATTTGCATAGTATCATCCGGTGTGATATCATCCGATATGCTCATACTTATTCATTGGTAGCATTGCATTGATGGATCAATAGTTATTATGACATCATGGCATGTACAATTATAAATAATACAACATACATAAATATACTATACACATCGTGTATGTGTTATACAGATCTGTGTGATGTATGATAATGTAATGGCGTCGAACACCACAAGGCAGTCCTATAATAGATGCTGCATGACATAGCCC

>BB300_4(344 bp)

GGGCATGCACAGATGTACACGGTCCATTACAATCGAATCTATATCCCAATGTGTATCGATTATCACCACAATGACATAATACGATATCATATATTACTCCATATGCCTTACGTCAGATCGTTATATGAGATATGTATTCATGCATATGATATCCCACAGTACACGTCGTCTAATGCCATCATGAATGTATGACATATCTAGTCGATTATACATAATATAACATACCAATATAACAATATCTATACACATTTGATGGCGTATAGTATAAAGATATTGTGGCAATGCCCATACACCACTGACTGTCGCCGATCATTCCTACCACTAGATGCTGCATGACATAGCCC

>BB300_5(344bp)

GGGCATGCACAGATGTACACGACCGACCGTGAAAGTGATTCAGAATGATGTGCATGAATGTTATCATGACATGATTTATGATGCACTGATATATGCATATTATAATATTGTACAATGTCGTATATACGACATATCTATACTATGAATTATGGCATCATGGACAATAGATGGTAAGGTATAGTACGATCTATATAGCATGTTGAAATGGGATATAAATTATCATAAACATACATACTTAACTAATATCAAGATGATATGTGTATGACATCAGAATGATAGTAGTAATGAGTATTGTCAGATGTATGTACGAATATCACACGATTAGATGCTGCATGACATAGCCC

主链DNA分子最优选地包括下述的序列：

>BB200_4(243bp)

固定长度的主链的柔性可通过定制主链的序列来调节。根据分子的特异性序列，不同的DNA分子具有不同的柔性。通过在主链中选择不同的第一限制酶位点、不同的条形码序列和不同的用于其他要素的序列来提供不同序列。优选地，通过定制主链序列的专用部分的序列来调整柔性。这种专用部分进一步被称为“连接体”。连接体优选地包括20至900个核苷酸，优选地25至900个核苷酸，优选地30至900个核苷酸，优选地30至800个核苷酸，优选地50至700个核苷酸，优选地100至600个核苷酸，优选地150至500个核苷酸。连接体可以是主链上的一个连续序列或被分为两个、三个、四个或更多连续序列。连接体优选地为主链上的一个连续序列或被分为两个、三个、四个连续序列，优选地一个、两个或三个，优选地一个或两个，以及更优选地一个连续序列。

每个碱基对的游离能值(Breslauer等1986)和扭转角的偏差(度)(Sarai等1989)可被用来计算任意给定DNA序列的柔性。这种计算的示例为：

柔性计算

TwistFlex算法(http://margalit.huji.ac.il/TwistFlex/)(Menconi等2015)的python实现可被用于计算输入序列的扭转角处的DNA柔性。基于下面的角度表计算每个单一二核苷酸的柔性：

随后，用于主链优化的演变算法在选择时考虑了整个序列的平均柔性。DNA序列的平均柔性计算为所有二核苷酸角度的总和除以二核苷酸的总数。合适的主链的柔性分数为10或更大，优选地11或更大，优选地12或更大，优选地12.5或更大(主链中的二核苷酸角度/二核苷酸)。通常不期望大于14的柔性。

用于确定序列复杂度的熵计算

字符串的香农(Shannon)熵被定义为编码该字符串所需的每个符号的最小平均比特数。用于计算香农熵的公式为：

其中，p_i是字符数字i在序列中出现的概率。

该计算也可通过http://www.shannonentropy.netmark.pl/进行。

利用下述的python代码实现上述的公式：

优选的主链具有的香农熵值为1.5Sh或更高，优选地为1.5或更高，优选地为2.5或更高，更优选地为3.5或更高。

自互补性

主链核心序列优选地不具有8个或更多个在相同条链中自互补的连续碱基。例外情况是有意插入一种或多种限制酶位点或一个或多个其他功能序列。该序列偶尔会在相同条链中引入自互补的碱基。如果可能，应该避免大于8个的这种碱基，但在功能主链中这是可容许的。然而，在设计新主链时，如果可能的话优选地避免这种序列。下面本文所讨论的kmer也是如此。

缺乏重复的基序(kmer)

主链核心序列优选地不具有6个在序列中重复超过两次的碱基的基序。

主链的柔性和主链的香农指数可以通过在主链中加入连接体来调节。连接体的特异性序列对主链的柔性和复杂度分数的影响可以很容易地计算出来。

连接体优选地具有一个或多个下述特征：(i)连接体序列的总体复杂度优选地为高的。上述的香农熵公式为用于确定给定序列的复杂度的值的方法；(ii)长于5个碱基的DNA基序的副本在连接体序列中出现优选地不超过两次，优选地不超过一次。在优选的实施方式中，连接体不包括长于5个碱基的DNA基序的副本(即，连接体序列不含有重复的基序，其中基序多于6个连续碱基)；(iii)连接体优选地不包括两个以上，优选地不包括一个以上，优选地不包括多于6个、由少于10个核苷酸隔开的核苷酸(反向重复)的自互补序列。所提到的标准有助于避免，一般来说，复杂的二级结构出现在连接体的单链版本中。二级结构的可能性和强度也可以用其他手段计算。

主链优选地包括的GC含量为30％-60％；优选地为40％-60％；优选地为40％-50％；优选地为45％-55％。

主链优选地具有一个或多个下述特征。所述第一限制酶位点优选地用于产生平端的限制酶。据观察，这改进了对靶核酸的捕获。主链优选地包括用于产生用于滚环扩增的引物位点的DNA切口酶的识别位点。另外的限制酶识别位点可用于进行多个短DNA分子到一个环状DNA的顺序连接。主链优选地包括使区分原始捕获的核酸和其随后的测序读取长度的分子标识符。

本发明的方法可用于在每个主链上有序地捕获两个或多个靶核酸。单一捕获步骤有时可以同时捕获两个靶核酸分子。这种情况发生的几率故意是低的，因为采取防止自连接的措施。两个或多个靶核酸的有序捕获可以是期望的特征。另外的限制酶位点可被并入主链中。一旦捕获了第一靶核酸，可通过添加切割另外的限制酶位点的限制酶来重复该方法。DNA环被第二限制酶切断和线性化，且制备好与靶核酸连接。如果第二限制酶产生与所述第一限制酶相同类型的末端(例如，平端)，反应可继续以捕获该方法的第一次迭代中未捕获的靶核酸。可选地，DNA环可被纯化(例如，通过去除线性DNA)，且可添加新的靶核酸，该靶核酸的末端与第二限制性酶所产生的主链末端为连接兼容的。通过向主链添加进一步的限制酶位点，该步骤当然可以重复用于有序地捕获第三、第四等靶核酸。当有一个以上的靶核酸被捕获时，优选地，第二和第一限制酶位点是不常被切割的酶位点。这种酶优选地为8或更多切割子。这种酶优选地为产生酶的平端。这种有序捕获允许多于一个核酸的同时测序。不同的靶核酸可以根据它们在主链中的位置来识别，即，根据它们插入的侧翼主链序列。

此外，在数据分析期间，主链作为对照序列。基于主链序列读取长度，可以推断每个测序读取的错误率，从而使准确估计捕获的核酸序列内的基因变异的可能性。

本发明的方法中可以产生副产物。单个主链、含有DNA环的单个靶DNA的数量受到例如主链/样品的摩尔比的影响，这应该促进具有主链的分子的形成和插入，而不是不需要的副产物(图2)，例如：(i)通过主链和样品DNA的随机多连体化形成的线性DNA，(ii)只含有主链或只含有样品DNA的环状DNA，(iii)含有过量的主链或样品DNA的环状DNA。

在本发明的实施方式中，优选地，主链分子与靶核酸分子的摩尔比范围为1:10至10:1。优选地保持1:5至5:1的比率范围，优选地保持1:2至2:1的比率范围。优选地是1:1的平均比率。

本文所述的包括滚环扩增的方法优选的在不使用开关容器的情况下进行。所产生的多连体可在相同容器或不同的容器中测序。

本发明的方法优选地产生与由靶核酸-主链拷贝组成的多个单元形成的线性dsDNA一样长(>10Kb)的多连体。这种单元的多连体化/多聚化有利于从测序错误中区分真实的基因变异的检测。事实上，在DNA分子库内发生频率不到1％的罕见基因变异的情况下，由于测序错误率高于突变频率，例如短读取测序的直接测序可能不再适用。使用本文所述的方法，相同罕见序列(基因变异)在长多连体中被多次表示，这提供了突变存在的高置信度，即使突变频率在核酸分子的原始库中是低的。

主链包括编码第一限制酶识别位点(限制酶位点)的一部分的3’序列和编码第一限制酶切位点的另一部分的5’序列。主链可含有进一步的要素，例如下列中的一个或多个：(i)一个或多个允许双链主链序列的切口的位点；(ii)一个或多个1型或2型限制酶切位点；(iii)二级克隆位点；(iv)使主链分子高效环化(弯曲)的柔性DNA延伸(连接体)；以及(v)用来标记每个单一主链分子的唯一分子条形码序列。

主链优选地在主链分子的两个末端具有5’-磷酸化。

本发明也提供了长度在20至1000个核苷酸的线性DNA分子(主链)的集合，线性DNA分子包括5’端和3’端，该5’端在最末端包括第一限制酶识别位点的一部分，该3’端在最末端包括第一限制酶识别位点的另一部分，以及5’端和3’端是彼此连接兼容的，且当自连接时形成限制酶(第一限制酶)识别位点，并且其中所述主链的每一个链包括：

连接体；

与集合中的其他主链的标识符的序列不同的标识符序列(条形码)；以及

任选的用于切口酶的限制酶切位点。

主链是本文所描述的方法中优选的主链。所述第一限制酶切位点的所述第一部分和所述第二部分一起形成所述第一限制酶切位点的完整的识别位点，并且位于分子上允许这两部分形成所述第一限制酶切位点的可操作连接的位置。上下文中的可操作连接指的是被所述第一限制酶切割的有效性。主链优选地进一步包括为I型或II型限制酶位点的第二限制酶切位点。主链优选地进一步包括用于能够产生非回文的突出端的II型限制酶的限制酶位点(Golden-Gate克隆位点)。连接体优选地为上文所述的连接体。主链在所述第一限制酶切位点中优选地包括核酸分子(捕获的核酸分子)。主链优选地包括捕获的核酸分子库。

进一步提供了包括如本文所述的主链的试剂盒。试剂盒优选地包括如本文所述的主链分子的集合。试剂盒优选地进一步包括具有高持续合成能力的聚合酶和任选的一个或多个聚合引物。试剂盒优选地进一步包括：连接酶和所述第一限制酶；和/或所述靶位点特异性重组酶。试剂盒优选地进一步包括DNA外切酶。后一种酶适合于在产生所述DNA环的多连体之前去除线性DNA。

在一个方面中，本发明提供了一种确定核酸分子集合的序列的方法，方法包括：

-提供具有5’端和3’端的双链靶DNA分子，该双链靶DNA分子在DNA分子的两条链的3’端处具有突出的腺嘌呤残基；

-提供双链主链DNA分子的集合，该双链主链DNA分子包括与靶DNA的5’端和3’端为连接兼容的的5’端和3’端。

所述方法进一步包括：

-在存在连接酶的情况下将所述靶DNA连接至所述主链，从而产生包括主链和靶DNA分子的DNA环；

-任选地去除线性DNA；

-对所述多连体进行测序。

与突出的3’腺嘌呤连接兼容的末端是具有5’突出的胸苷碱基或其类似物的末端。该方法与上文所述的方法的不同之处在于，由于所有末端具有a’-突出的腺嘌呤碱基，靶间或靶内分子连接固有地受到抑制。因此，靶核酸的自连接或一个末端与另一个靶核酸分子的连接在固有地是不可能的。突出的碱基是核酸分子末端的核苷酸，并且它们不与相反链上的碱基进行碱基配对。没有用于突出的碱基的相反碱基。这种突起也被称为粘性末端或粘着末端。主链也是如此。它们固有地防止自连接。在该实施方式中，主链不必在末端处具有第一限制酶位点的部分。末端因此不能连接以产生第一限制酶位点。因此，连接不必在所述第一限制酶存在的情况下进行。其余的步骤和定义可以与本文其他地方描述的相同。

进一步提供了用于确定核酸分子集合的序列的方法，包括：

提供在5’端和3’端具有重组酶识别位点的双链靶DNA分子，该重组酶识别位点对于靶位点特异性重组酶为特异性的；

提供包括被包括连接体的DNA隔开的所述识别位点的主链；

在存在所述靶位点特异性重组酶的情况下，孵育所述靶DNA分子与所述主链，靶位点特异性重组酶优选地为Cre重组酶、FLP重组酶或噬菌体λ(lambda)整合酶，从而产生包括主链和靶DNA分子的DNA环；

任选地去除线性DNA；以及

通过滚环扩增产生包括至少两个所述DNA环的拷贝的有序阵列的多连体；以及

对所述多连体进行测序。

在优选的实施方式中，主链为包括两个重组酶识别位点的环，该重组酶识别位点在一侧上被包括连接体的DNA隔开，并且在另一侧上被编码进一步的限制酶识别位点的DNA隔开，并且其中所述进一步的限制酶切位点为所述主链中的所述限制酶的唯一识别位点。在该实施方式中，该方法优选地进一步包括：在产生所述多连体之前，在与所述限制酶重组之后消化所述DNA、并且随后去除线性DNA。所述进一步的限制酶切位点优选地为6或更多切割子，优选地为7或更多切割子，优选地为8切割子。通过酶切产生的末端不必要是平端。在优选的实施方式中，进一步的限制酶不是平端切割子。

靶位点特异性重组酶

靶位点特异性重组酶为基因重组酶。靶位点特异性DNA重组酶广泛用于多细胞生物中以操纵基因组结构和控制基因表达。这些来源于细菌和真菌的酶，催化针对每种重组酶的短(30-40个核苷酸)靶位序列之间定向敏感的DNA交换反应。这些反应能进行四个基本功能模块，切除/插入、翻转、易位和盒交换。重组酶的非限制性示例为Cre重组酶、Hin重组酶、Tre重组酶和FLP重组酶。Cre重组酶为第一个广泛使用的重组酶。它是来源于P1噬菌体的酪氨酸重组酶。该酶使用拓扑异构酶I相似机制来进行位点特异性重组事件。该酶(38kDa)是位点特异性重组酶的整合酶族的成员，并且已知它催化两个DNA识别位点(LoxP位点)之间的位点特异性重组事件。该34碱基对(bp)loxP识别位点由两个13bp的回文序列组成，该回文序列位于8bp隔开区域的侧面。Cre-介导重组酶在loxP位点的产物取决于loxP位点的位置和相对定向。均包括loxP位点的两个单独的DNA物种可以通过Cre介导的重组进行融合。在两个loxP位点之间发现的DNA序列被称为“敲入的(floxed)”。

Red/ET重组酶

重组工程利用噬菌体衍生的蛋白质对，要么来自Rac噬菌体的RecE/RecT，要么来自λ噬菌体的Redα/Redβ，在不需要限制酶位点或连接酶的情况下帮助DNA片段的克隆或亚克隆进入载体。RecE/RecT、Redα/Redβ和其他类似的蛋白质对在本文中进一步称为RecE/RecT蛋白质对。原始同源重组技术的限制是由于这样的事实：细菌RecBCD核酸酶降解线性DNA和最初的事件必须研究RecBCD缺陷菌株(7)。这一问题得到了解决，因为发现Redγ可以辅助Redα和Redβ，从而抑制RecBCD核酸酶活性，使这项技术能够应用于大肠杆菌(E.coli)和其他常用菌株。此外，重组效率提高了10-100倍。这三种酶(α、β和γ，或E、T和γ)的组合在一个载体中被命名为Red/ET重组，并且该方法的基本原理是在线性片段、双链断裂(DSBs)的两个末端、以及另一个线性或环状质粒中为了发生重组，需要两个大于15bp、优选地大于20bp、优选地大于30bp和优选地大于42bp的同源区域。利用两个不同的同源区域侧插靶DNA和插入位点可以实现定向插入。DSBs是必不可少的，使得RecE或Redα可以结合和降解DNA的一条链(5’到3’)、并且同时向暴露的单链链上样RecT或Redβ。上样了RecT或Redβ重组酶的单链DNA找到完美匹配的序列，并通过链入侵或退火连接两个序列。

同源区域(HRs)的插入通常是通过将它们包括在用于产物的扩增的寡核苷酸中来实现的，该产物用作重组事件的线性底物。如果该过程需要更长的DNA片段，那么HRs可以通过使用质粒或适配体(adaptor)的传统限制/连接技术插入。

限制酶识别位点

限制酶识别位点通常也简称为限制酶位点、限制酶切位点或限制识别位点。它们是含有核苷酸的特异性序列的DNA分子上的可被限制酶识别的位置。这些通常是回文序列。一种特异性的限制酶可以在其识别位点或附近的某个位置内切割两个核苷酸之间的序列。酶通常切割DNA分子的两条链，通常接着是末端的隔开。所谓的切口酶也能识别限制酶切位点，但只切割两条链中的一条链。产生的DNA分子仍然是结合的，但两条链中的一条链有一个切口。

限制酶类型

自然产生的限制内切酶(限制酶)基于其构成和酶辅因子需求、其靶序列的性质以及其DNA裂解位点相对于靶序列的位置可被分成四组(I型、II型、III型以及IV型)。然而限制酶的DNA序列分析显示出很大的差异，表明有四种以上的类型。所有类型的酶识别特异性的短DNA序列，并对DNA实施内切核苷酸的裂解以产生具有5’-磷酸盐末端的特异性片段。

I型的酶(EC 3.1.21.3)在远离识别位点的位点裂解，并且需要ATP和S-腺苷-L-蛋氨酸来起作用。它们的多功能性在于同时具有限制酶和甲基化酶(EC 2.1.1.72)的活性。

II型的酶(EC 3.1.21.4)在识别位点内或在距识别位点短的特异性距离内裂解。大多数II型的酶需要镁离子。它们通常具有单一功能(限制)。

DNA磷酸化

带有5’-羟基末端的单链或双链DNA必须具有用于有效连接的5’磷酸基。没有这种磷酸基的5’端在连接前可被磷酸化。一些多核苷酸激酶，包括T4 PNK(NEB#M0201)和T4 PNK(负型3’磷酸酶)(NEB#M0236)，可用于将ATP的γ-磷酸转移到DNA的5’端。

DNA脱磷酸化

消化的DNA通常具有连接所需的5’磷酸基。为了防止自连接，可在连接前去除5’磷酸。5’端的脱磷酸化抑制了自连接，使技术人员在重新连接之前根据需要操纵DNA。脱磷酸化可以使用一些磷酸酶中的任意一种完成，这种磷酸酶包括快速脱磷酸化试剂盒(NEB#M0508)、虾碱性磷酸酶(rSAP)(NEB#M0371)、小牛肠道碱性磷酸酶(CIP)(NEB#M0290)和南极磷酸酶(NEB#M0289)。

DNA连接

在许多现代分子生物学工作流程中DNA连接是中心步骤。DNA连接酶催化邻近DNA残基的3’羟基和5’磷酸之间形成磷酸二酯键。在实验室中，这种反应被用来连接带有平端或粘性末端的dsDNA片段以形成重组DNA质粒，在下一代测序和许多其他应用中为片段化DNA添加条形码化的适配体。来自T4噬菌体的DNA连接酶是最常用的连接酶。它可以连接DNA、寡核苷酸、以及RNA和RNA-DNA杂交体的粘性或粘着末端。它也可以高效地连接平端DNA。利用Circ连接酶^TM II ssDNA连接酶*(Epicentre)可以有效地连接单链DNA。这是一种耐热酶，可以催化含有5’-磷酸和3’-羟基的ssDNA模板的分子内连接(即，环化)。Circ连接酶^TM II ssDNA连接酶*在缺少互补序列的情况下连接ssDNA的末端。所以，这种酶在由线性ssDNA合成环状ssDNA分子时非常有用。环状ssDNA分子可被用作滚环复制或环状转录的底物。

为了清晰和简明的描述，当提到一个步骤是在一个或多个底物上进行的或是与一个或多个底物一起进行的以及哪个步骤是由一个或多个酶催化的时，该步骤是通过底物与酶接触来进行的。这通常是通过在适当的缓冲液中将酶加入到底物中来完成的。

为了清晰和简明的描述，本文将特征描述为相同或单独实施方式的一部分，然而，可以理解的是本发明的范围可包括具有所述特征的全部或部分的组合的实施方式。

附图说明

图1、A)通过使用主链和滚环扩增捕获小核酸分子和产生多连体的方法的示意图。B)使用短读取长度和没有主链的测序反应和使用主链的长读取测序的示意图。

图2、图1中所指示的环化反应的可能的线性和环状副产物的示例。圆状副产物图左上角的大圆阴影表示主链序列。其他阴影都是靶序列。

图3、双链主链序列的示意示例。

(1)指示一起编码第一限制酶识别位点的5’端和3’端序列。

(2)为用于切口酶BbvCI的限制酶切位点。任意其他切口位点也可以，然而使用BbvCI的优势在于市面上可得到两种形式的这种酶，一种在正链上切割DNA和另一种在负链上切割DNA。切口的DNA为用于滚环扩增(RCA)反应的有效的引入位点。取决于情况，我们可能想使用切口的DNA而不是DNA引物来启动聚合反应。

(3)是附加平端限制酶切位点，在示例情况中为SweI的识别位点。第二平端限制酶切位点允许在进一步的环化反应中捕获第二个DNA片段。

(4)是克隆位点，在该示例中为双翻转BbsI位点，其可用于主链经由Golden-Gate或其他类型的克隆的简单延伸。

(5)表示柔性DNA延伸(连接体)。其长度可变且辅助有效的环化。

(6)大写N指示编码唯一识别符的核酸的延伸。其为类条形码序列。其可编码一个或多个(随机的)任意合适大小的条形码。

要素(1)定位在最末端，要素2-6可具有任意顺序和根据情况可存在或不存在。

图4、我们已经开发了基于靶向cDNA合成、单链DNA环化(ssDNA)和靶向滚环扩增来检测基因融合的方法。由逆转录酶步骤产生的cDNA在左图中是灰色阴影的。底部的cDNA是融合基因DNA，并且有两个阴影指示来自一个基因的部分和来自另一个基因的部分。很明显，RCA试验产生了融合物的多连体。当然，这种方法也可以用来确定一个或多个非基因融合结果的cDNA的序列。

图5、MIP探针和方法的示意图。

图6、绘制出每个条带的DNA含量和预测值。

图7、确定环化效率：A)反应前和反应后插入的比较。B)环化的产物和未反应的产物的比较。

图8、概念验证实验的结果。(A)凝胶图指示用于纳米孔MinION上的随后的测序的RCA产物。(B)用(A)中所指示的样品作为输入的MinIONR9.4试验而产生的纳米孔读取长度分布。(C)大于10kb的2083读取长度的图案分数分布。(D)纳米孔序列读取的示意图，替换插入(绿色)和主链(红色)，插入序列对齐，并由对齐的插入产生共有序列。(E)共有序列的准确率。

图9、主链2(BB2)和主链3(BB3)与插入17.2以3:1的比例的环化。A)比较BB2和BB3。红色星号：正确的环化产物。条件3中的多个条带：线性产物对环状产物、多个主链的连接。条件4中另外的条带：环化的主链。B)使用主链2(BB2)的成功环化。黄色星号：正确的环化产物。在该凝胶图中，整个反应上样至每个泳道。泳道1和泳道2表示PlasmidSafe酶切之前和之后的BB2与插入17.2以1:1比例的环化。泳道3和泳道4表示使用BB2与插入17.2以3:1的比例的相同环化反应。

图10、不同的主链插入比例下的主链环化效率。对不同的主链(BB3)与插入(17.2)比例的连接产物进行定性和定量检测。(A)琼脂凝胶显示环化输入和反应产物。PlasmidSafe消化用于在环化反应之后去除线性产物。红色星号：正确的环化产物。黄色星号：插入输入的剩余物。(B)环化效率的量化。环化效率的量化被定义为P/I*100，其中，P是正确的主链插入产物的量(以摩尔计，红色星号)，并且I为输入插入的量(以摩尔计)。用软件ImageJ(https://en.wikipedia.org/wiki/ImageJ)测量条带的强度和表面面积。数据使用GeneRuler 50bpDNA序列梯作为参考进行归一化。也可以参见材料和方法的第10部分。

图11、添加和不添加SrfI和HMGB1的情况下BB2_100(橙色柱)的环化效率。使用主链与插入的比例进行连接。蓝色柱表示在不添加SrfI和HMGB1的情况下BB2和BB3与相同插入连接的对照实验。如上文所述(图10图例)的量化环化效率。

图12、用主链BB2_100和插入17.2的环化的反应产物的视觉显示。红色星号：正确的产物。橙色方框：预期的环化之后残留插入的位置。连接之后插入条带的完全消失示出插入被完全连接。环化的1：Plasmid Safe脱氧核糖核酸酶处理之前。环化的2：Plasmid Safe脱氧核糖核酸酶处理之后。

图13、在环化反应中添加限制酶SrfI的效果。使用BB3和插入17.2一起进行环化反应。在存在和不存在SrfI和Plasmid Safe脱氧核糖核酸酶的情况下进行反应。

图14、对所描述的技术有用的条形码策略。(A)使用唯一分子标识符标记单一DNA分子来改进突变发现。(B)使用样品特异性条形码来标记单一样品，用于测序试验的合并。

图15、使用各种DNA模板的RCA产物。使用来源于各种来源的环状DNA模板来进行RCA。(A)使用主链BB2环化的细胞游离DNA；(B)质粒pX_Zeo；(C)使用Circ连接酶II(Epicentre#CL9021K)自环化的ss-cDNA；(D)克隆至质粒pJET中的PCR产物17.2。作为参考，使用长范围的1Kb序列梯。序列梯的较高条带为10Kb长，RCA产物估计在20kb和100kb长之间。

图16、含有17.1和17.2的读取长度的数量。含有17.1的读取和含有17.2的读取之间的比例为1:14，指示由于位点指向RCA而使靶区域的明显富集。

图17、一锅反应设计中的步骤的反应产物的综述。插入(17.2)和主链(BB2_100)被环化，产生(1)所指示的产物。如(2)所指示的使用Plasmid Safe脱氧核糖核酸酶消化线性DNA产物。如(3)所指示的，基于(2)作为输入形成RCA反应产物。

图18、用于短读取测序(左图)和长读取测序(右图)的共有序列调用方法的综述。

图19、(A)与TP53突变的映射插入衍生的Cyclomics测序读取的示例(红色方框)。(B)显示带有>4插入的558读取长度中支持非参考等位基因的插入的分数的图。四个读取显示了非参考等位基因的高分数，并且这些含有带有期望的chr17:7578265的插入，A->T突变。

图20、用靶位点特异性重组酶捕获DNA。用于靶位点特异性重组酶的识别位点用字母A和B指示。靶DNA用措词“插入”指示。位点A和B可通过各种方式引入，例如通过将具有位点的适配体连接至插入DNA或通过扩增带有引物的插入，该引物包括编码所述位点A和B的序列。主链用术语“主链”指示。图中主链为包括两个位点A和B之间的DNA的环状分子。该中间DNA包括整个主链所特有的限制酶切位点。箭头指示插入和主链首先通过添加重组酶重组和接着添加限制酶。限制酶将只切割未反应的主链和其中连接体被插入替换的主链。可通过添加合适的核酸外切酶去除线性化的DNA。

图21、连接反应产物与不同主链设计的效率之间的比较。左侧：用250bp PCR扩增子的不同主链的连接。右侧：用Plasmid Safe脱氧核糖核酸酶消化线性DNA后的剩余环状产物。连接至BB200系列的所有成员显示了高的环化效率，如通过包括PCR产物和主链的环状产物的形成所指示的。

图22、来自BB200系列的主链的连接效率的比较。左侧：显示3个主链的连接产物的凝胶。BB200_4显示了指示反应期间形成较多产物的较亮的条带。右侧：条带的亮度的测量。从上到下：BB200_2、BB200_4和BB200_5。

图23、来源于通过BB200系列的主链的连接形成的RCA产物的测序读取中的数量差。在两个独立实验中的来自不同主链的读取百分比(红色和蓝色)。主链开始以1:1:1的比例混合。具有较高数量读取的BB200_4与图2中示出的较高的连接效率一致。

图24、基因TP53(GRCh37 17:7577518)的特异性位置的碱基推断。Y轴表示对应于参考序列的模式化后的纳米孔信号和来源于实验序列的信号之间的距离(平均匹配分数)。距离越大表示越难以推断正确的碱基。X轴上是读取片段中出现的插入的数量。用不同的颜色指示推断的碱基。来自正链的信号没有在反链上测量的信号清晰。这使得即使在计算的距离是低的时，也难于从其他可能的碱基中区分正确的碱基(A，蓝色)。

图25、描绘主链和插入之间的环化反应的产物的琼脂凝胶(S)。阴性对照如C-所指示。从凝胶分离对应于环状BB-I产物的条带。

图26、显示滚环扩增后的示例产物的琼脂凝胶。

图27、BB200_4(243bp，如图中BB所指示)和S1_WT(158bp，如图中I所指示)通过RCA环化和扩增。当消化通过BB-I制成的多连体时，我们预期大约400bp的条带，然而如果多连体只由BB组成，则产生应大约为250bp的条带。只通过I形成的多连体将不会被消化，使得RCA条带可见。

实施例

实施例1

材料和方法

本文所描述的方法是通过对核酸分子(DNA)库中的核酸序列进行测序以允许基因突变的检测，该核酸分子比如ctDNA(循环肿瘤DNA)、cfDNA(细胞游离DNA)、基因组DNA、RNA、聚合酶链反应(PCR)的产物或其他产物。在该过程中，获得的“产物”为长的线性dsDNA(>10Kb)，由核酸-主链拷贝组成的多个单元形成。这种单元的多连体化/多聚是必要的，以区分真正的基因变异的检测与测序错误。事实上，在DNA分子库内发生频率不到1％的罕见基因变异的情况下，由于测序错误率高于突变频率，所以直接测序，例如，短读取测序就不再适用了。使用上述方法，相同罕见序列(基因变异)在长多连体中被多次表示，这提供了对突变存在的非常高的置信度，即使在原始核酸分子库中的突变频率是低的。

捕获核酸的主链的设计为高效、特异性获取核酸带来了诸多优势，并且对于测序数据计算分析是关键的。

优选的主链分子的特征为：

1)在主链的最末端编码的平端限制酶切位点用于改进短DNA的连接效率。

2)用于DNA切口酶的识别位点，该DNA切口酶用于产生用于滚环扩增的“单链模板”。

3)限制酶靶位点，可用于将多个短DNA分子连续连接成一个环状DNA。

4)使得区分原始捕获的核酸及其随后的测序读取的分子标识符。

此外，在数据分析期间，主链作为对照序列。基于主链序列读取，可以推断每个测序读取的错误率，使得准确估计捕获的核酸序列内的基因变异的可能性。

2、用于Cyclomics技术的材料和方法

2.1主链设计

我们经历了替换主链设计的迭代方法，随后进行了实验测试以找到能够实现最高效环化(即，捕获双链核酸分子)的最佳主链。我们的主链的基础设计可以包括一个或多个以下的部分：

1)编码一半限制酶切位点的3’序列。

2)一个或多个允许双链主链序列产生切口的位点

3)一个或多个1型或2型的限制酶切位点

4)二级克隆位点

5)使主链分子的高效环化(弯曲)的柔性DNA延伸

6)用于标记每个单一主链分子的唯一分子条形码序列

7)编码1中使用的相同平端限制酶切位点的另一半的5’序列

8)主链分子的3’末端和5’末端的磷酸化

在定制的演变算法的帮助下设计出柔性DNA延伸，演变算法利用以下中的各种选择标准：

1)序列的高度总体复杂度

2)缺少长于5个碱基的重复DNA基序

3)缺少多于5个核苷酸的自互补序列

4)在每个设计迭代循环中选择最柔性的序列

按照上述的设计，使用mFold服务器(http://unafold.rna.albany.edu/)手动检查每个序列，并且修改每个序列以尽可能降低发夹和通常的复杂的二级结构的形成。

2.2用于滚环扩增的NDA模板的制备

下面的方案是为制备适合于RCA反应的模板制备的。任意环状DNA都是合适的模板，并且我们可得到并被本领域所知的不同方案来处理dsDNA或ssDNA。

我们可以环化的dsDNA的示例为：cfDNA、ctDNA、剪切的基因组DNA、PCR扩增子。

ssDNA的示例包括：cDNA、病毒DNA。

2.3 dsDNA环化反应

这里，脱磷酸化的dsDNA分子称为“插入”，其连接至磷酸化的主链的两个末端，形成环状dsDNA产物。

反应在合适的缓冲液条件下同时使用DNA连接酶和限制酶进行。

缓冲液条件已被优化以允许在一锅反应中的连接、酶切和PlasmiSafe处理，而不需要中间的DNA纯化步骤。

考虑到示例中的主链在最末端具有SrfI半位点，反应的组分如下:

缓冲液1X

50mM乙酸钾

20mM Tris-乙酸

10mM乙酸镁

100μg/ml BSA

1mM ATP

10mM DTT

DNA和酶

主链+插入以3:1的摩尔比

1单位T4 DNA连接酶

1单位Srf1

1单位HMGB1

添加H₂O直到最终体积为20至50μl(取决于DNA上样量)，然后在22℃下孵育1h，随后在65℃下热灭活15min。

限制酶的存在增加了反应的总产量，避免了主链多连体的积累，同时通过预防性的脱磷酸化而避免了插入的多连体化。HMGB1(高迁移率族蛋白1)用于促进短DNA的弯曲，从而提高了环化效率。

上述反应最丰富的产物是含有一条主链和一条插入的环状dsDNA。

线性DNA的去除

为了去除残留的线性dsDNA，我们的模板用1μl的Plasmid-Safe脱氧核糖核酸酶在37℃下处理15min，然后在70℃下热灭活30min。

3、用于融合基因的检测的材料和方法

基于从人细胞中提取的RNA，我们开发了使用环化和滚圈扩增的方案以检测融合基因。在这种情况下，ssDNA(与dsDNA相反)被用作环化和扩增反应的输入。该方案可以推广到对任意感兴趣的RNA进行测序。

方案的第一部分涉及“RNA提取”和“cDNA扩增”的标准程序，例如，基于Trizol的RNA分离，然后使用逆转录酶合成polyT引物cDNA。

将RNA-DNA杂交体的RNA消化后，我们得到线性ssDNA。此时，我们使用ssDNA连接酶使输入DNA自环化。

市场上可得到不同的ssDNA连接酶。我们使用Circ连接酶II(Epicentre)来进行原理验证实验。按照供应商方案获得的环状ssDNA已被成功用作RCA反应的模板，该RCA反应使用特异性引物来引导感兴趣的融合基因的扩增。

以下方案详细描述了就在RNA分离之后的所有传代。

3.1残余DNA的去除

从Thermo Fisher购得缓冲液、酶和失活剂(TURBO脱氧核糖核酸酶试剂盒)。

在0.5ml的试管中混合：

10x反应缓冲液 1μl

提取的RNA 1μg

TURBO脱氧核糖核酸酶 0.5μl

H₂O至10μl最终体积

下一步溶液被混合并在37℃下孵育30min。加入2μl灭活剂使其灭活。混合5分钟。

3.2 cDNA合成

我们使用Invitrogen的Super Script II试剂盒，任意其他的cDNA转录试剂盒都可以替代使用。

向之前的反应加入：

引物2mM(随机六聚体或特异性的)1μl引物被磷酸化

dNTP(每种10mM) 1μl

65℃下孵育5min，然后放在冰上5min。在此步骤期间引物被退火到模板上。

下一步，加入：

5x第一链缓冲液 4μl

100mM DTT 1μl

42℃下孵育2min，然后加入1μl的SSII酶，并且42℃下孵育45min。最后，我们在70℃下灭活该反应15min。

3.3 RNA的去除

RNaseH从Thermo Fisher购得。

向之前的反应，加入1μl的RNaseH酶，并37℃下孵育20min，然后在70℃下热灭活10min。

3.4二价金属离子的螯合

我们加入这一步是为了降低游离Mg²⁺的浓度，会抑制下一个反应中所使用的ssCirc连接酶II。

为了络合所有游离Mg2+，向之前的反应加入：

50mM EDTA原料(0,9EDTA+50ml H₂O)2μl

3.5 ssDNA环化

对于该反应，我们使用来自Epicentre的ssDNACirc连接酶II试剂盒。

10x反应缓冲液 2μl

MnCl₂(锰(Mn)不能与镁(Mg)混淆) 1μl

Betaine 4μl

Circ连接酶II 1μl

ss-cDNA 10p摩尔

H₂O至20μl的最终体积

60℃下孵育1-2小时，然后在70℃下热灭活该反应10min。

此时，用Plasmid Safe(可选的)处理该反应，并用作RCA反应的模板(以下步骤)。

3.6引物退火

取决于情况，我们使用随机引物或主链特异性引物或靶向特异性引物。

在该步骤中，模板DNA也可为单链环状DNA，如在自环化的cDNA的情况中。

引物具有两个3’末端硫代磷酸(PTO)修饰的核苷酸，这些核苷酸对比如phi29DNA聚合酶的校正DNA聚合酶的3’→5’外切酶活性具有抗性。它们也具有5’-羟基末端和3’-羟基末端。

如果环状DNA在水中，例如在之前的纯化的情况下，则添加11％的体积的10X退火缓冲液。

10X退火缓冲液

100mM Tris，pH 7.5-8.0

500mM NaCl

10mM EDTA

向反应添加浓缩引物(50-100μM)至最终浓度为5μM。

将反应温度调至98℃，并且随后缓慢冷却至室温。

滚环扩增

为50μl反应，计算如下体积。

当模板在退火缓冲液中时，取20μl的模板，并向其中添加：

5μl Phi29缓冲液(10x)

1μl BSA

1μl dNTPs(10μM)

2μl焦磷酸酶

1μl Phi29 DNA聚合酶

H₂O至50μl

当模板在环化缓冲液中时，取46μl的模板，并向其中添加：

0.5μl Uracil-DNA糖苷酶(用于从DNA中去除任意脱氨基胞嘧啶)

0.5μl甲酰胺基嘧啶-DNA糖苷酶(用于去除8-氧-鸟嘌呤产物)

反应条件

取决于输入DNA(模板)的量，该反应运行在：

>>3h@30℃，如果模板是10-50ng

>>6h@30℃，如果模板是5-10ng

>>12h@30℃，如果模板是0.5-5ng

4、用于靶向Cyclomics的材料和方法

为了使得对任意双链DNA分子的超精确靶向测序，我们基于现有分子反转探针(MIP)技术设计了工作流程。该设计的独特之处在于MIP捕获主链(最小化主链大小、添加唯一分子条形码、探针的特异性和距离)，和试验与滚环扩增的结合。

4.1探针的产生

使用PCR扩增远离阵列的寡核苷酸(MIP前体):(2.5小时)

1.阵列提取的MIP前体寡核苷酸(从Agilent获得的100-mers混合物)在pH为8和0.1％之间的Tris-EDTA缓冲液中溶解至最终浓度为100nM。

2.在1.5ml的离心试管中制备以下400μl的PCR混合物。

试剂	体积(μl)	最终浓度
			2x iProof HF PCR母料混合物(Biorad)	200	1x
Oligo_Fwd_Amp引物(100μM)	2	500nM
			Oligo_Rev_Amp引物(100μM)	2	500nM
SYBRGreen I 100x(Invitrogen)**	1	0.2X
			模板(100nM在0.1％Tween中)	1	250pM
H<sub>2</sub>O	194

它在0.2ml PCR试管中被分为8x 50μl的反应。一次PCR制备产生约1.5μg的扩增DNA。

3.在比如Biorad MJ Mini的实时热循环仪器上使用以下PCR循环程序。

1)98℃持续30秒

2)98℃持续10秒

3)60℃持续30秒

4)72℃持续30秒(读板)

5)重复步骤2至4，25个循环

6)4℃不限定时间

4.按照厂家说明，使用QIAquick PCR纯化试剂盒在一个色谱柱上对PCR反应进行组合和清洗。用90μl洗脱缓冲液洗脱。

5.使用Qubit High Sensitivity dsDNA检测试剂盒来量化1μl的扩增的DNA。用分子反转探针捕获外显子。

6.在6％TBE PAGE凝胶(Invitrogen)上分析1μl扩增的DNA以验证扩增。当引物增加10bp时，产物在110bp处出现单一条带。

利用切口限制性内切酶消化PCR产物以产生70-mer MIP(7.5小时):

1.加入10μl的NEB-2(10x)和5μl的Nt.AlwI(10U/μl；NEB)到85μl的PCR产物(总体积为100μl)。

2.混合并分到两个试管，每个试管50μl。在热循环仪中，37℃孵育3h，然后80℃孵育20min。

3.温度降至65℃并保持至少1min。向每个50μl反应中加入2.5μl的Nb.BsrDI(2U/μl；NEB)。

4.在65℃下放置3h，然后在80℃下放置20min。

5.使用QIAquick核苷酸去除试剂盒在一个色谱柱上纯化两个50μl的酶切反应。用30μl洗脱缓冲液洗脱每个色谱柱。该步骤我们观测到的产量为80-90％。

使用变性凝胶量化可用探针(2小时)：

1.对酶切探针混合物中可用MIP的准确量化是很重要的，因为它决定了向捕获反应中添加多少探针混合物。

2.制备两倍稀释度的NEB 100bp DNA序列梯(我们使用的稀释度从500ng到62ng)。

3.将2x TBE-Urea样品缓冲液(Invitrogen)与1μl酶切探针和上述稀释溶液混合。

4.我们通过将DNA加热到95℃持续5分钟，然后立即转移到冰中来变性DNA。

5.样品在预制的6％TBE-urea变性PAGE凝胶(Invitrogen)上在160V下运行1h。

6.通过比较序列梯稀释度和70bp条带的强度，量化酶切混合物中可用MIP的量。在确定加入捕获反应的探针混合物的体积时，我们使用该MIP浓度。

4.2用分子反转探针捕获外显子

将探针杂交至基因组DNA(37小时)：

1.对于每个要捕获的样品，我们在0.2ml PCR试管中加入以下试剂。最终捕获反应体积为25μl。由于没有70bp MIP的尺寸选择，要加入的探针混合物的体积基于可用MIP的浓度。

2.在95℃下变性10分钟。

3.在60℃下孵育至少36h以将MIP杂交至gDNA。

环化捕获的外显子(1天)：

1.制备添加到每个捕获反应的连接酶和聚合酶的混合物：

将此混合物放在冰上，并且在加入4.7μl到捕获反应之前保持其冷却。

1.在60℃下孵育额外的24小时以允许间隙填充和连接来环化捕获区域。

为环化的产物选择的外切酶：(1小时)

1.制备添加到每个捕获反应中的外切酶混合物，为了去除未捕获的gDNA、多余的探针和阻塞寡核苷酸：

试剂	每个样品的体积(μl)	反应中的最终浓度
			Exo I 20U/μl	2	1.7U/μl
Exo III 100U/μl	2	8.3U/μl

2.将捕获反应的温度降至37℃，并在加入4μl的外切酶混合物之前至少孵育1分钟。

3.在37℃下孵育15分钟。

4.通过在95℃下加热反应2分钟来灭活外切酶。

5.使用100ng的反应产物用作滚环扩增的模板。

4.3滚环扩增

1.真空干燥20μl 2X退火缓冲液至1μl。

2.加入40μl环状DNA(大约10ng)。

3.加入4μl 50μM的随机引物。

4.在90℃下孵育5分钟，然后缓慢冷却至室温。

5.添加以下试剂：10μl 10x Phi29缓冲液，2μl 100x BSA，2μl 10mM dNTPs，2μlPhi29聚合酶，4μl焦磷酸酶0.1U/μl，40μl水。

6.在30℃下孵育19小时，然后在65℃下孵育10分钟。

7.用Ampure XP珠(0.4V)清洗反应产物。

清洗的反应产物用于任意长读取测序方案。

5.设计的和测试的主链的列表

>BB1(199bp)

GGGCATGCACAGATGTACACGTACGATCATGTACGTCACGCGAGTGCACGTCGTCATAGCTGTCGAGTACTGTACTGACTGTCTCGAGCCTCAGCGAGTATTTAAATCTACGTAGAGTACGACTGCGCAGATGTGATCAGTGACTACGTGACACTGTACATCAGCACGATCGATGACTAGATGCTGCATGACATAGCCC

>BB2(259bp)

GGGCATGCACAGATGTACACGTACGATCATGTACGTCACGCGAGTGCACGTCGTCATAGCTGTCGAGTACTGTACTGACTGTCTCGAGCCTCAGCGAGTATTTAAATCTACGTCACCGGGTCTTCGAGAAGACCTGTTTAGAGTACGACTGCAAATGGCTCTAGAGGTACCCGTTACATAACTTACGCAGATGTGATCAGTGACTACGTGACACTGTACATCAGCACGATCGATGACTAGATGCTGCATGACATAGCCC

>BB2_100(341)

GGGCATGCACAGATGTACACGTACGATCATGTACGTCACGCGAGTGCACGTCGTCATAGCTGTCGAGTACTGTACTGACTGTCTCGAGCCTCAGCGAGTATTTAAATCTACGTCACCATATATATGGATATATATATGGATATATATATATATGGATATATGGATATATATATATATATATGGATATGTATGGATATATATATATATGGATATGGATGTTTAGAGTACGACTGCAAATGGCTCTAGAGGTACCCGTTACATAACTTACGCAGATGTGATCAGTGACTACGTGACACTGTACATCAGCACGATCGATGACTAGATGCTGCATGACATAGCCC

>BB3(514bp)

AACGCCAGCAACGCGGCCTTTTTACGGTTCCTGGCCTTTTGCTGGCCTTTTGCTCACATGTGAGGGCCTATTTCCCATGATTCCTTCATATTTGCATATACGATACAAGGCTGTTAGAGAGATAATTGGAATTAATTTGACTGTAAACACAAAGATATTAGTACAAAATACGTGACGTAGAAAGTAATAATTTCTTGGGTAGTTTGCAGTTTTAAAATTATGTTTTAAAATGGACTATCATATGCTTACCGTAACTTGAAAGTATTTCGATTTCTTGGCTTTATATATCTTGTGGAAAGGACGAAACACCGGGTCTTCGAGAAGACCTGTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGCACCGAGTCGGTGCTTTTTTGTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTTTTAGCGCGTGCGCCAATTCTGCAGACAAATGGCTCTAGAGGTACCCGTTACATAACTTA

>BBpX2(557bp)

GGGCATGCACAGATGTACACGAACGCCAGCAACGCGGCCTTTTTACGGTTCCTGGCCTTTTGCTGGCCTTTTGCTCACATGTGAGGGCCTATTTCCCATGATTCCTTCATATTTGCATATACGATACAAGGCTGTTAGAGAGATAATTGGAATTAATTTGACTGTAAACACAAAGATATTAGTACAAAATACGTGACGTAGAAAGTAATAATTTCTTGGGTAGTTTGCAGTTTTAAAATTATGTTTTAAAATGGACTATCATATGCTTACCGTAACTTGAAAGTATTTCGATTTCTTGGCTTTATATATCTTGTGGAAAGGACGAAACACCGGGTCTTCGAGAAGACCTGTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGCACCGAGTCGGTGCTTTTTTGTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTTTTAGCGCGTGCGCCAATTCTGCAGACAAATGGCTCTAGAGGTACCCGTTACATAACTTATAGATGCTGCATGACATAGCCC

6.关于生成BB2_100和BBpX2的另外的详细信息

通过使用BB2中存在的BbsI克隆位点插入柔性序列，优化BB2。添加由在电脑设计中获得的100bp长的DNA延伸组成的插入(见第7节)，并且为了克隆目的，在最末端添加了BbsI限制酶切位点(下面的序列中加粗的)。通过对两个较短的寡核苷酸进行退火得到完整的插入(正义和反义)。将寡核苷酸排序为来自IDT DNA技术的单链寡核苷酸。正链和反链被退火，并且退火后的产物，现在是带有粘性末端的dsDNA，在琼脂凝胶上被分解。随后，通过与(Ran等2013)所描述的反应相似的Golden-Gate克隆反应，将插入克隆至BB2中。

用于产生它的完整的插入序列和寡核苷酸如下：

>插入BB2_100

CACCATATATATGGATATATATATGGATATATATATATATGGATATATGGATATATATATATATATATGGATATGTATGGATATATATATATATGGATATGGATGTTT

>正义寡核苷酸

CACCATATATATGGATATATATATGGATATATATATATATGGATATATGGATATATATATATATATATGGATATGTATGGATATATATATATATGGATATGGAT

>反义寡核苷酸

AAACATCCATATCCATATATATATATATCCATACATATCCATATATATATATATATATCCATATATCCATATATATATATATCCATATATATATCCATATATAT

BBpX2是通过在PCR扩增子最末端添加SrfI-一半-位点(GGGC)和其余通用引物序列(下面序列中下划线的)获得的。BB3被用作PCR反应的模板。

>BBpX至BBpX2-F

GGGCATGCACAGATGTACACGaacgccagcaacgcggc

>BBpX至BBpX2-R

GGGCTATGTCATGCAGCATCTAtaagttatgtaacgggtacctct

上述序列具有小写的模板退火部分和大写的侧翼区域。SrfI-一半-位点用橙色突出显示，其余的大写的序列是存在于所有主链的末端的常量序列的一部分。常量序列对主链不是必需的，但是在生产步骤期间对标准化它们的扩增是有用的。以下引物确实能够扩增到目前为止所制造的任意主链：

>通用的SrfI-BB-F

GGGCATGCACAGATGTACACG

>通用的SrfI-BB-R

GGGCTATGTCATGCAGCATCTA

7.插入序列的列表

>插入17.1(TP53，chr17:7576971-7577132)

TAACTGCACCCTTGGTCTCCTCCACCGCTTCTTGTCCTGCTTGCTTACCTCGCTTAGTGCTCCCTGGGGGCAGCTCGTGGTGAGGCTCCCCTTTCTTGCGGAGATTCTCTTCCTCTGTGCGCCGGTCTCTCCCAGGACAGGCACAAACACGCACCTCAAAG

>插入17.2(TP53，chr17:7578161-7578394)

CAGTTGCAAACCAGACCTCAGGCGGCTCATAGGGCACCACCACACTATGTCGAAAAGTGTTTCTGTCATCCAAATACTCCACACGCAAATTTCCTTCCACTCGGATAAGATGCTGAGGAGGGGCCAGACCTAAGAGCAATCAGTGAGGAATCAGAGGCCTGGGGACCCTGGGCAACCAGCCCTGTCGTCTCTCCAGCCCCAGCTGCTCACCATCGCTATCTGAGCAGCGCTCAT

8.柔性DNA序列的电脑设计

为了提高BB2的柔性，通过对柔性DNA序列增加一个100bp的序列，该序列是通过简单的遗传算法专门设计的。相同的方法用于从头设计整个主链核心序列。这些主链核心序列的限制性位点、条形码或引物位点可按本文其他地方所述来添加。

基于演变选择算法对主链核心序列进行优化，该算法优化了该序列的以下组分：

1)高的分子柔性

2)高的序列熵

3)GC含量在30％和60％之间，理想的接近50％

4)缺少长的自互补的延伸

5)缺少长的寡核苷酸聚合物(NNNNNNN)

6)缺少重复的基序(kmer)

柔性计算

使用TwistFlex算法的python实现(http://margalit.huji.ac.il/TwistFlex/)(Menconi等2015)来计算输入序列的扭转角处的DNA柔性。每个单一二核苷酸的柔性根据下列的角度表计算：

随后，用于主链优化的演变算法在选择时考虑了整个序列的平均柔性。DNA序列的平均柔性计算为所有二核苷酸角度的总和除以二核苷酸的总数。我们的主链的柔性阈值是12.5角度的平均值。丢弃任何平均柔性低于12.5角度的序列。

用于确定序列复杂度的熵计算

其中，p_i是字符数字i在序列中出现的概率。该计算也可通过http://www.shannonentropy.netmark.pl/进行。

利用下述的python代码实现上述的公式：

我们的主链核心序列所期望的最小熵值为1.5Sh。丢弃每个具有较小熵值的序列。

自互补性

由存在自互补的8个碱基延伸来过滤所选择的主链核心序列。在相同的链上具有8个或更多自互补的连续碱基的主链被丢弃。

缺乏重复的基序(kmer)

过滤掉含有6个在序列中重复超过两次的碱基的基序的主链核心序列。

设计较新主链的演变算法(越过BB2)

较新主链由柔性DNA和末端处的一对固定序列(第6段中所描述的通用SrfI-BB F/R)组成，这些固定序列作为用于主链PCR扩增的引物退火位点、且用于添加半限制酶切位点。

与任何遗传算法(GA)一样，Cyclomics的GA由主循环组成，在主循环中对序列库进行评分和选择。然后将选中的序列用作生成新序列(子序列(children))的输入(父序列(parents))。父序列和子序列都被分组在一个新库中，为下一次迭代做好制备。该循环的伪代码如下：

对于每次迭代：

该算法完全在Python中实现，配对操作符和突变操作符以及主循环都是按照文献(Hwang and Jang 2008；

1996；CoelloCoello and Lamont 2004；Lobo，Lima，andMichalewicz 2007)中的通用指南从头开始实现的。配对操作符作用于字符串、序列，并在随机位置处进行单一互换。突变操作符在父序列或子序列中添加随机突变，这些突变可能包括小的缺失和复制。过滤步骤用于在选择步骤前对具有CG含量不平衡、低序列熵和不需要重复kmer的序列库进行修剪。选择本身，只是收集根据柔性评分的最佳序列。选择的序列被用作父序列使用配对操作符生成子序列。为了计算序列柔性，对现有代码(Menconi等2015)进行了调整，以满足我们的目的。

9.结果

使用引物17.2-F(CAGTTGCAAACCAGACCTCA)和17.2-R(ATGAGCGCTGCTCAGATAG)来进行PCR以获得长度为234bp、覆盖编码外显子TP53(chr17:7578161-7578394，GRCh37)的PCR产物。根据标准过程，将被称为17.2的DEPCR产物连接至pJET(Thermo Fisher)。连接产物被转化到E.coli Top10，并且挑选用于收集(无性系繁殖的)pJET-17.2质粒的一株菌落。17.2的序列通过Sanger测序验证，并且发现与参照基因组(GRCh37)相同。硫代磷酸(PTO)-修改的引物17.2-R(ATGAGCGCTGCTCAGATA*G*，其中*表示PTO修改)(5μM)在5mM EDTA存在的情况下被退火至50ng pJET-17.2、最终体积为20μL。将该反应混合物加热到95℃，持续5分钟，然后冷却到4℃。

该20μL的退火反应被辅以0.2μ无机焦磷酸酶(ThermoFisher)、10μPhi29(NEB)、1μL的10mM dNTPs、1μL 100X BSA溶液(NEB，20mg/mL)和5μL Phi29 10X反应缓冲液(NEB)。所得的反应混合物在30℃孵育3小时，然后在65℃孵育10分钟。扩增的高分子量DNA使用Ampure珠(Agencourt)进行纯化，然后制备1D纳米孔库(Oxford nanopore Technologies，SQK-LSK108)。所得的库在MinION流动槽(FLOI-MIN 106，R9.4 chemistry)上运行48小时。

10.通过凝胶密度测定法进行DNA量化

琼脂凝胶密度测定法是一种通过比较1)序列梯和感兴趣条带之间或2)输入条带和产物条带之间的像素亮度进行的凝胶条带的图像分析来量化DNA的方法。

10.1用序列梯作为参考

给定含有已知量的DNA序列梯的琼脂凝胶的图片，我们可使用ImageJ软件来估计条带的亮度强度。正确的环化产物被量化，并与输入进行比较来计算环化效率。利用ImageJ的测量函数确定每个凝胶上的条带的面积和平均强度。确定的图像背景的平均强度与所讨论的条带尽可能接近，并从条带强度中减去。所得的强度乘以该条带的面积(被称为水平)。为了创建参考水平，还计算了每幅图像中对应于400个碱基对的条带在50bp DNA序列梯(Thermo Fisher Scientific)中的比率，该比例显示15毫微克DNA的强度。为了计算每条带的DNA含量(以毫微克计)，计算出的水平除以参考水平，再乘以15。使用Promega DNA转换工具dsDNA确定DNA的摩尔含量：μg至pmol。环化效率是通过将以摩尔计量的正确产物除以插入的摩尔输入、再乘以100％来计算的。为了验证这一方法，计算了DNA序列梯中其他条带的DNA含量，并与预测的DNA含量进行比较。将每个条带的DNA含量绘制成预测值和计算值(图6)。

10.2输入条带和产物条带的直接比较

可选的通过凝胶图像分析来估计环化效率的过程需要在凝胶上至少有两条线，一条是输入DNA，且另一条是产物。使用ImageJ，我们可以估计反应前插入(输入)和反应后剩下的插入(未反应)之间的比率。

测量和比较黄色矩形内条带的亮度(输入DNA在左边条带上和未反应的DNA在右边条带上)。在这种情况下，输入和未反应的之间的比率是66:33。我们可以得出结论，50％的初始DNA已经反应(图7A)。

下面我们比较产物条带(图7B)。

我们知道，最上面的条带代表期望的产物，而下面的条带代表未环化的产物。从这两个条带的比率，我们可以确立环化效率，该环化效率被定义为输入DNA被正确环化到最终产物的量。如果A是反应的输入的比率，并且B是正确产物的比率，则效率为A*B。在该情况中，50％*50％＝25％。

参考文献

Thomas.1996.Evolutionary Algorithms in Theory and Practice：Evolution Strategies，Evolutionary Programming，Genetic Algorithms.OxfordUniversity Press on Demand.

CoelloCoello，Carlos A.，and Gary B.Lamont.2004.Applications ofMulti-Objective Evolutionary Algorithms.World Scientific.

Hwang，Gi-Hyun，and Won-Tae Jang.2008.“An Adaptive EvolutionaryAlgorithm Combining Evolution Strategy and Genetic Algorithm(Application ofFuzzy Power System Stabilizer).”In Advances in Evolutionary Algorithms.

Lobo，F.J.，Cláudio F.Lima，and Zbigniew Michalewicz.2007.ParameterSetting in Evolutionary Algorithms.Springer Science&Business Media.

Menconi，Giulia，Andrea Bedini，Roberto Barale，and IsabellaSbrana.2015.“Global Mapping of DNA Conformational Flexibility onSaccharomyces Cerevisiae.”PLoS Computational Biology 11(4)：e1004136.

Ran，F.Ann，Patrick D.Hsu，Jason Wright，VineetaAgarwala，David A.Scott，and Feng Zhang.2013.“Genome Engineering Using the CRISPR-Cas9 System.”NatureProtocols 8(11)：2281-2308.

实施例2

串联DNA分子的测序

我们将覆盖TP53基因的位点17:7578265的PCR产物克隆至pJET中(材料和方法，第9节)。细菌转化后，挑选单个菌落和分离质粒DNA来确认TP53插入的存在(数据未示出)。接下来，我们使用phi29聚合酶和随机六聚体引物对分离的质粒进行滚环扩增(RCA)(材料和方法，第9节)。我们得到如凝胶电泳所估计的大小大于20kb的高分子量RCA产物(图8A)。该产物用作1D文库制品的输入，该文库用于牛津纳米孔技术(Oxford NanoporeTechnologies，ONT)MinION仪器上的测序，并根据制造商的说明书对文库进行48小时测序。该样品共产生16248个测序读取，平均读取长度为5.7kb(图8B)，和2083个超过10kb的读取。使用LAST(

等2011年)，纳米孔/MinION测序读取被映射到人类参考基因组(GRCh37，利用pJET序列放大的)。检测大于10kb的2083个读取的子集，以确定替换主链(pJET)和插入(TP53片段)的配置(被称为BI)，该配置可能期望来自作为输入的环化模板。我们观察到，所有2083个读取都有多个BI拷贝。为所有长于10kb的读取我们计算“模式评分”，该模式评分为1和100之间的代表BI重复的规则性的数字，通过BI/((B+I)/2)*100计算，其中BI为一个纳米孔读取中的pJET-17.2片段的量，B是一个纳米孔读取中的pJET片段的量，并且I是一个纳米孔读取中的17.2片段的量。大多数长读取的模式得分为100，表明RCA产物的正确性，即BI单元的重复(图8C)。我们使用这些读取来提取插入序列(17.2-TP53片段)，随后使用Muscle对每个读取的插入进行对齐(Edgar 2004a，[b]2004)(图8D)。对于每个读取，我们将对齐的17.2片段应用于多数投票方案以得到共有序列。将共有序列与参考序列进行比较，以确定准确性作为BI拷贝数在读取中的作用(图8E)。本实验证明了基于DNA分子的多个拷贝的纳米孔测序获得准确的共有序列读取的概念(Li等2016)。在下一步中，改进主链设计以降低主链(以上实验中的pJET-3kb)测序的测序吞吐量。

线性dsDNA主链的优化

主链设计原理

作为优化短DNA分子捕获和环化的第一步，我们测试了介导该过程的主链序列的不同设计。我们比较了三个参数：主链的长度(较长的DNA分子(主链)被认为更容易环化，但这导致了测序信息的浪费，因为每个读取的大部分将由主链序列组成)。第二，短于约200bp的DNA分子被认为由于其相对硬度而难以环化(Shore，Langowski，and Baldwin 1981)。第三，给定的DNA分子的柔性也取决于它的碱基组成和序列。

第一代主链是BB1和BB2(材料和方法，第5节中的序列)，它们是按照材料和方法，第2节中所强调的一般原理设计的。设计这些主链的目的是将其作为我们可以改进的基本构造块。这些主链包括几个要素的组合，这些要素可以帮助捕获DNA分子和随后的扩增和测序，例如限制酶切位点，条形码序列和/或切口酶位点。我们使用BB1检测环化，但它不是非常有效，并且没有被带入进一步的测试。

Shore、Langowski和Baldwin 1981提出，如果效率需要，平端末端的短DNA分子的环化可能是次优的。接下来，我们生成了更长的主链，该主链将允许在短时间段内(～1h)的更有效的环化。所得的主链被命名为BB3，是通过质粒pX330的部分的PCR扩增产生的514bp长的dsDNA片段(材料与方法，第5和6节)。BB3在末端不含限制酶位点，并且它仅被用于检测不同的连接条件(见下文)。我们还通过添加SrfI位点生成了BB3的修改版本，从而产生了BBpX2。

我们使用每个碱基对的游离能值(Breslauer等1986)和扭转角的偏差(度)(Sarai等1989)来计算任意给定DNA序列的柔性。我们使用遗传算法来生成一组序列，这些序列被选择为高柔性、短长度和优化其他参数(如GC含量、重复基序的存在和序列的自互补性)。在材料和方法，第8节中给出了遗传优化算法的更详细的描述以及主链结构的跟多细节。为了在保持序列短的同时提高主链的环化效率，我们用计算机设计了几段柔性DNA的延伸。我们用这种延伸来提高主链的柔性。在主链2(BB2)的序列中间加入一个100bp长的柔性序列来修改主链2。所得的主链(BB2_100)是341bp长，并且在其最末端包括SrfI半限制酶切位点。

测量环化反应中的BB2主链和BB3主链的反应产物

我们在环化反应中测试了BB2和BB3与PCR产物一起作为插入，17.2(材料与方法，第2、5和7节)。进行第一次实验，以确定获得最优环化产物的最佳的反应条件。分别在添加和不添加Plasmid Safe脱氧核糖核酸酶的情况下进行反应，以获得线性和环化反应产物的清晰视图(图9A)。BB2的环化效率的结果一致，但环化产物不是很丰富。用BB3进行的环化反应，得到可见的环状产物(图9A)，而用BB2则不可见清晰的反应产物。然而，在凝胶上运行整个反应混合物能够观察到Plasmid Safe消化后的弱条带，指示正确的环化产物由BB2和插入17.2组成(图9B)。

不同主链-插入比例对环化效率的影响

接下来，我们评估了不同的主链-插入比例对环状主链-插入产物形成的特异性和效率的影响，这也是我们的目标。因此，我们使用BB3进行环化实验，同时使用234bp PCR产物(17.2，材料与方法，第7节)(图10)。

用摩尔比为3:1的主链与插入，获得最佳的环化效率。保持该设置以进行进一步的表征。请注意，这里使用的策略与标准的基于质粒的克隆所使用的策略截然不同。在标准克隆中，质粒通常被去磷酸化以避免自环化、并在反应中加入过量的磷酸化插入。对于环组学(Cyclomics)技术，主链被磷酸化且被过度磷酸化，而插入被去磷酸化。我们发现，这避免了连接依赖的靶点的多连体化，且提高了主链靶点的连接效率。

柔性延伸对主链环化的影响

在随后的实验中，我们测试了添加柔性DNA延伸对主链环化的影响。因此，我们比较了在插入17.2的环化反应中，BB2与BB2_100(见上)和BB3(图11)的环化效率。BB2_100中的柔性区域具有丰富的TA重复，但仍然足够复杂以致可以清晰地映射到参考序列。在本次测试中，我们还评估了HMGB1和SrfI对BB2_100的环化反应的影响。HMGB1是一种已知的可以潜在地改善环化的DNA弯曲蛋白(Belgrano等2013)。我们观察到BB2_100的环化效率比BB2有所提高，特别是当考虑到主链:插入比为3:1时。因此，我们得出结论，可通过添加柔性DNA延伸优化主链设计，以提高环化效率。BB2_100和17.2一夜的环化得到了更高的环化效率，估计约为26％(图12)，这表明调整主链设计和反应条件二者，可以获得更好的反应性能。

SrfI对主链环化产物的形成的影响

我们的主链的一个必要部分是在最末端存在分开的限制酶切位点。如果主链自环化而没有插入，则完整的限制酶切位点被重新构成，使主链易受特异性核酸酶的影响。在下面的示例中，在BB3的末端处加入SrfI(GCCC|GGGC)的半限制酶切位点，生成一个新的我们称之为BBpX2的主链，并在反应混合物中加入SrfI核酸酶和T4连接酶。SrfI的优势在于能够识别8个碱基长的位点，而大多数商业上可用的替代品只能识别6个碱基长的位点。我们正在评估的其他序列是PmeI(GTTT|AAAC)和SweI(ATTT|AAAT)。如果在Srf1存在的情况下进行连接反应，任何自环化的主链都容易被限制酶裂解，从而回到原始的线性形式。

通过比较前两泳道，可以清楚地看到限制性内切酶的影响(图13)。当存在SrfI时，线性主链得以维持(厚粗条带)，并且整个反应导致很少的副产物。在没有SrfI的情况下(第一泳道)，大部分主链被浪费在若干副产物的形成。SrfI的影响可以通过Plasmid Safe脱氧核糖核酸酶的处理影响(后两泳道)来进一步评价，这导致线性DNA的降解。如果在反应中加入SrfI(最后一泳道)，则只生成预期的产物，相反，如果不加入SrfI(第三泳道)，则会产生许多不需要的环状副产物。

插入的去磷酸化

为了避免插入的自聚合，我们使用Antarctic磷酸酶进行酶促去磷酸化，该酶确保在低温下具有高反应活性，并且在65℃下仅5分钟即可完全灭活。

条形码策略

分子条形码是一种标记单个DNA分子的策略，为了对DNA分子的测序结果进行分类。条形码可用于通过样品对测序读取进行分类(生物信息学上)，从而允许在一次测序试验中合并多个样品(Wong，Jin，and Moqtaderi 2013)。在这种情况下，只使用数量有限的唯一条形码，每个样品使用一个。

此外，条形码可用于单独标记每个DNA分子，并且这种条形码通常被称为唯一分子标识符(UMI)。在这种情况下，使用大量的唯一条形码/UMI(随机序列)，以尽可能降低任意两个不相关的序列获得相同条形码的几率。UMI可用于获得单个序列的绝对定量(Kivioja等2011)。

UMI的另一个应用是低频突变的检测和量化(Kou等2016)，例如在癌症样品中。这涉及对单个DNA分子进行标记，然后进行PCR扩增和深度测序。随后，可以通过UMI序列对序列读取进行分组，并可从测序错误中检测和识别可能的突变。Newman等人(Newman等2016)概述了UMI在ctDNA突变检测中的优等应用。

我们设想用样品-特异性条形码和UMI来设计主链序列(图14)。这种策略使多个独立样品的合并测序，和增强的突变检测能力。样品-特异性条形码长度为5-20个核苷酸，并且可以放置在主链序列的任何位置，前提是它们不影响主链的柔性(从而影响连接效率)。代表UMI的5-20个核苷酸的随机链也将被添加到主链中，用于标记单个DNA分子。通过要求至少两个或多个具有突变的不同分子，即两个分子都应有唯一的UMI，UMI可用于改进突变检测。

环化DNA分子的滚环扩增

通过主链和插入的环化反应得到的环状DNA产物可以作为经由滚环扩增(RCA)产生多连体的模板。我们使用不同来源(包括cfDNA、PCR扩增子、质粒和cDNA(图15))的DNA(插入)和使用随机六聚体引物来测试RCA。

位点-定向RCA

除了典型的RCA反应，其涉及用来启动扩增的随机六聚体，我们设计了使用特异性引物引导扩增到感兴趣的区域，这种方法被称为位点-定向RCA。这种方法可能在只需要测序特异性基因而不是整个基因组的情况下有用。目前实现该方法的方式是通过PCR富集感兴趣的基因(Dowthwaite和Pickford 2015)。然而，众所周知，PCR扩增会增加扩增子的错误(Shuldiner，Nirula，and Roth 1989)；(Diaz-Cano2001)，并且甚至在PCR反应早期出现的单个扩增错误都可能导致最终结果偏差(Diaz-Cano 2001；Quach，Goodman，和Shibata2004)；(Arbeithuber，Makova，and Tiemann-Boege 2016)。

为了测试我们是否可以在不使用PCR的情况下获得一个靶区域的位点-特异性富集，我们将环组学试验与位点-定向RCA结合。简单地说，我们将TP53基因的两个不同区域17.1和17.2(材料和方法，第7节)克隆至pJET载体中。以1:1的摩尔比例使用修饰的pJET载体作为RCA反应的模板，其中使用靶向17.2而不是17.1的特异性引物(17.2R，材料和方法，第9节)代替随机六聚体。使用纳米孔MinION仪器对反应产物进行测序，并且比较含有17.1和17.2的读取的数量(图16)。我们观察到，与含有17.1的读取相比，含有17.2的测序读取在14x接入上出现，这表明通过特异性引物可以实现目标选择的RCA。

一锅反应设计

为了增强循环组学技术的使用，我们关注于开发一种流线型的实验过程。因此，我们尽可能地限制DNA纯化、浓缩、凝胶电泳等费时费力的步骤。为此，我们设计了一种方案，该方案由三个简单的可在单个管道内进行的连续步骤组成，以限制进行纯化或缓冲液交换的需要。

步骤为：1)环化，2)线性DNA的去除和3)滚环扩增(图17)。

环组学方案的第一个反应涉及插入DNA(I)和主链(BB)，在T4 DNA连接酶和限制酶SrfI的存在下混合在一起。混合物在室温下放置1到4小时,然后在70℃下对酶热灭活30分钟。环组学方案的第二步是将Plasmid Safe酶及其缓冲液和1mM ATP加入反应混合物中。混合物在37℃下孵育30分钟，再灭活。在继续滚环扩增(反应3)之前，RCA-引物被添加到混合物，并且通过加热反应到98℃并持续5分钟来进行快速退火步骤。待混合物在室温下冷却后，加入Phi29、焦磷酸酶和RCA反应的其他组分。然后在30℃下至少孵育该反应3个小时。

共有序列调用

为了从多连体的长读取中检测突变，产生了目标序列的共有序列(图18)。为此,基于映射到参考基因组的LAST分解-读取，长读取被分为主链序列和目标序列(

等2011年)。目标序列被传递到GATK UnifiedGenotyper进行变异调用(DePristo等2011)。基于变异置信度评分，采用因果过滤来优化灵敏度和特异性。

环组学技术的应用示例

卵巢癌基因组DNA中的TP53突变的靶向测序

我们在三个已知TP53突变(chr17:7578265，A->T，hg19)的肿瘤活检中测试了环组学方法，该突变的频率可变(1％，9％，14％)，如之前所评估的使用短读取靶向IonTorrent测序(Hoogstraat等2014)。简而言之，我们对目标位点进行PCR，并将所得的产物连接至被专门设计和优化的促进短DNA产物的高效捕获的主链上。随后，连接产物被扩增并多连体来形成具有靶/插入和主链的重复拷贝的长DNA分子。使用nanopore MinION仪器(基于1D连接的文库制品)对长DNA分子进行数小时测序。我们获得了所有三个样品的共206048个序列读取，这通过与LAST(

等2011年)的映射和用于共有序列调用的自定义算法来处理(图18)。接下来，我们从共有序列读取估计突变频率，并观察到TP53突变频率分别为0.5％、7.6％和14％，为使用环组学技术检测癌症DNA中低频体细胞突变提供了概念验证(图19)。

参考文献

-Arbeithuber，Barbara，Kateryna D.Makova，and Irene Tiemann-Boege.2016.“Artifactual Mutations Resulting from DNA Lesions Limit Detection Levels inUltrasensitive Sequencing Applications.”DNA Research：An International Journalfor Rapid Publication of Reports on Genes and Genomes 23(6)：547-59.

-Belgrano，Fabricio S.，Isabel C.de Abreu da Silva，Francisco M.Bastosde Oliveira，Marcelo R.Fantappié，and Ronaldo Mohana-Borges.2013.“Role of theAcidic Tail of High Mobility Group Protein B1(HMGB1)in Protein Stability andDNA Bending.”PloS One 8(11)：e79572.

-Breslauer，K.J.，R.Frank，H.Blocker，and L.A.Marky.1986.“Predicting DNADuplex Stability from the Base Sequence.”Proceedings of the National Academyof Sciences 83(11)：3746-50.

-DePristo，Mark A.，Eric Banks，Ryan Poplin，Kiran V.Garimella，JaredR.Maguire，Christopher Hartl，Anthony A.Philippakis,等2011.“A Framework forVariation Discovery and Genotyping Using next-Generation DNA SequencingData.”Nature Genetics 43(5)：491-98.

-Diaz-Cano，Salvador J.2001.“Are PCR Artifacts in MicrodissectedSamples Preventable？”Human Pathology 32(12)：1415.

-Dowthwaite，Gary，and Jo Pickford.2015.“PCR-Based DNA EnrichmentEnhances Detection of Mutations in Oncology.”MLO：Medical Laboratory Observer47(11)：18，20.

-Edgar，Robert C.2004a.“MUSCLE：Multiple Sequence Alignment with HighAccuracy and High Throughput.”Nucleic Acids Research 32(5)：1792-97.

-———.2004b.“MUSCLE：A Multiple Sequence Alignment Method withReduced Time and Space Complexity.”BMC Bioinformatics 5(August)：113.

-Hoogstraat，Marlous，Mirjam S.de Pagter，Geert A.Cirkel，Markus J.vanRoosmalen，Timothy T.Harkins，Karen Duran，Jennifer Kreeftmeijer,等2014.“Genomicand Transcriptomic Plasticity in Treatment-Naive Ovarian Cancer.”GenomeResearch 24(2)：200-211.

Szymon M.，Raymond Wan，Kengo Sato，Paul Horton，and MartinC.Frith.2011.“Adaptive Seeds Tame Genomic Sequence Comparison.”GenomeResearch 21(3)：487-93.

-Kivioja，Teemu，Anna

Kasper Karlsson，Martin Bonke，MartinEnge，StenLinnarsson，and Jussi Taipale.2011.“Counting Absolute Numbers ofMolecules Using Unique Molecular Identifiers.”Nature Methods 9(1)：72-74.

-Kou，Ruqin，Ham Lam，HairongDuan，Li Ye，NarisraJongkam，Weizhi Chen，Shifang Zhang，and Shihong Li.2016.“Benefits and Challenges with ApplyingUnique Molecular Identifiers in Next Generation Sequencing to Detect LowFrequency Mutations.”PloS One 11(1)：e0146638.

-Li，Chenhao，Kern Rei Chng，Esther Jia Hui Boey，Amanda Hui Qi Ng，Andreas Wilm，and Niranjan Nagarajan.2016.“INC-Seq：Accurate Single MoleculeReads Using Nanopore Sequencing.”GigaScience 5(1)：34.

-Newman，Aaron M.，Alexander F.Lovejoy，Daniel M.Klass，David M.Kurtz，Jacob J.Chabon，Florian Scherer，Henning Stehr,等2016.“Integrated Digital ErrorSuppression for Improved Detection of Circulating Tumor DNA.”NatureBiotechnology 34(5)：547-55.

-Quach，Nancy，Myron F.Goodman，and Darryl Shibata.2004.“In VitroMutation Artifacts after Formalin Fixation and Error Prone TranslesionSynthesis during PCR.”BMC Clinical Pathology 4(1).doi:10.1186/1472-6890-4-1.

-Sarai，A.，J.Mazur，R.Nussinov，and R.L.Jernigan.1989.“SequenceDependence of DNA Conformational Flexibility.”Biochemistry 28(19)：7842-49.

-Shore，D.，J.Langowski，and R.L.Baldwin.1981.“DNA Flexibility Studiedby Covalent Closure of Short Fragments into Circles.”Proceedings of theNational Academy of Sciences of the United States of America 78(8)：4833-37.

-Shuldiner，Alan R.，Ajay Nirula，and Jesse Roth.1989.“Hybrid DNAArtifact from PCR of Closely Related Target Sequences.”Nucleic Acids Research17(11)：4409-4409.

-Wong，Koon Ho，Yi Jin，and ZarmikMoqtaderi.2013.“Multiplex IlluminaSequencing Using DNA Barcoding.”Current Protocols in Molecular Biology/Editedby Frederick M.Ausubel...[et Al.]Chapter 7：Unit 7.11.

实施例3

材料和方法

短PCR寡核苷酸的环化和RCA扩增

材料

Wizard SV凝胶和PCR清洁系统(Promega#A9282)

主链必须被磷酸化，或者使用磷酸化引物经由PCR生产，或者使用非磷酸化的PCR产物或合成的DNA双链(T4多核苷酸激酶)的PNK来磷酸化。

插入必须通过非磷酸化引物经由PCR扩增或使用南极磷酸酶去磷酸化。

插入和主链都必须是平端的。首选的方法是使用Phusion聚合酶(留下平端末端的扩增子)。

插入和主链都必须是被柱或珠纯化时无需缓冲液的。

在用于生产BB或I的PCR反应产生了一个以上的产物的情况下，那么预期的产物的凝胶纯化是必要的。

如果用于I或BB扩增的模板是环状的(例如质粒)，那么PCR产物的凝胶纯化是必要的。

方法

环化

反应混合物(1X)：(BB:I的摩尔比应该为3:1)

在冰上和PCR试管中制备上述反应混合物。

涡旋和旋转。

放入热循环器并运行以下程序：(16℃x 10’>>37℃x 10’)x 8>>70℃x 20’。

添加1μl的SrfI的并运行以下程序：(此步骤是消化任何残余的BB-BB)37℃x 15’>>70℃x 20’。

在50mol/l的反应中，建议在该反应中使用的最大DNA量(同时考虑到I和BB)是400ng。BB:I的比率不应该改变。

示例比率计算：(len(X)＝X的长度，以碱基对计)，其中：len(I)＝130bp；len(BB)＝245bp；len(BB)/len(I)＝245/130＝1.88；从I的50ng开始，那么需要的BB为50*1.88*3＝282ng才能达到3:1的比例。

线性DNA去除

取出环化反应的4μl作为稍后运行的凝胶的阴性对照。

对剩余的循环反应(46μl)添加：

-ATP 10mM 6μl

-Plasmid-Safe缓冲液 10X 6μl

-Plasmid-Safe酶 2μl

在37℃下孵育30’。

在70℃下灭活30’。

在1.7％琼脂凝胶中运行整个反应(S)和阴性对照(C-)。

琼脂纯化对应于环状BB-I的条带(图25)。

用30μl的水洗脱两次。

滚环扩增

对纯化的环状BB-I(此时大约50μl)添加：

-退火缓冲液(5X) 12μl

-Exo-Res.RND引物(500μM) 1μl

在98℃下加热溶液5’，然后在室温下缓慢冷却。

添加：

在30℃下至少孵育反应3h。

在70℃下灭活10’。

在0.5％的琼脂凝胶中运行5μl。

运行RCA反应过夜将产生更多的产物。然而，目前还不清楚多连体的质量是否会受到影响。

质量检查

下面的过程允许粗略估计RCA产物中BB-I和仅BB的单体的量。利用主链中存在的限制酶切位点(以下示例中的BglII)，RCA产物可被消化，并且所得的条带模式可以用来推断RCA产物的准确含量。

如图27中所示，BB200_4(243bp)和S1_WT(158bp)经RCA环化和扩增。当消化由BB-I制成的多连体时，我们期望400bp左右的条带，而如果多连体只有BB，产生的条带应该在250bp左右。仅由I形成的多连体不会被消化，使得RCA条带可见。

文库制备

DNA纯化：

-加入等体积的Dyna珠，轻轻混合，并且在室温下孵育5分钟。

-将试管插入磁性机架，等待5分钟以允许珠子在壁上聚集。

-去除缓冲液。

-用700μl的70％乙醇轻轻冲洗。

-去除乙醇并再重复一次冲洗步骤。

-蒸发残余乙醇。

-从磁性机架去除试管。

-用100μl的超纯水从珠子洗脱DNA。

溶解分支DNA：

-加入4μl的T7内切酶(NEB#M0302S)。

-在37℃下孵育1h。

文库制备：

-继续进行纳米孔文库制备，可以是1D连接制备，也可为快速制备。

使用的主链和插入序列的列表

-len＝以碱基对计的主链长度

-mean_flex＝序列中50个碱基对的所有连续片段的计算的DNA柔性的平均值

-max_flex＝为序列中50个碱基对的片段计算的最大DNA柔性

-熵＝DNA序列的Shannon熵

-GC％＝主链中GC碱基的百分比

>BB100_1(len:143mean_flex:12.89max_flex:14.71熵:2.0GC％:48.25)

>BB100_2(len:143mean_flex:13.29max_flex:14.95熵:1.96GC％:37.76)

>BB100_3(len:143mean_flex:12.78max_flex:14.1熵:1.95GC％:44.06)

>BB100_4(len:145mean_flex:12.89max_flex:14.06熵:1.95GC％:44.14)

>BB100_5(len:143mean_flex:13.27max_flex:14.34熵:1.9GC％:37.76)

>BB200_1(len:243mean_flex:13.0max_flex:14.9熵:1.99GC％:44.86)

>BB200_2(len:244mean_flex:13.15max_flex:14.69熵:1.96GC％:38.52)

>BB200_3(len:244mean_flex:13.06max_flex:14.9熵:1.96GC％:39.75)

>BB200_4(len:243mean_flex:13.29max_flex:14.44熵:1.93GC％:34.57)

>BB200_5(len:243mean_flex:13.37max_flex:14.52熵:1.94GC％:35.8)

>BB300_1(len:348mean_flex:13.12max_flex:14.77熵:1.98GC％:41.67)

>BB300_2(len:343mean_flex:13.26max_flex:14.34熵:1.98GC％:40.82)

>BB300_3(len:344mean_flex:13.47max_flex:14.8熵:1.95GC％:36.34)

>BB300_4(len:344mean_flex:13.37max_flex:14.57熵:1.94GC％:37.5)

>BB300_5(len:344mean_flex:13.51max_flex:14.89熵:1.91GC％:33.43)

>插入S1 WT(TP53，chr17:7577450-7577649)

AGGCTGGGGCACAGCAGGCCAGTGTGCAGGGTGGCAAGTGGCTCCTGACCTGGAGTCTTCCAGTGTGATGATGGTGAGGATGGGCCTCCGGTTCATGCCGCCCATGCAGGAACTGTTACACATGTAGTTGTAGTGGATGGTGGTACAGTCAGAGCCAACCTAGGAGATAACACAGGCCCAAGATGAGGCCAGTGCGCCTT

>插入17.2(TP53，chr17:7578161-7578394)

与图24有关的生物信息学

使用Tombo的DNA模型(Fasta->raw)，正向和反向二者(https://github.com/nanoporetech/tombo)，都会为每一个可能的插入(用于目标位置的每一个可能的碱基对)生成预期的参考信号。也为主链创建正向和反向的预期信号。

使用动态时间翘曲(DTW)将期望的主链信号映射到读取。如果预期的主链信号在与读取对齐时重叠，则挑选最佳结果，去除次优结果。接着基于合适的主链的定向将读取切成片段。

随后，使用DTW将所有可能的预期插入信号映射到读取。同样，重叠的结果被去除，并且只保留最好的结果。每次读取都保留最优的匹配结果(最小的DTW错误)。特异性插入(表示目标位置的特异性碱基)的次数决定了目标位置处读取的最可能的碱基。

结果

不同主链的环化效率

为了能够通过实验评估不同主链环化短DNA扩增子的效率，将234bp的PCR扩增子(插入17.2)与源自三个不同主链系列(BB100_1/2/3/4/5、BB200_2/4/5和BB300)的主链进行连接。

主链序列和物理性质报告在下面。详细的方案公开在材料和方法中。

图21(左侧)显示了环化反应的产物。

环化后，给反应补充酶混合物(PlasmidSafeLucigen#E3101K)，以消化线性DNA。图21(右侧)中显示了残留产物(环状DNA)。

BB200系列显示了迄今为止最好的效率。为了进一步表征BB200_2/4/5的效率，在没有限制酶SrfI的情况下，用相同的扩增子连接这3个主链。该实验背后的原理是，主链的连接效率可以通过反应中形成的多聚体的量来估计。从图22可以看出，BB200_4的连接效率明显高于BB200_2和BB200_5。

BB200_4连接的更高效率反映在环化和RCA产物形成效率更高。在图23中，绘制了来自两个独立实验(蓝色和红色)的测序读取计数，在这两个独立实验中，使用BB200_2、BB200_4和BB200_5的等摩尔混合物来产生多连体。测序结果与之前的实验结果一致，表明绝大多数测序的珠都含有BB200_4。

在连接效率方面更好的新的(优化的)条形码序列

BB200_4是迄今为止在环化反应中测试的最有效的主链。

与链-特异性的滚环扩增的可能性相耦合链-特异性的突变调用

环组学方法产生双链DNA环。具有双链的环的一个优势在于链中的一个可被优选地用作RCA的模板,例如通过使用链-特异性的引物来启动反应，然后进行已知的过程(https://www.sciencedirect.com/science/article/pii/S0042682212002814)。这样，环组学方法使选择性扩增给定DNA序列的正义或反义序列。这种链-特异性的扩增不可能使用smartbell方法实现，但它对以高效的方式从纳米孔测序数据获得准确的变异调用有很大的好处。

在图24中，我们展示了示例情况，其中在分析来自DNA分子的两条不同链的数据时，正确碱基的检测率是不同的。数据来自一个实验，其中200bp(插入S1 WT)长的扩增子用BB200_4环化，并如报告的方案中所规定的进行扩增。

测序结果的数据分析可以确定每条链的碱基调用的准确性。具体地，我们注意到由于C碱基和A碱基的原始信号强度相似而通常很难区分。然而，来自T的信号与来自其他所有碱基的信号有很大的不同，并且容易被正确地分类。例如，如果期望正链中的A突变，反链的测序会导致更清楚的结果，因为正链中的A会被错误调用为G。因此，在这种场景下反链的特异性富集是有利的。

图24中高光的数据示出了在识别正链或反链上的碱基方面的差异的示例。强调如何通过在Y轴上使用简单的截止点(Y<0.3)来推断反链数据上的正确的碱基。相同方法对前链不起作用。因此，在这种情况下，对两条链的扩增和测序会导致数据的浪费，并且更有问题的是，会导致对具有很高的假阳性率的特异性位置的误导突变检测。相反，链-特异性的富集会导致更高的灵敏度(大部分读取将来自最好的链)，并且没有假阳性调用。

Claims

1.一种用于制备用于测序的双链靶DNA分子的方法，包括：

-提供包括5’端和3’端的双链主链DNA分子，所述5’端和3’端：

-与所述靶DNA的5’端和3’端为连接兼容的；

-当自连接时形成第一限制酶识别位点；

-为能够自连接的形式；和

所述方法进一步包括：

-在存在连接酶和切割所述第一限制酶识别位点的第一限制酶的情况下，将所述靶DNA连接至所述主链DNA，从而产生包括主链DNA分子和靶DNA分子的至少一个DNA环；

-任选地去除线性DNA；

-通过滚环扩增产生包括所述至少一个DNA环的拷贝的有序阵列的多连体DNA分子；和

-对所述至少一个多连体进行测序。

2.根据权利要求1所述的方法，其中通过长读取测序对所述多连体进行测序。

3.根据权利要求1或权利要求2所述的方法，其中提供两个或更多个主链。

4.根据权利要求3所述的方法，其中至少两个主链包括唯一识别符序列(条形码)。

5.根据权利要求1或权利要求2所述的方法，其中所述主链包括连接体。

6.根据权利要求5所述的方法，其中所述连接体包括20至900个核苷酸的序列。

7.根据权利要求5或权利要求6所述的方法，其中所述连接体的所述序列不具有多于5个核苷酸的重复DNA基序；或不具有由少于10个核苷酸隔开的多于6个核苷酸的自互补基序；或其组合。

8.根据权利要求1至7中任一项所述的方法，其中所述特异性连接兼容的5’端和3’端为平端。

9.根据权利要求8所述的方法，其中所述将靶DNA的末端连接至主链的末端产生具有下述序列的靶-主链接头，所述序列不被切割通过主链的自连接形成的所述限制酶位点的所述限制酶识别/切割。

10.根据权利要求1至9中任一项所述的方法，其中防止自连接的所述形式为一个DNA末端的5’-羟基和另一个DNA末端的3’-羟基，并且允许自连接的所述形式为一个DNA末端的5’-磷酸基和另一个DNA末端的3’-羟基。

11.根据权利要求1至10中任一项所述的方法，其中所述靶DNA为20至400个碱基对。

12.一种评估主链的插入捕获效率的方法，包括权利要求1的步骤并且进一步包括比较不同主链之间的插入捕获效率。

13.一种长度为20至1000个核苷酸的线性DNA分子(主链)的集合，所述DNA分子包括5’端和3’端，所述5’端在最末端包括第一限制酶识别位点的一部分，并且所述3’端在最末端包括第一限制酶识别位点的另一部分，并且所述5’端和所述3’端为彼此连接兼容的，并且当自连接时形成限制酶(第一限制酶)识别位点，并且其中每个所述主链包括：

连接体；

标识符序列(条形码)，所述标识符序列与所述集合中的其他主链的标识符的序列不同；和

任选地用于切口酶的限制酶切位点。

14.根据权利要求13所述的主链的集合，其中所述主链进一步包括用于能够产生非回文的突出端的II型限制酶的限制酶位点(Golden-Gate克隆位点)。

15.根据权利要求13或权利要求14所述的主链的集合，其中所述连接体包括30至900个核苷酸的序列；所述连接体具有高的总体复杂度；所述连接体不具有多于5个核苷酸的重复DNA基序，或不具有由少于10个核苷酸隔开的多于3个核苷酸的自互补基序，或其组合。

16.根据权利要求13至15中任一项所述的主链的集合，进一步包括在所述第一限制酶切位点中的核酸分子(捕获的核酸分子)。

17.根据权利要求13至16中任一项所述的主链的集合，包括捕获的核酸分子的文库。

18.一种用于确定核酸分子的集合的序列的方法，包括：

-提供双链靶DNA分子，所述双链靶DNA分子在5’端和3’端具有对于靶位点特异性重组酶特异性的重组酶识别位点；

-提供包括所述识别位点的主链，所述识别位点被包括连接体的DNA隔开；

-在存在所述靶位点特异性重组酶的情况下，孵育所述靶DNA分子与所述主链，所述靶位点特异性重组酶优选地为Cre重组酶、FLP重组酶或噬菌体λ整合酶，从而产生包括主链和靶DNA分子的DNA环；

-任选地去除线性DNA；

-通过滚环扩增产生包括至少两个所述DNA环的拷贝的有序阵列的多连体；和

-对所述多连体进行测序。

19.一种试剂盒，包括根据权利要求13至17中任一项所述的线性DNA分子的集合。

20.根据权利要求19所述的试剂盒，进一步包括具有高持续合成能力的聚合酶和任选地一个或多个聚合引物。

21.根据权利要求19或权利要求20所述的试剂盒，进一步包括连接酶和所述第一限制酶；和/或所述靶位点特异性重组酶。

22.根据权利要求19至21中任一项所述的试剂盒，进一步包括DNA外切酶。