CN113736850A

CN113736850A - 基于双链环化的文库构建方法及其在测序中的应用

Info

Publication number: CN113736850A
Application number: CN202110932761.0A
Authority: CN
Inventors: 胡玉刚; 汪彪; 郑文莉; 吴强
Original assignee: Naonda Nanjing Biological Technology Co ltd
Current assignee: Naonda Nanjing Biological Technology Co ltd
Priority date: 2021-08-13
Filing date: 2021-08-13
Publication date: 2021-12-03

Abstract

本发明提供了一种基于双链环化的文库构建方法及其在测序中的应用。该文库构建方法包括：采用双链环化扩增引物对带有接头序列的文库进行PCR扩增，得到扩增产物，其中，双链环化扩增引物为一对带有RNA碱基的文库扩增引物；对扩增产物中的RNA碱基进行酶切，得到双链酶切产物，双链酶切产物的两端为凸出的互补结构；利用两端的凸出的互补结构，对双链酶切产物进行环化，得到带缺口的双链环化文库。该双链环化的文库构建方法，不受待环化片段碱基组成的影响实现环化，进而解决现有技术中MGI测序平台针对GC含量高低不同的文库产出数据有偏差的问题。

Description

基于双链环化的文库构建方法及其在测序中的应用

技术领域

本发明涉及高通量测序检测领域，具体而言，涉及一种基于双链环化的文库构建方法及其在测序中的应用。

背景技术

随着基因测序相关技术的持续革新和应用领域的深入发展，行业竞争格局也在不断演化。在二代测序领域，仪器与试剂主要由Illumina、ThermoFisher等国外厂商提供。华大基因对CG(Complete Genomics)公司全额收购后先后推出了BGISEQ-50、MGISEQ-200、MGISEQ-2000、MGISEQ-T7测序仪，测序体系从8G到6T通量的覆盖，应用领域得到了极大的拓展。华大测序仪可以稳定产出高质量测序数据，相对于Illumina平台，其测序重复序列(duplicates)更低，标签跳跃(index hopping)问题也得到了显著解决。

华大BGISEQ测序平台整体流程主要分为三个步骤：1)文库样本制备；2)DNB(DNANanoBall,DNA纳米球)的制备/加载；以及3)上机测序分析。单链环化DNA分子是DNB制备的前提。DNA单链环化是将带有接头序列的双链DNA(double-stranded DNA，dsDNA)，通过高温变性形成单链DNA(single-stranded DNA，ssDNA)，在连接酶的催化下，splint oligo引物与ssDNA的两端互补配对，ssDNA两端连接形成单链环状DNA分子(single-strandedcircular DNA，ssCirDNA)。之后使用具有强链置换活性的Phi29聚合酶进行线性扩增，每个扩增循环都以原始的ssCirDNA文库为模板，保持每个拷贝的独立性，将1copy原始ssCirDNA文库分子扩增得到300-500copies的DNA纳米球。最后将制备好的DNB加载至芯片上进行上机测序。

基因组的甲基化修饰是重要的调控信号，尤其是肿瘤细胞和正常细胞在甲基化水平方面是有明显的区别。近年来甲基化程度也作为肿瘤早诊的重要标志物，通过二代测序来进行检测。因而如何准确的检测甲基化的状态具有重要的意义，这就要求研究方法和测序设备不能对甲基化状态带来偏差。

然而，发明人发现，现有的MGI测序平台在对GC含量高低不同的文库进行测序时(尤其是混样测序时)，产出数据会存在偏差，现有技术中尚无解决该问题的报道。

发明内容

本发明的主要目的在于提供一种基于双链环化的文库构建方法及其在测序中的应用，以解决现有技术中MGI测序平台针对GC含量高低不同的文库产出数据有偏差的问题。

为了实现上述目的，根据本发明的一个方面，提供了一种基于双链环化的文库构建方法，该文库构建方法包括：采用双链环化扩增引物对带有接头序列的文库进行PCR扩增，得到扩增产物，其中，双链环化扩增引物为一对带有RNA碱基的文库扩增引物；对扩增产物中的RNA碱基进行酶切，得到双链酶切产物，双链酶切产物的两端为凸出的互补结构；利用两端的凸出的互补结构，对双链酶切产物进行环化，得到带缺口的双链环化文库。

进一步地，双链环化扩增引物包括模板链和非模板链，模板链含有1个RNA碱基，非模板链含有2个RNA碱基；优选地，模板链的1个RNA碱基位于5’端起始的第2-8位上；优选地，非模板链的2个RNA碱基均位于5’端，更优选位于5’端起始的第2-8位上；或者，模板链的2个RNA碱基中一个位于5’端，另一个位于3’端，更优选地，位于5’端和位于3’端的2个RNA碱基中间间隔至少10个碱基的距离；优选地，模板链的序列为：AN1N2N3UNNNNNNNNNNNNNNNN；非模板链为：AN4N5N6UNNNNNNNNNNNNNNNUNN或AN7N8N9UNUNNNNNNNNNNNNNNNN，其中，N1与N6或N9互补，N2与N5或N8互补，N3与N4或N7互补；优选地，模板链的序列为：ATGCCUCTCAGTACGTCAGCAGTT；非模板链的序列为AGGCAUGGCGACCTTAUCAG；或者，模板链的序列为：ACUCTCAGTACGTCAGCAGTT，非模板链的序列：AGUGCAUGGCGACCTTATCAG。

进一步地，双链环化扩增引物中的RNA碱基为U，采用USER酶对扩增产物中的RNA碱基进行酶切，得到双链酶切产物。

进一步地，带有接头序列的文库为杂交洗脱后的带接头序列的文库，或者为带有接头序列的全基因组文库；优选地，带有接头序列的文库为甲基化杂捕获交洗脱后的带接头序列的文库。

进一步地，在得到带缺口的双链环化文库之后，文库构建方法还包括：利用外切酶对带缺口的双链环化文库进行酶切，得到单链环化文库。

为了实现上述目的，根据本发明的第二个方面，提供了一种基于MGI平台的DNA纳米球的制备方法，该制备方法包括：利用上述任一种文库构建方法构建得到带缺口的双链环化文库；将带缺口的双链环化文库制备成DNA纳米球。

进一步地，将带缺口的双链环化文库制备成DNA纳米球包括：利用外切酶对带缺口的双链环化文库进行酶切，得到单链环化文库；对单链环化文库进行滚环复制，得到DNA纳米球；优选地，外切酶包括Exo I和Exo III。

进一步地，将带缺口的双链环化文库制备成DNA纳米球包括：以带缺口的双链环化文库中带缺口的单链环化文库作为引物，对另一条单链环化文库进行滚环复制，得到DNA纳米球。

为了实现上述目的，根据本发明的第三个方面，提供了一种基于MGI平台的测序方法，该测序方法包括：按照上述任一种制备方法将待测序文库制备成DNA纳米球；将DNA纳米球加载到测序芯片阵列上进行测序。

为了实现上述目的，根据本发明的第四个方面，提供了一种测序试剂，测序试剂包括上述任一种文库构建方法中的双链环化扩增引物，或者上述任一种文库构建方法所构建的带缺口的双链环化文库，或者上述任一种制备方法制备成DNA纳米球。

应用本发明的技术方案，通过利用带有RNA碱基的文库扩增引物对带有接头序列的文库进行PCR扩增，得到两端带有RNA碱基的扩增产物，进一步通过酶切将RNA碱基切除，使得扩增产物的两端产生凸出结构，且两端的凸出结构能够形成互补配对，进而利用两端凸出的互补结构，双链酶切产物完成环化，得到带有缺口的双链环化文库。该双链环化的文库构建方法，不受待环化片段碱基组成的影响，能够实现任何片段文库的环化，进而改善了目前MGI测序平台对GC含量高低不同的片段进行单链环化所带来的差异，便于提高文库测序数据产出占比的准确性。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了Illumina和MGI测序平台的测序流程差异示意图；

图2A和图2B示出了Illumina测序偏向高GC的MGI测序平台偏向低GC；

图3示出了MGI测序不利于高CG甲基化的测序；

图4示出了特殊修饰的引物扩增文库；

图5示出了双链环化后变单链环测序；

图6示出了双链环化后双链环测序；

图7示出了陪伴序列不掉的两条修饰引物特征；

图8示出了陪伴序列不掉的两条末端互为互补结构连接后的结构；

图9示出了陪伴序列酶切后丢掉的两条修饰引物特征；

图10示出了陪伴序列酶切后丢掉的两条末端互为互补结构连接后状态；

图11示出了单链环化和双链环化数据产出占比比较。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。

如背景技术所提及的，两种测序平台测序效果上的差异也有一些报道，但目前尚无对GC含量高低不同的文库测序产出结果差异的分析和报道，本申请的发明人在研究甲基化靶向捕获时发现，在利用MGI平台测试甲基化和非甲基化混合比例时，甲基化的数据明显占优势，而在Illumina的测序平台没有发现偏差的现象产生。如图1所示，Illumina测序平台上甲基化文库的混合比例与数据产出比例之间是一致的，而MGI测序平台上甲基化文库的混合比例与数据产出比例是存在偏差的(从10％及50％的混合比例可以看出，产出数据占比较高)。对于这种偏差现象，发明人进行了深入的分析和研究，具体如下：

现在MGI测序仪在测序通量和质量上和Illumina测序平台都非常接近，Illumina测序平台和MGI测序平台的本质区别就在于在文库在上机测序之前的扩增复制方式不同，Illumina的选择是线性的扩增复制，如果图2A所示，通过文库固定在相对芯片位置的扩增放大，达到增加检测信号的作用；MGI测序是通过把文库的单链辅助环化后，按滚环扩增方式放大检测信号，如图2B所示，构建好的文库在一段陪伴序列的作用下将单链成环，成环后用一条引物滚环扩增的方式放大信号。在实际应用的过程中，如图3所示，Illumina测序平台偏向对高GC的区域进行扩增，高AT区测序不占优势，在敏感分析领域需要做GC矫正，这样才能把偏向GC的区域调整成正常的状态。而在MGI测序平台上，高GC的区域测序有所逊色。

具体产生的原因，一方面是扩增的体系不一样，可能会导致各自的扩增偏好性不同；另一方面区别是在扩增流程上的差异，MGI测序平台上采用的是单链环化的方式，由于环化的是单链，这种单链状态下高GC和低GC的片段，在单链稳定性和空间结构上都会有差异。此外，在DNB(DNA纳米球，DNA nanoball,DNB)的制备以及加载中间是存在一个位置迁移的过程(即先生成DNB后，再将DNB加载到测序芯片阵列上，而非在芯片阵列上原位生成DNB)，在这个变化过程中高GC和高AT的区域有可能双环结合到一起，使得测序信号杂乱，导致这两部分的测序数据占比下降，这些可能的原因都需要具体应用探索。

如前述，由于MGI测序平台和Illumina测序平台的本质上的区别就是在单链环化和DNB加载测序环节有差异，因此，发明人推测这个差异应该是在环化和DNB加载测序过程中产生的。进而，针对这两个环节，发明人提出了本申请的解决方案。该解决方案的核心思想如下：1)用一组特殊的引物对文库进行扩增处理；2)模板链的引物5’端有一个RNA碱基；3)非模板链的引物3’端，或者中间和5’端各有一个RNA碱基；4)扩增完的文库经过酶切去除RNA碱基，此酶可以是去除U碱基的酶，也可以是去除其它RNA碱基的酶；5)去除RNA碱基后的文库的3’末端是凸出的能够自行成环的互补结构的双链末端；6)文库双链成环后的产物留有一个或多个碱基的缺口；7)此缺口可以被外切酶识别去除非模板链，或者，带缺口的非模板链作为引物被聚合酶识别进行滚环扩增。

如图4所示，经过一对带有RNA碱基的引物扩增可以形成一端带一个RNA碱基和另一端带两个RNA碱基的文库。此步骤在靶向捕获测序时并未增加操作的难度和复杂度，只需把捕获后的扩增引物变成本发明的特殊引物即可，同时把目前所用的高保真的DNA聚合酶换成能扩增RNA碱基的酶。在全基因组的测序过程中，需要单独增加一步把现有文库转化成本发明的特殊引物扩增的文库的步骤。

本发明的文库经过去除RNA酶切，不是传统意义上的限制性酶切，是本发明引物的RNA碱基(不限于U碱基)，经过RNA碱基去除的酶进行处理，可以把通过引物扩增引入的RNA碱基去除形成粘性末端3’突出的结构，可以自己连接形成环状的结构，这就实现了双链成环，解决了由于文库的不同CG差异导致的文库单链陪伴成环的弊端。同时由于非模板链使用了2个RNA碱基，在引物的3’端和中间的RNA碱基酶切去除后形成一个缺口位置，这样就可以用外切酶I和外切酶III进行酶切消化，把未环化的文库和环化后从引入的缺口的非模板链消化掉，这样就实现了双链环后的单链环状结构，消除了单链成环在环化环节差异的影响，如图5所示，这个方案的好处是可以消除单链环化的弊端同时可以和其它单链环化文库一起混合上机。

本发明的方法不仅可以解决单链环化的差异，还可以解决环化后的结构稳定性问题，在双链环后的环节，也可以选择不消化处理，虽然有未环化的文库在反应体系中，但由于未环化的片段是线性状态存在也不会被生成DNB当成模板进行滚环扩增，如图6所示，经过环化后的双链DNA，非模板链和模板链形成完美的配对结构，所以不管文库的碱基组成和GC含量有任何差异，由于非模板链的存在，在二级结构上不会有任何差异。同时，由于非模板链存在一个缺口，这样既可以稳定模板链的结构，也可以当模板链的引物进行滚环扩增，这样就解决了单链环化和DNB生成过程中的碱基差异对环化和测序的影响。

需要说明的是，虽然本发明是在做甲基化研究时发现的MGI平台的测序GC偏差，但本申请中环化的方案具有普适性，也可以应用到MGI测序平台的其它应用过程中。

本发明的方案之一的引物可以是如图7所示，两条扩增引物和普通扩增引物的区别是模板链引物在5’端有一个RNA碱基，非模板链的3’和5’各有一个RNA碱基。两条引物5’端的RNA碱基位置最好不在末尾两个碱基上，以免影响切割，因而设置在2-8位时最佳。在非模板链上的两个RNA碱基最好大于10个碱基距离，这要是保证在切割后这段序列不至于脱离模板链。如图8所示，经过去除RNA碱基的文库可以环化成完整的双链，除了有一个缺口存在，其它位置都是完整的双链环状结构，通过去除引物的5’端RNA碱基的结构形成3’端凸出的粘性末端文库，文库可以在连接酶的作用下自己成环，环化产物是只有一个碱基缺口的双链DNA环。

本发明方案之二的引物还可以是这样的结构，模板链的引物接头不变，非模板链的引物也是两个RNA碱基，但两个RNA碱基都在中间和靠近5’端，并且距离比较近，如图9所示，两个RNA碱基在非模板引物上的位置，这种方案的扩增产物经过去除RNA碱基的方式也可以被连接成带缺口的环状产物，如图10所示，也可以实现方案一一样的效果，此处不做详细论述。

总而言之，本发明的核心思想就是通过特殊引物的方案引入三个RNA碱基，其中两个碱基是创造出一个粘性末端用于双链的环化连接；另一个RNA碱基是引物一个缺口，这个缺口既可以用于消化非模板链也可以不消化起到稳定模板的作用和当引物引导DNB的滚环扩增。

基于上述研究结果，申请人提出了本申请的技术方案。在一种优选的实施例中，提供了一种基于双链环化的文库构建方法，该文库构建方法包括：采用双链环化扩增引物对带有接头序列的文库进行PCR扩增，得到扩增产物，其中，双链环化扩增引物为一对带有RNA碱基的文库扩增引物；对扩增产物中的RNA碱基进行酶切，得到双链酶切产物，双链酶切产物的两端为凸出的互补结构；利用两端的凸出的互补结构，对双链酶切产物进行环化，得到带缺口的双链环化文库。

通过利用带有RNA碱基的文库扩增引物对带有接头序列的文库进行PCR扩增，得到两端带有RNA碱基的扩增产物，进一步通过酶切将RNA碱基切除，使得扩增产物的两端产生凸出结构，且两端的凸出结构能够形成互补配对，进而利用两端凸出的互补结构，双链酶切产物完成环化，得到带有缺口的双链环化文库。该双链环化的文库构建方法，不受待环化片段碱基组成的影响，能够实现任何片段文库的环化，进而改善了目前MGI测序平台对GC含量高低不同的片段进行单链环化所带来的差异，便于提高文库测序数据产出占比的准确性。

需要说明的是，上述文库构建方法的巧妙之处在于利用了带有RNA碱基的扩增引物，该引物在设计时，RNA碱基需要满足：1)位于扩增引物的靠近末端的位置；2)RNA碱基被酶切掉后，能够形成缺口和凸出末端；3)双链两端的凸出末端之间能够互补配对。因此，任何能够满足上述要求的引物均适用于本申请。进一步地，基于MGI测序平台考虑，该扩增引物除了用于酶切的RNA碱基外，其余碱基序列最好与平台通用引物相匹配，以提高基于MGI平台进行测序的通用性。

在一种优选的实施例中，双链环化扩增引物包括模板链和非模板链，模板链含有1个RNA碱基(用于在双链的一端产生凸出结构)，非模板链含有2个RNA碱基(一个用于形成缺口，另一个用于在双链的另一端产生凸出结构)；优选地，模板链的1个RNA碱基位于5’端起始的第2-8位上(既不影响酶切，又能使酶切后的小片段掉下来，且剩余的较长片段能够保持双链的结合稳定性)；优选地，非模板链的2个RNA碱基均位于5’端，更优选位于5’端起始的第2-8位上(效果同上)；或者，一个位于5’端，另一个位于3’端，更优选地，位于5’端和位于3’端的2个RNA碱基中间间隔至少10个碱基的距离。

按照上述原则，在一些实施例中，可以采用多种结构形式的模板链和非模板链。比如，模板链为：AN1N2N3UNNNNNNNNNNNNNNNN(SEQ ID NO：1)；非模板链为：AN4N5N6UNNNNNNNNNNNNNNNUNN(SEQ ID NO：2)；或者为AN7N8N9UNUNNNNNNNNNNNNNNNN(SEQID NO：3)，其中，N1与N6或N9互补，N2与N5或N8互补，N3与N4或N7互补。

按照上述原则，在另外一些实施例中，采用了如下具体结构的模板链和非模板链：

模板链的序列为：ATGCCUCTCAGTACGTCAGCAGTT(SEQ ID NO：4)；非模板链的序列为AGGCAUGGCGACCTTAUCAG(SEQ ID NO：5)；或者，模板链的序列为：ACUCTCAGTACGTCAGCAGTT(SEQ ID NO：6)，非模板链的序列：AGUGCAUGGCGACCTTATCAG(SEQ ID NO：7)。

无论是何种结构形式的模板链与非模板链，只要满足前述的原则，均能够实现本申请的双链环化策略。

需要说明的是，上述模板链与非模板链仅是引物名称上的区分，并非指两条链的序列本身互补，而是指酶切后形成的凸出末端能够互补。此外，本申请中的酶切是指能够切掉RNA碱基的酶，并非是切断磷酸二酯键的酶。

在一种优选的实施例中，双链环化扩增引物中的RNA碱基为U，采用USER酶对扩增产物中的RNA碱基进行酶切，得到双链酶切产物。USER酶能够在尿嘧啶位置上产生一个单核苷酸缺口。USER酶是尿嘧啶DNA糖基化酶(UDG)和DNA糖基化酶-裂解酶Endo VIII的混合物。UDG催化尿嘧啶碱基的切割，形成一个脱U碱基位点，但保持磷酸二酯骨架结构完整。EndoVIII的裂解酶活力使脱碱基位点3’和5’端的磷酸二酯键断裂，释放无碱基的脱氧核糖。

如前述，尽管本申请的技术方案是基于甲基化捕获测序文库中产出数据偏差而提出的，但本申请的文库构建方法并不局限于甲基化捕获测序文库。其所针对的待环化的文库既可以是捕获后的待测序的文库，也可以是全基因组待测序文库。即上述带有接头序列的文库可以为杂交洗脱后的带接头序列的文库，也可以为带有接头序列的全基因组文库；优选地，带有接头序列的文库为甲基化杂捕获交洗脱后的带接头序列的文库。

在一种优选的实施例中，在得到带缺口的双链环化文库之后，该文库构建方法还包括：利用外切酶对带缺口的双链环化文库进行酶切，得到单链环化文库。在得到上述带缺口的双链环化文库之后，根据MGI测序平台的测序流程，可以利用缺口位置的存在，采用外切酶对带缺口的单链进行酶切，从而获得了单链环化文库。后续测序流程即与MGI测序平台兼容，按照MGI测序平台流程操作即可。

根据本申请第二种典型的实施方式中，提供了一种基于MGI平台的DNA纳米球的制备方法，该制备方法包括：利用上述任一种文库构建方法构建得到带缺口的双链环化文库；将带缺口的双链环化文库制备成DNA纳米球。

如前述，MGI测序平台的测序步骤是先构建单链环化文库，然后将单链环化文库制备成DNA纳米球，最后将DNA纳米球加载到测序芯片阵列上进行测序。因此，基于本申请的上述文库构建方法得到的带缺口的双链环化文库，也可以制备成DNA纳米球后进行MGI平台测序。

具体地，将带缺口的双链环化文库制备成DNA纳米球的操作方式不限，可以按照单链环化文库的步骤进行，也可以按改进的方式进行。

在一种优选的实施例中，将带缺口的双链环化文库制备成DNA纳米球包括：利用外切酶对带缺口的双链环化文库进行酶切，得到单链环化文库；对单链环化文库进行滚环复制，得到DNA纳米球；优选地，外切酶包括Exo I和Exo III。此方法即是采用MGI平台目前DNA纳米球的制备流程进行制备，先得到单链环化文库，然后再滚环复制即可。

在一种优选的实施例中，将带缺口的双链环化文库制备成DNA纳米球包括：以带缺口的双链环化文库中带缺口的单链环化文库作为引物，对另一条单链环化文库进行滚环复制，得到DNA纳米球。在该优选实施例中，将缺口作为引物进行延伸，直接滚环复制即可获得DNA纳米球。

根据本申请第三种典型的实施方式中，提供了一种基于MGI平台的测序方法，该测序方法包括：按照上述任一种制备方法将待测序文库制备成DNA纳米球；将DNA纳米球加载到测序芯片阵列上进行测序。按照本申请的方法进行测序能够减少GC含量高低不同导致的数据产出偏差。

根据本申请第四种典型的实施方式中，提供了一种测序试剂，测序试剂包括上述任一种文库构建方法中的双链环化扩增引物，或者上述任一种文库构建方法所构建的带缺口的双链环化文库，或者上述任一种制备方法制备成DNA纳米球。通过含有上述双链环化扩增引物，能够将待测序的文库进行双链环化后，根据需要构建成文库上机测序，且不因碱基组成的差异导致测序产出数据产生偏差。

下面结合具体实施例进一步说明本申请的有益效果。还需要说明的是，以下实施例仅是示例性说明，并不限定本申请的方法仅能采用如下方法。

实施例1

本实施例针对MGI测序仪的单端或双端接头文库杂交洗脱后的文件，使用能够进行单链或双链环化的引物进行PCR富集(按图4所示流程)，其扩增产物可以进行双链环化操作，并且该实施例最终环化产物为单链环(如图5所示)，能够兼容华大测序平台正常DNB制备流程(如图2B所示)。

1双链环化扩增引物进行MGI杂交洗脱文库PCR扩增

杂交洗脱步骤：参考纳昂达DNA文库杂交捕获(MGI平台)操作指南(货号：1005102)，得到杂交洗脱文库后，按照表1进行扩增反应体系配置：

表1：

其中，双链环化扩增引物mix的结构如图7所示，具体序列如下：

模板链序列为：ATGCCUCTCAGTACGTCAGCAGTT(SEQ ID NO：4)；

非模板链序列为：AGGCAUGGCGACCTTAUCAG(SEQ ID NO：5)。

混合均匀后，PCR反应条件如表2：

表2：

2磁珠纯化

反应完成后使用60μL

SP Beads进行纯化，22μL TE缓冲液溶解回收产物。取1μL回收产物，用Qubit dsDNA HS分析试剂盒(Invitrogen)定量产物浓度。进行下一步反应。

3双链环化

3.1酶切

取一定量的步骤1的PCR产物做为双链环化的模板。按表3进行反应体系配置：

表3：

组分	用量
		PCR产物	补TE至44μL
10X CutSmart Buffer(NEB)	5μL
		USER Enzyme(NEB)	1μL
总体积	50μL

在PCR仪上反应，反应条件如表4：

表4：

37℃	30min	1个循环
			4℃	保持	/

3.2环化

在酶切产物中添加如表5的反应体系，进行双链环化反应。环化后的结果如图8所示。

表5：

组分	用量
		TE	32μL
Ligation buffer(Enzymatics)	175μL
		T4 DNA Ligase(Rapid)(Enzymatics)	05μL
总体积	100μL

在PCR仪上反应，反应条件如表6：

表6：

37℃	30min	1个循环
			4℃	保持	/

3.3消化

在环化产物中添加如表7的反应体系，进行消化反应。

表7：

组分	用量
		Exo I(Enzymatics)	1μL
Exo III(Enzymatics)	1μL
		总体积	102μL

在PCR仪上反应，反应条件如表8：

表8：

37℃	30min	1个循环
			4℃	保持	/

3.4磁珠纯化

反应完成后使用200μL

SP Beads进行纯化，42μL TE缓冲液溶解回收产物。取1μL回收产物，用Qubit ssDNA HS分析试剂盒(Invitrogen)定量环化产物浓度。

本实施例进行双链环化的是甲基化捕获文库，使用的初始文库总量80ng(03pmol)，按本实施例的方法得到的单链环化产物总量16ng，环化效率40％(初始投入文库的量按单链40ng算，16/40＝40％)，该产物进行普通DNB制备后进行上机测序。

实施例2：

本实施例，对MGI单端/双端接头文库杂交洗脱后的初始文库，采用双链环化扩增引物进行PCR富集(按图4所示)，然后对扩增富集产物进行双链环化操作。该实施例最终的环化产物为双链环(如图6所示)，进行特殊DNB制备流程后进行上机测序。

1双链环化扩增引物进行MGI杂交洗脱文库PCR扩增

杂交洗脱步骤：参考纳昂达DNA文库杂交捕获(MGI平台)操作指南，得到杂交洗脱文库后，按照表9进行扩增反应体系配置：

表9：

其中，双链环化扩增引物mix的结构如图9所示。具体序列如下：

模板链：ACUCTCAGTACGTCAGCAGTT(SEQ ID NO：6)，

非模板链：AGUGCAUGGCGACCTTATCAG(SEQ ID NO：7)。

混合均匀后，PCR反应条件如表10：

表10：

2磁珠纯化

反应完成后使用60μL

3双链环化

3.1酶切

取一定量的步骤1的PCR产物做为双链环化的模板。按表11进行反应体系配置：

表11：

在PCR仪上反应，反应条件如表12：

表12：

37℃	30min	1个循环
			4℃	保持	/

3.2环化

在酶切产物中添加如表13的反应体系，进行双链环化反应。环化后的结果如图10所示。

表13：

在PCR仪上反应，反应条件如表14：

表14：

37℃	30min	1个循环
			4℃	保持	/

3.3双链环化产物磁珠纯化

反应完成后使用200μL

SP Beads进行纯化，42μL TE缓冲液溶解回收产物。取1μL回收产物，用Qubit dsDNA HS分析试剂盒(Invitrogen)定量环化产物浓度。

3.4双链环化产物DNB制备

实施例2的双链环化产物其中一条链含有一个碱基的缺刻，链置换酶可以以此位置为起点进行链置换扩增，其扩增产物与单链环状产物结合DNB引物后进行链置换扩增相同，双链环化DNB制备反应体系如表15：

表15：

组分	用量
		双链环化产物(40fmol)	补TE至40μL
DNB聚合酶混合液I(MGI)	40μL
		DNB聚合酶混合液II(LC)(MGI)	4μL
总体积	84μL

在PCR仪上反应，反应条件如表16：

表16：

30℃	25min	1个循环
			4℃	保持	/

当PCR仪温度达到4℃后立即加入20μL DNB终止液，用阔口吸头缓慢吹打混匀5-8次，之后按MGI后续流程进行测序。

利用实施例2的双链环化文库构建方法及现有的单链环化方法构建了甲基化混样比例为10％的测序文库，如图11所示，本申请的环化文库构建方法很好地解决了在单链环化时引物的测序占比偏差问题。在10％的甲基化混比样本中，单链环化方式测序产出19％的数据，本发明的双链环化产出的数据是11％，更接近真实的占比。可见，本申请通过双链环化弥补了单链环化导致的不同GC含量区域的数据偏差。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

序列表

<110> 纳昂达（南京）生物科技有限公司

<120> 基于双链环化的文库构建方法及其在测序中的应用

<130> PN154954NAGD

<160> 7

<170> SIPOSequenceListing 1.0

<210> 1

<211> 21

<212> DNA/RNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (5)..(5)

<223> 模板链的RNA碱基

<220>

<221> misc_feature

<222> (1)..(21)

<223> 所有n为a、t、c或g

<400> 1

annnunnnnn nnnnnnnnnn n 21

<210> 2

<211> 23

<212> DNA/RNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (6)..(21)

<223> 第6和21位为非模板链的RNA碱基

<220>

<221> misc_feature

<222> (1)..(23)

<223> 所有n为a、t、c或g

<400> 2

annnunnnnn nnnnnnnnnn unn 23

<210> 3

<211> 23

<212> DNA/RNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (6)..(8)

<223> 第6和8位为非模板链的RNA碱基

<220>

<221> misc_feature

<222> (1)..(23)

<223> 所有n为a、t、c或g

<400> 3

annnununnn nnnnnnnnnn nnn 23

<210> 4

<211> 24

<212> DNA/RNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (6)..(6)

<223> 第6位为模板链的RNA碱基

<400> 4

atgccuctca gtacgtcagc agtt 24

<210> 5

<211> 20

<212> DNA/RNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (6)..(17)

<223> 第6和17位是非模板链的RNA碱基

<400> 5

aggcauggcg accttaucag 20

<210> 6

<211> 21

<212> DNA/RNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (3)..(3)

<223> 第3位为模板链的RNA碱基

<400> 6

acuctcagta cgtcagcagt t 21

<210> 7

<211> 21

<212> DNA/RNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (3)..(7)

<223> 第3和7位为非模板链的RNA碱基

<400> 7

agugcauggc gaccttatca g 21

Claims

1.一种基于双链环化的文库构建方法，其特征在于，所述文库构建方法包括：

采用双链环化扩增引物对带有接头序列的文库进行PCR扩增，得到扩增产物，其中，所述双链环化扩增引物为一对带有RNA碱基的文库扩增引物；

对所述扩增产物中的所述RNA碱基进行酶切，得到双链酶切产物，所述双链酶切产物的两端为凸出的互补结构；

利用两端的所述凸出的互补结构，对所述双链酶切产物进行环化，得到带缺口的双链环化文库。

2.根据权利要求1所述的文库构建方法，其特征在于，所述双链环化扩增引物包括模板链和非模板链，所述模板链含有1个RNA碱基，所述非模板链含有2个RNA碱基；

优选地，所述模板链的1个所述RNA碱基位于5’端起始的第2-8位上；

优选地，所述非模板链的2个所述RNA碱基均位于5’端，更优选位于5’端起始的第2-8位上；或者，所述模板链的2个所述RNA碱基中一个位于5’端，另一个位于3’端，更优选地，位于5’端和位于3’端的2个所述RNA碱基中间间隔至少10个碱基的距离；

优选地，所述模板链的序列为：AN1N2N3UNNNNNNNNNNNNNNNN；所述非模板链为：AN4N5N6UNNNNNNNNNNNNNNNUNN或AN7N8N9UNUNNNNNNNNNNNNNNNN，其中，N1与N6或N9互补，N2与N5或N8互补，N3与N4或N7互补；

优选地，所述模板链的序列为：ATGCCUCTCAGTACGTCAGCAGTT；所述非模板链的序列为AGGCAUGGCGACCTTAUCAG；或者，所述模板链的序列为：ACUCTCAGTACGTCAGCAGTT，所述非模板链的序列：AGUGCAUGGCGACCTTATCAG。

3.根据权利要求2所述的文库构建方法，其特征在于，所述双链环化扩增引物中的RNA碱基为U，采用USER酶对所述扩增产物中的所述RNA碱基进行酶切，得到双链酶切产物。

4.根据权利要求1至3中任一项所述的文库构建方法，其特征在于，所述带有接头序列的文库为杂交洗脱后的带接头序列的文库，或者为带有接头序列的全基因组文库；

优选地，所述带有接头序列的文库为甲基化杂捕获交洗脱后的带接头序列的文库。

5.根据权利要求4所述的文库构建方法，其特征在于，在得到所述带缺口的双链环化文库之后，所述文库构建方法还包括：利用外切酶对所述带缺口的双链环化文库进行酶切，得到单链环化文库。

6.一种基于MGI平台的DNA纳米球的制备方法，其特征在于，所述制备方法包括：

利用权利要求1至4中任一项所述的文库构建方法构建得到带缺口的双链环化文库；将所述带缺口的双链环化文库制备成DNA纳米球。

7.根据权利要求6所述的制备方法，其特征在于，将所述带缺口的双链环化文库制备成DNA纳米球包括：

利用外切酶对所述带缺口的双链环化文库进行酶切，得到单链环化文库；

对所述单链环化文库进行滚环复制，得到所述DNA纳米球；

优选地，所述外切酶包括Exo I和Exo III。

8.根据权利要求6所述的制备方法，其特征在于，将所述带缺口的双链环化文库制备成DNA纳米球包括：

以所述带缺口的双链环化文库中带缺口的单链环化文库作为引物，对另一条单链环化文库进行滚环复制，得到所述DNA纳米球。

9.一种基于MGI平台的测序方法，其特征在于，所述测序方法包括：

按照权利要求6至8中任一项所述的制备方法将待测序文库制备成DNA纳米球；

将所述DNA纳米球加载到测序芯片阵列上进行测序。

10.一种测序试剂，其特征在于，所述测序试剂包括权利要求1至3中任一项所述的文库构建方法中的所述双链环化扩增引物，或者权利要求1至5中任一项所述的文库构建方法所构建的所述带缺口的双链环化文库，或者权利要求6至8中任一项所述的制备方法制备成的DNA纳米球。