CN116813800B

CN116813800B - 一种双链dna结合蛋白-转座酶融合蛋白及文库构建方法

Info

Publication number: CN116813800B
Application number: CN202310829608.4A
Authority: CN
Inventors: 易文洋; 江明扬; 瞿志鹏; 曹林; 朱涵雪; 李玉东; 徐琴
Original assignee: Nanjing Novozan Biotechnology Co ltd
Current assignee: Nanjing Novozan Biotechnology Co ltd
Priority date: 2023-07-07
Filing date: 2023-07-07
Publication date: 2024-03-12
Anticipated expiration: 2043-07-07
Also published as: CN116813800A

Abstract

本申请提供了一种包含双链DNA结合蛋白‑转座酶融合蛋白以及文库构建方法，属于生物技术领域。本申请的融合蛋白能够有效提高转座酶对DNA的亲和性，改善转座酶的GC偏好以及GC抖动，并且增加对微量病原微生物核酸的捕获能力。

Description

一种双链DNA结合蛋白-转座酶融合蛋白及文库构建方法

技术领域

本申请涉及生物技术领域，具体涉及一种双链DNA结合蛋白-转座酶融合蛋白及文库构建方法。

背景技术

二代基因测序目前在各行各业中已经有了广泛用途，一个DNA分子需要被打断成适当大小并加上与测序仪和测序引物相匹配的测序接头才能进行后续的二代基因测序。对DNA分子进行打断和加接头的过程成为文库构建，常规的构建方法有例如机械法打断，片段化酶打断和TN5转座酶打断(图1)。其中TN5转座酶法建库具有操作方便短，实验流程短等优势。但是由于TN5本身具有一定的GC偏好性，导致目前的TN5转座酶建库方式对不同GC含量的核酸具有一定的偏好性，最后导致NGS文库出现GC含量偏好，在mNGS病原检出应用领域表现出部分病原微生物检出效率低的现象(Kia,A.,et al.Improved genome sequencingusing an engineered transposase.BMC Biotechnology,2017,17(1).；Li,N.,et al.Tn5Transposase Applied in Genomics Research.International Journal of MolecularSciences,2020,21(21),8329.)。

发明内容

本申请的目的在于提供一种双链DNA结合蛋白-转座酶融合蛋白以及文库构建方法，其能够显著提高转座酶对DNA片段的亲和性，改善转座酶的GC偏好以及GC抖动，提高文库构建过程中对于微量核酸的捕获效率。

本申请的第一方面提供一种双链DNA结合蛋白-转座酶融合蛋白，所述融合蛋白包括双链DNA结合蛋白和转座酶，所述双链DNA结合蛋白是Sso7d，cTF，P50，PprA中的一种或多种。

在一些实施方案中，所述双链DNA结合蛋白与所述转座酶N端连接。

在一些实施方案中，所述融合蛋白还包括功能性氨基酸序列，所述功能性氨基酸序列位于所述融合蛋白的N端或C端，所述功能性氨基酸序列为组氨酸标签或GST标签。

在一些实施方案中，所述转座酶是TN5转座酶，所述TN5转座酶是本领域已知的任何TN5转座酶或其活性突变体。

在一些实施方案中，所述转座酶的氨基酸序列是SEQ ID NO.6。

在一些实施方案中，所述双链DNA结合蛋白是Sso7d，所述融合蛋白的序列是SEQID NO.2。

在一些实施方案中，当所述双链DNA结合蛋白是PprA时，所述融合蛋白的序列是SEQ ID NO.3；当所述双链DNA结合蛋白是cTF时，所述融合蛋白的序列是SEQ ID NO.4；当所述双链DNA结合蛋白是P50时，所述融合蛋白的序列是SEQ ID NO.5。

在一些实施方案中，所述Sso7d蛋白的序列是SEQ ID NO.1，所述PprA蛋白的序列是SEQ ID NO.7；所述cTF蛋白的序列是SEQ ID NO.8；所述P50蛋白的序列是SEQ ID NO.9。

在一些实施方案中，所述融合蛋白还包括蛋白连接肽(linker)序列，其将所述双链结合蛋白与所述转座酶的N端连接。

本申请的第二方面提供一种转座酶复合物，所述转座酶复合物包括第一方面所述的双链DNA结合蛋白-转座酶融合蛋白和转座子。

在一些实施方案中，所述转座子包含转座酶识别核心序列，所述转座酶识别核心序列是例如OE序列或ME序列。

在一些实施方案中，所述转座子还包括标签序列，所述标签序列是单链或双链，所述标签序列可以是一种、两种或多种。

在一些实施方案中，所述双链DNA结合蛋白-转座酶融合蛋白结合到所述转座子，形成转座酶复合物。

在一些实施方案中，两个所述转座酶复合物之间发生联会，末端相互作用而二聚体化，形成由一个二聚体蛋白质和两分子转座子组成的联会转座酶复合物，所述两分子转座子中含有相同或不同的标签序列。

本申请的第三方面提供第一方面所述融合蛋白的编码核苷酸。

本申请的第四方面提供包含第三方面所述编码核苷酸的表达载体。

本申请的第五方面提供包含第四方面所述表达载体的宿主细胞。

本申请的第六方面提供一种核酸文库构建方法，所述方法包括：

(1)收集生物样本，与第二方面所述的转座酶复合物孵育，获得片段化的核酸；

(2)任选地，纯化片段化的核酸；

(3)加入带有接头序列的引物，通过PCR扩增得到带有接头的核酸片段；

(4)任选地，对扩增产物进行纯化。

在一些实施方案中，所述生物样本是DNA，或DNA-RNA杂合链，或DNA和DNA-RNA杂合链的混合物。

在一些实施方案中，所述DNA，或所述DNA-RNA杂合链，或所述DNA和DNA-RNA杂合链的混合物在步骤(1)体系中的浓度为0.01-10ng/μl，优选0.1-10ng/μl，更优选0.1-5ng/μl，包括所述范围内的0.1ng/μl、0.2ng/μl、0.3ng/μl、0.4ng/μl、0.5ng/μl、0.6ng/μl、0.7ng/μl、0.8ng/μl、0.9ng/μl、1ng/μl、1.5ng/μl、2ng/μl、2.5ng/μl、3ng/μl、3.5ng/μl、4ng/μl、4.5ng/μl和5ng/μl。

在一些实施例中，所述引物包括带有第一接头序列的第一引物和带有第二接头序列的第二引物。

在一些实施方案中，所述接头序列是当前或将来测序平台(包括但不限于iontorrent平台、illumina平台和华大平台)使用的测序基质相关序列。

在一些实施方案中，所述第一接头序列是Illumina平台的P5接头序列，所述第二接头序列是Illumina平台的P7接头序列，反之亦然。

在一些实施方案中，所述第一接头序列是ion torrent平台的P1衔接头序列，所述第二接头序列是ion torrent平台的A衔接头，反之亦然。

在一些实施方案中，所述第一接头序列是MGI平台的单端标签建库上游夹板序列，所述第二接头序列是MGI平台的单端标签建库下游夹板序列，反之亦然。在一些实施方案中，所述第一接头序列是MGI平台的双端标签建库上游夹板序列，所述第二接头序列是MGI平台的双端标签建库下游夹板序列，反之亦然。

在一些实施方案中，所述引物还包括索引序列(index)。在一些实施方案中，所述索引序列为例如6-8个碱基，优选8个。

在一些实施方案中，所述引物还包括与所述标签序列互补的序列。

在一些实施方案中，所述引物还包括与转座酶识别核心序列相同或互补的序列。在一些实施方案中，所述第一引物是N5引物，所述第二引物是N7引物，反之亦然。

在一些实施方案中，所述方法还包括终止转座酶复合物孵育的步骤，例如使转座酶失活，例如加入EDTA。

在一些实施方案中，所述纯化步骤中采用磁珠法、高盐沉淀法、离心柱法或酚氯仿抽提法，优选磁珠法。

在一些实施方案中，所述步骤(1)中转座酶复合物在体系中的浓度是0.1-5μM，优选0.1-2μM，包括所述范围内的0.1μM，0.2μM，0.3μM，0.4μM，0.5μM，0.6μM，0.7μM，0.8μM，0.9μM，1μM，1.1μM，1.2μM，1.3μM，1.4μM，1.5μM，1.6μM，1.7μM，1.8μM，1.9μM和2μM。

在一些实施方案中，所述孵育条件是40-60℃孵育1-20min，优选50-60℃孵育10-20min，最优选55℃孵育10min。

本申请的第七方面提供一种试剂盒，所述试剂盒包含第一方面所述的融合蛋白。

在一些实施方案中，所述试剂盒用于实施本申请第六方面所述的方法。

在一些实施方案中，所述试剂盒还包含其他辅助检测试剂，所述辅助检测试剂包含选自如下试剂中的一种或多种：转座反应缓冲液、末端修复试剂、测序接头、连接反应缓冲液、纯化磁珠、DNA聚合酶、扩增缓冲液、扩增引物和无核酸酶水。

上述试剂可以根据情况任意合并。例如，扩增缓冲液、扩增引物可以混合为一个混合物；又例如，测序接头、纯化磁珠、纯化缓冲液、扩增引物、无核酸酶水可以存在或者不存在于试剂盒中，即外部提供。

本申请的第八方面提供第一方面所述的融合蛋白或第二方面所述的转座酶复合物在切割DNA中的应用。

本申请的第九方面提供第一方面所述的融合蛋白或第二方面所述的转座酶复合物在文库构建中的应用。

本申请实现了如下有益效果：

1.与Sso7d，cTF，P50，PprA等双链DNA结合蛋白进行融合，使得融合后的TN5酶对核酸的亲和性提升了100倍以上，病原微生物的检出率提升了20％，并明显改善了文库的GC偏好性(图3，图4，图8，图9)。

2.对TN5转座酶进行定向改造，与Sso7d，cTF，P50，PprA等双链DNA结合蛋白进行融合，通过Sso7d等配体蛋白引导TN5酶在基因组上进行切割，其具有同样优异的测序质量(图6A，图6B)，并且改善TN5自身建库的GC偏好性与GC抖动(图7，图8)。

3.定向改造后的Sso7d-TN5酶能够增加对微量病原微生物核酸的捕获能力(图9)。

附图说明

图1：机械法、片段化酶法以及TN5转座酶法建库原理对比；

图2：高亲和力Sso7d-TN5融合蛋白构建示意图；

图3：TN5转座酶和Sso7d-TN5酶对核酸的亲和力；

图4：不同浓度的Sso7d-TN5和TN5转座酶进行建库得到的文库浓度对比；

图5：不同浓度的Sso7d-TN5进行建库得到的文库长度分布图；

图6A：TN5转座酶和Sso7d-TN5转座酶文库基础测序质量对比图；

图6B：TN5转座酶和Sso7d-TN5转座酶文库测序指标，Mapping，duplicatecoverage柱状统计图；

图7：TN5转座酶和Sso7d-TN5转座酶文库前30reads GC抖动对比图；

图8：TN5转座酶和Sso7d-TN5转座酶文库测序数据GC偏好对比图；

图9：TN5转座酶和Sso7d-TN5转座酶病原检出对比；

图10：Sso7d-TN5、P50-TN5、cTF-TN5和PprA-TN5进行建库得到的文库浓度对比。

具体实施方式(实施例)

下面结合附图并通过具体实施方式来进一步说明本申请的技术方案，但下述的实例仅仅是本申请的简易例子，并不代表或限制本申请的权利保护范围，本申请的保护范围以权利要求书为准。

以下实施例中，若无特殊说明，所用试剂及耗材均购自本领域常规试剂厂商；若无特殊说明，所用实验方法和技术手段均为本领域常规的方法和手段。

实施例1

Sso7d-TN5表达质粒构建：

通过对TN5表达质粒(addgene：124601)进行EcoRI与HandIII双酶切后进行8000bp产物胶回收(Vaztyme#DC301)，记为回收产物1，对Sso7d核酸序列(对应氨基酸序列为SEQID NO.1：MATVKFKYKGEEKEVDISKIKKVWRVGKMISFTYDEGGGKTGRGAVSEKDAPKELLQMLEKQKK)进行基因合成(生工生物)后与上述酶切回收产物1进行连接(Vazyme#C113)，使用Vazyme#DC202转化提取后获得Sso7d-TN5表达质粒，后在大肠杆菌表达系统中进行蛋白纯化，获得Sso7d-TN5酶，具体序列为SEQ ID NO.2，结构示意图如图2所示。

SSO7d-TN5氨基酸序列，SEQ ID NO.2：

MATVKFKYKGEEKEVDISKIKKVWRVGKMISFTYDEGGGKTGRGAVSEKDAPKELLQMLEKQKK-MITSALHRAADWAKSVFSSAALGDPRRTARLVNVAAQLAKYSGKSITISSEGSKAMQEGAYRFIRNPNVSAEAIRKAGAMQTVKLAQEFPELLAIEDTTSLSYRHQVAEELGKLGSIQDKSRGWWVHSVLLLEATTFRTVGLLHQEWWMRPDDPADADEKESGKWLAAAATSRLRMGSMMSNVIAVCDREADIHAYLQDKLAHNERFVVRSKHPRKDVESGLYLYDHLKNQPELGGYQISIPQKGVVDKRGKRKNRPARKASLSLRSGRITLKQGNITLNAVLAEEINPPKGETPLKWLLLTSEPVESLAQALRVIDIYTHRWRIEEFHKAWKTGAGAERQRMEEPDNLERMVSILSFVAVRLLQLRESFTPPQALRAQGLLKEAEHVESQSAETVLTPDECQLLGYLDKGKRKRKEKAGSLQWAYMAIARLGGFMDSKRTGIASWGALWEGWEALQSKLDGFLAAKDLMAQGIK

同理，PprA-TN5蛋白的序列，SEQ ID NO.3：

MLPLAFLICSGHNKGSMARAKAKDQTDGIYAAFDTLMSTAGVDSQIAALAASEADAGTLDAALTQSLQEAQGRWGLGLHHLRHEARLTDDGDIEILTDGRPSARVSEGFGALAQAYAPMQALDERGLSQWAALGEGYRAPGDLPLAQLKVLIEHARDFETDWSAGRGETFQRVWRKGDTLFVEVARPASAEAALSDAAWDVIASIKDRAFQRELMRRSEKDGMLGALLGARHAGAKANLAQLPEAHFTVQAFVQTLSGAAARNAEEYRAALKTAAAALEEYQGVTTRQLSEVLRHGLRES-MITSALHRAADWAKSVFSSAALGDPRRTARLVNVAAQLAKYSGKSITISSEGSKAMQEGAYRFIRNPNVSAEAIRKAGAMQTVKLAQEFPELLAIEDTTSLSYRHQVAEELGKLGSIQDKSRGWWVHSVLLLEATTFRTVGLLHQEWWMRPDDPADADEKESGKWLAAAATSRLRMGSMMSNVIAVCDREADIHAYLQDKLAHNERFVVRSKHPRKDVESGLYLYDHLKNQPELGGYQISIPQKGVVDKRGKRKNRPARKASLSLRSGRITLKQGNITLNAVLAEEINPPKGETPLKWLLLTSEPVESLAQALRVIDIYTHRWRIEEFHKAWKTGAGAERQRMEEPDNLERMVSILSFVAVRLLQLRESFTPPQALRAQGLLKEAEHVESQSAETVLTPDECQLLGYLDKGKRKRKEKAGSLQWAYMAIARLGGFMDSKRTGIASWGALWEGWEALQSKLDGFLAAKDLMAQGIK

cTF-TN5蛋白的序列，SEQ ID NO.4：

MYSSPLCLTQDEFHPFIEALLPHVRAFAYTWFNLQARKRKYFKKHEKRMSKDEERAVKDELLGEKPEVKQKWASRLLAKLRKDIRPECREDFVLSITGKKAPGCVLSNPDQKGKMRRIDCLRQADKVWRLDLVMVILFKGIPLESTDGERLVKAAQCGHPVLCVQPHHIGVAVKELDLYLAYFVRERDAEQSGSPRTGMGSDQEDSKPITLDTTDFQESFVTSGVFSVTELIQVSRTPVVTGTGPNFSLGELQGHLAYDLNPASTGLRRTLPSTSSSGSKRHKSGSMEEDVDTSPGGDYYTSPSSPTSSSRNWTEDMEGGISSPVKKTEMDKSPFNSPSPQDSPRLSSFTQHHRPVIAVHSGIARSPHPSSALHFPTTSILPQTASTYFPHTAIRYPPHLNPQDPLKDLVSLACDPASQQPGPLNGSGQLKMPSHCLSAQMLAPPPPGLPRLALPPATKPATTSEGGATSPTSPSYSPPDTSPANRSFVGLGPRDPAGIYQAQSWYLG-MITSALHRAADWAKSVFSSAALGDPRRTARLVNVAAQLAKYSGKSITISSEGSKAMQEGAYRFIRNPNVSAEAIRKAGAMQTVKLAQEFPELLAIEDTTSLSYRHQVAEELGKLGSIQDKSRGWWVHSVLLLEATTFRTVGLLHQEWWMRPDDPADADEKESGKWLAAAATSRLRMGSMMSNVIAVCDREADIHAYLQDKLAHNERFVVRSKHPRKDVESGLYLYDHLKNQPELGGYQISIPQKGVVDKRGKRKNRPARKASLSLRSGRITLKQGNITLNAVLAEEINPPKGETPLKWLLLTSEPVESLAQALRVIDIYTHRWRIEEFHKAWKTGAGAERQRMEEPDNLERMVSILSFVAVRLLQLRESFTPPQALRAQGLLKEAEHVESQSAETVLTPDECQLLGYLDKGKRKRKEKAGSLQWAYMAIARLGGFMDSKRTGIASWGALWEGWEALQSKLDGFLAAKDLMAQGIK

P50-TN5蛋白的序列，SEQ ID NO.5：

MAPRARRRRPLFALLLLCALLARLQVALQIAPPCTSEKHYEHLGRCCNKCEPGKYMSSKCTTTSDSVCLPCGPDEYLDSWNEEDKCLLHKVCDTGKALVAVVAGNSTTPRRCACTAGYHWSQDCECCRRNTECAPGLGAQHPLQLNKDTVCKPCLAGYFSDAFSSTDKCRPWTNCTFLGKRVEHHGTEKSDAVCSSSLPARKPPNEPHVYLPGLIILLLFASVALVAAIIFGVCYRKKGKALTANLWHWINEACGRLSGDKESSGDSCVSTHTANFGQQGACEGVLLLTLEEKTFPEDMCYPDQGGVCQGTCVGGGPYAQGEDARMLSLVSKTEIEEDSFRQMPTEDEYMDRPSQPTDQLLFLTEPGSKSTPPFSEPLEVGENDSLSQCFTGTQSTVGSESCNCTEPLCRTDWTPMSSENYLQKEVDSGHCPHWAASPSPNWADVCTGCRNPPGEDCEPLVGSPKRGPLPQCAYGMGLPPEEEASRTEARDQPEDGADGRLPSSARAGAGSGSSPGGQSPASGNVTGNSNSTFISSGQVMNFKGDIIVVYVSQTSQEGAAAAAEPMGRPVQEETLARRDSFAGNGPRFPDPCGGPEGLREPEKASRPVQEQGGAKA-MITSALHRAADWAKSVFSSAALGDPRRTARLVNVAAQLAKYSGKSITISSEGSKAMQEGAYRFIRNPNVSAEAIRKAGAMQTVKLAQEFPELLAIEDTTSLSYRHQVAEELGKLGSIQDKSRGWWVHSVLLLEATTFRTVGLLHQEWWMRPDDPADADEKESGKWLAAAATSRLRMGSMMSNVIAVCDREADIHAYLQDKLAHNERFVVRSKHPRKDVESGLYLYDHLKNQPELGGYQISIPQKGVVDKRGKRKNRPARKASLSLRSGRITLKQGNITLNAVLAEEINPPKGETPLKWLLLTSEPVESLAQALRVIDIYTHRWRIEEFHKAWKTGAGAERQRMEEPDNLERMVSILSFVAVRLLQLRESFTPPQALRAQGLLKEAEHVESQSAETVLTPDECQLLGYLDKGKRKRKEKAGSLQWAYMAIARLGGFMDSKRTGIASWGALWEGWEALQSKLDGFLAAKDLMAQGIK

TN5蛋白的序列，SEQ ID NO.6

MITSALHRAADWAKSVFSSAALGDPRRTARLVNVAAQLAKYSGKSITISSEGSKAMQEGAYRFIRNPNVSAEAIRKAGAMQTVKLAQEFPELLAIEDTTSLSYRHQVAEELGKLGSIQDKSRGWWVHSVLLLEATTFRTVGLLHQEWWMRPDDPADADEKESGKWLAAAATSRLRMGSMMSNVIAVCDREADIHAYLQDKLAHNERFVVRSKHPRKDVESGLYLYDHLKNQPELGGYQISIPQKGVVDKRGKRKNRPARKASLSLRSGRITLKQGNITLNAVLAEEINPPKGETPLKWLLLTSEPVESLAQALRVIDIYTHRWRIEEFHKAWKTGAGAERQRMEEPDNLERMVSILSFVAVRLLQLRESFTPPQALRAQGLLKEAEHVESQSAETVLTPDECQLLGYLDKGKRKRKEKAGSLQWAYMAIARLGGFMDSKRTGIASWGALWEGWEALQSKLDGFLAAKDLMAQGIK

PprA蛋白的序列，SEQ ID NO.7：

MLPLAFLICSGHNKGSMARAKAKDQTDGIYAAFDTLMSTAGVDSQIAALAASEADAGTLDAALTQSLQEAQGRWGLGLHHLRHEARLTDDGDIEILTDGRPSARVSEGFGALAQAYAPMQALDERGLSQWAALGEGYRAPGDLPLAQLKVLIEHARDFETDWSAGRGETFQRVWRKGDTLFVEVARPASAEAALSDAAWDVIASIKDRAFQRELMRRSEKDGMLGALLGARHAGAKANLAQLPEAHFTVQAFVQTLSGAAARNAEEYRAALKTAAAALEEYQGVTTRQLSEVLRHGLRES

cTF蛋白的序列，SEQ ID NO.8：

MYSSPLCLTQDEFHPFIEALLPHVRAFAYTWFNLQARKRKYFKKHEKRMSKDEERAVKDELLGEKPEVKQKWASRLLAKLRKDIRPECREDFVLSITGKKAPGCVLSNPDQKGKMRRIDCLRQADKVWRLDLVMVILFKGIPLESTDGERLVKAAQCGHPVLCVQPHHIGVAVKELDLYLAYFVRERDAEQSGSPRTGMGSDQEDSKPITLDTTDFQESFVTSGVFSVTELIQVSRTPVVTGTGPNFSLGELQGHLAYDLNPASTGLRRTLPSTSSSGSKRHKSGSMEEDVDTSPGGDYYTSPSSPTSSSRNWTEDMEGGISSPVKKTEMDKSPFNSPSPQDSPRLSSFTQHHRPVIAVHSGIARSPHPSSALHFPTTSILPQTASTYFPHTAIRYPPHLNPQDPLKDLVSLACDPASQQPGPLNGSGQLKMPSHCLSAQMLAPPPPGLPRLALPPATKPATTSEGGATSPTSPSYSPPDTSPANRSFVGLGPRDPAGIYQAQSWYLG

P50蛋白的序列，SEQ ID NO.9：

MAPRARRRRPLFALLLLCALLARLQVALQIAPPCTSEKHYEHLGRCCNKCEPGKYMSSKCTTTSDSVCLPCGPDEYLDSWNEEDKCLLHKVCDTGKALVAVVAGNSTTPRRCACTAGYHWSQDCECCRRNTECAPGLGAQHPLQLNKDTVCKPCLAGYFSDAFSSTDKCRPWTNCTFLGKRVEHHGTEKSDAVCSSSLPARKPPNEPHVYLPGLIILLLFASVALVAAIIFGVCYRKKGKALTANLWHWINEACGRLSGDKESSGDSCVSTHTANFGQQGACEGVLLLTLEEKTFPEDMCYPDQGGVCQGTCVGGGPYAQGEDARMLSLVSKTEIEEDSFRQMPTEDEYMDRPSQPTDQLLFLTEPGSKSTPPFSEPLEVGENDSLSQCFTGTQSTVGSESCNCTEPLCRTDWTPMSSENYLQKEVDSGHCPHWAASPSPNWADVCTGCRNPPGEDCEPLVGSPKRGPLPQCAYGMGLPPEEEASRTEARDQPEDGADGRLPSSARAGAGSGSSPGGQSPASGNVTGNSNSTFISSGQVMNFKGDIIVVYVSQTSQEGAAAAAEPMGRPVQEETLARRDSFAGNGPRFPDPCGGPEGLREPEKASRPVQEQGGAKA

实施例2

对所获得的Sso7d-TN5、P50-TN5、cTF-TN5和PprA-TN5以及常规TN5酶(Vazyme#S601)进行核酸亲和力测定。

使用生物层干涉技术(Bio-layer Interferometry,BLI)对TN5和DNA的亲和力进行检测，它是一种高通量、实时、非标记、灵敏度高的生物分析技术，可以用于检测生物大分子之间的亲和力。其基本原理是将一种生物分子固定在生物膜表面，然后另一种生物分子通过与其结合，引起膜厚变化，进而影响光程差，利用干涉仪测量膜的光学性质变化，拟合得出解离常数值和结合常数值。当分子与固定在生物传感器表面上的配体结合时，引起光学层的厚度增加，表面化学和溶液接触界面反射光的路径长度比之前更长。这导致干涉光谱曲线发生改变，并向右产生位移。当分子和配体解离时，分子会从生物传感器表面解离到溶液中，这导致干涉光谱向左移动。以干涉光谱曲线的偏移距离(以nm为单位)与反应发生时间绘制的关系图被称为传感图。通过传感图可在各种结合模型的基础上拟合出Ka(结合常数)，Kd(解离常数)和KD(亲和力)的数值。通过公式：KD(亲和力)＝Kd(解离常数)/Ka(结合常数)，从而得到转座酶和DNA分子之间的亲和力值如图3所示。

如图3，kD(M)指示解离常数，值越低，表明亲和力越高；Response表示一定时间内，结合核酸的数量。结果显示，四种融合蛋白均能够有效提升TN5转座酶对核酸的亲和力，其中Sso7d-TN5相对于普通TN5酶对核酸的亲和力提升了3个数量级。

实施例3

Sso7d-TN5-转座子接头复合物以及TN5转座子接头复合物的制备

常规TN5酶的序列为SEQ ID NO.6，SSo7d-TN5酶为实施例1中的表达产物，均以500ng/μl浓度进行包埋，具体流程如下：

(1)接头(Adapter Mix)制备

在生工生物合成如下引物：primer A，primerB*和primer C*，使用PBS缓冲液溶解Primer A、Primer B*、Primer C*至10μM。具体序列如下：

SEQ ID NO.10：Primer A:5'-phos-CTGTCTCTTATACACATCT-NH₂-3'

SEQ ID NO.11：

Primer B*:5'-TCGTCGGCAGCGTCAGATGTGTATAAGAGACAG-3'

SEQ ID NO.12：

Primer C*:5'-GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG-3'

分别配制如下反应体系：

分别将反应1和反应2涡旋震荡充分混匀，并短暂离心使溶液回到管底。置于PCR仪内，进行如下反应程序：

热盖	On，105℃
		75℃	15min
60℃	10min
		50℃	10min
40℃	10min
		25℃	30min

反应结束后，将反应1和反应2等体积混合，混匀。命名为Adapter Mix。

(2)接头(Adapter Mix)包埋

随后在灭菌PCR管中依次添加各反应组分：

组分	2μg制备体系
		TN5/Sso7d-TN5(500ng/μl)	4μl
Adapter Mix	7μl
		PBS缓冲液	39μl
总计	50μl

使用移液器轻轻吹打20次充分混匀，并置于30℃反应1h，最终获得Sso7d-TN5以及TN5转座子复合物，-30～-15℃保存。

运用相同的方法制备cTF-TN5-转座子接头复合物、P50-TN5-转座子接头复合物和PprA-TN5-转座子接头复合物，其中cTF-TN5、P50-TN5和PprA-TN5均为实施例1中的表达产物。

实施例4

运用实施例3中制备的Sso7d-TN5-转座子接头复合物以及TN5转座子接头复合物进行NGS文库建库，建库流程按照Vazyme#TD502说明书进行，本实施例中的建库试剂若未特殊说明，均来自Vazyme#TD502。

室温解冻5×TTBL，上下颠倒混匀后备用。在灭菌PCR管中配制如下反应体系(其中样本为人血液DNA并掺入1％(质量百分比)病原标准品DNA(Zymo-D6322)的混合物)，设置Sso7d-TN5处理组的终浓度分别为0.4μM、0.5μM、0.6μM、0.7μM，TN5对照组的浓度为0.7μM，其中B1、K1分别为不同批次表达的TN5酶，模板DNA终浓度为0.2ng/μl：

组分	体积
		5×TTBL	5μl
DNA	5μl
		Sso7d-TN5或TN5	5μl
ddH₂O	To 20μl

使用移液器轻轻吹打20次充分混匀。

将反应管置于PCR仪中，运行如下反应程序：

热盖	105℃
		55℃	10min
10℃	Hold

反应完成后立即向产物中加入5μl 5×TS，使用移液器轻轻吹打充分混匀，置于室温放置5min后立即配置PCR体系并进行PCR反应。具体体系及反应如下：

组分	体积
		ddH₂O	4μl
片段化产物	25μl
		5×TAB	10μl
N5XX*(Vazyme#TD203)	5μl
		N7XX*(Vazyme#TD203)	5μl
TAE	1μl

吹打混匀后进行如下反应：

PCR产物纯化

涡旋振荡混匀DNA纯化磁珠(Vazyme#N411)并吸取25μl(0.5×)至上述PCR反应产物中，涡旋振荡或使用移液器吹打10次保证整个体系均匀，室温孵育5min。

将反应管短暂离心并置于磁力架上分离磁珠和液体，待溶液澄清后(约5min)，小心移去上清到新的离心管中，注意不要扰动磁珠。

吸取7.5μl(0.15×)至上述产物中，涡旋振荡或使用移液器吹打10次保证整个体系均匀，室温孵育5min。置于磁力架上待溶液澄清，去除上清。

保持离心管始终在磁力架上，加入200μl新鲜配制的80％乙醇漂洗磁珠，室温孵育30sec，小心移除上清。重复此步骤，总计漂洗两次。

保持离心管始终处于磁力架上，开盖空气干燥3-5min。

磁珠晾干后，将离心管从磁力架上取出，加入22μl灭菌超纯水洗脱，涡旋振荡或使用移液器吹打10次充分混匀磁珠，室温孵育5min。

将PCR管短暂离心收集置于磁力架上分离磁珠和液体，待溶液澄清后(约5min)小心吸取20μl上清转移到新的EP管中，-30～-15℃保存。

文库质量检测

对制备好的文库进行Qubit文库浓度测定，得到结果如图4所示。在Agilent 2100Bioanalyzer上对制备好的文库进行文库长度分布检测(或用2％琼脂糖凝胶电泳代替)，结果如图5所示。如图4，Sso7d-TN5仍然具有完整的DNA打断能力，Sso7d-TN5成功构建了二代测序文库，如图5，文库片段分布具有Sso7d-TN5剂量依赖，表明Sso7d配体并未对TN5本身功能造成影响。

二代测序

将Sso7d-TN5实验组(0.7μM)和TN5对照组(0.7μM)构建得到的文库分别稀释至5ng/μl，取15μl送至南京世和基因生物技术有限公司进行测序，测序仪器为HiseqX，对测序数据使用fastp进行数据质控，去除含N过多、测序质量值低、接头空载的测序reads，过滤后的高质量测序reads使用kraken2与数据库进行比对与分类得到结果如图6A-图6B、图7、图8和图9所示。

结果分析：如图6A-图6B所示，Sso7d-TN5文库基础测序质量与TN5一致，Sso7d-TN5并不会降低基础测序质量。如图7所示，Sso7d-TN5降低了TN5文库在Read4，Read9-13的GC抖动。如图8所示，Sso7d-TN5降低了TN5文库的GC偏好性。如图9所示，相较于TN5转座酶对照组，Sso7d-TN5对多种病原微生物的检出能力均有显著提高，平均提升了20％的病原微生物数检出。

实施例5

运用实施例3中制备的Sso7d-TN5-转座子接头复合物、cTF-TN5-转座子接头复合物、P50-TN5-转座子接头复合物和PprA-TN5-转座子接头复合物进行NGS文库建库，其中四种转座子接头复合物的投入量为0.4μM，具体建库流程和方法同实施例4。

对制备好的文库进行Qubit文库浓度测定，得到结果如图10所示。

如图10，经过Sso7d-TN5转座子接头复合物进行文库构建得到的文库浓度显著高于其他三种。

Claims

1.一种双链DNA结合蛋白-转座酶融合蛋白，所述融合蛋白包括双链DNA结合蛋白和转座酶，所述双链DNA结合蛋白是Sso7d，所述Sso7d的序列是SEQ ID NO.1，所述转座酶是TN5转座酶，所述TN5转座酶的序列是SEQ ID NO.6。

2.权利要求1所述的融合蛋白，所述融合蛋白的序列是SEQ ID NO.2。

3.权利要求1所述的融合蛋白，所述融合蛋白还包括功能性氨基酸序列，所述功能性氨基酸序列是组氨酸标签或GST标签。

4.权利要求1所述的融合蛋白，所述融合蛋白还包括蛋白连接肽（linker）序列。

5.一种转座酶复合物，所述转座酶复合物包括权利要求1-4任一项所述的双链DNA结合蛋白-转座酶融合蛋白和转座子。

6.权利要求5所述转座酶复合物，所述转座子包含转座酶识别核心序列。

7.权利要求6所述的转座酶复合物，所述转座酶识别核心序列是ME序列。

8.权利要求5所述转座酶复合物，所述转座子还包括标签序列，所述标签序列是单链或双链，所述标签序列是一种、两种或多种。

9.权利要求1-4任一项所述融合蛋白的编码核酸。

10.包含权利要求9所述编码核酸的表达载体。

11.包含权利要求10所述表达载体的宿主细胞。

12.一种核酸文库构建方法，所述方法包括如下步骤：

（1）收集生物样本，与权利要求5-8任一项所述的转座酶复合物孵育，获得片段化的核酸；

（2）加入带有接头序列的引物，通过PCR扩增得到带有接头的核酸片段；

（3）对扩增产物进行纯化。

13.权利要求12所述的方法，所述方法还包括在步骤（1）之后纯化片段化的核酸。

14.权利要求12所述的方法，所述生物样本是DNA，或DNA-RNA杂合链，或DNA和DNA-RNA杂合链的混合物。

15.权利要求12所述的方法，所述引物包括索引序列（index）。

16.权利要求15所述的方法，所述引物还包括与标签序列互补的序列，所述标签序列是单链或双链，所述标签序列是一种、两种或多种。

17.权利要求16所述的方法，所述引物还包括带有第一接头序列的第一引物和带有第二接头序列的第二引物。

18.权利要求17所述的方法，所述第一接头序列是Illumina平台的P5接头序列，所述第二接头序列是Illumina平台的P7接头序列。

19.权利要求17所述的方法，所述第一引物是N5引物，所述第二引物是N7引物。

20.权利要求12所述的方法，所述转座酶复合物在体系中的浓度是0.1-5μM。

21.权利要求20所述的方法，所述转座酶复合物在体系中的浓度是0.1-2μM。

22.权利要求12所述的方法，所述方法还包括终止转座酶复合物孵育的步骤。

23.权利要求22所述的方法，所述终止转座酶复合物孵育的步骤是加入EDTA。

24.一种试剂盒，所述试剂盒包含权利要求1-4任一项所述的融合蛋白。

25.权利要求1-4任一项所述融合蛋白或权利要求5-8任一项所述转座酶复合物在切割DNA中的应用。

26.权利要求1-4任一项所述融合蛋白或权利要求5-8任一项所述转座酶复合物在文库构建中的应用。