[go: up one dir, main page]

CN117802205A - 一种单细胞Hi-C文库构建方法 - Google Patents

一种单细胞Hi-C文库构建方法 Download PDF

Info

Publication number
CN117802205A
CN117802205A CN202410031542.9A CN202410031542A CN117802205A CN 117802205 A CN117802205 A CN 117802205A CN 202410031542 A CN202410031542 A CN 202410031542A CN 117802205 A CN117802205 A CN 117802205A
Authority
CN
China
Prior art keywords
sequencing
library
cell
dna
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410031542.9A
Other languages
English (en)
Other versions
CN117802205B (zh
Inventor
宋健
李小林
韦所苏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peoples Hospital of Guangxi Zhuang Autonomous Region
Original Assignee
Peoples Hospital of Guangxi Zhuang Autonomous Region
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peoples Hospital of Guangxi Zhuang Autonomous Region filed Critical Peoples Hospital of Guangxi Zhuang Autonomous Region
Priority to CN202410031542.9A priority Critical patent/CN117802205B/zh
Publication of CN117802205A publication Critical patent/CN117802205A/zh
Application granted granted Critical
Publication of CN117802205B publication Critical patent/CN117802205B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B40/00Libraries per se, e.g. arrays, mixtures
    • C40B40/04Libraries containing only organic compounds
    • C40B40/06Libraries containing nucleotides or polynucleotides, or derivatives thereof
    • C40B40/08Libraries containing RNA or DNA which encodes proteins, e.g. gene libraries
    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B50/00Methods of creating libraries, e.g. combinatorial synthesis
    • C40B50/06Biochemical methods, e.g. using enzymes or whole viable microorganisms

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Organic Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Analytical Chemistry (AREA)
  • Engineering & Computer Science (AREA)
  • Medicinal Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Microbiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • General Chemical & Material Sciences (AREA)
  • Biotechnology (AREA)
  • Immunology (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供一种单细胞Hi‑C文库构建方法,该方法包括:交联样本细胞内的DNA与蛋白质,酶切交联体中的DNA,加测序接头,重连DNA片段,分离单细胞,解交联,加带有细胞条码的文库接头,和文库扩增的步骤。通过本发明方法构建的单细胞Hi‑C文库,建库时间短,成本低,便于实验操作和有效数据比例高。

Description

一种单细胞Hi-C文库构建方法
技术领域
本发明涉及一种单细胞Hi-C文库构建方法,属于基因测序技术领域。
背景技术
染色质构象捕获(Chromatin conformation capture)是一种分子生物学技术,用于研究染色体内部三维结构的空间组织。它在揭示基因组三维结构、理解基因调控机制、研究疾病发生机制以及推动药物研发等方面具有重要的意义。从2002年Deker提出3C,随着研究水平的提升逐渐衍生出4C、5C、CHIA-PET、Hi-C、Capture Hi-C等技术。这些方法都在不同程度上揭示了染色体内部的三维结构和相互作用,为研究基因调控、基因组稳定性和疾病发生提供了重要的工具。
传统的Hi-C技术通常需要大量的细胞来获取足够的DNA片段进行分析。由于不同细胞之间的基因组结构存在差异,因此单细胞Hi-C技术应运而生。单细胞Hi-C技术能够揭示不同细胞之间的基因组结构差异,为研究细胞类型间的基因组结构差异、细胞发育和疾病中的细胞异质性提供了突破性的机会。然而,由于起源于Hi-C的单细胞Hi-C技术和Hi-C一样通常需要通过生物素调取重连片段,通常会存在建库周期长,成功率低的问题。并且,添加了生物素但未重连的片段会和重连片段一起被生物素调取,在之后的测序过程中被检测。未重连片段是与分析染色质的空间组织和结构无关的无效片段,被检测后会成为数据分析时的噪音数据,如dangling end(末端悬挂)等。因此,无效片段和噪音数据的比例一直是影响单细胞Hi-C技术检测成本和检测质量的重要因素。此外,单细胞Hi-C技术检测的是染色体经重连后的DNA片段,其重连位置并不确定,在对测序结果进行数据分析时,需要先寻找重连位点,否则无法与参考基因组进行序列比对,使得分析处理复杂耗时。
发明内容
鉴于上述现有技术中存在的不足,本发明的目的在于提供一种用时少、无效片段比例低且便于实验操作和分析的单细胞Hi-C文库构建方法。
本发明为解决上述问题进行了深入研究,结果发现:通过对单细胞Hi-C技术进行改进,使用特殊的测序接头,特别是设置有测序引物序列的测序接头,将测序接头插入在重连片段内部,使得只有含重连片段的分子才会被测序仪检测到,获得无效片段占比更低的文库。通过本发明的文库构建方法能够降低文库对样本起始量和测序量的要求,同时还能省去生物素标记和调取重连片段的步骤,缩短建库时间从整体上降低了单细胞Hi-C建库成本和检测成本,从而完成了本发明。通过采用本发明的单细胞Hi-C文库构建方法,可以实现建库时间短,成本低,有效数据比例高的单细胞Hi-C文库。
即,本发明包括,
1.一种单细胞Hi-C文库构建方法,该方法包括以下步骤:
交联:将样本细胞内的DNA与蛋白质交联,得到交联体;
酶切:酶切交联体中的DNA,得到交联的DNA片段;
加测序接头:将交联的DNA片段加测序接头,得到加测序接头的DNA片段,所述测序接头包括至少一段测序引物序列;
重连DNA片段:将加测序接头的DNA片段重新连接,得到交联的重连DNA片段。
分离单细胞;
解交联:将交联的重连DNA片段与蛋白质解交联,得到重连DNA片段;
加文库接头,所述文库接头包括第一文库结构序列和第二文库结构序列;
文库扩增:采用带有第一文库结构序列的引物和带有第二文库结构序列的引物,对加文库接头的DNA片段进行扩增,得到单细胞Hi-C文库。
2.根据项1所述单细胞Hi-C文库构建方法,所述加测序接头的DNA片段通过其带有的测序接头重新连接,所述重连DNA片段内部包括两个测序接头。
3.根据权利要求1所述单细胞Hi-C文库构建方法,所述测序接头的长度为10-40bp,优选为10-30bp,更优选为15-25bp。
4.根据项1所述单细胞Hi-C文库构建方法,所述测序接头由两条DNA单链组成,所述测序引物序列设置在3'端与所述交联的DNA片段相连接的单链上,所述测序引物序列设置在其所在单链的3'端。
5.根据项4所述单细胞Hi-C文库构建方法,所述设置测序引物序列的单链的5'端为突出的SEQ ID NO:1所示核苷酸序列,或,未设置测序引物序列的单链的3'端为突出的SEQ ID NO:1所示核苷酸序列,
SEQ ID NO:1:5'-N1……NmN'1……N'm-3',其中,N为A、T、C、G脱氧核糖核苷酸中的任意一种,N1……Nm与N'm……N'1为反向互补序列,m为1-4,优选的m为1-3,更优选的m为1-2,最优选的m为1。
6.根据项1所述单细胞Hi-C文库构建方法,其中,在酶切步骤后对交联的DNA片段进行末端修复和加A处理。
7.根据项6所述单细胞Hi-C文库构建方法,其中,设置测序引物序列的单链的3'端为突出的T。
8.根据项7所述单细胞Hi-C文库构建方法,所述测序接头由SEQ ID NO:2和SEQ IDNO:3所示核苷酸序列组成,
SEQ ID NO:2:5'-CGTGTGCTGTGACTGGAGT-3',
SEQ ID NO:3:5'-CTCCAGTCACAGCACA-3'。
9.根据项1所述单细胞Hi-C文库构建方法,其中,所述文库接头还包括细胞条码。
10.根据项9所述单细胞Hi-C文库构建方法,其中,所述细胞条码与所述第一文库结构序列直接相连。优选地,所述细胞条码设置在靠近重连DNA片段的一端。
11.根据项9所述单细胞Hi-C文库构建方法,所述细胞条码的长度为4-25bp,优选地6-10bp,更优选地8-16bp。
12.根据项1所述单细胞Hi-C文库构建方法,在解交联步骤后对重连DNA片段进行进行片段化和加A处理。
13.根据项1所述单细胞Hi-C文库构建方法,所述文库接头由SEQ ID NO:4和SEQID NO:5所示核苷酸序列组成,
SEQ ID NO:4:5'-GTGAAGATCTCGTATGCCGTCTTCTGCTTG-3',
SEQ ID NO:5:5'-AATGATACGGCGACCACCGAGATCTACAC-NN NNNNNNNN-CTTCACT-3'。
14.根据项1所述单细胞Hi-C文库构建方法,其中,所述加测序接头的步骤采用的试剂体系为:1x NEB T4 DNA ligase buffer,400,000U/mL NEB T4 DNA ligase,和0.1mM测序接头。
15.一种单细胞Hi-C文库,其通过项1-14任一项所述单细胞Hi-C文库构建方法获得,所述重连片段的内部包括两段测序引物序列,所述测序接头包括至少一段测序引物序列。
16.一种单细胞Hi-C文库的检测方法,其通过对项15所述单细胞Hi-C文库构建方法构建的单细胞Hi-C文库进行测序。其是将重连片段内部的测序引物序列作为测序起始点。
根据本发明的一个方面,提供一种单细胞Hi-C文库构建方法,该方法包括:交联样本细胞内的DNA与蛋白质,酶切交联体中的DNA,加测序接头,重连DNA片段,分离单细胞,解交联,加文库接头,和文库扩增的步骤。
在上述单细胞Hi-C文库构建方法中,
交联的步骤是将样本细胞内的DNA与蛋白质交联得到交联体。交联体能够保持DNA片段和相关蛋白质之间的物理相互作用。可以采用的交联试剂例如甲醛。
酶切的步骤是将交联体中的DNA进行酶切得到交联的DNA片段。酶切试剂可以采用限制性内切酶或非限制性内切酶。
加测序接头是将交联的DNA片段加测序接头得到加测序接头的DNA片段。所述测序接头包括至少一段测序引物序列。
接头通常为一段已知的短核苷酸序列,用于连接未知的测序片段,可以使测序产物与计算机系统建立联系。在本发明中,测序接头是包括与测序过程相关的核苷酸或核苷酸序列的接头。这些与测序过程相关的核苷酸或核苷酸序列可以是测序引物。测序引物是指在测序过程中,DNA合成起点的短核苷酸序列链。即,可以作为序列检测起点的核苷酸序列。例如,Illumina测序平台提供的read1或read2的测序引物等,其通常会被用作Illumina测序平台测序时DNA合成起点,即测序检测的起点。在本发明的具体实施方式中,测序引物序列可以是商品化的序列,例如,Illumina测序平台的read1或read2的测序引物序列等,也可以是根据测序需要定制的测序引物序列。
重连DNA片段的步骤是将交联的DNA片段重新连接得到交联的重连DNA片段。经过酶切的DNA片段被重新绑定。三维空间临近的DNA片段高概率的结合在一起,即可能存在相互作用关系的DNA片段被重新连接,从而使得检测是哪些片段之间有相互作用关系成为可能。在本发明中,重连片段经由加测序接头的DNA片段通过其添加的测序接头重新连接获得。得到的重连DNA片段内部通常包括两个测序接头。
分离单细胞核的步骤是将单个细胞或细胞核从大量样本细胞或细胞核中分离出来,并用于后续步骤的操作。通常采用流式细胞仪分选、显微镜下毛细管吸取、梯度稀释或直接稀释等方法。如,将样本细胞核以1个细胞每孔的浓度置于多孔板中,可以采用流式细胞仪分选、显微镜下毛细管吸取、梯度稀释或直接稀释到每孔液体量含一个细胞的浓度等方法。
解交联的步骤是将交联的重连DNA片段与蛋白质解交联得到重连DNA片段,即可能存在相互作用关系的DNA片段经过重新连接所获得的DNA片段,也即重连DNA片段。解交联可以采用含有蛋白酶K的试剂。
加文库接头的步骤是将重连DNA片段两端加文库接头。所述文库接头包括第一文库结构序列和第二文库结构序列。
在本发明中,文库接头是指在建库过程中在待测DNA片段两端加上能够与测序仪配合测序的一段核苷酸序列,是待测DNA片段与测序载体,如测序芯片(Flow cell)等,连接的重要桥梁。因为获取自生物样本的DNA,其结构本身存在不能直接在测序平台进行检测可能。为符合测序平台或测序芯片对测序片段结构的要求,通常需要对获取的DNA进行处理,使其形成符合测序平台或测序芯片要求的文库,然后再将制备好的文库上机测序。制备文库过程中所使用的接头称为文库接头。与本发明中采用的文库接头仅含有将待测DNA片段与测序载体连接的桥梁不同,现有技术通常采用的文库接头既包含了将待测DNA片段与测序载体连接的桥梁,也包含了检测文库插入片段的测序引物序列。
在本发明中,文库结构相关序列是指文库片段中除去未知的样本片段和测序引物序列外的其他序列。这些序列可以具有不同的功能。而具有相同功能的序列可以是一个或两个以上。不同的功能可以是用于例如,与测序平台或测序芯片关联,或标记样本的标签等,但不包含标记测序起始位点的功能。如Illumina测序平台提供的P5,P7,index1,index2序列,或与这些序列反向互补的序列等,其与Illumina测序平台或芯片相关联。例如,P5,P7序列,或其反向互补序列通常与Illumina测序芯片上设置的固定序列相匹配,是该平台测序时常用的关联序列。index序列可以用于区分不同的样本和实现多个样本的同时检测。在本发明的具体实施方式中,文库结构序列可以是商品化的序列,也可以是根据测序需要定制的序列。
在本发明中,所述所述第一和/或第二文库结构序列可以是文库结构序列的全部或部分的序列。其中,所述部分的第一和/或第二文库结构序列是指其长度与全部文库结构序列的长度成一定的比例。这个比例可以为1/3以上,优选为1/2以上,更优选为3/4以上,更优选为9/10以上,最优选为1。
文库扩增是采用带有第一文库结构序列的引物和带有第二文库结构序列的引物,对加文库接头的DNA片段进行扩增,得到单细胞Hi-C文库。
文库扩增采用的试剂可以选自DNA聚合酶,RNA聚合酶,DNA连接酶、RNA连接酶、引物和缓冲体系中的一种或两种以上。或者用于文库扩增的商品化试剂盒。
在本发明中,“第一”或“第二”的描述是为区别,如不同的测序接头、文库接头、文库结构序列或测序关联序列等在功能上相同或相近,但在结构或其他性质上有所区别的特征。测序接头、文库接头、文库结构序列和测序关联序列等特征如前述,在此不再赘述。
进一步地,在上述单细胞Hi-C文库构建方法中,加测序接头的DNA片段通过其带有的测序接头重新连接,所述重连DNA片段内部包括两个测序接头,即可能存在相互作用关系的DNA片段之间包含两个测序接头。
进一步地,在上述单细胞Hi-C文库构建方法中,所述测序接头由两条DNA单链组成,所述测序引物序列设置在3'端与所述交联的DNA片段相连接的单链上,所述测序引物序列设置在其所在单链的3'端。测序引物序列的长度为10-40bp,优选为10-30bp,更优选为15-25bp。测序引物序列的长度与其所在单链长度的比例为1/2以上,优选的比例为3/4以上,更优选地比例为4/5以上。测序引物序列可以是测序引物的全部或部分序列。其中,所述部分的测序引物序列是指其长度与全部测序引物的长度成一定的比例。这个比例可以为1/3以上,优选为1/2以上,更优选为3/4以上,更优选为9/10以上,最优选为1。
进一步地,在上述单细胞Hi-C文库构建方法中,所采用测序接头的优选长度为15-25bp,且在其长度范围内±10bp,优选±5bp,也能获得不错的实验结果。
进一步地,在上述文库构建方法中,所述测序引物序列设置在所述测序接头其中一条链的3'端。所述测序引物序列的长度与测序接头的长度的比例为1/3以上,优选的比例为1/2以上,更优选地比例为3/4以上,更优选地比例为9/10以上。
进一步地,在上述单细胞Hi-C文库构建方法中,可以对DNA片段加优选地测序接头。具体的,所述设置测序引物序列的单链的5'端为突出的SEQ ID NO:1所示核苷酸序列,或,未设置测序引物序列的单链的3'端为突出的SEQ ID NO:1所示核苷酸序列。SEQ ID NO:1:5'-N1…NmN'1…N'm-3',其中,N为A、T、C、G碱基脱氧核糖核苷酸中的任意一种,N1…Nm与N'm…N'1为反向互补序列,m为1-4,优选地m为3,更优选地m为2,最优选地m为1。所述加测序接头的DNA片段通过测序接头突出的SEQ ID NO:1相连接,成为重连片段。
进一步地,在上述单细胞Hi-C文库构建方法中,在酶切步骤后可以对交联的DNA片段进行末端修复和加A处理。末端修复是指将损坏或不完全的,如经过酶切处理或其他打断处理的,DNA片段的末端进行修补,使其末端都能够以双链形式存在,即平末端,而不存在单链的游离和核苷酸序列。加A通常是指对末端没有单链游离核苷酸序列的双链DNA片段的每条链的3'末端加上一个腺嘌呤(A)脱氧核糖核苷酸。
进一步地,在上述单细胞Hi-C文库构建方法中,可以对加A的DNA片段加优选地测序接头。优选地测序接头在设置测序引物序列的单链的3'端为一个突出的胸腺嘧啶(T)脱氧核糖核苷酸。这样的处理能够获得3'端为突出T的测序接头。采用3'端为突出的T测序接头能够使得测序接头与带有A尾的DNA片段顺利连接。
进一步地,在上述单细胞Hi-C文库构建方法中,对加A的DNA片段加优选地测序接头。优选地测序接头在未设置测序引物序列的单链的3'端不为A。这样可以有效避免接头间的互相连接。
进一步地,在上述单细胞Hi-C文库构建方法中,对加A的DNA片段加更优选地测序接头。测序接头可以采用SEQ ID NO:2和SEQ ID NO:3所示序列经退火处理的产物,
SEQ ID NO:2:5'-CGTGTGCTGTGACTGGAGT-3'
SEQ ID NO:3:5'-CTCCAGTCACAGCACA-3'。
在本发明中,测序引物序列可以采用Illumina测序平台提供的测序引物中的一种,例如read1或read2的测序引物序列。也可以采用根据样本或平台的特殊性选择其他定制化序列。
在本发明中,细胞条形码是指用于区分单个细胞的标记,其通过引入独特的DNA序列标记,可以对单个细胞进行标识和追踪。在上述单细胞Hi-C文库构建方法中,通过在文库接头中增加细胞条码,如SEQ ID NO:5中多个N组成的核苷酸序列,对单细胞进行标记,以便在数据分析过程中区分不同的单细胞。细胞条码可以采用约4-25bp的核苷酸序列。
进一步地,在上述单细胞Hi-C文库构建方法中,所述细胞条码与所述第一文库结构序列直接相连。优选地,细胞条码设置在靠近重连DNA片段的一端。例如,SEQ ID NO:5中细胞条码设置在第一文库结构序列的3'端。优选地细胞条码长度为6-20bp,更优选地8-16bp。
进一步地,在上述单细胞Hi-C文库构建方法中,在解交联步骤后对重连DNA片段进行进行片段化和加A处理。在文库构建中,片段化通常指将较长的DNA片段通过酶切等方法片段化成长度适宜测序仪的文库插入片段大小,优选地片段化为平均片段长度为200-1000bp,更优选地片段化为平均片段长度为300-800bp,最优选地片段化为平均片段长度为400-700bp,片段化可以采用的方法如,非限制性内切酶酶切,或超声打断等方式。加A处理的说明如上所述,在此不再赘述。
进一步地,在上述单细胞Hi-C文库构建方法中,文库接头是由SEQ ID NO:4和SEQID NO:5所示序列组成的,
SEQ ID NO:4:5'-GTGAAGATCTCGTATGCCGTCTTCTGCTTG-3',
SEQ ID NO:5:5'-AATGATACGGCGACCACCGAGATCTACAC-NNNNNN-CTTCACT-3'。
进一步地,在上述单细胞Hi-C文库构建方法中,连接测序接头可以使用试剂,如T4DNA连接酶,T4 DNA连接酶缓冲液等。连接测序接头可以采用试剂体系:1x NEB T4 DNAligase buffer,400,000U/mL NEB T4 DNA ligase,和0.1mM测序接头。
进一步地,在上述单细胞Hi-C文库构建方法中,连接文库接头可以使用试剂,如T4DNA连接酶,T4 DNA连接酶缓冲液等。连接文库接头可以采用试剂体系:10x NEB T4 DNAligase buffer,400,000U/mL NEB T4DNA ligase,和0.1mM文库接头。
进一步地,在上述单细胞Hi-C文库构建方法中,文库扩增可以采用PCR用试剂比如NEB Q5高保真聚合酶、KAPA HiFi Hot Start Ready Mix。
根据本发明的另一方面,还提供了一种单细胞Hi-C文库,其通过上述文库构建方法获得。所述重连片段的内部包括两个测序接头。所述测序接头包括一段测序引物序列。两个测序接头通过SEQ ID NO:1反向互补配对而插入在两段具有空间相互作用的DNA片段之间。即重连片段的内部包括两个测序接头。
根据本发明的另一方面,还提供了一种单细胞Hi-C文库的检测方法,其通过对上述单细胞Hi-C文库进行测序,从重连片段内部的两个测序引物序列分别向重连片段两端进行检测。即测序引物序列从加测序接头的DNA片段的内部为测序起始点读取序列,而不是从重连片段两端为测序起始点读取序列。
在本发明中,经过加测序接头的操作可以使交联的DNA片段连接上带有特殊序列的测序接头,之后的重连步骤使得被相关联蛋白质交联的DNA片段通过测序接头相连接。测序接头成为连接酶切DNA片段的桥梁。这样的连接方式能够使得重连DNA片段在重连位置插入了两个测序接头。只有含两个测序接头的重连片段才能够被测序仪在双端测序中检测到,从而降低了无效片段进入文库和测序的比例。同时,因为测序起始点(如测序引物)位于两条重连DNA片段之间,在进行双端测序的时候每端只会读取两条重连DNA片段中的一条,在与参考基因组序列比对的时候可以直接比对,节省分析时间。
本发明的方法通过在片段重连处理之前为DNA片段连接特殊的测序接头及其他多步优化,使得本发明的方法更为便捷,无需进行生物素调取,并且文库的有效片段占比大幅度提高。同时,与现有单细胞Hi-C方法相比,本发明的方法能降低建库成本,缩短建库时间。即与现有技术相比,本发明实现了一种用时少、成本低、无效片段占比低且便于实验操作和分析的单细胞Hi-C文库构建方法。
附图说明
图1是实施例1的文库片段结构示意图。
其中,1-互作DNA片段1,2-互作DNA片段2,3-测序接头,4-第一文库结构序列及其互补序列,5-第二文库结构序列及其互补序列,6-细胞条码及其互补序列,7-箭头表示测序方向。
发明的具体实施方式
实施例
以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例是用于解释本发明,并非对本发明的限定。
实施例1一例单细胞Hi-C文库构建方法
(一)文库构建
1.染色质交联
收集100万个E14小鼠巨噬细胞株RAW264.7细胞(样本1),400G离心5分钟,去除上清。细胞重悬于2毫升PBS,加入54μL 37%的福尔马林,使甲醛终浓度为1%。10分钟加入预冷谷氨酸至终浓度130mM终止交联。3000G离心5分钟,去除上清,使用1mL的PBS重悬细胞核。
2.酶切、末端修复和加腺嘌呤核苷酸(A)
3000G离心5分钟,去除上清。重悬细胞核于48μL 1x NEBbuffer DpnII,加0.5μL50,000unites/mL的NEB DpnII Enzymne,0.5μL 5,000U/mL的NEB Tag DNA聚合酶和1μL10nM的dNTP混匀。37摄氏度孵育15分钟酶切,65摄氏度孵育30分钟进行末端修复和加A。3000G离心5分钟,去除上清,使用1mL的PBS重悬细胞核。
3.连接测序接头
3000G离心5分钟,去除上清。重悬细胞核于42μL1x NEB T4 DNA ligase buffer。加5μL 400,000U/mL的NEB T4 DNA ligase,3μL 0.1mM的测序接头(由SEQ ID NO:2和SEQID NO:3所示寡核苷酸序列梯度退火制备)。22摄氏度孵育1小时。3000G离心5分钟,去除上清,使用1ml的PBS重悬细胞核。
其中,测序引物序列为SEQ ID NO:8,设置在SEQ ID NO:2。即在本实施例中将SEQID NO:1设计为CG,位于SEQ ID NO:2。
4.DNA片段重连接
配置如下反应液:10μL10x NEB T4 DNA ligase buffer,2.5μL 100mM的EGTA,2μL10,000Units/mL的NEB T4 Polynucleotide Kinase,10μL400,000U/mL的NEB T4 DNAligase,加水补齐至100μL。将上步产物3000G离心5分钟,去除上清。使用100μL反应液重悬细胞核,37摄氏度孵育20分钟,然后22摄氏度孵育30小时。
5.分离单细胞
将细胞核悬液稀释到200细胞核/mL。以5μL/孔的量转移到96孔PCR板上。
6.解交联
每孔加入0.5μL 120Units/mL NEB Thermolabile Proteinase K,37摄氏度孵育15分钟解交联,55摄氏度孵育10分钟灭活解交联酶。
7.片段化DNA,末端修复及加A。
每孔加入0.6μL 10x NEB Micrococcal Nuclease Reaction Buffer,加0.2μL 2,000,000gel units/ml的NEB Micrococcal Nuclease,0.2μL 5,000U/mL的NEB Tag DNA聚合酶和0.1μL 10nM的dNTP,混匀。32摄氏度孵育5分钟,再在65摄氏度孵育30分钟。
8.连接文库接头
每孔加入0.75μL10x NEB T4 DNA ligase buffer,0.5μL 400,000U/mL NEB T4DNA ligase,0.25μL0.1mM的文库接头(由SEQ ID NO:4和SEQ ID NO:5所示寡核苷酸序列梯度退火制备)。多个N的核苷酸序列为单细胞条码。每个孔使用含不同单细胞条码的文库接头标记该孔的单细胞(包括样本1的细胞1-6)。20摄氏度孵育15分钟。
将所有孔的液体收集在一个PCR管里,使用0.8x SPRI selectbeads对DNA进行纯化。回收到23μL Elutionbuffer中。
9.单细胞Hi-C文库扩增:
向上步产物中加入1μL 0.01mM的第一文库结构序列引物(SEQ ID NO:6所示寡核苷酸序列),1μL 0.01mM的第二文库结构序列引物(SEQ ID NO:7所示寡核苷酸序列),25μLKAPA HiFi Hot Start Ready Mix。
使用PCR仪通过PCR富集含目标区域的重组片段。
PCR程序:1)98摄氏度3分钟,2)98摄氏度30秒,3)54摄氏度30秒,4)72摄氏度30秒,5)72摄氏度1分钟,6)10摄氏度停止。其中2)-4)步循环18次。
使用0.5x-0.8x SPRI selectbeads对DNA进行片段筛选和纯化。得到多个单细胞(包括细胞1-6)的Hi-C文库(文库1)。
由图1可见,重连片段由两个空间上相互作用的DNA片段和二者之间的两个测序接头组成,二者通过其带有的测序接头的CG序列通过反向互补连接。
本实施例涉及序列如表1。
表1:
本实施例使用细胞条码序列如表2。
表2:
(二)文库测序和数据分析
上述方法获得的文库(文库1)进行测序和数据分析。使用Miseq对文库进行PE150双端测序。测序量20M readpairs。在检测read1和read2的步骤,均使用客制化测序引物如SEQ ID NO:8所示寡核苷酸序列。由图1可见,本实施例将重连片段之间的测序引物序列作为测序起始点向两端分别进行read1和read2的两步测序。
注意,本文库只细胞条码由Index 2测序步骤检测,测序仪只能使用Index 2检测时使用Forward Strand Workflow的Illumina测序仪(例如NovaSeq 6000with v1.0reagent kits,MiniSeq with rapid reagent kits,MiSeq,HiSeq 2500,或者HiSeq2000)。
下机数据拆分后,每个index2的数据为一个单细胞的数据。先trim掉残留的Illumina文库接头序列和测序引物序列,然后将read1的测序数据和read2的测序数据分别进行反向互补。使用参考文献[1]记载的分析方法分析数据。对与整个文库(文库1)的数据过滤统计是将6个单细胞的数据合并在一起进行统计。
对比例1
参照参考文献[1]记载的处理方法,对100万个E14小鼠巨噬细胞株RAW264.7细胞(样本2)进行处理,挑取6个单细胞(细胞7-12)进行单细胞Hi-C文库(文库2)构建和测序分析。
实施例和对比例测序结果的统计及分析
实施例和对比例文库中的每个单细胞捕获DNA互作对数统计如表3。
表3:
实施例和对比例的数据过滤统计数据如表4。
表4:
据上述统计数据可知:通过实施例1的方法获得的测序数据中有效数据平均占比超过55%。而通过对比例1的方法获得的测序数据中有效数据平均占比仅约27%。由此可见,本发明的单细胞Hi-C文库构建方法能够极大的提高有效数据比例(valid Read Pairs与Total readpairs的比例)。
此外,实施例1的平均测序量为18M,而对比例的平均测序量为20.4M。但实施例1每个细胞捕获的DNA、互作对数都要高于对比例1。因此,使用实施例1的方法仅需与对比例相当或更少的测序量即可得到更高数量的有效数据。可见,在需要有效数据量相当的情况下,本发明的文库构建方法对测序量的需求更低。
同时,对比参考文献[1]和实施例1的方法可以看出,采用本发明的方法建库步骤更少,用时更短,操作更简单。
参考文献[1]:Nimrod Rappoport,Elad Chomsky,Takashi Nagano,CharlieSeibert,Yaniv Lubling,Yael Baran,Aviezer Lifshitz,Wing Leung,Zohar Mukamel,Ron Shamir,Peter Fraser&Amos Tanay.Single cell Hi-C identifies plasticchromosome conformations underlying the gastrulation enhancerlandscape.Nature Communications volume 14,Article number:3844(2023)
根据本发明,可以与其他研究DNA、RNA、蛋白的方法联合使用研究细胞特性或功能,以及染色质构象、DNA、RNA和蛋白质的功能。这些其他研究DNA、RNA、蛋白的方法包括但不限于:单细胞测序、基因芯片、QPCR、一代测序、二代测序、三代测序、四代测序、基因测序、基因组测序、宏基因组测序、外显子测序、内含子测序、目标基因捕获测序、RNA测序、表达谱测序、转录组测序、小RNA转录组、微RNA测序、宏转录组测序、LncRNA测序、肿瘤基因测序、肿瘤基因组测序、Bisulfite甲基化测序、ChIP-DNA测序、MeDIP测序、RRBS测序、Target-BS测序、hmC测序。
还需要说明的是,在可实施且不明显违背本发明的主旨的前提下,在本说明书中作为某一技术方案的构成部分所描述的任一技术特征或技术特征的组合同样也可以适用于其它技术方案;并且,在可实施且不明显违背本发明的主旨的前提下,作为不同技术方案的构成部分所描述的技术特征之间也可以以任意方式进行组合,来构成其它技术方案。本发明也包含在上述情况下通过组合而得到的技术方案,并且这些技术方案相当于记载在本说明书中。
上述说明示出并描述了本发明的优选实施例,如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域技术人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (10)

1.一种单细胞Hi-C文库构建方法,该方法包括下述步骤
交联:将样本细胞内的DNA与蛋白质交联,得到交联体;
酶切:酶切交联体中的DNA,得到交联的DNA片段;
加测序接头:将交联的DNA片段加测序接头,得到加测序接头的DNA片段,所述测序接头包括至少一段测序引物序列;
重连DNA片段:将加测序接头的DNA片段重新连接,得到交联的重连DNA片段;
分离单细胞;
解交联:将交联的重连DNA片段与蛋白质解交联,得到重连DNA片段;
加文库接头,所述文库接头包括第一文库结构序列和第二文库结构序列;
文库扩增:采用带有第一文库结构序列的引物和带有第二文库结构序列的引物,对加文库接头的DNA片段进行扩增,得到单细胞Hi-C文库。
2.根据权利要求1所述单细胞Hi-C文库构建方法,所述加测序接头的DNA片段通过其添加的测序接头重新连接,所述重连DNA片段内部包括两个测序接头。
3.根据权利要求1所述单细胞Hi-C文库构建方法,所述测序接头的长度为10-40bp。
4.根据权利要求1所述单细胞Hi-C文库构建方法,所述测序接头由两条DNA单链组成,所述测序引物序列设置在3'端与所述交联的DNA片段相连接的单链上,所述测序引物序列设置在其所在单链的3'端。
5.根据根据权利要求4所述单细胞Hi-C文库构建方法,所述设置测序引物序列的单链的5'端为突出的SEQ ID NO:1所示核苷酸序列,或,未设置测序引物序列的单链的3'端为突出的SEQ ID NO:1所示核苷酸序列,SEQ ID NO:1:5'-N1…NmN'1…N'm-3',
其中,N为A、T、C、G脱氧核糖核苷酸中的任意一种,N1…Nm与N'm…N'1为反向互补序列,m为1-4。
6.根据权利要求1所述单细胞Hi-C文库构建方法,其中,在酶切步骤后对交联的DNA片段进行末端修复和加A处理。
7.根据权利要求6所述单细胞Hi-C文库构建方法,其中,设置测序引物序列的单链的3'端为突出的T。
8.根据权利要求1所述单细胞Hi-C文库构建方法,其中,所述文库接头包括细胞条码。
9.一种单细胞Hi-C文库,其通过权利要求1-8任一项所述单细胞Hi-C文库构建方法获得,所述重连片段的内部包括两段测序接头。
10.一种单细胞Hi-C文库的检测方法,其通过对权利要求9所述单细胞Hi-C文库进行测序,其是将重连片段内部的测序引物序列作为测序起始点。
CN202410031542.9A 2024-01-09 2024-01-09 一种单细胞Hi-C文库构建方法 Active CN117802205B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410031542.9A CN117802205B (zh) 2024-01-09 2024-01-09 一种单细胞Hi-C文库构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410031542.9A CN117802205B (zh) 2024-01-09 2024-01-09 一种单细胞Hi-C文库构建方法

Publications (2)

Publication Number Publication Date
CN117802205A true CN117802205A (zh) 2024-04-02
CN117802205B CN117802205B (zh) 2025-09-26

Family

ID=90433200

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410031542.9A Active CN117802205B (zh) 2024-01-09 2024-01-09 一种单细胞Hi-C文库构建方法

Country Status (1)

Country Link
CN (1) CN117802205B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118727162A (zh) * 2024-06-05 2024-10-01 首都医科大学附属北京口腔医院 单细胞4c文库构建方法和检测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106480178A (zh) * 2016-09-27 2017-03-08 华中农业大学 DLO Hi‑C染色体构象捕获方法
CN106591955A (zh) * 2015-10-19 2017-04-26 安诺优达基因科技(北京)有限公司 构建高分辨率、大信息量单细胞Hi-C文库的方法
WO2017066909A1 (zh) * 2015-10-19 2017-04-27 安诺优达基因科技(北京)有限公司 一种简便、快速、低成本的Hi-C文库构建方法
CN108265049A (zh) * 2017-12-05 2018-07-10 中国水稻研究所 全基因组互作文库及其构建方法
CN111778563A (zh) * 2020-07-24 2020-10-16 天津诺禾致源生物信息科技有限公司 细胞Hi-C测序文库的构建方法
CN117089597A (zh) * 2023-08-17 2023-11-21 杭州跃真生物科技有限公司 一种单细胞文库构建测序方法及其应用

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106591955A (zh) * 2015-10-19 2017-04-26 安诺优达基因科技(北京)有限公司 构建高分辨率、大信息量单细胞Hi-C文库的方法
WO2017066909A1 (zh) * 2015-10-19 2017-04-27 安诺优达基因科技(北京)有限公司 一种简便、快速、低成本的Hi-C文库构建方法
CN106480178A (zh) * 2016-09-27 2017-03-08 华中农业大学 DLO Hi‑C染色体构象捕获方法
CN108265049A (zh) * 2017-12-05 2018-07-10 中国水稻研究所 全基因组互作文库及其构建方法
CN111778563A (zh) * 2020-07-24 2020-10-16 天津诺禾致源生物信息科技有限公司 细胞Hi-C测序文库的构建方法
CN117089597A (zh) * 2023-08-17 2023-11-21 杭州跃真生物科技有限公司 一种单细胞文库构建测序方法及其应用

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NIMROD RAPPOPORT等: "Single cell Hi-C identifies plastic chromosome conformations underlying the gastrulation enhancer landscape", NAT COMMUN, vol. 14, no. 1, 29 June 2023 (2023-06-29), pages 1 - 17 *
TAKASHI NAGANO等: "Single-cell Hi-C for genome-wide detection of chromatin interactions that occur simultaneously in a single cell", NAT PROTOC, vol. 10, no. 12, 31 December 2015 (2015-12-31), pages 1986 - 2003 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118727162A (zh) * 2024-06-05 2024-10-01 首都医科大学附属北京口腔医院 单细胞4c文库构建方法和检测方法

Also Published As

Publication number Publication date
CN117802205B (zh) 2025-09-26

Similar Documents

Publication Publication Date Title
CN113661249B (zh) 用于分离无细胞dna的组合物和方法
EP3947723B1 (en) Methods and compositions for analyzing nucleic acid
EP3366818B1 (en) Method for constructing high-resolution single cell hi-c library with a lot of information
US20200131567A1 (en) Methods of attaching adapters to sample nucleic acids
EP4222279A1 (en) Methods and systems to improve the signal to noise ratio of dna methylation partitioning assays
US20250066767A1 (en) Compositions and methods for making guide nucleic acids
CN111621548A (zh) 扩增dna的方法
WO2018024082A1 (zh) 一种串联rad标签测序文库的构建方法
CN113466444B (zh) 一种染色质构象捕获方法
CA3211616A1 (en) Cell barcoding compositions and methods
WO2022087309A1 (en) Compositions and methods for analyzing dna using partitioning and base conversion
JP2023551292A (ja) メチル化されたポリヌクレオチドを富化するための組成物および方法
WO2022036273A1 (en) In situ library preparation for sequencing
CN117802205A (zh) 一种单细胞Hi-C文库构建方法
US20020015951A1 (en) Method of analyzing a nucleic acid
CN117845339B (zh) 一种用于检测与目标基因座相互作用的dna片段的文库构建方法
CN117821567B (zh) 一种用于检测单细胞与目标基因座相互作用的dna片段的文库构建方法
CN117845338A (zh) 一种PCR free的Hi-C文库构建方法
CN107794257B (zh) 一种dna大片段文库的构建方法及其应用
CN117887809B (zh) 一种Hi-C文库构建方法
WO2022020346A1 (en) Cancer detection, monitoring, and reporting from sequencing cell-free dna
CN118727162B (zh) 单细胞4c文库构建方法和检测方法
CN112410406A (zh) 一种确定文库扩增循环数的方法
US20250308636A1 (en) Inferring cnvs from the distribution of molecules in hyper partition
US12473592B2 (en) Method for the detection and quantification of genetic alterations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant