CN115552035A

CN115552035A - 用于增加测序文库产量的方法

Info

Publication number: CN115552035A
Application number: CN202180034126.9A
Authority: CN
Inventors: A·C·阿迪; R·玛尔奎因; F·史蒂莫斯; D·K·波霍洛克; F·张; E·马斯格雷夫-布朗
Original assignee: Inmair Cambridge Ltd; Immena; Oregon Health and Science University
Current assignee: Inmair Cambridge Ltd; Immena; Oregon Health and Science University
Priority date: 2020-06-09
Filing date: 2021-06-09
Publication date: 2022-12-30
Also published as: JP2023533418A; IL298821A; US20210380972A1; EP4162080A1; CA3182810A1; KR20230020977A; BR112022025184A2; AU2021287900A1; JP2025178294A; MX2022015521A

Abstract

本公开涉及用于制备测序文库的组合物和方法。在一个实施方案中，方法包括产生在每个末端具有相同衔接子的靶核酸的文库，并且然后转换一个衔接子的同一性以产生侧接不同衔接子的靶核酸。

Description

用于增加测序文库产量的方法

相关申请的交叉引用

本申请要求2020年6月9日提交的美国临时申请序列号63/036,710的权益，该临时申请全文以引用方式并入本文。

政府资助

本发明是在美国政府支持下进行的，授权号为R35GM124704，由美国国立卫生研究院(National Institutes of Health)授予。政府拥有本发明的某些权利。

序列表

本申请包含通过EFS-Web电子提交给美国专利商标局(United States Patentand Trademark Office)的序列表，其为ASCII文本文件，名称为″2021-06-08-SequenceListing_ST25.txt″，大小为2千字节并且创建于2021年6月8日。序列表中包含的信息以引用方式并入本文。

技术领域

本公开的实施方案涉及制备用于测序的核酸。具体地，本文提供的方法、组合物、系统和试剂盒的实施方案涉及将核酸文库从含有对称通用序列的片段转化为含有不对称通用序列的片段并从中获得序列数据。

背景技术

下一代测序(NGS)技术已彻底改变了基因组研究。已被证明有效的NGS的一种方法是生成测序文库，其中片段经处理以在每个末端处具有不同衔接子。然后使用双端测序从两条链获得序列信息。双端方法的优点是，与以随机方式对两个独立模板中的每个模板的″n″个碱基进行测序相比，对单个模板中各自具有″n″个碱基的两个片段进行测序获得的信息显著更多。然而，将不同衔接子添加到每个末端的方法通常是低效的，因为难以将第一衔接子选择性地靶向到DNA片段的一个末端，并且难以将第二衔接子选择性地靶向到相同DNA片段的另一末端。例如，测序文库可使用高效片段标签化来产生，但仅当不同接头以正向或反向一级序列的形式掺入分子的每个末端处时，才能产生可行的测序文库分子。在一些片段标签化反应期间，这两个序列中的每个序列的掺入概率相等，从而导致一半的分子具有正向-正向或反向-反向接头组合，并因此将理论产量降低至50％。

发明内容

本文呈现了将核酸有效地转化为测序文库的方法和组合物。本文呈现的方法包括替代性策略，这些策略使用接头替换以产生标记有正向接头和反向接头两者的靶核酸文库，以用于核酸的顶部链、核酸的底部链，或核酸的顶部链和底部链两者。这些方法适用于广泛的测序文库制备方法，包括但不限于全基因组测序、基因组构象捕获、循环DNA测序、靶向测序、两种或更多种分析物(例如RNA和ATAC，或DNA和RNA)的共测定，以及单细胞基因组学。另外，该格式允许使用嵌入衔接子内的一个或多个索引序列，从而实现单细胞组合索引(sci)应用(示例：Cusanovich等人，Science，第348卷，第910-914页(2015年)；Vitak等人，Nat.Methods，第14卷，第302-308页(2017年)；Mulqueen等人，Nat.Biotechnol.，第36卷，第428-431页(2018年))。本文提供的方法导致数据质量的改进，包括与sci-HiC相比，在不牺牲就s3-ATAC而言的信号富集、s3-WGS的覆盖度均匀性以及用于s3-GCC的每个细胞获得的改进的染色质接触的情况下，在相对于每个细胞获得的通过读段的已知方法方面有了显著改进。本文描述了s3-ATAC、s3-WGS和s3-GCC。

定义

除非另外指明，否则本文所用的术语应理解为具有其在相关领域中的普通含义。下面列出本文所用的若干术语及其含义。

如本文所用，术语″生物体″和″受试者″可互换使用并且是指微生物(例如，原核或真核)、动物和植物。动物的示例为哺乳动物，诸如人。

如本文所用，术语″靶核酸″旨在作为本文所示的方法或组合物的上下文中的核酸的语义标识符，并不一定限制核酸的结构或功能，除非另有明确说明。靶核酸基本上可以是任何已知或未知序列的核酸。该靶核酸可以是例如基因组DNA(例如，染色体DNA)的片段、染色体外DNA(诸如质粒)、循环DNA或循环RNA、来自一个或多个细胞的核酸、无细胞DNA、RNA(例如mRNA)或cDNA。测序能够确定靶分子的全部或一部分的序列。靶标可来源于初级核酸样品，诸如细胞核。在一个实施方案中，可通过将通用序列置于每个靶片段的一个或多个末端，将靶标处理成适于扩增的模板。靶标也可通过逆转录成cDNA从初级RNA样品获得。在一个实施方案中，靶标用于提及细胞中存在的DNA或RNA的子集。靶向测序使用所关注基因的选择和分离，通常通过PCR扩增(例如，区域特异性引物)或基于杂交的捕获方法或抗体。靶向富集可发生在该方法的各个阶段。例如，可使用逆转录步骤中的靶标特异性引物或更复杂文库的子集的基于杂交的富集来获得靶向RNA表示。一个示例是外显子组测序或L1000测定(Subramanian等人，2017年，Cell，第171卷，第1437-1452页)。靶向测序可包括本领域普通技术人员已知的任何富集过程。在一端或两端具有通用序列的靶核酸可被称为经修饰的靶核酸。除非另外指明，否则对核酸诸如靶核酸的提及包括单链核酸和双链核酸两者。例如，对称靶核酸和不对称靶核酸在本公开的方法中的某种情况下可以是双链的、单链的或部分双链和单链的。

如本文所用，术语″衔接子″及其派生词(例如，通用衔接子)通常是指可附接到靶核酸的任何线性寡核苷酸。衔接子可以是单链或双链DNA，或者可包括双链区域和单链区域两者。衔接子可包含：通用序列，该通用序列与引物(例如，通用引物)的至少一部分基本上相同或基本上互补；索引(在本文中也称为条形码或标签)，该索引用于帮助下游纠错、识别或测序；和/或UMI。在一些实施方案中，衔接子与存在于样品中的任何靶序列的3′端或5′端基本上不互补。在一些实施方案中，合适的衔接子长度在约6至100个核苷酸、约12至60个核苷酸或约15至50个核苷酸的长度范围内。例如，术语″接头″和″衔接子″可互换使用。

如本文所用，当用于描述核苷酸序列时，术语″通用″是指两个或更多个核酸分子共有的序列区域，其中这些分子也具有彼此不同的序列区域。存在于核酸集合的不同成员中的通用序列可用作例如后续步骤中的″着陆区″以退火核苷酸序列，该核苷酸序列可用作将另一核苷酸序列(诸如索引)添加到靶核酸的引物。存在于核酸集合的不同成员中的通用序列可允许使用通用捕获核酸群体(例如，与通用序列(例如，通用捕获序列)的一部分互补的捕获寡核苷酸)来捕获多种不同的核酸。通用捕获序列的非限制性示例包括与P5和P7引物相同或互补的序列。类似地，存在于分子集合的不同成员中的通用序列可允许使用与通用序列(例如，通用锚定序列)的一部分互补的通用引物的群体来复制(例如，测序)或扩增多种不同的核酸。当涉及通用锚定序列时，可使用术语″A14″和″B15″。术语″A14’″(A14上撇号)和″B15’″(B15上撇号)分别指A14和B15的互补序列。应当理解，任何合适的通用锚定序列都可用于本文所呈现的方法中，并且A14和B15的使用仅为示例性实施方案。在一个实施方案中，通用锚定序列用作通用引物(例如，用于读段1或读段2的测序引物)退火至其进行测序的位点。因此，捕获寡核苷酸或通用引物包含可与通用序列特异性杂交的序列。

当涉及通用捕获序列或捕获寡核苷酸时，可使用术语″P5″和″P7″。术语″P5’″(P5上撇号)和″P7’″(P7上撇号)分别指P5和P7的互补序列。应当理解，任何合适的通用捕获序列或捕获寡核苷酸都可用于本文所呈现的方法中，并且P5和P7的使用仅为示例性实施方案。在流通池上使用捕获寡核苷酸诸如P5和P7或其互补序列是本领域已知的，如WO 2007/010251、WO 2006/064199、WO 2005/065814、WO 2015/106941、WO 1998/044151和WO 2000/018957的公开内容所例示。例如，任何合适的正向扩增引物，无论是固定化的还是处于溶液状态的，都可用于本文所呈现的方法中，以用于与互补序列杂交和扩增序列。类似地，任何合适的反向扩增引物，无论是固定化的还是处于溶液状态的，都可用于本文所呈现的方法中，以用于与互补序列杂交和扩增序列。本领域的技术人员将理解如何设计和使用适用于捕获和/或扩增本文所呈现的核酸的引物序列。

如本文所用，术语″引物″及其派生词通常是指可与所关注靶序列杂交的任何核酸。通常，引物用作基板，核苷酸可通过聚合酶聚合到该基板上或多核苷酸可连接到该基板；然而，在一些实施方案中，引物可掺入合成的核酸链中并提供另一引物可与之杂交的位点，以引发与合成的核酸分子互补的新链的合成。引物可包括核苷酸或其类似物的任何组合。在一些实施方案中，引物是单链寡核苷酸或多核苷酸。术语″多核苷酸″和″寡核苷酸″在本文中可互换使用，是指任何长度的核苷酸的聚合形式，并且可包括核糖核苷酸、脱氧核糖核苷酸、它们的类似物或它们的混合物。这些术语应理解为包括由核苷酸类似物制成的DNA、RNA、cDNA或抗体-寡核苷酸偶联物的类似物作为等同物，并且适用于单链(诸如有义或反义)和双链多核苷酸。如本文所用，该术语还涵盖cDNA，即由RNA模板例如通过逆转录酶的作用产生的互补DNA或拷贝DNA。该术语仅是指分子的主要结构。因此，该术语包括三链、双链和单链脱氧核糖核酸(″DNA″)，以及三链、双链和单链核糖核酸(″RNA″)。

如本文所用，″索引″(也称为″索引区域″、″索引接头″、″标签″或″条形码″)是指可用于识别核酸材料的样品或来源的独特核酸标签，或其中存在靶核酸的隔室。索引可存在于溶液中或固体载体上，或附接到固体载体或与固体载体缔合，并在溶液或隔室中释放。当核酸样品来源于多个来源时，每个核酸样品中的核酸可用不同的核酸标签加标签，使得样品的来源可被识别。可使用任何合适的索引或索引集，如本领域已知的并且如美国专利8,053,192、PCT公布WO 05/068656和美国专利公布2013/0274117的公开内容所例示。在一些实施方案中，索引可包含得自Illumina，Inc.(San Diego，CA)的六碱基索引1(i7)序列、八碱基索引1(i7)序列、八碱基索引2(i5e)序列、十碱基索引1(i7)序列或十碱基索引2(i5)序列。

如本文所用，术语″唯一分子标识符″或″UMI″是指可附接到核酸的随机、非随机或半随机的分子标签。当掺入核酸中时，通过直接计数扩增后测序的唯一分子标识符(UMI)，UMI可用于校正后续扩增偏差。UMI可附接到类似的核酸(例如衔接子)，从而使每个核酸都是独特的。

如本文所用，术语″扩增子″当用于提及核酸时，意指复制该核酸的产物，其中该产物具有与该核酸的核苷酸序列的至少一部分相同或互补的核苷酸序列。扩增子可通过使用核酸或其扩增子作为模板的多种扩增方法中的任一种产生，所述扩增方法包括例如聚合酶延伸、聚合酶链反应(PCR)、滚环扩增(RCA)、连接延伸或连接酶链反应。扩增子可以是具有特定核苷酸序列的单拷贝(例如，PCR产物)或该核苷酸序列的多拷贝(例如，RCA的串联产物)的核酸分子。靶核酸的第一扩增子通常为互补拷贝。后续的扩增子是在生成第一扩增子后，由靶核酸或由第一扩增子形成的拷贝。后续的扩增子可具有与靶核酸基本上互补或与靶核酸基本上相同的序列。

如本文所用，″扩增″或″扩增反应″以及它们派生词通常是指核酸分子的至少一部分被复制或拷贝到至少一个另外的核酸分子中的任何动作或过程。另外的核酸分子任选地包含与模板核酸分子的至少一些部分基本上相同或基本上互补的序列。模板核酸分子可为单链或的双链的，并且另外的核酸分子可独立地为单链的或双链的。扩增任选地包括线性或指数复制核酸分子。在一些实施方案中，这种扩增可使用等温条件进行；在其他实施方案中，这种扩增可包括热循环。在一些实施方案中，扩增是多重扩增，其包括在单个扩增反应中同时扩增多个靶序列。在一些实施方案中，″扩增″包括单独或组合扩增基于DNA和RNA的核酸的至少一些部分。扩增反应可包括本领域普通技术人员已知的任何扩增过程。在一些实施方案中，扩增反应包括聚合酶链反应(PCR)。

如本文所用，术语″聚合酶链反应″(″PCR″)是指Mullis的美国专利4,683,195和4,683,202的方法，这些专利描述了用于在不进行克隆或纯化的情况下增加基因组DNA的混合物中所关注多核苷酸的区段的浓度的方法。该扩增所关注多核苷酸的方法包括将大量过量的两种寡核苷酸引物引入包含所需所关注多核苷酸的DNA混合物中，然后在存在DNA聚合酶的情况下进行一系列热循环。这两种引物与它们各自的所关注双链多核苷酸的链互补。首先将混合物在较高温度下变性，然后将引物与所关注多核苷酸分子内的互补序列退火。退火后，用聚合酶延伸引物以形成一对新的互补链。变性、引物退火和聚合酶延伸的步骤可重复多次(称为热循环)，以获得高浓度的期望的所关注多核苷酸的扩增片段。期望的所关注多核苷酸(扩增子)的扩增片段的长度由引物相对于彼此的相对位置确定，因此，该长度是可控参数。由于重复该过程，该方法被称为PCR。因为所关注多核苷酸的期望扩增片段成为混合物中的主要核酸序列(就浓度而言)，所以认为它们是″PCR扩增的″。在上述方法的修改形式中，可使用多个不同的引物对(在一些情况下，每个所关注的靶核酸分子一个或多个引物对)PCR扩增靶核酸分子，从而形成多重PCR反应。

如本文所用，″扩增条件″及其派生词通常是指适用于扩增一个或多个核酸序列的条件。这种扩增可以是线性的或指数的。在一些实施方案中，扩增条件可包括等温条件，或者可包括热循环条件，或者等温条件和热循环条件的组合。在一些实施方案中，适用于扩增一个或多个核酸序列的条件包括聚合酶链反应(PCR)条件。通常，扩增条件是指足以扩增核酸(诸如侧接通用序列或靶特异性引物的一个或多个靶序列)或扩增侧接一个或多个衔接子的扩增的靶序列的反应混合物。一般来讲，扩增条件包括用于扩增或用于核酸合成的催化剂，例如聚合酶；与待扩增核酸具有一定程度互补性的引物；以及核苷酸，诸如脱氧核糖核苷酸三磷酸(dNTP)，从而一旦与核酸杂交就促进引物的延伸。扩增条件可能需要引物与核酸的杂交或退火、引物的延伸和其中延伸的引物与经历扩增的核酸序列分离的变性步骤。通常，但不是必须的，扩增条件可包括热循环；在一些实施方案中，扩增条件包括多个循环，其中重复退火、延伸和分离的步骤。通常，扩增条件包括阳离子诸如Mg²⁺或Mn²⁺，并且还可包括各种离子强度改性剂。

如本文所定义，″多重扩增″是指使用至少一种靶标特异性引物对样品内的两个或更多个靶序列进行选择性和非随机扩增。在一些实施方案中，进行多重扩增，使得靶序列中的一些或全部在单个反应容器内扩增。给定多重扩增的″重数″或″重″通常是指在单个多重扩增期间扩增的不同靶标特异性序列的数量。在一些实施方案中，重数可为约12重、24重、48重、96重、192重、384重、768重、1536重、3072重、6144重或更高。还可通过几种不同的方法来检测扩增的靶序列(例如，凝胶电泳，然后进行密度测定法、用生物分析仪或定量PCR进行定量、用标记探针进行杂交；掺入生物素酰化的引物，然后进行亲和素-酶偶联物检测；将³²P标记的脱氧核苷酸三磷酸掺入扩增的靶序列中)。

如本文所用，术语″扩增位点″是指阵列中或阵列上可生成一个或多个扩增子的位点。扩增位点还可被配置为包含、保持或附接在该位点生成的至少一个扩增子。

如本文所用，术语″阵列″是指可根据相对位置彼此区分的一组位点。位于阵列的不同位点处的不同分子可根据位点在阵列中的位置而彼此区分。阵列的单个位点可包含一种或多种特定类型的分子。例如，位点可包含具有特定序列的单个靶核酸分子，或者位点可包含具有相同序列(和/或其互补序列)的若干核酸分子。阵列的位点可以是位于同一基板上的不同特征。示例性特征包括但不限于小滴、基板中的孔、基板中或基板上的小珠(或其他颗粒)、基板的突出部、基板上的脊或基板中的通道。阵列的位点可以是各自带有不同分子的单独的基板。可根据基板在与基板相关联的表面上的位置，或者根据基板在液体或凝胶中的位置，来识别附接到单独基板的不同分子。其中单独的基板位于表面上的示例性阵列包括但不限于在孔中具有小珠的那些阵列。

如本文所用，术语″隔室″旨在表示将某物与其他事物分开或隔离的区域或体积。示例性隔室包括但不限于小瓶、管、孔、小滴、团块、小珠、容器、表面特征部、流通池，或由物理力诸如流体流动、磁力、电流等分开的区域或体积。在一个实施方案中，隔室是多孔板(诸如96孔板或384孔板)的孔。如本文所用，小滴可包括水凝胶小珠，该水凝胶小珠是用于包封一个或多个细胞核或细胞的小珠并且包含水凝胶组合物。在一些实施方案中，小滴是水凝胶材料的均质小滴或者是具有聚合物水凝胶外壳的中空小滴。无论是均质的还是中空的，小滴均能够包封一个或多个细胞核或细胞。在一些实施方案中，小滴是表面活性剂稳定的小滴。在一些实施方案中，每个隔室存在单个细胞或细胞核。在一些实施方案中，每个隔室存在两个或更多个细胞或细胞核。在一些实施方案中，每个隔室含有隔室特异性索引。在一些实施方案中，该索引在溶液中或与每个隔室中的固相附接或缔合。

如本文所用，术语″流通池″是指包括固体表面的室，一种或多种流体试剂可流过该固体表面。可容易地用于本公开的方法中的流通池以及相关流体系统和检测平台的示例在例如以下文献中描述：Bentley等人，Nature，第456卷：第53-59页(2008年)；WO 04/018497；US 7,057,026；WO 91/06678；WO 07/123744；US 7,329,492；US 7,211,414；US 7,315,019；US 7,405,281和US 2008/0108082。

如本文所用，术语″克隆群体″是指相对于特定核苷酸序列而言是同源的核酸群体。同源序列通常为至少10个核苷酸长，但甚至可以更长，包括例如至少50、100、250、500或1000个核苷酸长。克隆群体可来源于单个靶核酸或模板核酸。通常，克隆群体中的所有核酸将具有相同的核苷酸序列。应当理解，在不脱离克隆性的情况下，少量突变(例如，由于扩增伪影(amplification artifact))可发生在克隆群体中。

如本文所用，术语″每个″当用于提及项目的集合时，旨在识别集合中的单个项目，但不一定是指集合中的每个项目，除非上下文中另外明确指出。

如本说明书和所附权利要求书中所使用的，除非上下文另外明确指出，否则术语″或″通常以包括″和/或″的含义被采用。术语″和/或″意指所列要素中的一个或全部，或所列要素中的任何两个或更多个的组合。在一些情况下，使用″和/或″并不暗示在其他情况下使用″或″可能不意味着″和/或″。

词语″优选的″和″优选地″是指在某些情况下可提供某些益处的本公开的实施方案。然而，在相同或其他情况下，其他实施方案也可以是优选的。此外，对一个或多个优选实施方案的表述并不暗示其他实施方案是不可用的，并且并非旨在将其他实施方案排除在本公开的范围之外。

如本文所用，″具有(have/has/having)″、″包括(include/includes/including)″、″包含(comprise/comprises/comprising)″等以它们的开放式包含性意义使用，并且通常意指″包括但不限于(include，but not limited to/includes，but notlimited to/including，but not limited to)″。

应当理解，在本文以语言″具有″、″包括″、″包含″等描述实施方案的任何地方，还提供了以″由......组成″和/或″基本上由......组成″描述的其他类似实施方案。术语″由......组成″意指包括并限于短语″由......组成″之后的任何内容。也就是说，″由......组成″指示所列元素是必需的或强制性的，并且不存在其他要素。术语″基本上由......组成″表示包括该短语之后列出的任何元素，并且可包括除列出的那些元素之外的其他元素，条件是那些元素不干扰或有助于所列元素的公开内容中指定的活动或动作。

除非另外指明，否则″一个″、″一种″、″该″和″至少一个″可互换使用，表示一个或多于一个。

用于待发生事件的″适合″的条件或″合适的″条件是不阻止此类事件发生的条件。因此，这些条件允许、增强、促进和/或有利于事件。

如本文所用，在例如组合物或核酸的上下文中，″提供″意指制备组合物或核酸、购买组合物或核酸或以其他方式获得化合物或核酸。

本说明书通篇提及的″一个实施方案″、″实施方案″、″某些实施方案″或″一些实施方案″等意指结合该实施方案描述的特定特征、构型、组成或特性包括在本公开的至少一个实施方案中。因此，本说明书通篇的多处出现的此类短语不一定指本公开的相同实施方案。此外，在一个或多个实施方案中，特定特征、构型、组成或特性可以任何合适的方式组合。

本公开的各个方面可以范围格式呈现。应当理解，范围格式的描述仅仅是为了方便和简洁起见，而不应被解释为对本公开的范围的非灵活限制。因此，对范围的描述应被认为具有具体描述的所有可能的子范围以及该范围内的单个数值。例如，对范围诸如1至6的描述应被认为具有具体描述的子范围(诸如1至3、1至4、1至5、2至4、2至6、3至6等)，以及该范围内的单个数字，例如1、2、2.7.3、4、5、5.3和6。无论范围的广度如何，这都适用。

对于本文所公开的包括离散步骤的任何方法，这些步骤可以任何可行的顺序进行。并且，视情况而定，两个或更多个步骤的任何组合可同时进行。

附图说明

当结合以下附图阅读时，可最好地理解本公开的例示性实施方案的以下详细描述。

图1示出了根据本公开的产生测序文库的一个实施方案的一般例示性方法的一般框图。

图2A至图2D示出了根据本文呈现的公开内容的各个方面，将靶核酸从对称转化为不对称的实施方案的示意图。为简单起见，仅示出了一个靶核酸。

图3A至图3D示出了根据本文呈现的公开内容的各个方面，将靶核酸从对称转化为不对称并添加另一衔接子的实施方案的示意图。为简单起见，仅示出了一个靶核酸。

图4A至图4F示出了根据本文呈现的公开内容的各个方面，将靶核酸从对称转化为不对称并添加另一衔接子的实施方案的示意图。为简单起见，仅示出了一个靶核酸。

图5示出了根据本公开的用于单细胞组合索引的一般例示性方法的一般框图。

图6示出了根据本文呈现的公开内容的各个方面，将全细胞基因组DNA转化为对称靶核酸并且然后转化为不对称靶核酸(s3-WGS)的实施方案的示意图。为简单起见，仅示出了一个靶核酸。

图7示出了根据本文呈现的公开内容的各个方面，将可及的基因组DNA转化为对称靶核酸并且然后转化为不对称靶核酸(s3-ATAC)的实施方案的示意图。为简单起见，仅示出了一个靶核酸。

图8A至图8D示出了将mRNA核酸处理成DNA并进行后续处理以产生三个不对称核酸群体的实施方案的示意图。为简单起见，仅示出了一个mRNA核酸。

图9示出了根据本文呈现的公开内容的各个方面，将全细胞基因组DNA转化为对称靶核酸并且然后转化为不对称靶核酸(s3-GCC)的共测定的实施方案的示意图。为简单起见，仅示出了一个靶核酸。

图10示出了用于基于板的组合索引的方案的实施方案的示意图。

图11示出了DNA损伤的大小对文库生成的影响。

图12示出了经改变的核苷酸对添加衔接子的延伸的影响。

图13示出了经改变的核苷酸增强第二延伸。

图14示出了退火温度的影响。

图15示出了barnyard实验的实验布局，该实验布局示出了使用源自快速冷冻的人类皮层和小鼠全脑样品的细胞核在多个96孔板的片段标签化阶段和PCR阶段两者处进行的索引。

图16示出了如通过每个细胞的独特读段测量的文库复杂性的箱形图。基于突出的独特文库分子，s3ATAC在快速冷冻的小鼠皮层上优于所有其他公开的单细胞ATAC测序文库。

图17示出了对在″真实barnyard″(左；混合物种片段标签化孔)和PCR barnyard(右；在PCR阶段混合的物种)上的每个细胞的人和小鼠读段显示很少或几乎没有文库分子的细胞间交换的比较。在真实barnyard中，索引冲突速率为5.12％表明对于可接受的冲突速率，每孔有最佳15个细胞核。

图18示出了人类细胞核的UMAP突出部。

图19示出了皮层内的粗细胞类型的典型标记物显示出不同的细胞群。

图20示出了小鼠细胞核的UMAP突出部。

图21示出了小鼠脑内的粗细胞类型的典型标记物显示出不同的细胞群。

图22示出了用于生成s3-WGS文库的PDAC低通道患者衍生系的实验布局，该实验布局示出了在针对多个96孔板的片段标签化阶段和PCR阶段两者处进行的索引。

图23示出了如通过每个细胞的独特读段测量的文库复杂性的箱形图，以及对文库饱和度的突出部。

图24示出了跨箱的非偏置基因组覆盖度的平均绝对偏差(MAD)分数的箱形图。图例上接图23。

图25示出了用于生成s3-GCC文库的PDAC低通道患者衍生系的实验布局，该实验布局示出了在针对多个96孔板的片段标签化阶段和PCR阶段两者处进行的索引。

图26示出了如通过每个细胞的独特读段测量的文库复杂性的箱形图，以及对50％和95％文库饱和度的突出部。顶部：总读段；中部：远侧(＞1kbp映射)染色体内读段；底部：跨染色体映射读段。

图27示出了示出远侧区域捕获的映射读段长度分布的密度图。

图28示出了单细胞GCC文库对共享拓扑结构域的聚类。细胞系(左)和K均值定义的簇(右)。

图29示出了转座子的第一链的示例性核苷酸序列、含有第二索引序列(P5、i5、P7、i7、ME、A14和B15(分别为SEQ ID NO：1至9))的寡核苷酸。

示意图未必按比例绘制。附图中使用的类似标号是指类似的部件、步骤等。然而，应当理解，在给定附图中使用数字来指代部件并非旨在限制在另一附图中用相同数字标记的部件。此外，使用不同的数字来指代部件并非旨在指示不同编号的部件不能与其他编号的部件相同或类似。

具体实施方式

本文呈现了与测序核酸和/或进行测定有关的方法、组合物、系统和试剂盒。本公开提供了显著增加存在于测序文库中的靶核酸的数量的方法。图1示出了这些方法的一个例示性实施方案的一般概况。在该例示性实施方案中，这些方法包括提供经修饰以在每个末端处包含相同衔接子的靶核酸，在本文中称为具有对称衔接子的靶核酸(图1，框10)。该靶核酸的来源并非旨在进行限制，并且该靶核酸可源自DNA或已经转化为DNA的RNA。同样，用于将衔接子添加到靶核酸末端的方法并非旨在进行限制，并且可包括例如转座、片段标签化，随后连接、连接，或延伸和连接。该方法还包括修饰对称衔接子中的一个对称衔接子，并将对称修饰的靶核酸转化为不对称修饰的靶核酸(图1，框12)，即在每个末端处包含不同衔接子的靶核酸。这些衔接子可包含索引序列、UMI、通用序列和/或源自引物的序列。任选地，不对称靶核酸可被扩增(图1，框14)。扩增不对称靶核酸可包括向一端或两端添加其他有用序列，包括但不限于一个或多个索引序列、UMI序列、通用序列或源自引物的序列。

发明人已经进行了令人惊讶和出乎意料的观察，即在将对称靶核酸转化为不对称靶核酸期间，经修饰的靶核酸可能暴露于显著增加不对称修饰的靶核酸的产量，以接近理论最大产量的条件下。这可与靶核酸的任何来源一起使用，并且对于高效文库生产具有优势的方法特别有用，包括使用有限输入初级核酸的方法。任何测序文库方法都可从高效生产受益，包括但不限于全基因组测序、靶向测序、甲基化测序、基因组构象捕获(GCC)(例如，HiC、染色质构象等)、单细胞测定、单细胞组合索引、RNA-seq和ATAC-seq方法、共测定(例如DNA和RNA，其中来源是无细胞DNA或RNA的实施方案)，以及液体活检组织。高效转化测定也可用于检测分析物的存在，例如提高灵敏度。检测或筛选测定的示例是PCR、qPCR、数字PCR、DNA或RNA或抗体或蛋白质检测测定，或一般分析物检测测定，但不限于此。分析物的示例包括但不限于DNA、RNA和蛋白质。

靶核酸

本文提供的方法、组合物、系统和试剂盒中使用的靶核酸通常源自存在于样品中的初级核酸。初级核酸可源自样品的双链DNA(dsDNA)形式(例如基因组DNA片段、扩增产物等)，或者可源自样品的单链形式，如DNA或RNA，并被转化为dsDNA形式。以举例的方式，可使用本领域已知的标准技术在本文所述的方法期间将mRNA分子复制到双链cDNA中。来自初级核酸样品的多核苷酸分子的精确序列通常对本公开不重要，并且可以是已知的或未知的。

在一个实施方案中，初级核酸包括DNA分子。初级核酸分子可表示生物体的整个遗传互补序列，例如包含内含子序列和外显子序列两者的基因组DNA分子，以及非编码调节序列诸如启动子序列和增强子序列。在一个实施方案中，可使用基因组DNA的特定子集，例如特定染色体、与开放染色质缔合的DNA、与闭合染色质缔合的DNA，或一个或多个特定序列诸如特定基因(例如，靶向测序)的区域。

在一个实施方案中，初级核酸包括RNA分子。初级核酸分子可表示整个转录组或样品(例如mRNA分子)的一个或多个细胞。初级核酸分子可表示样品(例如微RNA或小干扰RNA)的一个或多个细胞的非编码RNA。在一个实施方案中，可使用RNA分子的特定子集，例如一个或多个特定序列(诸如由特定基因编码的区域)。

样品可包括从活检组织、肿瘤、刮取物、拭子、血液、黏液、尿液、血浆、精液、毛发、激光捕获显微解剖、手术切除和其他临床或实验室获得的样品获得的核酸分子。在一些实施方案中，该样品可以是流行病学样品、农业样品、法医学样品或病原性样品。在一些实施方案中，该样品可包括培养的细胞。在一些实施方案中，该样品可包括从动物(诸如人类或哺乳动物来源)获得的核酸分子。在另一实施方案中，该样品可包括从非哺乳动物来源(诸如植物、细菌、病毒或真菌)获得的核酸分子。在一些实施方案中，核酸分子的来源可以是存档或灭绝的样品或物种。

另外，本文所公开的方法、组合物、系统和试剂盒可用于扩增具有低质量核酸分子的核酸样品，诸如来自法医学样品的降解的和/或片段化的基因组DNA。在一个实施方案中，法医学样品可包括从犯罪现场获得的核酸、从失踪人员DNA数据库获得的核酸、从与法医调查相关联的实验室获得的核酸，或者包括由执法机关、一种或多种军事服务或任何此类人员获得的法医学样品。核酸样品可以是经纯化的样品或含有核酸的粗溶胞产物，例如来源于口腔拭子、纸、织物或者其他可用唾液、血液或其他体液来浸渍的基板。因此，在一些实施方案中，核酸样品可包含少量DNA(诸如基因组DNA)，或者DNA的片段化部分。在一些实施方案中，靶核酸可存在于一种或多种体液中，这些体液包括但不限于血液、痰、血浆、精液、尿液和血清。在一些实施方案中，靶序列可从受害者的毛发、皮肤、组织样品、尸体解剖或遗骸获得。在一些实施方案中，包含一种或多种靶序列的核酸可从死亡的动物或人获得。在一些实施方案中，靶序列可包括从非人类DNA(诸如微生物、植物或昆虫DNA)获得的核酸。在一些实施方案中，靶序列涉及人类识别的目的，诸如法医学样品。

生物样品来源的其他非限制性示例可包括整个生物体以及从患者获得的样品。生物样品可从任何生物流体或组织获得，并且可呈多种形式(包括液体流体和组织、固体组织)和保存形式(诸如干燥、冷冻和固定形式)。样品可以是任何生物组织、细胞或流体。此类样品包括但不限于痰、血液、血清、血浆、血细胞(例如，白细胞)、腹水、尿液、唾液、泪液、痰、阴道液(分泌物)、在医疗程序期间获得的冲洗液(例如，在活检、内窥镜检查或外科手术期间获得的盆腔冲洗液或其他冲洗液)、组织、乳头抽出物、核心或细针活检组织样品、含有细胞的体液、腹膜液和胸腔积液或来自此处的细胞，以及游离漂浮核酸诸如无细胞循环DNA。生物样品还可包括组织切片，诸如出于组织学目的而采用的冷冻或固定切片，或微解剖细胞或其细胞外部分。在一些实施方案中，样品可以是血液样品，例如全血样品。在另一示例中，样品是未处理的干血点(DBS)样品。在又一示例中，样品是福尔马林固定石蜡包埋(FFPE)样品。在又一示例中，样品是唾液样品。在又一示例中，样品是干唾液点(DSS)样品。

可衍生靶核酸的示例性生物样品包括例如来自真核生物的那些生物样品，例如哺乳动物，诸如啮齿动物、小鼠、大鼠、兔、豚鼠、有蹄类动物、马、绵羊、猪、山羊、牛、猫、狗、灵长类动物、人类或非人类灵长类；植物，诸如拟南芥(Arabidopsis thaliana)、玉米、高梁、燕麦、小麦、水稻、油菜籽或大豆；藻类，诸如莱茵衣藻(Chlamydomonas reinhardtii)；线虫类，诸如秀丽隐杆线虫(Caenorhabditis elegans)；昆虫，诸如黑腹果蝇(Drosophilamelanogaster)、蚊虫、果蝇、蜜蜂或蜘蛛；鱼，诸如斑马鱼；爬行动物；两栖动物，诸如青蛙或非洲蟾蜍(Xenopus laevis)；盘基网柄菌(Dictyostelium discoideum)；真菌，诸如卡氏肺孢子虫(Pneumocystis carinii)、红鳍东方鲀(Takifugu rubripes)、酵母、酿酒酵母(Saccharamoyces cerevisiae)或粟酒裂殖酵母(Schizosaccharomyces pombe)；或恶性疟原虫(Plasmodium falciparum)。靶核酸也可来源于原核生物，诸如细菌，大肠杆菌(Escherichia coli)、葡萄球菌(staphylococci)或肺炎支原体(Mycoplasmapneumoniae)；古细菌；病毒，诸如丙型肝炎病毒或人类免疫缺陷病毒；或类病毒。靶核酸可来源于本文所述的均质培养物或生物体群体，或另选地来源于(例如，在社区或生态系统中的)几种不同生物体的集合。

在一些实施方案中，样品包括经处理以获得期望的初级核酸的组织。在一些实施方案中，使用细胞来获得期望的初级核酸。在一些实施方案中，使用细胞核来获得期望的初级核酸。该方法还可包括解离细胞以及/或者分离来自细胞的细胞核。可使用用于分离来自组织的细胞和细胞核的方法(WO 2019/236599)。

在一些实施方案中，存在于组织中、细胞中或分离的细胞核中的核酸可根据期望的读段进行处理。例如，核酸可在处理期间固定，并且可使用有效的固定方法(WO 2019/236599)。固定可用于保存样品或保持分析物与样品、细胞或细胞核的接触。固定方法保存并稳定组织、细胞和细胞核形态和结构，使蛋白水解酶失活，强化样品、细胞和细胞核，因此它们能够经受进一步处理和染色，并防止污染。能够有效固定的方法的示例包括但不限于分离的细胞核的全基因组测序和染色体构象捕获方法(诸如Hi-C)。常见的固定方法包括灌注、浸没、冷冻和干燥(Srinivasan等人，Am J Pathol.，2002年12月；第161卷第6期：第1961-1971页，doi：10.1016/S0002-9440(10)64472-0)。

在一些实施方案诸如全基因组测序中，可处理分离的细胞核以将核小体与DNA解离，同时保持细胞核完整，并且可使用用于生成不含核小体的细胞核的方法(WO 2018/018008)。在一个实施方案中，使用基于洗涤剂的核小体方法(实施例2)。在一些实施方案诸如染色体构象捕获方法中，存在于组织中、细胞中或分离的细胞核中的核酸可例如通过限制性核酸内切酶消化而被片段化。在本文中更详细地描述片段标签化。在一些实施方案诸如染色体构象捕获方法中，存在于组织中、细胞中或分离的细胞核中的核酸可暴露于基于接近度的连接(诸如平端连接)条件下。

在一些实施方案中，大量初级核酸(例如，来自多个细胞)可用于产生如本文所述的测序文库。在其他实施方案中，单个细胞或细胞核可用作初级核酸的来源，以从单个细胞和细胞核获得序列信息。许多不同的单细胞文库制备方法是本领域已知的。(Hwang等人，Experimental&Molecular Medicine，第50卷，文章编号：96(2018年))，包括但不限于Drop-seq、Seq-well和单细胞组合索引(″sci-″)方法。提供单细胞产品和相关技术的公司包括但不限于：10X genomics、Takara biosciences、BD biosciences、Biorad、1cellbio、isoplexis、CellSee、nanoselect和Dolomite bio。Sci-seq是采用拆分池条形码独特标记大量单细胞或细胞核的核酸内容物的方法框架。通常，细胞核或细胞的数量可以是至少两个。上限取决于如本文所述方法的其他步骤中使用的设备的实际限制(例如，多孔板、索引数量)。可使用的细胞核或细胞的数量并非旨在受到限制，相反可以数十亿计。例如，在一个实施方案中，细胞核或细胞的数量可不大于100,000,000、不大于10,000,000、不大于1,000,000,000、不大于100,000,000、不大于10,000,000、不大于1,000,000、不大于100,000、不大于10,000、不大于1,000、不大于500或不大于50。

衔接子

本公开的方法可包括将衔接子添加到靶核酸的两端。用于制备测序文库的许多衔接子是已知的，并且可使用基本上任何衔接子。例如，衔接子可以是单链的、双链的，或包括双链区域和单链区域。在一个实施方案中，具有单链区域和双链区域两者的衔接子的单链区域可用作″粘性末端″，以有助于将该衔接子连接到在每个末端处具有互补单链区域的靶核酸。在一个实施方案中，具有单链区域和双链区域两者的接头也称为叉形接头或错配接头，其一般特征是已知的(Gormley等人，US 7,741,463；Bignell等人，US 8,053,192)。在一个实施方案中，衔接子作为转座体复合物的一部分存在。在本文中详细描述了转座体复合物。

用于添加到靶核酸两端的衔接子的一端或两端可被修饰以改变该衔接子与其他核酸的相互作用。在一个实施方案中，衔接子的一个3′端可被封端，以减少该特定末端的连接效率的相互作用。在一个实施方案中，将衔接子例如双链衔接子添加到靶核酸的每个末端，导致所得经修饰的靶核酸的一条链中的间隙。在一个实施方案中，该间隙是至少一个核苷酸。在一个实施方案中，该间隙位于靶核酸的3′端与附接到该靶核酸的衔接子的5′端之间。

衔接子可包含一个或多个索引序列、一个或多个UMI、一个或多个通用序列、一个或多个DNA损伤或它们的组合。如本文更详细地描述的，衔接子中的索引序列的存在能够有助于基于sci的应用、样品索引或单细胞识别。

DNA损伤的核苷酸具有以下结构：当DNA聚合酶在DNA合成期间用作模板时，使得某些DNA聚合酶活性降低并停止或终止DNA损伤处的DNA合成。这种类型的DNA聚合酶在本文中称为″不耐受损伤的聚合酶″。可用作DNA损伤的核苷酸的示例是技术人员已知的，并且包括但不限于无碱基位点、经修饰的碱基、错配、单链断裂或交联核苷酸。经修饰的碱基的示例包括但不限于甲基化碱基(例如，N3-甲基腺嘌呤、N7-O6-甲基鸟嘌呤、N3-甲基胞嘧啶、O4-甲基胸腺嘧啶)、O6-烷基鸟嘌呤、O4-烷基胸腺嘧啶、次黄嘌呤、黄嘌呤和尿嘧啶。经修饰的碱基还可包括氧化碱基，包括但不限于Fapy TA、8-氧代-G和胸腺嘧啶二醇。交联核苷酸的示例包括但不限于胸腺嘧啶二聚体。

不耐受损伤的聚合酶是技术人员已知的(Heyn等人，Nucleic Acids Res.，2010年9月；第38卷第16期：第e161页；Sikorsky等人，Biochem Biophys Res Commun.，2007年4月6日；第355卷第2期：第431-437页；和Gruz等人，Nucleic Acids Res.，2003年7月15日；第31卷第14期：第4024-4030页)。表1中示出了有用的不耐受损伤的聚合酶的示例。

表1

本公开的方法可包括使用不耐受损伤的聚合酶的步骤，并且还可包括使用DNA聚合酶的另一步骤，该DNA聚合酶使用DNA损伤作为模板时活性没有降低。当使用DNA损伤作为模板时活性没有降低的聚合酶在本文中称为″耐受损伤的聚合酶″。耐受损伤的聚合酶是技术人员已知的，并且包括但不限于表1中描述的那些聚合酶。耐受损伤的聚合酶的使用可在将对称修饰的靶核酸转化为不对称修饰的靶核酸期间发生，并且通常导致所得扩增子中DNA损伤的减少。本文描述了在转化期间的耐受损伤的聚合酶的使用。

DNA损伤可包括具有降低DNA聚合酶活性的活性的一个或多个核苷酸。例如，构成DNA损伤的核苷酸的数量可以是至少1个、至少2个、至少3个、至少4个或至少5个。在一个实施方案中，构成DNA损伤的核苷酸的数量可不大于5个、不大于4个、不大于3个或不大于2个。在一个实施方案中，DNA损伤是2个、3个或4个尿嘧啶核苷酸。如果DNA损伤包括多于一个核苷酸，则DNA损伤的核苷酸通常是连续的。

DNA损伤通常在存在于靶核酸的每个末端处的衔接子的一条链中存在。在一个实施方案中，当衔接子包含DNA损伤并且间隙在衔接子连接到靶核酸的情况下存在于一条链中时，该DNA损伤和该间隙位于不同链上。

衔接子还可包含捕获剂。如本文所用，术语″捕获剂″是指能够附接、保留或结合到核酸(例如，衔接子的一条链)的材料、化学物质、分子或它们的部分。示例性捕获剂包括但不限于能够与受体-配体对的成员结合的受体-配体结合对的成员(例如，抗生物素蛋白、链霉亲和素、生物素、凝集素、碳水化合物、核酸结合蛋白、表位、抗体等)，或能够与连接部分形成共价键的化学试剂。在一个实施方案中，捕获剂是生物素。捕获剂可附接到衔接子的链并附接到衔接子的末端，使得该捕获剂不干扰衔接子与靶核酸的附接。例如，衔接子的5′端可包含捕获剂，或衔接子的3′端可包含捕获剂。在一个实施方案中，捕获剂附接到转座子的一条链的5′端，或附接到转座子的另一条链的3′端。捕获剂可用于将衔接子附接到固体表面，诸如小珠或孔。

衔接子还可包括捕获剂与衔接子之间的可裂解接头。可裂解接头的示例包括但不限于二硫键，其可被例如二硫苏糖醇裂解以释放捕获剂。具有可裂解接头的捕获剂(包括具有可裂解接头的生物素标记的核苷酸)是可商购获得的。

用对称衔接子产生靶核酸

本文提供的方法、组合物、系统和试剂盒可任选地包括处理初级核酸，以获得具有适用于测序的长度，并且由于在每个末端处具有相同衔接子而对称的经修饰的靶核酸。初级核酸的样品可包括高分子量材料(诸如基因组DNA)或低分子量材料(诸如从液体活检或通过将RNA转化为DNA而获得的核酸分子)。用于将存在于主体中的、存在于分离的细胞核中的或存在于分离的细胞中的核酸处理成核酸片段的各种方法是已知的。在一个实施方案中，使用转座体复合物并导致添加衔接子。在另一实施方案中，DNA例如通过酶促或机械方法被片段化，然后将衔接子添加到这些片段的末端。在另一实施方案中，将RNA分子(诸如mRNA)转化为cDNA并将衔接子添加到末端。

转座体复合物是与转座子序列结合的转座酶，通常包含转座酶识别位点并且可将该转座酶识别位点插入DNA分子内的靶核酸中，这一过程有时称为″片段标签化″。片段标签化组合成单个步骤片段标签化和连接以添加通用衔接子(Gunderson等人，WO 2016/130704)。技术人员将认识到，片段标签化通常用于产生核酸片段，这些核酸片段在每个末端处包含不同衔接子，因为不对称靶核酸的产生可利用转座而轻松有效地完成，并且这些不对称靶核酸准备用于测序。用于产生不对称靶核酸的片段标签化方法是有用但低效的，并且通常将理论产量降低到50％。相反，如本公开的方法中所使用的，片段标签化产生在每个末端处包含相同核苷酸序列并且可将理论产量增加到接近100％的核酸片段。

在一些实施方案中，转座子的一条链可在插入事件期间转移到(例如，共价附接)靶核酸的5′端上。这条链被称为″转移链″。转座子序列可包含衔接子，该衔接子可包含一个或多个索引序列、一个或多个UMI、一个或多个通用序列、一个或多个DNA损伤或它们的组合。在一个实施方案中，通用序列是转座酶识别位点。转座酶识别位点的示例包括但不限于镶嵌元件(ME)。在一个实施方案中，衔接子(例如一个或多个索引序列、一个或多个UMI、一个或多个通用序列、一个或多个DNA损伤或它们的组合)存在于转移链上。在一些实施方案中，转座子的一条链可在插入事件期间不转移到(例如，不共价连接)靶核酸的3′端上。这条链被称为″非转移链″。非转移链的存在可导致在转座反应期间生成靶核酸的核苷酸复制，并导致在衔接子序列的5与靶核酸的3′端之间的间隙。该间隙的大小可以是变化的并且通常取决于所使用的转座子系统。例如，由基于Tn5的系统引入的间隙通常是9个碱基。

一些实施方案可包括使用超高活性Tn5转座酶和Tn5型转座酶识别位点(Goryshin和Reznikoff，J.Biol.Chem.，第273卷：第7367页(1998年))，或MuA转座酶和包含R1和R2末端序列的Mu转座酶识别位点(Mizuchi，K.，Cell，第35卷：第785页，1983年；Savilahti，H等人，EMBO J.，第14卷：第4893页，1995年)。Tn5嵌合端(ME)序列、转座酶识别位点也可由技术人员优化使用。

可与本文提供的方法、组合物、系统和试剂盒的某些实施方案一起使用的转座系统的更多示例包括金黄色葡萄球菌(Staphylococcus aureus)Tn552(Colegio等人，J.Bacteriol.，第183卷：第2384-2388页，2001年；Kirby C等人，Mol.Microbiol.，第43卷：第173-186页，2002年)、Ty1(Devine和Boeke，Nucleic Acids Res.，第22卷：第3765-3772页，1994年和国际公布WO 95/23875)、转座子Tn7(Craig，NL，Science.，第271卷：第1512页，1996年；Craig，N L的综述，Curr Top Microbiol Immunol.，第204卷：第27-48页，1996年)、Tn/O和IS10(Kleckner N等人，Curr Top Microbiol Immunol.，第204卷：第49-82页，1996年)、Mariner转座酶(Lampe D J等人，EMBO J.，第15卷：第5470-5479页，1996年)、Tc1(PlasterkRH，Curr.TopicsMicrobiol.Immunol.，第204卷：第125-143页，1996年)、P转座子(P Element)(Gloor，G B，Methods Mol.Biol.，第260卷：第97-114页，2004年)、Tn3(Ichikawa和Ohtsubo，J Biol.Chem.第265卷：第18829-18832页，1990年)、细菌插入序列(Ohtsubo和Sekine，Curr.Top.Microbiol.Immunol.，第204卷：第1-26页，1996年)、逆转录病毒(Brown等人，Proc Natl Acad Sci USA，第86卷：第2525-2529页，1989年)和酵母的反转录转座子(Boeke和Corces，Annu Rev Microbiol.，第43卷：第403-434页，1989年)。更多的示例包括IS5、Tn10、Tn903、IS911以及转座酶家族酶的工程化形式(Zhang等人，(2009年)PLoS Genet.，第5卷：第e1000689页电子期刊2009年10月16日；Wilson C.等人(2007年)J.Microbiol.Methods，第71卷：第332-335页)。

可与本文提供的方法和组合物一起使用的整合酶的其他示例包括逆转录病毒整合酶和此类逆转录病毒整合酶的整合酶识别序列，诸如来自HIV-1、HIV-2、SIV、PFV-1、RSV的整合酶。

美国专利申请公布2012/0208705、美国专利申请公布2012/0208724和国际专利申请公布WO 2012/061832中提供了可与本文所述的方法和组合物一起使用的转座子序列。

各种转座体复合物构型是本领域已知的。在一个实施方案中，转座体复合物包括具有两个亚基和两个非连续转座子序列的二聚转座酶。此类转座体的示例是本领域已知的(参见例如，美国专利申请公布2010/0120098)。在一些实施方案中，转座体复合物包括转座子序列核酸，该转座子序列核酸结合两个转座酶亚基以形成″环状复合物″或″环状转座体″。在一个示例中，转座体包括二聚转座酶和转座子序列。环状复合物可确保转座子插入到靶DNA中，同时保持原始靶DNA的排序信息而不会使靶DNA片段化。应当理解，环状结构可将期望的衔接子序列插入到靶核酸中，同时保持该靶核酸的物理连接性。在一些实施方案中，环状转座体复合物的转座子序列可包括片段标签化位点，使得转座子序列可被片段化以产生含有两个转座子序列的转座体复合物。此类转座体复合物可用于确保其中插入转座子的相邻靶DNA片段接受可在测定的后续阶段明确组装的条形码组合。

通过使用转座体复合物可将片段标签化位点引入靶核酸中。在一个实施方案中，在将核酸片段化之后，转座酶保持附接到核酸片段，使得来源于相同基因组DNA分子的核酸片段仍保持物理连接(Adey等人，2014年，Genome Res.，第24卷：第2041-2049页)。裂解可通过生物化学、化学或其他方式进行。在一些实施方案中，片段标签化位点可包括可通过各种方式片段标签化的核苷酸或核苷酸序列。片段标签化位点的示例包括但不限于限制性核酸内切酶位点、可用RNA酶裂解的至少一种核糖核苷酸、在某种化学试剂的存在下可裂解的核苷酸类似物、可通过用高碘酸盐处理来裂解的二醇键、可用化学还原剂裂解的二硫化物基团、可经受光化学裂解的可裂解部分，以及可通过肽酶或其他合适的方式裂解的肽(参见，例如，美国专利申请公布2012/0208705、美国专利申请公布2012/0208724和WO 2012/061832中)。

在初级核酸是DNA的那些实施方案中，转座的结果是经修饰的靶核酸的文库，其中每个片段在每个末端处包含对称衔接子。相反，在初级核酸是RNA的那些实施方案中，转座的结果是至多三种不同类型的经修饰的靶核酸。第一群体包括经修饰的靶核酸的文库，其中每个片段在每个末端处包含对称衔接子。第二群体和第三群体各自包括由转座子在一个末端和在另一末端(即，与RNA的3′端或5′端对应的末端)处引入的衔接子，该衔接子通过替代性方法(诸如模板转换引物、随机引物或聚T)来添加。

作为转座的替代，靶核酸可通过片段化获得。从样品中片段化初级核酸可通过酶促、化学或机械方法以无序的方式完成，然后将接头添加至片段的末端。酶促片段标签化的示例包括CRISPR和Talen样酶，以及解开DNA的酶(例如，解旋酶)，这些酶可形成单链区域，DNA片段可与该单链区域杂交并引发延伸或扩增。例如，可使用基于解旋酶的扩增(Vincent等人，2004年，EMBO Rep.，第5卷第8期：第795-800页)。在一个实施方案中，用随机引物引发延伸或扩增。机械片段标签化的示例包括雾化或超声处理。

通过机械方式对初级核酸进行片段化会产生具有平端和3′-悬端和5′-悬端的异质混合物的片段。因此，希望使用本领域已知的方法来修复片段末端，以生成最适合将衔接子添加到例如平端位点的末端。在一个具体实施方案中，核酸群体的片段末端是平端。更具体地，片段末端是平端且磷酸化的。可经由酶处理例如使用多核苷酸激酶引入磷酸部分。

在一个实施方案中，片段化的核酸用悬突的核苷酸制备。例如，单个悬突的核苷酸可通过某些类型的DNA聚合酶诸如Taq聚合酶或Klenow exo-聚合酶的活性来添加，该聚合酶具有将单个脱氧核苷酸(例如，核苷酸″A″)添加到DNA分子的3′端的非模板依赖性末端转移酶活性。此类酶可用于将单个核苷酸″A″添加到双链核酸片段的每条链的平端3′末端。因此，可通过与Taq或Klenow exo-聚合酶反应将″A″添加到双链靶标片段的每个末端修复链的3′末端，而接头可为具有在通用接头的双链核酸的每个区域的3′末端上存在的相容″T″悬端的T构建体。在一个示例中，末端脱氧核苷酸转移酶(TdT)可用于添加多个″T″核苷酸(Swift Biosciences，Ann Arbor，MI)。这种类型的末端修饰还防止载体和靶标两者的自连接，使得偏向于形成在每个末端处具有相同衔接子的靶核酸。

可通过各种方法将衔接子添加到片段化的DNA或不对称的DNA靶核酸的末端，这些方法包括例如将双链衔接子连接到退火引物的片段或延伸部分的末端。双链衔接子与片段末端的连接可以是平端的，或通过使用存在于这些片段末端处的悬端来辅助。还可使用包括连接或聚合(例如，TdT标记)的单链或双链衔接子来添加衔接子。在一个实施方案中，衔接子被配置为导致在所得经修饰的靶核酸的一条链中的间隙。在一个实施方案中，该间隙是至少一个核苷酸。在一个实施方案中，该间隙位于靶核酸的3′端与附接到该靶核酸的衔接子的5′端之间。

在初级核酸是RNA的那些实施方案中，产生具有对称衔接子的靶核酸通常包括将RNA转化为DNA，其中任选地在一端或两端处引入衔接子。可使用各种方法来将衔接子添加到mRNA的3′侧。例如，可利用用于产生cDNA的常规方法来添加衔接子。可将在3′端处具有聚T序列并且在聚T序列上游具有衔接子的引物与mRNA分子退火，并使用逆转录酶进行延伸。这导致mRNA一步转化为DNA，并且任选地将该衔接子添加到3′端。在一个实施方案中，引物还可包括一个或多个索引序列、一个或多个UMI、一个或多个通用序列或它们的组合。在一个实施方案中，使用随机引物。

也可使用各种方法将非编码RNA转化为DNA并任选地进行修饰以包含衔接子。例如，可使用包含随机序列和模板转换引物的第一引物来添加衔接子，其中任一引物可包含衔接子。可使用具有末端转移酶活性的逆转录酶，以将非模板核苷酸添加到合成链的3′端，并且模板转换引物包括与逆转录酶所添加的非模板核苷酸退火的核苷酸。可用的逆转录酶的示例为莫洛尼鼠白血病病毒逆转录酶。在具体实施方案中，SMARTer^TM试剂可购自美国Takara Bio有限公司(目录号634926)，其用于使用模板转换将索引添加到非编码RNA和mRNA(如果期望)。任选地，模板转换引物可与mRNA一起使用，并且结合带有聚T序列的引物，以将通用序列添加至由RNA产生的DNA靶核酸的两端。在一个实施方案中，将相同衔接子添加到两端。

靶核酸群体可具有期望的或适用于本文阐述的方法或组合物的具体应用的平均链长度。例如，在本文阐述的方法的一个或多个步骤中使用的成员或存在于具体组合物、系统或试剂盒中的成员的平均链长度可小于约100,000个核苷酸、50,000个核苷酸、10,000个核苷酸、5,000个核苷酸、1,000个核苷酸、500个核苷酸、100个核苷酸或50个核苷酸。另选地或除此之外，平均链长度可大于约10个核苷酸、50个核苷酸、100个核苷酸、500个核苷酸、1,000个核苷酸、5,000个核苷酸、10,000个核苷酸、50,000个核苷酸或100,000个核苷酸。靶核酸群体的平均链长度可在上述最大值与最小值之间的范围内。应当理解，在扩增位点处生成(或在本文中以其他方式制备或使用)的扩增子可具有在选自上文例示的那些上限与下限之间的范围内的平均链长度。

在一些实施方案中，靶核酸的大小与扩增位点的区域有关，例如，用于促进排除扩增。例如，阵列的位点中的每个位点的区域可大于靶核酸的排除体积的直径以便实现排除扩增。例如，采取使用表面上的特征阵列的实施方案，这些特征中的每个特征的区域可大于被转运到扩增位点的靶核酸的排除体积的直径。靶核酸的排除体积及其直径可例如根据该靶核酸的长度确定。用于确定核酸的排除体积和该排除体积的直径的方法描述于例如美国专利7,785,790；Rybenkov等人，Proc.Natl.Acad.Sci.美国，第90卷：第5307-5311页(1993年)；Zimmerman等人，J.Mol.Biol.第222卷：第599-620页(1991年)；或Sobel等人，Biopolymers，第31卷：第1559-1564页(1991年)。

通过片段标签化或片段化产生初级核酸片段，然后可通过净化处理来处理这些靶核酸，以增强分子的纯度。可使用任何合适的净化处理，诸如电泳、尺寸排阻色谱法等。在一些实施方案中，固相可逆固定顺磁珠可用于从例如未掺入的引物中分离所需的DNA分子，并基于大小选择核酸。固相可逆固定顺磁珠可从贝克曼库尔特公司(Beckman Coulter)(Agenhe AMPure XP)、赛默飞世尔公司(Thermofisher)(MagJet)、欧米茄生物技术公司(Mag-Bind)、Promega Beads公司(Promega)和Kapa生物系统公司(Kapa Pure Beads)商购获得。

将靶核酸从对称转化为不对称

本文提供的方法、组合物、系统和试剂盒包括将对称靶核酸转化为具有不对称衔接子的靶核酸。如本文所讨论的，在一些实施方案中，将衔接子添加到靶核酸的每个末端，导致所得经修饰的靶核酸的每条链中的间隙。在一个实施方案中，该间隙位于靶核酸的3′端与附接到靶核酸的每个末端的衔接子的5′端之间。在一个实施方案中，该间隙可填充有核苷酸并使用靶核酸的3′端作为引物来连接该间隙。例如，在使用转座体复合物的一些实施方案中，通过基于Tn5的转座子插入而产生的9bp靶序列复制被延伸。在一个实施方案中，该延伸使用链置换聚合酶以导致上游序列的置换。在一个实施方案中，通过转座产生的靶序列复制不被延伸。在一个实施方案中，使用连接。当延伸用于填充间隙时，可使用不耐受损伤的聚合酶或耐受损伤的聚合酶。

在一个实施方案中，当衔接子包含DNA损伤并且间隙在衔接子连接到靶核酸的情况下存在于一条链中时，该DNA损伤和该间隙位于不同链上。用于通过延伸而填充间隙的聚合酶将使用模板链中的DNA损伤，并且如果该聚合酶是不耐受损伤的，则延伸将被终止。因此，当存在这种构型时，使用不耐受损伤的聚合酶导致仅保留间隙的衔接子下游的衔接子序列的一部分。这进而导致修饰靶核酸的一个衔接子和产生不对称靶核酸。技术人员将认识到，不对称靶核酸可用于包括双端测序反应的测序反应中；然而，本公开的方法提供了本文将描述的其他优点。

图2中示出了可在产生对称靶核酸并且然后修饰一个衔接子以产生不对称靶核酸的一个实施方案中出现的结构的示例。图2A中示出了用对称衔接子22示出的例示性靶核酸20。在该例示性实施方案中，对称衔接子包含DNA损伤(由U表示)。一条链的3′端被封端(由*表示)，另一条链的3′端包括悬端。衔接子可包含一个或多个通用序列、一个或多个索引序列、一个或多个UMI或它们的组合。在将衔接子附接到靶核酸20的每个末端之后，经修饰的靶核酸23包含在原始靶核酸20的3′端处的间隙24。用不耐受损伤的聚合酶进行的对经修饰的靶核酸23延伸始于间隙24的3′端处并止于DNA损伤U处，并且图2C中示出了所得经修饰的靶核酸25。经修饰的靶核酸25变性产生不对称靶核酸26，其中该不对称靶核酸在一个末端处包含具有DNA损伤的对称衔接子22的链，并且在另一末端处包含位于该间隙与该DNA损伤之间的对称衔接子序列的一部分27。

在将对称靶核酸修饰为具有不对称衔接子的靶核酸之后，这些不对称靶核酸可被进一步修饰。例如，可通过特异性靶向这些末端中的一个末端来添加序列，例如将核苷酸添加到第一衔接子(该第一衔接子被添加到靶核酸)或将核苷酸添加到经修饰的衔接子，以产生不对称靶核酸。在一个实施方案中，该修饰可包括在延伸反应中使用引物以将第二衔接子添加到经修饰的衔接子，以产生不对称靶核酸(例如，如图2D中所示的衔接子22至27的修饰)。

该修饰中使用的引物可包含至少两个结构域。第一结构域存在于引物的3′端，并且包含与经修饰的衔接子的一部分退火以产生不对称靶核酸的序列。第一结构域在本文中也称为退火结构域。技术人员将认识到，如果第一结构域具有足以进行特异性退火的长度，则引物在该方法中将是有用的。技术人员还将认识到，如果与引物退火的核苷酸包括不对称衔接子的3′核苷酸，则引物在该方法中将是有用的，从而使得3′核苷酸是用于使用引物的第二结构域作为模板进行延伸的合适起始位点。还可使用连接来修饰不对称靶核酸的3′端。

在一个实施方案中，退火结构域的一个或多个核苷酸是经改变的核苷酸。经改变的核苷酸是在比对应的天然DNA核苷酸更高的解链温度下变性的核苷酸，例如，核苷酸氢键具有互补的天然核苷酸A、T、G或C，该互补的天然核苷酸A、T、G或C具有比对应的天然DNA核苷酸更大的强度。经改变的核苷酸的示例包括但不限于锁核酸(LNA)、桥核酸(BNA)、伪互补碱基、肽核酸(PNA)、2，6-二氨基嘌呤、5′methyldC、SuperT、RNA核苷酸，或本领域已知的升高解链温度的基本上任何核苷酸或碱基。引物的第一结构域中的经改变的核苷酸的数量可以是至少1个、至少2个、至少3个、至少4个或至少5个。在一些实施方案中，使用天然核苷酸和经改变的核苷酸的组合。在一个实施方案中，经改变的核苷酸距聚合酶起始位点至少5个、至少10个或至少15个核苷酸。在一个实施方案中，可通过常规滴定来确定用于延伸的引物的浓度。

在一个实施方案中，将引物或衔接子的3′端封端以防止DNA聚合酶在引物的3′端掺入核苷酸。将引物的3′端封端的方式的示例包括但不限于移除3′-OH基团，或通过使在引物的3′端存在核苷酸(诸如双脱氧核苷酸(ddNTP))、反向碱基、不含互补序列的附加碱基、或错配碱基。

引物的第二结构域具有包含衔接子的核苷酸序列。衔接子可包含一个或多个索引序列、一个或多个UMI、一个或多个通用序列或它们的组合。通常，与已经存在于不对称靶核酸中的任何索引序列、UMI和通用序列相比，存在于衔接子中的任何索引序列、UMI和通用序列都是独特的。在一些实施方案中，如果存在的通用序列可位于引物的5′端，则任何任选的序列诸如索引或UMI可存在于第一结构域与通用序列之间。

引物用于延伸或连接在一个末端处具有对称衔接子并且在另一末端处具有不对称衔接子的单链不对称靶核酸的3′端。

在一些实施方案中，该延伸的有效性取决于退火温度，并且技术人员可使用温度滴定和扩增(诸如qPCR)来容易地识别可用的退火温度。在一个实施方案中，不耐受损伤的DNA聚合酶用于该延伸。该延伸的结果是一种不对称靶核酸，其在一个末端处保留对称衔接子，并且在另一末端处修饰不对称衔接子以包含另一衔接子。

天然核苷酸A、T、G和C可用于延伸。在一些实施方案中，使用非天然核苷酸。例如，可使用甲基化胞嘧啶。甲基化胞嘧啶在甲基化测序应用中是有利的(WO 2017/106481)，因为在胞嘧啶转化为尿嘧啶期间，衔接子引物通常不会转化。

在一个实施方案中，重复该延伸反应。发明人发现使用具有双结构域引物(该双结构域引物具有至少一个经改变的核苷酸)的多个延伸循环导致不对称修饰的靶核酸的产量令人惊讶且出乎意料地增加，以接近理论最大产量。在一个实施方案中，延伸的数量可以是至少1个、至少3个、至少5个、至少7个、至少9个或至少10个。在一个实施方案中，延伸的数量可不大于15个、不大于13个或不大于11个。在一个实施方案中，延伸的数量是10个。

图3中示出了可在通过片段标签化产生对称靶核酸并且然后修饰一个衔接子以产生不对称靶核酸的一个实施方案中出现的结构的另一示例。图3A中示出了具有靶核酸30和对称衔接子32的例示性经修饰的靶核酸33。衔接子可包含一个或多个通用序列、一个或多个索引序列、一个或多个UMI或它们的组合。在该例示性实施方案中，对称衔接子32包括DNA损伤(由U表示)、间隙34和通用序列诸如转座酶识别结构域35。用不耐受损伤的聚合酶进行的经修饰的靶核酸33延伸始于间隙34的3′端处并止于DNA损伤U处，并且图3B中示出了变性之后的所得经修饰的靶核酸36。不对称靶核酸36在一个末端处包含具有DNA损伤的对称衔接子32的链。在另一末端，不对称靶核酸36包含不对称衔接子37，例如位于间隙与DNA损伤之间的对称衔接子序列的一部分。图3C还示出了进一步修饰不对称靶核酸36以包含另一衔接子的例示性实施方案。双结构域引物38包含与不对称衔接子37退火的一个结构域39和包含不同衔接子的第二结构域40。在该例示性实施方案中，包含封端(*)以减少在引物38的3′端处引发的延伸。任选地用不耐受损伤的聚合酶进行的图3C中由虚线表示的延伸开始于不对称靶核酸36的3′端处，添加不同的衔接子40，并产生如图3D中所示的不对称靶核酸41。

图4中示出了可在通过片段标签化产生对称靶核酸并且然后修饰一个衔接子以产生不对称靶核酸的一个实施方案中出现的结构的另一示例。两个转座酶和转座子的例示性转座体复合物41包含衔接子42(图4A)。每个衔接子包含引物(P5)、索引(i5)、通用锚定序列(A14)、DNA损伤尿嘧啶(U)、转座酶识别序列(ME)和转座酶识别序列的互补序列(ME′)。衔接子还包含任选的捕获剂(B)和附接到一条链的5′端的任选的可裂解接头(CL)，以及附接到另一条链的3′端的任选的封端双脱氧核苷酸(ddC)。在一些实施方案中，转换捕获剂-可裂解接头和封端基团的布置。图4B示出了仍与转座酶复合的经标记和片段化的核酸。为简单起见，对二聚体的描述示于图4A中，但未示于图4B中。图4C描绘了移除转座酶之后以及用不耐受DNA损伤的聚合酶填充间隙后的结构。图4D描绘了具有与之杂交的双结构域引物43的图4C的顶部链。双结构域引物43包含与互补ME’退火的一个结构域ME和包含不同衔接子序列B15、i7和P7的第二结构域。图4E描绘了基于双结构域引物序列的顶部链延伸的结果。图4F描绘了移除引物之后的经标记的文库片段。图4D中由虚线表示的延伸开始于ME′的3′端处，添加不同的衔接子43，并产生如图4F中所示的不对称靶核酸。

不对称靶核酸的文库可暴露于移除DNA损伤的条件下，并且任选地将一个或多个另外的衔接子添加到这些不对称靶核酸的一端或两端，并因此用一个或多个通用序列、一个或多个索引序列、一个或多个UMI序列或它们的组合进一步修饰一端或两端。在一个实施方案中，移除DNA损伤的条件包括用耐受损伤的DNA聚合酶进行的延伸。表1中示出了合适的耐受损伤的DNA聚合酶的示例。耐受损伤的DNA聚合酶可用于通过DNA损伤读段的任何类型的延伸反应中，并且所得合成链不再包含DNA损伤。在一个实施方案中，移除DNA损伤的条件包括修复系统。DNA修复系统包括用于固定或修复DNA损伤的酶和机构，并且包括但不限于切除修复系统和DNA修复系统。DNA修复系统是本领域已知的(Chaudhuri等人，NatureReviews Molecular Cell Biology，2017年，第18卷：第610-621页)。在使用DNA修复系统之后，将不对称靶核酸的文库暴露于包括延伸反应的条件下。

在一个实施方案中，通过显著增加不对称靶核酸的数量的方法来进行延伸。在一个实施方案中，该方法可以是扩增，包括但不限于聚合酶链反应(PCR)和滚环扩增(RCA)。

在一个实施方案中，该方法包括使用与表面(诸如小珠或孔的表面)结合的转座体复合物。通常，在此类实施方案中，转座子的链中的一条链包含捕获剂，诸如生物素。捕获剂的使用允许有利地减少产生不对称靶核酸的步骤的方法。例如，捕获剂和任选的可裂解接头可附接到一条链(例如，图4中的衔接子42的链，该衔接子包含引物P5、索引i5、通用锚定序列A14、DNA损伤尿嘧啶U和转座酶识别序列ME)的5′端。使用表面结合的转座体复合物片段进行标签化之后，可添加不耐受DNA损伤的聚合酶、dNTP和双结构域引物(诸如图4D中的双结构域引物43)。在暴露于变性条件(例如热量)时，移除转座酶识别序列的互补序列ME′。例如，图4B中所示的ME’不再杂交。聚合酶使用ME作为模板来延伸靶核酸的3′拷贝，从而产生附接到靶核酸的3′端并在止于DNA损伤处的ME’。在另一变性步骤之后，双结构域引物43将与附接到靶核酸的3′端的ME′退火。使用双结构域引物作为模板在ME′处引发延伸以产生不对称靶核酸。然后可从固体表面移除不对称靶核酸。

在使用与表面(诸如小珠或孔的表面)结合的转座体复合物的另一实施方案中，捕获剂和任选的可裂解接头可附接到另一条链(例如，图4中的衔接子42的链，该衔接子包含转座酶识别序列的互补序列ME′)的3′端。使用表面结合的转座体复合物片段进行标签化之后，可添加不耐受DNA损伤的聚合酶、dNTP和双结构域引物(诸如图4D中的双结构域引物43)。在暴露于变性条件(例如热量)时，转座子的另一条链和所附接的靶核酸被释放到溶液中。双结构域引物43可与附接到靶核酸的3′端的ME′退火。使用双结构域引物作为模板在ME′处引发延伸以产生不对称靶核酸。然后可从固体表面移除不对称靶核酸。

索引序列

在一些实施方案中，在测序步骤期间识别靶核酸的来源可能是有用的。对于本领域技术人员来说显而易见的是，这些有用的示例包括但不限于同时分析来自不同来源(例如，不同的受试者、样品、组织或细胞类型)的多个文库。对靶核酸的来源的识别可通过使用隔室化来完成，例如将靶核酸的子集分配到多个隔室中，独特标记靶核酸——通常通过修饰以将包含独特索引序列的衔接子添加到每个隔室中，并且然后合并子集。例如，单细胞组合索引(″sci-″)方法通常使用拆分-合并标记。因此，在一些实施方案中，索引附接到存在于特定隔室中的靶核酸中的每个靶核酸上，并且该索引的存在指示或用于识别在该方法的特定阶段中存在细胞核或细胞群体的隔室。本文描述了索引的用途和核酸在隔室中的分布(也称为隔室化)。

本文所用的索引序列可以是任何合适数量的核苷酸长度(例如1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多)的任何合适序列。四核苷酸标签提供复用256个样品的可能性，并且六碱基标签使得能够处理4096个样品。在一些实施方案中，索引用于标记特异性隔室中的核酸。

如本文所述，修饰不对称靶核酸以添加索引可在生产对称靶核酸期间实现。例如，可在对称衔接子中包含索引。可在后续步骤中选择性地将另外的索引添加到不对称靶核酸的任一末端。

通过添加索引来修饰不对称靶核酸的方法包括但不限于直接包含有引物、延伸、转座或连接。延伸的示例包括但不限于引物的杂交、使用逆转录酶进行的延伸以及扩增。添加到不对称靶核酸的一端或两端的核苷酸序列还可包括一个或多个通用序列和/或UMI。通用序列可用作例如后续步骤中的″着陆区″以退火核苷酸序列，该核苷酸序列可用作将另一核苷酸序列(诸如另一索引、通用序列和/或UMI)添加到不对称靶核酸的引物。因此，掺入索引序列可使用包括一个、两个或更多个步骤的过程，该过程使用延伸(包括杂交、逆转录酶和/或扩增)、连接或转座的基本上任何组合。

在一些实施方案中，掺入索引发生在一轮、两轮、三轮或更多轮分割和池索引中，从而产生单个、两个、三个或多个(例如，四个或更多个)带索引文库，诸如带索引单细胞文库。

该方法可包括多个分配步骤，其中将靶核酸(诸如分离的细胞核或细胞)的群体(在本文中也称为池)拆分成子集。虽然以下就分离的细胞核或细胞进行了讨论，但是技术人员将理解，″拆分和合并″步骤可应用于靶核酸的任何群体。通常，用隔室特异性索引对分离的细胞核或细胞的子集(例如，存在于多个隔室中的子集)加索引，然后将其合并。靶核酸的这种隔室化可在添加索引的任何阶段发生。例如，当添加对称衔接子时和/或当添加另一衔接子时，靶核酸可存在于隔室中。因此，该方法通常包括至少一个″拆分和合并″步骤：获取合并的分离的细胞核或细胞，并且将它们分配，并且添加隔室特异性索引，其中″拆分和合并″步骤的数量可取决于添加到核酸片段的不同索引的数量。相比于其他子集，加索引之前的细胞核或细胞的每个初始子集可以是独特的。在加索引之后，可将这些子集在加索引后合并、拆分成子集、加索引，并且根据需要再次合并，直到将足够数量的索引添加到靶核酸。该过程为每个单细胞或细胞核分配了独特的索引或索引组合。在加索引完成后，例如在添加一个、两个、三个或更多个索引之后，可裂解分离的细胞核或细胞。在一些实施方案中，添加索引和裂解可同时进行。

子集中以及因此每个隔室中存在的细胞核或细胞的数量可为至少1。在一个实施方案中，存在于子集中的细胞核或细胞的数量不大于100,000,000、不大于10,000,000、不大于1,000,000、不大于100,000、不大于10,000、不大于4,000、不大于3,000、不大于2,000、或不大于1,000、不大于500、或不大于50。在一个实施方案中，存在于子集中的细胞核或细胞的数量可以是1至1,000、1,000至10,000、10,000至100,000、100,000至1,000,000、1,000,000至10,000,000、或10,000,000至100,000,000。在一个实施方案中，存在于每个子集中的细胞核或细胞的数量大约相等。存在于子集中以及因此存在于每个隔室中的细胞核的数量部分地基于减少索引冲突的期望，该索引冲突是指在该方法的该步骤中，存在两个具有相同索引组合的细胞核或细胞最终位于同一隔室中。用于将细胞核或细胞分配到子集中的方法是本领域技术人员已知的，并且是常规方法，并且该方法包括荧光活化细胞分选(FACS)简单稀释。

分配步骤(以及后续的添加索引步骤)中的隔室数量可取决于所用的形式。例如，隔室数量可为2至96个隔室(当使用96孔板时)、2至384个隔室(当使用384孔板时)或2至1536个隔室(当使用1536孔板时)。在一个实施方案中，隔室的数量为5000个或更多(TakaraBiosciences，icell8系统)。在一个实施方案中，可使用多个板。在一个实施方案中，每个隔室可为小滴。当所使用的隔室的类型为含有两个或更多个细胞核或细胞的小滴或孔时，可使用任何数量的小滴或孔，诸如至少10,000个、至少100,000个、至少1,000,000个、或至少10,000,000个小滴。通常在合并之前在隔室中对分离的细胞核或细胞的子集加索引。

图5示出了根据本公开的用于单细胞组合索引的一般例示性方法的一般框图。该方法包括提供分离的细胞核或细胞(图5，框50)，并且将分离的细胞核或细胞分配到多个隔室中(图5，框51)。框40是指DNA，并且技术人员将认识到，DNA可以是例如来源于RNA的基因组DNA或DNA。在该方法的该实施方案中，通过添加对称衔接子来用隔室特异性索引对分离的细胞核或细胞加索引(图5，框52)，并且然后将其合并(图5，框53)。因此，该方法通常包括至少一个″拆分和合并″步骤：获取合并的分离的细胞核或细胞，将其分配，并添加隔室特异性索引，其中″拆分和合并″步骤的数量可取决于添加到靶核酸的不同索引的数量。如果要用不对称衔接子添加第二索引，则将合并的分离的细胞核或细胞分配到第二多个隔室中(图5，框53)，并且通过添加不对称衔接子来用隔室特异性索引加索引(图5，框54)。任选地，然后可扩增不对称靶核酸(图5，框55)。扩增不对称靶核酸可包括向一端或两端添加其他有用序列，包括但不限于索引序列、UMI序列和/或通用序列，并且可与进一步的拆分和合并索引组合使用。

所得带索引靶核酸共同提供可测序的核酸文库。术语″文库″(在本文中也称为″测序文库″)是指在其3′端和5′端含有已知通用序列的经修饰的核酸的集合。

应用

本公开提供的方法可容易地整合到包括测序文库制备的基本上任何应用中，诸如全基因组、转录组、甲基化、可及性(例如，ATAC)和构象状态(例如，HiC)。这在基本上需要高文库转化率的任何应用中可能是特别有用的，这些应用诸如但不限于单细胞组合索引(sci)方法，如sci-WGS-seq、sci-MET-seq、sci-ATAC-seq和sci-RNA-seq。与其将测序文库生产的重点放在生成每侧上具有不同通用序列(例如，不对称)的靶核酸上，不如将本公开提供的方法整合到包括更高效地生成每侧上具有相同通用序列(例如，对称)的核苷酸的测序文库生产中。在生成对称片段后，可应用本文所述的用于将对称片段转化为不对称片段的方法。多种测序文库方法是技术人员已知的，这些方法可用于构建全基因组文库或靶向文库(参见，例如，Sequencing Methods Review，可在万维网上的genomics.umn.edu/downloads/sequencing-methods-review.pdf获得)。

在一些实施方案中，应用是全基因组测序或靶向测序。通常，如本文所述处理组织、单个细胞或单个细胞核以产生对称靶核酸(参见实施例2)。在一些实施方案中，可处理单个细胞或单个细胞核以解除核小体与基因组DNA的结合(WO 2018/018008)。然后可如本文所述处理对称修饰的靶核酸以生成不对称修饰的靶核酸。例如，如图6中所示，可固定细胞核以保持细胞核完整性，暴露于从基因组DNA中移除核小体以使整个基因组变得可及的条件下，并且然后插入(例如通过片段标签化)衔接子的一个群体，以产生对称靶核酸。随后，对称靶核酸可如本文所述转化为不对称靶核酸。

在一些实施方案中，应用用于探测可及的DNA，诸如ATAC-seq(使用测序针对转座酶可及的染色质进行的测定)，用于识别可及的DNA。通常，可如本文所述处理组织、单个细胞或具有完整核小体的单个细胞核以产生对称靶核酸(参见实施例2)。然后可如本文所述处理对称修饰的靶核酸以生成不对称修饰的靶核酸。例如，如图7中所示，包含结合的核小体的基因组DNA可被片段标签化以产生对称靶核酸。随后，对称靶核酸可如本文所述转化为不对称靶核酸。

在一些实施方案中，应用用于测序RNA，诸如mRNA。RNA被转化为DNA，并且与使用DNA作为起始材料的应用相反，可在处理成DNA期间将衔接子添加到RNA分子的一端或两端。这提供了RNA的5′和/或3′分析或全长RNA分析的选项。例如，如图8中所示，在一个例示性实施方案中，mRNA分子可在存在包含通用序列的聚T引物以及模板开关引物的情况下经历逆转录酶，以产生在每个末端处包含衔接子(以CS1表示)的双链DNA(图8A)。在将所得双链DNA暴露于转座体复合物(图8B)，并且将对称衔接子转化为不对称衔接子(图8C)之后，可产生三种不同的群体(图8D)。当转座子序列插入双链DNA中并且所得靶核酸的另一末端包含与mRNA的原始3′端相对应的序列时，可产生一个群体(如3′端所示)。当转座子序列插入双链DNA内的两个位置中时，可产生第二群体(如RNA主体所示)。当转座子序列插入双链DNA中并且所得靶核酸的另一末端包含与mRNA的原始5′端相对应的序列时，可产生第三群体(如5′端所示)。

在一些实施方案中，应用是甲基化测序。文献中描述的或本领域技术人员已知的广泛的方法能够实现对甲基化或羟基-甲基化状态的分析，Barros-Silva等人，Genes(Basel).，2018年9月，第9卷第9期：第429页。化学(例如，亚硫酸氢钠或硼酸钠化学)或转化的酶促方法可用于各种甲基化测序方法，这些方法包括但不限于BS-seq、TAB-seq、RRBS-seq、MeDip-seq、MethylCap-seq、MBD-seq、Nanopore-seq、oxBS-seq、SeqCap Epi CpGiant、BSAS、WGBS和sci-MET(WO 2018/226708)。

在一个实施方案中，应用是蛋白质分析。蛋白质可以是细胞内或表面结合的、分离的或存在于生物样品中的。技术人员可使用各种方法。通常用于蛋白质检测的常见方法是用寡核苷酸标签来标记抗体或fab片段，将抗体与所关注蛋白质进行亲和力结合，并且使用寡核苷酸标签作为读出或用于检测。寡核苷酸标签可含有索引序列、UMI、通用序列或它们的组合。

在一些实施方案中，应用是共测定，其中评估两种或更多种不同的分析物或信息。分析物的示例包括但不限于DNA、RNA和蛋白质。核酸可以是不同的状态，例如，表观遗传状态(ATAC、meC、5-hydroxyMe等)或构象状态(例如HiC、3C、染色质状态等)。示例包括分析DNA和RNA、DNA和/或RNA以及表观遗传状态(ATAC、meC、5-hydroxyMe等)、DNA和构象状态(例如HiC、3C、染色质状态等)的测定。

共测定的示例是用于基因组加染色质构象测序(在本文中称为GCC-seq)的基因组DNA的制备。GCC-seq组合了全基因组测序和染色质构象分析，并且当与单个细胞或单个细胞核以及拆分和合并索引组合使用时，以高于常规Hi-C类型方法(参见实施例2)的速率捕获染色质相互作用。如图9中所示，通过例如固定化、用限制性酶消化、邻位连接和核小体耗尽来处理基因组DNA，并且然后添加衔接子以产生对称靶核酸。任选地，可使用分子捕获。可如本文所述处理对称修饰的靶核酸。

用于测序的固定化样品的制备

可制备带索引靶核酸的文库以用于测序。用于将带索引靶核酸附接到基板的方法是本领域已知的。在一个实施方案中，使用对带索引片段具有特异性的多个捕获寡核苷酸来富集带索引片段，并且这些捕获寡核苷酸可固定在固体基板(诸如流通池或小珠)的表面上。例如，捕获寡核苷酸可包括第一数量的通用结合对，并且其中第二数量的该结合对固定在固体基板的表面上。同样，用于扩增固定化靶核酸的方法包括但不限于桥式扩增和动力学排除。用于在测序之前固定和扩增的方法在例如Binoell等人(US 8,053,192)、Gunderson等人(WO2016/130704)、Shen等人(US 8,895,249)和Pipenburg等人(US 9,309,502)中有所描述。

可将合并的样品固定，以为测序做准备。测序可作为单分子阵列来执行或者可在测序之前进行扩增。可使用一个或多个固定化引物来执行扩增。固定化引物可以是例如在平坦表面上或在小珠池上的引物苔(lawn)。可在乳液的每个″隔室″中将小珠池分离到具有单个小珠的乳液中。在浓度为每个″隔室″仅一个模板时，在每个小珠上仅扩增单个模板。

如本文所用，术语″固相扩增″是指在固体载体上进行的或与固体载体相关联的任何核酸扩增反应，使得扩增产物的全部或一部分在形成时固定在该固体载体上。具体地，该术语涵盖固相聚合酶链反应(固相PCR)和固相等温扩增，该固相PCR和固相等温扩增是类似于标准溶液相扩增的反应，不同的是正向扩增引物和反向扩增引物中的一者或两者被固定在固体载体上。固相PCR包括系统诸如乳液，其中一个引物锚定在小珠上，并且另一个引物在自由溶液中；和固相凝胶基质中的群体形成，其中一个引物锚定在表面上，并且一个引物锚定在自由溶液中。

在一些实施方案中，固体载体包括图案化表面。″图案化表面″是指在固体载体的暴露层中或该暴露层上的不同区域的布置。例如，这些区域中的一个或多个区域可以是存在一种或多种扩增引物的特征部。特征部可由不存在扩增引物的间隙区域隔开。在一些实施方案中，图案可以为呈行和列形式的特征部的x-y格式。在一些实施方案中，图案可以为特征部和/或间隙区域的重复布置。在一些实施方案中，图案可以为特征部和/或间隙区域的随机布置。可用于本文所述的方法和组合物中的示例性图案化表面在美国专利8,778,848、8,778,849和9,079,148以及美国专利申请公布2014/0243224中有所描述。

在一些实施方案中，固体载体在表面中包括孔或凹陷的阵列。这可如本领域通常已知的那样使用多种技术来制造，这些技术包括但不限于光刻、压印技术、模制技术和微蚀刻技术。本领域的技术人员将会知道，所使用的技术将取决于阵列基板的组成和形状。

图案化表面中的特征部可以是玻璃、硅、塑料或其他合适的具有图案化的且共价连接的凝胶(诸如，聚(N-(5-叠氮基乙酰胺基戊基)丙烯酰胺-共-丙烯酰胺)(PAZAM，参见例如，美国公布2013/184796、WO 2016/066586和WO 2015/002813)的固体载体上的孔阵列中的孔(例如，微孔或纳米孔)。该方法产生用于测序的凝胶垫，该凝胶垫在具有大量循环的测序运行中可为稳定的。聚合物与孔的共价连接有助于在多种用途期间以及在结构化基板的整个寿命期间将凝胶保持为结构化特征。然而，在许多实施方案中，凝胶无需共价连接到孔。例如，在一些条件下，未共价附接到结构化基板的任何部分的不含硅烷的丙烯酰胺(SFA，参见例如，美国专利8,563,477)可用作凝胶材料。

在特定实施方案中，结构化基板可通过以下方法来制作：将固体载体材料图案化为具有孔(例如，微孔或纳米孔)，用凝胶材料(例如，PAZAM、SFA或其化学改性的变体，诸如SFA的叠氮化版本(叠氮-SFA))涂覆图案化载体，并且例如通过化学或机械抛光来抛光已涂覆凝胶的载体，从而将凝胶保持孔中，而从孔之间的结构化基板的表面上的间隙区域移除基本上所有凝胶或使该基本上所有凝胶失活。引物核酸可附接到凝胶材料。然后可使经修饰的靶核酸的溶液与已抛光的基板接触，使得单个经修饰的靶核酸将通过与附接到凝胶材料的引物的相互作用而接种到单个孔中；然而，由于不存在凝胶材料或该凝胶材料失活，靶核酸将不占用间隙区域。经修饰的靶核酸的扩增将被限制在孔中，因为间隙区域中不存在凝胶或凝胶失活会阻止生长的核酸群体(nucleic acid colony)的向外迁移。该过程可为制造方便地且具有可扩展性的，并且利用常规的微米或纳米制造方法。

虽然本公开涵盖其中仅一个扩增引物被固定(另一引物通常存在于自由溶液中)的″固相″扩增方法，但在一个实施方案中，固体载体被提供有被固定的正向引物和反向引物两者。在实施过程中，将存在固定在固体载体上的″多个″相同正向引物和/或″多个″相同反向引物，因为扩增过程需要过量的引物来维持扩增。除非上下文另有指示，否则本文对正向引物和反向引物的提及应相应地被解释为涵盖″多个″此类引物。

技术读者将会理解，任何给定的扩增反应都需要对待扩增的模板具有特异性的至少一种类型的正向引物和至少一种类型的反向引物。然而，在某些实施方案中，正向引物和反向引物可包括相同序列的模板特异性部分，并且可具有完全相同的核苷酸序列和结构(包括任何非核苷酸修饰)。换句话讲，可以仅使用一种类型的引物进行固相扩增，并且此类单引物方法涵盖在本公开的范围内。其他实施方案可使用包含相同模板特异性序列但在一些其他结构特征方面不同的正向引物和反向引物。例如，一种类型的引物可包含在另一种类型中不存在的非核苷酸修饰。

用于固相扩增的引物优选地通过单点共价附接固定到引物5′端处或附近的固体载体，使得引物的模板特异性部分自由退火至其同源模板，而3′羟基则自由进行引物延伸。本领域已知的任何合适的共价附接方式均可用于此目的。所选择的附接化学将取决于固体载体的性质，以及对其应用的任何衍生化或官能化。引物本身可包含可为非核苷酸化学修饰的部分，以促进附接。在一个具体实施方案中，引物可包含5′端处的含硫亲核试剂，诸如硫代磷酸酯或硫代磷酸盐。就固体承载的聚丙烯酰胺水凝胶而言，该亲核试剂将与水凝胶中存在的溴乙酰胺基团结合。将引物和模板附接到固体载体的更具体的方式是经由5′硫代磷酸酯附接到由聚合的丙烯酰胺和N-(5-溴乙酰氨基戊基)丙烯酰胺(BRAPA)构成的水凝胶，如国际公布WO 05/065814中所述。

本发明的某些实施方案可利用包括惰性基板或基质(例如，载玻片、聚合物小珠等)的固体载体，该惰性基板或基质已例如通过施加包含反应性基团的中间材料层或涂层被″官能化″，该反应性基团允许共价附接到生物分子诸如多核苷酸。此类载体的示例包括但不限于负载在惰性基板诸如玻璃上的聚丙烯酰胺水凝胶。在此类实施方案中，生物分子(例如，多核苷酸)可直接共价附接到中间材料(例如，水凝胶)，但该中间材料本身可非共价附接到基板或基质(例如，玻璃基板)。术语″共价附接到固体载体″应相应地被解释为涵盖这种类型的布置。

可在小珠上扩增合并的样品，其中每个小珠包含正向扩增引物和反向扩增引物。在一个实施方案中，将经修饰的靶核酸的文库用于制备核酸群体的簇阵列，类似于在美国公布2005/0100900、美国专利7,115,400、WO 00/18957和WO 98/44151中所述的通过固相扩增，并且更具体地通过固相等温扩增的那些簇阵列。术语″簇″和″群体″在本文中可互换使用并且是指包括多个相同的固定化核酸链和多个相同的固定化互补核酸链的固体载体上的离散位点。术语″簇阵列″是指由此类簇或集落形成的阵列。在该上下文中，术语″阵列″不应被理解为需要簇的有序布置。

术语″固相″或″表面″用于表示平面阵列，其中引物附接到平坦表面，例如玻璃、二氧化硅或塑料显微镜载片或类似的流通池装置；表示小珠，其中一个或两个引物附接到这些小珠并且这些小珠被扩增；或者表示在小珠已扩增后表面上的小珠阵列。

可使用如WO 98/44151中所述的热循环工艺或使温度保持恒定的工艺来制备簇阵列，并且通过改变试剂来执行延伸和变性的循环。此类等温扩增方法在专利申请号WO 02/46456和美国公布2008/0009420中有所描述。

应当理解，本文所述的或本领域通常已知的扩增方法中的任一种方法可与通用或靶标特异性引物一起用于扩增固定化DNA片段。合适的扩增方法包括但不限于聚合酶链反应(PCR)、链置换扩增(SDA)、转录介导的扩增(TMA)和基于核酸序列的扩增(NASBA)，如美国专利8,003,354中所述。上述扩增方法可用于扩增一种或多种所关注核酸。例如，可利用PCR(包括多重PCR)、SDA、TMA、NASBA等扩增固定化DNA片段。在一些实施方案中，在扩增反应中包括特异性针对所关注多核苷酸的引物。

其他合适的多核苷酸扩增方法可包括寡核苷酸延伸和连接、滚环扩增(RCA)(Lizardi等人，Nat.Genet.第19卷：第225-232页(1998年))和寡核苷酸连接测定(OLA)(通常参见美国专利7,582,420、5,185,243、5,679,524和5,573,907；EP 0 320 308 B1；EP 0336 731 B1；EP 0 439 182 B1；WO 90/01069；WO 89/12696；和WO 89/09835)技术。应当理解，这些扩增方法可被设计成用于扩增固定化DNA片段。例如，在一些实施方案中，扩增方法可包括连接探针扩增或含有特异性针对所关注核酸的引物的寡核苷酸连接测定(OLA)反应。在一些实施方案中，扩增方法可包括引物延伸-连接反应，该引物延伸-连接反应含有特异性针对所关注核酸的引物。作为可被特别设计用于扩增所关注核酸的引物延伸和连接引物的非限制性示例，扩增可包括用于GoldenGate测定(Illumina，Inc.，San Diego，CA)的引物，如美国专利7,582,420和7,611,869所例示。

DNA纳米球还可与如本文所述的方法、系统、组合物和试剂盒组合使用。用于形成和使用DNA纳米球以进行基因组测序的方法可见于例如美国专利和公布7,910,354、2009/0264299、2009/0011943、2009/0005252、2009/0155781、2009/0118488，并且如例如Drmanac等人，(2010年，Science，第327卷第5961期，第78-81页)所述。简而言之，在产生不对称靶核酸后，使这些不对称靶核酸环化并且通过滚环扩增进行扩增(Lizardi等人，1998年，Nat.Genet.，第19卷：第225-232页；US 2007/0099208 A1)。扩增子的延伸的尾相接结构促进卷曲，从而产生紧凑的DNA纳米球。可在基板上捕获DNA纳米球，优选地以产生有序的或图案化的阵列，使得每个纳米球之间的距离得以保持，从而允许对单独的DNA纳米球进行测序。在一些实施方案中，诸如由Complete Genomics公司(Mountain View，Calif.)使用的那些，在环化之前进行连续轮的衔接子添加、扩增和消化，以产生具有由衔接子序列分开的若干个靶核酸的头对尾构建体。

在本公开的方法中可使用的示例性等温扩增方法包括但不限于多重置换扩增(MDA)，由例如Dean等人，Proc.Natl.Acad.Sci.USA，第99卷：第5261-5266页(2002年)所示例的多重置换扩增(MDA)，或由例如美国专利6,214,587所示例的等温链置换核酸扩增。可用于本公开的其他非基于PCR的方法包括：例如链置换扩增(SDA)，其描述于例如Walker等人，Molecular Methods for Virus Detection，Academic Press，Inc.，1995年，美国专利5,455,166和5,130,238，以及Walker等人，Nucl.Acids Res，第20卷：第1691-1696页(1992年)；或超支化链置换扩增，其描述于例如Lage等人，Genome Res.，第13卷：第294-307页(2003年)中。等温扩增方法可与例如链置换Phi 29聚合酶或Bst DNA聚合酶大片段5′->3′exo-一起用于基因组DNA的随机引物扩增。这些聚合酶的使用利用了它们的高持续合成能力和链置换活性。高持续合成能力允许聚合酶产生长度为10kb-20kb的片段。如上所述，可使用具有低持续合成能力和链置换活性的聚合酶(诸如Klenow聚合酶)在等温条件下产生较小的片段。对扩增反应、条件和组分的附加描述在美国专利7,670,810的公开内容中有详细描述。

在一些实施方案中，可使用动力学排除扩增(KEA)来执行等温扩增，其也被称为排除扩增(ExAmp)。本公开的核酸文库可使用包括以下步骤的方法制成：使扩增试剂反应以产生多个扩增位点，该多个扩增位点各自包括来自已接种位点的单个靶核酸的扩增子的基本上克隆的群体。在一些实施方案中，扩增反应继续进行，直到生成足够数量的扩增子以填充相应扩增位点的容量。以这种方式将已接种的位点填充至容量抑制了靶核酸在该位点处着位和扩增，从而在该位点处产生扩增子的克隆群体。在一些实施方案中，在第二靶核酸到达该位点之前，即使扩增位点未被填充至容量，也可实现表观的克隆性。在一些条件下，第一靶核酸的扩增可进行到制备了足够数量的拷贝的点，以有效地超出或压倒来自被转运到位点的第二靶核酸的拷贝的产生。例如，在使用小于500nm的直径的圆形特征的桥式扩增过程的实施方案中，已确定在第一靶核酸的指数扩增14个循环之后，来自相同位点处的第二靶核酸的污染将产生不足够数量的污染扩增子，而不会对Illumina测序平台上的边合成边测序分析产生不利影响。

在一些实施方案中，阵列中的扩增位点可以是但不必是完全克隆的。相反，对于一些应用，单个扩增位点可主要填充有来自第一不对称靶核酸的扩增子，并且还可具有来自第二不对称靶核酸的低水平的污染扩增子。只要污染水平对阵列的后续使用不具有不可接受的影响，阵列就可具有一个或多个具有低水平污染扩增子的扩增位点。例如，当阵列将用于检测应用时，可接受的污染水平将是不会以不可接受的方式影响检测技术的信噪比或分辨率的水平。因此，表观的克隆性通常将与通过本文所述的方法制备的阵列的特定用途或应用相关。对于特定应用，在单个扩增位点处可以是可接受的示例性污染水平包括但不限于至多0.1％、0.5％、1％、5％、10％或25％的污染扩增子。阵列可包括具有这些示例性水平的污染扩增子的一个或多个扩增位点。例如，阵列中高达5％、10％、25％、50％、75％或甚至100％的扩增位点可具有一些污染扩增子。应当理解，在位点的阵列或其他集合中，高达50％、75％、80％、85％、90％、95％或99％或更多的位点可为克隆的或在表观上克隆的。

在一些实施方案中，当过程以足够快的速率发生以有效地排除另一事件或过程发生时，可发生动力学排除。以制备核酸阵列为例，其中阵列的位点用来自溶液的不对称靶核酸随机地接种，并且在扩增过程中生成不对称靶核酸的拷贝以将接种位点中的每个接种位点填充至容量。根据本公开的动力学排除方法，接种和扩增过程可在扩增速率超过接种速率的条件下同时进行。因此，在已由第一靶核酸接种的位点处产生拷贝的相对较快速率将有效地排除第二核酸使其不接种用于扩增的位点。动力学排除扩增方法可如美国专利申请公布2013/0338042的公开内容中详细描述的那样来执行。

动力学排除可利用相对较慢速率(例如制备不对称靶核酸的第一拷贝的较慢速率)对比制备不对称靶核酸的后续拷贝(或不对称靶核酸的第一拷贝)的相对较快速率来引发扩增。在前一段落的示例中，动力学排除的发生归因于不对称靶核酸接种的相对较慢速率(例如，相对较慢的扩散或转运)对比发生扩增以用不对称靶核酸种子的拷贝填充位点的相对较快速率。在另一示例性实施方案中，动力学排除的发生可归因于已接种位点的不对称靶核酸的第一拷贝的形成中的延迟(例如，延迟或缓慢激活)对比制备后续拷贝以填充位点的相对较快速率。在该示例中，单个位点可能已接种有若干不同的不对称靶核酸(例如在扩增之前在每个位点处可能存在的若干不对称靶核酸)。然而，任何给定的不对称靶核酸的第一拷贝形成可被随机激活，使得第一拷贝形成的平均速率与后续拷贝生成的速率相比相对较慢。在这种情况下，虽然单个位点可能已接种有若干不同的不对称靶核酸，但动力学排除将只允许扩增这些不对称靶核酸中的一个不对称靶核酸。更具体地，一旦第一不对称靶核酸已被激活用于扩增，则该位点将用其拷贝快速填充至容量，从而防止在该位点处制备第二不对称靶核酸的拷贝。

在一个实施方案中，执行该方法以同时(i)以平均转运速率将不对称靶核酸转运到扩增位点，以及(ii)以平均扩增速率扩增在这些扩增位点处的这些不对称靶核酸，其中该平均扩增速率超过该平均转运速率(美国专利9,169,513)。因此，在此类实施方案中，动力学排除可通过使用相对较慢的转运速率来实现。例如，可选择足够低浓度的不对称靶核酸以实现期望的平均转运速率，较低浓度导致较慢的平均转运速率。另选地或除此之外，可使用高粘度溶液和/或溶液中分子拥挤试剂的存在来降低转运速率。可用的分子拥挤试剂的示例包括但不限于聚乙二醇(PEG)、聚蔗糖、葡聚糖或聚乙烯醇。示例性分子拥挤试剂和制剂在美国专利7,399,590中有所描述，该专利以引用方式并入本文。可被调节以实现期望的转运速率的另一个因素是靶核酸的平均大小。

扩增试剂还可包含促进扩增子形成并且在一些情况下提高扩增子形成速率的组分。一个示例是重组酶。重组酶可通过允许反复侵入/延伸来促进扩增子形成。更具体地，重组酶可促进通过聚合酶进行不对称靶核酸的侵入以及通过该聚合酶进行的引物的延伸，该聚合酶使用不对称靶核酸作为扩增子形成的模板。该过程可被重复作为链式反应，其中由每轮入侵/延伸产生的扩增子用作后续轮中的模板。由于不需要变性循环(例如，经由加热或化学变性)，因此该过程可比标准PCR更快速地发生。因此，重组酶促进的扩增可等温地进行。通常期望在重组酶促进的扩增试剂中包括ATP或其他核苷酸(或在一些情况下其非可水解的类似物)以促进扩增。重组酶和单链结合(SSB)蛋白的混合物是特别有用的，因为SSB可进一步促进扩增。用于重组酶促进的扩增的示例性制剂包括由TwistDx(Cambridge，UK)市售为TwistAmp试剂盒的那些制剂。重组酶促进的扩增试剂的可用组分和反应条件在US 5,223,414和US 7,399,590中有所描述。

可包括在扩增试剂中以促进扩增子形成并且在一些情况下提高扩增子形成速率的组分的另一个示例是解旋酶。解旋酶可通过允许扩增子形成的链式反应来促进扩增子形成。由于不需要变性循环(例如，经由加热或化学变性)，因此该过程可比标准PCR更快速地发生。因此，解旋酶促进的扩增可等温地进行。解旋酶和单链结合(SSB)蛋白的混合物是特别有用的，因为SSB可进一步促进扩增。用于解旋酶促进的扩增的示例性制剂包括来自Biohelle(Beverly，MA)的市售为IsoAmp试剂盒的那些制剂。此外，包括解旋酶蛋白的可用制剂的示例在US 7,399,590和US 7,829,284中有所描述。

可包括在扩增试剂中以有利于扩增子形成并且在一些情况下提高扩增子形成速率的组分的另一个示例是起点结合蛋白。

测序方法

在将不对称靶核酸附接到表面后，确定固定化且已扩增的不对称靶核酸的序列。可使用任何合适的测序技术进行测序，并且用于确定固定化且已扩增的不对称修饰的靶核酸的序列(包括链再合成)的方法是本领域已知的并且在例如Bignell等人(US 8,053,192)、Gunderson等人(WO2016/130704)、Shen等人(US 8,895,249)和Pipenburg等人(US 9,309,502)中有所描述。

本文所述的方法可与多种核酸测序技术结合使用。特别适用的技术是其中核酸附接到阵列中的固定位置处使得其相对位置不改变并且其中该阵列被重复成像的那些技术。在不同颜色通道(例如，与用于将一种核苷酸碱基类型与另一种核苷酸碱基类型区分开的不同标记吻合)中获得图像的实施方案特别适用。在一些实施方案中，确定不对称靶核酸的核苷酸序列的过程可以是自动化过程。优选的实施方案包括边合成边测序(″SBS″)技术。

SBS技术通常包括通过针对模板链反复加入核苷酸进行的新生核酸链的酶促延伸。在传统的SBS方法中，可在每次递送中在存在聚合酶的情况下将单个核苷酸单体提供给靶核苷酸。然而，在本文所述的方法中，可在递送中存在聚合酶的情况下向靶核酸提供多于一种类型的核苷酸单体。

在一个实施方案中，核苷酸单体包括锁核酸(LNA)或桥核酸(BNA)。在核苷酸单体中使用LNA或BNA增加了核苷酸单体与存在于固定化不对称修饰的靶核酸上的测序引物序列之间的杂交强度。

SBS可使用具有终止子部分的核苷酸单体或缺少任何终止子部分的核苷酸单体。使用缺少终止子的核苷酸单体的方法包括例如焦磷酸测序和使用γ-磷酸标记的核苷酸的测序，如本文进一步详细描述的。在使用缺少终止子的核苷酸单体的方法中，在每个循环中加入的核苷酸的数目通常是可变的，并且该数目取决于模板序列和核苷酸递送的方式。对于使用具有终止子部分的核苷酸单体的SBS技术，终止子在使用的测序条件下可为有效不可逆的，如利用双脱氧核苷酸的传统桑格测序的情况，或者终止子可为可逆的，如由Solexa(现为Illumina有限公司)开发的测序方法的情况。

SBS技术可使用具有标记部分的核苷酸单体或缺少标记部分的核苷酸单体。因此，可基于以下项来检测掺入事件：标记的特性，诸如标记的荧光；核苷酸单体的特性，诸如分子量或电荷；掺入核苷酸的副产物，诸如焦磷酸盐的释放；等等。在测序试剂中存在两种或更多种不同的核苷酸的实施方案中，不同的核苷酸可以是彼此可区分的，或者另选地，两种或更多种不同的标记在所使用的检测技术下可以是不可区分的。例如，测序试剂中存在的不同核苷酸可具有不同的标记，并且它们可使用适当的光学器件进行区分，如由Solexa(现为Illumina，Inc.)开发的测序方法所例示。

优选的实施方案包括焦磷酸测序技术。焦磷酸测序检测当将特定的核苷酸掺入新生链中时无机焦磷酸盐(PPi)的释放(Ronaghi，M.、Karamohamed，S.、Pettersson，B.、Uhlen，M.和Nyren，P.(1996年)，″Real-time DNA sequencing using detectionofpyrophosphate release.″，Analytical Biochemistry，第242卷第1期，第84-89页；Ronaghi，M.(2001年)，″Pyrosequencing sheds light on DNA sequencing.″，GenomeRes.，第11卷第1期：第3-11页；Ronaghi，M.、Uhlen，M.和Nyren，P.(1998年)″A sequencingmethod based on real-time pyrophosphate.″，Science，第281卷第5375期，第363页；美国专利6,210,891、第6,258,568号和第6,274,320号)。在焦磷酸测序中，释放的PPi可通过被腺苷三磷酸(ATP)硫酸化酶立即转化为ATP成来进行检测，并且通过荧光素酶产生的光子来检测所产生的ATP水平。待测序的核酸可附接到阵列中的特征部，并且可对阵列进行成像以捕获由于在阵列的特征部处掺入核苷酸而产生的化学发光信号。可在用特定核苷酸类型(例如，A、T、C或G)处理阵列后获得图像。在添加每种核苷酸类型后获得的图像将在阵列中哪些特征部被检测到方面不同。图像中的这些差异反映阵列上的特征部的不同序列内容。然而，每个特征部的相对位置将在图像中保持不变。可使用本文所述的方法存储、处理和分析图像。例如，在用每种不同核苷酸类型处理阵列后获得的图像可以与本文针对从用于基于可逆终止子的测序方法的不同检测通道获得的图像所例示的相同方式进行处理。

在另一种例示性类型的SBS中，通过逐步添加可逆终止子核苷酸来完成循环测序，这些可逆终止子核苷酸包含例如可裂解或可光漂白的染料标记，如例如WO 04/018497和美国专利7,057,026所述。该方法由Solexa(现为Illumina Inc.)商业化，并且还在WO 91/06678和WO 07/123,744中有所描述。荧光标记终止子(其中终止可以是可逆的并且荧光标记可被切割)的可用性有利于高效的循环可逆终止(CRT)测序。聚合酶也可共工程化以有效地掺入这些经修饰的核苷酸并从这些经修饰的核苷酸延伸。

在一些基于可逆终止子的测序实施方案中，标记在SBS反应条件下基本上不抑制延伸。然而，检测标记可以是可移除的，例如通过裂解或降解移除。可在将标记掺入到阵列化核酸特征部中后捕获图像。在特定实施方案中，每个循环涉及将四种不同的核苷酸类型同时递送到阵列，并且每种核苷酸类型具有在光谱上不同的标记。然后可获得四个图像，每个图像使用对四个不同标记中的一个标记具有选择性的检测通道。另选地，可顺序地添加不同的核苷酸类型，并且可在每个添加步骤之间获得阵列的图像。在此类实施方案中，每个图像将示出已掺入特定类型的核苷酸的核酸特征部。由于每个特征部的不同序列内容，不同特征部将存在于或不存在于不同图像中。然而，特征部的相对位置将在图像中保持不变。通过此类可逆终止子-SBS方法获得的图像可如本文所述进行存储、处理和分析。在图像捕获步骤后，可移除标记并且可移除可逆终止子部分以用于核苷酸添加和检测的后续循环。已在特定循环中以及在后续循环之前检测到标记之后移除这些标记可提供减少循环之间的背景信号和串扰的优点。可用的标记和移除方法的示例在本文中有所描述。

在特定实施方案中，一些或所有核苷酸单体可包括可逆终止子。在此类实施方案中，可逆终止子/可裂解荧光团可包括经由3′酯键连接到核糖部分的荧光团(Metzker，Genome Res.，第15卷：第1767-1776页(2005年))。其他方法已将终止子化学与荧光标记的裂解分开(Ruparel等人，Proc Natl Acad Sci USA，第102卷：第5932-5937页(2005年))。Ruparel等人描述了可逆终止子的发展，这些可逆终止子使用小的3′烯丙基基团来阻断延伸，但是可通过用钯催化剂进行的短时间处理来容易地去阻断。荧光团经由可光裂解的接头附接到碱基，该可光裂解的接头可通过暴露于长波长紫外光30秒来容易地裂解。因此，二硫化物还原或光裂解可用作可裂解的接头。可逆终止的另一种方法是使用天然终止，该天然终止在将大体积染料放置在dNTP上之后接着发生。dNTP上存在带电大体积染料可通过空间位阻和/或静电位阻而充当高效的终止子。除非染料被移除，否则一个掺入事件的存在防止进一步的掺入。染料的裂解移除荧光团并有效地逆转终止。经修饰的核苷酸的示例还在美国专利7,427,673和7,057,026中有所描述。

可与本文所述的方法和系统一起使用的另外的示例性SBS系统和方法在美国公布2007/0166705、2006/0188901、2006/0240439、2006/0281109、2012/0270305和2013/0260372、美国专利7,057,026、PCT公布WO 05/065814、美国专利申请公布2005/0100900以及PCT公布WO 06/064199和WO 07/010,251中有所描述。

一些实施方案可使用少于四种不同标记来使用对四种不同核苷酸的检测。例如，可使用并入的美国公布2013/0079232的材料中所述的方法和系统来执行SBS。作为第一个示例，一对核苷酸类型可在相同波长下检测，但基于对中的一个成员相对于另一个成员的强度差异，或基于对中的一个成员的导致与检测到的该对的另一个成员的信号相比明显的信号出现或消失的变化(例如，通过化学改性、光化学改性或物理改性)来区分。作为第二个示例，四种不同核苷酸类型中的三种能够在特定条件下被检测到，而第四种核苷酸类型缺少在那些条件下可被检测到或在那些条件下被最低限度地检测到的标记(例如，由于背景荧光而导致的最低限度检测等)。可基于其相应信号的存在来确定前三种核苷酸类型掺入到核酸中，并且可基于任何信号的不存在或对任何信号的最低限度检测来确定第四核苷酸类型掺入到核酸中。作为第三示例，一种核苷酸类型可包括在两个不同通道中检测到的标记，而其他核苷酸类型在不超过一个通道中被检测到。上述三种例示性构型不被认为是互相排斥的，并且可以各种组合进行使用。组合所有三个示例的示例性实施方案是基于荧光的SBS方法，该方法使用在第一通道中检测到的第一核苷酸类型(例如，具有当由第一激发波长激发时在第一通道中检测到的标记的dATP)，在第二通道中检测到的第二核苷酸类型(例如，具有当由第二激发波长激发时在第二通道中检测到的标记的dCTP)，在第一通道和第二通道两者中检测到的第三核苷酸类型(例如，具有当被第一激发波长和/或第二激发波长激发时在两个通道中检测到的至少一个标记的dTTP)，以及缺少在任一通道中检测到或最低限度地检测到的标记的第四核苷酸类型(例如，不具有标记的dGTP)。

此外，如美国公布2013/0079232中所述，可使用单个通道来获得测序数据。在此类所谓的单染料测序方法中，标记第一核苷酸类型，但在生成第一图像之后移除标记，并且仅在生成第一图像之后标记第二核苷酸类型。第三核苷酸类型在第一图像和第二图像中都保留其标记，并且第四核苷酸类型在两个图像中均保持未标记。

一些实施方案可通过连接技术使用测序。此类技术利用DNA连接酶掺入寡核苷酸并确定此类寡核苷酸的掺入。寡核苷酸通常具有与寡核苷酸杂交的序列中的特定核苷酸的同一性相关的不同标记。与其他SBS方法一样，可在用已标记的测序试剂处理核酸特征部的阵列后获得图像。每个图像将示出已掺入特定类型的标记的核酸特征部。由于每个特征部的不同序列内容，不同特征部将存在于或不存在于不同图像中，但特征部的相对位置将在图像中保持不变。通过基于连接的测序方法获得的图像可如本文所述进行存储、处理和分析。可与本文所述的方法和系统一起使用的示例性SBS系统和方法在美国专利6,969,488、6,172,218和6,306,597中有所描述。

一些实施方案可使用纳米孔测序(Deamer，D.W.和Akeson，M.，″Nanopores andnucleic acids：prospects for ultrarapid sequencing.″，Trends Biotechnol.第18卷，第147-151页(2000年)；Deamer，D.和D.Branton，″Characterization of nucleic acidsby nanopore analysis″，Acc.Chem.Res.第35卷：第817-825页(2002年)；Li，J.、M.Gershow、D.Stein、E.Brandin和J.A.Golovchenko，″DNA molecules andconfigurations in a solid-state nanopore microscope″，Nat.Mater.，第2卷：第611-615页(2003年))。在此类实施方案中，不对称靶核酸穿过纳米孔。纳米孔可为合成孔或生物膜蛋白，诸如α-溶血素。当不对称靶核酸穿过纳米孔时，可通过测量孔的电导率的波动来识别每个碱基对。(美国专利7,001,792；Soni，G.V.和Meller，″A.Progress towardultrafast DNA sequencing using solid-state nanopores.″，Clin.Chem.第53卷，第1996-2001页(2007年)；Healy，K.，″Nanopore-based single-molecule DNA analysis.″，Nanomed.，第2卷，第459-481页(2007年)；Cockroft，S.L.、Chu，J.、Amorin，M.和Ghadiri，M.R.，″A single-molecule nanopore device detects DNA polymerase activity withsingle-nucleotide resolution.″，J.Am.Chem.Soc.第130卷，第818-820页(2008年))。从纳米孔测序获得的数据可如本文所述进行存储、处理和分析。具体地，根据本文所述的光学图像和其他图像的示例性处理，可将数据如同图像那样进行处理。

一些实施方案可使用涉及DNA聚合酶活性的实时监测的方法。可通过携带荧光团的聚合酶与γ-磷酸标记的核苷酸之间的荧光共振能量转移(FRET)相互作用来检测核苷酸掺入(如例如美国专利7,329,492和7,211,414所述)，或者用零模波导来检测核苷酸掺入(如例如美国专利7,315,019所述)，并且使用荧光核苷酸类似物和工程化聚合酶来检测核苷酸掺入(如例如美国专利7,405,281和美国公布2008/0108082所述)。照明可限于表面栓系的聚合酶周围的仄升量级的体积，使得可在低背景下观察到荧光标记的核苷酸的掺入(Levene，M.J.等人，″Zero-mode waveguides for single-molecule analysis at highconcentrations.″，Science，第299卷，第682-686页(2003年)；Lundquist，P.M.等人，″Parallel confocal detection ofsingle molecules in real time.″，Opt.Lett.第33卷，第1026-1028页(2008年)；Korlach，J.等人，″Selective aluminum passivation fortargeted immobilization of single DNA polymerase molecules in zero-modewaveguide nano structures.″，Proc.Natl.Acad.Sci.USA，第105卷，第1176-1181页(2008年))。通过此类方法获得的图像可如本文所述进行存储、处理和分析。

一些SBS实施方案包括检测在核苷酸掺入延伸产物时释放的质子。例如，基于释放质子的检测的测序可使用可从Ion Torrent公司(Guilford，CT，Life Technologies子公司)商购获得的电检测器和相关技术或在美国公布2009/0026082、2009/0127589；2010/0137143；和2010/0282617中所述的测序方法和系统。本文阐述的使用动力学排阻来扩增靶核酸的方法可以容易地应用于用于检测质子的基板。更具体地，本文阐述的方法可以用于产生用于检测质子的扩增子克隆群体。

上述SBS方法可有利地以多种格式进行，使得同时操纵多个不同的不对称靶核酸。在特定实施方案中，可在共同的反应容器中或在特定基板的表面上处理不同的不对称靶核酸。这允许以多种方式方便地递送测序试剂、移除未反应的试剂和检测掺入事件。在使用表面结合的靶核酸的实施方案中，不对称靶核酸可以是阵列格式。在阵列格式中，不对称靶核酸通常可以在空间上可区分的方式与表面结合。不对称靶核酸可通过直接共价附接、附接到小珠或其他粒子或与附接到表面的聚合酶或其他分子结合来结合。阵列可包括在每个位点(也称为特征部)处的不对称靶核酸的单个拷贝，或可存在于每个位点或特征部处的具有相同序列的多个拷贝。多个拷贝可通过扩增方法(诸如，如本文进一步详细描述的桥式扩增或乳液PCR)产生。

本文所述的方法可使用具有处于多种密度中任一种密度的特征部的阵列，该多种密度包括例如至少约10个特征部/cm²、100个特征部/cm²、500个特征部/cm²、1,000个特征部/cm²、5,000个特征部/cm²、10,000个特征部/cm²、50,000个特征部/cm²、100,000个特征部/cm²、1,000,000个特征部/cm²、5,000,000个特征部/cm²或更高。

本文所述的方法的优点在于，这些方法提供对多个cm²的并行快速且有效的检测。因此，本公开提供能够使用本领域已知的技术(诸如本文所例示的那些)来制备和检测核酸的整合系统。因此，本公开的整合系统可包括能够将扩增试剂和/或测序试剂递送到一个或多个固定化不对称靶核酸的流体部件，该系统包括部件诸如泵、阀、贮存器、流体管线等。流通池在整合系统中可以被配置用于和/或用于检测靶核酸。示例性流通池在例如美国专利8,241,573和美国专利8,951，781中有所描述。如针对流通池所例示的，整合系统的一个或多个流体部件可以用于扩增方法和检测方法。以核酸测序实施方案为例，整合系统的一个或多个流体部件可以用于本文阐述的扩增方法以及用于在测序方法(诸如上文例示的那些)中递送测序试剂。另选地，整合系统可包括单独的流体系统以执行扩增方法并执行检测方法。能够产生扩增核酸并且还确定核酸序列的整合测序系统的示例包括但不限于MiSeqTM平台(Illumina，Inc.，San Diego，CA)和在美国专利8,951,781中所述的装置。

组合物

在本公开提供的方法的实践期间，可产生几种组合物。例如，可产生包含转座体复合物和不耐受损伤的DNA聚合酶的组合物。转座体可包含与包含衔接子的转座子序列结合的转座酶。衔接子可包含一个或多个DNA损伤、一个或多个通用序列、一个或多个索引序列、一个或多个UMI或它们的组合。组合物还可包含靶核酸。任选地，组合物可包含耐受损伤的DNA聚合酶。

在另一实施方案中，组合物可产生具有多个单链修饰的靶核酸、引物和不耐受损伤的DNA聚合酶。例如，靶核酸可从5′到3′包含第一衔接子、靶核酸和该第一衔接子的互补序列。第一衔接子可包含一个或多个DNA损伤、一个或多个通用序列、一个或多个索引序列、一个或多个UMI或它们的组合。在一个实施方案中，通用序列可包含转座酶识别位点。引物可从5′到3′包含第二衔接子和与第一衔接子的互补序列退火的核苷酸序列。第二衔接子可包含一个或多个通用序列、一个或多个索引序列、一个或多个UMI或它们的组合。引物可任选地包含封端的3′端，并且可任选地包含至少一个经改变的核苷酸。在一个实施方案中，引物与单链修饰的靶核酸退火。

在另一实施方案中，组合物包含转座体复合物。该转座体复合物包括但不限于转座酶和转座子。在一个实施方案中，转座子包含衔接子。衔接子可包含例如从5′到3′具有至少一个通用序列、至少一个索引序列、至少一个UMI或它们的组合、DNA损伤和转座酶识别序列的第一链。在一个实施方案中，转座酶识别序列包含镶嵌元件。衔接子可包含例如具有与转座酶识别序列的至少一部分互补的核苷酸的第二链。在一个实施方案中，第一链还包含在5′端处的捕获剂，或者第二链还包含在3′端处的捕获剂。在一个实施方案中，可裂解接头位于第一链的捕获剂与5′端之间。在一个实施方案中，可裂解接头位于第二链的捕获剂与3′端之间。在一个实施方案中，组合物还包含固体表面，其中转座酶复合物附接到该固体表面。在另一实施方案中，组合物还包含固体表面，其中转座子不与转座酶缔合，并且该转座子附接到该固体表面。

试剂盒

本公开还提供了用于实践本文提供的方法的一个或多个方面的试剂盒。试剂盒可用于产生靶核酸的文库。在一个实施方案中，试剂盒可用于产生对称靶核酸的文库。试剂盒可包括单独容器中的转座体复合物和不耐受损伤的DNA聚合酶。转座体可包含与转座子序列结合的转座酶，其中该转座子序列包含衔接子和DNA损伤。在一个实施方案中，试剂盒可用于将对称文库转化为不对称文库。在该实施方案中，试剂盒还可包括引物。在一个实施方案中，引物从5′到3′包含第二衔接子和与第一衔接子的互补序列退火的核苷酸序列。

试剂盒的组分可以足以产生至少一个文库的量存在于合适的包装材料中。任选地，该试剂盒还包括其他试剂诸如缓冲溶液(制备或存在于该试剂盒的组成组分中，其中这些组分中的一种或多种组分可以是被预混合的，或这些组分中的所有组分可以是单独的)等。通常还包括包装多肽或引物对的使用说明。

如本文所用，短语″包装材料″是指用于容纳试剂盒内容物的一种或多种物理结构。包装材料通过已知方法来构建，优选地用于提供无菌、无污染物的环境。包装材料具有指示这些组分可用于文库生产的标签。另外，包装材料含有指示如何使用试剂盒内的材料以实践本文提供的方法的一个或多个方面的说明。如本文所用，术语″包装″是指固体基质或材料诸如玻璃、塑料、纸材、箔等，该固体基质或材料能够将试剂盒的一种或多种组分保持在固定的限制范围内。″使用说明″通常包括描述试剂浓度或至少一个测定方法参数的有形表达，诸如待混合的试剂和样品的相对量、试剂/样品混合物的维持时间段、温度、缓冲条件等。

本发明在权利要求书中限定。然而，下文提供了非限制性示例性方面的非穷举性列表。这些方面的特征中的任何一个或多个特征可与本文所述的另一示例、实施方案或方面的任何一个或多个特征组合。

示例性方面

方面1是一种用于产生测序文库的方法，所述方法包括：

提供多个对称修饰的靶核酸，所述多个对称修饰的靶核酸在每个末端处包含第一衔接子序列，其中所述第一衔接子序列包含DNA损伤；

用不耐受损伤的聚合酶延伸所述经修饰的靶核酸，以生成多个不对称修饰的靶核酸，所述多个不对称修饰的靶核酸在每条链的5′端处包含所述第一衔接子序列，并且在每条链的3′端处包含所述第一衔接子的一部分的互补序列。

方面2是根据方面1所述的方法，其中所述多个对称修饰的靶核酸是双链的，并且每条链从5′到3′包含：包含所述DNA损伤的所述第一衔接子序列、所述靶核酸、包含至少一个核苷酸的间隙和不含所述DNA损伤的所述第一衔接子序列的所述互补序列。

方面3是根据方面1或2所述的方法，其中所述延伸在所述间隙处引发。

方面4是根据方面2至3中任一项所述的方法，还包括：

将引物与所述多个不对称修饰的靶核酸退火，所述引物从5′到3′包含第二衔接子序列和退火结构域，所述退火结构域包含与所述多个不对称修饰的靶核酸的所述第一衔接子的所述部分的所述互补序列退火的核苷酸序列；

用不耐受损伤的聚合酶延伸所述退火的不对称修饰的靶核酸的所述3′端，其中所述延伸产生多个不对称修饰的靶核酸，所述多个不对称修饰的靶核酸从5′到3′包含：(i)所述第一衔接子、(ii)所述靶核酸、(iii)所述第一衔接子的所述部分的所述互补序列和(iv)所述第二衔接子的所述互补序列。

方面5是根据方面1至4中任一项所述的方法，其中使所述退火的不对称修饰的靶核酸的所述3′端的所述延伸重复至少3次。

方面6是根据方面1至5中任一项所述的方法，其中所述DNA损伤包括无碱基位点、经修饰的碱基、错配、单链断裂或交联核苷酸中的至少一者。

方面7是根据方面1至6中任一项所述的方法，其中所述DNA损伤包括至少一个尿嘧啶。

方面8是根据方面1至7中任一项所述的方法，其中所述引物的所述退火结构域包含至少一个经改变的核苷酸，所述至少一个经改变的核苷酸与对应的天然DNA核苷酸相比升高了解链温度。

方面9是根据方面1至8中任一项所述的方法，其中所述经改变的核苷酸包括锁核酸、PNA或RNA。

方面10是根据方面1至9中任一项所述的方法，其中所述引物的所述3′端被封端。

方面11是根据方面1至10中任一项所述的方法，其中所述第一衔接子包含一个或多个通用序列、一个或多个索引序列、一个或多个通用分子标识符或它们的组合。

方面12是根据方面1至11中任一项所述的方法，其中所述一个或多个通用序列、一个或多个索引序列和一个或多个通用分子标识符中的至少一者位于所述DNA损伤与所述衔接子的远离所述靶核酸的末端之间的所述衔接子中。

方面13是根据方面1至12中任一项所述的方法，其中所述第二衔接子包含一个或多个通用序列、一个或多个索引序列、一个或多个通用分子标识符或它们的组合。

方面14是根据方面1至13中任一项所述的方法，其中与所述第二衔接子的所述一个或多个通用序列、一个或多个索引序列和一个或多个通用分子标识符相比，所述第一衔接子的所述一个或多个通用序列、一个或多个索引序列和一个或多个通用分子标识符是独特的。

方面15是根据方面1至14中任一项所述的方法，其中所述第一衔接子的所述一个或多个索引序列是隔室特异性的。

方面16是根据方面1至15中任一项所述的方法，其中所述第二衔接子的所述一个或多个索引序列是隔室特异性的。

方面17.根据方面1至16中任一项所述的方法，其中所述第一衔接子包含转座酶识别位点。

方面18是根据方面1至17中任一项所述的方法，其中所述靶核酸是来自源自单个细胞的核酸。

方面19是根据方面1至18中任一项所述的方法，其中所述靶核酸是来自源自多个细胞的核酸。

方面20是根据方面1至19中任一项所述的方法，其中源自单个细胞或多个细胞的所述靶核酸包括RNA。

方面21是根据方面1至20中任一项所述的方法，其中所述RNA包括mRNA。

方面22是根据方面1至21中任一项所述的方法，其中源自单个细胞或多个细胞的所述靶核酸包括DNA。

方面23是根据方面1至22中任一项所述的方法，其中所述DNA包括全细胞基因组DNA。

方面24是根据方面1至23中任一项所述的方法，其中所述全细胞基因组DNA包含核小体。

方面25是根据方面1至24中任一项所述的方法，其中所述靶核酸来自源自无细胞DNA的核酸。

方面26是根据方面1至25中任一项所述的方法，其中所述方法包括组合索引。

方面27是根据方面1至26中任一项所述的方法，还包括扩增所述不对称修饰的靶核酸，其中所述扩增包括第二引物和耐受损伤的聚合酶，并且其中所述第二引物包含与所述第一衔接子序列或其互补序列退火的核苷酸序列。

方面28是根据方面1至27中任一项所述的方法，其中所述第二引物还包含一个或多个通用序列、一个或多个索引序列、一个或多个通用分子标识符或它们的组合。

方面29是根据方面1至28中任一项的所述方法，其中与所述第一衔接子和所述第二衔接子的所述一个或多个通用序列、一个或多个索引序列和一个或多个通用分子标识符相比，所述第二引物的所述一个或多个通用序列、一个或多个索引序列和一个或多个通用分子标识符是独特的。

方面30是根据方面1至29中任一项所述的方法，其中所述多个不对称修饰的靶核酸的子集存在于多个隔室中，并且其中(i)所述第一衔接子包含第一隔室特异性索引，(ii)所述第二衔接子包含第二隔室特异性索引，或(i)和(ii)两者。

方面31.根据方面1至30中任一项所述的方法，还包括将来自不同隔室的所述不对称修饰的靶核酸组合以生成合并的带索引不对称修饰的靶核酸。

方面32是根据方面1至31中任一项所述方法，还包括：

将所述合并的带索引不对称修饰的靶核酸的子集分配到第二多个隔室中，以及修饰所述带索引不对称修饰的靶核酸，其中所述修饰包括向存在于每个子集中的所述带索引不对称修饰的靶核酸添加另外的隔室特异性索引序列以产生带索引DNA核酸，并且其中所述修饰包括连接或延伸。

方面33是根据方面1至32中任一项所述的方法，其中所述隔室包括孔或小滴。

方面34是根据方面1至33中任一项所述的方法，其中所述提供包括使多个DNA片段与所述第一衔接子在将所述第一衔接子连接到所述DNA片段的两端的条件下接触。

方面35是根据方面1至34中任一项所述的方法，其中所述DNA片段是双链的和平末端的。

方面36是根据方面1至35中任一项所述的方法，其中所述第一衔接子是双链DNA寡核苷酸。

方面37根据方面1至36中任一项所述的方法，其中所述第一衔接子的一个3′端被封端。

方面38是根据方面1至37中任一项所述的方法，其中所述DNA片段是双链的并且在一个或两个3′端处包含单链区域。

方面39是方面1至38中任一项所述的方法，其中所述第一衔接子是双链DNA寡核苷酸，所述双链DNA寡核苷酸在一个末端处包含单链区域，其中所述单链区域能够与存在于所述DNA片段上的所述单链区域退火。

方面40是根据方面1至38中任一项所述的方法，其中所述衔接子是叉形衔接子。

方面41是根据方面1至40中任一项所述的方法，其中所述提供包括使DNA与转座体复合物接触，其中所述转座体复合物包含转座酶和所述第一衔接子，其中所述接触在适用于将所述第一衔接子连接到所述DNA中的条件下发生以生成所述对称修饰的靶核酸。在一个方面，所述转座体复合物是方面67至71中任一项所述的转座体复合物。

方面42是根据方面1至41中任一项所述的方法，其中所生成的对称修饰的靶核酸包括在所连接的第一衔接子与所述靶核酸之间的一条链中的至少一个核苷酸的间隙。

方面43是根据方面1至42中任一项所述的方法，其中所述DNA存在于多个隔室中，并且其中每个隔室中的所述第一衔接子包含隔室特异性索引。

方面44是根据方面1至43中任一项所述的方法，还包括将来自不同隔室的所述单链修饰的靶核酸组合以生成合并的对称修饰的靶核酸，以及将所述对称修饰的靶核酸分配到第二多个隔室中。

方面45是根据方面1至44中任一项所述的方法，其中所述方法还包括所述全细胞基因组DNA的片段标签化。

方面46是根据方面1至45中任一项所述的方法，其中所述片段标签化包括用限制性核酸内切酶消化所述全细胞基因组DNA。

方面47是根据方面1至46中任一项所述的方法，其中对所述片段化的DNA进行邻位连接以连接嵌合靶核酸。

方面48是方面1至47中任一项所述的方法，其中衔接子的胞嘧啶残基被5-甲基胞嘧啶替换。

方面49是方面1至48中任一项所述的方法，其中对所述对称靶核酸或所述不对称靶核酸进行化学或酶促甲基化转化。

方面50是根据方面1至49中任一项所述的方法，其中所述提供包括：固定分离的细胞核、使所述分离的细胞核处于从基因组DNA中分离核小体的条件下、使所述基因组DNA片段化、使所述片段进行邻位连接以连接嵌合靶核酸，以及使所连接的片段与转座体复合物接触，其中所述转座体复合物包含转座酶和所述第一衔接子，其中所述接触在适用于将所述第一衔接子连接到所述DNA中的条件下发生以生成所述对称修饰的靶核酸。

方面51是根据方面1至50中任一项所述的方法，其中所述片段化包括用限制性核酸内切酶消化。

方面52是根据方面1至51中任一项所述方法，还包括：

提供包含多个扩增位点的表面，

其中所述扩增位点包括具有游离3′端的附接的单链捕获寡核苷酸的至少两个群体，以及

在适用于产生多个扩增位点的条件下使包含扩增位点的所述表面与所述多个不对称修饰的靶核酸接触，所述多个扩增位点各自包括来自单个不对称修饰的靶核酸的扩增子的克隆群体。

方面53是一种组合物，所述组合物包含转座体复合物和DNA聚合酶，其中所述转座体包含与转座子序列结合的转座酶，其中所述转座子序列包含衔接子和DNA损伤，并且其中所述DNA聚合酶是不耐受损伤的聚合酶。

方面54是根据方面53所述的组合物，其中所述衔接子包含一个或多个通用序列、一个或多个索引序列、一个或多个UMI或它们的组合。

方面55是根据方面53或54所述的组合物，还包含耐受损伤的DNA聚合酶。

方面56是一种组合物，包含

多个经修饰的靶核酸，所述多个经修饰的靶核酸从5′到3′包含：包含DNA损伤的第一衔接子、靶核酸和所述第一衔接子的互补序列；

引物，所述引物从5′到3′包含第二衔接子；和退火结构域，所述退火结构域包含与所述第一衔接子的所述互补序列退火的核苷酸序列；

不耐受损伤的DNA聚合酶。

方面57是根据方面56所述的组合物，其中所述引物包含至少一个经改变的核苷酸，所述至少一个经改变的核苷酸与对应的天然DNA核苷酸相比升高了解链温度。

方面58是根据方面56或57所述的组合物，其中所述引物与靶核酸退火。

方面59是根据方面56至58中任一项所述的组合物，其中所述引物的所述3′端被封端。

方面60是根据方面56至59中任一项所述的组合物，其中所述第一衔接子包含转座酶识别位点。

方面61是一种试剂盒，所述试剂盒包括单独容器中的转座体复合物和DNA聚合酶，其中所述转座体包含与转座子序列结合的转座酶，其中所述转座子序列包含第一衔接子和DNA损伤，并且其中所述DNA聚合酶是不耐受损伤的聚合酶；和使用说明。

方面62是根据方面61所述的试剂盒，所述试剂盒还包括第二DNA聚合酶，其中所述第二DNA聚合酶是耐受损伤的聚合酶。

方面63是根据方面61或62所述的试剂盒，所述试剂盒还包括引物，其中所述引物从5′到3′包含第二衔接子和退火结构域，所述退火结构域包含与所述第一衔接子的所述互补序列退火的核苷酸序列。

方面64是根据方面61至63中任一项所述的试剂盒，其中所述引物的所述3′端被封端。

方面65是根据方面61至64中任一项所述的试剂盒，其中所述第一衔接子包含：通用序列中的一个或多个通用序列、索引序列中的一个或多个索引序列、UMI中的一个或多个UMI，或它们的组合。

方面66是根据方面61至65中任一项所述的试剂盒，其中所述第二衔接子引物还包含：通用序列中的一个或多个通用序列、索引序列中的一个或多个索引序列、UMI中的一个或多个UMI，或它们的组合。

方面67是一种转座体复合物，所述转座体复合物包含：转座酶；和转座子，所述转座子包含核酸，所述核酸包含衔接子，所述衔接子在第一链上从5′到3′包含：至少一个通用序列、至少一个索引序列、至少一个UMI或它们的组合；DNA损伤和转座酶识别序列；以及在第二链上与所述转座酶识别序列的至少一部分互补的核苷酸。

方面68是根据方面67所述的转座体复合物，其中所述第一链还包含在所述第一链的所述5′端处的捕获剂。

方面69是根据方面67或68所述的转座体复合物，其中所述第一链还包含位于捕获剂与所述5′端之间的可裂解接头。

方面70是根据方面67至69中任一项所述的转座体复合物，其中所述第二链还包含在所述第二链的所述3′端处的捕获剂。

方面71是根据方面70中任一项所述的转座体复合物，其中所述第二链还包含位于捕获剂与所述3′端之间的可裂解接头。

实施例

通过以下实施例说明本公开。应当理解，应当根据如本文所述的本公开的范围和实质广义地解释特定实施例、材料、量和程序。

实施例1

对称靶核酸转化为不对称靶核酸片段的概念验证。

利用片段标签化来产生对称靶核酸并将其转化为不对称靶核酸的实验方法。通过使用具有单个转座子的转座体复合物而使DNA片段标签化来制备测序文库，以产生在每个末端处具有相同衔接子的靶核酸，并且然后暴露于修饰这些衔接子中的一个衔接子的条件下以产生不对称靶核酸。

细胞/细胞核的方案。

试剂盒包括：96孔带索引TSM板、384孔带索引PCR板、5x片段标签化缓冲液TB1、ExTB(500μL装于1.7mL螺旋盖管、LNA+TX100)、后片段标签化洗涤缓冲液(10mL装于15mL离心管)、重悬浮缓冲液(RSB)(10ml装于15ml离心管)和0.5％SDS(500μ1装于1.7mL螺旋盖管)。

由用户制备：Q5 2x主混合物(NEB，M0492L)、Q5U 2x预制混合物(NEB，M0597L)、80％EtOH和AMPure XP小珠(Beckman Coulter，A63880)。

设备和消耗性塑料：细胞计数仪(赛默飞世尔公司Countess II FL自动细胞计数仪，AMQAF1000)、Countess细胞计数腔室载玻片(赛默飞世尔公司，PN C10228)、用于带温度控制的板的离心机、带温度控制的台式离心机、生物分析仪(安捷伦公司，PN G2939BA)、安捷伦高灵敏度DNA试剂盒(5067-4626)、96孔板(Eppendorf twin.tec PCR Plate 96LoBind，skirted，PN 0030129512)、384孔板(Eppendorf twin.tec PCR Plate 384LoBind，skirted，PN 0030129547)、一次性试剂储液槽(VWR，PN 89094-658)或类似物、用于小珠收集的磁力架、用于96孔板和384孔板的热循环仪、板振荡器和Falcon 15mL收集管(赛默飞世尔公司，PN 14-959-53A或SARSTEDT、PN 62.554.205)

用于细胞核制备的试剂：Pierce^TM16％甲醛(w/v)，不含甲醇(赛默飞世尔公司，PN28906)；TryPLE(世尔科技公司；PN 12-604-039)；PBS缓冲液(西格玛公司(，PN#806552-1L)；Pierce蛋白酶抑制剂微型片剂，不含EDTA(PN A32955)和台盼蓝溶液(赛默飞世尔公司，PN 15250061)。

推荐用于细胞系的缓冲液。裂解缓冲液是10mM HEPES、10mM NaCl、3mM MgCl2、0.1％Igepal、0.1％吐温和蛋白酶抑制剂。NIB缓冲液是10mM Tris(pH为7.5)、10mMNaCl、3mM MgCl2、0.1％吐温和蛋白酶抑制剂。10x Xlink缓冲液是5M NaCl、1M Tris HCl(pH为7.5)、1M MgCl2和100ng/μL BSA。

细胞核制备和核小体耗尽。在前一天将细胞以1×10⁶铺板于T25培养瓶(PN)中，并在收集时处于半铺满状态。将细胞在装有5ml冰冷的PBS的烧瓶中洗涤，用TrypLE(1mL，在37℃下保持5分钟)进行胰蛋白酶消化，通过在4℃下以500rcf旋转3分钟进行收集，以1mL冰冷的PBS洗涤，并进行细胞核分离。

细胞核分离。将细胞在4℃下以500rcf离心3分钟，重悬于1mL裂解缓冲液中，并在冰上孵育10分钟。将细胞在4℃下以500rcf旋转3分钟，然后重悬于300μL裂解缓冲液中。使用1∶5稀释液(2μL样品+8μL裂解缓冲液+10μL台盼蓝溶液)对细胞核进行计数。1×10⁶被等分用于固定。

细胞核固定。将体积增加至多5mL裂解缓冲液，添加246μL新开安瓿中的16％甲醛(总甲醛含量为共0.75％，可接受的范围为0.5％至0.75％)。在室温下孵育10分钟，温和振荡，在4℃下以500rcf离心3分钟用于沉淀，以1mL冰冷的NIB洗涤，在4℃下以500rcf旋转3分钟，并用200μL 1X Xlink缓冲液(冰冷)洗涤。在洗涤期间，将细胞核转移到1.5mL管中以便更好地沉淀，并且在4℃下以500rcf旋转3分钟。

核小体耗尽(用于全基因组测序)。用40μL的1％SDS将沉淀物重悬于760μL 1XXlink缓冲液中，并在37℃下振荡(400rpm)孵育20分钟。(0.05％最终SDS)，在4℃下以500rcf旋转3分钟，用200μL的1X NIB洗涤，在4℃下以500rcf旋转3分钟，并重悬于50μL至100μL的NIB中。向2μL样品中添加8μLNIB和10μL台盼蓝，并在细胞计数仪上装载10μL。根据需要将细胞核浓缩或稀释至500个细胞核/μL，以便移取出来。

基于板的组合索引工作流的方案(图10)。

片段标签化。将细胞核与缓冲液混合：350μL(约100K)细胞核、500μL 5x片段标签化缓冲液(TB1)和1350μL H2O。向96TSM板的每个孔中添加20μL，并在热循环仪上以55℃孵育15分钟。将100μL 200mM EDTA添加到15mL收集管中，并在冰上将来自96孔板的细胞核合并到15mL收集管中(总共25μL×96+100μL＝2.5mL)。使细胞核在4℃下以500rcf沉淀，并将细胞核重悬于500μL洗涤缓冲液中。通过以下方法确定细胞核浓度：移除2μL样品，添加8μLNIB和10μL台盼蓝，并在细胞计数仪上装载10μL。然后将细胞核稀释至细胞核/μL，并将4μL装载到板的每个孔中。

延伸：按以下顺序添加试剂：添加1μL 0.5％SDS，在55℃下加热10分钟，添加2μLExTB，添加7μL 2x Q5主混合物(NEB)，总共14μL。充分混合并在热循环机上运行程序：1.72℃下达10分钟；2.98℃下达30秒；3.98℃下达10秒；4.59℃下达20秒；5.72℃下达10秒；6.重复步骤3至5，总共10个循环；7.72℃下达2分钟；以及8.保持温度处于10℃。

带索引PCR：将1μL PCR引物从384孔PCR板转移到延伸的细胞核板。添加15μL 2xNEB Q5U，并在热循环仪上运行PCR程序：1.98℃下达30秒；2.98℃下达10秒；3.55℃下达20秒；4.72℃下达30秒；5.重复步骤2至4，总共20个循环；6.72℃下达2分钟；以及7.保持温度处于10℃。通常在12至14个循环之间扩增文库。

文库纯化：以10μL/孔合并；将总共3840μL置于15mL收集管(PN)，通过Qiagen PCR净化柱(PN)进行浓缩，以50μL洗脱，添加50μL Ampure XP小珠，用100μL 80％EtOH洗涤两次，以20μL RSB洗脱，并通过生物分析仪DNA HS试剂盒(PN)进行定量。

用于基因组DNA(gDNA)的AA→AB(对称与不对称)方案。

Tnp组件：添加5μL 10x退火缓冲液、5μL SBS12-U-ME(镶嵌元件)100μM、5μL ME’100μM和35μL H₂O，总共50μL。在热循环仪上运行：95℃下达1分钟；80℃下达30秒；以每个循环降低1℃的速度降低至20℃；20℃下达1小时；保持温度处于10℃。

TSM组件：添加79μL SDB缓冲液、1μL Tn5 200μM和来自Tnp组件的20μL Tnp，总共100μL。在37℃下孵育过夜，并以SDB缓冲液稀释4倍，得到500μM TSM。

对gDNA进行片段标签化：添加4μL gDNA 20ng、5μL 2x TD缓冲液(片段标签化缓冲液)和来自TSM组件的1μL TSM，总共10μL，并在55℃下孵育10分钟。

AA→AB转化：添加1μL 1％SDS，在55℃下孵育10分钟，添加2μL 与1μM LNA-ME_A14寡核苷酸混合的10％Triton-X100，添加2μL 2x NPM主混合物(Illumina)，总共15μL。在热循环仪上运行：1.72℃下达10分钟；2.98℃下达30秒；3.98℃下达10秒；4.59℃下达20秒；5.72℃下达10秒；6.重复步骤3至5，总共10个循环；7.72℃下达2分钟；以及8.保持温度处于10℃。

PCR：添加1μL SBS12 25μM、1μL A14 25μM、8μL H₂O和25μL 2x NEB Q5U主混合物，总共50μL。在热循环仪上运行：1.98℃下达30秒；2.98℃下达10秒；3.55℃下达20秒；4.72℃下达30秒；5.重复步骤2至4，总共20个循环；6.72℃下达2分钟；以及7.保持温度处于10℃。通常在12至14个循环之间扩增文库。可通过以下方法检查文库：将5μL PCR产物装载在1.2％Lonza琼脂凝胶上，并用180v分解产物15分钟。

对DNA损伤大小的影响。

在gDNA上使用AA→AB方法的概念验证数据。测试了三种不同的TSM，这三种TSM在ME与索引之间含有不同数量的尿嘧啶(U，UU或UUU)作为DNA损伤。将第一延伸重复10次。尽管效率不同，但所有TSM都正常运行并生成文库，其中单个U具有最高效率(图11)。将AB系统与对照进行比较，其中SBS12-ME TSM与装载有A14-ME的TSM混合。与标准AB系统相比，AA→AB系统通过qPCR将模板增加约4倍。LNA-ME浓度滴定(此处未示出数据)表明100nM对于第二延伸是有效的。

经改变的核苷酸对添加衔接子的延伸的影响。

数据表明，标准A14-ME寡核苷酸(引物中不存在锁核酸(LNA))在AA->AB转化中表现不佳。将具有SBS12-ME和A14-ME TSM的AB系统与对照进行比较(图12)。代替LNA-A14，将由正常碱基制备的寡核苷酸应用于第二延伸。与图11相比，通过PCR的最终文库产量显著降低并且示出了宽拖尾。

LNA-ME增强了第二延伸。增加LNA-ME延伸的循环数量可提高产量，其中10个循环达到几乎理论最大值(图13)。与使用具有LNA修饰的经修饰的A14-ME寡核苷酸的几乎完全的文库转化相比，具有标准A14-ME寡核苷酸(无LNA)的不良文库生成之间的差异是令人惊讶且出乎意料的，并且具有显著优势。另外，AA→AB和AB系统之间的2倍产量差异表明获得了几乎完全的最大转化。

退火温度的影响。

LNA-ME在细胞核ATAC批量测定中的退火温度滴定。将含有SBS12和A14 ME的AB系统用作对照。相同数量的细胞核内的基因组DNA通过TSM进行转座。AA→AB工作流的第二延伸在不同退火温度下进行。约59.5℃时示出了最佳效率，根据qPCR，与AB对照相比，可扩增的模板可提高约5倍(图14)。

实施例2

改进的单细胞组合索引

单细胞组学的一个主要挑战是将每个细胞的基因组特性有效地转换为测序文库。这里，我们描述了一种用于单细胞组合索引工作流(sci)的衔接子转换策略，该策略可推广到多种分析，并且不需要自定义测序化学。这种技术(即，对称的链sci(s3))为每个细胞获得的读段提供一到两个数量级的改进，该技术具有多种特性，包括染色质可及性(s3-ATAC)、全基因组测序(s3-WGS)和基因组加染色质构象(s3-GCC)。

主要

单细胞基因组学测定已迅速成为研究生命科学学科范围内复杂生物系统的主要平台。在单细胞水平捕获各种特性的平台通常会在细胞通量与每个细胞可获得的信息深度之间进行权衡。我们和其他人描述了利用单细胞组合索引(sci)¹的工作流，该索引利用基于转座酶的文库构建²以高通量评估各种基因组特性。虽然转座反应本身(片段标签化)是高效的，但仅当不同接头以正向或反向一级序列的形式掺入分子的每个末端时，才能产生可行的测序文库分子。在片段标签化反应期间，这两个序列中的每个序列的掺入概率相等，从而导致一半的分子具有正向-正向或反向-反向接头组合；理论产量降低至50％。为了克服这种低效率，已经开发出了几种策略，包括使用接头种类³的更大互补序列，掺入T7启动子序列以通过RNA中间体^4-6，或使用靶向引发⁷或随机引发⁸来掺入第二接头。这里，我们呈现了利用接头替换以产生标记有正向接头和反向接头两者的文库分子的替代性策略，该正向接头和反向接头用于顶部链和底部链两者。另外，该形式允许使用嵌入转座酶接头复合物内的DNA索引序列，实现单细胞组合索引(sci)应用，其中执行两轮索引(第一轮在转位阶段，并且第二轮在PCR阶段^1，9，10)。

这种技术(即，对称的链sci(s3))利用单个接头转座的效率以在除通用嵌合端序列和隔室特异性DNA条形码之外，还掺入正向引物序列。接头被设计成使得尿嘧啶碱基紧随转座酶识别序列(嵌合端)存在于所得产物的顶部链上，该接头在片段标签化反应期间被共价掺入。聚合酶与不耐受尿嘧啶的酶的延伸导致底部链上的嵌合端序列的拷贝，而没有延伸到DNA条形码或正向引物序列中。随后变性并添加含有反向引物序列和耐受尿嘧啶的聚合酶的嵌合端锁核酸(LNA)模板，实现文库分子的延伸以掺入另外的序列。为了确保最大效率，将模板寡核苷酸从延伸部分封端，以防止其用作引物，并用于实现待进行的多轮线性延伸反应(图7)。s3平台的附加优点是接头序列被设计成使得可使用标准测序配方代替sci技术所需的自定义工作流和引物。我们展示了该工作流以产生：单细胞染色质可及性文库(s3-ATAC)，其中每个细胞的通过读段中值提高16倍；单细胞全基因组测序(s3-WGS)，其与我们先前的SCI-seq/sci-DNA-seq¹¹相比提高126倍；以及在单细胞中捕获基因组序列和染色质构象信息两者的新技术(s3-GCC)，其与先前的组合索引Hi-C方法¹²相比具有染色质相互作用信号的更高比率。

我们首先寻求建立s3技术，以评估染色质可及性，归因于在使用该技术的新组件之前，细胞核的预处理最少。与传统的sci-ATAC-seq一样，s3-ATAC细胞核被分离并被片段标记化，但不是使用我们的单个末端，而是带索引转座，并且然后通过接头转换s3工作流进行(图7)。为了确保我们在没有来自其他细胞核和最小条形码冲突的基因组污染的情况下获得真实单细胞文库，我们执行了混合物种实验，也称为初级冷冻人类皮层组织和冷冻小鼠全脑组织上的″barnyard″测试图15。我们选择对初级组织样品执行该测试，而不是在理想化的细胞系设置中进行该测试，以更准确地捕获交叉细胞污染速率。我们进一步设计了实验以评估可能引入的两个点处的串扰水平：在片段标签化阶段和PCR阶段，通过在片段标签化之前以及之后混合来自两个样品的细胞核。此外，我们通过利用单细胞组合索引工作流的固有样品复用能力来产生纯物种文库。总的来说，我们针对人类和小鼠分别生成了1,366个人类单细胞ATAC-seq谱和1054个小鼠单细胞ATAC-seq谱，其中每个细胞的独特的高映射质量读段中值为30,886和26,530，这些高映射质量读段与染色体1至22、23(人类)、X和Y(下文称为″通过读段″)比对。应当注意，这些文库是高度复杂的，其中分配给细胞的读段中值为69.05％是独特的，这表明另外的测序深度将大大增加获得的覆盖度，该获得的覆盖度超过当前测序深度的覆盖度。使用我们建立的方法，用于预测每个细胞的独特读段，其中所预测的估计值在进一步测序⁹时落入经验数据的2％内，我们发现，对于人类皮层和小鼠全脑样品，我们的文库在文库饱和度为95％时，每个细胞的通过读段中值分别达到128,144和174,858。我们接下来将我们的当前的深度以及我们的小鼠大脑样品的突出部与可比较组织上的公开可用的数据集以及这些文库上的突出部(可用的情况下)进行了比较。我们发现，我们的文库与任何其他文库或自我报告的文库突出部相比提高了一个数量级图16。

为了确保我们的改进不是由于索引复制或基因组串扰，我们通过评估与人-小鼠组合参考基因组比对的独特读段计数来证明我们样品的纯度。在任何处理之前混合细胞核(即，预片段标签化)的实验条件下，我们观察到5.12％的冲突速率(图17；2×2.56％检测到的人-小鼠冲突)，完全在可接受的水平内。我们在片段标签化后的实验条件下观察到零冲突(如预期的那样)，这表明在预片段标签化实验中观察到的冲突是由于取样双峰，而不是串扰或环境染色质。我们还通过评估转录起始位点(TSS)的富集度(中值为2.77和3.93)，以及人类和小鼠样品的以调用峰值读段的分数(FRIP)(分别为14.60％和19.40％)，来确保增加的读段确实捕获了生物信号，而不是由于背景过多，其中这两个量度与用于匹配组织类型的其他平台相当。有了充足的信号，我们接下来寻求辨别存在于样品内的细胞类型。对于每个物种，我们使用调用聚合数据的峰值来构建计数矩阵，然后使用主题建模工具cisTopic¹³来降低维数，然后我们使用UMAP¹⁴对其进行可视化，最后在主题水平执行基于图形的聚类。我们发现在可视化空间以及所识别的簇两者中都有清晰的细胞类型分离，其中在每个簇内的细胞类型特异性基因处具有清晰信号，以用于人类皮层样品和小鼠全脑样品两者。(图18至图21)。

我们接下来推断由s3-ATAC产生的数据质量的改进应该可转换到其他单细胞组合索引工作流，包括我们先前报道的用于高通量低通过单细胞基因组测序⁹的sci-DNA-seq方法。除了使用s3工作流(图7)之外，我们还探索了对该技术的核小体耗尽组分的其他改进，其用于获得均匀覆盖度。我们首先将s3-WGS(图6)部署在对照淋巴母细胞系(GM12878)上，其示出了基于洗涤剂的核小体耗尽(xSDS)的优化版本提供了最佳的均匀性和读段计数，其中92个细胞在该条件下预测每个细胞的通过读段中值为6,584,602，这意味着中值基因组捕获率为37.12％。我们还通过评估中值绝对偏差(MAD)来证实覆盖度是均匀的，与其他单细胞基因组测序技术相比较，该中值绝对偏差落在0.1至0.3(中值0.18)内。使用该优化的方案，我们接下来部署了s3-WGS，以在最小传代计数之后对来源于原发性胰腺导管腺癌(PDAC)肿瘤的两种细胞系进行测序。

PDAC是癌症的破坏性形式，其通常出现在晚期，因此进行肿瘤进展的早期检测和研究至关重要。PDAC研究中，活检样品中的癌细胞比例较低，因此我们使用了从纯化肿瘤低传代获得的连续再生细胞系(CRC)。该方法允许多种表征和扰动模态，同时保持存在于肿瘤样品中的大部分异质性，如通过染色体核型分析¹⁵所证实的。我们靶向两种株系(称为PDAC-1和PDAC-2)，这两种株系具有癌基因KRAS(p.G12D和p.G12C)的两种不同亚克隆错义突变以及基于G显带和光谱染色体核型分析测量的严重基因组不稳定性。对于这些株系，我们获得709个和267个单细胞文库，其中PDAC-1和PDAC-2的预测通过读段计数中值分别为2,096,207和1,445,381(图22至图24)。虽然低于初始GM12878对照样品，但其大大超过了通过先前方法获得的覆盖度。两种株系的MAD分数(图24)大于GM12878的相对正常的染色体核型的MAD分数，其中中值为0.28和0.32；然而，鉴于存在于样品中的广泛拷贝数量变化，这是意料之中的。我们利用对来自PDAC-1原发性肿瘤、正常血液和CRC株系的成对全外显子组测序和拷贝数调用验证了这一预期，发现了标志性基因组不稳定性的有力证据。我们接下来执行单细胞拷贝数分析，并在两种株系中的每个株系内识别出高度改变的基因组景观。与有限的染色体核型分析数据和全外显子组数据一致，我们发现，每个细胞都有类似的模式，即多兆碱基大小的拷贝数畸变。使用三种样品(GM12878和两种PDAC株系)的基因组窗内的推断拷贝数谱，我们执行了分层和K均值聚类，从而示出了多个克隆基因组排列。

鉴于我们的单细胞分辨率，我们能够评估已知的PDAC相关癌基因和肿瘤抑制器拷贝数畸变的发生率。作为交叉患者差异的示例，仅由PDAC-2样品占据的簇7示出了含有TGFβR2和PBRM1的基因组区域的独特扩增、与细胞增殖相关并且先前与PDAC患者中较高的癌细胞肿瘤比例相关的区域。PDAC-1样品示出了含有癌基因的基因组区域的异质扩增MYC(绝对拷贝数为2.26±2.36)。另外，我们发现基因组范围的局部扩增与癌基因KRAS重叠，已知发生在90％以上的PDAC病例中。我们发现簇1具有最低数量的KRAS扩增细胞(23.3％、40/172个细胞)，而簇5具有最高频率的KRAS拷贝数增益(82.6％、138/167个细胞)。我们通过利用我们的全外显子组数据进行基因分型和数字小滴PCR来验证了这种异质拷贝数畸变，发现从PDAC-1CRC株系中取样的KRAS等位基因中有53％呈现与过度表达相关的突变KRAS等位基因。

复制和缺失不是基因组重排的唯一形式，这些复制和缺失可在癌细胞生长中诱导竞争优势。基因组倒置难以通过标准的染色体核型分析和染色体绘制方法进行评估，同时染色体易位在全基因组扩增方法中难以发现，因为只有捕获断裂点的读段才能提供支持性证据。为了解决这些限制中的这两个问题，我们利用了具有附加预处理工作流的s3-WGS技术，以在固定和核小体耗尽后进行限制性消化，然后重新连接(与HiC方法相同，但不掺入生物素酰化的碱基)，随后进行s3文库制备。我们推断这种附加处理将导致一部分读段跨越嵌合连接结合部来指示远侧染色质接触点，其中其余读段用作全基因组测序数据，从而实现基因组和染色质构象两者(s3-GCC)(图9)。我们在与s3-WGS实验相同的两种PDAC细胞系(图25至图28)上执行了s3-GCC，以产生22个和93个细胞谱，其中PDAC-1和PDAC-2的每个细胞的预测通过读数中值相当，分别为1,034,014和1,245,266。然后，我们执行拷贝数调用，并将结果与s3-WGS文库进行比较，示出了相似的模式，其中每种方法的谱散布在其他细胞系组内。为了获得染色质构象信号的初始测量值，我们评估了两种s3-GCC制剂含有过量的染色质间读段对的比例，这两种制剂与其s3-WGS对照物相比分别增加68.91倍和58.91倍。然后，我们测量了插入大小大于1kbp的读段的比例，该比例平均为16％，其中每种株系的中值分别为15.6％和17.0％，同样与s3-WGS相比，中值富集倍数为361倍和402倍。为了评估每个细胞的总预期独特染色体接触点，我们首先假设所执行的染色质接触的读段计数预测与表示标准基因组测序读段的大部分数据相同，从而允许我们采用总通过读段计数的百分比。这在PDAC-1的每个细胞中产生的预测接触点中值为20,451，并且在PDAC-2的每个细胞中产生的预测接触点中值为20,611。另外，我们专门对表示染色质接触的读段部分执行读段计数预测，并获得类似值244,728和245,560。然后，我们使用从我们相对较浅的测序深度获得的接触点，并展示了产生染色质接触映射的能力，其中聚集谱示出了不同的拓扑模式。我们经由scHiCluster将单细胞通过其远端接触信息进行分离，观察到三个不同的簇。应当注意，即使在这种低测序深度下，我们也能够可靠地区分告知细胞系稀疏接触谱。我们观察了簇0(仅占用PDAC-1)和簇1的聚合接触映射之间的差异，以评估所取样的细胞中的独特易位和倒置事件。我们发现，我们的单细胞接触数据复制了光谱染色体核型分析(SKY)数据中报告的染色体臂尺度易位，特别是在PDAC-1样品中发现t(3；14)(q24-26；q21-24)易位的示例中。我们还发现，在染色体3(参见我们的s3-WGS数据)朝向染色体2和4的TGFβR2和PBRM1区域之间的染色体间接触频率富集，这表明拷贝数增益的畸变基因组隔室化。

综上所述，我们的s3工作流表示与先前sci平台相比，在不牺牲就s3-ATAC而言的信号富集或s3-WGS的覆盖度均匀性的情况下，在每个细胞获得的通过读段方面有了显著改进。我们还引入了组合索引工作流的另一变体s3-GCC以获得基因组测序和染色质构象两者，其中在与sci-HiC进行比较时，每个细胞获得改进的染色质接触。我们通过评估具有显著染色质不稳定性的来源于患者的两种肿瘤细胞系来证明这些方法的实用性。我们示出了疾病相关基因的焦点扩增的模式，并在利用标准染色体核型分析无法获得的通量处发现大规模的异质性。另外，我们强调了对我们的方案的联合分析，以发现拷贝数畸变的染色质隔室干扰效应。此外，s3工作流具有标准单细胞组合索引的相同固有通量潜力。我们还期望该平台将与其他基于转座酶的技术(包括sci-MET¹⁰)兼容。s3平台的一个可能的缺点是必须使用完整的一组独特转座体复合物，而不是使用一组8个正向复合物和12个反向复合物(与96孔板的行和列对应)，从而使工作流所需的寡核苷酸数量更大。然而，这些成本最终会得到平衡，因为每次实验所需的寡核苷酸按比例减少。最后，与sci工作流不同，s3平台不需要自定义测序引物或自定义测序配方，从而消除了实验室在实施这些技术时可能面临的主要障碍之一。

实施例2的引用

1.Cusanovich，D.A.等人，″Multiplex single-cell profling of chromatinaccessibility by combinatorial cellular indexing.″，Science(80-.).，第348卷，第910-914页(2015年)。

2.Adey，A.等人，″Rapid，low-input，low-bias construction of shotgunfragment libraries by high-density in vitro transposition.″，Genome Biol.，第11卷，第R119页(2010年)。

3.Tan，L.，Xing，D.，Chang，C.H.，Li，H.和Xie，X.S.″Three-

dimensional genome structures of single diploid human cells.″，Science(80-.).，第361卷，第924-928页(2018年)。

4.Sos，B.C.等人，″Characterization of chromatin accessibility with atransposome hypersensitive sites sequencing(THS-seq)assay.″，Genome Biol.，第17卷，第20页(2016年)。

5.Yin，Y.等人，″High-Throughput Single-Cell Sequencing with LinearAmplification.″，Mol.Cell，第76卷，第676-690页，e10(2019年)。

6.Chen，C.等人，″Single-cell whole-genome analyses by LinearAmplification via Transposon Insertion(LIANTI).″，Science(80-.).，第356卷，第189-194页(2017年)。

7.Adey，A.和Shendure，J.，″Ultra-low-input，tagmentation-based whole-genome bisulfite sequencing.″，Genome Res.，第22卷，第1139-1143页(2012年)。

8.Mulqueen，R.M.等人，″Highly scalable generation of DNA methylationprofiles in single cells.″，Nat.Biotechnol.，第36卷，第428-431页(2018年)。

9.Vitak，S.A.等人，″Sequencing thousands of single-cell genomes withcombinatorial indexing.″，Nat.Methods，第14卷：第302-308页(2017年)。

10.Mulqueen，R.M.等人，″Highly scalable generation of DNA methylationprofiles in single cells.″，Nat.Biotechnol.，第36卷，第428-431页(2018年)。

11.Vitak，S.A.等人，″Sequencing thousands of single-cell genomes withcombinatorial indexing.″，Nat.Methods第14卷(2017年)。

12.Ramani，V.等人，″Massively multiplex single-cell Hi-C.″，Nat.Methods，第14卷，第263-266页(2017年)。

13.Bravo González-Blas，C.等人，″cisTopic：cis-regulatory topic modelingon single-cell ATAC-seq data.″，Nat.Methods，第16卷，第397-400页(2019年)。

14.Becht，E.等人，″Dimensionality reduction for visualizing single-celldata using UMAP.″，Nat.Biotechnol.，第37卷，第38-44页(2018年)。

15.Lindenburger，K.等人，AB024.S024.″Drug responses of patient-derivedcell lines in vitro that match drug responses of patient PDAc tumors insitu.″，Ann.Pancreat.Cancer，第1卷，第AB024-AB024页(2018年)。

方法

s3-ATAC文库生成

在样品处理之前，从Illumina有限公司获得复合的转座酶。使96个独特的带索引转座酶装载有相应衔接子中的一个衔接子，稀释至2.5μM并储存在-20℃下。用以下试剂新鲜制备50mL细胞核隔离缓冲液(NIB-HEPES)：最终浓度为10mM且pH为7.2的HEPES-KOH(分别为赛默飞世尔公司BP310-500和西格玛奥德里奇公司(Sigma Aldrich)1050121000)、10mMNaCl(赛默飞世尔公司S271-3)、3mM MgCl2(世尔科技公司AC223210010)、0.1％(v/v)IGEPAL CA-630(西格玛奥德里奇公司I3021)、0.1％(v/v)吐温(西格玛奥德里奇公司P-7949)，并以PCR级超纯水(赛默飞世尔科技公司10977015)稀释。稀释之后，将两片不含EDTA的Pierce^TM蛋白酶抑制剂微型片剂(赛默飞世尔公司A32955)溶解并悬浮，以防止蛋白酶在细胞核分离过程中降解。

对于s3-ATAC组织处理，提取C57/B6小鼠全脑和人类皮层的初级样品，并在液氮水浴中快速冷冻，然后储存在-80℃下。在细胞核提取之前设置了台式解剖阶段。将培养皿放置在干冰上，用新鲜的无菌剃刀通过干冰包埋进行预冷。用2mL NIB-HEPES缓冲液填充7mL容量的杜恩斯(dounce)均质器，并保持在湿冰上。通过在冰上将冰冷的70％(v/v)的乙醇(Decon Laboratories Inc 2701)保持在15mL管中来冷却均质器研杵。在使用之前，立即用冷却的蒸馏水冲洗研杵。对于组织解离，类似地处理小鼠和人脑样品。将仍然冷冻的组织块放置在干净的预冷却培养皿上，并用剃刀大致切碎。然后使用剃刀将大致1mg组织糜转运到杜恩斯均质器内的冷却的NIB-HEPES缓冲液中。使样品悬浮5分钟，以使其与浸液之前盐浓度的变化保持平衡。然后用5次松散的(A)研碎、另外孵育5分钟，以及5至10次紧密的(B)研碎使组织均质化。然后在转移到15mL离心管中期间将样品通过35μm细胞过滤器(康宁352235)过滤，，并将细胞核保持在冰上直到准备继续进行。在4℃离心机上用400rcf离心沉淀细胞核10分钟。移除上清液，并将沉淀物重悬于1mL NIB-HEPES缓冲液中。对第二次洗涤重复该步骤，并再次将细胞核保持在冰上直到准备继续进行。将悬浮的细胞核的10μL等分试样以90μL NIB-HEPES稀释(1∶10稀释度)，并且按照制造商建议的方案在血球计上定量或用BioRad TC-20自动细胞计数仪定量。然后将储备细胞核悬浮液稀释至浓度为1400个细胞核/μL。

通过将420μL的1400个细胞核/μL溶液与540μL的2X TD缓冲液(Nextera XT试剂盒，Illumina有限公司)组合来制备片段标签化板。根据孔模式从该混合物中将8μL(总共约5000个细胞核)移取到96孔板的每个孔中。然后将1μL的2.5μM独特的带索引转座酶移取到每个孔中。在55℃的Eppendorf热混合器上以300rcf执行片段标签化10分钟。在该孵育之后，通过在冰上短暂孵育来降低板温度，以停止反应。根据实验方案来组合片段标签化细胞核的池，并添加2μL 5mg/mL DAPI(赛默飞世尔科技公司D1306)。

然后经由Sony SH800对细胞核进行流式分选以移除碎片，并在PCR之前获得每个孔的准确计数。用9μL 1X TD缓冲液(用超纯水稀释)制备插座96孔板。并置于样品室中保持在4℃下。然后，对荧光细胞核进行流式分选，按大小、内部复杂度和单个细胞核的DAPI荧光进行设门。在分选完成后立即将板密封并在4℃下以500rcf旋转5分钟，以确保细胞核在缓冲液内。

然后每孔添加1μL的0.1％SDS(约0.01％f.c.)使核小体和剩余转座酶变性。随后添加4μL的NPM(Nextera XT试剂盒，Illumina有限公司)同时在72℃下孵育10分钟，以在片段标签化基因组DNA上执行间隙填充。然后添加1.5μL的1μm A14-LNA-ME寡核苷酸以提供用于衔接子转换的模板。然后用以下条件执行基于聚合酶的衔接子转换：98℃下进行初始变性达30秒、98℃下进行10个循环达10秒、59℃下达20秒、72℃下达10秒。然后将板保持在10℃下。在衔接子转换之后，添加超纯H2O(西格玛公司93426)中的1％(v/v)Triton-X 100以淬灭持久性SDS。此时，将一些板储存在-20℃下数周，同时立即处理其他板。

然后将以下试剂组合到每个孔以用于PCR：16.5μL样品、2.5μL的10μM带索引i7引物、2.5μL的10μM带索引i5引物、3μL的超纯H2O和25μL的NEBNext Q5U 2X主混合物(纽英伦生物技术(New England Biolabs)M0597S)和0.5μL的100X SYBR Green I(赛默飞科技公司S7563)，50μL反应物/每孔。使用以下条件对BioRad CFX执行实时PCR，每个循环测量SYBR荧光：98℃下达30秒；98℃下进行16至18个循环达10秒，55℃下达20秒，72℃下达30秒，荧光读数，72℃下达10秒。荧光通过指数增长并开始发生弯曲变化之后，将样品在72℃下再保持30秒，然后储存在4℃下。

然后通过将25μL/每孔合并到15mL离心管中来净化扩增文库，并且按照制造商的方案(Qiagen 28106)经由Qiaquick PCR纯化柱净化。将合并的样品以50μL的10mM的Tris-HCl，pH为8.0(Life technologies AM9855)洗脱。然后，文库分子经由SPRI选择小珠(Mag-

TotalPure NGS Omega Biotek M1378-01)进行大小选择。将50μL的经涡旋且完全悬浮的室温SPRI小珠与50μL文库(1X净化)组合，并在室温下孵育5分钟。然后将反应物放置在磁力架上，一旦清理干净，就移除上清液。用100μL新鲜80％乙醇冲洗剩余的沉淀物两次。在移取出乙醇之后，将管旋转并放回磁力架上，以移除任何残留的乙醇。然后使用31μL的10mMTris-HCl(pH为8.0)将小珠重悬于磁力架上，并使其在室温下孵育5分钟。再次将管放置在磁力架上，并且一旦清理干净，就将全体积的上清液转移至干净的管。然后按照制造商的说明(赛默飞世尔公司Q32851)通过Qubit dsDNA高灵敏度测定对DNA进行定量。然后将文库稀释至2ng/μL，并在Agilent Tapestation 4150 D5000磁带(安捷伦公司5067-5592)上运行。然后使用100bp至1000bp范围内的文库分子浓度将文库最终稀释至1nM。然后按照制造商的建议(Illumina有限公司)，在Nextseq 500系统上的高容量或中容量150bp测序试剂盒上对稀释的文库进行测序。

s3-WGS文库生成

在处理以下缓冲液之前制备以下试剂：如上所述的50mL的NIB HEPES缓冲液以及50mL的基于Tris的NIB(NIB Tris)变体，该变体含有：最终浓度为10mM且pH为7.4的TrisHCl(Life Technologies AM9855)、10mM NaCl、3mM MgCl2、0.1％(v/v)IGEPAL CA-630、0.1％(v/v)吐温，并以PCR级超纯水稀释。稀释之后，将两片不含EDTA的Pierce^TM蛋白酶抑制剂微型片剂溶解并悬浮，以防止蛋白酶在细胞核分离过程中降解。

如下对细胞系执行s3-WGS文库制备。对于来源于患者的CRC细胞系，在处理的前一天，将细胞以1×10⁶的密度铺板于T25培养瓶中。将细胞用冰冷的1X PBS(VWR 75800-986)洗涤两次，然后用5mL 1X TrypLE(赛默飞世尔公司12604039)在37℃下进行胰蛋白酶消化15分钟。然后收集悬浮细胞并在4℃下以300rcf沉淀5分钟。对于悬浮生长的细胞系(GM12878)，从生长培养基中移取细胞，并在4℃下以300rcf沉淀5分钟。

在初始沉淀后，用冰冷的1mL NIB HEPES洗涤细胞两次。第二次洗涤之后，然后将沉淀物重悬于300μL NIB HEPES中。如上所述将细胞核等分并定量，然后基于该定量生成1百万个细胞核等分试样。将等分试样在4℃下以300rcf离心沉淀5分钟，并重悬于5mL NIBHEPES中。然后将246μL 16％(w/v)甲醛(赛默飞世尔公司28906)添加到细胞核悬浮液(f.c.0.75％甲醛)以轻微固定细胞核。经由在甲醛溶液中孵育10分钟，将细胞核固定在设定为50rpm的轨道式振荡器上。然后将悬浮液在4℃下以500rcf沉淀4分钟并抽吸上清液。然后将沉淀物重悬于1mL的NIB Tris缓冲液中以淬灭剩余的甲醛。再次将细胞核在4℃下以500rcf沉淀4分钟并抽吸上清液。将沉淀物用500μL 1X NE缓冲液2.1(NEB B7202S)洗涤一次，然后用760μL 1X NE缓冲液2.1重悬。添加40μL 1％SDS(v/v)，并将样品在设定为37℃的热混合器上以300rcf孵育20分钟。然后将核小体耗尽的细胞核在4℃下以500rcf沉淀5分钟，然后重悬于50μL NIB Tris中。获得5μL的细胞核等分试样并在NIB Tris以1∶10稀释，然后如上所述进行定量。基于该定量，通过添加NIB Tris将细胞核稀释至500个细胞核/μL。根据实验设置，然后将420μL的浓度为500个细胞核/μL的细胞核与540μL 2X TD缓冲液组合。在此之后，将细胞核片段标签化、染色并流式分选，如针对s3-ATAC方案所描述的，对基因组DNA执行间隙填充并执行衔接子转换。如上所述，通过PCR执行文库扩增，由于每个文库的初始捕获事件较多，因此总循环较少(13个至15个)。然后将文库净化、选择大小并如先前所述进行测序。

s3-GCC文库生成

如针对s3-WGS文库生成所描述的，对相同培养的细胞系样品进行采样，并由相同的固定核小体耗尽的细胞核的池进行处理。在定量细胞核后，将各个样品的所有剩余的细胞核悬浮液(每个样品约2个至3个细胞核)合并。使细胞核在4℃下以500rcf沉淀5分钟，并重悬于90μL 1X Cutsmart缓冲液(NEB B7204S)中。将10μL的10U/μL AluI限制性酶(NEBR0137S)添加到每个样品。然后使样品在37℃的热混合器上以300rpm消化2小时。消化后，使细胞核片段进行邻位连接。使细胞核在4℃下以500rcf沉淀5分钟，并重悬于100μL连接反应物缓冲液中。连接缓冲液是具有以下试剂的混合物：最终浓度的1X T4 DNA连接酶缓冲液+ATP(NEB M0202S)、0.01％TritonX-100、0.5mM DTT(西格玛公司D0632)、200U的T4 DNA连接酶，以超纯水H2O稀释。在16℃下进行连接达14小时(过夜)。在该孵育后，使细胞核在4℃下以500rcf沉淀5分钟，并重悬于100μL NIB HEPES缓冲液中。如先前所述对细胞核的等分试样进行定量，然后稀释、等分、片段标签化、合并、DAPI染色、流式分选，如针对s3-ATAC方案所描述的，对基因组DNA执行间隙填充并执行衔接子转换。文库以与s3-WGS文库(13个至15个循环)相同的速率发生扩增，随后如上所述对文库进行合并、净化并测序。

实施例3

经由组合的片段标签化和索引制备文库

以下实施方案展示了用于使用组合的片段标签化和索引步骤从细胞核样品制备双索引双端文库的方法和系统。经由片段标签化添加第一索引序列，并且经由杂交和延伸添加第二索引序列。

该示例使用具有转座子的固定化转座体复合物，该转座子具有第一链和第二链，该第一链为5′-引物-索引-接头-尿嘧啶-转座酶识别结构域(例如5′-P5-i5-A14-U-ME-3′)，该第二链是转座酶识别序列的互补序列(例如5′-ME′-3′)。转座子的示例性第一链是SEQ ID NO：1，并且该转座子的示例性第二链是SEQ ID NO：1的核苷酸53至71的互补序列。转座体复合物通过生物素固定在小珠上，该生物素经由可裂解接头附接到第一链的5′端。含有第二索引序列的寡核苷酸具有5′-引物-索引-接头-转座酶识别序列，例如5′-P7-i7-B15-ME-3′。含有第二索引序列的示例性寡核苷酸是SEQ ID NO：2。第二索引序列任选地在3′端处被封端，例如使用双脱氧或锁核酸。P5、i5、P7、i7、ME、A14和B15的示例性序列分别为SEQ ID NO：3至9。

将溶液中的核酸在期望范围内添加到96孔板的每个孔。将具有上述转座子序列的小珠连接的转座体的悬浮液添加到每个孔，并将板在适用于允许转座酶片段化并插入转座子序列的条件下孵育。例如通过添加SDS或加热以移除转座酶。添加不耐受尿嘧啶的聚合酶(例如，校对读取聚合酶或Phusion)以填充核酸片段末端与第二转座子序列之间的间隙。尿嘧啶不耐受的聚合酶当其到达插入在第一转座子序列的A14与ME序列之间的尿嘧啶时停止。经片段标签化的核苷酸被变性并且第二索引寡核苷酸与经片段标签化的核苷酸杂交，随后进行酶促延伸。双索引核酸可用于测序或进一步处理，包括但不限于扩增。

本文引用的所有专利、专利申请和出版物的完整公开内容，以及以电子方式获得的材料(包括，例如，在例如GenBank和RefSeq中的核苷酸序列提交，在例如SwissProt、PIR、PRF、PDB中的氨基酸序列提交，以及来自GenBank和RefSeq中的注释编码区的翻译)全文以引用方式并入。出版物中引用的补充材料(诸如补充表、补充图、补充材料和方法和/或补充实验数据)同样全文以引用方式并入。在本申请的公开内容与以引用方式并入本文的任何文献的公开内容之间存在任何不一致性的情况下，应以本申请的公开内容为准。上述详细描述和实施例仅为了清楚地理解本发明而给出。不应将其理解为不必要的限制。本公开不限于所示和所述的确切细节，因为对本领域技术人员显而易见的变型将包括在由权利要求所限定的公开内容内。

除非另外指明，否则本说明书和权利要求书中所用的表示组分的量、分子量等的所有数字在所有情况下均应理解为由术语″约″修饰。因此，除非有相反的说明，否则本说明书和权利要求书中列出的数值参数均为近似值，这些近似值可根据本公开寻求获得的期望性质而变化。至少，并非试图将等同原则限制在权利要求的范围之内，每个数值参数应至少根据所报告的有效数位的数目并通过应用惯常的四舍五入法来解释。

尽管阐述本公开的广义范围的数值范围和参数是近似值，但是在具体实施例中所列出的数值被尽可能精确地报告。然而，所有数值固有地包含一个范围，该范围必然是由存在于其相应测试测量中的标准偏差引起。

除非另外指明，否则所有标题都是为了方便读者，而不应用于限制该标题后面的文本的含义。

序列表

<110> 因美纳公司

因美纳剑桥有限公司

俄勒冈健康科学大学

<120> 用于增加测序文库产量的方法

<130> IP-1985-PCT-0531.001985WO01

<150> US 63/036710

<151> 2020-06-09

<160> 9

<170> PatentIn 3.5版

<210> 1

<400> 1

000

<210> 2

<211> 66

<212> DNA

<213> 人造

<220>

<223> 含有P7、i7、B15和ME的寡核苷酸

<400> 2

caagcagaag acggcatacg agattcgcct tagtctcgtg ggctcggaga tgtgtataag 60

agacag 66

<210> 3

<211> 29

<212> DNA

<213> 人造

<220>

<223> P5

<400> 3

aatgatacgg cgaccaccga gatctacac 29

<210> 4

<400> 4

000

<210> 5

<211> 23

<212> DNA

<213> 人造

<220>

<223> P7

<400> 5

caagcagaag acggcatacg aga 23

<210> 6

<400> 6

000

<210> 7

<211> 19

<212> DNA

<213> 人造

<220>

<223> ME

<400> 7

agatgtgtat aagagacag 19

<210> 8

<211> 14

<212> DNA

<213> 人造

<220>

<223> A14

<400> 8

tcgtcggcag cgtc 14

<210> 9

<211> 15

<212> DNA

<213> 人造

<220>

<223> B15

<400> 9

gtctcgtggg ctcgg 15

Claims

1.一种用于产生测序文库的方法，所述方法包括：

2.根据权利要求1所述的方法，其中所述多个对称修饰的靶核酸是双链的，并且每条链从5′到3′包含：包含所述DNA损伤的所述第一衔接子序列、所述靶核酸、包含至少一个核苷酸的间隙和不含所述DNA损伤的所述第一衔接子序列的一部分的所述互补序列。

3.根据权利要求1所述的方法，其中所述延伸在所述间隙处引发。

4.根据权利要求2所述的方法，还包括：

用不耐受损伤的聚合酶延伸所述退火的不对称修饰的靶核酸的所述3′端，

其中所述延伸导致多个不对称修饰的靶核酸从5′到3′包含：

(i)所述第一衔接子、(ii)所述靶核酸、(iii)所述第一衔接子的所述部分的所述互补序列和(iv)所述第二衔接子的所述互补序列。

5.根据权利要求4所述的方法，其中使所述退火的不对称修饰的靶核酸的所述3′端的所述延伸重复至少3次。

6.根据权利要求1所述的方法，其中所述DNA损伤包括无碱基位点、经修饰的碱基、错配、单链断裂或交联核苷酸中的至少一者。

7.根据权利要求1所述的方法，其中所述DNA损伤包括至少一个尿嘧啶。

8.根据权利要求4所述的方法，其中所述引物的所述退火结构域包含至少一个经改变的核苷酸，所述至少一个经改变的核苷酸与对应的天然DNA核苷酸相比升高了解链温度。

9.根据权利要求8所述的方法，其中所述经改变的核苷酸包括锁核酸、PNA或RNA。

10.根据权利要求4所述的方法，其中所述引物的所述3′端被封端。

11.根据权利要求1所述的方法，其中所述第一衔接子包含一个或多个通用序列、一个或多个索引序列、一个或多个通用分子标识符或它们的组合。

12.根据权利要求11所述的方法，其中所述一个或多个通用序列、一个或多个索引序列和一个或多个通用分子标识符中的至少一者位于所述DNA损伤与所述衔接子的远离所述靶核酸的末端之间的所述衔接子中。

13.根据权利要求4所述的方法，其中所述第二衔接子包含一个或多个通用序列、一个或多个索引序列、一个或多个通用分子标识符或它们的组合。

14.根据权利要求13所述的方法，其中与所述第二衔接子的所述一个或多个通用序列、一个或多个索引序列和一个或多个通用分子标识符相比，所述第一衔接子的所述一个或多个通用序列、一个或多个索引序列和一个或多个通用分子标识符是独特的。

15.根据权利要求11所述的方法，其中所述第一衔接子的所述一个或多个索引序列是隔室特异性的。

16.根据权利要求13所述的方法，其中所述第二衔接子的所述一个或多个索引序列是隔室特异性的。

17.根据权利要求1所述的方法，其中所述第一衔接子包含转座酶识别位点。

18.根据权利要求1所述的方法，其中所述靶核酸是来自源自单个细胞的核酸。

19.根据权利要求1所述的方法，其中所述靶核酸来自源自多个细胞的核酸。

20.根据权利要求18或19所述的方法，其中源自单个细胞或多个细胞的所述靶核酸包括RNA。

21.根据权利要求20所述的方法，其中所述RNA包括mRNA。

22.根据权利要求18或19所述的方法，其中源自单个细胞或多个细胞的所述靶核酸包括DNA。

23.根据权利要求22所述的方法，其中所述DNA包括全细胞基因组DNA。

24.根据权利要求23所述的方法，其中所述全细胞基因组DNA包含核小体。

25.根据权利要求1所述的方法，其中所述靶核酸来自源自无细胞DNA的核酸。

26.根据权利要求11至16中任一项所述的方法，其中所述方法包括组合索引。

27.根据权利要求1所述的方法，还包括扩增所述不对称修饰的靶核酸，

其中所述扩增包括第二引物和耐受损伤的聚合酶，

其中所述第二引物包含与所述第一衔接子序列或其互补序列退火的核苷酸序列。

28.根据权利要求27所述的方法，其中所述第二引物还包含一个或多个通用序列、一个或多个索引序列、一个或多个通用分子标识符或它们的组合。

29.根据权利要求28所述的方法，其中与所述第一衔接子和所述第二衔接子的所述一个或多个通用序列、一个或多个索引序列和一个或多个通用分子标识符相比，所述第二引物的所述一个或多个通用序列、一个或多个索引序列和一个或多个通用分子标识符是独特的。

30.根据权利要求1所述的方法，其中所述多个不对称修饰的靶核酸的子集存在于多个隔室中，并且其中(i)所述第一衔接子包含第一隔室特异性索引，(ii)所述第二衔接子包含第二隔室特异性索引，或(i)和(ii)两者。

31.根据权利要求30所述的方法，还包括将来自不同隔室的所述不对称修饰的靶核酸组合以生成合并的带索引不对称修饰的靶核酸。

32.根据权利要求31所述的方法，还包括：

将所述合并的带索引不对称修饰的靶核酸的子集分配到第二多个隔室中，以及修饰所述带索引不对称修饰的靶核酸，

其中所述修饰包括向存在于每个子集中的所述带索引不对称修饰的靶核酸添加另外的隔室特异性索引序列以产生带索引DNA核酸，

其中所述修饰包括连接或延伸。

33.根据权利要求30至32中任一项所述的方法，其中所述隔室包括孔或小滴。

34.根据权利要求1所述的方法，其中所述提供包括使多个DNA片段与所述第一衔接子在将所述第一衔接子连接到所述DNA片段的两端的条件下接触。

35.根据权利要求34所述的方法，其中所述DNA片段是双链的和平末端的。

36.根据权利要求34或35所述的方法，其中所述第一衔接子是双链DNA寡核苷酸。

37.根据权利要求34或35所述的方法，其中所述第一衔接子的一个3′端被封端。

38.根据权利要求34所述的方法，其中所述DNA片段是双链的并且在一个或两个3′端处包含单链区域。

39.根据权利要求34或38所述的方法，其中所述第一衔接子是双链DNA寡核苷酸，所述双链DNA寡核苷酸在一个末端处包含单链区域，其中所述单链区域能够与存在于所述DNA片段上的所述单链区域退火。

40.根据权利要求34、35或38中任一项所述的方法，其中所述衔接子是叉形衔接子。

41.根据权利要求1所述的方法，其中所述提供包括使DNA与转座体复合物接触，其中所述转座体复合物包含转座酶和所述第一衔接子，其中所述接触在适用于将所述第一衔接子连接到所述DNA中的条件下发生以生成所述对称修饰的靶核酸。

42.根据权利要求41所述的方法，其中所生成的对称修饰的靶核酸包括在所连接的第一衔接子与所述靶核酸之间的一条链中的至少一个核苷酸的间隙。

43.根据权利要求41或42所述的方法，其中所述DNA存在于多个隔室中，并且其中每个隔室中的所述第一衔接子包含隔室特异性索引。

44.根据权利要求42所述的方法，还包括将来自不同隔室的所述单链修饰的靶核酸组合以生成合并的对称修饰的靶核酸，以及将所述对称修饰的靶核酸分配到第二多个隔室中。

45.根据权利要求23所述的方法，其中所述方法还包括所述全细胞基因组DNA的片段标签化。

46.根据权利要求45所述的方法，其中所述片段标签化包括用限制性核酸内切酶消化所述全细胞基因组DNA。

47.根据权利要求45或46所述的方法，其中对所述片段化的DNA进行邻位连接以连接嵌合靶核酸。

48.根据权利要求1或4所述的方法，其中衔接子的胞嘧啶残基被5-甲基胞嘧啶替换。

49.根据权利要求48所述的方法，其中对所述对称靶核酸或所述不对称靶核酸进行化学或酶促甲基化转化。

50.根据权利要求1所述的方法，其中所述提供包括：固定分离的细胞核、使所述分离的细胞核处于从基因组DNA中分离核小体的条件下、使所述基因组DNA片段化、使所述片段进行邻位连接以连接嵌合靶核酸，以及使所连接的片段与转座体复合物接触，其中所述转座体复合物包含转座酶和所述第一衔接子，其中所述接触在适用于将所述第一衔接子连接到所述DNA中的条件下发生以生成所述对称修饰的靶核酸。

51.根据权利要求50所述的方法，其中所述片段化包括用限制性核酸内切酶消化。

52.根据权利要求4所述的方法，还包括：

提供包含多个扩增位点的表面，

53.一种组合物，所述组合物包含转座体复合物和DNA聚合酶，

其中所述转座体包含与转座子序列结合的转座酶，

其中所述转座子序列包含衔接子和DNA损伤，并且

其中所述DNA聚合酶是不耐受损伤的聚合酶。

54.根据权利要求53所述的组合物，其中所述衔接子包含一个或多个通用序列、一个或多个索引序列、一个或多个UMI或它们的组合。

55.根据权利要求53或54所述的组合物，还包含耐受损伤的DNA聚合酶。

56.一种组合物，所述组合物包含

不耐受损伤的DNA聚合酶。

57.根据权利要求56所述的组合物，其中所述引物包含至少一个经改变的核苷酸，所述至少一个经改变的核苷酸与对应的天然DNA核苷酸相比升高了解链温度。

58.根据权利要求56或57所述的组合物，其中所述引物与靶核酸退火。

59.根据权利要求56所述的组合物，其中所述引物的所述3′端被封端。

60.根据权利要求56所述的组合物，其中所述第一衔接子包含转座酶识别位点。

61.一种试剂盒，所述试剂盒包括单独容器中的转座体复合物和DNA聚合酶，

其中所述转座体包含与转座子序列结合的转座酶，

其中所述转座子序列包含第一衔接子和DNA损伤，并且

其中所述DNA聚合酶是不耐受损伤的聚合酶；和

使用说明。

62.根据权利要求61所述的试剂盒，所述试剂盒还包括单独容器中的第二DNA聚合酶，

其中所述第二DNA聚合酶是耐受损伤的聚合酶。

63.根据权利要求61或62所述的试剂盒，还包括引物，

其中所述引物从5′到3′包含第二衔接子和退火结构域，所述退火结构域包含与所述第一衔接子的所述互补序列退火的核苷酸序列。

64.根据权利要求63所述的试剂盒，其中所述引物的所述3′端被封端。

65.根据权利要求61所述的试剂盒，其中所述第一衔接子包含：通用序列中的一个或多个通用序列、索引序列中的一个或多个索引序列、UMI中的一个或多个UMI，或它们的组合。

66.根据权利要求63所述的试剂盒，其中所述第二衔接子引物还包含：通用序列中的一个或多个通用序列、索引序列中的一个或多个索引序列、UMI中的一个或多个UMI，或它们的组合。

67.一种转座体复合物，所述转座体复合物包含：

转座酶；和

转座子，所述转座子包含核酸，所述核酸包含衔接子，所述衔接子在第一链上从5′到3′包含：至少一个通用序列、至少一个索引序列、至少一个UMI或它们的组合；DNA损伤和转座酶识别序列；以及在第二链上与所述转座酶识别序列的至少一部分互补的核苷酸。

68.根据权利要求67所述的转座体复合物，其中所述第一链还包含在所述第一链的所述5′端处的捕获剂。

69.根据权利要求68所述的转座体复合物，其中所述第一链还包含位于捕获剂与所述5′端之间的可裂解接头。

70.根据权利要求67所述的转座体复合物，其中所述第二链还包含在所述第二链的所述3′端处的捕获剂。

71.根据权利要求70所述的转座体复合物，其中所述第二链还包含位于捕获剂与所述3′端之间的可裂解接头。