CN107849600A

CN107849600A - 用于分子标记的方法、系统、组合物、试剂盒、装置和计算机可读媒体

Info

Publication number: CN107849600A
Application number: CN201680042448.7A
Authority: CN
Inventors: A·摩甘; R·陈; D·布林扎; K·布拉姆莱特
Original assignee: Life Technologies Inc
Current assignee: Life Technologies Inc; Life Technologies Corp
Priority date: 2015-06-09
Filing date: 2016-06-09
Publication date: 2018-03-27
Also published as: EP3653728B1; JP2018522543A; EP3307908A1; US20210363596A1; US10344336B2; US20190323091A1; US12338496B2; US11124842B2; JP6698708B2; EP3653728A1; WO2016201142A1; EP3307908B1; US20160362748A1

Abstract

在一些实施例中，本公开大体上涉及方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，包含采用多个附加至多个聚核苷酸的标签的多重分子标记程序。所述标签具有独特地识别其所附加的聚核苷酸分子，且准许追踪经标记的分子的混合物中的个别经标记的分子的特征，包括序列、长度和/或可检测部分，或任何其它特征。举例来说，具有独特标签序列的所述标签可独特地识别其所附加的个别聚核苷酸，且区分所述个别聚核苷酸与混合物中的其它经标记的聚核苷酸。在一些实施例中，所述多重分子标记程序可用于产生误差校正的测序数据和用于检测以低丰度存在于核酸样品中的标靶聚核苷酸。

Description

用于分子标记的方法、系统、组合物、试剂盒、装置和计算机可读媒体

本申请根据35U.S.C.§119要求2015年6月9日提交的美国临时申请第62/172,836号、2015年8月19日提交的第62/207,177号、2015年10月30日提交的第62/248,978号、2016年3月7日提交的第62/304,530号、2016年3月18日提交的第62/310,647号、2016年3月21日提交的第62/311,276号和2016年4月15日提交的第62/323,142号的权益；所有上述申请的公开内容以全文引用的方式并入。

在本申请中，引用各种公开案、专利和/或专利申请。所述公开案、专利和/或专利申请的公开内容在此以全文引用的方式并入本申请中以便更充分地描述本发明所涉及的目前最先进的水平。

发明内容

在一些实施例中，本公开大体上涉及用于检测基因变异体、识别基因变异体和/或产生误差校正的测序数据的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，其采用分子标记程序，其中聚核苷酸附有至少一个标签。

在一些实施例中，本公开大体上涉及用于检测存在于核酸样品中的标靶聚核苷酸(例如变异序列标靶聚核苷酸)的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，包含以下步骤：(a)形成含有以下的单一反应混合物：(i)来自核酸样品的多个聚核苷酸，和(ii)多个寡核苷酸标签。

在一些实施例中，本公开大体上涉及用于检测存在于核酸样品中的标靶聚核苷酸(例如变异序列标靶聚核苷酸)的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，进一步包含以下步骤：(b)通过向多个聚核苷酸内的个别聚核苷酸附加至少一个来自多个寡核苷酸标签的标签而在单一反应混合物内产生多个经标记的聚核苷酸。

在一些实施例中，本公开大体上涉及用于检测存在于核酸样品中的标靶聚核苷酸(例如变异序列标靶聚核苷酸)的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，进一步包含以下步骤：(c)通过扩增多个经标记的聚核苷酸而产生经标记的扩增子群体。

在一些实施例中，本公开大体上涉及用于检测存在于核酸样品中的标靶聚核苷酸(例如变异序列标靶聚核苷酸)的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，进一步包含以下步骤：(d)对经标记的扩增子群体的至少一部分测序。

在一些实施例中，本公开大体上涉及用于检测存在于核酸样品中的标靶聚核苷酸(例如变异序列标靶聚核苷酸)的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，进一步包含以下步骤：(e)确定变异序列标靶聚核苷酸以0.05-5％的丰度水平存在于核酸样品中。

在一些实施例中，步骤(a)的单一反应混合物含有1-100ng的多个聚核苷酸，其包括标靶聚核苷酸和非标靶聚核苷酸的混合物。

在一些实施例中，步骤(a)的单一反应混合物中的多个寡核苷酸标签检测到核酸样品中存在5-100种不同聚核苷酸。

在一些实施例中，步骤(a)的单一反应混合物中的多个寡核苷酸标签检测到85-100％存在于核酸样品中的不同聚核苷酸。

在一些实施例中，核酸样品包含来自生物流体的无细胞核酸、来自活检组织的核酸、来自穿刺活检的核酸或来自细胞的核酸。

在一些实施例中，步骤(b)中的多个经标记的聚核苷酸中的任何两个附有彼此不同的标签。在一些实施例中，多个经标记的聚核苷酸中的任何两个在两端处附有不同寡核苷酸。举例来说，附有彼此不同的标签的两个经标记的聚核苷酸为在两端处附有不同寡核苷酸的相同或不同的两个经标记的聚核苷酸。

在一些实施例中，步骤(b)中的多个经标记的聚核苷酸中的至少两个附有彼此不同的标签，其中多个经标记的聚核苷酸中的至少两个在两端处附有不同寡核苷酸标签。

在一些实施例中，步骤(a)中的多个寡核苷酸标签中的个别寡核苷酸标签包括具有随机物标签序列的区域，所述随机物标签序列包含与固定标签序列相间的不同随机标签序列。

在一些实施例中，步骤(a)的单一反应混合物含有多个具有10⁴-10⁹个不同随机物标签序列的寡核苷酸标签。

在一些实施例中，步骤(a)的单一反应混合物中的多个寡核苷酸标签包括随机物标签序列，其包含结构(N)_n(X)_x(M)_m(Y)_y，其中(i)“N”表示随机标签序列，其中随机标签序列中的每个碱基位置独立地选自A、G、C或T，且其中长度“n”为2-10；(ii)其中“X”表示在所有的多个标签中相同的固定标签序列，且其中长度“x”为2-10；(iii)其中“M”表示随机标签序列，其中随机标签序列中的每个碱基位置独立地选自A、G、C或T，其中随机标签序列“M”不同于随机标签序列“N”，且其中长度“m”为2-10；(iv)其中“Y”表示在所有的多个标签中相同的固定标签序列，其中“Y”的固定标签序列不同于“X”的固定标签序列，且其中长度“y”为2-10；且(v)其中固定标签序列“(X)”和“(Y)”为序列比对锚。

在一些实施例中，单一反应混合物中的多个寡核苷酸标签在步骤(b)的引物延伸反应中附加至个别聚核苷酸，其中单一反应混合物中的多个寡核苷酸标签包含多个单链引物，所述单链引物包括：(i)特异性结合来自核酸样品的多个聚核苷酸中的标靶序列的3'区，和(ii)具有不结合至来自核酸样品的多个聚核苷酸中的标靶序列的序列的5'尾且5'尾包括包含随机物标签序列的序列。

在一些实施例中，在步骤(b)的酶接合反应中向个别聚核苷酸附加单一反应混合物中的多个寡核苷酸标签，其中单一反应混合物中的多个寡核苷酸标签包含多个双链线性衔接子、茎环衔接子或Y形衔接子，且其中多个寡核苷酸标签包括随机物标签序列。

在一些实施例中，本公开大体上涉及方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，进一步包含：通过向多个聚核苷酸附加至少一个选自由以下组成的群组的通用序列而产生多个经标记的捕获聚核苷酸：扩增引物序列、测序引物序列、捕获引物序列和可裂解位点。

在一些实施例中，本公开大体上涉及方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，进一步包含：(a)通过将多个经标记的捕获聚核苷酸结合至多个与支撑物附接的捕获引物而形成多个捕获的聚核苷酸；和(b)对多个捕获的聚核苷酸测序。

在一些实施例中，支撑物包括10⁴-10⁹个测序反应位点的阵列。

在一些实施例中，测序反应位点可操作地耦接到至少一个检测核苷酸并入事件的CMOS传感器。

在一些实施例中，步骤(b)中的测序进一步包含：使一种类型的核苷酸流动到多个捕获的聚核苷酸上。举例来说，一种类型的核苷酸选自由以下组成的群组：标记有光学可检测标记的核苷酸、未标记有光学可检测标记的核苷酸、终止子核苷酸或并非终止子核苷酸的核苷酸。

在一些实施例中，步骤(b)中的测序包括使2-4种不同类型的核苷酸流动到多个捕获的聚核苷酸上。举例来说，2-4不同类型的核苷酸中的至少一种类型选自由以下组成的群组：标记有光学可检测标记的核苷酸、未标记有光学可检测标记的核苷酸、终止子核苷酸或并非终止子核苷酸的核苷酸。

在一些实施例中，本公开大体上涉及方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，进一步包含：对经标记的扩增子群体的至少一部分测序以产生多个各自具有随机物标签序列的候选测序读段，所述随机物标签序列包含与固定标签序列相间的不同随机标签序列，其中随机物标签序列内的固定标签序列形成序列比对锚。

在一些实施例中，本公开大体上涉及方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，进一步包含：比对多个候选测序读段的序列比对锚。

在一些实施例中，本公开大体上涉及通过本文所述的任何方法产生的多个经标记的聚核苷酸。

在一些实施例中，本公开大体上涉及方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，进一步包含以下步骤：(b)通过向多个聚核苷酸内的个别聚核苷酸附加至少一个来自多个寡核苷酸标签的标签而在单一反应混合物内产生多个经标记的聚核苷酸。

在一些实施例中，本公开大体上涉及方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，进一步包含以下步骤：(c)通过扩增多个经标记的聚核苷酸而产生经标记的扩增子群体。

在一些实施例中，本公开大体上涉及方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，进一步包含以下步骤：(d)对经标记的扩增子群体的至少一部分测序。

在一些实施例中，本公开大体上涉及方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，进一步包含以下步骤：(e)确定变异序列标靶聚核苷酸以0.05-5％的丰度水平存在于核酸样品中。

在一些实施例中，步骤(e)中的确定包含确定变异序列标靶聚核苷酸以0.05-0.1％的丰度水平存在于核酸样品中。

在一些实施例中，步骤(a)中的单一反应混合物含有1-100ng的多个聚核苷酸，其包括标靶聚核苷酸和非标靶聚核苷酸的混合物。

在一些实施例中，步骤(a)的核酸样品包含来自生物流体的无细胞核酸、来自活检组织的核酸、来自穿刺活检的核酸或来自细胞的核酸。

在一些实施例中，生物流体为血液、唾液、痰液、汗液、泪液、灌洗液、羊膜液、脑脊髓液、腹水、尿液、大便、粪便或精液。

在一些实施例中，步骤(a)中的核酸样品包含DNA或RNA，或DNA和RNA的混合物。

在一些实施例中，步骤(b)中的多个经标记的标靶聚核苷酸中的至少两个附有彼此不同的标签。

在一些实施例中，步骤(b)中的多个经标记的标靶聚核苷酸在两端处附有不同标签。

在一些实施例中，步骤(a)中的多个寡核苷酸标签中的个别寡核苷酸标签包括包含不同随机标签序列的区域，所述随机标签序列与固定标签序列相间。

在一些实施例中，步骤(a)的单一反应混合物含有多个具有10⁴-10⁹个不同随机标签序列的寡核苷酸标签。

在一些实施例中，变异序列标靶聚核苷酸以变异序列、多态序列或突变序列形式存在于核酸样品中。

在一些实施例中，步骤(b)的单一反应混合物中的多个寡核苷酸标签以序列依赖性方式附加至其对应的标靶聚核苷酸。

在一些实施例中，步骤(a)的单一反应混合物中的多个寡核苷酸标签在步骤(b)的引物延伸反应中附加至其对应的标靶聚核苷酸，且单一反应混合物包括聚合酶和多个核苷酸。

在一些实施例中，步骤(a)的单一反应混合物中的多个寡核苷酸标签包含多个单链引物，其中个别单链引物包括：(i)特异性结合来自核酸样品的多个聚核苷酸中的标靶序列的3'区，和(ii)具有不与来自核酸样品的多个聚核苷酸中的标靶序列互补的序列的5'尾。

在一些实施例中，多个单链引物的5'尾包含结构(N)_n(X)_x(M)_m(Y)_y，(i)其中“N”表示随机标签序列，其中随机标签序列中的每个碱基位置独立地选自A、G、C或T，且其中长度“n”为2-10；(ii)其中“X”表示在所有的多个标签中相同的固定标签序列，且其中长度“x”为2-10；(iii)其中“M”表示随机标签序列，其中随机标签序列中的每个碱基位置独立地选自A、G、C或T，其中随机标签序列“M”不同于随机标签序列“N”，且其中长度“m”为2-10；且(iv)其中“Y”表示在所有的多个标签中相同的固定标签序列，其中“Y”的固定标签序列不同于“X”的固定标签序列，且其中长度“y”为2-10。

在一些实施例中，多个单链引物内的固定标签序列“(X)_x”和“(Y)_y”为序列比对锚。

在一些实施例中，多个单链引物的5'尾包含结构N₁N₂N₃X₁X₂X₃N₄N₅N₆X₄X₅X₆，其中：“N₁N₂N₃”和“N₄N₅N₆”表示随机标签序列，其中随机标签序列中的每个碱基位置独立地选自A、G、C或T；其中“X₁X₂X₃”表示在所有的多个标签中相同的第一固定标签序列，其中“X₄X₅X₆”表示在所有的多个标签中相同且不同于第一固定标签序列的序列的第二固定标签序列。

在一些实施例中，{2多个单链标签引物内的第一固定标签序列“X₁X₂X₃”和第二固定标签序列“X₄X₅X₆”为序列比对锚。

在一些实施例中，多个单链引物的5'尾包含序列5'-NNNACTNNNTGA-3'(SEQ IDNO:1)，其中“NNN”表示随机标签序列，其中随机标签序列中的每个碱基位置独立地选自A、G、C或T。

在一些实施例中，多个单链标签引物内的“ACT”和“TGA”为序列比对锚。

在一些实施例中，步骤(e)中的确定包括：(i)使用多个单链引物的序列比对锚确定变异序列标靶聚核苷酸以0.05-5％的丰度水平存在于核酸样品中。

在一些实施例中，多个寡核苷酸标签在步骤(b)的酶接合反应中附加至其对应的标靶聚核苷酸，且单一反应混合物包括DNA接合酶或RNA接合酶。

在一些实施例中，步骤(a)的单一反应混合物中的多个寡核苷酸标签包含多个双链线性衔接子、茎环衔接子或Y形衔接子。

在一些实施例中，多个双链线性衔接子、茎环衔接子或Y形衔接子包含具有结构(N)_n(X)_x(M)_m(Y)_y的区域，(i)其中“N”表示随机标签序列，其中随机标签序列中的每个碱基位置独立地选自A、G、C或T，且其中长度“n”为2-10；(ii)其中“X”表示在所有的多个标签中相同的固定标签序列，且其中长度“x”为2-10；(iii)其中“M”表示随机标签序列，其中随机标签序列中的每个碱基位置独立地选自A、G、C或T，其中随机标签序列“M”不同于随机标签序列“N”，且其中长度“m”为2-10；且(iv)其中“Y”表示在所有的多个标签中相同的固定标签序列，其中“Y”的固定标签序列不同于“X”的固定标签序列，且其中长度“y”为2-10。

在一些实施例中，多个双链线性衔接子、茎环衔接子或Y形衔接子内的固定标签序列“(X)_x”和“(Y)_y”为序列比对锚。

在一些实施例中，{2多个双链线性衔接子、茎环衔接子或Y形衔接子内的第一固定标签序列“X₁X₂X₃”和第二固定标签序列“X₄X₅X₆”为序列比对锚。

在一些实施例中，多个双链线性衔接子、茎环衔接子或Y形衔接子内的“ACT”和“TGA”为序列比对锚。

在一些实施例中，步骤(e)中的确定包括：(i)使用多个双链线性衔接子的序列比对锚确定第一标靶聚核苷酸以0.05-5％的丰度水平存在于核酸样品中。

在一些实施例中，本公开大体上涉及用于检测存在于核酸样品中的标靶聚核苷酸(例如变异序列标靶聚核苷酸)的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，进一步包含以下步骤：向多个聚核苷酸附加选自由以下组成的群组的通用序列中的至少一个或任何组合：扩增引物序列、测序引物序列、捕获引物序列和可裂解位点。

在一些实施例中，向产生于步骤(b)中的多个经标记的标靶聚核苷酸，包括第一和第二经标记的标靶聚核苷酸附加扩增引物序列、测序引物序列和第一捕获引物序列。

在一些实施例中，向产生于步骤(b)中的多个经标记的标靶聚核苷酸，包括第一和第二经标记的标靶聚核苷酸附加第二捕获引物序列，其具有不同于第一捕获引物序列的序列的序列。

在一些实施例中，本公开大体上涉及用于检测存在于核酸样品中的标靶聚核苷酸(例如变异序列标靶聚核苷酸)的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，进一步包含以下步骤：(a)通过将第一经标记的标靶聚核苷酸的第一捕获引物序列结合至与支撑物附接的第一捕获引物而形成捕获的第一聚核苷酸；(b)(i)通过将第二经标记的标靶聚核苷酸的第一捕获引物序列结合至与第一捕获引物相同的支撑物连接的第二捕获引物而形成捕获的第二聚核苷酸，或(ii)通过将第二经标记的标靶聚核苷酸的第一捕获引物序列结合至与不同支撑物连接的第二捕获引物而形成捕获的第二聚核苷酸；(c)进行引物延伸反应；和(d)对具有多个聚合酶和多个核苷酸的第一和第二捕获的聚核苷酸测序。

在一些实施例中，测序包含大规模平行测序反应。

在一些实施例中，支撑物包含基本上平面的支撑物、流动池、多个孔、粒子或珠粒。

在一些实施例中，测序反应位点可操作地耦接到至少一个场效应晶体管(FET)传感器。

在一些实施例中，至少一个场效应晶体管(FET)传感器检测来自核苷酸并入的副产物，其中副产物包括焦磷酸盐、氢离子、质子、电荷转移或热量。

在一些实施例中，步骤(c)中的测序进一步包含：使一种类型的核苷酸流动到捕获的多个聚核苷酸，包括支撑物上的捕获的第一和第二聚核苷酸上。

在一些实施例中，一种类型的核苷酸标记有光学可检测标记，或未标记有光学可检测标记。

在一些实施例中，一种类型的核苷酸为终止子核苷酸或不为终止子核苷酸。{4

在一些实施例中，步骤(c)中的测序包括使2-4种不同类型的核苷酸流动到捕获的多个聚核苷酸，包括支撑物上的捕获的第一和第二聚核苷酸上。

在一些实施例中，2-4种不同类型的核苷酸中的至少一种类型标记有光学可检测标记，或未标记有光学可检测标记。

在一些实施例中，2-4种不同类型的核苷酸中的至少一种类型为终止子核苷酸或2-4种不同类型的核苷酸中无一者为终止子核苷酸。

在一些实施例中，步骤(d)中的测序进一步包含：对经标记的扩增子群体测序以产生多个候选测序读段。

在一些实施例中，步骤(e)中的确定包括：(i)比较参考标签序列与多个候选测序读段；和(ii)当第一候选测序读段的标签序列与参考标签序列不具有100％序列一致性时，从多个候选测序读段剔除第一候选测序读段。

在一些实施例中，所述参考标签序列不用于校正包含于给定候选测序读段中的误差。

在一些实施例中，步骤(e)中的确定包括：(i)通过将具有相同标签序列的候选测序读段分组在一起而形成多个分组测序读段家族。

在一些实施例中，步骤(e)中的确定包括：(i)在具有与参考标靶聚核苷酸序列相同的标靶聚核苷酸序列的给定分组测序读段家族内确定候选测序读段的百分比；和(ii)当给定分组测序读段家族内的至少10％的候选测序读段与参考标靶聚核苷酸具有100％序列一致性时，确定给定分组测序读段家族表示存在于核酸样品中的变异标靶聚核苷酸。

在一些实施例中，步骤(e)中的确定包括：(i)对具有共同第一标靶聚核苷酸序列的不同分组测序读段家族的数目计数；和(ii)当计数等于或超过三时，保留这些不同的经计数分组测序读段家族。

在一些实施例中，本公开大体上涉及用于检测存在于核酸样品中(例如以低丰度存在于核酸样品中)的标靶聚核苷酸(例如具有变异序列的标靶聚核苷酸)的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，包含以下步骤：(a)形成含有以下的单一反应混合物：(i)来自核酸样品的多个标靶聚核苷酸，其中多个标靶聚核苷酸包括至少第一标靶聚核苷酸和第二标靶聚核苷酸，和(ii)多个寡核苷酸标签。在一些实施例中，多个寡核苷酸标签包括至少第一、第二、第三和第四标签。在一些实施例中，来自多个寡核苷酸标签的个别标签包含与固定标签序列相间的不同随机标签序列。在一些实施例中，低丰度标靶聚核苷酸可以约0.0001-5％存在于核酸样品中。

在一些实施例中，本公开大体上涉及方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，进一步包含以下步骤：(b)在单一反应混合物内产生多个在两端处附有不同标签的经标记的标靶聚核苷酸。在一些实施例中，多个经标记的标靶聚核苷酸中的至少两个附有彼此不同的标签。在一些实施例中，产生于单一反应混合物中的多个经标记的标靶聚核苷酸包括第一和第二经标记的聚核苷酸。在一些实施例中，第一经标记的标靶聚核苷酸通过将第一标签附加至第一标靶聚核苷酸的一端且将第二标签附加至第一标靶聚核苷酸的另一端而产生。在一些实施例中，通过将第三标签附加至第二标靶聚核苷酸的一端且将第四标签附加至第二标靶聚核苷酸的另一端而在相同单一反应混合物内产生第二经标记的标靶聚核苷酸。

在一些实施例中，本公开大体上涉及方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，进一步包含以下步骤：(c)通过扩增多个经标记的标靶聚核苷酸而产生经标记的扩增子群体，包括通过扩增第一经标记的标靶聚核苷酸而产生第一经标记的扩增子群体，和通过扩增第二经标记的标靶聚核苷酸而产生第二经标记的扩增子群体。在一些实施例中，通过PCR进行扩增。

在一些实施例中，本公开大体上涉及方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，进一步包含以下步骤：(d)对经标记的扩增子群体测序以产生多个候选测序读段。在一些实施例中，测序包括对标靶聚核苷酸区域和其上附加的标签测序，包括对第一经标记的扩增子群体测序，其包含对第一标靶聚核苷酸区域和附加的第一和第二标签区域测序。在一些实施例中，测序包括对第二和经标记的扩增子群体测序，其包含对第二标靶聚核苷酸区域和附加的第三和第四标签区域测序。

在一些实施例中，本公开大体上涉及方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，进一步包含以下步骤：(e)确定(i)第一标靶聚核苷酸和第二标靶聚核苷酸以0.05-5％的丰度水平存在于核酸样品中，或确定(ii)第一标靶聚核苷酸或第二标靶聚核苷酸以0.05-5％的丰度水平存在于核酸样品中。

在一些实施例中，本公开大体上涉及方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，其中单一反应混合物中的多个寡核苷酸标签检测到核酸样品中存在5-100个，或100-200个，或200-300个，或300-400个，或400-500个或更多个不同的标靶聚核苷酸。

在一些实施例中，本公开大体上涉及方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，其中单一反应混合物中的多个寡核苷酸标签检测到85-90％，或85-95％，或85-99％，或85-100％的存在于核酸样品中的不同标靶聚核苷酸。

在一些实施例中，步骤(e)中的确定包含确定以0.05-0.1％的丰度水平存在于核酸样品中的第一标靶聚核苷酸。在一些实施例中，步骤(e)中的确定包含确定以0.05-0.1％的丰度水平存在于核酸样品中的第二标靶聚核苷酸。在一些实施例中，步骤(e)中的确定包含确定以0.05-0.1％的丰度水平存在于核酸样品中的第一和第二标靶聚核苷酸。

在一些实施例中，步骤(a)中的第一或第二标靶聚核苷酸以变异序列、多态序列或突变序列形式存在于核酸样品中。在一些实施例中，步骤(a)中的第一和第二标靶聚核苷酸各自以变异序列、多态序列或突变序列形式存在于核酸样品中。

在一些实施例中，步骤(a)中的来自核酸样品的多个标靶聚核苷酸包含来自生物流体的无细胞核酸、来自活检组织的核酸、来自穿刺活检的核酸或来自细胞的核酸。在一些实施例中，步骤(a)中的来自核酸样品的多个标靶聚核苷酸包含DNA或RNA，或DNA和RNA的混合物。在一些实施例中，生物流体为血液、唾液、痰液、汗液、泪液、灌洗液、羊膜液、脑脊髓液、腹水、尿液、大便、粪便或精液。

在一些实施例中，步骤(a)中的单一反应混合物含有1-10ng，或10-30ng，或30-50ng，或50-100ng的多个聚核苷酸，其包括标靶和非标靶聚核苷酸。

在一些实施例中，步骤(a)中的单一反应混合物含有第一标签，其具有10⁴-10⁹个不同随机标签序列。在一些实施例中，步骤(a)中的单一反应混合物含有第二标签，其具有10⁴-10⁹个不同随机标签序列。在一些实施例中，步骤(a)中的单一反应混合物含有第三标签，其具有10⁴-10⁹个不同随机标签序列。在一些实施例中，步骤(a)中的单一反应混合物含有第四标签，其具有10⁴-10⁹个不同随机标签序列。

在一些实施例中，步骤(a)的单一反应混合物中的多个寡核苷酸标签，包括第一、第二、第三和第四标签以序列依赖性方式附加至其对应的标靶聚核苷酸。在一些实施例中，步骤(a)的单一反应混合物中的多个寡核苷酸标签，包括第一、第二、第三和第四标签在步骤(b)的引物延伸反应中附加至其对应的标靶聚核苷酸。在一些实施例中，单一反应混合物包含引物延伸反应，其包括多个单链寡核苷酸标签引物、聚合酶和多个核苷酸。在一些实施例中，单一反应混合物中的多个标签包含多个单链寡核苷酸标签引物。

在一些实施例中，步骤(a)的单一反应混合物中的多个标签包含多个单链寡核苷酸标签引物，其中个别单链标签引物包括特异性结合来自核酸样品的多个聚核苷酸中的标靶序列的3'区。在一些实施例中，多个单链寡核苷酸标签引物包括个别单链标签引物，其包含具有不与来自核酸样品的多个聚核苷酸中的标靶序列互补的序列的5'尾。

在一些实施例中，多个单链寡核苷酸标签引物包含多个单链引物，其包括具有结构(N)_n(X)_x(M)_m(Y)_y的5'尾，和(i)其中“N”表示随机标签序列，其中随机标签序列中的每个碱基位置独立地选自A、G、C或T，且其中长度“n”为2-10；(ii)其中“X”表示在所有的多个标签中相同的固定标签序列，且其中长度“x”为2-10；(iii)其中“M”表示随机标签序列，其中随机标签序列中的每个碱基位置独立地选自A、G、C或T，其中随机标签序列“M”不同于随机标签序列“N”，且其中长度“m”为2-10；且(iv)其中“Y”表示在所有的多个标签中相同的固定标签序列，其中“Y”的固定标签序列不同于“X”的固定标签序列，且其中长度“y”为2-10。在一些实施例中，固定标签序列“X”在多个标签中相同。在一些实施例中，固定标签序列“X”在多个标签中不同。在一些实施例中，固定标签序列“Y”在多个标签中相同。在一些实施例中，固定标签序列“Y”在多个标签中不同。在一些实施例中，多个单链引物内的固定标签序列“(X)_x”和“(Y)_y”为序列比对锚。

在一些实施例中，多个单链引物的5'尾包含结构N₁N₂N₃X₁X₂X₃N₄N₅N₆X₄X₅X₆，其中“N₁N₂N₃”和“N₄N₅N₆”表示随机标签序列，其中随机标签序列中的每个碱基位置独立地选自A、G、C或T；其中“X₁X₂X₃”表示在所有的多个标签中相同的第一固定标签序列，其中“X₄X₅X₆”表示在所有的多个标签中相同且不同于第一固定标签序列的序列的第二固定标签序列。在一些实施例中，多个单链标签引物内的第一固定标签序列“X₁X₂X₃”和第二固定标签序列“X₄X₅X₆”为序列比对锚。

在一些实施例中，多个单链引物的5'尾包含序列5'-NNNACTNNNTGA-3'(SEQ IDNO:1)，其中“NNN”表示随机标签序列，其中随机标签序列中的每个碱基位置独立地选自A、G、C或T。在一些实施例中，5'-NNNACTNNNTGA-3'(SEQ ID NO:1)的加下划线的部分为序列比对锚。

在一些实施例中，步骤(e)中的确定包括：(i)使用第一和/或第二单链寡核苷酸标签引物的序列比对锚定确定第一标靶聚核苷酸以0.05-5％的丰度水平存在于核酸样品中；和(ii)使用第三和/或第四单链寡核苷酸标签引物的序列比对锚确定第二标靶聚核苷酸以0.05-5％的丰度水平存在于核酸样品中。

在一些实施例中，步骤(a)的单一反应混合物中的多个寡核苷酸标签，包括第一、第二、第三和第四标签在在步骤(b)的酶接合反应中附加至其对应的标靶聚核苷酸，且单一反应混合物包括DNA接合酶或RNA接合酶。在一些实施例中，单一反应混合物中的多个标签包含多个双链线性衔接子、茎环衔接子或Y形衔接子。

在一些实施例中，多个双链线性衔接子、茎环衔接子或Y形衔接子包含具有结构(N)_n(X)_x(M)_m(Y)_y的区域，且(i)其中“N”表示产生自A、G、C、T、U或I的随机标签序列，且其中“n”为2-10，其表示“N”随机标签序列的核苷酸长度；(ii)其中“X”表示固定标签序列，且其中“x”为2-10，其表示“X”随机标签序列的核苷酸长度；(iii)其中“M”表示产生自A、G、C、T、U或I的随机标签序列，其中随机标签序列“M”与随机标签序列“N”不同或相同，且其中“m”为2-10，其表示“M”随机标签序列的核苷酸长度；且(iv)其中“Y”表示固定标签序列，其中“Y”的固定标签序列与“X”的固定标签序列相同或不同，且其中“y”为2-10，其表示“Y”随机标签序列的核苷酸长度。在一些实施例中，固定标签序列“X”在多个标签中相同。在一些实施例中，固定标签序列“X”在多个标签中不同。在一些实施例中，固定标签序列“Y”在多个标签中相同。在一些实施例中，固定标签序列“Y”在多个标签中不同。在一些实施例中，茎环衔接子或Y形衔接子的茎区包含结构(N)_n(X)_x(M)_m(Y)_y。在一些实施例中，多个双链线性衔接子、茎环衔接子或Y形衔接子内的固定标签序列“(X)_x”和“(Y)_y”为序列比对锚。

在一些实施例中，多个双链线性衔接子、茎环衔接子或Y形衔接子包含具有结构N₁N₂N₃X₁X₂X₃或N₁N₂N₃X₁X₂X₃N₄N₅N₆X₄X₅X₆的区域。任选地，随机物标签可具有随机序列，其中核苷酸位置中的一些或全部可随机选自由以下组成的群组：A、G、C、T、U和I。举例来说，随机序列内的每个位置的核苷酸可独立地选自A、G、C、T、U或I中的任一个，或可选自这六种不同类型的核苷酸的子集。任选地，随机序列内的每个位置的核苷酸可独立地选自A、G、C或T中的任一个。在一些实施例中，第一固定标签序列“X₁X₂X₃”为多个标签中的相同或不同序列。在一些实施例中，第二固定标签序列“X₄X₅X₆”为多个标签中的相同或不同序列。在一些实施例中，多个单链标签引物内的第一固定标签序列“X₁X₂X₃”和第二固定标签序列“X₄X₅X₆”为序列比对锚。在一些实施例中，茎环衔接子或Y形衔接子的茎区包含结构N₁N₂N₃X₁X₂X₃N₄N₅N₆X₄X₅X₆。在一些实施例中，多个双链线性衔接子、茎环衔接子或Y形衔接子内的第一固定标签序列“X₁X₂X₃”和第二固定标签序列“X₄X₅X₆”为序列比对锚。

在一些实施例中，多个双链线性衔接子、茎环衔接子或Y形衔接子包含具有序列5'-NNNACTNNNTGA-3'(SEQ ID NO:1)的区域，其中“N”表示产生自A、G、C或T的随机标签序列。举例来说，茎环衔接子或Y形衔接子的茎区包含5'-NNNACTNNNTGA-3'(SEQ ID NO:1)。在一些实施例中，5'-NNNACTNNNTGA-3'(SEQ ID NO:1)的加下划线的部分为序列比对锚。

在一些实施例中，步骤(e)中的确定包括：(i)使用(例如双链线性衔接子、茎环衔接子或Y形衔接子的)第一和/或第二标签的序列比对锚确定第一标靶聚核苷酸以0.05-5％的丰度水平存在于核酸样品中；和(ii)使用(例如双链线性衔接子、茎环衔接子或Y形衔接子的)的第三和/或第四标签的序列比对锚确定第二标靶聚核苷酸以0.05-5％的丰度水平存在于核酸样品中。

在一些实施例中，在步骤(b)中产生于单一反应混合物中的多个经标记的标靶聚核苷酸是通过使用多个单链标签引物的引物延伸产生，或通过使用多个双链线性衔接子、茎环衔接子或Y形衔接子的酶接合产生。在一些实施例中，多个经标记的标靶聚核苷酸经扩增以产生经标记的扩增子群体，其包括第一和第二经标记的扩增子群体。

在一些实施例中，步骤(d)中的测序进一步包含：对经标记的扩增子群体测序以产生多个候选测序读段，包括：(i)对第一经标记的扩增子群体测序以产生具有第一标靶聚核苷酸序列和第一和第二标签序列的第一候选测序读段，和(ii)对第二经标记的扩增子群体测序以产生具有第二标靶聚核苷酸序列和第三和第四标签序列的第二候选测序读段群体。

在一些实施例中，步骤(e)中的确定包括：(i)比较参考第一标签序列与来自第一候选测序读段群体的第一候选测序读段中的一个，和当第一候选测序读段与参考第一标签序列不具有100％序列一致性时，剔除/丢弃第一候选测序读段；和(ii)比较参考第三标签序列与来自第二候选测序读段群体的第二候选测序读段中的一个，和当第二候选测序读段与参考第三标签序列不具有100％序列一致性时，剔除/丢弃第二候选测序读段。在一些实施例中，参考第一标签序列和参考第二标签序列各自含有已知参考序列，其包括野生型或变异参考序列。

在一些实施例中，参考第一标签序列和参考第三标签序列不用于校正包含于第一或第二候选测序读段中的误差。

在一些实施例中，步骤(e)中的确定包括：通过将具有相同第一、第二、第三或第四标签序列的候选测序读段分组在一起而形成多个分组测序读段家族，包括通过将具有相同第一或第二标签序列的候选测序读段分组在一起而形成第一分组测序读段家族，且包括通过将具有相同第三或第四标签序列的候选测序读段分组在一起而形成第二分组测序读段家族。

在一些实施例中，步骤(e)中的确定包括：(i)确定具有与参考标靶聚核苷酸序列相同的标靶聚核苷酸序列的分组测序读段家族内的候选测序读段的百分比，包括确定具有与参考第一标靶聚核苷酸序列相同的第一标靶聚核苷酸序列的第一分组测序读段家族内的候选测序读段的百分比，且包括确定具有与参考第二标靶聚核苷酸序列相同的第二标靶聚核苷酸序列的第二分组测序读段家族内的候选测序读段的百分比；(ii)当第一分组测序读段家族内的候选测序读段的至少10％与参考第一标靶聚核苷酸具有100％序列一致性时，确定第一分组测序读段家族表示存在于核酸样品中的第一标靶聚核苷酸；和(iii)当第二分组测序读段家族内的候选测序读段的至少10％与参考第二标靶聚核苷酸具有100％序列一致性时，确定第二分组测序读段家族表示存在于核酸样品中的第二标靶聚核苷酸。

在一些实施例中，步骤(e)中的确定包括：(i)对具有共同第一标靶聚核苷酸序列的不同分组测序读段家族的数目计数，且当计数等于或超过三时，保留不同的分组测序读段家族；和(ii)对具有共同第二标靶聚核苷酸序列的不同分组测序读段家族的数目计数，且当计数等于或超过三时，保留不同的分组测序读段家族。

在一些实施例中，本公开大体上涉及用于通过根据本发明教示内容应用包括剔除阈值、分组阈值、计数分组读段阈值计数家族阈值、差分计数阈值、模式计数阈值非目标模式阈值和/或家族水平阈值的阈值中的任一个或任何组合而操纵候选测序读段(例如在分组测序读段的任何给定家族内)以产生高百分比的真阳性，同时减少假阳性的百分比的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体。

在一些实施例中，本公开大体上涉及方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，进一步包含向多个聚核苷酸附加选自由以下组成的群组的通用序列中的至少一个或任何组合：扩增引物序列、测序引物序列、捕获引物序列和可裂解位点。

在一些实施例中，另外向产生于步骤(b)的单一反应混合物中的多个经标记的标靶聚核苷酸，包括第一经标记的和第二经标记的标靶聚核苷酸附加扩增引物序列、测序引物序列和第一捕获引物序列。任选地，另外向产生于步骤(b)的单一反应混合物中的多个经标记的标靶聚核苷酸，包括第一和第二经标记的标靶聚核苷酸附加第二捕获引物序列，其具有不同于第一捕获引物序列的序列的序列。

在一些实施例中，连接至扩增引物序列、测序引物序列、第一捕获引物序列和/或第二捕获引物的多个经标记的标靶聚核苷酸，包括第一经标记的和第二经标记的标靶聚核苷酸经历包括以下的其它步骤：(i)形成多个捕获的聚核苷酸，包括通过将第一经标记的标靶聚核苷酸的第一捕获引物序列结合至与支撑物附接的第一捕获引物而形成捕获的第一聚核苷酸，和通过将第二经标记的标靶聚核苷酸的第一捕获引物序列结合至与第一捕获引物相同的支撑物连接的第二捕获引物而形成捕获的第二聚核苷酸；(ii)进行引物延伸反应以产生与相同支撑物连接的第一和第二捕获的标靶聚核苷酸；和(iii)对具有多个聚合酶和多个核苷酸的第一和第二捕获的聚核苷酸测序。在一些实施例中，测序包含大规模平行测序反应或采用凝胶电泳或微阵列的测序反应。在一些实施例中，支撑物包含基本上平面的支撑物、流动池、多个孔、粒子或珠粒。

在一些实施例中，连接至扩增引物序列、测序引物序列、第一捕获引物序列和/或第二捕获引物的多个经标记的标靶聚核苷酸，包括第一经标记的和第二经标记的标靶聚核苷酸经历包括以下的其它步骤：(i)形成多个捕获的聚核苷酸，包括通过将第一经标记的标靶聚核苷酸的第一捕获引物序列结合至与第一支撑物附接的第一捕获引物而形成捕获的第一聚核苷酸；(ii)通过将第二经标记的标靶聚核苷酸的第一捕获引物序列结合至与第二支撑物(例如第一和第二支撑物为不同支撑物)连接的第二捕获引物而形成捕获的第二聚核苷酸；(iii)进行引物延伸反应以产生与第一支撑物连接的第一捕获的标靶聚核苷酸和与第二支撑物连接的第二捕获的标靶聚核苷酸；和(iv)对具有多个聚合酶和多个核苷酸的第一和第二捕获的聚核苷酸测序。在一些实施例中，测序包含大规模平行测序反应或采用凝胶电泳或微阵列的测序反应。在一些实施例中，第一和第二支撑物各自包含基本上平面的支撑物、流动池、多个孔、粒子或珠粒。在一些实施例中，分别附接至第一和第二珠粒的第一和第二捕获的聚核苷酸沉积到具有一个测序反应位点或测序反应位点阵列的支撑物上。

在一些实施例中，测序反应位点可操作地耦接到至少一个场效应晶体管(FET)传感器。在一些实施例中，至少一个场效应晶体管(FET)传感器检测来自核苷酸并入的副产物，其中副产物包括焦磷酸盐、氢离子、质子、电荷转移或热量。

在一些实施例中，步骤(d)中的测序进一步包含：(i)提供具有多个在上面捕获有聚核苷酸的测序反应位点的支撑物或多个测序反应位点沉积有携带附接的聚核苷酸的珠粒，其中测序反应位点上的聚核苷酸包括第一和第二捕获的聚核苷酸；和(ii)将一种类型的核苷酸流动到测序反应位点(例如dATP、dGTP、dCTP或dTTP)上。流动的核苷酸接触测序反应位点上的聚核苷酸。任选地，流体包括一种类型的核苷酸，其标记有光学可检测标记，或未标记有光学可检测标记。任选地，流体包括一种类型的核苷酸，其为终止子核苷酸或不为终止子核苷酸。

在一些实施例中，步骤(d)中的测序进一步包含：(i)提供具有多个在上面捕获有聚核苷酸的测序反应位点的支撑物或多个测序反应位点沉积有携带附接的聚核苷酸的珠粒，其中测序反应位点上的聚核苷酸包括第一和第二捕获的聚核苷酸；和(ii)将2-4种不同类型的核苷酸流动到测序反应位点(例如dATP、dGTP、dCTP或dTTP中的2-4个的任何组合)上。流动的核苷酸接触测序反应位点上的聚核苷酸。任选地，2-4种不同类型的核苷酸中的至少一种类型标记有光学可检测标记，或未标记有光学可检测标记。任选地，2-4种不同类型的核苷酸中的至少一种类型为终止子核苷酸或不为终止子核苷酸。

附图说明

图1A为描绘分子标记方法的非限制性实施例的示意图。

图1B为图1A的图解。

图2A为描绘分子标记方法的非限制性实施例的示意图。

图2B为图2A的图解

图3A为描绘分子标记方法的非限制性实施例的示意图。

图3B为图3A的图解。

图4为显示库定量的图。

图5为读段长度直方图。

图6A为显示含有阳性对照变异体的功能家族的数目的表。

图6B为图6A中的表的延续部分，其中图6B显示含有阳性对照变异体的功能家族的数目。

图7A为显示产生自来自工程改造对照样品的0.1％稀释标准物的经标记的库的家族规模分布的直方图。

图7B为显示产生自来自工程改造对照样品的0.5％稀释标准物的经标记的库的家族规模分布的直方图。

图8A为显示产生自cfDNA的经标记的库的家族规模分布的直方图。

图8B为显示产生自cfDNA的经标记的库的家族规模分布的直方图。

图9A为显示产生自cfDNA的经标记的库的每个标靶序列的读段计数的直方图。

图9B为显示产生自cfDNA的经标记的库的每个标靶序列的读段计数的直方图。

图10A为显示产生自cfDNA的经标记的库的规模为至少3的不同家族的数目的直方图。

图10B为显示产生自cfDNA的经标记的库的规模为至少3的不同家族的数目的直方图。

图11为显示来自人类血液的参考DNA和cfDNA的尺寸分布的图。

图12为显示检测(LOD)水平的水平的测序和输入要求的图。

图13为显示等位基因变异体的检测频率的图。

图14A为显示家族规模分布的直方图。

图14B为显示扩增子读段覆盖度的直方图。

图14C为显示扩增子分子覆盖度的直方图。

图15A为显示含有添加至DNA中的RNA的样品的命中扩增子覆盖度的直方图。

图15B为显示含有添加至DNA中的RNA的样品的命中扩增子覆盖度的直方图。

图16A为描绘错误标记事件的哦非限制性实施例的示意图。

图16B为描绘错误标记事件的另一非限制性实施例的示意图。

图17为显示等位基因变异体的覆盖深度和检测频率的图。

图18A为描绘应用至测序读段以产生误差校正的测序数据的处理步骤的非限制性框图的框图。

图18B为描绘应用至候选测序读段家族以产生误差校正的测序数据的处理步骤的非限制性框图的框图。

图18C为描绘应用至候选测序读段家族以产生误差校正的测序数据的处理步骤的非限制性框图的框图。

图19A为描绘用于产生家族参考序列的分子标记工作流的非限制性示意图。

图19B为描绘用于产生家族参考序列的分子标记工作流的非限制性示意图。

图20A为显示关于0.1％MegaMix稀释样品中的0.1％等位基因频率的调用整体目标假阳性(FP)的数目的直方图。

图20B为显示关于阳性对照AcroMetrix^TM样品中的0.1％等位基因频率的调用热点假阳性(FP)的数目的直方图。

具体实施方式

本说明书和示例性实施例不应视为限制性的。出于本说明书和所附权利要求书的目的，除非另外指示，否则说明书和权利要求中所使用的所有表示量、百分比或比例的数字和其他数值应理解为在所有实例中被术语“约”修饰，达到其还未被如此修饰的程度。因此，除非相反地指示，否则在以下说明书和所附权利要求中所阐述的数值参数是可以取决于设法获得的所需特性变化的近似值。最低限度地，并且不试图限制等效物原则对权利要求书范围的应用，每一个数值参数都应至少根据所报告的有效数字的数量并且通过应用一般四舍五入技术来解释。

应注意，除非明确地并且肯定地限于一个指示物，否则如本说明书和所附权利要求书中所使用的单数形式“一(a/an)”和“所述”和任何词的任何单数用途包括复数个指示物。如本文所使用，术语“包括”和其语法变化形式意欲为非限制性的，使得清单中项目的列举不排除可以取代或添加到所列项目中的其它类似项目。

如本文所用，术语“扩增(amplify/amplifying/amplification)”和其它相关术语包括产生原始生物分子的多个拷贝。在一些实施例中，核酸扩增产生原始聚核苷酸(例如聚核苷酸)的多个拷贝，其中拷贝包含模板序列，或与模板序列互补的序列。在一些实施例中，拷贝包含大体上等同于模板序列，或大体上等同于与模板序列互补的序列的序列。

如本文所用，术语“杂交(hybridize/hybridizing/hybridization)”和其它相关术语包括两种不同核酸之间，或单一核酸分子的两个不同区域之间的氢键结，以形成双螺旋核酸。杂交可包含沃森-克里克(Watson-Crick)或胡格斯坦(Hoogstein)结合以形成双螺旋核酸。两种不同核酸，或单一核酸的两个不同区域可互补，或部分互补。互补碱基配对可为标准A-T或C-G碱基配对，或可为其它形式的碱基配对相互作用。双螺旋核酸可包括错配的碱基配对核苷酸。互补核酸股不必跨越其整个长度彼此杂交。

在一些实施例中，适合于核酸杂交和/或洗涤条件的条件包括如盐、缓冲液、pH、温度、聚核苷酸和引物的GC％含量和/或时间的参数。举例来说，适合于杂交或洗涤核酸(例如聚核苷酸和引物)的条件可包括具有钠盐，如NaCl、柠檬酸钠和/或磷酸钠的杂交溶液。在一些实施例中，杂交或洗涤溶液可包括甲酰胺(例如约10-75％)和/或十二烷基硫酸钠(SDS)(例如约0.01-0.7％)。在一些实施例中，杂交溶液可为严格的杂交溶液，其可包括甲酰胺(例如约50％)、5×SSC(例如约0.75M NaCl和约0.075M柠檬酸钠)、磷酸钠(例如约50mM，在约pH 6.8下)、焦磷酸钠(例如约0.1％)、5×邓哈特溶液(Denhardt's solution)、SDS(例如约0.1％)和/或硫酸葡聚糖(例如约10％)的任何组合。在一些实施例中，杂交或洗涤溶液可包括牛血清白蛋白(BSA)。在一些实施例中，杂交或洗涤可在约15-25℃，或约25-35℃，或约35-45℃，或约45-55℃，或约55-65℃，或约65-75℃，或约75-85℃，或约85-95℃，或约95-99℃或更高的温度范围内进行。

在一些实施例中，杂交或洗涤可持续约1-10分钟，或约10-20分钟，或约20-30分钟，或约30-40分钟，或约40-50分钟，或约50-60分钟，或约1-6小时或更久的时间范围进行。

在一些实施例中，杂交或洗涤条件可在约5-10，或约pH 6-9，或约pH 6.5-8，或约pH 6.5-7的pH范围下进行。

核酸杂交和洗涤的方法是所属领域中众所周知的。举例来说，核酸的热熔融温度(T_m)可为在限定条件下核酸链中的一半为双链且一半为单链的温度。在一些实施例中，限定条件可包括水性反应条件中的离子强度和pH。限定条件可通过改变盐(例如，钠)浓度、温度、pH、缓冲液和/或甲酰胺来调节。典型地，计算的热熔融温度可以是低于Tm约5-30℃，或低于Tm约5-25℃，或低于Tm约5-20℃，或低于Tm约5-15℃，或低于Tm约5-10℃。计算T_m的方法为众所周知的且可见于Sambrook(1989,“分子克隆实验指南(Molecular Cloning:ALaboratory Manual)”,第2版,第1-3卷；Wetmur 1966,《分子生物学杂志(J.Mol.Biol.)》,31:349-370；Wetmur 1991《生物化学和分子生物学重要评论(Critical Reviews inBiochemistry and Molecular Biology)》,26:227-259中)。其它用于计算用于使核酸杂交或变性的T_m的来源包括OligoAnalyze(来自Integrated DNA Technologies)和Primer3(由Whitehead Institute for Biomedical Research发布)。

重要的是精确地检测和识别获自疑似具有疾病、感染或遗传异常(例如体细胞突变)的来源的核酸样品中的变异序列的类型。有时，样品含有变异序列，其产生自在DNA或RNA的一些拷贝或单一拷贝中显示自身的稀有事件，因此变异序列隐藏于非变异分子的混合物中。可靠地检测和精确地识别存在于大多含有非变异序列的样品中的变异序列具有挑战性。

检测和识别基因变异体(包括多态和突变序列)通常适用于诊断感染、疾病或遗传异常。以低丰度存在的此类变异体的序列分析提出了挑战，因为一些变异体的丰度水平在约0.05至1％范围，或更低丰度范围内，其低于大规模平行测序平台的误差率。这些误差的来源来自典型地用于产生下一代测序数据的工作流的多个阶段。举例来说，一些库制备工作流起始于物理剪切核酸，其中剪切步骤引入氧化性损伤，其可导致形成可与腺嘌呤碱基经历胡格斯坦碱基配对的8-oxoG碱基，且可最终导致C至A和G至T的碱基变化。包括采用聚合酶的最终修复步骤的库制备工作流可在核苷酸并入期间产生聚合酶引入的误差。许多库制备工作流也包括至少一个用于附加标签序列和/或用于扩增的引物延伸步骤。确切地说，高误差率来自在使用非加尾引物进行扩增，或使用加尾引物将衔接子序列附加至聚核苷酸的引物延伸反应期间通过聚合酶的核苷酸并入。这种类型的误差的实例可起因于预扩增和扩增步骤。额外误差来源可追踪至测序反应期间的核苷酸错误并入，和通过测序装置和/或软件的碱基识别。

在一些实施例中，本公开大体上涉及用于精确地确认生物样品中存在携有变异序列的低丰度DNA和/或RNA分子的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，其中生物样品含有具有标靶(例如突变或变异)和非标靶(例如非突变或非变异)序列的混合物的核酸。携有变异序列的核酸分子可仅以0.0001-1％存在于样品中。根据本发明教示内容的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体一般包括分子标记、测序和测序日期的分析，以确认一种或多种具有变异序列的稀少丰度核酸分子的存在。

在一些实施例中，本公开大体上涉及方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，包含采用多个附加至多个聚核苷酸的标签的多重分子标记程序。标签具有独特地识别其所附加的聚核苷酸分子，且准许追踪经标记的分子的混合物中的个别经标记的分子的特征，包括序列、长度和/或可检测部分，或任何其它特征。举例来说，标签(例如具有独特标签序列)可独特地识别其所附加的个别聚核苷酸，且区分个别聚核苷酸与混合物中的其它经标记的聚核苷酸。

在一些实施例中，本公开大体上涉及用于检测基因变异体、识别基因变异体和/或产生误差校正的测序数据的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体。在一些实施例中，通过实践单重或多重分子标记程序以产生多个附有至少一个独特标签的个别聚核苷酸而产生检测基因变异体、识别基因变异体和/或误差校正的测序数据。在一些实施例中，用于检测基因变异体、识别基因变异体和/或产生误差校正的测序数据的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体进一步包含扩增经标记的聚核苷酸以产生多个经标记的扩增子。在一些实施例中，用于检测基因变异体、识别基因变异体和/或产生误差校正的测序数据的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体进一步包含对经标记的扩增子测序以产生多个测序读段。在一些实施例中，用于检测基因变异体、识别基因变异体和/或产生误差校正的测序数据的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体进一步包含操纵测序读段，所述操纵可包括应用至少一个阈值，其可减少测序读段中的误差。在一些实施例中，操纵测序读段包括剔除、分选、分组、对分组读段进行计数、对读段家族进行计数，和其它操纵步骤。在一些实施例中，操纵步骤可基于标签特异性参考序列和/或聚核苷酸特异性参考序列。所得误差校正的测序数据的典型地产生于库制备和/或测序工作流期间的测序误差的数目减少。通过将测序数据的误差率降低至与核酸的混合物中的标靶聚核苷酸(例如低丰度等位基因、变异体或突变体)的频率水平类似(或甚至更小)的水平，接着可实现存在于核酸的混合物中的低丰度标靶聚核苷酸的检测和识别。

在一些实施例中，用于检测基因变异体、识别基因变异体和/或产生误差校正的测序数据的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体可对获自任何类型的流体(例如生物流体)或固体生物样品，或任何生物体，或来自水、土壤或食物的核酸样品实施。

在一些实施例中，用于检测基因变异体、识别基因变异体和/或产生误差校正的测序数据的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体可对任何类型的核酸样品实施，包括自活检组织、新鲜或冷冻组织、存档组织(例如FFPE保藏)和含有单细胞或几十个细胞的生物流体分离的核酸，无细胞核酸(DNA和/或RNA)，或自循环肿瘤细胞分离的核酸。在一些实施例中，生物样品包括通过活检、拭子、穿刺活检(例如细针活检或细针抽吸)、涂片或甚至空气传播的核酸获得的生物流体或固体组织。

在一些实施例中，用于检测基因变异体、识别基因变异体和/或产生误差校正的测序数据的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体可对具有少至1-100ng聚核苷酸的核酸样品，包括DNA和RNA或DNA和RNA的混合物实施。

在一些实施例中，用于检测基因变异体、识别基因变异体和/或产生误差校正的测序数据的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体可精确地检测和识别以约0.0001-1％，或以约0.001-1％，或约0.01-1％，或约0.1-1％，或约0.1-5％(或低于0.0001％的丰度范围)存在于核酸样品中的低丰度聚核苷酸。

在一些实施例中，用于检测基因变异体、识别基因变异体和/或产生误差校正的测序数据的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体可检测到约85-95％，或约95-99％，或约100％的可存在于初始核酸样品中的不同标靶聚核苷酸(例如包括基因变异体)。

在一些实施例中，用于检测基因变异体、识别基因变异体和/或产生误差校正的测序数据的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体可使用单重或多重格式，使用单一反应混合物(例如单管反应)对核酸样品实施。

在一些实施例中，用于检测基因变异体、识别基因变异体和/或产生误差校正的测序数据的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体可通过将至少一个来自衔接子库的衔接子附加至核酸样品中的个别聚核苷酸(任选地通过酶接合)来实践。

在一些实施例中，用于检测基因变异体、识别基因变异体和/或产生误差校正的测序数据的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体可通过使用至少一个来自引物库的引物将至少一个独特标签序列附加至核酸样品中的个别聚核苷酸(任选地通过引物延伸)来实践。引物可经设计以选择性地靶向初始核酸样品中的不同所关注的序列。

在一些实施例中，用于检测基因变异体、识别基因变异体和/或产生误差校正的测序数据的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体可使用含有至少一个独特标签序列，任选地包括至少一个随机或简併标签序列的衔接子或引物库来实践。在一些实施例中，标签(例如随机物标签)含有至少一个随机序列和至少一个固定序列，或包含在两侧上经固定序列侧接的随机序列，或包含在两侧上经随机序列侧接的固定序列。

本教示内容中描述的分子标记程序提供优于常规固体组织活检程序的优点。分子标记方法的检测水平足够敏感以准许使用如血液的生物流体来获得初始核酸样品。当相比于侵袭性组织活检程序时，获得血液样品(或其它生物流体)提供非侵袭性方法，造成较低风险，且较便宜。另外，相比于组织活检的3周或更久，使用血液作为初始核酸样品的来源的分子标记方法可在几天内产生结果。

在一些实施例中，本公开大体上涉及用于检测基因变异体、识别基因变异体和/或产生误差校正的测序数据的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，其适用于：

(1)通过产生误差校正的测序数据而提高通过任何类型的大规模平行测序程序产生的测序数据的质量，其中大规模平行测序程序包括例如通过寡核苷酸探针接合和检测的测序(例如来自Life Technologies的SOLiD^TM，WO 2006/084132)、探针-锚接合测序(例如Complete Genomics或Polonator^TM)、合成测序(例如获自Illumina的Genetic Analyzer^TM和HiSeq^TM(Bentley 2006《遗传学当前观点与发展(Current Opinion Genetics&Development)》16:545-552；和Bentley等人,2008《自然(Nature)》456:53-59；和美国专利第7,566,537号))、焦磷酸盐测序(例如获自454Life Sciences的Genome Sequencer FLX^TM(美国专利第7,211,390、7,244,559和7,264,929号))、离子敏感测序(例如PersonalGenome Machine(Ion PGM^TM)和Ion Proton^TM Sequencer，均获自Ion Torrent Systems,Inc.)，和单分子测序平台(例如获自Helicos的Heliscope^TM)；

(2)对含有标靶和非标靶聚核苷酸的核酸样品，或不含非标靶聚核苷酸的核酸样品中的一个或多个标靶聚核苷酸进行检测、识别和/或计数；

(3)确定标靶聚核苷酸是否存在于初始核酸样品中，或其是否产生自样品制备和/或测序工作流期间的乱真事件；

(4)增加检测核酸样品中的低丰度标靶聚核苷酸的敏感性，其中举例来说，标靶聚核苷酸以约0.0001-1％，或约0.001-1％，或约0.01-1％，或约0.1-1％，或约0.1-5％，或低于0.0001％的丰度范围存在；

(5)确定存在于初始核酸样品内的标靶聚核苷酸和其相关多态形式的丰度水平，其中多态形式可包括等位基因、变异和/或突变形式；

(6)对存在于核酸样品中的标靶聚核苷酸的数目计数，举例来说，其可用于来自个体的生物流体(例如血液)中的无细胞循环DNA(自循环肿瘤细胞分离之DNA)的拷贝数变异分析，且其中无细胞DNA(或来自肿瘤细胞之DNA)来源于任何来源，包括胎儿、肿瘤或感染性生物体；

(7)检测来自个体的核酸样品中的多态形式的标靶聚核苷酸(例如野生型、等位基因、变异和/或突变形式)的存在，其中变异和/或突变形式与感染或疾病相关(或不相关)，且任选地诊断个体的感染或疾病；

(8)通过检测来自个体的核酸样品中的基因变异体的出现和/或消失而监测可与疾病中的基因变异的改变相关的感染或疾病的进展；

(9)确定核酸样品中的标靶聚核苷酸的异质性；

(10)监测用于感染或疾病的药物治疗的功效(例如疗法监测)；

(11)基于发现的基因变异体选择疗法；

(12)检测个体的残留疾病；

(13)检测个体的疾病复发；

(14)检测标靶聚核苷酸的拷贝数变异；

(15)通过检测移植受体中的供体DNA而检测器官移植受体中的移植排斥反应的示度。

(16)对存在于母体血液中的无细胞循环胎儿DNA进行检测和表征(例如测序)。

(17)每年的广泛式筛选(例如关于癌症或其它疾病)。

所属领域的技术人员将认识到本教示内容的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体也具有许多其它用途。

在一些实施例中，本公开大体上涉及用于检测基因变异体、识别基因变异体和/或产生误差校正的测序数据的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，其采用分子标记程序，其中聚核苷酸附有至少一个标签。在一些实施例中，标签附加反应为随机的。在一些实施例中，聚核苷酸附有至少一个随机地选自不同标签的库(例如多个标签)的标签。在一些实施例中，标签附加反应可以相比于聚核苷酸分子的数目过量的标签进行。一个聚核苷酸的标签附加事件可独立于不同聚核苷酸的标签附加事件，例如在标签供应基本上未耗尽的情况下。标签的多样性和相同聚核苷酸的拷贝数，连同随机选择的统计量将指示经独特标记的聚核苷酸的频率。举例来说，随机选择可影响经独特标记的聚核苷酸的频率，所述经独特标记的聚核苷酸通过将聚核苷酸接合至携有标签的衔接子(例如其中标签可为随机物标签)而产生，或通过使用携有标签的引物的引物延伸而产生。当携有标签的衔接子的多样性极大地超过存在于标签附加反应中的聚核苷酸分子的数目时，则基本上每个经标记的分子将附加至独特标签。尽管获得独特标记的经标记的分子的100％产率具有挑战性，但相当大百分比的经标记的分子将附加至独特标签，其中约10-30％，或约30-50％，或约50-70％，或约70-80％，或约80-90％，或约90-95％，或约95-99％的产生自标签附加反应的经标记的聚核苷酸分子为独特标记的。

在一些实施例中，其它类型的分子标记程序不一定受随机选择控制。举例来说，在引物延伸反应(例如PCR)中通过加尾引物进行的分子标记程序可为通过加尾引物的3'部分控制的选择性方法，所述3'部分可含有与标靶聚核苷酸的一部分选择性地杂交的标靶特异性序列。加尾引物的5'部分可含有基本上不与标靶序列杂交的序列。加尾引物的5'部分可含有至少一个经设计以展现与标靶聚核苷酸的最小杂交的标签序列(例如随机物标签序列)。在一些实施例中，加尾引物集可包括相同3'标靶特异性序列和不同5'随机物标签序列。当加尾引物的3'区的序列经设计以展现与非标靶聚核苷酸的最小杂交时，则引物延伸反应将产生选择性地富集对应于引物的3'区中的序列的标靶序列的经标记的聚核苷酸群体。加尾引物的3'标靶特异性区域可与其标靶序列具有完美互补性，或可与其标靶序列部分互补，这包括与其标靶序列的至少50％、60％、70％、80％、90％、95％或99％互补性。典型地(但不一定)，正向和反向引物用于引物延伸反应(例如PCR)中以产生扩增子(例如经标记的扩增子)。因此，引物延伸反应可为富集步骤的形式，其主要产生具有某些所选标靶序列的经标记的聚核苷酸，且减少非标靶聚核苷酸的数目。在一些实施例中，正向和反向引物的3'区可选择性地与可用于引物延伸反应(例如PCR)的标靶聚核苷酸(例如标靶DNA或RNA聚核苷酸)的区域杂交以产生横跨内含子、外显子、接合内含子-外显子、编码、非编码或融合序列的经标记的扩增子。引物延伸反应可通过相比于聚核苷酸分子的数目过量的标签引物进行。引物延伸反应可使用在5'尾区中具有独特标签序列的引物库进行，以使得具有相同序列的不同聚核苷酸分子可附加至不同标签序列。

在一些实施例中，加尾引物集可含有许多具有选择性地与特异性标靶聚核苷酸的特定部分杂交的共同3'区的成员。在一些实施例中，加尾引物集可包括多个正向和反向加尾引物。

加尾引物集的成员可携有具有相同标签序列或不同标签序列的5'尾。当加尾引物集在其5'区中携有共同3'区和不同标签序列时，则引物延伸反应可产生具有相同标靶聚核苷酸序列的经标记的聚核苷酸分子群体，且许多经标记的分子将附加至不同标签。当携有标签的引物(例如加尾引物)的多样性极大地超过存在于标记反应中的聚核苷酸分子的数目时，则基本上每个经标记的分子将附加至独特标签。在分子标记程序中使用此多样引物集可产生选择性地富集对应于引物的3'区的标靶序列的经标记的聚核苷酸群体，但基本上每个经标记的聚核苷酸携有独特标签。相比之下，当加尾引物集在其5'区中携有共同3'区和共同标签序列时，则引物延伸反应可产生具有相同标靶聚核苷酸序列的经标记的聚核苷酸分子群体，且基本上每个经标记的分子附加至相同标签。

在一些实施例中，本公开大体上涉及用于检测基因变异体、识别基因变异体和/或产生误差校正的测序数据的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，其通过：(a)提供含有多个聚核苷酸，包括标靶和非标靶聚核苷酸的核酸样品，或核酸样品不具有非标靶聚核苷酸；(b)通过将至少一个独特标签附加至来自多个聚核苷酸的个别聚核苷酸分子而产生多个经标记的聚核苷酸(亲代经标记的聚核苷酸)，和(c)通过扩增多个经标记的聚核苷酸产生经标记的扩增子，其中经标记的扩增子为产生自亲代经标记的聚核苷酸分子的后代经标记的分子。在一些实施例中，独特标签在单步标记程序或多步标记程序中附加至核酸。在一些实施例中，核酸样品获自生物样品或合成(例如工程改造)样品，或两种的混合物。在一些实施例中，核酸样品含有DNA、RNA或DNA和RNA的混合物(例如总核酸样品)。在一些实施例中，DNA和RNA的混合物获自相同生物样品。在一些实施例中，核酸样品含有cfDNA、cfRNA或两种的混合物。

在一些实施例中，本公开大体上涉及方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，进一步包含对扩增子测序以产生多个候选测序读段。任选地，测序步骤可使用大规模平行测序程序或大小分级程序(例如凝胶电泳)进行。

在一些实施例中，本公开大体上涉及方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，进一步包含操纵候选测序读段(例如分选、分组、剔除和/或计数)以产生误差校正的测序读段集，其可用于确定特定聚核苷酸存在于初始核酸样品中，以及识别特定聚核苷酸的序列(例如野生型、多态变异体或突变体)。多个候选测序读段可基于一个或多个独特标签的共同参考序列而分选和/或分组至不同测序读段家族中。不匹配参考标签序列的候选测序读段可任选地丢弃(例如剔除)，或如果要求精确匹配的标准宽松，那么可分配至序列读段组。保留于任何给定测序读段家族中的候选测序读段形成误差校正的测序读段集。在任何给定测序读段家族内，测序读段的聚核苷酸部分可相比于聚核苷酸参考序列。测序读段可经计数以确定任何给定家族内具有大体上等同于聚核苷酸参考序列的聚核苷酸部分的测序读段的百分比。当大体上等同于聚核苷酸参考序列的测序读段的计算百分比超过阈值水平时，可作出聚核苷酸(由测序读段家族表示)为真阳性且存在于初始核酸样品中的判定。与大规模平行测序程序组合的扩增步骤可产生测序读段的大型初始数据集，其可经操纵(例如分选、分组、剔除和/或计数)以使得统计分析能够产生误差校正的测序数据，所述测序数据可增加确定特定聚核苷酸是否存在于初始核酸样品中的置信度，且可用于识别特定聚核苷酸的序列。

在扩增步骤期间，携有变异序列的亲代经标记的聚核苷酸将产生也携有相同变异序列的后代分子。后代分子中的一些还可携有并非发现于亲代聚核苷酸中而是在工作流期间引入的假突变序列。假突变序列可发现于标签和/或聚核苷酸中。假突变序列可促进测序数据的误差率。在一些实施例中，可应用一个或多个阈值设定，其用于操纵候选测序读段以降低误差率。

在扩增步骤期间，具有匹配参考序列的序列的亲代经标记的聚核苷酸可产生携有变异序列(例如假突变)的后代分子。并非发现于亲代聚核苷酸中的假突变序列可在工作流期间引入。假突变序列可发现于标签和/或聚核苷酸中。假突变序列可促进测序数据的误差率。在一些实施例中，可应用一个或多个阈值设定，其用于操纵候选测序读段以降低误差率。

在一些实施例中，本公开大体上涉及用于应用一个或多个阈值以提高测序工作流的精确性和/或敏感性的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体。在一些实施例中，阈值可使用至少一个参考序列的序列，包括附加至聚核苷酸的至少一个标签(例如随机物标签)的一部分和/或使用聚核苷酸自身的至少一部分建立。标签的已知序列可用作相比于候选测序读段集中的标签序列的参考标签序列。以类似方式，聚核苷酸的已知序列可用作相比于候选测序读段集中的聚核苷酸序列的参考聚核苷酸序列。一个或多个阈值标准可按任何次序施加到候选测序读段集以产生误差校正的测序读段集，其中假阳性的数目减少。在一些实施例中，候选测序读段可根据本文所述的教示内容操纵以产生高百分比的真阳性，同时减少假阳性的百分比(图20A和B)。举例来说，候选测序读段集可经受剔除阈值、分组阈值、计数分组读段阈值计数家族阈值、差分计数阈值、模式计数阈值和/或非目标模式阈值中的任一个或任何组合，其可按任何次序应用(图18A、B和C)。任选地，应用于候选测序读段的阈值的次序包括：(1)剔除、分组、计数分组读段和计数家族阈值；(2)分组、剔除、计数分组读段和计数家族阈值；(3)剔除、分组和计数分组读段；(4)分组、剔除和计数分组读段；(5)剔除、分组和计数家族阈值；或(6)分组、剔除和计数家族阈值。在一些实施例中，分组候选测序读段家族可经受差分计数阈值、模式计数阈值和/或非目标模式阈值中的任一个或任何组合，其可按任何次序应用。在一些实施例中，误差校正的分组候选测序读段家族可经受家族水平阈值和多家族阈值中的任一个或任何组合。所属领域的技术人员将认识到阈值的许多其它组合和次序可应用于候选测序读段以确定特定聚核苷酸存在于初始核酸样品中，和识别特定聚核苷酸的序列。

在一些实施例中，剔除阈值可用于指导保留或去除含有与参考序列不同的序列(例如假变异标签或聚核苷酸序列)的候选测序读段(图18A，(100))的决策。在一些实施例中，标签误差可检测于候选测序读段中(图18A，(300))。在一些实施例中，为了得以保留，剔除阈值(图18A，(200))的标准可能要求候选测序读段与参考标签或参考聚核苷酸序列具有100％序列一致性。在一些实施例中，如果序列读段相比于参考序列在1、2、3、4、5、6、7、8、9或10个碱基位置不同，那么剔除阈值的标准可能要求丢弃序列读段。在一些实施例中，为了得以保留，剔除阈值的标准可能要求候选测序读段与参考标签或参考聚核苷酸序列具有约50-60％，或约60-70％，或约70-80％，或约80-90％，或约90-99％序列一致性。从候选测序读段集去除至少一个测序读段(图18A，(400))可产生具有降低的误差率的测序读段集(图18A，(500))。

在一些实施例中，分组阈值可用于基于基于标签和/或基于聚核苷酸的参考序列指导哪些候选测序读段分组在一起以形成至少一个分组测序读段家族。示例性基于标签的分组阈值显示于图18A(600)中。举例来说，第一组测序读段可共用共同的第一标签序列，且第二组测序读段可共用共同的第二标签序列，其中第一和第二标签序列彼此不同。在另一实例中，第一组测序读段可共用共同的第一和第二标签序列(例如在第一聚核苷酸的两端处的标签)，且第二组测序读段可共用共同的第三和第四标签序列(例如在第二聚核苷酸的两端处的标签)，其中标签序列中的至少两个彼此不同。在一些实施例中，分组阈值的标准可能要求测序读段组的所有成员与标签或聚核苷酸参考序列具有100％序列一致性。在一些实施例中，分组阈值的标准可能要求测序读段组的所有成员与标签或聚核苷酸参考序列在不超过1、2、3、4、5或6个碱基位置不同。在一些实施例中，分组阈值的标准可能要求测序读段组的所有成员与标签或聚核苷酸参考序列具有约50-60％，或约60-70％，或约70-80％，或约80-90％，或约90-99％序列一致性。产生至少一组测序读段可产生具有降低的误差率的测序读段集。

在一些实施例中，误差校正的测序读段家族(error-corrected family ofsequencing reads)(或有时称作误差校正的测序读段家族(family of error-correctedsequencing reads))含有多个已基于共同的基于标签和/或基于标靶聚核苷酸的参考序列分组在一起的测序读段。任选地，不满足或超过分组阈值的标准的候选测序读段经丢弃且因此不放入测序读段家族中。任选地，误差校正的算法应用于不满足或超过分组阈值的标准的候选测序读段，以校正误差(例如标签和/或标靶聚核苷酸区域中的误差)，且将现在校正的测序读段放入测序读段家族中。图18A中的示例性框图(700)显示基于共同标签序列分组至一个家族中的经标记的测序读段。分组阈值应用于多个经标记的测序读段以产生许多不同的分组家族。图18A中的示例性框图(800)显示多个不同的测序读段家族，其各自由对具有给定共同标签序列的经标记的测序读段分组而形成。

在一些实施例中，不满足或超过阈值的测序读段可自测序读段组丢弃。在一些实施例中，如果组内的单一测序读段与聚核苷酸参考序列在两个或更多个碱基位置不同，那么可丢弃整个所述测序读段组(例如分组测序读段家族)。

在一些实施例中，计数分组读段阈值可用于确定具有特定序列的聚核苷酸分子是否存在于初始核酸样品中。举例来说，可使用计数分组读段阈值来分析分组测序读段家族以确定聚核苷酸是否存在于初始核酸样品中。在分组测序读段家族内，匹配参考序列的候选测序读段的数目可经计数，且所述计数可转化成百分比。参考序列可基于一个特定的已知标靶聚核苷酸序列，或基于共同序列。候选测序读段与参考序列之间的匹配可为100％一致性，或匹配要求可放宽以使得匹配为约65-75％，或约75-85％，或约85-95％，或约95-99％，或约99-100％序列一致性。匹配参考序列的所述组中的测序读段的百分比可相比于阈值，所述阈值可能要求例如一组中的至少1％、5％、10％、20％、30％、40％、50％、60％、70％、80％、90％、95％、97％、98％、99％或100％的成员必须匹配参考序列，接着可推断特定测序读段为真阳性，且具有所述序列的聚核苷酸存在于初始核酸样品中。在一些实施例中，计数分组读段阈值可用于确定测序读段(例如含有变异序列)是否为真阳性测序读段和其是否对应于存在于初始核酸样品中的聚核苷酸。

在一些实施例中，计数家族阈值可用于确定具有特定序列的聚核苷酸分子是否存在于初始核酸样品中。举例来说，分子标记程序可产生多个测序读段家族，在一个家族内，测序读段基于对于每个不同家族来说独特的共同标签和/或标靶聚核苷酸序列而分组在一起。超过一个家族可含有相同标靶聚核苷酸的测序读段。举例来说，初始核酸样品可包括多个特定标靶聚核苷酸的拷贝，其中特定标靶聚核苷酸中的每一个附有独特标签。扩增将产生后代分子，其序列可基于共同独特标签分组在一起(成为家族)。具有相同标靶聚核苷酸序列的不同家族的数目可经计数，且如果此数目超过计数家族阈值，那么认为标靶聚核苷酸序列表示对应于存在于初始核酸样品中的聚核苷酸的真阳性测序读段。举例来说，具有相同标靶聚核苷酸序列的不同家族的最小数目可为具有2、3、4、5、6、7、8、9、10、11-20、20-30或更多个不同家族的集合。可保留据推断表示真阳性测序读段的测序读段家族，且可经受进一步分析。当具有相同标靶聚核苷酸序列的不同家族的数目不超过计数家族阈值时，则可认为标靶聚核苷酸序列表示假阳性测序读段，因此可推断其不存在于初始核酸样品中。可丢弃据推断表示假阳性测序读段的测序读段家族。在一些实施例中，候选测序读段可根据本文所述的教示内容操纵以产生高百分比的真阳性，同时减少假阳性的百分比(图20A和B)。

在一些实施例中，分组测序读段家族，如使用分组阈值形成的家族可包括错误标记的测序读段，其包括共同标签序列，但由于标签附加误差，包括由标签衔接子接合或标签引物延伸引起的误差，或其它误差而对应于标靶聚核苷酸或非标靶聚核苷酸的不同区域(图16A和B)。错误标记的测序读段可包括一个或多个碱基位置，其中核苷酸不同于所述家族的参考聚核苷酸序列或正确标记的测序读段。

错误标记事件的一个实施例显示于图16A中，其显示含有标靶序列A和B，和经设计以与标靶序列A或B的一部分杂交的加尾引物的多重单一反应标记混合物。“gsA”表示将与标靶序列A的一部分杂交的加尾引物区域，且“gsB”表示将与标靶序列B的一部分杂交的加尾引物区域。加尾引物也含有不展现与标靶序列A或B的实质性杂交的不同5'标签序列(标签1、2、3、4、5或6)。在图16A中，具有经设计以特异性地与聚核苷酸B杂交的3'基因特异性区域的加尾引物(例如加尾引物gsB)替代地与聚核苷酸A的区域(标靶序列A)杂交。错误标记事件用(*)指示。gsB加尾引物经历引物延伸以将标签3序列附加至标靶A序列上，借此产生聚核苷酸A附加至标签3和4的假错误标记的产物。错误标记的产物经历测序读段的扩增、测序和操纵(例如剔除、分选和分组，按任何次序)。分组测序读段的标签3家族表示标靶序列A附加至标签3和4的假聚核苷酸。由于加尾引物标签3-gsB的第二拷贝(如果其存在于标记反应中)不与标靶序列B杂交，因而分组测序读段的标签3家族不包括附有标签3序列的标靶B序列。

错误标记事件的另一实施例显示于图16B中，其显示含有标靶序列A和B，和经设计以与标靶序列A或B的一部分杂交的加尾引物的多重单一反应标记混合物。“gsA”表示将与标靶序列A的一部分杂交的加尾引物区域，且“gsB”表示将与标靶序列B的一部分杂交的加尾引物区域。加尾引物也含有不展现与标靶序列A或B的实质性杂交的不同5'标签序列(标签1、2、3、4或5)。在图16B中，具有经设计以特异性地与聚核苷酸B杂交的3'基因特异性区域的加尾引物(例如加尾引物gsB)与聚核苷酸A的区域(标靶序列A)和聚核苷酸B的区域(标靶序列B)杂交。错误标记事件用(*)指示。两个gsB加尾引物均经历引物延伸以将标签3序列附加至标靶A序列和标靶B序列上，借此产生两种类型的经标记的产物：(i)聚核苷酸A附加至标签3和4的假错误标记的产物，和(ii)聚核苷酸B附加至标签3和5的正确标记的产物。错误标记的和正确标记的产物经历测序读段的扩增、测序和操纵(例如剔除、分选和分组，按任何次序)。分组测序读段的标签3家族表示两种类型的经标记的分子：(i)标靶序列A附加至标签3和4的假聚核苷酸(错误标记的产物)和(ii)标靶序列B附加至标签3和5的聚核苷酸(正确标记的产物)。

在一些实施例中，差分计数阈值(图18B，(900))可用于识别哪些候选测序读段可为错误标记的测序读段(1200)。举例来说，确定在标靶聚核苷酸的候选测序读段与参考序列之间不同的核苷酸的数目且比较所述数目与差分计数阈值可识别错误标记的测序读段。差分计数阈值可在分组阈值之前或之后应用。将差分计数阈值应用至候选测序读段集且去除识别的错误标记的测序读段(1300)可产生具有降低的误差率的测序读段集。将差分计数阈值应用至分组测序读段家族且去除识别的错误标记的测序读段可产生具有降低的误差率的测序读段家族(1400)。

在一些实施例中，模式计数阈值(图18B，(1000))可用于识别哪些候选测序读段可为具有常见模式的变异体的错误标记的测序读段(1200)。举例来说，确定多个在聚核苷酸序列中具有常见模式的变异体的测序读段且比较所述数目与模式计数阈值可用于识别错误标记的测序读段组。模式计数阈值可在分组阈值之前或之后应用。将模式计数阈值应用至候选测序读段集且去除识别的错误标记的测序读段(1300)可产生具有降低的误差率的测序读段集。将模式计数阈值应用至分组测序读段家族且去除识别的错误标记的测序读段可产生具有降低的误差率的测序读段家族(1400)。

在一些实施例中，非目标模式阈值(图18B，(1100))可用于识别哪些候选测序读段可为错误标记的测序读段(1200)。错误标记的测序读段可在标靶聚核苷酸的参考序列与非标靶聚核苷酸的预期序列或标靶聚核苷酸的不同区域之间具有与预期差异模式类似的差异模式。举例来说，可预定标靶聚核苷酸的参考序列与非标靶聚核苷酸的预期序列之间的预期差异模式且存储在查询表中。比较候选错误标记的测序读段中的差异模式与预期差异模式且应用非标靶模式阈值可识别错误标记的测序读段。非目标模式阈值可在分组阈值之前或之后应用。将非目标模式阈值应用至候选测序读段集且去除识别的错误标记的测序读段(1300)可产生具有降低的误差率的测序读段集。将非目标模式阈值应用至分组测序读段家族且去除识别的错误标记的测序读段可产生具有降低的误差率的测序读段家族(1400)。

在一些实施例中，家族水平阈值可用于识别误差校正的测序读段家族内的候选变异体。举例来说，误差校正的测序读段家族可由使用差分计数阈值、模式计数阈值和/或非目标模式阈值检测和去除错误标记的测序读段而形成。举例来说，比对误差校正的测序读段与误差校正的家族的参考序列，确定一个或多个比对的测序读段和参考序列具有不同碱基的碱基位置，对在所述碱基位置具有特定碱基差异的比对的序列的数目计数和应用家族水平阈值可识别基于家族的候选变异体。当碱基差异的数目低于家族水平阈值时，未识别基于家族的候选变异体。在一些情况下，应用家族水平阈值可识别一个或多个候选变异体。

在一些实施例中，家族水平阈值(图18B，(1500))可用于识别误差校正的测序读段家族内的候选变异体。举例来说，误差校正的测序读段家族可由使用以下中的任一个或任何组合检测和去除错误标记的测序读段而形成：差分计数阈值、模式计数阈值和/或非目标模式阈值(图18B，分别地(900)、(1000)和(1100))。举例来说，比对误差校正的测序读段与误差校正的家族的参考序列，确定一个或多个比对的测序读段和参考序列具有不同碱基的碱基位置，对在所述碱基位置具有特定碱基差异的比对的序列的数目计数和应用家族水平阈值可识别基于家族的候选变异体。当碱基差异的数目低于家族水平阈值时，未识别基于家族的候选变异体。在一些情况下，应用家族水平阈值可识别一个或多个候选变异体。

在一些实施例中，家族水平阈值(图18B，(1500))可用于确定每个碱基位置的代表性碱基以产生家族参考序列。举例来说，在误差校正的测序读段家族中，对于比对序列中的每个位置，对在所述位置具有特定碱基的多个比对序列计数(1600)且将家族水平阈值应用于所述数目以识别所述位置的代表性碱基。低于家族水平阈值的数目指示特定比对序列中的所述位置处的碱基误差。可丢弃不满足家族水平阈值的分组测序读段家族(1700)。在保留的家族中，对于每个位置识别的代表性碱基可用于产生含有每个位置的代表性碱基的家族参考序列。家族参考序列为经误差校正的单一测序读段且为所保留家族的测序读段的压缩表示(1800)。家族参考序列可存储在存储器中。

在一些实施例中，将家族参考序列相比于聚核苷酸特异性参考序列以识别基于家族的候选变异体。当给定位置处的代表性碱基不同于聚核苷酸特异性参考序列中的对应位置处的碱基时，识别给定位置处的基于家族的候选变异体。

在一些实施例中，多家族阈值(图18B，(2300))可指导用于识别可存在于初始核酸样品中的变异体的决策。举例来说，应用计数家族阈值可识别具有相同标靶聚核苷酸序列的不同误差校正的家族的数目。在一些情况下，应用于给定标靶聚核苷酸序列的不同误差校正的家族的家族水平阈值可识别特定候选变异体。对支持特定候选变异体的误差校正的家族的数目计数且应用多家族阈值可将候选变异体识别为存在于初始核酸样品中的变异体。

在一些实施例中，多家族阈值(2300)可应用于使用来自多个家族的家族参考序列(2200)识别的基于家族的候选变异体(2100)以识别可存在于初始核酸样品中的变异体。在一些情况下，使用给定标靶聚核苷酸序列的不同误差校正的家族的家族参考序列识别的基于家族的候选变异体可识别特定候选变异体。对支持特定候选变异体的误差校正的家族的数目计数且应用多家族阈值可将候选变异体识别为存在于初始核酸样品中的变异体。

图18A为根据示例性实施例应用于多个候选测序读段以进行误差校正和家族分组的处理步骤的框图。存储器存储多个候选测序读段(100)用于通过被配置成施加实施这些步骤的操作的处理器分析。误差校正操作的第一阶段通过比较测序读段的对应部分与标签特异性参考序列和/或聚核苷酸特异性参考序列和应用剔除阈值(200)而检测错误测序读段。从存储器去除(400)不满足剔除阈值的标准的测序读段(300)。在误差校正的第一阶段之后，保留候选测序读段的子集用于进一步加工(500)。分组操作(600)比较候选测序读段的序列与参考标签序列。共用共同标签序列的候选测序读段分组为给定家族，其中共同标签序列对于所述家族来说是独特的(700)。分组操作产生多个经标记的测序读段家族(800)。

图18B为在图18A中示出的处理步骤之后的额外处理步骤的框图。处理步骤应用于根据示例性实施例的候选测序读段家族。误差校正操作的另一阶段通过应用差分计数阈值(900)、模式计数阈值(1000)和/或非目标模式阈值(1100)中的任一个或任何组合而识别可存在于候选测序读段的分组家族中的错误标记的序列。从存储器去除包含于分组家族中的识别的错误标记的序列(1300)。

误差校正的另一阶段包括基于位置的比较操作(1600)，其可对于分析的每个家族产生家族参考序列。家族参考序列(1800)为经误差校正的单一测序读段且为所保留家族的测序读段的压缩表示。对于分析的每个碱基位置，对在所述位置处具有特定碱基的比对序列的数目计数且将家族水平阈值应用于所述数目可识别所述位置的代表性碱基。低于给定位置处的家族水平阈值的数目指示比对序列中的碱基误差。家族水平阈值可为基于容许的误差水平的集合。举例来说，对于20％误差，家族水平阈值设定为给定位置的测序读段的80％。对于含有5个或4个分组测序读段的家族，给定位置的测序读段中的至少80％对于两者给出等于4的家族水平阈值。对于含有3个分组测序读段的家族，所述位置的测序读段中的至少80％给出等于3的家族水平阈值。

通过将对于每个位置确定的代表性碱基组装至阵列中而产生家族参考序列(1800)。候选测序读段中的任一个中的特定位置的碱基误差不表示于家族参考序列中。家族参考序列表示所述家族的误差校正的序列。所述家族的候选测序读段可从存储器去除(1700)，而家族参考序列存储于存储器中。存储家族参考序列同时丢弃候选测序读段节约存储器中的空间产生N:1的压缩比，其中N为家族中的候选测序读段的数目。

回到图18B，在每个位置比较(2000)家族参考序列(1800)与聚核苷酸特异性参考序列(1900)且检测给定位置的不同碱基可识别给定位置处的基于家族的候选变异体(2100)。对于对应于聚核苷酸特异性参考物的家族中的每一个进行比较可产生多个基于家族的候选变异体(2200)。对具有特定基于家族的候选变异体的误差校正的家族的数目计数且对误差校正的家族的数目应用多家族阈值(2300)可识别给定位置处的变异体(2400)。多家族阈值的值百分比因数乘以对应于相同标靶聚核苷酸的不同家族的数目的乘积的最接近整数。百分比因数可在0.0001至0.1％、0.001至0.1％、0.01至0.1％、0.02至0.08％、0.03至0.07％、0.04至0.06％、0.045至0.055％、0.0001至2.5％、0.1至2.5％、1至2.5％、1.5至2.5％、1.8至2.2％、1.9至2.1％或1.95％至2.05％范围内，或这些范围中的一个的子区间内。

在一些实施例中，图18C中示出的处理步骤在图18A中示出的处理步骤之后。如在图18B中，误差校正的另一阶段包括用于识别可存在于候选测序读段的分组家族中的错误标记的测序读段的操作。图18C中示出的实例不包括基于位置的比较以确定家族参考序列。为了确定基于家族的变异体，误差校正的家族的候选测序读段各自相比于聚核苷酸特异性参考序列。比较操作确定一个或多个比对测序读段和聚核苷酸参考序列具有不同碱基的碱基位置。对在所述碱基位置处具有特定碱基差异的比对序列的数目计数且应用家族水平阈值可识别基于家族的候选变异体。当碱基差异的数目低于家族水平阈值时，未识别基于家族的候选变异体。使用多个基于家族的候选变异体检测变异体的操作与关于图18B所描述相同。

图19A和B为描绘分子标记工作流的非限制性示意图。图19A的顶部处的两个标靶聚核苷酸携有以“X”指示的相同突变序列。图19B的顶部处的两个标靶聚核苷酸携有相同野生型序列。图19A和B的顶部处的标靶聚核苷酸经由衔接子接合或引物延伸在两端处各自附加至相同标签附加反应混合物中的独特标签(例如随机物标签1-8)。经标记的分子在相同反应混合物中扩增以产生多个经标记的扩增子，其中的一些现在携有在扩增步骤期间产生的假突变序列。图19A和B中的假突变序列以“O”指示。多个经标记的扩增子经测序以产生多个候选经标记的测序读段。因此，原始的两个突变和野生型分子的序列包含于多个候选经标记的测序读段中。通过应用剔除阈值、分组阈值、计数分组读段阈值计数家族阈值、差分计数阈值、模式计数阈值非目标模式阈值和/或家族水平阈值中的任一个或任何组合而操纵候选经标记的测序读段以将多个候选经标记的测序读段减少为经误差校正的单一测序读段(例如家族参考序列)且为所述家族中的多个候选经标记的测序读段的压缩表示。表示突变候选经标记的测序读段的家族参考序列通过图19A的底部处的虚线矩形框指示。表示野生型候选经标记的测序读段的家族参考序列通过图19B的底部处的虚线矩形框指示。突变和野生型家族参考序列均可存储在存储器中。

所属领域的技术人员应了解，可基于一个或若干个因素调节任何阈值，包括：产生的测序读段的数目、剔除和/或保留的测序读段的百分比、不同测序读段组的数目和组的大小。

多家族阈值可指导用于识别可存在于核酸样品中的变异体的决策。在一些情况下，给定标靶聚核苷酸序列的不同家族可识别特定候选变异体。对支持特定候选变异体的家族的数目计数且应用多家族阈值可将候选变异体识别为存在于初始核酸样品中的变异体。多家族阈值的值为百分比因数乘以对应于相同标靶聚核苷酸的不同家族的数目的乘积。百分比因数可在0.0001至0.1％、0.001至0.1％、0.01至0.1％、0.02至0.08％、0.03至0.07％、0.04至0.06％、0.045至0.055％、0.0001至2.5％、0.1至2.5％、1至2.5％、1.5至2.5％、1.8至2.2％、1.9至2.1％或1.95％至2.05％范围内，或这些范围中的一个的子区间内。

在一些实施例中，本公开大体上涉及用于检测基因变异体、识别基因变异体和/或降低测序数据的误差率的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，其可使得能够增加检测和识别基因变异体的敏感性水平，例如通过利用下一代测序平台的大规模平行分析能力。

在一些实施例中，本公开大体上涉及用于检测以核酸样品中的约0.0001-1％，或约0.001-1％，或约0.01-1％，或约0.1-1％，或约0.1-5％，或约5-10％，或约0.05-0.1％，或约0.048-0.1％，或约0.046-0.1％，或约0.044-0.1％，或约0.042-0.1％，或约0.040-0.1％，或约0.025-0.05％，或约0.0125-0.025％，或小于0.0125％(或更低丰度范围)的敏感性水平存在于核酸样品内的低丰度基因变异体的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体。

在一些实施例中，起始核酸样品含有约1-7ng，或约5-12ng，或约10-105ng，或约100ng-1μg的聚核苷酸。在一些实施例中，起始核酸样品含有约0.0001-5ng的聚核苷酸。任选地，起始核酸样品可为大致1-50ng且可获自生物流体、固体生物样品、任何生物体，或来自水、土壤或食物。

在一些实施例中，本公开大体上涉及用于检测基因变异体、识别基因变异体和/或产生误差校正的测序数据的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，包含：(a)提供含有多个聚核苷酸的核酸样品；和(b)通过将多个聚核苷酸中的至少一些附加至至少一个标签而产生多个经标记的聚核苷酸。经标记的聚核苷酸可通过进行单步标记反应或多步标记反应而产生。在一些实施例中，个别聚核苷酸使用单步或多步(例如两步)标记程序附有独特标签序列和通用标签序列。举例来说，单步标记程序包括使用含有独特标签序列和全长通用序列的标签进行接合或引物延伸反应。两步标记程序包括使用含有独特标签序列或部分长度通用序列的标签进行第一接合或引物延伸反应，和使用含有独特标签序列或通用序列的标签进行后续接合或引物延伸反应。

在一些实施例中，本公开大体上涉及方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，进一步包含以下步骤：(c)扩增经标记的聚核苷酸以产生经标记的扩增子。

在一些实施例中，本公开大体上涉及方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，进一步包含以下步骤：(d)确定至少一些经标记的扩增子的序列以产生候选测序读段群体。

在一些实施例中，本公开大体上涉及方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，进一步包含以下步骤：操纵候选测序读段以产生误差校正的测序读段。任选地，操纵包括将至少一个阈值应用于候选测序读段。任选地，操纵的测序读段可用于确定特定聚核苷酸存在于初始核酸样品中，和识别特定聚核苷酸的序列。

在一些实施例中，本公开大体上涉及方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，进一步包含以下步骤：基于标签特异性参考序列和/或基于聚核苷酸特异性参考序列从候选测序读段群体剔除一个或多个候选测序读段。候选测序读段可通过应用剔除阈值而剔除。举例来说，剔除阈值可用于保留或去除至少一个候选测序读段以产生误差校正的测序读段。

在一些实施例中，本公开大体上涉及方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，进一步包含以下步骤：将候选测序读段群体的子集分组至不同候选测序读段家族中，其中不同候选测序读段家族包括共同标签序列。分组的测序读段可用于产生误差校正的测序读段家族。候选测序读段可通过应用分组阈值而分组。举例来说，分组阈值可基于参考标签序列或参考聚核苷酸序列。分组至给定测序读段家族中的不同测序读段共用共同标签和/或聚核苷酸序列。

在一些实施例中，本公开大体上涉及方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，另外包含以下步骤：使用计数分组读段阈值确定匹配(例如类似或相同于)参考序列的分组家族内的测序读段的百分比。举例来说，计数分组读段阈值可基于特定聚核苷酸序列或标签序列。当匹配(例如类似或相同于)参考序列的分组家族内的测序读段的百分比符合或超过计数分组读段阈值时，接着可推断测序读段为真阳性测序读段密切具有所述序列的聚核苷酸存在于初始核酸样品中。

在一些实施例中，本公开大体上涉及方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，另外包含以下步骤：对具有相同标靶聚核苷酸序列的(测序分组测序读段的)不同家族的数目计数和应用计数家族阈值。如果计数家族的数目超过计数家族阈值，那么认为标靶聚核苷酸序列表示对应于存在于初始核酸样品中的聚核苷酸的真阳性测序读段。

在一些实施例中，本公开大体上涉及方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，进一步包含以下步骤：从候选测序读段集或分组测序读段家族去除错误标记的测序读段。在一些情况下，给定测序读段家族可包括错误标记的测序读段，其包括共同标签序列，但由于标签附加误差，包括由标签衔接子接合或标签引物延伸引起的误差，或其它误差而对应于标靶聚核苷酸或非标靶聚核苷酸的不同区域。错误标记的测序读段将包括一个或多个碱基位置，其中核苷酸不同于参考聚核苷酸序列或正确标记的测序读段。

在一些实施例中，本公开大体上涉及方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，进一步包含以下步骤：通过比较标靶聚核苷酸的测序读段与参考序列且应用差分计数阈值来识别错误标记的测序读段。举例来说，确定在测序读段与参考聚核苷酸之间不同的核苷酸的数目且比较所述数目与差分计数阈值可识别错误标记的测序读段。可保留或去除错误标记的测序读段。差分计数阈值可在分组阈值之前或之后应用。将差分计数阈值应用至候选测序读段集且去除识别的错误标记的测序读段可产生具有降低的误差率的测序读段集。将差分计数阈值应用至分组测序读段家族且去除识别的错误标记的测序读段可产生具有降低的误差率的测序读段家族。

在一些实施例中，本公开大体上涉及方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，进一步包含以下步骤：通过比较测序读段与其它测序读段且应用模式计数阈值来识别具有常见模式的变异体的错误标记的测序读段。举例来说，确定多个在聚核苷酸序列中具有常见模式的变异体的测序读段且比较所述数目与模式计数阈值可识别错误标记的测序读段组。可保留或去除错误标记的测序读段。模式计数阈值可在分组阈值之前或之后应用。将模式计数阈值应用至候选测序读段集且去除识别的错误标记的测序读段可产生具有降低的误差率的测序读段集。将模式计数阈值应用至分组测序读段家族且去除识别的错误标记的测序读段可产生具有降低的误差率的测序读段家族。

在一些实施例中，本公开大体上涉及方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，进一步包含以下步骤：通过比较标靶聚核苷酸的测序读段与参考序列且应用差分计数阈值来识别候选错误标记的测序读段。比较候选错误标记的测序读段与一个或多个其它识别的候选错误标记的测序读段且应用模式计数阈值可检测可存在于候选错误标记的序列中的常见模式的变异体。举例来说，确定多个在聚核苷酸序列中具有特定模式的变异体的候选错误标记的测序读段且比较所述数目与模式计数阈值可识别错误标记的测序读段组。可保留或去除错误标记的测序读段。差分计数阈值和模式计数阈值可在分组阈值之前或之后应用。将差分计数阈值和模式计数阈值应用至候选测序读段集且去除识别的错误标记的测序读段可产生具有降低的误差率的测序读段集。将差分计数阈值和模式计数阈值应用至分组测序读段家族且去除识别的错误标记的测序读段可产生具有降低的误差率的测序读段家族。

在一些实施例中，本公开大体上涉及方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，进一步包含以下步骤：通过比较候选错误标记的测序读段中的差异模式与标靶聚核苷酸的参考序列与非标靶聚核苷酸的预期序列或标靶聚核苷酸的不同区域之间的预期差异模式来识别错误标记的测序读段。举例来说，可预定标靶聚核苷酸的参考序列与非标靶聚核苷酸的预期序列之间的预期差异模式且存储在查询表中。任选地，比较测序读段与参考序列且应用差分计数阈值可识别候选错误标记的测序读段。比较候选错误标记的测序读段中的差异模式与预期差异模式且应用非目标模式阈值可识别错误标记的测序读段。可保留或去除错误标记的测序读段。非目标模式阈值可在分组阈值之前或之后应用。将非目标模式阈值应用至候选测序读段集且去除识别的错误标记的测序读段可产生具有降低的误差率的测序读段集。将非目标模式阈值应用至分组测序读段家族且去除识别的错误标记的测序读段可产生具有降低的误差率的测序读段家族。

在一些实施例中，本公开大体上涉及方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，进一步包含以下步骤：识别基于家族的候选变异体。误差校正的测序读段家族可用于检测和识别可存在于初始核酸样品中的变异体。举例来说，对于给定误差校正的家族，比对测序读段与标靶聚核苷酸的参考序列、确定一个或多个比对测序读段和参考序列具有不同碱基的碱基位置、对在所述碱基位置具有特定碱基差异的比对序列的数目计数且应用家族水平阈值可识别基于家族的候选变异体。当碱基差异的数目低于家族水平阈值时，未识别基于家族的候选变异体。在一些情况下，应用家族水平阈值可识别一个或多个候选变异体。

在一些实施例中，本公开大体上涉及方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，进一步包含以下步骤：识别基因变异体。来自多个误差校正的家族的候选变异体可用于识别可存在于初始核酸样品中的变异体。举例来说，应用计数家族阈值可识别具有相同标靶聚核苷酸序列的不同误差校正的家族的数目。在一些情况下，给定标靶聚核苷酸序列的不同误差校正的家族可识别特定候选变异体。对支持特定候选变异体的误差校正的家族的数目计数且应用多家族阈值可将候选变异体识别为存在于初始核酸样品中的变异体。

在一些实施例中，多个聚核苷酸在单一反应混合物中附有至少一个标签。

在一些实施例中，单一反应混合物含有1-6个独特标签，或4-105个独特标签，或100-510个独特标签，或500-1010个独特标签，或1000-5010个独特标签，或5000-10,010个独特标签，或大于10,000个独特标签。

在一些实施例中，单一反应混合物中的多个寡核苷酸标签检测到核酸样品中存在5-105个，或100-205个，或200-305个，或300-405个或400-505个或更多个不同标靶聚核苷酸。

在一些实施例中，含有附加至至少一个标签的标靶聚核苷酸序列的扩增子的长度为约30-105个碱基，或约100-305个碱基，或约300-605个碱基，或约600-1,000个碱基。

在一些实施例中，核酸样品获自任何类型的生物流体或固体生物样品，或任何生物体，或来自水、土壤或食物。在一些实施例中，生物样品包括通过活检、拭子、穿刺活检(例如细针活检或细针抽吸)、涂片或甚至空气传播的核酸获得的生物流体或固体组织。

在一些实施例中，核酸样品包括DNA、RNA、RNA和DNA的混合物、cfDNA、来自循环肿瘤细胞的DNA或cfRNA。

在一些实施例中，核酸样品含有至少一个标靶聚核苷酸和一个或多个非标靶聚核苷酸，或核酸样品不含任何非标靶聚核苷酸。

在一些实施例中，核酸样品含有约0.001ng-100μg，或约1-500ng聚核苷酸，其包括标靶和非标靶聚核苷酸或不含非标靶聚核苷酸。

在一些实施例中，标靶聚核苷酸的丰度水平以约0.0001-1％，或约0.001-1％，或约0.01-1％，或约0.1-1％，或约0.1-5％，或更低丰度范围存在于核酸样品中。

在一些实施例中，核酸样品含有多个标靶聚核苷酸，包括野生型形式和其相关多态形式，其包括等位基因、变异和/或突变形式。

在一些实施例中，误差校正的测序读段用于检测和识别相对于与标靶聚核苷酸有关且存在于核酸样品中的多态聚核苷酸的群体，以约0.0001-1％，或约0.001-1％，或约0.01-1％，或约0.1-1％，或约0.1-5％，或更低丰度范围的丰度水平存在于核酸样品中的标靶聚核苷酸。

在一些实施例中，误差校正的测序读段家族用于检测和识别相对于核酸样品中的总聚核苷酸群体，以约0.0001-1％，或约0.001-1％，或约0.01-1％，或约0.1-1％，或约0.1-5％，或更低丰度范围的丰度水平存在于核酸样品中的标靶聚核苷酸。

在一些实施例中，误差校正的测序读段，或误差校正的测序读段家族用于检测和识别约85-95％，或约95-99％，或约100％的可存在于初始核酸样品中的不同标靶聚核苷酸(例如包括基因变异体)。

在一些实施例中，多个经标记的聚核苷酸中的经标记的聚核苷酸分子中的至少两个经独特标记，即多个经标记的聚核苷酸中的经标记的聚核苷酸分子中的至少两个附有不同标签。两个经标记的聚核苷酸可包括具有相同或不同序列的标靶聚核苷酸。在一些实施例中，多个经标记的聚核苷酸中的经标记的聚核苷酸分子中的每一个附有不同于附加至基本上每个其它经标记的聚核苷酸的标签的标签。

在一些实施例中，多个经标记的聚核苷酸中的至少两个经标记的聚核苷酸在两端处附有不同标签。

在一些实施例中，多个聚核苷酸通过酶接合附有至少一个标签(例如标签衔接子)。

在一些实施例中，基本上每个聚核苷酸通过酶接合附加至至少一个标签(例如标签衔接子)。

在一些实施例中，基本上每个附有至少一个标签的聚核苷酸在附有至少一个标签的多个聚核苷酸内包括约10-30％，或约30-50％，或约50-70％，或约70-80％，或约80-90％，或约90-95％，或约95-99％的个别聚核苷酸分子。

在一些实施例中，酶接合将至少一个标签非选择性地附加至多个聚核苷酸。举例来说，平端接合反应可用于将至少一个标签附加至来自多个聚核苷酸的个别聚核苷酸。在另一实例中，具有5'或3'外伸端的标签可使用酶接合附加至来自多个聚核苷酸的个别聚核苷酸。

在一些实施例中，附加步骤包括将至少一个衔接子(例如标签衔接子)酶接合至个别聚核苷酸的至少一端以产生多个经标记的聚核苷酸。任选地，分子标记程序包括进行多个独立的接合反应(例如约1-6个)以将至少一个衔接子(例如标签衔接子)附加至个别聚核苷酸的至少一端。任选地，至少一个衔接子(例如标签衔接子)可在第一轮、第二轮、第三轮或随后一轮的酶接合反应中附加至个别聚核苷酸的一端或两端。

在一些实施例中，多个聚核苷酸通过引物延伸反应，使用至少一个具有选择性地与核酸样品内的标靶聚核苷酸的至少一个区域杂交的标靶特异性序列的标签引物而附有至少一个标签，且至少一个标签引物包括至少一个独特标签序列。任选地，标签引物包括不选择性地与标靶聚核苷酸杂交的部分。举例来说，标签引物的3'区包括选择性地与标靶聚核苷酸的一部分杂交的标靶特异性序列，且5'区包括不选择性地与标靶聚核苷酸杂交的独特标签序列。

在一些实施例中，引物延伸反应进一步包含聚合酶和多个核苷酸。

在一些实施例中，多个聚核苷酸的子集通过引物延伸选择性地附加至至少一个标签。

在一些实施例中，附加步骤包括通过引物(例如标签引物)进行引物延伸反应以产生至少一端附有标签序列的多个经标记的聚核苷酸。任选地，分子标记程序包括进行多轮独立的引物延伸反应以将至少一个标签序列附加至个别聚核苷酸的至少一端。举例来说，通过标签引物库进行2-4轮引物延伸(例如PCR)以产生多个经标记的聚核苷酸，其中个别经标记的聚核苷酸的每一端附有独特标签序列，且任选地，个别经标记的聚核苷酸的一端或两端还可包括相同或不同通用序列。可通过加尾引物进行额外轮的引物延伸(例如PCR)以附加额外的独特标签序列、条形码序列和/或通用序列。用于额外轮的引物延伸中的加尾引物可在其3'区中包括与来自前述引物延伸反应的标签序列杂交的序列。可额外进行约2-40轮的引物延伸反应。任选地，可进行一轮或多轮引物延伸反应以将至少一个条形码或通用序列附加至聚核苷酸，接着可进行一轮或多轮引物延伸反应以将至少一个独特标签序列附加至聚核苷酸。

在一些实施例中，独特标签序列可使用使用标签衔接子的酶接合和/或使用标签引物的引物延伸(例如PCR)的组合附加至聚核苷酸。

在一些实施例中，至少一个标签(例如包含于标签衔接子或引物中)包含具有至少一个随机序列和至少一个固定序列的随机物标签，或包含在两侧上经固定序列侧接的随机序列，或包含在两侧上经随机序列侧接的固定序列。随机物标签可包括长度为2-2000个核苷酸或碱基对的固定序列。随机物标签可包括长度为2-2000个核苷酸或碱基对的随机序列。

在一些实施例中，标签包括至少一个随机序列穿插有固定序列的序列。在一些实施例中，多个标签中的个别标签具有结构(N)_n(X)_x(M)_m(Y)_y的区域，且(i)其中“N”表示产生自A、G、C、T、U或I的随机标签序列，且其中“n”为2-10，其表示“N”随机标签序列的核苷酸长度；(ii)其中“X”表示固定标签序列，且其中“x”为2-10，其表示“X”随机标签序列的核苷酸长度；(iii)其中“M”表示产生自A、G、C、T、U或I的随机标签序列，其中随机标签序列“M”与随机标签序列“N”不同或相同，且其中“m”为2-10，其表示“M”随机标签序列的核苷酸长度；且(iv)其中“Y”表示固定标签序列，其中“Y”的固定标签序列与“X”的固定标签序列相同或不同，且其中“y”为2-10，其表示“Y”随机标签序列的核苷酸长度。在一些实施例中，固定标签序列“X”在多个标签中相同。在一些实施例中，固定标签序列“X”在多个标签中不同。在一些实施例中，固定标签序列“Y”在多个标签中相同。在一些实施例中，固定标签序列“Y”在多个标签中不同。在一些实施例中，多个单链引物内的固定标签序列“(X)_x”和“(Y)_y”为序列比对锚。

在一些实施例中，随机物标签内的随机序列由“N”表示，且固定序列由“X”表示。因此，随机物标签可由N₁N₂N₃X₁X₂X₃或N₁N₂N₃X₁X₂X₃N₄N₅N₆X₄X₅X₆表示。任选地，随机物标签可具有随机序列，其中核苷酸位置中的一些或全部可随机选自由以下组成的群组：A、G、C、T、U和I。举例来说，随机序列内的每个位置的核苷酸可独立地选自A、G、C、T、U或I中的任一个，或可选自这六种不同类型的核苷酸的子集。任选地，随机序列内的每个位置的核苷酸可独立地选自A、G、C或T中的任一个。在一些实施例中，第一固定标签序列“X₁X₂X₃”为多个标签中的相同或不同序列。在一些实施例中，第二固定标签序列“X₄X₅X₆”为多个标签中的相同或不同序列。在一些实施例中，多个单链标签引物内的第一固定标签序列“X₁X₂X₃”和第二固定标签序列“X₄X₅X₆”为序列比对锚。

在一些实施例中，随机物标签包含序列5'-NNNACTNNNTGA-3'(SEQ ID NO:1)，其中“N”表示随机产生自A、G、C或T的随机序列内的位置，可能的相异随机物标签的数目计算为4⁶(或4^6)，为约4096，且可能的两个随机物标签的不同组合的数目为4¹²(或4^12)，为约1千678万。在一些实施例中，5'-NNNACTNNNTGA-3'(SEQ ID NO:1)的加下划线的部分为序列比对锚。

在一些实施例中，随机物标签序列内的固定序列可充当用于产生误差校正的测序数据，包括产生误差校正的测序读段家族的序列比对锚。

在一些实施例中，随机物标签序列不用于校正任何测序读段，而是替代地丢弃含有误差(例如随机物标签序列中的误差)的候选测序读段。

在一些实施例中，扩增包含等温或热循环扩增，或等温和热循环扩增的组合。任选地，扩增包括具有或不具有重组酶辅助因子(例如T4uvsY和/或gp32蛋白质)的重组酶(例如T4uvsX)。

在一些实施例中，确定步骤包括对经标记的扩增子中的至少两个测序。

任选地，确定步骤包括对对应于经标记的扩增子的一股或两股测序。

任选地，确定步骤包括对聚核苷酸的至少一部分和/或附加至聚核苷酸的至少一个标签的至少一部分测序。

任选地，确定步骤包括对聚核苷酸的至少一部分和附加至聚核苷酸的两个标签的至少一部分测序。

任选地，确定步骤包括产生含有聚核苷酸的至少一部分和/或附加至聚核苷酸的至少一个标签的至少一部分的候选测序读段群体。

任选地，确定步骤包括对误差校正的测序读段内的测序读段的数目计数。如果误差校正的测序读段内的测序读段的数目不超过阈值，那么误差校正的测序读段将不包括于另外的数据分析中。

任选地，确定步骤包括计算相对于剔除步骤之前的候选测序读段的数目的误差校正的测序读段内的测序读段的数目的百分比。

在一些实施例中，本公开大体上涉及用于检测核酸样品中的标靶聚核苷酸的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，包含：(a)通过将至少一个标签附加至来自多个聚核苷酸的个别聚核苷酸的每一端而产生多个经标记的聚核苷酸。任选地，核酸样品包括标靶聚核苷酸和非标靶聚核苷酸或不具有非标靶聚核苷酸。经标记的聚核苷酸可通过进行单步标记反应或多步标记反应而产生。在一些实施例中，个别聚核苷酸使用单步或多步(例如两步)标记程序附有独特标签序列和通用标签序列。举例来说，单步标记程序包括使用含有独特标签序列和全长通用序列的标签进行接合或引物延伸反应。两步标记程序包括使用含有独特标签序列或部分长度通用序列的标签进行第一接合或引物延伸反应，和使用含有独特标签序列或通用序列的标签进行后续接合或引物延伸反应。

在一些实施例中，本公开大体上涉及方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，进一步包含以下步骤：(b)通过扩增多个经标记的聚核苷酸而产生经标记的扩增子群体。

在一些实施例中，本公开大体上涉及方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，进一步包含以下步骤：(c)确定标靶聚核苷酸存在于核酸样品中。

在一些实施例中，确定步骤包括对聚核苷酸的至少一部分和/或附加至聚核苷酸的至少一个标签的至少一部分测序。

在一些实施例中，确定步骤包括对聚核苷酸的至少一部分和附加至聚核苷酸的两个标签的至少一部分测序。

在一些实施例中，确定步骤包括产生含有聚核苷酸的至少一部分和/或附加至聚核苷酸的至少一个标签的至少一部分的候选测序读段群体。

在一些实施例中，确定步骤包括操纵候选测序读段群体以产生误差校正的测序读段，例如通过应用一个或多个阈值，包括剔除、分组、计数分组读段、差分计数、模式计数和/或非目标模式计数家族阈值。任选地，操纵包括将至少一个阈值应用于候选测序读段。任选地，操纵的测序读段可用于确定特定聚核苷酸存在于初始核酸样品中，和识别特定聚核苷酸的序列。任选地，操纵的测序读段可用于检测可存在于初始核酸样品中的变异体，例如通过应用家族水平阈值和/或多家族阈值。

在一些实施例中，确定步骤包括基于标签特异性参考序列和/或基于聚核苷酸特异性参考序列，从候选测序读段群体剔除一个或多个候选测序读段。候选测序读段可通过应用剔除阈值而剔除。举例来说，剔除阈值可用于保留或去除至少一个候选测序读段以产生误差校正的测序读段。

在一些实施例中，确定步骤包括将候选测序读段群体的子集分组至不同的候选测序读段家族中，其中不同的候选测序读段家族包括共同标签序列。分组测序读段可用于产生误差校正的测序读段家族。候选测序读段可通过应用分组阈值而分组。举例来说，分组阈值可基于参考标签序列或参考聚核苷酸序列。分组至给定测序读段家族中的不同测序读段共用共同标签和/或聚核苷酸序列。

在一些实施例中，确定步骤包括使用计数分组读段阈值确定匹配(例如类似或相同于)参考序列的分组家族内的测序读段的百分比。举例来说，计数分组读段阈值可基于特定聚核苷酸序列或标签序列。当匹配(例如类似或相同于)参考序列的分组家族内的测序读段的百分比符合或超过计数分组读段阈值时，接着可推断测序读段为真阳性测序读段密切具有所述序列的聚核苷酸存在于初始核酸样品中。

在一些实施例中，确定步骤包括对具有相同标靶聚核苷酸序列的(测序分组测序读段的)不同家族的数目计数和应用计数家族阈值。如果计数家族的数目超过计数家族阈值，那么认为标靶聚核苷酸序列表示对应于存在于初始核酸样品中的聚核苷酸的真阳性测序读段。

在一些实施例中，确定步骤包括从候选测序读段集或分组测序读段家族去除错误标记的测序读段。在一些情况下，给定测序读段家族可包括错误标记的测序读段，其包括共同标签序列，但由于标签附加误差，包括由标签衔接子接合或标签引物延伸引起的误差，或其它误差而对应于标靶聚核苷酸或非标靶聚核苷酸的不同区域。错误标记的测序读段将包括一个或多个碱基位置，其中核苷酸不同于参考聚核苷酸序列或正确标记的测序读段。

在一些实施例中，确定步骤包括通过比较测序读段与标靶聚核苷酸的参考序列和应用差分计数阈值而识别错误标记的测序读段。举例来说，确定在测序读段与参考聚核苷酸之间不同的核苷酸的数目且比较所述数目与差分计数阈值可识别错误标记的测序读段。可保留或去除错误标记的测序读段。差分计数阈值可在分组阈值之前或之后应用。将差分计数阈值应用至候选测序读段集且去除识别的错误标记的测序读段可产生具有降低的误差率的测序读段集。将差分计数阈值应用至分组测序读段家族且去除识别的错误标记的测序读段可产生具有降低的误差率的测序读段家族。

在一些实施例中，确定步骤包括通过比较测序读段与其它测序读段和应用模式计数阈值而识别具有常见模式的变异体的错误标记的测序读段。举例来说，确定多个在聚核苷酸序列中具有常见模式的变异体的测序读段且比较所述数目与模式计数阈值可识别错误标记的测序读段组。可保留或去除错误标记的测序读段。模式计数阈值可在分组阈值之前或之后应用。将模式计数阈值应用至候选测序读段集且去除识别的错误标记的测序读段可产生具有降低的误差率的测序读段集。将模式计数阈值应用至分组测序读段家族且去除识别的错误标记的测序读段可产生具有降低的误差率的测序读段家族。

在一些实施例中，确定步骤包括通过比较测序读段与标靶聚核苷酸的参考序列和应用差分计数阈值而识别候选错误标记的测序读段。比较候选错误标记的测序读段与一个或多个其它识别的候选错误标记的测序读段且应用模式计数阈值可检测可存在于候选错误标记的序列中的常见模式的变异体。举例来说，确定多个在聚核苷酸序列中具有特定模式的变异体的候选错误标记的测序读段且比较所述数目与模式计数阈值可识别错误标记的测序读段组。可保留或去除错误标记的测序读段。差分计数阈值和模式计数阈值可在分组阈值之前或之后应用。将差分计数阈值和模式计数阈值应用至候选测序读段集且去除识别的错误标记的测序读段可产生具有降低的误差率的测序读段集。将差分计数阈值和模式计数阈值应用于分组测序读段家族且去除识别的错误标记的测序读段可产生具有降低的误差率的测序读段家族。

在一些实施例中，确定步骤包括通过比较候选错误标记的测序读段中的差异模式与标靶聚核苷酸的参考序列与非标靶聚核苷酸的预期序列或标靶聚核苷酸的不同区域之间的预期差异模式而识别错误标记的测序读段。举例来说，可预定标靶聚核苷酸的参考序列与非标靶聚核苷酸的预期序列之间的预期差异模式且存储在查询表中。任选地，比较测序读段与参考序列且应用差分计数阈值可识别候选错误标记的测序读段。比较候选错误标记的测序读段中的差异模式与预期差异模式且应用非目标模式阈值可识别错误标记的测序读段。可保留或去除错误标记的测序读段。非目标模式阈值可在分组阈值之前或之后应用。将非目标模式阈值应用至候选测序读段集且去除识别的错误标记的测序读段可产生具有降低的误差率的测序读段集。将非目标模式阈值应用至分组测序读段家族且去除识别的错误标记的测序读段可产生具有降低的误差率的测序读段家族。

在一些实施例中，确定步骤包括识别基于家族的候选变异体。误差校正的测序读段家族可用于检测和识别可存在于初始核酸样品中的变异体。举例来说，对于给定误差校正的家族，比对测序读段与标靶聚核苷酸的参考序列、确定一个或多个比对测序读段和参考序列具有不同碱基的碱基位置、对在所述碱基位置具有特定碱基差异的比对序列的数目计数且应用家族水平阈值可识别基于家族的候选变异体。当碱基差异的数目低于家族水平阈值时，未识别基于家族的候选变异体。在一些情况下，应用家族水平阈值可识别一个或多个候选变异体。

在一些实施例中，确定步骤包括识别基因变异体。来自多个误差校正的家族的候选变异体可用于识别可存在于初始核酸样品中的变异体。举例来说，应用计数家族阈值可识别具有相同标靶聚核苷酸序列的不同误差校正的家族的数目。在一些情况下，给定标靶聚核苷酸序列的不同误差校正的家族可识别特定候选变异体。对支持特定候选变异体的误差校正的家族的数目计数且应用多家族阈值可将候选变异体识别为存在于初始核酸样品中的变异体。

在一些实施例中，在单一反应混合物中进行将至少一个标签附加至来自多个聚核苷酸的个别聚核苷酸的每一端。

在一些实施例中，单一反应混合物含有1-4个独特标签，或4-100个独特标签，或100-500个独特标签，或500-1000个独特标签，或1000-5000个独特标签，或5000-10,000个独特标签，或大于10,000个独特标签。

在一些实施例中，单一反应混合物中的多个寡核苷酸标签检测到核酸样品中存在5-100个，或100-200个，或200-300个，或300-400个或400-500个或更多个不同标靶聚核苷酸。

在一些实施例中，含有附加到至少一个标签的标靶聚核苷酸序列的扩增子的长度为约30-100个碱基，或约100-300个碱基，或约300-600个碱基，或约600-1,000个碱基。

在一些实施例中，误差校正的测序读段用于检测和识别相对于核酸样品中的总聚核苷酸群体，以约0.0001-1％，或约0.001-1％，或约0.01-1％，或约0.1-1％，或约0.1-5％，或更低丰度范围的丰度水平存在于核酸样品中的标靶聚核苷酸。

在一些实施例中，多个聚核苷酸通过酶接合在每一端处附有至少一个标签(例如标签衔接子)。

在一些实施例中，基本上每个聚核苷酸通过酶接合在每一端处附加至至少一个标签(例如标签衔接子)。

在一些实施例中，基本上每个附有至少一个标签的聚核苷酸在附有至少一个标签的多个聚核苷酸内包括10-30％，或约30-50％，或约50-70％，或约70-80％，或约80-90％，或约90-95％，或约95-99％的个别聚核苷酸分子。

在一些实施例中，多个聚核苷酸通过引物延伸反应，使用至少一个具有选择性地与核酸样品内的标靶聚核苷酸的至少一个区域杂交的标靶特异性序列的标签引物而在每一端处附有至少一个标签，且至少一个标签引物包括至少一个独特标签序列。任选地，标签引物包括不选择性地与标靶聚核苷酸杂交的部分。举例来说，标签引物的3'区包括选择性地与标靶聚核苷酸的一部分杂交的标靶特异性序列，且5'区包括不选择性地与标靶聚核苷酸杂交的独特标签序列。

在一些实施例中，引物延伸反应包含聚合酶和多个核苷酸。

在一些实施例中，多个聚核苷酸的子集通过引物延伸在每一端处选择性地附加至至少一个标签。

在一些实施例中，本公开大体上涉及用于检测核酸样品中的标靶聚核苷酸的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，包含：(a)通过使(i)包括第一聚核苷酸和第二聚核苷酸的多个聚核苷酸与(ii)包括第一、第二、第三和第四标签的多个标签接触，且将第一标签附加至第一聚核苷酸的一端且将第二标签附加至第一聚核苷酸的另一端，且将第三标签附加至第二聚核苷酸的一端且将第四标签附加至第二聚核苷酸的另一端而产生多个经标记的聚核苷酸。在一些实施例中，核酸样品包括标靶聚核苷酸和非标靶聚核苷酸，或不含非标靶聚核苷酸。经标记的聚核苷酸可通过进行单步标记反应或多步标记反应而产生。在一些实施例中，个别聚核苷酸(例如第一和第二聚核苷酸)使用单步或多步(例如两步)标记程序附有独特标签序列(例如第一、第二、第三或第四独特标签)和通用标签序列(例如第一、第二、第三或第四通用标签)。

在一些实施例中，个别聚核苷酸(例如第一聚核苷酸)使用单步或多步(例如两步)标记程序附有独特标签序列(例如第一和第二独特标签)和通用标签序列(例如第一和第二通用标签)。在一些实施例中，个别聚核苷酸(例如第二聚核苷酸)使用单步或多步(例如两步)标记程序附有独特标签序列(例如第三和第四独特标签)和通用标签序列(例如第三和第四通用标签)。

举例来说，单步标记程序包括使用(i)含有第一独特标签序列和全长第一通用序列的第一标签和(ii)含有第二独特标签序列和全长第二通用序列，通过第一聚核苷酸进行接合或引物延伸反应。

在相同反应混合物中，单步标记程序包括使用(i)含有第三独特标签序列和全长第三通用序列的第三标签和(ii)含有第四独特标签序列和全长第四通用序列的第四标签，通过第二聚核苷酸进行接合或引物延伸反应。第一、第二、第三和第四标签含有相同或不同通用序列。

两步标记程序包括使用(i)含有第一独特标签序列和任选地第一通用序列的至少一部分的第一标签和(ii)含有第二独特标签序列和任选地第二通用序列的至少一部分的第二标签，通过第一聚核苷酸进行第一接合或引物延伸反应。

在相同反应混合物中，使用(i)含有第三独特标签序列和任选地第三通用序列的至少一部分的第三标签和(ii)含有第四独特标签序列和任选地第四通用序列的至少一部分的第四标签，通过第二聚核苷酸进行第一接合或引物延伸反应。

使用第一聚核苷酸(其现在经标记)和(iii)含有第一通用序列的至少一部分的标签和(iv)含有第二通用序列的至少一部分的标签进行第二接合或引物延伸反应。

使用第二聚核苷酸(其现在经标记)和(iii)含有第三通用序列的至少一部分的标签和(iv)含有第四通用序列的至少一部分的标签进行第二接合或引物延伸反应。

第一、第二、第三和第四标签含有相同或不同通用序列。

在一些实施例中，本公开大体上涉及方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，进一步包含以下步骤：(b)通过扩增第一经标记的聚核苷酸产生第一经标记的扩增子的群体，和通过扩增第二经标记的聚核苷酸产生第二经标记的扩增子的群体。

在一些实施例中，本公开大体上涉及方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，进一步包含以下步骤：(c)确定第一标靶聚核苷酸和/或第二标靶聚核苷酸存在于核酸样品中。

在一些实施例中，确定步骤包括对第一聚核苷酸的至少一部分和/或第一标签的至少一部分和/或第二标签的至少一部分测序，其中第一和第二标签附加至第一聚核苷酸。

在一些实施例中，确定步骤包括对第二聚核苷酸的至少一部分和/或第三标签的至少一部分和/或第四标签的至少一部分测序，其中第三和第四标签附加至第二聚核苷酸。

在一些实施例中，确定步骤包括产生含有第一聚核苷酸的至少一部分和/或第一标签的至少一部分和/或第二标签的至少一部分的候选测序读段群体。

在一些实施例中，确定步骤包括产生含有第二聚核苷酸的至少一部分和/或第三标签的至少一部分和/或第四标签的至少一部分的候选测序读段群体。

在一些实施例中，确定步骤包括操纵候选测序读段群体以产生误差校正的测序读段，例如通过应用一个或多个阈值，包括剔除、分组、计数分组读段、计数家族、差分计数、模式计数和/或非目标模式阈值。任选地，操纵包括将至少一个阈值应用于候选测序读段。任选地，操纵的测序读段可用于确定特定聚核苷酸存在于初始核酸样品中，和识别特定聚核苷酸的序列。任选地，操纵的测序读段可用于检测可存在于初始核酸样品中的变异体，例如通过应用家族水平阈值和/或多家族阈值。

在一些实施例中，确定步骤包括基于标签特异性参考序列和/或基于聚核苷酸特异性参考序列，从候选测序读段群体剔除一个或多个候选测序读段。候选测序读段可通过应用剔除阈值而剔除。举例来说，剔除阈值可用于保留或去除至少一个候选测序读段以产生误差校正的测序读段。任选地，剔除阈值可用于保留或去除第一候选测序读段，其对应于第一经标记的聚核苷酸，以产生误差校正的测序读段。任选地，剔除阈值可用于保留或去除第二候选测序读段，其对应于第二经标记的聚核苷酸，以产生误差校正的测序读段。

在一些实施例中，确定步骤包括将候选测序读段群体的子集分组至不同的候选测序读段家族中，其中不同的候选测序读段家族包括共同标签序列。分组测序读段可用于产生误差校正的测序读段家族。候选测序读段可通过应用分组阈值而分组。举例来说，分组阈值可基于参考标签序列或参考聚核苷酸序列。分组至给定测序读段家族中的不同测序读段共用共同标签和/或聚核苷酸序列。任选地，候选测序读段可通过应用分组阈值而分组以产生第一分组测序读段家族，其中第一分组测序读段家族的成员共用共同标签和/或聚核苷酸序列。任选地，候选测序读段可通过施加分组阈值而分组以产生第二分组测序读段家族，其中第二分组测序读段家族的成员共用共同标签和/或聚核苷酸序列。

在一些实施例中，确定步骤包括使用计数分组读段阈值确定匹配(例如类似或相同于)参考序列的分组家族内的测序读段的百分比。举例来说，计数分组读段阈值可基于特定聚核苷酸序列或标签序列。当匹配(例如类似或相同于)参考序列的分组家族内的测序读段的百分比符合或超过计数分组读段阈值时，接着可推断测序读段为真阳性测序读段密切具有所述序列的聚核苷酸存在于初始核酸样品中。任选地，第一分组测序读段家族可经受计数分组读段阈值以确定匹配(例如类似或相同于)参考序列的第一分组测序读段的百分比，以便确定第一分组测序读段家族是否含有真阳性测序读段。任选地，第二分组测序读段家族可经受计数分组读段阈值以确定匹配(例如类似或相同于)参考序列的第二分组测序读段的百分比，以便确定第二分组测序读段家族是否含有真阳性测序读段。

在一些实施例中，确定步骤包括通过比较测序读段与标靶聚核苷酸的参考序列和应用差分计数阈值而识别错误标记的测序读段。举例来说，确定在测序读段与参考聚核苷酸之间不同的核苷酸的数目且比较所述数目与差分计数阈值可识别错误标记的测序读段。可保留或去除错误标记的测序读段。差分计数阈值可在分组阈值之前或之后应用。将差分计数阈值应用至候选测序读段集且去除识别的错误标记的测序读段可产生具有降低的误差率的测序读段集。将差分计数阈值应用至分组测序读段家族且去除识别的错误标记的测序读段可产生具有降低的误差率的测序读段家族。任选地，差分计数阈值可用于保留或去除第一候选测序读段，其对应于第一经标记的聚核苷酸，以产生误差校正的测序读段。任选地，差分计数阈值可用于保留或去除第二候选测序读段，其对应于第二经标记的聚核苷酸，以产生误差校正的测序读段。任选地，第一分组测序读段家族可经受差分计数阈值以识别第一家族中的错误标记的测序读段，其中第一分组测序读段家族的成员共用共同标签和/或聚核苷酸序列。任选地，第二分组测序读段家族可经受差分计数阈值以识别第二家族中的错误标记的测序读段，其中第二分组测序读段家族的成员共用共同标签和/或聚核苷酸序列。

在一些实施例中，确定步骤包括通过比较测序读段与其它测序读段和应用模式计数阈值而识别具有常见模式的变异体的错误标记的测序读段。举例来说，确定多个在聚核苷酸序列中具有常见模式的变异体的测序读段且比较所述数目与模式计数阈值可识别错误标记的测序读段组。可保留或去除错误标记的测序读段。模式计数阈值可在分组阈值之前或之后应用。将模式计数阈值应用至候选测序读段集且去除识别的错误标记的测序读段可产生具有降低的误差率的测序读段集。将模式计数阈值应用至分组测序读段家族且去除识别的错误标记的测序读段可产生具有降低的误差率的测序读段家族。任选地，模式计数阈值可用于保留或去除第一候选测序读段，其对应于第一经标记的聚核苷酸，以产生误差校正的测序读段。任选地，模式计数阈值可用于保留或去除第二候选测序读段，其对应于第二经标记的聚核苷酸，以产生误差校正的测序读段。任选地，第一分组测序读段家族可经受模式计数阈值以识别第一家族中的错误标记的测序读段，其中第一分组测序读段家族的成员共用共同标签和/或聚核苷酸序列。任选地，第二分组测序读段家族可经受模式计数阈值以识别第二家族中的错误标记的测序读段，其中第二分组测序读段家族的成员共用共同标签和/或聚核苷酸序列。

在一些实施例中，确定步骤包括通过比较测序读段与标靶聚核苷酸的参考序列和应用差分计数阈值而识别候选错误标记的测序读段。比较候选错误标记的测序读段与一个或多个其它识别的候选错误标记的测序读段且应用模式计数阈值可检测可存在于候选错误标记的序列中的常见模式的变异体。举例来说，确定多个在聚核苷酸序列中具有特定模式的变异体的候选错误标记的测序读段且比较所述数目与模式计数阈值可识别错误标记的测序读段组。可保留或去除错误标记的测序读段。差分计数阈值和模式计数阈值可在分组阈值之前或之后应用。将差分计数阈值和模式计数阈值应用至候选测序读段集且去除识别的错误标记的测序读段可产生具有降低的误差率的测序读段集。将差分计数阈值和模式计数阈值应用于分组测序读段家族且去除识别的错误标记的测序读段可产生具有降低的误差率的测序读段家族。任选地，差分计数阈值和模式计数阈值可用于保留或去除第一候选测序读段，其对应于第一经标记的聚核苷酸，以产生误差校正的测序读段。任选地，差分计数阈值和模式计数阈值可用于保留或去除第二候选测序读段，其对应于第二经标记的聚核苷酸，以产生误差校正的测序读段。任选地，第一分组测序读段家族可经受差分计数阈值和模式计数阈值以识别第一家族中的错误标记的测序读段，其中第一分组测序读段家族的成员共用共同标签和/或聚核苷酸序列。任选地，第二分组测序读段家族可经受差分计数阈值和模式计数阈值以识别第二家族中的错误标记的测序读段，其中第二分组测序读段家族的成员共用共同标签和/或聚核苷酸序列。

在一些实施例中，确定步骤包括通过比较候选错误标记的测序读段中的差异模式与标靶聚核苷酸的参考序列与非标靶聚核苷酸的预期序列或标靶聚核苷酸的不同区域之间的预期差异模式而识别错误标记的测序读段。举例来说，可预定标靶聚核苷酸的参考序列与非标靶聚核苷酸的预期序列之间的预期差异模式且存储在查询表中。任选地，比较测序读段与参考序列且应用差分计数阈值可识别候选错误标记的测序读段。比较候选错误标记的测序读段中的差异模式与预期差异模式且应用非目标模式阈值可识别错误标记的测序读段。可保留或去除错误标记的测序读段。非目标模式阈值可在分组阈值之前或之后应用。将非目标模式阈值应用至候选测序读段集且去除识别的错误标记的测序读段可产生具有降低的误差率的测序读段集。将非目标模式阈值应用至分组测序读段家族且去除识别的错误标记的测序读段可产生具有降低的误差率的测序读段家族。任选地，非目标模式阈值可用于保留或去除第一候选测序读段，其对应于第一经标记的聚核苷酸，以产生误差校正的测序读段。任选地，非目标模式阈值可用于保留或去除第二候选测序读段，其对应于第二经标记的聚核苷酸，以产生误差校正的测序读段。任选地，第一分组测序读段家族可经受非目标模式阈值以识别第一家族中的错误标记的测序读段，其中第一分组测序读段家族的成员共用共同标签和/或聚核苷酸序列。任选地，第二分组测序读段家族可经受非目标模式阈值以识别第二家族中的错误标记的测序读段，其中第二分组测序读段家族的成员共用共同标签和/或聚核苷酸序列。

在一些实施例中，确定步骤包括识别基于家族的候选变异体。误差校正的测序读段家族可用于检测和识别可存在于初始核酸样品中的变异体。举例来说，对于给定误差校正的家族，比对测序读段与标靶聚核苷酸的参考序列、确定一个或多个比对测序读段和参考序列具有不同碱基的碱基位置、对在所述碱基位置具有特定碱基差异的比对序列的数目计数且应用家族水平阈值可识别基于家族的候选变异体。当碱基差异的数目低于家族水平阈值时，未识别基于家族的候选变异体。在一些情况下，应用家族水平阈值可识别一个或多个候选变异体。任选地，第一误差校正的分组测序读段家族可经受家族水平阈值以识别第一家族中的第一候选变异体，其中第一分组测序读段家族的成员共用共同标签和/或聚核苷酸序列。任选地，第二误差校正的分组测序读段家族可经受家族水平阈值以识别第二家族中的第二候选变异体，其中第二分组测序读段家族的成员共用共同标签和/或聚核苷酸序列。

在一些实施例中，确定步骤包括识别基因变异体。来自多个误差校正的家族的候选变异体可用于识别可存在于初始核酸样品中的变异体。举例来说，应用计数家族阈值可识别具有相同标靶聚核苷酸序列的不同误差校正的家族的数目。在一些情况下，给定标靶聚核苷酸序列的不同误差校正的家族可识别特定候选变异体。对支持特定候选变异体的误差校正的家族的数目计数且应用多家族阈值可将候选变异体识别为存在于初始核酸样品中的变异体。任选地，支持特定第一候选变异体的第一误差校正的分组测序读段家族集合可经受多家族阈值以识别第一家族集合中的第一变异体，其中第一分组测序读段集家族的成员共用共同标签和/或聚核苷酸序列。任选地，支持特定第二候选变异体的第一误差校正的分组测序读段家族集合可经受多家族阈值以识别第二家族集合中的第二变异体，其中第二分组测序读段集家族的成员共用共同标签和/或聚核苷酸序列。

在一些实施例中，在单一反应混合物中进行附加步骤，其中第一标签附加至第一聚核苷酸的一端且第二标签附加至第一聚核苷酸的另一端，且第三标签附加至第二聚核苷酸的一端且第四标签附加至第二聚核苷酸的另一端。

在一些实施例中，单一反应混合物中的多个寡核苷酸标签检测到核酸样品中存在5-100个，或100-200个，或200-300个，或300-400个，或400-500个或更多个不同的标靶聚核苷酸。

在一些实施例中，含有附加至第一和第二标签的第一标靶聚核苷酸序列的扩增子的长度为约30-100个碱基，或约100-300个碱基，或约300-600个碱基，或约600-1,000个碱基。在一些实施例中，含有附加至第三和第四标签的第二标靶聚核苷酸序列的扩增子的长度为约30-100个碱基，或约100-300个碱基，或约300-600个碱基，或约600-1,000个碱基。

在一些实施例中，多个经标记的聚核苷酸中的第一经标记的聚核苷酸在每一端处附有不同于附加至基本上每个其它经标记的聚核苷酸的其它标签的标签(例如第一和第二标签)。

在一些实施例中，多个经标记的聚核苷酸中的第二经标记的聚核苷酸在每一端处附有不同于附加至基本上每个其它经标记的聚核苷酸的其它标签的标签(例如第三和第四标签)。

在一些实施例中，多个经标记的聚核苷酸中的第一经标记的聚核苷酸在每一端处附有不同标签(例如第一和第二标签)。

在一些实施例中，多个经标记的聚核苷酸中的第二经标记的聚核苷酸在每一端处附有不同标签(例如第三和第四标签)。

在一些实施例中，多个经标记的聚核苷酸中的第一经标记的聚核苷酸附有彼此不同的第一标签和第二标签。

在一些实施例中，多个经标记的聚核苷酸中的第二经标记的聚核苷酸附有彼此不同的第三和第四标签。

在一些实施例中，第一聚核苷酸通过酶接合附有第一和第二标签(例如第一和第二标签衔接子)。

在一些实施例中，第二聚核苷酸通过酶接合附有第三和第四标签(例如第三和第四标签衔接子)。

在一些实施例中，基本上每个聚核苷酸，包括第一和第二聚核苷酸通过酶接合在每一端处附加至至少一个标签(例如标签衔接子)。

在一些实施例中，基本上每个在每一端处附有至少一个标签的聚核苷酸(包括第一和第二聚核苷酸)在多个在每一端处附有至少一个标签的聚核苷酸内包括约10-30％，或约30-50％，或约50-70％，或约70-80％，或约80-90％，或约90-95％，或约95-99％的个别聚核苷酸分子。

在一些实施例中，酶接合将至少一个标签非选择性地附加至多个聚核苷酸的每一端。举例来说，平端接合反应可用于将至少一个标签附加至来自多个聚核苷酸的个别聚核苷酸。在另一实例中，具有5'或3'外伸端的标签可使用酶接合附加至来自多个聚核苷酸的个别聚核苷酸。

在一些实施例中，第一标靶聚核苷酸通过使用第一和第二标签引物的引物延伸反应附有第一和第二标签引物，其中第一和第二标签引物包括选择性地与核酸样品内的第一标靶聚核苷酸的至少一个区域杂交的标靶特异性序列，且第一标签引物包括至少一个第一独特标签序列且第二标签引物包括至少一个第二独特标签序列。第一和第二标签引物可与第一标靶聚核苷酸的不同区域杂交。任选地，第一标签引物包括不选择性地与第一标靶聚核苷酸杂交的部分。任选地，第二标签引物包括不选择性地与第一标靶聚核苷酸杂交的部分。举例来说，第一标签引物的3'区包括选择性地与第一标靶聚核苷酸的一部分杂交的标靶特异性序列，且5'区包括不选择性地与第一标靶聚核苷酸杂交的独特标签序列。第二标签引物的3'区包括选择性地与第一标靶聚核苷酸的一部分杂交的标靶特异性序列，且5'区包括不选择性地与第一标靶聚核苷酸杂交的独特标签序列。任选地，第一和第二标签引物的3'区与第一聚核苷酸的不同部分杂交。

在一些实施例中，第二标靶聚核苷酸通过使用第三和第四标签引物的引物延伸反应附有第三和第四标签引物，其中第三和第四标签引物包括选择性地与核酸样品内的第二标靶聚核苷酸的至少一个区域杂交的标靶特异性序列，且第三标签引物包括至少一个第三独特标签序列且第四标签引物包括至少一个第四独特标签序列。第三和第四标签引物可与第二标靶聚核苷酸的不同区域杂交。任选地，第三标签引物包括不选择性地与第二标靶聚核苷酸杂交的部分。任选地，第四标签引物包括不选择性地与第二标靶聚核苷酸杂交的部分。举例来说，第三标签引物的3'区包括选择性地与第二标靶聚核苷酸的一部分杂交的标靶特异性序列，且5'区包括不选择性地与第二标靶聚核苷酸杂交的独特标签序列。第四标签引物的3'区包括选择性地与第二标靶聚核苷酸的一部分杂交的标靶特异性序列，且5'区包括不选择性地与第二标靶聚核苷酸杂交的独特标签序列。任选地，第三和第四标签引物的3'区与第一聚核苷酸的不同部分杂交。

在一些实施例中，引物延伸反应包含聚合酶和多个核苷酸。

在一些实施例中，多个聚核苷酸的子集(其中子集包括第一和第二标靶聚核苷酸)通过引物延伸在每一端处选择性地附加至至少一个标签。

在一些实施例中，至少一个标签(例如包含于标签衔接子中或包含于第一、第二、第三和第四标签引物中)包含随机物标签，其中随机标签包括至少一个随机序列和至少一个固定序列，或包含在两侧上经固定序列侧接的随机序列，或包含在两侧上经随机序列侧接的固定序列。随机物标签可包括长度为2-2000个核苷酸或碱基对的固定序列。随机物标签可包括长度为2-2000个核苷酸或碱基对的随机序列。

1}在一些实施例中，确定步骤包括对经标记的扩增子中的至少两个，包括第一和第二经标记的扩增子测序。

任选地，确定步骤包括对对应于经标记的扩增子的一股或两股测序。任选地，确定步骤包括对第一和第二经标记的扩增子的一股或两股测序。

任选地，确定步骤包括对第一经标记的聚核苷酸的至少一部分测序。任选地，确定步骤包括对第一标靶聚核苷酸的至少一部分和/或第一标签的至少一部分和/或第二标签的至少一部分测序，其中第一和第二标签为第一经标记的聚核苷酸的一部分。

任选地，确定步骤包括对第二经标记的聚核苷酸的至少一部分测序。任选地，确定步骤包括对第二标靶聚核苷酸的至少一部分和/或第三标签的至少一部分和/或第四标签的至少一部分测序，其中第三和第四标签为第二经标记的聚核苷酸的一部分。

任选地，确定步骤包括产生含有第一经标记的聚核苷酸的至少一部分的候选测序读段群体。任选地，确定步骤包括产生含有第一标靶聚核苷酸的至少一部分和/或第一标签的至少一部分和/或第二标签的至少一部分的候选测序读段群体，其中第一和第二标签为第一经标记的聚核苷酸的一部分。

任选地，确定步骤包括产生含有第二经标记的聚核苷酸的至少一部分的候选测序读段群体。任选地，确定步骤包括产生含有第二标靶聚核苷酸的至少一部分和/或第三标签的至少一部分和/或第四标签的至少一部分的候选测序读段群体，其中第三和第四标签为第二经标记的聚核苷酸的一部分。

在一些实施例中，本公开大体上涉及用于检测核酸样品中的标靶聚核苷酸的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，包含：(a)形成含有(i)多个聚核苷酸和(ii)多个标签的单一反应混合物；和(b)通过将至少一个标签附加至多个聚核苷酸内的个别聚核苷酸而在单一反应混合物内产生多个经标记的聚核苷酸。在一些实施例中，核酸样品包括标靶聚核苷酸和非标靶聚核苷酸，或不含非标靶聚核苷酸。在一些实施例中，将多个聚核苷酸和多个标签置于一种反应混合物中以进行标签附加反应。在一些实施例中，可安设独立反应容器，其中每个反应容器含有多个聚核苷酸和/或多个标签，且接着可将独立反应容器以任何组合混合在一起以产生一种或多种组合混合物，其中组合混合物用作进行标签附加反应的单一反应混合物。

经标记的聚核苷酸可通过进行单步标记反应或多步标记反应而产生于单一反应混合物中。在一些实施例中，个别聚核苷酸使用单步或多步(例如两步)标记程序附有独特标签序列和通用标签序列。举例来说，单步标记程序包括使用含有独特标签序列和全长通用序列的标签进行接合或引物延伸反应。两步标记程序包括使用含有独特标签序列或部分长度通用序列的标签进行第一接合或引物延伸反应，和使用含有独特标签序列或通用序列的标签进行后续接合或引物延伸反应。

在一些实施例中，本公开大体上涉及方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，进一步包含以下步骤：(d)确定标靶聚核苷酸存在于核酸样品中。

在一些实施例中，确定步骤包括对一个或多个聚核苷酸的至少一部分和/或至少一个附加至聚核苷酸的标签的至少一部分测序。

在一些实施例中，确定步骤包括操纵候选测序读段群体以产生误差校正的测序读段，例如通过应用一个或多个阈值，包括剔除、分组、计数分组读段计数家族、差分计数、模式计数和/或非目标模式阈值。任选地，操纵包括将至少一个阈值应用于候选测序读段。任选地，操纵的测序读段可用于确定特定聚核苷酸存在于初始核酸样品中，和识别特定聚核苷酸的序列。任选地，操纵的测序读段可用于检测可存在于初始核酸样品中的变异体，例如通过应用家族水平阈值和/或多家族阈值。

在一些实施例中，引物延伸反应包含聚合酶和多个核苷酸。

在一些实施例中，本公开大体上涉及用于检测核酸样品中的第一标靶聚核苷酸和第二标靶聚核苷酸的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，包含：(a)形成含有以下的单一反应混合物：(i)包括至少第一聚核苷酸和第二聚核苷酸的多个聚核苷酸，和(ii)多个标签；和(b)通过将第一对标签附加至第一聚核苷酸而在单一反应混合物内产生多个经标记的聚核苷酸，包括第一经标记的聚核苷酸，且通过将第二对标签附加至第二聚核苷酸而在单一反应混合物内产生第二经标记的聚核苷酸。在一些实施例中，核酸样品包括标靶聚核苷酸和非标靶聚核苷酸，或不含非标靶聚核苷酸。经标记的聚核苷酸可通过进行单步标记反应或多步标记反应而产生。在一些实施例中，个别聚核苷酸(例如第一和第二聚核苷酸)使用单步或多步(例如两步)标记程序附有独特标签序列和通用标签序列。举例来说，单步标记程序包括使用一对各自含有独特标签序列和任选的全长通用序列的标签进行接合或引物延伸反应。两步标记程序包括使用一对各自含有独特标签序列任选的部分长度通用序列进行第一接合或引物延伸反应，和使用一对各自含有独特标签序列任选的通用序列的标签进行后续接合或引物延伸反应。

在一些实施例中，本公开大体上涉及方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，进一步包含以下步骤：(c)通过扩增第一经标记的聚核苷酸产生第一经标记的扩增子的群体，和通过扩增第二经标记的聚核苷酸产生第二经标记的扩增子的群体。

在一些实施例中，本公开大体上涉及方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，进一步包含以下步骤：(d)确定第一标靶聚核苷酸和/或第二标靶聚核苷酸存在于核酸样品中。

在一些实施例中，确定步骤包括对第一经标记的聚核苷酸的至少一部分和/或附加至第一聚核苷酸的第一对标签中的一个或两个的至少一部分测序。

在一些实施例中，确定步骤包括对第二经标记的聚核苷酸的至少一部分和/或附加至第二聚核苷酸的第二对标签中的一个或两个的至少一部分测序。

在一些实施例中，确定步骤包括产生含有第一经标记的聚核苷酸的至少一部分和/或来自附加至第一聚核苷酸的第一对标签的一个或两个标签的至少一部分的候选测序读段群体。

在一些实施例中，确定步骤包括产生含有第二经标记的聚核苷酸的至少一部分和/或来自附加至第二聚核苷酸的第二对标签的一个或两个标签的至少一部分的候选测序读段群体。

在一些实施例中，确定步骤包括基于标签特异性参考序列和/或基于聚核苷酸特异性参考序列，从候选测序读段群体剔除一个或多个候选测序读段。候选测序读段可通过应用剔除阈值而剔除。举例来说，剔除阈值可用于保留或去除至少一个候选测序读段以产生误差校正的测序读段家族。

在一些实施例中，确定步骤包括对具有相同标靶聚核苷酸序列的不同家族的数目计数且应用计数家族阈值。如果计数家族的数目超过计数家族阈值，那么认为标靶聚核苷酸序列表示对应于存在于初始核酸样品中的聚核苷酸的真阳性测序读段。

在一些实施例中，确定步骤包括通过比较测序读段与标靶聚核苷酸的参考序列和应用差分计数阈值而识别候选错误标记的测序读段。比较候选错误标记的测序读段与一个或多个其它识别的候选错误标记的测序读段且应用模式计数阈值可检测可存在于候选错误标记的序列中的常见模式的变异体。举例来说，确定多个在聚核苷酸序列中具有特定模式的变异体的候选错误标记的测序读段且比较所述数目与模式计数阈值可识别错误标记的测序读段组。可保留或去除错误标记的测序读段。差分计数阈值和模式计数阈值可在分组阈值之前或之后应用。将差分计数阈值和模式计数阈值应用至候选测序读段集且去除识别的错误标记的测序读段可产生具有降低的误差率的测序读段集。将差分计数阈值和模式计数阈值应用至分组测序读段家族且去除识别的错误标记的测序读段可产生具有降低的误差率的测序读段家族。

在一些实施例中，核酸样品含有至少一个第一标靶聚核苷酸和一个或多个非标靶聚核苷酸，或核酸样品不含任何非标靶聚核苷酸。

在一些实施例中，核酸样品含有至少一个第二标靶聚核苷酸和一个或多个非标靶聚核苷酸，或核酸样品不含任何非标靶聚核苷酸。

在一些实施例中，核酸样品含有0.001ng-100ug，或约1-500ng聚核苷酸，其包括第一标靶和非标靶聚核苷酸，或核酸样品不含非标靶聚核苷酸。

在一些实施例中，核酸样品含有0.001ng-100ug，或约1-500ng聚核苷酸，其包括第二标靶和非标靶聚核苷酸，或核酸样品不含非标靶聚核苷酸。

在一些实施例中，第一标靶聚核苷酸的丰度水平以约0.0001-1％，或约0.001-1％，或约0.01-1％，或约0.1-5％，或约0.1-1％，或更低丰度范围存在于核酸样品中。

在一些实施例中，第二标靶聚核苷酸的丰度水平以约0.0001-1％，或约0.001-1％，或约0.01-1％，或约0.1-1％，或约0.1-5％，或更低丰度范围存在于核酸样品中。

在一些实施例中，核酸样品含有多个标靶聚核苷酸(例如第一标靶聚核苷酸)，包括野生型形式和其相关多态形式，其包括等位基因、变异和/或突变形式。

在一些实施例中，核酸样品含有多个标靶聚核苷酸(例如第二标靶聚核苷酸)，包括野生型形式和其相关多态形式，其包括等位基因、变异和/或突变形式。

在一些实施例中，误差校正的测序读段，或误差校正的测序读段家族用于检测和识别相对于与第一标靶聚核苷酸有关且存在于核酸样品中的多态聚核苷酸的群体，以约0.0001-1％，或约0.001-1％，或约0.01-1％，或约0.1-1％，或约0.1-5％，或更低丰度范围的丰度水平存在于核酸样品中的第一标靶聚核苷酸。

在一些实施例中，误差校正的测序读段，或误差校正的测序读段家族用于检测和识别相对于与第二标靶聚核苷酸有关且存在于核酸样品中的多态聚核苷酸的群体，以约0.0001-1％，或约0.001-1％，或约0.01-1％，或约0.1-1％，或约0.1-5％，或更低丰度范围的丰度水平存在于核酸样品中的第二标靶聚核苷酸。

在一些实施例中，误差校正的测序读段或误差校正的测序读段家族用于检测和识别相对于核酸样品中的总聚核苷酸群体，以约0.0001-1％，或约0.001-1％，或约0.01-1％，或约0.1-1％，或约0.1-5％，或更低丰度范围的丰度水平存在于核酸样品中的第一标靶聚核苷酸。

在一些实施例中，误差校正的测序读段或误差校正的测序读段家族用于检测和识别相对于核酸样品中的总聚核苷酸群体，以约0.0001-1％，或约0.001-1％，或约0.01-1％，或约0.1-1％，或约0.1-5％，或更低丰度范围的丰度水平存在于核酸样品中的第二标靶聚核苷酸。

在一些实施例中，误差校正的测序读段，或误差校正的测序读段家族用于检测和识别约85-95％，或约95-99％，或约100％的可存在于初始核酸样品中的第一聚核苷酸的不同标靶聚核苷酸(例如包括基因变异体)。

在一些实施例中，误差校正的测序读段，或误差校正的测序读段家族用于检测和识别约85-95％，或约95-99％，或约100％的可存在于初始核酸样品中的第二聚核苷酸的不同标靶聚核苷酸(例如包括基因变异体)。

在一些实施例中，多个经标记的聚核苷酸中的第一经标记的聚核苷酸附有不同于基本上每个其它经标记的聚核苷酸的第一对标签，每一端处各一个标签。

在一些实施例中，多个经标记的聚核苷酸中的第二经标记的聚核苷酸附有不同于基本上每个其它经标记的聚核苷酸的第二对标签，每一端处各一个标签。

在一些实施例中，多个经标记的聚核苷酸中的第一经标记的聚核苷酸在每一端处附有不同标签。

在一些实施例中，多个经标记的聚核苷酸中的第二经标记的聚核苷酸在每一端处附有不同标签。

在一些实施例中，多个经标记的聚核苷酸中的第一经标记的聚核苷酸附有彼此不同的第一对标签。

在一些实施例中，多个经标记的聚核苷酸中的第二经标记的聚核苷酸附有彼此不同的第二对标签。

在一些实施例中，第一聚核苷酸通过酶接合附有第一对标签(例如第一对标签衔接子)。

在一些实施例中，第二聚核苷酸通过酶接合附有第二对标签(例如第二对标签衔接子)。

在一些实施例中，单一反应混合物中的基本上每个聚核苷酸通过酶接合在每一端处附加至至少一个标签(例如标签衔接子)。

在一些实施例中，附有至少一个标签(例如第一经标记的聚核苷酸和第二经标记的聚核苷酸)的单一反应混合物中的基本上每个聚核苷酸在附有至少一个标签的多个聚核苷酸内包括约10-30％，或约30-50％，或约50-70％，或约70-80％，或约80-90％，或约90-95％，或约95-99％的个别聚核苷酸分子。

在一些实施例中，酶接合非将第一对标签选择性地附加至第一聚核苷酸。

在一些实施例中，酶接合非将第二对标签选择性地附加至第二聚核苷酸。

举例来说，平端接合反应可用于将至少一个标签附加至来自多个聚核苷酸的个别聚核苷酸。在另一实例中，具有5'或3'外伸端的标签可使用酶接合附加至来自多个聚核苷酸的个别聚核苷酸。

在一些实施例中，第一聚核苷酸通过引物延伸反应附有第一对标签(例如每一端处各一个标签)，其中第一对标签中的一个或两个标签包括选择性地与第一标靶聚核苷酸的至少一个区域杂交的标靶特异性序列，且其中第一对标签中的一个或两个标签包括至少一个独特标签序列。任选地，第一对标签中的一个或两个标签包括不选择性地与第一标靶聚核苷酸杂交的部分。举例来说，第一对标签引物中的两个标签引物的3'区均包括选择性地与第一标靶聚核苷酸的不同部分杂交的标靶特异性序列，且任选地，第一对标签引物中的一个或两个标签引物包括含有不选择性地与第一标靶聚核苷酸杂交的独特标签序列的5'区。

在一些实施例中，第二聚核苷酸通过引物延伸反应附有第二对标签(例如每一端处各一个标签)，其中第二对标签中的一个或两个标签包括选择性地与第二标靶聚核苷酸的至少一个区域杂交的标靶特异性序列，且其中第二对标签中的一个或两个标签包括至少一个独特标签序列。任选地，第二对标签中的一个或两个标签包括不选择性地与第二标靶聚核苷酸杂交的部分。举例来说，第二对标签引物中的两个标签引物的3'区均包括选择性地与第二标靶聚核苷酸的不同部分杂交的标靶特异性序列，且任选地，第二对标签引物中的一个或两个标签引物包括含有不选择性地与第二标靶聚核苷酸杂交的独特标签序列的5'区。

在一些实施例中，引物延伸反应包含聚合酶和多个核苷酸。

在一些实施例中，至少一个标签(例如包含于第一对标签衔接子或引物中)包含具有至少一个随机序列和至少一个固定序列的随机物标签，或包含在两侧上经固定序列侧接的随机序列，或包含在两侧上经随机序列侧接的固定序列。

在一些实施例中，至少一个标签(例如包含于第二对标签衔接子或引物中)包含具有至少一个随机序列和至少一个固定序列的随机物标签，或包含在两侧上经固定序列侧接的随机序列，或包含在两侧上经随机序列侧接的固定序列。随机物标签可包括长度为2-2000个核苷酸或碱基对的固定序列。随机物标签可包括长度为2-2000个核苷酸或碱基对的随机序列。

在一些实施例中，确定步骤包括对第一经标记的扩增子中的至少两个测序。

在一些实施例中，确定步骤包括对第二经标记的扩增子中的至少两个测序。

任选地，确定步骤包括对对应于第一经标记的扩增子的一股或两股测序。

任选地，确定步骤包括对对应于第二经标记的扩增子的一股或两股测序。

任选地，确定步骤包括对第一聚核苷酸的至少一部分和/或附加至第一聚核苷酸的第一对标签中的一个或两个标签的至少一部分测序。

任选地，确定步骤包括对第二聚核苷酸的至少一部分和/或附加至第二聚核苷酸的第二对标签中的一个或两个标签的至少一部分测序。

任选地，确定步骤包括产生含有第一聚核苷酸的至少一部分和/或附加至第一聚核苷酸的第一对标签中的一个或两个标签的至少一部分的候选测序读段群体。

任选地，确定步骤包括产生含有第二聚核苷酸的至少一部分和/或附加至第二聚核苷酸的第二对标签中的一个或两个标签的至少一部分的候选测序读段群体。

任选地，确定步骤包括对误差校正的测序读段家族内的测序读段的数目计数。

在一些实施例中，本公开大体上涉及用于检测核酸样品中的第一标靶聚核苷酸和第二标靶聚核苷酸的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，包含：(a)形成含有(i)包括至少第一聚核苷酸和第二聚核苷酸的多个聚核苷酸，和(ii)包括至少第一、第二、第三和第四标签的多个标签的单一反应混合物；和(b)通过将第一标签附加至第一聚核苷酸的一端且将第二标签附加至第一聚核苷酸的另一端而在单一反应混合物内产生第一经标记的聚核苷酸，且通过将第三标签附加至第二聚核苷酸的一端且将第四标签附加至第二聚核苷酸的另一端而在单一反应混合物内产生第二经标记的聚核苷酸。在一些实施例中，核酸样品含有标靶和非标靶聚核苷酸，或不含非标靶聚核苷酸。经标记的聚核苷酸可通过进行单步标记反应或多步标记反应而产生。

第一、第二、第三和第四标签含有相同或不同通用序列。

在一些实施例中，确定步骤包括对第一标靶聚核苷酸的至少一部分和/或第一标签的至少一部分和/或第二标签的至少一部分测序，其中第一和第二标签附加至第一标靶聚核苷酸。

在一些实施例中，确定步骤包括对第二标靶聚核苷酸的至少一部分和/或第三标签的至少一部分和/或第四标签的至少一部分测序，其中第三和第四标签附加至第二标靶聚核苷酸。

在一些实施例中，确定步骤包括产生含有第一聚核苷酸的至少一部分和/或第一标签的至少一部分和/或第二标签的至少一部分的第一候选测序读段群体。

在一些实施例中，确定步骤包括产生含有第二聚核苷酸的至少一部分和/或第三标签的至少一部分和/或第四标签的至少一部分的第二候选测序读段群体。

在一些实施例中，确定步骤包括操纵第一和/或第二候选测序读段群体以产生误差校正的测序读段，例如通过应用一个或多个阈值，包括剔除、分组、计数分组读段计数家族、差分计数、模式计数和/或非目标模式阈值。任选地，操纵包括将至少一个阈值应用于候选测序读段。任选地，操纵的测序读段可用于确定特定聚核苷酸存在于初始核酸样品中，和识别特定聚核苷酸的序列。任选地，操纵的测序读段可用于检测可存在于初始核酸样品中的变异体，例如通过应用家族水平阈值和/或多家族阈值。

在一些实施例中，确定步骤包括基于标签特异性参考序列和/或基于聚核苷酸特异性参考序列，从第一和/或第二候选测序读段群体剔除一个或多个候选测序读段。候选测序读段可通过应用剔除阈值而剔除。举例来说，剔除阈值可用于保留或去除至少一个候选测序读段以产生误差校正的测序读段。任选地，剔除阈值可用于保留或去除第一候选测序读段，其对应于第一经标记的聚核苷酸，以产生误差校正的测序读段。任选地，剔除阈值可用于保留或去除第二候选测序读段，其对应于第二经标记的聚核苷酸，以产生误差校正的测序读段。

在一些实施例中，确定步骤包括将第一和/或第二候选测序读段群体的子集分组至不同的候选测序读段家族中，其中不同的候选测序读段家族包括共同标签序列。分组测序读段可用于产生误差校正的测序读段家族。候选测序读段可通过应用分组阈值而分组。举例来说，分组阈值可基于参考标签序列或参考聚核苷酸序列。分组至给定测序读段家族中的不同测序读段共用共同标签和/或聚核苷酸序列。任选地，候选测序读段可通过应用分组阈值而分组以产生第一分组测序读段家族，其中第一分组测序读段家族的成员共用共同标签和/或聚核苷酸序列。任选地，候选测序读段可通过施加分组阈值而分组以产生第二分组测序读段家族，其中第二分组测序读段家族的成员共用共同标签和/或聚核苷酸序列。

在一些实施例中，确定步骤包括使用计数分组读段阈值确定匹配(例如类似或相同于)参考序列的分组家族内的测序读段的百分比。举例来说，计数分组读段阈值可基于特定聚核苷酸序列或标签序列。当匹配(例如类似或相同于)参考序列的分组家族内的测序读段的百分比符合或超过计数分组读段阈值时，接着可推断测序读段为真阳性测序读段密切具有所述序列的聚核苷酸存在于初始核酸样品中。任选地，第一分组测序读段家族可经受计数分组读段阈值以确定匹配(例如相同或类似于)参考序列的第一分组测序读段的百分比，以便确定第一分组测序读段家族是否含有真阳性测序读段。任选地，第二分组测序读段家族可经受计数分组读段阈值以确定匹配(例如类似或相同于)参考序列的第二分组测序读段的百分比，以便确定第二分组测序读段家族是否含有真阳性测序读段。

在一些实施例中，在单一反应混合物中进行附加步骤，其中第一标签附加至第一聚核苷酸的一端且第二标签附加至第一聚核苷酸的另一端。

在一些实施例中，在单一反应混合物中进行附加步骤，其中第三标签附加至第二聚核苷酸的一端且第四标签附加至第二聚核苷酸的另一端。

在一些实施例中，单一反应混合物中的多个寡核苷酸标签检测到核酸样品中存在5-100个，或100-200个，或200-300个，或300-400个，或400-500个或更多个不同不同的标靶聚核苷酸。

在一些实施例中，核酸样品含有约0.001ng-100μg，或约1-500ng聚核苷酸，其包括标靶和非标靶聚核苷酸，或核酸样品不含非标靶聚核苷酸。

在一些实施例中，核酸样品含有多个第一标靶聚核苷酸，包括野生型形式和其相关多态形式，其包括等位基因、变异和/或突变形式。

在一些实施例中，核酸样品含有多个第二标靶聚核苷酸，包括野生型形式和其相关多态形式，其包括等位基因、变异和/或突变形式。

在一些实施例中，误差校正的测序读段，或误差校正的测序读段家族用于检测和识别相对于与第一标靶聚核苷酸有关且存在于核酸样品中的多态聚核苷酸的群体，以约0.0001-1％，或约0.001-1％，或约0.01-1％，或约0.1-1％，或更低丰度范围的丰度水平存在于核酸样品中的第一标靶聚核苷酸。

在一些实施例中，误差校正的测序读段用于检测和识别约85-95％，或约95-99％，或约100％的可存在于初始核酸样品中的第一聚核苷酸的不同标靶聚核苷酸(例如包括基因变异体)。

在一些实施例中，误差校正的测序读段用于检测和识别约85-95％，或约95-99％，或约100％的可存在于初始核酸样品中的第二聚核苷酸的不同标靶聚核苷酸(例如包括基因变异体)。

在一些实施例中，多个经标记的聚核苷酸中的第一经标记的聚核苷酸附有不同于附加至基本上每个其它经标记的聚核苷酸的其它标签的第一和第二标签。

在一些实施例中，多个经标记的聚核苷酸中的第二经标记的聚核苷酸附有不同于附加至基本上每个其它经标记的聚核苷酸的其它标签的第三和第四标签。

在一些实施例中，酶接合将第一和第二标签非选择性地附加至第一聚核苷酸。

在一些实施例中，酶接合将第三和第四标签非选择性地附加至第二聚核苷酸。

在一些实施例中，第一标靶聚核苷酸通过使用第一和第二标签引物的引物延伸反应附有第一和第二标签引物，其中第一和第二标签引物包括选择性地与核酸样品内的第一标靶聚核苷酸的至少一个区域杂交的标靶特异性序列，且第一标签引物包括至少一个第一独特标签序列且第二标签引物包括至少一个第二独特标签序列。第一和第二标签引物可与第一标靶聚核苷酸的不同区域杂交。任选地，第一标签引物包括不选择性地与第一标靶聚核苷酸杂交的部分。任选地，第二标签引物包括不选择性地与第一标靶聚核苷酸杂交的部分。举例来说，第一和第二标签引物的3'区包括选择性地与第一标靶聚核苷酸的不同部分杂交的标靶特异性序列，且第一和/或第二标签引物包括含有不选择性地与第一标靶聚核苷酸杂交的独特标签序列的5'区。

在一些实施例中，第二标靶聚核苷酸通过使用第三和第四标签引物的引物延伸反应附有第三和第四标签引物，其中第三和第四标签引物包括选择性地与核酸样品内的第二标靶聚核苷酸的至少一个区域杂交的标靶特异性序列，且第三标签引物包括至少一个第三独特标签序列且第四标签引物包括至少一个第四独特标签序列。第三和第四标签引物可与第二标靶聚核苷酸的不同区域杂交。任选地，第一标签引物包括不选择性地与第二标靶聚核苷酸杂交的部分。任选地，第二标签引物包括不选择性地与第二标靶聚核苷酸杂交的部分。举例来说，第三和第四标签引物的3'区包括选择性地与第二标靶聚核苷酸的不同部分杂交的标靶特异性序列，且第三和/或第四标签引物包括含有不选择性地与第二标靶聚核苷酸杂交的独特标签序列的5'区。

在一些实施例中，引物延伸反应包含聚合酶和多个核苷酸。

在一些实施例中，多个聚核苷酸的子集(其中子集包括第一标靶聚核苷酸)通过引物延伸在每一端处选择性地附加至至少一个标签。

在一些实施例中，多个聚核苷酸的子集(其中子集包括第二标靶聚核苷酸)通过引物延伸在每一端处选择性地附加至至少一个标签。

在一些实施例中，标签包括至少一个随机序列穿插有固定序列的序列。在一些实施例中，多个标签中的个别标签，包括第一、第二、第三和第四标签具有结构(N)_n(X)_x(M)_m(Y)_y的区域，且(i)其中“N”表示产生自A、G、C、T、U或I的随机标签序列，且其中“n”为2-10，其表示“N”随机标签序列的核苷酸长度；(ii)其中“X”表示固定标签序列，且其中“x”为2-10，其表示“X”随机标签序列的核苷酸长度；(iii)其中“M”表示产生自A、G、C、T、U或I的随机标签序列，其中随机标签序列“M”与随机标签序列“N”不同或相同，且其中“m”为2-10，其表示“M”随机标签序列的核苷酸长度；且(iv)其中“Y”表示固定标签序列，其中“Y”的固定标签序列与“X”的固定标签序列相同或不同，且其中“y”为2-10，其表示“Y”随机标签序列的核苷酸长度。在一些实施例中，固定标签序列“X”在多个标签中相同。在一些实施例中，固定标签序列“X”在多个标签中不同。在一些实施例中，固定标签序列“Y”在多个标签中相同。在一些实施例中，固定标签序列“Y”在多个标签中不同。在一些实施例中，多个单链引物内的固定标签序列“(X)_x”和“(Y)_y”为序列比对锚。

在一些实施例中，本公开大体上涉及用于检测核酸样品中的第一标靶聚核苷酸和第二标靶聚核苷酸的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，包含：(a)提供含有多个聚核苷酸的核酸样品，其包括标靶和非标靶聚核苷酸，或不含非标靶聚核苷酸；(b)通过将至少一个独特标签附加至来自多个聚核苷酸的个别聚核苷酸分子而产生多个经标记的聚核苷酸(例如亲代经标记的聚核苷酸)，其中所述附加是在单一反应混合物内进行；(c)通过扩增多个经标记的聚核苷酸产生经标记的扩增子，其中经标记的扩增子为产生自亲代经标记的聚核苷酸的后代分子；(d)确定至少一些经标记的扩增子的序列以产生候选测序读段群体；(e)基于标签特异性参考序列和/或基于聚核苷酸特异性参考序列，通过从候选测序读段群体去除一个或多个候选测序读段而剔除至少一些候选测序读段，以产生误差校正的测序读段家族；(f)将误差校正的测序读段家族的子集分组至不同候选测序读段家族中，其中不同候选测序读段家族中的每一个包括对于给定候选测序读段家族来说独特的共同标签序列；和(g)通过使用误差校正的测序读段家族确定给定聚核苷酸存在于核酸样品中。在一些实施例中，个别聚核苷酸使用单步或多步(例如两步)标记程序附有独特标签序列和通用标签序列。举例来说，单步标记程序包括使用含有独特标签序列和通用序列的标签进行接合或引物延伸反应。两步标记程序包括使用含有独特标签序列或通用序列的标签进行第一接合或引物延伸反应，和使用含有独特标签序列或通用序列的标签进行后续接合或引物延伸反应。在一些实施例中，独特标签包括包含至少一个随机序列和至少一个固定序列的随机物序列(例如随机物标签)，或包含在两侧上经固定序列侧接的随机序列，或包含在两侧上经随机序列侧接的固定序列。随机物标签内的随机序列由“N”表示，且固定序列由“X”表示。随机物标签可包括长度为2-2000个核苷酸或碱基对的固定序列。随机物标签可包括长度为2-2000个核苷酸或碱基对的随机序列。因此，随机物标签可由N₁N₂N₃X₁X₂X₃或N₁N₂N₃X₁X₂X₃N₄N₅N₆X₄X₅X₆表示。任选地，随机物标签可具有随机序列，其中核苷酸位置中的一些或全部可随机选自由以下组成的群组：A、G、C、T、U和I。举例来说，随机序列内的每个位置的核苷酸可独立地选自A、G、C、T、U或I中的任一个，或可选自这六种不同类型的核苷酸的子集。任选地，随机序列内的每个位置的核苷酸可独立地选自A、G、C或T中的任一个。在一些实施例中，随机物标签包含序列5'-NNNACTNNNTGA-3'(SEQ ID NO:1)，其中“N”表示随机产生自A、G、C或T的随机序列内的位置。在一些实施例中，随机物标签序列内的固定序列可充当用于产生误差校正的测序数据，包括产生误差校正的测序读段家族的序列比对锚。在一些实施例中，随机物标签序列不用于校正任何测序读段，而是替代地丢弃含有误差(例如随机物标签序列中的误差)的候选测序读段。

在一些实施例中，本公开大体上涉及用于检测核酸样品中的第一标靶聚核苷酸和第二标靶聚核苷酸的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，包含：(a)提供含有多个聚核苷酸的核酸样品，其包括标靶和非标靶聚核苷酸，或不含非标靶聚核苷酸；(b)通过将至少一个独特标签附加至来自多个聚核苷酸的个别聚核苷酸分子而产生多个经标记的聚核苷酸(例如亲代经标记的聚核苷酸)，其中所述附加是在单一反应混合物内进行；(c)通过扩增多个经标记的聚核苷酸产生经标记的扩增子，其中经标记的扩增子为产生自亲代经标记的聚核苷酸的后代分子；(d)确定至少一些经标记的扩增子的序列以产生候选测序读段群体；(e)基于标签特异性参考序列和/或基于聚核苷酸特异性参考序列，通过从候选测序读段群体去除一个或多个候选测序读段而剔除至少一些候选测序读段，以产生误差校正的测序读段家族；(f)将误差校正的测序读段家族的子集分组至不同候选测序读段家族中，其中不同候选测序读段家族中的每一个包括对于给定候选测序读段家族来说独特的共同标签序列；和(g)通过使用误差校正的测序读段家族确定给定聚核苷酸存在于核酸样品中。在一些实施例中，个别聚核苷酸使用单步或多步(例如两步)标记程序附有独特标签序列和通用标签序列。举例来说，单步标记程序包括使用含有独特标签序列和通用序列的标签进行接合或引物延伸反应。两步标记程序包括使用含有独特标签序列或通用序列的标签进行第一接合或引物延伸反应，和使用含有独特标签序列或通用序列的标签进行后续接合或引物延伸反应。在一些实施例中，独特标签包括包含至少一个随机序列和至少一个固定序列的随机物序列(例如随机物标签)，或包含在两侧上经固定序列侧接的随机序列，或包含在两侧上经随机序列侧接的固定序列。随机物标签内的随机序列由“N”表示，且固定序列由“X”表示。随机物标签可包括长度为2-2000个核苷酸或碱基对的固定序列。随机物标签可包括长度为2-2000个核苷酸或碱基对的随机序列。因此，随机物标签可由N₁N₂N₃X₁X₂X₃或N₁N₂N₃X₁X₂X₃N₄N₅N₆X₄X₅X₆表示。任选地，随机物标签可具有随机序列，其中核苷酸位置中的一些或全部可随机选自由以下组成的群组：A、G、C、T、U和I。举例来说，随机序列内的每个位置的核苷酸可独立地选自A、G、C、T、U或I中的任一个，或可选自这六种不同类型的核苷酸的子集。任选地，随机序列内的每个位置的核苷酸可独立地选自A、G、C或T中的任一个。在一些实施例中，随机物标签包含序列5'-NNNACTNNNTGA-3'(SEQ ID NO:1)，其中“N”表示随机产生自A、G、C或T的随机序列内的位置。在一些实施例中，随机物标签序列内的固定序列可充当用于产生误差校正的测序数据，包括产生误差校正的测序读段家族的序列比对锚。在一些实施例中，随机物标签序列不用于校正任何测序读段，而是替代地丢弃含有误差(例如随机物标签序列中的误差)的候选测序读段。在一些实施例中，剔除步骤包括从候选测序读段集去除错误标记的测序读段。在一些情况下，给定测序读段家族可包括错误标记的测序读段，其包括共同标签序列，但由于标签附加误差，包括由标签衔接子接合或标签引物延伸引起的误差，或其它误差而对应于标靶聚核苷酸或非标靶聚核苷酸的不同区域。错误标记的测序读段将包括一个或多个碱基位置，其中核苷酸不同于参考聚核苷酸序列或正确标记的测序读段。

在一些实施例中，剔除步骤包括通过比较测序读段与标靶聚核苷酸的参考序列和应用差分计数阈值而识别错误标记的测序读段。举例来说，确定在测序读段与参考聚核苷酸之间不同的核苷酸的数目且比较所述数目与差分计数阈值可识别错误标记的测序读段。可保留或去除错误标记的测序读段。将差分计数阈值应用至候选测序读段集且去除识别的错误标记的测序读段可产生具有降低的误差率的测序读段集。

在一些实施例中，剔除步骤包括通过比较测序读段与其它测序读段和应用模式计数阈值而识别具有常见模式的变异体的错误标记的测序读段。举例来说，确定多个在聚核苷酸序列中具有常见模式的变异体的测序读段且比较所述数目与模式计数阈值可识别错误标记的测序读段组。可保留或去除错误标记的测序读段。将模式计数阈值应用至候选测序读段集且去除识别的错误标记的测序读段可产生具有降低的误差率的测序读段集。

在一些实施例中，剔除步骤包括通过比较测序读段与标靶聚核苷酸的参考序列和应用差分计数阈值而识别候选错误标记的测序读段。比较候选错误标记的测序读段与一个或多个其它识别的候选错误标记的测序读段且应用模式计数阈值可检测可存在于候选错误标记的序列中的常见模式的变异体。举例来说，确定多个在聚核苷酸序列中具有特定模式的变异体的候选错误标记的测序读段且比较所述数目与模式计数阈值可识别错误标记的测序读段组。可保留或去除错误标记的测序读段。将差分计数阈值和模式计数阈值应用至候选测序读段集且去除识别的错误标记的测序读段可产生具有降低的误差率的测序读段集。

在一些实施例中，剔除步骤包括通过比较候选错误标记的测序读段中的差异模式与标靶聚核苷酸的参考序列与非标靶聚核苷酸的预期序列或标靶聚核苷酸的不同区域之间的预期差异模式而识别错误标记的测序读段。举例来说，可预定标靶聚核苷酸的参考序列与非标靶聚核苷酸的预期序列之间的预期差异模式且存储在查询表中。任选地，比较测序读段与参考序列且应用差分计数阈值可识别候选错误标记的测序读段。比较候选错误标记的测序读段中的差异模式与预期差异模式且应用非目标模式阈值可识别错误标记的测序读段。可保留或去除错误标记的测序读段。将非目标模式阈值应用至候选测序读段集且去除识别的错误标记的测序读段可产生具有降低的误差率的测序读段集。

在一些实施例中，本公开大体上涉及用于检测核酸样品中的第一标靶聚核苷酸和第二标靶聚核苷酸的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，包含：(a)提供含有多个聚核苷酸的核酸样品，其包括标靶和非标靶聚核苷酸，或不含非标靶聚核苷酸；(b)通过将至少一个独特标签附加至来自多个聚核苷酸的个别聚核苷酸分子而产生多个经标记的聚核苷酸(例如亲代经标记的聚核苷酸)，其中所述附加是在单一反应混合物内进行；(c)通过扩增多个经标记的聚核苷酸产生经标记的扩增子，其中经标记的扩增子为产生自亲代经标记的聚核苷酸的后代分子；(d)确定至少一些经标记的扩增子的序列以产生候选测序读段群体；(e)将误差校正的测序读段家族的子集分组至不同候选测序读段家族中，其中不同候选测序读段家族中的每一个包括对于给定候选测序读段家族来说独特的共同标签序列；(f)基于标签特异性参考序列和/或基于聚核苷酸特异性参考序列，通过从候选测序读段家族去除一个或多个候选测序读段而剔除候选测序读段家族中的至少一个，以产生误差校正的测序读段家族；和(g)通过使用误差校正的测序读段家族确定给定聚核苷酸存在于核酸样品中。在一些实施例中，个别聚核苷酸使用单步或多步(例如两步)标记程序附有独特标签序列和通用标签序列。举例来说，单步标记程序包括使用含有独特标签序列和通用序列的标签进行接合或引物延伸反应。两步标记程序包括使用含有独特标签序列或通用序列的标签进行第一接合或引物延伸反应，和使用含有独特标签序列或通用序列的标签进行后续接合或引物延伸反应。在一些实施例中，独特标签包括包含至少一个随机序列和至少一个固定序列的随机物序列(例如随机物标签)，或包含在两侧上经固定序列侧接的随机序列，或包含在两侧上经随机序列侧接的固定序列。随机物标签内的随机序列由“N”表示，且固定序列由“X”表示。随机物标签可包括长度为2-2000个核苷酸或碱基对的固定序列。随机物标签可包括长度为2-2000个核苷酸或碱基对的随机序列。因此，随机物标签可由N₁N₂N₃X₁X₂X₃或N₁N₂N₃X₁X₂X₃N₄N₅N₆X₄X₅X₆表示。任选地，随机物标签可具有随机序列，其中核苷酸位置中的一些或全部可随机选自由以下组成的群组：A、G、C、T、U和I。举例来说，随机序列内的每个位置的核苷酸可独立地选自A、G、C、T、U或I中的任一个，或可选自这六种不同类型的核苷酸的子集。任选地，随机序列内的每个位置的核苷酸可独立地选自A、G、C或T中的任一个。在一些实施例中，随机物标签包含序列5'-NNNACTNNNTGA-3'(SEQ ID NO:1)，其中“N”表示随机产生自A、G、C或T的随机序列内的位置。在一些实施例中，随机物标签序列内的固定序列可充当用于产生误差校正的测序数据，包括产生误差校正的测序读段家族的序列比对锚。在一些实施例中，随机物标签序列不用于校正任何测序读段，而是替代地丢弃含有误差(例如随机物标签序列中的误差)的候选测序读段。

在一些实施例中，本公开大体上涉及用于检测核酸样品中的第一标靶聚核苷酸和第二标靶聚核苷酸的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，包含：(a)提供含有多个聚核苷酸的核酸样品，其包括标靶和非标靶聚核苷酸，或不含非标靶聚核苷酸；(b)通过将至少一个独特标签附加至来自多个聚核苷酸的个别聚核苷酸分子而产生多个经标记的聚核苷酸(例如亲代经标记的聚核苷酸)，其中所述附加是在单一反应混合物内进行；(c)通过扩增多个经标记的聚核苷酸产生经标记的扩增子，其中经标记的扩增子为产生自亲代经标记的聚核苷酸的后代分子；(d)确定至少一些经标记的扩增子的序列以产生候选测序读段群体；(e)将误差校正的测序读段家族的子集分组至不同候选测序读段家族中，其中不同候选测序读段家族中的每一个包括对于给定候选测序读段家族来说独特的共同标签序列；(f)基于标签特异性参考序列和/或基于聚核苷酸特异性参考序列，通过从候选测序读段家族去除一个或多个候选测序读段而剔除候选测序读段家族中的至少一个，以产生误差校正的测序读段家族；和(g)通过使用误差校正的测序读段家族确定给定聚核苷酸存在于核酸样品中。在一些实施例中，个别聚核苷酸使用单步或多步(例如两步)标记程序附有独特标签序列和通用标签序列。举例来说，单步标记程序包括使用含有独特标签序列和通用序列的标签进行接合或引物延伸反应。两步标记程序包括使用含有独特标签序列或通用序列的标签进行第一接合或引物延伸反应，和使用含有独特标签序列或通用序列的标签进行后续接合或引物延伸反应。在一些实施例中，独特标签包括包含至少一个随机序列和至少一个固定序列的随机物序列(例如随机物标签)，或包含在两侧上经固定序列侧接的随机序列，或包含在两侧上经随机序列侧接的固定序列。随机物标签内的随机序列由“N”表示，且固定序列由“X”表示。随机物标签可包括长度为2-2000个核苷酸或碱基对的固定序列。随机物标签可包括长度为2-2000个核苷酸或碱基对的随机序列。因此，随机物标签可由N₁N₂N₃X₁X₂X₃或N₁N₂N₃X₁X₂X₃N₄N₅N₆X₄X₅X₆表示。任选地，随机物标签可具有随机序列，其中核苷酸位置中的一些或全部可随机选自由以下组成的群组：A、G、C、T、U和I。举例来说，随机序列内的每个位置的核苷酸可独立地选自A、G、C、T、U或I中的任一个，或可选自这六种不同类型的核苷酸的子集。任选地，随机序列内的每个位置的核苷酸可独立地选自A、G、C或T中的任一个。在一些实施例中，随机物标签包含序列5'-NNNACTNNNTGA-3'(SEQ ID NO:1)，其中“N”表示随机产生自A、G、C或T的随机序列内的位置。在一些实施例中，随机物标签序列内的固定序列可充当用于产生误差校正的测序数据，包括产生误差校正的测序读段家族的序列比对锚。在一些实施例中，随机物标签序列不用于校正任何测序读段，而是替代地丢弃含有误差(例如随机物标签序列中的误差)的候选测序读段。在一些实施例中，剔除步骤包括从分组的候选测序读段家族去除错误标记的测序读段。在一些情况下，给定测序读段家族可包括错误标记的测序读段，其包括共同标签序列，但由于标签附加误差，包括由标签衔接子接合或标签引物延伸引起的误差，或其它误差而对应于标靶聚核苷酸或非标靶聚核苷酸的不同区域。错误标记的测序读段将包括一个或多个碱基位置，其中核苷酸不同于参考聚核苷酸序列或正确标记的测序读段。

在一些实施例中，剔除步骤包括通过比较测序读段与标靶聚核苷酸的参考序列和应用差分计数阈值而识别错误标记的测序读段。举例来说，确定在测序读段与参考聚核苷酸之间不同的核苷酸的数目且比较所述数目与差分计数阈值可识别错误标记的测序读段。可保留或去除错误标记的测序读段。将差分计数阈值应用至分组测序读段家族且去除识别的错误标记的测序读段可产生具有降低的误差率的测序读段家族。

在一些实施例中，剔除步骤包括通过比较测序读段与其它测序读段和应用模式计数阈值而识别具有常见模式的变异体的错误标记的测序读段。举例来说，确定多个在聚核苷酸序列中具有常见模式的变异体的测序读段且比较所述数目与模式计数阈值可识别错误标记的测序读段组。可保留或去除错误标记的测序读段。将模式计数阈值应用至分组测序读段家族且去除识别的错误标记的测序读段可产生具有降低的误差率的测序读段家族。

在一些实施例中，剔除步骤包括通过比较测序读段与标靶聚核苷酸的参考序列和应用差分计数阈值而识别候选错误标记的测序读段。比较候选错误标记的测序读段与一个或多个其它识别的候选错误标记的测序读段且应用模式计数阈值可检测可存在于候选错误标记的序列中的常见模式的变异体。举例来说，确定多个在聚核苷酸序列中具有特定模式的变异体的候选错误标记的测序读段且比较所述数目与模式计数阈值可识别错误标记的测序读段组。可保留或去除错误标记的测序读段。将差分计数阈值和模式计数阈值应用至分组测序读段家族且去除识别的错误标记的测序读段可产生具有降低的误差率的测序读段家族。

在一些实施例中，剔除步骤包括通过比较候选错误标记的测序读段中的差异模式与标靶聚核苷酸的参考序列与非标靶聚核苷酸的预期序列或标靶聚核苷酸的不同区域之间的预期差异模式而识别错误标记的测序读段。举例来说，可预定标靶聚核苷酸的参考序列与非标靶聚核苷酸的预期序列之间的预期差异模式且存储在查询表中。任选地，比较测序读段与参考序列且应用差分计数阈值可识别候选错误标记的测序读段。比较候选错误标记的测序读段中的差异模式与预期差异模式且应用非目标模式阈值可识别错误标记的测序读段。可保留或去除错误标记的测序读段。将非目标模式阈值应用至分组测序读段家族且去除识别的错误标记的测序读段可产生具有降低的误差率的测序读段家族。

在一些实施例中，本教示内容中描述的分子标记方法可用于检测拷贝数变异，包括非整倍性，如单体性、三体性或更高阶的非整倍性。以具有基因型BC和BB的亲代，和携有复制基因型BBC的其后代为例。在一些实施例中，聚核苷酸样品可获自亲代和其后代(例如来自血液或组织样品的cfDNA或DNA)，且三个样品中的每一个分别使用独特标签库和识别/区分获自亲代或后代的聚核苷酸的样品特异性条形码标签而经受本教示内容中描述的分子标记方法。三个分别经标记的样品可合并在一起且经测序以产生测序数据(例如测序读段)。举例来说，经标记的样品可使用大规模平行测序方法或采用凝胶电泳或微阵列的方法测序。测序读段可通过应用剔除、分选、分组、对分组读段计数、对读段家族计数和其它操纵步骤操纵，以产生误差校正的测序数据。对于异型接合亲代BC，可计数和比较与标靶序列等位基因-B和标靶序列等位基因-C相关的独特标签序列的数目。对于BC亲代，B与C等位基因的预期比率为大致1:1，因为总等位基因计数的一半来自等位基因-B且一半来自等位基因-C。在对于BB亲代的类似分析中，可计数和比较与等位基因-B相关的独特标签序列的数目。由于BB亲代为同型接合的，B与C等位基因的预期比率为2:0，因为所有的等位基因计数来自等位基因-B。对于非整倍体后代，可计数和比较与等位基因-B和等位基因-C相关的独特标签序列的数目。B与C等位基因的预期比率为2:1，因为等位基因-B和等位基因-C中的一个促进等位基因计数且额外等位基因-B也促进等位基因计数。

在一些实施例中，本公开大体上涉及用于将独特识别标签，包括本文所述的随机物标签中的任一个与任何类型的大分子附接的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体。经标记的大分子可适用于将不同的经标记的大分子彼此区分，且准许在工作流或大分子的混合物中追踪个别经标记的大分子。举例来说，经标记的大分子包括糖、碳水化合物、脂质、磷脂、寡核苷酸、聚核苷酸、肽、多肽、肽和激素。大分子还包括候选药物、前药、药物、候选药品和药物代谢物。大分子包括抗体、抗原、细胞-信号传导分子、血清蛋白、糖蛋白、胆固醇、糖脂、多糖、凝血素、生长因子、细胞因子、类固醇和维生素。随机物标签包括各种形式，如单链寡核苷酸引物和双链衔接子。随机物标签含有至少一个穿插有固定序列的随机序列，包括在两侧上经固定序列侧接的随机序列，或在两侧上经随机序列侧接的固定序列。随机物标签可使用所属领域的技术人员众所周知的程序附接至大分子，其包括使用糖的化学修饰来产生携有一种或多种经修饰2'糖，如2'-氟、2'-O-甲基、2'-甲氧基乙基取代基和双环糖锁核酸(LNA)的寡核苷酸以制造寡核苷酸-肽共轭物。其它产生寡核苷酸-肽共轭物的方法包括使用肽核酸(PNA)或引入(2-氨乙基)-甘氨酸肽主链且置换对应核糖或脱氧核糖环。许多方法由于将寡核苷酸共轭至大分子而众所周知(美国专利第6,444,806号；美国公布申请第2010/0167290号和第2004/0038331号；Winkler 2013《治疗交付(Therapeutic Delivery)》4(7):791-809，以及Juliano,Ming和Nakagawa 2012《化学研究评述(Accounts of Chemical Research)》45(7):1067-1076)。

在一些实施例中，本公开大体上涉及用于进行富集程序以富集标靶聚核苷酸的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体。在一些实施例中，富集程序可在标签附加程序之前或之后进行。

举例来说，富集可包括固相捕获程序以富集标靶聚核苷酸。在一些实施例中，标靶聚核苷酸可通过将核酸样品(例如其含有至少一个标靶聚核苷酸)与附接至支撑物(例如平面支撑物或珠粒)的捕获引物杂交而选择性地捕获。核酸样品中的聚核苷酸可包括至少一个附加至一端或两端的通用序列，或核酸不具有通用序列。支撑物可包括具有相同序列或不同引物序列的固定捕获引物。附接至支撑物的捕获引物可与核酸样品在适合于与标靶聚核苷酸的一部分或与通用序列的一部分选择性地杂交的条件下接触。非杂交聚核苷酸可任选地通过洗涤或通过酶降解去除，且标靶聚核苷酸保持与捕获引物杂交。捕获的聚核苷酸可任选地从支撑物洗脱。洗脱的聚核苷酸可经受本教示内容中描述的任一分子标记程序以产生经标记的聚核苷酸。

在另一实例中，富集可包括溶液中捕获程序以富集标靶聚核苷酸。在一些实施例中，标靶聚核苷酸可通过将核酸样品(例如其含有至少一个标靶聚核苷酸)与可溶捕获引物杂交而选择性地捕获。任选地，可溶捕获引物附接至亲和力部分(例如生物素)。核酸样品中的聚核苷酸可包括至少一个附加至一端或两端的通用序列，或核酸不具有通用序列。可溶捕获引物可包括相同序列或不同序列。可溶捕获引物可与核酸样品在适合于与标靶聚核苷酸的一部分或通用序列的一部分选择性地杂交的条件下接触。非杂交聚核苷酸可任选地通过洗涤或通过酶降解去除，且标靶聚核苷酸保持与可溶捕获引物杂交。捕获的聚核苷酸可任选地从可溶捕获引物洗脱。洗脱的聚核苷酸可经受本教示内容中描述的任一分子标记程序以产生经标记的聚核苷酸。任选地，捕获的聚核苷酸可通过使附接至可溶捕获引物的亲和力部分(例如生物素)与其同源亲和力受体(例如抗生物素蛋白样分子)接触以形成可溶捕获引物/亲和力络合物而从非捕获聚核苷酸去除。可溶捕获引物/亲和力络合物可经洗涤以去除非捕获聚核苷酸。如果同源亲和力受体附接至顺磁珠粒，那么可溶捕获引物/亲和力络合物可使用磁性源吸引顺磁珠粒而从非捕获聚核苷酸去除。

在一些实施例中，本公开大体上涉及用于向聚核苷酸附加至少一个标签的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体。至少一个标签可附加至聚核苷酸以产生经标记的聚核苷酸。经标记的聚核苷酸含有与至少一个标签共价或非共价接合或连接的聚核苷酸。聚核苷酸可经由共价、离子、氢、偶极子-偶极子、亲水性、疏水性、亲和力键结或涉及范德华力(van der Waals force)的键结或缔合而附加至至少一个标签。

在一些实施例中，至少一种含有一个或多个标签序列的引物可通过与聚核苷酸杂交而附加至聚核苷酸。举例来说，引物可为具有与聚核苷酸的一部分杂交的标靶特异性3'区，和不与聚核苷酸杂交的5'区域(5'尾)的加尾引物。5'尾可包括至少一个标签序列。

在一些实施例中，至少一个标签可通过进行引物延伸反应，例如使用一个或多个引物、至少一种类型的聚合酶和多个核苷酸而附加至聚核苷酸。引物可包括至少一个标签序列(例如独特标签序列)。引物可包括可选择性地与聚核苷酸的一部分(例如引物的3'区中的标靶特异性序列)杂交的区域。引物还可包括经设计以展现与聚核苷酸的一部分(例如引物的5'区中的非标靶特异性序列)的最小杂交的区域。举例来说，引物可以是加尾引物。引物可包括5'尾区中的至少一个标签序列。

在一些实施例中，至少一个含有一个或多个标签的衔接子可经由酶接合，例如使用DNA接合酶，包括T4DNA接合酶、T7DNA接合酶、Taq接合酶、来自Quick LigaseTM试剂盒(New England Biolabs)或ElectroLigaseTM(New England Biolabs)的接合酶附加至聚核苷酸。在一些实施例中，至少一个含有一个或多个标签的衔接子可经由酶接合，例如使用RNA，包括T4RNA接合酶1或2、T4接合酶2截短型(例如K227Q或KQ)或热稳定AppDNA/RNA接合酶附加至聚核苷酸。

在一些实施例中，转座子介导的标签化反应可用于将随机位置处的标签序列插入至聚核苷酸中，且在聚核苷酸中进行双链切断，以产生在一端或两端附有至少一个标签的聚核苷酸片段。举例来说，转座子络合物可由使聚核苷酸与结合至两个各自含有至少一个标签的转座子末端序列的转座酶接触形成。转座子络合物可在准许发生标签化反应的条件下培育。转座酶和转座子末端序列可衍生自MuA(美国申请第13/553,395号和第14/480,419号，或PCT申请第PCT/EP2014/079473号，或美国专利第6,593,113号)或Tn5(美国公布申请第2014/0162897号；第2014/0031261号；第2013/0196860号；第2011/0287435号；和第2010/0120098号)。

在一些实施例中，至少一个标签可通过结合搭配物之间的相互作用附加至聚核苷酸。举例来说，生物素标记的标签可结合共轭至抗生蛋白链菌素的聚核苷酸，或聚核苷酸可经生物素标记且标签可共轭至抗生蛋白链菌素。生物素/抗生蛋白链菌素结合搭配物可经许多其它结合搭配物中的一种取代。

在一些实施例中，本公开大体上涉及用于检测基因变异体、识别基因变异体和/或产生误差校正的测序数据的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，其使用体外转座子介导的片段化和标记(例如“标签化”)向聚核苷酸附加至少一个标签。

在一些实施例中，本公开大体上涉及用于在体外反应中对来自核酸样品的核酸片段化和标记的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，包含：(a)提供多个转座体络合物，包括第一和第二转座体络合物，其中个别转座体络合物包括(i)多个转座酶，(ii)第一转座子末端序列，其中第一转座子末端序列能够结合至来自多个转座酶的转座酶且包括具有与固定标签序列相间的不同随机标签序列的第一标签序列，且其中第一转座子末端序列任选地含有至少一个缺口、间隙、脱嘌呤位点或脱嘧啶位点，(iii)第二转座子末端序列，其中第二转座子末端序列能够结合至来自多个转座酶的转座酶且包括具有与固定标签序列相间的不同随机标签序列的第二标签序列，且其中第二转座子末端序列任选地含有至少一个缺口、间隙、脱嘌呤位点或脱嘧啶位点，且其中第一和第二标签序列含有不同随机标签序列。

在一些实施例中，对核酸片段化和标记的方法进一步包含：在单一反应混合物中使多个转座体络合物与来自包括至少第一标靶聚核苷酸的核酸样品的多个聚核苷酸接触，其中所述接触在适合于(i)将多个转座体络合物转置到多个聚核苷酸中，包括将第一和第二转座子末端序列或第一和第二转座体络合物(分别)转置到第一标靶聚核苷酸的不同位置中，(ii)且对多个聚核苷酸片段化，包括对第一标靶聚核苷酸片段化的条件下进行。

在一些实施例中，方法进一步包含：(c)产生多个在两端处附有不同标签序列的经标记的聚核苷酸，其中多个经标记的聚核苷酸中的至少两个附有彼此不同的标签序列。产生于单一反应混合物中的多个经标记的聚核苷酸包括第一经标记的聚核苷酸，其中第一经标记的标靶聚核苷酸通过将第一转座子末端序列转置到第一位置处的第一标靶聚核苷酸中且对其片段化且将第一转座子末端序列附接至片段化的第一标靶聚核苷酸的末端，且通过将第二转座子末端序列转置到第二位置处的第一标靶聚核苷酸中且对其片段化且将第二转座子末端序列附接至片段化的第一标靶聚核苷酸的另一端而产生，其中多个经标记的聚核苷酸包括具有至少一个缺口、间隙、脱嘌呤位点或脱嘧啶位点的第一转座子末端序列，且第二末端具有至少一个缺口、间隙、脱嘌呤位点或脱嘧啶位点。

在一些实施例中，(i)第一转座体络合物包括第一对双链转座子末端序列，其中第一对中的双链转座子末端序列具有第一随机标签序列；且(ii)第二转座体络合物包括第二对双链转座子末端序列，其中第二对中的双链转座子末端序列具有第二随机标签序列，且其中第一随机标签序列不同于第二随机标签序列。

在一些实施例中，方法进一步包含：(d)通过扩增多个经标记的聚核苷酸产生经标记的扩增子的群体，包括通过扩增第一经标记的标靶聚核苷酸产生第一经标记的扩增子的群体。

在一些实施例中，方法进一步包含：(e)对经标记的扩增子的群体测序，所述测序包含对标靶聚核苷酸区域和附加于其上的标签测序，包括对第一经标记的扩增子的群体测序，所述测序包含对第一标靶聚核苷酸区域和附加的第一和第二标签区域测序。

在一些实施例中，方法进一步包含：(f)确定第一标靶聚核苷酸以0.05-5％的丰度水平存在于核酸样品中。

在一些实施例中，WO 2015/113725中描述的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体可用于产生具有MuA或Tn5转座体的转座体络合物群体，且个别转座体络合物含有两个双链转座子末端序列，其中每个双链转座子末端序列包括至少一个穿插有固定序列的随机序列，且具有结构(N)_n(X)_x(M)_m(Y)_y。举例来说，双链转座子末端序列包括结构(N)_n(X)_x(M)_m(Y)_y的区域，且(i)其中“N”表示产生自A、G、C、T、U或I的随机标签序列，且其中“n”为2-10，其表示“N”随机标签序列的核苷酸长度；(ii)其中“X”表示固定标签序列，且其中“x”为2-10，其表示“X”随机标签序列的核苷酸长度；(iii)其中“M”表示产生自A、G、C、T、U或I的随机标签序列，其中随机标签序列“M”与随机标签序列“N”不同或相同，且其中“m”为2-10，其表示“M”随机标签序列的核苷酸长度；且(iv)其中“Y”表示固定标签序列，其中“Y”的固定标签序列与“X”的固定标签序列相同或不同，且其中“y”为2-10，其表示“Y”随机标签序列的核苷酸长度。在一些实施例中，固定标签序列“X”在多个标签中相同。在一些实施例中，固定标签序列“X”在多个标签中不同。在一些实施例中，固定标签序列“Y”在多个标签中相同。在一些实施例中，固定标签序列“Y”在多个标签中不同。在一些实施例中，多个单链引物内的固定标签序列“(X)_x”和“(Y)_y”为序列比对锚。

在一些实施例中，双链转座子末端序列包括由“N”表示的随机序列，和由“X”表示的固定序列。因此，双链转座子末端序列包括可由结构N₁N₂N₃X₁X₂X₃或N₁N₂N₃X₁X₂X₃N₄N₅N₆X₄X₅X₆表示的随机物标签。任选地，随机物标签可具有随机序列，其中核苷酸位置中的一些或全部可随机选自由以下组成的群组：A、G、C、T、U和I。举例来说，随机序列内的每个位置的核苷酸可独立地选自A、G、C、T、U或I中的任一个，或可选自这六种不同类型的核苷酸的子集。任选地，随机序列内的每个位置的核苷酸可独立地选自A、G、C或T中的任一个。在一些实施例中，第一固定标签序列“X₁X₂X₃”为多个标签中的相同或不同序列。在一些实施例中，第二固定标签序列“X₄X₅X₆”为多个标签中的相同或不同序列。在一些实施例中，多个单链标签引物内的第一固定标签序列“X₁X₂X₃”和第二固定标签序列“X₄X₅X₆”为序列比对锚。

在一些实施例中，双链转座子末端序列包含随机物标签，其包括序列5'-NNNACTNNNTGA-3'(SEQ ID NO:1)，其中“N”表示随机产生自A、G、C或T的随机序列内的位置，可能的相异随机物标签的数目计算为4⁶(或4^6)，为约4096，且可能的两个随机物标签的不同组合的数目为4¹²(或4^12)，为约1千678万。在一些实施例中，5'-NNNACTNNNTGA-3'(SEQID NO:1)的加下划线的部分为序列比对锚。

在一些实施例中，分子标记程序可使用有限数目的引物延伸循环进行。举例来说，为了减少潜在地引入至经标记的聚核苷酸中的核苷酸错误并入误差，标靶聚核苷酸可使用有限数目的引物延伸循环附有至少一个标签。举例来说，至少一个标签在将引物延伸反应的数目限制为2-4个循环的条件下附加至标靶聚核苷酸(例如经由通过加尾标签引物的引物延伸)。任选地，PCR反应可限于约两个循环以将一个标签附加至标靶聚核苷酸的一端，且将第二标签附加至另一端。任选地，附加至聚核苷酸的第一和第二标签具有相同或不同标签序列。在一些实施例中，约1-100个PCR循环，或约1-50个PCR循环，或约1-25个PCR循环，或约1-15个PCR循环可用于向聚核苷酸附加至少一个标签。

在一些实施例中，当进行本教示内容中描述的分子标记程序中的任一个时，将仅对经标记的聚核苷酸测序。因此，将不检测任何未经标记的聚核苷酸。优化标签附加条件可增加将通过测序检测初始核酸样品中的更多聚核苷酸的可能性。优化标签附加条件可确保最大数量的聚核苷酸分子附有至少一个标签，以使得约5-10％，或约10-25％，或约25-50％，或约50-75％，或约75-90％，或约90-99.99％的聚核苷酸附加至至少一个标签。增加经标记的聚核苷酸的数目的一种方法为增加输入核酸的量，但这对于含有不足量的具有低丰度变异物种的核酸的生物样品并非始终可行。标记反应可含有相比于输入聚核苷酸的量过量的标签。增加经标记的聚核苷酸的产率的另一种方法为改进标签附加条件。举例来说，当经由酶接合反应将标签附加至聚核苷酸时，可调节如平端相对于粘端、标签浓度相对于聚核苷酸和温度的参数以增加经标记的聚核苷酸的百分比。在另一实例中，所关注的标靶聚核苷酸可在引物延伸反应(热循环或等温)中使用加尾引物选择性地附加至一个或多个标签。加尾引物的标靶特异性部分与标靶聚核苷酸之间的杂交的特异性可通过调节如时间、温度、盐(例如一价阳离子)、有机溶剂(例如甲酰胺)、pH以及标靶特异性区域的长度和加尾引物和输入聚核苷酸的浓度而优化。增加经标记的聚核苷酸的产率的另一种方法为相对于衔接子标签或标签引物的浓度减少标签附加反应中的核酸的浓度。举例来说，核酸样品可拆分成2-20个或更多个分离的集合体，且将每个集合体内的核酸置于单一反应混合物中。单一反应混合物可用于将至少一个标签(例如衔接子或引物)附加至核酸样品内的聚核苷酸。在每个集合体内，聚核苷酸(来自核酸样品)可于不同标签(例如衔接子或引物)的混合物的集合接触，以使得每个集合体具有标签的不同集合或每个集合体具有标签的相同或重叠集合。在一些实施例中，如果初始核酸样品含有不同聚核苷酸的混合物，那么任何两个具有相同序列的聚核苷酸附有相同的一个标签的概率相当低，且任何两个具有相同序列的聚核苷酸附有相同的两个标签的概率更低。因此，使用相同标签集合在分离的集合体中进行的标签附加反应将可能产生经标记的聚核苷酸，其中基本上每个经标记的聚核苷酸附有不同标签。

在一些实施例中，本公开大体上涉及用于将核酸样品的等分试样存放至两个或更多个分离的反应容器中以在每个反应容器中进行分离的标签附加反应的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体。举例来说，每个反应容器含有分离的单一反应混合物，其接收来自核酸样品的聚核苷酸的分离等分试样，以产生多个经标记的聚核苷酸且任选地产生经标记的扩增子。在一些实施例中，每个反应容器可含有相同或不同标签(例如随机物标签)库。在一些实施例中，分别标记的聚核苷酸可分别地扩增，接着合并。在一些实施例中，分别标记的聚核苷酸可经合并且接着扩增。在一些实施例中，分别标记的扩增子可经合并且接着测序。

在一些实施例中，本公开大体上涉及方法，和相关组合物、系统、试剂盒、装置和计算机可读媒体，其进一步包括在进行引物延伸反应(例如PCR)之后去除未与标靶聚核苷酸杂交的过量引物(例如标签引物)的步骤。举例来说，可使用任何降解单链寡核苷酸的酶，包括单链核酸外切酶，例如包括RecJ_f、T5核酸外切酶、λ核酸外切酶、大肠杆菌核酸外切酶I、大肠杆菌核酸外切酶III、核酸外切酶VII或recBCD核酸酶。

在一些实施例中，本公开大体上涉及方法，和相关组合物、系统、试剂盒、装置和计算机可读媒体，其进一步包括至少一个洗涤步骤。洗涤步骤可在工作流期间的任何时间进行，例如在任何标签附加或扩增步骤之前、期间或之后。在一些实施例中，洗涤步骤可去除附加、扩增和/或确定步骤的过量或未反应的组分。

在一些实施例中，可手动或自动进行根据本发明教示内容的附加、扩增和/或确定步骤中的任一个。在一些实施例中，可手动或自动进行包括以下的步骤中的任一个或任何组合：(1)形成单一反应混合物，(2)将至少一个标签附加至聚核苷酸，(3)扩增，(4)洗涤和/或(5)确定。举例来说，用于形成单一反应混合物、附加、扩增或洗涤步骤的任何试剂可经由手动或自动化模式存放至反应容器中，或从反应容器去除。在一些实施例中，用于核酸合成的试剂包括以下中的任一种或任何组合：标签、核酸样品、聚核苷酸、酶(例如接合酶或聚合酶)、核苷酸、二价阳离子、结合搭配物和/或缓冲液。

在一些实施例中，使用本教示内容的方法、系统、组合物或试剂盒产生的任何经标记的扩增子可用于检测与选自位于以下的基因中的至少一个中的癌症相关的突变：ABI1；ABL1；ABL2；ACSL3；ACSL6；AFF1；AFF3；AFF4；AKAP9；AKT1；AKT2；ALK；APC；ARHGAP26；ARHGEF12；ARID1A；ARNT；ASPSCR1；ASXL1；ATF1；ATIC；ATM；AXIN2；BAP1；BARD1；BCAR3；BCL10；BCL11A；BCL11B；BCL2；BCL3；BCL6；BCL7A；BCL9；BCR；BIRC3；BLM；BMPR1A；BRAF；BRCA1；BRCA2；BRD3；BRD4；BRIP1；BUB1B；CARD11；CARS；CASC5；CBFA2T3；CBFB；CBL；CBLB；CBLC；CCDC6；CCNB1IP1；CCND1；CCND2；CD74；CD79A；CDC73；CDH1；CDH11；CDK4；CDK6；CDKN2A；CDKN2B；CDKN2C；CDX2；CEBPA；CEP110；CHEK1；CHEK2；CHIC2；CHN1；CIC；CIITA；CLP1；CLTC；CLTCL1；COL1A1；CREB1；CREB3L2；CREBBP；CRTC1；CRTC3；CSF1R；CTNNB1；CXCR7；CYLD；CYTSB；DCLK3；DDB2；DDIT3；DDR2；DDX10；DDX5；DDX6；DEK；DGKG；DICER1；DNMT3A；EGFR；EIF4A2；ELF4；ELL；ELN；EML4；EP300；EPS15；ERBB2；ERBB4；ERC1；ERCC2；ERCC3；ERCC4；ERCC5；ERG；ETV1；ETV4；ETV5；ETV6；EWSR1；EXT1；EXT2；EZH2；FAM123B；FANCA；FANCC；FANCD2；FANCE；FANCF；FANCG；FAS；FBXW7；FCRL4；FGFR1；FGFR1OP；FGFR2；FGFR3；FH；FIP1L1；FLCN；FLI1；FLT1；FLT3；FNBP1；FOXL2；FOXO1；FOXO3；FOXO4；FOXP1；FUS；GAS7；GATA1；GATA2；GATA3；GMPS；GNAQ；GNAS；GOLGA5；GOPC；GPC3；GPHNGPR124；HIP1；HIST1H4I；HLF；HNF1A；HNRNPA2B1；HOOK3；HOXA11；HOXA13；HOXA9；HOXC11；HOXC13；HOXD13；HRAS；HSP90AA1；HSP90AB1；IDH1；IDH2；IKZF1；IL2；IL21R；IL6ST；IRF4；ITGA10；ITGA9；ITK；JAK1；JAK2；JAK3；KDM5A；KDM5C；KDM6A；KDR；KDSR；KIAA1549；KIT；KLF6；KLK2；KRAS；KTN1；LASP1；LCK；LCP1；LHFP；LIFR；LMO2；LPP；MAF；MALT1；MAML2；MAP2K1；MAP2K4；MDM2；MDM4；MECOM；MEN1；MET；MITF；MKL1；MLH1；MLL；MLLT1；MLLT10；MLLT3；MLLT4；MLLT6；MN1；MPL；MRE11A；MSH2；MSH6；MSI2；MSN；MTCP1；MTOR；MUC1；MYB；MYC；MYCL1；MYCN；MYH11；MYH9；MYST3；MYST4；NACA；NBN；NCOA1；NCOA2；NCOA4；NEK9；NF1；NF2；NFE2L2；NFKB2；NIN；NKX2-1；NLRP1；NONO；NOTCH1；NOTCH2；NPM1；NR4A3；NRAS；NSD1；NTRK1；NTRK3；NUMA1；NUP214；NUP98；OLIG2；OMD；PAFAH1B2；PALB2；PATZ1；PAX3；PAX5；PAX7；PAX8；PBRM1；PBX1；PCM1；PDE4DIP；PDGFB；PDGFRA；PDGFRB；PER1；PHOX2B；PICALM；PIK3CA；PIK3R1；PIM1；PLAG1；PML；PMS1；PMS2；POU2AF1；POU5F1；PPARG；PPP2R1A；PRCC；PRDM16；PRF1；PRKAR1A；PRRX1；PSIP1；PTCH1；PTEN；PTPN11；RABEP1；RAD50；RAD51L1；RAF1；RANBP17；RAP1GDS1；RARA；RB1；RBM15；RECQL4；REL；RET；RHOH；RNF213；ROS1；RPN1；RPS6KA2；RUNX1；RUNX1T1；SBDS；SDHAF2；SDHB；SETD2；SFPQ；SFRS3；SH3GL1；SLC45A3；SMAD4；SMARCA4；SMARCB1；SMO；SOCS1；SRC；SRGAP3；SS18；SS18L1；STIL；STK11；STK36；SUFU；SYK；TAF15；TAF1L；TAL1；TAL2；TCF12；TCF3；TCL1A；TET1；TET2；TEX14；TFE3；TFEB；TFG；TFRC；THRAP3；TLX1；TLX3；TMPRSS2；TNFAIP3；TOP1；TP53；TPM3；TPM4；TPR；TRIM27；TRIM33；TRIP11；TSC1；TSC2；TSHR；USP6；VHL；WAS；WHSC1L1；WRN；WT1；XPA；XPC；ZBTB16；ZMYM2；ZNF331；ZNF384；和ZNF521。

在一些实施例中，使用本教示内容的方法、系统、组合物或试剂盒产生的任何经标记的扩增子可用于检测与选自位于以下的基因中的至少一个中的癌症相关的突变：ABL1；AKT1；ALK；APC；ATM；BRAF；CDH1；CDKN2A；CSF1R；CTNNB1；EGFR；ERBB2；ERBB4；FBXW7；FGFR1；FGFR2；FGFR3；FLT3；GNAS；HNF1A；HRAS；IDH1；JAK2；JAK3；KDR；KIT；KRAS；MAP2K1；MET；MLH1；MPL；NOTCH1；NPM1；NRAS；PIC3CA；PDGFRA；PIK3CA；PTEN；PTPN11；RB1；RET；ROS1，SMAD4；SMARCB1；SMO；SRC；STK11；TP53；和VHL。

在一些实施例中，使用本教示内容的方法、系统、组合物或试剂盒产生的任何经标记的扩增子可用于检测突变，包括例如以下中的至少一个：EGFR(Leu858Arg)、TP53(Arg158Leu)、TP53(Tyr220Cys)、MET(Thr1010Ile)和/或KRAS(Gly12Cys)。

在一些实施例中，本公开大体上涉及组合物，和相关方法、系统、试剂盒、装置和计算机可读媒体，包含支撑物。在一些实施例中，支撑物可包括表面，其为物体的外层或最顶层或边界。在一些实施例中，表面可在支撑物的边界内部。

在一些实施例中，支撑物可为基本上平面的支撑物，以及凹面、凸面或其任何组合。在一些实施例中，支撑物可为珠粒、粒子、微粒、球体、过滤器、流动池、孔、微孔、凹槽、通道储集器、凝胶或毛细管内壁。在一些实施例中，支撑物包括毛细管内壁、通道、孔、微孔、凹槽、通道、储集器。在一些实施例中，支撑物可包括质地(例如蚀刻、空化、孔隙、三维支架或凸块)。在一些实施例中，支撑物包括多个以组织化或随机阵列布置的反应位点。在一些实施例中，多个反应位点可以随机模式、组织化模式、直线模式、六边形模式或可寻址阵列模式布置于支撑物上。举例来说，多个反应位点可用于固相扩增(例如扩增反应位点)或用于测序(例如测序反应位点)。

在一些实施例中，支撑物可为多孔、半多孔或无孔的。

在一些实施例中，粒子可具有球形、半球形、圆柱形、筒管形、环形、棒状、盘状、圆锥形、三角形、立方形、多边形、管状、线状或不规则的形状。

在一些实施例中，支撑物可由任何材料制成，包括玻璃、硼硅酸盐玻璃、二氧化硅、石英、熔融石英、云母、聚丙烯酰胺、塑料聚苯乙烯、聚碳酸酯、聚甲基丙烯酸酯(PMA)、聚甲基丙烯酸甲酯(PMMA)、聚二甲基硅氧烷(PDMS)、硅、锗、石墨、陶瓷、硅、半导体、高折射率电介质、晶体、凝胶、聚合物或膜(例如金、银、铝或金刚石膜)。

在一些实施例中，支撑物可为磁性或顺磁的。在一些实施例中，支撑物可为附有抗生蛋白链菌素的顺磁珠粒(粒子)，例如DYNABEADS M-270(获自Invitrogen,Carlsbad,CA)。珠粒或粒子可具有铁芯，或包含水凝胶或琼脂糖(例如SEPHAROSE)。

在一些实施例中，支撑物(包括珠粒或粒子的内部支架)可附有多个捕获引物。支撑物可涂布有丙烯酰胺、羧酸或胺化合物以用于附接核酸(例如捕获引物)。在一些实施例中，氨基修饰的核酸(例如引物)可附接至涂布有羧酸的支撑物。在一些实施例中，氨基修饰的核酸可与乙基(二甲氨基丙基)碳化二亚胺(EDC)或EDAC反应以附接至羧酸涂布的支撑物(具有或不具有N-羟基琥珀酰亚胺(NHS))。捕获引物可固定至支撑物上的丙烯酰胺化合物涂层。粒子可涂布有抗生物素蛋白样化合物(例如抗生蛋白链菌素)以结合生物素标记的核酸。

在一些实施例中，支撑物可为孔、微孔、凹槽、通道储集器、凝胶或毛细管内壁。支撑物的表面可由半金属或金属或其氧化物或氮化物陶瓷形成。示例性金属或半金属包括硅、镓、铝、铪、钛、钨、钽、锆或其任何合金或组合。此类示例性金属或半金属也可形成陶瓷氧化物、氮化物或氮氧化物。在特定实例中，表面可另外用包括官能团，此类磷酸酯、膦酸酯、儿茶酚、硝基儿茶酚、硼酸酯、苯基硼酸酯、咪唑、硅烷醇或硅烷官能团的表面剂处理。

在一些实施例中，支撑物可用通过如焦磷酸盐、氢离子、质子、电荷转移或热的产物增强核苷酸并入的信号检测的表面剂处理或涂布有所述表面剂。

在一个实例中，包括硅烷官能团的表面剂可具有式R-[(CH2)n]-Si-[X1X2X3]，其中R为有机官能团，[(CH2)n]为烃连接子(n＝1至20)，Si为硅原子，且[X1X2X3]包含一个或多个独立的可水解基团，包括烷氧基或卤素基团。在另一实施例中，硅烷基团可为R-[(C2H4O)n]-Si-[X1X2X3]，其中R为有机官能团，[(C2H4O)n](n＝1至100)为聚醚连接子，Si为硅原子，且[X1X2X3]包含一个或多个可水解基团，包括烷氧基或卤素基团。在任一实施例中，有机官能团R包括(但不限于)甲基、亚甲基、苯基、苯甲基、苯胺基、氨基、酰胺、羟基、醛、烷氧基、卤基、巯基、羧基、酰基、乙烯基、烯丙基、苯乙烯基、环氧基、异氰酸酯基、缩水甘油氧基和丙烯酰氧基。参见例如以引用的方式并入本文中的美国专利8,647,577。

在另一实例中，表面剂可以单层形式结合在一个或多个表面上。具体来说，表面剂包括与表面上形成的布忍司特碱(Bronsted base)或路易斯酸(Lewis acid)官能团反应的官能团。参见例如以引用的方式并入本文中的美国专利公开号2016/0003768。表面剂的示例性表面反应性官能团可包括硅烷、磷酸酯、膦酸、一元膦酸、二元膦酸、多齿磷酸酯或膦酸酯、聚磷酸酯/膦酸酯、异氰酸酯、儿茶酚、异羟肟酸酯、其烷氧基衍生物或其任何组合。示例性烷氧基包括甲氧基、乙氧基或其组合。在另一实例中，可使用氯膦酸与官能化伯胺的组合代替表面反应性官能团。在一个实例中，硅烷可将许多陶瓷和金属表面官能化。在特定实例中，硅烷、异氰酸酯、异羟肟酸酯和氯膦酸可将二氧化硅表面官能化。在另一实例中，磷酸酯、儿茶酚和异羟肟酸酯可用于将二氧化钛表面官能化。在其它实例中，特定表面反应性官能团可相对于其它金属或陶瓷表面优先沉积在一种或多种金属或陶瓷表面上。

在官能团远端，表面剂可包括不包括供电子对或缺乏布忍司特碱或酸活性的官能团。远端官能团可为带正电官能团或可为中性官能团。示例性中性官能团包括烷基、分支链烷基或环状芳族基。缺乏供电子对的示例性带正电基团包括衍生自仲胺、叔胺或并入氮的杂环基团的季铵离子盐。在另一实例中，远端官能团可为亚硝基官能团。并入氮的示例性杂环基包括衍生自吡咯烷、吡咯、咪唑、哌啶、吡啶、嘧啶、嘌呤、三唑盐或其组合的季铵。具体来说，盐可包括季铵离子的卤化物盐，例如溴化物盐。仲胺、叔胺或季铵可结合于烷基，包括甲基、乙基、丙基、丁基或叔丁基烷基。在另一实例中，远端官能团可包括受阻伯胺、仲胺或叔胺，例如受近端磷酸酯、膦酸酯、亚膦酸酯或硅烷基团阻碍的胺，或其组合。在特定实例中，远端官能团可包括生物素或其衍生物。

在一个实例中，远端官能团可通过酰胺、烷基、烷氧基、芳基或聚醚或硫醚部分或其组合结合于表面反应性官能团。举例来说，远端官能团可通过具有1到16个碳，例如1到12个碳的烷基部分与表面反应性官能团分开。在一个实例中，烷基部分可具有8到12个碳，例如10到12个碳。在另一实例中，烷基部分可具有1到6个碳，例如1到4个碳或1到3个碳。具体来说，包括受阻胺远端官能团的表面剂可具有具1到6个碳，例如1到4个碳或1到3个碳的烷基部分。在另一实例中，烷氧基部分可具有在类似于烷基部分的范围内的碳数目。在另一实例中，聚醚部分可具有1到10个醚单元，每个醚单元具有1到4个碳，例如1到3个碳。举例来说，聚醚部分可具有1到6个醚单元，例如1到4个醚单元。

在特定实例中，表面剂包括硅烷表面反应性官能团。示例性表面剂包括烷基三烷氧基硅烷，如辛基癸基三乙氧基硅烷、辛基癸基三甲氧基硅烷、丙基三甲氧基硅烷或其组合；季铵烷基烷氧基硅烷的盐，如丁基铵三甲氧基硅烷、甲基铵苯并三甲氧基硅烷、脲鎓-硅烷或硫脲鎓-硅烷、甲氧基-N硅烷、短丁基铵三甲氧基硅烷或其组合；其氟化或氯化衍生物；其衍生物；或其组合。示例性四级盐包括此类季铵烷基三烷氧基硅烷的氯或溴盐。此类硅烷表面剂可结合于半金属或金属氧化物。一些基于硅烷的表面剂可无差别地结合于侧壁表面或传感器表面。

在另一实例中，表面剂可为基于膦酸的表面剂。示例性表面剂包括烷基膦酸，如十八烷基膦酸；四级氨基膦酸的氯或溴盐，如咪唑膦酸(例如1-甲基-3-(十二烷基膦酸)咪唑，或1-甲基-3-(己基膦酸)咪唑)、(12-十二烷基膦酸)三甲基溴化铵、甲基铵膦酸、乙基铵膦酸、(12-十二烷基膦酸)三丙基溴化铵、(12-十二烷基膦酸)三丁基溴化铵；(12-十二烷基膦酸)甲基三唑鎓溴化物；(6-己基膦酸)咪唑；吡啶烷基膦酸；苯并烷基膦酸；(1-氨基-1-苯基甲基)膦酸；其氟化或氯化衍生物；其衍生物；或其任何组合。在另一实例中，表面剂可为基于生物素烷基膦酸的表面剂。在一个实例中，磷酸酯和膦酸酯可优先结合于传感器表面。

在另一实例中，基于膦酸的表面剂可包括超过一个膦酸表面活性官能团。举例来说，表面剂可为包括两个膦酸表面活性官能团的二元膦酸，例如阿仑膦酸或其衍生物。具体来说，表面剂可为基于多齿膦酸的表面剂，例如包括超过一个偶合至例如叔胺或烷二胺等充当远端基团的中心部分的膦酸官能团。举例来说，表面剂可为官能化氨基双(烷基膦酸)，例如生物素官能化氨基双(亚甲基膦酸)、氨基三(烷基膦酸)，例如氨基三(亚甲基膦酸)、其醚衍生物或其组合。在另一实例中，表面剂可为烷二胺四(烷基膦酸)，如乙二胺四(亚甲基膦酸)。在另一实例中，表面剂可为二亚乙基三胺五(亚甲基膦酸)、己二胺四(亚甲基膦酸)、四亚甲基二胺四(亚甲基膦酸)或其任何组合。在另一实例中，表面剂为苯基二膦酸、其官能化衍生物或其组合。

在另一实例中，表面剂可为儿茶酚，例如儿茶酚胺、硝基儿茶酚、硝基儿茶酚胺、其衍生物或其组合。举例来说，儿茶酚可包括多巴胺、硝基多巴胺、去甲肾上腺素、肾上腺素、其酯或其组合。在特定实例中，儿茶酚为多巴胺或硝基多巴胺。

在另一实例中，表面剂可包括异氰酸酯或异羟肟酸酯表面活性官能团。

在特定实施例中，支撑材料，如聚合材料可沉积至表面支撑结构，如孔、微孔、凹槽、通道储集器、凝胶或毛细管内壁中。举例来说，聚合物珠粒可沉积至孔、微孔、凹槽、通道或毛细管中。在另一实例中，聚合物可涂布于此类表面结构上。举例来说，聚合物矩阵可形成于表面结构上。参见例如以引用的方式并入本文中的美国专利公开案第2015/0160153号。

举例来说，聚合物矩阵可由矩阵前驱体，如可自由基聚合单体，例如基于乙烯基的单体形成。具体来说，单体可包括亲水性单体，例如丙烯酰胺、乙酸乙烯酯、羟基烷基甲基丙烯酸酯，其变体或衍生物、其共聚物或其任何组合。在一个特定实例中，亲水性单体为丙烯酰胺，例如经官能化以包括羟基、氨基、羧基、卤素基团或其组合的丙烯酰胺。在一个实例中，亲水性单体为氨基烷基丙烯酰胺、经胺封端的聚烷基二醇官能化的丙烯酰胺、丙烯酰哌嗪或其组合。在另一实例中，丙烯酰胺可为羟基烷基丙烯酰胺，例如羟基乙基丙烯酰胺。具体来说，羟烷基丙烯酰胺可包括N-三(羟甲基)甲基)丙烯酰胺、N-(羟甲基)丙烯酰胺或其组合。用胺封端的聚烷基二醇官能化的丙烯酰胺可包括1到20个烷基二醇单元，例如乙二醇、丙二醇或其组合。在另一实例中，共聚单体可包括卤素修饰的丙烯酸酯或丙烯酰胺，如N-(5-溴乙酰胺基戊基)丙烯酰胺(BRAPA)。尽管BRAPA显示为包括溴乙酰胺基，但可使用包括2到20个碳的烷基的溴烷基酰胺。另外，BRAPA的戊基可置换成碳长度在2到20范围内的另一烷基。在另一实例中，共聚单体可包括寡核苷酸修饰的丙烯酸酯或丙烯酰胺单体。在另一实例中，可使用单体的混合物，例如羟基烷基丙烯酰胺与胺官能化丙烯酰胺的混合物或丙烯酰胺与胺官能化丙烯酰胺的混合物。在实例中，胺官能化丙烯酰胺可按100:1到1:1范围内，如100:1到2:1范围、50:1到3:1范围、50:1到5:1范围或甚至50:1到10:1范围的羟基烷基丙烯酰胺:胺官能化丙烯酰胺或丙烯酰胺:胺官能化丙烯酰胺的比率包括在内。在另一实例中，胺官能化丙烯酰胺可按100:1到1:1范围内，例如100:1到2:1范围、50:1到3:1范围、50:1到5:1范围或甚至50:1到10:1范围的羟基烷基丙烯酰胺:溴官能化丙烯酰胺或丙烯酰胺:溴官能化丙烯酰胺比率包括在内。

在另一实例中，可包括寡核苷酸官能化丙烯酰胺或丙烯酸酯单体(例如Acrydite^TM单体)以将寡核苷酸合并到聚合物矩阵中。

另一示例性矩阵前驱体包括交联剂。在一个实例中，交联剂按15:1到1:2范围内，例如10:1到1:1范围、6:1到1:1范围或甚至4:1到1:1范围的单体比交联剂质量比包括在内。具体来说，交联剂可为二乙烯基交联剂。举例来说，二乙烯基交联剂可包括二丙烯酰胺，例如N,N'-(乙烷-1,2-二基)双(2-羟基乙基)丙烯酰胺、N,N'-(2-羟基丙烷-1,3-二基)二丙烯酰胺或其组合。在另一实例中，二乙烯基交联剂包括乙二醇二甲基丙烯酸酯、二乙烯基苯、六亚甲基双丙烯酰胺、三羟甲基丙烷三甲基丙烯酸酯、其经保护衍生物或其组合。

可通过溶液内的引发剂引发聚合。举例来说，引发剂可基于水。在另一实例中，引发剂可为疏水性引发剂，优选地在疏水相中。示例性引发剂包括过硫酸铵和TEMED(四甲基乙二胺)。TEMED可加速从过硫酸盐形成自由基，继而催化聚合的速率。过硫酸盐自由基例如将丙烯酰胺单体转化成自由基，其与未活化单体反应以开始聚合链反应。伸长聚合物链可随机交联，产生具有取决于聚合条件和单体浓度的特征孔隙率的凝胶。核黄素(或核黄素-5'-磷酸盐)也可用作自由基来源，其通常与TEMED和过硫酸铵组合。在光和氧气存在下，核黄素转化成其具有引发聚合(一般称为光化聚合)的活性的隐色形式。

在另一实例中，偶氮基引发剂可用于引发聚合。具体来说，偶氮基引发剂可为偶氮二异丁腈(AIBN)。

在另一实例中，聚合物矩阵的前驱体可包括表面反应性添加剂以提高与表面的结合。示例性添加剂包括官能化丙烯酸单体或官能化丙烯酰胺单体。举例来说，丙烯酸单体可经官能化以与表面材料结合，例如形成井底部或侧壁的陶瓷材料。在一个实例中，添加剂可包括丙烯酰基-膦酸酯，例如甲基丙烯酰基膦酸酯。在另一实例中，添加剂可包括二甲基丙烯酰胺或聚二甲基丙烯酰胺。在另一实例中，添加剂可包括经可聚合基团(例如丙烯酸酯基团)改性的聚赖氨酸。

在另一实例中，可使用原子转移自由基聚合(ATRP)促进聚合。ATRP系统可包括链转移剂(CTA)、单体、过渡金属离子以及配位体。示例性过渡金属离子络合物包括基于铜的络合物。示例性配位体包括2,2'-联吡啶、4,4'-二-5-壬基-2,2'-联吡啶、4,4',4”-三(5-壬基)-2,2':6',2”-三联吡啶、N,N,N',N',N”-五甲基二亚乙基三胺、1,1,4,7,10,10-六甲基三亚乙基四胺、三(2-二甲基氨基乙基)胺、N,N-双(2-吡啶基甲基)十八烷基胺、N,N,N',N'-四[(2-吡啶基)甲基]乙二胺、三[(2-吡啶基)甲基]胺、三(2-氨基乙基)胺、三(2-双(3-丁氧基-3-氧代丙基)氨基乙基)胺、三(2-双(3-(2-乙基己氧基)-3-氧代丙基)氨基乙基)胺、三(2-双(3-十二烷氧基-3-氧代丙基)氨基乙基)胺、脂族、芳族和杂环/杂芳族胺、其变体和衍生物，或其组合。示例性CTA包括2-溴丙腈、2-溴异丁酸乙酯、2-溴丙酸乙酯、2-溴丙酸甲酯、1-苯基乙基溴、甲苯磺酰氯、二硫代氨基甲酸1-氰基-1-甲基乙基二乙酯、2-(N,N-二乙基二硫代氨甲酰基)-异丁酸乙酯、2,6-二溴庚二酸二甲酯以及其它官能化烷基卤化物，其变体或衍生物，或其任何组合。任选地，BRAPA单体可在ATRP系统存在下充当分枝剂。

在一个实例中，在表面引发ATRP以将聚合物直接结合到表面。举例来说，丙烯酸酯单体、丙烯酰胺单体、Acrydite^TM单体、丁二酰亚胺基丙烯酸酯、双丙烯酸酯或双丙烯酰胺单体、其衍生物或其组合可在过渡金属离子/配位体存在下在溶液中施用至引发表面。

在另一实例中，ATRP系统可用于使用改性的膦酸盐、磺酸盐、硅酸盐、钛酸盐或锆酸盐化合物将聚合物附接到孔表面。具体来说，胺或羟基封端的烷基膦酸盐或其烷氧基衍生物可施用于表面或使用引发剂引发。可施用催化剂复合物和单体，延伸表面化合物。

在一示例性方法中，包括聚合物矩阵前驱体的水溶液可施用到界定孔阵列的结构的孔中。孔中的水溶液可以通过在孔上提供不可混溶流体分隔开，并且引发孔内的溶液中的聚合物前驱体聚合。

用于制备至少一种可增强核苷酸并入副产物的信号检测的表面剂或涂布有所述表面剂的支撑物的方法的许多实例可见于2012年2月23日公布的美国公布申请第2012/0045368号；2016年2月4日公布的第2016/0032371号；和2016年1月7日公布的第2016/0003768号中。

在一些实施例中，本公开大体上涉及使用核酸扩增反应向聚核苷酸附加至少一个标签的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，所述核酸扩增反应包括聚合酶链反应(PCR)(均颁予Mullis的美国专利4,683,195和4,683,202)、连接酶链式反应(LCR)(Barany 1991《美国国家科学院学报(Proceedings National Academy ofScience USA)》88:189-193；Barnes 1994《美国国家科学院学报》91:2216-2220)，或等温自维持序列反应(Kwoh 1989《美国国家科学院学报》86:1173-1177；WO1988/10315；和美国专利5,409,818、5,399,491和5,194,370)，或重组酶聚合酶扩增(RPA)(Zarling的美国专利第5,223,414号，Sena的美国专利第5,273,881号和第5,670,316号，以及美国专利第7,270,981号、第7,399,590号、第7,435,561号、第7,666,598号、第7,763,427号、第8,017,339号、第8,030,000号、第8,062,850号和第8,071,308号)。

在一些实施例中，本公开大体上涉及使用环化核酸向聚核苷酸附加至少一个标签的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体。在一些实施例中，来自核酸样品的聚核苷酸可经环化，例如通过分子内接合或使用夹板分子或挂锁结构。环化分子可用于通过滚环扩增、载体介导的程序、挂锁结构形成或发夹衔接子介导的程序产生经标记的扩增子。

在一些实施例中，核酸扩增反应包括滚环扩增(RCA)。举例来说，具有与环状聚核苷酸的一部分杂交的3'区和5'独特尾的加尾引物可用于进行扩增反应以产生在其5'区中具有标签的多联体。滚环扩增的实例描述于Fire和Xu 1995《美国国家科学院学报》92:4641-4645；Lizardi 1998《自然·遗传学(Nature Genetics)》19:225；Baner 1998《核酸研究(Nucleic Acids Research)》26:5073；Zhao 2008《德国应用化学国际版(AgnewandteChemie International Edition)》47:6330-6337；和Nilsson 2008《生物化学趋势(Trendsin Biochemistry)》24:83-88中。

在一些实施例中，核酸扩增反应包括载体介导的方法，其中标靶聚核苷酸(标靶序列)的一部分插入到载体中，且标靶序列在一侧或两侧上接合有独特标签，以产生环状分子。环状分子使用选择性地与标靶序列杂交的正向和反向引物进行双向RCA，以产生正向和反向多联体(Bielas和Ericson，美国申请公开案第2015/0126376号)。多联体可经测序且测序读段可使用本教示内容中描述的方法操纵。或者，环状分子使用对标签序列或标靶序列具有特异性的引物进行单向RCA(美国专利第6,287,824号；第6,480,791号；第8,221,982号；第8,383,345号；第8,865,410号)。

在一些实施例中，核酸扩增反应包括使标靶聚核苷酸接合有至少一个标签以形成环状分子。使用与标签或标靶序列杂交的引物进行RCA(美国专利第6,480,791号；第7,537,897号；第8,003,330号；第8,383,345号；第8,497,069号；第8,835,358号；和第8,865,410号)。

在一些实施例中，核酸扩增反应包括使用含有至少一个标签的预圆探针形成挂锁结构。预圆探针与标靶聚核苷酸杂交以形成具有缺口的挂锁结构。缺口经接合酶封闭，且通过对标签或标靶序列具有特异性的引物进行引物延伸(美国专利第6,830,884号；第7,498,131号；和第7,790,388号)。

在一些实施例中，核酸扩增反应包括将发夹衔接子接合至双链标靶聚核苷酸的两端，其中发夹衔接子含有至少一个标签。所得接合产物可形成可经历RCA的单链环状分子(美国专利第8,309,330号)。

在一些实施例中，核酸扩增反应包括使用LoxP/Cre系统，其中LoxP序列接合至至少一个标签且Cre重组酶用于产生具有标签插入物的环状分子。环状分子可经受RCA(美国专利第6,448,017号)。

在一些实施例中，本公开大体上涉及使用和反向PCR反应向聚核苷酸附加至少一个标签的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体。举例来说，反向PCR反应包括：(a)提供含有多个聚核苷酸的核酸样品；(b)对多个聚核苷酸随机片段化以产生具有(i)至少一个具有经未知序列侧接的已知序列的区域，和(ii)具有独特序列的末端的片段；(c)将第一通用序列附加至片段化聚核苷酸的一端且将第二通用序列附加至片段化聚核苷酸的另一端，例如通过衔接子接合，以产生衔接子接合的片段；(d)使用PCR和与衔接子接合的片段的第一或第二通用序列杂交的引物扩增衔接子接合的片段，以产生衔接子接合的扩增子；(e)使衔接子接合的扩增子环化以产生含有以下的多个环状分子：(i)至少一个具有经未知序列侧接的已知序列的区域，(ii)具有接合至第一通用序列的第一独特序列的第一末端，和(iii)具有接合至第二通用序列的第二独特序列的第二末端；(f)通过使用与已知序列杂交的加尾引物的滚环扩增来扩增环状分子，以产生具有以下的线性分子(例如多联体)：(i)具有接合至第一通用序列的第一独特序列的第一末端，(ii)具有接合至第二通用序列的第二独特序列的第二末端，(iii)具有经未知序列侧接的已知序列的区域；和(g)对线性分子测序以产生多个候选测序读段。在一些实施例中，方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体另外包含操纵测序读段和应用至少一个阈值，其可减少测序读段中的误差。在一些实施例中，操纵候选测序读段包括剔除、分选、分组、对分组读段进行计数、对读段家族进行计数，和其它操纵步骤。在一些实施例中，随机片段化步骤可通过剪切或转座子介导的标签化进行。在一些实施例中，操纵步骤可基于标签特异性参考序列和/或聚核苷酸特异性参考序列。在一些实施例中，反向PCR方法的其它变型可基于U.S.2014/0227705(Vogelstein)；Ochman 1988《遗传学(Genetics)》120:621-623；Triglia1988《核酸研究》16:8186；或Silver和Keerikatte 1989《病毒学杂志(Journal ofVirology)》63:1924-1928)中描述的方法实践。

在一些实施例中，任何已根据本教示内容产生的经标记的标靶聚核苷酸(包括经标记的扩增子)可附接至固体支撑物。举例来说，可进行桥连扩增反应以将经标记的靶核酸附接至基本上平面的支撑物(例如流动池)或珠粒。个别经标记的靶核酸在一端包括至少一个标签衔接子序列和第一通用衔接子序列且在另一端包括至少另一个标签衔接子序列和第二通用衔接子序列。在一些实施例中，第一和第二标签衔接子的标签部分具有不同序列。在一些实施例中，第一和/或第二标签衔接子包括通用扩增和/或测序引物序列。在一些实施例中，经标记的靶核酸中的至少两个包括具有不同序列的标靶序列部分。经标记的核酸的群体经扩增以产生经标记的靶扩增子的群体。使得经标记的靶扩增子的群体为单链以产生单链经标记的靶核酸的群体。单链经标记的靶核酸的群体的至少一部分与附接至支撑物的捕获引物杂交。支撑物可包括多个具有不同序列的第一和第二捕获引物，举例来说，第一捕获引物与第一通用序列杂交且第二捕获引物与第二通用序列杂交。在杂交步骤中，第一通用衔接子(例如附接至第一聚核苷酸)与第一捕获引物杂交，且引物延伸反应延伸第一捕获引物以产生在一端具有第二衔接子的互补序列的第一捕获引物延伸产物。引物延伸反应采用捕获的靶核酸作为模板。去除模板分子。第一捕获引物延伸产物弯曲(例如拱起)以使得第二衔接子序列可与附近的第二捕获引物杂交，且引物延伸反应延伸第二捕获引物以产生在一端处具有第一衔接子的互补序列且形成双链桥连分子的第二捕获引物延伸产物。双链桥经变性以产生两种单链固定化靶核酸。单链固定化靶核酸中的一个具有附接至支撑物的第一引物(或其互补序列)且分子的另一端具有可第二引物序列(或其互补序列)，且第二引物序列可与附近的第二捕获引物杂交以起始另一桥连扩增反应。其它单链固定化靶核酸具有附接至支撑物的第二引物(或其互补序列)且分子的另一端具有第一引物序列(或其互补序列)，且第一引物序列可与附近的第一捕获引物杂交以起始另一桥连扩增反应。桥连扩增的重复循环产生附接至支撑物的多个扩增靶核酸。桥连扩增的循环可在等温条件下进行。桥连扩增的组合物和方法的实例见于美国专利第7,790,418号、第7,985,565号、第8,143,008号和第8,895,249号中。

在一些实施例中，任何已根据本教示内容产生的经标记的标靶聚核苷酸(包括经标记的扩增子)可附接至固体支撑物。举例来说，可进行模板步行反应以将经标记的靶核酸附接至基本上平面的支撑物(例如流动池)或珠粒。个别经标记的靶核酸在一端包括至少一个标签序列和第一通用衔接子序列且在另一端包括至少另一个标签序列和第二通用衔接子序列。在一些实施例中，第一和第二通用衔接子具有不同序列。在一些实施例中，第一和/或第二衔接子包括通用扩增引物序列。在一些实施例中，第一和/或第二衔接子包括通用测序引物序列。在一些实施例中，经标记的靶核酸中的至少两个具有不同标靶序列。在一些实施例中，模板步行反应包括：提供附有多个捕获引物的支撑物。支撑物可包括多个通过其5'端附接至支撑物的捕获引物。支撑物可包括多个固定化捕获引物，其中捕获引物的3'端包括相同序列。在一些实施例中，捕获引物的3'端包括具有较低T_m(熔融温度)序列的序列。多个捕获引物可与第一通用衔接子序列的至少一部分杂交。在一些实施例中，模板步行反应包括：使得经标记的靶核酸的群体为单链。在一些实施例中，模板步行反应包括：使单链经标记的靶核酸的群体的至少一部分与附接至支撑物的捕获引物杂交。在杂交步骤中，第一通用衔接子与第一固定化捕获引物杂交，且引物延伸反应延伸第一捕获引物以产生在一端处具有第二衔接子的互补序列的第一捕获引物延伸产物。引物延伸反应采用经标记的靶核酸作为模板。模板分子(其沿其长度与第一延伸产物杂交)在含有较低T_m区域的第一衔接子区域经历局部变性，且第一通用衔接子区域与附近捕获引物(例如第二捕获引物)再杂交，而模板分子的剩余部分与第一延伸产物杂交。第二捕获引物的引物延伸用以使仍与第一延伸产物杂交的模板分子的部分变性，且产生第二捕获引物延伸产物。重复模板步行循环包括使第一通用衔接子区域与附近的捕获引物杂交、引物延伸、含有较低T_m区域的第一通用衔接子区域处的局部变性、与不同的附近捕获引物再杂交和引物延伸，以产生多个附接至支撑物的扩增靶核酸。模板步行的循环可在等温条件下进行。

举例来说，模板步行的方法包含：

(a)提供具有包括第一和第二捕获引物的多个固定化捕获引物的支撑物，其中多个捕获引物具有相同序列或具有相同3'部分，且其中多个捕获引物的5'端附接至支撑物，且其中多个捕获引物含有具有较低熔融温度序列的区域；

(b)提供多个包括第一单链经标记的靶核酸的单链经标记的靶核酸，其中多个单链经标记的靶核酸具有(i)附接至靶核酸的一端的第一通用衔接子和第一标签，和(ii)附接至靶核酸的另一端的第二通用衔接子和第二标签；

(c)使第一捕获引物与第一单链经标记的靶核酸的第一通用衔接子杂交；

(d)通过进行引物延伸反应延伸第一捕获引物以产生沿第一延伸产物的长度杂交的双螺旋第一延伸产物；

(e)通过局部变性从杂交的第一通用衔接子分离第一捕获引物的一部分(例如包括较低熔融温度序列)；

(f)将第一通用衔接子与第二捕获引物再杂交，同时双螺旋第一延伸产物的剩余部分保持双螺旋形式；

(g)通过进行分离双螺旋第一延伸产物的剩余部分且产生沿第二延伸产物的长度杂交的双螺旋第二延伸产物的引物延伸反应而延伸第二捕获引物；

(h)通过局部变性从杂交的第一通用衔接子分离第二捕获引物的一部分(例如包括较低熔融温度序列)；

(i)使第一通用衔接子与另一固定化捕获引物再杂交，同时双螺旋第二延伸产物的剩余部分保持双螺旋形式；且

(j)通过进行分离双螺旋第二延伸产物的剩余部分且产生沿第三延伸产物的长度杂交的双螺旋第三延伸产物的引物延伸反应而延伸固定化捕获引物。在一些实施例中，可在等温条件下进行步骤(a)-(j)。

核酸模板步行的组合物和方法的实例见于美国公布申请第2012/0156728号和第2013/0203607号中。

在一些实施例中，任何已根据本教示内容产生的经标记的标靶聚核苷酸(包括经标记的扩增子)可附接至固体支撑物。举例来说，重组酶-聚合酶扩增(RPA)反应可在水性条件下进行以将经标记的靶核酸附接至任何类型的支撑物，包括基本上平面的支撑物(例如流动池)或珠粒。个别经标记的靶核酸在一端包括至少一个标签序列和第一通用衔接子序列且在另一端包括至少另一个标签序列和第二通用衔接子序列。在一些实施例中，第一和第二衔接子具有不同序列。在一些实施例中，第一和/或第二衔接子包括通用测序引物序列。在一些实施例中，第一衔接子包括与第二衔接子中的通用扩增序列不同的通用扩增引物序列。在一些实施例中，经标记的靶核酸中的至少两个具有不同标靶序列。使得经标记的靶核酸的群体为单链。在单一反应混合物(水性反应混合物)中，单链经标记的核酸与以下各者反应/接触：(i)多个在上面附接有多个捕获引物的支撑物(例如珠粒)，其中多个支撑物上的捕获引物具有相同序列且可与经标记的核酸的第一通用衔接子序列杂交；(ii)与经标记的核酸的第二通用衔接子序列相同或可与所述第二通用衔接子序列杂交的多个可溶反向引物；(iii)聚合酶；和(iv)多个核苷酸。在一些实施例中，单一反应混合物进一步包括重组酶(例如T4uvsX)和任选地辅助蛋白质，包括重组酶负载因子(例如T4uvsY)和/或单链结合蛋白(T4gp32)。单一反应混合物可在适合于进行核酸扩增的条件下培育。重组酶和辅助蛋白质可介导第一通用衔接子序列与捕获引物之间的D-回路形成。单链经标记的靶核酸的第一通用衔接子序列区域与支撑物(例如珠粒)上的多个捕获引物中的一个杂交，且引物延伸产生捕获引物延伸产物。可溶反向引物与捕获引物延伸产物的第二通用衔接子区域杂交，且引物延伸反应产生反向引物延伸产物。重组酶和辅助蛋白质可介导第二通用衔接子序列与可溶反向引物之间的D-回路形成。反向引物延伸产物可从捕获引物延伸产物解离(例如变性)，且对于另一引物延伸反应，与相同支撑物(例如珠粒)上的不同捕获引物再杂交。重复RPA-珠粒扩增反应循环产生附接有经标记的靶核酸的多个拷贝的珠粒以产生附接有一种经标记的靶核酸的基本上单克隆拷贝的个别珠粒。任选地，不同珠粒附接有不同经标记的靶核酸的拷贝(例如多克隆性)。

在一些实施例中，将捕获引物附接至支撑物(例如平面状支撑物)且以与RPA-珠粒方法类似的方式进行重组酶-聚合酶反应，其中水性单一反应混合物接触具有附接的捕获引物的支撑物的表面，其中水性单一反应混合物含有模板核酸、融合引物(或不具有融合引物)、反向引物、聚合酶、核苷酸、重组酶以及辅助蛋白质。

任选地，RPA单一反应混合物还包括正向融合引物，其用作夹板分子，所述夹板分子可与捕获引物和接合至经标记的核酸的第一通用衔接子序列杂交。在使用正向融合引物的实施例中，第一通用衔接子序列(其接合至靶核酸)可与融合引物的一部分杂交，但第一衔接子不具有可与支撑物(例如珠粒)上的捕获引物杂交的序列。在一些实施例中，融合引物与第一通用衔接子序列杂交，且引物延伸反应产生融合引物延伸产物，其包括可与支撑物(例如珠粒)上的捕获引物杂交的序列。可溶反向引物与融合引物延伸产物杂交，且引物延伸反应产生反向引物延伸产物。反向引物延伸产物可与支撑物(例如珠粒)上的多个捕获引物中的一个杂交，且引物延伸反应产生捕获引物延伸产物，其附接至支撑物(例如珠粒)且包括与反向引物延伸产物互补的序列。

在一些实施例中，RPA-珠粒方法包括水和油乳液，其中水性反应混合物液滴被不可混溶的流体(例如油)包围以使得水性液滴提供含有以下的分隔反应混合物：一个或多个附接有捕获引物的珠粒；模板核酸；融合引物(或不具有融合引物)；反向引物；聚合酶；核苷酸；以及重组酶和辅助蛋白质。

在一些实施例中，使用珠粒或支撑物、具有或不具有乳液的RPA反应循环可在等温扩增条件下进行。重组酶-聚合酶扩增(RPA)反应的组合物和方法的实例见于美国公布申请第2013/0225421号和第2014/0080717号，以及美国专利第7,399,590号、第7,666,598号、第8,637,253号、第8,809,021号和第9,057,097号中。

在一些实施例中，任何已根据本教示内容产生的经标记的标靶聚核苷酸(包括经标记的扩增子)可附接至固体支撑物。举例来说，可进行乳液PCR反应以将经标记的靶核酸附接至任何类型的支撑物，包括粒子或珠粒。个别经标记的靶核酸在一端包括至少一个标签序列和第一通用衔接子序列且在另一端包括至少另一个标签序列和第二通用衔接子序列。在一些实施例中，第一和第二衔接子具有不同序列。在一些实施例中，第一和/或第二衔接子包括通用测序引物序列。在一些实施例中，第一衔接子包括与第二衔接子中的通用扩增序列不同的通用扩增引物序列。在一些实施例中，经标记的靶核酸中的至少两个具有不同标靶序列。

在水和油乳液中进行emPCR-珠粒方法，其中水性反应混合物液滴被不可混溶的流体(例如油)包围以使得个别水性液滴提供含有以下的分隔反应混合物：一个或多个附接有捕获引物的珠粒；模板核酸(例如经标记的核酸)；融合引物(或不具有融合引物)；反向引物；聚合酶；和核苷酸。任选地，经标记的核酸经稀释以使得个别水性液滴仅含有一个经标记的核酸分子。在热循环条件下进行乳液PCR反应以使得经标记的靶核酸为单链。在乳液PCR期间，单链经标记的核酸与以下各者反应/接触：(i)多个在上面附接有多个捕获引物的支撑物(例如珠粒)，其中多个支撑物上的捕获引物具有相同序列且可与经标记的核酸的第一通用衔接子序列杂交；(ii)与经标记的核酸的第二通用衔接子序列相同或可与所述第二通用衔接子序列杂交的多个可溶反向引物；(iii)聚合酶；和(iv)多个核苷酸。单链经标记的靶核酸的第一通用衔接子序列区域与支撑物(例如珠粒)上的多个捕获引物中的一个杂交，且引物延伸产生捕获引物延伸产物。可溶反向引物与捕获引物延伸产物的第二通用衔接子区域杂交，且引物延伸反应产生反向引物延伸产物。反向引物延伸产物可从捕获引物延伸产物解离(例如变性)，且对于另一引物延伸反应，与相同支撑物(例如珠粒)上的不同捕获引物再杂交。重复emPCR-珠粒扩增反应循环产生附接有经标记的靶核酸的多个拷贝的珠粒以产生附接有一种经标记的靶核酸的基本上单克隆拷贝的个别珠粒。任选地，不同珠粒附接有不同经标记的靶核酸的拷贝(例如多克隆性)。在完成扩增后，乳滴可与断裂溶液接触以使液滴破裂/断裂且释放附接有经标记的核酸的珠粒。

任选地，emPCR-珠粒扩增反应混合物还包括正向融合引物，其用作夹板分子，所述夹板分子可与捕获引物和接合至靶核酸的第一通用衔接子序列杂交。在使用正向融合引物的实施例中，第一通用衔接子序列(其接合至经标记的核酸)可与融合引物的一部分杂交，但第一衔接子不具有可与支撑物(例如珠粒)上的捕获引物杂交的序列，因此经标记的核酸无法结合支撑物上的捕获引物。在一些实施例中，融合引物与第一通用衔接子序列杂交，且引物延伸反应产生融合引物延伸产物，其包括可与支撑物(例如珠粒)上的捕获引物杂交的序列。可溶反向引物与融合引物延伸产物杂交，且引物延伸反应产生反向引物延伸产物。反向引物延伸产物可与支撑物(例如珠粒)上的多个捕获引物中的一个杂交，且引物延伸反应产生捕获引物延伸产物，其附接至支撑物(例如珠粒)且包括与反向引物延伸产物互补的序列。用于emPCR-珠粒扩增反应的组合物和方法的实例可见于美国专利第7,323,305号；第7,638,276号；第7,842,457号；第8,012,690号；第8,153,402号；第8,158,359号；第8,748,102号；第8,765,380号；和PCT公布申请第WO 2012/138926号中。

在一些实施例中，本公开大体上涉及组合物，和相关方法、系统、试剂盒、装置和计算机可读媒体，包含可在热循环或等温条件，或两种类型的条件的组合下进行的核酸合成或核酸扩增反应(扩增条件)。举例来说，扩增条件可包括按任何次序在热循环与等温扩增条件之间交替。

在一些实施例中，热循环扩增条件包含核酸扩增反应混合物，其持续足以使双链靶核酸的至少约30-95％变性的时段经历高温，并且然后持续足以允许单链靶核酸与引物中的任一个(例如捕获引物、反向液相引物或融合引物)之间的杂交的时段经历较低温度。在一些实施例中，重复升温和降温循环至少一次。

在一些实施例中，等温扩增条件包含核酸扩增反应混合物，其在扩增的至少某一部分期间经历限于有限范围内的温度变化，包括例如温度变化在约20℃、或约10℃、或约5℃、或约1-5℃、或约0.1-1℃、或小于约0.1℃内。

在一些实施例中，等温核酸扩增反应可进行约2、5、10、15、20、30、40、50、60或120分钟或更久。

在一些实施例中，等温核酸扩增反应可在约15-30℃、或约30-45℃、或约45-60℃、或约60-75℃、或约75-90℃、或约90-93℃、或约93-99℃下执行。

在一些实施例中，等温扩增反应混合物包括具有或不具有重组酶辅助因子(例如T4uvsY和/或gp32蛋白质)的重组酶(例如T4uvsX)。

在一些实施例中，足够数目的经标记的靶核酸(包括其扩增子)可经测序(例如取样)以确保存在于多个经标记的聚核苷酸中的任何标靶聚核苷酸将表示于测序读段集中且因此可被检测到的概率。为了实现此目标，需要对好几千、好几万或好几百万的经标记的扩增子测序，其可任选地通过使用大规模平行测序程序实现。对好几千、好几万或好几百万的经标记的扩增子测序的能力将经标记的聚核苷酸将表示于测序读段集中且因此可被检测和分析的概率增加至约10-25％，或约25-50％，或约50-75％，或约75-90％，或约90-99.99％。

在一些实施例中，本公开大体上涉及方法，和相关组合物、系统、试剂盒、装置和计算机可读媒体，其进一步包括测序反应。在一些实施例中，可对任何根据本发明教示内容制备的经标记的靶核酸(包括其扩增子)测序。

在一些实施例中，可采用任何类型的测序平台，包括大规模平行测序平台或旧版本的测序，如：桑格测序(Sanger sequencing)、通过寡核苷酸探针接合和检测的测序(例如获自Life Technologies的SOLiD^TM，WO 2006/084132)、探针-锚接合测序(例如CompleteGenomics或Polonator^TM)、合成测序(例如获自Illumina的Genetic Analyzer^TM和HiSeq^TM(Bentley 2006《遗传学当前观点与发展(Current Opinion Genetics&Development)》16:545-552；和Bentley等人,2008《自然(Nature)》456:53-59；和美国专利第7,566,537号))、焦磷酸盐测序(例如获自454Life Sciences的Genome Sequencer FLX^TM(美国专利第7,211,390、7,244,559和7,264,929号))、离子敏感测序(例如Personal Genome Machine(IonPGM^TM)和Ion Proton^TM Sequencer，均获自Ion Torrent Systems,Inc.)，和单分子测序平台(例如获自Helicos的Heliscope^TM)。

在一些实施例中，采用合成测序的测序平台包括将多个经标记的聚核苷酸附接至支撑物(例如固定化经标记的聚核苷酸)。经标记的聚核苷酸可包括通用捕获序列(例如通用扩增序列)，且支撑物可包括其上附接的捕获引物。经标记的聚核苷酸可通过将经标记的聚核苷酸的捕获序列结合至支撑物上的捕获引物而附接至支撑物。多个经标记的聚核苷酸可经由本文所述的桥连扩增反应共价附接至支撑物。支撑物可为流动池的一部分，且支撑物包括基本上平面的表面、凹槽或以阵列布置的多个孔(例如微孔或纳米孔)。测序反应位点包括进行测序反应的支撑物上的任何位点。多个测序反应位点可位于平面表面上的任何位置、凹槽的任何区域上或任一个孔内。测序引物可与多个固定化经标记的聚核苷酸杂交。含有一种、两种、三种或四种类型的核苷酸(例如三磷酸脱氧核糖核苷酸)的水溶液可流动到多个固定化经标记的聚核苷酸上，且在结合经标记的聚核苷酸且催化核苷酸并入的聚合酶存在下开始测序反应。与模板链互补的核苷酸并入到引物上，任选的洗涤步骤去除非并入的核苷酸，且确定并入的核苷酸的标识。在一些实施例中，流体中的核苷酸附接至光学可检测标记。举例来说，不同类型的核苷酸(例如A、G、C和T)可附接至将区分一种类型的核苷酸与其它类型的不同标记。光学可检测标记可附接至核苷酸的碱基。不同类型的核苷酸也可任选地附接至赋予抑制或阻断另外的核苷酸并入的能力的阻断部分(例如终止子阻断部分)。阻断部分可附接至2'或3'糖位置。将标记附接至碱基，和将阻断部分附接至糖的连接子可为相同或不同类型的连接子。在核苷酸并入之后，通过将并入的核苷酸暴露于辐射能量(例如光)且检测来自标记的发射信号而确定并入的核苷酸的标识。光学可检测标记和/或阻断部分通过使连接子与裂解剂反应而从并入的核苷酸去除。如果相同类型的连接子用于将标记附接至碱基和将阻断部分附接至糖，那么一种类型的裂解剂可用于去除标记和阻断部分。如果不同类型的连接子用于将标记附接至碱基和将阻断部分附接至糖，那么两种类型的裂解剂可用于去除标记和阻断部分。通过进行后续核苷酸流动开始下一测序循环，且重复洗涤、识别和连接子裂解步骤。在一些实施例中，合成测序方法包括由Illumina描述的那些(美国专利第7,057,026号；第7,566,537号；第7,785,796号；第8,158,346号；第7,541,444号；第7,057,026号；第7,592,435号；第7,414,116号；第7,427,673号和第8,399,188号)和由Jingyu Ju描述的那些(美国专利第7,713,698号；第7,790,869号；第8,088,575号；第7,635,578号；和第7,883,869号)，其全部明确地以引用的方式并入本文中，如同完整阐述一般。

本文所述的经标记的靶核酸可使用适合的电或光检测器检测或测序。在一些实施例中，已根据本教示内容合成的经标记的靶核酸(和其扩增子)中的任一个可通过任何测序方法或检测方法进行测序或检测，包括合成测序、基于离子的测序(涉及使用场效应晶体管(例如FET和ISFET)检测测序副产物)、化学降解测序、基于接合的测序、杂交测序、焦磷酸测序或焦磷酸盐检测测序、毛细电泳法、凝胶电泳、下一代大规模平行测序平台、检测氢离子或其它测序副产物的测序平台以及可检测单分子测序平台的测序平台。在一些实施例中，测序反应可使用至少一个可与经标记的扩增子的任何部分，包括核酸衔接子(例如通用序列)或标靶聚核苷酸序列杂交的测序引物进行。

在一些实施例中，本公开大体上涉及用于在具有一个或多个耦接到传感器的反应位点的支撑物上进行测序反应的方法，以及相关系统、组合物、试剂盒和装置。

在一些实施例中，可在使用本文所述的技术中的任一种的检测系统中检测根据本教示内容产生的任何经标记的靶核酸的存在。举例来说，使用CMOS技术的阵列可用于仅检测特定核酸序列的存在，如通过qPCR或dPCR。可通过非光学(检测反应副产物)或光学方法检测核酸序列的存在。光学方法可包括序列上或任何与序列杂交的核苷酸上的染料标记的标签。

在一些实施例中，可使用检测核苷酸并入的一种或多种副产物的方法对根据本教示内容产生的任何经标记的靶核酸测序。通过检测延伸反应的物理化学副产物检测聚合酶延伸可包括焦磷酸盐、氢离子、电荷转移、热等，如例如Rothberg等人的美国专利第7,948,015号；和Rothberg等人,美国专利公开案第2009/0026082号中所公开，所述文献特此以全文引用的方式并入。检测基于聚合酶的延伸的方法的其它实例可见于例如Pourmand等人,《美国国家科学院院刊(Proc.Natl.Acad.Sci.)》,103:6466-6470(2006)；Purushothaman等人,IEEE ISCAS,IV-169-172；Anderson等人,《传感器和致动器B化学(Sensors andActuators B Chem.)》,129:79-86(2008)；Sakata等人,《应用化学(Angew.Chem.)》118:2283-2286(2006)；Esfandyapour等人,美国专利公开案第2008/01666727号；和Sakurai等人,《分析化学(Anal.Chem.)》64:1996-1997(1992)。另外，检测可基于电容、电阻或导电性的改变或伏安法。

广泛进行涉及产生和检测离子的反应。使用直接离子检测方法来监测此类反应的进展可简化许多当前生物分析。举例来说，可通过检测作为由聚合酶催化的核苷酸掺入的天然副产物产生的氢离子来监测通过聚合酶的模板依赖性核酸合成。离子敏感测序(也称为“基于pH的”或“基于离子的”核酸测序)利用作为核苷酸掺入的副产物产生的离子副产物(如氢离子)的直接检测。在用于基于离子的测序的一种示例性系统中，可在微孔中捕获待测序的核酸，且核苷酸可在核苷酸并入条件下一次一个或两种或更多种不同类型地流动通过孔。聚合酶将适当核苷酸掺入到生长链中，并且释放的氢离子可改变溶液中的pH，其可通过与孔耦接的离子传感器检测。此技术不需要标记核苷酸或昂贵光学组件，并且允许快得多地完成测序操作。此类基于离子的核酸测序方法和平台的实例包括Ion PGM^TM、IonProton^TM和Ion S5测序仪(Ion Torrent^TM Systems,Thermo Fisher Scientific)。

在一些实施例中，使用本教示内容的方法、系统、组合物或试剂盒产生的任何经标记的靶核酸可用作通过包括场效应晶体管(FET)的传感器检测和/或监测的生物或化学反应的底物。在各种实施例中，FET为chemFET、FinFET或ISFET。“chemFET”或化学场效应晶体管是充当化学传感器的场效应晶体管类型。其为MOSFET晶体管的结构类似物，其中闸极电极上的电荷通过化学方法施加。“ISFET”或离子敏感场效应晶体管用于测量溶液中的离子浓度；当离子浓度(如H+)改变时，通过晶体管的电流将因此改变。ISFET的操作的详细理论给出于“ISFETOLOGY的三十年：过去30年发生的和未来30年可能发生的(Thirty years ofISFETOLOGY:what happened in the past 30years and what may happen in the next30years)”,P.Bergveld,《传感器与致动器(Sens.Actuators)》,88(2003),第1-20页中。鳍式场效应晶体管或“FinFET”为非平面或三维晶体管类型。另外，纳米线可单独或与FET结合使用。

在一些实施例中，FET可为FET阵列。如本文所用，“阵列”为例如感测器或孔的元件的平面布置。阵列可为一维或二维的。一维阵列可为在第一维度具有一列(或行)元件并且在第二维度具有多个列(或行)的阵列。第一和第二维度中的列(或行)的数目可相同或不同。FET或阵列可包含10²、10³、10⁴、10⁵、10⁶、10⁷个或更多个FET。

在一些实施例中，可在FET传感器阵列上制造一个或多个微流体结构以提供生物学或化学反应的容纳或约束。举例来说，在一个实施方案中，微流体结构可配置成一个或多个安置在阵列的一个或多个传感器上的孔(或微孔，或反应腔室，或反应孔，所述术语在本文中可互换地使用)，使得上面安置有指定孔的一个或多个传感器检测和/或测量指定孔中分析物的存在、含量或浓度。在一些实施例中，FET传感器和反应孔之间可存在1:1对应。FET传感器阵列的示例性实施例可见于美国专利第7,948,015号；第8,262,900号；第8,776,573号；第8,208,712号中。

微孔或反应腔室通常为具有定义明确的形状和体积，可制造成衬底且可使用常规微型制造技术制造的空穴或孔，所述技术例如在以下参考文献中所公开：Doering和Nishi编,《半导体制造技术手册(Handbook of Semiconductor Manufacturing Technology)》,第二版(CRC Press,2007)；Saliterman,《生物医学和医学微装置原理(Fundamentals ofBioMEMS and Medical Microdevices)》(SPIE Publications,2006；Elwenspoek等人,《硅微机械加工(Silicon Micromachining)》(Cambridge University Press,2004)；等。微孔或反应腔室的配置(例如间距、形状和体积)的实例公开于Rothberg等人,美国专利公开案2009/0127589；Rothberg等人,英国专利申请GB24611127中。

在一些实施例中，生物或化学反应可在溶液或与FET(如chemFET、FinFET或ISFET)接触、可操作地耦接或电容耦接的反应腔室中进行。FET(FinFET或chemFET或ISFET)和/或反应腔室可分别为FET或反应腔室的阵列。

在一些实施例中，生物或化学反应可在反应腔室的二维或三维阵列中进行，其中每个反应腔室可耦接到FET，且每个反应腔室的体积不大于10μm³(即，1pL)。在一些实施例中，每个反应腔室的体积不大于0.34pL、0.096pL或甚至0.012pL。反应腔室的顶部横截面积可任选地不大于2、5、10、15、22、32、42、52、62、72、82、92或102平方微米。优选地，阵列具有至少10²个、10³个、10⁴个、10⁵个、10⁶个、10⁷个、10⁸个、10⁹个或更多个反应腔室。在一些实施例中，反应腔室中的至少一个可操作地耦接到FET中的至少一个。

除在CMOS制造中常规地采用的那些技术以外，如在根据本公开的各种实施例中所使用的FET阵列可根据常规CMOS制造技术以及修改的CMOS制造技术以及其它半导体制造技术制造。另外，各种光刻技术可用作阵列制造方法的一部分。

适用于所公开的方法的示例性FET阵列以及微孔和伴随流体学以及制造其的方法例如公开于美国专利公开案第20100301398号；美国专利公开案第20100300895号；美国专利公开案第20100300559号；美国专利公开案第20100197507号；美国专利公开案第20100137143号；美国专利公开案第20090127589号；以及美国专利公开案第20090026082号中，所述专利以全文引用的方式并入。

在一个方面中，所公开的方法、组合物、系统、装置以及试剂盒可用于进行无标记核酸测序，并且具体来说，基于离子的核酸测序。无标记检测核苷酸并入的概念已描述于文献，包括以引用的方式并入的以下参考文献中：Rothberg等人,美国专利公开案2009/0026082；Anderson等人,《传感器和致动器B化学》,129:79-86(2008)；和Pourmand等人,《美国国家科学院院刊》,103:6466-6470(2006)。简单来说，在核酸测序应用中，通过测量聚合酶催化的延伸反应的天然副产物，包括氢离子、聚磷酸酯、PPi以及Pi(例如在焦磷酸酶存在下)测定核苷酸并入。此类基于离子的核酸测序方法和平台的实例包括Ion PGM^TM或IonProton^TM，或Ion测序仪(Ion Torrent^TM Systems,Thermo Fisher Scientific)。

在一些实施例中，本公开大体上涉及对通过本文提供的教示内容产生的经标记的扩增子中的任一个测序的方法。在一个示例性实施例中，本公开大体上涉及从经标记的扩增子获得序列信息的方法，包含：(a)产生经标记的靶核酸(或其扩增子)；和(b)通过使用在步骤(a)期间产生的经标记的靶核酸或扩增子中的至少一个作为模板进行模板依赖性核酸合成而对经标记的靶核酸或扩增子测序。扩增可任选地根据本文所描述的扩增方法中的任一种进行。

在一些实施例中，模板依赖性合成包括以模板依赖性方式将一种或多种核苷酸并入到新合成的核酸链中。

任选地，所述方法可进一步包括产生此类核苷酸并入的一种或多种离子副产物。

在一些实施例中，所述方法可进一步包括检测一种或多种核苷酸向测序引物中的并入。任选地，检测可包括检测氢离子的释放。

在另一实施例中，本公开大体上涉及用于对核酸测序的方法，包含：(a)根据本文公开的教示内容，通过在测序粒子存在下扩增经标记的靶核酸以产生至少一个附接有含有经标记的靶核酸中的一个的一部分的基本上单克隆聚核苷酸群体的粒子而将经标记的靶核酸附接至测序粒子；和(b)将所述粒子安置到反应腔室中，其中反应腔室中的一个或多个与场效应晶体管(FET)接触。任选地，所述方法进一步包括使安置到反应腔室中的一个中的基本上单克隆聚核苷酸群体与聚合酶接触，因此通过依序将一种或多种核苷酸并入到核酸分子中而合成新核酸链。任选地，所述方法进一步包括产生一个或多个氢离子作为此类核苷酸并入的副产物。任选地，所述方法进一步包括通过使用FET检测一个或多个氢离子的产生来检测一种或多种核苷酸的并入。

在一些实施例中，检测包括响应于一个或多个氢离子的产生来检测在阵列内的至少一个FET处的电压和/或电流的变化。

在一些实施例中，FET可选自由以下组成的群组：离子敏感FET(ISFET)和化学敏感FET(chemFET)。

在一些实施例中，本公开大体上涉及用于核酸测序的方法(和相关组合物、系统、试剂盒和装置)，包含根据本文公开的方法中的任一种识别核酸模板中的一系列连续核苷酸。

一种涉及经由检测核苷酸并入的离子副产物而测序的示例性系统为Ion PGM^TM或Ion Proton^TM或Ion测序仪(Ion Torrent System,Thermo Fisher Scientific)，其为通过检测作为核苷酸并入的副产物产生的氢离子来对核酸模板测序的基于离子的测序系统。通常，氢离子作为通过聚合酶的模板依赖性核酸合成期间发生的核苷酸并入的副产物释放。Ion PGM^TM、Ion Proton^TM或Ion测序仪通过检测核苷酸掺入的氢离子副产物来检测核苷酸掺入。Ion PGM^TM、Ion Proton^TM或Ion 测序仪可包括多个待测序的核酸模板，每个模板安置于阵列中的对应测序反应孔内。阵列的孔可各自耦接到至少一个离子传感器，所述传感器可以检测作为核苷酸并入的副产物产生的H⁺离子的释放或溶液pH的变化。离子传感器包含耦接到离子敏感检测层的场效应晶体管(FET)，所述检测层可感测H⁺离子的存在或溶液pH的变化。离子传感器可提供指示核苷酸掺入的输出信号，其可表示为量值与对应孔或反应腔室中的H⁺离子浓度相关的电压变化。不同核苷酸类型可连续流入反应腔室中，且可通过聚合酶以通过模板序列测定的顺序并入到延伸引物(或聚合位点)中。或者，一种类型的核苷酸可流入反应腔室中，且可通过聚合酶以通过模板序列测定的顺序并入到延伸引物(或聚合位点)中。每个核苷酸并入可伴随着反应孔中的H⁺离子释放，连同局部pH的伴随变化。可通过传感器的FET登记H⁺离子的释放，所述FET产生指示发生核苷酸并入的信号。在特定核苷酸流动期间未并入的核苷酸可能不产生信号。来自FET的信号的幅值也可与并入到延伸核酸分子中的特定类型的核苷酸的数目有关，由此允许解析均聚物区域。因此，在测序仪操作期间，多个核苷酸流入反应腔室中，连同经多个孔或反应腔室的并入监测可允许仪器同时解析许多核酸模板的序列。关于Ion PGM^TM或Ion Proton^TM或Ion S5^TM或IonS5XL^TM测序仪的组成、设计和操作的其它细节可见于例如美国专利申请序号12/002781，现以美国专利公开第2009/0026082号公开；美国专利申请序号12/474897，现以美国专利公开第2010/0137143号公开；和美国专利申请序号12/492844，现以美国专利公开第2010/0282617号公开，所述申请全部以全文引用的方式并入本文中。

在基于离子的核酸测序的典型实施例中，可通过检测通过聚合酶催化的延伸反应产生的氢离子的存在和/或浓度而检测核苷酸并入。在一个实施例中，任选地预结合于测序引物和/或聚合酶的模板可装载到反应腔室(例如本文中引用的Rothberg等人中公开的微孔)中，在其之后可进行核苷酸添加和洗涤的重复循环。在一些实施例中，此类模板可作为克隆群体附接至固体支撑物，例如粒子、珠粒等，且将所述克隆群体装载到反应腔室中。

在另一实施例中，任选地结合至聚合酶的经标记的靶核酸模板分布、沉积或定位至阵列的不同位点。阵列的位点包括引物且方法可包括将不同模板与不同位点内的引物杂交。

在循环的每个添加步骤中，仅当模板中的下一碱基是添加的核苷酸的补体时，聚合酶才可以通过并入添加的核苷酸来延伸引物。如果存在一个互补碱基，那么存在一次并入，如果存在两个互补碱基，那么存在两次并入，如果存在三个互补碱基，那么存在三次并入，以此类推。在每个此类并入的情况下存在所释放的氢离子，且释放氢离子的模板群体共同地改变反应腔室的局部pH。氢离子的产生与模板中的相邻互补碱基的数目(以及参与延伸反应的具有引物和聚合酶的模板分子的总数)单调相关。因此，当模板中存在许多相邻一致互补碱基(即，均聚物区域)时，所产生的氢离子的数目以及因此局部pH变化的幅值可与相邻一致互补碱基的数目成正比。如果模板中的下一个碱基不与所添加的核苷酸互补，那么不会发生并入并且不会释放氢离子。在一些实施例中，在添加核苷酸的每个步骤之后，可进行额外步骤，其中使用在预定pH下的无缓冲洗涤溶液来去除前述步骤的核苷酸以防止随后循环中的误并入。在一些实施例中，在添加核苷酸的每个步骤之后，可进行额外步骤，其中用核苷酸破坏剂(例如腺苷三磷酸双磷酸酶)处理反应腔室以消除残留在腔室中的可能在随后循环中产生假延伸的任何残余核苷酸。

在一个示例性实施例中，将不同种类的核苷酸依序添加到反应腔室，以使得各反应物可一次一个地暴露于不同核苷酸。举例来说，可按以下顺序添加核苷酸：dATP、dCTP、dGTP、dTTP、dATP、dCTP、dGTP、dTTP等；每次暴露之后为洗涤步骤。取决于所需序列信息长度，循环可重复50次、100次、200次、300次、400次、500次、750次或更多次。

在一些实施例中，可根据随Ion PGM^TM、Ion Proton^TM或Ion测序仪提供的用户协议进行测序。实例3提供使用Ion PGM^TM测序仪(Ion Torrent^TMSystems,Thermo FisherScientific)进行基于离子的测序的一种示例性协议。

在一些实施例中，CMOS传感器可检测核苷酸并入事件，包括检测核苷酸并入副产物。在一些实施例中，除使用CMOS技术检测反应副产物，如氢离子、磷酸根离子、焦磷酸根离子或磷酸盐链以外，CMOS技术可用作传感器以检测其它可测量信号。举例来说，CMOS技术可用于检测荧光、磷光、发光、生物发光。在一些实施例中，传感器的表面可具有受体或可用表面治疗剂处理以使得传感器表面可吸引和/或结合至任何检测的分子。表面处理可用于提高系统的信噪比(SNR)。在一些实施例中，传感器可与纳米线组合。

在一些实施例中，本公开大体上涉及对模板聚核苷酸的群体测序的方法，包含：(a)通过以克隆方式将多个标靶聚核苷酸扩增至多个粒子上而产生多个扩增子，其中扩增在反应混合物的单一连续相内进行且其中至少10％、20％、30％、40％、50％、60％、70％、80％、90％或95％的所得扩增子在本质上基本为单克隆的。在一些实施例中，在单一扩增反应中产生足够数目的基本上单克隆扩增子以在Ion Torrent PGM^TM 314、316或318测序仪上产生至少100MB、200MB、300MB、400MB、500MB、750MB、1GB或2GB的AQ20测序读数。如本文所用，术语“AQ20”和其变化形式是指测量Ion Torrent PGM^TM测序仪中的测序精确度的特定方法。可关于Phred样Q分数测量精确度，所述Q分数在对数尺度上测量精确度：Q10＝90％，Q20＝99％，Q30＝99.9％，Q40＝99.99％，以及Q50＝99.999％。举例来说，在特定测序反应中，可通过预测算法或通过与已知参考基因组的实际比对来计算精确度度量值。预测的质量分数(“Q”分数)可从查看输入信号的固有特性的算法导出并且关于测序“读段”中所包括的给定单一碱基是否将比对作出极其精确的估计。在一些实施例中，此类预测的质量分数可适用于在下游比对之前过滤并且去除较低质量读段。在一些实施例中，可关于在对数尺度上测量精确度的Phred样Q分数报告精确度以使得：Q10＝90％，Q17＝98％，Q20＝99％，Q30＝99.9％，Q40＝99.99％，以及Q50＝99.999％。在一些实施例中，可过滤获自给定聚合酶反应的数据以仅测量聚合酶读段，其测量“N”个核苷酸或更长核苷酸并且具有超过一定阈值的Q分数，例如Q10、Q17、Q100(在本文中被称作“NQ17”分数)。举例来说，100Q20分数可指示获自给定反应的读段的数目，其长度为至少100个核苷酸且Q分数为Q20(99％)或更大。类似地，200Q20分数可指示长度为至少200个核苷酸且Q分数为Q20(99％)或更大的读段的数目。

在一些实施例中，也可基于使用参考基因组序列的恰当比对计算精确度，在本文中被称作“原始”精确度。与测量作为多个读段的结果的与共同序列的误差率的共同精确度相反，这是涉及测量与单一读段相关的“真实”每个碱基误差的单向精确度。原始精确度测量值可在“AQ”分数(针对比对质量)方面报告。在一些实施例中，可过滤获自给定聚合酶反应的数据以仅测量聚合酶读段，其测量“N”个核苷酸或更长核苷酸，具有超过一定阈值的AQ分数，例如AQ10、AQ17、AQ100(在本文中被称作“NAQ17”分数)。举例来说，100AQ20分数可指示获自给定聚合酶反应的读段的数目，其长度为至少100个核苷酸且AQ分数为AQ20(99％)或更大。类似地，200AQ20分数可指示长度为至少200个核苷酸且AQ分数为AQ20(99％)或更大的读段的数目。

在一些实施例中，本公开大体上涉及组合物，以及相关系统、方法、试剂盒、装置和计算机可读媒体，包含标签，例如具有标签序列的寡核苷酸。任选地，标签为随机物标签。

在一些实施例中，本公开大体上涉及组合物，以及相关系统、方法、试剂盒、装置和计算机可读媒体，包含标签对。任选地，标签对包括正向和反向标签引物，或左侧和右侧标签衔接子。任选地，标签对可用于引物延伸反应(例如PCR反应)或酶接合反应。任选地，在标签对中，一个或两个为随机物标签。

在一些实施例中，随机物标签包含具有随机物标签的寡核苷酸，所述随机物标签包括至少一个随机序列(例如简并序列)和至少一个固定序列，或包含在两侧上经固定序列侧接的随机序列，或包含在两侧上经随机序列侧接的固定序列。在一些实施例中，随机物标签包含具有至少两个与至少两个固定序列相间的随机序列的寡核苷酸。在一些实施例中，随机物标签包含3个与3个固定序列相间的随机序列，或4个与4个固定序列相间的随机序列。所属领域的技术人员将认识到随机物标签可包括与任何数目的固定序列单元相间的任何数目的随机序列单元。

在一些实施例中，随机物标签内的固定序列包含1-20个或更多个核苷酸，或其类似物。在一些实施例中，随机物标签内的随机序列包含1-20个或更多个核苷酸，或其类似物。在一些实施例中，随机物标签的随机序列内的每个位置为选自A、T、G、C、I、U的核苷酸，或其类似物。

在一些实施例中，标签(或随机物标签)为可溶标签(例如在溶液中的标签)或标签附接至支撑物，包括附接至基本上平面的支撑物或珠粒支撑物的标签。

在一些实施例中，本公开大体上涉及组合物，以及相关系统、方法、试剂盒、装置和计算机可读媒体，包含多个标签。任选地，多个标签包括至少两个随机物标签。

在一些实施例中，多个随机物标签包含多个寡核苷酸，其中个别随机物标签包括至少一个随机序列(例如简并序列)和至少一个固定序列，或包含在两侧上经固定序列侧接的随机序列，或包含在两侧上经随机序列侧接的固定序列。。任选地，随机物标签包含具有至少两个与至少两个固定序列相间的随机序列的寡核苷酸。

在一些实施例中，一个或多个标签包括可检测部分。在一些实施例中，标记可产生或导致产生可检测信号。在一些实施例中，可检测信号可产生自化学或物理变化(例如热、光、电、pH、盐浓度、酶活性或邻近事件)。举例来说，邻近事件可包括两个彼此接近，或彼此缔合，或彼此结合的报告子部分。在一些实施例中，可检测信号可以光学方式、以电学方式、以化学方式、以酶方式、以热方式或经由质谱分析或拉曼光谱分析(Raman spectroscopy)检测。在一些实施例中，标记可包括发光、光致发光、电致发光、生物发光、化学发光、荧光、磷光或电化学的化合物。在一些实施例中，标记可包括为荧光团、发色团、放射性同位素、半抗原、亲和标签、原子或酶的化合物。在一些实施例中，标记包含典型地不存在于天然存在的核苷酸中的部分。举例来说，标记可包括荧光、发光或放射性部分。

在一些实施例中，本公开大体上涉及组合物，以及相关系统、方法、试剂盒、装置和计算机可读媒体，包含含有至少一个标签序列的单链或双链引物。任选地，标签为随机物标签。任选地，引物包括可与标靶聚核苷酸的至少一部分杂交的标靶特异性序列。举例来说，标靶特异性序列位于引物的3'区中。任选地，引物包括可延伸3'端，例如末端3'OH。任选地，引物的5'区包括至少一个标签(例如随机物标签)。任选地，引物包括至少一个条形码序列、扩增引物序列、测序引物序列、捕获引物序列或可裂解位点。

在一些实施例中，本公开大体上涉及组合物，以及相关系统、方法、试剂盒、装置和计算机可读媒体，包含含有至少一个标签序列(例如标签衔接子)的单链或双链衔接子。任选地，标签为随机物标签。

任选地，双链衔接子包括至少一个平端。任选地，双链衔接子包括至少一个5'或3'外伸端。任选地，5'或3'外伸端可与至少一个标靶聚核苷酸的末端区域杂交。

任选地，衔接子的至少一端可接合至另一核酸(例如标靶聚核苷酸)。任选地，衔接子的一条链包括末端5'磷酸基。任选地，衔接子的一条链包括末端3'OH基团。

任选地，衔接子包括至少一个条形码序列、通用序列、扩增引物序列、测序引物序列、捕获引物序列或可裂解位点。

在一些实施例中，含有至少一个标签(例如至少一个随机物标签)的引物中的任一个在可选择性地与至少一个标靶聚核苷酸的一部分杂交的其3'区中包括基因特异性区域，其中标靶聚核苷酸含有与位于选自以下的基因中的至少一个中的癌症相关的突变：ABI1；ABL1；ABL2；ACSL3；ACSL6；AFF1；AFF3；AFF4；AKAP9；AKT1；AKT2；ALK；APC；ARHGAP26；ARHGEF12；ARID1A；ARNT；ASPSCR1；ASXL1；ATF1；ATIC；ATM；AXIN2；BAP1；BARD1；BCAR3；BCL10；BCL11A；BCL11B；BCL2；BCL3；BCL6；BCL7A；BCL9；BCR；BIRC3；BLM；BMPR1A；BRAF；BRCA1；BRCA2；BRD3；BRD4；BRIP1；BUB1B；CARD11；CARS；CASC5；CBFA2T3；CBFB；CBL；CBLB；CBLC；CCDC6；CCNB1IP1；CCND1；CCND2；CD74；CD79A；CDC73；CDH1；CDH11；CDK4；CDK6；CDKN2A；CDKN2B；CDKN2C；CDX2；CEBPA；CEP110；CHEK1；CHEK2；CHIC2；CHN1；CIC；CIITA；CLP1；CLTC；CLTCL1；COL1A1；CREB1；CREB3L2；CREBBP；CRTC1；CRTC3；CSF1R；CTNNB1；CXCR7；CYLD；CYTSB；DCLK3；DDB2；DDIT3；DDR2；DDX10；DDX5；DDX6；DEK；DGKG；DICER1；DNMT3A；EGFR；EIF4A2；ELF4；ELL；ELN；EML4；EP300；EPS15；ERBB2；ERBB4；ERC1；ERCC2；ERCC3；ERCC4；ERCC5；ERG；ETV1；ETV4；ETV5；ETV6；EWSR1；EXT1；EXT2；EZH2；FAM123B；FANCA；FANCC；FANCD2；FANCE；FANCF；FANCG；FAS；FBXW7；FCRL4；FGFR1；FGFR1OP；FGFR2；FGFR3；FH；FIP1L1；FLCN；FLI1；FLT1；FLT3；FNBP1；FOXL2；FOXO1；FOXO3；FOXO4；FOXP1；FUS；GAS7；GATA1；GATA2；GATA3；GMPS；GNAQ；GNAS；GOLGA5；GOPC；GPC3；GPHNGPR124；HIP1；HIST1H4I；HLF；HNF1A；HNRNPA2B1；HOOK3；HOXA11；HOXA13；HOXA9；HOXC11；HOXC13；HOXD13；HRAS；HSP90AA1；HSP90AB1；IDH1；IDH2；IKZF1；IL2；IL21R；IL6ST；IRF4；ITGA10；ITGA9；ITK；JAK1；JAK2；JAK3；KDM5A；KDM5C；KDM6A；KDR；KDSR；KIAA1549；KIT；KLF6；KLK2；KRAS；KTN1；LASP1；LCK；LCP1；LHFP；LIFR；LMO2；LPP；MAF；MALT1；MAML2；MAP2K1；MAP2K4；MDM2；MDM4；MECOM；MEN1；MET；MITF；MKL1；MLH1；MLL；MLLT1；MLLT10；MLLT3；MLLT4；MLLT6；MN1；MPL；MRE11A；MSH2；MSH6；MSI2；MSN；MTCP1；MTOR；MUC1；MYB；MYC；MYCL1；MYCN；MYH11；MYH9；MYST3；MYST4；NACA；NBN；NCOA1；NCOA2；NCOA4；NEK9；NF1；NF2；NFE2L2；NFKB2；NIN；NKX2-1；NLRP1；NONO；NOTCH1；NOTCH2；NPM1；NR4A3；NRAS；NSD1；NTRK1；NTRK3；NUMA1；NUP214；NUP98；OLIG2；OMD；PAFAH1B2；PALB2；PATZ1；PAX3；PAX5；PAX7；PAX8；PBRM1；PBX1；PCM1；PDE4DIP；PDGFB；PDGFRA；PDGFRB；PER1；PHOX2B；PICALM；PIK3CA；PIK3R1；PIM1；PLAG1；PML；PMS1；PMS2；POU2AF1；POU5F1；PPARG；PPP2R1A；PRCC；PRDM16；PRF1；PRKAR1A；PRRX1；PSIP1；PTCH1；PTEN；PTPN11；RABEP1；RAD50；RAD51L1；RAF1；RANBP17；RAP1GDS1；RARA；RB1；RBM15；RECQL4；REL；RET；RHOH；RNF213；ROS1；RPN1；RPS6KA2；RUNX1；RUNX1T1；SBDS；SDHAF2；SDHB；SETD2；SFPQ；SFRS3；SH3GL1；SLC45A3；SMAD4；SMARCA4；SMARCB1；SMO；SOCS1；SRC；SRGAP3；SS18；SS18L1；STIL；STK11；STK36；SUFU；SYK；TAF15；TAF1L；TAL1；TAL2；TCF12；TCF3；TCL1A；TET1；TET2；TEX14；TFE3；TFEB；TFG；TFRC；THRAP3；TLX1；TLX3；TMPRSS2；TNFAIP3；TOP1；TP53；TPM3；TPM4；TPR；TRIM27；TRIM33；TRIP11；TSC1；TSC2；TSHR；USP6；VHL；WAS；WHSC1L1；WRN；WT1；XPA；XPC；ZBTB16；ZMYM2；ZNF331；ZNF384；和ZNF521。

在一些实施例中，含有至少一个标签(例如至少一个随机物标签)的引物中的任一个在可选择性地与至少一个标靶聚核苷酸的一部分杂交的其3'区中包括基因特异性区域，其中标靶聚核苷酸含有与位于选自以下的基因中的至少一个中的癌症相关的突变：：ABL1；AKT1；ALK；APC；ATM；BRAF；CDH1；CDKN2A；CSF1R；CTNNB1；EGFR；ERBB2；ERBB4；FBXW7；FGFR1；FGFR2；FGFR3；FLT3；GNAS；HNF1A；HRAS；IDH1；JAK2；JAK3；KDR；KIT；KRAS；MAP2K1；MET；MLH1；MPL；NOTCH1；NPM1；NRAS；PIC3CA；PDGFRA；PIK3CA；PTEN；PTPN11；RB1；RET；ROS1，SMAD4；SMARCB1；SMO；SRC；STK11；TP53；和VHL。

在一些实施例中，本公开大体上涉及组合物，以及相关系统、方法、试剂盒、装置和计算机可读媒体，包含附加至至少一个标签的单链或双链聚核苷酸，包括经标记的核酸。任选地，标签为随机物标签。任选地，聚核苷酸在一端附加至第一随机物标签，且在另一端附加至第二随机物标签。任选地，一端或两端另外包含至少一个条形码标签。

在一些实施例中，本公开大体上涉及组合物，以及相关系统、方法、试剂盒、装置和计算机可读媒体，包含含有以下的单一反应混合物：(i)包括至少第一聚核苷酸和第二聚核苷酸的多个聚核苷酸，和(ii)包括至少第一、第二、第三和第四随机物标签的多个标签(例如随机物标签)。多个标签包含经标记的单链引物或经标记的双链衔接子。

在一些实施例中，多个聚核苷酸包含不同聚核苷酸或具有相同序列的聚核苷酸的混合物。多个聚核苷酸包括标靶和非标靶聚核苷酸，或不具有非标靶聚核苷酸。

在一些实施例中，多个随机物标签包含不同随机物标签的混合物。

任选地，单一反应混合物进一步包含用于将随机物标签附加至聚核苷酸的试剂中的任一种或任何组合，包括：接合酶、ATP、聚合酶(例如重组聚合酶)、核苷酸和/或用于增强引物延伸反应的阳离子(例如镁和/或锰)。任选地，单一反应混合物进一步包含用于转座子介导的插入和片段化(例如标签化)的试剂，包括至少一种包括多个转座酶和多个转座子末端序列的转座体复合物。任选地，单一反应混合物包括至少一个附加至一个或多个随机物标签的聚核苷酸(例如至少一个经标记的聚核苷酸)。任选地，单一反应混合物包括至少一个产生自经标记的聚核苷酸的扩增子。

在一些实施例中，本公开大体上涉及组合物，以及相关系统、方法、试剂盒、装置和计算机可读媒体，包含一种或多种含有聚核苷酸的核酸样品，例如包括标靶和/或非标靶聚核苷酸的混合物的核酸样品。核酸样品中的聚核苷酸可包括DNA和/或RNA。核酸样品中的聚核苷酸可包括单链和/或双链聚核苷酸中的任一种或任何组合。核酸样品中的聚核苷酸可包括cDNA。核酸样品可来源于生物样品，包括生物流体、细胞培养物、实体组织或实体肿瘤。核酸样品可来源于单管的所抽血液(例如大致7.5-10mL)。核酸样品可来源于合并在一起作为经历标签附加反应的聚核苷酸的来源的多管所抽血液。核酸样品可来源于任何生物体，包括人类、犬科动物、猫科动物、牛科动物、马科动物、鼠类、猪科动物、山羊类动物、狼、蛙科动物、鱼类、猴、猿、植物、昆虫、细菌、病毒或真菌。核酸样品可来源于水、土壤或食物。

在一些实施例中，核酸样品可来源于任何器官，包括头部、颈部、大脑、乳房、卵巢、子宫颈、结肠、直肠、子宫内膜、胆囊、肠、膀胱、前列腺、睾丸、肝、肺、肾、食道、胰脏、甲状腺、垂体、胸腺、皮肤、心脏、喉或其它器官。

在一些实施例中，核酸样品来源于生物样品，包括获自血液、血清、血浆、唾液、痰液、汗液、泪液、灌洗液、羊膜液(例如来自怀孕女性)、脑脊髓液、腹水、尿液、大便、粪便、精液等的生物流体。举例来说，血液、血清、和血浆包括其洗脱份或经处理部分。任选地，核酸样品可为福尔马林固定石蜡包埋(FFPE)样品，其含有聚核苷酸。

在一些实施例中，生物样品包括通过活检、拭子、穿刺活检(例如细针活检或细针抽吸)、经由微型钳的活检、涂片或空气传播的核酸获得的生物流体或固体组织。在一些实施例中，实体组织包括健康或病变组织(例如肿瘤)或流体，或健康和病变组织或流体的混合物。

在一些实施例中，核酸样品来源于含有细胞、细菌、病毒、真菌和/或无细胞核酸或从循环肿瘤细胞分离的核酸的生物样品。

在一些实施例中，核酸样品在不同时间点从相同来源(例如相同个体)分离。举例来说，核酸样品获自多个时间点处的相同个体、组织、肿瘤、细胞或生物流体。在不同秒、分钟、小时、天、周、月份或年份获得核酸样品。肿瘤包括非恶性、前恶性和/或恶性细胞。

在一些实施例中，核酸样品在不同时间点从不同来源(例如不同个体)分离。举例来说，(1)在第一时间点，核酸样品获自第一个体、组织、肿瘤、细胞或生物流体，且(2)在第二时间点，核酸样品获自第二个体、组织、肿瘤、细胞或生物流体。在后续时间点，可获得额外核酸样品。不同时间点包括不同秒、分钟、小时、天、周、月份或年份。

在一些实施例中，核酸样品可经历独立的处理步骤以提取聚核苷酸，且提取的聚核苷酸可用于进行标签附加反应。任选地，可进行任选的富集步骤以去除细胞碎片。举例来说，生物流体内含有的细胞可经裂解以释放聚核苷酸，其接着经富集或纯化以去除细胞碎片。在一些实施例中，核酸样品可在无任何独立的聚核苷酸提取步骤的情况下直接用于标签附加反应。举例来说，核酸样品(例如含有细胞或无细胞核酸的生物流体)可连同如本教示内容中所述的用于进行任何标签附加和/或扩增步骤的各种试剂直接添加至反应容器。或者，无细胞核酸可从生物来源提取且连同如本教示内容中所述的用于进行任何标签附加和/或扩增步骤的各种试剂添加至反应容器。在一些实施例中，不实践独立的细胞溶解步骤，或在标签附加步骤之前进行溶解步骤。

在一些实施例中，核酸样品可为参考标准。举例来说，参考标准由已知携有突变序列的工程改造细胞系(例如癌细胞系)或由不携有所关注的突变序列的工程改造细胞系制成，或参考标准由重组核酸制成。任选地，参考标准经片段化为与从生物流体(例如血液)提取的cfDNA的尺寸类似的平均尺寸(例如约160bp)。参考标准的一个实例可商购自HorizonDiagnostics(Cambridge,United Kingdom)。

在一些实施例中，本公开大体上涉及组合物，以及相关系统、方法、试剂盒、装置和计算机可读媒体，包含多个聚核苷酸。多个聚核苷酸可包括单链或双链聚核苷酸，或两个的混合物。多个聚核苷酸可包括cDNA。多个聚核苷酸包含DNA、cfDNA(例如无细胞DNA)、ctDNA(例如循环肿瘤DNA)、cfRNA(无细胞RNA)、cDNA(例如合成自RNA的复制DNA)、RNA、RNA/DNA或核酸类似物。多个聚核苷酸包含mRNA、miRNA、rRNA、tRNA或这些核酸中的任一个的混合物(例如RNA和DNA的混合物)。多个聚核苷酸可包括具有相同序列或不同序列的混合物的聚核苷酸。多个聚核苷酸可包括具有相同或不同长度的聚核苷酸。多个聚核苷酸可包括约2-10，或约10-50，或约50-100，或约100-500，或约500-1,000，或约1,000-5,000，或约10³-10⁶，或约10⁶-10¹⁰个或更多个聚核苷酸分子。多个聚核苷酸包含脱氧核糖核苷酸、核糖核苷酸和/或其类似物的聚合物。多个聚核苷酸包含天然存在的、合成、重组、克隆、片段化、非片段化、扩增、未扩增或存档(例如保藏)形式。多个聚核苷酸可使用酶、化学或机械程序(例如机械剪切、超声处理、喷雾或声学)随机片段化。片段化可使用不同限制核酸内切酶中的任一个或组合预定。多个聚核苷酸的片段化可使用缺口平移反应在不具有可检测部分的核苷酸存在下，或在经标记的核苷酸存在下随机进行，所述缺口平移反应采用一种或多种耦合核酸缺口与缺口平移活性的酶。在一些实施例中，根据本教示内容进行的缺口平移条件产生未标记的核酸片段(U.S.2012/0301926,Chen)。举例来说，本教示内容可包括包含缺口酶(例如DNA酶I)和具有5'→3'降解/聚合活性的聚合酶的缺口平移条件，或可包括缺口酶(例如DNA酶I)和具有5'→3'链取代活性的聚合酶(例如Taq聚合酶)。根据本教示内容的缺口平移反应可进一步包括一个或多个未标记核苷酸(例如dATP、dTTP、dCTP、dGTP、dUTP或其类似物)。缺口平移反应可包括阳离子，如镁、锰或钙。缺口平移反应可包括至少一个单链结合蛋白，包括噬菌体T4gp 32蛋白、硫磺矿硫化叶菌(Sulfolobus solfataricus)单链结合蛋白、詹氏甲烷球菌(Methanococcus jannaschii)单链结合蛋白或大肠杆菌(E.coli)单链结合蛋白。片段尺寸可为约20-10,000个碱基对的长度。

在一些实施例中，本公开大体上涉及组合物，以及相关系统、方法、试剂盒、装置和计算机可读媒体，包含多个包括标靶和非标靶聚核苷酸，或不含非标靶聚核苷酸的聚核苷酸。举例来说，标靶聚核苷酸为所关注的聚核苷酸，且非标靶聚核苷酸为非所关注的聚核苷酸。多个聚核苷酸可包括至少一个标靶聚核苷酸组，其含有标靶聚核苷酸和其相关变异体。举例来说，标靶聚核苷酸组可包括标靶聚核苷酸，其为野生型形式和其相关多态形式，可包括变异、等位基因和/或突变形式。相关变异形式含有至少一个基因点突变、插入、缺失、取代、反转、重排、剪接、序列融合(例如基因融合或RNA融合)、截短、颠换、转位、无义突变、序列重复、单核苷酸多态性(SNP)或其它基因重排。突变或变异序列也包括拷贝数变异、非整倍性、部分非整倍性或多倍性。

在一些实施例中，本公开大体上涉及组合物，以及相关系统、方法、试剂盒、装置和计算机可读媒体，包含可附加至聚核苷酸的标签。在一些实施例中，标签包含寡核苷酸，包括单链或双链寡核苷酸。

在一些实施例中，本公开大体上涉及组合物，以及相关系统、方法、试剂盒、装置和计算机可读媒体，包含多个可附加至多个聚核苷酸的标签。多个标签中的不同标签可具有相同特征或不同特征。

标签可包括特征，包括序列、长度和/或可检测部分，或识别其所附加的聚核苷酸分子的任何其它特征。

举例来说，标签(例如具有独特标签序列)可独特地识别其所附加的个别聚核苷酸，且区分个别聚核苷酸与混合物中的其它经标记的聚核苷酸。

在另一实例中，附加至多个聚核苷酸的标签(例如具有样品特异性序列或样品特异性条形码序列)可识别衍生自常用样品或来源的聚核苷酸。在一些实施例中，单一反应混合物中的大体上全部经标记的分子可附有相同条形码序列。

标签可附加至双链聚核苷酸以识别链中的一条或两条。

在一些实施例中，经标记的聚核苷酸的接合序列可用于识别聚核苷酸。举例来说，含有标签(例如独特标签或样品特异性标签)的至少一部分和与标签并列的聚核苷酸(例如内源性聚核苷酸序列)的一部分的接合序列可用于识别聚核苷酸。接合序列可包括标签的一部分和聚核苷酸的至少2-20，或约20-50，或约50-100个或更多个核苷酸。任选地，聚核苷酸的一端或两端附加至一个或多个标签。任选地，一个或两个接合序列可用于识别聚核苷酸。

在一些实施例中，标签包含DNA、RNA或DNA和RNA，或其类似物。标签包含单链或双链核酸，或其类似物。标签可为天然存在的、合成、重组形式。

对于包括DNA和RNA的标签，标签的5'端为RNA或DNA。对于包括DNA和RNA的标签，标签的3'端为RNA或DNA。

在一些实施例中，双链标签的至少一端为平端或外伸端，包括5'或3'外伸端。

标签可为任何长度，包括2-2000个核苷酸或碱基对，或2-1000个核苷酸或碱基对，或2-100个核苷酸或碱基对，或2-75个核苷酸或碱基对，或2-50个核苷酸或碱基对，或2-25个核苷酸或碱基对，或2-10个核苷酸或碱基对。标签可为约100-200个核苷酸或更长。

在一些实施例中，多个标签包括具有相同或不同长度的标签。

在一些实施例中，多个标签包括具有相同或不同序列的标签。

在一些实施例中，多个标签包括具有相同或不同可检测部分的标签。

任选地，标签可在使得标签对核酸酶具抗性的核苷酸之间包括核苷酸类似物或键。任选地，标签包括至少一个硫赶磷酸酯、硫代磷酸酯和/或氨基磷酸酯键。

任选地，标签包括包括附接至核苷酸的2'或3'糖基团的阻断基团的部分，其中阻断基团抑制核苷酸并入。

任选地，标签的3'端可包括3'OH。

任选地，标签的5'端可包括磷酸基。

任选地，标签可在任一端或标签内的任何内部位置经生物素标记。

任选地，标签可包括裂解位点，包括限制性核酸内切酶序列、缺口酶序列、IIs型序列或至少一个尿嘧啶碱基。举例来说，含有至少一个尿嘧啶碱基的标签可通过尿嘧啶DNA糖基化酶(UDG)和甲酰胺基嘧啶DNA糖基化酶(Fpg)裂解。

任选地，标签可包括至少一个独特标签序列、至少一个条形码序列(例如样品特异性标签序列)、至少一个通用序列，其包括扩增引物序列、测序引物序列、可裂解位点和/或用于接枝至支撑物的序列(例如捕获引物序列)。

在一些实施例中，标签基本上并非自杂交的，如此其不易于形成发夹、茎环或环状结构。

在一些实施例中，标签为线性核酸分子。

在一些实施例中，标签为自杂交的，因此其可形成发夹、茎环或环状结构。

在一些实施例中，标签可为扩增或测序引物的一部分，或衔接子的一部分，或标签可为分离的核酸。

在一些实施例中，标签可使用重组或化学合成技术，或通过组合合成方法合成。

任选地，可通过手动混合或机器混合不同批次的标签而制得不同标签的混合物。

在一些实施例中，至少一个标签可附加至线性或环状聚核苷酸分子。

标签可插入到聚核苷酸的内部区域中，或附加至聚核苷酸的一端或两端。

在一些实施例中，标签的序列可经设计以与聚核苷酸的一部分杂交，或展现与聚核苷酸的最小杂交。任选地，标签基本上不与任何聚核苷酸序列杂交。

在一些实施例中，标签集(例如标签库)可包括多个具有相同序列的标签，或所述集中的至少两个标签含有不同序列。

在一些实施例中，标签集包括约1-4个独特标签，或4-100个独特标签，或100-500个独特标签，或500-1000个独特标签，或1000-5000个独特标签，或5000-10,000个独特标签，或大于10,000个独特标签。

在一些实施例中，标签集包括约10⁵，或10⁶，或10⁷，或10⁸，或10⁹，或10¹⁰，或10¹¹，或10¹²个更多个独特标签。

在一些实施例中，标签集可检测到核酸样品中存在5-100，或100-200，或200-300，或300-400，或400-500个或更多个不同标靶聚核苷酸。

标签集可包括多个具有相同长度的标签，或所述集中的至少两个标签具有不同长度。

集内的至少两个标签可通过其序列、长度和/或可检测部分彼此区分。

集内的至少两个标签具有基本上相同的熔融温度，其中熔融温度在彼此的约10-5℃内，或在彼此的约5-2℃内，或在彼此的约2-0.5℃内，或彼此的小于约0.5℃内。

标签集中的至少一个标签标记有可检测部分，或集中的所有标签未经标记。

集中的至少两个标签展现最小交叉杂交。

标签集中的至少一个标签含有至少1、2、3或4个不同于集中的另一标签的碱基。

在一些实施例中，本公开大体上涉及组合物，以及相关系统、方法、试剂盒、装置和计算机可读媒体，包含标签，其为可附加至聚核苷酸的随机物标签。

在一些实施例中，本公开大体上涉及组合物，以及相关系统、方法、试剂盒、装置和计算机可读媒体，包含多个标签，其为可附加至多个聚核苷酸的随机物标签。多个随机物标签中的不同随机物标签可具有相同特征或不同特征。

在一些实施例中，含有至少一个随机序列的标签为随机物标签。

在一些实施例中，随机物标签包括至少一个随机序列和至少一个固定序列，包含在两侧上经固定序列侧接的随机序列，或包含在两侧上经随机序列侧接的固定序列。在一些实施例中，随机物标签包含具有至少两个与至少两个固定序列相间的随机序列的寡核苷酸。在一些实施例中，随机物标签包含2个与2个固定序列相间的随机序列，或随机物标签包含3个与3个固定序列相间的随机序列，或4个与4个固定序列相间的随机序列。所属领域的技术人员将认识到随机物标签可包括任何数目的具有随机序列的单元，其与任何数目的具有固定序列的单元相间。

在一些实施例中，随机物标签含有3个核苷酸的单元，其编码氨基酸，或编码终止密码子，或不编码氨基酸或终止密码子。

随机物标签可包括固定序列，其长度为2-2000个核苷酸或碱基对，或2-1000个核苷酸或碱基对，或2-100个核苷酸或碱基对，或2-75个核苷酸或碱基对，或2-50个核苷酸或碱基对，或2-25个核苷酸或碱基对，或2-10个核苷酸或碱基对。

随机物标签可包括随机序列，其长度为2-2000个核苷酸或碱基对，或2-1000个核苷酸或碱基对，或2-100个核苷酸或碱基对，或2-75个核苷酸或碱基对，或2-50个核苷酸或碱基对，或2-25个核苷酸或碱基对，或2-10个核苷酸或碱基对。

随机物标签可包括至少一个穿插有固定序列的随机序列。

在一些实施例中，随机物标签包含结构(N)_n(X)_x(M)_m(Y)_y的区域，且(i)其中“N”表示产生自A、G、C、T、U或I的随机标签序列，且其中“n”为2-10，其表示“N”随机标签序列的核苷酸长度；(ii)其中“X”表示固定标签序列，且其中“x”为2-10，其表示“X”随机标签序列的核苷酸长度；(iii)其中“M”表示产生自A、G、C、T、U或I的随机标签序列，其中随机标签序列“M”与随机标签序列“N”不同或相同，且其中“m”为2-10，其表示“M”随机标签序列的核苷酸长度；且(iv)其中“Y”表示固定标签序列，其中“Y”的固定标签序列与“X”的固定标签序列相同或不同，且其中“y”为2-10，其表示“Y”随机标签序列的核苷酸长度。在一些实施例中，固定标签序列“X”在多个标签中相同。在一些实施例中，固定标签序列“X”在多个标签中不同。在一些实施例中，固定标签序列“Y”在多个标签中相同。在一些实施例中，固定标签序列“Y”在多个标签中不同。在一些实施例中，多个单链引物内的固定标签序列“(X)_x”和“(Y)_y”为序列比对锚。

随机物标签内的随机序列由“N”表示，且固定序列由“X”表示。因此，随机物标签可由N₁N₂N₃X₁X₂X₃或N₁N₂N₃X₁X₂X₃N₄N₅N₆或N₁N₂N₃X₁X₂X₃N₄N₅N₆X₄X₅X₆或N₁N₂N₃X₁X₂X₃N₄N₅N₆X₄X₅X₆N₇N₈N₉表示。这些并不打算表示随机物标签的限制性实例，因为所属领域的技术人员将认识到许多其它结构是可能的。随机物标签可具有随机序列，其中核苷酸位置中的一些或全部可随机选自由以下组成的群组：A、G、C、T、U和I。举例来说，随机序列内的每个位置的核苷酸可独立地选自A、G、C、T、U或I中的任一个，或可选自这六种不同类型的核苷酸的子集。任选地，随机序列内的每个位置的核苷酸可独立地选自A、G、C或T中的任一个。随机物标签可具有随机序列，其中核苷酸位置中的一些或全部可随机选自A、G、C、T、U或I的子集(例如约束集)。举例来说，随机序列内的每个位置的核苷酸可独立地选自含有选自A、G、C、T、U和I的任何两个核苷酸的子集。随机标签序列内的每个位置的核苷酸可独立地选自含有选自A、G、C、T、U和I的任何三个、四个或五个核苷酸的子集。两个核苷酸的子集的非限制性实例包括C和T，或A和G。所属领域的技术人员将认识到其它子集是可能的。在一些实施例中，第一固定标签序列“X₁X₂X₃”为多个标签中的相同或不同序列。在一些实施例中，第二固定标签序列“X₄X₅X₆”为多个标签中的相同或不同序列。在一些实施例中，多个单链标签引物内的第一固定标签序列“X₁X₂X₃”和第二固定标签序列“X₄X₅X₆”为序列比对锚。

通过产生大量独特随机物标签，有可能增加核酸样品中大量百分比的聚核苷酸(或标靶聚核苷酸)将附有至少一个随机物标签的概率。随机物标签内存在一个随机序列用以增加可能的独特随机物标签的数目。因此存在超过一个随机序列进一步增加随机物标签库的多样性。可能的独特随机物标签的数目将通过随机序列的长度和可用于产生随机序列的可能的不同核苷酸碱基的数目，以及固定序列的长度指示。举例来说，12单元随机物标签具有序列5'-NNNACTNNNTGA-3'(SEQ ID NO:1)，其中“N”表示随机产生自A、G、C或T的随机序列内的位置，可能的相异随机物标签的数目计算为4⁶(或4^6)，为约4096，且可能的两个随机物标签的不同组合的数目为4¹²(或4^12)，为约1千678万。在一些实施例中，5'-NNNACTNNNTGA-3'(SEQ ID NO:1)的加下划线的部分为序列比对锚。

在一些实施例中，不同随机物标签可包括至少一个固定序列，其在不同随机物标签中相同或不同。

在一些实施例中，不同随机物标签可包括至少一个固定序列，其在不同随机物标签中具有相同或不同长度。

使用经设计以含有穿插有固定序列的随机序列的随机物标签存在若干优点。举例来说，固定序列可经设计以含有将在引物延伸或扩增步骤期间减少引物-引物相互作用和/或引物二聚体形成的某些序列、长度和间距。任选地，具有短固定长度(长度为2-10个核苷酸)的随机物标签可在引物延伸或扩增步骤期间减少引物-引物相互作用和/或引物二聚体形成。

在另一实例中，分散在固定序列中的随机序列将增加随机物标签集的多样性，同时维持随机物标签的短总长度，对于跨越随机物标签区域测序，其将需要较少时间和试剂，但仍将传递将用于产生误差校正的测序数据的测序信息。

使用含有固定和随机序列的交替单元序列的随机物标签进行分子标记程序的优势为随机物标签序列可用于测序读段的误差校正(例如测序读段家族的误差校正)。举例来说，候选测序读段可基于共同随机物标签序列分组至家族中。随机物标签序列内的固定序列可用作序列比对锚以施加任何给定标签家族的所有成员必须含有与固定序列的参考序列相同的长度、序列和间距的严格要求。可从另外的分析去除不满足此要求的候选测序读段。举例来说，在具有序列5'-NNNACTNNNTGA-3'(SEQ ID NO:1)的参考随机物标签中，两个固定序列5'-ACT-3'和5'-TGA-3'的长度、序列和间距可用作与候选测序读段的标签序列部分进行比较的序列比对锚。如果候选测序读段的标签序列部分不匹配两个固定序列的长度、序列和间距，那么可丢弃候选测序读段。与随机物标签序列的此类比较，和保留或丢弃测序读段的决策可应用于任何候选测序读段。不与固定序列匹配的候选测序读段将可能对应于具有假误差的引物延伸或扩增的聚核苷酸产物，所述假误差通过聚合酶介导的核苷酸错误并入或链滑动引入。链滑动可由引物延伸期间的新生链或模板链的二级结构形成(例如回路形成)产生。因此，随机物标签序列内的固定序列可充当用于产生误差校正的测序数据，包括产生误差校正的测序读段家族的序列比对锚。使用不具有交替固定和随机序列的分子标记程序无法识别在标签区域中携有误差的测序读段，且因此无法以此方式产生误差校正的测序数据。

在一些实施例中，随机物标签的参考序列用于校正候选测序读段中的随机物标签的序列。举例来说，如果候选测序读段显示随机物标签序列为5'-NNNACTNNNTGC-3'(SEQ IDNO:2)，且已知参考序列为5'-NNNACTNNNTGA-3'(SEQ ID NO:1)，那么误差校正算法将应用于将错误碱基从C变为A，以产生误差校正的测序读段，其为5'-NNNACTNNNTGA-3'(SEQ IDNO:1)。在一些实施例中，随机物标签序列不用于校正任何测序读段，而是替代地丢弃含有误差(例如随机物标签序列中的误差)的候选测序读段。

使用具有超过一个随机序列的单元的随机物标签的另一优势为随机物标签的群体将提供足够序列多样性以充当基本上不耗尽的独特标签序列群体。存在超过一个随机序列增加随机物标签序列库的多样性。可能的独特随机物标签的数目将通过随机序列的长度和可用于产生随机序列的可能的不同核苷酸碱基的数目，以及固定序列的长度指示。另外，含有交替固定/随机序列的随机物标签的总长度可经最小化以减少对一个或两个标签和标靶序列测序所需的时间和试剂的量，同时实现误差校正的测序数据。

在一些实施例中，本公开大体上涉及组合物，以及相关系统、方法、试剂盒、装置和计算机可读媒体，包含一个或多个含有至少一个标签(例如至少一个随机物标签)的引物。

在一些实施例中，引物包含含有DNA、RNA、DNA和RNA或类似物的寡核苷酸。任选地，引物为单链或双链的。任选地，引物可为天然存在的或使用化学合成或重组程序合成。任选地，引物包括可延伸3'端或不可延伸3'端，其中不可延伸末端处的末端核苷酸在2'或3'糖位置携有阻断部分。

在一些实施例中，引物可包括可与聚核苷酸的一部分选择性地杂交的区域(例如引物的3'区中的标靶特异性序列)。引物还可包括经设计以展现与聚核苷酸的一部分(例如引物的5'区中的非标靶特异性序列)的最小杂交的区域。举例来说，引物可以是加尾引物。引物可包括5'尾区中的至少一个标签。

在一些实施例中，引物对包括可用于扩增反应(例如PCR)的正向和反向引物。举例来说，引物对中的第一引物(例如正向引物)可与聚核苷酸的第一位置杂交，且相同引物对中的第二引物(例如反向引物)可与相同聚核苷酸(或互补链)的第二位置杂交，以使得第一和第二引物在其双链形式下由聚核苷酸的约10-500个碱基对，或约10-2000个碱基对，或约2000-5000个碱基对，或约5000-10,000个碱基对，或更长分离距离分离。这些实施例适用于包括第三引物(例如正向引物)和第四引物(例如反向引物)的第二引物对。

在一些实施例中，任何给定引物对中的第一和第二引物可与聚核苷酸杂交以使得其杂交位置的位置将侧接聚核苷酸的标靶区。

在一些实施例中，第一和/或第二引物对(例如加尾引物)可用于引物延伸反应以产生附有至少一个标签的聚核苷酸。任选地，引物延伸反应可在等温或热循环条件，或等温和热循环条件的组合下进行。

在一些实施例中，来自引物延伸反应的延伸产物的长度为约10-2000个核苷酸，或约2000-5000个核苷酸，或约5000-10,000个核苷酸。

在一些实施例中，可使用可与标靶聚核苷酸(例如标靶DNA或RNA聚核苷酸)的区域选择性地杂交的正向和反向引物(例如加尾引物)对DNA、RNA或DNA和RNA的混合物进行引物延伸反应，以产生跨越内含子、外显子、接合内含子-外显子、编码、非编码或融合序列的经标记的扩增子。

在一些实施例中，本公开大体上涉及组合物，以及相关系统、方法、试剂盒、装置和计算机可读媒体，包含至少一个衔接子。

在一些实施例中，本公开大体上涉及组合物，以及相关系统、方法、试剂盒、装置和计算机可读媒体，包含至少一个附加至聚核苷酸的衔接子。

在一些实施例中，衔接子可包括至少一个标签(例如至少一个随机物标签)。

在一些实施例中，聚核苷酸接合或附加至至少一个衔接子，或不具有任何衔接子。在一些实施例中，一个或多个衔接子可通过接合而接合至聚核苷酸。

在一些实施例中，衔接子包含核酸，包括DNA、RNA、RNA/DNA分子或其类似物。在一些实施例中，衔接子可包括一个或多个脱氧核糖核苷或核糖核苷残基。在一些实施例中，衔接子可为单链或双链核酸，或可包括单链和/或双链部分。在一些实施例中，衔接子可具有任何结构，包括线性、发夹、分叉(Y形)或茎环。举例来说，Y形衔接子可包括第一寡核苷酸，其具有与第二寡核苷酸的末端部分杂交以形成双杆部分的一个末端部分，和不彼此杂交的第一和第二寡核苷酸的另一末端部分。Y形衔接子的实例包括美国专利第8,563,478号(Gormley)、第8,053,192号(Bignell)、第7,741,463号(Gormley)、第8,182,989号(Bignell)、第6,287,825号(Weissman)、第8,420,319号(Mikawa)和第7,993,842号(McKernan)

任选地，线性、发夹、茎环或Y形衔接子含有至少一个标签序列(例如至少一个随机物标签序列)。举例来说，发夹、茎环或Y形衔接子的杆部分含有至少一个标签(例如至少一个随机物标签)。用于分子标记方法的Y形衔接子的实例可见于美国申请公开案第2015/0044687号；第2015/0031559号；第2014/0155274号；第2014/0227705号；和国际公开案第WO2013/181170号和第WO 2015/100427号中。

在一些实施例中，衔接子可具有任何长度，包括少于10个碱基长，或约10-20个碱基长，或约20-50个碱基长，或约50-100个碱基长，或更长。

在一些实施例中，衔接子可具有平端和/或粘端的任何组合。在一些实施例中，衔接子的至少一端可与核酸片段的至少一端相容。在一些实施例中，衔接子的相容端可接合至核酸片段的相容端。在一些实施例中，衔接子可具有5'或3'外伸端。

在一些实施例中，衔接子可具有5'或3'外伸尾。在一些实施例中，尾可为任何长度，包括1-50个或更多个核苷酸的长度。

在一些实施例中，衔接子可包括内部缺口。在一些实施例中，衔接子可具有至少一个不具有末端5'磷酸酯残基的链。在一些实施例中，不具有末端5'磷酸酯残基的衔接子可接合至核酸片段以在衔接子与核酸片段之间的接合处引入缺口。

在一些实施例中，衔接子可包括与聚核苷酸、捕获引物、融合引物、液相引物、扩增引物或测序引物的任何部分一致或互补的核苷酸序列。

在一些实施例中，衔接子可包括oligo-dA、oligo-dT、oligo-dC、oligo-dG或oligo-U序列。

在一些实施例中，衔接子可包括独特标识序列(例如条形码序列)。在一些实施例中，多个带条形码的衔接子(例如多个不同带条形码的衔接子)可用于构筑多重聚核苷酸库。在一些实施例中，带条形码的衔接子可附加至聚核苷酸且用于分选或追踪聚核苷酸的来源。举例来说，聚核苷酸群体可附加至将聚核苷酸识别为获自常用来源的常用带条形码的衔接子。在一些实施例中，一个或多个条形码序列可允许在具有不同条形码序列的不同衔接子的混合物中识别特定衔接子。举例来说，混合物可包括2个、3个、4个、5个、6个、7-10个、10-50个、50-100个、100-200个、200-500个、500-1000个或更多个具有独特条形码序列的不同衔接子。

在一些实施例中，衔接子可包括简并序列。在一些实施例中，衔接子可包括一个或多个肌苷残基。

在一些实施例中，衔接子可包括至少一个易切断键。在一些实施例中，易切断键可能易受通过酶或化合物的裂解或降解影响。任选地，衔接子包括至少一个尿嘧啶碱基。在一些实施例中，衔接子可包括至少一个硫赶磷酸酯、硫代磷酸酯和/或氨基磷酸酯键。举例来说，含有至少一个尿嘧啶碱基的标签可通过尿嘧啶DNA糖基化酶(UDG)和甲酰胺基嘧啶DNA糖基化酶(Fpg)裂解。

在一些实施例中，衔接子可包括任何类型的限制酶识别序列，包括I型、II型、lIs型、IIB型、III型、IV型限制酶识别序列，或具有回文或非回文识别序列的识别序列。

在一些实施例中，衔接子可包括细胞调节序列，包括启动子(诱导型或组成型)、增强子、转录或翻译起始序列、转录或翻译终止序列、分泌信号、Kozak序列、细胞蛋白结合序列等。

在一些实施例中，任何引物(例如加尾引物)或衔接子可相容以用于任何类型的测序平台，包括化学降解、链终止、合成测序、焦磷酸盐、大规模平行、离子敏感和单分子平台。在一些实施例中，任何引物或衔接子可相容以用于任何类型的测序程序，包括：通过寡核苷酸探针接合和检测的测序(例如来自Life Technologies的SOLiD^TM，WO 2006/084132)、探针-锚接合测序(例如Complete Genomics或Polonator^TM)、合成测序(例如Illumina的Genetic Analyzer^TM和HiSeq^TM，也参见Bentley 2006《遗传学当前观点与发展(CurrentOpinion Genetics&Development)》16:545-552；和Bentley等人,2008《自然(Nature)》456:53-59；和美国专利第7,566,537号))、焦磷酸盐测序(例如获自454Life Sciences的GenomeSequencer FLX^TM，也参见美国专利第7,211,390、7,244,559和7,264,929号454LifeSciences)、离子敏感测序(例如Personal Genome Machine(Ion PGM^TM)和Ion Proton^TMSequencer，均获自Ion Torrent Systems,Inc.)和单分子测序平台(例如获自Helicos的Heliscope^TM)。举例来说，任何引物或衔接子可用于将聚核苷酸接枝至用于进行测序反应的支撑物(例如珠粒、流动池或反应位点阵列)。

在一些实施例中，本公开大体上涉及组合物，以及相关系统、方法、试剂盒、装置和计算机可读媒体，包含一种或多种聚合酶。在一些实施例中，组合物(和相关方法、系统、试剂盒、装置和计算机可读媒体)包括一种类型，或不同类型的聚合酶的混合物。在一些实施例中，聚合酶包括可催化核苷酸和/或核苷酸类似物的聚合的任何酶或其片段或亚单位。在一些实施例中，聚合酶需要具有可延伸3'端的核酸。举例来说，聚合酶可能需要核酸引物的末端3'OH来引发核苷酸聚合。

聚合酶包含可催化核苷酸(包括其类似物)聚合成核酸链的任何酶。典型地但未必，此类核苷酸聚合可以模板依赖性方式进行。在一些实施例中，聚合酶可为高保真度聚合酶。此类聚合酶可包括(不限于)天然存在的聚合酶和其任何亚单位和截短、突变聚合酶、变异聚合酶、重组、融合或以其它方式工程改造的聚合酶、经化学修饰的聚合酶、合成分子或组件以及保留催化此类聚合的能力的其任何类似物、衍生物或片段。任选地，聚合酶可为包含一个或多个突变的突变聚合酶，所述突变涉及用其它氨基酸置换一个或多个氨基酸、来自聚合酶的一个或多个氨基酸的插入或缺失或两个或更多个聚合酶的部分的键联。如本文所用，术语“聚合酶”和其变化形式还指包含至少两个彼此键联的部分的融合蛋白，其中第一部分包含可催化核苷酸聚合成核酸链的肽并且键联到包含第二多肽(如报告酶或持续合成能力增强结构域)的第二部分。典型地，聚合酶包含可进行核苷酸结合和/或核苷酸聚合催化的一个或多个活性位点。在一些实施例中，聚合酶包括或不具有其它酶活性，如3'到5'核酸外切酶活性或5'到3'核酸外切酶活性。在一些实施例中，聚合酶可从细胞中分离，或使用重组DNA技术或化学合成方法产生。在一些实施例中，聚合酶可表达于原核生物、真核生物、病毒或噬菌体生物体中。在一些实施例中，聚合酶可为翻译后修饰的蛋白质或其片段。

在一些实施例中，聚合酶可为DNA聚合酶且包括(但不限于)细菌DNA聚合酶、真核生物DNA聚合酶、古细菌DNA聚合酶、病毒DNA聚合酶和噬菌体DNA聚合酶。

在一些实施例中，聚合酶可为复制酶、DNA依赖性聚合酶、引发酶、RNA依赖性聚合酶(包括RNA依赖性DNA聚合酶，如例如逆转录酶)、热不稳定聚合酶或热稳定聚合酶。在一些实施例中，聚合酶可为任何A或B家族型聚合酶。许多类型的A(例如，大肠杆菌(E.coli)PolI)、B(例如，大肠杆菌Pol II)、C(例如，大肠杆菌Pol III)、D(例如，广古菌(Euryarchaeotic)Pol II)、X(例如，人类Polβ)和Y家族(例如，大肠杆菌UmuC/DinB和真核生物RAD30/着色性干皮病变异体)聚合酶描述于Rothwell和Watsman 2005《蛋白质化学进展(Advances in Protein Chemistry)》71:401-440中。在一些实施例中，聚合酶可为T3、T5、T7或SP6RNA聚合酶。在一些实施例中，包括聚合酶(例如T7聚合酶)的反应混合物还可包括硫氧还原蛋白。

在一些实施例中，聚合酶包含热稳定或热不稳定聚合酶。在一些实施例中，聚合酶包含低保真度或高保真度聚合酶。

在一些实施例中，聚合酶可不具有5'-3'核酸外切酶活性。在一些实施例中，聚合酶可具有链移位活性。

在一些实施例中，古细菌DNA聚合酶可为(但不限于)热稳定或嗜热性DNA聚合酶，如：枯草杆菌(Bacillus subtilis，Bsu)DNA聚合酶I大片段；水生栖热菌(Thermusaquaticus，Taq)DNA聚合酶；丝状栖热菌(Thermus filiformis，Tfi)DNA聚合酶；Phi29DNA聚合酶；嗜热脂肪芽孢杆菌(Bacillus stearothermophilus，Bst)DNA聚合酶；热球菌属(Thermococcus sp.)9°N-7DNA聚合酶；史氏芽孢杆菌(Bacillus smithii，Bsm)DNA聚合酶大片段；海滨嗜热球菌(Thermococcus litoralis，Tli)DNA聚合酶或Vent^TM(外-)DNA聚合酶(来自New England Biolabs)；或“Deep Vent”(外-)DNA聚合酶(New England Biolabs)。在一些实施例中，聚合酶包含大肠杆菌大片段DNA聚合酶I(例如，Klenow)。

在一些实施例中，聚合酶包含具有快速核苷酸并入速率的聚合酶，或高度进行性聚合酶，或展现针对生物污染物(例如来自如血液或血清的生物流体的污染物)的耐受性的聚合酶。在一些实施例中，聚合酶包含火球菌属(Pyrococcus)或火球菌属样酶，包括来自激烈火球菌(Pyrococcus furiosus，Pfu)的聚合酶。在一些实施例中，聚合酶包含与增加保真度和速度的持续合成能力增强结构域融合的来自火球菌属的聚合酶的至少一部分。在一些实施例中，聚合酶包含Phusion聚合酶(欧洲专利第1463809号)。在一些实施例中，聚合酶包含高保真度Pfu酶，其包括Q5酶(New England Biolabs)。

在一些实施例中，本公开大体上涉及组合物，以及相关系统、方法、试剂盒、装置和计算机可读媒体，包含至少一个用于聚合酶活性的辅因子。在一些实施例中，辅因子包含一个或多个二价阳离子。二价阳离子的实例包括镁、锰和钙。

在一些实施例中，本公开大体上涉及组合物，以及相关系统、方法、试剂盒、装置和计算机可读媒体，包含一个或多个核苷酸。。在一些实施例中，组合物(和相关方法、系统、试剂盒、装置和计算机可读媒体)包括一种类型，或不同类型的核苷酸的混合物。核苷酸包含可选择性结合到聚合酶或可通过聚合酶聚合的任何化合物。典型地但未必，核苷酸与聚合酶的选择性结合之后为核苷酸通过聚合酶聚合成核酸链。此类核苷酸不仅包括天然存在的核苷酸，而且包括可与聚合酶选择性结合或可通过聚合酶聚合的任何类似物(无关于其结构)。虽然天然存在的核苷酸典型地包含碱基、糖和磷酸酯部分，但本公开的核苷酸可包括不具有此类部分中的任一个、一些或全部的化合物。在一些实施例中，核苷酸可任选地包括包含三个、四个、五个、六个、七个、八个、九个、十个或更多个磷原子的磷原子链。在一些实施例中，磷链可附接至糖环的任何碳，如5'碳。磷链可用介入O或S键联到糖。在一些实施例中，链中的一个或多个磷原子可为具有P和O的磷酸基的一部分。在一些实施例中，链中的磷原子可与介入O、NH、S、亚甲基、经取代的亚甲基、亚乙基、经取代的亚乙基、CNH₂、C(O)、C(CH₂)、CH₂CH₂或C(OH)CH₂R(其中R可为4-吡啶或1-咪唑)键联在一起。在一些实施例中，链中的磷原子可具有含O、BH₃或S的侧基。在磷链中，伴以除O以外的侧基的磷原子可为经取代的磷酸基。在磷链中，伴以除O以外的介入原子的磷原子可为经取代的磷酸基。核苷酸类似物的一些实例描述于Xu,美国专利第7,405,281号中。

可以用于所公开的组合物(以及相关方法、系统、试剂盒、装置和计算机可读媒体)中的核苷酸的一些实例包括(但不限于)核糖核苷酸、脱氧核糖核苷酸、经修饰核糖核苷酸、经修饰脱氧核糖核苷酸、核糖核苷酸聚磷酸酯、脱氧核糖核苷酸聚磷酸酯、经修饰核糖核苷酸聚磷酸酯、经修饰脱氧核糖核苷酸聚磷酸酯、肽核苷酸、经修饰肽核苷酸、金属核苷酸、膦酸酯核苷和经修饰磷酸-糖骨架核苷酸、前述化合物的类似物、衍生物或变异体等。在一些实施例中，核苷酸可包含非氧部分(如硫基或硼烷部分)代替氧部分，所述氧部分桥接核苷酸的α磷酸酯与糖、或核苷酸的α与β磷酸酯、或核苷酸的β与γ磷酸酯、或核苷酸的任何其它两种磷酸酯、或其任何组合。在一些实施例中，核苷酸可包括嘌呤或嘧啶碱基，包括腺嘌呤、鸟嘌呤、胞嘧啶、胸嘧啶、尿嘧啶或肌苷。在一些实施例中，核苷酸包括dATP、dGTP、dCTP、dTTP和dUTP。

在一些实施例中，核苷酸为未标记的。在一些实施例中，核苷酸包含标记且在本文中称为“经标记核苷酸”。在一些实施例中，标记可呈附接至核苷酸的任何部分(包括碱基、糖或任何介入磷酸酯基或末端磷酸基，即最远离糖的磷酸基)的荧光染料形式。

在一些实施例中，核苷酸为终止子核苷酸。在一些实施例中，终止子核苷酸一旦并入，将抑制或阻断核酸分子的3'端处的另外的核苷酸并入。终止子核苷酸包括赋予抑制或阻断另外的核苷酸并入的能力的终止子基团(也称为终止子部分或阻断部分或阻断基团)。在一些实施例中，终止子核苷酸可以可操作地连接于至少一个终止子基团或部分。在一些实施例中，至少一个终止子基团可以可操作地连接于碱基、糖(例如2'或3'位置)、磷酸基或磷酸酯链中的任何磷酸酯的任何部分。在一些实施例中，终止子基团可经由适合处理而中和、裂解或以其它方式从终止子核苷酸去除。在一些实施例中，终止子基团的中和、裂解或去除可准许发生后续核苷酸并入。在一些实施例中，非可延伸末端可经由终止子基团的裂解、中和去除转化为可延伸末端。在一些实施例中，终止子基团无法经由适合处理而中和、裂解或以其它方式从终止子核苷酸去除(例如非可逆终止子核苷酸)。终止子核苷酸的实例可见于美国专利第7,057,026号；第7,566,537号；第7,785,796号；第8,158,346号；第7,541,444号；7,057,026号；第7,592,435号；第7,414,116号；第7,427,673号；第8,399,188号；第7,713,698号；第7,790,869号；第8,088,575号；第7,635,578号；和7,883,869号；以及PCT申请第PCT/US2016/023139号(2016年3月18日提交)中，其全部明确地以引用的方式并入本文中，如同完整阐述一般。

在一些实施例中，本公开大体上涉及组合物，以及相关系统、方法、试剂盒、装置和计算机可读媒体，包含非标记或附接至至少一个标记的寡核苷酸标签、捕获引物、反向液相引物、融合引物、标靶聚核苷酸和/或核苷酸中的任一个或任何组合。在一些实施例中，标记包含可检测部分。在一些实施例中，标记可产生或导致产生可检测信号。在一些实施例中，可检测信号可产生自化学或物理变化(例如热、光、电、pH、盐浓度、酶活性或邻近事件)。举例来说，邻近事件可包括两个彼此接近，或彼此缔合，或彼此结合的报告子部分。在一些实施例中，可检测信号可以光学方式、以电学方式、以化学方式、以酶方式、以热方式或经由质谱分析或拉曼光谱分析检测。在一些实施例中，标记可包括发光、光致发光、电致发光、生物发光、化学发光、荧光、磷光或电化学的化合物。在一些实施例中，标记可包括为荧光团、发色团、放射性同位素、半抗原、亲和标签、原子或酶的化合物。在一些实施例中，标记包含典型地不存在于天然存在的核苷酸中的部分。举例来说，标记可包括荧光、发光或放射性部分。

在一些实施例中，本公开大体上涉及组合物，以及相关系统、方法、试剂盒、装置和计算机可读媒体，包含结合搭配物的至少一个成员。在一些实施例中，结合搭配物包括对于彼此具有特异性结合亲和力且典型地将优先于结合至其它分子而彼此结合的两个分子或其部分。在一些实施例中，结合搭配物包括“亲和力部分”和“受体部分”。典型地但未必，特异性结合对的一个成员的一些或全部结构与另一成员具有的一些或全部结构互补，其中两个成员能够借助于互补结构之间的键、任选地借助多个非共价吸引特异性结合在一起。

在一些实施例中，充当结合搭配物的分子包括：生物素(和其衍生物)和其结合搭配物抗生物素蛋白、抗生蛋白链菌素和其衍生物；结合镍、钴或铜的His标签；结合Ni-NTA的半胱氨酸、组氨酸或组氨酸片；与麦芽糖结合蛋白(MBP)结合的麦芽糖；凝集素-碳水化合物结合搭配物；钙-钙结合蛋白(CBP)；乙酰胆碱和受体-乙酰胆碱；蛋白A和结合搭配物抗FLAG抗体；GST和结合搭配物谷胱甘肽；尿嘧啶DNA糖基化酶(UDG)和ugi(尿嘧啶-DNA糖基化酶抑制剂)蛋白；结合到抗体或抗体片段的抗原或表位标签，特别是抗原，如地高辛、荧光素、二硝基苯酚或溴脱氧尿苷和其相应抗体；小鼠免疫球蛋白和山羊抗小鼠免疫球蛋白；IgG结合和蛋白A；受体-受体促效剂或受体拮抗剂；酶-酶辅因子；酶-酶抑制剂；和甲状腺素-皮质醇。生物素的另一结合搭配物可为来自鸡的生物素结合蛋白(Hytonen等人,《BMC结构生物学(BMC Structural Biology)》7:8)。

在一些实施例中，抗生物素蛋白部分可包括抗生物素蛋白蛋白质，以及可结合至生物素部分的抗生物素蛋白的任何衍生物、类似物和其它非天然形式。抗生物素蛋白部分的其它形式包括天然和重组抗生物素蛋白和抗生蛋白链菌素以及衍生化分子，例如非糖基化抗生物素蛋白、N-酰基抗生物素蛋白和截短的抗生蛋白链菌素。举例来说，抗生物素蛋白部分包括抗生物素蛋白的去糖基化形式、由链霉菌属(Streptomyces)(例如，阿维丁链霉菌(Streptomyces avidinii))产生的细菌抗生蛋白链菌素、截短的抗生蛋白链菌素、重组抗生物素蛋白和抗生蛋白链菌素，以及天然、去糖基化和重组抗生物素蛋白以及天然、重组和截短的抗生蛋白链菌素的衍生物，例如N-酰基抗生物素蛋白，例如N-乙酰基、N-酞酰基和N-丁二酰基抗生物素蛋白，和商业产品Extravidin^TM、Captavidin^TM、Neutravidin^TM和Neutralite^TM Avidin。

在一些实施例中，本公开大体上涉及组合物，和相关方法、系统、试剂盒、装置和计算机可读媒体，包含单一反应混合物，其可为用于将多个标签(例如随机物标签)附加至多个聚核苷酸以产生多个经标记的聚核苷酸的标签附加反应混合物，其中多个聚核苷酸内的个别聚核苷酸附有至少一个标签。单一反应混合物可包含于单一反应容器中。单一反应混合物可包括标靶聚核苷酸、酶(例如聚合酶和/或接合酶)、核苷酸、二价阳离子、结合搭配物和/或缓冲液中的任一个或任何组合。任选地，酶包含聚合酶，其包括重组、融合、突变、热稳定或热不稳定形式。任选地，核苷酸可包括具有与天然存在的核苷酸相同或类似的结构的化合物，或具有衍生化碱基、糖和/或磷酸基的核苷酸类似物，或经标记或未经标记的核苷酸。任选地，二价阳离子包括镁、锰和/或钙。任选地，结合搭配物包括生物素和抗生物素蛋白类化合物，如抗生物素蛋白或抗生蛋白链菌素。任选地，缓冲液包含离子源，如KCl、乙酸钾、乙酸铵、谷氨酸钾、NH₄Cl或硫酸铵。任选地，缓冲液包括Tris、麦黄酮(Tricine)、HEPES、MOPS、ACES、MES或可提供约4-12的pH范围的无机缓冲液，如基于磷酸盐或乙酸盐的缓冲液。任选地，缓冲液包括螯合剂，如EDTA或EGTA。任选地，缓冲液包括二硫苏糖醇(DTT)、甘油、亚精胺和/或牛血清白蛋白(BSA)。任选地，缓冲液包括ATP。

在一些实施例中，本公开大体上涉及组合物，和相关方法、系统、试剂盒、装置和计算机可读媒体，包含分布至一个或多个反应容器中的标签附加反应混合物。在一些实施例中，单一反应容器含有标签附加反应混合物。在一些实施例中，单一反应容器含有扩增反应混合物。单一反应容器的非限制性实例包括管、管的内壁、孔、微孔、反应腔室、凹槽、通道储集器、流动池或类似结构。

在一些实施例中，本公开大体上涉及试剂盒，和相关组合物、系统、方法和装置，包含至少两种用于产生如本教示内容中所述的经标记的核酸的组分或试剂。举例来说，试剂盒含有以下试剂中的至少两种的任何组合：呈双链衔接子或单链加尾引物或两种形式的多个随机物标签、酶(例如聚合酶和/或接合酶)、核苷酸、二价阳离子、结合搭配物和/或缓冲液。任选地，试剂盒也含有用作阳性或阴性对照聚核苷酸的靶核酸。试剂盒含有多个随机物标签，其包含具有至少两个与至少两个固定序列相间的随机序列的寡核苷酸。聚合酶和接合酶包括重组、融合、突变、热稳定或热不稳定形式。核苷酸包括具有与天然存在的核苷酸相同或类似的结构的化合物，或具有衍生化碱基、糖和/或磷酸基的核苷酸类似物，或经标记或未经标记的核苷酸。二价阳离子包括镁、锰和/或钙。结合搭配物包括生物素和抗生物素蛋白类化合物，如抗生物素蛋白或抗生蛋白链菌素。缓冲液包含离子源，如KCl、乙酸钾、乙酸铵、谷氨酸钾、NH₄Cl或硫酸铵。缓冲液包括Tris、麦黄酮(Tricine)、HEPES、MOPS、ACES、MES或可提供约4-12的pH范围的无机缓冲液，如基于磷酸盐或乙酸盐的缓冲液。缓冲液包括螯合剂，如EDTA或EGTA。缓冲液包括二硫苏糖醇(DTT)、甘油、亚精胺和/或牛血清白蛋白(BSA)。缓冲液包括ATP。

在一些实施例中，本公开大体上涉及用于检测具有多个聚核苷酸的核酸样品中的基因变异体的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，包含：(a)用至少一个寡核苷酸标签标记多个聚核苷酸中的至少一些以产生经标记的聚核苷酸。

在一些实施例中，本公开大体上涉及用于检测具有多个聚核苷酸的核酸样品中的基因变异体的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，进一步包含：(b)扩增经标记的聚核苷酸中的至少一些以产生经标记的扩增子。

在一些实施例中，本公开大体上涉及用于检测具有多个聚核苷酸的核酸样品中的基因变异体的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，进一步包含：(c)对经标记的扩增子中的至少一些测序以产生多个候选测序读段，包括对应于聚核苷酸的一部分和至少一个附加至聚核苷酸的寡核苷酸标签的一部分的序列，其中候选测序读段存储在与处理器连通的存储器中。

在一些实施例中，本公开大体上涉及用于检测具有多个聚核苷酸的核酸样品中的基因变异体的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，进一步包含：(d)识别具有误差的候选测序读段子集。

在一些实施例中，本公开大体上涉及用于检测具有多个聚核苷酸的核酸样品中的基因变异体的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，进一步包含：(e)将其余的候选测序读段分组至分组候选测序读段家族中，所述分组候选测序读段家族具有对于给定候选测序读段家族来说独特的共同标签序列。

在一些实施例中，本公开大体上涉及用于检测具有多个聚核苷酸的核酸样品中的基因变异体的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，进一步包含：(f)从候选测序读段家族去除错误标记的测序读段以产生误差校正的测序读段家族。

在一些实施例中，本公开大体上涉及用于检测具有多个聚核苷酸的核酸样品中的基因变异体的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，进一步包含：(g)检测多个误差校正的测序读段家族中的变异体，其中变异体以0.05-5％的丰度水平存在于核酸样品中。

在一些实施例中，步骤(d)的识别包括比较来自多个候选测序读段的候选测序读段与标签特异性参考序列以确定在候选测序读段与标签特异性参考序列之间不同的核苷酸的数目。在一些实施例中，步骤(d)的识别进一步包括应用剔除阈值以识别具有误差的候选测序读段。在一些实施例中，步骤(d)的识别包括比较来自多个候选测序读段的候选测序读段与聚核苷酸特异性参考序列以确定在候选测序读段与聚核苷酸特异性参考序列之间不同的核苷酸的数目。在一些实施例中，步骤(d)的识别进一步包括应用剔除阈值以识别具有误差的候选测序读段。

在一些实施例中，步骤(f)的去除错误标记的测序读段包括比较给定家族中的候选测序读段与聚核苷酸特异性参考序列以确定在候选测序读段与聚核苷酸特异性参考序列之间不同的核苷酸的数目。在一些实施例中，步骤(f)的去除错误标记的测序读段进一步包括应用差分计数阈值以识别错误标记的测序读段。在一些实施例中，步骤(f)的去除错误标记的测序读段包括比较候选测序读段与给定家族中的一个或多个其它候选测序读段以识别具有常见模式的变异体的候选测序读段。在一些实施例中，步骤(f)的去除错误标记的测序读段进一步包括将模式计数阈值应用至具有常见模式的变异体的多个候选测序读段以识别错误标记的测序读段组。在一些实施例中，步骤(f)的去除错误标记的测序读段包括比较给定家族中的候选测序读段与聚核苷酸特异性参考序列以识别候选错误标记的测序读段。在一些实施例中，步骤(f)的去除错误标记的测序读段进一步包括比较候选错误标记的测序读段与所述家族中的一个或多个其它候选错误标记的测序读段以识别常见模式的变异体。在一些实施例中，步骤(f)的去除错误标记的测序读段进一步包括将模式计数阈值应用至具有常见模式的变异体的多个候选错误标记的测序读段以确定错误标记的测序读段组。在一些实施例中，步骤(f)的去除错误标记的测序读段包括比较给定家族中的候选测序读段与聚核苷酸特异性参考序列以识别候选错误标记的测序读段中的差异模式。在一些实施例中，步骤(f)的去除错误标记的测序读段进一步包括确定相比于聚核苷酸特异性参考序列与非标靶聚核苷酸的预期序列之间的预期差异模式的候选错误标记的测序读段中的差异模式的匹配数目。在一些实施例中，步骤(f)的去除错误标记的测序读段进一步包括将非目标模式阈值应用至匹配数目以识别错误标记的测序读段。

在一些实施例中，步骤(g)的检测包括比对误差校正的家族的测序读段与聚核苷酸特异性参考序列。在一些实施例中，步骤(g)的检测进一步包括对在比对序列中的给定位置处具有特定碱基差异的比对序列的数目计数。在一些实施例中，步骤(g)的检测进一步包括将家族水平阈值应用至所述数目以识别基于家族的候选变异体。在一些实施例中，步骤(g)的检测进一步包括对具有特定基于家族的候选变异体的误差校正家族的数目计数。在一些实施例中，步骤(g)的检测进一步包括将多家族阈值应用至误差校正的家族的数目以识别变异体。

在一些实施例中，多家族阈值的值为与百分比因数乘以对应于给定标靶聚核苷酸序列的不同家族的数目的乘积最接近的整数且不同家族的数目的值至少为2。在一些实施例中，百分比因数在0.001至0.1％范围内。在一些实施例中，百分比因数在0.045至0.055％范围内。

在一些实施例中，步骤(g)的检测，检测的变异体以0.05-0.1％的丰度水平存在于核酸样品中。

在一些实施例中，步骤(g)的检测包括：(a)比对误差校正的家族中的测序读段与聚核苷酸特异性参考序列；和(b)对于比对序列中的每个位置，对在所述位置处具有特定碱基的家族中的比对序列的数目计数。

在一些实施例中，步骤(g)的检测包括将家族水平阈值应用至所述数目以识别所述位置的代表性碱基，其中所述位置处低于家族水平阈值的数目指示比对序列中的碱基误差。在一些实施例中，步骤(g)的检测包括对于每个位置产生具有代表性碱基的家族参考序列，其中家族参考序列存储在存储器中。在一些实施例中，方法进一步包含从存储器去除误差校正的家族的测序读段{3。

在一些实施例中，步骤(g)的检测包括：(a)比较家族参考序列与聚核苷酸特异性参考序列；和(b)当给定位置处的代表性碱基不同于聚核苷酸特异性参考序列中的给定位置处的碱基时，识别给定位置处的基于家族的候选变异体。

在一些实施例中，步骤(g)的检测包括对具有特定基于家族的候选变异体的误差校正家族的数目计数。在一些实施例中，步骤(g)的检测包括将多家族阈值应用至误差校正的家族的数目以识别变异体。

在一些实施例中，核酸样品包含来自生物流体的无细胞核酸、来自活检组织的核酸、来自穿刺活检的核酸或来自细胞的核酸。在一些实施例中，生物流体为血液、唾液、痰液、汗液、泪液、灌洗液、羊膜液、脑脊髓液、腹水、尿液、大便、粪便或精液。在一些实施例中，核酸样品包含DNA或RNA，或DNA和RNA的混合物。

在一些实施例中，多个经标记的聚核苷酸中的至少两个附有彼此不同的标签。在一些实施例中，多个经标记的聚核苷酸在两端处附有不同标签。在一些实施例中，多个寡核苷酸标签中的个别寡核苷酸标签包括包含与固定标签序列相间的不同随机标签序列的区域。

在一些实施例中，单一反应混合物含有多个具有10⁴-10⁸个不同随机标签序列的寡核苷酸标签。

在一些实施例中，变异体以变异序列、多态序列或突变序列形式存在于核酸样品中。

在一些实施例中，步骤(c)的测序包含使用平面支撑物、流动池、多个孔、粒子或珠粒。在一些实施例中，支撑物包括10⁴-10⁹个测序反应位点的阵列。在一些实施例中，测序反应位点可操作地耦接到至少一个场效应晶体管(FET)传感器。在一些实施例中，至少一个场效应晶体管(FET)传感器检测来自核苷酸并入的副产物，其中副产物包括焦磷酸盐、氢离子、质子、电荷转移或热量。

在一些实施例中，本公开大体上涉及用于检测存在于核酸样品中的变异序列标靶聚核苷酸的方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，包含以下步骤：(a)形成含有以下的单一反应混合物：(i)来自核酸样品的多个聚核苷酸，和(ii)多个寡核苷酸标签；(b)通过将至少一个标签附加至多个聚核苷酸内的个别聚核苷酸而在单一反应混合物内产生多个经标记的聚核苷酸；(c)通过扩增多个经标记的聚核苷酸产生经标记的扩增子群体；(d)对经标记的扩增子群体的至少一部分测序以形成候选测序读段；和(e)确定变异序列标靶聚核苷酸以0.05-5％的丰度水平存在于核酸样品中。

实施例，步骤(e)的确定包含确定变异序列标靶聚核苷酸以0.05-0.1％的丰度水平存在于核酸样品中。实施例，步骤(e)的确定包括比较候选测序读段与标签特异性参考序列以确定在候选测序读段与标签特异性参考序列之间不同的核苷酸的数目。实施例，步骤(e)的确定进一步包括应用剔除阈值以识别具有误差的候选测序读段。实施例，步骤(e)的确定包括比较候选测序读段与聚核苷酸特异性参考序列以确定在候选测序读段与聚核苷酸特异性参考序列之间不同的核苷酸的数目。实施例，步骤(e)的确定包括应用剔除阈值以识别具有误差的候选测序读段。实施例，步骤(e)的确定包括将候选测序读段分组至分组候选测序读段家族中，所述分组候选测序读段家族具有对于给定候选测序读段家族来说独特的共同标签序列。实施例，步骤(e)的确定包括从候选测序读段家族去除错误标记的测序读段以产生误差校正的测序读段家族。

实施例，去除错误标记的测序读段的步骤包括比较给定家族中的候选测序读段与聚核苷酸特异性参考序列以确定在候选测序读段与聚核苷酸特异性参考序列之间不同的核苷酸的数目。实施例，去除错误标记的测序读段的步骤进一步包括应用差分计数阈值以识别错误标记的测序读段。实施例，去除错误标记的测序读段的步骤包括比较候选测序读段与给定家族中的一个或多个其它候选测序读段以识别具有常见模式的变异体的候选测序读段。实施例，去除错误标记的测序读段的步骤进一步包括将模式计数阈值应用至具有常见模式的变异体的多个候选测序读段以识别错误标记的测序读段组。实施例，去除错误标记的测序读段的步骤包括比较给定家族中的候选测序读段与聚核苷酸特异性参考序列以识别候选错误标记的测序读段。实施例，去除错误标记的测序读段的步骤进一步包括比较候选错误标记的测序读段与所述家族中的一个或多个其它候选错误标记的测序读段以识别常见模式的变异体。实施例，去除错误标记的测序读段的步骤进一步包括将模式计数阈值应用至具有常见模式的变异体的多个候选错误标记的测序读段以确定错误标记的测序读段组。实施例，去除错误标记的测序读段的步骤包括比较给定家族中的候选测序读段与聚核苷酸特异性参考序列以识别候选错误标记的测序读段中的差异模式。实施例，去除错误标记的测序读段的步骤进一步包括确定相比于聚核苷酸特异性参考序列与非标靶聚核苷酸的预期序列之间的预期差异模式的候选错误标记的测序读段中的差异模式的匹配数目。实施例，去除错误标记的测序读段的步骤进一步包括将非目标模式阈值应用至匹配数目以识别错误标记的测序读段。

实施例，步骤(e)的确定包括比对误差校正的家族的测序读段与聚核苷酸特异性参考序列。实施例，步骤(e)的确定进一步包括对在比对序列中的给定位置处具有特定碱基差异的比对序列的数目计数。实施例，步骤(e)的确定进一步包括将家族水平阈值应用至所述数目以识别基于家族的候选变异体。实施例，步骤(e)的确定进一步包括对具有特定基于家族的候选变异体的误差校正家族的数目计数。实施例，步骤(e)的确定进一步包括将多家族阈值应用至误差校正家族的数目以识别变异序列标靶聚核苷酸中的变异体。

实施例，多家族阈值的值为与百分比因数乘以对应于给定标靶聚核苷酸序列的不同家族的数目的乘积最接近的整数且不同家族的数目的值至少为2。实施例，百分比因数在0.001至0.1％范围内。实施例，百分比因数在0.045至0.055％范围内。

实施例，步骤(e)的确定包括：(a)比对误差校正的家族中的测序读段与聚核苷酸特异性参考序列；和(b)对于比对序列中的每个位置，对在所述位置处具有特定碱基的家族中的比对序列的数目计数。

实施例，步骤(e)的确定包括将家族水平阈值应用至所述数目以识别所述位置的代表性碱基，其中所述位置处低于家族水平阈值的数目指示比对序列中的碱基误差。实施例，步骤(e)的确定包括对于每个位置产生具有代表性碱基的家族参考序列。

实施例，步骤(e)的确定包括：(a)比较家族参考序列与聚核苷酸特异性参考序列；和(b)当给定位置处的代表性碱基不同于聚核苷酸特异性参考序列中的给定位置处的碱基时，识别给定位置处的基于家族的候选变异体。

实施例，步骤(e)的确定包括对具有特定基于家族的候选变异体的误差校正家族的数目计数。实施例，步骤(e)的确定包括将多家族阈值应用至误差校正家族的数目以识别变异序列标靶聚核苷酸中的变异体。

在一些实施例中，本公开大体上涉及方法，以及相关系统、组合物、试剂盒、装置和计算机可读媒体，本公开大体上涉及系统，以及相关方法、组合物、试剂盒、装置和计算机可读媒体，其包含：用于检测具有多个聚核苷酸的核酸样品中的基因变异体的系统，包含：(i)机器可读存储器；和(ii)被配置成执行机器可读指令的处理器，所述机器可读指令在由所述处理器执行时，使得系统进行包括以下的步骤：(a)接收多个候选测序读段，其中候选测序读段产生自对通过扩增经标记的聚核苷酸产生的经标记的扩增子测序，其中经标记的聚核苷酸通过将至少一个寡核苷酸标签附加至多个聚核苷酸中的至少一些而产生，其中多个候选测序读段存储于所述存储器中；(b)识别具有误差的候选测序读段的子集；(c)将其余的候选测序读段分组至具有对于给定候选测序读段家族来说独特的共同标签序列的分组候选测序读段家族中，(d)从候选测序读段家族去除错误标记的测序读段以产生误差校正的测序读段家族；和€检测多个误差校正的测序读段家族中的变异体，其中变异体以0.05-5％的丰度水平存在于核酸样品中。

在一些实施例中，在系统中，步骤(b)的识别包括比较来自多个候选测序读段的候选测序读段与标签特异性参考序列以确定在候选测序读段与标签特异性参考序列之间不同的核苷酸的数目的步骤。在一些实施例中，步骤(b)的识别进一步包括应用剔除阈值以识别具有误差的候选测序读段的步骤。在一些实施例中，步骤(b)的识别包括比较来自多个候选测序读段的候选测序读段与聚核苷酸特异性参考序列以确定在候选测序读段与聚核苷酸特异性参考序列之间不同的核苷酸的数目的步骤。在一些实施例中，步骤(b)的识别进一步包括应用剔除阈值以识别具有误差的候选测序读段的步骤。

在一些实施例中，在系统中，步骤(d)的去除错误标记的测序读段包括比较给定家族中的候选测序读段与聚核苷酸特异性参考序列以确定在候选测序读段与聚核苷酸特异性参考序列之间不同的核苷酸的数目的步骤。在一些实施例中，步骤(d)的去除错误标记的测序读段进一步包括应用差分计数阈值以识别错误标记的测序读段的步骤。1]在一些实施例中，步骤(d)的去除错误标记的测序读段包括比较候选测序读段与给定家族中的一个或多个其它候选测序读段以识别具有常见模式的变异体的候选测序读段的步骤。在一些实施例中，步骤(d)的去除错误标记的测序读段进一步包括将模式计数阈值应用至具有常见模式的变异体的多个候选错误标记的测序读段以识别错误标记的测序读段组的步骤。在一些实施例中，步骤(d)的去除错误标记的测序读段包括比较给定家族中的候选测序读段与聚核苷酸特异性参考序列以识别候选错误标记的测序读段的步骤。1]在一些实施例中，步骤(d)的去除错误标记的测序读段进一步包括比较候选测序读段与所述家族中的一个或多个其它候选测序读段以识别常见模式的变异体步骤。在一些实施例中，步骤(d)的去除错误标记的测序读段进一步包括将模式计数阈值应用至具有常见模式的变异体的多个候选错误标记的测序读段以确定错误标记的测序读段组的步骤。在一些实施例中，步骤(d)的去除错误标记的测序读段包括比较给定家族中的候选测序读段与聚核苷酸特异性参考序列以识别候选错误标记的测序读段中的差异模式的步骤。在一些实施例中，步骤(d)的去除错误标记的测序读段进一步包括确定相比于聚核苷酸特异性参考序列与非标靶聚核苷酸的预期序列之间的预期差异模式的候选错误标记的测序读段中的差异模式的匹配数目的步骤。在一些实施例中，步骤(d)的去除错误标记的测序读段进一步包括将非目标模式阈值应用至匹配数目以识别错误标记的测序读段的步骤。

在一些实施例中，在系统中，步骤(e)的检测包括比对误差校正家族的测序读段与聚核苷酸特异性参考序列的步骤。在一些实施例中，步骤(e)的检测进一步包括对在比对序列中的给定位置处具有特定碱基差异的比对序列的数目计数的步骤。在一些实施例中，步骤(e)的检测进一步包括将家族水平阈值应用至所述数目以识别基于家族的候选变异体的步骤。在一些实施例中，步骤(e)的检测进一步包括对具有特定基于家族的候选变异体的误差校正家族的数目计数的步骤。在一些实施例中，步骤(e)的检测进一步包括将多家族阈值应用至误差校正家族的数目以识别变异体的步骤。

在一些实施例中，在系统中，多家族阈值的值为与百分比因数乘以对应于给定标靶聚核苷酸序列的不同家族的数目的乘积最接近的整数且不同家族的数目的值至少为2。在一些实施例中，百分比因数在0.001至0.1％范围内。在一些实施例中，百分比因数在0.045至0.055％范围内。

在一些实施例中，在系统中，在步骤(e)的检测中，检测的变异体以0.05-0.1％的丰度水平存在于核酸样品中。

在一些实施例中，在系统中，步骤(e)的检测包括以下步骤：(a)比对误差校正家族中的测序读段与聚核苷酸特异性参考序列；和(b)对于比对序列中的每个位置，对在所述位置处具有特定碱基的家族中的比对序列的数目计数。

在一些实施例中，在系统中，步骤(e)的检测包括将家族水平阈值应用至所述数目以识别所述位置的代表性碱基，其中所述位置处低于家族水平阈值的数目指示比对序列中的碱基误差。在一些实施例中，步骤(e)的检测包括对于每个位置产生具有代表性碱基的家族参考序列的步骤，其中家族参考序列存储在存储器中。在一些实施例中，步骤(e)进一步包含从存储器去除误差校正家族的测序读段的步骤。

在一些实施例中，在系统中，步骤(e)的检测包括以下步骤：(a)比较家族参考序列与聚核苷酸特异性参考序列；和(b)当给定位置处的代表性碱基不同于聚核苷酸特异性参考序列中的给定位置处的碱基时，识别给定位置处的基于家族的候选变异体。

在一些实施例中，在系统中，步骤(e)的检测进一步包括对具有特定基于家族的候选变异体的误差校正家族的数目计数的步骤。在一些实施例中，步骤(e)的检测包括将多家族阈值应用至误差校正家族的数目以识别变异体的步骤。

在一些实施例中，在系统中，核酸样品包含来自生物流体的无细胞核酸、来自活检组织的核酸、来自穿刺活检的核酸或来自细胞的核酸。在一些实施例中，生物流体为血液、唾液、痰液、汗液、泪液、灌洗液、羊膜液、脑脊髓液、腹水、尿液、大便、粪便或精液。在一些实施例中，核酸样品包含DNA或RNA，或DNA和RNA的混合物。

在一些实施例中，在系统中，多个经标记的聚核苷酸中的至少两个附有彼此不同的标签。在一些实施例中，多个经标记的聚核苷酸在两端处附有不同标签。

在一些实施例中，在系统中，多个寡核苷酸标签中的个别寡核苷酸标签包括包含不同随机标签序列的区域，所述随机标签序列与固定标签序列相间。

在一些实施例中，在系统中，单一反应混合物含有多个具有10⁴-10⁸个不同随机标签序列的寡核苷酸标签。

在一些实施例中，在系统中，变异体以变异序列、多态序列或突变序列形式存在于核酸样品中。

在一些实施例中，在系统中，测序包含使用平面支撑物、流动池、多个孔、粒子或珠粒。在一些实施例中，支撑物包括10⁴-10⁹个测序反应位点的阵列。在一些实施例中，测序反应位点可操作地耦接到至少一个场效应晶体管(FET)传感器。在一些实施例中，至少一个场效应晶体管(FET)传感器检测来自核苷酸并入的副产物，其中副产物包括焦磷酸盐、氢离子、质子、电荷转移或热量。

在一些实施例中，本公开大体上涉及系统，以及相关方法、组合物、试剂盒、装置和计算机可读媒体，其包含包含指令的非暂时性机器可读存储媒体，所述指令在由处理器执行时，使得所述处理器执行以下步骤以检测具有多个聚核苷酸的核酸样品中的基因变异体：(a)接收多个候选测序读段，其中候选测序读段产生于对通过扩增经标记的聚核苷酸产生的经标记的扩增子测序，其中经标记的聚核苷酸通过将至少一个寡核苷酸标签附加至多个聚核苷酸中的至少一些而产生；(b)识别具有误差的候选测序读段的子集；(c)将其余的候选测序读段分组至具有对于给定候选测序读段家族来说独特的共同标签序列的分组候选测序读段家族中，(d)从候选测序读段家族去除错误标记的测序读段以产生误差校正的测序读段家族；和(e)检测多个误差校正的测序读段家族中的变异体，其中变异体以0.05-5％的丰度水平存在于核酸样品中。在一些实施例中，至少一个寡核苷酸标签附加至单一反应混合物中的多个聚核苷酸中的至少一些。

在一些实施例中，在非暂时性机器可读存储媒体中，步骤(b)的识别包括比较来自多个候选测序读段的候选测序读段与标签特异性参考序列以确定在候选测序读段与标签特异性参考序列之间不同的核苷酸的数目。

在一些实施例中，在非暂时性机器可读存储媒体中，步骤(b)的识别进一步包括应用剔除阈值以识别具有误差的候选测序读段。

在一些实施例中，在非暂时性机器可读存储媒体中，步骤(b)的识别包括比较来自多个候选测序读段的候选测序读段与聚核苷酸特异性参考序列以确定在候选测序读段与聚核苷酸特异性参考序列之间不同的核苷酸的数目。

在一些实施例中，在非暂时性机器可读存储媒体中，步骤(d)的去除错误标记的测序读段包括比较给定家族中的候选测序读段与聚核苷酸特异性参考序列以确定在候选测序读段与聚核苷酸特异性参考序列之间不同的核苷酸的数目。

在一些实施例中，在非暂时性机器可读存储媒体中，步骤(d)的去除错误标记的测序读段进一步包括应用差分计数阈值以识别错误标记的测序读段。

在一些实施例中，在非暂时性机器可读存储媒体中，步骤(d)的去除错误标记的测序读段包括比较候选测序读段与给定家族中的一个或多个其它候选测序读段以识别具有常见模式的变异体的候选测序读段。在一些实施例中，步骤(d)的去除错误标记的测序读段进一步包括将模式计数阈值应用至具有常见模式的变异体的多个候选测序读段以识别错误标记的测序读段组。在一些实施例中，步骤(d)的去除错误标记的测序读段包括比较给定家族中的候选测序读段与聚核苷酸特异性参考序列以识别候选错误标记的测序读段。在一些实施例中，步骤(d)的去除错误标记的测序读段进一步包括比较候选错误标记的测序读段与所述家族中的一个或多个其它候选错误标记的测序读段以识别常见模式的变异体。在一些实施例中，步骤(d)的去除错误标记的测序读段进一步包括将模式计数阈值应用至具有常见模式的变异体的多个候选错误标记的测序读段以确定错误标记的测序读段组。在一些实施例中，步骤(d)的去除错误标记的测序读段包括比较给定家族中的候选测序读段与聚核苷酸特异性参考序列以识别候选错误标记的测序读段中的差异模式。在一些实施例中，步骤(d)的去除错误标记的测序读段进一步包括确定相比于聚核苷酸特异性参考序列与非标靶聚核苷酸的预期序列之间的预期差异模式的候选错误标记的测序读段中的差异模式的匹配数目。在一些实施例中，步骤(d)的去除错误标记的测序读段进一步包括将非目标模式阈值应用至匹配数目以识别错误标记的测序读段。

在一些实施例中，在非暂时性机器可读存储媒体中，步骤(e)的检测包括比对误差校正家族的测序读段与聚核苷酸特异性参考序列。在一些实施例中，步骤(e)的检测进一步包括对在比对序列中的给定位置处具有特定碱基差异的比对序列的数目计数。在一些实施例中，步骤(e)的检测进一步包括将家族水平阈值应用至所述数目以识别基于家族的候选变异体。在一些实施例中，步骤(e)的检测进一步包括对具有特定基于家族的候选变异体的误差校正家族的数目计数。在一些实施例中，步骤(e)的检测进一步包括将多家族阈值应用至误差校正家族的数目以识别变异体。

在一些实施例中，在非暂时性机器可读存储媒体中，多家族阈值的值为与百分比因数乘以对应于给定标靶聚核苷酸序列的不同家族的数目的乘积最接近的整数且不同家族的数目的值至少为2。在一些实施例中，百分比因数在0.001至0.1％范围内。在一些实施例中，百分比因数在0.045至0.055％范围内。

在一些实施例中，在非暂时性机器可读存储媒体中，步骤(e)的检测，检测的变异体以0.05-0.1％的丰度水平存在于核酸样品中。

在一些实施例中，在非暂时性机器可读存储媒体中，步骤(e)的检测包括：(i)比对误差校正家族中的测序读段与聚核苷酸特异性参考序列；和(ii)对于比对序列中的每个位置，对在所述位置处具有特定碱基的家族中的比对序列的数目计数。

在一些实施例中，在非暂时性机器可读存储媒体中，步骤(e)的检测包括将家族水平阈值应用至所述数目以识别所述位置的代表性碱基，其中所述位置处低于家族水平阈值的数目指示比对序列中的碱基误差。在一些实施例中，步骤(e)的检测包括对于每个位置产生具有代表性碱基的家族参考序列。

在一些实施例中，在非暂时性机器可读存储媒体中，进一步包含将家族参考序列存储在存储器中。

在一些实施例中，在非暂时性机器可读存储媒体中，进一步包含从存储器去除误差校正家族的测序读段。

在一些实施例中，在非暂时性机器可读存储媒体中，步骤(e)的检测包括：(i)比较家族参考序列与聚核苷酸特异性参考序列；和(ii)当给定位置处的代表性碱基不同于聚核苷酸特异性参考序列中的给定位置处的碱基时，识别给定位置处的基于家族的候选变异体。

在一些实施例中，在非暂时性机器可读存储媒体中，步骤(e)的检测包括对具有特定基于家族的候选变异体的误差校正家族的数目计数。在一些实施例中，步骤(e)的检测包括将多家族阈值应用至误差校正家族的数目以识别变异体。

在一些实施例中，在非暂时性机器可读存储媒体中，核酸样品包含来自生物流体的无细胞核酸、来自活检组织的核酸、来自穿刺活检的核酸或来自细胞的核酸。在一些实施例中，生物流体为血液、唾液、痰液、汗液、泪液、灌洗液、羊膜液、脑脊髓液、腹水、尿液、大便、粪便或精液。在一些实施例中，核酸样品包含DNA或RNA，或DNA和RNA的混合物。

在一些实施例中，在非暂时性机器可读存储媒体中，多个经标记的聚核苷酸中的至少两个附有彼此不同的标签。在一些实施例中，多个经标记的聚核苷酸在两端处附有不同标签。

在一些实施例中，在非暂时性机器可读存储媒体中，多个寡核苷酸标签中的个别寡核苷酸标签包括包含不同随机标签序列的区域，所述随机标签序列与固定标签序列相间。

在一些实施例中，在非暂时性机器可读存储媒体中，单一反应混合物含有多个具有10⁴-10⁸个不同随机标签序列的寡核苷酸标签。

在一些实施例中，在非暂时性机器可读存储媒体中，基因变异体以变异序列、多态序列或突变序列形式存在于核酸样品中。

在一些实施例中，在非暂时性机器可读存储媒体中，测序包含使用平面支撑物、流动池、多个孔、粒子或珠粒。在一些实施例中，支撑物包括10⁴-10⁹个测序反应位点的阵列。在一些实施例中，测序反应位点可操作地耦接到至少一个场效应晶体管(FET)传感器。在一些实施例中，至少一个场效应晶体管(FET)传感器检测来自核苷酸并入的副产物，其中副产物包括焦磷酸盐、氢离子、质子、电荷转移或热量。

根据各种示例性实施例，上述教示内容和/或示例性实施例中的任何一个或多个的一个或多个特征可使用恰当配置和/或编程的硬件和/或软件元件执行或实施。确定使用硬件和/或软件元件来实施实施例可基于任何数目的因素，如所需计算速率、功率电平、热公差、处理周期预算、输入数据速率、输出数据速率、存储器资源、数据总线速度等，和其它设计或性能约束条件。

硬件元件的实例可包括处理器、微处理器、经由局部接口电路以通信方式耦接的输入和/或输出(I/O)装置(或外围设备)、电路元件(例如晶体管、电阻器、电容器、电感器等)、集成电路、专用集成电路(ASIC)、可编程逻辑装置(PLD)、数字信号处理器(DSP)、现场可编程门阵列(fFPGA)、逻辑门、寄存器、半导体装置、芯片、微芯片、芯片组等。局部接口可包括例如一个或多个总线或其它有线或无线连接、控制器、缓存器(高速缓冲存储器)、驱动器、转发器和接收器等，以允许硬件组件之间的适当通信。处理器为用于执行软件，尤其存储在存储器中的软件的硬件装置。处理器可为任何定制或可商购的处理器、中央处理单元(CPU)、若干个与计算机相关的处理器中的辅助处理器、基于半导体的微处理器(例如呈微芯片或芯片组形式)、宏处理器或一般来说的任何用于执行软件指令的装置。处理器也可表示分布式处理结构。I/O装置可包括输入装置，例如键盘、鼠标、扫描仪、麦克风、触摸屏、用于各种医疗装置和/或实验室仪器的接口、条形码读取器、触控笔、激光读取器、射频装置读取器等。此外，I/O装置还可包括输出装置，例如打印机、条形码打印机、显示器等。最后，I/O装置另外可包括以输入和输出两者的形式连通的装置，例如调制器/解调器(调制解调器；用于接入另一装置、系统或网络)、射频(RF)或其它收发器、电话接口、网桥、路由器等。

软件的实例可包括软件组件、程序、应用、计算机程序、应用程序、系统程序、机器程序、操作系统软件、中间件、固件、软件模块、例程、子例程、功能、方法、操作步骤、软件接口、应用程序接口(API)、指令集、计算代码、计算机代码、代码段、计算机代码段、字、值、符号或其任何组合。存储器中的软件可包括一个或多个独立程序，其可包括用于执行逻辑功能的可执行指令的有序列表。存储器中的软件可包括用于识别根据本教示内容的数据流的系统和任何适合的定制或可商购的操作系统(O/S)，其可控制如系统的其它计算机程序的执行，且提供排程、输入-输出控制、文件和数据管理、存储器管理、通信控制等。

根据各种示例性实施例，上述教示内容和/或示例性实施例中的任何一个或多个的一个或多个特征可使用恰当配置和/或编程的非暂时性机器可读媒体或项目执行或实施，所述非暂时性机器可读媒体或项目可储存当被机器执行时，可使得机器执行根据示例性实施例的方法和/或操作的指令或指令集。此类机器可包括例如任何适合的处理平台、计算平台、计算装置、处理装置、计算机系统、处理系统、计算机、处理器、科学或实验室仪器等，且可使用硬件和/或软件的任何适合组合实施。机器可读媒体或项目可包括例如任何适合类型的存储器单元、存储器装置、存储器项目、存储器媒体、存储装置、存储项目、存储媒体和/或存储单元，例如存储器、可拆卸或非可拆卸式媒体、可擦除或非可擦除媒体、可写入或可重写媒体、数字或模拟媒体、硬盘、软盘、只读存储器压缩光盘(CD-ROM)、可记录压缩光盘(CD-R)、可重写压缩光盘(CD-RW)、光盘、磁性媒体、磁光媒体、可拆卸存储卡或磁盘、不同类型的数字多功能光盘(DVD)、磁带、盒式磁带等，包括任何适用于计算机的媒体。存储器可包括易失性存储器元件(例如随机存取存储器(RAM，如DRAM、SRAM、SDRAM等))和非易失性存储器元件(例如ROM、EPROM、EEROM、快闪存储器、硬盘驱动器、磁带、CDROM等)中的任一个或组合。此外，存储器可并入电子、磁性、光学和/或其它类型的存储媒体。存储器可具有分布式结构，其中各种组件彼此远离的定位，但仍通过处理器接入。指令可包括使用任何适合的高阶、低阶、面向对象的、视觉、经编译和/或经解译编程语言实施的任何适合类型的代码，如源代码、经编译代码、经解译代码、可执行码、静态代码、动态代码、经加密代码等。

根据各种示例性实施例，上述教示内容和/或示例性实施例中的任一个或多个的一个或多个特征可使用分布、丛集、远程或云端计算资源至少部分地执行或实施。

根据各种示例性实施例，上述教示内容和/或示例性实施例中的任一个或多个的一个或多个特征可使用源程序、可执行程序(目标代码)、脚本或任何其它包含待执行的指令集的实体来执行或实施。在源程序的情况下，程序可经由编译器、汇编器、解译器等翻译，其可或可不包括于存储器内，以与O/S结合而恰当地操作。指令可使用以下各者书写：(a)面向对象的编程语言，其具有数据和方法类别，或(b)具有例程、子例程和/或功能的程序化编程语言，其可包括例如C、C++、Pascal、Basic、Fortran、Cobol、Perl、Java和Ada。

根据各种示例性实施例，上述示例性实施例中的一个或多个可包括用户接口装置、计算机可读存储媒体、局部计算机系统或远程计算机系统、与可由此类示例性实施例产生、接入或使用的任何信息、信号、数据、和/或中间或最终结果有关的信息的传输、显示、存储、打印或输出。此类传输、显示、存储、打印或输出的信息可例如采取运行和报告、图片、表格、图表、图、电子数据表、相关性、序列和其组合的可搜索和/或可过滤列表形式。

实例

可根据以下实例来进一步理解本教示内容的实施例，所述实例不应理解为以任何方式限制本教示内容的范围。

实例1：

分子标记-DNA样品：

用对照DNA和无细胞DNA进行分子标记程序。含有以0.1％(例如等位基因频率)存在的标靶序列的对照DNA样品通过将AcroMetrix^TM Oncology Hotspot Control(ThermoFisher Scientific 969056)稀释至GM24385细胞系的基因组DNA背景中而产生。

分离cf DNA：

使用MagMAX^TM无细胞DNA分离试剂盒，替代方案B(Thermo Fisher ScientificA29319)中包含的试剂和说明书从供体血浆提取无细胞DNA(cfDNA)。残余血细胞在4℃下持续10分钟通过1600xg下的离心从血浆去除。将血浆转移至新离心管且再在4℃下持续10分钟于16000xg下离心。测量血浆容量。根据替代方案B中提供的表，通过将溶解/结合溶液和磁珠混合在一起而制备结合溶液。

表1：

将结合溶液添加至血浆，且将管旋动或倒置10次。管在室温下在旋转的情况下培育10分钟。将管置于磁体上5分钟，或直到溶液呈现透明。在管保持于磁体上时，小心地去除和丢弃上清液。管再保持于磁体上1分钟，且小心地去除和丢弃残余上清液。

将管从磁体移开。将珠粒再悬浮于1mL MagMAX^TM无细胞DNA清洗溶液中以制造珠粒浆料。将珠粒浆料转移至新的1.5mL不粘微量离心管中，且保存溶解/结合管且放在一旁。将微量离心管置于DynaMag^TM-2磁体上20秒。从珠粒浆料去除上清液，且用于冲洗溶解/结合管，接着转移至珠粒浆料。丢弃溶解/结合管。含有珠粒浆料的管再保持于磁体上2分钟。用1mL移液管去除上清液。在管保持于磁体上时，在工作台上轻拍DynaMag^TM-2磁体架5次。使用200μL移液管从管去除任何残余液体。将管从磁体移开。将1mL新制备的80％乙醇添加至管中，且使管涡旋30秒。将管置于磁体上2分钟。使用1mL移液管去除上清液。管保持于磁体上，同时持续3-5分钟对珠粒进行风干。在管保持于磁体上时，在工作台上轻拍DynaMag^TM-2磁体架5次。使用200μL移液管从管去除任何残余液体。

将400μL 0.1×TAE添加至管中，接着涡旋5分钟。将管置于磁体上2分钟。去除上清液且转移至新的1.5mL管中。将5μL MagMAX^TM无细胞DNA磁珠和500μL MagMAX^TM无细胞溶解/结合溶液添加至上清液(在新管中)，且彻底混合。将管振荡5分钟以将cfDNA结合至珠粒。将管置于磁体上5分钟。使用1mL移液管去除上清液。将管从磁体移开，且添加1mL MagMAX^TM无细胞DNA清洗溶液，且使管涡旋30秒。将管置于磁体上2分钟。使用1mL移液管去除上清液。在管保持于磁体上时，在工作台上轻拍DynaMag^TM-2磁体架5次。使用200μL移液管从管去除任何残余液体。

将管从磁体移开以用于80％乙醇洗涤步骤。添加1mL新制备的80％乙醇，且使管涡旋30秒。将管置于磁体上2分钟。使用1mL移液管去除上清液。在管保持于磁体上时，在工作台上轻拍DynaMag^TM-2磁体架5次。使用200μL移液管从管去除任何残余液体。将管从磁体移开。添加1mL新制备的80％乙醇，且使管涡旋30秒。将管置于磁体上2分钟。使用1mL移液管去除上清液。在管保持于磁体上时，在工作台上轻拍DynaMag^TM-2磁体架5次。使用200μL移液管从管去除任何残余液体。在管保持于磁体上时，持续3-5分钟对珠粒进行风干。在管保持于磁体上时，在工作台上轻拍DynaMag^TM-2磁体架5次。使用200μL移液管从管去除任何残余液体。

通过将10-15μL MagMAX^TM无细胞DNA洗脱溶液添加至管而将cfDNA从珠粒洗脱。使用涡旋适配器对管进行涡旋5分钟。将管置于磁体上2分钟。上清液含有纯化的cfDNA。cfDNA用于产生分子经标记的库，或储存在4℃下24小时或在-20℃下长期储存。

分子标记程序：

分子经标记的库使用PCR分子标记分配(大致2-4个PCR循环)，后跟PCR扩增(大致16-18个PCR循环)而产生自cfDNA(参见图3和图3的图例)。

正向和反向基因特异性引物经设计以含有独特分子标签，其由总共6个穿插有位于基因特异性序列的5'处的间隔序列(固定序列)的“N”简并碱基组成(图3和图3的图例)。举例来说，正向和反向基因特异性引物含有位于基因特异性序列：5'NNNACTNNNTGA-3'(SEQID NO:1)的5'处的随机标记序列。正向基因特异性引物也包括一部分的位于随机标记序列的5'处的通用A-引物序列和IonXpress条形码序列。反向基因特异性引物包括一部分的位于随机标记序列的5'处的通用P1-引物序列，但不具有条形码序列。正向和反向基因特异性引物含有待用于后续PCR扩增的一部分的通用A-引物序列，或一部分的通用P1引物序列，其中出于Ion Torrent测序的相容性，使用加尾引物添加通用A或P1序列的剩余部分。因此，正向基因特异性引物含有以下序列：5'-[一部分的通用A]-[NNNACTNNNTGA]-[基因特异性序列]-3'。反向基因特异性引物含有以下序列：5'-[一部分的通用P1]-[NNNACTNNNTGA]-[基因特异性序列]-3'。另外，对不具有随机标签序列的正向和反向加尾基因特异性引物进行测试。

在含有20ng cfDNA、1×Phusion^TM U多重PCR预混液(Thermo Fisher ScientificF-562S)和取决于扩增子总数的10至50nM的每种引物的25μL反应中进行两个或四个分子标记PCR循环，其中循环条件如下：98℃的1个循环，持续2分钟，98℃的2或4个循环，持续15秒，60℃持续4分钟，72℃持续2分钟，在4℃下保持。或者，将20ng cf DNA分成2或4个等分试样，且对每个等分试样如上文所述地进行分子标记PCR循环。

通过RecJ_f核酸外切酶(New England Biolabs，M0264S)，通过在1×NEB缓冲液2中以1:10稀释RecJ_f核酸外切酶(30U/μL)，且将2μL经稀释的酶添加至PCR反应物，且在37℃下消化15分钟(对于<40个扩增子的引物集合为任选的)，和后续AMPure^TM XP纯化来去除过量引物。

纯化：第一轮：

对于AMPure^TM XP纯化步骤，将25μL PCR反应物转移至新的1.5mL管中。用额外25μL水洗涤PCR管以收集所有内含物，将其转移至1.5mL管。将75μL 1.5×AMPure^TM XP试剂(Beckman Coulter，A63880)添加至1.5mL管，且管在室温下在转子上培育10分钟。制备新的80％乙醇。通过遵循制造商的说明书，用新的80％乙醇洗涤样品两次。在25μL低TE缓冲液(10mM Tris-HCl，pH 8.0，0.1mM EDTA)中洗脱最终洗涤样品。

PCR扩增：

对于工作流的PCR扩增部分，使用含有一部分的通用A引物序列和IonXpress条形码序列的正向引物，且使用含有一部分的通用P1引物序列的反向引物进行大致16-18个PCR循环。在以下循环条件下在含有预先洗脱的DNA、1×Phusion^TM HiFi缓冲液、200μM dNTP、0.4μM正向引物、0.4μM反向引物和2U Phusion^TM HiFiDNA聚合酶的50μL反应物中进行PCR扩增反应：98℃的1个循环，持续2分钟，98℃的16至18个循环，持续15秒，63℃持续15秒，72℃持续15秒，和在4℃下保持。

纯化：第二轮：

用AMPure^TM XP试剂纯化反应物。将扩增子转移至新的1.5mL管中。用额外20μL水洗涤PCR管以收集所有的内含物，将其转移至1.5mL管中，所述管含有大致70μL。用0.5×和0.95×AMPure^TM XP试剂进行双重尺寸选择。或者，Pippin Prep可用于尺寸选择。对于AMPure^TM方法，将77μL 1.5×AMPure^TM XP试剂添加至1.5mL管，且管在室温下在转子上培育10分钟。通过遵循制造商的说明书，用新的80％乙醇洗涤样品两次。在25μL低TE缓冲液(10mM Tris-HCl，pH 8.0，0.1mM EDTA)中洗脱最终洗涤样品。

最终库在25μL低TE缓冲液中洗脱且在Agilent 2100生物分析仪上使用高敏感性DNA试剂盒(High Sensitivity DNA Kit)定量。使用Ion PGM^TM Hi-Q^TM Chef 400Supplies试剂盒(Thermo Fisher Scientific A25948和A27293试剂盒)和318v2芯片加载程序，40pM的库用于模板扩增且附接至Ion球形珠粒。在Ion PGM装置上进行测序。使用各种剔除、分选和计数方法，通过应用的阈值分析测序数据且展示达到0.05-0.1％检测极限。在一个标记实验中，结果显示：检测到163个真实变异体中的45个(需要>个2家族和>0.8个成员携有变异体)；45个检测的变异体中的6个具有低于20,000的覆盖度；45个检测的变异体中的5个观测于低于0.1％的频率下；且观测的等位基因频率在0.1％±0.1％内变化。

实例2：

分子标记-无细胞DNA：

从单一血液管(大致7.5mL血液)分离无细胞DNA且如上文实例1中所述地处理。

在96孔板中，如下设置分子标记PCR分配。个别孔含有：20ng cfDNA、1×Phusion^TMU多重PCR预混液(Thermo Fisher Scientific F-562S或F-562L)、3.5μL肺基因特异性引物组和水以制成25μL的最终体积。测试不同的肺基因特异性引物组。肺特异性引物组含有正向和反向引物库。举例来说，正向基因特异性引物含有以下序列：5'-[一部分的通用A]-[NNNACTNNNTGA]-[基因特异性序列]-3'。反向基因特异性引物含有以下序列：5'-[一部分的通用P1]-[NNNACTNNNTGA]-[基因特异性序列]-3'。序列5'-NNNACTNNNTGA-3'为SEQ IDNO:1。肺基因特异性引物组为含有38-46个不同肺特异性引物对的多重组，其中每对含有正向和反向引物。组中的基因特异性引物也含有随机标记序列，和通用A或P1引物序列(参见上文实例1中的描述)。96孔板用粘着膜密封。板经涡旋以混合内含物孔，且板经旋转。将板装载至热循环仪中，且运行以下程序：

表2：

或者，将20ng cf DNA分成2或4个等分试样，且对每个等分试样如上文所述地进行分子标记PCR循环。

在室温下培育AMPure^TM XP试剂至少30分钟，且经涡旋以分散珠粒。新制备80％乙醇的溶液。260μL的80％乙醇与65μL水混合。

从板去除粘着膜。将25μL无核酸酶水添加至每个含有样品的孔。添加75μL(例如1.5×的样品体积)Agencourt AMPure^TM XP试剂。板用膜再密封，且经涡旋以混合，接着在室温下培育5分钟。板再次经涡旋，且再次在室温下培育5分钟。将板短暂地旋转。将板置于96孔板架上，去除膜，且将板置于磁性架上且培育5分钟或直到溶液变得透明。在不干扰团块的情况下从个别孔去除且丢弃上清液。添加150μL的80％乙醇。将板边到边地移动至磁体上的两个或四个位置以洗涤珠粒。在不干扰团块的情况下从个别孔去除且丢弃上清液。重复80％乙醇洗涤一次。在不干扰团块的情况下从个别孔去除且丢弃上清液。较小移液管用于从孔的侧面去除乙醇液滴。孔中的珠粒在室温下在磁体上风干5分钟。将板从磁体移开。将23μL TE添加至个别孔以分散珠粒。板用粘着膜再密封，且经彻底涡旋，且在室温下培育5分钟。旋转板以收集液滴。将板置于96孔板架上，且去除膜。将板置于磁体上至少2分钟。将23μL上清液转移至相同板上的新孔。

如下设置PCR扩增程序：向含有23μL来自前述步骤的样品的孔中添加以下各者：1μL通用引物-A(含有IonXpress条形码序列)、1μL通用引物P1、25μL 2×Phusion^TM U多重PCR预混液(Thermo Fisher Scientific F-562S或F-562L)。孔含有约50μL液体。通过上下移液5次而混合孔中的内含物。将板短暂地向下旋转。任选项：如果存在任何携带的珠粒，那么将板置于磁体架上3分钟，且将50μL反应物转移至相同板上的新孔。将板再密封。将板装载至热循环仪上且运行以下程序：

表3：

每个样品将520μL新制备的80％乙醇与130μL无核酸酶水混合。从板去除膜。将57.5μL(例如1.15×样品体积)Agencourt AMPure^TM XP试剂添加至每个样品，且上下移液5次。将板在室温下培育10分钟。将板置于磁体上且在室温下培育5分钟，或直到溶液澄清。在不干扰团块的情况下小心地去除上清液。将150μL的80％乙醇添加至样品，且将板在磁体上的两个或四个位置边到边地移动以洗涤珠粒。在不干扰团块的情况下去除上清液且丢弃。用150μL的80％乙醇重复洗涤。去除且丢弃上清液。使用较小移液管(例如10至20μL移液管)，去除孔中剩余的乙醇液滴。将板在室温下保持于磁体上5分钟以对珠粒进行风干。将板从磁体移开。将50μL低TE添加至团块以分散珠粒。将样品上下移液5次以使珠粒再悬浮。或者，板用粘着膜密封，且彻底涡旋，且向下旋转以收集液滴。将板置于磁体上至少2分钟。将50μL上清液转移至相同板上的新孔。将板从磁体移开。将50μL(例如1×样品体积)Agencourt AMPure^TM XP试剂添加至每个样品。将样品上下移液5次。将板在室温下培育10分钟。将板置于磁体上且培育5分钟，或直到溶液澄清。在不干扰团块的情况下小心地去除上清液且丢弃。添加150μL的80％乙醇，且将板在磁体上的两个或四个位置边到边地移动以洗涤珠粒。在不干扰团块的情况下去除上清液且丢弃。用150μL的80％乙醇重复洗涤。去除且丢弃上清液。使用较小移液管(例如10至20μL移液管)，去除孔中剩余的乙醇液滴。将板在室温下保持于磁体上5分钟以对珠粒进行风干。将板从磁体移开。将30μL低TE添加至团块以分散珠粒。将样品上下移液10次以使珠粒再悬浮。或者，板用粘着膜密封，且彻底涡旋，且向下旋转以收集液滴。将板置于磁体上至少2分钟。将28μL上清液转移至相同板上的新孔。

为了对库进行定量，从标准大肠杆菌库(大致68pM储备溶液处的大肠杆菌DH10B库)制备5个稀释样本点。举例来说，稀释样品制备于：6.8pM、0.68pM、0.068pM、0.0068pM和0.00068pM。通过混合2μL cfDNA库与198μL水，短暂地混合且向下旋转而制备由cfDNA制备的库的稀释样品(这是1:100稀释样品)。3μL的1:100稀释样品与27μL水混合，短暂地混合且向下旋转(这是1:1000稀释样品)。对于每个样品，对于样品、标准物和NTC安设3个孔。对于384孔板使用以下配方制备预混液：

表4：

将5.5μL预混液分配至每个孔中，且将4.5μL的1:1000稀释库和标准物添加至这些孔中。

如下安设7900HT热循环仪(qPCR系统)上的PCR反应：

表5：

通过根据qPCR测定的浓度乘以用于此分析的库稀释度计算未经稀释的cfDNA库的平均浓度。

最终库在25μL低TE缓冲液中洗脱且在Agilent 2100生物分析仪上使用高敏感性DNA试剂盒(High Sensitivity DNA Kit)定量。使用Ion PGM^TM Hi-Q^TM Chef 400Supplies试剂盒(Thermo Fisher Scientific A25948和A27293试剂盒)和318v2芯片加载程序，40pM的库用于模板扩增且附接至Ion球形珠粒。在Ion PGM装置上进行测序。使用各种剔除、分选和计数方法，通过应用的阈值分析测序数据(例如参见附录2和3)，且展示达到0.05-0.1％检测极限(参见附录1中的所有数据)。

实例3：

分子标记-融合RNA：

如下制备两种含有DNA和RNA的混合物的核酸样品。将含有已知融合RNA物质的RNA混合液添加至cfDNA中直至25％或50％RNA的最终浓度。仅含有RNA混合液的第三核酸样品也用于分子标记程序。制备和测试其它样品，其中将RNA混合液添加至cfDNA中直至2％、1％、0.5％和0.1％RNA的最终浓度。RNA混合液由融合阳性肺NCI细胞系H2228和HCC78制备。

反转录反应：

5×VILO^TM RT反应混合物和10×Superscript^TM III酶混合物获自Superscript^TMIV VILO^TM cDNA Synthesis Kit(Thermo Fisher Scientific，目录号11754-050)。在96孔板中，如下设置反转录反应。个别孔含有：20ng核酸样品(cfDNA加上添加的RNA)、2μL的5×VILO反应混合物、1μL的10×Superscript^TM III酶混合物和无核酸酶水以制备10μL总体积。96孔板用粘着膜密封。板经涡旋以混合内含物孔，且板经旋转。将板装载至热循环仪中，且运行以下程序：

表7：

阶段：	温度：	时间：
			阶段1	42℃	30分钟
阶段2	85℃	5分钟
			保持	10℃	∞

标记：第一轮PCR：

如下地在相同96孔板的新孔中安设用于分子标记PCR分配的试剂。25μL反应体积的总体积含有：10μL来自上文所述的反转录反应的cDNA、12.5μL的2×Phusion^TM U多重PCR预混液(Thermo Fisher Scientific F-562S或F-562L)、2.5μL的经标记的引物组。经标记的引物组含有经设计以产生具有融合序列的扩增子的多重集配对正向和反向基因特异性引物。组中的经标记的引物也含有随机标记序列，和通用A或P1引物序列(参见上文实例1中的正向和反向基因特异性引物的描述)。举例来说，正向基因特异性引物含有以下序列：5'-[一部分的通用A]-[NNNACTNNNTGA]-[基因特异性序列]-3'。反向基因特异性引物含有以下序列：5'-[一部分的通用P1]-[NNNACTNNNTGA]-[基因特异性序列]-3'。序列5'-NNNACTNNNTGA-3'为SEQ ID NO:1。96孔板用粘着膜密封。板经涡旋以混合内含物孔，且板经旋转。将板装载至热循环仪中，且运行以下程序：

表8：

纯化：第一轮：

第二轮PCR：

如下设置PCR扩增程序：向含有23μL来自前述步骤的样品的孔中添加以下各者：1μL通用引物-A(含有IonXpress条形码序列)、1μL通用引物P1、25μL 2×Phusion^TM U多重PCR预混液(Thermo Fisher Scientific F-562S或F-562L)。孔应含有约50μL液体。通过上下移液5次而混合孔中的内含物。将板短暂地向下旋转。任选项：如果存在任何携带的珠粒，那么将板置于磁体架上3分钟，且将50μL反应物转移至相同板上的新孔。将板再密封。将板装载至热循环仪上且运行以下程序：

表9：

纯化-第二轮：

表10：

如下安设7900HT热循环仪(qPCR系统)上的PCR反应：

表11：

最终库在25μL低TE缓冲液中洗脱且在Agilent 2100生物分析仪上使用高敏感性DNA试剂盒(High Sensitivity DNA Kit)定量。使用Ion PGM^TM Hi-Q^TM Chef 400Supplies试剂盒(Thermo Fisher Scientific A25948和A27293试剂盒)和318v2芯片加载程序，40pM的库用于模板扩增且附接至Ion球形珠粒。在Ion PGM装置上进行测序。使用各种剔除、分选和计数方法，通过应用的阈值分析测序数据，且展示检测到EML4-ALK和SLC34A2-ROS1融合转录物。

实例4：

通过肺引物组-cfDNA、MegaMix对照DNA和Horizon对照DNA样品的分子标记。

从来自人类肺癌个体(例如晚期肺癌)的单一血液管(大致7.5mL血液，4-5mL血浆)分离无细胞DNA且如上文实例1中所述地处理。在EDTA血液收集管或Streck DNA血液收集管中收集血液。一般来说，从约7.5mL血液分离大致20-50ng cfDNA。另外，匹配的FFPE样品获自相同人类肺癌个体。

标记cfDNA、MegaMix对照DNA或Horizon对照DNA：

来自肺cfDNA试剂盒的组分在冰上解冻，包括：肺cfDNA引物组，和cfDNA库PCR预混液。肺cfDNA引物组包括引物对，其用于产生覆盖11种基因中的突变，包括157个热点突变的35种不同扩增子。举例来说，正向基因特异性引物含有以下序列：5'-[一部分的通用A]-[NNNACTNNNTGA]-[基因特异性序列]-3'。反向基因特异性引物含有以下序列：5'-[一部分的通用P1]-[NNNACTNNNTGA]-[基因特异性序列]-3'。序列5'-NNNACTNNNTGA-3'为SEQ ID NO:1。

MegaMix对照DNA为来自AcroMetrix^TM的对照DNA混合物，含有包括癌症相关突变的合成和基因组DNA。

Horizon cfDNA对照DNA由工程改造细胞系制得的参考标准且含有癌症相关突变。

在96孔板中，如下地在个别孔中设置分子标记PCR分配：

表12：

组分：	体积：
		cfDNA或MegaMix或Horizon对照DNA	XμL
无核酸酶水	12.6减去XμL
		肺cfDNA组	2.4μL
cfDNA库PCR预混液	15μL
		总体积：	30μL

最后添加cfDNA PCR预混液以使反应混合物在室温下耗费的时间量最小化。或者，在冰上安设预混液。

板用Clear粘着膜密封。板经涡旋以充分混合。板在300xg下旋转30秒。

将热循环仪预加热至90℃。根据以下程序将板装载至热循环仪中且运行：

表13：

为了使样品蒸发最小化，在PCR期间使用光学膜压缩垫。

第一轮纯化：

在室温下培育AMPure^TM XP试剂至少30分钟，且经彻底涡旋以分散珠粒。低滞留移液管端部用于AMPure^TM纯化步骤。新制备80％乙醇的溶液。每个样品260μL的80％乙醇与65μL无核酸酶水混合。

板经短暂地旋转以收集孔底部处的样品。从板小心地去除粘着膜。将30μL无核酸酶水添加至每个样品。将96μL(1.6×样品体积)Agencourt AMPure^TM XP试剂添加至每个样品。板用膜再密封，且经涡旋以混合，且在室温下培育5分钟。板再次经涡旋且再在室温下培育5分钟。在每次涡旋之后检验样品的颜色以确保珠粒彻底混合。板在300xg下旋转1分钟。将板置于96孔板架上，且去除膜。将板置于磁性架上且培育5分钟或直到溶液变得澄清。在不干扰团块的情况下去除上清液，且丢弃上清液。将150μL新制备的80％乙醇添加至每个孔，且在室温下培育30秒。在不干扰团块的情况下去除上清液，且丢弃上清液。在磁体上静置时，板不移动。通过将150μL新制备的80％乙醇添加至每个孔，且在室温下培育30秒而重复洗涤。在不干扰团块的情况下去除上清液，且丢弃上清液。较小移液管(例如10或20μL)用于从孔去除所有的乙醇液滴。孔中的珠粒在室温下在磁体上风干5分钟。将板从磁体移开。将24μL低TE添加至团块以分散珠粒。板用新粘着膜再密封，且彻底涡旋，且在室温下培育5分钟。板在300xg下旋转30秒以收集液滴。将板置于96孔板架上，且去除膜。将板置于磁性架上且培育至少2分钟。将23μL上清液转移至相同板上的新孔，使用低滞留端部来减少样品损失。

附加通用P1和带条形码的A衔接子：

如下设置第二PCR反应：向含有23μL来自前述步骤的样品的孔中添加以下各者：1μL cfDNA库引物A/BC X(条形码1-16)；1μL cfDNA库引物P1；25μL cfDNA库预混液(总共50μL体积)。最后添加cfDNA库预混液以使反应物在室温下耗费的时间量最小化。板用新粘着膜密封，且彻底涡旋。板在300xg下旋转30秒以收集液滴。

表14：

为了使样品蒸发最小化，在PCR期间使用光学膜压缩垫。

第二轮纯化：

每个样品将520μL新制备的80％乙醇与130μL无核酸酶水混合。将115μL(1.15×样品体积)Agencourt AMPure^TM XP试剂添加至每个样品。板经再密封，经涡旋以混合，且在室温下培育5分钟。在涡旋之后检验样品的颜色以确保珠粒彻底混合。板在300xg下旋转1分钟。将板置于96孔板架上，且去除膜。将板置于磁性架上且培育5分钟或直到溶液变得澄清。在不干扰团块的情况下去除上清液，且丢弃上清液。将150μL新制备的80％乙醇添加至每个孔，且在室温下培育30秒。在不干扰团块的情况下去除上清液，且丢弃上清液。在磁体上静置时，板不移动。通过将150μL新制备的80％乙醇添加至每个孔，且在室温下培育30秒而重复洗涤。在不干扰团块的情况下去除上清液，且丢弃上清液。较小移液管(例如10或20μL)用于从孔去除所有的乙醇液滴。孔中的珠粒在室温下在磁体上风干5分钟。将板从磁体移开。将50μL低TE添加至团块以分散珠粒。板用新粘着膜再密封，且彻底涡旋，且在室温下培育5分钟。板在300xg下旋转30秒以收集液滴。将板置于96孔板架上，且去除膜。将板置于磁性架上且培育至少2分钟。将50μL上清液转移至相同板上的新孔，使用低滞留端部来减少样品损失。

尺寸选择：

如下进行尺寸选择。将板从磁体移开。将45μL(0.9×样品体积)AgencourtAMPure^TM XP试剂添加至每个样品。板经再密封，经涡旋以混合，且在室温下培育5分钟。在涡旋之后检验样品的颜色以确保珠粒彻底混合。板在300xg下旋转1分钟。将板置于96孔板架上，且去除膜。将板置于磁性架上且培育5分钟或直到溶液变得澄清。在不干扰团块的情况下去除上清液，且丢弃上清液。将150μL新制备的80％乙醇添加至每个孔，且在室温下培育30秒。在不干扰团块的情况下去除上清液，且丢弃上清液。在磁体上静置时，板不移动。通过将150μL新制备的80％乙醇添加至每个孔，且在室温下培育30秒而重复洗涤。在不干扰团块的情况下去除上清液，且丢弃上清液。较小移液管(例如10或20μL)用于从孔去除所有的乙醇液滴。孔中的珠粒在室温下在磁体上风干5分钟。将板从磁体移开。将30μL低TE添加至团块以分散珠粒。板用新粘着膜再密封，且彻底涡旋，且在室温下培育5分钟。板在300xg下旋转30秒以收集液滴。将板置于96孔板架上，且去除膜。将板置于磁性架上且培育至少2分钟。将28μL上清液转移至相同板上的新孔，使用低滞留端部来减少样品损失。

库定量和制备稀释标准物：

使用大肠杆菌DH10B对照DNA(约68pM储备液)制备稀释系列，其包括6.8pM、0.68pM、0.068pM、0.0068pM和0.00068pM。这些稀释液用作qPCR仪器中的稀释标准物。

通过组合2μL经标记的库与198μL无核酸酶水制备经标记的库的1:100稀释液，将混合物充分涡旋，且短暂地旋转。通过组合3μL的1:100稀释液与27μL无核酸酶水制备经标记的库的1:1000稀释液，将混合物充分涡旋，且短暂地旋转。

对于每个经标记的库、稀释标准物和无模板对照(NTC)各安设三个孔。使用下表制备每个样品的预混液的体积：

表15：

组分：	体积：
		2×TaqMan预混液	5μL
20×Ion TaqMan分析物	0.5μL
		总体积：	5.5μL

将5.5μL预混液，和4.5μL的1:1000稀释标准物或1:1000经稀释的经标记的库分配至每个孔中。

如下运行7900HT系统热循环仪：

表16：

通过根据qPCR测定的浓度乘以用于此分析的库稀释度计算未经稀释的经标记的库的平均浓度。

结果：

产生自cfDNA，且使用实例4中描述的分子标记方法的经标记的库的库定量程序的结果显示于图4中。

产生自cfDNA，且使用实例4中描述的分子标记方法，且接着在Ion Torrent半导体测序芯片上测序的经标记的库的读段长度分析的结果显示于图5中。

产生自对照DNA的不同稀释标准物(例如0.5％或0.1％)，且使用实例4中描述的分子标记方法，且接着在Ion Torrent半导体测序芯片上测序的若干经标记的库的真阳性计数和灵敏度分析的结果显示于图6中。

产生自经工程改造对照DNA的0.1％稀释标准物，且使用实例4中描述的分子标记方法，且接着在Ion Torrent半导体测序芯片上测序的经标记的库的家族规模分布分析的结果显示于图7A中。

产生自经工程改造对照DNA的0.5％稀释标准物，且使用实例4中描述的分子标记方法，且接着在Ion Torrent半导体测序芯片上测序的经标记的库的家族规模分布分析的结果显示于图7B中。

产生自cfDNA-1样品，且使用实例4中描述的分子标记方法，且接着在Ion Torrent半导体测序芯片上测序的经标记的库的家族规模分布分析的结果显示于图8A中。

产生自cfDNA-2样品，且使用实例4中描述的分子标记方法，且接着在Ion Torrent半导体测序芯片上测序的不同经标记的库的另一家族规模分布分析的结果显示于图8B中。

产生自cfDNA-1样品，且使用实例4中描述的分子标记方法，且接着在Ion Torrent半导体测序芯片上测序的经标记的库的每个标靶序列的读段计数的结果显示于图9A中。

产生自cfDNA-2样品，且使用实例4中描述的分子标记方法，且接着在Ion Torrent半导体测序芯片上测序的经标记的库的每个标靶序列的读段计数的结果显示于图9B中。

产生自cfDNA-1样品，且使用实例4中描述的分子标记方法，且接着在Ion Torrent半导体测序芯片上测序的经标记的库的家族规模分析(例如规模≥3)的结果显示于图10A中。

产生自cfDNA-2样品，且使用实例4中描述的分子标记方法，且接着在Ion Torrent半导体测序芯片上测序的经标记的库的家族规模分析(例如规模≥3)的结果显示于图10B中。

经标记的库使用实例4中描述的分子标记方法产生自八种不同cfDNA样品，且接着在Ion Torrent半导体测序芯片上测序。中值读段覆盖度、中值功能家族、>0.8MM覆盖度的标靶和假阳性的调用热点变异体的结果显示于下表17中：

表17：

实例5：

通过肺引物组的分子标记

从来自人类肺癌个体(例如晚期肺癌)的单一血液管(大致7.5mL血液，4-5mL血浆)分离无细胞DNA且如上文实例1中所述地处理。在EDTA血液收集管或Streck DNA血液收集管中收集血液。另外，匹配的FFPE样品获自相同人类肺癌个体。

使用上文实例4中描述的MagMAX^TM无细胞DNA分离程序从血浆分离cfDNA。使用RecoverAll^TM Multi-Sample RNA/DNA分离试剂盒，根据制造商的说明书从FFPE样品分离DNA(Thermo Fisher Scientific目录号A26069)。

通过将GM24385基因组DNA的背景下的工程改造质体对照DNA(AcroMetrix^TM肿瘤学热点对照)稀释至0.1％或0.5％频率，且接着使DNA混合物片段化以产生平均尺寸为170bp的片段来制备对照稀释系列。AcroMetrix^TM样品含有40个由分子标记程序询问的常见肿瘤突变。尺寸分布看起来与Horizon的cfDNA参考样品类似(图11)。将输入参考的量加倍以匹配人类cfDNA中长于110bp的DNA片段的数目。

也测试Horizon标准参考HD780的稀释系列(0.1％、1％和5％)，Horizon样品含有8个在我们的热点位置中的低频率突变，包括两个尺寸>10bp的大型插入和缺失变异体。

正常cfDNA样品和FF/FFPE肿瘤样品中的变异体检测性能的分析验证。

经标记的库使用如上文实例4中所述的肺cfDNA引物组产生自cfDNA(来自血浆)、DNA(来自FFPE样品)、Horizon Multiplex I cfDNA参考标准(5、10、30、40、50或60ng输入DNA)和AcroMetrix^TM肿瘤学热点对照。举例来说，正向基因特异性引物含有以下序列：5'-[一部分的通用A]-[NNNACTNNNTGA]-[基因特异性序列]-3'。反向基因特异性引物含有以下序列：5'-[一部分的通用P1]-[NNNACTNNNTGA]-[基因特异性序列]-3'。序列5'-NNNACTNNNTGA-3'为SEQ ID NO:1。靶向的肺cfDNA引物组：ALK、BRAF、EGFR、ERBB2、KRAS、MAP2K1、MET、NRAS、PIK3CA、ROS1和TP53。肺cfDNA引物组靶向35个扩增子，覆盖11种基因中的157或169个热点突变。正向和反向引物相隔40-60bp放置以适应cfDNA和FFPE DNA的尺寸分布。在Ion Torrent半导体测序芯片上对经标记的库进行测序。

Horizon参考标准用于展示分子标记程序的检测敏感性和特异性。结果指示对于Horizon参考标准，以5ng输入的1％Horizon标准和50ng的0.1％Horizon标准实现>80％敏感性(参见下表18)。也测试20ng输入cfDNA。

表18：

Horizon对照	输入	敏感性	特异性
				5％	5ng	100％	100％
5％	10ng	100％	100％
				1％	5ng	81.25％	100％
1％	10ng	100％	100％
				0.1％	30ng	75％	99％
0.1％	40ng	75％	100％
				0.1％	50ng	94％	100％
0.1％	60ng	94％	100％

分子标记程序以>20ng输入DNA实现>95％敏感性且以20ng输入DNA实现>85％敏感性，且对于以0.1％存在于样品中的热点位置中的等位基因变异体，实现每个样品<1个误(FP＝假阳性)调用(参见下表19)。

表19：

样品输入	cfDNA 20ng	FFPE/cfDNA 10ng
			LOD	0.1％	0.50％
敏感性(％)	89.6±5.8	100％
			特异性(％)	99.4±0.3	100％
FP/样品	0.25	0

对于0.1％检测水平，分子标记程序仅需要约20ng的输入DNA(图12)。

AcroMetrix^TM肿瘤学热点参考对照含有表示约0.1％等位基因频率处的39个变异体的片段化DNA，且用于测试分子标记程序的敏感性。结果显示实现>80％敏感性和>95％特异性。39个变异体的等位基因频率观测于约0.05％-0.15％范围内(图13)。

分子标记程序准许询问来自COSMIC和数据库的在肺中相关的171个生物标记物，和与非小细胞肺癌有关的11种基因中的约1,700个基因组位置处的重新变异体检测。分子标记程序跨越来自20ng输入人类cfDNA的靶向cfDNA分子实现>95％命中读段和高度均一扩增(图14A、B和C)。

在来自血液与匹配FFPE样品的cfDNA之间观测到变异体检测的高一致性(参见下表20，其显示从匹配血浆和FFPE样品检测的变异体的观测频率)。

表20：

数据分析：具有相同独特标签序列的测序读段在一个家族中分组在一起。含有至少3个读段的家族称作功能家族，其实现原始DNA片段的序列的精确重构。对于0.1％LOD，需要20ng的输入DNA和>25,000×读段覆盖度(图12)。这在每个标靶上产生大于2,500个功能家族(分子覆盖度)(图14A、B和C)。也参看图17，其显示观测到约0.1-1％的等位基因频率的一些标靶序列的覆盖深度的范围。

数据分析也包括将各种阈值应用至候选测序读段，包括剔除阈值、分组阈值、计数分组读段阈值计数家族阈值、差分计数阈值、模式计数阈值和非目标模式阈值，当相比于不包括这些各种阈值的数据分析时，其产生高百分比的真阳性，同时减少假阳性的百分比(图20A和B)。图20A为显示应用预设阈值集时的调用整体目标假阳性(FP)的数目的直方图，(A)相比于应用根据本教示内容描述的各种阈值时的调用假阳性的数目，(b)对于0.1％AcroMetrix^TM样品中的0.1％等位基因频率。图20B为显示应用预设阈值集时的调用热点假阳性(FP)的数目的直方图，(A)相比于应用根据本教示内容描述的各种阈值时的调用假阳性的数目，(b)对于阳性对照AcroMetrix^TM样品中的0.1％等位基因频率。

数据的概述显示于下表21中：

表21：

数据表明分子标记程序足够敏感以检测以约0.1％存在于样品中的携有等位基因变异体的低丰度核酸分子，且分子标记程序可用于在来自生物流体(例如血液)的cfDNA中实现相同检测水平。

此数据也表明分子标记程序检测cfDNA和匹配FFPE样品中的重叠突变，且分子标记程序可用于监测肿瘤动态(例如监测非小细胞肺癌和其它癌症)。

实例6：

分子标记-融合RNA：

如上文实例3中所述地制备RNA添加至cfDNA中的混合物。

如上文实例3中所述地进行反转录反应。

标记：第一轮PCR：

如下地在相同96孔板的新孔中安设用于分子标记PCR分配的试剂。30μL反应体积的总体积含有：10μL来自上文所述的反转录反应的cDNA、15μL cfDNA库PCR预混液、2.5μL经标记的引物组和2.5μL肺cfDNA引物组。举例来说，正向基因特异性引物含有以下序列：5'-[一部分的通用A]-[NNNACTNNNTGA]-[基因特异性序列]-3'。反向基因特异性引物含有以下序列：5'-[一部分的通用P1]-[NNNACTNNNTGA]-[基因特异性序列]-3'。序列5'-NNNACTNNNTGA-3'为SEQ ID NO:1。96孔板用粘着膜密封。板经涡旋以混合内含物孔，且板经旋转。将板装载至热循环仪中，且运行以下程序：

表22：

纯化：第一轮：

从板去除粘着膜。将30μL无核酸酶水添加至每个含有样品的孔。添加96μL(例如1.6×的样品体积)Agencourt AMPure^TM XP试剂。板用膜再密封，且经涡旋以混合，接着在室温下培育5分钟。板再次经涡旋，且再次在室温下培育5分钟。将板短暂地旋转。将板置于96孔板架上，去除膜，且将板置于磁性架上且培育5分钟或直到溶液变得透明。在不干扰团块的情况下从个别孔去除且丢弃上清液。添加150μL的80％乙醇。将板边到边地移动至磁体上的两个或四个位置以洗涤珠粒。在不干扰团块的情况下从个别孔去除且丢弃上清液。重复80％乙醇洗涤一次。在不干扰团块的情况下从个别孔去除且丢弃上清液。较小移液管用于从孔的侧面去除乙醇液滴。孔中的珠粒在室温下在磁体上风干5分钟。将板从磁体移开。将24μL TE添加至个别孔以分散珠粒。板用粘着膜再密封，且经彻底涡旋，且在室温下培育5分钟。旋转板以收集液滴。将板置于96孔板架上，且去除膜。将板置于磁体上至少2分钟。将23μL上清液转移至相同板上的新孔。

第二轮PCR：

表23：

纯化-第二轮：

每个样品将520μL新制备的80％乙醇与130μL无核酸酶水混合。从板去除膜。将50μL无核酸酶水添加至每个样品。将115μL(例如1.15×样品体积)Agencourt AMPure^TM XP试剂添加至每个样品，且上下移液5次。将板在室温下培育10分钟。将板置于磁体上且在室温下培育5分钟，或直到溶液澄清。在不干扰团块的情况下小心地去除上清液。将150μL的80％乙醇添加至样品，且将板在磁体上的两个或四个位置边到边地移动以洗涤珠粒。在不干扰团块的情况下去除上清液且丢弃。用150μL的80％乙醇重复洗涤。去除且丢弃上清液。使用较小移液管(例如10至20μL移液管)，去除孔中剩余的乙醇液滴。将板在室温下保持于磁体上5分钟以对珠粒进行风干。将板从磁体移开。将50μL低TE添加至团块以分散珠粒。将样品上下移液5次以使珠粒再悬浮。或者，板用粘着膜密封，且彻底涡旋，且向下旋转以收集液滴。将板置于磁体上至少2分钟。将50μL上清液转移至相同板上的新孔。将板从磁体移开。将45μL(例如0.9×样品体积)Agencourt AMPure^TM XP试剂添加至每个样品。将样品上下移液5次。将板在室温下培育10分钟。将板置于磁体上且培育5分钟，或直到溶液澄清。在不干扰团块的情况下小心地去除上清液且丢弃。添加150μL的80％乙醇，且将板在磁体上的两个或四个位置边到边地移动以洗涤珠粒。在不干扰团块的情况下去除上清液且丢弃。用150μL的80％乙醇重复洗涤。去除且丢弃上清液。使用较小移液管(例如10至20μL移液管)，去除孔中剩余的乙醇液滴。将板在室温下保持于磁体上5分钟以对珠粒进行风干。将板从磁体移开。将30μL低TE添加至团块以分散珠粒。将样品上下移液10次以使珠粒再悬浮。或者，板用粘着膜密封，且彻底涡旋，且向下旋转以收集液滴。将板置于磁体上至少2分钟。将28μL上清液转移至相同板上的新孔。

表24：

如下安设7900HT热循环仪(qPCR系统)上的PCR反应：

表25：

最终库在25μL低TE缓冲液中洗脱且在Agilent 2100生物分析仪上使用高敏感性DNA试剂盒定量。经标记的库用于模板扩增和附接至Ion球形珠粒，和Ion S5和530芯片加载程序。在Ion Proton装置上进行测序。使用各种剔除、分选和计数方法，通过应用的阈值分析测序数据，且展示检测到EML4-ALK和SLC34A2-ROS1融合转录物。图15A和B显示添加RNA的DNA样品的命中扩增子覆盖度。下表26显示所有八个Horizon热点序列的特异性检测。

表26：

频率：	等位基因名称：	基因标识	覆盖度：	等位基因读段覆盖度：
					0.74％	A59T	NRAS	10,388	59
1.03％	E545K	PIK3CA	10,261	57
					1.43％	G12D	KRAS	17,091	228
0.42％	L858R	EGFR	27,585	170
					0.13％	P848L	EGFR	24,000	45
0.42％	Q61K	NRAS	33,395	30
					0.21％	T790M	EGFR	20,880	169
0.45％	V69_D770insASV	EGFR	23,077	299

下表27显示对于反转录步骤使用随机引发或基因特异性引发实现的融合标靶序列的覆盖度。

表27：

分子标记程序在含有RNA和DNA的混合物的样品中实现RNA融合物和DNA变异体的约1％处的检测。

实例7：

经由衔接子接合-MegaMix对照DNA的分子标记

MegaMix对照DNA为来自AcroMetrix^TM的对照DNA混合物，含有包括癌症相关突变的合成和基因组DNA。输入样品包括稀释至0.1％的MegaMix。工作流包括：输入DNA的去磷酸化、使用AMPLISEQ(Thermo Fisher Scientific，目录号4475345)使用未经标记的基因特异性引物的基因特异性扩增、扩增子末端清理、经标记的衔接子接合、PCR扩增和测序。

去磷酸化：

所有反应在多壁板中进行。去磷酸化反应物包括：3.5μL(20ng)的MegaMix DNA、0.5μL的10×FastAP缓冲液和1μL的FastAP热敏碱性磷酸酶(Thermo Fisher Scientific，目录号EF0654。去磷酸化反应物在37℃下培育60分钟，接着在75℃下培育5分钟以使酶去活化，且在4℃下冷却。

基因特异性扩增：

基因特异性扩增反应包括：10μL的2×Phusion^TM U多重主混合物(Thermo FisherScientific目录号F562S)、4μL AmpliSeq DNA组(结肠和肺引物组，Thermo FisherScientific目录号4475345)和1μL无核酸酶水。将扩增反应物充分混合，接着添加5μL的去磷酸化输入DNA。热循环仪如下编程：

表28：

接着添加2μL来自AmpliSeq试剂盒的FuPa试剂，且将反应物在50℃下培育10分钟，在55℃下培育10分钟，在60℃下培育20分钟，且接着将反应物保持于10℃下不超过1小时。此扩增子反应物的体积现在含有22μL。

经由衔接子接合的标记：

标记衔接子含有不同14单元随机/简并序列的混合物，以使得潜在地存在4¹⁴＝2.68×10 ⁸个不同标签序列。14单元随机标签衔接子不含穿插的随机和固定序列。标记衔接子也含有通用A或P1衔接子序列。举例来说，A标记衔接子含有5'-[A衔接子]-[14单元随机标签]-3'且P1标记衔接子含有5'-[14单元]-[P1衔接子]-3'。接合反应物含有：4μL来自AmpliSeq试剂盒的Switch溶液、2μL经标记的衔接子、22μL扩增子和2μL DNA接合酶。接合反应物在22℃下培育30分钟，在72℃下培育10分钟，且保持于10℃下。

第一轮纯化：

在室温下培育AMPure^TM XP试剂至少30分钟，且经彻底涡旋以分散珠粒。低滞留移液管端部用于AMPure^TM纯化步骤。每个样品通过混合230μL乙醇与100μL无核酸酶水新制备70％乙醇的溶液。

将45μL(1.5×样品体积)Agencourt AMPure^TM XP试剂添加至每个接合反应物，且通过移液5次混合，且在室温下培育5分钟。将板置于磁力架上2分钟或直到溶液呈现透明。在不干扰团块的情况下小心地去除上清液，且丢弃上清液。将150μL新制备的70％乙醇添加至团块，且将板在两个磁体之间边到边地移动以洗涤团块。在不干扰团块的情况下小心地去除上清液，且丢弃上清液。如下重复洗涤步骤：通过添加150μL新制备的70％乙醇，添加至团块，且将板在两个磁体之间边到边地移动以洗涤团块。在不干扰团块的情况下小心地去除上清液，且丢弃上清液。将板放回磁体上，且珠粒/团块在室温下风干5分钟。

将板从磁体移开。将23μL低TE添加至团块以分散珠粒。将板密封，涡旋，且旋转以收集液滴。将板置于磁体上至少2分钟。将上清液(约23μL)移出至新管。

经由PCR的扩增：

通过混合25μL的2×Phusion^TM U多重预混液(Thermo Fisher Scientific目录号F562S)、2μL的通用A和P1扩增引物以及23μL来自上文的AMPure^TM纯化上清液而进行PCR扩增反应。热循环仪如下编程：

表29：

第二轮纯化：

将75μL(1.5×样品体积)Agencourt AMPure^TM XP试剂添加至每个接合反应物，且通过移液5次混合，且在室温下培育5分钟。将板置于磁力架上2分钟或直到溶液呈现透明。在不干扰团块的情况下小心地去除上清液，且丢弃上清液。将150μL新制备的70％乙醇添加至团块，且将板在两个磁体之间边到边地移动以洗涤团块。在不干扰团块的情况下小心地去除上清液，且丢弃上清液。如下重复洗涤步骤：通过添加150μL新制备的70％乙醇，添加至团块，且将板在两个磁体之间边到边地移动以洗涤团块。在不干扰团块的情况下小心地去除上清液，且丢弃上清液。将板放回磁体上，且珠粒/团块在室温下风干5分钟。

将板从磁体移开。将50μL低TE添加至团块以分散珠粒。将板密封，涡旋，且旋转以收集液滴。将板置于磁体上至少2分钟。将上清液(约23μL)移出至新管。

库定量和制备稀释标准物：

制备经标记的库的1:1,000和1:10,000稀释液。

表30：

将5.5μL预混液，和4.5μL的1:1,000或1:10,000经稀释的经标记的库分配至每个孔中。

热循环仪如下编程：

表31：

通过根据qPCR测定的浓度乘以用于此分析的库稀释度计算未经稀释的DNA库的平均浓度。

最终库在25μL低TE缓冲液中洗脱且在Agilent 2100生物分析仪上使用高敏感性DNA试剂盒定量。经标记的库用于模板扩增和附接至Ion球形珠粒，和Ion PGM/318或ProtonP1芯片加载程序。在Ion PGM或Proton I测序装置上进行测序。使用各种剔除、分选和计数方法，通过应用的阈值分析测序数据。下表32显示标签接合工作流产生约54-89％命中读段。变异序列中的一些以高百分比的假阳性检测于0.1％LOD处。

表32：

序列表

<110> LIFE TECHNOLOGIES CORPORATION

MONGAN, Ann

CHIEN, Richard

BRINZA, Dumitru

BRAMLETT, Kelli

<120> 用于分子标记的方法、系统、组合物、试剂盒、装置和计算机可读媒体

<130> LT01072

<140> To Be Assigned

<141> 2016-06-09

<150> 62/172,836

<151> 2015-06-09

<150> 62/207,177

<151> 2015-08-19

<150> 62/248,978

<151> 2015-10-30

<150> 62/304,530

<151> 2016-03-07

<150> 62/310,647

<151> 2016-03-18

<150> 62/311,276

<151> 2016-03-21

<150> 62/323,142

<151> 2016-04-15

<160> 2

<170> PatentIn version 3.5

<210> 1

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 合成DNA

<220>

<221> misc_feature

<222> (1)..(9)

<223> 其中“N”表示A、T、C或G中的任一个

<400> 1

nnnactnnnt ga 12

<210> 2

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 合成DNA

<220>

<221> misc_feature

<222> (1)..(9)

<223> 其中“N”表示A、T、C或G中的任一个

<400> 2

nnnactnnnt gc 12

Claims

1.一种用于检测存在于核酸样品中的变异序列标靶聚核苷酸的方法，包含以下步骤：

a)形成含有以下的单一反应混合物：(i)多个来自所述核酸样品的聚核苷酸，和(ii)多个寡核苷酸标签；

b)通过将来自所述多个寡核苷酸标签的至少一个标签附加至所述多个聚核苷酸内的个别聚核苷酸而在所述单一反应混合物内产生多个经标记的聚核苷酸；

c)通过扩增所述多个经标记的聚核苷酸而产生经标记的扩增子群体；

d)对所述经标记的扩增子群体的至少一部分测序；以及

e)确定所述变异序列标靶聚核苷酸以0.05-5％的丰度水平存在于所述核酸样品中。

2.根据权利要求1所述的方法，其中所述单一反应混合物含有1-100ng的所述多个聚核苷酸，其包括标靶聚核苷酸和非标靶聚核苷酸的混合物。

3.根据权利要求1所述的方法，其中所述单一反应混合物中的所述多个寡核苷酸标签检测到所述核酸样品中存在5-100个不同聚核苷酸。

4.根据权利要求3所述的方法，其中所述单一反应混合物中的所述多个寡核苷酸标签检测到85-100％的存在于所述核酸样品中的所述不同聚核苷酸。

5.根据权利要求1所述的方法，其中所述核酸样品包含来自生物流体的无细胞核酸、来自活检组织的核酸、来自穿刺活检的核酸或来自细胞的核酸。

6.根据权利要求1所述的方法，其中所述多个经标记的聚核苷酸中的任何两个附有彼此不同的标签，且其中所述多个经标记的聚核苷酸中的任何两个在两端处附有不同寡核苷酸标签。

7.根据权利要求1所述的方法，其中所述多个寡核苷酸标签中的个别寡核苷酸标签包括具有随机物标签序列的区域，所述随机物标签序列包含与固定标签序列相间的不同随机标签序列。

8.根据权利要求7所述的方法，其中所述单一反应混合物含有多个具有10⁴-10⁹个不同随机物标签序列的寡核苷酸标签。

9.根据权利要求8所述的方法，其中所述随机物标签序列包含结构(N)_n(X)_x(M)_m(Y)_y，

(i)其中“N”表示随机标签序列，其中所述随机标签序列中的每个碱基位置独立地选自A、G、C或T，且其中长度“n”为2-10；

(ii)其中“X”表示在所有的所述多个标签中相同的固定标签序列，且其中长度“x”为2-10；

(iii)其中“M”表示随机标签序列，其中所述随机标签序列中的每个碱基位置独立地选自A、G、C或T，其中所述随机标签序列“M”不同于所述随机标签序列“N”，且其中长度“m”为2-10；

(iv)其中“Y”表示在所有的所述多个标签中相同的固定标签序列，其中“Y”的所述固定标签序列不同于“X”的所述固定标签序列，且其中长度“y”为2-10；且

(v)其中所述固定标签序列“(X)_x”和“(Y)_y”为序列比对锚。

10.根据权利要求9所述的方法，其中所述单一反应混合物中的所述多个寡核苷酸标签在步骤(b)的引物延伸反应中附加至个别聚核苷酸，其中所述单一反应混合物中的所述多个寡核苷酸标签包含多个单链引物，所述单链引物包括：(i)特异性结合来自所述核酸样品的所述多个聚核苷酸中的标靶序列的3'区，和(ii)具有不结合至来自所述核酸样品的所述多个聚核苷酸中的标靶序列的序列的5'尾且所述5'尾包括包含所述随机物标签序列的序列。

11.根据权利要求9所述的方法，其中所述单一反应混合物中的所述多个寡核苷酸标签在步骤(b)的酶接合反应中附加至个别聚核苷酸，其中所述单一反应混合物中的所述多个寡核苷酸标签包含多个双链线性衔接子、茎环衔接子或Y形衔接子，且其中所述多个寡核苷酸标签包括所述随机物标签序列。

12.根据权利要求1所述的方法，进一步包含：通过向所述多个聚核苷酸附加至少一个选自由以下组成的群组的通用序列而产生多个经标记的捕获聚核苷酸：扩增引物序列、测序引物序列、捕获引物序列和可裂解位点。

13.根据权利要求12所述的方法，进一步包含：

a)通过将所述多个经标记的捕获聚核苷酸结合至多个与支撑物附接的捕获引物而形成多个捕获的聚核苷酸；以及

b)对所述多个捕获的聚核苷酸测序。

14.根据权利要求13所述的方法，其中所述支撑物包括10⁴-10⁹个测序反应位点的阵列。

15.根据权利要求14所述的方法，其中所述测序反应位点可操作地耦接到至少一个检测核苷酸并入事件的CMOS传感器。

16.根据权利要求13所述的方法，其中步骤(b)中的所述测序进一步包含：使一种类型的核苷酸流动到所述多个捕获的聚核苷酸上，其中所述一种类型的核苷酸选自由以下组成的群组：标记有光学可检测标记的核苷酸、未标记有光学可检测标记的核苷酸、终止子核苷酸或并非终止子核苷酸的核苷酸。

17.根据权利要求13所述的方法，其中步骤(b)中的所述测序包括使2-4种不同类型的核苷酸流动到所述多个捕获的聚核苷酸上，其中所述2-4种不同类型的核苷酸中的至少一种类型选自由以下组成的群组：标记有光学可检测标记的核苷酸、未标记有光学可检测标记的核苷酸、终止子核苷酸或并非终止子核苷酸的核苷酸。

18.根据权利要求7所述的方法，进一步包含对所述经标记的扩增子群体的至少一部分测序以产生多个具有所述随机物标签序列的候选测序读段，所述随机物标签序列包含与固定标签序列相间的不同随机标签序列，其中所述随机物标签序列内的所述固定标签序列形成序列比对锚。

19.根据权利要求18所述的方法，进一步包含比对所述多个候选测序读段的所述序列比对锚。

20.一种根据权利要求1所述的方法产生的多个经标记的聚核苷酸。