[go: up one dir, main page]

CN117581303A - 产生用于确定核苷酸碱基检出的簇特异性信号校正 - Google Patents

产生用于确定核苷酸碱基检出的簇特异性信号校正 Download PDF

Info

Publication number
CN117581303A
CN117581303A CN202280043784.9A CN202280043784A CN117581303A CN 117581303 A CN117581303 A CN 117581303A CN 202280043784 A CN202280043784 A CN 202280043784A CN 117581303 A CN117581303 A CN 117581303A
Authority
CN
China
Prior art keywords
cluster
phasing
specific
nucleotide
cycle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280043784.9A
Other languages
English (en)
Inventor
E·J·奥贾德
J·S·维切利
G·D·帕纳比
B·陆
R·美雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inmair Ltd
Original Assignee
Inmair Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inmair Ltd filed Critical Inmair Ltd
Publication of CN117581303A publication Critical patent/CN117581303A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Organic Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Molecular Biology (AREA)
  • Immunology (AREA)
  • Genetics & Genomics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本公开描述了方法、系统和非暂态计算机可读介质的实施方案,这些实施方案准确且有效地估计特定寡核苷酸簇的定相和预定相的影响,并确定该簇的簇特异性定相校正。例如,所公开的系统可动态地识别表现出误差诱导序列的寡核苷酸簇,这些误差诱导序列频繁引起定相或预定相。当所公开的系统在循环期间在此类误差诱导序列之后的读段位置处检测到信号时,所公开的系统可生成簇特异性定相系数并且根据这样的簇特异性定相系数来校正信号。例如,所公开的系统可利用线性均衡器、判决反馈均衡器或最大似然序列估计器来生成簇特异性定相系数。

Description

产生用于确定核苷酸碱基检出的簇特异性信号校正
相关申请的交叉引用
本申请要求2021年12月2日提交的名称为“GENERATING CLUSTER-SPECIFIC-SIGNAL CORRECTIONS FOR DETERMINING NUCLEOTIDE-BASE CALLS”的美国临时申请第63/285,187号的权益和优先权。上述申请全文据此以引用方式并入。
背景技术
近年来,生物技术公司和研究机构已经改进了用于确定样品基因组或其他核酸聚合物中核苷酸碱基序列的硬件和软件平台。例如,一些现有的核酸测序平台通过使用常规桑格测序或边合成边测序(SBS)来确定核酸序列的各个核苷酸碱基。当使用SBS时,现有平台可监测成簇分组且并行合成的数千、数万或更多寡核苷酸以检测更准确的核苷酸碱基检出。例如,SBS平台中的照相机可捕获来自掺入此类成簇的和合成的寡核苷酸中的核苷酸碱基的经照射荧光标签的图像。在捕获图像之后,现有的SBS平台将图像数据发送到具有测序数据分析软件的计算设备,以确定基因组或其他核酸聚合物的核苷酸碱基序列。例如,测序数据分析软件可基于在图像数据中捕获的光信号来确定在给定图像中照射的具有标签的核苷酸碱基。通过循环地将核苷酸碱基掺入寡核苷酸中并在各种测序循环中捕获所发射光信号的图像,SBS平台可确定与特定簇对应的核苷酸读段并确定核酸聚合物的全基因组样品或其他样品中存在的核苷酸碱基序列。
尽管有这些最近的进展,现有的核酸测序平台和测序数据分析软件(统称为“现有的测序系统”)常常受到技术限制,这些限制阻碍了检测和校正信号以进行定相的准确度、适用性和效率。当现有的核酸测序平台执行循环以掺入和检测各种簇的寡核苷酸的核苷酸碱基时,该平台经常异相地掺入和检测一些核苷酸碱基。当定相和预定相发生时,核酸测序平台分别掺入与前一循环(定相)对应的核苷酸碱基或与后一循环(预定相)对应的核苷酸碱基。由于定相或预定相,核酸测序平台捕获来自簇的光信号的图像,这些簇具有用于当前循环的掺入的核苷酸碱基以及与先前或后续循环对应的掺入的核苷酸碱基的混合物。现有的测序系统经常无法准确地检测和校正此类定相和预定相影响,因此有时会确定与特定循环中的簇对应的核苷酸读段的不正确的核苷酸碱基检出。即使当现有的测序系统产生正确的核苷酸碱基检出时,此类系统也可部分地由于定相和预定相而产生具有较低质量测序度量的读段的碱基检出。例如,在某些重复核苷酸序列之后的读段位置处捕获混合信号的现有的测序系统经常会产生具有较低质量分数(诸如Phred质量分数(例如,低于Q30))的碱基检出。
现有的测序系统经常试图规避由上述定相和预定相引起的不准确性。但这些系统通常是僵化的,并且依赖于一刀切的方法。例如,常规的测序系统通常依赖于全局定相和全局预定相校正来最大化每个循环的强度数据的纯度。纯度值指示最亮的碱基强度除以最亮的和第二亮的碱基强度之和的比值。全局定相和全局预定相校正的使用限制了对载玻片大部分(例如,流通池)的信号进行定相校正的有效性。实际上,常规测序系统通常无法解释簇水平的可变性。例如,载玻片的一部分(例如,区块)内的第一簇可表现出显著的定相影响,该部分内的第二簇可表现出显著的预定相影响,并且同一部分内的第三簇可表现出很少甚至没有定相或预定相。因此,依赖于全局定相和全局预定相校正的常规测序系统通常无法解释簇内的细微差别。
此外,常规测序系统通常包括有限的存储资源和其他计算资源以有效地捕获和分析各种簇的图像数据。具体地,作为应用定相校正的一部分,常规测序系统频繁地存储和分析测序图像数据或测序强度数据。为了说明,常规测序系统通常收集每个循环的信号数据、存储数据并分析数据。由于逐循环地保存此类图像数据所需的存储负载,利用测序机的存储器设备来存储和处理图像或信号数据通常是不切实际的。为了说明,常规系统通常收集每个循环的信号数据,将数据存储在测序设备上,将数据转移到服务器,将数据存储在服务器中,并且在服务器上处理来自每个循环的数据。因此,常规系统不仅低效地利用资源,而且还通过转移和处理信令数据而引入显著的延迟。
这些以及另外的问题和难题存在于现有的测序系统中。
发明内容
本公开描述了解决上述问题中的一个或多个问题或提供优于现有技术的其他优点的系统、方法和非暂态计算机可读存储介质的一个或多个实施方案。具体地,所公开的系统可准确且有效地估计特定寡核苷酸簇的定相和预定相的效果,并确定该簇的簇特异性定相校正。例如,所公开的系统可动态地识别表现出误差诱导序列的寡核苷酸簇,这些误差诱导序列频繁引起定相或预定相。当所公开的系统在循环期间在此类误差诱导序列之后的读段位置处检测到信号时,所公开的系统可生成簇特异性定相系数并且根据这样的簇特异性定相系数来校正信号。例如,所公开的系统可利用线性均衡器、判决反馈均衡器、最大似然序列估计器或机器学习模型来生成簇特异性定相系数。在一些情况下,所公开的系统可相应地识别误差诱导序列之后的读段位置,并且在测序设备上几乎实时地生成具有很少甚至没有缓冲的簇特异性定相系数。
本公开的一个或多个实施方案的附加的特征部和优点将在随后的描述中阐述,并且部分地将从该描述中显而易见,或者可以通过此类示例性实施方案的实践获知。
附图说明
详细描述将通过使用附图以附加的特征和细节来描述各种实施方案,附图概述如下。
图1示出了根据本公开的一个或多个实施方案的簇感知碱基检出系统可在其中操作的环境。
图2A示出了根据本公开的一个或多个实施方案的示例性读段堆积,该读段堆积指示由簇特异性定相校正之前的定相和预定相导致的不正确碱基检出。
图2B示出了根据本公开的一个或多个实施方案的展示定相和预定相的示意图。
图3示出了根据本公开的一个或多个实施方案的簇感知碱基检出系统的概览图,该簇感知碱基检出系统确定簇特异性定相校正并且通过基于簇特异性定相校正调节信号来确定核苷酸碱基检出。
图4示出了根据本公开的一个或多个实施方案的簇感知碱基检出系统,该簇感知碱基检出系统基于分析来自先前循环的信号来识别误差诱导序列。
图5示出了根据本公开的一个或多个实施方案的簇感知碱基检出系统,该簇感知碱基检出系统确定簇特异性定相系数和簇特异性预定相系数。
图6示出了根据本公开的一个或多个实施方案的簇感知碱基检出系统用于估计簇特异性定相校正的示例性定相模型。
图7A至图7C示出了根据本公开的一个或多个实施方案的利用包括线性均衡器、判决反馈均衡器和最大似然序列估计均衡器的各种接收器类型来确定簇特异性定相校正的簇感知碱基检出系统。
图8A至图8B示出了根据本公开的一个或多个实施方案的指示度量的图,这些图显示了簇感知碱基检出系统通过基于簇特异性定相校正调节信号来改善碱基检出准确度和各种二级测序度量。
图9示出了根据本公开的一个或多个实施方案的用于确定簇特异性定相校正并且通过基于簇特异性定相校正调节信号来确定核苷酸碱基检出的一系列动作。
图10示出了根据本公开的一个或多个实施方案的示例性计算设备的框图。
具体实施方式
本公开描述了在每个簇的基础上估计定相误差的簇感知碱基检出系统的一个或多个实施方案。具体地,簇感知碱基检出系统识别频繁地引起信号劣化的序列。例如,簇感知碱基检出系统可识别与寡核苷酸簇对应的核苷酸片段读段内的均聚物序列、G-四链体序列或其他误差诱导序列。簇感知碱基检出系统可进一步确定系数,该系数估计定相和预定相对来自当前循环的核苷酸碱基的信号的影响。簇感知碱基检出系统利用簇特异性定相系数来校正进行核苷酸碱基检出的信号强度。通过在每个簇的基础上校正估计的定相或预定相,簇感知碱基检出系统可分析校正的信号强度以产生更准确的核苷酸碱基检出。
为了说明,在一个或多个实施方案中,簇感知碱基检出系统针对寡核苷酸簇识别一个或多个核苷酸片段读段内的误差诱导序列之后的读段位置。簇感知碱基检出系统可进一步在与读段位置对应的循环期间检测来自寡核苷酸簇内的标记核苷酸碱基的信号。对于同一簇,簇感知碱基检出系统确定簇特异性定相校正,以针对估计定相和估计预定相校正信号。然后,簇感知碱基检出系统可基于簇特异性定相校正来调节信号。基于所调节的信号,簇感知碱基检出系统可确定与寡核苷酸簇对应的读段位置的核苷酸碱基检出。
如所提及的,在一些情况下,簇感知碱基检出系统识别在与寡核苷酸簇对应的一个或多个核苷酸片段读段内误差诱导序列之后的读段位置。此类误差诱导序列可触发系统性测序误差,负面地影响测序运行的质量和准确度。为了减少针对其确定簇特异性定相校正的簇的数量,在一些实施方案中,簇感知碱基检出系统通过仅针对在误差诱导序列之后的簇的读段位置确定此类簇特异性定相校正,来限制用于定相校正的计算资源。误差诱导序列的示例可包括一个或多个重复核苷酸碱基诸如均聚物,或序列基序诸如鸟嘌呤四链体。簇感知碱基检出系统可分析来自先前测序循环的寡核苷酸簇的信号,以确定与该簇对应的核苷酸片段读段内误差诱导序列的存在。
在识别与寡核苷酸簇对应的误差诱导序列之后或同时,簇感知碱基检出系统可在与读段位置对应的循环期间检测来自寡核苷酸簇内的标记核苷酸碱基的信号。如所提及的,当标记核苷酸碱基被反复掺入簇的寡核苷酸中时,SBS测序系统从标记核苷酸碱基中捕获经照射荧光标签的图像。簇感知碱基检出系统可检测来自标记核苷酸碱基的信号,特别是针对与误差诱导序列之后的一个或多个读段位置对应的循环,并将此类信号识别为簇特异性定相校正的目标。
在识别与误差诱导序列之后的相关读段位置对应的信号,簇感知碱基检出系统可确定簇特异性定相校正,以针对估计定相和估计预定相校正信号。如所提及的,系统性测序误差可包括定相和预定相,其中核苷酸碱基分别较晚或较早掺入。在一些实施方案中,簇感知碱基检出系统通过确定(i)与一个或多个先前循环的核苷酸碱基对应的一个或多个簇特异性定相系数和(ii)与一个或多个后续循环的核苷酸碱基对应的一个或多个簇特异性预定相系数来确定簇特异性定相校正。簇感知碱基检出系统可进一步基于簇特异性定相系数和簇特异性预定相系数来确定簇特异性定相校正。
为了确定此类簇特异性定相和预定相系数,簇感知碱基检出系统可利用多个模型或算法。例如,在一些情况下,簇感知碱基检出系统利用实时线性均衡器来估计簇特异性定相系数和簇特异性预定相系数。线性均衡器在计算上是高效的,并且与替代的系数算法相比需要很少甚至没有缓冲。因此,簇感知碱基检出系统可在测序设备上实现线性均衡器以实时估计簇特异性定相校正。另选地,在一些实施方案中,簇感知碱基检出系统利用判决反馈均衡器、最大似然均衡器或机器学习模型来代替或补充线性均衡器,以估计簇特异性定相校正。
在确定了簇特异性定相校正之后,簇感知碱基检出系统可基于簇特异性定相校正来调节信号。具体地,簇感知碱基检出系统估计用于具有误差诱导序列的簇的簇特异性定相校正,并将该簇特异性定相校正应用于来自该簇的信号。在一些实施方案中,簇感知碱基检出系统还针对一组簇确定多簇定相校正,以校正跨该组簇的测序误差。这种多簇定相校正可包括例如全局定相系数和全局预定相系数,作为流通池的区块中的簇的全局定相校正的一部分。簇感知碱基检出系统还可基于簇特异性定相校正和多簇定相校正的组合来调节用于簇的信号。
相对于现有的测序系统,簇感知碱基检出系统提供了几个技术益处。具体地,相对于现有的测序系统,簇感知碱基检出系统可提高定相校正的准确度、定制的适用性和效率。如所提及的,簇感知碱基检出系统以比现有的测序系统更好的准确度确定信号的定相校正和基于此类校正信号的核苷酸碱基检出。通过确定并将簇特异性定相校正应用于与簇对应的某些读段位置的信号,簇感知碱基检出系统可减少均聚物序列、G-四链体序列或其他误差诱导序列对预测的核苷酸碱基检出的准确度的负面影响。此外,通过在每个簇的基础上调节用于估计定相和预定相的信号,簇感知碱基检出系统可减少由来自特定寡核苷酸簇的所掺入核苷酸碱基的信号中的定相或预定相影响引起的噪声量。简单地说,与现有的测序系统相比,簇感知碱基检出系统可更好地识别和校正特定簇的定相和预定相影响。
如下文进一步所示,通过校正用于产生核苷酸碱基检出的信号,簇感知碱基检出系统还改善了二级测序度量,诸如用于碱基检出数据的更好质量度量,并且改善了用于估计或校准测序设备的度量的基线,诸如通过改善信噪比(SNR)度量。因为簇特异性定相校正改善了用于生成核苷酸碱基检出的信号,所以簇感知碱基检出系统还可减少相关误差诱导序列(例如,触发系统性测序误差的序列)的影响,这些相关误差诱导序列一个接一个地累加会负面地影响下游核苷酸碱基检出工具,诸如检出生成模型(例如,DRAGEN)的映射器和比对部件或检出生成模型的变体检出器部件的性能。
除了更准确之外,簇感知碱基检出系统创建了比现有的测序系统更适合于簇特异性测序误差的定相校正。与将定相校正应用于寡核苷酸的簇的组或所有簇的现有系统相比,簇感知碱基检出系统确定簇特异性定相系数。实际上,在一些情况下,簇感知碱基检出系统选择性地确定并对某些簇的误差诱导序列后读段位置处的信号应用簇特异性定相校正,并且对缺少这种误差诱导序列的某些其他簇的读段位置处的信号应用多簇定相校正(没有簇特异性定相校正)。因此,即使随着测序进展簇可能变得更成问题-因为在测序运行期间定相和预定相影响往往会增加-簇感知碱基检出系统调节簇特异性定相校正,以对核苷酸碱基检出做出对应的调节。
如上所述,在一些实施方案中,相对于用于定相校正的替代计算模型,簇感知碱基检出系统可提高用于定相和预定相影响的校正信号的计算效率。与在每个循环中处理和校正每个簇的定相和预定相的计算模型相比,簇感知碱基检出系统减少了通过处理和校正来自误差诱导序列之后的标记核苷酸碱基的信号所利用的计算资源的量。如上所述,在一些实施方案中,簇感知碱基检出系统通过仅针对在误差诱导序列之后的簇的读段位置确定簇特异性定相校正,来限制用于定相校正的计算资源。
此外,通过利用基于线性均衡器的方法来确定定相校正,在一些情况下,簇感知碱基检出系统可在测序设备上实时(或几乎实时)地估计簇特异性定相校正。一些现有的测序系统通过为整个测序运行保存所有簇的信号的图像数据并且仅在测序运行已完成之后确定定相校正而在测序机(或其他计算设备)上消耗显著更多的计算存储器。相比之下,在某些实施方案中,在应用簇特异性定相校正和/或多簇定相校正之后,簇感知碱基检出系统丢弃信号的数据。在至少一个实施方案中,通过在测序设备上处理和校正用于定相和预定相影响的信号,簇感知碱基检出系统可减少将数据传送到中心位置、处理数据和传送结果通常所需的存储、通信和计算资源的量。
如上述讨论所示,本公开利用多种术语以描述簇感知碱基检出系统的特征部和优点。现在提供关于此类术语的含义的附加细节。例如,如本文所用,术语“簇”指来自组织在核苷酸样品载玻片上的样品基因组的一组寡核苷酸或核酸片段。具体地,簇包括克隆的或相同的DNA或RNA片段的数十、数百、数千或更多个拷贝。例如,在一个或多个实施方案中,簇包括固定在核苷酸样品载玻片的部分(例如,流通池)中的一组寡核苷酸。在一些实施方案中,簇在图案化的核苷酸样品载玻片内均匀地间隔或组织成系统结构。相比之下,在一些情况下,簇在非图案化的核苷酸样品载玻片内随机组织。
如本文所用,术语“寡核苷酸”是指核苷酸或模拟物的寡聚物或其他聚合物。具体地,寡核苷酸可包括合成的或天然的分子,该分子包含由核苷酸中戊糖的3′位置和相邻核苷酸中戊糖的5′位置之间的修饰的磷酸二酯或磷酸二酯键形成的共价连接的核苷酸序列。例如,寡核苷酸可包括与单链多核苷酸退火的短DNA或RNA分子,以作为SBS测序的一部分进行分析或测序。
如本文进一步使用的,术语“核苷酸样品载玻片”是指包括用于对样品基因组或其他样品核酸聚合物的核苷酸片段进行测序的寡核苷酸的板或载玻片。具体地,核苷酸样品载玻片可以是指含有流体通道的载玻片,试剂和缓冲液可以作为测序的一部分通过该流体通道行进。例如,在一个或多个实施方案中,核苷酸样品载玻片包括流通池(例如,图案化流通池或未图案化流通池),该流通池包括小流体通道和与接头序列互补的短寡核苷酸。如上所述,核苷酸样品载玻片可包括含有寡核苷酸簇的孔(例如,纳米孔)。
如本文所用,流通池或其他核苷酸样品载玻片可(i)包括具有封盖的设备,该封盖在反应结构上方延伸以在其间形成与反应结构的多个反应位点连通的流动通道,并且可(ii)包括被配置为检测在反应位点处或附近发生的指定反应的检测设备。流通池或其他核苷酸样品载玻片可包括固态光检测或“成像”设备,诸如电荷耦合器件(CCD)或互补金属氧化物半导体(CMOS)(光)检测设备。作为一个具体示例,流通池可被配置为流体耦接和电耦接到盒(具有集成泵),该盒可被配置为流体耦接和/或电耦接到生物测定系统。盒和/或生物测定系统可根据预定方案(例如,边合成边测序)将反应溶液递送到流通池的反应位点,并且执行多个成像事件。例如,盒和/或生物测定系统可引导一种或多种反应溶液通过流通池的流动通道,从而沿着反应位点流动。反应溶液中的至少一种可包含四种类型的具有相同或不同荧光标记的核苷酸。核苷酸可结合至流通池的反应位点,诸如结合至反应位点处的对应寡核苷酸。然后,盒和/或生物测定系统使用激发光源(例如固态光源,诸如发光二极管(LED))照亮反应位点。激发光可提供可由流通池的光传感器检测的发射信号(例如,与激发光不同并且可能彼此不同的一个或多个波长的光)。
如本文所用,术语“读段位置”是指核苷酸片段读段上的位置或坐标。具体地,读段位置包括沿着核苷酸片段读段的已添加标记核苷酸的位置。例如,读段位置可指示当相机捕获核苷酸样品载玻片或核苷酸样品载玻片的部分的图像时,最近添加到簇内的对应寡核苷酸的标记核苷酸在核苷酸片段读段内的位置。
如本文所用,术语“核苷酸片段读段”是指从样品核苷酸序列的全部或部分推断的一个或多个核苷酸碱基(或核碱基对)的序列。具体地,核苷酸片段读段包括来自与基因组样品对应的测序文库的核苷酸片段(或一组单克隆核苷酸片段)的核苷酸碱基检出的确定或预测的序列。例如,在一些情况下,测序设备通过生成对穿过核苷酸样品载玻片的纳米孔的核苷酸碱基的核苷酸碱基检出来确定核苷酸片段读段,经由加荧光标签来确定,或根据流通池中的簇来确定。
如本文所用,术语“误差诱导序列”是指诱导或触发测序误差的核苷酸碱基序列或对应的化学结构。具体地,误差诱导序列是指在SBS测序期间触发系统性测序误差(SSE)的核苷酸碱基序列。例如,误差诱导序列可通过诱导测序设备在误差的循环中添加或掺入不正确标记的核苷酸碱基而导致失相。例如,误差诱导序列可包括相同核苷酸碱基的均聚物、鸟嘌呤四链体、可变数目串联重复(VNTR)、二核苷酸重复序列、三核苷酸重复序列、反向重复序列、小卫星序列、微卫星序列、回文序列或其他序列。
如本文所用,术语“信号”是指从标记核苷酸碱基或一组标记核苷酸碱基(例如,添加到寡核苷酸簇的标记核苷酸碱基)发射、反射或以其他方式传递的信号。具体地,信号可以是指指示核苷酸碱基类型的信号。例如,信号可以包括从核苷酸碱基的荧光标签或掺入寡核苷酸中的多个核苷酸碱基的荧光标签发射或反射的光信号。在一些具体实施中,簇感知碱基检出系统通过诸如激光或其他光源的外部刺激来触发信号。在一些情况下,簇感知碱基检出系统通过一些内部刺激触发信号。此外,在一些实施方案中,簇感知碱基检出系统使用在捕获核苷酸样品载玻片(例如,核苷酸样品载玻片的部分)的图像时应用的滤波器来观察信号。如上文所建议,在某些情况下,信号包括由添加到寡核苷酸簇中的各个寡核苷酸的每个标记的核苷酸碱基提供的信号的聚集。
如本文所用,术语“标记核苷酸碱基”是指具有核苷酸碱基分类的基于荧光或光的指示剂的核苷酸碱基。具体地,标记核苷酸碱基可以是指掺入基于荧光或光的指示剂以识别核苷酸碱基类型(例如,腺嘌呤、胞嘧啶、胸腺嘧啶或鸟嘌呤)的核苷酸碱基。例如,在一个或多个实施方案中,标记核苷酸碱基包括具有发射识别核苷酸碱基类型的信号的荧光标签的核苷酸碱基。
如本文所用,术语“测序循环”(或“循环”)是指将核苷酸碱基添加到或掺入寡核苷酸的反复或将核苷酸碱基并行添加到或掺入寡核苷酸的反复。具体地,循环可以包括反复采集并分析一个或多个图像,该一个或多个图像具有指示被添加或掺入到一个寡核苷酸中或并行添加或掺入到多个寡核苷酸的各个核苷酸碱基的数据。因此,循环可被重复作为核酸聚合物(例如,样品基因组)测序的一部分。例如,在一个或多个实施方案中,每个测序循环涉及其中仅以单一方向读取DNA或RNA链的单个核苷酸片段读段或者其中从两个末端读取DNA或RNA链的双端读段。此外,在某些情况下,每个测序循环涉及相机拍摄核苷酸样品载玻片或核苷酸样品载玻片的多个部分的图像,以生成用于确定添加或掺入特定寡核苷酸中的特定核碱基的图像数据。在图像捕获阶段之后,测序系统可以从掺入的核苷酸碱基中移除某些荧光标记,并且执行另一测序循环,直到核酸聚合物已经被完全测序。在一个或多个实施方案中,测序循环包括边合成边测序(SBS)运行内的循环。
如本文所用,术语“簇特异性定相校正”是指当应用时调节来自特定寡核苷酸簇内的标记核苷酸碱基的信号以校正估计的定相或预定相的过程或功能。具体地,簇特异性定相校正可包括算法或函数,通过该算法或函数,来自簇的信号应当被调节以使用傅里叶变换来校正估计定相或预定相的估计影响。
如本文所用,术语“定相”是指在特定测序循环之后掺入标记核苷酸碱基的情况(或速率)。定相包括对于特定的测序循环,簇内标记核苷酸碱基异步掺入簇内其他标记核苷酸碱基之后的情况(或速率)。具体地,在SBS期间,簇中的每条DNA链每个循环都会延长一个核苷酸碱基的掺入。簇内的一条或多条寡核苷酸链可能与当前循环异相。当簇内一个或多个寡核苷酸的核苷酸碱基落在一个或多个掺入循环之后时,发生定相。例如,从第一位置到第三位置的核苷酸序列可以是CT A。在该示例中,C核苷酸应在第一循环中掺入,T在第二循环中掺入,A在第三循环中掺入。当在第二测序循环期间发生定相时,掺入一个或多个标记的C核苷酸而不是T核苷酸。相关地,如本文所用,术语“预定相”是指在特定循环之前掺入一个或多个核苷酸碱基的情况(或速率)。预定相包括对于特定的测序循环,簇内的标记核苷酸碱基异步掺入簇内的其他标记核苷酸碱基之前的情况(或速率)。为了说明,当在上述示例中在第二测序循环期间发生预定相时,掺入一个或多个标记的A核苷酸而不是T核苷酸。
如本文所用,术语“簇特异性定相系数”指的是估计或测量针对簇的信号的簇特异性定相的因子或值。具体地,簇特异性定相系数估计在给定的测序循环内对簇的定相的影响。例如,簇特异性定相系数可指示前一循环的核苷酸碱基对来自当前循环的标记核苷酸碱基的信号的影响。为了说明,在上述示例中,簇特异性定相系数可估计来自第二测序循环期间掺入的C核苷酸而不是T核苷酸的定相的影响。
相关地,术语“簇特异性预定相系数”指的是估计或测量针对簇的信号的簇特异性预定相的因子或值。具体地,簇特异性预定相系数估计在给定的测序循环内对簇的预定相的影响。例如,簇特异性预定相系数可指示后一循环的核苷酸碱基对来自当前循环的标记核苷酸碱基的信号的影响。为了说明,在上述示例中,簇特异性预定相系数估计来自第二测序循环期间掺入的A核苷酸而不是T核苷酸的预定相的影响。
如本文所用,术语“核苷酸碱基检出”(或简称为“检出”)是指在测序循环期间确定或预测样品基因组的基因组坐标或寡核苷酸的特定核苷酸碱基(或核苷酸碱基对)。具体地,核苷酸碱基检出可指示(i)已掺入核苷酸样品载玻片上的寡核苷酸内的核苷酸碱基的类型的确定或预测(例如,基于读段的核苷酸碱基检出)或(ii)存在于基因组内的基因组坐标或区域处的核苷酸碱基的类型的确定或预测,包括数字输出文件中的变体检出或非变体检出。在一些情况下,对于核苷酸片段读段,核苷酸碱基检出包括基于由添加到核苷酸样品载玻片(例如,在流通池的簇中)的寡核苷酸的带荧光标签的核苷酸产生的强度值确定或预测核苷酸碱基。另选地,核苷酸碱基检出包括来自色谱峰或电流变化的核苷酸碱基的确定或预测,该色谱峰或电流变化由穿过核苷酸样品载玻片的纳米孔的核苷酸产生。相比之下,基于与基因组坐标对应的核苷酸片段读段,核苷酸碱基检出还可包括变体检出文件或其他碱基检出输出文件的样品基因组的基因组坐标处的核苷酸碱基的最终预测。因此,核苷酸碱基检出可包括与基因组坐标和参考基因组对应的碱基检出,诸如与参考基因组对应的特定位置处的变体或非变体的指示。实际上,核苷酸碱基检出可指变体检出,包括但不限于单核苷酸变体(SNV)、插入或缺失(indel)或作为结构变体的一部分的碱基检出。如上所述,单个核苷酸碱基检出可以是腺嘌呤(A)检出、胞嘧啶(C)检出、鸟嘌呤(G)检出或胸腺嘧啶(T)检出。
现在将结合描绘簇感知碱基检出系统的示例性实施方案和具体实施的说明性附图提供关于簇感知碱基检出系统的附加细节。例如,图1示出了其中簇感知碱基检出系统106根据一个或多个实施方案工作的系统环境(或“环境”)100的示意图。如所示,环境100包括经由网络112连接到用户客户端设备108和测序设备114的一个或多个服务器设备102。虽然图1示出了簇感知碱基检出系统106的实施方案,但是替代实施方案和配置是可能的。
如图1进一步所示,服务器设备102、用户客户端设备108和测序设备114经由网络112连接。环境100的每个部件可经由网络112通信。网络112包括计算设备可在其上通信的任何合适的网络。下文结合图10更详细地讨论示例性网络。
如图1所示,环境100包括测序设备114。测序设备114包括用于测序全基因组或其他核酸聚合物的设备。在一些实施方案中,测序设备114分析样品以利用本文所述的计算机实现的方法和系统在测序设备114上直接或间接生成数据。在一个或多个实施方案中,测序设备114利用边合成边测序(SBS)以对全基因组或其他核酸聚合物测序。如图所示,在一些实施方案中,测序设备114绕过网络112并直接与用户客户端设备108通信。
如图1进一步描绘的,环境100包括服务器设备102。服务器设备102可生成、接收、分析、存储、接收和传输电子数据,诸如用于测序核酸聚合物的数据。服务器设备102可接收来自测序设备114的数据。例如,服务器设备102可收集和/或接收测序数据,包括核苷酸碱基检出数据、质量数据和与测序核酸聚合物相关的其他数据。服务器设备102还可与用户客户端设备108通信。具体地,服务器设备102可向用户客户端设备108发送核酸聚合物序列、误差数据和其他信息。在一些实施方案中,服务器设备102包括分布式服务器,其中服务器设备102包括跨网络112分布并且位于不同物理位置的许多服务器设备。服务器设备102可包括内容服务器、应用程序服务器、通信服务器、网络托管服务器或另一类型的服务器。
如图1中进一步所示,服务器设备102可包括测序系统104。通常,测序系统104分析从测序设备114接收的测序数据,以确定全基因组或其他核酸聚合物的核苷酸序列。例如,测序系统104可从测序设备114接收原始数据(例如,用于核苷酸片段读段的碱基检出数据)并且确定样品基因组的核酸序列。为了说明,测序系统104可从测序设备114接收核苷酸片段读段,并且测序系统104从核苷酸片段读段产生对样品基因组的核苷酸碱基检出。在一些实施方案中,测序系统104确定DNA和/或RNA中核苷酸碱基的序列。除了处理和确定核酸聚合物的序列之外,测序系统104还分析测序数据以检测单个或多个测序循环中的不规则性。
如图1所示,测序设备114包括簇感知碱基检出系统106。通常,簇感知碱基检出系统106估计簇特异性定相校正,以校正估计定相和预定相的信号。更具体地,在一些实施方案中,簇感知碱基检出系统106识别在一个或多个核苷酸片段读段内误差诱导序列之后的读段位置。簇感知碱基检出系统106进一步在与读段位置对应的循环期间检测来自寡核苷酸簇内的标记核苷酸碱基的信号。簇感知碱基检出系统106确定簇特异性定相校正,以针对估计定相和估计预定相校正信号。簇感知碱基检出系统106基于簇特异性定相校正调节信号,并基于所调节的信号确定与寡核苷酸簇对应的读段位置的核苷酸碱基检出。
图1所示的环境100还包括用户客户端设备108。用户客户端设备108可生成、存储、接收和发送数字数据。具体地,用户客户端设备108可从测序设备114接收测序数据。此外,用户客户端设备108可与服务器设备102通信以接收核苷酸碱基检出、核苷酸序列以及测序运行内的不规则报告。用户客户端设备108可向与用户客户端设备108相关联的用户呈现测序数据。
图1中示出的用户客户端设备108可包括各种类型的客户端设备。例如,在一些实施方案中,用户客户端设备108包括非移动设备,诸如台式计算机或服务器,或其他类型的客户端设备。在又一些实施方案中,用户客户端设备108包括移动设备,诸如膝上型计算机、平板计算机、移动电话、智能电话等。关于用户客户端设备108的附加细节在下面关于图10讨论。
如图1进一步所示,用户客户端设备108包括测序应用程序110。测序应用程序110可以是在用户客户端设备108上的网络应用程序或本机应用程序(例如,移动应用程序、桌面应用程序等)。测序应用程序110可包括指令,这些指令(当被执行时)使得用户客户端设备108从簇感知碱基检出系统106接收或请求数据并且呈现测序数据。此外,测序应用程序110可包括指令,这些指令(当被执行时)使用户客户端设备108提供样品基因组的读段堆积或读段比对的图形可视化。
如图1进一步所示,簇感知碱基检出系统106可作为测序应用程序110的一部分位于用户客户端设备108上。如所示,在一些实施方案中,簇感知碱基检出系统106通过(例如,完全或部分地位于)在用户客户端设备108上实施。在又一些实施方案中,簇感知碱基检出系统106由环境100的一个或多个其他部件实施。具体地,簇感知碱基检出系统106可以多种不同的方式跨服务器设备102、用户客户端设备108和测序设备114实施。在一个示例中,簇感知碱基检出系统106部分地位于测序设备114以及服务器设备102上。具体地,簇感知碱基检出系统106可基于测序设备114上的簇特异性定相校正来调节信号,并且基于作为服务器设备102的一部分的所调节的信号来确定与寡核苷酸簇对应的读段位置的核苷酸碱基检出。
尽管图1示出了经由网络112进行通信的环境100的部件,但是在某些实施方案中,环境100的部件还可绕过网络直接与彼此通信。例如,并且如前所述,用户客户端设备108可直接与测序设备114通信。附加地,用户客户端设备108可绕过网络112直接与簇感知碱基检出系统106通信。此外,簇感知碱基检出系统106可访问容纳在服务器设备102上的一个或多个数据库,或者环境100中的其他地方。
如前所述,簇感知碱基检出系统106可确定簇特异性定相校正,以校正用于估计定相和估计预定相的信号。下面的附图和讨论提供了关于根据一些实施方案的簇感知碱基检出系统106如何估计簇特异性定相校正的附加细节。具体地,图2A示出了根据一个或多个实施方案的包括几个核苷酸片段读段的示例性读段堆积,其证明了通过误差诱导序列的定相和预定相的影响。相比之下,图2B示出了根据一个或多个实施方案如何在分子水平上发生定相和预定相。
如所提及的,图2A示出了根据一个或多个实施方案的反映误差诱导序列对碱基检出准确度和二级测序度量的影响的示例性读段堆积。具体地,图2A示出了包含具有均聚物206的参考基因组212的核苷酸片段读段202的读段堆积200。图2A还描绘了与读段堆积200的核苷酸片段读段202对应的碱基质量204、碱基深度208和误差类型计数器210。
如上所述,读段堆积200反映了关于几个测序循环的数据。具体地,碱基深度208反映了核苷酸片段读段202内有多少个读段覆盖每个碱基。例如,碱基深度208包括浅灰色条,其指示覆盖在正向和反向核苷酸片段读段202之间具有最多重叠的碱基的更大数目的读段。为了说明,读段堆积200中心的碱基与最大数目的读段对应。
如图2A所示,读段堆积200包括核苷酸片段读段202。通常,核苷酸片段读段202指示基因组内各种DNA片段的序列。如前所述,在一些实施方案中,簇感知碱基检出系统106可利用测序设备114来产生核苷酸片段读段202。在这样的测序期间,簇感知碱基检出系统106可基于掺入相应簇的寡核苷酸中的标记核苷酸碱基来确定每个核苷酸片段读段202。簇感知碱基检出系统106进一步沿着参考基因组212比对核苷酸片段读段202以确定对参考基因组212的核苷酸碱基检出。
如图2A进一步所示,读段堆积200指示核苷酸片段读段202的读段方向和误差。例如,并且如核苷酸片段读段202末端处的箭头所示,标记为1-10的核苷酸片段读段202包含以反向方向循环添加的标记核苷酸碱基。标记为11-20的核苷酸片段读段202包含以正向方向循环添加的标记核苷酸碱基。与核苷酸片段读段202重叠的垂直灰色线或阴影指示正确的核苷酸碱基检出。更具体地,正确的核苷酸碱基检出与参考基因组的核苷酸碱基匹配。核苷酸片段读段202内的字母指示与来自参考基因组212的碱基不匹配的不正确的核苷酸碱基检出。
如图2A所示,读段堆积200包括碱基质量204。碱基质量204反映了每个核苷酸片段读段202的碱基质量。通常,正确的核苷酸碱基检出的较高发生率对应于较高的碱基质量,而不正确的核苷酸碱基检出对应于较低的碱基质量。例如,在一些实施方案中,碱基质量204反映了估计核苷酸片段读段202之一内的碱基检出是错误的概率的Phred分数(Q30)。相比之下,误差类型计数器210使用各种基因组坐标处的颜色编码条或灰度阴影条来指示每种类型的不正确碱基检出的误差数目。例如,在一些实施方案中,误差类型计数器210包括指示不正确的核苷酸碱基检出的颜色编码条形图。
如图2A所示的不正确的核苷酸碱基检出,参考基因组212含有误差诱导序列。具体地,参考基因组212含有均聚物206。均聚物206包含具有连续的A核苷酸的序列。如图2A所示,不正确的核苷酸碱基检出在均聚物206之后的各种读段位置处的数目增加。例如,对于核苷酸片段读段2,均聚物206之后的核苷酸碱基的误差数目增加。类似地,对于核苷酸片段读段13,均聚物206之后的误差也增加。但是在核苷酸片段读段1-10内的相同读段位置处,不正确的核苷酸碱基检出不同。这种误差方差指示误差诱导序列(此处,均聚物206)对与误差诱导序列之后的读段位置对应的信号表现出定相或预定相影响。
如图2A所示,不正确的核苷酸碱基检出遵循与核苷酸片段读段方向一致的误差诱导序列。具体地,对核苷酸片段读段202的核苷酸碱基检出通常是准确的,并且对应于误差诱导序列之前的高碱基质量。在遇到误差诱导序列时,SBS聚合酶可能滑动或以其他方式不能准确地掺入另外的标记核苷酸碱基。为了说明,并且如前所述,核苷酸片段读段1-10是反向读段,而核苷酸片段读段11-20是正向读段。如图2A所示,均聚物206之后的误差数目增加,与核苷酸片段读段的方向一致。因此,在一些实施方案中,簇感知碱基检出系统106确定读段位置在误差诱导序列之后,与核苷酸片段读段的方向一致。
如图2A进一步描绘的,误差类型计数器210指示核苷酸片段读段202内碱基检出误差的位置和大小。如图2A所示,误差类型计数器210还指示围绕均聚物206的碱基检出误差的发生率增加。
如图2A所描绘的,误差诱导序列可在误差诱导序列之后的读段位置处的寡核苷酸簇的信号中引起定相和预定相影响。如所提及的,图2B示出了簇内的示例性寡核苷酸,以展示根据一个或多个实施方案的定相和预定相。具体地,图2B示出了在测序循环期间特定簇内的寡核苷酸214。通常,用于循环的标记核苷酸碱基218包括在循环期间响应于光信号而发荧光的标记核苷酸碱基。例如,对于图2B所示的给定循环,已将标记的T核苷酸碱基添加到大多数寡核苷酸中。
图2B还示出了定相和预定相。在定相的示例中,图2B示出了将与前一循环对应的标记核苷酸碱基216(此处,“C”)而非与当前循环对应的标记核苷酸碱基218(此处,“T”)之一掺入寡核苷酸的测序设备。因此,前一循环的标记核苷酸碱基216相应地延迟一个循环掺入。在预定相的示例中,图2B示出了将与后一循环对应的标记核苷酸碱基220(此处,“A”)而不是与当前循环对应的标记核苷酸碱基218(此处,“T”)之一掺入不同寡核苷酸的测序设备。因此,后一循环的标记核苷酸碱基220提前一个循环掺入。
如图2B所示,定相和预定相都影响来自簇内的标记核苷酸碱基的信号。具体地,簇感知碱基检出系统106检测包括来自前一循环的标记核苷酸碱基218和后一循环的标记核苷酸碱基220的荧光的混合信号,而不是检测包括由当前循环的标记核苷酸碱基216发射的光的纯信号。以下附图和段落进一步描述了簇感知碱基检出系统106如何生成簇特异性定相校正以调节信号并考虑定相核苷酸碱基和预定相核苷酸碱基。
图3提供了产生簇特异性定相校正并调节信号以确定与特定簇对应的准确核苷酸碱基检出的簇感知碱基检出系统106的概述。如图3的概述,簇感知碱基检出系统106执行一系列动作300,包括识别误差诱导序列之后的读段位置的动作302、检测来自与读段位置对应的标记核苷酸碱基的信号的动作304、确定簇特异性定相校正的动作306、基于簇特异性定相校正调节信号的动作308以及确定核苷酸碱基检出的动作310。
如刚刚所指示的,图3示出了在误差诱导序列之后识别读段位置的动作302。如所提及的,在一些实施方案中,簇感知碱基检出系统106部分地通过将簇特异性定相校正限制到所识别的误差诱导序列之后的读段位置的信号来限制校正簇的信号所需的计算资源。如图3所示,在一些实施方案中,基于对来自先前循环的信号的核苷酸碱基检出,簇感知碱基检出系统106通过识别均聚物、鸟嘌呤四链体、VNTR或其他误差诱导序列来识别误差诱导序列312。在一个示例中,簇感知碱基检出系统106分析来自先前循环的信号并确定来自阈值数目的先前循环的信号指示相同的核苷酸碱基。因此,簇感知碱基检出系统106确定均聚物的存在,该均聚物是误差诱导序列。图4和对应的讨论提供了误差诱导序列的附加细节和示例。
作为动作302的一部分,簇感知碱基检出系统106识别误差诱导序列之后的读段位置。如图3所示,例如,簇感知碱基检出系统106识别误差诱导序列312之后的读段位置314。在一些实施方案中,簇感知碱基检出系统106识别误差诱导序列312的已识别末端之后的读段位置314。例如,如果误差诱导序列312包括具有在阈值相似性内发射信号的核苷酸碱基的均聚物,则簇感知碱基检出系统106可识别在标记核苷酸碱基发射不同信号的第一位置或第二位置处的读段位置314。附加地或另选地,簇感知碱基检出系统106识别一个或多个读段位置,该一个或多个读段位置(i)在误差诱导序列之后直到核苷酸片段读段的最后位置,或(ii)在误差诱导序列312之后的阈值数目的读段位置内(例如,在误差诱导序列之后的200或300个核苷酸碱基内)。
在识别此类读段位置之后,簇感知碱基检出系统106执行从与该读段位置对应的标记核苷酸碱基检测信号的动作304。具体地,当执行动作304时,簇感知碱基检出系统106在与读段位置对应的循环期间检测来自寡核苷酸簇内的标记核苷酸碱基的信号。因此,作为执行动作304的一部分,簇感知碱基检出系统106通过识别其中标记核苷酸碱基将在读段位置314处掺入寡核苷酸内的循环来识别与读段位置314对应的循环。在一个示例中,簇感知碱基检出系统106识别紧接与误差诱导序列312相对应的先前循环之后或在阈值数目内(例如,在2个循环内)的先前循环之后的循环。
如图3进一步所示,当执行动作304时,簇感知碱基检出系统106可捕获簇320的图像316。在一些实施方案中,簇感知碱基检出系统106利用测序设备的相机捕获核苷酸样品载玻片的至少一部分的图像316。在该示例中,图像316描绘了核苷酸样品载玻片的区块内的几个簇。在另外的实施方案中,簇感知碱基检出系统106捕获核苷酸样品载玻片的其他部分(诸如核苷酸样品载玻片的子部分、区块、通道或其他部分)的一个或多个图像。如进一步所示,图像316描绘从簇320发射的信号318。信号318包括在循环期间从掺入寡核苷酸簇内的标记核苷酸碱基发出的光信号。
在检测到来自相关簇内的标记核苷酸碱基的这种信号之后,簇感知碱基检出系统106执行确定簇特异性定相校正的动作306。具体地,当执行动作306时,簇感知碱基检出系统106针对寡核苷酸簇确定簇特异性定相校正,以针对估计定相和估计预定相校正信号。更具体地,在一些实施方案中,簇感知碱基检出系统106确定(i)与前一循环对应的核苷酸碱基的簇特异性定相系数和(ii)与后一循环对应的核苷酸碱基的簇特异性预定相系数。例如,并且如图3所示,系数a表示簇特异性定相系数,并且系数b表示簇特异性预定相系数。簇感知碱基检出系统106还可利用这些系数作为算法或函数的一部分来确定簇特异性定相校正。例如,在一些实施方案中,簇感知碱基检出系统106利用有限脉冲响应(FIR)滤波器内的簇特异性定相系数和簇特异性预定相系数。
虽然图3示出了确定单个簇特异性定相系数和单个簇特异性预定相系数,但在一些实施方案中,簇感知碱基检出系统106确定与更多先前循环(例如,两个、三个、四个等先前循环)和/或更多后续循环(例如,两个、三个、四个等后续循环)对应的多个附加系数。图5和对应段落进一步详细描述了根据一个或多个实施方案的簇感知碱基检出系统106如何确定簇特异性定相系数a和簇特异性预定相系数b。
簇感知碱基检出系统106可利用多个模型作为执行确定簇特异性定相校正的动作306的一部分。例如,簇感知碱基检出系统106可利用线性均衡器(LE)、判决反馈均衡器(DFE)或最大似然序列估计器(MLSE)来确定簇特异性定相系数和簇特异性预定相系数。图7A至图7C和随附的讨论提供了关于这些模型中的每个模型的附加细节。
在一些实施方案中,作为执行动作306的一部分,簇感知碱基检出系统106利用簇特异性定相系数a和簇特异性预定相系数b来确定与前一循环对应的权重(w-1)、与当前循环对应的权重(w0)和与后一循环对应的权重(w1)。在一些实施方案中,权重表示簇感知碱基检出系统106用于调节信号的均衡器系数。虽然图3示出了与前一循环、当前循环和后一循环对应的三个权重的窗口,但是如上所述,簇感知碱基检出系统106可生成更多权重。例如,簇感知碱基检出系统106可生成五个权重。为了说明,在五个权重中,簇感知碱基检出系统106确定与前一循环之前的循环对应的权重(w-2)、与前一循环对应的权重(w-1)、与当前循环对应的权重(w0)、与后一循环对应的权重(w1)和与后一循环之后的循环对应的权重(w2)。簇感知碱基检出系统106可相应地将所识别的权重的数目扩展到七个、九个或任何相关窗口。
在确定簇特异性定相校正之后,簇感知碱基检出系统106执行基于簇特异性定相校正来调节信号的动作308。通常,簇感知碱基检出系统106基于簇特异性定相系数(a)和簇特异性预定相系数(b)来调节信号。在一些实施方案中,簇感知碱基检出系统106通过将上述权重应用于来自寡核苷酸簇的信号来执行动作308。例如,图3将前一循环、循环和后一循环的信号表示为{x-1,x0,x1}。簇感知碱基检出系统106应用前一循环、当前循环和后一循环{x-1,x0,x1}的权重以生成前一循环、循环和后一循环的所调节的信号在一些实施方案中,簇感知碱基检出系统106基于在先前步骤中确定的权重的数目来生成用于附加循环的所调节的信号。
在调节信号之后,簇感知碱基检出系统106执行确定核苷酸碱基检出的动作310。具体地,当执行动作310时,簇感知碱基检出系统106基于所调节的信号确定与寡核苷酸簇对应的读段位置的核苷酸碱基检出。例如,并且如图3所示,簇感知碱基检出系统106基于所调节的信号确定读段位置314处的核苷酸碱基的身份是胸腺嘧啶(T)。通常,簇感知碱基检出系统106可利用测序系统104来生成核苷酸碱基检出以确定核苷酸片段读段,该核苷酸碱基检出指示簇内核苷酸碱基的识别。簇感知碱基检出系统106可进一步比对从所调节的信号的分析产生的核苷酸片段读段,以指示其他核酸聚合物的样品基因组的序列。
虽然图3描绘了在测序循环处或期间针对来自给定簇的信号确定簇特异性定相系数和簇特异性预定相系数并基于此类系数调节信号的簇感知碱基检出系统106,但在一些实施方案中,簇感知碱基检出系统106可在测序循环继续时针对来自给定簇的信号确定和重新确定此类系数。例如,在一些实施方案中,簇感知碱基检出系统106可在一个测序循环中确定给定寡核苷酸簇的簇特异性定相系数和簇特异性预定相系数(和对应的权重),然后在后续测序循环中确定给定寡核苷酸簇的更新的簇特异性定相系数和更新的簇特异性预定相系数(和对应的权重),对于每个后续循环以此类推。因此,在确定与给定簇对应的核苷酸片段读段的核苷酸碱基检出的过程中,簇感知碱基检出系统106重新确定并改变给定寡核苷酸簇的簇特异性定相系数和簇特异性预定相系数。
图3提供了根据一个或多个实施方案的由簇感知碱基检出系统106执行的动作的概述,作为根据针对估计定相和预定相调节的信号确定核苷酸碱基检出的一部分。图4示出了根据一个或多个实施方案的由簇感知碱基检出系统106执行以识别误差诱导序列的一系列动作。通常,簇感知碱基检出系统106选择性地确定簇特异性定相校正,并且根据该簇特异性定相校正调节来自误差诱导序列之后的特定循环的信号。如图4中的一系列动作400所描绘的,簇感知碱基检出系统106通过执行分析来自多个循环的信号的动作402、从信号确定核苷酸碱基检出的动作403以及识别误差诱导序列的动作404来识别误差诱导序列。
如图4所示,簇感知碱基检出系统106执行分析来自多个循环的信号的动作402。通常,簇感知碱基检出系统106通过拍摄簇的一个或多个图像来检测来自簇的标记核苷酸碱基的信号。更具体地,簇感知碱基检出系统106捕获含有多个簇的核苷酸样品载玻片的部分(例如,流通池的区块)的一个或多个图像。图像捕获从簇发射的信号。簇感知碱基检出系统106分析图像以检测信号406a-406c。信号406a-406c包括针对不同循环从簇内的标记核苷酸碱基发出的信号。例如,簇感知碱基检出系统106记录第一循环的信号406a、第二循环的信号406b和第三循环的信号406c。
在一些实施方案中,信号406a-406c源自从不同检测通道获得的图像。例如,信号406a-406c可基于从2通道或4通道测序得到的图像来生成。每个核苷酸碱基与不同的信号相关。为了说明,在2通道SBS中,绿色簇对应于C核苷酸碱基,红色簇对应于T核苷酸碱基,观察到的既有红色又有绿色的簇被标记为A核苷酸碱基,并且未标记的簇对应于G核苷酸碱基。相比之下,在一个或多个实施方案中,簇感知碱基检出系统106从单个检测通道检测信号。例如,基于从1通道测序获得的图像来生成信号406a-406c。
在一些实施方案中,作为执行分析来自多个循环的信号的动作402的一部分,簇感知碱基检出系统106调节信号406a-406c以用于定相/定相和噪声。具体地,簇感知碱基检出系统106可确定簇特异性定相校正,以针对估计定相和/或估计预定相来校正信号406a-406c。在一个示例中,簇感知碱基检出系统106通过调节信号406a-406c来进一步分析来自多个循环的信号以减少噪声。例如,在一些实施方案中,簇感知碱基检出系统106利用降噪器或算法来去除噪声。实际上,在一些情况下,噪声是信号的一部分并且包括导致(或反映)所观察群体中的分布的信号变异。信号变异可来自核苷酸样品载玻片(例如,流通池)或测序设备的部件或内容的化学或物理性质,诸如可归因于寡核苷酸长度、定相或预定相的信号变异,或寡核苷酸簇相对于相机或其他传感器的视场的位置。除了去除噪声之外,簇感知碱基检出系统106可进一步细化信号406a-406c以改善其他度量。例如,在一些实施方案中,簇感知碱基检出系统106基于与信号406a-406c的强度值对应的偏移和缩放因子来调节信号406a-406c。
此外,作为执行分析来自多个循环的信号的动作402的一部分,簇感知碱基检出系统106将所调节信号的强度值与强度值边界的集合进行比较。通常,强度值边界是指用于生成信号的核苷酸碱基检出的决策边界。具体地,强度值边界可以是指基于信号的一个或多个强度值将核苷酸碱基分类的决策边界。为了说明,强度值边界可以定义或以其他方式指示对应于每个核苷酸碱基的核苷酸云的边界。具体地,簇感知碱基检出系统106识别与每个可能的核苷酸碱基(例如,A、T、C或G)对应的强度值边界的集合。在一些实施方案中,簇感知碱基检出系统106丢弃具有在强度值边界的集合中的一个强度值边界之外的强度值的所调节的信号。例如,基于确定针对簇的所调节的信号具有在强度值边界的集合中的一个强度值边界之外的强度值,簇感知碱基检出系统106确定不生成针对该簇的核苷酸碱基检出。
如图4进一步所示,一系列动作400包括确定来自信号的核苷酸碱基检出的动作403。具体地,簇感知碱基检出系统106可利用强度值边界的集合中的一个强度值边界来生成信号的核苷酸碱基检出。具体地,簇感知碱基检出系统106可利用强度值边界的集合生成核苷酸碱基检出。通常,基于确定一组强度值边界和信号406a之间的相关性,簇感知碱基检出系统106确定与信号406a的所调节版本(即,所调节信号)对应的循环的核苷酸碱基检出。例如,基于确定与信号406a的所调节版本(即,所调节信号)对应的强度值落在与A核苷酸碱基对应的一组强度值边界内,簇感知碱基检出系统106确定A核苷酸碱基检出。
在一些实施方案中,簇感知碱基检出系统106在确定核苷酸碱基检出之后丢弃信号数据。为了减少估计簇特异性定相校正所需的存储负载,簇感知碱基检出系统106可周期性地删除或丢弃信号数据。例如,在一些实施方案中,簇感知碱基检出系统106在阈值数目的循环内丢弃信号数据。例如,簇感知碱基检出系统106可在确定特定循环的核苷酸碱基检出的阈值数目(例如,3、5、10等)的循环内删除信号数据。如前所述,簇感知碱基检出系统106针对与误差诱导序列之后的读段位置对应的循环选择性地校正信号。因此,在一些情况下,簇感知碱基检出系统106删除不受误差诱导序列影响的循环的信号数据。在一些实施方案中,对于给定的簇,簇感知碱基检出系统106识别不受误差诱导序列影响的循环,并丢弃对应的信号数据。例如,簇感知碱基检出系统106可确定先前循环的核苷酸碱基检出不指示可识别的误差诱导序列。基于该确定,簇感知碱基检出系统106丢弃该循环的信令数据。
如图4进一步所示,簇感知碱基检出系统106将动作403重复多个循环。具体地,簇感知碱基检出系统106确定来自多个循环的信号的核苷酸碱基检出。在该簇的每个循环中产生的核苷酸碱基检出的序列成为该簇的核苷酸片段读段。例如,并且如图4所示,簇感知碱基检出系统106生成具有序列“CTGTAAAAAA”的核苷酸片段读段。
如图4进一步所示,簇感知碱基检出系统106执行识别误差诱导序列的动作404。通常,簇感知碱基检出系统106分析来自核苷酸片段读段的核苷酸碱基序列(对应于先前循环)以检测误差诱导序列的存在。例如,在确定特定循环的特定核苷酸碱基检出后,簇感知碱基检出系统106可将来自生长的核苷酸片段读段的核苷酸碱基检出的序列与可能的误差诱导序列的数据库进行比较。通过使用误差诱导序列的此类数据库,簇感知碱基检出系统106可分析核苷酸碱基检出的序列以确定核苷酸片段读段是否包括误差诱导序列。当来自此类核苷酸片段读段的核苷酸碱基检出的序列与特定误差诱导序列匹配(或在来自特定误差诱导序列的阈值数目的核苷酸碱基内)时,簇感知碱基检出系统106识别核苷酸片段读段内的误差诱导序列。
通常,误差诱导序列包括一个或多个重复核苷酸碱基的序列或序列基序。序列基序可包括在基因组内出现的核苷酸模式。在一些示例中,序列基序与生物功能相关。图4示出了根据一个或多个实施方案的多个示例性误差诱导序列。以下段落描述了由簇感知碱基检出系统106识别的误差诱导序列的各种示例。在一些实施方案中,序列识别模型识别误差诱导序列的触发。例如,序列识别模型可包括被训练以识别或预测引起碱基检出误差的核苷酸碱基序列的机器学习模型。附加地或另选地,基于序列内碱基的块或组的碱基计数,误差诱导序列是可识别的。
如图4所示,均聚物可以是误差诱导序列。通常,均聚物包含由相同单体单元组成或包含相同单体单元的聚合物。具体地,均聚物包含具有单个重复核苷酸碱基的序列。例如,均聚物可包括十五个或更多个重复A核苷酸的片段。均聚物通常通过在成簇期间引起聚合酶滑动而诱导误差。当聚合酶暂时从寡核苷酸解离并重新附着于不同位置时,发生聚合酶滑动。这种聚合酶滑动通常产生不均匀长度的丝,这表现为下游的急性定相或预定相误差。均聚物可包含任何核苷酸碱基的重复序列,包括A、T、G或C的均聚物。在一些实施方案中,近均聚物也被认为是误差诱导序列。具体地,近均聚物包括其中除了几个单体之外每一个单体都相同的聚合物。例如,近均聚物可包含被单个不同碱基中断的重复碱基(例如,20个)的链。
图4所示的误差诱导序列的另一个示例包括鸟嘌呤四链体(G-四链体)。G-四链体是由富含鸟嘌呤的序列形成的稳定的二级结构。具体地,G-四链体在SBS期间在模板寡核苷酸上形成链内二级结构。G-四链体可通过阻断SBS聚合酶而诱导SBS误差。更具体地,在测序循环后被洗出的聚合酶在再附着时通常效率较低,从而导致灾难性的定相。簇感知碱基检出系统106可通过鉴定富含鸟嘌呤的序列来鉴定G-四链体。在一些实施方案中,簇感知碱基检出系统106可通过计算预测G-四链体序列基序。例如,簇感知碱基检出系统106可利用机器学习模型(诸如基于序列的计算模型)来预测G-四链体的形成。
一些误差诱导序列诸如G-四链体比其他误差诱导序列(包括均聚物)更难识别。例如,簇感知碱基检出系统106可能错误地检测到G-四链体的存在,并因此继续确定簇特异性定相校正。这种类型的过早确定不会负面地影响性能,但会消耗额外的资源。在一些实施方案中,簇感知碱基检出系统106不确定簇特异性定相校正,除非误差诱导序列是容易识别的核苷酸序列,诸如均聚物和近均聚物。
如图4进一步所示,可变串联重复(VNTR)是误差诱导序列的另一个示例。VNTR可包含基因组中的位置,其中短核苷酸序列(20-100个碱基对)被组织为串联重复。例如,VNTR可包含由六个重复AGTCGGTAAG序列或各种其他数目的重复亚序列组成的序列。VNTR可通过引起聚合酶滑动导致下游定相和预定相而引起SBS中的误差。
VNTR的其他示例包括小卫星序列和微卫星序列。小卫星序列是指其中某些DNA基序(长度范围为10-60个碱基对)通常重复5-50次的重复DNA束。微卫星序列是其中某些DNA基序(长度范围为1至6或更多个碱基对)通常重复5-50次的重复DNA束。
如图4进一步所示,误差诱导序列还可包括二核苷酸重复序列和三核苷酸重复序列。当恰好有两个核苷酸重复时,就会出现二核苷酸重复序列。ATATAT序列是二核苷酸重复序列的一个示例。类似地,当恰好有三个核苷酸重复时,就会出现三核苷酸重复序列。例如,DNA序列CAGCAGCAGCAG含有四个CAG重复。二核苷酸和三核苷酸重复序列通过引起聚合酶滑动而负面地影响SBS。附加地,在一些示例中,二核苷酸和三核苷酸重复序列也可负面地影响SBS的PCR制备步骤。
图4所示的误差诱导序列的另一个示例是反向重复序列。反向重复序列包含核苷酸的单链序列,下游接着是其反向互补序列。初始序列和反向互补序列之间的核苷酸插入序列可以是任何长度,包括0。例如,TTACGnnnnCGTAA是反向重复序列。反向重复序列通常可引起链间发夹或链内杂交。所得的二级结构通常阻断SBS聚合酶在SBS期间重新附着到寡核苷酸上。
回文序列表示可由簇感知碱基检出系统106识别的误差诱导序列的另一个示例。回文序列包含第一轮核苷酸碱基,随后是相反顺序的第二轮互补碱基。GGATCC是回文序列的示例。回文序列在SBS期间可能是有问题的,因为它们会导致簇内的链内和链间杂交。例如,回文序列可引起基序自身内的杂交。回文序列还可引起链间杂交,其中一个寡核苷酸上的序列与第二寡核苷酸上的序列杂交。两种形式的相互作用在SBS期间均阻断聚合酶。
在一些实施方案中,簇感知碱基检出系统106识别方向特异性序列基序。具体地,簇感知碱基检出系统106可基于确定序列基序处于特定方向而将序列基序标记为误差诱导序列。簇感知碱基检出系统106可确定相反方向上的相同序列基序不包含误差诱导序列。在一个示例中,正向链上的G-四链体可在SBS期间产生链内二级结构并负面地影响测序读段。相比之下,G-四链体的反向链或互补链通常不产生链内二级结构(除非反向方向也包括G-四链体)。倾向于形成链内二级结构的其他误差诱导序列也可以是方向特异性序列基序。
图4和以上随附的讨论描述了根据一个或多个实施方案的识别核苷酸片段读段内的误差诱导序列的簇感知碱基检出系统106。如前所述,簇感知碱基检出系统106还识别误差诱导序列之后的读段位置。簇感知碱基检出系统106进一步在与读段位置对应的循环期间处理来自标记核苷酸碱基的信号。作为处理信号的一部分,簇感知碱基检出系统106确定簇特异性定相校正来校正信号。具体地,簇感知碱基检出系统106可基于簇特异性定相系数和簇特异性预定相系数来确定簇特异性定相校正。图5和对应段落描述了根据一个或多个实施方案的用于确定簇特异性定相系数和确定簇特异性预定相系数的一系列动作500。
如图5所示,簇感知碱基检出系统106执行确定簇特异性定相系数的动作502。具体地,作为动作502的一部分,簇感知碱基检出系统106针对寡核苷酸簇确定与前一循环的核苷酸碱基对应的簇特异性定相系数。
图5示出了从寡核苷酸簇内的标记核苷酸碱基发出的信号。例如,图5示出了来自该循环的单个簇内的标记核苷酸碱基的当前循环信号508和来自前一循环的簇内的标记核苷酸碱基的前一循环信号506。与掺入簇的寡核苷酸中的其他标记核苷酸碱基(未示出)一起,簇发出由图像捕获的集合信号。为了便于解释,本公开将前一循环信号506、当前循环信号508和后一循环信号510称为构成给定循环的簇的集合信号的信号集合。如图所示,每个圆圈表示由簇内单个标记核苷酸碱基发出的信号。如图所示,当前循环信号508包括两个发出绿光的标记核苷酸碱基、一个发出红光的标记核苷酸碱基以及一个同时发出绿光和红光的标记核苷酸碱基。
在一些实施方案中,簇感知碱基检出系统106确定与紧接当前循环之前的前一循环的核苷酸碱基对应的簇特异性定相系数。如所提及的,当簇内的一个或多个寡核苷酸落在掺入核苷酸碱基之后时,发生定相。例如,并且如图5所示,簇感知碱基检出系统106识别前一循环信号506。前一循环信号506指示在前一循环期间被添加到簇内的寡核苷酸的标记核苷酸发射红色信号。当前循环信号508指示在循环期间已发生定相。更具体地,当前循环信号508包括一个发出红光的标记核苷酸碱基,其对应于前一循环信号506的红光。如下文进一步解释的,簇感知碱基检出系统106确定与前一循环的核苷酸碱基对应的簇特异性定相系数。
如图5进一步所示,簇感知碱基检出系统106还执行确定簇特异性预定相系数的动作504。具体地,簇感知碱基检出系统106针对寡核苷酸簇确定与紧接该循环之后的后一循环的核苷酸碱基对应的簇特异性预定相系数。如所提及的,当一个或多个寡核苷酸提前一个或多个循环掺入核苷酸碱基时,发生预定相。如图5所示,当前循环信号508包括发出绿光和红光的组合的标记核苷酸碱基。簇内的标记核苷酸发出的绿和红(G/R)光对应于来自后一循环信号510的G/R标记核苷酸。如下文进一步解释的,作为执行动作504的一部分,簇感知碱基检出系统106确定与来自后一循环的G/R核苷酸碱基对应的簇特异性预定相系数。
在一些实施方案中,簇感知碱基检出系统106基于输入信号、期望的输出信号和各种参数来确定簇特异性预定相系数和簇特异性定相系数。具体地,在其中簇感知碱基检出系统106利用3抽头线性均衡器的一个或多个具体实施中,簇感知碱基检出系统106基于输入信号(v)、期望的输出信号(d)以及包括分布的平均值(μ)和标准偏差(σ)的参数来生成用于3抽头线性均衡器的簇特异性预定相系数和簇特异性定相系数。通常,簇感知碱基检出系统106利用决策导引的适应。具体地,簇感知碱基检出系统106将期望的输出信号(d)设置到碱基检出的云的中心,并且使用期望的输出信号(d)更新包括分布的平均值(μ)和标准偏差(σ)的参数。下面在图7A所附的段落中提供了簇感知碱基检出系统106如何确定簇特异性定相系数和簇特异性预定相系数的具体示例。
虽然图5示出了确定簇特异性定相系数和簇特异性预定相系数的簇感知碱基检出系统106,但是在一些实施方案中,簇感知碱基检出系统106确定另外的簇特异性定相系数和另外的簇特异性预定相系数。定相可指延迟一个循环添加核苷酸碱基的情况,并且预定相可指提前一个循环添加核苷酸碱基的情况。然而,定相和预定相也可指分别在延迟两个或更多个循环和提前两个或更多个循环添加的核苷酸碱基。因此,在一些实施方案中,簇感知碱基检出系统106确定与另外的前一循环(即,该循环前的两个循环)的另外的核苷酸碱基对应的另外的簇特异性定相系数。簇感知碱基检出系统106还可确定与另外的后一循环(即,该循环后的两个循环)的另外的核苷酸碱基对应的另外的簇特异性预定相系数。
簇感知碱基检出系统106还可确定与一组紧接该循环之前的先前循环的一组核苷酸碱基对应的多组簇特异性定相系数。这样一组先前循环可包括任何数目的先前循环。类似地,簇感知碱基检出系统106还可确定与紧接该循环之后的一组后续循环对应的多组簇特异性预定相系数。这样一组后续循环可包括任何数目的后续循环。
在一些实施方案中,簇感知碱基检出系统106分析来自非对称的先前循环组和后续循环组的信号。例如,簇感知碱基检出系统106可(i)处理信号并确定单个先前循环的簇特异性定相系数,以及(ii)处理多个信号并确定多个后续循环(例如,两个或三个后续循环)的簇特异性预定相系数。作为又一个示例,簇感知碱基检出系统106可(i)处理多个信号并且确定多个先前循环(例如,两个或三个先前循环)的簇特异性定相系数,以及(ii)处理单个信号并且确定单个后续循环的簇特异性预定相系数。附加地或另选地,簇感知碱基检出系统106可处理来自非连续循环的信号。为了说明,簇感知碱基检出系统106可分析并确定来自前一循环、当前循环和后一循环之前的循环的信号的簇特异性系数。在该示例中,簇感知碱基检出系统106确定不分析来自前一循环的信号,但可在当前循环之前或之后选择另一个非连续循环。
如所描述的,图5示出了根据一个或多个实施方案的作为确定簇特异性定相校正的一部分确定簇特异性定相系数和簇特异性预定相系数的簇感知碱基检出系统106。在一些实施方案中,簇感知碱基检出系统106与各种算法一起确定簇特异性定相校正。图6示出了根据一个或多个实施方案的用于确定定相校正的示例性定相模型。通常,簇感知碱基检出系统106可确定簇特异性定相校正以校正来自寡核苷酸簇的信号,以及确定多簇定相校正以校正来自该簇的信号和来自一组簇的信号。图6示出了建模为两个连续卷积运算的簇特异性系数运算606和多簇系数运算608。
具体地,图6示出了用于估计各种系数的定相模型600,作为生成簇特异性定相校正和多簇定相校正的一部分。定相模型600包括在测序机602或其他测序机上发生的运算以及在信号处理604期间发生的运算。例如,在一些实施方案中,簇感知碱基检出系统106执行簇特异性系数运算606以估计簇特异性定相系数,并且执行多簇系数运算608以估计多簇定相系数。簇感知碱基检出系统106还可利用簇特异性定相系数和多簇定相系数作为信号处理604的一部分。更具体地,簇感知碱基检出系统106执行多簇定相校正610以基于多簇定相系数来调节信号。此外,簇感知碱基检出系统106执行簇特异性定相校正和碱基调用612,以基于簇特异性定相系数来调节信号,并基于所调节的信号生成核苷酸碱基检出。
定相模型600可包括实时(或近实时)计算架构或缓冲计算架构。通常,通过利用实时计算架构,簇感知碱基检出系统106利用测序器602的处理器(例如,测序设备114)执行图6所示的所有操作。相比之下,簇感知碱基检出系统106还可采用涉及测序机和一个或多个服务器(例如,服务器设备102)两者的缓冲计算架构。在一个示例中,簇感知碱基检出系统106在一个或多个服务器设备处执行信号处理604,同时在测序器602处执行簇特异性系数运算606和多簇系数运算608。更具体地,簇感知碱基检出系统106可在服务器设备的处理器处执行(i)多簇定相校正610和(ii)簇特异性定相校正和碱基检出612。
通常,并且如前所述,定相和预定相是指簇中寡核苷酸的一部分通过掺入分别与一个或多个先前或后续循环对应的核苷酸碱基而向前或向后移动的现象。簇感知碱基检出系统106可基于针对簇的信号(输入信号x)和簇特异性定相系数(输入系数h)的卷积来产生校正的信号(输出信号y)。更具体地,簇特异性定相系数(h)包括簇特异性预定相系数和簇特异性定相系数两者。经校正的信号可建模为卷积运算yc=∑ihixc-i,其被写为y=x*h。假设没有信号衰减,簇特异性系数h受∑ihi=1约束,hi≥0。在信号处理和通信系统文献中,通常使用D变换符号,其中Dk指示k个循环的延迟:h(D)=…+h-2D-2+h-1D-1+h0+h1D+h2D2+...。如所写的,h-2D-2+h-1D-1表示与在当前循环前的两个和一个循环的核苷酸碱基对应的定相系数。h1D+h2D2表示与当前循环后的一个和两个循环的核苷酸碱基对应的预定相系数。
如图6所示,簇感知碱基检出系统106执行簇特异性系数运算606,以确定具有误差诱导序列之后的读段位置的每个簇的簇特异性定相系数和簇特异性预定相系数。为了说明,簇感知碱基检出系统106确定与前一循环(h-1)、当前循环(h0)和后一循环(h1)对应的各种簇特异性定相系数(h)。簇特异性定相系数在簇之间独立地变化,并且对于某些簇可能无法确定(例如,在误差诱导序列之前或之内的读段位置处)。不受估计的定相或预定相影响的大多数簇具有值h=[0 1 0],然而簇感知碱基检出系统106可确定簇特异性定相系数在误差诱导序列诸如均聚物之后随机且突然地改变。在一些实施方案中,簇特异性定相系数总和为1并且是非负的,如由函数∑ihi(c)=1表示,hi≥0。
如图6进一步所示,簇感知碱基检出系统106执行多簇系数运算608以确定多簇定相系数。簇感知碱基检出系统106可利用跨核苷酸样品载玻片的特定部分(例如,流通池的区块)中跨簇的多簇定相系数。多簇定相系数值可逐循环逐渐变化。这些值比簇特异性定相系数更容易准确地估计,因为统计值可在数百万个簇中进行平均。
如图6所示,例如,簇感知碱基检出系统106计算与前一循环(g-1)、当前循环(g0)和后一循环(g1)对应的各种多簇定相系数(g)。与簇特异性定相系数一样,多簇定相系数(g)总和为1并且是非负的,如由函数∑igi(c)=1表示,gi≥0。如图6所示,簇感知碱基检出系统106基于簇特异性定相校正(包括簇特异性定相系数)和多簇定相校正(包括多簇定相系数)两者来调节信号。
在一些实施方案中,簇感知碱基检出系统106将簇特异性系数运算606和多簇系数运算608两者应用于簇。附加地或另选地,簇感知碱基检出系统106将多簇系数运算608而不是簇特异性系数运算606应用于一些簇。具体地,在一些实施方案中,簇感知碱基检出系统106基于多簇定相校正来调节来自一个或多个簇的信号,而无需簇特异性定相校正。例如,如前所述,误差诱导序列之前的核苷酸碱基的信号可能不需要簇特异性定相校正,因为信号没有受到误差诱导序列的影响。因此,在一些实施方案中,针对另外的寡核苷酸簇,簇感知碱基检出系统106识别在不同的核苷酸片段读段内的误差诱导序列之前的不同读段位置。簇感知碱基检出系统106进一步在与不同读段位置对应的循环期间检测来自另外的寡核苷酸簇内的标记核苷酸碱基的另外的信号。然后,簇感知碱基检出系统106基于多簇定相校正来调节另外的信号,而无需针对另外的寡核苷酸簇进行簇特异性定相校正。
在又一些实施方案中,簇感知碱基检出系统106将簇特异性系数运算606应用于给定簇的信号,而不执行多簇系数运算608。例如,在一些情况下,簇感知碱基检出系统106将给定簇的簇特异性定相系数和簇特异性预定相系数(或其他参数)应用于给定簇的信号,而不应用由多簇系数运算产生的参数。因此,当处理核苷酸样品载玻片内的簇时,簇感知碱基检出系统106可将簇特异性定相校正(没有多簇定相校正)应用于给定簇的信号,但是将簇特异性定相校正和多簇定相校正应用于不同簇的信号。
如前所述,簇感知碱基检出系统106基于簇特异性定相系数和多簇定相系数作为信号处理604的一部分来调节信号。具体地,并且如图6所示,簇感知碱基检出系统106执行多簇定相校正610作为信号处理604的一部分。簇感知碱基检出系统106利用从多簇系数运算608生成的多簇定相系数以及算法(诸如FIR算法)来执行多簇定相校正610。例如,簇感知碱基检出系统106基于与前一循环(γ-1)、当前循环(γ0)和后一循环(γ1)对应的校正(γ)来调节信号。
如图6进一步所示,簇感知碱基检出系统106执行簇特异性定相校正和碱基检出612作为信号处理604的一部分。具体地,作为簇特异性定相校正和碱基检出612的一部分,簇感知碱基检出系统106利用作为簇特异性系数运算606的一部分生成的簇特异性定相系数来估计簇特异性定相校正并将其应用于信号。在一些实施方案中,簇感知碱基检出系统106利用簇特异性定相系数以及算法诸如FIR算法来执行簇特异性定相校正。此外,并且如图6所示,簇感知碱基检出系统106还执行碱基检出。具体地,簇感知碱基检出系统106基于所调节的信号生成核苷酸碱基检出。
如前所述,簇感知碱基检出系统106可利用若干模型或算法来确定簇特异性定相系数和簇特异性预定相系数。更具体地,簇感知碱基检出系统106可利用各种模型来执行簇特异性系数运算606。具体地,簇感知碱基检出系统106可利用线性均衡器(LE)、判决反馈均衡器(DFE)、最大似然序列估计器(MLSE)或前向-后向模型来确定簇特异性定相系数和簇特异性预定相系数。此外,簇感知碱基检出系统106可利用机器学习模型诸如多层感知器来确定系数。
图7A至图7C和对应段落详细描述了根据一个或多个实施方案的簇感知碱基检出系统106如何利用LE、DFE或MLSE。通常,簇感知碱基检出系统106可使用各种接收器类型和计算架构来估计簇特异性定相系数和簇特异性预定相系数。更具体地,簇感知碱基检出系统106可在测序运行的过程中随时间生成并更新系数。如上所述,簇感知碱基检出系统106可利用以下三种模型或算法中的至少一者作为接收器:LE、DFE和MLSE。在一些实施方案中,簇感知碱基检出系统106利用前向-后向模型和/或机器学习模型来估计簇特异性定相系数和簇特异性预定相系数。附加地,在一些实施方案中,簇感知碱基检出系统106使用最小二乘误差或其他优化来导出簇特异性定相系数和簇特异性预定相系数。
簇感知碱基检出系统106还可利用实时(或近实时)计算架构或缓冲计算架构。簇感知碱基检出系统106利用实时计算架构来输出每个循环中的最终碱基检出而无需访问所有未来循环数据。例如,在一些实施方案中,簇感知碱基检出系统106仅需要有限的信号数据来利用实时计算架构。附加地或另选地,簇感知碱基检出系统106利用缓冲计算架构。簇感知碱基检出系统106通过在进行最终碱基检出之前利用来自所有循环的信号数据来利用缓冲计算架构。例如,簇感知碱基检出系统106可利用缓冲计算架构来基于来自所有先前循环和后续循环的信号数据生成针对簇的簇特异性定相校正。簇感知碱基检出系统106可将不同的接收器类型与不同的计算架构组合。例如,簇感知碱基检出系统106可利用简单的实时线性均衡器或最复杂的缓冲MLSE。
通常,实时计算架构通过仅使用实时(或近实时)信息来限制计算复杂度。为了说明,当簇感知碱基检出系统106利用实时计算架构时,簇感知碱基检出系统106仅需要一个或多个先前循环、当前循环以及一个或多个后续循环的信号数据。在一些实施方案中,簇感知碱基检出系统106利用来自前一循环的一组信令数据和来自后续数据的一组信令数据。因为实时计算架构在计算上更有效,所以簇感知碱基检出系统106可利用实时计算架构执行运算,该实时计算架构利用测序机或设备诸如测序设备114的过程。
相比之下,在一些实施方案中,在测序设备已确定核苷酸样品载玻片上的寡核苷酸簇的核苷酸片段读段之后,簇感知碱基检出系统106离线确定簇特异性定相校正。例如,在使用MLSE或机器学习模型的一些情况下,簇感知碱基检出系统106确定给定簇的簇特异性定相系数和簇特异性预定相系数,并且在测序设备已确定给定簇的核苷酸片段读段之后在不同的计算设备上调节与给定簇对应的信号。
相比之下,缓冲计算架构往往需要更多计算资源。然而,簇感知碱基检出系统106可通过利用缓冲计算架构来生成更准确的结果。为了说明,通过利用缓冲计算架构,簇感知碱基检出系统106并行地处理大量簇和循环。这种类型的处理需要大量的存储、通信和计算资源来进行每簇定相和预定相估计。然而,利用缓冲计算架构还可产生更准确的结果,因为簇感知碱基检出系统106处理所有循环的信令数据。在一些实施方案中,当测序机或设备在线并且主动与中央处理系统通信时,簇感知碱基检出系统106执行缓冲计算。
如所提及的,图7A示出了簇感知碱基检出系统106利用线性均衡器(LE)来确定簇特异性定相系数和簇特异性预定相系数。通常,LE是可被设计或优化以抑制符号间干扰(ISI)或滤除噪声的线性滤波器。ISI是指其中一个符号干扰后续符号的信号失真形式。其他符号的影响可具有与噪声类似的影响,从而降低通信的可靠性。簇感知碱基检出系统106可优化LE,以在抑制ISI和最小化噪声放大之间找到适当折衷。在一些实施方案中,簇感知碱基检出系统106利用实现为FIR滤波器的线性均衡器。利用这种均衡器,簇感知碱基检出系统106通过滤波器系数对输入信号的当前值和先前值进行线性加权。例如,在一些实施方案中,当前值和先前值包括来自簇的当前信号和先前信号。簇感知碱基检出系统106还将加权的当前值和先前值相加以生成所调节的信号。
图7A示出了根据一个或多个实施方案的线性均衡器架构700。通常,簇感知碱基检出系统106将输入信号x输入到线性均衡器架构700中以产生所调节的信号如前所述,h表示簇特异性定相系数。因此,h(D)表示第一滤波器。加性噪声由n~CN(0,σ2)表示。如图7A进一步所示,w表示权重,并且w(D)表示第二滤波器。簇感知碱基检出系统106还利用判决设备702来处理该信号以生成所调节的信号/>
为了确定图7A所示的LE结构中的h,令S(f)为频域SNR:
其中F(h)表示h(D)的傅立叶变换。簇感知碱基检出系统106可通过确定信号与干扰加噪声比(SINR)来生成信号质量的测量值。假设存在高斯噪声,SINR比可用于导出二进制信号或其他调制类型的误差率。对于理想的无限长度无偏最小均方误差线性均衡器(U-MMSE-LE),可显示如下
误差率可通过下式近似估计:
其中/>
其中P误差表示误差的传输功率。如图7A和对应的函数所表明的,给定频带上的信号和噪声水平,簇感知碱基检出系统106在接收器处理之后计算总SNR,并且随后将该SNR转换成误差率估计。
在一些实施方案中,簇感知碱基检出系统106利用3抽头LE来生成前一循环权重、后一循环权重和当前循环权重。具体地,簇感知碱基检出系统106基于簇特异性定相系数生成估计用于前一循环的核苷酸碱基的定相影响的前一循环权重。簇感知碱基检出系统106还基于簇特异性预定相系数生成估计用于后一循环的核苷酸碱基的预定相影响的后一循环权重。此外,簇感知碱基检出系统106还基于簇特异性定相系数和簇特异性预定相系数生成估计定相影响和预定相影响的当前循环权重。
在一些实施方案中,簇感知碱基检出系统106确定前一循环权重(w-1)、当前循环权重(w0)和后一循环权重(w1)。通常,簇感知碱基检出系统106可使用优化算法诸如最小二乘误差或另一优化算法来优化参数。例如,簇感知碱基检出系统106可生成判决引导的极小最小二乘估计。
在生成决策导引的极小最小二乘估计或以其他方式优化参数之后,簇感知碱基检出系统106然后可使用中间统计值来计算簇特异性定相系数(a)和簇特异性预定相系数(b)。具体地,簇感知碱基检出系统106利用中间统计值,该中间统计值是最小化跨几个循环和跨一个或多个通道的平方误差的一部分。簇感知碱基检出系统106有效地累积运行统计值,而不是维持每个循环每个通道的所有值。
基于簇特异性定相系数(a)和簇特异性预定相系数(b),簇感知碱基检出系统106然后确定前一循环权重(w-1)、当前循环权重(w0)和后一循环权重(w1)。簇感知碱基检出系统106将每个估计的权重应用于来自每个簇的信号。在一些实施方案中,簇感知碱基检出系统106如下估计权重(w):
{w-1,w0,w1}={-a,1+a+b,-b}
如上文的函数和本文的其他函数所表明的,在一些实施方案中,簇感知碱基检出系统106可在一个测序循环中确定给定寡核苷酸簇的簇特异性定相系数和簇特异性预定相系数(和对应的权重),然后在后续测序循环中确定给定寡核苷酸簇的更新的簇特异性定相系数和更新的簇特异性预定相系数(和对应的权重),对于每个后续循环以此类推。实际上,在确定与给定簇对应的核苷酸片段读段的核苷酸碱基检出的过程中,簇感知碱基检出系统106可重新确定并改变给定寡核苷酸簇的簇特异性定相系数和簇特异性预定相系数。因此,在一些情况下,簇感知碱基检出系统106并非针对给定簇简单地确定簇特异性定相系数和簇特异性预定相系数一次,而是随着测序循环进行而针对给定簇重复地确定和更新此类簇特异性定相系数和簇特异性预定相系数。
如前所述,簇感知碱基检出系统106还可利用判决反馈均衡器(DFE)来确定簇特异性定相系数和簇特异性预定相系数。图7B和对应段落示出了根据一个或多个实施方案的簇感知碱基检出系统106如何利用DFE和判决反馈均衡器架构706。通常,DFE是一种非线性均衡形式,它依赖于关于先前信号电平的决策来校正当前信号。具体地,簇感知碱基检出系统106利用DFE,采用先前的决策作为训练序列。这允许簇感知碱基检出系统106考虑当前信号中由先前信号引起的失真。在一些实施方案中,DFE包括前馈滤波器(FFF)和反馈滤波器(FBF)。FFF可包括线性均衡器,其输出被提供给判决设备。FBF由判决设备的输出驱动。
具体地,并且如图7B所示,簇感知碱基检出系统106将输入信号x输入判决反馈均衡器架构706中以生成所调节的信号如图所示,判决反馈均衡器架构706包括与簇特异性定相系数h对应的前馈滤波器h(D)。信号x的加性噪声由n~CN(0,σ2)表示。判决反馈均衡器架构706还包括处理该信号的判决设备708。通常,判定设备708确定噪声是否超过预定值。判决反馈均衡器架构706还包括反馈滤波器b(D)。
对于无限长度无偏最小均方误差判决反馈均衡器(U-MMSE-DFE),可显示如下
假设正确的(基因辅助的)决策。S(f)表示(i)通道的傅立叶变换的平方大小与(ii)整个频带的噪声功率之比。给定S(f),簇感知碱基检出系统106可在限幅器处或使用限幅器来计算SINR,簇感知碱基检出系统106利用该限幅器来估计二进制信号的误码率。如前所述,簇感知碱基检出系统106可通过确定信号与干扰加噪声比(SINR)来生成信号质量的测量值。可以看出,该表达式与香农极限(Shannon Limit)相关
信道容量(C)表示数据信息率的理论最严格上限,该数据信息率可使用平均接收信号功率(S)通过受加性高斯白噪声影响的模拟通信信道以任意低的误差率进行通信。在真实世界的通信系统中,可通过组合强代码、高斯星座整形和预编码来接近香农极限。对于未编码的QPSK,误差传播是不可避免的,并且误差率的下限为:
其中户误差表示误差的传输功率。
在又一些实施方案中,簇感知碱基检出系统106利用第三种类型的接收器、最大似然序列估计器(MLSE)来确定簇特异性定相系数和簇特异性预定相系数。图7C示出了根据一个或多个实施方案的最大似然序列估计器架构710。MLSE是用MLSE估计代替均衡滤波器的非线性估计技术。通常,簇感知碱基检出系统106利用MLSE来测试所有可能的数据序列(而不是自行解码每个接收到的信号),并且选择具有最大概率的输出信号作为输出。MLSE使用维特比解码器712来确定所有可能传输序列的概率。如图7C所示,簇感知碱基检出系统106将输入信号x输入最大似然序列估计器架构710中以生成所调节的信号最大似然序列估计器架构710包括与簇特异性定相系数h对应的滤波器h(D)。信号x的加性噪声由n~CN(0,σ2)表示。
如图7C所示,误差率由匹配滤波器界限(MFB)限定如下:
其中SNR表示信噪比,并且户误差表示误差的传输功率。通常,SNR将所需信号的电平与背景噪声的电平进行比较。如图7C和对应的函数所示,簇感知碱基检出系统106利用帕塞瓦尔定理通过对时域中的响应求和来确定总信号功率。总信号功率可与频域中的总功率相同或相等。一旦簇感知碱基检出系统106确定SNR,簇感知碱基检出系统106就计算误差界限。在上面与图7C对应的函数中,状态的数目由N长度(h)-1给出,其中N是星座点的数目。对于具有不相关噪声的方形星座,可独立地处理两个SBS通道,从而减少状态的数目。
如上所述,除了图7A至图7C所示的接收器LE、DFE和MLSE之外,簇感知碱基检出系统106还可利用其他模型。更具体地,簇感知碱基检出系统106可利用除了上面列出的那些之外的其他隐马尔可夫模型(Hidden Markov Model,HMM)。例如,在一些实施方案中,簇感知碱基检出系统106可利用前向-后向模型来生成最大后验概率(MAP)估计。前向-后向模型计算了在给定时间处的每种状态的后验最大路径概率。通常,前向-后向模型利用动态编程原理来计算在两次穿过中获得后验边缘分布所需的值。第一次穿过在时间上向前,而第一次穿过在时间上向后。
除了上面列出的模型之外,簇感知碱基检出系统106可利用机器学习模型来确定簇特异性定相系数和簇特异性预定相系数。通常,簇感知碱基检出系统106可使用机器学习模型来估计簇特异性定相系数和簇特异性预定相系数,调节所得信号,或直接调节核苷酸碱基检出。为了说明,在一些实施方案中,簇感知碱基检出系统106利用基于卷积层的序列到序列机器学习模型。附加地或另选地,簇感知碱基检出系统106可利用递归神经网络(RNN)诸如长短期记忆(LSTM)来估计簇特异性定相系数和簇特异性预定相系数。在又一些实施方案中,簇感知碱基检出系统106利用注意力模型。
图7A至图7C示出了根据一个或多个实施方案的由簇感知碱基检出系统106利用的用于确定簇特异性定相校正的不同接收器。图8A至图8B示出了根据一个或多个实施方案的由利用实时LE和缓冲MLSE的簇感知碱基检出系统106产生的技术改进。具体地,图8A示出了与无校正、实时LE和缓冲MLSE相对应的示例性读段堆积。图8B示出了一种簇,该簇展示了来自簇特异性定相校正的二级测序度量的大增益。
如所提及的,图8A示出了与无校正、实时LE和缓冲MLSE相对应的三个读段堆积。具体地,图8A示出了未校正的读段堆积802、具有来自通过实时线性均衡器使用簇特异性定相校正调节的信号的核苷酸碱基检出的读段堆积804,以及具有来自通过缓冲MLSE使用簇特异性定相校正调节的信号的核苷酸碱基检出的读段堆积806。未校正的读段堆积802类似于图2A中所示的读段堆积200。具体地,未校正的读段堆积802反映了在误差诱导序列之后碱基检出的准确度降低。为了说明,在图8A中,未校正误差类型计数器808指示围绕误差诱导序列的碱基检出误差的发生率增加。
图8A还示出了通过使用实时线性均衡器,簇感知碱基检出系统106降低了碱基检出误差的发生率。具体地,具有来自通过实时线性均衡器使用簇特异性定相校正调节的信号的核苷酸碱基检出的读段堆积804指示比未校正的读段堆积802更少的碱基检出误差,即使围绕误差诱导序列也是如此。例如,当与未校正误差类型计数器808相比时,线性均衡器误差类型计数器810包括更少和更短的条。如图8A所示,通过使用实时LE来确定簇特异性定相校正,簇感知碱基检出系统106准确地确定在未校正的读段堆积802中显示为误差(或不正确的核苷酸碱基检出)的大约70%的核苷酸碱基检出。然而,仍然存在一些与误差诱导序列高度相关的碱基检出误差。例如,读段堆积804仍然包括紧邻误差诱导序列周围的碱基中的几个碱基检出误差。
如前所述,尽管通常计算效率较低,但簇感知碱基检出系统106可通过使用缓冲MLSE来改善核苷酸碱基检出的准确度,即使相对于使用实时线性均衡器也是如此。图8A进一步示出了具有缓冲MLSE误差类型计数器812的读段堆积器806。缓冲MLSE误差类型计数器812指示,通过使用缓冲MLSE来确定簇特异性定相校正,簇感知碱基检出系统106准确地确定在未校正的读段堆积802中显示为误差(或不正确的核苷酸碱基检出)的大约85%的核苷酸碱基检出。
虽然图8A示出了基于根据簇特异性定相校正而调节信号的核苷酸碱基检出准确度的改善,但图8B示出了根据一个或多个实施方案基于根据簇特异性定相校正而调节信号的二级测序度量的改善。具体地,图8B示出了由未校正的信号和通过利用LE的簇特异性定相校正而校正的信号产生的各种二级测序度量的比较。例如,图8B示出了与未校正的强度对应的二级测序度量。具体地,图8B包括未校正的图814、未校正的强度分布818、未校正的SNR图820和未校正的质量分数图824。图8B还示出了来自通过利用LE的簇特异性定相校正而调节的信号的二级测序度量。具体地,图8B包括所调节的图816、所调节的强度分布826、所调节的SNR图828和所调节的质量分数图830。
如图8B所示,LE的利用使得簇感知碱基检出系统106能够产生核苷酸碱基检出的信号,这些信号具有比先前的测序系统更好的强度值边界纯度。具体地,图8B包括包含未校正的强度值边界832的未校正的图814和包含所调节的强度值边界834的所调节的图816。如前所述,强度值边界与每个可能的核苷酸碱基(例如,A、T、C或G)对应。如图8B所示,簇感知碱基检出系统106生成核苷酸碱基检出的信号,这些信号相对于所调节的图816中的强度值边界比在未校正图814中的强度值边界具有更好的纯度值。如图8B所示,所调节的图816示出了具有未通过纯度滤波器的值的较少调节的信号。具体地,作为调节信号以考虑定相和预定相的结果,簇感知碱基检出系统106减少了具有未通过纯度滤波器的值的信号的数量。相反,未校正的图814指示具有未通过纯度滤波器的值的噪声或信号的较高发生率,因为位于未校正的强度值边界832之外的三角形在数量上超过所调节的图816中的所调节的强度值边界834之外的三角形。
图8B中的未校正的强度分布818和所调节的强度分布826示出了簇感知碱基检出系统106如何通过基于簇特异性定相校正来调节信号从而使信号强度清晰。通常,强度分布转换两个强度通道以将它们叠加在一个轴上。理想地,来自两个通道的信号应当具有良好的分离,这指示信号的清晰度。如图8B所示,未校正的强度分布818指示误差诱导序列之后的信号强度是混乱的。相反,所调节的强度分布826示出了即使在误差诱导序列之后也能更清晰地描绘信号。
如图8B中进一步所示,簇感知碱基检出系统106还通过利用LE来确定用于调节信号的簇特异性定相校正,从而改善SNR度量。具体地,未校正的SNR图820指示紧接在读段位置150之后的误差诱导序列之后的SNR度量的显著下降。相反,所调节的SNR图828指示SNR度量的较小降低,即使在紧接在读段位置150之后的误差诱导序列之后也是如此。因此,通过利用LE,簇感知碱基检出系统106可改善SNR度量。
图8B还示出了基于利用LE来确定用于调节信号的簇特异性定相校正的误差诱导序列之后的循环中的质量分数的改善。如图所示,未校正的质量分数图824包括质量分数的显著下降。在一些实施方案中,簇感知碱基检出系统106测量Phred(Q30)质量分数。与在误差诱导序列之后的循环中示出偶然质量分数峰值的未校正的质量分数图824相比,所调节的质量分数图830始终示出在误差诱导序列之后的循环中具有偶然下降的较高质量分数。
图1至图8B、对应的文本和示例提供了簇感知碱基检出系统106的许多不同方法、系统、设备和非暂态计算机可读介质。除了前述内容之外,还可就包括用于实现特定结果的动作的流程图(诸如图9中所示的动作的流程图)而言描述一个或多个实施方案。附加地,本文所描述的动作可以重复或与彼此并行地执行或与相同或类似动作的不同实例并行地执行。
图9示出了用于基于簇特异性定相校正来确定核苷酸碱基检出的一系列动作900的流程图。虽然图9示出了根据一个实施方案的动作,但替代实施方案可省略、添加、重新排序和/或修改图9中所示的任何动作。图9的动作可作为方法的一部分来执行。另选地,非暂态计算机可读介质可包括当由一个或多个处理器执行时导致计算设备执行图9的动作的指令。在一些实施方案中,系统可执行图9的动作。
在一个或多个实施方案中,一系列动作900在一个或多个计算设备(诸如图10中所示的计算设备)上实施。另外,在一些实施方案中,一系列动作900在用于核酸聚合物测序的数字环境中实施。如图9所述,一系列动作900,包括识别误差诱导序列之后的读段位置的动作902、检测来自标记核苷酸碱基的信号的动作904、确定簇特异性定相校正的动作906、调节信号的动作908以及确定核苷酸碱基检出的动作910。
图9中所示的一系列动作900包括识别误差诱导序列之后的读段位置的动作902。具体地,动作902包括针对寡核苷酸簇识别一个或多个核苷酸片段读段内的误差诱导序列之后的读段位置。在一个或多个实施方案中,误差诱导序列包括一个或多个重复核苷酸碱基的序列或序列基序。此外,在一些实施方案中,一个或多个重复核苷酸碱基的序列或序列基序包括相同核苷酸碱基的均聚物、近均聚物、鸟嘌呤四链体、可变数目串联重复(VNTR)、二核苷酸重复序列、三核苷酸重复序列、反向重复序列、小卫星序列、微卫星序列或回文序列。在一个或多个实施方案中,误差诱导序列包括一个或多个重复核苷酸碱基的序列或方向特异性序列基序。
图9还示出了检测来自标记核苷酸碱基的信号的动作904。具体地,动作904包括在与读段位置对应的循环期间检测来自寡核苷酸簇内的标记核苷酸碱基的信号。
图9中示出的一系列动作900还包括确定簇特异性定相校正的动作906。具体地,动作906包括针对寡核苷酸簇确定簇特异性定相校正,以针对估计定相和估计预定相校正信号。在一些实施方案中,动作906包括针对寡核苷酸簇确定与前一循环的核苷酸碱基对应的簇特异性定相系数和与后一循环的核苷酸碱基对应的簇特异性预定相系数。在一些实施方案中,动作906包括针对寡核苷酸簇确定簇特异性定相校正,以针对定相和预定相校正信号。在一个或多个实施方案中,确定簇特异性定相校正包括:针对寡核苷酸簇确定与紧接循环之前的前一循环的核苷酸碱基对应的簇特异性定相系数和与紧接循环之后的后一循环的核苷酸碱基对应的簇特异性预定相系数;以及基于簇特异性定相系数和簇特异性预定相系数,确定簇特异性定相校正。
在一些实施方案中,动作906还包括通过以下步骤来确定簇特异性定相校正:针对寡核苷酸簇确定与前一循环的核苷酸碱基对应的簇特异性定相系数和与后一循环的核苷酸碱基对应的簇特异性预定相系数;以及基于簇特异性定相系数和簇特异性预定相系数,确定簇特异性定相校正。此外,在一些实施方案中,动作906还包括通过以下步骤基于簇特异性定相系数和簇特异性预定相系数来确定簇特异性定相校正:基于簇特异性定相系数生成估计前一循环的核苷酸碱基的定相影响的前一循环权重;基于簇特异性预定相系数,生成估计后一循环的核苷酸碱基的预定相影响的后一循环权重;基于簇特异性定相系数和簇特异性预定相系数,生成估计循环的定相影响和预定相影响的当前循环权重;以及基于前一循环权重、后一循环权重和当前循环权重来确定簇特异性定相校正。在一些情况下,还基于与前一循环对应的信号强度、与当前循环对应的信号强度和与后一循环对应的信号强度来确定簇特异性定相校正。
类似地,在一些实施方案中,动作906还包括通过以下步骤基于簇特异性定相系数和簇特异性预定相系数来调节信号:基于簇特异性定相系数生成估计前一循环的核苷酸碱基的定相影响的前一循环权重;基于簇特异性预定相系数,生成估计后一循环的核苷酸碱基的预定相影响的后一循环权重;基于簇特异性定相系数和簇特异性预定相系数,生成估计循环的定相影响和预定相影响的当前循环权重;基于前一循环权重、后一循环权重和当前循环权重来确定簇特异性定相校正;以及对信号应用簇特异性定相校正。
此外,在一些实施方案中,动作906还包括通过以下步骤来确定簇特异性定相校正:针对寡核苷酸簇确定与一组先前循环的一组核苷酸碱基对应的一组簇特异性定相系数;针对寡核苷酸簇确定与一组后续循环的一组核苷酸碱基对应的一组簇特异性预定相系数;以及基于该组簇特异性定相系数和该组簇特异性预定相系数来确定簇特异性定相校正。在一些实施方案中,动作906还包括利用测序设备的处理器来确定簇特异性定相校正。
在一些实施方案中,动作906还包括在系统的测序机上利用线性均衡器、判决反馈均衡器、最大似然序列估计器、前向-后向模型或机器学习模型来确定簇特异性定相系数和簇特异性预定相系数。附加地,在一些实施方案中,动作906还包括在测序运行之后确定簇特异性定相系数和簇特异性预定相系数。
附加地,在一个或多个实施方案中,动作906还包括针对寡核苷酸簇确定与一组紧接循环之前的先前循环的一组核苷酸碱基对应的一组簇特异性定相系数;针对寡核苷酸簇确定与一组紧接循环之后的后续循环的一组核苷酸碱基对应的一组簇特异性预定相系数;以及基于该组簇特异性定相系数和该组簇特异性预定相系数来确定簇特异性定相校正。
如图9中所示,一系列动作900包括调节信号的动作908。具体地,动作908包括基于簇特异性定相校正来调节信号。在一些实施方案中,动作908包括基于簇特异性定相系数和簇特异性预定相系数来调节信号。附加地,在一些实施方案中,动作908还包括通过以下步骤来调节信号:针对寡核苷酸簇确定与另外的前一循环的另外的核苷酸碱基对应的另外的簇特异性定相系数;针对寡核苷酸簇确定与另外的后一循环的另外的核苷酸碱基对应的另外的簇特异性预定相系数;以及基于簇特异性定相系数、另外的簇特异性定相系数、簇特异性预定相系数和另外的簇特异性预定相系数来确定簇特异性定相校正。
一系列动作900还包括确定核苷酸碱基检出的动作910。具体地,动作910包括基于所调节的信号确定与寡核苷酸簇对应的读段位置的核苷酸碱基检出。
在一个或多个实施方案中,一系列动作900包括以下另外的动作:针对一组寡核苷酸簇确定多簇定相校正,以针对估计定相和估计预定相校正来自该组的簇的信号;以及基于簇特异性定相校正或多簇定相校正来调节信号。在一些实施方案中,一系列动作900包括以下另外的动作:针对一组寡核苷酸簇确定用于估计定相的多簇定相系数或用于估计预定相的多簇预定相系数中的一者或多者;以及基于多簇定相系数、簇特异性定相系数、多簇预定相系数或簇特异性预定相系数中的一者或多者来调节信号。在一些实施方案中,一系列动作900还包括以下动作:针对一组寡核苷酸簇确定多簇定相校正,以针对定相和预定相校正来自该组的簇的信号;以及基于簇特异性定相校正和多簇定相校正二者来调节信号。
在一个或多个实施方案中,一系列动作900包括以下另外的动作:针对寡核苷酸簇和后一读段位置确定不同的簇特异性定相校正,以校正来自寡核苷酸簇的用于后一循环的信号,从而对用于后一循环的信号进行定相和预定相。
在一些实施方案中,图9中示出的一系列动作900包括以下另外的动作:针对另外的寡核苷酸簇,识别在不同的核苷酸片段读段内的误差诱导序列之前的不同读段位置;在与不同读段位置对应的循环期间检测来自另外的寡核苷酸簇内的标记核苷酸碱基的另外的信号;以及基于多簇定相校正来调节另外的信号,而无需针对另外的寡核苷酸簇进行簇特异性定相校正。
本文所述的方法可与多种核酸测序技术结合使用。特别适用的技术是其中核酸附接到阵列中的固定位置处使得其相对位置不改变并且其中该阵列被重复成像的那些技术。在不同颜色通道(例如,与用于将一种核苷酸碱基类型与另一种核苷酸碱基类型区分开的不同标记吻合)中获得图像的实施方案特别适用。在一些实施方案中,确定靶核酸(即,核酸聚合物)的核苷酸序列的过程可以是自动化过程。优选的实施方案包括边合成边测序(SBS)技术。
SBS技术通常包括通过针对模板链反复加入核苷酸进行的新生核酸链的酶促延伸。在传统的SBS方法中,可在每次递送中在存在聚合酶的情况下将单个核苷酸单体提供给靶核苷酸。然而,在本文所述的方法中,可在递送中存在聚合酶的情况下向靶核酸提供多于一种类型的核苷酸单体。
下文描述的SBS技术可利用单端测序或双端测序。在单端测序中,测序设备从一端到另一端读取片段以生成碱基对的序列。相反,在双端测序期间,测序设备开始于一次读取,在相同方向中完成特定读长的读取,并且从片段的相对端开始另一次读取。
SBS可利用具有终止子部分的核苷酸单体或缺少任何终止子部分的核苷酸单体。使用缺少终止子的核苷酸单体的方法包括例如焦磷酸测序和使用γ-磷酸标记的核苷酸的测序,如下文进一步详细描述的。在使用缺少终止子的核苷酸单体的方法中,在每个循环中加入的核苷酸的数目通常是可变的,并且该数目取决于模板序列和核苷酸递送的方式。对于利用具有终止子部分的核苷酸单体的SBS技术,终止子在使用的测序条件下可为有效不可逆的,如利用双脱氧核苷酸的传统桑格测序的情况,或者终止子可为可逆的,如由Solexa(现为Illumina,Inc.)开发的测序方法的情况。
SBS技术可利用具有标记部分的核苷酸单体或缺少标记部分的核苷酸单体。因此,可基于以下项来检测掺入事件:标记的特性,诸如标记的荧光;核苷酸单体的特性,诸如分子量或电荷;掺入核苷酸的副产物,诸如焦磷酸盐的释放;等等。在测序试剂中存在两种或更多种不同的核苷酸的实施方案中,不同的核苷酸可以是彼此可区分的,或者另选地,两种或更多种不同的标记在所使用的检测技术下可以是不可区分的。例如,测序试剂中存在的不同核苷酸可具有不同的标记,并且它们可使用适当的光学器件进行区分,如由Solexa(现为Illumina,Inc.)开发的测序方法所例示。
优选的实施方案包括焦磷酸测序技术。焦磷酸测序检测当将特定的核苷酸掺入新生链中时无机焦磷酸盐(PPi)的释放(Ronaghi,M.、Karamohamed,S.、Pettersson,B.、Uhlen,M.和Nyren,P.(1996年),“Real-time DNA sequencing using detection ofpyrophosphate release.”,Analytical Biochemistry 242(1),84-9;Ronaghi,M.(2001)“Pyrosequencing sheds light on DNA sequencing.”Genome Res.,11(1),3-11;Ronaghi,M.,Uhlen,M.and Nyren,P.(1998)“A sequencing method based on real-timepyrophosphate.”Science 281(5375),363;美国专利号6,210,891;美国专利号6,258,568和美国专利号6,274,320,这些文献的公开内容全文以引用方式并入本文)。在焦磷酸测序中,释放的PPi可通过被腺苷三磷酸(ATP)硫酸化酶立即转化为ATP成来进行检测,并且通过荧光素酶产生的光子来检测所产生的ATP水平。待测序的核酸可附接到阵列中的特征部,并且可对阵列进行成像以捕获由于在阵列的特征部处掺入核苷酸而产生的化学发光信号。可在用特定核苷酸类型(例如,A、T、C或G)处理阵列后获得图像。在添加每种核苷酸类型后获得的图像将在阵列中哪些特征部被检测到方面不同。图像中的这些差异反映阵列上的特征部的不同序列内容。然而,每个特征部的相对位置将在图像中保持不变。可使用本文所述的方法存储、处理和分析图像。例如,在用每种不同核苷酸类型处理阵列后获得的图像可以与本文针对从用于基于可逆终止子的测序方法的不同检测通道获得的图像所例示的相同方式进行处理。
在另一种示例性类型的SBS中,通过逐步添加可逆终止子核苷酸来完成循环测序,这些可逆终止子核苷酸包含例如可裂解或可光漂白的染料标记,如例如WO 04/018497和美国专利号7,057,026所述,这两份专利的公开内容以引用方式并入本文。该方法由Solexa(现为Illumina Inc.)商业化,并且还在WO 91/06678和WO 07/123,744中有所描述,这些文献中的每一者的公开内容以引用方式并入本文。荧光标记终止子(其中终止可以是可逆的并且荧光标记可被切割)的可用性有利于高效的循环可逆终止(CRT)测序。聚合酶也可共工程化以有效地掺入这些经修饰的核苷酸并从这些经修饰的核苷酸延伸。
优选地,在基于可逆终止子的测序实施方案中,标记在SBS反应条件下基本上不抑制延伸。然而,检测标记可以是可移除的,例如通过裂解或降解移除。可在将标记掺入到阵列化核酸特征部中后捕获图像。在特定实施方案中,每个循环涉及将四种不同的核苷酸类型同时递送到阵列,并且每种核苷酸类型具有在光谱上不同的标记。然后可获得四个图像,每个图像使用对四个不同标记中的一个标记具有选择性的检测通道。另选地,可顺序地添加不同的核苷酸类型,并且可在每个添加步骤之间获得阵列的图像。在此类实施方案中,每个图像将示出已掺入特定类型的核苷酸的核酸特征部。由于每个特征部的不同序列内容,不同特征部将存在于或不存在于不同图像中。然而,特征部的相对位置将在图像中保持不变。通过此类可逆终止子-SBS方法获得的图像可如本文所述进行存储、处理和分析。在图像捕获步骤后,可移除标记并且可移除可逆终止子部分以用于核苷酸添加和检测的后续循环。已在特定循环中以及在后续循环之前检测到标记之后移除这些标记可提供减少循环之间的背景信号和串扰的优点。可用的标记和去除方法的示例在下文进行阐述。
在特定实施方案中,一些或所有核苷酸单体可包括可逆终止子。在此类实施方案中,可逆终止子/可裂解荧光团可包括经由3′酯键连接到核糖部分的荧光团(Metzker,Genome Res.15:1767-1776(2005年),该文献以引用方式并入本文)。其他方法已将终止子化学与荧光标记的裂解分开(Ruparel等人,Proc Natl Acad Sci USA 102:5932-7(2005年),该文献全文以引用方式并入本文)。Ruparel等人描述了可逆终止子的发展,这些可逆终止子使用小的3′烯丙基基团来阻断延伸,但是可通过用钯催化剂进行的短时间处理来容易地去阻断。荧光团经由可光裂解的接头附接到碱基,该可光裂解的接头可通过暴露于长波长紫外光30秒来容易地裂解。因此,二硫化物还原或光裂解可用作可裂解的接头。可逆终止的另一种方法是使用天然终止,该天然终止在将大体积染料放置在dNTP上之后接着发生。dNTP上存在带电大体积染料可通过空间位阻和/或静电位阻而充当高效的终止子。除非染料被移除,否则一个掺入事件的存在防止进一步的掺入。染料的裂解移除荧光团并有效地逆转终止。修饰的核苷酸的示例还描述于美国专利号7,427,673和美国专利号7,057,026中,其公开内容全文以引用方式并入本文。
可与本文所述的方法和系统一起利用的附加的示例性SBS系统和方法描述于美国专利申请公布号2007/0166705、美国专利申请公布号2006/0188901、美国专利号7,057,026、美国专利申请公布号2006/0240439、美国专利申请公布号2006/0281109、PCT公布号WO05/065814、美国专利申请公布号2005/0100900、PCT公布号WO 06/064199、PCT公布号WO07/010,251、美国专利申请公布号2012/0270305和美国专利申请公布号2013/0260372中,这些文献的公开内容全文以引用方式并入本文。
一些实施方案可使用少于四种不同标记来使用对四种不同核苷酸的检测。例如,可以利用并入的美国专利申请公布号2013/0079232的材料中所述的方法和系统来执行SBS。作为第一个示例,一对核苷酸类型可在相同波长下检测,但基于对中的一个成员相对于另一个成员的强度差异,或基于对中的一个成员的导致与检测到的该对的另一个成员的信号相比明显的信号出现或消失的变化(例如,通过化学改性、光化学改性或物理改性)来区分。作为第二个示例,四种不同核苷酸类型中的三种能够在特定条件下被检测到,而第四种核苷酸类型缺少在那些条件下可被检测到或在那些条件下被最低限度地检测到的标记(例如,由于背景荧光而导致的最低限度检测等)。可基于其相应信号的存在来确定前三种核苷酸类型掺入到核酸中,并且可基于任何信号的不存在或对任何信号的最低限度检测来确定第四核苷酸类型掺入到核酸中。作为第三示例,一种核苷酸类型可包括在两个不同通道中检测到的标记,而其他核苷酸类型在不超过一个通道中被检测到。上述三种例示性构型不被认为是互相排斥的,并且可以各种组合进行使用。组合所有三个示例的示例性实施方案是基于荧光的SBS方法,该方法使用在第一通道中检测到的第一核苷酸类型(例如,具有当由第一激发波长激发时在第一通道中检测到的标记的dATP),在第二通道中检测到的第二核苷酸类型(例如,具有当由第二激发波长激发时在第二通道中检测到的标记的dCTP),在第一通道和第二通道两者中检测到的第三核苷酸类型(例如,具有当被第一激发波长和/或第二激发波长激发时在两个通道中检测到的至少一个标记的dTTP),以及缺少在任一通道中检测到或最低限度地检测到的标记的第四核苷酸类型(例如,不具有标记的dGTP)。
此外,如并入的美国专利申请公布号2013/0079232的材料中所述,可使用单个通道获得测序数据。在此类所谓的单染料测序方法中,标记第一核苷酸类型,但在生成第一图像之后移除标记,并且仅在生成第一图像之后标记第二核苷酸类型。第三核苷酸类型在第一图像和第二图像中都保留其标记,并且第四核苷酸类型在两个图像中均保持未标记。
一些实施方案可以利用边连接边测序技术。此类技术利用DNA连接酶掺入寡核苷酸并确定此类寡核苷酸的掺入。寡核苷酸通常具有与寡核苷酸杂交的序列中的特定核苷酸的同一性相关的不同标记。与其他SBS方法一样,可在用已标记的测序试剂处理核酸特征部的阵列后获得图像。每个图像将示出已掺入特定类型的标记的核酸特征部。由于每个特征部的不同序列内容,不同特征部将存在于或不存在于不同图像中,但特征部的相对位置将在图像中保持不变。通过基于连接的测序方法获得的图像可如本文所述进行存储、处理和分析。可以与本文所述的方法和系统一起使用的示例性SBS系统和方法在美国专利号6,969,488、美国专利号6,172,218和美国专利号6,306,597中有所描述,这些专利的公开内容全文以引用方式并入本文。
一些实施方案可以利用纳米孔测序(Deamer,D.W.和Akeson,M.“Nanopores andnucleic acids:prospects for ultrarapid sequencing.”Trends Biotechn01.18,147-151(2000);Deamer,D.and D.Branton,“Characterization of nucleic acids bynanopore analysis”.Acc.Chem.相对35:817-825(2002);Li,J.、M.Gershow、D.Stein、E.Brandin和J.A.Golovchenko,“DNA molecules and configurations in a solid-statenanopore microscope”,Nat.Mater.,2:611-615(2003),这些文献的公开内容全文以引用方式并入本文)。在此类实施方案中,目标核酸穿过纳米孔。纳米孔可为合成孔或生物膜蛋白,诸如α-溶血素。当目标核酸穿过纳米孔时,可以通过测量孔的电导率的波动来识别每个碱基对。(美国专利号7,001,792;Soni,G.V.和Meller,“A.Progress toward ultrafastDNA sequencing using solid-state nanopores.”Clin.Chem.53,1996-2001(2007);Healy,K.,“Nanopore-based single-molecule DNA analysis.”,Nanomed.,2,459-481(2007);Cockroft,S.L.、Chu,J.、Amorin,M.和Ghadiri,M.R.,“A single-moleculenanopore device detects DNA polymerase activity with single-nucleotideresolution.”,J.Am.Chem.Soc.130,818-820(2008),这些文献的公开内容全文以引用方式并入本文)。从纳米孔测序获得的数据可如本文所述进行存储、处理和分析。具体地,根据本文所述的光学图像和其他图像的示例性处理,可将数据如同图像那样进行处理。
一些实施方案可利用涉及DNA聚合酶活性的实时监测的方法。可以通过携带荧光团的聚合酶与γ-磷酸标记的核苷酸之间的荧光共振能量转移(FRET)相互作用来检测核苷酸掺入,如例如美国专利号7,329,492和美国专利号7,211,414中所述(这两份专利中的每一者以引用方式并入本文),或者可以用零模波导来检测核苷酸掺入,如例如美国专利号7,315,019中所述(该专利以引用方式并入本文),并且可以使用荧光核苷酸类似物和工程化聚合酶来检测核苷酸掺入,如例如美国专利号7,405,281和美国专利申请公布号2008/0108082中所述(这两份专利中的每一者以引用方式并入本文)。照明可限于表面栓系的聚合酶周围的仄升量级的体积,使得可在低背景下观察到荧光标记的核苷酸的掺入(Levene,M.J.等人,“Zero-mode waveguides for single-molecule analysis at highconcentrations.”,Science 299,682-686(2003);Lundquist,P.M.等人,“Parallelconfocal detection of single molecules in real time.”,Opt.Lett.33,1026-1028(2008);Korlach,J.等人,“Selective aluminum passivation for targetedimmobilization of single DNA polymerase molecules in zero-mode waveguide nanostructures.”,Proc.Natl.Acad.Sci.USA 105,1176-1181(2008),这些文献的公开内容全文以引用方式并入本文)。通过此类方法获得的图像可如本文所述进行存储、处理和分析。
一些SBS实施方案包括检测在核苷酸掺入延伸产物时释放的质子。例如,基于释放质子的检测的测序可使用可从Ion Torrent公司(Guilford,CT,Life Technologies子公司)商购获得的电检测器和相关技术或在US 2009/0026082 A1;US 2009/0127589 A1;US2010/0137143 A1;或US 2010/0282617 A1中所述的测序方法和系统,这些文献中的每一篇文献均以引用方式并入本文。本文阐述的使用动力学排阻来扩增靶核酸的方法可以容易地应用于用于检测质子的基板。更具体地,本文阐述的方法可以用于产生用于检测质子的扩增子克隆群体。
上述SBS方法可有利地以多种格式进行,使得同时操纵多个不同的目标核酸。在特定实施方案中,可在共同的反应容器中或在特定基板的表面上处理不同的目标核酸。这允许以多种方式方便地递送测序试剂、移除未反应的试剂和检测掺入事件。在使用表面结合的目标核酸的实施方案中,目标核酸可为阵列格式。在阵列格式中,目标核酸通常可以在空间上可区分的方式结合到表面。目标核酸可通过直接共价附着、附着到小珠或其他粒子或结合到附着到表面的聚合酶或其他分子来结合。阵列可包括在每个位点(也被称为特征部)处的目标核酸的单个拷贝,或者具有相同序列的多个拷贝可存在于每个位点或特征部处。多个拷贝可通过扩增方法(诸如,如下文进一步详细描述的桥式扩增或乳液PCR)产生。
本文所述的方法可使用具有处于多种密度中任一种密度的特征部的阵列,该多种密度包括例如至少约10个特征部/cm2、100个特征部/cm2、500个特征部/cm2、1,000个特征部/cm2、5,000个特征部/cm2、10,000个特征部/cm2、50,000个特征部/cm2、100,000个特征部/cm2、1,000,000个特征部/cm2、5,000,000个特征部/cm2或更高。
本文阐述的方法的优点是它们并行提供了对多个靶核酸的快速且有效检测。因此,本公开提供了能够使用本领域已知的技术(诸如上文所例示的那些)来制备和检测核酸的整合系统。因此,本公开的整合系统可以包括能够将扩增试剂和/或测序试剂递送到一个或多个固定DNA片段的流体部件,该系统包括诸如泵、阀、贮存器、流体管线等的部件。流通池在整合系统中可以被配置用于和/或用于检测靶核酸。示例性流通池在例如US 2010/0111768 A1和美国序列号13/273,666中有所描述,这两份专利中的每一者以引用方式并入本文。如针对流通池所例示的,整合系统的一个或多个流体部件可以用于扩增方法和检测方法。以核酸测序实施方案为例,整合系统的一个或多个流体部件可以用于本文阐述的扩增方法以及用于在测序方法(诸如上文例示的那些)中递送测序试剂。另选地,整合系统可包括单独的流体系统以执行扩增方法并执行检测方法。能够产生扩增核酸并且还确定核酸序列的整合测序系统的示例包括但不限于MiSeqTM平台(Illumina,Inc.,San Diego,CA)以及在美国序列号13/273,666中描述的设备,该专利以引用方式并入本文。
上述测序系统对由测序设备接收的样品中存在的核酸聚合物进行测序。如本文所定义,“样品”及其衍生物以其最广泛的意义使用,包括怀疑包含目标的任何标本、培养物等。在一些实施方案中,样品包括DNA、RNA、PNA、LNA、嵌合或杂交形式的核酸。样品可以包括含有一种或多种核酸的任何基于生物、临床、外科、农业、大气或水生动植物的标本。该术语还包括任何分离的核酸样品,诸如基因组DNA、新鲜冷冻或福尔马林固定石蜡包埋的核酸标本。还设想样品的来源可以是:单个个体、来自遗传相关成员的核酸样品的集合、来自遗传不相关成员的核酸样品、来自单个个体的(与之匹配的)核酸样品(诸如肿瘤样品和正常组织样品),或者来自含有两种不同形式的遗传物质(诸如从母体受试者获得的母体DNA和胎儿DNA)的单个来源的样品,或者在含有植物或动物DNA的样品中存在污染性细菌DNA。在一些实施方案中,核酸材料的来源可以包括从新生儿获得的核酸,例如通常用于新生儿筛检的核酸。
该核酸样品可以包括高分子量物质,诸如基因组DNA(gDNA)。该样品可以包括低分子量物质,诸如从FFPE样品或存档的DNA样品获得的核酸分子。在另一实施方案中,低分子量物质包括酶促片段化或机械片段化的DNA。该样品可以包含无细胞循环DNA。在一些实施方案中,该样品可以包括从活检组织、肿瘤、刮取物、拭子、血液、黏液、尿液、血浆、精液、毛发、激光捕获显微解剖、手术切除和其他临床或实验室获得的样品获得的核酸分子。在一些实施方案中,该样品可以是流行病学样品、农业样品、法医学样品或病原性样品。在一些实施方案中,该样品可包括从动物(诸如人类或哺乳动物来源)获得的核酸分子。在另一实施方案中,该样品可包括从非哺乳动物来源(诸如植物、细菌、病毒或真菌)获得的核酸分子。在一些实施方案中,核酸分子的来源可以是存档或灭绝的样品或物种。
另外,本文所公开的方法和组合物可以用于扩增具有低质量核酸分子的核酸样品,诸如来自法医学样品的降解的和/或片段化的基因组DNA。在一个实施方案中,法医学样品可包括从犯罪现场获得的核酸、从失踪人员DNA数据库获得的核酸、从与法医调查相关联的实验室获得的核酸,或者包括由执法机关、一种或多种军事服务或任何此类人员获得的法医学样品。核酸样品可以是经纯化的样品或含有粗DNA的溶胞产物,例如来源于口腔拭子、纸、织物或者其他可以用唾液、血液或其他体液浸渍的基材。因此,在一些实施方案中,该核酸样品可包含少量DNA(诸如基因组DNA),或者DNA的片段化部分。在一些实施方案中,靶序列可存在于一种或多种体液中,其中体液包括但不限于血液、痰、血浆、精液、尿液和血清。在一些实施方案中,靶序列可从受害者的毛发、皮肤、组织样品、尸体解剖或遗骸获得。在一些实施方案中,包含一种或多种靶序列的核酸可从死亡的动物或人获得。在一些实施方案中,靶序列可包括从非人类DNA(诸如微生物、植物或昆虫DNA)获得的核酸。在一些实施方案中,靶序列或扩增的靶序列导向人类身份识别的目的。在一些实施方案中,本公开整体涉及用于识别法医学样品的特性的方法。在一些实施方案中,本公开整体涉及使用本文所公开的一种或多种目标特异性引物或者用本文概述的引物设计标准设计的一种或多种目标特异性引物的人类身份识别方法。在一个实施方案中,含有至少一种靶序列的法医学样品或人类身份识别样品可以使用本文所公开的任何一种或多种目标特异性引物或者使用本文概述的引物标准进行扩增。
簇感知碱基检出系统106的部件可包括软件、硬件或两者。例如,簇感知碱基检出系统106的部件可包括存储在非暂态计算机可读存储介质上并且可由一个或多个计算设备(例如,用户客户端设备108)的处理器执行的一个或多个指令。当由一个或多个处理器执行时,簇感知碱基检出系统106的计算机可执行指令可使计算设备执行本文所描述的故障源识别方法。另选地,簇感知碱基检出系统106的部件可包括硬件,诸如专用处理设备用以执行某些功能或功能的组。附加地或另选地,簇感知碱基检出系统106的部件可包括计算机可执行指令和硬件的组合。
此外,执行本文所描述关于簇感知碱基检出系统106的功能的簇感知碱基检出系统106的部件可例如被实施作为独立应用程序的一部分、作为应用程序的模块、作为应用程序的插件、作为可以被其他应用程序检出的库函数或函数、和/或作为云计算模型。因此,簇感知碱基检出系统106的部件可被实施作为个人计算设备或移动设备上的独立应用程序的一部分。附加地或另选地,簇感知碱基检出系统106的部件可以实施在提供测序服务的任何应用中,包括但不限于Illumina BaseSpace、Illumina DRAGEN或Illumina TruSight软件。“Illumina”、“BaseSpace”、“DRAGEN”和“TruSight”是Illumina,Inc.公司在美国和/或其他国家的注册商标或商标。
如以下更详细讨论的,本公开的实施方案可以包括或利用包括计算机硬件(诸如例如一个或多个处理器和系统存储器)的专用或通用计算机。本公开范围内的实施方案还包括用于携带或存储计算机可执行指令和/或数据结构的物理和其他计算机可读介质。具体地,本文所述的过程中的一者或多者可以至少部分地实施为体现在非暂态计算机可读介质中并且可由一个或多个计算设备(例如,本文所述的介质内容访问设备中的任一者)执行的指令。一般来讲,处理器(例如,微处理器)从非暂态计算机可读介质(例如,存储器等)接收指令,并且执行那些指令,由此执行一个或多个过程,包含本文所述的过程中的一者或多者。
计算机可读介质可以是可由通用或专用计算机系统访问的任何可用介质。存储计算机可执行指令的计算机可读介质是非暂态计算机可读存储介质(设备)。携带计算机可执行指令的计算机可读介质是传输介质。因此,通过示例方式而非限制,本公开的实施方案可包括至少两种明显不同种类的计算机可读介质:非暂态计算机可读存储介质(设备)和传输介质。
非暂态计算机可读存储介质(设备)包括RAM、ROM、EEPROM、CD-ROM、固态驱动器(SSD)(例如,基于RAM)、快闪存储器、相变存储器(PCM)、其他类型的存储器、其他光盘存储装置、磁盘存储装置或其他磁存储设备,或可用于存储呈计算机可执行指令或数据结构形式的期望的程序代码手段并且其可由通用或专用计算机访问的任何其他介质。
“网络”定义为使得能够在计算机系统和/或模块和/或其他电子设备之间传输电子数据的一个或多个数据链路。当通过网络或另一通信连接(硬连线、无线或硬连线或无线的组合)向计算机转移或提供信息时,计算机适当地将该连接视为传输介质。传输介质可包括网络和/或数据链路,该网络和/或数据链路可用于携带呈计算机可执行指令或数据结构形式的期望的程序代码手段,并且其可由通用或专用计算机访问。上述的组合也应当被包括在计算机可读介质的范围内。
此外,在到达各种计算机系统部件后,呈计算机可执行指令或数据结构形式的程序代码手段可从传输介质自动转移到非暂态计算机可读存储介质(设备)(或反之亦然)。例如,通过网络或数据链路接收的计算机可执行指令或数据结构可被缓冲在网络接口模块(例如,NIC)内的RAM中,并且然后最终被转移到计算机系统RAM和/或到计算机系统处的较不易失的计算机存储介质(设备)。因此,应当理解,非暂态计算机可读存储介质(设备)可被包括在也(或甚至主要)利用传输介质的计算机系统部件中。
计算机可执行指令包括例如当在处理器处执行时使得通用计算机、专用计算机或专用处理设备执行某些功能或功能的组的指令和数据。在一些实施方案中,在通用计算机上执行计算机可执行指令以将通用计算机变成实施本公开的元素的专用计算机。计算机可执行指令可以是例如二进制数、诸如汇编语言的中间格式指令、或者甚至源代码。尽管已经以特定于结构特征和/或方法动作的语言描述了主题内容,但是应当理解,在所附权利要求中定义的主题内容不必限于所描述的特征部或动作。相反,所描述的特征部和动作是作为实施权利要求的示例性形式来公开的。
本领域中的技术人员将理解,本公开可以在具有许多类型的计算机系统配置的网络计算环境中实践,包括个人计算机、台式计算机、便携式电脑、消息处理器、手持式设备、多处理器系统、基于微处理器的或可编程消费电子产品、网络PC、小型计算机、大型计算机、移动电话、PDA、平板电脑、寻呼机、路由器、交换机等。本公开还可以在分布式系统环境中实践,其中通过网络链接(通过硬连线数据链路、无线数据链路或者通过硬连线和无线数据链路的组合)的本地和远程计算机系统两者都执行任务。在分布式系统环境中,程序模块可以位于本地和远程存储器存储设备两者中。
本公开的实施方案还可在云计算环境中实施。在本说明书中,“云计算”定义为用于实现对可配置计算资源的共享池的按需网络访问的模型。例如,可在市场中采用云计算以提供对可配置计算资源的共享池的无处不在并且便利的按需访问。可配置计算资源的共享池可经由虚拟化快速预置并且以低管理努力或服务提供者交互释放,并且然后因此扩展。
云计算模型可由各种特性组成,诸如例如按需自助服务、广泛网络访问、资源池化、快速弹性、可计量服务等。云计算模型还可展示各种服务模型,诸如例如软件即服务(SaaS)、平台即服务(PaaS)和基础设施即服务(IaaS)。云计算模型还可使用不同的部署模型来部署,诸如私有云、社区云、公共云、混合云等。在本说明书和在权利要求书中,“云计算环境”是在其中采用云计算的环境。
图10示出了可被配置为执行上述过程中的一者或多者的计算设备1000的方框图。人们将理解,一个或多个计算设备诸如计算设备1000可实施簇感知碱基检出系统106和测序系统104。如图10所示,计算设备1000可包括处理器1002、存储器1004、存储设备1006、I/O接口1008和通信接口1010,它们可以通过通信基础设施1012的方式通信地耦合。在某些实施方案中,计算设备1000可包括比图10中示出的部件更少或更多的部件。以下段落更详细地描述图10中所示的计算设备1000的部件。
在一个或多个实施方案中,处理器1002包括用于执行指令的硬件,诸如构成计算机程序的那些指令。作为示例,而非通过限制的方式,为了执行用于动态地修改工作流程的指令,处理器1002可以从内部寄存器、内部高速缓存、存储器1004或存储设备1006检索(或提取)指令,并且解码和执行它们。存储器1004可以是用于存储由处理器执行的数据、元数据和程序的易失性或非易失性存储器。存储设备1006包括用于存储用于执行本文所述的方法的数据或指令的存储装置,诸如硬盘、闪存盘驱动器或其他数字存储设备。
I/O接口1008允许用户向计算设备1000提供输入、从该计算设备接收输出,以及以其他方式向该计算设备转移数据和从该计算设备接收数据。I/O接口1008可以包括鼠标、小键盘或键盘、触摸屏、相机、光学扫描仪、网络接口、调制解调器、其他已知I/O设备或此类I/O接口的组合。I/O接口1008可以包括用于向用户呈现输出的一个或多个设备,包括但不限于图形引擎、显示器(例如,显示屏)、一个或多个输出驱动程序(例如,显示驱动程序)、一个或多个音频扬声器,以及一个或多个音频驱动程序。在某些实施方案中,I/O接口1008被配置为向显示器提供图形数据用于呈现给用户。图形数据可以表示一个或多个图形用户界面和/或可以服务于特定实施的任何其他图形内容。
通信接口1010可包括硬件、软件或两者。在任何情况下,通信接口1010可提供用于计算设备1000与一个或多个其他计算设备或网络之间的通信(诸如例如,基于分组的通信)的一个或多个接口。作为示例,而非通过限制的方式,通信接口1010可以包括用于与以太网或其他基于有线的网络通信的网络接口控制器(NIC)或网络适配器,或用于与无线网络(诸如WI-FI)通信的无线NIC(WNIC)或无线适配器。
附加地,通信接口1010可以促进与各种类型的有线或无线网络的通信。通信接口1010还可以促进使用各种通信协议的通信。通信基础设施1012还可以包括将计算设备1000的部件彼此耦合的硬件、软件或两者。例如,通信接口1010可以使用一个或多个网络和/或协议以使得由特定基础设施连接的多个计算设备能够与彼此通信以执行本文所述的过程的一个或多个方面。为了说明,测序过程可允许多个设备(例如,客户端设备、测序设备和服务器设备)交换诸如测序数据和误差通知的信息。
在前述说明书中,本公开已经参考其特定示例性实施方案进行描述。参考本文所讨论的细节描述了本公开的各种实施方案和方面,并且附图说明各种实施方案。上面的描述和图是对本公开的说明,并且不应被解释为限制本公开。描述了许多特定细节以提供对本公开的各种实施方案的透彻理解。
本公开可以以其它特定形式体现而不脱离其精神或本质特征。所述实施方案在所有方面都应被视为仅为示例性的而非限制性的。例如,本文所描述的方法可以用更少或更多的步骤/动作执行,或者步骤/动作可以以不同的顺序执行。附加地,本文所描述的步骤/动作可以重复或与彼此并行地执行或与相同或类似步骤/动作的不同实例并行地执行。因此,本申请的范围由所附权利要求书而非前述描述来指示。在权利要求的等效含义和范围内的所有改变都将包含在其范围内。

Claims (22)

1.一种包括指令的非暂态计算机可读存储介质,所述指令当由至少一个处理器执行时使得计算设备:
针对寡核苷酸簇识别一个或多个核苷酸片段读段内的误差诱导序列之后的读段位置;
在与所述读段位置对应的循环期间检测来自所述寡核苷酸簇内的标记核苷酸碱基的信号;
针对所述寡核苷酸簇确定簇特异性定相校正,以针对估计定相和估计预定相校正所述信号;
基于所述簇特异性定相校正来调节所述信号;以及
基于所调节的信号确定与所述寡核苷酸簇对应的所述读段位置的核苷酸碱基检出。
2.根据权利要求1所述的非暂态计算机可读存储介质,其中所述误差诱导序列包括一个或多个重复核苷酸碱基的序列、序列基序或由序列识别模型识别的触发序列。
3.根据权利要求2所述的非暂态计算机可读存储介质,其中一个或多个重复核苷酸碱基的所述序列或所述序列基序包括相同核苷酸碱基的均聚物、近均聚物、鸟嘌呤四链体、可变数目串联重复(VNTR)、二核苷酸重复序列、三核苷酸重复序列、反向重复序列、小卫星序列、微卫星序列或回文序列。
4.根据权利要求1所述的非暂态计算机可读存储介质,所述非暂态计算机可读存储介质还包括指令,所述指令当由所述至少一个处理器执行时使得所述计算设备通过如下方式确定所述簇特异性定相校正:
针对所述寡核苷酸簇确定与前一循环的核苷酸碱基对应的簇特异性定相系数和与后一循环的核苷酸碱基对应的簇特异性预定相系数;以及
基于所述簇特异性定相系数和所述簇特异性预定相系数来确定所述簇特异性定相校正。
5.根据权利要求4所述的非暂态计算机可读存储介质,所述非暂态计算机可读存储介质还包括指令,所述指令当由所述至少一个处理器执行时使得所述计算设备通过如下方式基于所述簇特异性定相系数和所述簇特异性预定相系数来确定所述簇特异性定相校正:
基于所述簇特异性定相系数,生成估计所述前一循环的所述核苷酸碱基的定相影响的前一循环权重;
基于所述簇特异性预定相系数,生成估计所述后一循环的所述核苷酸碱基的预定相影响的后一循环权重;
基于所述簇特异性定相系数和所述簇特异性预定相系数,生成估计所述循环的所述定相影响和所述预定相影响的当前循环权重;以及
基于所述前一循环权重、所述后一循环权重和所述当前循环权重来确定所述簇特异性定相校正。
6.根据权利要求5所述的非暂态计算机可读存储介质,所述非暂态计算机可读存储介质还包括指令,所述指令当由所述至少一个处理器执行时使得所述计算设备进一步基于与所述前一循环对应的信号强度、与所述循环对应的信号强度以及与所述后一循环对应的信号强度来确定所述簇特异性定相校正。
7.根据权利要求1所述的非暂态计算机可读存储介质,所述非暂态计算机可读存储介质还包括指令,所述指令当由所述至少一个处理器执行时使得所述计算设备通过如下方式确定所述簇特异性定相校正:
针对所述寡核苷酸簇确定与一组先前循环的一组核苷酸碱基对应的一组簇特异性定相系数;
针对所述寡核苷酸簇确定与一组后续循环的一组核苷酸碱基对应的一组簇特异性预定相系数;以及
基于所述组簇特异性定相系数和所述组簇特异性预定相系数来确定所述簇特异性定相校正。
8.根据权利要求1所述的非暂态计算机可读存储介质,所述非暂态计算机可读存储介质还包括指令,所述指令当由所述至少一个处理器执行时使得所述计算设备:
针对一组寡核苷酸簇确定多簇定相校正,以针对估计定相和估计预定相校正来自所述组的簇的信号;以及
基于所述簇特异性定相校正或所述多簇定相校正来调节所述信号。
9.根据权利要求1所述的非暂态计算机可读存储介质,所述非暂态计算机可读存储介质还包括指令,所述指令当由所述至少一个处理器执行时使得所述计算设备针对所述寡核苷酸簇和随后的读段位置确定不同的簇特异性定相校正,以校正来自所述寡核苷酸簇的用于后一循环的信号,从而对用于所述后一循环的所述信号进行定相和预定相。
10.根据权利要求1所述的非暂态计算机可读存储介质,所述非暂态计算机可读存储介质还包括指令,所述指令当由所述至少一个处理器执行时使得所述计算设备:
针对另外的寡核苷酸簇,识别在不同的核苷酸片段读段内的所述误差诱导序列之前的不同读段位置;
在与所述不同读段位置对应的循环期间检测来自所述另外的寡核苷酸簇内的标记核苷酸碱基的另外的信号;以及
基于多簇定相校正来调节所述另外的信号,而无需针对所述另外的寡核苷酸簇进行簇特异性定相校正。
11.根据权利要求1所述的非暂态计算机可读存储介质,所述非暂态计算机可读存储介质还包括指令,所述指令当由所述至少一个处理器执行时使得所述计算设备利用测序设备的处理器确定所述簇特异性定相校正。
12.一种系统,所述系统包括:
至少一个处理器;以及
包括指令的非暂态计算机可读介质,所述指令当由所述至少一个处理器执行时使得所述系统:
针对寡核苷酸簇识别一个或多个核苷酸片段读段内的误差诱导序列之后的读段位置;
在与所述读段位置对应的循环期间检测来自所述寡核苷酸簇内的标记核苷酸碱基的信号;
针对所述寡核苷酸簇确定与前一循环的核苷酸碱基对应的簇特异性定相系数和与后一循环的核苷酸碱基对应的簇特异性预定相系数;
基于所述簇特异性定相系数和所述簇特异性预定相系数来调节所述信号;以及
基于所调节的信号确定与所述寡核苷酸簇对应的所述读段位置的核苷酸碱基检出。
13.根据权利要求12所述的系统,所述系统还包括指令,所述指令当由所述至少一个处理器执行时使得所述系统在所述系统的测序机上利用线性均衡器、判决反馈均衡器、最大似然序列估计器、前向-后向模型或机器学习模型来确定所述簇特异性定相系数和所述簇特异性预定相系数。
14.根据权利要求12所述的系统,所述系统还包括指令,所述指令当由所述至少一个处理器执行时,使得所述系统在测序运行之后确定所述簇特异性定相系数和所述簇特异性预定相系数。
15.根据权利要求12所述的系统,所述系统还包括指令,所述指令当由所述至少一个处理器执行时使得所述系统:
针对一组寡核苷酸簇确定用于估计定相的多簇定相系数或用于估计预定相的多簇预定相系数中的一者或多者;以及
基于所述多簇定相系数、所述簇特异性定相系数、所述多簇预定相系数或所述簇特异性预定相系数中的一者或多者来调节所述信号。
16.根据权利要求12所述的系统,所述系统还包括指令,所述指令当由所述至少一个处理器执行时使得所述系统通过如下方式来调节所述信号:
针对所述寡核苷酸簇确定与另外的前一循环的另外的核苷酸碱基对应的另外的簇特异性定相系数;
针对所述寡核苷酸簇确定与另外的后一循环的另外的核苷酸碱基对应的另外的簇特异性预定相系数;以及
基于所述簇特异性定相系数、所述另外的簇特异性定相系数、所述簇特异性预定相系数和所述另外的簇特异性预定相系数来确定簇特异性定相校正。
17.根据权利要求12所述的系统,所述系统还包括指令,所述指令当由所述至少一个处理器执行时,使得所述系统基于所述簇特异性定相系数和所述簇特异性预定相系数通过以下方式来调节所述信号:
基于所述簇特异性定相系数,生成估计所述前一循环的所述核苷酸碱基的定相影响的前一循环权重;
基于所述簇特异性预定相系数,生成估计所述后一循环的所述核苷酸碱基的预定相影响的后一循环权重;
基于所述簇特异性定相系数和所述簇特异性预定相系数,生成估计所述循环的所述定相影响和所述预定相影响的当前循环权重;
基于所述前一循环权重、所述后一循环权重和所述当前循环权重来确定簇特异性定相校正;以及
将所述簇特异性定相校正应用于所述信号。
18.一种计算机实现的方法,所述方法包括:
针对寡核苷酸簇识别一个或多个核苷酸片段读段内的误差诱导序列之后的读段位置;
在与所述读段位置对应的循环期间检测来自所述寡核苷酸簇内的标记核苷酸碱基的信号;
针对所述寡核苷酸簇确定簇特异性定相校正,以针对定相和预定相校正所述信号;
基于所述簇特异性定相校正来调节所述信号;以及
基于所调节的信号确定与所述寡核苷酸簇对应的所述读段位置的核苷酸碱基检出。
19.根据权利要求18所述的计算机实现的方法,其中所述误差诱导序列包括一个或多个重复核苷酸碱基的序列或方向特异性序列基序。
20.根据权利要求18所述的计算机实现的方法,其中确定所述簇特异性定相校正包括:
针对所述寡核苷酸簇确定与紧接所述循环之前的前一循环的核苷酸碱基对应的簇特异性定相系数和与紧接所述循环之后的后一循环的核苷酸碱基对应的簇特异性预定相系数;以及
基于所述簇特异性定相系数和所述簇特异性预定相系数来确定所述簇特异性定相校正。
21.根据权利要求18所述的计算机实现的方法,其中确定所述簇特异性定相校正包括:
针对所述寡核苷酸簇确定与一组紧接所述循环之前的先前循环的一组核苷酸碱基对应的一组簇特异性定相系数;
针对所述寡核苷酸簇确定与一组紧接所述循环之后的后续循环的一组核苷酸碱基对应的一组簇特异性预定相系数;以及
基于所述组簇特异性定相系数和所述组簇特异性预定相系数来确定所述簇特异性定相校正。
22.根据权利要求18所述的计算机实现的方法,所述方法还包括:
针对一组寡核苷酸簇确定多簇定相校正,以针对定相和预定相校正来自所述组的簇的信号;以及
基于所述簇特异性定相校正和所述多簇定相校正二者来调节所述信号。
CN202280043784.9A 2021-12-02 2022-11-28 产生用于确定核苷酸碱基检出的簇特异性信号校正 Pending CN117581303A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202163285187P 2021-12-02 2021-12-02
US63/285187 2021-12-02
PCT/US2022/080512 WO2023102354A1 (en) 2021-12-02 2022-11-28 Generating cluster-specific-signal corrections for determining nucleotide-base calls

Publications (1)

Publication Number Publication Date
CN117581303A true CN117581303A (zh) 2024-02-20

Family

ID=84688336

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280043784.9A Pending CN117581303A (zh) 2021-12-02 2022-11-28 产生用于确定核苷酸碱基检出的簇特异性信号校正

Country Status (6)

Country Link
US (1) US20230343415A1 (zh)
EP (1) EP4441743A1 (zh)
JP (1) JP2024543762A (zh)
KR (1) KR20240116364A (zh)
CN (1) CN117581303A (zh)
WO (1) WO2023102354A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20250210137A1 (en) * 2023-12-20 2025-06-26 Illumina, Inc. Directly determining signal-to-noise-ratio metrics for accelerated convergence in determining nucleotide-base calls and base-call quality
WO2025174774A1 (en) * 2024-02-12 2025-08-21 Illumina, Inc. Determining offline corrections for sequence specific errors caused by low complexity nucleotide sequences

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0450060A1 (en) 1989-10-26 1991-10-09 Sri International Dna sequencing
US5846719A (en) 1994-10-13 1998-12-08 Lynx Therapeutics, Inc. Oligonucleotide tags for sorting and identification
US5750341A (en) 1995-04-17 1998-05-12 Lynx Therapeutics, Inc. DNA sequencing by parallel oligonucleotide extensions
GB9620209D0 (en) 1996-09-27 1996-11-13 Cemu Bioteknik Ab Method of sequencing DNA
GB9626815D0 (en) 1996-12-23 1997-02-12 Cemu Bioteknik Ab Method of sequencing DNA
JP2002503954A (ja) 1997-04-01 2002-02-05 グラクソ、グループ、リミテッド 核酸増幅法
US6969488B2 (en) 1998-05-22 2005-11-29 Solexa, Inc. System and apparatus for sequential processing of analytes
US6274320B1 (en) 1999-09-16 2001-08-14 Curagen Corporation Method of sequencing a nucleic acid
US7001792B2 (en) 2000-04-24 2006-02-21 Eagle Research & Development, Llc Ultra-fast nucleic acid sequencing device and a method for making and using the same
CN101525660A (zh) 2000-07-07 2009-09-09 维西根生物技术公司 实时序列测定
EP1354064A2 (en) 2000-12-01 2003-10-22 Visigen Biotechnologies, Inc. Enzymatic nucleic acid synthesis: compositions and methods for altering monomer incorporation fidelity
US7057026B2 (en) 2001-12-04 2006-06-06 Solexa Limited Labelled nucleotides
EP3795577A1 (en) 2002-08-23 2021-03-24 Illumina Cambridge Limited Modified nucleotides
GB0321306D0 (en) 2003-09-11 2003-10-15 Solexa Ltd Modified polymerases for improved incorporation of nucleotide analogues
EP3175914A1 (en) 2004-01-07 2017-06-07 Illumina Cambridge Limited Improvements in or relating to molecular arrays
US7315019B2 (en) 2004-09-17 2008-01-01 Pacific Biosciences Of California, Inc. Arrays of optical confinements and uses thereof
EP1828412B2 (en) 2004-12-13 2019-01-09 Illumina Cambridge Limited Improved method of nucleotide detection
US8623628B2 (en) 2005-05-10 2014-01-07 Illumina, Inc. Polymerases
GB0514936D0 (en) 2005-07-20 2005-08-24 Solexa Ltd Preparation of templates for nucleic acid sequencing
US7405281B2 (en) 2005-09-29 2008-07-29 Pacific Biosciences Of California, Inc. Fluorescent nucleotide analogs and uses therefor
EP3722409A1 (en) 2006-03-31 2020-10-14 Illumina, Inc. Systems and devices for sequence by synthesis analysis
WO2008051530A2 (en) 2006-10-23 2008-05-02 Pacific Biosciences Of California, Inc. Polymerase enzymes and reagents for enhanced nucleic acid sequencing
EP4134667B1 (en) 2006-12-14 2025-11-12 Life Technologies Corporation Apparatus for measuring analytes using fet arrays
US8349167B2 (en) 2006-12-14 2013-01-08 Life Technologies Corporation Methods and apparatus for detecting molecular interactions using FET arrays
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
US20100137143A1 (en) 2008-10-22 2010-06-03 Ion Torrent Systems Incorporated Methods and apparatus for measuring analytes
US8951781B2 (en) 2011-01-10 2015-02-10 Illumina, Inc. Systems, methods, and apparatuses to image a sample for biological or chemical analysis
CA2859660C (en) 2011-09-23 2021-02-09 Illumina, Inc. Methods and compositions for nucleic acid sequencing
JP6159391B2 (ja) 2012-04-03 2017-07-05 イラミーナ インコーポレーテッド 核酸シークエンシングに有用な統合化した読取りヘッド及び流体カートリッジ
RS60736B1 (sr) * 2013-12-03 2020-09-30 Illumina Inc Postupci i sistemi za analizu podataka sa slika
US20230018469A1 (en) * 2021-07-19 2023-01-19 Illumina Software, Inc. Specialist signal profilers for base calling

Also Published As

Publication number Publication date
KR20240116364A (ko) 2024-07-29
US20230343415A1 (en) 2023-10-26
EP4441743A1 (en) 2024-10-09
WO2023102354A1 (en) 2023-06-08
JP2024543762A (ja) 2024-11-26

Similar Documents

Publication Publication Date Title
CN117581303A (zh) 产生用于确定核苷酸碱基检出的簇特异性信号校正
CN118974831A (zh) 用于细化结构变体检出的机器学习模型
CN117546246A (zh) 用于重新校准核苷酸碱基检出的机器学习模型
US20220415442A1 (en) Signal-to-noise-ratio metric for determining nucleotide-base calls and base-call quality
CN117043867B (zh) 用于检测用于测序的核苷酸样品玻片内的气泡的机器学习模型
JP2025534929A (ja) 機械学習アーキテクチャを利用した複数の配列決定パイプラインからの変異コールの統合
EP4457822A1 (en) Machine learning model for recalibrating nucleotide base calls corresponding to target variants
WO2025174774A1 (en) Determining offline corrections for sequence specific errors caused by low complexity nucleotide sequences
US20240266003A1 (en) Determining and removing inter-cluster light interference
US20250111899A1 (en) Predicting insert lengths using primary analysis metrics
US20250210137A1 (en) Directly determining signal-to-noise-ratio metrics for accelerated convergence in determining nucleotide-base calls and base-call quality
US20230313271A1 (en) Machine-learning models for detecting and adjusting values for nucleotide methylation levels
US20230410944A1 (en) Calibration sequences for nucelotide sequencing
US20230368866A1 (en) Adaptive neural network for nucelotide sequencing
US20230340571A1 (en) Machine-learning models for selecting oligonucleotide probes for array technologies
US20250111898A1 (en) Tracking and modifying cluster location on nucleotide-sample slides in real time
WO2025240924A1 (en) Blind equalization systems for base calling applications
WO2025250996A2 (en) Call generation and recalibration models for implementing personalized diploid reference haplotypes in genotype calling
WO2024206848A1 (en) Tandem repeat genotyping

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination