[go: up one dir, main page]

CN119096301A - 利用机器学习架构集成来自多个测序管道的变体检出 - Google Patents

利用机器学习架构集成来自多个测序管道的变体检出 Download PDF

Info

Publication number
CN119096301A
CN119096301A CN202380031344.6A CN202380031344A CN119096301A CN 119096301 A CN119096301 A CN 119096301A CN 202380031344 A CN202380031344 A CN 202380031344A CN 119096301 A CN119096301 A CN 119096301A
Authority
CN
China
Prior art keywords
genotype
detection
variant
nucleotide
sequencing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202380031344.6A
Other languages
English (en)
Inventor
G·D·帕纳比
S·哈希米杜拉比
A·L·哈尔彭
M·吕勒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inmair Ltd
Original Assignee
Inmair Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inmair Ltd filed Critical Inmair Ltd
Publication of CN119096301A publication Critical patent/CN119096301A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Data Mining & Analysis (AREA)
  • Genetics & Genomics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Organic Chemistry (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • General Physics & Mathematics (AREA)
  • Biochemistry (AREA)
  • Computing Systems (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Mathematical Physics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本公开描述了可从用于处理来自多个读段类型/源的核苷酸读段的组合管道生成基因型检出以实现稳健、准确的基因型检出的方法、非暂态计算机可读介质和系统。例如,所公开的系统可训练和/或利用基因型检出集成机器学习模型来基于与第一类型的核苷酸读段(例如,短读段)和第二类型的核苷酸读段(例如,长读段)相关联的数据生成针对基因型检出的预测。如所公开的,所公开的系统可确定测序度量并可利用基因型检出集成机器学习模型来生成用于基于测序度量生成输出基因型检出的预测(例如,基因型概率、变体检出分类)。所公开的系统可利用多个此类基因型检出集成机器学习模型来生成针对不同变体类型诸如SNP和插入缺失的基因型检出,其中基因型检出集成机器学习模型生成针对每个变体类型的不同预测。

Description

利用机器学习架构集成来自多个测序管道的变体检出
相关申请的交叉引用
本申请要求2023年1月30日提交的名称为“INTEGRATING VARIANT CALLS FROMMULTIPLE SEQUENCING PIPELINES UTILIZING A MACHINE LEARNING ARCHITECTURE”的美国临时申请号63/482,163和2022年10月5日提交的名称为“INTEGRATING VARIANT CALLSFROM MULTIPLE SEQUENCING PIPELINES UTILIZING A MACHINE LEARNING ARCHITECTURE”的美国临时申请号63/378,474的权益和优先权。上述申请据此全文以引用方式并入。
背景技术
近年来,生物技术公司和研究机构已改进用于对核苷酸进行测序并确定读段的核苷酸碱基检出、以及随后确定基因组样品的变体检出和基因型检出的硬件和软件。例如,一些现有的核碱基测序平台通过使用常规桑格测序或通过使用边合成边测序(SBS)方法来确定序列内的各个核苷酸碱基(或“核碱基”)。当使用SBS时,现有的平台可监测平行合成的数千个核酸聚合物,以根据更大碱基检出数据集来预测基因型检出。例如,许多SBS平台中的相机捕获掺入寡核苷酸中的辐照荧光标签的图像,以用于确定核碱基检出。在捕获此类图像之后,现有的SBS平台向计算设备发送碱基检出数据(或图像数据),以应用确定核酸聚合物的核碱基序列的测序数据分析软件。基于比对的核苷酸读段与参考基因组之间的差异,现有系统可进一步利用变体检出器来识别基因组样品的变体,诸如单核苷酸多态性(SNP)、插入和缺失(插入缺失)和/或结构变体、以及基因型检出。
尽管最近在测序和变体检出方面取得了这些进展,但现有的测序系统通常包括变体检出器,这些变体检出器不能准确地确定变体检出,特别是对于SNP和插入缺失而言。例如,许多现有系统生成变体检出,这些变体检出包括针对SNP和插入缺失的过量的假阳性检出和/或假阴性检出。造成这种不准确性的原因是,一些现有测序系统的约束规定它们从单流处理管道生成变体检出,这些管道一次只关注一个读段源。例如,如上文所提出,一些现有系统仅基于来自SBS测序的核苷酸读段来执行变体检出和/或变体检出过滤。再如,一些现有系统仅基于来自某些类型的长读段诸如循环共有测序(circular consensussequencing,CCS)读段或纳米孔长读段的核苷酸读段来执行变体检出。因此,仅依赖读段数据的单一源会导致许多现有系统生成的变体检出包括针对某些临床基准的过多假阳性检出和/或假阴性检出,这些假阳性检出和/或假阴性检出原本可以通过更准确的系统来减少。使问题进一步复杂化的是,诸如当现有系统基于CCS读段和纳米孔长读段,相对于使用其他类型的读段的测序系统生成具有更高插入缺失误差的变体检出时,不同的测序系统表现出不同的误差分布。
使这种变体检出的不准确性复杂化的是,一些现有的测序系统利用的模型需要对数百万或数十亿个碱基检出数据进行训练,而这些数据要么不可用,要么不完整。更具体地,一些现有的测序系统利用深度学习模型,这些深度学习模型需要大量的训练数据来实现可接受的准确测量。然而,对于某些变体类型(例如,结构变体),变体的训练数据相对有限,并且使用不完整或不充分的数据的训练模型会导致变体检出预测不准确且不可靠。因此,依赖于深度学习模型的一些现有系统可能产生不准确的变体检出,包括SNP和插入缺失。
除了不准确地确定变体检出之外,一些现有的测序系统还因模型过于复杂而低效地消耗了计算资源。具体地,一些现有测序系统的变体检出器计算成本昂贵且缓慢。实际上,一些现有的测序系统利用具有深度学习架构的变体检出器,这些变体检出器需要大量的计算资源(例如,计算时间、处理能力和存储器)来训练和应用深度学习架构。例如,一些现有的测序系统需要花费数百个小时和多个图形处理单元(GPU)来训练复杂的卷积神经网络或其他深度学习架构,这些复杂的卷积神经网络或其他深度学习架构即使在训练后也需要跨多个计算设备花费许多小时(例如,多达24小时)才能生成针对单个样品序列的变体检出或基因型检出。
作为具有复杂深度学习网络的现有测序系统的另一个缺点,许多此类系统利用使得序列数据不可解释的模型架构。更具体地,作为生成变体检出的基础,一些现有的深度神经网络多次转变和操纵序列数据,在处理期间跨各个层和神经元从一个不可解释的潜在向量转变为另一个这样的潜在向量。在许多情况下,这些深度神经网络的内部数据是不可解释的,并且很难在神经网络架构本身之外以任何方式利用。
发明内容
本公开描述了可利用机器学习模型来基于来自不同类型的核苷酸读段的数据生成针对基因型检测的预测的方法、非暂态计算机可读介质和系统的实施方案。具体地,所公开的系统可从用于处理来自多个读段类型/源的核苷酸读段的组合管道生成基因型检出,以实现稳健、准确的基因型检出(包括组成变体检出)。例如,所公开的系统可训练或利用基因型检出集成机器学习模型来基于与第一类型的核苷酸读段(例如,短读段)和第二类型的核苷酸读段(例如,长读段)相关联的数据生成对基因型检出的预测。如所公开的,该系统可确定针对对应于第一类型的核苷酸读段的第一基因型检出和对应于第二类型的核苷酸读段的第二基因型检出的测序度量。基于对应于第一基因型检出和第二基因型检出的不同或共享的测序度量,所公开的系统利用基因型检出集成机器学习模型来生成预测(例如,基因型概率、变体检出分类),以用于更新或确认第一基因型检出或第二基因型检出、或确定不同的基因型检出。在一些情况下,所公开的系统可利用多个此类基因型检出集成机器学习模型来更新或确认针对不同变体类型(诸如SNP和插入缺失)的基因型检出,其中该基因型检出集成机器学习模型针对每个变体类型生成不同的预测。
附图说明
详细描述参考以下简要描述的附图。
图1例示了根据一个或多个实施方案的用于实施测序系统和检出集成系统的示例计算环境的框图。
图2例示了根据一个或多个实施方案的利用基因型检出集成机器学习模型生成基因型检出的检出集成系统的概述。
图3例示了根据一个或多个实施方案的核苷酸读段的示例类型,基于这些核苷酸读段,检出集成系统可生成基因型检出。
图4A至图4C例示了根据一个或多个实施方案的确定在不同类型的核苷酸读段之间共享的或不同的测序度量的检出集成系统。
图5A至图5C例示了根据一个或多个实施方案的利用基因型检出集成机器学习模型生成预测(例如,基因型概率或变体检出分类)和对应的基因型检出的检出集成系统。
图6例示了根据一个或多个实施方案的用于学习基因型检出集成机器学习模型的参数的训练过程的示例图。
图7例示了根据一个或多个实施方案的用于基于基因型检出集成机器学习模型的预测来更新或生成合并的变体检出文件的示例图。
图8例示了根据一个或多个实施方案的检出集成系统的准确性度量的示例图和表。
图9A例示了根据一个或多个实施方案的检出集成系统的准确性度量的示例表。
图9B例示了根据一个或多个实施方案的检出集成系统的准确性度量的示例表。
图10A至图10B例示了根据一个或多个实施方案的描绘与检出集成系统相关联的准确性度量的曲线图。
图11例示了根据一个或多个实施方案的用于利用基因型检出集成机器学习模型来根据第一读段类型和第二读段类型的核苷酸读段生成基因型检出的一系列动作的流程图。
图12例示了用于实施本公开的一个或多个实施方案的示例计算设备的框图。
具体实施方式
本公开描述了利用基因型检出集成机器学习模型生成并修改针对基因组样品的基因型检出的检出集成系统的实施方案。具体地,检出集成系统可利用基因型检出集成机器学习模型来根据多个初始基因型检出(例如,变体检出)生成输出基因型检出(例如,来自合并的变体检出文件的所报告的基因型检出),该输出基因型检出针对由检出生成模型根据不同读段类型生成的基因组基因座。为了生成输出基因型检出,在某些实施方案中,检出集成系统从与短读段(例如,边合成边测序或“SBS”读段)和长读段(例如,纳米孔长读段、循环共有测序或“CCS”读段和/或组装好的核苷酸读段)的组合相关联的读段数据生成或接收初始基因型检出。在一些情况下,检出集成系统确定或识别特定的测序度量(例如,根据读段数据、检出生成模型数据和/或外部数据)以输入到基因型检出集成机器学习模型中以用于生成输出基因型检出。检出集成系统可进一步根据测序度量来训练或应用基因型检出集成机器学习模型以生成(或细化或重新校准)基因型检出。
如刚刚提及的,在某些具体实施中,检出集成系统使用来自不同读段类型的读段数据来改进基因型检出准确性(以及对应的变体检出准确性)。为了便于根据多种读段类型生成基因型检出,在一些实施方案中,检出集成系统从检出生成模型接收初始基因型检出。例如,检出集成系统(i)接收或确定对应于第一类型的核苷酸读段(例如,短读段)的初始基因型检出(例如,指示核苷酸序列的基因组坐标处的基因型的检出),并且进一步(ii)接收或确定对应于第二类型的核苷酸读段(例如,长读段)的另一初始基因型检出。在一些情况下,第一类型的核苷酸读段包括从短于第一阈值数量的核碱基的样品库片段合成的核苷酸读段。相反地,在相同或其他情况下,第二类型的核苷酸读段包括(i)已由较短核苷酸读段组装以形成满足第二阈值数量的核碱基的连续序列的组装核苷酸读段,(ii)满足第二阈值数量的核碱基的CCS读段,和/或(iii)满足第二阈值数量的核碱基的纳米孔长读段。
根据对应于不同读段类型的初始基因型检出,检出集成系统可进一步生成输出基因型检出,诸如对变体(诸如SNP或插入缺失)的存在或不存在的预测、以及基因组样品的等位基因的接合性。如所提及的,为了生成输出基因型检出,检出集成系统可提取、识别或确定测序度量(与来自不同读段类型的初始基因型检出相关联)以输入到基因型检出集成机器学习模型中。继而,基因型检出集成机器学习模型生成指示初始基因型检出正确或不正确的可能性的可能性或预测集合(例如,针对对应于不同读段类型的每个初始基因型检出和/或针对每个不同变体类型的不同预测集合)。例如,检出集成系统可提取或确定归属于一个或多个类别的测序度量,包括:(i)基于读段的测序度量,(ii)检出模型生成的测序度量,以及(iii)外部来源的测序度量。下文参考附图提供了关于测序度量的构成和确定的附加细节。
如所提出的,在某些实施方案中,检出集成系统使用多流管道来生成基因型检出,该多流管道基于多个读段类型来处理输出基因型检出的多个读段类型作为组合或合并的变体检出文件的一部分。例如,检出集成系统(i)基于第一读段类型处理从初始基因型检出提取的第一测序度量集合,以及(ii)基于第二读段类型处理从初始基因型检出提取的第二测序度量集合。此外,检出集成系统可利用基因型检出集成机器学习模型来基于第一测序度量集合和第二测序度量集合生成预测集合,并且可根据该预测集合生成输出基因型检出。
为了预测或生成针对不同变体类型(例如,SNP和插入缺失)的输出基因型检出,在一些情况下,检出集成系统利用基因型检出集成机器学习模型生成针对不同变体类型的不同预测的集合(例如,根据相同或不同的测序度量)。例如,检出集成系统可利用基因型检出集成机器学习模型(例如,经训练以预测SNP)的第一实例来处理第一读段类型测序度量(例如,SBS测序度量)和第二读段类型测序度量(例如,组装好的核苷酸读段测序度量)以生成针对基因组坐标处的SNP的输出基因型检出。此外,检出集成系统可利用第二基因型检出集成机器学习模型(例如,经训练以预测插入缺失)来处理第一读段类型测序度量和第二读段类型测序度量,以在不同(或相同)基因组坐标处生成针对插入缺失的输出基因型检出。在一些实施方案中,检出集成系统可利用用于双等位基因SNP的第一基因型检出集成机器学习模型,并且可利用用于其他类型的变体检出(例如,并非双等位基因SNP的变体)的第二基因型检出集成机器学习模型。此外,虽然本公开描述了至少两种不同类型的基因型检出集成机器学习模型,但在某些具体实施中,检出集成系统训练或应用单个基因型检出集成机器学习模型来生成针对不同类型的变体的两个基因型预测(例如,针对SNP或插入缺失的基因型预测)。
如上文所提出,检出集成系统提供优于现有测序系统(包括变体检出器和其他测序数据分析软件)的若干优点、益处和/或改进。例如,检出集成系统生成比现有测序系统更准确的基因型检出(包括变体检出)。虽然一些现有的测序系统不准确地生成变体检出(尤其是对于SNP和插入缺失而言),但检出集成系统训练或利用基因型检出集成机器学习模型来改进优于现有系统的基因型/变体检出。具体地,与依赖于读段数据的单个源的现有系统不同,检出集成系统可处理不同类型的多个读段(例如,组装好的核苷酸读段和SBS读段)以生成对应于SNP和插入缺失的更准确的基因型检出(从而减少假阳性和假阴性)。另外,造成准确性优于现有系统的原因是,检出集成系统可利用针对不同变体类型(例如,SNP和插入缺失)训练的基因型检出集成机器学习模型的不同实例来根据多个读段类型生成或预测基因型检出,这是现有系统无法做到的。进一步地,造成基因型检出的准确性提高的原因是,在一些情况下,检出集成系统确定并利用特定的测序度量(与现有系统不同)作为经由基因型检出集成机器学习模型生成检出(例如,作为输入数据)的基础。
为了实现上述改进的准确性,检出集成系统利用经训练以执行新应用的改进且独特的机器学习模型,即基因型检出集成机器学习模型。与根据一般单流测序数据生成基因型检出而无需调整或强调特定基因组坐标是否历史上表现出或已被检测到表现出特定变体的现有变体检出不同,检出集成系统利用独特的基因型检出集成机器学习模型(的多个实例),该模型根据多读段类型数据生成针对不同类型的变体(例如,SNP和插入缺失)的特定预测或分类。在一些情况下,检出集成系统利用基因型检出集成机器学习模型作为后处理过滤器,以(i)在对应于第一类型的核苷酸读段的第一基因型检出和对应于第二类型的核苷酸读段的第二基因型检出之间进行选择,或者(ii)确定不同于第一基因型检出和第二基因型检出的另一基因型检出。
至少部分地造成准确性改进的原因是,检出集成系统表现出优于现有测序系统的改进的灵活性。例如,虽然许多现有的测序系统限于一次分析来自一个读段类型的读段数据,但在一些实施方案中,检出集成系统适于处理多个读段类型以合并数据并生成针对特定基因组坐标或区域的输出基因型检出。具体地,与一些现有的测序系统不同,检出集成系统可基于基因组坐标的多种类型的读段数据(诸如组装好的核苷酸读段和SBS读段)来生成针对基因组坐标的基因型检出(例如,包括变体检出)。
除改进的准确性和灵活性之外,在某些实施方案中,检出集成系统还改进了计算效率和速度。如上所述,一些现有的测序系统利用计算昂贵、缓慢的神经网络架构(例如,深度学习架构,诸如卷积神经网络),这些神经网络架构需要跨多个高端处理器花费数小时(例如,多达24小时)来实现用于处理读段数据以生成针对基因组样品的检出。另外,检出集成系统可通过仅更新某些字段来生成(合并的)变体检出文件,而无需重新生成全新的变体检出文件(如一些现有系统所做的)。这种深度学习架构还可能需要几天(或几周)来训练。相反,检出集成系统利用用于基因型检出集成机器学习模型的相对轻量、快速的架构。与现有测序系统需要跨多个处理器花费数小时相比,检出集成系统需要不到一个小时(例如,对于检出生成模型约十五分钟,对于基因型检出集成机器学习模型不到一分钟)的运行时间(例如,在单个处理器上)来生成基因组样品的基因型检出(和/或变体检出)。因此,检出集成系统比用于基因型/变体检出的许多深度学习方法快得多且计算成本低。实际上,不仅检出集成系统的模型实现起来更快且计算成本更低,而且基因型检出集成机器学习模型还比许多现有的深度学习系统快得多且计算成本更低。
作为优于现有测序系统的另外优点,在某些具体实施中,检出集成系统可识别或促进影响基因型检出(以及对应的变体检出)的准确性的各个测序度量的改变。虽然许多现有测序系统的神经网络架构使得不可能利用其许多层与神经元之间隐藏的潜在特征来对内部模型数据进行任何解译,但检出集成系统利用促进各个测序度量的效应的解译的模型架构。更具体地,在一些情况下,检出集成系统利用使得能够更轻松地提取并分析贯穿生成基因型检出的过程使用的各个测序度量的检出生成模型和检出集成机器学习模型。实际上,检出集成系统可确定在确定特定基因组坐标的特定区域处的基因型检出中所涉及的测序度量的相应贡献量度。
如前述讨论所提出,本公开利用多种术语来描述检出集成系统的特征和优点。下文提供了关于本公开中使用的这些术语的含义的额外细节。如本公开中使用的,例如,术语“样品核苷酸序列”或“样品序列”是指从样品生物体分离或提取的核苷酸序列(或这种分离或提取的序列的拷贝)。具体地,样品核苷酸序列包括核酸聚合物的片段,该片段从样品生物体分离或提取并且由含氮杂环碱基组成。例如,样品核苷酸序列可包括脱氧核糖核酸(DNA)、核糖核酸(RNA)的片段或分子,或者核酸的其他聚合形式或下文所述核酸的嵌合或杂合形式。更具体地,在一些情况下,样品核苷酸序列存在于由试剂盒制备或分离并且由测序设备接收的样品中。
相关地,如本文所用,术语“基因组样品”是指经历测定或测序的目标基因组或基因组的一部分。例如,基因组样品包括从样品生物体分离或提取的一个或多个核苷酸序列(或这种分离或提取的序列的拷贝)。具体地,基因组样品包括从样品生物体分离或提取(全部或部分)并由含氮杂环碱基组成的全基因组。基因组样品可包括脱氧核糖核酸(DNA)、核糖核酸(RNA)的片段或分子,或者核酸的其他聚合形式或下文所述核酸的嵌合或杂合形式。在一些情况下,基因组样品存在于由试剂盒制备或分离并且由测序设备接收的样品中。
如本文进一步所用,术语“基因型检出”指确定或预测基因组基因座处的基因组样品的特定基因型。具体地,基因型检出可包括相对于基因组坐标或基因组区域处的参考基因组或参考序列预测基因组样品的特定基因型。例如,在一些情况下,基因型检出包括确定或预测基因组样品在基因组坐标处包括核碱基和互补核碱基两者,该基因组坐标对于参考碱基或变体而言是纯合的或杂合的(例如,纯合参考碱基表示为0|0,或对于特定链上的变体而言是杂合的,表示为0|1)。因此,基因型检出可包括预测基因组样品的一个或多个等位基因的变体或参考碱基,并指示关于变体或参考碱基的接合性。基因型检出通常是针对基因组坐标或基因组区域来确定的,在该基因组坐标或基因组区域处已针对生物体群体识别了SNP、插入、缺失或其他变体。
在某些情况下,“初始基因型检出”是指对应于针对特定类型的核苷酸读段的核苷酸读段数据和/或测序度量或根据该核苷酸读段数据和/或测序度量确定的基因型检出。例如,初始基因型检出可包括对应于第一阈值数量的核碱基的第一类型的核苷酸读段的第一基因型检出和/或对应于第二阈值数量的核碱基的第二类型的核苷酸读段的第二基因型检出。相比之下,“输出基因型检出”是指由输出数据文件报告或针对输出数据文件生成的基因型检出。例如,输出基因型检出包括基于来自基因型检出集成机器学习模型的基因型概率和变体检出分类中的一者或两者确定并且包括在变体检出文件(VCF)中的最终基因型检出。
如本文进一步使用的,术语“核碱基检出”(或简称“碱基检出”)是指确定或预测测序循环期间寡核苷酸(例如,核苷酸读段)或样品基因组的基因组坐标的特定核碱基(或核碱基对)。具体地,核碱基检出可指示:(i)确定或预测已被掺入在核苷酸样品载玻片上的寡核苷酸内的核碱基的类型(例如,基于读段的核碱基检出);或者(ii)确定或预测存在于基因组内的基因组坐标或区域处的核碱基的类型,包括数字输出文件中的变体检出或非变体检出。在一些情况下,对于核苷酸读段,核碱基检出包括基于由被添加到核苷酸样品载玻片(例如,流通池的簇中)的寡核苷酸的带荧光标签的核苷酸产生的强度值来确定或预测核碱基。另选地,核碱基检出包括根据色谱峰或电流变化来确定或预测核碱基,这些色谱峰或电流变化是由穿过核苷酸样品载玻片的纳米孔的核苷酸产生的。相比之下,基于对应于基因组坐标的核苷酸读段,核碱基检出还可包括最终预测变体检出文件(VCF)或另一碱基检出输出文件的样品基因组的基因组坐标处的核碱基。因此,核碱基检出可包括对应于基因组学坐标和参考基因组的碱基检出,诸如对应于参考基因组的特定位置处的变体或非变体的指示。实际上,核碱基检出可以是指变体检出,包括但不限于单核苷酸变体(SNV)、插入或缺失(indel)或作为结构变体的一部分的碱基检出。如上文所提出的,单个核碱基检出可以是腺嘌呤(A)检出、胞嘧啶(C)检出、鸟嘌呤(G)检出或胸腺嘧啶(T)检出、或尿嘧啶(U)检出。
相关地,如本文所用,术语“核苷酸读段”是指从样品核苷酸序列(例如,样品基因组序列、互补DNA)的全部或部分推断出的一个或多个核苷酸碱基(或核碱基对)的序列。具体地,核苷酸读段包括核苷酸片段(或单克隆核苷酸片段组)的核碱基检出的根据对应于基因组样品的测序文库确定或预测的序列。例如,在一些实施方案中,检测集成系统通过生成穿过核苷酸样品载玻片的纳米孔的核碱基的核碱基检出来确定核苷酸读段,经由加荧光标签来确定,或根据流通池中的孔来确定。在一些情况下,核苷酸读段可指特定类型的读段,诸如从短于阈值数量的核碱基的样品库片段合成的核苷酸读段(例如,SBS读段)。在这些或其他情况下,另一类型的核苷酸读段可指(i)已由较短核苷酸读段组装以形成满足阈值数量的核碱基的连续序列(例如,组装好的核苷酸读段)的组装好的核苷酸读段,(ii)满足阈值数量的核碱基的循环共有测序(CCS)读段,或(iii)满足阈值数量的核碱基的纳米孔长读段。
如上所述,在一些实施方案中,检出集成系统确定核苷酸读段的核碱基检出的测序度量。如本文所用,术语“测序度量”是指定量测量或得分,该定量测量或得分指示单独核碱基检出(或核碱基检出的序列)相对于参考基因组的基因组坐标或基因组区域、相对于来自核苷酸读段的核碱基检出或相对于外部基因组测序或基因组结构进行比对、比较或量化的程度。例如,测序度量包括指示以下程度的定量测量或得分:(i)单独核碱基检出比对、映射或覆盖参考基因组的基因组学坐标或参考碱基;(ii)核碱基检出与参考或替代核苷酸读段在映射、错配、碱基检出质量或其他原始测序度量方面进行比较;或者(iii)对应于核碱基检出的基因组学坐标或区域展示出可映射性、重复性碱基检出含量、DNA结构或其他广义度量。
按照这些思路,检出集成系统确定来自不同来源的各种类型的测序度量,诸如基于读段的测序度量、外部来源的测序度量和检出模型生成的测序度量。如本文所用,术语“基于读段的测序度量”是指源自样品核苷酸序列的核苷酸读段的测序度量。例如,基于读段的测序度量包括通过应用统计检验来检测参考序列和核苷酸读段之间的差异而确定的测序度量。在一些实施方案中,基于读段的测序度量可包括指示映射质量之间的比较的比较映射质量分布度量或指示错配计数之间的比较的比较错配计数度量。在一些情况下,基于读段的测序度量可对应于根据不同的读段类型(诸如组装好的核苷酸读段和/或SBS读段)生成的核碱基检出。
相比之下,“外部来源的测序度量”是指从一个或多个外部数据库识别或获得的测序度量。例如,外部来源的测序度量包括与核苷酸可映射性、复制定时或DNA结构有关的可在检出集成系统之外获得的度量。
此外,术语“检出模型生成的测序度量”是指由检出生成模型生成或提取的内部的、模型特定的测序度量。例如,检出模型生成的测序度量包括经由检出生成模型的变体检出器部件提取或确定的变体检出测序度量以及经由检出生成模型的映射和比对部件提取或确定的映射和比对测序度量。如上文所指示,检出模型生成的测序度量可包括量化样品核酸序列与示例核酸序列的基因组坐标比对的程度的比对度量,诸如缺失大小度量或映射质量度量。另外,检出模型生成的测序度量可包括量化示例核酸序列的基因组坐标处的样品核酸序列的核碱基检出的深度的深度度量,诸如正向-反向深度度量或归一化深度度量。检出模型生成的测序度量还可包括对核碱基检出的质量或准确度进行定量的检出质量度量,诸如核碱基检出质量度量、可检出性度量或体细胞质量度量。
如本文进一步所用,术语“基因组坐标”(或有时简称为“坐标”)是指核基在基因组(例如,生物体的基因组或参考基因组)内的特定位置或方位。在一些情况下,基因组坐标包括基因组的特定染色体的标识符和特定染色体内核碱基位置的标识符。例如,一个或多个基因组坐标可以包括染色体的编号、名称或其他标识符(例如,chr1或chrX)以及一个或多个特定位置,诸如在染色体的标识符之后的编号位置(例如,chr1:1234570或chr1:1234570-1234870)。在一些情况下,基因组坐标是指性染色体上的基因组坐标(例如,chrX或chrY)。因此,检出集成系统可确定针对性染色体上基因组坐标的基因型检出(例如,变体检出)的基因型概率和/或变体检出分类。此外,在某些实施方式中,基因组坐标是指参考基因组的来源(例如,线粒体DNA参考基因组的mt或SARS-CoV-2病毒的参考基因组的SARS-CoV-2)和参考基因组的来源内核碱基的位置(例如,mt:16568或SARS-CoV-2:29001)。相比之下,在某些情况下,基因组坐标是指参考基因组内核碱基的位置,而不提及染色体或来源(例如,29727)。
此外,如本文所用,术语“基因组区域”是指基因组坐标的范围。与基因组坐标一样,在某些实施方案中,基因组区域可以通过染色体的标识符和一个或多个特定方位,诸如染色体标识符之后的编号方位来识别(例如,chr1:1234570-1234870)。
如上所述,基因组坐标包括参考基因组内的位置。此类方位可在特定参考基因组内。如本文所用,术语“参考基因组”是指作为生物体的基因和其他遗传序列的代表性示例(或多个代表性示例)组装的数字核酸序列。无论序列长度如何,在一些情况下,参考基因组表示由科学家确定为表示特定物种的生物体的数字核酸序列中的基因的示例性集合或核酸序列的集合。例如,线性人参考基因组可以是GRCh38或来自基因组参考联盟的参考基因组的其他版本。作为另外示例,参考基因组可包括含有线性参考基因组和表示来自祖先单倍型的核酸序列的路径两者的参考图基因组,诸如Illumina DRAGEN图参考基因组hg19。
附加地,如本文所用,术语“参考多基因组”(有时称为“图参考基因组”)是指包括线性参考基因组和表示变体单倍型序列或其他变体或替代核酸序列的替代连续序列(或图扩增)两者的参考基因组。例如,参考多基因组可包括线性参考基因组和对应于从基因组样品数据库识别的一个或多个群体单倍型序列的替代连续序列。作为示例,参考多基因组可包括Illumina DRAGEN图参考基因组hg19。
如本文进一步所用,术语“连续序列”(或“连续组装”)是指基因组样品(或物种的多个基因组样品)的基因组区域的共有核苷酸序列,其基于对应于基因组区域的重叠核苷酸段的集合。具体地,连续序列包括一个或多个基因组样品的基因组区域的共有核苷酸序列,该共有核苷酸基于覆盖(或重叠)该基因组区域的一个或多个基因组样品的核苷酸读段。如上所述,术语“连续序列”和“连续组装”可互换使用。
相关地,术语“替代连续序列”(或简称为“替代连续”)是指表示在一个或多个特定基因组坐标处添加到线性参考基因组(或其他参考基因组)的群体单倍型的连续序列(例如,提升到线性参考基因组)。在一些具体实施中,图参考基因组(或参考多基因组)可包括映射到线性参考基因组的初级组装的基因组坐标的替代连续序列。例如,替代连续序列可表示包含变体的群体单倍型,该变体具有与变体断点的两个或更多个侧翼相对应的线性参考基因组中的两个或更多个基因组坐标的提升。在一些情况下,图参考基因组(或参考多基因组)的散列表包括将表示变体单倍型的替代连续序列与表示来自线性参考基因组的初级组装的参考单倍型的基因组坐标相关联的标识符。
如本文所用,术语“碱基检出质量度量”是指指示核碱基检出的准确性的特定得分或其他测量。具体地,碱基检出质量度量包括指示基因组坐标的一个或多个预测核碱基检出包含误差的可能性的值。例如,在某些具体实施中,碱基检出质量度量可包括预测任何给定核碱基检出的误差概率的Q得分(例如,PHil的Read EDitor(PHRED)质量得分)。为了说明,质量得分(或Q得分)可指示基因组坐标处的不正确核碱基检出的概率对于Q20得分等于1:100,对于Q30得分等于1:1000,对于Q40得分等于1:10000,等等。
相关地,在一些实施方案中,检出集成系统在一些实施方案中可通过修改或更新先前的度量来生成测序度量。此类“重新工程化的测序度量”可指已被更新、修改、扩增、细化或重新工程化以相对于其他核碱基检出、标准或参考测量或比较核碱基检出(例如,用于读段、基因型或变体检出的核碱基检出)或用于靶向特定目标或任务的测序度量。例如,重新工程化的测序度量可包括对原始测序度量的修改或原始(例如,未修改)测序度量的组合。在一些实施方案中,例如,检出集成系统生成基于读段的测序度量、外部来源的测序度量和/或检出模型生成的测序度量中的一者或多者作为重新工程化的测序度量。在一些情况下,重新工程化的测序度量是指由检出集成系统生成的并且因此是检出集成系统专有或内部的并且第三方系统不可用的测序度量。示例性重新工程化的测序度量包括指示与参考序列相关联的映射质量分布和替代支持核苷酸读段之间的比较的比较映射质量分布度量或指示参考序列的碱基质量和替代支持核苷酸读段之间的比较的比较碱基质量度量。
如上文所提出,检出集成系统可利用机器学习模型来修改测序度量并更新核碱基检出。如本文所用,术语“机器学习模型”是指通过基于数据使用的经验自动改进特定任务的计算机算法或计算机算法的集合。例如,机器学习模型可利用一种或多种学习技术来提高准确度和/或有效性。示例机器学习模型包括各种类型的决策树(例如,梯度提升树)、支持向量机、贝叶斯网络或神经网络。
在一些情况下,检出集成系统利用基因型检出集成机器学习模型来基于测序度量生成、修改或更新针对基因型检出的预测。如本文所用,术语“基因型检出集成机器学习模型”是指生成针对一个或多个基因组样品的预测(诸如基因型概率和/或变体检出)的机器学习模型。如上文所指示,基因型检出集成机器学习模型包括基于来自不同类型的核苷酸读段的数据生成针对一个或多个基因组样品的基因型检出的预测的机器学习模型。例如,在一些情况下,基因型检出集成机器学习模型经训练以基于测序度量生成指示一个或多个基因组坐标处的各种基因型的概率或可能性的基因型概率。又如,基因型检出集成机器学习模型经训练以基于测序度量来生成指示针对变体检出的各种概率或预测的变体检出分类。在一些情况下,基因型检出集成机器学习模型是一系列梯度提升决策树(例如,用于决策树系综的XGBoost算法或Treelite算法),而在其他情况下,基因型检出集成机器学习模型是随机森林模型、多层感知机、线性回归、支持向量机、深度表格学习架构、深度学习变换器(例如,基于自注意力的表格变换器)或逻辑回归。在某些实施方案中,基因型检出集成机器学习模型包括多个子模型或者与另一基因型检出集成机器学习模型(的实例)协同操作。例如,第一基因型检出集成机器学习模型(例如,梯度提升树的系综)在基因组坐标处生成针对第一变体类型(例如,SNP)的第一预测集合,并且第二基因型检出集成机器学习模型在基因组坐标处生成针对第二变体类型(例如,插入缺失)的第二预测集合。
相关地,术语“变体检出分类”是指来自基因型检出集成机器学习模型的预测分类,该预测分类基于一个或多个测序度量指示与基因型检出的某种方面相关联的概率、得分或其他定量度量(以及基因型检出如何冲击变体检出)。根据基因型检出集成机器学习模型的应用(诸如用于预测插入缺失),变体检出分类可包括专门预测。例如,变体检出分类可包括但不限于:(i)对于基因组样品的一个或多个基因组坐标,基因型检出构成真阳性变体的真阳性变体概率;(ii)基因型检出包括一个或多个基因组坐标处的基因型接合性误差的接合性误差概率;或(iii)一个或多个基因组坐标处的纯合参考基因型的参考概率。因此,术语“参考概率”可指在一个或多个基因组坐标处出现纯合参考基因型的概率。如下文所解释的,在一些情况下,基因型检出集成机器学习模型基于第一类型的核苷酸读段(例如,SBS读段)和第二类型的核苷酸读段(例如,组装好的核苷酸读段)生成变体检出分类。
如本文进一步所用,术语“基因型概率”是指基因组坐标或基因组区域处的特定基因型的可能性、概率或得分。例如,基因型概率包括一个或多个基因组坐标处的纯合参考基因型的可能性、杂合变体基因型的可能性或纯合变体基因型的可能性。在一些情况下,基因型概率可指后验基因型概率。因此,在一些情况下,由基因型检出集成机器学习模型确定的基因型概率可呈现在VCF(诸如合并的VCF)的后验基因型概率(GP)字段中(或被修改为呈现在其中)。根据基因型检出集成机器学习模型的应用(诸如用于预测SNP),基因型概率可包括专门预测。
如上所述,检出集成系统可生成指示或反映识别基因组坐标处的变体的可能性的基因型概率和/或变体检出分类。如本文所用,术语“变体”是指不与参考序列或参考基因组中的对应的一个核碱基(或多个核碱基)比对、不同或变化的一个或多个核碱基。例如,变体包括SNP、插入缺失或结构变体,其指示样品核苷酸序列中与参考序列的对应基因组坐标中的核碱基不同的核碱基。
如所提及,在一些实施方案中,检出集成系统修改对应于变体检出文件的数据字段。如本文所用,术语“变体检出文件”是指指示或表示与参考基因组相比的一个或多个核碱基检出(例如,变体检出)以及与这些检出有关的其他信息的数字文件。在一些情况下,变体检出文件还可包括基因组样品的基因型检出,其指示特定基因组坐标或区域处的等位基因的参考检出或变体检出。例如,变体检出格式(VCF)文件是指包含关于特定基因组坐标处的变体的信息的文本文件格式,该文本文件格式包括元信息行、标题行和数据行,其中每个数据行包含关于单个核碱基检出(例如,单个变体)的信息。如下文进一步所述,检出集成系统可生成不同版本的变体检出文件,包括预过滤变体检出文件或后过滤变体检出文件,该预过滤变体检出文件包括通过或未能通过碱基检出质量度量的质量过滤器的变体核碱基检出,该后过滤变体检出文件包括通过质量过滤器的变体核碱基检出但排除未能通过质量过滤器的变体核碱基检出。
相关地,“合并的变体检出文件”是指从一个或多个其他变体检出文件生成的变体检出文件。例如,合并的变体检出文件是指通过从与从第一类型的核苷酸读段确定的一个或多个基因型检出相关联的变体检出文件和与从第二类型的核苷酸读段确定的一个或多个基因型检出相关联的变体检出文件选择或合并数据而生成的变体检出文件。在一些情况下,合并的变体检出文件包括从一个初始变体检出文件选择的一些数据和从不同的初始变体检出文件选择的其他数据。附加地,合并的变体检出文件可包括来自合并方位的数据,其中生成一些字段以包括在其他(例如,未合并的)变体检出文件中未找到的新数据。因此,在一些实施方案中,根据与不同类型的核苷酸检出相关联的初始变体检出文件生成合并的变体检出文件。
在一些实施方案中,检出集成系统修改对应于与变体检出文件相关联的核碱基检出的度量的数据字段,诸如检出质量、基因型和基因型质量的字段。如本文所用,当相对于变体检出文件中的数据字段使用时,术语“检出质量”是指变体存在于给定位置处的可能性或概率的度量或指示。因此,对应于VCF文件的检出质量字段(或QUAL字段)可包括碱基检出质量度量诸如PHRED缩放质量或Q得分,该碱基检出质量度量表示样品基因组的基因组坐标包括变体的概率。类似地,当相对于字段使用时,“基因型质量”是指核碱基检出的特定预测基因型正确的可能性或概率。
如所指出,在一些实施方案中,检出集成系统利用检出生成模型来生成基因组坐标的核碱基检出。如本文所用,术语“检出生成模型”是指根据样品核苷酸序列的核苷酸读段生成测序数据的概率模型,该测序数据包括核碱基检出、变体检出和/或基因型检出以及相关联度量。因此,在一些情况下,检出生成模型可以是变体检出生成模型。例如,在一些情况下,检出生成模型是指基于样品核苷酸序列的核苷酸读段生成变体检出的贝叶斯概率模型。这种模型可处理或分析与读段堆积(例如,与单个基因组坐标对应的多个核苷酸读段)对应的测序度量,包括映射质量、碱基质量和各种假设,包括外来读段、缺失读段、联合检测等等。检出生成模型同样可包括多个部件,包括但不限于用于映射和比对、排序、重复标记、计算读段堆积深度和变体检出的不同软件应用程序或部件。在一些情况下,检出生成模型是指用于变体检出功能以及映射和比对功能的ILLUMINA DRAGEN模型(例如,DRAGEN变体检出器或“DRAGEN VC”)。
以下段落关于绘示示例实施方案和具体实施的例示性附图来描述检出集成系统。例如,图1例示了根据一个或多个实施方案的检出集成系统106在其中操作的系统环境(或“环境”)100的示意图。如所例示的,环境100包括经由网络112连接到客户端设备108、本地设备116和测序设备114的一个或多个服务器设备102。虽然图1示出了检出集成系统106的实施方案,但本公开在下文描述了替代实施方案和配置。
如图1所示,服务器设备102、客户端设备108、本地设备116和测序设备114可经由网络112彼此通信。网络112包括计算设备可在其上通信的任何合适的网络。下文结合图12更详细地讨论了示例网络。
如图1所指示,测序设备114包括用于对核酸聚合物进行测序的设备。在一些实施方案中,测序设备114分析从基因组样品提取的核酸片段或寡核苷酸以利用(本文所述的)计算机实现的方法和系统在测序设备114上直接或间接生成核苷酸读段或其他数据。更具体地,测序设备114在核苷酸样品载玻片(例如,流通池)内接收并且分析从基因组样品中提取的核酸序列。在一个或多个实施方案中,测序设备114利用SBS以将核酸聚合物测序成核苷酸读段。作为跨网络112进行通信的补充或替代,在一些实施方案中,测序设备114绕过网络112并且直接与客户端设备108通信。
如图1进一步所指示,本地设备116位于或靠近测序设备114的相同物理位置。实际上,在一些实施方案中,本地设备116和测序设备114被集成到同一计算设备中。本地设备116可运行检出集成系统106以诸如通过接收测序度量或基于分析此类测序度量来确定基因型检出和/或变体检出来生成、接收、分析、存储和传输数字数据。如图1所示,测序设备114可发送(并且本地设备116可接收)在测序设备114的测序运行期间生成的测序度量。通过执行检出集成系统106形式的软件,本地设备116可将核苷酸读段与参考基因组比对和/或利用基因型检出集成机器学习模型107来基于测序度量确定基因型和/或遗传变体。本地设备116还可与客户端设备108通信。具体地,本地设备116可向客户端设备108传送数据,该数据包括变体检出文件(VCF)、测序度量、或者指示核碱基检出、基因型检出、变体检出、测序度量、误差数据或其他度量的其他信息。
如图1进一步所指示,服务器设备102可生成、接收、分析、存储和传输数字数据,诸如用于确定基因型检出或对核酸聚合物进行测序的数据。如图1所示,测序设备114可发送(并且服务器设备102和/或本地设备116可接收)检出数据和/或测序度量。服务器设备102还可与客户端设备108和/或本地设备116通信。具体地,服务器设备102和/或本地设备116可向客户端设备108传送数据,该数据包括变体检出文件、或者指示核碱基检出、测序度量、变体检出、测序度量、误差数据或其他度量的其他信息。
在一些实施方案中,服务器设备102包括分布式服务器集合,其中服务器设备102包括跨网络112分布并且位于相同或不同物理位置中的许多服务器设备。此外,服务器设备102可包括内容服务器、应用程序服务器、通信服务器、网络托管服务器或另一类型的服务器。在一些情况下,服务器设备102与测序设备114和/或本地设备116位于同一物理位置处。
如图1进一步所示,服务器设备102和/或测序设备114可包括测序系统104。通常,测序系统104分析读段数据和/或检出数据(诸如从测序设备114接收的测序度量),以确定核酸聚合物的核碱基序列。例如,测序系统104可接收来自测序设备114的原始数据并且可确定核酸片段的核碱基序列。在一些实施方案中,测序系统104确定DNA和/或RNA片段或寡核苷酸中核碱基的序列。除处理和确定核酸聚合物的序列之外,测序系统104还生成指示针对一个或多个基因组坐标的一个或多个基因型检出和/或变体检出的变体检出文件。
如刚刚提及的,并且如图1中例示的,检出集成系统106分析检出数据(诸如来自测序设备114的测序度量),以确定针对基因组样品的样品核苷酸序列的基因型检出。检出集成系统106包括检出生成模型和基因型检出集成机器学习模型107。在一些实施方案中,检出集成系统106确定样品核苷酸序列的测序度量。基于从测序度量导出或准备的数据,检出集成系统106训练并应用检出生成模型以确定针对对应于基因组坐标的样品序列的核碱基检出。检出集成系统106进一步利用基因型检出集成机器学习模型107来生成预测集合(例如,针对SNP的基因型概率或针对插入缺失的变体检出分类)以更新或修改基因型检出(和/或变体检出)。基于这种数据,例如,检出集成系统106可更新对应于变体检出文件的数据字段以更新基因型检出和/或变体检出,从而改进准确性。
如图1中进一步例示和指示的,客户端设备108可生成、存储、接收和发送数字数据。具体地,客户端设备108可从测序设备114接收测序度量。此外,客户端设备108可与服务器设备102和/或本地设备116通信以接收包括基因型检出和/或其他度量(诸如检出质量和/或基因型质量)的变体检出文件。客户端设备108可相应地在图形用户界面内向与客户端设备108相关联的用户呈现或显示与基因型检出有关的信息。例如,客户端设备108可呈现贡献量度界面,该贡献量度界面包括与关于特定核碱基检出的各个测序度量相关联或归因于单独测序度量的各种贡献量度的可视化或描绘。
图1中例示的客户端设备108可包括各种类型的客户端设备。例如,在一些实施方案中,客户端设备108包括非移动设备,诸如台式计算机或服务器,或其他类型的客户端设备。在又一些实施方案中,客户端设备108包括移动设备,诸如便携式电脑、平板电脑、移动电话或智能电话。下文关于图12讨论关于客户端设备108的附加细节。
如图1中进一步例示的,客户端设备108包括测序应用程序110。测序应用程序110可以是在客户端设备108上存储和执行的网络应用程序或本机应用程序(例如,移动应用程序、桌面应用程序)。测序应用程序110可包括指令,这些指令(在被执行时)使得客户端设备108从检出集成系统106接收数据并且呈现来自变体检出文件的数据以供在客户端设备108处显示。此外,测序应用程序110可指导客户端设备108显示基因型检出的测序度量的贡献量度的可视化。
如图1中进一步例示的,检出集成系统106可作为测序应用程序110的一部分位于客户端设备108上或者位于测序设备114上或者位于本地设备116上。因此,在一些实施方案中,检出集成系统106通过位于(例如,完全或部分地位于)客户端设备108上来实现。在其他实施方案中,检出集成系统106由环境100的一个或多个其他部件诸如测序设备114或本地设备116来实现。具体地,检出集成系统106可跨服务器设备102、网络112、客户端设备108和测序设备114以多种不同方式来实现。例如,检出集成系统106可从服务器设备102下载到客户端设备108、本地设备116和/或测序设备114,其中检出集成系统106的功能性的全部或部分在环境100内的每个相应设备处执行。
尽管图1例示了环境100的经由网络112通信的部件,但在某些具体实施中,环境100的部件也可绕过网络112彼此直接通信。例如,并且如先前所提及,在一些具体实施中,客户端设备108与测序设备114和/或本地设备116直接通信。附加地,在一些实施方案中,客户端设备108与检出集成系统106(托管在例示的部件中的一个或多个部件上)直接通信。此外,检出集成系统106可访问容纳在服务器设备102上或由该服务器设备访问或者位于环境100中的其他地方的一个或多个数据库。
如上文所指示,检出集成系统106可基于来自不同类型的核苷酸读段的初始基因型检出的一个或多个测序度量来确定输出基因型检出。具体地,检出集成系统106可利用基因型检出集成机器学习模型根据测序度量生成预测(例如,基因型概率或变体检出分类),并且可根据生成的预测确定或更新与基因型检出相关联的各种度量(例如,在VCF文件内)。根据一个或多个实施方案,图2例示了检出集成系统106基于来自基因型检出集成机器学习模型的基因型概率或变体检出分类来确定输出基因型检出的示例概述。然后参考后续附图提供关于图2的动作的附加细节。
如图2中例示的,检出集成系统106执行动作202以接收第一基因型检出和第二基因型检出。具体地,在一些实施方案中,检出集成系统106接收由从第一读段类型的核苷酸读段生成的第一VCF文件指示的第一基因型检出。此外,检出集成系统接收由从第二读段类型的核苷酸读段生成的第二VCF文件指示的第二基因型检出。在一些情况下,检出集成系统106通过分析SBS读段(例如,从短于第一阈值数量的核碱基的样品库片段合成的核苷酸读段)来生成第一基因型检出。在这些或其他情况下,检出集成系统106通过分析不同类型的读段数据来生成第二基因型检出,这些不同类型的读段数据诸如:(i)组装好的核苷酸读段,即由较短的核苷酸读段组装以形成连续序列的核苷酸读段,(ii)CCS读段,和/或(iii)纳米孔长读段。在某些实施方案中,第一接收到的基因型检出和第二接收到的基因型检出是初始基因型检出,检出集成系统106使用它们作为最终生成输出基因型检出的基础(例如,通过合并与第一基因型检出和第二基因型检出相关联的数据)。
如图2中另外例示的,检出集成系统106执行动作204以识别测序度量。具体地,检出集成系统106识别或确定测序度量,诸如基于读段的测序度量、外部来源的测序度量和检出模型生成的测序度量。例如,检出集成系统106确定指示与来自样品核苷酸序列的核苷酸读段的各种基因型检出相关的各种属性或数据的测序度量。在一些实施方案中,检出集成系统106确定或提取不同的测序度量以用于生成与不同变体类型(诸如SNP和插入缺失)相关联的基因型检出。实际上,根据不同的测序度量,检出集成系统106可生成对应于相应变体类型的输出基因型检出,基因型检出集成机器学习模型在该输出基因型检出上进行训练。
详细来讲,如图2中例示的,检出集成系统106利用基因型检出集成机器学习模型的不同实例来基于所提取的测序度量生成针对不同变体类型的不同预测。例如,为了生成对应于(双等位基因)SNP的输出基因型检出,检出集成系统106执行动作206以生成基因型概率。又如,为了生成对应于插入缺失(或多等位基因SNP或者除双等位基因SNP以外的变体类型)的输出基因型检出,检出集成系统106执行动作208以生成变体检出分类。如下文所指示,在一些实施方案中,检出集成系统106可使用以下中的一者或两者:SNP特异性基因型检出集成机器学习模型,以生成基因型概率;以及插入缺失特异性基因型检出集成机器学习模型,以生成变体检出分类。在一些情况下,检出集成系统106可使用双等位基因SNP基因型检出集成机器学习模型来分析或确定双等位基因SNP。在这些或其他情况下,检出集成系统106可使用插入缺失特异性基因型检出集成机器学习模型来分析或确定插入缺失、多等位基因SNP或者并非双等位基因SNP的其他变体类型。
为了生成基因型概率(例如,经由动作206),检出集成系统106利用基因型检出集成机器学习模型来分析测序度量(例如,SNP相关的测序度量)。具体地,检出集成系统106利用用SNP训练数据训练的基因型检出集成机器学习模型来生成针对一个或多个候选SNP的基因型概率。根据测序度量,基因型检出集成机器学习模型生成针对特定基因组坐标的基因型概率集合,该基因型概率集合指示0/0基因型(例如,纯合参考基因型)的可能性、0/1基因型或1/0基因型(例如,杂合基因型)的可能性以及1/1基因型(例如,纯合替代基因型)的可能性。
为了生成变体检出分类(例如,经由动作208),检出集成系统106利用基因型检出集成机器学习模型根据测序度量生成(或更新或细化)变体检出分类。详细来讲,检出集成系统106利用基因型检出集成机器学习模型来处理或分析一个或多个测序度量并且生成分类集合(例如,与变体、接合性或参考检出相关联的预测概率)。例如,检出集成系统106利用基因型检出集成机器学习模型生成变体检出分类集合,该变体检出分类集合包括:i)针对第一基因型检出的第一真阳性变体概率(例如,来自第一读段类型),ii)针对第二基因型检出的第二真阳性变体概率(例如,来自第二读段类型),iii)针对第一基因型检出的第一接合性误差概率,iv)针对第二基因型检出的第二接合性误差概率,以及v)参考概率。
如图2中进一步例示,检出集成系统106还执行动作210以生成输出基因型检出。具体地,基于由基因型检出集成机器学习模型输出的基因型概率,检出集成系统106生成针对SNP的一个或多个基因组坐标的输出基因型检出。附加地或另选地,基于由基因型检出集成机器学习模型输出的变体检出分类,检出集成系统106生成针对插入缺失的一个或多个基因组坐标的输出基因型检出。对于SNP或插入缺失,检出集成系统106通过生成合并的VCF文件来确定或更新基因型检出,该合并的VCF文件合并与第一读段类型(例如,SBS读段)相关联的数据和与第二读段类型(例如,组装好的核苷酸读段)相关联的数据,或以其他方式从与第一读段类型相关联的数据和与第二读段类型相关联的数据生成。在一些情况下,检出集成系统106确定指示在基因组样品的一个或多个基因组坐标处存在或不存在SNP或插入缺失的输出基因型。例如,检出集成系统106选择初始基因型检出(例如,第一基因型检出或第二基因型检出)作为输出基因型检出。另选地,检出集成系统106生成不同于初始基因型检出(例如,第一基因型检出和第二基因型检出)、但基于与初始基因型检出相关联的数据的输出基因型检出。
在一些实施方案中,检出集成系统106利用检出生成模型来根据基因型概率和/或变体检出分类生成合并的VCF文件(如由基因型检出集成机器学习模型生成的)。例如,检出集成系统106应用多个贝叶斯概率模型或算法来导出针对不同核碱基、质量度量、映射度量、联合度量和样品核苷酸序列内出现的其他数据的各种概率,以包括在变体检出文件内。根据概率模型,检出集成系统106可进一步确定输出基因型检出,该输出基因型检出指示对应于参考基因组的基因组坐标处的样品基因组的预测基因型(或变体)。
作为生成输出基因型检出的一部分,在某些具体实施中,检出集成系统106利用基因型概率和/或变体检出分类来生成、重新校准、确定、修改、确认或扩增初始基因型检出。详细来讲,检出集成系统106利用基因型概率和/或变体检出分类(和/或其他特征)来确定或更新与基因型检出相关联的某些度量。例如,检出集成系统106针对诸如检出质量、基因型和基因型质量(或如下所述的其他度量)的度量来修改对应于变体检出文件的数据字段以生成输出基因型检出(例如,作为新的基因型检出或作为第一基因型检出和/或第二基因型检出的修改或合并版本)。
尽管图2例示了动作202-210的特定顺序,但在一些实施方案中,检出集成系统106以不同的顺序和/或同时串联地执行这些动作。例如,检出集成系统106可执行动作206以生成基因型概率和/或执行动作208以生成变体检出分类(在执行动作210以生成输出基因型检出的同时或在此过程期间)。例如,检出集成系统106同时实现基因型检出集成机器学习模型和检出生成模型,以生成输出基因型检出和用于修改该输出基因型检出的基因型概率/变体检出分类。在一些情况下,检出集成系统106进一步修改对应于输出基因型检出的合并变体检出文件的数据字段(例如,在预过滤或后过滤变体检出文件内)。如上文所提出,这种同时或并行操作通过在最初生成基因型检出时对它们进行重新校准(而不是在一个操作之前执行另一操作)而向检出集成系统106提供改进的计算效率和增加的速度。
在一个或多个具体实施中,检出集成系统106将输出基因型检出确定为针对SNP或插入缺失标记的基因组坐标的一部分。例如,检出集成系统106通过识别样品核苷酸序列中的G(其中A存在于参考基因组中)来确定输出基因型检出以表示基因组坐标(例如,chr1:151863125)处的SNP。又如,检出集成系统106通过识别样品核苷酸序列中的单个G(其中GTAAC存在于参考基因组中)来确定围绕一个或多个基因组坐标(例如,chr1:49263256)的基因型检出指示缺失。再如,检出集成系统106通过识别样品核苷酸序列中的TTTCC序列(其中T存在于参考基因组中)来确定基因型检出的序列表示基因组坐标(例如,chr1:7602080)处的插入。实际上,在一些情况下,插入包括在参考序列的基因组坐标处替换单个参考碱基的基因型检出序列。
如上所述,在某些实施方案中,检出集成系统106从不同类型的核苷酸读段接收、识别或确定初始基因型检出。具体地,检出集成系统106利用多读段类型管道来将来自一种类型的核苷酸读段(例如,短读段或SBS读段)的测序度量或其他数据与来自另一种类型的核苷酸读段(例如,长读段或组装好的核苷酸读段)的测序度量或其他数据合并,以从初始基因型检出生成输出基因型检出。图3例示了根据一个或多个实施方案的作为在基因组坐标处生成输出基因型检出的一部分的、检出集成系统106可分析或接收有关数据的核苷酸读段的示例类型。如上文所指示,在一些实施方案中,检出集成系统106基于图3中描绘的第一类型的核苷酸读段和第二类型的核苷酸读段来识别或确定基因型检出和对应的测序度量。
如图3中例示的,检出集成系统106分析与第一类型的核苷酸读段302相关联的读段数据。具体地,检出集成系统106从第一类型的核苷酸读段302接收或确定第一基因型检出。例如,检出集成系统106确定或接收指示特定基因组坐标处的基因型或变体的基因型检出,如第一类型的核苷酸读段302的读段所指示的。在一些实施方案中,第一类型的核苷酸读段302包括短读段(例如,短于阈值长度或由少于阈值数量的核碱基组成的读段),诸如从短于阈值数量的核碱基的样品库片段合成的SBS读段。在某些实施方案中,检出集成系统106从流通池中的孔中和/或经由荧光标记确定第一类型的核苷酸读段302。在一些情况下,检出集成系统106利用簇生成和SBS化学反应来对流通池中的数百万或数十亿个簇进行测序。在SBS化学反应期间,对于每个簇,检出集成系统106经由实时分析(RTA)软件存储每个测序循环的来自核苷酸读段的核碱基检出。虽然上述特定基因组坐标包括基于第一类型的核苷酸读段302的读段的第一基因型检出和基于第二类型的核苷酸读段304的读段的第二基因型检出,但某些基因组坐标仅包括基于第一类型的核苷酸读段302的读段的基因型检出或仅包括基于第二类型的核苷酸读段304的读段的基因型检出,但不包括两者。
如图3中进一步例示的,检出集成系统106分析与第二类型的核苷酸读段304相关联的读段数据。具体地,检出集成系统106从第二类型的核苷酸读段304接收或确定第二基因型检出。例如,检出集成系统106确定或接收指示特定基因组坐标处的基因型或变体的基因型检出,如第二类型的核苷酸读段304的读段所指示的。更具体地,第二类型的核苷酸读段304可包括长读段(例如,长于阈值长度或由至少阈值数量的核碱基组成的读段),诸如组装好的核苷酸读段、CCS读段和/或纳米孔长读段。
关于组装好的核苷酸读段,检出集成系统106可通过利用诱变过程和渲染过程来确定组装好的核苷酸读段。详细来讲,检出集成系统106可从短读段组装、创建、合成或生成长读段。例如,检出集成系统106可对短读段集合(例如,SBS读段或其他短读段)应用突变以引入独特的遗传签名,使得该组装可在具有多次重复的低复杂性区域上工作。在一些情况下,检出集成系统106应用随机突变并使用突变的短读段的输出来恢复样品基因组中难以使用普通SBS技术测序的区域中的信息。例如,检出集成系统106组合突变的短读段以形成组装好的长读段,并且检出集成系统106进一步执行渲染过程以在短读段被组合或组装成长读段之后撤销突变的至少一部分。
如上所述,在某些所描述的实施方案中,检出集成系统106确定或提取基因组坐标处的基因型检出的测序度量。具体地,检出集成系统106根据对应于来自样品核苷酸序列的核苷酸读段的检出来确定测序度量,诸如基于读段的测序度量、外部来源的测序度量和检出模型生成的测序度量。图4A至图4C例示了根据一个或多个实施方案的检出集成系统106确定测序度量。具体地,图4A例示了检出集成系统106基于第一类型的核苷酸读段和第二类型的核苷酸读段来确定基于读段的测序度量;图4B例示了检出集成系统106确定对应于第一类型的核苷酸读段或第二类型的核苷酸读段的基因型检出的检出模型生成的测序度量;并且图4C例示了检出集成系统106识别或确定对应于第一类型的核苷酸读段或第二类型的核苷酸读段的基因型检出的基因组坐标的外部来源的测序度量。
如图4A中例示的,检出集成系统106访问、检索、获得、确定、接收或生成核苷酸读段,这些核苷酸读段包括第一类型的核苷酸读段402a(例如,第一类型的核苷酸读段302)和第二类型的核苷酸读段402b(例如,第二类型的核苷酸读段304)。例如,检出集成系统106利用测序设备114来确定来自样品核苷酸序列(例如,样品基因组)的区域的核苷酸读段。例如,检出集成系统106利用边合成边测序(SBS)技术、桑格测序技术、组装好的核苷酸读段技术或本文讨论的其他测序技术生成多个核苷酸读段,以确定针对寡核苷酸簇的基因型检出。
如图4A中进一步例示的,在一些实施方案中,检出集成系统106针对第一类型的核苷酸读段402a执行读段处理和映射404a,并且针对第二类型的核苷酸读段402b执行读段处理和映射404b。例如,检出集成系统106利用RTA软件来以单独碱基检出数据文件(或BCL)的形式存储碱基检出数据。在一些情况下,检出集成系统106进一步将BCL文件转换成序列数据408a和408b(例如,经由BCL至FASTQ转换),如图4B中例示的,其中序列数据408a对应于第一类型的核苷酸读段402a,并且序列数据408b对应于第二类型的核苷酸读段402b。
如图4A所示,检出集成系统106生成多读段覆盖(例如,读段堆积),该多读段覆盖包括对应于单个基因组坐标的多个核苷酸读段或核碱基检出。具体地,在某些实施方案中,检出集成系统106将核苷酸读段与参考基因组比对或者接收与该读段比对有关的信息。具体地,检出集成系统106确定给定读段的哪个(哪些)核碱基与参考序列的哪个基因组坐标比对(或者接收指示比对的信息)。不同的读段具有不同的长度并且包括不同的核碱基。因此,在一些情况下,检出集成系统106分析每个读段的每个核苷酸以确定读段关于参考序列“拟合”的位置(或者接收指示该位置的信息),例如读段内的碱基与参考中的碱基比对的位置。在一些情况下,检出集成系统106比对单个基因组坐标处的许多读段,因此导致读段堆积。
在某些实施方案中,检出集成系统106执行附加统计检验以确定或检测与参考核苷酸序列相关联的度量和与替代支持核苷酸读段相关联的度量之间的差异。通过这些统计检验,检出集成系统106重新设计原始测序度量以确定针对第一类型的核苷酸读段402a的基于读段的测序度量406a和针对第二类型的核苷酸读段402b的基于读段的测序度量406b。在一些实施方案中,检出集成系统106确定与第一类型的核苷酸读段402a和第二类型的核苷酸读段402b两者相关联的共享测序度量集合。
在一些情况下,检出集成系统106确定或提取原始测序度量,这些原始测序度量包括以下中的一者或多者:(i)用于定量样品核苷酸序列与示例核苷酸序列(例如,参考基因组或来自祖先单倍型的核苷酸序列)的基因组坐标的比对的比对度量,(ii)用于在示例核苷酸序列的基因组坐标处定量样品核苷酸序列的核碱基检出的深度的深度度量,或(iii)用于在示例核苷酸序列的基因组坐标处定量样品核苷酸序列的核碱基检出的质量的检出质量度量。例如,检出集成系统106确定映射质量度量(例如,MAPQ度量)、软剪切度量或测量样品序列与参考基因组的比对的其他比对度量。又如,检出集成系统106确定正向-反向深度度量(或其他此类深度度量)或者基因型检出或变体检出的可检出性度量(或其他此类检出质量度量)。
如刚才所提及,在一些实施方案中,检出集成系统106重新工程化原始测序度量以生成基于读段的测序度量406a和406b,这些基于读段的测序度量对于将与参考核苷酸序列相关联的度量和与各种支持替代核苷酸读段相关联的度量进行比较具有更多信息。例如,检出集成系统106确定样品序列的与参考序列有关的各种度量,并且进一步确定样品序列的与替代支持序列有关的各种度量。此外,检出集成系统106执行与参考序列相关联的度量和与替代支持读段相关联的度量之间的比较分析。
例如,检出集成系统106将样品核苷酸序列(例如,样品基因组)的核碱基到参考序列的映射与核碱基到各种替代支持读段的映射进行比较。在一些情况下,检出集成系统106确定与参考序列相关联的映射质量,以跟与替代支持读段相关联的映射质量进行比较。例如,检出集成系统106确定映射质量统计值,这些映射质量统计值反映读段支持参考序列与读段支持替代等位基因的分布的差异。
在这些或其他情况下,检出集成系统106确定样品序列和参考序列之间以及参考序列和替代支持读段之间的错配计数。检出集成系统106进一步比较错配计数以确定比较错配计数度量。另外,检出集成系统106确定样品序列的与参考序列有关的软剪切度量,并且进一步确定与替代支持读段有关的软剪切度量。检出集成系统106还比较参考序列和替代支持读段之间的软剪切度量以生成比较软剪切度量。更进一步地,检出集成系统106比较与参考序列和替代支持读段有关的碱基检出质量度量和/或将样品序列的与参考序列有关的查询方位跟与替代支持读段有关的那些查询方位进行比较。
如图4A中进一步例示的,检出集成系统106利用比较和/或其他统计检验来生成基于读段的测序度量406a和406b。在一些情况下,检出集成系统106生成基于读段的测序度量406a和406b以包括以上列举的相同度量中的一个或多个度量。例如,根据第一类型的核苷酸读段402a和第二类型的核苷酸读段402b,检出集成系统106生成基于读段的测序度量406a和406b,这些基于读段的测序度量包括:i)指示第一基因型检出的等位基因、第二基因型检出的等位基因或者不同于第一基因型检出和第二基因型检出的替代基因型检出的不同等位基因的发生频率的等位基因频率度量,ii)指示对应于第一基因型检出的第一类型的核苷酸读段402a或对应于第二基因型检出的第二类型的核苷酸读段402b的特定(例如,最大或累积总)覆盖深度的覆盖深度度量,iii)对应于第一基因型检出的第一类型的核苷酸读段402a或对应于第二基因型检出的第二类型的核苷酸读段402b的映射质量度量(例如,MAPQ得分),iv)指示来自第一类型的核苷酸读段402a或第二类型的核苷酸读段402b的一个或多个核苷酸读段的基因组坐标处的核碱基的构成或组成的核碱基组成度量,以及v)指示对应于第一基因型检出的第一类型的核苷酸读段402a或对应于第二基因型检出的第二类型的核苷酸读段402b的平均(例如,均值或中值)覆盖深度的平均覆盖深度度量。
附加地,检出集成系统106利用比较和统计检验来根据第二类型的核苷酸读段402b生成基于读段的测序度量406b,这些基于读段的测序度量可能不适用于第一类型的核苷酸读段402a。例如,检出集成系统106生成基于读段的测序度量406b,这些基于读段的测序度量包括:i)指示使用诱变和渲染生成的组装好的读段的准确性或完整性的量度的组装得分,ii)指示读段的长度和/或变体(例如,插入或缺失)的长度的k聚体统计值,以及iii)指示从组装好的核苷酸读段(例如,来自诱变过程)渲染突变的准确性或完整性的量度的渲染度量。下文提供关于基于读段的测序度量406a和406b的附加细节。
A.基于读段的测序度量
以下段落更详细地描述各种基于读段的测序度量。例如,检出集成系统106确定核苷酸读段内的碱基检出的碱基检出质量得分。具体地,检出集成系统106确定核苷酸读段的核碱基检出的正确性的概率(例如,PHRED+33编码)。在一些情况下,检出集成系统106确定一个或多个核碱基检出的呈DRAGEN QUAL得分或Q得分形式的一个或多个碱基检出质量得分。此外,检出集成系统106确定支持来自参考基因组的替代连续序列的核苷酸读段的分数。例如,检出集成系统106确定支持(例如,匹配或比对)参考基因组的替代连续序列的核苷酸读段的数量以及支持参考基因组内的初级组装的核苷酸读段的数量。检出集成系统106进一步比较上述数字并确定分数以反映该比较。
在一些情况下,检出集成系统106利用特定特征来确定支持替代连续序列的读段的分数,包括:i)与参考基因组相关的比对得分,ii)与替代连续序列的组装相关的比对得分,iii)核苷酸读段的映射质量,以及iv)与基因组区域的重叠量。此外,检出集成系统106可根据以下类别基于读段的比对来对读段进行分类:i)与替代连续序列的组装的完美比对(例如,满足第一比对得分阈值),ii)与参考基因组的完美比对,iii)与替代连续序列的组装的强比对(例如,满足第二比对得分阈值但不满足第一比对得分阈值),iv)与参考基因组的强比对(例如,也满足第二比对得分阈值但不满足第一比对得分阈值),以及v)无强比对,无论是替代连续序列的组装还是参考基因组(例如,未能满足与替代连续序列的组装和参考基因组两者相关的第二比对阈值)。基于这五个类别,检出集成系统106可进一步确定比较这些类别中的每个类别的分数,以确定支持替代连续序列的核苷酸读段的分数(例如,与目标基因组区域重叠的读段的分数)与支持参考基因组的核苷酸读段的分数。
此外,检出集成系统106可确定来自对应于基因型检出或变体检出的核苷酸读段的分割核苷酸读段的数量作为基于读段的测序度量。更具体地,检出集成系统106确定与参考基因组的初级组装没有连续比对(或比对的碱基数量小于阈值)但包含与参考基因组内的两个或多个参考序列比对的核苷酸读段片段的数量。例如,检出集成系统106使用检出生成模型来确定支持基因型检出的分割读段计数。对于杂合缺失检出,一些假阳性情况的大分割读段计数超过真阳性情况,并且覆盖深度也高于预期。因此,检出集成系统106可基于支持基因型检出的核苷酸读段生成分割核苷酸读段度量。
在一些实施方案中,检出集成系统106分别比较支持正向和核苷酸读段反向核苷酸读段的替代等位基因的分割读段证据。如果大多数证据来自正向或反向读段,则这种偏差可能指示存在系统问题,特别是当读段计数相对高时(例如,大于10个核苷酸读段)。检出集成系统106使用具有与连续序列的完美比对得分的正向和反向读段计数作为基因型检出集成机器学习模型的测序度量。
如上所述,检出集成系统106可确定对应于初始结构变体检出的核苷酸读段的覆盖深度作为基于读段的测序度量。例如,检出集成系统106确定与对应于通过初始基因型检出或初始变体检出识别为存在或不存在的变体的目标基因组区域重叠的核苷酸读段的计数或数量。因此,覆盖深度可由与目标基因组区域重叠至少阈值数量的核苷酸碱基的核苷酸读段的原始计数来表示。
此外,作为基于读段的测序度量的一部分,检出集成系统106可确定位于来自基因组样品内的初始基因型检出(例如,变体检出)的阈值数量的碱基对内的附加基因型检出(例如,变体检出)。例如,检出集成系统106确定变体检出,诸如在初始变体检出的阈值接近度内(例如,200个碱基对内)的插入或删除。因此,检出集成系统106可使用代码来指示这样的附加变体检出的存在或不存在,诸如二进制代码0表示不存在而1表示存在。
在一些实施方案中,检出集成系统106进一步确定对应于核苷酸读段的连续序列与经修改以包括对应于初始基因型检出的变体的参考基因组的参考序列的比对作为基于读段的测序度量。具体地,检出集成系统106通过改变核苷酸碱基来修改参考基因组以反映变体(诸如侧翼区域中的SNP和插入缺失)。理论上,经修改的参考基因组可与替代连续序列完美比对,这为基因型检出集成机器学习模型准确识别变体提供了一些训练益处。
为了修改参考基因组以包括变体,检出集成系统106可执行各种步骤。具体地,检出集成系统106可从参考基因组中移除对应于缺失区域(例如,缺失变体的缺失区域)的序列的一部分。在一些情况下,检出集成系统106用表示相关变体的连续序列来替换FAST-All(FASTA)文件中的参考序列的相关部分。然后,检出集成系统106可使用修改的FASTA文件重新生成散列表。另外,检出集成系统106可在经修改的参考基因组上运行检出生成模型的映射和比对部件。检出集成系统106可进一步在新的映射和比对输出上重新运行检出生成模型的不同检出器部件。
对于基于读段的证据低于阈值(例如,支持候选变体检出的核苷酸读段少于5或10个)的候选变体,查找遗漏读段的一种方法是通过用表示候选变体的连续序列替换局部参考序列来修改局部参考序列。对于真阳性情况,当读段与经修改的参考基因组重新映射时,核苷酸读段中被不正确地映射/比对到参考基因组的初级组装的一些核苷酸读段将更有可能与表示候选变体的连续序列正确地映射,从而增加新修改的参考基因组上的读段深度。基于新映射,如果检出集成系统106重新运行检出生成模型,则检出生成模型不检出用于真纯合缺失的变体或用于真杂合缺失情况的插入。附加地,对于表示候选变体的连续序列,相对于原始初级组装,读段覆盖的深度应增加,这应导致更准确的变体检出。可通过将表示候选变体的连续序列的读段长度片段与参考基因组比对来估计实现更准确映射的可能性。
在一些实施方案中,检出集成系统106分析样品序列内变体的侧翼区域(如检出生成模型所检出的),其中侧翼区域包括变体的阈值接近度内(例如,200个碱基对内)的碱基检出。例如,检出集成系统106使用检出生成模型(例如,DRAGEN VC)基于初始基因型检出来确定初始变体,修改参考基因组以包括反映变体的连续序列(的一部分),并且识别变体的任一侧上的200个碱基对的阈值大小的侧翼区域。检出集成系统106进一步分析组合序列的侧翼区域(例如,左侧和右侧)以确定变体的存在或不存在。实际上,检出集成系统106可基于修改的参考基因组(例如,参考基因组和连续序列的组合序列)来量化单核苷酸多态性(SNP)和/或插入或缺失(插入缺失)的程度(例如,数量、量值和/或大小)。
在一些情况下,连续序列的解释对Smith-Waterman算法内的评分参数和罚分敏感。因此,在这些或其他情况下,检出集成系统106使用来自多个评分参数集的简明特质空位比对报告(CIGAR)字符串输出的缺失计数来测量对Smith-Waterman评分参数/罚分的敏感度。检出集成系统106可进一步使用最大连续缺失长度以及对应于由断点跨越的基因组区域的所有缺失的总和作为测序度量(例如,基于读段的测序度量)。
在一些情况下,检出集成系统106基于一个或多个软剪切核苷酸读段来确定呈核苷酸碱基的缺失长度形式的基于读段的测序度量。例如,检出集成系统106重新比对来自核苷酸读段的软剪切片段以确定缺失长度(或不同类型的变体的长度)。在一些实施方案中,检出集成系统106仅重新比对读段的软剪切部分,以提供对缺失或一些其他变体的长度的估计。例如,仅在软剪切部分的大小满足(例如,大于)软剪切碱基的阈值数量(例如,10个软剪切碱基或20个软剪切碱基)时,检出集成系统106才执行重新比对。
附加地,在一些实施方案中,检出集成系统106通过以下方式确定或计算软剪切段(例如,满足长度要求的那些段)的重新比对偏移:i)对于被检出变体左侧的软剪切读段,将软剪切部分比对到表示软剪切结束的当前方位/坐标的左侧,ii)对于被检出变体右侧的软剪切读段,将软剪切部分比对到表示软剪切开始的当前方位/坐标的右侧,iii)根据原始映射确定比对方位/坐标与软剪切的位置之间的核苷酸碱基数量的距离,iv)对于经由步骤i)至iii)确定的所有距离确定左模式和右模式,以及v)通过确定左模式与由检出生成模型(例如,DRAGEN SV检出器)确定的缺失长度之间的差异以及右模式与由检出生成模型(例如,DRAGEN SV检出器)确定的缺失长度之间的差异,诸如根据变体长度(替代序列长度)确定的核苷酸碱基数量,来确定左重新比对偏移和右重新比对偏移。
此外,检出集成系统106可确定呈表现出未能满足阈值映射质量度量的映射质量度量的核苷酸读段的数量的形式的基于读段的测序度量。详细来讲,检出集成系统106校正其中真阳性显示具有低MAPQ得分(即,低于阈值MAPQ)的核苷酸读段仍被正确映射(尽管局部比对可能不正确)的情况。在一些情况下,检出集成系统106利用MAPQ作为软权重来指示与替代连续序列或参考基因组比对的可能性。检出集成系统106可进一步确定具有未能满足(或低于)阈值映射质量度量(例如,MAPQ=10或MAPQ=60或相对MAPQ阈值)的映射质量度量(例如,MAPQ得分)的读段的计数或数量。在一些情况下,检出集成系统106基于具有低映射质量度量的读段的数量来确定或生成变体检出。在某些实施方案中,诸如在MAPQ=60的情况下,检出集成系统106进一步合并XQ得分以确定变体的可能性的扩展范围。检出集成系统106可确定并结合XQ跨本地映射读段的标准偏差,以改进基因型检出集成机器学习模型的预测。
如上文进一步所示,在一些实施方案中,检出集成系统106还确定表示对应于由检出生成模型确定的初始基因型检出或变体检出的核苷酸读段片段的长度的插入物大小。具体地,检出集成系统106确定基因组样品的基因组区域(例如,SV区域)内的插入物(或其他变体)的大小或长度(例如,碱基对的数量)。
在一些情况下,检出集成系统106确定呈回文度量形式的基于读段的测序度量。例如,检出集成系统106分析对应于其中检出变体的目标基因组区域的参考序列的一部分(例如,通过检出生成模型)。具体地,如果这种目标基因组区域中的参考序列是回文(或在回文的阈值百分比内或在来自回文的碱基对的阈值数量内),则折叠效应的可能性增加。基于该分析,检出集成系统106识别或检测基因组样品的片段或部分(例如,读段的子序列),这些片段或部分彼此在阈值距离内(例如,在200个碱基对内)并且是回文(其可由于碱基检出期间的折叠效应而表现出缺失)。检出集成系统106可确定或测量回文度量的段的距离或接近度(例如,分开的碱基对的数量)。在一些情况下,检出集成系统106进一步将排列熵与回文度量相结合,使得具有较高排列熵的回文匹配(例如,呈现彼此回文的一对段)增加缺失(或某个其他变体)的可能性。
此外,在一些实施方案中,检出集成系统106基于插入物大小确定呈变体可能性或概率形式的基于读段的测序度量,该变体可能性或概率表示一个或多个基因组坐标的初始变体检出与参考检出的比率。具体地,假设不存在变体,则存在一定的隐含插入物大小或片段大小。另一方面,假设存在变体,则存在不同的隐含插入物大小或片段大小。因此,基于片段大小的均值和标准偏差,检出集成系统106可确定变体存在或不存在之间哪一个更有可能。例如,在一些实施方案中,检出集成系统106根据以下公式确定一个或多个基因组坐标的初始变体检出与参考检出的比率:
其中NA为显示支持替代等位基因的证据的读段的数量,lR,k为假设不存在变体的情况下对应于读段k的原始估计插入物大小,为基于与替代连续序列的组装的比对的新估计插入物大小,μI为基因组样品的变体的均值插入物大小,以及σI为假设高斯分布的情况下基因组样品的变体的插入物大小的标准偏差。在一些情况下,受相对于候选缺失(或其他类型的变体)的分割读段的取向和比对的影响。
根据相对于候选变体基因组区域的读段取向和比对,检出集成系统106可从原始插入物大小估计(例如,基于参考映射和比对)中减去所提出的变体(例如,缺失)的长度。当考虑提供替代等位基因支持证据的所有核苷酸读段时,检出集成系统106可基于跨读段集合的预计插入物大小来确定可能性比率(例如,替代对参考)。
在一些情况下,的估计受到作为变体(例如,缺失)的证据的分割读段的取向的影响。因此,检出集成系统106基于读段取向(例如,对于正向和反向情况)来调整插入物大小估计。然而,连续序列通常与参考侧翼区域不匹配。因此,插入物大小计算将取决于读段取向和与连续序列比对后分割读段相对于断点的起始位置。附加地,BAM文件中提供的参考起始(例如,变体起始的基因组坐标)通常不包括核苷酸读段的软剪切部分,并且由于插入物大小计算使用读段的实际起始,因此检出集成系统106调整参考起始以考虑软剪切碱基的量。
在一个或多个实施方案中,检出集成系统106以围绕结束断点的置信区间的形式确定基于读段的测序度量。具体地,检出集成系统106利用检出生成模型来确定置信区间作为断点位置的确定性的量度。例如,检出集成系统106确定对应于变体检出的断点可能位于的参考坐标的范围。在一些情况下,检出集成系统106确定参考坐标的范围以反映置信区间方面的阈值百分位(例如,第95百分位)。
在某些实施方案中,检出集成系统106进一步确定附加的或另选的基于读段的测序度量。例如,检出集成系统106将同源性长度确定为基于读段的测序度量。具体地,检出集成系统106确定变体的目标基因组区域中重复的核苷酸碱基序列的长度和/或与结构变体的目标基因组区域内的(类似长度的)其他核苷酸碱基序列具有至少阈值同源性量度的核苷酸碱基序列的长度(例如,HOMLEN=8GCTTGAAC GCTTAAAC GCTAGAAC GCTTGAAC GCTTGTAC等)。在一些情况下,检出集成系统106将插入的核苷酸碱基序列的长度确定为基于读段的测序度量。在这些或其他情况下,检出集成系统106确定插入的核苷酸碱基序列相对于变体的目标基因组区域内的参考序列的同源性。
在一个或多个实施方案中,检出集成系统106确定附加的或另选的基于读段的测序度量,这些基于读段的测序度量包括:i)比较映射质量分布度量,该比较映射质量分布度量指示比较与参考序列有关的映射质量和与替代支持读段有关的映射质量的映射质量分布;ii)比较次级映射比对度量,该比较次级映射比对度量指示与参考序列中的碱基和替代支持读段中的碱基有关的次级映射之间的比较;iii)比较错配计数度量,该比较错配计数度量指示与参考序列有关的错配核碱基和与替代支持读段有关的错配碱基之间的比较;iv)比较软剪切度量,该比较软剪切度量指示与参考序列有关的软剪切度量和与替代支持读段有关的软剪切度量之间的比较;v)一个或多个比较读段深度度量,该一个或多个比较读段深度度量指示核苷酸读段的读段深度和一个或多个平均读段深度(例如,特定基因组坐标处的局部平均读段深度和跨区域中多个基因组坐标的全局平均读段深度)之间的比较;vi)一个或多个比较碱基质量度量,该一个或多个比较碱基质量度量指示与参考序列有关的碱基质量和与替代支持读段有关的碱基质量之间的比较(例如,用于核苷酸读段中的总体碱基质量、早期碱基质量和晚期碱基质量);vii)比较查询方位度量,该比较查询方位度量指示与参考序列有关的查询方位和与替代支持读段有关的查询方位之间的比较;viii)一个或多个背景信息度量,该一个或多个背景信息度量指示核碱基检出的均聚物和周期性;ix)链偏差度量,该链偏差度量指示与核苷酸读段中的一个或多个核苷酸读段相关联的链偏差;以及x)读段方向偏差度量,该读段方向偏差度量指示与核苷酸读段相关联的读段方向偏差。
B.检出模型生成的测序度量
除了基于读段的测序度量406a和406b之外,如图4B中例示的,检出集成系统106还生成检出模型生成的测序度量412a和412b。具体地,检出集成系统106利用检出生成模型的实例410a和410b分别根据序列数据408a和408b生成检出模型生成的测序度量412a和412b。例如,检出集成系统106基于关于图4A所描述的读段处理和映射404a来提取或确定序列数据408a。类似地,检出集成系统106基于读段处理和映射404b来提取或确测序列数据408b。在一些情况下,检出集成系统106生成序列数据408a和408b作为一个或多个数字文件(诸如BCL文件和FASTQ文件)的一部分。
为了生成此类文件,在一些实施方案中,测序设备114(或检出集成系统106)利用簇生成和SBS化学反应来对流通池中的数百万或数十亿个簇进行测序。在SBS化学反应期间,对于每个簇,测序设备114(或检出集成系统106)经由实时分析(RTA)软件,存储每个测序循环的来自第一类型的核苷酸读段402a和第二类型的核苷酸读段402b的核碱基检出。测序设备114(或检出集成系统106)利用RTA软件以单独碱基检出数据文件(或BCL)的形式进一步存储碱基检出数据。在一些情况下,测序设备114(或检出集成系统106)(例如,经由BCL到FASTQ转换)进一步将BCL文件转换成序列数据408a和408b。例如,测序设备114(或检出集成系统106)根据第一类型的核苷酸读段402a和第二类型的核苷酸读段402b生成FASTQ文件,其中FASTQ文件分别包括序列数据408a和408b。
在一些情况下,检出集成系统106从样品序列生成通过初始质量过滤器的每个簇的序列数据408a和408b。例如,检出集成系统106生成每个簇的条目,其中每个条目包括四行(或四项序列数据):i)具有关于测序运行和簇的信息的序列标识符;ii)组成序列(例如,A检出、C检出、T检出、G检出和/或N检出的序列)的核碱基检出;iii)分隔符(例如,“+”号);以及iv)指示核碱基检出的正确度的概率(PHRED+33编码)的碱基检出质量度量。
如图4B中进一步例示的,检出集成系统106实现、利用或应用检出生成模型410a来处理或分析序列数据408a。同样,检出集成系统106实现、利用或应用检出生成模型410b来处理或分析序列数据408b。实际上,在一些实施方案中,检出集成系统106通过利用检出生成模型的相应实例410a和410b重新工程化原始测序度量(例如,序列数据408a和408b内的原始测序度量)来生成检出模型生成的测序度量412a和412b。具体地,检出生成模型的实例410a和410b包括映射和比对部件以映射和比对来自序列数据408a和408b的核碱基检出。此外,检出生成模型的实例410a和410b包括变体检出部件以根据序列数据408a和408b生成初始基因型检出(例如,参考碱基检出,诸如核碱基检出、变体检出或非变体检出)。在一些情况下,检出集成系统106提取已利用检出生成模型的实例410a和410b的映射和比对部件以及变体检出部件生成的检出模型生成的测序度量412a和412b。
为了例示检出模型生成的测序度量412a和412b的示例,在一些情况下,检出集成系统106生成变体检出度量,这些变体检出度量包括以下中的一者或多者:i)基因型度量,这些基因型度量对应于VCF文件的GT字段并指示基因组坐标的基因型,ii)碱基检出质量度量(例如,DRAGEN QUAL得分),该碱基检出质量度量指示经由检出生成模型410a或410b生成的基因型检出的质量得分,iii)基因型质量度量(例如,GQ得分),这些基因型质量度量指示基因组坐标的预测基因型的置信度或质量的量度,iv)基因型概率度量,这些基因型概率度量指示基因组坐标处发生的各种基因型的一个或多个概率,v)PHRED缩放可能性度量或非PHRED缩放可能性度量,这些度量指示与基因型检出相关联的误差的概率,vi)碱基模型生成的外来检测度量(例如,外来读段检测(FRD)得分),该碱基模型生成的外来检测度量指示堆积中的第一类型的核苷酸读段402a或第二类型的核苷酸读段402b中的一者或多者可能是外来读段(例如,它们的真实位置在参考序列中的别处)的概率,vii)检出模型生成的碱基质量下降度量(例如,碱基质量下降(BQD)得分),该检出模型生成的碱基质量下降度量基于链偏差、线中的误差方位或第一类型的核苷酸读段402a和/或第二类型的核苷酸读段402b的子集的低均值碱基质量中的一者或多者指示碱基质量下降的概率,viii)平均读段深度,ix)归一化读段深度,x)具有mapq0读段的读段深度,xi)无mapq0读段的读段深度,xii)插入缺失统计值(例如,聚合酶链反应或“PCR”曲线),和/或xiii)隐马尔可夫模型(HMM)统计值,xiv)次级比对度量,该次级比对度量指示次级基因型检出正确的概率,xv)碱基背景度量,该碱基背景度量指示基因型检出周围的核苷酸的背景信息,xvi)附近检出度量,该附近检出度量指示在基因型检出附近(例如,与基因型检出相邻或在与基因型检出的阈值分隔程度内),xvii)联合检测度量,该联合检测度量指示检测对应于两个或更多个重叠基因型检出的联合的概率,和/或xviii)读段过滤度量,这些读段过滤度量指示用于过滤掉具有低映射质量、碱基质量或其他质量度量的基因型检出的阈值质量度量或其他度量;或其他变体检出度量。检出集成系统106根据反映了交互处理路径、角落情况和困难预测/决策的内部(例如,专有的和模型特定的)变量生成检出模型生成的测序度量412a和412b。
如上文所指示,在一些情况下,检出集成系统106根据2019年2月19日提交的授予Eric Jon Ojard的名称为“System and Method for Correlated Error EventMitigation for Variant Calling”的美国专利申请号16/280,022中所描述的方法来确定FRD得分,该专利申请以引用方式全文并入本文。在某些具体实施中,检出集成系统106还(或另选地)根据美国专利申请号17/165,828、15/643,381和14/811,836所述的方法来确定BQD得分、FRD得分、HMM统计值和/或其他变体检出度量,这些专利申请以引用方式全文并入本文。
如图4B中例示的,检出模型生成的测序度量412a和412b包括但不限于经由检出生成模型的实例410a和410b的变体检出部件提取的变体检出度量。作为上述检出模型生成的测序度量412a和412b的示例的补充或替代,在一些情况下,检出集成系统106(例如,经由度量重新工程化)生成变体检出度量,这些变体检出度量包括以下中的一者或多者:i)群体中的样品的数量;ii)为生成基因型检出而处理的读段的数量、变体(例如,SNP和插入缺失)的数量;iii)双等位基因位点(例如,包含两个观察到的等位基因的基因组坐标)的数量;iv)多等位基因位点的数量(例如,变体检出文件中的包含三个或更多个观察到的等位基因的位点的数量);v)SNP的数量;vi)不同类型的插入缺失(例如,纯合插入、杂合插入和杂合缺失)的数量;vii)杂合插入缺失(例如,插入+缺失、插入+SNP或缺失+SNP)的总数量;viii)新生(de novo)SNP(例如,具有满足阈值水平的新生质量度量的SNP)的数量;ix)新生插入缺失(例如,具有满足阈值水平的新生质量度量的插入缺失)的数量;x)新生MNP(例如,具有满足阈值水平的新生质量度量的MNP)的数量;xi)除以第二染色体中的SNP的数量的第一染色体中的SNP的数量;xiiv)SNP转变的数量;xiii)SNP颠换的数量;xiv)杂合变体的数量;xv)纯合变体的数量;xvi)杂合变体的数量和纯合变体的数量之间的比值;xvii)dbSNP参考文件内检测到的变体的数量;和/或xviii)减去dbSNP文件内检测到的该数量的变体的总数量。
附加地,检出模型生成的测序度量412a和412b可包括经由检出生成模型410a或410b的映射和比对部件提取的映射和比对测序度量。例如,检出集成系统106(例如,经由度量重新工程化)生成或提取映射和比对度量,这些映射和比对度量包括以下中的一者或多者:i)总输入读段的数量;ii)重复标记读段的数量;iii)移除的重复标记读段和配对读段的数量;iv)独特读段的数量;v)具有测序配对的读段的数量;vi)无测序配对的读段的数量;vii)未能通过质量检查的读段的指示;viii)映射读段的指示;ix)独特和映射读段的数量;x)未映射读段的数量;xi)单读段的数量(例如,其中读段被映射但成对的配对不能被读段);xii)成对的读段的数量;xiii)适当成对的读段的数量(例如,其中一对中的两个读段都被映射并且基于估计插入长度分布落入彼此可接受范围内);xiv)不一致读段(例如,未适当成对的读段)的数量;xv)映射到不同染色体的成对的读段的数量;xvi)映射到不同染色体的还具有10或更大的映射质量度量的成对的读段的数量;xvii)插入缺失R1和R2内读段的百分比;xviii)R1和R2中软剪切的碱基的百分比;xix)R1和R2中错配碱基的数量;xx)具有至少30的碱基质量的(例如,总和/或R1或R2中的)碱基的数量;xxi)比对(例如,总比对、次级比对和/或补充比对)的数量;xxii)估计读段长度;以及xxiiiv)估计样品污染。
C.外部来源的测序度量
现在转向图4C,检出集成系统106生成、提取或确定外部来源的测序度量416。具体地,检出集成系统106根据检出集成系统106外部的一个或多个数据库诸如测序信息数据库414确定外部来源的测序度量416。例如,检出集成系统106访问通用或通常适用于测序核苷酸的测序度量。此外,检出集成系统106访问或确定关于特定参考序列的测序信息(例如,存储在测序信息数据库414内)。
在一些情况下,检出集成系统106确定外部来源的测序度量416,这些外部来源的测序度量包括:i)可映射性度量,这些可映射性度量指示将特定核苷酸序列(或特定核苷酸读段或核碱基检出)映射到参考基因组内的一个或多个基因组坐标的难易程度,ii)鸟嘌呤-胞嘧啶-含量度量,该鸟嘌呤-胞嘧啶-含量度量指示参考核苷酸序列(例如,参考基因组)中的鸟嘌呤-胞嘧啶含量的计数(或丢失或均值),iii)复制定时度量,该复制定时度量指示从参考序列复制特定数量的核苷酸所需的时间,iv)一个或多个DNA结构度量,该一个或多个DNA结构度量指示参考序列(例如,参考基因组)的DNA结构,v)保守性度量,该保守性度量指示跨多个物种的序列保守性的量度(例如,相对于平均值的变化的量度),vi)置信度分类,该置信度分类指示可准确确定一个或多个基因组坐标处的核碱基的程度,vii)重复分类,该重复分类指示一个或多个基因组坐标的重复基因组区域的类别,viii)胞嘧啶四链体指示符,该胞嘧啶四链体指示符指示一个或多个基因组坐标是胞嘧啶四链体的一部分,ix)鸟嘌呤四链体指示符,该鸟嘌呤四链体指示符指示一个或多个基因组坐标是鸟嘌呤四链体的一部分,和/或x)均聚物指示符,该均聚物指示符指示一个或多个基因组坐标是参考基因组内的均聚物的一部分。
在一些实施方案中,检出集成系统106通过分析与初始基因型检出的一个或多个基因组坐标相对应(或比对)的参考基因组的一个或多个基因组区域来确定外部来源的测序度量416。许多具有挑战性的变体检出发生在参考基因组的低复杂性基因组区域中。在一些情况下,这些基因组区域的特征在于长重复序列(例如,多于50个碱基对)的多个实例、非常大量(例如,多于10个)的较短重复序列(例如,4至8个重复的碱基)的某种组合,并且有时包含碱基的子集(例如,A和T,但不包含C或G)。与此类低复杂性基因组区域正确比对的核苷酸读段通常具有映射到位于重重复区侧翼的更独特序列的核苷酸读段的部分或片段。另选地,参考基因组或基因组样品可包括一些中间断裂(例如,破坏重复性的初级重复模式之间的单个碱基),这些中间断裂有助于核苷酸读段与参考基因组的低复杂性基因组区域的比对。然而,当与SNP、插入缺失和测序误差组合时,具有足够证据来比较参考与替代等位基因支持的比对和读段收集变得有问题。因此,在一些实施方案中,检出集成系统106监测外部来源的测序度量416(与复杂性相关联),这些外部来源的测序度量可用基于读段的测序度量来扩增以提供变体存在的可能性的总体评估(对于贝叶斯和机器学习方法两者)。
例如,检出集成系统106访问或确定关于特定参考基因组的测序信息(例如,存储在测序信息数据库414内)。在一些情况下,检出集成系统106确定外部来源的测序度量416,这些外部来源的测序度量包括对应于基因组样品的候选区域的参考基因组内的目标基因组区域的核苷酸碱基中的串联重复长度。具体地,检出集成系统106分析参考基因组中对应于基因组样品的变体区域的各部分以识别串联重复(例如,以头尾相接的方式重复多次的两个或多个碱基的序列)并且进一步确定串联重复内的长度(例如,碱基对的数量)。
在某些实施方案中,检出集成系统106以重复性度量或均聚物度量的形式确定外部来源的测序度量。实际上,需要校正的误差映射(例如,导致假阳性的误差映射)的可能性的一个指示符是基于参考序列内碱基的重复性。因此,检出集成系统106可利用各种测序度量来测量这种重复性,这些测序度量包括:i)最大重复模式长度,该最大重复模式长度指示在(对应于)候选区域的(参考基因组)的跨度上重复至少两次的碱基序列的最大长度,ii)最大重复长度百分比,该最大重复长度百分比指示被最大重复模式长度消耗或占据的区域的(对应于该区域的参考基因组的部分)的百分比,以及iii)最大均聚物长度,该最大均聚物长度指示在(对应于)候选区域的(参考基因组的部分)中相同碱基的最长序列的长度。
作为重复性度量的补充或替代,在一些情况下,检出集成系统106以核苷酸碱基的排列熵的形式确定外部来源的测序度量。例如,检出集成系统106确定核苷酸序列的随机性的量度,其可预测作图/比对准确性。在一些情况下,检出集成系统106通过确定给定长度的核苷酸序列的排列上的熵来确定排列熵。例如,检出集成系统106可根据以下公式确定排列熵:
S1∈{A,C,G,T}
S2∈{AA,AC,AG,AT,CA,CC,CG,CT,GA,GC,GG,GT,TA,TC,TG,TT}
S3∈{AAA,AAC,AAG,AAT,ACT,...,TTA,TTC,TTC,TTT}
S4∈{AAAA,AAAC,AAAG,AAAT,AACA,...,TTGT,TTTA,TTTC,TTTG,TTTT}
其中SN为长度N碱基序列的所有排列的集合,并且其中:
|SN|=4N
使得集合SN中出现排列元素sN,k的概率由下式给出:
其中ck为长度为M的序列中的排列元素sN,k的出现次数。在一些情况下,检出集成系统106将排列熵归一化为:
其中为索引的集合,使得pN,k>0。
如上所述,检出集成系统106可进一步以识别目标基因组区域中胞嘧啶四链体(C-四链体)或鸟嘌呤四链体(G-四链体)的存在或不存在的形式确定外部来源的测序度量。详细来讲,检出集成系统106确定参考基因组的目标基因组区域内的胞嘧啶检出和鸟嘌呤检出的计数,该参考基因组的目标基因组区域对应于基因组样品的变体区域或考虑初始变体检出的基因组区域。为了识别胞嘧啶四链体,检出集成系统106识别由一个或多个不同核苷酸碱基分开的三个连续胞嘧啶碱基的四个或更多个实例化的出现(在目标基因组区域内)(例如,CCC A CCC A CCC A CCC的模式)。类似地,为了识别鸟嘌呤四链体,检出集成系统106识别由一个或多个不同核苷酸碱基分开的三个连续鸟嘌呤碱基的四个或更多个实例化的出现(在目标基因组区域内)(例如,GGG T GGG T GGG T GGG的模式)。
在一个或多个实施方案中,检出集成系统106识别C-四链体或G-四链体,其中在三C或三G的实例化之间出现多达阈值数量的核苷酸碱基(例如,多达7个核苷酸碱基)。例如,检出集成系统106将GGG TACC GGG TGTACA GGG AAGTCT GGG识别为G-四链体。在一些情况下,已知G-四链体(和C-四链体)引起测序问题。因此,检出集成系统106使用此类序列的存在来调整读段的映射和比对中的置信度以及后续连续序列构建的准确性。
在某些实施方案中,检出集成系统106确定数据压缩度量作为外部来源的测序度量416的一部分。具体地,检出集成系统106使用一种或多种数据压缩算法来确定数据压缩度量,该数据压缩度量量化序列的随机性的量度。用于无损压缩的一种这样的压缩算法是Liv-Zempel-Welch算法。使用该算法,检出集成系统106构建以长度1开始的独特K聚体的字典,并为字典中的每个条目提供编码。检出集成系统106可利用字典中针对结构变体和参考基因组中的侧翼区域的键的数量作为测序度量。
作为上述外部来源的测序度量416的补充或替代,在一些实施方案中,检出集成系统106确定结构变体序列比对度量作为外部来源的测序度量416的一部分。例如,检出集成系统106使用针对参考中的左/右侧翼基因组区域的建议缺失序列的无空位比对评分和Smith-Waterman比对评分。如果存在得分高于阈值无空位比对得分和/或阈值Smith-Waterman比对得分的多个比对,则基因型检出集成机器学习模型可处理变体序列比对度量作为不精确变体检出的可能性较高的指示符。
此外,检出集成系统106还可确定模拟读段比对度量作为外部来源的测序度量。假设表示或包括变体的连续序列准确,理论上应存在许多核苷酸读段与连续序列具有良好的比对,甚至对于杂合缺失也是如此。然而,对于变体的低证据真阳性情况,存在遗漏读段的可能性,因为对应于SV区域的读段要么被映射到其他地方,要么未被映射。因此,检出集成系统106可通过模拟读段来确定遗漏读段的可能性。
具体地,检出集成系统106从长度等于SBS读段的连续序列中选择段。检出集成系统106选择跨断点、等于SBS读段长度并且比对到SV区域中的参考序列的连续序列的段。对于比对不明确的情况,替代比对得分将更高,并且可用作预期读段深度的可能指导。检出集成系统106可进一步使用与关于断点对称的读段长度相等的连续序列的片段来获得最高比对得分。检出集成系统106可进一步确定距此对称点的附加偏移以检查重叠范围的替代比对得分。
在一个或多个实施方案中,检出集成系统106确定附加的或另选的测序度量,这些测序度量包括基于读段的测序度量、检出模型生成的测序度量和/或外部来源的测序度量。例如,检出集成系统106确定下表中的测序度量,其中这些度量中的每个度量属于基于读段的测序度量、检出模型生成的测序度量和/或外部来源的测序度量中的一者或多者。
如上所述,在某些所描述的实施方案中,检出集成系统106使用上述测序度量生成针对不同变体类型的机器学习预测的集合。具体地,检出集成系统106利用基因型检出集成机器学习模型来生成对应于各种基因组坐标的基因型概率(针对SNP)或变体检出分类(针对插入缺失)。另外,检出集成系统106通过基于基因型概率和/或变体检出分类生成变体检出文件(例如,合并的变体检出文件)来确定输出基因型检出。根据一个或多个实施方案,图5A至图5C例示了检出集成系统106生成基因型概率和变体检出分类中的一者或两者、基于此类可能性和/或分类生成基因型检出、以及基于此类可能性和/或分类生成包括基因型检出的合并变体检出文件。例如,图5A例示了根据一个或多个实施方案的检出集成系统106使用基因型检出集成机器学习模型来基于对应于来自不同读段类型的初始基因型检出的测序度量生成针对(双等位基因)SNP的基因型概率。图5B例示了根据一个或多个实施方案的检出集成系统106使用基因型检出集成机器学习模型来基于对应于来自不同读段类型的初始基因型检出的测序度量生成针对插入缺失(或多等位基因SNP或者除双等位基因SNP以外的变体类型)的变体检出分类。此后,图5C例示了根据一个或多个实施方案的检出集成系统106基于基因型概率和/或变体检出分类生成包括输出基因型检出的变体检出文件。
如图5A中例示的,检出集成系统106识别基因组坐标502。例如,检出集成系统106根据对应于样品核苷酸序列的核碱基检出或基于对应于基因组坐标502的单倍型数据来识别基因组坐标502。在一些情况下,检出集成系统106通过确定(i)来自覆盖基因组坐标的核苷酸读段的一个或多个核碱基检出和(ii)一个或多个核碱基检出满足一个或多个阈值测序度量(例如,Q30的碱基检出质量度量)来识别基因组坐标502。附加地或另选地,在某些实施方案中,检出集成系统106通过根据包括与特定基因组坐标关联的单倍型参考面板的数据库来识别基因组坐标502。无论识别方法如何,在一些情况下,检出集成系统106使用检出生成模型503(例如,变体检出器,作为检出生成模型的一部分)来识别基因组坐标502。
如图5A中所描绘的,检出集成系统106还利用检出生成模型503来生成初始基因型检出505。详细来讲,检出集成系统106利用检出生成模型503(例如,DRAGEN检出器)来生成初始基因型检出505以预测基因组坐标502处变体(或特定基因型)的存在(或不存在)。如所描述的,检出生成模型503通过分析或处理测序度量504(或测序度量504的子集,诸如基于读段的测序度量和外部来源的测序度量)来生成初始基因型检出505。此外,检出生成模型503还生成测序度量504中的一些测序度量(例如,检出模型生成的测序度量)作为预测初始基因型检出505的一部分。
实际上,检出集成系统106确定基因组坐标502的测序度量504。具体地,检出集成系统106确定与核苷酸读段相关联的、由检出生成模型503生成的、或者从外部来源检索的测序度量,如上所述。基于测序度量504,检出集成系统106进一步生成基因型概率508,这些基因型概率一起可指示基因组坐标502包括或表现出SNP变体的置信度或概率的量度。
具体地,如图5A所示,检出集成系统106利用基因型检出集成机器学习模型506来生成基因型概率508。例如,基因型检出集成机器学习模型506分析或处理作为输入的测序度量504和初始基因型检出505,以生成基因型概率508作为输出,这些基因型概率包括:i)初始基因型检出505是基因组坐标502处的纯合参考基因型的第一基因型概率510(例如,“L(0/0)@chr5:4”),ii)初始基因型检出505是基因组坐标502处的杂合变体基因型的第二基因型概率512(例如,“L(0/1)@chr5:4”),以及iii)初始基因型检出505是基因组坐标502处的纯合变体基因型的第三基因型概率514(例如,“L(1/1)@chr5:4”)。
如所提及的,检出集成系统106生成基因型概率508以预测SNP是否出现在基因组坐标502处。然而,为了预测插入缺失是否出现在基因组坐标处,检出集成系统106生成不同的机器学习预测集合。具体地,检出集成系统106生成变体检出分类,这些变体检出分类指示在样品序列的基因组坐标处存在(或不存在)插入缺失(或多等位基因SNP或除双等位基因SNP之外的另一变体类型)。
如图5B所示,检出集成系统106利用基因型检出集成机器学习模型520来生成变体检出分类522。详细来讲,检出集成系统106利用基因型检出集成机器学习模型520来基于测序度量518和与基因组坐标516相关联的初始基因型检出519生成变体检出分类522。实际上,类似于以上关于生成双等位基因SNP的基因型概率的讨论,检出集成系统106同样确定与基因组坐标516相关联的测序度量518,这些测序度量包括基于读段的测序度量、检出模型生成的测序度量和外部来源的测序度量。例如,检出集成系统106利用检出生成模型517来分析测序度量518的子集(例如,基于读段的测序度量和/或外部来源的测序度量)以用于确定初始基因型检出519(例如,指示基因组坐标516处的特定基因型或变体)。在一些情况下,检出生成模型517进一步生成与基因组坐标516相关联的测序度量518的子集(例如,检出模型生成的测序度量)。
在生成针对基因组坐标516的变体检出分类522时,检出集成系统106利用基因型检出集成机器学习模型520。具体地,检出集成系统106利用基因型检出集成机器学习模型520来生成:i)第一真阳性变体概率524,该第一真阳性变体概率指示来自第一类型的核苷酸读段(例如,SBS读段)的初始基因型检出519(或初始VCF文件)在基因组坐标516处为真阳性的可能性,ii)第二真阳性变体概率526,该第二真阳性变体概率指示来自第二类型的核苷酸读段(例如,组装好的核苷酸读段)的初始基因型检出519(或初始VCF文件)在基因组坐标516处为真阳性的可能性,iii)第一接合性误差概率528,该第一接合性误差概率指示来自第二类型的核苷酸读段的初始基因型检出519(或初始VCF文件)在基因组坐标516处表现出基因型-接合性误差的可能性,iv)第二接合性误差概率530,该第二接合性误差概率指示来自第二类型的核苷酸读段的初始基因型检出519(或初始VCF文件)在基因组坐标516处表现出基因型-接合性误差的可能性,以及v)参考概率532,该参考概率指示基因组坐标516处的初始基因型检出519是纯合参考基因型(或假阳性)的可能性。在一些情况下,变体检出分类522是互斥的。
如图所示,第一真阳性变体概率524由“TP_s”表示。符号“TP_s”表示输入(x)在第一变体检出文件(例如,SBS变体检出文件)中是真阳性变体的概率,其中“TP_s”可用公式表示为P(tp_s|x)),“s”代表第一类型的核苷酸读段,特别是“短读段”或SBS读段。另外,第二真阳性变体概率526由“TP_l”表示。符号“~TP_s&TP_l”表示输入(x)在第一变体检出文件(例如,SBS变体检出文件)中不是真阳性并且在第二变体检出文件(例如,组装好的核苷酸读变体检出文件)中是真阳性的概率,其中“~TP_s&TP_l”可用公式表示为P(~tp_s&p_1|x)),并且其中“l”代表“长读段”或组装好的核苷酸读段。
相反,第一接合性误差概率528由“HH_s”表示。符号“~TP_s&TP_l&HH_s”表示输入(x)在第一变体检出文件(例如,SBS变体检出文件)中不是真阳性、在第二变体检出文件(例如,组装好的核苷酸读变体检出文件)中不是真阳性、并且在第一变体检出文件(例如,SBS变体检出文件)中是het/hom误差的概率。附加地,第二接合性误差概率530由“HH_l”表示。符号“~TP_s&~TP_l&~HH_s&HH_l”表示输入(x)在第一变体检出文件(例如,SBS变体检出文件)中不是真阳性、在第二变体检出文件(例如,组装好的核苷酸读段变体检出文件)中不是真阳性、在第一变体检出文件(例如,SBS变体检出文件)中不是het-hom误差以及在第二变体检出文件(例如,组装好的核苷酸读变体检出文件)中是het-hom误差的概率。此外,参考概率532由“FP”表示,其指示输入(x)为假阳性的概率并且可用公式表示为P(fp|x))。
为了详细说明第一接合性误差概率528和第二接合性误差概率530,检出集成系统106确定在基因组坐标516处预测的基因型(例如,针对不同读段类型的初始基因型检出)是不正确的基因型(例如,由检出生成模型517不正确地识别的基因型)或包括不正确的等位基因的概率。详细来讲,在一些情况下,检出集成系统106基于第一类型的核苷酸读段或第二类型的核苷酸读段,确定在基因组坐标516处存在接合性误差(例如,het/hom误差)(例如,其中替代碱基正确但基因型不对)的概率或基因型检出表示完全不对的基因型或初始基因型检出519中的误差等位基因的概率。例如,当确定存在接合性误差的概率时,检出集成系统106确定表示为“1”的替代碱基检出正确但基因型不正确的概率,诸如不正确地确定0/1基因型检出(例如,A/T)而不是正确1/1基因型检出(例如,T/T)(或者在正确基因型检出是0/1的情况下反过来)的概率。
通过确定第一接合性误差概率528和第二接合性误差概率530,检出集成系统106可修正现有测序系统的不准确性,其中不正确的检出通常是插入缺失。具体地,检出集成系统106可更准确地生成对应于插入缺失的基因组坐标的基因型检出,在这种情况下现有测序系统将确定基因型检出表示不正确基因型,该不正确基因型表示由长插入或缺失序列而产生的不正确等位基因。
如图5B中进一步例示的,检出集成系统106利用基因型检出集成机器学习模型520来生成第一真阳性变体概率524和第二真阳性变体概率526。具体地,检出集成系统106根据第一类型的核苷酸读段(例如,SBS读段)生成第一真阳性变体概率524,并且根据第二类型的核苷酸读段(例如,组装好的核苷酸读段)生成第二真阳性变体概率526。在一些情况下,真阳性变体概率指示基因组坐标516处的正确变体检出基因型的概率。例如,检出集成系统106生成针对基因组坐标516的初始基因型检出519如由检出生成模型517确定的那样正确的概率。
继续至图5C,在一些实施方案中,检出集成系统106利用基因型概率508和/或变体检出分类522来更新与变体检出文件相关联的一个或多个数据字段或变体检出文件字段(“VCF”字段)。例如,检出集成系统106基于基因型概率508和变体检出分类522生成合并的SNP变体检出文件536。实际上,在一些情况下,检出集成系统106生成单个合并的变体检出文件,该单个合并的变体检出文件组合来自针对SNP的基因型概率508和来自针对插入缺失的变体检出分类522的数据。
如图所示,检出集成系统106生成更新的VCF字段534,这些更新的VCF字段指示或对应于输出基因型检出的更新的测序度量。具体地,检出集成系统106针对基因型概率508生成更新的VCF字段的一个集合,并且针对变体检出分类522生成更新的VCF字段的另一集合。出于例示的目的,图5C示出了更新的VCF字段534内的几个示例字段,而未单独描绘针对基因型概率508的更新的VCF字段的一个集合和针对变体检出分类522的更新的VCF字段的另一集合。在一些情况下,检出集成系统106基于基因型概率508和/或变体检出分类522仅修改或更新某些VCF字段并且不更新其他字段。
在其他情况下,检出集成系统106不更新VCF字段。例如,当生成基因型检出时,检出集成系统106不基于基因型概率508和/或变体检出分类522来更新某些字段,诸如基因型(GT)字段。实际上,在一些情况下,检出集成系统106不修改或更新GT字段,因为可能没有足够的信息来确定基因组坐标处的新或更新的基因型。
为了例示一个实施方案,图5C描绘了生成1/2基因型(GT)的更新的VCF字段534的检出集成系统106,其中胞嘧啶表示对应于参考基因组的等位基因的基因组坐标处的参考碱基(示出为“Ref:C”),腺嘌呤表示不同等位基因的基因组坐标处的第一替代碱基(“Alt1:A”),并且胸腺嘧啶表示又一不同等位基因的基因组坐标处的第二替代碱基(“Alt 2:T”)。但图5C仅描绘了基因组坐标处的可能的参考碱基和可能的替代碱基的示例。检出集成系统106可生成基因型概率508和变体检出分类522以在VCF字段中修改基因组坐标处的各种其他参考碱基和替代碱基的对应度量。
如图5C中进一步例示的,检出集成系统106生成更新的碱基检出质量(QUAL)字段。更具体地,检出集成系统106基于基因型概率508和/或变体检出分类522来修改或更新碱基检出质量度量以指示基因型检出的准确性。如图所示,更新的碱基检出质量字段指示对应基因组坐标处的变体的QUAL得分48。在该示例中,更新的碱基检出质量度量(例如,QUAL得分48)表示对应基因组坐标处的任何类型的变体的得分。此外,检出集成系统106生成修改的或更新的基因型质量(GQ)字段。例如,基于变体检出分类522,检出集成系统106生成修改的或更新的基因型质量度量,该修改的或更新的基因型质量度量指示基因组坐标处的预测基因型正确的可能性或概率。如图所示,例如,更新的基因型质量字段指示具有杂合基因型的基因型检出的基因型质量度量(例如,多等位基因基因组坐标处的基因型1/2的GQ得分4)。
在一个或多个实施方案中,检出集成系统106进一步生成或更新基因型概率字段,并且(在一些情况下)使用基因型概率字段来对等位基因进行排名。详细来讲,检出集成系统106通过根据归属于多等位基因基因组坐标的相应概率在基因组坐标处对候选基因型检出进行排序来生成更新的GT字段。例如,检出集成系统106确定与多个基因型相关联的概率,其中每个二倍体基因型由一对等位基因组成。又如,检出集成系统106确定与多个等位基因(例如,来自参考基因组、第一替代等位基因和第二替代等位基因)相关联的归属于基因组坐标处的相对概率。
在一些实施方案中,检出集成系统106还或另选地生成PHRED缩放可能性(PL)字段的度量作为更新的VCF字段的一部分。例如,检出集成系统106生成PL字段的度量,该PL字段可指示基因型,诸如纯合参考基因型、杂合基因型和纯合替代基因型(例如,分别具有PL字段命名9/0/3)。
在一个或多个实施方案中,检出集成系统106基于对应于来自检出生成模型的等位基因的基因型检出与由基因型检出集成机器学习模型识别的任何其他(非参考)基因型的相对概率来生成等位基因特定概率或可能性。例如,在一些实施方案中,检出集成系统106指示对应于指示基因型的归一化PHRED缩放可能性的PL字段和/或指示给定所检出的基因型的数据(例如,测序度量)的对数缩放后验基因型概率(例如,log10缩放)的基因型可能性(GP)字段中的相应基因型检出的每个等位基因的相对概率得分。
作为修改SNP的某些VCF字段的动机,在一些情况下,检出集成系统106利用基因型检出集成机器学习模型来生成基因型概率508(其概率总和为1)。具体地,基因型检出集成机器学习模型可将第一基因型概率510生成为0.1,将第二基因型概率512生成为0.2并将第三基因型概率514生成为0.7。在这样的示例中,基于基因型概率508,检出集成系统106通过使用来自基因型检出集成机器学习模型和检出生成模型的信息的组合来更新GT字段、GP字段和PL字段来生成更新的基因型概率字段。
如图5C中进一步例示的,检出集成系统106更新不同基因型(GT)的PL字段。根据PL得分的归一化标度,基因型的相对较低得分(例如,PL 0)表示基因型存在于基因组坐标处的相对较高可能性;并且基因型的相对较高得分(例如PL 101)表示基因型存在于基因组坐标处的相对较低可能性。例如,检出集成系统106确定针对0/0基因型的PL得分为111、针对0/1基因型的PL得分为52以及针对1/1基因型的PL得分为52。因此,在图5C中,PL得分52指示具有最高可能性的基因型或所选择的基因型(例如,0/1和1/1基因型),并且PL得分111表示最低可能性(例如,0/0基因型)。
在一些情况下,检出集成系统106将更新的基因型概率字段生成为经由检出生成模型(而不利用基因型检出集成机器学习模型)识别的多个等位基因的排名。在其他情况下,检出集成系统106利用经训练以基于基因型概率508和/或变体检出分类522生成更新的基因型概率字段的基因型检出集成机器学习模型的专门版本。
如图5C中进一步例示的,检出集成系统106生成或更新变体检出文件,诸如合并的SNP变体检出文件536。例如,检出集成系统106根据分别对应于基因型概率508和变体检出分类522的更新的VCF字段534生成变体检出文件。因此,检出集成系统106基于基因型概率508和/或变体检出分类522生成用于SNP基因型检出的合并的SNP变体检出文件536。实际上,在一些实施方案中,检出集成系统106生成合并的变体检出文件,该合并的变体检出文件合并来自基因型概率508和变体检出分类522两者的SNP和插入缺失的数据。
如图5C所指示的,检出集成系统106可生成合并的SNP变体检出文件536以包括更新的VCF字段534,这些更新的VCF字段包括碱基检出质量度量、基因型质量度量和/或更新的基因型概率字段。例如,检出集成系统106从由检出生成模型生成的初始基因型检出(诸如针对SBS读段的初始基因型检出和针对组装好的核苷酸读段的初始基因型检出)中选择VCF字段,以包括在合并的变体检出文件内。然而,在一些实施方案中,检出集成系统106不选择字段,而是通过使用基因型检出集成机器学习模型来处理基因型概率508和变体检出分类522来为合并的变体检出文件生成新的VCF字段。
如所提及,在一些情况下,检出集成系统106仅更新某些字段,而其他字段诸如基因型(GT)字段保持不变。例如,检出集成系统106更新基因型质量字段和碱基检出质量字段。对于其他数据字段诸如基因型的归一化PHRED标度可能性(PL)和后验基因型概率(GP),检出集成系统106:(i)维持字段原样、(ii)移除字段或者(iii)更新用于反映所检出的基因型和类别0输出0/0的GQ的字段。在一些情况下,检出集成系统106维持其他基因型相对于所检出的基因型的相对概率以确保一致的更新并且所检出的基因型为最高。在某些实施方案中,通过仅更新0/0和1/2的值,检出集成系统106维持其他基因型与所检出的基因型的距离。通过仅更新某些字段,检出集成系统可更有效地生成(合并的)变体检出文件,而无需重新生成全新的变体检出文件(如一些现有系统所做的那样)和/或更新每个字段(甚至是那些因新预测而未改变的字段)。
在合并的变体检出文件内(或作为生成的结果),检出集成系统106可包括或更新与基因组坐标相关联的一个或多个输出基因型检出(例如,变体检出),如基于更新的VCF字段534所确定的。实际上,为了生成输出基因型检出,检出集成系统106可在基因组坐标处根据候选等位基因预测核碱基(例如,根据由合并的变体检出文件指示的它们相应的概率和度量)。因此,检出集成系统106可根据合并的SNP变体检出文件536生成输出SNP和/或输出插入缺失检出。
由于检出集成系统106基于单个管道中的多个读段类型生成基因型检出(例如,组合来自每种类型的读段的数据),因此存在不同类型的核苷酸读段发生冲突的一些情况。实际上,在某些情况下,第一类型的核苷酸读段(例如,SBS读段)的替代读段和第二类型的核苷酸读段(例如,组装好的核苷酸读段)的替代读段可能不一致,其中不同的读段类型指示不同的核苷酸碱基。在此类情况下,检出集成系统106可利用机器学习模型,该机器学习模型经训练以确定哪个读段数据在不同读段类型之间更准确(例如,通过确定在SBS读段与组装好的核苷酸读段之间选择哪个替代)。在一些实施方案中,检出集成系统106通过自动选择SBS指示的替代而不是由组装好的核苷酸读段(或其他读段类型)指示的替代来解决不同读段类型之间的冲突或分歧。
如上所述,在某些实施方案中,检出集成系统106通过学习模型参数(诸如用于生成准确的基因型概率或准确的变体检出分类的权重和偏差)来训练或调整基因型检出集成机器学习模型。具体地,检出集成系统106利用迭代训练过程通过调整或添加导致产生基因型概率(对于SNP)和/或变体检出分类(对于插入缺失)的决策树或学习参数来拟合或训练基因型检出集成机器学习模型。图6例示了根据一个或多个实施方案的训练基因型检出集成机器学习模型的检出集成系统106。虽然图6描绘了基因型检出集成机器学习模型的不同实例以简洁地示出训练过程,但在一些实施方案中,检出集成系统106彼此分开地训练和调整基因型检出集成机器学习模型的一个实例或版本以及基因型检出集成机器学习模型608的另一实例或版本的模型参数。因此,如图6中所描绘的,检出集成系统106基于不同的基准真值数据将基因型检出集成机器学习模型606(例如,SNP特异性模型)和基因型检出集成机器学习模型608(例如,插入缺失特异性模型)作为不同的机器学习模型分开进行训练。尽管作为不同的机器学习模型进行训练,但在一些情况下,基因型检出集成机器学习模型606和基因型检出集成机器学习模型608各自包括相同类型的机器学习模型(例如,梯度提升决策树、深度学习变换器)。
如图6中例示的,检出集成系统106训练基因型检出集成机器学习模型606的一个实例以生成针对SNP的基因型概率,并且训练基因型检出集成机器学习模型608的另一实例以生成针对插入缺失的变体检出分类。具体地,检出集成系统106从数据库602访问样品测序度量604以用作训练数据。例如,检出集成系统106访问样品测序度量604,这些样品测序度量包括基于样品读段的度量、样品外部来源的测序度量和样品检出模型生成的测序度量。在某些实施方案中,样品测序度量604可从由不同的测序设备分析或处理的多个不同的基因组样品来确定、生成或导出。实际上,检出集成系统106可使用具有不同可变性维度的样品测序度量604来训练基因型检出集成机器学习模型606和/或基因型检出集成机器学习模型608。具体地,样品测序度量604可在对样品执行的测序的覆盖范围或量方面变化以获得测序度量。样品测序度量604还可以(或另选地)在文库制备方法、用于获得样品测序度量604的测序设备、测序运行质量(例如,Q30、误差率、和/或通过百分比过滤器的%PF)方面变化。
在一些情况下,样品测序度量604具有与其相关联(例如,存储在数据库602内)的对应的基准真值变体检出文件(例如,作为基准真值数据620的一部分),其中基准真值变体检出文件指示由样品测序度量604产生的实际基因型检出的实际VCF字段。例如,检出集成系统106利用样品测序度量604和来自由美国食品药品监督管理局生成的训练数据集(称为PrecisionFDA数据集)的基准真值变体检出文件(例如,作为基准真值620的一部分)。在一些情况下,样品测序度量604包括基准真值变体检出文件中的每个基因型检出的样品测序度量的子集。基准真值变体检出文件可具有对应于样品测序度量的基准真值基因型检出。
如所提及的,检出集成系统106训练用于SNP基因型检出的基因型检出集成机器学习模型606。为了训练基因型检出集成机器学习模型606,检出集成系统106将样品测序度量604和样品基因型检出603(例如,由来自样品测序度量604的检出生成模型生成的初始基因型检出)输入到基因型检出集成机器学习模型606中。继而,基因型检出集成机器学习模型606根据样品测序度量604生成预测的基因型概率610。例如,如上所述,基因型检出集成机器学习模型606生成预测的第一基因型概率、预测的第二基因型概率和预测的第三基因型概率。
作为训练针对插入缺失的基因型检出集成机器学习模型608的一部分,检出集成系统106将样品测序度量604和样品基因型检出603输入到基因型检出集成机器学习模型608中。继而,基因型检出集成机器学习模型608基于样品测序度量604生成预测的变体检出分类612。具体地,在一些实施方案中,基因型检出集成机器学习模型608生成五个预测的变体检出分类的集合,包括第一真阳性变体概率、第二真阳性变体概率、第一接合性误差概率、第二真阳性接合性误差概率和参考概率,如上所述。
基于预测的基因型概率610和/或预测的变体检出分类612,检出集成系统106生成修改的变体检出文件614。例如,检出集成系统106根据预测的基因型概率610生成修改的变体检出文件,以用于训练基因型检出集成机器学习模型606。附加地或另选地,检出集成系统106根据预测的变体检出分类612生成修改的变体检出文件,以用于训练基因型检出集成机器学习模型608。
如图6中进一步例示的,检出集成系统106执行比较616。具体地,检出集成系统106执行比较616以将(i)预测的基因型概率610与基准真值数据620(例如,基准真值基因型概率)和/或(ii)预测的变体检出分类612与基准真值数据620(例如,基准真值变体检出分类)进行比较。在一些实施方案中,检出集成系统106利用损失函数618来执行比较616。例如,检出集成系统106利用交叉熵损失函数来将预测的基因型概率610与基准真值基因型概率和/或预测的变体检出分类612与基准真值变体检出分类进行比较(例如,以确定它们之间的误差或损失的量度)。在基因型检出集成机器学习模型606或608是梯度提升树的系综的情况下,检出集成系统106利用均方误差损失函数(例如,对于回归)和/或对数损失函数(例如,对于分类)作为损失函数618。
相比之下,在其中基因型检出集成机器学习模型606是神经网络的实施方案中,检出集成系统106可利用交叉熵损失函数、L1损失函数或均方误差损失函数作为损失函数618。例如,检出集成系统106利用损失函数618来确定预测的基因型概率610与基准真值数据620的基准真值基因型概率和/或预测的变体检出分类612与基准真值数据620的基准真值变体检出分类之间的差异。
在一些实施方案中,检出集成系统106可利用(i)检出生成模型来生成初始基因型检出,以及(ii)基因型检出集成机器学习模型606或608来修改对应于初始基因型检出的变体检出文件的数据字段以生成新预测的基因型检出。检出集成系统106输出此类修改的或重新校准的值作为修改的变体检出文件614的一部分。例如,检出集成系统106确定修改的变体检出文件614内的度量的重新校准值,这些度量包括检出质量度量(QUAL)、基因型度量(GT)和基因型质量度量(GQ)。
如图6中进一步例示的,检出集成系统106执行模型拟合622。具体地,检出集成系统106基于比较616来拟合基因型检出集成机器学习模型606或608。例如,检出集成系统106对基因型检出集成机器学习模型606或608的参数(例如,权重和偏差)执行修改或调整以减少来自损失函数618的损失的量度并在后续训练迭代上使用经调整的参数。
对于梯度提升树,例如,检出集成系统106在由损失函数618确定的误差梯度上训练基因型检出集成机器学习模型606或608。例如,检出集成系统106求解(例如,无限维的)凸优化问题,同时正则化目标以避免过度拟合。在某些具体实施中,检出集成系统106缩放梯度以强调对表示不足的类别(例如,其中真阳性变体检出显著多于假阳性变体检出)的校正。
在一些实施方案中,作为求解优化问题的一部分,检出集成系统106针对每个连续训练迭代向基因型检出集成机器学习模型606或608添加新的弱学习器(例如,新的提升树)。例如,检出集成系统106找到最小化来自损失函数618的损失的特征(例如,测序度量),并且向当前迭代的树添加该特征或者开始利用该特征构建新树。
作为梯度提升决策树的补充或替代,检出集成系统106训练逻辑回归以学习用于生成基因型检出的参数。为了避免过度拟合,检出集成系统106进一步基于超参数诸如学习率、随机梯度提升、树的数量、树深度、复杂度罚分和L1/L2正则化来进行正则化。
在基因型检出集成机器学习模型606或608是神经网络的实施方案中检出集成系统106通过修改基因型检出集成机器学习模型606或608的内部参数(例如,权重)来减少损失函数618的损失的量度,从而执行模型拟合622。实际上,检出集成系统106通过修改内部网络参数来修改基因型检出集成机器学习模型606或608如何分析和在层与神经元之间传递数据。因此,通过多次迭代,检出集成系统106提高了基因型检出集成机器学习模型606或608的准确度。
实际上,在一些情况下,检出集成系统106重复图6所示的训练过程以进行多次迭代。例如,检出集成系统106通过为样品基因型检出选择新的测序度量集合以及对应的基准变体检出文件来重复迭代训练。检出集成系统106进一步在每次迭代内生成预测的基因型概率和/或变体检出分类的新集合以及新的修改的变体检出文件。如上所述,检出集成系统106还将在每次迭代时来自修改的变体检出文件的基因型检出和/或数据字段与来自对应基准真值变体检出文件的检出和/或数据字段进行比较。检出集成系统106进一步针对每次迭代执行模型拟合。检出集成系统106重复该过程,直到基因型检出集成机器学习模型606或608生成预测的基因型概率或变体检出分类,这些预测的基因型概率或变体检出分类产生满足损失的阈值量度的基因型检出或变体检出文件。
在一些情况下,检出集成系统106使用验证数据集来确定何时完成训练。例如,检出集成系统106确定验证数据集的损失(例如,通过将验证数据与预测的基因型概率610和/或预测的变体检出分类612进行比较)。基于确定与验证数据集相关联的损失值对于至少阈值次数的迭代(例如,10次迭代)没有减少(阈值量),检出集成系统106可确定训练完成。在一些实施方案中,检出集成系统106可执行训练达阈值迭代次数(例如,400次迭代),随后检出集成系统106确定训练完成。
尽管图6中未例示,但在某些实施方案中,检出集成系统106训练并调整用于单个基因型检出集成机器学习模型的模型参数以在不同训练迭代或训练时期中生成不同输出(例如,基因型概率和变体检出分类)。例如,检出集成系统106(i)执行训练迭代集合以训练和调整用于基因型检出集成机器学习的模型参数以生成基因型概率,以及(ii)执行另一训练迭代集合以训练和调整相同的基因型检出集成机器学习模型以生成变体检出分类。然而,由于两个不同的基因型检出集成机器学习模型(例如,SNP特异性基因型检出集成机器学习模型和插入缺失特异性基因型检出集成机器学习模型)在恢复假阳性变体和假阴性变体方面表现更好,因此图6描绘了分开训练的基因型检出集成机器学习模型606和/或基因型检出集成机器学习模型608。
如所提及,在某些所描述的实施方案中,检出集成系统106利用基因型检出集成机器学习模型以及检出生成模型来生成基因型检出。具体地,检出集成系统106利用基因型检出集成机器学习模型的输出来修改对应于变体检出文件的数据字段,该变体检出文件包括由检出生成模型最初生成的基因型检出。图7例示了根据一个或多个实施方案的检出集成系统106,该检出集成系统基于基因型检出集成机器学习模型和检出生成模型的输出生成基因型检出并修改包括基因型检出和报告的度量的变体检出文件的字段。
如图7中例示的,检出集成系统106访问测序信息数据库702、参考序列704和从一个或多个核苷酸读段(例如,第一类型的核苷酸读段和/或第二类型的核苷酸读段)外推的序列数据708。实际上,检出集成系统106执行测序度量提取714以提取或重新工程化如上所述的测序度量。例如,检出集成系统106生成基于读段的测序度量、外部来源的测序度量和检出模型生成的测序度量。在一些情况下,检出集成系统106利用检出生成模型724的映射和比对部件710来确定如上所述的映射和比对测序度量。此外,检出集成系统106利用检出生成模型724的变体检出器部件712来生成如上所述的变体检出度量。另外,检出集成系统106(例如,根据测序信息数据库702和/或参考序列704)确定基于读段的测序度量和外部来源的测序度量。
如图7中进一步例示的,检出集成系统106生成基因型概率716和/或变体检出分类718。通过分析测序度量、对应于第一类型的核苷酸读段的第一基因型检出700a和对应于第二类型的核苷酸读段的第二基因型检出700b,检出集成系统106利用基因型检出集成机器学习模型706a来生成SNP的基因型概率716,如本文所述。另外,通过分析测序度量、对应于第一类型的核苷酸读段的第一基因型检出700a和对应于第二类型的核苷酸读段的第二基因型检出700b,检出集成系统106利用基因型检出集成机器学习模型706b来生成针对插入缺失的变体检出分类718,如本文所述。如上所述,对应于第一类型的核苷酸读段的第一基因型检出700a和对应于第二类型的核苷酸读段的第二基因型检出700b可能来自不同的读段类型管道。
在一些情况下,基因型检出集成机器学习模型706a或706b是梯度提升树的系综,该集合处理测序度量以生成基因型概率716或变体检出分类718。例如,基因型检出集成机器学习模型706a或706b包括一系列弱学习器,诸如在逻辑回归中被训练以生成基因型概率716或变体检出分类718的非线性决策树。在一些情况下,基因型检出集成机器学习模型706a或706b包括各种树内的度量,这些度量基于上述训练定义如何处理测序度量以生成相应输出。
如上文所提出,在一些实施方案中,检出集成系统106可一起利用基因型检出集成机器学习模型706a和706b。例如,检出集成系统106利用基因型检出集成机器学习模型706a和706b来分别生成基因型概率716和变体检出分类718。例如,检出集成系统106并行地利用两个(或更多个)不同的基因型检出集成机器学习模型,每个基因型检出集成机器学习模型用不同的随机种子进行训练(例如,针对不同偏差以不同方式处理数据)和/或针对不同类型的变体在不同的训练数据上进行训练,从而导致产生不同的预测输出。
在一些实施方案中,检出集成系统106进一步从不同的基因型检出集成机器学习模型706a和706b的输出生成组合预测集合。例如,检出集成系统106组合(例如,平均或总计)来自基因型概率716和变体检出分类718的度量。在一些实施方案中,检出集成系统106确定来自不同模型的预测之间的均值,并将该均值重新归一化。在其他实施方案中,检出集成系统106学习线性权重并且调适权重以最小化总误差或损失。在其他实施方案中,检出集成系统106基于跨模型的平均误差的倒数来针对相应的基因型检出集成机器学习模型对基因型概率和/或变体检出分类进行加权。
在一个或多个具体实施中,检出集成系统106进一步利用继基因型检出集成机器学习模型706a和706b之后的元模型。例如,检出集成系统106生成如上所述的基因型概率716(例如,基因型概率508)和变体检出分类718(例如,变体检出分类522),并利用分类组合器机器学习模型来组合它们。具体地,检出集成系统106可通过选择应用于由每个基因型检出集成机器学习模型生成的变体检出分类的权重来组合从每个基因型检出集成机器学习模型生成的基因型概率和变体检出分类。实际上,在一些情况下,检出集成系统106训练分类组合器机器学习模型以确定、选择或预测基因型检出集成机器学习模型的相应权重,以产生最高准确度或最小损失。
作为生成基因型概率716和/或变体检出分类718的示例,在一些实施方案中,检出集成系统106利用统计值来汇总参考支持读段和替代支持读段的映射质量分布(例如,用于比较映射质量分布度量)。检出集成系统106可确定并利用MAPQ的均值,用于支持来自SBS读段和来自组装好的核苷酸读段的替代等位基因的读段。在这些或其他实施方案中,基因型检出集成机器学习模型706a或706b从数据学习到,当相对于分布中的其他MAPQ和深度度量,替代等位基因的MAPQ(由SBS读段或组装的核苷酸读段表示)低且深度度量高时,所得到的基因型检出更可能是假阳性。实际上,随着假阳性的概率增加,MAPQ度量将可能降低。
再如,在一些情况下,检出集成系统106将与SBS读段和/或组装好的核苷酸读段相关联的映射质量(例如,MAPQ)与映射质量阈值进行比较。例如,检出集成系统106利用映射质量阈值,诸如最佳比对得分和次佳比对得分之间的阈值差。在确定针对不同读段类型的映射质量中的一个或多个映射质量不满足阈值时,检出集成系统106相应地调整基因型概率716或变体检出分类718中的一者或多者(例如,选择具有更高MAPQ的读段)。
此外(或另选地),检出集成系统106可通过利用对复杂函数的统计分析的累积(取决于基因型检出集成机器学习模型706a或706b的架构)来确定如何最佳地拟合数据,从而确定基因型概率716和/或变体检出分类718。例如,如上所述,检出集成系统106训练基因型检出集成机器学习模型706a或706b以最小化从多个(不同类型的)测序度量生成的损失,从而确定与数据最佳拟合(例如,导致减少的或最小化的损失)的权重和偏差。
如图7中进一步例示的,除了生成基因型概率716和变体检出分类718之外,检出集成系统106还执行数据字段生成720。更具体地,检出集成系统106生成用于一个或多个变体检出文件的数据字段。在一些情况下,检出集成系统106生成包括第一基因型检出700a的第一变体检出文件并且进一步生成包括第二基因型检出700b的第二变体检出文件。如所提及的,检出集成系统106可利用第一基因型检出700a和/或第二基因型检出700b来生成预测,诸如基因型概率716和变体检出分类718。如进一步所示,检出集成系统106可使用数据字段生成720来生成合并的变体检出文件722(例如,通过组合第一变体检出文件和第二变体检出文件的全部或选择这些文件中的一部分)以指示输出基因型检出。为了生成合并的变体检出文件722,检出集成系统106利用检出生成模型724的变体检出器部件712,并且基于基因型概率716和/或变体检出分类718来修改或维护此类数据字段的值。
例如,检出集成系统106修改各种度量,诸如质量度量、映射度量或与基因型检出相关联的其他度量。如所提及的,在一些情况下,检出集成系统106选择与第一类型的核苷酸读段或第二类型的核苷酸读段相关联和/或与SNP的基因型概率716和/或插入缺失的变体检出分类718相关联的度量。在其他情况下,检出集成系统106从由检出生成模型724和/或基因型检出集成机器学习模型706a或706b生成的数据生成新度量。在某些实施方案中,基因型检出由合并的变体检出文件722表示或定义,该合并的变体检出文件包括对应于数据字段的度量,诸如与检出质量字段对应的检出质量度量、与基因型字段对应的基因型度量和与基因型质量字段对应的基因型质量度量。
在某些实施方案中,检出集成系统106利用变体检出器部件712以及基因型概率716和/或变体检出分类718来生成基因型检出(的数据字段)。例如,检出集成系统106生成用于基因型检出的各种度量的数据字段以便包括在合并的变体检出文件722内并利用变体检出器部件712的,这些数据字段诸如包括在检出中的核苷酸、检出质量(QUAL)、基因型(GT)、基因型质量(GQ)、一个或多个归一化PHRED标度可能性(PL)和/或基因型概率(GP)。
在一个或多个实施方案中,检出集成系统106使用来自基因型检出集成机器学习模型706a的基因型概率716和/或来自基因型检出集成机器学习模型706b的变体检出分类718来重新校准或修改基因型检出(或生成新的基因型检出)。如所描述,检出集成系统106通过修改或重新校准与基因型检出相关联的度量(例如,如包括在合并的变体检出文件722内)中的一个或多个度量的数据字段来修改基因型检出。
例如,为了更新或重新校准与基因型检出相关联的检出质量度量(QUAL),检出集成系统106确定基因型概率716和/或变体检出分类718中的每一者如何冲击或影响碱基检出质量度量。例如,检出集成系统106确定基因型误差的高概率导致较低的总体基因型质量和可能不同的总体检出质量。又如,检出集成系统106确定假阳性变体的高概率导致较低的总体检出质量。再如,检出集成系统106确定真阳性变体的高概率导致较高的总体(变体)检出质量。检出集成系统106相应地更新基因型以及与基因型检出相关联的基因型质量和检出质量。
在一个或多个具体实施中,检出集成系统106生成基因型概率716和/或变体检出分类718的组合(例如,加权组合或平均值)以重新校准检出质量度量。具体地,检出集成系统106根据基因型概率716和/或变体检出分类718对(变体)检出质量的相应冲击来对它们进行加权。在一些情况下,检出集成系统106均匀地对每个基因型概率或变体检出分类进行加权,而在其他情况下,检出集成系统106针对每个基因型概率或变体检出分类确定不同权重。在任何情况下,检出集成系统106确定基因型概率716和变体检出分类718的加权组合或加权平均值,以重新校准(增加或减少)基因型检出(例如,初始变体检出)的检出质量度量。
为了更新或重新校准与基因型检出相关联的基因型度量(例如,在合并的变体检出文件722的GT字段内),检出集成系统106利用基因型概率716和/或变体检出分类718中的一者或多者。例如,检出集成系统106比较每一者的各种组成预测以确定基因型概率716或变体检出分类718中的哪一者具有最高概率。在一些情况下,检出集成系统106利用具有最高概率的基因型概率和/或变体检出分类来重新校准基因型度量(例如,从如对应于参考碱基的0到如对应于第一替代支持读段的1)。
为了更新或重新校准与基因型检出相关联的基因型质量度量(例如,在合并的变体检出文件722的GQ字段内),检出集成系统106利用基因型概率716和/或变体检出分类718中的一者或多者。更具体地,检出集成系统106确定基因型概率716和/或变体检出分类718中的每一者如何影响基因型质量度量。检出集成系统106相应地重新校准基因型质量度量(例如,通过在0至10之间或0至100之间或在某一其他标度上增加或减少质量得分)。例如,检出集成系统106确定较高的基因型误差概率(通常)指示较低的基因型质量度量,并且检出集成系统106相应地减小该度量。
在一些情况下,检出集成系统106确定基因型概率716和/或变体检出分类718的组合(例如,加权组合或加权平均值)以修改基因型质量度量。例如,检出集成系统106确定基因型概率716和/或变体检出分类718对基因型质量度量的组合效应。又如,检出集成系统106确定基因型概率716和/或变体检出分类718的每个组成预测对基因型质量度量的单独冲击,并且相应地对每一者进行加权。检出集成系统106进一步基于所指示的概率通过增加或减少基因型质量度量的值来重新校准基因型质量度量。
如所描述,检出集成系统106根据同一测序度量集合(或在基因型检出集成机器学习模型706a和706b与检出生成模型724之间共享的测序度量的子集)来生成输出的基因型检出。实际上,检出集成系统106可将基因型检出集成机器学习模型706a和706b与检出生成模型724并行地操作,以生成用于输出的基因型检出、基因型概率716和变体检出分类718的度量,用于重新校准所生成的度量。
在一个或多个具体实施中,检出集成系统106根据特定算法更新或以其他方式修改合并的变体检出文件722的数据字段。在修改此类数据字段之后,检出集成系统106可生成合并的变体检出文件722(例如,后过滤变体检出文件)以包括反映更新的数据字段的度量。例如,在一些情况下,检出集成系统106基于假阳性变体的概率来更新每个变体的QUAL字段。如上文所指示,在一些情况下,QUAL指示在给定位置处存在某种变体(或其他核碱基检出)的概率,该概率以PHRED标度来量度。
如上文所提出,在一些实施方案中,检出集成系统106增加或减少基因型检出的碱基检出质量度量(例如,Q得分)。基于基因型概率716和/或变体检出分类718,例如,检出集成系统106增加先前本未通过质量过滤器的基因型检出的碱基检出质量度量,并且确定增加的碱基检出质量度量现通过质量过滤器。在一些此类情况下,检出集成系统106在后过滤变体检出文件中包括具有此类增加的碱基检出质量度量(通过质量过滤器)的基因型检出。相比之下,在其他情况下,检出集成系统106减少先前原本通过质量过滤器的基因型检出的碱基检出质量度量,并且确定减少的碱基检出质量度量现未能通过质量过滤器。在一些此类情况下,检出集成系统106从后过滤变体检出文件排除具有减少的碱基检出质量度量(未能通过质量过滤器)的基因型检出,但在前过滤变体检出文件中包括具有此类减少的碱基检出质量度量的基因型检出。
例如,检出集成系统106可通过改变对应碱基检出质量度量来移除假阳性变体检出并恢复假阴性变体检出。为了移除假阳性,在一些情况下,基于来自基因型检出集成机器学习模型706a和706b的基因型概率716和/或变体检出分类718,检出集成系统106减少最初通过质量过滤器的基因型检出的碱基检出质量度量。基于确定减少的碱基检出质量度量下降至低于阈值度量(例如,Q得分3.0或10.0),检出集成系统106确定基因型检出不再通过质量过滤器。因此,检出集成系统106通过改变最初通过过滤器的假阳性基因型检出的碱基检出质量度量来过滤掉或移除该假阳性基因型检出。
除基于对碱基检出质量度量的改变来移除假阳性变体检出之外,检出集成系统106还可基于对基因型的改变来移除假阳性变体检出。为了移除假阳性,在一些情况下,检出集成系统106将指示与参考碱基不同的核碱基的初始基因型检出的基因型(例如,GT=1或2)改变为指示与参考碱基相同的核碱基的更新的基因型检出的基因型(例如,GT=0)。基于基因型与参考碱基相同,检出集成系统106不将基因型检出识别为变体,并且在一些情况下从合并的变体检出文件722排除该基因型检出的数据。例如,检出集成系统106可将空数据指示符用于合并的变体检出文件722的基因型检出(或特定字段)。在一些情况下,在特定测序度量不应用于特定变体检出或VCF字段的情况下(例如,在基于SBS的检出使用与基于组装好的核苷酸读段的检出不同的度量的情况下),检出集成系统106使用空数据指示符。
在生成合并的变体检出文件722时,在一些实施方案中,检出集成系统106确定第一管道的第一管道准确性可能性(例如,基于第一读段类型)以及第二管道的第二管道准确性可能性(例如,基于第二读段类型)。为了详细说明,检出集成系统106确定第一基因型检出(例如,基于SBS读段生成的基因型检出)比第二基因型检出(例如,基于组装的核苷酸读段生成的基因型检出)更准确的第一管道准确性可能性。检出集成系统106还确定第二基因型检出比第一基因型检出更准确的第二管道准确性可能性。实际上,检出集成系统106可使用基因型检出集成机器学习模型706a和/或706b来确定第一基因型检出和/或第二基因型检出更准确的可能性或概率。基于管道准确性可能性,检出集成系统106还可从第一基因型检出和/或第二基因型检出生成输出基因型检出(以及合并的变体检出文件722内的对应字段)。
为了恢复假阴性,检出集成系统106增加最初未通过质量过滤器的基因型检出的碱基检出质量度量。基于确定增加的碱基检出质量度量超过阈值度量,检出集成系统106确定基因型检出通过质量过滤器。因此,检出集成系统106通过改变最初被过滤掉的假阴性基因型检出的碱基检出质量度量来恢复该假阴性基因型检出。
除基于对碱基检出质量度量的改变来恢复假阴性之外,检出集成系统106还可基于对基因型的改变来恢复假阴性变体检出。为了恢复假阴性,在一些情况下,检出集成系统106将指示与参考碱基相同的核碱基的初始基因型检出的基因型(例如,GT=0)改变为指示与参考碱基不同的核碱基的更新的基因型检出的不同基因型(例如,GT=1或2)。基于更新的基因型检出的不同基因型和通过的碱基检出质量度量,检出集成系统106将基因型检出识别为变体并且将该基因型检出包括在合并的变体检出文件722内。
实际上,在一些具体实施中,检出集成系统106以特定序列顺序利用检出生成模型724和基因型检出集成机器学习模型706a和706b操作。例如,检出集成系统106通过将BCL文件转换为FASTQ来生成FASTQ文件。此外,检出集成系统106(随后)利用检出生成模型724的映射和比对部件710来映射和比对来自样品核苷酸序列的核碱基。在一些情况下,检出集成系统106关于参考序列704(例如,参考基因组)和/或各种替代支持读段映射和比对样品序列的核碱基。
在映射和比对之后,如本文所述,检出集成系统106然后利用检出生成模型724的变体检出器部件712来基于各种测序度量生成对应于特定基因组坐标的样品序列的初始基因型检出。之后或同时,检出集成系统106还应用基因型检出集成机器学习模型706a和706b以根据经由映射和比对、变体检出和/或从如上所述的其他来源提取的测序度量生成基因型概率716和变体检出分类718。基于基因型概率716和变体检出分类718,检出集成系统106重新校准基因型检出(例如,通过修改对应于核碱基检出的特定度量诸如QUAL、GT、GQ、GP和/或PL的各种数据字段)。
在一些情况下,检出集成系统106进一步将质量过滤器应用于基因型检出,以确定基因型检出是否通过质量过滤器(例如,Q20或其他Q得分的硬通过滤器)。检出集成系统106随后识别表示来自参考碱基的变体并且通过质量过滤器的基因型检出的子集。检出集成系统106进一步生成修改或更新的变体检出文件(例如,合并的变体检出文件722),该合并的变体检出文件包括基因型检出的子集和基因型检出的子集的重新校准度量,诸如更新的QUAL度量、更新的GT度量、更新的GQ度量、更新的GP度量和/或更新的PL度量。
如上文所提及,在某些所描述的实施方案中,检出集成系统106与现有系统相比改进了准确度。具体地,与现有测序系统相比,检出集成系统106减少了假阳性变体基因型检出和假阴性变体基因型检出。实际上,通过利用基于所描述的测序度量的基因型检出集成机器学习模型,检出集成系统106甚至比不利用基因型检出集成机器学习模型的检出生成模型的先前版本(但仍胜过其他系统)还有所改进。图8至图10B例示了展示检出集成系统106的准确度改进的实验的曲线图和表。
例如,图8例示了检出生成模型(例如,不利用基因型检出集成机器学习模型的模型)的先前版本在基于PrecisionFDA数据集生成变体检出中的表现。例如,先前的版本分别分析组装好的核苷酸读段和SBS读段以生成SNP和插入缺失的独立结果。该模型生成变体检出,以用于与基准真值(例如,来自PrecisionFDA数据集,诸如HG001 v4.2.1)进行比较的,以根据假阳性和假阴性的数量确定性能。
如图所示,图802对应于表806,并且曲804对应于表808。图802描绘了对应于表806的数据的接收者操作特征(ROC)曲线,其中检出生成模型的先前版本(例如,无机器学习元素)基于组装好的核苷酸读段和SBS读段来独立地确定针对SNP的变体检出。同样,图804描绘了表808的数据的ROC曲线,其中先前版本基于组装好的核苷酸读段和SBS读段独立地确定针对插入缺失的变体检出。虽然先前系统的性能在每种情况下都是良好的(例如,与其他先前系统相比没有相对较少的FP和FN),但检出集成系统106仍可通过减少假阳性和/或假阴性来改进该性能。
例如,图9A例示了将检出生成模型的先前版本的性能与检出集成系统106的性能进行比较的表。如图所示,表902描绘了变体检出模型(SBS+ML+GRAPH)的假阳性和假阴性(FP+FN)的累积指示,该变体检出模型使用单个读段类型(例如,SBS读段)连同机器学习预测和图基因组(例如,Illumina DRAGEN图参考基因组hg19)来生成针对SNP和插入缺失的变体检出。表902还描绘了来自检出集成系统106的结果,该检出集成系统利用基因型检出集成机器学习模型来基于SBS读段和组装好的核苷酸读段两者生成变体检出(针对SNP和插入缺失)(除了使用特定测序度量和机器学习预测之外)。
如图9A中例示的,实验者通过使用不同的模型生成针对HG002数据集的变体检出来生成表902的结果,该HG002数据集是特定基因组样品的可用人类基因组数据的特定集合。以类似的方式,表904描述了先前模型和基因型检出集成机器学习模型在生成HG003数据集的变体检出中的结果。如图所示,具有基因型检出集成机器学习模型的检出集成系统106优于先前模型,导致每个表中的FP+FN度量更少,并且在每种情况下也具有更高的F1得分(例如,针对表902和表904中的SNP和插入缺失)。实际上,通过针对不同类型的读段利用不同的读段源,与不能处理多个读段类型的系统相比,检出集成系统106可生成更准确的变体检出。
继续图9B,表906例示了在使用基因型检出集成机器学习模型来生成HG002数据集和HG003数据集的SNP时由实验者生成的结果。另外,表908例示了在使用基因型检出集成机器学习模型来生成HG002数据集和HG003数据集的插入缺失时由实验者生成的结果。实际上,通过对基因型检出集成机器学习模型的更长训练,实验者已证明,除了先前附图中所指示的度量外,准确性还有进一步的提高。与现有系统相比,图9B的准确性度量(例如,在表906中和在表908中)指示基因型检出集成机器学习模型的准确性度量的显著改进,特别是在FN、FP、重新检出、精度和F1测量方面。实际上,图9B中所示的基因型检出集成机器学习模型的准确性度量是对图9A中的基因型检出集成机器学习模型的准确性度量的改进,这是对不使用基因型检出集成机器学习模型的现有系统的进一步改进。
如图10A中例示的,图1002描绘了用于比较不同变体检出器在生成针对SNP的变体检出中的性能的ROC曲线。例如,图1002示出了曲线下面积最大的曲线通常表现最佳的ROC曲线。如图所示,具有基因型检出集成机器学习模型的检出集成系统106优于其他模型。其他模型包括SBS+ML+GRAPH模型(如图9的表中所反映的)、(仅)从组装好的核苷酸读段生成变体检出的模型(例如,无需进一步分析或机器学习技术)、以及(仅)从SBS读段生成变体检出的模型(例如,无需进一步分析或机器学习技术)。如图1002所指示,基因型检出集成机器学习模型具有最高的曲线下面积和最少的假阳性,在测试数据集(例如PrecisionFDA数据集)上优于其他模型。
图10B例示了与图1002一致的柱形图1004。详细来讲,柱形图1004提供了基因型检出集成机器学习模型和SBS+ML+GRAPH模型之间在针对SNP(例如,对于染色体20-21-22)的变体检出中的比较的替代可视化。实际上,柱形图1004指示假阴性和假阳性、以及它们对于每个模型的累积总数。如图所示,基因型检出集成机器学习模型比SBS+ML+GRAPH模型生成更准确的变体检出,导致更少的假阴性、更少的假阳性和更少的总体FP+FN。
现在转向图11,该图例示了根据一个或多个实施方案的使用基因型检出集成机器学习模型生成输出基因型检出的一系列动作的示例流程图。虽然图11例示了根据一个实施方案的动作,但另选实施方案可省略、添加、重新排序和/或修改图11所示的任何动作。图11的动作可作为方法的一部分来执行。另选地,非暂态计算机可读存储介质可包括在由一个或多个处理器执行时使得计算设备执行图11描绘的动作的指令。在又一些实施方案中,系统包括至少一个处理器和非暂态计算机可读介质,该非暂态计算机可读介质包括在由一个或多个处理器执行时使系统执行图11的动作的指令。
图11例示了使用基因型检出集成机器学习模型生成输出基因型检出的一系列动作1100。具体地,该系列动作1100包括接收针对第一读段类型的第一基因型检出和针对第二读段类型的第二基因型检出的动作1102。例如,动作1102可涉及对于基因组样品的一个或多个基因组坐标,接收对应于第一阈值数量的核碱基的第一类型的核苷酸读段的第一基因型检出和对应于第二阈值数量的核碱基的第二类型的核苷酸读段的第二基因型检出。第一类型的核苷酸读段可包括从比第一阈值数量的核碱基短的样品库片段合成的核苷酸读段。第二类型的核苷酸读段可包括已由较短核苷酸读段组装以形成满足第一阈值数量的核碱基的连续序列的组装好的核苷酸读段、满足第一阈值数量的核碱基的循环共有测序(CCS)读段、或满足第一阈值数量的核碱基的纳米孔长读段。第一基因型检出可包括第一变体检出或第一参考检出。第二基因型检出可包括第二变体检出或第二参考检出。在一些情况下,第一基因型检出或第二基因型检出包括空数据指示符。
如图11中进一步例示的,该系列动作1100包括识别测序度量的动作1104。具体地,动作1104可涉及识别对应于第一基因型检出或第二基因型检出的测序度量。例如,动作1104涉及通过识别以下中的一者或多者来识别对应于第一基因型检出或第二基因型检出的测序度量、与对应于第一类型的核苷酸读段的第一基因型检出相关联的第一测序度量集合、与对应于第二类型的核苷酸读段的第二基因型检出相关联的第二测序度量集合、或与第一基因型检出和第二基因型检出相关联的共享测序度量集合。在一些情况下,动作1104涉及通过确定以下中的一者或多者来识别对应于第一基因型检出或第二基因型检出的测序度量:基于读段的测序度量、检出模型生成的测序度量、外部来源的测序度量或与对应于第二类型的核苷酸读段的第二基因型检出相关联的第二读段类型测序度量。
在一个或多个实施方案中,动作1104涉及识别基于读段的测序度量,该基于读段的测序度量包括以下中的一者或多者:对应于第一基因型检出的等位基因、第二基因型检出的等位基因或与第一基因型检出和第二基因型检出不同的替代基因型检出的不同等位基因的等位基因频率;对应于第一基因型检出的第一类型的核苷酸读段或对应于第二基因型检出的第二类型的核苷酸读段的覆盖深度;对应于第一基因型检出的第一类型的核苷酸读段或对应于第二基因型检出的第二类型的核苷酸读段的平均覆盖深度;对应于第一基因型检出的第一类型的核苷酸读段或对应于第二基因型检出的第二类型的核苷酸读段的映射质量度量;或来自第一类型的核苷酸读段或第二类型的核苷酸读段的一个或多个核苷酸读段的核碱基组成。
在某些实施方案中,动作1104涉及识别检出模型生成的测序度量,这些测序度量包括以下中的一者或多者:针对根据第一类型的核苷酸读段确定的第一基因型检出或根据第二类型的核苷酸读段确定的第二基因型检出的基因型度量、碱基检出质量度量、基因型质量度量、基因型概率度量、基因型可能性度量(例如,非PHRED缩放可能性度量或PHRED缩放可能性度量)。
在这些或其他实施方案中,动作1104涉及识别外部来源的测序度量,这些测序度量包括以下中的一者或多者:可映射性度量,该可映射性度量指示将核苷酸读段映射到参考基因组内的一个或多个基因组坐标的困难程度;指示对应于参考基因组内的一个或多个基因组坐标的鸟嘌呤-胞嘧啶含量的计数的鸟嘌呤-胞嘧啶含量度量;指示能够准确确定一个或多个基因组坐标处的核碱基的程度的置信度分类或置信度得分;指示针对一个或多个基因组坐标的重复基因组区域的类别的重复分类;指示一个或多个基因组坐标是参考基因组内的胞嘧啶四链体(C-四链体)的一部分的指示符;指示所述一个或多个基因组坐标是参考基因组内的鸟嘌呤四链体(G-四链体)的一部分的指示符;或指示一个或多个基因组坐标是参考基因组内的均聚物的一部分的指示符。
附加地,该系列动作1100可包括使用基因型检出集成机器学习模型生成基因型概率和/或变体检出分类的动作1106。具体地,动作1106可涉及利用基因型检出集成机器学习模型并且基于测序度量生成针对一个或多个基因组坐标的基因型检出的基因型概率。在一些情况下,动作1106涉及利用基因型检出集成机器学习模型并且基于测序度量生成针对一个或多个基因组坐标处的候选变体检出的变体检出分类。
在一个或多个实施方案中,动作1106涉及通过利用用单核苷酸多态性(SNP)训练数据训练的基因型检出集成机器学习模型生成一个或多个候选SNP的基因型概率来生成基因型概率。在某些实施方案中,动作1106涉及:生成在一个或多个基因组坐标处包括纯合参考基因型的基因组样品的第一基因型概率;生成在一个或多个基因组坐标处包括杂合变体基因型的基因组样品的第二基因型概率;以及生成在一个或多个基因组坐标处包括纯合变体基因型的基因组样品的第三基因型概率。
在某些实施方案中,动作1106涉及利用用插入缺失训练数据训练的基因型检出集成机器学习模型来生成针对一个或多个候选插入或缺失(插入缺失)的变体检出分类。动作1106可涉及通过生成以下中的一者或多者来生成针对候选变体的变体检出分类:第一基因型检出构成一个或多个基因组坐标的真阳性变体的第一真阳性变体概率;第二基因型检出构成一个或多个基因组坐标的真阳性变体的第二真阳性变体概率;第一基因型检出包括在一个或多个基因组坐标处的基因型接合性误差的第一接合性误差概率;第二基因型检出包括在一个或多个基因组坐标处的基因型接合性误差的第二接合性误差概率;或一个或多个基因组坐标处的纯合参考基因型的参考概率。
在一些实施方案中,该系列动作1108包括从基因型概率和/或变体检出分类生成输出基因型检出的动作1108。具体地,动作1108可涉及基于基因型概率生成针对基因组样品的一个或多个基因组坐标的输出基因型检出。在一些情况下,动作1108涉及基于变体检出分类生成针对基因组样品的一个或多个基因组坐标的输出基因型检出。在某些实施方案中,动作1108涉及生成指示在基因组样品的一个或多个基因组坐标处存在或不存在SNP的输出基因型检出。在一些实施方案中,动作1108涉及生成指示在基因组样品的一个或多个基因组坐标处存在或不存在插入缺失的输出基因型检出。动作1108可包括:选择第一基因型检出或第二基因型检出;或生成不同于第一基因型检出和第二基因型检出的不同基因型检出。
在某些实施方案中,动作1108涉及选择第一基因型检出而不是第二基因型检出。选择第一基因型检出而不是第二基因型检出可涉及:从第一基因型检出中选择纯合参考基因型检出,而不是从第二基因型检出中选择杂合变体基因型检出或纯合变体基因型检出;从第二基因型检出中选择杂合变体基因型检出,而不是从第一基因型检出中选择纯合参考基因型检出或纯合变体基因型检出;或从第一基因型检出中选择纯合变体基因型检出,而不是从第二基因型检出中选择杂合变体基因型检出或纯合参考基因型检出。
在一些情况下,动作1108涉及通过以下方式选择第二基因型检出而不是所述第一基因型检出:从第二基因型检出中选择纯合参考基因型检出,而不是从第一基因型检出中选择杂合变体基因型检出或纯合变体基因型检出;从第二基因型检出中选择杂合变体基因型检出,而不是从第一基因型检出中选择纯合参考基因型检出或纯合变体基因型检出;或从第二基因型检出中选择纯合变体基因型检出,而不是从第一基因型检出中选择杂合变体基因型检出或纯合参考基因型检出。动作1108可涉及:选择第一基因型检出或第二基因型检出;或生成不同于第一基因型检出和第二基因型检出的不同基因型检出。
在一个或多个实施方案中,该系列动作1100包括基于基因型概率和/或变体检出分类来修改基因型度量、碱基检出质量度量、基因型质量度量、基因型概率度量、基因型可能性度量或PHRED缩放基因型可能性度量的动作。在这些或其他实施方案中,该系列动作1100包括生成变体检出文件的动作,该变体检出文件包括所修改的基因型度量、所修改的碱基检出质量度量、所修改的基因型质量度量、所修改的基因型概率度量、所修改的基因型可能性度量或所修改的PHRED缩放基因型可能性度量。
在某些实施方案中,该系列动作1100包括通过基于第一类型的核苷酸读段接收第一基因型检出作为第一变体检出文件的一部分来接收第一基因型检出的动作。在相同或其他实施方案中,该系列动作1100包括以下动作:通过基于第二类型的核苷酸读段接收第二基因型检出作为第二变体检出文件的一部分来接收第二基因型检出;以及生成包括第一基因型检出或第二基因型检出的合并的变体检出文件。
在一些实施方案中,该系列动作1100包括确定第一基因型检出包括不同于第二基因型检出的第二替代核碱基的第一替代核碱基的动作。该系列动作1100还可包括利用基因型检出集成机器学习模型并且基于测序度量来生成第一基因型检出比第二基因型检出更准确的第一管道准确性可能性以及第二基因型检出比第一基因型检出更准确的第二管道准确性可能性的动作。此外,该系列动作1100可包括通过基于第一管道准确性可能性和第二管道准确性可能性选择针对基因组样品的一个或多个基因组坐标的第一基因型检出或第二基因型检出来生成输出基因型检出的动作。
该系列动作1100可包括确定第一真阳性变体概率未能满足可能性阈值的动作。另外,该系列动作1100可包括基于确定第一真阳性变体概率未能满足可能性阈值来生成或利用第二真阳性变体概率的动作1100。
本文所述的方法可与多种核酸测序技术结合使用。特别适用的技术是其中核酸附接到阵列中的固定位置处使得其相对位置不改变并且其中该阵列被重复成像的那些技术。在不同颜色通道(例如,与用于将一种核碱基类型与另一种核碱基类型区分开的不同标记吻合)中获得图像的实施方案特别适用。在一些实施方案中,用于确定靶核酸(即,核酸聚合物)的核苷酸序列的过程可以是自动化过程。优选的实施方案包括边合成边测序(SBS)技术。
SBS技术通常包括通过针对模板链反复加入核苷酸进行的新生核酸链的酶促延伸。在传统的SBS方法中,可在每次递送中在存在聚合酶的情况下将单个核苷酸单体提供给靶核苷酸。然而,在本文所述的方法中,可在递送中存在聚合酶的情况下向靶核酸提供多于一种类型的核苷酸单体。
SBS可利用具有终止子部分的核苷酸单体或缺少任何终止子部分的核苷酸单体。利用缺少终止子的核苷酸单体的方法包括例如焦磷酸测序和使用γ-磷酸标记的核苷酸的测序,如下文进一步详细描述的。在使用缺少终止子的核苷酸单体的方法中,在每个循环中加入的核苷酸的数目通常是可变的,并且该数目取决于模板序列和核苷酸递送的方式。对于利用具有终止子部分的核苷酸单体的SBS技术,终止子在使用的测序条件下可为有效不可逆的,如利用双脱氧核苷酸的传统桑格测序的情况,或者终止子可为可逆的,如由Solexa(现为Illumina,Inc.)开发的测序方法的情况。
SBS技术可利用具有标记部分的核苷酸单体或缺少标记部分的核苷酸单体。因此,可基于以下项来检测掺入事件:标记的特性,诸如标记的荧光;核苷酸单体的特性,诸如分子量或电荷;掺入核苷酸的副产物,诸如焦磷酸盐的释放;等等。在测序试剂中存在两种或更多种不同的核苷酸的实施方案中,不同的核苷酸可以是彼此可区分的,或者另选地,两种或更多种不同的标记在所使用的检测技术下可以是不可区分的。例如,测序试剂中存在的不同核苷酸可具有不同的标记,并且它们可使用适当的光学器件进行区分,如由Solexa(现为Illumina,Inc.)开发的测序方法所例示。
优选的实施方案包括焦磷酸测序技术。焦磷酸测序检测当将特定的核苷酸掺入新生链中时无机焦磷酸盐(Ppi)的释放(Ronaghi,M.,Karamohamed,S.,Pettersson,B.,Uhlen,M.和Nyren,P.(1996)“Real-time DNA sequencing using detection ofpyrophosphate release.”Analytical Biochemistry 242(1),84-9;Ronaghi,M.(2001)“Pyrosequencing sheds light on DNA sequencing”Genome Res.11(1),3-11;Ronaghi,M.、Uhlen,M.和Nyren,P.(1998年),“A sequencing method based on real-timepyrophosphate.”,Science 281(5375),363;美国专利号6,210,891;美国专利号6,258,568和美国专利号6,274,320,这些文献的公开内容全文以引用方式并入本文)。在焦磷酸测序中,释放的Ppi可由腺苷三磷酸(ATP)硫酸化酶立即转化为ATP成来进行检测,并且经由荧光素酶产生的光子来检测所生成的ATP水平。待测序的核酸可附接到阵列中的特征部,并且可对阵列进行成像以捕获由于在阵列的特征部处掺入核苷酸而产生的化学发光信号。可在用特定核苷酸类型(例如,A、T、C或G)处理阵列后获得图像。在添加每种核苷酸类型后获得的图像将在阵列中哪些特征部被检测到方面不同。图像中的这些差异反映阵列上的特征部的不同序列内容。然而,每个特征部的相对位置将在图像中保持不变。可使用本文所述的方法存储、处理和分析图像。例如,在用每种不同核苷酸类型处理阵列后获得的图像可以与本文针对从用于基于可逆终止子的测序方法的不同检测通道获得的图像所例示的相同方式进行处理。
在另一种示例性类型的SBS中,通过逐步添加可逆终止子核苷酸来完成循环测序,这些可逆终止子核苷酸包含例如可裂解或可光漂白的染料标记,如例如WO 04/018497和美国专利号7,057,026所述,这两份专利的公开内容以引用方式并入本文。该方法由Solexa(现为Illumina Inc.)商业化,并且还在WO 91/06678和WO 07/123,744中有所描述,这些文献中的每一者的公开内容以引用方式并入本文。荧光标记终止子(其中终止可以是可逆的并且荧光标记可被裂解)的可用性有利于高效的循环可逆终止(CRT)测序。聚合酶也可共工程化以有效地掺入这些经修饰的核苷酸并从这些经修饰的核苷酸延伸。
优选地,在基于可逆终止子的测序实施方案中,标记在SBS反应条件下基本上不抑制延伸。然而,检测标记可以是可移除的,例如通过裂解或降解移除。可在将标记掺入到阵列化核酸特征部中后捕获图像。在具体实施方案中,每个循环涉及将四种不同的核苷酸类型同时递送到阵列,并且每种核苷酸类型具有在光谱上不同的标记。然后可获得四个图像,每个图像使用对四个不同标记中的一个标记具有选择性的检测通道。另选地,可顺序地添加不同的核苷酸类型,并且可在每个添加步骤之间获得阵列的图像。在此类实施方案中,每个图像将示出已掺入特定类型的核苷酸的核酸特征部。由于每个特征部的不同序列内容,不同特征部存在于或不存在于不同图像中。然而,特征部的相对位置将在图像中保持不变。通过此类可逆终止子-SBS方法获得的图像可如本文所述进行存储、处理和分析。在图像捕获步骤后,可移除标记并且可移除可逆终止子部分以用于核苷酸添加和检测的后续循环。已在特定循环中以及在后续循环之前检测到标记之后移除这些标记可提供减少循环之间的背景信号和串扰的优点。可用的标记和去除方法的示例在下文进行阐述。
在具体实施方案中,一些或所有核苷酸单体可包括可逆终止子。在此类实施方案中,可逆终止子/可裂解荧光团可包括经由3'酯键连接到核糖部分的荧光团(Metzker,Genome Res.15:1767-1776(2005年),该文献以引用方式并入本文)。其他方法已将终止子化学与荧光标记的裂解分开(Ruparel等人,Proc Natl Acad Sci USA 102:5932-7(2005年),该文献全文以引用方式并入本文)。Ruparel等人描述了可逆终止子的发展,这些可逆终止子使用小的3'烯丙基基团来阻断延伸,但是可通过用钯催化剂进行的短时间处理来容易地去阻断。荧光团经由可光切割的接头附接到碱基,该可光切割的接头可通过暴露于长波长紫外光30秒来容易地切割。因此,二硫化物还原或光切割可用作可切割的接头。可逆终止的另一种方法是使用天然终止,该天然终止在将大体积染料放置在dNTP上之后接着发生。dNTP上存在带电大体积染料可通过空间位阻和/或静电位阻而充当高效的终止子。除非染料被移除,否则一个掺入事件的存在防止进一步的掺入。染料的裂解移除荧光团并有效地逆转终止。修饰的核苷酸的示例还描述于美国专利号7,427,673和美国专利号7,057,026中,其公开内容全文以引用方式并入本文。
可与本文所述的方法和系统一起利用的附加的示例性SBS系统和方法描述于美国专利申请公布号2007/0166705、美国专利申请公布号2006/0188901、美国专利号7,057,026、美国专利申请公布号2006/0240439、美国专利申请公布号2006/0281109、PCT公布号WO05/065814、美国专利申请公布号2005/0100900、PCT公布号WO 06/064199、PCT公布号WO07/010,251、美国专利申请公布号2012/0270305和美国专利申请公布号2013/0260372中,这些文献的公开内容全文以引用方式并入本文。
一些实施方案可使用少于四种不同标记来使用对四种不同核苷酸的检测。例如,可利用并入的美国专利申请公布号2013/0079232的材料中所述的方法和系统来执行SBS。作为第一示例,一对核苷酸类型可在相同波长下检测,但基于对中的一个成员相对于另一个成员的强度差异,或基于对中的一个成员的导致与检测到的该对的另一个成员的信号相比明显的信号出现或消失的改变(例如,通过化学改性、光化学改性或物理改性)来区分。作为第二示例,四种不同核苷酸类型中的三种能够在特定条件下被检测到,而第四种核苷酸类型缺少在那些条件下可被检测到或在那些条件下被最低限度地检测到的标记(例如,由于背景荧光而导致的最低限度检测等)。可基于其相应信号的存在来确定前三种核苷酸类型掺入到核酸中,并且可基于任何信号的不存在或对任何信号的最低限度检测来确定第四核苷酸类型掺入到核酸中。作为第三示例,一种核苷酸类型可包括在两个不同通道中检测到的标记,而其他核苷酸类型在不超过一个通道中被检测到。上述三种例示性构型不被认为是互相排斥的,并且可以各种组合进行使用。组合所有三个示例的示例性实施方案是基于荧光的SBS方法,该方法使用在第一通道中检测到的第一核苷酸类型(例如,具有当由第一激发波长激发时在第一通道中检测到的标记的dATP),在第二通道中检测到的第二核苷酸类型(例如,具有当由第二激发波长激发时在第二通道中检测到的标记的dCTP),在第一通道和第二通道两者中检测到的第三核苷酸类型(例如,具有当被第一激发波长和/或第二激发波长激发时在两个通道中检测到的至少一个标记的dTTP),以及缺少在任一通道中检测到或最低限度地检测到的标记的第四核苷酸类型(例如,不具有标记的dGTP)。
此外,如并入的美国专利申请公布号2013/0079232的材料中所述,可使用单个通道获得测序数据。在此类所谓的单染料测序方法中,标记第一核苷酸类型,但在生成第一图像之后移除标记,并且仅在生成第一图像之后标记第二核苷酸类型。第三核苷酸类型在第一图像和第二图像中都保留其标记,并且第四核苷酸类型在两个图像中均保持未标记。
一些实施方案可利用边连接边测序技术。此类技术利用DNA连接酶掺入寡核苷酸并识别此类寡核苷酸的掺入。寡核苷酸通常具有与寡核苷酸杂交的序列中的特定核苷酸的同一性相关的不同标记。与其他SBS方法一样,可在用已标记的测序试剂处理核酸特征部的阵列后获得图像。每个图像将示出已掺入特定类型的标记的核酸特征部。由于每个特征部的不同序列内容,不同特征部存在于或不存在于不同图像中,但特征部的相对位置将在图像中保持不变。通过基于连接的测序方法获得的图像可如本文所述进行存储、处理和分析。可与本文所述的方法和系统一起使用的示例性SBS系统和方法在美国专利号6,969,488、美国专利号6,172,218和美国专利号6,306,597中有所描述,这些专利的公开内容全文以引用方式并入本文。
一些实施方案可利用纳米孔测序(Deamer,D.W.和Akeson,M.“Nanopores andnucleic acids:prospects for ultrarapid sequencing.”Trends Biotechnol.18,147-151(2000年);Deamer,D.和D.Branton,“Characterization of nucleic acids bynanopore analysis”.Acc.Chem.Res.35:817-825(2002年);Li,J.,M.Gershow,D.Stein,E.Brandin和J.A.Golovchenko,“DNA molecules and configurations in a solid-statenanopore microscope”Nat.Mater.2:611-615(2003年),这些文献的公开内容全文以引用方式并入本文)。在此类实施方案中,靶核酸穿过纳米孔。纳米孔可为合成孔或生物膜蛋白,诸如α-溶血素。当靶核酸穿过纳米孔时,可通过测量孔的电导率的波动来识别每个碱基对。(美国专利号7,001,792;Soni,G.V.和Meller,“A.Progress toward ultrafast DNAsequencing using solid-state nanopores.”Clin.Chem.53,1996-2001(2007年);Healy,K.“Nanopore-based single-molecule DNA analysis.”Nanomed.,2,459-481(2007年);Cockroft,S.L.,Chu,J.,Amorin,M.和Ghadiri,M.R.“A single-molecule nanoporedevice detects DNA polymerase activity with single-nucleotide resolution.”J.Am.Chem.Soc.130,818-820(2008年),这些文献的公开内容全文以引用方式并入本文)。从纳米孔测序获得的数据可如本文所述进行存储、处理和分析。具体地,根据本文所述的光学图像和其他图像的示例性处理,可将数据如同图像那样进行处理。
一些实施方案可利用涉及DNA聚合酶活性的实时监测的方法。可通过携带荧光团的聚合酶与γ-磷酸标记的核苷酸之间的荧光共振能量转移(FRET)相互作用来检测核苷酸掺入,如例如美国专利号7,329,492和美国专利号7,211,414中所述(这两份专利中的每一者以引用方式并入本文),或者可用零模波导来检测核苷酸掺入,如例如美国专利号7,315,019中所述(该专利以引用方式并入本文),并且可使用荧光核苷酸类似物和工程化聚合酶来检测核苷酸掺入,如例如美国专利号7,405,281和美国专利申请公布号2008/0108082中所述(这两份专利中的每一者以引用方式并入本文)。照明可限于表面栓系的聚合酶周围的仄升量级的体积,使得可在低背景下观察到荧光标记的核苷酸的掺入(Levene,M.J.等人,“Zero-mode waveguides for single-molecule analysis at high concentrations.”Science299,682-686(2003年);Lundquist,P.M.等人,“Parallel confocal detection ofsingle molecules in real time.”Opt.Lett.33,1026-1028(2008年);Korlach,J.等人,“Selective aluminum passivation for targeted immobilization of single DNApolymerase molecules in zero-mode waveguide nano structures.”Proc.Natl.Acad.Sci.USA 105,1176-1181(2008年),这些文献的公开内容全文以引用方式并入本文)。通过此类方法获得的图像可如本文所述进行存储、处理和分析。
一些SBS实施方案包括检测在核苷酸掺入延伸产物时释放的质子。例如,基于释放质子的检测的测序可使用可从Ion Torrent公司(Guilford,CT,它是Life Technologies子公司)商购获得的电检测器和相关技术或在US2009/0026082A1、US2009/0127589A1、US2010/0137143A1或US 2010/0282617A1中所述的测序方法和系统,这些文献中的每一篇均以引用方式并入本文。本文阐述的使用动力学排阻来扩增靶核酸的方法可容易地应用于用于检测质子的基板。更具体地,本文阐述的方法可用于产生用于检测质子的扩增子克隆群体。
上述SBS方法可有利地以多种格式进行,使得同时操纵多个不同的靶核酸。在具体实施方案中,可在共同的反应容器中或在特定基板的表面上处理不同的靶核酸。这允许以多种方式方便地递送测序试剂、移除未反应的试剂和检测掺入事件。在使用表面结合的靶核酸的实施方案中,靶核酸可为阵列格式。在阵列格式中,靶核酸通常可以在空间上可区分的方式结合到表面。靶核酸可通过直接共价附着、附着到小珠或其他粒子或结合到附着到表面的聚合酶或其他分子来结合。阵列可包括在每个位点(也被称为特征部)处的靶核酸的单个拷贝,或者具有相同序列的多个拷贝可存在于每个位点或特征部处。多个拷贝可通过扩增方法(诸如,如下文进一步详细描述的桥式扩增或乳液PCR)产生。
本文所述的方法可使用具有处于多种密度中任一种密度的特征部的阵列,该多种密度包括例如至少约10个特征部/cm2、100个特征部/cm2、500个特征部/cm2、1,000个特征部/cm2、5,000个特征部/cm2、10,000个特征部/cm2、50,000个特征部/cm2、100,000个特征部/cm2、1,000,000个特征部/cm2、5,000,000个特征部/cm2或更高。
本文阐述的方法的优点是它们并行提供了对多个靶核酸的快速且有效检测。因此,本公开提供了能够使用本领域已知的技术(诸如上文所例示的那些)来制备和检测核酸的集成系统。因此,本公开的集成系统可包括能够将扩增试剂和/或测序试剂递送到一个或多个固定DNA片段的流体组件,该系统包括诸如泵、阀、贮存器、流体管线等的组件。流通池在集成系统中可被配置用于和/或用于检测靶核酸。示例性流通池在例如US2010/0111768A1和美国序列号13/273,666中有所描述,这两份专利中的每一者以引用方式并入本文。如针对流通池所例示的,集成系统的一个或多个流体组件可用于扩增方法和检测方法。以核酸测序实施方案为例,集成系统的一个或多个流体组件可用于本文阐述的扩增方法以及用于在测序方法(诸如上文例示的那些)中递送测序试剂。另选地,集成系统可包括单独的流体系统以执行扩增方法并执行检测方法。能够产生扩增核酸并且还确定核酸序列的集成测序系统的示例包括但不限于MiSeqTM平台(Illumina,Inc.,San Diego,CA)以及在美国序列号13/273,666中描述的设备,该专利以引用方式并入本文。
上述测序系统对测序设备接收的样品中存在的核酸聚合物进行测序。如本文所定义,“样品”及其衍生物以其最广泛的意义使用,包括怀疑包含目标的任何标本、培养物等。在一些实施方案中,样品包括DNA、RNA、PNA、LNA、嵌合或杂交形式的核酸。样品可包括含有一种或多种核酸的任何基于生物、临床、外科、农业、大气或水生动植物的标本。该术语还包括任何分离的核酸样品,诸如基因组学DNA、新鲜冷冻或福尔马林固定石蜡包埋的核酸标本。还设想样品的来源可以是:单个个体、来自遗传相关成员的核酸样品的集合、来自遗传不相关成员的核酸样品、来自单个个体的(与之匹配的)核酸样品(诸如肿瘤样品和正常组织样品),或者来自含有两种不同形式的遗传物质(诸如从母体受试者获得的母体DNA和胎儿DNA)的单个来源的样品,或者在含有植物或动物DNA的样品中存在污染性细菌DNA。在一些实施方案中,核酸材料的来源可包括从新生儿获得的核酸,例如通常用于新生儿筛检的核酸。
核酸样品可包括高分子量物质,诸如基因组学DNA(gDNA)。样品可包括低分子量物质,诸如从FFPE样品或存档的DNA样品获得的核酸分子。在另一个实施方案中,低分子量物质包括酶促片段化或机械片段化的DNA。样品可包括无细胞循环DNA。在一些实施方案中,样品可包括从活检组织、肿瘤、刮取物、拭子、血液、黏液、尿液、血浆、精液、毛发、激光捕获显微解剖、手术切除和其他临床或实验室获得的样品获得的核酸分子。在一些实施方案中,样品可以是流行病学样品、农业样品、法医学样品或病原性样品。在一些实施方案中,样品可包括从动物(诸如人类或哺乳动物来源)获得的核酸分子。在另一个实施方案中,样品可包括从非哺乳动物来源(诸如植物、细菌、病毒或真菌)获得的核酸分子。在一些实施方案中,核酸分子的来源可以是存档或灭绝的样品或物种。
另外,本文所公开的方法和组合物可用于扩增具有低质量核酸分子的核酸样品,诸如来自法医学样品的降解的和/或片段化的基因组学DNA。在一个实施方案中,法医学样品可包括从犯罪现场获得的核酸、从失踪人员DNA数据库获得的核酸、从与法医调查相关联的实验室获得的核酸,或者包括由执法机关、一种或多种军事服务或任何此类人员获得的法医学样品。核酸样品可以是经纯化的样品或含有粗DNA的溶胞产物,例如来源于口腔拭子、纸、织物或者其他可用唾液、血液或其他体液浸渍的基材。因此,在一些实施方案中,该核酸样品可包括少量DNA(诸如基因组学DNA),或者DNA的片段化部分。在一些实施方案中,靶序列可存在于一种或多种体液中,其中体液包括但不限于血液、痰、血浆、精液、尿液和血清。在一些实施方案中,靶序列可从受害者的毛发、皮肤、组织样品、尸体解剖或遗骸获得。在一些实施方案中,包含一种或多种靶序列的核酸可从死亡的动物或人获得。在一些实施方案中,靶序列可包括从非人类DNA(诸如微生物、植物或昆虫DNA)获得的核酸。在一些实施方案中,靶序列或扩增的靶序列导向人类身份识别的目的。在一些实施方案中,本公开整体涉及用于识别法医学样品的特性的方法。在一些实施方案中,本公开整体涉及使用本文所公开的一种或多种目标特异性引物或者用本文概述的引物设计标准设计的一种或多种目标特异性引物的人类身份识别方法。在一个实施方案中,含有至少一种靶序列的法医学样品或人类身份识别样品可使用本文所公开的任何一种或多种目标特异性引物或者使用本文概述的引物标准进行扩增。
检出集成系统106的部件可包括软件、硬件或两者。例如,检出集成系统106的部件可包括一个或多个指令,该一个或多个指令存储在计算机可读存储介质上并且可由一个或多个计算设备(例如,客户端设备108)的处理器执行。当由一个或多个处理器执行时,检出集成系统106的计算机可执行指令可使得计算设备执行本文所述的气泡检测方法。另选地,检出集成系统106的部件可包括硬件,诸如用于执行某种功能或功能组的专用处理设备。附加地或另选地,检出集成系统106的部件可包括计算机可执行指令和硬件的组合。
此外,检出集成系统106的执行本文关于检出集成系统106所述的功能的部件可例如被实现为独立应用程序的一部分、应用程序的模块、应用程序的插件、可由其他应用程序检出的一个或多个库函数,和/或云计算模型。因此,检出集成系统106的部件可被实现为个人计算设备或移动设备上的独立应用程序的一部分。附加地或另选地,检出集成系统106的部件可在提供测序服务的任何应用程序中实现,该应用程序包括但不限于IlluminaBaseSpace、Illumina DRAGEN或Illumina TruSight软件。“Illumina”、“BaseSpace”、“DRAGEN”和“TruSight”是Illumina,Inc.公司在美国和/或其他国家的注册商标或商标。
如以下更详细讨论的,本公开的实施方案可包括或利用包括计算机硬件(诸如例如一个或多个处理器和系统存储器)的专用或通用计算机。本公开范围内的实施方案还包括用于携带或存储计算机可执行指令和/或数据结构的物理和其他计算机可读介质。具体地,本文所述的过程中的一个或多个过程可被至少部分地实现为体现在非暂态计算机可读介质中并且可由一个或多个计算设备(例如,本文所述的介质内容访问设备中的任何介质内容访问设备)执行的指令。一般来讲,处理器(例如,微处理器)从非暂态计算机可读介质(例如,存储器等)接收指令,并且执行那些指令,由此执行一个或多个过程,包括本文所述的过程中的一个或多个过程。
计算机可读介质可以是可由通用或专用计算机系统访问的任何可用介质。存储计算机可执行指令的计算机可读介质是非暂态计算机可读存储介质(设备)。携带计算机可执行指令的计算机可读介质是传输介质。因此,通过示例方式而非限制,本公开的实施方案可包括至少两种明显不同种类的计算机可读介质:非暂态计算机可读存储介质(设备)和传输介质。
非暂态计算机可读存储介质(设备)包括RAM、ROM、EEPROM、CD-ROM、固态驱动器(SSD)(例如,基于RAM)、快闪存储器、相变存储器(PCM)、其他类型的存储器、其他光盘存储装置、磁盘存储装置或其他磁存储设备,或可用于存储呈计算机可执行指令或数据结构形式的期望的程序代码手段并且其可由通用或专用计算机访问的任何其他介质。
“网络”定义为使得能够在计算机系统和/或模块和/或其他电子设备之间传输电子数据的一个或多个数据链路。当通过网络或另一通信连接(硬连线、无线或硬连线或无线的组合)向计算机转移或提供信息时,计算机适当地将该连接视为传输介质。传输介质可包括网络和/或数据链路,该网络和/或数据链路可用于携带呈计算机可执行指令或数据结构形式的期望的程序代码手段,并且其可由通用或专用计算机访问。上述的组合也应当被包括在计算机可读介质的范围内。
此外,在到达各种计算机系统组件后,呈计算机可执行指令或数据结构形式的程序代码手段可从传输介质自动转移到非暂态计算机可读存储介质(设备)(或反之亦然)。例如,通过网络或数据链路接收的计算机可执行指令或数据结构可被缓冲在网络接口模块(例如,NIC)内的RAM中,并且然后最终被转移到计算机系统RAM和/或到计算机系统处的较不易失的计算机存储介质(设备)。因此,应当理解,非暂态计算机可读存储介质(设备)可被包括在也(或甚至主要)利用传输介质的计算机系统组件中。
计算机可执行指令包括例如当在处理器处执行时使得通用计算机、专用计算机或专用处理设备执行某些功能或功能的组的指令和数据。在一些实施方案中,在通用计算机上执行计算机可执行指令以将通用计算机变成实现本公开的元素的专用计算机。计算机可执行指令可以是例如二进制数、诸如汇编语言的中间格式指令或者甚至源代码。尽管已经以特定于结构特征和/或方法动作的语言描述了主题内容,但是应当理解,在所附权利要求中定义的主题内容不必限于所描述的特征或动作。相反,所描述的特征和动作是作为实现权利要求的示例性形式来公开的。
本领域中的技术人员将理解,本公开可在具有许多类型的计算机系统配置的网络计算环境中实践,包括个人计算机、台式计算机、便携式电脑、消息处理器、手持式设备、多处理器系统、基于微处理器的或可编程消费电子产品、网络PC、小型计算机、大型计算机、移动电话、PDA、平板电脑、寻呼机、路由器、交换机等。本公开还可在分布式系统环境中实践,其中通过网络链接(通过硬连线数据链路、无线数据链路或者通过硬连线和无线数据链路的组合)的本地和远程计算机系统两者都执行任务。在分布式系统环境中,程序模块可位于本地和远程存储器存储设备两者中。
本公开的实施方案还可在云计算环境中实现。在本说明书中,“云计算”定义为用于实现对可配置计算资源的共享池的按需网络访问的模型。例如,可在市场中采用云计算以提供对可配置计算资源的共享池的无处不在并且便利的按需访问。可配置计算资源的共享池可经由虚拟化快速预置并且以低管理努力或服务提供者交互释放,并且然后因此扩展。
云计算模型可由各种特性组成,诸如例如按需自助服务、广泛网络访问、资源池化、快速弹性、可计量服务等。云计算模型还可展示各种服务模型,诸如例如软件即服务(SaaS)、平台即服务(PaaS)和基础设施即服务(IaaS)。云计算模型还可使用不同的部署模型来部署,诸如私有云、社区云、公共云、混合云等。在本说明书和在权利要求书中,“云计算环境”是在其中采用云计算的环境。
图12例示了可被配置为执行上述过程中的一个或多个过程的计算设备1200的框图。将理解,一个或多个计算设备诸如计算设备1200可实现检出集成系统106和测序系统104。如图12所示,计算设备1200可包括可通过通信基础设施1212通信地耦接的处理器1202、存储器1204、存储设备1206、I/O接口1208和通信接口1210。在某些实施方案中,计算设备1200可包括比图12所示的那些部件更少或更多的部件。以下段落更详细地描述图12所示的计算设备1200的部件。
在一个或多个实施方案中,处理器1202包括用于执行指令诸如构成计算机程序的那些指令的硬件。作为示例而非以限制的方式,为了执行用于动态地修改工作流的指令,处理器1202可从内部寄存器、内部高速缓存、存储器1204或存储设备1206检索(或取得)指令,并且对它们进行解码并执行。存储器1204可以是用于存储由处理器执行的数据、元数据和程序的易失性或非易失性存储器。存储设备1206包括用于存储用于执行本文所述的方法的数据或指令的存储装置,诸如硬盘、闪存盘驱动器或其他数字存储设备。
I/O接口1208允许用户向计算设备1200提供输入、从该计算设备接收输出并且以其他方式向该计算设备传递数据并从该计算设备接收数据。I/O接口1208可包括鼠标、小键盘或键盘、触摸屏、相机、光学扫描仪、网络接口、调制解调器、其他已知I/O设备或此类I/O接口的组合。I/O接口1208可包括用于向用户呈现输出的一个或多个设备,包括但不限于图形引擎、显示器(例如,显示屏)、一个或多个输出驱动程序(例如,显示驱动程序)、一个或多个音频扬声器以及一个或多个音频驱动程序。在某些实施方案中,I/O接口1208被配置为向显示器提供图形数据以供呈现给用户。图形数据可表示一个或多个图形用户界面和/或可服务于特定具体实施的任何其他图形内容。
通信接口1210可包括硬件、软件或两者。在任何情况下,通信接口1210可提供用于计算设备1200与一个或多个其他计算设备或网络之间的通信(诸如,例如基于分组的通信)的一个或多个接口。作为示例而非以限制的方式,通信接口1210可包括用于与以太网或其他基于有线的网络通信的网络接口控制器(NIC)或网络适配器,或用于与无线网络诸如WI-FI通信的无线NIC(WNIC)或无线适配器。
附加地,通信接口1210可促进与各种类型的有线网络或无线网络的通信。通信接口1210还可促进使用各种通信协议的通信。通信基础设施1212还可包括使计算设备1200的部件彼此耦接的硬件、软件或两者。例如,通信接口1210可使用一个或多个网络和/或协议来使得通过特定基础设施连接的多个计算设备能够彼此通信以执行本文所述的过程的一个或多个方面。为了说明,测序过程可允许多个设备(例如,客户端设备、测序设备和服务器设备)交换诸如测序数据和误差通知的信息。
在前述说明书中,本公开已经参考其特定示例性实施方案进行描述。参考本文所讨论的细节描述了本公开的各种实施方案和方面,并且附图例示了各种实施方案。上面的描述和图是对本公开的说明,并且不应被解释为限制本公开。描述了许多特定细节以提供对本公开的各种实施方案的透彻理解。
本公开可以其他特定形式体现而不脱离其实质或本质特征。所述实施方案在所有方面都应被视为仅为示例性的而非限制性的。例如,本文所述的方法可用更少或更多的步骤/动作执行,或者步骤/动作可以不同的顺序执行。附加地,本文所述的步骤/动作可重复或与彼此并行地执行或与相同或类似步骤/动作的不同实例并行地执行。因此,本申请的范围由所附权利要求书而非前述描述来指示。在权利要求的等效含义和范围内的所有改变都将包含在其范围内。

Claims (35)

1.一种系统,所述系统包括:
至少一个处理器;和
存储指令的非暂态计算机可读介质,所述指令在由所述至少一个处理器执行时使所述系统进行以下操作:
对于基因组样品的一个或多个基因组坐标,接收对应于第一阈值数量的核碱基的第一类型的核苷酸读段的第一基因型检出和对应于第二阈值数量的核碱基的第二类型的核苷酸读段的第二基因型检出;
识别对应于所述第一基因型检出或所述第二基因型检出的测序度量;
利用基因型检出集成机器学习模型并且基于所述测序度量来生成针对所述一个或多个基因组坐标的基因型检出的基因型概率;以及
基于所述基因型概率生成针对所述基因组样品的所述一个或多个基因组坐标的输出基因型检出。
2.根据权利要求1所述的系统,其中:
所述第一类型的核苷酸读段包括从短于所述第一阈值数量的核碱基的样品库片段合成的核苷酸读段;并且
所述第二类型的核苷酸读段包括:
组装好的核苷酸读段,所述组装好的核苷酸读段已由较短核苷酸读段组装以形成满足所述第一阈值数量的核碱基的连续序列;
循环共有测序(CCS)读段,所述CCS读段满足所述第一阈值数量的核碱基;或者
纳米孔长读段,所述纳米孔长读段满足所述第一阈值数量的核碱基。
3.根据权利要求1所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统进行以下操作:
通过利用用单核苷酸多态性(SNP)训练数据训练的所述基因型检出集成机器学习模型生成针对一个或多个候选SNP的基因型概率来生成所述基因型概率;以及
生成指示在所述基因组样品的所述一个或多个基因组坐标处存在或不存在SNP的所述输出基因型检出。
4.根据权利要求1所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统通过如下方式来生成所述输出基因型检出:
选择所述第一基因型检出或所述第二基因型检出;或者
生成不同于所述第一基因型检出和所述第二基因型检出的不同基因型检出。
5.根据权利要求1所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统通过如下方式来生成所述基因型概率:
生成在所述一个或多个基因组坐标处包括纯合参考基因型的所述基因组样品的第一基因型概率;
生成在所述一个或多个基因组坐标处包括杂合变体基因型的所述基因组样品的第二基因型概率;以及
生成在所述一个或多个基因组坐标处包括纯合变体基因型的所述基因组样品的第三基因型概率。
6.根据权利要求1所述的系统,其中所述第一基因型检出包括第一变体检出或第一参考检出,并且所述第二基因型检出包括第二变体检出或第二参考检出。
7.根据权利要求1所述的系统,其中所述第一基因型检出或所述第二基因型检出包括空数据指示符。
8.根据权利要求1所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统进行以下操作:
基于所述基因型概率修改基因型度量、碱基检出质量度量、基因型质量度量、基因型概率度量、基因型可能性度量或PHRED缩放基因型可能性度量;以及
生成变体检出文件,所述变体检出文件包括所修改的基因型度量、所修改的碱基检出质量度量、所修改的基因型质量度量、所修改的基因型概率度量、所修改的基因型可能性度量或所修改的PHRED缩放基因型可能性度量。
9.根据权利要求1所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统通过如下方式选择所述第一基因型检出而不是所述第二基因型检出来生成所述输出基因型检出:
从所述第一基因型检出中选择纯合参考基因型检出,而不是从所述第二基因型检出中选择杂合变体基因型检出或纯合变体基因型检出;
从所述第一基因型检出中选择所述杂合变体基因型检出,而不是从所述第二基因型检出中选择所述纯合参考基因型检出或所述纯合变体基因型检出;或者
从所述第一基因型检出中选择所述纯合变体基因型检出,而不是从所述第二基因型检出中选择所述杂合变体基因型检出或所述纯合参考基因型检出。
10.根据权利要求1所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统通过如下方式选择所述第二基因型检出而不是所述第一基因型检出来生成所述输出基因型检出:
从所述第二基因型检出中选择纯合参考基因型检出,而不是从所述第一基因型检出中选择杂合变体基因型检出或纯合变体基因型检出;
从所述第二基因型检出中选择所述杂合变体基因型检出,而不是从所述第一基因型检出中选择所述纯合参考基因型检出或所述纯合变体基因型检出;或者
从所述第二基因型检出中选择所述纯合变体基因型检出,而不是从所述第一基因型检出中选择所述杂合变体基因型检出或所述纯合参考基因型检出。
11.根据权利要求1所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统通过识别以下中的一者或多者来识别对应于所述第一基因型检出或所述第二基因型检出的所述测序度量:
与对应于所述第一类型的核苷酸读段的所述第一基因型检出相关联的第一测序度量集合;
与对应于所述第二类型的核苷酸读段的所述第二基因型检出相关联的第二测序度量集合;或者
与所述第一基因型检出和所述第二基因型检出两者相关联的共享测序度量集合。
12.根据权利要求1所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统通过确定以下中的一者或多者来识别对应于所述第一基因型检出或所述第二基因型检出的所述测序度量:基于读段的测序度量、检出模型生成的测序度量、外部来源的测序度量或与对应于所述第二类型的核苷酸读段的所述第二基因型检出相关联的第二读段类型测序度量。
13.根据权利要求1所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统通过识别基于读段的测序度量来识别对应于所述第一基因型检出或所述第二基因型检出的所述测序度量,所述基于读段的测序度量包括以下中的一者或多者:
对应于所述第一基因型检出的等位基因、所述第二基因型检出的等位基因、或不同于所述第一基因型检出和所述第二基因型检出的替代基因型检出的不同等位基因的等位基因频率;
对应于所述第一基因型检出的所述第一类型的核苷酸读段或对应于所述第二基因型检出的所述第二类型的核苷酸读段的覆盖深度;
对应于所述第一基因型检出的所述第一类型的核苷酸读段或对应于所述第二基因型检出的所述第二类型的核苷酸读段的平均覆盖深度;
对应于所述第一基因型检出的所述第一类型的核苷酸读段或对应于所述第二基因型检出的所述第二类型的核苷酸读段的映射质量度量;或者
来自所述第一类型的核苷酸读段或所述第二类型的核苷酸读段的一个或多个核苷酸读段的核碱基组成。
14.根据权利要求1所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统通过识别检出模型生成的测序度量来识别对应于所述第一基因型检出或所述第二基因型检出的所述测序度量,所述检出模型生成的测序度量包括以下中的一者或多者:根据所述第一类型的核苷酸读段确定的所述第一基因型检出或根据所述第二类型的核苷酸读段确定的所述第二基因型检出的基因型度量、碱基检出质量度量、基因型质量度量、基因型概率度量或PHRED缩放可能性度量。
15.根据权利要求1所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统通过识别外部来源的测序度量来识别对应于所述第一基因型检出或所述第二基因型检出的所述测序度量,所述外部来源的测序度量包括以下中的一者或多者:
指示将核苷酸读段映射到参考基因组内的所述一个或多个基因组坐标的困难程度的可映射性度量;
指示对应于所述参考基因组内的所述一个或多个基因组坐标的鸟嘌呤-胞嘧啶含量的计数的鸟嘌呤-胞嘧啶含量度量;
指示能够准确确定所述一个或多个基因组坐标处的核碱基的程度的置信度分类或置信度得分;
指示针对所述一个或多个基因组坐标的重复基因组区域的类别的重复分类;
指示所述一个或多个基因组坐标是所述参考基因组内的胞嘧啶四链体(C-四链体)的一部分的指示符;
指示所述一个或多个基因组坐标是所述参考基因组内的鸟嘌呤四链体(G-四链体)的一部分的指示符;或者
指示所述一个或多个基因组坐标是所述参考基因组内的均聚物的一部分的指示符。
16.根据权利要求1所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统进行以下操作:
通过基于所述第一类型的核苷酸读段接收所述第一基因型检出作为第一变体检出文件的一部分来接收所述第一基因型检出;
通过基于所述第二类型的核苷酸读段接收所述第二基因型检出作为第二变体检出文件的一部分来接收所述第二基因型检出;以及
生成包括所述第一基因型检出或所述第二基因型检出的合并的变体检出文件。
17.根据权利要求1所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统进行以下操作:
确定所述第一基因型检出包括不同于所述第二基因型检出的第二替代核碱基的第一替代核碱基;
利用所述基因型检出集成机器学习模型并且基于所述测序度量来生成所述第一基因型检出比所述第二基因型检出更准确的第一管道准确性可能性以及所述第二基因型检出比所述第一基因型检出更准确的第二管道准确性可能性;以及
通过基于所述第一管道准确性可能性和所述第二管道准确性可能性选择针对所述基因组样品的所述一个或多个基因组坐标的所述第一基因型检出或所述第二基因型检出来生成所述输出基因型检出。
18.一种系统,所述系统包括:
至少一个处理器;和
存储指令的非暂态计算机可读介质,所述指令在由所述至少一个处理器执行时使所述系统进行以下操作:
对于基因组样品的一个或多个基因组坐标,接收对应于第一阈值数量的核碱基的第一类型的核苷酸读段的第一基因型检出和对应于第二阈值数量的核碱基的第二类型的核苷酸读段的第二基因型检出;
识别对应于所述第一基因型检出或所述第二基因型检出的测序度量;
利用基因型检出集成机器学习模型并且基于所述测序度量来生成针对所述一个或多个基因组坐标处的候选变体检出的变体检出分类;以及
基于所述变体检出分类生成针对所述基因组样品的所述一个或多个基因组坐标的输出基因型检出。
19.根据权利要求18所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统进行以下操作:
生成所述变体检出分类包括利用用插入缺失训练数据训练的所述基因型检出集成机器学习模型来生成针对一个或多个候选插入或缺失(插入缺失)的所述变体检出分类;以及
生成指示在所述基因组样品的所述一个或多个基因组坐标处存在或不存在插入缺失的所述输出基因型检出。
20.根据权利要求18所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统通过生成以下中的一者或多者来生成针对所述候选变体的所述变体检出分类:
所述第一基因型检出构成所述一个或多个基因组坐标的真阳性变体的第一真阳性变体概率;
所述第二基因型检出构成所述一个或多个基因组坐标的真阳性变体的第二真阳性变体概率;
所述第一基因型检出包括在所述一个或多个基因组坐标处的基因型接合性误差的第一接合性误差概率;
所述第二基因型检出包括在所述一个或多个基因组坐标处的基因型接合性误差的第二接合性误差概率;或者
所述一个或多个基因组坐标处的纯合参考基因型的参考概率。
21.根据权利要求20所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统进行以下操作:
确定所述第一真阳性变体概率未能满足可能性阈值;以及
基于确定所述第一真阳性变体概率未能满足所述可能性阈值,生成或利用所述第二真阳性变体概率。
22.根据权利要求18所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统通过如下方式来生成所述输出基因型检出:
选择所述第一基因型检出或所述第二基因型检出;或者
生成不同于所述第一基因型检出和所述第二基因型检出的不同基因型检出。
23.根据权利要求18所述的系统,其中:
所述第一类型的核苷酸读段包括从短于所述第一阈值数量的核碱基的样品库片段合成的核苷酸读段;并且
所述第二类型的核苷酸读段包括:
组装好的核苷酸读段,所述组装好的核苷酸读段已由较短核苷酸读段组装以形成满足所述第一阈值数量的核碱基的连续序列;
循环共有测序(CCS)读段,所述CCS读段满足所述第一阈值数量的核碱基;或者
纳米孔长读段,所述纳米孔长读段满足所述第一阈值数量的核碱基。
24.根据权利要求18所述的系统,其中所述第一基因型检出包括第一变体检出或第一参考检出,并且所述第二基因型检出包括第二变体检出或第二参考检出。
25.根据权利要求18所述的系统,其中所述第一基因型检出或所述第二基因型检出包括空数据指示符。
26.根据权利要求18所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统进行以下操作:
基于所述变体检出分类修改基因型度量、碱基检出质量度量、基因型质量度量、基因型概率度量、基因型可能性度量或PHRED缩放基因型可能性度量;以及
生成变体检出文件,所述变体检出文件包括所修改的基因型度量、所修改的碱基检出质量度量、所修改的基因型质量度量、所修改的基因型概率度量、所修改的基因型可能性度量或所修改的PHRED缩放基因型可能性度量。
27.根据权利要求18所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统通过如下方式选择所述第一基因型检出而不是所述第二基因型检出来生成所述输出基因型检出:
从所述第一基因型检出中选择纯合参考基因型检出,而不是从所述第二基因型检出中选择杂合变体基因型检出或纯合变体基因型检出;
从所述第一基因型检出中选择所述杂合变体基因型检出,而不是从所述第二基因型检出中选择所述纯合参考基因型检出或所述纯合变体基因型检出;或者
从所述第一基因型检出中选择所述纯合变体基因型检出,而不是从所述第二基因型检出中选择所述杂合变体基因型检出或所述纯合参考基因型检出。
28.根据权利要求18所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统通过如下方式选择所述第二基因型检出而不是所述第一基因型检出来生成所述输出基因型检出:
从所述第二基因型检出中选择纯合参考基因型检出,而不是从所述第一基因型检出中选择杂合变体基因型检出或纯合变体基因型检出;
从所述第二基因型检出中选择所述杂合变体基因型检出,而不是从所述第一基因型检出中选择所述纯合参考基因型检出或所述纯合变体基因型检出;或者
从所述第二基因型检出中选择所述纯合变体基因型检出,而不是从所述第一基因型检出中选择所述杂合变体基因型检出或所述纯合参考基因型检出。
29.根据权利要求18所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统通过识别以下中的一者或多者来识别对应于所述第一基因型检出或所述第二基因型检出的所述测序度量:
与对应于所述第一类型的核苷酸读段的所述第一基因型检出相关联的第一测序度量集合;
与对应于所述第二类型的核苷酸读段的所述第二基因型检出相关联的第二测序度量集合;或者
与所述第一基因型检出和所述第二基因型检出两者相关联的共享测序度量集合。
30.根据权利要求18所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统通过确定以下中的一者或多者来识别对应于所述第一基因型检出或所述第二基因型检出的所述测序度量:基于读段的测序度量、检出模型生成的测序度量、外部来源的测序度量或与对应于所述第二类型的核苷酸读段的所述第二基因型检出相关联的第二读段类型测序度量。
31.根据权利要求18所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统通过识别基于读段的测序度量来识别对应于所述第一基因型检出或所述第二基因型检出的所述测序度量,所述基于读段的测序度量包括以下中的一者或多者:
对应于所述第一基因型检出的等位基因、所述第二基因型检出的等位基因、或不同于所述第一基因型检出和所述第二基因型检出的替代基因型检出的不同等位基因的等位基因频率;
对应于所述第一基因型检出的所述第一类型的核苷酸读段或对应于所述第二基因型检出的所述第二类型的核苷酸读段的覆盖深度;
对应于所述第一基因型检出的所述第一类型的核苷酸读段或对应于所述第二基因型检出的所述第二类型的核苷酸读段的平均覆盖深度;
对应于所述第一基因型检出的所述第一类型的核苷酸读段或对应于所述第二基因型检出的所述第二类型的核苷酸读段的映射质量度量;或者
来自所述第一类型的核苷酸读段或所述第二类型的核苷酸读段的一个或多个核苷酸读段的核碱基组成。
32.根据权利要求18所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统通过识别检出模型生成的测序度量来识别对应于所述第一基因型检出或所述第二基因型检出的所述测序度量,所述检出模型生成的测序度量包括以下中的一者或多者:根据所述第一类型的核苷酸读段确定的所述第一基因型检出或根据所述第二类型的核苷酸读段确定的所述第二基因型检出的基因型度量、碱基检出质量度量、基因型质量度量、基因型概率度量、基因型可能性度量、或PHRED缩放可能性度量。
33.根据权利要求18所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统通过识别外部来源的测序度量来识别对应于所述第一基因型检出或所述第二基因型检出的所述测序度量,所述外部来源的测序度量包括以下中的一者或多者:
指示将核苷酸读段映射到参考基因组内的所述一个或多个基因组坐标的困难程度的可映射性度量;
指示对应于所述参考基因组内的所述一个或多个基因组坐标的鸟嘌呤-胞嘧啶含量的计数的鸟嘌呤-胞嘧啶含量度量;
指示能够准确确定所述一个或多个基因组坐标处的核碱基的程度的置信度分类或置信度得分;
指示针对所述一个或多个基因组坐标的重复基因组区域的类别的重复分类;
指示所述一个或多个基因组坐标是所述参考基因组内的胞嘧啶四链体(C-四链体)的一部分的指示符;
指示所述一个或多个基因组坐标是所述参考基因组内的鸟嘌呤四链体(G-四链体)的一部分的指示符;或者
指示所述一个或多个基因组坐标是所述参考基因组内的均聚物的一部分的指示符。
34.根据权利要求18所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统进行以下操作:
通过基于所述第一类型的核苷酸读段接收所述第一基因型检出作为第一变体检出文件的一部分来接收所述第一基因型检出;
通过基于所述第二类型的核苷酸读段接收所述第二基因型检出作为第二变体检出文件的一部分来接收所述第二基因型检出;以及
生成包括所述第一基因型检出或所述第二基因型检出的合并的变体检出文件。
35.根据权利要求18所述的系统,所述系统进一步存储指令,所述指令在由所述至少一个处理器执行时使所述系统进行以下操作:
确定所述第一基因型检出包括不同于所述第二基因型检出的第二替代核碱基的第一替代核碱基;
利用所述基因型检出集成机器学习模型并且基于所述测序度量来生成所述第一基因型检出比所述第二基因型检出更准确的第一管道准确性可能性以及所述第二基因型检出比所述第一基因型检出更准确的第二管道准确性可能性;以及
通过基于所述第一管道准确性可能性和所述第二管道准确性可能性选择针对所述基因组样品的所述一个或多个基因组坐标的所述第一基因型检出或所述第二基因型检出来生成所述输出基因型检出。
CN202380031344.6A 2022-10-05 2023-10-04 利用机器学习架构集成来自多个测序管道的变体检出 Pending CN119096301A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202263378474P 2022-10-05 2022-10-05
US63/378474 2022-10-05
US202363482163P 2023-01-30 2023-01-30
US63/482163 2023-01-30
PCT/US2023/075999 WO2024077096A1 (en) 2022-10-05 2023-10-04 Integrating variant calls from multiple sequencing pipelines utilizing a machine learning architecture

Publications (1)

Publication Number Publication Date
CN119096301A true CN119096301A (zh) 2024-12-06

Family

ID=88689535

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202380031344.6A Pending CN119096301A (zh) 2022-10-05 2023-10-04 利用机器学习架构集成来自多个测序管道的变体检出

Country Status (6)

Country Link
US (1) US20240127905A1 (zh)
EP (1) EP4599449A1 (zh)
JP (1) JP2025534929A (zh)
KR (1) KR20250081825A (zh)
CN (1) CN119096301A (zh)
WO (1) WO2024077096A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113728391B (zh) * 2019-04-18 2024-06-04 生命科技股份有限公司 用于基于上下文压缩免疫肿瘤学生物标志物的基因组数据的方法

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0450060A1 (en) 1989-10-26 1991-10-09 Sri International Dna sequencing
US5846719A (en) 1994-10-13 1998-12-08 Lynx Therapeutics, Inc. Oligonucleotide tags for sorting and identification
US5750341A (en) 1995-04-17 1998-05-12 Lynx Therapeutics, Inc. DNA sequencing by parallel oligonucleotide extensions
GB9620209D0 (en) 1996-09-27 1996-11-13 Cemu Bioteknik Ab Method of sequencing DNA
GB9626815D0 (en) 1996-12-23 1997-02-12 Cemu Bioteknik Ab Method of sequencing DNA
JP2002503954A (ja) 1997-04-01 2002-02-05 グラクソ、グループ、リミテッド 核酸増幅法
US6969488B2 (en) 1998-05-22 2005-11-29 Solexa, Inc. System and apparatus for sequential processing of analytes
US6274320B1 (en) 1999-09-16 2001-08-14 Curagen Corporation Method of sequencing a nucleic acid
US7001792B2 (en) 2000-04-24 2006-02-21 Eagle Research & Development, Llc Ultra-fast nucleic acid sequencing device and a method for making and using the same
CN101525660A (zh) 2000-07-07 2009-09-09 维西根生物技术公司 实时序列测定
EP1354064A2 (en) 2000-12-01 2003-10-22 Visigen Biotechnologies, Inc. Enzymatic nucleic acid synthesis: compositions and methods for altering monomer incorporation fidelity
US7057026B2 (en) 2001-12-04 2006-06-06 Solexa Limited Labelled nucleotides
EP3795577A1 (en) 2002-08-23 2021-03-24 Illumina Cambridge Limited Modified nucleotides
GB0321306D0 (en) 2003-09-11 2003-10-15 Solexa Ltd Modified polymerases for improved incorporation of nucleotide analogues
EP3175914A1 (en) 2004-01-07 2017-06-07 Illumina Cambridge Limited Improvements in or relating to molecular arrays
US7315019B2 (en) 2004-09-17 2008-01-01 Pacific Biosciences Of California, Inc. Arrays of optical confinements and uses thereof
EP1828412B2 (en) 2004-12-13 2019-01-09 Illumina Cambridge Limited Improved method of nucleotide detection
US8623628B2 (en) 2005-05-10 2014-01-07 Illumina, Inc. Polymerases
GB0514936D0 (en) 2005-07-20 2005-08-24 Solexa Ltd Preparation of templates for nucleic acid sequencing
US7405281B2 (en) 2005-09-29 2008-07-29 Pacific Biosciences Of California, Inc. Fluorescent nucleotide analogs and uses therefor
EP3722409A1 (en) 2006-03-31 2020-10-14 Illumina, Inc. Systems and devices for sequence by synthesis analysis
WO2008051530A2 (en) 2006-10-23 2008-05-02 Pacific Biosciences Of California, Inc. Polymerase enzymes and reagents for enhanced nucleic acid sequencing
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
EP4134667B1 (en) 2006-12-14 2025-11-12 Life Technologies Corporation Apparatus for measuring analytes using fet arrays
US8349167B2 (en) 2006-12-14 2013-01-08 Life Technologies Corporation Methods and apparatus for detecting molecular interactions using FET arrays
US20100137143A1 (en) 2008-10-22 2010-06-03 Ion Torrent Systems Incorporated Methods and apparatus for measuring analytes
US8951781B2 (en) 2011-01-10 2015-02-10 Illumina, Inc. Systems, methods, and apparatuses to image a sample for biological or chemical analysis
CA2859660C (en) 2011-09-23 2021-02-09 Illumina, Inc. Methods and compositions for nucleic acid sequencing
JP6159391B2 (ja) 2012-04-03 2017-07-05 イラミーナ インコーポレーテッド 核酸シークエンシングに有用な統合化した読取りヘッド及び流体カートリッジ

Also Published As

Publication number Publication date
WO2024077096A1 (en) 2024-04-11
US20240127905A1 (en) 2024-04-18
EP4599449A1 (en) 2025-08-13
JP2025534929A (ja) 2025-10-22
KR20250081825A (ko) 2025-06-05

Similar Documents

Publication Publication Date Title
KR102539188B1 (ko) 심층 컨볼루션 신경망을 트레이닝하기 위한 심층 학습-기반 기술
US20240120027A1 (en) Machine-learning model for refining structural variant calls
KR20240035754A (ko) 뉴클레오티드-염기 호출 재교정을 위한 기계-학습 모델
US20220415443A1 (en) Machine-learning model for generating confidence classifications for genomic coordinates
CN119096301A (zh) 利用机器学习架构集成来自多个测序管道的变体检出
WO2025006874A1 (en) Machine-learning model for recalibrating genotype calls corresponding to germline variants and somatic mosaic variants
US20240404624A1 (en) Structural variant alignment and variant calling by utilizing a structural-variant reference genome
CN117730372A (zh) 用于确定核苷酸碱基检出和碱基检出质量的信噪比度量
WO2023129896A1 (en) Machine learning model for recalibrating nucleotide base calls corresponding to target variants
CN117561573A (zh) 从碱基判读错误模式自动鉴定核苷酸测序中的故障来源
CN117546243A (zh) 使用推算的单倍型的图参考基因组和碱基检出方法
US20240371469A1 (en) Machine learning model for recalibrating genotype calls from existing sequencing data files
WO2025250996A2 (en) Call generation and recalibration models for implementing personalized diploid reference haplotypes in genotype calling
US20230313271A1 (en) Machine-learning models for detecting and adjusting values for nucleotide methylation levels
US20240177802A1 (en) Accurately predicting variants from methylation sequencing data
US20230340571A1 (en) Machine-learning models for selecting oligonucleotide probes for array technologies
WO2025090883A1 (en) Detecting variants in nucleotide sequences based on haplotype diversity
WO2024249973A2 (en) Linking human genes to clinical phenotypes using graph neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination