[go: up one dir, main page]

CN119698662A - 生成并实现结构变异图基因组 - Google Patents

生成并实现结构变异图基因组 Download PDF

Info

Publication number
CN119698662A
CN119698662A CN202380049468.7A CN202380049468A CN119698662A CN 119698662 A CN119698662 A CN 119698662A CN 202380049468 A CN202380049468 A CN 202380049468A CN 119698662 A CN119698662 A CN 119698662A
Authority
CN
China
Prior art keywords
structural
variant
structural variant
haplotype
haplotypes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202380049468.7A
Other languages
English (en)
Inventor
张帆
S·特朗
J·C·罗德尼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inmair Ltd
Original Assignee
Inmair Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inmair Ltd filed Critical Inmair Ltd
Publication of CN119698662A publication Critical patent/CN119698662A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本公开描述了可生成具有表示结构变体单倍型的交替连续序列的结构变异图基因组的方法、非暂态计算机可读介质和系统。例如,所公开的系统可识别满足基因组样本数据库内的出现阈值的候选结构变体。这些系统基于以下项中的一者或两者从这些候选结构变体中选择结构变体单倍型:这些结构变体单倍型满足相对单倍型频率,以及发现侧翼变体与特定结构变体单倍型相邻。这些系统同样可从参考基因组中选择与所选结构变体单倍型相对应的参考单倍型。基于所选单倍型,所公开的系统生成包括表示这些结构变体单倍型的交替连续序列和表示这些参考单倍型的参考序列两者的结构变异图基因组。

Description

生成并实现结构变异图基因组
相关申请的交叉引用
本申请要求于2022年6月27日提交的名称为“生成并实现结构变异图基因组(GENERATING AND IMPLEMENTING A STRUCTURAL VARIATION GRAPH GENOME)”的美国临时申请号63/367,075的权益和优先权。上述申请全文据此以引用方式并入。
背景技术
近年来,生物技术公司和研究机构已改进用于对基因组样本进行核苷酸测序以及确定核碱基检出的硬件和软件。例如,一些现有的测序仪和测序数据分析软件(一起称为“现有的测序系统”)通过使用常规的桑格测序或边合成边测序(SBS)方法来预测序列内的各个核碱基。当使用SBS时,现有的测序系统可监测从模板平行合成的数千个寡核苷酸以预测不断增长的核苷酸读段的核碱基检出。许多现有的测序系统中的相机捕获掺入到寡核苷酸中的经辐照荧光标签的图像。在捕获此类图像之后,一些现有的测序系统确定与寡核苷酸相对应的核苷酸读段的核碱基检出并将碱基检出数据发送到具有测序数据分析软件的计算设备,该计算设备将核苷酸读段与参考基因组进行比对。基于所比对的核苷酸读段与参考基因组之间的差异,现有系统进一步利用变体检出器来识别基因组样本的变体,诸如单核苷酸多态性(SNP)、插入或缺失(插入缺失(indel))或其他变体。
尽管取得了这些最新进展,但现有的测序系统经常生成或使用错误表示某些群体的参考基因组,并且造成不准确的读段比对和错误的变体检出。例如,一些现有的测序系统使用据称表示生物体的基因和其他核苷酸序列的共有序列或示例的线性参考基因组。但是对于最常见的线性人类参考基因组(来自基因组参考联盟的GRCh38)而言,约93%的初级组装是基于来自仅11个个体的文库,其中70%的线性人类参考基因组来自1个个体。因此,现有系统使用并未经常表示某些群体或常见变体的线性人类参考基因组。实际上,许多线性人类参考基因组无法表示较大的缺失或插入(例如,超过50个碱基对的插入缺失)、易位、倒位、拷贝数变异(CNV)或其他结构变体。
为了解决线性参考基因组中的这种基因组表示的缺乏,一些现有的测序系统生成或使用参考图基因组。例如,一些参考图基因组包括线性参考基因组和表示SNP或小的插入缺失(例如,10个或更少的碱基对、50个或更少的碱基对)的图扩增或交替连续序列。虽然此类参考图基因组更好地表示了一些群体的基因组,但是现有参考图基因组的扩展表示省略了基因组样本频繁携带的较大的插入缺失、易位、倒位或其他结构变异——与现有线性参考基因组的缺点类似。
因为现有的线性参考基因组和图参考基因组无法表示结构变体,因此现有的测序系统频繁将更多不同基因组样本的核苷酸读段与参考基因组进行错误比对,并且基于此类错误比对生成不准确的变体或其他核碱基检出。实际上,在一些情况下,现有的线性参考基因组或图参考基因组缺乏表示可与核苷酸读段准确比对的结构变体的图扩增或交替连续序列。因为现有的参考基因组经常无法表示结构变体,所以现有的测序系统也经常无法准确地确定核苷酸读段的不同区段何时与现有的参考基因组的不同部分在分割比对中进行最佳比对。作为此类分割比对或与结构变体的其他复杂比对的结果,现有的测序系统频繁生成不正确的变体检出,这些变体检出错误地识别结构变体的存在或不存在或者无法提供关于相关结构变体的信息。
为了补偿一些现有的参考基因组无法表示结构变体的缺陷,一些现有的测序系统使用现有的参考基因组和SBS(或其他技术)进行全基因组测序(WGS),并且使用靶向特定结构变体的基因型探针进行微阵列。实际上,微阵列已经被专门设计成使用现有的测序设备靶向难以检测的结构变体。通过运行WGS和多个微阵列两者并且时常使用不同的专用测序设备和微阵列设备,现有的测序系统成倍增加了计算机处理和时间以确定以下项的准确变体检出:(i)SNP和较小的插入缺失,以及(ii)结构变体。
虽然一些现有的测序系统试图解决图参考基因组的比对精确度和碱基检出精确度问题,但是现有的图参考基因组通常包括与许多或大多数基因组样本所表现出的等位基因足够类似(或不相关)的等位基因的过量扩增。例如,一些现有的测序系统利用通用图基因组,这些通用图基因组包括针对跨不同群体的常见等位基因和不常见等位基因(诸如常见和不常见的SNP和小的插入缺失)的大量图扩增。由于此类图扩增可能与许多样本基因组的等位基因类似但不匹配,因此通用图基因组频繁导致现有的测序系统对大量样本错误比对或遗漏检出变体。因此,通过利用具有过量图扩增的通用图参考基因组,现有的测序系统可增加与来自基因组样本的核苷酸读段错配比对的机会。
除了比对精确度和核碱基精确度问题之外,一些现有的图参考基因组是庞大的并且消耗相当大的存储器和计算资源。实际上,一些现有的图参考基因组可包括与给定基因组样本不相关的SNP或小的插入缺失的无数图扩增。这些无数替代路径会消耗不必要的存储器。除了浪费存储器之外,通用图参考基因组通常会增加现有的测序系统的计算机处理时间,以确定在进行变体检出时是否包括或排除与图扩增的匹配。
这些问题和难题,连同附加的问题和难题存在于现有的测序系统中。
发明内容
本公开描述了解决一个或多个上述问题或提供优于现有技术的其他优点的系统、方法和非暂态计算机可读存储介质的一个或多个实施方案。具体地,所公开的系统可生成或实现具有表示结构变体单倍型的交替连续序列的结构变异图基因组。例如,所公开的系统可识别满足基因组样本数据库内的出现阈值的候选结构变体。这些系统基于以下项中的一者或两者从这些候选结构变体中选择结构变体单倍型:这些结构变体单倍型满足相对单倍型频率,以及发现侧翼变体与特定结构变体单倍型相邻。这些系统同样可从参考基因组中选择与所选结构变体单倍型相对应的参考单倍型。基于所选单倍型,这些系统生成包括表示这些结构变体单倍型的交替连续序列和表示这些参考单倍型的参考序列两者的结构变异图基因组。基于基因组样本的核苷酸读段与表示结构变体单倍型的交替连续序列的比较,所公开的系统可确定该基因组样本的核碱基检出(例如,结构变体检出)。
本公开的一个或多个实施方案的附加的特征和优点将在随后的描述中阐述,并且部分地将从该描述中显而易见,或者可以通过此类示例性实施方案的实践获知。
附图说明
详细描述参考以下简要描述的附图。
图1示出了根据本公开的一个或多个实施方案的结构变体感知测序系统可在其中操作的环境。
图2A示出了根据本公开的一个或多个实施方案的结构变体感知测序系统的示意图,该结构变体感知测序系统生成包括表示结构变体单倍型的交替连续序列和表示参考单倍型的参考序列的结构变异图基因组。
图2B示出了根据本公开的一个或多个实施方案的结构变体感知测序系统的示意图,该结构变体感知测序系统将基因组样本的核苷酸读段与结构变异图基因组进行比对并且基于所比对的核苷酸读段确定该基因组样本的核碱基检出。
图3示出了根据本公开的一个或多个实施方案的结构变体感知测序系统的示意图,该结构变体感知测序系统基于定相标准和区域出现阈值中的一者或两者来选择用于结构变异图基因组的靶基因组区域的结构变体单倍型。
图4示出了根据本公开的一个或多个实施方案的使用散列表将来自参考基因组的参考序列、所选结构变体单倍型和所选交替单倍型组合成结构变异图基因组的结构变体感知测序系统。
图5示出了根据本公开的一个或多个实施方案的将基因组样本的核苷酸读段与结构变异图基因组进行比对并且基于所比对的核苷酸读段确定该基因组样本的核碱基检出的结构变体感知测序系统。
图6示出了根据本公开的一个或多个实施方案的客户端设备,该客户端设备显示包括结构变体单倍型的变体检出的图形用户界面。
图7示出了根据本公开的一个或多个实施方案的表格,该表格显示以下项的不同精确度测量:(i)测序系统使用缺乏表示结构变体的交替连续序列的现有图参考基因组确定超过50个碱基对的缺失和插入的变体检出,以及(ii)结构变体感知测序系统使用结构变异图基因组确定此类缺失和插入的结构变体检出。
图8示出了根据本公开的一个或多个实施方案的用于生成结构变异图基因组的一系列动作。
图9示出了根据本公开的一个或多个实施方案的用于将基因组样本的核苷酸读段与结构变异图基因组进行比对并且基于所比对的核苷酸读段确定该基因组样本的核碱基检出的一系列动作。
图10示出了根据本公开的一个或多个实施方案的示例性计算设备的框图。
具体实施方式
本公开描述了结构变体感知测序系统的一个或多个实施方案,该结构变体感知测序系统可生成具有交替连续序列的结构变异图基因组,这些交替连续序列表示选自候选结构变体的结构变体单倍型。例如,结构变体感知测序系统可在基因组样本数据库内识别阈值频率(或以其他方式满足另一个出现阈值)的候选结构变体。此类候选结构变体可包括超过阈值数目(例如,50个)的碱基对的缺失或插入、复制、倒位、易位、拷贝数变异(CNV)或其他结构变体。结构变体感知测序系统基于以下项中的一者或两者从这些候选结构变体中选择结构变体单倍型:满足另一个出现阈值,以及发现与侧翼变体与特定结构变体单倍型相邻。该系统同样可从参考基因组中选择与所选结构变体单倍型相对应的基因组区域的参考单倍型。基于所选单倍型,该系统生成包括表示这些结构变体单倍型的交替连续序列和表示这些参考单倍型的参考序列两者的结构变异图基因组。
如上所述,结构变体感知测序系统可基于出现阈值从基因组样本数据库中识别候选结构变体。例如,结构变体感知测序系统可识别满足基因组样本数据库中的特定变体频率或最小计数的候选结构变体。这种基因组样本数据库可包括核苷酸读段、全基因组、外显子组、外显子或来自基因组样本的不同集合的其他核苷酸序列的数字目录。在识别候选结构变体时,结构变体感知测序系统可识别超过阈值数目的碱基对(例如,>50个碱基对)的缺失或插入或跨线性参考基因组的各个基因组区域处的各种其他结构变体。在基因组样本数据库内,结构变体感知测序系统可从长核苷酸读段或其他连续序列中识别此类候选结构变体。
在某些具体实施中,结构变体感知测序系统从所识别的候选结构变体中选择结构变体单倍型。例如,在一些情况下,结构变体感知测序系统选择满足与候选结构变体相对应的靶基因组区域处的阈值频率或阈值计数的结构变体单倍型。附加地或另选地,结构变体感知测序系统选择与基因组样本数据库的连续序列内的侧翼变体同相的结构变体单倍型。此类侧翼变体可包括小于阈值数目的碱基对(例如,<50个碱基对)的SNP或插入缺失。
在选择结构变体单倍型后,在一些实施方案中,结构变体感知测序系统将来自线性参考基因组的结构变体单倍型和参考单倍型整合到数据组织结构中。例如,在某些具体实施中,结构变体感知测序系统将来自线性参考基因组的参考单倍型、SNP、结构变体单倍型映射到线性参考基因组内的基因组坐标。结构变体感知测序系统还可将所映射的参考单倍型、SNP和结构变体单倍型的核碱基标识符(例如,字母A、T、C、G、U)与表示组织结构(例如,散列表、矩阵)中的基因组坐标的值相关联。
在一些实施方案中,作为生成结构变异图基因组的补充或另选方案,基于将基因组样本的核苷酸读段与该结构变异图基因组进行比较,结构变体感知测序系统确定基因组样本的核碱基检出。例如,在一些实施方案中,结构变体感知测序系统识别来自基因组样本的核苷酸读段。结构变体感知测序系统进一步将核苷酸读段的子集与表示结构变异图基因组内的结构变体单倍型的交替连续序列进行比对。基于所比对的核苷酸读段的子集,结构变体感知测序系统生成基因组样本的核碱基检出(例如,变体检出)。
除了生成核碱基检出之外,在一些实施方案中,结构变体感知测序系统报告与核碱基检出相对应的各种数据,这些核碱基检出与结构变体单倍型相对应。例如,在一些情况下,结构变体感知测序系统生成包括以下注释的比对文件或变体检出文件,该注释指示结构变体单倍型、该结构变体单倍型的频率或与核碱基检出相对应的结构变体单倍型的基因组坐标。
除了报告与结构变体相对应的变体检出之外,结构变体感知测序系统可更好地比对并且生成用于分割读段比对的变体检出。如上所述,结构变体感知测序系统可确定核苷酸读段何时与结构变体单倍型进行比对。例如,在某些情况下,结构变体感知测序系统确定核苷酸读段的子集与表示结构变异图基因组中的结构变体单倍型的交替连续序列的断点重叠。基于检测到此类重叠,结构变体感知测序系统生成具有以下注释的比对文件或变体检出文件,该注释指示反映基因组样本内的结构变体单倍型的比对。
如上所述,结构变体感知测序系统通过相对于现有的测序系统改善读段比对和碱基检出精确度、计算效率和存储器消耗而提供了相对于现有的测序系统的若干技术优势。例如,结构变体感知测序系统通过生成或利用解释结构变体的结构变异图基因组来改善读段比对和核碱基检出的精确度。与无法准确地或充分地表示结构变体的现有线性参考基因组或现有图参考基因组不同,结构变体感知测序系统可生成或实现包括表示结构变体单倍型的交替连续序列的结构变异图基因组。通过选择分别与连续序列内的侧翼变体同相的结构变体单倍型,在一些情况下,结构变体感知测序系统将结构变体单倍型掺入交替连续序列中,这些交替连续序列促进(i)反映此类侧翼变体和结构变体的核苷酸读段与(ii)结构变异图基因组的智能选择的交替连续序列之间的更好比对。通过进一步或另选地选择满足靶向基因组区域处的出现阈值的结构变体单倍型,在一些情况下,结构变体感知测序系统将结构变体单倍型掺入交替连续序列中,这些交替连续序列有效地促进反映更常见的结构变体单倍型的核苷酸读段与结构变异图基因组的所选交替连续序列之间的更好比对。
无论所公开的选择方法如何,结构变体感知测序系统的交替连续序列均促进改善与核苷酸读段的比对,从而指示较大的插入缺失、易位、倒位、CNV或其他结构变体。由于改善了与结构变异图基因组的比对,因此结构变体感知测序系统还可以比现有的测序系统更高的置信度来确定更准确的核碱基检出,即,此类检出与参考基因组的参考碱基匹配(或不同)。实际上,所公开的结构变异图基因组以相同的质量(例如,Q评分)或映射质量(例如,MAPQ)促进现有的参考基因组未(或无法)促进的变体检出或其他核碱基检出。
除了改善比对和碱基检出精确度之外,结构变体感知测序系统还改善了使用图参考基因组的一些测序系统的计算速度和存储器。与将包括不相关或过量等位基因的图扩增且随意选择地表示无数SNP和/或小的插入缺失(例如,10个或更少的碱基对)的通用图参考基因组相比,结构变体感知测序系统减少了保存比无数图扩增的基因图参考基因组相对较小的结构变异图基因组所需的存储器。结构变体感知测序系统通过使用结构变异图基因组来节省计算机处理和其他资源,而不是低效地使用计算资源(诸如处理和存储器存储),在假定的通用图参考基因组中,在过量数目的可能的读段比对匹配与SNP、小的插入缺失或结构变体的随意选择的交替连续序列之间作出决定。为了节省此类计算资源,在一些实施方案中,结构变异图基因组包括(i)更少(但更相关)的交替连续序列,这些交替连续序列表示所选侧翼变体和用于与样本的基因组区域进行比较的对应结构变体单倍型,以及(ii)由于比假定的通用图参考基因组更少的候选交替连续序列匹配而更有效的映射,该假定的通用图参考基因组包括随意选择的多个交替连续序列,这些随意选择的多个交替连续序列包括SNP、小的插入缺失或结构变体。
除了改善具有靶向交替连续序列的结构变异图基因组的计算效率之外,在一些实施方案中,结构变体感知测序系统通过减少用于确定结构变体的变体检出的测序分析和计算设备的数目来改善计算效率。如上所述,一些现有的测序系统通过运行以下两者消耗了大量的计算机处理和时间:(i)用于生成基因组样本的核苷酸读段的专用测序设备上的WGS,和(ii)微阵列设备上的多个基因型微阵列。通过将核苷酸读段与WGS的参考基因组进行比较并分析来自微阵列中的DNA探针的光信号,现有的测序系统一方面可基于参考基因组确定SNP和较小插入缺失两者的准确变体检出,并且另一方面可确定来自DNA探针的靶向结构变体。与此类现有的测序系统相比,在一些实施方案中,结构变体感知测序系统通过以下方式促进了一种更有效的计算方法:使用确定核苷酸读段的专用测序设备而不使用或较少使用用于靶向结构变体的基因型微阵列来确定与结构变体相对应的变体检出。因此,通过生成或利用具有表示结构变体单倍型的交替连续序列的结构变异图基因组,结构变体感知测序系统可消除用于结构变体的一些或全部基因型微阵列。
如上述讨论所示,本公开利用多种术语来描述结构变体感知测序系统的特征和优点。如本文所用,例如术语“结构变体”是指生物体的染色体的结构中的变异(例如,缺失、插入、易位、倒位)或生物体的染色体的核苷酸序列的变异。在一些情况下,结构变体包括生物体的染色体内的阈值数目的碱基对(例如,>50个碱基对)的变异。因此,在某些具体实施中,结构变体包括超过阈值数目的碱基对的插入或缺失、超过阈值数目的碱基对的复制、倒位、易位或拷贝数变异(CNV)。虽然本公开将50个碱基对的一些示例描述为阈值数目的碱基对,但是在一些实施方案中,结构变体的阈值数目的碱基对可不同,例如35个、45个、100个或1,000个碱基对。
相关地,术语“候选结构变体”是指选自基因组样本数据库的结构变体。在一些情况下,候选结构变体包括满足基因组样本数据库内的出现阈值量的结构变体。例如,候选结构变体可包括来自基因组样本数据库的满足该基因组样本数据库内的核苷酸序列的靶基因组区域(例如,基因或启动子区)处的阈值频率或阈值计数的结构变体。
正如刚才所指出的,结构变体感知测序系统可从基因组样本数据库中选择候选结构变体。如本文所用,术语“基因组样本数据库”是指来自基因组样本的以数字表示的核苷酸序列的数据库,该数据库包括用于识别变体、参考等位基因或参考单倍型的组织、索引或搜索功能。例如,基因组样本数据库可包括(i)以数字表示的核苷酸读段、全基因组、外显子组、外显子或来自基因组样本的不同集合的其他核苷酸序列,和(ii)基因组坐标或区域的组织或索引,通过该基因组坐标或区域的组织或索引可识别变体或参考等位基因或单倍型的以数字表示的核苷酸序列。为了说明,在一些实施方案中,基因组样本数据库包括以下项中的一者或多者:来自千人基因组计划(1000Genomes Project)的国际基因组样本资源(International Genome Sample Resource,IGSR)、基因组聚集数据库(GenomeAggregation Database,gnomAD)、基因组变异数据库(Database of Genomic Variants,DGV),或包括表示结构变体的核苷酸序列的其他数据库,诸如包括超过300个碱基对的核苷酸读段的数据库。在一些情况下,基因组样本数据库表示选自上述数据库或其他数据库中的一者或多者的核苷酸序列的子集。
如上所述,在一些实施方案中,结构变体感知测序系统从基因组样本数据库内的候选结构变体中选择结构变体单倍型。如本文所用,术语“结构变体单倍型”是指存在于生物体(或来自群体的生物体)中的并且作为一组核苷酸序列的一部分从一个或多个祖先遗传而来的结构变体。具体地,结构变体单倍型可包括一组等位基因,该组等位基因包括(或表示)存在于群体的生物中的倾向于由此类生物从单个亲本一起遗传的一种或多种结构变体。因此,结构变体单倍型可包括作为一组等位基因的一部分并且可与特定基因相对应的结构变体和其他变体。
相比之下,术语“参考单倍型”是指由作为一组核苷酸序列的一部分从一个或多个祖先遗传而来的参考基因组表示的一组核苷酸序列。具体地,参考单倍型可包括来自线性参考基因组的倾向于由此类生物体从单个亲本一起遗传的一组等位基因。在一些情况下,参考单倍型包括与基因相对应的一组等位基因。
还如本文所用,术语“参考基因组”是指作为生物体的基因和其他遗传序列的代表性示例(或多个代表性示例)组装的数字核酸序列。无论序列长度如何,在一些情况下,参考基因组表示确定为代表生物体的数字核酸序列中的基因的示例性集合或核酸序列的集合。例如,线性人参考基因组可以是来自基因组参考联盟的GRCh38(或参考基因组的其他版本)。虽然GRCh38可包括表示交替单倍型的交替连续序列,诸如SNP和小的插入缺失(例如10个或更少的碱基对、50个或更少的碱基对),但是GRCh38包括具有群体结构变体的受限表示的交替单倍型。事实上,GRCh38中表示的结构变体仅包括由在其上构造其文库GRCh38的11个个体表示的那些结构变体。
附加地,如本文所用,术语“图参考基因组”是指包括线性参考基因组和表示变体单倍型序列或其他变体或另选核酸序列的交替连续序列(或图扩增)两者的参考基因组。例如,图参考基因组可包括线性参考基因组和与从基因组样本数据库识别的一个或多个群体单倍型序列相对应的交替连续序列。作为示例,图参考基因组可包括Illumina DRAGEN图参考基因组hg19。
如本文所公开,术语“结构变异图基因组”是指包括表示结构变体单倍型的交替连续序列和表示参考单倍型的参考序列的图参考基因组。例如,在一些实施方案中,结构变异图基因组包括补充有表示结构变体单倍型的交替连续序列的线性参考基因组。除了此类交替连续序列之外,在一些实施方案中,结构变异图基因组包括交替核碱基或表示交替单倍型的附加交替连续序列,诸如低于阈值数目的碱基对(例如,<50个碱基对)的SNP和/或插入缺失。虽然本公开使用了术语结构变异图基因组,但结构变体感知测序系统可以图散列表或其他数字组织结构的形式表示并使用结构变异图基因组。
如本文进一步使用的,术语“连续序列”(或简称“重叠群(contig)”)是指基因组样本(或物种的多个基因组样本)的基因组区域的共有核苷酸序列,其基于与该基因组区域相对应的重叠核苷酸区段的集合。具体地,连续序列包括一个或多个基因组样品的基因组区域的共有核苷酸序列,该共有核苷酸基于覆盖(或重叠)该基因组区域的一个或多个基因组样品的核苷酸读段。
相关地,术语“交替连续序列”(或简称“交替重叠群”)是指表示在一个或多个特定基因组坐标处添加到线性参考基因组(或其他参考基因组)的群体单倍型的连续序列(例如,提升到线性参考基因组)。在一些具体实施中,结构变异图基因组可包括映射到线性参考基因组的初级组装的基因组坐标的交替连续序列。例如,交替连续序列可表示包含具有到线性参考基因组中的与结构变体断点的两个或更多个侧翼相对应的两个或更多个基因组坐标的提升的结构变体的群体单倍型。在一些情况下,用于结构变异图基因组的散列表包括将表示结构变体单倍型的交替连续序列与表示来自线性参考基因组的初级组装的参考单倍型的基因组坐标相关联的标识符。
附加地,如本文所用,术语“基因组坐标”是指基因组(例如,生物体的基因组或参考基因组)内核苷酸碱基的特定方位或位置。在一些情况下,基因组坐标包括基因组的特定染色体的标识符和特定染色体内核苷酸碱基的位置的标识符。例如,一个或多个基因组坐标可以包括染色体的编号、名称或其他标识符(例如,chr1或chrX)以及一个或多个特定位置,诸如在染色体的标识符之后的编号位置(例如,chr1:1234570或chr1:1234570-1234870)。此外,在某些具体实施中,基因组坐标是指参考基因组的来源(例如,线粒体DNA参考基因组的mt或SARS-CoV-2病毒的参考基因组的SARS-CoV-2)和参考基因组的来源内核苷酸碱基的位置(例如,mt:16568或SARS-CoV-2:29001)。相比之下,在某些情况下,基因组坐标是指参考基因组内核苷酸碱基的位置,而不参考染色体或来源(例如,29727)。
如本文所用,“基因组区域”是指基因组坐标的范围。与基因组坐标一样,在某些具体实施中,基因组区域可通过染色体的标识符和一个或多个特定位置(诸如染色体标识符之后的编号位置,例如chr1:1234570-1234870)来识别。在各种具体实施中,基因组坐标包括参考基因组内的位置。在一些情况下,基因组坐标对特定参考基因组具有特异性。
如本文进一步使用的,术语“参考序列”是指来自参考基因组的核苷酸序列。例如,参考序列包括由线性参考基因组的初级组装以数字表示的核碱基序列。如上所述,在一些实施方案中,参考序列以数字表示来自线性参考基因组的初级组装的参考单倍型。
如本文进一步使用的,术语“侧翼变体”是指与参考基因组的一个或多个对应核碱基不一致或不同并且与核苷酸序列内的结构变体单倍型相邻(或为其一部分)的一个或多个变体核碱基。例如,侧翼变体包括与一个或多个参考核碱基不一致或不同并且与来自基因组样本数据库的核苷酸序列(例如,连续序列)内的结构变体单倍型同相的一个或多个变体核碱基。如上所述,侧翼变体可包括SNP、少于阈值数目的碱基对的缺失或少于阈值数目的碱基对的插入。在一些情况下,侧翼变体也可以是结构变体。
如本文进一步使用的,术语“核碱基检出”(或简称“碱基检出”)是指确定或预测测序循环期间寡核苷酸(例如,核苷酸读段)或样品基因组的基因组坐标的特定核碱基(或核碱基对)。具体地,核碱基检出可指示:(i)确定或预测已被掺入在核苷酸样品载玻片上的寡核苷酸内的核碱基的类型(例如,基于读段的核碱基检出);或者(ii)确定或预测存在于基因组内的基因组坐标或区域处的核碱基的类型,包括数字输出文件中的变体检出或非变体检出。在一些情况下,对于核苷酸读段,核碱基检出包括基于由被添加到核苷酸样品载玻片(例如,流通池的簇中)的寡核苷酸的带荧光标签的核苷酸产生的强度值来确定或预测核碱基。另选地,核碱基检出包括根据色谱峰或电流变化来确定或预测核碱基,这些色谱峰或电流变化是由穿过核苷酸样品载玻片的纳米孔的核苷酸产生的。相比之下,基于与基因组坐标相对应的核苷酸读段,核碱基检出还可包括最终预测变体检出文件(VCF)或另一碱基检出输出文件的样本基因组的基因组坐标处的核碱基。因此,核碱基检出可包括对应于基因组学坐标和参考基因组的碱基检出,诸如对应于参考基因组的特定位置处的变体或非变体的指示。实际上,核碱基检出可以是指变体检出,包括但不限于单核苷酸变体(SNV)、插入或缺失(indel)或作为结构变体的一部分的碱基检出。如上文所提出的,单个核碱基检出可以是腺嘌呤(A)检出、胞嘧啶(C)检出、鸟嘌呤(G)检出或胸腺嘧啶(T)检出、或尿嘧啶(U)检出。
如本文进一步使用的,术语“核苷酸读段”(或简称“读段”)是指从样本核苷酸序列(例如,样本基因组序列,cDNA)的全部或部分推断出的一个或多个核碱基(或核碱基对)的序列。具体地,核苷酸读段包括来自与基因组样本相对应的样本库片段的核苷酸序列(或单克隆核苷酸序列组)的核碱基检出的所确定或预测的序列。例如,在一些情况下,测序设备通过生成穿过核苷酸样本载玻片的纳米孔的核碱基的核碱基检出来确定核苷酸读段,经由加荧光标签来确定,或根据流通池中的簇来确定。
如本文进一步使用的,术语“比对评分”是指数值评分、度量或评估在核苷酸读段或该核苷酸读段的片段与来自参考基因组的另一个核苷酸序列之间的比对的精确度的其他定量测量。具体地,比对评分包括指示核苷酸读段的核碱基与来自参考基因组的参考序列或交替连续序列相匹配或类似的程度的度量。在某些具体实施中,比对评分采取史密斯-沃特曼(Smith-Waterman)评分或用于局部比对的史密斯-沃特曼评分的变型或版本的形式,诸如由Illumina,Inc.公司用于史密斯-沃特曼评分的DRAGEN使用的各种设置或配置。
相关地,术语“交替重叠群片段比对评分(alt-contig fragment alignmentscore)”是指用于一个或多个读段片段与交替连续序列之间的比对的比对评分。具体地,交替重叠群片段比对评分可包括用于核苷酸读段的一个或多个内部读段片段和一个或多个外部读段片段与交替连续序列的比对的比对评分。如下文所解释的,在某些情况下,交替重叠群片段比对评分可代替分割组评分或用作该分割组评分。
如本文进一步使用的,术语“比对文件”是指指示核苷酸读段与参考基因组的核苷酸序列或其他参考核苷酸序列的相对比对或映射的数字文件。具体地,比对文件可包括指示核苷酸读段与参考基因组的核苷酸序列的相对映射位置的数据。在一些实施方案中,比对文件包括或构成序列比对/映射(SAM)文件、二进制比对映射(BAM)文件、FAST-All(FASTA)文件或FASTQ文件。
如本文所用,例如术语“可配置处理器”是指可经配置或自定义以进行特定应用的电路或芯片。例如,可配置处理器包括被设计成由最终用户的计算设备在现场配置或自定义以进行特定应用的集成电路芯片。可配置处理器包括但不限于ASIC、ASSP、粗粒度可重新配置阵列(CGRA)或FPGA。相比之下,可配置处理器不包括CPU或GPU。在一些实施方案中,结构变体感知测序系统使用可配置处理器(例如,FPGA)或处理器(例如,CPU)来进行本文所述的各种实施方案。
以下段落关于描绘示例性实施方案和具体实施的说明性附图来描述结构变体感知测序系统。例如,图1示出了根据一个或多个实施方案的结构变体感知测序系统106在其中操作的计算系统100的示意性示图。如图所示,计算系统100包括连接到本地设备108(例如,本地服务器设备)的测序设备102、一个或多个服务器设备110和客户端设备114。如图1所示,测序设备102、本地设备108、服务器设备110和客户端设备114可经由网络118彼此通信。网络118包括计算设备可在其上通信的任何合适的网络。下文关于图10更详细地讨论示例性网络。虽然图1示出了结构变体感知测序系统106的实施方案,但本公开描述了以下另选实施方案和配置。
如图1所指示的,测序设备102包括用于对基因组样本或其他核酸聚合物进行测序的计算设备或测序设备系统104。在一些实施方案中,通过执行使用处理器的测序设备系统104,测序设备102分析从基因组样本提取的核苷酸片段或寡核苷酸,以利用计算机实现的方法和系统在测序设备102上直接或间接生成核苷酸读段或其他数据。更具体地,测序设备102接收包括从样本提取的核苷酸片段的核苷酸样本载玻片(例如,流通池),然后拷贝并确定此类提取的核苷酸片段的核碱基序列。
在一个或多个实施方案中,测序设备102利用SBS将核苷酸片段测序为核苷酸读段并确定这些核苷酸读段的核碱基检出。作为跨网络118进行通信的补充或另选方案,在一些实施方案中,测序设备102绕过网络118并且直接与本地设备108或客户端设备114通信。通过执行测序设备系统104,测序设备102还可将核碱基检出存储为被格式化为二进制碱基检出(BCL)文件的碱基检出数据的一部分,并将BCL文件发送至本地设备108和/或服务器设备110。
如图1进一步指示的,本地设备108位于或靠近测序设备102的相同物理方位。实际上,在一些实施方案中,本地设备108和测序设备102被集成到相同计算设备中。本地设备108可运行结构变体感知测序系统106以生成、接收、分析、存储和传输数字数据,诸如通过接收到碱基检出数据或者基于分析此类碱基检出数据来确定变体检出。如图1所示,测序设备102可发送(并且本地设备108可接收)在测序设备102的测序运行期间生成的碱基检出数据。通过执行结构变体感知测序系统106形式的软件,本地设备108可将核苷酸读段与结构变异图基因组112进行比对,并基于所比对的核苷酸读段来确定遗传变异。本地设备108还可与客户端设备114通信。具体地,本地设备108可向客户端设备114发送数据,该数据包括变体检出文件(VCF)或指示核碱基检出、测序度量、错误数据或其他度量的其他信息。
如图1进一步指示的,服务器设备110位于远离本地设备108和测序设备102的位置。类似于本地设备108,在一些实施方案中,服务器设备110包括结构变体感知测序系统106的版本。因此,服务器设备110可生成、接收、分析、存储和传输数字数据,诸如通过接收到碱基检出数据或者基于分析此类碱基检出数据来确定变体检出。如上所述,测序设备102可发送(并且服务器设备110可接收)来自测序设备102的碱基检出数据。服务器设备110还可与客户端设备114进行通信。具体地,服务器设备110可向客户端设备114发送数据,该数据包括VCF或其他测序相关信息。
在一些实施方案中,服务器设备110包括分布式服务器集合,其中服务器设备110包括跨网络118分布并且位于相同或不同物理方位中的许多服务器设备。此外,服务器设备110可包括内容服务器、应用程序服务器、通信服务器、网络托管服务器或另一类型的服务器。
如上所述,作为服务器设备110或本地设备108的一部分,结构变体感知测序系统106可生成或实现具有表示结构变体单倍型的交替连续序列的结构变异图基因组。例如,结构变体感知测序系统106可在基因组样本数据库内识别阈值频率(或以其他方式满足另一个出现阈值)的候选结构变体。结构变体感知测序系统106基于以下项中的一者或两者从这些候选结构变体中选择结构变体单倍型:满足另一个出现阈值,以及发现与侧翼变体与特定结构变体单倍型相邻。结构变体感知测序系统106同样可从参考基因组中选择与所选结构变体单倍型相对应的基因组区域的参考单倍型。基于所选单倍型,结构变体感知测序系统106生成包括表示这些结构变体单倍型的交替连续序列和表示这些参考单倍型的参考序列两者的结构变异图基因组。基于基因组样本的核苷酸读段与表示结构变体单倍型的交替连续序列的比较,结构变体感知测序系统106可确定该基因组样本的核碱基检出。
如图1进一步示出和指示的,通过执行测序应用程序116,客户端设备114可生成、存储、接收和发送数字数据。具体地,客户端设备114可从本地设备108接收测序数据,或者从测序设备102接收检出文件(例如,BCL)和测序度量。此外,客户端设备114可与本地设备108或服务器设备110通信以接收VCF,该VCF包括核碱基检出和/或其他度量,诸如碱基检出质量度量或通带滤波器度量。客户端设备114可相应地在测序应用程序116的图形用户界面内向与客户端设备114相关联的用户呈现或显示与变体检出或其他核碱基检出有关的信息。例如,客户端设备114可在测序应用程序116的图形用户界面内呈现针对已测序基因组样本的结构变体检出和/或测序度量。
尽管图1将客户端设备114描绘为台式计算机或膝上型计算机,但是客户端设备114可包括各种类型的客户端设备。例如,在一些实施方案中,客户端设备114包括非移动设备,诸如台式计算机或服务器,或其他类型的客户端设备。在又一些实施方案中,客户端设备114包括移动设备,诸如便携式电脑、平板电脑、移动电话或智能电话。下文关于图10讨论关于客户端设备114的附加细节。
如图1进一步示出的,客户端设备114包括测序应用程序116。测序应用程序116可以是在客户端设备114上存储和执行的网络应用程序或本机应用程序(例如,移动应用程序、桌面应用程序)。测序应用程序116可包括指令,这些指令(在被执行时)使客户端设备114从结构变体感知测序系统106接收数据并呈现碱基检出数据或来自VCF的数据以用于在客户端设备114处显示。此外,测序应用程序116可指导客户端设备114显示用于多个测序运行的概要。
如图1进一步示出的,结构变体感知测序系统106的版本可被定位和实现(例如,完全地或部分地)在客户端设备114或测序设备102上。在又一些实施方案中,结构变体感知测序系统106由计算系统100的一个或多个其他组件诸如本地设备108实现。具体地,结构变体感知测序系统106可跨测序设备102、本地设备108、服务器设备110和客户端设备114以多种不同方式来实现。例如,结构变体感知测序系统106可从服务器设备110下载到结构变体感知测序系统106和/或本地设备108,其中结构变体感知测序系统106的全部或部分功能在计算系统100内的每个相应设备处执行。
如上所述,结构变体感知测序系统106可生成并实现结构变异图基因组。图2A和图2B描绘了结构变体感知测序系统106的此类实施方案的概述。根据一个或多个实施方案,图2A示出了生成包括表示结构变体单倍型的交替连续序列和表示参考单倍型的参考序列的结构变异图基因组212的结构变体感知测序系统106的示例。根据一个或多个实施方案,图2B示出了将基因组样本的核苷酸读段与结构变异图基因组212进行比对并且基于所比对的核苷酸读段确定该基因组样本的核碱基检出的结构变体感知测序系统106的示例。
如图2A所示,结构变体感知测序系统106基于出现阈值从基因组样本数据库202中识别候选结构变体204a至204n。例如,结构变体感知测序系统106识别满足基因组样本数据库202内的出现阈值量的候选结构变体204a至204n。通过选择满足基因组样本数据库202中的靶基因组坐标处的阈值计数(例如,3次或更多次出现)或阈值频率(例如,10%、30%变体频率)的结构变体,在一些具体实施中,结构变体感知测序系统106从基因组样本数据库202中选择候选结构变体204a至204n。如上所述,基因组样本数据库202可包括多种数据库,这些数据库包括来自基因组样本的不同集合的核苷酸读段,诸如来自千人基因组计划的IGSR、gnomAD或DGV的一者或多者的组合。
如图2A进一步指示的,结构变体感知测序系统106识别候选结构变体204a至204n中的多种结构变体类型。基于满足出现阈值量,例如,结构变体感知测序系统106识别表现出超过阈值数目的碱基对的缺失的候选结构变体204a和204c;表现出易位的候选结构变体204b和204d;表现出超过阈值数目的碱基对的插入的候选结构变体204f和204g;以及表现出超过阈值数目的碱基对的复制的候选结构变体204e和204n。为了说明性目的和空间限制,图2A仅作为示例描绘了候选结构变体204a至204n。结构变体感知测序系统106可从基因组样本数据库202中识别不同类型的结构变体(例如,易位、CNV)以及未在图2A中描绘的附加结构变体。
如图2A进一步所示,结构变体感知测序系统106从候选结构变体204a至204n中选择结构变体单倍型。在一些情况下,结构变体感知测序系统106选择满足在特定基因组区域处的附加出现阈值量的结构变体单倍型,如在基因组样本数据库202中分类的。例如,在某些具体实施中,结构变体感知测序系统106选择满足与候选结构变体204a至204n相对应的靶基因组坐标处的阈值变体频率(例如,15%、25%)或阈值计数(3次、10次)的结构变体单倍型。
作为出现阈值的补充或另选方案,在一些实施方案中,结构变体感知测序系统106选择与基因组样本数据库202的连续序列内的侧翼变体相邻的结构变体单倍型。在一些情况下,这些侧翼变体与基因组样本数据库202的核苷酸序列中的相应结构变体单倍型同相。如图2A所指示的,例如,结构变体感知测序系统106确定候选结构变体204c与基因组样本数据库202的连续序列(或其他核苷酸序列)内的侧翼变体206a同相。类似地,结构变体感知测序系统106确定候选结构变体204d与侧翼变体206b同相,候选结构变体204g与侧翼变体206c和206d同相,并且候选结构变体204n与侧翼变体206e同相——每个侧翼变体位于基因组样本数据库202的相应连续序列(或其他核苷酸序列)内。因此,如图2A的虚线圆圈所指示的,在一些实施方案中,结构变体感知测序系统106选择候选结构变体204c、204d、204g和204n作为结构变体单倍型以包括在结构变异图基因组212内。
除了选择候选结构变体204c、204d、204g和204n作为结构变体单倍型之外,如图2A进一步所示,结构变体感知测序系统106从线性参考基因组208中识别与所选结构变体单倍型相对应的参考单倍型210a至210n。例如,在一些情况下,结构变体感知测序系统106在与所选结构变体单倍型相对应的线性参考基因组208的基因组坐标处识别参考单倍型210a至210n。实际上,结构变体感知测序系统106可识别参考单倍型210a至210n的基因组坐标,在这些基因组坐标上将所选变体单倍型作为提升(liftover)组掺入结构变异图基因组212中。
如图2A进一步所示,结构变体感知测序系统106生成结构变异图基因组212。如图所示,结构变异图基因组212包括表示所选结构变体单倍型的交替连续序列214a、214b、214c和214n。在一些实施方案中,这些交替连续序列中的一者或多者还包括侧翼变体206a至206e。
为了组织用于特定基因组区域的不同结构变体单倍型,在某些情况下,结构变体感知测序系统106通过以下方式来生成结构变异图基因组212:根据基因组样本数据库202内的结构变体频率,对与不同基因组区域相对应的交替连续序列的不同子集进行排序。因此,在一些情况下,结构变体感知测序系统106通过以下方式来生成结构变异图基因组212:(i)根据基因组样本数据库202内的频率,对与第一基因组区域相对应的交替连续序列的第一子集进行排序;以及(ii)根据基因组样本数据库202内的频率,对与第二基因组区域相对应的交替连续序列的第二子集进行排序。
如图2A进一步所示,结构变异图基因组212包括表示与所选结构变体单倍型相对应的参考单倍型的参考序列216a、216b、216c和216n。实际上,在一些实施方案中,结构变异图基因组212包括线性参考基因组208并与该线性参考基因组向后兼容。如下文进一步解释的,在一些实施方案中,结构变体感知测序系统106通过构建散列表或其他组织结构来生成结构变异图基因组212。
作为生成结构变异图基因组212的补充或另选方案,在一些实施方案中,结构变体感知测序系统106将基因组样本的核苷酸读段与结构变异图基因组212进行比对并且基于所比对的核苷酸读段确定该基因组样本的核碱基检出。图2B描绘了结构变异图基因组212的一个此类具体实施的示例。如图2B所示,结构变体感知测序系统106识别或接收基因组样本的核苷酸读段218。在一些情况下,例如,结构变体感知测序系统106从测序设备接收碱基检出数据(例如,BCL文件或FASTQ文件),该测序设备已经对从基因组样本提取的寡核苷酸进行了测序并且确定了该碱基检出数据中的核苷酸读段218的个体核碱基检出。根据所进行的测序类型,在一些实施方案中,结构变体感知测序系统106将单个末端读段或配对末端读段以及短核苷酸读段(例如,<300个碱基对或<10,000个碱基对)或长核苷酸读段(例如,>300个碱基对或>10,000个碱基对)识别为核苷酸读段218。
如图2B进一步所示,结构变体感知测序系统106将核苷酸读段218与结构变异图基因组212的不同序列进行比对。具体地,结构变体感知测序系统106将来自核苷酸读段218的核苷酸读段的子集220与结构变异图基因组212的交替连续序列214b进行比对。如图2B所示,核苷酸读段的子集220中的一些或全部与交替连续序列214b重叠。在该特定示例中,核苷酸读段的子集220与表示候选结构变体204f(即,超过阈值数目的碱基的插入)的交替连续序列214b重叠。
除了交替连续序列214b之外,在一些实施方案中,结构变体感知测序系统106将基因组样本的核苷酸读段的不同子集与结构变异图基因组212的交替连续序列214a、214c或214n或参考序列216a至216n中的一者或多者进行比对。因此,在某些具体实施中,结构变体感知测序系统106将某些核苷酸读段与表示不同类型的结构变体单倍型的交替连续序列(包括但不限于插入、缺失、复制、倒位、易位或CNV)进行比对。同样,在一些情况下,结构变体感知测序系统106将某些核苷酸读段与表示来自线性参考基因组的参考单倍型的参考序列进行比对。
如图2B进一步所示,结构变体感知测序系统106基于核苷酸读段的子集220与交替连续序列214b的比对来确定基因组样本的核碱基检出222。例如,结构变体感知测序系统106生成与由交替连续序列214b表示的结构变体单倍型相对应的一个或多个变体检出。结构变体感知测序系统106确定此类变体检出,部分原因是核苷酸读段的子集220与交替连续序列214b的比对比核苷酸读段的子集220与参考序列216b的比对表现出更好的映射度量、碱基检出质量度量或其他测序度量。在一些实施方案中,结构变体感知测序系统106基于读段比对生成包括核碱基检出222以及其他核碱基检出的变体检出文件224。
如上所述,结构变体感知测序系统106可从基因组样本数据库中选择结构变体单倍型以包括在结构变异图基因组内。根据一个或多个实施方案,图3示出了结构变体感知测序系统106基于定相标准308和区域出现阈值310中的一者或两者来选择用于结构变异图基因组的靶基因组区域的结构变体单倍型。尽管未在图3中示出,但在某些具体实施中,结构变体感知测序系统106还选择用于其他靶基因组区域的结构变体单倍型以包括在与以下公开内容一致的结构变异图基因组内。
如图3所示,结构变体感知测序系统106从基因组样本数据库300中识别候选结构变体。与上述公开内容一致,基因组样本数据库300可包括包含各种结构变体的长核苷酸读段(例如,读段>300个碱基对或>1,000个碱基对)。在一些实施方案中,基因组样本数据库300包括来自包含结构变体的基因组样本的不同集合(例如,来自世界不同地理区域或国家)的连续序列。实际上,基因组样本数据库300可包括根据包含一种或多种结构变体的单倍型组织的连续序列。如下文所解释的,结构变体感知测序系统106可利用一些这样的连续序列,这些连续序列包括与对应结构变体单倍型同相的侧翼变体,以用于改善比对、映射和碱基检出。
如图3所描绘的,在一些实施方案中,结构变体感知测序系统106基于群体出现阈值301识别候选结构变体。群体出现阈值301提供了出现阈值量的示例。例如,结构变体感知测序系统106识别在由基因组样本数据库300表示的群体内以阈值频率或高于阈值频率出现的候选结构变体。在一些情况下,阈值频率构成由基因组样本数据库300内的连续序列(或其他核苷酸序列)表示的基因组样本的特定百分比(例如,1%、5%)。附加地或另选地,结构变体感知测序系统106识别在由基因组样本数据库300内的连续序列(或其他核苷酸序列)表示的基因组样本内以阈值计数或高于阈值计数出现的候选结构变体。在一些情况下,阈值计数构成由基因组样本数据库300内的此类连续序列或其他核苷酸序列表示的基因组样本的特定数目(例如,3、10、25、100)。
除了通常从群体中识别候选结构变体之外,在一些实施方案中,结构变体感知测序系统106确定与特定基因组区域相对应的候选结构变体。如图3所示,例如,结构变体感知测序系统106识别用于靶基因组区域314的候选结构变体302。在一些情况下,靶基因组区域314表示基因、启动子区或其他基因组区域。
对于给定的靶基因组区域,结构变体感知测序系统106可识别不同类型的候选结构变体。如图3所示,例如,结构变体感知测序系统106识别靶基因组区域314的候选结构变体302。基于满足群体出现阈值301,结构变体感知测序系统106针对靶基因组区域314识别表现出超过阈值数目的碱基对(例如,<50、100或1,000个碱基对)的缺失的候选结构变体304a和304b;表现出超过阈值数目的碱基对的复制的候选结构变体304c和304d;表现出超过阈值数目的碱基对的插入的候选结构变体304e和304f;表现出倒位的候选结构变体304g和304h;以及表现出易位的候选结构变体304i和304j。
为了说明性目的和空间限制,图3仅作为示例描绘了针对靶基因组区域314的候选结构变体204a至204n。结构变体感知测序系统106可从基因组样本数据库300中识别不同类型的结构变体(例如,CNV)以及比图3中针对靶基因组区域314所描绘的结构变体更少或更多的结构变体。同样地,在一些实施方案中,结构变体感知测序系统106可从基因组样本数据库300中识别与线性参考基因组的基因组坐标相对应的不同靶基因组区域的不同候选结构变体组(或者无候选结构变体)。
除了识别候选结构变体302之外,在一些实施方案中,结构变体感知测序系统106基于定相标准308和区域出现阈值310中的一者或两者从候选结构变体302中选择结构变体单倍型312。例如,在某些具体实施中,结构变体感知测序系统106基于定相标准308通过选择分别与连续序列内的侧翼变体同相的结构变体单倍型来选择结构变体单倍型312。如图3所示,候选结构变体304b、304d、304f、304h和304j分别与侧翼变体306a、306b、306c、306d和306e同相,这些侧翼变体在相应连续序列内与候选结构变体304b、304d、304f、304h和304j相邻。相比之下,候选结构变体304a、304e、304e、304g和304i与相应连续序列内的侧翼变体不同相。因此,在一些实施方案中,结构变体感知测序系统106选择候选结构变体304b、304d、304f、304h和304j作为靶基因组区域314的结构变体单倍型312。在一些此类实施方案中,结构变体感知测序系统106将候选结构变体304a、304e、304e、304g和304i排除在考虑之外或者将它们过滤掉。
通过选择分别与连续序列或其他核苷酸序列内的侧翼变体同相的结构变体单倍型,结构变体感知测序系统106可选择这样的结构变体单倍型:这些结构变体单倍型与缺乏此类定相侧翼变体的其他结构变体单倍型相比,促进了与结构变异图基因组中的核苷酸读段的更好映射和比对。当结构变异图基因组包括具有此类定相侧翼变体的结构变体单倍型时,当核苷酸读段同样包括也由该结构变异图基因组的交替连续序列表示的侧翼变体时,结构变体感知测序系统106更有可能比对包括一些或全部对应结构变体的基因组样本的核苷酸读段。当映射到具有结构变异图基因组的侧翼变体的交替连续序列时,结构变体感知测序系统106还更有可能确定与对缺乏这种侧翼变体的参考序列(或其他交替连续序列)的映射和比对相比,核苷酸读段对该交替连续序列的映射和比对具有相对较高的映射质量度量(例如,MAPQ)和局部比对评分(例如,史密斯-沃特曼评分)。
作为定相标准308的补充或另选方案,结构变体感知测序系统106基于区域出现阈值310从候选结构变体302中选择结构变体单倍型312。区域出现阈值310提供了出现阈值量的另一示例。例如,结构变体感知测序系统106通过选择在靶基因组区域314处以阈值频率或高于阈值频率出现的候选结构变体来选择结构变体单倍型312。在一些情况下,阈值频率构成由基因组样本数据库300内针对靶基因组区域314的连续序列(或其他核苷酸序列)(例如,具有靶基因组区域314的至少一个重叠基因组坐标)表示的基因组样本的特定百分比(例如,10%、25%)。附加地或另选地,结构变体感知测序系统106通过以下方式来选择结构变体单倍型312:选择在基因组样本数据库300内针对靶基因组区域314的连续序列(或其他核苷酸序列)(例如,至少一个重叠基因组坐标)内以阈值计数或高于阈值计数出现的候选结构变体。在一些情况下,阈值计数构成与靶基因组区域314相对应的连续序列或其他核苷酸序列的特定数目(例如,3、10、15)。
通过基于定相标准308和区域出现阈值310中的一者或两者来选择结构变体单倍型,在一些情况下,结构变体感知测序系统106改善了使用某些图参考基因组的测序系统的计算速度和存储器。与将包括在靶基因组区域处的大部分不相关或过量等位基因的交替连续序列的通用图参考基因组相比,结构变体感知测序系统106在更加靶向的交替连续序列和对应的结构变体单倍型方面减少了保存相对较小的结构变异图基因组所需的存储器。在一些实施方案中,结构变体感知测序系统106基于定相标准308和区域出现阈值310中的一者或两者智能地选择表示结构变体单倍型的靶向交替连续序列,而不是在通用图参考基因组中随意选择的多个交替连续序列。
在选择结构变体单倍型和其他交替单倍型后,结构变体感知测序系统106可使用数字组织结构生成结构变异图基因组。根据一个或多个实施方案,图4示出了使用图散列表将来自参考基因组的参考序列、所选结构变体单倍型和所选交替单倍型组合成结构变异图基因组的结构变体感知测序系统106。如下文所解释的,该图散列表将参考序列的已编码核苷酸序列、所选结构变体单倍型和所选交替单倍型与基因组坐标相关联。
除了选择如图2B或图3所描绘的结构变体单倍型之外,在一些实施方案中,结构变体感知测序系统106识别或选择交替单倍型以用于包括在结构变异图基因组内。例如,在一些情况下,结构变体感知测序系统106从基因组样本数据库中选择SNP、少于阈值数目的碱基对的缺失(例如,>50个碱基对)或少于阈值数目的碱基对的插入中的一者或多者。此类交替单倍型在大小和(在一些情况下)种类上不同于结构变体单倍型。与上述公开内容一致,在一些此类情况下,结构变体感知测序系统106基于线性参考基因组的靶基因组区域的区域出现阈值来选择交替单倍型。在选择交替单倍型之后,在一些实施方案中,结构变体感知测序系统106生成包括以下项的结构变异图基因组:(i)表示参考单倍型的参考序列,(ii)表示所选结构变体单倍型的交替连续序列,和(iii)表示所选交替单倍型的交替核碱基或附加交替连续序列。
为了组织和关联此类参考序列、交替核碱基和交替连续序列,在一些实施方案中,结构变体感知测序系统106生成将上述参考序列和交替序列与基因组坐标相关联的数字组织结构。例如,在某些具体实施中,结构变体感知测序系统106生成比对文件,该比对文件将所选结构变体单倍型映射到线性参考基因组内的所选参考单倍型的基因组坐标。在一些情况下,该比对文件构成序列比对/映射(SAM)提升文件。通过利用比对文件,结构变体感知测序系统106通过在组织结构(例如,散列表)内将表示结构变体单倍型的交替连续序列的标识符(例如,单字母代码、二进制代码)与参考单倍型的基因组坐标的值相关联来生成结构变异图基因组。
为了整合表示参考单倍型的参考序列和交替核碱基或附加交替连续序列,在一些实施方案中,结构变体感知测序系统106还生成表示参考单倍型和所选交替单倍型的核碱基或核苷酸序列的文件。例如,结构变体感知测序系统106生成表示包括参考单倍型的参考基因组的序列文件和表示所选交替单倍型的变体检出文件。在一些实施方案中,通过利用序列文件、比对文件和变体检出文件,结构变体感知测序系统106通过在散列表内将以下项的核碱基标识符与表示参考单倍型的基因组坐标的值相关联来生成结构变异图基因组:(i)表示参考单倍型的参考序列,(ii)表示所选结构变体单倍型的交替连续序列,和(iii)交替核碱基或附加交替连续序列。
图4示出了基于对应文件生成图散列表422作为这种组织结构的结构变体感知测序系统106。如图4所示,例如,结构变体感知测序系统106识别参考基因组402,诸如线性参考基因组。例如,结构变体感知测序系统106将来自基因组参考联盟的GRCh38(或参考基因组的其他版本)识别为参考基因组402。基于参考基因组402,结构变体感知测序系统106生成包括参考基因组402的编码版本的参考基因组序列文件404。例如,在一些实施方案中,结构变体感知测序系统106生成FASTA格式文件作为参考基因组序列文件404。这种FASTA文件包括具有单字母代码(例如,A、C、T、G、U、R、Y、M、S、W)的文本,这些单字母代码表示参考基因组402的核苷酸序列的核碱基(例如,A、C、T、G)。
除了参考基因组402之外,如图4进一步所示,结构变体感知测序系统106从基因组样本数据库中识别候选结构变体406并且从候选结构变体406中选择结构变体单倍型408以用于包括在结构变异图基因组中。例如,结构变体感知测序系统106使用图3所示和上文所述的方法来选择结构变体单倍型408。因此,在一些情况下,结构变体单倍型408包括与连续序列内的侧翼变体(例如,SNP或插入缺失)同相的结构变体单倍型。
基于结构变体单倍型408,结构变体感知测序系统106生成结构变体(SV)单倍型比对文件410。例如,结构变体感知测序系统106生成序列比对/映射(SAM)提升文件,该文件将结构变体单倍型408映射到参考基因组402内的对应参考单倍型的基因组坐标。通过生成SAM提升文件,结构变体感知测序系统106生成将结构变体单倍型408映射到基因组坐标的文件,针对这些基因组坐标,交替连续序列将在结构变异图基因组中形成提升组。另选地,结构变体感知测序系统106生成被压缩成二进制格式的二进制比对映射(BAM)文件,诸如结构变体单倍型到对应参考单倍型的基因组坐标的映射。
基于结构变体单倍型408,如图4进一步所示,结构变体感知测序系统106生成结构变体(SV)单倍型序列文件412。例如,在一些实施方案中,结构变体感知测序系统106生成FASTA格式文件作为SV单倍型序列文件412。这种FASTA文件包括具有单字母代码的文本,这些单字母代码表示结构变体单倍型408的核苷酸序列的各个核碱基。在一些情况下,FASTA文件包括识别各个结构变体单倍型的靶基因组区域的描述符或其他标头。
如图4进一步所示,结构变体感知测序系统106识别候选交替单倍型414。例如,在一些情况下,结构变体感知测序系统106选择在参考基因组402的低置信度检出区域中低于阈值数目的碱基对的SNP或插入缺失。为了说明,低置信度检出区域可包括包含(全部或部分)可变数目的串联重复(VNTR)、插入或缺失的基因组区域,或具有多种不同变化的区域。低置信度检出区域同样可包括在历史上导致以下核碱基检出的基因组区域,这些核碱基检出表现出低质量测序度量,诸如低于阈值碱基检出质量度量(例如,Q20、Q30、Q37)或阈值映射质量度量(例如,相对MAPQ评分或MAPQ 40)。与上述公开内容一致,在一些实施方案中,结构变体感知测序系统106基于参考基因组402的靶基因组区域(诸如低置信度检出区域)的区域出现阈值来选择交替单倍型416。
基于交替单倍型416,如图4进一步所示,结构变体感知测序系统106生成交替单倍型变体检出文件418。例如,结构变体感知测序系统106生成VCF格式化文件,该VCF格式化文件用单字母代码(例如,A、T、C、G)标识交替单倍型以与特定基因组坐标处的对应参考单倍型的单字母代码进行对比。在一些实施方案中,结构变体感知测序系统106生成VCF文件,该VCF文件包括用于低置信度检出区域的超过400,000个此类交替单倍型。
基于参考基因组序列文件404、SV单倍型比对文件410、SV单倍型序列文件412或交替单倍型变体检出文件418中的一者或多者,结构变体感知测序系统106生成图散列表422。图散列表422表示结构变异图基因组的实施方案。例如,结构变体感知测序系统106通过将以下项中的每一者与参考单倍型的基因组坐标相关联来生成图散列表422:(i)表示来自参考基因组序列文件404的参考单倍型的参考序列、(ii)表示来自SV单倍型序列文件412的结构变体单倍型408的交替连续序列和(iii)来自交替单倍型变体检出文件418的交替核碱基或附加交替连续序列。结构变体感知测序系统106使用SV单倍型比对文件410将结构变体单倍型408映射到基因组坐标,在这些基因组坐标上,交替连续序列将在图散列表422中形成提升组。图散列表422因此表示将以下项的核碱基标识符(例如,单字母代码)映射到特定基因组坐标的组织结构:(i)来自参考基因组402的参考单倍型、(ii)结构变体单倍型408和(iii)交替单倍型416。
除了上述文件之外,在一些实施方案中,结构变体感知测序系统106生成掩膜文件420。掩膜文件420用来自FASTA文件的“N”部分地掩膜结构变体单倍型408或交替单倍型416的序列或核碱基标识符(例如,A、T、C、G)。通过掩膜结构变体单倍型408或交替单倍型416中的任一者或两者的序列或核碱基,结构变体感知测序系统106可在比对来自核苷酸读段的序列数据时基于自定义注释或掩膜(例如,隐藏)靶基因组区域来创建经掩膜的基因组文件。通过使用掩膜文件420部分地掩膜某些序列,诸如重复序列或低复杂性基因组区域,结构变体感知测序系统106可选择性地隐藏或掩膜用于比对的参考序列或另选的连续序列,从而确保核苷酸读段不与此类隐藏的核苷酸序列进行比对。在一些情况下,结构变体感知测序系统106生成浏览器可扩展数据(BED)文件作为掩膜文件420。因此,在一些实施方案中,图散列表422中的某些核苷酸序列被掩膜。
作为生成组织结构中的结构变异图基因组的补充或另选方案,在一些实施方案中,结构变体感知测序系统106实现结构变异图基因组以确定基因组样本的变体检出或其他核碱基检出。根据一个或多个实施方案,图5示出了(i)将基因组样本的核苷酸读段与结构变异图基因组进行比对并且(ii)基于所比对的核苷酸读段确定该基因组样本的核碱基检出的结构变体感知测序系统106。如下所述,结构变体感知测序系统106可基于将核苷酸读段的子集与表示结构变体单倍型或交替单倍型的交替连续序列进行比对来确定变体检出(或其他核碱基检出)。
如图5所示,结构变体感知测序系统106识别或接收基因组样本的核苷酸读段502。在一些情况下,例如,结构变体感知测序系统106从测序设备接收基础检出数据(例如,BCL文件或FASTQ文件)。在一些此类情况下,碱基检出数据采取碱基检出数据文件的形式,该碱基检出数据文件根据附着于从基因组样本提取的寡核苷酸的索引序列来组织单个末端读段或配对末端读段。如上所述,在一些具体实施中,结构变体感知测序系统106可对作为核苷酸读段502的短核苷酸读段(例如,<300个碱基对或<10,000个碱基对)进行测序或分析,或者在其他具体实施中,对作为核苷酸读段502的长核苷酸读段(例如,>300个碱基对或>10,000个碱基对)进行测序或分析。
如图5进一步所示,结构变体感知测序系统106将核苷酸读段502与结构变异图基因组504内的不同序列进行比对。例如,结构变体感知测序系统106将核苷酸读段的子集506a、506c和506e分别全部或部分地与参考序列508a、508b和508c进行比对。如上所述,参考序列508a至508c中的每一者均表示来自参考基因组(例如,GRCh38)的不同参考单倍型。作为另一示例,结构变体感知测序系统106将核苷酸读段的子集506b全部或部分地与交替核碱基或表示交替单倍型的交替连续序列510进行比对。最后,结构变体感知测序系统106将核苷酸读段的子集506d全部或部分地与表示结构变体单倍型的交替连续序列512a(或交替连续序列512b)进行比对。
为了说明性目的和空间限制,图5仅作为示例描绘了核苷酸读段的子集506a至506e、参考序列508a至508c、交替核碱基或交替连续序列510以及交替连续序列512a和512b。如上所述,测序设备可生成核苷酸读段的许多附加子集,并且结构变异图基因组504可包括许多其他类型的参考序列、交替核碱基或交替连续序列。实际上,图5所描绘的结构变异图基因组504是对由散列表、矩阵或其他数字组织结构体现的结构变异图基因组的参考序列和交替连续序列进行可视化的仅一个图示。
如图5所示,结构变体感知测序系统106确定核苷酸读段的子集506d与表示结构变体单倍型的交替连续序列512a完全或部分重叠。例如,结构变体感知测序系统106确定比对评分(例如,史密斯-沃特曼评分或史密斯-沃特曼评分的改良版本)超过了用于核苷酸读段的子集506a与对应参考序列的另选比对的其他比对评分。部分基于用于核苷酸读段的子集506d与交替连续序列512a的比对的比对评分超过了该核苷酸读段的子集的其他比对评分,在一些实施方案中,结构变体感知测序系统106生成指示基因组样本表现出由交替连续序列512a表示的结构变体单倍型的变体检出。
正如刚才所指出的,在一些实施方案中,结构变体感知测序系统106确定用于核苷酸读段的子集506d与交替连续序列512a的比对的交替重叠群片段比对评分(例如,史密斯-沃特曼评分或史密斯-沃特曼评分的改良版本)。结构变体感知测序系统106还可确定用于核苷酸读段的子集506d与一个或多个参考序列的分割比对的分割组评分。如果交替重叠群片段比对评分超过用于核苷酸读段的子集506d的分割比对的分割组评分,并且超过用于与其他交替连续序列(诸如交替连续序列512b)的其他比对的比对评分(例如,史密斯-沃特曼评分),则结构变体感知测序系统106通过提升关系选择并报告与交替连续序列512a相对应的参考基因组的初级组装的分割比对。通过选择和报告这种分割比对,结构变体感知测序系统106可基于核苷酸读段的子集506d与交替连续序列512a的比对使用所报告的分割比对来确定核碱基检出。然而,如果用于核苷酸读段的子集506d的分割比对的分割组评分超过交替重叠群片段比对评分,则结构变体感知测序系统106基于与参考基因组的一个或多个参考序列的不同分割比对来确定核碱基检出,这些参考序列可能不表示与交替连续序列512a的比对。在一些实施方案中,结构变体感知测序系统106确定交替重叠群片段比对评分和分割组评分,如美国专利申请号63/367,002“通过智能识别并评分候选分割组来改善分割读段比对(Improving Split-Read Alignment by Intelligently Identifying andScoring Candidate Split Groups)”(于2022年6月24日提交)所述,该专利申请全文以引用方式并入本文。
基于核苷酸读段的子集506a至506e与结构变异图基因组504的不同序列的比对,如图5进一步所示,结构变体感知测序系统106生成核碱基检出514。例如,在一些实施方案中,结构变体感知测序系统106基于核苷酸读段的子集506a、506c和506e分别与参考序列508a、508b和508c的比对来确定核苷酸读段的子集506a、506c和506e的核碱基检出。在一些此类情况下,核碱基检出可指示变体检出文件516中的参考碱基(例如,表示为0)。作为核碱基检出514的另一示例,结构变体感知测序系统106基于核苷酸读段的子集506b与交替核碱基或交替连续序列510之间的比对来确定核苷酸读段的子集506b的一个或多个变体检出。
与现有的测序系统不同,结构变体感知测序系统106还可基于结构变异图基因组确定与结构变体相对应的变体检出。例如,基于核苷酸读段的子集506a和交替连续序列512a的比对,结构变体感知测序系统106生成指示基因组样本表现出由交替连续序列512a表示的结构变体单倍型的一个或多个变体检出。在一些情况下,结构变体感知测序系统106生成包括以下注释的变体检出文件516或比对文件518:(i)指示表示结构变体单倍型的一个或多个变体检出或其他核碱基检出的注释,和/或(ii)指示反映基因组样本内的结构变体单倍型的比对的注释。与上述公开内容一致,变体检出或核碱基检出可与包括以下项的结构变体单倍型相对应:超过阈值数目的碱基对的缺失、超过阈值数目的碱基对的插入、超过阈值数目的碱基对的复制、倒位、易位或拷贝数变异(CNV)。
通过将核苷酸读段的子集506a至506e与结构变异图基因组504的表示结构变体单倍型的交替连续序列进行比对,结构变体感知测序系统106可恢复原本不会在输出文件中报告的核碱基检出。例如,在一些实施方案中,结构变体感知测序系统106确定用于核苷酸读段的子集506d的比对评分不满足用于核苷酸读段的子集506a与结构变异图基因组504内的线性参考基因组的初级组装区域之间的候选比对的阈值比对评分。
为了说明这种恢复,用于核苷酸读段的子集506a与各种参考序列的候选比对的比对评分可低于阈值比对评分。相比之下,用于核苷酸读段的子集506d与交替连续序列512a的比对的交替重叠群片段比对评分可满足阈值比对评分。因此,在一些实施方案中,结构变体感知测序系统106生成变体检出文件516或比对文件518,其中基于所比对的核苷酸读段的子集506d与交替连续序列512a的比对对基因组样本进行一个或多个核碱基检出,但基于核苷酸读段的子集506d与不满足阈值比对评分的各种参考序列的候选比对而不对基因组样本进行核碱基检出。
如上所述,结构变体感知测序系统106生成包括以下注释的变体检出文件516或比对文件518,该注释指示关于在基因组样本中检测到的结构变体单倍型的信息。例如,在一个或多个实施方案中,结构变体感知测序系统106生成包括以下注释中的一者或多者的变体检出文件516或比对文件518:(i)指示与结构变体单倍型相对应的变体检出或其他核碱基检出的注释,(ii)指示结构变体单倍型的频率(例如,结构变体单倍型在基因组样本数据库内的频率)的注释,(iii)指示与核碱基检出相对应的结构变体单倍型的基因组坐标的注释,或(iv)指示反映基因组样本内的结构变体单倍型的比对的注释。
在生成用于一个或多个此类注释数据之后,在一些实施方案中,结构变体感知测序系统106提供变体检出文件516或比对文件518以用于在计算设备上显示。根据一个或多个实施方案,图6示出了显示图形用户界面602的客户端设备114,该图形用户界面包括结构变体单倍型的变体检出。虽然图6描绘了当客户端设备114实现测序应用程序116的计算机可执行指令时所显示的图形用户界面602,但本公开并未重复地提及使客户端设备114执行结构变体感知测序系统106的特定动作的计算机可执行指令,而是在以下段落中描述了执行那些动作的客户端设备114或结构变体感知测序系统106。在一些实施方案中,变体检出文件516或比对文件518提供了在图形用户界面602内待呈现的部分计算机可执行指令和数据。
如图6所示,例如,客户端设备114呈现了反映基因组样本所表现出的不同结构变体单倍型的变体检出604a和604b。与上述公开内容一致,变体检出604a和604b表示与上述结构变体单倍型相对应的核碱基检出的图形表示。作为变体检出604a和604b中的每一者的一部分或补充,客户端设备114呈现了针对参照单倍型的参照序列的参照序列指示符(例如,REF:GGGGCC 30X或REF:ACGTTAA…)以及针对与结构变体单倍型相对应的一些或全部交替连续序列的交替序列指示符(例如,ALT:GGGGCC 101X或ALT:复制-倒位-倒位-缺失)。此外,作为变体检出604a和604b中的每一者的一部分或补充,客户端设备114呈现了变体检出604a和604b的基因组坐标(例如,Chr9:614260或Chr6:156、776、025-157)。
如图6进一步所示,在一些实施方案中,客户端设备114呈现了针对与变体检出604a和604b相对应的基因和变体频率的注释。例如,客户端设备114呈现了分别与变体检出604a和604b相对应的基因606a和606b(例如,c9orf72或ARID1B)。除了特定基因识别之外,客户端设备114还呈现了分别指示由变体检出604a和604b表示的结构变体单倍型的频率(例如,来自基因组样本数据库)的变体频率608a和608b(例如,1.2%或0.6%)。通过提供参考序列标识符、交替序列标识符、基因组坐标、基因以及变体频率,结构变体感知测序系统106向临床医生、测试受试者或其他人提供了指示针对某些基因的结构变体检出的关键信息。
如上所述,结构变体感知测序系统106通过生成或利用表示结构变体的结构变异图基因组来改善读段比对和核碱基检出的精确度。为了测试结构变体感知测序系统106的读段比对和核碱基检出的精确度,研究人员将测序系统使用现有图参考基因组检测结构变体的精确度与结构变体感知测序系统106使用结构变异图基因组识别结构变体的精确度进行比较。根据一个或多个实施方案,图7示出了表格700,该表格显示以下项的不同精确度测量:(i)测序系统使用缺乏表示结构变体的交替连续序列的现有图参考基因组确定超过50个碱基对的缺失和插入的变体检出,以及(ii)结构变体感知测序系统106使用结构变异图基因组确定此类缺失和插入的变体检出。如表格700所示,结构变体感知测序系统106通过使用结构变异图基因组而不是现有图参考基因组,提高了真阳性基因型检出、假阴性基因型检出、召回率以及确定超过50个碱基对的缺失和插入的变体检出的F评分。
如图7所指示的,研究人员将来自包括超过50个碱基对的新缺失和插入的查询检出集的核苷酸读段数据输入到测序系统和结构变体感知测序系统106中。测序系统将来自查询检出集的核苷酸读段数据与现有图参考基因组(此处为Illumina DRAGEN图参考基因组hg19)进行比对,并且基于所比对的核苷酸读段数据确定变体检出。结构变体感知测序系统106还将查询检出集中的核苷酸读段数据与结构变异图基因组的实施方案进行比对,并且基于所比对的核苷酸读段数据确定变体检出。
为了评估查询检出集的基因型检出的精确度,研究人员将查询检出集的测序系统和结构变体感知测序系统106的基因型检出与真实检出集进行比较。该真实检出集包括超过50个碱基对的已知缺失和插入。例如,该真实检出集包括由其他技术识别或手动验证的结构变体事件列表。
如表格700所指示的,研究人员还确定了(i)多个真阳性(TP)基因型检出,其中测序系统或结构变体感知测序系统106正确地确定了对应的插入和缺失,以及(ii)多个假阴性(FN)基因型检出,其中测序系统或结构变体感知测序系统106不正确地确定了对应的插入和缺失。基于真阳性基因型检出和假阴性基因型检出的数目,研究人员还确定召回率、精确率和F评分,如表格700所指示的。
如表格700所示,通过使用结构变异图基因组而不是现有图参考基因组,结构变体感知测序系统106提高了真阳性基因型检出,减少了假阴性基因型检出,并且提高了针对真实检出集中超过50个碱基对的缺失的召回率。类似地,与测序系统的现有图参考基因组相比,通过使用结构变异图基因组,结构变体感知测序系统106提高了真阳性基因型检出,减少了假阴性基因型检出,提高了精确率,并且提高了针对查询检出集中超过50个碱基对的缺失的F评分。
如表格700进一步所示,通过使用结构变异图基因组代替现有图参考基因组,结构变体感知测序系统106提高了真阳性基因型检出,减少了假阴性基因型检出,并且提高了针对真实检出集中超过50个碱基对的插入的召回率。类似地,与测序系统的现有图参考基因组相比,通过使用结构变异图基因组,结构变体感知测序系统106提高了真阳性基因型检出,减少了假阴性基因型检出,提高了精确率,并且提高了针对查询检出集中超过50个碱基对的插入的F评分。
现在转到图8,该图示出了根据本公开的一个或多个实施方案的生成结构变异图基因组的一系列动作800的流程图。虽然图8示出了根据一个实施方案的动作,但另选实施方案可省略、添加、重新排序和/或修改图8所示的任何动作。图8的动作可作为方法的一部分来进行。另选地,非暂态计算机可读存储介质可包括在由一个或多个处理器执行时使计算设备或系统进行图8所描绘的动作的指令。在又一些实施方案中,系统包括至少一个处理器和非暂态计算机可读介质,该非暂态计算机可读介质包括在由一个或多个处理器执行时使该系统进行图8的动作的指令。在一些情况下,该至少一个处理器包括可配置处理器,并且执行该至少一个处理器包括配置该可配置处理器。
如图8所示,动作800包括识别候选结构变体的动作810。具体地,在一些实施方案中,动作810包括识别满足基因组样本数据库内的出现阈值量的候选结构变体。
例如,在一些情况下,识别候选结构变体包括选择表示超过五十个碱基对的缺失、超过五十个碱基对的插入、超过五十个碱基对的复制、倒位、易位或拷贝数变异(CNV)中的一者或多者的结构变体。作为另一示例,在某些情况下,识别候选结构变体包括选择表示超过阈值数目的碱基对的缺失、超过阈值数目的碱基对的插入、超过阈值数目的碱基对的复制、倒位、易位或拷贝数变异(CNV)中的一者或多者的结构变体。
如图8进一步所示,动作800包括从候选结构变体中选择结构变体单倍型的动作820。具体地,在一些实施方案中,动作820包括从候选结构变体中选择结构变体单倍型。例如,在一些情况下,选择结构变体单倍型包括从候选结构变体中选择满足在特定基因组区域处的附加出现阈值量的特定结构变体单倍型。
为了说明,在一些实施方案中,选择结构变体单倍型包括:从候选结构变体中选择满足在第一基因组区域处的附加出现阈值量的第一结构变体单倍型;以及从候选结构变体中选择满足在第二基因组区域处的附加出现阈值量的第二结构变体单倍型。
附加地或另选地,在一些实施方案中,选择结构变体单倍型包括选择与基因组样本数据库的核苷酸序列内的特定侧翼变体相邻的特定结构变体单倍型。在一些情况下,侧翼变体包括单核苷酸多态性(SNP)、少于五十个碱基对的缺失或少于五十个碱基对的插入。具体地,在某些具体实施中,选择特定结构变体单倍型包括:选择与基因组样本数据库的第一核苷酸序列内的第一侧翼变体同相的第一结构变体单倍型;以及选择与基因组样本数据库的第二核苷酸序列内的第二侧翼变体同相的第二结构变体单倍型。
为了说明,在一些实施方案中,选择结构变体单倍型包括:选择与基因组样本数据库的第一核苷酸序列内的第一侧翼变体相邻的第一结构变体单倍型;以及选择与基因组样本数据库的第二核苷酸序列内的第二侧翼变体相邻的第二结构变体单倍型。如上所述,在一些情况下,第一侧翼变体或第二侧翼变体包括单核苷酸多态性(SNP)、少于阈值数目的碱基对的缺失或少于阈值数目的碱基对的插入。
如图8进一步所示,动作800包括识别与结构变体单倍型相对应的参考单倍型的动作830。具体地,在某些具体实施中,动作830包括从线性参考基因组中识别与结构变体单倍型相对应的参考单倍型。
如图8进一步所示,动作800包括生成包括结构变体单倍型和参考单倍型的结构变异图基因组的动作840。具体地,在某些具体实施中,动作840包括生成包括表示结构变体单倍型的交替连续序列和表示参考单倍型的参考序列的结构变异图基因组。如上所述,在一些实施方案中,动作840包括生成包括表示特定结构变体单倍型和特定侧翼变体的特定交替连续序列的结构变异图基因组。
为了说明,在一些情况下,生成结构变异图基因组包括生成包括以下项的结构变异图基因组:表示第一结构变体单倍型和第一侧翼变体的第一交替连续序列;和表示第二结构变体单倍型和第二侧翼变体的第二交替连续序列。此外,在一些情况下,生成结构变异图基因组包括根据基因组样本数据库内的频率对与基因组区域相对应的交替连续序列的子集进行排序。
作为动作810至840的补充或另选方案,在某些具体实施中,动作800还包括从基因组样本数据库中识别包括单核苷酸多态性(SNP)、少于五十个碱基对的缺失或少于五十个碱基对的插入中的一者或多者的交替单倍型;以及生成还包括交替核碱基或表示交替单倍型的附加交替连续序列的结构变异图基因组。
如上文所述,在一些实施方案中,动作800包括生成比对文件,该比对文件将结构变体单倍型映射到线性参考基因组内的参考单倍型的基因组坐标;以及通过在组织结构内将表示结构变体单倍型的交替连续序列与参考单倍型的基因组坐标的标识符相关联来生成结构变异图基因组。例如,在某些具体实施中,生成比对文件包括生成将结构变体单倍型映射到参考单倍型的基因组坐标的序列比对/映射(SAM)提升文件;以及生成结构变异图基因组包括通过在散列表内将来自交替连续序列的核碱基的核碱基标识符与表示参考单倍型的基因组坐标的值相关联来利用组织结构生成结构变异图基因组。
现在转向图9,该图示出了根据本公开的一个或多个实施方案的将基因组样本的核苷酸读段与结构变异图基因组进行比对并且基于所比对的核苷酸读段确定该基因组样本的核碱基检出的一系列动作900的流程图。虽然图9示出了根据一个实施方案的动作,但另选实施方案可省略、添加、重新排序和/或修改图9所示的任何动作。图9的动作可作为方法的一部分来进行。另选地,非暂态计算机可读存储介质可包括在由一个或多个处理器执行时使计算设备或系统进行图9所描绘的动作的指令。在又一些实施方案中,系统包括至少一个处理器和非暂态计算机可读介质,该非暂态计算机可读介质包括在由一个或多个处理器执行时使该系统进行图9的动作的指令。在一些情况下,该至少一个处理器包括可配置处理器,并且执行该至少一个处理器包括配置该可配置处理器。
如图9所示,动作900包括从基因组样本中识别核苷酸读段的动作910。如图9进一步所示,动作900包括将核苷酸读段的子集与结构变异图基因组内的结构变体单倍型进行比对的动作920。具体地,在一些实施方案中,动作920包括将核苷酸读段的子集与表示结构变异图基因组内的结构变体单倍型的交替连续序列进行比对。
在一些情况下,结构变体单倍型包括超过五十个碱基对的缺失、超过五十个碱基对的插入、复制、倒位、易位或拷贝数变异(CNV)。另选地,在某些情况下,结构变体单倍型包括超过阈值数目的碱基对的缺失、超过阈值数目的碱基对的插入、超过阈值数目的碱基对的复制、倒位、易位或拷贝数变异(CNV)。
如图9进一步所示,动作900包括基于所比对的核苷酸读段的子集生成基因组样本的核碱基检出的动作930。具体地,在某些具体实施中,动作930包括基于所比对的核苷酸读段的子集生成基因组样本的一个或多个核碱基检出。
作为动作910至930的补充或另选方案,在一些实施方案中,动作900包括生成包括以下注释的比对文件或变体检出文件,该注释指示与一个或多个核碱基检出相对应的结构变体单倍型。附加地或另选地,在一些情况下,动作900包括生成包括以下注释的比对文件或变体检出文件,该注释指示与一个或多个核碱基检出相对应的结构变体单倍型在基因组样本数据库内的频率。附加地或另选地,在某些实施方案中,动作900包括生成包括线性参考基因组的基因组坐标的比对文件或变体检出文件,该线性参考基因组是结构变异图基因组的一部分并且与一个或多个核碱基检出相对应。
如上所述,在一些实施方案中,动作900包括确定核苷酸读段的子集与表示结构变体单倍型的交替连续序列的断点重叠;以及生成包括以下注释的比对文件或变体检出文件,该注释指示反映基因组样本内的结构变体单倍型的比对。
附加地或另选地,在某些具体实施中,动作900包括确定用于核苷酸读段的子集的比对评分不满足用于核苷酸读段的子集与线性参考基因组的初级组装区域之间的候选比对的阈值比对评分;以及基于与交替连续序列的所比对的核苷酸读段的子集来生成具有基因组样本的一个或多个核碱基检出的变体检出文件或比对文件,并且基于不满足阈值比对评分的候选比对来生成没有基因组样本的核碱基检出的变体检出文件或比对文件。
本文所述的方法可与多种核酸测序技术结合使用。特别适用的技术是其中核酸附接到阵列中的固定方位处使得其相对位置不改变并且其中该阵列被重复成像的那些技术。在不同颜色通道(例如,与用于将一种核碱基类型与另一种核碱基类型区分开的不同标记吻合)中获得图像的实施方案特别适用。在一些实施方案中,确定靶核酸(即,核酸聚合物)的核苷酸序列的过程可以是自动化过程。优选的实施方案包括边合成边测序(SBS)技术。
SBS技术通常包括通过针对模板链反复加入核苷酸进行的新生核酸链的酶促延伸。在传统的SBS方法中,可在每次递送中在存在聚合酶的情况下将单个核苷酸单体提供给靶核苷酸。然而,在本文所述的方法中,可在递送中存在聚合酶的情况下向靶核酸提供多于一种类型的核苷酸单体。
SBS可利用具有终止子部分的核苷酸单体或缺少任何终止子部分的核苷酸单体。利用缺少终止子的核苷酸单体的方法包括例如焦磷酸测序和使用γ-磷酸标记的核苷酸的测序,如下文进一步详细描述的。在使用缺少终止子的核苷酸单体的方法中,在每个循环中加入的核苷酸的数目通常是可变的,并且该数目取决于模板序列和核苷酸递送的方式。对于利用具有终止子部分的核苷酸单体的SBS技术,终止子在使用的测序条件下可为有效不可逆的,如利用双脱氧核苷酸的传统桑格测序的情况,或者终止子可为可逆的,如由Solexa(现为Illumina,Inc.)开发的测序方法的情况。
SBS技术可利用具有标记部分的核苷酸单体或缺少标记部分的核苷酸单体。因此,可基于以下项来检测掺入事件:标记的特性,诸如标记的荧光;核苷酸单体的特性,诸如分子量或电荷;掺入核苷酸的副产物,诸如焦磷酸盐的释放;等等。在测序试剂中存在两种或更多种不同的核苷酸的实施方案中,不同的核苷酸可以是彼此可区分的,或者另选地,两种或更多种不同的标记在所使用的检测技术下可以是不可区分的。例如,测序试剂中存在的不同核苷酸可具有不同的标记,并且它们可使用适当的光学器件进行区分,如由Solexa(现为Illumina,Inc.)开发的测序方法所例示。
优选的实施方案包括焦磷酸测序技术。焦磷酸测序检测当将特定的核苷酸掺入新生链中时无机焦磷酸盐(PPi)的释放(Ronaghi,M.、Karamohamed,S.、Pettersson,B.、Uhlen,M.和Nyren,P.(1996年),“Real-time DNA sequencing using detection ofpyrophosphate release.”,Analytical Biochemistry242(1),84-9;Ronaghi,M.(2001年),“Pyrosequencing sheds light on DNA sequencing.”,Genome Res.11(1),3-11;Ronaghi,M.、Uhlen,M.和Nyren,P.(1998年),“A sequencing method based on real-timepyrophosphate.”,Science 281(5375),363;美国专利号6,210,891;美国专利号6,258,568和美国专利号6,274,320,这些文献的公开内容全文以引用方式并入本文)。在焦磷酸测序中,释放的PPi可通过被腺苷三磷酸(ATP)硫酸化酶立即转化为ATP成来进行检测,并且通过荧光素酶产生的光子来检测所产生的ATP水平。待测序的核酸可附接到阵列中的特征部,并且可对阵列进行成像以捕获由于在阵列的特征部处掺入核苷酸而产生的化学发光信号。可在用特定核苷酸类型(例如,A、T、C或G)处理阵列后获得图像。在添加每种核苷酸类型后获得的图像将在阵列中哪些特征部被检测到方面不同。图像中的这些差异反映阵列上的特征部的不同序列内容。然而,每个特征部的相对方位将在图像中保持不变。可使用本文所述的方法存储、处理和分析图像。例如,在用每种不同核苷酸类型处理阵列后获得的图像可以与本文针对从用于基于可逆终止子的测序方法的不同检测通道获得的图像所例示的相同方式进行处理。
在另一种示例性类型的SBS中,通过逐步添加可逆终止子核苷酸来完成循环测序,这些可逆终止子核苷酸包含例如可裂解或可光漂白的染料标记,如例如WO 04/018497和美国专利号7,057,026所述,这两份专利的公开内容以引用方式并入本文。该方法由Solexa(现为Illumina Inc.)商业化,并且还在WO 91/06678和WO 07/123,744中有所描述,这些文献中的每一者的公开内容以引用方式并入本文。荧光标记终止子(其中终止可以是可逆的并且荧光标记可被裂解)的可用性有利于高效的循环可逆终止(CRT)测序。聚合酶也可共工程化以有效地掺入这些经修饰的核苷酸并从这些经修饰的核苷酸延伸。
优选地,在基于可逆终止子的测序实施方案中,标记在SBS反应条件下基本上不抑制延伸。然而,检测标记可以是可移除的,例如通过裂解或降解移除。可在将标记掺入到阵列化核酸特征部中后捕获图像。在具体实施方案中,每个循环涉及将四种不同的核苷酸类型同时递送到阵列,并且每种核苷酸类型具有在光谱上不同的标记。然后可获得四个图像,每个图像使用对四个不同标记中的一个标记具有选择性的检测通道。另选地,可顺序地添加不同的核苷酸类型,并且可在每个添加步骤之间获得阵列的图像。在此类实施方案中,每个图像将示出已掺入特定类型的核苷酸的核酸特征部。由于每个特征部的不同序列内容,不同特征部存在于或不存在于不同图像中。然而,特征部的相对位置将在图像中保持不变。通过此类可逆终止子-SBS方法获得的图像可如本文所述进行存储、处理和分析。在图像捕获步骤后,可移除标记并且可移除可逆终止子部分以用于核苷酸添加和检测的后续循环。已在特定循环中以及在后续循环之前检测到标记之后移除这些标记可提供减少循环之间的背景信号和串扰的优点。可用的标记和去除方法的示例在下文进行阐述。
在具体实施方案中,一些或所有核苷酸单体可包括可逆终止子。在此类实施方案中,可逆终止子/可裂解荧光团可包括经由3'酯键连接到核糖部分的荧光团(Metzker,Genome Res.15:1767-1776(2005年),该文献以引用方式并入本文)。其他方法已将终止子化学与荧光标记的裂解分开(Ruparel等人,Proc Natl Acad Sci USA 102:5932-7(2005年),该文献全文以引用方式并入本文)。Ruparel等人描述了可逆终止子的发展,这些可逆终止子使用小的3'烯丙基基团来阻断延伸,但是可通过用钯催化剂进行的短时间处理来容易地去阻断。荧光团经由可光切割的接头附接到碱基,该可光切割的接头可通过暴露于长波长紫外光30秒来容易地切割。因此,二硫化物还原或光切割可用作可切割的接头。可逆终止的另一种方法是使用天然终止,该天然终止在将大体积染料放置在dNTP上之后接着发生。dNTP上存在带电大体积染料可通过空间位阻和/或静电位阻而充当高效的终止子。除非染料被移除,否则一个掺入事件的存在防止进一步的掺入。染料的裂解移除荧光团并有效地逆转终止。修饰的核苷酸的示例还描述于美国专利号7,427,673和美国专利号7,057,026中,其公开内容全文以引用方式并入本文。
可与本文所述的方法和系统一起利用的附加的示例性SBS系统和方法描述于美国专利申请公布号2007/0166705、美国专利申请公布号2006/0188901、美国专利号7,057,026、美国专利申请公布号2006/0240439、美国专利申请公布号2006/0281109、PCT公布号WO05/065814、美国专利申请公布号2005/0100900、PCT公布号WO 06/064199、PCT公布号WO07/010,251、美国专利申请公布号2012/0270305和美国专利申请公布号2013/0260372中,这些文献的公开内容全文以引用方式并入本文。
一些实施方案可使用少于四种不同标记来使用对四种不同核苷酸的检测。例如,可利用并入的美国专利申请公布号2013/0079232的材料中所述的方法和系统来执行SBS。作为第一示例,一对核苷酸类型可在相同波长下检测,但基于对中的一个成员相对于另一个成员的强度差异,或基于对中的一个成员的导致与检测到的该对的另一个成员的信号相比明显的信号出现或消失的改变(例如,通过化学改性、光化学改性或物理改性)来区分。作为第二示例,四种不同核苷酸类型中的三种能够在特定条件下被检测到,而第四种核苷酸类型缺少在那些条件下可被检测到或在那些条件下被最低限度地检测到的标记(例如,由于背景荧光而导致的最低限度检测等)。可基于其相应信号的存在来确定前三种核苷酸类型掺入到核酸中,并且可基于任何信号的不存在或对任何信号的最低限度检测来确定第四核苷酸类型掺入到核酸中。作为第三示例,一种核苷酸类型可包括在两个不同通道中检测到的标记,而其他核苷酸类型在不超过一个通道中被检测到。上述三种例示性构型不被认为是互相排斥的,并且可以各种组合进行使用。组合所有三个示例的示例性实施方案是基于荧光的SBS方法,该方法使用在第一通道中检测到的第一核苷酸类型(例如,具有当由第一激发波长激发时在第一通道中检测到的标记的dATP),在第二通道中检测到的第二核苷酸类型(例如,具有当由第二激发波长激发时在第二通道中检测到的标记的dCTP),在第一通道和第二通道两者中检测到的第三核苷酸类型(例如,具有当被第一激发波长和/或第二激发波长激发时在两个通道中检测到的至少一个标记的dTTP),以及缺少在任一通道中检测到或最低限度地检测到的标记的第四核苷酸类型(例如,不具有标记的dGTP)。
此外,如并入的美国专利申请公布号2013/0079232的材料中所述,可使用单个通道获得测序数据。在此类所谓的单染料测序方法中,标记第一核苷酸类型,但在生成第一图像之后移除标记,并且仅在生成第一图像之后标记第二核苷酸类型。第三核苷酸类型在第一图像和第二图像中都保留其标记,并且第四核苷酸类型在两个图像中均保持未标记。
一些实施方案可利用边连接边测序技术。此类技术利用DNA连接酶掺入寡核苷酸并识别此类寡核苷酸的掺入。寡核苷酸通常具有与寡核苷酸杂交的序列中的特定核苷酸的同一性相关的不同标记。与其他SBS方法一样,可在用已标记的测序试剂处理核酸特征部的阵列后获得图像。每个图像将示出已掺入特定类型的标记的核酸特征部。由于每个特征部的不同序列内容,不同特征部存在于或不存在于不同图像中,但特征部的相对位置将在图像中保持不变。通过基于连接的测序方法获得的图像可如本文所述进行存储、处理和分析。可与本文所述的方法和系统一起使用的示例性SBS系统和方法在美国专利号6,969,488、美国专利号6,172,218和美国专利号6,306,597中有所描述,这些专利的公开内容全文以引用方式并入本文。
一些实施方案可利用纳米孔测序(Deamer,D.W.和Akeson,M.,“Nanopores andnucleic acids:prospects for ultrarapid sequencing.”,Trends Biotechnol.18,147-151(2000年);Deamer,D.和D.Branton,“Characterization of nucleic acids bynanopore analysis.”,Acc.Chem.Res.35:817-825(2002年);Li,J.、M.Gershow、D.Stein、E.Brandin和J.A.Golovchenko,“DNA molecules and configurations in a solid-statenanopore microscope”,Nat.Mater.,2:611-615(2003年),这些文献的公开内容全文以引用方式并入本文)。在此类实施方案中,靶核酸穿过纳米孔。纳米孔可为合成孔或生物膜蛋白,诸如α-溶血素。当靶核酸穿过纳米孔时,可通过测量孔的电导率的波动来识别每个碱基对。(美国专利号7,001,792;Soni,G.V.和Meller,“A.Progress toward ultrafast DNAsequencing using solid-state nanopores.”,Clin.Chem.53,1996-2001(2007年);Healy,K.,“Nanopore-based single-molecule DNA analysis.”,Nanomed.,2,459-481(2007年);Cockroft,S.L.、Chu,J.、Amorin,M.和Ghadiri,M.R.,“A single-moleculenanopore device detects DNA polymerase activity with single-nucleotideresolution.”,J.Am.Chem.Soc.130,818-820(2008年),这些文献的公开内容全文以引用方式并入本文)。从纳米孔测序获得的数据可如本文所述进行存储、处理和分析。具体地,根据本文所述的光学图像和其他图像的示例性处理,可将数据如同图像那样进行处理。
一些实施方案可利用涉及DNA聚合酶活性的实时监测的方法。可通过携带荧光团的聚合酶与γ-磷酸标记的核苷酸之间的荧光共振能量转移(FRET)相互作用来检测核苷酸掺入,如例如美国专利号7,329,492和美国专利号7,211,414中所述(这两份专利中的每一者以引用方式并入本文),或者可用零模波导来检测核苷酸掺入,如例如美国专利号7,315,019中所述(该专利以引用方式并入本文),并且可使用荧光核苷酸类似物和工程化聚合酶来检测核苷酸掺入,如例如美国专利号7,405,281和美国专利申请公布号2008/0108082中所述(这两份专利中的每一者以引用方式并入本文)。照明可限于表面栓系的聚合酶周围的仄升量级的体积,使得可在低背景下观察到荧光标记的核苷酸的掺入(Levene,M.J.等人,“Zero-mode waveguides for single-molecule analysis at high concentrations.”,Science 299,682-686(2003年);Lundquist,P.M.等人,“Parallel confocal detectionof single molecules in real time.”,Opt.Lett.33,1026-1028(2008年);Korlach,J.等人,“Selective aluminum passivation for targeted immobilization of single DNApolymerase molecules in zero-mode waveguide nano structures.”,Proc.Natl.Acad.Sci.USA 105,1176-1181(2008年),这些文献的公开内容全文以引用方式并入本文)。通过此类方法获得的图像可如本文所述进行存储、处理和分析。
一些SBS实施方案包括检测在核苷酸掺入延伸产物时释放的质子。例如,基于释放质子的检测的测序可使用可从Ion Torrent公司(Guilford,CT,它是Life Technologies子公司)商购获得的电检测器和相关技术或在US 2009/0026082A1、US2009/0127589 A1、US2010/0137143 A1或US 2010/0282617A1中所述的测序方法和系统,这些文献中的每一篇均以引用方式并入本文。本文阐述的使用动力学排阻来扩增靶核酸的方法可容易地应用于用于检测质子的基板。更具体地,本文阐述的方法可用于产生用于检测质子的扩增子克隆群体。
上述SBS方法可有利地以多种格式进行,使得同时操纵多个不同的靶核酸。在具体实施方案中,可在共同的反应容器中或在特定基板的表面上处理不同的靶核酸。这允许以多种方式方便地递送测序试剂、移除未反应的试剂和检测掺入事件。在使用表面结合的靶核酸的实施方案中,靶核酸可为阵列格式。在阵列格式中,靶核酸通常可以在空间上可区分的方式结合到表面。靶核酸可通过直接共价附着、附着到小珠或其他粒子或结合到附着到表面的聚合酶或其他分子来结合。阵列可包括在每个位点(也被称为特征部)处的靶核酸的单个拷贝,或者具有相同序列的多个拷贝可存在于每个位点或特征部处。多个拷贝可通过扩增方法(诸如,如下文进一步详细描述的桥式扩增或乳液PCR)产生。
本文所述的方法可使用具有处于多种密度中任一种密度的特征部的阵列,该多种密度包括例如至少约10个特征部/cm2、100个特征部/cm2、500个特征部/cm2、1,000个特征部/cm2、5,000个特征部/cm2、10,000个特征部/cm2、50,000个特征部/cm2、100,000个特征部/cm2、1,000,000个特征部/cm2、5,000,000个特征部/cm2或更高。
本文阐述的方法的优点是它们并行提供了对多个靶核酸的快速且有效检测。因此,本公开提供了能够使用本领域已知的技术(诸如上文所例示的那些)来制备和检测核酸的集成系统。因此,本公开的集成系统可包括能够将扩增试剂和/或测序试剂递送到一个或多个固定DNA片段的流体组件,该系统包括诸如泵、阀、贮存器、流体管线等的组件。流通池在集成系统中可被配置用于和/或用于检测靶核酸。示例性流通池在例如US 2010/0111768A1和美国序列号13/273,666中有所描述,这两份专利中的每一者以引用方式并入本文。如针对流通池所例示的,集成系统的一个或多个流体组件可用于扩增方法和检测方法。以核酸测序实施方案为例,集成系统的一个或多个流体组件可用于本文阐述的扩增方法以及用于在测序方法(诸如上文例示的那些)中递送测序试剂。另选地,集成系统可包括单独的流体系统以执行扩增方法并执行检测方法。能够产生扩增核酸并且还确定核酸序列的集成测序系统的示例包括但不限于MiSeqTM平台(Illumina,Inc.,San Diego,CA)以及在美国序列号13/273,666中描述的设备,该专利以引用方式并入本文。
上述测序系统对由测序设备接收的样本中存在的核酸聚合物进行测序。如本文所定义,“样本”及其衍生物以其最广泛的意义使用,包括怀疑包含目标的任何标本、培养物等。在一些实施方案中,样品包括DNA、RNA、PNA、LNA、嵌合或杂交形式的核酸。样品可包括含有一种或多种核酸的任何基于生物、临床、外科、农业、大气或水生动植物的标本。该术语还包括任何分离的核酸样本,诸如基因组学DNA、新鲜冷冻或福尔马林固定石蜡包埋的核酸标本。还设想样本可来自:单个个体、来自遗传相关成员的核酸样本的集合、来自遗传不相关成员的核酸样本、来自单个个体的(与之匹配的)核酸样本(诸如肿瘤样本和正常组织样本),或者来自包含两种不同形式的遗传物质(诸如从母体受试者获得的母体DNA和胎儿DNA)的单个来源的样本,或者在包含植物或动物DNA的样本中存在污染性细菌DNA。在一些实施方案中,核酸材料的来源可包括从新生儿获得的核酸,例如通常用于新生儿筛检的核酸。
核酸样本可包括高分子量物质,诸如基因组学DNA(gDNA)。样本可包括低分子量物质,诸如从FFPE样本或存档的DNA样本获得的核酸分子。在另一个实施方案中,低分子量物质包括酶促片段化或机械片段化的DNA。样本可包括无细胞循环DNA。在一些实施方案中,样品可包括从活检组织、肿瘤、刮取物、拭子、血液、黏液、尿液、血浆、精液、毛发、激光捕获显微解剖、手术切除和其他临床或实验室获得的样品获得的核酸分子。在一些实施方案中,样品可以是流行病学样品、农业样品、法医学样品或病原性样品。在一些实施方案中,样品可包括从动物(诸如人类或哺乳动物来源)获得的核酸分子。在另一个实施方案中,样品可包括从非哺乳动物来源(诸如植物、细菌、病毒或真菌)获得的核酸分子。在一些实施方案中,核酸分子的来源可以是存档或灭绝的样品或物种。
另外,本文所公开的方法和组合物可用于扩增具有低质量核酸分子的核酸样本,诸如来自法医学样本的降解的和/或片段化的基因组学DNA。在一个实施方案中,法医学样品可包括从犯罪现场获得的核酸、从失踪人员DNA数据库获得的核酸、从与法医调查相关联的实验室获得的核酸,或者包括由执法机关、一种或多种军事服务或任何此类人员获得的法医学样品。核酸样品可以是经纯化的样品或含有粗DNA的溶胞产物,例如来源于口腔拭子、纸、织物或者其他可用唾液、血液或其他体液浸渍的基材。因此,在一些实施方案中,该核酸样品可包括少量DNA(诸如基因组学DNA),或者DNA的片段化部分。在一些实施方案中,靶序列可存在于一种或多种体液中,其中体液包括但不限于血液、痰、血浆、精液、尿液和血清。在一些实施方案中,靶序列可从受害者的毛发、皮肤、组织样品、尸体解剖或遗骸获得。在一些实施方案中,包含一种或多种靶序列的核酸可从死亡的动物或人获得。在一些实施方案中,靶序列可包括从非人类DNA(诸如微生物、植物或昆虫DNA)获得的核酸。在一些实施方案中,靶序列或扩增的靶序列导向人类身份识别的目的。在一些实施方案中,本公开整体涉及用于识别法医学样品的特性的方法。在一些实施方案中,本公开整体涉及使用本文所公开的一种或多种目标特异性引物或者用本文概述的引物设计标准设计的一种或多种目标特异性引物的人类身份识别方法。在一个实施方案中,含有至少一种靶序列的法医学样品或人类身份识别样品可使用本文所公开的任何一种或多种目标特异性引物或者使用本文概述的引物标准进行扩增。
结构变体感知测序系统106的组件可包括软件、硬件或两者。例如,结构变体感知测序系统106的组件可包括一个或多个指令,该一个或多个指令存储在计算机可读存储介质上并且可由一个或多个计算设备(例如,客户端设备114)的处理器执行。在由一个或多个处理器执行时,结构变体感知测序系统106的计算机可执行指令可使计算设备执行本文所述的气泡检测方法。另选地,结构变体感知测序系统106的组件可包括硬件,诸如用于执行某种功能或功能组的专用处理设备。附加地或另选地,结构变体感知测序系统106的组件可包括计算机可执行指令和硬件的组合。
此外,执行本文关于结构变体感知测序系统106描述的功能的结构变体感知测序系统106的组件可例如被实现作为独立应用程序的一部分、作为应用程序的模块、作为应用程序的插件、作为可由其他应用程序检出的一个或多个库函数以及/或者作为云计算模型。因此,结构变体感知测序系统106的组件可被实现作为个人计算设备或移动设备上的独立应用程序的一部分。附加地或另选地,结构变体感知测序系统106的组件可在提供测序服务的任何应用程序中实现,包括但不限于Illumina BaseSpace、Illumina DRAGEN或IlluminaTruSight软件。“Illumina”、“BaseSpace”、“DRAGEN”和“TruSight”是Illumina,Inc.公司在美国和/或其他国家的注册商标或商标。
如以下更详细讨论的,本公开的实施方案可包括或利用包括计算机硬件(诸如例如一个或多个处理器和系统存储器)的专用或通用计算机。本公开范围内的实施方案还包括用于携带或存储计算机可执行指令和/或数据结构的物理和其他计算机可读介质。具体地,本文所述的过程中的一个或多个过程可被至少部分地实现为体现在非暂态计算机可读介质中并且可由一个或多个计算设备(例如,本文所述的介质内容访问设备中的任何介质内容访问设备)执行的指令。一般来讲,处理器(例如,微处理器)从非暂态计算机可读介质(例如,存储器等)接收指令,并且执行那些指令,由此执行一个或多个过程,包括本文所述的过程中的一个或多个过程。
计算机可读介质可以是可由通用或专用计算机系统访问的任何可用介质。存储计算机可执行指令的计算机可读介质是非暂态计算机可读存储介质(设备)。携带计算机可执行指令的计算机可读介质是传输介质。因此,通过示例方式而非限制,本公开的实施方案可包括至少两种明显不同种类的计算机可读介质:非暂态计算机可读存储介质(设备)和传输介质。
非暂态计算机可读存储介质(设备)包括RAM、ROM、EEPROM、CD-ROM、固态驱动器(SSD)(例如,基于RAM)、快闪存储器、相变存储器(PCM)、其他类型的存储器、其他光盘存储装置、磁盘存储装置或其他磁存储设备,或可用于存储呈计算机可执行指令或数据结构形式的期望的程序代码手段并且其可由通用或专用计算机访问的任何其他介质。
“网络”定义为使得能够在计算机系统和/或模块和/或其他电子设备之间传输电子数据的一个或多个数据链路。当通过网络或另一通信连接(硬连线、无线或硬连线或无线的组合)向计算机转移或提供信息时,计算机适当地将该连接视为传输介质。传输介质可包括网络和/或数据链路,该网络和/或数据链路可用于携带呈计算机可执行指令或数据结构形式的期望的程序代码手段,并且其可由通用或专用计算机访问。上述的组合也应当被包括在计算机可读介质的范围内。
此外,在到达各种计算机系统组件后,呈计算机可执行指令或数据结构形式的程序代码手段可从传输介质自动转移到非暂态计算机可读存储介质(设备)(或反之亦然)。例如,通过网络或数据链路接收的计算机可执行指令或数据结构可被缓冲在网络接口模块(例如,NIC)内的RAM中,并且然后最终被转移到计算机系统RAM和/或到计算机系统处的较不易失的计算机存储介质(设备)。因此,应当理解,非暂态计算机可读存储介质(设备)可被包括在也(或甚至主要)利用传输介质的计算机系统组件中。
计算机可执行指令包括例如当在处理器处执行时使得通用计算机、专用计算机或专用处理设备执行某种功能或功能组的指令和数据。在一些实施方案中,在通用计算机上执行计算机可执行指令以将通用计算机变成实现本公开的元素的专用计算机。计算机可执行指令可以是例如二进制数、诸如汇编语言的中间格式指令或者甚至源代码。尽管已经以特定于结构特征和/或方法动作的语言描述了主题内容,但是应当理解,在所附权利要求中定义的主题内容不必限于所描述的特征或动作。相反,所描述的特征和动作是作为实现权利要求的示例性形式来公开的。
本领域中的技术人员将理解,本公开可在具有许多类型的计算机系统配置的网络计算环境中实践,包括个人计算机、台式计算机、便携式电脑、消息处理器、手持式设备、多处理器系统、基于微处理器的或可编程消费电子产品、网络PC、小型计算机、大型计算机、移动电话、PDA、平板电脑、寻呼机、路由器、交换机等。本公开还可在分布式系统环境中实践,其中通过网络链接(通过硬连线数据链路、无线数据链路或者通过硬连线和无线数据链路的组合)的本地和远程计算机系统两者都执行任务。在分布式系统环境中,程序模块可位于本地和远程存储器存储设备两者中。
本公开的实施方案还可在云计算环境中实现。在本说明书中,“云计算”定义为用于实现对可配置计算资源的共享池的按需网络访问的模型。例如,可在市场中采用云计算以提供对可配置计算资源的共享池的无处不在并且便利的按需访问。可配置计算资源的共享池可经由虚拟化快速预置并且以低管理努力或服务提供者交互释放,并且然后因此扩展。
云计算模型可由各种特性组成,诸如例如按需自助服务、广泛网络访问、资源池化、快速弹性、可计量服务等。云计算模型还可展示各种服务模型,诸如例如软件即服务(SaaS)、平台即服务(PaaS)和基础设施即服务(IaaS)。云计算模型还可使用不同的部署模型来部署,诸如私有云、社区云、公共云、混合云等。在本说明书和在权利要求书中,“云计算环境”是在其中采用云计算的环境。
图10示出了可被配置为执行上述过程中的一个或多个过程的计算设备1000的框图。人们将理解,一个或多个计算设备诸如计算设备1000可实现结构变体感知测序系统106和结构变体感知测序系统106。如图10所示,计算设备1000可包括可通过通信基础设施1012通信地耦接的处理器1002、存储器1004、存储设备1006、I/O接口1008和通信接口1010。在某些实施方案中,计算设备1000可包括比图10所示的那些组件更少或更多的组件。以下段落更详细地描述了图10所示的计算设备1000的组件。
在一个或多个实施方案中,处理器1002包括用于执行指令诸如构成计算机程序的那些指令的硬件。作为示例而非以限制的方式,为了执行用于动态地修改工作流的指令,处理器1002可从内部寄存器、内部高速缓存、存储器1004或存储设备1006检索(或取得)指令,并且对它们进行解码并执行。存储器1004可以是用于存储由处理器执行的数据、元数据和程序的易失性或非易失性存储器。存储设备1006包括用于存储用于执行本文所述的方法的数据或指令的存储装置,诸如硬盘、闪存盘驱动器或其他数字存储设备。
I/O接口1008允许用户向计算设备1000提供输入、从该计算设备接收输出并且以其他方式向该计算设备传递数据并从该计算设备接收数据。I/O接口1008可包括鼠标、小键盘或键盘、触摸屏、相机、光学扫描仪、网络接口、调制解调器、其他已知I/O设备或此类I/O接口的组合。I/O接口1008可包括用于向用户呈现输出的一个或多个设备,包括但不限于图形引擎、显示器(例如,显示屏)、一个或多个输出驱动器(例如,显示驱动器)、一个或多个音频扬声器以及一个或多个音频驱动器。在某些实施方案中,I/O接口1008被配置为向显示器提供图形数据以供呈现给用户。图形数据可表示一个或多个图形用户界面和/或可服务于特定具体实施的任何其他图形内容。
通信接口1010可包括硬件、软件或两者。在任何情况下,通信接口1010可提供用于计算设备1000与一个或多个其他计算设备或网络之间的通信(诸如,例如基于分组的通信)的一个或多个接口。作为示例而非以限制的方式,通信接口1010可包括用于与以太网或其他基于有线的网络通信的网络接口控制器(NIC)或网络适配器,或用于与无线网络诸如WI-FI通信的无线NIC(WNIC)或无线适配器。
附加地,通信接口1010可促进与各种类型的有线网络或无线网络的通信。通信接口1010还可促进使用各种通信协议的通信。通信基础设施1012还可包括使计算设备1000的组件彼此耦接的硬件、软件或两者。例如,通信接口1010可使用一个或多个网络和/或协议来使得通过特定基础设施连接的多个计算设备能够彼此通信以执行本文所述的过程的一个或多个方面。为了说明,测序过程可允许多个设备(例如,客户端设备、测序设备和服务器设备)交换诸如测序数据和误差通知的信息。
在前述说明书中,本公开已经参考其特定示例性实施方案进行描述。参考本文所讨论的细节描述了本公开的各种实施方案和方面,并且附图例示了各种实施方案。上面的描述和图是对本公开的说明,并且不应被解释为限制本公开。描述了许多特定细节以提供对本公开的各种实施方案的透彻理解。
本公开可以其他特定形式体现而不脱离其精神或本质特征。所述实施方案在所有方面都应被视为仅为示例性的而非限制性的。例如,本文所述的方法可用更少或更多的步骤/动作执行,或者步骤/动作可以不同的顺序执行。附加地,本文所述的步骤/动作可重复或与彼此并行地执行或与相同或类似步骤/动作的不同实例并行地执行。因此,本申请的范围由所附权利要求书而非前述描述来指示。在权利要求的等效含义和范围内的所有改变都将包含在其范围内。

Claims (26)

1.一种非暂态计算机可读介质,所述非暂态计算机可读介质包括指令,所述指令在由至少一个处理器执行时使计算设备:
识别满足基因组样本数据库内的出现阈值量的候选结构变体;
从所述候选结构变体中选择结构变体单倍型;
从线性参考基因组中识别与所述结构变体单倍型相对应的参考单倍型;以及
生成包括表示所述结构变体单倍型的交替连续序列和表示所述参考单倍型的参考序列的结构变异图基因组。
2.根据权利要求1所述的非暂态计算机可读介质,所述非暂态计算机可读介质还包括指令,所述指令在由所述至少一个处理器执行时使所述计算设备通过以下方式来选择所述结构变体单倍型:从所述候选结构变体中选择满足在特定基因组区域处的附加出现阈值量的特定结构变体单倍型。
3.根据权利要求1所述的非暂态计算机可读介质,所述非暂态计算机可读介质还包括指令,所述指令在由所述至少一个处理器执行时使所述计算设备通过以下方式来选择所述结构变体单倍型:选择与所述基因组样本数据库的核苷酸序列内的特定侧翼变体相邻的特定结构变体单倍型。
4.根据权利要求3所述的非暂态计算机可读介质,所述非暂态计算机可读介质还包括指令,所述指令在由所述至少一个处理器执行时使所述计算设备通过以下方式来选择所述特定结构变体单倍型:
选择与所述基因组样本数据库的第一核苷酸序列内的第一侧翼变体同相的第一结构变体单倍型;以及
选择与所述基因组样本数据库的第二核苷酸序列内的第二侧翼变体同相的第二结构变体单倍型。
5.根据权利要求3所述的非暂态计算机可读介质,所述非暂态计算机可读介质还包括指令,所述指令在由所述至少一个处理器执行时使所述计算设备生成包括表示所述特定结构变体单倍型和所述特定侧翼变体的特定交替连续序列的所述结构变异图基因组。
6.根据权利要求3所述的非暂态计算机可读介质,其中侧翼变体包括单核苷酸多态性(SNP)、少于五十个碱基对的缺失或少于五十个碱基对的插入。
7.根据权利要求1所述的非暂态计算机可读介质,所述非暂态计算机可读介质还包括指令,所述指令在由所述至少一个处理器执行时使所述计算设备:
从所述基因组样本数据库中识别包括单核苷酸多态性(SNP)、少于五十个碱基对的缺失或少于五十个碱基对的插入中的一者或多者的交替单倍型;以及
生成还包括交替核碱基或表示所述交替单倍型的附加交替连续序列的所述结构变异图基因组。
8.根据权利要求1所述的非暂态计算机可读介质,所述非暂态计算机可读介质还包括指令,所述指令在由所述至少一个处理器执行时使所述计算设备通过以下方式来识别所述候选结构变体:选择表示超过五十个碱基对的缺失、超过五十个碱基对的插入、超过五十个碱基对的复制、倒位、易位或拷贝数变异(CNV)中的一者或多者的结构变体。
9.根据权利要求1所述的非暂态计算机可读介质,其中所述至少一个处理器包括可配置处理器,并且执行所述至少一个处理器包括配置所述可配置处理器。
10.一种系统,所述系统包括:
至少一个处理器;和
非暂态计算机可读介质,所述非暂态计算机可读介质包括指令,所述指令在由所述至少一个处理器执行时使所述系统:
识别满足基因组样本数据库内的出现阈值量的候选结构变体;
从所述候选结构变体中选择结构变体单倍型;
从线性参考基因组中识别与所述结构变体单倍型相对应的参考单倍型;以及
生成包括表示所述结构变体单倍型的交替连续序列和表示所述参考单倍型的参考序列的结构变异图基因组。
11.根据权利要求10所述的系统,所述系统还包括指令,所述指令在由所述至少一个处理器执行时使所述系统通过以下方式来选择所述结构变体单倍型:
从所述候选结构变体中选择满足在第一基因组区域处的附加出现阈值量的第一结构变体单倍型;以及
从所述候选结构变体中选择满足在第二基因组区域处的所述附加出现阈值量的第二结构变体单倍型。
12.根据权利要求10所述的系统,所述系统还包括指令,所述指令在由所述至少一个处理器执行时使所述系统通过以下方式来选择所述结构变体单倍型:
选择与所述基因组样本数据库的第一核苷酸序列内的第一侧翼变体相邻的第一结构变体单倍型;以及
选择与所述基因组样本数据库的第二核苷酸序列内的第二侧翼变体相邻的第二结构变体单倍型。
13.根据权利要求12所述的系统,其中所述第一侧翼变体或所述第二侧翼变体包括单核苷酸多态性(SNP)、少于阈值数目的碱基对的缺失或少于所述阈值数目的碱基对的插入。
14.根据权利要求12所述的系统,所述系统还包括指令,所述指令在由所述至少一个处理器执行时使所述系统通过以下方式来识别所述候选结构变体:选择表示超过阈值数目的碱基对的缺失、超过所述阈值数目的碱基对的插入、超过所述阈值数目的碱基对的复制、倒位、易位或拷贝数变异(CNV)中的一者或多者的结构变体。
15.根据权利要求12所述的系统,所述系统还包括指令,所述指令在由所述至少一个处理器执行时使所述系统生成包括以下项的所述结构变异图基因组:
表示第一结构变体单倍型和第一侧翼变体的第一交替连续序列;和
表示第二结构变体单倍型和第二侧翼变体的第二交替连续序列。
16.根据权利要求10所述的系统,所述系统还包括指令,所述指令在由所述至少一个处理器执行时使所述系统:
生成比对文件,所述比对文件将所述结构变体单倍型映射到所述线性参考基因组内的所述参考单倍型的基因组坐标;以及
通过在组织结构内将表示所述结构变体单倍型的所述交替连续序列与所述参考单倍型的所述基因组坐标的标识符相关联来生成所述结构变异图基因组。
17.根据权利要求16所述的系统,所述系统还包括指令,所述指令在由所述至少一个处理器执行时使所述系统:
通过生成将所述结构变体单倍型映射到所述参考单倍型的所述基因组坐标的序列比对/映射(SAM)提升文件来生成所述比对文件;以及
通过在散列表内将来自所述交替连续序列的核碱基的核碱基标识符与表示所述参考单倍型的所述基因组坐标的值相关联来利用所述组织结构生成所述结构变异图基因组。
18.根据权利要求10所述的系统,所述系统还包括指令,所述指令在由所述至少一个处理器执行时使所述系统通过以下方式来生成所述结构变异图基因组:根据所述基因组样本数据库内的频率对与基因组区域相对应的交替连续序列的子集进行排序。
19.一种方法,所述方法包括:
识别来自基因组样本的核苷酸读段;
将核苷酸读段的子集与表示结构变异图基因组内的结构变体单倍型的交替连续序列进行比对;以及
基于所比对的核苷酸读段的子集生成所述基因组样本的一个或多个核碱基检出。
20.根据权利要求19所述的方法,所述方法还包括生成包括以下注释的比对文件或变体检出文件,所述注释指示与所述一个或多个核碱基检出相对应的所述结构变体单倍型。
21.根据权利要求19所述的方法,所述方法还包括生成包括以下注释的比对文件或变体检出文件,所述注释指示与所述一个或多个核碱基检出相对应的所述结构变体单倍型在基因组样本数据库内的频率。
22.根据权利要求19所述的方法,所述方法还包括生成包括线性参考基因组的基因组坐标的比对文件或变体检出文件,所述线性参考基因组是所述结构变异图基因组的一部分并且与所述一个或多个核碱基检出相对应。
23.根据权利要求19所述的方法,所述方法还包括:
确定所述核苷酸读段的子集与表示所述结构变体单倍型的所述交替连续序列的断点重叠;以及
生成包括以下注释的比对文件或变体检出文件,所述注释指示反映所述基因组样本内的所述结构变体单倍型的比对。
24.根据权利要求19所述的方法,所述方法还包括:
确定用于所述核苷酸读段的子集的比对评分不满足用于所述核苷酸读段的子集与线性参考基因组的初级组装区域之间的候选比对的阈值比对评分;以及
基于与所述交替连续序列的所比对的核苷酸读段的子集来生成具有所述基因组样本的所述一个或多个核碱基检出的变体检出文件或比对文件,并且基于不满足所述阈值比对评分的所述候选比对来生成没有所述基因组样本的核碱基检出的变体检出文件或比对文件。
25.根据权利要求19所述的方法,其中所述结构变体单倍型包括超过五十个碱基对的缺失、超过五十个碱基对的插入、复制、倒位、易位或拷贝数变异(CNV)。
26.根据权利要求19所述的方法,其中所述结构变体单倍型包括超过阈值数目的碱基对的缺失、超过所述阈值数目的碱基对的插入、超过所述阈值数目的碱基对的复制、倒位、易位或拷贝数变异(CNV)。
CN202380049468.7A 2022-06-27 2023-06-27 生成并实现结构变异图基因组 Pending CN119698662A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202263367075P 2022-06-27 2022-06-27
US63/367075 2022-06-27
PCT/US2023/069182 WO2024006769A1 (en) 2022-06-27 2023-06-27 Generating and implementing a structural variation graph genome

Publications (1)

Publication Number Publication Date
CN119698662A true CN119698662A (zh) 2025-03-25

Family

ID=87517438

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202380049468.7A Pending CN119698662A (zh) 2022-06-27 2023-06-27 生成并实现结构变异图基因组

Country Status (8)

Country Link
US (1) US20230420082A1 (zh)
EP (1) EP4544555A1 (zh)
JP (1) JP2025523561A (zh)
KR (1) KR20250028287A (zh)
CN (1) CN119698662A (zh)
CA (1) CA3260482A1 (zh)
IL (1) IL317959A (zh)
WO (1) WO2024006769A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2025184234A1 (en) * 2024-02-28 2025-09-04 Illumina, Inc. A personalized haplotype database for improved mapping and alignment of nucleotide reads and improved genotype calling

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150094212A1 (en) * 2013-10-01 2015-04-02 Life Technologies Corporation Systems and Methods for Detecting Structural Variants
US20150169823A1 (en) * 2013-12-18 2015-06-18 Pacific Biosciences Inc. String graph assembly for polyploid genomes
CN105793689A (zh) * 2013-10-18 2016-07-20 七桥基因公司 用于将遗传样本基因分型的方法和系统
CN114496077A (zh) * 2022-04-15 2022-05-13 北京贝瑞和康生物技术有限公司 用于检测单核苷酸变异和插入缺失的方法、设备和介质

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0450060A1 (en) 1989-10-26 1991-10-09 Sri International Dna sequencing
US5846719A (en) 1994-10-13 1998-12-08 Lynx Therapeutics, Inc. Oligonucleotide tags for sorting and identification
US5750341A (en) 1995-04-17 1998-05-12 Lynx Therapeutics, Inc. DNA sequencing by parallel oligonucleotide extensions
GB9620209D0 (en) 1996-09-27 1996-11-13 Cemu Bioteknik Ab Method of sequencing DNA
GB9626815D0 (en) 1996-12-23 1997-02-12 Cemu Bioteknik Ab Method of sequencing DNA
JP2002503954A (ja) 1997-04-01 2002-02-05 グラクソ、グループ、リミテッド 核酸増幅法
US6969488B2 (en) 1998-05-22 2005-11-29 Solexa, Inc. System and apparatus for sequential processing of analytes
US6274320B1 (en) 1999-09-16 2001-08-14 Curagen Corporation Method of sequencing a nucleic acid
US7001792B2 (en) 2000-04-24 2006-02-21 Eagle Research & Development, Llc Ultra-fast nucleic acid sequencing device and a method for making and using the same
CN101525660A (zh) 2000-07-07 2009-09-09 维西根生物技术公司 实时序列测定
EP1354064A2 (en) 2000-12-01 2003-10-22 Visigen Biotechnologies, Inc. Enzymatic nucleic acid synthesis: compositions and methods for altering monomer incorporation fidelity
US7057026B2 (en) 2001-12-04 2006-06-06 Solexa Limited Labelled nucleotides
EP3795577A1 (en) 2002-08-23 2021-03-24 Illumina Cambridge Limited Modified nucleotides
GB0321306D0 (en) 2003-09-11 2003-10-15 Solexa Ltd Modified polymerases for improved incorporation of nucleotide analogues
US7315019B2 (en) 2004-09-17 2008-01-01 Pacific Biosciences Of California, Inc. Arrays of optical confinements and uses thereof
EP1828412B2 (en) 2004-12-13 2019-01-09 Illumina Cambridge Limited Improved method of nucleotide detection
US8623628B2 (en) 2005-05-10 2014-01-07 Illumina, Inc. Polymerases
GB0514936D0 (en) 2005-07-20 2005-08-24 Solexa Ltd Preparation of templates for nucleic acid sequencing
US7405281B2 (en) 2005-09-29 2008-07-29 Pacific Biosciences Of California, Inc. Fluorescent nucleotide analogs and uses therefor
EP3722409A1 (en) 2006-03-31 2020-10-14 Illumina, Inc. Systems and devices for sequence by synthesis analysis
WO2008051530A2 (en) 2006-10-23 2008-05-02 Pacific Biosciences Of California, Inc. Polymerase enzymes and reagents for enhanced nucleic acid sequencing
EP4134667B1 (en) 2006-12-14 2025-11-12 Life Technologies Corporation Apparatus for measuring analytes using fet arrays
US8349167B2 (en) 2006-12-14 2013-01-08 Life Technologies Corporation Methods and apparatus for detecting molecular interactions using FET arrays
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
US20100137143A1 (en) 2008-10-22 2010-06-03 Ion Torrent Systems Incorporated Methods and apparatus for measuring analytes
US8951781B2 (en) 2011-01-10 2015-02-10 Illumina, Inc. Systems, methods, and apparatuses to image a sample for biological or chemical analysis
CA2859660C (en) 2011-09-23 2021-02-09 Illumina, Inc. Methods and compositions for nucleic acid sequencing
JP6159391B2 (ja) 2012-04-03 2017-07-05 イラミーナ インコーポレーテッド 核酸シークエンシングに有用な統合化した読取りヘッド及び流体カートリッジ

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150094212A1 (en) * 2013-10-01 2015-04-02 Life Technologies Corporation Systems and Methods for Detecting Structural Variants
CN105793689A (zh) * 2013-10-18 2016-07-20 七桥基因公司 用于将遗传样本基因分型的方法和系统
US20150169823A1 (en) * 2013-12-18 2015-06-18 Pacific Biosciences Inc. String graph assembly for polyploid genomes
CN114496077A (zh) * 2022-04-15 2022-05-13 北京贝瑞和康生物技术有限公司 用于检测单核苷酸变异和插入缺失的方法、设备和介质

Also Published As

Publication number Publication date
CA3260482A1 (en) 2024-01-04
WO2024006769A1 (en) 2024-01-04
US20230420082A1 (en) 2023-12-28
JP2025523561A (ja) 2025-07-23
IL317959A (en) 2025-02-01
KR20250028287A (ko) 2025-02-28
EP4544555A1 (en) 2025-04-30

Similar Documents

Publication Publication Date Title
US20240038327A1 (en) Rapid single-cell multiomics processing using an executable file
US20220415443A1 (en) Machine-learning model for generating confidence classifications for genomic coordinates
CN117043867B (zh) 用于检测用于测序的核苷酸样品玻片内的气泡的机器学习模型
US20230420082A1 (en) Generating and implementing a structural variation graph genome
US20240404624A1 (en) Structural variant alignment and variant calling by utilizing a structural-variant reference genome
US20240112753A1 (en) Target-variant-reference panel for imputing target variants
US20230093253A1 (en) Automatically identifying failure sources in nucleotide sequencing from base-call-error patterns
US20230095961A1 (en) Graph reference genome and base-calling approach using imputed haplotypes
US20230420080A1 (en) Split-read alignment by intelligently identifying and scoring candidate split groups
US20250210141A1 (en) Enhanced mapping and alignment of nucleotide reads utilizing an improved haplotype data structure with allele-variant differences
US20240177802A1 (en) Accurately predicting variants from methylation sequencing data
US20250111899A1 (en) Predicting insert lengths using primary analysis metrics
WO2025160089A1 (en) Custom multigenome reference construction for improved sequencing analysis of genomic samples
WO2025090883A1 (en) Detecting variants in nucleotide sequences based on haplotype diversity

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination