[go: up one dir, main page]

CN119301684A - 用于鉴定基因变体的方法和系统 - Google Patents

用于鉴定基因变体的方法和系统 Download PDF

Info

Publication number
CN119301684A
CN119301684A CN202380043232.2A CN202380043232A CN119301684A CN 119301684 A CN119301684 A CN 119301684A CN 202380043232 A CN202380043232 A CN 202380043232A CN 119301684 A CN119301684 A CN 119301684A
Authority
CN
China
Prior art keywords
gene
rhce
rhd
sites
predetermined differentiation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202380043232.2A
Other languages
English (en)
Inventor
V·F·奥努奇克
C·A·阿尼亚西
M·罗西
陈晓
M·A·埃贝勒
E·E·罗勒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inmair Ltd
Original Assignee
Inmair Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inmair Ltd filed Critical Inmair Ltd
Publication of CN119301684A publication Critical patent/CN119301684A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本文所公开的方面是用于鉴定基因诸如RHD基因和RHCE基因的重组变体(例如,基因转化变体)、重组变体的拷贝数和基因变体状态(例如,杂合子或纯合子)的系统、设备和方法。在一些实施方案中,所公开的系统、装置和方法包括以下步骤:接收与RHD基因或RHCE基因比对的序列读段;估计RHD基因和RHCE基因的组合拷贝数;估计RHD基因和RHCE基因的多个预定分化位点中的每一个处的RHD‑特异性碱基和RHCE‑特异性碱基的拷贝数;以及计算核酸样品中RHCE*CE‑D(2)‑CE基因转化的概率。

Description

用于鉴定基因变体的方法和系统
以引用方式并入任何优先权申请
本申请要求2022年6月7日提交的美国临时申请号63/349,993的权益,该申请据此全文以引用方式并入。
背景技术
技术领域
所公开的技术涉及核酸测序领域。更具体地,所公开的技术涉及检测核酸样品中的RHCE*CE-D(2)-CE基因转化事件。
背景技术
恒河猴(Rh)抗原在红细胞(RBC)抗原表型中起到重要作用。有超过330种RBC抗原。RBC抗原中的变异可由RHD基因(Rh血型D抗原)和RHCE基因(Rh血型CcEe抗原)中的变异引起。在群体中已经记录了RHD基因和RHCE基因内的许多不同的重复、缺失、易位和基因转化事件,包括RHCE*CE-D(2)-CE基因转化事件。
发明内容
在一个方面,本文公开了检测核酸样品中的RHCE*CE-D(2)-CE基因转化事件的系统和计算机实施的方法。在一些实施方案中,所述方法包括接收与RHD基因或RHCE基因比对的序列读段,估计核酸样品中RHD基因和RHCE基因的组合拷贝数,估计RHD基因和RHCE基因的多个预定分化位点中的每一个处的RHD-特异性碱基和RHCE-特异性碱基的拷贝数,以及基于估计的RHD基因和RHCE基因的组合拷贝数和估计的RHD-特异性碱基和RHCE-特异性碱基在多个预定分化位点中的每一个处的拷贝数计算核酸样品中RHCE*CE-D(2)-CE基因转化的概率。
在一些实施方案中,RHCE*CE-D(2)-CE基因转化导致第一断点。在一些实施方案中,多个预定分化位点包括位于第一断点侧面的至少两个预定分化位点。在一些实施方案中,所述方法还包括鉴定一个或多个序列读段,所述序列读段涵盖第一断点并且包括位于第一断点侧面的第一预定分化位点处的RHD-特异性碱基和位于第一断点侧面的第二预定分化位点处的RHCE-特异性碱基。
在一些实施方案中,RHCE*CE-D(2)-CE基因转化导致第二断点。在一些实施方案中,多个预定分化位点包括位于第二断点侧面的至少两个预定分化位点。在一些实施方案中,所述方法包括鉴定一个或多个序列读段,所述序列读段涵盖第二断点并且包括位于第二断点侧面的第一预定分化位点处的RHD-特异性碱基和位于第二断点侧面的第二预定分化位点处的RHCE-特异性碱基。
在一些实施方案中,估计RHD基因和RHCE基因的多个预定分化位点中的每一个处的RHD-特异性碱基和RHCE-特异性碱基的拷贝数包括计数包括多个预定分化位点中的预定分化位点处的RHD-特异性碱基的序列读段,以及计数包括预定分化位点处的RHCE-特异性碱基的序列读段。
在一些实施方案中,计算RHCE*CE-D(2)-CE基因转化的概率包括基于包含预定分化位点处的RHD-特异性或RHCE-特异性碱基的序列读段的比例乘以估计的RHD基因和RHCE基因的组合拷贝数来估计多个预定分化位点中每个预定分化位点处的基因特异性拷贝数。在一些实施方案中,计算RHCE*CE-D(2)-CE基因转化的概率包括检测连续预定分化位点中基因特异性拷贝数的变化。
在一些实施方案中,估计RHD基因和RHCE基因的组合拷贝数包括计数与RHD基因或RHCE基因比对的序列读段。在一些实施方案中,估计组合拷贝数包括将与RHD基因或RHCE基因比对的序列读段的计数归一化并应用高斯混合模型。在一些实施方案中,该方法解释了RHD基因和RHCE基因的相反方向。
在一些实施方案中,通过包括以下步骤的方法鉴定多个预定分化位点:鉴定参考序列中RHD基因和RHCE基因的序列之间的单碱基差异,以及选择在群体中固定的单碱基差异作为分化位点。在一些实施方案中,选择在群体中固定的单碱基差异作为分化位点包括:对于多个核酸样品,接收与RHD和RHCE比对的多个序列读段,对于所述多个核酸样品中的每一个,估计RHD基因的基因特异性拷贝数和RHCE基因的拷贝数,选择所述多个核酸样品的核酸样品子集,其中所述核酸样品子集包含估计为RHD基因的二倍体和RHCE基因的二倍体的核酸样品,并且在所述核酸样品子集的至少90%的核酸样品中选择具有与RHD基因和RHCE基因的二倍体一致的拷贝数的单碱基差异。
在一些实施方案中,所述方法还包括构建一个或多个候选单倍型。在一些实施方案中,所述一个或多个候选单倍型覆盖RHCE*CE-D(2)-CE基因转化的断点区。在一些实施方案中,构建一个或多个候选单倍型包括使用与RHD基因或RHCE基因比对的序列读段将预定分化位点定相。在一些实施方案中,将预定分化位点定相包括基于第一预定分化位点处的所有测序碱基构建一个或多个候选单倍型,并且通过比对RHD基因或RHCE基因的序列读段将一个或多个候选单倍型延伸至第二预定分化位点。在一些实施方案中,第一和第二预定分化位点位于RHCE*CE-D(2)-CE基因转化断点的侧面。
在一些实施方案中,本文公开的方法还包括在多个预定分化位点中的预定分化位点处进行变体调用。在一些实施方案中,本文公开的方法还包括进行RHCE*CE-D(2)-CE基因转化的变体调用。在一些实施方案中,所述变体调用包括纯合或杂合变体调用。在一些实施方案中,该方法还包括创建包括变体调用的文件。
在一些实施方案中,预定分化位点包括对应于选自参考基因组hg38的chr1:25405587、chr1:25405596、chr1:25409676或chr1:25409958的位置的位点。
附图说明
通过参考以下具体实施方式和附图,本公开的示例的特征将变得显而易见,其中类似的附图标号对应于类似但可能不相同的部件。为了简洁起见,具有先前描述的功能的附图标号或特征可结合或可不结合它们出现的其他附图来描述。
图1A示意性说明RHCE*CE-D(2)-CE基因转化事件。
图1B示意性说明了RHD基因和RHCE基因之间的分化位点。
图1C示意性说明了与RHD基因或RHCE基因比对并覆盖分化位点的序列读段。
图2是示意性说明检测核酸样品中RHCE*CE-D(2)-CE基因转化事件的方法的框图。
图3A是可用于执行所公开的方法的示例性测序系统的框图。
图3B是可以结合图3A的示例性测序系统使用的示例性计算设备的框图。
图4是说明在实施本文所述方法的实施方案后假阴性(FN)的减少的图。
具体实施方式
本文提及的所有专利、专利申请和其他出版物,包括在这些参考文献中公开的所有序列,均明确地以引用方式并入本文,其程度如同具体且单独地指出每个单独的出版物、专利或专利申请以引用方式并入本文。所有引用文献的相关部分均全文以引用方式并入本文以用于本文引用的上下文所指示的目的。然而,不可将任何文献的引用理解为是对其作为本公开的现有技术的认可。
RHCE*CE-D(2)-CE
准确的血型鉴定是安全输血所必需的。通过血清学进行的基础血型鉴定是目前的护理标准(ABO/Rh+或Rh-),并且通常足以避免大多数输血的并发症。然而,需要反复输血的患者(例如患有癌症、镰状细胞病或甲型地中海贫血的患者)可以从他们的血液抗原的更全面评价中获益。虽然血清学可用于这种延长的血型鉴定,但它依赖于对每一血型特异的抗体的可用性,并且可能变得麻烦且昂贵。基于患者的DNA的分子血型鉴定可以是更完整的血液抗原谱的替代方案。
恒河猴(Rh)因子是广泛使用的基于蛋白质的血型系统,仅次于ABO血型。Rh血型的抗原来源于两个基因RHD和RHCE,它们是彼此具有约97%同一性的平行基因。尽管大多数人是Rh+(具有RHD的活性拷贝)或Rh-(不具有RHD的拷贝),但灰色区域以过多RHD变体的形式存在:所谓的弱D、部分D和DEL表型。除了完全RHD基因或RHCE基因的拷贝数的变化外,两种机制可导致D变体的形成导致氨基酸变化的小变体,和基因转变,其中一个基因的一部分被另一个取代。
在RHD/RHCE中检测变体可能由于在两个基因之间观察到的高序列相似性以及在这样的基因中观察到的可变总拷贝数而复杂化。在一些情况下,RHD/RHCE基因的基因读段可能与错误的基因不一致,或者可能对两种基因以相等的置信度作图,导致低的映射质量。RHCE*CE-D(2)-CE基因转化事件是RHCE基因的外显子2的基因转化。在RHCE*CE-D(2)-CE基因转化事件中,RHCE基因的外显子2被RHD基因的外显子2的拷贝取代,如图1A所示。
如图1B和1C所示,RHD基因和RHCE基因是旁系同源基因,在患者基因组中以相反的方向取向。此外,RHCE*CE-D(2)-CE基因转化事件不是这些基因中唯一的潜在突变。在群体中已经观察到RHD基因和RHCE基因中的其它重复、缺失、易位和基因转化事件。因此,当测序核酸样品中的RHD基因和RHCE基因时,由于RHCE和RHD基因之间的高度同源性,可能难以检测RHCE*CE-D(2)-CE基因转化事件。例如,RHCE*CE-D(2)-CE基因转化可能未被检测到,当在来自患者的核酸样品中调用SNP变体时导致假阴性。本发明的实施方案克服了这些挑战,如以下更全面地描述的。
概述
本文描述了用于检测取自患者的核酸样品中的RHCE*CE-D(2)-CE基因转化事件的方法和系统。所公开的用于检测核酸样品中的RHCE*CE-D(2)-CE基因转化事件的系统和方法被发现改善了检测核酸样品中的RHCE*CE-D(2)-CE基因转化的特异性和灵敏度以及在RHD和/或RHCE区域中的变体调用的特异性和灵敏度。
在一些实施方案中,所公开的系统和方法包括接收与RHD基因或RHCE基因比对的序列读段。一旦接收到序列读段,就可以估计核酸样品中RHD基因和RHCE基因的组合拷贝数。估计组合拷贝数可包括计数与RHD或RHCE区比对的序列读段。
然后,所公开的系统和方法可以估计在RHD基因和RHCE基因的多个预定分化位点中的每一个处的RHD-特异性碱基和RHCE特异性碱基的拷贝数。这些预定分化位点可以包括RHD基因或RHCE基因的核酸序列中的位置,其包括在RHD基因和RHCE基因之间不同的至少一个碱基,并且该差异被预定为在群体中固定。因此,这些预定分化位点可用于确定特定序列读段是否来自RHD基因或RHCE基因,包括RHCE*CE-D(2)-CE基因转化事件。
图1B说明了在RHD基因和RHCE基因之间不同的一个这样的位点的实例。在一些实施方案中,分化位点是“预定的”,这意味着它们在进行本文所述的方法或实施本文所述的系统以检测RHCE*CE-D(2)-CE基因转化事件之前已经被鉴定(例如通过群体研究)。在一些实施方案中,用于检测RHCE*CE-D(2)-CE基因转化事件的过程包括计数在预定分化位点处包括RHD-特异性碱基的序列读段和计数在预定分化位点处包括RHCE-特异性碱基的序列读段。序列读段计数可用于估计每个预定分化位点处的RHD-特异性和RHCE-特异性拷贝数。
在一些实施方案中,所公开的系统和方法包括基于每个观察到的碱基预定分化位点的拷贝数支持,调用核酸样品中与RHCE*CE-D(2)-CE基因转化相关的变体的过程。例如,该方法可以包括基于在多个预定分化位点的每一个处支持RHD-特异性碱基或RHCE-特异性碱基的估计拷贝数,以及基于RHD基因和RHCE基因的估计组合拷贝数,计算核酸样品中RHCE*CE-D(2)-CE基因转化的概率。例如,核酸样品中RHCE*CE-D(2)-CE基因转化的概率可通过观察来自患者的测序核酸中连续预定分化位点上的RHD-特异性碱基和RHCE-特异性碱基的估计拷贝数的变化来推断。
为了进一步检测RHCE*CE-D(2)-CE基因转化事件,可以构建一种或多种候选单倍型,包括覆盖RHCE*CE-D(2)-CE基因转化的断点区的候选单倍型。候选单倍型可通过例如使用与RHD基因或RHCE基因比对的序列读段将预定分化位点定相来构建。
为了进一步检测RHCE*CE-D(2)-CE基因转化事件,本文公开的方法和系统可包括鉴定一个或多个序列读段,所述序列读段涵盖RHCE*CE-D(2)-CE基因转化事件的断点,并且包括位于断点侧面的第一预定分化位点处的RHD-特异性碱基和位于断点侧面的第二预定分化位点处的RHCE-特异性碱基。
所公开的系统和方法可以将由RHCE*CE-D(2)-CE基因转化事件产生的单核苷酸多态性(SNP)的再调用(也称为灵敏度,正确检测的真实变体的百分比)改善20%、50%、80%、100%或更多,例如通过减少假阴性。
定义
除非另有定义,否则本文所用的技术和科学术语都具有与本公开所属技术领域普通技术人员通常理解的含义相同的含义。参见例如,Singleton等人,Dictionary ofMicrobiology and Molecular Biology第2版,J.Wiley&Sons(New York,NY 1994);Sambrook等人,“Molecular Cloning,A Laboratory Manual”,Cold Spring Harbor Press(Cold Spring Harbor,NY 1989)。出于本公开的目的,以下术语定义如下。
如本文所用,“核苷酸”包括含氮杂环碱基、糖以及一个或多个磷酸基团。核苷酸是核酸序列的单体单元。核苷酸的示例包括例如核糖核苷酸或脱氧核糖核苷酸。在核糖核苷酸(RNA)中,糖是核糖,并且在脱氧核糖核苷酸(DNA)中,糖是脱氧核糖,即在核糖中缺少存在于2'位置处的羟基基团的糖。含氮杂环碱基可以是嘌呤碱基或嘧啶碱基。嘌呤碱基包括腺嘌呤(A)和鸟嘌呤(G)以及它们的经修饰的衍生物或类似物。嘧啶碱基包括胞嘧啶(C)、胸腺嘧啶(T)和尿嘧啶(U)以及它们的经修饰的衍生物或类似物。脱氧核糖的C-1原子与嘧啶的N-1或嘌呤的N-9键合。磷酸基团可以是单磷酸、二磷酸或三磷酸形式。这些核苷酸可以是天然核苷酸,但是应当进一步理解,也可以使用非天然核苷酸、经修饰的核苷酸或前述核苷酸的类似物。
如本文所用,“碱基”或“核碱基”是杂环碱基,诸如腺嘌呤、鸟嘌呤、胞嘧啶、胸腺嘧啶、尿嘧啶、肌苷、黄嘌呤、次黄嘌呤,或者它们的杂环衍生物、类似物或互变异构体。核碱基可以是天然存在的或合成的。核碱基的非限制性示例是腺嘌呤、鸟嘌呤、胸腺嘧啶、胞嘧啶、尿嘧啶、黄嘌呤、次黄嘌呤、8-氮杂嘌呤、在8位置处被甲基或溴取代的嘌呤、9-氧代-N6-甲基腺嘌呤、2-氨基腺嘌呤、7-脱氮黄嘌呤、7-脱氮鸟嘌呤、7-脱氮-腺嘌呤、N4-乙醇基胞嘧啶、2,6-二氨基嘌呤、N6-乙醇基-2,6-二氨基嘌呤、5-甲基胞嘧啶、5-(C3-C6)-炔基胞嘧啶、5-氟尿嘧啶、5-溴尿嘧啶、硫尿嘧啶、假异胞嘧啶、2-羟基-5-甲基-4-三唑并吡啶、异胞嘧啶、异鸟嘌呤、次黄苷、7,8-二甲基咯嗪、6-二氢胸腺嘧啶、5,6-二氢尿嘧啶、4-甲基-吲哚、乙醇腺嘌呤,以及美国专利第5,432,272号和第6,150,510号,以及PCT申请WO 92/002258、WO 93/10820、WO 94/22892和WO 94/24144,以及Fasman(《生物化学与分子生物学实用手册(Practical Handbook of Biochemistry and Molecular Biology)》,第385-394页,1989,加利福尼亚州博卡拉顿的CRC出版社(CRC Press,Boca Raton,LO))中描述的非天然存在的核碱基,所有这些文献通过引用以其整体并入本文。
术语“核酸”或“多核苷酸”是指单链或双链形式的脱氧核糖核苷酸或核糖核苷酸聚合物,除非另外限制,否则涵盖以类似于天然存在的核苷酸的方式与核酸杂交的天然核苷酸的已知类似物,诸如肽核酸(PNA)和硫代磷酸酯DNA。除非另外指明,否则特定核酸序列包括其互补序列。核苷酸包括但不限于ATP、dATP、CTP、dCTP、GTP、dGTP、UTP、TTP、dUTP、5-甲基-CTP、5-甲基-dCTP、ITP、dITP、2-氨基-腺苷-TP、2-氨基-脱氧腺苷-TP、2-硫代胸苷三磷酸、吡咯并嘧啶三磷酸和2-硫代胞苷,以及所有上述物质的α-硫代三磷酸酯,和所有上述碱基的2'-O-甲基-核糖核苷酸三磷酸。修饰碱基包括但不限于5-Br-UTP、5-Br-dUTP、5-F-UTP、5-F-dUTP、5-丙炔基dCTP和5-丙炔基-dUTP。
如本文所用,术语“染色体”是指活细胞的携带遗传性的基因载体,其衍生自包含DNA和蛋白质组分(尤其是组蛋白)的染色质链。本文采用了常规的国际公认的个体人类基因组染色体编号系统。
“基因组”是指以核酸序列表达的生物体或病毒的完整遗传信息。
如本文所用,术语“参考基因组”或“参考序列”是指可用于参考来自受试者的识别序列的任何生物体或病毒的任何特定已知基因组序列,无论是部分的还是完整的。例如,可在ncbi.nlm.nih.gov的美国国家生物技术信息中心(National Center forBiotechnology Information)找到用于人类受试者以及许多其他生物体的参考基因组。在各种实施方案中,参考序列显著大于与其进行比对的读段。例如,参考序列可以是比对读段的至少约100倍大、或至少约1000倍大、或至少约10,000倍大、或至少约105倍大、或至少约106倍大、或至少约107倍大。在一个示例中,参考序列是全长基因组的序列。此类序列可称为基因组参考序列。例如,参考序列可以是参考人类基因组序列,诸如hg19或hg38。在另一个示例中,参考序列限于特定的人类染色体,诸如13号染色体。在一些实施方案中,参考染色体是来自人类基因组版本hg19的Y染色体序列。此类序列可称为染色体参考序列。参考序列的其他示例包括其他物种的基因组,以及任何物种的染色体、亚染色体区域(诸如链)等。在各种实施方案中,参考序列是衍生自多个个体的共有序列或其他组合。然而,在某些应用中,参考序列可取自特定个体。
本文中术语“核酸样品”是指通常来源于生物流体、细胞、组织、器官或生物体的样品,该样品包含核酸或核酸混合物,该核酸或核酸混合物包含待筛选拷贝数变异的至少一个核酸序列。在某些实施方案中,核酸样品包括拷贝数疑似已发生变异的至少一个核酸序列。此类样品可以包括但不限于痰/口腔液、羊水、血液、血液级分或细针活检样品(例如,外科活检、细针活检等)、尿液、腹膜液、胸膜液等。虽然样品通常取自人类受试者(例如,患者),但样品可以来自任何哺乳动物,该任何哺乳动物包括但不限于狗、猫、马、山羊、绵羊、牛、猪等。样品可以作为从生物来源获得的或者在预处理以改变样品的特性之后直接使用。例如,此类预处理可包括由血液制备血浆、稀释粘性流体等。预处理的方法还可包括但不限于过滤、沉淀、稀释、蒸馏、混合、离心、冷冻、冻干、浓缩、扩增、核酸片段化、干扰组分失活、添加试剂、裂解等。如果对于样品采用此类预处理方法,则此类预处理方法通常使得所关注核酸保留在试验样品中,有时其浓度与未处理的试验样品(例如,即未受到任何此类预处理方法的样品)中的浓度成比例。就本文所述的方法而言,此类“经处理的”或“处理后的”样品仍被视为生物“试验”样品。
术语“读段”或“序列读段”(或测序读段)是指从核酸样品的一部分中获得的序列。读段可以由从核酸分子的任何部分或全部测序的核苷酸串表示。通常,尽管不是必须的,读段表示样品中邻接碱基对的短序列。读段可由样品部分的碱基对序列(以A、T、C或G)象征性地表示。读段可存储在存储器设备中并视情况进行处理,以确定该读段是匹配参考序列还是满足其他标准。读段可直接从测序装置获得或间接从所存储的关于样本的序列信息获得。在一些情况下,读段为足够长度(例如,至少约25bp)的DNA序列,其可用于鉴定更大的序列或区域,例如,其可被比对并特异性地分配给染色体或基因组区域或基因。例如,序列读段可以是从核酸片段测序的短核苷酸串(例如,20-150个碱基)、在核酸片段的一个端部或两个端部处的短核苷酸串,或存在于生物样品中的整个核酸片段的测序。序列读段可通过本领域已知的任何方法获得。例如,序列读段可以多种方式获得,例如使用测序技术或使用探针(例如在杂交阵列或捕获探针中),或扩增技术,诸如聚合酶链反应(PCR)或使用单引物的线性扩增或等温扩增。序列读段可通过诸如边合成边测序、边结合边测序(sequencingby binding)或连接测序(sequencing by ligation)等技术生成。可使用诸如来自因美纳公司(加利福尼亚州圣地亚哥)的MINISEQ、MISEQ、NEXTSEQ、HISEQ和NOVASEQ测序仪器等仪器生成序列读段。
如本文所用,术语“测序深度”通常是指基因座被与该基因座比对的序列读段覆盖的次数。基因座可小至一个核苷酸,或大至染色体臂,或大至整个基因组。测序深度可被表示为50×、100×等,其中“×”是指基因座被序列读段覆盖的次数。测序深度还可应用于多个基因座或全基因组,在这种情况下,x可指基因座或单倍体基因组或全基因组分别被测序的平均次数。当引用平均深度时,包括在数据集中的不同基因座的实际深度跨越一定值范围。超深测序可指至少100×的测序深度。
如本文所使用的,术语“比对(aligned、alignment或aligning)”是指将读段或标签与参考序列进行比较,从而确定参考序列包括读段序列的可能性。如果参考序列包含该读段,则该读段可映射到参考序列,或者在某些实施方案中,映射到参考序列中的特定位置。例如,读段与人类13号染色体的参考序列的比对将告知读段存在于13号染色体的参考序列中的可能性。在一些情况下,比对另外指示读段或标签在参考序列中映射到的位置。例如,如果参考序列是人类全基因组序列,则比对可指示读段存在于13号染色体上,并且还可指示该读段存在于13号染色体的特定链和/或位点上。“位点”可以是多核苷酸序列或参考基因组上的独特位置(即染色体ID、染色体位置和取向)。在一些实施方案中,位点可提供残基、序列标签或区段在序列上的位置。
比对的读段或标签是就其核酸分子顺序而言识别为与来自参考基因组的已知序列匹配的一条或多条序列。比对可手动进行,尽管其通常通过计算机算法来实现,因为不可能在实现本文所公开的方法的合理时间段内比对读段。比对中序列读段的匹配可以是100%序列匹配或小于100%(非完全匹配)。
可以通过方法的修改和/或组合来进行比对,这些方法诸如Burrows-Wheeler比对器(BWA)、iSAAC、BarraCUDA、BFAST、BLASTN、BLAT、Bowtie、CASHX、Cloudburst、CUDA-EC、CUSHAW、CUSHAW2、CUSHAW2-GPU、drFAST、ELAND、ERNE、GNUMAP、GEM、GensearchNGS、GMAP和GSNAP、Geneious Assembler、LAST、MAQ、mrFAST和mrsFAST、MOM、MOSAIK、MPscan、Novoaligh和NovoalignCS、NextGENe、Omixon、PALMapper、Partek、PASS、PerM、PRIMEX、QPalma、RazerS、REAL、cREAL、RMAP、rNA、RT Investigator、Segemehl、SeqMap、Shrec、SHRiMP、SLIDER、SOAP、SOAP2、SOAP3和SOAP3-dp、SOCS、SSAHA和SSAHA2、Stampy、SToRM、Subread和Subjunc、Taipan、UGENE、VelociMapper、XpressAlign和ZOOM。
本文所用的术语“映射”指通过比对将序列读段特异性地分配给较大的序列,例如参考基因组。
“遗传变异”或“遗传改变”是指某些个体中存在的特定基因型,并且通常遗传变异存在于统计学显著的个体亚群中。可使用本文所述的方法或装置确定遗传方差的存在或不存在。在某些实施方案中,根据本文所述的方法和装置所提供的结果来确定一个或多个遗传变异的存在或不存在。在一些实施方案中,遗传变异是染色体异常(例如,非整倍体)、部分染色体异常或镶嵌性,每一者均在本文中更详细描述。遗传变异的非限制性示例包括一个或多个缺失(例如,微缺失)、重复(例如,微重复)、插入、突变、多态性(例如,单核苷酸多态性)、融合、重复序列(例如,短串联重复序列)、差异甲基化位点、差异甲基化形式等以及它们的组合。插入、重复序列、缺失、重复、突变或多态性可为任意长度,并且在一些实施方案中,长度为约1个碱基或碱基对(bp)至约250兆碱基(Mb)。在一些实施方案中,插入、重复序列、缺失、重复、突变或多态性的长度为约1个碱基或碱基对(bp)至约1,000千碱基(kb)(例如,长度为约10bp、50bp、100bp、500bp、1kb、5kb、10kb、50kb、100kb、500kb或1000kb)。
遗传变异有时是缺失。在某些实施方案中,缺失是部分染色体或DNA序列丢失的突变(例如,遗传畸变)。缺失通常是遗传物质丢失。可缺失任何数量的核苷酸。缺失可包括缺失一个或多个全染色体、染色体片段、等位基因、基因、内含子、外显子、任何非编码区、任何编码区、它们的片段或它们的组合。缺失可包括微缺失。缺失可包括缺失单个碱基。
遗传变异有时是基因重复。在某些实施方案中,重复是部分染色体或DNA序列被复制并插回基因组中的突变(例如,遗传畸变)。在某些实施方案中,基因重复(即,重复)是DNA区的任何重复。在一些实施方案中,重复是基因组或染色体内重复(通常串联)的核酸序列。在一些实施方案中,重复可包括下述的拷贝:一个或多个全染色体、染色体片段、等位基因、基因、内含子、外显子、任何非编码区、任何编码区、它们的片段或它们的组合。重复可包括微重复。重复有时包括复制的核酸的一个或多个拷贝。重复有时被表征为重复一次或多次(例如,重复1、2、3、4、5、6、7、8、9或10次)的基因区域。在一些情况下,重复的范围可以是小区域(数千碱基对)到全染色体。重复经常由于同源重组的错误或由于逆转录转座子事件造成。重复与某些类型的增生性疾病相关联。可使用基因组微阵列或比较基因组杂交(CGH)来表征重复。
遗传变异有时是插入。插入有时是将一个或多个核苷酸碱基对添加到核酸序列中。插入有时是微插入。在某些实施方案中,插入包括将染色体的片段添加到基因组、染色体或其片段中。在某些实施方案中,插入包括将等位基因、基因、内含子、外显子、任何非编码区、任何编码区、其片段或其组合添加到基因组或其片段中。在某些实施方案中,插入包括将未知来源的核酸添加(即,插入)到基因组、染色体或其片段中。在某些实施方案中,插入包括添加(即,插入)单个碱基。
遗传变异有时包括拷贝数变异,即与存在于参考样品中的核酸序列的拷贝数相比,存在于实验样品中的核酸序列的拷贝数变异。在某些实施方案中,核酸序列为1kb或更大。在一些情况下,核酸序列是全染色体或其重要部分。“拷贝数变体”可以是指通过将实验样品中的所关注核酸序列与所关注核酸序列的预期水平进行比较来发现拷贝数差异的核酸序列。例如,将试验样品中所关注核酸序列的水平与合格样品中存在的核酸序列水平进行比较。拷贝数变体/变异可以包括缺失(包括微缺失)、插入(包括微插入)、重复、倍增和易位。CNV涵盖染色体非整倍体和部分非整倍体。
检测RHCE*CE-D(2)-CE基因转化事件的方法和系统的实施方案
图2是示意性说明检测核酸样品中的RHCE*CE-D(2)-CE基因转化事件的示例性方法200的框图。在一些实施方案中,方法200在计算机上实现。方法200可体现在存储在计算系统的计算机可读介质(诸如一个或多个磁盘驱动器)上的一组可执行程序指令中。例如,图3A和图3B所示并且在下文更详细地描述的服务器设备3102可执行一组可执行程序指令以实施方法200。当发起方法200时,可将可执行程序指令加载到存储器诸如RAM中,并由服务器设备3102的一个或多个处理器执行这些可执行程序指令。尽管相对于图3B所示的服务器设备3102描述了方法200,但该描述仅仅是例示性的,并且不旨在进行限制。在一些实施方案中,方法200或其部分可由多个计算系统串行地或并行地执行。
如图2所示,用于检测核酸样品中的RHCE*CE-D(2)-CE基因转化事件的方法200可以从框201开始,其中接收与RHD基因或RHCE基因比对的序列读段。例如,与RHD基因或RHCE基因比对的序列读段可被映射到参考序列以确定与RHD基因或RHCE基因的比对。接下来,方法200可进行至框202,其中估计核酸样品中RHD基因和RHCE基因的组合拷贝数。方法200然后可以进行到框203,其中估计在RHD基因和RHCE基因的多个预定分化位点中的每一个处的RHD-特异性碱基和RHCE特异性碱基的拷贝数。接下来,方法200可以进行至框204,其中基于RHD基因和RHCE基因的估计拷贝数以及多个预定分化位点中每一个处的每一个RHD-特异性和RHCE特异性碱基的估计拷贝数,计算核酸样品中RHCE*CE-D(2)-CE基因转化的概率。
接收与RHD基因或RHCE基因比对的序列读段
在一些实施方案中,本文公开的方法和系统包括接收与RHD基因或与RHCE基因比对的多个序列读段的步骤。在一些实施方案中,序列读段是从获自受试者的样品中产生的。
序列读段可通过诸如边合成边测序、边结合边测序(sequencing by binding)或连接测序(sequencing by ligation)等技术生成。可使用诸如来自因美纳公司(加利福尼亚州圣地亚哥)的MINISEQ、MISEQ、NEXTSEQ、HISEQ和NOVASEQ测序仪器等仪器生成序列读段。序列读段各自的长度可以是例如50个、60个、70个、80个、90个、100个、110个、120个、130个、140个、150个、160个、170个、180个、190个、200个、300个、400个、500个、600个、700个、800个、900个、1000个、1250个、1500个、1750个、2000个或更多个碱基对(bp)。例如,序列读段各自的长度为约100个碱基对至约1000个碱基对。序列读段可包以括配对末端序列读段。序列读段可包括单末端序列读段。序列读段可通过全基因组测序(WGS)产生。该WGS可为临床WGS(cWGS)。样品可以包括细胞、无细胞DNA、无细胞胎儿DNA、羊水、血液样品、活检样品或其组合。
在一些实施方案中,通过将读段与参考序列的RHD或RHCE区比对来获得序列读段。在一些实施方案中,通过将从样品产生的第一多个序列读段与参考基因组序列比对以获得与参考基因组序列中的RHD基因或RHCE基因比对的第二多个序列读段来获得序列读段。在一些实施方案中,计算系统将第一多个序列读段存储在存储器中。计算系统可将第一多个序列读段加载到存储器中。序列读段可与参考序列中的RHD基因或RHCE基因进行比对,其中比对质量得分为0或更高。序列读段可与参考序列中的RHD基因或RHCE基因以约0的比对质量得分进行比对(例如,当序列与基因和基因旁系同源物高度同源的区域进行比对时)。
在一些实施方案中,序列读段从包含测序信息的文件中获得。在一些实施方案中,文件在计算机存储介质(例如计算机硬盘驱动器,例如旋转磁盘驱动器或固态驱动器)上。在一些实施方案中,文件以BAM、SAM、CRAM或VCF文件的格式存储。在一些实施方案中,序列读段覆盖RHCE*CE-D(2)-CE基因转化事件的断裂点区域。
估计组合拷贝数
在一些实施方案中,估计RHD基因和RHCE基因的组合拷贝数包含计数与RHD基因或RHCE基因比对的序列读段。在一些实施方案中,RHD基因和RHCE基因之间的组合拷贝数通过计数与参考基因组序列中的RHD或RHCE比对的读段的总数来估计。在一些实施方案中,计数与参考基因组序列中的RHD或RHCE比对的读段的总数包括计数可以以相等置信度映射到RHD基因或RHCE基因的序列读段(导致0映射质量)。在一些实施方案中,序列读段与RHD和RHCE两者中的区域以0的映射质量比对,因为由于RHD基因和RHCE基因的区域之间的高度同源性,两个区域之间的序列是相同的。在一些实施方案中,通过计数具有低映射质量的序列读段(包括0的映射质量),可以估计RHD基因和RHCE基因的组合拷贝数,尽管有高序列同源性。
在一些实施方案中,估计组合拷贝数包含将与RHD基因或RHCE基因比对的序列读段的计数标准化并应用高斯混合模型。在一些实施方案中,考虑到与RHD基因或RHCE基因比对的序列读段的归一化数目(例如,归一化和/或校正的序列读段),高斯混合模型包括多个高斯,每个高斯表示不同的整数拷贝数。例如,可以通过区域的长度并针对预期在群体中一致为二倍体的2000bp的3000个基因组区域的集合来归一化读段计数。在一些实施方案中,然后基于观察到的归一化深度信号,使用高斯混合模型来推断RHD+RHCE基因的最可能拷贝数。
总拷贝数可为例如2、3、4、5、6、7、8、9、10或更多拷贝。高斯混合模型可包括一维高斯混合模型。高斯混合模型的该多个高斯函数可表示整数拷贝数,例如0至5、0至6、0至7、0至8、0至9、0至10、0至11、0至12、0至13、0至14或0至15。例如,高斯混合模型的该多个高斯函数可表示0至10的整数拷贝数。该多个高斯函数中的每个高斯函数的平均值可以为由高斯函数表示的整数拷贝数。该多个高斯函数中的每个高斯函数的平均值可为由高斯函数表示的整数拷贝数(例如,1、2、3、4、5、6、7、8、9、10、11、12、13、14、15或更高的拷贝数)。高斯函数的标准偏差可以为或约为例如0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1或更高。高斯混合模型的该多个高斯函数可包括例如5、6、7、8、9、10、11、12、13、14、15、16或更多个高斯函数。例如,高斯混合模型的该多个高斯函数可包括5个高斯函数。
为了估计RHD基因和RHCE基因的组合拷贝数,考虑到与RHD基因或RHCE基因比对的序列读段的标准化数目,计算系统可以使用高斯混合模型和预定的后验概率阈值来确定RHD基因和RHCE基因的总拷贝数。预定的后验概率阈值可以是例如0.7、0.75、0.8、0.85、0.95或更大。
估计在预定分化位点的基因特异性的碱基拷贝数
在一些实施方案中,本文公开的方法和系统包括估计RHD基因和RHCE基因的多个预定分化位点中的每一个处的RHD-特异性碱基和RHCE特异性碱基的拷贝数的步骤。
在一些实施方案中,在一个或多个预定分化位点评估序列信息(如basecall)。如本文所用,“预定分化位点”是指核酸序列中在RHD基因和RHCE基因序列之间不同的位点。例如,可以在群体中固定预定分化位点,并且在至少90%、至少95%、至少98%或至少99%的群体中观察到RHD基因和RHCE基因之间的碱基差异。在一些实施方案中,RHCE*CE-D(2)-CE基因转化导致第一断点,并且多个预定分化位点包括在第一断点侧面的至少两个预定分化位点。在一些实施方案中,所述多个预定分化位点可包括对应于选自参考基因组hg38的chr1:25405587、chr1:25405596、chr1:25409676或chr1:25409958的位置的位点(例如,可获自GenBank汇编登录号GCA 000001405.15)。
在一些实施方案中,在多个预定位点中的每个预定分化位点处评估支持预期的RHD-特异性碱基和RHCE-特异性碱基的读段的比例。例如,可以计数在多个预定分化位点中的预定分化位点处包括RHD-特异性碱基的序列读段,并且可以计数在预定分化位点处包括RHCE-特异性碱基的序列读段。可使用参考估计RHD基因和RHCE基因的组合拷贝数描述的方法将计数归一化。
计算系统(例如服务器设备3102)可以确定在给定的预定分化位点处包含RHD-特异性或RHCE-特异性碱基的序列读段的归一化数目。为了确定含有RHD-特异性或RHCE-特异性碱基的序列读段的归一化数目,计算系统可以使用(1a)与预定分化位点比对并且含有RHD-特异性或RHCE-特异性碱基的序列读段的深度,(1b)预定分化位点的长度,(2a)与RHD基因或RHCE基因中不包括预定分化位点的区域比对的序列读段的深度,和/或(2b)RHD基因或RHCE基因中不包括预定分化位点的每个区域的长度,确定在预定分化位点包括RHD-特异性或RHCE-特异性碱基的序列读段的归一化数目。
估计RHCE*CE-D(2)-CE基因转化事件的概率
在一些实施方案中,本文公开的方法和系统包括以下步骤:基于估计的RHD基因和RHCE基因的组合拷贝数以及估计的多个预定分化位点中每一个处的RHD-特异性碱基和RHCE-特异性碱基的拷贝数,计算核酸样品中RHCE*CE-D(2)-CE基因转化的概率。
在一些实施方案中,估计多个预定分化位点中每个预定分化位点的基因特异性拷贝数(例如RHD基因和RHCE基因中每一个的拷贝数)。基因特异性拷贝数可以基于在预定分化位点处包含RHD-特异性或RHCE-特异性碱基的序列读段的比例。在一些实施方案中,所述方法包括将支持每个预定分化位点处的RHD-特异性碱基或RHCE-特异性碱基的序列读段的比例乘以估计的组合拷贝数,从而估计每个预定分化位点处的基因特异性拷贝数。基因特异性拷贝数可为例如0、1、2、3、4或更高。基因特异性拷贝数可以是整数。
在一些实施方案中,所述方法包括检测连续预定分化位点中基因特异性拷贝数的变化(例如支持RHD-特异性或RHCE-特异性碱基的读段比例的变化),以及估计RHCE*CE-D(2)-CE基因转化事件的概率。例如,如果RHD基因或RHCE基因的一部分已被来自另一基因的相应区域取代,这将导致在预定分化位点处支持RHD-特异性碱基和RHCE-特异性碱基的读段比例的增加或减少。
在一些实施方案中,为了确定RHCE*CE-D(2)-CE基因转化的可能性,对于多个预定分化位点中的一对或多对连续的预定分化位点,考虑到以下因素计算系统可以确定在连续的预定分化位点RHCE-特异性碱基的拷贝数:(1)与在连续的预定分化位点各自包含两个或更多个RHCE-特异性碱基的RHD基因或RHCE基因比对的序列读段的数目,(2)与各自包含RHCE-特异性碱基和RHD-特异性碱基,或在连续的预定分化位点各自包含RHD-特异性碱基和RHCE-特异性碱基的RHD基因或RHCE基因比对的序列读段的数目,和/或(3)与在连续的预定分化位点各自包含RHCE碱基的RHD基因或RHCE基因比对的序列读段的数目。
鉴定涵盖断点的序列读段
在一些实施方案中,本文公开的方法和系统包括鉴定一个或多个序列读段的步骤,所述序列读段涵盖第一断点并且包括位于第一断点侧面的第一预定分化位点处的RHD-特异性碱基和位于第一断点侧面的第二预定分化位点处的RHCE-特异性碱基。因此,所述方法可以包括在与RHD基因或RHCE基因比对的多个序列读段中鉴定一个或多个序列读段,所述一个或多个序列读段覆盖RHCE*CE-D(2)-CE基因转化的两个断点之一,并且包括至少两个预定分化位点,在断点的任一侧各一个,在断点侧面的第一预定分化位点处具有RHD-特异性碱基,并且在断点侧面的第二预定位点处具有RHCE-特异性碱基。
在一些实施方案中,RHCE*CE-D(2)-CE基因转化导致第二断点,并且所述多个预定分化位包括在所述第二断点侧面的至少两个预定分化位点。在一些实施方案中,所述方法还包括鉴定一个或多个序列读段,所述序列读段涵盖第二断点并且包括位于第二断点侧面的第一预定分化位点处的RHD-特异性碱基和位于第二断点侧面的第二预定分化位点处的RHCE-特异性碱基。因此,在一些实施方案中,所述方法包括对于RHCE*CE-D(2)-CE基因转化的两个断点中的每一个,鉴定一个或多个序列读段,所述序列读段涵盖每个断点并且包括位于断点侧面的第一预定分化位点处的RHD-特异性碱基和位于断点侧面的第二预定分化位点处的RHCE-特异性碱基。
在一些实施方案中,位于断裂点侧面的预定分化位点选自对应于选自参考基因组hg38的chr1:25405587、chr1:25405596、chr1:25409676或chr1:25409958的位置的位点。
构建候选单倍型
在一些实施方案中,本文公开的方法和系统还包括构建一种或多种候选单倍型的步骤。在一些实施方案中,所述一个或多个候选单倍型覆盖RHCE*CE-D(2)-CE基因转化的断点区。
在一些实施方案中,构建一种或多种候选单倍型包括使用与RHD基因或RHCE基因比对的序列读段将预定分化位点定相。在一些实施方案中,将预定分化位点定相包括基于第一预定分化位点处的所有测序碱基构建一个或多个候选单倍型,并且通过比对RHD基因或RHCE基因的序列读段将一个或多个候选单倍型延伸至第二预定分化位点。
例如,候选单倍型可由第一预定分化位点处的所有测序碱基形成。例如,如果基于来自覆盖第一预定分化位点的测序读段的basecall的两个碱基在第一预定分化位点是可能的,则可以形成两个候选单倍型。在一些实施方案中,然后通过考虑可唯一分配给单一候选单倍型的所有测序读段,将单倍型延伸至下一个预定分化位点。在一些实施方案中,如果这些测序读段仅支持给定候选单倍型的下一个分化位点处的单个碱基,则用该碱基延伸单倍型。在一些实施方案中,当候选单倍型可以在第二预定分化位点延伸两个可能的碱基时,则两个可能的延伸的单倍型都被包括在候选单倍型的集合中,使该集合以1增长。在一些实施方案中,随后的延伸步骤在第三个预定分化位点进行,并且可以重复这些步骤直到所有位点都已经被处理。在一些实施方案中,该方法基于在多个预定分化位点观察到的碱基产生一组候选单倍型。
在一些实施方案中,计算系统使用与包含多个预定分化位点的RHD基因或RHCE基因比对的序列读段在包含多个预定分化位点的RHCE基因的区域中构建源自RHD基因或RHCE基因的一个或多个候选单倍型。例如,可以将序列读段与参考序列比对,使得序列读段与预定分化位点重叠。序列读段可与包含多个预定分化位点的RHD基因的区域或RHCE基因的相应区域进行比对,其中比对质量得分为0或更高。
在一些实施方案中,一种或多种候选单倍型包括野生型RHD单倍型、野生型RHCE单倍型和/或RHCE*CE-D(2)-CE单倍型。RHCE*CE-D(2)-CE单倍型可包括RHD碱基和RHCE碱基。RHCE*CE-D(2)-CE单倍型可以是重组变体。RHCE*CE-D(2)-CE单倍型可包含RHCE变体单倍型。单倍型可包含相互重组变体。单倍型可包含非相互重组变体或基因转化变体。参考序列可包括参考基因组序列。
为了对源自RHD基因或RHCE基因的一种或多种单倍型进行定相,计算系统可以使用与包含多个预定分化位点的RHD或RHCE区域比对的序列读段来分析多个预定分化位点中的预定分化位点之间的连接信息。为了对源自RHD基因或RHCE基因的一种或多种单倍型进行定相,计算系统可以使用与多个预定分化位点中的两个或更多个比对的序列读段对源自RHD基因或RHCE基因的一种或多种单倍型进行定相。
在一些实施方案中,第一和第二预定分化位点可位于RHCE*CE-D(2)-CE基因转化断点的侧面。在一些实施方案中,位于断裂点侧面的预定分化位点选自对应于选自参考基因组hg38的chr1:25405587、chr1:25405596、chr1:25409676或chr1:25409958的位置的位点。
例如,RHCE*CE-D(2)-CE基因转化事件的边界可以通过使用映射到每个断点区上的RHD基因或RHCE基因的测序读段对预定分化位点进行定相来确认。在一些实施方案中,所述方法还包括通过鉴定涵盖RHCE*CE-D(2)-CE断点且在连续预定分化位点处含有RHD-特异性碱基和RHCE-特异性碱基的测序读段或测序读段对来确认RHCE*CE-D(2)-CE基因转化。
鉴定预定分化位点
本文公开了用于鉴定多个预定分化位点的方法和系统。在一些实施方案中,所述方法包括鉴定参考序列中RHD基因和RHCE基因的序列之间的单碱基差异。例如,可通过将序列彼此比对并记录两个基因序列之间具有单个碱基差异的所有位点,将RHD基因的参考序列与RHCE基因的参考序列进行比较。然后可以将这些分化位点在RHD基因和RHCE基因中的位置存储在电子存储器中。例如,可以创建包括单个碱基差异的列表的文件。
在一些实施方案中,所述方法包括选择在群体中固定的单碱基差异作为分化位点。例如,该方法可以包括,对于多个核酸样品(如来自个体群体的多个核酸样品),接收与RHD基因和RHCE基因比对的多个序列读段。在一些实施方案中,所述多个核酸样品来源于群体的个体,例如超过100个、超过500个、超过1,000个、超过5,000个或超过10,000个个体。在一些实施方案中,群体是多样化群体,例如包括来自多个种族的个体的遗传多样化群体,例如以解释群体类型的差异并且增加单碱基差异不包括由于群体类型的差异的可能性。该方法还可包括,对于多个核酸样品中的每一个,估计RHD基因的基因特异性拷贝数和RHCE基因的拷贝数。该方法还可包括选择多个核酸样品中的核酸样品子集,其中核酸样品子集包含估计为RHD基因的二倍体和RHCE基因的二倍体的核酸样品(例如仅使用来自估计不包含RHCE*CE-D(2)-CE基因转化的样品的数据)。该方法还可包括在至少90%、至少95%、至少97%、至少98%或至少99%的核酸样本的核酸样本子集中选择具有与RHD基因和RHCE基因的二倍体一致的拷贝数的单碱基差异。
该方法还可包括创建列出所选单个碱基差异的位置的文件,从而生成包括多个预定分化位点的文件。在一些实施方案中,文件在计算机存储介质(例如计算机硬盘驱动器,例如旋转磁盘驱动器或固态驱动器)上。在一些实施方案中,文件以BAM、SAM、CRAM或VCF文件的格式存储。该文件可以包括预定分化位点的信息,例如预定分化位点所位于的染色体名称、RHCE中基于1的包含性起始位置、映射到RHCE中起始位置的RHCE读段的预期碱基序列、RHD中基于1的包含性起始位置、映射到RHD中起始位置的RHD读段的预期碱基序列、对应于RHD起始位置的RHCE区域、预定分化位点的唯一名称和/或由基因的方向给出的预定分化位点的方向。
变体调用
在一些实施方案中,本文公开的方法和系统还包括在多个预定分化位点中的预定分化位点处进行变体调用的步骤。在一些实施方案中,在接受基因转化的基因(即,RHCE基因)中的每个预定分化位点进行变体调用,其中替代等位基因是在基因转化事件的来源中观察到的碱基(即,RHD基因)。在一些实施方案中,基于在基因转化事件区域内的每个预定分化位点上观察到的基因特异性拷贝数进行杂合或纯合变体调用。
在一些实施方案中,对RHCE*CE-D(2)-CE基因转化进行变体调用。在一些实施方案中,所述变体调用包括纯合或杂合变体调用,包括在单独的预定分化位点和/或用于RHCE*CE-D(2)-CE基因转化。
在一些实施方案中,本文公开的方法和系统还包括创建包括变体调用的文件的步骤。在一些实施方案中,文件在计算机存储介质(例如计算机硬盘驱动器,例如旋转磁盘驱动器或固态驱动器)上。在一些实施方案中,文件以BAM、SAM、CRAM或VCF文件的格式存储。在一些实施方案中,文件是VCF文件。
解释RHD基因和RHCE基因的相反方向
在一些实施方案中,如图1B和图1C的图示中所描绘,RHD基因和RHCE基因是基因组内相反方向的旁系同源基因。因此,在一些实施方案中,所述方法和系统解释了RHD基因和RHCE基因的相反方向。在一些实施方案中,当计数或鉴定在预定分化位点处包括RHD-特异性碱基或RHCE-特异性碱基的序列读段时,解释了RHD基因和RHCE基因的相反方向。
例如,在图1B的实施方案中,显示了预定分化位点,其具有RHD-特异性碱基“C”(胞嘧啶)和RHCE-特异性碱基“A”(腺嘌呤)。如图1C的实施方案所示,与RHD基因比对的序列读段在预定分化位点包括C。如果在预定分化位点发生从RHD到RHCE的基因转化,则由于RHD基因和RHCE基因的相反方向,与RHCE基因比对的序列读段将预期在预定位点包括“G”(鸟嘌呤,胞嘧啶的碱基对互补),如图1C所示。
因此,在一些实施方案中,估计RHD基因和RHCE基因的多个预定分化位点中的每一个处的RHD-特异性碱基和RHCE-特异性碱基的拷贝数包括计数包括多个预定分化位点中的预定分化位点处的RHD-特异性碱基或其互补序列的序列读段,以及计数包括预定分化位点处的RHCE-特异性碱基或其互补序列的序列读段。
测序系统的实施方案
图3A示出了根据一个或多个具体实施的RHCE*CE-D(2)-CE检测系统可以在其中操作的环境的图。以下段落关于描绘示例性具体实施和实施方案的说明性附图来描述RHCE*CE-D(2)-CE检测系统。例如,图3A示出了根据一个或多个具体实施的RHCE*CE-D(2)-CE检测系统3106在其中操作的计算系统3000的示意性示图。如所例示的,计算系统3000包括经由网络3112连接到用户客户端设备3108、本地设备3118和测序设备3114的一个或多个服务器设备3102。网络3112可包括计算设备可在其上通信的任何合适的网络。
如图3A中所示,计算系统3000包括服务器设备3102。在各种具体实施中,服务器设备3102可生成、接收、分析、存储和传输电子数据,诸如用于核酸碱基调用或测序的核酸聚合物的数据。在一些具体实施中,服务器设备3102从测序设备3114接收各种数据,例如来自样品基因组和/或序列读段的数据。服务器设备3102还可与用户客户端设备3108通信。具体地,服务器设备3102可向用户客户端设备3108发送序列读段、直接核酸碱基调用、核酸碱基调用和/或测序度量的数据。
如所示,服务器设备3102包括测序应用3110。通常,测序应用3110分析从测序设备3114或其他地方接收的数据(例如调用数据),以确定核酸聚合物的核碱基序列。例如,测序应用3110可接收来自测序设备3114的原始数据并且确定样本基因组或核酸片段的核碱基序列。在一些具体实施中,测序应用3110确定DNA和/或RNA片段或寡核苷酸中核碱基的序列。
还如图所示,测序应用3110包括RHCE*CE-D(2)-CE检测系统3106。如下所述,RHCE*CE-D(2)-CE检测系统3106可以检测核酸样品中的RHCE*CE-D(2)-CE基因转化事件。例如,在一些实施方案中,RHCE*CE-D(2)-CE检测系统3106接收从核酸样品获得的序列读段。RHCE*CE-D(2)-CE检测系统3106进一步估计核酸样品中RHD基因和RHCE基因的组合拷贝数。RHCE*CE-D(2)-CE检测系统3106进一步估计RHD基因和RHCE基因的多个预定分化位点中的每一个处RHD-特异性碱基和RHCE特异性碱基的拷贝数。基于估计的RHD基因和RHCE基因的组合拷贝数以及估计的RHD-特异性碱基和RHCE-特异性碱基在多个预定分化位点的每一个处的拷贝数,RHCE*CE-D(2)-CE检测系统3106可以计算核酸样品中RHCE*CE-D(2)-CE基因转化的概率。
此外,虽然RHCE*CE-D(2)-CE检测系统3106被描述为在服务器设备3102上实施,作为测序应用3110的一部分,但是在一些具体实施中,RHCE*CE-D(2)-CE检测系统3106由用户客户端设备3108、测序设备3114和/或本地设备3118实施(例如完全或部分地定位)。如所提及的,在又一些具体实施中,RHCE*CE-D(2)-CE检测系统3106由计算系统3000的一个或多个其他部件(例如测序设备3114)实施。具体地,RHCE*CE-D(2)-CE检测系统3106可以多种不同的方式跨服务器设备3102、网络3112、用户客户端设备3108、本地设备3118和测序设备3114实施。
如图3A中进一步示出的,计算系统3000包括用户客户端设备3108。在各种具体实施中,用户客户端设备3108可以生成、存储、接收和发送数字数据。具体地,用户客户端设备3108可从测序设备3114接收数据。如进一步所示,用户客户端设备3108包括测序应用程序3110。测序应用3110可以是在用户客户端设备3108上存储和执行的网络应用或本机应用(例如,移动应用、桌面应用或网络应用)。测序应用3110可以从测序应用3110和/或RHCE*CE-D(2)-CE检测系统3106接收数据。例如,用户客户端设备3108可以从测序应用3110接收变体调用文件和/或比对文件。
测序应用3110可包括指令,这些指令(当被执行时)使得用户客户端设备3108从RHCE*CE-D(2)-CE检测系统3106接收数据并从测序设备3114和/或服务器设备3102呈现数据。此外,测序应用程序3110可指示用户客户端装置3108显示变体调用(例如核碱基调用)的数据或RHCE*CE-D(2)-CE基因转化事件的计算概率的指示。实际上,用户客户端设备3108可以显示基因组样品的核碱基调用结果和/或预测的RHCE*CE-D(2)-CE基因转化的指示。
如图3A中所示,计算系统3000包括测序设备3114。在各种具体实施中,测序设备3114对基因组样本或其他核酸聚合物进行测序。例如,测序设备3114分析从基因组样品中提取的核酸片段或寡核苷酸以在测序设备3114上直接或间接生成数据。更具体地,测序设备3114在核苷酸样本载玻片(例如,流通池)内接收并且分析从基因组样本中提取的核酸序列。在一个或多个具体实施中,测序设备3114利用SBS对基因组样本或其他核酸聚合物进行测序。作为跨网络3112进行通信的补充或替代,在一些具体实施中,测序设备3114绕过网络3112并且直接与用户客户端设备3108通信。
如图3A中进一步描述的,在一些具体实施中,服务器设备3102包括分布式服务器集合,其中服务器设备3102包括跨网络3112分布并且位于相同或不同物理位置中的许多服务器设备。例如,服务器设备3102可以全部或部分地在本地设备3118上实施。为了说明,本地设备3118可以实施测序应用3110和/或RHCE*CE-D(2)-CE检测系统3106。此外,服务器设备3102和/或本地设备3118可包括内容服务器、应用服务器、通信服务器、网络托管服务器或另一类型的服务器。
图3A中示出的用户客户端设备3108可包括各种类型的客户端设备。例如,在一些具体实施中,用户客户端设备3108包括非移动设备,诸如台式计算机或服务器,或其他类型的客户端设备。在各种具体实施中,用户客户端设备3108包括移动设备,诸如膝上型电脑、平板电脑、移动电话或智能电话。
尽管图3A示出了计算系统3000的经由网络3112进行通信的部件,但是在某些具体实施中,计算系统3000的部件也可绕过网络3112彼此直接通信。例如,在一些具体实施中,用户客户端设备3108直接与测序设备3114通信。另外,在一些具体实施中,用户客户端设备3108直接与RHCE*CE-D(2)-CE检测系统3106和/或服务器设备3102通信。在一些具体实施中,用户客户端设备3108直接与本地设备3118通信。此外,RHCE*CE-D(2)-CE检测系统3106可访问被容纳在服务器设备3102或计算系统3000中的其他地方上或由该服务器设备或该计算系统中的其他地方访问的一个或多个数据库。
图3B是可以结合图3A的说明性测序系统3000使用的示例性服务器设备3102的框图。服务器设备3102可以被配置为检测核酸样品中的RHCE*CE-D(2)-CE基因转化。图3B所描绘的服务器设备3102的一般架构包括计算机硬件和软件部件的布置。服务器设备3102可包括比图3B所示的那些更多(或更少)的元件。然而,为了提供能够实现的公开内容,没有必要示出所有这些一般常规的元件。如图所示,服务器设备3102包括处理单元310、网络接口320、计算机可读介质驱动器330、输入/输出设备接口340、显示器350和输入设备360,所有这些元件都可通过通信总线彼此通信。网络接口320可提供与一个或多个网络或计算系统的连接。因此,处理单元310可经由网络从其他计算系统或服务接收信息和指令。处理单元310还可经由输入/输出设备接口340与存储器370进行通信,并且还为任选的显示器350提供输出信息。输入/输出设备接口340还可接受来自任选的输入设备360(诸如键盘、鼠标、数字笔、麦克风、触摸屏、手势识别系统、语音识别系统、游戏板、加速度计、陀螺仪或其他输入设备)的输入。
存储器370可包含处理单元310执行以便实施一个或多个实施方案的计算机程序指令(在一些实施方案中被分组为模块或部件)。存储器370通常包括RAM、ROM和/或其他持久性、辅助或非暂态计算机可读介质。存储器370可存储操作系统372,该操作系统提供计算机程序指令以供处理单元310在计算设备3102的一般管理和操作中使用。存储器370可存储参考基因组373,例如供测序应用程序3110使用。存储器370还可包括用于实现本公开的各方面的计算机程序指令和其他信息。
例如,在一个实施方案中,存储器370包括测序应用3110,其可包括RHCE*CE-D(2)-CE检测系统3106。RHCE*CE-D(2)-CE检测系统3106可执行本文公开的方法。另外,存储器370可包括数据存储器390和/或一个或多个其他数据存储器或与其通信,所述一个或多个其他数据存储器存储检测本公开的核酸样品中的RHCE*CE-D(2)-CE基因转化的一个或多个输入、一个或多个输出和/或一个或多个结果(包括中间结果)、这样的测序读段、确定的候选单倍型和确定的变体调用(例如,RHCE*CE-D(2)-CE基因转化的检测)。
在一些实施方案中,本发明所公开的系统和方法可以涉及用于将某些序列数据分析特征和序列数据存储信息转移或分布到云计算环境或基于云的网络的方法。与测序数据、基因组数据或其他类型的生物数据的用户相互作用可以经由中心集线器介导,该中心集线器存储和控制对与数据的各种交互的访问。在一些实施方案中,云计算环境还可以提供医疗方案(protocol)、分析方法、文库、序列数据以及用于测序、分析和报告的分布式处理的共享。在一些实施方案中,云计算环境有助于用户对序列数据进行修改或注释。在一些实施方案中,所述系统和方法可在计算机浏览器中、按需或在线实现。
在一些实施方案中,为执行如本文所述的方法而编写的软件存储在某种形式的计算机可读介质中,诸如存储器、CD-ROM、DVD-ROM、记忆棒、闪存驱动器、硬盘驱动器、SSD硬盘驱动器、服务器、大型机存储系统等。
在一些实施方案中,所述方法可用各种合适的编程语言中的任一种编程语言编写,例如诸如C、C#、C++、Fortran和Java之类的编译语言。其他编程语言可以是脚本语言,诸如Perl、MatLab、SAS、SPSS、Python、Ruby、Pascal、Delphi、R和PHP。在一些实施方案中,所述方法用C、C#、C++、Fortran、Java、Perl、R、Java或Python编写。在一些实施方案中,该方法可为具有数据输入和数据显示模块的独立应用程序。另选地,该方法可为计算机软件产品并且可包括这样的类,其中分布式对象包括含如本文所述的计算方法的应用程序。
在一些实施方案中,所述方法可结合到既有数据分析软件(诸如在测序仪器上发现的数据分析软件)中。包括如本文所述的计算机的实现的方法的软件直接安装到计算机系统上,或者间接保持在计算机可读介质上并且根据需要装载到计算机系统上。此外,所述方法可以位于远离产生数据的位置的计算机上,诸如在相对于产生数据的位置保持在另一个位置中的服务器等上发现的软件(诸如由第三方服务提供商提供)。
测定仪器、台式计算机、膝上型计算机或服务器可包含与可访问存储器操作性通信的处理器,该可访问存储器包含用于实现系统和方法的指令。在一些实施方案中,台式计算机或膝上型计算机与一个或多个计算机可读存储介质或设备和/或输出设备操作地通信。测定仪器、台式计算机和膝上型计算机可以在许多不同的基于计算机的操作语言下操作,诸如由基于Apple的计算机系统或基于PC的计算机系统使用的操作语言。测定仪器、台式计算机和/或膝上型计算机和/或服务器系统还可以提供用于创建或修改实验定义和/或条件、查看数据结果和监测实验进程的计算机接口。在一些实施方案中,输出设备可以是图形用户界面,诸如计算机监视器或计算机屏幕、打印机、手持式设备诸如个人数字助理(即,PDA、Blackberry、iPhone)、平板计算机(例如,iPAD)、硬盘驱动器、服务器、记忆棒、闪存驱动器等。
计算机可读存储设备或介质可为诸如服务器、大型机、超级计算机、磁带系统等的任何设备。在一些实施方案中,存储设备可以位于接近测定仪器的位置的场地,例如邻近或紧邻测定仪器。例如,相对于测定仪器,存储设备可以位于同一房间中、同一建筑物中、相邻建筑物中、一个建筑物中的相同楼层上、一个建筑物中的不同楼层上等。在一些实施方案中,存储设备可以位于测定仪器场地之外或远离测定仪器的地方。例如,相对于测定仪器,存储设备可以位于一个城市的不同部分、不同城市、不同州、不同国家等。在存储设备位于远离测定仪器的地方的实施方案中,测定仪器与台式计算机、膝上型计算机或服务器中的一者或多者之间的通信通常是通过互联网连接(以无线方式或通过接入点利用网络电缆)。在一些实施方案中,存储设备可由与测定仪器直接相关联的个人或实体维护和管理,而在其他实施方案中,存储设备可由第三方维护和管理,通常在远端与测定仪器相关联的个人或实体的位置。在如本文所述的实施方案中,输出设备可以是用于可视化数据的任何设备。
测定仪器、台式计算机、膝上型计算机和/或服务器系统本身可以用于存储和/或检索包括用于执行和实现如本文所述的计算方法的计算机代码的计算机实现的软件程序、用于在实现计算方法时使用的数据等。测定仪器、台式计算机、膝上型计算机和/或服务器中一者或多者可以包括一个或多个计算机可读存储介质,该一个或多个计算机可读存储介质用于存储和/或检索包括用于执行和实现如本文所述的计算方法的计算机代码的计算机实现的软件程序、用于在实现计算方法时使用的数据等。计算机可读存储介质可以包括但不限于硬盘驱动器、SSD硬盘驱动器、CD-ROM驱动器、DVD-ROM驱动器、软盘、磁带、闪存棒或卡等中的一种或多种。此外,包括互联网的网络可以是计算机可读存储介质。在一些实施方案中,计算机可读存储介质是指可由计算机网络通过互联网或服务提供商提供的公司网络访问,而不是例如从远离测定仪器的位置处的本地台式计算机或膝上型计算机访问的计算资源存储装置。
在一些实施方案中,用于存储和/或检索包含用于执行和实现如本文所述的计算方法的计算机代码的计算机实现的软件程序、用于在实现计算方法时使用的数据等的计算机可读存储介质由通过互联网连接或网络连接与测定仪器、台式计算机、膝上型计算机和/或服务器系统操作地通信的服务提供商操作和维护。
在一些实施方案中,用于提供计算环境的硬件平台包括处理器(即,CPU),其中处理器时间和诸如随机存取存储器(即,RAM)的存储器布局是系统考虑因素。例如,较小的计算机系统提供便宜、快速的处理器以及大的存储器和存储能力。在一些实施方案中,可以使用图形处理单元(GPU)。在一些实施方案中,用于执行如本文所述的计算方法的硬件平台包括具有一个或多个处理器的一个或多个计算机系统。在一些实施方案中,较小的计算机被群集在一起以产生超级计算机网络。
在一些实施方案中,如本文所述的计算方法在相互连接或内部连接的计算机系统的集合(即,网格技术)上执行,这些计算机系统可以协调方式运行各种操作系统。例如,CONDOR框架(威斯康星大学麦迪逊分校)和通过United Devices可获得的系统是为了处理大量数据的目的而协调多个独立计算机系统的示例。这些系统可以提供Perl接口,以通过串行或并行的配置在群集上提交、监控和管理大型序列分析作业。
实施例
以上讨论的实施方案的一些方面在以下实施例中进一步详细公开,这些实施方案并非旨在以任何方式限制本公开的范围。本领域技术人员将理解,许多其他实施方案也落入本公开的范围内,如本文以上和权利要求中所述。
实施例1
将RHD基因和RHCE基因的参考基因组序列彼此比对,并选择在两个基因序列之间具有单个碱基差异的所有位点。存储RHD基因和RHCE基因中的这些分化位点的位置。
在称为1000基因组项目的项目中使用测序对来自约3200个个体的不同群体群组的核酸样品进行概况分析。来自核苷酸样品的短序列读段用于确定RHD和RHCE之间的每个单碱基差异是否在群体中固定。为此,选择对于RHD+RHCE具有估计的组合拷贝数为4的样品子集以限制于没有拷贝数变化的那些样品。如果RHD和RHCE之间差异位点的显著部分(10%或更多)具有支持RHD-特异性碱基(RHD等位基因)和RHCE-特异性碱基(RHCE等位基因)的读段比例与样品具有每个基因的两个拷贝的假设(二倍体假设)不一致,则过滤出另一组样品。该步骤排除了其中二倍体假设对于任一基因不成立的样品,或具有大基因转化事件的那些样品。
使用过滤样品的子集,基于位点具有支持RHD等位基因或RHCE等位基因的读段比例的一致性,过滤在RHD基因和RHCE基因之间具有差异的每个位点,所述读段比例与所选样品组中每个基因的两个拷贝一致。如果至少98%的群体样品具有相似比例的支持RHD等位基因和RHCE等位基因的读段,则选择位点作为“固定分化位点”。如果不满足这些比例,则将该位点从固定分化位点列表中排除。从RHCE和RHD基因确定793个分化位点,它们是在群体中发现固定的RHCE和RHD的同源区域中的单碱基对差异(在超过98%的群体中出现)。
实施例2
将与来自HG002参考基因组的RHCE或RHD基因比对的序列读段作为输入。RHCE和RHD基因两者的组合拷贝数从RH基因区域中比对的读段的读段深度估计,用3000个归一化区域的读段深度归一化。
提供包括群体中位于RHCE*CE-D(2)-CE断裂点位点侧面的两对分化位点的文件和包括RHCE*CE-D(2)-CE变体的潜在单倍型的文件作为输入。对于RHCE*CE-D(2)-CE基因转化事件鉴定了两个断点,其相应的分化位点对于第一个断点位于chr1:25405587和chr1:25405596(hg38)的位置和对于第二个断点位于chr1:25409676和chr1:25409958(hg38)的位置。
候选单倍型通过一系列延伸步骤形成,所述延伸步骤使用与基因和其旁系同源基因之间的预定分化位点重叠的所有读段,以及从RHCE和RHD基因的组合拷贝数获得的单倍型总数。从第一预定分化位点的所有可能碱基形成一组候选单倍型。然后通过考虑可唯一分配给单一候选单倍型的所有读段,在下一个分化位点延伸单倍型。如果这些读段仅支持给定候选单倍型的下一个分化位点处的单个碱基,则用该碱基延伸单倍型。当候选单倍型可以在下一个分化位点延伸两个碱基时,则两个可能的延伸单倍型都被包括在候选单倍型的集合中,使该集合以1生长。随后的延伸步骤在相邻的预定分化位点进行,直到所有预定分化位点被加工。
为了检测RHCE*CE-D(2)-CE重组变体,鉴定了在第一断点支持重组变体的单倍型和在第二断点附近支持重组变体的单倍型。因为两种鉴定的候选单倍型都在断点处支持重组变体,所以检测到RHCE*CE-D(2)-CE重组变体。
在检测到RHCE*CE-D(2)-CE基因转化后,基于在预定分化位点处含有RHCE-特异性碱基的读段的数目来评估基因转化区中包括的预定分化位点的拷贝数。如果预定分化位点具有估计的RHCE拷贝数0,则对于该预定分化位点调用纯合变体。如果预定分化位点具有估计的RHCE拷贝数1,则对于该预定分化位点调用杂合变体。保存包括变体调用的VCF格式的文件。
将包括由该实施例中描述的方法产生的变体调用以及来自其他通用变体调用方法的变体调用的VCF格式化文件与“真实VCF”文件进行比较,该“真实VCF”文件包括被假定为是HG002样本的最代表性的变体调用。还将“真实VCF”文件与使用对RHCE*CE-D(2)-CE基因转化不特异的变体调用方法产生的变体调用文件进行比较。如图4所示,实施用于检测RHCE*CE-D(2)-CE基因转化的系统和方法的具体实施减少了66个假阴性变体调用,这意味着66个额外的SNP被准确地称为变体。
其它考虑
本文描述的实施方案是示例性的。可以对这些实施方案进行修改、重新布置、替代加工等,这些仍然涵盖在本文阐述的教导内容之中。本文描述的步骤、过程或方法中的一者或多者可以由适当编程的一个或多个处理装置和/或数字装置来执行。
结合本文公开的实施方案描述的各种例示性成像或数据处理技术可以实现为电子硬件、计算机软件或两者的组合。为了说明硬件和软件的这种可互换性,各种例示性的部件、块、模块和步骤已经在上文总体上就其功能性进行了描述。将此功能性实施为硬件还是软件取决于特定应用和强加于整个系统的设计约束。所描述的功能性可以针对每个特定应用以不同方式实施,但此类实施决策不应被解释为导致脱离本公开的范围。
结合本文所公开的实施方案描述的各种例示性检测系统可以由被设计成执行本文所述功能的机器实现或执行,该机器诸如配置有具体指令的处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑器件、离散栅极或晶体管逻辑部件、分立硬件部件,或它们的任何组合。处理器可以是微处理器,但在替代方案中,处理器可以是控制器、微控制器或状态机、它们的组合等。处理器也可以被实现为计算装置的组合,例如,DSP和微处理器的组合、多个微处理器、与DSP内核结合的一个或多个微处理器,或任何其他这种配置。例如,本文描述的系统可以使用分立存储器芯片、微处理器中的存储器的一部分、闪存、EPROM或其他类型的存储器来实现。
结合本文所公开的实施方案描述的方法、过程或算法的要素可以直接实施于硬件中、由处理器执行的软件模块中,或这两者的组合中。软件模块可以驻留在RAM存储器、闪存存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM,或本领域中已知的任何其他形式的计算机可读存储介质中。示例性存储介质可以耦合到处理器,使得处理器可以从该存储介质读取信息并将信息写入到其中。在替代方案中,存储介质可以与处理器成一整体。处理器和存储介质可以驻留在ASIC中。软件模块可以包括使硬件处理器执行计算机可执行指令的计算机可执行指令。
除非另外特别说明或者在使用的上下文中以其他方式理解,否则本文所使用的条件语言诸如“能够”、“可能”、“可以”、“例如”等通常旨在传达某些实施方案包括、而其他实施方案不包括某些特征、要素和/或状态。因此,这种条件语言通常并不旨在暗示特征、要素和/或状态以任何方式对于一个或多个实施方案是必须的,也不旨在暗示一个或多个实施方案必然包括用于在有或没有作者输入或提示的情况下决定这些特征、要素和/或状态是否包括在任何特定实施方案中或要在任何特定实施方案中执行的逻辑。术语“包括”、“包含”、“具有”、“涉及”等是同义词,以开放的方式包含性地使用,而且不排除附加的要素、特征、动作、操作,诸如此类。而且,术语“或”以其包含的意义(而不是以其排他的意义)使用,使得当例如用于连接要素的清单时,术语“或”意指该清单中的要素中的一个、一些或全部。
除非另外特别说明或者在通常用于表示某个项目、术语等的上下文中以其他方式理解,否则析取性语言诸如短语“X、Y或Z中的至少一者”可以是X、Y或Z,或者它们的任何组合(例如,X、Y和/或Z)。因此,此类析取性语言通常并不旨在且不应暗示某些实施方案需要X中的至少一者、Y中的至少一者或Z中的至少一者各自都存在。
术语“约”或“近似”等是同义词,用于指示由该术语修饰的值具有与其相关联的理解范围,其中该范围可以是±20%、±15%、±10%、±5%或±1%。术语“基本上”用于表示结果(例如,测量值)接近目标值,其中“接近”可以意指例如结果在该值的80%内、在该值的90%内、在该值的95%内,或在该值的99%内。
除非另外明确说明,否则诸如“一个”或“一种”的冠词通常应当被解释为包括一个或多个所描述的项目。因此,短语诸如“一种装置,其被配置为”或“一种装置,其用于”旨在包括一个或多个所记载的装置。此类一个或多个所述设备还可以被共同配置为执行所述表述。例如,“用于执行表述A、B和C的处理器”可以包括被配置为执行表述A并且与被配置为执行表述B和表述C的第二处理器协同工作的第一处理器。
虽然以上的详细描述已展示、描述并指出应用于例示性实施方案的新颖特征,但是应当理解,可以在不脱离本公开实质的情况下,对举例说明的装置或算法的形式和细节作出各种省略、替代和改变。如将认识到的,本文描述的某些实施方案可以在并没有提供本文阐述的所有特征和益处的形式内体现,因为一些特征可以与其他特征分开使用或实践。在各项权利要求的等效含义和范围内的所有改变都将包含在其范围内。
应当理解,前述概念(假设此类概念不相互矛盾)的所有组合都被设想为是本文公开的发明主题的一部分。具体地,出现在本公开末尾的要求保护的主题的所有组合都被设想为是本文所公开的发明主题的一部分。
本公开的范围不旨在受本章节中或本说明书中其他地方的示例的具体公开内容的限制,并且可以由本章节中或本说明书中其他地方呈现的或将来呈现的权利要求限定。权利要求的语言应基于权利要求中采用的语言而广泛地解释,并且不限于本说明书中或在申请的审查期间描述的示例,这些示例应被理解为非排他性的。

Claims (22)

1.一种检测核酸样品中的RHCE*CE-D(2)-CE基因转化事件的计算机实施的方法,所述方法包括:
接收与RHD基因或RHCE基因比对的序列读段;
估计所述核酸样品中RHD基因和RHCE基因的组合拷贝数;
估计在所述RHD基因和所述RHCE基因的多个预定分化位点的每一个处的RHD-特异性碱基和RHCE-特异性碱基的拷贝数;以及
基于所述估计的所述RHD基因和所述RHCE基因的组合拷贝数以及所述估计的在所述多个预定分化位点的每一个处的所述RHD-特异性碱基和所述RHCE-特异性碱基的拷贝数,计算所述核酸样品中RHCE*CE-D(2)-CE基因转化的概率。
2.根据权利要求1所述的方法,其中所述RHCE*CE-D(2)-CE基因转化产生第一断点,并且其中所述多个预定分化位点包括至少两个位于所述第一断点侧面的预定分化位点。
3.根据权利要求2所述的方法,其中所述方法还包括鉴定一个或多个序列读段,所述序列读段涵盖所述第一断点并且包括位于所述第一断点侧面的第一预定分化位点处的RHD-特异性碱基和位于所述第一断点侧面的第二预定分化位点处的RHCE-特异性碱基。
4.根据权利要求3所述的方法,其中所述RHCE*CE-D(2)-CE基因转化产生第二断点,其中所述多个预定分化位点包括至少两个位于所述第二断点侧面的预定分化位点,并且其中所述方法还包括鉴定一个或多个序列读段,所述序列读段涵盖所述第二断点并且包括位于所述第二断点侧面的第一预定分化位点处的RHD-特异性碱基和位于所述第二断点侧面的第二预定分化位点处的RHCE-特异性碱基。
5.根据权利要求1所述的方法,其中估计在所述RHD基因和RHCE基因的多个预定分化位点的每一个处的RHD-特异性碱基和RHCE-特异性碱基的拷贝数包括计数包括在所述多个预定分化位点中的预定分化位点处的RHD-特异性碱基的序列读段,以及计数包括在所述预定分化位点处的RHCE-特异性碱基的序列读段。
6.根据权利要求5所述的方法,其中计算RHCE*CE-D(2)-CE基因转化的概率包括基于包含所述预定分化位点处的RHD-特异性或RHCE-特异性碱基的序列读段的比例乘以估计的所述RHD基因和所述RHCE基因的组合拷贝数来估计所述多个预定分化位点中每个预定分化位点处的基因特异性拷贝数。
7.根据权利要求6所述的方法,其中计算RHCE*CE-D(2)-CE基因转化的概率包括检测连续预定分化位点中所述基因特异性拷贝数的变化。
8.根据权利要求1或权利要求2所述的方法,其中估计所述RHD基因和所述RHCE基因的组合拷贝数包括计数与所述RHD基因或所述RHCE基因比对的序列读段。
9.根据权利要求8所述的方法,其中估计所述组合拷贝数包括将与所述RHD基因或所述RHCE基因比对的所述序列读段的所述计数归一化并应用高斯混合模型。
10.根据前述权利要求中任一项所述的方法,其中所述方法解释了所述RHD基因和所述RHCE基因的相反方向。
11.根据前述权利要求中任一项所述的方法,其中所述多个预定分化位点通过包括以下步骤的方法鉴定:
鉴定参考序列中所述RHD基因和所述RHCE基因序列之间的单碱基差异,以及
选择在群体中固定的单碱基差异作为分化位点。
12.根据权利要求11所述的方法,其中选择在群体中固定的单碱基差异作为分化位点,包括:
对于多个核酸样品,接收与所述RHD基因和所述RHCE基因比对的多个序列读段,
对于所述多个核酸样品中的每一个,估计所述RHD基因的基因特异性拷贝数和所述RHCE基因的拷贝数,
选择所述多个核酸样品中的核酸样品子集,其中所述核酸样品子集包含估计为所述RHD基因的二倍体和所述RHCE基因的二倍体的核酸样品,并且
在所述核酸样品子集的至少90%的所述核酸样品中选择具有与所述RHD基因和所述RHCE基因的二倍体一致的拷贝数的单碱基差异。
13.根据前述权利要求中任一项所述的方法,其中所述方法还包括构建一种或多种候选单倍型。
14.根据权利要求13所述的方法,其中所述一种或多种候选单倍型覆盖RHCE*CE-D(2)-CE基因转化的断点区。
15.根据权利要求13所述的方法,其中构建一种或多种候选单倍型包括使用与所述RHD基因或所述RHCE基因比对的序列读段将所述预定分化位点定相。
16.根据权利要求15所述的方法,其中对所述预定分化位点定相包括:
在第一预定分化位点基于所有测序的碱基构建一种或多种候选单倍型,并且
通过比对所述RHD基因或所述RHCE基因的序列读段,将所述一种或多种候选单倍型延伸至第二预定分化位点。
17.根据权利要求16所述的方法,其中所述第一和第二预定分化位点位于RHCE*CE-D(2)-CE基因转化断点的侧面。
18.根据前述权利要求中任一项所述的方法,所述方法还包括在所述多个预定分化位点中的预定分化位点处进行变体调用。
19.根据前述权利要求中任一项所述的方法,所述方法还包括进行所述RHCE*CE-D(2)-CE基因转化的变体调用。
20.根据权利要求18或权利要求19所述的方法,其中所述变体调用包括纯合或杂合变体调用。
21.根据前述权利要求中任一项所述的方法,所述方法还包括创建包括变体调用的文件。
22.根据前述权利要求中任一项所述的方法,其中所述预定分化位点包括对应于选自参考基因组hg38的chr1:25405587、chr1:25405596、chr1:25409676或chr1:25409958的位置的位点。
CN202380043232.2A 2022-06-07 2023-06-05 用于鉴定基因变体的方法和系统 Pending CN119301684A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202263349993P 2022-06-07 2022-06-07
US63/349993 2022-06-07
PCT/US2023/024465 WO2023239660A1 (en) 2022-06-07 2023-06-05 Methods and systems for identifying gene variants

Publications (1)

Publication Number Publication Date
CN119301684A true CN119301684A (zh) 2025-01-10

Family

ID=87060570

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202380043232.2A Pending CN119301684A (zh) 2022-06-07 2023-06-05 用于鉴定基因变体的方法和系统

Country Status (8)

Country Link
US (1) US20250259701A1 (zh)
EP (1) EP4537338A1 (zh)
JP (1) JP2025522368A (zh)
KR (1) KR20250020489A (zh)
CN (1) CN119301684A (zh)
CA (1) CA3258076A1 (zh)
IL (1) IL317411A (zh)
WO (1) WO2023239660A1 (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5432272A (en) 1990-10-09 1995-07-11 Benner; Steven A. Method for incorporating into a DNA or RNA oligonucleotide using nucleotides bearing heterocyclic bases
DE637965T1 (de) 1991-11-26 1995-12-14 Gilead Sciences Inc Gesteigerte bildung von triple- und doppelhelices aus oligomeren mit modifizierten pyrimidinen.
DE69403642T2 (de) 1993-03-30 1998-01-08 Sanofi Sa 7-deazapurin modifizierte oligonukleotide
EP0695306A1 (en) 1993-04-19 1996-02-07 Gilead Sciences, Inc. Enhanced triple-helix and double-helix formation with oligomers containing modified purines
US6150510A (en) 1995-11-06 2000-11-21 Aventis Pharma Deutschland Gmbh Modified oligonucleotides, their preparation and their use

Also Published As

Publication number Publication date
CA3258076A1 (en) 2023-12-14
US20250259701A1 (en) 2025-08-14
WO2023239660A1 (en) 2023-12-14
KR20250020489A (ko) 2025-02-11
JP2025522368A (ja) 2025-07-15
IL317411A (en) 2025-02-01
EP4537338A1 (en) 2025-04-16

Similar Documents

Publication Publication Date Title
JP6854272B2 (ja) 遺伝子の変異の非侵襲的な評価のための方法および処理
JP6971845B2 (ja) 遺伝子の変動の非侵襲的評価のための方法および処理
JP2021035393A (ja) 染色体提示の決定
JP2017073144A (ja) 遺伝的変異の非侵襲的評価のための方法およびプロセス
JP2023516633A (ja) メチル化シークエンシングデータを使用したバリアントをコールするためのシステムおよび方法
JP2025526252A (ja) 組換え事象を検出するための方法及びシステム
US20250246265A1 (en) Methods and systems for determining copy number variant genotypes
WO2024249253A1 (en) Detecting tandem repeats and determining copy numbers thereof
EP4595057A1 (en) Detecting and genotyping variable number tandem repeats
US20250259701A1 (en) Methods and systems for identifying gene variants
WO2025072047A1 (en) Methods and systems for determining a cyp2a6 genotype
WO2025072468A1 (en) Methods and systems for estimating copy numbers and detecting variants
US20220068433A1 (en) Computational detection of copy number variation at a locus in the absence of direct measurement of the locus
US20240141422A1 (en) Methods and systems for variant calling using unique k-mers
WO2025250322A1 (en) Genotyping for tandem repeats
HK40093249A (zh) 非侵入性评估遗传变异的方法和过程

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination