[go: up one dir, main page]

CN114026646A - 用于评估肿瘤分数的系统和方法 - Google Patents

用于评估肿瘤分数的系统和方法 Download PDF

Info

Publication number
CN114026646A
CN114026646A CN202080037877.1A CN202080037877A CN114026646A CN 114026646 A CN114026646 A CN 114026646A CN 202080037877 A CN202080037877 A CN 202080037877A CN 114026646 A CN114026646 A CN 114026646A
Authority
CN
China
Prior art keywords
tumor
sample
allele
coverage
locus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080037877.1A
Other languages
English (en)
Inventor
伯纳德·芬德勒
杰森·D·休斯
史蒂文·罗尔斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Foundation Medical Co
Original Assignee
Foundation Medical Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Foundation Medical Co filed Critical Foundation Medical Co
Publication of CN114026646A publication Critical patent/CN114026646A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/112Disease subtyping, staging or classification
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Genetics & Genomics (AREA)
  • Analytical Chemistry (AREA)
  • Organic Chemistry (AREA)
  • Data Mining & Analysis (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Pathology (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Immunology (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Oncology (AREA)
  • General Engineering & Computer Science (AREA)
  • Hospice & Palliative Care (AREA)
  • Biomedical Technology (AREA)
  • Primary Health Care (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本文至少部分地公开了确定来自受试者的样品的肿瘤分数的方法。所述方法可包括,例如,获取与所述样品中的亚基因组间隔相关联的目标变量的值;根据所述目标变量来确定确定性度量;存取存储的确定性度量与存储的肿瘤分数之间的经确定的关系;以及参考所述确定性度量和所述经确定的关系,确定所述样品的所述肿瘤分数。

Description

用于评估肿瘤分数的系统和方法
相关专利申请的交叉引用
本申请要求于2019年5月20日提交的美国临时专利申请序列号62/850,474的优先权权益,该美国临时专利申请的内容全文以引用方式并入本文。
背景技术
癌细胞在癌症发展和进展过程中发生突变累积效应。这些突变可能为DNA修复、复制或修饰过程出现内在故障或暴露于外部诱变剂的结果。某些突变赋予癌细胞生长优势,并在癌症发生的组织的微环境中被积极选择。然而,将基因组研究转化为常规临床实践仍然费钱、耗时且具有技术挑战。
因此,仍然需要开发用于分析与癌症相关联的样品的新方法(包括基因组分析)。
发明内容
本文所述的方法和系统允许评估样品、活体组织切片或受试者中的肿瘤分数水平。通常,肿瘤分数表达或测量为样品中衍生自肿瘤的DNA相对于样品中的参考(例如非肿瘤DNA或所有DNA)的水平或比例。在本文所述的方法中,获得样品的确定性度量值,并且可根据参考来评估该值,例如,通过与参考进行比较。确定性度量本身可为反映亚基因组间隔处的等位基因水平的目标变量的函数。目标变量可包括作为等位基因分数的函数的变量,以及作为亚基因组间隔读数的函数的变量。
在一些实施例中,目标变量的值是从样品中获取(例如直接获取)的。通常,与样品的确定性度量相比较的参考为一个确定性度量值(或多个确定性度量值),其与肿瘤分数的水平相关联(例如相关)。并入参考的确定性度量值可基于,例如,样品内(例如,对于异源亚基因组间隔处的等位基因,该确定性度量值为0.5)或样品外部(例如,由一个或多个其他受试者制成的标准曲线)的实体或关系。
在一些示例中,目标变量可为一个或多个亚基因组间隔处的等位基因分数。目标变量的其他示例包括像log2比率这样的变量,其为一个或多个亚基因组间隔处的读数的数量的函数。通常,分析多个亚基因组间隔(例如,10个、20个、30个、40个、50个、60个、70个、80个、90个、100个、150个、200个、250个、300个或更多个亚基因组间隔)以确定肿瘤分数。所述多个亚基因组间隔可存在于同一染色体或不同染色体上(例如,分布在2条、3条、4条、5条、6条、7条、8条、9条、10条、11条、12条、13条、14条、15条、16条、17条、18条、19条、20条、21条、22条或更多条染色体中)。在一个实施例中,所述多个亚基因组间隔的至少一部分为杂合的(就亚基因组间隔处的等位基因而言)。
在一个实施例中,将来自受试者的样品的确定性度量与将确定性度量与肿瘤分数相关联的曲线进行比较,并且获得样品肿瘤分数值。
在一个实施例中,确定性度量为目标变量(例如等位基因分数)的函数。举例而言,确定性度量可与所观察到的等位基因分数偏离参考(例如,预期等位基因分数或log2比率)的程度相关,并与与肿瘤分数水平相关联的参考进行比较。在其他示例中,确定性度量可测量目标变量的相对确定性,例如本文所述的熵度量。
因此,本文所述的方法包括评估(例如,估计)样品的肿瘤分数的方法。此类方法包括,例如:
获得样品的目标变量的值;
获得参考值(例如确定性度量)作为目标变量的函数;以及
将样品值与参考值进行比较以获得样品的肿瘤分数值。
在一些实施例中,确定来自受试者的样品的肿瘤分数的方法包括:获取多个值,每个值指示样品中的亚基因组间隔内的相应基因座处的等位基因分数;确定指示所述多个值的离散度的确定性度量;存取一个或多个存储的确定性度量与一个或多个存储的肿瘤分数之间的预定关系;以及根据确定性度量和预定关系来确定样品的肿瘤分数。
在一些实施例中,所述多个值内的每个值为等位基因分数。在一些实施例中,所述多个值内的每个值包括母系等位基因与父系等位基因之间的丰度的差值相对于母系等位基因或父系等位基因在相应基因座处的丰度的比率。在一些实施例中,确定性度量指示所述多个值中的每一者与预期值的偏差。在一些实施例中,预期值为基因座特异性预期值。
在一些实施例中,确定性度量为与预期值的均方根偏差。在一些实施例中,预期值为非肿瘤样品的预期等位基因频率。在一些实施例中,所述多个值内的每个值为和等位基因分数,并且预期值为0.5。
在一些实施例中,所述多个值内的每个值为母系等位基因与父系等位基因之间的丰度的差值相对于母系等位基因或父系等位基因在相应基因座处的丰度的比率,并且预期值包括母系等位基因与父系等位基因之间的丰度的差值相对于母系等位基因或父系等位基因的丰度的预期比率,其中预期值为非肿瘤样品的预期比率。在一些实施例中,预期值为0。
在一些实施例中,所述多个值包括多个等位基因覆盖度。
在一些实施例中,该方法进一步包括确定所述多个值的概率分布函数;其中使用概率分布函数来确定确定性度量。在一些实施例中,确定性度量为概率分布函数的熵。
在一些实施例中,相应基因座包括一个或多个具有不同母系等位基因和父系等位基因的基因座。在一些实施例中,相应基因座由具有不同母系等位基因和父系等位基因的基因座组成。在一些实施例中,相应基因座包括一个或多个具有相同母系等位基因和父系等位基因的基因座。
在一些实施例中,确定来自受试者的样品的肿瘤分数的方法包括:获取多个值,每个值指示在亚基因组间隔内的多个基因座处,肿瘤样品中的基因座的等位基因覆盖度与非肿瘤样品中的相同基因座的等位基因覆盖度之间的差值;确定指示所述多个值的离散度的确定性度量;存取一个或多个存储的确定性度量与一个或多个存储的肿瘤分数之间的预定关系;以及根据确定性度量和预定关系来确定样品的肿瘤分数。
在一些实施例中,所述多个值内的每个值包括肿瘤样品中的基因座的等位基因覆盖度相比于非肿瘤样品中的相同基因座的等位基因覆盖度的比率。
在一些实施例中,所述多个值内的每个值包括肿瘤样品中的基因座的等位基因覆盖度相比于非肿瘤样品中的相同基因座的等位基因覆盖度的对数比。在一些实施例中,对数比为log2比率。
在一些实施例中,所述多个值内的每个值包括肿瘤样品中的基因座与非肿瘤样品中的相同基因座的等位基因覆盖度的差值相对于非肿瘤样品中的相同基因座的等位基因覆盖度的比率。
在一些实施例中,确定性度量指示所述多个值内的每个值与跨相应基因座的预期值的偏差,其中预期值为如果肿瘤样品是非肿瘤样品时将被预期的值。
在一些实施例中,每个值包括肿瘤样品中的基因座的等位基因覆盖度相比于非肿瘤样品中的相同基因座的等位基因覆盖度的比率,并且预期值为1;每个值包括肿瘤样品中的基因座的等位基因覆盖度相比于非肿瘤样品中的相同基因座的等位基因覆盖度的对数比,并且预期值为0;或者每个值包括肿瘤样品中的基因座与非肿瘤样品中的相同基因座的等位基因覆盖度的差值相对于非肿瘤样品中的相同基因座的等位基因覆盖度的比率,并且预期值为0。
在一些实施例中,确定性度量为与预期值的均方根偏差。
在一些实施例中,该方法进一步包括确定所述多个值的概率分布函数;其中使用概率分布函数来确定确定性度量。在一些实施例中,确定性度量为概率分布函数的熵。
在一些实施例中,等位基因覆盖度包括母系等位基因和父系等位基因的等位基因覆盖度。
在一些实施例中,等位基因覆盖度由母系等位基因和父系等位基因的等位基因覆盖度组成。
在上述方法的一些实施例中,所述多个基因座包含至少一个与单核苷酸多态性(SNP)相关联的核苷酸。在一些实施例中,所述多个基因座包含两个或更多个核苷酸,每个核苷酸均与单核苷酸多态性(SNP)相关联。在一些实施例中,SNP与癌症相关联。
在上述方法的一些实施例中,所述多个基因座的至少一部分与拷贝数变异(CNV)相关联。在一些实施例中,CNV与癌症相关联。
在上述方法的一些实施例中,该方法进一步包括对样品进行测序,以确定每个基因座处的等位基因丰度或覆盖度。
在上述方法的一些实施例中,该方法进一步包括对样品执行阵列杂交,以确定每个基因座处的等位基因丰度或覆盖度。
在上述方法的一些实施例中,该方法进一步包括:存取训练数据集,该训练数据集包括多个训练确定性度量与相关联的训练肿瘤分数之间的多个关系;以及将机器学习过程应用于训练数据集,以确定训练确定性度量与训练肿瘤分数之间的预定关系。
在上述方法的一些实施例中,该方法进一步包括生成报告,该报告包括识别受试者的信息和经确定的肿瘤分数。在一些实施例中,该方法进一步包括向受试者或医疗保健提供者提供报告。在一些实施例中,该方法进一步包括针对电子健康记录而格式化报告。
在一些实施例中,治疗受试者的肿瘤的方法包括响应于经确定的肿瘤分数,向受试者施用有效量的肿瘤疗法,其中根据上述方法中的任一者来确定肿瘤分数。在一些实施例中,该方法包括基于经确定的肿瘤分数来确定患者体内肿瘤的存在。在一些实施例中,肿瘤疗法包括化疗、放疗或手术。
在一些实施例中,监测受试者的肿瘤进展或复发的方法包括:(a)根据上述方法中的任一者来确定在第一时间点从受试者获得的第一样品的第一肿瘤分数;(b)确定在第二时间点从受试者获得的第二样品的第二肿瘤分数;以及(c)将第一肿瘤分数与第二肿瘤分数进行比较,从而监测肿瘤进展。
在监测肿瘤进展或复发的方法的一些实施例中,确定第二肿瘤分数包括:获取第二多个值,每个值指示第二肿瘤样品中的亚基因组间隔内的相应基因座处的等位基因分数,其中第二样品中的亚基因组间隔与第一样品中的亚基因组间隔相同或不同;确定指示第二多个值的离散度的第二确定性度量;存取一个或多个存储的确定性度量与一个或多个存储的肿瘤分数之间的预定关系;以及根据第二确定性度量和预定关系来确定第二样品的第二肿瘤分数。
在监测肿瘤进展或复发的方法的一些实施例中,确定第二肿瘤分数包括:获取第二多个值,每个值指示在样品中的亚基因组间隔内的多个基因座处,第二肿瘤样品中的基因座的等位基因覆盖度与非肿瘤样品中的相同基因座的等位基因覆盖度之间的差值,其中用于确定第二肿瘤分数的亚基因组间隔与用于确定第一肿瘤分数的亚基因组间隔相同或不同;确定指示第二多个值的离散度的第二确定性度量;存取一个或多个存储的确定性度量与一个或多个存储的肿瘤分数之间的预定关系;以及根据第二确定性度量和预定关系来确定第二肿瘤样品的第二肿瘤分数。
在监测肿瘤进展或复发的方法的一些实施例中,该方法进一步包括响应于肿瘤进展而调整肿瘤疗法。在一些实施例中,该方法包括响应于肿瘤进展而调整肿瘤疗法的剂量或选择不同的肿瘤疗法。在一些实施例中,该方法包括向受试者施用经调整的肿瘤疗法。
在监测肿瘤进展或复发的方法的一些实施例中,该方法包括第一时间点在已向受试者施用肿瘤疗法之前,并且其中第二时间点在已向受试者施用肿瘤疗法之后。
在上述任何方法的一些实施例中,受试者患有癌症、存在患有癌症的风险或疑似患有癌症。在一些实施例中,癌症为实体瘤。在一些实施例中,癌症为血液学癌症。
在上述任何方法的一些实施例中,样品为液体样品。
在上述任何方法的一些实施例中,样品为固体样品。
在上述任何方法的一些实施例中,样品包含无细胞DNA(cfDNA)或循环肿瘤DNA(ctDNA)。
在上述任何方法的一些实施例中,所述一个或多个存储的确定性度量包括多个存储的确定性度量,并且所述一个或多个存储的肿瘤分数包括多个存储的肿瘤分数。
本文还描述了一种计算机系统,其包括:处理器;和可通信地耦接至所述处理器的存储器,所述存储器配置为存储:一个或多个存储的确定性度量与一个或多个相关联的存储的肿瘤分数之间的预定关系;以及指令,所述指令当由处理器执行时,使得处理器:(a)(i)获取多个值,每个值指示样品中的亚基因组间隔内的相应基因座处的等位基因分数,或(ii)获取多个值,每个值指示在亚基因组间隔内的多个基因座处,肿瘤样品中的基因座的等位基因覆盖度与非肿瘤样品中的相同基因座的等位基因覆盖度之间的差值;(b)确定指示所述多个值的离散度的确定性度量;(c)存取存储的预定关系;以及(d)根据确定性度量和预定关系来确定样品的肿瘤分数。
在计算机系统的一些实施例中,存储器进一步包括指令,该指令当由处理器执行时,使得处理器:存取训练数据集,该数据集包括多个训练确定性度量与相关联的训练肿瘤分数之间的多个关系;以及将机器学习过程应用于训练数据集,以确定训练确定性度量与训练肿瘤分数之间的预定关系。
在计算机系统的一些实施例中,该指令当由处理器执行时,使得处理器执行上述方法中的任一者。
附图说明
下面参考不旨在按比例绘制的附图来讨论至少一个示例的各个方面。附图被包括以提供对各个方面和示例的说明和进一步理解,并且被并入并构成本说明书的一部分,但不旨在作为特定示例的限制的定义。附图与说明书的其余部分一起用于解释所描述和要求保护的方面和示例的原理和操作。在图中,各个附图中所示的每个相同或几乎相同的部件均由相同的数字表示。为清楚起见,并非每个部件均可在每个图中进行标记。
图1描绘了根据一个实施例的过程。所公开的过程可用于估计来自样品的肿瘤分数。
图2示出了可用来实践本公开的各个方面的示例性计算机系统。
图3示出了能够实现本公开的各个方面的示例性存储系统。
图4示出了样品中SNP等位基因分数的概率分布函数的熵与相关联的肿瘤分数(如通过最大体细胞等位基因频率所表示的)之间的示例性关系,如使用若干连续稀释的癌症样品所确定的。
具体实施方式
本文描述了用于确定来自受试者的样品的肿瘤分数的方法和系统。还描述了响应于经确定的肿瘤分数而治疗受试者的肿瘤的方法,以及用于监测受试者的肿瘤进展或复发的方法和系统,该方法和系统包括确定在两个或更多个时间点从受试者获得的样品中的肿瘤分数.快速而准确的肿瘤分数确定(特别是在低肿瘤分数水平下)可通过确保受试者在肿瘤或肿瘤复发的早期阶段接受有效的疗法来显著增强肿瘤疗法。本文还考虑并进一步讨论了肿瘤分数的其他用途。例如,在一些实施例中,肿瘤分数可用于分析肿瘤活体组织切片。在一些实施例中,肿瘤分数用于表征变体(例如作为体细胞的或种系,或作为纯合的、杂合的或亚克隆的),例如使用体细胞-种系-接合性(SGZ)算法来表征变体。即使在低肿瘤分数水平下,本文所述的方法和系统也提供了准确的肿瘤分数确定。
如本文进一步所述,肿瘤分数与跨多个已分析的基因座的等位基因分数离散度密切相关联。该离散度可称为“确定性度量”。一个或多个确定性度量与一个或多个相应的肿瘤分数之间的关系可用于根据来自受试者的样品的经确定的确定性度量来确定样品的肿瘤分数。该关系接收经确定的确定性度量作为输入,并输出样品的肿瘤分数。该关系可应用于确定来自受试者的样品的肿瘤分数,这可允许有效的肿瘤疗法、监测受试者的肿瘤进展或复发,和/或分析肿瘤样品。
在一些实施例中,使用肿瘤样品和非肿瘤样品(例如,健康组织样品)来确定肿瘤样品的样品肿瘤分数。肿瘤样品和非肿瘤样品可从同一个体(即匹配的正常对照)或不同个体获得。确定性度量可为多个值的离散度,其中每个值指示在多个基因座处,肿瘤样品中的基因座的覆盖度与非肿瘤样品中的相同基因座的覆盖度之间的差值。如上所述,确定性度量与肿瘤分数之间的关系可用于根据来自受试者的样品的经确定的确定性度量来确定样品的肿瘤分数。该关系接收经确定的确定性度量作为输入,并输出样品的肿瘤分数。该关系可应用于确定来自受试者的样品的肿瘤分数,这可允许有效的肿瘤疗法、监测受试者的肿瘤进展或复发,和/或分析肿瘤样品。
肿瘤分数确定
监测、诊断和治疗癌症的一个重要指标为肿瘤分数。在一些实施例中,肿瘤分数为例如在样品(例如活体组织切片)中的肿瘤基因组含量的量度,该肿瘤分数与总基因组含量成比例,而不管细胞来源如何。一般来讲,从样品中确定(例如,估计)肿瘤含量或肿瘤含量的变化是有利的,因为这有助于报告改变以及告知疾病的存在或进展。例如,当固体活检不可用或不推荐使用时,通常利用来自癌症患者的血液样品的液体活检可能很有用。本文所述的方法可用于确定各种类型的样品中的(例如固体和液体样品中的)肿瘤分数。在一些实施例中,本文所述的方法用于固体样品,例如,作为目视筛选方法的替代或与目视筛选方法组合。在其他实施例中,本文所述的方法用于液体样品,例如,当目视筛选方法无效或不可用时。
在一些实施例中,无细胞样品中的肿瘤分数包括已从原发性肿瘤脱落至脉管系统或淋巴管中的肿瘤DNA相对于脱落至血流中的总DNA(例如,肿瘤和正常)的量的量度,并在血液循环中被携带至全身。肿瘤分数可用于监测存在癌症风险的患者(有或没有当前诊断);用作用于诊断癌症的因素;或用于确定当前的治疗方案是否有效果(例如有益效果)。
用于测量肿瘤分数的传统方法通常需要从对数比和等位基因频率测量结果或两者或从病理学检查中推断出纯度和倍性这两种建模参数。在一些实施例中,肿瘤分数可被视为异质肿瘤样品中癌细胞的分数的建模参数并且可考虑肿瘤纯度或其他量度。在一些实施例中,肿瘤细胞倍性可指所有染色体(或其部分)的平均加权拷贝数。在样品中观察到的倍性可能受肿瘤细胞不同程度的非整倍性、样品的异质性(例如,肿瘤细胞与正常细胞的不同比率)或两者的影响。
由于模型拟合不佳,用于预测肿瘤分数的传统方法对于低肿瘤含量可能高度不可靠。在一些实施例中,本文所述的方法可克服传统方法的某些缺点,例如,通过基于肿瘤细胞非整倍性的影响确定肿瘤分数(和相关联的置信水平),例如,如通过在样品中的一个或多个亚基因组间隔处的等位基因覆盖度或等位基因分数而测得的。在一些实施例中,亚基因组间隔包括杂合单核苷酸多态性(SNP)位点。在其他实施例中,亚基因组间隔包括多于一个核苷酸位置。
如本文所用,术语“等位基因覆盖度”或简称为“覆盖度”或“Cvg”是指从样品中的亚基因组间隔处的DNA测序生成的读数(例如,独特读数)的数量。如本文所用,术语“等位基因强度”或简称为“强度”是指从样品中的亚基因组间隔处的基因组杂交生成的信号(例如,独特信号)的数量。应当理解,“读数”或“信号”旨在涵盖其中可能存在相同“独特读数”或“独特信号”的重复的情况(即,在执行本文所述的方法之前不去除重复),但使用所述方法计算的任何比率将产生与“独特”读数或信号比率非常类似的值,因为该重复将在分子和分母中表示。
如本文所用,术语“等位基因分数”是指样品中的亚基因组间隔处的等位基因的相对水平(例如,丰度)。等位基因分数可表达为分数或百分比。例如,等位基因分数可表达为在亚基因组间隔处的一种特定等位基因(例如,A、T、C或G)的数量相对于在该亚基因组间隔处的所有不同等位基因的数量的比率。在一些实施例中,等位基因分数通过计算来自一种特定等位基因(例如,A、T、C或G)的覆盖度或强度与来自给定亚基因组间隔处的所有不同等位基因的总覆盖度或强度的比率来进行测量。有时,术语“等位基因分数”和“等位基因频率”在本文可互换使用。如本文所用,对数比通常通过log2(T/R)来进行测量,其中T为与样品中的亚基因组间隔相关联的一个或多个等位基因的水平(例如,丰度),并且R为与参考样品中的亚基因组间隔相关联的所述一种或多种等位基因的水平(例如,丰度)。如本文所用,术语“等位基因”是指基因组序列的两种或更多种替代形式中的一种(例如,基因或其任何部分)。例如,如果“C”至“T”SNP与亚基因组间隔相关联,则亚基因组间隔可描述为与关于SNP的等位基因“C”和“T”相关联。
在一些实施例中,存在与亚基因组间隔相关联的两种或更多种不同的等位基因。如果样品中存在两种或更多种不同的等位基因,则对于样品,亚基因组间隔被视为杂合的。如果对于样品,亚基因组间隔不为杂合的,在一些实施例中,该亚基因组间隔可为纯合的、半合的(semizygous)或半合的(hemizygous)。
如本文所用,术语“丰度”是指对象的量、数目或数量。例如,与亚基因组间隔相关联的等位基因的丰度可意指样品中与亚基因组间隔相关联的等位基因的量、数目或数量,例如,如通过测序或基于阵列的综合基因组杂交(aCGH)所确定的。例如,如果存在与特定亚基因组间隔相关联的两种等位基因“A”和“G”,并且在样品中存在10个等位基因“A”的拷贝和20个等位基因“G”的拷贝,则等位基因“A”的丰度可被视为10并且等位基因“G”的丰度可被视为20。在一些实施例中,等位基因的丰度通过等位基因覆盖度或等位基因强度来进行测量。例如,等位基因“A”或“G”的独特读数反映了在样品中存在多少等位基因“A”或“G”的拷贝。
如本文所用,术语“确定性度量”是指从目标变量的量度或值导出的度量。在一些实施例中,目标变量可表示样品中的亚基因组间隔或与亚基因组间隔相关联的等位基因的丰度。在一些示例中,确定性度量可为等位基因分数与预期等位基因分数的偏差。在其他示例中,确定性度量可为等位基因强度的量度。这些示例旨在说明,并且可使用其他确定性度量。
例如,对于杂合SNP,的等位基因分数值0.50可表示典型的二倍体亚基因组间隔;而偏离预期值0.50的等位基因分数表示在该位点处存在非整倍性。在这些示例中,等位基因覆盖度的该偏差可与训练集中的肿瘤分数相关,以便建立基于等位基因覆盖度确定(例如,预测或估计)肿瘤分数的模型。在一些实施例中,本文所述的方法将等位基因分数或对数比的偏差与肿瘤分数相关联,从而消除对肿瘤纯度和倍性进行建模的需要。在一些实施例中,本文所述的方法允许更准确地确定低水平(例如小于30%)的肿瘤分数。在一个实施例中,等位基因分数或对数比通过包括测序(例如,下一代测序(NGS))的方法来进行确定。应当理解,用于确定等位基因分数或对数比的方法不限于测序。可使用测量例如SNP覆盖度或SNP的相对水平(例如,丰度)的任何方法,以及测量来自较大基因组区域的覆盖度的任何方法。在一个实施例中,等位基因分数或对数比通过除测序之外的方法确定,例如通过基于阵列的综合基因组杂交(aCGH)确定。在一个实施例中,肿瘤分数为或预期为小于或等于0.25、小于或等于0.2、小于或等于0.15或者小于或等于0.1,例如在0.1与0.3之间、0.1与0.2之间、0.2与0.3之间或者0.15与0.25之间。
尽管在一些实施例中,本文所述的方法使用等位基因分数或对数比以表示预期覆盖比例,但应当理解,本公开通常旨在描述肿瘤分数与预期覆盖度偏差的相关性,而不限于等位基因分数、对数比或任何其他特定度量。
如本文所用,“单核苷酸多态性”或SNP是指发生在基因组中特定位置处的单核苷酸的改变。在一些实施例中,此类改变在群体中以某种可感知的程度存在(例如,>1%)。通常,SNP为种系改变,而不是体细胞单核苷酸变异(SNV)。
在一个实施例中,肿瘤分数为数值表示(例如分数或百分比),表示样品中来自肿瘤细胞的DNA的量相对于DNA(例如,肿瘤和非肿瘤DNA)的总量。在一个实施例中,样品为液体活检。在一个实施例中,样品为固体组织样品。在一个实施例中,肿瘤为实体瘤。在一个实施例中,肿瘤为血液学癌症。在一个实施例中,液体活检中的肿瘤分数表示体内可检测肿瘤的存在或水平。
确定来自受试者的样品的肿瘤分数的示例性方法包括:获取多个值,每个值指示样品中的亚基因组间隔内的相应基因座处的等位基因分数;确定指示所述多个值的离散度的确定性度量;存取存储的确定性度量与存储的肿瘤分数之间的预定关系;以及根据确定性度量和预定关系来确定样品的肿瘤分数。
可确定指示每个相应基因座的等位基因分数的值。基因座包括可包括一个或多个核苷酸。在一些实施例中,相应基因座包括一个或多个具有不同母系等位基因和父系等位基因的基因座。在一些实施例中,相应基因座由具有不同母系等位基因和父系等位基因的基因座组成。在一些实施例中,相应基因座包括一个或多个具有相同母系等位基因和父系等位基因的基因座。
在一些实施例中,指示样品中的多个相应基因座处的等位基因分数的所述多个值为样品中的多个相应基因座处的多个等位基因分数。可例如通过对肿瘤样品中的核酸分子进行测序并为每个基因座处的每个等位基因分配等位基因覆盖度来确定每个相应基因座处的等位基因分数。例如,基因座i(afi)处的等位基因分数可通过以下公式确定:
Figure GDA0003454362830000121
其中Cvgi,a为在基因座i处的等位基因a的覆盖度,并且Cvgi,b为在基因座i处的等位基因b的覆盖度。在一些实施例中,等位基因a和等位基因b被分配使得Cvgi,a≤Cvgi,b,使得afii≤0.5。
在一些实施例中,预期等位基因分数为健康个体或健康样品(即,非肿瘤样品)中所预期的等位基因分数。例如,杂合基因座(即,具有不同的母系等位基因和父系等位基因)处的等位基因分数预期为0.5,而纯合基因座处的等位基因分数(即,其中母系等位基因和父系等位基因相同)预期为1.0。
等位基因分数为用于根据本文所述的方法确定肿瘤分数的示例性值,尽管在一些实施例中可使用指示等位基因分数的其他值。在一些实施例中,指示等位基因分数的值为等位基因频率的相对差值。例如,指示等位基因分数的值可为母系等位基因与父系等位基因之间的丰度(例如覆盖度或测序深度)差值相对于母系等位基因或父系等位基因的丰度的比率。即,在一些实施例中,该值可为相对差值,如
Figure GDA0003454362830000122
其中Cvgi,a为在基因座i处的等位基因a的覆盖度,并且Cvgi,b为在基因座i处的等位基因b的覆盖度。在健康个体或健康样品中,等位基因频率之间的差值以及相对差值预期为0。在一些实施例中,确定指示等位基因分数的所述多个值的概率分布函数。例如,在一些实施例中,确定样品中所述多个相应基因座处的所述多个等位基因分数的概率分布函数。在一些实施例中,所述多个等位基因分数的概率分布函数由以下公式定义:
Figure GDA0003454362830000123
其中Cvgi,a为在基因座i处的等位基因a的覆盖度,并且Cvgi,b为在基因座i处的等位基因b的覆盖度。
离散度(或确定性度量)可为例如与跨所述多个基因座的预期等位基因分数(或指示预期等位基因分数的值)的偏差。在一些实施例中,确定性度量为与预期等位基因分数(或指示该预期等位基因分数的值)的均方根偏差。例如,在一些实施例中,确定性度量为由以下公式定义的均方根偏差(RMSD):
Figure GDA0003454362830000131
其中afi为在基因座i处的等位基因频率(或指示等位基因频率的值,例如相对差值比率),af预期为在基因座i处的预期等位基因频率,并且N为所述多个相应基因座中的基因座的数量。例如,对于某些基因座,af预期可为0.5,而在其他基因座处,af预期可为1。在一些实施例中,基因座仅包括那些具有不同母系等位基因和父系等位基因的基因座。因此,可跨所有基因座将af预期定义为0.5,并且RMSD可定义为:
Figure GDA0003454362830000132
在一些实施例中,指示等位基因分数的值可为母系等位基因与父系等位基因之间的丰度(例如覆盖度或测序深度)差值相对于母系等位基因或父系等位基因的丰度的比率,并且af预期可定义为0。因此,RMSD可定义为:
Figure GDA0003454362830000133
其中Cvgi,a为在基因座i处的等位基因a的覆盖度,并且Cvgi,b为在基因座i处的等位基因b的覆盖度。
在一些实施例中,可确定跨多个基因座的等位基因分数的概率分布(例如,概率分布函数)。确定性度量(例如,离散度)可为概率分布的度量,例如概率分布的熵。例如,在一些实施例中,等位基因分数概率分布函数的熵(S[P(af)])可定义为:
Figure GDA0003454362830000134
其中P(af)为等位基因分数概率分布函数,并且n为对数底数。在一些实施例中,对数底数为2(即log2)。因此,在一些实施例中,等位基因分数概率分布函数的熵(S[P(af)])可定义为:
Figure GDA0003454362830000135
在一些实施例中,提供了一种确定来自受试者的样品的肿瘤分数的方法,该方法包括:获取多个值,每个值指示在亚基因组间隔内的多个基因座处,肿瘤样品中的基因座的等位基因覆盖度与非肿瘤样品中的相同基因座的等位基因覆盖度之间的差值;确定指示所述多个值的离散度的确定性度量;存取存储的确定性度量与存储的肿瘤分数之间的预定关系;以及根据确定性度量和预定关系来确定样品的肿瘤分数。在一些实施例中,肿瘤样品和非肿瘤样品是从同一个体(即匹配的正常对照)获得的。在一些实施例中,肿瘤样品和非肿瘤样品是从不同个体获得的。覆盖度可为原始覆盖度(例如,测序读数的原始数量)、归一化覆盖度(例如,归一化为平均或中值测序深度)和/或其他偏差校正覆盖度(例如,GC-偏差校正的覆盖深度)。在一些实施例中,等位基因覆盖度包括母系等位基因的覆盖度和父系等位基因的覆盖度(例如,母系等位基因的覆盖度和父系等位基因的覆盖度的总和)。在一些实施例中,等位基因覆盖度由母系等位基因的覆盖度和父系等位基因的覆盖度组成(例如,母系等位基因的覆盖度和父系等位基因的覆盖度的总和)。
在一些实施例中,指示肿瘤样品中的基因座的等位基因覆盖度与非肿瘤样品中的相同基因座的等位基因覆盖度之间的差值的每个值包括:肿瘤样品中的基因座的等位基因覆盖度相比于非肿瘤样品中的相同基因座的等位基因覆盖度的比率。在一些实施例中,等位基因覆盖度包括母系等位基因的覆盖度和父系等位基因的覆盖度(例如,母系等位基因的覆盖度和父系等位基因的覆盖度的总和)。在一些实施例中,等位基因覆盖度由母系等位基因的覆盖度和父系等位基因的覆盖度组成(例如,母系等位基因的覆盖度和父系等位基因的覆盖度的总和)。例如,在一些实施例中,该比率可定义为:
Figure GDA0003454362830000141
其中
Figure GDA0003454362830000142
为肿瘤样品内的基因座i处的母系等位基因的覆盖度,
Figure GDA0003454362830000143
为肿瘤样品内的基因座i处的父系等位基因的覆盖度,
Figure GDA0003454362830000144
为非肿瘤样品内的基因座i处的母系等位基因的覆盖度,并且
Figure GDA0003454362830000145
为非肿瘤样品内的基因座i处的父系等位基因的覆盖度。
在一些实施例中,指示肿瘤样品中的基因座的等位基因覆盖度与非肿瘤样品中的相同基因座的等位基因覆盖度之间的差值的每个值为:肿瘤样品中的基因座的等位基因覆盖度相比于非肿瘤样品中的相同基因座的等位基因覆盖度的对数比(例如log2比率)。在一些实施例中,等位基因覆盖度包括母系等位基因的覆盖度和父系等位基因的覆盖度(例如,母系等位基因的覆盖度和父系等位基因的覆盖度的总和)。在一些实施例中,等位基因覆盖度由母系等位基因的覆盖度和父系等位基因的覆盖度组成(例如,母系等位基因的覆盖度和父系等位基因的覆盖度的总和)。例如,在一些实施例中,对数比可定义为:
Figure GDA0003454362830000151
其中logn为底数n处的对数,
Figure GDA0003454362830000152
为肿瘤样品内的基因座i处的母系等位基因的覆盖度,
Figure GDA0003454362830000153
为肿瘤样品内的基因座i处的父系等位基因的覆盖度,
Figure GDA0003454362830000154
为非肿瘤样品内的基因座i处的母系等位基因的覆盖度,并且
Figure GDA0003454362830000155
为非肿瘤样品内的基因座i处的父系等位基因的覆盖度。例如,对数比可为log2比率。在一些实施例中,对数比定义为:
Figure GDA0003454362830000156
其中
Figure GDA0003454362830000157
为肿瘤样品内的基因座i处的母系等位基因的覆盖度,
Figure GDA0003454362830000158
为肿瘤样品内的基因座i处的父系等位基因的覆盖度,
Figure GDA0003454362830000159
为非肿瘤样品内的基因座i处的母系等位基因的覆盖度,并且
Figure GDA00034543628300001510
为非肿瘤样品内的基因座i处的父系等位基因的覆盖度
在一些实施例中,指示肿瘤样品中的基因座的等位基因覆盖度与非肿瘤样品中的相同基因座的等位基因覆盖度之间的差值的每个值包括:肿瘤样品中的基因座的等位基因覆盖度相比于非肿瘤样品中的相同基因座的等位基因覆盖度的差值相对于非肿瘤样品中的相同基因座的等位基因覆盖度的比率。在一些实施例中,等位基因覆盖度包括母系等位基因的覆盖度和父系等位基因的覆盖度(例如,母系等位基因的覆盖度和父系等位基因的覆盖度的总和)。在一些实施例中,等位基因覆盖度由母系等位基因的覆盖度和父系等位基因的覆盖度组成(例如,母系等位基因的覆盖度和父系等位基因的覆盖度的总和)。例如,在一些实施例中,该比率定义为:
Figure GDA0003454362830000161
其中
Figure GDA0003454362830000162
为肿瘤样品内的基因座i处的母系等位基因的覆盖度,
Figure GDA0003454362830000163
为肿瘤样品内的基因座i处的父系等位基因的覆盖度,
Figure GDA0003454362830000164
为非肿瘤样品内的基因座i处的母系等位基因的覆盖度,并且
Figure GDA0003454362830000165
为非肿瘤样品内的基因座i处的父系等位基因的覆盖度。
在一些实施例中,确定指示肿瘤样品中的基因座的等位基因覆盖度与非肿瘤样品中的相同基因座的等位基因覆盖度之间的差值的所述多个值的概率分布函数。在一些实施例中,等位基因覆盖度包括母系等位基因的覆盖度和父系等位基因的覆盖度(例如,母系等位基因的覆盖度和父系等位基因的覆盖度的总和)。在一些实施例中,等位基因覆盖度由母系等位基因的覆盖度和父系等位基因的覆盖度组成(例如,母系等位基因的覆盖度和父系等位基因的覆盖度的总和)。例如,在一些实施例中,确定肿瘤样品中的基因座的等位基因覆盖度相比于非肿瘤样品中的相同基因座的等位基因覆盖度的所述多个比率(例如,对数比,例如log2比率)的概率分布函数。在一些实施例中,所述多个等位基因分数的概率分布函数由以下公式定义:
Figure GDA0003454362830000166
其中logn为底数n处的对数,
Figure GDA0003454362830000167
为肿瘤样品内的基因座i处的母系等位基因的覆盖度,
Figure GDA0003454362830000168
为肿瘤样品内的基因座i处的父系等位基因的覆盖度,
Figure GDA0003454362830000169
为非肿瘤样品内的基因座i处的母系等位基因的覆盖度,并且
Figure GDA00034543628300001610
为非肿瘤样品内的基因座i处的父系等位基因的覆盖度。在一些实施例中,对数比为log2比率。例如,在一些实施例中,所述多个等位基因分数的概率分布函数由以下公式定义:
Figure GDA0003454362830000171
其中
Figure GDA0003454362830000172
为肿瘤样品内的基因座i处的母系等位基因的覆盖度,
Figure GDA0003454362830000173
为肿瘤样品内的基因座i处的父系等位基因的覆盖度,
Figure GDA0003454362830000174
为非肿瘤样品内的基因座i处的母系等位基因的覆盖度,并且
Figure GDA0003454362830000175
为非肿瘤样品内的基因座i处的父系等位基因的覆盖度。
离散度(或确定性度量)可为例如所述多个值内的每个值与跨相应基因座的预期值的偏差。预期值为如果肿瘤样品是非肿瘤(例如,健康)样品时将被预期的值。在一些实施例中,确定性度量为与预期值的均方根偏差。例如,在一些实施例中,确定性度量为由以下公式定义的均方根偏差(RMSD):
Figure GDA0003454362830000176
在一些实施例中,指示等位基因分数的值为:肿瘤样品中的基因座的等位基因覆盖度相比于非肿瘤样品中的相同基因座的等位基因覆盖度的差值相对于非肿瘤样品中的相同基因座的等位基因覆盖度的比率。因此,RMSD可定义为:
Figure GDA0003454362830000177
在一些实施例中,可确定指示肿瘤样品中的基因座的等位基因覆盖度与非肿瘤样品中的相同基因座的等位基因覆盖度之间的差值的所述多个值的概率分布(例如,概率分布函数)。确定性度量(例如,离散度)可为概率分布的度量,例如概率分布的熵。例如,在一些实施例中,等位基因分数概率分布函数的熵(S[P(af)])可定义为:
Figure GDA0003454362830000178
其中:
Figure GDA0003454362830000181
其中logn为具有底数n的对数,
Figure GDA0003454362830000182
为肿瘤样品内的基因座i处的母系等位基因的覆盖度,
Figure GDA0003454362830000183
为肿瘤样品内的基因座i处的父系等位基因的覆盖度,
Figure GDA00034543628300001811
为非肿瘤样品内的基因座i处的母系等位基因的覆盖度,并且
Figure GDA0003454362830000184
为非肿瘤样品内的基因座i处的父系等位基因的覆盖度。在一些实施例中,对数底数为2(即log2)。因此,在一些实施例中,等位基因分数概率分布函数的熵(S[P(af)])可定义为:
Figure GDA0003454362830000185
其中:
Figure GDA0003454362830000186
其中
Figure GDA0003454362830000187
为肿瘤样品内的基因座i处的母系等位基因的覆盖度,
Figure GDA0003454362830000188
为肿瘤样品内的基因座i处的父系等位基因的覆盖度,
Figure GDA0003454362830000189
为非肿瘤样品内的基因座i处的母系等位基因的覆盖度,并且
Figure GDA00034543628300001810
为非肿瘤样品内的基因座i处的父系等位基因的覆盖度。
一个或多个存储的确定性度量与一个或多个存储的肿瘤分数之间的关系可用于基于经确定的确定性度量来确定肿瘤分数。在一些实施例中,模型被训练为使用包括训练确定性度量和相关联的肿瘤分数的训练数据集以确定确定性度量与肿瘤分数之间的关系。训练数据集可例如使用具有已知(即,训练)肿瘤分数的多个临床样品来进行确定(例如,如通过最大体细胞等位基因频率(MSAF)所确定的,其从肿瘤样品中的所有调用中过滤种系变体调用并将残留变体(即,最大体细胞变体)与总变体(最大体细胞变体加种系变体)进行比较,以确定最大体细胞等位基因频率)。临床样品中的核酸分子可进行测序以确定跨多个基因座的等位基因频率(或指示等位基因频率的值),以及相关联的训练确定性度量。训练确定性度量可与训练肿瘤分数相关以确定确定性度量与肿瘤分数之间的关系。在另一种方法中,可从一个或多个临床样品进行连续稀释以获得多个不同的肿瘤分数,所述多个不同的肿瘤分数可与连续稀释样品的确定性度量相关以确定关系。
在一些实施例中,为了确定(例如,估计)肿瘤分数,首先执行训练子过程。可由临床标本构建数据集。使用训练集和训练集的计算机模拟稀释,肿瘤分数可与等位基因分数或对应于肿瘤中通常观察到的非整倍性的对数比的变化相关。在其他示例中,可执行细胞系/临床样品稀释。
在一些实施例中,确定性度量可为在特定等位基因的特定SNP分组处的覆盖度和/或等位基因频率的函数(例如,在0至0.5的范围内)。在一些示例中,训练数据使用偏差度量(例如,等位基因分数偏差或对数比偏差)作为输入并返回估计的肿瘤分数以及下限和上限。偏离(即落在)0与1而非0.5(不包括)之间的值可被认为是“噪声”,并且平均噪声可能与预期或估计的肿瘤分数相关。在其他示例中,训练数据提供对数比偏差度量作为输入,或者一般来讲,提供量化与期望值的覆盖度偏差的任何度量。在任一种情况下,等位基因覆盖度偏差度量或对数比偏差度量可为肿瘤分数的量度。
利用在训练期间导出的这些相关性,可用上限和下限来估计或评估患者的肿瘤分数。覆盖度度量(例如SNP等位基因覆盖度变异度量)可用于生成相关性。
例如,本文所述的方法可例如改善识别生物样品中是否存在肿瘤并提供具有已知估计界限的肿瘤分数确定(例如,估计)的能力;提供系统性且正交的方法以评估体细胞变体;并且向新的廉价肿瘤追踪/识别测定提供框架。
在一些实施例中,本文所述的方法还在液体活检的特定情况下提供优势(尽管本公开不限于液体活检)。实体瘤具有多种不同的方法以用于估计肿瘤含量,所述多种不同的方法包括病理学检查、体细胞等位基因频率(MSAF)和分析拷贝数改变(CNA)建模。然而,液体活检通常不适用于这些方法或需要大量重新调整。由于无细胞DNA游离浮动在血液中,其存在为纳米级的,因此病理学家无法对其进行检查。此外,与正常DNA相比,肿瘤倾向于脱落至血流中的DNA的量可能极小。因此,由于肿瘤含量低,分析CNA建模可能会失效。
本文所述的方法通常不需要病理学检查;足够敏感且无需分析方程,因此不需要分析CNA建模以识别肿瘤的存在或含量;独立于短变体调用,提供短变体的正交评估;并且在发生CNA事件时得到改善(例如,不混淆)。
本文所述的方法允许开发新的廉价肿瘤追踪(例如,监测)测定。例如,如果患者在覆盖足够数量的亚基因组间隔(例如,包括一个或多个SNP的亚基因组间隔)的测定(例如,综合测定)中呈现肿瘤含量,则可在第二测定上以相当低的成本随时间推移追踪肿瘤进展,因为该方法可仅基于SNP变异。在一些实施例中,第一测定比第二测定覆盖更多的亚基因组间隔。在其他实施例中,第一测定比第二测定覆盖更少的亚基因组间隔。在某些实施例中,第一测定和第二测定基本上覆盖相同数量的亚基因组间隔。
第一测定和第二测定中包括的基因组合可具有相同或不同的大小。例如,包括至少约100个、150个、200个、250个、300个、350个、400个、450个、500个或更多个基因的组合的测定可被视为大组合,而包括少于约100个、90个、80个、70个、60个、50个、40个、30个、20个或10个基因的测定可被视为小组合。“大”和“小”组合大小通常由测定的目的来确定并且不应限于上述示例性大小。在一些实施例中,第一测定包括大组合而第二测定包括相同或不同的大组合。在其他实施例中,第一测定包括小组合而第二测定包括相同或不同的小组合。在某些实施例中,第一测定包括大组合而第二测定包括小组合,反之亦然。第一测定和第二测定不必为相同的测定类型。例如,第一测定可基于测序(例如,NGS)而第二测定可基于基因组杂交,反之亦然。
在一些实施例中,第二测定所覆盖的亚基因组间隔可为第一测定所覆盖的亚基因组间隔的子集。在一些实施例中,第一测定所覆盖的亚基因组间隔可为第二测定所覆盖的亚基因组间隔的子集。在其他实施例中,第二测定所覆盖的亚基因组间隔与第一测定所覆盖的亚基因组间隔重叠,但并不相同。在某些实施例中,第一测定覆盖未由第二测定覆盖的一个或多个亚基因组间隔。在某些实施例中,第二测定覆盖未由第一测定覆盖的一个或多个亚基因组间隔。
在一些实施例中,即使估计的肿瘤分数在患者之间可能具有较大的误差范围,但任何患者内比较将提供较小的误差范围,从而导致能够追踪最初在综合测定(例如,FoundationOne、FoundationOne CDx或FoundationOne Liquid测定)中识别的肿瘤的进展。由于第二测定可能比综合测定便宜得多,因此该第二测定可用作患者的至少一个子集(例如高危患者)的标准筛选技术,以回答患者是否患有癌症的问题。
图1示出了估计来自样品的肿瘤分数的方法100。方法100开始于步骤102。在步骤104处,与亚基因组间隔相关联的目标变量的值是从受试者的样品中获得(例如,直接获得)的。目标变量可为例如等位基因分数。样品可为例如液体样品或固体样品。
在一些示例中,至少一个杂合单核苷酸多态性(SNP)位点的患者等位基因分数根据取自患者的活体组织切片来进行确定。在一个示例中,活体组织切片可为液体活检,即非固体生物组织的样品,例如血液。然而,本公开不限于此,并且旨在但不限于覆盖任何固体或液体测定或活体组织切片。在一个实施例中,液体活检包括血液样品。在一个实施例中,液体活检包括无细胞DNA(cfDNA)。在一个实施例中,液体活检包括循环肿瘤DNA(ctDNA)。在一个实施例中,液体活检包括从肿瘤脱落的DNA。在一个实施例中,液体活检包括除DNA之外的核酸,例如RNA。在一个实施例中,液体活检包括循环肿瘤细胞(CTC)。例如,在Crowley等人,Nat Rev Clin Oncol.2013;10(8):472-484中描述了其他类型的液体活检,其内容全文以引用方式并入。
在步骤106处,可根据目标变量来确定确定性度量,并且在步骤108处,存取在存储的确定性度量与存储的肿瘤分数之间的经确定的关系。经确定的关系可包括将至少一个杂合SNP位点的确定性度量(例如,采样的等位基因分数偏差)与相应的采样肿瘤分数相关联的历史样品数据(从患者或其他测试对象收集)。在一些示例中,采样的等位基因覆盖度偏差为“噪声”度量,其反映等位基因分数与预期值不同的程度。在一些示例中,将肿瘤分数与从等位基因分数计算的噪声度量相关联的数据点的数量可超过一百(100)、一千(1,000)、一万(10,000)或更多。
在一个示例中,经确定的关系可从计算机模拟过程中导出,并且可由机器学习过程来执行分析。该过程可从特定肿瘤分数处开始执行样品稀释(例如,使用匹配的正常样品),以便将一个或多个覆盖度偏差度量(例如,等位基因分数值)跨一个或多个亚基因组间隔(例如,SNP、SNP分组和/或染色体)相关联。该度量可为肿瘤分数落在值0或1之间的频率和程度的量度。0与1(不包括)之间的平均“噪声”度量可能与预期或估计的肿瘤分数相关。
有助于确定性度量值(该确定性度量值与肿瘤分数相关)的计算的、与亚基因组间隔相关联的元素的数量可能为以下数量级:十(10)、一百(100)、一千(1,000)、一万(10,000)或更多。
由于存在有助于相关性中的确定性度量计算的、与亚基因组间隔相关联的大量元素,在一些示例中,元素可通过亚基因组间隔位置或其他特征来“分组”或聚合。分组可避免单个(或小集合的)元素不成比例地加权确定性度量中的相关性,从而对估计的肿瘤分数产生不利影响。例如,如果单个亚基因组间隔处的一个元素表示具有5,000个拷贝的拷贝变体,则其可能导致估计的肿瘤分数不准确地高。因此,在一些示例中,有助于确定性度量的元素被平均或以其他方式由染色体(例如22个相关染色体中的每一者)聚合。然后可使用这22个聚合染色体值以计算确定性度量,然后将该确定性度量与肿瘤分数相关联,确保单个亚基因组间隔(例如SNP位点)不会不成比例地影响相关性。可利用其他方法以限制极限拷贝数事件的影响,例如但不限于防止异类元素进入确定性度量计算。
在一些示例中,相关性可为均值(即,平均)相关性,其中还计算了上限相关性和下限相关性。以这种方式,均值相关性以95%置信区间为界。
亚基因组间隔可包括一个或若干亚基因组间隔,并且在一些示例中可为至少一个杂合SNP位点。可基于各种标准来选择亚基因组间隔。例如,可基于亚基因组间隔在一般健康群体以及健康亚群(包括不同性别、年龄或种族背景)中的多态性来选择亚基因组间隔。亚基因组间隔在健康群体中显著变化可能是有利的。亚基因组间隔的测序特征也可在“表现良好(即,接近预期的等位基因频率,例如0、0.5和1.0)”的基础上进行选择。此外,可在“覆盖良好(即,跨该位点的群体而具有典型的覆盖度)”的基础上选择区域。如果亚基因组间隔出现在基因家族的简单重复或任何一般重复的DNA序列中,则可能被排除,因为该特征可能会挑战比对方法。在一个实施例中,亚基因组间隔可位于不含或基本上不含高同源性、简单重复或基因家族的基因组区域中。
在一个实施例中,亚基因组间隔包括次要等位基因。如本文所用,“次要等位基因”为除与给定群体中的特定亚基因组间隔相关联的最常见等位基因之外的等位基因(例如,第二最常见等位基因或最不常见等位基因)。在一个实施例中,选择了至少10个、20个、50个、100个、150个、200个、300个、400个、500个、600个、700个、800个、900个、1000个、1200个、1400个、1600个、1800个、2000个或10000个杂合亚基因组间隔。在一个实施例中,选择了不超过10个、20个、50个、100个、150个、200个、300个、400个、500个、600个、700个、800个、900个、1000个、1200个、1400个、1600个、1800个、2000个或10000个杂合SNP位点。
在一个示例中,所选择的亚基因组间隔和/或相关性可为通用的(即,跨所有疾病本体),以便提供广泛的筛选技术。在其他示例中,可基于疾病本体(例如,肿瘤类型)来选择亚基因组间隔并调整相关性。
一个或多个确定性度量可用于将目标变量(例如,等位基因覆盖度偏差和/或等位基因分数变化)与肿瘤分数相关联。例如,可应用与等位基因分数相关的度量。在一个示例中,可使用等位基因频率熵度量或均方根偏差(RMSD)度量:
等位基因频率熵:
Figure GDA0003454362830000231
均方根偏差:
Figure GDA0003454362830000232
其中i=SNP分组并且af=0至0.5范围内的等位基因频率。此处按照惯例使用折叠的SNP等位基因频率(例如,如Nielsen.Hum Genomics.2004;1(3):218–224和Marth等人Genetics.2004;6(1):351-372所述),但如果利用0至1的完整范围,则该方法成立。也可使用其他度量,例如基于log2比率的度量。这些度量中的任一者均可并入因子(例如特定SNP分组处的覆盖度),其中“分组”可定义为1个或多个碱基对。在一些实施例中,确定性度量可写作覆盖度的函数,使得确定性度量=f(Cvg)。此外,任何作用于确定性度量的数学变换或运算也可被视为确定性度量。
在一些示例中,确定性度量可为与至少一个亚基因组间隔的预期log2比率的偏差。在其他示例中,确定性度量可为与已知为杂合的至少一个亚基因组间隔(例如,SNP)处的健康群体中的预期等位基因分数的偏差。在其他示例中,确定性度量可为与已知为杂合的至少一个亚基因组间隔(例如,SNP)处的健康群体中的预期等位基因覆盖度的偏差。
表1示出了可使用的示例性确定性度量,包括任何p矩或其组合:
表1
Figure GDA0003454362830000241
Figure GDA0003454362830000251
Figure GDA0003454362830000261
在步骤110处,参考确定性度量和经确定的关系来确定(例如,估计)样品的肿瘤分数。在一些示例中,经确定的关系的系数应用于根据患者样品而确定的确定性度量,并且将乘积相加以获得经评估的(例如,估计的)肿瘤分数。应当理解,可执行其他功能以产生最终估计的肿瘤分数。例如,估计的肿瘤分数可根据初始或原始估计的肿瘤分数测量进行缩放、归一化或以其他方式调整。
在步骤112处,方法100结束。
执业医师可以多种方式使用估计的肿瘤分数。例如,估计的肿瘤分数可用于监测存在患有一种或多种类型癌症的风险的患者。估计的肿瘤分数还可用于诊断癌症,或用于确定癌症治疗是否成功影响了肿瘤。
估计的肿瘤分数也可与其他筛选技术结合使用,以确认或验证测试结果。例如,CNA筛选可为患者产生多种可能的纯度和倍性组合,特别是在具有低肿瘤分数(例如,小于30%)的患者体内。本技术可用于消除此类结果的歧义。
在一些实施例中,可生成包含估计的肿瘤分数的报告。在一个实施例中,该报告进一步包括基于估计的肿瘤分数的治疗选项。在一个实施例中,该报告进一步包括基于估计的肿瘤分数的预后。
肿瘤治疗和监测方法
还公开了一种治疗受试者的疾病的方法:该方法包括,响应于肿瘤分数的确定(例如,估计)(例如,根据本文所述的方法确定),向受试者施用有效量的疗法,从而治疗疾病,其中肿瘤分数的估计包括:获取与样品中的亚基因组间隔相关联的目标变量的值;根据目标变量来确定确定性度量;存取存储的确定性度量与存储的肿瘤分数之间的经确定的关系;以及参考确定性度量和经确定的关系,确定样品的肿瘤分数。
在一个实施例中,该方法进一步包括向受试者施用第二疗法。在一个实施例中,该方法进一步包括中止向受试者施用第二疗法。在一个实施例中,该方法进一步包括确定受试者的体细胞改变(例如,与疾病相关联的体细胞改变)的存在。
在一个实施例中,等位基因分数通过包括测序(例如,下一代测序(NGS))的方法来进行确定。在一个实施例中,等位基因分数通过进一步包括靶标选择的方法(例如,通过溶液杂交)来进行确定。在其他实施例中,可采用用于检测DNA(例如,cfDNA、ctDNA等)的其他方法,例如微阵列。
还描述了一种评估受试者的疾病的方法,其中肿瘤分数的确定(例如,估计)(例如,根据本文所述的方法确定)包括:获取与样品中的亚基因组间隔相关联的目标变量的值;根据目标变量来确定确定性度量;存取存储的确定性度量与存储的肿瘤分数之间的经确定的关系;以及参考确定性度量和经确定的关系,确定样品的肿瘤分数,从而评估疾病。在一个实施例中,等位基因分数通过包括测序(例如,NGS)的方法来进行确定。在一个实施例中,等位基因分数通过进一步包括靶标选择的方法(例如,通过溶液杂交)来进行确定。在其他实施例中,可采用用于检测DNA(例如,cfDNA、ctDNA等)的其他方法,例如微阵列。在一个实施例中,该方法进一步包括针对疾病选择疗法。在一个实施例中,该方法进一步包括中止向受试者施用疗法。在一个实施例中,该方法进一步包括针对临床试验选择受试者。在一个实施例中,该方法进一步包括确定疾病状态,例如,缓解、稳定、复发等。在一个实施例中,周期性地(例如,每月、每两个月、每三个月、每六个月或每年)评估疾病。在一个实施例中,该方法进一步包括确定受试者的体细胞改变(例如,与疾病相关联的体细胞改变)的存在。
描述了一种评估受试者的方法,其中肿瘤分数的确定(例如,估计)(例如,根据本文所述的方法确定)包括:获取与样品中的亚基因组间隔相关联的目标变量的值;根据目标变量来确定确定性度量;存取存储的确定性度量与存储的肿瘤分数之间的经确定的关系;以及参考确定性度量和经确定的关系,确定样品的肿瘤分数,从而评估受试者。在一个实施例中,等位基因分数通过包括测序(例如,NGS)的方法来进行确定。在一个实施例中,等位基因分数通过进一步包括靶标选择的方法(例如,通过溶液杂交)来进行确定。在其他实施例中,可采用用于检测DNA(例如,cfDNA、ctDNA等)的其他方法,例如微阵列。
在一个实施例中,该方法进一步包括针对疗法选择受试者。在一个实施例中,该方法进一步包括中止向受试者施用疗法。在一个实施例中,该方法进一步包括针对临床试验选择受试者。
在一个实施例中,周期性地(例如,每月、每两个月、每三个月、每六个月或每年)评估受试者。
在一个实施例中,该方法进一步包括确定受试者的体细胞改变(例如,与疾病相关联的体细胞改变)的存在。
在一个实施例中,目标变量(例如,等位基因分数)通过包括测序(例如,NGS)的方法来进行确定。在一个实施例中,等位基因分数通过进一步包括靶标选择的方法(例如,通过溶液杂交)来进行确定。在其他实施例中,可采用用于检测DNA(例如,cfDNA、ctDNA等)的其他方法,例如微阵列。
描述了一种评估疗法的方法,其中肿瘤分数的确定(例如,估计)(例如,根据本文所述的方法确定)包括:获取与样品中的亚基因组间隔相关联的目标变量的值;根据目标变量来确定确定性度量;存取存储的确定性度量与存储的肿瘤分数之间的经确定的关系;以及参考确定性度量和经确定的关系,确定样品的肿瘤分数,从而评估疗法。
在一个实施例中,目标变量(例如,等位基因分数)通过包括测序(例如,NGS)的方法来进行确定。在一个实施例中,等位基因分数通过进一步包括靶标选择的方法(例如,通过溶液杂交)来进行确定。在其他实施例中,可采用用于检测DNA(例如,cfDNA、ctDNA等)的其他方法,例如微阵列。
在一个实施例中,该方法进一步包括针对受试者选择疗法。
在一个实施例中,周期性地(例如,每月、每两个月、每三个月、每六个月或每年)评估疗法。
描述了一种提供报告的方法(例如,以报告根据本文所述的方法来确定的肿瘤分数)。该方法包括:获取与样品中的亚基因组间隔相关联的目标变量的值;根据目标变量来确定确定性度量;存取存储的确定性度量与存储的肿瘤分数之间的经确定的关系;以及参考确定性度量和经确定的关系,确定样品的肿瘤分数;以及在报告中记录估计的肿瘤分数,从而提供报告。
在一个实施例中,等位基因分数通过包括测序(例如,NGS)的方法来进行确定。在一个实施例中,等位基因分数通过进一步包括靶标选择的方法(例如,通过溶液杂交)来进行确定。在其他实施例中,可采用用于检测DNA(例如,cfDNA、ctDNA等)的其他方法,例如微阵列。
在一个实施例中,该方法进一步包括将报告传输至受试者或第三方。在一个实施例中,该报告进一步包括基于估计的肿瘤分数的治疗选项。
在一个实施例中,该报告进一步包括受试者的基因组图谱(例如,与疾病相关联的基因组分析)。
描述了一种评估来自受试者的活体组织切片的方法(例如,包括根据本文所述的方法来确定肿瘤分数)。该方法包括:获取与来自活体组织切片的样品中的亚基因组间隔相关联的目标变量的值;根据目标变量来确定确定性度量;存取存储的确定性度量与存储的肿瘤分数之间的经确定的关系;以及参考确定性度量和经确定的关系,确定样品的肿瘤分数,从而评估活体组织切片。
在一个实施例中,高于阈值的估计的肿瘤分数指示该活体组织切片适用于基因组分析。
示例性计算机实施方式
上述过程仅为可用于估计肿瘤分数的系统的说明性实施例。此类说明性实施例并不旨在限制本公开的范围。本文所述的实施例和权利要求书均不旨在限于任何特定实施方式,除非此类权利要求包括明确叙述特定实施方式的限制。
与各种实施例相关联的过程和方法、其动作,以及这些方法和动作的各种实施例和变体,可单独地或组合地由有形地体现在计算机可读介质(例如,非易失性记录介质、集成电路存储元件或其组合)上的计算机可读信号来定义。根据一个实施例,计算机可读介质可为非暂时性的,因为计算机可执行指令可永久地或半永久地存储在介质上。此类信号可定义指令,例如,作为一个或多个程序的一部分,该一个或多个程序作为由计算机执行的结果,指示计算机执行本文所述的一种或多种方法或动作,和/或各种实施例、其变体和组合。此类指令可用多种编程语言(例如Java、Visual Basic、C、C#或C++、Fortran、Pascal、Eiffel、Basic、COBOL等)中的任一种或其多种组合中的任一种进行编写.在其上存储此类指令的计算机可读介质可驻留在上述通用计算机的一个或多个部件上,并且可分布在此类部件的一者或多者上。
计算机可读介质可为便携式的,使得存储在其上的指令可加载至任何计算机系统资源上,以实现本文所讨论的本公开的方面。另外,应当理解,存储在上述计算机可读介质上的指令不限于体现为在主机上运行的应用程序的一部分的指令。相反,指令可体现为任何类型的计算机代码(例如,软件或微代码),其可用于对处理器进行编程以实现本公开的上述方面。
根据本公开的各种实施例可在一个或多个计算机系统上加以实现。这些计算机系统可为例如通用计算机,诸如基于以下项的计算机:Intel PENTIUM型处理器、MotorolaPowerPC、Sun UltraSPARC、Hewlett-Packard PA-RISC处理器、ARM Cortex处理器、Qualcomm Scorpion处理器或任何其他类型处理器。应当理解,根据本公开的各种实施例,可使用任何类型的计算机系统中的一者或多者以部分或完全自动化地向用户推广提供物并赎回提供物。此外,软件设计系统可位于单个计算机上或者可分布在由通信网络附接的多个计算机中。
计算机系统可包括专门编程的专用硬件,例如专用集成电路(ASIC)。本公开的方面可以软件、硬件或固件或其任何组合加以实现。此外,此类方法、动作、系统、系统元件及其部件可作为上述计算机系统的一部分或作为独立部件加以实现。
计算机系统可为使用高级计算机编程语言进行编程的通用计算机系统。计算机系统也可使用专门编程的专用硬件加以实现。在计算机系统中可能存在处理器,该处理器通常为市售的处理器,例如可从Intel Corporation购得的众所周知的Pentium级处理器。许多其他处理器也是可用的。此类处理器通常执行可为以下项的操作系统:例如,可从Microsoft Corporation购得的Windows NT、Windows 2000(Windows ME)、Windows XP、Windows Vista或Windows 7操作系统,可从Apple Computer购得的MAC OS X SnowLeopard、MAC OS X Lion操作系统,可从Oracle Corporation购得的Solaris操作系统,iOS、Blackberry OS、Windows 7Mobile或Android OS操作系统,或可从各种来源购得的UNIX。也可使用许多其他操作系统。
本公开的一些方面可实现为分布式应用程序部件,该分布式应用程序部件可在通过计算机网络耦接的多种不同类型的系统上加以执行。某些部件可位于移动设备、服务器、平板电脑或其他系统类型上并在其上执行。也可使用分布式系统的其他部件,诸如数据库或其他部件类型。
处理器和操作系统共同定义了一种计算机平台,针对该计算机平台,以高级编程语言编写应用程序。应当理解,本公开不限于特定的计算机系统平台、处理器、操作系统、算法的计算集、代码或网络。此外,应当理解,可在实现本公开的各个方面的分布式计算机系统中使用多种计算机平台类型。此外,对于本领域技术人员显而易见的是,本公开不限于特定的编程语言、算法的计算集、代码或计算机系统。此外,应当理解,也可使用其他适当的编程语言和其他适当的计算机系统。
计算机系统的一个或多个部分可分布在耦接至通信网络的一个或多个计算机系统上。这些计算机系统也可为通用计算机系统。例如,本公开的各个方面可分布在一个或多个计算机系统中,所述一个或多个计算机系统被配置为向一个或多个客户端计算机提供服务(例如,服务器),或者作为分布式系统的一部分来执行整个任务。例如,本公开的各个方面可在客户端-服务器系统上执行,该客户端-服务器系统包括分布在一个或多个服务器系统中的部件,所述一个或多个服务器系统根据本公开的各种实施例执行各种功能。这些部件可为可执行的、中间的(例如,IL)或经解释的(例如,Java)代码,其使用通信协议(例如,TCP/IP)通过通信网络(例如,互联网)进行通信。本公开的某些方面还可在基于云的计算机系统(例如,由Amazon.com提供的EC2基于云的计算平台)、包括客户端和服务器的分布式计算机网络或者系统的任何组合上加以实现。
应当理解,本公开不限于在任何特定系统或系统组上执行。此外,应当理解,本公开不限于任何特定的分布式架构、网络或通信协议。
本公开的各种实施例可使用面向对象的编程语言(诸如SmallTalk、Java、C++、Ada或C#(C-Sharp))来进行编程。也可使用其他面向对象的编程语言。可替代地,可使用函数式、脚本和/或逻辑编程语言。本公开的各个方面可在非程序化环境(例如,以HTML、XML或其他格式创建的文档,当在浏览器程序的窗口中查看该文档时,呈现图形用户界面(GUI)的方面或执行其他功能)中实现。本公开的各个方面可实现为程序化的或非程序化的元素,或其任何组合。
此外,在包括设备的一个或多个部件的所述一个或多个计算机系统中的每一者上,部件中的每一者均可驻留在系统上的一个或多个位置中。例如,设备的部件的不同部分可驻留在一个或多个计算机系统上的存储器(例如,RAM、ROM、磁盘等)的不同区域中。此类一个或多个计算机系统中的每一者可包括,除其他部件之外,多个已知部件,诸如一个或多个处理器,存储器系统、磁盘存储系统、一个或多个网络接口以及一条或多条总线或者将各个部件互连的其他内部通信链接。
本公开可在下面关于图2和图3所述的计算机系统上实现。特别地,图2示出了用于实现各个方面的示例性计算机系统200。图3示出了可使用的示例性存储系统。
系统200仅为适用于实现本公开的各个方面的计算机系统的说明性实施例。此类说明性实施例并不旨在限制范围,因为例如系统的许多其他实施方式中的任一者均是可能的并且旨在落入本公开的范围内。例如,可使用虚拟计算平台。下文所述的权利要求书均不旨在限于系统的任何特定实施方式,除非此类权利要求包括明确叙述特定实施方式的限制。
根据本公开的各种实施例可在一个或多个计算机系统上加以实现。这些计算机系统可为例如通用计算机,诸如基于以下项的计算机:Intel PENTIUM型处理器、MotorolaPowerPC、Sun UltraSPARC、Hewlett-Packard PA-RISC处理器或任何其他类型处理器。应当理解,根据本公开的各种实施例,可使用任何类型的计算机系统中的一者或多者以部分或完全自动化地将安全服务与其他系统和服务进行集成。此外,软件设计系统可位于单个计算机上或者可分布在由通信网络附接的多个计算机中。
例如,本公开的各个方面可实现为在诸如图2所示的通用计算机系统200中执行的专用软件。计算机系统200可包括连接至一个或多个存储设备204(诸如磁盘驱动器、存储器或用于存储数据的其他设备)的处理器203。存储器204通常用于在计算机系统200的操作期间存储程序和数据。计算机系统200的部件可由互连机制205耦接,该互连机制可包括一条或多条总线(例如,介于集成在同一机器内的部件之间)和/或网络(例如,介于驻留在分开的离散机器上的部件之间)。互连机制205使得通信(例如,数据、指令)能够在系统200的系统部件之间交换。计算机系统200还包括一个或多个输入设备202(例如键盘、鼠标、轨迹球、麦克风、触摸屏)以及一个或多个输出设备201(例如打印设备、显示屏和/或扬声器)。另外,计算机系统200可包含将计算机系统200连接至通信网络的一个或多个接口(未示出)(除了互连机制205之外或作为该互连机制的替代)。
存储系统206,如图3更详细地所示,通常包括计算机可读和可写的非易失性记录介质301,其中存储了定义以下项的信号:由处理器执行的程序,或者存储在介质301上或该介质中、由该程序处理的信息。例如,介质可为磁盘或闪存。通常,在操作中,处理器使得数据从非易失性记录介质301读取至另一个存储器302中,这允许处理器比介质301更快地存取信息。该存储器302通常为易失性随机存取存储器,诸如动态随机存取存储器(DRAM)或静态存储器(SRAM)。
数据可位于存储系统206中,如图所示,或者位于内存系统204中。处理器203通常操纵集成电路存储器204、202内的数据,然后在完成处理之后将数据复制至介质301。已知多种机制用于管理介质301与集成电路存储元件302之间的数据移动,并且本公开不限于此。本公开不限于特定的内存系统204或存储系统206。
计算机系统可包括专门编程的专用硬件,例如专用集成电路(ASIC)。本公开的方面可以软件、硬件或固件或其任何组合加以实现。此外,此类方法、动作、系统、系统元件及其部件可作为上述计算机系统的一部分或作为独立部件加以实现。
举例而言,尽管计算机系统200示出为可在其上实践本公开的各个方面的一种类型的计算机系统,但是应当理解,本公开的方面不限于在如图2所示的计算机系统上实现。本公开的各个方面可在一台或多台计算机上实践,所述一台或多台计算机具有与图2所示的架构或部件不同的架构或部件。
计算机系统200可为使用高级计算机编程语言进行编程的通用计算机系统。计算机系统300也可使用专门编程的专用硬件加以实现。在计算机系统200中,处理器203通常为市售的处理器,诸如可从Intel Corporation购得的众所周知的Pentium、Core、Core Vpro、Xeon或Itanium级处理器。许多其他处理器也是可用的。此类处理器通常执行可为以下项的操作系统:例如,Linux,可从Microsoft Corporation购得的Windows NT、Windows2000(Windows ME)、Windows XP、Windows Vista、Windows 7或Windows10操作系统,可从AppleComputer购得的MAC OS Snow Leopard、MAC OS X Lion操作系统,可从Sun Microsystems购得的Solaris操作系统,iOS、Blackberry OS、Windows 7Mobile或Android OS操作系统,或可从各种来源购得的UNIX。也可使用许多其他操作系统。
处理器和操作系统共同定义了一种计算机平台,针对该计算机平台,以高级编程语言编写应用程序。应当理解,本公开不限于特定的计算机系统平台、处理器、操作系统或网络。此外,对于本领域技术人员显而易见的是,本公开不限于特定的编程语言或计算机系统。此外,应当理解,也可使用其他适当的编程语言和其他适当的计算机系统。
计算机系统的一个或多个部分可分布在耦接至通信网络的一个或多个计算机系统(未示出)上。这些计算机系统也可为通用计算机系统。例如,本公开的各个方面可分布在一个或多个计算机系统中,所述一个或多个计算机系统被配置为向一个或多个客户端计算机提供服务(例如,服务器),或者作为分布式系统的一部分来执行整个任务。例如,本公开的各个方面可在客户端-服务器系统上执行,该客户端-服务器系统包括分布在一个或多个服务器系统中的部件,所述一个或多个服务器系统根据本公开的各种实施例执行各种功能。这些部件可为可执行的、中间的(例如,IL)或经解释的(例如,Java)代码,其使用通信协议(例如,TCP/IP)通过通信网络(例如,互联网)进行通信。
应当理解,本公开不限于在任何特定系统或系统组上执行。此外,应当理解,本公开不限于任何特定的分布式架构、网络或通信协议。
本公开的各种实施例可使用面向对象的编程语言(诸如SmallTalk、Java、C++、Ada或C#(C-Sharp))来进行编程。也可使用其他面向对象的编程语言。可替代地,可使用函数式、脚本和/或逻辑编程语言。本公开的各个方面可在非程序化环境(例如,以HTML、XML或其他格式创建的文档,当在浏览器程序的窗口中查看该文档时,呈现图形用户界面(GUI)的方面或执行其他功能)中实现。本公开的各个方面可使用各种互联网技术(例如,众所周知的通用网关接口(CGI)脚本、PHP超文本预处理器(PHP)、活动服务器页面(ASP)、超文本标记语言(HTML)、可扩展标记语言(XML)、Java、JavaScript、异步JavaScript和XML(AJAX)、Flash和其他编程方法)加以实现。此外,本公开的各个方面可在基于云的计算平台中加以实现,例如可从Amazon.com(Seattle,WA)商购获得的众所周知的EC2平台,等等。本公开的各个方面可实现为程序化的或非程序化的元素,或其任何组合。
定义
对某些术语进行了定义。在整个说明书中定义了附加术语。
如本文所用的冠词“一”和“一个”是指该冠词的语法对象中的一者或多于一者(例如,至少一者)。
“约”和“大约”通常意指在给定测量的性质或精度的情况下,所测量的数量的可接受的误差程度。示例性的误差程度在给定数值或数值范围的20%(%)以内,通常在10%以内,更通常在5%以内。
如本文使用的术语“获取(acquire或acquiring)”是指通过“直接获取”或“间接获取”物理实体或值来获得对物理实体或值(例如,数值)的占有。“直接获取”意指执行一个过程(例如,执行合成或分析方法)以获得物理实体或值。“间接获取”是指从另一方或另一来源(例如,直接获取物理实体或值的第三方实验室)接收物理实体或值。直接获取物理实体包括:执行包括物理物质(例如,起始材料)的物理变化的过程。示例性变化包括从两种或更多种起始材料制作物理实体,对物质进行剪切或片段化,分离或纯化物质,将两个或更多个独立的实体组合为混合物,执行化学反应(包括裂解或形成共价键或非共价键)。直接获取值包括:执行包括样品或另一种物质的物理变化的过程,例如,执行包括物质(例如,样品、分析物或试剂)的物理变化的分析过程(有时在本文中称为“物理分析”),执行分析方法,例如包括以下项中的一项或多项的方法:从另一种物质中分离或纯化物质(例如,分析物或其片段或其其他衍生物);将分析物或其片段或其其他衍生物与另一种物质(例如,缓冲液、溶剂或反应物)结合;或者例如通过裂解或形成分析物的第一原子与第二原子之间的共价键或非共价键,来改变分析物或其片段或其其他衍生物的结构;或者通过改变试剂或其片段或其其他衍生物的结构,例如通过裂解或形成试剂的第一原子与第二原子之间的共价键或非共价键。
如本文所用的术语“获取序列”或“获取读数”是指通过“直接获取”或“间接获取”序列或读数来获得对核苷酸序列或氨基酸序列的占有。“直接获取”序列或读数意指执行过程(例如,执行合成或分析方法)以获得序列,例如执行测序方法(例如,下一代测序(NGS)方法)。“间接获取”序列或读数是指从另一方或另一来源(例如,直接获取序列的第三方实验室)接收序列的信息或知识,或接收序列。不需要为完整序列的获取的序列或读数(例如,对至少一种核苷酸进行测序,或获得信息或知识)构成了对序列的获取,该获取的序列或读数将本文公开的改变中的一者或多者识别为存在于样品、活体组织切片或受试者中。
直接获取序列或读数包括:执行包括物理物质(例如,起始材料,例如本文所述的样品)的物理变化的过程。示例性变化包括从两种或更多种起始材料制作物理实体,对物质(诸如基因组DNA片段)进行剪切或片段化;分离或纯化物质(例如,从组织中分离核酸样品);将两个或更多个独立的实体组合为混合物,执行化学反应(包括裂解或形成共价键或非共价键)。直接获取值包括:执行包括样品或另一种物质的物理变化的过程,如上所述。片段的大小(例如,片段的平均大小)可为2500bp或更小、2000bp或更小、1500bp或更小、1000bp或更小、800bp或更小、600bp或更小、400bp或更小,或者200bp或更小。在一些实施例中,片段(例如,cfDNA)的大小介于约150bp与约200bp之间(例如,介于约160bp与约170bp之间)。在一些实施例中,片段(例如,来自FFPE样品的DNA片段)的大小介于约150bp与约250bp之间。在一些实施例中,片段(例如,从FFPE样品中的RNA获得的cDNA片段)的大小介于约100bp与约150bp之间。
如本文所用的术语“获取样品”是指通过“直接获取”或“间接获取”样品来获得对样品(例如,本文所述的样品)的占有。“直接获取样品”意指执行过程(例如,执行物理方法,例如手术或提取)以获得样品。“间接获取样品”是指从另一方或另一来源(例如,直接获取样品的第三方实验室)接收样品。直接获取样品包括:执行包括物理物质(例如起始材料,例如组织,例如,人类患者体内的组织或先前从患者分离的组织)的物理变化的过程。示例性变化包括从起始材料制作物理实体,解剖或刮擦组织;分离或纯化物质(例如,样品组织或核酸样品);将两个或更多个独立的实体组合为混合物;执行化学反应(包括裂解或形成共价键或非共价键)。直接获取样品包括:执行包括样品或另一种物质的物理变化的过程,例如,如上所述。
如本文所用,基因或基因产物(例如,标记基因或基因产物)的“改变”或“经改变的结构”是指基因或基因产物内存在一个或多个突变,例如与正常或野生型基因相比,影响基因或基因产物的完整性、序列、结构、量或活性的突变。与其在正常或健康组织或细胞(例如,对照)中的量、结构和/或活性相比,该改变在癌组织或癌细胞中的量、结构和/或活性可为另一种情况,并且其与疾病状态(例如,癌症)相关联。例如,与癌症相关联或预测对抗癌治疗剂的应答性的改变可具有:与正常、健康的组织或细胞相比,在癌组织或癌细胞中的经改变的核苷酸序列(例如,突变)、氨基酸序列、染色体易位、染色体内倒位、拷贝数、表达水平、蛋白质水平、蛋白质活性、表观遗传修饰(例如,甲基化或乙酰化状态,或翻译后修饰。示例性突变包括但不限于点突变(例如,沉默、错义或无义)、缺失、插入、倒位、重复、扩增、易位,染色体间和染色体内重排。突变可存在于基因的编码区或非编码区。在某些实施例中,将改变检测为重排,例如包含一个或多个内含子或其片段的基因组重排(例如,5'-和/或3'-UTR中的一个或多个重排)。在某些实施例中,改变与表型(例如癌性表型(例如癌症风险、癌症进展、癌症治疗或对癌症治疗的抗性中的一者或多者))相关联(或无关联)。在一个实施例中,改变(或肿瘤突变负荷)与以下项中的一项或多项相关联:癌症的遗传风险因素、阳性治疗应答预测因子、阴性治疗应答预测因子、阳性预后因子、阴性预后因子,或诊断因子。
如本文所用,术语“插入缺失”是指细胞的核酸中的一个或多个核苷酸的插入、缺失或两者。在某些实施例中,插入缺失包括一个或多个核苷酸的插入和缺失,其中插入和缺失均在核酸附近。在某些实施例中,插入缺失导致核苷酸总数的净变化。在某些实施例中,插入缺失导致约1个至约50个核苷酸的净变化。
如本文所用的术语“克隆图谱”是指受试者区间(或包含相同受试者区间的细胞)的一个或多个序列(例如,等位基因或特征)的出现、同一性、变异性、分布、表达(亚基因组特征的转录拷贝的出现或水平)或丰度(例如,相对丰度)。在一个实施例中,当该受试者区间的多个序列、等位基因或特征存在于样品中时,克隆图谱为受试者区间(或包含相同受试者区间的细胞)的一个序列、等位基因或特征的相对丰度的值。例如,在一个实施例中,克隆图谱包含受试者区间的多个VDJ或VJ组合中的一者或多者的相对丰度的值。在一个实施例中,克隆图谱包含受试者区间的所选V区段的相对丰度的值。在一个实施例中,克隆图谱包含受试者区间的序列内的例如由体细胞超突变产生的多样性值。在一个实施例中,克隆图谱包括序列、等位基因或特征的出现或表达水平的值,例如,如由包含序列、等位基因或特征的经表达的亚基因组间隔的出现或水平所证实的。
如本文所用的术语“经表达的亚基因组间隔”是指亚基因组间隔的转录序列。在一个实施例中,经表达的亚基因组间隔的序列将不同于其被转录的亚基因组间隔,例如,因为某些序列可能不被转录。
如本文所用的术语“突变等位基因频率”(MAF)是指例如在样品中的特定基因座处的突变等位基因的相对频率。在一些实施例中,突变等位基因频率表达为分数或百分比。
如本文所用的术语“特征”是指受试者区间的序列。特征可诊断在受试者区间处的多种可能性中的一者的发生,例如,特征可诊断:在重排的重链或轻链可变区基因中所选的V区段的发生;在重排的重链可变区基因中所选的VJ连接的发生(例如,所选的V和所选的J区段的发生)。在一个实施例中,特征包含多个特异性核酸序列。因此,特征不限于特异性核酸序列,而是足够独特以致于该特征可区分受试者区间处的第一组序列或可能性与受试者区间处的第二组可能性,例如,该特征可区分第一V区段与第二V区段,从而允许例如评估各种V区段的使用。术语特征包括术语特异性特征,其为特异性核酸序列。在一个实施例中,特征指示特定事件(例如重排事件)或者为特定事件的产物。
如本文所用的术语“亚基因组间隔”是指基因组序列的一部分。在一个实施例中,亚基因组间隔可为单核苷酸位置,例如,该位置处的变体与肿瘤表型相关联(正相关或负相关)。在一个实施例中,亚基因组间隔包括多于一个核苷酸位置。此类实施例包括长度为至少2个、5个、10个、50个、100个、150个或250个核苷酸位置的序列。亚基因组间隔可包含完整基因或其部分,例如编码区(或其部分)、内含子(或其部分)或外显子(或其部分)。亚基因组间隔可包含天然存在的例如基因组DNA、核酸的片段的全部或部分。例如,亚基因组间隔可对应于进行测序反应的基因组DNA的片段。在一个实施例中,亚基因组间隔为来自基因组来源的连续序列。在一个实施例中,亚基因组间隔包括在基因组中不连续的序列,例如,cDNA中的亚基因组间隔可包括由于剪接而形成的外显子-外显子连接。在一个实施例中,亚基因组间隔包括肿瘤核酸分子。在一个实施例中,亚基因组间隔包括非肿瘤核酸分子。
在一个实施例中,亚基因组间隔对应于重排的序列,例如,由于V区段与D区段、D区段与J区段、V区段与J区段或者J区段与类区段的连接而产生B或T细胞中的序列。
在一个实施例中,亚基因组间隔由一个序列表示。在一个实施例中,亚基因组间隔由多于一个序列来表示,例如,覆盖VD序列的亚基因组间隔可由多于一个特征来表示。
在一个实施例中,亚基因组间隔包含以下项或由以下项组成:单核苷酸位置;基因内区域或基因间区域;外显子或内含子或其片段,通常为外显子序列或其片段;编码区或非编码区,例如启动子、增强子、5'非翻译区(5'UTR)或3'非翻译区(3'UTR)或其片段;cDNA或其片段;SNP;体细胞突变、种系突变或两者;改变,例如,点突变或单一突变;缺失突变(例如,框内缺失、基因内缺失、全基因缺失);插入突变(例如,基因内插入);倒位突变(例如,染色体内倒位);反向重复突变;串联重复(例如,染色体内串联重复);易位(例如,染色体易位、不可逆易位);重排(例如,基因组重排(例如,一个或多个内含子的重排、一个或多个外显子的重排、或其组合和/或片段;重排的内含子可包括5'-和/或3'-UTR));基因拷贝数的变化;基因表达的变化;RNA水平的变化;或其组合。“基因的拷贝数”是指细胞中编码特定基因产物的DNA序列的数量。通常,对于给定的基因,哺乳动物的每个基因均具有两个拷贝。拷贝数可例如通过基因扩增或重复而增加,或通过缺失而减少。
如本文所用的术语“受试者区间”是指亚基因组间隔或经表达的亚基因组间隔。在一个实施例中,亚基因组间隔和经表达的亚基因组间隔对应,意味着经表达的亚基因组间隔包含从对应的亚基因组间隔表达的序列。在一个实施例中,亚基因组间隔和经表达的亚基因组间隔为非对应的,意味着经表达的亚基因组间隔不包含从非对应的亚基因组间隔表达的序列,而是对应于不同的亚基因组间隔。在一个实施例中,亚基因组间隔和经表达的亚基因组间隔部分对应,意味着经表达的亚基因组间隔包含从对应的亚基因组间隔表达的序列和从不同的对应亚基因组间隔表达的序列。
如本文所用,术语“文库”是指核酸分子的集合。在一个实施例中,文库包括核酸核酸分子的集合,例如全基因组片段、亚基因组片段、cDNA、cDNA片段、RNA(例如mRNA)、RNA片段或其组合的集合。通常,核酸分子为DNA分子,例如基因组DNA或cDNA。核酸分子可为经片段化(例如经剪切或酶促制备)的基因组DNA。核酸分子包含来自受试者的序列并且还可包含并非衍生自受试者的序列,例如衔接子序列、引物序列或允许进行识别的其他序列(例如“条形码”序列)。在一个实施例中,部分或全部文库核酸分子包含衔接子序列。衔接子序列可位于一端或两端处。衔接子序列可用于例如测序方法(例如NGS方法)、扩增、逆转录或克隆至载体中。文库可包含核酸分子(例如靶核酸分子(例如,肿瘤核酸分子、参考核酸分子或其组合))的集合。文库的核酸分子可以来自单个个体。在实施例中,文库可包含来自多于一个受试者(例如,2个、3个、4个、5个、6个、7个、8个、9个、10个、20个、30个或更多个受试者)的核酸分子,例如,来自不同受试者的两个或更多个文库可进行组合,以形成包含来自多于一个受试者的核酸分子的文库。在一个实施例中,受试者为患有癌症或肿瘤或者存在患有癌症或肿瘤的风险的人。
“文库捕获物”是指文库的子集(例如,富集受试者区间的子集),例如通过与靶标捕获试剂杂交而捕获的产物。
如本文所用,“靶标捕获试剂”是指能够捕获目标的分子。靶标捕获试剂(例如诱饵或靶标捕获寡核苷酸)可包含核酸分子,例如DNA或RNA分子,其可进行杂交(例如互补),从而允许捕获靶核酸。在一个实施例中,靶标捕获试剂包含DNA分子(例如,天然存在的或经修饰的DNA分子)、RNA分子(例如,天然存在的或经修饰的RNA分子)或其组合。在一个实施例中,靶标捕获试剂适用于溶液相杂交。
“互补”是指两条核酸链的区域之间或同一核酸链的两个区域之间的序列互补性。已知如果残基为胸腺嘧啶或尿嘧啶,则第一核酸区域的腺嘌呤残基能够与第二核酸区域的该残基形成特定的氢键(“碱基配对”),该第二核酸区域与第一区域反平行。类似地,已知如果残基为鸟嘌呤,则第一核酸链的胞嘧啶残基能够与第二核酸链的该残基进行碱基配对,该第二核酸链与第一链反平行。核酸的第一区域与相同或不同核酸的第二区域互补,如果当两个区域以反平行方式排列时,则第一区域的至少一个核苷酸残基能够与第二区域的残基进行碱基配对。在某些实施例中,第一区域包含第一部分并且第二区域包含第二部分,由此,当第一部分和第二部分以反平行方式排列时,至少约50%、至少约75%、至少约90%或至少约95%的第一部分的核苷酸残基能够与第二部分的核苷酸残基进行碱基配对。在其他实施例中,第一部分的所有核苷酸残基能够与第二部分中的核苷酸残基进行碱基配对。
术语“癌症”和“肿瘤”在本文可互换使用。这些术语是指存在具有致癌细胞的典型特征(例如不受控制的增殖、永生、转移潜能、快速生长和增殖率以及某些独特的形态学特征)的细胞。癌细胞通常以肿瘤的形式存在,但此类细胞可单独存在于动物体内,或者可为非致瘤性癌细胞(例如白血病细胞)。这些术语包括实体瘤、软组织肿瘤或转移性病灶。如本文所用,术语“癌症”包括癌前癌症以及恶性癌症。
如本文所用,“可能”或“可能性增加”是指项目、对象、事物或人将出现的概率增加。因此,在一个示例中,相对于参考受试者或参考受试者组,可能对治疗产生应答的受试者对治疗产生应答的概率增加。
“不太可能”是指相对于参考,事件、项目、对象、事物或人将出现的概率降低。因此,相对于参考受试者或参考受试者组,不太可能对治疗产生应答的受试者对治疗产生应答的概率降低。
“对照核酸分子”是指具有来自非肿瘤细胞的序列的核酸分子。
如本文所用,“下一代测序”或“NGS”或“NG测序”是指以高通量方式(例如,同时对多于103、104、105个或更多个的分子进行测序)确定单个核酸分子的核苷酸序列(例如,在单分子测序中)或单个核酸分子的克隆扩增代理的任何测序方法。在一个实施例中,文库中的核酸种类的相对丰度可通过对它们的同源序列在由测序实验生成的数据中出现的相对次数进行计数来进行估计。下一代测序方法为本领域已知的,并且描述于例如Metzker,M.(2010)Nature Biotechnology Reviews 11:31-46,该文献以引用方式并入本文。下一代测序可检测存在于样品中的小于5%或小于1%的核酸中的变体。
如本文所指,“核苷酸值”表示占据或分配给核苷酸位置的核苷酸的同一性。典型的核苷酸值包括:缺失的(例如,删除的);额外的(例如,插入一个或多个核苷酸,其同一性可能包括或不包括在内);或存在的(占据的);A;T;C或G。其他值可为例如不为Y,其中Y为A、T、G或C;A或X,其中X为T、G或C中的一者或两者;T或X,其中X为A、G或C中的一者或两者;G或X,其中X为T、A或C中的一者或两者;C或X,其中X为T、G或A中的一者或两者;嘧啶核苷酸;或嘌呤核苷酸。核苷酸值可为核苷酸位置处的1个或多个(例如2个、3个或4个)碱基(或本文所述的其他值,例如缺失的或额外的)的频率。例如,核苷酸值可包含在核苷酸位置处的A的频率和G的频率。
“或”在本文中用于意指术语“和/或”并可与其互换使用,除非上下文另有明确指示。除非上下文另有明确指示,否则本文某些地方使用术语“和/或”并不意味着术语“或”不能与术语“和/或”互换使用。
“初级对照”是指样品中除癌旁正常组织(NAT)组织之外的非肿瘤组织。血液是典型的初级对照。
如本文所用,“样品”是指从目标来源获得或衍生的生物样品,如本文所述。在一些实施例中,目标源包括生物体,诸如动物或人。样品的源可为来自新鲜、冷冻和/或保存的器官、组织样品、活体组织切片、切除物、涂片或抽出物的实体组织;血液或任何血液成分;体液,诸如脑脊液、羊水、腹膜液或间质液;或来自受试者妊娠或发育中任何时间的细胞。在一些实施例中,样品的源是血液或血液成分。
在一些实施例中,样品是或包括生物组织或流体。样品可包含不与自然界中的组织自然混合的化合物,诸如防腐剂、抗凝剂、缓冲剂、固定剂、营养物、抗生素等。在一个实施例中,将样品保存为冷冻样品或保存为甲醛固定或多聚甲醛固定的石蜡包埋(FFPE)组织制剂。例如,样品可包埋在基质中,例如,FFPE块或冷冻样品。在另一个实施例中,样品是血液或血液成分样品。在又一个实施例中,样品是骨髓穿刺液样品。在另一个实施例中,样品包含无细胞DNA(cfDNA)。在一些实施例中,cfDNA为来自经历细胞凋亡的细胞或坏死细胞的DNA。通常,cfDNA与蛋白质(例如,组蛋白)结合并由核酸酶保护。CfDNA可用作用于无创产前检测(NIPT)、器官移植、心肌病、微生物组和癌症的生物标志物。在另一个实施例中,样品包含循环肿瘤DNA(ctDNA)。在一些实施例中,ctDNA为具有遗传或表观遗传改变(例如,体细胞改变或甲基化特征)的cfDNA,该改变可辨别其源自肿瘤细胞还是非肿瘤细胞。在另一个实施例中,样品包含循环肿瘤细胞(CTC)。在一些实施例中,CTC为从原发性或转移性肿瘤脱落至循环中的细胞。在一些实施例中,CTC凋亡为血液/淋巴中ctDNA的源。
在一些实施例中,生物样品可为或包括骨髓;血液;血细胞;腹水;组织或细针活体组织切片样品;含细胞的体液;游离的浮动核酸;痰;唾液;尿液;脑脊液;腹膜液;胸膜液;粪便;淋巴;妇科液;皮肤拭子;阴道拭子;口腔拭子;鼻拭子;洗涤或灌洗,诸如导管灌洗或支气管肺泡灌洗;抽出物;刮屑;骨髓标本;组织活检标本;手术标本;粪便、其他体液、分泌物和/或排泄物;和/或来自其中的细胞等。在一些实施例中,生物样品为或包括从个体获得的细胞。在一些实施例中,获得的细胞是或包括来自从其获得样品的个体的细胞。
在一些实施例中,样品是通过任何适当的手段直接从目标源获得的“原始样品”。例如,在一些实施例中,通过选自活体组织切片(例如细针抽吸或组织活检)、手术、体液收集(例如血液、淋巴或粪便)等的方法来获得原始生物样品。在一些实施例中,从上下文中可清楚地看出,术语“样品”是指通过处理(例如,使用半透膜过滤)原始样品(例如,通过去除其一种或多种组分和/或通过向其添加一种或多种试剂)来获得的制剂。此类“经处理的样品”可包括例如从样品中提取的核酸或蛋白质,或者通过使原始样品经受诸如mRNA的扩增或逆转录、某些组分的分离和/或纯化等技术而获得的核酸或蛋白质。
在一个实施例中,样品为与肿瘤相关联的细胞,例如,肿瘤细胞或肿瘤浸润淋巴细胞(TIL)。在一个实施例中,样品包括一个或多个癌前细胞或恶性细胞。在一个实施例中,样品是从血液恶性肿瘤(或初癌)(例如,本文所述的血液恶性肿瘤(或初癌))获取的。在某些实施例中,样品是从实体瘤、软组织肿瘤或转移性病灶获取的。在其他实施例中,样品包括来自手术切缘的组织或细胞。在另一个实施例中,样品包括一个或多个循环肿瘤细胞(CTC)(例如,从血液样品获取的CTC)。在一个实施例中,样品是与肿瘤无关联的细胞,例如,非肿瘤细胞或外周血淋巴细胞。
如本文所用,“灵敏度”为具有如下能力的方法的量度:检测序列的异质群体中的序列变体。如果给定一个样品,其中序列变体作为样品中至少F%的该序列而存在,一种方法可在C%的置信度、ST%的时间下检测到该序列,则该方法对于F%的变体具有ST%的灵敏度。举例而言,如果给定一个样品,其中变体序列作为样品中至少5%的该序列而存在,一种方法可在99%的置信度、10次中有9次检测到该序列(F=5%;C=99%;ST=90%),则该方法对于5%的变体具有90%的灵敏度。示例性灵敏度包括对于序列变体,在F=1%、5%、10%、20%、50%、100%下,C=90%、95%、99%和99.9%的置信水平下,灵敏度的ST=90%、95%、99%。
如本文所用,“特异性”为一种方法将真正发生的序列变体与测序伪影或其他紧密相关的序列区分开来的能力的量度。这是避免出现假阳性检测的能力。假阳性检测可能源于在样品制备过程中引入目标序列的误差、测序误差或无意中对紧密相关的序列(如基因家族的假基因或核酸分子)进行测序。如果当方法应用于N序列的样品集时,其中X序列为真正变异,而X非真为非真正变异,该方法选择至少X%的非真正变异作为非变异,则该方法具有X%的特异性,例如,如果当方法应用于1,000个序列的样品集时,其中500个序列为真正变异,而500个为非真正变异,该方法选择500个非真正变异序列的90%作为非变异,则该方法具有90%的特异性。示例性的特异性包括90%、95%、98%和99%。
如本文所用,“对照核酸”或“参照核酸”是指来自对照或参照样品的核酸分子。通常,其为DNA,例如基因组DNA或衍生自RNA的cDNA,不包含基因或基因产物的改变或变异。在某些实施例中,参考或对照核酸样品为野生型或非突变序列。在某些实施例中,参考核酸样品被纯化或分离(例如,该参考核酸样品从其天然状态中移除)。在其他实施例中,参考核酸样品来自血液对照、癌旁正常组织(NAT)或来自相同或不同受试者的任何其他非癌性样品。在一些实施例中,参考核酸样品包含正常DNA混合物。在一些实施例中,正常DNA混合物为过程匹配对照。在一些实施例中,参考核酸样品具有种系变体。在一些实施例中,参考核酸样品没有体细胞改变,例如用作阴性对照。
对核酸分子进行“测序”需要确定分子(例如,DNA分子、RNA分子或衍生自RNA分子的cDNA分子)中至少1个核苷酸的同一性。在实施例中,确定了分子中小于全部核苷酸的同一性。在其他实施例中,确定了分子中大部分或全部核苷酸的同一性。
如本文所用,“阈值”是作为将核苷酸值分配给受试者区间(例如,亚基因组间隔或经表达的亚基因组间隔)所需存在的读数数量的函数的值。例如,它是在核苷酸位置处具有特定核苷酸值(例如“A”)的读数数量的函数,需要该函数以将该核苷酸值分配给亚基因组间隔中的该核苷酸位置。阈值可例如表达为读数的数量(或作为其函数),例如整数,或表达为具有该值的读数的比例。举例而言,如果阈值为X,并且存在具有值为“A”的核苷酸值的X+1个读数,则“A”的值分配给受试者区间(例如,亚基因组间隔或经表达的亚基因组间隔)中的位置。阈值也可表达为突变或变异期望、突变频率的函数,或贝叶斯先验的函数。在一个实施例中,突变频率需要在某一位置处具有核苷酸值(例如A或G)的一定数量或比例的读数,以调用该核苷酸值。在实施例中,阈值可为突变期望(例如,突变频率)和肿瘤类型的函数。例如,如果患者具有第一肿瘤类型,则核苷酸位置处的变体可具有第一阈值,如果患者具有第二肿瘤类型,则可具有第二阈值。
如本文所用,“靶核酸分子”是指期望从核酸文库中分离的核酸分子。在一个实施例中,靶核酸分子可为肿瘤核酸分子、参考核酸分子或对照核酸分子,如本文所述。
如本文所用,“肿瘤核酸分子”或其他类似术语(例如,“肿瘤或癌症相关核酸分子”)是指具有来自肿瘤细胞的序列的核酸分子。术语“肿瘤核酸分子”和“肿瘤核酸”在本文有时可互换使用。在一个实施例中,肿瘤核酸分子包括具有序列(例如,核苷酸序列)的受试者区间,该序列具有与癌性表型相关联的改变(例如,突变)。在其他实施例中,肿瘤核酸分子包括具有野生型序列(例如,野生型核苷酸序列)的受试者区间。例如,来自存在于癌细胞中的杂合或纯合野生型等位基因的受试者区间。肿瘤核酸分子可包括参考核酸分子。通常,它是来自样品的DNA,例如基因组DNA或衍生自RNA的cDNA。在某些实施例中,样品被纯化或分离(例如,该样品从其天然状态中移除)。在一些实施例中,肿瘤核酸分子为cfDNA。在一些实施例中,肿瘤核酸分子为ctDNA。在一些实施例中,肿瘤核酸分子为来自CTC的DNA。
如本文所用,“参考核酸分子”或其他类似术语(例如“对照核酸分子”)是指包含具有序列(例如,核苷酸序列)的受试者区间的核酸分子,该序列与癌性表型无关联。在一个实施例中,参考核酸分子包含当突变时与癌性表型相关联的基因或基因产物的野生型或非突变核苷酸序列。参考核酸分子可存在于癌细胞或非癌细胞中。
如本文所用,“变体”是指可存在于亚基因组间隔处的结构,该亚基因组间隔可具有多于一种结构,例如多态性基因座处的等位基因。
“分离的”核酸分子为与存在于核酸分子的天然来源中的其他核酸分子分离的核酸分子。在某些实施例中,“分离的”核酸分子不含天然位于生物体的基因组DNA中核酸的侧翼的序列(例如蛋白质编码序列)(即,位于核酸的5'和3'末端的序列),核酸衍生自该生物体。例如,在各种实施例中,分离的核酸分子可包含小于约5kB、小于约4kB、小于约3kB、小于约2kB、小于约1kB、小于约0.5kB或小于约0.1kB的核苷酸序列,该核苷酸序列天然位于细胞的基因组DNA中核酸分子的侧翼,核酸衍生自该细胞。此外,“分离的”核酸分子(诸如RNA分子或cDNA分子)可基本上不含其他细胞材料或培养基(例如,当通过重组技术产生时)或者基本上不含化学前体或其他化学物质(例如,当化学合成时)。
措辞“基本上不含其他细胞材料或培养基”包括核酸分子的制备物,其中分子与从中分离或重组产生该分子的细胞的细胞组分分离。因此,基本上不含细胞材料的核酸分子包括核酸分子的制备物,该核酸分子的制备物具有小于约30%、小于约20%、小于约10%或小于约5%(以干重计)的其他细胞材料或培养基。
如本文所用,“X为Y的函数”意指例如一个变量X与另一个变量Y相关联。X与Y之间的关联可为直接的或间接的。在一个实施例中,如果X为Y的函数,则可能意味着X与Y之间的因果关系,但该因果关系不一定存在。
标题(例如(a)、(b)、(i)等)的存在仅是为了便于阅读说明书和权利要求书。说明书或权利要求书中标题的使用不要求按照字母或数字顺序或它们出现的顺序来执行步骤或元素。说明书或权利要求书中标题的使用也不要求执行所有步骤或元素。
多基因分析
本文所述的方法可与用于评估例如来自本文所述的一组基因或基因产物的一组受试者区间的方法结合使用,或作为其一部分使用。
在某些实施例中,该组基因包含多种基因,所述多种基因以突变体形式与对细胞分裂、生长或存活的影响相关联,或与癌症(例如,本文所述的癌症)相关联。
在某些实施例中,该组基因包含至少约50个或更多个、约100个或更多个、约150个或更多个、约200个或更多个、约250个或更多个、约300个或更多个、约350个或更多个、约400个或更多个、约450个或更多个、约500个或更多个、约550个或更多个、约600个或更多个、约650个或更多个、约700个或更多个、约750个或更多个,或者约800个或更多个基因(例如,如本文所述)。在一些实施例中,该组基因包含表2A-5B中描述的所选的至少约50个或更多个、约100个或更多个、约150个或更多个、约200个或更多个、约250个或更多个、约300个或更多个,或者所有基因。
在某些实施例中,该方法包括:获取包含来自样品的多个肿瘤核酸分子的文库。在某些实施例中,该方法进一步包括:将文库与靶标捕获试剂接触以提供所选肿瘤核酸分子,其中所述靶标捕获试剂与来自文库的肿瘤核酸分子杂交,从而提供文库捕获物。在某些实施例中,该方法进一步包括:例如通过下一代测序方法从来自文库或文库捕获物的肿瘤核酸分子获取包含改变(例如,体细胞改变)的受试者区间的读数,从而获取受试者区间的读数。在某些实施例中,该方法进一步包括通过比对方法(例如,本文所述的比对方法)来比对受试者区间的读数。在某些实施例中,该方法进一步包括例如通过本文所述的突变调用方法,从受试者区间的读数为核苷酸位置分配核苷酸值。
在某些实施例中,该方法包括以下项中的一项、两项、三项、四项或全部:
(a)获取包含来自样品的多个肿瘤核酸分子的文库;
(b)将文库与多个靶标捕获试剂接触以提供所选的肿瘤核酸分子,其中所述多个靶标捕获试剂与肿瘤核酸分子杂交,从而提供文库捕获物;
(c)例如通过下一代测序方法从来自所述文库捕获物的肿瘤核酸分子获取包含改变(例如,体细胞改变)的受试者区间的读数,从而获取受试者区间的读数;
(d)通过比对方法(例如,本文所述的比对方法)来比对所述读数;或者
(e)例如通过本文所述的突变调用方法,从所述读数为核苷酸位置分配核苷酸值。
在某些实施例中,获取受试者区间的读数包括对来自至少约50个或更多个、约100个或更多个、约150个或更多个、约200个或更多个、约250个或更多个、约300个或更多个、约350个或更多个、约400个或更多个、约450个或更多个、约500个或更多个、约550个或更多个、约600个或更多个、约650个或更多个、约700个或更多个、约750个或更多个,或者约800个或更多个基因的受试者区间进行测序。在某些实施例中,获取受试者区间的读数包括对来自表2A-5B中所述的至少约50个或更多个、约100个或更多个、约150个或更多个、约200个或更多个、约250个或更多个、约300个或更多个或者所有基因的受试者区间进行测序。
在某些实施例中,获取受试者区间的读数包括使用100X或更高的平均深度来进行测序。在某些实施例中,获取受试者区间的读数包括使用约250X或更高的平均深度来进行测序。在其他实施例中,获取受试者区间的读数包括使用约500X或更高的平均深度来进行测序。在某些实施例中,获取受试者区间的读数包括使用约800X或更高的平均深度来进行测序。在其他实施例中,获取受试者区间的读数包括使用约1,000X或更高的平均深度来进行测序。在其他实施例中,获取受试者区间的读数包括使用约1,500X或更高的平均深度来进行测序。在其他实施例中,获取受试者区间的读数包括使用约2,000X或更高的平均深度来进行测序。在其他实施例中,获取受试者区间的读数包括使用约2,500X或更高的平均深度来进行测序。在某些实施例中,获取受试者区间的读数包括使用约3,000X或更高的平均深度来进行测序。在某些实施例中,获取受试者区间的读数包括使用约3,500X或更高的平均深度来进行测序。在某些实施例中,获取受试者区间的读数包括使用约4,000X或更高的平均深度来进行测序。在某些实施例中,获取受试者区间的读数包括使用约4,500X或更高的平均深度来进行测序。在某些实施例中,获取受试者区间的读数包括使用约5,000X或更高的平均深度来进行测序。在某些实施例中,获取受试者区间的读数包括使用约5,500X或更高的平均深度来进行测序。在某些实施例中,获取受试者区间的读数包括使用约6,000X或更高的平均深度来进行测序。
在某些实施例中,获取受试者区间的读数包括使用约100X或更高的平均深度来进行测序,大于约99%的基因(例如外显子)加以测序。在某些实施例中,获取受试者区间的读数包括使用约250X或更高的平均深度来进行测序,大于约99%的基因(例如外显子)加以测序。在其他实施例中,获取受试者区间的读数包括使用约500X或更高的平均深度来进行测序,大于约95%的基因(例如外显子)加以测序。在其他实施例中,获取受试者区间的读数包括使用约800X或更高的平均深度来进行测序,大于约95%的基因(例如外显子)加以测序。在其他实施例中,获取受试者区间的读数包括使用大于约1,000X的平均深度来进行测序,大于约90%的基因(例如外显子)加以测序。在其他实施例中,获取受试者区间的读数包括使用约2,000X或更高的平均深度来进行测序,大于约90%的基因(例如外显子)加以测序。在其他实施例中,获取受试者区间的读数包括使用约3,000X或更高的平均深度来进行测序,大于约90%的基因(例如外显子)加以测序。在其他实施例中,获取受试者区间的读数包括使用约3,500X或更高的平均深度来进行测序,大于约90%的基因(例如外显子)加以测序。在其他实施例中,获取受试者区间的读数包括使用约4,000X或更高的平均深度来进行测序,大于约90%的基因(例如外显子)加以测序。在其他实施例中,获取受试者区间的读数包括使用约4,500X或更高的平均深度来进行测序,大于约90%的基因(例如外显子)加以测序。在其他实施例中,获取受试者区间的读数包括使用约5,000X或更高的平均深度来进行测序,大于约90%的基因(例如外显子)加以测序。在其他实施例中,获取受试者区间的读数包括使用约5,500X或更高的平均深度来进行测序,大于约90%的基因(例如外显子)加以测序。在其他实施例中,获取受试者区间的读数包括使用约6,000X或更高的平均深度来进行测序,大于约90%的基因(例如外显子)加以测序。在某些实施例中,获取受试者区间的读数包括使用约100X或更高、约250X或更高、约500X或更高、约1,000X或更高、约1,500X或更高、约2,000X或更高、约2,500X或更高、约3,000X或更高、约3,500X或更高、约4,000X或更高、约4,500X或更高、约5,000X或更高、约5,500X或更高,或者约6,000X或更高的平均深度来进行测序,大于约99%的基因(例如外显子)加以测序。
在某些实施例中,本文所述的一组受试者区间(例如,编码受试者区间)的序列(例如,核苷酸序列)由本文所述的方法提供。在某些实施例中,在不使用包括匹配的正常对照(例如,野生型对照)、匹配的肿瘤对照(例如,原发性对比转移性)或两者的方法的情况下提供序列。
基因选择
本文描述了用于分析的受试者区间(例如亚基因组间隔、经表达的亚基因组间隔或两者),例如多个集合或组的基因和其他区域的一个组或集合的亚基因组间隔。
在一些实施例中,该方法包括例如通过下一代测序方法对来自至少5个、6个、7个、8个、9个、10个、15个、20个、25个、30个、40个、50个、60个、70个、80个、90个、100个、200个、300个、400个、500个或更多个基因或基因产物的受试者区间进行测序,该基因或基因产物区间来自所获取的核酸样品,其中基因选自表2A-5B。
在一些实施例中,该方法包括例如通过下一代测序方法对来自至少5个、6个、7个、8个、9个、10个、15个、20个、25个、30个、40个、50个、60个、70个、80个、90个、100个、200个、300个、400个、500个或更多个基因或基因产物的受试者区间进行测序,该基因或基因产物区间来自样品,其中基因选自表2A-5B。
在另一个实施例中,分析以下集合或组中的一者的受试者区间。例如,与肿瘤或癌症基因或基因产物和参考(例如,野生型)基因或基因产物相关联的受试者区间可提供来自样品的一个组或集合的亚基因组间隔。
在一个实施例中,该方法从样品中获取一组受试者区间的读数(例如,序列)其中受试者区间选自以下项中的至少1项、2项、3项、4项、5项、6项、7项或全部:
A)至少5个、6个、7个、8个、9个、10个、15个、20个、25个、30个、40个、50个、60个、70个、80个、90个、100个、200个、300个、400个、500个或更多个受试者区间,例如,来自根据表2A-5B的突变或野生型基因的亚基因组间隔、或经表达的亚基因组间隔,或两者;
B)至少5个、6个、7个、8个、9个、10个、15个、20个、25个、30个、40个、50个、60个、70个、80个、90个、100个、200个、300个、400个、500个或更多个受试者区间,该受试者区间来自与肿瘤或癌症相关联的基因或基因产物(例如,为阳性或阴性治疗应答预测因子,为阳性或阴性预后因子,或能够鉴别诊断肿瘤或癌症,例如,根据表2A-5B的基因);
C)至少5个、6个、7个、8个、9个、10个、15个、20个、25个、30个、40个、50个、60个、70个、80个、90个、100个、200个、300个、400个、500个或更多个受试者区间,该受试者区间来自存在于选自表2A-5B的基因中的亚基因组间隔的突变或野生型基因或基因产物(例如,单核苷酸多态性(SNP));
D)至少5个、6个、7个、8个、9个、10个、15个、20个、25个、30个、40个、50个、60个、70个、80个、90个、100个、200个、300个、400个、500个或更多个受试者区间,该受试者区间来自存在于选自表2A-5B的基因中的受试者区间的突变或野生型基因(例如,单核苷酸多态性(SNP)),其与以下项中的一项或多项相关联:(i)使用药物治疗的癌症患者的存活率更高(例如,使用紫杉醇治疗的乳腺癌患者的存活率更高);(ii)紫杉醇代谢;
(iii)药物的毒性;或(iv)药物的副作用;
E)多个易位改变,所述多个易位改变涉及至少5个、6个、7个、8个、9个、10个、15个、20个、25个、30个、40个、50个、60个、70个、80个、90个、100个、200个、300个、400个、500个或更多个根据表2A-5B的基因或基因产物;
F)至少五种选自表2A-5B的基因,其中例如在某一位置处的等位基因变异与肿瘤类型相关联,并且其中所述等位基因变异存在于所述肿瘤类型中小于5%的细胞中;
G)至少五个选自表2A-5B的基因,该基因嵌入富含GC的区域;或者
H)至少五个基因,所述至少五个基因指示用于罹患癌症的遗传(例如,种系风险)因子(例如,基因或基因产物选自表2A-5B)。
在又一个实施例中,该方法从样品中获取一组受试者区间的读数(例如,序列),其中受试者区间选自5个、6个、7个、8个、9个、10个、15个、20个、25个、30个、40个、50个、60个、70个、80个、90个、100个、200个、300个、400个或所有表2A-2C中所述的基因。
在又一个实施例中,该方法从样品中获取一组受试者区间的读数(例如,序列),其中受试者区间选自5个、6个、7个、8个、9个、10个、15个、20个、25个、30个或所有表3A-3B中所述的基因。
在又一个实施例中,该方法从样品中获取一组受试者区间的读数(例如,序列),其中受试者区间选自至少5个、6个、7个、8个、9个、10个、15个、20个、25个、30个、40个、50个、60个、70个、80个、90个、100个、200个、300个或所有表4A-4C中所述的基因。
在又一个实施例中,该方法从样品中获取一组受试者区间的读数(例如,序列),其中受试者区间选自至少5个、6个、7个、8个、9个、10个、15个、20个、25个、30个、40个、50个、60个、70个、80个或所有表5A-5B中所述的基因。
所选的基因或基因产物(在本文中也称为“靶基因或基因产物”)可包括包含基因内区域或基因间区域的受试者区间。例如,受试者区间可包括外显子或内含子,或其片段,通常为外显子序列或其片段。受试者区间可包括编码区或非编码区,例如启动子、增强子、5'非翻译区(5'UTR)或3'非翻译区(3'UTR)或其片段.在其他实施例中,受试者区间包括cDNA或其片段。在其他实施例中,受试者区间包括SNP,例如,如本文所述。
在其他实施例中,受试者区间包括基因组中的基本上所有外显子,例如,如本文所述的受试者区间中的一者或多者(例如,来自所选基因或目标基因产物(例如,与如本文所述的癌性表型相关联的基因或基因产物)的外显子)。在一个实施例中,受试者区间包括体细胞突变、种系突变或两者。在一个实施例中,受试者区间包括改变(例如,点突变或单一突变)、缺失突变(例如,框内缺失、基因内缺失、全基因缺失)、插入突变(例如,基因内插入)、倒位突变(例如,染色体内倒位)、连锁突变、连锁插入突变、反向重复突变、串联重复(例如,染色体内串联重复)、易位(例如,染色体易位、不可逆易位)、重排、基因拷贝数的变化或其组合。在某些实施例中,受试者区间构成样品中肿瘤细胞的基因组的编码区的小于5%、1%、0.5%、0.1%、0.05%、0.01%、0.005%或0.001%。在其他实施例中,受试者区间不参与疾病,例如,与如本文所述的癌性表型无关联。
在一个实施例中,靶基因或基因产物为生物标志物。如本文所用,“生物标志物”或“标志物”是可加以改变的基因、mRNA或蛋白质,其中所述改变与癌症相关联。与其在正常或健康组织或细胞(例如,对照)中的量、结构和/或活性相比,该改变在癌组织或癌细胞中的量、结构和/或活性可为另一种情况,并且其与疾病状态(例如,癌症)相关联。例如,与癌症相关联或预测对抗癌治疗剂的应答性的标志物可具有:与正常、健康的组织或细胞相比,在癌组织或癌细胞中的经改变的核苷酸序列、氨基酸序列、染色体易位、染色体内倒位、拷贝数、表达水平、蛋白质水平、蛋白质活性、表观遗传修饰(例如,甲基化或乙酰化状态,或翻译后修饰。此外,“标志物”包括当存在于与疾病状态(例如,癌症)相关联的组织或细胞中时,其结构经过改变(例如,经过突变(包含突变),例如在核苷酸或氨基酸水平上不同于野生型序列)的分子,例如通过取代、缺失或插入。
在一个实施例中,靶基因或基因产物包括单核苷酸多态性(SNP)。在另一个实施例中,基因或基因产物具有小的缺失,例如小的基因内缺失(例如,框内或框移缺失)。在又一个实施例中,靶序列由完整基因的缺失而产生。在又一个实施例中,靶序列具有小的插入,例如小的基因内插入。在一个实施例中,靶序列由倒位产生,例如染色体内倒位。在另一个实施例中,靶序列由染色体间易位产生。在又一个实施例中,靶序列具有串联重复。在一个实施例中,靶序列具有非期望的特征(例如,高GC含量或重复元素)。在另一个实施例中,靶序列具有例如因为其重复性质而自身不能成功加以靶向的核苷酸序列的部分。在一个实施例中,靶序列由选择性剪接产生。在另一个实施例中,靶序列选自根据表2A-5B的基因或基因产物或其片段。
在一个实施例中,靶基因或基因产物或其片段为抗体基因或基因产物、免疫球蛋白超家族受体(例如,B细胞受体(BCR)或T细胞受体(TCR))基因或基因产物或其片段。
人抗体分子(和B细胞受体)由具有恒定(C)区和可变(V)区两者的重链和轻链组成,该重链和轻链由至少以下三个基因座上的基因进行编码。
1.14号染色体上的免疫球蛋白重链基因座(IGH@),其包含免疫球蛋白重链的基因区段;
2.2号染色体上的免疫球蛋白κ(kappa)基因座(IGK@),其包含免疫球蛋白轻链的基因区段;
3.22号染色体上的免疫球蛋白λ(lambda)基因座(IGL@),其包含免疫球蛋白轻链的基因区段。
每个重链和轻链基因包含抗体蛋白的可变区的三种不同类型基因区段的多个拷贝。例如,免疫球蛋白重链区可包含五种不同类别γ、δ、α、μ和ε之的一者、44个可变(V)基因区段、27个多样性(D)基因区段和6个连接(J)基因区段。轻链也可具有许多V和J基因区段,但不具有D基因区段。λ轻链具有7个可能的C区,而κ轻链具有1个。
免疫球蛋白重链基因座(IGH@)为人类14号染色体上的区域,该染色体包含人抗体(或免疫球蛋白)的重链的基因。例如,IGH基因座包括IGHV(可变)、IGHD(多样性)、IGHJ(连接)和IGHC(恒定)基因。编码免疫球蛋白重链的示例性基因包括但不限于IGHV1-2、IGHV1-3、IGHV1-8、IGHV1-12、IGHV1-14、IGHV1-17、IGHV1-18、IGHV1-24、IGHV1-45、IGHV1-46、IGHV1-58、IGHV1-67、IGHV1-68、IGHV1-69、IGHV1-38-4、IGHV1-69-2、IGHV2-5、IGHV2-10、IGHV2-26、IGHV2-70、IGHV3-6、IGHV3-7、IGHV3-9、IGHV3-11、IGHV3-13、IGHV3-15、IGHV3-16、IGHV3-19、IGHV3-20、IGHV3-21、IGHV3-22、IGHV3-23、IGHV3-25、IGHV3-29、IGHV3-30、IGHV3-30-2、IGHV3-30-3、IGHV3-30-5、IGHV3-32、IGHV3-33、IGHV3-33-2、IGHV3-35、IGHV3-36、IGHV3-37、IGHV3-38、IGHV3-41、IGHV3-42、IGHV3-43、IGHV3-47、IGHV3-48、IGHV3-49、IGHV3-50、IGHV3-52、IGHV3-53、IGHV3-54、IGHV3-57、IGHV3-60、IGHV3-62、IGHV3-63、IGHV3-64、IGHV3-65、IGHV3-66、IGHV3-71、IGHV3-72、IGHV3-73、IGHV3-74、IGHV3-75、IGHV3-76、IGHV3-79、IGHV3-38-3、IGHV3-69-1、IGHV4-4、IGHV4-28、IGHV4-30-1、IGHV4-30-2、IGHV4-30-4、IGHV4-31、IGHV4-34、IGHV4-39、IGHV4-55、IGHV4-59、IGHV4-61、IGHV4-80、IGHV4-38-2、IGHV5-51、IGHV5-78、IGHV5-10-1、IGHV6-1、IGHV7-4-1、IGHV7-27、IGHV7-34-1、IGHV7-40、IGHV7-56、IGHV7-81、IGHVII-1-1、IGHVII-15-1、IGHVII-20-1、IGHVII-22-1、IGHVII-26-2、IGHVII-28-1、IGHVII-30-1、IGHVII-31-1、IGHVII-33-1、IGHVII-40-1、IGHVII-43-1、IGHVII-44-2、IGHVII-46-1、IGHVII-49-1、IGHVII-51-2、IGHVII-53-1、IGHVII-60-1、IGHVII-62-1、IGHVII-65-1、IGHVII-67-1、IGHVII-74-1、IGHVII-78-1、IGHVIII-2-1、IGHVIII-5-1、IGHVIII-5-2、IGHVIII-11-1、IGHVIII-13-1、IGHVIII-16-1、IGHVIII-22-2、IGHVIII-25-1、IGHVIII-26-1、IGHVIII-38-1、IGHVIII-44、IGHVIII-47-1、IGHVIII-51-1、IGHVIII-67-2、IGHVIII-67-3、IGHVIII-67-4、IGHVIII-76-1、IGHVIII-82、IGHVIV-44-1、IGHD1-1、IGHD1-7、IGHD1-14、IGHD1-20、IGHD1-26、IGHD2-2、IGHD2-8、IGHD2-15、IGHD2-21、IGHD3-3、IGHD3-9、IGHD3-10、IGHD3-16、IGHD3-22、IGHD4-4、IGHD4-11、IGHD4-17、IGHD4-23、IGHD5-5、IGHD5-12、IGHD5-18、IGHD5-24、IGHD6-6、IGHD6-13、IGHD6-19、IGHD6-25、IGHD7-27、IGHJ1、IGHJ1P、IGHJ2、IGHJ2P、IGHJ3、IGHJ3P、IGHJ4、IGHJ5、IGHJ6、IGHA1、IGHA2、IGHG1、IGHG2、IGHG3、IGHG4、IGHGP、IGHD、IGHE、IGHEP1、IGHM和IGHV1-69D。
免疫球蛋白κ基因座(IGK@)为人类2号染色体上的区域,该染色体包含抗体(或免疫球蛋白)的κ(kappa)轻链的基因。例如,IGK基因座包括IGKV(可变)、IGKJ(连接)和IGKC(恒定)基因。编码免疫球蛋白κ轻链的示例性基因包括但不限于IGKV1-5、IGKV1-6、IGKV1-8、IGKV1-9、IGKV1-12、IGKV1-13、IGKV1-16、IGKV1-17、IGKV1-22、IGKV1-27、IGKV1-32、IGKV1-33、IGKV1-35、IGKV1-37、IGKV1-39、IGKV1D-8、IGKV1D-12、IGKV1D-13、IGKV1D-16、IGKV1D-17、IGKV1D-22、IGKV1D-27、IGKV1D-32、IGKV1D-33、IGKV1D-35、IGKV1D-37、IGKV1D-39、IGKV1D-42、IGKV1D-43、IGKV2-4、IGKV2-10、IGKV2-14、IGKV2-18、IGKV2-19、IGKV2-23、IGKV2-24、IGKV2-26、IGKV2-28、IGKV2-29、IGKV2-30、IGKV2-36、IGKV2-38、IGKV2-40、IGKV2D-10、IGKV2D-14、IGKV2D-18、IGKV2D-19、IGKV2D-23、IGKV2D-24、IGKV2D-26、IGKV2D-28、IGKV2D-29、IGKV2D-30、IGKV2D-36、IGKV2D-38、IGKV2D-40、IGKV3-7、IGKV3-11、IGKV3-15、IGKV3-20、IGKV3-25、IGKV3-31、IGKV3-34、IGKV3D-7、IGKV3D-11、IGKV3D-15、IGKV3D-20、IGKV3D-25、IGKV3D-31、IGKV3D-34、IGKV4-1、IGKV5-2、IGKV6-21、IGKV6D-21、IGKV6D-41、IGKV7-3、IGKJ1、IGKJ2、IGKJ3、IGKJ4、IGKJ5和IGKC。
免疫球蛋白λ基因座(IGL@)为人类22号染色体上的区域,该染色体包含抗体(或免疫球蛋白)的λ轻链的基因。例如,IGL基因座包括IGLV(可变)、IGLJ(连接)和IGLC(恒定)基因。编码免疫球蛋白λ轻链的示例性基因包括但不限于IGLV1-36、IGLV1-40、IGLV1-41、IGLV1-44、IGLV1-47、IGLV1-50、IGLV1-51、IGLV1-62、IGLV2-5、IGLV2-8、IGLV2-11、IGLV2-14、IGLV2-18、IGLV2-23、IGLV2-28、IGLV2-33、IGLV2-34、IGLV3-1、IGLV3-2、IGLV3-4、IGLV3-6、IGLV3-7、IGLV3-9、IGLV3-10、IGLV3-12、IGLV3-13、IGLV3-15、IGLV3-16、IGLV3-17、IGLV3-19、IGLV3-21、IGLV3-22、IGLV3-24、IGLV3-25、IGLV3-26、IGLV3-27、IGLV3-29、IGLV3-30、IGLV3-31、IGLV3-32、IGLV4-3、IGLV4-60、IGLV4-69、IGLV5-37、IGLV5-39、IGLV5-45、IGLV5-48、IGLV5-52、IGLV6-57、IGLV7-35、IGLV7-43、IGLV7-46、IGLV8-61、IGLV9-49、IGLV10-54、IGLV10-67、IGLV11-55、IGLVI-20、IGLVI-38、IGLVI-42、IGLVI-56、IGLVI-63、IGLVI-68、IGLVI-70、IGLVIV-53、IGLVIV-59、IGLVIV-64、IGLVIV-65、IGLVIV-66-1、IGLVV-58、IGLVV-66、IGLVVI-22-1、IGLVVI-25-1、IGLVVII-41-1、IGLJ1、IGLJ2、IGLJ3、IGLJ4、IGLJ5、IGLJ6、IGLJ7、IGLC1、IGLC2、IGLC3、IGLC4、IGLC5、IGLC6和IGLC7。
B细胞受体(BCR)由两部分组成:i)一种同种型的膜结合免疫球蛋白分子(例如IgD或IgM)。除了存在整合膜结构域以外,它们可与其分泌形式相同,以及ii)信号转导部分:称为Ig-α/Ig-β(CD79)的异源二聚体,通过二硫键结合在一起。二聚体的每个核酸分子跨越质膜并具有带有免疫受体酪氨酸激活基序(ITAM)的胞质尾区。
T细胞受体(TCR)由两条不同的蛋白质链(即,异源二聚体)组成。在95%的T细胞中,它由α(alpha)和β(beta)链组成,而在5%的T细胞中,它由γ(gamma)和δ(delta)链组成。该比率可在个体发育期间和患病状态下发生变化。T细胞受体基因类似于免疫球蛋白基因,因为它们在其β和δ链中也包含多个V、D和J基因区段(以及在其α和γ链中的V和J基因区段),该基因区段在淋巴细胞的发育过程中重排,以便向每个细胞提供独特的抗原受体。
T细胞受体α基因座(TRA)为人类14号染色体上的区域,该染色体包含TCRα链的基因。例如,TRA基因座包括例如TRAV(可变)、TRAJ(连接)和TRAC(恒定)基因。编码T细胞受体α链的示例性基因包括但不限于TRAV1-1、TRAV1-2、TRAV2、TRAV3、TRAV4、TRAV5、TRAV6、TRAV7、TRAV8-1、TRAV8-2、TRAV8-3、TRAV8-4、TRAV8-5、TRAV8-6、TRAV8-7、TRAV9-1、TRAV9-2、TRAV10、TRAV11、TRAV12-1、TRAV12-2、TRAV12-3、TRAV13-1、TRAV13-2、TRAV14DV4、TRAV15、TRAV16、TRAV17、TRAV18、TRAV19、TRAV20、TRAV21、TRAV22、TRAV23DV6、TRAV24、TRAV25、TRAV26-1、TRAV26-2、TRAV27、TRAV28、TRAV29DV5、TRAV30、TRAV31、TRAV32、TRAV33、TRAV34、TRAV35、TRAV36DV7、TRAV37、TRAV38-1、TRAV38-2DV8、TRAV39、TRAV40、TRAV41、TRAJ1、TRAJ2、TRAJ3、TRAJ4、TRAJ5、TRAJ6、TRAJ7、TRAJ8、TRAJ9、TRAJ10、TRAJ11、TRAJ12、TRAJ13、TRAJ14、TRAJ15、TRAJ16、TRAJ17、TRAJ18、TRAJ19、TRAJ20、TRAJ21、TRAJ22、TRAJ23、TRAJ24、TRAJ25、TRAJ26、TRAJ27、TRAJ28、TRAJ29、TRAJ30、TRAJ31、TRAJ32、TRAJ33、TRAJ34、TRAJ35、TRAJ36、TRAJ37、TRAJ38、TRAJ39、TRAJ40、TRAJ41、TRAJ42、TRAJ43、TRAJ44、TRAJ45、TRAJ46、TRAJ47、TRAJ48、TRAJ49、TRAJ50、TRAJ51、TRAJ52、TRAJ53、TRAJ54、TRAJ55、TRAJ56、TRAJ57、TRAJ58、TRAJ59、TRAJ60、TRAJ61和TRAC。
T细胞受体β基因座(TRB)为人类7号染色体上的区域,该染色体包含TCRβ链的基因。例如,TRB基因座包括例如TRBV(可变)、TRBD(多样性)、TRBJ(连接)和TRBC(恒定)基因。编码T细胞受体β链的示例性基因包括但不限于TRBV1、TRBV2、TRBV3-1、TRBV3-2、TRBV4-1、TRBV4-2、TRBV4-3、TRBV5-1、TRBV5-2、TRBV5-3、TRBV5-4、TRBV5-5、TRBV5-6、TRBV5-7、TRBV6-2、TRBV6-3、TRBV6-4、TRBV6-5、TRBV6-6、TRBV6-7、TRBV6-8、TRBV6-9、TRBV7-1、TRBV7-2、TRBV7-3、TRBV7-4、TRBV7-5、TRBV7-6、TRBV7-7、TRBV7-8、TRBV7-9、TRBV8-1、TRBV8-2、TRBV9、TRBV10-1、TRBV10-2、TRBV10-3、TRBV11-1、TRBV11-2、TRBV11-3、TRBV12-1、TRBV12-2、TRBV12-3、TRBV12-4、TRBV12-5、TRBV13、TRBV14、TRBV15、TRBV16、TRBV17、TRBV18、TRBV19、TRBV20-1、TRBV21-1、TRBV22-1、TRBV23-1、TRBV24-1、TRBV25-1、TRBV26、TRBV27、TRBV28、TRBV29-1、TRBV30、TRBVA、TRBVB、TRBV5-8、TRBV6-1、TRBD1、TRBD2、TRBJ1-1、TRBJ1-2、TRBJ1-3、TRBJ1-4、TRBJ1-5、TRBJ1-6、TRBJ2-1、TRBJ2-2、TRBJ2-2P、TRBJ2-3、TRBJ2-4、TRBJ2-5、TRBJ2-6、TRBJ2-7、TRBC1和TRBC2。
T细胞受体δ基因座(TRD)为人类14号染色体上的区域,该染色体包含TCRδ链的基因。例如,TRD基因座包括例如TRDV(可变)、TRDJ(连接)和TRDC(恒定)基因。编码T细胞受体δ链的示例性基因包括但不限于TRDV1、TRDV2、TRDV3、TRDD1、TRDD2、TRDD3、TRDJ1、TRDJ2、TRDJ3、TRDJ4和TRDC。
T细胞受体γ基因座(TRG)为人类7号染色体上的区域,该染色体包含TCRγ链的基因。例如,TRG基因座包括例如TRGV(可变)、TRGJ(连接)和TRGC(恒定)基因。编码T细胞受体γ链的示例性基因包括但不限于TRGV1、TRGV2、TRGV3、TRGV4、TRGV5、TRGV5P、TRGV6、TRGV7、TRGV8、TRGV9、TRGV10、TRGV11、TRGVA、TRGVB、TRGJ1、TRGJ2、TRGJP、TRGJP1、TRGJP2、TRGC1和TRGC2。
在一个实施例中,靶基因或基因产物或其片段选自表2A-5B中所述的任何基因或基因产物。
表2A在示例性DNA-seq靶标捕获试剂中具有完整外显子覆盖度的示例性基因
Figure GDA0003454362830000581
Figure GDA0003454362830000591
表2B选择DNA重排
ALK BCL2 BCL6 BCR BRAF CCND1 CRLF2 EGFR EPOR ETV1
ETV4 ETV5 ETV6 EWSR1 FGFR2 IGH IGK IGL JAK1 JAK2
KMT2A(MLL) MYC NTRK1 PDGFRA PDGFRB RAF1 RARA RET ROS1 TMPRSS2
TRG
表2C选择RNA基因融合
Figure GDA0003454362830000601
表3A在示例性DNA-seq靶标捕获试剂中具有选择内含子覆盖的示例性基因
Figure GDA0003454362830000611
表3B选择重排
ALK BCL2 BCR BRAF BRCA1 BRCA2 BRD4 EGFR ETV1 ETV4
ETV5 ETV6 FGFR1 FGFR2 FGFR3 KIT MSH2 MYB MYC NOTCH2
NTRK1 NTRK2 PDGFRA RAF1 RARA RET ROS1 TMPRSS2
表4A在示例性RNA-seq靶标捕获试剂中靶向的示例性基因
BRCA1 CRKL MDM2 SMO
BRCA2 EGFR MET TP53
CCND1 ERBB2 MYC VEGFA
CD274(PD-L1) ERRFI1 MYCN
CDH1 FGFR1 NF1
CDK4 FGFR2 PDCD1LG2(PD-L2)
CDK6 FOXL2 PTEN
CDKN2A KRAS PTPN11
表4B选择外显子
Figure GDA0003454362830000621
表4C选择重排
ALK FGFR3 RET
EGFR PDGFRA ROS1
表5A在示例性DNA-seq靶标捕获试剂中具有完整外显子覆盖度的其他示例性基因
Figure GDA0003454362830000631
Figure GDA0003454362830000641
表5B选择重排
Figure GDA0003454362830000642
其他示例性基因描述于例如国际申请公开号WO2012/092426的表1-11中,其内容全文以引用方式并入。
前述方法的应用包括但不限于使用包含医学标本中的特定基因或用于测序的基因的所有已知序列变体(或其子集)的寡核苷酸文库。
改变的类型
本文所述的方法可与如本文所述的用于评估基因组改变的方法结合使用或作为其一部分使用。
各种类型的改变(例如,体细胞改变)可加以评估并用于基因组改变的分析。例如,可分析与癌症和/或肿瘤突变负荷相关联的基因组改变。在一些实施例中,本文所述的方法可用于分析具有低肿瘤含量和/或少量肿瘤核酸的样品。
体细胞改变
在某些实施例中,根据本文所述的方法评估的改变为体细胞改变。
在某些实施例中,改变(例如,体细胞改变)为编码短变体,例如碱基取代或插入缺失(插入或缺失)。在某些实施例中,改变(例如,体细胞改变)为点突变。在其他实施例中,改变(例如,体细胞改变)不是重排,例如不是易位。在某些实施例中,改变(例如,体细胞改变)为剪接变体。
在某些实施例中,改变(例如,体细胞改变)为沉默突变,例如同义改变。在其他实施例中,改变(例如,体细胞改变)为非同义单核苷酸变异(SNV)。在其他实施例中,改变(例如,体细胞改变)为乘客突变,例如,对细胞的克隆的适应性没有可检测的影响的改变。在某些实施例中,改变(例如,体细胞改变)为意义未知的变体(VUS),例如,既不能证实也不能排除其致病性的改变。在某些实施例中,改变(例如,体细胞改变)尚未识别为与癌症表型相关联。
在某些实施例中,改变(例如,体细胞改变)与对细胞分裂、生长或存活的影响无关联或不知道与其相关联。在其他实施例中,改变(例如,体细胞改变)与对细胞分裂、生长或存活的影响相关联。
在某些实施例中,增加的体细胞改变水平为增加的一种或多种类别或类型的体细胞改变(例如,重排、点突变、插入缺失或其任何组合)水平。在某些实施例中,增加的体细胞改变水平为增加的一种类别或类型的体细胞改变(例如,仅重排、仅点突变或仅插入缺失)水平。在某些实施例中,增加的体细胞改变水平为在一个位置处(例如,核苷酸位置,例如在一个或多个核苷酸位置处)或者在一个区域处(例如,在核苷酸区域处,例如在一个或多个核苷酸区域处)增加的体细胞改变水平。在某些实施例中,增加的体细胞改变水平为增加的体细胞改变水平(例如,本文所述的体细胞改变)。
功能改变
在某些实施例中,改变(例如,体细胞改变)为亚基因组间隔中的功能改变。在其他实施例中,改变(例如,体细胞改变)不是亚基因组间隔中的已知功能改变。例如,当评估肿瘤突变负荷时,改变(例如,体细胞改变)的数量可排除一个或多个功能改变。
在一些实施例中,功能改变为与参考序列(例如,野生型或未突变序列)相比,对细胞分裂、生长或存活具有影响(例如,促进细胞分裂、生长或存活)的改变。在某些实施例中,功能改变通过在功能改变的数据库(例如COSMIC数据库(cancer.sanger.ac.uk/cosmic;Forbes等人Nucl.Acids Res.2015;43(D1):D805-D811))中的内含物加以识别。在其他实施例中,功能改变为具有已知功能状态的改变,例如,作为COSMIC数据库中的已知体细胞改变而发生。在某些实施例中,功能改变为具有可能的功能状态的改变,例如肿瘤抑制基因的截断。在某些实施例中,功能改变为驱动突变,例如,在其微环境中向克隆给予选择性优势的改变,例如通过增加细胞存活或繁殖。在其他实施例中,功能改变为能够引起克隆扩增的改变。在某些实施例中,功能改变为能够引起以下项中的一项、两项、三项、四项、五项或全部的改变:(a)增长信号自给自足;(b)对抗生长信号反应降低,例如不敏感;(c)细胞凋亡减少;(d)复制潜力增加;(e)持续的血管生成;或(f)组织侵袭或转移。
在某些实施例中,功能改变不是乘客突变,例如,不是对细胞的克隆的适应性没有可检测的影响的改变。在某些实施例中,功能改变不是意义未知的变体(VUS),例如,不是既不能证实也不能排除其致病性的改变。
在某些实施例中,排除表2A-5B中所述的基因中的多个(例如,约10%、20%、30%、40%、50%、60%、70%、80%、90%或更多)功能改变。在某些实施例中,排除表2A-5B中所述的基因中的所有功能改变。在某些实施例中,排除表2A-5B中所述的多种基因中的多个功能改变。在某些实施例中,排除表2A-5B中所述的所有基因的所有功能改变。
种系改变
在某些实施例中,改变为种系改变。在其他实施例中,改变不是种系改变。在某些实施例中,改变与种系改变不相同或不类似,例如可区别于种系改变。例如,当评估肿瘤突变负荷时,改变的数量可排除种系改变的数量。
在某些实施例中,种系改变为单核苷酸多态性(SNP)、碱基取代、插入缺失(例如,插入或缺失)或沉默改变(例如,同义改变)。
在某些实施例中,通过使用以下方法来识别种系改变:不使用与匹配的正常序列进行的比较。在其他实施例中,通过包括使用SGZ算法的方法来识别种系改变。在某些实施例中,种系改变通过在种系改变的数据库(例如dbSNP数据库(www.ncbi.nlm.nih.gov/SNP/index.html;Sherry等人Nucleic Acids Res.2001;29(1):308-311))中的内含物加以识别。在其他实施例中,种系改变通过在ExAC数据库(exac.broadinstitute.org;ExomeAggregation Consortium等人“Analysis of protein-coding genetic variation in60,706humans,”bioRxiv预印本,2015年10月30日)的两个或更多个计数中的内含物加以识别。在一些实施例中,种系改变通过在1000Genome Project数据库(www.1000genomes.org;McVean等人Nature.2012;491,56–65)中的内含物加以识别。在一些实施例中,种系改变通过在ESP数据库(Exome Variant Server,NHLBI GO Exome Sequencing Project(ESP),Seattle,WA(evs.gs.washington.edu/EVS/)中的内含物加以识别。
样品
本文所述的方法可用于评估来自多种不同来源的各种类型的样品中的肿瘤分数。
在一些实施例中,样品包含核酸,例如DNA、RNA或两者。在某些实施例中,样品包含来自肿瘤的一种或多种核酸。在某些实施例中,样品进一步包含来自肿瘤的一种或多种非核酸组分,例如细胞、蛋白质、碳水化合物或脂质。在某些实施例中,样品进一步包含来自非肿瘤细胞或组织的一种或多种核酸。
在某些实施例中,样品是从液体活检中获取的。在某些实施例中,样品不是从组织活检中获取的。在某些实施例中,样品为液体样品。在某些实施例中,样品不含或基本上不含固体。
在某些实施例中,样品是从患有实体瘤、血液学癌症或其转移形式的受试者获取的。在某些实施例中,样品是从患有癌症或存在患有癌症的风险的受试者获得的。在某些实施例中,样品是从未接受治疗癌症的疗法、正在接受治疗癌症的疗法或已经接受治疗癌症的疗法的受试者获得的,如本文所述。
在一些实施例中,样品包含一种或多种核酸,例如DNA、RNA或两者,所述一种或多种核酸来自癌前细胞或恶性细胞,来自实体瘤、软组织肿瘤或转移性病灶的细胞,来自血液学癌症的细胞,组织学上正常的细胞,循环肿瘤细胞(CTC)或其组合。在一些实施例中,样品包含一种或多种细胞,所述一种或多种细胞选自癌前细胞或恶性细胞、来自实体瘤、软组织肿瘤或转移性病灶的细胞、来自血液学癌症的细胞、组织学上正常的细胞、循环肿瘤细胞(CTC)或其组合。
在某些实施例中,样品包含无细胞DNA(cfDNA)。在某些实施例中,样品包含循环肿瘤DNA(ctDNA)。在某些实施例中,样品包含血液、血清或血浆。在某些实施例中,样品包含脑脊液(CSF)。在某些实施例中,样品包含胸腔积液。在某些实施例中,样品包含腹水。在某些实施例中,样品包含尿液。在某些实施例中,样品包含切除物、穿刺活检、细针抽吸物或细胞学涂片。在某些实施例中,样品为福尔马林固定的、石蜡包埋的(FFPE)样品。
多种组织可为本方法中使用的样品的来源。基因组或亚基因组核酸(例如,DNA或RNA)可从受试者的样品(例如,包含肿瘤细胞的样品、血液样品、血液成分样品、包含无细胞DNA(cfDNA)的样品、包含循环肿瘤DNA(ctDNA)的样品、包含循环肿瘤细胞(CTC)的样品或任何正常对照(例如,癌旁正常组织(NAT))中分离。
在一些实施例中,样品包含例如来自肿瘤的核酸,例如DNA、RNA或两者。核酸可为DNA或RNA。在某些实施例中,样品进一步包含含来自肿瘤的非核酸组分,例如细胞、蛋白质、碳水化合物或脂质。在某些实施例中,样品进一步包含来自正常细胞或组织的核酸。
在某些实施例中,将样品保存为冷冻样品或保存为甲醛固定或多聚甲醛固定的石蜡包埋(FFPE)组织制剂。例如,样品可包埋在基质中,例如,FFPE块或冷冻样品。在某些实施例中,样品为血液样品。在某些实施例中,组织样品为血液成分样品。在某些实施例中,样品为cfDNA样品。在某些实施例中,样品为ctDNA样品。在某些实施例中,样品为CTC样品。在其他实施例中,组织样品为骨髓穿刺液(BMA)样品。分离步骤可包括对单个染色体进行流式分选;和/或显微解剖受试者的样品(例如,本文所述的样品)。
在其他实施例中,样品包含一个或多个癌前细胞或恶性细胞。在某些实施例中,样品是从实体瘤、软组织肿瘤或转移性病灶获取的。在某些实施例中,样品是从血液恶性肿瘤或初癌获取的。在其他实施例中,样品包含来自手术切缘的组织或细胞。在某些实施例中,样品包含肿瘤浸润淋巴细胞。样品可为组织学上正常的组织。在一个实施例中,样品包含一个或多个非恶性细胞。
在某些实施例中,FFPE样品具有以下特性中的一者、两者或全部:(a)具有约10mm2或更大、约25mm2或更大,或者约50mm2或更大的表面积;(b)具有约0.1mm3或更大、约0.2mm3或更大、约0.3mm3或更大、约0.4mm3或更大、约0.5mm3或更大、约0.6mm3或更大、约0.7mm3或更大,约0.8mm3或更大、约0.9mm3或更大、约1mm3或更大、约2mm3或更大、约3mm3或更大、约4mm3或更大,或者约5mm3或更大的样品体积;(c)具有约50%或更多、约60%或更多、约70%或更多、约80%或更多,或者约90%或更多的细胞性;和/或(d)具有约10,000个细胞或更多、约20,000个细胞或更多、约30,000个细胞或更多、约40,000个细胞或更多,或者约50,000个细胞或更多的有核细胞计数。
在一个实施例中,该方法进一步包括获取样品,例如本文所述的样品。可直接或间接获取样品。在一个实施例中,例如通过分离或纯化从包含cfDNA的样品中获取样品。在一个实施例中,例如通过分离或纯化从包含ctDNA的样品中获取样品。在一个实施例中,例如通过分离或纯化从包含恶性细胞和非恶性细胞(例如,肿瘤浸润淋巴细胞)两者的样品中获取样品。在一个实施例中,例如通过分离或纯化从包含CTC的样品中获取样品。
在其他实施例中,该方法包括使用本文所述的方法来评估样品,例如组织学上正常的样品(例如,来自手术切缘)。在一些实施例中,从组织学上正常的组织(例如,其他组织学上正常的组织边缘)获得的样品可能仍具有如本文所述的改变。因此,该方法可进一步包括基于检测到的改变的存在来重新分类样品。在一个实施例中,同时处理例如来自不同受试者的多个样品。
在一个实施例中,该方法包括从样品中分离核酸以提供分离的核酸样品。在一个实施例中,该方法包括从对照中分离核酸以提供分离的对照核酸样品。在一个实施例中,方法进一步包括拒绝不含可检测核酸的样品。
在一个实施例中,该方法进一步包括确定初级对照是否可用,如果是,则从所述初级对照中分离对照核酸(例如,DNA)。在一个实施例中,该方法进一步包括确定在所述样品中是否存在NAT(例如,当没有初级对照样品可用的时)。在一个实施例中,方法进一步包括例如通过宏观解剖来自不伴随初级对照的样品中的所述NAT的非肿瘤组织,来获取富集非肿瘤细胞的子样品。在一个实施例中,方法进一步包括确定没有初级对照且没有NAT可用,并且在没有匹配对照的情况下标记所述样品以用于分析。
在一个实施例中,方法进一步包括获取所述样品中核酸产率的值并将获取的值与参考标准进行比较,例如,其中如果所述获取的值小于所述参考标准,则在文库构建之前扩增核酸。在一个实施例中,方法进一步包括获取所述样品中核酸片段大小的值并将所获取的值与参考标准(例如,大小,例如至少为300bp、600bp或900bp的平均大小)进行比较。可响应于该确定来调整或选择本文所述的参数。
在某些实施例中,该方法包括从老化的样品(例如老化的FFPE样品)中分离核酸。老化的样品可为例如若干年数,例如1年、2年、3年、4年、5年、10年、15年、20年、25年、50年、75年或100年或更高年数。
核酸可从各种大小的样品中获得。例如,可以从5μm至200μm或更大的样品中分离核酸。例如,样品可测量5μm、10μm、20μm、30μm、40μm、50μm、70μm、100μm、110μm、120μm、150μm或200μm或更大。
用于从样品中分离DNA的方案是本领域已知的,例如,如国际专利申请公开号WO2012/092426的实例1中所提供的。从甲醛固定或多聚甲醛固定的石蜡包埋(FFPE)组织中分离核酸(例如DNA)的其他方法公开于例如Cronin M.等人,(2004)Am J Pathol.164(1):35–42;Masuda N.等人,(1999)Nucleic Acids Res.27(22):4436–4443;Specht K.等人,(2001)Am J Pathol.158(2):419–429,Ambion RecoverAllTM Total Nucleic AcidIsolation Protocol(Ambion,目录号AM1975,2008年9月),
Figure GDA0003454362830000701
16 FFPE Plus LEVDNA Purification Kit Technical Manual(Promega Literature#TM349,2011年2月),
Figure GDA0003454362830000702
FFPE DNA Kit Handbook(OMEGA bio-tek,Norcross,GA,产品编号D3399-00、D3399-01和D3399-02;2009年6月)以及
Figure GDA0003454362830000711
DNA FFPE Tissue Handbook(Qiagen,目录号37625,2007年10月)。RecoverAllTM总核酸分离试剂盒在高温下使用二甲苯以溶解石蜡包埋的样品,并使用玻璃纤维过滤器以捕获核酸。
Figure GDA0003454362830000712
16FFPE Plus LEV DNA纯化试剂盒与
Figure GDA0003454362830000713
16Instrument一起用于纯化来自1μm至10μm FFPE组织切片的基因组DNA。DNA使用硅质包层顺磁性颗粒(PMP)来进行纯化,并以低洗脱体积进行洗脱。
Figure GDA0003454362830000714
FFPE DNA试剂盒使用离心柱和缓冲系统以用于分离基因组DNA。
Figure GDA0003454362830000715
DNAFFPE组织试剂盒使用
Figure GDA0003454362830000716
DNA Micro技术以用于纯化基因组和线粒体DNA。用于从血液中分离DNA的方案公开于例如
Figure GDA0003454362830000717
16LEV Blood DNA Kit and Maxwell16BuccalSwab LEV DNA Purification Kit Technical Manual(Promega Literature#TM333,2011年1月1日)。
用于分离RNA的方案公开于例如
Figure GDA0003454362830000718
16Total RNA Purification KitTechnical Bulletin(Promega Literature#TB351,2009年8月)。
分离的核酸(例如,基因组DNA)可通过实践常规技术来进行片段化或剪切。例如,基因组DNA可通过物理剪切方法、酶促切割方法、化学切割方法和本领域技术人员公知的其他方法进行片段化。核酸文库可包含基因组的所有或基本上所有的复杂性。在此上下文中,术语“基本上所有”是指在该程序的初始步骤期间,实际上可能存在一些不需要的基因组复杂性的损失的可能性。本文所述的方法在核酸文库为基因组的一部分(例如,基因组的复杂性通过设计加以降低)的情况下也是有用的。在一些实施例中,基因组的任何选定部分可与本文所述的方法一起使用。在某些实施例中,分离整个外显子组或其子集。
在某些实施例中,该方法进一步包括从样品中分离核酸以提供文库(例如,如本文所述的核酸文库)。在某些实施例中,样品包括全基因组片段、亚基因组片段或两者。分离的核酸可用于制备核酸文库。用于从全基因组片段或亚基因组片段中分离和制备文库的方案是本领域已知的(例如,Illumina的基因组DNA样品制备试剂盒)。在某些实施例中,基因组或亚基因组DNA片段是从受试者的样品(例如,本文所述的样品)中分离的。在一个实施例中,样品为例如包埋在基质中的保存的标本,例如FFPE块或冷冻样品。在某些实施例中,分离步骤包括对单个染色体的流式分选;和/或显微解剖样品。在某些实施例中,用于生成核酸文库的核酸量小于5微克、小于1微克、或小于500ng、小于200ng、小于100ng、小于50ng、小于10ng、小于5ng或小于1ng。
在又一些实施例中,用于生成文库的核酸包括RNA或衍生自RNA的cDNA。在一些实施例中,RNA包括总细胞RNA。在其他实施例中,某些丰富的RNA序列(例如,核糖体RNA)已经耗尽。在一些实施例中,总RNA制剂中的poly(A)尾端mRNA部分已被富集。在一些实施例中,cDNA通过随机引发的cDNA合成方法而产生。在其他实施例中,通过由包含oligo(dT)的寡核苷酸进行引发,在成熟mRNA的poly(A)尾端处引发cDNA合成。耗尽、poly(A)富集和cDNA合成的方法是本领域技术人员公知的。
在其他实施例中,核酸通过物理或酶促方法进行片段化或剪切,并且任选地连接至合成衔接子、进行大小选择(例如,通过制备型凝胶电泳)以及进行扩增(例如,通过PCR)。DNA剪切的替代方法是本领域已知的,例如,如国际专利申请公开号WO 2012/092426的实例4中所述。例如,替代的DNA剪切方法可更自动化和/或更有效(例如,使用降解的FFPE样品)。也可使用DNA剪切方法的替代方案以避免文库制备过程中的连接步骤。
在其他实施例中,分离的DNA(例如,基因组DNA)进行片段化或剪切。在一些实施例中,文库包括小于50%的基因组DNA(例如基因组DNA的亚级分),其为例如已通过其他方式进行亚级分的基因组的减少表示或定义部分。在其他实施例中,文库包括所有或基本上所有的基因组DNA。
在其他实施例中,在杂交选择之前,在没有明确的大小选择或扩增的情况下使用片段化的和衔接子连接的核酸组。在一些实施例中,核酸通过本领域技术人员公知的特异性或非特异性核酸扩增方法来进行扩增。在一些实施例中,核酸例如通过全基因组扩增方法(例如,随机引发的链置换扩增)来进行扩增。
例如,当源DNA或RNA的量有限时(例如,即使在全基因组扩增之后),本文所述的方法可使用少量核酸来执行。在一个实施例中,核酸包含小于约5μg、4μg、3μg、2μg、1μg、0.8μg、0.7μg、0.6μg、0.5μg或400ng、300ng、200ng、100ng、50ng、10ng、5ng、1ng或更少的核酸样品。例如,通常可从50ng-100ng的基因组DNA开始。然而,如果在杂交步骤(例如,溶液杂交)之前例如使用PCR来扩增基因组DNA,则可从更少的量开始。因此,在杂交(例如,溶液杂交)之前扩增基因组DNA是可能的,但不是必需的。
在一个实施例中,样品包含来自非癌细胞或非恶性细胞(例如,肿瘤浸润淋巴细胞)的DNA、RNA(或衍生自RNA的cDNA)或两者。在一个实施例中,样品包含来自非癌细胞或非恶性细胞(例如,肿瘤浸润淋巴细胞)的DNA、RNA(或衍生自RNA的cDNA)或两者,并且不包含或基本上不含来自癌细胞或恶性细胞的DNA、RNA(或衍生自RNA的cDNA)或两者。
在一个实施例中,样品包含来自癌细胞或恶性细胞的DNA、RNA(或衍生自RNA的cDNA)。在一个实施例中,样品包含来自癌细胞或恶性细胞的DNA、RNA(或衍生自RNA的cDNA),并且不包含或基本上不含来自非癌细胞或非恶性细胞(例如,肿瘤浸润淋巴细胞)的DNA、RNA(或衍生自RNA的cDNA)或两者。
在一个实施例中,样品包含来自非癌细胞或非恶性细胞(例如,肿瘤浸润淋巴细胞)的DNA、RNA(或衍生自RNA的cDNA)或两者,以及来自癌细胞或恶性细胞的DNA、RNA(或衍生自RNA的cDNA)或两者。
在某些实施例中,样品是从患有癌症的受试者获取的。示例性癌症包括但不限于B细胞癌,例如多发性骨髓瘤、黑色素瘤、乳腺癌、肺癌(例如非小细胞肺癌或NSCLC)、支气管癌、结肠直肠癌、前列腺癌、胰腺癌、胃癌、卵巢癌、膀胱癌、脑或中枢神经系统癌、外周神经系统癌、食道癌、宫颈癌、子宫或子宫内膜癌、口腔或咽喉癌、肝癌、肾癌、睾丸癌、胆道癌、小肠或阑尾癌、唾液腺癌、甲状腺癌、肾上腺癌、骨肉瘤、软骨肉瘤、血液组织癌、腺癌、炎性肌纤维母细胞瘤、胃肠道间质瘤(GIST)、结肠癌、多发性骨髓瘤(MM)、骨髓增生异常综合征(MDS)、骨髓增生性疾病(MPD)、急性淋巴细胞白血病(ALL)、急性髓细胞白血病(AML)、慢性髓细胞白血病(CML)、慢性淋巴细胞白血病(CLL)、真性红细胞增多症、霍奇金淋巴瘤、非霍奇金淋巴瘤(NHL)、软组织肉瘤、纤维肉瘤、粘液肉瘤、脂肪肉瘤、骨源性肉瘤、脊索瘤、血管肉瘤、内皮肉瘤、淋巴管肉瘤、淋巴管内皮肉瘤、滑膜瘤、间皮瘤、尤文氏肉瘤、平滑肌肉瘤、横纹肌肉瘤、鳞状细胞癌、基底细胞癌、腺癌、汗腺癌、皮脂腺癌、乳头状癌、乳头状腺癌、髓样癌、支气管癌、肾细胞癌、肝细胞瘤、胆管癌、绒毛膜癌、精原细胞瘤、胚胎癌、维尔姆斯瘤、膀胱肿瘤、上皮癌、神经胶质瘤、星形细胞瘤、髓母细胞瘤、颅咽管瘤、室管膜瘤、松果体瘤、血管母细胞瘤、听神经瘤、少突胶质细胞瘤、脑膜瘤、神经母细胞瘤、视网膜母细胞瘤、滤泡性淋巴瘤、弥漫性大B细胞淋巴瘤、套细胞淋巴瘤、肝细胞性肝癌、甲状腺癌、胃癌、头颈癌、小细胞癌、原发性血小板增多症、特发性髓外化生、嗜酸性粒细胞增多综合征、系统性肥大细胞增多症、熟悉的嗜酸性粒细胞增多症、慢性嗜酸性粒细胞白血病、神经内分泌癌、类癌瘤等。
在一个实施例中,癌症为血液恶性肿瘤(或初癌)。如本文所用,血液恶性肿瘤是指造血或淋巴组织的肿瘤,例如影响血液、骨髓或淋巴结的肿瘤。示例性血液恶性肿瘤包括但不限于白血病(例如,急性淋巴细胞白血病(ALL)、急性髓细胞白血病(AML)、慢性淋巴细胞白血病(CLL)、慢性粒细胞白血病(CML)、毛细胞白血病、急性单核细胞白血病(AMoL)、慢性粒单核细胞白血病(CMML)、幼年型粒单核细胞白血病(JMML)或大颗粒淋巴细胞白血病)、淋巴瘤(例如,AIDS相关淋巴瘤、皮肤T细胞淋巴瘤、霍奇金淋巴瘤(例如,经典霍奇金淋巴瘤或结节性淋巴细胞为主型霍奇金淋巴瘤)、蕈样肉芽肿、非霍奇金淋巴瘤(例如B细胞非霍奇金淋巴瘤(例如伯基特淋巴瘤、小淋巴细胞淋巴瘤(CLL/SLL)、弥漫性大B细胞淋巴瘤、滤泡性淋巴瘤、免疫母细胞性大细胞淋巴瘤、前体B淋巴母细胞淋巴瘤或套细胞淋巴瘤)或T细胞非霍奇金淋巴瘤(蕈样肉芽肿、间变性大细胞淋巴瘤或前体T淋巴母细胞淋巴瘤))、原发性中枢神经系统淋巴瘤、Sézary综合征、
Figure GDA0003454362830000741
巨球蛋白血症)、慢性骨髓增殖性肿瘤、朗格汉斯细胞组织细胞增生症、多发性骨髓瘤/浆细胞肿瘤、骨髓增生异常综合征或骨髓增生异常/骨髓增殖性肿瘤。如本文所用,初癌是指尚不是恶性但即将变为恶性的组织。
在一些实施例中,本文所述的样品也称为标本。在一些实施例中,样品为组织样品、血液样品或骨髓样品。
在一些实施例中,血液样品包含无细胞DNA(cfDNA)。在一些实施例中,cfDNA包含来自健康组织(例如,未患病细胞)或肿瘤组织(例如,肿瘤细胞)的DNA。在一些实施例中,来自肿瘤组织的cfDNA包含循环肿瘤DNA(ctDNA)。在一些实施例中,ctDNA样品是从患有实体瘤(例如肺癌、乳腺癌或结肠癌)的患者获得(例如,收集)的。
在一些实施例中,样品(例如,标本)为福尔马林固定的、石蜡包埋的(FFPE)标本。在一些实施例中,FPPE标本包括但不限于选自以下项的标本:空芯针穿刺活检、细针抽吸物或积液细胞学。在一些实施例中,样品包含FPPE块和一个原始苏木精和伊红(H&E)染色的载玻片。在一些实施例中,样品包含未染色的载玻片(例如,带正电、未烘烤且4-5微米厚;例如,1个、2个、3个、4个、5个、6个、7个、8个、9个、10个或更多个此类载玻片)和一个或多个H&E染色的载玻片。
在一些实施例中,样品包含FPPE块或未染色的载玻片,例如1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个或更多个未染色的载玻片和一个或多个H&E载玻片。在一些实施例中,样品包括例如使用标准固定方法(例如,如本文所述)来进行福尔马林固定且包埋在石蜡块中的组织。
在一些实施例中,样品包括至少1-30mm2(例如约5-25mm2)的表面积。在一些实施例中,样品包括至少1mm2、2mm2、3mm2、4mm2、5mm2、6mm2、7mm2、8mm2、9mm2或10mm2(例如5mm2)的表面积。
在一些实施例中,样品包括至少5mm2的表面积。在一些实施例中,样品包括约20mm2、21mm2、22mm2、23mm2、24mm2、25mm2、26mm2、27mm2、28mm2、29mm2或30mm2(例如25mm2)的表面积。在一些实施例中,样品包括25mm2的表面积。
在一些实施例中,样品包括至少1-5mm3(例如约2mm3)的表面体积。在一些实施例中,约2mm3的表面体积包括在约80微米(例如,至少或超过80微米)的深度处具有约25mm2的表面积的样品。
在一些实施例中,样品包含肿瘤含量,例如包含肿瘤细胞核。在一些实施例中,样品包含具有至少5%-50%、10%-40%、15%-25%或20%-30%的肿瘤细胞核的肿瘤含量。在一些实施例中,样品包含至少20%的肿瘤细胞核的肿瘤含量。在一些实施例中,样品包含约30%肿瘤细胞核的肿瘤含量。在一些实施例中,通过将肿瘤细胞的数量除以具有细胞核的所有细胞的总数来确定(例如,计算)肿瘤细胞核百分比。在一些实施例中,当样品为肝脏样品(例如,包含肝细胞)时,可能需要更高的肿瘤含量。在一些实施例中,肝细胞的细胞核的DNA含量为其他细胞(例如,非肝细胞)体细胞的细胞核的两倍(例如双倍)。在一些实施例中,改变的检测灵敏度(例如,如本文所述)取决于样品的肿瘤含量,例如,较低的肿瘤含量可导致较低的检测灵敏度。
在一些实施例中,从样品的有核细胞中提取DNA。在一些实施例中,例如,当样品主要由红细胞、包含过量细胞质的损伤细胞或具有纤维化的组织组成时,样品具有低有核细胞性。在一些实施例中,具有低有核细胞性的样品可能需要更多(例如,更大)的组织体积(例如,超过2mm3),以用于DNA提取。
在一些实施例中,使用标准固定方法来制备FPPE样品(例如标本)以保持核酸完整性。在一些实施例中,标准固定方法包括使用10%中性缓冲福尔马林例如6-72小时。在一些实施例中,该方法不包括固定剂,诸如Holland’s的Bouins、B5、AZF。在一些实施例中,该方法不包括脱钙作用。在一些实施例中,该方法包括脱钙作用。在实施例中,脱钙作用是用EDTA来执行的。在一些实施例中,强酸(例如盐酸、硫酸或苦味酸)不用于脱钙作用。
在一些实施例中,样品包含FPPE块或未染色的载玻片,例如1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个或更多个未染色的载玻片和一个或多个H&E载玻片。在一些实施例中,样品包括例如使用标准固定方法(例如,如本文所述)来进行福尔马林固定且包埋在石蜡块中的组织。
在一些实施例中,样品包含外周全血或骨髓穿刺液。在一些实施例中,样品(例如损伤组织)包含至少20%的有核元素。在一些实施例中,外周全血样品或骨髓穿刺液样品以约2.5ml的体积进行收集。在一些实施例中,血液样品在收集的同一天例如在例如43-99℉或6-37℃的环境温度下进行运输。在一些实施例中,血液样品未被冷冻或冷藏。
在一些实施例中,样品包含分离的(例如,提取的)核酸,例如DNA或RNA。在一些实施例中,例如在无核酸酶的水中,分离的核酸包含DNA或RNA。
在一些实施例中,样品包括血液样品,例如外周全血样品。在一些实施例中,外周全血样品收集在例如两个管中(例如,每个管具有约8.5ml血液)。在一些实施例中,外周全血样品例如根据CLSI H3-A6通过静脉穿刺来进行收集。在一些实施例中,例如通过温和倒转来立即混合血液例如约8-10次。在一些实施例中,倒转通过例如手腕的完整的(例如,完全的)180°转动来执行。在一些实施例中,血液样品在收集的同一天例如在例如43-99℉或6-37℃的环境温度下进行运输。在一些实施例中,血液样品未被冷冻或冷藏。在一些实施例中,收集的血液样品保持(例如,储存)在43-99℉或6-37℃。
受试者
在一些实施例中,样品是从患有病症或疾病(例如,过度增殖性疾病(例如,如本文所述)或非癌症适应症)的受试者(例如,患者)获得的(例如,收集的)。在一些实施例中,过度增殖性疾病。在一些实施例中,过度增殖性疾病为癌症,例如实体瘤或血液学癌症。在一些实施例中,癌症为实体瘤。在一些实施例中,癌症为血液学癌症,例如白血病或淋巴瘤。
在一些实施例中,受试者患有癌症。在一些实施例中,受试者已经或正在接受癌症治疗。在一些实施例中,例如在用癌症疗法治疗之后,需要监测受试者的癌症进展或消退。在一些实施例中,需要监测受试者的癌症复发。在一些实施例中,受试者存在患有癌症的风险。在一些实施例中,未使用过癌症疗法来治疗受试者。在一些实施例中,受试者具有对癌症的遗传易感性(例如,具有增加他或她罹患癌症的基线风险的突变)。在一些实施例中,受试者已经暴露于增加他或她罹患癌症的风险的环境(例如,辐射或化学物质)。在一些实施例中,需要监测受试者的癌症发展。
在一些实施例中,先前已用靶向疗法(例如,一种或多种靶向疗法)治疗患者。在一些实施例中,对于先前已用靶向疗法治疗的患者,获得(例如,收集)靶向疗法后样品(例如,标本)。在一些实施例中,靶向疗法后样品是在靶向疗法完成后获得(例如,收集)的样品。
在一些实施例中,先前未使用靶向疗法来治疗患者。在一些实施例中,对于先前未使用靶向疗法进行治疗的患者,样品包括切除物(例如原始切除物)或复发物(例如疗法(例如非靶向疗法)后疾病复发物)。在一些实施例中,样品为原发性肿瘤或转移瘤(例如,转移瘤活体组织切片)或其一部分。在一些实施例中,样品是从与邻近位点(例如,具有肿瘤细胞的邻近位点)相比具有最高百分比的肿瘤(例如,肿瘤细胞)的位点(例如,肿瘤位点)获得的。在一些实施例中,样品是从与邻近位点(例如,具有肿瘤细胞的邻近位点)相比具有最大肿瘤病灶的位点(例如,肿瘤位点)获得的。
在一些实施例中,疾病选自:非小细胞肺癌(NSCLC)、黑色素瘤、乳腺癌、结肠直肠癌(CRC)或卵巢癌。在一些实施例中,本文所述的NSCLC包括具有例如EGFR改变(例如,外显子19缺失或外显子21L858R改变)、ALK重排或BRAF V600E的NSCLC。在一些实施例中,本文所述的黑色素瘤包括具有BRAF改变(例如V600E和/或V600K)的黑色素瘤。在一些实施例中,本文所述的乳腺癌包括具有ERBB2(HER2)扩增的乳腺癌。在一些实施例中,本文所述的结肠直肠癌包括具有野生型KRAS(例如,密码子12和/或13中不存在突变,或密码子2、3和/或4中不存在突变)的结肠直肠癌。在一些实施例中,本文所述的结肠直肠癌包括具有野生型NRAS(例如,密码子2、3和/或4中不存在突变)的结肠直肠癌。在一些实施例中,本文所述的结肠直肠癌包括具有野生型KRAS(例如,如本文所述)和野生型NRAS(例如,如本文所述)的结肠直肠癌。在一些实施例中,本文所述的卵巢癌包括具有BRCA1和/或BRCA2改变的卵巢癌。
靶标捕获试剂
本文所述的方法提供了通过适当选择靶标捕获试剂(例如用于溶液杂交的靶标捕获试剂),对来自一个或多个受试者的样品(例如,来自本文所述的癌症)的大量基因和基因产物进行经优化的测序,以用于选择待测序的靶核酸分子。
可使用两个、三个、四个、五个或更多种多个靶标捕获试剂的任何组合,例如,第一和第二多个靶标捕获试剂的组合;第一和第三多个靶标捕获试剂的组合;第一和第四多个靶标捕获试剂的组合;第一和第五多个靶标捕获试剂的组合;第二和第三多个靶标捕获试剂的组合;第二和第四多个靶标捕获试剂的组合;第二和第五多个靶标捕获试剂的组合;第三和第四多个靶标捕获试剂的组合;第三和第五多个靶标捕获试剂的组合;第四和第五多个靶标捕获试剂的组合;第一、第二和第三多个靶标捕获试剂的组合;第一、第二和第四多个靶标捕获试剂的组合;第一、第二和第五多个靶标捕获试剂;第一、第二、第三和第四多个靶标捕获试剂的组合;第一、第二、第三、第四和第五多个靶标捕获试剂的组合,等等。
在一些实施例中,该方法包括:
(a)获取包含来自样品的多个核酸分子(例如,靶核酸分子)(例如,来自样品(例如本文所述的样品)的多个肿瘤核酸分子)的文库;
(b)将文库与两种、三种或更多种多个靶标捕获试剂接触以提供所选的核酸分子(例如,文库捕获物);
(c)例如通过包括测序的方法(例如,使用下一代测序方法)从核酸分子(例如,来自所述文库或文库捕获物的肿瘤核酸分子)获取受试者区间的读数;
(d)通过比对方法(例如,本文所述的比对方法)来比对所述读数;以及
(e)从所述读数为核苷酸位置分配核苷酸值(例如,调用突变,例如使用贝叶斯方法或本文所述的方法)。
在一些实施例中,本文所用的测序深度水平(例如,测序深度的X倍水平)是指在检测和去除重复读数(例如,PCR重复读数)之后的读数(例如,独特读数)的数量。在其他实施例中,评估重复读数,例如以支持拷贝数改变(CNA)的检测。
在一个实施例中,靶标捕获试剂选择包含一个或多个重排的受试者区间,例如包含基因组重排的内含子。在此类实施例中,靶标捕获试剂设计为使得重复序列被掩蔽以增加选择效率。在重排具有已知接合序列的那些实施例中,可针对接合序列设计互补的靶标捕获试剂以增加选择效率。
在一些实施例中,该方法包括:使用设计为捕获两个或更多个不同靶标类别的靶标捕获试剂,每个类别具有不同的设计策略。在一些实施例中,本文公开的方法(例如,杂交捕获方法)和组合物捕获靶序列(例如,靶核酸分子)的子集并提供靶序列的同质覆盖度,同时最小化该子集之外的覆盖度。在一个实施例中,靶序列包括基因组DNA中的整个外显子组,或其所选的子集。在另一个实施例中,靶序列包括大的染色体区域,例如整个染色体臂。本文公开的方法和组合物提供了不同的靶标捕获试剂,以用于实现复杂靶核酸序列(例如,核酸文库)的不同测序深度和覆盖模式。
在一个实施例中,该方法包括提供一个或多个核酸文库(例如,文库捕获物)的所选的核酸分子。例如,该方法包括:
提供一个或多个文库(例如,一个或多个核酸文库),其包含多个核酸分子,例如靶核酸核酸分子(例如,包括多个肿瘤核酸分子和/或参考核酸分子);
例如在基于溶液的反应中,将所述一个或多个文库与两种、三种或更多种多个靶标捕获试剂(例如,寡核苷酸靶标捕获试剂)进行接触,以形成包含多个靶标捕获试剂/核酸分子杂合物的杂交混合物;
例如通过使所述杂交混合物与允许从杂交混合物中分离所述多个靶标捕获试剂/核酸分子杂合物的结合实体进行接触,从所述杂交混合物中分离所述多个靶标捕获试剂/核酸分子杂合物,
从而提供文库捕获物(例如,来自一个或多个文库的所选或富集的核酸分子亚组)。
在一个实施例中,第一、第二或第三多个靶标捕获试剂中的每一者均具有独特的回收效率。在一些实施例中,至少两种或三种多个靶标捕获试剂具有不同的回收效率值。
在某些实施例中,回收效率的值通过以下项中的一项或多项进行修改:不同靶标捕获试剂的差异化表示、靶标捕获试剂子集的差异化重叠、差异化靶标捕获试剂参数、不同靶标捕获试剂的混合和/或使用不同类型的靶标捕获试剂。例如,可调整回收效率的变化(例如,每个靶标捕获试剂/靶标类别的相对序列覆盖度),例如,在多个靶标捕获试剂内和/或在不同的多个靶标捕获试剂中,通过改变以下项中的一项或多项:
(i)不同靶标捕获试剂的差异化表示——捕获给定靶标(例如,靶核酸分子)的靶标捕获试剂设计可包括在更多/更少数量的拷贝中,以增强/降低相对靶标测序深度;
(ii)靶标捕获试剂子集的差异化重叠——捕获给定靶标(例如,靶核酸分子)的靶标捕获试剂设计可包括相邻靶标捕获试剂之间更长或更短的重叠,以增强/降低相对靶标测序深度;
(iii)差异化靶标捕获试剂参数——捕获给定靶标(例如,靶核酸分子)的靶标捕获试剂设计可包括序列修饰/较短的长度,以降低捕获效率并减少相对靶标测序深度;
(iv)不同靶标捕获试剂的混合——设计为捕获不同目标组的靶标捕获试剂可以不同的摩尔比进行混合,以增强/降低相对靶标测序深度;
(v)使用不同类型的寡核苷酸靶标捕获试剂——在某些实施例中,靶标捕获试剂可包括:
(a)一种或多种化学(例如,非酶促)合成(例如,单独合成)的靶标捕获试剂,
(b)在阵列中合成的一个或多个靶标捕获试剂,
(c)一种或多种酶促制备的(例如,体外转录的)靶标捕获试剂;
(d)(a)、(b)和/或(c)的任何组合,
(e)一种或多种DNA寡核苷酸(例如,天然或非天然存在的DNA寡核苷酸),
(f)一种或多种RNA寡核苷酸(例如,天然或非天然存在的RNA寡核苷酸),
(g)(e)和(f)的组合,或
(h)以上任何项组合。
不同的寡核苷酸组合可以不同的比率进行混合,例如,选自1:1、1:2、1:3、1:4、1:5、1:10、1:20、1:50、1:100、1:1000等的比率。在一个实施例中,化学合成的靶标捕获试剂与阵列生成的靶标捕获试剂的比率选自1:5、1:10或1:20。DNA或RNA寡核苷酸可为天然存在的或非天然存在的。在某些实施例中,靶标捕获试剂包括一种或多种非天然存在的核苷酸以例如增加解链温度。示例性的非天然存在的寡核苷酸包括经修饰的DNA或RNA核苷酸。示例性的经修饰的核苷酸(例如,经修饰的RNA或DNA核苷酸)包括但不限于锁核酸(LNA),其中LNA核苷酸的核糖部分用连接2'氧和4'碳的额外桥来进行修饰;肽核酸(PNA),例如由通过肽键连接的重复N-(2-氨基乙基)-甘氨酸单元组成的PNA;经修饰以捕获低GC区域的DNA或RNA寡核苷酸;双环核酸(BNA);交联寡核苷酸;经修饰的5-甲基脱氧胞苷;和2,6-二氨基嘌呤。其他经修饰的DNA和RNA核苷酸为本领域已知的。
在某些实施例中,获得了靶序列(例如,靶核酸分子)的基本上均匀或同质的覆盖度。例如,在每个靶标捕获试剂/靶标类别中,可通过修改靶标捕获试剂参数来优化覆盖度的均匀性,例如,通过以下项中的一项或多项:
(i)增加/减少靶标捕获试剂表示或重叠可用于增强/降低靶标(例如,靶核酸分子)的覆盖度,该靶标相对于同一类别中的其他靶标覆盖不足/覆盖过度;
(ii)对于低覆盖度、难以捕获的靶序列(例如,高GC含量的序列),用靶标捕获试剂扩增被靶向的区域,以覆盖例如相邻序列(例如,GC丰富度较低的相邻序列);
(iii)对靶标捕获试剂序列进行修饰可减少靶标捕获试剂的二级结构,并且增强其回收效率;
(iv)修改靶标捕获试剂长度可用于均衡同一类别内不同靶标捕获试剂的熔解杂交动力学。可直接(通过产生不同长度的靶标捕获试剂)或间接(通过产生长度一致的靶标捕获试剂,并用任意序列替换靶标捕获试剂末端)修改靶标捕获试剂长度;
(v)修饰同一靶标区域的不同取向的靶标捕获试剂(即,正向和反向链)可能具有不同的结合效率。可选择具有向每个靶标提供最佳覆盖度的任一方向的靶标捕获试剂;
(vi)修改每个靶标捕获试剂上存在的结合实体(例如,捕获标签(例如生物素))的量可能影响其结合效率。增加/减少靶向特异性靶标的靶标捕获试剂的标签水平可用于增强/降低相对靶标覆盖度;
(Vii)对用于不同靶标捕获试剂的类型的核苷酸进行修饰可用于影响与靶标的结合亲和力,并增强/降低相对靶标覆盖度;或者
(viii)使用经修饰的寡核苷酸靶标捕获试剂(例如,具有更稳定的碱基配对)可用于平衡低或正常GC含量区域相对于高GC含量区域之间的熔解杂交动力学。
在一个实施例中,该方法包括使用多个靶标捕获试剂,所述多个靶标捕获试剂包括选择肿瘤核酸分子(例如,包含来自肿瘤细胞的受试者区间的核酸分子)的靶标捕获试剂。肿瘤核酸分子可为存在于肿瘤细胞中的任何核苷酸序列,例如,如本文所述的存在于肿瘤或癌细胞中的突变的、野生型、参考或内含子核苷酸序列。在一个实施例中,肿瘤核酸分子包括以低频率出现的改变(例如,一个或多个突变),例如来自样品的约5%或更少的细胞在其基因组中包含改变。在其他实施例中,肿瘤核酸分子包括以来自样品的细胞的约10%的频率出现的改变(例如,一个或多个突变)。在其他实施例中,肿瘤核酸分子包括来自内含子序列(例如,如本文所述的内含子序列、存在于肿瘤细胞中的参考序列)的亚基因组间隔。
在其他实施例中,该方法包括扩增文库捕获物(例如,通过PCR)。
在其他实施例中,文库捕获物不扩增。
在另一方面,本发明的特征在于本文所述的靶标捕获试剂和本文所述的多个单独的靶标捕获试剂的组合。靶标捕获试剂可为试剂盒的一部分,该试剂盒可任选地包括说明书、标准、缓冲液或酶或者其他试剂。
靶标捕获试剂的设计和构建
在一些实施例中,靶标捕获试剂为分子,其可与目标分子结合从而允许捕获该目标分子。例如,靶标捕获试剂可为诱饵,例如核酸分子,例如DNA或RNA分子,其可进行杂交(例如互补),从而允许捕获靶核酸。在一些实施例中,靶标捕获试剂(例如诱饵)为捕获寡核苷酸。在某些实施例中,靶核酸为基因组DNA分子。在其他实施例中,靶核酸为RNA分子或衍生自RNA分子的cDNA分子。在一个实施例中,靶标捕获试剂为DNA分子。在一个实施例中,靶标捕获试剂为RNA分子。在一个实施例中,靶标捕获试剂适用于溶液相杂交。在一个实施例中,靶标捕获试剂适用于固相杂交。在一个实施例中,靶标捕获试剂适用于溶液相杂交和固相杂交两者。
通常,DNA分子用作靶标捕获试剂序列,尽管也可使用RNA分子。在一些实施例中,DNA分子靶标捕获试剂可为单链DNA(ssDNA)或双链DNA(dsDNA)。
在一些实施例中,RNA-DNA双链体比DNA-DNA双链体更稳定,因此提供了潜在更好的核酸捕获。RNA靶标捕获试剂可如本文其他地方所述使用本领域已知的方法进行制作,该方法包括但不限于使用DNA依赖性RNA聚合酶对DNA分子从头进行化学合成和转录。在一个实施例中,使用已知的核酸扩增方法(例如,PCR),例如使用人DNA或合并的人DNA样品作为模板,来产生靶标捕获试剂序列。然后可将寡核苷酸转化为RNA靶标捕获试剂。在一个实施例中,例如基于向寡核苷酸的一个末端添加RNA聚合酶启动子序列,使用体外转录。在一个实施例中,通过扩增或重新扩增靶标捕获试剂序列(例如使用PCR或另一种核酸扩增方法,例如通过将每个靶标特异性引物对的一个引物与RNA启动子序列进行加尾)来在靶标捕获试剂的末端处添加RNA聚合酶启动子序列。在一个实施例中,RNA聚合酶为T7聚合酶、SP6聚合酶或T3聚合酶。在一个实施例中,RNA靶标捕获试剂用标签(例如,亲和标签)进行标记。在一个实施例中,RNA靶标捕获试剂例如使用生物素化的UTP由体外转录制备。在另一个实施例中,在没有生物素的情况下产生RNA靶标捕获试剂,然后使用本领域众所周知的方法(例如,补骨脂素交联)将生物素与RNA分子交联。在一个实施例中,RNA靶标捕获试剂为抗RNase的RNA分子,其可例如通过在转录期间使用经修饰的核苷酸以产生抗RNase降解的RNA分子来进行制备。在一个实施例中,RNA靶标捕获试剂仅对应于双链DNA靶标的一条链。通常,此类RNA靶标捕获试剂不是自我互补的,作为杂交驱动因素更有效。
靶标捕获试剂可根据参考序列进行设计,使得靶标捕获试剂对于选择参考序列的靶标为最佳的。在一些实施例中,使用混合碱基(例如简并性)来设计靶标捕获试剂序列。例如,混合碱基可包括在常见SNP或突变的位置处的靶标捕获试剂序列中,以优化靶标捕获试剂序列以捕获两个等位基因(例如,SNP和非SNP;突变和非突变)。在一些实施例中,所有已知的序列变异(或其子集)可用多种寡核苷酸靶标捕获试剂来进行靶向,而不是通过使用混合的简并寡核苷酸。
在某些实施例中,靶标捕获试剂包括长度介于约100个核苷酸与300个核苷酸之间的寡核苷酸(或多个寡核苷酸)。通常,靶标捕获试剂包括长度介于约130个核苷酸与230个核苷酸之间、或约150个与200个核苷酸之间的寡核苷酸(或多个寡核苷酸)。在其他实施例中,靶标捕获试剂包括长度介于约300个核苷酸与1000个核苷酸之间的寡核苷酸(或多个寡核苷酸)。
在一些实施例中,寡核苷酸中的靶核酸分子特异性序列的长度介于约40个与1000个核苷酸之间、约70个与300个核苷酸之间、约100个与200个核苷酸之间,通常介于约120个与170个核苷酸之间。
在一些实施例中,靶标捕获试剂包括结合实体。结合实体可为亲和标签。在一些实施例中,亲和标签为生物素分子或半抗原。在某些实施例中,结合实体允许通过与配偶体(诸如亲和素分子,或与半抗原或其抗原结合片段结合的抗体)结合,从杂交混合物中分离靶标捕获试剂/核酸分子杂合物。
在其他实施例中,靶标捕获试剂中的寡核苷酸包含相同靶核酸分子序列的正向和反向互补序列,由此,具有反向互补核酸分子特异性序列的寡核苷酸也携带反向互补通用尾。这可能导致RNA转录物为相同的链,即彼此不互补。
在其他实施例中,靶标捕获试剂包括在一个或多个位置处包含简并或混合碱基的寡核苷酸。在又一些实施例中,靶标捕获试剂包括存在于单一物种的群体或生物群落中的多种或基本上所有已知序列变体。在一个实施例中,靶标捕获试剂包括存在于人类群体中的多种或基本上所有已知序列变体。
在其他实施例中,靶标捕获试剂包括cDNA序列或衍生自cDNA序列。在其他实施例中,靶标捕获试剂包括从基因组DNA、cDNA或克隆的DNA扩增的扩增产物(例如,PCR产物)。
在其他实施例中,靶标捕获试剂包括RNA分子。在一些实施例中,该组包括化学、酶促修饰或体外转录的RNA分子,包括但不限于更稳定并且对RNase具有抗性的那些RNA分子。
在其他实施例中,靶标捕获试剂通过US 2010/0029498和Gnirke,A.等人(2009)Nat Biotechnol.27(2):182-189中所述的方法产生,该文献以引用方式并入本文。例如,生物素化的RNA靶标捕获试剂可通过以下方式进行生产:获得合成长寡核苷酸库(该合成长寡核苷酸最初在微阵列上合成),以及扩增寡核苷酸以产生靶标捕获试剂序列。在一些实施例中,通过在靶标捕获试剂序列的一个末端处添加RNA聚合酶启动子序列,并使用RNA聚合酶合成RNA序列来产生靶标捕获试剂。在一个实施例中,合成寡脱氧核苷酸的文库可从商业供应商(例如Agilent Technologies,Inc.)处获得,并使用已知的核酸扩增方法来进行扩增。
因此,提供了一种制备上述靶标捕获试剂的方法。该方法包括,例如,选择一个或多个靶标捕获试剂,例如靶标特异性诱饵寡核苷酸序列(例如,如本文所述的一种或多种突变捕获、参考或对照寡核苷酸序列);获得靶标捕获试剂库,例如靶标特异性诱饵寡核苷酸序列(例如,合成靶标特异性诱饵寡核苷酸序列库,例如,通过微阵列合成);以及任选地,扩增靶标捕获试剂,例如靶标特异性诱饵寡核苷酸序列。
在其他实施例中,该方法进一步包括使用一种或多种生物素化引物来例如通过PCR扩增寡核苷酸。在一些实施例中,寡核苷酸包括在附接至微阵列的每个寡核苷酸的末端处的通用序列。该方法可进一步包括从寡核苷酸中移除通用序列。此类方法还可包括移除寡核苷酸的互补链、使寡核苷酸退火以及延伸寡核苷酸。在其中一些实施例中,用于扩增(例如,通过PCR)寡核苷酸的方法使用一种或多种生物素化引物。在一些实施例中,该方法进一步包括对扩增的寡核苷酸进行大小选择。
在一个实施例中,制备了一种RNA靶标捕获试剂。该方法包括:根据本文所述的方法产生一组靶标捕获试剂序列,在靶标捕获试剂序列的一个末端处添加RNA聚合酶启动子序列,以及使用RNA聚合酶来合成RNA序列。RNA聚合酶可选自T7 RNA聚合酶、SP6 RNA聚合酶或T3 RNA聚合酶。在其他实施例中,通过扩增(例如,通过PCR)靶标捕获试剂序列,在靶标捕获试剂序列的末端处添加RNA聚合酶启动子序列。在通过使用基因组DNA或cDNA中的特异性引物对的PCR来扩增靶标捕获试剂序列的实施例中,将RNA启动子序列添加至每个对中的两个特异性引物中的一者的5’末端端将导致PCR产物可以使用标准方法转录为RNA靶标捕获试剂。
在其他实施例中,可使用人DNA或合并的人DNA样品作为模板,来产生靶标捕获试剂。在此类实施例中,通过聚合酶链式反应(PCR)来扩增寡核苷酸。在其他实施例中,扩增的寡核苷酸通过滚环扩增或超支化滚环扩增来进行再扩增。相同的方法也可用于使用人DNA或合并的人DNA样品作为模板,来产生靶标捕获试剂序列。相同的方法也可用于使用通过其他方法获得的基因组的亚级分来产生靶标捕获试剂序列,包括但不限于限制性消化、脉冲场凝胶电泳、流式分选、CsCl密度梯度离心法、选择性动力学重新关联、染色体制备物的显微解剖和本领域技术人员已知的其他分级方法。
在某些实施例中,所述多个靶标捕获试剂中的靶标捕获试剂(例如,诱饵)的数量小于1,000。在其他实施例中,所述多个靶标捕获试剂中的靶标捕获试剂(例如,诱饵)的数量大于1,000、大于5,000、大于10,000、大于20,000、大于50,000、大于100,000或大于500,000。
靶标捕获试剂序列的长度可介于约70个核苷酸与1000个核苷酸之间。在一个实施例中,靶标捕获试剂长度介于约100个与300个核苷酸长度之间、110个与200个核苷酸长度之间、或120个与170个核苷酸长度之间。除了上述那些,中间寡核苷酸长度为约70个、80个、90个、100个、110个、120个、130个、140个、150个、160个、170个、180个、190个、200个、210个、220个、230个、240个、250个、300个、400个、500个、600个、700个、800个和900个核苷酸,该中间寡核苷酸长度可用于本文所述的方法中。在一些实施例中,可使用具有70个、80个、90个、100个、110个、120个、130个、140个、150个、160个、170个、180个、190个、200个、210个、220个或230个碱基的寡核苷酸。
每个靶标捕获试剂序列可包括靶标特异性(例如,核酸分子特异性)靶标捕获试剂序列和在一个末端或两个末端上的通用尾。如本文所用,术语“靶标捕获试剂序列”可指靶标特异性靶标捕获试剂序列或者包括靶标特异性“靶标捕获试剂序列”和寡核苷酸的其他核苷酸的整个寡核苷酸。靶标捕获试剂中的靶标特异性序列的长度介于约40个核苷酸与1000个核苷酸之间。在一个实施例中,靶标特异性序列的长度介于约70个核苷酸与300个核苷酸之间。在另一个实施例中,靶标特异性序列的长度介于约100个核苷酸与200个核苷酸之间。在又一个实施例中,靶标特异性序列的长度介于约120个核苷酸与170个核苷酸之间,通常长度为120个核苷酸。除了上述那些之外的中间长度也可用于本文所述的方法中,诸如长度为约40个、50个、60个、70个、80个、90个、100个、110个、120个、130个、140个、150个、160个、170个、180个、190个、200个、210个、220个、230个、240个、250个、300个、400个、500个、600个、700个、800个和900个核苷酸的靶标特异性序列,以及长度介于上述长度之间的靶标特异性序列。
在一个实施例中,靶标捕获试剂是长度为约50个至200个核苷酸(例如,长度为约50个、60个、80个、90个、100个、110个、120个、130个、140个、150个、160个、170个、190个或200个核苷酸)的寡聚物(例如,其由RNA寡聚物、DNA寡聚物或其组合组成)。在一个实施例中,每个靶标捕获试剂寡聚物包括约120个至170个或通常约120个核苷酸(其为靶标特异性靶标捕获试剂序列)。靶标捕获试剂可包括在一个末端或两个末端处的额外非靶标特异性核苷酸序列。额外核苷酸序列可,例如,用于PCR扩增或用作靶标捕获试剂标识符。在某些实施例中,靶标捕获试剂另外地包括如本文所述的结合实体(例如,亲和标签,例如生物素分子)。结合实体(例如,生物素分子)可附接至靶标捕获试剂,例如在靶标捕获试剂的5'-末端、3'-末端或内部(例如,通过掺入生物素化核苷酸)。在一个实施例中,生物素分子附接在靶标捕获试剂的5'-末端处。
在一个示例性实施例中,靶标捕获试剂为长度约150个核苷酸的寡核苷酸,其中120个核苷酸为靶标特异性“靶标捕获试剂序列”。其他30个核苷酸(例如,每个末端上的15个核苷酸)为用于PCR扩增的通用任意尾。尾部可为由用户选择的任何序列。例如,合成寡核苷酸库可包括序列为5'ATCGCACCAGCGTGTN120CACTGCGGCTCCTCA-3'(SEQ ID NO:1)的寡核苷酸,其中N120指示靶标特异性靶标捕获试剂序列。
本文所述的靶标捕获试剂序列可用于选择外显子和短靶序列。在一个实施例中,靶标捕获试剂的长度介于约100个核苷酸与300个核苷酸之间。在另一个实施例中,靶标捕获试剂的长度介于约130个核苷酸与230个核苷酸之间。在又一个实施例中,靶标捕获试剂的长度介于约150个核苷酸与200个核苷酸之间。例如用于选择外显子与短靶序列的靶标捕获试剂中的靶标特异性序列的长度介于约40个核苷酸与1000个核苷酸之间。在一个实施例中,靶标特异性序列的长度介于约70个核苷酸与300个核苷酸之间。在另一个实施例中,靶标特异性序列的长度介于约100个核苷酸与200个核苷酸之间。在又一个实施例中,靶标特异性序列的长度介于约120个核苷酸与170个核苷酸之间。
在一些实施例中,长寡核苷酸可最小化捕获靶序列所需的寡核苷酸的数量。例如,每个外显子可使用一个寡核苷酸。本领域已知的是,人类基因组中的蛋白质编码外显子的平均长度和中值长度分别为约164个碱基对和120个碱基对。较长的靶标捕获试剂序列可比较短的序列更具特异性并且更好地进行捕获。因此,每个寡核苷酸靶标捕获试剂序列的成功率高于具有短寡核苷酸的靶标捕获试剂序列。在一个实施例中,最小靶标捕获试剂覆盖的序列为:例如用于捕获外显子大小的靶标的一个靶标捕获试剂的大小(例如,120-170个碱基)。在确定靶标捕获试剂序列的长度时,还可以考虑到不必要的长靶标捕获试剂会捕获更多与靶标直接相邻的不需要的DNA。较长的寡核苷酸靶标捕获试剂也比较短的寡核苷酸靶标捕获试剂更能耐受DNA样品中的靶标区域的多态性。通常,靶标捕获试剂序列衍生自参考基因组序列。如果实际DNA样品中的靶序列偏离参考序列,例如,如果该靶序列包含单核苷酸多态性(SNP),则该靶序列与靶标捕获试剂的杂交效率会降低,因此可能在与靶标捕获试剂序列杂交的序列中表示性不足或完全不存在。使用较长的合成靶标捕获试剂分子时,由于SNP而引起的等位基因脱扣的可能性较小,因为例如120个至170个碱基中的单一错配对杂交稳定性的影响比20个或70个碱基中的单一错配要小,其分别为多重扩增和微阵列捕获中的典型的靶标捕获试剂或引物长度。
对于选择与捕获靶标捕获试剂的长度相比更长的靶标,例如基因组区域,靶标捕获试剂序列长度通常与上述短靶标的靶标捕获试剂的大小范围相同,不同之处在于无需仅出于最小化相邻序列的靶向性的目的而限制靶标捕获试剂序列的最大大小。可替代地,寡核苷酸可横跨更宽的窗口(通常为600个碱基)进行平铺。该方法可用于捕获比典型外显子大得多(例如,大约500个碱基)的DNA片段。结果,选择了更多不需要的侧翼非靶序列。
靶标捕获试剂的合成
靶标捕获试剂可为例如任何类型的寡核苷酸,例如DNA或RNA。DNA或RNA靶标捕获试剂(“寡核苷酸靶标捕获试剂”)可单独合成,也可在阵列中合成,作为DNA或RNA靶标捕获试剂(例如,“阵列诱饵”)。寡核苷酸靶标捕获试剂,无论是以阵列形式提供还是作为分离的寡核苷酸提供,通常为单链的。靶标捕获试剂可另外地包括如本文所述的结合实体(例如,亲和标签,例如生物素分子)。结合实体(例如,生物素分子)可附接至靶标捕获试剂,例如在靶标捕获试剂的5'或3'-末端处,通常在靶标捕获试剂的5'-末端处。靶标捕获试剂可通过本领域中描述的方法合成,例如,如国际专利申请公开号WO 2012/092426或国际专利申请公开号WO 2015/021080中所述,其全部内容以引用方式并入本文。
杂交条件
本发明所述的方法包括如下步骤:将文库(例如核酸文库)与多个靶标捕获试剂接触以提供所选的文库捕获物。接触步骤可在溶液杂交中进行。在某些实施例中,该方法包括通过一轮或多轮额外的溶液杂交来重复杂交步骤。在一些实施例中,该方法进一步包括使文库捕获物与相同或不同的靶标捕获试剂集合进行一轮或多轮额外的溶液杂交。可适用于本文方法的杂交方法在本领域中有所描述,例如,如国际专利申请公开号WO 2012/092426中所述。
本发明的其他实施例或特征如下:
在某些实施例中,该方法包括确定在样品中存在或不存在与癌性表型相关联(例如,正相关或负相关)的改变(例如,本文所述的基因或基因产物中的改变的至少10个、20个、30个、50个或更多个改变)。在其他实施例中,该方法包括确定基因组特征,例如连续/复杂生物标志物(例如,肿瘤突变负荷水平)。在其他实施例中,该方法包括确定一种或多种基因组特征,例如连续/复杂生物标志物,例如微卫星不稳定性水平或者杂合性(LOH)的存在或不存在。该方法包括根据本文所述的任何方法和靶标捕获试剂,在基于溶液的反应中接触样品中的核酸以获得文库捕获物;以及对文库捕获物的全部或子集进行测序(例如,通过下一代测序),从而确定存在或不存在本文所述的基因或基因产物中的改变。
在某些实施例中,靶标捕获试剂包括长度介于约100个核苷酸与300个核苷酸之间的寡核苷酸(或多个寡核苷酸)。通常,靶标捕获试剂包括长度介于约130个核苷酸与230个核苷酸之间、或约150个与200个核苷酸之间的寡核苷酸(或多个寡核苷酸)。在其他实施例中,靶标捕获试剂包括长度介于约300个核苷酸与1000个核苷酸之间的寡核苷酸(或多个寡核苷酸)。
在其他实施例中,靶标捕获试剂包括cDNA序列或衍生自cDNA序列。在一个实施例中,cDNA由RNA(例如,肿瘤细胞或癌细胞衍生的RNA,例如从肿瘤-FFPE样品、血液样品或骨髓穿刺液样品获得的RNA)序列制备。在其他实施例中,靶标捕获试剂包括从基因组DNA、cDNA或克隆的DNA扩增的扩增产物(例如,PCR产物)。
在某些实施例中,文库(例如,核酸文库)包括核酸分子的集合。如本文所述,文库的核酸分子可包括靶核酸分子(例如,肿瘤核酸分子、参考核酸分子和/或对照核酸分子;在本文中也分别称为第一、第二和/或第三核酸分子)。文库的核酸分子可以来自单个个体。在一些实施例中,文库可包含来自多于一个受试者(例如,2个、3个、4个、5个、6个、7个、8个、9个、10个、20个、30个或更多个受试者)的核酸分子,例如,来自不同受试者的两个或更多个文库可进行组合,以形成具有来自多于一个受试者的核酸分子的文库。在一个实施例中,受试者为患有癌症或肿瘤或者存在患有癌症或肿瘤的风险的人。
在一些实施例中,该方法包括将一个或多个文库(例如,一个或多个核酸文库)与多个靶标捕获试剂进行接触以提供所选的核酸亚组(例如,文库捕获物)的步骤。在一个实施例中,接触步骤在固体支持物(例如,阵列)中进行。用于杂交的合适固体支持物描述于例如Albert,T.J.等人,(2007)Nat.Methods 4(11):903-5;Hodges,E.等人,(2007)Nat.Genet.39(12):1522-7;和Okou,D.T.等人,(2007)Nat.Methods 4(11):907-9,其内容在此以引用方式并入本文。在其他实施例中,接触步骤在溶液杂交中进行。在某些实施例中,该方法包括通过一轮或多轮额外的杂交来重复杂交步骤。在一些实施例中,该方法进一步包括使文库捕获物与相同或不同的靶标捕获试剂集合进行一轮或多轮额外的杂交。
在其他实施例中,该方法进一步包括对文库捕获物进行基因分型,从而识别所选核酸的基因型的步骤。
在某些实施例中,该方法进一步包括以下项中的一项或多项:
i)对样品进行指纹识别;
ii)量化样品中基因或基因产物(例如,如本文所述的基因或基因产物)的丰度(例如,量化样品中转录物的相对丰度);
iii)将样品识别为属于特定受试者(例如,正常对照或癌症患者);
iv)识别样品中的遗传特征(例如,一个或多个受试者的遗传构成(例如族裔、种族、家族特征));
v)确定核酸样品中的倍性;确定样品中杂合性丢失;
vi)确定在样品中存在或不存在本文所述的改变,例如核苷酸取代、拷贝数改变、插入缺失或重排;
vii)确定样品中肿瘤突变负荷和/或微卫星不稳定性(和/或其他复杂生物标志物)的水平;或者
viii)确定样品中肿瘤/正常细胞混合物的水平。
不同的寡核苷酸组合可以不同的比率进行混合,例如,选自1:1、1:2、1:3、1:4、1:5、1:10、1:20、1:50、1:100、1:1000等的比率。在一个实施例中,化学合成的靶标捕获试剂(例如,诱饵)与阵列生成的靶标捕获试剂(例如,诱饵)的比率选自1:5、1:10或1:20。DNA或RNA寡核苷酸可为天然存在的或非天然存在的。在某些实施例中,靶标捕获试剂(例如,诱饵)包括一种或多种非天然存在的核苷酸以例如增加解链温度。示例性的非天然存在的寡核苷酸包括经修饰的DNA或RNA核苷酸。示例性经修饰的RNA核苷酸为锁核酸(LNA),其中LNA核苷酸的核糖部分用连接2'氧和4'碳的额外桥来进行修饰(Kaur,H;Arora,A;Wengel,J;Maiti,S;Arora,A.;Wengel,J.;Maiti,S.(2006).“Thermodynamic,Counterion,andHydration Effects for the Incorporation of Locked Nucleic Acid Nucleotidesinto DNA Duplexes”.Biochemistry 45(23):7347–55)。其他经修饰的示例性DNA和RNA核苷酸包括但不限于:由通过肽键连接的重复N-(2-氨基乙基)-甘氨酸单元组成的肽核酸(PNA)(Egholm,M.等人,(1993)Nature 365(6446):566–8);经修饰以捕获低GC区域的DNA或RNA寡核苷酸;双环核酸(BNA)或交联寡核苷酸;经修饰的5-甲基脱氧胞苷;和2,6-二氨基嘌呤。其他经修饰的DNA和RNA核苷酸为本领域已知的。
在一个实施例中,方法进一步包括获取文库,其中文库中所述核酸片段的大小小于或等于参考值,并且在DNA分离与制作文库之间无需片段化步骤来制作所述文库。
在一个实施例中,方法进一步包括获取核酸片段,并且如果所述核酸片段的大小等于或大于参考值,则将其片段化,然后将此类核酸片段制成文库。
在一个实施例中,方法进一步包括:例如通过将可识别的不同核酸序列(条形码)添加至多个核酸分子中的每一者,来标记多个文库核酸分子中的每一者。
在一个实施例中,方法进一步包括将引物附接至多个文库核酸分子中的每一者。
在一个实施例中,方法进一步包括提供多个靶标捕获试剂以及选择多个靶标捕获试剂,所述选择响应于:1)患者特征,例如年龄、肿瘤分期、既往治疗或耐受性;2)肿瘤类型;3)样品的特征;4)对照样品的特征;5)对照的存在或类型;6)分离的肿瘤(或对照)核酸样品的特征;7)文库特征;8)已知与样品中肿瘤类型相关联的突变;9)未知与样品中肿瘤类型相关联的突变;10)对序列进行测序(或杂交或恢复)或识别突变的能力,例如与具有高GC区域或重排的序列相关联的困难;或11)正进行测序的基因。
在一个实施例中,方法进一步包括响应于例如确定所述样品中的少量肿瘤细胞,选择一个靶标捕获试剂或多个靶标捕获试剂,从而相比于第二基因的核酸分子相对高效地捕获第一基因的核酸分子,例如,其中第一基因中的突变与样品的肿瘤类型的肿瘤表型相关联,任选地其中第二基因中的突变与样品的肿瘤类型的肿瘤表型无关联。
在一个实施例中,该方法进一步包括获取文库捕获物特征的值,例如核酸浓度,并将所获取的值与特征的参考标准进行比较。
在一个实施例中,方法进一步包括选择具有满足文库定量参考标准的文库特征值的文库。
测序
本文所述的方法和系统可与用于对核酸进行测序的方法或系统结合使用或作为其一部分使用。
在一些实施例中,例如使用溶液杂交而从文库中分离核酸分子,从而提供文库捕获物。可对文库捕获物或其亚组进行测序。因此,本文所述的方法可进一步包括分析文库捕获物。在一些实施例中,文库捕获物通过测序方法(例如,如本文所述的下一代测序方法)来进行分析。在一些实施例中,该方法包括通过溶液杂交来分离文库捕获物,并对文库捕获物进行核酸测序。在某些实施例中,文库捕获物被重新测序。
可使用本领域已知的任何测序方法。例如通过溶液杂交而分离的核酸的测序通常使用下一代测序(NGS)来执行。适用于本文的测序方法在本领域中有所描述,例如,如国际专利申请公开号WO 2012/092426中所述。
在一个实施例中,所获取或分析的读数的至少10%、20%、30%、40%、50%、60%、70%、80%或90%是针对来自本文所述的基因(例如来自表2A-5B的基因)的受试者区间的。在一个实施例中,对至少0.01、0.02、0.03、0.04、0.05、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1.0、2.0、5.0、10、15或30兆碱基(例如,基因组碱基)进行测序。在一个实施例中,该方法包括获取从本文所述的样品获得的核苷酸序列读数。在一个实施例中,由NGS测序方法提供读数。
本文公开的方法可用于检测受试者的基因组、全外显子组或转录组中存在的改变,并可应用于DNA和RNA测序(例如靶向DNA和/或RNA测序)。在一些实施例中,对本文所述基因的转录物进行测序。在其他实施例中,该方法包括检测基因或基因产物水平的变化(例如,增加或减少),例如,本文所述的基因或基因产物的表达变化。该方法可任选地包括针对样品而富集靶RNA的步骤。在其他实施例中,该方法包括耗尽样品的某些高丰度RNA,例如核糖体或珠蛋白RNA的步骤。RNA测序方法可单独使用或与本文所述的DNA测序方法结合使用。在一个实施例中,该方法包括执行DNA测序步骤和RNA测序步骤。该方法可以任何顺序执行。例如,该方法可包括通过RNA测序来确认本文所述的改变的表达,例如通过本发明的DNA测序方法来确认检测到的突变或融合的表达。在其他实施例中,该方法包括执行RNA测序步骤,然后是DNA测序步骤。
比对
本文公开的方法可整合多种单独调整的比对方法或算法的使用,以优化测序方法的性能,特别是在依赖于例如来自本文所述的癌症的大量不同基因中的大量不同遗传事件的大规模平行测序的方法(例如,分析样品的方法)中。
在一些实施例中,用于分析读数的比对方法不是针对不同基因中的多个变体中的每一者单独定制或调整的。在一些实施例中,针对不同基因中的多个变体的至少一个子集单独定制或调整的多重比对方法用于分析读数。在一些实施例中,针对不同基因中的多个变体中的每一者单独定制或调整的多重比对方法用于分析读数。在一些实施例中,调整可为以下项的函数:(一个或多个)正进行测序的基因(或其他受试者区间)、样品中的肿瘤类型、正进行测序的变体,或者样品或受试者的特征。选择或使用针对待测序的多个受试者区间单独调整的比对条件允许优化速度、灵敏度和特异性。当优化相对大量的不同受试者区间的读数的比对时,该方法特别有效。
在一些实施例中,来自X个独特受试者区间的中的每一者的读数用独特比对方法来进行比对,其中独特受试者区间(例如,受试者区间或经表达的受试者区间)意指不同于其他X-1个受试者区间,并且其中独特比对方法意指不同于其他X-1个比对方法,并且X至少为2。
在一个实施例中,来自至少X个基因(例如,来自表2A-5B中的至少X个基因)的受试者区间用独特比对方法来进行比对,并且X等于2、3、4、5、10、15、20、30、40、50、60、70、80、90、100、200、300、400、500或更大。
在一个实施例中,方法包括选择或使用比对方法以用于分析(例如,比对)读数,其中所述比对方法为以下项中的一项或多项或全部的函数、响应于其而进行选择或针对其进行优化:
(i)肿瘤类型,例如,所述样品中的肿瘤类型;
(ii)基因或基因类型,正进行测序的所述受试者区间(例如,受试者区间或经表达的受试者区间)位于该基因或基因类型(例如以变体或变体类型(例如,突变)或以频率的突变为特征的基因或基因类型)中;
(iii)正在进行分析的位点(例如,核苷酸位置);
(iv)正进行评估的受试者区间(例如,受试者区间或经表达的受试者区间)内的变体类型,例如取代;
(v)样品类型,例如本文所述的样品;以及
(vi)正进行评估的所述受试者区间内或附近的序列,例如所述受试者区间(例如,受试者区间或经表达的受试者区间)的错误比对的预期倾向,例如所述受试者区间(例如,受试者区间或经表达的受试者区间)内或附近的重复序列的存在。
如本文其他地方所提及,在一些实施例中,当优化相对大量的受试者区间的读数的比对时,方法特别有效。因此,在一个实施例中,至少X种独特比对方法用于分析至少X个独特受试者区间的读数,其中独特意指不同于其他X-1,并且X等于2、3、4、5、10、15、20、30、50、100、200、300、400、500、600、700、800、900、1,000或更大。
在一个实施例中,分析来自表2A-5B的至少X个基因的受试者区间,并且X等于2、3、4、5、10、15、20、30、40、50、60、70、80、90、100、200、300、400、500或更大。
在一个实施例中,将独特比对方法应用于至少3个、5个、10个、20个、40个、50个、60个、70个、80个、90个、100个、200个、300个、400个或500个不同基因中的每一者中的受试者区间.
在一个实施例中,向至少20个、40个、60个、80个、100个、120个、140个、160个或180个、200个、300个、400个或500个基因(例如,来自表2A-5B的基因)中的核苷酸位置分配核苷酸值。在一个实施例中,将独特比对方法应用于所分析的所述基因的至少10%、20%、30%、40%或50%中的每一者中的受试者区间。
本文公开的方法允许快速有效地比对麻烦的读数,例如具有重排的读数。因此,在受试者区间(例如,受试者区间或经表达的受试者区间)的读数包含具有重排(例如,易位)的核苷酸位置的实施例中,该方法可包括使用经适当调整且包括以下项的比对方法:
选择用于与读数比对的重排参考序列,其中所述重排参考序列与重排进行比对(在一些实施例中,参考序列与基因组重排不同);以及
将读数与所述重排参考序列进行比较(例如,比对)。
在一些实施例中,使用不同的方法(例如,另一种方法)以比对麻烦的读数。当优化相对大量的不同受试者区间的读数的比对时,这些方法特别有效。举例而言,分析样品的方法可包括:
在第一组参数(例如,第一映射算法,或与第一参考序列进行比较)下执行读数的比较(例如,比对比较),以及
确定所述读数是否满足第一比对标准(例如,读数可与例如具有小于一定数量的错配的所述第一参考序列进行比对);
如果所述读数不满足第一比对标准,则在第二组参数(例如,第二映射算法,或与第二参考序列进行比较)下执行第二比对比较;以及,
任选地,确定所述读数是否满足所述第二标准(例如,读数可与例如具有小于预定数量的错配的所述第二参考序列进行比对),
其中所述第二组参数包括使用一组参数(例如,所述第二参考序列),与所述第一组参数相比,其更可能导致与变体(例如,重排,例如插入、缺失或易位)的读数的比对。
在实施例中,来自本文标题为“比对”部分的比对方法与以下项组合:来自本文标题为“突变调用”部分的突变调用方法,和/或来自本文标题为“靶标捕获试剂”部分和/或本文标题为“靶标捕获试剂的设计和构建”部分的靶标捕获试剂)。该方法可应用于来自本文标题为“基因选择”部分的一组受试者区间和/或来自本文“受试者”部分的受试者的来自本文标题为“样品”部分的样品。
比对通常为将读取与位置(例如,基因组位置)进行匹配的过程。错误比对(例如,将来自短读取的碱基对放置在基因组中不正确的位置上),例如,由于实际癌症突变周围的读数的序列上下文(例如,重复序列的存在)而产生的错误比对会导致突变检测的灵敏度降低,因为替代等位基因的读数可能会偏离替代等位基因读数的主要堆积。如果在不存在实际突变的情况下出现有问题的序列上下文,则通过将参考基因组碱基的实际读数放置到错误的位置上,错误比对可能会引入“突变”等位基因的人为读数。因为用于成倍多基因分析的突变调用算法应该对低丰度突变敏感,这些错误比对可增加假阳性发现率/降低特异性。
如本文所讨论的,可通过评估正在进行分析的基因中的预期突变位点周围的比对的质量(手动或以自动方式)来解决对实际突变的灵敏度降低这一问题。待评估的位点可从癌症突变数据库(例如COSMIC)中获得。经识别为有问题的区域可使用所选的算法进行纠正,以在相关序列上下文中给出更好的性能,例如,通过比对优化(或重新比对),使用较慢但更准确的比对算法(例如Smith-Waterman比对)。在通用比对算法无法纠正问题的情况下,可通过以下项来创建定制比对方法:例如,调整很有可能包含取代的基因的最大差值错配惩罚参数;基于某些肿瘤类型中常见的特定突变类型(例如,黑色素瘤中的Ct)来调整特定错配惩罚参数;或基于→T)来调整特定错配惩罚参数;或基于某些样品类型中常见的特定突变类型(例如FFPE中常见的取代)来调整特定错配惩罚参数。
可通过手动或自动检查所测序的样品中的所有突变调用来评估由于错误比对而导致的所评估的基因区域的特异性降低(假阳性率增加)。那些被发现由于错误比对而易于出现虚假突变调用的区域可进行与上述相同的比对纠正。在没有发现可能的算法纠正的情况下,来自问题区域的“突变”可从测试组合中分类或筛选出来。
本文公开的方法允许使用多种单独调整的比对方法或算法,以优化与重排(例如,插入缺失)相关联的受试者区间的测序的性能,特别是在依赖于例如来自样品的大量不同基因中的大量不同遗传事件的大规模平行测序的方法中。在一些实施例中,针对不同基因中的多个重排中的每一者单独定制或调整的多重比对方法用于分析读数。在一些实施例中,调整可为以下项的函数:一个或多个正进行测序的受试者区间(例如,一个或多个基因)、与样品相关联的肿瘤类型、正进行测序的变体,或者样品或受试者的特征。针对待测序的多个受试者区间进行微调的这种比对条件的选择或使用,允许优化速度、灵敏度和特异性。当优化相对大量的不同受试者区间的读数的比对时,该方法特别有效。在实施例中,该方法包括使用针对重排进行优化的比对方法和针对与重排无关联的受试者区间进行优化的其他方法。
在一些实施例中,使用比对选择器。如本文所用,“比对选择器”是指允许或指导比对方法的选择的参数,例如比对算法或参数,其可优化受试者区间的测序。比对选择器可特定于或被选择为例如以下项中的一项或多项的函数:
1.受试者区间(例如,待评估的核苷酸位置)的序列上下文(例如,序列上下文),其与所述受试者区间的读数的错误比对的倾向相关联。例如,在待评估的受试者区间内或附近存在在基因组中的其他地方重复的序列元素可能导致错误比对,从而降低性能。可通过选择将错误比对最小化的算法或算法参数来增强性能。在这种情况下,比对选择器的值可为序列上下文(例如,存在或不存在在基因组中(或在正在进行分析的基因组的一部分中)重复至少多次的长度的序列)的函数。
2.正在进行分析的肿瘤类型。例如,特定的肿瘤类型可以增加的缺失率为特征。因此,可通过选择对插入缺失更敏感的算法或算法参数来增强性能。在这种情况下,比对选择器的值可为肿瘤类型的函数,例如,肿瘤类型的标识符。在一个实施例中,该值为肿瘤类型的同一性,例如,实体瘤或血液恶性肿瘤(或初癌)。
3.可分析正在进行分析的基因或基因类型,例如基因或基因类型。举例而言,致癌基因通常以取代或框内插入缺失为特征。因此,可通过选择对这些变体特别敏感并且对其他变体呈特异性的算法或算法参数来增强性能。肿瘤抑制因子通常以框移插入缺失为特征。因此,可通过选择对这些变体特别敏感的算法或算法参数来增强性能。因此,可通过选择与受试者区间匹配的算法或算法参数来增强性能。在这种情况下,比对选择器的值可为基因或基因类型的函数,例如基因或基因类型的标识符。在一个实施例中,该值为基因的同一性。
4.正在进行分析的位点(例如,核苷酸位置)。在这种情况下,比对选择器的值可为位点或位点类型的函数,例如位点或位点类型的标识符。在一个实施例中,该值为位点的同一性。(例如,如果包含该位点的基因与另一个基因高度同源,正常/快速短读比对算法(例如,BWA)可能难以区分这两个基因,可能需要更密集的比对方法(Smith-Waterman)甚至组装(ARACHNE)。类似地,如果基因序列包含低复杂性区域(例如,AAAAAA),则可能需要更密集的比对方法。
5.与正进行评估的受试者区间相关联的变体或变体类型。例如,取代、插入、缺失、易位或其他重排。因此,可通过选择对特定变体类型更敏感的算法或算法参数来增强性能。在这种情况下,比对选择器的值可为变体类型的函数,例如,变体类型的标识符。在一个实施例中,该值为变体类型(例如,取代)的同一性。
6.样品(例如,本文所述的样品)的类型。样品类型/质量可能影响错误(非参考序列的虚假观察)率。因此,可通过选择准确对样品中真实错误率进行建模的算法或算法参数来增强性能。在这种情况下,比对选择器的值可为样品类型的函数,例如,样品类型的标识符。在一个实施例中,该值为样品类型的同一性。
通常,准确检测插入缺失突变为比对练习,因为本文禁用的测序平台上的虚假插入缺失率相对较低(因此,即使对经过正确比对的插入缺失的少数观察也可作为突变的有力证据)。然而,在存在插入缺失的情况下进行准确比对可能很困难(特别是插入缺失长度增加时)。除了与比对相关联的一般问题(例如,取代)之外,插入缺失本身可能也会导致比对问题。(例如,不能轻易确定地放置双核苷酸重复的2bp的缺失。)不正确放置较短的(<15bp)明显的包含插入缺失的读取可能降低灵敏度和特异性两者。较大的插入缺失(在幅度上越来越接近单个读数的长度,例如36bp的读数)可能导致根本无法比对读数,从而无法在经比对的读数的标准组中检测插入缺失。
癌症突变的数据库可用于解决这些问题并改善性能。为了减少假阳性插入缺失发现(改善特异性),可检查通常预期的插入缺失周围的区域是否存在由于序列上下文而导致的有问题的比对,并类似与上述取代加以解决。为了改善插入缺失检测的灵敏度,可使用若干种不同的使用有关癌症中预期的插入缺失的信息的方法。例如,可模拟包含短读取的预期插入缺失并尝试比对。可研究比对,并且有问题的插入缺失区域可进行比对参数调整,例如通过减少缺口开放/扩展惩罚或通过比对部分读取(例如,读取的前半部分或后半部分)。
可替代地,不仅可尝试使用正常参考基因组,还可尝试使用包含已知或可能的癌症插入缺失突变中的每一者的替代版本的基因组来进行初始比对。在该方法中,最初未能比对或比对不正确的插入缺失读数成功地放置在替代(突变)版本的基因组上。
以这种方式,可针对预期的癌症基因/位点优化插入缺失比对(以及因此的调用)。如本文所用,序列比对算法体现了一种计算方法或方式,其用于通过评估读取序列与参考序列之间的类似性来识别读取序列(例如,短读序列,例如来自下一代测序)最有可能源自基因组中的哪个地方。可将多种算法应用于序列比对问题。一些算法相对较慢,但允许相对较高的特异性。这些算法包括,例如,基于动态规划的算法。动态规划是一种用于通过将复杂问题分解为更简单的步骤来解决该复杂问题的方法。其他方法相对更有效,但通常不那么彻底。这些方法包括,例如,针对大规模数据库搜索而设计的启发式算法和概率性方法。
在比对算法中使用比对参数以调整算法的性能,例如,以便在读取序列与参考序列之间产生最佳全局或局部比对。比对参数可为匹配、错配和插入缺失提供权重。例如,较低的权重允许具有更多错配和插入缺失的比对。
序列上下文,例如,重复序列(例如,串联重复、散在重复)、低复杂性区域、插入缺失、假基因或旁系同源物的存在可影响比对特异性(例如,导致错误比对)。如本文所用,错误比对是指将来自短读取的碱基对放置在基因组中的不正确位置上。
当基于肿瘤类型(例如,倾向于具有特定突变或突变类型的肿瘤类型)来选择比对算法或调整比对参数时,可增加比对的灵敏度。
当基于特定基因类型(例如致癌基因、肿瘤抑制基因)来选择比对算法或调整比对参数时,可增加比对的灵敏度。不同类型的癌症相关基因的突变会对癌症表型产生不同的影响。例如,突变致癌基因等位基因通常为显性的。突变肿瘤抑制等位基因通常为隐性的,这意味着在大多数情况下,肿瘤抑制基因的两个等位基因均必须受到影响才能表现出效果。
当基于突变类型(例如,单核苷酸多态性、插入缺失(插入或缺失)、倒位、易位、串联重复)来选择比对算法或调整比对参数时,可调整(例如,增加)比对的灵敏度。
当基于突变位点(例如,突变热点)来选择比对算法或调整比对参数时,可调整(例如,增加)比对的灵敏度。突变热点是指基因组中突变发生频率比正常突变率高达100倍的位点。
当基于样品类型(例如cfDNA样品、ctDNA样品、FFPE样品或CTC样品)来选择比对算法或调整比对参数时,可调整(例如,增加)比对的灵敏度/特异性。
在一些实施例中,NGS读数可与已知参考序列进行比对或从头组装。例如,NGS读数可与参考序列(例如,野生型序列)进行比对。例如,NGS的序列比对方法描述于例如Trapnell C.和Salzberg S.L.Nature Biotech.,2009,27:455-457。从头组装的示例描述于例如Warren R.等人,Bioinformatics,2007,23:500-501;Butler J.等人Genome Res.,2008,18:810-820;以及Zerbino D.R.和Birney E.,Genome Res.,2008,18:821-829。可使用来自一个或多个NGS平台的读取数据来执行序列比对或组装,例如混合Roche/454和Illumina/Solexa读取数据。
比对的优化在本领域中有所描述,例如,如国际专利申请公开号WO 2012/092426中所述。
突变调用
本文公开的方法可整合经定制或调整的突变调用参数的使用,以优化测序方法的性能,特别是在依赖于例如来自样品(例如,来自本文所述的癌症)的大量不同基因中的大量不同遗传事件的大规模平行测序的方法中。
在一些实施例中,多个受试者区间中的每一者的突变调用未经过单独定制或微调。在一些实施例中,多个受试者区间中的至少一个子集的突变调用经过单独定制或微调。在一些实施例中,多个受试者区间中的每一者的突变调用经过单独定制或微调。定制或调整可基于本文所述的因素中的一者或多者,例如样品中癌症的类型、待测序的受试者区间所在的基因,或者待测序的变体。针对待测序的多个受试者区间进行微调的这种比对条件的选择或使用,允许优化速度、灵敏度和特异性。当优化相对大量的不同受试者区间的读数的比对时,该方法特别有效。
在一些实施例中,为X个独特受试者区间中的每一者中的核苷酸位置分配核苷酸值是通过独特调用方法进行分配的,其中独特受试者区间(意指不同于其他X-1个受试者区间(例如,亚基因组间隔、经表达的亚基因组间隔,或两者),并且其中独特调用方法意指不同于其他X-1种调用方法,并且X至少为2。例如,依赖于不同的贝叶斯先验值,调用方法可不同,因此是独特的。
在一个实施例中,分配所述核苷酸值为一个值的函数,该值是或表示在一个类型的肿瘤中的所述核苷酸位置处,观察到示出变体(例如,突变)的读数的先验(例如,文献)期望。
在一个实施例中,该方法包括为至少10个、20个、40个、50个、60个、70个、80个、90个、100个、200个、300个、400个、500个、600个、700个、800个、900个或1,000个核苷酸位置分配核苷酸值(例如,调用突变),其中每个分配为独特(与其他分配的值相反)值的函数,该值是或表示在一个类型的肿瘤中的所述核苷酸位置处,观察到示出变体(例如,突变)的读数的先验(例如,文献)期望。
在一个实施例中,分配所述核苷酸值为一组值的函数,该组值表示如果变体以一定频率(例如,1%、5%、10%等)存在于样品中并且/或者如果不存在变体(例如,由于单独碱基判读错误而在读数中观察到),则在所述核苷酸位置处观察到示出所述变体的读数的概率。
在一个实施例中,本文所述的突变调用方法可包括以下项:
为所述X个受试者区间中的每一者中的核苷酸位置而获取:
(i)第一值,该第一值是或表示在X型肿瘤中的所述核苷酸位置处,观察示出变体(例如,突变)的读数的先验(例如,文献)期望;以及
(ii)第二组值,该第二组值表示如果变体以一定频率(例如,1%、5%、10%等)存在于样品中并且/或者如果不存在变体(例如,由于单独碱基判读错误而在读数中观察到),则在所述核苷酸位置处观察到示出所述变体的读数的概率;
响应于所述值,通过对使用第一值(例如,计算存在突变的后验概率)与在第二组中的值进行的比较进行加权(例如,通过本文所述的贝叶斯方法),根据所述核苷酸位置中的每一者的所述读数来分配核苷酸值(例如,调用突变),从而分析所述样品。
在一个实施例中,该方法包括以下项中的一项或多项或全部:
(i)为至少10个、20个、40个、50个、60个、70个、80个、90个、100个、200个、300个、400个、500个、600个、700个、800个、900个或1,000个核苷酸位置分配核苷酸值(例如,调用突变),其中每个分配基于独特的(与其他分配相反)第一和/或第二值;
(ii)(i)的方法的分配,其中该分配的至少10个、20个、30个、40个、50个、60个、70个、80个、90个、100个、200个、300个、400或500个分配是根据第一值做出的,该第一值为变体存在于例如一个肿瘤类型中小于5%、10%或20%的细胞中的概率的函数;
(iii)为至少X个核苷酸位置分配核苷酸值(例如,调用突变),每个核苷酸值与具有存在于一个肿瘤类型(例如,所述样品的肿瘤类型)中的独特(与其他X-1个分配相反)概率的变体相关联,其中任选地,所述X个分配中的每一者基于独特的(与其他X-1个分配相反)第一和/或第二值(其中X=2、3、5、10、20、40、50、60、70、80、90、100、200、300、400或500);
(iv)在第一和第二核苷酸位置处分配核苷酸值(例如,调用突变),其中在一个肿瘤类型(例如,所述样品的肿瘤类型)中在所述第一核苷酸位置处存在第一变体的可能性比在所述第二核苷酸位置处存在第二变体的可能性大至少2倍、5倍、10倍、20倍、30倍或40倍,其中任选地,每个分配基于独特的(与其他分配相反)第一和/或第二值;
(v)将核苷酸值分配给多个核苷酸位置(例如,调用突变),其中所述多个包括对落入以下概率百分比范围内的一项或多项(例如至少3项、4项、5项、6项、7项或全部)的变体的分配:小于或等于0.01%;大于0.01%且小于或等于0.02%;大于0.02%且小于或等于0.03%;大于0.03%且小于或等于0.04%;大于0.04%且小于或等于0.05%;大于0.05%且小于或等于0.1%;大于0.1%且小于或等于0.2%;大于0.2%且小于或等于0.5%;大于0.5%且小于或等于1.0%;大于1.0%且小于或等于2.0%;大于2.0%且小于或等于5.0%;大于5.0%且小于或等于10.0%;大于10.0%且小于或等于20.0%;大于20.0%且小于或等于50.0%;大于50%且小于或等于100.0%,
其中,对于预选类型(例如,所述样品的肿瘤类型),概率范围为核苷酸位置处的变体将出现在肿瘤类型(例如,所述样品的肿瘤类型)中的概率范围或核苷酸位置处的变体将出现在样品中的细胞、来自样品的文库或来自该文库的文库捕获物中的所列出的百分比(%)中的概率范围,以及
其中任选地,每个分配基于独特的第一和/或第二值(例如,与所列举的概率范围内的其他分配相反,是独特的,或者与其他所列出的概率范围中的一者或多者或全部的第一和/或第二值相反,是独特的)。
(vi)为至少1个、2个、3个、5个、10个、20个、40个、50个、60个、70个、80个、90个、100个、200个、300个、400个、500个、600个、700个、800个、900个或1,000个核苷酸位置分配核苷酸值(例如,调用突变),该核苷酸位置各自独立地具有存在于小于所述样品中的DNA的50%、40%、25%、20%、15%、10%、5%、4%、3%、2%、1%、0.5%、0.4%、0.3%、0.2%或0.1%的变体,其中任选地,每个分配基于独特的(与其他分配相反)第一和/或第二值;
(vii)在第一和第二核苷酸位置处分配核苷酸值(例如,调用突变),其中在所述样品的DNA中的第一位置处存在变体的可能性比在所述样品的DNA中的所述第二核苷酸位置处存在变体的可能性大至少2倍、5倍、10倍、20倍、30倍或40倍,其中任选地,每个分配基于独特的(与其他分配相反)第一和/或第二值;
(viii)在以下项中的一项或多项或全部中分配核苷酸值(例如,调用突变):
(1)至少1个、2个、3个、4个或5个核苷酸位置具有存在于小于所述样品中的细胞的、来自所述样品的文库中的核酸的,或者来自该文库的文库捕获物中的核酸的1%的变体;
(2)至少1个、2个、3个、4个或5个核苷酸位置具有存在于所述样品中的细胞的、来自所述样品的文库中的核酸的,或者来自该文库的文库捕获物中的核酸的1%-2%的变体;
(3)至少1个、2个、3个、4个或5个核苷酸位置具有存在于大于所述样品中的细胞的、来自所述样品的文库中的核酸的,或者来自该文库的文库捕获物中的核酸的2%且小于或等于其3%的变体
(4)至少1个、2个、3个、4个或5个核苷酸位置具有存在于大于所述样品中的细胞的、来自所述样品的文库中的核酸的,或者来自该文库的文库捕获物中的核酸的3%且小于或等于其4%的变体;
(5)至少1个、2个、3个、4个或5个核苷酸位置具有存在于大于所述样品中的细胞的、来自所述样品的文库中的核酸的,或者来自该文库的文库捕获物中的核酸的4%且小于或等于其5%的变体;
(6)至少1个、2个、3个、4个或5个核苷酸位置具有存在于大于所述样品中的细胞的、来自所述样品的文库中的核酸的,或者来自该文库的文库捕获物中的核酸的5%且小于或等于其10%的变体;
(7)至少1个、2个、3个、4个或5个核苷酸位置具有存在于大于所述样品中的细胞的、来自所述样品的文库中的核酸的,或者来自该文库的文库捕获物中的核酸的10%且小于或等于其20%的变体;
(8)至少1个、2个、3个、4个或5个核苷酸位置具有存在于大于所述样品中的细胞的、来自所述样品的文库中的核酸的,或者来自该文库的文库捕获物中的核酸的20%且小于或等于其40%的变体;
(9)至少1个、2个、3个、4个或5个核苷酸位置处具有存在于大于所述样品中的细胞的、来自所述样品的文库中的核酸的,或者来自该文库的文库捕获物中的核酸的40%且小于或等于其50%的变体;或者
(10)至少1个、2个、3个、4个或5个核苷酸位置具有存在于大于所述样品中的细胞的、来自所述样品的文库中的核酸的,或者来自该文库的文库捕获物中的核酸的50%且小于或等于其100%的变体;
其中任选地,每个分配基于独特的第一和/或第二值(例如,与所列举的范围(例如,(1)中小于1%的范围)内的其他分配相反,是独特的,或者与其他所列出的范围中的一者或多者或全部中的确定的第一和/或第二值相反,是独特的);或者
(ix)在X个核苷酸位置中的每一者处分配核苷酸值(例如,调用突变),每个核苷酸位置独立地具有(变体存在于所述样品的DNA中的)可能性,该可能性与在其他X-1个核苷酸位置处存在变体的可能性相比是独特的,其中X等于或大于1、2、3、5、10、20、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900或1,000,并且其中每个分配基于独特的(与其他分配相反)第一和/或第二值。
在一些实施例中,“阈值”用于评估读数,并从读数中选择核苷酸位置的值,例如,在基因中的特定位置处调用突变。在一些实施例中,多个受试者区间中的每一者的阈值经过定制或微调。定制或调整可基于本文所述的因素中的一者或多者,例如样品中癌症的类型、待测序的受试者区间(亚基因组间隔或经表达的亚基因组间隔)所在的基因,或者待测序的变体。这提供了对待测序的多个受试者区间中的每一者进行微调的调用。在一些实施例中,当分析相对大量的不同亚基因组间隔时,该方法特别有效。
因此,在另一个实施例中,该方法包括以下突变调用方法:
为所述X个受试者区间中的每一者获取阈值,其中所述所获取的X个阈值中的每一者与其他X-1个阈值相比是独特的,从而提供X个独特阈值;
对于所述X个受试者区间中的每一者,将观察值(该观察值为在核苷酸位置处具有核苷酸值的读数的数量的函数)与其独特阈值进行比较,从而将其独特阈值应用于所述X个受试者区间中的每一者;以及
任选地,响应于所述比较的结果,将核苷酸值分配给核苷酸位置,
其中X等于或大于2。
在一个实施例中,该方法包括将核苷酸值分配给至少2个、3个、5个、10个、20个、40个、50个、60个、70个、80个、90个、100个、200个、300个、400个、500个、600个、700个、800个、900个或1,000个核苷酸位置,每个核苷酸位置独立地具有第一值,该第一值为小于0.5、0.4、0.25、0.15、0.10、0.05、0.04、0.03、0.02或0.01的概率的函数。
在一个实施例中,该方法包括将核苷酸值分配给至少X个核苷酸位置中的每一者,每个位置独立地具有与其他X-1个第一值相比是独特的第一值,并且其中所述X个第一值中的每一者为小于0.5、0.4、0.25、0.15、0.10、0.05、0.04、0.03、0.02或0.01的概率的函数,其中X等于或大于1、2、3、5、10、20、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900或1,000。
在一个实施例中,向至少20个、40个、60个、80个、100个、120个、140个、160个或180个、200个、300个、400个或500个基因(例如,来自表2A-5B的基因)中的核苷酸位置分配核苷酸值。在一个实施例中,将独特的第一和/或第二值应用于所分析的所述基因的至少10%、20%、30%、40%或50%中的每一者中的受试者区间。
当优化相对大量的受试者区间的阈值时,可应用该方法的实施例,例如从以下实施例中可以看出。
在一个实施例中,向在至少3个、5个、10个、20个、40个、50个、60个、70个、80个、90个、100个、200个、300个、400个、500个、600个、700个、800个、900个或1,000个不同基因中的每一者中的受试者区间(例如,亚基因组间隔或经表达的亚基因组间隔)应用独特阈值。
在一个实施例中,向至少20个、40个、60个、80个、100个、120个、140个、160个或180个、200个、300个、400个或500个基因(例如,来自表2A-5B的基因)中的核苷酸位置分配核苷酸值。在一个实施例中,将独特阈值应用于所分析的所述基因的至少10%、20%、30%、40%或50%中的每一者中的亚基因组间隔。
在一个实施例中,向来自表2A-5B的至少5个、10个、20个、30个或40个基因中的核苷酸位置分配核苷酸值。在一个实施例中,将独特阈值应用于所分析的所述基因的至少10%、20%、30%、40%或50%中的每一者中的受试者区间(例如,亚基因组间隔或经表达的亚基因组间隔)。
该模块的元素可包括在分析肿瘤的方法中。在实施例中,来自标题为“突变调用”部分的比对方法与来自本文标题为“比对”部分的比对方法和/或来自本文标题为“靶标捕获试剂”部分和/或本文标题为“靶标捕获试剂的设计和构建”和“靶标捕获试剂的竞争”部分的靶标捕获试剂进行组合)。该方法可应用于来自本文标题为“基因选择”部分的一组受试者区间和/或来自本文“受试者”部分的受试者的来自本文标题为“样品”部分的样品。
碱基判读是指测序设备的原始输出。突变调用是指为正在进行测序的核苷酸位置选择核苷酸值(例如A、G、T或C)的过程。通常,一个位置的测序读数(或碱基判读)将提供多于一个值,例如,一些读数将提供T而一些将提供G。突变调用为将核苷酸值(例如,该核苷酸值中的一者)分配给序列的过程。尽管它被称为“突变”调用,但它可应用于将核苷酸值分配给任何核苷酸位置,例如,对应于突变等位基因、野生型等位基因、未被表征为突变或野生型的等位基因的位置,或不以变异性为特征的位置。突变调用的方法可包括以下项中的一项或多项:基于参考序列中每个位置处的信息来进行独立调用(例如,检查序列读数;检查碱基判读和质量分数;计算观察到的碱基的概率和给定潜在基因型的质量分数;以及分配基因型(例如,使用贝叶斯规则));移除假阳性(例如,使用深度阈值以拒绝读取深度远低于或高于预期的SNP;局部重新比对以移除由于小插入缺失引起的假阳性);以及执行基于连锁不平衡(LD)/填充的分析以完善调用。
用于计算与特定基因型和位置相关联的基因型可能性的方程描述于例如Li H.和Durbin R.Bioinformatics,2010;26(5):589-95。当评估来自该癌症类型的样品时,可使用对某个癌症类型中特定突变的先验期望。此类可能性可衍生自癌症突变的公共数据库,例如癌症体细胞突变目录(COSMIC)、HGMD(人类基因突变数据库)、SNP联合体、乳腺癌突变数据库(BIC)和乳腺癌基因数据库(BCGD)。
例如,基于LD/填充的分析的示例描述于例如Browning B.L.和YuZ.Am.J.Hum.Genet.2009,85(6):847-61。例如,低覆盖度SNP调用方法的示例描述于例如LiY.等人,Annu.Rev.Genomics Hum.Genet.2009,10:387-406。
比对后,可使用调用方法(例如贝叶斯突变调用方法)来执行对取代的检测;其应用于受试者区间中的每一者的每个碱基,例如待评估的基因的外显子,其中观察到替代等位基因的存在。该方法将比较在存在突变的情况下观察读取数据的概率与存在单独碱基判读错误时观察读取数据的概率。如果该比较足够强烈地支持突变的存在,则可调用突变。
已经开发了解决与癌症DNA分析的频率50%或100%的有限偏差的方法。(例如,SNVMix-Bioinformatics.2010March 15;26(6):730–736.)然而,本文公开的方法允许考虑在样品DNA的1%与100%之间的任何地方存在突变等位基因的可能性,特别是在低于50%的水平处。该方法对于检测天然(多克隆)肿瘤DNA的低纯度FFPE样品中的突变尤为重要。
贝叶斯突变检测方法的优点为:可通过位点处的突变的存在的先验期望,而对突变的存在概率与单独碱基判读错误概率的比较进行加权。如果在给定癌症类型的频繁突变位点处观察到替代等位基因的一些读数,那么即使突变的证据量不符合常见阈值,也可充满信心地判读为存在突变。然后,该灵活性可用于增加对甚至更罕见的突变/更低纯度样品的检测灵敏度,或用于使测试更加稳健以减少读数覆盖度。基因组中随机碱基对在癌症中发生突变的可能性约为1e-6。在典型的多基因癌症基因组组合中,在许多位点处发生特异性突变的可能性可能要高几个数量级。这些可能性可衍生自癌症突变的公共数据库(例如,COSMIC)。插入缺失调用为:查找通过插入或缺失而与参考序列不同的测序数据中的碱基的过程,其通常包括相关联的置信度分数或统计证据度量。
插入缺失调用的方法可包括如下步骤:识别候选插入缺失、通过局部重新比对来计算基因型可能性,以及执行基于LD的基因型推断和调用。通常,使用贝叶斯方法以获得潜在的插入缺失候选,然后将这些候选与贝叶斯框架中的参考序列一起进行测试。
生成候选插入缺失的算法描述于例如McKenna A.等人,Genome Res.2010;20(9):1297-303;Ye K.等人,Bioinformatics,2009;25(21):2865-71;Lunter G.和Goodson M,Genome Res.2011;21(6):936-9;以及Li H.等人,Bioinformatics 2009,Bioinformatics25(16):2078-9。
用于生成插入缺失调用和个体水平基因型可能性的方法包括例如Dindel算法(Albers C.A.等人,Genome Res.2011;21(6):961-73)。例如,贝叶斯EM算法可用于分析读数、进行初始插入缺失调用,并为每个候选插入缺失生成基因型可能性,然后使用例如QCALL(Le S.Q.和Durbin R.Genome Res.2011;21(6):952-60)来进行基因型填充。可基于插入缺失的大小或位置来调整(例如,增加或减少)参数,例如观察插入缺失的先验期望。
在一个实施例中,在该方法中进行的突变调用至少10%、20%、30%、40%、50%、60%、70%、80%或90%是针对来自本文所述的基因或基因产物(例如,来自表2A-5B的基因或基因产物)的受试者区间的。在一个实施例中,本文所述的独特阈值的至少10%、20%、30%、40%、50%、60%、70%、80%或90%是针对来自本文所述的基因或基因产物(例如,来自表2A-5B的基因或基因产物)的受试者区间的。在一个实施例中,注释或报告给第三方的突变调用的至少10%、20%、30%、40%、50%、60%、70%、80%或90%是针对来自本文所述的基因或基因产物(例如,来自表2A-5B的基因或基因产物)的受试者区间的。
在一个实施例中,核苷酸位置的所分配的值传输至第三方,任选地带有解释性注释。在一个实施例中,核苷酸位置的所分配的值不传输至第三方。在一个实施例中,多个核苷酸位置的所分配的值传输至第三方,任选地带有解释性注释,并且第二多个核苷酸位置的所分配的值不传输至第三方。
在一个实施例中,该方法包括例如通过条形码解卷积,将一个或多个读数分配给受试者。
在一个实施例中,该方法包括例如通过条形码解卷积,将一个或多个读数分配为肿瘤读数或对照读数。在一个实施例中,该方法包括例如通过与参考序列比对,对所述一个或多个读数中的每一者进行映射。在一个实施例中,该方法包括记录经调用的突变。
在一个实施例中,该方法包括:注释经调用的突变,例如,用突变结构(例如,错义突变)或功能(例如,疾病表型)的指示来注释经调用的突变。在一个实施例中,该方法包括获取肿瘤和对照核酸的核苷酸序列读数。在一个实施例中,该方法包括例如用贝叶斯调用方法或非贝叶斯调用方法,为受试者区间(例如,亚基因组间隔、经表达的亚基因组间隔,或两者)中的每一者调用核苷酸值(例如,变体,例如突变)。在一个实施例中,该方法包括评估包括至少一个SNP的多个读数。在一个实施例中,该方法包括确定样品和/或对照读数中的SNP等位基因比率。
在一些实施例中,该方法进一步包括建立靶向亚基因组区域的测序/比对伪影的数据库。在一个实施例中,数据库可用于过滤掉虚假突变调用并改善特异性。在一个实施例中,通过对无关样品或细胞系进行测序并记录由于这些正常样品中的1者或多者中的单独的随机测序错误而比预期出现更频繁的非参考等位基因事件,来建立数据库。该方法可能将种系变体分类为伪影,但这在涉及体细胞突变的方法中是可接受的。如果需要,可通过过滤该数据库的已知种系变体(移除常见变体)和仅出现在1个个体中的伪影(移除罕见变体)来改善这种将种系变体错误分类为伪影的情况。
突变调用的优化在本领域中有所描述,例如,如国际专利申请公开号WO 2012/092426中所述。
SGZ算法
各种类型的改变(例如,体细胞改变和种系突变)可通过本文所述的方法(例如,测序、比对或突变调用方法)来进行检测。在某些实施例中,通过使用SGZ(体细胞-种系-接合性)算法的方法来进一步识别种系突变。参见,例如,美国专利号9,792,403和Sun等人,Acomputational approach to distinguish somatic vs.germline origin of genomicalteration from deep sequencing of cancer specimens without a matched normal,PLOS Computational Biology(2018年2月)。
在临床实践中,通常不会获得匹配的正常对照。在一些实施例中,尽管充分表征的基因组改变不需要用于解释的正常组织,但在不存在匹配的正常对照的情况下,至少一些改变在它们是种系还是体细胞这一方面将是未知的。SGZ为一种计算方法,其用于预测从癌症标本的下一代测序中识别出的变体的体细胞对比种系起源以及纯合对比杂合或亚克隆状态。
SGZ方法不需要匹配的正常对照,从而允许在临床环境中广泛应用。SGZ预测每个改变的体细胞对比种系状态,其通过对改变的等位基因频率(AF)进行建模,考虑肿瘤含量、肿瘤倍性和局部拷贝数来进行识别。预测的准确性取决于测序深度和拷贝数模型拟合,这可通过高深度测序、覆盖癌症相关基因和全基因组单核苷酸多态性(SNP)来实现。使用基于SNP AF的读取深度和局部变异性的统计数据来进行调用。
在一些实施例中,该方法进一步包括表征来自受试者(例如,人,例如癌症患者)的组织(例如,肿瘤)或样品中的变体(例如,突变),其包括:
a)获取:
i)序列覆盖度输入(SCI),对于多个所选的受试者区间中的每一者(例如,外显子),其包括在所选的受试者区间处的归一化序列覆盖度的值;
ii)SNP等位基因频率输入(SAFI),对于多个所选的种系SNP中的每一者,其包括肿瘤或样品中的等位基因频率的值;
iii)变体等位基因频率输入(VAFI),其包括肿瘤或样品中的所述变体(例如,突变)的等位基因频率;
b)获取作为SCI和SAFI函数的值,以用于:
C,对于多个基因组区段中的每一者,其中C为基因组区段总拷贝数;
M,对于多个基因组区段中的每一者,其中M为基因组区段次要等位基因拷贝数;和
p,其中p为样品纯度;以及
c)获取以下项中的一项或两项:
i)变体类型(例如,突变类型)的值,例如g,其指示变体,例如突变、体细胞、亚克隆体细胞变体、种系或不可区分,并且为VAFI、p、C和M的函数;
ii)在肿瘤或样品中的变体(例如,突变)的接合性的指示,其作为C和M函数。
在一个实施例中,可在不分析来自受试者的非肿瘤组织的情况下执行分析。在一个实施例中,在不分析来自受试者的非肿瘤组织的情况下执行分析,例如,来自同一受试者的非肿瘤组织未进行测序。
在一个实施例中,SCI包括作为以下项的函数的值(例如,比率的对数):受试者区间(例如,来自样品)的读数的数量,以及对照(例如,过程匹配对照)的数量或读数。在一个实施例中,SCI包括至少10个、25个、50个、100个、150个、200个、250个、300个、350个、400个、450个、500个、1,000个、2,000个、3,000个、4,000个、5,000个、6,000个、7,000个、8,000个、9,000个或10,000个受试者区间(例如,外显子)的值(例如log r值)。在一个实施例中,SCI包括至少100个受试者区间(例如,外显子)的值(例如log r值)。在一个实施例中,SCI包括至少1,000个至10,000个、2,000个至9,000个、3,000个至8,000个、3,000个至7,000个、3,000个至6,000个,或4,000个至5,000个受试者区间(例如,外显子)的值(例如log r值)。在一个实施例中,SCI包括来自至少10个、25个、50个、100个、150个、200个、250个、300个、350个、400个、450个、500个、1,000个、2,000个、3,000个或4,000个基因的受试者区间(例如,外显子)的值(例如log r值)。
在一个实施例中,对包括在SCI中的至少一个、多个或基本上所有的值进行校正,以用于与GC含量的相关性。
在一个实施例中,来自样品的受试者区间(例如,外显子)具有至少10个、20个、30个、40个、50个、100个、150个、200个、250个、300个、350个、400个、450个、500个、600个、700个、800个、900个或1,000个读数。在一个实施例中,来自样品的多个,例如至少10个、25个、50个、100个、150个、200个、250个、300个、350个、400个、450个、500个、1,000个、2,000个、3,000个、4,000个、5,000个、6,000个、7,000个、8,000个、9,000个或10,000个受试者区间(例如,外显子)具有多个读数。在一个实施例中,读数的数量为至少10、20、30、40、50、100、150、200、250、300、350、400、450、500、600、700、800、900或1,000。在一个实施例中,所述多个种系SNP包含至少10个、25个、50个、100个、150个、200个、250个、300个、350个、400个、450个、500个、1,000个、2,000个、3,000个、4,000个、5,000个、6,000个、7,000个、8,000个、9,000个、10,000个或15,000个种系SNP。
在一个实施例中,所述多个种系SNP包括至少100个种系SNP。在一个实施例中,所述多个种系SNP包括500个至5,000个、1,000个至4,000个,或者2,000个至3,000个种系SNP。在一个实施例中,等位基因频率为次要等位基因频率。在一个实施例中,等位基因频率为替代等位基因,例如除人类基因组参考数据库中的标准等位基因之外的等位基因。
在一个实施例中,该方法包括表征样品中的多个变体,例如突变体。在一个实施例中,该方法包括表征至少2个、3个、4个、5个、6个、7个、8个、9个、10个、25个、50个、100个、150个、200个、250个、300个、350个、400个、450个或500个变体,例如,突变体。在一个实施例中,该方法包括表征在至少2个、3个、4个、5个、6个、7个、8个、9个、10个、25个、50个、100个、150个、200个、250个、300个、350个、400个、450个或500个不同的基因中的变体,例如,突变体。
在一个实施例中,该方法包括获取至少2个、3个、4个、5个、6个、7个、8个、9个、10个、25个、50个、100个、150个、200个、250个、300个、350个、400个、450个或500个变体(例如,突变体)的VAFI。在一个实施例中,该方法包括针对至少2个、3个、4个、5个、6个、7个、8个、9个、10个、25个、50个、100个、150个、200个、250个、300个、350个、400个、450个或500个变体(例如,突变体)执行步骤a)、b)和c)中的一者、两者或全部。在一个实施例中,C、M和p的值是、具有或可通过将全基因组拷贝数模型拟合至SCI和SAFI中的一者或两者而获得。在一个实施例中,C、M和p的值拟合SCI和SAFI的多个全基因组拷贝数模型输入。在一个实施例中,基因组区段包含多个受试者区间(例如,外显子)例如,已分配SCI值的受试者区间。
在一个实施例中,基因组区段包含至少10个、20个、30个、40个、50个、60个、70个、80个、90个、100个、125个、150个、175个、200个、225个、250个、275个、300个、400个或500个受试者区间(例如,外显子)。在一个实施例中,基因组区段包含10个至1,000个、20个至900个、30个至700个、40个至600个、50个至500个、60个至400个、70个至300个、80个至200个、80个至150个或80个至120个、90个至110个或约100个受试者区间(例如,外显子)。在一个实施例中,基因组区段包含介于100个与10,000个、100个与5,000个、100个与4,000个、100个与3,000个、100个与2,000个或100个与1,000个之间的受试者区间(例如,外显子)。在一个实施例中,基因组区段包含10个至1,000个、20个至900个、30个至700个、40个至600个、50个至500个、60个至400个、70个至300个、80个至200个、80个至150个或80个至120个、90个至110个或约100个基因组SNP,其已分配SAFI值。在一个实施例中,基因组区段包含介于100个与10,000个、100个与5,000个、100个与4,000个、100个与3,000个、100个与2,000个或100个与1,000个已分配SAFI值的基因组SNP。
在一个实施例中,多个基因组区段中的每一者以具有以下项中的一项或两项为特征:
归一化序列覆盖度的量度,例如log r,其差值不超过预选量,例如,基因组区段边界内的受试者区间(例如,外显子)的log2 r的值的差值不超过参考值,或基本上恒定;以及
种系SNP的SNP等位基因频率,其差值不超过预选量,例如,基因组区段边界内受试者区间(例如,外显子)的种系SNP等位基因频率值的差值不超过参考值,或基本上恒定。
在一个实施例中,包含在基因组区段中或经过组合以形成基因组区段的受试者区间(例如,外显子)的数量为基因组区段的数量的至少2倍、5倍、10倍、15倍、20倍、50倍或100倍。在一个实施例中,受试者区间(例如,外显子)的数量为基因组区段的数量的至少3倍、4倍、5倍、6倍、7倍、8倍、9倍、10倍、11倍、12倍、13倍、14倍或15倍。
在一个实施例中,提供了基因组区段的边界。在一个实施例中,该方法包括将受试者区间(例如,外显子)的序列组装为遗传区段。
在一个实施例中,该方法包括用本文所述的方法组装受试者区间的序列,例如,包括循环二元分割算法(CBS)的方法、基于HMM的方法、基于Wavelet的方法或聚类沿染色体方法。
在一个实施例中,将全基因组拷贝数模型拟合至SCI包括使用以下方程:
Figure GDA0003454362830001141
其中ψ为肿瘤倍性。
在一个实施例中,ψ=(ΣiliCi)/Σili,令li为基因组区段的长度。
在一个实施例中,将全基因组拷贝数模型拟合至SAFI包括使用以下方程:
Figure GDA0003454362830001142
其中AF为等位基因频率。
在一个实施例中,拟合包括使用吉布斯采样。在一个实施例中,拟合包括使用例如马尔可夫链蒙特卡罗(MCMC)算法,例如ASCAT(肿瘤的等位基因特异性拷贝数分析)、OncoSNP或PICNIC(预测癌症中的整体拷贝数)。在一个实施例中,拟合包括使用Metropolis-Hastings MCMC。在一个实施例中,拟合包括使用非贝叶斯方法(例如,频率论方法),例如使用最小二乘拟合。
在一个实施例中,通过确定VAFI、p、C和M的值与体细胞/种系状态模型的拟合来确定g。在一个实施例中,该方法包括获取所述变体(例如,突变)的杂合性的指示。在一个实施例中,样品纯度(p)为整体纯度,例如,对于所有基因组区段是相同的。
在一个实施例中,g的值通过以下公式获取:
Figure GDA0003454362830001151
其中AF为等位基因频率。
在一个实施例中,接近0的g值(例如,与0没有显著差值)表示该变体为体细胞变体。在一个实施例中,为0或接近0的g值(例如,在距0的一定距离内,例如小于0.4的g值)表示该变体为体细胞变体。在一个实施例中,接近1的g值(例如,与1没有显著差值)表示该变体为种系变体。在一个实施例中,为1或接近1的g值(例如,在距1的一定距离内,例如大于0.6的g值)表示该变体为种系变体。在一个实施例中,g值小于1但大于0,例如,如果其小于1一定的量且大于0一定的量,例如,如果g介于0.4与0.6之间,则其表示结果为不可区分。
在一个实施例中,显著小于0的g值指示亚克隆体细胞变体。
在一个实施例中,g的值通过以下公式获取:
Figure GDA0003454362830001152
其中AF为等位基因频率,并且M'=C-M(例如,当M为非次要等位基因频率时),例如,如果g=1,则变体为种系多态性,如果g=0,则变体为体细胞突变。
在一个实施例中,例如当样品纯度低于约40%(例如,介于约10%与30%之间,例如介于约10%与20%之间,或介于约20%与30%之间)时,确定体细胞/种系状态。
在一个实施例中,当:M值等于0不等于C时,指示不存在变体(例如,突变),例如不存在于肿瘤中;非零的M值等于C时,指示变体(例如,突变)的纯合性,例如杂合性丢失(LOH);等于0的M值等于C时,指示变体(例如,突变)的纯合缺失,例如不存在于肿瘤中;并且非零的M值不等于C时,指示变体(例如,突变)的杂合性。
在一个实施例中,该方法包括获取所述变体(例如,突变)的接合性的指示。在一个实施例中,如果M=C≠0,则突变状态确定为纯合的(例如,LOH)。在一个实施例中,如果M=C=0,则突变状态确定为纯合缺失。在一个实施例中,突变状态确定为杂合的,为0<M<C。在一个实施例中,如果M=0且C≠0,则肿瘤中不存在突变。在一个实施例中,例如当样品纯度大于约80%(例如,介于约90%与100%之间,例如介于约90%与95%之间,或介于约95%与100%之间)时,确定接合性。
在一个实施例中,对照为来自除样品所来自的受试者之外的受试者的整倍体(例如,二倍体)组织的样品,或来自除样品所来自的受试者之外的一个或多个(例如,至少2个、3个、4个或5个)受试者。在一个实施例中,该方法包括例如通过下一代测序(NGS)来对所选的受试者区间中的每一者和所选的种系SNP中的每一者进行测序。在一个实施例中,归一化之前的序列覆盖度为至少约10X、20X、30X、50X、100X、250X、500X、750X、800X、900X、1,000X、1,500X、2,000X、2,500X、3,000X、3,500X、4,000X、4,500X、5,000X、5,500X、6,000X、6,500X、7,000X、7,500X、8,000X、8,500X、9,000X、9,500X或10,000X的测序深度。
在一个实施例中,受试者已接受抗癌疗法。在一个实施例中,受试者已接受抗癌疗法并且对该疗法具有抗性或表现出疾病进展。在一个实施例中,受试者已接受选自以下项的抗癌疗法:已由FDA、EMA或其他监管机构批准的治疗剂;或未经FDA、EMA或其他监管机构批准的治疗剂。在一个实施例中,受试者在临床试验(例如,I期、II期或III期临床试验(或在此类试验的ex-US等效试验中))的过程中已接受抗癌疗法。在一个实施例中,变体与存在于受试者的肿瘤类型正相关,例如与治疗的发生或对治疗的抗性正相关。在一个实施例中,变体不与存在于受试者的肿瘤类型正相关。在一个实施例中,变体与除存在于受试者的肿瘤类型不同的肿瘤正相关。在一个实施例中,变体为:不与存在于受试者的肿瘤类型正相关的变体。
在一个实施例中,该方法可例如在数据库(例如,机器可读数据库)中记录以下项中的一项或多项的描述符、提供包含以下项中的一项或多项的描述符的报告,或传输以下项中的一项或多项的描述符:肿瘤中其他突变的存在、不存在或频率,例如与样品中的肿瘤类型相关联的其他突变、与样品中的肿瘤类型无关联的其他突变、或与除样品中的肿瘤类型之外的肿瘤相关联的其他突变;变体的表征;等位基因或基因;或肿瘤类型,例如肿瘤类型的名称,肿瘤是原发性还是继发性;受试者特征;或治疗替代方案、推荐或选择。
在一个实施例中,与变体的表征相关联的描述符包括接合性或种系对比体细胞状态的描述符。在一个实施例中,与受试者特征相关的描述符包括以下项中的一项或多项的描述符:受试者的身份;受试者的年龄、性别、体重或其他类似特征、职业中的一者或多者;受试者的病史,例如肿瘤或其他病症的发生;受试者的家族病史,例如,共享或不共享该变体的亲属;或受试者的既往治疗史,例如所接受的治疗、对先前施用的抗癌疗法的应答,例如抗病性、应答性或进展。
SGZ算法也描述于Sun等人,PLoS Comput Biol.2018;14(2):e1005965;Sun等人,Cancer Research 2014;74(19S):1893-1893;国际申请公开号WO2014/183078、美国专利号9,792,403和美国申请公开号2014/0336996,其内容全文以引用方式并入。
肿瘤突变负荷
本文所述的方法可与用于评估肿瘤突变负荷(TMB)的方法结合使用或作为其一部分使用。
在某些实施例中,该方法包括提供来自样品(例如,本文所述的样品)的一组亚基因组间隔的序列;以及确定突变负荷的值,其中该值为该组亚基因组间隔中改变的数量的函数。在某些实施例中,该组亚基因组间隔来自一组基因,例如,不包括整个基因组或外显子组的一组基因。在某些实施例中,该组亚基因组间隔为一组编码亚基因组间隔。在其他实施例中,该组亚基因组间隔包含一个或多个编码亚基因组间隔和一个或多个非编码亚基因组间隔。在某些实施例中,突变负荷的值为该组亚基因组间隔中改变(例如,体细胞改变)的数量的函数。在某些实施例中,改变的数量不包括功能改变、种系改变或两者的数量。
本文所述的方法还可包括例如以下项中的一项或多项:获取包含来自样品的多个肿瘤核酸分子的文库;通过杂交将文库与靶标捕获试剂接触以提供所选的肿瘤核酸分子,从而提供文库捕获物;从来自文库捕获物的肿瘤核酸分子获取包含改变的亚基因组间隔的读数;通过比对方法来比对读数;从该读数为核苷酸位置分配核苷酸值;以及选择来自一组所分配的核苷酸位置中的一组亚基因组间隔,其中该组亚基因组间隔来自一组基因。
在某些实施例中,在来自受试者(例如,本文所述的受试者)的样品中测量突变负荷。在某些实施例中,突变负荷表达为例如在来自参考群体的样品中的突变负荷中的百分位数。在某些实施例中,参考群体包括患有与受试者相同类型的癌症的患者。在其他实施例中,参考群体包括正在接受或已经接受与受试者相同类型的疗法的患者。在某些实施例中,通过本文所述的方法(例如,通过评估表1A-4B中所述的一组基因中的改变(例如,体细胞改变)的水平)而获得的突变负荷与全基因组或外显子组突变负荷相关。
术语“突变的负荷”、“突变负荷”、“突变负载”和“突变的负载”在本文可互换使用。在肿瘤的上下文中,突变的负载在本文中也称为“肿瘤突变的负荷”、“肿瘤突变负荷”或“TMB”。不希望受理论的束缚,据信在一些实施例中,TMB可被视为一种基因组特征,例如连续/复杂生物标志物。
如本文所用,术语“突变负荷”或“突变的负荷”是指一组基因(例如,在该组基因的编码区中)中每个预定单位(例如,每兆碱基)的改变(例如,一个或多个改变,例如一个或多个体细胞改变)的水平(例如,数量)。可例如基于全基因组或外显子组,或基于基因组或外显子组的子集,来测量突变负荷。在某些实施例中,可对基于基因组或外显子组的子集测得的突变负荷进行外推,以确定全基因组或外显子组突变负荷。
在一个实施例中,该方法包括:
a)提供来自样品的一组受试者区间(例如,编码受试者区间)的序列(例如,核苷酸序列),其中该组受试者区间来自一组基因;以及
b)确定突变负荷的值,其中该值为该组受试者区间中的改变(例如,一个或多个改变),例如体细胞改变(例如,一个或多个体细胞改变),的数量的函数。
在某些实施例中,改变的数量不包括受试者区间中的功能改变。在其他实施例中,改变的数量不包括受试者区间中的种系改变。在某些实施例中,改变的数量不包括受试者区间中的功能改变和受试者区间中的种系改变。
在某些实施例中,该组受试者区间包括编码受试者区间。在其他实施例中,该组受试者区间包括非编码受试者区间。在某些实施例中,该组受试者区间包括编码受试者区间。在其他实施例中,该组受试者区间包括一个或多个编码受试者区间和一个或多个非编码受试者区间。在某些实施例中,该组受试者区间中的约5%或更多、约10%或更多、约20%或更多、约30%或更多、约40%或更多、约50%或更多、约60%或更多、约70%或更多、约80%或更多、约90%或更多,或者约95%或更多的受试者区间为编码受试者区间。在其他实施例中,该组受试者区间中的约90%或更少、约80%或更少、约70%或更少、约60%或更少、约50%或更少、约40%或更少、约30%或更少、约20%或更少、约10%或更少,或者约5%或更少的受试者区间为非编码受试者区间。
在其他实施例中,该组受试者区间不包括整个基因组或整个外显子组。在其他实施例中,该组编码受试者区间不包括整个外显子组。
在某些实施例中,该组基因不包括整个基因组或整个外显子组。在其他实施例中,该组基因包含表2A-5B中所述的一个或多个基因或由其组成。
在某些实施例中,该值表达为该组基因的函数。在某些实施例中,该值表达为该组基因的编码区的函数。在其他实施例中,该值表达为该组基因的非编码区的函数。在某些实施例中,该值表达为该组基因的外显子的函数。在其他实施例中,该值表达为该组基因的内含子的函数。
在某些实施例中,该值表达为该组所测序的基因的函数。在某些实施例中,该值表达为该组所测序的基因的编码区的函数。在其他实施例中,该值表达为该组所测序的基因的非编码区的函数。在某些实施例中,该值表达为该组所测序的基因的外显子的函数。在其他实施例中,该值表达为该组所测序的基因的内含子的函数。
在某些实施例中,该值表达为该组基因的多个位置中的改变(例如,体细胞改变)的数量的函数。在某些实施例中,该值表达为该组基因的编码区的多个位置中的改变(例如,体细胞改变)的数量的函数。在其他实施例中,该值表达为该组基因的非编码区的多个位置中的改变(例如,体细胞改变)的数量的函数。在某些实施例中,该值表达为该组基因的外显子的多个位置中的改变(例如,体细胞改变)的数量的函数。在其他实施例中,该值表达为该组基因的内含子的多个位置中的改变(例如,体细胞改变)的数量的函数。
在某些实施例中,该值表达为该组所测序的基因的多个位置中的改变(例如,体细胞改变)的数量的函数。在某些实施例中,该值表达为该组所测序的基因的编码区的多个位置中的改变(例如,体细胞改变)的数量的函数。在其他实施例中,该值表达为该组所测序的基因的非编码区的多个位置中的改变(例如,体细胞改变)的数量的函数。在某些实施例中,该值表达为该组所测序的基因的外显子的多个位置中的改变(例如,体细胞改变)的数量的函数。在其他实施例中,该值表达为该组所测序的基因的内含子的多个位置中的改变(例如,体细胞改变)的数量的函数。
在某些实施例中,该值表达为每个单位的改变(例如,体细胞改变)的数量的函数,例如,表达为每兆碱基的体细胞改变的数量的函数。
在某些实施例中,该值表达为该组基因中的每兆碱基的改变(例如,体细胞改变)的数量的函数。在某些实施例中,该值表达为该组基因的编码区中的每兆碱基的改变(例如,体细胞改变)的数量的函数。在其他实施例中,该值表达为该组基因的非编码区中的每兆碱基的改变(例如,体细胞改变)的数量的函数。在某些实施例中,该值表达为该组基因的外显子中的每兆碱基的改变(例如,体细胞改变)的数量的函数。在其他实施例中,该值表达为该组基因的内含子中的每兆碱基的改变(例如,体细胞改变)的数量的函数。
在某些实施例中,该值表达为该组所测序的基因中的每兆碱基的改变(例如,体细胞改变)的数量的函数。在某些实施例中,该值表达为该组所测序的基因的编码区中的每兆碱基的改变(例如,体细胞改变)的数量的函数。在其他实施例中,该值表达为该组所测序的基因的非编码区中的每兆碱基的改变(例如,体细胞改变)的数量的函数。在某些实施例中,该值表达为该组所测序的基因的外显子中的每兆碱基的改变(例如,体细胞改变)的数量的函数。在其他实施例中,该值表达为该组所测序的基因的内含子中的每兆碱基的改变(例如,体细胞改变)的数量的函数。
在某些实施例中,将突变负荷外推至基因组的较大部分(例如,外推至外显子组或整个基因组),例如以获得总突变负荷。在其他实施例中,将突变负荷外推至外显子组的较大部分,例如,外推至整个外显子组。
在某些实施例中,样品来自受试者。在某些实施例中,受试者患有病症,例如癌症。在其他实施例中,受试者正在接受或已经接受疗法,例如免疫疗法。
在某些实施例中,突变负荷表达为例如在来自参考群体的样品中的突变负荷中的百分位数。在某些实施例中,参考群体包括患有与受试者相同类型的癌症的患者。在其他实施例中,参考群体包括正在接受或已经接受与受试者相同类型的疗法的患者。
在某些实施例中,该方法包括:
(i)获取包含来自样品的多个肿瘤核酸分子的文库;
(ii)将文库与靶标捕获试剂接触以提供所选的肿瘤核酸分子,其中所述靶标捕获试剂与肿瘤核酸分子杂交,从而提供文库捕获物;
(iii)例如通过下一代测序方法从来自所述文库捕获物的肿瘤核酸分子获取包含改变(例如,体细胞改变)的受试者区间的读数;
(iv)通过比对方法来比对所述读数;
(v)从所述读数为核苷酸位置分配核苷酸值;
(vi)选择来自一组所分配的核苷酸位置中的一组受试者区间(例如,编码受试者区间),其中该组受试者区间来自一组基因;以及
(vii)确定突变负荷的值,其中该值为该组受试者区间中的改变(例如,一个或多个改变),例如体细胞改变(例如,一个或多个体细胞改变),的数量的函数。
在某些实施例中,改变(例如,体细胞改变)的数量不包括受试者区间中的功能改变。在其他实施例中,改变的数量不包括受试者区间中的种系改变。在某些实施例中,改变(例如,体细胞改变)的数量不包括受试者区间中的功能改变和受试者区间中的种系改变。
在国际申请公开号WO2017/151524中描述了用于评估肿瘤突变负荷的其他方法,其内容全文以引用方式并入。
应用
本文公开的方法允许整合多个优化的元素,包括优化的基于靶标捕获试剂(例如,诱饵)的选择、优化的比对和优化的突变调用,例如应用于基因组的癌症相关区段。本文所述的方法提供了基于NGS的肿瘤分析,该分析可在逐个癌症、逐个基因和逐个位点的基础上进行优化。这可应用于例如本文所述的基因/位点和肿瘤类型。该方法优化了使用给定测序技术的突变检测的灵敏度和特异性水平。逐个癌症、逐个基因和逐位位点优化提供了非常高水平的灵敏度/特异性(例如,两者均>99%),这对于临床产品至关重要。
不希望受理论的束缚,据信在一些实施例中,本文所述的方法可应用于一般测序应用,这将受益于在所选的基因组区域的检测中增加的灵敏度。例如,这些应用包括但不限于基于普遍性的覆盖度增加的遗传性癌症组合、针对特异性疾病通路的其他全外显子组测序(WES)测试,以及富集候选可操作焦点事件的产前测试。
在一些实施例中,该方法进一步包括响应于基因组改变(例如,体细胞改变)的评估而选择治疗。在一些实施例中,该方法可进一步包括响应于突变负荷的评估(例如,增加或降低的突变负荷水平)而选择治疗。在一些实施例中,该方法进一步包括响应于基因组改变的评估而施用治疗。在一些实施例中,该方法进一步包括响应于基因组改变的评估而对样品或从中衍生出样品的受试者进行分类。在一些实施例中,该方法进一步包括确定从中获得样品的受试者的临床试验资格。在一些实施例中,该方法进一步包括向患者或其他人或实体、护理人员、医师、肿瘤学家、医院、诊所、第三方付款人、保险公司或政府机关生成并递送报告,例如,电子报告、基于网络的报告或纸质报告。在一些实施例中,报告包括来自本文所述的方法的输出。
本文所述的方法使用来自常规、现实世界样品的下一代测序技术,提供一组全面的、合理可行的基因(通常范围为从50个至500个基因)的基因组畸变的临床和监管级综合分析和解释,以便为最佳治疗和疾病管理决策提供信息。
本文所述的方法为肿瘤学家/病理学家提供一站式服务,以发送样品并接收对肿瘤的基因组和其他分子变化的综合分析和描述,以便为最佳治疗和疾病管理决策提供信息。
本文所述的方法提供了一种稳健的、现实世界的临床肿瘤学诊断工具,该工具采用标准可用样品,并在一次测试中提供综合基因组和其他分子畸变分析,以便为肿瘤学家提供有关哪些畸变可能导致肿瘤的综合描述和可能有助于告知肿瘤学家治疗决策。
本文所述的方法例如通过下一代测序(NGS),以临床级质量提供对患者的癌症基因组的综合分析。方法包括最相关的基因和潜在的改变,并包括对突变(例如,插入缺失或碱基取代)、拷贝数、重排(例如,易位、表达和表观遗传标志物)的一种或多种分析。遗传分析的输出可与可操作结果的描述性报告存在上下文相关联。方法将使用与一组最新的相关科学和医学知识加以连接。
在一些实施例中,该方法出于以下目的而分析衍生自人体的样品:提供用于诊断、预防或治疗人类的任何疾病(例如,癌症)或损伤或者评估人类健康的信息。在一些实施例中,根据由临床实验室改进修正案(CLIA)和/或美国病理学家学会(CAP)提供的指南来执行该方法。在一些实施例中,在CLIA和/或CAP认证的设施中执行该方法。在一些实施例中,根据由美国食品药品监督管理局(FDA)、欧洲药品管理局(EMA)、质量体系法规(QSR)、欧洲委员会(CE),例如CE体外诊断(CE-IVD)、中国食品药品监督管理局(CFDA)或其他监管机构提供的指南来执行该方法。在一些实施例中,在FDA、QSR、CE或CFDA认证的设施中执行该方法。在一些实施例中,在QSR认证的设施中执行该方法。在一些实施例中,该方法分析临床级样品,例如适用于临床实践、试验或患者护理管理的样品。在一些实施例中,样品包括回顾性样品和/或前瞻性样品。在一些实施例中,回顾性样品包括在已施用治疗之前或之后分析的样品或者为研究样品。在一些实施例中,前瞻性样品包括来自未经治疗的受试者的样品。在一些实施例中,使用本文所述的方法以分析前瞻性样品可导致对样品所从中获得(例如,衍生)的受试者的疗法的结果的预测。
在一些实施例中,该方法用作诊断,例如,如本文所述。在一些实施例中,该方法用于伴随诊断中或与伴随诊断一起使用。在一些实施例中,该方法用作互补诊断。
在一些实施例中,(例如,根据CLIA规定)通过确定准确性、精度、灵敏度、特异性、可报告范围或参考区间中的一者或多者(例如,两者、三者、四者、五者或全部)来确定该方法的有效性。在某些实施例中,准确度由例如靶区域中的已知变体(例如,SNP、插入缺失)的覆盖度和质量(例如,Phred分数)来进行确定。在某些实施例中,例如对于已知变体,精度由不同操作者和仪器之间的序列复制和覆盖度分布来确定。在某些实施例中,例如在具有充分表征的靶标的若干样品中,特异性由假阳性率、假变体在特定覆盖度阈值处被识别的程度来确定。在某些实施例中,例如在具有充分表征的靶标的若干样品中,灵敏度由检测已知变体的似然检验来确定。在某些实施例中,可报告范围由例如具有重复区域、插入缺失或等位基因脱扣的一个或多个基因的内含子缓冲和外显子区域来确定。在某些实施例中,参考区间通过例如在未受影响的群体中的序列变异背景测量来确定。
在一些实施例中,该方法在包括考虑以下项中的一项或多项(例如,两项、三项、四项、五项或全部)的设置中(例如,在CAP规定下)加以执行:经验证的样品提取、文库制备、条形码编码、合并、靶标富集或生物信息学(例如,如何调用精确和灵敏的变体)。
本文所述的方法提供了对患者护理的质量和效率的提高。这包括肿瘤为罕见类型或研究不足类型的应用情况,使得不存在标准的护理或患者对既定的疗法线表现出难治性,并且选择进一步的疗法或参与临床试验的理论依据可能是有用的。例如,该方法允许在疗法的任一点处选择肿瘤学家将在何处通过具有可获得的完整的“分子图像”和/或“分子亚诊断”而受益,以便为制定决策提供信息。该结果可用于确定患者是否可能有资格入选临床试验。
本文所述的方法可包括向患者或其他人或实体(例如护理人员,例如医师,例如肿瘤学家、医院、诊所、第三方付款人、保险公司或政府机关)提供报告,例如,电子报告、基于网络的报告或纸质报告。例如,对于与样品类型的肿瘤相关联的受试者区间,该报告可包括来自该方法的输出,例如,核苷酸值的识别,存在或不存在改变、突变或野生型序列的指示。该报告还可包括关于肿瘤突变负荷的水平的信息。该报告还可包括关于一种或多种其他基因组特征(例如连续/复杂生物标志物,例如微卫星不稳定性的水平或者杂合性(LOH)的存在或不存在)的信息。该报告还可包括关于序列(例如,改变、突变或野生型序列)在疾病中的作用的信息。此类信息可包括关于预后、耐受性或者可能的或建议的治疗选择的信息。该报告可包括关于以下项的信息:治疗选择的可能有效性、治疗选择的可接受性,或将治疗选择应用于患者(例如,具有在测试中所识别的以及在实施例中在报告中所识别的序列、改变的患者)的可取性。例如,该报告可包括关于向患者施用药物的信息或推荐,例如以一定剂量或治疗方案施用,例如与其他药物组合施用。在一个实施例中,并非所有在该方法中识别的突变均在该报告中得以识别。例如,该报告可限于基因突变,该基因突变具有与癌症的发生、预后、阶段或对治疗的易感性(例如,具有治疗选择)相关的相关性水平。本文所述的方法允许在实践该方法的实体接收样品后的7天、14天或21天内将该报告递送至例如本文所述的实体。因此,本发明所述的方法允许例如在接收样品的7天、14天或21天内快速周转时间。
本文所述的方法还可用于评估组织学上正常的样品,例如来自手术切缘的样品。如果检测到如本文所述的一个或多个改变,可将组织重新分类(例如分为恶性组织或癌前组织),并且/或者可修改治疗过程。
在一些实施例中,本文所述的方法可用于非癌症应用,例如用于法医应用(例如,作为牙科记录使用的替代或补充的识别)、亲子鉴定以及疾病诊断和预后(例如,用于传染病、自身免疫性病症、囊性纤维化、亨廷顿氏病、阿尔茨海默氏病等)。例如,通过本文所述的方法识别遗传改变可表明个体罹患特定病症的存在或风险。
系统
在另一方面,本发明的特征在于:一种用于例如根据本文所述的方法来评估样品中基因组改变的系统。该系统包括可操作地连接至存储器的至少一个处理器,所述至少一个处理器在执行时配置为执行分析如本文所述的样品的方法。
除非另外定义,否则本文中使用的所有技术和科学术语所具有的含义与本发明所属领域普通技术人员通常理解的含义相同。尽管在本发明的实践或测试中,可使用与本文所述的那些方法和材料类似或等同的方法和材料,但下文描述了合适的方法和材料。本文提及的所有出版物、专利申请、专利和其他参考文献通过引用以其全文合并于本文。另外,材料、方法和示例仅为说明性的,并非旨在进行限制。
从详细的说明、附图以及权利要求书中,本发明的其他特征和优点将会显而易见。
其他实施例
可替代地,或与本文所述的方法组合,在一些实施例中,该方法进一步包括(a)-(h)中的一者或多者(例如,2者、3者、4者、5者、6者、7者或全部):
(a)例如使用本文所述的多个靶标捕获试剂,提供来自样品(例如,血液样品)的核酸分子(例如,cfDNA);
(b)将包括包含多个不同条形码序列的条形码的衔接子附接至核酸分子,从而生成经标记的亲本核酸分子;
(c)扩增经标记的亲本核酸分子以产生扩增的经标记的子代核酸分子;
(d)对扩增的经标记的子代核酸分子进行测序,以产生来自经标记的亲本核酸分子中的每一者的多个序列读数,其中所述多个序列读数的每个序列读数包含条形码序列和衍生自核酸分子的序列;
(e)将所述多个序列读数的序列读数映射至一个或多个参考序列;
(f)至少基于序列读数的条形码序列而将e)中映射的序列读数分组至多个家族中,所述多个家族中的每一者包括包含相同条形码序列的序列读数,由此,所述多个家族中的每一者包括从同一经标记的亲本核酸分子扩增的序列读数;
(g)在所述一个或多个参考序列中的多个受试者区间的每一者处,折叠每个家族中的序列读数,以产生在受试者区间处的每个家族的突变调用;或者
(h)在一个或多个受试者区间处检测一种或多种基因组畸变,例如插入缺失、拷贝数变异、颠换、易位、倒位、缺失、非整倍性、部分非整倍性、多倍性、染色体不稳定性、染色体结构改变、基因融合、染色体融合、基因截断、基因扩增、基因重复、染色体损伤、DNA损伤、核酸化学修饰异常变化、表观遗传模式异常变化、核酸甲基化异常变化或其组合。
可替代地,或与本文所述的方法组合,在一些实施例中,该方法进一步包括(a)-(i)中的一者或多者(例如,2者、3者、4者、5者、6者、7者、8者或全部),例如,以便量化基因组改变(例如,单核苷酸变异):
(a)例如使用本文所述的多个靶标捕获试剂,提供来自样品(例如,血液样品)的核酸分子(例如,cfDNA);
(b)将包括包含不同条形码序列的条形码的衔接子附接至所述核酸分子,以生成经标记的亲本核酸分子;
(c)扩增经标记的亲本核酸分子以产生扩增的经标记的子代核酸分子;
(d)对扩增的经标记的子代核酸分子进行测序,以产生来自每个亲本核酸分子的多个序列读数,其中每个序列读数包含条形码序列和衍生自核酸分子的序列;
(e)基于(i)条形码序列和(ii)以下项中的一项或多项,将从每个经标记的亲本核酸分子产生的所述多个序列读数分组至多个家族中:衍生自核酸的序列的开始处的序列信息、衍生自核酸的序列的末端处的序列信息,或序列读数的长度,其中每个家族包括从经标记的亲本核酸分子中的独特核酸分子扩增的经标记的子代核酸分子的序列读数;
(f)将每个家族内分组的序列读数相互比较以确定每个家族的共有序列,其中共有序列中的每一者对应于经标记的亲本核酸分子中的独特核酸分子;
(g)提供一个或多个包含一个或多个受试者区间的参考序列;
(h)识别映射至所述一个或多个受试者区间的给定受试者区间的共有序列;或者
(i)计算映射至包含基因组改变的给定受试者区间的共有序列的数量,从而量化样品中的基因组改变。
可替代地,或与本文所述的方法组合,在一些实施例中,该方法进一步包括(a)-(h)中的一者或多者(例如,2者、3者、4者、5者、6者、7者或全部):
(a)例如使用本文所述的多个靶标捕获试剂,提供来自样品(例如,血液样品)的核酸分子(例如,cfDNA);
(b)将所述多个核酸分子转化为多个经标记的亲本核酸分子,其中经标记的亲本核酸分子中的每一者包含:(i)来自所述多个核酸分子的核酸分子的序列,和(ii)包含一个或多个条形码的标识符序列;
(c)扩增所述多个经标记的亲本核酸分子以产生相应的多个扩增的子代核酸分子;
(d)对所述多个扩增的子代核酸分子进行测序以产生一组序列读数;
(e)将该组序列读数的序列读数映射至一个或多个参考序列;
(f)将序列读数分组为多个家族,所述多个家族中的每一者包括包含相同标识符序列并具有相同起始和终止位置的序列读数,其中所述多个家族中的每一者包含从相同的经标记的亲本核酸分子扩增的序列读数;
(g)在所述一个或多个参考序列中的多个受试者区间的每个受试者区间处,折叠每个家族中的序列读数,以产生在受试者区间处的每个家族的突变调用;或者
(h)确定在受试者区间处从家族中调用一个或多个突变的频率。
可替代地,或与本文所述的方法组合,在一些实施例中,该方法进一步包括(a)-(f)中的一者或多者(例如,2者、3者、4者、5者或全部),例如,以便检测拷贝数变异:
(a)例如使用本文所述的多个靶标捕获试剂,提供来自样品(例如,血液样品)的核酸分子(例如,cfDNA);
(b)对核酸分子进行测序,其中核酸分子中的每一者生成多个序列读数;
(c)过滤掉不满足设定准确度、质量分数或映射分数阈值的读数;
(d)将所述多个序列读数映射至参考序列;
(e)量化参考序列的多个区域中的经映射的读数或独特序列读数;以及
(f)通过以下项来确定所述多个预定区域中的一者或多者中的拷贝数变异:i)将所述多个区域中的多个读数彼此归一化,或将所述多个区域中的多个独特序列读数彼此归一化;和/或ii)用从对照样品获得的数字处理所述多个区域中的多个读数或所述多个区域中的多个独特序列读数。
可替代地,或与本文所述的方法组合,在一些实施例中,该方法进一步包括(a)-(h)中的一者或多者(例如,2者、3者、4者、5者、6者、7者或全部),例如,以便检测拷贝数变异:
(a)例如使用本文所述的多个靶标捕获试剂,提供来自样品(例如,血液样品)的核酸分子(例如,cfDNA);
(b)对核酸分子进行测序,其中核酸分子中的每一者生成多个序列读数;
(c)过滤掉不满足设定准确度、质量分数或映射分数阈值的读数;
(d)将衍生自测序的序列读数映射至参考序列;
(e)从序列读数中确定对应于核酸分子的独特序列读数;
(f)识别经映射的独特序列读数的子集,在每个可映射的碱基位置处与参考序列相比,其包含变体;
(g)对于每个可映射的碱基位置,计算(a)与参考序列相比包括变体的多个经映射的独特序列读数与(b)每个可映射的碱基位置的多个总独特序列读数的比率;以及
(h)用来自参考样品中的类似地导出的数字来处理该比率。
可替代地,或与本文所述的方法组合,在一些实施例中,该方法进一步包括(a)-(h)中的一者或多者(例如,2者、3者、4者、5者、6者、7者或全部):
(a)用一组双链体标签标记来自受试者的样品(例如,血液样品)中的双链DNA分子(例如,cfDNA),其中该组双链体标签包含多个不同的分子条形码,其中该组双链体标签的每个双链体标签不同地标记样品中双链DNA分子的双链DNA分子的互补链,以提供标记链,并且其中与双链DNA分子相比较,用至少10X过量的双链体标签来执行标记,该过量的双链体标签足以标记来自受试者的样品中的至少20%的双链DNA分子;
(b)对于参考基因组中的一组一个或多个遗传基因座中的每个遗传基因座,例如使用本文所述的多个靶标捕获试剂来选择性地富集标记链的标记链子集(该标记链子集映射至遗传基因座),以提供富集的标记链;
(c)对富集的标记链的至少一部分进行测序,以从来自受试者的样品中生成多个原始序列读数;
(d)将所述多个原始序列读数分组为多个家族,每个家族包含从同一亲本多核苷酸生成的原始序列读数,该分组基于(i)与亲本多核苷酸相关联的分子条形码和(ii)来自亲本多核苷酸的原始序列的开始和/或结束部分的信息;
(e)将分组至所述多个家族中的所述多个原始序列读数折叠为多个共有序列读数,所述多个共有序列读数的每个共有序列读数:(i)包含该组一个或多个遗传基因座中的每个遗传基因座的多个共有碱基并且(ii)表示双链DNA分子的单链;
(f)对于该组一个或多个遗传基因座中的每个遗传基因座,计算富集的标记链的第一定量测量,该标记链映射至在所述多个共有序列读数中检测到互补链的遗传基因座;
(g)对于该组一个或多个遗传基因座中的每个遗传基因座,计算富集的标记链的第二定量测量,该标记链映射至在所述多个共有序列读数中仅检测到互补链中的一条链的遗传基因座;或者
(h)对于该组一个或多个遗传基因座中的每个遗传基因座,计算富集的标记链的第三定量测量,该标记链映射至在所述多个共有序列读数中没有检测到互补链的遗传基因座,其中至少部分地基于第一和第二定量测量来计算第三定量测量,从而检测来自受试者的样品中的双链DNA分子。
可替代地,或与本文所述的方法组合,在一些实施例中,该方法进一步包括(a)-(b)中的一者或两者,例如,以用于富集多个基因组区域:
(a)使来自样品的预定量的核酸与本文所述的多个靶标捕获试剂进行接触,所述多个靶标捕获试剂包括:
(i)第一多个靶标捕获试剂,其与来自样品的核酸的第一组基因组区域选择性杂交,该第一多个靶标捕获试剂以低于第一多个靶标捕获试剂的饱和点的第一浓度加以提供,和
(ii)第二多个靶标捕获试剂,其与来自样品的核酸的第二组基因组区域选择性杂交,该第二多个靶标捕获试剂以处于或高于第二多个靶标捕获试剂的饱和点的第二浓度加以提供;以及
(b)富集来自样品的核酸的第一组基因组区域和第二组基因组区域,从而产生富集的核酸。
可替代地,或与本文所述的方法组合,在一些实施例中,该方法进一步包括(a)-(e)中的一者或多者(例如,2者、3者、4者或全部):
(a)提供多个靶标捕获试剂混合物,其中所述多个靶标捕获试剂混合物中的每一者包含与第一组基因组区域选择性杂交的第一多个靶标捕获试剂和与第二组基因组区域选择性杂交的第二多个靶标捕获试剂,
其中第一多个靶标捕获试剂在所述多个靶标捕获试剂混合物中处于不同浓度,而第二多个靶标捕获试剂在所述多个靶标捕获试剂混合物中处于相同浓度;
(b)使所述多个靶标捕获试剂混合物中的每一者与样品(例如,血液样品)接触,以从样品中用第一多个靶标捕获试剂和第二多个靶标捕获试剂捕获核酸,其中每个靶标捕获试剂混合物中的第二多个靶标捕获试剂以处于或高于第二多个靶标捕获试剂的饱和点的第一浓度加以提供,其中来自样品的核酸由第一多个靶标捕获试剂和第二多个靶标捕获试剂捕获;
(c)对用每个靶标捕获试剂混合物捕获的核酸的一部分进行测序,以在所分配的数量的序列读数内产生多组序列读数;
(d)确定每个靶标捕获试剂混合物的第一多个靶标捕获试剂和第二多个靶标捕获试剂的序列读数的读取深度;或者
(e)识别至少一个为第二组基因组区域提供读取深度的靶标捕获试剂混合物;
其中第二组基因组区域的读取深度提供至少0.0001%次要等位基因频率(MAF)的遗传变体的检测灵敏度。
其他实施例描述于美国专利号US9,598,731、US9,834,822、US9,840,743、US9,902,992、US9,920,366和US9,850,523,其内容以引用方式并入其实体。
在本文所述的方法的实施例中,该方法中的步骤或参数用于修改该方法中的下游步骤或参数。
在一个实施例中,样品的特征用于修改以下项中的一项或多项或全部中的下游步骤或参数:从所述样品分离核酸;文库构建;设计或选择靶标捕获试剂(例如,诱饵);杂交条件;测序;读数映射;选择突变调用方法;突变调用;或突变注释。
在一个实施例中,分离的肿瘤或对照核酸的特征用于修改以下项中的一项或多项或全部中的下游步骤或参数:从所述样品分离核酸;文库构建;设计或选择靶标捕获试剂(例如,诱饵);杂交条件;测序;读数映射;选择突变调用方法;突变调用;或突变注释。
在一个实施例中,文库的特征用于修改以下项中的一项或多项或全部中的下游步骤或参数:从所述样品重新分离核酸;后续文库构建;设计或选择靶标捕获试剂(例如,诱饵);杂交条件;测序;读数映射;选择突变调用方法;突变调用;或突变注释。
在一个实施例中,文库捕获物的特征用于修改以下项中的一项或多项或全部中的下游步骤或参数:从所述样品重新分离核酸;后续文库构建;设计或选择靶标捕获试剂(例如,诱饵);杂交条件;测序;读数映射;选择突变调用方法;突变调用;或突变注释。
在一个实施例中,测序方法的特征用于修改以下项中的一项或多项或全部中的下游步骤或参数:从所述样品重新分离核酸;后续文库构建;设计或选择靶标捕获试剂(例如,诱饵);随后确定杂交条件;后续测序;读数映射;选择突变调用方法;突变调用;或突变注释。
在一个实施例中,映射读数集合的特征用于修改以下项中的一项或多项或全部中的下游步骤或参数:从所述样品重新分离核酸;后续文库构建;设计或选择靶标捕获试剂(例如,诱饵);随后确定杂交条件;后续测序;后续读数映射;选择突变调用方法;突变调用;或突变注释。
在一个实施例中,该方法包括获取样品特征的值,例如获取以下项的值:所述样品中的肿瘤细胞的比例;所述样品的细胞性;或来自样品的图像。在实施例中,该方法包括,响应于样品特征的所述所获取的值,选择以下项的参数:从样品分离核酸、文库构建;设计或选择靶标捕获试剂(例如,诱饵);靶标捕获试剂(例如,诱饵)/文库核酸分子杂交;测序;或突变调用。
在一个实施例中,该方法进一步包括:获取存在于所述样品中的肿瘤组织的量的值,将所述所获取的值与参考标准进行比较,并且如果满足所述参考标准,则接受所述样品,例如,如果所述样品包含大于30%、40%或50%的肿瘤细胞,则接受所述样品。在一个实施例中,方法进一步包括例如通过宏观解剖来自所述样品的肿瘤组织、来自未能满足参考标准的样品的肿瘤组织,来获取富集肿瘤细胞的子样品。
在一个实施例中,该方法进一步包括:获取存在于所述样品中的肿瘤核酸(例如,DNA)的量的值,将所述所获取的值与参考标准进行比较,并且如果满足所述参考标准,则接受所述样品。在一个实施例中,该方法进一步包括例如通过宏观解剖来自所述样品的肿瘤组织、来自未能满足参考标准的样品的肿瘤组织,来获取富集肿瘤核酸的子样品。
在一个实施例中,方法进一步包括向受试者提供肿瘤类型、基因和遗传改变(TGA)的关联。在一个实施例中,方法进一步包括提供具有多个元素的数据库,其中每个元素包含TGA。
在一个实施例中,方法进一步包括表征受试者的TGA,其包括:确定所述TGA是否存在于数据库(例如,经验证的TGA的数据库)中;将来自数据库的TGA的信息与来自所述受试者的所述TGA(注释)相关联;以及任选地,确定所述受试者的第二或后续TGA是否存在于所述数据库中,并且如果存在,则将来自数据库的第二或后续TGA的信息与存在于所述患者体内的所述第二TGA相关联。在一个实施例中,该方法进一步包括记录受试者的TGA的存在或不存在以及任选地相关联的注释以形成报告。在一个实施例中,方法进一步包括将所述报告传输至接收方。
在一个实施例中,方法进一步包括表征受试者的TGA,其包括:确定所述TGA是否存在于数据库(例如,经验证的TGA的数据库)中;或确定不在所述数据库中的TGA是否具有已知的临床相关基因或改变,并且如果具有,则提供所述数据库中的所述TGA的条目。在一个实施例中,该方法进一步包括记录在来自受试者的样品的DNA中发现的突变的存在或不存在以形成报告。
示例性实施例
以下实施例为示例性的,并非旨在限制本发明的范围。
实施例1.一种确定来自受试者的样品的肿瘤分数的方法,该方法包括:
获取与样品中的亚基因组间隔相关联的目标变量的值;
根据目标变量来确定确定性度量;
存取存储的确定性度量与存储的肿瘤分数之间的经确定的关系;以及
参考确定性度量和经确定的关系,确定样品的肿瘤分数。
实施例2.根据实施例1所述的方法,其中亚基因组间隔包括至少一个核苷酸。
实施例3.根据实施例2所述的方法,其中所述至少一种核苷酸与单核苷酸多态性(SNP)相关联。
实施例4.根据实施例1至3中任一项所述的方法,其中亚基因组间隔包括两个或更多个核苷酸。
实施例5.根据实施例1至4中任一项所述的方法,其中亚基因组间隔包括本文所述的基因的一个或多个核苷酸。
实施例6.根据实施例1至5中任一项所述的方法,其中确定性度量为与亚基因组间隔的预期log2比率的偏差或与亚基因组间隔的预期等位基因分数的偏差中的一者。
实施例7.根据实施例1至6中任一项所述的方法,其中例如在多个亚基因组间隔处获取目标变量的多个值。
实施例8.根据实施例7所述的方法,其中所述多个亚基因组间隔包括2个、5个、10个、20个、30个、40个、50个、60个、70个、80个、90个、100个、150个、200个、250个、300个或更多个亚基因组间隔。
实施例9.根据实施例1至8中任一项所述的方法,其中目标变量包括与样品中的亚基因组间隔相关联的等位基因的丰度的比较。
实施例10.根据实施例1至9中任一项所述的方法,其中该比较介于一个等位基因的丰度与所有等位基因的丰度之间。
实施例11.根据实施例1至9中任一项所述的方法,其中该比较介于一个等位基因的丰度与替代等位基因的丰度之间。
实施例12.根据实施例1至11中任一项所述的方法,其中目标变量包括等位基因分数,或者母系或父系等位基因的丰度相对于母系和父系等位基因的丰度的比较(例如,比率)。
实施例13.根据实施例12所述的方法,其中样品中的母系等位基因比父系等位基因更丰富。
实施例14.根据实施例12所述的方法,其中样品中的父系等位基因比母系等位基因更丰富。
实施例15.根据实施例1至14中任一项所述的方法,其中目标变量的值在0与0.5之间、在0与1之间或在0.5与1之间。
实施例16.根据实施例1至15中任一项所述的方法,其中目标变量包括母系等位基因与父系等位基因的丰度的差值相对于母系或父系等位基因的丰度的比较(例如,比率)。
实施例17.根据实施例16所述的方法,其中样品中的母系等位基因比父系等位基因更丰富。
实施例18.根据实施例16所述的方法,其中样品中的父系等位基因比母系等位基因更丰富。
实施例19.根据实施例1至18中任一项所述的方法,其中目标变量包括样品中的亚基因组间隔处的等位基因的丰度与参考样品中的亚基因组间隔处的等位基因的丰度的比较。
实施例20.根据实施例19所述的方法,其中参考样品是从健康受试者、或未患有癌症或不存在患有癌症的风险的受试者获得的。
实施例21.根据实施例19或20中任一项所述的方法,其中目标变量包括样品中的母系等位基因和父系等位基因的丰度相对于参考样品中的母系等位基因和父系等位基因的丰度的比较(例如,比率)。
实施例22.根据实施例19或20中任一项所述的方法,其中目标变量包括样品中的母系等位基因和父系等位基因的丰度与参考样品中的母系等位基因和父系等位基因的丰度的差值相对于参考样品中的母系等位基因和父系等位基因的丰度的比较(例如,比率)。
实施例23.根据实施例1至22中任一项所述的方法,其中亚基因组间隔为杂合的(就与亚基因组间隔相关联的等位基因而言)。
实施例24.根据实施例1至22中任一项所述的方法,其中亚基因组间隔为纯合的、半合的(semizygous)或半合的(hemizygous)(就与亚基因组间隔相关联的等位基因而言)。
实施例25.根据实施例1至24中任一项所述的方法,其中至少一个与亚基因组间隔相关联的等位基因参与样品中的拷贝数改变(例如,扩增)。
实施例26.根据实施例1至25中任一项所述的方法,其中确定性度量为偏差度量(例如,本文所述的偏差度量)或任何p矩或其组合。
实施例27.根据实施例26所述的方法,其中偏差度量测量目标变量的值与参考值(例如,本文所述的预期值)的偏差。
实施例28.根据实施例26至27中任一项所述的方法,其中偏差度量测量母系或父系等位基因的丰度相对于母系和父系等位基因的丰度的比率与预期比率(例如,0.5)的偏差。
实施例29.根据实施例26至28中任一项所述的方法,其中偏差度量测量母系等位基因与父系等位基因的丰度的差值相对于母系或父系等位基因的丰度的比率与预期比率(例如,0)的偏差。
实施例30.根据实施例26至29中任一项所述的方法,其中偏差度量测量样品中的母系等位基因和父系等位基因的丰度相对于参考样品中的母系等位基因和父系等位基因的丰度的比率与预期比率(例如,0)的偏差。
实施例31.根据实施例30所述的方法,其中该比率包括对数比,例如log2比率。
实施例32.根据实施例26至31中任一项所述的方法,其中偏差度量测量样品中的母系等位基因和父系等位基因的丰度与参考样品中的母系等位基因和父系等位基因的丰度的差值相对于参考样品中的母系等位基因和父系等位基因的丰度的比率与预期比率(例如,0)的偏差。
实施例33.根据实施例26至32中任一项所述的方法,其中偏差度量包括均方根(p=2矩)偏差度量,或p矩变异度量的任何组合。
实施例34.根据实施例26至32中任一项所述的方法,其中偏差度量包括log2比率度量。
实施例35.根据实施例26至32中任一项所述的方法,其中偏差度量包括均方根(p=2矩)偏差度量,或p矩变异度量的任何组合。
实施例36.根据实施例1至25中任一项所述的方法,其中确定性度量不测量目标变量的值与参考值(例如,预期值)的偏差。
实施例37.根据实施例1至25或36中任一项所述的方法,其中确定性度量为熵度量(例如固有地测量目标变量的相对确定性的度量,例如本文所述的熵度量)、或任何p矩或其组合
实施例38.根据实施例37的方法,其中熵度量测量母系或父系等位基因的丰度相对于母系和父系等位基因的丰度的比率的确定性。
实施例39.根据实施例37至38中任一项所述的方法,其中熵度量测量样品中的母系等位基因和父系等位基因的丰度相对于参考样品中的母系等位基因和父系等位基因的丰度的比率的确定性.
实施例40.根据实施例39所述的方法,其中该比率包括对数比,例如log2比率。
实施例41.根据实施例1至40中任一项所述的方法,进一步包括例如通过下一代测序(NGS)来对样品进行测序,例如,以确定亚基因组间隔处的等位基因的丰度。
实施例42.根据实施例1至41中任一项所述的方法,其中例如当测序用于确定等位基因的丰度时,确定性度量为亚基因组间隔处的等位基因覆盖度的函数。
实施例43.根据实施例1至41中任一项所述的方法,进一步包括对样品执行阵列杂交,例如,以确定基因组基因座处的等位基因的丰度。
实施例44.根据实施例43所述的方法,其中例如当阵列杂交用于确定等位基因的丰度时,确定性度量为亚基因组间隔处的等位基因强度的函数。
实施例45.根据实施例1至44中任一项所述的方法,其中基于其预期等位基因分数来选择亚基因组间隔。
实施例46.根据实施例45所述的方法,其中预期等位基因分数为健康群体中的个体的子集中的0.50等位基因分数。
实施例47.根据实施例45所述的方法,其中在具有异常细胞生长的受试者体内,预期等位基因分数不是0、0.50或1。
实施例48.根据实施例1至47中任一项所述的方法,其中基于其各自的等位基因位置来选择亚基因组间隔,并且其中在具有特定疾病本体的受试者体内,预期所述各自的等位基因位置具有除0.50之外的等位基因分数。
实施例49.根据实施例48所述的方法,其中特定疾病本体为癌症病症或癌前期病症中的一者。
实施例50.根据实施例1至49中任一项所述的方法,进一步包括:
存取从临床标本(或细胞系,或计算机模拟样品集)获得的信息的训练数据集,该信息包括存储的确定性度量与来自受试者群体的存储的肿瘤分数之间的多个关系;以及
将机器学习过程应用于训练数据集,以确定存储的确定性度量与存储的肿瘤分数之间的经确定的关系。
实施例51.一种计算机系统,其包括:
数据库,该数据库配置为存储存储的确定性度量与存储的肿瘤分数之间的经确定的关系;
处理器;和
可通信地耦接至该处理器的存储器,该存储器包括指令,该指令当由处理器执行时,使得该处理器:
获取在样品中的亚基因组间隔处的目标变量的值;
根据目标变量来确定确定性度量;
在数据库中存取存储的确定性度量与存储的肿瘤分数之间的经确定的关系;以及
参考确定性度量和经确定的关系,确定样品的肿瘤分数。
实施例52.根据实施例51所述的计算机系统,其中存储器进一步包括指令,该指令当由处理器执行时,使得处理器:
存取从临床标本(或细胞系,或计算机模拟的样品集)获得的信息的训练数据集,该信息包括存储的确定性度量与相应的存储的肿瘤分数之间的多个关系,所述多个关系已根据受试者群体进行确定;以及
将机器学习过程应用于训练数据集,以确定存储的确定性度量与相应的存储的肿瘤分数之间的经确定的关系。
实施例53.一种治疗受试者的疾病的方法,该方法包括:
响应于肿瘤分数的估计,向受试者施用有效量的疗法,从而治疗疾病,
其中肿瘤分数的估计包括:
获取在来自受试者的样品中的亚基因组间隔处的目标变量的值;
根据目标变量来确定确定性度量;
存取存储的确定性度量与存储的肿瘤分数之间的经确定的关系;以及
参考确定性度量和经确定的关系,确定样品的肿瘤分数。
实施例54.一种评估受试者的疾病的方法,该方法包括
获取在来自受试者的第一样品中的亚基因组间隔处的目标变量的第一值;
根据目标变量来确定第一确定性度量;
存取存储的确定性度量与存储的肿瘤分数之间的经确定的关系;以及
参考第一确定性度量和经确定的关系,确定第一样品的肿瘤分数;
获取在来自受试者的第二样品中的亚基因组间隔处的目标变量的第二值;
根据目标变量来确定第二确定性度量;
参考第二确定性度量和经确定的关系,确定第二样品的肿瘤分数;以及
将第一样品的肿瘤分数与第二样品的肿瘤分数进行比较,从而评估受试者的疾病。
实施例55.根据实施例54所述的方法,其中在第一时间点采集第一样品,并且其中在第二时间点采集第二样品。
实施例56.根据实施例55所述的方法,其中第一时间点在已向受试者施用疗法之前,并且其中第二时间点在已向受试者施用疗法之后。
实施例57.一种评估受试者的方法,该方法包括:
获取在来自受试者的样品中的亚基因组间隔处的目标变量的值;
根据目标变量来确定确定性度量;
存取存储的确定性度量与存储的肿瘤分数之间的经确定的关系;以及
参考确定性度量和经确定的关系,确定样品的肿瘤分数,从而评估受试者。
实施例58.一种评估疗法的方法,该方法包括:
获取在来自受试者(已经向该受试者施用疗法)的样品中的亚基因组间隔处的目标变量的值;
根据目标变量来确定确定性度量;
存取存储的确定性度量与存储的肿瘤分数之间的经确定的关系;以及
参考确定性度量和经确定的关系,确定样品的肿瘤分数,从而评估所施用的疗法的功效。
实施例59.一种提供报告的方法,该方法包括:
获取在来自受试者的样品中的亚基因组间隔处的目标变量的值;
根据目标变量来确定确定性度量;
存取存储的确定性度量与存储的肿瘤分数之间的经确定的关系;以及
参考确定性度量和经确定的关系,确定样品的肿瘤分数;以及
在报告中记录肿瘤分数。
实施例60.一种评估来自受试者的活体组织切片的方法,该方法包括:
获取在来自受试者的活体组织切片中的亚基因组间隔处的目标变量的值;
根据目标变量来确定确定性度量;
存取存储的确定性度量与存储的肿瘤分数之间的经确定的关系;以及
参考确定性度量和经确定的关系,确定活体组织切片的肿瘤分数,从而评估活体组织切片。
实施例61.根据实施例1至60中任一项所述的系统或方法,其中受试者患有癌症、或存在患有癌症的风险,或可能患有癌症。
实施例62.根据实施例61所述的系统或方法,其中癌症为实体瘤。
实施例63.根据实施例61所述的系统或方法,其中癌症为血液学癌症,例如白血病或淋巴瘤。
实施例64.根据实施例1至63中任一项所述的系统或方法,其中样品为液体样品,例如血液或血清样品。
实施例65.根据实施例1至63中任一项所述的系统或方法,其中样品为固体样品,例如FFPE样品。
实施例66.根据实施例1至63中任一项所述的系统或方法,其中样品包含无细胞DNA(cfDNA)或循环肿瘤DNA(ctDNA)。
实施例67.根据实施例1至66中任一项所述的系统或方法,其中受试者正在接受至少一种疾病的监测。
实施例68.根据实施例1至67中任一项所述的系统或方法,其中受试者正在接受至少一种疾病的诊断。
实施例69.根据实施例1至68中任一项所述的系统或方法,其中受试者具有小于或等于0.30的预期肿瘤分数。
实施例70.根据实施例1至69中任一项所述的系统或方法,进一步包括基于来自受试者的样品的肿瘤分数来确定针对受试者的治疗。
实施例71.根据实施例70所述的系统或方法,进一步包括向受试者施用治疗。
实施例72.一种发现受试者的肿瘤含量的方法,该方法包括:
获取在来自受试者的活体组织切片中的亚基因组间隔处的目标变量的值;
根据目标变量来确定确定性度量;
存取存储的确定性度量与存储的肿瘤分数之间的经确定的关系;以及
参考确定性度量和经确定的关系,确定样品的样品肿瘤分数,从而发现受试者的肿瘤含量。
以引用方式并入
本文提到的所有出版物、专利和专利申请均在此全文以引用方式并入,就好像每个单独的出版物、专利或专利申请均被具体且单独地指出以引用方式并入一样。如有冲突,以本申请(包括本文的任何定义)为准。
还以引用方式整体并入了引用与公共数据库中的条目相关联的登录号的任何多核苷酸和多肽序列,诸如由美国基因组研究所(TIGR)在万维网网址tigr.org和/或国立生物技术信息中心(NCBI)在万维网网址ncbi.nlm.nih.gov维护的那些。
与他人的互动
本文所述的本发明的方法步骤旨在包括使得一个或多个其他方或实体执行该步骤的任何合适的方法,除非明确提供不同的含义或上下文另有明确说明。此类方或实体无需受任何其他方或实体的指导或控制,并且无需位于特定管辖范围内。因此,例如,“将第一数字与第二数字相加”的描述或叙述包括使得一个或多个方或实体将这两个数字相加。例如,如果人员X与人员Y进行公平交易以将这两个数字相加,而人员Y确实将这两个数字相加,则人员X和人员Y均执行上述步骤:人员Y是因为他实际添加了数字,而人员X是因为他使得人员Y添加了数字。此外,如果人员X位于美国境内而人员Y位于美国境外,则由于人员X的参与导致该步骤得以执行,所以该方法是在美国境内执行的。
等同方案
仅使用常规实验,本领域技术人员将认识到或能够确定本文所述的本发明的具体实施例的许多等同方案。这样的等同方案旨在由所附权利要求涵盖。
实例
使用通常描述于Clark等人,Analytical Validation of a Hybrid Capture-Based Next-Generation Sequencing Clinical Assay for Genomic Profiling ofCell-Free Circulating Tumor DNA,J.Molecular Diagnostics,第20卷,第686-702页(2018)中的方法,针对HCC1954和HCC1143细胞培养物跨TP53亚基因组间隔内的SNP基因座的培养物,确定最大体细胞等位基因频率(MSAF)和等位基因分数(AF)。MSAF被用作每个样品的肿瘤分数的代表。为了获得不同的肿瘤分数(即MSAF),用配对的正常DNA连续稀释细胞系。针对每个样品细胞培养物,确定的所有等位基因频率的概率分布函数(PDF),并确定每个PDF的相应熵。
将肿瘤分数(例如,由MSAF代表所表示的)针对每个细胞的经确定的熵加以绘图,如图4所示。对于高于0.05%的肿瘤分数,确定概率分布函数的熵与肿瘤分数的对数之间的线性关系。

Claims (59)

1.一种确定来自受试者的样品的肿瘤分数的方法,其包括:
获取多个值,每个值指示所述样品中的亚基因组间隔内的相应基因座处的等位基因分数;
确定指示所述多个值的离散度的确定性度量;
存取一个或多个存储的确定性度量与一个或多个存储的肿瘤分数之间的预定关系;以及
根据所述确定性度量和所述预定关系来确定所述样品的所述肿瘤分数。
2.根据权利要求1所述的方法,其中所述多个值内的每个值为等位基因分数。
3.根据权利要求1所述的方法,其中所述多个值内的每个值包括母系等位基因与父系等位基因之间的丰度的差值相对于所述母系等位基因或所述父系等位基因在所述相应基因座处的丰度的比率。
4.根据权利要求1至3中任一项所述的方法,其中所述确定性度量指示所述多个值中的每一者与预期值的偏差。
5.根据权利要求4所述的方法,其中所述预期值为基因座特异性预期值。
6.根据权利要求4或5所述的方法,其中所述确定性度量为与所述预期值的均方根偏差。
7.根据权利要求4至6中任一项所述的方法,其中所述预期值为非肿瘤样品的预期等位基因频率。
8.根据权利要求4至7中任一项所述的方法,其中所述多个值内的每个值为和等位基因分数,并且所述预期值为0.5。
9.根据权利要求4至6中任一项所述的方法,其中所述多个值内的每个值为母系等位基因与父系等位基因之间的丰度的差值相对于所述母系等位基因或所述父系等位基因在所述相应基因座处的丰度的比率,并且所述预期值包括母系等位基因与父系等位基因之间的所述丰度的所述差值相对于所述母系等位基因或所述父系等位基因的丰度的预期比率,其中所述预期值为非肿瘤样品的所述预期比率。
10.根据权利要求9所述的方法,其中所述预期值为0。
11.根据权利要求1至10中任一项所述的方法,其中所述多个值包括多个等位基因覆盖度。
12.根据权利要求1所述的方法,所述方法进一步包括确定所述多个值的概率分布函数;其中使用所述概率分布函数来确定所述确定性度量。
13.根据权利要求12所述的方法,其中所述确定性度量为所述概率分布函数的熵。
14.根据权利要求1至13中任一项所述的方法,其中所述相应基因座包括一个或多个具有不同母系等位基因和父系等位基因的基因座。
15.根据权利要求1至14中任一项所述的方法,其中所述相应基因座由具有不同母系等位基因和父系等位基因的基因座组成。
16.根据权利要求1至14中任一项所述的方法,其中所述相应基因座包括一个或多个具有相同母系等位基因和父系等位基因的基因座。
17.一种确定来自受试者的样品的肿瘤分数的方法,其包括:
获取多个值,每个值指示在亚基因组间隔内的多个基因座处,肿瘤样品中的基因座的等位基因覆盖度与非肿瘤样品中的相同基因座的等位基因覆盖度之间的差值;
确定指示所述多个值的离散度的确定性度量;
存取一个或多个存储的确定性度量与一个或多个存储的肿瘤分数之间的预定关系;以及
根据所述确定性度量和所述预定关系来确定所述样品的所述肿瘤分数。
18.根据权利要求17所述的方法,其中所述多个值内的每个值包括所述肿瘤样品中的基因座的等位基因覆盖度相比于所述非肿瘤样品中的相同基因座的等位基因覆盖度的比率。
19.根据权利要求17所述的方法,其中所述多个值内的每个值包括所述肿瘤样品中的基因座的等位基因覆盖度相比于所述非肿瘤样品中的相同基因座的等位基因覆盖度的对数比。
20.根据权利要求19所述的方法,其中所述对数比为log2比率。
21.根据权利要求17所述的方法,其中所述多个值内的每个值包括所述肿瘤样品中的所述基因座与所述非肿瘤样品中的相同基因座的等位基因覆盖度的所述差值相对于所述非肿瘤样品中的相同基因座的等位基因覆盖度的比率。
22.根据权利要求17至21中任一项所述的方法,其中所述确定性度量指示所述多个值内的每个值与跨相应基因座的预期值的偏差,其中所述预期值为如果所述肿瘤样品是非肿瘤样品时将被预期的值。
23.根据权利要求22所述的方法,其中:
每个值包括所述肿瘤样品中的基因座的等位基因覆盖度相比于所述非肿瘤样品中的相同基因座的等位基因覆盖度的比率,并且所述预期值为1;
每个值包括所述肿瘤样品中的基因座的等位基因覆盖度相比于所述非肿瘤样品中的相同基因座的等位基因覆盖度的对数比,并且所述预期值为0;或者
每个值包括所述肿瘤样品中的所述基因座与所述非肿瘤样品中的相同基因座的等位基因覆盖度的所述差值相对于所述非肿瘤样品中的相同基因座的等位基因覆盖度的比率,并且所述预期值为0。
24.根据权利要求17至23中任一项所述的方法,其中所述确定性度量为与所述预期值的均方根偏差。
25.根据权利要求17所述的方法,所述方法进一步包括确定所述多个值的概率分布函数;其中使用所述概率分布函数来确定所述确定性度量。
26.根据权利要求25所述的方法,其中所述确定性度量为所述概率分布函数的熵。
27.根据权利要求17至26中任一项所述的方法,其中所述等位基因覆盖度包括母系等位基因和父系等位基因的等位基因覆盖度。
28.根据权利要求17至27中任一项所述的方法,其中所述等位基因覆盖度由母系等位基因和父系等位基因的等位基因覆盖度组成。
29.根据权利要求1至28中任一项所述的方法,其中所述多个基因座包含至少一个与单核苷酸多态性(SNP)相关联的核苷酸。
30.根据权利要求29所述的方法,其中所述多个基因座包含两个或更多个核苷酸,每个核苷酸与单核苷酸多态性(SNP)相关联。
31.根据权利要求29或30所述的方法,其中所述SNP与癌症相关联。
32.根据权利要求1至31中任一项所述的方法,其中所述多个基因座的至少一部分与拷贝数变异(CNV)相关联。
33.根据权利要求32所述的方法,其中所述CNV与癌症相关联。
34.根据权利要求1至33中任一项所述的方法,其进一步包括对所述样品进行测序,以确定每个基因座处的等位基因丰度或覆盖度。
35.根据权利要求1至33中任一项所述的方法,其进一步包括对所述样品执行阵列杂交,以确定每个基因座处的等位基因丰度或覆盖度。
36.根据权利要求1至35中任一项所述的方法,其进一步包括:
存取训练数据集,所述训练数据集包括多个训练确定性度量与相关联的训练肿瘤分数之间的多个关系;以及
将机器学习过程应用于所述训练数据集,以确定所述训练确定性度量与所述训练肿瘤分数之间的所述预定关系。
37.根据权利要求1至36中任一项所述的方法,其包括生成报告,所述报告包括识别所述受试者的信息和经确定的肿瘤分数。
38.根据权利要求37所述的方法,其包括向所述受试者或医疗保健提供者提供所述报告。
39.根据权利要求37或38所述的方法,其包括针对电子健康记录而格式化所述报告。
40.一种治疗受试者的肿瘤的方法,其包括:
响应于经确定的肿瘤分数,向所述受试者施用有效量的肿瘤疗法,其中根据权利要求1至39中任一项所述的方法来确定所述肿瘤分数。
41.根据权利要求40所述的方法,其包括基于所述经确定的肿瘤分数来确定患者体内所述肿瘤的存在。
42.根据权利要求40或41所述的方法,其中所述肿瘤疗法包括化疗、放疗或手术。
43.一种监测受试者的肿瘤进展或复发的方法,其包括:
(a)根据权利要求1至39中任一项所述的方法来确定在第一时间点从所述受试者获得的第一样品的第一肿瘤分数;
(b)确定在第二时间点从所述受试者获得的第二样品的第二肿瘤分数;以及
(c)将所述第一肿瘤分数与所述第二肿瘤分数进行比较,从而监测所述肿瘤进展。
44.根据权利要求43所述的方法,其中确定所述第二肿瘤分数包括:
获取第二多个值,每个值指示第二肿瘤样品中的亚基因组间隔内的相应基因座处的等位基因分数,其中所述第二样品中的所述亚基因组间隔与所述第一样品中的所述亚基因组间隔相同或不同;
确定指示所述第二多个值的离散度的第二确定性度量;
存取一个或多个存储的确定性度量与一个或多个存储的肿瘤分数之间的所述预定关系;以及
根据所述第二确定性度量和所述预定关系来确定所述第二样品的所述第二肿瘤分数。
45.根据权利要求43所述的方法,其中确定所述第二肿瘤分数包括:
获取第二多个值,每个值指示在所述样品中的亚基因组间隔内的多个基因座处,所述第二肿瘤样品中的基因座的等位基因覆盖度与非肿瘤样品中的相同基因座的等位基因覆盖度之间的差值,其中用于确定所述第二肿瘤分数的所述亚基因组间隔与用于确定所述第一肿瘤分数的所述亚基因组间隔相同或不同;
确定指示所述第二多个值的离散度的第二确定性度量;
存取一个或多个存储的确定性度量与一个或多个存储的肿瘤分数之间的所述预定关系;以及
根据所述第二确定性度量和所述预定关系来确定所述第二肿瘤样品的所述第二肿瘤分数。
46.根据权利要求43至45中任一项所述的方法,其包括响应于所述肿瘤进展而调整肿瘤疗法。
47.根据权利要求46所述的方法,其包括响应于所述肿瘤进展而调整所述肿瘤疗法的剂量或选择不同的肿瘤疗法。
48.根据权利要求46或47所述的方法,其包括向所述受试者施用经调整的肿瘤疗法。
49.根据权利要求43至48中任一项所述的方法,其中所述第一时间点在已向所述受试者施用肿瘤疗法之前,并且其中所述第二时间点在已向所述受试者施用所述肿瘤疗法之后。
50.根据权利要求1至49中任一项所述的方法,其中所述受试者患有癌症、存在患有癌症的风险或疑似患有癌症。
51.根据权利要求50所述的方法,其中所述癌症为实体瘤。
52.根据权利要求50所述的方法,其中所述癌症为血液学癌症。
53.根据权利要求1至52中任一项所述的方法,其中所述样品为液体样品。
54.根据权利要求1至52中任一项所述的方法,其中所述样品为固体样品。
55.根据权利要求1至53中任一项所述的方法,其中所述样品包含无细胞DNA(cfDNA)或循环肿瘤DNA(ctDNA)。
56.根据权利要求1至55中任一项所述的方法,其中所述一个或多个存储的确定性度量包括多个存储的确定性度量,并且所述一个或多个存储的肿瘤分数包括多个存储的肿瘤分数。
57.一种计算机系统,其包括:
处理器;和
可通信地耦接至所述处理器的存储器,所述存储器配置为存储:
一个或多个存储的确定性度量与一个或多个相关联的存储的肿瘤分数之间的预定关系;以及
指令,所述指令当由所述处理器执行时,使得所述处理器:
(a)(i)获取多个值,每个值指示所述样品中的亚基因组间隔内的相应基因座处的等位基因分数,或(ii)获取多个值,每个值指示在亚基因组间隔内的多个基因座处,肿瘤样品中的基因座的等位基因覆盖度与非肿瘤样品中的相同基因座的等位基因覆盖度之间的差值;
(b)确定指示所述多个值的离散度的确定性度量;
(c)存取存储的预定关系;以及
(d)根据所述确定性度量和所述预定关系来确定所述样品的所述肿瘤分数。
58.根据权利要求57所述的计算机系统,其中所述存储器进一步包括指令,所述指令当由所述处理器执行时,使得所述处理器:
存取训练数据集,所述训练数据集包括多个训练确定性度量与相关联的训练肿瘤分数之间的多个关系;以及
将机器学习过程应用于所述训练数据集,以确定所述训练确定性度量与所述训练肿瘤分数之间的所述预定关系。
59.根据权利要求57或58所述的计算机系统,其中所述指令当由所述处理器执行时,使得所述处理器执行根据权利要求1至39中任一项所述的方法。
CN202080037877.1A 2019-05-20 2020-05-20 用于评估肿瘤分数的系统和方法 Pending CN114026646A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962850474P 2019-05-20 2019-05-20
US62/850,474 2019-05-20
PCT/US2020/033821 WO2020236941A1 (en) 2019-05-20 2020-05-20 Systems and methods for evaluating tumor fraction

Publications (1)

Publication Number Publication Date
CN114026646A true CN114026646A (zh) 2022-02-08

Family

ID=73458622

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080037877.1A Pending CN114026646A (zh) 2019-05-20 2020-05-20 用于评估肿瘤分数的系统和方法

Country Status (11)

Country Link
US (2) US20220243279A1 (zh)
EP (1) EP3973530A4 (zh)
JP (1) JP7702360B2 (zh)
KR (1) KR20220011140A (zh)
CN (1) CN114026646A (zh)
AU (1) AU2020279752A1 (zh)
BR (1) BR112021022879A2 (zh)
CA (1) CA3140066A1 (zh)
IL (1) IL288182A (zh)
SG (1) SG11202111947PA (zh)
WO (1) WO2020236941A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114530200A (zh) * 2022-03-18 2022-05-24 北京阅微基因技术股份有限公司 基于计算snp熵值的混合样本鉴定方法

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
HK1222466A1 (zh) 2013-05-10 2017-06-30 Foundation Medicine, Inc 遗传变异分析
US20240062916A1 (en) * 2020-12-03 2024-02-22 Foundation Medicine, Inc. Tree-based model for selecting treatments and determining expected treatment outcomes
WO2022131328A1 (ja) * 2020-12-16 2022-06-23 株式会社seeDNA 多型座位の信号の信頼性値の算出方法
CN113025716A (zh) * 2021-03-02 2021-06-25 北京大学第一医院 一种用于人肿瘤分级的基因组合及其用途
US20250283167A1 (en) * 2021-06-22 2025-09-11 Foundation Medicine, Inc. Systems and methods for evaluating tumor fraction
CN118043893A (zh) * 2021-07-23 2024-05-14 基金会医学公司 用于确定变体频率和监测疾病进展的方法
EP4413581A4 (en) * 2021-10-08 2025-11-05 Found Medicine Inc METHODS AND SYSTEMS FOR DETECTING AND ELIMINATING CONTAMINATION FOR A COPY NUMBER ALTERATION CALL
US20250019770A1 (en) * 2021-11-12 2025-01-16 Foundation Medicine, Inc. Circulating tumor dna fraction and uses thereof
EP4437122A4 (en) * 2021-11-23 2025-08-06 Found Medicine Inc METHODS AND SYSTEMS FOR REPORTING CLINICALLY ACTIVE POTENTIAL GERMLINE PATHOGENIC VARIANT SEQUENCES
US20250037823A1 (en) 2021-12-08 2025-01-30 Foundation Medicine, Inc. Methods and systems for highlighting clinical information in diagnostic reports
WO2024015973A1 (en) * 2022-07-15 2024-01-18 Foundation Medicine, Inc. Methods and systems for determining circulating tumor dna fraction in a patient sample
WO2024081859A2 (en) * 2022-10-14 2024-04-18 Foundation Medicine, Inc. Methods and systems for performing genomic variant calls based on identified off-target sequence reads
WO2024112967A1 (en) * 2022-11-27 2024-05-30 The University Of Chicago Methods for treating cancer with immunotherapy
WO2024124195A1 (en) * 2022-12-09 2024-06-13 Foundation Medicine, Inc. Methods and systems for determining clonality of somatic short variants
WO2024238538A1 (en) * 2023-05-15 2024-11-21 Foundation Medicine, Inc. Methods and systems for assessing circulating tumor dna fraction in liquid biopsy samples
WO2024238750A2 (en) * 2023-05-17 2024-11-21 Foundation Medicine, Inc. Clonal hematopoiesis burden as a biomarker for immune checkpoint inhibitor response
WO2025054202A1 (en) 2023-09-05 2025-03-13 Sana Biotechnology, Inc. Method of screening a sample comprising a transgene with a unique barcode
WO2025151838A1 (en) 2024-01-12 2025-07-17 Sana Biotechnology, Inc. Safety switches to control in vitro and in vivo proliferation of cell therapy products

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014014497A1 (en) * 2012-07-20 2014-01-23 Verinata Health, Inc. Detecting and classifying copy number variation in a cancer genome
CN104662168A (zh) * 2012-06-21 2015-05-27 香港中文大学 用于癌症检测的血浆dna突变分析
WO2015164432A1 (en) * 2014-04-21 2015-10-29 Natera, Inc. Detecting mutations and ploidy in chromosomal segments
CN109196359A (zh) * 2016-02-29 2019-01-11 基础医疗股份有限公司 用于评估肿瘤突变负荷的方法和系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110301854A1 (en) * 2010-06-08 2011-12-08 Curry Bo U Method of Determining Allele-Specific Copy Number of a SNP
AU2015249846B2 (en) * 2014-04-21 2021-07-22 Natera, Inc. Detecting mutations and ploidy in chromosomal segments
SG11201706529TA (en) * 2015-02-10 2017-09-28 Univ Hong Kong Chinese Detecting mutations for cancer screening and fetal analysis
AU2016326889B2 (en) * 2015-09-25 2021-03-25 Canexia Health Inc. Molecular quality assurance methods for use in sequencing
WO2018236911A1 (en) * 2017-06-20 2018-12-27 Illumina, Inc. Methods and systems for decomposition and quantification of dna mixtures from multiple contributors of known or unknown genotypes
CN111492245A (zh) * 2017-07-21 2020-08-04 基因泰克公司 癌症的治疗和诊断方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104662168A (zh) * 2012-06-21 2015-05-27 香港中文大学 用于癌症检测的血浆dna突变分析
WO2014014497A1 (en) * 2012-07-20 2014-01-23 Verinata Health, Inc. Detecting and classifying copy number variation in a cancer genome
WO2015164432A1 (en) * 2014-04-21 2015-10-29 Natera, Inc. Detecting mutations and ploidy in chromosomal segments
CN109196359A (zh) * 2016-02-29 2019-01-11 基础医疗股份有限公司 用于评估肿瘤突变负荷的方法和系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114530200A (zh) * 2022-03-18 2022-05-24 北京阅微基因技术股份有限公司 基于计算snp熵值的混合样本鉴定方法

Also Published As

Publication number Publication date
EP3973530A4 (en) 2023-08-02
AU2020279752A1 (en) 2022-01-06
US20250259709A1 (en) 2025-08-14
WO2020236941A1 (en) 2020-11-26
JP2022533137A (ja) 2022-07-21
BR112021022879A2 (pt) 2022-03-22
CA3140066A1 (en) 2020-11-26
US20220243279A1 (en) 2022-08-04
EP3973530A1 (en) 2022-03-30
JP7702360B2 (ja) 2025-07-03
KR20220011140A (ko) 2022-01-27
IL288182A (en) 2022-01-01
SG11202111947PA (en) 2021-12-30

Similar Documents

Publication Publication Date Title
JP7702360B2 (ja) 腫瘍分率を評価するためのシステムおよび方法
JP7458360B2 (ja) 疾患細胞不均一性を示す疾患の検出および処置、ならびに通信試験結果のためのシステムおよび方法
CN112930569B (zh) 无细胞dna中的微卫星不稳定性检测
JP2024112843A (ja) ゲノム変化を評価するための組成物および方法
JP2022532897A (ja) マルチラベルがん分類のためのシステムおよび方法
WO2022271159A1 (en) Systems and methods for evaluating tumor fraction
Leighton et al. Reconstructing mutational lineages in breast cancer by multi-patient-targeted single-cell DNA sequencing
US20230162815A1 (en) Methods and systems for accurate genotyping of repeat polymorphisms
CN116583904A (zh) 用于癌症分类的样品确认
EP4427226A1 (en) System and method for identifying copy number alterations
US20240420799A1 (en) Methods and systems for predicting the reliability of somatic/germline calls for variant sequences
CN118103525A (zh) 用于自动调用拷贝数改变的方法和系统
US20240412812A1 (en) Methods and systems for detecting and removing contamination for copy number alteration calling
EP4600963A1 (en) Methods and systems for determining blood tumor mutational burden in a liquid biopsy assay
HK40075645A (zh) 用於评估肿瘤突变负荷的方法和系统
Cradic Next Generation Sequencing: Applications for the Clinic
HK40002957B (zh) 用於评估肿瘤突变负荷的方法和系统
HK40002957A (zh) 用於评估肿瘤突变负荷的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination