[go: up one dir, main page]

CN116529835A - 预测癌症进展的方法 - Google Patents

预测癌症进展的方法 Download PDF

Info

Publication number
CN116529835A
CN116529835A CN202180058069.8A CN202180058069A CN116529835A CN 116529835 A CN116529835 A CN 116529835A CN 202180058069 A CN202180058069 A CN 202180058069A CN 116529835 A CN116529835 A CN 116529835A
Authority
CN
China
Prior art keywords
cds
3gen2
3gen1
adar
cancer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180058069.8A
Other languages
English (en)
Inventor
罗宾·A·林德利
内森·E·霍尔
贾里德·马姆罗特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Gmdx Co Pty Ltd
Original Assignee
Gmdx Co Pty Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from AU2020901790A external-priority patent/AU2020901790A0/en
Application filed by Gmdx Co Pty Ltd filed Critical Gmdx Co Pty Ltd
Publication of CN116529835A publication Critical patent/CN116529835A/zh
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/112Disease subtyping, staging or classification
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/118Prognosis of disease development
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Medical Informatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Organic Chemistry (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Biotechnology (AREA)
  • Primary Health Care (AREA)
  • Immunology (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Oncology (AREA)
  • Hospice & Palliative Care (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)

Abstract

本发明总体上涉及预测癌症进展或复发可能性的系统和方法。更具体地,本发明涉及鉴定与癌症复发或进展的可能性相关的核酸突变标志的系统和方法,以及使用这样的标志的方法。

Description

预测癌症进展的方法
本申请要求于2020年6月1日提交的题为“Methods of predicting cancerprogression”的澳大利亚临时申请第2020901790号的优先权,其内容通过引用以其整体并入本文。
发明领域
本发明总体上涉及预测癌症进展或复发可能性的系统和方法。更具体地,本发明涉及鉴定与癌症复发或进展的可能性相关的核酸突变标志的系统和方法,以及使用这样的标志的方法。
发明背景
准确预测癌症进展和/或复发的可能性是开发适当治疗方案(包括对特定患者施用哪些治疗剂、何时施用它们以及以什么样的剂量施用它们)的重要步骤。为此,已经进行了各种研究来鉴定与癌症进展相关联的遗传标志(本文称为癌症进展相关联标志(cancerprogression associated signatures),或CPAS)。这些研究中的许多可以被认为是基于以基因为中心的方法,将单核苷酸多态性(SNP)鉴定为预后标志物。
这些研究中的许多研究的结果都被储存在COSMIC数据库中。例如,Li M等人(2017年)的一项主要研究已经鉴定了几种已知癌基因的变体,包括例如FOXM1、E2F1和PYGM基因的变体,这些变体被发现与许多不同癌症类型(包括膀胱癌、腺癌、尤文氏肉瘤、生殖细胞肿瘤、恶性黑素瘤和乳腺癌)的进展相关。
迄今为止,在许多情况下,鉴定的癌症进展预测标志物是单一变体(或单一变体的组合)遗传生物标志物,并且因此每一种仅在一小部分癌症患者群体(即1%-5%)中发现。因此,这些在异质人群中的效用可能是有限的。此外,这些标志物不能提供对变异或突变的可能来源的指示,而这些知识对于未来诊断和治疗的开发可能具有益处。
对鉴定另外的癌症进展相关联标志,以及开发用于确定癌症患者中癌症进展和/或复发可能性的另外方法仍然存在需求。
发明概述
本发明部分基于与癌症进展相关联的遗传标志(本文称为癌症进展相关联标志,或CPAS)的鉴定,以及用于预测或确定癌症患者中癌症进展和/或复发的可能性或概率的方法。因此,该方法的一个优点是,它允许基于对癌症将进展或复发的可能性的确定来为患有或曾经患有癌症的受试者开处治疗方案。例如,如果癌症被确定为可能在受试者中进展或复发,则受试者可以继续繁重的抗癌疗法疗程(heavy course of anti-cancer therapy),或者可以施用更积极的抗癌疗法疗程。相反,如果确定癌症不太可能在受试者中复发,受试者可以停止、减少或改变现有的抗癌疗法。
因此,在一方面,提供了一种用于确定受试者中的癌症将进展或复发的可能性的方法,该方法包括:分析来自患有癌症的受试者的核酸分子的序列以检测核酸分子内的单核苷酸变异(SNV);基于检测到的SNV的数量和/或类型确定多于一个度量(metrics),以便获得度量的受试者概况(profile);以及,基于所述受试者概况和度量的参考概况之间的比较,确定癌症将进展或复发的可能性;其中多于一个度量包括选自表D中列出的度量和与表D中列出的度量相关的度量的5个或更多个度量(例如,至少5个、10个、15个、20个、35个、30个、40个、45个或50个度量)。在一些实例中,参考概况代表可能进展或复发的癌症。在其他实例中,参考概况代表不太可能进展或复发的癌症(或患有癌症的受试者)。
还提供了一种用于治疗患有癌症的受试者的方法,包括基于根据上述和本文描述的方法对癌症或肿瘤可能进展或复发的确定,将受试者暴露于癌症疗法。
在另一方面,提供了一种治疗受试者中的癌症的方法,该方法包括:(i)进行如上文和本文描述的用于确定受试者中的癌症将进展或复发的可能性的方法;(ii)确定癌症有可能进展或复发;以及(iii)将受试者暴露于癌症疗法(例如放射疗法、手术、化学疗法、激素疗法、免疫疗法或靶向疗法)。
在另一方面,提供了一种用于产生用于评估受试者中癌症进展或复发的可能性的进展指标(progression indicator)的系统,该系统包含一个或更多个电子处理装置,该电子处理装置:a)从受试者获得指示核酸分子序列的受试者数据;b)分析受试者数据以鉴定核酸分子内的单核苷酸变异(SNV);c)使用鉴定的SNV确定多于一个度量,多于一个度量包括选自表D中列出的度量和与表D中列出的度量相关的度量的5个或更多个度量(例如至少5个、10个、15个、20个、35个、30个、40个、45个或50个度量);d)将多于一个度量应用于至少一个计算模型,以确定指示癌症进展或复发的可能性的进展指标,至少一个计算模型体现癌症进展或复发的可能性与多于一个度量之间的关系,并且通过将机器学习应用于从具有已知癌症进展或复发的参考受试者获得的多于一个参考度量来导出。在一些实例中,至少一个计算模型包括决策树。在特定实例中,至少一个计算模型包括多于一个决策树,并且通过聚合来自多于一个决策树的结果来产生疗法指标。
在另一方面,提供了一种用于计算至少一个计算模型的系统,至少一个计算模型用于产生用于评估受试者中癌症进展或复发的可能性的进展指标,系统包含一个或更多个电子处理装置,该电子处理装置:a)对于多于一个参考受试者中的每一个:i)获得指示以下内容的参考受试者数据:(1)来自参考受试者的核酸分子的序列;和(2)癌症的进展或复发;ii)分析参考受试者数据以鉴定核酸分子内的单核苷酸变异(SNV);iii)使用鉴定的SNV确定多于一个度量,多于一个度量包括选自表D中列出的度量和与表D中列出的度量相关的度量的5个或更多个度量(例如至少5个、10个、15个、20个、35个、30个、40个、45个或50个度量);以及b)使用多于一个参考度量和参考受试者的已知癌症进展或复发来训练至少一个计算模型,该至少一个计算模型体现癌症进展或复发与多于一个度量之间的关系。
在这样的系统的一些实施方案中,一个或更多个处理装置测试至少一个计算模型以确定模型的鉴别性能。在一些实例中,鉴别性能基于以下中的至少一项:a)接收者操作特征曲线下面积;b)准确性;c)灵敏度;以及d)特异性。在一个实例中,鉴别性能为至少60%。
在一些实施方案中,一个或更多个处理装置使用来自多于一个参考受试者的子集的参考受试者数据来测试至少一个计算模型。在一些实施方案中,一个或更多个处理装置:a)选择多于一个参考度量;b)使用多于一个参考度量训练至少一个计算模型;c)测试至少一个计算模型以确定模型的鉴别性能;以及d)如果模型的鉴别性能低于阈值,则进行以下至少一项:i)使用不同的多于一个参考度量选择性地重新训练至少一个计算模型;以及ii)训练不同的计算模型。在另外的实施方案中,一个或更多个处理装置:a)选择参考度量的多于一个组合;b)使用组合中的每一个训练多于一个计算模型;c)测试每一个计算模型以确定模型的鉴别性能;以及d)选择具有最高鉴别性能的至少一个计算模型用于确定进展指标。
在另一方面,提供了一种用于产生用于评估受试者中癌症进展或复发可能性的进展指标的方法,该方法包括,在一个或多于一个电子处理装置中:a)从受试者获得指示核酸分子序列的受试者数据;b)分析受试者数据以鉴定核酸分子内的单核苷酸变异(SNV);c)使用鉴定的SNV确定多于一个度量,多于一个度量包括选自表D中列出的度量和与表D中列出的度量相关的度量的5个或更多个度量(例如至少5个、10个、15个、20个、35个、30个、40个、45个或50个度量);以及d)将多于一个度量应用于至少一个计算模型,以确定指示癌症进展或复发的进展指标,至少一个计算模型体现癌症进展或复发与多于一个度量之间的关系,并且通过将机器学习应用于从具有已知癌症进展或复发的参考受试者获得的多于一个参考度量来导出。
在本公开内容的方法和系统的一些实施方案中,癌症选自肾上腺癌、乳腺癌、脑癌、前列腺癌、肝癌、结肠癌、胃癌、胰腺癌、皮肤癌、甲状腺癌、宫颈癌、淋巴癌、造血系统癌(hematopoietic cancer)、膀胱癌、肺癌、肾癌、直肠癌、卵巢癌、子宫癌、头颈癌、间皮瘤和肉瘤。
在特定实施方案中,癌症是间皮瘤并且多于一个度量包括选自以下的最少或约5个度量:cds:A3Bf_ST-C-G Ti%;g:3Gen2_T-C-G C>T+G>Ag%;cds:2Gen1_-C-C C>T在MC1%;cds:所有C Ti/Tv%;g:3Gen3_CA-C-C>T+G>A g%;cds:3Gen2_C-C-C MC3%;cds:A3Gn_YYC-C-S C>T%;cds:A3G_C-C-MC3%;cds:3Gen3_GG-C-非同义%;g:3Gen2_A-C-C C>A+G>T g%;cds:4Gen3_TT-C-C%;cds:3Gen2_C-C-T MC3%;g:2Gen1_-C-TC>G+G>C g%;cds:主要脱氨酶%;cds:A3Gb_-C-G G>A在MC2基序%;cds:4Gen3_CA-C-C%;cds:A3G_C-C-G>T%;cds:A3Gi_SG-C-G非同义%;g:C>G+G>C%;cds:其他MC3%;cds:A3B_T-C-W G>A基序%,以及与其相关的度量。
在其他实施方案中,癌症是肾上腺皮质癌并且多于一个度量包括选自以下的最少或约5个度量:cds:所有G总计;cds:3Gen1_-C-TG G非同义%;g:A3F_T-C-命中;cds:3Gen3_GG-C-非同义%;cds:3Gen1_-C-GT G>A基序%;cds:A3Bj_RT-C-G Ti%;cds:3Gen2_C-C-TMC3%;nc:A3G_C-C-C>T+G>A nc%;cds:AIDd_WR-C-Y%;cds:3Gen1_-C-TC C>T cds%;cds:A3B_T-C-W G>A基序%;g:CG总计;cds:A3G_C-C-MC3%;cds:AIDb_WR-C-G G非同义%;cds:A3G_C-C-C>T在MC1%;cds:3Gen3_TG-C-G>A%;g:3Gen3_GA-C-C>A+G>T g%;cds:3Gen2_A-C-G MC2非同义%;cds:3Gen3_CT-C-MC3%;cds:ADAR_2Gen2_G-T-MC2%;cds:ADAR_3Gen3_CA-A-Ti%;g:AIDh_WR-C-T C>A+G>T g%;cds:A3B_T-C-W MC3非同义%;cds:2Gen1_-C-C C>A%;cds:A1_-C-A G>A在MC3 cds%;cds:3Gen1_-C-CA Ti C:G%;cds:ADAR_W-A-非同义%;cds:3Gen1_-C-CA Ti%;cds:所有G%;g:3Gen2_T-C-G C>T+G>A g%;cds:A3Gb_-C-GMC1%;cds:A3B_T-C-W G非同义%;nc:2Gen2_A-C-C>T+G>A nc%;cds:A3Gi_SG-C-G非同义%;cds:其他G MC3 Ti/Tv%;cds:A3Gb_-C-G G>A在MC2基序%;cds:A3B_T-C-W Ti%;和g:2Gen1_-C-T%,以及与其相关的度量。
在另外的实施方案中,癌症是脑癌并且多于一个度量包括选自以下的最少或约5个度量:g:CG总计;cds:AIDd_WR-C-Y%;在VCF中的变体;cds:4Gen3_TA-C-C非同义%;cds:3Gen2_C-C-T MC3%;cds:AIDd_WR-C-YG>C%;cds:A3Gb_-C-G MC1%;g:3Gen2_T-C-G C>T+G>A g%;cds:A3B_T-C-W G非同义%;g:3Gen3_GA-C-C>A+G>T g%;cds:2Gen2_G-C-命中;cds:AIDc_WR-C-GS MC3%;cds:所有G总计;cds:所有A非同义%;cds:ADAR_2Gen2_T-T-%;cds:3Gen2_A-C-C非同义%;g:3Gen3_CA-C-C>T+G>A g%;g:ADARk_CW-A-A>G+T>C g%;nc:ADARb_W-A-Y A>G+T>C nc%;g:2Gen1_-C-T%;cds:其他MC3 C%;g:2Gen1_-C-T C>G+G>Cg%;cds:ADAR_W-A-非同义%;g:3Gen2_A-C-CC>A+G>T g%;g:ADAR_2Gen2_G-T-A>T+T>A%;cds:A3G_C-C-C>T在MC1%;cds:3Gen1_-C-GC MC2%;cds:3Gen2_G-C-T%;cds:A3F_T-C-G>C%;g:4Gen3_GG-C-G C>T+G>A g%;cds:A3Gb_-C-G G>A在MC2基序%;cds:ADARb_W-A-Y MC2%;cds:所有G%;g:A3F_T-C-命中;cds:3Gen2_T-C-C MC1%;cds:A3B_T-C-WTi%;cds:ADAR_3Gen1_-A-AT Ti%;cds:ADARh_W-A-S T>C%;cds:A3Gn_YYC-C-S C>T%;cds:A3Ge_SC-C-GS%;cds:2Gen2_A-C-MC3%;cds:ADAR_2Gen2_G-T-MC2%;cds:ADAR_3Gen3_CA-A-Ti%;cds:主要脱氨酶%;g:C>G+G>C%;cds:A3Bf_ST-C-G Ti%;cds:3Gen3_CT-C-MC3%;cds:A3Gi_SG-C-G非同义%;cds:其他MC3%;cds:ADAR_3Gen1_-A-CA%;cds:A3F_T-C-C>A%;cds:2Gen1_-C-C C>T在MC1%;cds:A3Gc_C-C-GW C>T基序%;cds:AIDc_WR-C-GS%;g:ADAR_2Gen1_-T-T A>T+T>A%;cds:A3B_T-C-W MC1%;cds:ADAR_3Gen2_G-A-C非同义%;cds:2Gen1_-C-C C>A%;cds:3Gen1_-C-GT G>A基序%;cds:A3Bj_RT-C-GTi%;g:3Gen1_-C-TC C>T+G>A g%;g:C>A+G>T%;cds:3Gen2_A-C-CMC2%;cds:2Gen1_-C-CMC2%;g:3Gen2_G-C-T%;g:A3Bj_RT-C-G C>T+G>A g%;g:ADAR_W-A-A>G+T>C%;cds:3Gen3_AT-C-C:G%;cds:3Gen1_-C-TG G非同义%;cds:其他G MC3 Ti/Tv%;cds:A3Gb_-C-GG>A MC2命中;cds:3Gen1_-C-TC C>T cds%;cds:2Gen1_-C-T MC3非同义%;cds:AIDb_WR-C-G G非同义%;g:AIDc_WR-C-GS命中;cds:3Gen2_T-C-C MC3%;cds:3Gen2_T-C-G Ti/Tv%;cds:A1_-C-A G>A在MC3 cds%;nc:A3G_C-C-C>T+G>A nc%;nc:2Gen2_A-C-C>T+G>Anc%;cds:3Gen3_TG-C-G Ti/Tv%;cds:3Gen1_-C-CA Ti%;cds:3Gen3_TG-C-G>A%;cds:3Gen3_CT-C-G非同义%;cds:所有CTi/Tv%;cds:A3G_C-C-MC3%;cds:ADARc_SW-A-YMC2%;和cds:3Gen3_GG-C-非同义%,以及与其相关的度量。
在其他实施方案中,癌症是肉瘤并且多于一个度量包括选自以下的最少或约5个度量:cds:其他MC3 C%;nc:ADARb_W-A-Y A>G+T>C nc%;cds:4Gen3_TT-C-T%;g:ADARk_CW-A-A>G+T>C g%;g:ADARn_-A-WA A>G+T>C%;cds:A3G_C-C-G>T%;cds:A3Gb_-C-GMC1%;nc:ADARb_W-A-Y%;cds:A3Ge_SC-C-GS%;cds:主要脱氨酶%;cds:ADAR_2Gen2_G-T-MC2%;g:4Gen3_GG-C-G C>T+G>A g%;cds:2Gen1_-C-C MC2%;cds:3Gen1_-C-GT G>A基序%;cds:A3Gn_YYC-C-S C>T%;cds:2Gen1_-C-C C>T在MC1%;cds:A3B_T-C-W MC3非同义%;cds:AIDd_WR-C-Y%;g:3Gen3_CA-C-C>T+G>A g%;cds:所有A非同义%;g:2Gen1_-C-T C>G+G>C g%;cds:ADARb_W-A-Y MC2%;cds:所有G%;g:A3Bj_RT-C-G C>T+G>Ag%;cds:A3Gn_YYC-C-S C>T在MC3 cds%;cds:A3B_T-C-W G非同义%;cds:A3G_C-C-MC3%;cds:所有G总计;cds:CDS变体;g:CG总计;g:3Gen2_T-C-G C>T+G>A g%;cds:A3B_T-C-W MC1%;cds:ADAR_3Gen3_CA-A-Ti%;cds:AIDc_WR-C-GS%,以及与其相关的度量。
在另外的实施方案中,癌症是肺癌并且多于一个度量包括选自以下的最少或约5个度量:cds:3Gen1_-C-CC C>T在MC1基序%;cds:3Gen1_-C-CT C>T在MC2 cds%;cds:ADARp_-A-WT A>G在MC2 cds%;cds:其他MC3C%;cds:其他MC3%;cds:A3Gb_-C-G MC1%;g:3Gen1_-C-TC C>T+G>Ag%;cds:ADAR_W-A-A>G在MC3%;cds:ADAR_W-A-非同义%;cds:ADAR_3Gen3_AC-A-A>G cds%;cds:2Gen1_-C-C C>A%;cds:ADARf_SW-A-MC2%;g:ADAR_2Gen2_G-T-A>T+T>A%;cds:4Gen3_GC-C-A%;cds:A3Go_TC-C-G MC1非同义%;g:3Gen2_G-C-T%;cds:A3G_C-C-C>T在MC1%;cds:AIDc_WR-C-GS MC3%;cds:3Gen1_-C-GT G>A基序%;nc:2Gen1_-C-T C>A+G>T nc%;cds:ADARc_SW-A-Y MC2%;cds:ADARh_W-A-S T>C%;cds:2Gen1_-C-CC>T在MC1%;g:ADAR_2Gen1_-T-T A>T+T>A%;cds:AIDd_WR-C-YC>Acds%;nc:A3G_C-C-C>T+G>A nc%;cds:A3Gc_C-C-GW C>T基序%;cds:ADAR_3Gen1_-A-ATTi%;cds:3Gen3_CT-C-MC3%;cds:4Gen3_CT-C-C C>T在MC1%;cds:3Gen2_T-C-C MC1%;cds:A3G_C-C-G>T%;cds:3Gen1_-C-CA Ti%;cds:3Gen1_-C-TG G非同义%;cds:3Gen2_A-C-C非同义%;g:2Gen1_-C-T C>G+G>C g%;cds:所有A非同义%;cds:A3Gi_SG-C-G MC2%;cds:主要脱氨酶%;cds:4Gen3_TT-C-T%;g:A3Bj_RT-C-G C>T+G>A g%;cds:3Gen2_T-C-CMC3%;cds:4Gen3_TT-C-C%;cds:3Gen1_-C-CA Ti C:G%;cds:A1_-C-AG>A在MC3 cds%;cds:A3Gb_-C-G G>A在MC2基序%;cds:3Gen3_CT-C-G非同义%;cds:3Gen2_G-C-T C:G%;cds:A3Ge_SC-C-GS%;cds:3Gen3_TG-C-G>A%;g:C>A+G>T%;cds:4Gen3_CA-C-C%;cds:AIDd_WR-C-Y G>C%;cds:所有G%;cds:3Gen3_TT-C-C>A在MC1基序%;g:AIDh_WR-C-T C>A+G>T g%;g:4Gen3_GG-C-G C>T+G>Ag%;cds:3Gen2_G-C-T C>A基序%;nc:ADARc_SW-A-YA>G+T>C nc%;g:3Gen2_A-C-C C>A+G>T g%;cds:A3B_T-C-W Ti%;g:3Gen3_GA-C-C>A+G>T g%;cds:3Gen3_CT-C-C>T在MC1基序%;cds:ADAR_3Gen1_-A-CC A>G cds%;cds:3Gen1_-C-TC C>T cds%;cds:4Gen3_CA-C-C MC1%;cds:3Gen2_G-C-T%;nc:2Gen2_A-C-C>T+G>A nc%;cds:3Gen2_A-C-C MC2%;cds:A3F_T-C-C>A%;cds:CDS变体;cds:ADAR_3Gen3_CA-A-Ti%;cds:3Gen3_GG-C-非同义%;cds:ADARb_W-A-Y MC2%;g:ADAR_W-A-A>G+T>C%;cds:3Gen3_AT-C-C:G%;cds:2Gen1_-C-C G>T在MC1%;cds:A3G_C-C-MC3%;cds:3Gen2_C-C-C MC3%;cds:A3B_T-C-W G>A基序%;cds:A3F_T-C-G>C%;cds:ADAR_2Gen2_G-T-MC2%;cds:3Gen1_-C-AG G Ti/Tv%;cds:A3Bj_RT-C-G Ti%;nc:ADARb_W-A-Y A>G+T>Cnc%;cds:ADAR_2Gen2_T-T-%;g:2Gen1_-C-T%;cds:4Gen3_AC-C-T Ti/Tv%;cds:A3Gi_SG-C-G非同义%;cds:A3Bf_ST-C-G Ti%;g:ADARk_CW-A-A>G+T>C g%;cds:3Gen1_-C-GCMC2%;g:3Gen3_CA-C-C>T+G>Ag%;cds:2Gen2_A-C-MC3%;在VCF中的变体;cds:4Gen3_AG-C-T MC1非同义%;g:3Gen2_T-C-G C>T+G>A g%;cds:A3Gn_YYC-C-S C>T在MC3 cds%;cds:ADAR_3Gen1_-A-CA%;cds:4Gen3_TA-C-C非同义%;cds:所有C Ti/Tv%;cds:ADARc_SW-A-Y,以及与其相关的度量。
在一些实施方案中,癌症是皮肤癌并且多于一个度量包括选自以下的最少或约5个度量:cds:4Gen3_AG-C-T MC1非同义%;cds:3Gen1_-C-CG G>A在MC3%;cds:4Gen3_AC-C-T Ti/Tv%;g:C>G+G>C%;cds:A3B_T-C-W MC3非同义%;cds:所有A非同义%;cds:3Gen3_AG-C-MC2%;cds:A3B_T-C-W MC1%;cds:ADAR_3Gen2_C-A-C T>G在MC3cds%;cds:3Gen1_-C-TC C>T在MC3%;cds:4Gen3_GC-C-C C>T在MC2%;cds:所有C Ti/Tv%;cds:A3Bj_RT-C-G Ti%;cds:AIDh_WR-C-T G>A在MC2 cds%;cds:4Gen3_TT-C-C%;cds:3Gen1_-C-CC C>T在MC1基序%;cds:ADAR_2Gen2_T-T-%;cds:3Gen2_T-C-C MC1%;cds:所有G%;cds:ADAR_W-A-A>G在MC3%;cds:A3G_C-C-MC3%;cds:其他MC3C%;g:3Gen2_A-C-CC>A+G>T g%;cds:ADARc_SW-A-Y MC2%;cds:3Gen1_-C-CA Ti C:G%;cds:3Gen1_-C-TC C>T cds%;cds:3Gen2_C-C-C MC3%;cds:3Gen3_CT-C-C>T在MC1基序%;g:ADAR_4Gen3_AG-A-G A>C+T>G%;cds:3Gen3_CT-C-G非同义%;cds:3Gen2_A-C-C非同义%;cds:2Gen2_A-C-MC3%;cds:3Gen2_A-C-CMC2%;g:3Gen1_-C-TC C>T+G>A g%;cds:3Gen2_T-C-T G>A在MC2%;cds:2Gen1_-C-C C>T在MC1%;cds:AIDb_WR-C-G G非同义%;cds:A3Gb_-C-GMC1%;cds:2Gen1_-C-C C>A%;cds:A3Ge_SC-C-GS%;g:ADARn_-A-WA A>G+T>C%;g:ADAR_W-A-A>G+T>C%;g:ADAR_2Gen2_G-T-A>T+T>A%;g:AIDh_WR-C-T C>A+G>T g%;cds:4Gen3_TG-C-T Ti C:G%;cds:3Gen2_G-C-T C:G%;cds:3Gen2_T-C-CMC3%;nc:ADARb_W-A-Y%;cds:ADAR_3Gen2_G-A-C非同义%;cds:ADAR_3Gen1_-A-AT Ti%;g:ADARk_CW-A-A>G+T>Cg%;cds:3Gen1_-C-GC MC2%;cds:4Gen3_TA-C-C非同义%;g:3Gen3_CA-C-C>T+G>A g%;cds:3Gen1_-C-AG G Ti/Tv%;cds:AIDc_WR-C-GS%;cds:A3Gn_YYC-C-S C>T在MC3 cds%;cds:2Gen1_-C-C MC2%;cds:3Gen3_GG-C-非同义%;g:2Gen1_-C-T C>G+G>C g%;cds:A1_-C-AG>A在MC3 cds%;cds:A3G_C-C-C>T在MC1%;nc:ADARc_SW-A-YA>G+T>C nc%;cds:ADAR_W-A-T>C在MC2%;cds:A3Go_TC-C-GMC1非同义%;cds:3Gen3_AT-C-C:G%;cds:ADARh_W-A-S T>C%;cds:A3G_C-C-G>T%;cds:ADARf_SW-A-MC2%;cds:ADAR_W-A-非同义%;cds:ADARp_-A-WT T>A基序%;cds:4Gen3_AG-C-T G>A在MC1基序%;cds:ADAR_3Gen1_-A-CA%;cds:3Gen2_C-C-T MC3%;cds:3Gen1_-C-CT C>T在MC2 cds%;cds:A3B_T-C-W Ti%;g:2Gen1_-C-T%;cds:AIDc_WR-C-GS MC3%;cds:AIDe_WR-C-GW命中;cds:AIDd_WR-C-Y C>A cds%;cds:ADARb_W-A-Y MC2%;cds:A3Gc_C-C-GW C>T基序%;cds:2Gen1_-C-C G>T在MC1%;cds:3Gen1_-C-CA Ti%;cds:其他G MC3 Ti/Tv%;cds:CDS变体;cds:ADAR_3Gen1_-A-CC A>G cds%;cds:A3Gn_YYC-C-S C>T%;cds:A3Bf_ST-C-G Ti%;cds:2Gen2_G-C-命中;cds:AIDd_WR-C-Y%;cds:A3F_T-C-G>C%;cds:4Gen3_CT-C-C C>T在MC1%;cds:AIDd_WR-C-Y G>C%;cds:A3Gi_SG-C-G MC2%;cds:其他MC3%;nc:2Gen1_-C-TC>A+G>T nc%;cds:3Gen2_G-C-T%;g:3Gen2_T-C-GC>T+G>A g%;cds:ADARc_SW-A-Y T>Ccds%,以及与其相关的度量。
生物样品可以已经从受癌症影响的组织类型获得。在一些实例中,生物样品包括卵巢、乳腺、前列腺、肝脏、结肠、胃、胰腺、皮肤、甲状腺、宫颈、淋巴、造血系统、膀胱、肺、肾、直肠、子宫和头或颈部组织或细胞。
附图简述
现在将参考附图来描述本发明的实例,在附图中:-
图1是用于产生用于评估受试者中癌症进展或复发可能性的进展指标的方法的实例的流程图。
图2是训练计算模型的过程实例的流程图。
图3是网络架构实例的示意图。
图4是处理系统实例的示意图。
图5是客户端装置实例的示意图。
图6是产生用于评估受试者中癌症进展或复发可能性的进展指标的方法的具体实例的流程图。
图7示出了在间皮瘤(MESO)验证数据集中应用模型以预测患者结果的结果。A)11名患者被分类为“高PFS”(即其癌症在12个月前没有进展的患者),或“低PFS”(即其癌症在12个月前有进展的患者)。验证数据集中的所有患者被正确地分类为“高_PFS”或“低_PFS”。预测的总体准确性为100%(准确性:100%,灵敏度:1,特异性:1)。100%的验证患者被正确分类为“高_PFS”(3/3),并且100%被正确分类为“低_PFS”(8/8)。B).用于比较PFS分布的Kaplan-Meier曲线,包括时序(log-rank)统计检验。
图8示出了在肾上腺皮质癌(ADCC)验证数据集中应用模型以预测患者结果的结果。A)13名患者被分类为“高PFS”(即其癌症在24个月前没有进展的患者),或“低PFS”(即其癌症在24个月前有进展的患者)。预测的总体准确性为100%(准确性:100%,灵敏度:1.00,特异性:1.00):100%的验证患者被正确分类为“高_PFS”(7/7),并且100%被正确分类为“低_PFS”(6/6)。B).用于比较PFS分布的Kaplan-Meier曲线,包括时序统计检验。
图9示出了在低级别神经胶质瘤(BLGG)验证数据集中应用模型以预测患者结果的结果。A)44名患者被分类为“高PFS”(即其癌症在24个月前没有进展的患者)(红色),或“低PFS”(即其癌症在24个月前有进展的患者)。预测的总体准确性为84%(准确性:84.09%,灵敏度:0.8846,特异性:0.7778):88%的验证患者被正确分类为“高_PFS”(23/26),并且77%被正确分类为“低_PFS”(14/18)。B).用于比较PFS分布的Kaplan-Meier曲线,包括时序统计检验。
图10示出了在肉瘤(SARC)验证数据集中应用模型以预测患者结果的结果。A)31名患者被分类为“高PFS”(即其癌症在18个月前没有进展的患者),或“低PFS”(即其癌症在18个月前有进展的患者)。预测的总体准确性为81%(准确性:80.65%,灵敏度:0.9500,特异性:0.5455):95%的验证患者被正确分类为“高_PFS”(19/20),并且54.55%被正确分类为“低_PFS”(6/11)。B).用于比较PFS分布的Kaplan-Meier曲线,包括时序统计检验。
图11示出了在肺鳞状细胞癌(LUSC)验证数据集中应用模型以预测患者结果的结果。43名患者被分类为“高PFS”(即其癌症在36个月前没有进展的患者),或“低PFS”(即其癌症在36个月前有进展的患者)。预测的总体准确性为67%(准确性:67.44%,灵敏度:0.7586,特异性:0.500):75.86%的验证患者被正确分类为“高_PFS”(22/29),并且50%被正确分类为“低_PFS”(7/14)。B).用于比较PFS分布的Kaplan-Meier曲线,包括时序统计检验。
图12示出了在黑素瘤(SKCM)验证数据集中应用模型以预测患者结果的结果。56名患者被分类为“高PFS”(即其癌症在30个月前没有进展的患者),或“低PFS”(即其癌症在30个月前有进展的患者)。预测的总体准确性为73%(准确性:73.21%,灵敏度:0.8485,特异性:0.5652):84.85%的验证患者被正确分类为“高_PFS”(28/33),并且56.52%被正确分类为“低_PFS”(13/23)。B)用于比较PFS分布的Kaplan-Meier曲线,包括时序统计检验。
发明详述
1.定义
除非另外定义,否则本文使用的所有技术和科学术语具有与本发明所属领域的普通技术人员通常理解的相同含义。尽管与本文描述的那些类似或等效的任何方法和材料都可以用于实践或测试本发明,但描述了优选的方法和材料。出于本发明的目的,在下文中定义了以下术语。
冠词“一(a)”和“一(an)”在本文中用于指一个或多于一个(即至少一个)的该冠词的语法对象。通过实例的方式,“糖种类生物标志物”意指一种糖种类生物标志物或多于一种糖种类生物标志物。
如本文使用的,“和/或(and/or)”是指并且涵盖一个或更多个相关列出的项(item)的任何和所有可能的组合,以及当以替代(或)解释时缺少组合。
如本文使用的,术语“约”意指大约、在范围内、粗略地或周围。当术语“约”与数值范围结合使用时,其通过将边界延伸至高于所述数值和低于所述数值来修改该范围。一般来说,术语“约”在本文中用于以10%的变化来修饰高于和低于陈述值的数值。因此,“约50%”意指在45%-55%的范围内。本文中通过端点阐述的数值范围包括归入该范围内的所有数字和分数(例如,1至5包括1、1.5、2、2.75、3、3.90、4和5)。还应理解,所有数字及其分数都被假定为是由术语“约”修饰的。
如本文使用的术语“生物样品”是指从受试者或患者提取的、未处理的、处理的、稀释的或浓缩的样品。合适地,生物样品选自患者身体的任何部分,包括但不限于毛发、皮肤、指甲、组织或体液诸如唾液和血液。出于本公开内容的目的,生物样品通常包括癌症或肿瘤细胞或组织。
如本文使用的,涉及SNV的术语“密码子上下文(codon context)”指的是密码子内SNV出现的核苷酸位置。出于本公开内容的目的,受影响的密码子(MC;即包含SNV的密码子)内的核苷酸位置被注释为MC-1、MC-2和MC-3,并且当密码子的序列被5'至3'读取时分别指第一、第二和第三核苷酸位置。因此,措辞“确定SNV的密码子上下文”或类似措辞意指确定SNV出现在受影响密码子内的哪个核苷酸位置,即MC-1、MC-2或MC-3。
在整个本说明书和所附的权利要求中,除非上下文另有要求,否则词语“包含(comprise)”和变体诸如“包含(comprises)”和“包含(comprising)”将被理解为暗示包括陈述的整数或步骤或者整数或步骤的组,但不排除任何其他整数或步骤或者整数或步骤的组。“由以下组成(consisting of)”意指包括并且限于措辞“由以下组成”之后的任何事物。因此,措辞“由以下组成”指示列出的要素是必需的或要求的,并且不可以存在其他要素。“基本上由以下组成(consisting essentially of)”意图包括在该措辞之后列出的任何要素,并且限于不干扰或有助于本公开内容中指定的所列出的要素的活性或作用的其他要素。
如在本公开内容的上下文中使用的术语“对照受试者”或“参考受试者”是指其癌症进展或复发的情况已被知晓(例如患有或曾经患有未进展或复发的癌症,或者患有或曾经患有进展或复发的癌症)的受试者。应当理解,对照或参考受试者可用于获得用作多于一项研究的标准的数据,即,其可以被一次又一次地用于多于一个不同的受试者。换句话说,例如,当将受试者样品与对照或参考样品进行比较时,来自对照或参考样品的数据可以在不同的实验组中获得,例如,其可以是从许多受试者获得的平均值而不是实际上在获得测试受试者数据的时候获得的。
术语“关联”一般是指确定一种类型的数据与另一种类型的数据或与一种状态之间的关系。在各种实施方案中,将概况与受试者患有将进展或复发的癌症的可能性关联包括评估受试者中如本文描述的度量,并将这些度量与已知患有或曾经患有进展或复发的或未进展或复发的癌症的人中的度量(诸如由参考概况代表)的水平进行比较。
“基因”意指占据基因组上特定基因座的遗传单位,并且包括转录和/或翻译调控序列和/或编码区和/或非翻译序列(即内含子、5'和3'非翻译序列)。
如本文使用的,术语“可能性”或语法变化被用作受试者是否患有将进展或复发的癌症的量度,诸如在特定时间范围内和/或以特定程度。例如,增加的可能性可以是相对的或绝对的,并且可以定性地或定量地表示。例如,癌症将进展或复发的增加的可能性可以表示为确定受试者具有与参考概况基本相同还是不同的度量概况,并将测试受试者置于“增加的可能性”类别或“降低的可能性”类别中。
在一些实施方案中,方法包括将基于度量集中在预定范围区间之外或高于或低于截止值的度量的数量的分数与“阈值分数”进行比较。阈值分数是提供鉴定受试者患有可能进展或复发的癌症,以及受试者患有不太可能进展或复发的癌症的可接受的能力的分数,并且可以由本领域技术人员使用任何可接受的方法来确定。
在一些实例中,当确定可能性时,通过将变量的值对其在两个群体中的相对频率绘图来计算接收者操作特征(ROC)曲线,其中第一群体具有第一表型或风险,并且第二群体具有第二表型或风险。在其癌症将进展或复发的受试者中和在癌症不会进展或复发的受试者中,特定度量值的分布,或者在预定范围区间之外或高于或低于截止值的度量数量中的分布,可以重叠。在这样的条件下,测试不能以100%的准确性在两组之间进行绝对区分。可以选择阈值,高于该阈值的测试被认为是“阳性的”,并且低于该阈值的测试被认为是“阴性的”。ROC曲线下面积(AUC)提供了C统计量,其是对感知测量将允许正确鉴定状况的概率的度量(参见例如,Hanley等人,Radiology 143:29-36(1982))。术语“曲线下面积”或“AUC”指的是接收者操作特征(ROC)曲线的曲线下面积,这两者在本领域都是熟知的。AUC量度对于在整个数据范围内比较分类器(classifier)的准确性是有用的。具有更大AUC的分类器具有更大的能力在两个感兴趣的组之间正确地分类未知事件。ROC曲线可用于绘制特定特征在对两个群体进行区分或鉴别中的性能。通常,基于单个特征的值,对遍及整个群体(例如,病例和对照)的特征数据进行升序排序。然后,对于该特征的每个值,计算数据的真阳性率和假阳性率。灵敏度通过对高于该特征值的病例数计数并且然后除以病例总数来确定。特异性通过对低于该特征值的对照数计数并且然后除以对照总数来确定。尽管该定义指的是与对照相比病例中特征升高的情况,但该定义也适用于与对照相比病例中特征降低的情况(在这样的情况中,低于该特征值的样品将被计数)。可以对单个特征以及对其他单个输出生成ROC曲线,例如,可以数学地组合(例如,加、减、乘等)两个或更多个特征的组合以产生单个值,并且该单个值可以绘制在ROC曲线中。另外,可以在ROC曲线中绘制多于一个特征(例如,一个或更多个其他表观遗传标志物)的任何组合,其中该组合导出单个输出值。特征的这些组合可以包括测试。ROC曲线是测试的灵敏度与测试的特异性的图,其中灵敏度通常呈现在纵轴上,并且特异性通常呈现在横轴上。因此,“AUC ROC值”等于分类器将随机选择的阳性实例排序为高于随机选择的阴性实例的概率。AUC ROC值可以被认为等同于Mann-Whitney U检验或者等同于Wilcoxon轶检验(Wilcoxon test of ranks),Mann-Whitney U检验检验在两组中获得的分数之间的中位数差异(考虑到如果组是连续数据)。
如本文使用的,提及SNV或度量的“水平”是指SNV或度量的数量、百分比、量或比率。
如本文使用的,“度量(metric)”是指单核苷酸变体(SNV)的数量、百分比、比率和/或类型。本公开内容的度量与特定SNV的数量、百分比或比率相关联、反映或指示特定SNV的数量、百分比或比率,特定SNV诸如核酸分子编码区中的SNV;核酸分子非编码区中的SNV;核酸分子编码区和非编码区两者中的SNV;已经评估了SNV的编码上下文的SNV;已被确定为转换或颠换的SNV;已被确定为同义或非同义的SNV;由链偏倚导致或与之相关联的SNV;其中腺嘌呤和胸腺嘧啶、和/或鸟嘌呤和胞嘧啶已被靶向的SNV;存在于特定基序(例如脱氨酶或3-mer基序)中的SNV;以及SNV是否存在于基序中(即基序非依赖性度量组)。
如本文使用的,“SNV类型”是指包含SNV的特定核苷酸取代,并且选自C至T、C至A、C至G、G至T、G至A、G至C、A至T、A至C、A至G、T至A、T至C和T至G SNV。因此,例如,C至T SNV是指其中靶向核苷酸C被取代核苷酸T替代的SNV。
如本文使用的“核酸”指定的是DNA、cDNA、mRNA、RNA、rRNA或cRNA。该术语通常是指长度大于30个核苷酸残基的多核苷酸。
如本文使用的,“预定范围区间”指的是度量的具有上限和下限的值范围,该值范围代表该度量的值的“正常”范围。预定范围区间可以通过评估两个或更多个对照受试者中的度量来确定。然后计算范围区间,以设置该对照受试者中该度量会被认为是正常值的上限和下限。在特定实例中,范围区间通过测量平均值加上或减去n个标准差来计算,由此范围区间的下限是平均值减去n个标准差,并且范围区间的上限是平均值加上n个标准差。在又另外的实例中,使用接收者操作特征(ROC)曲线来建立预定范围区间的上限和下限。用于确定预定范围区间的受试者可以是任何年龄、性别或背景,或者可以是特定年龄、性别、种族背景或其他亚群。因此,在一些实施方案中,可以对同一度量计算两个或更多个范围区间,由此每个范围区间对于特定的亚群,例如特定的性别、年龄组、种族背景和/或其他亚群是特定的。可以使用本领域技术人员已知的任何技术,包括手动计算方法、算法、神经网络、支持向量机、深度学习、具有线性模型的逻辑回归、机器学习、人工智能和/或贝叶斯网络来确定预定的范围区间。
如本文使用的,提及度量的“截止值”是指度量值的上限或下限,高于或低于该值代表该表型(例如,对于可能进展或复发的癌症,以及对于不太可能进展或复发的癌症)的度量值的“正常”范围。截止值可以通过评估两个或更多个对照受试者中的度量来确定。然后计算一个截止值,以设置该度量会被认为是正常值的上限或下限。在特定实例中,通过测量平均值加上或减去n个标准偏差来计算截止值,由此下限截止值是平均值减去n个标准差,并且上限截止值是平均值加上n个标准差。在又另外的实例中,使用接收者操作特征(ROC)曲线建立截止值。用于确定截止值的受试者可以是任何年龄、性别或背景,或者可以是特定年龄、性别、种族背景或其他亚群。因此,在一些实施方案中,可以对同一度量计算两个或更多个截止值,由此每个截止值对于特定的亚群,例如特定的性别、年龄组、种族背景和/或其他亚群是特定的。可以使用本领域技术人员已知的任何技术,包括手动计算方法、算法、神经网络、支持向量机、深度学习、具有线性模型的逻辑回归、机器学习、人工智能和/或贝叶斯网络来确定截止值。
如本文使用的,术语“复发(recur)”、“复发(recurrence)”等指的是在成功施用癌症或肿瘤的初级治疗后(即在初级治疗导致癌症或肿瘤部分或完全消退一定时间段后)受试者中肿瘤或癌细胞的再生长。肿瘤可以在原始部位或身体的另一部分复发。在一种实施方案中,复发的肿瘤与受试者接受治疗的原始肿瘤类型相同。例如,如果受试者曾患有卵巢癌肿瘤,接受了治疗并随后发展出另一种卵巢癌肿瘤,则该肿瘤复发。另外,癌症可以在与其原始出现的器官或组织不同的器官或组织中复发或转移到与其原始出现的器官或组织不同的器官或组织。
如本文使用的,术语“进展(progress)”、“进展(progression)”等指的是癌症生长、发展和/或成熟,包括转移的任何量度。癌症进展包括例如癌细胞数量、癌细胞尺寸、肿瘤尺寸和肿瘤数量的增加,以及形态学和其他细胞和分子变化和其他特征,并且可以出现在初级或随后治疗之前、期间或之后。进展可以以任何合适的方式评估和表示,并且可以是绝对的术语(例如,癌症已经或将要进展或复发),或者是时间范围的术语(例如,癌症已经或将在给定时间范围内进展或复发)。在一个实例中,进展表示为无进展生存期(progression free survival,PFS)时间,例如癌症未进展或患者未死亡的时间长度(在一些情况下,在癌症治疗期间和之后)。在这样的实例中,确定受试者具有可能进展的癌症可以是确定受试者具有相对低(例如,设定的月数或年数)的PFS时间,而确定受试者患有不太可能进展的癌症可以是确定受试者具有相对高的PFS时间。
如本文使用的术语“灵敏度”是指当生物样品为阳性时,例如具有预测诊断时,本公开内容的预测方法或试剂盒给出阳性结果的概率。灵敏度计算为真阳性结果的数量除以真阳性和假阴性的总和。灵敏度本质上是本公开内容在多大程度上正确地鉴定具有预测诊断的那些人和没有具有预测诊断的那些人的量度。可以选择统计方法和模型,使得灵敏度为至少约50%,并且可以是例如至少约55%、60%、65%、70%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%。
如本文使用的术语“特异性”是指本公开内容的预测方法或试剂盒能够区分阳性和阴性结果(例如在两个诊断之间)的概率。特异性计算为真阴性结果的数量除以真阴性和假阳性的总和。可以选择统计方法和模型,使得特异性为至少约50%,并且可以是例如至少约55%、60%、65%、70%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%。
如本文使用的,“单核苷酸变体”、“SNV”或“变体”是指与另一核酸分子(例如参考核酸分子或序列)相比,核酸分子(例如受试者核酸分子)的序列中出现的变异,其中该变异是单个核苷酸(例如A、T、C或G)身份的差异。例如,提及“A变体”或“A SNV”意指其中A是突变的或靶向核苷酸的变体或SNV。例如,提及“A>G变体”或“A>G SNV”意指其中A被G替代的变体或SNV。
术语“受试者”、“个体”或“患者”在本文中可互换使用,指任何动物受试者,特别是哺乳动物受试者。通过说明性实例的方式,合适的受试者是人类。
除非另有指示,否则如本文使用的术语“治疗(treat)”和“治疗(treating)”指的是治疗性治疗和预防性(prophylactic)或防止性(preventative)措施二者,其中目的是部分或完全抑制、改善或减缓(减轻)与紊乱或状况(例如癌症)相关联的一种或更多种症状,例如以减少肿瘤或癌细胞的尺寸或数量,或癌症或肿瘤的生长或扩散速率。除非另有说明,否则如本文使用的术语“治疗(treatment)”是指治疗的行为。
如本文使用的,术语“治疗方案”指的是治疗性方案(即,在诊断癌症或者诊断癌症进展或复发之后)。术语“治疗方案”涵盖天然物质和药剂以及任何其他治疗方案。
表A-核苷酸符号
A 腺嘌呤
C 胞嘧啶
G 鸟嘌呤
T 胸腺嘧啶
U 尿嘧啶
R 嘌呤-A或G
Y 嘧啶-C或T
S G或C
W A或T
K G或T
M A或C
B C或G或T
D A或G或T
H A或C或T
V A或C或G
N 任何碱基
本领域技术人员将理解,除了具体描述的那些,本文描述的方面和实施方案易于进行变化和修改。应理解,本公开内容包括所有此类变化和修改。本公开内容还包括本说明书中单独地或集合地提到的或指出的所有步骤、特征、组合物和化合物,以及所述步骤或特征的任何两个或更多个的任何或所有组合。
2.度量
如本文所述,在核酸分子中鉴定的SNV可用于确定多于一个度量。出于本公开内容的目的,特定度量因此被确定为CPAS,并且这些CPAS可用于开发可用于区分其癌症可能进展或复发的受试者与其癌症不太可能进展或复发的受试者的概况。
从下面的描述中可以理解,度量是基于核酸分子的任何一个或更多个区域中SNV的数量或百分比来确定的,并且可以包括对以下的评估:靶向核苷酸(即靶向核苷酸是A、T、C还是G)、SNV的类型(例如靶向核苷酸现在是A、T、G还是C)、SNV是转换还是颠换SNV和/或SNV是同义还是非同义的、靶向核苷酸所在的基序、SNV的密码子上下文、和/或SNV出现的链。因此,任何单个SNV都可以用于产生一个或更多个度量,并且多于一个SNV可以用于产生两个或更多个度量,并且通常至少10个、20个、30个、40个、50个、60个、70个、80个、90个、100个或更多个度量。可以基于这多于一个度量建立概况,因此患有可能进展或复发的癌症的受试者通常具有与患有不太可能进展或复发的癌症(例如同一类型的癌症)的受试者不同的概况。
如从本文的公开内容中明显的,度量可以与脱氨酶活性相关联或指示脱氨酶活性,即度量反映可以指示一种或更多种内源性脱氨酶(例如ADAR、AID或APOBEC脱氨酶(例如APOBEC1、APOBEC3B、APOBEC3F或APOBEC3G))的活性的SNV的数量、百分比、比率和/或类型。
可以针对本公开内容的方法评估任何一个或更多个度量。通常,评估多于一个度量,诸如至少4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、20个、40个、60个、80个、100个或更多个。
2.1基序
在使用在特定基序内鉴定的SNV确定度量(即基序度量组中的度量)的情况下,基序可以成对分析:正向基序和等效的反向互补基序。例如,正向基序ACG代表一个基序,其中带下划线的C是靶向的(或修饰的),并且反向基序是CGT,其中带下划线的G是靶向的(或修饰的)。可以理解,鉴定反向互补基序等同于鉴定反向互补DNA链上的正向基序。出于本文的目的,在段落先前的内容中带下划线的靶向/突变的核苷酸也可以通过两侧连字符的存在来鉴定,即“ACG”等同于“A-C-G”(其中靶向C带下划线或由连字符勾勒),以及“CGT等同于“CG-T-”(其中靶向T带下划线或由连字符加框)。
基序包括那些已知的或建议的脱氨酶基序。因此,度量可以与一个或更多个脱氨酶基序中的SNV相关联。因此,这样的度量也可以被称为脱氨酶活性的遗传指标。
表B列出了用于确定本公开内容的度量的示例性脱氨酶基序。AID的主要基序(primary motif)是WR-C-/-G-YW,并且次要基序(secondary motifs)包括例如AIDb、c、d、e、f、g和h。ADAR的主要基序是W-A-/-T-W(其中突变/靶向碱基是A或T),并且次要基序包括ADARb、c、d、e、f、g、h、I、j、k、n和p。APOBEC3G(A3G)的主要基序是C-C-/-G-G(其中突变/靶向碱基是C或G),并且次要基序包括A3Gb、c、d、e、f、g、h、i、n和o。APOBEC3B(A3B)的主要基序是T-C-W/W-G-A(其中突变/靶向碱基是C或G),并且次要基序包括例如A3Bb、c、d、e、f、g、h和j。APOBEC3F(A3F)的基序是T-C-/-G-A(其中突变/靶向碱基是C或G),并且APOBEC1(A1)的基序是-C-A/T-G-(其中突变/靶向碱基是C或G)。
因此,本文提及的“主要基序”是指WR-C-/-G-YW、W-A-/-T-W、C-C-/-G-G和T-C-W/W-G-A(即下表B中的前四个基序)中的任何一个。任何不在主要基序上的SNV被认为是“其他”SNV(即“其他”SNV包括任何不在四个主要基序之一的SNV,包括不在任何基序上的SNV和在次要或其他基序上的SNV)。
表B.示例性脱氨酶基序
在另外的实例中,基序不一定是脱氨酶基序。这样的基序中包括一般的2-mer基序,其中在2-mer中的一个位置检测到SNV:M1或M2。这样的基序中还包括一般的3-mer基序,其中在3-mer中的一个位置检测到SNV:M1、M2或M3。还包括一般的4-mer基序,其中在4-mer中的一个位置检测到SNV:M1、M2、M3或M4。未被知晓与脱氨酶特异性相关联的基序在本文中标记为“Gen”基序;并且“ADAR_Gen”用于标识其中A或T是靶向(或突变)核苷酸的基序。第一、第二或第三核苷酸(即M1、M2或M3)通常是靶向核苷酸。出于本文的目的,“2Gen1”指示其中第一位置是靶向核苷酸的双核苷酸基序,例如,“2Gen1_-G-T”是其中第一位置的G是靶向核苷酸(或反向基序中的C)的2-mer基序。“3Gen1”是其中第一个位置是靶向核苷酸的3-mer基序,例如“3Gen1_-C-TA”是其中第一个位置的C是靶向核苷酸(或反向基序中的G)的三核苷酸基序。“3Gen2”是其中第二个位置是靶向核苷酸的3-mer基序,例如“ADAR_3Gen2_G-A-T”是其中第二个位置的A是靶向核苷酸(或反向基序中的T)的3-mer基序。“3Gen3”是其中第三位置是靶向核苷酸的3-mer基序,例如“3Gen3_GA-C”是其中第三位置的C是靶向核苷酸(或反向基序中的G)的3-mer基序。“4Gen3”是其中第三位置是靶向核苷酸的4-mer基序,例如“ADAR_4Gen3_AT-A-T”是其中第三位置的A是靶向核苷酸(或反向基序中的T)的4-mer基序。
一般基序的非限制性实例包括下面表C中列出的一般基序。
表C.示例性一般基序
基序度量可以反映(并因此通过评估产生)核酸分子中在特定基序处的总SNV的数量或百分比。在另外的实施方案中,基序度量可以通过检测(并且因此可以指示)靶向核苷酸处的SNV的特定类型来产生,例如存在取代靶向G的A、C还是T。此外,度量可以指示靶向核苷酸在密码子内的任何位置(即,在MC-1、MC-2还是MC-3处,如下描述)。因此,在一些实例中,基序度量可以代表基序(例如脱氨酶基序)中靶向位置处的任何SNV的数量、百分比或比率,其中靶向核苷酸在密码子内的任何位置。因此,通过将基序处SNV的总数(不考虑突变的类型或突变的密码子上下文)除以核酸分子中SNV的总数来计算基序上SNV的百分比。然而,在其他实例中,在评估中仅考虑基序处特定类型SNV的SNV,诸如转换SNV(即C>T、G>A、T>C和A>G),并且度量反映了这样的SNV的百分比、数量或比率。在又另外的实例中,仅考虑导致同义突变或导致非同义突变的SNV。在又另外的实施方案中,如下描述,评估密码子上下文和SNV的类型两者。
2.2密码子上下文
诱变剂,包括脱氨酶,可以以密码子上下文的方式靶向核苷酸(如例如WO 2014/066955和Lindley等人(2016)Cancer Med.2016Sep;5(9):2629-2640中描述的)。具体地,诱变可以发生在靶向核苷酸处,其中靶向核苷酸存在于密码子内的特定位置。出于本公开内容的目的,受影响的密码子(MC;即包含SNV的密码子)内的核苷酸位置被注释为MC-1、MC-2和MC-3,并且当密码子的序列被5'至3'读取时分别指密码子的第一、第二和第三核苷酸位置。
本公开内容的度量可以至少部分地基于SNV的密码子上下文的确定,即SNV在受影响密码子的第一、第二还是第三位置,即MC-1、MC-2还是MC-3位点。如上所述,许多脱氨酶对靶向受影响密码子内特定位置的核苷酸具有偏好。因此,出现在MC-1、MC-2或MC-3位点的SNV的数量和/或百分比可以是脱氨酶活性的遗传指标。如应理解的,密码子上下文度量仅在核酸分子的编码区中评估。
基于SNV密码子上下文评估的度量可以是非基序依赖性的(即,评估特定密码子上SNV的数量和/或百分比,而不考虑靶向核苷酸是否在特定基序内)。因此,这些度量包括出现在MC-1位点的总SNV的数量和/或百分比;出现在MC-2位点的总SNV的数量和/或百分比;和/或出现在MC-3位点的总SNV的数量和/或百分比。
在其他实施方案中,还对SNV是否在基序,诸如脱氨酶基序、3-mer基序或5-mer基序(如上所述)处进行同时评估。因此,度量包括密码子上下文、基序依赖性度量(codon-context,motif-dependent metrics),其基于在特定基序内和在MC-1位点、MC-2位点和/或MC-3位点处的SNV的数量和/或百分比。在基序是脱氨酶基序的情况下,度量可以被认为是脱氨酶活性的遗传指标,并且包括可归属于特定基序的在MC-1位点、MC-2位点和/或MC-3位点处的SNV的数量和/或百分比,诸如可归属于AID(即在AID基序处)并且出现在MC-1位点、MC-2位点和/或MC-3位点处的SNV的数量和/或百分比;可归属于ADAR(即在ADAR基序处)并出现在MC-1位点、MC-2位点和/或MC-3位点处的SNV的数量和/或百分比;可归属于APOBEC脱氨酶(即在APOBEC基序,诸如APOBEC1、APOBEC3A、APOBEC3B、APOBEC3C、APOBEC3D、APOBEC3F、APOBEC3G或APOBEC3H基序处)并且出现在MC-1位点、MC-2位点和/或MC-3位点处的SNV的数量和/或百分比。
密码子上下文度量还包括那些不仅考虑密码子上下文,而且考虑靶向核苷酸的度量。因此,度量包括在MC1位置、MC2位置和/或MC3位置处的由腺嘌呤导致的SNV的数量或百分比。例如,可以确定由腺嘌呤导致的SNV的数量,并且然后确定在MC-1位点、MC-2位点和/或MC-3位点处的腺嘌呤导致的SNV的百分比,以产生度量。类似地,可以评估出现在MC1位置、MC2位置和/或MC3位置处的由胸腺嘧啶导致的SNV的数量或百分比;出现在MC1位置、MC2位置和/或MC3位置的由胞嘧啶导致的SNV的数量或百分比;出现在MC1位置、MC2位置和/或MC3位置的由鸟嘌呤产生的SNV的数量或百分比,以产生度量。
在另外的实施方案中,评估SNV的类型(例如C>A、C>T、C>G、G>C、G>T、G>A、A>T、A>G、A>C、T>A、T>C或T>G)和SNV的密码子上下文两者,以便确定在MC-1、MC-2或MC-3位点处的特定类型的SNV数量或百分比。同样,在一些实施方案中,这是在没有同时评估SNV是否在与特定脱氨酶相关联的基序处的情况下进行的。因此,度量可以包括例如MC1位点处的C>T SNV的数量或百分比(通常指示AID、APOBEC3B或APOBEC3G活性);MC2位点处C>T SNV的数量或百分比(通常指示AID、APOBEC3B或APOBEC3G活性);MC3位点处C>T SNV的数量或百分比(通常指示AID、APOBEC3B或APOBEC3G活性);MC1位点处G>A SNV的数量或百分比(通常指示AID、APOBEC3B或APOBEC3G活性);MC2位点处G>A SNV的数量或百分比(通常指示AID、APOBEC3B或APOBEC3G活性);MC3位点处G>A SNV的数量或百分比(通常指示AID、APOBEC3B或APOBEC3G活性);MC1位点处的T>C SNV的数量或百分比(通常指示ADAR活性);MC2位点处T>C SNV的数量或百分比(通常指示ADAR活性);MC3位点处T>C SNV的数量或百分比(通常指示ADAR活性);MC1位点处A>G SNV的数量或百分比(通常指示ADAR活性);MC2位点处A>G SNV的数量或百分比(通常指示ADAR活性);以及MC3位点处A>G SNV的数量或百分比(通常指示ADAR活性)。
在其他实施方案中,评估SNV是否在基序(例如脱氨酶或3-mer)处,鉴定SNV是什么类型,还以及SNV的密码子上下文以产生度量。
2.3转换/颠换
转换(Ti)被定义为嘌呤到嘌呤或嘧啶到嘧啶(即C>T、G>A、T>C和A>G)的任何变体,并且颠换(Tv)被定义为嘧啶到嘌呤或嘌呤到嘧啶(即C>A、C>G、G>T、G>C、T>G、A>T、T>C和T>A)的任何变体。因此可以确定由转换或颠换的SNV确定的或与转换或颠换的SNV相关联的度量,并且包括例如转换或颠换的SNV的数量或百分比,或者转换与颠换或颠换与转换的比率。在一些实施方案中,还评估基序、密码子上下文和/或特定SNV类型。
2.4链特异性
度量还可以包括那些基于仅在一条DNA链(即非转录(或有义或编码)链或转录(或反义或模板)链)上鉴定的SNV的度量。当评估是C的/来自C的SNV时,非转录(或有义或编码)链也可称为“C”链,或当评估是A的/来自A的SNV时,称为“A”链,而当评估是G的/来自G的SNV时,转录(或反义或模板)链也可称为“G”链,或当评估是T的/来自T的SNV时,称为“T”链。这些链特异性度量通常包括对给定链上来自(或是)特定靶向核苷酸(例如A、T、C或G)的SNV的数量或百分比的评估。鉴于特定的脱氨酶可以偏好靶向核酸分子中的特定核苷酸,这样的度量可以被认为是脱氨酶活性的遗传指标。例如,腺嘌呤常常是ADAR的靶,而胞嘧啶常常是AID或APOBEC脱氨酶的靶。因此,度量可以代表由腺嘌呤核苷酸导致的SNV的数量或百分比(例如,检测A>C、A>T和A>G的SNV的总数,并将该总数表示为占检测到的SNV总数的百分比);由胸腺嘧啶核苷酸导致的SNV的数量或百分比(例如,检测T>C、T>A和T>G的SNV的总数,并将该总数表示为占检测到的SNV总数的百分比);由胞嘧啶核苷酸导致的SNV的数量或百分比(例如,检测C>A、C>T和C>G的SNV的总数,并将该总数表示为占检测到的SNV总数的百分比);和/或由鸟嘌呤核苷酸导致的SNV的数量或百分比(例如,检测G>C、G>T和G>A的SNV的总数,并将该总数表示为占检测到的SNV总数的百分比)。这些也可以是链偏倚的指示,因为它们可以显示SNV总数中A、T、G或C核苷酸的不平衡。在另外的实例中,也评估靶向核苷酸变成的核苷酸。例如,该度量可以代表靶向A的作为A>C SNV的所有SNV的数量或百分比。
2.5AT和GC SNV
度量还可以包括对靶向腺嘌呤和胸腺嘧啶(AT)的组合SNV和/或靶向鸟嘌呤和胞嘧啶(GC)的组合SNV的评估。可以评估AT或GC处SNV的数量和/或百分比。在另外的情况下,计算比率,诸如确定包含腺嘌呤或胸腺嘧啶核苷酸的SNV的数量或百分比与包含胞嘧啶或鸟嘌呤核苷酸的SNV的数量或百分比的比率(AT:GC比率)。在另外的情况下,可以考虑AT或GC SNV的密码子上下文来产生度量。
2.6编码区和基因组度量
可以使用仅在核酸分子的编码区(也称为编码序列或cds)中鉴定的SNV来确定度量。其他示例性度量包括在被评估的基因组核酸序列的所有区域(即不管序列是非编码区还是编码区)中确定的度量。如将理解的,因此当仅评估核酸的一部分的序列(例如通过全外显子组测序)或是否评估整个核酸的序列(例如通过全基因组测序)时,可以确定和/或使用这些度量。
3.作为CPAS的示例性度量
如本文确定的,许多度量是CPAS,并且可以在本文描述的方法中使用,以产生预测受试者中的癌症是否会进展或复发的概况或模型。表D列出了用于在根据本公开内容的方法和系统使用的示例性CPAS。该表提供了度量名称、度量确定所基于的区域、与度量相关联的基序(在适用的情况下)、以及度量的描述和为产生度量而进行的计算。
因此,CPAS包括那些cds特异性的度量(即基于cds中的SNV计算的,例如“cds:CDS变体”,即cds中SNV的总数);基于非编码区中的SNV计算的度量(表D中的“nc”);以及基于全基因组SNV计算的度量(表D中的“g”),例如“在VCF中的变体”,即基因组中SNV的总数。当表D中的定义指“基序”时,它是在度量名称和表D的“基序”列中注明的基序,并且“基序SNV”意指该特定基序处的SNV。例如,“cds:ADAR_W-A-A>G在MC3%”是W-A-基序上在MC3处的A>GSNV的百分比,即,在W-A-基序的所有A>G SNV中,在MC3处的百分比。因此,本文呈现的任何表格的定义列中提及的“基序”意指度量名称中提及的基序。例如,对“cds:3Gen2_C-C-CMC3%”度量的定义“在MC3处的基序变体的%”意指在MC3的C-C-C或反向互补体G-G-G变体(或在C-C-C/G-G-G基序的变体)的百分比。在度量名称中提及“cds”指示该度量评估的是CDS中的SNV,正如对于涉及密码子上下文评估的度量所预期的那样。在另一个实例中,“cds:ADAR_W-A-非同义%”是cds中W-A-/-T-W基序上对应(或是)非同义变化的SNV的百分比。在另外的实例中,cds:A3G_C-C-G>T%是指作为G>T突变的“G基序SNV”(即反向链上-G-G基序处“G”处的SNV)的百分比。任何不在主要基序上的SNV被认为是“其他”SNV(即“其他”SNV包括任何不在四个主要基序之一的SNV,包括不在任何基序上的SNV和在次要或其他基序上的SNV)。因此,例如,cds:其他MC3%是cds中在MC3处的“其他”SNV(即CDS中不在主要基序的SNV)的百分比。
在表D中,#CDS=CDS中SNV的数量;#SNV=基因组区域中SNV的数量;#基序=所引述基序处的SNV的数量;#基序_G链=G链上所引述基序处的SNV的数量;#其他=不在主要脱氨酶基序上的SNV的数量。N/A=不适用。
表D.CPAS的示例性度量
在一些情况下,表D中列出的度量具有一个或更多个相关的度量。如本文使用的相关度量是可以代表在本公开内容的方法中使用的另一度量的度量。相关度量通常代表与其相关的度量的相同类型或类似的信息。
例如,当一个度量对应于另一个度量的子集时,这两个度量可以是相关的。非限制性实例包括为其它基序度量的子集的基序度量,例如CT-C-ASNV是T-C-A SNV的子集并且因此是相关的,以及G-G-度量是“所有G”度量的子集,并且因此是相关的。
在其他实例中,涵盖密码子上下文评估的度量可以是相关的,例如,MC1%度量与MC2%和MC3%相关,因为所有MC1%、MC2%和MC3%度量的总和是100%。因此,例如,cds:4Gen3_CA-C-C MC1%与cds:4Gen3_CA-C-C MC2%和cds:4Gen3_CA-C-C MC3%相关。
在另外的实例中,突变类型度量可以是相关的,例如C>T度量可以测量C>T SNV作为所有SNV、编码区中的所有SNV、特定基序内的所有SNV、或C链基序SNV的百分比的比例。因此,C>A%与C>T%和C>G%相关。
在其他实例中,G和C链度量可以是相关的。例如,C链和G链基序度量是基序相关度量的子集,例如基序G链MC1%与基序MC1%相关;并且基序C链Ti%与基序Ti%相关。
在其他实例中,“基序Ti%”度量是基序的转换SNV的量度,是对所有基序SNV计数的“基序%”的子集。因此,基序Ti%和基序%是相关的度量。
在另外的实例中,百分比度量与命中/计数度量相关,因为这些度量是通过将命中/计数除以分母来计算的,该分母诸如,例如所有SNV、编码区中的所有SNV、特定基序内的所有SNV、或所有C链基序SNV。
在其他实例中,CDS、非编码和基因组区域度量可以是相关的。例如,非编码SNV是基因组SNV子集,并且因此是相关的;以及CDS SNV是基因组SNV的一个子集,并且因此基于计数的度量和转换/颠换度量是相关的。
在另外的实例中,非同义度量与MC1、MC2和MC3百分比相关,因为MC3突变不太可能编码非同义氨基酸变化,并且MC1和MC2 SNV更可能编码非同义氨基酸变化。
在其他实例中,基于相同计数但使用不同分母的度量是相关的。例如,基序C>ASNV可以表示为C链基序SNV、所有基序SNV或所有CDS SNV的百分比,并且因此每一个都是相关的。
在另外的实例中,所有“主要”基序度量与AID、ADAR、APOBEC3G和APOBEC3B的其他度量相关,因为主要基序度量与这四个基序的和相关。
在其他实例中,所有“其他”基序度量是“所有”度量的子集,并且因此是相关的,例如所有G SNV=其他G SNV(不在主要脱氨酶基序上的G SNV)+主要G SNV(即在主要脱氨酶基序上的G SNV)。
基于上述内容,本领域技术人员将能够确定哪些度量可以与表D中列出的度量相关。在非限制性实例中,度量g:CG总计(其是基因组中C或G处的变体数量的计算)具有代表相同类型或类似信息的多于一个相关度量,包括例如VCF中的总变体、VCF中的总SNV、g:变体总计、cds:CDS变体、CDS总计、cds:所有G总计、cds:所有C总计、CDS:其他G总计、aa同义、cds:其他C总计、aa非同义。
在另一个实例中,g:A3Bj_RT-C-G C>T+G>A g%的相关度量包括cds:A3F_T-C-MC1%、cds:3Gen3_TC-C-%、cds:3Gen2_T-C-G C:G%、g:3Gen2_T-C-G C>T+G>A%、g:3Gen2_T-C-G C>T+G>A g%、cds:3Gen2_T-C-G C>T%、cds:3Gen2_T-C-G C>T基序%和cds:3Gen2_T-C-G C>T cds%。
在另外的实例中,g:A3F_T-C-命中的相关度量包括cds:A3F_T-C-MC3非同义%、cds:A3F_T-C-命中、g:A3B_T-C-W命中、g:3Gen3_CT-C-命中、cds:3Gen3_TT-C-G非同义%、cds:A3B_T-C-W命中、g:3Gen3_TT-C-命中、g:A3Gh_S-C-GS命中、g:A3B_T-C-W%、cds:3Gen2_T-C-T G非同义%、g:3Gen3_AT-C-命中、cds:A3B_T-C-W MC3非同义%、nc:3Gen3_CT-C-%、g:3Gen2_T-C-A命中、cds:3Gen2_T-C-G G非同义%、cds:3Gen3_AT-C-命中、nc:3Gen3_CT-C-命中、cds:3Gen2_T-C-G MC1非同义%和g:3Gen2_T-C-T命中。
4.评估核酸分子的SNV
可以根据本公开内容的方法和系统,使用本领域已知的用于获得和评估核酸分子序列的任何方法。使用本公开内容的系统和方法分析的核酸分子可以是任何核酸分子,尽管一般是DNA(包括cDNA)。通常,核酸是哺乳动物核酸,诸如人类核酸。
核酸可以从任何生物样品中获得。生物样品可以包括体液、组织或细胞。在特定的实例中,生物样品是体液,诸如唾液或血液。在其他实例中,生物样品是组织活检。包含组织或细胞的生物样品可以来自身体的任何部分,并且可以包含任何类型的细胞或组织。通常,样品包括癌症或肿瘤细胞。因此,在一些实例中,样品来自受试者中存在癌症或肿瘤的特定区域或位置,并且因此包括例如乳房、前列腺、肝脏、结肠、胃、胰腺、皮肤、甲状腺、宫颈、淋巴、造血系统、膀胱、肺、肾、直肠、卵巢、子宫和头或颈部组织或细胞。在特定实例中,用于检测癌症进展或复发可能性的生物样品与癌症类型相匹配。通过说明的方式,如果受试者罹患或已经罹患卵巢癌,则样品来源于卵巢组织或细胞。
核酸分子可以包括一个基因的一部分或全部,或者两个或更多个基因的一部分或全部。最典型的是,核酸分子包括全基因组或全外显子组,并且在本公开内容的方法中分析的是全基因组或全外显子组的序列。在全基因组或全外显子组用于分析的情况下,可以评估在编码区、非编码区或所有区域(称为“基因组”)中的SNV。
当进行本公开内容的方法时,核酸分子的序列可以已经预定。例如,该序列可以存储在数据库或其他存储介质中,并且根据本公开内容的方法分析的正是该序列。在其他情况下,在采用本公开内容的方法之前,必须首先确定核酸分子的序列。在特定的实例中,核酸分子也必须首先从生物样品中分离。因此,在一些实施方案中,本公开内容的方法包括从受试者获得生物样品的步骤,任选地从样品中分离核酸,对核酸测序,并且然后如本文描述的分析核酸以检测SNV。在其他实施方案中,已经从受试者获得了生物样品,并且该方法包括分离核酸、对核酸测序并且然后分析核酸以检测SNV的步骤。在另外的实施方案中,已经从受试者获得了生物样品,并且已经分离了核酸,并且该方法包括对核酸测序并且然后分析核酸以检测SNV的步骤。在又另外的实施方案中,在进行本公开内容的方法之前,已经从受试者获得了生物样品,并且已经对核酸进行了分离和测序。
获得核酸和/或对核酸测序的方法是本领域熟知的,并且任何这样的方法都可以用于本文描述的方法。在一些情况下,方法包括在测序前扩增分离的核酸,并且合适的核酸扩增技术是本领域普通技术人员熟知的。核酸测序技术是本领域熟知的,并且可以应用于单个或多于一个基因,或全外显子组、转录组或基因组。这些技术包括例如依赖于“Sanger测序”(Sanger等人(1977)Proc Natl Acad Sci USA 74:5463-5467)的毛细管测序方法(即涉及链终止测序的方法),以及促进一次对数千至数百万个分子进行测序的“下一代测序”技术。这样的方法包括但不限于焦磷酸测序,其使用萤光素酶在个体核苷酸被添加到DNA模板时读出信号;“边合成边测序”技术(Illumina),其使用可逆染料终止子技术,在每个循环中向DNA模板添加一个核苷酸;和SOLiDTM测序(通过寡核苷酸连接和检测测序;LifeTechnologies),其通过固定长度寡核苷酸的优先连接进行测序。这些下一代测序技术对于全外显子组和基因组的测序特别有用。其他示例性测序平台包括第三代(或长读段)测序平台,诸如使用MiniIONTM或GridIONTM测序仪的单分子纳米孔测序(由Oxford Nanopore开发,并且涉及使DNA分子通过纳米级孔结构,并且然后测量孔周围电场的变化),或者利用零模波导(ZMW)的单分子实时测序(SMRT),诸如由Pacific Biosciences开发的。
在获得了核酸分子的序列后,可以然后鉴定SNV。SNV可以通过将序列与参考序列进行比较来鉴定。参考序列可以是来自数据库的核酸分子的序列,诸如参考基因组。在特定实例中,参考序列是参考基因组,诸如GRCh38(hg38)、GRCh37(hg19)、NCBI Build 36.1(hg18)、NCBI Build 35(hg17)和NCBI Build 34(hg16)。在一些实施方案中,审查SNV以从进一步分析中去除已知的单核苷酸多态性(SNP),诸如在公开可用的各种SNP数据库中鉴定的那些。在另外的实施方案中,仅选择那些在ENSEMBL基因编码区内的SNV用于进一步分析。除了鉴定SNV之外,还可以鉴定包含SNV的密码子和SNV在密码子内的位置(MC-1、MC-2或MC-3)。也可以鉴定5'和3'侧翼密码子中的核苷酸,以便鉴定基序。在本公开内容的方法的一些实例中,分析核酸分子的非转录链(等同于cDNA序列)的序列。在其他情况下,分析转录链的序列。在另外的情况下,分析这两条链的序列。
在鉴定了核酸分子中的一个或更多个SNV之后,一个或更多个度量(或CPAS)可以如上阐述的通过进行适当的计算来确定。
5.用于检测SNV和确定度量的试剂盒和系统
用于检测SNV所需的所有基本材料和试剂都可以组装在试剂盒中。例如,当本公开内容的方法包括首先对待分析的核酸进行分离和/或测序时,设想了包含促进该分离和/或测序的试剂的试剂盒。这样的试剂可以包括例如用于扩增DNA的引物、聚合酶、dNTP(包括标记的dNTP)、阳性和阴性对照以及缓冲液和溶液。这样的试剂盒一般还以合适的方式包括用于每种单独试剂的不同容器。该试剂盒还可以具有各种装置和/或使用该试剂盒的印刷的说明。
在一些实施方案中,本文总体上描述的方法至少部分地由处理系统,诸如合适地编程的计算机系统进行。例如,处理系统可用于分析核酸序列、鉴定SNV和/或确定度量。可以使用独立的计算机,其中微处理器执行允许进行以上描述方法的应用软件。可选地,方法可以至少部分地由作为分布式架构的一部分操作的一个或更多个处理系统来进行。例如,处理系统可用于鉴定SNV类型、SNV的密码子上下文和/或一个或更多个核酸序列内的基序,以便产生本文描述的度量。在一些实例中,由用户输入到处理系统的命令帮助处理系统做出这些确定。
在一个实例中,处理系统包含经由总线相互连接的至少一个微处理器、存储器、诸如键盘和/或显示器的输入/输出装置以及外部接口。外部接口可用于将处理系统连接到外围装置,诸如通信网络、数据库或存储装置。微处理器可以执行存储在存储器中的应用软件形式的指令,以允许进行本公开内容的方法,以及进行任何其他所需的过程,诸如与计算机系统通信。应用软件可以包括一个或更多个软件模块,并且可以在适当的执行环境,诸如操作系统环境等中执行。
6.用于产生进展指标的系统
本公开内容还提供了用于产生用于评估癌症将进展或复发的可能性的进展指标的系统和过程。
现在将参考图1描述用于产生用于评估癌症进展或复发可能性的进展指标的过程的实例。
出于该实例的目的,假设该方法至少部分地使用一个或更多个电子处理装置来进行,该电子处理装置通常形成一个或更多个处理系统的一部分,诸如服务器、个人计算机等,并且可以任选地经由网络架构连接到一个或更多个处理系统、数据源等,如下文将更详细描述的。
出于解释的目的,术语“参考受试者”用于指样品群体中的一个或更多个个体,且“参考受试者数据”用于指从参考受试者收集的数据。术语“受试者”是指出于确定癌症进展或复发的可能性的目的而被评估的任何个体,“且受试者数据”用于指从受试者收集的数据。参考受试者和受试者是哺乳动物,并且更具体地是人类,尽管这不意图限制,并且该技术可以更广泛地应用于其他脊椎动物和哺乳动物。
在该实例中,在步骤100,获得至少部分指示来自受试者的核酸分子序列的受试者数据。可以以任何适当的方式获得受试者数据,如上所述,诸如例如,来自受试者的生物样品的全外显子组测序或全基因组测序。
受试者数据还可以包括另外的数据,诸如关于受试者属性的数据或从受试者测量的其他生理信号,诸如身体或精神活动的测量值等,如下文将更详细描述的。
在步骤110,分析受试者数据以鉴定核酸分子内的SNV,如上所述。
在步骤120,鉴定的SNV用于确定多于一个度量,诸如表D中列出的那些度量或与表D中列出的度量相关的度量中的至少5个、10个、15个、20个、25个、30个、40个、50个、60个、70个、80个、90个、100个、120个、130个或140个。使用的度量可以根据一系列因素而变化,诸如要使用的计算模型、受试者属性、被评估的癌症的特定类型等,如下文将更详细描述的。
在步骤130,将两个或更多个度量应用于一个或更多个计算模型。计算模型通常体现癌症进展或复发与多于一个度量之间的关系,并且可以通过应用一种或更多种分析技术(诸如机器学习、常规聚类、线性回归或贝叶斯方法,或者本领域已知的或下文描述的任何其他技术),参考从具有已知癌症进展或复发的参考受试者获得的多于一个参考度量导出的度量来获得。
因此,应当理解,在实践中,针对具有不同癌症进展或复发的多于一个参考受试者收集与受试者数据等同的参考受试者数据。收集的参考受试者数据用于计算参考度量,然后参考度量用于训练计算模型,使得计算模型可以基于从该参考受试者的SNV导出的度量来鉴别不同的进展或复发。计算模型的性质将根据实施方式而变化,下面将更详细地描述实例。
在步骤140,计算模型用于确定指示癌症进展或复发可能性的进展指标,即,进展指标指示受试者是否患有可能进展或复发的癌症。这允许监督临床医生或其他医务人员评估对受试者的适当疗法或干预。
在一个实例中,进展指标可以包括数值,例如指示受试者有60%、70%、80%、90%或95%的概率患有可能进展或复发的癌症(或者换句话说,受试者中的癌症有60%、70%、80%、90%或95%的概率进展或复发)。然而,这不一定是必需的,并且可以理解的是,可以使用任何合适形式的指标。
因此,应当理解,以上描述的方法利用诸如机器学习技术的分析技术,以便利用某些定义的度量来评估癌症进展或复发。
在一个实例中,特定度量以多种组合使用,以便提供具有鉴别性能的计算模型,诸如大于70%的准确性、灵敏度、特异性或接收者操作特征曲线下面积(AUROC)。
以上描述的方法提供了一种用于客观评估受试者癌症进展或复发的可能性的机制,其可以帮助鉴定最有效的疗法和/或对疗法的需求。
现在将描述许多另外的特征。
在一个实例中,基序度量组包括选自表D中列出的度量和与表D中列出的度量相关的度量的至少5个、10个、15个、20个、25个、30个、40个、50个、60个、70个、80个、90个、100个、120个、130个或140个度量。
该系统可以例如根据模型的特定鉴别能力和感兴趣的特定癌症疗法使用计算模型的许多不同组合。
在一个实例中,该系统使用多于一种不同的计算模型,这可以改善准确评估癌症进展或复发的能力。在这种情况下,处理装置将相应的度量应用于相应的模型以确定个体分数,然后将个体分数聚合以确定进展指标。
模型的性质将根据实施方式而变化,并且在实例中,模型可以包括决策树或类似物,并且在一个优选的实例中,使用多于一个决策树,并将结果聚合。然而,应当理解,这不是必需的,并且可以使用其他模型。
如先前所提到的,为了增加计算模型的准确性,使用多于一个度量,其中这些通常从各组中选择,以便使计算模型的鉴别性能的有效性最大化。
一般来说,使用的度量数量会根据训练的实施方式和结果而变化。在一个实例中,使用选自表D中列出的度量和与表D中列出的度量相关的度量的至少5个、10个、15个、20个、25个、30个、40个、50个、60个、70个、80个、90个、100个、120个、130个或140个度量。任选地,使用另外的度量,诸如WO2019095017中描述的任何度量。
还可以进行分析以考虑受试者属性,诸如受试者特征、受试者罹患的可能的医疗状况、进行的可能的干预等。在该实例中,一个或更多个处理装置可以使用一个或更多个受试者属性来应用计算模型,使得基于针对具有与受试者属性相似的属性的一个或更多个参考受试者导出的参考度量来评估度量。这可以根据优选实施方式以多种方式实现,并且可以包括至少部分地根据受试者属性选择度量和/或许多不同计算模型之一。不管这是如何实现的,应当理解,通过考虑具有不同属性的受试者可能具有不同的癌症进展或复发,考虑受试者属性可以进一步改善鉴别性能。
受试者属性可以包括受试者特征,诸如受试者年龄、身高、体重、性别或种族、身体状态(诸如健康或不健康的身体状态)或一种或更多种疾病状态(诸如受试者是否肥胖)。受试者属性可以包括一个或更多个医学症状,诸如升高的体温、心率或血压、受试者是否罹患恶心等。最后,受试者属性可以包括膳食信息,诸如消耗的任何食物或饮料的细节,或者药物信息,包括作为药物方案的一部分或以其他方式服用的任何药物的详细信息。
可以以许多方式中的任何一种来确定受试者属性,例如通过临床评估的方式、通过查询患者医疗记录、基于用户输入命令、或者通过从诸如体重或心脏活动传感器等传感器接收传感器数据。
在一个实例中,一个或更多个处理装置显示进展指标的代表,存储进展指标用于随后检索,或者将进展指标提供给客户端装置用于显示。因此,应当理解,根据优选的实施方式,可以以多种方式使用进展指标。
为了确定进展指标,以上描述的方法使用一个或更多个计算模型,并且现在将参考图2描述用于产生这样的模型的过程的实例。
在该实例中,在步骤200获得参考受试者数据,其指示来自参考受试者的核酸分子序列,以及癌症进展或复发(或非进展或非复发)。在步骤210,分析参考受试者数据以鉴定核酸分子内的SNV。在步骤220,分析参考受试者数据以确定参考度量。
步骤200至220在很大程度上类似于关于获得和分析受试者的受试者数据所描述的步骤100至120,并且因此将理解,这些可以以很大程度上类似的方式进行,并且因此将不再详细描述。
然而,与受试者数据相反,当参考受试者数据用于训练计算模型时,它通常用于确定用于所有可用度量,而不仅仅是度量中所选择的度量的参考度量,允许使用它来确定哪些度量在区分可能具有癌症进展或复发的个体中最有用。
在步骤230,选择参考度量和一个或更多个通用计算模型的组合,在步骤240使用参考度量和癌症进展或复发(或非进展或非复发)来训练模型。模型的性质和所进行的训练可以是任何适当的形式,并且可以包括决策树学习、随机森林、逻辑回归、关联规则学习、人工神经网络、深度学习、归纳逻辑编程、支持向量机、聚类、贝叶斯网络、强化学习、代表学习、相似性和度量学习、遗传算法、基于规则的机器学习、学习分类器系统等中的任何一个或更多个。由于这样的方案是已知的,因此将不进一步详细描述这些方案。
因此,以上描述的过程提供了开发计算模型的机制,该计算模型可用于使用以上关于图1描述的过程产生进展指标。
除了简单地产生模型之外,该过程通常包括在步骤250测试模型以评估训练模型的鉴别性能。这样的测试通常使用参考受试者数据的子集,并且特别是与用于训练模型的参考受试者数据不同的参考受试者数据来进行,以避免模型偏倚。测试用于确保计算模型提供足够的鉴别性能。在这方面,鉴别性能通常基于准确性、灵敏度、特异性和AUROC,为了使用模型,需要至少70%的鉴别性能。
应当理解,如果该模型满足鉴别性能,那么它可以用于使用以上关于图1概述的过程来确定进展指标。否则,该过程返回到步骤230,允许选择不同的度量和/或模型,然后根据需要重复训练和测试。
因此,在一个实例中,一个或更多个处理装置选择多于一个参考度量(通常被选择为上面列出的每个可用度量的子集),使用多于一个参考度量训练一个或更多个计算模型,测试计算模型以确定模型的鉴别性能,并且如果模型的鉴别性能低于阈值,则使用不同的多于一个参考度量和/或来自不同参考受试者数据的多于一个度量选择性地重新训练计算模型和/或训练不同的计算模型。因此,应当理解,可以利用不同的度量和/或不同的计算模型迭代地进行以上描述的过程,直到获得所需程度的鉴别能力。
因此,在一个实例中,一个或更多个处理装置使用至少20个、40个、60个、80个、100个、200个、400个、600个、800个、1000个、2000个或更多个度量来训练模型,所得的模型通常使用显著更少的度量,诸如小于100个。
另外地和/或可选地,一个或更多个处理装置可以选择参考度量的多于一个组合,使用组合中的每一个训练多于一个计算模型,测试每一个计算模型以确定模型的鉴别性能,并选择具有最高鉴别性能的一个或更多个计算模型用于确定进展指标。
除了使用度量来训练模型之外,还可以考虑参考受试者属性来进行训练,使得模型是相应的参考受试者属性特异性的,或者在确定癌症进展或复发的可能性时可以考虑受试者属性。在一个实例中,该过程涉及使一个或更多个处理装置使用参考受试者属性来进行聚类,以确定具有相似参考受试者属性的参考受试者的聚类,例如使用诸如k-均值聚类的聚类技术,并且然后至少部分地使用参考受试者聚类来训练计算模型。例如,可以鉴定罹患特定形式癌症的参考个体的聚类,这被用于训练计算模型以鉴定可能的进展或复发。
因此,以上描述的技术提供了一种用于训练一个或更多个计算模型以使用多种不同的度量来确定癌症进展或复发的可能性,并且然后使用该模型来产生指示癌症进展或复发可能性的进展指标的机制。
现在将参考图3更详细地描述监控系统的实例。
在该实例中,提供了一个或更多个处理系统310,该处理系统310经由一个或更多个通信网络340(诸如互联网和/或许多局域网(LAN))耦合到一个或更多个客户端装置330。提供了许多测序装置320,这些装置任选地经由通信网络340直接连接到处理系统310,或者更通常,这些装置耦合到客户端装置330。
可以提供任何数量的处理系统310、测序装置320和客户端装置330,并且当前图示仅出于说明的目的。网络340的配置也仅出于实例的目的,并且在实践中,处理系统310、测序装置320和客户端装置330可以经由任何适当的机制进行通信,诸如经由有线或无线连接,包括但不限于移动网络、诸如802.11网络的专用网络(private network)、互联网、LAN、WAN等,以及经由诸如蓝牙等的直接或点对点连接。
在该实例中,处理系统310适于接收和分析从测序装置320和/或客户端装置330接收的受试者数据,允许产生计算模型并用于确定进展指标,然后可以经由客户端装置330显示进展指标。虽然处理系统310被示出为单个实体,但是应当理解,它们可以包括分布在许多地理上分离的位置上的许多处理系统,例如作为基于云的环境的一部分。因此,以上描述的布置不是必需的,并且可以使用其他合适的配置。
图4中示出了合适的处理系统310的实例。在该实例中,处理系统310包含至少一个微处理器400、存储器401、任选的输入/输出装置402,诸如键盘和/或显示器,以及外部接口403,如示出的经由总线404相互连接。在该实例中,外部接口403可用于将处理系统310连接到外围装置,诸如通信网络340、数据库411、其他存储装置等。尽管示出了单个外部接口403,但这仅出于实例的目的,并且在实践中可以提供使用各种方法(例如以太网、串行、USB、无线等)的多于一个接口。
在使用中,微处理器400执行存储在存储器401中的应用软件形式的指令,以允许进行所需的过程。应用软件可以包括一个或更多个软件模块,并且可以在合适的执行环境中执行,诸如操作系统环境等。
因此,应当理解,处理系统310可以由任何合适的处理系统形成,诸如合适地编程的PC、web服务器、网络服务器等。在一个特定实例中,处理系统310是标准处理系统,诸如基于Intel架构的处理系统,其执行存储在非易失性(例如,硬盘)存储上的软件应用,尽管这不是必需的。然而,还将理解,处理系统可以是任何电子处理装置,诸如微处理器、微芯片处理器、逻辑门配置、任选地与实现逻辑相关联的固件,诸如FPGA(现场可编程门阵列),或者任何其他电子装置、系统或布置。
如图5示出的,在一个实例中,客户端装置330包含至少一个微处理器500、存储器501、诸如键盘和/或显示器的输入/输出装置502、外部接口503,如示出的经由总线504相互连接。在该实例中,外部接口503可用于将客户端装置330连接到外围装置,诸如通信网络340、数据库、其他存储装置等。尽管示出了单个外部接口503,但这仅出于实例的目的,并且在实践中可以提供使用各种方法(例如以太网、串行、USB、无线等)的多于一个接口。读卡器504可以是任何合适的形式,并且可以包括磁卡读卡器或用于读取智能卡的非接触式读卡器等。
在使用中,微处理器500执行存储在存储器501中的应用软件形式的指令,并允许与处理系统310和/或测序装置320之一通信。
因此,应当理解,客户端装置330由任何合适地编程的处理系统形成,并且可以包括合适地编程的PC、互联网终端、膝上型或手持PC、平板电脑、智能电话等。然而,还将理解,客户端装置330可以是任何电子处理装置,诸如微处理器、微芯片处理器、逻辑门配置、任选地与实现逻辑相关联的固件,诸如FPGA(现场可编程门阵列),或者任何其他电子装置、系统或布置。
现在将进一步详细地描述用于产生进展指标的过程的实例。出于这些实例的目的,假设一个或更多个相应的处理系统310是适于接收和分析受试者数据并产生和提供对进展指标的访问的服务器。服务器310通常执行处理装置软件,允许进行相关动作,其中由服务器310进行的动作由处理器400根据作为应用软件存储在存储器401中的指令和/或经由I/O装置402从用户接收的输入命令来进行。还将假设由客户端装置330进行的动作由处理器500根据作为应用软件存储在存储器501中的指令和/或经由I/O装置502从用户接收的输入命令来进行。
然而,应当理解,出于以下实例的目的而假设的以上描述的配置不是必需的,并且可以使用许多其他配置。还应当理解,不同处理系统之间的功能划分可以根据特定的实施方式而变化。
现在将参考图6更详细地描述用于分析个体的受试者数据的过程的实例。
在该实例中,在步骤600,根据优选实施方式,服务器310从存储的记录中检索受试者数据,或任选地经由客户端装置330从测序装置接收受试者数据来获得受试者数据。
在步骤605,服务器310确定受试者属性,例如通过从数据库检索这些属性,或者作为受试者数据的一部分获得这些属性。受试者属性可用于选择要使用的一个或更多个计算模型和/或可与度量组合以允许应用计算模型。在这方面,通常基于具有与受试者相似属性的参考受试者的参考度量来分析受试者的度量。这可以通过对属性的不同组合使用不同的计算模型,或者通过使用属性作为计算模型的输入来实现。
在步骤610,服务器310确定受试者所罹患的癌症的癌症类型,在步骤615使用该癌症类型来选择一个或更多个计算模型。在这方面,不同的计算模型通常用于评估不同类型癌症的进展或复发的可能性。
选择模型后,在步骤620,服务器310计算模型所需的相关度量。
在步骤625,例如通过使用相关度量(任选地与一个或更多个受试者属性一起)将度量应用于计算模型,以进行决策树评估,导致在步骤630产生指示癌症进展或复发可能性的指标。
在步骤635,服务器310存储进展指标(通常作为受试者数据的一部分),任选地允许显示进展指标,例如通过将其转发到客户端装置用于显示。
现在将更详细地描述机器学习方法的具体实例。
在该实例中,测序数据通过以上描述的过程运行,并且感兴趣的度量被鉴定和量化,这些被整理的患者建立一个概况。
然后,这用于鉴定例如“高PFS”(例如,达到癌症未进展的特定时间段的患者)和“低PFS”(例如,没有达到癌症未进展的特定时间段的患者,或者换句话说,癌症在特定时间段内进展了的患者)的患者概况。有许多方式可以分析数据,并且本文描述的以下方法是对癌症进展定制的。
最初,收集序列数据并将序列数据用于产生每个患者的度量。在对患者进行分组用于分析之前,可以通过清理数据(例如,去除分析不需要的元数据)来导出和分析原始结果。
为了证明过程的有效性,分析了许多癌症患者,将患者分组为三类:训练数据、调整数据和验证数据。训练和调整数据集包括大量患者,患者随机分到每组;验证数据集包括其数据未包括在训练和调整数据集中的患者。
一个典型的实验方法是“搁置(set aside)”验证数据集(被预测的数据),并将其余患者整理在一起。然后将整理后的患者以75:25(具有~相等的响应者/无响应者比例)分到训练数据集(~75%)和调整(~25%)数据集。
在数据被分组后,可以在验证数据集中为患者的每个度量绘制高PFS和低PFS。绘制数据提供了一种用于进一步调查由机器学习分析鉴定为重要的度量的方法,尽管不直接涉及任何计算/分析。
在数据被适当地分组和格式化后,机器学习算法被应用来产生计算模型。在一个实例中,所使用的算法是XGBoost,它是“梯度提升决策树”的实施方式,具体为大型数据集(数百万个数据点)的速度和性能而设计。
该方法计算大量的决策树并检查每个决策树,以找到在训练数据集上使预测分数最大化的决策树。然后可以将预测模型应用于预测目的。在实践中,优选的方法使用决策树的“集成”,每个决策树使用不同的度量组合来进行预测,从而增加准确性。
这种方法在计算上可能非常昂贵,并且可能导致数百万个可能的树和许多可能的集成。一般来说,为了优化这种方法,每个模型都使用度量的子集进行训练,在每种情况下通常都>100个度量,并且虽然可以使用单个度量,但在实践中,对于具有合理准确性水平的模型,一般有>10个、>20个或>30个度量。
在建立XGBoost模型时,有许多参数可以调整,并且因此可以进行多于一遍来优化设置,然后使用优化的设置。优化是在没有人类干扰的情况下进行的(测试各种设置组合,并且计算机鉴定哪些设置是最佳的),使这种方法一致、可重复,并对实验者偏差的敏感性最小化。
在模型被建立、调整并应用于数据后,有可能确定哪些度量对所做的预测是重要的。每个度量对总体预测的贡献是累积的,特定变量的分数以“加权”的方式对总体预测做出贡献(即,一个度量的分数可以指示受试者是响应者,但是另一个度量的分数可以指示受试者不是响应者)。
当应用于“现实世界”数据集时,使用这种机器学习方法,可以以良好的准确性预测患者结果(参见实施例2和3)。
7.诊断和治疗应用
使用本文描述的方法和系统来检测受试者的核酸分子中的SNV,产生一个或更多个度量(或CPAS),可以确定受试者中癌症将进展或复发的可能性。因此,本文描述的方法也可用于促进为受试者开处管理程序或治疗方案。例如,如果确定受试者的癌症可能进展或复发,则可以开始用适当的疗法(例如,不同的和/或更积极的疗法)对受试者进行治疗,或者可以维持当前的疗法。可选地,如果确定受试者的癌症不太可能进展或复发,则可以停止、减少或维持受试者的治疗。
如下面的实例展示的,与患有不太可能进展或复发的癌症的受试者相比,患有可能进展或复发的癌症的受试者具有不同的度量(或CPAS)概况。因此,可以产生受试者的度量概况,即样品概况,并与度量的参考概况进行比较,以便确定受试者患有可能进展或复发的还是不太可能进展或复发的癌症。本公开内容的概况反映了如上描述的至少任何1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、20个、30个、40或更多个度量(或CPAS)的评价。参考概况可以与患有可能进展或复发的癌症的受试者相关联或代表该受试者,和/或可以与患有不太可能进展或复发的癌症的受试者相关联或代表该受试者。当在样品概况和参考概况之间进行比较时,概况中的相似性或差异可以指示受试者患有可能或不太可能复发或进展的癌症。例如,如果参考概况与患有可能进展或复发(例如,如由特定PFS时间表示的,诸如相对低的PFS时间)的癌症的受试者相关联或代表该受试者,并且样品概况与该参考概况相似或基本上相同,则可以确定从中导出样品概况的受试者患有可能进展或复发的癌症。相反,如果参考概况与患有不太可能进展或复发(例如,如由特定PFS时间表示的,诸如相对高的PFS时间)的癌症的受试者相关联或代表该受试者,并且样品概况与该参考概况相似或基本上相同,则可以确定从中导出样品概况的受试者患有不太可能进展或复发的癌症。如应理解的,可以区分进展的癌症与未进展的癌症的概况中的度量集对于不同类型的癌症可以是不同的。例如,可以区分可能进展的乳腺癌和不太可能进展的乳腺癌的概况中的度量集可以不同于可以区分可能进展的皮肤癌和不太可能进展的皮肤癌的概况中的度量集。虽然可以存在一些重叠的度量(即,用于产生乳腺癌和皮肤癌概况两者),但是一些度量可以仅在概况之一中使用。因此,在本公开内容的方法中产生和/或利用的参考概况通常对于特定类型的癌症是特异性的,该癌症将是与被评估的受试者的癌症类型相同的癌症类型,即,当被评估的受试者患有乳腺癌时,参考概况将与患有不太可能或可能进展或复发的乳腺癌的受试者相关联或代表该受试者。
参考概况是基于在具有已知表型、疾病状态或发展疾病风险的个体中的参考度量或CPAS的评价中获得的数据来确定的。因此,例如,参考概况可以基于在患有或曾经患有未进展或复发的癌症的个体中的度量的评价中获得的数据。在这样的情况下,参考概况与患有不太可能进展或复发的癌症的受试者相关联或代表该受试者。在其他实例中,参考概况基于在患有或曾经患有进展或复发的癌症的个体中的度量的评价中获得的数据。在这样的情况下,参考概况与患有可能进展或复发的癌症的受试者相关联或代表该受试者。用于产生参考概况的个体可以是年龄、性别和/或种族匹配的,或不匹配。如将理解的,癌症的类型通常会是匹配的,即,参考概况将基于从具有与使用本公开内容的方法评估的受试者的癌症类型相同的癌症类型的参考或对照受试者获得的数据来确定。
在特定实施方案中,参考概况使用计算模型产生并涵盖计算模型,诸如使用诸如机器学习技术的各种分析技术形成的模型。可以使用任何合适的统计分类或学习方法来形成计算模型,这些统计分类或学习方法试图基于数据中存在的客观参数将数据主体分成几类。分类方法可以是监督的或非监督的。监督和非监督的分类过程的实例描述在Jain,“Statistical Pattern Recognition:A Review”,IEEE Transactions on PatternAnalysis and Machine Intelligence,第22卷,第1期,2000年1月中,其教导通过引用并入。可用于产生分类模型的技术的非限制性实例包括深度学习技术,诸如深度玻尔兹曼机、深度信念网络、卷积神经网络、堆叠自动编码器;集成技术,诸如随机森林、梯度提升机、提升、自举聚合、AdaBoost、堆叠泛化、梯度提升回归树;神经网络技术,诸如径向基函数网络、感知器、反向传播、Hopfield网络;正则化方法,诸如岭回归、最小绝对收缩和选择算子、弹性网、最小角度回归;回归方法,诸如线性回归、普通最小二乘回归、多元回归、Probit回归、逐步回归、多元自适应回归样条、本地散点平滑估计、逻辑回归、支持向量机、泊松回归、负二项式回归、多项式逻辑回归;贝叶斯技术,诸如朴素贝叶斯、平均单依赖估计、高斯朴素贝叶斯、多项式朴素贝叶斯、贝叶斯信念网络、贝叶斯网络;决策树,诸如分类和回归树、迭代二叉树、C4.5、C5.0、卡方自动交互检测、决策树桩、条件决策树、M5;降维,诸如主成分分析、偏最小二乘回归、Sammon映射、多维标度(Multidimensional Scaling)、投影寻踪、主成分回归、偏最小二乘判别分析、混合判别分析、二次判别分析、正则化判别分析、灵活判别分析、线性判别分析、t分布随机邻域嵌入;基于实例的技术,诸如k最近邻域、学习向量量化、自组织映射、局部加权学习;聚类方法,诸如k均值、k模、k中位数、DBSCAN、期望最大化、层次聚类;先前提到的方法的改编、扩展和组合。
来自已知患有未进展或复发的癌症的个体的数据,和/或来自已知患有已进展或复发的癌症的个体的数据,可用于训练计算模型。这样的数据通常被称为训练数据集。在被训练后,计算模型可以识别使用未知样品产生的数据中的模式,例如用于产生样品概况的来自癌症患者的数据。然后可以将样品概况应用于计算模型,以将样品概况分类成几类,例如患有可能进展或复发或不太可能进展或复发的癌症。
在一些实施方案中,参考概况基于所评估的每个度量的预定范围区间或截止值来产生。例如,将参考分数归因于在预定范围区间之外或高于或低于预定截止值的每个度量,并且然后通过组合所有分数来计算总参考分数。然后使用该总参考分数来产生预定阈值分数,高于或低于该阈值分数代表特定的已知表型、疾病状态或发展疾病的风险,例如低于该阈值代表其癌症不太可能复发或进展的受试者,并且高于该阈值代表其癌症可能复发或进展的受试者。因此,阈值分数代表区分那些其癌症可能进展或复发的受试者和那些癌症不太可能进展或复发的受试者的分数,并且阈值分数可以由本领域技术人员基于使用对照受试者(例如,已知患有或曾经患有进展或复发的癌症的对照受试者,和/或已知患有或曾经患有未进展或复发的癌症的对照受试者)获得的值和分数容易地建立。每个度量的分数可以是相同的或者可以是不同的(例如,可以被“加权”使得在预定范围区间之外或者高于或低于截止值的一个度量可以被给予大于或小于另一个度量的分数)。在特定实例中,在预定范围区间之外或高于或低于截止值的每个度量被给予1的分数。
度量的预定范围区间或截止值可以通过评估两个或更多个已知患有或曾经患有进展或复发的癌症的受试者和/或两个或更多个已知患有或曾经患有未进展或复发的癌症的受试者中的度量来确定。然后计算度量的范围区间,以设置将被视为该度量的靶值的上限和下限。可以类似地计算度量的截止值,以设置将被视为该度量的靶值的上限或下限。在一些实例中,范围区间是通过测量度量的平均值加上或减去n个标准差来计算的,由此范围区间的下限是平均值减去n个标准差,并且范围区间的上限是平均值加上n个标准差。截止值可以类似地计算。在这样的实例中,n可以是1或大于或小于1,例如0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1、1.5、2、2.5等。在又另外的实例中,使用接收者操作特征(ROC)曲线来建立预定范围区间或截止值的上限和下限。用于确定预定范围区间或截止值的受试者可以是任何年龄、性别或背景,或者可以是特定年龄、性别、种族背景或其他亚群。因此,在一些实施方案中,可以对同一度量计算两个或更多个预定的正常范围区间或截止值,由此每个范围区间或截止值对于特定的亚群,例如特定的性别、年龄组、种族背景和/或其他亚群是特定的。可以使用本领域技术人员已知的任何技术来确定预定的范围区间或截止值,包括手动计算方法、算法、神经网络、支持向量机、深度学习、具有线性模型的逻辑回归、机器学习、人工智能和/或贝叶斯网络。
在一些实例中,参考概况和样品概况包括多于一个度量,多于一个度量包括选自表D中列出的度量和与表D中列出的度量相关的度量的5个或更多个度量。在特定实例中,概况包括多于一个度量,多于一个度量包括选自表D中列出的度量和与表D中列出的度量相关的度量的最少或约10个、15个、20个、35个、30个、40个、45个、50个、55个、60个、65个、70个、75个、80个、85个、90个、95个、100个或更多个度量。
在一些实例中,诸如在评估间皮瘤的进展或复发的情况下,概况包括多于一个度量,多于一个度量包括选自以下的最少或约2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个或所有度量:cds:3Gen2_C-C-C MC3%,g:A3Bj_RT-C-G C>T+G>A g%,cds:3Gen3_GG-C-非同义%,cds:A3Gb_-C-G G>A在MC2基序%,cds:A3B_T-C-W MC1%,cds:3Gen1_-C-GC MC2%,cds:A3Gb_-C-G G>A MC2命中,cds:A1_-C-AG>A在MC3 cds%,cds:3Gen3_AG-C-MC2%,cds:ADAR_W-A-非同义%,cds:A3Bj_RT-C-GTi%,g:3Gen2_T-C-G C>T+G>A g%,cds:AIDe_WR-C-GW命中,cds:3Gen2_A-C-G MC2非同义%,cds:A3Gi_SG-C-G非同义%,g:ADAR_W-A-A>G+T>C%,cds:2Gen1_-C-C G>T在MC1%,cds:A3Gi_SG-C-G MC2%,cds:A3Bf_ST-C-G Ti%,cds:ADAR_3Gen2_G-A-C非同义%,以及与其相关的度量。在评估间皮瘤的进展或复发的另外的实例中,概况包括多于一个度量,多于一个度量包括选自以下的最少或约2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个或所有度量:cds:A3Bf_ST-C-G Ti%;g:3Gen2_T-C-G C>T+G>A g%;cds:2Gen1_-C-C C>T在MC1%;cds:所有C Ti/Tv%;g:3Gen3_CA-C-C>T+G>A g%;cds:3Gen2_C-C-C MC3%;cds:A3Gn_YYC-C-S C>T%;cds:A3G_C-C-MC3%;cds:3Gen3_GG-C-非同义%;g:3Gen2_A-C-C C>A+G>T g%;cds:4Gen3_TT-C-C%;cds:3Gen2_C-C-T MC3%;g:2Gen1_-C-T C>G+G>C g%;cds:主要脱氨酶%;cds:A3Gb_-C-G G>A在MC2基序%;cds:4Gen3_CA-C-C%;cds:A3G_C-C-G>T%;cds:A3Gi_SG-C-G非同义%;g:C>G+G>C%;cds:其他MC3%;cds:A3B_T-C-W G>A基序%,以及与其相关的度量。
在一些实例中,诸如在评估肾上腺皮质癌的进展或复发的情况下,概况包括多于一个度量,多于一个度量包括选自以下的最少或约2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个或所有度量:g:A3F_T-C-命中,cds:3Gen1_-C-TG G非同义%,cds:3Gen2_C-C-T MC3%,cds:所有G总计,g:3Gen1_-C-TC C>T+G>A g%,cds:3Gen3_CT-C-MC3%,cds:所有G%,nc:A3G_C-C-C>T+G>A nc%,cds:A3B_T-C-WG>A基序%,cds:AIDc_WR-C-GS%,cds:3Gen1_-C-GT G>A基序%,cds:A3B_T-C-WMC3非同义%,cds:3Gen3_TG-C-G>A%,cds:ADAR_2Gen2_G-T-MC2%,cds:3Gen3_TG-C-G Ti/Tv%,cds:4Gen3_TT-C-C%,cds:2Gen1_-C-CC>A%,cds:A3G_C-C-C>T在MC1%,cds:AIDb_WR-C-GG非同义%,cds:A3G_C-C-MC3%,以及与其相关的度量。在评估肾上腺皮质癌的进展或复发的另外的实例中,概况包括多于一个度量,多于一个度量包括选自以下的最少或约2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、25个、30个、35个或所有度量:cds:所有G总计;cds:3Gen1_-C-TG G非同义%;g:A3F_T-C-命中;cds:3Gen3_GG-C-非同义%;cds:3Gen1_-C-GT G>A基序%;cds:A3Bj_RT-C-GTi%;cds:3Gen2_C-C-T MC3%;nc:A3G_C-C-C>T+G>A nc%;cds:AIDd_WR-C-Y%;cds:3Gen1_-C-TC C>T cds%;cds:A3B_T-C-W G>A基序%;g:CG总计;cds:A3G_C-C-MC3%;cds:AIDb_WR-C-G G非同义%;cds:A3G_C-C-C>T在MC1%;cds:3Gen3_TG-C-G>A%;g:3Gen3_GA-C-C>A+G>T g%;cds:3Gen2_A-C-G MC2非同义%;cds:3Gen3_CT-C-MC3%;cds:ADAR_2Gen2_G-T-MC2%;cds:ADAR_3Gen3_CA-A-Ti%;g:AIDh_WR-C-T C>A+G>T g%;cds:A3B_T-C-W MC3非同义%;cds:2Gen1_-C-C C>A%;cds:A1_-C-A G>A在MC3 cds%;cds:3Gen1_-C-CA Ti C:G%;cds:ADAR_W-A-非同义%;cds:3Gen1_-C-CA Ti%;cds:所有G%;g:3Gen2_T-C-G C>T+G>A g%;cds:A3Gb_-C-GMC1%;cds:A3B_T-C-W G非同义%;nc:2Gen2_A-C-C>T+G>A nc%;cds:A3Gi_SG-C-G非同义%;cds:其他G MC3 Ti/Tv%;cds:A3Gb_-C-G G>A在MC2基序%;cds:A3B_T-C-W Ti%;和g:2Gen1_-C-T%,以及与其相关的度量。
在其他实例中,诸如在评估脑瘤(例如低级别胶质瘤)的进展或复发的情况下,概况包括多于一个度量,多于一个度量包括选自以下的最少或约2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个或所有度量:cds:AIDc_WR-C-GS MC3%,cds:A3B_T-C-W G非同义%,cds:AIDd_WR-C-Y%,g:AIDc_WR-C-GS命中,cds:3Gen2_A-C-C非同义%,g:3Gen3_GA-C-C>A+G>T g%,cds:2Gen2_G-C-命中,cds:4Gen3_TA-C-C非同义%,nc:2Gen2_A-C-C>T+G>A nc%,cds:其他MC3 C%,cds:3Gen2_T-C-GTi/Tv%,g:3Gen2_A-C-C C>A+G>T g%,g:3Gen3_CA-C-C>T+G>A g%,cds:3Gen2_T-C-CMC1%,g:ADAR_2Gen1_-T-T A>T+T>A%,g:ADAR_2Gen2_G-T-A>T+T>A%,g:2Gen1_-C-T%,cds:ADAR_3Gen1_-A-CA%,cds:ADAR_2Gen2_T-T-%,以及与其相关的度量。在评估脑瘤(例如低级别胶质瘤)的进展或复发的其他实例中,概况包括多于一个度量,多于一个度量包括选自以下的最少或约2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、30个、40个、50个、60个、70个、80个或所有度量:g:CG总计;cds:AIDd_WR-C-Y%;在VCF中的变体;cds:4Gen3_TA-C-C非同义%;cds:3Gen2_C-C-TMC3%;cds:AIDd_WR-C-Y G>C%;cds:A3Gb_-C-G MC1%;g:3Gen2_T-C-G C>T+G>A g%;cds:A3B_T-C-W G非同义%;g:3Gen3_GA-C-C>A+G>T g%;cds:2Gen2_G-C-命中;cds:AIDc_WR-C-GS MC3%;cds:所有G总计;cds:所有A非同义%;cds:ADAR_2Gen2_T-T-%;cds:3Gen2_A-C-C非同义%;g:3Gen3_CA-C-C>T+G>A g%;g:ADARk_CW-A-A>G+T>C g%;nc:ADARb_W-A-Y A>G+T>C nc%;g:2Gen1_-C-T%;cds:其他MC3 C%;g:2Gen1_-C-T C>G+G>Cg%;cds:ADAR_W-A-非同义%;g:3Gen2_A-C-CC>A+G>T g%;g:ADAR_2Gen2_G-T-A>T+T>A%;cds:A3G_C-C-C>T在MC1%;cds:3Gen1_-C-GC MC2%;cds:3Gen2_G-C-T%;cds:A3F_T-C-G>C%;g:4Gen3_GG-C-G C>T+G>A g%;cds:A3Gb_-C-G G>A在MC2基序%;cds:ADARb_W-A-Y MC2%;cds:所有G%;g:A3F_T-C-命中;cds:3Gen2_T-C-C MC1%;cds:A3B_T-C-WTi%;cds:ADAR_3Gen1_-A-AT Ti%;cds:ADARh_W-A-S T>C%;cds:A3Gn_YYC-C-S C>T%;cds:A3Ge_SC-C-GS%;cds:2Gen2_A-C-MC3%;cds:ADAR_2Gen2_G-T-MC2%;cds:ADAR_3Gen3_CA-A-Ti%;cds:主要脱氨酶%;g:C>G+G>C%;cds:A3Bf_ST-C-G Ti%;cds:3Gen3_CT-C-MC3%;cds:A3Gi_SG-C-G非同义%;cds:其他MC3%;cds:ADAR_3Gen1_-A-CA%;cds:A3F_T-C-C>A%;cds:2Gen1_-C-C C>T在MC1%;cds:A3Gc_C-C-GW C>T基序%;cds:AIDc_WR-C-GS%;g:ADAR_2Gen1_-T-T A>T+T>A%;cds:A3B_T-C-W MC1%;cds:ADAR_3Gen2_G-A-C非同义%;cds:2Gen1_-C-C C>A%;cds:3Gen1_-C-GT G>A基序%;cds:A3Bj_RT-C-GTi%;g:3Gen1_-C-TC C>T+G>A g%;g:C>A+G>T%;cds:3Gen2_A-C-CMC2%;cds:2Gen1_-C-CMC2%;g:3Gen2_G-C-T%;g:A3Bj_RT-C-G C>T+G>A g%;g:ADAR_W-A-A>G+T>C%;cds:3Gen3_AT-C-C:G%;cds:3Gen1_-C-TG G非同义%;cds:其他G MC3 Ti/Tv%;cds:A3Gb_-C-GG>A MC2命中;cds:3Gen1_-C-TC C>T cds%;cds:2Gen1_-C-T MC3非同义%;cds:AIDb_WR-C-G G非同义%;g:AIDc_WR-C-GS命中;cds:3Gen2_T-C-C MC3%;cds:3Gen2_T-C-G Ti/Tv%;cds:A1_-C-A G>A在MC3 cds%;nc:A3G_C-C-C>T+G>A nc%;nc:2Gen2_A-C-C>T+G>Anc%;cds:3Gen3_TG-C-G Ti/Tv%;cds:3Gen1_-C-CA Ti%;cds:3Gen3_TG-C-G>A%;cds:3Gen3_CT-C-G非同义%;cds:所有CTi/Tv%;cds:A3G_C-C-MC3%;cds:ADARc_SW-A-YMC2%;和cds:3Gen3_GG-C-非同义%,以及与其相关的度量。
在另外的实例中,诸如在评估肉瘤的进展或复发的情况下,概况包括多于一个度量,多于一个度量包括选自以下的最少或约2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个或所有度量:nc:ADARb_W-A-Y A>G+T>Cnc%,g:ADARk_CW-A-A>G+T>C g%,cds:ADAR_3Gen3_CA-A-Ti%,cds:A3G_C-C-G>T%,cds:4Gen3_TT-C-T%,cds:ADARc_SW-A-Y T>Ccds%,nc:ADARc_SW-A-Y A>G+T>C nc%,cds:A3F_T-C-G>C%,g:C>A+G>T%,cds:2Gen1_-C-T MC3非同义%,nc:ADARb_W-A-Y%,cds:AIDd_WR-C-Y C>A cds%,cds:主要脱氨酶%,cds:4Gen3_CA-C-CMC1%,g:C>G+G>C%,g:2Gen1_-C-T C>G+G>C g%,g:AIDh_WR-C-TC>A+G>T g%,cds:A3Ge_SC-C-GS%,cds:ADAR_3Gen3_CT-A-A>G基序%,cds:ADARf_SW-A-MC2%,以及与其相关的度量。在评估肉瘤的进展或复发的另外的实例中,概况包括多于一个度量,多于一个度量包括选自以下的最少或约2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、25个、30个或所有度量:cds:其他MC3 C%;nc:ADARb_W-A-Y A>G+T>C nc%;cds:4Gen3_TT-C-T%;g:ADARk_CW-A-A>G+T>C g%;g:ADARn_-A-WA A>G+T>C%;cds:A3G_C-C-G>T%;cds:A3Gb_-C-GMC1%;nc:ADARb_W-A-Y%;cds:A3Ge_SC-C-GS%;cds:主要脱氨酶%;cds:ADAR_2Gen2_G-T-MC2%;g:4Gen3_GG-C-G C>T+G>A g%;cds:2Gen1_-C-CMC2%;cds:3Gen1_-C-GT G>A基序%;cds:A3Gn_YYC-C-S C>T%;cds:2Gen1_-C-C C>T在MC1%;cds:A3B_T-C-W MC3非同义%;cds:AIDd_WR-C-Y%;g:3Gen3_CA-C-C>T+G>A g%;cds:所有A非同义%;g:2Gen1_-C-T C>G+G>C g%;cds:ADARb_W-A-Y MC2%;cds:所有G%;g:A3Bj_RT-C-G C>T+G>Ag%;cds:A3Gn_YYC-C-S C>T在MC3 cds%;cds:A3B_T-C-W G非同义%;cds:A3G_C-C-MC3%;cds:所有G总计;cds:CDS变体;g:CG总计;g:3Gen2_T-C-G C>T+G>A g%;cds:A3B_T-C-W MC1%;cds:ADAR_3Gen3_CA-A-Ti%;cds:AIDc_WR-C-GS%,以及与其相关的度量。
在其它实例中,诸如在评估肺癌(例如肺鳞状细胞癌)的进展或复发的情况下,概况包括多于一个度量,多于一个度量包括选自以下的最少或约2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个或所有度量:cds:ADARp_-A-WT A>G在MC2 cds%,cds:3Gen1_-C-TC C>T cds%,cds:AIDd_WR-C-YG>C%,cds:ADAR_3Gen3_AC-A-A>G cds%,cds:3Gen1_-C-CT C>T在MC2 cds%,cds:A3Go_TC-C-GMC1非同义%,cds:3Gen2_G-C-T C>A基序%,nc:2Gen1_-C-T C>A+G>T nc%,cds:ADAR_2Gen2_A-T-A>C在MC1基序%,cds:4Gen3_CA-C-C%,cds:A3Gn_YYC-C-S C>T在MC3 cds%,cds:3Gen1_-C-AG G Ti/Tv%,cds:ADARh_W-A-S T>C%,cds:3Gen1_-C-CC C>T在MC1基序%,cds:2Gen1_-C-C C>T在MC1%,g:ADAR_4Gen3_AG-A-G A>C+T>G%,cds:4Gen3_CT-C-CC>T在MC1%,cds:ADAR_3Gen1_-A-CC A>G cds%,cds:A3Gn_YYC-C-S C>T%,cds:ADAR_W-A-T>C在MC2%,以及与其相关的度量。在评估肺癌(例如,肺鳞状细胞癌)的进展或复发的另外的实例中,概况包括多于一个度量,多于一个度量包括选自以下的最少或约2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、30个、40个、50个、60个、70个、80个、90个或所有度量:cds:3Gen1_-C-CC C>T在MC1基序%;cds:3Gen1_-C-CT C>T在MC2 cds%;cds:ADARp_-A-WT A>G在MC2 cds%;cds:其他MC3 C%;cds:其他MC3%;cds:A3Gb_-C-G MC1%;g:3Gen1_-C-TC C>T+G>A g%;cds:ADAR_W-A-A>G在MC3%;cds:ADAR_W-A-非同义%;cds:ADAR_3Gen3_AC-A-A>G cds%;cds:2Gen1_-C-C C>A%;cds:ADARf_SW-A-MC2%;g:ADAR_2Gen2_G-T-A>T+T>A%;cds:4Gen3_GC-C-A%;cds:A3Go_TC-C-G MC1非同义%;g:3Gen2_G-C-T%;cds:A3G_C-C-C>T在MC1%;cds:AIDc_WR-C-GS MC3%;cds:3Gen1_-C-GT G>A基序%;nc:2Gen1_-C-T C>A+G>T nc%;cds:ADARc_SW-A-Y MC2%;cds:ADARh_W-A-S T>C%;cds:2Gen1_-C-CC>T在MC1%;g:ADAR_2Gen1_-T-T A>T+T>A%;cds:AIDd_WR-C-YC>A cds%;nc:A3G_C-C-C>T+G>A nc%;cds:A3Gc_C-C-GW C>T基序%;cds:ADAR_3Gen1_-A-AT Ti%;cds:3Gen3_CT-C-MC3%;cds:4Gen3_CT-C-C C>T在MC1%;cds:3Gen2_T-C-C MC1%;cds:A3G_C-C-G>T%;cds:3Gen1_-C-CA Ti%;cds:3Gen1_-C-TG G非同义%;cds:3Gen2_A-C-C非同义%;g:2Gen1_-C-T C>G+G>C g%;cds:所有A非同义%;cds:A3Gi_SG-C-G MC2%;cds:主要脱氨酶%;cds:4Gen3_TT-C-T%;g:A3Bj_RT-C-G C>T+G>A g%;cds:3Gen2_T-C-CMC3%;cds:4Gen3_TT-C-C%;cds:3Gen1_-C-CA Ti C:G%;cds:A1_-C-AG>A在MC3 cds%;cds:A3Gb_-C-G G>A在MC2基序%;cds:3Gen3_CT-C-G非同义%;cds:3Gen2_G-C-T C:G%;cds:A3Ge_SC-C-GS%;cds:3Gen3_TG-C-G>A%;g:C>A+G>T%;cds:4Gen3_CA-C-C%;cds:AIDd_WR-C-Y G>C%;cds:所有G%;cds:3Gen3_TT-C-C>A在MC1基序%;g:AIDh_WR-C-T C>A+G>T g%;g:4Gen3_GG-C-G C>T+G>Ag%;cds:3Gen2_G-C-T C>A基序%;nc:ADARc_SW-A-Y A>G+T>C nc%;g:3Gen2_A-C-C C>A+G>T g%;cds:A3B_T-C-W Ti%;g:3Gen3_GA-C-C>A+G>T g%;cds:3Gen3_CT-C-C>T在MC1基序%;cds:ADAR_3Gen1_-A-CC A>G cds%;cds:3Gen1_-C-TC C>T cds%;cds:4Gen3_CA-C-C MC1%;cds:3Gen2_G-C-T%;nc:2Gen2_A-C-C>T+G>A nc%;cds:3Gen2_A-C-C MC2%;cds:A3F_T-C-C>A%;cds:CDS变体;cds:ADAR_3Gen3_CA-A-Ti%;cds:3Gen3_GG-C-非同义%;cds:ADARb_W-A-Y MC2%;g:ADAR_W-A-A>G+T>C%;cds:3Gen3_AT-C-C:G%;cds:2Gen1_-C-C G>T在MC1%;cds:A3G_C-C-MC3%;cds:3Gen2_C-C-C MC3%;cds:A3B_T-C-W G>A基序%;cds:A3F_T-C-G>C%;cds:ADAR_2Gen2_G-T-MC2%;cds:3Gen1_-C-AG G Ti/Tv%;cds:A3Bj_RT-C-G Ti%;nc:ADARb_W-A-Y A>G+T>C nc%;cds:ADAR_2Gen2_T-T-%;g:2Gen1_-C-T%;cds:4Gen3_AC-C-T Ti/Tv%;cds:A3Gi_SG-C-G非同义%;cds:A3Bf_ST-C-G Ti%;g:ADARk_CW-A-A>G+T>C g%;cds:3Gen1_-C-GC MC2%;g:3Gen3_CA-C-C>T+G>Ag%;cds:2Gen2_A-C-MC3%;在VCF中的变体;cds:4Gen3_AG-C-T MC1非同义%;g:3Gen2_T-C-G C>T+G>A g%;cds:A3Gn_YYC-C-S C>T在MC3 cds%;cds:ADAR_3Gen1_-A-CA%;cds:4Gen3_TA-C-C非同义%;cds:所有C Ti/Tv%;cds:ADARc_SW-A-Y,以及与其相关的度量。
在其它实例中,诸如在评估皮肤癌(例如黑素瘤)的进展或复发的情况下,概况包括多于一个度量,多于一个度量包括选自以下的最少或约2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个或所有度量:cds:4Gen3_AG-C-TMC1非同义%,cds:所有A非同义%,cds:3Gen1_-C-CG G>A在MC3%,cds:3Gen3_TT-C-C>A在MC1基序%,cds:A3Gc_C-C-GW C>T基序%,cds:ADAR_W-A-A>G在MC3%,cds:ADARp_-A-WT T>A基序%,cds:3Gen3_CT-C-G非同义%,cds:3Gen2_T-C-T G>A在MC2%,cds:ADAR_3Gen1_-A-AT Ti%,cds:所有C Ti/Tv%,cds:3Gen1_-C-TC C>T在MC3%,cds:4Gen3_AG-C-T G>A在MC1基序%,cds:3Gen1_-C-CA Ti C:G%,cds:3Gen3_AT-C-G>A在MC2%,cds:4Gen3_TG-C-T Ti C:G%,cds:ADAR_3Gen2_C-A-C T>G在MC3 cds%,cds:4Gen3_GC-C-C C>T在MC2%,cds:4Gen3_AC-C-T Ti/Tv%,cds:AIDh_WR-C-T G>A在MC2cds%,以及与其相关的度量。在评估皮肤癌(例如黑素瘤)的进展或复发的另外的实例中,概况包括多于一个度量,多于一个度量包括选自以下的最少或约2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、30个、40个、50个、60个、70个、80个、90个或所有度量:cds:4Gen3_AG-C-TMC1非同义%;cds:3Gen1_-C-CG G>A在MC3%;cds:4Gen3_AC-C-TTi/Tv%;g:C>G+G>C%;cds:A3B_T-C-W MC3非同义%;cds:所有A非同义%;cds:3Gen3_AG-C-MC2%;cds:A3B_T-C-W MC1%;cds:ADAR_3Gen2_C-A-C T>G在MC3 cds%;cds:3Gen1_-C-TC C>T在MC3%;cds:4Gen3_GC-C-C C>T在MC2%;cds:所有C Ti/Tv%;cds:A3Bj_RT-C-G Ti%;cds:AIDh_WR-C-T G>A在MC2 cds%;cds:4Gen3_TT-C-C%;cds:3Gen1_-C-CC C>T在MC1基序%;cds:ADAR_2Gen2_T-T-%;cds:3Gen2_T-C-C MC1%;cds:所有G%;cds:ADAR_W-A-A>G在MC3%;cds:A3G_C-C-MC3%;cds:其他MC3C%;g:3Gen2_A-C-CC>A+G>T g%;cds:ADARc_SW-A-Y MC2%;cds:3Gen1_-C-CA Ti C:G%;cds:3Gen1_-C-TC C>T cds%;cds:3Gen2_C-C-C MC3%;cds:3Gen3_CT-C-C>T在MC1基序%;g:ADAR_4Gen3_AG-A-G A>C+T>G%;cds:3Gen3_CT-C-G非同义%;cds:3Gen2_A-C-C非同义%;cds:2Gen2_A-C-MC3%;cds:3Gen2_A-C-CMC2%;g:3Gen1_-C-TC C>T+G>A g%;cds:3Gen2_T-C-T G>A在MC2%;cds:2Gen1_-C-C C>T在MC1%;cds:AIDb_WR-C-G G非同义%;cds:A3Gb_-C-GMC1%;cds:2Gen1_-C-C C>A%;cds:A3Ge_SC-C-GS%;g:ADARn_-A-WA A>G+T>C%;g:ADAR_W-A-A>G+T>C%;g:ADAR_2Gen2_G-T-A>T+T>A%;g:AIDh_WR-C-T C>A+G>T g%;cds:4Gen3_TG-C-T Ti C:G%;cds:3Gen2_G-C-T C:G%;cds:3Gen2_T-C-CMC3%;nc:ADARb_W-A-Y%;cds:ADAR_3Gen2_G-A-C非同义%;cds:ADAR_3Gen1_-A-AT Ti%;g:ADARk_CW-A-A>G+T>Cg%;cds:3Gen1_-C-GC MC2%;cds:4Gen3_TA-C-C非同义%;g:3Gen3_CA-C-C>T+G>A g%;cds:3Gen1_-C-AG G Ti/Tv%;cds:AIDc_WR-C-GS%;cds:A3Gn_YYC-C-S C>T在MC3 cds%;cds:2Gen1_-C-C MC2%;cds:3Gen3_GG-C-非同义%;g:2Gen1_-C-T C>G+G>C g%;cds:A1_-C-AG>A在MC3 cds%;cds:A3G_C-C-C>T在MC1%;nc:ADARc_SW-A-YA>G+T>C nc%;cds:ADAR_W-A-T>C在MC2%;cds:A3Go_TC-C-GMC1非同义%;cds:3Gen3_AT-C-C:G%;cds:ADARh_W-A-S T>C%;cds:A3G_C-C-G>T%;cds:ADARf_SW-A-MC2%;cds:ADAR_W-A-非同义%;cds:ADARp_-A-WT T>A基序%;cds:4Gen3_AG-C-T G>A在MC1基序%;cds:ADAR_3Gen1_-A-CA%;cds:3Gen2_C-C-T MC3%;cds:3Gen1_-C-CT C>T在MC2 cds%;cds:A3B_T-C-W Ti%;g:2Gen1_-C-T%;cds:AIDc_WR-C-GS MC3%;cds:AIDe_WR-C-GW命中;cds:AIDd_WR-C-Y C>A cds%;cds:ADARb_W-A-Y MC2%;cds:A3Gc_C-C-GW C>T基序%;cds:2Gen1_-C-C G>T在MC1%;cds:3Gen1_-C-CA Ti%;cds:其他G MC3 Ti/Tv%;cds:CDS变体;cds:ADAR_3Gen1_-A-CC A>G cds%;cds:A3Gn_YYC-C-S C>T%;cds:A3Bf_ST-C-G Ti%;cds:2Gen2_G-C-命中;cds:AIDd_WR-C-Y%;cds:A3F_T-C-G>C%;cds:4Gen3_CT-C-C C>T在MC1%;cds:AIDd_WR-C-Y G>C%;cds:A3Gi_SG-C-G MC2%;cds:其他MC3%;nc:2Gen1_-C-TC>A+G>T nc%;cds:3Gen2_G-C-T%;g:3Gen2_T-C-GC>T+G>A g%;cds:ADARc_SW-A-Y T>Ccds%,以及与其相关的度量。
本发明的方法还延伸到治疗或预防方案。在确定癌症不太可能进展或复发的情况下,可以修改治疗方案以降低治疗强度,或者将受试者完全从治疗方案中移除。在确定癌症可能进展或复发的情况下,可以设计被设计为降低这种可能性的方案并将其应用于受试者。例如,可以为受试者设计适当的治疗方案并施用。这可以包括例如放射疗法、手术、化学疗法、激素消融疗法、促凋亡疗法和/或免疫疗法。在一些实例中,可以在疗法前进行进一步的诊断测试以证实诊断。
放射疗法包括引起DNA损伤的辐射和波,例如γ辐照、X射线、UV辐照、微波、电子发射、放射性同位素等。可以通过用以上描述的辐射形式辐照局部肿瘤部位来实现疗法。最可能的是,所有这些因素对DNA、DNA的前体、DNA的复制和修复以及染色体的装配和维持造成宽范围的损伤。
X-射线的剂量范围从50至200伦琴的每日剂量持续延长的时间段(3至4周)到2000至6000伦琴的单剂量。放射性同位素的剂量范围变化宽泛,并且取决于同位素的半衰期、发出的辐射的强度和类型以及其被赘生物细胞(neoplastic cell)的摄取。
放射疗法的非限制性实例包括单次或分次的适形体外照射放射疗法(conformalexternal beam radiotherapy)(50-100戈瑞(Grey),在4-8周分次给出)、高剂量率近距离治疗(high dose rate brachytherapy)、永久性间质近距离治疗(permanentinterstitial brachytherapy)、系统性放射性同位素(例如锶89)。在一些实施方案中,放射疗法可以与辐射敏化剂(radiosensitizing agent)组合施用。辐射敏化剂的说明性实例包括但不限于乙丙昔罗(efaproxiral)、依他硝唑(etanidazole)、氟路索(fluosol)、米索硝唑(misonidazole)、尼莫拉唑(nimorazole)、替莫泊芬(temoporfin)和替拉扎明(tirapazamine)。
化学治疗剂可以选自以下类别中的任何一个或更多个:
(i)在医学肿瘤学中使用的抗增殖/抗赘生物(antineoplastic)药物及其组合,诸如烷化剂(例如顺铂、卡铂、环磷酰胺、氮芥(nitrogen mustard)、美法仑(melphalan)、苯丁酸氮芥(chlorambucil)、白消安(busulphan)和亚硝基脲类)、抗代谢物类(例如抗叶酸剂诸如氟吡啶类,如5-氟尿嘧啶和替加氟(tegafur)、雷替曲塞(raltitrexed)、甲氨蝶呤、阿糖胞苷和羟基脲)、抗肿瘤抗生素类(例如蒽环类,如阿霉素、博来霉素、多柔比星(doxorubicin)、道诺霉素(daunomycin)、表柔比星(epirubicin)、伊达比星(idarubicin)、丝裂霉素-C、更生霉素(dactinomycin)和光神霉素(mithramycin))、抗有丝分裂剂(例如长春花生物碱类,如长春花新碱(vincristine)、长春花碱(vinblastine)、长春地辛(vindesine)和长春瑞滨(vinorelbine)和紫衫烷类,如太平洋紫杉醇和多西他赛)以及拓扑异构酶抑制剂(例如表鬼臼毒素类如依托泊苷和替尼泊苷、安吖啶(amsacrine)、拓扑替康和喜树碱);
(ii)细胞抑制剂诸如抗雌激素(antiestrogen)(例如他莫昔芬(tamoxifen)、托瑞米芬(toremifene)、雷洛昔芬(raloxifene)、屈洛昔芬(droloxifene)和艾多昔芬(idoxifene))、雌激素受体下调物(例如氟维司群(fulvestrant))、抗雄激素(antiandrogen)(例如比卡鲁胺(bicalutamide)、氟他胺(flutamide)、尼鲁米特(nilutamide)和环丙孕酮乙酸酯(cyproterone acetate))、UH拮抗剂或LHRH激动剂(例如戈舍瑞林(goserelin)、亮丙瑞林(leuprorelin)和布舍瑞林(buserelin))、孕激素类(例如甲地孕酮乙酸酯(megestrol acetate))、芳香酶抑制剂(例如阿那曲唑(anastrozole)、来曲唑(letrozole)、伏氯唑(vorozole)和依西美坦(exemestane))和5α-还原酶的抑制剂诸如非那雄胺(finasteride);
(iii)抑制癌细胞侵袭的剂(例如金属蛋白酶抑制剂,如马立马司他(marimastat),和尿激酶纤溶酶原激活剂受体功能的抑制剂);
(iv)生长因子功能的抑制剂,例如此类抑制剂包括生长因子抗体、生长因子受体抗体(例如抗-erbb2抗体曲妥珠单抗(trastuzumab)[HerceptinTM]和抗-erbb1抗体西妥昔单抗(cetuximab)[C225])、法尼基转移酶抑制剂、MEK抑制剂、酪氨酸激酶抑制剂和丝氨酸/苏氨酸激酶抑制剂,例如表皮生长因子家族的其他抑制剂(例如其他EGFR家族酪氨酸激酶抑制剂,诸如N-(3-氯-4-氟苯基)-7-甲氧基-6-(3-吗啉代丙氧基)喹唑啉-4-胺(吉非替尼,AZD1839)、N-(3-乙炔基苯基)-6,7-双(2-甲氧基乙氧基)喹唑啉-4-胺(厄洛替尼,OSI-774)和6-丙烯酰胺基-N-(3-氯-4-氟苯基)-7-(3-吗啉代丙氧基)喹唑啉-4-胺(CI 1033)),例如血小板衍生的生长因子家族的抑制剂和例如肝细胞生长因子家族的抑制剂;
(v)抗血管生成剂,诸如抑制血管内皮生长因子的作用的那些(例如抗血管内皮细胞生长因子抗体贝伐单抗[AVASTINTM]、化合物诸如国际专利申请WO 97/22596、WO 97/30035、WO 97/32856和WO 98/13354中公开的那些)和以其它机制起作用的化合物(例如利诺胺(linomide)、整联蛋白αvβ3功能抑制剂和血管抑制素抑制剂);
(vi)血管损伤剂诸如考布他汀A4(Combretastatin A4)和国际专利申请WO 99/02166、WO 00/40529、WO 00/41669、WO 01/92224、WO 02/04434和WO 02/08213中公开的化合物;
(vii)反义疗法,例如针对上文列出的靶的那些,诸如抗-ras反义物(anti-rasantisense)ISIS 2503;和
(viii)基因疗法方法,包括例如替代异常基因诸如异常p53或异常GDEPT(基因指导的酶前药疗法,gene-directed enzyme pro-drug therapy)的方法,诸如使用胞嘧啶脱氨酶、胸苷激酶或细菌硝基还原酶的那些的方法和增加患者对化学疗法或放射疗法的耐受性的方法诸如多药耐药性基因疗法。
免疫疗法方法包括例如提高患者肿瘤细胞的免疫原性的离体和体内方法,诸如用细胞因子如白细胞介素2、白细胞介素4或粒细胞-巨噬细胞集落刺激因子转染、降低T细胞无反应性的方法、使用转染的免疫细胞诸如细胞因子转染的树突状细胞的方法、使用细胞因子转染的肿瘤细胞系的方法和使用抗独特型抗体(anti-idiotypic antibody)的方法。这些方法一般依赖于使用免疫效应细胞和分子来靶向和破坏癌细胞。免疫效应物可以是例如对恶性细胞表面上的一些标志物特异性的抗体。单独的抗体可以充当疗法的效应物,或者它可以招募其他细胞来真正促进细胞杀伤。抗体还可以与药物或毒素(化疗剂、放射性核素、蓖麻毒蛋白A链、霍乱毒素、百日咳毒素等)缀合而仅充当靶向剂。可选地,效应物可以是携带表面分子的淋巴细胞,该表面分子直接或间接地与恶性细胞靶相互作用。各种效应细胞包括细胞毒性T细胞和NK细胞。
其他癌症疗法的实例包括光疗、冷冻疗法、毒素疗法或促细胞凋亡疗法。本领域技术人员将知道,该列表并未穷举可用于癌症和其它增生性损伤的治疗方式的类型。
在一些情况下,当度量指示脱氨酶的活性时,疗法或预防措施可以包括向受试者施用该脱氨酶的抑制剂。抑制剂可以包括例如siRNA、miRNA、蛋白质拮抗剂(例如,诱变剂的显性阴性突变体)、小分子抑制剂、抗体及其片段。例如,商购可得的siRNA和对APOBEC胞苷脱氨酶和AID特异的抗体是广泛可得的,并且是本领域技术人员已知的。APOBEC3G抑制剂的其他实例包括Li等人(ACS.Chem.Biol,.(2012)7(3):506-517)描述的小分子,其中许多包含儿茶酚部分,已知儿茶酚部分在氧化成邻醌后具有巯基反应性。APOBEC1抑制剂还包括但不限于显性阴性突变体APOBEC1多肽,诸如mu1(H61K/C93S/C96S)突变体(Oka等人,(1997)J.Biol.Chem.272:1456-1460)。
通常,治疗剂将连同药学上可接受的运载体以药物组合物及以实现其预期目的的有效量来施用。施用于受试者的活性化合物的剂量应足以在受试者中随时间获得有益响应,诸如癌症症状的减少或缓解,和/或肿瘤或癌细胞的减少、消退或消除。待被施用的药学活性化合物的量可以取决于待治疗的受试者,包括其年龄、性别、体重及一般健康状况。在这方面,用于施用的活性化合物的精确量将取决于从业者的判断,并且本领域技术人员可以容易地确定治疗剂的合适剂量和合适的治疗方案,而无需过度的实验。
本发明可以出于预测受试者中癌症或肿瘤的进展或复发的目的在预测医学领域中实践。
在本说明书中对任何之前的出版物(或来源于其的信息)或对任何已知的物质的引用不是并且不应当被视为确认或承认或以任何形式暗示该之前的出版物(或来源于其的信息)或已知的物质形成本说明书涉及的领域中的公知常识的一部分。
为了可以容易地理解并实践本发明,现在将通过以下非限制性实施例的方式来描述特定的优选实施方案。
实施例
实施例1
患者数据分析
A.患者数据
癌症基因组图谱(The Cancer Genome Atlas)(TCGA)是美国国家癌症研究所(NCI)和美国国家人类基因组研究所(NHGRI)的合作成果。TCGA的目标是在一个大的患者队列中对不同的癌症类型进行全面的表征,以加深我们对癌症病因学的理解。这一合作导致了越来越多的里程碑式的科学发现(例如https://cancergenome.nih.gov/publications),并且这一非凡资源的进一步分析正在进行中。一个突出的TCGA倡议是由多中心突变判定多种癌症(Multi-Center Mutation-Calling in Multiple Cancers,MC3)网络进行的“泛癌症图谱(PanCancer Atlas)”项目。泛癌症图谱是对TCGA数据集中癌症最常见的形式中的33种形式的10,437个肿瘤的再分析。
TCGA泛癌症图谱基因组数据由NIH基因组数据共享(NIH Genomic Data Commons)(https://gdc.cancer.gov/access-data/data-access-processes-and-tools)存储和维护,并通过癌症基因组学(Cancer Genomics)的cBioPortal(https://www.cbioportal.org/)进行访问和可视化(Cerami等人,2012;Gao等人,2013)。按照Bailey等人(2018)的描述招募患者并处理生物样本。泛癌症图谱中包括的癌症类型包括例如肾上腺皮质癌(ADCC)、脑低级别胶质瘤(BLGG)、肺鳞状细胞癌(LUSC)、间皮瘤(MESO)、胰腺腺癌(PAAD)、肉瘤(SARC)和皮肤黑素瘤(Skin Cutaneous Melanoma,SKCM)。获得了TCGA泛癌症图谱中所有患者的基因组数据。
分析了TCGA泛癌症图谱队列中记录了无进展生存期(PFS)的患者;那些没有已知PFS的患者被排除在分析之外。对于每种癌症类型,患者被分类为“PFS_低”:在预定的癌症类型特异性截止值之前进展的患者;和“PFS_高”:在截止值前没有进展的患者。对于每种癌症类型,然后使用至少一个计算模型对各组进行比较。
如下讨论地确定度量,并且使用~75%的患者IIF概况训练使用各种度量的计算模型,使用~10%的概况调整超参数,并对~15%的概况(分析前隔离)进行“盲”预测。报告了对从训练或调整模型中排除的患者进行预测的总体准确性、灵敏度和特异性。获得了对计算模型有贡献的IIF度量,对其进行可视化、比较和验证。保留了一致的度量,并用于评价“盲”患者预测。
在这些实例中,模型是弱预测模型(决策树)的集成(ensemble),使用随机梯度下降用于优化。在这些实例中使用了“XGBoost”算法(Chen,T.,&Guestrin,C.(2016).Xgboost:scalable tree boosting system.In Proceedings of the 22nd acm sigkddinternational conference on knowledge discovery and data mining(pp.785-794).ACM)。
采用“MLR”软件包(Bischl B,Lang M,Kotthoff L,Schiffner J,Richter J,Studerus E,Casalicchio G,Jones Z(2016).“mlr:Machine Learning in R.”Journal ofMachine Learning Research,17(170),1-5.http://jmlr.org/papers/v17/15-066.html)使用标准方法优化用于训练XGBoost模型的参数。
B.确定度量
分析来自患者的全基因组序列以鉴定单核苷酸变体(SNV)。简而言之,使用hg37基因组坐标作为参考,将序列格式化为.vcf文件。
对.vcf文件中的每个变体进行分析,并且如果其是简单的单核苷酸取代而不是插入或缺失,则选择用于进一步考虑。然后在评估基序和/或密码子上下文中的SNV的情况下进行以下步骤:
a)确定突变密码子(MC)结构内的密码子上下文,即确定SNV在编码三联体内的位置,其中第一位置(从5'到3'读取)称为MC1(或MC-1位点),第二位置称为MC2(或MC-2位点),并且第三位置称为MC3(或MC-3位点);
b)从周围的基因组序列中提取九碱基窗口,从而获得三个完整密码子的序列。基因的方向用于确定5'和3'方向,并用于确定九个碱基的正确链。九碱基窗口总是根据基因的方向报告,使得基因组反向链上基因中变体周围窗口中的碱基相对于基因组是反向互补的,但相对于基因是正向的。按照惯例,这个上下文总是在基因的同一条链中报告。正链基因将具有来自参考基因组正链的密码子上下文碱基,并且负链基因将具有来自参考基因组负链的密码子上下文碱基;和/或
c)使用诸如表B和表C中描述的基序进行基序搜索,以确定变异是否在这样的基序内。
C.度量定义
1.区域
为了能够进行分析,将所有SNV分类为编码(cds)或非编码(nc),其中cds SNV是编码任何已知蛋白质同种型中的氨基酸的核酸内的那些,并且nc SNV存在于基因组的任何其他不编码蛋白质的区域中。这可以是5'或3'UTR、内含子区、基因间区、非编码RNA区或任何其他非编码区。“基因组区域(g)”包括所有SNV,即编码和非编码SNV。
2.基序度量
所有基序成对(正向基序和等同的反向互补基序)分析。搜索反向互补基序等同于搜索反向互补DNA链上的正向基序。由于脱氨作用只出现在C或A核苷酸上,惯例将C和A变体基序定义为正向基序,并且将G和T变体基序定义为反向互补基序。
利用了两种命名方案。与特定脱氨酶相关联的基序被相应地标记。已知作为普遍存在的脱氨酶(即发现在所有或大多数组织类型中表达)的主要脱氨酶是AID、ADAR、APOBEC3G(缩写为A3G)和APOBEC3B(缩写为A3B)。
四个主要脱氨酶基序如下:
AID:WR-C-/-G-YW(写为AID_WR-C-);
ADAR:W-A-/-T-W(写为ADAR_W-A-);
APOBEC3G(A3G):C-C-/-G-G(写为A3G_C-C-);以及
APOBEC3B(A3B):T-C-W/W-G-A(写为A3B_T-C-W)。
还评估了次要脱氨酶基序的SNV。这些次要脱氨酶基序包括:AIDb:WR-C-G/C-G-YW;AIDc:WR-C-GS/SC-G-YW;AIDd:WR-C-Y/R-G-YW;AIDe:WR-C-GW/WC-G-YW;AIDh:WR-C-T/A-G-YW;ADARb:W-A-Y/R-T-W;ADAR:SW-A-Y/R-T-WS;ADARf:SW-A-/-T-WS;ADARh:W-A-S/S-T-W;ADARk:CW-A-/-T-WG;ADARn:-A-WA/TW-T-;ADARp:-A-WT/AW-T-;A3Gb:-C-G/C-G-;A3Gc:C-C-GW/WC-G-G;A3Ge:SC-C-GS/SC-G-GS;A3Gi:SG-C-G/C-G-CS;A3Gn:YYC-C-S/S-G-GRR;A3Go:TC-C-G/C-G-GA;A3Bf:ST-C-G/C-G-AS;A3BJ:RT-C-G/C-G-AY;A3F:T-C-/-G-A;和A1:-C-A/T-G-。
未被知晓与脱氨酶特异性相关联的基序被标记为“Gen”基序;并且ADAR_Gen用于鉴定其中A或T是靶向的或突变的核苷酸(从而导致变体或SNV)的基序:
2Gen1-两碱基基序,其中第一个位置是变体,例如2Gen1_-C-T
3Gen1-三碱基基序,其中第一个位置是变体,例如3Gen1_-C-TA
3Gen2-三碱基基序,其中第二个位置是变体,例如ADAR_3Gen2_G-A-T
3Gen3-三碱基基序,其中第三个位置是变体,例如3Gen3_GA-C-
4Gen3-四碱基基序,其中第三个位置是变体,例如ADAR_4Gen3_AT-A-T
为了确定与基序相关联的度量,还进行了对靶向核苷酸(即,靶向核苷酸是A、T、C还是G)、SNV的类型(例如,靶向核苷酸现在是A、T、G还是C)、SNV是转换还是颠换SNV、SNV是同义还是非同义、靶向核苷酸所在的基序、SNV的密码子上下文和/或SNV出现的链的评估。
3.非基序度量
还评估了不与基序相关联的度量。这些度量包括基于cds中SNV的度量和基于整个基因组SNV的度量(即cds SNV和nc SNV)。这样的度量通常在度量名称中包含“所有”或“其他”。
实施例2
使用最显著性度量(most significant metrics)的癌症进展预测
进行初步建模以对于每种癌症(ADCC、BLGG、LUSC、MESO、SARC和SKCM)鉴定对可以区分具有相对低的无进展生存期(PFS)时间的患者和具有相对高的PFS的患者的各种模型贡献最大的20个度量。这些包括:
(1)对于MESO:cds:3Gen2_C-C-C MC3%,g:A3Bj_RT-C-G C>T+G>Ag%,cds:3Gen3_GG-C-非同义%,cds:A3Gb_-C-G G>A在MC2基序%,cds:A3B_T-C-W MC1%,cds:3Gen1_-C-GC MC2%,cds:A3Gb_-C-G G>AMC2命中,cds:A1_-C-A G>A在MC3 cds%,cds:3Gen3_AG-C-MC2%,cds:ADAR_W-A-非同义%,cds:A3Bj_RT-C-G Ti%,g:3Gen2_T-C-G C>T+G>A g%,cds:AIDe_WR-C-GW命中,cds:3Gen2_A-C-G MC2非同义%,cds:A3Gi_SG-C-G非同义%,g:ADAR_W-A-A>G+T>C%,cds:2Gen1_-C-C G>T在MC1%,cds:A3Gi_SG-C-G MC2%,cds:A3Bf_ST-C-G Ti%,cds:ADAR_3Gen2_G-A-C非同义%;
(2)对于ADCC:g:A3F_T-C-命中,cds:3Gen1_-C-TG G非同义%,cds:3Gen2_C-C-TMC3%,cds:所有G总计,g:3Gen1_-C-TC C>T+G>A g%,cds:3Gen3_CT-C-MC3%,cds:所有G%,nc:A3G_C-C-C>T+G>A nc%,cds:A3B_T-C-W G>A基序%,cds:AIDc_WR-C-GS%,cds:3Gen1_-C-GT G>A基序%,cds:A3B_T-C-W MC3非同义%,cds:3Gen3_TG-C-G>A%,cds:ADAR_2Gen2_G-T-MC2%,cds:3Gen3_TG-C-G Ti/Tv%,cds:4Gen3_TT-C-C%,cds:2Gen1_-C-C C>A%,cds:A3G_C-C-C>T在MC1%,cds:AIDb_WR-C-G G非同义%,cds:A3G_C-C-MC3%;
(3)对于BLGG:g:CG总计,cds:AIDc_WR-C-GS MC3%,cds:A3B_T-C-W G非同义%,cds:AIDd_WR-C-Y%,g:AIDc_WR-C-GS命中,cds:3Gen2_A-C-C非同义%,g:3Gen3_GA-C-C>A+G>T g%,cds:2Gen2_G-C-命中,cds:4Gen3_TA-C-C非同义%,nc:2Gen2_A-C-C>T+G>Anc%,cds:其他MC3 C%,cds:3Gen2_T-C-G Ti/Tv%,g:3Gen2_A-C-CC>A+G>T g%,g:3Gen3_CA-C-C>T+G>A g%,cds:3Gen2_T-C-CMC1%,g:ADAR_2Gen1_-T-T A>T+T>A%,g:ADAR_2Gen2_G-T-A>T+T>A%,g:2Gen1_-C-T%,cds:ADAR_3Gen1_-A-CA%,cds:ADAR_2Gen2_T-T-%;
(4)对于SARC:nc:ADARb_W-A-Y A>G+T>C nc%,g:ADARk_CW-A-A>G+T>C g%,cds:ADAR_3Gen3_CA-A-Ti%,cds:A3G_C-C-G>T%,cds:4Gen3_TT-C-T%,cds:ADARc_SW-A-Y T>Ccds%,nc:ADARc_SW-A-Y A>G+T>C nc%,cds:A3F_T-C-G>C%,g:C>A+G>T%,cds:2Gen1_-C-T MC3非同义%,nc:ADARb_W-A-Y%,cds:AIDd_WR-C-Y C>A cds%,cds:主要脱氨酶%,cds:4Gen3_CA-C-CMC1%,g:C>G+G>C%,g:2Gen1_-C-T C>G+G>C g%,g:AIDh_WR-C-TC>A+G>T g%,cds:A3Ge_SC-C-GS%,cds:ADAR_3Gen3_CT-A-A>G基序%,cds:ADARf_SW-A-MC2%;
(5)对于LUSC:cds:ADARp_-A-WT A>G在MC2 cds%,cds:3Gen1_-C-TC C>T cds%,cds:AIDd_WR-C-Y G>C%,cds:ADAR_3Gen3_AC-A-A>G cds%,cds:3Gen1_-C-CT C>T在MC2cds%,cds:A3Go_TC-C-G MC1非同义%,cds:3Gen2_G-C-T C>A基序%,nc:2Gen1_-C-T C>A+G>T nc%,cds:ADAR_2Gen2_A-T-A>C在MC1基序%,cds:4Gen3_CA-C-C%,cds:A3Gn_YYC-C-S C>T在MC3 cds%,cds:3Gen1_-C-AG G Ti/Tv%,cds:ADARh_W-A-S T>C%,cds:3Gen1_-C-CC C>T在MC1基序%,cds:2Gen1_-C-C C>T在MC1%,g:ADAR_4Gen3_AG-A-G A>C+T>G%,cds:4Gen3_CT-C-C C>T在MC1%,cds:ADAR_3Gen1_-A-CC A>G cds%,cds:A3Gn_YYC-C-S C>T%,cds:ADAR_W-A-T>C在MC2%,以及
(6)对于SKCM:cds:4Gen3_AG-C-T MC1非同义%,cds:所有A非同义%,cds:3Gen1_-C-CG G>A在MC3%,cds:3Gen3_TT-C-C>A在MC1基序%,cds:A3Gc_C-C-GW C>T基序%,cds:ADAR_W-A-A>G在MC3%,cds:ADARp_-A-WT T>A基序%,cds:3Gen3_CT-C-G非同义%,cds:3Gen2_T-C-T G>A在MC2%,cds:ADAR_3Gen1_-A-AT Ti%,cds:所有C Ti/Tv%,cds:3Gen1_-C-TC C>T在MC3%,cds:4Gen3_AG-C-T G>A在MC1基序%,cds:3Gen1_-C-CA TiC:G%,cds:3Gen3_AT-C-G>A在MC2%,cds:4Gen3_TG-C-T Ti C:G%,cds:ADAR_3Gen2_C-A-C T>G在MC3 cds%,cds:4Gen3_GC-C-C C>T在MC2%,cds:4Gen3_AC-C-T Ti/Tv%,cds:AIDh_WR-C-T G>A在MC2 cds%。
每种癌症的顶级度量被组合以形成CPAS度量的示例性小组。上面的表D中列出了这个142个度量的小组。
从泛癌症图谱中获得用于该分析的患者队列包括肾上腺皮质癌(ADCC)、脑低级别神经胶质瘤(BLGG)、肺鳞状细胞癌(LUSC)、间皮瘤(MESO)、肉瘤(SARC)和皮肤黑素瘤(SKCM)。获得那些记录了无进展生存期(PFS)的患者的基因组数据(总共n=1,295;排除没有记录PFS的患者)。如上所述分析基因组数据,为每个患者产生表D中列出的142个度量的小组的输出。对于每种癌症类型(n=6),患者被分类为“PFS_低”或“PFS_高”。“PFS_低”类别的患者在预定时间段之前(例如<24个月)有复发或癌症进展。“PFS_高”类别的患者在时间段之前(例如>24个月)没有经历复发或进展。对于每个患者队列,使用来自142个度量的小组的输出训练计算模型来预测患者结果(“PFS_低”或“PFS_高”)。
对每个队列的~75%的患者训练计算模型(“训练数据”),使用~10%的患者调整超参数(“调整数据”),并对在分析前隔离的剩余的~15%的患者进行预测(“验证数据”)。尽管在本研究中使用了XGBoost建模,但模型的性质和所进行的训练可以是任何适当的形式,并且可以包括决策树学习、随机森林、逻辑回归、关联规则学习、人工神经网络、深度学习、归纳逻辑编程、支持向量机、聚类、贝叶斯网络、强化学习、代表学习、相似性和度量学习、遗传算法、基于规则的机器学习、学习分类器系统等中的任何一个或更多个。
为每个患者队列(ADCC、BLGG、LUSC、MESO、SARC和SKCM)呈现对“验证”患者(未用于训练或调整模型的患者)所做预测的总体准确性、灵敏度和特异性。获得具有无进展生存期(PFS)的那些患者的基因组数据。还为每个队列呈现了用于比较PFS分布的Kaplan-Meier曲线,包括时序统计检验(显著性:p<0.05)。
A.MESO患者的建模
TCGA泛癌症图谱间皮瘤队列(MESO)包括32名被分类为在不到12个月内“进展”的患者(PFS<12个月,并且PFS状态=“进展”),以及38名具有大于或等于12个月的PFS(PFS>=12个月)的患者。产生梯度提升决策树集成,并用于预测“盲”验证数据集中的患者结果。表1列出了模型中使用的21个度量。
预测的总体准确性为100%(准确性:100%,灵敏度:1.00,特异性:1.00):100%的验证患者被正确分类为“高_PFS”(3/3),并且100%被正确分类为“低_PFS”(8/8)。验证数据不用于训练或调整模型。用于比较PFS分布的Kaplan-Meier曲线,包括时序统计检验(显著性:p<0.05)在图7中示出。
B.ADCC患者的建模
TCGA泛癌症图谱肾上腺皮质癌队列(ADCC)包括39名被分类为在不到24个月内“进展”的患者(PFS<24个月,并且PFS状态=“进展”),以及46名具有大于或等于24个月的PFS(PFS>=24个月)的患者。产生梯度提升决策树集成,并用于预测“盲”验证数据集中的患者结果。表1列出了模型中使用的38个度量。
预测的总体准确性为100%(准确性:100%,灵敏度:1.00,特异性:1.00):100%的验证患者被正确分类为“高_PFS”(7/7),并且100%被正确分类为“低_PFS”(6/6)。验证数据不用于训练或调整模型。验证数据不用于训练或调整模型。用于比较PFS分布的Kaplan-Meier曲线,包括时序统计检验(显著性:p<0.05)在图8中示出。
C.BLGG患者的建模
TCGA泛癌症图谱低级别胶质瘤队列(BLGG)包括122名被分类为在不到24个月内“进展”的患者(PFS<24个月,并且PFS状态=“进展”),以及168名具有大于或等于24个月的PFS(PFS>=24个月)的患者。产生梯度提升决策树集成,并用于预测“盲”验证数据集中的患者结果。表1列出了模型中使用的88个度量。
预测的总体准确性为84%(准确性:84.09%,灵敏度:0.8846,特异性:0.7778):88%的验证患者被正确分类为“高_PFS”(23/26),并且77%被正确分类为“低_PFS”(14/18)。验证数据不用于训练或调整模型。用于比较PFS分布的Kaplan-Meier曲线,包括时序统计检验(显著性:p<0.05)在图9中示出。
D.SARC患者的建模
TCGA泛癌症图谱肉瘤队列(SARC)包括87名被分类为在不到18个月内“进展”的患者(PFS<18个月,并且PFS状态=“进展”),以及98名具有大于或等于18个月的PFS(PFS>=18个月)的患者。产生梯度提升决策树集成,并用于预测“盲”验证数据集中的患者结果。表1列出了模型中使用的34个度量。
预测的总体准确性为81%(准确性:80.65%,灵敏度:0.9500,特异性:0.5455):95%的验证患者被正确分类为“高_PFS”(19/20),并且54.55%被正确分类为“低_PFS”(6/11)。验证数据不用于训练或调整模型。用于比较PFS分布的Kaplan-Meier曲线,包括时序统计检验(显著性:p<0.05)在图10中示出。
E.LUSC患者的建模
TCGA泛癌症图谱肺鳞状细胞癌队列(LUSC)包括109名被分类为在不到36个月内“进展”的患者(PFS<36个月,并且PFS状态=“进展”),以及125名具有大于或等于36个月的PFS(PFS>=36个月)的患者。产生梯度提升决策树集成,并用于预测“盲”验证数据集中的患者结果。表1列出了LUSC模型中使用的102个度量。
预测的总体准确性为67%(准确性:67.44%,灵敏度:0.7586,特异性:0.500):75.86%的验证患者被正确分类为“高_PFS”(22/29),并且50%被正确分类为“低_PFS”(7/14)。验证数据不用于训练或调整模型。用于比较PFS分布的Kaplan-Meier曲线,包括时序统计检验(显著性:p<0.05)在图11中示出。
F.SKCM患者的建模
TCGA泛癌症图谱皮肤黑素瘤(SKCM)包括178名被分类为在不到30个月内“进展”的患者(PFS<30个月,并且PFS状态=“进展”),以及180名具有大于或等于30个月的PFS(PFS>=30个月)的患者。产生梯度提升决策树集成,并用于预测“盲”验证数据集中的患者结果。表1列出了SKCM模型中使用的100个度量。
预测的总体准确性为73%(准确性:73.21%,灵敏度:0.8485,特异性:0.5652):84.85%的验证患者被正确分类为“高_PFS”(28/33),并且56.52%被正确分类为“低_PFS”(13/23)。验证数据不用于训练或调整模型。用于比较PFS分布的Kaplan-Meier曲线,包括时序统计检验(显著性:p<0.05)在图12中示出。
本文引用的每项专利、专利申请和出版物的公开内容在此通过引用以其整体并入本文。
本文中对任何参考文献的引用不应被解释为承认这样的参考文献作为本申请的“现有技术”可用。
在整个说明书中,目的是描述本发明的优选实施方案,而不是将本发明限制于任何一种实施方案或特定的特征集合。因此,本领域技术人员将理解,根据本公开内容,可以在所例示的特定实施方案中进行各种修改和改变,而不脱离本发明的范围。所有这样的修改和改变被意图包括在所附权利要求书的范围内。
表1.用于每个模型的度量

Claims (31)

1.一种用于确定受试者中的癌症将进展或复发的可能性的方法,所述方法包括:
分析来自患有癌症的受试者的核酸分子的序列以检测所述核酸分子内的单核苷酸变异(SNV);
基于检测到的SNV的数量和/或类型确定多于一个度量,以便获得度量的受试者概况;并且,
基于所述受试者概况和度量的参考概况之间的比较,确定癌症将进展或复发的可能性;
其中:
所述多于一个度量包括选自表D中列出的度量和与表D中列出的度量相关的度量的5个或更多个度量。
2.根据权利要求1所述的方法,其中所述参考概况代表可能进展或复发的癌症。
3.根据权利要求1所述的方法,其中所述参考概况代表不太可能进展或复发的癌症。
4.根据权利要求1-3中任一项所述的方法,其中所述多于一个度量包括选自表D中列出的度量和与表D中列出的度量相关的度量的至少10个、15个、20个、35个、30个、40个、45个或50个度量。
5.根据权利要求1-4中任一项所述的方法,其中所述癌症选自肾上腺癌、乳腺癌、脑癌、前列腺癌、肝癌、结肠癌、胃癌、胰腺癌、皮肤癌、甲状腺癌、宫颈癌、淋巴癌、造血系统癌、膀胱癌、肺癌、肾癌、直肠癌、卵巢癌、子宫癌、头颈癌、间皮瘤和肉瘤。
6.根据权利要求1-5中任一项所述的方法,其中所述癌症是:
(a)所述癌症是间皮瘤并且所述多于一个度量包括选自以下的最少或约5个度量:cds:A3Bf_ST-C-G Ti%;g:3Gen2_T-C-G C>T+G>Ag%;cds:2Gen1_-C-CC>T在MC1%;cds:所有CTi/Tv%;g:3Gen3_CA-C-C>T+G>Ag%;cds:3Gen2_C-C-C MC3%;cds:A3Gn_YYC-C-S C>T%;cds:A3G_C-C-MC3%;cds:3Gen3_GG-C-非同义%;g:3Gen2_A-C-CC>A+G>Tg%;cds:4Gen3_TT-C-C%;cds:3Gen2_C-C-T MC3%;g:2Gen1_-C-TC>G+G>Cg%;cds:主要脱氨酶%;cds:A3Gb_-C-G G>A在MC2基序%;cds:4Gen3_CA-C-C%;cds:A3G_C-C-G>T%;cds:A3Gi_SG-C-G非同义%;g:C>G+G>C%;cds:其他MC3%;cds:A3B_T-C-W G>A基序%,以及与其相关的度量;
(b)所述癌症是肾上腺皮质癌并且所述多于一个度量包括选自以下的最少或约5个度量:cds:所有G总计;cds:3Gen1_-C-TG G非同义%;g:A3F_T-C-命中;cds:3Gen3_GG-C-非同义%;cds:3Gen1_-C-GT G>A基序%;cds:A3Bj_RT-C-G Ti%;cds:3Gen2_C-C-T MC3%;nc:A3G_C-C-C>T+G>A nc%;cds:AIDd_WR-C-Y%;cds:3Gen1_-C-TC C>T cds%;cds:A3B_T-C-W G>A基序%;g:CG总计;cds:A3G_C-C-MC3%;cds:AIDb_WR-C-G G非同义%;cds:A3G_C-C-C>T在MC1%;cds:3Gen3_TG-C-G>A%;g:3Gen3_GA-C-C>A+G>Tg%;cds:3Gen2_A-C-G MC2非同义%;cds:3Gen3_CT-C-MC3%;cds:ADAR_2Gen2_G-T-MC2%;cds:ADAR_3Gen3_CA-A-Ti%;g:AIDh_WR-C-T C>A+G>Tg%;cds:A3B_T-C-W MC3非同义%;cds:2Gen1_-C-C C>A%;cds:A1_-C-A G>A在MC3 cds%;cds:3Gen1_-C-CA Ti C:G%;cds:ADAR_W-A-非同义%;cds:3Gen1_-C-CA Ti%;cds:所有G%;g:3Gen2_T-C-G C>T+G>Ag%;cds:A3Gb_-C-GMC1%;cds:A3B_T-C-W G非同义%;nc:2Gen2_A-C-C>T+G>A nc%;cds:A3Gi_SG-C-G非同义%;cds:其他G MC3 Ti/Tv%;cds:A3Gb_-C-G G>A在MC2基序%;cds:A3B_T-C-W Ti%;和g:2Gen1_-C-T%,以及与其相关的度量;
(c)所述癌症是脑癌并且所述多于一个度量包括选自以下的最少或约5个度量:g:CG总计;cds:AIDd_WR-C-Y%;在VCF中的变体;cds:4Gen3_TA-C-C非同义%;cds:3Gen2_C-C-TMC3%;cds:AIDd_WR-C-Y G>C%;cds:A3Gb_-C-G MC1%;g:3Gen2_T-C-G C>T+G>Ag%;cds:A3B_T-C-W G非同义%;g:3Gen3_GA-C-C>A+G>T g%;cds:2Gen2_G-C-命中;cds:AIDc_WR-C-GS MC3%;cds:所有G总计;cds:所有A非同义%;cds:ADAR_2Gen2_T-T-%;cds:3Gen2_A-C-C非同义%;g:3Gen3_CA-C-C>T+G>Ag%;g:ADARk_CW-A-A>G+T>Cg%;nc:ADARb_W-A-Y A>G+T>C nc%;g:2Gen1_-C-T%;cds:其他MC3 C%;g:2Gen1_-C-T C>G+G>C g%;cds:ADAR_W-A-非同义%;g:3Gen2_A-C-C C>A+G>T g%;g:ADAR_2Gen2_G-T-A>T+T>A%;cds:A3G_C-C-C>T在MC1%;cds:3Gen1_-C-GC MC2%;cds:3Gen2_G-C-T%;cds:A3F_T-C-G>C%;g:4Gen3_GG-C-G C>T+G>Ag%;cds:A3Gb_-C-G G>A在MC2基序%;cds:ADARb_W-A-Y MC2%;cds:所有G%;g:A3F_T-C-命中;cds:3Gen2_T-C-C MC1%;cds:A3B_T-C-W Ti%;cds:ADAR_3Gen1_-A-AT Ti%;cds:ADARh_W-A-S T>C%;cds:A3Gn_YYC-C-S C>T%;cds:A3Ge_SC-C-GS%;cds:2Gen2_A-C-MC3%;cds:ADAR_2Gen2_G-T-MC2%;cds:ADAR_3Gen3_CA-A-Ti%;cds:主要脱氨酶%;g:C>G+G>C%;cds:A3Bf_ST-C-G Ti%;cds:3Gen3_CT-C-MC3%;cds:A3Gi_SG-C-G非同义%;cds:其他MC3%;cds:ADAR_3Gen1_-A-CA%;cds:A3F_T-C-C>A%;cds:2Gen1_-C-C C>T在MC1%;cds:A3Gc_C-C-GW C>T基序%;cds:AIDc_WR-C-GS%;g:ADAR_2Gen1_-T-T A>T+T>A%;cds:A3B_T-C-W MC1%;cds:ADAR_3Gen2_G-A-C非同义%;cds:2Gen1_-C-C C>A%;cds:3Gen1_-C-GT G>A基序%;cds:A3Bj_RT-C-G Ti%;g:3Gen1_-C-TC C>T+G>Ag%;g:C>A+G>T%;cds:3Gen2_A-C-C MC2%;cds:2Gen1_-C-C MC2%;g:3Gen2_G-C-T%;g:A3Bj_RT-C-G C>T+G>Ag%;g:ADAR_W-A-A>G+T>C%;cds:3Gen3_AT-C-C:G%;cds:3Gen1_-C-TG G非同义%;cds:其他G MC3 Ti/Tv%;cds:A3Gb_-C-G G>A MC2命中;cds:3Gen1_-C-TC C>T cds%;cds:2Gen1_-C-T MC3非同义%;cds:AIDb_WR-C-G G非同义%;g:AIDc_WR-C-GS命中;cds:3Gen2_T-C-C MC3%;cds:3Gen2_T-C-G Ti/Tv%;cds:A1_-C-A G>A在MC3 cds%;nc:A3G_C-C-C>T+G>A nc%;nc:2Gen2_A-C-C>T+G>A nc%;cds:3Gen3_TG-C-G Ti/Tv%;cds:3Gen1_-C-CA Ti%;cds:3Gen3_TG-C-G>A%;cds:3Gen3_CT-C-G非同义%;cds:所有C Ti/Tv%;cds:A3G_C-C-MC3%;cds:ADARc_SW-A-Y MC2%;和cds:3Gen3_GG-C-非同义%,以及与其相关的度量;
(d)所述癌症是肉瘤并且所述多于一个度量包括选自以下的最少或约5个度量:cds:其他MC3 C%;nc:ADARb_W-A-Y A>G+T>C nc%;cds:4Gen3_TT-C-T%;g:ADARk_CW-A-A>G+T>Cg%;g:ADARn_-A-WA A>G+T>C%;cds:A3G_C-C-G>T%;cds:A3Gb_-C-G MC1%;nc:ADARb_W-A-Y%;cds:A3Ge_SC-C-GS%;cds:主要脱氨酶%;cds:ADAR_2Gen2_G-T-MC2%;g:4Gen3_GG-C-G C>T+G>Ag%;cds:2Gen1_-C-C MC2%;cds:3Gen1_-C-GT G>A基序%;cds:A3Gn_YYC-C-S C>T%;cds:2Gen1_-C-C C>T在MC1%;cds:A3B_T-C-W MC3非同义%;cds:AIDd_WR-C-Y%;g:3Gen3_CA-C-C>T+G>Ag%;cds:所有A非同义%;g:2Gen1_-C-T C>G+G>C g%;cds:ADARb_W-A-Y MC2%;cds:所有G%;g:A3Bj_RT-C-G C>T+G>Ag%;cds:A3Gn_YYC-C-S C>T在MC3 cds%;cds:A3B_T-C-W G非同义%;cds:A3G_C-C-MC3%;cds:所有G总计;cds:CDS变体;g:CG总计;g:3Gen2_T-C-G C>T+G>Ag%;cds:A3B_T-C-W MC1%;cds:ADAR_3Gen3_CA-A-Ti%;cds:AIDc_WR-C-GS%,以及与其相关的度量;
(e)所述癌症是肺癌并且所述多于一个度量包括选自以下的最少或约5个度量:cds:3Gen1_-C-CC C>T在MC1基序%;cds:3Gen1_-C-CT C>T在MC2 cds%;cds:ADARp_-A-WT A>G在MC2 cds%;cds:其他MC3 C%;cds:其他MC3%;cds:A3Gb_-C-G MC1%;g:3Gen1_-C-TC C>T+G>Ag%;cds:ADAR_W-A-A>G在MC3%;cds:ADAR_W-A-非同义%;cds:ADAR_3Gen3_AC-A-A>G cds%;cds:2Gen1_-C-C C>A%;cds:ADARf_SW-A-MC2%;g:ADAR_2Gen2_G-T-A>T+T>A%;cds:4Gen3_GC-C-A%;cds:A3Go_TC-C-G MC1非同义%;g:3Gen2_G-C-T%;cds:A3G_C-C-C>T在MC1%;cds:AIDc_WR-C-GS MC3%;cds:3Gen1_-C-GT G>A基序%;nc:2Gen1_-C-T C>A+G>T nc%;cds:ADARc_SW-A-Y MC2%;cds:ADARh_W-A-S T>C%;cds:2Gen1_-C-C C>T在MC1%;g:ADAR_2Gen1_-T-T A>T+T>A%;cds:AIDd_WR-C-Y C>A cds%;nc:A3G_C-C-C>T+G>A nc%;cds:A3Gc_C-C-GW C>T基序%;cds:ADAR_3Gen1_-A-AT Ti%;cds:3Gen3_CT-C-MC3%;cds:4Gen3_CT-C-C C>T在MC1%;cds:3Gen2_T-C-C MC1%;cds:A3G_C-C-G>T%;cds:3Gen1_-C-CA Ti%;cds:3Gen1_-C-TG G非同义%;cds:3Gen2_A-C-C非同义%;g:2Gen1_-C-T C>G+G>C g%;cds:所有A非同义%;cds:A3Gi_SG-C-G MC2%;cds:主要脱氨酶%;cds:4Gen3_TT-C-T%;g:A3Bj_RT-C-G C>T+G>Ag%;cds:3Gen2_T-C-C MC3%;cds:4Gen3_TT-C-C%;cds:3Gen1_-C-CA Ti C:G%;cds:A1_-C-A G>A在MC3 cds%;cds:A3Gb_-C-G G>A在MC2基序%;cds:3Gen3_CT-C-G非同义%;cds:3Gen2_G-C-T C:G%;cds:A3Ge_SC-C-GS%;cds:3Gen3_TG-C-G>A%;g:C>A+G>T%;cds:4Gen3_CA-C-C%;cds:AIDd_WR-C-YG>C%;cds:所有G%;cds:3Gen3_TT-C-C>A在MC1基序%;g:AIDh_WR-C-T C>A+G>T g%;g:4Gen3_GG-C-G C>T+G>A g%;cds:3Gen2_G-C-T C>A基序%;nc:ADARc_SW-A-Y A>G+T>Cnc%;g:3Gen2_A-C-C C>A+G>T g%;cds:A3B_T-C-W Ti%;g:3Gen3_GA-C-C>A+G>T g%;cds:3Gen3_CT-C-C>T在MC1基序%;cds:ADAR_3Gen1_-A-CC A>G cds%;cds:3Gen1_-C-TCC>T cds%;cds:4Gen3_CA-C-C MC1%;cds:3Gen2_G-C-T%;nc:2Gen2_A-C-C>T+G>A nc%;cds:3Gen2_A-C-C MC2%;cds:A3F_T-C-C>A%;cds:CDS变体;cds:ADAR_3Gen3_CA-A-Ti%;cds:3Gen3_GG-C-非同义%;cds:ADARb_W-A-Y MC2%;g:ADAR_W-A-A>G+T>C%;cds:3Gen3_AT-C-C:G%;cds:2Gen1_-C-C G>T在MC1%;cds:A3G_C-C-MC3%;cds:3Gen2_C-C-C MC3%;cds:A3B_T-C-W G>A基序%;cds:A3F_T-C-G>C%;cds:ADAR_2Gen2_G-T-MC2%;cds:3Gen1_-C-AG G Ti/Tv%;cds:A3Bj_RT-C-G Ti%;nc:ADARb_W-A-Y A>G+T>C nc%;cds:ADAR_2Gen2_T-T-%;g:2Gen1_-C-T%;cds:4Gen3_AC-C-T Ti/Tv%;cds:A3Gi_SG-C-G非同义%;cds:A3Bf_ST-C-G Ti%;g:ADARk_CW-A-A>G+T>C g%;cds:3Gen1_-C-GC MC2%;g:3Gen3_CA-C-C>T+G>A g%;cds:2Gen2_A-C-MC3%;在VCF中的变体;cds:4Gen3_AG-C-T MC1非同义%;g:3Gen2_T-C-G C>T+G>Ag%;cds:A3Gn_YYC-C-S C>T在MC3 cds%;cds:ADAR_3Gen1_-A-CA%;cds:4Gen3_TA-C-C非同义%;cds:所有C Ti/Tv%;cds:ADARc_SW-A-Y,以及与其相关的度量;或者
(f)所述癌症是皮肤癌并且所述多于一个度量包括选自以下的最少或约5个度量:cds:4Gen3_AG-C-T MC1非同义%;cds:3Gen1_-C-CG G>A在MC3%;cds:4Gen3_AC-C-T Ti/Tv%;g:C>G+G>C%;cds:A3B_T-C-W MC3非同义%;cds:所有A非同义%;cds:3Gen3_AG-C-MC2%;cds:A3B_T-C-W MC1%;cds:ADAR_3Gen2_C-A-C T>G在MC3 cds%;cds:3Gen1_-C-TC C>T在MC3%;cds:4Gen3_GC-C-C C>T在MC2%;cds:所有C Ti/Tv%;cds:A3Bj_RT-C-G Ti%;cds:AIDh_WR-C-T G>A在MC2cds%;cds:4Gen3_TT-C-C%;cds:3Gen1_-C-CC C>T在MC1基序%;cds:ADAR_2Gen2_T-T-%;cds:3Gen2_T-C-C MC1%;cds:所有G%;cds:ADAR_W-A-A>G在MC3%;cds:A3G_C-C-MC3%;cds:其他MC3 C%;g:3Gen2_A-C-C C>A+G>T g%;cds:ADARc_SW-A-Y MC2%;cds:3Gen1_-C-CA Ti C:G%;cds:3Gen1_-C-TC C>T cds%;cds:3Gen2_C-C-C MC3%;cds:3Gen3_CT-C-C>T在MC1基序%;g:ADAR_4Gen3_AG-A-G A>C+T>G%;cds:3Gen3_CT-C-G非同义%;cds:3Gen2_A-C-C非同义%;cds:2Gen2_A-C-MC3%;cds:3Gen2_A-C-C MC2%;g:3Gen1_-C-TC C>T+G>Ag%;cds:3Gen2_T-C-T G>A在MC2%;cds:2Gen1_-C-CC>T在MC1%;cds:AIDb_WR-C-G G非同义%;cds:A3Gb_-C-G MC1%;cds:2Gen1_-C-C C>A%;cds:A3Ge_SC-C-GS%;g:ADARn_-A-WA A>G+T>C%;g:ADAR_W-A-A>G+T>C%;g:ADAR_2Gen2_G-T-A>T+T>A%;g:AIDh_WR-C-T C>A+G>T g%;cds:4Gen3_TG-C-T Ti C:G%;cds:3Gen2_G-C-T C:G%;cds:3Gen2_T-C-C MC3%;nc:ADARb_W-A-Y%;cds:ADAR_3Gen2_G-A-C非同义%;cds:ADAR_3Gen1_-A-AT Ti%;g:ADARk_CW-A-A>G+T>C g%;cds:3Gen1_-C-GCMC2%;cds:4Gen3_TA-C-C非同义%;g:3Gen3_CA-C-C>T+G>Ag%;cds:3Gen1_-C-AG G Ti/Tv%;cds:AIDc_WR-C-GS%;cds:A3Gn_YYC-C-S C>T在MC3 cds%;cds:2Gen1_-C-C MC2%;cds:3Gen3_GG-C-非同义%;g:2Gen1_-C-T C>G+G>C g%;cds:A1_-C-A G>A在MC3 cds%;cds:A3G_C-C-C>T在MC1%;nc:ADARc_SW-A-Y A>G+T>C nc%;cds:ADAR_W-A-T>C在MC2%;cds:A3Go_TC-C-G MC1非同义%;cds:3Gen3_AT-C-C:G%;cds:ADARh_W-A-S T>C%;cds:A3G_C-C-G>T%;cds:ADARf_SW-A-MC2%;cds:ADAR_W-A-非同义%;cds:ADARp_-A-WT T>A基序%;cds:4Gen3_AG-C-T G>A在MC1基序%;cds:ADAR_3Gen1_-A-CA%;cds:3Gen2_C-C-TMC3%;cds:3Gen1_-C-CT C>T在MC2 cds%;cds:A3B_T-C-W Ti%;g:2Gen1_-C-T%;cds:AIDc_WR-C-GS MC3%;cds:AIDe_WR-C-GW命中;cds:AIDd_WR-C-Y C>A cds%;cds:ADARb_W-A-Y MC2%;cds:A3Gc_C-C-GW C>T基序%;cds:2Gen1_-C-C G>T在MC1%;cds:3Gen1_-C-CA Ti%;cds:其他G MC3 Ti/Tv%;cds:CDS变体;cds:ADAR_3Gen1_-A-CC A>G cds%;cds:A3Gn_YYC-C-S C>T%;cds:A3Bf_ST-C-G Ti%;cds:2Gen2_G-C-命中;cds:AIDd_WR-C-Y%;cds:A3F_T-C-G>C%;cds:4Gen3_CT-C-C C>T在MC1%;cds:AIDd_WR-C-Y G>C%;cds:A3Gi_SG-C-G MC2%;cds:其他MC3%;nc:2Gen1_-C-T C>A+G>T nc%;cds:3Gen2_G-C-T%;g:3Gen2_T-C-G C>T+G>Ag%;cds:ADARc_SW-A-Y T>C cds%,以及与其相关的度量。
7.根据权利要求1-6中任一项所述的方法,其中所述生物样品是从受所述癌症影响的组织类型获得的。
8.根据权利要求7所述的方法,其中所述生物样品包括卵巢、乳腺、前列腺、肝脏、结肠、胃、胰腺、皮肤、甲状腺、宫颈、淋巴、造血系统、膀胱、肺、肾、直肠、子宫和头或颈部组织或细胞。
9.一种用于治疗患有癌症的受试者的方法,包括基于根据权利要求1-8中任一项所述的方法对所述癌症或肿瘤可能进展或复发的确定,将所述受试者暴露于癌症疗法。
10.一种治疗受试者中的癌症的方法,所述方法包括:
(i)进行根据权利要求1-8中任一项所述的方法;
(ii)确定所述癌症有可能进展或复发;并且
(iii)将所述受试者暴露于癌症疗法。
11.根据权利要求9或10所述的方法,其中所述疗法选自放射疗法、手术、化学疗法、激素疗法、免疫疗法和靶向疗法。
12.一种用于产生用于评估受试者中癌症进展或复发的可能性的进展指标的系统,所述系统包含一个或更多个电子处理装置,所述电子处理装置:
a)从所述受试者获得指示核酸分子序列的受试者数据;
b)分析所述受试者数据以鉴定所述核酸分子内的单核苷酸变异(SNV);
c)使用鉴定的SNV确定多于一个度量,所述多于一个度量包括选自表D中列出的度量和与表D中列出的度量相关的度量的5个或更多个度量;
d)将所述多于一个度量应用于至少一个计算模型,以确定指示癌症进展或复发的可能性的进展指标,所述至少一个计算模型体现癌症进展或复发的可能性与所述多于一个度量之间的关系,并且通过将机器学习应用于从具有已知癌症进展或复发的参考受试者获得的多于一个参考度量来导出。
13.根据权利要求12所述的系统,其中所述多于一个度量包括选自表D中列出的度量和与表D中列出的度量相关的度量的至少10个、15个、20个、35个、30个、40个、45个或50个度量。
14.根据权利要求12或权利要求13所述的系统,其中所述癌症选自肾上腺癌、乳腺癌、脑癌、前列腺癌、肝癌、结肠癌、胃癌、胰腺癌、皮肤癌、甲状腺癌、宫颈癌、淋巴癌、造血系统癌、膀胱癌、肺癌、肾癌、直肠癌、卵巢癌、子宫癌、头颈癌、间皮瘤和肉瘤。
15.根据权利要求12-14中任一项所述的系统,其中:
a)所述癌症是间皮瘤并且所述多于一个度量包括选自以下的最少或约5个度量:cds:A3Bf_ST-C-G Ti%;g:3Gen2_T-C-G C>T+G>Ag%;cds:2Gen1_-C-C C>T在MC1%;cds:所有CTi/Tv%;g:3Gen3_CA-C-C>T+G>Ag%;cds:3Gen2_C-C-C MC3%;cds:A3Gn_YYC-C-S C>T%;cds:A3G_C-C-MC3%;cds:3Gen3_GG-C-非同义%;g:3Gen2_A-C-C C>A+G>T g%;cds:4Gen3_TT-C-C%;cds:3Gen2_C-C-T MC3%;g:2Gen1_-C-T C>G+G>C g%;cds:主要脱氨酶%;cds:A3Gb_-C-G G>A在MC2基序%;cds:4Gen3_CA-C-C%;cds:A3G_C-C-G>T%;cds:A3Gi_SG-C-G非同义%;g:C>G+G>C%;cds:其他MC3%;cds:A3B_T-C-W G>A基序%,以及与其相关的度量;
b)所述癌症是肾上腺皮质癌并且所述多于一个度量包括选自以下的最少或约5个度量:cds:所有G总计;cds:3Gen1_-C-TG G非同义%;g:A3F_T-C-命中;cds:3Gen3_GG-C-非同义%;cds:3Gen1_-C-GT G>A基序%;cds:A3Bj_RT-C-G Ti%;cds:3Gen2_C-C-T MC3%;nc:A3G_C-C-C>T+G>A nc%;cds:AIDd_WR-C-Y%;cds:3Gen1_-C-TC C>T cds%;cds:A3B_T-C-W G>A基序%;g:CG总计;cds:A3G_C-C-MC3%;cds:AIDb_WR-C-G G非同义%;cds:A3G_C-C-C>T在MC1%;cds:3Gen3_TG-C-G>A%;g:3Gen3_GA-C-C>A+G>T g%;cds:3Gen2_A-C-G MC2非同义%;cds:3Gen3_CT-C-MC3%;cds:ADAR_2Gen2_G-T-MC2%;cds:ADAR_3Gen3_CA-A-Ti%;g:AIDh_WR-C-T C>A+G>T g%;cds:A3B_T-C-W MC3非同义%;cds:2Gen1_-C-C C>A%;cds:A1_-C-A G>A在MC3 cds%;cds:3Gen1_-C-CA Ti C:G%;cds:ADAR_W-A-非同义%;cds:3Gen1_-C-CA Ti%;cds:所有G%;g:3Gen2_T-C-G C>T+G>Ag%;cds:A3Gb_-C-GMC1%;cds:A3B_T-C-W G非同义%;nc:2Gen2_A-C-C>T+G>A nc%;cds:A3Gi_SG-C-G非同义%;cds:其他G MC3 Ti/Tv%;cds:A3Gb_-C-G G>A在MC2基序%;cds:A3B_T-C-W Ti%;和g:2Gen1_-C-T%,以及与其相关的度量;
c)所述癌症是脑癌并且所述多于一个度量包括选自以下的最少或约5个度量:g:CG总计;cds:AIDd_WR-C-Y%;在VCF中的变体;cds:4Gen3_TA-C-C非同义%;cds:3Gen2_C-C-TMC3%;cds:AIDd_WR-C-Y G>C%;cds:A3Gb_-C-G MC1%;g:3Gen2_T-C-G C>T+G>Ag%;cds:A3B_T-C-W G非同义%;g:3Gen3_GA-C-C>A+G>T g%;cds:2Gen2_G-C-命中;cds:AIDc_WR-C-GS MC3%;cds:所有G总计;cds:所有A非同义%;cds:ADAR_2Gen2_T-T-%;cds:3Gen2_A-C-C非同义%;g:3Gen3_CA-C-C>T+G>Ag%;g:ADARk_CW-A-A>G+T>C g%;nc:ADARb_W-A-Y A>G+T>C nc%;g:2Gen1_-C-T%;cds:其他MC3 C%;g:2Gen1_-C-T C>G+G>C g%;cds:ADAR_W-A-非同义%;g:3Gen2_A-C-C C>A+G>T g%;g:ADAR_2Gen2_G-T-A>T+T>A%;cds:A3G_C-C-C>T在MC1%;cds:3Gen1_-C-GC MC2%;cds:3Gen2_G-C-T%;cds:A3F_T-C-G>C%;g:4Gen3_GG-C-G C>T+G>Ag%;cds:A3Gb_-C-G G>A在MC2基序%;cds:ADARb_W-A-Y MC2%;cds:所有G%;g:A3F_T-C-命中;cds:3Gen2_T-C-C MC1%;cds:A3B_T-C-W Ti%;cds:ADAR_3Gen1_-A-AT Ti%;cds:ADARh_W-A-S T>C%;cds:A3Gn_YYC-C-S C>T%;cds:A3Ge_SC-C-GS%;cds:2Gen2_A-C-MC3%;cds:ADAR_2Gen2_G-T-MC2%;cds:ADAR_3Gen3_CA-A-Ti%;cds:主要脱氨酶%;g:C>G+G>C%;cds:A3Bf_ST-C-G Ti%;cds:3Gen3_CT-C-MC3%;cds:A3Gi_SG-C-G非同义%;cds:其他MC3%;cds:ADAR_3Gen1_-A-CA%;cds:A3F_T-C-C>A%;cds:2Gen1_-C-C C>T在MC1%;cds:A3Gc_C-C-GW C>T基序%;cds:AIDc_WR-C-GS%;g:ADAR_2Gen1_-T-T A>T+T>A%;cds:A3B_T-C-W MC1%;cds:ADAR_3Gen2_G-A-C非同义%;cds:2Gen1_-C-C C>A%;cds:3Gen1_-C-GT G>A基序%;cds:A3Bj_RT-C-G Ti%;g:3Gen1_-C-TC C>T+G>Ag%;g:C>A+G>T%;cds:3Gen2_A-C-C MC2%;cds:2Gen1_-C-C MC2%;g:3Gen2_G-C-T%;g:A3Bj_RT-C-G C>T+G>Ag%;g:ADAR_W-A-A>G+T>C%;cds:3Gen3_AT-C-C:G%;cds:3Gen1_-C-TG G非同义%;cds:其他G MC3 Ti/Tv%;cds:A3Gb_-C-G G>A MC2命中;cds:3Gen1_-C-TC C>T cds%;cds:2Gen1_-C-T MC3非同义%;cds:AIDb_WR-C-G G非同义%;g:AIDc_WR-C-GS命中;cds:3Gen2_T-C-C MC3%;cds:3Gen2_T-C-G Ti/Tv%;cds:A1_-C-A G>A在MC3 cds%;nc:A3G_C-C-C>T+G>A nc%;nc:2Gen2_A-C-C>T+G>A nc%;cds:3Gen3_TG-C-G Ti/Tv%;cds:3Gen1_-C-CA Ti%;cds:3Gen3_TG-C-G>A%;cds:3Gen3_CT-C-G非同义%;cds:所有C Ti/Tv%;cds:A3G_C-C-MC3%;cds:ADARc_SW-A-Y MC2%;和cds:3Gen3_GG-C-非同义%,以及与其相关的度量;
d)所述癌症是肉瘤并且所述多于一个度量包括选自以下的最少或约5个度量:cds:其他MC3 C%;nc:ADARb_W-A-Y A>G+T>C nc%;cds:4Gen3_TT-C-T%;g:ADARk_CW-A-A>G+T>Cg%;g:ADARn_-A-WA A>G+T>C%;cds:A3G_C-C-G>T%;cds:A3Gb_-C-G MC1%;nc:ADARb_W-A-Y%;cds:A3Ge_SC-C-GS%;cds:主要脱氨酶%;cds:ADAR_2Gen2_G-T-MC2%;g:4Gen3_GG-C-G C>T+G>Ag%;cds:2Gen1_-C-C MC2%;cds:3Gen1_-C-GT G>A基序%;cds:A3Gn_YYC-C-S C>T%;cds:2Gen1_-C-C C>T在MC1%;cds:A3B_T-C-W MC3非同义%;cds:AIDd_WR-C-Y%;g:3Gen3_CA-C-C>T+G>Ag%;cds:所有A非同义%;g:2Gen1_-C-T C>G+G>C g%;cds:ADARb_W-A-Y MC2%;cds:所有G%;g:A3Bj_RT-C-G C>T+G>Ag%;cds:A3Gn_YYC-C-S C>T在MC3 cds%;cds:A3B_T-C-W G非同义%;cds:A3G_C-C-MC3%;cds:所有G总计;cds:CDS变体;g:CG总计;g:3Gen2_T-C-G C>T+G>Ag%;cds:A3B_T-C-W MC1%;cds:ADAR_3Gen3_CA-A-Ti%;cds:AIDc_WR-C-GS%,以及与其相关的度量;
e)所述癌症是肺癌并且所述多于一个度量包括选自以下的最少或约5个度量:cds:3Gen1_-C-CC C>T在MC1基序%;cds:3Gen1_-C-CT C>T在MC2 cds%;cds:ADARp_-A-WT A>G在MC2 cds%;cds:其他MC3 C%;cds:其他MC3%;cds:A3Gb_-C-G MC1%;g:3Gen1_-C-TC C>T+G>Ag%;cds:ADAR_W-A-A>G在MC3%;cds:ADAR_W-A-非同义%;cds:ADAR_3Gen3_AC-A-A>G cds%;cds:2Gen1_-C-C C>A%;cds:ADARf_SW-A-MC2%;g:ADAR_2Gen2_G-T-A>T+T>A%;cds:4Gen3_GC-C-A%;cds:A3Go_TC-C-G MC1非同义%;g:3Gen2_G-C-T%;cds:A3G_C-C-C>T在MC1%;cds:AIDc_WR-C-GS MC3%;cds:3Gen1_-C-GT G>A基序%;nc:2Gen1_-C-T C>A+G>T nc%;cds:ADARc_SW-A-Y MC2%;cds:ADARh_W-A-S T>C%;cds:2Gen1_-C-C C>T在MC1%;g:ADAR_2Gen1_-T-T A>T+T>A%;cds:AIDd_WR-C-Y C>A cds%;nc:A3G_C-C-C>T+G>A nc%;cds:A3Gc_C-C-GW C>T基序%;cds:ADAR_3Gen1_-A-AT Ti%;cds:3Gen3_CT-C-MC3%;cds:4Gen3_CT-C-C C>T在MC1%;cds:3Gen2_T-C-C MC1%;cds:A3G_C-C-G>T%;cds:3Gen1_-C-CA Ti%;cds:3Gen1_-C-TG G非同义%;cds:3Gen2_A-C-C非同义%;g:2Gen1_-C-T C>G+G>C g%;cds:所有A非同义%;cds:A3Gi_SG-C-G MC2%;cds:主要脱氨酶%;cds:4Gen3_TT-C-T%;g:A3Bj_RT-C-G C>T+G>Ag%;cds:3Gen2_T-C-C MC3%;cds:4Gen3_TT-C-C%;cds:3Gen1_-C-CA Ti C:G%;cds:A1_-C-A G>A在MC3 cds%;cds:A3Gb_-C-G G>A在MC2基序%;cds:3Gen3_CT-C-G非同义%;cds:3Gen2_G-C-T C:G%;cds:A3Ge_SC-C-GS%;cds:3Gen3_TG-C-G>A%;g:C>A+G>T%;cds:4Gen3_CA-C-C%;cds:AIDd_WR-C-YG>C%;cds:所有G%;cds:3Gen3_TT-C-C>A在MC1基序%;g:AIDh_WR-C-T C>A+G>T g%;g:4Gen3_GG-C-G C>T+G>Ag%;cds:3Gen2_G-C-T C>A基序%;nc:ADARc_SW-A-Y A>G+T>Cnc%;g:3Gen2_A-C-C C>A+G>T g%;cds:A3B_T-C-W Ti%;g:3Gen3_GA-C-C>A+G>T g%;cds:3Gen3_CT-C-C>T在MC1基序%;cds:ADAR_3Gen1_-A-CC A>G cds%;cds:3Gen1_-C-TCC>T cds%;cds:4Gen3_CA-C-C MC1%;cds:3Gen2_G-C-T%;nc:2Gen2_A-C-C>T+G>A nc%;cds:3Gen2_A-C-C MC2%;cds:A3F_T-C-C>A%;cds:CDS变体;cds:ADAR_3Gen3_CA-A-Ti%;cds:3Gen3_GG-C-非同义%;cds:ADARb_W-A-Y MC2%;g:ADAR_W-A-A>G+T>C%;cds:3Gen3_AT-C-C:G%;cds:2Gen1_-C-C G>T在MC1%;cds:A3G_C-C-MC3%;cds:3Gen2_C-C-C MC3%;cds:A3B_T-C-W G>A基序%;cds:A3F_T-C-G>C%;cds:ADAR_2Gen2_G-T-MC2%;cds:3Gen1_-C-AG G Ti/Tv%;cds:A3Bj_RT-C-G Ti%;nc:ADARb_W-A-Y A>G+T>C nc%;cds:ADAR_2Gen2_T-T-%;g:2Gen1_-C-T%;cds:4Gen3_AC-C-T Ti/Tv%;cds:A3Gi_SG-C-G非同义%;cds:A3Bf_ST-C-G Ti%;g:ADARk_CW-A-A>G+T>C g%;cds:3Gen1_-C-GC MC2%;g:3Gen3_CA-C-C>T+G>A g%;cds:2Gen2_A-C-MC3%;在VCF中的变体;cds:4Gen3_AG-C-T MC1非同义%;g:3Gen2_T-C-G C>T+G>Ag%;cds:A3Gn_YYC-C-S C>T在MC3 cds%;cds:ADAR_3Gen1_-A-CA%;cds:4Gen3_TA-C-C非同义%;cds:所有C Ti/Tv%;cds:ADARc_SW-A-Y,以及与其相关的度量;或者
f)所述癌症是皮肤癌并且所述多于一个度量包括选自以下的最少或约5个度量:cds:4Gen3_AG-C-T MC1非同义%;cds:3Gen1_-C-CG G>A在MC3%;cds:4Gen3_AC-C-T Ti/Tv%;g:C>G+G>C%;cds:A3B_T-C-W MC3非同义%;cds:所有A非同义%;cds:3Gen3_AG-C-MC2%;cds:A3B_T-C-W MC1%;cds:ADAR_3Gen2_C-A-C T>G在MC3 cds%;cds:3Gen1_-C-TC C>T在MC3%;cds:4Gen3_GC-C-C C>T在MC2%;cds:所有C Ti/Tv%;cds:A3Bj_RT-C-G Ti%;cds:AIDh_WR-C-T G>A在MC2cds%;cds:4Gen3_TT-C-C%;cds:3Gen1_-C-CC C>T在MC1基序%;cds:ADAR_2Gen2_T-T-%;cds:3Gen2_T-C-C MC1%;cds:所有G%;cds:ADAR_W-A-A>G在MC3%;cds:A3G_C-C-MC3%;cds:其他MC3C%;g:3Gen2_A-C-C C>A+G>T g%;cds:ADARc_SW-A-Y MC2%;cds:3Gen1_-C-CA Ti C:G%;cds:3Gen1_-C-TC C>T cds%;cds:3Gen2_C-C-C MC3%;cds:3Gen3_CT-C-C>T在MC1基序%;g:ADAR_4Gen3_AG-A-G A>C+T>G%;cds:3Gen3_CT-C-G非同义%;cds:3Gen2_A-C-C非同义%;cds:2Gen2_A-C-MC3%;cds:3Gen2_A-C-C MC2%;g:3Gen1_-C-TC C>T+G>Ag%;cds:3Gen2_T-C-T G>A在MC2%;cds:2Gen1_-C-CC>T在MC1%;cds:AIDb_WR-C-G G非同义%;cds:A3Gb_-C-G MC1%;cds:2Gen1_-C-C C>A%;cds:A3Ge_SC-C-GS%;g:ADARn_-A-WA A>G+T>C%;g:ADAR_W-A-A>G+T>C%;g:ADAR_2Gen2_G-T-A>T+T>A%;g:AIDh_WR-C-T C>A+G>T g%;cds:4Gen3_TG-C-T Ti C:G%;cds:3Gen2_G-C-T C:G%;cds:3Gen2_T-C-C MC3%;nc:ADARb_W-A-Y%;cds:ADAR_3Gen2_G-A-C非同义%;cds:ADAR_3Gen1_-A-AT Ti%;g:ADARk_CW-A-A>G+T>C g%;cds:3Gen1_-C-GCMC2%;cds:4Gen3_TA-C-C非同义%;g:3Gen3_CA-C-C>T+G>Ag%;cds:3Gen1_-C-AG G Ti/Tv%;cds:AIDc_WR-C-GS%;cds:A3Gn_YYC-C-S C>T在MC3 cds%;cds:2Gen1_-C-C MC2%;cds:3Gen3_GG-C-非同义%;g:2Gen1_-C-T C>G+G>C g%;cds:A1_-C-A G>A在MC3 cds%;cds:A3G_C-C-C>T在MC1%;nc:ADARc_SW-A-Y A>G+T>C nc%;cds:ADAR_W-A-T>C在MC2%;cds:A3Go_TC-C-G MC1非同义%;cds:3Gen3_AT-C-C:G%;cds:ADARh_W-A-S T>C%;cds:A3G_C-C-G>T%;cds:ADARf_SW-A-MC2%;cds:ADAR_W-A-非同义%;cds:ADARp_-A-WT T>A基序%;cds:4Gen3_AG-C-T G>A在MC1基序%;cds:ADAR_3Gen1_-A-CA%;cds:3Gen2_C-C-TMC3%;cds:3Gen1_-C-CT C>T在MC2 cds%;cds:A3B_T-C-W Ti%;g:2Gen1_-C-T%;cds:AIDc_WR-C-GS MC3%;cds:AIDe_WR-C-GW命中;cds:AIDd_WR-C-Y C>A cds%;cds:ADARb_W-A-Y MC2%;cds:A3Gc_C-C-GW C>T基序%;cds:2Gen1_-C-C G>T在MC1%;cds:3Gen1_-C-CA Ti%;cds:其他G MC3 Ti/Tv%;cds:CDS变体;cds:ADAR_3Gen1_-A-CC A>G cds%;cds:A3Gn_YYC-C-S C>T%;cds:A3Bf_ST-C-G Ti%;cds:2Gen2_G-C-命中;cds:AIDd_WR-C-Y%;cds:A3F_T-C-G>C%;cds:4Gen3_CT-C-C C>T在MC1%;cds:AIDd_WR-C-Y G>C%;cds:A3Gi_SG-C-G MC2%;cds:其他MC3%;nc:2Gen1_-C-T C>A+G>T nc%;cds:3Gen2_G-C-T%;g:3Gen2_T-C-G C>T+G>Ag%;cds:ADARc_SW-A-Y T>C cds%,以及与其相关的度量。
16.根据权利要求12-15中任一项所述的系统,其中所述至少一个计算模型包括决策树。
17.根据权利要求12-16中任一项所述的系统,其中所述至少一个计算模型包括多于一个决策树,并且其中所述疗法指标通过聚合来自所述多于一个决策树的结果来产生。
18.一种用于计算至少一个计算模型的系统,所述至少一个计算模型用于产生用于评估受试者中癌症进展或复发的可能性的进展指标,所述系统包含一个或更多个电子处理装置,所述电子处理装置:
a)对于多于一个参考受试者中的每一个:
i)获得指示以下内容的参考受试者数据:
(1)来自所述参考受试者的核酸分子的序列;以及,
(2)癌症进展或复发;
ii)分析所述参考受试者数据以鉴定所述核酸分子内的单核苷酸变异(SNV);
iii)使用鉴定的SNV确定多于一个度量,所述多于一个度量包括选自表D中列出的度量和与表D中列出的度量相关的度量的5个或更多个度量;以及
b)使用所述多于一个参考度量和参考受试者的已知癌症进展或复发来训练至少一个计算模型,所述至少一个计算模型体现癌症进展或复发与所述多于一个度量之间的关系。
19.根据权利要求18所述的系统,其中所述多于一个度量包括选自表D中列出的度量和与表D中列出的度量相关的度量的至少10个、15个、20个、35个、30个、40个、45个或50个度量。
20.根据权利要求18或权利要求19所述的系统,其中所述癌症选自肾上腺癌、乳腺癌、脑癌、前列腺癌、肝癌、结肠癌、胃癌、胰腺癌、皮肤癌、甲状腺癌、宫颈癌、淋巴癌、造血系统癌、膀胱癌、肺癌、肾癌、直肠癌、卵巢癌、子宫癌、头颈癌、间皮瘤和肉瘤。
21.根据权利要求18-20中任一项所述的系统,其中:
a)所述癌症是间皮瘤并且所述多于一个度量包括选自以下的最少或约5个度量:cds:A3Bf_ST-C-G Ti%;g:3Gen2_T-C-G C>T+G>Ag%;cds:2Gen1_-C-C C>T在MC1%;cds:所有CTi/Tv%;g:3Gen3_CA-C-C>T+G>Ag%;cds:3Gen2_C-C-C MC3%;cds:A3Gn_YYC-C-S C>T%;cds:A3G_C-C-MC3%;cds:3Gen3_GG-C-非同义%;g:3Gen2_A-C-C C>A+G>T g%;cds:4Gen3_TT-C-C%;cds:3Gen2_C-C-T MC3%;g:2Gen1_-C-T C>G+G>C g%;cds:主要脱氨酶%;cds:A3Gb_-C-G G>A在MC2基序%;cds:4Gen3_CA-C-C%;cds:A3G_C-C-G>T%;cds:A3Gi_SG-C-G非同义%;g:C>G+G>C%;cds:其他MC3%;cds:A3B_T-C-W G>A基序%,以及与其相关的度量;
b)所述癌症是肾上腺皮质癌并且所述多于一个度量包括选自以下的最少或约5个度量:cds:所有G总计;cds:3Gen1_-C-TG G非同义%;g:A3F_T-C-命中;cds:3Gen3_GG-C-非同义%;cds:3Gen1_-C-GT G>A基序%;cds:A3Bj_RT-C-G Ti%;cds:3Gen2_C-C-T MC3%;nc:A3G_C-C-C>T+G>A nc%;cds:AIDd_WR-C-Y%;cds:3Gen1_-C-TC C>T cds%;cds:A3B_T-C-W G>A基序%;g:CG总计;cds:A3G_C-C-MC3%;cds:AIDb_WR-C-G G非同义%;cds:A3G_C-C-C>T在MC1%;cds:3Gen3_TG-C-G>A%;g:3Gen3_GA-C-C>A+G>T g%;cds:3Gen2_A-C-G MC2非同义%;cds:3Gen3_CT-C-MC3%;cds:ADAR_2Gen2_G-T-MC2%;cds:ADAR_3Gen3_CA-A-Ti%;g:AIDh_WR-C-T C>A+G>T g%;cds:A3B_T-C-W MC3非同义%;cds:2Gen1_-C-C C>A%;cds:A1_-C-A G>A在MC3 cds%;cds:3Gen1_-C-CA Ti C:G%;cds:ADAR_W-A-非同义%;cds:3Gen1_-C-CA Ti%;cds:所有G%;g:3Gen2_T-C-G C>T+G>Ag%;cds:A3Gb_-C-GMC1%;cds:A3B_T-C-W G非同义%;nc:2Gen2_A-C-C>T+G>A nc%;cds:A3Gi_SG-C-G非同义%;cds:其他G MC3 Ti/Tv%;cds:A3Gb_-C-G G>A在MC2基序%;cds:A3B_T-C-W Ti%;和g:2Gen1_-C-T%,以及与其相关的度量;
c)所述癌症是脑癌并且所述多于一个度量包括选自以下的最少或约5个度量:g:CG总计;cds:AIDd_WR-C-Y%;在VCF中的变体;cds:4Gen3_TA-C-C非同义%;cds:3Gen2_C-C-TMC3%;cds:AIDd_WR-C-Y G>C%;cds:A3Gb_-C-G MC1%;g:3Gen2_T-C-G C>T+G>Ag%;cds:A3B_T-C-W G非同义%;g:3Gen3_GA-C-C>A+G>T g%;cds:2Gen2_G-C-命中;cds:AIDc_WR-C-GS MC3%;cds:所有G总计;cds:所有A非同义%;cds:ADAR_2Gen2_T-T-%;cds:3Gen2_A-C-C非同义%;g:3Gen3_CA-C-C>T+G>Ag%;g:ADARk_CW-A-A>G+T>C g%;nc:ADARb_W-A-Y A>G+T>C nc%;g:2Gen1_-C-T%;cds:其他MC3 C%;g:2Gen1_-C-T C>G+G>C g%;cds:ADAR_W-A-非同义%;g:3Gen2_A-C-C C>A+G>T g%;g:ADAR_2Gen2_G-T-A>T+T>A%;cds:A3G_C-C-C>T在MC1%;cds:3Gen1_-C-GC MC2%;cds:3Gen2_G-C-T%;cds:A3F_T-C-G>C%;g:4Gen3_GG-C-G C>T+G>Ag%;cds:A3Gb_-C-G G>A在MC2基序%;cds:ADARb_W-A-Y MC2%;cds:所有G%;g:A3F_T-C-命中;cds:3Gen2_T-C-C MC1%;cds:A3B_T-C-W Ti%;cds:ADAR_3Gen1_-A-AT Ti%;cds:ADARh_W-A-S T>C%;cds:A3Gn_YYC-C-S C>T%;cds:A3Ge_SC-C-GS%;cds:2Gen2_A-C-MC3%;cds:ADAR_2Gen2_G-T-MC2%;cds:ADAR_3Gen3_CA-A-Ti%;cds:主要脱氨酶%;g:C>G+G>C%;cds:A3Bf_ST-C-G Ti%;cds:3Gen3_CT-C-MC3%;cds:A3Gi_SG-C-G非同义%;cds:其他MC3%;cds:ADAR_3Gen1_-A-CA%;cds:A3F_T-C-C>A%;cds:2Gen1_-C-C C>T在MC1%;cds:A3Gc_C-C-GW C>T基序%;cds:AIDc_WR-C-GS%;g:ADAR_2Gen1_-T-T A>T+T>A%;cds:A3B_T-C-W MC1%;cds:ADAR_3Gen2_G-A-C非同义%;cds:2Gen1_-C-C C>A%;cds:3Gen1_-C-GT G>A基序%;cds:A3Bj_RT-C-G Ti%;g:3Gen1_-C-TC C>T+G>Ag%;g:C>A+G>T%;cds:3Gen2_A-C-C MC2%;cds:2Gen1_-C-C MC2%;g:3Gen2_G-C-T%;g:A3Bj_RT-C-G C>T+G>Ag%;g:ADAR_W-A-A>G+T>C%;cds:3Gen3_AT-C-C:G%;cds:3Gen1_-C-TG G非同义%;cds:其他G MC3 Ti/Tv%;cds:A3Gb_-C-G G>A MC2命中;cds:3Gen1_-C-TC C>T cds%;cds:2Gen1_-C-T MC3非同义%;cds:AIDb_WR-C-G G非同义%;g:AIDc_WR-C-GS命中;cds:3Gen2_T-C-C MC3%;cds:3Gen2_T-C-G Ti/Tv%;cds:A1_-C-A G>A在MC3 cds%;nc:A3G_C-C-C>T+G>A nc%;nc:2Gen2_A-C-C>T+G>A nc%;cds:3Gen3_TG-C-G Ti/Tv%;cds:3Gen1_-C-CA Ti%;cds:3Gen3_TG-C-G>A%;cds:3Gen3_CT-C-G非同义%;cds:所有C Ti/Tv%;cds:A3G_C-C-MC3%;cds:ADARc_SW-A-Y MC2%;和cds:3Gen3_GG-C-非同义%,以及与其相关的度量;
d)所述癌症是肉瘤并且所述多于一个度量包括选自以下的最少或约5个度量:cds:其他MC3 C%;nc:ADARb_W-A-Y A>G+T>C nc%;cds:4Gen3_TT-C-T%;g:ADARk_CW-A-A>G+T>Cg%;g:ADARn_-A-WA A>G+T>C%;cds:A3G_C-C-G>T%;cds:A3Gb_-C-G MC1%;nc:ADARb_W-A-Y%;cds:A3Ge_SC-C-GS%;cds:主要脱氨酶%;cds:ADAR_2Gen2_G-T-MC2%;g:4Gen3_GG-C-G C>T+G>Ag%;cds:2Gen1_-C-C MC2%;cds:3Gen1_-C-GT G>A基序%;cds:A3Gn_YYC-C-S C>T%;cds:2Gen1_-C-C C>T在MC1%;cds:A3B_T-C-W MC3非同义%;cds:AIDd_WR-C-Y%;g:3Gen3_CA-C-C>T+G>Ag%;cds:所有A非同义%;g:2Gen1_-C-T C>G+G>C g%;cds:ADARb_W-A-Y MC2%;cds:所有G%;g:A3Bj_RT-C-G C>T+G>A g%;cds:A3Gn_YYC-C-SC>T在MC3 cds%;cds:A3B_T-C-W G非同义%;cds:A3G_C-C-MC3%;cds:所有G总计;cds:CDS变体;g:CG总计;g:3Gen2_T-C-G C>T+G>Ag%;cds:A3B_T-C-W MC1%;cds:ADAR_3Gen3_CA-A-Ti%;cds:AIDc_WR-C-GS%,以及与其相关的度量;
e)所述癌症是肺癌并且所述多于一个度量包括选自以下的最少或约5个度量:cds:3Gen1_-C-CC C>T在MC1基序%;cds:3Gen1_-C-CT C>T在MC2 cds%;cds:ADARp_-A-WT A>G在MC2 cds%;cds:其他MC3 C%;cds:其他MC3%;cds:A3Gb_-C-G MC1%;g:3Gen1_-C-TC C>T+G>Ag%;cds:ADAR_W-A-A>G在MC3%;cds:ADAR_W-A-非同义%;cds:ADAR_3Gen3_AC-A-A>G cds%;cds:2Gen1_-C-C C>A%;cds:ADARf_SW-A-MC2%;g:ADAR_2Gen2_G-T-A>T+T>A%;cds:4Gen3_GC-C-A%;cds:A3Go_TC-C-G MC1非同义%;g:3Gen2_G-C-T%;cds:A3G_C-C-C>T在MC1%;cds:AIDc_WR-C-GS MC3%;cds:3Gen1_-C-GT G>A基序%;nc:2Gen1_-C-T C>A+G>T nc%;cds:ADARc_SW-A-Y MC2%;cds:ADARh_W-A-S T>C%;cds:2Gen1_-C-C C>T在MC1%;g:ADAR_2Gen1_-T-T A>T+T>A%;cds:AIDd_WR-C-Y C>A cds%;nc:A3G_C-C-C>T+G>A nc%;cds:A3Gc_C-C-GW C>T基序%;cds:ADAR_3Gen1_-A-AT Ti%;cds:3Gen3_CT-C-MC3%;cds:4Gen3_CT-C-C C>T在MC1%;cds:3Gen2_T-C-C MC1%;cds:A3G_C-C-G>T%;cds:3Gen1_-C-CA Ti%;cds:3Gen1_-C-TG G非同义%;cds:3Gen2_A-C-C非同义%;g:2Gen1_-C-T C>G+G>C g%;cds:所有A非同义%;cds:A3Gi_SG-C-G MC2%;cds:主要脱氨酶%;cds:4Gen3_TT-C-T%;g:A3Bj_RT-C-G C>T+G>Ag%;cds:3Gen2_T-C-C MC3%;cds:4Gen3_TT-C-C%;cds:3Gen1_-C-CA Ti C:G%;cds:A1_-C-A G>A在MC3 cds%;cds:A3Gb_-C-G G>A在MC2基序%;cds:3Gen3_CT-C-G非同义%;cds:3Gen2_G-C-T C:G%;cds:A3Ge_SC-C-GS%;cds:3Gen3_TG-C-G>A%;g:C>A+G>T%;cds:4Gen3_CA-C-C%;cds:AIDd_WR-C-YG>C%;cds:所有G%;cds:3Gen3_TT-C-C>A在MC1基序%;g:AIDh_WR-C-T C>A+G>T g%;g:4Gen3_GG-C-G C>T+G>A g%;cds:3Gen2_G-C-T C>A基序%;nc:ADARc_SW-A-Y A>G+T>Cnc%;g:3Gen2_A-C-C C>A+G>T g%;cds:A3B_T-C-W Ti%;g:3Gen3_GA-C-C>A+G>T g%;cds:3Gen3_CT-C-C>T在MC1基序%;cds:ADAR_3Gen1_-A-CC A>G cds%;cds:3Gen1_-C-TCC>T cds%;cds:4Gen3_CA-C-C MC1%;cds:3Gen2_G-C-T%;nc:2Gen2_A-C-C>T+G>A nc%;cds:3Gen2_A-C-C MC2%;cds:A3F_T-C-C>A%;cds:CDS变体;cds:ADAR_3Gen3_CA-A-Ti%;cds:3Gen3_GG-C-非同义%;cds:ADARb_W-A-Y MC2%;g:ADAR_W-A-A>G+T>C%;cds:3Gen3_AT-C-C:G%;cds:2Gen1_-C-C G>T在MC1%;cds:A3G_C-C-MC3%;cds:3Gen2_C-C-C MC3%;cds:A3B_T-C-W G>A基序%;cds:A3F_T-C-G>C%;cds:ADAR_2Gen2_G-T-MC2%;cds:3Gen1_-C-AG G Ti/Tv%;cds:A3Bj_RT-C-G Ti%;nc:ADARb_W-A-Y A>G+T>C nc%;cds:ADAR_2Gen2_T-T-%;g:2Gen1_-C-T%;cds:4Gen3_AC-C-T Ti/Tv%;cds:A3Gi_SG-C-G非同义%;cds:A3Bf_ST-C-G Ti%;g:ADARk_CW-A-A>G+T>C g%;cds:3Gen1_-C-GC MC2%;g:3Gen3_CA-C-C>T+G>A g%;cds:2Gen2_A-C-MC3%;在VCF中的变体;cds:4Gen3_AG-C-T MC1非同义%;g:3Gen2_T-C-G C>T+G>Ag%;cds:A3Gn_YYC-C-S C>T在MC3 cds%;cds:ADAR_3Gen1_-A-CA%;cds:4Gen3_TA-C-C非同义%;cds:所有C Ti/Tv%;cds:ADARc_SW-A-Y,以及与其相关的度量;或者
f)所述癌症是皮肤癌并且所述多于一个度量包括选自以下的最少或约5个度量:cds:4Gen3_AG-C-T MC1非同义%;cds:3Gen1_-C-CG G>A在MC3%;cds:4Gen3_AC-C-T Ti/Tv%;g:C>G+G>C%;cds:A3B_T-C-W MC3非同义%;cds:所有A非同义%;cds:3Gen3_AG-C-MC2%;cds:A3B_T-C-W MC1%;cds:ADAR_3Gen2_C-A-C T>G在MC3 cds%;cds:3Gen1_-C-TC C>T在MC3%;cds:4Gen3_GC-C-C C>T在MC2%;cds:所有C Ti/Tv%;cds:A3Bj_RT-C-G Ti%;cds:AIDh_WR-C-T G>A在MC2cds%;cds:4Gen3_TT-C-C%;cds:3Gen1_-C-CC C>T在MC1基序%;cds:ADAR_2Gen2_T-T-%;cds:3Gen2_T-C-C MC1%;cds:所有G%;cds:ADAR_W-A-A>G在MC3%;cds:A3G_C-C-MC3%;cds:其他MC3C%;g:3Gen2_A-C-C C>A+G>T g%;cds:ADARc_SW-A-Y MC2%;cds:3Gen1_-C-CA Ti C:G%;cds:3Gen1_-C-TC C>T cds%;cds:3Gen2_C-C-C MC3%;cds:3Gen3_CT-C-C>T在MC1基序%;g:ADAR_4Gen3_AG-A-G A>C+T>G%;cds:3Gen3_CT-C-G非同义%;cds:3Gen2_A-C-C非同义%;cds:2Gen2_A-C-MC3%;cds:3Gen2_A-C-C MC2%;g:3Gen1_-C-TC C>T+G>Ag%;cds:3Gen2_T-C-T G>A在MC2%;cds:2Gen1_-C-CC>T在MC1%;cds:AIDb_WR-C-G G非同义%;cds:A3Gb_-C-G MC1%;cds:2Gen1_-C-C C>A%;cds:A3Ge_SC-C-GS%;g:ADARn_-A-WA A>G+T>C%;g:ADAR_W-A-A>G+T>C%;g:ADAR_2Gen2_G-T-A>T+T>A%;g:AIDh_WR-C-T C>A+G>T g%;cds:4Gen3_TG-C-T Ti C:G%;cds:3Gen2_G-C-T C:G%;cds:3Gen2_T-C-C MC3%;nc:ADARb_W-A-Y%;cds:ADAR_3Gen2_G-A-C非同义%;cds:ADAR_3Gen1_-A-AT Ti%;g:ADARk_CW-A-A>G+T>C g%;cds:3Gen1_-C-GCMC2%;cds:4Gen3_TA-C-C非同义%;g:3Gen3_CA-C-C>T+G>Ag%;cds:3Gen1_-C-AG G Ti/Tv%;cds:AIDc_WR-C-GS%;cds:A3Gn_YYC-C-S C>T在MC3 cds%;cds:2Gen1_-C-C MC2%;cds:3Gen3_GG-C-非同义%;g:2Gen1_-C-T C>G+G>C g%;cds:A1_-C-A G>A在MC3 cds%;cds:A3G_C-C-C>T在MC1%;nc:ADARc_SW-A-Y A>G+T>C nc%;cds:ADAR_W-A-T>C在MC2%;cds:A3Go_TC-C-G MC1非同义%;cds:3Gen3_AT-C-C:G%;cds:ADARh_W-A-S T>C%;cds:A3G_C-C-G>T%;cds:ADARf_SW-A-MC2%;cds:ADAR_W-A-非同义%;cds:ADARp_-A-WT T>A基序%;cds:4Gen3_AG-C-T G>A在MC1基序%;cds:ADAR_3Gen1_-A-CA%;cds:3Gen2_C-C-TMC3%;cds:3Gen1_-C-CT C>T在MC2 cds%;cds:A3B_T-C-W Ti%;g:2Gen1_-C-T%;cds:AIDc_WR-C-GS MC3%;cds:AIDe_WR-C-GW命中;cds:AIDd_WR-C-Y C>A cds%;cds:ADARb_W-A-Y MC2%;cds:A3Gc_C-C-GW C>T基序%;cds:2Gen1_-C-C G>T在MC1%;cds:3Gen1_-C-CA Ti%;cds:其他G MC3 Ti/Tv%;cds:CDS变体;cds:ADAR_3Gen1_-A-CC A>G cds%;cds:A3Gn_YYC-C-S C>T%;cds:A3Bf_ST-C-G Ti%;cds:2Gen2_G-C-命中;cds:AIDd_WR-C-Y%;cds:A3F_T-C-G>C%;cds:4Gen3_CT-C-C C>T在MC1%;cds:AIDd_WR-C-Y G>C%;cds:A3Gi_SG-C-G MC2%;cds:其他MC3%;nc:2Gen1_-C-T C>A+G>T nc%;cds:3Gen2_G-C-T%;g:3Gen2_T-C-G C>T+G>Ag%;cds:ADARc_SW-A-Y T>C cds%,以及与其相关的度量。
22.根据权利要求18-21中任一项所述的系统,其中所述一个或更多个处理装置测试所述至少一个计算模型以确定所述模型的鉴别性能。
23.根据权利要求22所述的系统,其中所述鉴别性能基于以下中的至少一项:
a)接收者操作特征曲线下面积;
b)准确性;
c)灵敏度;和,
d)特异性。
24.根据权利要求22或权利要求23所述的系统,其中所述鉴别性能为至少60%。
25.根据权利要求18至24中任一项所述的系统,其中所述一个或更多个处理装置使用来自所述多于一个参考受试者的子集的参考受试者数据来测试所述至少一个计算模型。
26.根据权利要求18-25中任一项所述的系统,其中所述一个或更多个处理装置:
a)选择多于一个参考度量;
b)使用所述多于一个参考度量训练至少一个计算模型;
c)测试所述至少一个计算模型以确定所述模型的鉴别性能;以及,
d)如果所述模型的鉴别性能低于阈值,则进行以下中的至少一项:
i)使用不同的多于一个参考度量选择性地重新训练所述至少一个计算模型;以及,
ii)训练不同计算模型。
27.根据权利要求18至26中任一项所述的系统,其中所述一个或更多个处理装置:
a)选择参考度量的多于一个组合;
b)使用所述组合中的每一个训练多于一个计算模型;
c)测试每一个计算模型以确定所述模型的鉴别性能;以及,
d)选择具有最高鉴别性能的至少一个计算模型,用于确定所述进展指标。
28.一种用于产生用于评估受试者中癌症进展或复发的可能性的进展指标的方法,所述方法包括,在一个或更多个电子处理装置中:
a)从所述受试者获得指示核酸分子序列的受试者数据;
b)分析所述受试者数据以鉴定所述核酸分子内的单核苷酸变异(SNV);
c)使用鉴定的SNV确定多于一个度量,所述多于一个度量包括选自表D中列出的度量和与表D中列出的度量相关的度量的5个或更多个度量;以及
d)将所述多于一个度量应用于至少一个计算模型,以确定指示癌症进展或复发的进展指标,所述至少一个计算模型体现癌症进展或复发与所述多于一个度量之间的关系,并且通过将机器学习应用于从具有已知癌症进展或复发的参考受试者获得的多于一个参考度量来导出。
29.根据权利要求28所述的方法,其中所述多于一个度量包括选自表D中列出的度量和与表D中列出的度量相关的度量的至少10个、15个、20个、35个、30个、40个、45个或50个度量。
30.根据权利要求28或29中任一项所述的方法,其中所述癌症选自肾上腺癌、乳腺癌、脑癌、前列腺癌、肝癌、结肠癌、胃癌、胰腺癌、皮肤癌、甲状腺癌、宫颈癌、淋巴癌、造血系统癌、膀胱癌、肺癌、肾癌、直肠癌、卵巢癌、子宫癌、头颈癌、间皮瘤和肉瘤。
31.根据权利要求28-30中任一项所述的方法,其中:
a)所述癌症是间皮瘤并且所述多于一个度量包括选自以下的最少或约5个度量:cds:A3Bf_ST-C-G Ti%;g:3Gen2_T-C-G C>T+G>Ag%;cds:2Gen1_-C-C C>T在MC1%;cds:所有CTi/Tv%;g:3Gen3_CA-C-C>T+G>Ag%;cds:3Gen2_C-C-C MC3%;cds:A3Gn_YYC-C-S C>T%;cds:A3G_C-C-MC3%;cds:3Gen3_GG-C-非同义%;g:3Gen2_A-C-C C>A+G>T g%;cds:4Gen3_TT-C-C%;cds:3Gen2_C-C-T MC3%;g:2Gen1_-C-T C>G+G>C g%;cds:主要脱氨酶%;cds:A3Gb_-C-G G>A在MC2基序%;cds:4Gen3_CA-C-C%;cds:A3G_C-C-G>T%;cds:A3Gi_SG-C-G非同义%;g:C>G+G>C%;cds:其他MC3%;cds:A3B_T-C-W G>A基序%,以及与其相关的度量;
b)所述癌症是肾上腺皮质癌并且所述多于一个度量包括选自以下的最少或约5个度量:cds:所有G总计;cds:3Gen1_-C-TG G非同义%;g:A3F_T-C-命中;cds:3Gen3_GG-C-非同义%;cds:3Gen1_-C-GT G>A基序%;cds:A3Bj_RT-C-G Ti%;cds:3Gen2_C-C-T MC3%;nc:A3G_C-C-C>T+G>A nc%;cds:AIDd_WR-C-Y%;cds:3Gen1_-C-TC C>T cds%;cds:A3B_T-C-W G>A基序%;g:CG总计;cds:A3G_C-C-MC3%;cds:AIDb_WR-C-G G非同义%;cds:A3G_C-C-C>T在MC1%;cds:3Gen3_TG-C-G>A%;g:3Gen3_GA-C-C>A+G>T g%;cds:3Gen2_A-C-G MC2非同义%;cds:3Gen3_CT-C-MC3%;cds:ADAR_2Gen2_G-T-MC2%;cds:ADAR_3Gen3_CA-A-Ti%;g:AIDh_WR-C-T C>A+G>T g%;cds:A3B_T-C-W MC3非同义%;cds:2Gen1_-C-C C>A%;cds:A1_-C-A G>A在MC3 cds%;cds:3Gen1_-C-CA Ti C:G%;cds:ADAR_W-A-非同义%;cds:3Gen1_-C-CA Ti%;cds:所有G%;g:3Gen2_T-C-G C>T+G>Ag%;cds:A3Gb_-C-GMC1%;cds:A3B_T-C-W G非同义%;nc:2Gen2_A-C-C>T+G>A nc%;cds:A3Gi_SG-C-G非同义%;cds:其他G MC3 Ti/Tv%;cds:A3Gb_-C-G G>A在MC2基序%;cds:A3B_T-C-W Ti%;和g:2Gen1_-C-T%,以及与其相关的度量;
c)所述癌症是脑癌并且所述多于一个度量包括选自以下的最少或约5个度量:g:CG总计;cds:AIDd_WR-C-Y%;在VCF中的变体;cds:4Gen3_TA-C-C非同义%;cds:3Gen2_C-C-TMC3%;cds:AIDd_WR-C-Y G>C%;cds:A3Gb_-C-G MC1%;g:3Gen2_T-C-G C>T+G>Ag%;cds:A3B_T-C-W G非同义%;g:3Gen3_GA-C-C>A+G>T g%;cds:2Gen2_G-C-命中;cds:AIDc_WR-C-GS MC3%;cds:所有G总计;cds:所有A非同义%;cds:ADAR_2Gen2_T-T-%;cds:3Gen2_A-C-C非同义%;g:3Gen3_CA-C-C>T+G>Ag%;g:ADARk_CW-A-A>G+T>C g%;nc:ADARb_W-A-Y A>G+T>C nc%;g:2Gen1_-C-T%;cds:其他MC3 C%;g:2Gen1_-C-T C>G+G>C g%;cds:ADAR_W-A-非同义%;g:3Gen2_A-C-C C>A+G>T g%;g:ADAR_2Gen2_G-T-A>T+T>A%;cds:A3G_C-C-C>T在MC1%;cds:3Gen1_-C-GC MC2%;cds:3Gen2_G-C-T%;cds:A3F_T-C-G>C%;g:4Gen3_GG-C-G C>T+G>Ag%;cds:A3Gb_-C-G G>A在MC2基序%;cds:ADARb_W-A-Y MC2%;cds:所有G%;g:A3F_T-C-命中;cds:3Gen2_T-C-C MC1%;cds:A3B_T-C-W Ti%;cds:ADAR_3Gen1_-A-AT Ti%;cds:ADARh_W-A-S T>C%;cds:A3Gn_YYC-C-S C>T%;cds:A3Ge_SC-C-GS%;cds:2Gen2_A-C-MC3%;cds:ADAR_2Gen2_G-T-MC2%;cds:ADAR_3Gen3_CA-A-Ti%;cds:主要脱氨酶%;g:C>G+G>C%;cds:A3Bf_ST-C-G Ti%;cds:3Gen3_CT-C-MC3%;cds:A3Gi_SG-C-G非同义%;cds:其他MC3%;cds:ADAR_3Gen1_-A-CA%;cds:A3F_T-C-C>A%;cds:2Gen1_-C-C C>T在MC1%;cds:A3Gc_C-C-GW C>T基序%;cds:AIDc_WR-C-GS%;g:ADAR_2Gen1_-T-T A>T+T>A%;cds:A3B_T-C-W MC1%;cds:ADAR_3Gen2_G-A-C非同义%;cds:2Gen1_-C-C C>A%;cds:3Gen1_-C-GT G>A基序%;cds:A3Bj_RT-C-G Ti%;g:3Gen1_-C-TC C>T+G>Ag%;g:C>A+G>T%;cds:3Gen2_A-C-C MC2%;cds:2Gen1_-C-C MC2%;g:3Gen2_G-C-T%;g:A3Bj_RT-C-G C>T+G>Ag%;g:ADAR_W-A-A>G+T>C%;cds:3Gen3_AT-C-C:G%;cds:3Gen1_-C-TG G非同义%;cds:其他G MC3 Ti/Tv%;cds:A3Gb_-C-G G>A MC2命中;cds:3Gen1_-C-TC C>T cds%;cds:2Gen1_-C-T MC3非同义%;cds:AIDb_WR-C-G G非同义%;g:AIDc_WR-C-GS命中;cds:3Gen2_T-C-C MC3%;cds:3Gen2_T-C-G Ti/Tv%;cds:A1_-C-A G>A在MC3 cds%;nc:A3G_C-C-C>T+G>A nc%;nc:2Gen2_A-C-C>T+G>A nc%;cds:3Gen3_TG-C-G Ti/Tv%;cds:3Gen1_-C-CA Ti%;cds:3Gen3_TG-C-G>A%;cds:3Gen3_CT-C-G非同义%;cds:所有C Ti/Tv%;cds:A3G_C-C-MC3%;cds:ADARc_SW-A-Y MC2%;和cds:3Gen3_GG-C-非同义%,以及与其相关的度量;
d)所述癌症是肉瘤并且所述多于一个度量包括选自以下的最少或约5个度量:cds:其他MC3 C%;nc:ADARb_W-A-Y A>G+T>C nc%;cds:4Gen3_TT-C-T%;g:ADARk_CW-A-A>G+T>Cg%;g:ADARn_-A-WA A>G+T>C%;cds:A3G_C-C-G>T%;cds:A3Gb_-C-G MC1%;nc:ADARb_W-A-Y%;cds:A3Ge_SC-C-GS%;cds:主要脱氨酶%;cds:ADAR_2Gen2_G-T-MC2%;g:4Gen3_GG-C-G C>T+G>Ag%;cds:2Gen1_-C-C MC2%;cds:3Gen1_-C-GT G>A基序%;cds:A3Gn_YYC-C-S C>T%;cds:2Gen1_-C-C C>T在MC1%;cds:A3B_T-C-W MC3非同义%;cds:AIDd_WR-C-Y%;g:3Gen3_CA-C-C>T+G>Ag%;cds:所有A非同义%;g:2Gen1_-C-T C>G+G>C g%;cds:ADARb_W-A-Y MC2%;cds:所有G%;g:A3Bj_RT-C-G C>T+G>A g%;cds:A3Gn_YYC-C-SC>T在MC3 cds%;cds:A3B_T-C-W G非同义%;cds:A3G_C-C-MC3%;cds:所有G总计;cds:CDS变体;g:CG总计;g:3Gen2_T-C-G C>T+G>Ag%;cds:A3B_T-C-W MC1%;cds:ADAR_3Gen3_CA-A-Ti%;cds:AIDc_WR-C-GS%,以及与其相关的度量;
e)所述癌症是肺癌并且所述多于一个度量包括选自以下的最少或约5个度量:cds:3Gen1_-C-CC C>T在MC1基序%;cds:3Gen1_-C-CT C>T在MC2 cds%;cds:ADARp_-A-WT A>G在MC2 cds%;cds:其他MC3 C%;cds:其他MC3%;cds:A3Gb_-C-G MC1%;g:3Gen1_-C-TC C>T+G>Ag%;cds:ADAR_W-A-A>G在MC3%;cds:ADAR_W-A-非同义%;cds:ADAR_3Gen3_AC-A-A>G cds%;cds:2Gen1_-C-C C>A%;cds:ADARf_SW-A-MC2%;g:ADAR_2Gen2_G-T-A>T+T>A%;cds:4Gen3_GC-C-A%;cds:A3Go_TC-C-G MC1非同义%;g:3Gen2_G-C-T%;cds:A3G_C-C-C>T在MC1%;cds:AIDc_WR-C-GS MC3%;cds:3Gen1_-C-GT G>A基序%;nc:2Gen1_-C-T C>A+G>T nc%;cds:ADARc_SW-A-Y MC2%;cds:ADARh_W-A-S T>C%;cds:2Gen1_-C-C C>T在MC1%;g:ADAR_2Gen1_-T-T A>T+T>A%;cds:AIDd_WR-C-Y C>A cds%;nc:A3G_C-C-C>T+G>A nc%;cds:A3Gc_C-C-GW C>T基序%;cds:ADAR_3Gen1_-A-AT Ti%;cds:3Gen3_CT-C-MC3%;cds:4Gen3_CT-C-C C>T在MC1%;cds:3Gen2_T-C-C MC1%;cds:A3G_C-C-G>T%;cds:3Gen1_-C-CA Ti%;cds:3Gen1_-C-TG G非同义%;cds:3Gen2_A-C-C非同义%;g:2Gen1_-C-T C>G+G>C g%;cds:所有A非同义%;cds:A3Gi_SG-C-G MC2%;cds:主要脱氨酶%;cds:4Gen3_TT-C-T%;g:A3Bj_RT-C-G C>T+G>Ag%;cds:3Gen2_T-C-C MC3%;cds:4Gen3_TT-C-C%;cds:3Gen1_-C-CA Ti C:G%;cds:A1_-C-A G>A在MC3 cds%;cds:A3Gb_-C-G G>A在MC2基序%;cds:3Gen3_CT-C-G非同义%;cds:3Gen2_G-C-T C:G%;cds:A3Ge_SC-C-GS%;cds:3Gen3_TG-C-G>A%;g:C>A+G>T%;cds:4Gen3_CA-C-C%;cds:AIDd_WR-C-YG>C%;cds:所有G%;cds:3Gen3_TT-C-C>A在MC1基序%;g:AIDh_WR-C-T C>A+G>T g%;g:4Gen3_GG-C-G C>T+G>A g%;cds:3Gen2_G-C-T C>A基序%;nc:ADARc_SW-A-Y A>G+T>Cnc%;g:3Gen2_A-C-C C>A+G>T g%;cds:A3B_T-C-W Ti%;g:3Gen3_GA-C-C>A+G>T g%;cds:3Gen3_CT-C-C>T在MC1基序%;cds:ADAR_3Gen1_-A-CC A>G cds%;cds:3Gen1_-C-TCC>T cds%;cds:4Gen3_CA-C-C MC1%;cds:3Gen2_G-C-T%;nc:2Gen2_A-C-C>T+G>A nc%;cds:3Gen2_A-C-C MC2%;cds:A3F_T-C-C>A%;cds:CDS变体;cds:ADAR_3Gen3_CA-A-Ti%;cds:3Gen3_GG-C-非同义%;cds:ADARb_W-A-Y MC2%;g:ADAR_W-A-A>G+T>C%;cds:3Gen3_AT-C-C:G%;cds:2Gen1_-C-C G>T在MC1%;cds:A3G_C-C-MC3%;cds:3Gen2_C-C-C MC3%;cds:A3B_T-C-W G>A基序%;cds:A3F_T-C-G>C%;cds:ADAR_2Gen2_G-T-MC2%;cds:3Gen1_-C-AG G Ti/Tv%;cds:A3Bj_RT-C-G Ti%;nc:ADARb_W-A-Y A>G+T>C nc%;cds:ADAR_2Gen2_T-T-%;g:2Gen1_-C-T%;cds:4Gen3_AC-C-T Ti/Tv%;cds:A3Gi_SG-C-G非同义%;cds:A3Bf_ST-C-G Ti%;g:ADARk_CW-A-A>G+T>C g%;cds:3Gen1_-C-GC MC2%;g:3Gen3_CA-C-C>T+G>A g%;cds:2Gen2_A-C-MC3%;在VCF中的变体;cds:4Gen3_AG-C-T MC1非同义%;g:3Gen2_T-C-G C>T+G>Ag%;cds:A3Gn_YYC-C-S C>T在MC3 cds%;cds:ADAR_3Gen1_-A-CA%;cds:4Gen3_TA-C-C非同义%;cds:所有C Ti/Tv%;cds:ADARc_SW-A-Y,以及与其相关的度量;或者
f)所述癌症是皮肤癌并且所述多于一个度量包括选自以下的最少或约5个度量:cds:4Gen3_AG-C-T MC1非同义%;cds:3Gen1_-C-CG G>A在MC3%;cds:4Gen3_AC-C-T Ti/Tv%;g:C>G+G>C%;cds:A3B_T-C-W MC3非同义%;cds:所有A非同义%;cds:3Gen3_AG-C-MC2%;cds:A3B_T-C-W MC1%;cds:ADAR_3Gen2_C-A-C T>G在MC3 cds%;cds:3Gen1_-C-TC C>T在MC3%;cds:4Gen3_GC-C-C C>T在MC2%;cds:所有C Ti/Tv%;cds:A3Bj_RT-C-G Ti%;cds:AIDh_WR-C-T G>A在MC2cds%;cds:4Gen3_TT-C-C%;cds:3Gen1_-C-CC C>T在MC1基序%;cds:ADAR_2Gen2_T-T-%;cds:3Gen2_T-C-C MC1%;cds:所有G%;cds:ADAR_W-A-A>G在MC3%;cds:A3G_C-C-MC3%;cds:其他MC3C%;g:3Gen2_A-C-C C>A+G>T g%;cds:ADARc_SW-A-Y MC2%;cds:3Gen1_-C-CA Ti C:G%;cds:3Gen1_-C-TC C>T cds%;cds:3Gen2_C-C-C MC3%;cds:3Gen3_CT-C-C>T在MC1基序%;g:ADAR_4Gen3_AG-A-G A>C+T>G%;cds:3Gen3_CT-C-G非同义%;cds:3Gen2_A-C-C非同义%;cds:2Gen2_A-C-MC3%;cds:3Gen2_A-C-C MC2%;g:3Gen1_-C-TC C>T+G>Ag%;cds:3Gen2_T-C-T G>A在MC2%;cds:2Gen1_-C-CC>T在MC1%;cds:AIDb_WR-C-G G非同义%;cds:A3Gb_-C-G MC1%;cds:2Gen1_-C-C C>A%;cds:A3Ge_SC-C-GS%;g:ADARn_-A-WA A>G+T>C%;g:ADAR_W-A-A>G+T>C%;g:ADAR_2Gen2_G-T-A>T+T>A%;g:AIDh_WR-C-T C>A+G>T g%;cds:4Gen3_TG-C-T Ti C:G%;cds:3Gen2_G-C-T C:G%;cds:3Gen2_T-C-C MC3%;nc:ADARb_W-A-Y%;cds:ADAR_3Gen2_G-A-C非同义%;cds:ADAR_3Gen1_-A-AT Ti%;g:ADARk_CW-A-A>G+T>C g%;cds:3Gen1_-C-GCMC2%;cds:4Gen3_TA-C-C非同义%;g:3Gen3_CA-C-C>T+G>Ag%;cds:3Gen1_-C-AG G Ti/Tv%;cds:AIDc_WR-C-GS%;cds:A3Gn_YYC-C-S C>T在MC3 cds%;cds:2Gen1_-C-C MC2%;cds:3Gen3_GG-C-非同义%;g:2Gen1_-C-T C>G+G>C g%;cds:A1_-C-A G>A在MC3 cds%;cds:A3G_C-C-C>T在MC1%;nc:ADARc_SW-A-Y A>G+T>C nc%;cds:ADAR_W-A-T>C在MC2%;cds:A3Go_TC-C-G MC1非同义%;cds:3Gen3_AT-C-C:G%;cds:ADARh_W-A-S T>C%;cds:A3G_C-C-G>T%;cds:ADARf_SW-A-MC2%;cds:ADAR_W-A-非同义%;cds:ADARp_-A-WT T>A基序%;cds:4Gen3_AG-C-T G>A在MC1基序%;cds:ADAR_3Gen1_-A-CA%;cds:3Gen2_C-C-TMC3%;cds:3Gen1_-C-CT C>T在MC2 cds%;cds:A3B_T-C-W Ti%;g:2Gen1_-C-T%;cds:AIDc_WR-C-GS MC3%;cds:AIDe_WR-C-GW命中;cds:AIDd_WR-C-Y C>A cds%;cds:ADARb_W-A-Y MC2%;cds:A3Gc_C-C-GW C>T基序%;cds:2Gen1_-C-C G>T在MC1%;cds:3Gen1_-C-CA Ti%;cds:其他G MC3 Ti/Tv%;cds:CDS变体;cds:ADAR_3Gen1_-A-CC A>G cds%;cds:A3Gn_YYC-C-S C>T%;cds:A3Bf_ST-C-G Ti%;cds:2Gen2_G-C-命中;cds:AIDd_WR-C-Y%;cds:A3F_T-C-G>C%;cds:4Gen3_CT-C-C C>T在MC1%;cds:AIDd_WR-C-Y G>C%;cds:A3Gi_SG-C-G MC2%;cds:其他MC3%;nc:2Gen1_-C-T C>A+G>T nc%;cds:3Gen2_G-C-T%;g:3Gen2_T-C-G C>T+G>Ag%;cds:ADARc_SW-A-Y T>C cds%,以及与其相关的度量。
CN202180058069.8A 2020-06-01 2021-06-01 预测癌症进展的方法 Pending CN116529835A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
AU2020901790 2020-06-01
AU2020901790A AU2020901790A0 (en) 2020-06-01 Methods of Predicting Cancer Progression
PCT/AU2021/050535 WO2021243401A1 (en) 2020-06-01 2021-06-01 Methods of predicting cancer progression

Publications (1)

Publication Number Publication Date
CN116529835A true CN116529835A (zh) 2023-08-01

Family

ID=78831397

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180058069.8A Pending CN116529835A (zh) 2020-06-01 2021-06-01 预测癌症进展的方法

Country Status (6)

Country Link
US (1) US20230242992A1 (zh)
EP (1) EP4158070A4 (zh)
JP (1) JP2023529759A (zh)
CN (1) CN116529835A (zh)
AU (1) AU2021285711A1 (zh)
WO (1) WO2021243401A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117604109A (zh) * 2024-01-23 2024-02-27 杭州华得森生物技术有限公司 用于膀胱癌诊断和预后判断的生物标志物及其应用
CN118507062A (zh) * 2024-05-12 2024-08-16 湖南大学 一种从肺癌组织病理学图像中预测气腔内播散的方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230215565A1 (en) * 2021-09-01 2023-07-06 Rockley Photonics Limited Health state estimation using machine learning
US20230317293A1 (en) * 2022-03-31 2023-10-05 GE Precision Healthcare LLC System and method for detecting recurrence of a disease

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3354752B1 (en) * 2012-11-05 2020-03-11 GMDx Co Pty Ltd Methods for determining the cause of somatic mutagenesis
MA40737A (fr) * 2014-11-21 2017-07-04 Memorial Sloan Kettering Cancer Center Déterminants de la réponse d'un cancer à une immunothérapie par blocage de pd-1
JP6850294B2 (ja) * 2015-08-26 2021-03-31 ジーエムディーエックス カンパニー プロプライエタリー リミテッド 癌の再発を検出する方法
EP3710600B1 (en) * 2017-11-17 2025-03-12 GMDx Co Pty Ltd Systems and methods for predicting the efficacy of cancer therapy

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117604109A (zh) * 2024-01-23 2024-02-27 杭州华得森生物技术有限公司 用于膀胱癌诊断和预后判断的生物标志物及其应用
CN117604109B (zh) * 2024-01-23 2024-04-16 杭州华得森生物技术有限公司 用于膀胱癌诊断和预后判断的生物标志物及其应用
CN118507062A (zh) * 2024-05-12 2024-08-16 湖南大学 一种从肺癌组织病理学图像中预测气腔内播散的方法

Also Published As

Publication number Publication date
EP4158070A4 (en) 2025-05-07
EP4158070A1 (en) 2023-04-05
WO2021243401A9 (en) 2023-02-23
WO2021243401A1 (en) 2021-12-09
JP2023529759A (ja) 2023-07-11
AU2021285711A1 (en) 2023-01-05
US20230242992A1 (en) 2023-08-03

Similar Documents

Publication Publication Date Title
US11996202B2 (en) Cancer evolution detection and diagnostic
JP7689557B2 (ja) 相同組換え欠損を推定するための統合された機械学習フレームワーク
JP7245255B2 (ja) がん治療の有効性を予測するためのシステムおよび方法
CN116529835A (zh) 预测癌症进展的方法
US20210358626A1 (en) Systems and methods for cancer condition determination using autoencoders
JP2024528489A (ja) 相同修復欠損を分類するシステムおよび方法
US20230279498A1 (en) Molecular analyses using long cell-free dna molecules for disease classification
Patil et al. Role of artificial intelligence in cancer detection using protein p53: A Review
US20250215501A1 (en) Methods of cancer prognosis
Donker et al. Towards overtreatment-free immunotherapy: Using genomic scars to select treatment beneficiaries in lung cancer
HK40037646A (zh) 用於预测癌症疗法的功效的系统和方法
HK40037646B (zh) 用於预测癌症疗法的功效的系统和方法
Nwana Use of cluster analysis as translational pharmacogenomics tool for breast cancer guided therapy

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination