[go: up one dir, main page]

CN111742062A - 用于诊断癌症的甲基化标志物 - Google Patents

用于诊断癌症的甲基化标志物 Download PDF

Info

Publication number
CN111742062A
CN111742062A CN201880079486.9A CN201880079486A CN111742062A CN 111742062 A CN111742062 A CN 111742062A CN 201880079486 A CN201880079486 A CN 201880079486A CN 111742062 A CN111742062 A CN 111742062A
Authority
CN
China
Prior art keywords
methylation
markers
subject
cancer
dna
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880079486.9A
Other languages
English (en)
Other versions
CN111742062B (zh
Inventor
张康
侯睿
郑良宏
李�根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Meimeijia Tumor Technology Co ltd
University of California San Diego UCSD
Original Assignee
Meimeijia Tumor Technology Co ltd
University of California San Diego UCSD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Meimeijia Tumor Technology Co ltd, University of California San Diego UCSD filed Critical Meimeijia Tumor Technology Co ltd
Publication of CN111742062A publication Critical patent/CN111742062A/zh
Application granted granted Critical
Publication of CN111742062B publication Critical patent/CN111742062B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2531/00Reactions of nucleic acids characterised by
    • C12Q2531/10Reactions of nucleic acids characterised by the purpose being amplify/increase the copy number of target nucleic acid
    • C12Q2531/113PCR
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/112Disease subtyping, staging or classification
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/154Methylation markers

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Engineering & Computer Science (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Analytical Chemistry (AREA)
  • Zoology (AREA)
  • Genetics & Genomics (AREA)
  • Wood Science & Technology (AREA)
  • Physics & Mathematics (AREA)
  • Biotechnology (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Hospice & Palliative Care (AREA)
  • Biophysics (AREA)
  • Oncology (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本文公开了用于诊断受试者中癌症的存在和/或癌症类型的方法、探针和试剂盒。

Description

用于诊断癌症的甲基化标志物
交叉引用
本申请要求2017年10月6日提交的美国临时申请第62/569,459号和2018年5月18日提交的美国临时申请第62/673,593号的权益,所述申请中的每一个通过引用以其整体并入本文。
本公开内容的背景
癌症是世界范围内主要的死亡原因,并且预计在接下来的二十年期间,每年病例从2012年的1400万增加到2200万(WHO)。在一些情况下,肝癌的诊断程序仅在患者已经呈现症状后才开始,导致昂贵的、侵入性的且有时耗时的程序。此外,无法接近的区域有时妨碍准确诊断。此外,高癌症发病率和死亡率与晚期诊断(late diagnosis)有关。
本公开内容的概述
在某些实施方案中,本文公开了一种选择疑似患有癌症的受试者进行治疗的方法,该方法包括:(a)使经处理的DNA与来自探针组合(panel)的至少一种探针接触以产生经扩增的产物,其中至少一种探针在高严格度条件下与选自表1、表2、表7、表8或表13的cg标志物的靶序列杂交,并且其中经处理的DNA从由受试者获得的生物样品处理而来;(b)分析经扩增的产物以产生cg标志物的甲基化谱;(c)将甲基化谱与参考模型比较,该参考模型将来自表1、表2、表7、表8和表13的cg标志物的甲基化谱与癌症的集合关联;(d)基于步骤c)的比较,确定:(i)受试者是否患有癌症;和(ii)受试者具有哪种癌症类型;并且(e)如果受试者被确定患有癌症并且癌症类型被确定,则向受试者施用有效量的治疗剂。
在某些实施方案中,本文公开了一种检测cg标志物的集合的甲基化状态的方法,该方法包括:(a)用脱氨基剂处理从受试者获得的生物样品以产生包含脱氨基的核苷酸的经处理的DNA;(b)使经处理的DNA与至少一种探针接触,所述至少一种探针在高严格度条件下与来自表1、表2、表7、表8、表13、表14或表20的cg标志物的靶序列杂交;和(c)定量检测cg标志物的甲基化状态,其中所述检测包括基于探针的实时定量PCR或基于探针的数字PCR。
在某些实施方案中,本文公开了一种检测疑似患有癌症的受试者中的生物标志物的集合的甲基化模式的方法,该方法包括:(a)用脱氨基剂处理经提取的基因组DNA以产生包含脱氨基的核苷酸的基因组DNA样品,其中经提取的基因组DNA从来自疑似患有癌症的受试者的生物样品获得;和b)通过使经提取的基因组DNA与探针的集合接触,检测来自经提取的基因组DNA的选自表1、表2、表7、表8、表13、表14或表20的一种或更多种生物标志物的甲基化模式,其中探针的集合与一种或更多种生物标志物杂交,并且进行DNA测序分析以确定一种或更多种生物标志物的甲基化模式。在一些实施方案中,所述检测包括基于探针的实时定量PCR或基于探针的数字PCR。在一些实施方案中,基于探针的数字PCR是数字液滴PCR。在一些实施方案中,探针的集合包括锁式探针(padlock probe)的集合。在一些实施方案中,步骤b)包括检测选自表2、表13、表14或表20的一种或更多种生物标志物的甲基化模式。在一些实施方案中,步骤b)包括检测选自以下的一种或更多种生物标志物的甲基化模式:cg19516279,cg06100368,cg25945732,cg19155007,cg17952661,cg04072843,cg01230961,cg08131100,cg03788131,cg17528648,cg07784526、cg18948743,cg23986470,cg00846300,cg01029638,cg08350814,cg05098590,cg18085998,cg06532037,cg15313226,cg16232979,cg26149167,cg01237565,cg16561543,cg13771313,cg13771313,cg08169020,cg08169020,cg21153697,cg07326648,cg14309384,cg20923716,cg09095222,cg22220310,cg21950459,cg13332729,cg10802543,cg20707333,cg13169641,cg25352342,cg09921682,cg02504622,cg17373759,cg06547203,cg06826710,cg00902147,cg17609887,cg15721142,cg08116711,cg00736681,cg18834029,cg06969479,cg24630516,cg16901821,cg20349803,cg23610994,cg19313373,cg16508600,cg24096323,cg24746106,cg12288267,cg10430690,cg24408776,cg05630192,cg12028674,cg24820270,cg12028674,cg26718707,cg10349880,cg09921682,cg25934700,cg14164596,cg24461337,cg23041410,cg07366553,cg26859666,cg06405341,cg08557188,cg00690392,cg03421440,cg07077277或cg20702527。在一些实施方案中,受试者疑似患有乳腺癌,并且步骤b)包括检测选自以下的一种或更多种生物标志物的甲基化模式:cg19516279、cg06100368、cg20349803、cg23610994、cg19313373、cg16508600和cg24096323。在一些实施方案中,如果:cg标志物cg19516279和cg06100368中的至少一种是超甲基化的;cg标志物cg20349803、cg23610994、cg19313373、cg16508600和cg24096323中的至少一种是低甲基化的;或其组合,则受试者被确定患有乳腺癌。在一些实施方案中,受试者疑似患有肝癌,并且步骤b)包括检测选自以下的一种或更多种生物标志物的甲基化模式:cg25945732、cg19155007、cg17952661、cg25934700、cg14164596、cg24461337、cg23041410、cg07366553和cg26859666或cg00456086。在一些实施方案中,如果:cg标志物cg25945732、cg19155007或cg17952661中的至少一种是超甲基化的;cg标志物cg25934700、cg14164596、cg24461337、cg23041410、cg07366553、cg26859666或cg00456086中的至少一种是低甲基化的;或其组合,则受试者被确定患有肝癌。在一些实施方案中,受试者疑似患有肝癌,并且步骤b)包括检测选自以下的一种或更多种生物标志物的甲基化模式:3-49757310,8-27183116,8-141607252,17-29297711,3-49757306,19-43979341,8-141607236,5-176829755,18-13382140,15-65341965,3-13152305,17-29297770,8-27183316,5-176829740,19-41316693,18-43830649,15-65341957,20-44539531,7-30265625,2-131129567,5-176829665,3-13152273,8-27183348,3-49757302,19-41316697,8-61821442,20-44539525,10-102883105,11-65849129,5-176829639,15-91129457,2-1625431,6-151373292,6-151373294,20-25027093,6-14284198,10-4049295,19-59023222,1-184197132,2-131004117,2-8995417,12-10782319,20-25027033,6-151373256,8-86100970,9-4839459,17-41221574,1-153926715,20-25027044,20-20177325,2-1625443,20-25027085,11-69420728,1-229234865,6-13408877,22-50643735,6-151373308,1-232119750,8-134361508,或6-13408858。在一些实施方案中,如果:标志物3-49757316,8-27183116,8-141607252,17-29297711,3-49757306,19-43979341,8-141607236,5-176829755,18-13382140,15-65341965,3-13152305,17-29297770,8-27183316,5-176829740,19-41316693,18-43830649,15-65341957,20-44539531,7-30265625,2-131129567,5-176829665,3-13152273,8-27183348,3-49757302,19-41316697,8-61821442,20-44539525,10-102883105,11-65849129或5-176829639中的至少一种是超甲基化的;标志物15-91129457,2-1625431,6-151373292,6-151373294,20-25027093,6-14284198,10-4049295,19-59023222,1-184197132,2-131004117,2-8995417,12-10782319,20-25027033,6-151373256,8-86100970,9-4839459,17-41221574,1-153926715,20-25027044,20-20177325,2-1625443,20-25027085,11-69420728,1-229234865,6-13408877,22-50643735,6-151373308,1-232119750,8-134361508或6-13408858中的至少一种是低甲基化的;或其组合,则受试者被确定患有肝癌。在一些实施方案中,受试者疑似患有卵巢癌,并且步骤b)包括检测选自以下的一种或更多种生物标志物的甲基化模式:cg04072843、cg01250961、cg24746106、cg12288267和cg10430690。在一些实施方案中,如果:cg标志物cg04072843和cg01250961中的至少一种是超甲基化的;cg标志物cg24746106、cg12288267和cg10430690中的至少一种是低甲基化的;或其组合,则受试者被确定患有卵巢癌。在一些实施方案中,受试者疑似患有结肠直肠癌,并且步骤b)包括检测选自以下的一种或更多种生物标志物的甲基化模式:cg08131100,cg03788131,cg17528648,cg07784526,cg18948743,cg23986470,cg00846300,cg25352342,cg09921682,cg02504622,cg17373759,cg12028674,cg24820270,cg12028674,,cg26718707,cg10349880和cg09921682。在一些实施方案中,如果:cg标志物cg08131100、cg03788131、cg17528648、cg07784526、cg18948743、cg23986470或cg00846300中的至少一种是超甲基化的;cg标志物cg25352342、cg09921682、cg02504622、cg17373759、cg12028674、cg24820270、cg12028674、cg26718707、cg10349880或cg09921682中的至少一种是低甲基化的;或其组合,则受试者被确定患有结肠直肠癌。在一些实施方案中,受试者疑似患有结肠直肠癌,并且步骤b)包括检测选自以下的一种或更多种生物标志物的甲基化模式:cg10673833、cg10493436、cg10428836、cg27284288、cg16959747、cg17494199、cg23678254、cg24067911或cg25459300。在一些实施方案中,受试者疑似患有结肠直肠癌,并且步骤b)包括检测选自以下的一种或更多种生物标志物的甲基化模式:cg05205843,cg11841704,cg06699564,cg08924619,cg11959316,cg08924619,cg06699564,cg01824933,cg08924619,cg05205842,cg08924619,cg04049981,cg09026722,cg03616722,cg08924619,cg05928904,cg08704934,cg09776772,cg17494199,cg01824933,cg16296417,cg09776772,cg09776772,cg05338167,cg10493436,cg011251410,cg16391792,cg06393830,cg09366118,cg22513455,cg17583432,cg23881926,cg09638208,cg12441066,cg27284288,cg04441857,cg17583432,cg10673833,cg19757176,cg08670281,cg17583432,cg04460364,cg16959747,cg15011734或cg25754195。在一些实施方案中,如果:cg标志物cg06393830,cg09366118,cg22513455,cg17583432,cg23881926,cg09638208,cg12441066,cg27284288,cg04441857,cg17583432,cg10673833,cg19757176,cg08670281,cg17583432,cg04460364,cg16959747,cg15011734或cg25754195中的至少一种是超甲基化的;cg标志物cg05205843,cg11841704,cg06699564,cg08924619,cg11959316,cg08924619,cg06699564,cg01824933,cg08924619,cg05205842,cg08924619,cg04049981,cg09026722,cg03616722,cg08924619,cg05928904,cg08704934,cg09776772,cg17494199,cg01824933,cg16296417,cg09776772,cg09776772,cg05338167,cg10493436,cg011251410或cg16391792中的至少一种是低甲基化的;或其组合,则受试者被确定患有结肠直肠癌。在一些实施方案中,受试者疑似患有前列腺癌,并且步骤b)包括检测选自以下的一种或更多种生物标志物的甲基化模式:cg01029638、cg08350814、cg05098590、cg18085998、cg06532037、cg15313226、cg16232979、cg26149167、cg06547203、cg06826710、cg00902147、cg17609887和cg15721142。在一些实施方案中,如果:cg标志物cg01029638、cg08350814、cg05098590、cg18085998、cg06532037、cg15313226、cg16232979或cg26149167中的至少一种是超甲基化的;cg标志物cg06547203、cg06826710、cg00902147、cg17609887或cg15721142中的至少一种是低甲基化的;或其组合,则受试者被确定患有前列腺癌。在一些实施方案中,受试者疑似患有胰腺癌,并且步骤b)包括检测选自以下的一种或更多种生物标志物的甲基化模式:cg01237565、cg16561543和cg08116711。在一些实施方案中,如果:cg标志物cg01237565或cg16561543中的至少一种是超甲基化的;cg标志物cg08116711是低甲基化的;或其组合,则受试者被确定患有胰腺癌。在一些实施方案中,受试者疑似患有急性髓性白血病,并且步骤b)包括检测选自以下的一种或更多种生物标志物的甲基化模式:cg13771313、cg13771313和cg08169020。在一些实施方案中,受试者疑似患有宫颈癌,并且步骤b)包括检测选自以下的一种或更多种生物标志物的甲基化模式:cg08169020、cg21153697、cg07326648、cg14309384、cg20923716、cg22220310、cg21950459、cg13332729、cg10802543、cg20707333和cg13169641。在一些实施方案中,如果:cg标志物cg08169020、cg21153697、cg07326648、cg14309384或cg20923716中的至少一种是超甲基化的;cg标志物cg22220310、cg21950459、cg13332729、cg10802543、cg20707333或cg13169641中的至少一种是低甲基化的;或其组合,则受试者被确定患有宫颈癌。在一些实施方案中,受试者疑似患有肉瘤,并且步骤b)包括检测选自以下的一种或更多种生物标志物的甲基化模式:cg09095222。在一些实施方案中,如果至少cg标志物cg09095222是超甲基化的,则受试者被确定患有肉瘤。在一些实施方案中,受试者疑似患有胃癌,并且步骤b)包括检测选自以下的一种或更多种生物标志物的甲基化模式:cg00736681和cg18834029。在一些实施方案中,如果cg标志物cg00736681或cg18834029中的至少一种是低甲基化的,则受试者被确定患有胃癌。在一些实施方案中,受试者疑似患有甲状腺癌,并且步骤b)包括检测选自以下的一种或更多种生物标志物的甲基化模式:cg06969479、cg24630516和cg16901821。在一些实施方案中,如果cg标志物cg06969479、cg24630516或cg16901821中的至少一种是低甲基化的,则受试者被确定患有甲状腺癌。在一些实施方案中,受试者疑似患有间皮瘤,并且步骤b)包括检测选自以下的一种或更多种生物标志物的甲基化模式:cg05630192。在一些实施方案中,如果cg标志物cg05630192是低甲基化的,则受试者被确定患有间皮瘤。在一些实施方案中,受试者疑似患有胶质母细胞瘤,并且步骤b)包括检测选自以下的一种或更多种生物标志物的甲基化模式:cg06405341。在一些实施方案中,受试者疑似患有肺癌,并且步骤b)包括检测选自以下的一种或更多种生物标志物的甲基化模式:cg08557188、cg00690392、cg03421440和cg07077277。在一些实施方案中,如果cg标志物cg08557188、cg00690392、cg03421440或cg07077277中的至少一种是低甲基化的,则受试者被确定患有肺癌。在一些实施方案中,生物样品是血液样品、尿液样品、唾液样品、汗液样品或泪液样品。在一些实施方案中,生物样品是无细胞DNA样品。在一些实施方案中,生物样品包含循环肿瘤细胞。
在某些实施方案中,本文公开了一种试剂盒,所述试剂盒包含与表1、表2、表7、表8、表13、表14、表20中说明的cg标志物或其组合的靶序列杂交的核酸探针的集合。在一些实施方案中,核酸探针的集合与选自表1的cg标志物的靶序列杂交。在一些实施方案中,核酸探针的集合与选自表2的cg标志物的靶序列杂交。在一些实施方案中,核酸探针的集合与选自表7的cg标志物的靶序列杂交。在一些实施方案中,核酸探针的集合与选自表8的cg标志物的靶序列杂交。在一些实施方案中,核酸探针的集合与选自表13的cg标志物的靶序列杂交。在一些实施方案中,核酸探针的集合与选自表14的cg标志物的靶序列杂交。在一些实施方案中,核酸探针的集合与选自表20的cg标志物的靶序列杂交。在一些实施方案中,核酸探针的集合与选自以下的cg标志物的靶序列杂交:cg19516279,cg06100368,cg25945732,cg19155007,cg17952661,cg04072843,cg01250961,cg08131100,cg03788131,cg17528648,cg07784526,cg18948743,cg23986470,cg00846300,cg01029638,cg08350814,cg05098590,cg18085998,cg06532037,cg15313226,cg16232979,cg26149167,cg01237565,cg16561543,cg13771313,cg13771313,cg08169020,cg08169020,cg21153697,cg07326648,cg14309384,cg20923716,cg09095222,cg22220310,cg21950459,cg13332729,cg10802543,cg20707333,cg13169641,cg25352342,cg09921682,cg02504622,cg17373759,cg06547203,cg06826710,cg00902147,cg17609887,cg15721142,cg08116711,cg00736681,cg18834029,cg06969479,cg24630516,cg16901821,cg20349803,cg23610994,cg19313373,cg16508600,cg24096323,cg24746106,cg12288267,cg10430690,cg24408776,cg05630192,cg12028674,cg24820270,cg12028674,cg26718707,cg10349880,cg09921682,cg25934700,cg14164596,cg24461337,cg23041410,cg07366553,cg26859666,cg06405341,cg08557188,cg00690392,cg03421440,cg07077277,cg00456086和cg20702527。在一些实施方案中,核酸探针的集合与以下的靶序列杂交:cg10673833、cg10493436、cg10428836、cg27284288、cg16959747、cg17494199、cg23678254、cg24067911或cg25459300。在一些实施方案中,核酸探针的集合与cg10673833或cg25462303的靶序列杂交。在一些实施方案中,核酸探针的集合与以下的靶序列杂交:
cg05205843,cg11841704,cg06699564,cg08924619,cg11959316,cg08924619,cg06699564,cg01824933,cg08924619,cg05205842,cg08924619,cg04049981,cg09026722,cg03616722,cg08924619,cg05928904,cg08704934,cg09776772,cg17494199,cg01824933,cg16296417,cg09776772,cg09776772,cg05338167,cg10493436,cg011251410或cg16391792。在一些实施方案中,核酸探针的集合与以下的靶序列杂交:cg06393830,cg09366118,cg22513455,cg17583432,cg23881926,cg09638208,cg12441066,cg27284288,cg04441857,cg17583432,cg10673833,cg19757176,cg08670281,cg17583432,cg04460364,cg16959747,cg15011734或cg25754195。在一些实施方案中,核酸探针的集合包括锁式探针的集合。
附图简述
本公开内容的多个方面在所附权利要求中具体阐述。本专利的文件包含至少一幅彩色执行的附图/照片。具有彩色附图/照片的本专利的副本将在请求和支付必要费用后由主管局提供。通过参考以下详细描述以及附图将获得对本公开内容的特征和优点的更佳的理解,详述阐述了其中使用了本公开内容的原理的说明性实施方案,在附图中:
图1图示了生物标志物7-1577016的甲基化状态。
图2图示了生物标志物11-67177103的甲基化状态。
图3图示了生物标志物19-10445516(cg17126555)的甲基化状态。
图4图示了生物标志物12-122277360的甲基化状态。
图5图示了生物标志物6-72130742(cg24772267)的甲基化状态。
图6图示了生物标志物3-15369681的甲基化状态。
图7图示了生物标志物3-131081177的甲基化状态。
图8图示了数据产生和分析的工作流程图。HCC和正常淋巴细胞的全基因组甲基化数据被用于鉴定401种候选标志物。诊断标志物选择:将Lasso分析和随机森林分析应用于715名HCC患者和560名正常患者的训练组群(cohort)以鉴定10种标志物的最终选择。将这10种标志物应用于383名HCC患者和275名正常患者的验证组群。预后标志物选择:将单变量-cox和LASSO-Cox应用于具有存活数据的680名HCC患者的训练组群以鉴定8种标志物的最终选择。将这8种标志物应用于具有存活数据的369名HCC的验证组群。
图9A-图9H图示了用于诊断HCC的cfDNA甲基化分析。图9A示出了28对匹配的HCC肿瘤DNA和血浆cfDNA的甲基化的热图,以0.1的平均甲基化值阈值作为截止值。图9B示出了正常血浆、HCC肿瘤DNA和HCC患者cfDNA中的十种诊断标志物的甲基化值和标准差。图9C和图9D示出了训练数据集(图9C)和验证数据集(图9D)中诊断预测模型的二元结果(binaryresult)的混淆表。图9E和图9F图示了训练数据集(图9E)和验证数据集(图9F)中具有甲基化标志物的诊断预测模型的ROC。图9G和图9H示出了在训练数据集(图9G)和验证数据集(图9H)中被选择用于在诊断预测模型中使用的十种甲基化标志物的无监督层级聚类(unsupervised hierarchical clustering)。
图10A-图10K图示了cfDNA甲基化分析和肿瘤负荷(tumor burden)、治疗响应和分期(staging)。健康对照、患有肝病(HBV/HCV感染、肝硬化和脂肪肝)的个体和HCC患者中的组合的诊断评分(cd评分)(图10A)和AFP(图10B)。图10C示出了正常对照与具有和不具有可检测的肿瘤负荷的HCC患者的cd评分。图10D示出了正常对照、治疗前的HCC患者、具有治疗响应的HCC患者和具有进展的HCC患者的cd评分。图10E示出了正常对照和手术前的HCC患者、手术后的HCC患者和具有复发的HCC患者的cd评分。图10F示出了正常对照和I-IV期HCC患者的cd评分。图10G示出了在整个HCC组群中用于HCC诊断的cd评分和AFP的ROC。具有初始诊断(手术或其他治疗前)的HCC患者、具有治疗响应的HCC患者、具有进展的HCC患者和具有复发的HCC患者的cd评分(图10H)和AFP(图10I)。I-IV期的HCC患者的cd评分(图10J)和AFP(图10K)。
图11A-图11G图示了用于预后预测HCC存活的cfDNA甲基化分析。图11A和图11B示出了根据训练数据集(图11A)和验证数据集(图11B)中的组合的预后评分(cp评分),在6个月时具有低或高死亡风险的HCC患者的总体存活曲线。训练数据集(图11C)和验证数据集(图11D)中,I/II期和III/IV期HCC患者的存活曲线。训练数据集(图11E)和验证数据集(图11F)中的cp评分、分期和cp评分与分期的组合的ROC。图11G示出了整个HCC组群中具有cp评分风险和分期的组合的HCC患者的存活曲线。
图12图示了在HCC肿瘤DNA和正常血液之间差异性甲基化的前1000种甲基化标志物的无监督层级聚类。每一列代表一名个体患者,并且每一行代表一种CpG标志物。
图13A-图13B图示了来自HCC和正常对照的cfDNA样品中包含两个相关甲基化区块(Block of Correlated Methylation)(BCM)的示例性区域。图13A示出了在UCSC基因组浏览器内展示的BCM的基因组邻域(Pearson相关性轨迹(Pearson correlation track)通过对BCM内的标志物的r值求和来示出相关性数据。Pearson相关性图下方的Cg标志物名称(cg14999168、cg14088196、cg25574765)是来自TCGA的甲基化标志物。还列出了基因名称和常见SNP。图13B示出了属于该区域中的两个BCM的经分析的cg标志物的集合的不按比例的表示。区块之间的边界由黑色矩形表示,而红色正方形表示两种相邻标志物之间的相关甲基化(r>0.5)。任何两种标志物之间的相关性由源自这两种标志物的(虚拟)垂直线交点处的正方形表示。白色表示无显著相关性。由标志物cg14999168锚定的左侧MCB中的10种新鉴定的甲基化标志物,或由标志物cg14088196/cg25574765锚定的右侧MCB中的11种新鉴定的甲基化标志物在HCC ctDNA、正常cfDNA和HCC组织DNA中高度一致和相关。使用相同MCB内的标志物可以显著增强等位基因判定(calling)准确性。图b底部的垂直线是两个MCB的边界的基因组坐标。
图14图示了I期-IV期HCC肿瘤的示例性甲基化标志物的无监督层级聚类。
图15示出了具有连续血浆样品的HCC患者中与治疗结果相关的甲基化值。图15A示出了比较手术后的患者、具有临床响应的患者和具有疾病进展的患者的cd评分的变化(***p<0.001)。图15B示出了在完全手术切除后具有治疗响应和具有疾病进展的个体患者的cd评分趋势。PRE:治疗前;POST:治疗后。
图16图示了用cd评分和AFP对个体患者的治疗结果的动态监测。治疗的日期用垂直蓝色箭头表示。PD,进展性疾病;PR,部分响应;SD,稳定疾病;TACE,经导管动脉化学栓塞。
图17A-图17C图示了示例性标志物cg10673833的数据分析。
图18图示了用于构建诊断和预后模型的工作流程。关于HCC、LUNC和正常血液的全基因组甲基化数据被用于鉴定候选标志物用于探针设计。左图:诊断标志物选择:将LASSO分析应用于444名HCC患者、299名LUNC患者和1123名正常患者的训练组群以鉴定77种标志物的最终选择。将这77种标志物应用于445名HCC患者、300名LUNC患者和1124名正常患者的验证组群。右图:预后标志物选择:将LASSO-Cox应用于具有存活数据的433名HCC患者和299名LUNC患者的训练组群,以鉴定20种标志物的最终选择。将这20种标志物应用于具有存活数据的434名HCC和300名LUNC的验证组群。
图19A-图19D图示了用于诊断LUNC和HCC的cfDNA甲基化分析。图19A示出了在验证组群中使用cfDNA甲基化分析的诊断预测模型(cd评分)的接受者操作特征(receiveroperating characteristic)(ROC)曲线和相关的曲线下面积(AUC)。图19B示出了用于将正常患者和癌症患者(左)和LUNC患者和HCC患者(右)分类的综合评分的箱型图。在癌症(HCC和LUNC)和正常之间(图19C)以及HCC和LUNC之间(图19D)差异性甲基化的甲基化标志物的无监督层级聚类。每一行代表一名个体患者,并且每一列代表一种MCB标志物。
图20A-图20D图示了健康对照、高风险患者和癌症患者的甲基化谱分析(profiling)。图20A示出了甲基化谱分析区分了HCC与高风险肝病患者或正常对照。高风险肝病被定义为肝炎、肝硬化和脂肪肝病。图20B示出了血清AFP区分了HCC与高风险肝病患者或正常对照。图20C示出了甲基化谱分析区分了LUNC与吸烟的患者和正常对照。图20D示出了血清CEA区分了LUNC与高风险(吸烟)患者。
图21A-图21R图示了使用LUNC患者和HCC患者的综合诊断评分,cfDNA甲基化分析可以预测肿瘤负荷、分期和治疗响应。当与CEA(图21I)相比时LUNC(图21A)中具有或不具有可检测的肿瘤负荷的患者的cd评分、以及当与AFP(图21M)相比时HCC(图21E)中的具有和不具有可检测肿瘤负荷的患者的cd评分;当与CEA(图21J)相比时LUNC(图21B)中具有I/II期和III/IV期疾病的患者的cd评分、以及当与AFP(图21N)相比时HCC(图21F)患者中具有I/II期和III/IV期疾病的患者的cd评分;当与CEA(图21K)相比时LUNC中(图21C)干预前、手术后和具有复发的患者的cd评分、以及当与AFP(图21O)相比时HCC(图21G)中干预前、手术后和具有复发的患者的cd评分;当与CEA(图21L)相比时LUNC(图21D)中干预前、具有治疗响应和具有恶化进展的患者的cd评分、以及当与AFP(图21P)相比时HCC(图21H)中干预前、具有治疗响应和具有恶化进展的患者的cd评分;图21Q:整个LUNC组群中用于LUNC诊断的cd评分和CEA的ROC曲线和AUC。图21R:整个HCC组群中用于HCC诊断的cd评分和AFP的ROC曲线和AUC。
图22A-图22F图示了基于cfDNA甲基化谱分析的HCC和LUNC存活的预后预测。图22A示出了根据验证组群中的组合的预后评分(cp评分),具有低或高死亡风险的HCC患者的总体存活曲线。图22B示出了根据验证数据集中的组合的预后评分(cp评分),具有低或高死亡风险的LUNC患者的总体存活曲线。图22C示出了验证组群中患有I/II期和III/IV期的HCC患者的存活曲线。图22D示出了验证组群中患有I/II期和III/IV期LUNC的患者的存活曲线。在验证组群中,通过cp评分、CEA、AFP、分期和cp评分结合HCC(图22E)和LUNC(图22F)的分期预测的12个月存活的ROC。
图23A-图23B图示了使用cfDNA甲基化组合对LUNC的早期检测。在一项前瞻性试验中,208名吸烟患者被登记为具有尺寸在10mm和30mm之间的肺结节并且度量了cfDNA LUNC甲基化组合。将患者分为训练组群和测试组群(图23A);在验证组群中,对I期LUNC与良性肺结节的预测的接受者操作特征(ROC)曲线和相关的曲线下面积(AUC)具有91.4%的准确率(图23B);表格显示了在验证组群中I期LUNC与良性肺结节之间的预测结果,示出了高灵敏度和特异性。
图24A-图24D图示了甲基化标志物可以区分HCC和肝硬化,和检测从肝硬化到HCC的进展。首先使用217名HCC患者和241名肝硬化患者建立预测模型,并且将患者分为训练组群和测试组群(图24A);在验证组群中,对I期HCC与肝硬化的预测的接受者操作特征(ROC)曲线和相关的曲线下面积(AUC)具有89.9%的准确率(图24B);表格显示了验证组群中I期HCC和肝硬化之间的预测结果(图24C);表格显示了从肝硬化进展到I期HCC的预测结果,该预测结果具有高灵敏度(89.5%)和特异性(98%)(图24D)。
图25A图示了在HCC和LUNC原发性组织与正常血液的DNA中差异性甲基化的前1000种甲基化标志物的无监督层级聚类。
图25B示出了在HCC和LUNC组织DNA之间差异性甲基化的前1000种甲基化标志物的无监督层级聚类。每一列代表一名单独的患者,并且每一行代表一种CpG标志物。
图25C示出了整个cfDNA数据集中所有888个MCB的监督层级聚类的整体视图。
图26图示了示出了组群中的MCB的特征的框图。上图:每一个与其余的比较中的Lasso MCB的平均值和偏差。
图27图示了具有连续血浆样品的HCC和LUNC患者中与治疗结果相关的甲基化值。比较手术后、具有临床响应(部分缓解(PR)或稳定疾病(SD))或具有疾病进展/复发(PD)的患者的甲基化值变化的汇总图。
图28A示出了在LUNC患者中使用MCB的总甲基化拷贝数的治疗结果的动态监测。
图28B示出了在LUNC患者中用MCB的甲基化值对治疗结果的动态监测。PD,进展性疾病;PR部分响应;SD,稳定疾病;chemo,化学疗法。
图29图示了在HCC患者中使用MCB的总甲基化拷贝数和CEA对治疗结果的动态监测。
图30示出了在HCC患者中用MCB的甲基化率对治疗结果的动态监测。治疗的日期在图中示出。PD,进展性疾病;PR,部分响应;SD,稳定疾病;chemo,化学疗法;TACE,经导管动脉化学栓塞。
图31A-图31B图示了实施例5中描述的工作流程图。图31A图示了用于建立诊断模型、预后模型和生成基于亚型的ctDNA甲基化的示例性工作流程。图31B示出了前瞻性筛查组群研究的登记和结果。
图32A-图32H图示了用于诊断CRC的cfDNA甲基化分析。图32A:用于建立诊断模型的示例性工作流程。图32B:在训练和验证(图32C)测试组群中,在癌症(CRC)和正常之间差异性甲基化的甲基化标志物的无监督层级聚类。每一行代表一名单独的患者,并且每一列代表一种CpG标志物。图32D:在训练和验证(图32E)测试组群中使用cfDNA甲基化分析的诊断预测模型(cd评分)的接受者操作特征(ROC)曲线和相关的曲线下面积(AUC)。图32F:用于CRC诊断的cd评分和CEA的ROC曲线和相应的曲线下面积(AUC)。图32G:在训练和验证(H)测试组群中,从诊断模型预测建立混淆矩阵。
图33A-图33E图示了基于cfDNA甲基化谱分析的CRC存活的预后预测。图33A:用于建立预后模型的示例性工作流程。图33B:根据训练测试组群的组合的预后评分(cp评分),具有低或高死亡风险的CRC患者的总体存活曲线。图33C:根据验证测试组群的组合的预后评分(cp评分),具有低或高死亡风险的CRC患者的总体存活曲线。在训练(图33D)和验证(图33E)测试组群中,通过cp评分、原发性肿瘤位置、TNM分期、CEA状态以及其全部组合预测的12个月生存的ROC和相应的AUC。
图34A图示了使用cp评分和其他临床因素预测CRC患者的一年总体存活的列线图。
图34B图示了外部验证的列线图的校准图。
图35A-图35E在患有CRC的801名患者中的cfDNA甲基化亚型划分分析。图35A:示出了样品聚类中使用的核心算法的示意图。图35B:cfDNA甲基化标志物的迭代地无监督聚类在训练数据中鉴定出两种亚型/簇。临床和分子特征由热图上方的注释条表示。不具有这样的信息的患者以白色标出。突变状态由以下基因中的一种中检测到的突变定义:BRAF、KRAS、NRAS和PIK3CA。图35C:上次迭代中的簇的轮廓分析。图35D:使用45种标志物预测的验证亚型/簇。图35E:上图:每种亚型中每种cfDNA甲基化的总体存活。(时序检验p<0.05)。下图:两种亚型中III-IV期CRC患者的比例(卡方检验,**P<0.01,*P<0.05。左,训练组群;右,验证组群)。
图36A-图36B展示了用于生成cd评分的甲基化相关区块(MCB)的列表。图36A:由多类别LASSO选择的MCB标志物。图36B:诊断标志物选择:基于LASSO的特征选择鉴定了13种标志物,并且基于随机森林的特征选择鉴定了22种标志物,用于区分癌症与正常。这两种方法之间存在9种重叠的标志物。
图37A-图37F示出了cfDNA甲基化分析可以在CRC患者中使用cd评分预测肿瘤负荷、分期和治疗响应。图37A:具有和不具有可检测的肿瘤负荷的患者中的cfDNA甲基化分析cd评分;图37B:患有I/II期和III/IV期疾病的患者的cd评分;图37C:原发性肿瘤位置在左侧或右侧的患者的cd评分;图37D:患有I/II期和III/IV期CRC的患者的CEA;图37E:治疗前、手术后和具有肿瘤复发的患者的cd评分;图37F:治疗前、手术后和具有肿瘤复发的CRC患者的CEA;复发被定义为肿瘤在治疗/手术后初始消失,但在定义的时间段后复发。
图38A-图38C图示了亚型标志物、诊断标志物和预后标志物的比较。图38A:文氏图示出了三个标志物列表的交集。来自训练组群(图38B)和验证组群(图38C)二者的簇2的患者具有比簇1的那些患者更高的cp评分。
图39图示了用标志物甲基化水平监测患者治疗。在CRC患者#1-6中,用CpG位点cg10673833(上图)和CEA(下图)的甲基化值动态监测治疗结果。治疗的日期在图中示出。PD,进展性疾病;PR,部分响应;SD,稳定疾病;chemo,化学疗法。
图40A-图40B图示了具有连续血浆样品的CRC患者中与治疗结果相关的甲基化值。图40A:比较手术后、具有临床响应(部分缓解(PR)或稳定疾病(SD))或具有疾病进展/复发(PD)的患者的甲基化值变化的汇总图。图40B:在完全手术切除后、具有治疗响应和具有疾病进展的个体患者中的甲基化值趋势。δ甲基化率表示治疗前和治疗后的甲基化值差异。PRE:治疗前;POST:治疗后。
图41图示了CpG标志物cg00456086的甲基化状态。
图42图示了生物标志物3-49757316、8-27183116、8-141607252、17-29297711和3-49757306的甲基化状态。
图43图示了生物标志物19-43979341、8-141607236、5-176829755、18-13382140和15-65341965的甲基化状态。
图44图示了生物标志物15-91129457、2-1625431、6-151373292、6-151373294和20-25027093的甲基化状态。
图45图示了生物标志物6-14284198、10-4049295、19-59023222、1-184197132和2-131004117的甲基化状态。
图46图示了生物标志物3-13152305、17-29297770、8-27183316、5-176829740和19-41316693的甲基化状态。
图47图示了生物标志物18-43830649、15-65341957、20-44539531、7-30265625和2-131129567的甲基化状态。
图48图示了生物标志物2-8995417、12-10782319、20-25027033、6-151373256和8-86100970的甲基化状态。
图49图示了生物标志物9-4839459、17-41221574、1-153926715、20-25027044和20-20177325的甲基化状态。
图50图示了生物标志物176829665、3-13152273、8-27183348、3-49757302和19-41316697的甲基化状态。
图51图示了生物标志物8-61821442、20-44539525、10-102883105、11-65849129和5-176829639的甲基化状态。
图52图示了生物标志物2-1625443、20-25027085、11-69420728、1-229234865和6-13408877的甲基化状态。
图53图示了生物标志物22-50643735、6-151373308、1-232119750、8-134361508和6-13408858的甲基化状态。
本公开内容的详述
癌症的特征在于由基因的一种或更多种突变或修饰引起细胞异常生长,导致细胞增殖和细胞死亡的平衡失调。DNA甲基化使肿瘤抑制基因的表达沉默,并且其本身表现为最早的赘生性变化(neoplastic change)之一。存在于赘生组织和血浆中的甲基化模式表现出同质性,并且在一些情况下被用作灵敏的诊断标志物。例如,在一项研究中,当用于诊断转移性乳腺癌时,cMethDNA测定已经显示出具有约91%的灵敏度和约96%的特异性。在另一项研究中,当被用于鉴定大组群的患有转移性结肠癌的患者中的KRAS基因突变时,循环肿瘤DNA(ctDNA)具有约87.2%的灵敏度和约99.2%的特异性(Bettegowda等,Detectionof Circulating Tumor DNA in Early-and Late-Stage HumanMalignancies.Sci.Transl.Med,6(224):ra24.2014)。同一研究还证明,ctDNA在>75%的患有晚期胰腺癌、卵巢癌、结肠直肠癌、膀胱癌、胃食管癌、乳腺癌、黑素瘤、肝细胞癌和头颈癌的患者中是可检测的(Bettegowda等)。
另外的研究已经证明了CpG甲基化模式与赘生性进展相关。例如,在乳腺癌甲基化模式的一项研究中,已经发现P16超甲基化与早期乳腺癌相关,而TIMP3启动子超甲基化与晚期乳腺癌相关。此外,已经示出了BMP6、CST6和TIMP3启动子超甲基化与乳腺癌转移到淋巴结中相关。
在一些实施方案中,对于癌症检测,DNA甲基化谱分析提供了与体细胞突变分析相比更高的临床灵敏度和动态范围。在其他情况下,已经示出了改变的DNA甲基化特征(signature)与某些癌症的治疗响应的预后相关。例如,一项研究表明,在患有晚期直肠癌的一组患者中,十个差异性甲基化区域被用于预测患者的预后。同样,在不同研究中,血清中的RASSF1A DNA甲基化测量被用于预测乳腺癌患者中经受辅助疗法的患者中的不良结果。此外,在不同研究中,SRBC基因超甲基化与用奥沙利铂治疗的患有结肠直肠癌的患者中的不良结果相关。另一项研究已经证明,ESR1基因甲基化与接受他莫昔芬的乳腺癌患者中的临床响应相关。另外,ARHI基因启动子超甲基化被示出是未用他莫昔芬治疗的乳腺癌患者的长期存活的预测因子。
在一些实施方案中,本文公开的内容包括用于诊断癌症的存在和/或癌症类型的方法、探针和试剂盒。在一些情况下,本文描述了一种对CpG标志物(或cg标志物)的集合的甲基化状态进行谱分析的方法。在其他情况下,本文描述了一种用于基于CpG标志物(或cg标志物)的集合的甲基化状态选择患者进行治疗的方法。
使用方法
DNA甲基化是在核苷酸碱基胞嘧啶的C5位和腺嘌呤的N6位处附接甲基基团。腺嘌呤的甲基化主要发生在原核生物中,而胞嘧啶的甲基化发生在原核生物和真核生物二者中。在一些情况下,胞嘧啶的甲基化发生在CpG二核苷酸基序中。在其他情况下,胞嘧啶甲基化发生在例如CHG和CHH基序中,其中H是腺嘌呤、胞嘧啶或胸腺嘧啶。在一些情况下,一个或更多个CpG二核苷酸基序或CpG位点形成富含CpG二核苷酸的短DNA序列的CpG岛。在一些情况下,CpG岛存在于约一半的所有人类基因的5’区域。CpG岛的长度通常,但不总是在约0.2kb至约1kb之间。胞嘧啶甲基化还包括5-甲基胞嘧啶(5-mCyt)和5-羟甲基胞嘧啶。
CpG(胞嘧啶-磷酸-鸟嘌呤)或CG基序是指其中线性链中胞嘧啶核苷酸与鸟嘌呤核苷酸相邻存在的DNA分子的区域。在一些情况下,CpG二核苷酸中的胞嘧啶被甲基化以形成5-甲基胞嘧啶。在一些情况下,CpG二核苷酸中的胞嘧啶被甲基化以形成5-羟甲基胞嘧啶。
在一些情况下,一个或更多个DNA区域是超甲基化的。在这样的情况下,超甲基化是指区域相对于参考区域的甲基化事件的增加。在一些情况下,超甲基化在一种或更多种癌症类型中被观察到,并且可用作例如诊断标志物和/或预后标志物。
在一些情况下,一个或更多个DNA区域是低甲基化的。在一些情况下,低甲基化是指相对于参考区域,第一区域中5-甲基胞嘧啶核苷酸中的甲基基团的失去。在一些情况下,低甲基化在一种或更多种癌症类型中被观察到,并且可用作例如诊断标志物和/或预后标志物。
在一些实施方案中,本文公开了用于诊断受试者中的癌症的CpG甲基化标志物。在一些情况下,本文还公开了一种选择疑似患有癌症的受试者进行治疗的方法。在一些情况下,方法包括(a)使经处理的DNA与来自探针组合的至少一种探针接触以产生经扩增的产物,其中至少一种探针在高严格度条件下与选自表1、表2、表7、表8或表13的cg标志物的靶序列杂交,并且其中经处理的DNA从由受试者获得的生物样品处理而来;(b)分析经扩增的产物以产生cg标志物的甲基化谱;(c)将甲基化谱与参考模型比较,该参考模型将来自表1、表2、表7、表8和表13的cg标志物的甲基化谱与癌症的集合关联;(d)基于步骤c)的比较,确定:(i)受试者是否患有癌症;和(ii)受试者具有哪种癌症类型;以及(e)如果受试者被确定患有癌症并且癌症类型被确定,则向受试者施用有效量的治疗剂。
在一些情况下,方法包括(a)使经处理的DNA与探针组合接触以产生经扩增的产物,其中探针组合中的每一种探针在高严格度条件下与选自表1、表2、表7或表8的cg标志物的靶序列杂交;(b)分析经扩增的产物以产生由探针组合靶向的cg标志物的甲基化谱;(c)将甲基化谱与参考模型比较,该参考模型将来自表1、表2、表7和表8的cg标志物的甲基化谱与癌症的集合关联;(d)评价来自模型的输出以确定:(i)受试者是否患有癌症;和(ii)受试者具有哪种癌症类型;以及(e)如果受试者被确定患有癌症并且癌症类型被确定,则向受试者施用有效量的治疗剂。
在一些情况下,用脱氨基剂处理生物样品以产生经处理的DNA。
在一些情况下,来自探针组合的至少一种探针是锁式探针。
在一些情况下,至少一种探针在高严格度条件下与选自表1的cg标志物的靶序列杂交。
在一些情况下,至少一种探针在高严格度条件下与选自表2的cg标志物的靶序列杂交。
在一些情况下,至少一种探针在高严格度条件下与选自表4的cg标志物的靶序列杂交。
在一些情况下,至少一种探针在高严格度条件下与选自表5的cg标志物的靶序列杂交。
在一些情况下,至少一种探针在高严格度条件下与选自表7的cg标志物的靶序列杂交。
在一些情况下,至少一种探针在高严格度条件下与选自表8的cg标志物的靶序列杂交。
在一些情况下,至少一种探针在高严格度条件下与选自表13的cg标志物的靶序列杂交。
在一些情况下,至少一种探针在高严格度条件下与选自以下的cg标志物的靶序列杂交:cg19516279,cg06100368,cg25945732,cg19155007,cg17952661,cg04072843,cg01250961,cg08131100,cg03788131,cg17528648,cg07784526,cg18948743,cg23986470,cg00846300,cg01029638,cg08350814,cg05098590,cg18085998,cg06532037,cg15313226,cg16232979,cg26149167,cg01237565,cg16561543,cg13771313,cg13771313,cg08169020,cg08169020,cg21153697,cg07326648,cg14309384,cg20923716,cg09095222,cg22220310,cg21950459,cg13332729,cg10802543,cg20707333,cg13169641,cg25352342,cg09921682,cg02504622,cg17373759,cg06547203,cg06826710,cg00902147,cg17609887,cg15721142,cg08116711,cg00736681,cg18834029,cg06969479,cg24630516,cg16901821,cg20349803,cg23610994,cg19313373,cg16508600,cg24096323,cg24746106,cg12288267,cg10430690,cg24408776,cg05630192,cg12028674,cg24820270,cg12028674,cg26718707,cg10349880,cg09921682,cg25934700,cg14164596,cg24461337,cg23041410,cg07366553,cg26859666,cg06405341,cg08557188,cg00690392,cg03421440,cg07077277、cg00456086或cg20702527。在一些情况下,至少一种探针在高严格度条件下与选自以下的cg标志物的靶序列杂交:cg19516279、cg06100368、cg20349803、cg23610994、cg19313373、cg16508600或cg24096323。在一些情况下,至少一种探针在高严格度条件下与选自以下的cg标志物的靶序列杂交:cg25945732、cg19155007、cg17952661、cg25934700、cg14164596、cg24461337、cg23041410、cg07366553、cg26859666或cg00456086。在一些情况下,至少一种探针在高严格度条件下与选自以下的cg标志物的靶序列杂交:cg04072843、cg01250961、cg24746106、cg12288267或cg10430690。在一些情况下,至少一种探针在高严格度条件下与选自以下的cg标志物的靶序列杂交:cg08131100、cg03788131、cg17528648、cg07784526、cg18948743、cg23986470、cg00846300、cg25352342、cg09921682、cg02504622、cg17373759、cg12028674、cg24820270、cg12028674、cg26718707、cg10349880或cg09921682。在一些情况下,至少一种探针在高严格度条件下与选自以下的cg标志物的靶序列杂交:cg01029638、cg08350814、cg05098590、cg18085998、cg06532037、cg15313226、cg16232979、cg26149167、cg06547203、cg06826710、cg00902147、cg17609887或cg157211426。在一些情况下,至少一种探针在高严格度条件下与选自以下的cg标志物的靶序列杂交:cg01237565、cg16561543或cg08116711。在一些情况下,至少一种探针在高严格度条件下与选自以下的cg标志物的靶序列杂交:cg13771313、cg13771313或cg08169020。在一些情况下,至少一种探针在高严格度条件下与选自以下的cg标志物的靶序列杂交:cg08169020、cg21153697、cg07326648、cg14309384、cg20923716、cg22220310、cg21950459、cg13332729、cg10802543、cg20707333或cg13169641。在一些情况下,至少一种探针在高严格度条件下与cg标志物cg09095222的靶序列杂交。在一些情况下,至少一种探针在高严格度条件下与选自以下的cg标志物的靶序列杂交:cg00736681或cg18834029。在一些情况下,至少一种探针在高严格度条件下与选自以下的cg标志物的靶序列杂交:cg06969479、cg24630516或cg16901821。在一些情况下,至少一种探针在高严格度条件下与cg标志物cg24408776的靶序列杂交。在一些情况下,至少一种探针在高严格度条件下与cg标志物cg05630192的靶序列杂交。在一些情况下,至少一种探针在高严格度条件下与cg标志物cg06405341的靶序列杂交。在一些情况下,至少一种探针在高严格度条件下与选自以下的cg标志物的靶序列杂交:cg08557188、cg00690392、cg03421440或cg07077277。在一些情况下,至少一种探针在高严格度条件下与选自以下的cg标志物的靶序列杂交:cg10673833、cg10493436、cg10428836、cg27284288、cg16959747、cg17494199、cg23678254、cg24067911或cg25459300。
在一些情况下,至少一种探针在高严格度条件下与选自由以下组成的基因组合的基因的靶序列杂交:BMPR1A、PSD、ARHGAP25、KLF3、PLAC8、ATXN1、染色体6:170、染色体6:3、ATAD2和染色体8:20。
在一些情况下,至少一种探针在高严格度条件下与选自由以下组成的基因组合的基因的靶序列杂交:MYO1G、ADAMTS4、BMPR1A、CD6、RBP5、Chr 13:10、LGAP5、ATXN1和Chr 8:20。
在一些情况下,参考模型包括从已知癌症类型的样品产生的来自表1和表2的cg标志物的甲基化谱。在一些情况下,参考模型还包括从正常样品产生的来自表1和表2的cg标志物的甲基化谱。在一些情况下,参考模型包括从组织样品产生的来自表1和表2的cg标志物的甲基化谱。
在一些情况下,参考模型包括从已知癌症类型的样品产生的来自表7和表8的cg标志物的甲基化谱。在一些情况下,参考模型还包括从正常样品产生的来自表7和表8的cg标志物的甲基化谱。在一些情况下,参考模型包括从组织样品产生的来自表7和表8的cg标志物的甲基化谱。
在一些情况下,参考模型包括从已知癌症类型的样品产生的来自表13的cg标志物的甲基化谱。在一些情况下,参考模型还包括从正常样品产生的来自表13的cg标志物的甲基化谱。在一些情况下,参考模型包括从组织样品产生的来自表13的cg标志物的甲基化谱。
在一些情况下,参考模型使用选自以下的一种或更多种的算法开发:主成分分析、逻辑回归分析、最近邻分析、支持向量机和神经网络模型。
在一些实施方案中,上文描述的分析包括定量检测经扩增的产物的甲基化状态。在一些情况下,检测包括基于探针的实时定量PCR或基于探针的数字PCR。在一些情况下,检测包括基于探针的实时定量PCR。在其他情况下,检测包括基于探针的数字PCR,任选地,数字液滴PCR。
在一些实施方案中,治疗包括化学治疗剂或用于靶向疗法的剂。示例性化学治疗剂包括但不限于顺铂、多柔比星、氟嘧啶、吉西他滨、伊立替康、米托蒽醌、奥沙利铂、沙利度胺或其组合。在一些情况下,化学治疗剂包括顺铂、多柔比星、氟嘧啶、吉西他滨、伊立替康、米托蒽醌、奥沙利铂、沙利度胺或其组合。在一些情况下,治疗包括用于靶向疗法的剂。在另外的情况下,治疗包括手术。
在一些情况下,生物样品是血液样品、尿液样品、唾液样品、汗液样品或泪液样品。在一些情况下,生物样品是血液样品或尿液样品。在一些情况下,生物样品是组织活组织检查样品。在一些情况下,生物样品是无细胞DNA样品。在一些情况下,生物样品包含循环肿瘤细胞。
在一些实施方案中,本文还公开了一种检测cg标志物的集合的甲基化状态的方法。在一些实施方案中,方法包括(a)用脱氨基剂处理从受试者获得的生物样品以产生包含脱氨基的核苷酸的经处理的DNA;(b)使经处理的DNA与至少一种探针接触,所述至少一种探针在高严格度条件下与来自表1、表2、表7、表8、表13、表14或表20的cg标志物的靶序列杂交;和(c)定量检测cg标志物的甲基化状态,其中所述检测包括基于探针的实时定量PCR或基于探针的数字PCR。
在一些实施方案中,检测cg标志物的集合的甲基化状态的方法包括(a)用脱氨基剂处理从受试者获得的生物样品以产生包含脱氨基的核苷酸的经处理的DNA;(b)使经处理的DNA与至少一种探针接触,所述至少一种探针在高严格度条件下与来自表1或表2的cg标志物的靶序列杂交;和(c)定量检测cg标志物的甲基化状态,其中所述检测包括基于探针的实时定量PCR或基于探针的数字PCR。
在一些情况下,检测包括基于探针的实时定量PCR或基于探针的数字PCR。在一些情况下,检测包括基于探针的实时定量PCR。在其他情况下,检测包括基于探针的数字PCR,任选地,数字液滴PCR。
在一些情况下,来自探针组合的至少一种探针是锁式探针。
在一些情况下,至少一种探针在高严格度条件下与选自表1的cg标志物的靶序列杂交。
在一些情况下,至少一种探针在高严格度条件下与选自表2的cg标志物的靶序列杂交。
在一些情况下,至少一种探针在高严格度条件下与选自表4的cg标志物的靶序列杂交。
在一些情况下,至少一种探针在高严格度条件下与选自表5的cg标志物的靶序列杂交。
在一些情况下,至少一种探针在高严格度条件下与选自表7的cg标志物的靶序列杂交。
在一些情况下,至少一种探针在高严格度条件下与选自表8的cg标志物的靶序列杂交。
在一些情况下,至少一种探针在高严格度条件下与选自表13的cg标志物的靶序列杂交。
在一些情况下,至少一种探针在高严格度条件下与选自表14的cg标志物的靶序列杂交。
在一些情况下,至少一种探针在高严格度条件下与选自表20的cg标志物的靶序列杂交。
在一些情况下,至少一种探针在高严格度条件下与选自以下的cg标志物的靶序列杂交:cg19516279,cg06100368,cg25945732,cg19155007,cg17952661,cg04072843,cg01250961,cg08131100,cg03788131,cg17528648,cg07784526,cg18948743,cg23986470,cg00846300,cg01029638,cg08350814,cg05098590,cg18085998,cg06532037,cg15313226,cg16232979,cg26149167,cg01237565,cg16561543,cg13771313,cg13771313,cg08169020,cg08169020,cg21153697,cg07326648,cg14309384,cg20923716,cg09095222,cg22220310,cg21950459,cg13332729,cg10802543,cg20707333,cg13169641,cg25352342,cg09921682,cg02504622,cg17373759,cg06547203,cg06826710,cg00902147,cg17609887,cg15721142,cg08116711,cg00736681,cg18834029,cg06969479,cg24630516,cg16901821,cg20349803,cg23610994,cg19313373,cg16508600,cg24096323,cg24746106,cg12288267,cg10430690,cg24408776,cg05630192,cg12028674,cg24820270,cg12028674,cg26718707,cg10349880,cg09921682,cg25934700,cg14164596,cg24461337,cg23041410,cg07366553,cg26859666,cg06405341,cg08557188,cg00690392,cg03421440,cg07077277,cg00456086或cg20702527。在一些情况下,至少一种探针在高严格度条件下与选自以下的cg标志物的靶序列杂交:cg19516279、cg06100368、cg20349803、cg23610994、cg19313373、cg16508600或cg24096323。在一些情况下,至少一种探针在高严格度条件下与选自以下的cg标志物的靶序列杂交:cg25945732、cg19155007、cg17952661、cg25934700、cg14164596、cg24461337、cg23041410、cg07366553、cg26859666或cg00456086。在一些情况下,至少一种探针在高严格度条件下与选自以下的cg标志物的靶序列杂交:cg04072843、cg01250961、cg24746106、cg12288267或cg10430690。在一些情况下,至少一种探针在高严格度条件下与选自以下的cg标志物的靶序列杂交:cg08131100、cg03788131、cg17528648、cg07784526、cg18948743、cg23986470、cg00846300、cg25352342、cg09921682、cg02504622、cg17373759、cg12028674、cg24820270、cg12028674、cg26718707、cg10349880或cg09921682。在一些情况下,至少一种探针在高严格度条件下与选自以下的cg标志物的靶序列杂交:cg01029638、cg08350814、cg05098590、cg18085998、cg06532037、cg15313226、cg16232979、cg26149167、cg06547203、cg06826710、cg00902147、cg17609887或cg15721142。在一些情况下,至少一种探针在高严格度条件下与选自以下的cg标志物的靶序列杂交:cg01237565、cg16561543或cg08116711。在一些情况下,至少一种探针在高严格度条件下与选自以下的cg标志物的靶序列杂交:cg13771313、cg13771313或cg08169020。在一些情况下,至少一种探针在高严格度条件下与选自以下的cg标志物的靶序列杂交:cg08169020、cg21153697、cg07326648、cg14309384、cg20923716、cg22220310、cg21950459、cg13332729、cg10802543、cg20707333或cg13169641。在一些情况下,至少一种探针在高严格度条件下与cg标志物cg09095222的靶序列杂交。在一些情况下,至少一种探针在高严格度条件下与选自以下的cg标志物的靶序列杂交:cg00736681或cg18834029。在一些情况下,至少一种探针在高严格度条件下与选自以下的cg标志物的靶序列杂交:cg06969479、cg24630516或cg16901821。在一些情况下,至少一种探针在高严格度条件下与cg标志物cg24408776的靶序列杂交。在一些情况下,至少一种探针在高严格度条件下与cg标志物cg05630192的靶序列杂交。在一些情况下,至少一种探针在高严格度条件下与cg标志物cg06405341的靶序列杂交。在一些情况下,至少一种探针在高严格度条件下与选自以下的cg标志物的靶序列杂交:cg08557188、cg00690392、cg03421440或cg07077277。在一些情况下,至少一种探针在高严格度条件下与选自以下的cg标志物的靶序列杂交:cg10673833、cg10493436、cg10428836、cg27284288、cg16959747、cg17494199、cg23678254、cg24067911或cg25459300。在一些情况下,至少一种探针在高严格度条件下与选自以下的cg标志物的靶序列杂交:cg05205843,cg11841704,cg06699564,cg08924619,cg11959316,cg08924619,cg06699564,cg01824933,cg08924619,cg05205842,cg08924619,cg04049981,cg09026722,cg03616722,cg08924619,cg05928904,cg08704934,cg09776772,cg17494199,cg01824933,cg16296417,cg09776772,cg09776772,cg05338167,cg10493436,cg011251410,cg16391792,cg06393830,cg09366118,cg22513455,cg17583432,cg23881926,cg09638208,cg12441066,cg27284288,cg04441857,cg17583432,cg10673833,cg19757176,cg08670281,cg17583432,cg04460364,cg16959747,cg15011734或cg25754195。
在一些实施方案中,cg标志物的集合的甲基化状态或模式还被用于确定受试者是否患有癌症。例如,选自以下的至少一种cg标志物的甲基化状态或模式被用于确定受试者是否患有乳腺癌:cg19516279、cg06100368、cg20349803、cg23610994、cg19313373、cg16508600和cg24096323。在一些情况下,如果cg标志物cg19516279和cg06100368中的至少一种是超甲基化的,则受试者被确定患有乳腺癌。在其他情况下,如果cg标志物cg20349803、cg23610994、cg19313373、cg16508600和cg24096323中的至少一种是低甲基化的,则受试者被确定患有乳腺癌。
在一些情况下,选自以下的至少一种cg标志物的甲基化状态或模式被用于确定受试者是否患有肝癌:cg25945732、cg19155007、cg17952661、cg25934700、cg14164596、cg24461337、cg23041410、cg07366553、cg00456086和cg26859666。在一些情况下,如果cg标志物cg25945732、cg19155007或cg17952661中的至少一种是超甲基化的,则受试者被确定患有肝癌。在一些情况下,如果cg标志物cg25934700、cg14164596、cg24461337、cg23041410、cg07366553、cg26859666或cg00456086中的至少一种是低甲基化的,则受试者被确定患有肝癌。
在一些情况下,选自以下的至少一种标志物的甲基化状态或模式被用于确定受试者是否患有肝癌:
3-49757316,8-27183116,8-141607252,17-29297711,3-49757306,19-43979341,8-141607236,5-176829755,18-13382140,15-65341965,3-13152305,17-29297770,8-27183316,5-176829740,19-41316693,18-43830649,15-65341957,20-44539531,7-30265625,2-131129567,5-176829665,3-13152273,8-27183348,3-49757302,19-41316697,8-61821442,20-44539525,10-102883105,11-65849129,5-176829639,15-91129457,2-1625431,6-151373292,6-151373294,20-25027093,6-14284198,10-4049295,19-59023222,1-184197132,2-131004117,2-8995417,12-10782319,20-25027033,6-151373256,8-86100970,9-4839459,17-41221574,1-153926715,20-25027044,20-20177325,2-1625443,20-25027085,11-69420728,1-229234865,6-13408877,22-50643735,6-151373308,1-232119750,8-134361508,或6-13408858。在一些情况下,如果以下标志物中的至少一种是超甲基化的,则受试者被确定患有肝癌:3-49757316,8-27183116,8-141607252,17-29297711,3-49757306,19-43979341,8-141607236,5-176829755,18-13382140,15-65341965,3-13152305,17-29297770,8-27183316,5-176829740,19-41316693,18-43830649,15-65341957,20-44539531,7-30265625,2-131129567,5-176829665,3-13152273,8-27183348,3-49757302,19-41316697,8-61821442,20-44539525,10-102883105,11-65849129或5-176829639。在一些情况下,如果以下标志物中的至少一种是低甲基化的,则受试者被确定患有肝癌:15-91129457,2-1625431,6-151373292,6-151373294,20-25027093,6-14284198,10-4049295,19-59023222,1-184197132,2-131004117,2-8995417,12-10782319,20-25027033,6-151373256,8-86100970,9-4839459,17-41221574,1-153926715,20-25027044,20-20177325,2-1625443,20-25027085,11-69420728,1-229234865,6-13408877,22-50643735,6-151373308,1-232119750,8-134361508或6-13408858。
在一些情况下,选自以下的至少一种cg标志物的甲基化状态或模式被用于确定受试者是否患有卵巢癌:cg04072843、cg01250961、cg24746106、cg12288267和cg10430690。在一些情况下,如果cg标志物cg04072843和cg01250961中的至少一种是超甲基化的,则受试者被确定患有卵巢癌。在其他情况下,如果cg标志物cg24746106、cg12288267和cg10430690中的至少一种是低甲基化的,则受试者被确定患有卵巢癌。
在一些情况下,选自以下的至少一种cg标志物的甲基化状态或模式被用于确定受试者是否患有结肠直肠癌:
cg08131100,cg03788131,cg17528648,cg07784526,cg18948743,cg23986470,cg00846300,cg25352342,cg09921682,cg02504622,cg17373759,cg12028674,c824820270,cg12028674,cg26718707,cg10349880和cg09921682。在一些情况下,如果以下cg标志物中的至少一种是超甲基化的,则受试者被确定患有结肠直肠癌:cg08131100、cg03788131、cg17528648、cg07784526、cg18948743、cg23986470或cg00846300。在其他情况下,如果以下cg标志物中的至少一种是低甲基化的,则受试者被确定患有结肠直肠癌:cg25352342、cg09921682、cg02504622、cg17373759、cg12028674、cg24820270、cg12028674、cg26718707、cg10349880或cg09921682。
在一些情况下,选自以下的至少一种cg标志物的甲基化状态或模式被用于确定受试者是否患有结肠直肠癌:cg10673833、cg10493436、cg10428836、cg27284288、cg16959747、cg17494199、cg23678254、cg24067911或cg25459300。
在一些情况下,选自以下的至少一种cg标志物的甲基化状态或模式被用于确定受试者是否患有结肠直肠癌:
cg05205843,cg11841704,cg06699564,cg08924619,cg11959316,cg08924619,cg06699564,cg01824933,cg08924619,cg05205842,cg08924619,cg04049981,cg09026722,cg03616722,cg08924619,cg05928904,cg08704934,cg09776772,cg17494199,cg01824933,cg16296417,cg09776772,cg09776772,cg05338167,cg10493436,cg011251410,cg16391792,cg06393830,cg09366118,cg22513455,cg17583432,cg23881926,cg09638208,cg12441066,cg27284288,cg04441857,cg17583432,cg10673833,cg19757176,cg08670281,cg17583432,cg04460364、cg16959747、cg15011734或cg25754195。在一些情况下,如果以下cg标志物中的至少一种是超甲基化的,则受试者被确定患有结肠直肠癌:cg06393830,cg09366118,cg22513455,cg17583432,cg23881926,cg09638208,cg12441066,cg27284288,cg04441857,cg17583432,cg10673833,cg19757176,cg08670281,cg17583432,cg04460364,cg16959747,cg15011734或cg25754195。在其他情况下,如果以下cg标志物中的至少一种是低甲基化的,则受试者被确定患有结肠直肠癌:cg05205843,cg11841704,cg06699564,cg08924619,cg11959316,cg08924619,cg06699564,cg01824933,cg08924619,cg05205842,cg08924619,cg04049981,cg09026722,cg03616722,cg08924619,cg05928904,cg08704934,cg09776772,cg17494199,cg01824933,cg16296417,cg09776772,cg09776772,cg05338167,cg10493436,cg011251410,或cg16391792。
在一些情况下,选自以下的至少一种cg标志物的甲基化状态或模式被用于确定受试者是否患有前列腺癌:cg01029638、cg08350814、cg05098590、cg18085998、cg06532037、cg15313226、cg16232979、cg26149167、cg06547203、cg06826710、cg00902147、cg17609887和cg15721142。在一些情况下,如果以下cg标志物中的至少一种是超甲基化的,则受试者被确定患有前列腺癌:cg01029638、cg08350814、cg05098590、cg18085998、cg06532037、cg15313226、cg16232979或cg26149167。在其他情况下,如果以下cg标志物中的至少一种是低甲基化的,则受试者被确定患有前列腺癌:cg06547203、cg06826710、cg00902147、cg17609887或cg15721142。
在一些情况下,选自以下的至少一种cg标志物的甲基化状态或模式被用于确定受试者是否患有胰腺癌:cg01237565、cg16561543和cg08116711。在一些情况下,如果cg标志物cg01237565或cg16561543中的至少一种是超甲基化的,则受试者被确定患有胰腺癌。在其他情况下,如果cg标志物cg08116711是低甲基化的,则受试者被确定患有胰腺癌。
在一些情况下,选自以下的至少一种cg标志物的甲基化状态或模式被用于确定受试者是否患有急性髓性白血病:cg13771313、cg13771313和cg08169020。
在一些情况下,选自以下的至少一种cg标志物的甲基化状态或模式被用于确定受试者是否患有宫颈癌:cg08169020、cg21153697、cg07326648、cg14309384、cg20923716、cg22220310、cg21950459、cg13332729、cg10802543、cg20707333和cg13169641。在一些情况下,如果以下cg标志物中的至少一种是超甲基化的,则受试者被确定患有宫颈癌:cg08169020、cg21153697、cg07326648、cg14309384或cg20923716。在其他情况下,如果以下cg标志物中的至少一种是低甲基化的,则受试者被确定患有宫颈癌:cg22220310、cg21950459、cg13332729、cg10802543、cg20707333或cg13169641。
在一些情况下,一种cg标志物cg09095222的甲基化状态或模式被用于确定受试者是否患有肉瘤。在一些情况下,如果至少cg标志物cg09095222是超甲基化的,则受试者被确定患有肉瘤。
在一些情况下,选自以下的至少一种cg标志物的甲基化状态或模式被用于确定受试者是否患有胃癌:cg00736681和cg18834029。在一些情况下,如果cg标志物cg00736681或cg18834029中的至少一种是低甲基化的,则受试者被确定患有胃癌。
在一些情况下,选自以下的至少一种cg标志物的甲基化状态或模式被用于确定受试者是否患有甲状腺癌:cg06969479、cg24630516和cg16901821。在一些情况下,如果cg标志物cg06969479、cg24630516或cg16901821中的至少一种是低甲基化的,则受试者被确定患有甲状腺癌。
在一些情况下,cg标志物cg05630192的甲基化状态或模式被用于确定受试者是否患有间皮瘤。在一些情况下,如果cg标志物cg05630192是低甲基化的,则受试者被确定患有间皮瘤。
在一些情况下,cg标志物cg06405341的甲基化状态或模式被用于确定受试者是否患有胶质母细胞瘤。
在一些情况下,选自以下的至少一种cg标志物的甲基化状态或模式被用于确定受试者是否患有肺癌:cg08557188、cg00690392、cg03421440和cg07077277。在一些情况下,如果cg标志物cg08557188、cg00690392、cg03421440或cg07077277中的至少一种是低甲基化的,则受试者被确定患有肺癌。
在一些实施方案中,选自以下的一种或更多种基因的甲基化状态或模式还被用于确定受试者是否患有癌症:MYO1G、ADAMTS4、BMPR1A、CD6、RBP5、Chr 13:10、LGAP5、ATXN1、Chr 8:20或其组合。在一些情况下,选自以下的一种或更多种基因的甲基化状态还被用于确定受试者是否患有结肠直肠癌:MYO1G、ADAMTS4、BMPR1A、CD6、RBP5、Chr 13:10、LGAP5、ATXN1、Chr 8:20或其组合。
在一些实施方案中,本文还公开了一种基于cg标志物的集合的甲基化状态确定有相应需要的受试者中的癌症的预后的方法。在一些实施方案中,方法包括(a)用脱氨基剂处理从受试者获得的生物样品以产生包含脱氨基的核苷酸的经处理的DNA;(b)使经处理的DNA与至少一种探针接触,所述至少一种探针在高严格度条件下与cg10673833或cg25462303的靶序列杂交;和(c)定量检测cg标志物的甲基化状态,其中所述检测包括基于探针的实时定量PCR或基于探针的数字PCR。在一些情况下,癌症是结肠直肠癌。在一些情况下,确定有相应需要的受试者中的结肠直肠癌的预后的方法包括(a)用脱氨基剂处理从受试者获得的生物样品以产生包含脱氨基的核苷酸的经处理的DNA;(b)使经处理的DNA与至少一种探针接触,所述至少一种探针在高严格度条件下与cg10673833或cg25462303的靶序列杂交;和(c)定量检测cg标志物的甲基化状态,其中所述检测包括基于探针的实时定量PCR或基于探针的数字PCR。在一些情况下,cg10673833、cg25462303或其组合的甲基化状态被用于监测有相应需要的受试者的治疗进展。在另外的情况下,cg10673833、cg25462303或其组合的甲基化状态被用作有相应需要的受试者发展癌症(例如,CRC)的早期预测物。
在一些实施方案中,本文另外公开了一种确定有相应需要的受试者中的癌症的预后的方法,该方法包括(a)用脱氨基剂处理从受试者获得的生物样品以产生包含脱氨基核苷酸的经处理的DNA;(b)将经处理的DNA与至少一种探针接触,所述至少一种探针在高严格度条件下与以下的靶序列杂交:cg05205843,cg11841704,cg06699564,cg08924619,cg11959316,cg08924619,cg06699564,cg01824933,cg08924619,cg05205842,cg08924619,cg04049981,cg09026722,cg03616722,cg08924619,cg05928904,cg08704934,cg09776772,cg17494199,cg01824933,cg16296417,cg09776772,cg09776772,cg05338167,cg10493436,cg011251410,cg16391792,cg06393830,cg09366118,cg22513455,cg17583432,cg23881926,cg09638208,cg12441066,cg27284288,cg04441857,cg17583432,cg10673833,cg19757176,cg08670281,cg17583432,cg04460364,cg16959747,cg15011734或cg25754195;和(c)定量检测cg标志物的甲基化状态,其中所述检测包括基于探针的实时定量PCR或基于探针的数字PCR。在一些情况下,癌症是结肠直肠癌。在一些情况下,确定有相应需要的受试者中的结肠直肠癌的预后的方法包括(a)用脱氨基剂处理从受试者获得的生物样品以产生包含脱氨基核苷酸的经处理的DNA;(b)将经处理的DNA与至少一种探针接触,所述至少一种探针在高严格度条件下与以下的靶序列杂交:cg05205843,cg11841704,cg06699564,cg08924619,cg11959316,cg08924619,cg06699564,cg01824933,cg08924619,cg05205842,cg08924619,cg04049981,cg09026722,cg03616722,cg08924619,cg05928904,cg08704934,cg09776772,cg17494199,cg01824933,cg16296417,cg09776772,cg09776772,cg05338167,cg10493436,cg011251410,cg16391792,cg06393830,cg09366118,cg22513455,cg17583432,cg23881926,cg09638208,cg12441066,cg27284288,cg04441857,cg17583432,cg10673833,cg19757176,cg08670281,cg17583432,cg04460364,cg16959747,cg15011734或cg25754195;和(c)定量检测cg标志物的甲基化状态,其中所述检测包括基于探针的实时定量PCR或基于探针的数字PCR。
在一些情况下,如果以下的一种或更多种cg标志物是超甲基化的,则癌症的预后与晚期肿瘤分期和不良存活相关:cg06393830,cg09366118,cg22513455,cg17583432,cg23881926,cg09638208,cg12441066,cg27284288,cg04441857,cg17583432,cg10673833,cg19757176,cg08670281,cg17583432,cg04460364,cg16959747,cg15011734,或cg25754195。
在一些情况下,以下的甲基化状态或模式被用于监测有相应需要的受试者的治疗进展:cg05205843,cg11841704,cg06699564,cg08924619,cg11959316,cg08924619,cg06699564,cg01824933,cg08924619,cg05205842,cg08924619,cg04049981,cg09026722,cg03616722,cg08924619,cg05928904,cg08704934,cg09776772,cg17494199,cg01824933,cg16296417,cg09776772,cg09776772,cg05338167,cg10493436,cg011251410,cg16391792,cg06393830,cg09366118,cg22513455,cg17583432,cg23881926,cg09638208,cg12441066,cg27284288,cg04441857,cg17583432,cg10673833,cg19757176,cg08670281,cg17583432,cg04460364,cg16959747,cg15011734,cg25754195或其组合。在另外的情况下,以下的甲基化状态被用作有相应需要的受试者发展癌症(例如CRC)的早期预测物:cg05205843,cg11841704,cg06699564,cg08924619,cg11959316,cg08924619,cg06699564,cg01824933,cg08924619,cg05205842,cg08924619,cg04049981,cg09026722,cg03616722,cg08924619,cg05928904,cg08704934,cg09776772,cg17494199,cg01824933,cg16296417,cg09776772,cg09776772,cg05338167,cg10493436,cg011251410,cg16391792,cg06393830,cg09366118,cg22513455,cg17583432,cg23881926,cg09638208,cg12441066,cg27284288,cg04441857,cg17583432,cg10673833,cg19757176,cg08670281,cg17583432,cg04460364,cg16959747,cg15011734,cg25754195或其组合。
在一些实施方案中,选自以下的一种或更多种生物标志物的甲基化状态或模式被用于确定患有肝癌的受试者的预后:3-49757316,8-27183116,8-141607252,17-29297711,3-49757306,19-43979341,8-141607236,5-176829755,18-13382140,15-65341965,3-13152305,17-29297770,8-27183316,5-176829740,19-41316693,18-43830649,15-65341957,20-44539531,7-30265625,2-131129567,5-176829665,3-13152273,8-27183348,3-49757302,19-41316697,8-61821442,20-44539525,10-102883105,11-65849129,5-176829639,15-91129457,2-1625431,6-151373292,6-151373294,20-25027093,6-14284198,10-4049295,19-59023222,1-184197132,2-131004117,2-8995417,12-10782319,20-25027033,6-151373256,8-86100970,9-4839459,17-41221574,1-153926715,20-25027044,20-20177325,2-1625443,20-25027085,11-69420728,1-229234865,6-13408877,22-50643735,6-151373308,1-232119750,8-134361508,或6-13408858。在另外的情况下,选自以下的一种或更多种生物标志物的甲基化状态或模式被用于监测患有肝癌的受试者的治疗进展:3-49757316,8-27183116,8-141607252,17-29297711,3-49757306,19-43979341,8-141607236,5-176829755,18-13382140,15-65341965,3-13152305,17-29297770,8-27183316,5-176829740,19-41316693,18-43830649,15-65341957,20-44539531,7-30265625,2-131129567,5-176829665,3-13152273,8-27183348,3-49757302,19-41316697,8-61821442,20-44539525,10-102883105,11-65849129,5-176829639,15-91129457,2-1625431,6-151373292,6-151373294,20-25027093,6-14284198,10-4049295,19-59023222,1-184197132,2-131004117,2-8995417,12-10782319,20-25027033,6-151373256,8-86100970,9-4839459,17-41221574,1-153926715,20-25027044,20-20177325,2-1625443,20-25027085,11-69420728,1-229234865,6-13408877,22-50643735,6-151373308,1-232119750,8-134361508,或6-13408858。
在一些情况下,生物样品是血液样品、尿液样品、唾液样品、汗液样品或泪液样品。在一些情况下,生物样品是血液样品或尿液样品。在一些情况下,生物样品是组织活组织检查样品。在一些情况下,生物样品是无细胞DNA样品。在一些情况下,生物样品包含循环肿瘤细胞。
检测方法
在一些实施方案中,在将受试者鉴定为患有肝癌、确定肝癌亚型、患有肝癌的受试者的预后以及在治疗剂的存在下受试者的肝癌的进展或消退中,使用了许多方法来测量、检测、确定、鉴定和表征基因或生物标志物(例如,含CpG岛的区域/片段)的甲基化状态/水平。
在一些情况下,甲基化谱从分离自个体的生物样品产生。在一些实施方案中,生物样品是活组织检查。在一些情况下,生物样品是组织样品。在一些情况下,生物样品是组织活组织检查样品。在一些情况下,生物样品是血液样品。在其他情况下,生物样品是无细胞生物样品。在其他情况下,生物样品是循环肿瘤DNA样品。在一种实施方案中,生物样品是含有循环肿瘤DNA的无细胞生物样品。
在一些实施方案中,生物标志物(或表观遗传标志物)从液体样品获得。在一些实施方案中,液体样品包括血液和生物来源的其他液体样品(包括但不限于,外周血、血清、血浆、腹水、尿液、脑脊液(CSF)、痰、唾液、骨髓、滑液、房水、羊水、耳垢、母乳、支气管肺泡灌洗液、精液、前列腺液、考珀液或预射精液、女性喷射液、汗液、泪液、囊液、胸膜液和腹膜液、心包液、腹水、淋巴液、食糜、乳糜、胆汁、间质液、月经、脓、皮脂、呕吐物、阴道分泌物/冲洗物、滑液、粘膜分泌物、粪便水、胰液、来自窦腔的灌洗液、支气管肺抽吸物、囊胚腔液(blastocyl cavity fluid)或脐带血。在一些实施方案中,生物液体是血液、血液衍生物或血液级分,例如血清或血浆。在具体实施方案中,样品包括血液样品。在另一种实施方案中,使用血清样品。在另一种实施方案中,样品包括尿液。在一些实施方案中,液体样品还包括在获得后已经以任何方式操作的样品,诸如通过离心、过滤、沉淀、透析、色谱法、用试剂处理、洗涤或富集某些细胞群体。
在一些实施方案中,生物标志物(或表观遗传标志物)从组织样品获得。在一些情况下,组织对应于任何细胞。不同类型的组织对应于不同类型的细胞(例如,肝、肺、血液、结缔组织等),但也对应于健康细胞与肿瘤细胞或处于不同肿瘤形成期的肿瘤细胞,或移位的恶性肿瘤细胞。在一些实施方案中,组织样品还包括临床样品,并且还包括培养物中的细胞、细胞上清液、器官等。样品还包括新鲜冷冻和/或福尔马林固定的石蜡包埋的组织块,诸如从临床或病理学活组织检查制备的块、制备用于病理学分析或为通过免疫组织化学研究的块。
在一些实施方案中,生物标志物(或表观遗传标志物)在正常样品(例如,没有疾病的正常或对照组织,或正常或对照体液、粪便、血液、血清、羊水)中是甲基化的或未甲基化的,最重要的在健康粪便、血液、血清、羊水或其他体液中是甲基化的或未甲基化的。在其他实施方案中,生物标志物(或表观遗传标志物)在来自患有疾病(例如,本文描述的一种或更多种适应症)或处于疾病(例如,本文描述的一种或更多种适应症)风险的患者的样品中是低甲基化的或超甲基化的;例如,与正常样品相比,甲基化频率(分别)降低了或增加了至少约50%、至少约60%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%或约100%。在一种实施方案中,与患有疾病(例如,本文描述的一种或更多种适应症)或处于疾病(例如,本文描述的一种或更多种适应症)风险的同一患者的先前获得的样品分析相比,特别是比较疾病的进展,样品也是低甲基化的或超甲基化的。
在一些实施方案中,甲基化组(methylome)包括表观遗传标志物或生物标志物,诸如上文描述的生物标志物的集合。在一些情况下,将对应于生物体(例如,人类)的肿瘤的甲基化组的甲基化组分类为肿瘤甲基化组。在一些情况下,肿瘤甲基化组使用肿瘤组织或生物样品中的无细胞(或无蛋白)肿瘤DNA确定。感兴趣的甲基化组的其他实例包括将DNA贡献到体液中的器官的甲基化组(例如组织诸如脑、乳腺、肺、前列腺和肾、血浆等的甲基化组)。
在一些实施方案中,血浆甲基化组是从动物(例如,人类)的血浆或血清确定的甲基化组。在一些情况下,血浆甲基化组是无细胞甲基化组或无蛋白甲基化组的实例,因为血浆和血清包括无细胞DNA。血浆甲基化组也是混合甲基化组的实例,因为它是肿瘤甲基化组和其他感兴趣的甲基化组的混合物。在一些情况下,尿液甲基化组从受试者的尿液样品确定。在一些情况下,细胞甲基化组对应于从患者的细胞(例如,血细胞)确定的甲基化组。血细胞的甲基化组被称为血细胞甲基化组(或血液甲基化组)。
在一些实施方案中,DNA(例如,基因组DNA,诸如经提取的基因组DNA或经处理的基因组DNA)通过本领域的任何标准手段、包括使用商购可得的试剂盒分离。简而言之,在感兴趣的DNA包封在细胞膜内的情况下,生物样品通过酶促、化学或机械手段被破坏和裂解。在一些情况下,然后例如通过用蛋白酶K消化来使DNA溶液清除蛋白和其他污染物。然后从溶液回收DNA。在这样的情况下,这通过多种方法的方式进行,包括盐析、有机提取或使DNA与固相支持物结合。在一些情况下,方法的选择受若干因素的影响,包括时间、费用和所需的DNA的量。
在样品DNA未被包封在膜内的情况下(例如,来自无细胞样品诸如血液或尿液的循环DNA),任选地使用本领域中用于分离和/或纯化DNA的标准方法(参见,例如,Bettegowda等.Detection of Circulating Tumor DNA in Early-and Late-Stage HumanMalignancies.Sci.Transl.Med,6(224):ra24.2014)。这样的方法包括使用蛋白变性试剂,例如离液盐,例如盐酸胍或尿素;或去垢剂,例如十二烷基硫酸钠(SDS)、溴化氰。可选的方法包括但不限于乙醇沉淀或丙醇沉淀、真空浓缩、尤其是借助离心机的手段。在一些情况下,本领域技术人员还使用诸如过滤装置的装置,例如超滤、二氧化硅表面或膜、磁性颗粒、聚苯乙烯颗粒、聚苯乙烯表面、带正电荷的表面和带正电荷的膜、带电荷的膜、带电荷的表面、带电荷的转换膜(charged switch membrane)和带电荷的转换表面。
在一些情况下,在核酸已经被提取后,甲基化分析通过本领域已知的任何手段进行。多种甲基化分析程序是本领域已知的,并且可以被用于实践本文公开的方法。这些测定允许确定组织样品内一个或多于一个CpG位点的甲基化状态。此外,这些方法可以被用于甲基化的核酸的绝对定量或相对定量。除其他技术外,这样的甲基化测定包括两个主要步骤。第一个步骤是甲基化特异性反应或分离,诸如(i)亚硫酸氢盐处理,(ii)甲基化特异性结合,或(iii)甲基化特异性限制酶。第二个主要步骤包括(i)扩增和检测,或(ii)通过多种方法直接检测,诸如(a)PCR(序列特异性扩增),诸如Taqman(R),(b)未经处理的DNA和经亚硫酸氢盐处理的DNA的测序,(c)通过连接染料修饰的探针(包括循环连接和裂解)测序,(d)焦磷酸测序,(e)单分子测序,(f)质谱,或(g)Southern印迹分析。
另外地,可以使用从亚硫酸氢盐转化的DNA扩增的PCR产物的限制酶消化,例如,由Sadri和Hornsby(1996,Nucl.Acids Res.24:5058-5059)描述的方法或COBRA(联合亚磷酸氢盐限制性分析,Combined Bisulfite Restriction Analysis)(Xiong和Laird,1997,Nucleic Acids Res.25:2532-2534)。COBRA分析是定量性甲基化测定,可用于确定少量基因组DNA中特定基因座处的DNA甲基化水平。简而言之,限制酶消化被用于揭示经亚硫酸氢钠处理的DNA的PCR产物中的甲基化依赖性序列差异。甲基化依赖性序列差异首先根据Frommer等描述的程序(Frommer等,1992,Proc.Nat.Acad.Sci.USA,89,1827-1831)通过标准亚硫酸氢盐处理来引入到基因组DNA中。然后亚硫酸氢盐转化的DNA的PCR扩增使用对感兴趣的CpG位点特异性的引物进行,随后是限制性核酸内切酶消化、凝胶电泳,和使用特异性的标记的杂交探针检测。原始DNA样品中的甲基化水平以广泛的DNA甲基化水平的线性定量的方式通过消化的和未消化的PCR产物的相对量表示。此外,该技术可以可靠地应用于从显微切片的石蜡包埋的组织样品获得的DNA。用于COBRA分析的典型的试剂(例如,如可以见于典型的基于COBRA的试剂盒)可以包括但不限于:针对特定基因(或甲基化改变的DNA序列或CpG岛)的PCR引物;限制酶和适当的缓冲液;基因杂交寡核苷酸;对照杂交寡核苷酸;用于寡核苷酸探针的激酶标记试剂盒;和放射性核苷酸。另外,亚硫酸氢盐转化试剂可以包括:DNA变性缓冲液;磺化缓冲液;DNA回收试剂或试剂盒(例如,沉淀、超滤、亲和柱);脱磺酸基缓冲液;和DNA回收组分。
在实施方案中,选择的CpG位点的甲基化谱使用甲基化特异性PCR(MSP)确定。MSP允许评估CpG岛内的CpG位点的几乎任何组的甲基化状态,无论是否使用甲基化敏感的限制酶(Herman等,1996,Proc.Nat.Acad.Sci.USA,93,9821-9826;美国专利第5,786,146号、第6,017,704号、第6,200,756号、第6,265,171号(Herman和Baylin);美国专利公布第2010/0144836号(Van Engeland等);其在此通过引用以其整体并入)。简而言之,DNA被脱氨基剂诸如亚硫酸氢钠修饰以将未甲基化的胞嘧啶而不是甲基化的胞嘧啶转化为尿嘧啶,,并且随后用相比于未甲基化的DNA对甲基化的DNA特异性的引物来扩增。在一些情况下,用于MSP分析的典型的试剂(例如,如可以见于典型的基于MSP的试剂盒)包括但不限于:针对特定基因(或甲基化改变的DNA序列或CpG岛)的甲基化和未甲基化PCR引物、优化的PCR缓冲液和脱氧核苷酸以及特异性探针。可以使用如Fackler等人描述的定量多重甲基化特异性PCR(QM-PCR)。Fackler等,2004,Cancer Res.64(13)4442-4452;或Fackler等,2006,Clin.CancerRes.12(11Pt 1)3306-3310。
在实施方案中,选择的CpG位点的甲基化谱使用MethyLight和/或Heavy Methyl方法确定。MethyLight和Heavy Methyl测定是高通量定量甲基化测定,该测定使用基于荧光的实时PCR(Taq Man(R))技术,在PCR步骤后不需要另外的操作(Eads,C.A.等,2000,Nucleic Acid Res.28,e 32;Cottrell等,2007,J.Urology 177,1753、美国专利第6,331,393号(Laird等),其内容在此通过引用以其整体并入)。简而言之,MethyLight方法以基因组DNA的混合样品开始,将该样品根据标准程序在亚硫酸氢钠反应中转化为甲基化依赖性序列差异的混合汇集物(亚硫酸氢盐方法将未甲基化的胞嘧啶残基转化为尿嘧啶)。然后,基于荧光的PCR以“无偏倚的”(用不与已知CpG甲基化位点重叠的引物)PCR反应进行,或以“偏倚的”(用与已知CpG二核苷酸重叠的PCR引物)反应进行。在一些情况下,序列区分在扩增过程的水平或在荧光检测过程的水平或两者发生。在一些情况下,MethyLight测定被用作基因组DNA样品的甲基化模式的定量测试,其中序列区分在探针杂交的水平发生。在这种定量形式中,PCR反应在与特定的推定甲基化位点重叠的荧光探针的存在下提供无偏倚扩增。输入DNA的量的无偏倚对照通过其中引物和探针都不覆盖任何CpG二核苷酸的反应提供。可选地,基因组甲基化的定性测试通过用不“覆盖”已知甲基化位点的对照寡核苷酸(基于荧光的形式的“MSP”技术)或用覆盖潜在的甲基化位点的寡核苷酸探测偏倚的PCR汇集物实现。用于MethyLight分析的典型的试剂(例如,如可以见于典型的基于MethyLight的试剂盒)可以包括但不限于:针对特定基因(或甲基化改变的DNA序列或CpG岛)的PCR引物;TaqMan(R)探针;优化的PCR缓冲液和脱氧核苷酸;和Taq聚合酶。
定量MethyLight使用亚硫酸氢盐来转化基因组DNA,并且甲基化的位点使用PCR用不依赖于甲基化的引物(methylation independent primer)扩增。对甲基化和非甲基化的位点特异性的具有两种不同荧光团的检测探针提供了甲基化的同时定量测量。HeavyMethyl技术以硫酸氢盐转化DNA开始。接下来的特异性阻断剂防止未甲基化的DNA的扩增。甲基化的基因组DNA不结合阻断剂并且它们的序列将被扩增。扩增的序列用甲基化特异性探针检测。(Cottrell等,2004,Nuc.Acids Res.32:e10,其内容在此通过引用以其整体并入)。
Ms-SNuPE技术是基于亚硫酸氢盐处理DNA,随后单核苷酸引物延伸的用于评估特定CpG位点处的甲基化差异的定量方法(Gonzalgo和Jones,1997,Nucleic Acids Res.25,2529-2531)。简而言之,基因组DNA与亚硫酸氢钠反应,以将未甲基化的胞嘧啶转化为尿嘧啶,同时保持5-甲基胞嘧啶不变。然后期望的靶序列的扩增使用对亚硫酸氢盐转化的DNA特异性的PCR引物进行,并且将所得的产物分离并用作感兴趣的CpG位点处的甲基化分析的模板。在一些情况下,分析了少量的DNA(例如,显微切片的病理学切片),并且该方法避免使用用于确定CpG位点处的甲基化状态的限制酶。用于Ms-SNuPE分析的典型的试剂(例如,如可以见于典型的基于Ms-SNuPE的试剂盒)可以包括但不限于:针对特定基因(或甲基化改变的DNA序列或CpG岛)的PCR引物;优化的PCR缓冲液和脱氧核苷酸;凝胶提取试剂盒;阳性对照引物;针对特定基因的Ms-SNuPE引物;反应缓冲液(用于Ms-SNuPE反应);和放射性核苷酸。另外,亚硫酸氢盐转化试剂可以包括:DNA变性缓冲液;磺化缓冲液;DNA回收试剂或试剂盒(例如,沉淀、超滤、亲和柱);脱磺酸基缓冲液;和DNA回收组分。
在另一种实施方案中,选择的CpG位点的甲基化状态使用基于差异性结合的甲基化检测方法来确定。为了鉴定差异性甲基化的区域,一种方法是捕获甲基化的DNA。该方法使用其中MBD2的甲基结合结构域融合到抗体的Fc片段的蛋白(MBD-FC)(Gebhard等,2006,Cancer Res.66:6118-6128;和PCT公布第WO 2006/056480A2号(Relhi),其内容在此通过引用以其整体并入)。这种融合蛋白与传统甲基化特异性抗体相比具有若干优点。MBD FC对甲基化的DNA具有更高的亲和力并且MBD FC结合双链DNA。最重要的是,两种蛋白质结合DNA的方式不同。甲基化特异性抗体与DNA随机结合,这意味着仅可以获得二元答案(binaryanswer)。另一方面,MBD-FC的甲基结合域与DNA分子结合,而不管其甲基化状态如何。这种蛋白质-DNA相互作用的强度由DNA甲基化的水平定义。在与基因组DNA结合后,具有增加的盐浓度的洗脱液可以被用于将非甲基化的和甲基化的DNA分级(fractionate),允许更受控的分离(Gebhard等,2006,Nucleic Acids Res.34:e82)。因此,这种被称为甲基-CpG免疫沉淀(MCIP)的方法不仅富集了基因组DNA,而且还根据甲基化水平对基因组DNA进行分级,这在还应该研究未甲基化的DNA级分时特别有益。
在可选的实施方案中,5-甲基胞苷抗体结合并沉淀甲基化的DNA。抗体可从Abcam(Cambridge,MA)、Diagenode(Sparta,NJ)或Eurogentec(c/oAnaSpec,Fremont,CA)获得。在甲基化片段已经被分离后,它们可以使用基于微阵列的技术进行测序,诸如甲基化的CpG岛回收测定(MIRA)或甲基化的DNA免疫沉淀(MeDIP)(Pelizzola等,2008,Genome Res.18,1652-1659;O’Geen等,2006,BioTechniques 41(5),577-580、Weber等,2005,Nat.Genet.37,853-862;Horak和Snyder,2002,Methods Enzymol,350,469-83;Lieb,2003,Methods Mol Biol,224,99-109)。另一种技术是甲基-CpG结合结构域柱/部分解链的分子的分离(MBD/SPM,Shiraishi等,1999,Proc.Natl.Acad.Sci.USA 96(6):2913-2918)。
在一些实施方案中,用于检测甲基化的方法包括随机剪切或随机片段化基因组DNA,用甲基化依赖性或甲基化敏感的限制酶切割DNA,并且随后选择性鉴定和/或分析切割或未切割的DNA。选择性鉴定可以包括例如,分离切割的和未切割的DNA(例如,通过尺寸),并且对切割的或可选地未切割的感兴趣的序列进行量化。参见例如,美国专利第7,186,512号。可选地,方法可以包括在限制酶消化后扩增完整DNA,从而仅扩增在扩增的区域中没有被限制酶裂解的DNA。参见例如,美国专利第7,910,296号;第7,901,880号;和第7,459,274号。在一些实施方案中,可以使用基因特异性的引物进行扩增。
例如,存在这样的甲基敏感的酶,如果其DNA识别序列是非甲基化的,则优先或基本上在它们的DNA识别序列处裂解或消化。因此,未甲基化的DNA样品比甲基化的DNA样品被切割成更小的片段。相似地,超甲基化的DNA样品不被裂解。相比之下,存在这样的甲基敏感的酶,仅在其DNA识别序列是甲基化的时候才在其DNA识别序列处裂解。适用于在该技术的方法中使用的消化未甲基化的DNA的甲基敏感的酶包括但不限于Hpall、Hhal、Maell、BstUI和Acil。在一些情况下,使用的酶是仅切割未甲基化的序列CCGG的Hpall。在其他情况下,使用的另一种酶是仅切割未甲基化的序列GCGC的Hhal。两种酶均可从New England BioLabs(R),Inc获得。还使用了两种或更多种仅消化未甲基化的DNA的甲基敏感的酶的组合。仅消化甲基化的DNA的合适的酶包括但不限于Dpnl和McrBC,Dpnl仅在完全甲基化的5’-GATC序列处切割,McrBC是一种内切核酸酶,其切割含有修饰的胞嘧啶(5-甲基胞嘧啶或5-羟甲基胞嘧啶或N4-甲基胞嘧啶)的DNA并且在识别位点5’...PumC(N4o-3ooo)PumC...3’处切割(New England BioLabs,Inc.,Beverly,MA)。用于选择的限制酶在特定位点处切割DNA的裂解方法和程序是本领域技术人员熟知的。例如,许多限制酶的供应商提供关于特定限制酶切割的DNA序列的条件和类型的信息,包括New England BioLabs、Promega Biochems、Boehringer-Mannheim等。Sambrook等(参见Sambrook等Molecular Biology:A LaboratoryApproach,Cold Spring Harbor,N.Y.1989)提供了用于使用限制酶和其他酶的方法的一般描述。
在一些情况下,甲基化依赖性限制酶是在甲基化的识别序列处或附近裂解或消化DNA,但当识别序列没有被甲基化时不在同一序列处或同一序列附近裂解DNA的限制酶。甲基化依赖性限制酶包括在甲基化的识别序列处切割的那些酶(例如Dpnl)和在识别序列附近的序列处但不在识别序列处切割的酶(例如McrBC)。例如,McrBC的识别序列是5’RmC(N40-3000)rMC 3’,其中“R”是嘌呤且“mC”是甲基化的胞嘧啶,并且“N40-3000”表示观察到限制性事件的两个RmC半位点之间的距离。McrBC通常靠近一个半位点或另一个半位点切割,但裂解位置通常分布于距甲基化的碱基约30个碱基对的若干个碱基对上。McrBC有时切割两个半位点的3’,有时切割两个半位点的5’,并且有时在两个位点之间切割。示例性的甲基化依赖性限制酶包括,例如,McrBC、McrA、MrrA、Bisl、Glal和Dpnl。本领域技术人员将理解,任何甲基化依赖性限制酶,包括本文描述的限制酶的同源物和直系同源物,也适用于以本文描述的一种或更多种方法使用。
在一些情况下,甲基化敏感的限制酶是在未甲基化的识别序列处或附近裂解DNA但当识别序列被甲基化时不在同一序列处或同一序列附近裂解的限制酶。示例性的甲基化敏感的限制酶在例如McClelland等,22(17)NUCLEIC ACIDS RES.3640-59(1994)中描述。在识别序列内的胞嘧啶在C5位处被甲基化时,在其识别序列处其识别序列附近不裂解DNA的合适的甲基化敏感的限制酶包括例如Aat II、Aci I、Acd I、Age I、Alu I、Asc I、Ase I、AsiS I、Bbe I、BsaA I、BsaH I、BsiE I、BsiW I、BsrF I、BssH II、BssK I、BstB I、BstN I、BstU I、Cla I、Eae I、Eag I、Fau I、Fse I、Hha I、HinPl I、HinC II、Hpa II、Hpy99 I、HpyCH4 IV、Kas I、Mbo I、Mlu I、MapAl I、Msp I、Nae I、Nar I、Not I、Pml I、Pst I、PvuI、Rsr II、Sac II、Sap I、Sau3 A I、Sfl I、Sfo I、SgrA I、Sma I、SnaB I、Tsc I、Xma I和Zra I。在识别序列内的腺苷在N6位处被甲基化时,在其识别序列处或其识别序列附近不裂解DNA的合适的甲基化敏感的限制酶包括例如Mbo I。本领域技术人员将理解,任何甲基化敏感的限制酶,包括本文描述的限制酶的同源物和直系同源物,也适用于以本文描述的一种或更多种方法使用。本领域技术人员还将理解,在其识别序列处或附近存在胞嘧啶的甲基化时不能切割的甲基化敏感的限制酶可能对其识别序列处或其识别序列附近的腺苷的甲基化的存在不敏感。同样地,在其识别序列处或其识别序列附近存在腺苷的甲基化时不能切割的甲基化敏感的限制酶可以对其识别序列处或其识别序列附近的胞嘧啶的甲基化的存在不敏感。例如,Sau3AI对其识别序列处或其识别序列附近的甲基化的胞嘧啶的存在敏感(即,不能切割),但对其识别序列处或其识别序列附近的甲基化的腺苷的存在不敏感(即,切割)。本领域技术人员还将理解,一些甲基化敏感的限制酶被包含其识别序列的DNA的一条或两条链上的碱基的甲基化阻断,而其它甲基化敏感的限制酶仅被两条链上的甲基化阻断,但如果识别位点是半甲基化的,则可以切割。
在可选的实施方案中,任选地将衔接子添加到随机片段化的DNA的末端,然后用甲基化依赖性或甲基化敏感的限制酶消化DNA,并且随后使用与衔接子序列杂交的引物扩增完整的DNA。在这种情况下,进行第二个步骤以确定扩增的DNA汇集物中特定基因的存在、不存在或量。在一些实施方案中,使用实时定量PCR扩增DNA。
在其他实施方案中,方法包括量化基因组DNA的群体内的靶序列中的平均甲基化密度。在一些实施方案中,方法包括在允许基因座中潜在限制酶裂解位点的至少一些拷贝保持未裂解的条件下,使基因组DNA与甲基化依赖性限制酶或甲基化敏感的限制酶接触;量化基因座的完整的拷贝;并将扩增的产物的量与代表对照DNA的甲基化的量的对照值比较,从而量化基因座中与对照DNA的甲基化密度相比的平均甲基化密度。
在一些情况下,DNA的基因座甲基化的量通过以下步骤确定:提供包含基因座的基因组DNA的样品,用甲基化敏感性或甲基化依赖性限制酶裂解DNA,并且然后量化完整DNA的量或量化在感兴趣的DNA基因座处切割的DNA的量。完整或切割的DNA的量将取决于包含基因座的基因组DNA的初始量、基因座中的甲基化的量、以及在基因组DNA中甲基化的基因座中的核苷酸的数目(即,分数)。DNA基因座中的甲基化的量可以通过将完整DNA或切割的DNA的量与表示相似处理的DNA样品中的完整DNA或切割的DNA的量的对照值进行比较来确定。对照值可以表示已知或预测的甲基化的核苷酸的数目。可选地,对照值可以表示来自另一个(例如正常的、非患病的)细胞或第二基因座的相同位点的完整或切割的DNA的量。
通过在允许基因座中潜在限制酶裂解位点的至少一些拷贝保持未裂解的条件下,使用至少一种甲基化敏感性或甲基化依赖性限制酶,并且随后量化剩余的完整拷贝,并将该量与对照进行比较,可以确定基因座的平均甲基化密度。如果使甲基化敏感性限制酶与DNA基因座的拷贝在允许基因座中潜在限制酶裂解位点的至少一些拷贝保持未裂解的条件下接触,那么剩余的完整DNA将与甲基化密度成正比,并且因此可以与对照比较以确定样品中基因座的相对甲基化密度。类似地,如果使甲基化依赖性限制酶与DNA基因座的拷贝在允许基因座中潜在限制酶裂解位点的至少一些拷贝保持未裂解的条件下接触,那么剩余的完整DNA将与甲基化密度成反比,并且因此可以与对照比较以确定样品中基因座的相对甲基化密度。这样的测定在例如美国专利第7,910,296号中公开。
甲基化CpG岛扩增(MCA)技术是可以被用于筛选基因组DNA中改变的甲基化模式并分离与这些改变相关的特定序列的方法(Toyota等,1999,Cancer Res.59,2307-2312、美国专利第7,700,324号(Issa等),其内容在此通过引用以其整体并入)。简而言之,在任意引发的PCR扩增之前,使用对其识别位点中的胞嘧啶甲基化具有不同敏感性的限制酶来消化来自原发肿瘤、细胞系和正常组织的基因组DNA。在高分辨率聚丙烯酰胺凝胶上解析PCR产物后,对显示出差异性甲基化的片段进行克隆并测序。然后将克隆的片段用作用于Southern分析的探针,以确认这些区域的差异性甲基化。用于MCA分析的典型的试剂(例如,如可以见于典型的基于MCA的试剂盒)可以包括但不限于:用于任意引发的基因组DNA的PCR引物;PCR缓冲液和核苷酸、限制酶和适当的缓冲液;基因杂交寡核苷酸或探针;对照杂交寡核苷酸或探针。
另外的甲基化检测方法包括例如美国专利第7,553,627号;第6,331,393号;美国专利序列第12/476,981号;美国专利公开第2005/0069879号;Rein等,26(10)NUCLEICACIDS RES.2255-64(1998);和Olek等,17(3)NAT.GENET.275-6(1997)中描述的那些方法。
在另一种实施方案中,选择的CpG位点的甲基化状态使用甲基化敏感性高分辨率熔解(HRM)来确定。最近,Wojdacz等报道了甲基化敏感性高分辨率熔解作为评估甲基化的技术。(Wojdacz和Dobrovic,2007,Nuc.AcidsRes.35(6)e41;Wojdacz等2008,Nat.Prot.3(12)1903-1908;Balic等,2009J.Mol.Diagn.11 102-108;和美国专利公布第2009/0155791号(Wojdacz等),其内容在此通过引用以其整体并入)。多种商购可得的实时PCR仪具有HRM系统,包括Roche LightCycler480、Corbett Research RotorGene6000和AppliedBiosystems 7500。HRM还可以与其他扩增技术诸如焦磷酸测序结合,如由Candiloro等描述的(Candiloro等,2011,Epigenetics 6(4)500-507)。
在另一种实施方案中,选择的CpG基因座的甲基化状态使用引物延伸测定来确定,包括产生用于使用质谱法分析的经扩增的靶的优化的PCR扩增反应。测定还可以以多重方式进行。质谱法是用于检测与差异性甲基化的调控元件相关的多核苷酸的特别有效的方法。通过将检测到的信号的质量与感兴趣的多核苷酸的预期的质量进行比较来验证多核苷酸序列的存在。特定多核苷酸序列的相对信号强度,例如谱上的质量峰,表示特定等位基因的相对群体,因此能够从数据直接计算等位基因比率。该方法在PCT公布第WO 2005/012578A1号(Beaulieu等)中详细描述,其在此通过引用以其整体并入。对于甲基化分析,可以采用测定来检测亚硫酸氢盐引入的甲基化依赖的C至T序列变化。这些方法特别可用于在单个孔中进行多重扩增反应和多重引物延伸反应(例如,多重均质引物质量延伸(hME)测定),以进一步增加通量并且降低引物延伸反应的每次反应的成本。
用于DNA甲基化分析的其他方法包括限制性标记基因组扫描(restrictionlandmark genomic scanning,RLGS,Costello等,2002,Meth.Mol Biol,200,53-70)、甲基化敏感性代表性差异分析(MS-RDA,Ushijima和Yamashita,2009,Methods Mol Biol 507,117-130)。相对甲基化综合高通量阵列(CHARM)技术在WO 2009/021141(Feinberg和Irizarry)中描述。Roche(R)NimbleGen(R)微阵列包括芯片上染色质免疫沉淀(ChIP-芯片)或芯片上甲基化DNA免疫沉淀(MeDIP-芯片)。这些工具已经被用于多种癌症应用,包括黑素瘤、肝癌和肺癌(Koga等,2009,Genome Res.,19,1462-1470;Acevedo等,2008,CancerRes.,68,2641-2651;Rauch等,2008,Proc.Nat.Acad.Sci.USA,105,252-257)。其他文献已经报道了用于甲基化的高通量检测的硫酸氢盐转化、锁式探针杂交、环化、扩增和下一代或多重化测序(Deng等,2009,Nat.Biotechnol 27,353-360;Ball等,2009,Nat.Biotechnol27,361-368;美国专利第7,611,869号(Fan))。作为硫酸氢盐氧化的替代方法,Bayeyt等已经报道了氧化5-甲基胞嘧啶而不与胸苷反应的选择性氧化剂,其随后进行PCR或焦磷酸测序(WO 2009/049916(Bayeyt等))。关于这些技术的这些参考文献在此通过引用以其整体并入。
在一些情况下,在限制性消化之后,定量扩增方法(例如,定量PCR或定量线性扩增)被用于量化侧接扩增引物的基因座内的完整DNA的量。定量扩增的方法在例如美国专利第6,180,349号;第6,033,854号;和第5,972,602号,以及例如DeGraves等,34(1)BIOTECHNIQUES 106-15(2003);Deiman B等,20(2)MOL.BIOTECHNOL.163-79(2002);和Gibson等,6GENOME RESEARCH 995-1001(1996)中公开。
在某些情况下,使核酸以甲基化特异性方式反应或分离之后,使核酸经受基于序列的分析。例如,在确定来自样品的一个特定基因组序列与它的对应序列相比是超甲基化的或低甲基化的之后,可以确定该基因组序列的量。随后,可以将该量与标准对照值比较,并用于确定样品中肝癌的存在。在许多情况下,期望使用本领域熟知的若干核酸扩增程序中的任一种来扩增核酸序列。具体地,核酸扩增是包含与被扩增的核酸序列(模板)互补的序列的核酸拷贝的化学或酶促合成。方法和试剂盒可以使用本领域技术人员已知的任何核酸扩增或检测方法,诸如美国专利第5,525,462号(Takarada等);第6,114,117号(Hepp等);第6,127,120号(Graham等);第6,344,317号(Urnovitz);第6,448,001号(Oku);第6,528,632号(Catanzariti等);和PCT公布第WO 2005/111209号(Nakajima等)中描述的那些,其全部通过引用以其整体并入本文。
在一些实施方案中,通过使用本领域技术人员已知的方法的PCR扩增来扩增核酸。然而,本领域技术人员将认识到,扩增可以通过任何已知方法实现,诸如连接酶链式反应(LCR)、Q-复制物扩增、滚环扩增、转录扩增、自持的序列复制(self-sustained sequencereplication)、基于核酸序列的扩增(NASBA),每种方法提供足够的扩增。支链DNA技术也被任选地用于定性地证明代表特定甲基化模式的技术的序列的存在,或定量地确定样品中该特定基因组序列的量。Nolte评述了支链DNA信号扩增用于直接量化临床样品中的核酸序列(Nolte,1998,Adv.Clin.Chem.33:201-235)。
PCR方法是本领域熟知的,并且包括例如逆转录PCR、连接介导的PCR、数字PCR(dPCR)或液滴数字PCR(ddPCR)。关于PCR方法和方案的综述,参见例如Innis等编辑,PCRProtocols,A Guide to Methods and Application,Academic Press,Inc.,San Diego,Calif.1990;美国专利第4,683,202号(Mullis)。PCR试剂和方案也可从商业供应商诸如Roche Molecular Systems获得。在一些情况下,PCR用热稳定的酶以自动化方法进行。在该方法中,反应混合物的温度通过变性区、引物退火区和延伸反应区自动循环。特别适用于此目的的仪器是商购可得的。
在一些实施方案中,扩增序列也使用侵入性裂解反应来测量,诸如Invader(R)技术(Zou等,2010,于2010年7月28日的临床化学协会(Association of ClinicalChemistry)(AACC)海报展示,“Sensitive Quantification of Methylated Markers witha Novel Methylation Specific Technology”;和美国专利第7,011,944号(Prudent等))。
合适的下一代测序技术可广泛获得。实例包括454 Life Sciences平台(Roche,Branford,CT)(Margulies等2005 Nature,437,376-380);lllumina的基因组分析仪、GoldenGate甲基化测定或Infinium甲基化测定,即,Infinium HumanMethylation 27KBeadArray或VeraCode GoldenGate甲基化阵列(Illumina,San Diego,CA;Bibkova等,2006,Genome Res.16,383-393;美国专利第6,306,597号和第7,598,035号(Macevicz);第7,232,656号(Balasubramanian等));来自Bio-Rad的QX200TM Droplet DigitalTM PCR系统;或DNA边连接边测序,SOLiD System(Applied Biosystems/Life Technologies;美国专利第6,797,470号、第7,083,917号、第7,166,434号、第7,320,865号、第7,332,285号、第7,364,858号和第7,429,453号(Barany等);Helicos True单分子DNA测序技术(Harris等,2008 Science,320,106-109;美国专利第7,037,687号和第7,645,596号(Williams等);第7,169,560号(Lapidu等);第7,769,400号(Harris))、Pacific Biosciences的单分子实时(SMRTTM)技术以及测序(Soni和Meller,2007,Clin.Chem.53:1996-2001);半导体测序(IonTorrent;Personal Genome Machine);DNA纳米球测序;使用来自Dover系统(Polonator)的技术、以及在测序之前不需要扩增或以其他方式转化天然DNA的技术(例如PacificBiosciences和Helicos),诸如基于纳米孔的策略(例如,Oxford Nanopore、GeniaTechnologies和Nabsys)的测序。这些系统允许对从样品分离的许多核酸分子以并行方式以高多重化量级测序。这些平台中的每一个允许对核酸片段的克隆扩增的或非扩增的单个分子进行测序。某些平台包括例如(i)通过连接染料修饰的探针来测序(包括循环连接和裂解),(ii)焦磷酸测序,和(iii)单分子测序。
焦磷酸测序是基于边合成边测序的核酸测序方法,其依赖于检测核苷酸掺入时释放的焦磷酸。一般地,边合成边测序包括一次一个核苷酸地合成与正在研究其序列的链互补的DNA链。研究核酸可以被固定至固体支持物,与测序引物杂交,与DNA聚合酶、ATP磺酰化酶、萤光素酶、三磷酸腺苷双磷酸酶、腺苷5’磷酸硫酸酯、荧光素一起孵育。核苷酸溶液被依次添加和去除。核苷酸的正确掺入释放焦磷酸,焦磷酸与ATP磺酰化酶相互作用,并且在腺苷5’磷酸硫酸酯的存在下产生ATP,促进产生允许确定序列的化学发光信号的荧光素反应。用于焦磷酸测序的仪器和甲基化特异性试剂从Qiagen,Inc.(Valencia,CA)可得。还参见Tost和Gut,2007,Nat.Prot.2 2265-2275。普通技术人员可以使用的基于焦磷酸测序的系统的实例通常包括以下步骤:将衔接子核酸连接至研究核酸,并使研究核酸与珠杂交;在乳液中扩增研究核酸中的核苷酸序列;使用皮升多孔固体支持物分选珠;和通过焦磷酸测序方法(例如,Nakano等,2003,J.Biotech.102,117-124)对经扩增的核苷酸序列进行测序。这样的系统可以被用于指数扩增由本文描述的方法产生的扩增产物,例如通过将异源核酸连接至由本文描述的方法产生的第一扩增产物上。
CpG甲基化数据分析方法
在某些实施方案中,对生物标志物组合中的生物标志物测量的甲基化值进行数学组合,并且组合的值与潜在的诊断问题相关。在一些情况下,甲基化的生物标志物值通过任何适当的现有(state of the art)数学方法组合。用于将生物标志物组合与疾病状态关联的熟知的数学方法使用了以下方法:如判别分析(DA)(例如,线性、二次型、正则化-DA)、判别函数分析(DFA)、核函数(Kernel)方法(例如,SVM)、多维标度(MultidimensionalScaling)(MDS)、非参数方法(例如,k-最近邻分类器)、PLS(偏最小二乘法)、基于树的方法(例如,逻辑回归、CART、随机森林方法、Boosting/Bagging方法)、广义线性模型(例如,逻辑回归)、基于主成分的方法(例如,SIMCA)、广义加性模型、基于模糊逻辑的方法、基于神经网络和遗传算法的方法。技术人员在选择适当的方法来评价本文描述的表观遗传标志物或生物标志物组合方面将没有困难。在一种实施方案中,用于将表观遗传标志物或生物标志物组合的甲基化状态关联,例如以诊断肝癌或肝癌亚型的方法,选自DA(例如,线性判别分析、二次判别分析、正则判别分析)、DFA、核函数方法(例如,SVM)、MDS、非参数方法(例如,k-最近邻分类器)、PLS(偏最小二乘法)、基于树的方法(例如,逻辑回归、CART、随机森林方法、Boosting方法)、或广义线性模型(例如,逻辑回归)和主成分分析。与这些统计方法相关的细节见于以下参考文献:Ruczinski等,12J.OFCOMPUTATIONAL AND GRAPHICAL STATISTICS475-511(2003);Friedman,J.H.,84 J.OF THE AMERICAN STATISTICAL ASSOCIATION 165-75(1989);Hastie,Trevor,Tibshirani,Robert,Friedman,Jerome,The Elements ofStatistical Learning,Springer Series in Statistics(2001);Breiman,L.,Friedman,J.H.,Olshen,R.A.,Stone,C.J.Classification and regression trees,California:Wadsworth(1984);Breiman,L.,45 MACHINE LEARNING 5-32(2001);Pepe,M.S.,TheStatistical Evaluation of Medical Tests for Classification and Prediction,Oxford Statistical Science Series,28(2003);和Duda,R.O.,Hart,P.E.,Stork,D.O.,Pattern Classification,Wiley Interscience,第二版(2001)。
在一种实施方案中,每个甲基化组合的相关的结果通过它们与疾病或肿瘤类型阳性状态的相关性,诸如例如通过p值检验或t值检验或F检验来评定。然后经评定(最佳优先,即低p值或低t值)的生物标志物被随后选择并且添加至甲基化组合,直到达到某个诊断值。这样的方法包括使用例如随机方差t检验来鉴定甲基化组合,或更广泛地,在若干类别中是差异性甲基化的基因(Wright G.W.和Simon R,Bioinformatics 19:2448-2455,2003)。其他方法包括指定用于确定将被包括在生物标志物组合中的表观遗传标志物的显著性水平的步骤。在类别之间以小于指定阈值的单变量参数显著性水平发生差异性甲基化的表观遗传标志物被包括在组合中。指定的显著性水平是否小到足以排除足够的假发现并不重要。在一些问题中,更好的预测通过对用作特征(feature)的生物标志物组合更加丰富(liberal)来实现。然而,在一些情况下,如果包括较少的标志物,则组合是生物学上可解释的和临床上可应用的。与交叉验证相似,对交叉验证过程中创建的每个训练集重复生物标志物选择。这是为了提供预测误差的无偏估计的目的。用于新患者样品数据的甲基化组合是从应用“已知”甲基化信息的甲基化选择和分类器产生的甲基化组合或对照甲基化组合。
还可以使用用于利用甲基化谱来预测未来样品的类别的模型。这些模型可以基于混合协变量预测器(Radmacher等Journal of Computational Biology 9:505-511,2002)、对角线线性判别分析(Dudoit等Journal of the American Statistical Association97:77-87,2002)、最近邻分类(也是Dudoit等)和具有线性核函数的支持向量机(Ramaswamy等PNAS USA 98:15149-54,2001)。模型包括如通过随机方差t-检验评估的以给定显著性水平(例如0.01、0.05或0.1)差异性甲基化的标志物(Wright G.W.和SimonR.Bioinformatics 19:2448-2455,2003)。可以使用交叉验证,优选地留一交叉验证(leave-one-out cross-validation)估计每个模型的预测误差(Simon等Journal of theNational Cancer Institute 95:14-18,2003)。对于每个留一交叉验证训练集,重复整个模型构建过程,包括表观遗传标志物选择过程。在一些情况下,还评价模型的交叉验证误差率估计值是否显著低于来自随机预测的预期。在一些情况下,类别标记被随机排列,并且然后重复整个留一交叉验证过程。显著性水平是给出的交叉验证错误率不大于用真实甲基化数据获得的交叉验证错误率的随机排列的比例。
另一种分类方法是由Bo和Jonassen(Genome Biology 3(4):research0017.1-0017.11,2002)描述的贪婪对方法(greedy-pairs method)。贪婪对方法以将所有标志物基于它们训练集上的个体t评分排序开始。该方法试图选择一起良好区分类别的标志物对。
此外,用于使用甲基化谱的二叉树分类器被任选地用于预测未来样品的类别。树的第一节点包括区分类别总集的两个子集的二元分类器。单个的二元分类器基于并入了标志物中以如通过随机方差t检验评估的显著性水平(例如0.01、0.05或0.1)差异表达的标志物的“支持向量机”(Wright G.W.和Simon R.Bioinformatics 19:2448-2455,2003)评价的。评价用于所有可能的二元分区(partition)的分类器,并且所选的分区为使得交叉验证的预测误差最小的分区。然后,对由先前的二元分割确定的类别的两个子集连续重复该过程。二叉树分类器的预测误差可以通过交叉验证整个树建立过程来估计。这种总体交叉验证包括在每个节点处重新选择最佳分区,以及重新选择用于每个交叉验证的训练集的标志物,如Simon等(Simon等Journal of the National Cancer Institute 95:14-18,2003)描述的。进行若干重交叉验证,其中一部分样品被保留,在剩余的样品上开发二叉树,并且然后预测所保留的样品的类别成员资格。将该过程重复若干次,每次保留不同百分比的样品。样品被随机划分为部分测试集(Simon R和Lam A.BRB-ArrayTools User Guide,3.2版,Biometric Research Branch,National Cancer Institute)。
因此,在一种实施方案中,每种标志物的相关结果通过它们与疾病的正确相关性优选地通过p值检验来评定。还可以包括一个步骤,其中标志物以它们的评定顺序被选择。
在另外的实施方案中,在向患者施用疗法之前、期间或之后,可以另外使用因素,诸如转录速率、mRNA水平、翻译速率、蛋白水平、生物活性、细胞特性或性质、基因型、表型等的值、水平、特征、特性、性质等,以能够进一步分析患者的癌症状态。
在一些实施方案中,正确预测状态的诊断测试按测定的灵敏度、测定的特异性或接受者操作特性(“ROC”)曲线下面积来测量。在一些情况下,灵敏度是被测试预测为阳性的真阳性的百分比,而特异性是被测试预测为阴性的真阴性的百分比。在一些情况下,ROC曲线提供测试的灵敏度随1-特异性的变化。例如,ROC曲线下面积越大,测试的预测值越准确或有力。测试的效用的其他有用度量包括阳性预测值和阴性预测值。阳性预测值是测试为阳性的人实际为阳性的百分比。阴性预测值是测试为阴性的人实际为阴性的百分比。
在一些实施方案中,本文公开的一种或更多种生物标志物示出了在不同样品中的至少p<0.05、p<10-2、p<10-3、p<10-4或p<10-5的统计学差异。使用这些生物标志物的诊断测试可以显示至少0.6、至少约0.7、至少约0.8或至少约0.9的ROC。在一些情况下,生物标志物在患有或不患有肝癌的不同受试者中被差异性甲基化。在另外的情况下,不同亚型的肝癌的生物标志物被差异性甲基化。在某些实施方案中,使用本文描述的方法在患者样品中测量生物标志物,并将其与例如预先定义的生物标志物水平进行比较,并用于确定患者是否患有肝癌、患者具有哪种肝癌亚型和/或患有肝癌的患者的预后如何。在其他实施方案中,将患者样品中的生物标志物的组合的相关性与例如预先定义的生物标志物的集合比较。在一些实施方案中,然后将一个或更多个测量与区分肝癌的存在或不存在、肝癌亚型以及“良好”或“不良”的预后的相关诊断量、截止值或多变量模型评分比较。如本领域充分理解的,取决于诊断医师的偏好,通过调整测定中使用的特定诊断截止值,可以增加诊断测定的灵敏度或特异性。在一些实施方案中,特定诊断截止值通过例如测量来自患有或不患有肝癌的患者和来自具有不同肝癌亚型的患者的统计显著数目的样品中的生物标志物超甲基化或低甲基化的量,并划定适应期望的特异性和灵敏度水平的截止值来确定。
试剂盒/制品
在一些实施方案中,本文提供的包括用于检测和/或表征本文描述的生物标志物的甲基化谱的试剂盒。在一些情况下,试剂盒包括检测或测量一个或更多个样品的甲基化状态/水平的多于一个引物或探针。在一些情况下,这样的试剂盒包括与本文描述的至少一种甲基化标志物序列杂交的至少一种多核苷酸和用于检测基因甲基化的至少一种试剂。用于检测甲基化的试剂包括,例如硫酸氢钠、多核苷酸(如果标志物序列是未甲基化的(例如,包含至少一个C-U转化)则被设计为与为标志物序列的产物的序列杂交)和/或甲基化敏感的或甲基化依赖性限制酶。在一些情况下,试剂盒提供适于在测定中使用的测定装置的形式的固体支持物。在一些情况下,试剂盒还包括任选地连接到试剂盒中的多核苷酸例如探针的可检测标记。
在一些实施方案中,试剂盒包括能够特异性扩增本文描述的生物标志物的DNA区域的至少一部分的一种或更多种(例如,1种、2种、3种、4种或更多种)不同的多核苷酸(例如,引物和/或探针)。任选地,试剂盒中还包括能够与扩增的部分杂交的一种或更多种可检测标记的多肽。在一些实施方案中,试剂盒包括扩增2个、3个、4个、5个、6个、7个、8个、9个、10个或更多个不同DNA区域或其部分的充足的引物,并且任选地包括能够与每个扩增的DNA区域或其部分杂交的可检测标记的多核苷酸。试剂盒还可以包括甲基化依赖性或甲基化敏感的限制酶和/或亚硫酸氢钠。
在一些实施方案中,试剂盒包括亚硫酸氢钠、用于全基因组扩增的引物和衔接子(例如,可以被连接或以其他方式连接至基因组片段的寡核苷酸)以及定量来自本文描述的表观遗传标志物的DNA区域的至少一个胞嘧啶的经转化的甲基化和/或经转化的未甲基化的序列的存在的多核苷酸(例如,可检测标记的多核苷酸)。
在一些实施方案中,试剂盒包括感测甲基化的限制酶(methylation sensingrestriction enzyme)(例如,甲基化依赖性限制酶和/或甲基化敏感的限制酶)、用于全基因组扩增的引物和衔接子以及定量本文描述的表观遗传标志物的DNA区域的至少一部分的拷贝数的多核苷酸。
在一些实施方案中,试剂盒包括定量本文描述的标志物的DNA区域的至少一部分的拷贝数的甲基化结合部分和一种或更多种多核苷酸。甲基化结合部分是指与甲基胞嘧啶特异性结合的分子(例如,多肽)。
实例包括缺乏DNA切割活性但保持结合甲基化的DNA的能力的限制酶或其片段、与甲基化的DNA特异性结合的抗体等。
在一些实施方案中,试剂盒包括包装材料。如本文使用的,术语“包装材料”可以指容纳试剂盒的组分的物理结构。在一些情况下,包装材料维持试剂盒组分的无菌性,并且由通常用于这样的目的的材料(例如,纸、波纹纤维、玻璃、塑料、箔、安瓿等)制成。试剂盒中包括可用于进行测定的其他材料,包括试管、转移移液管等。在一些情况下,试剂盒还包括用于在本文描述的任何测定中使用一种或更多种这些试剂的书面说明。
在一些实施方案中,试剂盒还包括缓冲剂、防腐剂或蛋白质/核酸稳定剂。在一些情况下,试剂盒还包括如本文描述的反应混合物的其他组分。例如,试剂盒包括如本文描述的热稳定的DNA聚合酶的一个或更多个等分试样,和/或dNT的一个或更多个等分试样。在一些情况下,试剂盒还包括具有基因座的个体等位基因的已知量的模板DNA分子的对照样品。在一些实施方案中,试剂盒包括阴性对照样品,例如,不包含具有基因座的个体等位基因的DNA分子的样品。在一些实施方案中,试剂盒包括阳性对照样品,例如包含已知量的基因座的一个或更多个个体等位基因的样品。
某些术语
除非另外定义,本文使用的所有技术术语和科学术语具有与要求保护的主题所属领域的技术人员通常理解的相同的含义。应理解,前述一般描述和以下详细描述仅是示例性的和说明性的,而不限制任何要求保护的主题。在本申请中,除非另外特别说明,单数的使用包括复数。必须注意,除非上下文另外清楚地指示,如在说明书和所附权利要求书中使用的,单数形式“一(a)”、“一(an)”和“该(the)”包括复数指示物。在本申请中,除非另外说明,否则“或”的使用意指“和/或”。此外,术语“包括(including)”以及诸如“包括(include)”、“包括(includes)”和“包括(included)”的其他形式的使用不是限制性的。
如本文使用的,范围和量可以被表示为“约”特定值或范围。约也包括精确的量。因此,“约5μL”意指“约5μL”,且也意指“5μL”。通常,术语“约”包括将被预期在实验误差内的量。
本文使用的章节标题仅用于组织目的,且不应被理解为限制所描述的主题。
如本文使用的,术语一个或更多个“个体”、一个或更多个“受试者”和一个或更多个“患者”意指任何哺乳动物。在一些实施方案中,哺乳动物是人类。在一些实施方案中,哺乳动物是非人类。这些术语都不要求或限于以由健康护理工作者(例如,医生、注册护士、执业护士、医生助理、护理员或临终关怀工作者)监督(例如,持续或间歇监督)为特征的情况。
“位点”对应于单个位点,其在一些情况下是单个碱基位置或一组相关碱基位置,例如CpG位点。“基因座”对应于包括多个位点的区域。在一些情况下,基因座包括一个位点。
实施例
这些实施例仅出于说明性目的提供,且不限制本文提供的权利要求的范围。
实施例1
表1说明了基于组织比较类别细分的每种癌症类型的前100种cg标志物。表1包括在实施例部分的末尾。
表2 说明了每种癌症类型的示例性的20种cg标志物。
Figure BDA0002530455600000561
Figure BDA0002530455600000571
Figure BDA0002530455600000581
Figure BDA0002530455600000591
Figure BDA0002530455600000601
Figure BDA0002530455600000611
Figure BDA0002530455600000621
表3 说明了癌症名称及其各自的缩写。
Figure BDA0002530455600000622
Figure BDA0002530455600000631
图1说明了标志物7-1577016的甲基化状态。在一些情况下,标志物7-1577016是低甲基化的。在一些情况下,标志物7-1577016被用作泛癌标志物。
图2说明了标志物11-67177103的甲基化状态。在一些情况下,标志物11-67177103被用作泛癌标志物。
图3说明了标志物19-10445516(cg17126555)的甲基化状态。在一些情况下,标志物19-10445516(cg17126555)被用作泛癌标志物。
图4说明了标志物12-122277360的甲基化状态。在一些情况下,标志物12-122277360被用作肝癌诊断标志物。
图5说明了标志物6-72130742(cg24772267)的甲基化状态。在一些情况下,标志物6-72130742(cg24772267)被用作结肠癌诊断标志物。
图6说明了标志物3-15369681的甲基化状态。在一些情况下,标志物3-15369681被用作肝癌诊断标志物。
图7说明了标志物3-131081177的甲基化状态。在一些情况下,标志物3-131081177被用作乳腺癌诊断标志物。
实施例2–产生参考cg标志物组合
数据来源
来自初始训练集和第一测试集的DNA甲基化数据从癌症基因组图谱(The CancerGenome Atlas)(TCGA)获得。
产生参考cg标志物集合
癌症类型特异性特征通过比较特定癌症类型与其对应的正常组织之间的成对甲基化差异、两种不同癌症类型之间的差异以及两种不同正常组织之间的差异来鉴定,总共12个组织组,包括6个肿瘤组和6个正常组织组。将来自TCGA的代表来自6种不同组织的9种癌症类型与匹配的相邻正常组织的患者样品随机分成训练组群和验证组群。为此,总共进行了12*11/2=66次独特成对比较。使用Illumina 450,000 CpG甲基化微阵列,使用R基因过滤器包(genefilter package)中的[柱t检验]colttests()函数,一组一组地比较450k种标志物。将具有t-统计的最低p值和每次比较之间平均甲基化分数差异最大的标志物排序,并选择每组中的前十种标志物用于进一步的验证分析。
计算每次比较中前十种标志物的权重
使用统计环境中的函数prcomp()对每个比较组中的前十种标志物应用主成分分析,并且提取每个组的第一主成分的权重并与每个组中的十种对应标志物匹配。存在权重与标志物的45个分组。这些标志物被用于用若干算法(包括神经网络、逻辑回归、最近邻(NN)和支持向量机(SVM))对样品进行分类,所有算法产生一致结果。发现使用SVM的分析是最稳健的,并且因此被用于所有随后的分析中。
对于每种肿瘤类型,基于所得的甲基化特征将样品分成两组,并使用Kaplan-Meier曲线绘制它们的存活率。还分析了基于肿瘤分期和治疗后残留肿瘤的存在的亚组。这些甲基化谱能够预测检查的所有肿瘤类型和大多数亚组中的存活率的高度统计学显著差异。
生成变量
为数据中的每个样品生成了45个变量。使用权重/标志物组合,每个变量V使用以下等式计算:
Figure BDA0002530455600000641
其中W是相应标志物的权重,并且M是相应标志物在0和1之间的甲基化β值。生成矩阵,其中维度是(1)样品的数目乘以(2)190个变量。
对样品进行分类
上文提及的矩阵被用于对样品进行分类。此处使用了若干分类算法,包括逻辑回归、最近邻(NN)和支持向量机(SVM)。在所有随后分析中使用了使用SVM的分析。
用于R的基于核函数的机器学习实验室(Kernel-Based Machine Learning Lab,kernlab)文库被用于生成支持向量机。最佳结果具有“RBF”核函数。Crammer-Singer算法具有比Weston-Watson算法略好的结果。在分析中,观察到四种潜在的分类错误类型。
1.不正确的组织;例如结肠组织被鉴定为肺组织。
2.假阴性;例如肺癌被鉴定为正常肺
3.假阳性;例如正常结肠被鉴定为结肠癌
4.正确的组织,不正确的癌症类型;例如肾透明细胞癌被鉴定为肾乳头状细胞癌。
三种方法被用于验证结果:
1.样品被分成五个相等部分,并且4个部分被用于训练,且第五个部分被用于测试结果。
2.使用了留一情况,其中除了一个样品之外,所有的样品被用于训练。留下的一个被用于测试。对每个样品重复这一过程,直到它们全部已经被测试。
3.两阶段重复研究:在过程开始时,样品被分成两个集合。对于训练集,在每次比较中鉴定出具有最高t检验评分的10种标志物。然后这些标志物被用于生成主成分,并然后使用这些变量来创建SVM。将获得的标志物应用于测试集,并且生成主成分和SVM结果。
肿瘤DNA提取
使用QIAamp DNA Mini试剂盒(Qiagen)根据制造商的建议从新鲜冷冻的健康或癌症组织片进行基因组DNA提取。使用大致0.5mg的组织以获得平均5μg的基因组DNA。将DNA储存在-20℃,并且在制备的一周内分析。
从FFPE样品提取DNA
来自冷冻的FFPE样品的基因组DNA使用具有若干修改的QIAamp DNA FFPE组织试剂盒提取。将DNA储存在-20℃用于进一步分析。
基因组DNA的亚硫酸氢盐转化
使用EZ DNA Methylation-LightningTM试剂盒(Zymo Research)根据制造商的方案,将1μg的基因组DNA转化为bis-DNA。所得的bis-DNA具有约200-3000bp的尺寸分布,峰在约500-1000bp处。如通过bis-DNA的深度测序和分析CH(非CG)二核苷酸的C至T转化的比率验证的,亚硫酸氢盐转化的效率>99.8%。
锁式探针设计
在癌症组织和正常组织之间的任何比较中其甲基化水平显著不同的CpG标志物被用于设计测序的锁式探针。
锁式探针使用ppDesigner软件设计。被捕获的区域的平均长度为70bp,CpG标志物位于被捕获的区域的中央部分。为了防止CpG标志物的未知甲基化状态引入的偏倚,捕获臂排他地位于不含CG二核苷酸的序列内。臂之间的接头序列包含扩增引物的结合序列,结合序列被可变的C链段(stretch)分隔以产生等长度的探针。探针的平均长度为91bp。探针并入有6-bp的独特分子标识物(unique molecular identifier)(UMI)序列以允许鉴定个体分子捕获事件和对DNA甲基化水平精确评分。
使用标准商业合成方法将探针合成为单独的寡核苷酸。对于捕获实验,将探针混合,用T4 PNK(NEB)根据制造商的建议体外磷酸化,并且使用P-30 Micro Bio-Spin柱(Bio-Rad)纯化。
bis-DNA捕获
在包含1×Ampligase缓冲液(Epicentre)的20μl反应中,将20ng的亚硫酸氢盐转化的DNA与指定摩尔比的锁式探针混合。通过实验确定探针与DNA的最佳摩尔比为20,000∶1。反应用50μl的矿物油覆盖以防止蒸发。为了使探针退火至DNA,在95℃变性30秒,随后以0.02℃/秒的速率缓慢冷却至55℃。使杂交在55℃完成15小时。为了填充退火的臂之间的空位(gap),将5μl的以下混合物添加到每个反应中:2U的PfuTurboCx聚合酶(在95℃预活化3min(Agilent))、0.5U的Ampligase(Epicentre)和1×Ampligase缓冲液中的250pmol的每种dNTP。在55℃孵育5小时后,反应在94℃变性2分钟,并且在冰上快速冷却。添加5μl的核酸外切酶混合物(20U的Exo I和100U的ExoIII,二者均来自Epicentre),并且在37℃进行单链DNA降解2小时,随后是在94℃酶失活2分钟。
通过PCR扩增位点特异性捕获的环状产物,同时对分离的样品编条形码(barcoding)。使用对锁式探针内的接头DNA特异性的引物进行扩增,其中一种包含特异性6bp条形码。两种引物都包含Illumina下一代测序衔接子序列。如下地进行PCR:1×PhusionFlash主混合物、3μl的捕获的DNA和200nM最终浓度的引物,使用以下循环:10s@98℃、8×的(1s@98℃、5s@58℃、10s@72℃)、25×的(1s@98℃,15s@72℃)、60s@72℃。将PCR反应混合并使用Agencourt AMPure XP珠(Beckman Coulter)对所得的文库进行尺寸选择以包括有效捕获(~230bp)并且排除“空”捕获(~150bp)。文库的纯度通过使用Illumina流动池衔接子引物(P5和P7)的PCR验证,并且浓度使用Qubit dsDNA HS测定(Thermo Fisher)确定。使用MiSeq和HiSeq2500系统(Illumina)对文库进行测序。
捕获覆盖均匀度(Uniformity)的优化
初始试验性捕获实验的深度测序显示出被最有效探针和非有效探针捕获的读段(read)的数目之间的显著差异(60%-65%的被捕获的区域具有平均>0.2的覆盖率)。为了改善这一点,从测序数据计算相对效率,并且以调整的摩尔比混合探针。这将捕获均匀度增加到85%的区域在>0.2的平均覆盖率。
测序数据分析
测序读段的映射使用具有一些修改的软件工具bisReadMapper(Diep,D,NatMethods.2012Feb 5;9(3):270-272)完成。首先,从每个测序读段提取UMI并且使用由D.D.慷慨提供的定制脚本将其附加到FASTQ文件内的读段的header(read header)。使用Bowltie 2(Langmead B,Salzberg S.Fast gapped-read alignment with Bowtie2.Nature Methods.2012,9:357-359)将读段动态(on-the-fly)转换,如同所有的C是非甲基化的一样,并映射到人类基因组的计算机转化的DNA链,也如同所有的C是非甲基化的一样。将原始读段合并并过滤以得到单个UMI,即携带相同UMI的读段被丢弃,留下单独一个。提取针对其设计锁式探针的所有CpG标志物的甲基化频率。任何样品中具有少于20个读段的标志物被排除在分析之外。
实施例3–产生用于从cfDNA诊断和预后肝细胞癌的cg标志物组合
患者数据
组织DNA甲基化数据从癌症基因组图谱(TCGA)获得。完整的临床、分子和组织病理学数据集在TCGA网站可得。贡献样品的各个机构根据其各自的机构审查委员会协调同意过程并从每个患者获得书面知情同意。
第二个独立的华人组群由中国广州的中山大学癌症中心(Sun Yat-senUniversity Cancer Center)、西安的西京医院(Xijing Hospital)和成都的华西医院(West China Hospital)的HCC患者组成。呈现出患有I-IV期的HCC的那些患者被选择并招入本研究中。补充表1总结了患者特征和肿瘤特征。用于HCC的TNM分期分类根据第7版的AJCC癌症分期手册。TNM分期系统是最常用的肿瘤分期系统之一。该系统由美国癌症联合委员会(American Joint Committee on Cancer)(AJCC)开发和维持,并且被国际癌症防治联盟(Union for International Cancer Control)(UICC)采用。TNM分类系统被开发为肿瘤学家基于某些标准将不同类型的癌症分期的工具。TNM分期系统基于肿瘤(T)的范围(extent)、扩散到淋巴结(N)的范围和转移(M)的存在。该项目得到了中山大学肿瘤中心、西京医院和华西医院的IRB的批准。从所有患者获得了知情同意。肿瘤和正常组织按照对患者护理的临床指示获得,并且保留用于本研究。通过静脉穿刺收集人类血液样品,并且血浆样品通过离心后获取上清液来获得,并在cfDNA提取前保存于-80℃。验证关键原始数据并且上传至批准号为RDDB2017000132的研究数据存储公共平台(Research Data Depositpublic platform)。
肿瘤DNA提取
使用QIAamp DNA Mini试剂盒(Qiagen)根据制造商的建议,从新鲜冷冻的健康或癌症组织进行基因组DNA提取。使用大致0.5mg的组织以获得平均5μg的基因组DNA。将DNA储存在-20℃,并且在制备的一周内分析。
从FFPE样品提取DNA
来自冷冻的FFPE样品的基因组DNA使用具有若干修改的QIAamp DNAFFPE组织试剂盒提取。将DNA储存在-20℃用于进一步分析。
从血浆样品提取无细胞DNA
使用QIAamp cfDNA试剂盒(Qiagen)根据制造商的建议,进行从1.5ml的血浆样品的cfDNA提取。
基因组DNA的亚硫酸氢盐转化
使用EZ DNA Methylation-LightningTM试剂盒(Zymo Research)根据制造商的方案,将约10ng的cfDNA转化为bis-DNA。所得的bis-DNA具有约200-3000bp的尺寸分布,峰在约500-1000bp。如通过bis-DNA的深度测序和分析CH(非CG)二核苷酸的C至T转化的比率验证的,亚硫酸氢盐转化的效率>99.8%。
通过用分子倒置(锁式)探针捕获的bis-DNA的深度测序确定DNA甲基化水平
在任何癌症组织和任何正常组织之间的任何比较中其甲基化水平显著不同的CpG标志物被用于设计用于cfDNA捕获和测序的锁式探针。bis-DNA的锁式捕获基于已发表的方法的技术,具有修改。
探针设计和合成
锁式探针使用ppDesigner软件设计。被捕获的区域的平均长度为100bp,CpG标志物位于被捕获的区域的中央部分。臂之间的接头序列包含用于扩增引物的结合序列,结合序列被可变的C链段分隔以产生等长度的探针。6-bp的独特分子标识物(UMI)序列被掺入探针设计中以允许鉴定独特个体分子捕获事件和对DNA甲基化水平进行精确评分。
使用标准商业合成方法(ITD)将探针合成为单独的寡核苷酸。对于捕获实验,将探针混合,用T4 PNK(NEB)根据制造商的建议体外磷酸化,并使用P-30 Micro Bio-Spin柱(Bio-Rad)纯化。
bis-DNA捕获
在包含1×Ampligase缓冲液(Epicentre)的20μl反应中,将约10ng的亚硫酸氢盐转化的DNA与锁式探针混合。为了使探针退火至DNA,在95℃变性30秒,随后以0.02℃/秒的速率缓慢冷却至55℃。使杂交在55℃完成15小时。为了填充退火的臂之间的空位,将5μl的以下混合物添加到每个反应中:2U的PfuTurboCx聚合酶(Agilent)、0.5U的Ampligase(Epicentre)和1×Ampligase缓冲液中的250pmol的每种dNTP。在55℃孵育5小时后,反应在94℃变性2分钟。添加5μl的核酸外切酶混合物(20U的Exo I和100U的ExoIII,二者都来自Epicentre),并在37℃进行单链DNA降解2小时,随后是在94℃酶失活2分钟。
通过PCR扩增位点特异性捕获的环状产物,同时对分离的样品编条形码。使用对锁式探针内的接头DNA特异性的引物进行扩增,其中一种包含特异性6bp条形码。两种引物都包含Illumina下一代测序衔接子序列。如下地进行PCR:1×Phusion Flash主混合物、3μl的捕获的DNA和200nM引物,使用以下循环:10s@98℃、8×的(1s@98℃、5s@58℃、10s@72℃)、25×的(1s@98℃、15s@72℃)、60s@72℃。将PCR反应混合并使用Agencourt AMPure XP珠(Beckman Coulter)对所得的文库进行尺寸选择以包括有效捕获(~230bp)并排除“空”捕获(~150bp)。文库的纯度通过使用Illumina流动池衔接子引物(P5和P7)的PCR验证,并且浓度通过使用Qubit dsDNAHS测定(Thermo Fisher)确定。使用MiSeq和HiSeq2500系统(Illumina)对文库进行测序。
捕获覆盖均匀度的优化
初始试验性捕获实验的深度测序显示出被最有效探针和非有效探针捕获的读段的数目之间的显著差异(60%-65%的被捕获的区域具有平均>0.2×的覆盖率)。为了改善这种情况,从测序数据计算相对效率,并且以调整的摩尔比混合探针。这将捕获均匀度增加到85%的区域在>0.2×的平均覆盖率。
测序数据分析
测序读段的映射使用具有一些修改的软件工具bisReadMapper完成。首先,从每个测序读段提取UMI并使用定制脚本将其附加到FASTQ文件内的读段的header。使用Bowltie2将读段动态转换,如同所有的C是非甲基化的一样,并且映射到人类基因组的计算机转化的DNA链上,也如同所有的C是非甲基化的一样。将原始读段合并并过滤以得到单个UMI,即携带相同UMI的读段被丢弃,留下单个的独特读段。通过将在被询问的位置携带C的独特读段的数目除以覆盖被询问的位置的读段的总数目,计算包含在被锁式探针捕获的区域的所有CpG二核苷酸的甲基化频率。
相关甲基化区块(BCM)的鉴定
对来自两个诊断类别即正常健康血液和HCC中的每一个的全部50个cfDNA样品,单独计算被不多于200bp分隔的每对CpG标志物的甲基化频率之间的Pearson相关系数。<0.5的Pearsonr的值被用于鉴定任何两个相邻标志物之间指示不相关的甲基化的过渡点(边界)。未被边界分隔的标志物被组合成相关甲基化区块(Blocks of CorrelatedMethylation,BCM)。该程序在我们的锁式数据内的每个诊断类别中鉴定出总共约1550个BCM,每个区块中组合了2个和22个之间的CpG位置。通过将BCM内所有被询问的CpG位置的C的数目相加,并且除以那些位置处的C+T的总数目,计算整个BCM的甲基化频率。
DNA分离和数字定量PCR
肿瘤和相应的血浆样品从正经历外科肿瘤切除的患者获得;样品被冷冻并且保存在-80℃直到使用。分别使用AllPrep DNA/RNA Mini试剂盒和cfDNA提取试剂盒(Qiagen,Valencia,CA)进行从样品的DNA和RNA分离。
数据来源
使用Infinium450K甲基化阵列产生的485,000个位点的DNA甲基化数据从TCGA和我们先前分析HCC和血液的DNA甲基化谱的研究(GSE40279)产生的数据集获得。生成甲基化数据的IDAT格式文件,其包含每个扫描的珠的比率值。使用来自Bioconductor的minfi包,这些数据文件被转换成被称为β值的评分。华人组群的甲基化值通过使用分子倒置探针的靶向的硫酸氢盐测序获得,并且如下文描述地进行分析。
统计学分析--用于诊断和预后分析的DNA甲基化标志物预选择
首先使用“调节的t-统计收缩(moderated t-statistics shrinking)”方法对TCGA数据进行差异性甲基化分析,并且然后通过由Benjamini-Hochberg程序的多重检验对每种标志物的P值进行校正以将FDR控制在0.05的显著性水平。列表根据调整的P值排序,并且选择前1000种标志物用于设计锁式探针。还消除了具有低质量或少于20,000个读段/样品的cfDNA样品。每种标志物的甲基化值被定义为具有甲基化的读段计数除以总读段计数的比例。在匹配的肿瘤组织和肿瘤血液样品中,甲基化值的范围小于0.1的甲基化标志物被消除。
从cfDNA建立cg标志物组合
将cfDNA数据集以2:1的比例随机分为训练组群和验证组群。在预先筛选的训练数据集上应用适用于高维度的两种变量选择方法:最小绝对收缩和选择算子(LeastAbsolute Shrinkage and Selection Operator)(LASSO)和使用OOB误差的基于随机森林的变量选择方法。由于结果可以强烈依赖于用于稀疏的高维数据的随机样品分裂的任意选择,采用了“多重分裂(multi-split)”方法的分析,该分析在控制有限样品误差的同时改善了变量选择一致性。对于LASSO选择算子,75%的数据集被不放回二次抽样(subsampledwithout replacement)500次,并且选择具有多于450次的重复出现频率的标志物。根据从10倍交叉验证和基于信息的标准AIC/BIC估计的预期的泛化误差来确定调整参数,并且采用lambda的最大值,使得误差在称为“1-se”lambda的最小值的一个标准误差内。对于随机森林分析,使用OOB误差作为最小化标准,通过将变量每次迭代的下降分数设置为0.3,从随机森林消除变量。通过两种方法选择了10种重叠的甲基化标志物用于建立二元预测的模型。使用这10种标志物作为协变量拟合逻辑回归模型,并且通过将训练数据集和验证数据集二者中的无偏系数估计值和标志物甲基化值矩阵相乘获得组合的诊断评分(称为cd评分)。模型的可预测性通过ROC下面积(AUC,也称为C指数)来评价,其计算了所有观测对中的一致的对的比例,1.0表示完全预测准确性。混淆表使用具有最大Youden指数的优化的cd评分截止值生成。
在基线时评价治疗前或初始甲基化水平,并且在治疗后约2个月评价后甲基化水平,其中治疗是指化学疗法或手术切除肿瘤。主要终点(包括对治疗的响应:进展性疾病(PD)、部分响应(PR)和稳定疾病(SD))根据RECIST指南定义。对于用手术去除治疗且在评价时无复发的患者,假定他们具有完全响应(CR)。由于使用Shapiro-Wilk检验,cd评分测试为非正态分布的,因此通过Wilcoxon秩和检验来检查临床类别之间的cd评分分布的差异。
患者和样品特征
临床特征和包括用于HCC和血液淋巴细胞之间的比较的甲基化数据的分子谱分析从包括来自癌症基因组图谱(TCGA)的377个HCC肿瘤样品和来自衰老数据集(GSE40279)的健康对照个体的754个血液白细胞样品的来源组装。为了研究HCC中的ctDNA,从患有HCC的华人患者和随机选择的进行常规健康护理维护的健康对照获得血浆样品,得到715名HCC患者和560名正常健康对照的训练组群以及383名HCC患者和275名健康对照的验证组群。所有参与者提供了书面知情同意。
区分HCC和血液的甲基化标志物的鉴定
假设,当与正常对照进行比较时,在HCC和正常个体的血液白细胞之间甲基化的差异最大的CpG标志物将最可能在HCC患者的cfDNA中显示出可检测到的甲基化差异。“调节的t-统计”方法与经验贝叶斯一起被用于收缩方差,并且与Benjamini-Hochberg程序一起被用于将FDR控制在0.05的显著性水平,以鉴定HCC和血液之间甲基化率最显著不同的前1000种标志物(即具有最低p值的那些)。这前1000种标志物的无监督层级聚类能够区分HCC和正常个体的血液白细胞(图12)。分子倒置(锁式)探针被设计成对应于这1000种标志物,并在28对HCC组织DNA和来自同一患者的匹配的血浆ctDNA中对其测试。HCC肿瘤DNA和匹配的血浆ctDNA中的甲基化谱是一致的(图9A、图9B)。具有良好实验扩增谱和动态甲基化范围的401种标志物被选择用于进一步分析。
用于改善的等位基因判定准确性的甲基化区块结构
遗传连锁不平衡(LD区块)的概念被用于研究不同DNA链中的共甲基化的程度,其潜在假设是,紧密相邻的DNA位点比距离远的位点更可能是共甲基化的。成对末端Illumina测序读段被用于鉴定每个个体甲基化区块(mBlock)。使用Pearson相关方法来定量共甲基化或mBlock。区域的所有共有mBlock通过计算不同的mBlock分数来编译。然后使用0.5的r2截止值,将基因组分成被称为甲基化相关区块(MCB)的紧密共甲基化的CpG位点的区块。在500个正常样品的cfDNA中,调查了MCB并且发现MCB高度一致。接下来确定了来自500个HCC样品的cfDNA中的MCB内的甲基化水平。发现当比较正常与HCC cfDNA样品时MCB中高度一致的甲基化模式,这显著增强了等位基因判定准确性(图13)。该技术被用于所有随后测序分析中。
针对HCC的cfDNA诊断预测
通过随机森林和最小绝对收缩和选择算子(LASSO)方法分析在cfDNA样品中显示良好甲基化范围的401种选择的标志物的甲基化值,以通过在715个HCC ctDNA和560个正常cfDNA样品中对它们建模来进一步降低标志物的数目(图8)。使用随机森林分析获得了24种标志物。使用LASSO分析获得了30种标志物,其中要求选择的标志物在总共500次重复中出现超过450次。这两种方法之间存在10种重叠的标志物(表4)。使用逻辑回归方法,用这10种标志物构建诊断预测模型。应用模型在715个HCC样品和560个正常样品的训练数据集中得到了对HCC的灵敏度为94.3%且特异性为85.7%(图9C),并且在383个HCC样品和275个正常样品的验证数据集中,得到了90.5%的灵敏度和83.2%的特异性(图9D)。还证明了该模型可以在训练数据集(AUC=0.966)和验证数据集(AUC=0.944)二者中区分HCC与正常对照(图9E、图9F)。这10种标志物的无监督层级聚类能够以高特异性和灵敏度区分HCC与正常对照(图9G、图10H、图14)。
表4
标志物 参考基因 系数 SE z值 p值
15.595 2.395 6.513 <0.001
cg10428836 BMPRIA 11.543 0.885 -13.040 <0.001
cg26668608 PSD 4.557 0.889 5.129 <0.001
cg25754195 ARHGAP25 2.519 0.722 3.487 <0.001
cg05205842 KLF3 -3.612 0.954 -3.785 <0.001
cg11606215 PLAC8 6.865 1.095 6.271 <0.001
cg24067911 ATXN1 -5.439 0.868 -6.265 <0.001
cg18196829 Chr 6:170 -9.078 1.355 -6.698 <0.001
cg23211949 Chr 6:3 -5.209 1.081 -4.819 <0.001
cg17213048 ATAD2 6.660 1.422 4.683 <0.001
cg25459300 Chr 8:20 1.994 1.029 1.938 0.053
SE:系数的标准差;z值:Waldz-统计值
接下来评估了用于区分肝病(HBV/HCV感染和脂肪肝)和HCC的模型的组合的诊断评分(cd评分),因为这些肝病是HCC的已知的主要风险因素。发现cd评分可以区分HCC患者与患有肝病的那些患者或健康对照(图10A)。这些结果与通过AFP水平预测的那些结果一致且相当(图10B)。
甲基化标志物预测的肿瘤负荷、治疗响应和分期
接下来研究了cd评分在评估治疗响应、治疗后残留肿瘤的存在和HCC的分期中的效用。临床和人口统计学特征,诸如年龄、性别、种族和AJCC分期被包括在分析中。在治疗后具有可检测的残留肿瘤的患者(n=828)的cd评分显著高于不具有可检测的肿瘤的那些患者(n=270),并且二者显著大于正常对照(n=835)(p<0.0001,图10C)。类似地,cd评分在治疗前(n=109)或具有进展(n=381)的患者中比具有治疗响应(n=248)的那些患者显著更高(p<0.0001,图10D)。此外,cd评分在手术后肿瘤完全切除的患者(n=170)中比手术前的那些患者(n=109)显著更低,但在具有复发的患者(n=155)中更高(p<0.0001,图10E)。此外,cd评分和肿瘤分期之间存在良好相关性。患有早期疾病(I、II期)的患者与患有晚期疾病(III、IV期)的那些患者相比具有实质上更低的cd评分(p<0.05,图10F)。总的来说,这些结果表明cd评分(即血浆中ctDNA的量)与肿瘤负荷良好相关,并且可以在预测肿瘤响应和监测复发中具有效用。
ctDNA诊断预测和AFP的效用
在一些情况下,用于HCC的风险评估和监测的血液生物标志物是血清AFP水平。然而,它的低灵敏度使它不足以检测将发展HCC的所有患者并且严重限制了它的临床效用。事实上,许多肝硬化患者发展HCC,而不具有AFP水平的任何增加。引人注目的是,HCC研究组群中40%患者具有正常的血清AFP(<25ng/ml)。
对于HCC诊断,在经活组织检查证明的HCC患者中,cd评分表现出优于AFP的灵敏度和特异性(AUC 0.969对0.816,图10G)。在具有治疗响应、肿瘤复发或进展的患者中,与初始诊断时的测试相比,cd评分显示出比AFP更显著的变化(图10H、图10I)。在具有连续样品(serial sample)的患者中,具有阳性治疗响应的那些患者与治疗之前相比具有与cd评分伴行的显著下降,并且手术后患者中存在甚至进一步的下降。相比之下,我们的具有进展性或复发性疾病的患者全部具有cd评分的增加(图15)。相比之下,AFP对评估个体患者中的治疗效力较不灵敏(图16)。此外,cd评分与肿瘤分期,特别是在患有I、II和III期的患者中良好相关(图10J),而AFP值除了在患有III和IV期的患者之间外,在具有不同分期的患者中不存在显著差异(图10K),表明了cd评分在早期HCC的区分中相对于AFP的优势。
针对HCC的ctDNA预后预测
然后,研究了使用ctDNA中的甲基化标志物与临床和人口统计学特征(包括年龄、性别、种族和AJCC分期)组合预测HCC的预后的潜力。将1049名HCC患者依据完全存活信息以2:1的分配比例随机分成训练数据集和验证数据集。实施Unicox和LASSO-cox方法以降低维度并构建cox-模型来用8标志物组合预测预后(表5)。使用这些标志物的组合预后评分(cp评分)在训练数据集和验证数据集中生成Kaplan-Meier曲线。高风险组(cp评分>-0.24)在训练数据集中具有341个观察与53个事件,并且在验证数据集中具有197个观察与26个事件;并且低风险组(cp评分≤-0.24)在训练数据集中具有339个观察与7个事件,并且在验证数据集中具有172个观察与9个事件。通过时序检验,训练集(p<0.0001)和验证集(p=0.0014)二者中的中位存活有显著差异(图11A、图11B)。
表5
Figure BDA0002530455600000771
HR:风险比率(Hazard Ratio);CI:95.0%置信区间;SE:系数的标准差;z值:Waldz-统计值
多变量分析显示出,在训练数据集和验证数据集二者中,cp评分与死亡的风险显著相关,并且cp评分是存活的独立风险因素(训练集中风险比率[HR]:2.512;95%置信区间[CI]:1.966-3.210;p<0.001;验证集中HR:1.553,CI:1.240-1.944;p<0.001)。有趣的是,当cp评分和其他临床特征被纳入考虑时,AFP作为风险因素不再是显著的。
如预期的,TNM分期预测了训练数据集和验证数据集中患者的预后(图11C、图11D)。然而,cp评分和TNM分期的组合改善了训练数据集(AUC0.7935,图11E)和验证数据集(AUC 0.7586,图11F)二者中预测预后的能力。Kaplan-Meier曲线还显示出,由cp评分和分期二者分离开的患者具有不同的预后(p<0.0001,图11G)。这些结果证明,ctDNA甲基化分析可以促进患有HCC的患者中的风险分层和预后的预测。
在本研究中,首先针对HCC特异性组合,确定了HCC肿瘤样品和正常个体的血液白细胞之间的差异性甲基化的CpG位点。然后使用用于在cfDNA中使用的10-甲基化标志物组合(cd评分)构建诊断预测模型;cd评分有效区分患有HCC的患者与具有HBV/HCV感染、肝硬化、脂肪肝的患者以及健康对照。鉴于根据目前指南患有这些肝病的患者是靶筛查群体,血清测试可靠区分这些疾病状态与HCC是重要的。在本研究中,cd评分对于HCC的灵敏度与目前用于HCC筛查的标准肝超声是相当的,明显优于AFP,并且可以代表一种更具成本效益并且更少资源密集的方法。此外,模型的cd评分显示出与HCC肿瘤负荷、治疗响应和分期高度相关,并且在即时组群中优于AFP的表现。在一些情况下,cd评分可用于评估治疗响应和监测复发。
实施例4-用于肺癌和肝细胞癌的诊断和预后的无细胞DNA甲基化标志物
原发性组织患者数据
通过Illumina 450k infimum珠芯片测量了来自癌症患者的原发性实体组织和来自健康供体的血液组织二者。从癌症基因组图谱(TCGA)获得485,000个位点的原发性肿瘤DNA甲基化数据。完整的临床、分子和组织病理学数据集可在TCGA网站获得。捐献样品的各个机构协调同意过程,并根据其各自的机构审查委员会从每个患者获得了书面书面知情同意。来自健康供体的血液组织DNA甲基化数据基于来自Hannum等2013,Mol Cell 49,359-367(GSE40279)的研究获得并产生,该研究中分析了HCC和血液的DNA甲基化谱。
血清样品患者数据
第二个独立的华人组群由中国广州的中山大学癌症中心、西安的西京医院和成都的华西医院的LUNC和HCC患者组成。选择并在本研究中登记呈现从I-IV期的LUNC和HCC的患者。表9总结了患者特征和肿瘤特征。LUNC和HCC的TNM分期分类根据AJCC癌症分期手册第7版进行。本项目由中山大学肿瘤中心、西京医院和华西医院的IRB批准。从所有患者获得知情同意。进行了使用用于预测高风险群体中癌症发生的甲基化标志物对LUNC和HCC患者的早期检测的两项前瞻性试验。在第一项研究中,患者是从2015年12月至2016年12月经历了基于CT扫描的肺癌筛查的一组吸烟者招募的。选择呈现肺结节的患者(<10mm,n=232,表12)在筛查时进行甲基化谱分析,并且随后通过二次测试以通过组织的活组织检查和病理学诊断验证来确定结节是由于癌症还是炎症或感染性状况引起的。在第二项试验中,登记了患有肝硬化的高风险患者(n=242)。
肿瘤和正常组织按照对患者护理的临床指示获得,并被保留用于本研究。人类血液样品通过静脉穿刺术收集,并且血浆样品通过离心后取上清液获得,并且在cfDNA提取前储存于-80℃。
治疗前血清样品在初始诊断时获得,并且治疗后血清样品在治疗后约2个月评价,其中治疗是指化学疗法或手术切除肿瘤。主要终点(包括对治疗的响应:进展性疾病(PD)、部分响应(PR)和稳定疾病(SD))根据RECIST指南定义。对于用手术移除治疗并且在评价的时间未复发的患者,假设他们具有完全响应(CR)。
从血浆提取cfDNA
确定了为得到用于靶向测序的一致的量的cfDNA所需的最小血浆体积。作为粗略的指导,目标是以锁式探针组合覆盖的90%的标志物的约20×的覆盖率(参见下文)。观察到每个样品20,000个或更多的总独特读段满足该标准。发现1.5ml或更多的血浆可以可靠地产生足够的cfDNA以产生>20,000个独特读段。使用数字液滴PCR进一步研究1.5ml血浆中的cfDNA的量和检测到的拷贝数之间的关系。发现1.5ml的血浆产生>10ng,这在每个数字液滴PCR测定中产生至少140个拷贝的检测到的扩增子。因此,决定在我们所有的实验中使用15ng/1.5ml作为截止值,以获得DNA甲基化的一致且可靠的测量。
使用EliteHealth cfDNA提取试剂盒(EliteHealth,Guangzhou Youze,China)根据制造商的建议,从1.5ml的血浆提取cfDNA。
基因组或cfDNA的亚硫酸氢盐转化
使用EZ DNA Methylation-LightningTM试剂盒(Zymo Research)根据制造商的方案,将10ng的DNA转化为bis-DNA。所得的bis-DNA具有约200-3000bp的尺寸分布,峰在约500-1000bp。如通过bis-DNA的深度测序和分析CH(非CG)二核苷酸的C至T转化比率验证的,亚硫酸氢盐转化的效率>99.8%。
用于锁式探针组合设计的标志物选择
为了鉴定区分HCC、LUNC和正常血液甲基化特征的标志物,采用了用Benjamini-Hochberg程序对450k甲基化数据的“调节的t-统计收缩”方法,以使用377个HCC样品和827个LUNC样品(TCGA)以及754个正常血液样品(GSE40279,我们先前的研究(HANNUM REF))的成对比较,将FDR控制在0.05的显著性水平。将列表按调整的p值排序,并选择前1000种标志物用于设计用于区分癌症(LUNC和HCC二者)和正常样品的锁式探针,以及选择不同的1000种标志物的组用于区分LUNC和HCC(图25)。
使用所有2000种标志物来设计用于cfDNA的捕获和测序的锁式探针。bis-DNA的锁式捕获基于Deng等2009,Nature Biotechnology 27,353-360;Diep等,2012,NatureMethods 9,270-272;和Porreca等,2007,Nature Methods 4,931-936的方法的技术;并且具有进一步修改。因为捕获的区域/cg标志物的总尺寸相对适当,这种方法提供了比任何现有方法(包括全甲基化组范围测序)低得多的测序成本,因此使我们能够评价大量样品。此外,直接靶向测序方法提供了数字读出(readout),并且比基于芯片上的杂交(例如,Infinium,Illumina)或通过杂交的靶富集(例如,SureSelect,Agilent)的最近的更传统的方法需要少得多的起始cfDNA材料(10-15ng)。这种方法还对不等扩增较不敏感,因为该方法使用分子标识物(UMI)。
锁式探针设计、合成和验证
所有探针使用ppDesigner软件设计。被捕获的区域的平均长度为70bp,CpG标志物位于被捕获的区域的中央80%。6bp的6-bp独特分子标识物(UMI)侧接于捕获臂,以在确定DNA甲基化频率中帮助消除扩增偏倚。臂之间的接头序列包含扩增引物的结合序列,该结合序列被可变的C链段分隔以产生相等长度的探针。探针被合成为单独的寡核苷酸(IDT)。对于捕获实验,将探针以等摩尔的量混合并在Qiagen柱上纯化。
初始试验性捕获实验的深度测序显示出被最有效探针和非有效探针捕获的读段的数目之间的显著差异(60%-65%的捕获区域具有平均>0.2×的覆盖率)。为了改善这种情况,从测序数据计算相对效率,并以调整的摩尔比混合探针。这将捕获均匀度增加到85%的区域具有>0.5×的平均覆盖率。
使用bis-DNA锁式探针捕获的靶向甲基化测序
在包含1×Ampligase缓冲液(Epicentre)的20μl反应中,将10ng亚硫酸氢盐转化的DNA与锁式探针混合。为了使探针退火至DNA,在95℃变性30秒,随后以0.02℃/秒的速率缓慢冷却至55℃,并在55℃孵育15小时。为了填充退火的臂之间的空位,将5μl的以下混合物添加到每个反应中:2U的PfuTurboCx聚合酶(Agilent)、0.5U的Ampligase(Epicentre)和1×Ampligase缓冲液中的250pmol的每种dNTP。在55℃孵育5小时后,使反应在94℃变性2分钟。添加5μl的核酸外切酶混合物(20U的Exo I和100U的ExoIII,Epicentre),并且在37℃进行单链DNA降解2小时,随后在94℃使酶失活2分钟。
使用对锁式探针内的接头DNA特异性的引物,通过PCR来扩增环状捕获产物。两种引物均包含用于独特双索引多重化的10bp条形码和Illumina下一代测序衔接子序列。如下地进行PCR:1×Phusion Flash主混合物、3μl的捕获的DNA和200nM引物,使用以下循环:10s@98℃、8×的(1s@98℃、5s@58℃、10s@72℃)、25×的(1s@98℃、15s@72℃)、60s@72℃。将PCR反应混合,并将所得文库在2.5%琼脂糖凝胶上进行尺寸选择以包括有效捕获(~230bp)并排除“空”捕获(~150bp)。文库的纯度使用Illumina流动池衔接子引物(p5和p7)通过TapeStation(Agilent)和PCR来验证,并且浓度使用Qubit dsDNA HS测定(ThermoFisher)确定。在MiSeq和HiSeq2500系统(Illumina)上使用PE100读段对文库进行测序。每个样品的中位总读段为500,000个并且在靶可映射性为25%(约125,000个在靶非独特读段)。
捕获覆盖率均匀度的优化
初始试验性捕获实验的深度测序显示出被最有效探针和非有效探针捕获的读段的数目之间的显著差异(60%-65%的捕获的区域具有平均>0.2×的覆盖率)。为了改善这种情况,从测序数据计算相对效率,并且以调整的摩尔比混合探针。这将捕获均匀度增加到85%的区域具有>0.5×的平均覆盖率。
测序数据分析
测序读段的映射使用具有一些修改的软件工具bisReadMapper完成。首先,从每个测序读段提取UMI,并使用定制脚本将其附加到FASTQ文件内的读段的header。使用Bowltie2将读段动态转换,如同所有的C是非甲基化的一样,并映射到人类基因组的计算机转化的DNA链,还如同所有的C是非甲基化的一样。将原始读段合并并过滤以得到单个UMI,即携带相同UMI的读段被丢弃,留下单个的独特读段。通过将在被询问的位置处携带C的独特读段的数目除以覆盖被询问的位置的读段的总数目,计算被锁式探针捕获的区域内包含的所有CpG二核苷酸的甲基化频率。
DNA分离和数字定量PCR
肿瘤和相应的血浆样品从经受手术肿瘤切除的患者获得;样品被冷冻并且保存在-80℃直到使用。DNA和RNA从样品的分离分别使用DNA/RNA MiniPrep试剂盒和cfDNA提取试剂盒(EliteHealth,Guangzhou Youze,China)进行。为了估计肿瘤cfDNA分数,用不同分数的正常cfDNA和HCC肿瘤基因组DNA(gDNA)进行混合实验,并通过dPCR测定甲基化值和拷贝数(详见下一章节)。数字液滴PCR(ddPCR)根据制造商的说明书(Bio-Rad,Hercules,CA)进行。本研究中使用以下ddPCR测定:cg10590292-正向引物5'-TGTTAGTTTTTATGGAAGTTT,反向引物5'-AAACIAACAAAATACTCAAA;用于甲基化的等位基因检测的荧光探针5'/6-FAM/TGGGAGAGCGGGAGAT/BHQ1/-3';用于未甲基化的等位基因检测的探针5'/HEX/TTTGGGAGAGTGGGAGATTT/BHQ1/-3'。根据制造商的说明书(Bio-Rad,Hercules,CA)使用以下循环条件进行ddPCR:1×的10min@98℃、40×的(30s@98℃、60s@53℃)、1×的10min@98℃。
肿瘤cfDNA分数的计算
假设对HCC cfDNA样品观察到的特定甲基化值从正常cfDNA和肿瘤cfDNA的组合的贡献得来。源自肿瘤的cfDNA的分数使用以下公式估计:样品i中由肿瘤DNA贡献的分数=[样品i中HCC cfDNA的甲基化值-正常cfDNA的平均甲基化值]/[肿瘤DNA的平均甲基化值-正常cfDNA的平均甲基化值]。使用这种方法,估计HCC cfDNA样品中平均肿瘤分数为约23%。然后根据评价肿瘤负荷的因素诸如晚期和治疗前状态将样品分组,因为预期这些因素影响ctDNA的肿瘤分数。事实上,观察到与较高肿瘤分期和严重性相关的状况也倾向于具有较大肿瘤分数。为了进一步验证这种方法,用不同分数的正常cfDNA(0-100%)和肿瘤基因组DNA(0-100%)进行了混合实验,并且使用数字PCR测定甲基化值。显示出,肿瘤基因组DNA的增量添加可以将甲基化分数百分比增加至在HCC患者样品中观察到的值。具体地,当使用从实验获得的甲基化值时,可以通过上文的公式预测10%、20%、40%、60%或100%分数的肿瘤基因组DNA的添加。
统计学分析
用于诊断和预后分析的DNA甲基化标志物选择
在2000种初始设计的锁式探针中,仅1673种提供了信息(informative),即能够给出阳性和特异性PCR扩增信号,并且因此在cfDNA样品的随后实验中被用作捕获探针。测序深度被用作样品纳入标准。将其中少于100个MCB(参见下文)显示出10×读段覆盖率的样品从进一步分析中排除。因为每个MCB平均包括约3个CG标志物,因此10×覆盖率确保了每个MCB至少30个甲基化测量。使用这些标准,纳入了所有样品的73%,中位数为每个样品34K映射的读段。
在已经获得1673种CG标志物的DNA甲基化数据后,使用了将邻近CpG标志物合并成一个MCB的MCB概念,产生了总计888个MCB。对于每个MCB,将MCB特异性甲基化值用两个数值来量化:log10(总甲基化的读段计数+1)和log10(总非甲基化的读段计数+1),使用对数变换以降低异常值效应。
获得了约1673种能够给出阳性且特异性的PCR扩增信号的提供信息的(informative)锁式探针,并且在cfDNA样品的随后实验中将它们用作捕获探针。还消除了具有少于100个MCB>30×覆盖率的cfDNA样品。每种标志物的甲基化读段被定义为总的独特甲基化的读段,并且每种标志物的甲基化值被定义为具有甲基化的读段计数除以总读段计数的比例。
使用MCB(cd评分)的基于cfDNA的诊断分类器构建
从被诊断患有肝癌(HCC)、肺癌(LUNC)的患者和正常对照获得的cfDNA样品数据被分成训练组群和验证组群。将整个数据集随机划分,以1:1的比率形成训练组群和验证组群。
标志物选择:在训练组群内,采用“随机lasso”方案来降低抽样依赖性并稳定变量选择,以选择具有高置信度的生物标志物。首先将训练集以1:1的比随机划分。对三分之二的样品进行变量选择程序,并保留三分之一的样品用于评价特征选择过程的性能。特征选择过程由重复50次的两个步骤组成。如果在50个特征选择迭代中的40个中选择了MCB,则纳入MCB用于训练最终模型。基于Friedman等2010,J Stat Softw 33,1-22构建了多类别预测系统,以使用所选择的MCB的组合预测测试数据中的样品的组成员。除了基于训练集的保留部分的预测准确性之外,还提供了混淆矩阵和ROC曲线,以评价灵敏度和特异性。
分类过程:采用两步分类过程:癌症对正常、LUNC对HCC,通过建立两种二元多分类逻辑回归模型进行。多分类逻辑回归具有优点,其中它可以产生直观的概率评分并允许更容易的解释。例如,如果癌症对正常模型对给定甲基化谱产生70%的概率评分,则表明患者具有70%的可能性患癌症。为了使错误癌症预测的数目最小化,将癌症预测置信阈值设置为80%。对于具有至少80%的癌症几率的患者,癌症对癌症回归模型被应用于LUNC和HCC之间分类,该分类模型将仅在分类样品具有超过55%的置信度时才得出结论。
建立用于预后和生存的预测模型
研究了使用基于cfDNA中的每个MCB的甲基化读段和非甲基化的读段二者的组合的预后评分(cp评分)系统结合临床和人口统计学特征(包括年龄、性别和AJCC分期),用于预测LUNC和HCC的预后的潜力。对于每种类型的癌症,通过从全部数据集中随机选择一半的观察结果作为训练组群,并将其余的观察结果视为验证组群,来建立并验证cp评分模型。对训练组群进行变量选择,并对验证组群建立综合评分。在训练组群内,采用“随机lasso”方案来降低抽样依赖性以稳定变量选择,从而以高置信度选择生物标志物。整个组群以1:1的比被随机划分。对三分之二的训练组群进行变量选择程序。LASSO用最佳调整参数实施,该参数由来自10倍交叉验证的预期泛化误差或基于信息的标准AIC/BIC中对所选生物标志物产生最高(解释的随机性的比例)的任何一个来确定。然后集合了来自HCC和LUNC中最常出现的10个特征(表8)。为了从外部评价每个组合的可预测性,通过将来自Cox回归无偏系数估计值与甲基化读段相乘,获得验证组群中的每个患者的综合评分。使用二分综合得分生成Kaplan-Meier曲线和时序检验,二分综合得分根据其中位数形成高风险和低风险的组成员资格分配。这种分割与由AJCC分期形成的分割相容。时间依赖性ROC被用于来归纳综合评分、AJCC分期和两者的组合的区分潜力,ROC曲线随时间变化并且适应删失数据。最后,还拟合了多变量Cox回归模型以评估潜在风险因素的显著性。
所有的分析用R(3.2.3版)和python(2.7.13版)进行,使用了以下包:‘glmnet’、‘limma’、‘survival’、‘sklearn’、‘lifeline’、‘survival ROC’、‘survcomp’。
除非另外具体说明,否则所有假设检验是通过双侧进行的,p值<0.05被认为是统计学显著的。
患者和样品特征
从癌症基因组图谱(TCGA)收集了827个LUNC和377个HCC肿瘤样品以及来自我们先前关于老化的甲基化研究(GSE40279)(Hannum等,2013)中使用的数据集的754个正常样品的临床特征和分子DNA甲基化谱。研究了两个患者组群。第一组群来自于来自TCGA的实体肿瘤样品,并且第二组群来自于来自中国的血浆样品。为了研究LUNC和HCC中的cfDNA,从患有HCC或LUNC的2,396名华人患者和从随机选择的、群体匹配的进行常规健康护理维护的健康对照获得血浆样品,得到892名LUNC患者和1504名HCC患者以及2247名正常健康对照的组群。从每个研究参与者获得书面知情同意。所有患者和对照的临床特征列于表9。
区分LUNC和HCC和血液的甲基化标志物的鉴定
先前的报告指示出,血浆包含从身体内的组织释放的DNA。假设了,因为源自肿瘤细胞的cfDNA可以在主要从白细胞释放的cfDNA的背景下被检测,LUNC或HCC与正常白细胞之间的甲基化值的差异最大的CpG标志物在与正常对照相比时,将最可能证明HCC或LUNC患者的cfDNA中可检测的甲基化差异。为了鉴定推定的标志物,比较了从来自TCGA的癌症组织DNA和正常血液(包括827个LUNC、377个HCC和来自健康对照的754个血液样品)得到的甲基化数据。为了鉴定在LUNC或HCC与正常血液之间具有显著不同甲基化率的DNA位点,具有经验贝叶斯的t-统计学被用于收缩方差,并选择前1000种显著标志物,使用Benjamini-Hochberg程序将FDR控制在0.05的显著性水平。这前1000种标志物的无监督层级聚类能够区分LUNC、HCC和正常血液,以及LUNC和HCC(图25)。然后设计了对应于这2000种标志物的约2,000个分子倒置(锁式)探针,用于对来自血浆的cfDNA进行捕获-测序(1000种用于癌症与正常,且1000种用于LUNC与HCC)。
用于LUNC和HCC的cfDNA诊断预测模型
进一步分析了在cfDNA样品中显示出良好甲基化范围的888个选择的甲基化相关区块(MCB)的甲基化数据,以鉴定在癌症样品(LUNC和HCC)与正常对照样品之间显示出显著不同的甲基化的MCB。使用全部样品的甲基化读段的这些选择的MCB的无监督层级聚类在图25C中示出,并且正常样品、LUNC样品和HCC样品的MCB甲基化读段值的分布在图26中示出。因此,通过最小绝对收缩和选择算子(LASSO)方法分析了888个MCB的整个甲基化数据集,并且还降低了MCB的数目。基于LASSO的特征选择鉴定了用于区分LUNC与HCC和正常的28个MCB、用于区分HCC与LUNC和正常的27个MCB、用于区分正常与HCC和LUNC的22个MCB,产生了77种独特标志物(5个MCB在模型之间重叠)。这种方法将通过MCB捕获的信息组合成基于cfDNA的综合评分(综合诊断评分:cd评分)。评价了该评分用于使用留出策略预测LUNC或HCC的存在的效用,其中样品以1:1的比被随机划分到训练集和验证集。使用229个LUNC、444个HCC和1123个正常对照cfDNA样品训练评分系统,并且然后对300个LUNC、445个HCC和1124个正常样品进行验证。将拟合的模型应用于验证集样品,在多分类方案中得到对于HCC为92.4%且对于LUNC为85.8%的灵敏度,以及对于正常对照为99.0%的特异性(表6A)。发现该模型可以成功区分验证组群中的LUNC和HCC样品与正常对照(AUC癌症对正常=0.979;AUC LUNC对HCC=0.924;图19A、表6B、表6C)。对77个MCB的无监督层级聚类能够以高特异性和灵敏度区分HCC和LUNC与正常对照(图19C和图19D)。
肝病,诸如肝硬化和脂肪肝,是HCC的主要风险因素。因此,评估模型的cd,用于区分肝病和HCC。发现cd评分能够区分HCC患者与患有肝病的那些患者或健康对照(图20A)。这些结果与通过HCC中的AFP水平预测的那些结果一致且相当(图20B)。cd评分还可以区分LUNC患者与处于增加的LUNC风险的具有吸烟史(>1包/天持续10年)的非LUNC患者(图20C)。这些结果与通过HCC中的AFP水平预测的那些结果一致且相当(图20D)。
甲基化谱预测的肿瘤负荷、治疗响应和分期
接下来,研究了cd评分在评估治疗响应、治疗后残留肿瘤的存在以及LUNC和HCC的分期中的效用。在LUNC中,治疗后具有可检测的残留肿瘤的患者(n=559)的cd评分显著高于不具有可检测的肿瘤的那些患者(n=160)的cd评分(p<0.001,图21A)。类似地,cd评分和肿瘤分期之间存在良好的相关性。患有早期疾病(I、II期)的患者与患有晚期疾病(III、IV期)的那些患者相比具有实质上更低的cd评分(p<0.005,图21B)。另外,手术后完全切除肿瘤的患者(n=158)的cd评分与手术前的那些cd评分(n=67)相比显著更低,而在具有复发的患者(n=56)中变得更高(p<0.01,图21C)。另外,治疗前(n=67)或具有进展(n=136)的患者的cd评分与具有阳性治疗响应(n=328)的那些患者的cd评分相比显著更高(p<0.001,图21D)。在HCC中,治疗后具有可检测的残留肿瘤的患者(n=889)的cd评分显著高于不具有可检测的肿瘤的那些患者(n=314)的cd评分(p<0.0001,图21E)。相似地,cd评分和肿瘤分期之间存在高度正相关性。患有早期疾病(I、II期)的患者与患有晚期疾病(III、IV期)的那些患者相比具有实质上更低的cd评分(p<0.001,图21F)。另外,手术后完全切除肿瘤的患者(n=293)的cd评分与干预前的cd评分(n=109)相比显著更低,而在具有复发的患者(n=155)中变得更高(p<0.01,图21G)。此外,治疗前(n=109)或具有进展(n=381)的患者的cd评分与具有治疗响应(n=249)的那些患者的cd评分相比显著更高(p<0.001,图21H)。获得若干患有LUNC的个体或HCC患者的CpG位点cg10673833的甲基化值的连续纵向动态变化,以监测治疗响应,并且发现甲基化值和治疗结果之间存在高相关性(图28、图29和图30)。总体上,结果显示出cd评分(即血浆中cfDNA的量)和肿瘤负荷之间的显著相关性,证明了其用于预测肿瘤响应和用于监测以检测复发的效用。
与AFP和CEA相比的cfDNA的诊断效用
尽管付出了巨大努力,但仍然缺乏用于监测和诊断LUNC和HCC的有效的无创的基于血液的生物标志物。几十年来,CEA(癌胚抗原)和AFP已经对肺癌和HCC起到此作用,但其灵敏度和特异性不足。此外,患有鳞状细胞癌或小细胞肺癌的一些患者将不具有增加的血液CEA水平。AFP具有60%的低灵敏度,使其不足以检测出将发展HCC的所有患者,并因此严重限制了其临床效用。事实上,对于患有HCC的肝硬化患者,不显示出AFP水平的增加是常见的。引人注意的是,HCC研究组群的30%患者具有正常AFP值(<25ng/ml)。在整个组群中的经活组织检查证实的LUNC患者中,对于LUNC诊断,cd评分显示出优于CEA的灵敏度和特异性(AUC 0.977(cd评分)对0.856(CEA),图21Q)。cd评分和CEA值二者与肿瘤分期高度相关(图21J、图21B)。在另一方面,在经活组织检查证实的HCC患者中,对于HCC诊断,cd评分显示出优于AFP的灵敏度和特异性(AUC 0.993对0.835,图4R)。cd评分和AFP值二者均与肿瘤分期高度相关(图21F和图21N)。在具有治疗响应、肿瘤复发或进展的患者中,cd评分显示出比AFP更多的从初始诊断的变化(图21G和图21H、图21O和图21P)。在具有治疗响应、肿瘤复发或进展的LUNC患者中,cd评分显示出比CEA更显著的从初始诊断的变化(图21C和图21D、图21K和图21L)。在具有连续样品的LUNC和HCC患者中,具有阳性治疗响应的患者的cd评分与治疗前的患者的cd评分相比存在伴随的且显著的下降。手术后患者的cd评分甚至进一步降低。相比之下,存在患有进展性或复发疾病的患者中的甲基化率的增加(图28)。通过比较,CEA和AFP对评估个体患者的治疗效力的灵敏度较低(图29和图30)。
用于HCC和LUNC的cfDNA预后模型
研究了使用基于cfDNA甲基化分析的组合的预后评分(cp评分)结合临床和人口统计学特征(包括年龄、性别、AJCC分期和AFP值)用于预测LUNC和HCC的预后的潜力。将总计599名LUNC患者和867名HCC患者纳入了预后分析(将不具有肿瘤负荷的患者从分析中排除)。LUNC组群的中位随访时间为9.5个月(范围为0.6-26个月)并且HCC组群的中位随访时间为6.7个月(范围为1.2-21.0个月)。在HCC组群中,训练数据集包含具有41个事件的433个观察值,并且验证数据集包含具有58个事件的434个观察值。通过使用统计学习方法,使用可以将HCC组群分为高风险组和低风险组的10种CpG MCB(表8)构建预测模型,低风险组中的中位存活显著大于高风险组(时序检验=24.323,df=1,p<0.001)(图22A)。在LUNC组群中,训练数据集包含具有61个事件的299个观察值,并且验证数据集包含具有58个事件的434个观察值。10种CpG标志物的组合(表8)能够将LUNC组群分为高风险组和低风险组,低风险组的中位存活显著大于高风险组(时序检验=6.697,df=1,p<0.001)(图22B)。
多变量Cox回归模型显示出,cp评分与HCC和LUNC二者的死亡的发生率显著相关。cp评分是在HCC中和LUNC验证组群的边界二者中存活的独立风险因素(在HCC中,风险比率=2.4881,p=0.000721;在LUNC中,风险比率=1.74,p=0.068;在LUNC中,p=0.0017;表10)。有趣的是,当在HCC中考虑cp评分和其他临床特征时,AFP作为风险因素不再是显著的(表11)。如预期的,在HCC(图22C)和LUNC(图22D)二者中,TNM分期(如由AJCC指南定义的)预测了患者的预后。cp评分和TNM分期的组合改善了我们预测HCC组群的预后(AUC 0.867,图22E)和LUNC组群的预后(AUC 0.825,图22F)的能力。
LUNC和HCC的早期诊断的甲基化标志物
因为LUNC和HCC是具有不良预后和存活的侵袭性很强的癌症,并且在1期手术去除癌症具有有利得多的预后,因此早期检测成为降低发病率和死亡率的关键策略。在两项前瞻性研究中,研究了使用甲基化标志物来预测高风险群体的癌症发生的方法。在第一项研究中,连续的患者从具有在胸部CT扫描上发现的>10mm的实体肺结节的一组患者中招募。这些患者被登记在对吸烟者的早期肺检测的研究中,并且经受了基于CT扫描的肺癌筛查。在筛查时,选择呈现出具有实体肺结节(尺寸在10mm和30mm之间,n=208,表11)的患者进行甲基化谱分析。随后对这些患者进行二次测试以通过组织活组织检查和病理学验证确定结节是由于LUNC引起的还是由于炎症或感染引起的良性状况。甲基化谱足以区分具有经活组织检查证实的1期LUNC损伤的患者与由于炎症或感染状况而具有良性结节的患者(图23、表12)。在具有至少59%的诊断置信度的患者中,I期癌症的阳性预测值(PPV)为95.9%且阴性预测值(NPV)为97.4%。类似地,前瞻性地登记了具有肝硬化的高风险HCC患者(n=236,表11)。甲基化谱能够以至少58%的诊断置信度在患者中以89.5%的灵敏度和98.2%的特异性预测向1期HCC的进展(图24、表12)。PPV为80.9%且NPV为99.1%。
在本研究中,首先在LUNC肿瘤样品和HCC肿瘤样品与正常血液相比确定差异性甲基化的CpG位点。然后,在LUNC和HCC患者以及正常对照的大组群的cfDNA中询问这些标志物。开发了使用cfDNA的甲基化来预测癌症的存在并同时区分LUNC和HCC的诊断模型(cd评分)。
cd评分区分患有HCC的患者与具有HBV/HCV感染、肝硬化和脂肪肝病的个体以及健康对照。在一些情况下,重要的是血清测试可靠地区分这些疾病状态与HCC。根据结果,HCC的cd评分的灵敏度与肝超声相当,肝超生是目前用于HCC筛查的标准。此外,在一些情况下,它优于唯一的临床上使用的HCC的生物标志物AFP,使cd评分成为更具成本效益并且更少资源密集的方法。此外,通过显示cd评分与HCC肿瘤负荷、治疗响应和分期的高相关性,模型的cd评分在即时组群中显示出优于AFP的性能(在疾病的整个过程期间,对于40%的我们的HCC患者,AFP在正常范围内)。在一些情况下,cd评分可特别用于评估治疗响应和监测HCC的复发。因为在研究中几乎所有的HCC患者都患有肝炎(最可能是乙型肝炎),由其他病因引起的HCC可能具有不同的cfDNA甲基化模式。与HCC相似,用于肺癌的筛查具有高成本,包括具有相关的辐射暴露和高假阳性率的胸部CT成像。在一些情况下,cd评分可靠地区分吸烟者和患有肺癌的患者,并且还可能具有改善筛查和监测的效用。
还由cp评分构建了用于HCC和LUNC的预后预测模型。cp评分有效地区分具有不同预后的HCC和LUNC患者,并且在我们的组群中在多变量分析中被验证为独立的预后风险因素。值得注意的是,为了预测HCC的预后,cfDNA分析再次优于AFP。在一些情况下,这种类型的分析有助于鉴定或多或少需要积极治疗和监测的患者。
表6A.验证组群中的多分类诊断的列联表
预测 HCC LUNC 正常
HCC 329 19 6
LUNC 23 145 6
正常 4 5 921
未确定 89 131 191
总计 354 174 930
正确 329 145 921
灵敏度(%) 92.4 85.8
特异性(%) 99.0
表6B.HCC和正常之间的二元分类诊断的列联表
预测 HCC 正常
癌症 371 16
正常 4 921
未确定 70 187
总计 375 937
正确 371 921
灵敏度(%) 98.9
特异性(%) 98.3
表6C.LUNC和正常之间的二元分类诊断的列联表
预测 LUNC 正常
癌症 188 16
正常 5 921
未确定 107 187
总计 193 937
正确 188 921
灵敏度(%) 97.4
特异性(%) 98.3
表7.由多类别LASSO选择并且被用于cd评分生成的MCB的清单。
A,正常;B,LUNC;C,HCC。
A,正常
Figure BDA0002530455600000921
Figure BDA0002530455600000931
B:LUNC
Figure BDA0002530455600000932
Figure BDA0002530455600000941
C:HCC
Figure BDA0002530455600000942
Figure BDA0002530455600000951
表8.LUNC预后预测中的10个MCB的特征和HCC预后预测中的10个MCB的特征
Figure BDA0002530455600000961
表9.研究组群的临床特征
Figure BDA0002530455600000962
Figure BDA0002530455600000971
表10.在验证组群中用甲基化标志物的综合评分(cp评分)和相关变量对HCC患者和LUNC患者的多变量存活分析
Figure BDA0002530455600000972
表11.用于检测I期LUNC和良性肺结节的临床特征和灵敏度/特异性
Figure BDA0002530455600000981
表12.用于检测从肝硬化到I期HCC进展的临床特征和灵敏度/特异性
Figure BDA0002530455600000982
Figure BDA0002530455600000991
实施例5–用于结肠直肠癌的诊断和预后的循环肿瘤DNA甲基化谱
结肠直肠癌(CRC)是世界上最常见的癌症之一。在一些情况下,早期和/或中间期检测CRC提供了比在晚期检测更好的预后。血清癌胚抗原(CEA)定量是用于癌症检测的无创工具。然而,在一些情况下,CEA测试对CRC的检测具有低灵敏度。
循环肿瘤DNA(ctDNA)是循环系统中肿瘤来源的片段化的DNA,例如来自由于坏死和凋亡的死亡肿瘤细胞。在本研究中,确定了从ctDNA样品获得的基因的DNA甲基化状态并将其用于检测CRC。
患者数据
组织DNA甲基化数据从癌症基因组图谱(TCGA)获得。完整的临床、分子和组织病理学数据集可在TCGA网站得到。来自健康供体的全血DNA甲基化谱在一项老化研究(GSE40279)中产生,其中分析了CRC和血液的DNA甲基化谱。捐献样品的各个机构协调同意过程并根据其各自的机构审查委员会从每个患者获得书面知情同意。
cfDNA组群由来自中国广州的中山大学肿瘤中心、西安的西京医院和成都的华西医院的801名CRC患者和1021名正常对照组成。选择呈现出I-IV期的CRC的患者并登记到本研究中。表18总结了患者特征和肿瘤特征。CRC的TNM分期分类根据AJCC癌症分期手册第7版进行。本项目得到中山大学肿瘤中心、西京医院和华西医院的机构审查委员会的批准。从所有患者获得知情同意。人类血液样品通过静脉穿刺术收集,并且通过离心后获取上清液来获得血浆样品,并在cfDNA提取前将其保存于-80℃。
前瞻性CRC筛查组群研究
使用血浆样品对高风险筛查群体的筛查和早期检测进行CRC研究,以评估使用甲基化标志物预测高风险群体中CRC发生的可行性。组群包括基于问卷调查被定义为CRC高风险的个体,并且从2015年9月至2017年12月安排无症状且年龄在45岁或更年长的个体进行筛查性结肠镜术。具有以下情况的处于CRC高风险的总计1450名受试者被安排进行结肠镜术和cfDNA甲基化测试:(i)年龄>45岁,(ii)曾经吸烟、饮酒、患糖尿病;(iii)存在家族史(两个或更多个一级亲属患有CRC,或者一个或更多个50岁或更年轻的亲属患有CRC;或已知Lynch综合征或家族性腺瘤性息肉病);(iv)具有粪便血液测试的阳性结果或排便习惯的改变。被排除的受试者是具有结肠直肠肿瘤、消化系统癌症或炎性肠病的个人病史;在之前10年内进行过结肠镜术或钡灌肠、计算机断层结肠造影术,或在之前5年内进行过乙状结肠镜术;因乙状结肠憩室以外的任何原因进行过结肠直肠切除;在之前30天内具有明显的直肠出血的那些受试者。本研究前瞻性招募了在本项目中给予知情同意并接受结肠镜术的筛查受试者。本项目获得了中山大学肿瘤中心、西京医院和华西医院的IRB的批准。
统计学分析
实体瘤和全血甲基化谱
使用Infinium 450K甲基化阵列产生的485,000个位点的DNA甲基化数据从TCGA和从一项衰老研究(GSE40279)产生的数据集获得,该衰老研究分析了CRC和血液的DNA甲基化谱。来自癌症患者的原发性实体组织和来自健康供体的全血二者通过Illumina 450kinfimum珠芯片测量。生成了包含每个扫描的珠的比率值的甲基化数据的IDAT格式文件。使用来自Bioconductor的minfi包,这些数据文件被转换成被称为β值的评分。华人组群的甲基化值通过使用分子倒置探针的靶向的亚硫酸氢盐测序获得,并且如下文描述地进行分析。
用于诊断和预后分析的DNA甲基化标志物预选择
使用“调节的t-统计收缩”方法对TCGA数据进行差异性甲基化分析,并且然后通过由Benjamini-Hochberg程序的多重测试对每种标志物的p值进行校正以将FDR控制在0.05的显著性水平。列表根据调整的p值排序,并且选择前1000种标志物用于设计用于区分CRC与正常样品的锁式探针。然后设计了对应于这1000种标志物的1000种分子倒置(锁式)探针,用于捕获-测序CRC血浆中的cfDNA。所有锁式探针设计和bis-DNA的捕获基于已公开的技术并做一些修改。仅544种锁式探针能够给出阳性且特异性PCR扩增信号并且因此它们在随后的cfDNA样品的实验中被用作捕获探针。还消除了具有低质量或少于30,000个读段/样品的cfDNA样品。在随后的研究中包括了约1822个cfDNA样品(801个CRC血液样品和1021个正常血液样品)。每种标志物的甲基化读段被定义为总的独特甲基化的读段,并且每种标志物的甲基化值被定义为具有甲基化的读段计数除以总读段计数的比例。对于具有少于20个独特读段的特定甲基化标志物,使用估算的CRC的平均甲基化值或正常健康对照。
建立诊断模型
从被诊断患有CRC的患者(n=801)和健康对照(n=1021)获得的cfDNA样品数据以2:1的比率被随机分为训练组群和验证组群。接下来,应用适用于预筛查的训练数据集上的高维度的两种变量选择方法:最小绝对收缩和选择算子(LASSO)和使用OOB误差的基于随机森林的变量选择方法。由于结果可以强烈依赖于用于稀疏的高维数据的随机样品分裂的任意选择,采用了“多重分裂”方法的分析,其在控制有限样品误差的同时改善了变量选择一致性。对于LASSO选择算子,75%的数据集被不放回二次抽样500次,并且选择具有多于450次的重复出现频率的标志物。根据从10倍交叉验证和基于信息的标准AIC/BIC估计的预期的泛化误差来确定调整参数,并且采用lambda的最大值,使得误差在称为“1-se”lambda的最小值的一个标准误差内。对于随机森林分析,使用OOB误差作为最小化标准,通过将变量每次迭代的下降分数设置为0.3,从随机森林消除变量。然后通过两种方法选择了重叠的甲基化标志物用于构建二元预测的模型。使用这9种标志物作为协变量拟合逻辑回归模型,并且通过将训练数据集和验证数据集二者中的无偏系数估计值和标志物甲基化值矩阵相乘获得组合的诊断评分(称为cd评分)。模型的可预测性通过ROC下面积(AUC,也称为C指数)来评价,其计算了所有观测对中的一致的对的比例,1.0表示完全预测准确性。混淆表使用具有最大Youden指数的优化的cd评分截止值生成。
在初始诊断时获得治疗前或初始甲基化水平,并且在治疗后约2个月评价治疗后水平,其中治疗是指化学疗法或手术切除肿瘤。主要终点(包括对治疗的响应:进展性疾病(PD)、部分响应(PR)和稳定疾病(SD))根据RECIST指南定义。对于用手术去除治疗且在评价时无复发的患者,假定他们具有完全响应(CR)。由于使用Shapiro-Wilk检验,cd评分显示为非正态分布的,因此通过双侧t检验来检查临床类别之间的cd评分分布的差异。
建立用于预后和生存的预测模型
研究了使用组合的预后评分(cp评分)系统结合临床和人口统计学特征(包括年龄、性别和AJCC分期),用于预测CRC的预后的潜力。从诊断的训练组群选择肿瘤样品作为训练数据集,并且从验证组群选择肿瘤样品作为验证数据集。对训练数据集进行变量选择,并对验证组群建立综合评分。首先进行单变量预筛选程序以去除过量的噪声以有利于计算分析,其通常被推荐在应用任何变量选择方法之前进行。根据Wald统计学p值<0.05的的标志物保留在数据集中。其次,基于LASSO-cox方法的诊断标志物选择过程中的类似的二次抽样策略被用于将标志物数目收缩至合理范围(小于事件)。与二元分类器略有差异的是,如果对于模型构建而言事件比例太低,则在训练数据集中进行不放回二次抽样。频率截止值被设置为50以保留约1/10的总事件。上文的分析产生了构建预后特征的2种最终标志物(表14)。随后,使用这2种标志物从多变量Cox回归模型的线性预测物计算cp评分。使用二分的cp评分生成Kaplan-Meier曲线和时序检验,这根据其中位数形成高风险和低风险的组成员资格分配。这种分割与AJCC分期形成的分割相容。时间依赖性ROC被用于归纳cp评分、AJCC分期、CEA水平、原发性肿瘤位置和所有因素的组合的区分潜力,ROC曲线随时间变化并且适应删失数据。最后,还拟合了多变量Cox回归模型以评估潜在风险因素的显著性。
预后分析部分中的所有假设检验通过双侧检验完成,p值<0.05被认为是统计学上显著的。所有的分析以3.4.3版的R使用以下包进行:‘glmnet’、‘pROC’、‘limma’、‘survival’、‘survival ROC’、‘survcomp’。
基于ctDNA甲基化的亚型的无监督发现
采用训练数据集(n=528)来发现CRC组/亚型。为了缩小标志物并通过其自身提供的甲基化信息获取有意义的聚类,使用了对关键特征进行迭代细化的算法,该算法被修改以更好地表示每个聚类。该算法被如下地修改。简而言之,首先使用中值绝对偏差<0.5的阈值过滤掉具有低可变性的标志物。然后通过对训练数据集中的标志物和样品进行均值中心化来调整矩阵。其次,迭代器程序被用于分类和获得用于预测亚型的标志物列表:(i)一致性聚类(consensus clustering)被用于对数据集进行初始聚类,并且簇数目通过CDF曲线下面积的相对变化确定(ΔA,截止值=0.05);(ii)计算每个簇的质心,并且通过使甲基化矩阵和质心矩阵相乘获得每个样品的相关系数向量。(iii)基于相关系数向量对样品进行再聚类。新簇的数目通过最大平均轮廓宽度确定;(iv)通过使用调节的F检验(来自‘limma’包)获得在新簇的差异性甲基化标志物;然后根据差异性甲基化的标志物将矩阵的子集输入下一次迭代中。当差异性甲基化的标志物列表与先前的运行相比没有变化时,迭代停止,并且该标志物集合被最终用作用于预测CRC亚型的亚型特征。
对预先定义的验证数据集(n=273)进行验证。为了得到验证样品的亚型,首先用训练数据集中选择的亚型划分特征的甲基化水平计算每个簇的质心甲基化值。此处,质心甲基化值被定义为通过获得全部样品的特征的平均值而得到的样品簇的代表性甲基化值。其次,根据每个质心值的最大Pearson相关系数将来自验证组群的样品分配至簇。
从血浆样品提取无细胞DNA
血浆样品被冷冻并保存在-80℃直到使用。观察到20,000个或更多个总的独特读段/样品符合该标准,并且为了可靠地产生>20,000个独特读段,需要1.5ml或更多的血浆。使用数字液滴PCR进一步评估血浆中的cfDNA的量和检测到的拷贝数之间的关系。此外,发现1.5ml的血浆产生>10ng的cfDNA,在每个数字液滴PCR测定中产生至少140个拷贝的检测到的扩增子。基于这些发现,15ng/1.5ml被用作获得用于本研究的所有实验的DNA甲基化的可靠测量的截止值。对于所有的cfDNA提取,使用EliteHealth cfDNA提取试剂盒(EliteHealth,Guangzhou,China)根据制造商的建议进行。
基因组或cfDNA的亚硫酸氢盐转化
使用EZ DNA Methylation-LightningTM试剂盒(Zymo Research)根据制造商的方案,将10ng的DNA转化为bis-DNA。所得的bis-DNA具有约200-3000bp的尺寸分布,峰在约500-1000bp。如通过bis-DNA的深度测序和分析CH(非CG)二核苷酸的C至T转化的比率验证的,亚硫酸氢盐转化的效率>99.8%。
通过用分子倒置(锁式)探针捕获的bis-DNA的深度测序确定DNA甲基化水平
为了鉴定在CRC和正常血液之间具有显著不同的甲基化率的DNA位点,使用具有经验贝叶斯的t-统计来收缩方差,并用Benjamini-Hochberg程序选择前1000种显著标志物,将FDR控制在0.05的显著性水平。通过这前1000种标志物的无监督层级聚类,成功地区分了CRC和正常血液。然后设计对应于这1000种标志物的1000种分子倒置(锁式)探针,用于cfDNA的捕获-测序。在亚硫酸氢盐转化的cfDNA样品中进行捕获和测序。
探针设计、合成和验证
所有探针使用ppDesigner软件设计。被捕获的区域的平均长度为100bp,CpG标志物位于被捕获的区域的中央部分。臂之间的接头序列包含用于扩增引物的结合序列,结合序列被可变的C链段分隔以产生等长度的探针。6-bp的独特分子标识物(UMI)序列被掺入探针设计中以允许鉴定独特个体分子捕获事件和对DNA甲基化水平进行精确评分。对于捕获实验,使用标准商业合成方法(IDT)将探针合成为单独的寡核苷酸,并以等摩尔量混合,随后使用Qiagen柱纯化。
如由初始试验性捕获实验的深度测序示出的,由最有效的探针和非有效探针捕获的读段的数目之间存在显著差异(60%-65%的捕获的区域具有平均>0.2×的覆盖率)。为了改善这种情况,从测序数据计算相对效率,并以调整的摩尔比混合探针,这将捕获均匀度增加至85%的区域有>0.5×的平均覆盖率。
bis-DNA捕获
为了使探针退火至DNA,在包含1×Ampligase缓冲液(Epicentre)的20μl反应中,将10ng的亚硫酸氢盐转化的DNA与锁式探针混合,随后在95℃变性30秒,随后以0.02℃/秒的速率缓慢冷却至55℃。使杂交在55℃完成15小时。为了填充退火的臂之间的空位,将5μl的以下混合物添加到每个反应中:2U的PfuTurboCx聚合酶(Agilent)、0.5U的Ampligase(Epicentre)和1×Ampligase缓冲液中的250pmol的每种dNTP。在55℃孵育5小时后,反应在94℃变性2分钟。添加5μl的核酸外切酶混合物(20U的Exo I和100U的ExoIII,二者都来自Epicentre),并在37℃进行单链DNA降解2小时,随后是在94℃酶失活2分钟。
通过PCR扩增位点特异性捕获的环状产物,同时对分离的样品编条形码。使用对锁式探针内的接头DNA特异性的引物进行扩增,其中一种包含特异性6bp条形码。两种引物都包含Illumina下一代测序衔接子序列。如下地进行PCR:1×Phusion Flash主混合物、3μl的捕获的DNA和200nM引物,使用以下循环:10s@98℃、8×的(1s@98℃、5s@58℃、10s@72℃)、25×的(1s@98℃、15s@72℃)、60s@72℃。将PCR反应混合并使用Agencourt AMPure XP珠(Beckman Coulter)对所得的文库进行尺寸选择以包括有效捕获(~230bp)并排除“空”捕获(~150bp)。文库的纯度通过使用Illumina流动池衔接子引物(P5和P7)的PCR验证,并且浓度使用Qubit dsDNA HS测定(Thermo Fisher)确定。使用MiSeq和HiSeq2500系统(Illumina)对文库进行测序。
捕获覆盖均匀度的优化
初始试验性捕获实验的深度测序显示出被最有效探针和非有效探针捕获的读段的数目之间的显著差异(60%-65%的捕获的区域具有平均>0.2×的覆盖率)。为了改善这种情况,从测序数据计算相对效率,并且以调整的摩尔比混合探针。这将捕获均匀度区域增加到85%的区域在>0.2×的平均覆盖率。
测序数据分析
测序读段的映射使用具有一些修改的软件工具bisReadMapper完成。首先,将UMI从每个测序读段提取并使用定制脚本附加到FASTQ文件内的读段的header。使用Bowltie2将读段动态转换,如同所有的C是非甲基化的一样,并且映射到人类基因组的计算机转化的DNA链上,还如同所有的C是非甲基化的一样。将原始读段合并并过滤以得到单个UMI,即携带相同UMI的读段被丢弃,留下单个独特读段。通过将在被询问的位置处携带C的独特读段的数目除以覆盖被询问的位置的读段的总数目,计算包含在锁式探针捕获的区域内的所有CpG二核苷酸的甲基化频率。
甲基化相关区块(MCB)的鉴定
为了使测量DNA甲基化的小差异的能力最大化,利用了紧密定位的CpG倾向于具有相似的甲基化水平的概念以及遗传连锁分析中单体型区块的概念,紧密定位的CpG倾向于具有相似的甲基化水平的概念被认为是DNA甲基转移酶和去甲基化酶的持续性(processivity)和缺乏序列特异性的结果。测序数据被用于使用CRC和正常cfDNA样品产生MCB图谱。对来自两个诊断类别(即正常血液和CRC)的每一个类别的全部50个cfDNA样品,单独计算被不多于200bp分隔的每对CpG标志物的甲基化频率之间的Pearson相关系数。<0.5的Pearson r的值被用于鉴定具有不相关的甲基化的相邻标志物之间的边界。未被边界分隔的标志物被组合成甲基化相关区块(MCB)。该程序在锁式数据内在每个诊断类别中鉴定出总计约1550个MCB,每个区块中组合了2个和22个之间的CpG位置。通过将MCB内所有被询问的CpG位置处的C的数目相加,并除以这些位置处的C+T的总数目,计算整个MCB的甲基化频率。
液滴数字PCR
使用以Bio-Rad(Carlsbad,CA)QX-200液滴读取仪和自动化液滴生成器(AutoDG)为特征的液滴数字PCR范式,确定这些样品中的每一个的cg10673833的甲基化状态。简而言之,使用EZ DNA Methylation-LightningTM Kit(Zymo Research)将来自每名受试者的10ng的DNA亚硫酸氢盐转化。将每个样品的等分试样预扩增,1:3,000稀释,并然后使用来自Behavioral Diagnostics的对cg10673833特异性的荧光、双标记的引物探针集合和来自Bio-Rad的通用数字PCR试剂和方案进行PCR扩增。液滴的数目使用QX-200液滴计数器确定并使用QuantiSoft软件分析。结果表示为甲基化百分比。如果少于10,000个液滴被计数,反应被排除。
患者和样品特征
从癌症基因组图谱(TCGA)收集459个CRC肿瘤样品的临床特征和甲基化谱分析,并从先前的关于老化的甲基化研究(GSE40279)中使用的数据集收集754个正常样品的临床特征和甲基化谱分析,以鉴定CRC特异性甲基化标志物。为了研究CRC中的cfDNA,从患有CRC的801名华人患者和从随机选择的、群体匹配的进行常规健康护理维护的1021名健康对照获得血浆样品(图31A)。从每个参与者获得书面知情同意。所有患者和对照的临床特征列于表18。
具有CRC高风险的总计1450名参与者被登记在前瞻性筛查组群研究中并进行结肠镜术和cfDNA甲基化测试(图31B)。其中在结肠镜术中发现18名参与者患有结肠直肠癌(患病率为1.2%),78名参与者具有晚期癌前病变(患病率为5.3%)。来自该组群的所有参与者的临床特征列于表19。
区分CRC和血液的甲基化标志物的鉴定
为了鉴定区分CRC和正常血液样品的推定的标志物,比较了来自TCGA的CRC组织DNA和正常血液来源的的甲基化数据。从459个CRC样品和来自健康对照的754个血液样品获得甲基化数据。使用了用于收缩方差的具有经验贝叶斯的“调节的t统计”分析,并通过使用Benjamini-Hochberg程序将错误发现率(FDR)控制在显著性水平0.05来选择前1000种显著标志物。设计了对应于这1000种标志物的分子倒置(锁式)探针,用于从血浆捕获-测序cfDNA,并选择具有良好实验扩增谱和动态甲基化范围的544种标志物用于进一步分析。遗传连锁不平衡(LD区块)概念被用于研究不同DNA链中的共甲基化的程度,其潜在假设是,紧密接近的DNA位点比距离远的位点更可能是共甲基化的。
用于CRC的cfDNA诊断预测模型
通过最小绝对收缩和选择算子(LASSO)和随机森林分析544种标志物的整个甲基化数据集,以减少标志物的数目(图36)。801个CRC样品和1021个正常对照样品以2:1的比被随机划分到训练集和验证集(图32A)。基于LASSO的特征选择鉴定了13种标志物,并且基于随机森林的特征选择鉴定了22种标志物,用于区分CRC与正常。这两种方法之间存在9种重叠的标志物(表13)。用这9种标志物构建诊断预测模型,并且根据来自多项式逻辑回归的系数制定(formulated)组合的诊断评分系统(cd评分)。应用该模型,在训练数据集和验证数据集二者中观察到预测的结果和病理学诊断结果之间的高度一致性(图32B和图32C)。在训练数据集(图32D)和验证数据集(图32E)中,AUC的面积分别为0.96(95%CI为0.95-0.97)和0.96(95%CI为0.94-0.97)。通过使用经由Youden指数方法确定的最佳截止值,对于区分CRC与正常对照,模型在训练数据集中得到87.5%的灵敏度和89.9%的特异性,并且在验证数据集中得到87.9%的灵敏度和89.6%的特异性(图32G和32H)。尽管这些结果清楚地证明ctDNA甲基化标志物用于预测CRC的存在的潜力。
然后检查cd评分在评估CRC的分期、治疗后残留肿瘤的存在、治疗的响应(诸如手术或化学疗法)中的效用。治疗后具有可检测的残留肿瘤的患者的cd评分显著高于不具有可检测的肿瘤的那些患者的cd评分(p=<0.001,图37A)。类似地,cd评分和肿瘤分期之间存在良好相关性。患有早期疾病(I、II期)的患者与患有晚期疾病(III、IV期)的那些患者相比具有实质上更低的cd评分(p<0.001,图37B)。此外,治疗前的患者的cd评分显著高于接受手术的那些患者的cd评分(p<0.001,图37E)。当肿瘤复发时,cd评分再次增加(图37E)。
数十年来,CEA已被用于诊断和监测CRC。但是它的灵敏度和特异性不尽如人意,导致在大多数疑似CRC的患者中需要侵入性方法,如结肠镜术。在组群的经活组织检查证实的CRC患者中,对于CRC诊断,cd评分表现出优于CEA的灵敏度和特异性(AUC 0.96对0.72,图37F)。cd评分和CEA值二者与肿瘤分期高度相关(图37B和图37D)。在具有治疗响应或肿瘤复发的患者中,cd评分显示出比CEA更显著的从初始诊断的变化(图37E和图37F)。
用于CRC的cfDNA预后预测模型
接下来,研究了使用基于ctDNA甲基化分析的组合的预后评分(cp评分)结合临床和人口统计学特征(包括年龄、性别、原发性肿瘤位置和AJCC分期)用于预测CRC的预后的潜力。完成了801名CRC患者关于基于预后评分的分析的随访信息。中位随访时间为11.9个月(范围为0.5-25.7个月)。应用与诊断部分相同的训练数据集和验证数据集,训练数据集包含具有73个事件的528个观察值,且验证数据集包含具有32个事件的273个观察值。对训练集进行变量选择,并在验证集上建立综合评分。实施UniCox和LASSO-Cox方法以降低维度并构建用2标志物组合预测预后的Cox模型(图33A和表14)。使用二分的综合得分生成Kaplan-Meier曲线和时序检验,这根据其中位数产生高风险和低风险的组成员资格分配。低风险组中的中位存活时间显著优于高风险组中的中位存活时间(p<0.001)(图33B和图33C)。
时间依赖性ROC被用于归纳综合评分、AJCC分期、CEA水平、原发性肿瘤位置以及所有现有生物标志物的组合的区分潜力。多变量Cox回归指示cp评分与死亡的风险显著相关,并且是训练集和验证集二者中存活的独立风险因素(表15)。TNM分期(如由AJCC指南定义的)、CEA水平、原发性肿瘤位置还预测了患有CRC的患者的12个月存活(表15)。此外,cp评分和临床特征的组合改善了预测预后的能力(训练组群中的AUC为0.79,95%CI为0.70-0.88,并且验证组群中的AUC为0.85,95%CI为0.75-0.96)(图33D和图33E)。
列线图产生了生成临床事件的数值概率的统计学预测模型的简单图形表示。它可以将统计预测模型简化为死亡的概率的单一数值估计。多变量Cox回归分析将四个变量鉴定为训练组群和验证组群二者中的独立预测因素(cp评分、CEA水平、TNM分期和原发性肿瘤位置,表15)。这样,用这4种变量的点量表产生了以预测CRC患者的总体存活的列线图(图34A)。将每个变量点的总和绘制在总点轴上,并且通过从绘制的总点轴向下一直到结果轴绘制垂线,获得估计的中位1年总体存活和2年总体存活。在验证组群中,该模型的c指数为0.839,指示了良好区分。图34B示出了列线图的校准图,其中由列线图预测的1年总体存活的概率相对于通过Kaplan-Meier方法获得的相应的观察的存活绘制。
基于cfDNA甲基化的CRC亚型划分(subtyping)
为了产生基于cfDNA甲基化的CRC的亚型,使用了无监督聚类方法。方法应用迭代地去除对初始簇具有较少贡献的标志物的迭代策略(图35A)。使用与建立预后模型相同的训练数据集,获得了在簇之间差异性甲基化的合并的总计45种标志物的两个CRC样品簇(图35B)。从最后一轮迭代的轮廓分析中,观察到高的分离距离(图35C)。验证集也通过计算它们与来自训练集的簇的质心谱的相关系数来分类。
验证集被分为显示出45种标志物的明显不同的甲基化谱的两个组(图35D)。为了探索两种亚型的临床相关性,系统性测试了亚型与所有可得的临床因素包括TNM分期、肿瘤位置、MMR状态、MSS状态、肿瘤负荷、性别、有限的基因组合的突变状态和存活结果的相关性。结果,训练数据集和验证数据集二者中的第二个簇具有比第一个簇的存活率明显不良的存活率(图35E,上图,均为p<0.01,时序检验)。还发现簇2中的晚期(high stage)CRC的比例显著高于簇1(图35E,下图,均为p<0.05,卡方检验)。考虑到区分具有不良存活的组群的亚型和TNM分期的潜在多重共线性,进行了多变量cox回归分析,并且两个因素在预测总体存活中相互独立(表16)。
根据簇中的低甲基化或超甲基化(簇2中的27个低甲基化和18个高甲基化,表20),将用于亚型划分的45种标志物分为两个组。在这些标志物中,三种标志物也在诊断标志物的列表中被鉴定出并且一种标志物在诊断标志物列表和预后标志物列表二者中被鉴定(图38)。进一步的分析显示,在两个数据集中,簇2的cp评分显著高于簇1(图40B,p<0.001,Wilcox检验)。鉴于7-45018848在三个独立的标志物列表中被鉴定出并且在簇2中显示为超甲基化的,它的存在可能对两个亚型之间不同的存活结果有所贡献。
由于CpG位点cg10673833(7-45018848)是诊断、预后和分子亚型分析中唯一重叠的标志物,因此研究了cg10673833作为监测治疗响应的潜在标志物的效用。在CRC患者的组中获得了cg10673833的甲基化值的连续纵向动态变化。结果显示,在cg10673833的甲基化值和治疗结果之间存在高相关性,其大于对CEA观察到的相关性(图39)。在具有连续样品的患者中,具有阳性治疗响应的那些患者与治疗之前相比具有cg10673833的甲基化值伴行的且显著的降低,并且在手术后的患者中存在cg10673833的甲基化值的更进一步的降低。相比之下,具有进展性或复发性疾病的患者具有增加的甲基化率(图40)。
用于使用7-45018848在高风险群体中筛查和早期诊断CRC的甲基化标志物
基于血浆样品,研究了cg10673833作为甲基化标志物在检测高风险群体的CRC和癌前病变中的潜力。从2015年1月至2017年6月,安排被确认为具有CRC的高风险的1450名参与者进行筛查结肠镜术和cg10673833的甲基化测试(图31B)。
表17示出了结肠镜术和cg10673833甲基化测试的筛查结果。cg10673833甲基化测试鉴定了10个参与者中的9个患有CRC,并且8个参与者中的7个患有原位CRC,灵敏度为88.9%(95%CI为0.74-1.00)且特异性为86.5%(95%CI为0.85-0.88)。阳性预测值(PPV)和阴性预测值(NPV)分别为0.077(95%CI为0.041-0.113)和0.998(95%CI为0.996-1.00)(表21)。对于晚期癌前病变,灵敏度为33.3%(95%CI为0.229-0.438),显著高于不具有任何病理学的受试者的阳性率(12.3%,95%CI为0.106-0.141)。
表13. 9种甲基化标志物的特征及其在诊断中的系数
Figure BDA0002530455600001111
表14.两种甲基化标志物的特征及其在预后中的系数。
Figure BDA0002530455600001112
Figure BDA0002530455600001121
表15.对于总体存活,具有协变量包括cp评分、性别、年龄、肿瘤位置、TNM分期、CEA的多变量cox回归分析。
Figure BDA0002530455600001122
表16.训练集和验证集二者(与预后模型分析相同的组群)中的基于cfDNA甲基化的CRC亚型和CRC预后之间的关联。
Figure BDA0002530455600001123
表17.ctDNA甲基化测试对结肠镜术上的发现的灵敏度和特异性。
Figure BDA0002530455600001124
Figure BDA0002530455600001131
表18.研究组群的临床特征。
特征 TCGA CRC组织 GSE正常血液 CRC血清 正常对照
总计(n) 459 754 801 1021
性别
女性-数目(%) 216(47.1) 401(53.2) 305(38.1) 486(47.6)
男性-数目(%) 243(52.9) 353(46.8) 496(61.9) 470(46.0)
NA 0 0 0 65(6.4)
年龄(岁)
平均值 68 63 58 47
范围 33-90 19-101 24-85 19-90
分期
I 76(16.6) NA 38(4.7) NA
II 179(39.0) NA 139(17.4) NA
III 131(28.5) NA 209(26.1) NA
IV 65(14.2) NA 406(50.7) NA
NA 8(1.7) NA 9(1.1) NA
肿瘤负荷
无肿瘤 199(43.4) NA 290(36.2) NA
具有肿瘤 215(46.8) NA 511(63.8) NA
NA 45(9.8) NA 0 NA
RAS状态
广泛型 24(5.3) NA 122(15.2) NA
突变 23(5.0) NA 78(9.8) NA
NA 412(89.7) NA 601(75.0) NA
MMR状态
完整 81(17.7) NA 476(59.4) NA
缺乏 12(2.6) NA 35(4.4) NA
NA 366(79.7) NA 290(36.2) NA
肿瘤位置
右结肠 257(55.9) NA 197(24.6) NA
左结肠 182(39.7) NA 593(74.0) NA
NA 20(4.4) NA 11(1.4) NA
表19.筛查研究组群的临床特征。
CRC AA 其他
特征 N=18 N=78 N=1354
年龄(平均值[SD1)
45-49岁-数目(%) 0 4(5.1) 338(25.0)
50-59岁-数目(%) 8(44.4) 18(23.1) 446(32.9)
60-69岁-数目(%) 10(55.6) 42(53.9) 472(34.9)
>70岁-数目(%) 0 14(17.9) 98(7.2)
性别
女性(%) 8(44.4) 30(38.5) 698(51.6)
男性(%) 10(55.6) 48(61.5) 656(48.4)
表20.基于ctDNA甲基化的CRC亚型划分中的45种甲基化标志物的特征。
Figure BDA0002530455600001141
Figure BDA0002530455600001151
表21.cfDNA甲基化测试的阳性预测值和阴性预测值。
Figure BDA0002530455600001152
虽然本文已经示出和描述了本公开内容的优选的实施方案,但是对于本领域技术人员明显的是,这样的实施方案仅以示例的方式提供。在不偏离本公开内容的情况下,本领域技术人员现在将想到许多变化、改变和替换。应当理解,在实践本公开内容时可以使用本文描述的本公开内容的实施方案的多种替代选择。以下权利要求意图界定本公开内容的范围,并且从而涵盖在这些权利要求范围内的方法和结构及其等同物。
表1
Figure BDA0002530455600001161
Figure BDA0002530455600001171
Figure BDA0002530455600001181
Figure BDA0002530455600001191
Figure BDA0002530455600001201
Figure BDA0002530455600001211
Figure BDA0002530455600001221
Figure BDA0002530455600001231
Figure BDA0002530455600001241
Figure BDA0002530455600001251
Figure BDA0002530455600001261
Figure BDA0002530455600001271
Figure BDA0002530455600001281
Figure BDA0002530455600001291
Figure BDA0002530455600001301
Figure BDA0002530455600001311
Figure BDA0002530455600001321
Figure BDA0002530455600001331
Figure BDA0002530455600001341
Figure BDA0002530455600001351
Figure BDA0002530455600001361
Figure BDA0002530455600001371
Figure BDA0002530455600001381
Figure BDA0002530455600001391
Figure BDA0002530455600001401
Figure BDA0002530455600001411
Figure BDA0002530455600001421
Figure BDA0002530455600001431
Figure BDA0002530455600001441
Figure BDA0002530455600001451
Figure BDA0002530455600001461
Figure BDA0002530455600001471
Figure BDA0002530455600001481
Figure BDA0002530455600001491
Figure BDA0002530455600001501
Figure BDA0002530455600001511
Figure BDA0002530455600001521
Figure BDA0002530455600001531
Figure BDA0002530455600001541
Figure BDA0002530455600001551
Figure BDA0002530455600001561
Figure BDA0002530455600001571
Figure BDA0002530455600001581
Figure BDA0002530455600001591
Figure BDA0002530455600001601
Figure BDA0002530455600001611
Figure BDA0002530455600001621
Figure BDA0002530455600001631
Figure BDA0002530455600001641
Figure BDA0002530455600001651
Figure BDA0002530455600001661
Figure BDA0002530455600001671
Figure BDA0002530455600001681
Figure BDA0002530455600001691
Figure BDA0002530455600001701
Figure BDA0002530455600001711
Figure BDA0002530455600001721
Figure BDA0002530455600001731
Figure BDA0002530455600001741
Figure BDA0002530455600001751
Figure BDA0002530455600001761
Figure BDA0002530455600001771
Figure BDA0002530455600001781
Figure BDA0002530455600001791
Figure BDA0002530455600001801
Figure BDA0002530455600001811
Figure BDA0002530455600001821
Figure BDA0002530455600001831
Figure BDA0002530455600001841
Figure BDA0002530455600001851
Figure BDA0002530455600001861
Figure BDA0002530455600001871
Figure BDA0002530455600001881
Figure BDA0002530455600001891
Figure BDA0002530455600001901
Figure BDA0002530455600001911
Figure BDA0002530455600001921
Figure BDA0002530455600001931
Figure BDA0002530455600001941
Figure BDA0002530455600001951
Figure BDA0002530455600001961
Figure BDA0002530455600001971
Figure BDA0002530455600001981
Figure BDA0002530455600001991
Figure BDA0002530455600002001
Figure BDA0002530455600002011
Figure BDA0002530455600002021
Figure BDA0002530455600002031
Figure BDA0002530455600002041
Figure BDA0002530455600002051
Figure BDA0002530455600002061
Figure BDA0002530455600002071
Figure BDA0002530455600002081
Figure BDA0002530455600002091
Figure BDA0002530455600002101
Figure BDA0002530455600002111
Figure BDA0002530455600002121
Figure BDA0002530455600002131
Figure BDA0002530455600002141
Figure BDA0002530455600002151
Figure BDA0002530455600002161
Figure BDA0002530455600002171
Figure BDA0002530455600002181
Figure BDA0002530455600002191
Figure BDA0002530455600002201
Figure BDA0002530455600002211
Figure BDA0002530455600002221
Figure BDA0002530455600002231
Figure BDA0002530455600002241
Figure BDA0002530455600002251
Figure BDA0002530455600002261
Figure BDA0002530455600002271
Figure BDA0002530455600002281
Figure BDA0002530455600002291
Figure BDA0002530455600002301
Figure BDA0002530455600002311
Figure BDA0002530455600002321
Figure BDA0002530455600002331
Figure BDA0002530455600002341
Figure BDA0002530455600002351
Figure BDA0002530455600002361
Figure BDA0002530455600002371
Figure BDA0002530455600002381
Figure BDA0002530455600002391
Figure BDA0002530455600002401
Figure BDA0002530455600002411
Figure BDA0002530455600002421
Figure BDA0002530455600002431
Figure BDA0002530455600002441
Figure BDA0002530455600002451
Figure BDA0002530455600002461
Figure BDA0002530455600002471
Figure BDA0002530455600002481
Figure BDA0002530455600002491
Figure BDA0002530455600002501
Figure BDA0002530455600002511
Figure BDA0002530455600002521
Figure BDA0002530455600002531
Figure BDA0002530455600002541
Figure BDA0002530455600002551
Figure BDA0002530455600002561
Figure BDA0002530455600002571
Figure BDA0002530455600002581
Figure BDA0002530455600002591
Figure BDA0002530455600002601
Figure BDA0002530455600002611
Figure BDA0002530455600002621
Figure BDA0002530455600002631
Figure BDA0002530455600002641
Figure BDA0002530455600002651
Figure BDA0002530455600002661
Figure BDA0002530455600002671
Figure BDA0002530455600002681
Figure BDA0002530455600002691
Figure BDA0002530455600002701
Figure BDA0002530455600002711
Figure BDA0002530455600002721
Figure BDA0002530455600002731
Figure BDA0002530455600002741
Figure BDA0002530455600002751
Figure BDA0002530455600002761
Figure BDA0002530455600002771
Figure BDA0002530455600002781
Figure BDA0002530455600002791
Figure BDA0002530455600002801
Figure BDA0002530455600002811
Figure BDA0002530455600002821
Figure BDA0002530455600002831
Figure BDA0002530455600002841
Figure BDA0002530455600002851
Figure BDA0002530455600002861
Figure BDA0002530455600002871
Figure BDA0002530455600002881
Figure BDA0002530455600002891
Figure BDA0002530455600002901
Figure BDA0002530455600002911
Figure BDA0002530455600002921
Figure BDA0002530455600002931
Figure BDA0002530455600002941
Figure BDA0002530455600002951
Figure BDA0002530455600002961
Figure BDA0002530455600002971
Figure BDA0002530455600002981
Figure BDA0002530455600002991
Figure BDA0002530455600003001
Figure BDA0002530455600003011
Figure BDA0002530455600003021
Figure BDA0002530455600003031
Figure BDA0002530455600003041
Figure BDA0002530455600003051
Figure BDA0002530455600003061
Figure BDA0002530455600003071
Figure BDA0002530455600003081
Figure BDA0002530455600003091
Figure BDA0002530455600003101
Figure BDA0002530455600003111
Figure BDA0002530455600003121
Figure BDA0002530455600003131
Figure BDA0002530455600003141
Figure BDA0002530455600003151
Figure BDA0002530455600003161
Figure BDA0002530455600003171
Figure BDA0002530455600003181
Figure BDA0002530455600003191
Figure BDA0002530455600003201
Figure BDA0002530455600003211
Figure BDA0002530455600003221
Figure BDA0002530455600003231
Figure BDA0002530455600003241
Figure BDA0002530455600003251
Figure BDA0002530455600003261
Figure BDA0002530455600003271
Figure BDA0002530455600003281
Figure BDA0002530455600003291
Figure BDA0002530455600003301
Figure BDA0002530455600003311
Figure BDA0002530455600003321
Figure BDA0002530455600003331
Figure BDA0002530455600003341
Figure BDA0002530455600003351
Figure BDA0002530455600003361
Figure BDA0002530455600003371
Figure BDA0002530455600003381
Figure BDA0002530455600003391
Figure BDA0002530455600003401
Figure BDA0002530455600003411
Figure BDA0002530455600003421
Figure BDA0002530455600003431
Figure BDA0002530455600003441
Figure BDA0002530455600003451
Figure BDA0002530455600003461
Figure BDA0002530455600003471
Figure BDA0002530455600003481
Figure BDA0002530455600003491
Figure BDA0002530455600003501
Figure BDA0002530455600003511
Figure BDA0002530455600003521
Figure BDA0002530455600003531
Figure BDA0002530455600003541
Figure BDA0002530455600003551
Figure BDA0002530455600003561
Figure BDA0002530455600003571
Figure BDA0002530455600003581
Figure BDA0002530455600003591
Figure BDA0002530455600003601
Figure BDA0002530455600003611
Figure BDA0002530455600003621
Figure BDA0002530455600003631
Figure BDA0002530455600003641
Figure BDA0002530455600003651
Figure BDA0002530455600003661
Figure BDA0002530455600003671
Figure BDA0002530455600003681
Figure BDA0002530455600003691
Figure BDA0002530455600003701
Figure BDA0002530455600003711
Figure BDA0002530455600003721
Figure BDA0002530455600003731
Figure BDA0002530455600003741
Figure BDA0002530455600003751
Figure BDA0002530455600003761
Figure BDA0002530455600003771
Figure BDA0002530455600003781
Figure BDA0002530455600003791
Figure BDA0002530455600003801
Figure BDA0002530455600003811
Figure BDA0002530455600003821
Figure BDA0002530455600003831
Figure BDA0002530455600003841
Figure BDA0002530455600003851
Figure BDA0002530455600003861
Figure BDA0002530455600003871
Figure BDA0002530455600003881
Figure BDA0002530455600003891
Figure BDA0002530455600003901
Figure BDA0002530455600003911
Figure BDA0002530455600003921
Figure BDA0002530455600003931
Figure BDA0002530455600003941
Figure BDA0002530455600003951
Figure BDA0002530455600003961
Figure BDA0002530455600003971
Figure BDA0002530455600003981
Figure BDA0002530455600003991
Figure BDA0002530455600004001
Figure BDA0002530455600004011
Figure BDA0002530455600004021
Figure BDA0002530455600004031
Figure BDA0002530455600004041
Figure BDA0002530455600004051
Figure BDA0002530455600004061
Figure BDA0002530455600004071
Figure BDA0002530455600004081
Figure BDA0002530455600004091
Figure BDA0002530455600004101
Figure BDA0002530455600004111
Figure BDA0002530455600004121
Figure BDA0002530455600004131
Figure BDA0002530455600004141
Figure BDA0002530455600004151
Figure BDA0002530455600004161
Figure BDA0002530455600004171
Figure BDA0002530455600004181
Figure BDA0002530455600004191
Figure BDA0002530455600004201
Figure BDA0002530455600004211
Figure BDA0002530455600004221
Figure BDA0002530455600004231
Figure BDA0002530455600004241
Figure BDA0002530455600004251
Figure BDA0002530455600004261
Figure BDA0002530455600004271
Figure BDA0002530455600004281
Figure BDA0002530455600004291
Figure BDA0002530455600004301
Figure BDA0002530455600004311
Figure BDA0002530455600004321
Figure BDA0002530455600004331
Figure BDA0002530455600004341
Figure BDA0002530455600004351
Figure BDA0002530455600004361
Figure BDA0002530455600004371
Figure BDA0002530455600004381
Figure BDA0002530455600004391
Figure BDA0002530455600004401
Figure BDA0002530455600004411
Figure BDA0002530455600004421
Figure BDA0002530455600004431
Figure BDA0002530455600004441
Figure BDA0002530455600004451
Figure BDA0002530455600004461
Figure BDA0002530455600004471
Figure BDA0002530455600004481
Figure BDA0002530455600004491
Figure BDA0002530455600004501
Figure BDA0002530455600004511
Figure BDA0002530455600004521
Figure BDA0002530455600004531
Figure BDA0002530455600004541
Figure BDA0002530455600004551
Figure BDA0002530455600004561
Figure BDA0002530455600004571
Figure BDA0002530455600004581
Figure BDA0002530455600004591
Figure BDA0002530455600004601
Figure BDA0002530455600004611
Figure BDA0002530455600004621
Figure BDA0002530455600004631
Figure BDA0002530455600004641
Figure BDA0002530455600004651
Figure BDA0002530455600004661
Figure BDA0002530455600004671
Figure BDA0002530455600004681
Figure BDA0002530455600004691
Figure BDA0002530455600004701
Figure BDA0002530455600004711
Figure BDA0002530455600004721
Figure BDA0002530455600004731
Figure BDA0002530455600004741
Figure BDA0002530455600004751
Figure BDA0002530455600004761
Figure BDA0002530455600004771
Figure BDA0002530455600004781
Figure BDA0002530455600004791
Figure BDA0002530455600004801
Figure BDA0002530455600004811
Figure BDA0002530455600004821
Figure BDA0002530455600004831
Figure BDA0002530455600004841
Figure BDA0002530455600004851
Figure BDA0002530455600004861
Figure BDA0002530455600004871
Figure BDA0002530455600004881
Figure BDA0002530455600004891
Figure BDA0002530455600004901
Figure BDA0002530455600004911
Figure BDA0002530455600004921
Figure BDA0002530455600004931
Figure BDA0002530455600004941
Figure BDA0002530455600004951
Figure BDA0002530455600004961
Figure BDA0002530455600004971
Figure BDA0002530455600004981
Figure BDA0002530455600004991
Figure BDA0002530455600005001
Figure BDA0002530455600005011
Figure BDA0002530455600005021
Figure BDA0002530455600005031
Figure BDA0002530455600005041
Figure BDA0002530455600005051
Figure BDA0002530455600005061
Figure BDA0002530455600005071
Figure BDA0002530455600005081
Figure BDA0002530455600005091
Figure BDA0002530455600005101
Figure BDA0002530455600005111
Figure BDA0002530455600005121
Figure BDA0002530455600005131
Figure BDA0002530455600005141
Figure BDA0002530455600005151
Figure BDA0002530455600005161
Figure BDA0002530455600005171
Figure BDA0002530455600005181
Figure BDA0002530455600005191
Figure BDA0002530455600005201
Figure BDA0002530455600005211
Figure BDA0002530455600005221
Figure BDA0002530455600005231
Figure BDA0002530455600005241
Figure BDA0002530455600005251
Figure BDA0002530455600005261
Figure BDA0002530455600005271
Figure BDA0002530455600005281
Figure BDA0002530455600005291
Figure BDA0002530455600005301
Figure BDA0002530455600005311
Figure BDA0002530455600005321
Figure BDA0002530455600005331
Figure BDA0002530455600005341
Figure BDA0002530455600005351
Figure BDA0002530455600005361
Figure BDA0002530455600005371
Figure BDA0002530455600005381
Figure BDA0002530455600005391
Figure BDA0002530455600005401
Figure BDA0002530455600005411
Figure BDA0002530455600005421
Figure BDA0002530455600005431
Figure BDA0002530455600005441
Figure BDA0002530455600005451
Figure BDA0002530455600005461
Figure BDA0002530455600005471
Figure BDA0002530455600005481
Figure BDA0002530455600005491
Figure BDA0002530455600005501
Figure BDA0002530455600005511
Figure BDA0002530455600005521
Figure BDA0002530455600005531
Figure BDA0002530455600005541
Figure BDA0002530455600005551
Figure BDA0002530455600005561
Figure BDA0002530455600005571
Figure BDA0002530455600005581
Figure BDA0002530455600005591
Figure BDA0002530455600005601
Figure BDA0002530455600005611
Figure BDA0002530455600005621
Figure BDA0002530455600005631
Figure BDA0002530455600005641
Figure BDA0002530455600005651
Figure BDA0002530455600005661
Figure BDA0002530455600005671
Figure BDA0002530455600005681

Claims (40)

1.一种检测疑似患有癌症的受试者中的生物标志物的集合的甲基化模式的方法,所述方法包括:
a)用脱氨基剂处理经提取的基因组DNA以产生包含脱氨基的核苷酸的基因组DNA样品,其中所述经提取的基因组DNA从来自疑似患有癌症的所述受试者的生物样品获得;和
b)通过使所述经提取的基因组DNA与探针的集合接触,检测来自所述经提取的基因组DNA的选自表1、表2、表7、表8、表13、表14或表20的一种或更多种生物标志物的甲基化模式,其中所述探针的集合与所述一种或更多种生物标志物杂交,并且进行DNA测序分析以确定所述一种或更多种生物标志物的甲基化模式。
2.如权利要求1所述的方法,其中所述检测包括基于探针的实时定量PCR或基于探针的数字PCR。
3.如权利要求2所述的方法,其中所述基于探针的数字PCR是数字液滴PCR。
4.如权利要求1所述的方法,其中所述探针的集合包括锁式探针的集合。
5.如权利要求1所述的方法,其中步骤b)包括检测选自表2、表13、表14或表20的一种或更多种生物标志物的甲基化模式。
6.如权利要求1所述的方法,其中步骤b)包括检测选自以下的一种或更多种生物标志物的甲基化模式:cg19516279,cg06100368,cg25945732,cg19155007,cg17952661,cg04072843,cg01250961,cg08131100,cg03788131,cg17528648,cg07784526,cg18948743,cg23986470,cg00846300,cg01029638,cg08350814,cg05098590,cg18085998,cg06532037,cg15313226,cg16232979,cg26149167,cg01237565,cg16561543,cg13771313,cg13771313,cg08169020,cg08169020,cg21153697,cg07326648,cg14309384,cg20923716,cg09095222,cg22220310,cg21950459,cg13332729,cg10802543,cg20707333,cg13169641,cg25352342,cg09921682,cg02504622,cg17373759,cg06547203,cg06826710,cg00902147,cg17609887,cg15721142,cg08116711,cg00736681,cg18834029,cg06969479,cg24630516,cg16901821,cg20349803,cg23610994,cg19313373,cg16508600,cg24096323,cg24746106,cg12288267,cg10430690,cg24408776,cg05630192,cg12028674,cg24820270,cg12028674,cg26718707,cg10349880,cg09921682,cg25934700,cg14164596,cg24461337,cg23041410,cg07366553,cg26859666,cg06405341,cg08557188,cg00690392,cg03421440,cg07077277或cg20702527。
7.如权利要求1所述的方法,其中所述受试者疑似患有乳腺癌,并且步骤b)包括检测选自以下的一种或更多种生物标志物的甲基化模式:cg19516279、cg06100368、cg20349803、cg23610994、cg19313373、cg16508600或cg24096323。
8.如权利要求7所述的方法,其中如果:
cg标志物cg19516279和cg06100368中的至少一种是超甲基化的;
cg标志物cg20349803、cg23610994、cg19313373、cg16508600和cg24096323中的至少一种是低甲基化的;或
其组合,则所述受试者被确定患有乳腺癌。
9.如权利要求1所述的方法,其中所述受试者疑似患有肝癌,并且步骤b)包括检测选自以下的一种或更多种生物标志物的甲基化模式:cg25945732、cg19155007、cg17952661、cg25934700、cg14164596、cg24461337、cg23041410、cg07366553、cg26859666或cg00456086。
10.如权利要求9所述的方法,其中如果:
cg标志物cg25945732、cg19155007或cg17952661中的至少一种是超甲基化的;
cg标志物cg25934700、cg14164596、cg24461337、cg23041410、cg07366553、cg26859666或cg00456086中的至少一种是低甲基化的;或
其组合,则所述受试者被确定患有肝癌。
11.如权利要求1所述的方法,其中所述受试者疑似患有肝癌,并且步骤b)包括检测选自以下的一种或更多种生物标志物的甲基化模式3-49757316,8-27183116,8-141607252,17-29297711,3-49757306,19-43979341,8-141607236,5-176829755,18-13382140,15-65341965,3-13152305,17-29297770,8-27183316,5-176829740,19-41316693,18-43830649,15-65341957,20-44539531,7-30265625,2-131129567,5-176829665,3-13152273,8-27183348,3-49757302,19-41316697,8-61821442,20-44539525,10-102883105,11-65849129,5-176829639,15-91129457,2-1625431,6-151373292,6-151373294,20-25027093,6-14284198,10-4049295,19-59023222,1-184197132,2-131004117,2-8995417,12-10782319,20-25027033,6-151373256,8-86100970,9-4839459,17-41221574,1-153926715,20-25027044,20-20177325,2-1625443,20-25027085,11-69420728,1-229234865,6-13408877,22-50643735,6-151373308,1-232119750,8-134361508或6-13408858。
12.如权利要求11所述的方法,其中如果:
标志物3-49757316,8-27183116,8-141607252,17-29297711,3-49757306,19-43979341,8-141607236,5-176829755,18-13382140,15-65341965,3-13152305,17-29297770,8-27183316,5-176829740,19-41316693,18-43830649,15-65341957,20-44539531,7-30265625,2-131129567,5-176829665,3-13152273,8-27183348,3-49757302,19-41316697,8-61821442,20-44539525,10-102883105,11-65849129或5-176829639中的至少一种是超甲基化的;
标志物15-91129457,2-1625431,6-151373292,6-151373294,20-25027093,6-14284198,10-4049295,19-59023222,1-184197132,2-131004117,2-8995417,12-10782319,20-25027033,6-151373256,8-86100970,9-4839459,17-41221574,1-153926715,20-25027044,20-20177325,2-1625443,20-25027085,11-69420728,1-229234865,6-13408877,22-50643735,6-151373308,1-232119750,8-134361508或6-13408858中的至少一种是低甲基化的;或
其组合,则所述受试者被确定患有肝癌。
13.如权利要求1所述的方法,其中所述受试者疑似患有卵巢癌,并且步骤b)包括检测选自以下的一种或更多种生物标志物的甲基化模式:cg04072843、cg01250961、cg24746106、cg12288267或cg10430690。
14.如权利要求13所述的方法,其中如果:
cg标志物cg04072843和cg01250961中的至少一种是超甲基化的;
cg标志物cg24746106、cg12288267和cg10430690中的至少一种是低甲基化的;或
其组合,则所述受试者被确定患有卵巢癌。
15.如权利要求1所述的方法,其中所述受试者疑似患有结肠直肠癌,并且步骤b)包括检测选自以下的一种或更多种生物标志物的甲基化模式:
cg08131100,cg03788131,cg17528648,cg07784526,cg18948743,cg23986470,cg00846300,cg25352342,cg09921682,cg02504622,cg17373759,cg12028674,cg24820270,cg12028674,cg26718707,cg10349880和cg09921682。
16.如权利要求15所述的方法,其中如果:
cg标志物cg08131100、cg03788131、cg17528648、cg07784526、cg18948743、cg23986470或cg00846300中的至少一种是超甲基化的;
cg标志物cg25352342、cg09921682、cg02504622、cg17373759、cg12028674、cg24820270、cg12028674、cg26718707、cg10349880或cg09921682中的至少一种是低甲基化的;或
其组合,则所述受试者被确定具有结肠直肠癌。
17.如权利要求1所述的方法,其中所述受试者疑似患有结肠直肠癌,并且步骤b)包括检测选自以下的一种或更多种生物标志物的甲基化模式:cg10673833、cg10493436、cg10428836、cg27284288、cg16959747、cg17494199、cg23678254、cg24067911或cg25459300。
18.如权利要求1所述的方法,其中所述受试者疑似患有结肠直肠癌,并且步骤b)包括检测选自以下的一种或更多种生物标志物的甲基化模式:
cg05205843,cg11841704,cg06699564,cg08924619,cg11959316,cg08924619,cg06699564,cg01824933,cg08924619,cg05205842,cg08924619,cg04049981,cg09026722,cg03616722,cg08924619,cg05928904,cg08704934,cg09776772,cg17494199,cg01824933,cg16296417,cg09776772,cg09776772,cg05338167,cg10493436,cg011251410,cg16391792,cg06393830,cg09366118,cg22513455,cg17583432,cg23881926,cg09638208,cg12441066,cg27284288,cg04441857,cg17583432,cg10673833,cg19757176,cg08670281,cg17583432,cg04460364,cg16959747,cg15011734或cg25754195。
19.如权利要求18所述的方法,其中如果:
cg标志物cg06393830,cg09366118,cg22513455,cg17583432,cg23881926,cg09638208,cg12441066,cg27284288,cg04441857,cg17583432,cg10673833,cg19757176,cg08670281,cg17583432,cg04460364,cg16959747,cg15011734或cg25754195中的至少一种是超甲基化的;
cg标志物cg05205843,cg11841704,cg06699564,cg08924619,cg11959316,cg08924619,cg06699564,cg01824933,cg08924619,cg05205842,cg08924619,cg04049981,cg09026722,cg03616722,cg08924619,cg05928904,cg08704934,cg09776772,cg17494199,cg01824933,cg16296417,cg09776772,cg09776772,cg05338167,cg10493436,cg011251410或cg16391792中的至少一种是低甲基化的;或
其组合,则所述受试者被确定患有结肠直肠癌。
20.如权利要求1所述的方法,其中所述受试者疑似患有前列腺癌,并且步骤b)包括检测选自以下的一种或更多种生物标志物的甲基化模式:
cg01029638,cg08350814,cg05098590,cg18085998,cg06532037,cg15313226,cg16232979,cg26149167,cg06547203,cg06826710,cg00902147,cg17609887或cg15721142。
21.如权利要求20所述的方法,其中如果:
cg标志物cg01029638、cg08350814、cg05098590、cg18085998、cg06532037、cg15313226、cg16232979或cg26149167中的至少一种是超甲基化的;
cg标志物cg06547203、cg06826710、cg00902147、cg17609887或cg15721142中的至少一种是低甲基化的;或
其组合,则所述受试者被确定患有前列腺癌。
22.如权利要求1所述的方法,其中所述受试者疑似患有胰腺癌,并且步骤b)包括检测选自以下的一种或更多种生物标志物的甲基化模式:cg01237565、cg16561543和cg08116711。
23.如权利要求22所述的方法,其中如果:
cg标志物cg01237565或cg16561543中的至少一种是超甲基化的;
cg标志物cg08116711是低甲基化的;或
其组合,则所述受试者被确定患有胰腺癌。
24.如权利要求1所述的方法,其中所述受试者疑似患有急性髓性白血病,并且步骤b)包括检测选自以下的一种或更多种生物标志物的甲基化模式:cg13771313、cg13771313和cg08169020。
25.如权利要求1所述的方法,其中所述受试者疑似患有宫颈癌,并且步骤b)包括检测选自以下的一种或更多种生物标志物的甲基化模式:cg08169020、cg21153697、cg07326648、cg14309384、cg20923716、cg22220310、cg21950459、cg13332729、cg10802543、cg20707333或cg13169641。
26.如权利要求25所述的方法,其中如果:
cg标志物cg08169020、cg21153697、cg07326648、cg14309384或cg20923716中的至少一种是超甲基化的;
cg标志物cg22220310、cg21950459、cg13332729、cg10802543、cg20707333或cg13169641中的至少一种是低甲基化的;或
其组合,则所述受试者被确定患有宫颈癌。
27.如权利要求1所述的方法,其中所述受试者疑似患有肉瘤,并且步骤b)包括检测选自以下的一种或更多种生物标志物的甲基化模式:cg09095222。
28.如权利要求27所述的方法,其中如果至少cg标志物cg09095222是超甲基化的,则所述受试者被确定患有肉瘤。
29.如权利要求1所述的方法,其中所述受试者疑似患有胃癌,并且步骤b)包括检测选自以下的一种或更多种生物标志物的甲基化模式:cg00736681和cg18834029。
30.根据权利要求29所述的方法,其中如果cg标志物cg00736681或cg18834029中的至少一种是低甲基化的,则所述受试者被确定患有胃癌。
31.如权利要求1所述的方法,其中所述受试者疑似患有甲状腺癌,并且步骤b)包括检测选自以下的一种或更多种生物标志物的甲基化模式:cg06969479、cg24630516和cg16901821。
32.如权利要求31所述的方法,其中如果cg标志物cg06969479、cg24630516或cg16901821中的至少一种是低甲基化的,则所述受试者被确定患有甲状腺癌。
33.如权利要求1所述的方法,其中所述受试者疑似患有间皮瘤,并且步骤b)包括检测选自以下的一种或更多种生物标志物的甲基化模式:cg05630192。
34.如权利要求33所述的方法,其中如果cg标志物cg05630192是低甲基化的,则所述受试者被确定患有间皮瘤。
35.如权利要求1所述的方法,其中所述受试者疑似患有胶质母细胞瘤,并且步骤b)包括检测选自以下的一种或更多种生物标志物的甲基化模式:cg06405341。
36.如权利要求1所述的方法,其中所述受试者疑似患有肺癌,并且步骤b)包括检测选自以下的一种或更多种生物标志物的甲基化模式:cg08557188、cg00690392、cg03421440或cg07077277。
37.如权利要求36所述的方法,其中如果cg标志物cg08557188、cg00690392、cg03421440或cg07077277中的至少一种是低甲基化的,则所述受试者被确定患有肺癌。
38.如权利要求1所述的方法,其中所述生物样品是血液样品、尿液样品、唾液样品、汗液样品或泪液样品。
39.如权利要求1所述的方法,其中所述生物样品是无细胞DNA样品。
40.如权利要求1所述的方法,其中所述生物样品包含循环肿瘤细胞。
CN201880079486.9A 2017-10-06 2018-10-05 用于诊断癌症的甲基化标志物 Active CN111742062B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201762569459P 2017-10-06 2017-10-06
US62/569,459 2017-10-06
US201862673593P 2018-05-18 2018-05-18
US62/673,593 2018-05-18
PCT/US2018/054660 WO2019071161A1 (en) 2017-10-06 2018-10-05 METHYLATION MARKERS FOR THE DIAGNOSIS OF CANCER

Publications (2)

Publication Number Publication Date
CN111742062A true CN111742062A (zh) 2020-10-02
CN111742062B CN111742062B (zh) 2023-11-17

Family

ID=65994841

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880079486.9A Active CN111742062B (zh) 2017-10-06 2018-10-05 用于诊断癌症的甲基化标志物

Country Status (5)

Country Link
US (2) US20200277677A1 (zh)
EP (1) EP3692164B1 (zh)
CN (1) CN111742062B (zh)
BR (1) BR112020006912A2 (zh)
WO (1) WO2019071161A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024140338A1 (zh) * 2022-12-27 2024-07-04 广州优泽生物技术有限公司 一种用于检测早期消化道肿瘤的双标记物组合物及其用途
CN118421799A (zh) * 2024-05-28 2024-08-02 南通大学 一组与肺腺癌相关的特异性甲基化诊断标志物及其应用

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3481951A4 (en) * 2016-07-06 2020-08-05 Youhealth Biotech, Limited COLON CANCER SPECIFIC METHYLATION MARKERS AND USES OF THESE MARKERS
WO2018009703A1 (en) * 2016-07-06 2018-01-11 Youhealth Biotech, Limited Breast and ovarian cancer methylation markers and uses thereof
US12359258B2 (en) 2016-07-06 2025-07-15 Helio Health Inc. Lung cancer methylation markers and uses thereof
US10093986B2 (en) 2016-07-06 2018-10-09 Youhealth Biotech, Limited Leukemia methylation markers and uses thereof
US12359257B2 (en) * 2016-07-06 2025-07-15 Helio Health Inc. Liver cancer methylation markers and uses thereof
CN110197474B (zh) * 2018-03-27 2023-08-25 腾讯科技(深圳)有限公司 图像处理方法和装置及神经网络模型的训练方法
CN110724743B (zh) * 2019-11-15 2021-02-26 广州市基准医疗有限责任公司 人血液中结直肠癌诊断相关的甲基化生物标记物及其应用
CN110747274B (zh) * 2019-11-18 2023-12-22 中山大学肿瘤防治中心 用于诊断、预测结直肠癌疗效和预后的基因甲基化面板及试剂盒
CN111009290B (zh) * 2019-12-12 2023-10-31 中国人民解放军总医院 高原适应性检测模型的训练方法、适应性识别方法和装置
US20230042332A1 (en) 2019-12-24 2023-02-09 Vib Vzw Disease Detection in Liquid Biopsies
CA3178302A1 (en) * 2020-03-31 2021-10-07 Freenome Holdings, Inc. Methods and systems for detecting colorectal cancer via nucleic acid methylation analysis
CN112391466B (zh) * 2020-05-19 2025-09-05 广州市基准医疗有限责任公司 用于检测乳腺癌的甲基化生物标记物或其组合和应用
CN112430657B (zh) * 2020-10-27 2022-09-09 哈尔滨医科大学 结直肠癌相关的甲基化标志物以及用于检测结直肠癌的试剂盒
CN112501293B (zh) * 2020-11-17 2022-06-14 圣湘生物科技股份有限公司 一种用于检测肝癌的试剂组合,试剂盒及其用途
CN112899359B (zh) * 2021-01-27 2023-06-23 广州市基准医疗有限责任公司 用于肺结节良恶性检测的甲基化标记物或其组合及应用
US20240209453A1 (en) * 2021-04-21 2024-06-27 Helio Health Inc. Liver cancer methylation and protein markers and their uses
CN117957331A (zh) * 2021-10-15 2024-04-30 富士胶片株式会社 用于癌检测的生物标志物组的制作方法
EP4234720A1 (en) * 2022-02-25 2023-08-30 Consejo Superior de Investigaciones Cientificas Epigenetic biomarkers for the diagnosis of thyroid cancer
CN116200497A (zh) * 2022-03-09 2023-06-02 浙江高美生物科技有限公司 人类宫颈细胞的甲基化检测试剂及细胞类型判定方法
CN114908166B (zh) * 2022-04-27 2025-04-22 哈尔滨医科大学 一组与结直肠癌相关的特异性甲基化标志物及其检测试剂盒
CN118389691A (zh) * 2022-06-29 2024-07-26 广州市基准医疗有限责任公司 用于诊断胃癌的甲基化生物标记物组合、试剂盒及用途
CN116004834A (zh) * 2023-01-19 2023-04-25 哈尔滨医科大学 一种用于预测结肠癌免疫治疗效果的dna甲基化标记物及其应用
CN119464501B (zh) * 2025-01-14 2025-08-08 杭州联川生物技术股份有限公司 基于甲基化标志物组合诊断或预测乳腺癌的系统、设备或介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015091979A2 (en) * 2013-12-20 2015-06-25 Ait Austrian Institute Of Technology Gmbh Gene methylation based colorectal cancer diagnosis
WO2016115530A1 (en) * 2015-01-18 2016-07-21 The Regents Of The University Of California Method and system for determining cancer status
US20160219403A1 (en) * 2013-03-07 2016-07-28 Geofeedia, Inc. System and method for differentially processing a location input for content providers that use different location input formats
CN106868130A (zh) * 2014-12-24 2017-06-20 北京丽阳吉诺科技有限公司 用于结肠直肠癌中使用的生物标志物

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6017704A (en) 1996-06-03 2000-01-25 The Johns Hopkins University School Of Medicine Method of detection of methylated nucleic acid using agents which modify unmethylated cytosine and distinguishing modified methylated and non-methylated nucleic acids
US5786146A (en) 1996-06-03 1998-07-28 The Johns Hopkins University School Of Medicine Method of detection of methylated nucleic acid using agents which modify unmethylated cytosine and distinguishing modified methylated and non-methylated nucleic acids
US7700324B1 (en) 1998-11-03 2010-04-20 The Johns Hopkins University School Of Medicine Methylated CpG island amplification (MCA)
US6331393B1 (en) 1999-05-14 2001-12-18 University Of Southern California Process for high-throughput DNA methylation analysis
DE10130800B4 (de) 2001-06-22 2005-06-23 Epigenomics Ag Verfahren zum Nachweis von Cytosin-Methylierung mit hoher Sensitivität
EP1660680B1 (en) 2003-07-31 2009-03-11 Sequenom, Inc. Methods for high level multiplexed polymerase chain reactions and homogeneous mass extension reactions for genotyping of polymorphisms
GB0700374D0 (en) 2007-01-09 2007-02-14 Oncomethylome Sciences S A NDRG family methylation markers
US8911937B2 (en) 2007-07-19 2014-12-16 Brainreader Aps Method for detecting methylation status by using methylation-independent primers
KR101142131B1 (ko) * 2009-11-05 2012-05-11 (주)지노믹트리 장암 진단을 위한 장암 특이적 메틸화 마커 유전자의 메틸화 검출방법
US9994900B2 (en) * 2011-10-17 2018-06-12 King Abdullah University Of Science And Technology Composite biomarkers for non-invasive screening, diagnosis and prognosis of colorectal cancer
WO2015021263A2 (en) * 2013-08-08 2015-02-12 Temple University-Of The Commonwealth System Of Higher Education Methylation biomarkers for colorectal cancer
US10266900B2 (en) * 2013-08-14 2019-04-23 Genomictree, Inc. Method for detecting precancerous lesions
WO2018029693A1 (en) * 2016-08-10 2018-02-15 Ramot At Tel-Aviv University Ltd. Analysis of methylation status and copy number

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160219403A1 (en) * 2013-03-07 2016-07-28 Geofeedia, Inc. System and method for differentially processing a location input for content providers that use different location input formats
WO2015091979A2 (en) * 2013-12-20 2015-06-25 Ait Austrian Institute Of Technology Gmbh Gene methylation based colorectal cancer diagnosis
CN106868130A (zh) * 2014-12-24 2017-06-20 北京丽阳吉诺科技有限公司 用于结肠直肠癌中使用的生物标志物
WO2016115530A1 (en) * 2015-01-18 2016-07-21 The Regents Of The University Of California Method and system for determining cancer status

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JIUFENGWEI等: "Discovery and Validation of Hypermethylated Markers for Colorectal Cancer", 《DISEASE MARKERS》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024140338A1 (zh) * 2022-12-27 2024-07-04 广州优泽生物技术有限公司 一种用于检测早期消化道肿瘤的双标记物组合物及其用途
CN118421799A (zh) * 2024-05-28 2024-08-02 南通大学 一组与肺腺癌相关的特异性甲基化诊断标志物及其应用

Also Published As

Publication number Publication date
CN111742062B (zh) 2023-11-17
WO2019071161A1 (en) 2019-04-11
US20250115964A1 (en) 2025-04-10
BR112020006912A2 (pt) 2020-12-22
US20200277677A1 (en) 2020-09-03
EP3692164B1 (en) 2025-10-15
EP3692164A1 (en) 2020-08-12
EP3692164A4 (en) 2021-09-29

Similar Documents

Publication Publication Date Title
US20250115964A1 (en) Methylation markers for diagnosing cancer
US20250092462A1 (en) Methylation markers for diagnosing hepatocellular carcinoma and lung cancer
US10544467B2 (en) Solid tumor methylation markers and uses thereof
CN113724786B (zh) 判定癌症状态之方法及系统
US10829821B2 (en) Leukemia methylation markers and uses thereof
US12359257B2 (en) Liver cancer methylation markers and uses thereof
US12351876B2 (en) Colon cancer methylation markers and uses thereof
US11396678B2 (en) Breast and ovarian cancer methylation markers and uses thereof
US20240209453A1 (en) Liver cancer methylation and protein markers and their uses
WO2025251032A1 (en) Liver cancer methylation markers and machine models
HK40056939A (zh) 实体瘤甲基化标志物及其用途
HK1253057B (zh) 实体瘤甲基化标志物及其用途

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant