[go: up one dir, main page]

CN119546781A - 无细胞dna的表观遗传学分析 - Google Patents

无细胞dna的表观遗传学分析 Download PDF

Info

Publication number
CN119546781A
CN119546781A CN202380048129.7A CN202380048129A CN119546781A CN 119546781 A CN119546781 A CN 119546781A CN 202380048129 A CN202380048129 A CN 202380048129A CN 119546781 A CN119546781 A CN 119546781A
Authority
CN
China
Prior art keywords
sequence
cell
histone modification
dna fragments
genomic regions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202380048129.7A
Other languages
English (en)
Inventor
卢煜明
江培勇
陈君赐
汤川将之
吉璐
白金月
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Innovation Diagnostic Technology Center
Original Assignee
Innovation Diagnostic Technology Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Innovation Diagnostic Technology Center filed Critical Innovation Diagnostic Technology Center
Publication of CN119546781A publication Critical patent/CN119546781A/zh
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6809Methods for determination or identification of nucleic acids involving differential detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/154Methylation markers
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Physics & Mathematics (AREA)
  • Organic Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Genetics & Genomics (AREA)
  • Medical Informatics (AREA)
  • Immunology (AREA)
  • Molecular Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • General Engineering & Computer Science (AREA)
  • Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

测量生物样品中的无细胞DNA片段的特定序列模序的量(例如,相对频率)可用于分析生物样品。某些基因组区域中的特定序列模序或序列长度可指示组蛋白修饰。序列模序和/或长度可用于测量样品的性质(例如,组织类型的浓度分数或组织类型的特征),测量组蛋白修饰的量,基于这种测量来确定生物体的状况,以及富集生物样品的临床相关DNA。对于序列模序的相对频率,不同的组织类型可以表现出不同的模式。对无细胞DNA的序列模序的相对频率的测量可用于分析。

Description

无细胞DNA的表观遗传学分析
相关申请的交叉引用
本申请要求2022年7月29日提交的题目为“无细胞DNA的表观遗传学分析”的美国临时申请号63/393,725的优先权并且是该临时申请的非临时申请,将该临时申请的公开内容通过引用全文并入用于所有目的。
背景技术
无细胞DNA(cfDNA)是一种丰富的信息来源,其可用于诊断和预测许多生理和病理状况,例如妊娠和癌症(Chan,K.C.A.et al.(2017),New England Journal of Medicine377,513-522;Chiu,R.W.K.et al.(2008),Proceedings of the National Academy ofSciences of the United States of America 105,20458-20463;Lo,Y.M.D.et al.,(1997),The Lancet 350,485-487)。各种体液(例如,血浆,血清,尿,唾液,精液,腹腔液,脑脊液)中的无细胞DNA分子可包括源自各种组织的DNA分子的混合物。由此释放这样的cfDNA分子的一种机制是通过细胞死亡(例如细胞凋亡或坏死)。选择的细胞群,例如淋巴细胞和嗜中性粒细胞也已经显示将DNA分子分泌到体液中。cfDNA分子由片段化的DNA分子组成。cfDNA片段化模式和核小体结构之间的相关性已经在许多研究中得到了说明(Sun etal.Proc Natl Acad Sci USA.2018;115:E5106;Snyder et al.Cell.2016;164:57-68)。尽管循环cfDNA现在通常用作非侵入性生物标志物并且已知以短片段的形式循环,但是控制cfDNA的片段化和分子分布的生理因素仍然是不明晰的。
可以分析无细胞DNA以理解表观基因组状态。DNA的表观基因组状态可指示基因的调节,组织来源或疾病。组蛋白修饰的量是一种表观基因组因素。检测组蛋白修饰的常规技术包括使用特异性抗体,相对大量的样品和更复杂的样品处理。需要一种更简单和更有效的技术来确定DNA的表观基因组状态。解决了这些需要和其它需要。
发明内容
本公开内容描述了各种技术,例如测量生物体的生物样品中的序列模序的量(例如,相对频率)和无细胞DNA片段的长度,用于测量样品的性质(例如,组织类型的浓度分数或组织类型的特征),测量组蛋白修饰的量,基于这种测量确定生物体的状况,以及富集生物样品的临床相关DNA。不同的组织类型表现出不同的染色质结构模式。本公开内容提供了基于例如来自各种组织的无细胞DNA的混合物中的序列模序的相对频率和/或无细胞DNA的长度的测量来推断染色质结构的各种用途。来自特定组织之一的DNA可被称为临床相关DNA。
各种实例可定量代表DNA片段的末端序列(即末端模序)的序列模序的量。例如,实施方案可以确定用于DNA片段的末端序列的一种或多种序列模序的集合的一个或多个相对频率。在各种实施方式中,优选的末端模序的集合可以通过使用另一种技术(例如,cfChIP-seq[无细胞染色质免疫沉淀测序)来测定,以测量对象的特定区域中染色质的表观基因组状态(例如,组蛋白修饰)。优选的末端模序的集合可以基于与其它末端模序相比在具有特定表观基因组状态的一个或多个区域中更频繁地出现来选择。特定的表观基因组状态可以与特定的组织类型或临床相关的DNA有关。
在各种实施方式中,优选的集合的相对频率可用于测量新样品的性质(例如临床相关DNA的浓度分数)的分类,生物体的状况(例如胎儿的胎龄或病理水平),或表观基因组状态(例如组蛋白修饰量)的测量。因此,实施方案可以提供测量以告知生理改变,包括癌症,自身免疫性疾病,移植和妊娠。
作为进一步的实例,优选的序列末端模序的集合可用于物理富集和/或计算机模拟富集生物样品的临床相关的无细胞DNA片段。富集可以基于具有特定组蛋白修饰的一个或多个基因组区域的优选末端模序。对于某些临床相关组织,例如胎儿,肿瘤或移植物,在一个或多个基因组区域的特定组蛋白修饰可以是优选的。物理富集可以使用一种或多种探针分子,其检测序列末端模序的特定集合,使得生物样品富集临床相关的DNA片段。对于计算机模拟富集,可以鉴定一组无细胞DNA片段的序列读数,所述无细胞DNA片段具有临床相关DNA的优选末端序列的集合中的一个。可以基于对应于临床相关DNA的可能性来存储某些序列读数,其中该可能性解释了包括优选序列末端模序的序列读数。可以分析所存储的序列读数以确定生物样品的临床相关DNA的性质。
在一些实施方案中,一定长度范围内的DNA片段的量可用于确定无细胞DNA中组蛋白修饰的量。通过长度信息推断的组蛋白修饰的量可用于确定组织分数,病症等级的分类和组织或器官移植的状态。
另外,尽管特定基因组区域中的组蛋白修饰可以指示特定类型组织的DNA,但是许多基因组区域中的组蛋白修饰可以是几种不同组织的结果。使用在由几种不同组织贡献的基因组区域中的组蛋白修饰可以允许比仅使用在由单一组织产生的基因组区域中的组蛋白修饰更精确的对生物样品的分析。例如,使用由几种不同组织贡献的组蛋白修饰可导致对组织来源和病症等级的更精确的分析。
下面详细描述本公开的这些和其它实施方案。例如,其它实施方案涉及与本文描述的方法相关联的系统,装置和计算机可读介质。
参考说明书的其余部分,包括附图和请求项书,将认识到本公开内容的其它特征和优点。下面将参照附图详细描述本公开内容的其它特征和优点,以及本公开的各种实施方案的结构和操作。在附图中,相同的附图标记可以表示相同或功能相似的组件。
附图的简要说明
图1显示了DNA结构的图标。
图2显示了使用免疫沉淀来分析与组蛋白修饰相关的血浆cfDNA分子。
图3显示了片段的末端模序的图示。
图4是根据本发明的实施方案定义具有不同H3K4me3 ChIP信号水平的H3K4me3区域的类别的图。
图5是显示根据本发明实施方案的使用妊娠样品的H3K4me3ChIP-seq分析的H3K4me3区域类别的示例性定义的表。
图6显示了根据本发明实施方案的使用妊娠样品的H3K27ac ChIP-seq分析的H3K27ac区域类别的示例性定义的表。
图7是显示根据本发明实施方案的使用来自非妊娠健康对象的样品的H3K4me3ChIP-seq分析的H3K4me3区域类别的示例性定义的表。
图8是显示根据本发明实施方案的使用来自非妊娠健康对象的样品的H3K27acChIP-seq分析的H3K27ac区域类别的示例性定义的表。
图9显示了根据本发明的实施方案,针对消除了免疫沉淀的步骤的血浆DNA测序结果,具有不同水平的H3K4me3 ChIP信号的区域中模序频率的热图。
图10是根据本发明的实施方案,在具有或不具有基于H3K4me3的免疫沉淀的血浆DNA测序结果之间的末端模序频率排名的比较图。
图11显示了根据本发明实施方案的用于H3K4me3组蛋白修饰的常规cfDNA测序和cfChIP-seq之间具有最大排名差异的24个末端模序的表。
图12A和图12B说明了根据本发明的实施方案,针对在没有免疫沉淀的情况下的血浆DNA测序结果,使用末端模序模式来推断血浆DNA组蛋白修饰信号。
图13显示了根据本发明的实施方案,在基于H3K4me3的免疫沉淀血浆DNA中过度表现的末端模序的合计丰度与H3K4me3 ChIP信号之间的相关性图。
图14是显示根据本发明的实施方案,11个峰组的cfChIP信号和末端模序频率之间的相关性的图。
图15A和15B是显示根据本发明的实施方案,六个和八个峰组的cfChIP信号和末端模序频率之间的相关性的图。
图16是根据本发明的实施方案,通过末端模序推断的胎盘特异性H3K4me3区域中的H3K4me3 ChIP信号与通过基于SNP的方法确定的胎儿DNA分数之间的相关性的图。
图17是根据本发明的实施方案与确定生物样品中无细胞DNA片段的浓度分数相关的示例性过程的流程图。
图18是根据本发明的实施方案的与估计靶组织的特征的第一值相关联的示例性过程的流程图。
图19是根据本发明的实施方案与使用序列模序确定一个或多个基因组区域中组蛋白修饰的量相关的示例性过程的流程图。
图20是根据本发明的实施方案与使用片段组学性质确定一个或多个基因组区域中的组蛋白修饰的量相关的示例性过程的流程图。
图21显示了根据本发明的实施方案,应用ChIP-seq(无细胞染色质免疫沉淀,随后测序)测定来自不同组织的贡献。
图22是根据本发明的实施方案,使用末端模序,使用在肝特异性H3K4me3区域中推断的H3K4me3信号,区分具有和不具有HCC的患者的ROC曲线。
图23是根据本发明的实施方案与对病症的级别进行分类相关联的示例性过程的流程图。
图24A、24B和24C显示了根据本发明的实施方案,在不同水平的H3K27ac信号的区域类别中具有特定长度的cfDNA分子的百分比。
图25A、25B和25C显示了根据本发明实施方案,长度和组蛋白修饰的ChIP信号之间的相关性可以推广到其它组蛋白修饰。
图26A和图26B说明了根据本发明的实施方案,针对在没有免疫沉淀的情况下的血浆DNA测序结果,使用长度信息来推断血浆DNA组蛋白修饰。
图27A、27B和27C显示了根据本发明的实施方案,长度范围内cfDNA分子的百分比与对数转化的H3K4me3 ChIP信号之间的相关性。
图28A显示了根据本发明的实施方案,评价用于胎儿DNA分数推断的胎盘特异性H3K4me3区域中推断的H3K4me3 ChIP信号的性能。
图28B显示了根据本发明的实施方案,评价用于胎儿DNA分数推断的胎盘特异性H3K4me3区域中某一长度范围内的分子的性能。
图29是根据本发明的实施方案,评价用于确定胎儿DNA分数的胎盘特异性H3K27ac区域中推断的H3K27ac ChIP信号性能的图。
图30是根据本发明的实施方案,胎盘特异性区域中用DNA片段长度分布推断的H3K27ac信号的量和片段长度分布本身与通过基于SNP的方法测定的胎儿DNA分数的皮尔森相关系数的图。
图31A和图31B是显示根据本发明的实施方案,使用基于用于HCC检测的肝特异性H3K4me3区域的推断的H3K4me3 ChIP信号的图。
图32A和图32B显示了根据本发明的实施方案,使用基于用于HCC检测的H3K27ac区域的推断的H3K27ac ChIP信号。
图33是根据本发明的实施方案,用于区分患有中晚期肝细胞癌的对象与健康对象的接收器操作特征(ROC)曲线。
图34是显示根据本发明的实施方案,在肝特异性H3K27ac区域中推断的H3K27acChIP信号与供体DNA部分之间的相关性的图。
图35是根据本发明的实施方案,肝特异性区域中用DNA片段长度分布推断的H3K27ac信号的量和片段长度分布本身与通过基于SNP的方法测定的胎儿DNA分数的皮尔森相关系数的图。
图36是根据本发明的实施方案,与使用片段长度确定一个或多个基因组区域中组蛋白修饰的量相关的示例性过程的流程图。
图37显示了根据本发明实施方案的组织特异性组蛋白修饰区域的表。
图38是显示根据本发明实施方案的基于无细胞DNA的H3K4me3组蛋白修饰的血浆DNA组织作图的图。
图39显示了根据本发明的实施方案的通过H3K4me3 ChIP信号推断的胎盘贡献与根据本发明实施方案的胎儿DNA分数之间的相关性。
图40是根据本发明实施方案的基于cfDNA的H3K27ac组蛋白修饰的妊娠和非妊娠样品的不同组织的贡献百分比的图。
图41显示了根据本发明的实施方案从妊娠和非妊娠对象的H3K27ac ChIP信号推断的组织贡献的热图。
图42是根据本发明的实施方案,在各组织特异性区域上推断的H3K27ac ChIP信号的箱型图。
图43A显示了根据本发明实施方案由H3K27ac ChIP信号推断的胎盘贡献与由基于SNP的方法确定的胎儿DNA分数之间的相关性。
图43B显示了根据本发明实施方案,胎盘特异性区域中的标准化读数/kb与通过基于SNP的方法测定的胎儿DNA分数之间的相关性。
图44是根据本发明的实施方案用于区分妊娠和非妊娠对象的ROC曲线。
图45显示了根据本发明的实施方案,使用推断的结肠贡献区分对照对象和结肠直肠癌(CRC)对象的接收器操作特征(ROC)曲线。
图46A是根据本发明的实施方案,比较由H3K27ac ChIP信号推断出的在患有重型β-地中海贫血的对象和没有重型β-地中海贫血的对照对象之间的红血球母细胞贡献的图。
图46B是根据本发明的实施方案,使用推断的红血球母细胞贡献来区分患有和没有重型β-地中海贫血的对象的ROC曲线。
图47是根据本发明的实施方案,使用患有重型β-地中海贫血的对象和对照对象中的H3K27ac ChIP信号推断的组织贡献的热图。
图48A、48B和48C显示了根据本发明的实施方案,通过ddPCR测定确定的红系细胞DNA百分比与通过H3K27ac信号测定的红血球母细胞贡献之间的相关性。
图49A和49B是根据本发明的实施方案,在健康对象,结肠直肠癌(CRC)但没有肝转移的对象,以及CRC和肝转移的对象中推断的H3K27ac信号的图。
图50是根据本发明的实施方案,使用无细胞DNA的H3K27ac组蛋白修饰的尿和血浆DNA样品中的组织贡献的图。
图51是根据本发明的实施方案,与确定组织类型的浓度分数相关的示例性过程的流程图。
图52是根据本发明的实施方案,与确定妊娠或疾病的分类相关联的示例性过程的流程图。
图53显示了根据本发明的实施方案,用于确定癌症分类的机器学习模型中的输入特征。
图54A和54B显示了根据本发明的实施方案,用于确定癌症分类的机器学习模型的结果。
图55显示了根据本发明的实施方案,使用具有不同片段组学性质的机器学习模型区分肝细胞癌(HCC)和非HCC病例的曲线下面积(AUC)结果。
图56是根据本发明的实施方案,与分析对象的生物样品以确定对象的状况的分类相关的示例性过程的流程图。
图57是根据本发明的实施方案,与富集生物样品的临床相关DNA相关的示例性过程的流程图。
图58是根据本发明的实施方案,与富集生物样品的临床相关DNA相关的示例性过程的流程图。
图59显示了根据本发明实施方案的测量系统。
图60显示了与根据本发明的实施方案的系统和方法一起使用的示例性计算机系统的框图。
术语
“组织”对应于聚集一起作为功能单元的一组细胞。在单个组织中可以发现多于一种类型的细胞。不同类型的组织可由不同类型的细胞(例如肝细胞,肺泡细胞或血细胞)组成,但也可对应于来自不同生物体(母亲对胎儿)的组织或对应于健康细胞比肿瘤细胞。
“生物样品”是指取自对象(例如,人(或其它动物),例如孕妇、患有癌症的人,或怀疑患有癌症的人、器官移植接受者或怀疑患有涉及器官的疾病过程(例如,心肌梗死中的心脏,或中风中的脑,或贫血中的造血系统)的对象,并且含有一种或多种感兴趣的核酸分子的任何样品。生物样品可以是体液,例如血液,血浆,血清,尿液,阴道液,来自阴囊(例如睾丸的腹水)的液体,阴道冲洗液,胸腔液,腹水,脑脊液,唾液,汗液,泪液,痰液,支气管肺泡灌洗液,来自乳头的排出液体,来自身体的不同部分(例如,甲状腺,乳房)的吸出液体,眼内液体(例如房水)等。也可使用粪便样品。在各种实施方案中,已经针对无细胞DNA进行富集的生物样品(例如,通过离心方案获得的血浆样品)中的大部分DNA可以是无细胞的,例如,大于50%、60%、70%、80%、90%、95%或99%的DNA可以是无细胞的。离心方案可包括例如3,000g×10分钟,获得液体部分,并在例如16,000g下再离心10分钟以除去残余细胞。作为生物样品分析的一部分,可以分析至少1,000个无细胞DNA分子。作为其它实例,可以分析至少10,000或50,000或100,000或500,000或1,000,000或5,000,000个无细胞DNA分子或更多。
“临床相关DNA”可指待测量的特定组织来源的DNA,例如,以确定此类DNA的浓度分数或分类样品(例如,血浆)的表型。临床相关DNA的实例是母体血浆中的胎儿DNA或患者血浆中的肿瘤DNA或具有无细胞DNA的其它样品。另一个实例包括测量移植患者的血浆,血清或尿液中的移植物相关DNA的量。另一个实例包括测量对象血浆中造血和非造血DNA的浓度分数,或样品中肝DNA片段(或其它组织)的浓度分数,或脑脊液中脑DNA片段的浓度分数。
“序列读数”是指从核酸分子的任何部分或全部测序的一串核苷酸。例如,序列读取可以是从核酸片段测序的核苷酸的短串(例如,20-150个核苷酸),在核酸片段的一端或两端的核苷酸的短串,或存在于生物样品中的整个核酸片段的测序。序列读数可以以多种方式获得,例如使用测序技术或使用探针,例如在杂交数组或捕获探针中,或扩增技术,例如聚合酶链式反应(PCR)或使用单一引物的线性扩增或等温扩增。作为生物样品分析的一部分,可以分析至少1,000个序列读数。作为其它实例,可以分析至少10,000或50,000或100,000或500,000或1,000,000或5,000,000个序列读数或更多。
序列读数可以包括与片段的末端相关联的“末端序列”。末端序列可对应于片段的最外的N个碱基,例如片段末端的2-30个碱基。如果序列读数对应于整个片段,则序列读数可以包括两个末端序列。当配对末端测序提供对应于片段末端的两个序列读数时,每个序列读数可以包括一个末端序列。
“序列末端标签”的“序列模序”可以指核酸片段(例如,无细胞DNA片段)中的碱基的短的重复模式。序列模序可以出现在片段的末端,因此是末端序列的一部分或包括末端序列。“末端模序”可指优选出现在可能是特定类型的组织的核酸(例如DNA片段)的末端的末端序列的序列模序。末端模序也可以出现在片段的末端之前或之后,从而仍然对应于末端序列。
术语“胎儿DNA浓度分数”与术语“胎儿DNA比例”和“胎儿DNA分数”可互换使用,并且是指存在于衍生自胎儿的生物样品(例如母体血浆或血清样品)中的胎儿DNA分子的比例(Lo et al,Am J Hum Genet.1998;62:768-775;Lun et al,Clin Chem.2008;54:1664-1672)。
“相对频率”(也仅称为“频率”)可指比例(例如,百分比、分数或浓度)。特别地,特定末端模序对(例如,A<>A)的相对频率可以提供具有该特定末端序列对的无细胞DNA片段的比例。
“合计值”可以指例如一组末端模序的相对频率的集合属性。实例包括平均值,中值,相对频率之和,相对频率之间的变化(例如,熵,标准偏差(SD),变化系数(CV),四分位间范围(IQR)或不同相对频率之间的某一百分位截止值(例如,第95或第99百分位),或与相对频率的参考模式的差(例如,距离),如可以在聚类中实现的。作为另一实例,合计值可包含相对频率的数组/向量,其可与参考向量(例如,表示多维数据点)进行比较。
“校准样品”可对应于生物样品,其临床相关核酸(例如,组织特异性DNA部分)的浓度分数是已知的或通过校准方法测定的,例如,使用组织特异性等位基因,例如在移植中,由此存在于供体基因组中但不存在于受体基因组中的等位基因可用作移植器官的标志物。作为另一个实例,校准样品可以对应于可以从中确定末端模序的样品。校准样品可用于两个目的。可以使用多个校准样品。作为一个实例,第一校准样品可以对应于生物样品,其在各种目的基因组区域上具有可测量的组蛋白修饰水平。第二校准样品可以对应于生物样品,其在各种目的基因组区域具有可测量的片段组学性质。第一和第二校准采样可以一起用于确定校准值。
“校准数据点”包括“校准值”和靶组织类型或临床相关核酸(例如,特定组织类型的DNA)的浓度分数的测量的或已知的特征值。校准值可以由从样品的核酸分子测量的各种类型的数据确定,例如,末端模序的量或片段长度。校准值对应于与所需性质相关的参数,例如靶组织类型的特征值或临床相关DNA的浓度分数。例如,可以从为校准样品确定的末端卷标的相对频率(例如,合计值)来确定校准值,对于该校准样品,期望的性质是已知的。校准数据点可以以多种方式定义,例如,作为离散点或作为校准函数(也称为校准曲线或校准面)。校准函数可以从校准数据点的附加数学变换中汇出。在一些实施方案中,“校准数据点”可以包括“校准值”和一组感兴趣的基因组区域的测量的或已知的特征值(例如,片段组学性质)(例如,特征在于某些水平的组蛋白修饰)。
“分离值”对应于涉及两个值(例如两个分数贡献或两个甲基化水平)的差值或比值。分离值可以是简单的差值或比值。作为实例,x/y的直接比值是分离值,x/(x+y)也是一样。分离值可以包括其它因子,例如乘法因子。作为其它实例,可以使用值的函数的差值或比值,例如两个值的自然对数(ln)的差值或比值。分离值可以包括差值或比值。
“分离值”和“合计值”(例如,相对频率的)是提供在不同分类(状态)之间变化的样品的测量值的参数(也称为度量)的两个示例,因此可用于确定不同的分类。合计值可以是分离值,例如,当在样品的一组相对频率和参考组的相对频率之间取得差时,这可以在聚类中进行。
本文所用的术语“分类”是指与样品的特定性质相关联的任何数字或其它字符。例如,“+”符号(或词“正”)可以表示样品被分类为具有缺失或扩增。分类可以是二进制的(例如,正的或负的)或具有更多的分类级别(例如,从1到10或0到1的标度)。作为进一步的实例,分类级别可对应于例如样品或靶组织类型的浓度分数或特征值。
本文所用的术语“参数”是指表征定量数据集和/或定量数据集之间的数值关系的数值。例如,第一核酸序列的第一量与第二核酸序列的第二量之间的比值(或比值的函数)是参数。
术语“截止值”和“阈值”是指在操作中使用的预定数字。例如,截止长度可以是指高于该长度的片段被排除的长度。阈值可以是这样的值,在其上或其下应用特定的分类。这些术语中的任一个可以在这些上下文的任一个中使用。截止值或阈值可以是“参考值”或从代表特定分类或区分两个或更多个分类的参考值汇出。这样的参考值可以以各种方式确定,如本领域技术人员将理解的。例如,可以为具有不同已知分类的对象的两个不同群组确定度量(参数),并且可以选择参考值作为一个分类(例如,平均值)或度量的两个簇之间的值(例如,被选择以获得期望的灵敏度和特异性)的代表。作为另一个例子,可以基于样品的统计模拟来确定参考值。可以基于期望的精确度(例如,灵敏度和特异性)来确定截止值,阈值,参考值等的特定值。可以将参数与截止值,阈值,参考值或校准值进行比较以确定分类。可以作为训练机器学习模型的一部分来进行用于确定这样的值的这种过程,例如,所述机器学习模型接收一个或多个参数的集合的训练向量。并且参数与这些值中的任一个的比较可以通过将参数输入到机器学习模型中来实现,所述机器学习模型例如使用从其他对象确定的参数值来训练,所述其他对象例如具有或不具有状况,异常或病理的对象或具有已知参数值(例如校准值)的对象。
术语“癌症等级”可指是否存在癌症(即,存在或不存在)、癌症的阶段、肿瘤的长度、是否存在转移、身体的总肿瘤负担、癌症对治疗的回应和/或癌症的严重程度的其他测量值(例如,癌症的复发)。癌症等级可以是许多或其它标记,例如符号,字母和颜色。该等级可以是零。癌症等级还可以包括恶化钱或癌前状况(状态)。癌症等级可以以各种方式使用。例如,筛查可以检查癌症是否存在于以前不知道患有癌症的人中。评估可调查已被诊断患有癌症的人以监测癌症随时间的进展,研究治疗的有效性或确定预后。在一个实施方案中,预后可表示为患者死于癌症的机会,或癌症在特定持续时间或时间后进展的机会,或癌症转移的机会或程度。检测可以指‘筛查’或可以指检查具有癌症的暗示特征(例如,症状或其它阳性测试)的某人是否患有癌症。“疾病等级”类似于“癌症等级”,但可以指疾病而不是癌症。
“异常等级”可指与生物体相关的异常的量、程度或严重程度,其中所述等级可如上文针对癌症所述。异常的实例是与生物体相关的病理学。异常的另一个实例是移植器官的排斥。异常的其它实例可包括自身免疫攻击(例如,损伤肾的狼疮性肾炎或多发性硬化)、炎性疾病(例如,肝炎)、纤维化过程(例如,肝硬化)、脂肪浸润(例如,脂肪肝病)、退化过程(例如,阿尔茨海默病)和缺血性组织损伤(例如,心肌梗塞或中风)。对象的健康状态可以被认为是正常的分类。
术语“胎龄”可以指从女性最后一个月经期(LMP)开始测量的妊娠年龄的量度,或如通过更精确的方法(如果可用的话)估计的相应的怀孕年龄。这种方法包括从受精(可能在体外受精中)增加14天至已知的持续时间或通过产科超声检查。
“妊娠相关病症”包括特征在于母体和/或胎儿组织中基因的异常相对表达水平或母亲和/或胎儿中异常临床特征的任何病症。这些病症包括但不限于先兆子痫(Kaartokallio et al.Sci Rep.2015;5:14107;Medina-Bastidas et al.Int J MolSci.2020;21:3597),宫内生长受限(Faxén et al.Am J Perinatol.1998;15:9-13;Medina-Bastidas et al.Int J Mol Sci.2020;21:3597),侵入性胎盘形成,早产(Enquobahrie et al.BMC Pregnancy Childbirth.2009;9:56),新生儿溶血病,胎盘功能不全(Kelly et al.Endocrinology.2017;158:743-755),胎儿水肿(Magor etal.Blood.2015;125:2405-17),胎儿畸形(Slonim et al.Proc Natl Acad Sci USA.2009;106:9425-9),HELLP综合征(Dijk et al.J Clin Invest.2012;122:4003-4011),系统性红斑狼疮(Hong et al.J Exp Med.2019;216:1154-1169),以及母亲的其它免疫疾病。
“位点”(也称为“基因组位点”)对应于单个位点,其可以是单个碱基位置或一组相关碱基位置,例如CpG位点或更大组的相关碱基位置。“基因座”可对应于包括多个位点的区域。基因座可以仅包括一个位点,这将使得该基因座与该上下文中的位点等同。
术语“约”或“近似地”可以是指在由本领域普通技术人员确定的特定值的可接受的误差范围内,这将部分地取决于如何测量或确定该值,即测量系统的限制。例如,“约”可以指根据本领域的实践,1个或多于1个标准偏差内。或者,“约”可以指给定值的至多20%、至多10%、至多5%或至多1%的范围。或者,特别是对于生物系统或过程,术语“约”或“近似地”可以指在值的一个数量级内,在5倍内,在一些形式中在2倍内。当在申请和请求项中描述特定值时,除非另有说明,否则应当假定术语“约”是指在该特定值的可接受的误差范围内。术语“约”可以具有本领域普通技术人员通常理解的含义。术语“约”可以指±10%。术语“约”可以指±5%。
在提供值的范围的情况下,应当理解,除非上下文另外清楚地规定,否则在该范围的上限和下限之间的每个居间值至下限的单位的十分之一也被具体地公开。还应理解,所提供的范围的端点包括在该范围内。在所述范围内的任何所述值或居间值与所述范围内的任何其它所述值或居间值之间的每个较小范围都涵盖在本公开内容的实施方案内。这些较小范围的上限和下限可以独立地包括在该范围内或排除在该范围外,并且其中任一个限制、两个限制都不或两个限制都包括在较小范围内的每个范围也涵盖在本公开内容内,受限于所述范围内的任何特别排除的限制。在所述范围包括限制中的一个或两个的情况下,排除那些包括的限制中的一个或两个的范围也包括在本公开内容中。
可使用标准缩写,例如bp,碱基对;kb,千碱基;pi,皮升;s或sec,秒;min,分钟;h或hr,小时;aa,氨基酸;nt,核苷酸等。
除非另有定义,否则本文使用的所有技术和科学术语具有与本公开所属领域的普通技术人员通常理解的相同的含义。尽管与本文所述的那些方法和材料类似或等同的任何方法和材料可以用于本公开内容的实施方案的实践或测试,但是现在可以描述一些潜在的和示例性的方法和材料。
详细描述
染色质(DNA和蛋白质)的不同区域的表观基因组状态可指示基因的表达活性,组织来源或疾病。组蛋白修饰是表观基因组因素的一个实例,其中具有特定表观基因组状态的组蛋白的量的测量可以用于各种方式中。检测组蛋白修饰的技术包括cfChIP-seq(无细胞染色质免疫沉淀,随后测序),其具有一些缺点。cfChIP-seq技术需要1-2ml或更多的样品,与仅进行测序时使用的数百微升或更少相比,这样的量是大的样品量。此外,与常规血浆cfDNA-seq的程序相比,cfChIP-seq使用更复杂且耗时的样品技术。在cfChIP-seq程序中,靶表观基因组与蛋白质(例如,组蛋白修饰)关联。与DNA相比,蛋白质是不稳定的。冷冻,解冻和贮藏条件对蛋白质稳定性的影响大于DNA。
本公开内容表明无细胞DNA的某些末端模序(即,天然片段化的DNA末端的序列),长度和/或其它片段组学性质与组蛋白修饰高度相关。这些末端模序的量可以指示样品中,并因此指示对象中的组蛋白修饰的量。结果,末端模序可用于指示基因的活性,组织来源或疾病,避免cfChIP-seq的缺点。分析末端模序可以使用不需要cfChIP-seq的额外步骤的测序技术。因此,本发明的实施方案可以使用少于100μl的生物样品,其可以包括约500μg的无细胞DNA。用于测序的采样处理比使用cfChIP-seq技术简单得多。样品不需要冷冻到低于-80℃的温度。样品可以被从诊所运送更远的距离到实验室。此外,分析末端模序可用于研究来自单次测量的多种不同表观基因组类型,而不是受限于与特定cfChIP-seq测定中所用的特定抗体相关联的特定组蛋白修饰。
因此,测量无细胞DNA的某些末端模序可以提供确定染色质的特定区域(例如,对应于参考基因组的特定区域)的表观基因组状态的改进技术。另外,测量某些末端模序也可以确定样品的不同性质,其中这种性质与特定区域的表观基因组状态相关,例如组织类型的浓度分数,病症的分类,胎龄,器官的营养状态,器官的长度或其它性质。这些性质可以使用从末端模序确定的表观基因组状态或直接从末端模序来确定。
样品可以在物理上或在计算机模拟上针对与某些表观基因组状态(包括组蛋白修饰)更频繁相关的某些末端模序进行富集。样品的富集可以允许更精确地测量样品的性质,测量组蛋白修饰的量,或确定生物体的状况。
I.表观基因组状态
图1显示了DNA结构的图标。细胞内的DNA是一种大结构。除DNA中的核苷酸外,DNA还被几种不同的蛋白质聚集,包括染色质重塑物,转录因子,核小体和组蛋白。组蛋白是DNA所缠绕的蛋白质。DNA通常缠绕八个组蛋白(例如,组蛋白八聚体104)。组蛋白周围的DNA的结构单位是核小体。组蛋白可携带可影响基因转录的修饰。组蛋白修饰包括甲基化和乙酰化。组蛋白修饰是表观基因组的一部分。对于不同类型的细胞,表观基因组状态是不同的。细胞内DNA和蛋白质的结构称为染色质。在染色质内,DNA本身也被甲基化。物理上打开和关闭染色质的蛋白质结构和有助于染色质结构的其它DNA修饰也是表观基因组的一部分。染色质重塑物是催化多种染色质改变反应的通用工具,包括八聚体在DNA上的滑动(核小体滑动),改变核小体DNA的构象,以及改变八聚体的组成(组蛋白变体交换)。另外,染色质重塑物可以从染色质中除去其它染色质蛋白。
组蛋白修饰在细胞中具有各种功能。一个功能是调节基因表达。基因表达可以被促进或抑制。例如,H3K4me3的量与转录活性相关。在一些情况下,组蛋白修饰可增加染色质压缩并降低转录(例如H3K36me3)。
II.测量表观基因组状态
A.使用cfChIP-seq确定的组蛋白修饰
血浆DNA池是从各种组织释放的DNA分子的混合物,其中某些分子将与伴随某些组蛋白修饰的组蛋白结合。组蛋白包括H1(接头组蛋白)、H2A/B、H3和H4(核心组蛋白)。DNA分子与组蛋白一起将形成核小体结构(Zhou et al.Nat Struct Mol Biol.2019;26:3-13)。组蛋白周围DNA的卷曲主要是由于带正电的组蛋白和DNA的带负电的磷酸主链之间的静电亲和力。组蛋白修饰包括但不限于组蛋白甲基化、乙酰化、磷酸化和泛素化等(Barth etal.Trends Biochem.Sci.2010;35:618-626)。组蛋白甲基化可在组蛋白的不同赖氨酸残基处发生。每个赖氨酸残基的甲基化可以涉及一个,两个或三个甲基,使得赖氨酸残基将分别被单甲基化、二甲基化或三甲基化。组蛋白甲基化的实例包括但不限于在组蛋白H3的N末端的赖氨酸(K)残基4的三甲基化(H3K4me3),用于转录活化的在组蛋白H3的N末端的赖氨酸(K)残基4的单甲基化(H3K4me1),用于转录失活的H3K27me3和H3K9me3,和与基因体中的转录区相关的H3K36me3。据报导,H3K9me2是在具有串联重复结构(例如卫星重复)的基因贫乏染色体区域、端粒和近着丝粒中形成异染色质的信号。组蛋白乙酰化包括但不限于H3K27ac、H3K9ac和H3K14ac等。
可以通过染色质免疫沉淀分离与具有某些修饰的组蛋白结合的血浆cfDNA分子。可以使用不同的技术分析那些免疫沉淀的血浆cfDNA分子。在一个实施方案中,可以通过DNA测序分析它们。
图2显示使用免疫沉淀分析与组蛋白修饰相关的血浆cfDNA分子。阶段204显示血液样品的血浆部分。血浆是分离的。阶段208显示血浆的组分,包括DNA,组蛋白周围的DNA和具有组蛋白修饰的组蛋白周围的DNA。与组蛋白修饰如H3K27ac相关的血浆cfDNA分子通过与H3K27ac抗体缀合的磁珠沉淀。在阶段212,显示沉淀的血浆cfDNA分子。在阶段216,制备DNA文库,并将DNA分子连接到条形码接头上。通过下一代测序(例如,Illumina NextSeq500)分析沉淀的cfDNA分子。测序读数可以与人参考基因组GRCh37(hg19)进行比对,例如使用Bowtie2(Langmead et al.Nat Methods.2012;9:357-359)。在一些实施方案中,可以使用但不限于SOAP2(Li et al.Bioinformatics.2009;25:1966-67),Burrows-WheelerAligner(BWA)(Li et al.Bioinformatics.2009;25:1754-60),BLAT(Kent.GenomeRes.2002:12:656-664),BLAST(Zhang et al.J Comput Biol.2000;7:203-14),BFAST(Homer N et al.PLoS One.2009;4:e7767),MOSAIK(Lee et al.PLoS One.2014;9:e90581)等。阶段220显示组蛋白修饰信号(y轴)与基因组位置(x轴)的关系图。在特定基因组区域的测序深度(或测序读取密度)表示在不同细胞类型的该区域存在的H3K27ac修饰的程度。在特定区域的测序深度越高,可能鉴定的H3K27ac修饰越多。如果这种H3K27ac修饰在特定区域对特定细胞类型是特异性的,则在该区域的测序深度可用于测定来自该细胞类型的携带H3K27ac的cfDNA分子的量。在一个实施方案中,测序深度可以通过测序偏差和/或由非特异性结合产生的噪声而被标准化和校正。在一些实例中,与染色质免疫沉淀测定随后测序相关的测序深度(即,ChIP-seq)可用于定义组蛋白修饰信号或ChIP信号。
B.所选择的末端模序指示组蛋白修饰
利用片段组学性质,包括但不限于血浆DNA末端模序和长度,我们开发了用于分析血浆中的组蛋白修饰而不需要免疫沉淀的新方法。与缺乏组蛋白修饰的区域相比,相对富含组蛋白修饰的区域将产生不同的片段末端模序模式。因此,片段末端模序的模式可用于推断组蛋白修饰。末端模序可以定义为在无细胞DNA片段的一端的一个或多个核苷酸。用于分析的每个片段末端的核苷酸(nt)的数目可以是,例如,但不限于,1nt、2nt、3nt、4nt、5nt、6nt、7nt、8nt、9nt和10nt或以上。血浆DNA片段长度可以用各种方法测量。在一个实施方案中,血浆DNA片段长度可以通过血浆DNA分子中存在的核苷酸的数目来测量。在另一个实施方案中,血浆DNA片段长度可以使用配对末端测序,将序列与基因组比对,然后从比对的序列的基因组坐标推断长度来测量。在实施方案中,组织或疾病特异性组蛋白修饰水平从cfDNA末端模序或长度频率等推断,使得能够监测一种或多种组织的生理学或病理学,或检测疾病状态。
具有组蛋白修饰的区域可包括但不限于重复区域、X染色体失活区域、染色质结构[例如开放和闭合的染色质结构]、假基因、CTCF、DNase I超敏位点[DHS]、主动转录区域和被动转录区域、G四联体等。例如,在具有DNase I超敏位点的区域中选择的末端模序可以用于告知与该DNase I超敏位点相关的组蛋白修饰的量。作为另一个实例,X染色体失活区域中DNA片段的长度可以告知X染色体基因的组蛋白修饰的量。
特定区域可以与特定组织类型相关联。在一些情况下,对于特定的组织类型,区域的某种性质可能更经常出现。作为实例,对于特定组织类型,开放染色质的区域(即,组蛋白之间的大间隙)可能比其他组织类型更经常出现。其它性质可包括作为重复区域、X染色体失活区域、闭合染色质结构、假基因、CTCF、DHS、主动转录区域、被动转录区域或G四联体的区域。特定区域可以与特异性的特定组织类型相关联,而不与其它组织类型相关联。在其它实施方案中,特定区域可以与几种不同的组织类型相关联。该区域性质的流行可能与特定组织类型的贡献和与该区域性质相关的特定组织的相对强度有关。解卷积可用于确定来自这些区域的组织贡献,类似于下文针对组蛋白修饰所描述的。
1.确定与组蛋白修饰相关的末端模序
不同的组蛋白修饰可赋予DNA核酸酶不同的可及性,从而导致特征性片段化。在具有特定表观遗传学状态的TSS和CpG岛中发生通过cfDNA片段化的通过核酸酶对DNA的选择性切割(Han et al.,Genome Res.2021:31:2008-2021)。无细胞DNA的片段化模式可用于推断血浆DNA分子中存在的组蛋白修饰。在实施方案中,我们分析了对感兴趣的区域内的cfDNA具有切割偏好的核酸酶,这可以通过cfDNA末端模序的模式来指示。片段末端模序可由无细胞DNA片段一端的一个或多个核苷酸定义。例如,我们确定了携带特定4聚体末端模序(总共256种类型)的cfDNA分子的比例。
图3显示了片段的末端模序的图示。每个核苷酸可以是4种核苷酸中的一种:A、C、G、T。对于4种核苷酸的末端模序,存在44种(即,256种)排列。将4聚体末端模序定义为cfDNA分子的5’末端的四个核苷酸。
可以根据ChIP信号的长度将涉及组蛋白修饰的区域分组为不同的类别。图4是定义具有不同水平的H3K4me3 ChIP信号的H3K4me3区域的类别的图。y轴是具有log10标度的H3K4me3信号。x轴显示了与H3K4me3相关的基因组区域的等级。较高的等级表示较高的信号。首先根据ChIP信号的长度对区域进行分选,然后根据经验将其分类为9个类别。
图5是使用妊娠样品的H3K4me3 ChIP-seq分析显示H3K4me3区域类别的示例性定义的表。第一列显示类别标识。第二列显示类别中区域的数量。第三列显示类别的区域中的ChIP信号的长度的百分位数范围。第四列显示类别的区域中的平均ChIP信号。如图5所示,我们根据ChIP信号强度的百分位数范围将与H3K4me3相关的区域凭经验分类为9个类别。区域的ChIP信号的强度可以是经过H3K4me3 ChIP-seq分析的12个妊娠样品的FPKM的平均值。例如,ChIP信号的百分位数范围为0至70被定义为类别1,平均ChIP信号为0.10;ChIP信号的百分位数范围为70至80被定义为类别2,平均ChIP信号为0.81;ChIP信号的百分位数范围为80至90被定义为类别3,平均ChIP信号为1.59;ChIP信号的百分位数范围为90至95被定义为类别4,平均ChIP信号为3.27;ChIP信号的百分位数范围为95至97被定义为类别5,平均ChIP信号为5.84;ChIP信号的百分位数范围为97至98被定义为类别6,平均ChIP信号为9.93;ChIP信号的百分位数范围为98-98.5被定义为类别7,平均ChIP信号为14.63;ChIP信号的百分位数范围为98.5至99被定义为类别8,平均ChIP信号为18.81;ChIP信号的百分位数范围为99或以上被定义为类别9,平均ChIP信号为31.68。
图6显示了使用妊娠样品的H3K27ac ChIP-seq分析显示H3K27ac区域的类别的示例性定义的表。图6中的表遵循与图5中的表相同的格式。如图6所示,我们根据ChIP信号强度的百分位数范围将与H3K27ac相关的区域凭经验分类为9个类别。区域的ChIP信号的强度可以是经过H3K27ac ChIP-seq分析的19个妊娠样品的FPKM的平均值。例如,ChIP信号的百分位数范围为0至70被定义为类别1,平均ChIP信号为0.45;ChIP信号的百分位数范围为70-80被定义为类别2,平均ChIP信号为0.99;ChIP信号的百分位数范围为80至90被定义为类别3,平均ChIP信号为1.31;ChIP信号的百分位数范围为90至95被定义为类别4,平均ChIP信号为1.84;ChIP信号的百分位数范围为95至97被定义为类别5,平均ChIP信号为2.43;ChIP信号的百分位数范围为97至98被定义为类别6,平均ChIP信号为2.93;ChIP信号的百分位数范围为98-98.5被定义为类别7,平均ChIP信号为3.34;ChIP信号的百分位数范围为98.5至99被定义为类别8,平均ChIP信号为3.74;ChIP信号的百分位数范围为99或以上被定义为类别9,平均ChIP信号为5.33。我们还可以使用其它方法来定义区域类别,包括但不限于k均值聚类分析。
图7是显示使用来自未妊娠的健康对象的样品的H3K4me3 ChIP-seq分析的H3K4me3区域的类别的示例性定义的表。图7中的表遵循与图5中的表相同的格式。图7显示使用进行ChIP-seq分析的非妊娠健康样品建立参考。如图7所示,我们根据ChIP信号强度的百分位数范围将与H3K4me3相关的区域凭经验分类为9个类别。区域的ChIP信号的强度可以是经过H3K4me3 ChIP-seq分析的4个健康样品的FPKM的平均值。例如,ChIP信号的百分位数范围为0至70被定义为类别1,平均ChIP信号为0.00;ChIP信号的百分位数范围为70-80被定义为类别2,平均ChIP信号为0.15;ChIP信号的百分位数范围为80至90被定义为类别3,平均ChIP信号为0.69;ChIP信号的百分位数范围为90至95被定义为类别4,平均ChIP信号为2.71;ChIP信号的百分位数范围为95至97被定义为类别5,平均ChIP信号为6.00;ChIP信号的百分位数范围为97-98被定义为类别6,平均ChIP信号为11.39;ChIP信号的百分位数范围为98-98.5被定义为类别7,平均ChIP信号为17.11;ChIP信号的百分位数范围为98.5-99被定义为类别8,平均ChIP信号为21.95;ChIP信号的百分位数范围为99或以上被定义为类别9,平均ChIP信号为35.44。
图8是显示使用来自未妊娠的健康对象的样品的H3K27ac ChIP-seq分析的H3K27ac区域的类别的示例性定义的表。图8中的表遵循与图5中的表相同的格式。如图8所示,我们根据ChIP信号强度的百分位数范围凭经验将与H3K27ac相关的区域分类为9个类别。区域的ChIP信号的强度可以是经过H3K27ac ChIP-seq分析的6个健康样品的FPKM的平均值。例如,ChIP信号的百分位数范围为0至70被定义为类别1,平均ChIP信号为0.23;ChIP信号的百分位数范围为70-80被定义为类别2,平均ChIP信号为0.89;ChIP信号的百分位数范围为80至90被定义为类别3,平均ChIP信号为1.49;ChIP信号的百分位数范围为90至95被定义为类别4,平均ChIP信号为2.45;ChIP信号的百分位数范围为95至97被定义为类别5,平均ChIP信号为3.39;ChIP信号的百分位数范围为97-98被定义为类别6,平均ChIP信号为4.07;ChIP信号的百分位数范围为98-98.5被定义为类别7,平均ChIP信号为4.56;ChIP信号的百分位数范围为98.5至99被定义为类别8,平均ChIP信号为5.01;ChIP信号的百分位数范围为99或以上被定义为类别9,平均ChIP信号为6.54。
对于没有免疫沉淀的样品,我们分析了根据不同水平的H3K4me3信号定义的9个类别中的4聚体末端模序频率。
图9显示了针对血浆DNA测序结果,具有不同水平的H3K4me3ChIP信号的区域中模序频率的热图。图904显示了平均H3K4me3ChIP信号。y轴显示了平均H3K4me3 ChIP信号。x轴显示了H3K4me3区域的9个类别。x轴类别与热图908中的区域对齐。热图908的y轴对应于不同的4聚体末端模序。点越红,与区域类别和样品的其它组合相比,一个样品的一个区域中的末端模序频率越高。点越蓝,与区域类别和样品的其它组合相比,一个样品的一个区域中的末端模序频率越低。如图9所示,根据从免疫沉淀的血浆DNA测序数据获得的ChIP信号的强度,从没有免疫沉淀的血浆DNA测序数据获得的末端模序频率会变化,这表明在没有免疫沉淀的血浆DNA分子的末端模序的基础上推断血浆DNA组蛋白修饰的概率。点912是四个不相等长度的象限相交的点。右上象限更红。左上象限更蓝。右下象限更蓝。左下象限更红。
图10是在具有和不具有基于H3K4me3的免疫沉淀的血浆DNA测序结果之间的末端模序频率排名的比较图。y轴显示来自H3K4me3的cfChIP-seq的末端模序从256到1的排名,其中1代表最频繁的末端模序。x轴显示在不添加H3K4me3修饰特异性抗体的情况下,在血浆样品上由常规cfDNA测序产生的末端模序的256至1的排名。数据点的形状表示末端核苷酸(A为圆圈,C为三角形,G为正方形,而T为加号)。
图10显示了与没有免疫沉淀的血浆DNA相比,在H3K4me3介导的免疫沉淀的血浆DNA测序结果中看起来过度表现的多种4聚体末端模序,包括但不限于GCGG、GCGC、CGCG、CCGC、CCGA、TCCG、CCGT、GGCG、CCGG、TGCG、GCCG、CTCG、GCGA、TCGG、CGGC、TCGC、CGGG、CGCC、ACCG、AGCG、CGGA、GGGC、GCGT、CACG等(即,这样的模序,其中y轴上的排名是比x轴上的排名更低的数字)。过度表现的末端模序被认为是对角y=x以上且x-y>100的那些末端模序。那些过度表现的末端模序可能暗示存在组蛋白修饰(H3K4me3)。在另一个实施方案中,可以使用表现不足的模序(即,这样的模序,其中y轴上的排名是比x轴上的排名更高的数字)。
图11显示了对于H3K4me3组蛋白修饰,在常规cfDNA测序和cfChIP-seq之间具有最大排名差异的24个末端模序的表。第一列显示了模序。第二列显示了片段最末端的核苷酸(即,第一列中列出的第一个核苷酸)。第三列显示了常规cfDNA测序中模序的排名,其中1是最频繁和最高的排名,256是最不频繁和最低的排名。第四列显示了H3K4me3组蛋白修饰的cfChIP-seq中的模序的排名。第五列显示了当采用cfChIP-seq排名并减去常规cfDNA测序排名时的排名差异。列按照排名差异的长度排列。从多个健康对象获得数据。
结果还表明在cfChIP-seq中具有较高排名的许多末端模序具有彼此相邻的C和G核苷酸。H3K4me3位点似乎富含CG序列。
因此,具有最大排名差异的末端模序在与H3K4me3相关的区域中以比无cfChIP,全基因组或相对于随机DNA片段组更高的比率出现。
图12A和图12B说明了针对在没有免疫沉淀的情况下的血浆DNA测序结果,使用末端模序模式来推断血浆DNA组蛋白修饰信号。图12A显示了建立重新校准公式,该公式具有过度表现的末端模序的频率和在9个类别中H3K4me3 ChIP信号的水平。在阶段1204中,根据ChIP信号的长度将涉及H3K4me3的区域分组为不同的类别。在一个实施方案中,可以基于每个区域的ChIP信号的长度将区域划分为9个类别。在我们获得具有不同ChIP信号的区域类别之后,可以使用每个区域类别中的末端模序模式(例如,来自没有免疫沉淀的血浆DNA测序结果的具有过度表现的末端模序的cfDNA分子的合计频率)来与H3K4me3 ChIP信号相关。在阶段1208中,基于片段末端模序与ChIP信号之间的相关性,可以确定重新校准公式。线性公式作为重新校准公式的例子被示出,但是也可以使用非线性公式。
图12B显示了如何使用重新校准公式来根据那些区域的相应的末端模序信息(即,推断出的ChIP信号)来推断其它区域(例如,胎盘特异性的H3K4me3区域)中的ChIP信号。在阶段1212,在没有免疫沉淀的情况下对血浆DNA进行测序。在阶段1216,鉴定来源于组织特异性(例如,胎盘)H3K4me3区域的分子。在阶段1220,计算基于H3K4me3的免疫沉淀血浆DNA中过度表现的末端模序的频率。将末端模序信息输入到重新校准公式中,并且在阶段1224,在组织特异性(例如,胎盘)H3K4me3区域中推断出H3K4me3 ChIP信号。
2.测试与cfChIP-seq信号的相关性
图13显示了在基于H3K4me3的免疫沉淀血浆DNA中过度表现的末端模序的合计丰度与H3K4me3 ChIP信号之间的相关性图。x轴显示了作为百分比的过度表现的末端模序的频率。y轴是log10标度的H3K4me3 ChIP信号。图13显示了过度表现的末端模序的合计丰度与H3K4me3 ChIP信号高度相关(皮尔森的r:0.99;p值:<0.0001)。这一结果显示血浆DNA末端模序的使用可用于推断与某些组蛋白修饰相关的信号的强度。因此,可以使用线性回归模型产生重新校准公式,便于在不需要免疫沉淀测定的情况下基于血浆DNA分子的末端模序推断H3K4me3 ChIP信号。另外,模序频率可用于预测H3K4me3组蛋白修饰和可使用H3K4me3组蛋白修饰的任何其它性质,例如来自特定组织类型的DNA的百分比或对象状况。
来自图11的24个末端模序的较高频率将预期与较高的cfChIP-seq信号相关。为了检验这一假设,我们基于峰的高度将cfChIP-seq信号分成不同数量的组。
图14是显示11个峰组的cfChIP信号和末端模序频率之间的相关性的图。每个点(数据点)对应于11个峰组中的不同峰组。因为峰对应于信号值,所以信号随着连续的峰组而增加。x轴显示了相对于被分析的特定基因组区域的所有模序,峰组中末端模序的合计频率。峰组的末端模序频率是与峰组相关的特定基因组区域的频率。y轴显示对于每个峰组的来自H3K4me3组蛋白修饰的cfChIP-seq的平均信号。作为实例,每个峰组可以包括多个峰,如图5、6、7和8所示。
图15A是显示6个峰组的cfChIP信号和末端模序频率之间的相关性的图。y轴显示对于每个峰组的来自H3K4me3组蛋白修饰的cfChIP-seq的平均信号。x轴显示末端模序的频率,类似于图14。每个点代表6个峰组中的一个。峰组的末端模序频率是与峰组相关的特定基因组区域的频率。图15A的末端模序包括图11中鉴定的所有24个末端模序。该图显示了R值为0.98和p值为0.00059的高相关性。该图表明使用前24个末端模序的频率与H3K4me3组蛋白修饰的cfChIP-seq信号相关。该图还显示将末端模序分组为六个峰组可以保持与cfChIP-seq信号的相关性。
图15B是显示8个峰组的cfChIP信号和末端模序频率之间的相关性的图。y轴显示对于每个峰组的来自H3K4me3组蛋白修饰的cfChIP-seq的平均信号。x轴显示末端模序的频率,类似于图14。每个点代表8个峰组中的一个。峰组的末端模序频率是与峰组相关的特定基因组区域的频率。图15A的末端模序包括图11中鉴定的所有24个末端模序。该图显示了R值为0.97和p值为4.4e-05的高相关性。该图表明使用前24个末端模序的频率与H3K4me3组蛋白修饰的cfChIP-seq信号相关。该图还显示将末端模序分组为八个峰组可以保持与cfChIP-seq信号的相关性。
图14、15A和15B显示了末端模序频率与来自组内的cfChIP-seq信号峰值的信号相关。即使在改变峰组的数量时,相关性也很高。
III.使用序列模序分析表观基因组状态
因为末端模序频率可鉴定表观基因组状态且不同细胞具有不同的表观基因组状态,所以末端模序频率可用于鉴定组织来源,确定样品中组织的浓度分数,估计组织的特征或确定病症等级。末端模序频率也可以测量组蛋白修饰的量。
A.估计起源组织的浓度分数
对于胎盘H3K4me3信号高的基因组区域是已知的(图4)。另外,这些基因组区域的末端模序频率对于不同的峰组是已知的(图14)。测定对应于11个峰组的不同基因组区域中的24个末端模序的总末端模序频率。基于末端模序频率,预测H3K4me3信号。描述图14中的线性关系的方程是log(平均H3K4me3信号)=a*(末端模序频率)+b。
1.结果
图16是通过末端模序推断的胎盘特异性H3K4me3区域中的H3K4me3 ChIP信号与通过基于SNP的方法确定的胎儿DNA分数之间的相关性的图。x轴是通过基于SNP的方法测定的胎儿DNA分数的百分比。y轴是使用末端模序推断的H3K4me3 ChIP信号。用末端模序推断出的H3K4me3 ChIP信号与孕妇血浆DNA中胎儿DNA分数相关(皮尔森的r:0.67;p值:<0.001)。
2.用于确定浓度分数的示例性方法
图17是与确定生物样品中无细胞DNA片段的浓度分数相关的示例性过程1700的流程图。生物样品可以包括无细胞DNA片段。生物样品可以是本文所述的任何生物样品,包括血浆或血清。在一些实施方式中,图17的一个或多个过程框可以由系统(例如,测量系统5900)执行。在一些实施方式中,图17的一个或多个过程框可以由与系统分开或包括系统的另一个装置或一组装置来执行。另外,或者可替换地,图17的一个或多个过程框可以由测量系统5900的一个或多个部件来执行,例如测定5908,测定装置5910,检测器5920,逻辑系统5930,本地存储器5935,外部内存5940,存储装置5945和/或处理器5950。
在框1710,接收无细胞DNA片段的多个序列读数。所述多个序列读数包括对应于所述多个无细胞DNA片段的末端的末端序列。
在一些实施方案中,方法1700可以包括对生物样品中的无细胞DNA片段进行测序以获得多个序列读数。在实施方案中,生物样品的体积可为100μl或更小,包括80至100μl、50至80μl或30至50μl。生物样品可以使用小于在cfChIP-seq中使用的体积的体积。
在一些实施方案中,方法1700可包括基于探针的技术以测量模序的量。技术可以包括qPCR,数字PCR,数字微滴PCR等。作为一个实例,cfDNA分子可以进行DNA末端配对,A-加尾和普通接头连接的过程。接头连接的分子可以被分隔,例如,分成不同的反应,如微滴。可以设计一对PCR引物,使得一个引物可以结合到共同的接头区域,而另一个引物可以结合到感兴趣的特定区域。DNA分子将在反应(例如微滴)内通过PCR引物对扩增。特异性针对某末端模序的荧光探针可以水解并发射荧光信号,从而能够检测特定模序的存在以及特定模序的定量。对于数字PCR,可以对特定末端模序阳性的反应数目进行计数,并用于测定分析区域中具有该末端模序的DNA片段的量。对于实时PCR,每个信号的强度可以用作以特定模序终止的DNA片段的量的量度。两个强度可以相互比较。
在框1720,鉴定位于一个或多个基因组区域中的一组序列读数。一个或多个基因组区域中的每一个都具有与靶组织类型相关的组蛋白修饰。靶组织类型可包括胎盘,肝脏,心脏,嗜中性粒细胞,单核细胞,B细胞,脂肪,NK细胞或本文所述的任何组织类型。组蛋白修饰可以是H3K4me3、H3K4me1、H3K4me2、H3K27me3、H3K27ac、H3K36me3、H3K9me2、H3K9me3、H3S10P、H3R2me、H3T2P、H3K14ac、H3K9ac、H3K79me2、H3K79me3、H4K5ac、H4K8ac、H4K12ac、H4K16ac、H4K20me、H2BK120ub、H2AK119ub。一个或多个基因组区域可以包括转录起始位点,启动子区域,增强子区域,超增强子区域,基因体,重复序列,卫星重复序列,端粒,近着丝粒区,有丝分裂染色体,转录末端位点,外显子,内含子,绝缘体等。一个或多个基因组区域可以具有与其他基因组区域中的组蛋白修饰的量,或其他基因组区域中或所有基因组区域中的平均修饰量统计学上显著不同的组蛋白修饰的量。序列读数可以与参考基因组(例如,人类参考基因组)比对以确定序列读数是否位于一个或多个基因组区域中。
在框1730,为该组序列读数的每个序列读数,确定对应于相应的无细胞DNA片段的一个或多个末端序列的一种或多种序列模序。所述一种或多种序列模序可对应于单个核苷酸,两个核苷酸的序列,三个核苷酸的序列,四个核苷酸的序列,五个核苷酸的序列,六个核苷酸的序列,七个核苷酸的序列,八个核苷酸的序列或具有多于八个核苷酸的序列。一种或多种序列模序可以各自具有相同数目的核苷酸。在一些实施方案中,序列模序包括在无细胞DNA片段末端的核苷酸。序列模序可以在无细胞DNA片段的5’末端。在一些实施方案中,序列模序可以在3’末端。在实施方案中,一种或多种序列模序可以包括在3’末端和5’末端的序列模序。如果整个片段被测序,则可以确定两个序列模序。
在框1740,确定一种或多种序列模序的集合的一个或多个相对频率。一种或多种序列模序的集合在针对与组蛋白修饰相关的一个或多个基因组区域中,其出现在染色质免疫沉淀测序(cfChIP-seq)中的比率比没有染色质免疫沉淀的测序中的比率更高。染色质免疫沉淀可以是无细胞染色质免疫沉淀测序(cfChIP-seq),或者可以是细胞染色质免疫沉淀测序。没有染色质免疫沉淀的测序可以包括全基因组测序。一种或多种序列模序的集合对应于具有类似相对频率的序列模序,诸如图14、15A或15B中的峰组。一种或多种序列模序例如可以是图11中的任何序列模序。相对频率可以是图14、15A或15B中的模序频率。一种或多种序列模序的集合可以包括1至5、5至10、11至15、15至20或20至25种序列模序。可以确定每个序列模序的相对频率。在其它实施方案中,可以为多个序列模序(包括一种或多种序列模序的集合)确定一个相对频率。下面描述确定序列模序的集合。
在框1750,确定一个或多个相对频率的合计值。在整个公开内容中描述了示例性合计值,例如包括熵值(模序多样性分数或方差),相对频率的和,以及对应于模序的集合的计数向量的多维数据点(例如,可能的4聚体的256个模序的向量256个计数,或可能的3聚体的64个模序的64个计数)。当所述一种或多种序列模序的集合包括多种序列模序时,所述合计值可以包括所述集合的相对频率的和。在一些实施方案中,所述合计值可以是对组蛋白修饰的估计。组蛋白修饰的水平可以通过各种类型的数据来确定,例如,末端模序的量或片段长度。
在框1760,将合计值与一个或多个校准值进行比较。从一个或多个校准样品确定一个或多个校准值,所述校准样品的来自靶组织类型的无细胞DNA片段的浓度分数是已知的。
可以通过确定一个或多个校准样品的序列模序的合计值来确定一个或多个校准值。例如,从生物样品确定的合计值可以是从一个或多个第一相对频率确定的第一合计值。一个或多个基因组区域中的一种或多种序列模序的集合的一个或多个第二相对频率可以针对一个或多个校准样品的每个校准样品来确定。可以为一个或多个校准样品中的每个校准样品的一个或多个第二相对频率确定第二合计值。因此,一个或多个第二合计值中的每一个可以与校准样品的已知浓度相关联。校准值可以包括一个或多个第二合计值。例如,校准值可以是沿着将已知浓度与第二合计值相关的直线或曲线的点。
在一些实施方案中,一个或多个校准值可以根据将已知浓度与第二合计值相关的函数来确定。可以将第一合计值输入到函数中以返回浓度分数。然后将第一合计值用作校准值。合计值的比较是将合计值与函数中使用的校准值进行比较,并确定合计值与校准值相同。
在框1770,使用比较确定来自靶组织类型的无细胞DNA片段的浓度分数。浓度分数可以是与校准值相关的已知浓度分数,其可以具有接近于或等于第一合计值的值。在一些实施方案中,可以根据具有一个或多个校准值的函数或直线来确定浓度分数。该函数或直线可以将已知的浓度分数与一个或多个校准值相关。靶组织类型的浓度分数可用于确定组织类型和/或从中获得生物样品的对象的特征。
可使用浓度分数来确定病症或疾病的分类。例如,如果靶组织类型是胎盘,则该方法可以进一步包括使用浓度分数来确定妊娠相关病症或胎龄的分类。可以将浓度分数与从具有某种妊娠相关病症分类或具有某胎龄的参考对象的样品确定的截止值进行比较。妊娠相关病症可包括先兆子痫,子宫内生长受限,侵入性胎盘形成和早产,新生儿溶血性疾病,胎盘功能不全,胎儿水肿,胎儿畸形,HELLP综合征,系统性红斑狼疮和母亲的其它免疫疾病。妊娠相关病症可以与胎儿或母亲有关。
在一些实施方案中,癌症等级的分类可以使用浓度分数来确定。可以将浓度分数与从具有癌症等级的某种分类的参考对象的样品确定的截止值进行比较。
a)第二靶组织类型的浓度分数
在一些实施方案中,可以确定多种组织类型的浓度分数。不同的组织可以在不同的基因组区域中显示不同的组蛋白修饰量(例如,如部分0中所述)。生物样品,例如血浆样品,可以具有来自不同组织的DNA片段。因此,DNA片段可以包括与不同基因组区域中的组蛋白修饰相关的片段。每个基因组区域可以具有与组蛋白修饰相关的序列模序。不同基因组区域中的序列模序可用于确定生物样品中不同组织的浓度分数。序列模序的量与组织的浓度分数相关。可以对第二靶组织重复该方法以确定第二靶组织的浓度分数。
例如,上述步骤可以用于第一靶组织类型。与第一靶组织类型相关的一个或多个基因组区域可以是一个或多个第一基因组区域。位于一个或多个第一基因组区域中的该组序列读数可以是第一组序列读数。一个或多个第一基因组区域中的组蛋白修饰可以是第一组蛋白修饰。一种或多种序列模序的集合可以是一种或多种第一序列模序的集合。相对频率可以是第一相对频率。合计值可以是第一合计值。一个或多个校准样品可以是一个或多个第一校准样品。浓度分数可以是第一浓度分数。
该方法可进一步包括以与框1720类似的方式鉴定位于一个或多个第二基因组区域中的第二组序列读数。一个或多个第二基因组区域中的每一个可以具有与第二靶组织类型相关的第二组蛋白修饰。一个或多个第二基因组区域可以与一个或多个第一基因组区域相同或不同。
对于第二组序列读数的每个序列读数,可以确定与相应的无细胞DNA片段的一个或多个末端序列相对应一种或多种第二序列模序,类似于框1730。
类似于框1740,可以确定一种或多种第二序列模序的集合的一个或多个第二相对频率。一种或多种第二序列模序的集合可以以比没有染色质免疫沉淀的测序中更高的比率出现在针对与第二组蛋白修饰相关的一个或多个第二基因组区域的染色质免疫沉淀测序中。可以使用在ChIP-测序中更频繁出现的序列模序,因为那些序列模序可以与第二组蛋白修饰相关(类似于图10)。下面描述确定序列模序的集合。
类似于框1750,可以确定一个或多个第二相对频率的第二合计值。
可以以与框1760类似的方式将一个或多个第二合计值与一个或多个第二校准值进行比较。
可以从一个或多个第二校准样品确定一个或多个第二校准值,所述第二校准样品的来自第二靶组织类型的DNA片段的浓度分数是已知的。来自第二靶组织类型的无细胞DNA片段的第二浓度分数可以使用所述比较来确定,类似于框1770。
b)确定序列模序
一种或多种序列模序的集合可以以类似于图3、10和11中描述的程序的方式确定。可以确定一种或多种序列模序中的每一种相对于cfChIP测序中的其它序列模序的第一比率。第一比率可以是排名,如图10所示,或者是频率。频率可以通过集合中的序列模序的原始计数与集合外的计数的比率来确定。在没有染色质免疫沉淀的测序中,所述一种或多种序列模序的集合中每一种相对于其它序列模序的第二比率。第二比率可以是与第一比率相同的类型(例如,排名,频率)。一种或多种序列模序的集合中的每一种可以被鉴定为具有高于第二比率的第一比率。可以通过使用图形表示(例如,图10)或通过确定排名或频率之间的差异(例如,图11)来进行鉴定。一种或多种序列模序的每一集合可以具有高于阈值差异的差异。不在该集合中的序列模序可以具有低于阈值差异的差异。
过程1700可以包括另外的实施方式,诸如这里描述的任何单个实施方式或实施方式的任何组合和/或结合这里别处描述的一个或多个其它过程。
尽管图17显示了过程1700的示例性框,但是在一些实施方式中,过程1700可以包括与图17中所示的框相比另外的框,更少的框,不同的框,或不同排列的框。另外,或者可替换地,可以并行地进行过程1700的两个或更多个框。
B.估计靶组织的特征值
可使用与组蛋白修饰相关的序列模序来估计靶组织的各种特征的值。这些特征可以描述组织的健康状况,组织的年龄或组织中的疾病等级。例如,所确定的特征可包括特定的胎龄或范围(例如,8周,9-12周)。在另一个实例中,所确定的特征可以是对应于特定组织类型的器官的长度或营养状态。
图18是与估计靶组织的特征的第一值相关联的示例性过程1800的流程图。在一些实施方式中,图18的一个或多个过程框可以由系统(例如,测量系统5900)执行。在一些实施方式中,图18的一个或多个过程框可以由与系统分开或包括系统的另一个装置或一组装置来执行。另外,或者可替换地,图18的一个或多个过程框可以由测量系统5900的一个或多个部件来执行,例如测定5908,测定装置5910,检测器5920,逻辑系统5930,本地存储器5935,外部内存5940,存储装置5945和/或处理器5950。过程1800可以包括与过程1700一起描述的方面。
在框1810,接收无细胞DNA片段的多个序列读数。所述多个序列读数包括对应于所述多个无细胞DNA片段的末端的末端序列。框1810可以以与框1710类似的方式进行。
在框1820,鉴定位于一个或多个基因组区域中的一组序列读数。一个或多个基因组区域中的每一个都具有与靶组织类型相关的组蛋白修饰。框1820可以以与框1720类似的方式进行。
在框1830,为该组序列读数的每个序列读数确定对应于相应的无细胞DNA片段的一个或多个末端序列的一种或多种序列模序。框1830可以以与框1730类似的方式进行。
在框1840,确定一种或多种序列模序的集合的一个或多个相对频率。一种或多种序列模序的集合在针对与一个或多个基因组区域相关的组蛋白修饰的染色质免疫沉淀测序(ChIP-seq)中出现的比率比在没有染色质免疫沉淀的测序中更高。框1840可以以与框1740类似的方式进行。
在框1850,确定一个或多个相对频率的合计值。框1850可以以与框1750类似的方式进行。
在框1860,将合计值与一个或多个校准值进行比较。从一个或多个校准样品确定所述一个或多个校准值,所述一个或多个校准样品的用于靶组织类型的特征的值是已知的。可以使用机器学习模型来进行比较,该机器学习模型可以是这里描述的任何机器学习模型。可以使用机器学习模型来确定校准值。
可以以与框1760相同的方式,但是使用其用于靶组织类型的特征的值是已知的校准样品确定一个或多个校准值。例如,从生物样品确定的合计值可以是从一个或多个第一相对频率确定的第一合计值。一个或多个基因组区域中的一种或多种序列模序的集合的一个或多个第二相对频率可以针对一个或多个校准样品的每个校准样品来确定。可以为一个或多个校准样品中的每个校准样品的一个或多个第二相对频率确定第二合计值。因此,一个或多个第二合计值中的每一个可以与校准样品的特征的值相关联。校准值可以包括一个或多个第二合计值。例如,校准值可以是沿着将特征的已知值与第二合计值相关联的直线或曲线的点。
在框1870,使用所述比较来估计靶组织类型的特征的第一值。特征的第一值可以是与校准值相关的已知第一值,校准值可以具有接近于或等于合计值的值。在一些实施方案中,可以根据具有一个或多个校准值的函数或直线来确定特征的第一值。该函数或直线可以将已知的第一值与一个或多个校准值相关联。
靶组织类型可以是肝或造血细胞。靶组织类型可以是胎儿组织。在一些实施方案中,生物样品可以从怀孕的雌性对象获得,并且靶组织类型可以是胎盘组织。在一些实施方案中,靶组织类型可以是患有癌症的器官。靶组织类型可以是本文所述的任何器官。该特征可以是癌症等级或器官的营养状态。例如,器官的营养状态可以是器官是否健康,包括测量器官健康的任何中间水平。作为另一个例子,该特征可以是胎龄。在另一个实例中,所确定的特征可以是相对于其它组织类型(例如造血细胞)的浓度的特定组织类型(例如肝细胞)的浓度。
在一些实施方案中,过程1800可以包括使用长度频率以及序列模序的相对频率。过程1800可以包括使用序列读数测量无细胞DNA片段的长度。过程1800还可以包括确定一个或多个长度范围的序列读数的一个或多个长度频率,所述一个或多个长度范围可以是本文所述的任何长度范围。可以确定一个或多个长度频率的合计值。合计值可以是长度频率的和或与序列模序的相对频率的合计值类似的任何值。在一些实施方案中,所述合计值可以是对组蛋白修饰的估计。组蛋白修饰的水平可以由各种类型的数据确定,例如,末端模序的量或片段长度。可以将一个或多个长度频率的合计值与用校准样品确定的校准值进行比较,所述校准样品的靶组织类型的特征值是已知的。估计特征的第一值可以包括使用长度频率的合计值的比较,类似于序列模序的相对频率的合计值的比较。
过程1800可以包括另外的实施方式,例如本文所述的任何单个实施方式或实施方式的任何组合和/或结合本文所述的一个或多个其它过程。
C.测量组蛋白修饰的量
序列模序可用于确定组蛋白修饰的量。如图14、15A和15B所示,模序频率可以与H3K4me3信号相关的cfChIP-seq信号相关,所述H3K4me3信号与H3K4me3的量成比例。因此,模序频率可以与组蛋白修饰的量相关。此外,不同区域中组蛋白修饰的量可用于确定同一样品中多种组织的浓度分数。
1.使用序列模序确定组蛋白修饰的量的示例性方法
图19是与确定一个或多个基因组区域中组蛋白修饰的量相关的示例性过程1900的流程图。在一些实施方式中,图19的一个或多个过程框可以由系统(例如,测量系统5900)执行。在一些实施方式中,图19的一个或多个过程框可以由与系统分开或包括系统的另一个装置或一组装置来执行。另外,或者可替换地,图19的一个或多个过程框可以由测量系统5900的一个或多个部件来执行,例如测定5908,测定装置5910,检测器5920,逻辑系统5930,本地存储器5935,外部内存5940,存储装置5945和/或处理器5950。过程1900可以包括结合过程1700描述的方面。
在框1910,接收无细胞DNA片段的多个序列读数。所述多个序列读数包括对应于所述多个无细胞DNA片段的末端的末端序列。框1910可以以与框1710类似的方式进行。
在框1920,鉴定位于一个或多个基因组区域中的一组序列读数。一个或多个基因组区域中的每一个都具有与靶组织类型相关的组蛋白修饰。框1920可以以与框1720类似的方式进行。
在框1930,为该组序列读数的每个序列读数确定对应于相应的无细胞DNA片段的一个或多个末端序列的一种或多种序列模序。框1930可以以与框1730类似的方式进行。
在框1940,确定一种或多种序列模序的集合的一个或多个相对频率。一种或多种序列模序的集合在针对与组蛋白修饰相关的一个或多个基因组区域中,其出现在染色质免疫沉淀测序(ChIP-seq)中的比率比没有染色质免疫沉淀的测序中的比率更高。框1940可以以与框1740类似的方式进行。
在框1950,确定一个或多个相对频率的合计值。框1950可以以与框1750类似的方式进行。
在框1960,将合计值与一个或多个校准值进行比较。一个或多个校准值是从一个或多个校准样品确定的,所述校准样品的组蛋白修饰的量是已知的。一个或多个校准样品中组蛋白修饰的量可以从对一个或多个校准样品的每一个进行ChIP-测序得知。
一个或多个校准值可以以与框1760或框1860相同的方式,但是使用其组蛋白修饰的量是已知的校准样品来确定。例如,从生物样品确定的合计值可以是从一个或多个第一相对频率确定的第一合计值。一个或多个基因组区域中的一种或多种序列模序的集合的一个或多个第二相对频率可以针对一个或多个校准样品的每个校准样品来确定。可以为一个或多个校准样品中的每个校准样品的一个或多个第二相对频率确定第二合计值。因此,一个或多个第二合计值中的每一个可以与校准样品的组蛋白修饰的量相关联。校准值可以包括一个或多个第二合计值。例如,校准值可以是沿着将特征的已知值与第二合计值相关联的直线或曲线的点。
在框1970,使用所述比较确定一个或多个基因组区域中组蛋白修饰的量。组蛋白修饰的量可以是具有校准值的已知量,所述校准值可以具有接近于或等于合计值的值。在一些实施方案中,组蛋白修饰的量可以由具有一个或多个校准值的函数或直线来确定。所述函数或直线可以将组蛋白修饰的已知量与一个或多个校准值相关。组蛋白修饰的量可以是在靶组织类型中。
过程1900可以包括另外的实施方式,例如本文所述的任何单个实施方式或实施方式的任何组合和/或结合本文所述的一个或多个其它过程。
尽管图19显示了过程1900的示例性框,但是在一些实施方式中,过程1900可以包括与图19中所示的框相比另外的框,更少的框,不同的框,或不同排列的框。另外,或者可替换地,可以并行地执行过程1900的两个或更多个框。
2.使用片段组学性质的示例性方法
图20是与确定一个或多个基因组区域中组蛋白修饰的量相关的示例性过程2000的流程图。在一些实施方式中,图20的一个或多个过程框可以由系统(例如,测量系统5900)执行。在一些实施方式中,图20的一个或多个过程框可以由与系统分开或包括系统的另一个装置或一组装置来执行。另外,或者可替换地,图20的一个或多个过程框可以由测量系统5900的一个或多个部件来执行,例如测定5908,测定装置5910,检测器5920,逻辑系统5930,本地存储器5935,外部内存5940,存储装置5945和/或处理器5950。
在框2010,接收无细胞DNA片段的多个序列读数。框2010可以以与框1710类似的方式进行。
在框2020,鉴定位于一个或多个基因组区域中的一组序列读数。一个或多个基因组区域中的每一个都具有与靶组织类型相关的组蛋白修饰。框2020可以以与框1720类似的方式进行。
在框2030,确定对应于该组序列读数中的每个序列读数的每个无细胞DNA片段的片段组学性质的值。片段组学性质可包括片段长度,末端模序,锯齿状末端(一条链相对于另一条链的悬突),末端核苷酸,拓扑形式和/或核小体印迹。片段组学性质可以是这里描述的任何片段组学性质。
例如,如图19所述,片段组学性质可以是对应于无细胞DNA片段末端的末端序列的序列模序,并且一个或多个值范围是一种或多种序列模序。
作为另一个例子,片段组学性质可以是长度,并且一个或多个值范围是一个或多个长度范围,如部分0所述。
例如,片段组学性质可以是拓扑形式,并且一个或多个值范围是一个或多个拓扑形式。拓扑形式可以是圆形或线性的。
作为一个实例,片段组学性质是核小体印迹,并且一个或多个值范围是一个或多个核小体印迹。核小体印迹代表核小体与基因组DNA的结合模式。核小体之间的空间可以是核小体印迹的值。
在框2040,确定具有在一个或多个值范围的集合中的片段组学性质的值的无细胞DNA片段的一个或多个相对频率。一个或多个值范围的集合在针对与组蛋白修饰相关的一个或多个基因组区域以不同的比率出现在染色质免疫沉淀测序(ChIP-seq)中以及没有染色质免疫沉淀的测序中。不同的比率可以更高或更低,并且可以是统计学上显著的量。框2040可以以与框1740类似的方式进行,但是使用片段组学性质的一个或多个值范围来代替一种或多种序列模序。在其它实施方案中,通过对没有无细胞染色质免疫沉淀的样品进行测序而确定的一个或多个值范围的集合是通过集中在含有差异率的基因组区域上来确定的,所述基因组区域具有从其它参考样品或数据库预先确定的较高或较低的组蛋白修饰信号。
在框2050,确定一个或多个相对频率的合计值。合计值可以是一个或多个相对频率的总和或一个或多个相对频率的统计量度(例如,平均值,中值,模式,百分位数)。
在框2060,将合计值与一个或多个校准值进行比较。一个或多个校准值是从一个或多个校准样品确定的,所述校准样品的组蛋白修饰量是已知的。一个或多个校准样品中组蛋白修饰的量可以通过对一个或多个校准样品中的每一个进行cfChIP测序来获知。可以以与框1960相同的方式确定一个或多个校准值,但是使用片段组学性质的一个或多个值范围的频率来代替一种或多种序列模序。
在框2070,使用所述比较确定生物样品中组蛋白修饰的量。组蛋白修饰的量可以在靶组织类型中。框2070可以以与框1970类似的方式进行。
组蛋白修饰的量可用于确定靶组织的浓度分数,病症等级的分类,或靶组织类型的移植状态的分类(例如,如过程2000所述)。
尽管图20显示了过程2000的示例性框,但是在一些实施方式中,过程2000可以包括与图20中所示的框相比另外的框,更少的框,不同的框,或不同排列的框。另外,或者可替换地,可以并行地执行过程2000的两个或更多个框。
3.使用解卷积确定浓度分数
多种组织类型的浓度分数可以通过解卷积过程来确定。图21显示了应用ChIP-seq来确定来自不同组织的贡献。图2104是y轴上的来自ChIP-seq组蛋白修饰信号和x轴上的基因组位置的图。图2108、2112和2116显示组蛋白修饰信号的组织特异性区域。图2108显示区域X携带嗜中性粒细胞特异性组蛋白修饰。图2112显示区域Y携带肝特异性组蛋白修饰。图2116显示区域Z携带单核细胞特异性组蛋白修饰。将这些信息基因组区域中的血浆DNAChIP信号与不同组织的ChIP信号的模式进行比较,推断出从不同组织进入血浆的与H3K27ac相关的DNA贡献比例。图2120显示推断的不同组织的DNA贡献比例。
基于图21,包含来自多个组织的DNA的生物样品可以在来自多个组织的相同区域中具有H3K4me3 cfChIP-seq信号。例如,图2108中所示的基因组区域X具有H3K4me3信号最高的嗜中性粒细胞,但在其它组织(例如,肝脏和单核细胞)中具有较低的信号。类似地,图2112所示的基因组区域Y也在不同的组织,包括嗜中性粒细胞,肝脏和单核细胞上具有不同的信号。图2116中所示的基因组区域Z也在不同组织,包括嗜中性粒细胞,肝脏和单核细胞上具有不同的信号。相同区域中的重迭H3K4me3信号可允许确定组织的浓度分数。
可以求解线性方程组,每个区域一个,以确定无细胞混合物(例如血浆样品)中每个组织的浓度分数。
HA=f1h1,A+f2h2,A+…+fnhn,A
HB=f1h1,B+f2h2,B+…+fnhn,B
Hm=f1h1,m+f2h2,m+…+fnhn,m
线性方程的集合用于m个基因组区域和n个组织。HA代表样品中基因组区域A中的总组蛋白修饰量,其可以使用一种或多种序列模序来测量。HB代表基因组区域B中的总组蛋白修饰量。HA和HB可代表相同或不同的组蛋白修饰。Hm代表基因组区域m中的总组蛋白修饰量。靶组织1的浓度分数为f1,靶组织2的浓度分数为f2,并且靶组织n的浓度分数为fn。已知靶组织1在基因组区域A中具有量h1,A,在基因组区域B中具有量h1,B,并且在基因组区域m中具有量h1,m。已知靶组织2在基因组区域A中具有量h2,A,在基因组区域B中具有量h2,B,并且在基因组区域m中具有量h2,m。已知靶组织n在基因组区域A中具有量hn,A,在基因组区域B中具有量hn,B,并且在基因组区域m中具有量hn,m。在一些实施方案中,矩阵H可以表示使用一种或多种序列模序测量的组蛋白修饰量。如果使用适当的序列模序量,则可能不需要直接计算H和h来求解浓度分数。
某些基因组区域(例如,h1,A、h1,B等)中靶组织中组蛋白修饰的量可以是相对量。这些量可以从校准样品中确定。例如,具有半靶组织1和半靶组织2的校准样品可以显示组蛋白修饰量的某比率,并且该比率可以用于h1,A和h1,B
方程的数目应该大于或等于靶组织的数目,以便求解浓度分数。方程的数目可以等于基因组区域的数目,因此基因组区域的数目可以等于靶组织的数目。如果浓度分数的总和是已知的(例如,总和是1),那么基因组区域的数目可以等于区域数目减去1。利用通过使用序列模序测量的每个基因组区域中的组蛋白修饰量,可以通过求解方程组来确定浓度分数。
因此,在一些实施方案中,多种组织类型可以具有与相同基因组区域中的组蛋白修饰相关的相同或相似的序列模序。这些多种组织类型中的每一种的浓度分数可以通过解卷积过程来确定。解卷积过程可以包括求解一组线性或非线性方程,例如这里描述的那些方程。
组蛋白修饰的量可以如过程1900所述来确定。在过程1900中,序列读数组是第一组序列读数。一个或多个基因组区域是一个或多个第一基因组区域。一种或多种序列模序的集合是一种或多种第一序列模序的集合。一个或多个相对频率是一个或多个第一相对频率。合计值是第一合计值。一个或多个校准值是一个或多个第一校准值。组蛋白修饰的量是组蛋白修饰的第一量。第一量的例子是上述方程中的HA
可以为线性方程组确定一个或多个第二基因组区域中的组蛋白修饰的第二量。第二量的实例是HB。组蛋白修饰可以与一个或多个第一基因组区域中的第一组织类型和第二组织类型相关。
组蛋白修饰可以与一个或多个第二基因组区域中的第一组织类型和第二组织类型相关。例如,一个或多个第一基因组区域可以是与图21中的区域X相关的区域,并且一个或多个第二基因组区域可以是与区域Y相关的区域。作为另一个实例,一个或多个第一基因组区域和一个或多个第二基因组区域可以是同一框内的区域(例如,区域X或区域Y)。
鉴定位于一个或多个第二基因组区域中的第二组序列读数。可以以与框1920所述类似的方式进行鉴定。一个或多个第二基因组区域中的每一个可以具有与第一组织类型和第二组织类型相关的组蛋白修饰。在一些实施方案中,一个或多个第二基因组区域中的组蛋白修饰可以具有与一个或多个第一基因组区域中的组蛋白修饰不同的组蛋白修饰。
对于第二组序列读数的每个序列读数,确定对应于相应的无细胞DNA片段的一个或多个末端序列的一种或多种第二序列模序。该确定可以以与框1930所述类似的方式进行。
确定一种或多种第二序列模序的集合的一个或多个第二相对频率。一种或多种第二序列模序的集合在针对与组蛋白修饰相关的一个或多个第二基因组区域中,其出现在ChIP-seq中的比率比没有染色质免疫沉淀的测序中的比率更高。该确定可以以与框1940所述类似的方式进行。
确定一个或多个第二相对频率的第二合计值。该确定可以以与框1950所述类似的方式进行。
将第二合计值与一个或多个第二校准值进行比较。可以以与框1960类似的方式进行所述比较。
使用所述比较确定一个或多个第二基因组区域中的组蛋白修饰的第二量。可以以与框1970类似的方式进行该确定。
第一组织类型的第一浓度分数和第二组织类型的第二浓度分数通过求解线性或非线性方程组来确定。线性方程组可以是这里描述的方程的集合。线性方程组可包括组蛋白修饰的第一量(例如,HA),组蛋白修饰的第二量(例如,HB),以及指定针对一个或多个第一基因组区域和一个或多个第二基因组区域中的每种组织类型的相应组蛋白修饰的相对量(例如,h1,A、h1,B、h2,A、h2,B)的参数。第一浓度分数可以是f1,并且第二浓度分数可以是f2
生物样品可以包括两种以上的靶组织类型。用于确定两种靶组织类型的浓度分数的方法可以扩展到三种或更多种组织类型。
在实施方案中,组蛋白修饰可以与一个或多个第一基因组区域和一个或多个第二基因组区域中的第三组织类型相关。组蛋白修饰可以与一个或多个第三基因组区域中的第一组织类型,第二组织类型和第三组织类型相关。该过程可以包括进行与针对第二组织类型所描述的类似的步骤。该过程可以包括以与确定组蛋白修饰的第二量相同的方式确定一个或多个第三基因组区域中的组蛋白修饰的第三量(例如,Hm,其中m是C)。第三组织类型的第三浓度分数可以通过求解线性或非线性方程组来确定。线性方程组可包括组蛋白修饰的第三量和一个或多个第三基因组区域中每种组织类型的相对量的参数。
D.分类病症等级
序列模序可用于分类病症等级。所述病症可以是特定组织类型特异性的或可以应用于对象。序列模序可以指示组蛋白修饰的量或存在,并且组蛋白修饰的量或存在可以与特定等级的病症相关联。然而,可能不需要确定组蛋白修饰的量或存在以便使用序列模序来分类病症等级。
图22是使用末端模序使用在肝特异性H3K4me3区域中推断的H3K4me3信号区分患有和未患有肝细胞癌(HCC)的患者的ROC曲线。特异性显示在x轴上,并且灵敏度显示在y轴上。使用由末端模序推断的血浆H3K4me3 ChIP信号,对于使用截止值在患有和未患有HCC的患者之间进行区分具有0.718的AUC。这些结果表明,由末端模序推断的组蛋白修饰的ChIP信号对于非侵入性产前测试和癌症检测和监测将是临床上有用的。
图23是与对病症级别进行分类相关联的示例性过程2300的流程图。在一些实施方式中,图23的一个或多个过程框可以由系统(例如,测量系统5900)执行。在一些实施方式中,图23的一个或多个过程框可以由与系统分开或包括系统的另一个装置或一组装置来执行。另外,或者可替换地,图23的一个或多个过程框可以由测量系统5900的一个或多个部件来执行,例如测定5908,测定装置5910,检测器5920,逻辑系统5930,本地存储器5935,外部内存5940,存储装置5945和/或处理器5950。过程2300可以包括结合过程1700描述的方面。
在框2310,接收无细胞DNA片段的多个序列读数。所述多个序列读数包括对应于所述多个无细胞DNA片段的末端的末端序列。框2310可以以与框1710类似的方式进行。
在框2320,鉴定位于一个或多个基因组区域中的一组序列读数。一个或多个基因组区域中的每一个具有与一个或多个靶组织类型相关的组蛋白修饰。框2320可以以与框1720类似的方式进行。
在框2330,为该组序列读数的每个序列读数确定对应于相应的无细胞DNA片段的一个或多个末端序列的一种或多种序列模序。框2330可以以与框1730类似的方式进行。
在框2340,确定一种或多种序列模序的集合的一个或多个相对频率。一种或多种序列模序的集合在针对与组蛋白修饰相关的一个或多个基因组区域中,其出现在染色质免疫沉淀测序(ChIP-seq)中的比率比没有染色质免疫沉淀的测序中的比率更高。框2340可以以与框1740类似的方式进行。
在框2350,确定一个或多个相对频率的合计值。框2350可以以与框1750类似的方式进行。
在框2360,将合计值与一个或多个校准值进行比较。从一个或多个校准样品确定所述一个或多个校准值,所述一个或多个校准样品的病症等级的分类是已知的。
可以以与框1760、框1860或框1960相同的方式确定一个或多个校准值,但是使用其对病症等级的分类是已知的校准样品。例如,从生物样品确定的合计值可以是从一个或多个第一相对频率确定的第一合计值。一个或多个基因组区域中的一种或多种序列模序的集合的一个或多个第二相对频率可以针对一个或多个校准样品的每个校准样品确定。可以针对一个或多个校准样品中的每个校准样品的一个或多个第二相对频率确定第二合计值。因此,一个或多个第二合计值中的每一个都可以与病症等级的分类相关联。校准值可以包括一个或多个第二合计值。例如,校准值可以是沿着将病症等级的已知分类与第二合计值相关联的直线或曲线的点。
在框2370,使用所述比较来确定病症等级的分类。病症等级的分类可以是具有校准值的已知分类,所述校准值可以具有接近于或等于合计值的值。在一些实施方案中,可以根据具有一个或多个校准值的函数或直线来确定病症等级的分类。该函数或直线可以将已知分类与一个或多个校准值相关。在一些实施方案中,分类可以是异常等级。
所述病症可以在靶组织类型中。所述病症可以是靶组织类型的癌症。癌症可包括肝细胞癌(HCC)、结肠直肠癌(CRC)或本文所述的任何癌症。在一些实施方案中,所述病症是妊娠相关病症。所述病症可以是血液病症。所述病症可以是本文所述的任何病症。
在实施方案中,过程2300可包括使用长度频率,如过程1800所述。
过程2300可以包括另外的实施方式,诸如这里描述的任何单个实施方式或实施方式的任何组合和/或结合这里描述的一个或多个其它过程。
尽管图23显示了过程2300的示例性框,但是在一些实施方式中,过程2300可以包括与图23中所示的那些框相比另外的框,更少的框,不同的框或不同排列的框。另外,或者可替换地,可以并行地进行过程2300的两个或更多个框。
IV.应用长度信息推断组蛋白修饰
A.用于推断ChIP信号的长度信息
血浆DNA长度信息可用于检测和定量血浆DNA分子中存在的组蛋白修饰。与cfDNA末端模序信息和组蛋白修饰水平之间的关系一样,cfDNA分子的长度信息可能受组蛋白修饰水平(即表观遗传学状态)的影响。我们分析了目的区域内cfDNA分子的长度信息。可以根据ChIP信号的长度将涉及组蛋白修饰的那些区域分组为不同的类别。例如,首先根据ChIP信号的长度对区域进行分选,然后根据经验将其分类为9个类别(例如,图4)。在获得具有不同H3K27ac ChIP信号的区域类别后,可以比较不同区域类别中没有免疫沉淀的血浆DNA测序结果的DNA长度信息。
图24A、24B和24C显示了对于不同水平的H3K27ac信号,在区域类别中具有一定长度的cfDNA分子的百分比。x轴是来自没有基于H3K27ac的沉淀的血浆DNA测序的碱基对的长度。y轴是具有所述长度的cfDNA分子的百分比。每幅图中的不同颜色的线显示了使用H3K27ac ChIP信号的不同的区域类别。图24A显示50-140bp的长度范围。图24B显示了150-200bp的长度范围。图24C显示了250-350bp的长度范围。如图24A-24C所示,长度分布根据ChIP信号的强度而变化。例如,ChIP信号越高,观察到的在270-300bp范围内的DNA分子越多。另外,对于不同的长度范围,长度差异表现出不同的趋势。例如,对于约165-200bp的长度,ChIP信号越高,DNA分子越少。对于约60-100bp的长度,ChIP信号越高,DNA分子越多。因此,基于不进行免疫沉淀的血浆DNA分子的长度信息推断血浆DNA组蛋白修饰是可行的。
图25A、25B和25C显示长度和组蛋白修饰的ChIP信号之间的相关性可以被推广到其他组蛋白修饰(例如H3K27ac)。x轴是作为没有免疫沉淀的血浆DNA的百分比的某些长度片段的累积长度频率。y轴是log10标度上的H3K27ac ChIP信号。图25A是50-140bp的片段。图25B是150-200bp的片段。图25C是250-350bp的片段。在9个类别中,对于没有免疫沉淀的血浆DNA,在50-140bp和250-350bp长度范围内的cfDNA分子的百分比与从ChIP-seq资料获得的log转化的ChIP信号正相关,其中皮尔森的r为0.99(P值:<0.0001)(图25A)和0.99(P值:<0.0001)(图25C)。在150-200bp长度范围内的cfDNA分子的百分比与log转化的ChIP信号负相关(皮尔森的r:-0.99;P值:<0.0001)(图25B)。
图26A和图26B说明了对于在没有免疫沉淀的血浆DNA测序结果,使用长度信息来推断血浆DNA组蛋白修饰。图26A显示了用一定长度范围的cfDNA分子的百分比和9个类别中H3K4me3 ChIP信号的水平建立重新校准公式。阶段2604显示根据ChIP信号的长度将涉及H3K4me3的区域分组为不同的类别。如图26A所示,源自每个区域类别的长度信息(例如,来自没有免疫沉淀的血浆DNA测序结果的在250-350bp的长度范围内cfDNA分子的百分比)可用于确定与H3K4me3 ChIP信号的相关性。在阶段2608中,基于片段长度和ChIP信号(在log标度上)之间的相关性,可以确定重新校准公式。线性公式作为重新校准公式的例子被示出,但是也可以使用非线性公式。
图26B显示了如何根据那些区域的相应长度信息来使用重新校准公式来推断其它区域(例如,胎盘特异性H3K4me3区域)中的ChIP信号(即,推断的ChIP信号)。在阶段2612,在没有免疫沉淀的情况下对血浆DNA进行测序。在阶段2616,鉴定来源于组织特异性(例如,胎盘)H3K4me3区域的分子。在阶段2620,计算基于H3K4me3的免疫沉淀血浆DNA中特定长度范围(例如250-350bp)内的分子的百分比。将长度信息输入到重新校准公式中,并且在阶段2624,在组织特异性(例如,胎盘)H3K4me3区域中推断H3K4me3 ChIP信号。
图27A、27B和27C显示长度范围内cfDNA分子的百分比与log转化的H3K4me3 ChIP信号之间的相关性。x轴是作为没有免疫沉淀的血浆DNA的百分比的某些长度片段的累积长度频率。y轴是log10标度上的H3K4me3 ChIP信号。图27A是50-140bp的片段。图27B是150-200bp的片段。图27C是250-350bp的片段。在这9个类别中,对于没有免疫沉淀的血浆DNA,在50-140bp和250-350bp长度范围内的cfDNA分子的百分比与从ChIP-seq资料获得的log转化的ChIP信号正相关,皮尔森的r为0.99(P值:<0.0001)(图27A)和0.99(P值:<0.0001)(图27C)。在150-200bp长度范围内的cfDNA分子的百分比与log转化的ChIP信号负相关(皮尔森的r:-0.99;p值:<0.0001)(图27B)。结果显示片段长度模式可用于推断血浆DNA分子中的组蛋白修饰(称为推断的ChIP信号)。B.推断的ChIP信号和胎儿分数
我们还使用线性回归模型来构建用于推断感兴趣的区域或感兴趣的区域的集合中H3K4me3ChIP信号的模型(即,重新校准公式)。作为一个实例,我们训练了用于基于250-350bp的长度范围推断ChIP信号的每个样品的模型,即Y=aX+b,其中‘Y’表示对数转化的ChIP信号,‘X’表示来自待确定组蛋白修饰的特定的感兴趣的基因组区域或感兴趣的区域的集合的在250-350bp的长度范围内的cfDNA分子的百分比。‘a’和‘b’分别是斜率和截距。在一个实施方案中,根据H3K4me3,我们测定了来自那些胎盘特异性区域的250-350bp长度范围内的cfDNA分子的百分比。我们分析了孕妇的30份血浆DNA样品。为了说明的目的,选择250-350bp的长度范围。也可以使用其它长度范围。可以使用机器学习模型来选择长度范围。
图28A和28B显示了评估胎盘特异性H3K4me3区域中推断的H3K4me3 ChIP信号用于推断胎儿DNA分数的性能。x轴显示作为百分数的胎儿DNA分数,如基于SNP的方法所测定的。在图28A中,y轴是使用250-350bp的长度范围推断的H3K4me3ChIP信号。利用长度度量,推断出与胎儿DNA分数相关的H3K4me3 ChIP信号(皮尔森的r:0.62;P值:<0.0001)。
在图28B中,y轴是作为百分比的250-350bp片段的累积长度频率。在250-350bp长度范围内的血浆DNA的百分比之间没有显著相关性(皮尔森的r:-0.31,P值:0.096)。图28A和28B中的这些结果表明,对于没有免疫沉淀的血浆DNA样品,使用推定的ChIP信号可以分析血浆DNA分子的起源组织。
我们还使用线性回归模型来构建用于推断感兴趣的区域或感兴趣的区域的集合中的H3K27ac ChIP信号的模型(即,重新校准公式)。作为实例,我们训练了用于基于250-350bp的长度范围推断ChIP信号的每个样品的模型,即Y=aX+b,其中‘Y’表示log转化的ChIP信号,‘X’表示来自待确定组蛋白修饰的特定的感兴趣的基因组区域或感兴趣的区域的集合的在250-350bp的长度范围内的cfDNA分子的百分比。‘a’和‘b’分别表示斜率和截距。在一个实施方案中,根据H3K4me3,我们测定了来自那些胎盘特异性区域的250-350bp长度范围内的cfDNA分子的百分比。在一个实施方案中,根据H3K27ac,我们测定了来自那些胎盘特异性区域的250-350bp长度范围内的cfDNA分子的百分比。我们分析了孕妇的30份血浆DNA样品。
图29是评估胎盘特异性H3K27ac区域中推断的H3K27ac ChIP信号用于确定胎儿DNA分数的性能的图。x轴是通过基于SNP的方法测定的作为百分比的胎儿DNA分数。y轴是使用250-350bp的长度范围的推定的H3K27ac ChIP信号。基于这种长度度量,与基于H3K4me3的分析相比(皮尔森的r:0.62;P值:<0.0001),推断出的H3K27ac的ChIP信号与胎儿DNA分数有较高的相关性(皮尔森的r:0.95;P值:<0.0001)(图28A)。这些结果强调了不同类型的组蛋白修饰可用于通过由cfDNA长度信息推断的组蛋白修饰的ChIP信号来确定血浆DNA分子的起源组织。
我们分析了用于推断H3K27ac ChIP信号的不同长度范围,并将推断的H3K27acChIP信号与通过基于SNP的方法确定的组织DNA分数相关联。我们分析了孕妇的30份血浆DNA样品。50-150bp、160-225bp和230-350bp的长度范围用于说明目的。在一些其它实施方案中也可以使用其它长度范围。
图30是显示考虑组蛋白修饰水平和不考虑组蛋白修饰水平的情况下,长度范围与胎儿DNA分数如何良好关联的图。y轴显示测试的三个长度范围。x轴显示皮尔森相关系数。对于每个长度范围,显示了两个不同的条。每对中的顶部条(灰色)显示了用于使用原始长度频率的皮尔森相关系数。每对中的底部条(黑色)显示了胎盘特异性H3K27ac区域中推断的H3K27ac信号水平的皮尔森相关系数。
如图30所示,通过基于SNP的方法测定的胎儿DNA分数与胎盘特异性H3K27ac区域中推定的H3K27ac信号水平高度相关,所述区域的长度范围为230-350bp(皮尔森的r:0.96;P值:<0.0001)。相比之下,用原始累积长度频率本身没有观察到这种相关性(皮尔森的r:-0.25;P值=0.18)。还对其它长度范围进行了比较。对于所有测试的长度范围,与相应的原始累积长度频率(皮尔森的r:-0.25至0.53)相比,胎盘特异性H3K27ac区域中推断的H3K27ac水平显示与胎儿DNA分数的显著更高的相关性(皮尔森的r:0.76至0.96)。此外,基于长度范围为230-350bp的分子推断的H3K27ac ChIP信号显示出与其它测试长度范围(皮尔森的r:0.76)相比最佳的性能(皮尔森的r=0.96)。
C.推断的ChIP信号和癌症
在一个实施方案中,我们探讨了从没有免疫沉淀的血浆DNA的组蛋白修饰推断的ChIP信号是否将为癌症检测提供信息。我们分析了34例肝细胞癌(HCC)患者、17例慢性乙型肝炎病毒(HBV)对象和8例健康对照样品。
图31A和图31B是显示使用基于肝特异性H3K4me3区域的推断H3K4me3 ChIP信号进行HCC检测的图。使用长度范围为250至350bp的分子的累积频率来推断H3K4me3 ChIP信号。图31A显示推断的H3K4me3 ChIP信号(y轴)与主题类型(x轴)的盒图。对于肝特异性区域,与没有HCC的对象相比(中值:0.09;范围:0-5.36)(P值:0.015,Mann-Whitney U检验),在患有HCC的对象中推断的H3K4me3 ChIP信号显著更高(中值:0.21;范围:0-2.90)。
图31B是接收者操作特征(ROC)曲线。ROC分析显示,在区别患有和不患有HCC的对象中,可以实现0.686的AUC。这些结果表明,推断的ChIP信号可用于癌症检测。该方法将避免在测序之前需要免疫沉淀分析,从而降低成本和实验时间,并使其容易地与其它技术,例如全基因组随机或靶向测序,或全基因组随机或靶向亚硫酸氢盐测序结合。
图32A和图32B显示了使用基于H3K27ac区域的推断的H3K27ac ChIP信号进行HCC检测。使用长度范围为250-350bp的分子的累积频率推断H3K27ac ChIP信号。除了使用H3K27ac区域代替H3K4me3区域之外,图32A和图32B分别与图31A和图31B相同。当辨别患有和不患有HCC的患者时,使用与H3K27ac相关的推断的ChIP信号改善了分类能力,将AUC从0.686(图31B)增加到0.738(图32B)。
图33是显示长度选择如何影响癌症患者与健康对照的区分性能的图。图33是y轴上为灵敏度和在x轴上为特异性的ROC曲线。ROC曲线用于通过推断肝特异性区域的H3K27acChIP信号将处于中期和晚期的肝细胞癌(HCC)的对象与没有HCC的对象区分开。黑线是指长度范围为230-350bp的分子。灰线是指长度范围为50-150bp的分子。
ROC分析显示,与长度范围在50-150bp(AUC:0.586)内的那些分子相比,使用在肝特异性H3K27ac区域中的长度范围在230-350bp内的分子的累积频率推断的H3K27ac ChIP信号,在用于区分处于中期和晚期的HCC患者与没有HCC的患者的0.934的接收者操作特征曲线(AUC)下,获得了显著更高的面积(P=0.001;Delong检验)。
D.推断的ChIP信号和移植
图34是显示肝特异性H3K27ac区域中推断的H3K27ac ChIP信号与供体DNA分数之间的相关性的图。使用长度范围为250-350bp的分子的累积频率推断H3K27ac ChIP信号。y轴显示推断的H3K27ac ChIP信号。x轴显示作为百分比的供体DNA分数。我们利用肝特异性区域推断了肝移植患者血浆DNA中的H3K27ac ChIP信号。该图显示了由根据本公开内容的实施方案的肝特异性区域中的组蛋白修饰的推断的ChIP信号确定的肝贡献与通过基于SNP的方法的供体DNA分数之间的高度相关性(皮尔森的r:0.9;P值:<0.0001)。该数据显示肝特异性区域的推断的H3K27ac ChIP信号可允许监测器官移植的对象。
我们进一步分析了14例肝移植患者的群组的没有免疫沉淀的血浆DNA测序结果。50-150bp、160-225bp和230-350bp的长度范围用于说明性目的。在一些其它实施例方案中也可以使用其它长度范围。
图35是显示考虑组蛋白修饰水平和不考虑组蛋白修饰水平的情况下,长度范围与通过基于SNP的方法测定的供体DNA分数如何良好关联的图。y轴显示了测试的三个长度范围。x轴显示了皮尔森相关系数。对于每个长度范围,显示了两个不同的条。每对中的顶部条(灰色)显示了用于使用原始长度频率的皮尔森相关系数。每一对中的底部条(黑色)显示了肝特异性H3K27ac区域中推断的H3K27ac信号水平的皮尔森相关系数。
如图35所示,在供体DNA分数和在肝特异性H3K27ac区域中通过长度范围为230-350bp的那些分推断的H3K27ac值之间观察到最高相关性(皮尔森的r:0.91;P值:<0.0001)。
E.使用长度确定组蛋白修饰的示例性方法
图36是与使用片段长度确定一个或多个基因组区域中组蛋白修饰的量相关的示例性过程3600的流程图。在一些实施方式中,图36的一个或多个过程框可以由系统(例如,测量系统5900)执行。在一些实施方式中,图36的一个或多个过程框可以由与系统分开或包括系统的另一个装置或一组装置来执行。另外,或者可替换地,图36的一个或多个过程框可以由测量系统5900的一个或多个组件来执行,诸如测定5908,测定装置5910,检测器5920,逻辑系统5930,本地存储器5935,外部内存5940,存储装置5945和/或处理器5950。
在框3610,接收无细胞DNA片段的多个序列读数。多个序列读数可以通过随机大规模平行测序获得。可使用配对末端测序获得多个序列读数。
在框3620,鉴定位于一个或多个基因组区域中的一组序列读数。一个或多个基因组区域中的每一个具有与一个或多个靶组织类型相关的组蛋白修饰。框3620可以以与框1720类似的方式进行。
在框3630,测量与所述组的序列读数中每个序列读数相对应的每个无细胞DNA片段的长度。片段的长度可以使用配对末端测序,将序列与基因组比对,然后从比对的序列的基因组坐标推断长度来测量。在一些实施方案中,片段的长度可以通过对整个片段进行测序,然后从序列中确定长度来测量。
在框3640,确定长度在一个或多个长度范围的集合内的无细胞DNA片段的一个或多个相对频率。一个或多个长度范围的集合在针对与组蛋白修饰相关的一个或多个基因组区域以不同的比率出现在染色质免疫沉淀测序(ChIP-seq)中以及没有染色质免疫沉淀的测序中。不同的比率可以更高或更低,并且可以是统计学上显著的量。一个或多个长度范围可包括50至100bp、100至150bp、150至200bp、200至250bp、250至300bp、300至350bp、350至400bp、400至450bp、450至500bp,超过500bp,或其任何组合。
在框3650,确定一个或多个相对频率的合计值。合计值可以是一个或多个相对频率的总和或一个或多个相对频率的统计测量值(例如,平均值,中值,模式,百分位数)。
在框3660,将合计值与一个或多个校准值进行比较。一个或多个校准值是从一个或多个校准样品确定的,所述校准样品的组蛋白修饰量是已知的。一个或多个校准样品中组蛋白修饰的量可以通过对一个或多个校准样品中的每一个进行cfChIP测序来获知。可以以与框1960相同的方式确定一个或多个校准值,但是使用一个或多个长度范围的频率来代替一种或多种序列模序。
在框3670,使用比较确定生物样品中组蛋白修饰的量。组蛋白修饰的量可以是靶组织类型中的。框3670可以以与框1970类似的方式进行。
组蛋白修饰的量可用于确定靶组织的浓度分数,病症等级的分类,或靶组织类型的移植状态的分类。组蛋白修饰的量可以使用序列模序,片段组学性质或任何其它技术(包括长度范围)来确定。
在一些实施方案中,组蛋白修饰的量可以与一个或多个第二校准值比较。可以从一个或多个第二校准样品确定一个或多个第二校准值,所述第二校准样品的靶组织类型的浓度分数和组蛋白修饰的量是已知的。可使用组蛋白修饰的量与一个或多个第二校准值的比较来确定靶组织类型的浓度分数。
在一些实施方案中,组蛋白修饰的量可以与一个或多个第三校准值比较。可以从一个或多个第三校准样品确定一个或多个第三校准值,所述第三校准样品的病症等级和组蛋白修饰的量是已知的。使用一个或多个第三校准值来确定病症等级的分类。所述病症可以是本文所述的任何病症。
在一些实施方案中,将组蛋白修饰的量与一个或多个第四校准值进行比较。可以从一个或多个第四校准样品确定一个或多个第四校准值,所述第四校准样品的移植状态和组蛋白修饰的量是已知的。使用一个或多个第四校准值来确定靶组织类型的移植状态的分类。移植状态的分类包括移植器官是否被对象排斥。
尽管图36显示了过程3600的示例性框,但是在一些实施方式中,过程3600可以包括与图36中所示的框相比另外的框,更少的框,不同的框,或不同排列的框。另外,或者可替换地,可以并行地执行过程3600的两个或更多个框。
V.由组蛋白修饰推断的组织贡献
cfDNA的特征性长度分布显示出在大约166bp处的模式频率,其中较小的分子以10bp的周期形成一系列峰(Lo et al.Sci Transl Med.2010;2:61ra91)。血浆DNA片段的这种长度模式提示存在与cfDNA分子结合的组蛋白。最近的一项研究揭示了在血浆中存在与cfDNA分子相关的组蛋白修饰,使用无细胞染色质免疫沉淀,然后测序(cfChIP-seq)(Sadehet al.Nat Biotechnol.2021;39:586-598)。然而,Sadeh等人的研究没有提供任何方法来推断来自各种组织/器官的染色质修饰的百分比贡献。
Sadeh等人分析了与组织的组织特异性组蛋白修饰相关的基因组区域中每千碱基的平均读数数目作为信号以指示来自该组织的贡献。当分析那些信号时,从参考组织推断的组织特异性区域被认为是独立的因素(Sadeh等人,2021)。Sadeh等人描述的方法的一个局限性是,当组织缺乏组织特异性组蛋白修饰或组织中显示组织特异性组蛋白修饰的区域的数目不够时,不能准确地推断出来自该组织的DNA贡献。Sadeh的方法依赖于血浆中与组织特异性区域相关的组蛋白修饰的绝对信号。然而,Sadeh等人在该方法中没有考虑每个参考组织中组蛋白修饰的信号的相对强度,很可能导致分析不准确或无法分析。
例如,与组织的组蛋白修饰相关的基因组区域中每千碱基的读数可以由至少两个因素控制:第一个因素是由这种组织贡献的DNA(包括与组蛋白修饰无关的DNA)的百分比,第二个因素是在该组织中存在的组蛋白修饰的水平。通过组织中存在的组蛋白修饰水平调节的分析对于基于组蛋白修饰的组织贡献分析是重要的。Sadeh等人尝试使用线性回归分析来自肝脏的百分比贡献。认为健康对象的血浆DNA具有0%的肝脏贡献,并且认为来自肝脏组织的DNA具有100%的肝脏贡献。将健康对象的肝脏组织和血浆DNA之间的组蛋白修饰的差异用于测定其他血浆DNA样品中的肝脏贡献(Sadeh et al.Nat Biotechnol.2021)。这种分析不使用来自两个或更多个组织的组蛋白修饰信号。血浆DNA包括来自各种组织的贡献,并且肝脏对血浆的贡献可以随健康对象变化。因此,线性回归分析的假设在这种情况下可能不成立。
因此,在Sadeh等人的方法中不能准确地推断出来自待分析的两个或更多个组织的贡献。来自每个组织的组蛋白修饰信号的强度在定量分析血浆cfDNA中存在的信号中是重要的。组蛋白修饰信号的强度可以指组织中携带感兴趣的组蛋白修饰的细胞的百分比,其可以通过ChIP-seq中存在的测序读数覆盖的深度来测量。通过不使用跨不同组织的组蛋白修饰的信号,该方法将大大降低在确定具有组蛋白修饰的cfDNA对来自不同组织的血浆的贡献方面的性能。
在本公开内容中,我们开发了将血浆DNA中组蛋白修饰的相对信号与来自参考组织的信号进行比较,以推断每个细胞类型或组织的百分比贡献的方法,在本文中称为通过组蛋白修饰对血浆DNA组织映像。在一个实施方案中,这种比较将考虑来自各种组织的经修饰的组蛋白的信号作为协变量以解卷积各种组织对血浆的百分比贡献,例如但不限于使用二次规划,非负最小二乘(NNLS)等。Sun等人证明将血浆DNA的甲基化信号与各种组织的甲基化信号进行比较允许通过使用二次规划来推断跨越组织的DNA分子对血浆的贡献百分比(Sun et al.,Proc Natl Acad Sci USA.2018;115:E5106)。然而,组蛋白修饰将发生在组蛋白蛋白质的氨基酸序列处,其中经修饰的信号的信号性质不同于DNA甲基化。DNA甲基化分析中的信号处理过程不能用于修饰的组蛋白。组蛋白修饰涉及组蛋白蛋白质的翻译后修饰,其影响其与DNA的相互作用。相比之下,DNA甲基化是一种生物化学过程,其中DNA碱基,通常是胞嘧啶,在5-碳位置被酶促甲基化。组蛋白修饰和甲基化涉及不同类型的生化机制。在本公开内容的一些实施方案中,可以通过将经由一种或多种目的抗体免疫沉淀的DNA的数目与跨各种参考组织的对应测量值进行比较来推断组蛋白修饰对血浆的贡献。与Sadeh等人的研究使用的方法(仅组织特异性组蛋白修饰是有信息性的)相比,本公开内容中存在的方法可利用组织特异性组蛋白修饰和组织可变组蛋白修饰两者。
A.通过组蛋白修饰对血浆DNA组织映像
在实施方案中,来自各种细胞类型的DNA对血浆的贡献百分比可以通过比较血浆DNA组蛋白修饰的分布与来源于多种器官、组织或细胞的组蛋白修饰的分布来确定。例如,可以将H3K27ac ChIP-seq应用于多种组织,包括但不限于嗜中性粒细胞,巨核细胞,T细胞,B细胞,红细胞,单核细胞,自然杀伤细胞,或来自肝脏,结肠,脂肪组织,脑,胰腺,胎盘,心脏,肺,肾,脾,膀胱,胃等的细胞。可以确定携带组织特异性组蛋白修饰的信息型的基因组区域(例如H3K27ac)。信息型的基因组区域是指优先富集特定组织(例如,肝脏)中的特定组蛋白修饰(例如,H3K27ac)但在其它组织中相对缺乏这种修饰的区域。这样的区域可以被称为组织特异性组蛋白修饰区域(例如组织特异性H3K27ac区域)。在一些实施方案中,信息性信息型的基因组区域是指跨越感兴趣的组织显示某些组蛋白修饰(例如H3K27ac)的可变信号的区域。可变信号可以由超过但不限于5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、100%、200%等的组蛋白信号的变异系数(CV)来定义,并且修饰的组蛋白信号在最大值和最小值之间的差异超过某一截止值,例如但不限于1、2、3、4、5、6、7、8、9、10、50、100、500、1000、5000、10,000个读数/千碱基等。这样的区域可以被定义为组织可变组蛋白修饰区域(例如组织可变的H3K27ac区域)。如前所述,图3显示了应用ChIP-seq来确定来自不同组织的贡献。
由于不同的病理或生理状态将改变某些细胞类型中的染色质状态,我们推测对cfDNA分子的组蛋白修饰的分析将允许非侵入性地检测和监测疾病,例如孕妇中的胎儿异常,癌症,自身免疫疾病,移植排斥的存在,血液病症等。
B.通过组蛋白修饰对血浆DNA组织映像的实例
推断出的组蛋白修饰信号可用于确定胎儿DNA分数,确定对样品的特定组织贡献,将对象分类为妊娠或非妊娠,以及将具有病症(例如癌症)可能性的对象分类。
1.来自孕妇的生物样品
我们招募了19个妊娠样品,中位胎龄为38周。在样品收集的6小时内通过连续的离心步骤从全血中分离血浆:在1,600g离心10分钟,然后在16,000g再离心血浆部分10分钟。可将血浆储存在-80℃。我们使用两种类型的组蛋白修饰(H3K27ac和H3K4me3)作为实例。通过在4℃下旋转过夜并且用洗涤缓冲液洗涤,将抗体缀合的磁珠与血浆一起孵育,并且将免疫沉淀的DNA与珠上的条形码接头连接。洗脱DNA,然后通过PCR扩增。DNA文库通过Illumina平台(例如,Nextseq500或NovaSeq 6000)与几个其它文库一起以多重测序进行测序,其中值为430万配对末端读数(范围:0.10-30.73)。我们对19个妊娠样品,13个非妊娠样品和12个患有血液病的样品(10个重型β-地中海贫血样品,1个缺铁性贫血样品和1个再生障碍性贫血样品)进行H3K27ac ChIP-seq。此外,我们对12名孕妇,4名非妊娠健康对象和4名患有血液病的患者(2个重型β-地中海贫血样品,1个缺铁性贫血样品,1个再生障碍性贫血样品)进行了H3K4me3 ChIP-seq。
基于单核苷酸多态性(SNP)为基础的方法计算每位孕妇的母体血浆中的胎儿DNA分数(Lo et al.Sci Transl Med.2010;2:61ra91)。使用基于微数组的基因分型技术(Illumina Infinium Omni 2.5-8数组)获得关于母体血沉棕黄层和胎盘组织样品的基因型,并鉴定了信息型SNP(即,其中母亲是纯合的(表示为AA基因型),并且胎儿是杂合的(表示为AB基因型))。根据在信息型SNP位点携带胎儿特异性等位基因的DNA片段鉴定胎儿特异性DNA片段。在这种情况下,B等位基因是胎儿特异性的,并且推断携带B等位基因的DNA片段来源于胎儿组织。确定携带胎儿特异性等位基因(B)的胎儿特异性分子(p)的数目。确定携带共有等位基因(A)的分子(q)的数目。通过2p/(p+q)*100%计算所有无细胞DNA样品的胎儿DNA分数。
为了说明的目的,从公共数据库获得各种组织的ChIP-seq数据。这里使用的公共数据库包括,但不限于,Blueprint项目(blueprint-epigenome.eu/)、ENCODE项目(encodeproject.org/)和Roadmap项目(road_pepigenomics.org/)。总之,我们从18种组织类型获得H3K27ac ChIP-seq结果,包括但不限于嗜中性粒细胞,单核细胞,B细胞,T细胞,自然杀伤细胞,红血球母细胞和巨核细胞,肝脏,脑,胰腺,胎盘,心脏,结肠,肺,脂肪,肾,脾和膀胱),其中中值为2250万配对末端/单末端读数(范围:1200-4500万)。另外,我们从19种组织获得H3K4me3 ChIP-seq数据,所述组织包括但不限于嗜中性粒细胞,单核细胞,B细胞,T细胞,自然杀伤细胞,红血球母细胞,巨核细胞,肝脏,脑,胰腺,胎盘,心脏,结肠,肺,脂肪,肾,脾,膀胱和胃,其中中值为2500万配对末端读数(范围:700-3200万)。
基于来自各种组织的ChIP-seq数据,我们确定了携带组织特异性组蛋白修饰的信息型的基因组区域。在一个实施方案中,分析了已知富含特定类型的组蛋白修饰的许多基因组区域。例如,已知H3K4me3优先发生在转录起始位点附近的区域(即,启动子区域)。因此,可以确定跨转录起始位点(TSS)附近区域的ChIP信号。在一个实施方案中,感兴趣区域的ChIP信号可以通过在全部映像的读数中与这样的区域重迭的测序读数的百分比来确定。在另一个实施方案中,感兴趣区域的ChIP信号可以由与所有感兴趣区域相关的全部映像读数中与这样的区域重迭的测序读数的百分比来确定。ChIP信号将通过GC偏差和映射偏差来调节,表示为每千个碱基的每百万读数(即FPKM)的分析片段数。
在一个实施方案中,根据从多个组织/器官中鉴定的ChIP信号,人类参考基因组将被分类为存在某些组蛋白修饰的区域(例如,H3K27ac)(表示为感兴趣区域[ROI]),和不存在这种组蛋白修饰的区域(表示为背景区域)。存在于背景区域中的血浆DNA的ChIP-seq读数可能是由于在实验过程中的非特异性抗体(Ab)结合,这被认为是背景噪声。ROI的原始ChIP信号被确定为5’末端落入该ROI内的片段的数目。在一些实施方案中,ROI的原始ChIP信号被确定为分子中的至少一个或多个核苷酸与该ROI重迭的片段的数目。ROI的原始信号可以扣除围绕这种被询问的ROI的背景区域上的背景噪声。
以H3K27ac为例,我们将基因组分成不重迭的5-Mb窗口。对于每个5-Mb窗口,我们根据ENCODE和Blueprint项目中所示的ChIP结果计算由H3K27ac结合的ROI(N个区域)中的原始信号。剩余区域(M区域)被认为是用于确定噪声的背景区域。泊松分布可用于估计M个背景区域上每一千个碱基(kb)的平均序列深度,称为估计的背景噪声。扣除估计的背景噪声的N个ROI上的原始ChIP信号(即,噪声扣除的ChIP信号)将被用于下游分析。为了最小化测序深度对样品之间的ChIP信号比较的影响,我们使用测序读数确定了样品之间的测序深度的比例因子,所述测序读数来自在不同样品上显示为受H3K27ac结合的那些区域。噪声扣除的ChIP信号将通过相应的测序深度的比例因子来调整。在一个实施方案中,还可以将上述ChIP信号表示为每千个碱基的每百万片段数(FPKM)。在一些实施方案中,对于背景噪声估计,可以使用多个重迭窗口。窗口长度可以是,但不限于,10kb、50kb、100kb、500kb、1Mb、2Mb、3Mb、4Mb、5Mb、10Mb等。
携带组织特异性组蛋白修饰的区域(即,组织特异性区域)可以使用以下标准来确定:
1.第一目的组织对于所有被分析的组织的每个组织特异性区域具有最高的ChIP信号,并且其标准化的ChIP信号大于15。
2.在第一组织和具有第二高ChIP信号的第二组织之间的组织特异性区域处的log2标度中的ChIP信号的比率大于3。
结果,我们鉴定了H3K27ac的总共4,245个组织特异性区域,和H3K4me3的807个组织特异性区域。
图37显示了组织特异性组蛋白修饰区域的表。第一列列出了组织/细胞类型。第二列列出了显示H3K27ac修饰的那个组织的区域数目。第三列列出了显示H3K4me3修饰的那个组织的区域数目。
在一个实施方案中,所选区域不必限于组织特异性区域。可以使用在感兴趣的组织组上显示组蛋白修饰信号的高变异性的区域(组织多变型区域)进行分析。可以使用以下标准来确定这些区域:
1.第一目的组织对于所有组织上分析的每个区域具有最高的ChIP信号,其中标准化的ChIP信号大于15。如上所述,标准化可以考虑背景噪声,测序深度,GC偏差,ROI的长度。标准化的ChIP信号可以表示为每千个碱基的每百万片段数(即,FPKM)。
2.在所有组织类型上的最高(表示为H)和最低(表示为L)ChIP信号之间的相对百分比差异被要求为至少20%(即,(H-L)/L*100%>20%)。
3.ChIP信号在所有组织类型上的变异系数(CV)要求为至少25%,其中CV定义为标准偏差与平均值的比率乘以100%。
结果,我们鉴定了H3K27ac的总共27,941个组织多变型区域,和H3K4me3的17,321个组织多变型区域。
对于H3K27ac的血浆ChIP-seq资料,测定其5’末端来源于H3K27ac的每个组织特异性区域的血浆DNA片段的数目。相应地计算每个组织特异性区域的以FPKM计的标准化ChIP信号。类似地,对于H3K4me3的血浆DNA ChIP资料,测定其5’末端来源于H3K4me3的每个组织特异性区域的血浆DNA片段的数目。相应地计算每个组织特异性区域的标准化ChIP信号。将血浆DNA的ChIP信号与来自各种组织的ChIP信号进行比较允许我们推断出与感兴趣的组蛋白修饰相关的血浆DNA池中的DNA贡献。
在一个实施方案中,DNA分子的测量的ChIP信号水平被记录在向量(X)中,并且跨不同组织的检索的参考ChIP信号水平被记录在矩阵(M)中。通过二次规划,推断出不同组织对血浆DNA池的比例贡献(P):
其中表示血浆DNA混合物中组织特异性区域或组织多变型区域i的ChIP信号水平;pk表示细胞类型k的相关DNA对血浆DNA混合物的比例贡献;Mik表示细胞类型k中组织特异性区域或组织可变区i的ChIP信号水平。当区域的数目等于或大于细胞类型的数目时,可以确定各个pk的值。
与来自所有细胞类型的特定类型的组蛋白修饰相关的聚集DNA贡献将被限制为100%:
kpk=100%,
此外,来自细胞类型的任何贡献将需要是非负的:
因此,可以通过但不限于用Python(python.org)或R语言(r-project.org)编写的程序进行二次规划来推断pk。在一些其它实施方案中,可以使用但不限于线性或非线性回归,非负最小二乘,贝叶斯框架等。在一些实施方案中,用于组织贡献推断的区域可以是仅组织特异性区域,或仅组织多变型区域,或组织特异性区域和组织多变型区域的组合。
图38显示了基于cfDNA的H3K4me3组蛋白修饰的妊娠和非妊娠样品的不同组织的贡献百分比的图。x轴显示组织类型。y轴表示由H3K4me3推断出的贡献百分比。组织类型可包括但不限于嗜中性粒细胞,单核细胞,B细胞,T细胞,自然杀伤细胞,红血球母细胞,巨核细胞,肝脏,脑,胰腺,胎盘,心脏,结肠,肺,脂肪,肾,脾,膀胱和胃。可以观察到,对于妊娠和非妊娠对象,血浆DNA中与H3K4me3相关的主要贡献者是血液相关的细胞类型(即,巨核细胞、嗜中性粒细胞和红血球母细胞),分别具有61.74%和82.13%的中值贡献。值得注意的是,与几乎没有贡献的非妊娠对象相比,H3K4me3在妊娠对象中的胎盘贡献显著较高(中值:27%;范围:0%-36.67%(P值:0.0081,Mann-Whitney U检验)。这些结果表明使用组蛋白修饰来推断各种组织对血浆DNA的比例贡献是可行的。
图39显示由组蛋白修饰测定的胎盘贡献对比胎儿DNA分数的图。作为由H3K4me3信号推断的百分比的胎盘贡献在y轴上。通过基于SNP的方法测定的胎儿DNA分数在x轴上。由根据本公开内容的实施方案的组蛋白修饰的ChIP信号推断出的胎盘贡献与由基于SNP的方法推断出的胎儿DNA分数非常相关(皮尔森的r:0.68;P值:0.031)。这些结果表明使用组蛋白修饰能够确定各种组织对血浆DNA的比例贡献。
图40是基于cfDNA的H3K27ac组蛋白修饰的妊娠和非妊娠样品的不同组织的贡献百分比的图。x轴显示组织。y轴显示由H3K27ac组蛋白修饰推断的组织贡献。图40显示使用另一种类型的组蛋白修饰,例如H3K27ac,可以用于推断来自各种组织的组蛋白修饰对血浆DNA的DNA贡献比例。可以观察到,对于妊娠和非妊娠对象,血浆中与H3K27ac相关的主要贡献者是血液相关的细胞类型(即,巨核细胞、嗜中性粒细胞和红血球母细胞),其中中值贡献分别为89.51%和58.67%。值得注意的是,与非妊娠对象相比(中值:0%;范围:0-4.01%),H3K27ac在妊娠对象中的胎盘贡献显著更高(中值:14.45%;范围:0.42-28.19%)(P值:<0.0001,Mann-Whitney U检验)。
图41显示在妊娠和非妊娠对象中从H3K27ac ChIP信号推断的组织贡献的热图。H3K27ac在妊娠对象中的胎盘贡献显著更高。然而,通常与妊娠对象无关的组织在妊娠对象中具有比非妊娠对象更高的H3K27ac ChIP信号贡献。组织贡献的热图和聚类分析揭示了与非妊娠对象相比,在妊娠对象中呈现更高贡献的组织簇(例如,胎盘、肺、结肠、脾、胰腺、脂肪、心脏、肾)。图41显示妊娠和非妊娠对象共有的组织可以具有来自组蛋白修饰的不同贡献。由血型细胞(例如,红血球母细胞,巨核细胞,嗜中性粒细胞)组成的其它组织簇在妊娠对象中呈现相对较低的贡献。
2.同时的组织贡献分析
可以基于与组织特异性组蛋白修饰区域相关的推断的H3K27ac组蛋白修饰信号(本公开内容中的ChIP信号)来确定感兴趣的特定组织贡献。在一个实施方案中,组蛋白修饰的量可以通过片段组学性质推断。在一个实施方案中,可以使用各种组织特异性组蛋白修饰区域来同时分析来自多种组织类型的贡献。作为实例,我们分析了8个健康对象的血浆DNA样品。对于每个样品,我们推断了携带对不同组织特异的H3K27ac的组蛋白修饰的区域的H3K27ac ChIP信号。使用长度范围在230-350bp内的分子的累积频率推断H3K27ac ChIP信号。
图42显示了推断的H3K27ac信号相对于特定组织的图。推断的H3K27ac组蛋白修饰信号(也称为ChIP信号)显示在y轴上。组织特异性区域显示在x轴上。每个点代表一个血浆DNA样品。
比较在各种组织特异性区域上推断的H3K27ac ChIP信号,嗜中性粒细胞特异性区域显示出与其它组织相比最高的中值水平,表明嗜中性粒细胞作为血浆cfDNA的主要贡献者。每个组织的贡献可以与ChIP信号相关。例如,可以确定单核细胞和巨核细胞可能是下一个主要的贡献者。贡献最小的组织可以是胎盘和结肠。这些观察结果与先前对健康个体的研究一致,通过这些研究证明嗜中性粒细胞是血浆DNA的主要贡献者(K.Sun,et al.,ProcNatl Acad Sci USA.2015;112;E5503–E5512)。
3.对妊娠对象分类
ChIP信号可用于确定胎儿DNA分数或用于区分妊娠和非妊娠对象。
图43A和图43B是显示H3K27ac ChIP信号和通过基于SNP的方法测定的胎儿DNA分数之间的相关性的图。x轴显示通过基于SNP的方法测定的胎儿DNA分数的百分比。如图43A所示,H3K27ac信号的使用允许通过组蛋白修饰推断的胎盘贡献与通过基于SNP的方法推断的胎儿DNA分数之间的较高相关性(皮尔森的r:0.96;P值:<0.0001)。该结果强调,在一些实施方案中,选择性地使用不同类型的组蛋白修饰将改善与组蛋白修饰相关的组织DNA贡献的血浆DNA解卷积的性能。如图43B所示,胎儿DNA分数和在胎盘特异性H3K27ac区域中的作为读数/kb(以1百万的标度)的H3K27ac信号之间存在较弱的相关性(皮尔森的r:0.64;P值:<0.046)。
图44是区分妊娠和非妊娠对象的ROC曲线。x轴显示特异性。y轴显示灵敏度。实线显示使用从H3K27ac ChIP信号推断的胎盘贡献。虚线显示使用胎盘特异性H3K27ac区域中的读数(以百万计)/kb。推断的胎盘贡献技术对于区分妊娠和非妊娠对象具有0.984的AUC。读数/kb技术(即,在Sadeh等人的研究中报导的量度)的AUC为0.785。结果表明,与使用读数/kb相比,使用二次规划得到的推断的组织贡献具有更好的分类性能。
4.来自癌症对象的样品
在一个实施方案中,尽管没有结肠特异性H3K4me3区域(图37),但仍可使用其它组织特异性区域和组织多变型区域来推断结肠贡献。我们根据本公开内容的实施方案分析了来自Sadeh等人的研究的原始测序数据。
图45显示了使用推断的结肠贡献用于区分对照对象和结肠直肠癌(CRC)对象的接收者操作特征(ROC)曲线。ROC曲线显示曲线下面积(AUC)为0.7。结肠贡献可用作区分患有CRC的对象与对照对象的指示物。在一些实施方案中,可以仅使用组织多变型区域。
C.检测与监测疾病
通过本公开内容中的实施方案测量的组蛋白修饰水平可用于确定血液病症的可能性的分类和癌症等级的分类,包括癌症是否已经转移。分析来自具有重型β-地中海贫血的对象的生物样品的组蛋白修饰水平。重型β-地中海贫血是血液病症的一个实例。预期其它血液病症至少因为血液病症可能具有来自血液中细胞的异常贡献而具有类似的异常结果。分析来自患有结肠直肠癌(CRC)的对象的生物样品的组蛋白修饰水平。CRC是癌症的一个实例。当癌症定位于组织时或当癌症转移至另一组织时,预期其它癌症具有类似的组蛋白修饰水平。
1.血液病症
为了证明使用基于组蛋白修饰的血浆DNA组织解卷积的临床应用,我们招募了患有血液病的患者,例如但不限于,重型β-地中海贫血,缺铁性贫血,再生障碍性贫血和特发性血小板减少性紫癜。我们对那些血浆DNA样品应用基于H3K27ac的免疫沉淀分析,然后进行大规模平行测序。
图46A是比较由H3K27ac ChIP信号推断出的在患有重型β-地中海贫血的对象和没有重型β-地中海贫血的对照对象之间的红血球母细胞贡献的图。x轴显示对象类别。y轴显示由H3K27ac ChIP信号推断的以百分比表示的红血球母细胞贡献。在图46A中,与健康对照对象相比(中值:7.54%;范围:0-12.85%),那些患有重型β-地中海贫血的对象显示出来自红血球母细胞的异常贡献(中值:34.97%;范围:6.89-68.44%)(P值:0.00024,Mann-Whitney U检验)。
图46B是使用推断的红血球母细胞贡献来区分患有和不患有重型β-地中海贫血的对象的ROC曲线。x轴是特异性。y轴是灵敏度。ROC分析揭示,通过推断的红血球母细胞特异性区域中的红血球母细胞贡献,可以实现0.923的AUC,表明使用基于组蛋白修饰的血浆DNA组织解卷积将能够检测和/或监测血液学病症(例如,重型β-地中海贫血)。推断的组织贡献优于通过读数/kb测量的区域信号,其具有0.892的AUC。
图47是在患有重型β-地中海贫血的对象和对照对象的对象中使用H3K27ac ChIP信号推断的组织贡献的热图。在不同的病理条件下,组织通过组织贡献而聚类和分离。当与对照对象相比时,在重型β-地中海贫血对象中,红血球母细胞,单核细胞,脑和其它表现出更高的贡献。T细胞,嗜中性粒细胞和巨核细胞在重型β-地中海贫血对象中表现出较低的贡献。此外,与在对照对象中观察到的中间水平的红血球母细胞贡献(7.54%)相比,我们在患有再生障碍性贫血的对象中观察到较低的红血球母细胞贡献(1.62%),并且在患有缺铁性贫血的对象中观察到较高的红血球母细胞贡献(16.07%)。这些结果与以前的发现一致,以前的发现也通过使用甲基化标志物的微滴数字PCR(ddPCR)分析观察到了类似的趋势(Lam,et al.Clin Chem.2017;63:1614-1623)。这些结果提示通过基于组蛋白修饰的血浆DNA组织解卷积的可能的临床应用。
此外,我们使用公开的ddPCR测定,使用在红血球母细胞中低甲基化而在其它细胞类型中高甲基化的差异甲基化区域,来测量那些血浆DNA样品中的红系细胞DNA(Lam etal.Clin Chem.2017;63:1614-1623)。
图48A、48B和48C显示了由ddPCR测定确定的红系细胞DNA百分比与由H3K27ac信号确定的红血球母细胞贡献之间的相关性。x轴显示由H3K27ac信号确定的红血球母细胞贡献。y轴显示通过ddPCR测定确定的红系细胞DNA百分比。图48A显示了使用FECH(chr18:55250563-55250585)标志物,其皮尔森的r为0.87且P值<0.0001。图48B显示了使用Ery 1(chr12:48227688-48227701)标志物,其皮尔森的r为0.90且P值<0.0001。图48C显示了使用Ery 2(chr12:48228144-48228167)标志物,其皮尔森的r为0.90且P值<0.0001。这些图中的数据进一步提示使用组蛋白修饰能够准确地推断各种组织对血浆DNA的贡献比例。
2.具有转移的癌症
从没有免疫沉淀的血浆DNA中推断出的组蛋白修饰的ChIP信号可用于区分局部癌症和转移性癌症。我们分析了4个局部结直肠癌(CRC)患者,7个具有肝转移的CRC患者和8个健康对照样品的群组。对于每个样品,我们推断了结肠和肝特异性区域的H3K27ac ChIP信号。使用长度范围在230-350bp内的分子的累积频率推断H3K27ac ChIP信号。
图49A是比较健康对照与患有CRC的对象的结肠特异性H3K27ac区域中血浆DNA结果的图。该图显示在y轴上的推断的H3K27ac信号和在x轴上的对象类型(健康的,不具有肝转移的CRC,和具有肝转移的CRC)。每个点代表一个血浆DNA样品。在健康对象中推断的H3K27ac信号(中值:0.54;范围:0.27-1.08)低于局部(即,无肝转移)CRC患者的水平(中值:0.81;范围:0.47-1.09)和具有肝转移的CRC患者(中值:1.73;范围:0.93-22.28)。
图49B是比较健康对照与患有CRC的对象的肝特异性H3K27ac区域中血浆DNA结果的图。该图显示在y轴上的推断的H3K27ac信号和在x轴上的对象类型(健康的,不具有肝转移的CRC,和具有肝转移的CRC)。每个点代表一个血浆DNA样品。显示肝特异性H3K27ac区域的推断的H3K27ac水平只有在具有肝脏转移的CRC患者中增加,表明由肝转移引起的对cfDNA的肝脏贡献增加。从结肠特异性区域和肝特异性区域获取数据,可以使用推断的ChIP信号来区分局部的和转移的癌症患者,这可以为临床管理提供信息。
D.尿液DNA组织映像的实例
我们已经说明,通过比较血浆DNA组蛋白修饰的分布与来源于多种器官,组织或细胞的组蛋白修饰的分布,可以推断出对血浆DNA池的相对组织贡献。我们进一步证明,本公开内容中存在的这些方法可以延伸到尿液样品中。
图50是尿液和血浆样品中组织贡献的图。x轴显示组织的类型。y轴显示组织的贡献百分比。每个组织包括两个盒图。第一个盒图(灰色)表示来自血浆样品的资料。第二个盒图(黑色)表示来自尿液样品的资料。对于尿液样品,通过将尿液DNA组蛋白修饰(例如H3K27ac)的分布与来源于参考器官、组织或细胞的组蛋白修饰的分布进行比较来推断贡献。对于血浆样品,通过比较血浆DNA组蛋白修饰的分布与来源于参考器官,组织或细胞的组蛋白修饰的分布,来类似地推断出该贡献。
与血浆DNA样品中的对应物(肾中值:0.00%,膀胱中值:0.00%)相比,尿液DNA样品显示出显著更高的肾(中值:10.66%)和膀胱(中值:4.98%)贡献百分比,这是从尿液样品预期的。这些结果表明尿液样品可用于使用推断的组蛋白修饰水平确定组织贡献。
E.用于确定浓度分数的示例性方法
图51是与确定组织类型的浓度分数相关的示例性过程5100的流程图。在一些实施方式中,图51的一个或多个过程框可以由系统(例如,测量系统5900)执行。在一些实施方式中,图51的一个或多个过程框可以由与系统分开或包括系统的另一个装置或一组装置来执行。另外,或者可替换地,图51的一个或多个过程框可以由测量系统5900的一个或多个部件执行,例如测定5908,测定装置5910,检测器5920,逻辑系统5930,本地存储器5935,外部内存5940,存储装置5945和/或处理器5950。
在框5110,鉴定N个基因组区域。n是大于1的整数。N个基因组区域可以是已知携带组织特异性组蛋白修饰的区域。该区域可以通过本文所述的标准来确定。例如,该区域可以具有大于截止量的组织的组蛋白修饰水平。截止量可以是标准化的ChIP信号,基于相对百分比差异,和/或基于所有组织类型的变异系数。该区域可以是本文所述的任何感兴趣的区域。
在框5120,对于M种组织类型中的每一种,获得在N个基因组区域的N种组织特异性组蛋白修饰水平。N大于或等于M。组蛋白修饰可以是H3K27ac、H3K4me3或本文所述的任何组蛋白修饰。组织组蛋白修饰水平形成长度为N×M的矩阵A。M种组织类型中的一种对应于第一组织类型。第一组织类型可以是胎儿,红血球母细胞,图37或图38中列出的任何组织,或本文所述的任何组织。N个基因组区域中的至少一个基因组区域包括来自M种组织类型中的至少两种的非零组蛋白修饰水平。例如,至少一种组蛋白修饰水平可以不排它到单个组织。
在框5130,接收输入数据向量b。输入数据向量b可以包括在N个基因组区域的N种混合物组蛋白修饰水平。可以从对象的生物样品中的多个无细胞DNA分子测量N种混合物组蛋白修饰水平。生物样品可以是本文所述的任何生物样品。可以通过无细胞染色质免疫沉淀测序(cfChIP-seq),通过测定多个无细胞DNA分子中一种或多种序列模序的集合的一个或多个相对频率,或通过测定多个无细胞DNA分子中一个或多个长度范围的一个或多个相对频率来测量N种混合物组蛋白修饰水平。也可以使用除序列模序和长度范围之外的片段化特征的相对频率。混合物组蛋白修饰水平可以通过本文所述的任何方法测定。
在框5140,使用计算机系统并使用矩阵A和输入数据向量b来确定第一组织类型的浓度分数。可以使用二次规划来确定贡献分数。
过程5100可以包括使用浓度分数来确定分类。例如,第一组织类型可以是胎儿组织,并且过程5100还可以包括使用第一组织类型的浓度分数来确定对象中妊娠的分类。妊娠的分类可以是妊娠是否存在,胎儿的胎龄(例如,中期),或妊娠相关病症的等级(例如,存在)。
作为另一个例子,过程5100可以包括使用第一组织类型的浓度分数来确定疾病的分类。例如,该疾病可以是重型β-地中海贫血,缺铁性贫血,再生障碍性贫血或特发性血小板减少性紫癜。第一组织类型可以是红血球母细胞,单核细胞,脑,T细胞,嗜中性粒细胞,巨核细胞或本文所述的任何其它组织。疾病等级可以是疾病是否存在或疾病的严重程度。所述疾病可以是第一组织类型的疾病(例如癌症)。
尽管图51显示了过程5100的示例性框,但是在一些实施方式中,过程5100可以包括与图51中所示的那些框相比另外的框,更少的框,不同的框,或不同排列的框。另外,或者可替换地,可以并行地进行过程5100的两个或更多个框。
F.用于确定妊娠或疾病的分类的示例性方法
图52是与确定组织类型的浓度分数相关的示例性过程5200的流程图。在一些实施方式中,图52的一个或多个过程框可以由系统(例如,测量系统5900)执行。在一些实施方式中,图52的一个或多个过程框可以由与系统分开或包括系统的另一个装置或一组装置来执行。另外,或者可替换地,图52的一个或多个过程框可以由测量系统5900的一个或多个组件来执行,诸如测定5908,测定装置5910,检测器5920,逻辑系统5930,本地存储器5935,外部内存5940,存储装置5945和/或处理器5950。
在框5210,鉴定N个基因组区域。框5210可以以与框5110相同的方式执行。
在框5220,对于M种组织类型中的每一种,获得在N个基因组区域的N种组织特异性组蛋白修饰水平。N大于或等于M。框5220可以以与框5120相同的方式执行。
在框5230,接收输入数据向量b。框5230可以以与框5130相同的方式执行。
在框5240,可以使用计算机系统,矩阵A和输入数据向量b来确定对象中妊娠的分类或对象中疾病的分类。妊娠的分类或疾病的分类可以是用过程5100描述的任何分类。过程5200可以在不确定组织类型的浓度分数的情况下确定分类。
确定妊娠的分类或疾病的分类可以包括将矩阵A和输入数据向量b输入到模型(例如,机器学习模型)中。可以通过接收矩阵A和从多个训练对象的多个生物样品获得的多个训练输入数据向量b来训练模型。每个训练对象可以具有训练对象的状况的已知分类。所述状况可以是妊娠的状态或疾病的已知分类或本文所述的任何状况。可以存储多个训练样品。每个训练样品可以包括多个训练输入数据向量b中的一个和指示状况的已知分类的第一标签。当矩阵A和多个训练输入数据向量b被输入到模型时,基于匹配或不匹配第一卷标的相应卷标的模型的输出,可以使用多个训练样品来优化模型的参数。模型的输出可以指定状况的分类。可以使用该模型来确定状况的分类。
该模型可以包括卷积神经网络(CNN)。CNN可以包括卷积过滤器的集合,其被配置为对多个输入数据向量b进行过滤。过滤器可以是这里描述的任何过滤器。用于每一层的过滤器的数目可为10至20、20至30、30至40、40至50、50至60、60至70、70至80、80至90、90至100、100至150、150至200或更多。过滤器的内核长度可以是2、3、4、5、6、7、8、9、10、11、12、13、14、15、15至20、20至30、30至40或更大。CNN可以包括被配置成接收经过滤的多个输入数据向量b的输入层。CNN还可以包括多个隐藏层,这些隐藏层包括多个节点。多个隐藏层中的第一层耦合到输入层。CNN还可以包括输出层,该输出层耦合到多个隐藏层中的最后一层,并且被配置为输出输出数据结构。输出数据结构可以包括性质。
该模型可以包括监督学习模型。监督学习模型可以包括不同的方法和算法,包括分析学习、人工神经网络、反向传播、提升(元算法)、贝叶斯统计、基于案例的推理、判定树学习、归纳逻辑程序设计、高斯过程回归、遗传程序设计、数据处理的分组方法、内核估计器、学习自动机、学习分类器系统、最小消息长度(判定树、决策图等)、多线性子空间学习、朴素贝叶斯分类器、最大熵分类器、条件随机场、最近邻算法、可能近似正确学习(PAC)学习、脉动规则、知识获取方法、符号机器学习算法、子符号机器学习算法、支持向量机、最小复杂度机器(MCM)、随机森林、分类器的集成、顺序分类、数据预处理、处理不平衡数据集、统计关系学习、或Proaftn(一种多准则分类算法)。该模型可以是线性回归、逻辑回归、深度递归神经网络(例如,,长短期记忆、LSTM)、贝叶斯分类器、隐马尔可夫模型(HMM)、线性判别分析(LDA)、k均值聚类、具有噪声的基于密度的聚类算法(DBSCAN)、随机森林算法、支持向量机(SVM)、或这里描述的任何模型。
作为训练机器学习模型的一部分,可以基于训练样品(训练集)来优化机器学习模型的参数(例如权重,阈值,例如可以用于神经网络中的启动功能等),以在对目标位置处的核苷酸的修饰进行分类中提供优化的准确性。可以执行各种形式的优化,例如,反向传播,经验风险最小化和结构风险最小化。可以使用样品的验证集(数据结构和卷标)来验证模型的准确性。交叉验证可以使用训练集的不同部分来执行,用于训练和验证。所述模型可以包括多个子模型,从而提供集成模型。所述子模型可以是较弱的模型,一旦组合就提供更准确的最终模型。
尽管图52显示了过程5200的示例性框,但是在一些实施方式中,过程5200可以包括与图52中所示的框相比另外的框,更少的框,不同的框,或不同排列的框。另外,或者可替换地,可以并行地进行过程5200的两个或更多个框。
VI.使用序列模序和片段长度的病症检测
在实施方案中,片段长度和序列模序中的一种或两种可用于对妊娠或病症进行分类。例如,末端模序可如本申请中别处,包括在图23的部分0和过程2300中所描述的那样来使用。可以使用片段的长度,其可以不限于某些末端模序。机器学习模型可以使用末端模序和/或片段长度来对妊娠或病症进行分类。
A.示例性结果
图53说明了包括在机器学习模型中以区分肝细胞癌(HCC)和非HCC病例的输入特征。数组5304、5308、5312和5316各自都包括来自组织特定区域的数据。组织特异性区域包括肝特异性区域,嗜中性粒细胞特异性区域,巨核细胞特异性区域和红血球母细胞特异性区域。每个数组包括片段长度和片段末端模序信息。在230-350nt内的所有分子(当考虑长度时,所述分子不限于任何特定的片段末端模序)的频率是在每个数组中。例如,在数组5304中,与长度为230的肝特异性区域对齐的片段相对于肝特异性区域中的其它长度具有0.1的频率。其它长度范围也是可能的。
所述数组还包括具有9种H3K27ac相关的末端模序的所有分子的频率(当考虑末端模序时,所述分子不限于任何片段长度)。H3K27ac相关的末端模序包括但不限于CCGG、CCGC、GCGG、TCGG、TCGC、CCGA、CCCG、GCGC和/或CCGT。H3K27ac相关的末端模序可以由末端模序来定义,与没有免疫沉淀的血浆DNA样品的测序结果中低H3K27ac信号的区域相比,所述末端模序在具有高H3K27ac信号的区域中被过度表现。例如,当比较具有高和低H3K27ac信号的区域中的血浆DNA样品的结果时,过度表现可以是1x、2x、3x、4x、5x、6x、7x、8x、9x、10x、20x、30x、50x等的末端模序频率的倍数变化。在一些实施方案中,H3K27ac相关的末端模序可以由那些模序来定义,与没有免疫沉淀的血浆DNA样品的结果相比,那些模序在具有免疫沉淀的血浆DNA样品的测序结果中过度表现。例如,当比较具有和不具有免疫沉淀的血浆DNA样品的结果时,过度表现可以是1x、2x、3x、4x、5x、6x、7x、8x、9x、10x、20x、30x、50x等的末端模序频率的倍数变化。
来自所有数组(即,一个更大的数组或矩阵)的数据可以被输入到机器学习模型中以区分非HCC对象和HCC对象。机器学习模型可以包括但不限于支持向量机,随机森林,卷积神经网络,或这里描述的任何模型。在该实例中,对于一种类型的组织特异性H3K27ac相关区域总共有130种性质。对于四个不同的组织特异性区域,有520种性质。
图54A和图54B显示了来自使用图53所示性质的机器学习模型的结果。图54A显示由对照对象,患有慢性乙型肝炎病毒(HBV)的对象和患有HCC的对象的机器学习模型确定的HCC的概率。y轴是HCC概率。x轴显示了对象的类型。图54A显示,与没有HCC的患者相比,由上述机器学习模型确定的HCC概率在HCC患者中显著更高。
图54B是接收者操作特征(ROC)曲线。灵敏度在y轴上。灵敏度在x轴上。ROC分析显示,通过HCC概率可以实现用于区分非HCC和HCC病例的0.96的曲线下面积(AUC)。
图55是显示使用用于区分非HCC和HCC病例的不同片段组学性质测定的AUC值的图。y轴显示了AUC值。x轴显示了用于机器学习模型中以区分非HCC和HCC病例的不同片段组学性质。第一列显示了使用在230-350bp内的分子长度的频率的AUC为0.93。该模型包括484种性质(121种不同的长度和4种组织特异性区域)。第二列显示了使用具有H3K27ac相关模序的分子的频率的AUC为0.95。该模型使用36个特征(9个模序和4个组织特异性区域)。第三列使用230-350bp内的分子长度的频率和H3K27ac相关模序的频率,具有0.96的AUC。该模型使用520种性质,并在图53和54中描述。图55显示了组合长度频率和模序频率提高了确定HCC情况的准确性。图55还显示单独地对于不同的组织特异性区域,长度频率和模序频率可用于区分HCC病例与非HCC病例。
B.示例性方法
图56是分析对象的生物样品以确定对象的状况的分类的示例性过程5600的流程图。生物样品包括无细胞DNA片段。在一些实施方式中,图56的一个或多个过程框可以由系统(例如,测量系统5900)执行。在一些实施方式中,图56的一个或多个过程框可以由与系统分开或包括系统的另一个装置或一组装置来执行。另外,或者可供选择地,图56的一个或多个过程框可以由测量系统5900的一个或多个部件来执行,例如测定5908,测定装置5910,检测器5920,逻辑系统5930,本地存储器5935,外部内存5940,存储装置5945和/或处理器5950。过程5600可以包括结合过程1700描述的方面。
在框5610,接收无细胞DNA片段的多个序列读数。多个序列读数可包括对应于无细胞DNA片段末端的末端序列。
在框5620,鉴定位于一个或多个基因组区域中的一组序列读数。一个或多个基因组区域中的每一个可以具有与一种或多种靶组织类型相关的组蛋白修饰。一种或多种靶组织类型可包括具有癌症或胎儿组织的器官。在一些实施方案中,一种或多种靶组织类型可包括肝,嗜中性粒细胞,巨核细胞或红血球母细胞。组蛋白修饰可以是H3K4me1、H3K4me2、H3K27me3、H3K27ac、H3K36me3、H3K9me2、H3K9me3、H3S10P、H3R2me、H3T2P、H3K14ac、H3K9ac、H3K79me2、H3K79me3、H4K5ac、H4K8ac、H4K12ac、H4K16ac、H4K20me、H2BK120ub或H2AK119ub。
在框5630,为该组序列读数的每个序列读数确定对应于相应的无细胞DNA片段的一个或多个末端序列的一种或多种序列模序。一种或多种序列模序的集合可以包括1至5、5至10、11至15、15至20、或20至25种序列模序。无细胞DNA片段可以由具有所述一种或多种序列模序的集合的序列模序的片段组成。
在框5640,使用所述序列读数测量无细胞DNA片段的长度。无细胞DNA片段可以具有预定长度范围的长度。预定长度范围可以是本文所述的任何长度范围,包括230-350nt。
在框5650,为一种或多种靶组织类型中的每一种确定一种或多种序列模序的集合的一个或多个序列模序频率。一种或多种序列模序的集合在针对与组蛋白修饰相关的一个或多个基因组区域中,其出现在染色质免疫沉淀测序(ChIP-seq)中的比率比没有染色质免疫沉淀的测序中的比率更高。
在框5660,为一种或多种靶组织类型中的每一种确定一个或多个长度范围的序列读数的一个或多个长度频率。
在框5670,将一种或多种靶组织类型中的每一种的一个或多个序列模序频率和一个或多个长度频率输入到机器学习模型中。机器学习模型可以包括支持向量机,随机森林或卷积神经网络。机器学习模型可以是这里公开的任何机器学习模型,包括与过程5200所描述的模型类似的模型。
机器学习模型可以通过接收训练数据集来训练。对于一种或多种靶组织类型中的每一种,训练数据集可以包括一种或多种序列模序的集合的训练序列模序频率和来自多个训练对象的多个生物样品的无细胞DNA片段的训练长度频率。每个训练对象可以具有已知的状况分类。
还可以通过存储多个训练样品来训练机器学习模型。对于一种或多种靶组织类型中的每一种,每个训练样品可以包括在训练样品中的无细胞DNA片段中出现的一种或多种序列模序的集合的一个或多个训练序列模序频率。对于一种或多种靶组织类型中的每一种,每个训练样品可以包括训练样品中的无细胞DNA片段的训练序列长度频率。每个训练样品还可以包括指示状况的已知分类的第一标签。
当将一种或多种靶组织类型中的每一种的序列模序频率和长度频率输入到机器学习模型时,可以通过使用多个训练样品基于匹配或不匹配第一卷标的相应卷标的机器学习模型的输出来优化机器学习模型的参数来训练机器学习模型。机器学习模型的输出可以指定状况的分类。
在一些实施方案中,过程5600可以包括,对于一种或多种序列模序的集合中的每种序列模序,确定具有相应序列模序的片段的长度参数。长度参数可以是具有相应序列模序的片段的统计值(例如,平均值、中值、模式、百分位数)。过程5600还可以包括将一个或多个长度参数输入到机器学习模型中。在这些实施方案中的机器学习模型可以用包括所确定的长度参数的训练样品来训练。
在框5680,使用机器学习模型来确定对象的状况的分类。所述状况可以是妊娠。例如,妊娠的分类可提供胎龄或妊娠相关病症(包括本文所述的任何妊娠相关病症)的存在或严重程度。所述状况可以是疾病。疾病的分类可以是疾病的存在或严重程度。所述疾病可以是癌症,包括肝细胞癌(HCC)或本文所述的任何癌症。
在一些实施方案中,可以修改过程5600,以便使用序列模序频率或长度频率。例如,过程5600可以包括仅使用特定长度范围内的分子的长度频率(例如,图55中的第一列)。在这种情况下,框5630和框5650是可选的。可以修改框5670,使得一个或多个长度频率被输入到机器学习模型中,而不是一个或多个序列模序频率。作为另一个实例,过程5600可以包括仅使用分子的模序频率(例如,图55中的第二列)。在这种情况下,框5640和框5660是可选的。可以修改框5670,使得一个或多个序列模序频率被输入到机器学习模型中,而不是一个或多个长度频率。
过程5600可以包括另外的实施方式,例如本文所述的任何单个实施方式或实施方式的任何组合和/或结合本文别处所述的一个或多个其它过程。
尽管图56显示了过程5600的示例性框,但是在一些实施方式中,过程5600可以包括与图56中所示的块相比另外的框,更少的框,不同的框,或不同排列的框。另外,或者可替换地,可以并行地进行过程5600的两个或更多个框。
VII.富集区域
与特定表观基因组状态相关的DNA片段对显示末端模序的特定集合的偏好可用于富集具有该特定表观基因组状态的DNA的样品。因此,实施方案可以富集临床相关DNA(包括来自特定组织的DNA)的样品。例如,只有具有特定末端序列的DNA片段可以使用测定进行测序,扩增和/或捕获。作为另一个例子,可以进行对序列读数的过滤。
A.物理富集
物理富集可以以各种方式进行,例如通过靶向测序或PCR,这可以使用特定的引物或接头进行。如果检测到末端序列的特定末端模序,则可以将接头添加到片段的末端。然后,当进行测序时,只有带有接头的DNA片段将被测序(或至少主要被测序),从而提供靶向测序。
作为另一个实例,可以使用与末端模序的特定集合杂交的引物。然后,可以使用这些引物进行测序或扩增。对应于所述特定末端模序的捕获探针也可用于捕获具有那些末端模序的DNA分子以用于进一步分析。一些实施方案可以将短寡核苷酸连接到血浆DNA分子的末端。然后,可以设计探针,使得其将仅识别部分是末端模序和部分是连接的寡核苷酸的序列。
一些实施方案可以使用基于CRISPR的诊断技术,例如使用引导RNA定位对应于临床相关DNA的优选末端模序的位点,然后使用核酸酶切割DNA片段,这可以使用Cas-9或Cas-12进行。例如,接头可用于识别末端模序,然后CRISPR/Cas9或Cas-12可用于切割末端模序/接头杂合体并产生通用的可识别末端,用于进一步富集具有所需末端的分子。
图57是与富集生物样品的临床相关DNA相关的示例性过程5700的流程图。生物样品可以包括临床相关的DNA和其它DNA,它们是无细胞的。在一些实施方式中,图57的一个或多个过程框可以由系统(例如,测量系统5900)执行。在一些实施方式中,图57的一个或多个过程框可以由与系统分开或包括系统的另一个装置或一组装置来执行。另外,或者可供选择地,图57的一个或多个过程框可以由测量系统5900的一个或多个部件执行,例如测定5908,测定装置5910,检测器5920,逻辑系统5930,本地存储器5935,外部内存5940,存储装置5945和/或处理器5950。过程5700可以包括结合过程1700描述的方面。
在框5710,接收无细胞DNA片段的多个序列读数。所述多个序列读数包括对应于所述多个无细胞DNA片段的末端的末端序列。一种或多种序列模序可以对应于每个无细胞DNA片段的一个或多个末端序列。框5710可以以与框1710类似的方式进行。
在框5720,鉴定一种或多种序列模序的集合。一种或多种序列模序的集合在针对临床相关DNA的组蛋白修饰的染色质免疫沉淀测序(ChIP-seq)中出现的比率比在没有染色质免疫沉淀的测序中更高。鉴定序列模序可以与结合过程1700以及图3、10、11和51所描述的程序类似。
在框5730,可以使多个无细胞DNA片段经受检测所述多个无细胞DNA片段的末端序列中的一种或多种序列模序的集合的一种或多种探针分子,从而获得检测到的DNA片段。探针分子的这种使用可导致获得检测到的DNA片段。在一个实例中,一种或多种探针分子可以包括一种或多种酶,其探寻多个无细胞DNA片段并附加用于扩增检测到的DNA片段的新序列。在另一个实例中,一种或多种探针分子可以连接到用于通过杂交检测末端序列中的序列模序的表面。
在框5740,检测到的DNA片段用于富集生物样品的临床相关DNA片段。在一些实施方案中,使用检测到的DNA片段来富集生物样品可以包括扩增检测到的DNA片段。在一些实施方案中,使用检测到的DNA片段来富集生物样品的临床相关DNA片段可以包括捕获检测到的DNA片段和丢弃未检测到的DNA片段。
过程5700还可以包括分析富集的生物样品以确定起源组织或疾病等级的分类。分析富集的生物样品可以包括对富集的生物样品中的DNA片段进行测序。
过程5700可以包括另外的实施方式,例如本文所述的任何单个实施方式或实施方式的任何组合和/或结合本文所述的一个或多个其它过程。
尽管图57显示了过程5700的示例性框,但是在一些实施方式中,过程5700可以包括与图57中所示的框相比更多的框,更少的框,不同的框,或不同排列的框。另外,或者可替换地,可以并行地执行过程5700的两个或更多个框。
B.计算机模拟富集
计算机模拟富集可使用各种标准来选择或丢弃某些DNA片段。这种标准可包括末端模序,开放染色质区域,长度,序列变异,甲基化和其它表观遗传学特征。表观遗传学特征包括不涉及DNA序列变化的基因组的所有修饰。所述标准可指定截止值,例如需要某些性质,例如特定长度范围,高于或低于特定量的甲基化度量,多于一个CpG位点的甲基化状态的组合(例如甲基化单倍型(Guo et al,Nat Genet.2017;49:635-42)等,或具有高于阈值的组合概率。这种富集也可以包括基于这种概率对DNA片段加权。
作为实例,富集的样品可用于分类病理学(如上所述),以及用于鉴定肿瘤或胎儿突变或用于标签计数以用于染色体或染色体区域的扩增/缺失检测。例如,如果特定的末端模序或末端模序的集合与肝癌相关(即,比非癌症或其它癌症高的相对频率),则进行癌症筛查的实施方案可以对这种DNA片段的加权高于不具有该优选的末端模序或该优选的末端模序的集合的DNA片段。
图58是与富集生物样品的临床相关DNA相关的示例性过程5800的流程图。生物样品可以包括临床上相关的DNA和其它DNA,它们是无细胞的。临床相关DNA是来自起源组织的DNA或来自患病组织的DNA。在一些实施方式中,图58的一个或多个过程框可以由系统(例如,测量系统5900)执行。在一些实施方式中,图58的一个或多个过程框可以由与系统分开或包括系统的另一个装置或一组装置来执行。另外,或者可供选择地,图58的一个或多个过程框可以由测量系统5900的一个或多个部件执行,例如测定5908,测定装置5910,检测器5920,逻辑系统5930,本地存储器5935,外部内存5940,存储装置5945和/或处理器5950。过程5800可以包括结合过程1700描述的方面。
在框5810,接收无细胞DNA片段的多个序列读数。所述多个序列读数包括对应于所述多个无细胞DNA片段的末端的末端序列。一种或多种序列模序可以对应于每个无细胞DNA片段的一个或多个末端序列。框5810可以以与框1710类似的方式进行。
多个序列读数可以位于一个或多个预定基因组区域中,其中一个或多个预定基因组区域中的每一个具有与一种或多种靶组织类型相关的组蛋白修饰。序列读数可以与参考基因组比对以确定它们的位置。鉴定序列读数在这些位置中可以以与框1720类似的方式来进行。
在框5820,为一组序列读数的每个序列读数确定对应于无细胞DNA片段的一个或多个末端序列的一种或多种序列模序。框5820可以以与框1730类似的方式进行。
在框5830,鉴定一种或多种序列模序的集合。一种或多种序列模序的集合在针对临床相关DNA的组蛋白修饰的染色质免疫沉淀测序(ChIP-seq)中出现的比率比在没有染色质免疫沉淀的测序中更高。鉴定序列模序可以类似于结合过程1700以及图3、10、11和51所描述的程序。
在框5840,鉴定在末端序列中具有一种或多种序列模序的集合的一组序列读数。这可以被看作是过滤的第一阶段。
在框5850,基于包括一种或多种序列模序集合的序列模序的序列读数的末端序列,为所述组的序列读数的每个序列读数确定序列读数对应于临床相关DNA的可能性。例如,对于所述组的序列读数的每个序列读数,序列读数对应于临床相关DNA的可能性可以基于包括一种或多种序列模序集合的序列模序的序列读数的末端序列来确定。
在框5860,将所述可能性与所述组的序列读数的每个序列读数的阈值进行比较。作为一个例子,可以凭经验确定阈值。例如,可以测试样品的各种阈值,即可以测量一组序列读数的临床相关DNA的浓度。最佳阈值可以使浓度最大化,同时保持序列读数的总数的某一百分比。阈值可以由健康对照或暴露于类似病因风险因素但没有疾病的对照组中存在的一种或多种末端模序的浓度的一个或多个给定百分位数(第5、10、90或95)来确定。阈值可以是回归或概率分数。
在框5870,当可能性超过所述组的序列读数的每个序列读数的阈值时,存储序列读数。序列读数可存储在内存中(例如,在文件,表或其它数据结构中),从而获得所存储的序列读数。具有低于阈值的概率的序列读数可以被丢弃或者不被存储在被保存读数的内存位置中,或者数据库的字段可以包括指示读数具有较低阈值的标志,使得随后的分析可以排除这样的读数。作为例子,可以使用各种技术来确定可能性,例如奇数比,z分数或概率分布。
在框5880,分析存储的序列读数以确定生物样品的临床相关DNA的性质。例如,该性质可以是这里描述的任何性质,包括结合其它流程图。例如,生物样品的临床相关DNA的性质可以是临床相关DNA的浓度分数。作为另一个实例,所述性质可以是从中获得生物样品的对象的病理学水平,其中病理学水平与临床相关DNA相关。作为另一个实例,所述性质可以是从中获得生物样品的孕妇的胎儿的胎龄。
可以使用其它标准来确定所述可能性。可以使用序列读数测量多个无细胞DNA片段的长度。特定序列读数对应于临床相关DNA的可能性可进一步基于对应于特定序列读数的无细胞DNA片段的长度。
也可以使用甲基化。因此,实施方案可以测量对应于特定序列读数的无细胞DNA片段的一个或多个位点处的一种或多种甲基化状态。特定序列读数对应于临床相关DNA的可能性可进一步基于一种或多种甲基化状态。作为另一个实例,读数是否在所鉴定的开放染色质区域的集合内可用作过滤器。
过程5800可以包括另外的实施方式,例如本文所述的任何单个实施方式或实施方式的任何组合和/或结合本文所述的一个或多个其它过程。
尽管图58显示了过程5800的示例性框,但是在一些实施方式中,过程5800可以包括与图58中所示的框相比另外的框,更少的框,不同的框,或不同排列的框。另外,或者可替换地,可以并行地进行过程1700的两个或更多个框。
VIII.示例性系统
图59显示了根据本公开内容的实施方案的测量系统5900。所示的系统包括样品5905,例如测定装置5910内的无细胞核酸分子(例如DNA和/或RNA),其中可以对样品5905进行测定5908。例如,样品5905可以与测定5908的试剂接触以提供物理特征5915的信号(例如,无细胞核酸分子的序列信息)。测定装置的一个实例可以是包括测定的探针和/或引物的流通池或液滴移动通过的管(液滴包括测定)。来自样品的物理特征5915(例如,荧光强度,电压或电流)由检测器5920检测。检测器5920可以以间隔(例如,周期性间隔)进行测量,以获得构成数据信号的数据点。在一个实施方案中,模数转换器将来自检测器的模拟信号在多个时间转换为数字形式。
测定装置5910和检测器5920可以形成测定系统,例如,根据本文所述的实施方案进行测序的测序系统。数据信号5925从检测器5920发送到逻辑系统5930。作为实例,数据信号5925可用于确定核酸分子(例如DNA和/或RNA)的参考基因组中的序列和/或位置。数据信号5925可以包括同时进行的多种测量,例如不同颜色的荧光染料或不同分子的样品5905的不同电信号,因此数据信号5925可以对应于多个信号。数据信号5925可以存储在本地存储器5935,外部内存5940或存储装置5945中。测定系统可以由多个测定装置和检测器组成。
逻辑系统5930可以是或可以包括计算机系统,ASIC,微处理器,图形处理单元(GPU)等。它还可以包括显示器(例如,监测器,LED显示器等)和使用者输入设备(例如,鼠标,键盘,按钮等)或与显示器(例如,监测器,LED显示器等)和使用者输入设备(例如,鼠标,键盘,按钮等)耦合。逻辑系统5930和其它部件可以是独立的或网络连接的计算机系统的一部分,或者它们可以直接连接到包括检测器5920和/或测定装置5910的装置(例如,测序装置)或结合在其中。逻辑系统5930还可以包括在处理器5950中执行的软件。逻辑系统5930可以包括存储用于控制测量系统5900以执行本文所述的任何方法的指令的计算机可读介质。例如,逻辑系统5930可以向包括测定装置5910的系统提供命令,以便执行测序或其它物理操作。这样的物理操作可以以特定的顺序进行,例如,以特定的顺序加入和除去试剂。这种物理操作可以由机器人系统,例如,包括机器人臂执行,其可以用于获得样品并执行测定。
测量系统5900还可以包括治疗装置5960,其可以向对象提供治疗。治疗装置5960可以确定治疗和/或用于执行治疗。此类治疗的实例可包括手术、放射疗法、化学疗法、免疫疗法、靶向疗法、激素疗法和干细胞移植。逻辑系统5930可以连接到治疗装置5960,例如,以提供这里描述的方法的结果。治疗装置可以接收来自其它装置,例如成像装置和用户输入(例如,以控制治疗,例如对机器人系统上的控制)的输入。
这里提到的任何计算机系统可以利用任何适当数量的子系统。这样的子系统的实例在图60的计算机系统10中示出。在一些实施方案中,计算机系统包括单个计算机设备,其中子系统可以是计算机设备的部件。在其它实施方案中,计算机系统可以包括多个计算机设备,每个计算机设备是具有内部部件的子系统。计算机系统可以包括台式和膝上型计算机,平板计算机,移动电话和其它移动装置。
图60所示的子系统通过系统总线75相互连接。另外的子系统,例如打印机74,键盘78,存储装置79,监测器76(例如,显示屏,例如LED),耦合到显示器适配器82,以及其它子系统被示出。耦合到I/O控制器71的外围装置和输入/输出(I/O)装置可以通过本领域已知的任何数量的装置连接到计算机系统,例如输入/输出(I/O)埠77(例如,USB、Lightning、Thunderbolt)。例如,I/O埠77或外部接口81(例如,以太网,Wi-Fi等)可用于将计算机系统10连接到广域网,诸如因特网,鼠标输入设备或扫描仪。经由系统总线75的互相连接允许中央处理器73与每个子系统通信并控制来自系统内存72或存储装置79(例如,诸如硬盘驱动器或光盘的固定盘)的多个指令的执行,以及子系统之间的信息交换。系统内存72和/或存储装置79可以体现为计算机可读介质。另一子系统是数据采集装置85,例如照相机,麦克风,加速度计等。这里提到的任何数据都可以从一个查不见输出到另一个部件,并且可以输出到用户。
计算机系统可包括多个相同的部件或子系统,例如,通过外部接口81,通过内部接口,或经由可从一个部件连接到另一个部件和从另一个组件移除的可移动存储装置连接在一起。在一些实施方案中,计算机系统,子系统或设备可以通过网络进行通信。在这种情况下,一个计算机可以被认为是客户机,而另一个计算机可以被认为是服务器,其中每个计算机可以是同一计算机系统的一部分。客户机和服务器可以各自包括多个系统,子系统或部件。
可以使用硬件电路(例如,专用集成电路或现场可程序设计门阵列)和/或使用以模块化或集成方式存储在内存中的计算机软件以及一般可程序设计处理器以控制逻辑的形式来实现实施方案的各方面,且因此处理器可包括存储配置硬件电路的软件指令的内存,以及具有配置指令或ASIC的FPGA。如这里所使用的,处理器可以包括单核处理器,在同一集成芯片上的多核处理器,或者在单个电路板上的多个处理单元或者联网的处理器,以及专用硬件。基于本公开内容和本文所提供的教导,所属领域的技术人员将知道和了解使用硬件以及硬件与软件的组合来实施本公开内容的实施方案的其它方式和/或方法。
本申请中描述的软件部件或功能中的任何软件部件或功能可以实施为被处理器使用任何合适的计算机语言(例如Java、C、C++、C#、Objective-C、Swift或如Perl或Python的脚本语言)使用例如常规或对象导向的技术执行的软件代码。软件代码可以存储为计算机可读介质上用于存储和/或传输的一系列指令或命令。合适的非暂时性计算机可读介质可以包含随机存取内存(RAM)、只读存储器(ROM)、如硬盘驱动器或软盘的磁性媒体、或如光盘(CD)或DVD(数字通用光盘)或蓝光光盘的光学媒体、闪存等。计算机可读介质可以是这种装置的任何组合。此外,可以重新安排操作的顺序。当过程的操作完成时,该过程可以被终止,但是也可以具有图中不包括的另外的步骤。过程可对应于方法,函数,程序,子例程,子程序等。当过程对应于函数时,其终止可以对应于该函数向调用函数或主函数的返回。
也可以使用适于经由符合各种协议的有线、光学和/或无线网络(包含因特网)传输的载波信号来编码和传输此类程序。因此,计算机可读介质可以使用以此类程序编码的数据信号产生。用程序代码编码的计算机可读介质可以与兼容设备打包在一起或与其它设备分开提供(例如,通过因特网下载)。任何此类计算机可读介质可以驻留在单个计算机产品(例如,硬盘驱动器、CD或整个计算机系统)上或内,并且可以存在于系统或网络内的不同计算机产品上或内。计算机系统可以包括监测器、打印机、或用于向用户提供本文提及的结果中的任何结果的其它合适的显示器。
本文描述的方法中的任何方法可以用包括一个或多个处理器的计算机系统完全或部分地执行,所述计算机系统可以被配置成执行步骤。可以实时地执行用处理器执行的任何操作(例如,对齐,确定,比较,计算(computing),计算(calculating))。术语“实时”可以指在某个时间约束内完成的计算操作或过程。时间约束可以是1分钟、1小时、1天或7天。因此,实施方案可以针对被配置成执行本文所述的方法中的任何方法的步骤的计算机系统,所述计算机系统可能具有执行相应步骤或相应步骤组的不同部件。尽管作为编号的步骤呈现,但是本文的方法步骤可以同时或在不同时间或以不同顺序执行。另外,这些步骤的各部分可以与来自其它方法的其它步骤的各部分一起使用。而且,步骤的全部或部分可以是任选的。另外,所述方法中的任何方法的步骤中的任何步骤都可以用模块、单元、电路、或用于执行这些步骤的系统的其它装置来执行。
在不脱离本公开内容的实施方案的精神和范围的情况下,可以以任何合适的方式组合特定实施方案的具体细节。然而,本公开内容的其它实施方案可以针对涉及每个单独方面的特定实施方案,或这些单独方面的特定组合。
出于说明和描述的目的,已经呈现了本公开的示例性实施方案的以上描述。以上描述并非旨在穷举本公开内容或将本公开内容限制于所描述的精确形式,并且根据上述教导,许多修改和变化是可能的。
除非特别指出相反的情况,否则对“一个(种)/一(a/an)”或“所述(the)”的叙述旨在表示“一个或多个”。除非特别指出相反的情况,否则“或”的使用旨在表示“包含性的或”,而非“排他性的或”。对“第一”部件的引用不一定要求提供第二部件。此外,除非明确说明,否则对“第一”或“第二”部件的引用并不将所引用的部件限制到特定位置。术语“基于”旨在表示“至少部分地基于”。
请求项可被起草为排除可以是任选的任何要素。因此,该陈述旨在用作使用诸如“单独”、“仅”等排他性术语结合请求项要素的记载或使用“否定”限制的先行基础。
本文所提及的所有专利、专利申请、出版物和描述出于所有目的以引用方式整体并入本文。没有一项被承认为是现有技术。在本申请与本文提供的参考文献之间存在冲突的情况下,本申请将占主导地位。

Claims (87)

1.分析生物样品的方法,所述生物样品包括无细胞DNA片段,所述方法包括:
接收所述无细胞DNA片段的多个序列读数;
鉴定位于一个或多个基因组区域中的一组序列读数,其中所述一个或多个基因组区域中的每一个具有与靶组织类型相关的组蛋白修饰;
确定与所述组的序列读数中的每个序列读数对应的每个无细胞DNA片段的片段组学性质的值;
确定具有在一个或多个值范围的集合中的片段组学性质的值的无细胞DNA片段的一个或多个相对频率,其中所述一个或多个值范围的集合在针对与组蛋白修饰相关的一个或多个基因组区域以不同的比率出现在染色质免疫沉淀测序(ChIP-seq)中以及没有染色质免疫沉淀的测序中;
确定所述一个或多个相对频率的合计值;
将所述合计值与一个或多个校准值进行比较;和
使用所述比较确定所述生物样品中组蛋白修饰的量。
2.根据请求项1所述的方法,其中:
所述片段组学性质是与所述无细胞DNA片段的末端的末端序列对应的序列模序,并且
所述一个或多个值范围是一种或多种序列模序。
3.根据请求项1所述的方法,其中:
所述片段组学性质是长度,并且
所述一个或多个值范围是一个或多个长度范围。
4.根据请求项1所述的方法,其中:
所述片段组学性质是拓扑形式,并且
所述一个或多个值范围是一种或多种拓扑形式。
5.根据请求项1所述的方法,其中:
所述片段组学性质是核小体印迹,并且
所述一个或多个值范围是一种或多种核小体足迹。
6.根据请求项1所述的方法,还包括:
将所述组蛋白修饰的量与一个或多个第二校准值进行比较,以及:
使用所述组蛋白修饰的量与所述一个或多个第二校准值的比较:
确定所述靶组织类型的浓度分数,
确定病症等级的分类,或者
确定所述靶组织类型的移植状态的分类。
7.分析生物样品的方法,所述生物样品包括无细胞DNA片段,所述方法包括:
接收所述无细胞DNA片段的多个序列读数,其中所述多个序列读数包括与所述无细胞DNA片段的末端对应的末端序列;
鉴定位于一个或多个基因组区域中的一组序列读数,其中所述一个或多个基因组区域中的每一个具有与靶组织类型相关的组蛋白修饰;
对于所述组的序列读数的每个序列读数,确定与相应的无细胞DNA片段的一个或多个末端序列对应的一种或多种序列模序;
确定所述一种或多种序列模序的集合中的一个或多个相对频率,其中所述一种或多种序列模序的集合在针对与组蛋白修饰相关的一个或多个基因组区域中,其出现在染色质免疫沉淀测序中的比率比没有染色质免疫沉淀的测序中的比率更高;
确定所述一个或多个相对频率的合计值;
将所述合计值与一个或多个校准值进行比较;和
使用所述比较确定来自所述靶组织类型的无细胞DNA片段的浓度分数,其中所述一个或多个校准值是从一个或多个校准样品确定的,所述一个或多个校准样品的来自所述靶组织类型的无细胞DNA片段的浓度分数是已知的。
8.根据请求项7所述的方法,其中:
所述一个或多个相对频率是一个或多个第一相对频率,
所述合计值是第一合计值,并且
所述一个或多个校准值由以下确定:
对于一个或多个校准样品的每个校准样品:
确定所述一个或多个基因组区域中的所述一种或多种序列模序的集合的一个或多个第二相对频率
确定所述一个或多个第二相对频率的第二合计值,
由此将一个或多个第二合计值中的每一个与已知的浓度分数相关联,其中所述一个或多个校准值包括所述一个或多个第二合计值。
9.根据请求项7所述的方法,其中所述合计值是选自以下的值:(i)熵值;(ii)相对频率的总和;(iii)相对频率的比值;以及(iv)多维数据点,其对应于所述一种或多种序列模序的集合的计数向量。
10.根据请求项7所述的方法,其中所述一种或多种序列模序的集合的序列模序对应于单个核苷酸、两个核苷酸的序列、三个核苷酸的序列、四个核苷酸的序列、五个核苷酸的序列、六个核苷酸的序列或七个核苷酸的序列。
11.根据请求项10所述的方法,其中所述序列模序包括在所述无细胞DNA片段末端的核苷酸。
12.根据请求项10所述的方法,其中所述序列模序在5’末端。
13.根据请求项7所述的方法,其中所述靶组织类型包括胎盘、肝脏、心脏、嗜中性粒细胞、单核细胞、B细胞、脂肪或NK细胞。
14.根据请求项7所述的方法,其中所述靶组织类型是胎盘。
所述方法还包括:
使用所述浓度分数确定妊娠相关病症或胎龄的分类。
15.根据请求项7所述的方法,还包括使用所述浓度分数确定癌症等级的分类。
16.根据请求项7所述的方法,其中:
所述组的序列读数组是第一组序列读数,
所述一个或多个基因组区域是一个或多个第一基因组区域。
所述组蛋白修饰是第一组蛋白修饰,
所述靶组织类型是第一靶组织类型,
所述一种或多种序列模序的集合是一种或多种第一序列模序的集合,
所述一个或多个相对频率是一个或多个第一相对频率,
所述合计值是第一合计值,
所述一个或多个校准样品是一个或多个第一校准样品,并且
所述浓度分数是第一浓度分数,
所述方法还包括:
鉴定位于一个或多个第二基因组区域中的第二组序列读数,其中所述一个或多个第二基因组区域中的每一个具有与第二靶组织类型相关的第二组蛋白修饰,
对于所述第二组序列读数的每个序列读数,确定对应于相应的无细胞DNA片段的一个或多个末端序列的一个或多个第二序列模序,确定所述一种或多种第二序列模序的一个或多个第二相对频率,其中所述一种或多种第二序列模序的集合在针对与第二组蛋白修饰相关的一个或多个第二基因组区域中,其出现在染色质免疫沉淀测序中的比率比没有染色质免疫沉淀的测序中的比率更高,
确定所述一个或多个第二相对频率的第二合计值,
将所述第二合计值与一个或多个第二校准值进行比较,以及
使用所述比较确定来自所述第二靶组织类型的无细胞DNA片段的第二浓度分数,其中所述一个或多个第二校准值是从一个或多个第二校准样品确定的,所述一个或多个第二校准样品的来自所述第二靶组织类型的DNA片段的浓度分数是已知的。
17.分析生物样品的方法,所述生物样品包括无细胞DNA片段,所述方法包括:
接收所述无细胞DNA片段的多个序列读数,其中所述多个序列读数包括与所述无细胞DNA片段的末端对应的末端序列;
鉴定位于一个或多个基因组区域中的一组序列读数,其中所述一个或多个基因组区域中的每一个具有与靶组织类型相关的组蛋白修饰;
对于所述组的序列读数的每个序列读数,确定与相应的无细胞DNA片段的一个或多个末端序列对应的一种或多种序列模序;
确定所述一种或多种序列模序的集合的一个或多个相对频率,其中所述一种或多种序列模序的集合在针对与组蛋白修饰相关的一个或多个基因组区域中,其出现在染色质免疫沉淀测序中的比率比没有染色质免疫沉淀的测序中的比率更高;
确定所述一个或多个相对频率的合计值;
将所述合计值与一个或多个校准值进行比较;和
使用所述比较来估计用于所述靶组织类型的特征的第一值,其中所述一个或多个校准值是从一个或多个校准样品确定的,所述一个或多个校准样品的所述靶组织类型的特征的值是已知的。
18.根据请求项17所述的方法,其中:
所述一个或多个相对频率是一个或多个第一相对频率,
所述合计值是第一合计值,
所述一个或多个校准值由以下确定:
对于一个或多个校准样品的每个校准样品:
确定所述一个或多个基因组区域中的所述一种或多种序列模序的集合的第二相对频率,以及
确定所述一个或多个第二相对频率的第二合计值,
由此将一个或多个第二合计值中的每一个与所述特征的已知值相关联,其中所述一个或多个校准值包括所述一个或多个第二合计值。
19.根据请求项17所述的方法,其中所述靶组织类型是肝脏或造血细胞。
20.根据请求项17所述的方法,其中所述靶组织类型是患有癌症的器官。
21.根据请求项17至20中任一项所述的方法,其中所述特征是癌症等级。
22.根据请求项17所述的方法,其中所述特征是器官的营养状态。
23.根据请求项17所述的方法,其中所述靶组织类型是胎儿组织。
24.根据请求项17所述的方法,其中所述生物样品是从孕妇获得的,并且其中所述靶组织类型是胎盘组织。
25.根据请求项17所述的方法,其中所述靶组织类型是胎盘组织,并且其中所述胎盘组织的特征包括妊娠对象的胎龄。
26.根据请求项17所述的方法,其中:
所述合计值是第一合计值,并且
所述一个或多个校准值是一个或多个第一校准值,
所述方法还包括:
使用所述序列读数测量所述无细胞DNA片段的长度,
确定一个或多个长度范围的序列读数的一个或多个长度频率,
确定所述一个或多个长度频率的第二合计值,以及
将所述第二合计值与一个或多个第二校准值进行比较,
其中估计所述特征的所述第一值包括使用所述第二合计值与所述一个或多个第二校准值的比较,其中所述一个或多个第二校准值是从所述一个或多个校准样品确定的。
27.分析生物样品的方法,所述生物样品包括无细胞DNA片段,所述方法包括:
接收所述无细胞DNA片段的多个序列读数,其中所述多个序列读数包括与所述无细胞DNA片段的末端对应的末端序列;
鉴定位于一个或多个基因组区域中的一组序列读数,其中所述一个或多个基因组区域中的每一个具有组蛋白修饰;
对于所述组的序列读数的每个序列读数,确定与相应的无细胞DNA片段的一个或多个末端序列对应的一种或多种序列模序;
确定所述一种或多种序列模序的集合的一个或多个相对频率,其中所述一种或多种序列模序的集合在针对与组蛋白修饰相关的一个或多个基因组区域中,其出现在染色质免疫沉淀测序中的比率比没有染色质免疫沉淀的测序中的比率更高;
确定所述一个或多个相对频率的合计值;
将所述合计值与一个或多个校准值进行比较;和
使用所述比较确定所述一个或多个基因组区域中的组蛋白修饰的量,其中所述一个或多个校准值是从一个或多个校准样品确定的,所述一个或多个校准样品的组蛋白修饰的量是已知的。
28.根据请求项27所述的方法,其中:
所述一个或多个相对频率是一个或多个第一相对频率,
所述合计值是第一合计值,
所述一个或多个校准值由以下确定:
对于一个或多个校准样品的每个校准样品:
确定所述一个或多个基因组区域中的所述一种或多种序列模序的集合的一个或多个第二相对频率,
确定所述一个或多个第二相对频率的第二合计值,
由此将一个或多个第二合计值中的每一个与组蛋白修饰的已知量相关联,其中所述一个或多个校准值包括所述一个或多个第二合计值。
29.根据请求项27或28所述的方法,其中从对所述一个或多个校准样品中的每一个进行染色质免疫沉淀测序,所述一个或多个校准样品的组蛋白修饰的量是已知的。
30.根据请求项27所述的方法,其中:
所述组的序列读数是第一组序列读数,
所述一个或多个基因组区域是一个或多个第一基因组区域,
所述一种或多种序列模序的集合是一种或多种第一序列模序的集合,
所述一个或多个相对频率是一个或多个第一相对频率,
所述合计值是第一合计值,
所述一个或多个校准值是一个或多个第一校准值,
所述组蛋白修饰的量是组蛋白修饰的第一量,并且
所述组蛋白修饰与所述一个或多个第一基因组区域中的第一组织类型和第二组织类型相关;
所述方法还包括:
鉴定位于一个或多个第二基因组区域中的第二组序列读数,其中所述一个或多个第二基因组区域中的每一个具有与所述第一组织类型和所述第二组织类型相关的组蛋白修饰;
对于所述第二组序列读数的每个序列读数,确定与相应的无细胞DNA片段的一个或多个末端序列对应的一种或多种第二序列模序;确定所述一种或多种第二序列模序的集合的一个或多个第二相对频率,其中所述一种或多种第二序列模序的集合在针对与组蛋白修饰相关的一个或多个第二基因组区域中,其出现在染色质免疫沉淀测序中的比率比没有染色质免疫沉淀的测序中的比率更高;
确定所述一个或多个第二相对频率的第二合计值;
将所述第二合计值与一个或多个第二校准值进行比较;
使用所述比较确定所述一个或多个第二基因组区域中的组蛋白修饰的第二量,其中所述一个或多个第二校准值是从一个或多个第二校准样品确定的,所述一个或多个第二校准样品的组蛋白修饰的量是已知的;和
通过求解线性或非线性方程组来确定所述第一组织类型的第一浓度分数和所述第二组织类型的第二浓度分数,所述线性或非线性方程组包括组蛋白修饰的第一量,组蛋白修饰的第二量和指定一个或多个第一基因组区域和一个或多个第二基因组区域中的每种组织类型的相应组蛋白修饰的相对量的参数。
31.根据请求项30所述的方法,其中:
所述组蛋白修饰与所述一个或多个第一基因组区域和所述一个或多个第二基因组区域中的第三组织类型相关。
所述组蛋白修饰与一个或多个第三基因组区域中的所述第一组织类型、所述第二组织类型和所述第三组织类型相关,
所述方法还包括:
以与确定组蛋白修饰的第二量相同的方式,确定在所述一个或多个第三基因组区域中的组蛋白修饰的第三量,
通过求解线性或非线性方程组来确定所述第三组织类型的第三浓度分数,所述线性或非线性方程组包括组蛋白修饰的第三量和所述一个或多个第三基因组区域中每种组织类型的相对量的参数。
32.分析生物样品的方法,所述生物样品包括无细胞DNA片段,所述方法包括:
接收所述无细胞DNA片段的多个序列读数,其中所述多个序列读数包括与所述无细胞DNA片段的末端对应的末端序列;
鉴定位于一个或多个基因组区域中的一组序列读数,其中所述一个或多个基因组区域中的每一个具有与一种或多种靶组织类型相关的组蛋白修饰;
对于所述组的序列读数的每个序列读数,确定与相应的无细胞DNA片段的一个或多个末端序列对应的一种或多种序列模序;
确定所述一种或多种序列模序的集合中的每种序列模序的一个或多个相对频率,其中所述一种或多种序列模序的集合在针对与组蛋白修饰相关的一个或多个基因组区域中,其出现在染色质免疫沉淀测序中的比率比没有染色质免疫沉淀的测序中的比率更高;
确定所述一个或多个相对频率的合计值;
将所述合计值与一个或多个校准值进行比较;和
使用所述比较确定病症等级的分类,其中所述一个或多个校准值是从一个或多个校准样品确定的,所述一个或多个校准样品的病症等级的分类是已知的。
33.根据请求项32所述的方法,其中:
所述一个或多个相对频率是一个或多个第一相对频率,
所述合计值是第一合计值,并且
所述一个或多个校准值由以下确定:
对于一个或多个校准样品的每个校准样品:
确定所述一个或多个基因组区域中的所述一种或多种序列模序的集合的第二相对频率
确定所述一个或多个第二相对频率的第二合计值,
从而将一个或多个第二合计值中的每一个与所述病症等级的已知分类相关联,其中所述一个或多个校准值包括所述一个或多个第二合计值。
34.根据请求项32所述的方法,其中所述一个或多个基因组区域中的每一个具有与一种靶组织类型相关的组蛋白修饰。
35.根据请求项34所述的方法,其中所述病症在所述一种靶组织类型中。
36.根据请求项34所述的方法,其中所述病症是所述一种靶组织类型的癌症。
37.根据请求项32所述的方法,其中所述病症是妊娠相关病症。
38.根据请求项32所述的方法,其中:
所述合计值是第一合计值,并且
所述一个或多个校准值是一个或多个第一校准值,
所述方法还包括:
使用所述序列读数测量所述无细胞DNA片段的长度,
确定一个或多个长度范围的序列读数的一个或多个长度频率,
确定所述一个或多个长度频率的第二合计值,并且
将所述第二合计值与一个或多个第二校准值进行比较,
其中确定所述病症等级的分类包括使用所述第二合计值与所述一个或多个第二校准值的比较,其中所述一个或多个第二校准值是从所述一个或多个校准样品确定的。
39.根据请求项7-37中任一项的方法,其中所述一种或多种序列模序的集合包含1-5、5-10、11-15、15-20或20-25种序列模序。
40.根据请求项7至39中任一项所述的方法,其中所述一种或多种序列模序的集合通过以下确定:
在染色质免疫沉淀测序中,确定所述一种或多种序列模序的每一种相对于其它序列模序的第一比率,
在没有染色质免疫沉淀的测序中,确定所述一种或多种序列模序的集合的每一种相对于其它序列模序的第二比率,
将所述一种或多种序列模序的集合中的每一种鉴定为具有高于所述第二比率的第一比率。
41.根据请求项7至40中任一项所述的方法,其中所述组蛋白修饰为H3K4me1、H3K4me2、H3K27me3、H3K27ac、H3K36me3、H3K9me2、H3K9me3、H3S10P、H3R2me、H3T2P、H3K14ac、H3K9ac、H3K79me2、H3K79me3、H4K5ac、H4K8ac、H4K12ac、H4K16ac、H4K20me、H2BK120ub和H2AK119ub。
42.根据请求项7至41中任一项所述的方法,还包括对所述生物样品中的所述无细胞DNA片段进行测序以获得所述多个序列读数。
43.根据请求项42所述的方法,其中所述生物样品的体积为100μl或更小。
44.根据请求项7至43中任一项所述的方法,其中所述生物样品是血浆或血清。
45.富集生物样品的临床相关DNA的方法,所述生物样品包括无细胞的所述临床相关DNA和其它DNA,所述方法包括:
接收来自所述生物样品的无细胞DNA片段的多个序列读数,所述序列读数包括与所述无细胞DNA片段的末端对应的末端序列;
对于所述多个序列读数的每个序列读数,确定与所述无细胞DNA片段的一个或多个末端序列对应的一种或多种序列模序;
鉴定一种或多种序列模序的集合,所述一种或多种序列模序在针对所述临床相关DNA的组蛋白修饰的染色质免疫沉淀测序中出现的比率比在没有染色质免疫沉淀的测序中更高;
鉴定在末端序列中具有所述一种或多种序列模序的集合的一组序列读数;
对于所述组的序列读数的每个序列读数:
基于包括所述一种或多种序列模序的集合的序列模序的所述序列读数的末端序列,确定所述序列读数对应于所述临床相关DNA的可能性;
将所述可能性与阈值进行比较;和
当所述可能性超过所述阈值时,存储所述序列读数,从而获得存储的序列读数;和
分析所存储的序列读数以确定所述生物样品的临床相关DNA的性质。
46.根据请求项45所述的方法,其中所述多个序列读数字于一个或多个预定的基因组区域中,其中所述一个或多个预定的基因组区域中的每一个具有与靶组织类型相关的组蛋白修饰。
47.根据请求项46所述的方法,其中所述临床相关DNA是来自所述靶组织类型的DNA或来自患病组织的DNA。
48.根据请求项45所述的方法,其中所述多个序列读数字于一个或多个预定的基因组区域中,其中所述一个或多个预定的基因组区域中的每一个具有与多种靶组织类型的任何靶组织类型相关的组蛋白修饰。
49.根据请求项45至48中任一项所述的方法,还包括:
使用所述序列读数测量所述无细胞DNA片段的长度,并且其中确定特定序列读数对应于所述临床相关DNA的可能性进一步基于对应于所述特定序列读数的无细胞DNA片段的长度。
50.根据请求项45至49中任一项所述的方法,还包括:
测量对应于特定序列读数的所述无细胞DNA片段的一个或多个位点处的一种或多种甲基化状态,其中确定所述特定序列读数对应于所述临床相关DNA的可能性进一步基于所述一种或多种甲基化状态。
51.富集生物样品的临床相关DNA的方法,所述生物样品包括无细胞的所述临床相关DNA和其它DNA,所述方法包括:
从所述生物样品接收多个无细胞DNA片段,其中:
所述多个无细胞DNA片段的末端具有末端序列,并且
一种或多种序列模序对应于所述多个无细胞DNA片段中的每个无细胞DNA片段的一个或多个末端序列;
鉴定所述一种或多种序列模序的集合,所述一种或多种序列模序在针对所述临床相关DNA的组蛋白修饰的染色质免疫沉淀测序中出现的比率比在没有染色质免疫沉淀的测序中更高;
使所述多个无细胞DNA片段经受一种或多种探针分子,所述探针分子检测所述多个无细胞DNA片段的末端序列中的所述一种或多种序列模序的集合,从而获得检测到的DNA片段;和
使用检测到的DNA片段来富集所述生物样品的临床相关的DNA片段。
52.根据请求项51所述的方法,还包括分析所富集的生物样品以确定起源组织或疾病等级的分类。
53.根据请求项51所述的方法,其中使用所检测到的DNA片段来富集所述生物样品的所述临床相关DNA片段包括:
扩增所检测到的DNA片段。
54.根据请求项51所述的方法,其中所述一种或多种探针分子包括一种或多种酶,所述一种或多种酶探寻所述多个无细胞DNA片段并附加用于扩增所检测到的DNA片段的新序列。
55.根据请求项51所述的方法,其中使用所检测到的DNA片段来富集所述生物样品的所述临床相关DNA片段包括:
捕获所检测到的DNA片段;和
丢弃未检测到的DNA片段。
56.根据请求项55所述的方法,其中一种或多种探针分子附着于表面并通过杂交检测所述末端序列中的序列模序。
57.分析生物样品的方法,所述生物样品包括无细胞DNA片段,所述方法包括:
鉴定N个基因组区域,N是大于1的整数;
对于M种组织类型中的每一种:
获得在所述N个基因组区域的N种组织组蛋白修饰水平,N大于或等于M,其中:
所述组织组蛋白修饰水平形成N×M维度的矩阵A,
所述M种组织类型中的一种对应于第一组织类型,并且
所述N个基因组区域中的至少一个基因组区域包括来自所述M种组织类型中的至少两种的非零组蛋白修饰水平;
接收在所述N个基因组区域包含N种混合物组蛋白修饰水平的输入数据向量b,所述N种混合物组蛋白修饰水平是从对象的生物样品中的多个无细胞DNA分子测量的;和
使用计算机系统使用矩阵A和输入数据向量b确定所述第一组织类型的浓度分数。
58.根据请求项57所述的方法,其中所述N种混合物组蛋白修饰水平通过染色质免疫沉淀测序,通过测定所述多个无细胞DNA分子中的一种或多种序列模序的集合的一个或多个相对频率,或通过测定所述多个无细胞DNA分子中的一个或多个长度范围的一个或多个相对频率来测量。
59.根据请求项57所述的方法,其中所述组蛋白修饰是H3K27ac或H3K4me3。
60.根据请求项57所述的方法,其中所述第一组织类型是胎儿或红血球母细胞组织。
61.根据请求项57所述的方法,其中所述第一组织类型是胎儿组织,
所述方法还包括:
使用所述第一组织类型的浓度分数确定所述对象中妊娠的分类。
62.根据请求项57所述的方法,还包括使用所述第一组织类型的所述浓度分数来确定疾病分类。
63.分析生物样品的方法,所述生物样品包括无细胞DNA片段,所述方法包括:
鉴定N个基因组区域,N是大于1的整数;
对于M种组织类型中的每一种:
获得在所述N个基因组区域的N种组织特异性组蛋白修饰水平,N大于或等于M,其中:
所述组织特异性组蛋白修饰水平形成N×M维度的矩阵A,所述M种组织类型中的一种对应于第一组织类型,并且
所述N个基因组区域中的至少一个基因组区域包括来自所述M种组织类型中的至少两种的非零组蛋白修饰水平;
接收在所述N个基因组区域包含N种混合物组蛋白修饰水平的输入数据向量b,所述N种混合物组蛋白修饰水平是从对象的生物样品中的多个无细胞DNA分子测量的;和
使用计算机系统使用矩阵A和输入数据向量b确定:
所述对象中妊娠的分类,或
所述对象中疾病的分类。
64.根据请求项63所述的方法,其中确定所述妊娠的分类或所述疾病的分类包括:
将矩阵A和输入数据向量b输入到机器学习模型中,所述机器学习模型通过以下训练:
存储多个训练样品,每个训练样品包括:
多个训练输入数据向量b中的一个,其中所述多个训练输入数据向量b是从多个训练对象的多个生物样品中获得的,和
指示所述训练对象的状况的已知分类的第一标签,和
当矩阵A和多个训练输入数据向量b被输入到所述机器学习模型时,利用所述多个训练样品,基于匹配或不匹配所述第一卷标的对应卷标的机器学习模型的输出来优化机器学习模型的参数,其中所述机器学习模型的输出指定状况的分类,以及
利用所述机器学习模型确定妊娠的分类或疾病的分类。
65.分析生物样品的方法,所述生物样品包括无细胞DNA片段,所述方法包括:
接收所述无细胞DNA片段的多个序列读数;
鉴定位于一个或多个基因组区域中的一组序列读数,其中所述一个或多个基因组区域中的每一个具有与一种或多种靶组织类型相关的组蛋白修饰;
测量与所述组的序列读数中的每个序列对应的每个无细胞DNA片段的长度;
确定长度在一个或多个长度范围的集合中的无细胞DNA片段的一个或多个相对频率,其中所述一个或多个长度范围的集合在针对与组蛋白修饰相关的一个或多个基因组区域以不同的比率出现在染色质免疫沉淀测序中以及没有染色质免疫沉淀的测序中;
确定所述一个或多个相对频率的合计值;
将所述合计值与一个或多个校准值进行比较;和
使用所述比较确定所述生物样品中组蛋白修饰的量。
66.根据请求项65所述的方法,还包括:
将组蛋白修饰的量与一个或多个第二校准值进行比较,和
使用组蛋白修饰的量与所述一个或多个第二校准值的比较来确定所述靶组织类型的浓度分数。
67.根据请求项65所述的方法,还包括:
将所述组蛋白修饰的量与一个或多个第二校准值进行比较,和
使用所述一个或多个第二校准值确定病症等级的分类。
68.根据请求项65所述的方法,还包括:
将所述组蛋白修饰的量与一个或多个第二校准值进行比较,和
使用所述一个或多个第二校准值确定所述靶组织类型的移植状态的分类。
69.分析对象的生物样品的方法,所述生物样品包括无细胞DNA片段,所述方法包括:
接收所述无细胞DNA片段的多个序列读数,其中所述多个序列读数包括与所述无细胞DNA片段的末端对应的末端序列;
鉴定位于一个或多个基因组区域中的一组序列读数,其中所述一个或多个基因组区域中的每一个具有与一种或多种靶组织类型相关的组蛋白修饰;
对于所述组的序列读数的每个序列读数,确定与相应的无细胞DNA片段的一个或多个末端序列对应的一种或多种序列模序;
利用所述序列读数测量所述无细胞DNA片段的长度;
对于一种或多种靶组织类型中的每一种:
确定所述一种或多种序列模序的集合的一个或多个序列模序频率,其中所述一种或多种序列模序的集合在针对与所述一个或多个基因组区域相关的组蛋白修饰的染色质免疫沉淀测序中出现的比率比在没有染色质免疫沉淀的测序中更高;
确定一个或多个长度范围的序列读数的一个或多个长度频率;
针对所述一种或多种靶组织类型中的每一种,将所述一个或多个序列模序频率和所述一个或多个长度频率输入到机器学习模型中,以及
使用所述机器学习模型确定所述对象的状况的分类。
70.根据请求项69所述的方法,其中所述状况是妊娠。
71.根据请求项69所述的方法,其中所述状况是疾病。
72.根据请求项69所述的方法,其中所述状况是癌症。
73.根据请求项69所述的方法,其中所述机器学习模型通过以下进行训练:
存储多个训练样品,每个训练样品包括:
对于所述一种或多种靶组织类型中的每一种:
出现在所述训练样品的无细胞DNA片段中的所述一种或多种序列模序的集合中的一个或多个训练序列模序频率,并且
所述训练样品中无细胞DNA片段的训练长度频率,和
指示状况的已知分类的第一标签,和
在所述机器学习模型中输入所述序列模序频率和所述长度频率时,利用所述多个训练样品,基于匹配或不匹配所述第一卷标的对应卷标的机器学习模型的输出来优化所述机器学习模型的参数,其中,所述机器学习模型的输出指定所述状况的分类。
74.根据请求项69所述的方法,其中所述无细胞DNA片段具有预定长度范围的长度。
75.根据请求项74所述的方法,其中所述预定长度范围是230至350nt。
76.根据请求项69所述的方法,其中所述无细胞DNA片段由具有所述一种或多种序列模序的集合的序列模序的片段组成。
77.根据请求项69所述的方法,还包括:
对于所述一种或多种序列模序的集合中的每种序列模序,确定具有相应序列模序的片段的长度参数,以及
将所述一个或多个长度参数输入到所述机器学习模型中。
78.根据请求项69所述的方法,其中所述一种或多种靶组织类型包括具有癌症或胎儿组织的器官。
79.根据请求项69所述的方法,其中所述一种或多种靶组织类型包括肝脏、嗜中性粒细胞、巨核细胞或红血球母细胞。
80.根据请求项69所述的方法,其中所述一种或多种序列模序的集合包含1-5、5-10、11-15、15-20或20-25种序列模序。
81.根据请求项69所述的方法,其中所述组蛋白修饰是H3K4me1、H3K4me2、H3K27me3、H3K27ac、H3K36me3、H3K9me2、H3K9me3、H3S10P、H3R2me、H3T2P、H3K14ac、H3K9ac、H3K79me2、H3K79me3、H4K5ac、H4K8ac、H4K12ac、H4K16ac、H4K20me、H2BK120ub或H2AK119ub。
82.根据请求项69所述的方法,其中所述机器学习模型包括线性回归、逻辑回归、深度递归神经网络、贝叶斯分类器、卷积神经网络(CNN)、隐马尔可夫模型(HMM)、线性判别分析(LDA)、k-均值聚类、具有噪声的基于密度的聚类算法(DBSCAN)、随机森林算法或支持向量机(SVM)。
83.包括计算机可读介质的计算机产品、所述计算机可读介质存储用于控制计算机系统执行上述请求项中任一项所述的方法的多个指令。
84.系统,包括:
根据请求项83所述的计算机产品;和
一个或多个处理器,用于执行存储在计算机可读介质上的指令。
85.系统,包括用于执行上述请求项中任一项所述的方法的装置。
86.系统,包括被配置为执行上述请求项中任一项所述的方法的一个或多个处理器的。
87.系统,包括分别执行上述请求项中任一项所述的方法的步骤的模块。
CN202380048129.7A 2022-07-29 2023-07-31 无细胞dna的表观遗传学分析 Pending CN119546781A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202263393725P 2022-07-29 2022-07-29
US63/393,725 2022-07-29
PCT/CN2023/110154 WO2024022529A1 (en) 2022-07-29 2023-07-31 Epigenetics analysis of cell-free dna

Publications (1)

Publication Number Publication Date
CN119546781A true CN119546781A (zh) 2025-02-28

Family

ID=89705552

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202380048129.7A Pending CN119546781A (zh) 2022-07-29 2023-07-31 无细胞dna的表观遗传学分析

Country Status (10)

Country Link
US (1) US20240043935A1 (zh)
EP (1) EP4562183A1 (zh)
JP (1) JP2025528058A (zh)
KR (1) KR20250041134A (zh)
CN (1) CN119546781A (zh)
AU (1) AU2023315830A1 (zh)
CA (1) CA3260582A1 (zh)
IL (1) IL317967A (zh)
TW (1) TW202424208A (zh)
WO (1) WO2024022529A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL317918A (en) * 2022-02-07 2025-02-01 Centre For Novostics Fragmentation for measuring mitotic and disease
CN118471325A (zh) * 2024-04-02 2024-08-09 上海微荷医学检验实验室有限公司 一种识别血浆样本中肿瘤信号的方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8574832B2 (en) * 2010-02-03 2013-11-05 Massachusetts Institute Of Technology Methods for preparing sequencing libraries
CN105463090A (zh) * 2015-12-21 2016-04-06 同济大学 应用于斑马鱼胚胎的先加标签的染色质免疫共沉淀高通量测序实验方法
KR102610098B1 (ko) * 2016-07-06 2023-12-04 가던트 헬쓰, 인크. 무세포 핵산의 프래그멘톰 프로파일링을 위한 방법
CN108330181A (zh) * 2018-02-27 2018-07-27 苏州睿迈英基因检测科技有限公司 一种适用于少细胞的染色质免疫共沉淀测序方法及其试剂盒和应用
WO2019175876A2 (en) * 2018-03-13 2019-09-19 Yissum Research Development Company Of The Hebrew University Of Jerusalem Ltd. Diagnostic use of cell free dna chromatin immunoprecipitation
TW202536188A (zh) * 2018-12-19 2025-09-16 香港中文大學 游離dna末端特徵

Also Published As

Publication number Publication date
AU2023315830A1 (en) 2025-01-09
IL317967A (en) 2025-02-01
CA3260582A1 (en) 2024-02-01
TW202424208A (zh) 2024-06-16
EP4562183A1 (en) 2025-06-04
WO2024022529A1 (en) 2024-02-01
US20240043935A1 (en) 2024-02-08
KR20250041134A (ko) 2025-03-25
JP2025528058A (ja) 2025-08-26

Similar Documents

Publication Publication Date Title
CN112888459B (zh) 卷积神经网络系统及数据分类方法
JP6829211B2 (ja) 癌スクリーニング及び胎児分析のための変異検出
ES2745556T3 (es) Acidos nucleicos y métodos para detectar anomalías cromosómicas
JP2025029179A (ja) 無細胞dna末端特性
CN114999567A (zh) 游离dna的片段化模式的分析
US20210238668A1 (en) Biterminal dna fragment types in cell-free samples and uses thereof
TW202342765A (zh) 用於量測甲基化及疾病之片段化
WO2020237184A1 (en) Systems and methods for determining whether a subject has a cancer condition using transfer learning
JP2024545610A (ja) 疾患分類のための長い無細胞dna分子を用いた分子分析
WO2024022529A1 (en) Epigenetics analysis of cell-free dna
US20250171858A1 (en) Enrichment of clinically-relevant nucleic acids
WO2025232810A1 (en) Fragmentation patterns for aging
WO2025077915A1 (en) Genomic origin, fragmentomics, and transcriptional correlation of long cell-free dna
US20240287593A1 (en) Single-molecule strand-specific end modalities
TW202540440A (zh) 對臨床相關核酸的富集
Caggiano et al. Epigenetic profiles of tissue informative CpGs inform ALS disease status and progression
TW202519666A (zh) 與表觀遺傳修飾相關的游離dna片段化模式的用途
WO2024155681A1 (en) Methods and systems for detecting and assessing liver conditions
JP2025539874A (ja) 尿及び血漿におけるフラグメントミクス
HK40080623A (zh) 无细胞样品中的双末端dna片段类型及其用途

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40118111

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination