KR20170044660A - Methods of determining tissues and/or cell types giving rise to cell-free dna, and methods of identifying a disease or disorder using same - Google Patents
Methods of determining tissues and/or cell types giving rise to cell-free dna, and methods of identifying a disease or disorder using same Download PDFInfo
- Publication number
- KR20170044660A KR20170044660A KR1020177004904A KR20177004904A KR20170044660A KR 20170044660 A KR20170044660 A KR 20170044660A KR 1020177004904 A KR1020177004904 A KR 1020177004904A KR 20177004904 A KR20177004904 A KR 20177004904A KR 20170044660 A KR20170044660 A KR 20170044660A
- Authority
- KR
- South Korea
- Prior art keywords
- cfdna
- tissue
- cell type
- nucleosome
- fragment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6881—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for tissue or cell typing, e.g. human leukocyte antigen [HLA] probes
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- G06F19/18—
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/10—Ploidy or copy number detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/10—Signal processing, e.g. from mass spectrometry [MS] or from PCR
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B45/00—ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2535/00—Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
- C12Q2535/122—Massive parallel sequencing
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2537/00—Reactions characterised by the reaction format or use of a specific feature
- C12Q2537/10—Reactions characterised by the reaction format or use of a specific feature the purpose or use of
- C12Q2537/165—Mathematical modelling, e.g. logarithm, ratio
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Analytical Chemistry (AREA)
- Organic Chemistry (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Public Health (AREA)
- Immunology (AREA)
- Data Mining & Analysis (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Microbiology (AREA)
- Biochemistry (AREA)
- Pathology (AREA)
- Biomedical Technology (AREA)
- Bioethics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Cell Biology (AREA)
- Primary Health Care (AREA)
- Signal Processing (AREA)
- Hospice & Palliative Care (AREA)
Abstract
본 개시내용은 대상체의 생물학적 샘플에서 무세포 DNA ("cfDNA")에 기여하는 하나 이상의 조직 및/또는 세포 유형을 결정하는 방법을 제공한다. 일부 실시양태에서, 본 개시내용은 대상체의 생물학적 샘플에서 cfDNA에 기여하는 하나 이상의 결정된 조직 및/또는 세포 유형의 함수로서 대상체에서 질환 또는 장애를 확인하는 방법을 제공한다.The present disclosure provides a method for determining one or more tissues and / or cell types that contribute to acellular DNA ("cfDNA") in a biological sample of a subject. In some embodiments, the disclosure provides a method of identifying a disease or disorder in a subject as a function of one or more determined tissues and / or cell types that contribute to cfDNA in a biological sample of the subject.
Description
우선권 주장Priority claim
본원은 마치 본원에 완전히 제시된 것처럼 그 각각의 주제가 전부 본원에 참고로 포함된, 2014년 7월 25일 출원된 미국 특허 가출원 62/029,178, 및 2014년 12월 4일 출원된 미국 특허 가출원 62/087,619를 기초로 한 우선권을 주장한다.This application claims the benefit of U.S. Provisional Patent Application No. 62 / 029,178, filed July 25, 2014, and U.S. Provisional Patent Application No. 62 / 087,619, filed December 4, 2014, each of which is incorporated herein by reference in its entirety as if fully set forth herein. Based on the following.
미국 정부의 권리에 대한 언급Mention of US Government Rights
본 발명은 미국 국립 보건원 (NIH)이 부여한 승인 번호 1DP1HG007811 하의 정부 지원으로 이루어졌다. 미국 정부는 본 발명에 대해 특정 권리를 갖는다.The present invention was made with government support under grant number 1DP1HG007811 granted by the National Institutes of Health (NIH). The US Government has certain rights to the invention.
기술 분야Technical field
본 개시내용은 무세포 DNA를 생성하는 하나 이상의 조직 및/또는 세포 유형을 결정하는 방법에 관한 것이다. 일부 실시양태에서, 본 개시내용은 대상체의 생물학적 샘플에서 무세포 DNA와 연관된 하나 이상의 결정된 조직 및/또는 세포 유형의 함수로서 대상체에서 질환 또는 장애를 확인하는 방법을 제공한다.The present disclosure relates to methods for determining one or more tissues and / or cell types that produce acellular DNA. In some embodiments, the disclosure provides a method of identifying a disease or disorder in a subject as a function of one or more determined tissues and / or cell types associated with acellular DNA in a biological sample of the subject.
무세포 DNA ("cfDNA")는 순환하는 혈장, 소변 및 인간의 다른 체액에 존재한다. cfDNA는 상대적으로 짧고 (압도적으로 200개 염기쌍 미만) 일반적으로 저농도 (예를 들어, 혈장에서 1-100 ng/mL)인 이중 가닥 DNA 단편을 포함한다. 건강한 개체의 순환하는 혈장에서, cfDNA는 주로 혈액 세포 (즉, 조혈 계통의 정상 세포)의 아폽토시스 (apoptosis)로부터 유래하는 것으로 생각된다. 그러나, 특정 상황에서, 다른 조직은 순환하는 혈장과 같은 체액에서 cfDNA의 조성에 실질적으로 기여할 수 있다.Cell-free DNA ("cfDNA") is present in circulating plasma, urine and other human fluids. cfDNA contains a double-stranded DNA fragment that is relatively short (predominantly less than 200 base pairs) and generally low in concentration (e.g., 1-100 ng / mL in plasma). In circulating plasma of healthy individuals, cfDNA is thought to originate primarily from the apoptosis of blood cells (i.e. normal cells of the hematopoietic lineage). However, in certain circumstances, other tissues may contribute substantially to the composition of cfDNA in body fluids such as circulating plasma.
cfDNA는 특정 전문 분야 (예를 들어, 생식 의학, 암 진단 및 이식 의학)에서 사용되었지만, cfDNA에 기초한 기존의 시험은 2개 이상의 세포 집단 (예를 들어, 모계 게놈 대 태아 게놈, 정상 게놈 대 암 게놈, 이식 수혜자 게놈 대 공여자 게놈 등) 사이의 유전자형 (예를 들어, 특정 서열의 1차 서열 또는 카피수 제시)의 차이에 의존한다. 불행하게도, 임의의 제시된 생물학적 샘플에서 발견된 cfDNA 단편의 압도적인 다수가, 기여하는 세포 집단 사이에서 서열이 동일한 게놈의 영역으로부터 유래하기 때문에, 기존의 cfDNA 기반 시험은 그 적용범위가 극히 제한적이다. 또한, 많은 질환 및 장애는 예를 들어 조직 손상 또는 질환 또는 장애와 연관된 염증 과정으로부터 cfDNA를 생성하는 조직 및/또는 세포 유형의 변화를 수반한다. 두 게놈 사이의 특정 서열의 1차 서열 또는 카피수 제시의 차이에 의존하는 기존의 cfDNA 기반 진단 시험은 이러한 변화를 검출할 수 없다. 따라서, 강력한 무생검 진단 방법을 제공하는 cfDNA의 잠재력은 매우 크지만, 매우 다양한 질환 및 장애의 진단에 적용될 수 있는 cfDNA 기반 진단 방법이 여전히 필요하다.Although cfDNA has been used in certain specialties (e.g., reproductive medicine, cancer diagnosis and transplant medicine), existing tests based on cfDNA have been used in more than one cell population (e. g., maternal to fetal genomes, The genome, the recipient genome to the donor genome, etc.) (e.g., the primary sequence or copy number of a particular sequence). Unfortunately, the overwhelming majority of the cfDNA fragments found in any given biological sample originate from regions of the same genome between the contributing cell populations, so existing cfDNA-based tests are of limited application. In addition, many diseases and disorders involve changes in tissue and / or cell types that produce cfDNA, for example, from inflammatory processes associated with tissue damage or disease or disorder. Existing cfDNA-based diagnostic tests that depend on differences in primary sequence or copy number presentation of a particular sequence between two genomes can not detect this change. Thus, the potential of cfDNA to provide a robust non-biopsy diagnostic method is very large, but there is still a need for a cfDNA-based diagnostic method that can be applied to diagnose a wide variety of diseases and disorders.
본 개시내용은 대상체의 생물학적 샘플에서 무세포 DNA ("cfDNA")를 생성하는 하나 이상의 조직 및/또는 세포 유형을 결정하는 방법을 제공한다. 일부 실시양태에서, 본 개시내용은 대상체의 생물학적 샘플에서 cfDNA와 연관된 하나 이상의 결정된 조직 및/또는 세포 유형의 함수로서 대상체에서 질환 또는 장애를 확인하는 방법을 제공한다.The present disclosure provides methods for determining one or more tissues and / or cell types that produce acellular DNA ("cfDNA") in a biological sample of a subject. In some embodiments, the disclosure provides a method of identifying a disease or disorder in a subject as a function of one or more determined tissues and / or cell types associated with cfDNA in a biological sample of the subject.
일부 실시양태에서, 본 개시내용은 대상체에서 무세포 DNA (cfDNA)를 생성하는 조직 및/또는 세포 유형을 결정하는 방법을 제공하고, 이 방법은 대상체로부터의 생물학적 샘플로부터 cfDNA를 단리하고, 단리된 cfDNA는 복수개의 cfDNA 단편을 포함하는 것인 단계; 복수개의 cfDNA 단편의 적어도 일부분과 연관된 서열을 결정하는 단계; cfDNA 단편 서열의 함수로서 복수개의 cfDNA 단편의 적어도 일부의 cfDNA 단편 종점에 대한 참조 게놈 내의 게놈 위치를 결정하는 단계; 및 cfDNA 단편 종점의 적어도 일부의 게놈 위치의 함수로서 cfDNA 단편을 생성하는 조직 및/또는 세포 유형의 적어도 일부를 결정하는 단계를 포함한다.In some embodiments, the disclosure provides a method of determining the tissue and / or cell type that produces acellular DNA (cfDNA) in a subject, the method comprising isolating cfDNA from a biological sample from the subject, wherein the cfDNA comprises a plurality of cfDNA fragments; Determining a sequence associated with at least a portion of a plurality of cfDNA fragments; determining the genomic location in the reference genome for at least a portion of the cfDNA fragment endpoints of the plurality of cfDNA fragments as a function of the cfDNA fragment sequence; And determining at least a portion of the tissue and / or cell type that produces the cfDNA fragment as a function of the genomic location of at least a portion of the cfDNA fragment endpoint.
다른 실시양태에서, 본 개시내용은 대상체에서 질환 또는 장애를 확인하는 방법을 제공하고, 상기 방법은 대상체로부터의 생물학적 샘플로부터 무세포 DNA (cfDNA)를 단리하고, 단리된 cfDNA는 복수개의 cfDNA 단편을 포함하는 것인 단계; 복수개의 cfDNA 단편의 적어도 일부분과 연관된 서열을 결정하는 단계; cfDNA 단편 서열의 함수로서 복수개의 cfDNA 단편의 적어도 일부의 cfDNA 단편 종점에 대한 참조 게놈 내의 게놈 위치를 결정하는 단계; cfDNA 단편 종점의 적어도 일부의 게놈 위치의 함수로서 cfDNA를 생성하는 조직 및/또는 세포 유형의 적어도 일부를 결정하는 단계; 및 cfDNA를 생성하는 결정된 조직 및/또는 세포 유형의 함수로서 질환 또는 장애를 확인하는 단계를 포함한다.In another embodiment, the disclosure provides a method of identifying a disease or disorder in a subject, the method comprising isolating cell-free DNA (cfDNA) from a biological sample from the subject, wherein the isolated cfDNA comprises a plurality of cfDNA fragments Comprising; Determining a sequence associated with at least a portion of a plurality of cfDNA fragments; determining the genomic location in the reference genome for at least a portion of the cfDNA fragment endpoints of the plurality of cfDNA fragments as a function of the cfDNA fragment sequence; determining at least a portion of the tissue and / or cell type that produces cfDNA as a function of genomic location of at least a portion of the cfDNA fragment endpoint; And identifying the disease or disorder as a function of the determined tissue and / or cell type producing the cfDNA.
다른 실시양태에서, 본 개시내용은 대상체에서 무세포 DNA (cfDNA)를 생성하는 조직 및/또는 세포 유형을 결정하는 방법을 제공하고, 이 방법은 (i) 대상체로부터 생물학적 샘플을 얻고, 생물학적 샘플로부터 cfDNA를 단리하고, cfDNA의 라이브러리 구축 및 대량 병렬 서열결정에 의해 분포 (a), (b) 및/또는 (c)를 측정하여 뉴클레오솜 지도를 작성하는 단계; (ii) 대조군 대상체 또는 알려진 질환을 갖는 대상체로부터 생물학적 샘플을 얻고, 생물학적 샘플로부터 cfDNA를 단리하고, cfDNA의 라이브러리 구축 및 대량 병렬 서열결정에 의해 분포 (a), (b) 및/또는 (c)를 측정하여 뉴클레오솜 지도의 참조 세트를 작성하는 단계; 및 (iii) 생물학적 샘플로부터의 cfDNA로부터 유래된 뉴클레오솜 지도를 뉴클레오솜 지도의 참조 세트와 비교하여 생물학적 샘플로부터 cfDNA를 생성하는 조직 및/또는 세포 유형을 결정하는 단계를 포함하고; 여기서, (a), (b) 및 (c)는 다음과 같다: (a) 인간 게놈 내의 임의의 특정 염기쌍이 cfDNA 단편의 말단에서 나타날 가능성의 분포; (b) 인간 게놈의 염기쌍의 임의의 쌍이 cfDNA 단편의 한 쌍의 말단으로서 나타날 가능성의 분포; 및 (c) 인간 게놈 내의 임의의 특정 염기쌍이 차별적인 뉴클레오솜 점유의 결과로서 cfDNA 단편 내에 나타날 가능성의 분포.In another embodiment, the disclosure provides a method of determining the tissue and / or cell type that produces acellular DNA (cfDNA) in a subject, the method comprising: (i) obtaining a biological sample from the subject, isolating cfDNA, constructing a library of cfDNA, and measuring distribution (a), (b) and / or (c) by massively parallel sequencing to generate a nucleosome map; (a), (b) and / or (c) by obtaining a biological sample from a control subject or a subject with a known disease, isolating the cfDNA from the biological sample, and constructing the library of cfDNA and mass- To produce a reference set of nucleosome maps; And (iii) comparing the nucleosome map derived from cfDNA from the biological sample with a reference set of nucleosome maps to determine the tissue and / or cell type that produces cfDNA from the biological sample; (A) the distribution of the likelihood that any particular base pair in the human genome will appear at the end of a cfDNA fragment; (b) the distribution of the likelihood that any pair of base pairs of the human genome will appear as the ends of a pair of cfDNA fragments; And (c) the distribution of the likelihood that any particular base pair in the human genome will appear within the cfDNA fragment as a result of differentially occupied nucleosomes.
또 다른 실시양태에서, 본 개시내용은 대상체에서 cfDNA를 생성하는 조직 및/또는 세포 유형을 결정하는 방법을 제공하고, 이 방법은 (i) 대상체로부터 생물학적 샘플을 얻고, 생물학적 샘플로부터 cfDNA를 단리하고, cfDNA의 라이브러리 구축 및 대량 병렬 서열결정에 의해 분포 (a), (b) 및/또는 (c)를 측정하여 뉴클레오솜 지도를 작성하는 단계; (ii) 대조군 대상체 또는 알려진 질환을 갖는 대상체로부터 생물학적 샘플을 얻고, 생물학적 샘플로부터 cfDNA를 단리하고, 미크로코쿠스 뉴클레아제, DNase 또는 트랜스포사제와 같은 효소를 사용한 염색질의 단편화로부터 유래된 DNA의 라이브러리 구축 및 대량 병렬 서열결정에 의해 분포 (a), (b) 및/또는 (c)를 측정하여 뉴클레오솜 지도의 참조 세트를 작성하는 단계; 및 (iii) 생물학적 샘플로부터의 cfDNA로부터 유래된 뉴클레오솜 지도를 뉴클레오솜 지도의 참조 세트와 비교하여 생물학적 샘플로부터 cfDNA를 생성하는 조직 및/또는 세포 유형을 결정하는 단계를 포함하고; 여기서, (a), (b) 및 (c)는 다음과 같다: (a) 인간 게놈 내의 임의의 특정 염기쌍이 서열결정되는 단편의 말단에서 나타날 가능성의 분포; (b) 인간 게놈의 염기쌍의 임의의 쌍이 서열결정되는 단편의 한 쌍의 말단으로서 나타날 가능성의 분포; 및 (c) 인간 게놈 내의 임의의 특정 염기쌍이 차별적인 뉴클레오솜 점유의 결과로서 서열결정되는 단편 내에 나타날 가능성의 분포.In another embodiment, the disclosure provides a method of determining the tissue and / or cell type that produces cfDNA in a subject, the method comprising: (i) obtaining a biological sample from the subject, isolating the cfDNA from the biological sample (a), (b) and / or (c) by constructing a library of cfDNA and massively parallel sequencing to prepare a nucleosome map; (ii) obtaining a biological sample from a control subject or a subject having a known disease, isolating the cfDNA from the biological sample, and isolating the DNA from the fragmentation of the chromatin using an enzyme such as micrococose nuclease, DNase or transporter Measuring distribution (a), (b) and / or (c) by library construction and massively parallel sequencing to create a reference set of nucleosome maps; And (iii) comparing the nucleosome map derived from cfDNA from the biological sample with a reference set of nucleosome maps to determine the tissue and / or cell type that produces cfDNA from the biological sample; Wherein (a), (b) and (c) are as follows: (a) the distribution of the likelihood that any particular base pair in the human genome will appear at the end of the fragment to be sequenced; (b) the distribution of the likelihood that any pair of base pairs of the human genome will appear as the ends of a pair of sequenced fragments; And (c) the distribution of the likelihood that any particular base pair in the human genome will appear in the sequenced fragment as a result of discriminatory nucleosomal occupancy.
다른 실시양태에서, 본 개시내용은 대상체에서 임상 병태를 진단하는 방법을 제공하고, 이 방법은 (i) 대상체로부터 생물학적 샘플을 얻고, 생물학적 샘플로부터 cfDNA를 단리하고, cfDNA의 라이브러리 구축 및 대량 병렬 서열결정에 의해 분포 (a), (b) 및/또는 (c)를 측정하여 뉴클레오솜 지도를 작성하는 단계; (ii) 대조군 대상체 또는 알려진 질환을 갖는 대상체로부터 생물학적 샘플을 얻고, 생물학적 샘플로부터 cfDNA를 단리하고, cfDNA의 라이브러리 구축 및 대량 병렬 서열결정에 의해 분포 (a), (b) 및/또는 (c)를 측정하여 뉴클레오솜 지도의 참조 세트를 작성하는 단계; 및 (iii) 생물학적 샘플로부터의 cfDNA로부터 유래된 뉴클레오솜 지도를 뉴클레오솜 지도의 참조 세트와 비교하여 임상 병태를 결정하는 단계를 포함하고; 여기서, (a), (b) 및 (c)는 다음과 같다: (a) 인간 게놈 내의 임의의 특정 염기쌍이 cfDNA 단편의 말단에서 나타날 가능성의 분포; (b) 인간 게놈의 염기쌍의 임의의 쌍이 cfDNA 단편의 한 쌍의 말단으로서 나타날 가능성의 분포; (c) 인간 게놈 내의 임의의 특정 염기쌍이 차별적인 뉴클레오솜 점유의 결과로서 cfDNA 단편 내에 나타날 가능성의 분포.In another embodiment, the disclosure provides a method of diagnosing a clinical condition in a subject, the method comprising: (i) obtaining a biological sample from the subject, isolating cfDNA from the biological sample, constructing a library of cfDNA, Measuring a distribution (a), (b) and / or (c) by a crystal to prepare a nucleosome map; (a), (b) and / or (c) by obtaining a biological sample from a control subject or a subject with a known disease, isolating the cfDNA from the biological sample, and constructing the library of cfDNA and mass- To produce a reference set of nucleosome maps; And (iii) comparing the nucleosome map derived from the cfDNA from the biological sample with a reference set of nucleosomal maps to determine the clinical condition; (A) the distribution of the likelihood that any particular base pair in the human genome will appear at the end of a cfDNA fragment; (b) the distribution of the likelihood that any pair of base pairs of the human genome will appear as the ends of a pair of cfDNA fragments; (c) The distribution of the likelihood that any particular base pair in the human genome will appear within the cfDNA fragment as a result of differentially occupied nucleosomes.
다른 실시예에서, 본 개시내용은 대상체에서 임상 병태를 진단하는 방법을 제공하고, 이 방법은 (i) 대상체로부터 생물학적 샘플을 얻고, 생물학적 샘플로부터 cfDNA를 단리하고, cfDNA의 라이브러리 구축 및 대량 병렬 서열결정에 의해 분포 (a), (b) 및/또는 (c)를 측정하여 뉴클레오솜 지도를 작성하는 단계; (ii) 대조군 대상체 또는 알려진 질환을 갖는 대상체로부터 생물학적 샘플을 얻고, 생물학적 샘플로부터 cfDNA를 단리하고, 미크로코쿠스 뉴클레아제 (MNase), DNase 또는 트랜스포사제와 같은 효소를 사용한 염색질의 단편화로부터 유래된 DNA의 라이브러리 구축 및 대량 병렬 서열결정에 의해 분포 (a), (b) 및/또는 (c)를 측정하여 뉴클레오솜 지도의 참조 세트를 작성하는 단계; 및 (iii) 생물학적 샘플로부터의 cfDNA로부터 유래된 뉴클레오솜 지도를 뉴클레오솜 지도의 참조 세트와 비교하여 생물학적 샘플로부터의 cfDNA의 기원 조직 조성을 결정하는 단계를 포함하고; 여기서, (a), (b) 및 (c)는 다음과 같다: (a) 인간 게놈 내의 임의의 특정 염기쌍이 서열결정되는 단편의 말단에서 나타날 가능성의 분포; (b) 인간 게놈의 염기쌍의 임의의 쌍이 서열결정되는 단편의 한 쌍의 말단으로서 나타날 가능성의 분포; (c) 인간 게놈 내의 임의의 특정 염기쌍이 차별적인 뉴클레오솜 점유의 결과로서 서열결정되는 단편 내에 나타날 가능성의 분포.In another embodiment, the disclosure provides a method of diagnosing a clinical condition in a subject, the method comprising: (i) obtaining a biological sample from the subject, isolating the cfDNA from the biological sample, and constructing a library of cfDNA and a mass parallel sequence Measuring a distribution (a), (b) and / or (c) by a crystal to prepare a nucleosome map; (ii) obtaining a biological sample from a control subject or a subject having a known disease, isolating the cfDNA from the biological sample, and isolating the chromosome from the chromatin fragmentation using an enzyme such as micrococose nuclease (MNase), DNase or transporter Measuring a distribution (a), (b) and / or (c) by constructing a library of DNA and mass parallel sequencing to generate a reference set of nucleosome maps; And (iii) comparing the nucleosome map derived from cfDNA from the biological sample with a reference set of nucleosome maps to determine the original tissue composition of the cfDNA from the biological sample; Wherein (a), (b) and (c) are as follows: (a) the distribution of the likelihood that any particular base pair in the human genome will appear at the end of the fragment to be sequenced; (b) the distribution of the likelihood that any pair of base pairs of the human genome will appear as the ends of a pair of sequenced fragments; (c) The distribution of the likelihood that any particular base pair in the human genome will appear in the sequenced fragment as a result of differentially occupied nucleosomes.
이들 및 다른 실시양태는 아래에서 보다 상세하게 설명된다.These and other embodiments are described in further detail below.
도 1은 작은 게놈 영역에 대해 예시된, cfDNA 단편화 패턴을 뉴클레오솜 점유와 관련시키는 3가지 유형의 정보를 보여준다. 이러한 동일한 유형의 정보는 또한 미크로코쿠스 뉴클레아제 (MNase), DNase 또는 트랜스포사제와 같은 효소를 이용한 염색질의 단편화를 통해 발생할 수 있다. 도 1a는 인간 게놈 내의 임의의 특정 염기쌍이 서열결정되는 단편의 말단 (즉, 단편화 지점)에 나타날 가능성의 분포를 보여주고; 도 1b는 인간 게놈의 염기쌍의 임의의 쌍이 서열결정되는 단편의 한 쌍의 말단 (즉, 개별 분자를 생성하는 단편화 지점의 연속적인 쌍)으로 나타날 가능성의 분포를 보여주고; 도 1c는 인간 게놈 내의 임의의 특정 염기쌍이 상이한 뉴클레오솜 점유의 결과로서 서열결정되는 단편 내에 나타날 가능성 (즉, 상대적 적용범위)의 분포를 보여준다.
도 2는 전형적인 cfDNA 서열결정 라이브러리의 삽입 크기 분포를 보여주고, 여기에는 알 수 없는 수의 건강한 개체로부터의 기증물을 포함하는 인간 혈장으로부터 유래된 한데 모은 cfDNA 샘플 (bulk.cfDNA)이 도시된다.
도 3a는 모든 cfDNA 샘플 (혈장), 종양 환자 샘플로부터의 cfDNA (종양), 임신한 여성 개체로부터의 cfDNA (임신), 인간 상이한 인간 세포주의 MNase (세포주) 및 인간 DNA 샷건 (샷건) 서열결정 라이브러리 (Shotgun)에 걸쳐 제1 (chr1) 인간 상염색체에 지도화되는 판독 개시 좌표의 고속 푸리에 변환 (Fast Fourier Transformation, FFT)으로부터의 평균 주기도 (periodogram) 강도를 보여준다.
도 3b는 모든 cfDNA 샘플 (혈장), 종양 환자 샘플로부터의 cfDNA (종양), 임신한 여성 개체로부터의 cfDNA (임신), 인간 상이한 인간 세포주의 MNase (세포주) 및 인간 DNA 샷건 서열결정 라이브러리 (샷건)에 걸쳐 마지막 (chr22) 인간 상염색체에 지도화되는 판독 개시 좌표의 고속 푸리에 변환 (FFT)으로부터의 평균 주기도 강도를 보여준다.
도 4는 모든 상염색체에 걸친 10 킬로염기 쌍 (kbp) 블록에서 196개 염기쌍 (bp)의 주기도에서 강도의 처음 3개의 주성분 (PC)을 도시한다: 도 4a는 PC 2 대 PC 1을 보여주고, 도 4b는 PC 3 대 PC 2를 보여준다.
도 5는 모든 상염색체에 걸친 10 kbp 블록에서 196 bp의 주기도로 측정된 강도의 유클리드 거리 (Euclidean distance)의 계층적 클러스터링 덴도그램 (dendogram)을 보여준다.
도 6은 모든 상염색체에 걸친 10 kbp 블록에서 181 bp 내지 202 bp의 주기도에서 강도의 처음 3개의 주성분을 보여준다: 도 6a는 PC 2 대 PC 1을 보여주고, 도 6b는 PC 3 대 PC 2를 보여준다.
도 7은 모든 상염색체에 걸친 10 kbp 블록에서 181 bp 내지 202 bp의 주기도에서 측정된 강도의 유클리드 거리의 계층적 클러스터링 덴도그램을 보여준다.
도 8은 cfDNA 데이터세트에 대한 모든 상염색체에 걸친 10 kbp 블록에서 181 bp 내지 202 bp의 주기도에서 강도의 주성분 분석 (10 PC 중 처음 7개)을 보여준다: 도 8a는 PC 2 대 PC 1을 보여주고, 도 8b는 PC 3 대 PC 2를 보여주고, 도 8c는 PC 4 대 PC 3를 보여주고, 도 8d는 PC 5 대 PC 4를 보여주고, 도 8e는 PC 6 대 PC 5를 보여주고, 도 8f는 PC 7 대 PC 6을 보여준다.
도 9는 MNase 데이터세트에 대한 모든 상염색체에 걸친 10 kbp 블록에서 181 bp 내지 202 bp 주기도에서 강도의 주성분 분석을 보여준다: 도 9a는 PC 2 대 PC 1을 보여주고, 도 9b는 PC 3 대 PC 2를 보여주고, 도 9c는 PC 4 대 PC 3을 보여주고, 도 9d는 PC 5 대 PC 4를 보여주고, 도 9e는 PC 6 대 PC 5를 보여준다.
도 10은 모든 합성 cfDNA 및 MNase 데이터세트 혼합물에 걸친 대표적인 인간 상염색체 (chr11)에 대한 평균 주기도 강도를 보여준다.
도 11은 합성 MNase 데이터세트 혼합물에 대한 모든 상염색체에 걸친 10 kbp 블록에서 181 bp 내지 202 bp 주기도에서 강도의 처음 2개의 주성분을 보여준다.
도 12는 합성 cfDNA 데이터세트 혼합물에 대한 모든 상염색체에 걸친 10 kbp 블록에서 181 bp 내지 202 bp 주기도에서 강도의 처음 2개의 주성분을 보여준다.
도 13은 합성 MNase 및 cfDNA 혼합물 데이터세트에 대한 모든 상염색체에 걸친 10 kbp 블록에서 181 bp 내지 202 bp 주기도에서 강도의 유클리드 거리의 계층적 클러스터링 덴도그램을 보여준다.
도 14는 적어도 100M 판독값을 갖는 샘플 세트에 대해 23,666개의 CTCF 결합 부위 주위의 1 kbp 윈도우에서의 판독 개시 밀도를 보여준다.
도 15는 적어도 100M 판독값을 갖는 샘플 세트에 대해 5,644개의 c-Jun 결합 부위 주위의 1 kbp 윈도우에서의 판독 개시 밀도를 보여준다.
도 16은 적어도 100M 판독값을 갖는 샘플 세트에 대한 4,417개의 NF-YB 결합 부위 주위의 1 kbp 윈도우에 대한 판독 개시 밀도를 보여준다.
도 17은 cfDNA 단편을 생성하는 과정의 개략적 개요를 보여준다. 아폽토시스 및/또는 괴사성 세포 사멸로 인해 천연 염색질이 거의 완전히 소화된다. 일반적으로 히스톤 또는 전사 인자와 회합되는 단백질 결합 DNA 단편은 우선적으로 소화에서 살아남아, 네이키드 DNA가 소실되는 동안 순환계로 방출된다. 단편은 프로테이나제 처리 후 말초 혈액 혈장으로부터 회수될 수 있다. 건강한 개체에서, cfDNA는 주로 골수 및 림프 세포 계통에서 유래되지만, 특정 의학적 병태에서는 하나 이상의 추가의 조직으로부터 유래되어 존재할 수 있다.
도 18은 통상적인 서열결정 라이브러리 제조로 관찰된 cfDNA의 단편 길이를 보여준다. 길이는 쌍 형성된 말단 서열결정 판독의 정렬에서 추정된다. 167개 염기쌍 (bp) (녹색 점선)에서 단편 길이의 재현가능한 피크는 크로마토솜과의 결합과 일치한다. 추가의 피크는 뉴클레오솜 코어 상의 DNA의 나선 피치 (helical pitch)에 대응하는 ~10.4 bp 주기도를 증명한다. 라이브러리 제조 동안 효소의 말단-복구는 5' 및 3' 오버행을 제거하고 실제 절단 부위를 손상시킬 수 있다.
도 19는 종래의 라이브러리에서 167 bp 단편 및 인접 게놈 서열의 디뉴클레오티드 조성을 보여준다. BH01 라이브러리에서 관찰된 디뉴클레오티드 빈도를 시뮬레이션된 단편으로부터 예상된 빈도와 비교하였다 (절단 및 어댑터 라이게이션 선호 둘 모두에 기인한 종점 편향에 대한 매칭).
도 20은 cfDNA 단편에 대한 단일 가닥 라이브러리 제조 프로토콜의 개략도를 보여준다.
도 21은 단일 가닥 서열결정 라이브러리 제조로 관찰된 cfDNA의 단편 길이를 보여준다. 라이브러리 제조 동안 주형 분자에 대한 효소적 말단 복구는 수행되지 않는다. 50-120 bp의 짧은 단편은 종래의 라이브러리에 비해 매우 풍부하다. ~10.4 bp의 주기도가 유지되는 동안, 그의 위상은 ~3 bp만큼 이동한다.
도 22는 단일 가닥 라이브러리에서 167 bp 단편 및 인접 게놈 서열의 디뉴클레오티드 조성을 보여준다. IH02 라이브러리에서 관찰된 디뉴클레오티드 빈도를 다시 종점 편향에 대한 매칭되는 시뮬레이션된 단편으로부터 유도된 예상된 빈도와 비교하였다. BH01과 IH02 사이의 편향의 배경 수준의 명백한 차이는 실제 라이브러리 (데이터 미제시)보다는 시뮬레이션 사이의 차이와 관련된다.
도 23a는 종래의 프로토콜로 제조된 대표적인 cfDNA 서열결정 라이브러리의 겔 영상을 보여준다.
도 23b는 단일 가닥 프로토콜로 제조된 대표적인 cfDNA 서열결정 라이브러리의 겔 영상을 보여준다.
도 24a는 cfDNA 단편의 모노뉴클레오티드 절단 편향을 보여준다.
도 24b는 cfDNA 단편의 디뉴클레오티드 절단 편향을 보여준다.
도 25는 뉴클레오솜 배치의 추정에 대한 개략적인 개요를 보여준다. 윈도우에 완전히 걸치는 단편의 수로부터 120 bp 윈도우 내의 단편 종점의 수를 차감함으로써 염기당 윈도우 보호 스코어 (windowed protection score, WPS)가 계산된다. 높은 WPS 값은 소화로부터 DNA 보호의 증가를 나타내고, 낮은 값은 DNA가 보호되지 않음을 나타낸다. 피크 콜 (call)은 상승된 WPS의 인접 영역을 확인한다.
도 26은 잘 연구된 알파-위성 어레이에서 강하게 위치된 뉴클레오솜을 보여준다. 12번 염색체 상의 동원체 주변 유전자좌에서 긴 단편 (120 bp 윈도우, 120-180 bp 판독) 또는 짧은 단편 (16 bp 윈도우, 35-80 bp 판독) 빈 (bin)에 대해 샘플 CH01의 적용범위, 단편 종점 및 WPS 값이 표시된다. CH01로부터의 뉴클레오솜 콜 (중간, 파란색 상자)은 유전자좌에 걸쳐 규칙적으로 이격된다. 2개의 공개된 연구로부터의 MNase 소화에 기초한 뉴클레오솜 콜 (중간, 보라색 및 검은색 상자)도 표시된다. 이 유전자좌는 주석 달린 알파-위성 어레이와 중첩된다.
도 27은 9번 염색체 상의 DNase I 과민성 부위 (DHS) 주위에 위치하는 추정된 뉴클레오솜 배치를 보여준다. 샘플 CH01의 적용범위, 단편 종점 및 WPS 값은 길고 짧은 단편 빈에 대해 표시된다. 회색으로 강조 표시된 과민성 영역은 긴 단편 빈에서 감소된 적용범위로 표시된다. DHS에 인접한 CH01 (중간, 파란색 상자)의 뉴클레오솜 콜은 전사 인자를 포함하는 조절 단백질에 대한 개재 서열의 접근가능성과 일치하게 전형적인 인접 쌍보다 더 넓게 떨어져 있다. 이러한 단백질과 관련될 수 있는 더 짧은 단편의 적용범위는 DHS에서 증가하고, 이는 몇몇 주석이 첨부된 전사 인자 결합 부위 (도시되지 않음)와 중첩된다. 공개된 2개의 연구로부터 MNase 소화에 기초한 뉴클레오솜 콜은 도 26에 도시된 바와 같다.
도 28은 본 개시내용의 한 실시양태에 따른 피크 콜링 및 스코어링의 개략도를 보여준다.
도 29는 GC 함량에 의한 CH01 피크 밀도를 보여준다.
도 30은 샘플에 의한 인접 피크 사이의 거리의 히스토그램을 보여준다. 거리는 피크 콜로부터 인접 콜까지 측정된다.
도 31은 샘플 사이의 피크 콜의 비교를 보여준다. 각각의 샘플 쌍에 대해, 피크 수가 적은 샘플의 각각의 피크 콜과 다른 샘플의 가장 가까운 피크 콜 사이의 거리가 계산되고, 빈 크기가 1인 히스토그램으로 가시화된다. 음수는 가장 가까운 피크가 상류임을 보여주고, 양수는 가장 가까운 피크가 하류임을 보여준다.
도 32는 샘플 사이의 피크 콜의 비교를 보여준다. 도 32a는 IH01 대 BH01을 보여주고, 도 32b는 IH02 대 BH01을 보여주고, 도 32c는 IH02 대 IH01을 보여준다.
도 33a는 실제 대 시뮬레이션된 피크에 대한 뉴클레오솜 스코어를 보여준다.
도 33b는 스코어 빈의 함수로서의 스코어 빈 내의 중앙 피크 오프셋 (좌측 y-축) 및 각각의 스코어 빈 내의 피크의 수 (우측 y-축)를 보여준다.
도 34는 샘플과 매칭된 시뮬레이션 사이의 피크 콜의 비교를 보여주고, 도 34a는 BH01 시뮬레이션 대 BH01 실제를 보여주고, 도 34b는 IH01 시뮬레이션 대 IH01 실제를 보여주고, 도 34c는 IH02 시뮬레이션 대 IH01 실제를 보여준다.
도 35는 인접 피크 사이의 거리, 샘플 CH01을 보여준다. 점선으로 표시된 검은 선은 분포 모드 (185bp)를 보여준다.
도 36은 22,626개의 전사 개시 부위 (TSS) 주위의 집계되고 조정된 윈도우 보호 스코어 (WPS; 120 bp 윈도우)를 보여준다. 가닥 및 전사 방향을 조정한 후 TSS는 0 위치에 정렬된다. 집계된 WPS는 중심 TSS에 상대적인 각각의 위치에서 TSS당 WPS를 합하여 실제 데이터와 시뮬레이션된 데이터 모두에 대해 표로 작성된다. 플로팅된 값은 실제와 시뮬레이션된 집계된 WPS 사이의 차이를 나타내고, 아래에서 보다 상세히 설명하는 바와 같이 국부 배경으로 추가 조정된다. 보다 높은 WPS 값은 절단으로부터의 우선적인 보호를 보여준다.
도 37은 22,626개의 개시 코돈 주위의 집계된 조정된 WPS를 보여준다.
도 38은 224,910개의 스플라이스 공여자 부위 주위의 집계된 조정된 WPS를 보여준다.
도 39는 224,910개의 스플라이스 수용자 부위 주위의 집계된 조정된 WPS를 보여준다.
도 40은 실제 데이터, 매치된 시뮬레이션 및 그 차이를 비롯하여 CH01의 데이터를 사용하여 다양한 유전자 특징에 대해 집계된 조정된 WPS를 보여준다.
도 41은 A/B 구획 내의 뉴클레오솜 간격을 보여준다. 중첩되지 않는 100 킬로염기 (kb) 빈 (각각 ~500개의 뉴클레오솜 콜 포함)에서 뉴클레오솜 간격의 중간값은 게놈 전체에 걸쳐 계산된다. 100 kb 분해능과 함께 GM12878에 대한 A/B 구획 예측은 간행된 자료로부터 제시된 것이다. 구획 A는 개방된 염색질과 연결되어 있고, 구획 B는 닫힌 염색질과 연관되어 있다.
도 42는 7번 및 11번 염색체 상의 뉴클레오솜 간격 및 A/B 구획을 보여준다. A/B 세분화 (빨간색 및 파란색 막대)는 주로 염색체 G-밴딩 (표의 기호 (ideogram), 회색 막대)을 요약한 것이다. 중앙 뉴클레오솜 간격 (검은 점)은 100 kb 빈에서 계산되고, A/B 세분화 위에 플로팅된다.
도 43은 긴 (상부) 분획 및 짧은 (하부) 분획에서 93,550개의 CTCF 부위에 대한 집계된 조정된 WPS를 보여준다.
도 44는 CTCF 부위에서 짧은 분획 cfDNA에 대한 집계된 조정된 WPS의 확대도를 보여준다. 밝은 빨간색 막대 (및 플롯 내의 해당 음영)는 알려진 52 bp CTCF 결합 모티프의 위치를 나타낸다. 이 막대의 어두운 빨간색 하위 부분은 FIMO 모티프 검색에 사용된 17 bp 모티프의 위치를 나타낸다.
도 45는 클러스터링된 FIMO 예측 CTCF 부위 (순전히 모티프-기반: 518,632개 부위)로부터 유래된 CTCF 부위 주위에서 계산된 -1 내지 +1 뉴클레오솜 간격, ENCODE ChIP-seq 피크 (93,530개 부위)와 중첩되는 이들 예측의 하위세트 및 19개의 세포주에 걸쳐 활성인 것으로 실험적으로 관찰된 추가의 하위세트 (23,723개의 부위)를 보여준다. CTCF 부위의 최소로 엄격한 세트는 게놈 전체 평균 (~190 bp)과 거의 동일한 거리로 대개 분리된다. 그러나, 가장 엄격한 조건에서 대부분의 CTCF 부위는 활성 CTCF 결합 및 인접 뉴클레오솜의 위치 변경과 일치하게 훨씬 더 넓은 거리 (~260 bp)로 분리된다.
도 46-48은 뉴클레오솜에 인접한 CTCF 점유 재위치를 보여준다: 도 46은 FIMO에 의해 예측된 518,632개의 CTCF 결합 부위에 대한 3개의 가장 가까운 상류 및 3개의 가장 가까운 하류 피크 콜에 대한 피크간 거리를 보여준다. 도 47은 도 46에서와 같이 FIMO에 의해 예측된 518,632개의 CTCF 결합 부위에 대한 3개의 가장 가까운 상류 및 3개의 가장 가까운 하류 피크 콜에 대한 피크간 거리를 보여주지만, 여기서 동일한 세트의 CTCF 부위는 93,530개의 부위를 남겨두고 ENCODE ChIP-seq 피크와의 중복을 기준으로 필터링되었다. 도 48은 도 47에서와 같이 FIMO에 의해 예측된 93,530개의 CTCF 결합 부위에 대한 3개의 가장 가까운 상류 및 3개의 가장 가까운 하류 피크 콜에 대한 피크간 거리를 보여주지만, 여기서 CTCF 부위 세트는 19개의 세포주에 걸쳐 실험적으로 관찰된 활성 CTCF 부위의 세트와의 중첩에 기초하여 필터링되어 23,732개의 부위가 남게된다.
도 49는 인접 뉴클레오솜이 넓은 간격 (230-270 bp)을 갖는 추정 CTCF 부위의 하위세트에 대해, 긴 (상부) 및 짧은 (하부) 분획 둘 모두가 CTCF 부위의 점점 더 엄격한 하위세트에서 위치의 더 강력한 배치 신호를 나타냄을 보여준다. 컬러 선을 정의하는 키에 대해서는 도 45를 참조한다.
도 50-52는 뉴클레오솜에 인접한 CTCF 점유 재위치를 보여준다: 도 50은 518,632개의 부위에 대한 평균 짧은 분획 WPS (상부 패널) 및 평균 긴 분획 WPS (하부 패널)를 보여주고, 각각의 부위에 대한 인접 +1 및 -1 뉴클레오솜 콜을 분리하는 염기쌍의 수를 나타내는 거리 빈으로 구분된다. 도 51은 도 50의 518,632개 부위에 대한 평균 짧은 분획 WPS (상부 패널) 및 평균 긴 분획 WPS (하부 패널)를 보여주지만, 여기서 동일한 세트의 CTCF 부위는 ENCODE ChIP-seq 피크와의 중첩에 기초하여 필터링되었다. 도 52는 도 51의 부위들에 대한 평균 짧은 분획 WPS (상부 패널) 및 평균 긴 분획 WPS (하부 패널)를 보여주지만, 여기서 동일한 세트의 부위는 19개의 세포주에 걸쳐 실험적으로 관찰된 활성 CTCF 부위의 세트와의 중첩에 기초하여 추가로 필터링되었다. 도 50에서 컬러 선을 규정하는 키는 도 51 및 도 52에서도 동일하다.
도 53a-h는 짧은 및 긴 cfDNA 단편으로부터의 전사 인자 결합 부위의 풋 프린트 (footprint)을 보여준다. 클러스터링된 FIMO 결합 부위 예측은 ENCODE ChIP-seq 데이터와 교차되어 추가 요인의 세트에 대한 전사 인자 (TF) 결합 부위의 신뢰할 수 있는 세트를 확보하였다. 생성된 TF 결합 부위의 세트에 인접한 영역에 대한 집계된 조정된 WPS가 cfDNA 단편의 긴 및 짧은 분획 둘 모두에 대해 표시된다. 보다 높은 WPS 값은 각각 뉴클레오솜 또는 TF 점유의 보다 높은 가능성을 나타낸다. 도 53a: AP-2; 도 53b: E2F-2; 도 53c: EBOX-TF; 도 53d: IRF; 도 53e: MYC-MAX; 도 53f: PAX5-2; 도 53g: RUNX-AML; 도 53h: YY1.
도 54는 전사 인자 ETS (210,798개 부위)에 대한 집계된 조정된 WPS를 보여준다. 긴 (상단) 및 짧은 (하단) cfDNA 분획 둘 모두로부터 계산된 WPS가 표시된다. 주위의 뉴클레오솜 (긴 분획)의 조직과 결합 부위 자체 (짧은 분획)에서의 TF 보호와 일치하는 신호가 관찰된다. 추가의 TF에 대한 유사한 분석이 도 53a-h에 도시된다.
도 55는 전사 인자 MAFK (32,159개 부위)에 대한 집계된 조정된 WPS를 보여준다. 긴 (상단) 및 짧은 (하단) cfDNA 분획 둘 모두로부터 계산된 WPS가 표시된다. 주위의 뉴클레오솜 (긴 분획)의 조직과 결합 부위 자체 (짧은 분획)에서의 TF 보호와 일치하는 신호가 관찰된다. 추가의 TF에 대한 유사한 분석이 도 53a-h에 도시된다.
도 56은 DNase 과민성 (DHS) 부위에 기초한 무세포 DNA에 기여하는 세포 유형의 혼합물의 추정을 보여준다. 116개의 다양한 생물학적 샘플로부터 DHS 부위에서의 뉴클레오솜 콜의 피크 대 피크 간격의 빈도 분포는 쌍봉 (bimodal) 분포를 보이고, 두 번째 모드는 개재된 전사 인자 결합으로 인해 활성 DHS 부위에서 넓어진 뉴클레오솜 간격에 해당한다 (~190 bp → 260 bp). 림프계 또는 골수 샘플에서 확인된 DHS 부위는 건강한 개체에서 cfDNA의 주요 공급원으로서 조혈 세포 사멸과 일치하게, 넓은 뉴클레오솜 간격과 함께 DHS 부위의 가장 큰 비율을 갖는다.
도 57은 전사 개시 부위 (TSS) 주위의 조정된 WPS 스코어를 NB-4 (급성 전골수성 백혈병 세포주)에 대해 규정된 5개의 유전자 발현 빈 (5분위수)으로의 분할이 뉴클레오솜의 간격 및 배치의 차이를 어떻게 나타내는지 보여준다. 고도로 발현된 유전자는 전사체 내에서 뉴클레오솜의 강한 위상을 보여준다. TSS의 상류에서, -1 뉴클레오솜은 발현 빈에 걸쳐 잘 위치하지만, -2 및 -3 뉴클레오솜은 중간 내지 고도로 발현되는 유전자에만 잘 위치한다.
도 58은 중간 내지 고도로 발현된 유전자에 대해, 전사 활성 유전자에서 전사 예비 개시 복합체 또는 그의 일부 성분의 풋 프린트와 일치하여 TSS와 -1 뉴클레오솜 사이에 짧은 단편 피크가 관찰됨을 보여준다.
도 59는 전사체 내의 중간값의 뉴클레오솜 거리가 NB-4 세포주 (ρ = -0.17, n = 19,677개 유전자)에 대해 측정된 유전자 발현과 음의 상관관계가 있음을 보여준다. 거의 내지 전혀 발현되지 않는 유전자는 193 bp의 중간값의 뉴클레오솜 거리를 나타내지만, 발현된 유전자의 경우에는 이 거리는 186-193 bp이다. 이 음의 상관관계는 보다 정확한 중간값 거리를 결정하기 위해 더 많은 뉴클레오솜 콜이 사용될 때 (예를 들어, 적어도 60개의 뉴클레오솜을 필요로 함, ρ = -0.50, n = 12,344개 유전자), 더 강하다.
도 60은 복수개의 기여를 디콘볼루션(deconvolution)하기 위해 각각의 TSS에서 시작하는 유전자 본체의 처음 10 kb에 대해 긴 단편 WPS에서의 특정 빈도 기여도 (강도)의 풍부성을 정량하기 위해 고속 푸리에 변환 (FFT)을 사용하는 방법을 보여준다. 76개의 세포주에서 RNA 발현과 상기 강도를 상이한 빈도로 갖는 1차 조직 사이의 상관관계에 대한 궤적이 제시된다. 진한 검은색 선으로 표시된 것은 NB-4 세포주이다. 상관관계는 193-199 bp 빈도 범위에서 강도 규모가 가장 강하다.
도 61은 건강한 상태 및 암에서 무세포 DNA에 기여하는 세포 유형의 추정을 보여준다. 상단 패널은 유형별로 분류되고 최상위 순위 (상단 줄)부터 가장 낮은 순위 (하단 줄)까지 나열된 다양한 cfDNA 라이브러리에 대해 193-199 bp 빈도 범위에서 평균 강도를 갖는 76 RNA 발현 데이터세트에 대한 상관관계의 순위를 보여준다. 상관관계 값 및 전체 세포주 또는 조직 명칭이 표 3에 제시되어 있다. 3개의 모든 건강한 샘플 (BH01, IH01 및 IH02; 처음 3개의 컬럼)에 대한 가장 강한 상관관계는 모두 골수뿐만 아니라 림프구 및 골수 세포주와 관련이 있다. 이와 대조적으로, IV기 암 환자로부터 얻은 cfDNA 샘플 (IC15, IC17, IC20, IC35, IC37; 마지막 5개의 컬럼)은 다양한 암 세포주와 최고의 상관관계를 보이고, 예를 들어 IC17 (간세포 암종, HCC)은 HepG2 (간세포 암종 세포주)와, IC35 (유관 암종, DC)는 MCF7 (전이성 유방 선암종 세포주)와 가장 높은 상관관계를 보인다. 암 샘플에서 관찰된 세포주/조직 순위를 3개의 건강한 각각의 샘플과 비교하고 순위 변화의 평균을 구할 때 (하부 패널), 최대 순위 변화는 3개의 건강한 샘플을 서로 비교하고 순위 변경 평균을 구하여 관찰된 것 ('대조')보다 2배를 초과하여 더 높다. 예를 들어, IC15 (소세포 폐 암종, SCLC)의 경우 SCLC-21H (소세포 폐 암종 세포주)의 순위는 평균 31 위치가 증가하였고, IC20 (편평세포 폐 암종, SCC)의 경우에는 SK-BR-3 (전이성 유방 선암종 세포주)이 평균 21 순위가 상승하였고, IC37 (결장직장 선암종, AC)에 대해서는 HepG2가 24 순위가 증가하였다.
도 62는 적용범위 (도 62a) 또는 대립유전자 균형 (도 62b)에 기초하여, 순환하는 종양 DNA의 높은 부담을 갖는 샘플을 선택하기 위한 이수성 (aneuploidy)의 정량을 보여준다. 도 62a는 이수성이 없다고 가정한 모의 샘플 (적색 도트)과 비교하여 각각의 샘플 (흑색 도트)에 대한 관찰된 서열결정 판독 횟수 대 예상된 서열결정 판독 횟수에 기초하여 계산된 각각의 염색체에 대한 Z 스코어의 합계를 보여준다. 도 62b는 추가의 서열결정을 위해 선택된 샘플의 하위세트에 대해, 염색체당 평가된 48,800개의 공통 SNP 각각에서의 대립유전자 균형을 보여준다.
도 63은 공개된 뉴클레오솜 콜 세트에 대한 피크 콜의 비교를 보여준다. 도 63a는 CA01의 매치된 시뮬레이션을 포함하여 여기서 생성된 콜뿐만 아니라 3개의 공개된 데이터세트 ([Gaffney et al., 2012], [JS Pedersen et al., 2014] 및 [A Schep et al., 2015])에 걸친 뉴클레오솜 피크 콜 사이의 거리를 보여준다. 이전에 공개된 데이터세트는 아마도 빈약한 샘플링 또는 넓은 콜 범위 때문에, 정규의 ~185 bp 뉴클레오솜 거리에서 하나의 정의된 모드를 나타내지 않는다. 이와 대조적으로, cfDNA의 모든 뉴클레오솜 콜은 하나의 잘 정의된 모드를 보여준다. 매치된 시뮬레이션된 데이터세트는 더 짧은 모드 (166 bp) 및 더 넓은 분포를 갖는다. 또한, 콜을 생성하는 데 사용되는 cfDNA 데이터세트의 적용범위가 높을수록 분포 모드로 표시되는 콜의 비율이 높아진다. 도 63b는 도 63a와 동일한 각각의 세트 목록에 대한 뉴클레오솜의 수를 보여준다. cfDNA 뉴클레오솜 콜은 거의 13M의 뉴클레오솜 피크 콜로 가장 포괄적인 콜 세트를 제시한다. 도 63c는 IH01 cfDNA 샘플에서의 각각의 피크 콜과 이전에 공개된 3개의 데이터세트로부터의 가장 가까운 피크 콜 사이의 거리를 보여준다. 도 63d는 IH02 cfDNA 샘플에서의 각각의 피크 콜과 이전에 공개된 3개의 데이터세트로부터의 가장 가까운 피크 콜 사이의 거리를 보여준다. 도 63e는 BH01 cfDNA 샘플에서의 각각의 피크 콜과 이전에 공개된 3개의 데이터세트로부터의 가장 가까운 피크 콜 사이의 거리를 보여준다. 도 63f는 CH01 cfDNA 샘플에서의 각각의 피크 콜과 이전에 공개된 3개의 데이터세트로부터의 가장 가까운 피크 콜 사이의 거리를 보여준다. 도 63g는 CA01 cfDNA 샘플에서의 각각의 피크 콜과 이전에 공개된 3개의 데이터세트로부터의 가장 가까운 피크 콜 사이의 거리를 보여준다. 음수는 가장 가까운 피크가 상류에 존재함을 나타내고, 양수는 가장 가까운 피크가 하류에 존재함을 나타낸다. cfDNA 적용범위가 증가함에 따라, 이전에 공개된 콜의 보다 높은 비율이 결정된 뉴클레오솜 콜에 더 가깝게 나타난다. 최고의 일치는 문헌 [Gaffney et al., PLoS Genet., vol. 8, e1003036 (2012)] 및 [A Schep et al. (2015)]에서 생성된 콜에서 발견되었다. 도 63h는 각각의 피크 콜과 이전에 공개된 3개의 데이터세트로부터의 가장 가까운 피크 콜 사이의 거리를 보여주지만, 이번에는 CA01의 매치된 시뮬레이션에 대한 거리를 보여준다. 가장 가까운 실제 뉴클레오솜 위치는 문헌 [Gaffney et al., PLoS Genet., vol. 8, e1003036 (2012)] 및 [JS Pedersen et al., Genome Research, vol. 24, pp. 454-466 (2014)] 콜에 대한 시뮬레이션에서의 피크로부터 멀어지는 경향이 있다. 문헌 [A Schep et al., (2015)]에 의해 생성된 콜은 시뮬레이션된 콜과의 일부 중첩을 보인다.Figure 1 shows three types of information associating the cfDNA fragmentation pattern with nucleosomal occupancy, illustrated for the small genomic region. This same type of information may also occur through fragmentation of the chromatin with enzymes such as micrococose nuclease (MNase), DNase or transporter. Figure 1A shows the distribution of the likelihood that any particular base pair in the human genome will appear at the end of the fragment to be sequenced (i. E., The fragmentation point); Figure 1b shows the distribution of the likelihood that any pair of base pairs of the human genome will appear as a pair of ends of the fragment to be sequenced (i. E., A contiguous pair of fragmentation points producing individual molecules); Figure 1c shows the distribution of the likelihood (i. E., Relative coverage) that any particular base pair in the human genome will appear in a sequenced fragment as a result of different nucleosomal occupancy.
Figure 2 shows the insert size distribution of a typical cfDNA sequencing library, in which a pooled cfDNA sample (bulk.cfDNA) derived from human plasma containing an unknown number of healthy donors is shown.
Figure 3a shows the expression profiles of all cfDNA samples (plasma), cfDNA (tumor) from tumor patient samples, cfDNA (pregnancy) from pregnant female individuals, MNase (human cell line) and human DNA shotgun (shotgun) Shows the average periodogram intensity from Fast Fourier Transformation (FFT) of the read start coordinates mapped to the first (chrl) human autosomal chromosome over the Shotgun.
Fig. 3b shows the results of a cfDNA sample (plasma), cfDNA (tumor) from a tumor patient sample, cfDNA (pregnancy) from a pregnant female individual, MNase (human cell line) (FFT) of the read start coordinates mapped to the last (chr22) human autosomal region over the last (chr22) human autosomes.
Figure 4 shows the first three principal components (PC) of intensity in the periodicity of 196 base pairs (bp) in a 10 kilobase pair (kbp) block across all autosomes: Figure 4a shows PC 2 versus PC 1 And FIG. 4B shows PC 3 vs. PC 2.
Figure 5 shows a hierarchical clustering dendogram of the Euclidean distance of intensity measured at a cycle of 196 bp in a 10 kbp block across all autosomes.
Figure 6 shows the first three principal components of intensity at 18 < RTI ID = 0.0 > bp < / RTI > to 202 bp cycles in a 10 kbp block across all autosomes: Figure 6a shows
Figure 7 shows a hierarchical clustering tangent of Euclidean distance of intensity measured at a period of 181 bp to 202 bp in a 10 kbp block across all autosomes.
Figure 8 shows the principal component analysis of intensities (first 7 out of 10 PCs) at 18 < RTI ID = 0.0 > bp < / RTI > to 202 bp periodicity in a 10 kbp block across all autosomal cfDNA datasets: Figure 8a shows PC 2 vs. PC 1 8B shows PC 3 vs. PC 2, FIG. 8C shows PC 4 vs. PC 3, FIG. 8D shows PC 5 vs. PC 4, FIG. 8E shows PC 6 vs. PC 5, FIG. 8F shows the PC 7 to the PC 6.
Figure 9 shows the principal component analysis of intensity at 181 bp to 202 bp periods in a 10 kbp block across all autosomal cells for the MNase data set: Figure 9a shows PC 2 vs. PC 1, Figure 9b shows PC 3 vs.
Figure 10 shows the average lumen intensity for a representative human autologous chromosome (chrll) across all synthetic cfDNA and MNase dataset mixtures.
Figure 11 shows the first two major components of intensity at 181 bp to 202 bp cycles in a 10 kbp block across all autosomes for a composite MNase dataset mixture.
Figure 12 shows the first two major components of intensity at 181 bp to 202 bp cycles in a 10 kbp block across all autosomes for a synthetic cfDNA dataset mixture.
Figure 13 shows a hierarchical clustering dendogram of Euclidean distances of intensity at 181 bp to 202 bp cycles in a 10 kbp block across all autosomes for the synthetic MNase and cfDNA mixture data sets.
Figure 14 shows the read starting density at 1 kbp window around 23,666 CTCF binding sites for a sample set having at least 100M readings.
Figure 15 shows the read starting density at 1 kbp window around 5,644 c-Jun binding sites for a sample set with at least 100M readings.
Figure 16 shows the read initiation density for a 1 kbp window around 4,417 NF-YB binding sites for a set of samples with a reading of at least 100M.
Figure 17 shows a schematic outline of the process of generating cfDNA fragments. Apoptosis and / or necrotic cell death results in almost complete digestion of the native chromatin. In general, protein-bound DNA fragments that associate with histones or transcription factors preferentially survive digestion and release into the circulatory system during the disappearance of naked DNA. The fragments may be recovered from peripheral blood plasma following proteinase treatment. In healthy individuals, cfDNA is primarily derived from the bone marrow and lymphoid cell lines, but may be derived from one or more additional tissues in certain medical conditions.
Figure 18 shows the fragment length of cfDNA observed with conventional sequencing library preparation. The length is deduced in the alignment of the paired end sequenced readings. At 167 base pairs (bp) (green dotted line), the reproducible peak of the fragment length is consistent with the binding with the chromatogram. An additional peak demonstrates a ~ 10.4 bp cycle corresponding to the helical pitch of DNA on the nucleosome core. End-repair of the enzyme during library preparation can eliminate the 5 ' and 3 ' overhangs and damage the actual cleavage site.
Figure 19 shows the 167 bp fragment in a conventional library and the dinucleotide composition of an adjacent genomic sequence. The frequency of dinucleotides observed in the BH01 library was compared to the expected frequency from the simulated fragment (matching for endpoint biases due to both cleavage and adapter ligation preferences).
Figure 20 shows a schematic of a single strand library manufacturing protocol for cfDNA fragments.
Figure 21 shows fragment lengths of cfDNA observed in the preparation of single-stranded sequencing libraries. Enzymatic terminal repair of the template molecule during library preparation is not performed. Short fragments of 50-120 bp are much more abundant than conventional libraries. While the periodicity of ~ 10.4 bp is maintained, its phase shifts by ~ 3 bp.
Figure 22 shows the 167 bp fragment in a single-stranded library and the dinucleotide composition of an adjacent genomic sequence. The observed frequency of dinucleotides in the IH02 library was again compared to the expected frequency derived from the matched simulated fragment for endpoint bias. The apparent difference in the background level of the bias between BH01 and IH02 is related to the difference between the simulations rather than the actual library (not data).
Figure 23A shows a gel image of a representative cfDNA sequencing library made with a conventional protocol.
Figure 23B shows a gel image of a representative cfDNA sequencing library made with a single-stranded protocol.
24A shows the mononucleotide cleavage of the cf DNA fragment.
Figure 24b shows the dinucleotide cleavage bias of the cfDNA fragment.
Figure 25 shows a schematic outline of the estimation of the nucleosome arrangement. The windowed protection score per base (WPS) is calculated by subtracting the number of fragment endpoints within the 120 bp window from the number of fragments that completely span the window. High WPS values indicate an increase in DNA protection from digestion; low values indicate that the DNA is not protected. The peak call identifies the adjacent region of the raised WPS.
Figure 26 shows nucleosomes strongly positioned in a well studied alpha-satellite array. The application range of sample CH01, the fragment endpoint, and the length of the fragment CHO for a short fragment (120 bp window, 120-180 bp reading) or a short fragment (16 bp window, 35-80 bp reading) bin in the locus surrounding the chromosome on
Figure 27 shows the putative nucleosome arrangement located around the DNase I hypersensitive site (DHS) on
28 shows a schematic diagram of peak calling and scoring according to one embodiment of the present disclosure;
Figure 29 shows CH01 peak density by GC content.
Figure 30 shows a histogram of the distance between adjacent peaks by the sample. The distance is measured from the peak call to the adjacent call.
Figure 31 shows a comparison of peak calls between samples. For each sample pair, the distance between each peak call of the sample with the smallest number of peaks and the closest peak call of the other sample is calculated and visualized with a histogram of
Figure 32 shows a comparison of peak calls between samples. FIG. 32A shows IH01 versus BH01, FIG. 32B shows IH02 versus BH01, and FIG. 32C shows IH02 versus IH01.
Figure 33A shows the nucleosome score for an actual vs. simulated peak.
33B shows the center peak offset (left y-axis) in the score bin as a function of the score bin and the number of peaks in each score bin (right y-axis).
34 shows a comparison of the peak calls between the sample and the matched simulation, FIG. 34A shows the BH01 simulation versus BH01 realization, FIG. 34B shows the IH01 simulation versus IH01 realization and FIG. 34C shows the IH02 simulation versus IH01 real Lt; / RTI >
Figure 35 shows the distance between adjacent peaks, sample CH01. The dotted black line shows the distribution mode (185bp).
Figure 36 shows an aggregated and adjusted window protection score (WPS; 120 bp window) around 22,626 transcriptional start sites (TSS). After adjusting the strand and transfer direction, the TSS is aligned to the 0 position. The aggregated WPS is tabulated for both actual and simulated data, summing the WPS per TSS at each location relative to the central TSS. The floated value represents the difference between the actual and simulated aggregated WPS and is further adjusted to a local background as described in more detail below. Higher WPS values show preferential protection from disconnection.
Figure 37 shows the adjusted WPS aggregated around 22,626 start codons.
Figure 38 shows the aggregated adjusted WPS around 224,910 splice donor sites.
Figure 39 shows the aggregated adjusted WPS around 224,910 splice acceptor sites.
Figure 40 shows adjusted WPS aggregated for various gene characteristics using data from CH01, including actual data, matched simulations, and the differences.
Figure 41 shows the nucleosome spacing in the A / B section. The median value of the nucleosome spacing in a non-overlapping 100 kilobase (kb) bean (each containing ~ 500 nucleosome calls) is calculated over the entire genome. The A / B block predictions for GM12878 with 100 kb resolution are presented from published data. Compartment A is associated with an open chromatin, and compartment B is associated with a closed chromatin.
Figure 42 shows the nucleosome spacing and A / B compartments on
Figure 43 shows the aggregated adjusted WPS for the 93,550 CTCF sites in the long (upper) and short (bottom) fractions.
Figure 44 shows an enlarged view of the aggregated tailored WPS for the short cut cfDNA at the CTCF site. A bright red bar (and corresponding shade in the plot) represents the location of a known 52 bp CTCF binding motif. The dark red sub-portion of this bar represents the position of the 17 bp motif used in the FIMO motif search.
Figure 45 overlaps ENCODE ChIP-seq peak (93,530 sites) -1 to +1 nucleosome spacing calculated around the CTCF site derived from the clustered FIMO predicted CTCF site (purely motif-based: 518,632 sites) (23,723 sites) that were experimentally observed to be active across the 19 cell lines. The least stringent set of CTCF sites is usually separated by approximately the same distance as the entire genome (~ 190 bp). However, under the most stringent conditions, most of the CTCF sites are separated by a much wider range (~260 bp), consistent with the active CTCF binding and the positional change of the adjacent nucleosomes.
Figures 46-48 show the CTCF occupancy location adjacent to the nucleosomes: Figure 46 shows the peak-to-peak distance for the three closest upstream and the three closest downstream peak calls for 518,632 CTCF binding sites predicted by FIMO Lt; / RTI > Figure 47 shows the peak-to-peak distances for the three closest upstream and three closest downstream peak calls for 518,632 CTCF binding sites predicted by FIMO, as in Figure 46, where the same set of CTCF sites are 93,530 And filtered based on overlap with ENCODE ChIP-seq peak. Figure 48 shows the peak-to-peak distances for three nearest upstream and three nearest downstream peak calls for 93,530 CTCF binding sites predicted by FIMO, as in Figure 47, where the CTCF site set was divided into 19 cell lines Lt; RTI ID = 0.0 > CTCF < / RTI >
Figure 49 shows that for a subset of the predicted CTCF regions with adjacent spacing (230-270 bp) of the adjacent nucleosomes, both the long (top) and short (bottom) fractions are located in a more rigid subset of the CTCF region Indicating a stronger placement signal. See FIG. 45 for a key that defines a color line.
Figures 50-52 show the CTCF occupancy location adjacent to the nucleosomes: Figure 50 shows the average short fraction WPS (upper panel) and the mean long fraction WPS (lower panel) for 518,632 sites, And a distance bin representing the number of base pairs separating adjacent +1 and -1 nucleosome calls. Figure 51 shows the average short fraction WPS (upper panel) and the mean long fraction WPS (lower panel) for 518,632 sites in Figure 50, where the same set of CTCF sites are based on overlap with the ENCODE ChIP-seq peak Filtered. Figure 52 shows the mean short fraction WPS (upper panel) and the mean long fraction WPS (lower panel) for the regions of Figure 51, where the same set of sites was observed for the active CTCF sites experimentally observed over 19 cell lines Lt; RTI ID = 0.0 > set. ≪ / RTI > The key for defining the color line in Fig. 50 is the same in Fig. 51 and Fig.
Figures 53a-h show the footprint of the transcription factor binding site from short and long cfDNA fragments. Clustered FIMO binding site predictions intersected the ENCODE ChIP-seq data to obtain a reliable set of transcription factor (TF) binding sites for a set of additional factors. The pooled adjusted WPS for the region adjacent to the set of generated TF binding sites is displayed for both long and short fragments of the cfDNA fragment. The higher WPS values each represent a higher probability of occupying the nucleosome or TF. 53A: AP-2; Figure 53b: E2F-2; Figure 53c: EBOX-TF; 53D: IRF; 53E: MYC-MAX; 53F: PAX5-2; Figure 53g: RUNX-AML; 53H: YY1.
Figure 54 shows the aggregated adjusted WPS for the transcription factor ETS (210,798 sites). The calculated WPS from both the long (top) and short (bottom) cfDNA fractions is displayed. Signals consistent with TF protection in the tissues of the surrounding nucleosomes (long fractions) and the binding site itself (short fractions) are observed. A similar analysis for additional TF is shown in Figures 53a-h.
Figure 55 shows the aggregated adjusted WPS for the transcription factor MAFK (32,159 sites). The calculated WPS from both the long (top) and short (bottom) cfDNA fractions is displayed. Signals consistent with TF protection in the tissues of the surrounding nucleosomes (long fractions) and the binding site itself (short fractions) are observed. A similar analysis for additional TF is shown in Figures 53a-h.
Figure 56 shows an estimate of a mixture of cell types that contribute to acellular DNA based on the DNase hypersensitive (DHS) site. The frequency distribution of the peak-to-peak spacing of the nucleosome calls at the DHS site from the 116 diverse biological samples exhibits a bimodal distribution and the second mode is the nucleosome spread at the active DHS site due to intervening transcription factor binding (~ 190 bp to 260 bp). The DHS region identified in lymphocytes or bone marrow samples has the largest proportion of DHS sites with a broad nucleosome gap consistent with hematopoietic cell death as a major source of cfDNA in healthy individuals.
Figure 57 shows that the segmentation of the adjusted WPS score around the transcription initiation site (TSS) to the five gene expression bins (fifth quintile) defined for NB-4 (acute promyelocytic leukemia cell line) To show the difference between the two. Highly expressed genes show a strong phase of nucleosomes in the transcript. Upstream of TSS, the -1 nucleosome is well located throughout the expression bell, while the -2 and -3 nucleosomes are well located only in the medium to highly expressed genes.
FIG. 58 shows that, for intermediate to highly expressed genes, a short cutoff peak was observed between TSS and the -1 nucleosome in agreement with the footprint of the transcriptional pre-initiation complex or some of its components in the transcriptionally active gene.
Figure 59 shows that the median nucleosomal distance in the transcript is negatively correlated with the gene expression measured for the NB-4 cell line (p = -0.17, n = 19,677 genes). Almost to no expression of the gene shows a neutralization distance of 193 bp, while for the expressed gene this distance is 186-193 bp. This negative correlation is particularly important when more nucleosome calls are used (e.g., at least 60 nucleosomes are needed, p = -0.50, n = 12,344 genes ), And stronger.
Figure 60 illustrates a fast Fourier transform (FFT) to quantify the specific frequency contribution (intensity) in a long fragment WPS for the first 10 kb of the gene body starting at each TSS to deconvolate a plurality of contributions. (FFT). ≪ / RTI > The trajectory for the correlation between RNA expression and primary tissue with different frequencies of this intensity in 76 cell lines is presented. The dark black line indicates the NB-4 cell line. The correlation is strongest in the 193-199 bp frequency range.
Figure 61 shows estimates of cell types contributing to cell-free DNA in healthy conditions and cancer. The top panel displays the ranking of the correlations for the 76 RNA expression data sets with average intensity in the 193-199 bp frequency range for the various cfDNA libraries sorted by type and listed from top (top row) to lowest (bottom row) Lt; / RTI > The correlation values and the overall cell line or tissue name are given in Table 3. The strongest correlation to all three healthy samples (BH01, IH01 and IH02; the first three columns) is associated with lymphocytes and myeloid cell lines as well as bone marrow. In contrast, cfDNA samples (IC15, IC17, IC20, IC35, IC37; the last five columns) obtained from patients with stage IV cancer show the highest correlation with various cancer cell lines, for example IC17 (hepatocellular carcinoma, HCC) HepG2 (hepatocellular carcinoma cell line) and IC35 (ductal carcinoma, DC) have the highest correlation with MCF7 (metastatic breast adenocarcinoma cell line). When comparing the cell line / tissue rankings observed in the cancer samples to each of the three healthy samples and averaging the ranking changes (bottom panel), the highest ranking change was observed by comparing the three healthy samples to each other, Which is more than twice as high as that of ' For example, in the case of IC15 (small cell lung carcinoma, SCLC), the rank of SCLC-21H (small cell lung carcinoma cell line) increased by an average of 31 positions, and in case of IC20 (squamous cell lung carcinoma, SCC) (Metastatic breast adenocarcinoma cell line) increased by 21 in average, and HepG2 increased by 24 in IC37 (colorectal adenocarcinoma, AC).
Figure 62 shows the quantification of aneuploidy for selecting samples with high burden of circulating tumor DNA, based on coverage (Figure 62a) or allele balance (Figure 62b). 62A is a graph showing the relationship between the number of observed readings for each sample (black dot) compared to the simulated sample (red dot) assumed to be insoluble, and Z Show the sum of the scores. Figure 62B shows the allele balance at each of the 48,800 common SNPs evaluated per chromosome for a subset of the samples selected for further sequencing.
Figure 63 shows a comparison of peak calls for the published set of nucleosome calls. 63A is a graphical representation of three published data sets ([Gaffney et al., 2012], [JS Pedersen et al., 2014] and [A Schep et al. 2015]) of the nucleosome peak. Previously published data sets probably do not represent a single defined mode at ~ 185 bp nucleosomal distance from the regular because of poor sampling or wide call coverage. By contrast, all nucleosome calls in cfDNA show one well-defined mode. The matched simulated data set has a shorter mode (166 bp) and wider distribution. In addition, the higher the coverage of the cfDNA data set used to generate the call, the higher the percentage of calls displayed in the distribution mode. Figure 63b shows the number of nucleosomes for each set list identical to Figure 63a. The cfDNA nucleosome callo presents the most comprehensive call set with a nearly 13 M nucleosome peak call. Figure 63c shows the distance between each peak call in the IH01 cfDNA sample and the closest peak call from the three previously published data sets. 63D shows the distance between each peak call in the IH02 cfDNA sample and the closest peak call from the three previously published data sets. 63E shows the distance between each peak call in the BH01 cfDNA sample and the closest peak call from the three previously published data sets. Figure 63f shows the distance between each peak call in the CH01 cfDNA sample and the closest peak call from the three previously published data sets. Figure 63g shows the distance between each peak call in the CA01 cfDNA sample and the closest peak call from the three previously published data sets. A negative number indicates that the nearest peak is upstream, and a positive number indicates that the nearest peak is downstream. As cfDNA coverage increases, a higher proportion of previously published calls appears closer to the determined nucleosome call. The best match can be found in Gaffney et al., PLoS Genet., Vol. 8, e1003036 (2012) and A Schep et al. (2015)]. Figure 63h shows the distance between each peak call and the closest peak call from the three previously published data sets, but this time the distance to CA01's matched simulation. The closest actual nucleosomal location can be found in Gaffney et al., PLoS Genet., Vol. 8, e1003036 (2012)] and JS Pedersen et al., Genome Research, vol. 24, pp. 454-466 (2014)] tend to move away from the peak in the simulation for the call. The calls generated by A Schep et al. (2015) show some overlap with the simulated call.
발명의 상세한 설명DETAILED DESCRIPTION OF THE INVENTION
본 개시내용은 대상체의 생물학적 샘플에서 무세포 DNA를 생성하는 하나 이상의 조직 및/또는 세포 유형을 결정하는 방법을 제공한다. 일부 실시양태에서, 본 개시내용은 대상체로부터의 생물학적 샘플에서 cfDNA와 연관된 하나 이상의 결정된 조직 및/또는 세포 유형의 함수로서 대상체에서 질환 또는 장애를 확인하는 방법을 제공한다.The present disclosure provides methods for determining one or more tissues and / or cell types that produce acellular DNA in a biological sample of a subject. In some embodiments, the disclosure provides a method for identifying a disease or disorder in a subject as a function of one or more determined tissues and / or cell types associated with cfDNA in a biological sample from the subject.
본 개시내용은 상이한 세포 유형 또는 조직으로부터 유래하는 cfDNA 분자가 다음에 대해 상이하다는 예측에 기초한다: (a) 인간 게놈 내의 임의의 특정 염기쌍이 cfDNA 단편의 말단 (단편화 지점)에 나타날 가능성의 분포; (b) 인간 게놈의 염기쌍의 임의의 쌍이 cfDNA 단편의 한 상의 말단 (즉, 개별적인 cfDNA 분자를 생성하는 연속적인 단편화 점의 쌍)으로 나타날 가능성의 분포; (c) 인간 게놈 내의 임의의 특정 염기쌍이 뉴클레오솜 점유율 차이의 결과로서 cfDNA 단편 (즉, 상대적 적용범위)에 나타날 가능성의 분포. 이것들은 아래에서 분포 (a), (b) 및 (c)로 언급되거나, 또는 집합적으로 "뉴클레오솜 의존성 절단 확률 지도", "절단 접근가능성 지도" 또는 "뉴클레오솜 지도"로 불린다 (도 1). 참고로, 뉴클레오솜 지도는 미크로코쿠스 뉴클레아제 (MNase), DNase, 또는 트랜스포사제와 같은 효소를 사용한 염색질의 단편화에 의해 유래된 단편의 서열결정을 통해 측정되거나, 또는 뉴클레오솜 또는 크로마토솜 (chromatosome)의 경계에서 또는 그 사이에서 게놈 DNA를 우선적으로 단편화하는 동등한 절차를 통해 측정될 수 있다.This disclosure is based on the prediction that the cf DNA molecules from different cell types or tissues are different for (a) the distribution of the likelihood that any particular base pair within the human genome will appear at the end (fragmentation point) of the cfDNA fragment; (b) the distribution of the likelihood that any pair of base pairs of the human genome will appear at the end of one of the cfDNA fragments (i. e., a pair of successive fragmentation points producing individual cfDNA molecules); (c) The distribution of the likelihood that any particular base pair in the human genome will appear in a cfDNA fragment (i. e., relative coverage) as a result of a difference in nucleosome share. These are referred to below as distributions (a), (b) and (c), or collectively referred to as "nucleosome-dependent cleavage probability map", "cleavage accessibility map" or "nucleosome map" 1). For reference, the nucleosome map is determined through sequencing of fragments derived from fragmentation of the chromatin using an enzyme such as micrococose nuclease (MNase), DNase, or transposon, Can be measured by an equivalent procedure that preferentially fragment genomic DNA at or between the boundaries of the chromatosome.
건강한 개체에서, cfDNA는 혈액 세포, 즉 조혈 계통 세포의 아폽토시스로부터 압도적으로 유래한다. 이들 세포가 프로그램된 아폽토시스를 겪으면, 그의 게놈 DNA는 절단되어 순환계로 방출되고, 뉴클레아제에 의해 계속 분해된다. cfDNA의 길이 분포는 뉴클레오솜 주위에 감겨진 DNA의 나선형 피치에 대응하는 약 10.5 염기쌍 (bp)의 주기로 진동하고, 링커-회합된 모노뉴클레오솜과 회합된 DNA의 길이에 대응하는 167 bp 주위에 뚜렷한 피크를 갖는다 (도 2). 이 증거는 cfDNA와 뉴클레오솜과의 회합이 순환계에서 완전하고 빠른 분해로부터 cfDNA를 보호한다는 것의 가설을 도출하였다. 또 다른 가능성은 길이 분포가 단순히, 뉴클레오솜 배치에 직접적인 영향을 받는 아폽토시스 자체 동안 DNA 절단 패턴으로부터 발생한다는 것이다. 어쨌든, cfDNA의 길이 분포는 cfDNA를 생성하는 단편화 과정이 뉴클레오솜 배치에 영향을 받는다는 명확한 증거를 제시한다.In healthy individuals, cfDNA stems predominantly from the apoptosis of blood cells, hematopoietic lineage cells. When these cells undergo apoptosis programmed, their genomic DNA is cleaved, released into the circulatory system, and subsequently degraded by the nuclease. The length distribution of cfDNA oscillates at a cycle of about 10.5 base pairs (bp) corresponding to the helical pitch of the DNA wrapped around the nucleosome and around 167 bp corresponding to the length of DNA associated with the linker- associated mononucleosomes (Fig. 2). This evidence has led to the hypothesis that association of cfDNA with nucleosomes protects cfDNA from complete and rapid degradation in the circulatory system. Another possibility is that the length distribution simply arises from the DNA cleavage pattern during apoptosis itself, which is directly affected by the nucleosome arrangement. In any case, the length distribution of cfDNA provides clear evidence that the fragmentation process that produces cfDNA is affected by the nucleosome arrangement.
일부 실시양태에서, 본 개시내용은 라이브러리 구축 및 체액으로부터 유래된 cfDNA 또는 미크로코쿠스 뉴클레아제 (MNase), DNase, 또는 트랜스포사제와 같은 효소로 염색질을 단편화하거나 뉴클레오솜 또는 크로마토솜의 경계 또는 그 사이에서 게놈 DNA를 우선적으로 단편화하는 동등한 절차로부터 유래된 DNA의 대규모 병렬 서열결정에 의한 분포 (a), (b) 및/또는 (c)의 측정으로서 뉴클레오솜 지도를 규정한다. 아래에서 설명되는 바와 같이, 이러한 분포는 예를 들어 인접 윈도우에서의 또는 대안적으로, 전사 인자 결합 부위, 유전자 모델 특징부 (예를 들어, 전사 개시 부위 또는 유전자 본체), 위상적으로 회합된 도메인, 조직 발현 데이터 또는 뉴클레오솜 배치의 다른 상관물에 의해 정의된 게놈의 불연속적인 하위세트에서의 주기도를 정량하는 것과 같은 게놈의 다양한 하위세트 내에서의 뉴클레오솜 위치의 주기적 신호를 모으거나 요약하기 위해 "변환"될 수 있다. 또한, 이것은 조직 특이적 데이터에 의해 정의될 수 있다. 예를 들어, 조직 특이적 DNase I 과민성 부위 부근에서 신호를 모으거나 요약할 수 있다.In some embodiments, the disclosure is directed to a method of fragmenting a chromatin with an enzyme such as cfDNA or micrococose nuclease (MNase), DNase, or transposase derived from library construction and body fluids, or by cleaving the chromosome (A), (b) and / or (c) by massive parallel sequencing of DNA derived from equivalent procedures that preferentially fragment genomic DNA in between. As described below, such a distribution may include, for example, a transcription factor binding site, a gene model feature (e.g., a transcription initiation site or gene body), a topologically associated domain Collecting or summarizing periodic signals of nucleosomal locations within various subsets of the genome, such as quantifying the periodicity in a discontinuous subset of genomes defined by tissue expression data or other correlates of nucleosome positioning Can be "transformed" It can also be defined by tissue specific data. For example, signals can be collected or summarized near tissue-specific DNase I hypersensitive sites.
본 개시내용은 혈장-함유 cfDNA 단편으로부터 추정된 생체 내 뉴클레오솜 보호에 대한 치밀한 게놈 전체에 걸친 지도를 제공한다. 건강한 개체의 cfDNA로부터 유래된 CH01 지도는 지도화할 수 있는 인간 참조 게놈의 대다수에 걸쳐있는 뉴클레오솜 보호의 약 13M의 균일하게 이격된 국부 최대치를 포함한다. 피크의 수가 CH01에서 본질적으로 포화되지만, 다른 품질 기준은 서열결정 깊이의 함수로 계속되었다 (도 33a-b). 따라서, 본 연구 및 다른 연구 ('CA01', 145억 (G) 단편; 700배 적용범위; 13.0M 피크)에 대해 본 발명자들이 지금까지 수행한 거의 모든 cfDNA 서열결정을 기반으로 하는, 동일한 방법에 의해 추가의 게놈 전체에 걸친 뉴클레오솜 지도가 구축되었다. 이 지도가 훨씬 더 균일한 간격 및 더 높게 지지된 피크 콜을 보였음에도 불구하고 (도 33a-b, 63a-h), 본 발명자들은 이것이 건강한 개체와 그렇지 않은 개체 모두로부터의 cfDNA를 기반으로 한다고 주의를 촉구한다 (표 1, 5).This disclosure provides a detailed genome-wide map of in vivo nucleosome protection as deduced from plasma-containing cfDNA fragments. The CHO1 map derived from the cfDNA of healthy individuals contains a uniformly spaced local maximum of about 13 M of nucleosome protection over the majority of the mapped human reference genome. The number of peaks was essentially saturated in CH01, but other quality criteria continued as a function of sequence depth (Figs. 33a-b). Thus, in the same way, based on almost all of the cfDNA sequence determinations we have conducted so far for this and other studies ('CA01', 14.5 billion (G) fragments; 700-fold coverage, 13.0 M peaks) A further nucleosome map was constructed across the entire genome. (Figs. 33a-b, 63a-h), the present inventors have found that this is based on cfDNA from both healthy and non-healthy individuals, although this map shows a much more uniform spacing and higher supported peak call (Table 1 and 5).
본원에 개시된 뉴클레오솜 보호의 치밀한 게놈 전체에 걸친 지도는 사람 참조 게놈의 지도화가능한 부분의 포화에 접근하고, 뉴클레오솜 배치 또는 보호의 인간 게놈 전체에 걸친 지도를 작성하기 위한 이전의 노력보다 상당히 더 균일하고 예측된 뉴클레오솜 반복 길이와 일치하는 피크 대 피크 간격을 제시한다 (도 63a-h). 거의 모든 이전의 노력과는 대조적으로, 본원에서 관찰된 단편은 내인성 생리적 과정에 의해 생성되고, 따라서 시험관 내 미크로코쿠스 뉴클레아제 소화와 관련된 기술적 변이에 적용될 가능성이 작다. 이 참조 지도에서 고려되는 cfDNA를 일으키는 세포 유형은 필연적으로 이질적이다 (예를 들어, 건강한 개체의 림프구와 골수양 세포 유형의 혼합물). 그럼에도 불구하고, 지도의 상대적 완전성은 인간 세포에서의 뉴클레오솜 배치 및 간격, 및 후성 유전 조절, 전사 산물 및 핵 구조와 뉴클레오솜의 상호 작용을 지시하는 과정에 대한 더 깊은 이해를 촉진할 수 있다.A dense genome-wide map of the nucleosome protection disclosed herein is intended to provide a more comprehensive approach to the saturation of the mappable portion of the human reference genome, and to a greater degree than previous efforts to map the entire human genome of nucleosome placement or protection (Fig. 63a-h) that are substantially uniform and consistent with predicted nucleosome repeat lengths. In contrast to nearly all previous efforts, the fragments observed here are produced by an endogenous physiological process, and thus are less likely to be applied to technical variations associated with in vitro microcococcus nuclease digestion. Cell types that cause cfDNA to be considered in this reference map are necessarily heterogeneous (for example, a mixture of lymphocytes and myeloid cell types of healthy individuals). Nonetheless, the relative completeness of the maps can facilitate a deeper understanding of the nucleosome arrangement and spacing in human cells, and the process of directing the interaction of nucleosomes with nucleosomal structures and transgenic genetic control have.
대상체의Object 생물학적 샘플에서 In biological samples cfDNA의cfDNA 공급원(들)을 결정하는 방법 How to determine the source (s)
일반적으로 상기 논의된 바와 같이, 및 하기 실시예에서 보다 구체적으로 입증되는 바와 같이, 본 발명의 기술은 대상체의 생물학적 샘플에서 cfDNA에 기여하는 조직(들) 및/또는 세포 유형(들)을 결정 (예를 들어, 예측)하기 위해 사용될 수 있다.As generally discussed above, and as more specifically demonstrated in the Examples below, the techniques of the present invention can be used to determine (or identify) the tissue (s) and / or cell type (s) that contribute to cfDNA in a biological sample of a subject For example, prediction).
따라서, 일부 실시양태에서, 본 개시내용은 대상체에서 무세포 DNA (cfDNA)를 생성하는 조직 및/또는 세포 유형을 결정하는 방법을 제공하고, 이 방법은 대상체로부터의 생물학적 샘플로부터 cfDNA를 단리하고, 단리된 cfDNA는 복수개의 cfDNA 단편을 포함하는 것인 단계; 복수개의 cfDNA 단편의 적어도 일부분과 연관된 서열을 결정하는 단계; cfDNA 단편 서열의 함수로서 복수개의 cfDNA 단편의 적어도 일부의 cfDNA 단편 종점에 대한 참조 게놈 내의 게놈 위치를 결정하는 단계; 및 cfDNA 단편 종점의 적어도 일부의 게놈 위치의 함수로서 cfDNA 단편을 생성하는 조직 및/또는 세포 유형의 적어도 일부를 결정하는 단계를 포함한다.Thus, in some embodiments, this disclosure provides a method of determining the tissue and / or cell type that produces acellular DNA (cfDNA) in a subject, comprising isolating cfDNA from a biological sample from the subject, Wherein the isolated cfDNA comprises a plurality of cfDNA fragments; Determining a sequence associated with at least a portion of a plurality of cfDNA fragments; determining the genomic location in the reference genome for at least a portion of the cfDNA fragment endpoints of the plurality of cfDNA fragments as a function of the cfDNA fragment sequence; And determining at least a portion of the tissue and / or cell type that produces the cfDNA fragment as a function of the genomic location of at least a portion of the cfDNA fragment endpoint.
일부 실시양태에서, 생물학적 샘플은 전혈, 말초 혈액 혈장, 소변 또는 뇌 척수액을 포함하거나, 이로 본질적으로 이루어지거나, 또는 이로 이루어진다.In some embodiments, the biological sample comprises, consists essentially of, or consists of whole blood, peripheral blood plasma, urine or cerebrospinal fluid.
일부 실시양태에서, cfDNA 단편을 생성하는 조직 및/또는 세포 유형의 적어도 일부를 결정하는 단계는 cfDNA 단편 종점의 적어도 일부의 게놈 위치, 또는 그의 분포의 수학적 변환을 하나 이상의 참조 지도와 비교하는 것을 포함한다. 본원에서 사용된 용어 "참조 지도"는 cfDNA 서열이 정렬된 게놈 (예를 들어, 참조 게놈) 내의 좌표의 함수로서 대상체의 생물학적 샘플에서 cfDNA의 특징과 상관되거나 비교될 수 있는 임의의 유형 또는 형태의 데이터를 나타낸다. 참조 지도는 임의의 적합한 수단에 의해 대상체의 생물학적 샘플에서 cfDNA의 특징과 상관되거나 비교될 수 있다. 비제한적인 예를 들어, 상관관계 또는 비교는 직접적으로 또는 참조 게놈 내의 윈도우에 걸친 그의 분포에 대한 수학적 변환을 수행한 후, 수치 또는 참조 지도에 의해 참조 게놈의 등가 좌표에 대해 정의된 임의의 다른 상태의 측면에서 대상체의 생물학적 샘플에서 cfDNA 종점의 빈도를 분석하여 달성될 수 있다. 또 다른 비제한적인 예에서, 상관관계 또는 비교는 결정된 뉴클레오솜 간격(들)에 비추어 대상체의 생물학적 샘플의 cfDNA에 기초하여 결정된 뉴클레오솜 간격(들), 또는 참조 지도에서 뉴클레오솜 간격(들)과 상관관계가 있는 또 다른 특성을 분석하여 달성될 수 있다.In some embodiments, determining at least a portion of the tissue and / or cell type that produces the cfDNA fragment comprises comparing the mathematical transformation of the genomic location of at least a portion of the cfDNA fragment endpoint, or its distribution, with one or more reference maps do. As used herein, the term " reference map "refers to any type or form of a cfDNA sequence that can be correlated or compared with the characteristics of cfDNA in a biological sample of a subject as a function of coordinates in the genome (e.g., the reference genome) Data. The reference map can be correlated or compared with the characteristics of cfDNA in the biological sample of the subject by any suitable means. By way of non-limiting example, a correlation or comparison may be performed either directly or after performing a mathematical transformation on its distribution across windows in the reference genome, followed by a numerical or reference map to any other Can be achieved by analyzing the frequency of the cfDNA endpoints in the biological sample of the subject in terms of the status. In another non-limiting example, the correlation or comparison is based on the nucleosome interval (s) determined based on the cfDNA of the biological sample of the subject in light of the determined nucleosome interval (s), or the nucleosome interval And other characteristics that are correlated with each other.
참조 지도(들)은 예를 들어 게놈 정보의 공개 데이터베이스, 공개된 데이터, 또는 공통 특징 (예를 들어, 질환 상태)을 각각 가질 수 있는 참조 대상체의 특정 집단에 대해 생성된 데이터를 포함하는 임의의 적합한 데이터 공급원으로부터 공급되거나 유래될 수 있다. 일부 실시양태에서, 참조 지도는 DNase I 과민성 데이터세트를 포함한다. 일부 실시양태에서, 참조 지도는 RNA 발현 데이터세트를 포함한다. 일부 실시양태에서, 참조 지도는 염색체 입체형태 지도를 포함한다. 일부 실시양태에서, 참조 지도는 염색질 접근가능성 지도를 포함한다. 일부 실시양태에서, 참조 지도는 질환 또는 장애와 연관된 적어도 하나의 조직 또는 세포 유형으로부터 생성된 데이터를 포함한다. 일부 실시양태에서, 참조 지도는 조직 또는 세포 유형에서 뉴클레오솜 및/또는 크로마토솜의 위치를 포함한다. 일부 실시양태에서, 참조 지도는 외인성 뉴클레아제 (예를 들어, 미크로코쿠스 뉴클레아제)로 염색질을 소화시키는 것을 포함하는 절차에 의해 작성된다. 일부 실시양태에서, 참조 지도는 전위 (transposition) 기반 방법 (예를 들어, ATAC-seq)에 의해 결정된 염색질 접근가능성 데이터를 포함한다. 일부 실시양태에서, 참조 지도는 조직 또는 세포 유형에 대한 DNA 결합 및/또는 DNA 점유 단백질의 위치와 연관된 데이터를 포함한다. 일부 실시양태에 있어서, DNA 결합 및/또는 DNA 점유 단백질은 전사 인자이다. 일부 실시양태에서, 위치는 가교된 DNA-단백질 복합체의 염색질 면역침전을 포함하는 절차에 의해 결정된다. 일부 실시양태에서, 위치는 조직 또는 세포 유형과 연관된 DNA를 뉴클레아제 (예를 들어, DNase-I)로 처리하는 것을 포함하는 절차에 의해 결정된다. 일부 실시양태에서, 참조 지도는 알려진 질환을 가진 하나 이상의 개체로부터의 생물학적 샘플로부터의 cfDNA 단편의 서열결정에 의해 작성된다. 일부 실시양태에서, 참조 지도가 그로부터 작성되는 상기 생물학적 샘플은 인간 세포 또는 조직이 이종이식된 동물로부터 수집된다.The reference map (s) may include, for example, an open database of genomic information, any published data, or any (including, but not limited to) data generated for a particular population of reference objects And may be supplied or derived from a suitable data source. In some embodiments, the reference map comprises a DNase I sensitive data set. In some embodiments, the reference map comprises an RNA expression data set. In some embodiments, the reference map includes a chromosome stereochemical map. In some embodiments, the reference map includes a chromatic accessibility map. In some embodiments, the reference map comprises data generated from at least one tissue or cell type associated with the disease or disorder. In some embodiments, the reference map comprises the location of a nucleosome and / or a chromatome in a tissue or cell type. In some embodiments, the reference map is generated by a procedure involving digesting the chromatin with an exogenous nuclease (e. G., Micrococus nuclease). In some embodiments, the reference map includes chromatin accessibility data determined by a transposition-based method (e.g., ATAC-seq). In some embodiments, the reference map comprises data associated with DNA binding to the tissue or cell type and / or the location of the DNA occupancy protein. In some embodiments, the DNA binding and / or the DNA occupying protein is a transcription factor. In some embodiments, the site is determined by a procedure involving chromatin immunoprecipitation of the cross-linked DNA-protein complex. In some embodiments, the site is determined by a procedure involving treating DNA associated with the tissue or cell type with a nuclease (e. G., DNase-I). In some embodiments, the reference map is created by sequencing cf DNA fragments from a biological sample from one or more individuals with known disease. In some embodiments, the biological sample from which a reference map is drawn is collected from a human cell or tissue xenografted animal.
일부 실시양태에서, 참조 지도는 조직 또는 세포 유형에 대한 DNA 결합 또는 DNA 점유 단백질의 위치에 대응하는 생물학적 특징을 포함한다. 일부 실시양태에서, 참조 지도는 하나 이상의 유전자의 정량적 RNA 발현에 대응하는 생물학적 특징을 포함한다. 일부 실시양태에서, 참조 지도는 하나 이상의 히스톤 마크의 존재 또는 부재에 대응하는 생물학적 특징을 포함한다. 일부 실시양태에서, 참조 지도는 뉴클레아제 절단에 대한 과민성에 대응하는 생물학적 특징을 포함한다.In some embodiments, the reference map comprises biological features corresponding to the location of a DNA binding or DNA occupancy protein for a tissue or cell type. In some embodiments, the reference map comprises biological features corresponding to quantitative RNA expression of one or more genes. In some embodiments, the reference map includes biological features corresponding to the presence or absence of one or more histone marks. In some embodiments, the reference map comprises biological features corresponding to hypersensitivity to nuclease cleavage.
cfDNA 단편 종점의 적어도 일부의 게놈 위치를 하나 이상의 참조 지도와 비교하는 단계는 다양한 방법으로 수행될 수 있다. 일부 실시양태에서, 생물학적 샘플로부터 생성된 cfDNA 데이터 (예를 들어, cfDNA 단편의 게놈 위치, 그의 종점, 그의 종점의 빈도 및/또는 그의 분포로부터 추정된 뉴클레오솜 간격(들))는 하나 초과의 참조 지도에 비교된다. 이러한 실시양태에서, 생물학적 샘플에서의 cfDNA 데이터와 가장 높은 상관관계를 갖는 참조 지도와 관련된 조직 또는 세포 유형은 기여하는 것으로 간주된다. 비제한적인 예를 들어, cfDNA 데이터가 유사한 cfDNA 종점 목록 및 그의 참조 게놈 내의 위치를 포함하면, cfDNA 종점 및 그의 참조 게놈 내의 위치의 가장 유사한 목록을 갖는 참조 지도(들)는 기여하는 것으로 간주될 수 있다. 또 다른 비제한적인 예로서, 생물학적 샘플로부터의 cfDNA 단편 종점의 분포의 수학적 변환과 가장 높은 상관관계 (또는 건강한 대상체로부터의 cfDNA에 비해 증가된 상관관계)를 갖는 참조 지도(들)는 기여하는 것으로 간주될 수 있다. 참조 지도에 대응하는 조직 유형 및/또는 세포 유형은 생물학적 샘플에서 단리된 cfDNA의 잠재적인 공급원으로 간주된다.The step of comparing the genomic location of at least a portion of the cfDNA fragment end point with one or more reference maps can be performed in a variety of ways. In some embodiments, the cfDNA data generated from the biological sample (e.g., the genomic location of the cfDNA fragment, the endpoint thereof, the frequency of its endpoint and / or the nucleosome interval (s) estimated from its distribution) It is compared to a reference map. In this embodiment, the tissue or cell type associated with the reference map having the highest correlation with the cfDNA data in the biological sample is considered to contribute. By way of non-limiting example, if the cfDNA data comprises a similar cfDNA endpoint list and a position within its reference genome, the reference map (s) having the most similar list of positions in the cfDNA endpoint and its reference genome can be considered to contribute have. As another non-limiting example, reference map (s) having the highest correlation (or increased correlation relative to cfDNA from a healthy subject) with the mathematical transformation of the distribution of cfDNA fragment endpoints from a biological sample is contributed Can be considered. The tissue type and / or cell type corresponding to the reference map is considered to be a potential source of cfDNA isolated in the biological sample.
일부 실시양태에서, cfDNA 단편을 생성하는 조직 및/또는 세포 유형의 적어도 일부를 결정하는 단계는 cfDNA 단편 종점의 적어도 일부의 게놈 위치의 분포에 대해 수학적 변환을 수행하는 것을 포함한다. 본 발명의 기술과 관련하여 사용하기에 적합한 수학적 변환의 비제한적인 하나의 예는 고속 푸리에 변환 ("FFT")과 같은 푸리에 변환이다.In some embodiments, determining at least a portion of the tissue and / or cell type that produces the cfDNA fragment comprises performing a mathematical transformation on the distribution of the genomic location of at least a portion of the cfDNA fragment endpoint. One non-limiting example of a mathematical transformation suitable for use in connection with the teachings of the present invention is a Fourier transform, such as a Fast Fourier Transform ("FFT").
일부 실시양태에 있어서, 상기 방법은 참조 게놈의 적어도 일부의 좌표 각각에 대한 스코어를 결정하는 단계를 추가로 포함하고, 여기서 스코어는 적어도 복수개의 cfDNA 단편 종점 및 그의 게놈 위치의 함수로서 결정되고, 관찰된 cfDNA 단편을 생성하는 조직 및/또는 세포 유형의 적어도 일부를 결정하는 단계는 스코어를 하나 이상의 참조 지도와 비교하는 단계를 포함한다. 스코어는 참조 게놈의 좌표에 상대적 또는 절대적 값을 할당하기 위해 사용될 수 있는 임의의 기준 (예를 들어, 숫자 랭킹 또는 확률)일 수 있다. 예를 들어, 스코어는 좌표가 cfDNA 단편 종점의 위치를 나타내는 확률 또는 좌표가 뉴클레오솜 또는 단백질 결합에 의해 뉴클레아제 절단으로부터 우선적으로 보호되는 게놈의 위치를 나타낼 확률과 같은 확률로 이루어지거나 이들 확률에 관련될 수 있다. 또 다른 예로서, 스코어는 게놈의 특정 영역 내에서 cfDNA 단편 종점 분포의 수학적 변환에 의해 결정되는 바와 같이, 상기 특정 영역에서 뉴클레오솜 간격과 관련될 수 있다. 이러한 스코어는 해당 특정 좌표와 관련된 절대적 또는 상대적 이벤트 (예를 들어, cfDNA 단편 종점의 수)를 계수하거나 또는 영역 또는 게놈 좌표에서 상기 계수의 값에 대한 수학적 변환을 수행하는 것을 포함한 임의의 적합한 방법에 의해 좌표에 할당될 수 있다. 일부 실시양태에서, 좌표에 대한 스코어는 좌표가 cfDNA 단편 종점의 위치일 확률과 관련된다. 다른 실시양태에서, 좌표에 대한 스코어는 좌표가 뉴클레오솜 또는 단백질 결합에 의해 뉴클레아제 절단으로부터 우선적으로 보호되는 게놈의 위치를 나타낼 확률과 관련된다. 일부 실시양태에서, 스코어는 좌표의 게놈 영역에서 뉴클레오솜 간격과 관련된다.In some embodiments, the method further comprises determining a score for each of the coordinates of at least a portion of the reference genome, wherein the score is determined as a function of at least a plurality of cfDNA fragment endpoints and their genomic locations, The step of determining at least a portion of the tissue and / or cell type that produces the < RTI ID = 0.0 > cfDNA < / RTI > fragment comprises comparing the score with one or more reference maps. The score may be any criteria (e.g., a numerical ranking or probability) that can be used to assign a relative or absolute value to the coordinates of the reference genome. For example, the score may be a probability that the coordinates represent the location of the cfDNA fragment endpoint, or that the coordinates represent the location of the genome that is preferentially protected from the nuclease cleavage by nucleosome or protein binding, Lt; / RTI > As another example, a score may be associated with a nucleosome gap in the particular region, as determined by mathematical transformation of the cfDNA fragment endpoint distribution within a particular region of the genome. Such a score may be determined by any suitable method, including counting absolute or relative events (e.g., the number of cfDNA fragment endpoints) associated with that particular coordinate, or performing a mathematical transformation on the value of the coefficient in the region or genomic coordinates Can be assigned to the coordinates. In some embodiments, the score for the coordinates is related to the probability that the coordinates are the positions of the cfDNA fragment endpoints. In another embodiment, the score for the coordinates is related to the probability that the coordinates represent the location of the genome that is preferentially protected from nuclease cleavage by nucleosome or protein binding. In some embodiments, the score is related to the nucleosome spacing in the genome region of the coordinates.
본원에서 설명되는 방법에서 언급된 조직(들) 및/또는 세포 유형(들)은 cfDNA를 생성하는 임의의 조직 또는 세포 유형일 수 있다. 일부 실시양태에서, 조직 또는 세포 유형은 질환 또는 장애를 갖는 대상체로부터의 1차 조직이다. 일부 실시양태에서, 질환 또는 장애는 암, 정상 임신, 임신 합병증 (예를 들어, 이수성 임신), 심근경색, 염증성 장 질환, 전신성 자가면역 질환, 국부 자가면역 질환, 거부 반응을 수반하는 동종이식, 거부 반응을 수반하지 않는 동종이식, 졸중, 및 국부 조직 손상으로 이루어진 군으로부터 선택된다.The tissue (s) and / or cell type (s) mentioned in the methods described herein may be any tissue or cell type that produces cfDNA. In some embodiments, the tissue or cell type is a primary tissue from a subject having a disease or disorder. In some embodiments, the disease or disorder is selected from the group consisting of cancer, normal pregnancy, complications of pregnancy (e. G., Ischemic pregnancy), myocardial infarction, inflammatory bowel disease, systemic autoimmune disease, local autoimmune disease, Allograft, < RTI ID = 0.0 > stroke, < / RTI > and localized tissue injury without rejection.
일부 실시양태에서, 조직 또는 세포 유형은 건강한 대상체로부터의 1차 조직이다.In some embodiments, the tissue or cell type is a primary tissue from a healthy subject.
일부 실시양태에서, 조직 또는 세포 유형은 불멸화된 세포주이다.In some embodiments, the tissue or cell type is an immortalized cell line.
일부 실시양태에서, 조직 또는 세포 유형은 종양으로부터의 생검이다.In some embodiments, the tissue or cell type is a biopsy from a tumor.
일부 실시양태에서, 참조 지도는 적어도 하나의 참조 대상체로부터 얻은 샘플로부터 얻은 서열 데이터에 기초한다. 일부 실시양태에서, 이 서열 데이터는 예를 들어 알려진 질환을 갖는 대상체(들)로부터의 cfDNA를 서열결정하여 참조 지도가 작성되는 경우, 참조 게놈 내의 cfDNA 단편 종점의 위치를 규정한다. 다른 실시양태에서, 참조 지도가 기초로 하는 상기 서열 데이터는 DNase I 과민성 부위 데이터세트, RNA 발현 데이터세트, 염색체 입체형태 지도, 또는 염색질 접근가능성 지도, 또는 미크로코쿠스 뉴클레아제의 염색질 소화에 의해 작성된 뉴클레오솜 배치 지도 중 어느 하나 이상을 포함할 수 있다.In some embodiments, the reference map is based on sequence data obtained from a sample obtained from at least one reference object. In some embodiments, the sequence data defines the location of the cfDNA fragment endpoint in the reference genome, for example, when a reference map is generated by sequencing cfDNA from the subject (s) with a known disease. In another embodiment, the sequence data on which the reference map is based is generated by chromatin digestion of a DNase I hypersensitive site data set, an RNA expression data set, a chromosome stereochemistry map, or a chromosome accessibility map, or a micrococycle nuclease And a nucleosome mapping map created.
일부 실시양태에서, 참조 대상체는 건강하다. 일부 실시양태에서, 참조 대상체는 임의적으로 암, 정상 임신, 임신 합병증 (예를 들어, 이수성 임신), 심근경색, 염증성 장 질환, 전신성 자가면역 질환, 국부 자가면역 질환, 거부 반응을 수반하는 동종이식, 거부 반응을 수반하지 않는 동종이식, 졸중 및 국부 조직 손상으로 이루어진 군으로부터 선택되는 질환 또는 장애를 갖는다.In some embodiments, the reference object is healthy. In some embodiments, the reference subject is selected from the group consisting of an allogeneic transplant involving cancer, normal pregnancy, complication of pregnancy (e. G., Isomeric pregnancy), myocardial infarction, inflammatory bowel disease, systemic autoimmune disease, local autoimmune disease, , Allografts that do not involve rejection, stroke and localized tissue injury.
일부 실시양태에서, 참조 지도는 조직 또는 세포 유형과 연관된 참조 게놈의 좌표의 적어도 일부분에 대한 스코어를 포함한다. 일부 실시양태에서, 참조 지도는 스코어의 푸리에 변환과 같은 스코어의 수학적 변환을 포함한다. 일부 실시양태에서, 스코어는 조직 또는 세포 유형에 대한 참조 게놈 좌표의 주석에 기초한다. 일부 실시양태에서, 스코어는 뉴클레오솜 및/또는 크로마토솜의 위치에 기초한다. 일부 실시양태에서, 스코어는 전사 개시 부위 및/또는 전사 종결 부위에 기초한다. 일부 실시양태에서, 스코어는 적어도 하나의 전사 인자의 예측된 결합 부위에 기초한다. 일부 실시양태에서, 스코어는 예측된 뉴클레아제 과민성 부위에 기초한다. 일부 실시양태에서, 스코어는 예측된 뉴클레오솜 간격에 기초한다.In some embodiments, the reference map includes a score for at least a portion of the coordinates of the reference genome associated with the tissue or cell type. In some embodiments, the reference map includes a mathematical transformation of the score, such as a Fourier transform of the score. In some embodiments, the score is based on annotations of reference genomic coordinates for tissue or cell type. In some embodiments, the score is based on the location of the nucleosome and / or the chromatome. In some embodiments, the score is based on a transcription initiation site and / or a transcription termination site. In some embodiments, the score is based on the predicted binding site of at least one transcription factor. In some embodiments, the score is based on predicted nuclease hypersensitive sites. In some embodiments, the score is based on the predicted nucleosome spacing.
일부 실시양태에서, 스코어는 적어도 하나의 직교 (orthogonal) 생물학적 특징과 연관된다. 일부 실시양태에서, 직교 생물학적 특징은 고도로 발현된 유전자와 관련된다. 일부 실시양태에서, 직교 생물학적 특징은 저 발현 유전자와 관련된다.In some embodiments, the score is associated with at least one orthogonal biological characteristic. In some embodiments, orthogonal biological features are associated with highly expressed genes. In some embodiments, orthogonal biological features are associated with a low expression gene.
일부 실시양태에서, 복수개의 스코어 중 적어도 일부는 역치 (최소) 값 초과의 값을 갖는다. 그러한 실시양태에서, 역치 (최소) 값 미만의 스코어는 스코어를 참조 지도와 비교하는 단계로부터 배제된다. 일부 실시양태에서, 역치 값은 cfDNA를 생성하는 조직(들) 및/또는 세포 유형(들)을 결정하기 전에 결정된다. 다른 실시양태에서, 역치 값은 cfDNA를 생성하는 조직(들) 및/또는 세포 유형(들)을 결정한 후에 결정된다.In some embodiments, at least some of the plurality of scores have a value in excess of the threshold (minimum) value. In such an embodiment, the score below the threshold (min) value is excluded from comparing the score to the reference map. In some embodiments, the threshold value is determined prior to determining the tissue (s) and / or cell type (s) that produce the cfDNA. In another embodiment, the threshold value is determined after determining the tissue (s) and / or cell type (s) that produce cfDNA.
일부 실시양태에서, cfDNA 단편 종점의 적어도 일부의 복수개의 게놈 위치의 함수로서 cfDNA를 생성하는 조직 및/또는 세포 유형을 결정하는 단계는 샘플의 cfDNA 단편 종점의 적어도 일부의 게놈 위치 분포의 수학적 변환을 하나 이상의 참조 지도의 하나 이상의 특징과 비교하는 것을 포함한다. 이 목적에 적합한 수학적 변환의 비제한적인 하나의 예는 고속 푸리에 변환 ("FFT")과 같은 푸리에 변환이다.In some embodiments, determining the tissue and / or cell type that produces cfDNA as a function of the plurality of genomic locations of at least a portion of the cfDNA fragment endpoint comprises determining a mathematical transformation of the genomic location distribution of at least a portion of the cfDNA fragment endpoint of the sample With one or more features of the one or more reference maps. One non-limiting example of a mathematical transformation suitable for this purpose is a Fourier transform, such as a Fast Fourier Transform ("FFT").
본원에서 설명되는 임의의 실시양태에서, 상기 방법은 단리된 cfDNA를 생성하는 결정된 조직 및/또는 세포 유형의 목록을 포함하는 보고서를 작성하는 단계를 추가로 포함할 수 있다. 보고서는 임의적으로 샘플 및/또는 대상체, 생물학적 샘플의 유형, 생물학적 샘플이 대상체로부터 획득된 날짜, cfDNA 단리 단계가 수행된 날짜 및/또는 생물학적 샘플로부터 단리된 임의의 cfDNA를 생성하지 않을 가능성이 있는 조직(들) 및/또는 세포 유형(들)에 대한 임의의 다른 정보를 추가로 포함할 수 있다.In any of the embodiments described herein, the method may further comprise generating a report comprising a list of determined tissues and / or cell types that produce the isolated cfDNA. The report may optionally include a sample and / or a tissue, a tissue that is likely not to produce any cfDNA isolated from the biological sample, the type of biological sample, the date the biological sample was obtained from the subject, the date the cfDNA isolation step was performed and / (S) and / or any other information about the cell type (s).
일부 실시양태에서, 보고서는 비제한적인 예를 들어, 대상체로부터 추가의 진단 시험의 제안, 치료 요법 개시 제안, 기존의 치료 요법의 변경 제안 및/또는 기존의 치료 요법의 연기 또는 중지 제안을 포함하는 권고된 치료 프로토콜을 추가로 포함한다.In some embodiments, the reports include, but are not limited to, proposals for additional diagnostic tests, proposals for initiation of treatment regimens, suggestions for alteration of existing therapies and / or proposals to delay or discontinue existing therapies, Additional recommended treatment protocols are included.
대상체에서From the object 질환 또는 장애를 확인하는 방법 How to Identify a Disease or Disorder
일반적으로 상기 논의되고, 하기 실시예에서 보다 구체적으로 입증되는 바와 같이, 본 발명의 기술은 적어도 부분적으로는 대상체의 생물학적 샘플에서 cfDNA에 기여하는 조직 및/또는 세포 유형에 기초로 하여, 질환 또는 장애, 또는 질환 또는 장애의 부재를 결정 (예를 들어, 예측)하기 위해 사용될 수 있다.As generally discussed above and more specifically demonstrated in the Examples below, the techniques of the present invention are based, at least in part, on the type of tissue and / or cell that contribute to cfDNA in a biological sample of a subject, , Or to determine (e.g., predict) the absence of a disease or disorder.
따라서, 일부 실시양태에서, 본 개시내용은 대상체에서 질환 또는 장애를 확인하는 방법을 제공하고, 상기 방법은 대상체로부터의 생물학적 샘플로부터 무세포 DNA (cfDNA)를 단리하고, 단리된 cfDNA는 복수개의 cfDNA 단편을 포함하는 것인 단계; 복수개의 cfDNA 단편의 적어도 일부분과 연관된 서열을 결정하는 단계; cfDNA 단편 서열의 함수로서 복수개의 cfDNA 단편의 적어도 일부의 cfDNA 단편 종점에 대한 참조 게놈 내의 게놈 위치를 결정하는 단계; cfDNA 단편 종점의 적어도 일부의 게놈 위치의 함수로서 cfDNA를 생성하는 조직 및/또는 세포 유형의 적어도 일부를 결정하는 단계; 및 상기 질환 또는 장애를 cfDNA를 생성하는 결정된 조직 및/또는 세포 유형의 함수로서 확인하는 단계를 포함한다.Thus, in some embodiments, the disclosure provides a method of identifying a disease or disorder in a subject, the method comprising isolating cell-free DNA (cfDNA) from a biological sample from the subject, wherein the isolated cfDNA comprises a plurality of cfDNA Fragments; Determining a sequence associated with at least a portion of a plurality of cfDNA fragments; determining the genomic location in the reference genome for at least a portion of the cfDNA fragment endpoints of the plurality of cfDNA fragments as a function of the cfDNA fragment sequence; determining at least a portion of the tissue and / or cell type that produces cfDNA as a function of genomic location of at least a portion of the cfDNA fragment endpoint; And identifying the disease or disorder as a function of the determined tissue and / or cell type producing the cfDNA.
일부 실시양태에서, 생물학적 샘플은 전혈, 말초 혈액 혈장, 소변 또는 뇌 척수액을 포함하거나, 이로 본질적으로 이루어지거나, 또는 이로 이루어진다.In some embodiments, the biological sample comprises, consists essentially of, or consists of whole blood, peripheral blood plasma, urine or cerebrospinal fluid.
일부 실시양태에서, cfDNA를 생성하는 조직 및/또는 세포 유형을 결정하는 단계는 cfDNA 단편 종점의 적어도 일부의 게놈 위치 또는 그의 분포의 수학적 변환을 하나 이상의 참조 지도에 비교하는 것을 포함한다. 이들 실시양태와 관련하여 사용되는 용어 "참조 지도"는 대상체의 생물학적 샘플에서 cfDNA를 생성하는 조직(들) 및/또는 세포 유형(들)을 결정하는 방법과 관련하여 상기 설명한 것과 동일한 의미를 가질 수 있다. 일부 실시양태에서, 참조 지도는 DNase I 과민성 부위 데이터세트, RNA 발현 데이터세트, 염색체 입체형태 지도, 염색질 접근가능성 지도, 적어도 하나의 참조 대상체로부터 얻은 샘플로부터 생성된 서열 데이터, 질환 또는 장애와 연관된 적어도 하나의 조직에 대응하는 효소 매개된 단편화 데이터, 및/또는 조직 또는 세포 유형 내의 뉴클레오솜 및/또는 크로마토솜의 위치 중 어느 하나 이상을 포함할 수 있다. 일부 실시양태에서, 참조 지도는 알려진 질환을 갖는 하나 이상의 개체로부터의 생물학적 샘플로부터의 cfDNA 단편의 서열결정에 의해 작성된다. 일부 실시양태에서, 참조 지도가 그로부터 작성되는 상기 생물학적 샘플은 인간 세포 또는 조직이 이식된 동물로부터 수집된다.In some embodiments, determining the tissue and / or cell type that produces the cfDNA comprises comparing the mathematical transformation of the genomic location of at least a portion of the cfDNA fragment endpoint or its distribution to one or more reference maps. The term "reference map " used in connection with these embodiments may have the same meaning as described above in connection with a method for determining tissue (s) and / or cell type (s) that produce cfDNA in a biological sample of a subject have. In some embodiments, the reference map includes at least one of a DNase I hypersensitive site data set, an RNA expression data set, a chromosome stereotactic map, a chromosome accessibility map, sequence data generated from a sample from at least one reference object, Enzyme-mediated fragmentation data corresponding to one tissue, and / or the location of a nucleosome and / or chromatome within a tissue or cell type. In some embodiments, the reference map is created by sequencing cf DNA fragments from a biological sample from one or more individuals with known disease. In some embodiments, the biological sample from which a reference map is drawn is collected from a human cell or tissue-implanted animal.
일부 실시양태에서, 참조 지도는 외인성 뉴클레아제 (예를 들어, 미크로코쿠스 뉴클레아제)로 염색질을 소화시켜 작성된다. 일부 실시양태에서, 참조 지도는 전위 기반 방법 (예를 들어, ATAC-seq)에 의해 결정된 염색질 접근가능성 데이터를 포함한다. 일부 실시양태에서, 참조 지도는 조직 또는 세포 유형에 대한 DNA 결합 및/또는 DNA 점유 단백질의 위치와 연관된 데이터를 포함한다. 일부 실시양태에서, DNA 결합 및/또는 DNA 점유 단백질은 전사 인자이다. 일부 실시양태에서, 위치는 가교된 DNA-단백질 복합체의 염색질 면역침전에 의해 결정된다. 일부 실시양태에서, 위치는 조직 또는 세포 유형과 연관된 DNA를 뉴클레아제 (예를 들어, DNase-I)로 처리하여 결정된다.In some embodiments, the reference map is generated by digesting the chromatin with an exogenous nuclease (e. G., Micrococus nuclease). In some embodiments, the reference map includes chromatin accessibility data determined by a displacement-based method (e.g., ATAC-seq). In some embodiments, the reference map comprises data associated with DNA binding to the tissue or cell type and / or the location of the DNA occupancy protein. In some embodiments, the DNA binding and / or DNA occupying protein is a transcription factor. In some embodiments, the site is determined by chromatin immunoprecipitation of the cross-linked DNA-protein complex. In some embodiments, the site is determined by treating the DNA associated with the tissue or cell type with a nuclease (e. G., DNase-I).
일부 실시양태에서, 참조 지도는 조직 또는 세포 유형에 대한 DNA 결합 또는 DNA 점유 단백질의 위치에 대응하는 생물학적 특징을 포함한다. 일부 실시양태에서, 참조 지도는 하나 이상의 유전자의 정량적 발현에 대응하는 생물학적 특징을 포함한다. 일부 실시양태에서, 참조 지도는 하나 이상의 히스톤 마크의 존재 또는 부재에 대응하는 생물학적 특징을 포함한다. 일부 실시양태에서, 참조 지도는 뉴클레아제 절단에 대한 과민성에 대응하는 생물학적 특징을 포함한다.In some embodiments, the reference map comprises biological features corresponding to the location of a DNA binding or DNA occupancy protein for a tissue or cell type. In some embodiments, the reference map comprises biological features corresponding to quantitative expression of one or more genes. In some embodiments, the reference map includes biological features corresponding to the presence or absence of one or more histone marks. In some embodiments, the reference map comprises biological features corresponding to hypersensitivity to nuclease cleavage.
일부 실시양태에서, cfDNA를 생성하는 조직 및/또는 세포 유형을 결정하는 단계는 복수개의 cfDNA 단편 종점의 적어도 일부의 게놈 위치의 분포에 대해 수학적 변환을 수행하는 것을 포함한다. 일부 실시양태에서, 수학적 변환은 푸리에 변환을 포함한다.In some embodiments, determining the tissue and / or cell type that produces cfDNA comprises performing a mathematical transformation on the distribution of the genomic location of at least a portion of the plurality of cfDNA fragment endpoints. In some embodiments, the mathematical transform includes a Fourier transform.
일부 실시양태에서, 상기 방법은 참조 게놈의 적어도 일부의 좌표 각각에 대한 스코어를 결정하는 단계를 추가로 포함하고, 여기서 스코어는 적어도 복수개의 cfDNA 단편 종점 및 그의 게놈 위치의 함수로서 결정되고, 관찰된 cfDNA 단편을 생성하는 조직 및/또는 세포 유형의 적어도 일부를 결정하는 단계는 스코어를 하나 이상의 참조 지도와 비교하는 단계를 포함한다. 스코어는 참조 게놈의 좌표에 상대적 또는 절대적 값을 할당하기 위해 사용될 수 있는 임의의 기준 (예를 들어, 숫자 랭킹 또는 확률)일 수 있다. 예를 들어, 스코어는 좌표가 cfDNA 단편 종점의 위치를 나타낼 확률 또는 좌표가 뉴클레오솜 또는 단백질 결합에 의해 뉴클레아제 절단으로부터 우선적으로 보호되는 게놈의 위치를 나타낼 확률과 같은 확률로 이루어지거나 이들 확률과 관련될 수 있다. 또 다른 예로서, 스코어는 게놈의 특정 영역 내에서 cfDNA 단편 종점 분포의 수학적 변환에 의해 결정된 바와 같이 상기 특정 영역에서 뉴클레오솜 간격과 관련될 수 있다. 이러한 스코어는 예를 들어 해당 특정 좌표와 관련된 절대적 또는 상대적 이벤트 (예를 들어, cfDNA 단편 종점의 수)를 계수하거나 또는 영역 또는 게놈 좌표에서 상기 계수의 값에 대한 수학적 변환을 수행하는 것을 포함한 임의의 적합한 방법에 의해 좌표에 할당될 수 있다. 일부 실시양태에서, 좌표에 대한 스코어는 좌표가 cfDNA 단편 종점의 위치일 확률과 관련된다. 다른 실시양태에서, 좌표에 대한 스코어는 좌표가 뉴클레오솜 또는 단백질 결합에 의해 뉴클레아제 절단으로부터 우선적으로 보호되는 게놈의 위치를 나타낼 확률과 관련된다. 일부 실시양태에서, 스코어는 좌표의 게놈 영역에서 뉴클레오솜 간격과 관련된다.In some embodiments, the method further comprises determining a score for each of at least some of the coordinates of the reference genome, wherein the score is determined as a function of at least a plurality of cfDNA fragment endpoints and their genomic locations, Determining at least a portion of the tissue and / or cell type that produces the cfDNA fragment comprises comparing the score with one or more reference maps. The score may be any criteria (e.g., a numerical ranking or probability) that can be used to assign a relative or absolute value to the coordinates of the reference genome. For example, the score may consist of a probability that the coordinates represent the position of the cfDNA fragment endpoint, or the probability that the coordinates represent the position of the genome that is preferentially protected from the nuclease cleavage by the nucleosome or protein binding, ≪ / RTI > As another example, the score may be related to the nucleosome spacing in that particular region, as determined by mathematical transformation of the cfDNA fragment endpoint distribution within a particular region of the genome. Such a score may include, for example, any number of absolute or relative events (e. G., The number of cfDNA fragment endpoints) associated with the particular coordinate, or any mathematical transformation involving performing a mathematical transformation on the value of the coefficient Can be assigned to the coordinates by a suitable method. In some embodiments, the score for the coordinates is related to the probability that the coordinates are the positions of the cfDNA fragment endpoints. In another embodiment, the score for the coordinates is related to the probability that the coordinates represent the location of the genome that is preferentially protected from nuclease cleavage by nucleosome or protein binding. In some embodiments, the score is related to the nucleosome spacing in the genome region of the coordinates.
이들 실시양태와 관련하여 사용되는 용어 "스코어"는 대상체의 생물학적 샘플에서 cfDNA를 생성하는 조직(들) 및/또는 세포 유형(들)을 결정하는 방법과 관련하여 상기 설명된 것과 동일한 의미를 가질 수 있다. 일부 실시양태에서, 좌표에 대한 스코어는 좌표가 cfDNA 단편 종점의 위치일 확률과 관련된다. 다른 실시양태에서, 좌표에 대한 스코어는 좌표가 뉴클레오솜 또는 단백질 결합에 의해 뉴클레아제 절단으로부터 우선적으로 보호되는 게놈의 위치를 나타낼 확률과 관련된다. 일부 실시양태에서, 스코어는 좌표의 게놈 영역에서 뉴클레오솜 간격과 관련된다.The term "score" used in connection with these embodiments may have the same meaning as described above in connection with the method of determining tissue (s) and / or cell type (s) producing cfDNA in a biological sample of a subject have. In some embodiments, the score for the coordinates is related to the probability that the coordinates are the positions of the cfDNA fragment endpoints. In another embodiment, the score for the coordinates is related to the probability that the coordinates represent the location of the genome that is preferentially protected from nuclease cleavage by nucleosome or protein binding. In some embodiments, the score is related to the nucleosome spacing in the genome region of the coordinates.
일부 실시양태에서, 참조 지도를 작성하기 위해 사용된 조직 또는 세포 유형은 질환 또는 장애를 갖는 대상체로부터의 1차 조직이다. 일부 실시양태에서, 질환 또는 장애는 암, 정상 임신, 임신 합병증 (예를 들어, 이수성 임신), 심근경색, 전신성 자가면역 질환, 국부 자가면역 질환, 염증성 장 질환, 거부 반응을 수반하는 동종이식, 거부 반응을 수반하지 않는 동종이식, 졸중, 및 국부 조직 손상으로 이루어진 군으로부터 선택된다.In some embodiments, the tissue or cell type used to generate the reference map is a primary tissue from a subject having a disease or disorder. In some embodiments, the disease or disorder is selected from the group consisting of cancer, normal pregnancy, complications of pregnancy (e. G., Ischemic pregnancy), myocardial infarction, systemic autoimmune disease, local autoimmune disease, inflammatory bowel disease, Allograft, < RTI ID = 0.0 > stroke, < / RTI > and localized tissue injury without rejection.
일부 실시양태에서, 조직 또는 세포 유형은 건강한 대상체로부터의 1차 조직이다.In some embodiments, the tissue or cell type is a primary tissue from a healthy subject.
일부 실시양태에서, 조직 또는 세포 유형은 불멸화된 세포주이다.In some embodiments, the tissue or cell type is an immortalized cell line.
일부 실시양태에서, 조직 또는 세포 유형은 종양으로부터의 생검이다.In some embodiments, the tissue or cell type is a biopsy from a tumor.
일부 실시양태에서, 참조 지도는 적어도 하나의 참조 대상체로부터 얻은 샘플로부터 수득된 서열 데이터에 기초한다. 일부 실시양태에서, 이 서열 데이터는 예를 들어, 알려진 질환을 갖는 대상체(들)로부터의 cfDNA의 서열결정에 의해 참조 지도가 작성되는 경우, 참조 게놈 내에서의 cfDNA 단편 종점의 위치를 정의한다. 다른 실시양태에서, 참조 지도가 그를 기초로 하는 상기 서열 데이터는 DNase I 과민성 부위 데이터세트, RNA 발현 데이터세트, 염색체 입체형태 지도, 또는 염색질 접근가능성 지도, 또는 미크로코쿠스 뉴클레아제에 의한 소화에 의해 작성된 뉴클레오솜 배치 지도 중 어느 하나 이상을 포함할 수 있다 . 일부 실시양태에서, 참조 대상체는 건강하다. 일부 실시양태에서, 참조 대상체는 질환 또는 장애를 갖는다. 일부 실시양태에서, 질환 또는 장애는 암, 정상 임신, 임신 합병증 (예를 들어, 이수성 임신), 심근경색, 전신성 자가면역 질환, 염증성 장 질환, 국부 자가면역 질환, 거부 반응을 수반하는 동종이식, 거부 반응을 수반하지 않는 동종이식, 졸중, 및 국부 조직 손상으로 이루어진 군으로부터 선택된다.In some embodiments, the reference map is based on sequence data obtained from samples obtained from at least one reference subject. In some embodiments, the sequence data defines the location of a cfDNA fragment end-point in the reference genome, for example, when a reference map is created by sequencing cfDNA from a subject (s) with a known disease. In another embodiment, the sequence data on which the reference map is based is based on a DNase I hypersensitive site data set, an RNA expression data set, a chromosome conformation map, or a chromosome accessibility map, or a digestion by a micrococycle nuclease And a nucleosome mapping map generated by the nucleosome mapping map. In some embodiments, the reference object is healthy. In some embodiments, the reference subject has a disease or disorder. In some embodiments, the disease or disorder is selected from the group consisting of cancer, normal pregnancy, complications of pregnancy (e. G., Ischemic pregnancy), myocardial infarction, systemic autoimmune disease, inflammatory bowel disease, local autoimmune disease, Allograft, < RTI ID = 0.0 > stroke, < / RTI > and localized tissue injury without rejection.
일부 실시양태에서, 참조 지도는 조직 또는 세포 유형과 연관된 참조 게놈의 적어도 일부분에 대해, cfDNA 단편 종점 확률 또는 상기 확률과 상관되는 양을 포함한다. 일부 실시양태에서, 참조 지도는 cfDNA 단편 종점 확률의 수학적 변환 또는 그러한 확률과 상관되는 양을 포함한다.In some embodiments, the reference map comprises a cfDNA fragment end point probability or amount correlated with said probability, for at least a portion of the reference genome associated with a tissue or cell type. In some embodiments, the reference map comprises a mathematical transformation of the cfDNA fragment endpoint probability or amount correlated with such probability.
일부 실시양태에서, 참조 지도는 조직 또는 세포 유형과 연관된 참조 게놈의 좌표의 적어도 일부분에 대한 스코어를 포함한다. 일부 실시양태에서, 참조 지도는 스코어의 푸리에 변환과 같은 스코어의 수학적 변환을 포함한다. 일부 실시양태에서, 스코어는 조직 또는 세포 유형에 대한 참조 게놈 좌표의 주석에 기초한다. 일부 실시양태에서, 스코어는 뉴클레오솜 및/또는 크로마토솜의 위치에 기초한다. 일부 실시양태에서, 스코어는 전사 개시 부위 및/또는 전사 종결 부위에 기초한다. 일부 실시양태에서, 스코어는 적어도 하나의 전사 인자의 예측된 결합 부위에 기초한다. 일부 실시양태에서, 스코어는 예측된 뉴클레아제 과민성 부위에 기초한다.In some embodiments, the reference map includes a score for at least a portion of the coordinates of the reference genome associated with the tissue or cell type. In some embodiments, the reference map includes a mathematical transformation of the score, such as a Fourier transform of the score. In some embodiments, the score is based on annotations of reference genomic coordinates for tissue or cell type. In some embodiments, the score is based on the location of the nucleosome and / or the chromatome. In some embodiments, the score is based on a transcription initiation site and / or a transcription termination site. In some embodiments, the score is based on the predicted binding site of at least one transcription factor. In some embodiments, the score is based on predicted nuclease hypersensitive sites.
일부 실시양태에서, 스코어는 적어도 하나의 직교 생물학적 특징과 관련된다. 일부 실시양태에서, 직교 생물학적 특징은 고도로 발현된 유전자와 관련된다. 일부 실시양태에서, 직교 생물학적 특징은 저 발현 유전자와 관련된다.In some embodiments, the score is associated with at least one orthogonal biological feature. In some embodiments, orthogonal biological features are associated with highly expressed genes. In some embodiments, orthogonal biological features are associated with a low expression gene.
일부 실시양태에서, 복수개의 스코어 중 적어도 일부는 각각 역치 값 초과의 스코어를 갖는다. 그러한 실시양태에서, 역치 (최소) 값 미만의 스코어는 스코어를 참조 지도와 비교하는 단계로부터 배제된다. 일부 실시양태에서, 역치 값은 cfDNA를 생성하는 조직(들) 및/또는 세포 유형(들)을 결정하기 전에 결정된다. 다른 실시양태에서, 역치 값은 cfDNA를 생성하는 조직(들) 및/또는 세포 유형(들)을 결정한 후에 결정된다.In some embodiments, at least some of the plurality of scores each have a score above the threshold value. In such an embodiment, the score below the threshold (min) value is excluded from comparing the score to the reference map. In some embodiments, the threshold value is determined prior to determining the tissue (s) and / or cell type (s) that produce the cfDNA. In another embodiment, the threshold value is determined after determining the tissue (s) and / or cell type (s) that produce cfDNA.
일부 실시양태에서, cfDNA 단편 종점의 적어도 일부의 복수개의 게놈 위치의 함수로서 cfDNA를 생성하는 조직 및/또는 세포 유형을 결정하는 단계는 하나 이상의 참조 지도의 하나 이상의 특징을 갖는 샘플의 cfDNA 단편 종점의 적어도 일부의 게놈 위치 분포의 수학적 변환을 포함한다.In some embodiments, determining the tissue and / or cell type that produces cfDNA as a function of a plurality of genomic locations of at least a portion of the cfDNA fragment endpoints comprises determining the type of cfDNA endpoint of the sample having one or more characteristics of the one or more reference maps And at least some of the genomic location distributions.
일부 실시양태에서, 이 수학적 변환은 푸리에 변환을 포함한다.In some embodiments, the mathematical transform includes a Fourier transform.
일부 실시양태에서, 참조 지도는 질환 또는 장애와 연관된 적어도 하나의 조직에 대응하는 효소 매개된 단편화 데이터를 포함한다.In some embodiments, the reference map comprises enzyme-mediated fragmentation data corresponding to at least one tissue associated with the disease or disorder.
일부 실시양태에서, 참조 게놈은 인간과 관련된다.In some embodiments, the reference genome is human.
본 발명의 한 측면에서, 본원에서 설명되는 방법은 체액 중의 cfDNA의 분석으로부터의 악성 종양의 검출, 모니터링 및 조직(들) 및/또는 기원 세포 유형(들)의 평가에 사용된다. 악성 종양 환자에서 순환 혈장과 같은 체액 내의 cfDNA의 일부 부분이 종양으로부터 유래될 수 있음이 현재 잘 입증되었다. 본원에서 설명되는 방법은 잠재적으로 상기 종양 유래 부분을 검출하고 정량하기 위해 사용할 수 있다. 또한, 뉴클레오솜 점유 지도는 세포 유형 특이적이기 때문에, 본원에서 설명되는 방법은 잠재적으로 악성 종양의 조직(들) 및/또는 기원 세포 유형(들)을 결정하기 위해 사용될 수 있다. 또한, 상기 언급한 바와 같이, 암에서 순환 혈장 cfDNA의 농도가 크게 증가하고 종양 자체로부터의 기여도에 불균형이 있을 수 있다는 것이 관찰되었다. 이것은 다른 조직 (예를 들어, 간질, 면역계)이 암 동안 순환 혈장 cfDNA에 기여할 가능성이 있음을 시사한다. cfDNA에 대한 상기 다른 조직으로부터의 기여도가 제시된 다른 유형의 암에 대한 환자 사이에서 일관성이 있는 정도로, 위에서 설명된 방법을 사용하여 암세포 그 자체가 아닌 상기 다른 조직으로부터의 신호를 기초로 하여 암 검출, 모니터링 및/또는 조직(들) 및/또는 기원 세포 유형(들) 평가를 실시할 수 있다.In one aspect of the invention, the methods described herein are used for the detection, monitoring and evaluation of tissue (s) and / or origin cell type (s) of malignant tumors from analysis of cfDNA in body fluids. It is now well established that in malignant tumor patients, some portion of cfDNA in body fluids such as circulating plasma may be derived from the tumor. The methods described herein can potentially be used to detect and quantify tumor-derived portions. In addition, since the nucleosomal occupancy map is cell type specific, the methods described herein can potentially be used to determine the tissue (s) and / or origin cell type (s) of a malignant tumor. In addition, as noted above, it has been observed that the concentration of circulating plasma cfDNA in the cancer is greatly increased and there may be an imbalance in the contribution from the tumor itself. This suggests that other tissues (eg, epilepsy, immune system) are likely to contribute to circulating plasma cfDNA during cancer. to the extent that the contribution from the other tissue to the cfDNA is consistent among the patients for the other types of cancer presented, it is possible to detect cancer using the method described above, based on a signal from the other tissue, Monitoring and / or evaluation of the tissue (s) and / or origin cell type (s).
본 발명의 또 다른 측면에서, 본원에서 설명되는 방법은 체액 중의 cfDNA의 분석으로부터 조직 손상의 검출, 모니터링 및 기원 조직(들) 및/또는 세포 유형(들) 평가에 사용된다. 많은 병리학적 과정이 손상된 조직으로부터 유래하는 순환 혈장과 같은 체액에서 cfDNA의 일부를 생성할 것으로 예상된다. 여기에서 설명되는 방법은 관련 조직 및/또는 기원 세포 유형의 확인을 포함하여 조직 손상에서 유래된 cfDNA를 검출하고 정량하기 위해 잠재적으로 사용될 수 있다. 이것은 심근경색 (심장 조직의 급성 손상), 자가면역 질환 (다양한 조직의 만성 손상) 및 급성 또는 만성 조직 손상을 수반하는 많은 다른 병리학적 과정의 진단 및/또는 모니터링을 가능하게 할 수 있다.In another aspect of the invention, the methods described herein are used for the detection, monitoring and evaluation of the originating tissue (s) and / or cell type (s) of tissue damage from the analysis of cfDNA in body fluids. Many pathological processes are expected to produce part of cfDNA in body fluids such as circulating plasma derived from damaged tissue. The methods described herein can potentially be used to detect and quantify cfDNA derived from tissue damage, including identification of related tissue and / or origin cell types. This may enable the diagnosis and / or monitoring of many other pathological processes involving myocardial infarction (acute injury of cardiac tissue), autoimmune disease (chronic injury of various tissues) and acute or chronic tissue injury.
본 발명의 또 다른 측면에서, 본원에서 설명되는 방법은 임신 중 cfDNA의 태아 분획을 평가하고/하거나 염색체 또는 다른 유전적 이상의 검출을 향상시키기 위해 사용된다. 위에 설명된 뉴클레오솜 지도와 커플링된, 모체 혈장 내 DNA 단편의 비교적 피상적인 서열결정은 남녀 태아 임신 모두에서 태아 분획의 비용 효과적이고 신속한 평가를 가능하게 할 수 있다. 또한, 모체 또는 태아 게놈에서 유래했을 가능성에 대해 개별 서열결정 판독에 비균등 확률을 할당할 수 있으므로, 상기 방법은 모체 체액에서 cfDNA의 분석을 통해 염색체 이상 (예를 들어, 삼염색체성)을 검출하는 시험의 성능을 향상시킬 수 있다.In another aspect of the invention, the methods described herein are used to evaluate the fetal fraction of cfDNA during pregnancy and / or to improve the detection of chromosomal or other genetic abnormalities. The relatively superficial sequence determination of maternal plasma DNA fragments coupled with the nucleosome maps described above can enable a cost-effective and rapid assessment of fetal fraction in both male and female fetuses. In addition, since unequal probability can be assigned to individual sequencing determinations for the likelihood that it originated from the maternal or fetal genome, the method can detect chromosomal anomalies (e. G., Trisomy) through analysis of cfDNA in maternal body fluids The performance of the test can be improved.
본 발명의 또 다른 측면에서, 본원에서 설명되는 방법은 cfDNA에 대한 이식 (자가 또는 동종이식)의 기여도를 정량하기 위해 사용된다. 급성 동종이식 거부의 조기 및 비침습적 검출을 위한 현재의 방법은 혈장 내 DNA를 서열결정하고 공여자 게놈으로부터 유래된 단편의 증가된 농도를 확인하는 것을 수반한다. 이 방법은 예를 들어 5-10%의 공여자 분획을 검출하기 위해 상기 단편 풀의 상대적으로 심층적인 서열결정에 의존한다. 기증된 기관의 뉴클레오솜 지도를 기반으로 하는 방법은 보다 피상적인 서열결정을 사용하여 유사한 평가를 또는 동등한 양의 서열결정을 사용하여 보다 민감한 평가를 가능하게 할 수 있다. 암과 유사하게, 이식 자체 이외의 다른 세포 유형이 이식 거부 동안 cfDNA 조성에 기여하는 것도 가능하다. 이러한 다른 조직으로부터 cfDNA에 대한 기여가 이식 거부 동안 환자 사이에 일치하는 정도로, 위에서 설명되는 방법으로 이식 공여자 세포 자체가 아닌 상기 다른 조직으로부터의 신호를 기초로 하여 이식 거부를 모니터링할 수 있다.In another aspect of the invention, the methods described herein are used to quantify the contribution of transplantation (autologous or allograft) to cfDNA. Current methods for early and noninvasive detection of acute allograft rejection involve sequencing the plasma DNA and identifying increased concentrations of fragments derived from the donor genome. This method relies on relatively in-depth sequencing of the fragment pool to detect, for example, 5-10% donor fractions. Methods based on nucleosome maps of donated organs can enable more sensitive evaluation using similar determinations or equivalent amounts of sequence determinations using more superficial sequence determinations. Similar to cancer, it is also possible that other cell types other than the transplant itself contribute to the cfDNA composition during transplant rejection. The graft rejection can be monitored on the basis of signals from other tissues other than the graft donor cell itself in a manner as described above, to the extent that the contribution to cfDNA from these other tissues is consistent between patients during graft rejection.
본 개시내용의 추가의 실시양태.Additional embodiments of the present disclosure.
본 개시내용은 또한 알려진 질환 또는 장애를 갖는 대상체로부터 작성된 뉴클레오솜 참조 지도(들)를 사용하여 질환 또는 장애를 진단하는 방법을 제공한다. 일부 실시양태에서, 상기 방법은 (1) 뉴클레오솜 지도의 참조 세트를 작성하고, 여기서 각각의 뉴클레오솜 지도는 정의된 임상 상태 (예를 들어, 정상, 임신, 암 유형 A, 암 유형 B 등)를 갖는 개체(들)의 체액으로부터의 cfDNA 및/또는 특정 조직 및/또는 세포 유형의 염색질의 소화로부터 유래된 DNA로부터 유래되는 것인 단계; (2) 그의 cfDNA로부터 유래된 뉴클레오솜 지도를 뉴클레오솜 지도의 참조 세트와 비교하여 개체(들)의 체액으로부터의 cfDNA의 임상적 상태 및/또는 조직/기원 세포 유형의 조성을 예측하는 것을 포함한다.The present disclosure also provides a method of diagnosing a disease or disorder using a nucleosome reference map (s) generated from a subject having a known disease or disorder. In some embodiments, the method comprises the steps of (1) creating a reference set of nucleosomal maps, wherein each nucleosomal map comprises a defined clinical status (e.g., normal, pregnancy, cancer type A, cancer type B Etc.) from cfDNA and / or DNA derived from digestion of the chromatin of a particular tissue and / or cell type (s) from body fluids of the individual (2) comparing the nucleosome map derived from its cfDNA with a reference set of nucleosomal maps to predict the composition of the clinical state and / or tissue / origin cell type of cfDNA from the body fluid of the individual (s) do.
단계 1: 뉴클레오솜 지도의 참조 세트를 작성하고, 뉴클레오솜 배치로부터의 신호를 모으거나 요약한다.Step 1: Create a reference set of nucleosome maps and collect or summarize signals from the nucleosome batch.
뉴클레오솜 지도를 작성하기 위한 바람직한 방법은 DNA 정제, 라이브러리 구축 (어댑터 라이게이션 및 가능하게는 PCR 증폭에 의한) 및 체액으로부터의 cfDNA의 대량 병렬 서열결정을 포함한다. 참조 점으로서 또는 변형의 주성분을 확인하기 위해 본 발명의 측면에서 유용한, 뉴클레오솜 지도의 대안적인 공급원은 미크로코쿠스 뉴클레아제 (MNase)에 의한 염색질의 소화, DNase 처리, ATAC-Seq 또는 분포 (a), (b) 또는 (c)에서 뉴클레오솜 배치에 대한 정보가 수집되는 다른 관련 방법으로부터 유래된 DNA이다. 이들 분포 (a), (b) 및 (c)에 대한 설명은 상기 단락 번호 [0020]에서 제공되어 있고, 도 1에 그래프로 도시된다.Preferred methods for generating a nucleosome map include DNA purification, library construction (by adapter ligation and possibly by PCR amplification) and mass parallel sequencing of cf DNA from body fluids. An alternative source of nucleosome maps useful as a reference point or in terms of the present invention to identify the major components of the variant is chromatin digestion by micrococycle nuclease (MNase), DNase treatment, ATAC-Seq or distribution is DNA derived from other related methods in which information about the nucleosome arrangement in (a), (b) or (c) is collected. Descriptions of these distributions (a), (b) and (c) are provided in the paragraph number [0020] and are shown graphically in FIG.
원칙적으로, 이러한 라이브러리의 고도 심층 서열결정은 게놈의 특정 좌표에서 cfDNA에 기여하는 집계된 세포 유형에서 뉴클레오솜 점유를 정량하기 위해 사용될 수 있지만, 이것은 현재 매우 비싸다. 그러나, 뉴클레오솜 점유 패턴과 관련된 신호는 게놈의 연속 또는 불연속 영역에 걸쳐 요약되거나 집계될 수 있다. 예를 들어, 본원에서 제시되는 실시예 1 및 2에서, 서열결정 판독 개시 부위가 지도화되는 참조 인간 게놈 내의 부위의 분포, 즉 분포 (a)는 10 킬로염기 쌍 (kbp)의 인접 윈도우에서 푸리에 변환되고, 뉴클레오솜 점유와 연관된 빈도 범위에 대한 강도의 정량이 이어진다. 이것은 뉴클레오솜이 각각의 10 kbp 윈도우 내에 구조적 배치를 나타내는 정도를 효과적으로 요약한다. 본 명세서에서 제시되는 실시예 3에서, 본 발명자들은 TFBS가 TF에 의해 결합될 때 종종 뉴클레오솜에 의해 바로 측면에 위치하는, 특정 전사 인자 (TF)의 전사 인자 결합 부위 (TFBS)의 바로 근처에서, 서열결정 판독 개시 부위가 지도화되는 참조 인간 게놈 내의 부위의 분포, 즉 분포 (a)를 정량한다. 이것은 cfDNA에 기여하는 세포 유형(들)에서 TF 활성의 결과로서 뉴클레오솜 배치를 효과적으로 요약한다. 중요하게는, 뉴클레오솜 점유 신호가 의미있게 요약될 수 있는 많은 관련 방법이 있다. 이것은 다른 게놈 랜드마크, 예컨대 DNaseI 과민성 부위, 전사 개시 부위, 위상 도메인, 다른 후성학적 마크 또는 다른 데이터세트에서 상관된 거동 (예를 들어, 유전자 발현 등)에 의해 규정되는 모든 이러한 부위의 하위세트 주위에서 분포 (a), (b), 및/또는 (c)로부터 신호의 집계를 포함한다. 서열결정 비용이 계속 떨어짐에 따라, 알려지지 않은 cfDNA 샘플과 비교하기 위해 알려진 질환과 관련된 cfDNA 샘플로부터 작성된 것을 포함하여 뉴클레오솜 점유 지도를 참조 지도로서, 즉 신호를 집계하지 않고 직접 사용하는 것이 가능할 것이다. 일부 실시양태에서, 뉴클레오솜 점유의 참조 지도가 그로부터 작성되는 상기 생물학적 샘플은 인간 세포 또는 조직이 이종이식된 동물로부터 수집된다. 이것의 이점은 조혈 계통과 함께 관심 세포/조직에서 유래된 cfDNA의 혼합물을 나타내는 것과 달리, 인간 게놈에 지도화된 서열결정된 cfDNA 단편이 이종이식된 세포 또는 조직으로부터 독점적으로 유래될 것이라는 것이다.In principle, the high degree of sequencing of these libraries can be used to quantify nucleosomal occupancy in aggregated cell types that contribute to cfDNA at specific coordinates of the genome, but this is currently very expensive. However, signals associated with the nucleosomal occupancy pattern can be summarized or aggregated across a continuous or discontinuous region of the genome. For example, in Examples 1 and 2 presented herein, the distribution, i.e. distribution (a), of the sites in the reference human genome to which the sequencing reading initiation site is mapped is determined by the Fourier transform in a contiguous window of 10 kilobase pairs (kbp) Followed by quantification of the intensity over the frequency range associated with the occupancy of the nucleosome. This effectively summarizes the degree to which the nucleosomes exhibit a structural arrangement within each 10 kbp window. In Example 3 presented herein, we have found that when TFBS is bound by TF, it is located immediately adjacent to the transcription factor binding site (TFBS) of a particular transcription factor (TF), which is often flanked directly by the nucleosome , The distribution (a) of the region in the reference human genome to which the sequence reading initiation site is mapped, that is, the distribution (a) is quantified. This effectively summarizes the nucleosome arrangement as a result of TF activity in the cell type (s) that contribute to the cfDNA. Importantly, there are many relevant ways in which the signal of occupancy of nucleosomes can be summarized meaningfully. This may be around a subset of all such sites defined by other genomic landmarks such as DNase I sensitive sites, transcription initiation sites, phase domains, other epigenetic markings, or correlated behavior (e.g., gene expression, etc.) (A), (b), and / or (c). As the sequencing cost continues to fall, it is possible to use the nucleosomal occupancy map as a reference map, i.e. without directly counting signals, including those made from cfDNA samples related to known diseases for comparison with unknown cfDNA samples . In some embodiments, the biological sample from which a reference map of nucleosomal occupancy is made is collected from an animal xenografted with a human cell or tissue. The advantage of this is that sequenced cfDNA fragments mapped to the human genome will be derived exclusively from xenografted cells or tissues, as opposed to representing a mixture of cfDNAs derived from the cell / tissue of interest with the hematopoietic lineage.
단계 2: 하나 이상의 새로운 개체/샘플의 cfDNA-유래 뉴클레오솜 지도를 직접 또는 각각의 지도의 수학적 변환 후에 뉴클레오솜 지도의 참조 세트와 비교하는 것에 기초하여 병상(들), 임상 상태(들) 및/또는 조직/기원 세포 유형 조성을 예측함.Step (2): The cfDNA-derived nucleosome map of one or more new entities / samples is compared directly or with mathematical transformation of each map to the reference set of nucleosome maps to determine the pathology (s), clinical condition (s) And / or predicting tissue / origin cell type composition.
일단 뉴클레오솜 지도의 참조 세트를 작성하면, 추가의 뉴클레오솜 지도(들)를 참조 세트와 비교하기 위한 다양한 통계적 신호 처리 방법이 존재한다. 실시예 1 & 2에서, 본 발명자들은 먼저 다양한 샘플 세트의 게놈을 따라 10 kbp 윈도우 내에서 긴 범위의 뉴클레오솜 배열을 요약한 다음, 샘플을 클러스터링하거나 (실시예 1) 혼합물 비율을 추정하기 위해 (실시예 2) 주성분 분석 (PCA)을 수행한다. 본 발명자들은 이들 실시예에서 사용된 모든 세포주 샘플의 모든 cfDNA 샘플 및 조직/기원 세포 유형의 임상적 상태를 알지만, 샘플 중 어느 하나는 원칙적으로 "알려지지 않은" 것일 수 있고, PCA 분석에서 그의 거동은 모든 다른 뉴클레오솜 지도에 비교한 PCA 분석에서의 그의 거동에 기초하여 임상 상태의 존재/부재 또는 그의 조직/기원 세포 유형을 예측하기 위해 사용된다.Once a reference set of nucleosomal maps is created, there are various statistical signal processing methods for comparing additional nucleosomal map (s) with reference sets. In Examples 1 & 2, we first summarize the long range of nucleosome sequences within the 10 kbp window along the genomes of the various sample sets and then cluster the samples (Example 1) to estimate the mixture ratio (Example 2) Principal component analysis (PCA) is performed. We know the clinical status of all cfDNA samples and tissue / origin cell types of all cell line samples used in these examples, but one of the samples may in principle be "unknown " It is used to predict the presence / absence of clinical condition or its tissue / origin cell type based on its behavior in PCA analysis compared to all other nucleosomal maps.
미지 샘플은 반드시 1:1 방식으로 참조 세트의 1+ 멤버에 정확하게 매치될 필요는 없다. 오히려, 각각에 대한 그의 유사성을 정량할 수 있거나 (실시예 1), 또는 그의 뉴클레오솜 지도를 참조 세트로부터 2+ 샘플의 비-균일한 혼합물로 모델링할 수 있다 (실시예 2).An unknown sample does not necessarily have to be matched exactly to 1+ members of the reference set in a 1: 1 manner. Rather, it can quantify its similarity to each (Example 1), or its nucleosome map can be modeled as a non-uniform mixture of 2+ samples from a reference set (Example 2).
각각의 샘플에서 cfDNA의 조직/기원 세포 유형 조성은 본 발명의 방법의 성공을 위해 예측되거나 궁극적으로 알려져 있을 필요는 없다. 오히려, 본원에서 설명되는 방법은 특정 병상 또는 임상 상태의 측면에서 cfDNA의 조직/기원 세포 유형 조성의 일관성에 의존한다. 그러나, 염색질 소화로부터 유래된 DNA를 분석하고 이를 뉴클레오솜 지도에 추가하여 많은 조직 및/또는 세포 유형의 뉴클레오솜 지도를 직접 조사함으로써, 알려지지 않은 cfDNA 유래 샘플에 기여하는 조직(들) 및/또는 세포 유형(들)을 추정할 수 있다.The tissue / origin cell type composition of cfDNA in each sample need not be predicted or ultimately known for the success of the method of the present invention. Rather, the methods described herein rely on the consistency of the tissue / origin cell type composition of cfDNA in terms of a particular disease or clinical condition. However, by analyzing DNA derived from chromatin digestion and adding it to a nucleosome map to directly examine the nucleosome maps of many tissues and / or cell types, the tissue (s) and / or tissue (s) contributing to the unknown cfDNA- Or cell type (s).
본원에서 설명되는 임의의 실시양태에서, 상기 방법은 질환 또는 장애를 확인하는 언급을 포함하는 보고서를 작성하는 단계를 추가로 포함할 수 있다. 일부 실시양태에서, 보고서는 단리된 cfDNA를 생성하는 결정된 조직 및/또는 세포 유형의 목록을 추가로 포함할 수 있다. 일부 실시양태에서, 보고서는 대상체와 관련될 것 같지 않은 질환 및/또는 장애의 목록을 추가로 포함한다. 보고서는 임의적으로 샘플 및/또는 대상체, 생물학적 샘플의 유형, 생물학적 샘플이 대상체로부터 획득된 날짜, cfDNA 단리 단계가 수행된 날짜 및/또는 생물학적 샘플로부터 단리된 임의의 cfDNA를 생성하지 않을 가능성이 있는 조직(들) 및/또는 세포 유형(들)에 대한 임의의 다른 정보를 추가로 포함할 수 있다. In any of the embodiments described herein, the method may further comprise the step of writing a report that includes a statement identifying the disease or disorder. In some embodiments, the report can further include a list of determined tissues and / or cell types that produce isolated cfDNA. In some embodiments, the report further comprises a list of diseases and / or disorders that are unlikely to be associated with the subject. The report may optionally include a sample and / or a tissue, a tissue that is likely not to produce any cfDNA isolated from the biological sample, the type of biological sample, the date the biological sample was obtained from the subject, the date the cfDNA isolation step was performed and / (S) and / or any other information about the cell type (s).
일부 실시양태에서, 보고서는 비제한적인 예를 들어, 대상체로부터 추가의 진단 시험의 제안, 치료 요법 개시 제안, 기존의 치료 요법의 변경 제안 및/또는 기존의 치료 요법의 연기 또는 중지 제안을 포함하는 권고된 치료 프로토콜을 추가로 포함한다.In some embodiments, the reports include, but are not limited to, proposals for additional diagnostic tests, proposals for initiation of treatment regimens, suggestions for alteration of existing therapies and / or proposals to delay or discontinue existing therapies, Additional recommended treatment protocols are included.
실시예Example
실시예Example 1. One. 무세포Acellular cell DNA DNA 뉴클레오솜Nucleosomes 지도의 주성분 분석 Principal component analysis of maps
뉴클레오솜 배치와 관련된 신호의 존재를 평가하기 위해 cfDNA 추출 및 MNase 소화 실험으로부터 유래된 서열결정 데이터에서 판독 개시 위치의 분포를 조사하였다. 이를 위해, 한데 모은 cfDNA 샘플 (알려지지 않은 수의 건강한 개체로부터의 기여를 포함하는 인간 혈장; bulk.cfDNA), 한 명의 건강한 남성 대조군 개체 (MC2.cfDNA)로부터의 cfDNA 샘플, 두개내 종양 환자로부터의 4개의 cfDNA 샘플 (tumor.2349, tumor.2350, tumor.2351, tumor.2353), 5개의 상이한 인간 세포주로부터의 6개의 MNase 소화 실험 (Hap1.MNase, HeLa.MNase, HEK.MNase, NA12878.MNase, HeLaS3, MCF.7) 및 상이한 임신 여성 개체로부터의 7개의 cfDNA 샘플 (gm1matplas, gm2matplas, im1matplas, fgs002, fgs003, fgs004, fgs005)을 분석하고, 여성 림프아구성 세포주로부터 추출된 DNA (NA12878)의 일반 샷건 서열결정 데이터세트와 대조하였다. 한데 모은 cfDNA 샘플 (26%, bulk.cfDNA_part)의 및 한 명의 건강한 남성 대조군 개체 (18%, MC2.cfDNA_part)의 하위세트가 또한 서열결정 깊이의 효과를 조사하기 위해 별개의 샘플로 포함되었다.In order to evaluate the presence of the signal associated with the nucleosome arrangement, the distribution of the reading initiation site in the sequencing data derived from the cfDNA extraction and MNase digestion experiments was examined. To this end, the collected cfDNA samples (human plasma including contributions from unknown healthy individuals; bulk.cfDNA), cfDNA samples from one healthy male control (MC2.cfDNA), cfDNA samples from intracranial tumor patients Four cfDNA samples (tumor.2349, tumor.2350, tumor.2351, tumor.2353), six MNase digestion experiments from five different human cell lines (Hap1.MNase, HeLa.MNase, HEK.MNase, NA12878.MNase , 7 HeLaS3, MCF.7) and 7 cfDNA samples (gm1matplas, gm2matplas, im1matplas, fgs002, fgs003, fgs004, fgs005) from different pregnant female individuals were analyzed and the DNA extracted from female lymphocyte lineage (NA12878) And against the common shotgun sequencing data set. A subset of the pooled cfDNA samples (26%, bulk.cfDNA_part) and one healthy male control (18%, MC2.cfDNA_part) were also included as separate samples to investigate the effect of sequence depth.
판독 개시 좌표가 추출되고, 방법 섹션에서 설명된 바와 같이 고속 푸리에 변환 (FFT)을 사용하여 주기도가 생성되었다. 이 분석은 판독 개시 부위의 분포에서 얼마나 많은 비균일성이 특정 빈도/주기도의 신호에 의해 설명될 수 있는지를 결정한다. 본 발명자들은 하나의 뉴클레오솜 (147 bp) 및 뉴클레오솜 링커 서열 (10-80 bp)의 추가의 서열 주위를 감싸는 DNA의 길이 범위를 포함하는 120-250 bp의 범위에 초점을 맞추었다. 도 3은 인간 1번 염색체 및 인간 22번 염색체의 모든 블록에 걸친 각각의 빈도에 대한 평균 강도를 보여준다. cfDNA 샘플뿐만 아니라 MNase 소화 실험은 200 bp 주기도 아래에서 명확한 피크를 보임을 알 수 있다. 이러한 피크는 인간 샷건 데이터에서 관찰되지 않는다. 이러한 분석은 cfDNA의 단편 경계의 분포에 대한 뉴클레오솜 배치의 주요 효과와 일치한다.The read start coordinates are extracted and the periodicity is generated using Fast Fourier Transform (FFT) as described in the method section. This analysis determines how much nonuniformity can be accounted for by a particular frequency / periodic signal in the distribution of the read-start site. We focused on the range of 120-250 bp, including the length range of the DNA surrounding one nucleosome (147 bp) and an additional sequence of nucleosomal linker sequences (10-80 bp). Figure 3 shows the mean intensity for each frequency across all blocks of
샘플 사이의 정확한 피크 빈도의 변화가 또한 관찰되었다. 이것은 아마도 각각의 세포 유형에서 링커 서열 길이가 상이한 분포의 결과일 수 있다. 피크가 뉴클레오솜 결합 DNA + 링커 서열의 패턴으로부터 유래한다는 것은 피크 주변의 측면이 대칭이 아니고 피크보다 낮은 빈도에 비해 피크보다 높은 빈도에 대한 강도가 더 낮다는 관찰에 의해 지지된다. 이것은 도 3에 제시된 것과 유사한 플롯이 cfDNA 및 MNase 서열결정 데이터의 품질 관리를 수행하기 위해 사용될 수 있음을 제시한다. 규칙적인 (샷건) DNA를 사용한 cfDNA 및 MNase의 무작위 단편화 또는 오염은 주기도에서 이러한 특징적인 강도 패턴의 희석 또는 극단적인 경우 완전한 제거를 야기할 것이다.Changes in the exact peak frequency between samples were also observed. This may be the result of a distribution with possibly different linker sequence lengths in each cell type. The origin of the peak from the pattern of the nucleosome binding DNA plus linker sequence is supported by the observation that the sides around the peak are not symmetrical and the intensity to frequency higher than the peak is lower than the frequency lower than the peak. This suggests that a plot similar to that shown in Figure 3 can be used to perform quality control of cfDNA and MNase sequence determination data. Random fragmentation or contamination of cfDNA and MNase using regular (shotgun) DNA will result in dilution or extreme case complete elimination of this characteristic intensity pattern in the cycle.
아래에서, 데이터는 181 bp 내지 202 bp의 빈도 범위에 대해 결정된 모든 강도뿐만 아니라 196 bp의 주기에서 측정된 강도를 기초로 하여 분석되었다. 더 넓은 범위의 링커 길이가 포착되기 때문에, 더 높은 해상도를 제공하기 위해 더 넓은 빈도 범위가 선택되었다. 이들 강도는 순전히 계산상의 이유로 주로 선택되었지만; 관련된 실시양태에서 상이한 빈도 범위가 사용될 수 있다. 도 4 및 5는 인간 상염색체의 전체 길이를 배열하는 연속적이며 중첩되지 않는 10 kbp 블록에 걸쳐 196 bp에서 주기도 강도의 시각화를 탐색한다 (자세한 내용은 방법 참조). 도 4는 데이터의 주성분 분석 (PCA) 및 처음 3개의 성분에 걸친 투영도를 보여준다. 주성분 1 (PC1) (28.1%의 분산)은 도 3에 제시된 강도 크기의 차이를 포착하고, 따라서 MNase 및 cfDNA 샘플을 게놈 샷건 데이터로부터 분리한다. 이와 대조적으로, PC2 (9.7%의 분산)는 MNase와 cfDNA 샘플 사이의 차이점을 포착한다. PC3 (6.4% 분산)은 개별 샘플 사이의 차이를 포착한다. 도 5는 강도 벡터의 유클리드 거리에 기초한, 상기 데이터의 계층적 클러스터링 덴도그램을 보여준다. 본 발명자들은 데이터가 다른 실험실에서 다른 실험 프로토콜에 따라 생성되었지만, 2개의 HeLa S3 실험이 PCA 및 덴도그램에서 빽빽하게 클러스터링됨에 주목한다. "정상적인" cfDNA 샘플, 종양 cfDNA 샘플 및 세포주 MNase 샘플군도 클러스터링되었다. 특히, 동일한 종양 유형 (다형성 교모세포종)에서 유래된 3개의 종양 샘플은 다른 종양 유형에서 유래된 tumor.2351 샘플과는 별개로 클러스터링되는 것으로 보인다 (표 1 참조). GM1 및 IM1 샘플은 임신한 여성으로부터 얻은 다른 cfDNA 샘플과 별개로 클러스터링된다. 이것은 이들 샘플에서 피크 미만의 빈도에 대해 관찰된 보다 높은 강도와 일치한다 (즉, 도 3에서 더 뚜렷한 좌측 어깨). 이것은 두 샘플 세트 사이의 cfDNA 제조의 미묘한 차이 또는 관리되지 않은 생물학적 차이 (예를 들어, 수태 기간)를 나타낼 수 있다.Below, the data were analyzed based on the intensity measured at a cycle of 196 bp as well as all the intensity determined for the frequency range of 181 bp to 202 bp. Because a wider range of linker lengths is captured, a wider frequency range has been chosen to provide higher resolution. These intensities were mainly chosen for purely computational reasons; In a related embodiment, different frequency ranges may be used. Figures 4 and 5 explore the visualization of the periodic intensity at 196 bp over a continuous non-overlapping 10 kbp block that spans the entire length of the human autosomal chromosome (see Methods for details). Figure 4 shows the principal component analysis (PCA) of the data and the projection over the first three components. Principal component 1 (PC1) (28.1% dispersion) captures the differences in intensity magnitudes shown in FIG. 3, thus separating MNase and cfDNA samples from genomic shotgun data. In contrast, PC2 (9.7% dispersion) captures the difference between MNase and cfDNA samples. PC3 (6.4% dispersion) captures the difference between individual samples. Figure 5 shows a hierarchical clustering tangent of the data based on Euclidean distance of the intensity vector. We note that although the data were generated in accordance with different experimental protocols in different laboratories, two HeLa S3 experiments were tightly clustered in PCA and Tendogram. "Normal" cfDNA samples, tumor cfDNA samples, and cell line MNase sample clusters were also clustered. In particular, three tumor samples derived from the same tumor type (polymorphic glioblastoma) appear to be clustered separately from tumor.2351 samples derived from other tumor types (see Table 1). GM1 and IM1 samples are clustered separately from other cfDNA samples from pregnant women. This is consistent with the higher intensity observed for frequencies below the peak in these samples (i.e., the more pronounced left shoulder in FIG. 3). This may indicate subtle differences in cfDNA production between two sample sets or unmanaged biological differences (e. G., Gestational period).
도 6 및 도 7은 동등하지만, 181 bp 내지 202 bp의 빈도 범위에 기초한 분석 결과를 보여준다. 이들 플롯을 비교할 때, 결과는 더 넓은 빈도 범위에서 크게 안정적이지만, 추가의 빈도는 더 정밀한 규모의 분석에서 감도를 개선할 수 있다. 세포 유형 기원 특이적 패턴을 더 탐색하기 위해, cfDNA 및 MNase 데이터세트는 이 빈도 범위에 대한 강도의 PCA를 사용하여 별개로 분석되었다. 다음의 분석 세트에서, 도 3에서 더 뚜렷한 좌측 어깨를 나타낸 임신한 여성으로부터의 5개의 cfDNA 샘플은 제외되었다. 도 8은 cfDNA 데이터의 처음 7개의 주성분을 나타내고, 도 9는 6개의 MNase 데이터세트에 대한 6개 모두의 주성분을 나타낸다. 관련 샘플의 클러스터링이 존재하지만, 나머지 샘플로부터 각각의 샘플을 분리하기 위해 상당한 변형 (생물학적 및 기술적 변형)이 또한 존재한다. 예를 들어, bulk.cfDNA 및 bulk.cfDNA_part는 물론 MC2.cfDNA 및 MC2.cfDNA_part의 분리로부터 알 수 있듯이, 서열결정 깊이의 효과가 관찰되었다. 이 기술 교란 요인을 수정하기 위해 판독 샘플링을 사용할 수 있다.Figures 6 and 7 show the analysis results based on the frequency range of 181 to 202 bp, which is equivalent. When comparing these plots, the results are largely stable over a wider frequency range, but additional frequencies can improve sensitivity in more precise scale analysis. To further explore the cell type origin specific pattern, the cfDNA and MNase data sets were analyzed separately using PCA of intensity for this frequency range. In the following analysis set, five cfDNA samples from pregnant women with a more pronounced left shoulder in Fig. 3 were excluded. Figure 8 shows the first seven major components of the cfDNA data, and Figure 9 shows all six major components for the six MNase data sets. Clustering of related samples is present, but there are also significant variations (biological and technical variations) to separate each sample from the remaining samples. For example, the effect of sequence depth was observed, as can be seen from the separation of MC2.cfDNA and MC2.cfDNA_part as well as bulk.cfDNA and bulk.cfDNA_part. Read sampling can be used to correct this technology disturbance.
본 실시예의 일부의 주요 관찰은 다음을 포함한다:Some of the key observations of this embodiment include:
1) cfDNA 서열결정 데이터에서 판독 개시 좌표는 뉴클레오솜 배치의 강력한 신호를 포착한다.1) The reading start coordinates in the cfDNA sequencing data capture the strong signal of the nucleosome arrangement.
2) 연속적인 10 kbp 윈도우와 같은 게놈의 하위세트에 걸쳐 집계된 뉴클레오솜 배치의 신호의 차이는 샘플의 기원과 상관관계가 있다.2) The difference in signal of the nucleosome batches aggregated over a subset of genomes such as the consecutive 10 kbp window correlates with the origin of the sample.
실시예Example 2 - 2 - 뉴클레오솜Nucleosomes 지도의 혼합물 비율 추정 Estimate mixture ratio of maps
실시예 1에서, 공개 데이터베이스로부터 생성되거나 다운로드된 샘플의 기본 클러스터링이 연구되었다. 분석은 이 데이터세트의 판독 개시 좌표가 (2천만 개의 서열에서 10억 개 초과의 서열까지 얻은 서열결정 깊이의 범위에 걸쳐) 뉴클레오솜 배치의 강력한 신호를 포착하고 샘플 기원이 이 신호와 상호관련됨을 보여준다. 이 방법의 목표를 위해, 알려진 세포 유형의 혼합물을 확인하고 이 신호로부터 각각의 세포 유형의 기여도를 어느 정도 정량할 수 있는 것이 또한 유용할 것이다. 이 목적을 위해, 본 실시예는 두 샘플의 합성 혼합물 (즉, 서열 판독에 기초한)을 조사하였다. 본 발명자들은 2개의 MNase 데이터세트 (MCF.7 및 NA12878.MNase) 및 2개의 cfDNA 데이터세트 (tumor.2349 및 bulk.cfDNA)에 대해 5:95, 10:90, 15:85, 20:80, 30:70, 40:60, 50:50, 60:40, 30:70, 80:20, 90:10 및 95:5의 비율로 서열결정 판독을 혼합하였다. 합성 MNase 혼합물 데이터세트는 두 세트의 1억9천6백9십만 개의 정렬된 판독 (각각 기원 샘플 중 하나로부터)에서 추출되었고, 합성 cfDNA 혼합물 데이터세트는 두 세트의 1억8천백십만개의 정렬된 판독 (각각 기원 샘플 중 하나로부터)으로부터 추출되었다.In Example 1, basic clustering of samples created or downloaded from a public database was studied. Analysis indicates that the reading start coordinates of this data set capture a robust signal of the nucleosome arrangement (over a range of sequence depths from 20 million to over one billion sequences) and the sample origin correlates with this signal . For the purposes of this method, it would also be useful to identify mixtures of known cell types and to quantify the contribution of each cell type from this signal to some extent. For this purpose, this example investigated a synthetic mixture of two samples (i.e., based on sequence readings). The present inventors have determined that the two MNase data sets (MCF.7 and NA12878.MNase) and the two cfDNA data sets (tumor.2349 and bulk.cfDNA) are 5:95, 10:90, 15:85, 20:80, Sequence determinations were mixed at a ratio of 30:70, 40:60, 50:50, 60:40, 30:70, 80:20, 90:10 and 95: 5. The synthetic MNase mixture data set was extracted from two sets of 196.9 million ordered readings (each from one of the origin samples), and the synthetic cfDNA mixture data set contained two sets of 181 million (From one of the origin samples, respectively).
도 10은 이들 합성 혼합물에 대한 것을 제외하고 도 3과 동등한, 11번 염색체에 대한 평균 강도를 보여준다. 도 10으로부터, 다른 샘플 기여가 전역 빈도 강도 패턴의 이동을 어떻게 유발하는지 알 수 있다. 이 신호는 합성 혼합물 비율을 추정하기 위해 이용될 수 있다. 도 11은 MNase 데이터세트 혼합물에 대한 처음 2개의 주성분을 보여주고, 도 12는 cfDNA 데이터세트 혼합물의 처음 2개의 주성분을 보여준다. 두 경우 모두에서, 처음 PC는 혼합된 데이터세트의 조성을 직접 포착한다. 따라서, 적절한 참조 세트가 주어지고 예를 들어 회귀 모델을 사용하여 빈도 강도 데이터의 변환으로부터 2개 또는 가능하게는 더 많은 세포 유형에 대한 혼합물 비율이 어떻게 추정될 수 있는지 직접 생각할 수 있다. 도 13은 유사한 샘플 비율 및 cfDNA 및 MNase 샘플의 분리로부터 유래된 혼합물 샘플의 전반적인 유사성을 확인하는, 두 데이터세트의 덴도그램을 보여준다.Figure 10 shows the average intensity for
본 실시예의 핵심 관찰 중 하나는 미지 샘플에 대한 다양한 샘플 유형 (cfDNA 또는 세포/조직 유형)의 혼합물 비율이 뉴클레오솜 점유 패턴의 모델링에 의해 추정될 수 있다는 것이다.One of the key observations in this embodiment is that the mixture ratio of various sample types (cfDNA or cell / tissue type) to unknown samples can be estimated by modeling the nucleosomal occupancy pattern.
실시예Example 3: 3: cfDNAcfDNA 서열결정 데이터를 사용한, 전사 인자 결합 부위에 대한 Using the sequencing data, 뉴클레오솜Nucleosomes 점유의 측정 Measurement of Occupancy
이전의 실시예는 게놈을 연속적이고 중첩되지 않는 10 kbp 윈도우로 분할함으로써 뉴클레오솜 배치의 신호가 얻어질 수 있음을 입증하지만, 직교 방법이 또한 절단 접근가능성 지도를 작성하기 위해 사용될 수 있고, 윈도우 크기와 경계를 기초로 하여 인공물의 경향이 더 작을 수 있다. 본 실시예에서 약간 상세히 조사된 그러한 방법 중 하나는 전사 인자 (TF) 결합 부위 주변의 판독 개시의 관찰된 주기도를 통한 뉴클레오솜 배치의 추정이다.While the previous example demonstrates that the signal of the nucleosome arrangement can be obtained by dividing the genome into a continuous and non-overlapping 10 kbp window, the orthogonal method can also be used to create a truncation accessibility map, The tendency of artifacts may be smaller based on size and boundaries. One such method that has been investigated in this embodiment in some detail is the estimation of the nucleosome placement through the observed periodicity of readout initiation around the transcription factor (TF) binding site.
국부 뉴클레오솜 배치가 근처의 TF 점유에 의해 영향을 받는다는 것이 잘 확립되어있다. 염색질의 국부 리모델링에 대한 영향 및 인접 뉴클레오솜의 안정적인 배치에 대한 효과는 TF 세트에 걸쳐 균일하지 않고, 제시된 TF의 점유는 우선적으로 결합 부위의 5' 또는 3'에 위치하는 뉴클레오솜 배치에 국부적인 영향을 미칠 수 있고, 특정 세포 유형에서 더 크거나 작은 게놈 거리에 대해 이어질 수 있다. 또한, 본원의 개시내용의 목적을 위해서 중요하게는, 특정 세포에서 생체 내에서 점유되는 TF 결합 부위의 세트는 조직과 세포 유형 사이에서 다양하고, 따라서 관심 조직 또는 세포 유형에 대한 TF 결합 부위 점유 지도를 확인할 수 있고 하나 이상의 TF에 대해 상기 과정을 반복한다면, 하나 이상의 세포 유형 또는 조직 특이적 TF 결합 부위 점유 프로파일의 농축 또는 고갈을 확인하여 cfDNA의 집단에 기여하는 세포 유형 및 조직의 혼합물의 성분을 식별할 수 있다.It is well established that the local nucleosome arrangement is affected by the nearby TF occupancy. The effect on the local remodeling of the chromatin and the effect on the stable arrangement of the adjacent nucleosomes is not uniform across the TF set and occupancy of the presented TF is preferentially in the nucleosome arrangement located 5 ' or 3 ' Can have local effects, and can lead to larger or smaller genomic distances in certain cell types. Also for the purposes of the present disclosure, importantly, the set of TF binding sites occupied in vivo in a particular cell will vary between tissue and cell types, and thus the TF binding site occupancy map for the tissue or cell type of interest And repeating the process for one or more TFs, confirm the concentration or depletion of one or more of the cell types or tissue specific TF binding site occupancy profiles to determine the composition of the cell type and tissue mixture contributing to the population of cfDNA Can be identified.
상기 아이디어를 입증하기 위해, TF 결합 부위 근처의 판독 개시를 사용하여 우선적인 국부 뉴클레오솜 배치를 반영하는 절단 편향을 시각적으로 확인하였다. ChIP-seq 전사 인자 (TF) 피크는 [Encyclopedia of DNA Elements] ("ENCODE") 프로젝트 (미국 국립 인간 게놈 연구원 (National Human Genome Research Institute), 미국 국립 보건원, 미국 메릴랜드주 베데스다)로부터 얻었다. 이들 피크의 게놈 간격은 광범위하기 때문에 (평균 200 내지 400 bp), 이 간격 내의 활성 결합 부위는 보수적인 p-값 컷오프 (1x10-5, 상세한 내용은 방법 참조)과 각각의 결합 모티프에 대해 게놈의 정보를 스캐닝하여 식별하였다. 예측된 TF 결합 부위의 상기 2개의 독립적으로 유도된 세트의 교차점은 하류 분석으로 이어졌다.To prove this idea, readout initiation near the TF binding site was used to visually confirm the cleaved deflection reflecting the preferential local nucleosome placement. The ChIP-seq transcription factor (TF) peak was obtained from the Encyclopedia of DNA Elements ("ENCODE") project (National Human Genome Research Institute, US National Institutes of Health, Bethesda, Md.). Genomic interval of these peaks are broad due to (average of 200 to 400 bp), the active binding site within this interval are conservative p- value cutoff (see how 1x10 -5, more details) and the genome for each of the binding motif Information was scanned and identified. The intersection of the two independently derived sets of predicted TF binding sites resulted in downstream analysis.
500 bp의 각각의 후보 TF 결합 부위 내의 각각의 위치에서 판독 개시의 수는 적어도 1억 개의 서열을 갖는 샘플에서 계산되었다. 각각의 샘플 내에서, 모든 판독 개시는 각각의 위치에서 합산되어, TF 인식 서열의 길이에 따라 TF당 샘플당 총 1,014 내지 1,019개의 위치를 산출하였다.The number of readouts at each location within each candidate TF binding site of 500 bp was calculated in samples with at least 100 million sequences. Within each sample, all readouts were added at each position to yield a total of 1,014 to 1,019 positions per sample per TF, depending on the length of the TF recognition sequence.
도 14는 결합 부위 자체 주위를 중심으로, 다양한 상이한 샘플에서 인간 게놈 내의 24,666개의 CTCF 결합 부위 주위의 판독 개시의 분포를 보여준다. CTCF는 절연 (insulator) 결합 단백질이고, 전사 억제에 중요한 역할을 수행한다. 이전의 연구는 CTCF 결합 부위가, 적어도 20개의 뉴클레오솜이 185 bp의 대략적인 간격으로 제시된 결합 부위 주위에 대칭적이고 규칙적으로 이격되도록 위치하는 국부 뉴클레오솜 배치에 고정된다고 제시한다. 도 14의 거의 모든 샘플에 공통적인 하나의 현저한 특징은 결합 부위의 상류 및 하류 둘 모두에 위치하는 뉴클레오솜 배치의 명확한 주기도이고, 이것은 생체 내에서 CTCF 결합의 국부적 및 대칭적 효과가 다양한 cfDNA 및 MNase-소화 샘플에서 반복적으로 나타남을 시사한다. 흥미롭게도, 상류 및 하류 피크의 주기는 샘플의 세트에 걸쳐 일정하지 않고; MNase 소화 샘플은 결합 부위에 비해 피크의 약간 더 넓은 간격을 보이고, 이것은 피크의 강도뿐만 아니라 그들의 기간의 유용성을 제시한다.Figure 14 shows the distribution of read initiation around 24,666 CTCF binding sites in the human genome in a variety of different samples, centered around the binding site itself. CTCF is an insulator binding protein and plays an important role in transcriptional repression. Previous studies suggest that the CTCF binding site is fixed in a local nucleosome arrangement that is positioned such that at least 20 nucleosomes are symmetrically and regularly spaced around the binding sites presented at approximate spacing of 185 bp. One notable feature common to nearly all of the samples in Figure 14 is the clear periodicity of the nucleosome arrangement located both upstream and downstream of the binding site, which indicates that the local and symmetrical effects of CTCF binding in vivo have been demonstrated in various cfDNA and & MNase-digested samples. Interestingly, the periods of the upstream and downstream peaks are not constant across a set of samples; The MNase digested samples show slightly wider spacing of the peaks compared to the binding sites, suggesting the usefulness of their duration as well as the intensity of the peaks.
도 15는 5,644개의 c-Jun 결합 부위 주위의 판독 개시 분포를 보여준다. 이 도면에서 익숙한 주기도가 다시 여러 샘플에 대해 시각적으로 식별될 수 있지만, 효과는 일정하지 않다. 흥미롭게도, MNase 소화 샘플 중 3개 (Hap1.MNase, HEK.MNase 및 NA12878.MNase)는 훨씬 평평한 분포를 갖고, 이것은 c-Jun 결합 부위가 이들 세포에서 많이 점유되지 않음을 나타내거나 또는 국부 염색질 리모델링에 대한 c-Jun 결합의 그 효과가 이들 세포 유형에서 덜 현저함을 나타낼 수 있다. 기저 메카니즘에 관계없이, 판독 개시의 국부적인 이웃에서의 편향이 TF로부터 TF까지 및 샘플 유형 사이에서 상이하다는 관찰은 cfDNA 샘플 내의 기원 조직 조성을 서로 연관시키거나 디콘볼루션하기 위한 뉴클레오솜 점유의 판독 개시 기반 추정에 대한 잠재적 역할을 강화한다.Figure 15 shows the read-initiated distribution around 5,644 c-Jun binding sites. In this figure, the familiar period can be visually identified again for several samples, but the effect is not constant. Interestingly, three of the MNase digested samples (Hap1.MNase, HEK.MNase and NA12878.MNase) have a much flattened distribution indicating that the c-Jun binding site is not predominantly occupied in these cells or that the local chromatin remodeling Lt; RTI ID = 0.0 > c-Jun < / RTI > Regardless of the underlying mechanism, the observation that deflections in the local neighborhood of read initiation are different between TF and TF and between sample types suggests that reading of the nucleosomal occupancy to correlate or deconvolute the original tissue composition in the cfDNA sample Strengthen the potential role for initiation-based estimation.
도 16은 4,417개의 NF-YB 결합 부위 주위의 판독 개시의 분포를 보여준다. 이 TF 결합 부위 부근의 시작 부위 분포는 대칭성에서 벗어나는 것을 보여주고, 여기에서 cfDNA 샘플의 약간의 상향 궤적에 의해 입증되는 바와 같이 하류 효과 (각각의 플롯 내에서 오른쪽으로)가 상류 효과보다 더 강한 것으로 보인다. 또한, MNase 소화 샘플과 cfDNA 샘플 사이의 차이점은 주목할 만하고, 전자는 평균적으로 피크가 식별하기 어려운 평평한 프로파일을 보여주지만, 후자는 더 명확하게 식별가능한 주기도 및 더 많은 확인가능한 피크 모두를 갖는다.Figure 16 shows the distribution of readout initiation around 4,417 NF-YB binding sites. The starting site distribution near this TF binding site shows a departure from symmetry where the downstream effect (to the right in each plot) is stronger than the upstream effect, as evidenced by a slight upward trajectory of the cfDNA sample see. In addition, the difference between the MNase digested sample and the cfDNA sample is noteworthy, while the former shows a flat profile which on average is difficult to identify the peak, while the latter has both a more clearly identifiable periodicity and more identifiable peaks.
실시예
임상 및 대조 샘플Clinical and Control Samples
일상적인 임신 후기 산전 관리 동안 임신 여성 fgs002, fgs003, fgs004 및 fgs005로부터 전혈을 채혈하고, EDTA (BD)가 들어있는 배큐테이너 (Vacutainer) 튜브에 잠시 보관하였다. 임신 여성 IM1, GM1, GM2로부터의 전혈을 임신 18, 13 및 10주차에 각각 얻은 다음, EDTA가 들어있는 배큐테이너 튜브 (BD)에 잠시 보관하였다. 신경아교종 환자 2349, 2350, 2351 및 2353으로부터의 전혈을 뇌 수술 과정의 일부로 수집하고, EDTA가 들어있는 배큐테이너 튜브 (BD)에서 3시간 미만 동안 보관하였다. 건강한 성인 남성인 남성 대조군 (Male Control) 2 (MC2)로부터의 전혈을 EDTA가 들어있는 배큐테이너 튜브 (BD)에서 수집하였다. 4 내지 10 ml의 혈액이 각각의 개체를 위해 이용가능하였다. 혈장을 4℃에서 10분 동안 1,000 x g에서 원심분리하여 전혈로부터 분리한 후, 상청액을 모아 4℃에서 15분 동안 2,000 x g에서 다시 원심분리하였다. 정제된 혈장을 사용할 때까지 -80℃에서 1 ml 분취액으로 보관하였다.During routine postpartum period postpartum care, whole blood was collected from pregnant women fgs002, fgs003, fgs004 and fgs005 and stored in a Vacutainer tube containing EDTA (BD). Whole blood from pregnant women IM1, GM1, and GM2 was obtained at 18, 13 and 10 weeks of gestation, respectively, and then kept in a BD incubator tube containing EDTA. Whole blood from
미지의 수의 건강한 개체로부터의 기여를 포함하는 벌크 인간 혈장을 스템셀 테크놀로지스 (STEMCELL Technologies, 캐나다 브리티쉬 콜럼비아 밴쿠버)로부터 수득하고, 사용시까지 -80℃에서 2 ml 분취액으로 보관하였다.Bulk human plasma containing contributions from an unknown number of healthy individuals was obtained from STEMCELL Technologies (Vancouver, British Columbia, Canada) and stored in 2 ml aliquots at-80 C until use.
혈장 샘플 처리Plasma sample treatment
동결된 혈장 분취액을 사용 직전에 벤치-탑 (bench-top)에서 해동시켰다. 순환 cfDNA는 제조사의 프로토콜에 따라 QiaAMP 순환 핵산 (Circulating Nucleic Acids) 키트 (퀴아겐 (Qiagen), 네덜란드 벤로)를 사용하여 각각의 혈장 샘플 2 ml로부터 정제하였다. DNA를 Qubit 형광 측정기 (인비트로겐 (Invitrogen), 미국 캘리포니아주 칼스바드) 및 인간 Alu 서열을 표적으로 하는 주문형 qPCR 검정으로 정량하였다.Frozen plasma aliquots were thawed in a bench-top just prior to use. Circulating cfDNA was purified from 2 ml of each plasma sample using a QiaAMP Circulating Nucleic Acids kit (Qiagen, Venlo, The Netherlands) according to the manufacturer's protocol. DNA was quantified by custom qPCR assay targeting Qubit fluorescence detector (Invitrogen, Carlsbad, Calif., USA) and human Alu sequence.
MNaseMNase 소화 digestion
각각의 세포주 (GM12878, HeLa S3, HEK, Hap1)의 약 5천만 개의 세포를 표준 방법을 사용하여 성장시켰다. 성장 배지를 흡인하고, 세포를 PBS로 세척하였다. 세포를 트립신 처리하고, 2x 부피의 CSS 배지로 중화시킨 다음, 1,300 rpm에서 5분 동안 4℃에서 원심분리하여 원추형 튜브에서 펠렛화하였다. 세포 펠렛을 1X 프로테아제 억제제 칵테일이 첨가된 12 ml의 빙냉 PBS에 재현탁하고, 계수한 후, 4℃에서 1,300 rpm에서 5분 동안 원심분리하여 펠렛화하였다. 세포 펠렛을 RSB 완충제 (10 mM 트리스(Tris)-HCl, 10 mM NaCl, 3 mM MgCl2, 0.5 mM 스페르미딘, 0.02% NP-40, 1X 프로테아제 억제제 칵테일)에 ml당 300만 개의 세포의 농도로 재현탁하고, 조심스럽게 뒤집으면서 10분 동안 얼음 위에서 인큐베이션하였다. 핵을 4℃에서 1,300 rpm에서 5분 동안 원심분리하여 펠렛화하였다. 펠렛화된 핵은 ml당 15 M의 최종 농도로 NSB 완충제 (25% 글리세롤, 5 mM의 MgAc2, 5 mM HEPES, 0.08 mM EDTA, 0.5 mM 스페르미딘, 1 mM의 DTT, 1X 프로테아제 억제제 칵테일) 내에 재현탁하였다. 핵을 4℃에서 1,300 rpm에서 5분 동안 원심분리하여 다시 펠렛화하고, ml당 30 M의 최종 농도로 MN 완충액 (500 mM 트리스-HCl, 10 mM NaCl, 3 mM MgCl2, 1 mM CaCl, 1X 프로테아제 억제제 칵테일) 내에 재현탁하였다. 핵을 200 ㎕ 분취액으로 나누고, 37℃에서 5분 동안 4U의 미크로코쿠스 뉴클레아제 (워싱턴 바이오케미컬 코포레이션 (Worthington Biochemical Corp.), 미국 뉴저지주 레이크우드)로 소화시켰다. 85 ㎕의 MNSTOP 완충제 (500 mM NaCl, 50 mM EDTA, 0.07% NP-40, 1X 프로테아제 억제제)를 첨가하여 반응을 빙상에서 켄칭한 후, 조심스럽게 뒤집으면서 4℃에서 90분 동안 인큐베이션하였다. DNA를 페놀:클로로포름:이소아밀 알콜 추출을 사용하여 정제하였다. 모노뉴클레오솜 단편은 표준 방법을 사용하여 2% 아가로스 겔 전기영동에 의해 크기를 선택하고 나노드롭 (Nanodrop) 분광광도계 (써모 피셔 사이언티픽 인크. (Thermo Fisher Scientific Inc.), 미국 매사추세츠주 월담)로 정량하였다.Approximately 50 million cells of each cell line (GM12878, HeLa S3, HEK, Hap1) were grown using standard methods. Growth medium was aspirated and cells were washed with PBS. Cells were trypsinized, neutralized with 2x volume of CSS medium and then pelleted in conical tubes by centrifugation at 1,300 rpm for 5 minutes at 4 [deg.] C. Cell pellets were resuspended in 12 ml ice-cold PBS supplemented with 1X protease inhibitor cocktail, counted, and then pelleted by centrifugation at 1300 rpm for 5 minutes at 4 < 0 > C. The cell pellet was resuspended at a concentration of 3 million cells per ml in RSB buffer (10 mM Tris-HCl, 10 mM NaCl, 3 mM MgCl 2 , 0.5 mM spermidine, 0.02% NP-40, 1X protease inhibitor cocktail) ≪ / RTI > and incubated on ice for 10 minutes with careful overturning. The nuclei were pelleted by centrifugation at 4 ° C and 1,300 rpm for 5 minutes. The pelleted nuclei NSB buffer to a final concentration of 15 M per ml (25% glycerol, 5 mM of
서열결정 라이브러리 제조Preparation of sequence library
독점 소유의 일련의 말단 복구, 라이게이션 및 증폭 반응을 포함하는 ThruPLEX-FD 또는 ThruPLEX DNA-seq 48D 키트 (루비콘 게노믹스 (Rubicon Genomics), 미국 미시건주 앤 아버)를 사용하여 모든 샘플에 대한 바코드 처리된 서열결정 라이브러리를 제조하였다. 3.0 내지 10.0 ng의 DNA를 모든 임상 샘플 라이브러리에 대한 투입물로 사용하였다. 2개의 벌크 혈장 cfDNA 라이브러리는 각각의 라이브러리에 30 ng의 투입물을 사용하여 구축되었고; 각각의 라이브러리는 별도로 바코드 처리되었다. MC2로부터의 두 라이브러리는 각각의 라이브러리에 2 ng의 투입물을 사용하여 구축되었고; 각각의 라이브러리는 별도로 바코드 처리되었다. 각각의 MNase 소화 세포주에 대한 라이브러리는 20 ng의 크기 선택된 투입 DNA를 사용하여 구축되었다. 과다 증폭을 피하기 위해 모든 샘플의 라이브러리 증폭을 실시간 PCR로 모니터링하였다.Treated with a ThruPLEX-FD or ThruPLEX DNA-seq 48D kit (Rubicon Genomics, Ann Arbor, Mich., USA) containing a series of proprietary end-point rescue, ligation and amplification reactions A sequencing library was prepared. 3.0 to 10.0 ng of DNA was used as input for all clinical sample libraries. Two bulk plasma cfDNA libraries were constructed using 30 ng of the input into each library; Each library was separately barcoded. Two libraries from MC2 were constructed using 2 ng of input into each library; Each library was separately barcoded. The library for each MNase digestive cell line was constructed using 20 ng size selected input DNA. To avoid over-amplification, library amplification of all samples was monitored by real-time PCR.
서열결정Sequencing
9 bp의 인덱스 판독값을 갖는 쌍을 형성한 말단의 101 bp 판독을 사용하여 모든 라이브러리를 HiSeq 2000 기기 (일루미나 인크. (Illumina, Inc.), 미국 캘리포니아주 샌 디에고)에서 서열결정하였다. 한 레인의 서열결정은 한데 모은 샘플 fgs002, fgs003, fgs004 및 fgs005에 대해 수행되어, 샘플당 총 약 4.5x107의 판독 쌍을 생성하였다. 샘플 IM1, GM1 및 GM2는 여러 레인에 걸쳐 서열결정되어, 각각 1.2x109, 8.4x108, 및 7.6x107 판독 쌍을 생성하였다. 한 레인의 서열결정은 샘플 2349, 2350, 2351 및 2353 각각에 대해 수행되어, 샘플당 약 2.0x108의 판독 쌍을 생성하였다. 한 레인의 서열결정은 4개의 세포주 MNase-소화된 라이브러리 각각에 대해 수행하여, 라이브러리당 약 2.0x108의 판독 쌍을 생성하였다. 4개 레인의 서열결정은 2개의 복제 MC2 라이브러리 중 하나에 대해, 3개의 레인은 2개의 복제 벌크 혈장 라이브러리 중 하나에 대해 수행되어, 각각 라이브러리당 총 10.6x109 및 7.8x108의 판독 쌍을 생성하였다.All libraries were sequenced on a
cfDNAcfDNA 서열결정 데이터의 처리 Processing of sequence determination data
cfDNA 및 MNase 라이브러리 둘 모두에 대한 DNA 삽입체 크기는 짧은 경향이 있고 (데이터의 대부분이 80 bp 내지 240 bp임); 따라서 일부 분자의 판독 말단에서 어댑터 서열이 예상되었다. 판독 말단부에서 시작하는 어댑터 서열은 트리밍되었고, 짧은 원래 분자에 대한 쌍 형성 말단 ("PE") 데이터의 정방향 및 역방향 판독은 단일 판독 ("SR")으로 붕괴되었고; 적어도 11 bp 판독과 중복되는 PE 판독은 SR로 붕괴되었다. 30 bp보다 짧거나 품질 스코어가 10 미만인 5개 초과의 염기를 나타내는 SR은 폐기되었다. 나머지 PE 및 SR 데이터는 신속 정렬 도구 (BWA-ALN 또는 BWA-MEM)를 사용하여 인간 참조 게놈 (GRCh37, 1000G 릴리스 v2)에 정렬되었다. 생성되는 SAM (Sequence Alignment/Map) 형식은 SAMtools를 사용하여 분류된 BAM (Binary Sequence Alignment/Map 형식)으로 변환되었다.DNA insert sizes for both the cfDNA and MNase libraries tend to be short (most of the data is 80 bp to 240 bp); Thus, adapter sequences were expected at the reading end of some molecules. The adapter sequences starting at the reading end were truncated and the forward and reverse reading of the pairing end ("PE") data for the short original molecule collapsed into a single reading ("SR"); At least an 11 bp reading and a redundant PE reading collapsed into SR. SRs representing more than 5 bases that are shorter than 30 bp or whose quality score is less than 10 have been discarded. The remaining PE and SR data were aligned to the human reference genome (GRCh37, 1000G Release v2) using the Rapid Sort tool (BWA-ALN or BWA-MEM). The generated Sequence Alignment / Map (SAM) format was converted to BAM (Binary Sequence Alignment / Map format) sorted using SAMtools.
추가의 공개적으로 Further publicly 이용가능한Available 데이터 data
Hela-S3 MNase (등록번호 SRR633612, SRR633613) 및 MCF-7 MNase 실험 (등록번호 SRR999659-SRR999662)의 공개적으로 이용가능한 PE 데이터를 상기한 바와 같이 다운로드하고 처리하였다.The publicly available PE data of Hela-S3 MNase (accession no. SRR633612, SRR633613) and MCF-7 MNase experiment (accession no. SRR999659-SRR999662) were downloaded and processed as described above.
일루미나 캠브리지 엘티디. (Illumina Cambridge Ltd., 영국 에섹스)에 의해 생성된 CEPH 가계 146 개체 NA12878의 공개적으로 이용가능한 게놈 샷건 서열결정 데이터를 유럽 뉴클레오티드 아카이브 (ENA 등록번호 ERR174324-ERR174329)로부터 얻었다. 이 데이터는 일루미나 HiSeq 플랫폼에서 2x101 bp 판독으로 PE 서열을 결정하였고, 라이브러리는 서열결정 전에 더 긴 삽입체 크기에 대해 선택되었다. 따라서, 판독 종료시에 어댑터 서열이 예상되지 않았고, 따라서 이 데이터는 BWA-MEM을 사용하여 직접 정렬되었다.Illumina Cambridge ELTI. (ENA registration number ERR174324-ERR174329) of the CEPH family of 146 individuals NA12878 produced by the National Institutes of Health (Illumina Cambridge Ltd., Essex, UK). This data determined the PE sequence with a 2x101 bp reading on an Illumina HiSeq platform and the library was selected for a longer insert size before sequencing. Thus, no adapter sequence was expected at the end of the readout, so this data was directly aligned using BWA-MEM.
판독 최종 정보 추출Extraction of Final Information
PE 데이터는 서열결정 라이브러리 제조에 사용되는 DNA 분자의 2개의 물리적 말단에 대한 정보를 제공한다. 이 정보는 BAM 파일의 SAMtools 어플리케이션 프로그래밍 인터페이스 (API)를 사용하여 추출되었다. 두 판독이 모두 동일한 염색체에 정렬되고 판독이 반대 배향인 PE 데이터의 외부 정렬 좌표 둘 모두가 사용되었다. 트리밍되지 않은 SR 데이터의 경우, 하나의 판독 말단만이 원래의 DNA 분자의 물리적인 말단에 대한 정보를 제공한다. 판독이 참조 게놈의 플러스 가닥에 정렬되면, 가장 왼쪽의 좌표가 사용되었다. 판독이 역 가닥에 정렬된 경우, 그의 가장 오른쪽의 좌표가 대신 사용된다. PE 데이터가 어댑터 트리밍에 의해 단일 판독 데이터로 전환되는 경우, 양 말단 좌표가 고려되었다. SR 서열결정 실험에서 적어도 5개의 어댑터 염기가 트리밍된 경우, 양쪽 말단 좌표가 모두 고려되었다.The PE data provides information on the two physical ends of the DNA molecule used to prepare the sequencing library. This information was extracted using the SAMtools application programming interface (API) in the BAM file. Both outlier coordinates of the PE data with both readings aligned on the same chromosome and the readout in opposite orientation were used. For untrimmed SR data, only one read end provides information about the physical end of the original DNA molecule. When the reading was aligned on the positive strand of the reference genome, the leftmost coordinate was used. If the reading is aligned on the reverse strand, its rightmost coordinate is used instead. When the PE data is converted to single read data by adapter trimming, both end coordinates are considered. When at least five adapter bases were trimmed in the SR sequencing experiments, both end coordinates were considered.
인간 참조 서열 는의 모든 상염색체 (1 내지 22번 염색체)에 대해, 10,000개 염기의 윈도우 (블록)에서 모든 위치에서의 판독 말단의 수 및 적용범위를 추출하였다. 블록에서 정렬된 판독이 없으면, 해당 특정 샘플에 대해 블록이 비어있는 것으로 간주하였다.For the human chromosome (
평탄한 주기도Flat periodicity
판독 개시 및 적용범위의 비율은 각각의 샘플의 각각의 비어 있지 않은 블록에 대해 계산되었다. 적용범위가 0이면, 비율은 0으로 설정하였다. 이 비율을 사용하여 1/500 염기 내지 1/100 염기의 빈도로 고속 푸리에 변환 (FFT, R 통계 프로그래밍 환경의 spec.pgram)을 사용하여 각각의 블록의 주기도를 계산하였다. 임의적으로, 데이터를 평탄하게 하고 (3 bp 다니엘 스무더 (Daniell smoother); 최종값에 1/2의 가중치를 주는 이동 평균) 추세를 제거 (예를 들어, 계열의 평균을 빼고 선형 경향을 제거)하는 파라미터가 사용되었다. 각각의 블록에 대해 120-250 bp의 빈도 범위에 대한 강도가 저장되었다.The ratios of read initiation and coverage were calculated for each non-empty block of each sample. If the coverage is zero, the ratio is set to zero. Using this ratio, the periodicity of each block was calculated using fast Fourier transform (spec.pgram of FFT, R statistical programming environment) with a frequency of 1/500 base to 1/100 base. Optionally, remove the trend (eg, subtracting the average of the series and removing the linear trend) by flattening the data (3 bp Daniell smoother; moving average giving a weight of 1/2 the final value) Parameter is used. Strengths for the frequency range of 120-250 bp were stored for each block.
평균 염색체 농도Average chromosome concentration
샘플 세트에 대해, 모든 샘플에 걸쳐 비어 있지 않은 블록이 확인되었다. 특정 빈도에 대한 강도는 각각의 상염색체에 대한 각각의 샘플의 모든 블록에서 평균화되었다.For the sample set, non-empty blocks were identified across all samples. The intensity for a particular frequency was averaged over all blocks of each sample for each autosomal.
주성분 분석 및 Principal component analysis 덴도그램Tendogram
샘플에 걸쳐 비어 있지 않은 블록이 수집되었다. 주성분 분석 (PCA; R 통계 프로그래밍 환경의 prcomp)은 데이터의 차원수를 줄이고 2차원 공간에 도시하기 위해 사용되었다. PCA는 데이터의 가장 큰 변화를 포착하는 차원을 확인하고 직교 차원을 구축하여, 데이터의 변화량이 감소하는 것을 설명한다.Non-empty blocks were collected over the sample. Principal component analysis (PCA; R statistical programming environment prcomp) was used to reduce the number of dimensions of data and to show them in two-dimensional space. The PCA identifies the dimension that captures the greatest change in data and builds an orthogonal dimension to explain the reduction in data variation.
샘플 강도 사이의 쌍별 유클리드 거리를 계산하고, 덴도그램 (R 통계적 프로그래밍 환경의 stats 라이브러리)으로서 가시화하였다.The Euclidean distance for each pair between sample intensities was calculated and visualized as a ternogram (stats library of the R statistical programming environment).
전사 인자 결합 부위 예측Prediction of transcription factor binding site
복수개의 세포 유형에 걸쳐 생성된 ChIP-seq 데이터의 분석을 통해 얻은 추정 전사 인자 결합 부위는 ENCODE 프로젝트로부터 수득되었다.Estimated transcription factor binding sites obtained from analysis of ChIP-seq data generated across multiple cell types were obtained from the ENCODE project.
후보 전사 인자 결합 부위의 독립적인 세트는 MEME 소프트웨어 패키지 (버전 4.10.0_1)로부터 fimo 프로그램을 사용하여 인간 참조 게놈 (GRCh37, 1000G 릴리스 v2)을 스캐닝하여 얻었다. 스캔은 "--verbosity 1 --thresh 1e-5" 옵션을 사용하여 JASPAR_CORE_2014_vertebrates 데이터베이스로부터 얻은 위치 가중치 매트릭스를 사용하여 수행하였다. 사용된 전사 인자 모티프 식별자는 MA0139.1, MA0502.1 및 MA0489.1이었다.An independent set of candidate transcription factor binding sites was obtained by scanning the human reference genome (GRCh37, 1000G release v2) using the fimo program from the MEME software package (version 4.10.0_1). Scans were performed using the position weight matrix obtained from the JASPAR_CORE_2014_vertebrates database using the "--
예측된 부위의 두 세트 모두로부터의 염색체 좌표를 베드툴 (bedtools) v2.17.0과 교차시켰다. 플롯에서 임의의 비대칭성을 보존하기 위해, "+" 가닥 상에서 예측된 결합 부위만이 사용되었다. 판독 개시는 예측된 결합 부위의 어느 한 말단에서 500 bp 이내인 경우 각각의 샘플에 대해 집계되었고, 모든 이러한 부위에 걸쳐 위치별로 샘플 내에서 합산되었다. 이 분석에는 적어도 총 1억 개의 판독이 있는 샘플만 사용되었다.The chromosome coordinates from both sets of predicted sites were crossed with bedtools v2.17.0. To preserve any asymmetry in the plot, only the predicted binding sites on the "+" strand were used. Read initiation was counted for each sample within 500 bp at either end of the predicted binding site and was summed in the sample by location across all these sites. Only at least samples with a total reading of 100 million were used in this analysis.
실시예Example 4: 4: cfDNA로부터From cfDNA 기원 정상/건강한 조직(들)의 결정 Determination of Origin / Healthy Organization (s)
단일 개체의 cfDNA에서 관찰된 단편화 패턴이 심지어 기여하는 세포 유형 사이에 유전자형 차이가 없을 때에도, 이들 단편을 생성하는 세포의, 및 따라서 cfDNA 분자 집단의 기원 조직(들)의 게놈 조직화의 증거를 포함할 수 있는지 평가하기 위해, cfDNA는 이를 생성하는 과정을 보다 잘 이해하기 위해 심층적으로 서열결정되었다. 생성되는 데이터는 다른 연구자들에 의한 이전 연구를 기반으로 하는 뉴클레오솜 점유의 게놈 전체에 대한 지도를 구축하기 위해 사용되었지만, 상당히 더 포괄적이다. 짧은 단편을 회수하기 위해 라이브러리 제조 프로토콜을 최적화함으로써, CTCF와 같은 전사 인자 (TF)의 생체 내 점유가 cfDNA에 의해 직접적으로 추적된다는 것을 발견하였다. 마지막으로, 건강한 개체에서 cfDNA 서열결정에 의해 밝혀진 바와 같이, 조절 요소 및 유전자 본체의 뉴클레오솜 간격이 림프구성 및 골수성 세포주에서 DNase 과민성 및 유전자 발현과 가장 밀접한 상관관계가 있음이 밝혀졌다.This includes evidence of genomic organization of the cells that produce these fragments, and thus of the originating tissue (s) of the cf DNA molecule population, even when there is no genotype difference between the fragment types observed in the cfDNA of a single entity, even contributing cell types , CfDNA was sequenced in-depth to better understand the process of generating it. The data generated was used to construct a map of the entire genome of nucleosomal occupancy based on previous studies by other investigators, but is considerably more comprehensive. By optimizing the library manufacturing protocol to recover short fragments, we have found that the in vivo occupancy of transcription factors (TF) such as CTCF is directly tracked by cfDNA. Finally, as revealed by cfDNA sequencing in healthy individuals, the regulatory elements and the nucleosome spacing of the gene body were found to be most closely related to DNase hypersensitivity and gene expression in lymphoid and myeloid cell lines.
cfDNAcfDNA 단편은 Short 크로마토솜에Chromatochem 대응하고 실질적인 DNA 손상을 Corresponding and substantial DNA damage 포함한다Include
통상적인 서열결정 라이브러리는 미지의 수의 건강한 개체 ("BH01")로부터 한데 모은 혈장 또는 단일 개체 ("IH01")로부터의 혈장으로부터 정제된 cfDNA 단편에 대한 말단 복구 및 어댑터 라이게이션에 의해 제조하였다 (도 17; 표 1):Conventional sequencing libraries were prepared by end-repair and adapter ligation of purified cfDNA fragments from plasma from plasma or single ("IH01") pools from unknown numbers of healthy individuals ("BH01" 17: Table 1):
<표 1><Table 1>
혈장 샘플에 대한 서열결정 통계.Sequence statistics for plasma samples.
SSP, 단일 가닥 라이브러리 제조 프로토콜. DSP, 이중 가닥 라이브러리 제조 프로토콜.SSP, single-strand library manufacturing protocol. DSP, double-stranded library manufacturing protocol.
각각의 샘플에 대해, 서열결정된 단편의 총수, 판독 길이, 지도화 품질 역치를 갖거나 갖지 않는 참조 물질에 정렬하는 상기 단편의 백분율, 평균 적용범위, 중복율 및 2개의 길이 빈에서 서열결정된 단편의 비율을 포함하는 서열결정 관련 통계를 표로 만들었다. 단편 길이는 쌍 형성 말단 판독의 정렬로부터 추정하였다. 판독 길이가 짧기 때문에, 전체 단편을 판독한 것으로 가정하여 적용범위를 계산하였다. 추정되는 중복 단편의 수는 단편 종점을 기초로 하고, 이것은 고도로 정형화된 절단의 존재 하에 진정한 중복율을 과대평가할 수 있다. SSP, 단일 가닥 라이브러리 제조 프로토콜. DSP, 이중 가닥 라이브러리 제조 프로토콜.For each sample, the total number of sequenced fragments, the read length, the percentage of the fragments that align with the reference material with or without the mapping quality threshold, the average coverage, the overlap rate, and the length of the fragment The statistics related to the determination of the sequence including the ratio were tabulated. The fragment length was estimated from the alignment of the pair forming end reading. Since the read length is short, the application range is calculated assuming that the entire fragment has been read. The estimated number of redundant fragments is based on the fragment endpoint, which can overestimate the true redundancy rate in the presence of highly shaped cleavage. SSP, single-strand library manufacturing protocol. DSP, double-stranded library manufacturing protocol.
라이브러리 BH01 및 IH01을 각각 96배 및 105배 적용범위 (1.5G 및 1.6G 단편)로 서열결정하였다. 쌍을 형성한 말단 판독의 정렬로부터 추정된 단편 길이 분포는 ~167 bp (크로마토솜과 관련된 DNA의 길이와 일치함) 및 100-160 bp 길이 범위에서 ~10.4 bp 주기에서 우세한 피크를 갖는다 (도 18). 이러한 분포는 cfDNA 단편이 단백질과의 회합에 의해, 이 경우 뉴클레아제 코어 입자 및 링커 히스톤에 의해 단백질에 의해 세포 사멸 전 및 사멸 후 둘 모두의 뉴클레아제 절단으로부터 우선적으로 보호되는 모델과 일치하지만, 어느 정도의 추가의 닉 형성 (nicking) 또는 절단이 뉴클레오솜-결합 DNA의 나선 피치와 관련하여 발생한다. 이 모델을 추가로 뒷받침하는 것은 MNase 유래 뉴클레오솜 관련 단편 (예를 들어, 이분 염색체에서 A/T 디뉴클레오티드에 대한 편향)에 대한 초기 연구의 주요 특징을 재현하고 뉴클레오솜 코어 입자는 크로 토좀에 대해 대칭으로 위치한다는 개념을 지지하는 상기 167 bp 단편의 디뉴클레오티드 조성이다 (도 19).The libraries BH01 and IH01 were sequenced to 96- and 105-fold coverage (1.5G and 1.6G fragments), respectively. The fragment length distribution estimated from the alignment of the paired end reads has ~ 167 bp (consistent with the length of the DNA associated with the chromatome) and a predominant peak at ~ 10.4 bp in the 100-160 bp length range ). This distribution is consistent with the model in which the cfDNA fragment is preferentially protected from association with proteins, in this case by nuclease core particles and linker histone, by nuclease cleavage both before and after death of the protein , Some additional nicking or truncation occurs with respect to the helical pitch of the nucleosome-binding DNA. Additional support for this model reproduces the key features of the initial study on MNase-derived nucleosome-related fragments (eg, biosynthetics on A / T dinucleotides in dichromosomes) and nucleosome core particles are crossover Lt; / RTI > fragment of the 167 bp fragment (Fig. 19).
이러한 cfDNA 온톨로지 (ontology) 모델에 대한 예측은 광범위한 DNA 손상, 예를 들어 단일 가닥 닉뿐만 아니라 5' 및 3' 오버행이다. 전통적인 라이브러리 제조 과정 동안, 닉 형성된 가닥은 증폭되지 않고, 오버행은 말단 복구에 의해 평활해지고, 전체 cfDNA의 실질적인 비율을 나타낼 수 있는 짧은 이중 가닥 DNA (dsDNA) 분자는 단지 불량하게 회수될 수 있다. 이를 해결하기 위해, 추가의 건강한 개체 ('IH02')로부터 유래된 혈장 함유 cfDNA로부터의 단일 가닥 서열결정 라이브러리를, 광범위한 DNA 손상 및 뉴클레오솜 주위의 뉴클레아제 절단이 보고된 간소지 (Gansauge) 등의 고대 DNA의 연구에서 채택된 프로토콜을 사용하여 제조하였다. 간단히 설명하면, cfDNA는 변성되었고, 비오틴-접합된 단일 가닥 어댑터가 생성 단편에 라이게이션되었다. 이어서, 단편을 스트렙타비딘 비드에 고정시키면서, 라이게이션된 단편을 제2 가닥 합성, 말단 복구 및 제2 어댑터의 라이게이션에 적용하였다. 마지막으로, 샘플 인덱스를 또한 부가하면서, 최소 PCR 증폭을 수행하여 어댑터-보유 분자를 풍부하게 하였다 (도 20; 표 2).The prediction for this cfDNA ontology model is extensive DNA damage, such as 5 'and 3' overhangs as well as single strand nicks. During the conventional library manufacturing process, nicked strands are not amplified, overhangs are smoothed by terminal repair, and short double-stranded DNA (dsDNA) molecules that can represent a substantial fraction of the total cfDNA can only be recovered poorly. To address this, a single stranded sequencing library from plasma containing cfDNA derived from an additional healthy individual ('IH02') was used to screen for extensive DNA damage and nucleases cleavage around the nucleosome, , And the like. Briefly, cfDNA was denatured and a biotin-conjugated single-stranded adapter was ligated to the resulting fragment. The ligated fragment was then applied to the ligation of the second strand synthesis, the end repair and the second adapter while securing the fragment to streptavidin beads. Finally, minimal PCR amplification was performed, enriching the adapter-retaining molecule, while also adding the sample index (Figure 20; Table 2).
<표 2><Table 2>
단일 가닥 서열결정 라이브러리의 제조에 사용되는 합성 올리고.Synthetic oligos used in the manufacture of single stranded sequencing libraries.
IH02의 경우, 생성된 라이브러리를 30배 적용범위 (779M 단편)로 서열결정하였다. 단편 길이 분포는 다시 크로마토솜에 대응하는 ~167 bp에서 우세한 피크를 나타내지만, 통상적인 라이브러리 제조와 비교할 때 더 짧은 단편에서 상당히 농축되었다 (도 21, 22, 23a-b, 24a-b). 모든 라이브러리가 ~10.4 bp의 주기도를 나타내지만, 단편 크기는 두 방법에 대해 3 bp만큼 차이나고, 이것은 그의 진정한 종점이 단일 가닥 라이브러리에서 보다 정확하게 표시되는 손상된 또는 비-플러시 (non-flush) 투입 분자와 일치한다.For IH02, the generated library was sequenced to a 30-fold coverage (779M fragment). The fragment length distribution again showed a dominant peak at ~ 167 bp corresponding to the chromatogram, but was considerably enriched in shorter fragments as compared to conventional library preparation (Figures 21, 22, 23a-b, 24a-b). Although all libraries exhibit a periodicity of ~ 10.4 bp, the fragment size differs by 3 bp for both methods, indicating that its true endpoint is more accurately represented in a single-stranded library than a damaged or non-flush input molecule .
심층적인 In-depth cfDNAcfDNA 서열결정을 기초로 한 생체 내 In vivo based on sequence determination 뉴클레오솜Nucleosomes 보호의 게놈 전체에 걸친 지도 A map of the entire genome of protection
cfDNA에 기여하는 조직(들)에서 인간 게놈에 걸친 뉴클레오솜의 현저한 국부 위치가 정렬된 단편 종점의 분포 또는 그의 수학적 변환을 하나 이상의 참조 지도와 비교하여 추정될 수 있는지 평가하기 위해, 윈도우 보호 스코어 ("WPS")가 개발되었다. 구체적으로, cfDNA 단편 종점은 뉴클레오솜 자체에서 고갈되면서, 뉴클레오솜 경계에 인접하여 클러스터링되어야 하는 것으로 예상되었다. 이를 정량하기 위해, WPS가 개발되었고, 이것은 제시된 게놈 좌표를 중심으로 한 120 bp 윈도우에 완전히 걸치는 DNA 단편의 수로부터 동일한 윈도우 내의 종점이 있는 단편의 수를 차감한 값을 나타낸다 (도 25). 의도한 바와 같이, WPS의 값은 시험관 내 방법 또는 고대 DNA를 사용한 다른 그룹에 의해 지도화된 바와 같이, 강하게 위치된 어레이 내의 뉴클레오솜의 위치와 상관관계가 있다 (도 26). 다른 부위에서, WPS는 DNase I 과민성 (DHS) 부위 (예를 들어, 원위의 조절 요소의 측면에 존재하는 뉴클레오솜의 재위치와 일치)과 같은 게놈 특징과 상관관계가 있다 (도 27).To assess whether the significant local location of the nucleosome across the human genome in the tissue (s) contributing to the cfDNA can be estimated by comparing the distribution of aligned endpoints of the fragment or its mathematical transformation to one or more reference maps, ("WPS") was developed. Specifically, the cfDNA fragment endpoint was expected to be clustered adjacent to the nucleosome border, depleted in the nucleosome itself. To quantify this, WPS has been developed, which represents the number of fragments with endpoints in the same window minus the number of DNA fragments entirely in the 120 bp window centered on the proposed genomic coordinates (Fig. 25). As intended, the value of WPS correlates with the location of the nucleosomes in the strongly positioned array, as mapped by in vitro methods or other groups using ancient DNA (Fig. 26). At other sites, WPS correlates with genomic features such as the DNase I hypersensitivity (DHS) site (e. G., Coincident with the repositioning of nucleosomes present at the side of the distal regulatory element) (Figure 27).
휴리스틱 (heuristic) 알고리즘을 BH01, IH01 및 IH02 데이터세트의 게놈 전체에 걸친 WPS에 적용하여, 각각 뉴클레오솜 보호의 12.6M, 11.9M 및 9.7M 국부 최대치를 확인하였다 (도 25-31). 각각의 샘플에서, 인접 피크 사이의 거리 분포 방식은 낮은 편차로 185 bp이었고 (도 30), 이것은 인간 또는 마우스 세포에서의 뉴클레오솜 반복 길이의 이전 분석과 일반적으로 일치하였다.Heuristic algorithms were applied to the genome-wide WPS of the BH01, IH01 and IH02 data sets to confirm 12.6M, 11.9M and 9.7M local maxima of the nucleosome protection, respectively (Figs. 25-31). In each sample, the distance distribution scheme between adjacent peaks was 185 bp with a low deviation (Fig. 30), which was generally consistent with a previous analysis of the nucleosome repeat length in human or mouse cells.
피크 콜의 위치가 샘플에 걸쳐 유사한지 결정하기 위해, 각각의 다른 샘플 내의 가장 가까운 피크에 대한 샘플 내의 각각의 피크의 게놈 거리가 계산되었다. 높은 일치성이 관찰되었다 (도 31; 도 32a-c). BH01 피크 콜로부터 가장 가까운 이웃 IH01 피크 콜까지의 중앙 (절대) 거리는 전체적으로 23 bp이었지만, 가장 높은 스코어의 피크에서는 10 bp 미만이었다 (도 33a-b).The genomic distance of each peak in the sample for the nearest peak in each different sample was calculated to determine if the position of the peak call was similar across the sample. High agreement was observed (Fig. 31; Fig. 32a-c). The median (absolute) distance from the BH01 peak call to the closest neighbor IH01 peak call was 23 bp overall, but less than 10 bp at the highest score peak (Figs. 33a-b).
뉴클레아제 특이성에 의해 또는 라이브러리 제조 동안 도입된 편향이 뉴클레오솜 보호 신호에 인위적으로 기여할 수 있기 때문에, 단편 종점을 또한 시뮬레이션하여, 각각의 샘플의 깊이, 크기 분포 및 말단 디뉴클레오티드 빈도를 매칭시켰다. 이어서,게놈 전체에 걸친 WPS를 계산하고, 각각 BH01, IH01 및 IH02와 매치하는 시뮬레이션 데이터세트에 대해, 동일한 휴리스틱에 의해 10.3 M, 10.2 M 및 8.0 M은 국부 최대치로 언급되었다. 시뮬레이션된 데이터세트로부터의 피크는 실제 데이터세트의 피크보다 더 낮은 스코어와 관련되었다 (도 33a-b). 또한, 실제 데이터세트로부터 언급된 비교적 재현가능한 피크의 위치 (도 31, 도 32a-c)는 시뮬레이션된 데이터세트로부터 언급된 피크의 위치와 잘 정렬되지 않았다 (도 31; 도 34a-c).The fragment endpoints were also simulated, either by nuclease specificity or because the bias introduced during library preparation could contribute artificially to the nucleosome protection signal, to match the depth, size distribution and terminal dinucleotide frequency of each sample . Then, for the simulation data sets that compute the WPS over the genome and match BH01, IH01 and IH02 respectively, 10.3 M, 10.2 M, and 8.0 M by the same heuristic are referred to as local maxima. The peaks from the simulated data set were associated with a lower score than the peaks of the actual data set (Figures 33a-b). In addition, the positions of the relatively reproducible peaks mentioned from the actual data set (Fig. 31, Fig. 32a-c) were not well aligned with the positions of the peaks mentioned from the simulated data set (Fig. 31; Figs. 34a-c).
게놈 전체에 걸친 뉴클레오솜 지도의 정확성 및 완전성을 개선하기 위해, BH01, IH01 및 IH02로부터의 cfDNA 서열결정 데이터를 모으고, 조합된 231배 적용범위 ('CH01'; 3.8B 단편; 표 1)에 대해 재분석하였다. WPS가 계산되었고, 상기 조합된 샘플에 대해 12.9 M 피크가 언급되었다. 이 피크 콜 세트는 보다 높은 스코어와 관련되었고, 피크 수의 측면에서 포화에 이르렀다 (도 33a-b). 500 bp 미만인 모든 피크 대 피크 거리를 고려하면 (도 35), CH01 피크 세트는 인간 참조 게놈의 2.53 기가염기 (Gb)에 걸쳐 있다.To improve the accuracy and completeness of the nucleosome maps throughout the genome, the cfDNA sequencing data from BH01, IH01 and IH02 were collected and compared to the combined 231-fold coverage ('CH01'; 3.8B fragment; Table 1) Respectively. WPS was calculated and a 12.9 M peak was mentioned for the combined sample. This peak call set was associated with a higher score and reached saturation in terms of number of peaks (Figures 33a-b). Considering all peak-to-peak distances less than 500 bp (Figure 35), the CH01 peak set spans the 2.53 base pair (Gb) of the human reference genome.
뉴클레오솜은 유전자 조절의 랜드마크, 예를 들어 전사 개시 부위 및 엑손-인트론 경계와 관련하여 잘 위치하는 것으로 알려져 있다. 그 이해와 일치하게, 유사한 배치가 전사, 번역 및 스플라이싱의 랜드마크와 관련하여 이 데이터에서도 관찰되었다 (도 36-40). 뉴클레오솜 간격과 전사 활성 및 염색질 표시 사이의 상관관계에 대한 과거 관찰치를 토대로, 림프아구성 세포주에서 긴 범위 상호 작용 (제자리 Hi-C)을 기초로 하여 구획 A (개방 염색질이 풍부함) 또는 구획 B (닫힌 염색질이 풍부함)에 할당된 100 킬로염기 (kb) 윈도우 내의 피크 대 피크 간격 중간값을 조사하였다. 구획 A의 뉴클레오솜은 구획 B의 뉴클레오솜보다 더 촘촘한 간격을 보였고 (중간값 187 bp (A) 대 190 bp (B)), 특정 하위구획 사이에 추가의 차이가 존재하였다 (도 41). 염색체의 길이에 따라, 알파 위성의 어레이에 걸친 강한 배치 (171 bp 단량체 길이; 도 42; 도 26)에 의해 유도되는, 중앙 뉴클레오솜 간격이 동원체 주변 영역에서 급격하게 감소하는 것을 제외하고는, 일반적인 패턴이 보이지 않았다.Nucleosomes are known to be well located in relation to landmarks for gene regulation, such as transcription initiation sites and exon-intron boundaries. Consistent with that understanding, similar batches were also observed in this data with respect to landmarks for transcription, translation and splicing (Figures 36-40). Based on past observations of the correlation between the nucleosomal spacing and transcriptional activity and chromatin labeling, compartment A (rich in open chromatin) or compartment (based on locus Hi-C) on a lymphocyte- Peak to peak spacing median values in 100 kilobase (kb) windows assigned to B (closed chromatin rich) were investigated. The nucleosomes of compartment A were spaced more closely than the nucleosomes of compartment B (median 187 bp (A) versus 190 bp (B)), with further differences between specific subcompartments (Figure 41) . Except for the fact that the central nucleosome spacing, which is induced by the length of the chromosome, and by the strong arrangement across the array of alpha satellites (171 bp monomer length; Fig. 42; Fig. 26) I did not see a common pattern.
짧은 short cfDNAcfDNA 단편은 Short CTCFCTCF 및 다른 전사 인자를 직접적으로 And other transcription factors directly 추적한다Track
DNase I 절단 패턴에 대한 이전의 연구는 2개의 우세한 단편 클래스, 즉 뉴클레오솜 사이의 절단과 관련된 더 긴 단편, 및 전사 인자 결합 부위 (TFBS)에 인접한 절단과 관련된 더 짧은 단편을 확인하였다. 생체 내에서 유도된 cfDNA 단편이 또한 뉴클레아제 절단에 대한 2개의 민감도 클래스에서 유래했는지 평가하기 위해, 서열 판독 (CH01)을 추정된 단편 길이에 기초하여 분할하고, WPS를 긴 단편 (120-180 bp; 120 bp 윈도우; 사실상 뉴클레오솜 콜링 (calling)에 대해 상기 설명한 WPS와 동일) 또는 짧은 단편 (35-80 bp; 16 bp 윈도우)을 별개로 재계산하였다 (도 26-27). 본 발명자들의 데이터에서 활발하게 결합된 부위에 대해 농축된 잘 정의된 TFBS의 세트를 얻기 위해 클러스터링된 FIMO 예측은 각각의 TF에 대해 ENCODE (TfbsClusteredV3)의 ChIP-seq 피크의 통합 세트와 교차되었다.Previous studies on the DNase I cleavage pattern identified two predominant fragment classes, a longer fragment associated with cleavage between nucleosomes and a shorter fragment associated with cleavage adjacent to the transcription factor binding site (TFBS). To evaluate whether in vivo induced cfDNA fragments also originated from two sensitivity classes for nuclease cleavage, we split the sequence readout (CH01) based on the estimated fragment length and plot the WPS against long fragments 120-180 (bp; 120 bp window; essentially the same as the WPS described above for nucleosome calling) or short fragments (35-80 bp; 16 bp window) were separately recomputed (Figures 26-27). To obtain a well-defined set of enriched TFBS for the sites actively engaged in our data, the clustered FIMO prediction was crossed with an integrated set of ChIP-seq peaks of ENCODE (TfbsClusteredV3) for each TF.
긴 분획 WPS는 CTCF 결합 부위 부근에서 뉴클레오솜의 강한 조직화를 지지한다 (도 43). 그러나, 짧은 분획 WPS에서 강한 신호가 관찰되고, 이것은 CTCF 결합 부위 자체와 일치한다 (도 44-45). CTCF 결합 부위는 이들이 생체 내에서 결합된다는 가정에 기초하여 계층화되었다 (모든 FIMO 예측 대 ENCODE ChIP-seq와 교차하는 하위세트 대 19개의 세포주에 걸쳐 사용되는 것으로 보이는 것과 교차하는 추가의 하위세트). 실험적으로 잘 지지된 CTCF 부위는 CTCF 결합시 그의 재위치화 (~190 bp → ~260 bp, 도 45-48)과 일치하게, 긴 분획 WPS에 기초하여 인접 -1과 +1 뉴클레오솜 사이에 실질적으로 더 넓은 간격을 나타낸다. 또한, 실험적으로 잘 지지된 CTCF 부위는 CTCF 결합 부위 자체보다 짧은 분획 WPS에 대해 훨씬 강한 신호를 나타낸다 (도 49-52).Long fraction WPS supports strong organization of nucleosomes near the CTCF binding site (Figure 43). However, a strong signal is observed in short fraction WPS, which is consistent with the CTCF binding site itself (Figs. 44-45). The CTCF binding sites were stratified based on the assumption that they are bound in vivo (an additional subset that intersects all FIMO predictions versus ENCODE ChIP-seq crossing subsets versus what appears to be used across 19 cell lines). An experimentally well supported CTCF site was found to be located between adjacent -1 and +1 nucleosomes based on long fraction WPS, consistent with its repositioning (~ 190 bp to 260 bp, Figure 45-48) upon CTCF binding Substantially wider spacing. In addition, the experimentally well-supported CTCF site displays a much stronger signal for the fractionated WPS than the CTCF binding site itself (Figures 49-52).
FIMO 예측 및 ENCODE CHiP-seq 데이터 둘 모두가 이용가능한 추가의 TF에 대해 유사한 분석을 수행하였다 (도 53a-h). 이들 TF 중의 많은 것, 예컨대 ETS 및 MAFK의 경우 (도 54-55), 짧은 분획 풋프린트가 관찰되었고, 긴 분획 WPS에서 주기적 신호가 수반되었다. 이것은 결합된 TFBS를 둘러싼 뉴클레오솜의 강력한 배치와 일치한다. 전체적으로, 이들 데이터는 단일 가닥 프로토콜 (도 18, 도 21)에 의해 현저히 양호하게 회복된 짧은 cfDNA 단편이 CTCF 등을 포함하는 DNA 결합 전사 인자의 생체 내 점유를 직접적으로 추적한다는 견해를 지지한다.FIMO prediction and ENCODE CHiP-seq data both performed a similar analysis for the additional TF available (Figs. 53a-h). For many of these TFs, such as ETS and MAFK (Figs. 54-55), a short fraction footprint was observed and a periodic signal was involved in long fraction WPS. This is consistent with the strong arrangement of nucleosomes surrounding the combined TFBS. Overall, these data support the view that short cfDNA fragments recovered significantly better by the single-stranded protocol (Figure 18, Figure 21) directly track in vivo occupancy of DNA-binding transcription factors including CTCF and the like.
뉴클레오솜Nucleosomes 간격 패턴은 The spacing pattern is cfDNAcfDNA 기원 조직에 대한 정보를 Information about the origin organization 제공한다to provide
cfDNA 서열결정을 통해 측정된 생체 내 뉴클레오솜 보호가 건강한 개체에서 cfDNA에 기여하는 세포 유형을 추정하기 위해 사용될 수 있는지 결정하기 위해, 116개의 다양한 생물학적 샘플에서 정의된 DHS 부위 내의 뉴클레오솜 콜의 피크 대 피크 간격을 조사하였다. 확대된 간격은 조절 요소에서 (예를 들어, DHS 부위에서 일화적으로 (anecdotally) (도 27) 또는 결합된 CTCF 부위에서 전반적으로 (도 45)) -1 및 +1 뉴클레오솜 사이에서 이전에 관찰되었다. 결합된 CTCF 부위와 유사하게, DHS 부위의 하위세트 내에서 뉴클레오솜 쌍에 대해 실질적으로 더 넓은 간격이 관찰되었고, 타당하게 이것은 cfDNA를 생성하는 세포 유형(들)에서 결합하는 개재 전사 인자 결합에 의해 뉴클레오솜이 재위치되는 부위에 대응한다 (~190 bp → ~260 bp, 도 56). 실제로, 확장된 뉴클레오솜 간격 (~260 bp)의 비율은 어떤 세포 유형의 DHS 부위가 사용되는지에 따라 상당히 다르다. 그러나, 이 비율이 가장 높은 모든 세포 유형은 림프 또는 골수 기원이다 (예를 들어, 도 56에서 CD3_CB-DS17706 등). 이것은 건강한 개체에서 cfDNA의 주요 공급원으로서 조혈 세포 사멸과 일치한다.To determine if in vivo nucleosome protection as measured through cfDNA sequencing can be used to estimate the cell types contributing to cfDNA in healthy individuals, the ability of the nucleosomes in the DHS region defined in 116 diverse biological samples The peak to peak spacing was investigated. The enlarged spacing may have been previously (e.g., anecdotally at the DHS site (Figure 27) or at the combined CTCF site (Figure 45)) -1 and +1 nucleosomes Respectively. Similar to the bound CTCF site, a substantially wider gap was observed for the nucleosome pair within a subset of the DHS sites, and this is reasonably related to the intervening transcription factor binding in the cell type (s) that produce cfDNA Corresponds to the site at which the nucleosome is relocated (~ 190 bp to ~ 260 bp, Figure 56). In fact, the ratio of extended nucleosome spacing (~260 bp) is significantly different depending on which cell type of DHS site is used. However, all cell types with this highest ratio are lymph or bone marrow origin (e. G., CD3_CB-DS17706 in Figure 56). This is consistent with hematopoietic cell death as a major source of cfDNA in healthy individuals.
다음으로, 전사 개시 부위 부근에서 뉴클레오솜 보호 신호가 재조사되었다 (도 36). 신호가 림프 계통 세포주인 NB-4에서의 유전자 발현에 기초하여 계층화된 경우, TSS와 관련하여 뉴클레오솜 보호의 위치 또는 강도의 강한 차이가 고도로 발현된 유전자 대 낮게 발현된 유전자에서 관찰되었다 (도 57). 또한, 짧은 분획 WPS는, 그의 강도가 또한 발현 수준과 강한 상관관계가 있는 TSS의 바로 상류에 명확한 풋프린트를 보인다 (도 58). 이것은 전사 활성 유전자에서 전사 예비 개시 복합체 또는 그의 일부 성분의 풋프린트를 반영한다.Next, the nucleosome protection signal was re-examined near the transcription initiation site (Figure 36). When the signal was stratified based on gene expression in the lymphoid lineage cell line NB-4, strong differences in the location or intensity of nucleosome protection in relation to TSS were observed in highly expressed versus low expressed genes 57). In addition, the short fraction WPS shows a clear footprint just upstream of the TSS whose intensity is also strongly correlated with the expression level (Figure 58). This reflects the footprint of the transcriptional pre-initiation complex or some of its components in the transcriptional activation gene.
이들 데이터는 cfDNA 단편화 패턴이 실제로 cfDNA를 생성하는 조직(들) 또는 세포 유형(들)을 추정하기 위해 사용될 수 있는 신호를 포함함을 입증한다.These data demonstrate that the cfDNA fragmentation pattern actually contains signals that can be used to estimate the tissue (s) or cell type (s) that produce the cfDNA.
그러나, 문제는 게놈 전체에 걸친 cfDNA 라이브러리에서 비교적 적은 수의 판독이 DHS 부위 및 전사 개시 부위와 직접 중복된다는 것이다.However, the problem is that relatively few readings in the cfDNA library across genomes directly overlap with the DHS and transcription initiation sites.
뉴클레오솜 간격은 세포 유형 사이에, 및 염색질 상태 및 유전자 발현의 함수로서 상이하다. 일반적으로, 개방 염색질 및 전사는 보다 짧은 뉴클레오솜 반복 길이와 관련되고, 이것은 구획 A 대 B의 상기 실시예의 분석과 일치한다 (도 41). 이 실시예의 피크 콜 데이터는 또한 유전자 본체에 걸친 뉴클레오솜 간격과 이들의 발현 수준 사이의 상관관계를 나타내며, 보다 촘촘한 간격은 보다 높은 발현과 연관된다 (도 59; ρ = -0.17; n = 19,677 유전자). 상관관계는 인접 영역 (상류 10 kb ρ = -0.08; 하류 10 kb ρ = -0.01)에 비해 유전자 본체 자체에 대해서 가장 높다. 분석이 적어도 60개의 뉴클레오솜 콜에 걸친 유전자 본체에 제한된다면, 보다 촘촘한 뉴클레오솜 간격은 유전자 발현과 훨씬 더 강력한 상관관계가 있다 (ρ = -0.50; n = 12,344 유전자).The nucleosome spacing is different between cell types, and as a function of chromatin state and gene expression. In general, open chromatin and transcription are associated with shorter nucleosome repeat lengths, which is consistent with the analysis of this example of segment A versus B (Figure 41). The peak call data in this example also indicates a correlation between the expression level of the nucleosomes and the interval between the nucleosomes over the gene body and a tighter interval is associated with higher expression (Figure 59: ρ = -0.17; n = 19,677 gene). The correlation is highest for the gene itself compared to the adjacent region (upstream 10 kb ρ = -0.08; downstream 10 kb ρ = -0.01). If the assay is restricted to the gene body spanning at least 60 nucleosome calls, the more dense nucleosome spacing has a much stronger correlation with gene expression (p = -0.50; n = 12,344 genes).
유전자 본체 또는 다른 도메인에 걸친 뉴클레오솜 간격과 같은 신호를 이용하는 한 가지 이점은 cfDNA 단편의 훨씬 더 많은 비율이 정를 제공할 것이라는 것이다. 또 다른 잠재적인 이점은 cfDNA에 기여하는 여러 세포 유형에서 발생하는 신호의 혼합물을 검출할 수 있다는 것이다. 이것을 시험하기 위해, 처음 10 kb의 유전자 본체에 걸친 긴 단편 WPS에 대해 및 유전자 단위 기준으로 추가의 수학적 변환, 즉 고속 푸리에 변환 (FFT)을 수행하였다. FFT 신호의 강도는 특정 빈도 범위에서 유전자 발현과 상관관계가 있었고, 양성 상관관계에서는 177-180 bp에서 가장 높았고 음성 상관관계에서는 ~199 bp에서 최소화되었다 (도 60). 인간 세포주 및 1차 조직에 대한 76개의 발현 데이터세트에 대한 상기 분석을 수행할 때, 가장 강력한 상관관계는 조혈 계통에서 관찰되었다 (도 60). 예를 들어, 3개의 건강한 샘플 (BH01, IH01, IH02) 각각에 대해 193-199 bp 빈도 범위에서 평균 강도를 갖는 가장 높은 순위의 음성 상관관계는 모두 림프 세포주, 골수 세포주 또는 골수 조직에서 나타났다 (도 61; 표 3).One advantage of using signals such as the nucleosome spacing across the gene body or other domains is that a much greater proportion of the cfDNA fragments will provide the nucleotide. Another potential benefit is the ability to detect mixtures of signals that occur in different cell types that contribute to cfDNA. To test this, additional mathematical transformations, i.e., fast Fourier transforms (FFT), were performed on the long fragment WPS over the first 10 kb gene body and on a gene unit basis. The intensity of the FFT signal was correlated with gene expression in a specific frequency range, with a positive correlation being the highest at 177-180 bp and a negative correlation at ~ 199 bp (Figure 60). When performing the above analysis on 76 expression data sets for human cell lines and primary tissues, the strongest correlation was observed in the hematopoietic lineage (Figure 60). For example, for each of the three healthy samples (BH01, IH01, IH02), the highest order of voice correlation with average intensity in the 193-199 bp frequency range was found in lymphocyte lines, bone marrow cell lines or bone marrow tissues 61; Table 3).
<표 3> <Table 3>
유전자 발현 데이터세트와 WPS FFT 강도의 상관관계.Correlation of gene expression data sets with WPS FFT intensity.
휴먼 프로테인 아틀라스 (Human Protein Atlas)에 의해 44개의 인간 세포주 및 32개의 1차 조직에서 19,378개의 Ensembl 유전자 식별자에 대해 측정된 FPKM 발현 값을 갖는 전사 개시 부위 하류의 처음 10 kb에서 193-199 bp 빈도에 대한 평균 FFT (고속 푸리에 변환) 강도 사이의 상관관계 값. 표 3에는 프로테인 아틀라스에서 제공되는 각각의 발현 샘플에 대한 간략한 설명 및 IH01, IH02 및 BH01 샘플에 대한 순위 변환 및 순위 차이가 포함되어 있다.At 193-199 bp frequencies in the first 10 kb downstream of the transcription initiation site with FPKM expression values measured for 19,378 Ensembl gene identities in 44 human cell lines and 32 primary tissues by Human Protein Atlas Correlation FFT (Fast Fourier Transform) strength value for the average. Table 3 includes a brief description of each of the expression samples provided in Protein Atlas and the rank conversion and ranking differences for the IH01, IH02 and BH01 samples.
실시예Example 5: 5: cfDNA로부터From cfDNA 비-건강한 기원 조직의 결정 Determination of Non-Healthy Origin Organization
건강하지 않은 상태의 추가의 기여 조직이 추정될 수 있는지 시험하기 위해, 5명의 후기 암 환자로부터 얻은 cfDNA 샘플의 서열을 결정하였다. 이들 샘플에서 뉴클레오솜 간격 패턴은 종종 환자의 암의 해부학적 기원과 일치하는 비-조혈 조직 또는 세포주와 가장 강한 상관관계가 있는 cfDNA에 대한 추가의 기여를 나타낸다.To test whether additional contributing tissues in the unhealthy state can be estimated, the sequence of the cfDNA samples from five late cancer patients was determined. The nucleosome gap pattern in these samples represents an additional contribution to cfDNA that has the strongest correlation with non-hematopoietic tissue or cell line often consistent with the anatomical origin of the patient's cancer.
암 환자의 Cancer patient cfDNA에서From cfDNA 뉴클레오솜Nucleosomes 간격은 비-조혈 기여를 확인한다. The interval confirms the non-hematopoietic contribution.
건강하지 않은 상태에서 순환하는 cfDNA에 기여하는 비-조혈 계통의 시그너쳐가 검출될 수 있는지 결정하기 위해, 다양한 IV기 암으로 임상적으로 진단된 개체로부터의 44개의 혈장 샘플을 cfDNA로부터 제조된 단일 가닥 라이브러리의 가벼운 서열결정으로 스크리닝하였다 (표 4, 중간값 2.2배 적용범위):To determine if a signature of a non-hematopoietic line that contributes to circulating cfDNA in an unhealthy state could be detected, 44 plasma samples from individuals clinically diagnosed with various IV cancers were treated with a single strand made from cfDNA (Table 4, median 2.2-fold coverage): < RTI ID = 0.0 >
<표 4> <Table 4>
암 패널 (cancer panel)을 위한 임상 진단 및 cfDNA 수율.Clinical diagnosis and cfDNA yield for cancer panel.
§: 샘플은 추가의 서열결정을 위해 선택되었다.§: Samples were selected for further sequencing.
**: 단지 0.5 ml의 혈장만이 상기 샘플에 이용될 수 있었다. ** Only 0.5 ml of plasma could be used for this sample.
†: 샘플은 QC에 실패하였고, 향후 분석에 사용되지 않았다.†: The sample failed the QC and was not used for further analysis.
표 4는 각각의 개체로부터의 1.0 ml의 혈장으로부터의 총 cfDNA 수율 및 관련된 임상 공변량과 함께, 높은 종양 부하의 증거에 대해 혈장-함유 cfDNA가 스크리닝된 48명의 환자에 대한 임상 및 조직학적 진단을 보여준다. 이들 48개 중에서, 44개는 QC를 통과하였고, 충분한 재료를 가지고 있었다. 이들 44개 중에서, 5개를 심층 서열결정을 위해 선택하였다. cfDNA 수율은 Qubit 형광 측정기 2.0 (라이프 테크놀로지스 (Life Technologies))에 의해 결정되었다.Table 4 shows the clinical and histological diagnosis of 48 patients screened for plasma-containing cfDNA for evidence of high tumor burden, with total cfDNA yields from 1.0 ml plasma from each individual and associated clinical covariates . Of these 48, 44 passed the QC and had enough material. Of these 44, 5 were selected for in-depth sequencing. The yield of cfDNA was determined by Qubit Fluorescence Meter 2.0 (Life Technologies).
이들 샘플은 실시예 4의 IH02와 동일한 프로토콜로, 동일한 배치에서 다수 제조되었다. IV기 암으로 임상 진단된 52명의 개체 (표 4)에 대한 인간 말초 혈액 혈장은 컨버선트 바이오 (Conversant Bio) 또는 플라스마랩 인터내셔널 (PlasmaLab International, 미국 워싱턴주 에버렛)로부터 얻고, 사용시까지 -80℃에서 0.5 ml 또는 1 ml 분취액으로 보관하였다. 전신 홍반성 루푸스로 임상 진단된 4명의 개체에 대한 인간 말초 혈액 혈장은 컨버선트 바이오로부터 얻고, 사용시까지 -80℃에서 0.5 ml 분취액으로 보관하였다. 냉동 혈장 분취액은 사용 직전에 벤치-탑에서 해동하였다. 제조사의 프로토콜에 따라 QiaAMP 순환 핵산 키트 (퀴아겐)를 사용하여 2 ml의 각각의 혈장 샘플로부터 순환 무세포 DNA를 정제하였다. DNA를 Qubit 형광 측정기 (인비트로겐)로 정량하였다. 샘플의 하위세트에서 cfDNA 수율을 확인하기 위해, 정제된 DNA를 다중카피의 인간 Alu 서열을 표적으로 하는 맞춤 qPCR 검정으로 추가로 정량하였고; 두 추정치는 일치하는 것으로 판명되었다.These samples were produced in the same batch with the same protocol as IH02 of Example 4. Human peripheral blood plasma for 52 individuals clinically diagnosed with IVC cancer (Table 4) was obtained from Conversant Bio or PlasmaLab International (Everett, Wash., USA) and was maintained at -80 < 0 > C In 0.5 ml or 1 ml aliquots. Human peripheral blood plasma for four individuals clinically diagnosed with systemic lupus erythematosus was obtained from Converted Biotech and stored in 0.5 ml aliquots at -80 ° C until use. Frozen plasma aliquots were thawed in a bench-top just prior to use. Circulating acellular DNA was purified from 2 ml of each plasma sample using a QiaAMP circulating nucleic acid kit (quiagen) according to the manufacturer's protocol. DNA was quantitated with a Qubit fluorescence analyzer (Invitrogen). To confirm the yield of cfDNA in a subset of samples, the purified DNA was further quantified by custom qPCR assays targeting multiple copies of the human Alu sequence; Both estimates were found to be consistent.
매치된 종양 유전자형이 이용가능하지 않았기 때문에, 각각의 샘플은 높은 비율의 종양-유도된 cfDNA를 포함할 가능성이 있는 하위세트를 확인하기 위해 다음과 같은 이수성의 2개의 측정 기준으로 스코어링되었다. 첫째, 각각의 염색체로부터 유도된 판독의 예측된 비율로부터의 편차 (도 62a); 둘째, 공통적인 단일 뉴클레오티드 다형성의 패널에 대한 염색체당 대립유전자형 균형 프로파일 (도 62b). 이러한 측정 기준을 기초로 하여, 5명의 개체 (소세포 폐암, 편평세포 폐암, 결장직장 선암종, 간세포 암종 및 유관 상피내 암종 유방암이 있는)로부터 유래된 단일 가닥 라이브러리를 실시예 4의 IH02의 것과 유사한 정도로 서열결정하였다 (표 5; 평균 30배 적용범위):Since the matched tumor genotypes were not available, each sample was scored with two metrics of the following arealities to identify a subset likely to contain a high percentage of tumor-derived cfDNA: First, the deviation from the predicted rate of readings derived from each chromosome (Fig. 62A); Second, an allelic genotype profile per chromosome for a panel of common single nucleotide polymorphisms (Figure 62b). Based on these metrics, a single-stranded library derived from 5 individuals (with small cell lung cancer, squamous cell lung cancer, colorectal adenocarcinoma, hepatocellular carcinoma and carcinoma in situ carcinoma breast cancer) was sequenced to an extent similar to that of IH02 of Example 4 (Table 5, average 30-fold coverage):
<표 5><Table 5>
CA01 세트에 포함된 추가의 샘플에 대한 서열결정 통계Sequence statistics for additional samples included in CA01 set
SSP, 단일 가닥 라이브러리 제조 프로토콜. DSP, 이중 가닥 라이브러리 제조 프로토콜. †샘플은 이전에 공개되었다 (J.O. Kitzman et al., Science Translational Medicine (2012)).SSP, single-strand library manufacturing protocol. DSP, double-stranded library manufacturing protocol. † Samples were previously published (J.O. Kitzman et al., Science Translational Medicine (2012)).
표 5는 각각의 샘플에 대해 서열결정된 단편의 총수, 판독 길이, 지도화 품질 역치를 갖거나 갖지 않는 참조 물질에 정렬하는 상기 단편의 백분율, 평균 적용범위, 중복율 및 2개의 길이 빈에서 서열결정된 단편의 비율을 포함하는 서열결정 관련 통계를 표로 제시한다. 단편 길이는 쌍 형성 말단 판독의 정렬로부터 추정하였다. 판독 길이가 짧기 때문에, 전체 단편을 판독한 것으로 가정하여 적용범위를 계산하였다. 추정되는 중복 단편의 수는 단편 종점을 기초로 하고, 이것은 고도로 정형화된 절단의 존재 하에 진정한 중복율을 과대평가할 수 있다.Table 5 shows the total number of sequenced fragments for each sample, the read length, the percentage of the fragments that align with reference material with or without the mapping quality threshold, the average coverage, the overlap rate, The statistics related to the determination of the sequence including the ratio of fragments are presented in the table. The fragment length was estimated from the alignment of the pair forming end reading. Since the read length is short, the application range is calculated assuming that the entire fragment has been read. The estimated number of redundant fragments is based on the fragment endpoint, which can overestimate the true redundancy rate in the presence of highly shaped cleavage.
상기한 바와 같이, FFT는 유전자 본체에 걸친 긴 단편 WPS 값에 대해 수행되었고, 193-199 bp 빈도 범위에서의 평균 강도를 인간 세포주 및 1차 조직에 대한 동일한 76개의 발현 데이터세트에 대해 관련시켰다. 실시예 4의 건강한 개체로부터의 3개의 샘플 (상위 10개 전부 및 상위 20개 거의 전부의 상관관계가 림프성 또는 골수성 계통에 대한 것임)과는 대조적으로, 가장 높은 순위의 세포주 또는 조직의 많은 수가, 일부 경우에 암 종류와 정렬되는 비-조혈 계통을 나타낸다 (도 61; 표 3). 예를 들어, 환자가 간세포 암종이 존재하는 IC17의 경우, 최상위 상관관계는 간세포 암종 세포주인 HepG2에 대한 것이었다. 환자가 유관 상피내 암종 유방암이 존재하는 IC35의 경우, 최상위 상관관계는 전이성 유방 선암종 세포주인 MCF7에 대한 것이었다. 다른 경우에, 상관관계 순위에서 가장 큰 변화를 보이는 세포주 또는 1차 조직은 암 종류와 정렬되었다. 예를 들어, 환자가 소세포 폐암이 존재하는 IC15의 경우, 상관관계 순위 (-31)의 가장 큰 변화는 소세포 폐암 세포주 (SCLC-21H)에 대한 것이었다. IC20 (폐 편평세포 암종) 및 IC35 (결장직장 선암종)의 경우, 상관관계 계수의 측면에서 림프/골수 세포주를 대체하는 많은 비-조혈 암 세포주가 있었지만, 이들의 특정 암 유형에 대한 정렬은 덜 분명하였다. 이들 암의 특정 분자 프로파일은 76개의 발현 데이터세트 사이에서 잘 표시되지 않았을 가능성이 있다 (예를 들어, 이들 중 어느 것도 폐 편평세포 암종이 아니고; CACO-2는 결장직장 선암종으로부터 유래된 세포주이지만, 고도로 이질적인 것으로 알려져 있다).As described above, FFT was performed on long fragment WPS values across the gene body and the average intensity in the 193-199 bp frequency range was related to the same 76 expression data sets for human cell lines and primary tissues. In contrast to the three samples from the healthy individuals of Example 4 (all the top 10 and almost all of the top twenty correlations are for the lymphatic or myeloid lineages), a large number of the highest ranking cell lines or tissues , And in some cases non-hematopoietic lines aligned with cancer types (Figure 61; Table 3). For example, in the case of IC17 in which the patient had hepatocellular carcinoma, the highest correlation was for HepG2, a hepatocellular carcinoma cell line. In the case of IC35 in which the patient had an intraepithelial carcinoma breast cancer, the highest correlation was for the metastatic breast adenocarcinoma cell line MCF7. In other cases, the cell line or primary tissue showing the greatest change in the correlation rank was aligned with the cancer type. For example, the largest change in the correlation rank (-31) was for the small cell lung cancer cell line (SCLC-21H) in the case of IC15 in which the patient had small cell lung cancer. In the case of IC20 (lung squamous cell carcinoma) and IC35 (colorectal adenocarcinoma), there were a number of non-hematopoietic cancer cell lines replacing the lymph / bone marrow cell line in terms of correlation coefficient, Respectively. It is possible that the specific molecular profiles of these cancers are not well represented among the 76 expression data sets (for example, none of them are lung squamous cell carcinomas; CACO-2 is a cell line derived from colorectal adenocarcinomas, It is known to be highly heterogeneous).
생물학적 샘플로부터 유래된 cfDNA에 기여하는 다양한 세포 유형 및/또는 조직의 비율을 평가하기 위해 탐욕적인 (greedy) 반복 방법이 사용되었다. 먼저, 그의 참조 지도 (여기서 76개의 RNA 발현 데이터세트에 의해 정의됨)가, 제시된 cfDNA 샘플에 대해 유전자 본체에 걸쳐 WPS 긴 단편 값의 193-199 bp 빈도에서 평균 FFT 강도와 가장 높은 상관관계를 갖는 세포 유형 또는 조직이 확인되었다. 다음으로, 가장 높은 상관관계를 갖는 세포 유형 또는 조직뿐만 아니라 참조 지도의 전체 세트로부터의 각각의 나머지 다른 세포 유형 또는 조직을 포함하는 일련의 "2개의 조직" 선형 혼합물 모델이 피팅되었다. 후자의 세트에서, 가장 높은 계수를 갖는 세포 유형 또는 조직은 계수가 절차가 종결되고 그 마지막 조직 또는 세포 유형이 포함되지 않는 1% 미만이 아니라면 기여 인자로 유지되었다. 이 절차는 혼합 모델에 의해 1% 미만으로 기여할 것으로 추정되는 새로 추가된 조직을 기초로 하여 종료될 때까지 "3-조직", "4-조직" 등으로 반복되었다. 혼합 모델은 다음 형식을 취한다:A greedy iterative method was used to assess the proportion of various cell types and / or tissues that contribute to cfDNA derived from biological samples. First, his reference map (defined here by 76 RNA expression data sets) has the highest correlation with the mean FFT intensity at the 193-199 bp frequency of the WPS long fragment value across the gene body for the presented cfDNA sample Cell type or tissue was identified. Next, a series of "two tissue" linear mixture models were fitted, including each cell type or tissue having the highest correlation, as well as each other cell type or tissue from the entire set of reference maps. In the latter set, the cell type or tissue with the highest count was maintained as a contributing factor if the count was not less than 1%, where the procedure was terminated and the final tissue or cell type was not included. This procedure was repeated with "3-Tissue", "4-Tissue", etc., until terminated, based on the newly added tissue estimated to contribute less than 1% by the mixed model. The mixed model takes the following form:
argmax_{a,b,c,...} cor(평균_FFT강도_193-199, a*log2Exp조직1 + b*log2조직2 + c*log2조직3 + ... + (1-a-b-c-...)*log2Exp조직N).(
예를 들어, 진행 간세포 암종 환자로부터 유래된 cfDNA 샘플인 IC17의 경우, 상기 절차는 Hep_G2 (28.6%), HMC.1 (14.3%), REH (14.0%), MCF7 (12.6%), AN3.CA (10.7%), THP.1 (7.4%), NB.4 (5.5%), U.266.84 (4.5%), 및 U.937 (2.4%)를 포함하는 9개의 기여 세포 유형을 예측하였다. 건강한 개체의 혼합물에 대응하는 cfDNA 샘플인 BH01의 경우, 상기 절차는 골수 (30.0%), NB.4 (19.6%), HMC.1 (13.9%), U.937 (13.4%), U.266.84 (12.5%), Karpas.707 (6.5%), 및 REH (4.2%)를 포함하는 7개의 기여 세포 유형 또는 조직을 예측하였다. 주목할 것은, 암 환자로부터 유래된 샘플인 IC17의 경우, 예측된 가장 높은 기여 비율은 이 cfDNA가 유래한 환자에 존재하는 암 유형 (Hep_G2 및 간세포 암종)과 밀접하게 연관된 세포주에 대응한다는 것이다. 이와 대조적으로, BH01의 경우, 이 방법은 건강한 개체에서 혈장 cfDNA의 주요 공급원인, 주로 조혈과 연관된 조직 또는 세포 유형에만 대응하는 기여를 예측한다.For example, in the case of IC17, a cfDNA sample derived from a patient with advanced hepatocellular carcinoma, the procedure was Hep_G2 (28.6%), HMC.1 (14.3%), REH (14.0%), MCF7 (10.7%), THP.1 (7.4%), NB.4 (5.5%), U.266.84 (4.5%) and U.937 (2.4%). In the case of BH01, which is a cfDNA sample corresponding to a mixture of healthy individuals, the procedure was performed using bone marrow (30.0%), NB.4 (19.6%), HMC.1 (13.9%), U.937 (13.4%), U.266.84 (12.5%), Karpas.707 (6.5%), and REH (4.2%). Notably, in the case of IC17, a sample derived from a cancer patient, the highest predicted contribution rate corresponds to a cell line closely associated with the type of cancer (Hep_G2 and hepatocellular carcinoma) present in the patient from which this cfDNA is derived. In contrast, in the case of BH01, this method predicts the contribution of a healthy individual to the major source of plasma cfDNA, primarily tissue or cell types associated with hematopoiesis.
실시예Example 6: 6: 실시예Example 4-5의 일반적인 방법 General method of 4-5
샘플Sample
미지의 수의 건강한 개체로부터의 기여를 포함하는 벌크 인간 말초 혈액 혈장을 스템셀 테크놀로지스 (캐나다 브리티쉬 콜럼비아 밴쿠버)로부터 수득하고, 사용할 때까지 -80℃에서 2 ml 분취액으로 보관하였다. 익명의 건강한 공여자의 개별 인간 말초 혈액 혈장을 컨버선트 바이오 (미국 앨라배마주 헌츠빌)에서 얻고, 사용할 때까지 -80℃에서 0.5 ml 분취액으로 보관하였다.Bulk human peripheral blood plasma containing an unknown number of healthy donors was obtained from Stem Cell Technologies (Vancouver, BC, Canada) and stored in 2 ml aliquots at-80 C until use. Individual human peripheral blood plasma of an anonymous healthy donor was obtained from Converged Bio (Huntsville, Ala., USA) and stored in 0.5 ml aliquots at -80 ° C until use.
임신한 여성 IP01 및 IP02로부터의 전혈은 임신 18주 및 13주에 각각 얻고, 이전에 설명한 바와 같이 처리하였다41.Whole blood from pregnant women IP01 and IP02 was obtained at 18 and 13 weeks of gestation, respectively, and treated as previously described 41 .
컨버선트 바이오 또는 플라스마랩 인터내셔널 (미국 워싱턴주 에버렛)로부터 IV기 암 (보충 표 4)으로 임상 진단된 52명의 개체에 대한 인간 말초 혈액 혈장을 수득하고, 사용할 때까지 -80℃에서 0.5 ml 또는 1 ml 분취액으로 보관하였다. 전신 홍반성 루푸스로 임상 진단된 4명의 개체에 대한 인간 말초 혈액 혈장을 컨버선트 바이오로부터 얻고, 사용할 때까지 -80℃에서 0.5 ml 분취액으로 보관하였다.Human peripheral blood plasma for 52 individuals clinically diagnosed with Conservative Biotechnology or PlasmaLab International (Everett, Wash., USA) (Table 4) was obtained, and 0.5 ml at -80 ° C until use And stored in 1 ml aliquots. Human peripheral blood plasma for four individuals clinically diagnosed with systemic lupus erythematosus was obtained from Converted Biotech and stored in 0.5 ml aliquots at -80 ° C until use.
혈장 샘플 처리Plasma sample treatment
동결된 혈장 분취액을 사용 직전에 벤치-탑에서 해동하였다. 제조사의 프로토콜에 따라 QiaAMP 순환 핵산 키트 (퀴아겐)를 사용하여 2 ml의 각각의 혈장 샘플로부터 순환 무세포 DNA를 정제하였다. DNA를 Qubit 형광 측정기 (인비트로겐)로 정량하였다. 샘플의 하위세트에서 cfDNA 수율을 확인하기 위해, 정제된 DNA를 다중카피 인간 Alu 서열을 표적으로 하는 맞춤 qPCR 검정으로 추가로 정량하였고; 두 평가는 일치하는 것으로 밝혀졌다.Frozen plasma aliquots were thawed in a bench-top just prior to use. Circulating acellular DNA was purified from 2 ml of each plasma sample using a QiaAMP circulating nucleic acid kit (quiagen) according to the manufacturer's protocol. DNA was quantitated with a Qubit fluorescence analyzer (Invitrogen). To confirm the yield of cfDNA in a subset of samples, the purified DNA was further quantified by custom qPCR assays targeting multi-copy human Alu sequences; Both assessments were found to be in agreement.
이중 가닥 서열결정 라이브러리의 제조Preparation of double-stranded sequencing library
바코드 처리된 서열결정 라이브러리는 독점 소유의 일련의 말단 복구, 라이게이션 및 증폭 반응을 포함하는 ThruPLEX-FD 또는 ThruPLEX DNA-seq 48D 키트 (루비콘 지노믹스)로 제조하였다. 0.5 ng 내지 30.0 ng의 cfDNA를 모든 임상 샘플 라이브러리의 투입물로 사용하였다. 모든 샘플에 대한 라이브러리 증폭은 과다 증폭을 피하기 위해 실시간 PCR에 의해 모니터링되었고, 전형적으로 4-6 사이클 후에 종결되었다.The bar-coded sequencing libraries were prepared with ThruPLEX-FD or ThruPLEX DNA-seq 48D kit (Rubicon Genomics) containing a proprietary series of end-point recovery, ligation and amplification reactions. 0.5 ng to 30.0 ng of cfDNA was used as the input of all clinical sample libraries. Library amplification for all samples was monitored by real-time PCR to avoid over-amplification and was typically terminated after 4-6 cycles.
단일 가닥 서열결정 라이브러리의 제조Preparation of Single Strand Sequence Library
어댑터 2는 4.5 ㎕ TE (pH 8), 0.5 ㎕ 1M NaCl, 10 ㎕의 500 μM 올리고 어댑터2.1 및 10 ㎕의 500 μM 올리고 어댑터2.2를 조합하고 95℃에서 10초 동안 인큐베이션하고 0.1℃/s의 속도로 14℃까지 온도를 낮추어 제조하였다. 정제된 cfDNA 단편은 2x CircLigase II 완충제 (에피센터 (Epicentre)), 5 mM MnCl2, 및 1U FastAP 알칼리성 포스파타제 (써모 피셔)를 20 ㎕ 반응 부피로 0.5-10 ng의 단편과 조합하고, 30분 동안 37℃에서 인큐베이션함으로써 탈인산화하였다. 이어서, 단편을 95℃에서 3분 동안 가열함으로써 변성시키고, 즉시 빙조로 옮겼다. 상기 반응물에 40 ㎕의 총 부피를 위해 비오틴-접합된 어댑터 올리고 CL78 (5 pmol), 20% PEG-6000 (w/v) 및 200U CircLigase Ⅱ (에피센터)를 보충하고, 60℃에서 회전시키면서 인큐베이션하고, 95℃로 3분 동안 가열한 후, 빙조에 넣었다. 각각의 샘플에 대해, 20 ㎕ MyOne C1 비드 (라이프 테크놀로지스)를 비드 결합 완충제 (BBB) (10 mM 트리스-HCl [pH 8], 1 M NaCl, 1 mM EDTA [pH 8], 0.05% Tween-20 및 0.5% SDS)로 2회 세척하고, 250 ㎕ BBB에 재현탁하였다. 어댑터-라이게이션된 단편을 실온에서 60분 동안 회전시켜 비드에 결합시켰다. 비드를 자성 선반 (magnetic rack)에 모으고, 상청액을 버렸다. 비드를 500 ㎕ 세척 완충제 A (WBA) (10 mM 트리스-HCl [pH 8], 1 mM EDTA [pH 8], 0.05% Tween-20, 100 mM NaCl, 0.5% SDS)로 1회, 500 ㎕ 세척 완충제 B (WBB) (10 mM 트리스-HCl [pH 8], 1 mM EDTA [pH 8], 0.05% Tween-20, 100 mM NaCl)로 1회 세척하였다. 비드를 50 ㎕의 반응 부피에서 1X 등온 증폭 완충제 (NEB), 2.5 μM 올리고 CL9, 250 μM (각각의) dNTP 및 24U Bst 2.0 DNA 폴리머라제 (NEB)와 조합하고, 조심스럽게 진탕하면서 온도를 1℃/분으로 15℃로부터 37℃로 상승시켜 완만하게 인큐베이션하고, 37℃에서 10분 동안 유지하였다. 자성 선반에 수집한 후, 비드를 200 ㎕ WBA로 1회 세척하고, 200 ㎕의 엄격한 세척 버퍼 (SWB) (0.1X SSC, 0.1% SDS)에 재현탁하고, 3분 동안 45℃에서 인큐베이션하였다. 비드를 다시 모아 200 ㎕ WBB로 1회 세척하였다. 이어서, 비드를 1X CutSmart 완충제 (NEB), 0.025% Tween-20, 100 μM (각각의) dNTP 및 5U T4 DNA 폴리머라제 (NEB)와 조합하고, 실온에서 30분 동안 조심스럽게 진탕하면서 인큐베이션하였다. 비드를 상기한 바와 같이 각각의 WBA, SWB 및 WBB로 1회 세척하였다. 이어서, 비드를 1X CutSmart 완충제 (NEB), 5% PEG-6000, 0.025% Tween-20, 2 μM 이중 가닥 어댑터 2 및 10U T4 DNA 리가제 (NEB)와 혼합하고, 실온에서 2시간 동안 조심스럽게 진탕하면서 인큐베이션하였다. 상기한 바와 같이 비드를 각각의 WBA, SWB 및 WBB로 1회 세척하고, 25 ㎕ TET 완충제 (10 mM 트리스-HCl [pH 8], 1 mM EDTA [pH 8], 0.05% Tween-20)에 재현탁하였다. 제2 가닥은 95℃로 가열하여 비드로부터 용리되었고, 자성 선반에 비드를 모으고, 상청액을 새 튜브로 옮겼다. 모든 샘플에 대한 라이브러리 증폭은 과다증폭을 방지하기 위해 실시간 PCR로 모니터링하였고, 라이브러리당 평균 4 내지 6 사이클을 필요로 하였다.
서열결정Sequencing
모든 라이브러리는 HiSeq 2000 또는 NextSeq 500 기기 (일루미나)에서 서열결정하였다.All libraries were sequenced on a
1차 서열결정 데이터 처리First-order sequencing data processing
바코드 처리된 쌍 형성 말단 (PE) 일루미나 서열결정 데이터를 분할하여 바코드 서열에서 하나의 치환을 허용하였다. 판독 길이가 같거나 더 짧은 판독은 컨센서스로 언급되고, 어댑터는 트리밍되었다. 남아있는 컨센서스 단일 말단 판독 (SR) 및 개별 PE 판독은 BWA v0.7.10에 실행된 ALN 알고리즘을 사용하여 인간 참조 게놈 서열 (ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/technical/reference/phase2_reference_assembly_sequence/로부터 다운로드되는 GRCh37, 1000 Genomes 2 단계 기술 참조)에 정렬되었다. PE 판독은 판독 쌍의 모호한 배치를 해결하거나 또는 하나의 배치된 판독 말단의 위치 주위에서 보다 민감한 정렬 단계에 의해 누락된 정렬을 구제하기 위해 BWA SAMPE로 추가로 처리되었다. 정렬된 SR 및 PE 데이터는 SAMtools API를 사용하여 분류된 BAM 형식으로 직접 전환되었다. 샘플의 BAM 파일은 레인 및 서열결정 실행에 걸쳐 병합되었다.Bar-coded pairing end (PE) illuminin sequencing data was split to allow for one substitution in the bar code sequence. Readings with the same or shorter read length are referred to as consensus, and the adapter has been trimmed. The remaining consensus single-ended reads (SR) and individual PE reads were generated using the human reference genome sequence (ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/technical) using the ALN algorithm run on BWA v0.7.10 see GRCh37, 1000 Genomes two-step technology, downloaded from / reference / phase2_reference_assembly_sequence /). PE readings were further processed with BWA SAMPE to resolve the ambiguity of the read pair or to remedy the missing alignment by a more sensitive alignment step around the position of one disposed read end. Aligned SR and PE data was converted directly into the BAM format, which was classified using the SAMtools API. The BAM file of the sample was merged over the lane and sequencing run.
품질 관리는 FastQC (v0.11.2)를 사용하여 수행하고, 라이브러리 복잡성 평가 (Picard tools v1.113)를 얻고, 어댑터 이량체의 비율, 추정된 라이브러리 삽입체 크기의 분석, 외부 판독 종료시의 뉴클레오티드 및 디뉴클레오티드 빈도를 결정할 뿐만 아니라, 각각의 라이브러리의 지도화 품질 분포를 조사하였다.Quality control was performed using FastQC (v0.11.2), and library complexity assessment (Picard tools v1.113) was obtained and the ratio of adapter dimer, analysis of estimated library insert size, nucleotides at the end of external readout and di In addition to determining the nucleotide frequency, the mapping quality distribution of each library was examined.
시뮬레이션된Simulated 판독 데이터세트 Read data set
정렬된 서열결정 데이터는 인간 참조 물질 (GRC37h)의 모든 주요 염색체에 대해 시뮬레이션하였다 (45 bp보다 짧으면 SR, 45 bp보다 짧지 않으면 PE). 이 목적을 위해, 디뉴클레오티드 빈도는 두 판독 말단 및 두 가닥 방향 모두에 대해 실제 데이터로부터 결정되었다. 디뉴클레오티드 빈도는 또한 두 가닥 모두에서 참조 게놈에 대해 기록되었다. 또한, 실제 데이터의 삽입체 크기 분포는 1-500 bp 범위에 대해 추출되었다. 판독은 주요 참조 염색체의 서열을 통해 반복하여 시뮬레이션되었다. 각각의 단계에서 (즉, 원하는 적용범위에 따라 각각의 위치에서 1회 이상), (1) 가닥을 무작위로 선택하고, (2) 개시 디뉴클레오티드가 고려되는지의 여부를 무작위로 결정하기 위해 참조 서열의 빈도에 대한 실제 데이터의 디뉴클레오티드 빈도의 비율을 사용하고, (3) 제공된 삽입체 크기 분포로부터 삽입체 크기가 샘플 조사되고, (4) 생성된 정렬이 보고되는지의 여부를 무작위로 결정하기 위해 말단 디뉴클레오티드의 빈도 비율이 사용된다. 시뮬레이션된 적용범위는 PCR 복제물 제거 후 원 데이터의 적용범위와 일치하였다.Aligned sequencing data was simulated for all major chromosomes of the human reference material (GRC37h) (SR if shorter than 45 bp, PE if not shorter than 45 bp). For this purpose, the frequency of the dinucleotides was determined from the actual data for both read ends and both strand orientations. The frequency of the dinucleotides was also recorded for the reference genome in both strands. In addition, the insert size distribution of the actual data was extracted for the 1-500 bp range. The reading was repeatedly simulated through the sequence of the major reference chromosomes. (1) randomly selecting the strands, and (2) selecting the reference sequence (s) at random to determine whether the initiation dinucleotide is taken into account (3) the insert size is sampled from the provided insert size distribution, and (4) the random number is used to determine whether the generated alignment is reported The frequency ratio of the terminal dinucleotide is used. The simulated coverage was consistent with the coverage of the original data after removal of the PCR replica.
적용범위, 판독 개시 및 윈도우 보호 스코어 Coverage , Read Initiation, and Windows Protection Score
본 개시내용의 데이터는 서열결정 라이브러리 제조에 사용되는 DNA 분자의 2개의 물리적 말단에 대한 정보를 제공한다. 본 발명자들은 SAMtools 어플리케이션 프로그래밍 인터페이스 (API)를 사용하여 BAM 파일로부터 상기 정보를 추출한다. 판독이 시작될 때, 본 발명자들은 두 판독이 동일한 염색체에 정렬되고 판독이 반대 방향을 갖는 PE 데이터의 외부 정렬 좌표를 이용한다. PE 데이터가 어댑터 트리밍을 통해 단일 판독 데이터로 전환된 경우, 본 발명자들은 SR 정렬의 양 말단 좌표를 판독 개부로 간주한다. 적용범위를 위해, 본 발명자들은 이들 말단 위치를 포함하여 2개의 (추정된) 분자 말단 사이의 모든 위치를 고려한다. 본 발명자들은 윈도우 크기 k의 윈도우 보호 스코어 (WPS)를 윈도우에 걸친 분자 수로부터 윈도우에 포함된 임의의 염기에서 시작하는 분자 수를 차감한 값으로 규정한다. 본 발명자들은 결정된 WPS를 윈도우 중앙에 지정한다. 35-80 bp 범위 (짧은 분획)의 분자의 경우, 본 발명자들은 16의 윈도우 크기를 사용하고, 120-180 bp (긴 분획)의 분자의 경우 본 발명자들은 120의 윈도우 크기를 사용한다.The data in this disclosure provides information on the two physical ends of the DNA molecule used to prepare the sequencing library. We use the SAMtools application programming interface (API) to extract the information from the BAM file. When the reading is started, the present inventors use the externally aligned coordinates of the PE data in which the two readings are aligned on the same chromosome and the reading has the opposite direction. When the PE data is converted to single read data through adapter trimming, we regard both end coordinates of the SR alignment as read out portions. For coverage purposes, the present inventors consider all positions between two (deduced) molecular ends, including these terminal positions. We define the window protection score (WPS) of the window size k as the value obtained by subtracting the number of molecules starting from any base included in the window from the number of molecules across the window. The present inventors assign the determined WPS to the center of the window. For molecules in the 35-80 bp range (short fractions), we use a window size of 16 and for molecules of 120-180 bp (long fractions) we use a window size of 120.
뉴클레오솜Nucleosomes 피크 peak 콜링Calling
뉴클레오솜 보호의 국부 최대치는 본 발명자들이 0의 실행 중간값 (1 kb 윈도우)으로 국부 조정하고 사비츠키-골레이 (Savitzky-Golay) 필터 (윈도우 크기 21, 2차 다항식)를 사용하여 평탄하게 한 긴 분획 WPS로부터 콜링된다. 이어서, WPS 트랙을 0 위의 영역으로 세분화한다 (5개까지의 연속적인 위치를 0 아래에 허용함). 생성되는 영역이 50-150 bp 길이인 경우, 본 발명자들은 해당 영역의 중간값을 확인하고, 중간값 초과의 최대 합계의 연속 윈도우를 검색한다. 본 발명자들은 이 윈도우의 시작, 끝 및 중앙 좌표를 보고한다. 피크 대 피크 거리 등은 중앙 좌표로부터 계산된다. 콜의 스코어는 윈도우의 최대값과 그 영역에 이웃하는 2개의 인접 WPS 최소값의 평균 사이의 거리로서 결정된다. 확인된 지역이 150-450 bp 길이이면, 본 발명자들은 동일한 중간값 초과의 연속 접근 방식을 적용하지만, 크기가 50-150 bp인 윈도우만 보고한다. 150-450 bp 영역으로부터 유래된 여러 윈도우의 스코어 계산을 위해, 본 발명자들은 영역 내의 이웃하는 최소값을 0으로 가정한다. 본 발명자들은 50 bp보다 짧고 450 bp보다 긴 영역을 폐기한다.The local maxima of the nucleosome protection are determined by the present inventors using a Savitzky-Golay filter (
167 bp 단편의 디뉴클레오티드 조성The dinucleotide composition of the 167 bp fragment
단편 크기 분포의 우세한 피크에 대응하는, 정확히 167 bp의 추정 길이를 갖는 단편을 샘플 내에서 여과하여 복제물을 제거하였다. 디뉴클레오티드 빈도는 하나의 단편 종점의 50 bp 상류에서 시작하여 다른 종점의 50 bp 하류에서 끝나는, 각각의 위치에서 슬라이딩 (sliding) 2 bp 윈도우 및 참조 대립유전자를 사용하여 가닥 인식 (strand-aware) 방식으로 계산되었다. 각각의 위치에서 관찰된 디뉴클레오티드 빈도를 라이브러리 특이적 방식으로 계산된 동일한 절단 편향을 반영하는 시뮬레이션된 판독 세트로부터 결정된 예상된 디뉴클레오티드 빈도와 비교하였다 (상세한 내용은 상기 참조).Fragments with an estimated length of exactly 167 bp, corresponding to the dominant peak of the fragment size distribution, were filtered in the sample to remove duplicates. The frequency of the dinucleotides is determined in a strand-aware manner using a sliding 2 bp window and a reference allele at each position, starting at 50 bp upstream of one fragment end and ending 50 bp downstream of the other end point Respectively. The observed frequency of dinucleotides at each position was compared to the expected frequency of dinucleotides determined from the simulated read set reflecting the same cut bias calculated in a library-specific manner (see above for details).
전사 인자 결합 부위를 둘러싼 Surrounding the transcription factor binding site WPSWPS 프로파일 및 게놈 특징 Profiles and Genome Features
분석은 컴퓨터에 의해 예측된 전사 인자 결합 부위의 세트를 정의하는 클러스터링된 FIMO (모티프-기반) 간격의 초기 세트로 시작하였다. 클러스터링된 전사 인자의 하위세트 (AP-2-2, AP-2, CTCF_Core-2, E2F-2, EBF1, Ebox-CACCTG, Ebox, ESR1, ETS, IRF-2, IRF-3, IRF, MAFK, MEF2A-2, MEF2A, MYC-MAX, PAX5-2, RUNX2, RUNX-AML, STAF-2, TCF-LEF, YY1)에 대해, 부위의 세트는 실험 데이터를 기초로 하여 활발하게 결합된 전사 인자 결합 부위의 보다 확실한 세트로 정제하였다. 이를 위해, 공개적으로 이용 가능한 ENCODE 데이터 (UCSC로부터 다운로드된 TfbsClusteredV3 세트)로부터 ChIP-seq 실험에 의해 정의된 피크와 겹치는 예측된 결합 부위만 유지되었다.The analysis started with an initial set of clustered FIMO (motif-based) intervals that defined the set of predicted transcription factor binding sites by the computer. A subset of clustered transcription factors (AP-2-2, AP-2, CTCF_Core-2, E2F-2, EBF1, Ebox-CACCTG, Ebox, ESR1, ETS, IRF-2, IRF- For the MEF2A-2, MEF2A, MYC-MAX, PAX5-2, RUNX2, RUNX-AML, STAF-2, TCF-LEF, YY1, the set of sites was actively linked Lt; RTI ID = 0.0 > region. ≪ / RTI > To this end, only the predicted binding sites overlapping the peaks defined by the ChIP-seq experiment from publicly available ENCODE data (TfbsClusteredV3 set downloaded from UCSC) were retained.
이들 부위를 둘러싸는 윈도우 보호 스코어는 CH01 샘플 및 대응하는 시뮬레이션 둘 모두에 대해 추출되었다. 각각의 부위/특징에 대한 보호 스코어는 각각의 결합 부위의 시작 좌표와 비교하여 각각의 위치에서 계산되고, 집계되었다. CTCF 결합 부위의 플롯은 x-축 상의 0 좌표가 CTCF의 알려진 52 bp 결합 풋프린트의 중앙에 위치하도록 이동하였다. 이어서, 5 kb의 추출된 WPS 신호의 첫 번째 및 마지막 500 bp (우세하게 편평하고 평균 오프셋을 나타냄)의 평균을 원래 신호로부터 차감한다. 긴 단편 신호에 대해서만, 200 bp 윈도우를 사용하여 슬라이딩 윈도우 평균을 계산하고, 원래 신호로부터 차감하였다. 마지막으로, 시뮬레이션을 위한 수정된 WPS 프로파일을 CH01에 대한 수정된 WPS 프로파일로부터 빼내어, 단편 길이 및 라이게이션 편향의 결과인 신호를 수정하였다. 이 최종 프로파일을 플로팅하고, "조정된 WPS"로 칭하였다.The window protection scores surrounding these sites were extracted for both the CH01 sample and the corresponding simulations. The protection score for each site / feature was calculated and aggregated at each location relative to the starting coordinates of each site. The plot of the CTCF binding site shifted so that the 0 coordinate on the x-axis was located at the center of the known 52 bp binding footprint of the CTCF. The average of the first and last 500 bp (representing predominantly flat and average offset) of the 5 kb extracted WPS signal is then subtracted from the original signal. For long fragment signals only, a sliding window average was calculated using a 200 bp window and subtracted from the original signal. Finally, the modified WPS profile for simulation was subtracted from the modified WPS profile for CH01 to modify the signal resulting from fragment length and ligation bias. This final profile was plotted and referred to as "adjusted WPS ".
전사 개시 부위, 전사 종결 부위, 개시 코돈, 스플라이스 공여자 및 스플라이스 수용자 부위와 같은 게놈 특징은 Ensembl Build 버전 75로부터 입수하였다. 이러한 특징을 둘러싼 조정된 WPS를 계산하고, 상기한 바와 같이 전사 인자 결합 부위에 대해 플로팅하였다.Genome characteristics such as transcription initiation site, transcription termination site, initiation codon, splice donor and splice acceptor site were obtained from
CTCFCTCF 결합 부위 주위의 Around the junction 뉴클레오솜Nucleosomes 간격 및 대응하는 Interval and corresponding WPS의WPS 분석 analysis
이 분석에 사용된 CTCF 부위는 먼저 CTCF 결합 부위의 클러스터링된 FIMO 예측 (모티프를 통해 컴퓨터에 의해 예측됨)을 포함하였다. 본 발명자들은 이어서 다음과 같은 상기 세트의 2개의 추가의 하위세트를 생성하였다: 1) ENCODE TfbsClusteredV3 (상기 참조)를 통해 이용가능한 CTCF ChIP-seq 피크 세트와의 교차, 및 2) 19개의 조직에 걸쳐 활성을 갖는 것으로 실험적으로 관찰된 CTCF 부위의 세트와의 교차.The CTCF sites used in this analysis first included clustered FIMO predictions (predicted by the computer via motifs) of CTCF binding sites. We then created two additional subsets of the set as follows: 1) the intersection with the CTCF ChIP-seq peak set available via ENCODE TfbsClusteredV3 (see above), and 2) Crossing with a set of CTCF sites experimentally observed to have activity.
결합 부위의 어느 한쪽에 있는 10개의 뉴클레오솜의 위치를 각각의 부위에 대해 추출하였다. 본 발명자들은 각각의 부위 세트에 대해 뉴클레오솜간 거리 분포를 얻기 위해 모든 인접 뉴클레오솜 사이의 거리를 계산하였다. -1 내지 +1의 뉴클레오솜 간격의 분포는 상당히 변하여, 특히 230-270 bp 범위에서 더 큰 간격으로 이동하였다. 이것은 실제 활성을 보이는 CTCF 부위가 주로 -1과 +1 뉴클레오솜 사이의 더 넓은 간격으로 이동하고, 따라서 길고 짧은 판독 분획 둘 모두에 대한 WPS의 차이가 명백할 수 있음을 시사한다. 따라서, CTCF 부위의 중심에 대한 각각의 위치에서의 짧은 및 긴 단편의 평균 WPS를 추가로 계산하였다. 뉴클레오솜 간격의 효과를 조사하기 위해, 상기 평균은 160 bp 미만, 160-200, 200-230, 230-270, 270-420, 420-460 bp 및 420 bp 초과의 -1 내지 +1 뉴클레오솜 간격의 빈 내에서 취하였다. 이들 간격은 보다 확실하게 활성을 보이는 부위에 대해 지배적인 피크 및 230-270 bp에서 나타나는 피크와 같이 관심 간격을 포착한다.The positions of the ten nucleosomes on either side of the binding site were extracted for each site. We calculated the distance between all adjacent nucleosomes to obtain a nucleosomal distance distribution for each set of sites. The distribution of the nucleosome interval from -1 to +1 varied considerably, especially at larger intervals in the 230-270 bp range. This suggests that the CTCF region that exhibits the actual activity migrates mainly at wider intervals between the -1 and +1 nucleosomes, and therefore the difference in WPS for both the longer and shorter reading fractions may be evident. Thus, the average WPS of the short and long fragments at each location relative to the center of the CTCF region was further calculated. To investigate the effect of the nucleosome interval, the average was found to be less than 160 bp, 160-200, 200-230, 230-270, 270-420, 420-460 bp, and -1 to +1 nucleobases Were taken within the empty space of the cotton pad. These intervals capture the interval of interest, such as the dominant peak for the region that appears more active and the peak at 230-270 bp.
DNaseDNase I 과민성 부위 ( I irritable region ( DHSDHS )의 분석) Analysis
모라노 (Maurano) 등 (Science, vol. 337(6099), pp. 1190-95 (2012); 2012년 2 월 13일에 마지막으로 수정된 "all_fdr0.05_hot" 파일)에 의한 BED 포맷의 349개의 1차 조직 및 세포주 샘플에 대한 DHS 피크는 유니버시티 오브 워싱턴 (University of Washington) Encode 데이터베이스에서 다운로드하였다. 이들 피크 세트 중 233개를 포함하는 태아 조직으로부터 유래된 샘플은 아마도 각각의 조직 샘플 내에 복수개의 세포 유형이 불균등하게 제시되기 때문에, 이들이 조직 유형 내에서 일관성 없이 행동할 때 분석으로부터 제거되었다. 다양한 세포 계통을 나타내는 116개의 샘플을 분석을 위해 보관하였다. 특정 세트의 각각의 DHS 피크의 중간 지점에 대해, CH01 콜세트 (callset)의 가장 가까운 상류 및 하류 콜을 확인하고, 두 콜의 중심 사이의 게놈 거리를 계산하였다. 모든 상기 거리의 분포는 0 내지 500 bp의 거리에 대해 계산된 평탄한 밀도 (smoothed density) 추정을 사용하여 각각의 DHS 피크 콜세트에 대해 가시화되었다.349 of the BED format by Maurano et al. (Science, vol. 337 (6099), pp. 1190-95 (2012) and lastly modified "all_fdr0.05_hot" file on February 13, 2012) DHS peaks for primary tissue and cell line samples were downloaded from the University of Washington Encode database. Samples derived from fetal tissues, including 233 of these peak sets, were removed from the assay when they behaved inconsistently within the tissue type, possibly because multiple cell types were presented unevenly within each tissue sample. 116 samples representing various cell lines were stored for analysis. For the midpoint of each DHS peak in a particular set, the nearest upstream and downstream calls of the CH01 callset were identified and the genome distance between the centers of the two calls was calculated. The distribution of all of these distances was visualized for each DHS peak call set using a smoothed density estimate computed over a distance of 0-500 bp.
유전자 발현 분석Gene expression analysis
본 연구에서는 휴먼 프로테인 아틀라스 ("ma.csv" 파일)에 의해 44개의 인간 세포주 및 32개의 1차 조직에서 20,344개의 Ensembl 유전자 식별자에 대해 측정된 FPKM 발현 값을 사용하였다. 조직에 걸친 분석을 위해, 3 미만의 비-제로 발현 값을 갖는 유전자는 배제되었다 (19,378개의 유전자가 이 필터를 통과함). 발현 데이터세트에는 FPKM 값에 대해 소수점 아래 첫째 자리 정밀도가 제시되었다. 따라서, 0 표현 값 (0.0)은 0과 0.05 미만의 값 사이의 표현을 나타낸다. 특별히 언급하지 않는 한, 최소 표현 값은 표현 값의 log2-전환 전에 0.04 FPKM으로 설정되었다.In this study, FPKM expression values measured for 20,344 Ensembl gene identifiers in 44 human cell lines and 32 primary tissues were used by human protein atlas ("ma.csv" file). For analysis across tissues, genes with a non-zero expression value of less than 3 were excluded (19,378 genes pass through this filter). For the expression data set, the precision of the first digit below the decimal point was given for the FPKM value. Thus, the zero representation value (0.0) represents a representation between 0 and a value less than 0.05. Unless otherwise noted, the minimum expression value was set to 0.04 FPKM before the log 2 - conversion of the expression value.
평탄한 주기도 및 궤적의 평탄화Planarity of planarity and trajectory
긴 분획 WPS는 1/500 염기 내지 1/100 염기 사이의 빈도로 고속 푸리에 변환 (FFT, R 통계적 프로그래밍 환경에서의 spec.pgram)을 사용하여 게놈 영역의 주기도를 계산하기 위해 사용되었다. 데이터를 평탄화하고 (3 bp 다니엘 평탄화제, 최종값에 1/2의 가중치를 주는 이동 평균) 추세를 제거 (예를 들어, 계열의 평균을 빼고 선형 경향을 제거)하는 파라미터가 임의적으로 추가로 사용된다.The long fraction WPS was used to calculate the periodicity of the genomic region using fast Fourier transform (spec.pgram in FFT, R statistical programming environment) with a frequency between 1/500 and 1/100 base. Parameters to flatten the data (moving average, 3 bp Daniel flattening agent, weighting the final value) (for example, subtracting the mean of the series and eliminating the linear tendency) may optionally be used do.
표시된 경우, R 통계적 프로그래밍 환경에서 실행된 재귀적 시계열 필터를 사용하여 궤적으로부터 고빈도 변동을 제거하였다. 24개의 필터 빈도 (1/seq(5,100,4))가 사용되었고, 초기 값으로서 궤적의 처음 24개의 값이 사용되었다. 생성되는 궤적의 24-값 이동에 대한 조정은 궤적의 마지막 24개의 값을 반복함으로써 이루어졌다.If indicated, recursive time-series filters run in the R statistical programming environment were used to remove high frequency fluctuations from the trajectory. Twenty-four filter frequencies (1 / seq (5,100,4)) were used and the first 24 values of the trajectory were used as initial values. The adjustment to the 24-value movement of the generated trajectory was made by repeating the last 24 values of the trajectory.
FFTFFT 강도와 발현 값의 상관관계 Correlation between Strength and Expression Value
120-280 bp 범위에 대한 유전자 발현과 관련하여 평탄한 주기도 (FFT)로부터 결정된 강도 값을 분석하였다. 유전자 발현 값과 주요 뉴클레오솜간 거리 피크 주위의 FFT 강도 사이의 S-형 피어슨 (S-shaped Pearson) 상관관계가 관찰되었다. 193-199 bp 범위에서 명백한 음의 상관관계가 관찰되었다. 그 결과, 평균한 상기 빈도 범위에서의 강도는 log2-전환된 발현 값과 상관관계를 보였다.The intensity values determined from flat periodic curves (FFT) were analyzed in relation to gene expression for the 120-280 bp range. S-shaped Pearson correlation between the gene expression value and the FFT intensity around the major nucleosome distance peak was observed. A clear negative correlation was observed in the 193-199 bp range. As a result, the average intensity in the above frequency range was correlated with the log 2 -transformed expression value.
추가의 실시예Further embodiments
실시예 7. 대상체로부터의 생물학적 샘플로부터 무세포 DNA (cfDNA)를 단리하고, 단리된 cfDNA는 복수개의 cfDNA 단편을 포함하는 것인 단계; Example 7. Isolation of cell-free DNA (cfDNA) from a biological sample from a subject, wherein the isolated cfDNA comprises a plurality of cfDNA fragments;
복수개의 cfDNA 단편의 적어도 일부분과 연관된 서열을 결정하는 단계; Determining a sequence associated with at least a portion of a plurality of cfDNA fragments;
cfDNA 단편 서열의 함수로서 복수개의 cfDNA 단편의 적어도 일부의 cfDNA 단편 종점에 대한 참조 게놈 내의 게놈 위치를 결정하는 단계; 및 determining the genomic location in the reference genome for at least a portion of the cfDNA fragment endpoints of the plurality of cfDNA fragments as a function of the cfDNA fragment sequence; And
cfDNA 단편 종점의 적어도 일부의 게놈 위치의 함수로서 cfDNA 단편을 생성하는 조직 및/또는 세포 유형의 적어도 일부를 결정하는 단계determining at least a portion of the tissue and / or cell type that produces the cfDNA fragment as a function of the genomic location of at least a portion of the cfDNA fragment endpoint
를 포함하는, 대상체에서 cfDNA를 생성하는 조직 및/또는 세포 유형을 결정하는 방법.Gt; and / or < / RTI > the cell type that produces the cfDNA in the subject.
실시예 8. 실시예 7에 있어서, cfDNA 단편을 생성하는 조직 및/또는 세포 유형의 적어도 일부를 결정하는 단계가 cfDNA 단편 종점의 적어도 일부의 게놈 위치를 하나 이상의 참조 지도와 비교하는 것을 포함하는 것인 방법.Example 8. The method of
실시예 9. 실시예 7 또는 실시예 8에 있어서, cfDNA 단편을 생성하는 조직 및/또는 세포 유형의 적어도 일부를 결정하는 단계가 cfDNA 단편 종점의 적어도 일부의 게놈 위치의 분포에 대해 수학적 변환을 수행하는 것을 포함하는 것인 방법.Example 9. In Example 7 or Example 8, the step of determining at least a portion of the tissue and / or cell type that produces the cfDNA fragment comprises performing a mathematical transformation on the distribution of the genomic location of at least a portion of the cfDNA fragment endpoint ≪ / RTI >
실시예 10. 실시예 9에 있어서, 수학적 변환이 푸리에 변환을 포함하는 것인 방법.[0051] 10. The method of
실시예 11. 실시예 7 내지 실시예 10 중 어느 한 실시예에 있어서, 참조 게놈의 적어도 일부 좌표 각각에 대한 스코어를 결정하는 단계를 추가로 포함하고, 여기서 스코어는 적어도 복수개의 cfDNA 단편 종점 및 그의 게놈 위치의 함수로서 결정되고, 관찰된 cfDNA 단편을 생성하는 조직 및/또는 세포 유형의 적어도 일부를 결정하는 단계는 스코어를 하나 이상의 참조 지도와 비교하는 단계를 포함하는 것인 방법.11. The method of any one of embodiments 7-10, further comprising the step of determining a score for each of at least some of the coordinates of the reference genome, wherein the score comprises at least a plurality of cfDNA fragment endpoints, Wherein the step of determining at least a portion of the tissue and / or cell type that produces the observed cfDNA fragment and is determined as a function of genome location comprises comparing the score with one or more reference maps.
실시예 12. 실시예 11에 있어서, 좌표에 대한 스코어가, 그 좌표가 cfDNA 단편 종점의 위치일 확률을 나타내거나 또는 그와 관련되는 것인 방법.12. The method of
실시예 13. 실시예 8 내지 실시예 12 중 어느 한 실시예에 있어서, 참조 지도가 적어도 하나의 세포 유형 또는 조직으로부터 생성된 DNase I 과민성 부위 데이터세트를 포함하는 것인 방법.13. The method of any one of embodiments 8-12, wherein the reference map comprises a DNase I hypersensitive site data set generated from at least one cell type or tissue.
실시예 14. 실시예 8 내지 실시예 13 중 어느 한 실시예에 있어서, 참조 지도가 적어도 하나의 세포 유형 또는 조직으로부터 생성된 RNA 발현 데이터세트를 포함하는 것인 방법.
실시예 15. 실시예 8 내지 실시예 14 중 어느 한 실시예에 있어서, 참조 지도가 인간 조직 또는 세포가 이종이식된 동물로부터의 cfDNA로부터 작성된 것인 방법.Example 15. The method of any one of embodiments 8-14 wherein the reference map is generated from cfDNA from an animal xenograft or cell xenografted.
실시예 16. 실시예 8 내지 실시예 15 중 어느 한 실시예에 있어서, 참조 지도가 적어도 하나의 세포 유형 또는 조직으로부터 작성된 염색체 입체형태 지도를 포함하는 것인 방법.[0063] 16. The method as in any one of embodiments 8-15, wherein the reference map comprises a chromosome stereochemistry map generated from at least one cell type or tissue.
실시예 17. 실시예 8 내지 실시예 16 중 어느 한 실시예에 있어서, 참조 지도가 적어도 하나의 세포 유형 또는 조직으로부터 작성된 염색질 접근가능성 지도를 포함하는 것인 방법.[0061] 17. The method as in any one of embodiments 8-16, wherein the reference map comprises a chromatin accessibility map generated from at least one cell type or tissue.
실시예 18. 실시예 8 내지 실시예 17 중 어느 한 실시예에 있어서, 참조 지도가 적어도 하나의 참조 대상체로부터 수득된 샘플로부터 수득된 서열 데이터를 포함하는 것인 방법.18. The method as in any one of embodiments 8-17, wherein the reference map comprises sequence data obtained from a sample obtained from at least one reference object.
실시예 19. 실시예 8 내지 실시예 18 중 어느 한 실시예에 있어서, 참조 지도가 질환 또는 장애와 연관된 적어도 하나의 세포 유형 또는 조직에 대응하는 것인 방법.
실시예 20. 실시예 8 내지 실시예 19 중 어느 한 실시예에 있어서, 참조 지도가 조직 또는 세포 유형 내의 뉴클레오솜 및/또는 크로마토솜의 위치 또는 간격을 포함하는 것인 방법.
실시예 21. 실시예 8 내지 실시예 20 중 어느 한 실시예에 있어서, 참조 지도가 적어도 하나의 세포 유형 또는 조직으로부터 수득된 염색질을 외인성 뉴클레아제 (예를 들어, 미크로코쿠스 뉴클레아제)로 소화시켜 작성되는 것인 방법.21. The method of any one of
실시예 22. 실시예 8 내지 실시예 21 중 어느 한 실시예에 있어서, 참조 지도가 적어도 하나의 세포 유형 또는 조직으로부터의 전위 기반 방법 (예를 들어, ATAC-seq)에 의해 결정된 염색질 접근가능성 데이터를 포함하는 것인 방법.
실시예 23. 실시예 8 내지 실시예 22 중 어느 한 실시예에 있어서, 참조 지도가 조직 또는 세포 유형에 대한 DNA 결합 및/또는 DNA 점유 단백질의 위치와 연관된 데이터를 포함하는 것인 방법.[0064] 23. The method of any one of embodiments 8-22, wherein the reference map comprises data associated with DNA binding and / or location of a DNA occupancy protein for tissue or cell type.
실시예 24. 실시예 23에 있어서, DNA 결합 및/또는 DNA 점유 단백질이 전사 인자인 방법.24. The method of embodiment 23 wherein the DNA binding and / or DNA occupancy protein is a transcription factor.
실시예 25. 실시예 23 또는 실시예 24에 있어서, 위치가 가교된 DNA-단백질 복합체의 염색질 면역침전에 의해 결정되는 것인 방법.Example 25. The method of embodiment 23 or 24 wherein the position is determined by chromatin immunoprecipitation of the cross-linked DNA-protein complex.
실시예 26. 실시예 23 또는 실시예 24에 있어서, 위치가 조직 또는 세포 유형과 연관된 DNA를 뉴클레아제 (예를 들어, DNase-I)로 처리하여 결정되는 것인 방법.Example 26. The method of embodiment 23 or 24 wherein the location is determined by treating the DNA associated with the tissue or cell type with a nuclease (e.g., DNase-I).
실시예 27. 실시예 8 내지 실시예 26 중 어느 한 실시예에 있어서, 참조 지도가 뉴클레오솜, 크로마토솜, 또는 조직 또는 세포 유형 내의 다른 DNA 결합 또는 DNA 점유 단백질의 위치 또는 간격과 관련된 생물학적 특징을 포함하는 것인 방법.Example 27. The method of any one of embodiments 8-26, wherein the reference map is a biological characteristic associated with the location or spacing of the nucleosome, chromatogram, or other DNA binding or DNA occupancy proteins in a tissue or cell type ≪ / RTI >
실시예 28. 실시예 27에 있어서, 생물학적 특징이 하나 이상의 유전자의 정량적 발현인 방법.Example 28. The method of embodiment 27 wherein the biological characteristic is quantitative expression of one or more genes.
실시예 29. 실시예 27 또는 실시예 28에 있어서, 생물학적 특징이 하나 이상의 히스톤 마크의 존재 또는 부재인 방법.Example 29. The method of embodiment 27 or 28 wherein the biological characteristic is the presence or absence of one or more histone marks.
실시예 30. 실시예 27 내지 실시예 29 중 어느 한 실시예에 있어서, 생물학적 특징이 뉴클레아제 절단에 대해 과민성인 방법.Example 30. The method of any one of embodiments 27-29 wherein the biological feature is hypersensitive to nuclease excision.
실시예 31. 실시예 8 내지 실시예 30 중 어느 한 실시예에 있어서, 참조 지도를 작성하기 위해 사용된 조직 또는 세포 유형이 질환 또는 장애를 갖는 대상체로부터의 1차 조직인 방법.
실시예 32. 실시예 31에 있어서, 질환 또는 장애가 암, 정상 임신, 임신 합병증 (예를 들어, 이수성 임신), 심근경색, 염증성 장 질환, 전신성 자가면역 질환, 국부 자가면역 질환, 거부 반응을 수반하는 동종이식, 거부 반응을 수반하지 않는 동종이식, 졸중, 및 국부 조직 손상으로 이루어진 군으로부터 선택되는 것인 방법.Example 32. The method of
실시예 33. 실시예 8 내지 실시예 30 중 어느 한 실시예에 있어서, 참조 지도를 작성하기 위해 사용된 조직 또는 세포 유형이 건강한 대상체로부터의 1차 조직인 방법.[0060] Embodiment 33. The method as in any of the embodiments 8-30, wherein the tissue or cell type used to create the reference map is a primary tissue from a healthy subject.
실시예 34. 실시예 8 내지 실시예 30 중 어느 한 실시예에 있어서, 참조 지도를 작성하기 위해 사용된 조직 또는 세포 유형이 불멸화된 세포주인 방법.[0215] Embodiment 34. The method as in any of the embodiments 8-30, wherein the tissue or cell type used to create the reference map is an immortalized cell line.
실시예 35. 실시예 8 내지 실시예 30 중 어느 한 실시예에 있어서, 참조 지도를 작성하기 위해 사용된 조직 또는 세포 유형이 종양으로부터의 생검인 방법.[0080] Embodiment 35. The method as in any of the embodiments 8-30, wherein the tissue or cell type used to create the reference map is a biopsy from the tumor.
실시예 36. 실시예 18에 있어서, 서열 데이터가 cfDNA 단편 종점의 위치를 포함하는 것인 방법.Example 36. The method of
실시예 37. 실시예 36에 있어서, 참조 대상체가 건강한 대상체인 방법.Embodiment 37. The method of embodiment 36 wherein the reference object is a healthy subject.
실시예 38. 실시예 36에 있어서, 참조 대상체가 질환 또는 장애를 갖는 것인 방법.[0215] Embodiment 38. The method of embodiment 36, wherein the reference entity has a disease or disorder.
실시예 39. 실시예 38에 있어서, 질환 또는 장애가 암, 정상 임신, 임신 합병증 (예를 들어, 이수성 임신), 심근경색, 염증성 장 질환, 전신성 자가면역 질환, 국부 자가면역 질환, 거부 반응을 수반하는 동종이식, 거부 반응을 수반하지 않는 동종이식, 졸중, 및 국부 조직 손상으로 이루어진 군으로부터 선택되는 것인 방법.Example 39. The method of embodiment 38 wherein the disease or disorder is associated with cancer, normal pregnancy, complication of pregnancy (e. G., Ischemic pregnancy), myocardial infarction, inflammatory bowel disease, systemic autoimmune disease, local autoimmune disease, Allogeneic transplantation, allografts without rejection, stroke, and local tissue injury.
실시예 40. 실시예 19 내지 실시예 39 중 어느 한 실시예에 있어서, 참조 지도가 조직 또는 세포 유형과 연관된 참조 게놈의 좌표의 적어도 일부분에 대한 참조 스코어를 포함하는 것인 방법.[0080]
실시예 41. 실시예 40에 있어서, 참조 지도가 스코어의 수학적 변환을 포함하는 것인 방법.[0099] Embodiment 41. The method of
실시예 42. 실시예 40에 있어서, 스코어가 조직 또는 세포 유형에 대한 모든 참조 게놈 좌표의 하위세트를 나타내는 것인 방법.Example 42. The method of
실시예 43. 실시예 42에 있어서, 하위세트가 뉴클레오솜 및/또는 크로마토솜의 위치 또는 간격과 연관되는 것인 방법.Example 43. The method of embodiment 42, wherein the subset is associated with the position or spacing of the nucleosome and / or chromatome.
실시예 44. 실시예 42 또는 실시예 43에 있어서, 하위세트가 전사 개시 부위 및/또는 전사 종결 부위와 연관되는 것인 방법.Example 44. The method of embodiment 42 or 43 wherein the subset is associated with a transcription initiation site and / or a transcription termination site.
실시예 45. 실시예 42 내지 실시예 44 중 어느 한 실시예에 있어서, 하위세트가 적어도 하나의 전사 인자의 결합 부위와 연관되는 것인 방법.[0323] Embodiment 45. The method as in any of the embodiments 42-44, wherein the subset is associated with a binding site of at least one transcription factor.
실시예 46. 실시예 42 내지 실시예 45 중 어느 한 실시예에 있어서, 하위세트가 뉴클레아제 과민성 부위와 연관되는 것인 방법.[0215] Embodiment 46. The method as in any of the embodiments 42-45, wherein the subset is associated with a nuclease hypersensitive region.
실시예 47. 실시예 40 내지 실시예 46 중 어느 한 실시예에 있어서, 하위세트가 적어도 하나의 직교 생물학적 특징과 추가로 연관되는 것인 방법.[0099] Embodiment 47. The method as in any of the embodiments 40-46, wherein the subset is further associated with at least one orthogonal biological feature.
실시예 48. 실시예 47에 있어서, 직교 생물학적 특징이 고발현 유전자와 연관되는 것인 방법.Example 48. The method of embodiment 47, wherein orthogonal biological features are associated with a highly expressed gene.
실시예 49. 실시예 47에 있어서, 직교 생물학적 특징이 저발현 유전자와 연관되는 것인 방법.[0451] Embodiment 49. The method of embodiment 47, wherein orthogonal biological features are associated with a low expression gene.
실시예 50. 실시예 41 내지 실시예 49 중 어느 한 실시예에 있어서, 수학적 변환이 푸리에 변환을 포함하는 것인 방법.[0086] 50. The method as in any of the embodiments 41-49, wherein the mathematical transform includes a Fourier transform.
실시예 51. 실시예 11 내지 실시예 50 중 어느 한 실시예에 있어서, 적어도 복수개의 스코어의 하위세트가 역치 값 초과의 스코어를 갖는 것인 방법.[0099] Embodiment 51. The method as in any of the embodiments 11-5, wherein a subset of at least a plurality of scores has a score above a threshold value.
실시예 52. 실시예 7 내지 실시예 51 중 어느 한 실시예에 있어서, cfDNA 단편 종점의 적어도 일부의 복수개의 게놈 위치의 함수로서 cfDNA를 생성하는 조직 및/또는 세포 유형을 결정하는 단계가 cfDNA 단편 종점의 적어도 일부의 복수개의 게놈 위치의 푸리에 변환 또는 그의 수학적 변환을 참조 지도와 비교하는 것을 포함하는 것인 방법.Example 52. The method of any one of embodiments 7-51, wherein determining the tissue and / or cell type that produces cfDNA as a function of a plurality of genomic locations of at least a portion of the cfDNA fragment endpoint comprises contacting the cfDNA fragment And comparing the Fourier transform of a plurality of genomic locations of at least a portion of the endpoints or a mathematical transformation thereof with a reference map.
실시예 53. 실시예 7 내지 실시예 52 중 어느 한 실시예에 있어서, 단리된 cfDNA를 생성하는 결정된 조직 및/또는 세포 유형의 목록을 포함하는 보고서를 작성하는 단계를 추가로 포함하는 방법.[0215] Example 53. The method of any one of embodiments 7-32, further comprising generating a report comprising a list of determined tissues and / or cell types that produce isolated cfDNA.
실시예 54. 대상체로부터의 생물학적 샘플로부터 무세포 DNA (cfDNA)를 단리하고, 단리된 cfDNA는 복수개의 cfDNA 단편을 포함하는 것인 단계; Example 54. Isolation of cell-free DNA (cfDNA) from a biological sample from a subject, wherein the isolated cfDNA comprises a plurality of cfDNA fragments;
복수개의 cfDNA 단편의 적어도 일부분과 연관된 서열을 결정하는 단계; Determining a sequence associated with at least a portion of a plurality of cfDNA fragments;
cfDNA 단편 서열의 함수로서 복수개의 cfDNA 단편의 적어도 일부의 cfDNA 단편 종점에 대한 참조 게놈 내의 게놈 위치를 결정하는 단계; determining the genomic location in the reference genome for at least a portion of the cfDNA fragment endpoints of the plurality of cfDNA fragments as a function of the cfDNA fragment sequence;
cfDNA 단편 종점의 적어도 일부의 게놈 위치의 함수로서 cfDNA를 생성하는 조직 및/또는 세포 유형의 적어도 일부를 결정하는 단계; 및 determining at least a portion of the tissue and / or cell type that produces cfDNA as a function of genomic location of at least a portion of the cfDNA fragment endpoint; And
cfDNA를 생성하는 결정된 조직 및/또는 세포 유형의 함수로서 질환 또는 장애를 확인하는 단계identifying the disease or disorder as a function of the determined tissue and / or cell type that produces cfDNA
를 포함하는, 대상체에서 질환 또는 장애를 확인하는 방법.Gt; a < / RTI > disease or disorder in a subject.
실시예 55. 실시예 54에 있어서, cfDNA를 생성하는 조직 및/또는 세포 유형을 결정하는 단계가 cfDNA 단편 종점의 적어도 일부의 게놈 위치를 하나 이상의 참조 지도와 비교하는 것을 포함하는 것인 방법.Example 55. The method of embodiment 54, wherein determining the tissue and / or cell type that produces cfDNA comprises comparing the genomic location of at least a portion of the cfDNA fragment endpoint to one or more reference maps.
실시예 56. 실시예 54 또는 실시예 55에 있어서, cfDNA를 생성하는 조직 및/또는 세포 유형을 결정하는 단계가 복수개의 cfDNA 단편 종점의 적어도 일부의 게놈 위치의 분포에 대해 수학적 변환을 수행하는 것을 포함하는 것인 방법.Example 56. The method of embodiment 54 or 55 wherein the step of determining the tissue and / or cell type producing the cfDNA comprises performing a mathematical transformation on the distribution of the genomic location of at least a portion of the plurality of cfDNA fragment endpoints How to include.
실시예 57. 실시예 56에 있어서, 수학적 변환이 푸리에 변환을 포함하는 것인 방법.[0099] Embodiment 57. The method of embodiment 56, wherein the mathematical transformation comprises a Fourier transform.
실시예 58. 실시예 54 내지 실시예 57 중 어느 한 실시예에 있어서, 참조 게놈의 적어도 일부의 좌표 각각에 대한 스코어를 결정하는 단계를 추가로 포함하고, 여기서 스코어는 적어도 복수개의 cfDNA 단편 종점 및 그의 게놈 위치의 함수로서 결정되고, 관찰된 cfDNA 단편을 생성하는 조직 및/또는 세포 유형의 적어도 일부를 결정하는 단계는 스코어를 하나 이상의 참조 지도와 비교하는 것을 포함하는 것인 방법.[0323] Embodiment 58. The method as in any of the embodiments 54-57, further comprising determining a score for each of the coordinates of at least a portion of the reference genome, wherein the score comprises at least a plurality of cfDNA fragment ends and Wherein determining the tissue and / or cell type that produces the observed cfDNA fragment is determined as a function of its genomic location, and wherein determining at least a portion of the cell type comprises comparing the score to the one or more reference maps.
실시예 59. 실시예 58에 있어서, 좌표에 대한 스코어가, 그 좌표가 cfDNA 단편 종점의 위치일 확률을 나타내거나 또는 그와 관련되는 것인 방법.[0215] Embodiment 59. The method of embodiment 58 wherein the score for the coordinates indicates or is related to the probability that the coordinates are at the location of the cfDNA fragment end point.
실시예 60. 실시예 55 내지 실시예 59 중 어느 한 실시예에 있어서, 참조 지도가 적어도 하나의 참조 대상체로부터 수득된 샘플로부터 수득되고 질환 또는 장애와 연관된 적어도 하나의 세포 유형 또는 조직에 대응하는 DNase I 과민성 부위 데이터세트, RNA 발현 데이터세트, 발현 데이터, 염색체 입체형태 지도, 염색질 접근가능성 지도, 염색질 단편화 지도 또는 서열 데이터, 및/또는 조직 또는 세포 유형 내의 뉴클레오솜 및/또는 크로마토솜의 위치 또는 간격을 포함하는 것인 방법.Example 60. The method as in any of the embodiments 55-59, wherein the reference map is obtained from a sample obtained from at least one reference subject and the DNase corresponding to at least one cell type or tissue associated with the disease or disorder I hypersensitive site data set, RNA expression data set, expression data, chromosome stereotypic map, chromatin accessibility map, chromatin fragmentation map or sequence data, and / or the location of nucleosomes and / Gt;
실시예 61. 실시예 55 내지 실시예 60 중 어느 한 실시예에 있어서, 참조 지도가 적어도 하나의 세포 유형 또는 조직으로부터의 염색질을 외인성 뉴클레아제 (미크로코쿠스 뉴클레아제)로 소화시켜 작성되는 것인 방법.Example 61. The method of any one of embodiments 55-60, wherein the reference map is generated by digesting chromatin from at least one cell type or tissue with an exogenous nuclease (micrococus nuclease) How it is.
실시예 62. 실시예 60 또는 실시예 61에 있어서, 참조 지도가 적어도 하나의 세포 유형 또는 조직으로부터의 핵 또는 염색질에 전위 기반 방법 (예를 들어, ATAC-seq)을 적용하여 결정된 염색질 접근가능성 데이터를 포함하는 것인 방법.Example 62. The method of
실시예 63. 실시예 55 내지 실시예 62 중 어느 한 실시예에 있어서, 참조 지도가 조직 또는 세포 유형에 대한 DNA 결합 및/또는 DNA 점유 단백질의 위치와 연관된 데이터를 포함하는 것인 방법.[0215] Example 63. The method as in any of the embodiments 55-62, wherein the reference map comprises data associated with DNA binding to the tissue or cell type and / or the location of the DNA occupancy protein.
실시예 64. 실시예 63에 있어서, DNA 결합 및/또는 DNA 점유 단백질이 전사 인자인 방법.Example 64. The method of embodiment 63, wherein the DNA binding and / or DNA occupancy protein is a transcription factor.
실시예 65. 실시예 63 또는 실시예 64에 있어서, 위치가 가교된 DNA-단백질 복합체의 염색질 면역침전을 적어도 하나의 세포 유형 또는 조직에 적용하여 결정되는 것인 방법.Example 65. The method of embodiment 63 or example 64 wherein the chromatin immunoprecipitation of the cross-linked DNA-protein complex is determined by applying to at least one cell type or tissue.
실시예 66. 실시예 63 또는 실시예 64에 있어서, 위치가 조직 또는 세포 유형과 연관된 DNA를 뉴클레아제 (예를 들어, DNase-I)로 처리하여 결정되는 것인 방법.Example 66. The method of embodiment 63 or example 64 wherein the location is determined by treating the DNA associated with the tissue or cell type with a nuclease (e. G., DNase-I).
실시예 67. 실시예 54 내지 실시예 66 중 어느 한 실시예에 있어서, 참조 지도가 뉴클레오솜, 크로마토솜, 또는 조직 또는 세포 유형 내의 다른 DNA 결합 또는 DNA 점유 단백질의 위치 또는 간격과 관련된 생물학적 특징을 포함하는 것인 방법.Example 67. The method of any one of embodiments 54-66, wherein the reference map is indicative of a biological feature associated with the location or spacing of a nucleosome, a chromatome, or other DNA binding or DNA occupancy protein in a tissue or cell type ≪ / RTI >
실시예 68. 실시예 67에 있어서, 생물학적 특징이 하나 이상의 유전자의 정량적 발현인 방법.Example 68. The method of embodiment 67, wherein the biological characteristic is quantitative expression of one or more genes.
실시예 69. 실시예 67 또는 실시예 68에 있어서, 생물학적 특징이 하나 이상의 히스톤 마크의 존재 또는 부재인 방법.Example 69. The method of embodiment 67 or 68 wherein the biological characteristic is the presence or absence of one or more histone marks.
실시예 70. 실시예 67 내지 실시예 69 중 어느 한 실시예에 있어서, 생물학적 특징이 뉴클레아제 절단에 대해 과민성인 방법.Example 70. The method of any one of embodiments 67-69, wherein the biological characteristic is hypersensitive to nuclease excision.
실시예 71. 실시예 55 내지 실시예 70 중 어느 한 실시예에 있어서, 참조 지도를 작성하기 위해 사용된 조직 또는 세포 유형이 질환 또는 장애를 갖는 대상체로부터의 1차 조직인 방법.[0080] Embodiment 71. The method as in any of the embodiments 55-70, wherein the tissue or cell type used to create the reference map is a primary tissue from a subject having a disease or disorder.
실시예 72. 실시예 71에 있어서, 질환 또는 장애가 암, 정상 임신, 임신 합병증 (예를 들어, 이수성 임신), 심근경색, 염증성 장 질환, 전신성 자가면역 질환, 국부 자가면역 질환, 거부 반응을 수반하는 동종이식, 거부 반응을 수반하지 않는 동종이식, 졸중, 및 국부 조직 손상으로 이루어진 군으로부터 선택되는 것인 방법.Example 72. The method of embodiment 71 wherein the disease or disorder is associated with cancer, normal pregnancy, complication of pregnancy (e. G., Isomeric pregnancy), myocardial infarction, inflammatory bowel disease, systemic autoimmune disease, local autoimmune disease, Allogeneic transplantation, allografts without rejection, stroke, and local tissue injury.
실시예 73. 실시예 55 내지 실시예 70 중 어느 한 실시예에 있어서, 참조 지도를 작성하기 위해 사용된 조직 또는 세포 유형이 건강한 대상체로부터의 1차 조직인 방법.[0216] 73. The method as in any of the embodiments 55-70, wherein the tissue or cell type used to generate the reference map is a primary tissue from a healthy subject.
실시예 74. 실시예 55 내지 실시예 70 중 어느 한 실시예에 있어서, 참조 지도를 작성하기 위해 사용된 조직 또는 세포 유형이 불멸화된 세포주인 방법.[0213] 74. The method as in any of the embodiments 55-70, wherein the tissue or cell type used to create the reference map is an immortalized cell line.
실시예 75. 실시예 55 내지 실시예 70 중 어느 한 실시예에 있어서, 참조 지도를 작성하기 위해 사용된 조직 또는 세포 유형이 종양으로부터의 생검인 방법.[0214] [0094]
실시예 76. 실시예 60에 있어서, 적어도 하나의 참조 대상체로부터 수득된 샘플로부터 수득된 서열 데이터가 cfDNA 단편 종점 확률의 위치를 포함하는 것인 방법.Example 76. The method of
실시예 77. 실시예 76에 있어서, 참조 대상체가 건강한 대상체인 방법.[0213] 77. The method of embodiment 76, wherein the reference object is a healthy subject.
실시예 78. 실시예 76에 있어서, 참조 대상체가 질환 또는 장애를 갖는 것인 방법.[0216] 78. The method of embodiment 76, wherein the reference entity has a disease or disorder.
실시예 79. 실시예 78에 있어서, 질환 또는 장애가 암, 정상 임신, 임신 합병증 (예를 들어, 이수성 임신), 심근경색, 염증성 장 질환, 전신성 자가면역 질환, 국부 자가면역 질환, 거부 반응을 수반하는 동종이식, 거부 반응을 수반하지 않는 동종이식, 졸중, 및 국부 조직 손상으로 이루어진 군으로부터 선택되는 것인 방법.Example 79. The method of embodiment 78 wherein the disease or disorder is associated with cancer, normal pregnancy, complication of pregnancy (e. G., Isomeric pregnancy), myocardial infarction, inflammatory bowel disease, systemic autoimmune disease, local autoimmune disease, Allogeneic transplantation, allografts without rejection, stroke, and local tissue injury.
실시예 80. 실시예 60 내지 실시예 79 중 어느 한 실시예에 있어서, 참조 지도가 조직 또는 세포 유형과 연관된 참조 게놈의 적어도 일부분에 대한 cfDNA 단편 종점 확률을 포함하는 것인 방법.[0322] 94. The method of any one of embodiments 60-81, wherein the reference map comprises a cfDNA fragment endpoint probability for at least a portion of the reference genome associated with the tissue or cell type.
실시예 81. 실시예 80에 있어서, 참조 지도가 cfDNA 단편 종점 확률의 수학적 변환을 포함하는 것인 방법.[0215] Embodiment 81. The method of
실시예 82. 실시예 80에 있어서, cfDNA 단편 종점 확률이 조직 또는 세포 유형에 대한 모든 참조 게놈 좌표의 하위세트를 나타내는 것인 방법.Example 82. The method of
실시예 83. 실시예 82에 있어서, 하위세트가 뉴클레오솜 및/또는 크로마토솜의 위치 또는 간격과 연관되는 것인 방법.[0215] Example 83. The method of embodiment 82, wherein the subset is associated with the position or spacing of the nucleosome and / or the chromatome.
실시예 84. 실시예 82 또는 실시예 83에 있어서, 하위세트가 전사 개시 부위 및/또는 전사 종결 부위와 연관되는 것인 방법.Example 84. The method of
실시예 85. 실시예 82 내지 실시예 84 중 어느 한 실시예에 있어서, 하위세트가 적어도 하나의 전사 인자의 결합 부위와 연관되는 것인 방법.[0324] 89. The method as in any of the embodiments 82-84, wherein the subset is associated with a binding site of at least one transcription factor.
실시예 86. 실시예 82 내지 실시예 85 중 어느 한 실시예에 있어서, 하위세트가 뉴클레아제 과민성 부위와 연관되는 것인 방법.[0324] 86. The method as in any of the embodiments 82-85, wherein the subset is associated with a nuclease hypersensitive region.
실시예 87. 실시예 82 내지 실시예 86 중 어느 한 실시예에 있어서, 하위세트가 적어도 하나의 직교 생물학적 특징과 추가로 연관되는 것인 방법.[0099] Embodiment 87. The method as in any of the embodiments 82-86, wherein the subset is further associated with at least one orthogonal biological feature.
실시예 88. 실시예 87에 있어서, 직교 생물학적 특징이 고발현 유전자와 연관되는 것인 방법.[0454] 88. The method of embodiment 87 wherein the orthogonal biological features are associated with a high expression gene.
실시예 89. 실시예 87에 있어서, 직교 생물학적 특징이 저발현 유전자와 연관되는 것인 방법.Example 89. The method of embodiment 87, wherein orthogonal biological features are associated with a low expression gene.
실시예 90. 실시예 81 내지 실시예 89 중 어느 한 실시예에 있어서, 수학적 변환이 푸리에 변환을 포함하는 것인 방법.[0086] 90. The method as in any of the embodiments 81-89, wherein the mathematical transform includes a Fourier transform.
실시예 91. 실시예 58 내지 실시예 90 중 어느 한 실시예에 있어서, 적어도 복수개의 cfDNA 단편 종점 스코어의 하위세트가 각각 역치 값 초과의 스코어를 갖는 것인 방법.[0214] 91. The method as in any one of embodiments 58-90, wherein a subset of at least a plurality of cfDNA fragment endpoint scores each have a score that is greater than a threshold value.
실시예 92. 실시예 54 내지 실시예 91 중 어느 한 실시예에 있어서, cfDNA의 조직(들) 및/또는 세포 유형(들)을 cfDNA 단편 종점의 적어도 일부의 복수개의 게놈 위치의 함수로서 결정하는 단계가 cfDNA 단편 종점의 적어도 일부의 복수개의 게놈 위치의 푸리에 변환 또는 그의 수학적 변환을 참조 지도와 비교하는 것을 포함하는 것인 방법.Example 92. The method of any one of embodiments 54-91, wherein the tissue (s) and / or cell type (s) of cfDNA is determined as a function of a plurality of genomic locations of at least a portion of a cfDNA fragment endpoint Wherein the step comprises comparing a Fourier transform of a plurality of genomic locations of at least a portion of a cfDNA fragment endpoint, or a mathematical transformation thereof, with a reference map.
실시예 93. 실시예 54 내지 실시예 92 중 어느 한 실시예에 있어서, 참조 지도가 질환 또는 장애와 연관된 적어도 하나의 조직에 대응하는 DNA 또는 염색질 단편화 데이터를 포함하는 것인 방법.[0323] Embodiment 93. The method as in any of the embodiments 54-92, wherein the reference map comprises DNA or chromatin fragmentation data corresponding to at least one tissue associated with the disease or disorder.
실시예 94. 실시예 54 내지 실시예 93 중 어느 한 실시예에 있어서, 참조 게놈이 인간과 연관되는 것인 방법.[0213] 94. The method as in any of the examples 54-93, wherein the reference genome is human.
실시예 95. 실시예 54 내지 실시예 94 중 어느 한 실시예에 있어서, 질환 또는 장애를 확인하는 언급을 포함하는 보고서를 작성하는 것을 추가로 포함하는 방법.[0323] 95. The method as in any of the embodiments 54-94, further comprising generating a report that includes a statement identifying the disease or disorder.
실시예 96. 실시예 95에 있어서, 보고서가 단리된 cfDNA의 결정된 조직(들) 및/또는 세포 유형(들)의 목록을 추가로 포함하는 것인 방법.Example 96. The method of
실시예 97. 실시예 7 내지 실시예 96 중 어느 한 실시예에 있어서, 생물학적 샘플이 전혈, 말초 혈액 혈장, 소변 또는 뇌 척수액을 포함하거나, 이로 본질적으로 이루어지거나, 또는 이로 이루어지는 것인 방법.[0322] 98. The method of any one of embodiments 7-6, wherein the biological sample comprises, consists essentially of, or consists of whole blood, peripheral blood plasma, urine or cerebrospinal fluid.
실시예 98. (i) 대상체로부터 생물학적 샘플을 얻고, 생물학적 샘플로부터 무세포 DNA (cfDNA)를 단리하고, cfDNA의 라이브러리 구축 및 대량 병렬 서열결정에 의해 분포 (a), (b) 및/또는 (c)를 측정하여 뉴클레오솜 지도를 작성하는 단계; (A), (b) and / or (d) by constructing a library of cfDNA and massively parallel sequencing, and (ii) obtaining a biological sample from the subject, c) to prepare a nucleosome map;
(ii) 대조군 대상체 또는 알려진 질환을 갖는 대상체로부터 생물학적 샘플을 얻고, 생물학적 샘플로부터 cfDNA를 단리하고, cfDNA의 라이브러리 구축 및 대량 병렬 서열결정에 의해 분포 (a), (b) 및/또는 (c)를 측정하여 뉴클레오솜 지도의 참조 세트를 작성하는 단계; 및 (a), (b) and / or (c) by obtaining a biological sample from a control subject or a subject with a known disease, isolating the cfDNA from the biological sample, and constructing the library of cfDNA and mass- To produce a reference set of nucleosome maps; And
(iii) cfDNA로부터 유래된 뉴클레오솜 지도를 뉴클레오솜 지도의 참조 세트와 비교하여 cfDNA를 생성하는 조직 및/또는 세포 유형을 결정하는 단계(iii) comparing the nucleosome map derived from cfDNA to a reference set of nucleosome maps to determine the tissue and / or cell type that produces cfDNA
를 포함하고; 여기서 ; here
(a)는 인간 게놈 내의 임의의 특정 염기쌍이 cfDNA 단편의 말단에서 나타날 가능성의 분포이고; (a) is the distribution of the likelihood that any particular base pair within the human genome will appear at the end of the cfDNA fragment;
(b)는 인간 게놈의 염기쌍의 임의의 쌍이 cfDNA 단편의 한 쌍의 말단으로서 나타날 가능성의 분포이고; (b) is the distribution of the likelihood that any pair of base pairs of the human genome will appear as the ends of a pair of cfDNA fragments;
(c)는 인간 게놈 내의 임의의 특정 염기쌍이 차별적인 뉴클레오솜 점유의 결과로서 cfDNA 단편 내에 나타날 가능성의 분포인, (c) is a distribution of the likelihood that any particular base pair in the human genome will appear within the cfDNA fragment as a result of differentially occupied nucleosomes.
대상체에서 cfDNA를 생성하는 조직 및/또는 세포 유형을 결정하는 방법.A method for determining the tissue and / or cell type that produces cfDNA in a subject.
실시예 99. (i) 대상체로부터 생물학적 샘플을 얻고, 생물학적 샘플로부터 cfDNA를 단리하고, cfDNA의 라이브러리 구축 및 대량 병렬 서열결정에 의해 분포 (a), (b) 및/또는 (c)를 측정하여 뉴클레오솜 지도를 작성하는 단계; Example 99. (i) The distribution (a), (b) and / or (c) was measured by obtaining a biological sample from a subject, isolating cfDNA from the biological sample, constructing a library of cfDNA and massively parallel sequencing Creating a nucleosome map;
(ii) 대조군 대상체 또는 알려진 질환을 갖는 대상체로부터 생물학적 샘플을 얻고, 생물학적 샘플로부터 cfDNA를 단리하고, 미크로코쿠스 뉴클레아제 (MNase), DNase 처리 또는 ATAC-Seq으로 염색질을 소화시켜 유래된 DNA의 라이브러리 구축 및 대량 병렬 서열결정에 의해 분포 (a), (b) 및/또는 (c)를 측정하여 뉴클레오솜 지도의 참조 세트를 작성하는 단계; 및 (ii) obtaining a biological sample from a control subject or a subject having a known disease, isolating cfDNA from the biological sample, digesting chromatin with a micrococycle nuclease (MNase), DNase treatment or ATAC-Seq Measuring distribution (a), (b) and / or (c) by library construction and massively parallel sequencing to create a reference set of nucleosome maps; And
(iii) cfDNA로부터 유래된 뉴클레오솜 지도를 뉴클레오솜 지도의 참조 세트와 비교하여 cfDNA를 생성하는 조직 및/또는 세포 유형을 결정하는 단계(iii) comparing the nucleosome map derived from cfDNA to a reference set of nucleosome maps to determine the tissue and / or cell type that produces cfDNA
를 포함하고; 여기서 ; here
(a)는 인간 게놈 내의 임의의 특정 염기쌍이 서열결정된 단편의 말단에서 나타날 가능성의 분포이고; (a) is the distribution of the likelihood that any particular base pair within the human genome will appear at the end of the sequenced fragment;
(b)는 인간 게놈의 염기쌍의 임의의 쌍이 서열결정된 단편의 한 쌍의 말단으로서 나타날 가능성의 분포이고; (b) is a distribution of the likelihood that any pair of base pairs of the human genome will appear as a pair of ends of the sequenced fragments;
(c)는 인간 게놈 내의 임의의 특정 염기쌍이 차별적인 뉴클레오솜 점유의 결과로서 서열결정된 단편 내에 나타날 가능성의 분포인, (c) is a distribution of the likelihood that any particular base pair in the human genome will appear within the sequenced fragment as a result of differential nucleosomal occupancy.
대상체에서 무세포 DNA를 생성하는 조직 및/또는 세포 유형을 결정하는 방법.A method for determining the tissue and / or cell type that produces acellular DNA in a subject.
실시예 100. (i) 대상체로부터 생물학적 샘플을 얻고, 생물학적 샘플로부터 cfDNA를 단리하고, cfDNA의 라이브러리 구축 및 대량 병렬 서열결정에 의해 분포 (a), (b) 및/또는 (c)를 측정하여 뉴클레오솜 지도를 작성하는 단계; (A), (b) and / or (c) were determined by obtaining a biological sample from a subject, isolating cfDNA from the biological sample, constructing a library of cfDNA, and massively parallel sequencing Creating a nucleosome map;
(ii) 대조군 대상체 또는 알려진 질환을 갖는 대상체로부터 생물학적 샘플을 얻고, 생물학적 샘플로부터 cfDNA를 단리하고, cfDNA의 라이브러리 구축 및 대량 병렬 서열결정에 의해 분포 (a), (b) 및/또는 (c)를 측정하여 뉴클레오솜 지도의 참조 세트를 작성하는 단계; 및 (a), (b) and / or (c) by obtaining a biological sample from a control subject or a subject with a known disease, isolating the cfDNA from the biological sample, and constructing the library of cfDNA and mass- To produce a reference set of nucleosome maps; And
(iii) cfDNA로부터 유래된 뉴클레오솜 지도를 뉴클레오솜 지도의 참조 세트와 비교하여 임상 병태를 결정하는 단계(iii) comparing the nucleosome map derived from cfDNA to a reference set of nucleosome maps to determine the clinical condition
를 포함하고; 여기서 ; here
(a)는 인간 게놈 내의 임의의 특정 염기쌍이 cfDNA 단편의 말단에서 나타날 가능성의 분포이고; (a) is the distribution of the likelihood that any particular base pair within the human genome will appear at the end of the cfDNA fragment;
(b)는 인간 게놈의 염기쌍의 임의의 쌍이 cfDNA 단편의 한 쌍의 말단으로서 나타날 가능성의 분포이고; (b) is the distribution of the likelihood that any pair of base pairs of the human genome will appear as the ends of a pair of cfDNA fragments;
(c)는 인간 게놈 내의 임의의 특정 염기쌍이 차별적인 뉴클레오솜 점유의 결과로서 cfDNA 단편 내에 나타날 가능성의 분포인, (c) is a distribution of the likelihood that any particular base pair in the human genome will appear within the cfDNA fragment as a result of differentially occupied nucleosomes.
대상체에서 임상 병태를 진단하는 방법.A method of diagnosing a clinical condition in a subject.
실시예 101. Example 101.
(i) 대상체로부터 생물학적 샘플을 얻고, 생물학적 샘플로부터 cfDNA를 단리하고, cfDNA의 라이브러리 구축 및 대량 병렬 서열결정에 의해 분포 (a), (b) 및/또는 (c)를 측정하여 뉴클레오솜 지도를 작성하는 단계; (i) measuring distribution (a), (b) and / or (c) by obtaining a biological sample from a subject, isolating cfDNA from the biological sample, constructing a library of cfDNA and massively parallelizing the sequence, ;
(ii) 대조군 대상체 또는 알려진 질환을 갖는 대상체로부터 생물학적 샘플을 얻고, 생물학적 샘플로부터 cfDNA를 단리하고, 미크로코쿠스 뉴클레아제 (MNase), DNase 처리 또는 ATAC-Seq으로 염색질을 소화시켜 유래된 DNA의 라이브러리 구축 및 대량 병렬 서열결정에 의해 분포 (a), (b) 및/또는 (c)를 측정하여 뉴클레오솜 지도의 참조 세트를 작성하는 단계; 및 (ii) obtaining a biological sample from a control subject or a subject having a known disease, isolating cfDNA from the biological sample, digesting chromatin with a micrococycle nuclease (MNase), DNase treatment or ATAC-Seq Measuring distribution (a), (b) and / or (c) by library construction and massively parallel sequencing to create a reference set of nucleosome maps; And
(iii) cfDNA로부터 유래된 뉴클레오솜 지도를 뉴클레오솜 지도의 참조 세트와 비교하여 cfDNA의 기원 조직 조성을 결정하는 단계(iii) comparing the nucleosome map derived from cfDNA to the reference set of nucleosome maps to determine the original tissue composition of cfDNA
를 포함하고; 여기서 ; here
(a)는 인간 게놈 내의 임의의 특정 염기쌍이 서열결정된 단편의 말단에서 나타날 가능성의 분포이고; (a) is the distribution of the likelihood that any particular base pair within the human genome will appear at the end of the sequenced fragment;
(b)는 인간 게놈의 염기쌍의 임의의 쌍이 서열결정된 단편의 한 쌍의 말단으로서 나타날 가능성의 분포이고; (b) is a distribution of the likelihood that any pair of base pairs of the human genome will appear as a pair of ends of the sequenced fragments;
(c)는 인간 게놈 내의 임의의 특정 염기쌍이 차별적인 뉴클레오솜 점유의 결과로서 서열결정된 단편 내에 나타날 가능성의 분포인, (c) is a distribution of the likelihood that any particular base pair in the human genome will appear within the sequenced fragment as a result of differential nucleosomal occupancy.
대상체에서 임상 병태를 진단하는 방법.A method of diagnosing a clinical condition in a subject.
실시예 102. 실시예 98 내지 실시예 101 중 어느 한 실시예에 있어서, 뉴클레오솜 지도가 Example 102. The method of any one of embodiments 98- 101, wherein a nucleosome map is
생물학적 샘플로부터 단리된 cfDNA를 정제하는 단계;Purifying the isolated cfDNA from the biological sample;
어댑터 라이게이션 및 임의적으로 PCR 증폭에 의해 라이브러리를 구축하는 단계; 및Constructing the library by adapter ligation and optionally PCR amplification; And
생성된 라이브러리를 서열결정하는 단계Sequencing the generated library
에 의해 작성되는 것인 방법.. ≪ / RTI >
실시예 103. 실시예 98 내지 실시예 101 중 어느 한 실시예에 있어서, 뉴클레오솜 지도의 참조 세트가 Example 103. In any one of the embodiments 98-101, the reference set of nucleosome maps is
대조군 대상체로부터의 생물학적 샘플로부터 단리된 cfDNA를 정제하는 단계;Purifying the isolated cfDNA from the biological sample from the control subject;
어댑터 라이게이션 및 임의적으로 PCR 증폭에 의해 라이브러리를 구축하는 단계; 및Constructing the library by adapter ligation and optionally PCR amplification; And
생성된 라이브러리를 서열결정하는 단계Sequencing the generated library
에 의해 작성되는 것인 방법.. ≪ / RTI >
실시예 104. 실시예 98 내지 실시예 101 중 어느 한 실시예에 있어서, 분포 (a), (b) 또는 (c), 또는 이들 분포 중 하나의 수학적 변환이 인접 윈도우에서 푸리에 변환에 적용된 후, 뉴클레오솜이 각각의 인접 윈도우 내에서 구조화된 배치를 나타내는 정도를 요약하기 위해 뉴클레오솜 점유와 연관된 빈도 범위에 대한 강도의 정량화가 실시되는 것인 방법.[0061] Embodiment 104. The method as in any of the embodiments 98-101, wherein after the mathematical transformation of one of the distributions (a), (b), or (c), or one of these distributions is applied to the Fourier transform in the adjacent window, Wherein quantification of the intensity over a frequency range associated with the occupancy of the nucleosomes is performed to summarize the degree to which the nucleosome represents a structured arrangement within each adjacent window.
실시예 105. 실시예 98 내지 실시예 101 중 어느 한 실시예에 있어서, 분포 (a), (b) 또는 (c), 또는 이들 분포 중 하나의 수학적 변환에서, cfDNA에 기여하는 세포 유형(들)에서 전사 인자 (TF) 활성의 결과로서 뉴클레오솜 배치를 요약하기 위해 전사 인자 결합 부위 (TFBS)가 TF에 의해 결합될 때 종종 뉴클레오솜이 바로 측면에 위치하는 특정 TF의 TFBS의 바로 근처에서 서열결정 판독 개시 부위가 지도화되는 참조 인간 게놈 내의 부위의 분포를 정량하는 방법.Embodiment 105. The method as in any of the embodiments 98-101, wherein in a mathematical transformation of one of distributions (a), (b), or (c) (TFBS) is coupled by TF to summarize the nucleosome placement as a result of transcription factor (TF) activity in the immediate vicinity of the TFBS of the specific TF located immediately on the side of the nucleosome A method for quantifying the distribution of a region in a reference human genome to which a sequence reading initiation site is mapped.
실시예 106. 실시예 98 내지 실시예 101 중 어느 한 실시예에 있어서, 뉴클레오솜 점유 신호가, 다른 게놈 랜드마크, 예컨대 DNaseI 과민성 부위, 전사 개시 부위, 위상 도메인, 다른 후성학적 마크 또는 다른 데이터세트에서 상관된 거동 (예를 들어, 유전자 발현 등)에 의해 규정되는 모든 이러한 부위의 하위세트 주위에서 분포 (a), (b) 및/또는 (c), 또는 이들 분포 중 하나의 수학적 변환으로부터 집계된 신호 중 어느 하나에 따라 요약되는 것인 방법.Example 106. The method of any one of embodiments 98- 101, wherein the nucleosomal occupancy signal is derived from another genomic landmark such as a DNase I hypersensitive site, a transcription initiation site, a phase domain, (A), (b) and / or (c), or a mathematical transformation of one of these distributions around a subset of all such sites defined by a set of correlated behaviors (e.g., gene expression, etc.) And summarized according to any one of the aggregated signals.
실시예 107. 실시예 98 내지 실시예 101 중 어느 한 실시예에 있어서, 분포가, 예를 들어 인접 윈도우에서의 또는 대안적으로, 전사 인자 결합 부위, 유전자 모델 특징부 (예를 들어, 전사 개시 부위), 조직 발현 데이터 또는 뉴클레오솜 배치의 다른 상관물에 의해 정의된 게놈의 불연속적인 하위세트에서의 주기도를 정량하는 것과 같은 게놈의 다양한 하위세트 내에서의 뉴클레오솜 배치의 주기적 신호를 집계하거나 요약하기 위해 변환되는 것인 방법.Embodiment 107. The method as in any one of embodiments 98- 101, wherein the distribution is selected from the group consisting of, for example, a proximity window, or alternatively, a transcription factor binding site, Such as quantifying the periodicity in a discontinuous subset of the genome defined by the tissue expression data or other correlates of the nucleosome arrangement, or by measuring the periodic signal of the nucleosome arrangement within the various subset of the genome, Lt; / RTI >
실시예 108. 실시예 98 내지 실시예 101 중 어느 한 실시예에 있어서, 분포가 조직 특이적 데이터, 즉 조직 특이적 DNase I 과민성 부위 부근의 집계된 신호에 의해 정의되는 것인 방법.[0213] 108. The method as in any one of embodiments 98-101, wherein the distribution is defined by tissue-specific data, i.e., aggregated signals near tissue-specific DNase I hypersensitive sites.
실시예 109. 실시예 98 내지 실시예 101 중 어느 한 실시예에 있어서, 추가의 뉴클레오솜 지도(들)를 참조 세트와 비교하기 위한 통계적 신호 처리 단계를 추가로 포함하는 방법.[0303] 109. The method as in any one of embodiments 98-101, further comprising a statistical signal processing step for comparing the additional nucleosome map (s) to a reference set.
실시예 110. 실시예 109에 있어서, 먼저 다양한 샘플 세트의 게놈을 따라 연속적 윈도우 내에서 긴 범위의 뉴클레오솜 배열을 요약한 다음, 샘플을 클러스터링하거나 혼합물 비율을 추정하기 위해 주성분 분석 (PCA)을 수행하는 방법.Example 110. In Example 109, a long range of nucleosome sequences was first summarized in a continuous window along the genomes of the various sample sets, followed by principal component analysis (PCA) to cluster the samples or estimate the mixture ratio How to do it.
실시예 111. 실시예 100 또는 실시예 101에 있어서, 임상 병태가 암, 즉 악성 종양인 방법.[0215] Embodiment 111. The method of
실시예 112. 실시예 111에 있어서, 생물학적 샘플이, 그 일부 부분이 종양으로부터 유래된 cfDNA를 함유하는 순환 혈장인 방법.[0215] Embodiment 112. The method of embodiment 111, wherein the biological sample is circulating plasma, wherein a portion of the biological sample is derived from the tumor.
실시예 113. 실시예 100 또는 실시예 101에 있어서, 임상 병태가 조직 손상, 심근경색 (심장 조직의 급성 손상), 자가면역 질환 (다양한 조직의 만성 손상), 임신, 염색체 이상 (예를 들어, 삼염색체성) 및 이식 거부로부터 선택되는 것인 방법.Example 113. The method of
실시예 114. 실시예 7 내지 실시예 113 중 어느 한 실시예에 있어서, cfDNA에 기여하는 것으로 결정된 하나 이상의 조직 또는 세포 유형 각각에 대해 비율을 할당하는 것을 추가로 포함하는 방법.[0324] 114. The method as in any of the embodiments 7-13, further comprising assigning a ratio for each of at least one tissue or cell type determined to contribute to the cfDNA.
실시예 115. 실시예 114에 있어서, 하나 이상의 결정된 조직 또는 세포 유형 각각에 할당된 비율이 적어도 부분적으로 상관관계 또는 건강한 대상체 또는 대상체들로부터의 cfDNA에 비해 증가된 상관관계의 정도에 기초하는 것인 방법.Example 115. The method of embodiment 114 wherein the ratio assigned to each of the one or more determined tissues or cell types is based at least in part on the degree of correlation or increased correlation relative to cfDNA from healthy subjects or subjects Way.
실시예 116. 실시예 114 또는 실시예 115에 있어서, 상관관계의 정도가 적어도 부분적으로 생물학적 샘플로부터의 cfDNA 단편 종점의 분포의 수학적 변환과 결정된 조직 또는 세포 유형과 연관된 참조 지도의 비교에 기초하는 것인 방법.Example 116. The method of embodiment 114 or example 115, wherein the degree of correlation is based, at least in part, on a comparison of the mathematical transformation of the distribution of the cfDNA fragment endpoints from the biological sample and the reference map associated with the determined tissue or cell type / RTI >
실시예 117. 실시예 114 내지 실시예 116 중 어느 한 실시예에 있어서, 하나 이상의 결정된 조직 또는 세포 유형 각각에 할당된 비율이 혼합물 모델에 기초하는 것인 방법.[045] Example 117. The method as in any one of embodiments 114-116, wherein the proportion assigned to each of the one or more determined tissues or cell types is based on a mixture model.
상기한 내용으로부터, 본 발명의 구체적인 실시예가 예시를 위해 설명되었지만, 본 발명의 범위를 벗어나지 않는 다양한 변형이 이루어질 수 있음을 이해할 것이다. 따라서, 본 발명은 첨부된 청구범위를 제외하고는 이들로 제한되지 않는다.From the foregoing, it will be understood that, although specific embodiments of the invention have been described herein for purposes of illustration, various modifications may be made without departing from the scope of the invention. Accordingly, the invention is not to be limited except as by the appended claims.
SEQUENCE LISTING <110> SHENDURE, Jay <120> METHODS OF DETERMINING TISSUES AND/OR CELL TYPES GIVING RISE TO CELL-FREE DNA, AND METHODS OF IDENTIFYING A DISEASE OR DISORDER USING SAME <130> 72227-8115.WO00 <140> PCT/US2015/042310 <141> 2015-07-27 <150> US 62/029,178 <151> 2014-07-25 <150> US 62/087,619 <151> 2014-12-04 <160> 4 <170> PatentIn version 3.5 <210> 1 <211> 34 <212> DNA <213> Artificial Sequence <220> <223> Synthetic oligonucleotide: CL9 <400> 1 gtgactggag ttcagacgtg tgctcttccg atct 34 <210> 2 <211> 16 <212> DNA <213> Artificial Sequence <220> <223> Synthetic oligonucleotide: Adapter 2.1 <220> <221> misc_feature <222> (16)..(16) <223> ddT at 3' end <400> 2 cgacgctctt ccgatc 16 <210> 3 <211> 34 <212> DNA <213> Artificial Sequence <220> <223> Synthetic oligonucleotide: Adapter 2.2 <220> <221> misc_feature <222> (1)..(1) <223> 5Phos at 5' end <220> <221> misc_feature <222> (30)..(31) <223> Phosphorothioate bond <220> <221> misc_feature <222> (31)..(32) <223> Phosphorothioate bond <220> <221> misc_feature <222> (32)..(33) <223> Phosphorothioate bond <220> <221> misc_feature <222> (33)..(34) <223> Phosphorothioate bond <400> 3 agatcggaag agcgtcgtgt agggaaagag tgta 34 <210> 4 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> Synthetic oligonucleotide: CL78 <220> <221> misc_feature <222> (1)..(1) <223> 5Phos at 5' end <220> <221> misc_feature <222> (10)..(10) <223> (iSpC3)10 and 3BioTEG at 3' end <400> 4 agatcggaag 10 SEQUENCE LISTING <110> SHENDURE, Jay <120> METHODS OF DETERMINING TISSUES AND / OR CELL TYPES GIVING RISE TO CELL-FREE DNA, AND METHODS OF IDENTIFYING DISEASE OR DISORDER USING SAME <130> 72227-8115.WO00 <140> PCT / US2015 / 042310 <141> 2015-07-27 <150> US 62 / 029,178 <151> 2014-07-25 <150> US 62 / 087,619 <151> 2014-12-04 <160> 4 <170> PatentIn version 3.5 <210> 1 <211> 34 <212> DNA <213> Artificial Sequence <220> Synthetic oligonucleotide: CL9 <400> 1 gtgactggag ttcagacgtg tgctcttccg atct 34 <210> 2 <211> 16 <212> DNA <213> Artificial Sequence <220> Synthetic oligonucleotide: Adapter 2.1 <220> <221> misc_feature ≪ 222 > (16) <223> ddT at 3 'end <400> 2 cgacgctctt ccgatc 16 <210> 3 <211> 34 <212> DNA <213> Artificial Sequence <220> Synthetic oligonucleotide: Adapter 2.2 <220> <221> misc_feature <222> (1) <223> 5Phos at 5 'end <220> <221> misc_feature ≪ 222 > (30) <223> Phosphorothioate bond <220> <221> misc_feature ≪ 222 > (31) <223> Phosphorothioate bond <220> <221> misc_feature ≪ 222 > (32) <223> Phosphorothioate bond <220> <221> misc_feature ≪ 222 > (33) <223> Phosphorothioate bond <400> 3 agatcggaag agcgtcgtgt agggaaagag tgta 34 <210> 4 <211> 10 <212> DNA <213> Artificial Sequence <220> Synthetic oligonucleotide: CL78 <220> <221> misc_feature <222> (1) <223> 5Phos at 5 'end <220> <221> misc_feature ≪ 222 > (10) (ISpC3) 10 and 3BioTEG at 3 'end <400> 4 agatcggaag 10
Claims (111)
복수개의 cfDNA 단편의 적어도 일부분과 연관된 서열을 결정하는 단계;
cfDNA 단편 서열의 함수로서 복수개의 cfDNA 단편의 적어도 일부의 cfDNA 단편 종점에 대한 참조 게놈 내의 게놈 위치를 결정하는 단계; 및
cfDNA 단편 종점의 적어도 일부의 게놈 위치의 함수로서 cfDNA 단편을 생성하는 조직 및/또는 세포 유형의 적어도 일부를 결정하는 단계
를 포함하는, 대상체에서 cfDNA를 생성하는 조직 및/또는 세포 유형을 결정하는 방법.Isolating cell-free DNA (cfDNA) from a biological sample from a subject, wherein the isolated cfDNA comprises a plurality of cfDNA fragments;
Determining a sequence associated with at least a portion of a plurality of cfDNA fragments;
determining the genomic location in the reference genome for at least a portion of the cfDNA fragment endpoints of the plurality of cfDNA fragments as a function of the cfDNA fragment sequence; And
determining at least a portion of the tissue and / or cell type that produces the cfDNA fragment as a function of the genomic location of at least a portion of the cfDNA fragment endpoint
Gt; and / or < / RTI > the cell type that produces the cfDNA in the subject.
복수개의 cfDNA 단편의 적어도 일부분과 연관된 서열을 결정하는 단계;
cfDNA 단편 서열의 함수로서 복수개의 cfDNA 단편의 적어도 일부의 cfDNA 단편 종점에 대한 참조 게놈 내의 게놈 위치를 결정하는 단계;
cfDNA 단편 종점의 적어도 일부의 게놈 위치의 함수로서 cfDNA를 생성하는 조직 및/또는 세포 유형의 적어도 일부를 결정하는 단계; 및
cfDNA를 생성하는 결정된 조직 및/또는 세포 유형의 함수로서 질환 또는 장애를 확인하는 단계
를 포함하는, 대상체에서 질환 또는 장애를 확인하는 방법.Isolating cell-free DNA (cfDNA) from a biological sample from a subject, wherein the isolated cfDNA comprises a plurality of cfDNA fragments;
Determining a sequence associated with at least a portion of a plurality of cfDNA fragments;
determining the genomic location in the reference genome for at least a portion of the cfDNA fragment endpoints of the plurality of cfDNA fragments as a function of the cfDNA fragment sequence;
determining at least a portion of the tissue and / or cell type that produces cfDNA as a function of genomic location of at least a portion of the cfDNA fragment endpoint; And
identifying the disease or disorder as a function of the determined tissue and / or cell type that produces cfDNA
Gt; a < / RTI > disease or disorder in a subject.
(ii) 대조군 대상체 또는 알려진 질환을 갖는 대상체로부터 생물학적 샘플을 얻고, 생물학적 샘플로부터 cfDNA를 단리하고, cfDNA의 라이브러리 구축 및 대량 병렬 서열결정에 의해 분포 (a), (b) 및/또는 (c)를 측정하여 뉴클레오솜 지도의 참조 세트를 작성하는 단계; 및
(iii) cfDNA로부터 유래된 뉴클레오솜 지도를 뉴클레오솜 지도의 참조 세트와 비교하여 cfDNA를 생성하는 조직 및/또는 세포 유형을 결정하는 단계
를 포함하고; 여기서
(a)는 인간 게놈 내의 임의의 특정 염기쌍이 cfDNA 단편의 말단에서 나타날 가능성의 분포이고;
(b)는 인간 게놈의 염기쌍의 임의의 쌍이 cfDNA 단편의 한 쌍의 말단으로서 나타날 가능성의 분포이고;
(c)는 인간 게놈 내의 임의의 특정 염기쌍이 차별적인 뉴클레오솜 점유의 결과로서 cfDNA 단편 내에 나타날 가능성의 분포인,
대상체에서 cfDNA를 생성하는 조직 및/또는 세포 유형을 결정하는 방법.(a), (b) and / or (c) by (i) obtaining a biological sample from a subject, isolating cell-free DNA (cfDNA) from the biological sample, and constructing a library of cfDNA and massively parallel sequencing Creating a nucleosome map;
(a), (b) and / or (c) by obtaining a biological sample from a control subject or a subject with a known disease, isolating the cfDNA from the biological sample, and constructing the library of cfDNA and mass- To produce a reference set of nucleosome maps; And
(iii) comparing the nucleosome map derived from cfDNA to a reference set of nucleosome maps to determine the tissue and / or cell type that produces cfDNA
; here
(a) is the distribution of the likelihood that any particular base pair within the human genome will appear at the end of the cfDNA fragment;
(b) is the distribution of the likelihood that any pair of base pairs of the human genome will appear as the ends of a pair of cfDNA fragments;
(c) is a distribution of the likelihood that any particular base pair in the human genome will appear within the cfDNA fragment as a result of differentially occupied nucleosomes.
A method for determining the tissue and / or cell type that produces cfDNA in a subject.
(ii) 대조군 대상체 또는 알려진 질환을 갖는 대상체로부터 생물학적 샘플을 얻고, 생물학적 샘플로부터 cfDNA를 단리하고, 미크로코쿠스 뉴클레아제 (MNase), DNase 처리 또는 ATAC-Seq으로 염색질을 소화시켜 유래된 DNA의 라이브러리 구축 및 대량 병렬 서열결정에 의해 분포 (a), (b) 및/또는 (c)를 측정하여 뉴클레오솜 지도의 참조 세트를 작성하는 단계; 및
(iii) cfDNA로부터 유래된 뉴클레오솜 지도를 뉴클레오솜 지도의 참조 세트와 비교하여 cfDNA를 생성하는 조직 및/또는 세포 유형을 결정하는 단계
를 포함하고; 여기서
(a)는 인간 게놈 내의 임의의 특정 염기쌍이 서열결정된 단편의 말단에서 나타날 가능성의 분포이고;
(b)는 인간 게놈의 염기쌍의 임의의 쌍이 서열결정된 단편의 한 쌍의 말단으로서 나타날 가능성의 분포이고;
(c)는 인간 게놈 내의 임의의 특정 염기쌍이 차별적인 뉴클레오솜 점유의 결과로서 서열결정된 단편 내에 나타날 가능성의 분포인,
대상체에서 무세포 DNA를 생성하는 조직 및/또는 세포 유형을 결정하는 방법.(i) measuring distribution (a), (b) and / or (c) by obtaining a biological sample from a subject, isolating cfDNA from the biological sample, constructing a library of cfDNA and massively parallelizing the sequence, ;
(ii) obtaining a biological sample from a control subject or a subject having a known disease, isolating cfDNA from the biological sample, digesting chromatin with a micrococycle nuclease (MNase), DNase treatment or ATAC-Seq Measuring distribution (a), (b) and / or (c) by library construction and massively parallel sequencing to create a reference set of nucleosome maps; And
(iii) comparing the nucleosome map derived from cfDNA to a reference set of nucleosome maps to determine the tissue and / or cell type that produces cfDNA
; here
(a) is the distribution of the likelihood that any particular base pair within the human genome will appear at the end of the sequenced fragment;
(b) is a distribution of the likelihood that any pair of base pairs of the human genome will appear as a pair of ends of the sequenced fragments;
(c) is a distribution of the likelihood that any particular base pair in the human genome will appear within the sequenced fragment as a result of differential nucleosomal occupancy.
A method for determining the tissue and / or cell type that produces acellular DNA in a subject.
(ii) 대조군 대상체 또는 알려진 질환을 갖는 대상체로부터 생물학적 샘플을 얻고, 생물학적 샘플로부터 cfDNA를 단리하고, cfDNA의 라이브러리 구축 및 대량 병렬 서열결정에 의해 분포 (a), (b) 및/또는 (c)를 측정하여 뉴클레오솜 지도의 참조 세트를 작성하는 단계; 및
(iii) cfDNA로부터 유래된 뉴클레오솜 지도를 뉴클레오솜 지도의 참조 세트와 비교하여 임상 병태를 결정하는 단계
를 포함하고; 여기서
(a)는 인간 게놈 내의 임의의 특정 염기쌍이 cfDNA 단편의 말단에서 나타날 가능성의 분포이고;
(b)는 인간 게놈의 염기쌍의 임의의 쌍이 cfDNA 단편의 한 쌍의 말단으로서 나타날 가능성의 분포이고;
(c)는 인간 게놈 내의 임의의 특정 염기쌍이 차별적인 뉴클레오솜 점유의 결과로서 cfDNA 단편 내에 나타날 가능성의 분포인,
대상체에서 임상 병태를 진단하는 방법.(i) measuring distribution (a), (b) and / or (c) by obtaining a biological sample from a subject, isolating cfDNA from the biological sample, constructing a library of cfDNA and massively parallelizing the sequence, ;
(a), (b) and / or (c) by obtaining a biological sample from a control subject or a subject with a known disease, isolating the cfDNA from the biological sample, and constructing the library of cfDNA and mass- To produce a reference set of nucleosome maps; And
(iii) comparing the nucleosome map derived from cfDNA to a reference set of nucleosome maps to determine the clinical condition
; here
(a) is the distribution of the likelihood that any particular base pair within the human genome will appear at the end of the cfDNA fragment;
(b) is the distribution of the likelihood that any pair of base pairs of the human genome will appear as the ends of a pair of cfDNA fragments;
(c) is a distribution of the likelihood that any particular base pair in the human genome will appear within the cfDNA fragment as a result of differentially occupied nucleosomes.
A method of diagnosing a clinical condition in a subject.
(ii) 대조군 대상체 또는 알려진 질환을 갖는 대상체로부터 생물학적 샘플을 얻고, 생물학적 샘플로부터 cfDNA를 단리하고, 미크로코쿠스 뉴클레아제 (MNase), DNase 처리 또는 ATAC-Seq으로 염색질을 소화시켜 유래된 DNA의 라이브러리 구축 및 대량 병렬 서열결정에 의해 분포 (a), (b) 및/또는 (c)를 측정하여 뉴클레오솜 지도의 참조 세트를 작성하는 단계; 및
(iii) cfDNA로부터 유래된 뉴클레오솜 지도를 뉴클레오솜 지도의 참조 세트와 비교하여 cfDNA의 기원 조직 조성을 결정하는 단계
를 포함하고; 여기서
(a)는 인간 게놈 내의 임의의 특정 염기쌍이 서열결정된 단편의 말단에서 나타날 가능성의 분포이고;
(b)는 인간 게놈의 염기쌍의 임의의 쌍이 서열결정된 단편의 한 쌍의 말단으로서 나타날 가능성의 분포이고;
(c)는 인간 게놈 내의 임의의 특정 염기쌍이 차별적인 뉴클레오솜 점유의 결과로서 서열결정된 단편 내에 나타날 가능성의 분포인,
대상체에서 임상 병태를 진단하는 방법.(i) measuring distribution (a), (b) and / or (c) by obtaining a biological sample from a subject, isolating cfDNA from the biological sample, constructing a library of cfDNA and massively parallelizing the sequence, ;
(ii) obtaining a biological sample from a control subject or a subject having a known disease, isolating cfDNA from the biological sample, digesting chromatin with a micrococycle nuclease (MNase), DNase treatment or ATAC-Seq Measuring distribution (a), (b) and / or (c) by library construction and massively parallel sequencing to create a reference set of nucleosome maps; And
(iii) comparing the nucleosome map derived from cfDNA to the reference set of nucleosome maps to determine the original tissue composition of cfDNA
; here
(a) is the distribution of the likelihood that any particular base pair within the human genome will appear at the end of the sequenced fragment;
(b) is a distribution of the likelihood that any pair of base pairs of the human genome will appear as a pair of ends of the sequenced fragments;
(c) is a distribution of the likelihood that any particular base pair in the human genome will appear within the sequenced fragment as a result of differential nucleosomal occupancy.
A method of diagnosing a clinical condition in a subject.
생물학적 샘플로부터 단리된 cfDNA를 정제하는 단계;
어댑터 라이게이션 및 임의적으로 PCR 증폭에 의해 라이브러리를 구축하는 단계; 및
생성된 라이브러리를 서열결정하는 단계
에 의해 작성되는 것인 방법.95. The method according to any one of claims 92 to 95, wherein the nucleosome map is
Purifying the isolated cfDNA from the biological sample;
Constructing the library by adapter ligation and optionally PCR amplification; And
Sequencing the generated library
. ≪ / RTI >
대조군 대상체로부터의 생물학적 샘플로부터 단리된 cfDNA를 정제하는 단계;
어댑터 라이게이션 및 임의적으로 PCR 증폭에 의해 라이브러리를 구축하는 단계; 및
생성된 라이브러리를 서열결정하는 단계
에 의해 작성되는 것인 방법.95. The method according to any one of claims 92 to 95, wherein the reference set of nucleosome maps comprises
Purifying the isolated cfDNA from the biological sample from the control subject;
Constructing the library by adapter ligation and optionally PCR amplification; And
Sequencing the generated library
. ≪ / RTI >
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020227030533A KR102696857B1 (en) | 2014-07-25 | 2015-07-27 | Methods of determining tissues and/or cell types giving rise to cell-free dna, and methods of identifying a disease or disorder using same |
Applications Claiming Priority (5)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US201462029178P | 2014-07-25 | 2014-07-25 | |
| US62/029,178 | 2014-07-25 | ||
| US201462087619P | 2014-12-04 | 2014-12-04 | |
| US62/087,619 | 2014-12-04 | ||
| PCT/US2015/042310 WO2016015058A2 (en) | 2014-07-25 | 2015-07-27 | Methods of determining tissues and/or cell types giving rise to cell-free dna, and methods of identifying a disease or disorder using same |
Related Child Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| KR1020227030533A Division KR102696857B1 (en) | 2014-07-25 | 2015-07-27 | Methods of determining tissues and/or cell types giving rise to cell-free dna, and methods of identifying a disease or disorder using same |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| KR20170044660A true KR20170044660A (en) | 2017-04-25 |
| KR102441391B1 KR102441391B1 (en) | 2022-09-07 |
Family
ID=55163988
Family Applications (2)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| KR1020177004904A Active KR102441391B1 (en) | 2014-07-25 | 2015-07-27 | Methods of determining tissues and/or cell types giving rise to cell-free dna, and methods of identifying a disease or disorder using same |
| KR1020227030533A Active KR102696857B1 (en) | 2014-07-25 | 2015-07-27 | Methods of determining tissues and/or cell types giving rise to cell-free dna, and methods of identifying a disease or disorder using same |
Family Applications After (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| KR1020227030533A Active KR102696857B1 (en) | 2014-07-25 | 2015-07-27 | Methods of determining tissues and/or cell types giving rise to cell-free dna, and methods of identifying a disease or disorder using same |
Country Status (8)
| Country | Link |
|---|---|
| US (4) | US20170211143A1 (en) |
| EP (2) | EP4358097A1 (en) |
| JP (3) | JP2017522908A (en) |
| KR (2) | KR102441391B1 (en) |
| CN (2) | CN107002122B (en) |
| AU (2) | AU2015292311B2 (en) |
| CA (1) | CA2956208C (en) |
| WO (1) | WO2016015058A2 (en) |
Families Citing this family (119)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2012129363A2 (en) | 2011-03-24 | 2012-09-27 | President And Fellows Of Harvard College | Single cell nucleic acid detection and analysis |
| US9892230B2 (en) | 2012-03-08 | 2018-02-13 | The Chinese University Of Hong Kong | Size-based analysis of fetal or tumor DNA fraction in plasma |
| US11261494B2 (en) | 2012-06-21 | 2022-03-01 | The Chinese University Of Hong Kong | Method of measuring a fractional concentration of tumor DNA |
| US20160040229A1 (en) | 2013-08-16 | 2016-02-11 | Guardant Health, Inc. | Systems and methods to detect rare mutations and copy number variation |
| US10876152B2 (en) | 2012-09-04 | 2020-12-29 | Guardant Health, Inc. | Systems and methods to detect rare mutations and copy number variation |
| US11913065B2 (en) | 2012-09-04 | 2024-02-27 | Guardent Health, Inc. | Systems and methods to detect rare mutations and copy number variation |
| ES2769241T5 (en) | 2012-09-04 | 2023-05-30 | Guardant Health Inc | Systems and methods for detecting copy number variation |
| CN111534580B (en) | 2013-12-28 | 2024-06-04 | 夸登特健康公司 | Methods and systems for detecting genetic variation |
| TWI727156B (en) | 2014-07-18 | 2021-05-11 | 香港中文大學 | Methylation pattern analysis of tissues in a dna mixture |
| WO2016015058A2 (en) | 2014-07-25 | 2016-01-28 | University Of Washington | Methods of determining tissues and/or cell types giving rise to cell-free dna, and methods of identifying a disease or disorder using same |
| US10364467B2 (en) | 2015-01-13 | 2019-07-30 | The Chinese University Of Hong Kong | Using size and number aberrations in plasma DNA for detecting cancer |
| WO2016123698A1 (en) * | 2015-02-06 | 2016-08-11 | Uti Limited Partnership | Diagnostic assay for post-transplant assessment of potential rejection of donor organs |
| SG11201706529TA (en) | 2015-02-10 | 2017-09-28 | Univ Hong Kong Chinese | Detecting mutations for cancer screening and fetal analysis |
| DK3325664T3 (en) | 2015-07-23 | 2022-03-07 | Univ Hong Kong Chinese | Analysis of fragmentation patterns for cell-free DNA |
| EP4180532A1 (en) * | 2015-11-09 | 2023-05-17 | Roche Molecular Systems, Inc. | Methods for determining the origin of dna molecules |
| CA3008651A1 (en) | 2015-12-17 | 2017-06-22 | Guardant Health, Inc. | Methods to determine tumor gene copy number by analysis of cell-free dna |
| US11514289B1 (en) | 2016-03-09 | 2022-11-29 | Freenome Holdings, Inc. | Generating machine learning models using genetic data |
| JP7448310B2 (en) | 2016-07-06 | 2024-03-12 | ガーダント ヘルス, インコーポレイテッド | Methods for fragmentome profiling of cell-free nucleic acids |
| EP3485035B1 (en) | 2016-07-15 | 2024-07-03 | The Regents of the University of California | Methods of producing nucleic acid libraries |
| WO2018027176A1 (en) | 2016-08-05 | 2018-02-08 | The Broad Institute, Inc. | Methods for genome characterization |
| US9850523B1 (en) | 2016-09-30 | 2017-12-26 | Guardant Health, Inc. | Methods for multi-resolution analysis of cell-free nucleic acids |
| KR102344635B1 (en) | 2016-09-30 | 2021-12-31 | 가던트 헬쓰, 인크. | Methods for Multi-Resolution Analysis of Cell-Free Nucleic Acids |
| EP4656736A2 (en) * | 2016-10-12 | 2025-12-03 | Bellwether Bio, Inc. | Determining cell type origin of circulating cell-free dna with molecular counting |
| WO2018072705A1 (en) | 2016-10-19 | 2018-04-26 | The Chinese University Of Hong Kong | Gestational age assessment by methylation and size profiling of maternal plasma dna |
| TWI797095B (en) | 2016-10-24 | 2023-04-01 | 美商格瑞爾有限責任公司 | Methods and systems for tumor detection |
| US11435339B2 (en) | 2016-11-30 | 2022-09-06 | The Chinese University Of Hong Kong | Analysis of cell-free DNA in urine |
| EP3555311B1 (en) | 2016-12-13 | 2024-06-26 | Bellwether Bio, Inc. | Determining a physiological condition in an individual by analyzing cell-free dna fragment endpoints in a biological sample |
| AU2017382439B2 (en) | 2016-12-22 | 2024-08-08 | Guardant Health, Inc. | Methods and systems for analyzing nucleic acid molecules |
| MX2019008227A (en) | 2017-01-10 | 2020-08-17 | Juno Therapeutics Inc | EPIGENETIC ANALYSIS OF CELL THERAPY AND RELATED METHODS. |
| ES2990117T3 (en) | 2017-01-25 | 2024-11-28 | Univ Hong Kong Chinese | Diagnostic applications using nucleic acid fragments |
| EP3635138B1 (en) | 2017-05-15 | 2024-07-03 | Katholieke Universiteit Leuven | Method for analysing cell-free nucleic acids |
| EP3635134A4 (en) * | 2017-06-09 | 2021-03-03 | Bellwether Bio, Inc. | Diagnosis of cancer or other physiological condition using circulating nucleic acid fragment sentinel endpoints |
| EP3635133A4 (en) * | 2017-06-09 | 2021-03-03 | Bellwether Bio, Inc. | Determination of cancer type in a subject by probabilistic modeling of circulating nucleic acid fragment endpoints |
| US10636512B2 (en) | 2017-07-14 | 2020-04-28 | Cofactor Genomics, Inc. | Immuno-oncology applications using next generation sequencing |
| ES2959360T3 (en) | 2017-07-26 | 2024-02-23 | Univ Hong Kong Chinese | Improving cancer screening using acellular viral nucleic acids |
| US11810672B2 (en) * | 2017-10-12 | 2023-11-07 | Nantomics, Llc | Cancer score for assessment and response prediction from biological fluids |
| CN107545153B (en) * | 2017-10-25 | 2021-06-11 | 桂林电子科技大学 | Nucleosome classification prediction method based on convolutional neural network |
| WO2019024341A1 (en) * | 2017-11-27 | 2019-02-07 | 深圳华大生命科学研究院 | Method for constructing library of cell-free dnas in body fluids and application thereof |
| CN108061794B (en) * | 2017-12-25 | 2020-03-27 | 苏州大学 | Method for non-staining, non-probe, non-destructive detection of type and period of cell or cell-like structure microorganism |
| JP7296969B2 (en) | 2018-01-12 | 2023-06-23 | クラレット バイオサイエンス, エルエルシー | Methods and compositions for analyzing nucleic acids |
| US11781183B2 (en) * | 2018-03-13 | 2023-10-10 | Yissum Research Development Company Of The Hebrew University Of Jerusalem Ltd. | Diagnostic use of cell free DNA chromatin immunoprecipitation |
| EP3775198A4 (en) | 2018-04-02 | 2022-01-05 | Grail, Inc. | Methylation markers and targeted methylation probe panels |
| WO2019209884A1 (en) * | 2018-04-23 | 2019-10-31 | Grail, Inc. | Methods and systems for screening for conditions |
| EP3794348A4 (en) | 2018-05-18 | 2022-03-09 | The Johns Hopkins University | Cell-free dna for assessing and/or treating cancer |
| JP2021526791A (en) * | 2018-06-04 | 2021-10-11 | ガーダント ヘルス, インコーポレイテッド | Methods and systems for determining the cellular origin of cell-free nucleic acids |
| WO2019236726A1 (en) | 2018-06-06 | 2019-12-12 | The Regents Of The University Of California | Methods of producing nucleic acid libraries and compositions and kits for practicing same |
| CN108796056A (en) * | 2018-06-28 | 2018-11-13 | 元码基因科技(北京)股份有限公司 | Target gene capture technique based on dissociative DNA carries out the method that tissue is traced to the source |
| WO2020006369A1 (en) * | 2018-06-29 | 2020-01-02 | Guardant Health, Inc. | Methods and systems for analysis of ctcf binding regions in cell-free dna |
| CN108913682A (en) * | 2018-07-05 | 2018-11-30 | 上海奥测医疗科技有限公司 | A method of preparing cfDNA reference material |
| CA3107359A1 (en) * | 2018-07-23 | 2020-01-30 | The Chinese University Of Hong Kong | Cell-free dna damage analysis and its clinical applications |
| CN109448783B (en) * | 2018-08-07 | 2022-05-13 | 清华大学 | A method for analyzing chromatin topological domain boundaries |
| CN113286881A (en) | 2018-09-27 | 2021-08-20 | 格里尔公司 | Methylation signatures and target methylation probe plates |
| CA3107948A1 (en) * | 2018-10-08 | 2020-04-16 | Freenome Holdings, Inc. | Transcription factor profiling |
| CN111172263A (en) * | 2018-11-12 | 2020-05-19 | 北京医院 | A reference substance applied to non-invasive prenatal detection and preparation method thereof |
| BR112021009706A2 (en) * | 2018-11-21 | 2021-08-17 | Karius, Inc. | detection and prediction of infectious disease |
| US20200199685A1 (en) | 2018-12-17 | 2020-06-25 | Guardant Health, Inc. | Determination of a physiological condition with nucleic acid fragment endpoints |
| AU2019410635A1 (en) * | 2018-12-19 | 2021-06-17 | Grail, Inc. | Cell-free DNA end characteristics |
| US11657897B2 (en) * | 2018-12-31 | 2023-05-23 | Nvidia Corporation | Denoising ATAC-seq data with deep learning |
| WO2020154402A1 (en) * | 2019-01-24 | 2020-07-30 | Illumina, Inc. | Methods and systems for monitoring organ health and disease |
| AU2020216438A1 (en) | 2019-01-31 | 2021-07-29 | Guardant Health, Inc. | Compositions and methods for isolating cell-free DNA |
| CN109841265B (en) * | 2019-02-22 | 2021-09-21 | 清华大学 | Method and system for determining tissue source of plasma free nucleic acid molecules by using fragmentation mode and application |
| WO2020198942A1 (en) * | 2019-03-29 | 2020-10-08 | 中国科学技术大学 | Single-cell chromatin accessibility sequencing data analysis method and system based on peak clustering |
| EP3976822A1 (en) | 2019-05-31 | 2022-04-06 | Guardant Health, Inc. | Methods and systems for improving patient monitoring after surgery |
| CN110272985B (en) * | 2019-06-26 | 2021-08-17 | 广州市雄基生物信息技术有限公司 | Tumor screening kit based on peripheral blood plasma free DNA high-throughput sequencing technology, system and method thereof |
| WO2021067484A1 (en) | 2019-09-30 | 2021-04-08 | Guardant Health, Inc. | Compositions and methods for analyzing cell-free dna in methylation partitioning assays |
| CN110739027B (en) * | 2019-10-23 | 2023-04-18 | 深圳吉因加医学检验实验室 | Cancer tissue positioning method and system based on chromatin region coverage depth |
| WO2021108708A1 (en) | 2019-11-26 | 2021-06-03 | Guardant Health, Inc. | Methods, compositions and systems for improving the binding of methylated polynucleotides |
| CN115298324A (en) * | 2019-12-18 | 2022-11-04 | 香港中文大学 | Free DNA fragmentation and nucleases |
| WO2021126091A1 (en) * | 2019-12-19 | 2021-06-24 | Agency For Science, Technology And Research | A method of estimating a circulating tumor dna burden and related kits and methods |
| CN115151657A (en) * | 2019-12-20 | 2022-10-04 | 安可济控股有限公司 | Methods and systems for disease detection |
| EP4081655A1 (en) | 2019-12-24 | 2022-11-02 | Vib Vzw | Disease detection in liquid biopsies |
| CN115087745A (en) * | 2020-01-08 | 2022-09-20 | 香港中文大学 | Double-ended DNA fragment types in cell-free samples and uses thereof |
| US20230053409A1 (en) * | 2020-01-09 | 2023-02-23 | Seoul National University R&Db Foundation | Atac-seq data normalization and method for utilizing same |
| CN111254194B (en) * | 2020-01-13 | 2021-09-07 | 东南大学 | Cancer-related biomarkers based on cfDNA sequencing and data analysis and their application in cfDNA sample classification |
| CN115428088A (en) * | 2020-02-13 | 2022-12-02 | 10X基因组学有限公司 | Systems and methods for joint interactive visualization of gene expression and DNA chromatin accessibility |
| US11211147B2 (en) | 2020-02-18 | 2021-12-28 | Tempus Labs, Inc. | Estimation of circulating tumor fraction using off-target reads of targeted-panel sequencing |
| US11211144B2 (en) | 2020-02-18 | 2021-12-28 | Tempus Labs, Inc. | Methods and systems for refining copy number variation in a liquid biopsy assay |
| US11475981B2 (en) | 2020-02-18 | 2022-10-18 | Tempus Labs, Inc. | Methods and systems for dynamic variant thresholding in a liquid biopsy assay |
| CN113362897A (en) * | 2020-03-06 | 2021-09-07 | 福建和瑞基因科技有限公司 | Tumor marker screening method based on nucleosome distribution characteristics and application |
| WO2021222828A1 (en) | 2020-04-30 | 2021-11-04 | Guardant Health, Inc. | Methods for sequence determination using partitioned nucleic acids |
| IL298458A (en) * | 2020-05-22 | 2023-01-01 | Aqtual Inc | Methods for characterizing cell-free nucleic acid fragments |
| CN111724860B (en) * | 2020-06-18 | 2021-03-16 | 深圳吉因加医学检验实验室 | A method and device for identifying open regions of chromatin based on sequencing data |
| EP4407042A3 (en) | 2020-07-10 | 2024-09-18 | Guardant Health, Inc. | Methods of detecting genomic rearrangements using cell free nucleic acids |
| WO2023282916A1 (en) | 2021-07-09 | 2023-01-12 | Guardant Health, Inc. | Methods of detecting genomic rearrangements using cell free nucleic acids |
| CN111881418B (en) * | 2020-07-27 | 2023-05-16 | 中国农业科学院农业信息研究所 | Dichotomy-based soybean meteorological yield prediction method and system |
| ES3018032T3 (en) | 2020-07-30 | 2025-05-14 | Guardant Health Inc | Methods for isolating cell-free dna |
| CN112085067B (en) * | 2020-08-17 | 2022-07-12 | 浙江大学 | Method for high-throughput screening of DNA damage response inhibitor |
| JP2023540221A (en) | 2020-08-25 | 2023-09-22 | ガーダント ヘルス, インコーポレイテッド | Methods and systems for predicting variant origin |
| WO2022061080A1 (en) * | 2020-09-17 | 2022-03-24 | The Regents Of The University Of Colorado, A Body Corporate | Signatures in cell-free dna to detect disease, track treatment response, and inform treatment decisions |
| WO2022073011A1 (en) | 2020-09-30 | 2022-04-07 | Guardant Health, Inc. | Methods and systems to improve the signal to noise ratio of dna methylation partitioning assays |
| JP2023547620A (en) | 2020-10-23 | 2023-11-13 | ガーダント ヘルス, インコーポレイテッド | Compositions and methods for analyzing DNA using partitioning and base conversion |
| EP4251765A1 (en) | 2020-11-30 | 2023-10-04 | Guardant Health, Inc. | Compositions and methods for enriching methylated polynucleotides |
| EP4267757A1 (en) | 2020-12-23 | 2023-11-01 | Guardant Health, Inc. | Methods and systems for analyzing methylated polynucleotides |
| TW202242145A (en) * | 2020-12-29 | 2022-11-01 | 比利時商比利時意志有限公司 | Transcription factor binding site analysis of nucleosome depleted circulating cell free chromatin fragments |
| CN115667543A (en) * | 2021-02-09 | 2023-01-31 | 因美纳有限公司 | Method and system for monitoring organ health and disease |
| WO2022174109A1 (en) | 2021-02-12 | 2022-08-18 | Guardant Health, Inc. | Methods and compositions for detecting nucleic acid variants |
| WO2022204730A1 (en) | 2021-03-25 | 2022-09-29 | Guardant Health, Inc. | Methods and compositions for quantifying immune cell dna |
| EP4320277A4 (en) * | 2021-04-08 | 2025-03-05 | Delfi Diagnostics, Inc. | METHODS FOR DETECTING CANCER USING GENOME-WIDE CFDNA FRAGMENTATION PROFILES |
| EP4320618A4 (en) * | 2021-04-08 | 2025-08-27 | Fred Hutchinson Cancer Center | Cell-free DNA sequence data analysis method for investigating nucleosome protection and chromatin accessibility |
| WO2022271730A1 (en) | 2021-06-21 | 2022-12-29 | Guardant Health, Inc. | Methods and compositions for copy-number informed tissue-of-origin analysis |
| WO2023056065A1 (en) | 2021-09-30 | 2023-04-06 | Guardant Health, Inc. | Compositions and methods for synthesis and use of probes targeting nucleic acid rearrangements |
| CA3246524A1 (en) | 2022-04-07 | 2023-10-12 | Guardant Health, Inc. | Detecting the presence of a tumor based on methylation status of cell-free nucleic acid molecules |
| GB202205710D0 (en) | 2022-04-19 | 2022-06-01 | Univ Of Essex Enterprises Limited | Cell-free DNA-based methods |
| JP2025522763A (en) | 2022-06-30 | 2025-07-17 | ガーダント ヘルス, インコーポレイテッド | Enrichment of aberrantly methylated DNA |
| WO2024056720A1 (en) | 2022-09-13 | 2024-03-21 | Medizinische Universität Graz | Determining of health status and treatment monitoring with cell-free dna |
| EP4594522A2 (en) | 2022-09-27 | 2025-08-06 | Guardant Health, Inc. | Methods for quantifying immune cell dna |
| EP4638782A2 (en) | 2022-12-22 | 2025-10-29 | Guardant Health, Inc. | Integrated targeted and whole genome somatic and dna methylation sequencing workflows |
| EP4638781A2 (en) | 2022-12-22 | 2025-10-29 | Guardant Health, Inc. | Methods involving methylation preserving amplification with error correction |
| WO2024233502A1 (en) | 2023-05-05 | 2024-11-14 | Guardant Health, Inc. | Cell-free dna blood-based test for cancer screening |
| WO2025029475A1 (en) | 2023-07-28 | 2025-02-06 | Guardant Health, Inc. | Methods to enrich nucleotide variants by negative selection |
| WO2025038399A1 (en) | 2023-08-11 | 2025-02-20 | Guardant Health, Inc. | Methylated enrichment methods for single-molecule genetic and epigenetic sequencing |
| CN117230165A (en) * | 2023-09-01 | 2023-12-15 | 深圳湾实验室 | Optimization method for noninvasively detecting fetal chromosome copy number abnormality |
| WO2025064706A1 (en) | 2023-09-19 | 2025-03-27 | Guardant Health, Inc. | Detecting the presence of a tumor based on methylation status of cell-free nucleic acid molecules |
| WO2025076452A1 (en) | 2023-10-06 | 2025-04-10 | Guardant Health, Inc. | Detecting tumor-related information based on methylation status of cell-free nucleic acid molecules |
| WO2025137389A2 (en) | 2023-12-22 | 2025-06-26 | Guardant Health, Inc. | Methods for targeted single-molecule genetic and epigenetic sequencing |
| WO2025207817A1 (en) | 2024-03-26 | 2025-10-02 | Guardant Health, Inc. | Method of determining the likelihood of a disease by combining biomarkers and imaging |
| WO2025208044A1 (en) | 2024-03-28 | 2025-10-02 | Guardant Health, Inc. | Methods for cancer detection using molecular patterns |
| WO2025235889A1 (en) | 2024-05-10 | 2025-11-13 | Guardant Health, Inc. | Methods involving multiplexed pooled pcr |
| WO2025250544A1 (en) | 2024-05-31 | 2025-12-04 | Guardant Health, Inc. | Methods for analyzing chromatin architecture in tissue to boost detection of cancer associated signals in cell-free dna |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2013177086A1 (en) * | 2012-05-21 | 2013-11-28 | Sequenom, Inc. | Methods and processes for non-invasive assessment of genetic variations |
Family Cites Families (55)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| GB0016742D0 (en) * | 2000-07-10 | 2000-08-30 | Simeg Limited | Diagnostic method |
| JP2002272497A (en) | 2001-03-15 | 2002-09-24 | Venture Link Co Ltd | Method for diagnosing cancer and diagnostic vector therefor |
| US6927028B2 (en) | 2001-08-31 | 2005-08-09 | Chinese University Of Hong Kong | Non-invasive methods for detecting non-host DNA in a host using epigenetic differences between the host and non-host DNA |
| AU2004217872B2 (en) | 2003-03-05 | 2010-03-25 | Genetic Technologies Limited | Identification of fetal DNA and fetal cell markers in maternal plasma or serum |
| ATE435301T1 (en) | 2003-10-16 | 2009-07-15 | Sequenom Inc | NON-INVASIVE DETECTION OF FETAL GENETIC CHARACTERISTICS |
| US20070122823A1 (en) | 2005-09-01 | 2007-05-31 | Bianchi Diana W | Amniotic fluid cell-free fetal DNA fragment size pattern for prenatal diagnosis |
| EP2423334A3 (en) | 2006-02-02 | 2012-04-18 | The Board of Trustees of The Leland Stanford Junior University | Non-invasive fetal genetic screening by digital analysis |
| AU2007220991C1 (en) | 2006-02-28 | 2013-08-15 | University Of Louisville Research Foundation | Detecting fetal chromosomal abnormalities using tandem single nucleotide polymorphisms |
| TWI335354B (en) | 2006-09-27 | 2011-01-01 | Univ Hong Kong Chinese | Methods for the detection of the degree of the methylation of a target dna and kits |
| US7842482B2 (en) | 2007-02-26 | 2010-11-30 | The Chinese University Of Hong Kong | Methods and kits for diagnosis, prognosis or monitoring of Epstein-Barr virus (EBV)-associated cancer |
| US12180549B2 (en) | 2007-07-23 | 2024-12-31 | The Chinese University Of Hong Kong | Diagnosing fetal chromosomal aneuploidy using genomic sequencing |
| CN106886688B (en) | 2007-07-23 | 2020-07-10 | 香港中文大学 | System for analyzing cancer-associated genetic variations |
| US9218449B2 (en) | 2007-07-23 | 2015-12-22 | The Chinese University Of Hong Kong | Methods for analyzing massively parallel sequencing data for noninvasive prenatal diagnosis |
| US20090053719A1 (en) | 2007-08-03 | 2009-02-26 | The Chinese University Of Hong Kong | Analysis of nucleic acids by digital pcr |
| US8748100B2 (en) | 2007-08-30 | 2014-06-10 | The Chinese University Of Hong Kong | Methods and kits for selectively amplifying, detecting or quantifying target DNA with specific end sequences |
| WO2009051842A2 (en) | 2007-10-18 | 2009-04-23 | The Johns Hopkins University | Detection of cancer by measuring genomic copy number and strand length in cell-free dna |
| US20100041048A1 (en) | 2008-07-31 | 2010-02-18 | The Johns Hopkins University | Circulating Mutant DNA to Assess Tumor Dynamics |
| US8476013B2 (en) * | 2008-09-16 | 2013-07-02 | Sequenom, Inc. | Processes and compositions for methylation-based acid enrichment of fetal nucleic acid from a maternal sample useful for non-invasive prenatal diagnoses |
| ES2620012T3 (en) | 2008-09-20 | 2017-06-27 | The Board Of Trustees Of The Leland Stanford Junior University | Non-invasive diagnosis of fetal aneuploidy by sequencing |
| WO2010053980A2 (en) | 2008-11-04 | 2010-05-14 | The Johns Hopkins University | Dna integrity assay (dia) for cancer diagnostics, using confocal fluorescence spectroscopy |
| WO2010112316A1 (en) | 2009-03-31 | 2010-10-07 | Oridis Biomed Forschungs- Und Entwicklungs Gmbh | Method for diagnosis of cancer and monitoring of cancer treatments |
| WO2011053790A2 (en) | 2009-10-30 | 2011-05-05 | Fluidigm Corporation | Assay of closely linked targets in fetal diagnosis and coincidence detection assay for genetic analysis |
| WO2011057094A1 (en) | 2009-11-05 | 2011-05-12 | The Chinese University Of Hong Kong | Fetal genomic analysis from a maternal biological sample |
| AU2010317019B2 (en) | 2009-11-06 | 2014-10-30 | The Chinese University Of Hong Kong | Size-based genomic analysis |
| WO2011090556A1 (en) | 2010-01-19 | 2011-07-28 | Verinata Health, Inc. | Methods for determining fraction of fetal nucleic acid in maternal samples |
| US9260745B2 (en) | 2010-01-19 | 2016-02-16 | Verinata Health, Inc. | Detecting and classifying copy number variation |
| US20130210645A1 (en) * | 2010-02-18 | 2013-08-15 | The Johns Hopkins University | Personalized tumor biomarkers |
| CN103370456A (en) * | 2010-08-24 | 2013-10-23 | 比奥Dx股份有限公司 | Defining diagnostic and therapeutic targets of conserved free floating fetal DNA in maternal circulating blood |
| EP2426217A1 (en) | 2010-09-03 | 2012-03-07 | Centre National de la Recherche Scientifique (CNRS) | Analytical methods for cell free nucleic acids and applications |
| EP4269623A3 (en) | 2010-11-30 | 2024-03-06 | The Chinese University Of Hong Kong | Analysis of a biological sample of an organism for chromosomal deletions or amplifications associated with cancer |
| WO2013043922A1 (en) | 2011-09-22 | 2013-03-28 | ImmuMetrix, LLC | Compositions and methods for analyzing heterogeneous samples |
| US10196681B2 (en) | 2011-10-06 | 2019-02-05 | Sequenom, Inc. | Methods and processes for non-invasive assessment of genetic variations |
| WO2013060762A1 (en) | 2011-10-25 | 2013-05-02 | Roche Diagnostics Gmbh | Method for diagnosing a disease based on plasma-dna distribution |
| US9757458B2 (en) | 2011-12-05 | 2017-09-12 | Immunomedics, Inc. | Crosslinking of CD22 by epratuzumab triggers BCR signaling and caspase-dependent apoptosis in hematopoietic cancer cells |
| EP2807277A4 (en) | 2012-01-27 | 2016-02-17 | Univ Leland Stanford Junior | METHODS OF PROFILING AND QUANTIFYING ACELLULAR RNA |
| EP3401399B1 (en) * | 2012-03-02 | 2020-04-22 | Sequenom, Inc. | Methods and processes for non-invasive assessment of genetic variations |
| US9892230B2 (en) | 2012-03-08 | 2018-02-13 | The Chinese University Of Hong Kong | Size-based analysis of fetal or tumor DNA fraction in plasma |
| WO2013177581A2 (en) * | 2012-05-24 | 2013-11-28 | University Of Washington Through Its Center For Commercialization | Whole genome sequencing of a human fetus |
| US11261494B2 (en) * | 2012-06-21 | 2022-03-01 | The Chinese University Of Hong Kong | Method of measuring a fractional concentration of tumor DNA |
| ES2769241T5 (en) | 2012-09-04 | 2023-05-30 | Guardant Health Inc | Systems and methods for detecting copy number variation |
| US20160004814A1 (en) * | 2012-09-05 | 2016-01-07 | University Of Washington Through Its Center For Commercialization | Methods and compositions related to regulation of nucleic acids |
| US9732390B2 (en) | 2012-09-20 | 2017-08-15 | The Chinese University Of Hong Kong | Non-invasive determination of methylome of fetus or tumor from plasma |
| WO2014043763A1 (en) | 2012-09-20 | 2014-03-27 | The Chinese University Of Hong Kong | Non-invasive determination of methylome of fetus or tumor from plasma |
| WO2014190286A2 (en) * | 2013-05-24 | 2014-11-27 | Sequenom, Inc. | Methods and processes for non-invasive assessment of genetic variations |
| US20160115541A1 (en) * | 2013-05-29 | 2016-04-28 | Chronix Biomedical | Detection and quantification of donor cell-free dna in the circulation of organ transplant recipients |
| US10262755B2 (en) | 2014-04-21 | 2019-04-16 | Natera, Inc. | Detecting cancer mutations and aneuploidy in chromosomal segments |
| AU2015249846B2 (en) * | 2014-04-21 | 2021-07-22 | Natera, Inc. | Detecting mutations and ploidy in chromosomal segments |
| US10318704B2 (en) * | 2014-05-30 | 2019-06-11 | Verinata Health, Inc. | Detecting fetal sub-chromosomal aneuploidies |
| TWI727156B (en) | 2014-07-18 | 2021-05-11 | 香港中文大學 | Methylation pattern analysis of tissues in a dna mixture |
| WO2016015058A2 (en) | 2014-07-25 | 2016-01-28 | University Of Washington | Methods of determining tissues and/or cell types giving rise to cell-free dna, and methods of identifying a disease or disorder using same |
| US11242559B2 (en) | 2015-01-13 | 2022-02-08 | The Chinese University Of Hong Kong | Method of nuclear DNA and mitochondrial DNA analysis |
| US10364467B2 (en) | 2015-01-13 | 2019-07-30 | The Chinese University Of Hong Kong | Using size and number aberrations in plasma DNA for detecting cancer |
| US10319463B2 (en) | 2015-01-23 | 2019-06-11 | The Chinese University Of Hong Kong | Combined size- and count-based analysis of maternal plasma for detection of fetal subchromosomal aberrations |
| SG11201706529TA (en) | 2015-02-10 | 2017-09-28 | Univ Hong Kong Chinese | Detecting mutations for cancer screening and fetal analysis |
| DK3325664T3 (en) | 2015-07-23 | 2022-03-07 | Univ Hong Kong Chinese | Analysis of fragmentation patterns for cell-free DNA |
-
2015
- 2015-07-27 WO PCT/US2015/042310 patent/WO2016015058A2/en not_active Ceased
- 2015-07-27 EP EP23197187.0A patent/EP4358097A1/en active Pending
- 2015-07-27 AU AU2015292311A patent/AU2015292311B2/en active Active
- 2015-07-27 EP EP15824425.1A patent/EP3172341A4/en not_active Withdrawn
- 2015-07-27 KR KR1020177004904A patent/KR102441391B1/en active Active
- 2015-07-27 CN CN201580052170.7A patent/CN107002122B/en active Active
- 2015-07-27 US US15/329,228 patent/US20170211143A1/en not_active Abandoned
- 2015-07-27 JP JP2017525327A patent/JP2017522908A/en active Pending
- 2015-07-27 KR KR1020227030533A patent/KR102696857B1/en active Active
- 2015-07-27 CN CN202311109971.5A patent/CN117402950A/en active Pending
- 2015-07-27 CA CA2956208A patent/CA2956208C/en active Active
-
2018
- 2018-10-15 US US16/160,990 patent/US20190127794A1/en not_active Abandoned
-
2020
- 2020-05-21 US US16/880,884 patent/US11352670B2/en active Active
- 2020-12-08 JP JP2020203304A patent/JP2021045161A/en active Pending
-
2022
- 2022-04-20 AU AU2022202587A patent/AU2022202587B2/en active Active
- 2022-06-06 US US17/805,656 patent/US20230212672A1/en active Pending
-
2023
- 2023-05-19 JP JP2023082794A patent/JP7681641B2/en active Active
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2013177086A1 (en) * | 2012-05-21 | 2013-11-28 | Sequenom, Inc. | Methods and processes for non-invasive assessment of genetic variations |
Non-Patent Citations (3)
| Title |
|---|
| Cancer Reserach (1995) 55:3873-3882 * |
| Cell (2016) 164:57-68 * |
| Nature Methods (2013.12.08.) 11(1):73-78 * |
Also Published As
| Publication number | Publication date |
|---|---|
| AU2022202587B2 (en) | 2024-07-04 |
| AU2022202587A1 (en) | 2022-05-26 |
| EP4358097A1 (en) | 2024-04-24 |
| JP2023123420A (en) | 2023-09-05 |
| CA2956208C (en) | 2025-07-08 |
| JP7681641B2 (en) | 2025-05-22 |
| US20230212672A1 (en) | 2023-07-06 |
| JP2021045161A (en) | 2021-03-25 |
| KR102696857B1 (en) | 2024-08-19 |
| EP3172341A2 (en) | 2017-05-31 |
| US20210010081A1 (en) | 2021-01-14 |
| WO2016015058A3 (en) | 2016-03-17 |
| CN117402950A (en) | 2024-01-16 |
| CN107002122B (en) | 2023-09-19 |
| EP3172341A4 (en) | 2018-03-28 |
| US20190127794A1 (en) | 2019-05-02 |
| KR20220127359A (en) | 2022-09-19 |
| JP2017522908A (en) | 2017-08-17 |
| AU2015292311B2 (en) | 2022-01-20 |
| CN107002122A (en) | 2017-08-01 |
| KR102441391B1 (en) | 2022-09-07 |
| CA2956208A1 (en) | 2016-01-28 |
| US20170211143A1 (en) | 2017-07-27 |
| US11352670B2 (en) | 2022-06-07 |
| AU2015292311A1 (en) | 2017-03-09 |
| WO2016015058A2 (en) | 2016-01-28 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7681641B2 (en) | Methods for determining tissue and/or cell types from which cell-free DNA originates and methods for using same to identify diseases or disorders | |
| Snyder et al. | Cell-free DNA comprises an in vivo nucleosome footprint that informs its tissues-of-origin | |
| RU2018121254A (en) | HIGH-EFFICIENT CONSTRUCTION OF DNA LIBRARIES | |
| EP3555311B1 (en) | Determining a physiological condition in an individual by analyzing cell-free dna fragment endpoints in a biological sample | |
| US20220403467A1 (en) | Determining cell type origin of circulating cell-free dna with molecular counting | |
| EP3372686B1 (en) | Biomarker for detection of lung adenocarcinoma and use thereof | |
| US20200255905A1 (en) | Diagnosis of cancer or other physiological condition using circulating nucleic acid fragment sentinel endpoints | |
| WO2023067597A1 (en) | Use of nanopore sequencing for determining the origin of circulating dna | |
| HK40110787A (en) | Methods of determining tissues and/or cell types giving rise to cell-free dna, and methods of identifying a disease or disorder using same | |
| CN109841265B (en) | Method and system for determining tissue source of plasma free nucleic acid molecules by using fragmentation mode and application | |
| JP7362901B2 (en) | Calculation method and program for base methylation degree | |
| Doebley | Predicting cancer subtypes from nucleosome profiling of cell-free DNA |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PA0105 | International application |
St.27 status event code: A-0-1-A10-A15-nap-PA0105 |
|
| R18-X000 | Changes to party contact information recorded |
St.27 status event code: A-3-3-R10-R18-oth-X000 |
|
| P11-X000 | Amendment of application requested |
St.27 status event code: A-2-2-P10-P11-nap-X000 |
|
| P13-X000 | Application amended |
St.27 status event code: A-2-2-P10-P13-nap-X000 |
|
| PG1501 | Laying open of application |
St.27 status event code: A-1-1-Q10-Q12-nap-PG1501 |
|
| P22-X000 | Classification modified |
St.27 status event code: A-2-2-P10-P22-nap-X000 |
|
| P22-X000 | Classification modified |
St.27 status event code: A-2-2-P10-P22-nap-X000 |
|
| E13-X000 | Pre-grant limitation requested |
St.27 status event code: A-2-3-E10-E13-lim-X000 |
|
| P11-X000 | Amendment of application requested |
St.27 status event code: A-2-2-P10-P11-nap-X000 |
|
| P13-X000 | Application amended |
St.27 status event code: A-2-2-P10-P13-nap-X000 |
|
| PA0201 | Request for examination |
St.27 status event code: A-1-2-D10-D11-exm-PA0201 |
|
| P22-X000 | Classification modified |
St.27 status event code: A-2-2-P10-P22-nap-X000 |
|
| E902 | Notification of reason for refusal | ||
| PE0902 | Notice of grounds for rejection |
St.27 status event code: A-1-2-D10-D21-exm-PE0902 |
|
| T11-X000 | Administrative time limit extension requested |
St.27 status event code: U-3-3-T10-T11-oth-X000 |
|
| E13-X000 | Pre-grant limitation requested |
St.27 status event code: A-2-3-E10-E13-lim-X000 |
|
| P11-X000 | Amendment of application requested |
St.27 status event code: A-2-2-P10-P11-nap-X000 |
|
| P13-X000 | Application amended |
St.27 status event code: A-2-2-P10-P13-nap-X000 |
|
| E701 | Decision to grant or registration of patent right | ||
| PE0701 | Decision of registration |
St.27 status event code: A-1-2-D10-D22-exm-PE0701 |
|
| A107 | Divisional application of patent | ||
| GRNT | Written decision to grant | ||
| PA0104 | Divisional application for international application |
St.27 status event code: A-0-1-A10-A18-div-PA0104 St.27 status event code: A-0-1-A10-A16-div-PA0104 |
|
| PR0701 | Registration of establishment |
St.27 status event code: A-2-4-F10-F11-exm-PR0701 |
|
| PR1002 | Payment of registration fee |
St.27 status event code: A-2-2-U10-U12-oth-PR1002 Fee payment year number: 1 |
|
| PG1601 | Publication of registration |
St.27 status event code: A-4-4-Q10-Q13-nap-PG1601 |
|
| P22-X000 | Classification modified |
St.27 status event code: A-4-4-P10-P22-nap-X000 |
|
| R18-X000 | Changes to party contact information recorded |
St.27 status event code: A-5-5-R10-R18-oth-X000 |
|
| PR1001 | Payment of annual fee |
St.27 status event code: A-4-4-U10-U11-oth-PR1001 Fee payment year number: 4 |
|
| U11 | Full renewal or maintenance fee paid |
Free format text: ST27 STATUS EVENT CODE: A-4-4-U10-U11-OTH-PR1001 (AS PROVIDED BY THE NATIONAL OFFICE) Year of fee payment: 4 |