[go: up one dir, main page]

TW202430650A - 尿液及血漿中之片段組學 - Google Patents

尿液及血漿中之片段組學 Download PDF

Info

Publication number
TW202430650A
TW202430650A TW112146411A TW112146411A TW202430650A TW 202430650 A TW202430650 A TW 202430650A TW 112146411 A TW112146411 A TW 112146411A TW 112146411 A TW112146411 A TW 112146411A TW 202430650 A TW202430650 A TW 202430650A
Authority
TW
Taiwan
Prior art keywords
dna molecules
free dna
sample
urine
dna
Prior art date
Application number
TW112146411A
Other languages
English (en)
Inventor
煜明 盧
君賜 陳
江培勇
馬立真
周澤
Original Assignee
香港商創新診斷科技中心
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 香港商創新診斷科技中心 filed Critical 香港商創新診斷科技中心
Publication of TW202430650A publication Critical patent/TW202430650A/zh

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6858Allele-specific amplification
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2563/00Nucleic acid detection characterized by the use of physical, structural and functional properties
    • C12Q2563/155Particles of a defined size, e.g. nanoparticles
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/112Disease subtyping, staging or classification
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/154Methylation markers
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Organic Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Engineering & Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Immunology (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Microbiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Pathology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

片段組學特徵提供了樣品(例如尿液或血漿)及/或個體之各種性質。臨床相關DNA (例如,經腎及非經腎尿液cfDNA之類型)之相對貢獻或富集係利用尿液游離DNA之片段組學特徵提供的。此類量測可用於反映腎小球滲透性及監測各種疾病,例如腎臟異常。片段組學特徵可包括校正之尿液DNA濃度、長度、尿液DNA分子之末端模體及來自一或多個組織之開放染色質區域(OCR)之cfDNA分子。此外,基於與不同的cfDNA切割譜有關的相對貢獻來確定cfDNA之核酸酶活性或其他片段化過程,上述不同的cfDNA切割譜亦用於確定來自組織的cfDNA之貢獻、病理等級及孕齡。

Description

尿液及血漿中之片段組學
尿液游離DNA及血漿游離DNA分子包括自不同的正常組織/器官及惡性細胞釋放之DNA分子,但表現出不同的片段化模式。例如,與血漿游離DNA相比,尿液游離DNA分子通常具有更短的長度分佈,其富含分開的更尖銳之10bp週期峰(Tsui等人, PLOS ONE 2012;7:e48319)。使用具有脫氧核糖核酸酶基因缺失之小鼠模型證明了脫氧核糖核酸酶1樣3 (DNASE1L3)為血漿游離DNA片段化之主要貢獻者(Han等人, Am J Hum Genet. 2020;106:202-214)。與血漿樣品相比,脫氧核糖核酸酶1 (DNASE1)負責塑造尿液游離DNA之片段化特性(Chen等人, PLOS Genet. 2022;18:e1010262)。
尿液游離DNA亦可包括具有其各自特徵之不同類型的DNA分子。例如,存在自非泌尿系統(例如,血細胞、肝、肺、結腸、心臟、腦、脾、胃、胎盤組織)釋放之 經腎 尿液游離DNA分子,其通過腎之腎小球到達泌尿系統。除了經腎游離DNA之外,亦存在 非經腎 尿液游離DNA分子,其來源於泌尿系統且直接自泌尿系統釋放,例如腎小管、膀胱、尿道等。然而,缺乏自給定尿液樣品中鑑定特徵或反映經腎及非經腎游離DNA之程度的方法。
此外,許多研究證明血漿末端模體之使用可告知存在從自體免疫性疾病至多種癌症類型之各種疾病(Chan等人, Am J Hum Genet. 2020;107:882-894;Jiang等人, Cancer Discov. 2020;10:664-73)。因此,全面地確定核酸酶(例如DNASE1L3、DNASE1、DNA片段化因子亞單位β (DFFB)等)之使用水平在臨床上係有意義的。吾人推斷,使用末端模體譜將允許推斷參與游離DNA分子之產生的核酸酶之程度(即核酸酶使用水平)且監測不同病理生理學狀態之核酸酶活性。然而,缺乏允許在單次分析中對各種DNA核酸酶進行綜合評估之工具。
提供了用於確定樣品及/或個體之各種性質之樣品的片段組學特徵之方法、儀器及系統。各種方法可用於尿液樣品及/或血漿樣品。
作為尿液樣品之實例,可使用尿液游離DNA之片段組學特徵來提供臨床相關DNA (例如,經腎及非經腎尿液cfDNA之類型)之濃度分數或富集。對尿液DNA片段組學之量測亦可用於反映腎小球滲透性及監測各種疾病,例如腎臟異常。片段組學特徵可包括校正之尿液DNA濃度、長度、尿液DNA分子之末端模體及來自一或多個組織之開放染色質區域(OCR)之cfDNA分子。
在其他實施例中(例如,對於尿液、血漿或其他游離樣品),核酸酶活性或cfDNA之其他片段化過程可基於不同的cfDNA切割譜之相對貢獻來確定,上述不同的cfDNA切割譜亦可用於確定來自組織之cfDNA的濃度分數、病理等級及孕齡。
下面詳細描述本揭露內容之此等及其他實施例。例如,其他實施例涉及與本文描述之方法相關聯之系統、裝置及電腦可讀媒體。
參考以下詳細描述及附圖,可獲得對本揭露內容之實施例之性質及優點之更好理解。
參考說明書之其餘部分,包括附圖及申請專利範圍,將認識到本揭露內容之其他特徵及優點。下面將參照附圖詳細描述本揭露內容之其他特徵及優點,以及本揭露內容之各種實施例之結構及操作。在附圖中,相同之附圖標記可表示相同或功能相似之組件。
相關申請之交叉引用
本申請為PCT申請案,且主張於2022年11月29日提交之標題為「尿液及血漿中之片段組學」的美國臨時專利申請案第63/428,694號之權益,藉由引用將其全文併入本文用於所有目的。 術語
組織 對應於聚集一起作為功能單元之一組細胞。在單個組織中可發現多於一種類型之細胞。不同類型之組織可由不同類型之細胞(例如肝細胞、肺泡細胞或血細胞)組成,但亦可對應於來自不同生物體(母親對胎兒)之組織或對應於健康細胞比腫瘤細胞。 參考組織 可對應於用於測定組織特異性甲基化水平之組織。來自不同個體之相同組織類型之多個樣品可用於確定該組織類型之組織特異性甲基化水平。
生物樣品 係指取自個體(例如,人(或其他動物),例如孕婦、患有癌症或其他病症之人,或懷疑患有癌症或其他病症之人、器官移植接受者或懷疑患有涉及器官之疾病過程(例如,心肌梗死中之心臟,或中風中之腦,或貧血中之造血系統)之個體,且含有一或多種感興趣之核酸分子之任何樣品。生物樣品可為體液,例如血液、血漿、血清、尿液、陰道液、來自陰囊(例如睾丸之腹水)之液體、陰道沖洗液、胸腔液、腹水、腦脊液、唾液、汗液、淚液、痰液、支氣管肺泡灌洗液、來自乳頭之排出液體、來自身體之不同部分(例如,甲狀腺,乳房)之吸出液體、眼內液體(例如房水)等。亦可使用糞便樣品。在各種實施例中,已針對游離DNA進行富集之生物樣品(例如,藉由離心方案獲得之血漿樣品)中之大部分DNA可為游離的,例如,大於50%、60%、70%、80%、90%、95%或99%之DNA可為游離的。離心方案可包括例如3,000g × 10分鐘,獲得液體部分,且在例如16,000g下再離心10分鐘以移除殘餘細胞。作為生物樣品分析之一部分,可分析生物樣品之統計學顯著數目的游離DNA分子(以提供精確量測)。在一些實施例中,分析至少1,000個游離DNA分子。在其他實施例中,可分析至少10,000或50,000或100,000或500,000或1,000,000或5,000,000個游離DNA分子或更多。可分析至少相同數目的序列讀段。
序列讀段 係指自核酸分子之任何部分或全部定序之一串核苷酸。例如,序列讀取可為自核酸片段定序之核苷酸之短串(例如,20-150個核苷酸),在核酸片段之一端或兩端之核苷酸之短串,或存在於生物樣品中之整個核酸片段之定序。序列讀段可以多種方式獲得,例如使用定序技術或使用探針,例如在雜交陣列或可用於微陣列之捕捉探針中,或擴增技術,例如聚合酶鏈式反應(PCR)或使用單一引子之線性擴增或等溫擴增。作為生物樣品分析之一部分,可分析至少1,000個序列讀段。作為其他實例,可以分析至少10,000或50,000或100,000或500,000或1,000,000或5,000,000個序列讀段或更多。可使用一定量之序列讀段作為DNA片段數目的代表。為了自上述量之序列讀段確定DNA片段之數目,可進行計算以解決成對末端定序及/或定序技術之偏倚。
序列讀段可包括與片段之末端相關聯之 末端序列 。末端序列可對應於片段之最外之N個鹼基,例如片段末端之2-30個鹼基。若序列讀段對應於整個片段,則序列讀段可包括兩個末端序列。當成對末端定序提供對應於片段末端之兩個序列讀段時,各序列讀段可包括一個末端序列。
序列模體 可指DNA片段(例如,游離DNA片段)中之鹼基的短重複模式。序列模體可出現在片段之末端,因此為末端序列之一部分或包括末端序列。 末端模體 可指較佳出現在可能為特定類型之組織之DNA片段的末端之末端序列之序列模體。末端模體亦可出現在片段之末端之前或之後,從而仍然對應於末端序列。核酸酶可對特定的末端模體具有特定的切割偏好,以及對第二個末端模體具有第二個最佳的切割偏好。
術語 定位 係指將序列與具有已知參考序列之參考(例如,參考基因體)中之位置或座標(例如,基因體座標)相關之過程,其中上述序列與上述參考中之所描述位置處之已知參考序列相似。可以根據 定位質量 來量測或報告相似程度。在本文所使用之定位質量之一個實例中,序列相對於參考中報告之位置或座標之定位質量X指示序列定位到不同位置之機率不大於10 ^ (-X/10)。例如,定位質量30表示序列定位到替換位置之機率小於0.1%。
參考基因體 可為參考生物體之整個基因體序列、參考基因體之一部分、許多參考生物體之共有序列、基於不同生物體之不同組分的編譯序列,或任何其他合適之參考序列。參考亦可包括關於已知在生物體群體中發現之參考的變化之資訊。
DNA分子終止於某一位置之 比率 與DNA分子終止於該位置之頻率有關。此類比率可被稱為 末端密度 。該比率可基於相對於所分析之DNA分子之數目標準化的在該位置終止之DNA分子之數目。標準化亦可基於周圍區域中之末端之平均數目、中位數目或總數目。用於標準化之周圍區域可包括但不限於位於該位置上游及/或下游之500、1000、3000、5000等bp。
相對頻率 (亦僅稱為 頻率 )可指比例(例如,百分比、分數或濃度)。特定言之,特定末端模體(例如CCGA或僅單鹼基)之相對頻率可提供樣品中與末端模體CCGA相關之游離DNA片段,例如藉由具有CCGA之末端序列之比例。
術語 「對照」對照樣品 背景樣品 參考 參考樣品 正常 正常樣品 可互換地用於一般性描述不具有特定病況(腎臟異常)或在其他方面健康之樣品。在一個實例中,參考樣品係取自沒有病況之個體之樣品。可自個體或自資料庫獲得參考樣品。
臨床相關DNA 可指待量測之特定組織來源之DNA,例如,以確定此類DNA之濃度分數或分類樣品(例如,血漿)之表型。在本文中,與非經腎DNA(例如來自腎或膀胱)相反,臨床相關DNA可指在通過腎之前存在之經腎DNA。臨床相關DNA之實例為胎兒DNA(例如來自母體血漿)或腫瘤DNA (例如來自患者之血漿)。另一個實例包括量測移植患者尿液中移植物相關DNA之量。另一個實例包括量測樣品中肝DNA片段(或其他非造血組織或造血組織,例如血細胞)之濃度分數或腦脊液中腦DNA片段之濃度分數。
校準樣品 可對應於其所需量測值(例如核酸酶活性、臨床相關核酸之濃度分數、遺傳病症之分類或其他所需性質)係已知的或藉由校準方法測定之生物樣品,上述校準方法例如用於量測核酸酶量之ELISA或用於量測核酸酶活性之定量核酸酶對DNA消化之速率之測定(例示性方法可包括在加入含核酸酶的樣品之前及之後,或者加入含核酸酶之樣品即時地對DNA量之螢光量測或分光光量度測;另一個實例為使用放射狀酶擴散方法)。臨床相關DNA之濃度分數(例如組織特異性DNA分數)可係已知的,例如藉由校準方法,例如使用組織特異性對偶基因測定的。例如,對於腫瘤、胎兒或移植,在組織(例如供體之基因體)中存在但在健康/母體/受體之基因體中不存在之對偶基因可用作對應於臨床相關DNA之組織之標誌物。作為另一個實例,可使用組織特異性甲基化模式。校準樣品可具有單獨的量測值(例如,具有特定末端模體或具有特定長度之片段之量),其可被確定為與期望的量測值相關。
校準資料點 」包括「校準值 (例如,具有特定末端模體或具有特定長度之片段的量)及期望為其他測試樣品確定之量測值或已知值。校準值可自根據樣品之DNA分子量測的各種類型之資料確定(例如,具有末端模體或具有特定長度之片段的量)。校準值對應於與所需性質相關之參數,例如遺傳病症之分類、核酸酶活性或抗凝劑劑量之功效。例如,可自為校準樣品確定之量測值來確定校準值,對於校準樣品,期望的性質係已知的。校準資料點可以多種方式定義,例如,作為離散點或作為校準函數(亦稱為校準曲線或校準表面)。校準函數可自校準資料點之附加數學變換中導出。
術語 胎兒DNA 濃度分數 可與術語 胎兒DNA比例 胎兒DNA分數 互換使用,且係指存在於生物樣品(例如母體血漿或血清樣品)中的來自胎兒之胎兒DNA分子之比例(Lo等人, Am J Hum Genet.1998;62:768-775;Lun等人, Clin Chem.2008;54:1664-1672)。類似地,腫瘤分數或腫瘤DNA分數可指生物樣品中腫瘤DNA之濃度分數。
位點 (亦稱為 「基因體位點 )對應於單個位點,其可為單個鹼基位置或一組相關之鹼基位置,例如CpG位點、TSS位點、DNASE超敏反應位點或更大組的相關之鹼基位置。 基因座 可對應於包括多個位點之區域。基因座可僅包括一個位點,此將使得該基因座與該上下文中之位點等同。
術語 開放染色質區域(OCR) 係指對應於核小體缺失區域之一或多個位點(即缺乏組蛋白結合DNA)。在一些情況下,OCR包括使用DNase-seq (Meuleman等人, Nature. 2020; 584:244-251)定義之一或多個DNase1超敏位點(DHS)。作為實例,OCR可基於使用DNase-seq鑑定之位點、使用定序使用轉座酶可接近之染色質測定(ATAC-seq)鑑定之位點、轉錄起始位點(TSS)、CCCTC結合因子(CTCF)位點、增強子位點、組蛋白修飾標記之區域(例如H3K27ac、H3K4me3等),以及其他核酸酶超敏位點來定義。在一些情況下,OCR可為核小體佔有率相對降低之區域。在一些情況下,OCR可為組織特異性的。在各種實施例中,本文所描述之實施例中可使用至少100、500、1,000、5,000或10,000個OCR。
術語 腎臟異常 係指影響腎及可能的其他器官之病症。作為實例,腎臟異常可包括腎細胞癌(RCC)、腎病症候群、腎小球腎炎、法布里病、胱胺酸病、IgA腎病、IgM腎病、狼瘡腎炎、非典型溶血性尿毒症症候群(aHUS)、多囊腎病(PKD)、阿波特症候群、間質性腎炎、蛋白尿、慢性腎病(CKD)、急性腎損傷、先兆子癇等。
末端模體譜 可指 樣品中游離DNA片段(亦稱為DNA片段)之末端序列(例如,1-30個鹼基)之關係。可提供各種關係,例如,具有特定末端序列(末端模體)之游離DNA片段之量,具有特定末端序列之游離DNA片段與一或多種其他末端序列相比之相對頻率。在一些情況下,使用其他類型之參數(例如長度)來確定末端模體譜。例如,可用多種方式提供末端模體譜,此等方式說明了對於給定長度(單一長度或長度範圍)具有一或多種特定末端序列之游離DNA片段之量。 參考末端模體譜 F-譜 係指可藉由將因子分解演算法(例如,非負矩陣因子分解)應用於跨越多個末端模體(例如,256種末端模體)之給定生物樣品的DNA分子之相對頻率而產生之末端模體譜。
術語 相對豐度 通常係指具有特定特徵(例如,特定長度、終止於一或多個特定座標/終止位置,或與基因體之特定區域比對(定位))之核酸片段之第一量與具有特定特徵(例如,特定長度、終止於一或多個特定座標/終止位置,或與基因體之特定區域比對(定位)))之核酸片段之第二量之比率。在一個實例中,相對豐度可指終止於第一組基因體位置(例如,開放染色質區域)之DNA片段之數目與終止於第二組基因體位置(其可為所有基因體位置)之DNA片段之數目(例如,平均數或中位數)的比率。此類相對豐度可被稱為末端密度。在一些態樣中, 相對豐度 係一種分離值之類型,其將在基因體位置之一個窗口內終止之游離DNA分子之量(一個值)與在基因體位置之另一個窗口內終止之游離DNA分子之量(其他值)相關聯。此兩個窗口可重疊,但亦可具有不同的長度。在其他實施例中,兩個窗口不會重疊。此外,窗口可為一個核苷酸之寬度,因此等同於一個基因體位置。末端密度為一種相對豐度類型。在一些情況下,觀測到的與預期的(O/E)比率為另一種類型之相對豐度。
本文所用之 術語「分類 係指與樣品之特定性質相關聯之任何數字或其他字元。例如, + 符號(或字組 )可表示樣品被分類為具有缺失或擴增。分類可為二進位的(例如,正的或負的)或具有更多之分類級別(例如,自1至10或0至1之標度)。
本文所用之術語 參數 係指表徵定量資料集及/或定量資料集之間的數值關係之數值。例如,第一核酸序列之第一量與第二核酸序列之第二量之間的比值(或比值之函數)為參數。參數可用於確定本文所描述之任何分類,例如關於胎兒、癌症或移植分析。
術語 臨限值 臨限值 係指在操作中使用之預定數字。例如,截止長度(或臨限值長度)可指高於該長度之片段被排除之長度。臨限值可為此類值,在其上或其下應用特定的分類。此等術語中之任一者可在此等上下文之任一者中使用。臨限值或臨限值可為 參考值 或自代表特定分類或區分兩個或更多個分類之參考值衍生出。可參考或不參考樣品或個體之特徵來預先確定臨限值。例如,可基於測試個體之年齡或性別來選擇臨限值。可在測試資料輸出之後且基於測試資料之輸出來選擇臨限值。例如,當樣品之定序達到一定深度時,可使用一定之臨限值。作為另一個實例,具有一或多種病況之已知分類及量測之特徵值(例如,甲基化水平、統計長度值或計數)之參考個體可用於確定參考水平以區分不同的病況及/或病症之分類(例如,個體是否具有病況)。可選擇參考值作為一個分類(例如,平均數)或量度之兩個簇之間的值(例如,經選擇以獲得期望的靈敏度及特異性)之代表。作為另一個例子,可基於樣品之統計模擬來確定參考值。此等術語中之任一者皆可在此等背景中之任何一個中使用。此類參考值可以各種方式確定,如熟習此項技術者將理解。例如,可為具有不同已知分類之對象之兩個不同群組確定量度,且可以選擇參考值作為一個分類(例如,平均數)或量度之兩個簇之間的值(例如,經選擇以獲得期望的靈敏度及特異性)之代表。作為另一個例子,可基於樣品之統計模擬來確定參考值。可基於期望的精確度(例如,靈敏度及特異性)來確定臨限值、臨限值、參考值等之特定值。
病理等級 (或病症等級)可指與生物體相關之病理之量、程度或嚴重性。一個實例為表示核酸酶之細胞病症。病理之另一個實例為移植器官之排斥。其他例示性病理可包括自體免疫攻擊(例如,損傷腎之狼瘡性腎炎或多發性硬化)、炎性疾病(例如,肝炎)、纖維化過程(例如,肝硬化)、脂肪浸潤(例如,脂肪肝病)、退行性過程(例如,阿茲海默氏病)及缺血性組織損傷(例如,心肌梗塞或中風)。個體之健康狀態可被認為不存在病理之分類。病理可為癌症。
術語 癌症等級 可指是否存在癌症(即,存在或不存在)、癌症之階段、腫瘤之長度、是否存在轉移、身體之總腫瘤負擔、癌症對治療之回應及/或癌症之嚴重程度之其他量測值(例如,癌症之復發)。癌症等級可為許多或其他標記,例如符號、字母及顏色。該等級可為零。癌症等級亦可包括惡化前或癌前狀況(狀態)。癌症等級可以各種方式使用。例如,篩查可檢查癌症是否存在於先前不知道患有癌症之人中。評估可調查已被診斷患有癌症之人以監測癌症隨時間之進展、研究治療之有效性或確定預後。在一個實施例中,預後可表示為患者死於癌症之機會,或癌症在特定持續時間或時間後進展之機會,或癌症轉移之機會或程度。偵測可指「篩查」或可指檢查具有癌症之暗示特徵(例如,症狀或其他陽性測試)之某人是否患有癌症。
基因之名稱通常以斜體字書寫。人類基因通常亦以所有大寫字母書寫。小鼠基因可能在第一個字母之後不會被大寫。蛋白質通常以所有大寫字母書寫,且沒有斜體。例如,小鼠可具有 Dnase1l3基因及DNASE1L3蛋白,而人可具有 DNASE1L3基因及DNASE1L3蛋白。
機器學習模型 (ML模型)可指經配置以在一或多個處理器上運行以提供一或多個樣品之性質的分類或數值之軟體模組。可使用樣品資料(例如,訓練資料)來生成ML模型以對測試資料進行預測。一個例子為無監督學習模型。另一例示性類型之模型係可與本揭露內容之實施例一起使用之監督學習。例示性監督學習模型可包括不同的方法及演算法,包括分析學習、統計模型人工神經網路、反向傳播、提昇(元演算法)、貝葉斯統計、基於案例之推理、決策樹學習、歸納邏輯程序設計、高斯過程回歸、遺傳程序設計、資料處理之分組方法、內核估計器、學習自動機、學習分類器系統、最小訊息長度(判定樹、決策圖等)、多線性子空間學習、樸素貝葉斯分類器、最大熵分類器、條件隨機場、最近鄰演算法、可能近似正確學習(PAC)學習、脈動規則、知識獲取方法、符號機器學習演算法、子符號機器學習演算法、最小複雜度機器(MCM)、隨機森林、分類器之整合、順序分類、資料預處理、處理不平衡資料集、統計關係學習、或Proaftn (一種多準則分類演算法)。該模型可包括線性回歸、邏輯回歸、深度遞歸神經網路(例如,長期短期記憶、LSTM)、貝葉斯分類器、隱馬爾可夫模型(HMM)、線性判別分析(LDA)、k均值聚類、雜訊應用之基於密度之空間聚類(DBSCAN)、隨機森林演算法、支援向量機(SVM)、或本文描述之任何模型。可使用各種成本/損失函數及各種最佳化技術(例如,使用反向傳播、最陡下降、共軛梯度以及牛頓及準牛頓技術)以各種方式訓練監督學習模型,上述各種成本/損失函數定義與已知標籤之誤差(例如,與已知分類之最小平方及絕對差異)。
術語 大約 可指在由熟習此項技術者確定之特定值之可接受之誤差範圍內,此將部分地取決於如何量測或確定該值,即對量測系統之限制。例如, 可指根據此項技術之實踐,在1個或多於1個標準偏差內。視情況地, 可意指給定值之至多20%、至多10%、至多5%或至多1%之範圍。視情況地,尤其對於生物系統或過程,術語 大約 可指在一個數值之一個數量級內,在一個數值之5倍內,更佳在一個數值之2倍內。當在本申請案及申請專利範圍中描述特定值時,除非另有說明,否則應當假定術語 係指在該特定值之可接受之誤差範圍內。術語 可具有熟習此項技術者通常理解之含義。術語 可指± 10%。術語 可以指± 5%。 詳細描述
游離樣品(例如,尿液及血漿)之各種片段組學特徵用於確定樣品及/或個體之各種性質。
作為用於尿液樣品之實例,一些實施例可使用尿液游離DNA之片段組學特徵來偵測經腎及非經腎尿液游離DNA之貢獻。此類量測可用於反映腎小球滲透性及監測各種疾病,例如但不限於腎臟異常,例如腎癌及腎病,以及蛋白尿及先兆子癇,其可被分類為腎臟異常之類型。
此外,此類量測亦可用於確定臨床相關之游離DNA分子之濃度分數,以及富集尿液樣品之臨床相關DNA,包括所有類型之經腎DNA (例如,肝、肺、結腸、心臟及血液來源的,例如,白細胞)、胎兒DNA、腫瘤DNA,或來自不同於尿道之特定組織,例如腎、輸尿管及膀胱之DNA。可藉由測定來自一或多個組織之開放染色質區域(例如OCR (例如,至少100、500、1,000、5,000或10,000個OCR)或有助於任何經腎DNA之一或多個組織之全部或代表性取樣)之游離DNA分子之相對豐度來確定經腎游離DNA之相對貢獻。在其他情況下,可基於來自尿液樣品之具有特定長度及/或末端模體之游離DNA分子以及校正之尿液濃度來確定經腎游離DNA分子之相對貢獻或富集。
例如,對於末端模體,一些實施例可以利用cfDNA分子末端之C之存在來富集樣品之臨床相關DNA。因此,根據本揭露內容之實施例,可使用片段組學特徵(例如來自尿液游離DNA中經腎特異性開放染色質區域之cfDNA之末端標籤及豐度)來確定尿液中經腎游離DNA之貢獻。
此外,可使用末端模體同時(即一起)分析不同類型之游離DNA切割。不同的類型可藉由在切割空間中表示不同的維度來區分,上述切割空間表示可在個體中發生的所有核酸酶活性。在本揭露內容中,基於核酸酶剔除小鼠及/或具有各種藥物治療之人類個體,不同類型之游離DNA切割與不同的片段化過程(包括酶促及非酶促斷裂)相關。
與使用一種末端模體或幾種排名最高之末端模體每次集中於一種特異性核酸酶活性之技術相比(Serpas等人, Proc. Natl. Acad. Sci. USA. 2019;116:641-649;Chan等人, Am. J. Hum. Genet. 2020;107:882-894;Chen等人, PLOS Genet. 2022;18:e1010262),本揭露內容之實施例可基於關於不同類型之游離DNA切割的推定之相對貢獻,同時評估可能涉及之(例如,由放化療誘導之)多種核酸酶活性或其他片段化過程。各種類型之游離DNA切割之貢獻可藉由產生代表給定生物樣品之末端模體之相對頻率的F-譜之集合來確定。在一些情況下,可藉由對相對頻率應用因子分解(例如,非負矩陣因子分解)來生成F譜之集合。分析受擾動之貢獻可允許偵測及監測各種疾病,但不限於癌症及免疫疾病。
因此,如本文所描述,末端模體(例如,樣品末端模體譜及參考譜,稱為參考F-譜)可以各種方式用於確定樣品之性質及/或個體之分類,例如確定臨床相關DNA之濃度分數,胎兒之孕齡或個體之病理等級。 I. 綜述
腎小球基底膜(GBM)允許血漿游離DNA通過腎且變成經腎游離DNA。通常,較小的DNA分子比較大的DNA分子具有更大的GBM滲透性。例如,GBM之滲透性隨著自血漿至尿液之分子長度之增加而降低(Lawrence等人, Proc Natl Acad Sci USA. 2017;114:2958-2963)。此外,由於組蛋白與DNA之連接,核小體缺失之DNA分子(例如,來自核小體缺失區域之DNA分子)可具有比具有相同DNA長度之核小體DNA更小之分子長度。在一些實施例中,富集經腎游離DNA中之核小體缺失之DNA用於測定腎小球滲透性之水平。
圖1展示根據一些實施例之鑑定尿液樣品中經腎及非經腎DNA之特徵之例示性概述100。如圖1所示,尿液游離DNA包括來自血漿且通過腎進入泌尿系統之經腎DNA 102。例如,經腎DNA可來源於肝臟、血細胞、腫瘤或胎兒DNA。尿液游離DNA亦可包括來自泌尿系統之非經腎DNA 104。例如,非經腎游離DNA可來源於泌尿管(例如,腎及膀胱)。此兩種類型之尿液游離DNA可能與不同的特徵有關。藉由鑑定經腎游離DNA (cfDNA)及非經腎游離DNA之間的差異,可自給定之尿液樣品中確定經腎游離DNA或非經腎游離DNA之貢獻。經腎cfDNA通常或某種類型之經腎DNA可被視為臨床相關之DNA。因此,由此等差異可確定總的經腎cfDNA或特定類型(例如胎兒、腫瘤,或來自特定器官或血細胞類型)之經腎cfDNA之貢獻。
圖2顯示了示意圖200,其說明了使用片段組學特徵來確定經腎尿液游離DNA之貢獻。血漿206中存在核小體缺失之游離DNA 202 (即,不存在相關蛋白,如組蛋白)及核小體之游離DNA分子204。當血漿DNA分子206通過腎中之GBM時,與具有較大分子長度之核小體DNA分子204相比,核小體缺失之游離DNA分子202具有更高的滲透性。同時,當進入尿液游離DNA庫時,經腎尿液游離的DNA仍可攜帶在血漿中形成之末端標籤,例如由DNASE1L3介導之末端標籤。因此,根據本揭露內容之實施例,可使用來自尿液游離DNA之經腎特異性開放染色質區域之cfDNA的片段組學特徵(例如末端標籤)及相對豐度來確定尿液中經腎游離DNA之貢獻。
圖2顯示了尿側之兩個例示性實例。第一尿液樣品210具有較高的經腎cfDNA貢獻,如7個DNA片段中之3個為經腎之尿液cfDNA所示。第二尿液樣品220具有較低的經腎cfDNA貢獻,如5個DNA片段中僅1個為經腎尿液cfDNA所示。各種實施例可區分此等樣品(甚至區分不同類型之經腎DNA),例如,作為估計臨床相關DNA之濃度分數,確定病理分類(例如腎臟異常)或偵測先兆子癇或蛋白尿(其可被分類為腎臟異常之類型)之一部分。
然而,存在挑戰。經腎游離DNA之片段組學通常不能被很好地理解。此外,尿液游離DNA及血漿游離DNA片段化過程可能涉及不同的核酸酶(Han等人, Am J Hum Genet. 2020;106:202-214;Chen等人, PLOS Genet. 2022;18:e1010262)。例如,DNASE1L3為在血漿中產生C末端片段之主要核酸酶(Serpas等人, Proc Natl Acad Sci USA. 2019;116:641-649),而DNASE1負責在尿液中產生T末端片段(Chen等人, PLOS Genet. 2022;18:e1010262)。
基於此類差異,吾人假設經腎尿液游離DNA分子將攜帶存在於血漿中之游離DNA之末端模體標籤。實際上,對尿液游離DNA中之末端模體之分析可用於推斷經腎游離DNA之貢獻。例如,較高量的攜帶C末端(即血漿DNA之一種標籤)之尿液游離DNA可暗示經腎游離DNA之較高貢獻。
鑒於以上所描述,需要理解經腎及非經腎游離DNA之間的片段組學差異(例如,長度、末端模體)。藉由鑑定此類差異,可在不存在任何遺傳或表觀遺傳資訊(例如,來自腫瘤組織之SNP)之情況下準確地估計經腎游離DNA之貢獻。然後可將經腎游離DNA貢獻應用於疾病模型。例如,具有腎功能之個體可具有比正常個體更高或更低的經腎貢獻。 II.例示性尿液樣品製備
可使用各種技術製備用於分析cfDNA之尿液樣品。下文描述之技術僅為熟習此項技術者將理解之例示性。 A.樣品收集
為了確定經腎及非經腎DNA之間的差異,可分析自血漿及尿液樣品獲得之游離DNA分子。例如,使用成對末端定序對192個人血漿及18個尿液游離DNA樣品進行定序。具體地,血漿及尿液游離DNA樣品包括:(i)來自孕婦之尿液游離DNA樣品(n=20)、來自先兆子癇之尿液游離DNA樣品(n=5),及來自孕婦之血漿游離DNA樣品(n=11)(成對末端讀段之中位數:12950萬;範圍:3010-23490百萬);(ii)來自腎細胞癌(RCC) (n=16)、蛋白尿(n=24)及對照(n=34)之尿液游離DNA樣品(成對末端讀段之中位數:2503萬;範圍:1334-7502萬);(iii)來自8名健康個體、10名具有DNASE1L3疾病相關變體之患者,3名具有突變DNASE1L3基因之患者之父母的血漿游離DNA樣品(成對末端讀段之中位數:10800萬;範圍:4000-16200萬);(iv)來自24名SLE患者及11名健康個體之血漿游離DNA樣品(中位數配對讀段:12000萬;範圍:1800-20800萬);(v)來自38名健康個體、17名患有慢性乙型肝炎病毒(HBV)但未患有肝細胞癌(HCC)之患者(即,HBV攜帶者),及34名患有HCC之患者之血漿游離DNA樣品(中位數成對末端讀段:38百萬;範圍:18-65百萬);(vi)來自第一孕期(12-14週;n=10)、第二孕期(20-24週;n=10)及第三孕期(38-40週;n=10)為30名孕婦之血漿游離DNA (成對末端讀段之中位數:10300萬;範圍:5200-18600萬);(vii)來自15名健康對照個體、25名不具有肝轉移之結腸直腸癌(CRC)患者及24名具有肝轉移之CRC患者之血漿游離DNA樣品(成對末端讀段之中位數:4000萬;範圍:1600-8900萬);及(viii)來自接受順鉑化療之鼻咽癌患者(n=6)及治療前之配對患者(n=6)之血漿游離DNA樣品(成對末端讀段之中位數:500萬;範圍:300-900萬)。 B.在尿液樣品上使用穩定劑
圖3展示根據一些實施例之過程300,其中自尿液樣品獲得定序資料。在框302,使用來自孕婦之尿液樣品(例如,第三孕期之樣品)。此類樣品用於確定經腎貢獻是否可與胎兒DNA貢獻相關。
對尿液樣品進行定序可能係有挑戰性的,因為DNASE1活性在尿液中非常高。若在尿液收集後DNASE1活性未被完全抑制,則由DNASE1引起之活體外連續片段化可混淆最初存在於尿液中之片段化模式,此可減少與特定疾病相關之尿液DNA片段之片段組學信號。
為了解決上述挑戰,可使用各種收集及保存方法來更好地保存尿液游離DNA之原始特徵。例如,如框304所示,可在框306添加防腐劑以獲得保存之樣品。可使用不同的尿液收集方法,包括添加乙二胺四乙酸(EDTA)及添加穩定劑。EDTA可藉由螯合鎂及鈣來抑制DNASE1家族之切割活性,鎂及鈣係DNASE1消化所需之必需離子。穩定劑可潛在地穩定尿液DNA以免降解。穩定劑可為但不限於由Collipee公司提供之防腐劑、重氮烷基脲(DU)、二甲基脲、2-溴-2-硝基丙烷-1,3-二醇、5-羥基甲氧基甲基-1-氮雜-3,7-二氧雜二環(3.3.0)辛烷及5-羥甲基-1-氮雜-3,7-二氧雜二環(3.3.0)辛烷及5-羥基聚[亞甲氧基]甲基-1-氮雜-3,7-二氧雜二環(3.3.0)辛烷、雙環 唑啶(例如NuoSept95)、DMDM乙內醯脲、咪唑啶基脲(IDU)、羥甲基甘胺酸鈉、六亞甲基四胺氯烯丙基氯(四級銨鹽-15)、滅微生物劑(例如Bioban、Preventol及Grotan)、水溶性鋅鹽、EDTA、其他金屬離子螯合劑,例如N,N'-雙-(二硫代甲醯氧基)哌 (BDP)、二乙基二硫代胺基甲酸酯(鹽)(DDTC)、亞胺基二琥珀酸(IDS)、聚天冬胺酸、S,S-乙二胺-N,N'-二琥珀酸(EDDS)、甲基甘胺酸二乙酸(MGDA)等。
與不具有穩定劑之裝置相比,在含有穩定劑之裝置中可更好地保存尿液游離DNA。作為說明性實例,用不同的收集方法(不添加試劑、EDTA及穩定劑組)在室溫下在活體外孵育不同持續時間(例如,0小時及4小時孵育)來收集來自2名對照個體之尿液游離DNA樣品。比較三個尿液收集組之間的游離DNA濃度及長度分佈。
圖4顯示了一組圖400,其顯示了在三個尿液收集組(未添加任何穩定劑之對照組、EDTA及穩定劑組)中活體外孵育前後尿液游離DNA濃度之比較。術語 GE 係指基因體當量。如圖4所示,與未添加任何穩定劑之對照組(樣品1:6.04 GE/ml;樣品2:1.98 GE/ml)及EDTA組(樣品1:2.37 GE/ml;樣品2:2.09 GE/ml)相比,穩定劑組(樣品1:1.61 GE/ml;樣品2:1.15 GE/ml)在4小時孵育後對比0小時孵育時之尿液游離DNA之倍數變化係最小的。
在活體外孵育之前及之後,在三個收集組之間進一步比較常染色體DNA長度分佈。
圖5顯示了鑑定對照,EDTA及穩定劑組中活體外孵育前後游離DNA長度分佈之比較的一組圖500。第一組圖502、504及506對應於第一樣品之游離DNA長度分佈,第二組圖508、510及512對應於第二樣品之游離DNA長度分佈。在對照組(圖502、圖508)中,與0小時孵育相比,孵育4小時後尿液游離DNA長度分佈變化很大。在EDTA組(圖504、圖510)中,與0小時孵育相比,4小時孵育後尿液游離DNA之長度分佈變化很小。在穩定劑組(圖506、圖512)中,與0小時孵育相比,孵育4小時後尿液游離DNA長度分佈顯示最小之變化(即幾乎不可觀測到)。圖5所示之結果表明,使用含有穩定劑之裝置可在室溫條件下最佳地保持尿液游離DNA分子之片段化分佈。 C.游離DNA提取及文庫製備
如圖3所示,可用Wizard Plus Minipreps DNA純化系統(Promega)及硫氰酸胍(Sigma-Aldrich)自尿液(用穩定劑處理)中提取游離DNA。根據製造商之方案,用QIAamp循環核酸套組(Qiagen)自血漿樣品中提取游離DNA。使用TruSeq DNA Nano Library Prep套組(Illumina)根據製造商之說明書構建索引DNA文庫。藉由PCR富集適配子連接之DNA,然後在Agilent 4200 TapeStation (Agilent Technologies)上分析,用於質量控制及基於凝膠之長度測定。在定序前藉由Qubit dsDNA高靈敏度分析套組(Thermo Fisher Scientific)定量文庫。 D.DNA定序及比對
如圖3進一步所示,對多重DNA文庫在Illumina平台上進行用於成對末端讀段之定序。可使用其他定序技術,例如,如本文所描述。例如,可確定整個DNA片段之單一讀段。基於其六鹼基索引序列將序列分配給其相應樣品。使用短寡核苷酸比對程序2 (SOAP2),將來自小鼠血漿之成對末端讀段與小鼠參考基因體(NCBI構建37/UCSC MM9;非重複掩蔽的)或人類參考基因體(NCBI構建37/hg19) (Li等人, Bioinformatics 2009;25:1966-1967)比對。如熟習此項技術者所理解的,亦可使用任何其他比對工具。在一些實施例中,允許多達兩個核苷酸錯配。只有以正確的方向與同一染色體比對上且跨越<600bp之插入片段長度之成對末端讀段可保留用於下游分析。共有相同起始及終止基因體座標之成對末端讀段被視為PCR重複,且自下游分析中丟棄。
對於一些使用情況,例如對於血漿樣品,來自母親之血沉棕黃層DNA之基因型可與相應的胎盤樣品配對。實際上,可確定母體及胎兒基因型。該基因型可用於區分胎兒及母體DNA分子,從而可獲得尿液樣品中胎兒DNA分數之金標準。此類實際的胎兒DNA分數亦允許吾人建立用於估計經腎DNA或腎滲透性之程度的重新校準曲線,假設腎滲透性越高,則經腎DNA越多。 III. 尿液游離DNA之長度特徵
分析尿液cfDNA之長度特徵以說明片段長度對經腎cfDNA片段通過腎進入尿液中之能力的影響。較小尺寸之分子顯示具有增加的自血液通過腎之能力。
圖6顯示了根據一些實施例之鑑定尿液樣品中胎兒DNA及母體DNA之間的長度差異之圖600。胎兒DNA及母體DNA之間的長度差異可作為確定尿液樣品中經腎DNA之實例。例如,胎兒DNA來源於胎兒且必須通過腎以便吾人可在尿液中對其進行偵測。相比之下,偵測到的母體DNA可包括非經腎DNA,其可由腎、膀胱等貢獻。基於此區別,吾人可擴展胎兒及母體DNA之特徵以確定經腎DNA及非經腎DNA之間的長度差異。
如圖6所示,顯示大多數胎兒特異性游離DNA分子620(紅色)小於80 bp,其顯著短於共有的游離DNA分子610 (藍色)。共有的游離DNA分子610具有在母親之單倍型及胎兒之一個單元型之間共有的相同對偶基因。胎兒特異性游離DNA分子620具有在胎兒單倍型之一上的胎兒特異性對偶基因(自父親遺傳)。
在此基礎上,可認為經腎DNA之長度特徵是否與胎兒DNA之長度特徵相關。
圖7展示根據一些實施例之例示性示意圖700,其顯示了將血漿DNA轉化成經腎DNA之生物過程。例如,為了變成經腎DNA,來自血管702之血漿DNA藉由各種組織膜到達腎704。例如,血漿DNA分子藉由內皮細胞及腎小球基底膜(GBM),以及足狀突細胞。如圖7所示,此等生物結構中之每一者皆具有不同的直徑。腎結構可與腎之孔徑相關,血漿DNA分子通過上述孔以變成經腎DNA。可以認為足夠小以藉由孔之血漿DNA分子最終可變成經腎DNA。
圖8顯示了根據一些實施例之鑑定腎小球基底膜滲透性及經腎DNA長度之間的關係的圖800。腎小球基底膜之滲透性可藉由分子長度來確定。如圖8所示,x軸係給定分子之半徑,其對應於其長度。並且,y軸鑑定與給定分子相關之腎滲透性。
具體地,以y軸表示之% GBM滲透性確定了具有特定長度之分子之百分比通過GBM。例如,如果分子非常小(例如,12 kDa),則滲透率估計為約50%。相比之下,隨著分子變大(例如,150 kDa),腎滲透性將顯著下降至約10-15%。亦已知核小體通常具有200 kDa/5.5nm(半徑)之尺寸。基於核小體之尺寸,與核小體缺失之DNA分子相比,包裹在核小體(因此附著於蛋白質)中的推測之DNA分子將與低GBM滲透性相關。實際上,與直接來自泌尿系統之非經腎DNA分子相比,通過GBM之經腎DNA分子之長度可能具有較小的長度。 IV.尿液游離DNA之末端模體特徵
除長度外,分析尿液游離DNA之末端序列以確定經腎尿液游離DNA分子之末端模體與非經腎尿液游離DNA分子之末端模體不同。在一些實施例中,4-mer末端模體被定義為在游離DNA分子之各5'片段末端的末端之4個核苷酸,總計256種4-mer末端模體(即,44)。計算256種末端模體之中位數末端模體頻率,且分別對母體尿液樣品中胎兒特異性片段及共有片段按降序排列。可使用其他末端模體,例如,任何K-聚體末端模體,例如,K為1、2、3、4、5、6、7、8、9或更多。如本文所描述,末端模體(例如,樣品末端模體譜及參考譜,稱為參考F-譜)可以各種方式用於確定尿液樣品之性質及/或個體之分類,例如確定臨床相關DNA之濃度分數、胎兒之孕齡或個體之病理等級。
圖9顯示了鑑定自母體尿液中胎兒特異性游離DNA及共有游離DNA鑑定的不同末端模體之圖900。如圖9所示,計算胎兒特異性共有游離DNA中256種末端模體之中位數末端模體頻率,且以降序排列在母體尿液樣品中。x軸鑑定共有片段之末端模體排序。y軸鑑定胎兒特異性片段之模體排序。較高的排序表示相應的末端模體(例如,CCTG)之相對頻率較高。有色區域分別顯示胎兒特異性DNA片段或共有DNA片段,其對特異性4-mer末端模體具有偏好性。
胎兒特異性游離DNA及共有游離DNA中前10種模體中之每一者皆用相應的末端模體序列標記。胎兒特異性尿液游離DNA及共有的尿液游離DNA之前10種模體分別用紅色圓圈902及藍色圓圈904突出顯示。胎兒特異性游離DNA之前10種末端模體以C末端模體(8/10)為主,而共有游離DNA之前10種末端模體富集T末端模體(4/10)。先前已鑑定了DNASE1L3 (其較佳切割C)為血漿中佔優勢之核酸酶,而DNASE1 (其較佳切割T)為尿液中佔優勢之核酸酶。基於上述模體排序,可確定胎兒DNA對應於經腎DNA。此等資料表明,可使用含有C末端之模體來表示經腎尿液游離DNA,然後可將其用於區分胎兒DNA及母體尿液樣品。如下文所描述,一些實施例可使用cfDNA分子末端之C的存在來富集樣品之臨床相關DNA,例如,所有經腎DNA、胎兒DNA、腫瘤DNA或來自除腎或膀胱以外的特定組織之DNA。
圖10顯示了一組圖1000,其根據一些實施例鑑定了尿液樣品中胎兒DNA之濃度分數與CC末端片段之間的關係。如圖10所示,攜帶CC末端之尿液游離DNA之百分比與尿液樣品中之胎兒DNA分數成比例地增加。當CC片段限於長度小於80個鹼基對之片段時,此類線性關係為進一步顯著的。因此,尿液樣品之末端模體可用於確定胎兒DNA之分數。 V. 對OCR之尿液游離DNA之分析
開放染色質區域可用於確定尿液樣品之性質及/或個體之分類。在一些情況下,開放染色質區域可與有助於經腎DNA之組織或甚至特定細胞類型組織(例如胎兒、腫瘤、移植器官或其他組織,如血液、肝、結腸等,除了來自尿道之組織以外)相關。例如,來自此類的一組區域的cfDNA之豐度可用作估計臨床相關DNA之濃度分數,確定病理分類(例如腎臟異常)或偵測先兆子癇或蛋白尿(其可被分類為腎臟異常之類型)之一部分。
腎膜( 例如GBM)之滲透性有利於更短的DNA片段。結果,通過腎膜之經腎游離DNA比直接源自泌尿系統之非經腎DNA片段短。此外,與核小體結合之游離DNA分子在通過GBM時可能具有困難,因為核小體之滲透性估計為約10-15%。相比之下,源自開放染色質區域之核小體缺失之游離DNA分子不被任何核小體結合,且可以較高的滲透性通過GBM。基於上述特徵,鑑定來源於開放染色質區域之游離DNA分子可用於偵測尿液樣品中之經腎DNA。此外,來自開放染色質區域之游離DNA分子之貢獻亦可用於預測某些疾病之分類以及確定胎兒DNA之濃度分數。 A.經腎DNA與來自OCR之DNA之相關性
根據一些實施例,經腎DNA可與開放染色質區域之DNA相關。血漿中核小體缺失之游離DNA分子具有較小的分子長度,此允許其通過GBM且轉化成經腎DNA。基於該特徵,可確定經腎DNA是否富含開放染色質區域,其對應於核小體缺失之區域。此類富集在後面的章節中描述,例如,對於所有經腎DNA或對於某些組織類型。
圖11展示根據一些實施例之鑑定來自開放染色質區域之DNA分子的各種特徵之例示圖1100。開放染色質區域可以各種方式鑑定,例如,基於DNase1超敏位點(DHS)之位置,因為DNase1在相對缺乏結合之組蛋白的基因體區域內具有切割偏好。例如,給定的開放染色質區域可被鑑定為聚集了DNase1消化之片段末端聚集之基因體區域。大約有1百萬個DHS位點,區域之中位數長度大約為200個鹼基對。此類開放染色質區域貢獻了9.46%之基因體。此類DHS (及相應的OCR)對特定組織可為特異性的,例如胎盤特異性DHS。
作為鑑定OCR之另一實例,為了獲得來自開放染色質區域之DNA分子,可使用DNase-Seq。具體地,可使用DNase1消化來自尿液樣品之DNA分子,DNase1優先切割具有超敏位點之DNA分子且對其進行定序。然後,序列讀段可被視為來自開放染色質區域之DNA分子。作為進一步的實例,OCR可自但不限於使用DNase-seq鑑定之位點、使用定序使用轉座酶可接近之染色質測定(ATAC-seq)鑑定之位點及轉錄起始位點(TSS)來鑑定。 B.鑑定組織特異性OCR
OCR可被確定且通常用於所有組織,用於對經腎組織特異之組織,或用於特定組織。不同的組織通常具有在其中開放之染色質之不同區域。因此,可鑑定一組特定的OCR,例如,此取決於所需的臨床相關DNA。作為一個實例,一類cfDNA是否在一或多個OCR中富集或缺失可在以下情況下確定,例如,以鑑定與一或多個組織相關的OCR。
圖12展示根據一些實施例之用於確定對應於開放染色質區域之尿液游離DNA之量的例示圖1200。為了分析基於來自開放染色質區域之尿液游離DNA之片段組學特徵,收集了14份孕婦尿液樣品,且對孕婦尿液中游離DNA之性質進行了研究。胎兒特異性游離DNA分子及共有游離DNA分子之特徵可分別代表經腎游離DNA及非經腎游離DNA之特徵。由於經腎游離DNA比非經腎游離DNA短,可進行此類表示。
在圖12所示之實例中,可鑑定具有任何胎兒特異性對偶基因(例如單核苷酸多態性,SNP)之cfDNA。然後,可藉由將序列讀段與參考基因體比對來確定跨越基因體之窗口(例如10、20、30、40、50或60 bp)中之此類cfDNA之量。期望值可被確定為一個區域(其中一個區域可包括一或多個窗口)中胎兒特異性SNP之數目除以所有窗口/區域之胎兒特異性SNP之平均數或中位數。可將觀測值確定為一個區域中胎兒特異性讀段之數目除以所有窗口/區域之平均數或中位數。若觀測比率大於期望比率,則該區域可被鑑定為OCR,因為較小的胎兒DNA片段更普遍。使用胎兒DNA確定的此類OCR對胎兒組織為特異性的。但是,可使用用於各種組織之DHS位點,或者更一般地,可使用用於各種組織之OCR。因此,可使用特定組織或組織集合之DHS。
在一個例示性實施例中,為了評估孕婦中之經腎尿液游離DNA,吾人獲得了母體尿液樣品中胎兒分數之中位數為0.31% (範圍:0.20%-9.00%)。藉由基於單核苷酸多態性(SNP)之方法估計母體尿液游離DNA中胎兒DNA分數(Yu等人, Clin Chem. 2013;59:1228-1237)無核小。核小體缺失之游離DNA之貢獻可藉由來自開放染色質區域(OCR)之DNA分子之量來指示,其中OCR對應於核小體缺失之區域(即缺乏組蛋白結合之DNA)。為了說明之目的,吾人使用由DNase-seq定義之DNase1超敏位點(DHS)來代表OCR (Meuleman等人, Nature. 2020;584:244-251)。
由OCR,藉由與OCR對齊之定序的游離DNA分子之數目來確定核小體缺失之DNA分子之量。核小體缺失之DNA分子之量可為標準化的值。例如,核小體缺失之DNA分子之量可藉由除以總定序分子而被轉換成百分比。另外地或替代地,可藉由觀測到的OCR內之定序分子(O) (亦稱為觀測到的OCR相關DNA貢獻)除以期望的OCR相關值(E)來計算核小體缺失之DNA分子之量。該量測在本文中被定義為 O/E比
期望的OCR相關DNA貢獻可對應於參考基因體中OCR之理論百分比。例如,觀測值(O)可包括在所有片段中與OCR對齊的片段之百分比,且期望值(E)作為參考基因體(例如,人類參考基因體)中OCR之理論百分比。在一些情況下,胎兒特異性DNA之期望的OCR相關DNA貢獻可藉由在OCR中胎兒特異性單核苷酸多態性(SNP)之數目被所有基因體區域中胎兒特異性SNP之數目標準化來計算。此類相對頻率(例如,百分比)可提供期望的百分比,其可與觀測到的與OCR對齊之游離DNA分子之百分比進行比較。SNP可藉由基因分型分析獲得。在一些情況下,期望的OCR相關DNA貢獻對應於藉由隨機取樣落入OCR內之DNA分子之百分比。
在胎兒DNA中觀測到的OCR相關之DNA貢獻可藉由與OCR對齊之胎兒特異性分子之數目被與所有基因體區域對齊之胎兒特異性分子之數目標準化來計算。對於非經腎尿液游離DNA中之O/E比分析,根據本揭露內容之實施例分析攜帶胎兒及母體基因體之間的共有對偶基因之分子。為了使用O/E比來確定OCR富集,若O/E比接近1,則未發現OCR富集。若O/E比大於1,則OCR相關DNA之貢獻增加。較高的O/E比可能暗示較高的核小體缺失之DNA貢獻,可能表明較高的腎小球滲透性。可以類似之方式鑑定對其他組織特異性之區域。 C.定量尿液及血漿之來自OCR之經腎cfDNA
OCR區域中cfDNA之量可用於定量尿液樣品中之經腎DNA。胎兒cfDNA用作經腎DNA之實例,但其他實例亦可應用於產生經腎DNA之腫瘤及其他組織。
圖13顯示了尿液樣品(箱形圖1302)及血漿樣品(箱形圖1304)中開放染色質區域中胎兒特異性游離DNA分子及共有游離DNA分子之O/E比之一組箱形圖1300。此等OCR並非組織特異性的,而係對跨越不同組織的OCR之一般取樣。具體地,使用所有已知的DHS位點。
如箱形圖1302所示,在胎兒分數高於0.44%之尿液樣品中,胎兒特異性游離DNA (其為經腎尿液游離DNA)之中位數O/E比為1.84 (範圍:1.68-2.13),其比主要為非經腎來源之共有游離DNA之中位數O/E比(中位數:1.10;範圍:1.08-1.19)高1.67倍。相比之下,在血漿樣品(箱形圖1304)中,在胎兒特異性游離DNA (O/E比之中位數:1.048;範圍:1.023-1.126)及共有游離DNA (中位數:1.058;範圍:1.033-1.124)未觀測到O/E比之明顯富集。
總之,與非經腎DNA分子相比,胎兒DNA (經腎DNA分子之一個實例)中OCR相關DNA之貢獻增加。此等資料表明,可使用OCR相關DNA之量來估計尿液中經腎游離DNA之濃度分數。O/E比越高,臨床相關DNA (例如,使用了其OCR之一或多個組織)之濃度分數越高。當使用不同經腎組織的OCR時,濃度分數將對應於彼等組織之平均濃度(例如,藉由相應OCR之多少及長度來加權)。濃度分數可接近經腎DNA濃度,其中不同組織的更多OCR可為接近經腎DNA濃度提供更高的精確度。
為了估計濃度分數,可使用具有臨床相關DNA之已知濃度分數之校準(訓練)樣品。校準值可對應於校準樣品之相對豐度,其中校準值及已知的濃度分數包括校準資料點。若新樣品具有更高的相對豐度,則新樣品具有比校準樣品更高的濃度分數。若新樣品具有較低的相對豐度,則新樣品具有比校準樣品更低的濃度分數。使用多個校準樣品,可確定濃度分數之範圍。在其他實施例中,校準函數(亦稱為校準曲線)可經由校準資料點之函數擬合(例如,線性或非線性回歸)來確定。
圖14展示一組圖1400,其根據一些實施例鑑定來自尿液樣品之胎兒特異性DNA中開放染色質區域中DNA分子之富集。圖1402鑑定來自OCR區域之胎兒特異性尿液DNA分子之期望百分比及觀測百分比。圖1404鑑定來自OCR區域之共有尿液DNA分子之期望及觀測百分比。可基於OCR區域之長度作為基因體之比例來確定期望百分比。
如圖1402所示,胎兒特異性尿液DNA富含開放染色質區域,因為觀測值基本上大於期望值。此外,圖1404顯示共有尿液DNA分子之期望值及觀測值表明較小的降低。基於圖1402及1404,顯示尿液DNA富含開放染色質區域。此等結果還表明腎的過濾機制有助於開放染色質區域的經腎DNA之富集。因此,實施例可富集尿液樣品之臨床相關DNA,例如,藉由自對一或多種經腎組織(例如,通常為胎兒、腫瘤、移植或經腎組織)特異之開放染色質區域選擇cfDNA。
圖15展示一組圖1500,其根據一些實施例鑑定來自血漿樣品之胎兒特異性DNA中開放染色質區域之DNA分子之非富集。圖1502鑑定來自OCR區域之胎兒特異性血漿DNA分子之期望百分比及觀測百分比。圖1504鑑定來自OCR區域之共有血漿DNA分子之期望百分比及觀測百分比。如圖1502及圖1504所示,胎兒特異性血漿DNA及共有血漿DNA皆不富含開放染色質區域。此外,圖1506中所示的O/E比亦表明未富集來自開放染色質區域之血漿DNA。因此,所觀測到的開放染色質區域之尿液游離DNA之富集可用於確定胎兒特異性DNA之分數,而此類確定對於血漿游離DNA係不可行的。 IV. 尿液中臨床相關DNA之鑑定
由於可鑑定經腎及非經腎尿液游離DNA之間的不同片段化模式,吾人假設藉由選擇性分析經腎尿液游離DNA之片段組學特徵可以富集經腎游離DNA貢獻。片段組學特徵可包括但不限於末端模體(例如,CC末端)、基因體區域(例如,OCR)及長度(例如,≤80bp)。此外,藉由鑑定來自開放染色質區域之尿液游離DNA分子,可進一步提高測定經腎游離DNA貢獻之準確性。 A. 利用OCR之豐度估計臨床相關DNA之量
如先前在圖13中所示,與尿液樣品中共有游離DNA相比,在胎兒特異性尿液游離DNA中觀測到更大的OCR相關DNA之富集。此與血漿DNA分子之開放染色質區域之非富集不同。
因此,可使用所有尿液游離DNA片段之O/E比在尿液樣品中測定胎兒DNA分數(或其他臨床相關DNA之分數)。為了計算所有尿液游離DNA片段之O/E比,可將所觀測到的OCR相關DNA貢獻確定為所有片段中與OCR對齊的片段之百分比。期望的OCR相關DNA貢獻可定義為參考基因體(例如人類參考基因體)中OCR之理論百分比。 1. O/E比
圖16顯示鑑定母體尿液中胎兒DNA分數與來自OCR區域之所有尿液游離DNA片段的O/E比之間的相關性之圖1600。使用對應於DHS位點之所有OCR。此處,吾人將觀測值(O)定義為所有片段中與OCR對齊的片段之百分比,將期望值(E)定義為參考基因體中OCR之理論百分比。O/E比愈高,來自OCR區域之片段富集愈多。如圖16所示,母體尿液中胎兒DNA之濃度分數與所有尿液游離DNA片段之O/E比成比例增加(皮爾森之R=0.866;p值<0.001)。因此,可藉由確定來自OCR之DNA分子之O/E比來估計尿液樣品中胎兒DNA之濃度分數。
圖17顯示說明母體尿液中胎兒DNA分數與來自胎盤特異性DHS之尿液cfDNA片段的O/E比之間的相關性之圖1700。當使用所有DHS位點時,O/E比愈高,來自OCR區域之片段富集愈多。如圖17所示,母體尿液中胎兒DNA之濃度分數與胎盤特異性DHS中之所有尿液游離DNA片段之O/E比成比例增加(皮爾森之R=0.820;p值<0.001)。因此,可藉由確定來自組織特異性OCR (例如胎盤特異性OCR)之DNA分子的O/E比來估計尿液樣品中胎兒DNA之濃度分數。 2.標準化之末端密度及長度之使用
作為使用相對豐度來確定臨床相關DNA之濃度分數的另一個例子,位於OCR中之全部尿液游離DNA之末端密度被用於確定尿液樣品中之胎兒分數。末端密度可鑑定終止於特定位置(例如DNase1超敏位點)之DNA分子的比率。例如,對於各DNase1超敏位點,可在距中心基因體位置0 bp之距離處計算標準化之末端密度。OCR處較高的標準化末端密度(與OCR之中心基因體位置相距0 bp之距離)可與尿液中較高分數之經腎游離DNA (例如胎兒DNA)相關聯。
為了確定OCR區域之末端密度,吾人分析了14個母體尿液樣品及11個母體血漿樣品。分析距OCR之中心基因體位置上游1 kb及下游1 kb內之DNA片段之5'及3'末端。標準化之末端密度定義為位於圍繞OCR之窗口(例如,上游1 kb及下游1 kb)內之片段末端的計數除以一或多個所用OCR相鄰(例如,側翼)之基因座/區域之中位數或平均數計數。亦可使用上游或下游,例如,至少100、200、300、400、500、600、700、800、900或大於1,000bp之其他窗口。作為實例,相鄰基因座可在用於定義OCR之窗口以外,且可具有各種長度,例如,如上文所描述。
圖18顯示了鑑定母體尿液及血漿樣品之OCR中所有尿液游離DNA之標準化末端密度的圖1800。使用對應於DHS位點之所有OCR。母體尿液及母體血漿樣品分別用紅線及黃線表示。如圖1800所示,OCR之標準化末端密度在母體尿液樣品中比在母體血漿樣品中明顯更富集。
圖19顯示了一組圖1900,其根據一些實施例鑑定用於確定胎兒DNA之濃度分數之尿液游離DNA及血漿游離DNA之末端密度之間的比較。對於尿液樣品,來自OCR之DNA分子之末端密度可用於確定胎兒DNA之濃度分數。此類確定不能對血漿樣品進行。圖1902顯示胎兒DNA分數與尿液游離DNA之標準化末端密度成比例地增加,而圖1904未顯示血漿游離DNA之此類增加。因此,尿液樣品中OCR處之相對豐度可用於估計尿液樣品中臨床相關DNA之濃度分數。
圖20顯示了一組圖2000,其根據一些實施例鑑定胎兒DNA分數與具有不同長度的尿液游離DNA之標準化末端密度之間的相關性。在圖20中,圖2002顯示母體尿液樣品中所有游離DNA片段之標準化末端密度,而圖2004顯示母體尿液樣品中長度等於或小於80 bp之片段之標準化末端密度。如本文所描述,除80 bp以外,亦可使用其他長度臨限值(長度臨限值)。
在圖2002中,母體尿液中之胎兒DNA分數與OCR之標準化末端密度顯著相關(皮爾森之R=0.926;p值<0.001)。藉由選擇≤80 bp之片段可進一步增強母體尿液中胎兒DNA分數與標準化之末端密度之間的相關性(皮爾森之R=0.960;P值<0.001) (圖2004)。結果提示,OCR來源之分子之使用可告知經腎尿液游離DNA之程度。 3.方法
圖21顯示了根據一些實施例之用於估計個體尿液樣品中臨床相關DNA分子之濃度分數的方法2100之流程圖。尿液樣品可包括游離的臨床相關DNA及其他DNA。在其他實例中,生物樣品可不包括臨床相關DNA,且估計之濃度分數可指示零或臨床相關DNA之低百分比。
尿液樣品可包括來自一或多種組織類型,例如心臟、肺及肝臟之游離DNA分子之混合物。例如,尿液樣品可自包含母體游離DNA分子及胎兒游離DNA分子之孕婦獲得。尿液樣品可包含腫瘤特異性游離DNA分子以及其他組織特異性游離DNA分子。臨床相關DNA分子可包括胎兒DNA。在一些實施例中,臨床相關DNA包括腫瘤DNA。方法2100及本文所描述之任何其他方法之態樣可由電腦系統執行。
在一些情況下,在獲得游離DNA分子之前使用DNA穩定劑處理尿液樣品。可使用不同的DNA穩定劑,例如EDTA及Collipee穩定劑。EDTA可藉由螯合鎂及鈣來抑制DNASE1家族之切割活性,鎂及鈣為DNASE1消化所需之必需離子。穩定劑可潛在地穩定尿液DNA以免降解。穩定劑可為但不限於由Collipee公司提供之防腐劑、重氮烷基脲(DU)、二甲基脲、2-溴-2-硝基丙烷-1,3-二醇、5-羥基甲氧基甲基-1-氮雜-3,7-二氧雜二環(3.3.0)辛烷及5-羥甲基-1-氮雜-3,7-二氧雜二環(3.3.0)辛烷及5-羥基聚[亞甲氧基]甲基-1-氮雜-3,7-二氧雜二環(3.3.0)辛烷、雙環 唑啶(例如NuoSept95)、DMDM乙內醯脲、咪唑啶基脲(IDU)、羥甲基甘胺酸鈉、六亞甲基四胺氯烯丙基氯(四級銨鹽-15)、滅微生物劑(例如Bioban、Preventol及Grotan)、水溶性鋅鹽、EDTA、其他金屬離子螯合劑,例如N,N'-雙-(二硫代甲醯氧基)哌 (BDP)、二乙基二硫代胺基甲酸酯(鹽) (DDTC)、亞胺基二琥珀酸(IDS)、聚天冬胺酸、S,S-乙二胺-N,N'-二琥珀酸(EDDS)、甲基甘胺酸二乙酸(MGDA)等。
在框2102,分析來自尿液樣品之多個游離DNA分子。在一些情況下,分析尿液樣品中之多個游離DNA分子以獲得序列讀段。作為實例,序列讀段可使用定序或基於探針之技術獲得,其中任一技術可包括富集,例如藉由擴增或捕捉探針。
定序可以多種方式進行,例如,使用大規模平行定序或下一代定序、使用單分子定序,及/或使用雙鏈或單鏈DNA定序文庫製備方案。熟習此項技術者將理解可使用的各種定序技術。作為定序之一部分,一些序列讀段可能對應於細胞核酸。
在一些情況下,分析上述多個游離DNA分子包括:(i)確定上述多個游離DNA分子之位置;及(ii)基於上述位置,鑑定游離DNA分子之集合,上述游離DNA分子來自與上述臨床相關DNA分子相關之一或多個組織之開放染色質區域。可使用所有OCR或僅使用OCR之子集。例如,可使用對產生(例如,有助於)經腎DNA之組織特異之OCR。任一或多種經腎特異性OCR可用於本揭露內容之實施例中。此類區域可被稱為經腎開放染色質區域。
cfDNA分子之位置可藉由將一或多個相應的序列讀段與參考基因體比對(定位)來確定。作為另一個實例,可基於所使用之探針,例如,藉由發射信號,例如螢光染料之顏色進行鑑定,來定義位置。以此類方式,可確定cfDNA分子是否在經腎OCR內。
如熟習此項技術者根據本揭露內容將理解的,可以各種方式來鑑定OCR。開放染色質區域可包括使用DNase-seq (Meuleman等人, Nature. 2020;584:244-251)定義之一或多個DNase1超敏位點(DHS)。開放染色質區域可包括使用DNase-seq鑑定之位點、使用定序使用轉座酶可接近之染色質測定(ATAC-seq)鑑定之位點、轉錄起始位點(TSS)、CCCTC結合因子(CTCF)位點、增強子位點以及其他核酸酶超敏位點。
在一些實施例中,分析多個游離DNA分子亦包括鑑定來自一或多個組織之開放染色質區域且具有小於指定長度臨限值之長度的游離DNA分子之集合。例如,如圖20之圖2004所示,臨床相關DNA分子之相對豐度可基於來自開放染色質區域之較短DNA片段(例如,小於80個鹼基對之片段)來計算。長度臨限值可在確定臨床相關DNA分子之相對豐度時過濾較短的DNA片段,因為經腎DNA (例如,通過腎之GBM之DNA分子)之特徵可在於其較短的長度。如本文所描述,可使用一定量之經腎DNA來鑑定尿液樣品中之臨床相關DNA分子。作為實例,長度臨限值可為40個鹼基對、50個鹼基對、60個鹼基對、70個鹼基對、80個鹼基對、90個鹼基對、100個鹼基對、110個鹼基對、120個鹼基對、130個鹼基對、140個鹼基對、150個鹼基對或160個鹼基對,其可在使用如本文所描述之長度臨限值之任何實施例中使用。
可分析統計學上顯著數目的游離DNA分子以提供濃度分數之精確測定。在一些實施例中,分析至少1,000個游離DNA分子。在其他實施例中,可以分析至少5000或10,000或50,000或100,000或500,000或1,000,000或5,000,000或更多的游離DNA分子。在一些情況下,游離DNA分子之集合包括至少1000、2000、3000、4000、5000、10,000、50,000或100,000個游離DNA分子。
為了鑑定來自開放染色質區域之游離DNA分子之集合,可富集尿液樣品中來自OCR之DNA片段(例如,靶向定序),從而產生富集的樣品。例如,生物樣品可富集來自一或多個組織之開放染色質區域之DNA片段,例如CTCF位點、TSS位點、DNase1超敏位點或Pol II區域。富集可包括使用與例如參考基因體所定義之基因體之一部分或整個基因體結合之捕捉探針。作為另一實例,富集可使用引子來擴增(例如,藉由PCR、滾環擴增或多重置換擴增(MDA))基因體之某些區域。在一些情況下,富集包括使用來自一或多個組織之開放染色質區域且具有小於指定長度臨限值之長度的游離DNA分子之集合。在一些實施例中,富集尿液樣品之具有多個片段組學特徵之游離DNA分子,包括以下之游離DNA分子:(i)來自一或多個組織之開放染色質區域;(ii)具有小於指定長度臨限值(例如80個鹼基對)之長度;及/或(iii)具有對應於序列末端標籤(例如CC末端)之一或多個末端序列。
在框2104,游離DNA分子之集合用於確定來自一或多個組織之開放染色質區域之多個游離DNA分子的相對豐度。在一些情況下,相對豐度可包括標準化之末端密度。例如,可基於位於圍繞OCR (例如,1 kb上游及1 kb下游或本文所描述之其他)之不同長度的窗口內之DNA分子之集合的片段末端之計數除以跨越所有OCR側翼之基因座之中位數或平均數計數來計算標準化之末端密度。OCR可以各種方式定義,例如,藉由CTCF位點、TSS位點、DNase1超敏位點、Pol II區域。
因此,末端密度可包括來自一或多個組織之開放染色質區域的游離DNA分子之集合的第一量除以來自一或多個其他區域之多個游離DNA分子的第二量,上述其他區域例如鄰近一或多個OCR之區域,可能為所有使用的OCR。第二量可為所有多個游離DNA分子之量,因此第一量可為第二量之子集。
在一些實施例中,如先前在圖16-圖17中所示,健康個體之尿液樣品可預期顯示出特定量之來自開放染色質區域之DNA分子,或來自OCR之尿液DNA分子之第一相對頻率(例如,百分比) (觀測值)與來自一或多個組織之開放染色質區域之參考基因體的參考序列之第二相對頻率(預期值)之間的特定比率(例如,O/E比)。因此,預期的OCR相關之DNA貢獻可對應於參考基因體(例如,人類參考基因體)中OCR之理論百分比。例如,觀測值(O)可包括與所有片段中之OCR對齊的片段之百分比及作為參考基因體中OCR之理論百分比之期望值(E)。在一些情況下,基於來自一或多個組織之開放染色質區域之參考基因體的單核苷酸變體之相對頻率來確定期望值。在各種實例中,相對豐度可為第一相對頻率及第二相對頻率之間的比率或頻率之一與兩個值之和的比率。
在框2106,藉由將相對豐度與由一或多個校準樣品確定之一或多個校準值進行比較來估計生物樣品中臨床相關DNA分子之濃度分數,上述一或多個校準樣品之臨床相關DNA分子之濃度分數係已知的。如圖19及圖20所示,胎兒及母體DNA具有不同的相對豐度。具有兩者之混合物之樣品將具有取決於樣品中胎兒/母體DNA之比例的相對豐度。校準樣品之濃度分數可以其他方式確定,例如,使用男性胎兒之Y染色體上的基因座或胎兒特異性標誌物(例如,遺傳自父親之對偶基因或胎兒特異性表觀遺傳標誌物)。
校準資料點可包括臨床相關DNA之相對豐度及量測的/已知的分數。該比較可包括將相對豐度與校準曲線(由校準資料點組成)進行比較,因此該比較可鑑定曲線上具有測試樣品之量測相對豐度之點。例如,藉由將相對豐度輸入至表示校準曲線之校準函數,可將相對豐度與校準曲線進行比較。然後可使用對應於所鑑定之點的濃度分數來估計濃度分數。例如,可提供相對豐度作為校準函數(例如,線性或非線性擬合)之輸入,以獲得濃度分數之輸出。
因此,將相對豐度與一或多個校準值進行比較可包括將相對豐度與包括一或多個校準值之校準曲線進行比較。並且為了獲得校準資料點,對於一或多個校準樣品之各校準樣品,一些實施例可量測校準樣品中臨床相關DNA分子之濃度分數,且量測來自校準樣品之來自一或多個組織之開放染色質區域的游離DNA分子之相對豐度。如上文所描述,量測臨床相關DNA分子之濃度分數可使用組織特異性對偶基因或組織特異性甲基化模式。
濃度分數為定量值且可為值的範圍。例如,濃度分數可確定定量值大於或小於指定值。在其他實施例中,濃度分數可具有上限及下限,此可對應於可確定濃度分數之解析率。 B. 使用末端模體特徵富集尿液樣品
在一些實施例中,尿液樣品中之經腎尿液游離DNA分數可使用某些末端模體來確定,例如,如第IV部分及本文別處所描述。末端模體可包括但不限於具有某些長度之末端序列(例如,1-mer、2-mer、3-mer、4-mer、5-mer、6-mer、7-mer、8-mer、9-mer)。下面提供進一步的資料。 C端末端模體與胎兒分數之關係
圖22顯示了鑑定胎兒DNA分數與攜帶CC末端之尿液游離DNA片段的比例之間的相關性的一組圖2200。在圖22中,圖2202顯示了胎兒DNA分數及尿液樣品中攜帶CC末端之所有尿液游離DNA片段的比例之間的相關性。曲線2202顯示胎兒DNA分數與攜帶CC末端之游離DNA片段的比例之間的相關性,上述CC末端等於或小於80 bp。
在圖2202中,母體尿液中胎兒DNA分數與所有片段中攜帶 CC-末端 之尿液游離DNA片段之比例貢獻顯著相關(皮爾森之R=0.637;P值=0.006)。在圖2204中,選擇≤80bp之片段後,觀測到母體尿液中胎兒DNA分數與攜帶 CC-末端 之尿液游離DNA片段比例之間的相關性的進一步增加(皮爾森之R=0.807;P值<0.001)。 2.例示性富集方案
圖23說明了使用探針富集一或多種末端模體之集合的技術2300。技術2300可用於富集C末端模體以富集尿液樣品之臨床相關DNA,如圖9、圖10及圖22所示。
如圖所示,游離DNA分子2302具有不同的末端模體,例如,本實例中之1-mer末端模體。
在步驟2304中,將具有不同末端模體之cfDNA片段與共同序列2305(例如,人工序列)連接。可使用超過一種序列,使用一種註釋序列可更有效。人工序列之長度應≥指定長度,諸如16 bp (或17、18、19、20、21、22、23、24、25或26 bp)以確保探針結合之特異性(416>3×109 [人類基因體長度])。DNA片段末端之人工序列可促進特定DNA末端模體之探針識別。
在步驟2306中,使具有共同序列2305之DNA分子變性以分離兩條鏈,得到具有不同末端模體及共同序列2305之單鏈cfDNA 2308。可使用各種變性方案,例如使用溫度,如熟習此項技術者將理解的。
在步驟2310中,用許多探針序列2316固定表面2312 (例如晶片表面)。探針序列2316具有兩個成分,其包含與共同序列2305互補之序列及與靶向末端模體序列互補之模體序列2318 (例如,與靶C末端模體互補之 G )。只有具有靶向末端模體(例如,具有末端-C模體)之片段可與探針結合,留下以其他模體為末端之片段未結合(即,未結合之片段2320)。互補模體序列2318可為不同的末端模體之集合,例如,在使用2-mer或更高聚體之情況下。例如,對於2-mer,可使用四種不同的探針,用於以C終止之四種不同的2-mer。
在步驟2314中,洗去未結合之片段2320。剩餘的結合片段2322可用各種方式偵測或進一步分析。例如,只有具有與片段結合之互補模體序列2318的探針可延伸(例如,藉由DNA聚合酶將一個核苷酸與螢光染料連接)。以此類方式,當存在攜帶靶向模體之片段時,可偵測到螢光信號。作為偵測的其他實例,反應可將結合之cfDNA片段延伸一個用生物素標記之核苷酸。生物素可藉由與螢光團綴合之鏈黴抗生物素蛋白來偵測。作為另一個選擇,反應可延伸一個用二硝基苯基標記之核苷酸。二硝基苯基可藉由用螢光團標記之抗DNP抗體來偵測。在其他實施方式中,可在單獨的過程中對所結合的片段進行定序。
圖24說明了使用探針及珠粒來富集一或多種末端模體之集合的另一種技術2400。類似於圖23,具有不同末端模體之cfDNA片段可與人工序列連接。DNA片段末端之人工序列可促進特定DNA末端模體之探針識別。雙鏈DNA片段可變性,變成單鏈DNA。
在所示之實例中,靶向具有特定末端模體之DNA片段之探針具有三種組分:可結合鏈黴抗生物素蛋白珠之生物素、共同序列之互補序列,及特定末端模體序列之互補模體序列(例如,靶向C末端模體之 G )。探針與DNA片段雜交。只有具有特定末端模體之片段才能與探針結合,從而使具有其他末端模體之片段不結合。
鏈黴抗生物素蛋白珠可捕捉探針,因為生物素及鏈黴抗生物素蛋白之間具有高親和力。只有具有特定末端模體之片段才能被鏈黴抗生物素蛋白珠捕捉。洗去未結合之片段。結果,具有特定末端模體之cfDNA片段可藉由此類設計捕捉。
使用技術2400與互補模體序列結合之片段可以與技術2300相同之方式偵測或進一步分析。
並非為了富集靶末端模體而洗去未結合之片段,而是可擴增靶末端模體。例如,可將包含共同序列及靶末端模體之引子與核苷酸一起添加至反應中,且可進行擴增過程(例如PCR或滾環)。 3. 方法
圖25顯示了根據一些實施例之用於基於尿液游離DNA之末端模體特徵富集尿液樣品的臨床相關DNA的方法2500之流程圖。方法2500及本文所描述之其他方法之態樣可以與方法2100類似的方式進行,例如,樣品製備及DNA分子之分析。尿液樣品可包括游離的臨床相關DNA及其他DNA。在其他實例中,生物樣品可不包括臨床相關DNA,且估計之濃度分數可指示零或低百分比之臨床相關DNA。方法2500及本文所描述之任何其他方法之態樣可由電腦系統執行。
在框2502,分析來自尿液樣品之多個游離DNA分子。框2502之各態樣可以與方法2100之框2102類似的方式進行。例如,可分析尿液樣品中之多個游離DNA分子以獲得序列讀段。序列讀段可包括對應於多個游離DNA片段之末端之末端序列。作為實例,序列讀段可使用定序或基於探針之技術獲得,其中任一技術可包括富集,例如藉由擴增或捕捉探針。
定序可以多種方式進行,例如,使用大規模平行定序或下一代定序、使用單分子定序,及/或使用雙鏈或單鏈DNA定序文庫製備方案。熟習此項技術者將理解可使用的各種定序技術。作為定序之一部分,一些序列讀段可能對應於細胞核酸。
在一些實施例中,分析多個游離DNA分子亦包括鑑定游離DNA分子之集合,上述游離DNA分子位於包括C末端核苷酸之一或多種序列模體之集合中。序列末端標籤可為K-mer末端模體之一部分,例如2-mer、3-mer、4-mer等。例如,基於具有CC末端進一步鑑定上述游離DNA分子之集合。此外,可要求末端序列在DNA片段之兩端,或者可使用特定的一對不同的末端模體來選擇特定的DNA片段之集合。
當進行定序時,鑑定多個游離DNA分子之集合可包括鑑定具有在一或多種序列模體之集合中的末端序列之序列讀段。因此,富集的樣品可對應於具有在一或多種序列模體組中之末端序列之序列讀段。作為定序之替代方案,為了鑑定具有一或多個末端序列之DNA分子,可將一或多種探針分子連接至表面上,且藉由雜交偵測末端序列中之序列模體。
在一些實施例中,基於其各自之長度(例如,小於80個鹼基對之片段)進一步鑑定游離DNA分子之集合。如圖22所示,長度臨限值可過濾更短的DNA片段,因為經腎DNA(例如,通過腎之GBM之DNA分子)可藉由其更短的長度來表徵。如本文所描述,可使用一定量之經腎DNA來鑑定尿液樣品中之臨床相關DNA分子。指定的長度臨限值可包括40個鹼基對、50個鹼基對、60個鹼基對、70個鹼基對、80個鹼基對、90個鹼基對、100個鹼基對、110個鹼基對、120個鹼基對、130個鹼基對、140個鹼基對、150個鹼基對或160個鹼基對。
如本文所描述,可分析統計學上顯著數目的游離DNA分子。
在框2504,可藉由使用在一或多種序列模體之集合中的游離DNA分子之集合來產生富集之樣品。因此,與尿液樣品相比,富集之樣品包括更高濃度的臨床相關DNA。富集之樣品可為電腦模擬樣品,因為僅使用某些cfDNA分子之量測。在其他實例中,富集之樣品可為物理樣品。
富集可包括使用與一或多種序列模體之集合結合的捕捉探針。例如,鑑定游離DNA分子之集合或產生富集之樣品可包括使多個游離DNA分子經受一或多種探針分子,上述探針分子偵測多個游離DNA分子之末端序列中的一或多種序列模體之集合。使用此類探針分子可獲得游離DNA分子之集合。如圖23及圖24所描述,一些實施例可將共同序列連接至多個游離DNA分子上。然後,一或多種探針分子可包括共同序列之互補序列。
在一些情況下,產生富集之樣品包括使用探針分子捕捉游離DNA分子之集合及丟棄多個游離DNA分子中之其他游離DNA分子。在其他情況下,產生富集之樣品可包括使用一或多種探針分子擴增游離DNA分子之集合。
捕捉探針亦可結合(靶向)例如參考基因體所定義之基因體之一部分或整個基因體。作為另一實例,富集可使用引子擴增(例如,藉由PCR、滾環擴增或多重置換擴增(MDA))基因體之某些區域。
在一些實施例中,富集尿液樣品之具有多個片段組學特徵之游離DNA分子,包括以下游離DNA分子:(i)來自一或多個組織之開放染色質區域;(ii)具有小於指定長度臨限值(例如80個鹼基對)之長度;及/或(iii)具有對應於序列末端標籤(例如,K-mer末端模體之C末端或CC末端)之一或多個末端序列。
在框2506,確定與富集之尿液樣品中的臨床相關DNA相關之性質。作為實例,尿液樣品中臨床相關DNA之性質可為(1)臨床相關DNA之濃度分數或(2)用於獲得生物樣品之個體之病理等級,例如,其中病理等級與臨床相關DNA相關。熟習此項技術者將理解可使用具有末端序列之游離DNA分子之集合來確定的各種性質,例如,單倍型胎兒遺傳、偵測突變、複本數畸變(例如,非整倍性)、甲基化性質、各種鹼基修飾、基因體相互作用、蛋白質結合狀態、片段組學特徵等,上述末端序列在包括C末端核苷酸之一或多種序列模體之集合中,如在美國公開號2009/0087847、2009/0029377、2011/0276277、2011/0105353、2013/0040824、2014/0100121、2014/0080715及2020/0199656中不同地描述。 C. 利用OCR等特徵富集尿液樣品
上述片段組學特徵(例如,末端模體、長度、開放染色質區域之富集)可組合以估計經腎DNA貢獻。例如,胎兒DNA分子可用CC末端富集。基於此類相關性,可基於尿液樣品中具有CC末端之尿液游離DNA之比例來估計經腎DNA之貢獻。若將具有CC末端及長度(例如,短於80 bp之片段)的尿液游離DNA之比例一起使用,則估計尿液樣品中之經腎DNA貢獻可變得更加精確。實際上,估計胎兒DNA分數之準確性亦可提高。
圖26顯示了一組圖,其根據一些實施例之使用具有各種片段組學性質的尿液游離DNA來鑑定胎兒DNA之富集。如圖26所示,針對CC末端(圖2610)、OCR(圖2620)及小於80個鹼基對之長度(圖2630)過濾之DNA分子可導致尿液樣品中胎兒DNA富集之顯著增加。與單獨使用上述片段組學特徵相比,使用組合(圖2640)進一步顯著富集。
圖27顯示了使用具有不同片段組學特徵之片段之選擇性分析來鑑定經腎尿液游離DNA之富集之柱狀圖2700。在不存在選擇2702、在基於CC末端之選擇性分析2704、在基於OCR之選擇性分析2706、在基於長度之選擇(≤80 bp) 2708以及在對應於末端模體、OCR及長度2710之特徵之組合的情況下,尿液游離DNA中之胎兒DNA分數之百分比增加。為了顯示胎兒DNA分數之增加,吾人計算了在不同標準選擇後胎兒DNA濃度分數之增加的平均數。
如圖27所示,若針對具有CC末端,在OCR區域內或長度等於或小於80 bp來過濾片段,則給定尿液樣品中之胎兒DNA分數分別增加78.6%、60.1%及223.8%。換言之,使用CC末端及OCR區域標準過濾DNA分子導致胎兒DNA之濃度分數增加約1倍。若使用長度(等於或小於80 bp之片段)標準作為DNA分子之過濾器,則胎兒DNA之濃度分數增加約兩倍。若將此三種片段組學特徵組合在一起,則尿液中之胎兒DNA分數可進一步增加836.8% (超過8倍)。因此,圖27中之資料表明,基於根據片段組學特徵之不同組合的游離DNA分子之選擇性分析,可富集目標經腎尿液游離DNA。
此外,此等片段組學特徵中之兩者或更多者之組合亦可用於估計尿液樣品中胎兒DNA之貢獻。例如,方法2100可進一步使用長度分佈之統計長度,如美國專利號9,892,230中所描述。作為另一實例,除了使用OCR以外或作為替代,可使用包含C-末端核苷酸之一或多種序列模體之集合。此等不同特徵中之各者可一起使用,例如,在二維或三維校準曲線中。
圖28顯示了根據一些實施例之用於基於末端模體、開放染色質區域富集尿液樣品之臨床相關DNA的方法2800之流程圖。方法2800及本文所描述之其他方法之態樣可以與方法2100及/或方法2500類似之方式進行,例如,樣品製備及DNA分子之分析。尿液樣品可包括游離的臨床相關DNA及其他DNA。在其他實例中,生物樣品可不包括臨床相關DNA,且估計之濃度分數可指示零或低百分比之臨床相關DNA。方法2800及本文所描述之任何其他方法之態樣可由電腦系統執行。
在框2802,分析來自尿液樣品之多個游離DNA分子。框2802之各態樣可以與框2102或框2502類似之方式進行。例如,分析尿液樣品中之多個游離DNA分子以獲得序列讀段。序列讀段可包括對應於多個游離DNA片段之末端之末端序列。作為實例,序列讀段可使用定序或基於探針之技術獲得,其中任一者可包括例如經由擴增或捕捉探針富集,如方法2500所描述。
在一些實施例中,分析多個游離DNA分子亦包括鑑定以下游離DNA分子之集合:(i)來自一或多個組織之開放染色質區域;(ii)具有小於指定長度臨限值(例如80個鹼基對)之長度;及/或(iii)具有對應於序列末端標籤(例如,K-mer末端模體之C末端或CC末端)之一或多個末端序列。開放染色質區域可以與本文所描述類似之方式鑑定。
如圖26及圖27所示,可基於其各自之長度(例如,小於80個鹼基對之片段)來鑑定游離DNA分子之集合。長度臨限值可過濾更短的DNA片段,因為經腎DNA (例如,通過腎之GBM之DNA分子)可藉由其更短的長度來表徵。如本文所描述,可使用一定量之經腎DNA來鑑定尿液樣品中之臨床相關DNA分子。指定之長度臨限值可包括40個鹼基對、50個鹼基對、60個鹼基對、70個鹼基對、80個鹼基對、90個鹼基對、100個鹼基對、110個鹼基對、120個鹼基對、130個鹼基對、140個鹼基對、150個鹼基對或160個鹼基對。
在一些實施例中,可使用各種方法(例如凝膠電泳)來確定多個游離DNA分子之長度。例如,可使用凝膠電泳、過濾、長度選擇沉澱或雜交來量測多個游離DNA分子之長度。另外或視情況地,可使用序列讀段量測多個游離DNA片段之長度。例如,序列讀段可由對來自生物樣品之多個游離DNA分子之定序(例如,大規模平行定序、單分子即時定序、奈米孔定序)獲得。為了量測游離DNA分子之長度,可對各序列讀段計數多個核苷酸。熟習此項技術者將理解可使用的各種定序技術。作為定序之一部分,一些序列讀段可能對應於細胞核酸。在一些情況下,可富集尿液樣品之長度小於預定長度臨限值(例如,80 bp)之DNA片段。
游離DNA分子之集合可進一步基於具有一或多個對應於序列末端標籤之末端序列來鑑定。序列末端標籤可為末端模體之一部分,例如2-mer、3-mer等。例如,基於具有CC末端進一步鑑定游離DNA分子之集合。此外,可要求末端序列在DNA片段之兩端,或者可使用特定的一對不同的末端模體來選擇特定的DNA片段之集合。除定序以外,為了鑑定具有一或多個末端序列之DNA分子,可將一或多種探針分子連接至表面或珠粒上,且藉由雜交偵測末端序列中之序列模體。
如本文所描述,可分析統計學上顯著數目的游離DNA分子。
在框2804,可藉由使用游離DNA分子之集合產生富集之樣品,上述游離DNA分子:(i)來自一或多個組織之開放染色質區域;(ii)具有小於指定長度臨限值(例如80個鹼基對)之長度;及/或(iii)具有對應於序列末端標籤(例如CC末端)之一或多個末端序列。框2804之各態樣可以與框2504類似之方式進行。因此,與尿液樣品相比,富集之樣品包括更高濃度的臨床相關DNA。例如,生物樣品可富集來自一或多個組織之開放染色質區域之DNA片段,例如CTCF位點、TSS位點、DNase1超敏位點或Pol II區域之DNA片段。富集可包括使用與例如參考基因體所定義之基因體之一部分或整個基因體結合之捕捉探針。作為另一實例,富集可使用引子來擴增(例如,藉由PCR、滾環擴增或多重置換擴增(MDA))基因體之某些區域。
在一些情況下,產生富集之樣品包括使用探針分子捕捉游離DNA分子之集合及丟棄多個游離DNA分子中之其他游離DNA分子。富集之樣品可為電腦模擬樣品。
在框2806,確定與富集之尿液樣品中之臨床相關DNA相關的性質。框2806之各態樣可以與框2506類似之方式進行。作為實例,尿液樣品中之臨床相關DNA之性質可為(1)臨床相關DNA之濃度分數或(2)用於獲得生物樣品之個體之病理等級,例如,其中病理等級與臨床相關DNA相關。熟習此項技術者將認識到可確定的各種性質,例如,如上文對於方法2500所描述。 VII.尿液CFDNA對異常之分類
在一些實施例中,可藉由使用經腎尿液游離DNA分子來偵測及監測癌症。例如,腎細胞癌(RCC)為一種在腎小管襯層中發現惡性細胞之疾病。若腎功能受到影響,則可改變經腎游離DNA之濃度分數。實際上,與未患有腎癌之個體相比,患有腎癌之患者在經腎尿液游離DNA之濃度分數方面將表現出異常。其他腎臟異常(除RCC以外)亦可影響尿液樣品中之經腎尿液游離DNA,例如基於長度或區域,如OCR。其他實例包括蛋白尿及先兆子癇。 A. 基於OCR之分類
可預期健康個體之尿液樣品顯示出特定量之來自一或多個組織之開放染色質區域之DNA分子,或來自開放染色質區域之尿液DNA分子之觀測頻率與來自一或多個組織之開放染色質區域的參考基因體之參考序列的預期頻率之間的特定比率。但是,若GBM之滲透性在一些個體(例如,患有腎病症候群、腎小球腎炎之個體)中受到干擾,則上述比率可能增加或降低。若相對於正常量之此類變化超過預定臨限值,則可確定個體患有影響腎臟滲透性之疾病或其他異常狀況。
可量測對照個體之一或多個組織之開放染色質區域之DNA分子的量。然後,可使用與上述量測之DNA分子的量之顯著偏差來確定給定個體是否具有腎臟異常。例如,血液樣品可包括源自不同器官(例如,心臟、肺、肝)之游離DNA分子。對應於肝臟之開放染色質區域之游離DNA分子的量(例如)可針對尿液樣品來確定(例如,使用對OCR之靶向定序)。若所確定之游離DNA分子之量與對應於健康個體之開放染色質區域之游離DNA分子的校準量之間存在統計學顯著差異,則可確定腎臟異常之分類。可使用超過一個組織特異性區域。總而言之,量測可為針對所有OCR或對貢獻經腎DNA中之一或多者有特異性之OCR或對一或多種細胞類型有特異性之OCR,如前面部分所描述。 1. 腎細胞癌
為了說明之目的,吾人分析了來自15個對照個體之尿液游離DNA之O/E比及16個腎細胞癌(RCC)患者之O/E比。為了計算所有尿液游離DNA片段之O/E比,可將所觀測到的OCR相關之DNA貢獻確定為所有片段中與OCR對齊的片段之百分比。期望的OCR相關之DNA貢獻可定義為人類基因體中OCR之理論百分比。
圖29顯示了在患有RCC之患者中鑑定O/E比分析的一組圖2900。箱形圖2902顯示了對照個體及患有RCC之患者之間的O/E比之箱形圖。如箱形圖2902所示,RCC患者之O/E比(中位數:1.378;範圍:1.174-1.863)顯著高於對照組(中位數:1.288;範圍:1.190-1.571) (Mann-Whitney,P-值<0.001)。此外,吾人亦對此等樣品進行了接收機工作特性(ROC)分析。ROC 2904顯示用於區分患有RCC之患者與對照個體之效能水平之ROC。ROC 2904之曲線下面積(AUC)在RCC患者與對照個體之區分中為0.964。 2.蛋白尿
蛋白尿,亦稱為蛋白尿症(albuminuria),為尿液中之蛋白質升高,且可被視為一種腎臟異常。因為腎功能不能很好地發揮作用,其將允許更多的蛋白質進入尿液,因此為一種類型之腎臟異常。
由於蛋白尿患者之尿液中含有過量的蛋白質,吾人假設吾人可利用尿液cfDNA之片段組學特徵自健康對照中鑑定蛋白尿患者。吾人使用了OCR之豐度。可使用任何經腎特異性OCR。與本揭露內容之其他實施例一樣,對於任何給定之使用情況(例如,腎臟異常之分類、濃度分數之估計或富集),僅使用OCR,儘管可進行兩個單獨的確定,然後組合。
由於健康對照及患有蛋白尿之個體之尿液中不存在胎盤DNA,吾人使用血液相關區域來代表經腎相關基因體位置/區域。
圖30顯示了對蛋白尿患者中經腎DNA之片段組學分析。箱形圖3002顯示了健康對照及蛋白尿患者中OCR (血液特異性DHS)中尿液cfDNA片段之O/E比。
在O/E比分析中,蛋白尿患者對於OCR (血液特異性DHS)中之片段具有顯著較低的O/E比(Mann-Whitney U檢驗,P值=0.0052)。此等結果表明在蛋白尿患者中來自OCR之片段之比例降低。稍後提供ROC分析。 3.先兆子癇
吾人假設吾人可利用尿液cfDNA之片段組學特徵來鑑定患有先兆子癇之孕婦。患有先兆子癇之孕婦通常被診斷為尿液中蛋白質水平升高,表明腎臟之GBM功能受損。吾人推測,若大長度血漿分子如蛋白質可通過GBM且進入尿液,則來自血漿之大長度DNA分子(例如,與組蛋白結合之長DNA分子或DNA分子)亦可進入尿液。
吾人使用DHS來表示OCR。在本揭露內容之其他地方描述了鑑定OCR之其他方式。
圖31顯示了對患有先兆子癇之孕婦中經腎DNA之片段組學分析。箱形圖3110顯示了健康孕婦及患有先兆子癇之孕婦的OCR (所有DHS)中尿液cfDNA片段之O/E比。箱形圖3120顯示了在健康孕婦及患有先兆子癇之孕婦中OCR (胎盤特異性DHS)中尿液cfDNA片段之O/E比。
使用片段之O/E比區分健康孕婦及患有先兆子癇之孕婦在胎盤特異性DHS (箱形圖3120)中之表現優於在所有DHS (箱形圖3110)中之表現(Mann-Whitney U檢驗,P值:0.0011 vs 0.0118)。因此,吾人在患有先兆子癇及蛋白尿之個體之尿液中使用了組織特異性區域進行O/E比分析。與健康孕婦相比,患有先兆子癇之孕婦在OCR (胎盤特異性DHS)之片段中具有顯著較低的O/E比(Mann-Whitney U檢驗,P值=0.0011)。此等資料表明在患有先兆子癇之患者中來自OCR之片段之比例降低。
當腎臟異常為先兆子癇時,可使用另外的因素。例如,亦可使用對是否存在高血壓之確定。例如,可將血壓與臨限值進行比較以確定個體是否患有高血壓。另一個因素可為尿液中是否存在蛋白質,例如蛋白尿。 4.方法
圖32顯示了根據一些實施例之用於基於來自開放染色質區域之尿液游離DNA來確定腎臟異常之分類的方法3200之流程圖。方法3200及本文所描述之其他方法之各態樣可以與上述方法類似之方式進行,例如,樣品製備及DNA分子之分析。尿液樣品可包括來自一或多個組織類型,例如心臟、肺及肝臟之游離DNA分子之混合物。尿液樣品可包含腫瘤特異性游離DNA分子以及其他組織特異性游離DNA分子。例如,尿液樣品可包括對腎細胞癌(RCC)具有特異性之游離DNA分子。方法3200及本文所描述之任何其他方法之各態樣可由電腦系統執行。
在框3202,分析來自尿液樣品之多個游離DNA分子。框3202之各態樣可以與其他方法的類似框(例如方法2100之框2102)類似之方式來進行,如可針對本文中之其他方法所做的那樣。例如,分析尿液樣品中之多個游離DNA分子以獲得序列讀段。作為實例,序列讀段可使用定序或基於探針之技術來獲得,其中任一技術可包括富集,例如藉由擴增或捕捉探針。
在一些情況下,分析上述多個游離DNA分子包括:(i)確定上述多個游離DNA分子之位置;及(ii)基於上述位置,鑑定游離DNA分子之集合,上述游離DNA分子來自與上述臨床相關DNA分子相關之一或多個組織之開放染色質區域。上述一或多個組織可包括心臟、肺或肝中之至少一者。開放染色質區域可包括一或多個DNase1超敏位點(DHS),其使用DNase-seq (Meuleman等人, Nature. 2020;584:244-251)定義。開放染色質區域可如本文所描述進行鑑定。
如本文所描述,可分析統計學上顯著數目的游離DNA分子。
為了鑑定來自開放染色質區域之游離DNA分子之集合,可富集尿液樣品之來自開放染色質區域之DNA片段(例如,靶向定序),從而產生富集之樣品。例如,生物樣品可富集來自一或多個組織之開放染色質區域之DNA片段,例如CTCF位點、TSS位點、DNase1超敏位點或Pol II區域。富集可包括使用與例如參考基因體所定義之基因體之一部分或整個基因體結合之捕捉探針。作為另一實例,富集可使用引子來擴增(例如,藉由PCR、滾環擴增或多重置換擴增(MDA))基因體之某些區域。在一些情況下,富集包括使用來自一或多個組織之開放染色質區域且具有小於指定長度臨限值之長度的游離DNA分子之集合。
在框3204,確定來自一或多個組織之開放染色質區域之多個游離DNA分子之相對豐度。框3204之各態樣可以與其他方法的類似框(例如方法2100之框2104)類似之方式來進行,如可針對本文中之其他方法所做的那樣。在一些情況下,相對豐度可包括標準化之末端密度。例如,可基於位於OCR (例如,CTCF位點、TSS位點、DNase1超敏位點,Pol II區域)之1 kb上游及1 kb下游內之DNA分子的集合之片段末端之計數除以跨越所有OCR側翼之基因座的中位數計數來計算標準化之末端密度。
在一些實施例中,如先前在圖29-圖31中所示,健康個體之尿液樣品可預期顯示出特定量的來自開放染色質區域之DNA分子,或來自OCR之尿液DNA分子之第一相對頻率(例如,百分比) (觀測值)與來自一或多個組織之開放染色質區域之參考基因體的參考序列之第二相對頻率(預期值)之間的特定比率(例如,O/E比)。因此,期望的OCR相關之DNA貢獻可對應於參考基因體(例如,人類參考基因體)中OCR之理論百分比。例如,觀測值(O)可包括在所有片段中與OCR對齊的片段之百分比及作為參考基因體中OCR之理論百分比之期望值(E)。在一些情況下,基於來自一或多個組織之開放染色質區域之參考基因體的單核苷酸變體之相對頻率來確定期望值。但是,若GBM之滲透性在一些個體中受到干擾,則上述比率可能增加或降低。若相對於正常量之此類變化超過預定臨限值,則可確定個體患有影響腎臟滲透性之疾病或其他異常狀況(例如腎病症候群、腎小球腎炎)。
在框3206,將相對豐度值與參考值進行比較。參考值可對應於基於來自一或多個參考樣品之開放染色質區域之游離DNA分子確定的另一相對豐度,其中上述一或多個參考樣品與腎臟異常的已知分類相關聯。例如,參考值可對應於自健康個體確定之相對豐度。在一些情況下,參考值為校準值或由校準樣品之校準值確定。與其他參考值一樣,所選擇之具體值可取決於特異性及敏感性之折衷。在一些實施例中,可使用機器學習模型來進行上述比較。
在框3208,基於比較來確定具有腎臟異常之個體之分類。在一些實施例中,將相對豐度與參考值進行比較包括:(1)確定相對豐度與參考值是否相差至少臨限值量或差異是否小於臨限值量;(2)確定相對豐度是否比上述參考值小至少臨限值量;或(3)確定相對豐度是否大於參考值至少臨限值量。作為實例,腎臟異常可包括腎細胞癌RCC、腎病症候群、腎小球性腎炎、法布里病、胱胺酸病、IgA腎病、IgM腎病、狼瘡腎炎、非典型溶血性尿毒症症候群(aHUS)、多囊腎病(PKD)、阿波特症候群、間質性腎炎、蛋白尿、慢性腎病、急性腎損傷、蛋白尿、先兆子癇等。在一些情況下,具有腎臟異常之個體之分類包括與腎臟之腎小球基底膜相關之滲透性水平增加。
腎臟異常之分類可使用利用訓練資料集訓練之機器學習來確定。訓練資料集可包括訓練樣品。訓練樣品可與腎臟異常的已知分類相關聯。在另一個例子中,可使用機器學習模型來進行與參考值之比較。該機器學習模型可應用於相對豐度以產生腎臟異常之分類。機器學習模型可包括但不限於卷積神經網路(CNN)、線性回歸、邏輯回歸、深度遞歸神經網路(例如,全連接遞歸神經網路(RNN)、閘控遞歸單元(GRU)、長期短期記憶(LSTM))、基於轉換器之方法(例如,XLNet、BERT、XLM、RoBERTa)、貝葉斯分類器、隱馬爾可夫模型(HMM)、線性判別分析(LDA)、k-均值聚類、基於密度之雜訊應用空間聚類(DBSCAN)、隨機森林演算法、自適應增強(AdaBoost)、eXtreme梯度增強(XGBoost)、支援向量機(SVM)、或包括上述提出之一或多個模型之複合模型。 B. 基於長度之分類
另外,或者自使用OCR之分類中,可使用尿液cfDNA之長度進行分類。腎臟異常之分類可以類似之方式進行,但代之以使用尿液樣品中cfDNA之長度分佈之統計。 1. 蛋白尿及先兆子癇
圖33為患有蛋白尿及單獨患有先兆子癇之患者中經腎DNA之片段組學分析3300。
箱形圖3310顯示了在健康對照及蛋白尿患者中>80 bp之尿液cfDNA之比例。吾人在患有蛋白尿之患者中觀測到比健康對照更高比例的長尿液cfDNA片段(即,>80 bp) (Mann-Whitney U檢驗,P值=0.0256)。
箱形圖3320顯示了在健康孕婦及患有先兆子癇之孕婦中>80 bp之尿液cfDNA之比例。吾人在患有先兆子癇之孕婦中觀測到長尿液cfDNA片段之比例(即>80bp) (Mann-Whitney U檢驗,P值=0.0021)高於在健康孕婦中觀測到長尿液cfDNA片段之比例。 2. 方法
圖34顯示了根據一些實施例之用於基於尿液游離DNA之長度來確定腎臟異常之分類的方法3400之流程圖。方法3400及本文所描述之其他方法之各態樣可以與上述方法類似之方式進行,例如,樣品製備及DNA分子之分析。尿液樣品可包括來自一或多個組織類型,例如心臟、肺及肝臟之游離DNA分子之混合物。尿液樣品可包含腫瘤特異性游離DNA分子以及其他組織特異性游離DNA分子。例如,尿液樣品可包括對腎細胞癌(RCC)具有特異性之游離DNA分子。方法3400及本文所描述之任何其他方法之各態樣可由電腦系統執行。
在框3402,分析來自尿液樣品之多個游離DNA分子。框3402之各態樣可以與其他方法之類似框(例如方法2100之框2102)類似之方式來進行,如可針對本文中之其他方法所做的那樣。例如,分析尿液樣品中之多個游離DNA分子以獲得序列讀段。作為實例,序列讀段可使用定序或基於探針之技術獲得,其中任一技術可包括富集,例如藉由擴增或捕捉探針。
在一些實施例中,分析多個游離DNA分子包括測定多個游離DNA分子之長度。可使用各種方法(例如凝膠電泳)來確定多個游離DNA分子之長度。例如,可使用凝膠電泳、過濾、尺寸選擇沉澱或雜交來量測多個游離DNA分子之長度。另外或視情況地,可使用序列讀段量測多個游離DNA片段之長度。例如,序列讀段可由對來自生物樣品之多個游離DNA分子之定序(例如,大規模平行定序、單分子即時定序、奈米孔定序)獲得。然後,為了量測游離DNA分子之長度,可對各序列讀段計數核苷酸之數目。熟習此項技術者將理解可使用的各種定序技術。作為定序之一部分,一些序列讀段可對應於細胞核酸。在一些情況下,可富集尿液樣品之長度小於預定長度臨限值(例如,80 bp)之DNA片段。
如本文所描述,可分析統計學上顯著數目的游離DNA分子。
在框3404,確定游離DNA分子之集合之統計值。統計值可基於多個游離DNA分子之長度來確定。長度可形成長度分佈。可使用各種統計值,例如,可使用長度分佈之平均數、均數、中位數或模式。作為另一實例,可使用第一長度範圍中之cfDNA相對於第二長度範圍之比例,其中長度範圍為不同的但可重疊。第二長度範圍可為所有長度,即所有cfDNA分子。
在一個實例中,尿液樣品中經腎DNA之相對量(統計值之實例)可藉由長度小於80個鹼基對之DNA片段來表徵。若GBM之滲透性在一些個體中受到干擾,則尿液樣品中較短DNA片段之相對量可增加或減少。若相對於正常量的此類變化超過臨限值(參考值),則可確定個體患有影響腎滲透性之疾病或其他異常狀況(例如腎病症候群、腎小球腎炎)。
例如,統計值可為長度小於長度臨限值(例如,80 bp)之游離DNA分子之第一量相對於對應於多個游離DNA分子之第二量之長度比。作為實例,長度臨限值可為40個鹼基對、50個鹼基對、60個鹼基對、70個鹼基對、80個鹼基對、90個鹼基對、100個鹼基對、110個鹼基對、120個鹼基對、130個鹼基對、140個鹼基對、150個鹼基對或160個鹼基對,其可在使用如本文所描述之長度臨限值之任何實施例中使用。
在一些情況下,確定統計值包括長度在長度範圍內之游離DNA分子之集合相對於尿液樣品中之多個游離DNA分子之比例。長度範圍可具有下限及上限,例如,選自0、5、10、15、20、30、35、40、45、50、55或60個鹼基之下限及40、50、60、70、80、90、100、110、120、130、140、150或160個鹼基中之任一者。
在框3406,將統計值與參考值進行比較。參考值可對應於基於一或多個參考樣品之游離DNA分子之量測長度確定的另一統計值,其中上述一或多個參考樣品與腎臟異常的已知分類相關聯。例如,可基於健康尿液樣品中之游離DNA分子之長度來確定參考值。在一些情況下,參考值為校準值或由校準(訓練)樣品之校準值確定。
在框3408,基於比較來確定具有腎臟異常之個體之分類。在一些實施例中,將統計值與參考值進行比較包括:(1)確定統計值是否與參考值相差至少臨限值量或差異是否小於臨限值量;(2)確定統計值是否小於參考值至少臨限值量;或(3)確定統計值是否大於參考值至少臨限值量。腎臟異常可包括腎細胞癌RCC、腎病症候群、腎小球性腎炎、法布里病、胱胺酸病、IgA腎病、IgM腎病、狼瘡腎炎、非典型溶血性尿毒症症候群(aHUS)、多囊性腎病(PKD)、阿波特症候群、間質性腎炎、蛋白尿、慢性腎病、急性腎損傷等。在一些情況下,具有腎臟異常之個體之分類包括與腎臟之腎小球基底膜相關的滲透性水平增加。
腎臟異常之分類可使用利用訓練資料集訓練之機器學習來確定。訓練資料集可包括訓練樣品。訓練樣品可與腎臟異常的已知分類相關聯。在另一個例子中,可使用機器學習模型來執行與參考值之比較。上述機器學習模型可應用於上述統計值以生成腎臟異常之分類。機器學習模型可包括但不限於卷積神經網路(CNN)、線性回歸、邏輯回歸、深度遞歸神經網路(例如,全連接遞歸神經網路(RNN)、閘控遞歸單元(GRU)、長期短期記憶(LSTM))、基於轉換器之方法(例如,XLNet、BERT、XLM、RoBERTa)、貝葉斯分類器、隱馬爾可夫模型(HMM)、線性判別分析(LDA)、k-均值聚類、基於密度之雜訊應用空間聚類(DBSCAN)、隨機森林演算法、自適應增強(AdaBoost)、eXtreme梯度增強(XGBoost)、支援向量機(SVM)、或包括上述提出之一或多個模型之複合模型。 C. 基於尿液cfDNA濃度之分類
吾人亦評價了健康孕婦及先兆子癇孕婦之尿液cfDNA濃度之差異。因為尿液樣品中之cfDNA濃度取決於個體之水合狀態,所以校正(標準化)尿液cfDNA濃度。
在一些實施例中,尿液濃度之校正可使用肌酸酐。例如,尿液DNA之量(例如,藉由每體積之質量量測,諸如ng/mL)可藉由肌酸酐之量(例如,mmol)來校正。在一個實施方式中,藉由尿液cfDNA濃度/毫升尿液樣品(例如,藉由Qubit分析測定)除以肌酸酐濃度(表示為奈克/毫升cfDNA/毫莫耳肌酸酐(ng/ml/mmol Cr))來計算校正值。肌細胞以恆定速率產生肌酸酐,且藉由腎小球過濾之所有肌酸酐在尿液中排泄。因此,根據毫莫耳肌酸酐之尿液cfDNA濃度之表示將最小化由個體之水合狀態的不同引起的尿液cfDNA濃度之變化。
圖35分別顯示了蛋白尿及先兆子癇患者中經腎DNA之尿液cfDNA濃度之分析。
箱形圖5310顯示了健康對照及蛋白尿患者之尿液cfDNA濃度。吾人在患有蛋白尿之患者中觀測到比在健康對照中更高的尿液cfDNA濃度(Mann-Whitney U檢驗,P值=0.0015)。
箱形圖3520顯示了健康孕婦及患有先兆子癇之孕婦之尿液cfDNA濃度。吾人在患有先兆子癇之孕婦中觀測到比健康孕婦更高的尿液cfDNA濃度(Mann-Whitney U檢驗,P值=0.0190)。
圖36為根據一些實施例之用於基於尿液游離DNA濃度來確定腎臟異常之分類的方法3600之流程圖。方法3600可使用個體之尿液樣品偵測腎臟異常,其中尿液樣品包括游離DNA分子。
在框3602,確定尿液樣品中之游離DNA分子之第一量。作為實例,可使用螢光計、分光光度計、PCR或定序之量測來確定第一量。第一量可被過濾以得到滿足一或多個標準之cfDNA分子。例如,cfDNA可具有指定之長度,例如大於長度臨限值,其可為40-200 bp。本文提供了長度臨限值之實例,且包括40、50、60、70、80、90、100、110、120、130、140、150、160、170、180、190或200 bp。指定長度可為具有上限及下限之長度範圍,僅僅為下限,或者僅僅為上限。
在框3604,使用尿液樣品之第一量及體積來確定初始濃度。當使用長度作為標準時,初始濃度可為尿液樣品中在指定範圍內之游離DNA分子之比例。指定範圍可大於尺寸臨限值,例如,如上文所描述。
在框3606,使用尿液樣品中之特定化合物之第二量來確定校正濃度。化合物可為消化的廢物,因此為個體中天然存在之化合物。作為一個實例,特定的化合物可為肌酸酐。肌酸酐為來自食物中蛋白質之消化及肌肉組織(例如肌酸)之正常分解之廢物。
在框3608,將校正濃度與參考值進行比較。可自一或多個已知分類之參考對象確定參考值,例如腎臟異常之存在或不存在或腎臟異常之具體嚴重程度。
在框3610,基於比較來確定具有腎臟異常之個體之分類。本文提供了腎臟異常之實例,包括先兆子癇及蛋白尿。
提供了用於確定第一量之例示性方式之附加細節。NanoDrop分光光度計基於核酸(即DNA及RNA)吸收紫外光在260奈米(nm)波長處具有峰值之原理。光偵測器量測通過樣品之光。被核酸吸收之光愈多,將撞擊光電探測器之光愈少,產生更高的光密度(OD),導致樣品中更高的核酸濃度。
量子位螢光計藉由偵測樣品中之螢光染料來定量DNA濃度。對DNA受質特異之螢光染料在與DNA靶標結合之前表現出極低的螢光。當與DNA結合時,染料分子藉由DNA鹼基之間的嵌入將螢光增加幾個數量級。
定量PCR (qPCR)測定藉由在即時PCR期間偵測DNA產物之螢光信號來定量DNA濃度。qPCR藉由使用螢光染料或用螢光報導基因標記之DNA探針監測PCR過程中靶DNA分子之擴增。結果,擴增產物之量與螢光強度相關。
數字聚合酶鏈式反應(dPCR)測定包括將PCR溶液分成數萬個奈升大小之液滴,其中在各液滴中發生單個DNA分子之單獨PCR反應。具有螢光報導基因之DNA探針將有助於偵測液滴中之靶DNA,且含有靶DNA之液滴之部分可轉化為DNA量。其他細節可在以下三個出版物中找到,其皆使用NanoDrop、Qubit及qPCR用於DNA濃度測定:Simbolo等人, PLOS ONE 2013;8:e62692;Heydt等人, PLOS ONE 2014;9:e104566;Ponti等人, Clinica Chimica Acta 2018;479:14-19。用於DNA濃度測定之dPCR之其他細節可在Gai等人, Clin. Chem. 2018;64:1239-1249中找到。 D. 技術比較
圖37顯示了使用經腎DNA之片段組學特徵將患有蛋白尿及先兆子癇之患者與健康對照區分開之ROC分析。圖37顯示了使用上述技術之ROC分析。
ROC 3710顯示了在使用尿液cfDNA濃度、長度(即,>80 bp)及OCR(血液特異性DHS)之O/E區分患有蛋白尿患者與健康對照中之0.76、0.68、0.73及0.75之AUC。藉由將此等片段組學特徵與支援向量機(SVM)方法相結合,在區分蛋白尿時,AUC可進一步提高至0.85。
吾人進一步對此等樣品進行了ROC分析,其中分別使用尿液DNA濃度、cfDNA長度(即>80 bp)及OCR(胎盤特異性DHS)之O/E,在區分患有先兆子癇之孕婦及健康孕婦中AUC分別為0.84、0.84及0.85。當使用SVM組合此三個片段組學特徵時,可觀測到在先兆子癇及健康個體之間的區分中的改良之效能(AUC:0.93)。
SVM以較高的維度提供樣品之分離。輸入至SVM之特徵之數目將在SVM中提供維度之數目。在上面的例子中,吾人使用了三個特徵,因此使用了三個維度。可使用另外的特徵,此會導致多於三個維度。 VIII. cfDNA及核酸酶活性之F-譜
不同類型之游離DNA切割與不同的片段化過程有關,包括酶促及非酶促斷裂。每次使用一種末端模體或幾個排名最高之末端模體時,皆關注一種特異性核酸酶活性之技術。此類方法可能為有效的,但可能不能提供在給定樣品(例如血漿樣品、尿液樣品)中發生之核酸酶活性之全面觀測。
為了解決上述缺陷,可使用與不同類型之游離DNA切割有關的推定的相對貢獻來同時評估多種核酸酶活性或其他片段化過程。例如,可為具有已知疾病診斷(例如HCC)之個體確定對應於256種末端模體之DNA分子之相對頻率。DNA分子之相對頻率可被分解為 F-譜 之集合,其鑑定樣品中游離DNA片段(亦稱為DNA片段)之末端序列(例如1-30個鹼基)之關係。然後可將F-譜之集合用於自另一個體獲得之DNA分子之相對頻率之去卷積,以預測臨床相關DNA分子之分數、疾病之分類等。
圖38顯示了圖3800,其鑑定了存在於尿液游離DNA分子中之某些末端模體之頻率之排名。圖38對應於圖9。如圖38所示,胎兒特異性經腎DNA主要包括具有C末端之片段,其通常與DNASE1L3切割偏好相關。共有非經腎DNA主要包括具有T末端之片段,其通常與DNASE1切割偏好相關。
儘管關注某些末端模體可有益於確定胎兒DNA (例如),但圖3800顯示了可提供進一步瞭解的額外末端模體資訊:跨越256種末端模體中之大部分的DNA分子之相對頻率在胎兒特異性DNA與共有DNA之間係不同的。因此,併入跨越所有256種末端模體之DNA分子之相對頻率以確定胎兒DNA分數或確定個體之疾病分類係有利的。 A. 跨越不同鼠類樣品之末端模體譜特徵
圖39顯示了鑑定觀測到的鼠類血漿及尿液游離DNA分子之末端模體譜之一組圖3900。如圖39所示,具有不同核酸酶剔除基因型之小鼠之血漿及尿液游離DNA中256種4-mer末端模體之頻率按字母順序組織,形成末端模體譜。自腺嘌呤(A)、胞嘧啶(C)、鳥嘌呤(G)及胸腺嘧啶(T)開始之模體分別以藍色、紅色、綠色及黃色突出顯示。
吾人在不同小鼠之末端模體譜中觀測到某些不同的模式。圖3902、圖3904、圖3906及圖3908分別顯示了觀測到的來自WT小鼠、 Dnase1l3-/-小鼠、 Dnase1-/-小鼠及 Dffb-/-小鼠之血漿游離DNA之末端模體頻率。觀測到的來自WT小鼠、 Dnase1l3-/-小鼠及 Dnase1-/-小鼠之尿液游離DNA之末端模體頻率分別顯示在圖表3910、圖表3912及圖表3914中。
與WT小鼠相比, Dnase1l3-/-小鼠之血漿游離DNA在末端模體譜中顯示週期性之尖峰,通常在具有A末端、C末端及G末端之彼等末端模體中。對於WT小鼠之尿液游離DNA,與 Dnase1-/-小鼠相比,具有T末端之模體之豐度顯著升高(P<0.0001,Mann-Whitney U檢驗)。儘管當比較WT小鼠與 Dnase1-/-小鼠之血漿游離DNA,或WT小鼠與 Dnase1l3-/-小鼠之尿液游離DNA時,視覺上難以辨別差異,但吾人假設當使用參考譜時,例如藉由分解(因子分解)成參考譜,可描繪256個維度之末端模體譜中之細微差異。在一些實施例中,非負矩陣分解(NMF)用於作為整體考慮256種模體,而並非集中於一個或幾個特定的模體種類。
末端模體譜可為K-mer,其中K可具有各種值,例如1、2、3、4、5、6或更多。如圖39所示,使用K為4。 B. 用於確定尿液cfDNA之F-譜之NMF
圖40顯示了用於游離DNA分子之例示性核酸酶使用水平分析之示意性工作流程。對93個鼠類游離DNA樣品進行定序,包括60個血漿游離DNA樣品及33個尿液游離DNA樣品。自27隻WT小鼠、10隻具有 Dnase1基因缺失( Dnase1-/-)之小鼠、18隻具有 Dnase1l3基因缺失( Dnase1l3-/-)之小鼠、5隻具有 Dffb基因缺失( Dffb-/-)之小鼠採集小鼠血漿游離DNA樣品,其中成對末端讀段之中位數為5000萬(範圍:1600-24300萬)。此外,自14隻WT小鼠、10隻 Dnase1-/-小鼠及9隻 Dnase1l3-/-小鼠獲得小鼠尿液游離DNA樣品之全基因體定序資料(成對末端讀段之中位數:4300萬;範圍:200-13400萬)。
在框4002,測定93個鼠類游離DNA樣品,包括WT小鼠及核酸酶缺陷型小鼠(例如, Dnase1l3-/-Dnase1-/-Dffb-/-)之5'片段之各末端之末端4個核苷酸(即,4-mer末端模體;n=256)。
對於各鼠類樣品,然後使用游離DNA分子之256種4-mer末端模體來推斷其各自之核酸酶使用水平。
在框4004,自各鼠類樣品之游離DNA分子中確定6類參考末端模體譜,稱為F譜。在一些實施例中,對以4-mer末端模體終止之DNA分子之相對頻率進行非負基質分解(NMF)分析,以確定潛在的不同類型之游離DNA切割。
吾人應用NMF (Daniel等人, Nature 1999;401:788-791;Stein-O'Brien等人, Trends Genet. 2018;34:790-805)分析,以將游離DNA分子之相對頻率分解成多個F-譜。將具有不同基因型之DNA核酸酶剔除之總共93個鼠類游離DNA樣品用於此類NMF分析,包括60個血漿游離DNA樣品及33個尿液游離DNA樣品。在獲得末端模體頻率之後,以此類方式構建資料矩陣( M),即每行表示游離DNA樣品(總共93個鼠類游離DNA樣品),且每列表示末端模體之類型(總共256種末端模體),因此具有93×256之維度。對資料矩陣進行NMF分析以獲得兩個矩陣 WFMWF之間的數學關係如下所示: M=WF
MWF之乘積的結果,其中 W為在93×n矩陣中各F-譜之相對權重,其中 n對應於F-譜之數目。 F表示n×256矩陣中之F譜。藉由使以下目標函數最小化來確定 WF ,服從
奇異值分解(SVD)用於初始化NMF之過程。用Python語言藉由使用sklearn.decomposition.NMF (v1.1.1)來實施此類因子分解分析(Pedregosa等人, J. Mach. Learn. Res. 2011;12:2825-2830)。
為了估計F-譜之最佳數目,進行了5倍交叉驗證預分析。此類因子分解分析可產生許多不同類型之游離DNA切割。在該實例中,藉由考慮因子分解成分之再現性及目標函數之值(即,末端模體譜重構誤差)之間的折衷來確定六個F-譜(即,F譜I、II、III、IV、V及VI)。不同類型之游離DNA切割之數目可為但不限於2、3、4、5、6、7、8、9、10、15、20、30、40、50、100等,具有相應數目的參考末端模體譜。在圖40中,F-譜I、II及III可分別與DNASE1、DNASE1L3及DFFB之切割偏好相關。
在框4006,自鼠類游離DNA獲知之核酸酶使用分析框架可外推至人游離DNA分析,以告知鼠類游離DNA樣品及人游離DNA樣品中不同核酸酶活性之比例貢獻。觀測到的末端模體譜可藉由迭代地調整各F-譜之比例貢獻來重構。換言之,利用自小鼠之游離DNA產生之F-譜,推斷任何游離DNA樣品之F-譜之比例貢獻。在一些實施例中,F-譜之此類推斷之比例貢獻用於反映任何游離DNA樣品中之核酸酶活性或核酸酶使用水平。
另外地或可替代地,F-譜之此類推斷之比例貢獻可用於反映患者可能涉及的其他類型之片段化,例如但不限於氧化應激誘導之DNA損傷、藥物治療誘導之DNA損傷、放射性誘導之DNA損傷等。F-譜貢獻之存在、不存在及改變可暗示患有疾病或處於發展疾病之風險中。在一些實施例中,另一數學演算法用於因子分解,例如但不限於分量主分析(PCA)、t分佈隨機鄰居嵌入、均勻流形近似及投影等。 C. 血漿及尿液樣品中之F-譜
圖41顯示了圖4100,其鑑定了使用NMF分析自具有不同剔除基因型之鼠類游離DNA樣品推斷之每種F-譜(即核酸酶使用水平)之比例貢獻。每種F-譜可指示跨越256種末端模體之游離DNA分子之相對頻率之模式。六種F-譜可用作相應樣品之游離DNA分子之末端模體頻率之標籤。當在觀測到的末端模體譜及藉由其比例貢獻加權的F譜之和之間達到最小誤差時,可確定各個游離DNA樣品中每種F譜之比例貢獻。
如圖41所示,鼠類樣品中F-譜之比例貢獻傾向於基於其各自的核酸酶活性水平而具有相似性。例如,WT樣品顯示F-譜I之顯著貢獻,而 Dnase1l3-/-樣品顯示幾乎不存在F-譜I之貢獻。在另一實例中, DnaseI-/-樣品顯示F-譜II之顯著較少之貢獻,而 Dffb-/-樣品顯示F-譜III、IV及V之幾乎不存在的貢獻。使用F-譜貢獻之相似模式,可評估來自測試個體之另一樣品之核酸酶活性水平。 D.F-譜之片段組學特徵
如上文所描述,此六種F-譜與可能的DNA核酸酶活性相關。為了說明此類可行性,吾人研究了F-譜中之典型末端模體,且量測了其在消耗或增強特定核酸酶活性時之比例貢獻之變化。
圖42顯示了使用NMF分析自小鼠血漿及尿液游離DNA推斷之六種F-譜(A-F)之一組圖。F-譜4202-4212中之各者皆包含4-mer末端模體譜、1-mer末端模體頻率及在4-mer末端模體之各位置之序列偏好。F-譜I 4202顯示了C-末端模體之優勢(55%),其特徵在於 CC 起始之模體,其與吾人在先前研究(Serpas等人, Proc Natl Acad Sci USA. 2019;116:641-649;Jiang等人, Cancer Discov. 2020;10:664-73)中證實之DNASE1L3切割性質相符。吾人觀測到F-譜I在 Dnase1l3-/-小鼠之血漿游離DNA中之貢獻顯著低於在WT小鼠中之貢獻(中位數:2.7%對比35.4%;範圍:0.0-4.6%對比19.5-47.9% (P<0.0001,Mann-Whitney U檢驗)。因此,認為F-譜I為DNASE1L3相關之F-譜,其可用於反映DNASE1L3之核酸酶使用水平。
F-譜II 4204表現出對T末端模體之主要偏好(51%),其具有對 TG 起始之模體之偏好。在WT小鼠中,與血漿游離DNA相比,尿液游離DNA中之F-譜II貢獻顯著更高(中位數:43.4%對比11.6%;範圍:31.8-50.1%對比0.0-22.1% (P<0.0001,Mann-Whitney U檢驗)。值得注意的是,對於WT小鼠,尿液中之DNASE1活性比血漿中的高得多(Chen等人, PLOS Genet. 2022;18:e1010262))。此外,與WT對應物相比, Dnase1-/-小鼠之血漿及尿液游離DNA中F-譜II貢獻之中位數降低了約8倍。因此,推斷F-譜II與DNASE1活性有關。
F-譜III 4206包括相當大比例的A末端模體(40%),其特徵在於在5'至3'方向上分別對4-mer模體之第三位及第四位之C及T核苷酸之偏好。與其在WT小鼠中之對應物(中位數:10.1%;範圍:0.0-26.9%) (P=0.0004,Mann-Whitney U檢驗)相比,F-譜III在 Dffb-/-小鼠之血漿游離DNA中之貢獻顯著降低(中位數:0.0%;範圍:0.0-0.5%)。因此,認為F-譜III與DFFB活性有關。
儘管F-譜IV 4208表現出較高的C-末端偏好(50%) (其在某種程度上為F-譜I的提示),但其具有幾個不同的特徵,例如,不存在CC-末端偏好。F-譜IV亦在4-mer模體中之第二、第三及第四位表現出 G 鹼基偏好。F-譜V 4210表現出較強的G-末端偏好(50%)。此等結果表明,F-譜IV及V不直接歸因於參與游離DNA片段化之已知核酸酶,此意味著一些其他酶促及/或非酶促過程可能在游離DNA片段化過程中起作用。此外,F-譜VI 4212在256種模體上顯示出相對均勻之分佈,不存在明顯的序列偏好,此提示其他DNA核酸酶或其他因子亦可能引起非特異性切割之一種可能性。
圖43顯示了箱形圖4300,其根據一些實施例鑑定了F譜I在不同類型之樣品上之比例貢獻。x軸顯示自不同類型之樣品獲得的游離DNA分子,包括野生型(WT)鼠類樣品(n=27)、 Dnase1-/-Dnase1l3-/-鼠類樣品(n=2)、 Dnase1l3-/-鼠類樣品(n=18)及 Dnase1l3-/-及Cd401g-/-鼠類樣品(n=5)。此外,x-軸進一步顯示各種類型之懷孕鼠類樣品,包括WT鼠類樣品(n=2)、 Dnase1l3-/-母體樣品(其中胎兒DNA顯示 Dnase1l3+/-(n=4))及 Dnase1l3-/-母體樣品(其中胎兒DNA顯示 Dnase1l3-/-(n=3))。相對於來自其他F-譜II-VI之貢獻確定F-譜I之比例貢獻。
如圖43所示,對於剔除DNASE1L3之鼠類樣品,F-譜I之比例貢獻顯著降低。此外,對於懷孕之樣品,F-譜I貢獻之顯著降低似乎亦類似。有趣的是,胎兒 Dnase1l3+/-樣品之F-譜I貢獻比胎兒 Dnase1l3-/-樣品之F-譜I貢獻略微增加。基於F-譜I之比例貢獻,可確定F-譜I對應於與DNASE1L3相關之標籤。
圖44顯示了根據一些實施例,跨越F-譜I之256種末端模體的游離DNA分子之相對頻率4400。圖4410顯示了使用4-mer作為末端模體之末端模體譜。圖4420顯示了使用1-mer (單核苷酸)作為末端模體之末端模體譜。如圖44之圖所示,F-譜I具有對C末端之切割偏好,接著為T末端,以及A末端及G末端。此類切割偏好基本上類似於DNASE1L3之切割偏好,其支持圖43所示之發現。
圖45顯示了箱形圖4500,其根據一些實施例鑑定了F譜II跨越不同類型的樣品之比例貢獻。x軸顯示自不同類型之鼠類樣品獲得之游離DNA分子,包括野生型(WT)血漿樣品(n=27)、WT尿液樣品(n=14)、 Dnase1-/-血漿樣品(n=10)、 Dnase1/Dnase1l3雙缺失血漿樣品(n=2)及 Dnase1-/-尿液樣品(n=10)。相對於來自其他F-譜I及III-VI之貢獻確定F-譜II之比例貢獻。
如圖45所示,與血漿樣品相比,尿液樣品之F-譜II之比例貢獻顯著更高。此外,F譜II之比例貢獻在不同類型的血漿樣品中未顯示出顯著變化。然而, Dnase1-/-尿液樣品之F-譜II之比例貢獻與WT尿液樣品相比表現出顯著降低。基於F-譜II之比例貢獻,可確定F-譜II對應於與DNASE1相關之標籤。實際上,DNase1核酸酶活性似乎在尿液樣品中更具活性,此與WT尿液樣品之高F-譜II貢獻相關。
圖46顯示了根據一些實施例,跨越F-譜II之256種末端模體的游離DNA分子之相對頻率4600。如圖46所示,F-譜II具有對T末端之切割偏好,隨後為C末端,以及A末端及G末端。此類切割偏好基本上類似於DNASE1之切割偏好,其支持圖45所示之發現。
圖47顯示了箱形圖4700,其根據一些實施例鑑定了F譜III跨越不同類型的樣品之比例貢獻。x軸顯示自包括野生型(WT)樣品(n=27)及 Dffb-/-樣品(n=5)獲得之游離DNA分子。相對於來自其他F-譜I、II及IV-VI之貢獻確定F-譜III之比例貢獻。如圖47所示,相對於WT樣品, Dffb-/-樣品之F譜III之比例貢獻顯著降低。基於F-譜III之比例貢獻,可確定F-譜III對應於與DFFB相關之標籤。
圖48顯示了根據一些實施例,跨越F-譜III之256種末端模體的游離DNA分子之相對頻率4800。如圖48所示,F-譜III具有對A末端之切割偏好,隨後為G末端,以及C末端及T末端。此類切割偏好基本上類似於DFFB之切割偏好,其支持圖47所示之發現。
除了F-譜I-III以外,吾人亦分解F-譜IV-VI。
圖49顯示了根據一些實施例,跨越F-譜VI-VI之256種末端模體的游離DNA分子之相對頻率4900。F譜IV-VI中之各者皆顯示出其自己的切割偏好。例如,F-譜IV 4902表現出對C末端之切割偏好,F-譜V 4904表現出對G末端之切割偏好,以及F-譜VI 4906未表現出特定的切割偏好。基於上述內容,可發現F-譜VI可能與切割模式有關,上述切割模式並非由吾人所研究之特定核酸酶引起的,而是與其他類型之片段化因子有關。 E. 對來自人類個體之不同樣品的F-譜之分析
然後,吾人探索DNASE介導之游離DNA切割之鼠類F-譜是否可應用於人類個體。
圖50顯示了根據一些實施例將人類個體之末端模體譜與基於鼠類樣品確定之參考F-譜進行比較之示意圖5000。為了使模體模式在人及小鼠之間直接可比,與人及鼠類游離DNA相關之4-mer末端模體之頻率可分別藉由人及小鼠基因體之基因體背景進行標準化。例如,預期的4-mer末端模體頻率可用於標準化步驟,其中預期的末端模體頻率藉由使用跨越各染色體之4-bp滑動窗口模擬來自參考基因體之4-mer末端模體來確定。標準化之末端模體頻率被計算為觀測到的頻率及預期的頻率之比率,然後除以所有256種標準化之模體頻率之總和。總的標準化末端模體頻率可等於100%。在此類基於NMF之核酸酶使用分析中提及之末端模體頻率被稱為標準化之末端模體頻率。
一旦標準化完成,可為人類樣品之標準化之末端頻率確定F譜之比例貢獻。可藉由對標準化之末端頻率應用去卷積來確定比例貢獻。例如,可使用維度 WF之資料矩陣 M,其中:(i) M可表示給定生物樣品之256種末端模體上的標準化末端頻率;(ii) F可表示自鼠類樣品獲得之參考F-譜之末端頻率;且(iii) W可表示對應於每種F譜之比例貢獻之相對權重。
F末端頻率可基於參考F譜之集合的游離DNA分子之比例來確定。藉由基於對來自資料矩陣 M及參考F譜之值使用非負最小二乘方(NNLS)來求解 W個相對權重,可確定比例貢獻。使用去卷積確定之比例貢獻可用於鑑定某些人類生物樣品中核酸酶活性水平之程度(例如,F-譜I貢獻之相對降低)。
圖51顯示了根據一些實施例,跨越人類個體之血漿及尿液樣品之F譜的比例貢獻5100。首先,將圖51中之去卷積過程應用於來自人類個體之血漿及尿液樣品。如圖51所示,血漿樣品包括來自已與DNASE1L3活性相關之F-譜I之相對較高的貢獻。相比之下,尿液樣品包括來自已與DNASE1活性相關之F-譜II之相對較高的貢獻。
圖51所示之資料與實驗一致,即DNASE1L3對血漿樣品中游離DNA分子之片段化模式有主要貢獻,而DNASE1對尿液樣品中游離DNA分子之片段化模式有主要貢獻。因此,已表明使用來自鼠類樣品之參考F譜之去卷積過程可有效地用於鑑定人類樣品中游離DNA分子之片段切割模式。
圖52顯示了根據一些實施例,跨越人類個體之正常及DNASE1L3缺陷樣品之F譜的比例貢獻5200。將圖52中之去卷積過程應用於來自人類個體之正常及DNASE1L3缺陷型樣品。如圖52所示,來自對照個體之血漿樣品包括F-譜I之相對較高的貢獻(大約大於40%)。相比之下,DNASE1L3缺陷型樣品包括F-譜I之顯著較低的貢獻(大約小於15%)。圖52所示之資料與具有DNASE1L3之核酸酶活性之F-譜I之先前相關性一致。可以表明,使用來自鼠類樣品之參考F譜之去卷積過程可有效地用於鑑定人類樣品中游離DNA分子之片段切割模式。
圖53顯示了根據一些實施例,跨越懷孕人類個體之尿液樣品之F-譜之比例貢獻5300。將圖42中之去卷積過程應用於來自懷孕人類個體之樣品。如圖53所示,尿液樣品包括來自已與DNASE1活性相關之F-譜II之相對較高的貢獻。圖53所示之資料與實驗一致,即DNASE1對尿液樣品中游離DNA分子之片段化模式有主要貢獻。此外,F-譜IV之較高比例貢獻可指示相對高數目的具有C末端之游離DNA片段。該觀測結果與圖38中之圖資料一致,即孕婦尿液樣品中之胎兒DNA包括較大比例之具有C末端之游離DNA分子。 F. 使用F-譜分類核酸酶活性之方法
圖54顯示了根據一些實施例,基於游離DNA分子之F-譜確定核酸酶活性分類之方法5400之流程圖。例示性生物樣品可為包括游離DNA之游離樣品,例如血液、血漿、血清、尿液及唾液。
在框5402,儲存參考F譜之集合。對於核苷酸之集合中之各核苷酸,該集合之每種參考F-譜皆鑑定了終止於該核苷酸之游離DNA分子之比例。此外,每種參考F譜與一種類型之片段化因子相關聯。片段化因子之類型鑑定特定的酶(例如DNASE1L3、DNASE1)、蛋白質(例如DFFB),或引起游離DNA分子片段化之其他生物組分或過程。在一些情況下,該集合之參考F譜包括1、2、3、4、5、6、7、8、9、10、15、20、25、30、40、45、50或多於50種F譜。例如,該集合之參考F譜可包括六種F譜I-VI。
每種參考F-譜及樣品末端模體譜對於K-mer末端模體之集合的每種K-mer末端模體可具有單獨的比例。例如,圖39顯示了其中K=4之譜,產生256個不同的比例值。圖44之圖4420顯示了其中K=1之譜,產生4個不同的比例值。因此,參考F-譜之集合之每種參考F-譜可指定終止於K-mer末端模體之集合的每種K-mer末端模體之游離DNA分子之比例,其中K為1或2或更大。
在一些情況下,使用一或多個參考樣品來確定參考F譜之集合。參考樣品可自非人類個體(例如,鼠類樣品)獲得,上述非人類個體之遺傳病症分類係已知的(例如,WT、DNASE1L3-/-、DNASE1-/-)。為了確定參考譜之集合之參考F-譜,使用因子分解演算法(例如,NMF、PCA)將參考樣品之游離DNA分子之相對頻率分解為幾種F-譜。例如,選擇具有不同基因型之DNA核酸酶剔除之參考游離DNA樣品。在獲得參考樣品之末端模體頻率之後,以每行指示游離DNA樣品(例如,總共93個鼠類游離DNA樣品)且每列代表末端模體之類型(例如,總共256種4-mer末端模體)之方式構建資料矩陣( M),從而具有93 256之維度。然後可對資料矩陣進行NMF分析以獲得兩個矩陣 WFM=WF
MWF之乘積之結果,其中 W為在93 n矩陣中每種F譜之相對權重,其中n對應於F譜之數目。F表示n 256矩陣中之F譜。藉由使以下目標函數最小化來確定 WF,服從
在框5404,分析來自生物樣品之多個游離DNA分子以獲得序列讀段。上述序列讀段包括對應於上述多個游離DNA分子之末端之末端序列。序列讀段可包括對應於多個游離DNA片段末端之末端序列。作為實例,序列讀取可使用定序或基於探針之技術獲得,其中任一技術可包括富集,例如藉由擴增或捕捉探針。
定序可以多種方式進行,例如,使用大規模平行定序或下一代定序、使用單分子定序,及/或使用雙鏈或單鏈DNA定序文庫製備方案。熟習此項技術者將理解可使用的各種定序技術。作為定序之一部分,一些序列讀段可對應於細胞核酸。
定序可為如本文所描述之靶向定序。例如,可富集生物樣品之來自特定區域之DNA片段。富集可包括使用與例如參考基因體所定義之基因體之一部分或整個基因體結合之捕捉探針。
可分析統計學上顯著數目的游離DNA分子以提供濃度分數之精確測定。在一些實施例中,分析至少1,000個游離DNA分子。在其他實施例中,可以分析至少10,000或50,000或100,000或500,000或1,000,000或5,000,000個游離DNA分子或更多個游離DNA分子。
在框5406,藉由基於末端序列確定以核苷酸之集合之各核苷酸終止的多個游離DNA分子之比例來確定個體之樣品末端模體譜。樣品末端模體圖鑑定對應於多個游離DNA分子之末端序列的多個末端模體之相對頻率。多種末端模體可對應於 N個鹼基位置之所有可行組合。例如,若多種末端模體對應於4-mer,則樣品末端模體譜之多種末端模體可包括256種4-mer之組合(例如CCCA、TTCC)。
為了確定樣品末端模體譜,對於多個游離DNA分子中之各者,確定游離DNA分子之一或多個末端序列中之各者之末端模體。末端模體可包括N個鹼基位置(例如,1、2、3、4、5、6等)。作為實例,可藉由分析在對應於DNA分子末端之末端處的序列讀段,將信號與特定模體(例如,當使用探針時)相關,及/或將序列讀段與參考基因體比對來確定末端模體。
例如,在由定序裝置定序之後,序列讀段可由電腦系統接收,該電腦系統能夠可通信地耦合至執行定序之定序裝置,例如,經由有線或無線通信或經由可拆卸儲存器裝置。在一些實施方式中,接收包括核酸片段兩端之一或多個序列讀段。DNA分子之位置可藉由將DNA分子之一或多個序列讀段定位(比對)至人類基因體之相應部分,例如,特定區域來確定。另外地或可替代性地,特定探針(例如,在PCR或其他擴增之後)可指示位置或特定末端模體,例如經由特定螢光顏色。鑑定可為游離DNA分子對應於多個末端模體中之一者。
然後,確定對應於多個游離DNA分子之末端序列的多個末端模體之相對頻率,以確定個體之樣品末端模體譜。序列模體之相對頻率可提供具有對應於序列模體之末端序列的多個游離DNA分子之比例。
在框5408,確定參考F譜之集合之比例貢獻,上述參考F譜之比例聚集提供樣品末端模體譜。參考F譜之集合之比例貢獻總和為一。可藉由對個體之樣品末端模體譜應用去卷積來確定比例貢獻。例如,可使用維度 WF之資料矩陣M,其中:(i) M可表示跨越樣品末端模體譜之256種末端模體之標準化末端頻率;(ii) F可表示自鼠類樣品獲得之參考F-譜之末端頻率;並且(iii) W可表示對應於各F譜之比例貢獻之相對權重。可藉由基於對來自資料矩陣 M及參考F譜 F之值使用非負最小二乘方(NNLS)來求解 W來確定比例貢獻。使用去卷積確定之比例貢獻可用於鑑定個體中之片段化因子活性之水平(例如,F譜I貢獻之相對降低)。
在一些情況下,個體(例如人類個體)之樣品末端模體譜的4-mer末端模體之頻率及參考樣品(例如鼠類樣品)的彼等末端模體之頻率藉由其各自基因體之基因體背景進行標準化。例如,預期的4-mer末端模體頻率可用於標準化步驟,其中預期的末端模體頻率藉由使用跨越各染色體之4-bp滑動窗口模擬來自參考基因體之4-mer末端模體來確定。標準化之末端模體頻率被計算為觀測到的頻率及預期的頻率之比率,然後除以所有256種標準化之模體頻率之總和。總標準化末端模體頻率可等於100%。
在框5410,基於與特定類型之片段化因子相關之比例貢獻來確定特定類型之核酸酶之核酸酶活性之分類。例如,特定類型核酸酶之核酸酶活性之分類可包括與特定核酸酶相關之核酸酶活性降低之分類。核酸酶活性之分類可用於確定個體是否具有核酸酶活性缺陷或與核酸酶相關之基因的遺傳病症之分類。遺傳病症可為 DNASE1L3基因之病症。遺傳病症可包括一或多種以下基因之病症: DNASE1DFFBTREX1(三引子修復外切核酸酶1)、 AEN(細胞凋亡增強核酸酶)、 EXO1(外切核酸酶1)、 DNASE2(脫氧核糖核酸酶2)、 ENDOG(內切核酸酶G)、 APEX1(無嘌呤/無嘧啶內切脫氧核糖核酸酶1)、 FEN1(皮瓣結構特異性內切核酸酶1)、 DNASE1L1(脫氧核糖核酸酶1樣1)、 DNASE1L2(脫氧核糖核酸酶1樣2)及 EXOG(外切/內切核酸酶G)。
在一些情況下,與特定類型之核酸酶相關的核酸酶活性水平之降低係基於參考F-譜之集合之比例貢獻來確定的。例如,可將與參考F譜之集合中之一者相關的比例貢獻與臨限值進行比較。基於上述比較(例如,若比例貢獻超過臨限值),可確定核酸酶活性水平之降低。在一些情況下,使用具有核酸酶活性之已知分類之一或多個參考樣品測定臨限值。 IX.使用CFDNA之F-譜之濃度分數
由於經腎游離DNA分子仍保留血漿游離DNA之DNASE1L3切割標籤,吾人推斷尿液中之核酸酶使用水平可能代表經腎游離DNA之量。吾人假設基於NMF之核酸酶使用水平分析可用於確定尿液樣品中經腎游離DNA之分數貢獻。為此,吾人將核酸酶使用水平分析應用於14個母體尿液樣品。
圖55顯示了鑑定孕婦尿液游離DNA中核酸酶使用水平之一組圖5500。圖5502顯示胎兒DNA分數與F-譜I (DNASE1L3)水平之間的相關性。圖5504顯示胎兒DNA分數與F-譜IV水平之間的相關性。如圖55所示,吾人發現F-譜I (DNASE1L3)及F-譜IV之比例貢獻與母體尿液游離DNA中基於SNP之方法(皮爾森之r=0.60,P=0.025)估計之胎兒DNA分數顯著相關。因此,本揭露內容中存在之核酸酶使用水平分析可用於監測尿液樣品中經腎游離DNA之比例。
圖56顯示了根據一些實施例之用於基於游離DNA分子之F-譜確定胎兒DNA之濃度分數的方法5600之流程圖。例示性生物樣品可為包括游離DNA之游離樣品,例如血液、血漿、血清、尿液及唾液。生物樣品可包括游離的臨床上相關之DNA及其他DNA。在其他實例中,生物樣品可不包括臨床相關DNA,且估計之濃度分數可指示零或臨床相關DNA之低百分比。
生物樣品可包括來自一或多個組織類型,例如心臟、肺及肝臟之游離DNA分子之混合物。例如,生物樣品可自包含母體游離DNA分子及胎兒游離DNA分子之孕婦獲得。生物樣品可包含腫瘤特異性游離DNA分子以及其他組織特異性游離DNA分子。臨床相關DNA分子可為本文所描述之任何組織類型之任何DNA,例如胎兒DNA、腫瘤DNA或移植物DNA。方法5600及本文所描述之任何其他方法之各態樣可由電腦系統執行。方法5600之各態樣可以與圖54之方法5400類似之方式進行。
在框5602,儲存參考F譜之集合。對於核苷酸集合中之各核苷酸,上述集合之各參考F-譜可鑑定終止於該核苷酸之游離DNA分子之比例。此外,各參考F譜可與片段化因子之類型相關聯。片段化因子之類型可鑑定特定酶(例如DNASE1L3、DNASE1)、蛋白質(例如DFFB)或引起游離DNA分子片段化之其他生物組分或過程。在一些情況下,參考F譜之集合包括1、2、3、4、5、6、7、8、9、10、15、20、25、30、40、45、50或多於50種F譜。例如,參考F譜之集合可包括六種F譜I-VI。框5602可以與圖54之框5402類似之方式進行。
在框5604,分析來自生物樣品之多個游離DNA分子以獲得序列讀段。上述序列讀段包括對應於上述多個游離DNA分子之末端之末端序列。序列讀段可包括對應於多個游離DNA片段之末端之末端序列。框5604可以與圖54之框5404類似之方式進行。
在框5606,藉由基於末端序列確定以核苷酸之集合之各核苷酸終止的多個游離DNA分子之比例來確定個體之樣品末端模體譜。樣品末端模體譜鑑定對應於多個游離DNA分子之末端序列之多個末端模體之相對頻率。多種末端模體可對應於 N個鹼基位置之所有可行組合。例如,若多種末端模體對應於4-mer,則樣品末端模體譜之多種末端模體可包括256種4-mer之組合(例如CCCA、TTCC)。框5606可以與圖54之框5406類似之方式進行。
在框5608,確定參考F譜之集合之比例貢獻,上述參考F譜之比例聚集提供樣品末端模體譜。參考F譜集合對之比例貢獻總和為一。框5608可以與圖54之框5408類似之方式進行。
參考F-譜之集合包括與臨床相關DNA分子之濃度分數相關之第一參考F-譜,例如,如使用其濃度分數已知的校準樣品所確定的。圖55提供了此類實例,其中第一參考F-譜為F-譜I (對應於DNASE1L3)或F-譜IV。用於參考F譜之集合之第一比例貢獻可對應於第一參考F譜。
在框5610,藉由將對應於第一參考F-譜之第一比例貢獻與自一或多個校準樣品確定之一或多個校準值進行比較來估計生物樣品中臨床相關DNA分子之濃度分數,上述一或多個校準樣品之臨床相關DNA分子之濃度分數係已知的。可以與方法2100之框2106類似的方式來進行框5610之各態樣。第一參考F-譜可對應於特定類型之核酸酶,例如DNASE1L3。
如圖55所示,胎兒DNA分數隨著一或多種參考F譜(例如,F譜I、F譜IV)之比例貢獻之增加而增加。一或多種參考F-譜中之任一種可為第一參考F-譜,只要其與臨床相關DNA之濃度分數相關即可。因此,校準樣品中一或多種參考F-譜之已知比例貢獻可用作校準資料點,其用於確定生物樣品中臨床相關DNA分子之濃度分數。
對於一或多個校準樣品之各校準樣品,一些實施例可量測校準樣品中臨床相關DNA分子之濃度分數且量測校準樣品之第一參考末端模體譜之比例貢獻,從而確定一或多個校準資料點。第一參考末端模體譜之比例貢獻可用作校準值。可確定參考F譜之集合之全部比例貢獻,從而確定多個校準值,例如,當使用多個參考F譜來估計濃度分數時。熟習此項技術者將理解,可以各種方式量測濃度分數,其中一些在本文中描述,例如使用組織特異性對偶基因或組織特異性甲基化模式。
在一些情況下,將為一或多個參考F譜(包括第一參考F譜之第一比例貢獻)確定之比例貢獻與校準曲線(由校準資料點組成)進行比較,因此該比較可鑑定曲線上具有生物樣品之已知比例貢獻之點。然後可使用對應於所鑑定之點的濃度分數來估計濃度分數。例如,可將所確定之比例貢獻作為校準函數之輸入(例如,線性或非線性擬合)來提供,以獲得濃度分數之輸出。
在一些實施例中,如上文所描述,可使用多個比例貢獻。在此類情況下,校準曲線可為二維或更多維的校準表面。因此,估計生物樣品中臨床相關DNA分子之濃度分數可包括將一或多個另外的比例貢獻與自一或多個校準樣品確定的一或多個另外的校準值進行比較,上述校準樣品之臨床相關DNA分子之濃度分數係已知的。 X.基於CF DNA中F-譜估計孕齡
自游離DNA分子之因子分解分析鑑定之核酸酶使用水平可用於估計自孕婦獲得之樣品中胎兒之孕齡。例如,可確定自已知孕齡之樣品獲得之F譜之比例貢獻。然後可將所確定之比例貢獻用作校準資料點,以估計另一個妊娠樣品之孕齡。
如下文進一步描述,在F-譜I之比例貢獻與胎兒之孕齡之間存在相關性。該相關性亦可表明,基於DNASE1L3之活性水平,可影響孕齡,因為F-譜I代表DNASE1L3之切割偏好。 A. 估計孕齡
圖57顯示了鑑定孕婦血漿游離DNA中核酸酶使用水平之一組圖5700。箱形圖5702及5704顯示了不同孕期之孕婦胎盤中DNASE1L3之表現水平。箱形圖5706顯示了第一孕期、第二孕期及第三孕期中,孕婦母體血漿游離DNA中F-譜I (DNASE1L3)之貢獻。圖5708顯示了胎兒DNA分數與F-譜I (DNASE1L3)水平之間的相關性。如箱形圖5702及5704所示,在胎盤組織中,在轉錄物組資料之基礎上觀測到DNASE1L3基因表現水平隨孕齡之上調(Mikheev等人, Reprod. Sci. 2008;15:866-877;Sitras等人, PLOS One 2012; 7:e33294)。
基於NMF之核酸酶使用水平分析可用於基於游離DNA之某些F-譜估計孕齡。吾人基於母體血漿末端模體,使用先前揭示之包括30名孕婦(每個孕期中10名)之群組,分析核酸酶使用水平(Jiang等人, Clin. Chem. 2017;63:606-608)。如箱形圖5706所示,吾人觀測到母體血漿游離DNA中之F-譜I (DNASE1L3)水平在第一孕期(中位數:40.2%;範圍:38.5-42.7%)、第二孕期(中位數:41.3%;範圍:36.2-42.8%)及第三孕期(中位數:43.1%;範圍:34.5-44.0%)中,隨著孕齡增加而逐漸增加。
本文揭示之核酸酶使用水平分析亦可用於測定血漿樣品中胎兒DNA之貢獻分數。如圖5708所示,母體血漿游離DNA中之F-譜I (DNASE1L3)水平與藉由基於SNP之方法估計的胎兒DNA分數顯著相關(皮爾森之r=0.40, P=0.027)。因此,核酸酶使用水平分析可用於監測生理狀態,如妊娠。 B. 氧化應激與孕齡之前的關係
除了癌症患者以外,吾人亦研究了來自第一孕期(n=10)、第二孕期(n=10)及第三孕期(n=10)之孕婦之血漿。先前的研究已闡明了胎盤中之氧化應激被報導隨著孕齡之增加而下降(Basu等人, Obstet Gynecol Int 2015; 2015:276095)。
圖58顯示了鑑定孕婦之F-譜分析及氧化應激水平之一組圖5800。圖5802顯示了來自不同孕期之孕婦的胎盤組織中之氧化應激水平。箱形圖5804顯示了孕婦血漿中胎兒特異性DNA在不同孕期間之F-譜VI貢獻。箱形圖5806顯示了孕婦血漿中之母體特異性DNA在不同孕期間之F-譜VI貢獻。如圖58之圖所示,隨著孕期增加,胎兒特異性DNA中F-譜VI水平之中位數顯著降低(第一:26.7%;第二:23.7%;第三:22.0%) ( P=0.014,Kruskal-Wallis檢驗),而在母體特異性DNA中之F-譜VI水平沒有顯著變化。此等資料表明,F-譜VI水平可指示源自氧化應激誘導之片段化的游離DNA之貢獻。 C. 基於游離DNA之F-譜估計孕齡之方法
圖59顯示了根據一些實施例之基於游離DNA分子之F譜來估計孕齡的方法6800之流程圖。自懷有胎兒之女性個體獲得生物樣品。生物樣品可為具有來自女性個體及胎兒之游離DNA分子之樣品,例如血漿、血清、尿液、唾液、腦脊液、胸膜液、羊水、腹膜液或腹水樣品。方法5900及本文所描述之任何其他方法之態樣可由電腦系統執行。方法5900之各態樣可以與圖54之方法5400類似的方式進行。
在框5902,儲存參考F-譜之集合。對於核苷酸集合中之各核苷酸,該集合之各參考F-譜皆鑑定了終止於該核苷酸之游離DNA分子之比例。此外,每種參考F譜與片段化因子之類型相關聯。片段化因子之類型鑑定特定的酶(例如DNASE1L3、DNASE1)、蛋白質(例如DFFB),或引起游離DNA分子片段化之其他生物組分或過程。在一些情況下,參考F譜之集合包括1、2、3、4、5、6、7、8、9、10、15、20、25、30、40、45、50或多於50種F譜。例如,參考F譜之集合可包括六種F譜I-VI。框5902可以與圖54之框5402類似之方式進行。
在框5904,分析來自生物樣品之多個游離DNA分子以獲得序列讀段。上述序列讀段包括對應於上述多個游離DNA分子之末端之末端序列。序列讀段可包括對應於多個游離DNA片段之末端之末端序列。框5904可以與圖54之框5404類似之方式進行。
在框5906,藉由基於末端序列確定以核苷酸集合之各核苷酸終止之多個游離DNA分子之比例來確定個體之樣品末端模體譜。樣品末端模體譜鑑定對應於多個游離DNA分子之末端序列之多個末端模體之相對頻率。多種末端模體可對應於 N個鹼基位置之所有可行組合。例如,若多種末端模體對應於4-mer,則樣品末端模體譜之多個末端模體可包括256種4-mer之組合(例如CCCA、TTCC)。框5906可以與圖54之框5406類似之方式進行。
在框5908,確定參考F譜之集合之比例貢獻,上述參考F譜之比例聚集提供樣品末端模體譜。參考F譜之集合之比例貢獻總和為一。框5908可以與圖54之框5408類似之方式進行。
參考F譜之集合包括與孕齡相關之第一參考F譜,例如,如使用已知其孕齡之校準樣品所確定的。圖57及58提供了此類實例,其中第一參考F-譜為F-譜I (對應於DNASE1L3)或F-譜IV。用於參考F譜之集合之第一比例貢獻可對應於第一參考F譜。
在框5910,藉由將對應於第一參考F譜之第一比例貢獻與自具有已知孕齡之一或多個校準樣品確定之一或多個校準值進行比較來估計胎兒之孕齡。框5910之各態樣可以與框2106及框5610類似之方式來進行。如圖57所示,第一參考F-譜可對應於特定類型之核酸酶,例如DNASE1L3。如圖58所示,亦可使用不對應於核酸酶之參考F-譜(例如,F-譜VI)。
作為實例,校準資料點之參考F譜(例如,代表DNASE1L3之F譜I)之比例貢獻可繪製在圖上且形成用於不同孕齡之簇,且生物樣品之確定的比例貢獻亦可繪製在圖上以確定生物樣品落入之簇。一或多種參考F譜中之任一種皆可為第一參考F譜,只要其與孕齡相關即可。因此,校準樣品中一或多種參考F譜之已知比例貢獻可用作用於確定孕齡之校準資料點。
因此,對於一或多個校準樣品之各校準樣品,一些實施例可量測校準樣品中之孕齡且量測為校準樣品確定之第一參考末端模體譜之比例貢獻。例如,月經史及超音波檢查係量測孕齡之兩種方法。例如,可基於最後一個月經期之日期來估計孕齡。可假定在週期之第14天發生受孕,其受月經週期之間及個體之間排卵變化之影響。第一孕期之胚胎或胎兒之超音波量測可為建立孕齡之最準確的方法。使用各種參數,例如平均孕囊直徑(MSD)、頭臀長(CRL)、雙頂徑(BPD)及頭圍(HC),可自超音波中估計孕齡。
第一參考末端模體譜之比例貢獻可用作校準值。可確定參考F譜之集合之全部的比例貢獻,從而確定多個校準值,例如,當使用多個參考F譜來估計孕齡時。熟習此項技術者將理解,可以各種方式量測孕齡。
在一些情況下,可將為一或多種參考F譜(包括第一參考F譜之第一比例貢獻)確定之比例貢獻與校準曲線(由校準資料點組成)進行比較,因此,該比較可鑑定曲線上具有生物樣品之已知比例貢獻之點。然後,可使用與所鑑定之點相對應之孕齡來估計孕齡。例如,可將所確定之比例貢獻作為對校準函數之輸入(例如,線性或非線性擬合)來提供,以獲得孕齡之輸出。
在一些實施例中,如上文所描述,可使用多個比例貢獻。在此類情況下,校準曲線可為二維或更多維的校準表面。因此,估計孕齡可包括將一或多個另外的比例貢獻與自已知其孕齡之一或多個校準樣品確定之一或多個另外的校準值進行比較。 XI. 基於CFDNA中F-譜對病理之分類
F譜亦可用於對個體中之病理等級進行分類。病理之實例為自體免疫性疾病(例如SLE)及癌症。 A. 系統性紅斑狼瘡(SLE)
核酸酶使用水平分析可用於基於游離DNA之某些F-譜區分具有或不具有DNASE1L3缺陷之人類個體。具有DNASE1L3缺陷之人類個體將發展出具有兒童期發作之系統性紅斑狼瘡(SLE)樣症狀,其亦被稱為家族性SLE (Chan等人, Am. J. Hum. Genet. 2020; 107:882-894)。吾人藉由分析來自具有兩個複本之攜帶遺傳突變之DNASE1L3基因之患者(即DNASE1L3缺陷型) (n=10)、此等患者之攜帶一個複本之突變DNASE1L3基因(即另一個複本能夠發揮功能)之父母(n=3)及健康對照個體(n=8)之血漿游離DNA來研究核酸酶使用水平(Chan等人, Am. J. Hum. Genet. 2020;107:882-894)。
圖60顯示了健康個體、具有DNASE1L3缺陷之患者及患者父母之F-譜I (DNASE1L3)水平之箱形圖6000。如圖60所示,具有DNASE1L3缺陷之患者之血漿游離DNA中的F-譜I (DNASE1L3)與其父母(中位數:51.4%;範圍:47.4-51.9%)及健康個體(中位數:52.9%;範圍:47.3-58.2%)相比似乎顯著下降(中位數:7.3%;範圍:3.8-20.5%) ( P<0.0001,Kruskal-Wallis檢驗)。
核酸酶使用水平分析可區分SLE患者及非SLE患者。
圖61顯示了鑑定患有及未患有系統性紅斑狼瘡(SLE)之個體之血漿游離DNA中核酸酶使用水平之一組圖6100。箱形圖6102顯示了健康對照個體、患有非活動性SLE之患者及患有活動性SLE之患者的血漿游離DNA中之F-譜I水平(DNASE1L3)。ROC曲線6104顯示了使用F-譜I (DNASE1L3)評估對SLE患者及非SLE患者之間的區分。
圖6106顯示了SLE患者之系統性紅斑狼瘡疾病活動性指數(SLEDAI)及F-譜I水平(DNASE1L3)之間的相關性。在包括10名健康對照、13名及11名患有活動性及非活動性散發性SLE之患者之群組中(Chan等人, Proc Natl Acad Sci USA. 2014;111:E5302-E5311),箱形圖6102顯示,在健康個體(中位數:39.8%;範圍:38.0-42.3)、患有非活動性SLE之患者(中位數:33.3%;範圍:31.4-41.0%)及患有活動性SLE之患者(中位數:29.7%;範圍:14.9-34.2%)中,DNASE1L3使用水平逐漸降低( P<0.0001,Kruskal-Wallis檢驗)。如ROC曲線6104所示,DNASE1L3使用水平之量度(F-譜I)使得患有及未患有SLE之人類個體之間能夠區分,其中AUC為0.97。
此外,如圖6106所示,DNASE1L3使用水平與系統性紅斑狼瘡疾病活動性指數(SLEDAI)呈負相關(皮爾森之r:-0.43; P=0.036)。因此,DNASE1L3使用水平之量度(F-譜I)將告知自體免疫性疾病之存在,以及促進對疾病進展之監測。 B. 癌症
除了SLE以外,核酸酶使用水平分析揭示可用於區分患有及未患有肝細胞癌(HCC)之人類個體。據報導,HCC患者受到DNASE1L3活性之影響(Jiang等人, Cancer Discov. 2020; 10:664-73)。結合DNASE1L3及HCC之間的關係,將核酸酶使用水平分析應用於由38名健康對照、17名未患有HCC之HBV攜帶者及34名先前研究之HCC患者組成之群組(Jiang等人, Cancer Discov. 2020; 10:664-73)。
圖62顯示了根據一些實施例之正常、HBV及HCC血漿樣品中F-譜之比例貢獻6400。將圖50中之去卷積過程應用於來自人類個體之正常、HBV及HCC血漿樣品。如圖62所示,來自對照個體之樣品包括F-譜I之相對較高的貢獻。類似地,自HBV患者獲得之樣品亦包括F-譜I之相對較高的貢獻。相比之下,HCC樣品包括來自F-譜I之相對較低的貢獻。圖62所示之資料表明,可藉由分析F-譜I之比例貢獻來預測對HCC之診斷。
圖63顯示了一組圖,其顯示了患有及未患有HCC之個體之血漿游離DNA中的核酸酶使用水平。F-譜I 6302及VI 6304之箱形圖顯示了患有及未患有HCC之患者之血漿游離DNA中之核酸酶水平。ROC曲線6306顯示了使用不同量度(包括模體多樣性評分及六種F-譜)對非HCC及HCC組之間的區分之評估。與健康對照相比,箱形圖6302顯示,確實發現在HCC患者中F-譜I (DNASE1L3)使用水平降低6.9%之中位數,而在HBV攜帶者中未觀測到明顯的變化。
如箱形圖6304所示,吾人亦發現HBV攜帶者及HCC患者之F-譜VI使用水平逐漸增加。此外,ROC曲線6306顯示,在6種F-譜中,在偵測HCC患者中最具辨別力的係F-譜VI (AUC: 0.97),其似乎為跨越256種末端模體之隨機分佈(即,在末端模體中不存在明顯的偏好)。該效能優於先前報道之模體多樣性評分(AUC:0.86) ( P=0.019,DeLong檢驗),其用於量化總末端模體頻率之均勻性(Jiang等人, Cancer Discov. 2020;10:664-73)。此等資料表明,藉由同時考慮多種核酸酶之參與而進行之核酸酶使用水平分析可能提高了疾病偵測之訊雜比。 C. 疾病與氧化應激之間的關係
由於F-譜VI在患有及未患有HCC之患者之間顯示出有希望的區分能力,所以考慮任何生物學含義是否與F-譜VI有關。由於顯示在256種4-mer模體之頻率中不存在明顯偏愛的F-譜之性質,一種可能的推測係在癌症患者中發生之游離DNA片段化可能優先涉及與經典凋亡途徑誘導之DNA片段化不同的DNA斷裂。
圖64顯示了鑑定來自對照及HCC患者之血液樣品中之氧化應激水平之柱狀圖6040。如圖64所示,據報道,具有HCC之血液樣品中之氧化應激水平高於正常對照(Arsian等人, J. Cancer Ther. 2014;5:192-197)。基於上述,可認為F-譜VI與氧化應激之程度相關,使得F-譜VI在HCC患者中之貢獻顯著增加(參見圖63之箱形圖6304)。
為了驗證上述假設,吾人利用了其中某些組織被報導具有較高/較低氧化應激水平之臨床模型。吾人首先分析了來自15個對照、25個不具有肝轉移之結腸直腸癌(CRC)患者及24個具有肝轉移之CRC患者之血漿游離DNA。
圖65顯示了提供CRC患者中之F-譜分析及氧化應激水平之一組圖6500。箱形圖6502顯示了在對照、具有及不具有肝轉移之CRC患者中之F-譜VI貢獻。柱狀圖6504顯示來自對照及不同階段(II-IV)之CRC患者之結腸組織中之氧化應激水平。如箱形圖6502所示,吾人確實發現F-譜VI水平自對照(中位數:24.3%;範圍16.8-33.3%)、無肝轉移之CRC患者(中位數:30.5%;範圍23.4-34.5%)至具有肝轉移之CRC患者(中位數:34.5%;範圍18.1-43.5%)之顯著增加的趨勢(Kruskal-Wallis檢驗, P<0.0001)。此類發現與在結腸直腸癌患者中氧化應激增加及在晚期患者中進一步增強之報導一致,如柱狀圖6504所示(Skrzydlewska等人, World J Gastroenterol. 2005;11:403-406)。 D. 疾病之治療後
除CRC患者以外,吾人亦分析了6例鼻咽癌(NPC)患者用順鉑進行化學放射治療前後血漿DNA之F-譜。
圖66顯示了鑑定NPC患者在用順鉑進行化學放射治療之前及期間的F-譜VI貢獻之箱形圖6600。據報導,在化學放射治療期間氧化應激之增加被進一步增強(Conklin等人, Integr. Cancer Ther. 2004; 3:294-300)。如圖66所示,與治療前之配對患者相比(中位數:23.6%;範圍:21.8-25.5%),在用順鉑進行化學放射治療期間,NPC患者之F-譜VI水平增加(中位數:22.1%;範圍:18.5-22.8%) (P=0.04,Kruskal-Wallis檢驗)。 E. 使用F-譜cfDNA對病理等級進行分類
圖67顯示了根據一些實施例之用於基於游離DNA之F譜來確定病理等級之分類的方法6700之流程圖。例示性生物樣品可為包括游離DNA之游離樣品,例如血液、血漿、血清、尿液及唾液。病理可包括癌症(例如肝細胞癌、肺癌、乳癌、胃癌、多形性成膠質細胞瘤、胰臟癌、結腸直腸癌、鼻咽癌、頭頸鱗狀細胞癌等)及自體免疫性病症(例如系統性紅斑狼瘡)。方法6700之各態樣可以與圖54之方法5400類似之方式進行。
在框6702,儲存參考F譜之集合。對於核苷酸集合中之各核苷酸,該集合之各參考F-譜皆鑑定了終止於該核苷酸之游離DNA分子之比例。此外,每種參考F譜與片段化因子之類型相關聯。片段化因子之類型鑑定特定的酶(例如DNASE1L3、DNASE1)、蛋白質(例如DFFB)、或引起游離DNA分子片段化之其他生物組分或過程。在一些情況下,參考F譜之集合包括1、2、3、4、5、6、7、8、9、10、15、20、25、30、40、45、50或多於50種F譜。例如,參考F譜之集合可包括六種F譜I-VI。框6702可以與圖54之框5402類似之方式進行。
在框6704,分析來自生物樣品之多個游離DNA分子以獲得序列讀段。上述序列讀段包括對應於上述多個游離DNA分子之末端之末端序列。序列讀段可包括對應於多個游離DNA片段之末端之末端序列。框6704可以與圖54之框5404類似之方式進行。
在框6706,藉由基於末端序列確定以核苷酸集合之各核苷酸終止之多個游離DNA分子之比例來確定個體之樣品末端模體譜。樣品末端模體譜鑑定對應於多個游離DNA分子之末端序列之多個末端模體之相對頻率。多種末端模體可對應於 N個鹼基位置之所有可行組合。例如,若多種末端模體對應於4-mer,則樣品末端模體譜之多種末端模體可包括256種4-mer之組合(例如CCCA、TTCC)。框6706可以與圖54之框5406類似之方式進行。
在框6708,確定參考F譜之集合之比例貢獻,上述參考F譜之比例聚集提供樣品末端模體譜。參考F譜集合之比例貢獻總和為一。框6708可以與圖54之框5408類似之方式進行。
在框6710,可基於所確定的比例貢獻中之至少一者超過預定臨限值之確定來確定個體之病理等級之分類。預定臨限值可對應於特定參考F譜(例如,F譜I、F譜IV)之比例貢獻。例如,可基於所確定的比例貢獻之一小於預定臨限值之確定來確定個體之病理等級之分類,如圖63之箱形圖6302所示。在另一個例子中,可基於所確定的比例貢獻之一大於預定臨限值之確定來確定個體之病理等級之分類,如圖63之箱形圖6304所示。
病理等級可包括無癌症、早期、中期或晚期。然後,分類可選擇等級中之一者。因此,可自包括多個癌症階段之多個癌症等級來確定分類。作為實例,癌症可為肝細胞癌、肺癌、乳癌、胃癌、多形性成膠質細胞瘤、胰臟癌、結腸直腸癌、鼻咽癌及頭頸鱗狀細胞癌。例如,自體免疫性疾病可為系統性紅斑狼瘡。
在其他實例中,病理等級對應於與病理相關之臨床相關DNA之濃度分數。例如,病理等級可為癌症,且臨床相關DNA可為腫瘤DNA。參考值可為自校準樣品確定之校準值。 XII.治療 A. 治療選擇
本揭露內容之實施例可準確地預測疾病復發,從而促進早期干預及選擇適當之治療以改善疾病結果及個體之總存活率。例如,可為個體選擇加強的化療,在其相應樣品預測疾病復發之情況下。在另一個實例中,可對已完成初始治療之個體之生物樣品進行定序以鑑定預測疾病復發之病毒DNA。在此類實例中,可為個體選擇替代的治療方案(例如,較高的劑量)及/或不同的治療,因為個體之癌症可能已耐受初始治療。
實施例亦可包括回應於確定病理復發之分類來治療個體。例如,若預測對應於局部區域故障,則可選擇手術作為可能的治療。在另一實例中,若預測對應於遠端轉移,則可另外選擇化療作為可能的治療。在一些實施例中,上述治療包括手術、放射治療、化療、免疫療法、靶向療法、激素療法、幹細胞移植或精確藥物。基於確定的復發分類,可制定治療計劃以降低對個體之損害風險且提高總存活率。實施例可進一步包括根據治療計劃治療個體。 B. 治療之類型
實施例可進一步包括在確定個體之分類後治療患者之病理。可根據確定的病理等級、臨床相關DNA之濃度分數或來源之組織提供治療。例如,可用特定的藥物或化療靶向鑑定之突變。來源組織可用於指導手術或任何其他形式之治療。並且病理等級可用於確定用任何類型之治療有多大侵襲性,此亦可基於病理等級來確定。可藉由化療、藥物、飲食、療法及/或手術來治療病理(例如,癌症)。在一些實施例中,參數之值(例如,量或長度)超過參考值愈多,治療可能愈積極。
治療可包括切除。對於膀胱癌,治療可包括經尿道膀胱腫瘤切除術(TURBT)。該方法用於診斷、分期及治療。在TURBT期間,外科醫生藉由尿道將膀胱鏡插入膀胱。然後使用具有小線環、雷射或高能電之工具去除腫瘤。對於患有非肌肉侵入性膀胱癌(NMIBC)之患者,TURBT可用於治療或消除癌症。另一種治療可包括根治性膀胱切除術及淋巴結清掃。根治性膀胱切除術為除去整個膀胱以及可能的周圍組織及器官。治療亦可包括尿路改道。尿路改道為當醫生在膀胱作為治療之一部分被移除時為尿液流出身體創建新的路徑。
治療可包括化療,其為使用藥物來破壞癌細胞,通常藉由保持癌細胞不生長及分裂。藥物可包括,例如,但不限於,絲裂黴素-C (可作為普通藥物獲得),吉西他濱(Gemzar)及塞替派(Tepadina)用於膀胱內化療。全身性化療可包括,例如,但不限於,順鉑吉西他濱、甲胺喋呤(Rheumatrex,Trexall)、長春鹼(Velban)、多柔比星及順鉑。
在一些實施例中,治療可包括免疫治療。免疫治療可包括阻斷稱為PD-1之蛋白質之免疫檢查點抑制劑。抑制劑可包括但不限於阿替佐珠單抗(TECENTRIQ)、尼伐單抗(Opdivo)、阿維魯單抗(Bavencio)、德瓦魯單抗(Imfinzi)及派姆單抗(Keytruda)。
治療實施例亦可包括靶向治療。靶向治療為靶向癌症之特異性基因及/或有助於癌症生長及存活之蛋白質的治療。例如,埃達非替尼(erdafitinib)係經口投與之藥物,其被批准治療患有具有FGFR3或FGFR2遺傳突變之局部晚期或轉移性尿路上皮癌之人類,上述局部晚期或轉移性尿路上皮癌具有繼續生長或擴散之癌細胞。
一些治療可包括放射治療。放射治療為使用高能X射線或其他粒子來破壞癌細胞。除了各種單獨的治療以外,亦可使用本文所描述之此等治療之組合。在一些實施例中,當參數的值超過臨限值(其本身超過參考值)時,可使用治療之組合。參考文獻中關於治療之資訊以引用之方式併入本文中。 XIII.例示性系統
圖68說明了根據本揭露內容之實施例之量測系統6800。所示的系統包括樣品6805,例如測定裝置6810內之游離DNA分子,其中可對樣品6805進行測定6808。例如,樣品6805可與測定6808之試劑接觸以提供物理特徵6815之信號。測定裝置之一個實例可為包括測定之探針及/或引子之流通池或液滴移動通過的管(液滴包括測定)。來自樣品之物理特徵6815 (例如,螢光強度、電壓或電流)由偵測器6820偵測。偵測器6820可以間隔(例如,週期性間隔)進行量測,以獲得構成資料信號之資料點。在一個實施例中,類比至數位轉換器將來自偵測器之模擬信號在多個時間轉換為數字形式。測定裝置6810及偵測器6820可形成測定系統,例如,根據本文所描述之實施例進行定序之定序系統。資料信號6825自偵測器6820發送至邏輯系統6830。作為實例,資料信號6825可用於確定DNA分子之參考基因體中之序列及/或位置。資料信號6825可包括同時進行的多種量測,例如不同顏色的螢光染料或不同分子之樣品6805之不同電信號,因此資料信號6825可對應於多個信號。資料信號6825可儲存在本端儲存器6835、外部儲存器6840或儲存裝置6845中。
邏輯系統6830可為或可包括電腦系統、ASIC、微處理器、圖形處理單元(GPU)等。其亦可包括顯示器(例如,監測器、LED顯示器等)及使用者輸入設備(例如,滑鼠、鍵盤、按鈕等)或與顯示器(例如,監測器、LED顯示器等)及使用者輸入設備(例如,滑鼠、鍵盤、按鈕等)耦合。邏輯系統6830及其他部件可為獨立的或網路連接之電腦系統之一部分,或者其可直接連接至包括偵測器6820及/或測定裝置6810之裝置(例如,定序裝置)或結合在其中。邏輯系統6830亦可包括在處理器6850中執行之軟體。邏輯系統6830可包括儲存用於控制量測系統6800以執行本文所描述之任何方法之指令的電腦可讀媒體。例如,邏輯系統6830可向包括測定裝置6810之系統提供命令,以便執行定序或其他物理操作。此類物理操作可以特定的順序進行,例如,以特定的順序加入及去除試劑。此類物理操作可由機器人系統,例如,包括機器人臂執行,其可用於獲得樣品且執行測定。
量測系統6800亦可包括治療裝置6860,其可向對象提供治療。治療裝置6860可確定治療及/或用於執行治療。此類治療之實例可包括手術、放射療法、化學療法、免疫療法、靶向療法、激素療法及幹細胞移植。邏輯系統6830可連接至治療裝置6860,例如,以提供本文中描述之方法之結果。治療裝置可接收來自其他裝置,例如成像裝置及用戶輸入(例如,以控制治療,例如對機器人系統上之控制)之輸入。
本文中提及之任何電腦系統可利用任何適當數量之子系統。此類子系統之實例在圖69之電腦系統10中示出。在一些實施例中,電腦系統包括單個電腦設備,其中子系統可為電腦設備之部件。在其他實施例中,電腦系統可包括多個電腦設備,各電腦設備為具有內部部件之子系統。電腦系統可包括桌上型及膝上型電腦、平板電腦、行動電話及其他行動裝置。
圖69所示之子系統藉由系統匯流排線75相互連接。另外的子系統,例如印表機74、鍵盤78、儲存裝置79、監測器76(例如,顯示屏,例如LED),耦合至顯示器適配器82,以及其他子系統被示出。耦合至I/O控制器71之外圍裝置及輸入/輸出(I/O)裝置可藉由此項技術中已知的任何數量之裝置連接至電腦系統,例如輸入/輸出(I/O)埠77 (例如,USB、FireWire®)。例如,I/O埠77或外部介面81 (例如,乙太網、Wi-Fi等)可用於將電腦系統10連接至廣域網路,諸如網際網路、滑鼠輸入設備或掃描儀。經由系統匯流排線75之互相連接允許中央處理器73與各子系統通信且控制來自系統儲存器72或儲存裝置79 (例如,諸如硬碟機或光碟之固定碟)之多個指令之執行,以及子系統之間的資訊交換。系統儲存器72及/或儲存裝置79可體現為電腦可讀媒體。另一子系統為資料採集裝置85,例如照相機、麥克風、加速度計等。此處提及的任何資料皆可自一個部件輸出至另一個部件,且可輸出至用戶。
電腦系統可包括多個相同的部件或子系統,例如,藉由外部介面81、藉由內部介面,或經由可自一個部件連接至另一個部件及自另一個組件移除之可移動儲存裝置連接在一起。在一些實施例中,電腦系統、子系統或設備可藉由網路進行通信。在此類情況下,一個電腦可被視為用戶端,而另一個電腦可被視為伺服器,其中各電腦可為同一電腦系統之一部分。用戶端及伺服器可各自包括多個系統、子系統或部件。
可使用硬體電路(例如,專用積體電路或場可程式化閘陣列)及/或使用以模組化或積體方式儲存在儲存器中之電腦軟體以及一般可程序化處理器以控制邏輯之形式來實現實施例之各態樣,且因此處理器可包括儲存配置硬體電路之軟體指令之儲存器,以及具有配置指令或ASIC之FPGA。如本文中所使用,處理器可包括單核處理器、在同一積體晶片上之多核處理器,或者在單個電路板上之多個處理單元或者聯網的處理器,以及專用硬體。基於本揭露內容及本文所提供之教示,所屬領域之技術人員將知道及瞭解使用硬體以及硬體與軟體之組合來實施本揭露內容之實施例之其他方式及/或方法。
本申請案中描述之軟體部件或功能中之任何軟體部件或功能可實施為被處理器使用任何適合的電腦語言(例如Java、C、C++、C#、Objective-C、Swift或如Perl或Python之腳本語言)使用例如習知或對象導向之技術執行之軟體程式碼。軟體程式碼可儲存為電腦可讀媒體上用於儲存及/或傳輸之一系列指令或命令。適合的非暫時性電腦可讀媒體可包含隨機存取儲存器(RAM)、維讀儲存器(ROM)、如硬碟機或軟碟之磁性媒體、或如光碟(CD)或DVD(數字通用光碟)或藍光光碟之光學媒體、快閃記憶體等。電腦可讀媒體可為此類裝置之任何組合。此外,可重新安排操作之順序。當過程之操作完成時,該過程可被終止,但亦可具有圖中不包括的其他步驟。過程可對應於方法、函數、程序、子常式、子程序等。當過程對應於函數時,其終止可對應於該函數向調用函數或主函數之返回。
亦可使用適於經由符合各種協定之有線、光學及/或無線網路(包含網際網路)傳輸之載波信號來編碼及傳輸此類程序。因此,電腦可讀媒體可使用以此類程序編碼之資料信號產生。用程序程式碼編碼之電腦可讀媒體可與相容設備打包在一起或與其他設備分開提供(例如,藉由網際網路下載)。任何此類電腦可讀媒體可駐留在單個電腦產品(例如,硬碟機、CD或整個電腦系統)上或內,且可存在於系統或網路內之不同電腦產品上或內。電腦系統可包括監測器、印表機或用於向用戶提供本文提及之結果中之任何結果的其他適合之顯示器。
本文描述之方法中之任何方法可用包括一或多個處理器之電腦系統完全或部分地執行,上述電腦系統可經配置以執行步驟。可即時地執行用處理器執行之任何操作(例如,對齊、確定、比較、計算(computing)、計算(calculating))。術語 即時 可指在某個時間約束內完成之計算操作或過程。時間約束可為1分鐘、1小時、1天或7天。因此,實施例可針對經配置以執行本文所描述之方法中之任何方法之步驟的電腦系統,上述電腦系統可能具有執行相應步驟或相應步驟組之不同部件。儘管作為編號之步驟呈現,但本文中之方法步驟可同時或在不同時間或以不同順序執行。另外,此等步驟之各部分可與來自其他方法之其他步驟之各部分一起使用。而且,步驟之全部或部分可為視情況選用的。另外,上述方法中之任何方法之步驟中的任何步驟皆可用模組、單元、電路或用於執行此等步驟之系統之其他裝置來執行。
在不脫離本揭露內容之實施例之精神及範圍的情況下,可以任何適合的方式組合特定實施例之具體細節。然而,本揭露內容之其他實施例可針對涉及各單獨態樣之特定實施例,或此等單獨態樣之特定組合。
出於說明及描述之目的,已呈現了本揭露內容之例示性實施例之以上描述。以上描述並非旨在窮舉本揭露內容或將本揭露內容限制於所描述之精確形式,且根據上述教示,許多修改及變化為可能的。
除非特別指出相反的情況,否則對 一個(種)/一(a/an) 「上述(the) 之敍述旨在表示 一或多個 。除非特別指出相反的情況,否則 之使用旨在表示 包含性的或 ,而非 排他性的或 。對 第一 部件之引用不一定要求提供第二部件。此外,除非明確說明,否則對 第一 第二 部件之引用並不將所引用之部件限制於特定位置。術語 基於 旨在表示 至少部分地基於
請求項可被起草為排除可為視情況選用之任何要素。因此,該陳述旨在用作使用諸如 單獨 等排他性術語結合請求項要素之記載或使用 否定 限制之先行基礎。
應當理解,本發明不限於所描述之特定實施例,因為此等實施例可變化。還應當理解,此處使用之術語僅用於描述特定實施例之目的,而不為了限制,因為本發明之範圍將僅由隨附申請專利範圍來限定。已作出努力以確保關於所使用之數字(例如,量、溫度等)之準確性,但應考慮一些實驗誤差及偏差。除非另有說明,份數為重量份,分子量為重均分子量,溫度為攝氏度,壓力為大氣壓或接近大氣壓。
本文所提及之所有專利案、專利申請案、出版物及描述出於所有目的以引用方式整體併入本文。沒有一項被承認為先前技術。在本申請案與本文提供之參考文獻之間存在衝突之情況下,本申請案將占主導地位。
10:電腦系統 71:I/O控制器 72:系統儲存器 73:中央處理器 74:印表機 75:系統匯流排線 76:監測器 77:輸入/輸出(I/O)埠 78:鍵盤 79:儲存裝置 81:外部介面 82:顯示器適配器 85:資料採集裝置 100:鑑定尿液樣品中經腎及非經腎DNA之特徵之例示性概述 102:經腎DNA 104:非經腎DNA 200:示意圖 202:核小體缺失之游離DNA 204:核小體之游離DNA分子/核小體DNA分子 206:血漿DNA分子 210:尿液樣品 220:尿液樣品 300:過程 302:框 304:框 306:框 400:一組圖 500:一組圖 502:第一組圖 504:第一組圖 506:第一組圖 508:第二組圖 510:第二組圖 512:第二組圖 600:鑑定尿液樣品中胎兒DNA及母體DNA之間的長度差異之圖 610:共有的游離DNA分子 620:胎兒特異性游離DNA分子 700:示意圖 702:血管 704:腎 800:鑑定腎小球基底膜滲透性與經腎DNA長度之間的關係的圖 900:鑑定自母體尿液中胎兒特異性游離DNA及共有游離DNA鑑定的不同末端模體之圖 902:胎兒特異性尿液游離DNA之前10種模體 904:共有的尿液游離DNA之前10種模體 1000:一組圖 1100:鑑定來自開放染色質區域之DNA分子的各種特徵之例示圖 1200:用於確定對應於開放染色質區域之尿液游離DNA之量的例示圖 1300:尿液樣品及血漿樣品中開放染色質區域中胎兒特異性游離DNA分子及共有游離DNA分子之O/E比之一組箱形圖 1302:箱形圖 1304:箱形圖 1400:鑑定來自尿液樣品之胎兒特異性DNA中開放染色質區域中DNA分子之富集之一組圖 1402:鑑定來自OCR區域之胎兒特異性尿液DNA分子之期望百分比及觀測百分比之圖 1404:鑑定來自OCR區域之共有尿液DNA分子之期望及觀測百分比之圖 1500:鑑定來自血漿樣品之胎兒特異性DNA中開放染色質區域之DNA分子之非富集之一組圖 1502:鑑定來自OCR區域之胎兒特異性血漿DNA分子之期望百分比及觀測百分比之圖 1504:鑑定來自OCR區域之共有血漿DNA分子之期望百分比及觀測百分比之圖 1506:出示O/E比之圖 1600:鑑定母體尿液中胎兒DNA分數與來自OCR區域之所有尿液游離DNA片段的O/E比之間的相關性之圖 1700:說明母體尿液中胎兒DNA分數與來自胎盤特異性DHS之尿液cfDNA片段的O/E比之間的相關性之圖 1800:鑑定母體尿液及血漿樣品之OCR中所有尿液游離DNA之標準化末端密度的圖 1900:鑑定用於確定胎兒DNA之濃度分數之尿液游離DNA及血漿游離DNA之末端密度之間的比較之一組圖 1902:顯示胎兒DNA分數與尿液游離DNA之標準化末端密度成比例增加之圖 1904:未顯示血漿游離DNA增加之圖 2000:鑑定胎兒DNA分數與具有不同長度的尿液游離DNA之標準化末端密度之間的相關性之一組圖 2002:顯示母體尿液樣品中所有游離DNA片段之標準化末端密度之圖 2004:顯示母體尿液樣品中長度等於或小於80 bp之片段之標準化末端密度之圖 2100:用於估計個體尿液樣品中臨床相關DNA分子之濃度分數的方法 2102:框 2104:框 2106:框 2200:鑑定胎兒DNA分數與攜帶CC末端之尿液游離DNA片段的比例之間的相關性的一組圖 2202:顯示胎兒DNA分數及尿液樣品中攜帶CC末端之所有尿液游離DNA片段的比例之間的相關性之圖 2204:圖 2300:使用探針富集一或多種末端模體之集合的技術 2302:游離DNA分子 2304:步驟 2305:共同序列 2306:步驟 2308:單鏈cfDNA 2310:步驟 2312:表面 2314:步驟 2316:探針序列 2318:互補模體序列 2320:未結合之片段 2322:結合片段 2400:使用探針及珠粒來富集一或多種末端模體之集合的技術 2500:用於基於尿液游離DNA之末端模體特徵富集尿液樣品的臨床相關DNA的方法 2502:框 2504:框 2506:框 2610:圖 2620:圖 2630:圖 2640:圖 2700:使用具有不同片段組學特徵之片段之選擇性分析來鑑定經腎尿液游離DNA之富集之柱狀圖 2702:沒有選擇 2704:基於CC末端之選擇性分析 2706:基於OCR之選擇性分析 2708:基於長度之選擇(≤80 bp) 2710:長度 2800:用於基於末端模體、開放染色質區域富集尿液樣品之臨床相關DNA的方法 2802:框 2804:框 2806:框 2900:在患有RCC之患者中鑑定O/E比分析的一組圖 2902:箱形圖 2904:接收機工作特性 3002:箱形圖 3110:箱形圖 3120:箱形圖 3200:用於基於來自開放染色質區域之尿液游離DNA來確定腎臟異常之分類的方法 3202:框 3204:框 3206:框 3208:框 3300:患有蛋白尿及單獨患有先兆子癇之患者中經腎DNA之片段組學分析 3310:箱形圖 3320:箱形圖 3400:用於基於尿液游離DNA之長度來確定腎臟異常之分類的方法 3402:框 3404:框 3406:框 3408:框 3520:箱形圖 3600:用於基於尿液游離DNA濃度來確定腎臟異常之分類的方法 3602:框 3604:框 3606:框 3608:框 3610:框 3710:接收機工作特性 3800:鑑定存在於尿液游離DNA分子中之某些末端模體之頻率之排序的圖 3900:鑑定觀測到的鼠類血漿及尿液游離DNA分子之末端模體譜之一組圖 3902:顯示觀測到的來自WT小鼠之血漿游離DNA之末端模體頻率的圖 3904:觀測到的來自 Dnase1l3-/-小鼠之血漿游離DNA之末端模體頻率的圖 3906:顯示觀測到的來自 Dnase1-/-小鼠之血漿游離DNA之末端模體頻率的圖 3908:顯示觀測到的來自 Dffb-/-小鼠之血漿游離DNA之末端模體頻率的圖 3910:顯示觀測到的來自WT小鼠之尿液游離DNA之末端模體頻率的圖 3912:顯示觀測到的來自 Dnase1l3-/-小鼠之尿液游離DNA之末端模體頻率的圖 3914:顯示觀測到的來自 Dnase1-/-小鼠之尿液游離DNA之末端模體頻率的圖 4002:框 4004:框 4006:框 4100:鑑定使用NMF分析自具有不同剔除基因型之鼠類游離DNA樣品所推斷每種F-譜(即核酸酶使用水平)之貢獻比例的圖 4202:F-譜 4204:F-譜 4206:F-譜 4208:F-譜 4210:F-譜 4212:F-譜 4300:箱形圖 4400:跨越F-譜I之256種末端模體的游離DNA分子之相對頻率 4410:顯示使用4-mer作為末端模體之末端模體譜的圖 4420:顯示使用1-mer (單核苷酸)作為末端模體之末端模體譜的圖 4500:箱形圖 4600:跨越F-譜II之256種末端模體的游離DNA分子之相對頻率 4700:箱形圖 4800:跨越F-譜III之256種末端模體的游離DNA分子之相對頻率 4900:跨越F-譜VI-VI之256種末端模體的游離DNA分子之相對頻率 4902:F-譜IV 4904:F-譜V 4906:F-譜VI 5000:將人類個體之末端模體譜與基於鼠類樣品確定之參考F-譜進行比較之示意圖 5100:跨越人類個體之血漿及尿液樣品之F-譜的貢獻比例 5200:跨越人類個體之正常及DNASE1L3缺陷樣品之F-譜的貢獻比例 5300:跨越懷孕人類個體之尿液樣品之F-譜之貢獻比例 5400:基於游離DNA分子之F-譜確定核酸酶活性分類之方法 5402:框 5404:框 5406:框 5408:框 5410:框 5500:鑑定孕婦尿液游離DNA中核酸酶使用水平之一組圖 5502:顯示胎兒DNA分數與F-譜I (DNASE1L3)水平之間的相關性的圖 5504:顯示胎兒DNA分數與F-譜IV水平之間的相關性的圖 5600:用於基於游離DNA分子之F-譜確定胎兒DNA之濃度分數的方法 5602:框 5604:框 5606:框 5608:框 5610:框 5700:鑑定孕婦血漿游離DNA中核酸酶使用水平之一組圖 5702:顯示不同孕期之孕婦胎盤中DNASE1L3之表現水平的箱形圖 5704:顯示不同孕期之孕婦胎盤中DNASE1L3之表現水平的箱形圖 5706:顯示第一孕期、第二孕期及第三孕期中,孕婦母體血漿游離DNA中F-譜I (DNASE1L3)之貢獻的箱形圖 5708:顯示胎兒DNA分數與F-譜I (DNASE1L3)水平之間的相關性的圖 5800:鑑定孕婦之F-譜分析及氧化應激水平之一組圖 5802:顯示來自不同孕期之孕婦的胎盤組織中之氧化應激水平的圖 5804:顯示孕婦血漿中胎兒特異性DNA在不同孕期間之F-譜VI貢獻的箱形圖 5806:顯示孕婦血漿中之母體特異性DNA在不同孕期間之F-譜VI貢獻的箱形圖 5900:基於游離DNA分子之F譜來估計孕齡的方法 5902:框 5904:框 5906:框 5908:框 5910:框 6000:健康個體、具有DNASE1L3缺陷之患者及患者父母之F-譜I (DNASE1L3)水平之箱形圖 6100:鑑定患有及未患有系統性紅斑狼瘡(SLE)之個體之血漿游離DNA中核酸酶使用水平之一組圖 6102:箱形圖 6104:ROC曲線 6106:顯示SLE患者之系統性紅斑狼瘡疾病活動性指數(SLEDAI)與F-譜I水平(DNASE1L3)之間的相關性的圖 6200:正常、HBV及HCC血漿樣品中F-譜之貢獻比例 6302:F-譜I/箱形圖 6304:F-譜VI/箱形圖 6306:ROC曲線 6500:提供CRC患者中之F-譜分析及氧化應激水平之一組圖 6502:箱形圖 6504:柱狀圖 6600:鑑定NPC患者在用順鉑進行化學放射治療之前及期間的F-譜VI貢獻之箱形圖 6700:用於基於游離DNA之F-譜來確定病理等級之分類的方法 6702:框 6704:框 6706:框 6708:框 6710:框 6800:量測系統 6805:樣品 6808:測定 6810:測定裝置 6815:物理特徵 6820:偵測器 6825:資料信號 6830:邏輯系統 6835:本端儲存器 6840:外部儲存器 6845:儲存裝置 6850:處理器 6860:治療裝置
圖1說明了根據一些實施例之鑑定尿液樣品中之經腎及非經腎DNA之特徵之例示性概述。
圖2顯示了示意圖,其說明了使用片段組學特徵來確定經腎尿液游離DNA貢獻。
圖3說明了根據一些實施例之自尿液樣品獲得定序資料之過程。
圖4顯示了一組圖,其顯示了三個尿液收集組中活體外孵育前後尿液游離DNA濃度之比較。
圖5顯示了鑑定對照、EDTA及穩定劑組中活體外孵育前後尿液游離DNA長度分佈之比較之一組圖。
圖6顯示了根據一些實施例之鑑定尿液樣品中胎兒DNA及母體DNA之間的長度差異之圖。
圖7說明了根據一些實施例之例示性示意圖,其顯示了將血漿DNA轉化成經腎DNA之生物過程。
圖8顯示了根據一些實施例之鑑定腎小球基底膜滲透性及經腎DNA長度之間的關係之圖。
圖9顯示了鑑定母體尿液中自胎兒特異性游離DNA及共有游離DNA鑑定之不同末端模體之圖。
圖10顯示了一組圖,其根據一些實施例鑑定了尿液游離DNA中胎兒DNA之濃度分數與CC末端片段及不同長度之間的關係。
圖11展示根據一些實施例之鑑定來自開放染色質區域之DNA分子的各種特徵之例示性圖。
圖12展示根據一些實施例之用於確定對應於開放染色質區域之尿液游離DNA之量之例示性圖。
圖13顯示了尿液樣品及血漿樣品中胎兒特異性游離DNA分子及共有游離DNA分子之O/E比之一組箱形圖。
圖14展示一組圖,其根據一些實施例鑑定來自尿液樣品之胎兒特異性DNA中開放染色質區域中DNA分子之富集。
圖15展示一組圖,其根據一些實施例鑑定來自血漿樣品之胎兒特異性DNA中開放染色質區域之DNA分子之非富集。
圖16顯示鑑定母體尿液中胎兒DNA分數與所有尿液游離DNA片段之O/E比之間的相關性之圖。
圖17顯示說明母體尿液中胎兒DNA分數與來自胎盤特異性DHS之尿液cfDNA片段之O/E比之間的相關性之圖。
圖18顯示了鑑定母體尿液及血漿樣品之OCR中所有尿液游離DNA之標準化末端密度之圖。
圖19顯示了一組圖,其根據一些實施例鑑定用於確定胎兒DNA之濃度分數之尿液游離DNA及血漿游離DNA之末端密度之間的比較。
圖20顯示了一組圖,其根據一些實施例鑑定胎兒DNA分數與具有不同長度之尿液游離DNA之標準化末端密度之間的相關性。
圖21顯示了根據一些實施例之用於估計個體尿液樣品中臨床相關DNA分子之濃度分數之流程圖。
圖22顯示了鑑定胎兒DNA分數與攜帶CC末端之尿液游離DNA片段之比例之間的相關性之一組圖。
圖23說明了使用探針富集一或多種末端模體之集合之技術。
圖24說明了使用探針及珠粒來富集一或多種末端模體之集合之另一種技術。
圖25顯示了根據一些實施例之用於基於尿液游離DNA之末端模體特徵富集尿液樣品之臨床相關DNA之流程圖。
圖26顯示了一組圖,其根據一些實施例使用具有各種片段組學性質之尿液游離DNA來鑑定胎兒DNA之富集。
圖27顯示了使用具有不同片段組學特徵之片段之選擇性分析來鑑定經腎尿液游離DNA之富集之柱狀圖。
圖28顯示了根據一些實施例之用於基於尿液游離DNA之末端模體、開放染色質區域及長度富集尿液樣品之臨床相關DNA之流程圖。
圖29顯示了在患有RCC之患者中鑑定O/E比分析之一組圖。
圖30顯示了使用血液特異性DHS對蛋白尿患者中經腎DNA之片段組學分析。
圖31顯示了使用DHS對患有先兆子癇之孕婦中經腎DNA之片段組學分析。
圖32顯示了根據一些實施例之用於基於來自開放染色質區域之尿液游離DNA來確定腎臟異常之分類的方法之流程圖。
圖33為患有蛋白尿及單獨患有先兆子癇之患者中經腎DNA之片段組學分析。
圖34顯示了根據一些實施例之用於基於尿液游離DNA之長度來確定腎臟異常之分類之流程圖。
圖35分別顯示了蛋白尿及先兆子癇患者中經腎DNA之尿液cfDNA濃度之分析。
圖36為根據一些實施例之用於基於尿液游離DNA濃度來確定腎臟異常之分類之流程圖。
圖37顯示了使用經腎DNA之片段組學特徵將患有蛋白尿及先兆子癇之患者與健康對照區分開之ROC分析。
圖38顯示了圖,其根據一些實施例鑑定了存在於尿液游離DNA分子中之某些末端模體之頻率之排名。
圖39顯示了鑑定觀測到的鼠類血漿及尿液游離DNA分子之末端模體譜之一組圖。
圖40顯示了用於游離DNA分子之例示性核酸酶使用水平分析之示意性工作流程。
圖41顯示了圖,其鑑定了使用NMF分析自具有不同剔除基因型之鼠類游離DNA樣品推斷之各種F-譜(即核酸酶使用水平)之比例貢獻。
圖42顯示了使用NMF分析自小鼠血漿及尿液游離DNA推斷之六種F-譜(A-F)之一組圖。
圖43顯示了箱形圖,其根據一些實施例鑑定了F譜I在不同類型之樣品上之比例貢獻。
圖44顯示了根據一些實施例,跨越F-譜I之256種末端模體之游離DNA分子之相對頻率。
圖45顯示了箱形圖,其根據一些實施例鑑定了F譜II跨越不同類型之樣品之比例貢獻。
圖46顯示了根據一些實施例,跨越F-譜II之256種末端模體之游離DNA分子之相對頻率。
圖47顯示了箱形圖,其根據一些實施例鑑定了F譜III跨越不同類型之樣品之比例貢獻。
圖48顯示了根據一些實施例,跨越F-譜III之256種末端模體之游離DNA分子之相對頻率。
圖49顯示了根據一些實施例,跨越F-譜IV-VI之256種末端模體之游離DNA分子之相對頻率。
圖50顯示了根據一些實施例將人類個體之末端模體譜與基於鼠類樣品確定之參考F-譜進行比較之示意圖。
圖51顯示了根據一些實施例,跨越人類個體之血漿及尿液樣品的F譜之比例貢獻。
圖52顯示了根據一些實施例,跨越人類個體之正常及DNASE1L3缺陷樣品的F譜之比例貢獻。
圖53顯示了根據一些實施例,跨越懷孕人類個體之尿液樣品的F-譜之比例貢獻。
圖54顯示了根據一些實施例,基於游離DNA分子之F-譜確定核酸酶活性分類之流程圖。
圖55顯示了鑑定孕婦尿液游離DNA中核酸酶使用水平之一組圖。
圖56顯示了根據一些實施例之用於基於游離DNA分子之F-譜確定胎兒DNA之濃度分數之流程圖。
圖57顯示了鑑定孕婦血漿游離DNA中核酸酶使用水平之一組圖。
圖58顯示了鑑定孕婦之F-譜分析及氧化應激水平之一組圖。
圖59顯示了根據一些實施例之基於游離DNA分子之F譜來估計孕齡之流程圖。
圖60顯示了健康個體、具有DNASE1L3缺陷之患者及患者父母之F-譜I (DNASE1L3)水平之箱形圖。
圖61顯示了鑑定患有及未患有系統性紅斑狼瘡(SLE)之個體的血漿游離DNA中核酸酶使用水平之一組圖。
圖62顯示了根據一些實施例之正常、HBV及HCC血漿樣品中F-譜之比例貢獻。
圖63顯示了一組圖,其顯示了患有及未患有HCC之個體的血漿游離DNA中之核酸酶使用水平。
圖64顯示了鑑定來自對照及HCC患者之血液樣品中的氧化應激水平之柱狀圖。
圖65顯示了提供CRC患者中之F-譜分析及氧化應激水平之一組圖。
圖66顯示了鑑定NPC患者在用順鉑進行化學放射治療之前及期間的F-譜VI貢獻之箱形圖。
圖67顯示了根據一些實施例之用於基於游離DNA之F譜來確定病理等級之分類的流程圖。
圖68說明了根據本揭露內容之實施例之量測系統。
圖69顯示了可與根據本發明實施例之系統及方法一起使用之例示性電腦系統之方塊圖。
200:示意圖
202:核小體缺失之游離DNA
204:核小體之游離DNA分子/核小體DNA分子
206:血漿DNA分子
210:尿液樣品
220:尿液樣品

Claims (95)

  1. 一種估計個體尿液樣品中臨床相關DNA分子之濃度分數之方法,上述尿液樣品包括游離的臨床相關DNA分子及其他DNA分子,上述方法包括: 分析來自尿液樣品之多個游離DNA分子,其中分析上述多個游離DNA分子包括: 確定上述多個游離DNA分子之位置;及 基於上述多個游離DNA分子之位置,鑑定來自與上述臨床相關DNA分子相關的一或多個組織之開放染色質區域的游離DNA分子之集合; 使用上述游離DNA分子之集合確定上述游離DNA分子之集合之相對豐度,上述游離DNA分子來自上述一或多個組織之開放染色質區域;及 藉由將上述相對豐度與自一或多個校準樣品確定之一或多個校準值進行比較來估計尿液樣品中上述臨床相關DNA分子之濃度分數,上述校準樣品之臨床相關DNA分子之濃度分數係已知的。
  2. 如請求項1之方法,其中將上述相對豐度與上述一或多個校準值進行比較包括將上述相對豐度與包括上述一或多個校準值之校準曲線進行比較。
  3. 如請求項1至2中任一項之方法,其亦包括: 對於上述一或多個校準樣品中之各校準樣品: 量測上述校準樣品中臨床相關DNA分子之濃度分數;及 量測來自校準樣品之來自上述一或多個組織之開放染色質區域的游離DNA分子之相對豐度。
  4. 如請求項3之方法,其中量測上述臨床相關DNA分子之濃度分數使用組織特異性對偶基因或組織特異性甲基化模式。
  5. 一種尿液樣品之臨床相關DNA分子之方法,上述尿液樣品包括游離的臨床相關DNA分子及其他DNA分子,上述方法包括: 分析來自上述尿液樣品之多個游離DNA分子,其中分析上述多個游離DNA分子包括: 自上述多個游離DNA分子中鑑定游離DNA分子之集合,上述游離DNA分子來自與上述臨床相關DNA分子相關之一或多個組織之開放染色質區域;及 使用來自上述一或多個組織之開放染色質區域的上述游離DNA分子之集合產生富集之樣品,其中上述富集之樣品與上述尿液樣品相比具有更高濃度之臨床相關DNA。
  6. 如請求項5之方法,其亦包括測定上述富集樣品中與上述臨床相關DNA分子相關之性質,其中上述尿液樣品中與上述臨床相關DNA分子相關之性質係(1)上述臨床相關DNA分子之濃度分數或(2)用於獲得尿液樣品之個體之病理等級,上述病理等級與上述臨床相關DNA分子相關。
  7. 如請求項5至6中任一項之方法,其中產生上述富集之樣品亦包括使用來自上述一或多個組織之開放染色質區域且具有小於指定長度臨限值之長度的游離DNA分子之集合。
  8. 如請求項7之方法,其中上述指定長度臨限值為40個鹼基對、50個鹼基對、60個鹼基對、70個鹼基對、80個鹼基對、90個鹼基對、100個鹼基對、110個鹼基對、120個鹼基對、130個鹼基對、140個鹼基對、150個鹼基對或160個鹼基對。
  9. 如請求項5至6中任一項之方法,其中產生上述富集之樣品亦包括使用來自上述一或多個組織之開放染色質區域且具有對應於序列末端特徵之一或多個末端序列的游離DNA分子之集合。
  10. 如請求項5至6中任一項之方法,其中鑑定上述游離DNA分子之集合或產生上述富集之樣品包括: 使上述多個游離DNA分子經受具有來自上述開放染色質區域之序列之探針分子,從而獲得上述游離DNA分子之集合。
  11. 如請求項10之方法,其中產生上述富集之樣品包括: 使用上述一或多種探針分子擴增上述游離DNA分子之集合。
  12. 如請求項10之方法,其中產生上述游離DNA分子之集合包括: 使用上述一或多種探針分子捕捉上述游離DNA分子之集合;及 丟棄上述多個游離DNA分子中之其他游離DNA分子。
  13. 如請求項10之方法,其中一或多種探針分子附著於表面且藉由雜交偵測上述末端序列中之一或多種序列模體之集合。
  14. 一種富集尿液樣品之臨床相關DNA之方法,上述尿液樣品包括游離的上述臨床相關DNA及其他DNA,上述方法包括: 分析來自上述尿液樣品之多個游離DNA分子,其中分析上述多個游離DNA分子包括: 自上述多個游離DNA分子中鑑定具有末端序列的游離DNA分子之集合,上述末端序列在包括C末端核苷酸之一或多種序列模體之集合中;及 使用具有在上述一或多種序列模體之集合中的末端序列之游離DNA分子之集合產生富集之樣品,其中上述富集之樣品與尿液樣品相比具有更高濃度之臨床相關DNA。
  15. 如請求項14之方法,其中產生上述富集之樣品亦包括使用游離DNA分子之集合,上述游離DNA分子位於包括C末端核苷酸之一或多種序列模體之集合內且具有小於指定長度臨限值之長度。
  16. 如請求項15之方法,其中上述指定長度臨限值為40個鹼基對、50個鹼基對、60個鹼基對、70個鹼基對、80個鹼基對、90個鹼基對、100個鹼基對、110個鹼基對、120個鹼基對、130個鹼基對、140個鹼基對、150個鹼基對或160個鹼基對。
  17. 如請求項14至16中任一項之方法,其中鑑定上述游離DNA分子之集合或產生上述富集之樣品包括: 使上述多個游離DNA分子經受一或多種探針分子,上述探針分子偵測上述多個游離DNA分子之末端序列中之一或多種序列模體之集合,從而獲得上述游離DNA分子之集合。
  18. 如請求項17之方法,其亦包括: 將共同序列附著於上述多個游離DNA分子,其中上述一或多種探針分子包括與上述共同序列互補之序列。
  19. 如請求項17之方法,其中產生上述富集之樣品包括: 使用上述一或多種探針分子擴增上述游離DNA分子之集合。
  20. 如請求項17之方法,其中產生上述游離DNA分子之集合包括: 使用上述一或多種探針分子捕捉上述游離DNA分子之集合;及 丟棄上述多個游離DNA分子中之其他游離DNA分子。
  21. 如請求項17之方法,其中一或多種探針分子附著於表面且藉由雜交偵測上述末端序列中之一或多種序列模體之集合。
  22. 如請求項14至21中任一項之方法,其中分析上述多個游離DNA分子包括接收由上述多個游離DNA分子之定序獲得之序列讀段,且其中鑑定上述多個游離DNA分子之集合包括鑑定具有在上述一或多種序列模體之集合中的末端序列之序列讀段。
  23. 如請求項22之方法,其中上述富集之樣品對應於具有在上述一或多種序列模體之集合中的末端序列之序列讀段。
  24. 如請求項1、5或17中任一項之方法,其中上述臨床相關DNA分子為經腎DNA分子。
  25. 如請求項1、5或17中任一項之方法,其中上述臨床相關DNA分子包括胎兒DNA或腫瘤DNA。
  26. 一種使用個體之尿液樣品偵測腎臟異常之方法,上述尿液樣品包括游離DNA分子,上述方法包括: 分析來自上述尿液樣品之多個游離DNA分子,其中分析上述多個游離DNA分子包括: 確定上述多個游離DNA分子之位置;及 基於上述多個游離DNA分子之位置,鑑定來自一或多個組織之開放染色質區域之游離DNA分子之集合; 確定來自上述一或多個組織之開放染色質區域之上述游離DNA分子之集合與上述多個游離DNA分子中之其他游離DNA分子相比之相對豐度; 將上述相對豐度與參考值進行比較;及 基於上述比較確定具有腎臟異常之個體之分類。
  27. 如請求項26之方法,其中上述參考值對應於基於來自一或多個參考樣品之開放染色質區域之游離DNA分子確定的另一相對豐度,其中上述一或多個參考樣品與腎臟異常之已知分類相關。
  28. 如請求項26之方法,其中確定上述分類亦包括將機器學習模型應用於上述相對豐度,以生成指示具有上述腎臟異常之上述個體之分類之輸出,其中使用由具有上述腎臟異常之已知分類之一或多個訓練樣品確定之訓練資料集來訓練上述機器學習模型。
  29. 如請求項26之方法,其中上述游離DNA分子之集合在上述一或多個組織之開放染色質區域周圍之窗口中之一或多個位置處終止。
  30. 如請求項1或26之方法,其中確定上述相對豐度包括: 確定來自上述一或多個組織之開放染色質區域之上述游離DNA分子之集合之第一相對頻率; 確定來自上述一或多個組織之開放染色質區域之參考基因體之參考序列之第二相對頻率;及 基於上述第一相對頻率及上述第二相對頻率確定上述相對豐度。
  31. 如請求項30之方法,其中確定第二相對頻率包括鑑定來自上述一或多個組織之開放染色質區域的參考基因體之單核苷酸變體。
  32. 如請求項30之方法,其中上述相對豐度為上述第一相對頻率及上述第二相對頻率之間的比率。
  33. 如請求項1或26之方法,其中上述相對豐度為終止於上述一或多個組織之開放染色質區域的上述多個游離DNA分子之末端密度。
  34. 如請求項33之方法,其中上述末端密度包括來自上述一或多個組織之開放染色質區域的上述游離DNA分子之集合的第一量除以來自一或多個其他區域的上述多個游離DNA分子之第二量。
  35. 如請求項1或26之方法,其中確定上述多個游離DNA分子之位置包括將上述多個游離DNA分子之序列讀段與參考基因體比對。
  36. 如請求項1、5及26中任一項之方法,其中上述一或多個組織包括心臟、肺、結腸、肝或白細胞中之至少一種。
  37. 如請求項1、5及26中任一項之方法,其中上述游離DNA分子之集合在上述一或多個組織之開放染色質區域周圍的窗口中之一或多個位置處終止。
  38. 如請求項1、5及26中任一項之方法,其中上述開放染色質區域包括Dnase1超敏位點。
  39. 如請求項1至38中任一項之方法,其中上述游離DNA分子之集合包括至少5,000個游離DNA分子。
  40. 一種使用個體之尿液樣品偵測腎臟異常之方法,上述尿液樣品包括游離DNA分子,上述方法包括: 分析來自上述尿液樣品之多個游離DNA分子,其中分析上述多個游離DNA分子包括確定上述多個游離DNA分子之長度; 使用上述多個游離DNA分子之長度確定統計值; 將上述統計值與參考值進行比較;及 基於上述比較確定具有腎臟異常之個體之分類。
  41. 如請求項40之方法,其中確定上述統計值包括: 自上述多個游離DNA分子中鑑定長度在長度範圍內之游離DNA分子之集合;及 進一步基於上述游離DNA分子之集合的量來確定上述統計值。
  42. 如請求項41之方法,其中上述統計值為上述游離DNA分子之集合相對於來自上述尿液樣品之上述多個游離DNA分子之比例。
  43. 如請求項41或42之方法,其中上述長度範圍具有選自至少80個鹼基、至少90個鹼基、至少100個鹼基、至少110個鹼基或至少120個鹼基中之上限。
  44. 如請求項40至43中任一項之方法,其中使用具有腎臟異常之已知分類之一或多個參考樣品來確定上述參考值。
  45. 如請求項40至44中任一項之方法,其中確定上述多個游離DNA分子之長度包括使用凝膠電泳、過濾、大小選擇沉澱或雜交。
  46. 如請求項40至45中任一項之方法,其中確定上述多個游離DNA分子之長度包括: 接收對由來自尿液樣品之上述多個游離DNA分子之定序獲得之序列讀段;及 對於各序列讀段,對上述序列讀段之核苷酸之數目進行計數。
  47. 如請求項46之方法,其中對上述多個游離DNA分子之定序包括對上述多個游離DNA分子進行大規模平行定序、單分子即時定序或奈米孔定序。
  48. 如請求項26至47中任一項之方法,其中上述腎臟異常為先兆子癇或蛋白尿。
  49. 如請求項26至47中任一項之方法,其中對具有腎臟異常之個體之分類包括增加的與腎臟之腎小球基底膜相關之滲透性水平。
  50. 如請求項1至49中任一項之方法,其中在自上述尿液樣品獲得上述多個游離DNA分子之前,使用DNA穩定劑處理上述尿液樣品。
  51. 如請求項1至50中任一項之方法,其中分析上述多個游離DNA分子包括接收由對上述多個游離DNA分子之定序獲得之序列讀段。
  52. 一種使用個體之尿液樣品偵測腎臟異常之方法,上述尿液樣品包括游離DNA分子,上述方法包括: 測定上述尿液樣品中之游離DNA分子之第一量; 使用上述尿液樣品之上述第一量及體積確定初始濃度; 使用上述尿液樣品中之特定化合物之第二量來確定校正濃度; 將校正後之濃度與參考值進行比較;及 基於上述比較確定具有腎臟異常之個體之分類。
  53. 如請求項52之方法,其中確定上述第一量包括使用螢光計、分光光度計或PCR進行量測。
  54. 如請求項52之方法,其中上述初始濃度為尿液樣品中大於長度臨限值之游離DNA分子之比例。
  55. 如請求項54之方法,其中長度臨限值為40-200bp。
  56. 如請求項52之方法,其中上述特定化合物為肌酸酐。
  57. 如請求項52之方法,其中腎臟異常為先兆子癇或蛋白尿。
  58. 一種測定個體生物樣品中核酸酶活性水平之方法,上述方法包括: 儲存參考F譜之集合,其中上述集合之各參考F譜: 對於核苷酸集合中之各核苷酸,鑑定以上述核苷酸終止之游離DNA分子之比例;及 與片段化因子之類型相關聯; 分析上述生物樣品中之多個游離DNA分子,以得到序列讀段,上述序列讀段包括與上述多個游離DNA分子末端對應之末端序列; 藉由基於上述末端序列確定以上述核苷酸之集合之各核苷酸終止的上述多個游離DNA分子之比例來確定樣品末端模體譜; 確定其比例聚集提供上述樣品末端模體譜之參考F譜之集合的比例貢獻,其中上述比例貢獻總和為一;及 基於與參考F譜之集合的參考F譜相關之比例貢獻來確定特定類型核酸酶之核酸酶活性之分類。
  59. 如請求項58之方法,其中確定核酸酶活性之分類包括: 確定與特定類型之核酸酶相關的降低之核酸酶活性水平。
  60. 如請求項59之方法,其中確定上述降低之核酸酶活性水平包括: 將與上述參考F譜之集中之一者相關之比例貢獻與臨限值進行比較;及 基於上述比較確定降低之核酸酶活性水平。
  61. 如請求項60之方法,其中使用一或多種具有核酸酶活性的已知分類之參考樣品確定上述臨限值。
  62. 如請求項58至61中任一項之方法,其亦包括基於上述特定類型之核酸酶的核酸酶活性之分類來確定上述個體之遺傳病症之分類。
  63. 如請求項58至62中任一項之方法,其中上述特定類型之核酸酶包括 DNASE1DNASE1L3DFFBTREX1(三引子修復外切核酸酶1)、 AEN(細胞凋亡增強核酸酶)、 EXO1(外切核酸酶1)、 DNASE2(脫氧核糖核酸酶2)、 ENDOG(內切核酸酶G)、 APEX1(無嘌呤/無嘧啶內切脫氧核糖核酸酶1)、 FEN1(皮瓣結構特異性內切核酸酶1)、 DNASE1L1(脫氧核糖核酸酶1樣1)、 DNASE1L2(脫氧核糖核酸酶1樣2)、或EXOG(外切/內切核酸酶G)中之一種。
  64. 一種估計個體之生物樣品中臨床相關DNA分子之濃度分數之方法,上述生物樣品包括上述游離的臨床相關DNA分子及其他DNA分子,上述方法包括: 儲存參考F譜之集合,其中上述集合之各參考F譜: 對於核苷酸集合中之各核苷酸,鑑定以上述核苷酸終止之游離DNA分子之比例;及 與片段化因子之類型相關聯; 分析上述生物樣品中之多個游離DNA分子,以得到序列讀段,上述序列讀段包括與上述多個游離DNA分子末端對應之末端序列; 藉由基於上述末端序列確定以上述核苷酸之集合之各核苷酸終止之上述多個游離DNA分子之比例來確定樣品末端模體譜; 確定其比例聚集提供上述樣品末端模體譜之參考F譜之集合的比例貢獻,其中上述參考F譜之集合包括具有第一比例貢獻之第一參考F譜,且其中上述比例貢獻總和為一;及 藉由將上述第一比例貢獻與自一或多個校準樣品確定之一或多個校準值進行比較來估計生物樣品中上述臨床相關DNA分子之濃度分數,上述一或多個校準樣品之臨床相關DNA分子之濃度分數係已知的。
  65. 如請求項64之方法,其中上述臨床相關DNA分子包括胎兒DNA或腫瘤DNA。
  66. 如請求項64或70之方法,其中將上述第一比例貢獻與上述一或多個校準值比較包括將上述第一比例貢獻與包含上述一或多個校準值之校準曲線進行比較。
  67. 如請求項64至66中任一項之方法,其亦包括: 對於上述一或多個校準樣品之各校準樣品: 量測上述校準樣品中臨床相關DNA分子之濃度分數;及 量測為上述校準樣品確定之第一參考末端模體譜之比例貢獻,從而確定一或多個校準值。
  68. 如請求項67之方法,其中量測臨床相關DNA分子之濃度分數使用組織特異性對偶基因或組織特異性甲基化模式。
  69. 如請求項64至77中任一項之方法,其中估計上述生物樣品中上述臨床相關DNA分子之濃度分數包括將一或多個額外的比例貢獻與自上述一或多個校準樣品確定之一或多個額外的校準值進行比較,上述一或多個校準樣品之上述臨床相關DNA分子之濃度分數係已知的。
  70. 分析來自懷有胎兒之女性個體之生物樣品之方法,上述生物樣品包括來自上述女性個體及上述胎兒之游離DNA分子,上述方法包括: 儲存參考F譜之集合,其中上述集合之各參考F譜: 對於核苷酸之集合中之各核苷酸,鑑定以上述核苷酸終止之游離DNA分子之比例;及 與片段化因子之類型相關聯; 分析上述生物樣品中之多個游離DNA分子,以得到序列讀段,其中上述序列讀段包括與上述多個游離DNA分子末端對應之末端序列; 藉由基於上述末端序列確定以上述核苷酸之集合之各核苷酸終止的上述多個游離DNA分子之比例來確定樣品末端模體譜; 確定其比例聚集提供上述樣品末端模體譜之參考F譜之集合的比例貢獻,其中上述參考F譜之集合包括具有第一比例貢獻之第一參考F譜,且其中上述比例貢獻總和為一;及 藉由將上述第一比例貢獻與自具有已知孕齡之一或多個校準樣品確定之一或多個校準值進行比較來估計胎兒之孕齡。
  71. 如請求項70之方法,其中將上述第一比例貢獻與上述一或多個校準值比較包括將上述第一比例貢獻與包括上述一或多個校準值之校準曲線進行比較。
  72. 如請求項70或71之方法,其亦包括: 對於上述一或多個校準樣品之各校準樣品: 估計上述校準樣品中之孕齡;及 量測為上述校準樣品確定之校準末端模體譜之比例貢獻。
  73. 如請求項70至72中任一項之方法,其亦包括: 鑑定上述多個游離DNA分子來源於胎兒。
  74. 如請求項73之方法,其中用胎兒特異性對偶基因或胎兒特異性表觀遺傳標誌物鑑定上述多個游離DNA分子來源於胎兒。
  75. 如請求項70至74中任一項之方法,其中估計上述孕齡包括將一或多個額外的比例貢獻與根據上述一或多個校準樣品確定之一或多個額外的校準值進行比較,上述一或多個校準樣品之孕齡係已知的。
  76. 如請求項64及70中任一項之方法,其中上述第一參考F-譜對應於特定類型之核酸酶。
  77. 如請求項76之方法,其中上述特定類型之核酸酶為 DNASE1L3
  78. 一種對個體之生物樣品中之病理等級進行分類之方法,上述生物樣品包括游離DNA,上述方法包括: 儲存參考F譜之集合,其中上述集合之各參考F譜: 對於核苷酸之集合中之各核苷酸,鑑定以上述核苷酸終止之游離DNA分子之比例;及 與片段化因子之類型相關聯; 分析上述生物樣品中之多個游離DNA分子,以得到序列讀段,其中上述序列讀段包括與上述多個游離DNA分子末端對應之末端序列; 藉由基於上述末端序列確定以上述核苷酸之集合之各核苷酸終止的上述多個游離DNA分子之比例來確定樣品末端模體譜; 確定其比例聚集提供上述樣品末端模體譜之參考F譜之集合的比例貢獻,其中上述比例貢獻總和為一;及 基於對上述比例貢獻中之至少一個超過預定臨限值的確定來確定上述個體之病理等級之分類。
  79. 如請求項78之方法,其中上述預定臨限值係使用具有上述病理等級的已知分類之一或多個參考樣品來確定的。
  80. 如請求項78或79之方法,其中上述病理為癌症或免疫病症。
  81. 如請求項80之方法,其中上述癌症為肝細胞癌、肺癌、乳癌、胃癌、多形性成膠質細胞瘤、胰臟癌、結腸直腸癌、鼻咽癌及頭頸鱗狀細胞癌。
  82. 如請求項80之方法,其中上述分類係由包括多個癌症階段之多個癌症等級確定的。
  83. 如請求項58至82中任一項之方法,其中上述生物樣品為血漿或尿液樣品。
  84. 如請求項58至82中任一項之方法,其中上述參考F譜之集合之各參考F譜指定了以K-mer末端模體之集合的各K-mer末端模體終止之游離DNA分子之比例,其中K為兩個或更多個。
  85. 如請求項58至83中任一項之方法,其中上述參考F譜之集合係使用自一或多個參考樣品獲得之游離DNA分子確定的。
  86. 如請求項58至85中任一項之方法,其中分析來自上述生物樣品之上述多個游離DNA分子包括: 接收由對來自上述生物樣品之多個游離DNA分子之定序獲得之序列讀段。
  87. 如請求項86之方法,其中對上述多個游離DNA分子之定序包括對上述多個游離DNA分子進行大規模平行定序、單分子即時定序或奈米孔定序。
  88. 如請求項58至87中任一項之方法,其中確定上述參考F譜之集合之上述比例貢獻包括: 對個體之樣品末端模體譜應用去卷積以確定參考F譜之集合之比例貢獻。
  89. 如請求項88之方法,其中,應用上述去卷積包括: 對於尺寸為 W× F之資料矩陣 M,其中:(i) M表示跨越樣品末端模體譜之末端模體之末端頻率,其中基於樣品末端模體譜之多個游離DNA分子之比例來確定資料矩陣 M之末端頻率;(ii) F表示自鼠類樣品獲得之參考F譜之集合的末端頻率,其中基於參考F譜之集合的游離DNA分子之比例確定 F末端頻率;以及(iii) W表示與參考F-譜之集合中之各者的比例貢獻相對應之相對權重: 藉由自資料矩陣M及參考F譜之集合中求出 W個相對權重來確定參考F譜之集合之比例貢獻。
  90. 如請求項58至89中任一項之方法,其中分析上述多個游離DNA分子包括接收由對上述多個游離DNA分子之定序獲得之序列讀段。
  91. 如請求項1至90中任一項之方法,其中上述多個游離DNA分子包括至少5,000個游離DNA分子。
  92. 一種電腦產品,其包括儲存多個指令之非暫時性電腦可讀媒體,上述指令在被執行時使電腦系統執行如前述請求項中任一項之方法。
  93. 一種系統,其包括: 如請求項92之電腦產品;及 一或多個處理器,其用於執行儲存在電腦可讀媒體上之指令。
  94. 一種系統,其包括用於執行上述方法中之任一者之裝置。
  95. 一種系統,其包括經配置以執行上述方法中之任一者之一或多個處理器。
TW112146411A 2022-11-29 2023-11-29 尿液及血漿中之片段組學 TW202430650A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US202263428694P 2022-11-29 2022-11-29
US63/428,694 2022-11-29

Publications (1)

Publication Number Publication Date
TW202430650A true TW202430650A (zh) 2024-08-01

Family

ID=91280295

Family Applications (1)

Application Number Title Priority Date Filing Date
TW112146411A TW202430650A (zh) 2022-11-29 2023-11-29 尿液及血漿中之片段組學

Country Status (9)

Country Link
US (1) US20240182982A1 (zh)
EP (1) EP4627119A1 (zh)
JP (1) JP2025539874A (zh)
KR (1) KR20250114032A (zh)
CN (1) CN120187867A (zh)
AU (1) AU2023404605A1 (zh)
IL (1) IL320123A (zh)
TW (1) TW202430650A (zh)
WO (1) WO2024114678A1 (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
HUE057821T2 (hu) * 2015-07-23 2022-06-28 Univ Hong Kong Chinese Sejtmentes DNS fragmentációs mintázatának elemzése
IL315032A (en) * 2016-11-30 2024-10-01 Univ Hong Kong Chinese Analysis of cell-free dna in urine and other samples
CN112292458A (zh) * 2018-05-03 2021-01-29 香港中文大学 测量无细胞混合物特性的尺寸标记的优选末端和识别方向的分析
WO2022214051A1 (en) * 2021-04-08 2022-10-13 The Chinese University Of Hong Kong Cell-free dna methylation and nuclease-mediated fragmentation

Also Published As

Publication number Publication date
EP4627119A1 (en) 2025-10-08
CN120187867A (zh) 2025-06-20
US20240182982A1 (en) 2024-06-06
KR20250114032A (ko) 2025-07-28
IL320123A (en) 2025-06-01
AU2023404605A1 (en) 2025-04-24
JP2025539874A (ja) 2025-12-09
WO2024114678A1 (en) 2024-06-06

Similar Documents

Publication Publication Date Title
Rodin et al. The landscape of somatic mutation in cerebral cortex of autistic and neurotypical individuals revealed by ultra-deep whole-genome sequencing
CN112888459B (zh) 卷积神经网络系统及数据分类方法
CN113366122B (zh) 游离dna末端特征
US20220010353A1 (en) Nuclease-associated end signature analysis for cell-free nucleic acids
US20210238668A1 (en) Biterminal dna fragment types in cell-free samples and uses thereof
EP3973080A1 (en) Systems and methods for determining whether a subject has a cancer condition using transfer learning
CN115298324A (zh) 游离dna断裂和核酸酶
TW202424208A (zh) 無細胞dna的表觀遺傳學分析
WO2024114678A1 (en) Fragmentomics in urine and plasma
JP2025529015A (ja) がん分類のためのフィーチャとしてのメチル化に基づく年齢予測
CA3270171A1 (en) Fragmentomics in urine and plasma
US20250171858A1 (en) Enrichment of clinically-relevant nucleic acids
WO2025232810A1 (en) Fragmentation patterns for aging
US20250101528A1 (en) Uses of cell-free dna fragmentation patterns associated with epigenetic modifications
TW202540440A (zh) 對臨床相關核酸的富集
WO2024254482A2 (en) Cell-free dna biomarker for diagnosis and prognosis of diseases with degenerative processes
HK40080623A (zh) 无细胞样品中的双末端dna片段类型及其用途
CN119855921A (zh) 对与细胞外囊泡相关联的核酸的分析
HK40087494A (zh) 使用自动编码器确定癌症状态的系统和方法