RU2811503C2 - Methods of detecting and monitoring cancer by personalized detection of circulating tumor dna - Google Patents
Methods of detecting and monitoring cancer by personalized detection of circulating tumor dna Download PDFInfo
- Publication number
- RU2811503C2 RU2811503C2 RU2020128083A RU2020128083A RU2811503C2 RU 2811503 C2 RU2811503 C2 RU 2811503C2 RU 2020128083 A RU2020128083 A RU 2020128083A RU 2020128083 A RU2020128083 A RU 2020128083A RU 2811503 C2 RU2811503 C2 RU 2811503C2
- Authority
- RU
- Russia
- Prior art keywords
- single nucleotide
- cancer
- patient
- sample
- loci
- Prior art date
Links
Abstract
Description
ПЕРЕКРЕСТНАЯ ССЫЛКА НА РОДСТВЕННЫЕ ЗАЯВКИCROSS REFERENCE TO RELATED APPLICATIONS
[1] Данная заявка испрашивает приоритет на основании предварительной заявки на патент США № 62/657727, поданной 14 апреля 2018 года; предварительной заявки на патент США № 62/669330, поданной 9 мая 2018 года; предварительной заявки на патент США № 62/693843, поданной 3 июля 2018 года; предварительной заявки на патент США № 62/715143, поданной 6 августа 2018 года; предварительной заявки на патент США № 62/746210, поданной 16 октября 2018 года; предварительной заявки на патент США № 62/777973, поданной 11 декабря 2018 года; предварительной заявки на патент США № 62/804566, поданной 12 февраля 2019 года. Каждая из указанных выше заявок полностью включена в настоящее описание посредством ссылки.[1] This application claims priority to U.S. Provisional Patent Application No. 62/657,727, filed April 14, 2018; US Provisional Patent Application No. 62/669330, filed May 9, 2018; US Provisional Patent Application No. 62/693843, filed July 3, 2018; US Provisional Patent Application No. 62/715143, filed August 6, 2018; US Provisional Patent Application No. 62/746210, filed October 16, 2018; US Provisional Patent Application No. 62/777973, filed December 11, 2018; US Provisional Patent Application No. 62/804566, filed February 12, 2019. Each of the above applications is incorporated herein by reference in its entirety.
УРОВЕНЬ ТЕХНИКИBACKGROUND OF THE ART
[2] Выявление раннего рецидива или метастазирования рака традиционно основывалось на визуализации и биопсии ткани. Биопсия опухолевой ткани является инвазивной процедурой и несет в себе риск потенциальной вероятности возникновения метастазов или хирургических осложнений, в то время как обнаружение на основе визуализации недостаточно чувствительно для выявления рецидива или метастазирования на ранней стадии. Для выявления рецидива или метастазирования необходимы более эффективные и менее инвазивные способы выявления раков.[2] Detection of early cancer recurrence or metastasis has traditionally relied on imaging and tissue biopsy. Tumor tissue biopsy is an invasive procedure and carries the risk of potential metastasis or surgical complications, while imaging-based detection is not sensitive enough to detect recurrence or metastasis at an early stage. More effective and less invasive ways to detect cancers are needed to detect recurrence or metastasis.
КРАТКОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯBRIEF DESCRIPTION OF THE INVENTION
[3] Один из аспектов изобретения, представленного в настоящем документе, относится к способу мониторинга и обнаружения раннего рецидива или метастазирования рака (например, рака молочной железы, рака мочевого пузыря или колоректального рака), включающего получение набора ампликонов путем выполнения реакции мультиплексной амплификации нуклеиновых кислот, выделенных из образца крови или мочи или их фракции от пациента, получавшего лечение от рака (например, рака молочной железы, рака мочевого пузыря или колоректального рака), где каждый ампликон из набора ампликонов охватывает по меньшей мере один локус однонуклеотидного варианта из набора локусов однонуклеотидных вариантов, специфичных для пациента, ассоциированных с раком (например, раком молочной железы, раком мочевого пузыря или колоректальным раком); и определение последовательности по меньшей мере сегмента каждого ампликона из набора ампликонов, который содержит специфичный для пациента локус однонуклеотидного варианта, где обнаружение одного или более (или двух или более, или трех или более, или четырех или более, или пяти или более, или шести или более, или семи или более, или восьми или более, или девяти или более, или десяти или более) специфичных для пациента однононуклеотидных вариантов указывает на ранний рецидив или метастазирование рака (например, рака молочной железы, рака мочевого пузыря или колоректального рака).[3] One aspect of the invention presented herein relates to a method for monitoring and detecting early recurrence or metastasis of cancer (for example, breast cancer, bladder cancer or colorectal cancer), comprising obtaining a set of amplicons by performing a multiplex nucleic acid amplification reaction isolated from a sample of blood or urine, or a fraction thereof, from a patient being treated for cancer (e.g., breast cancer, bladder cancer, or colorectal cancer), wherein each amplicon of the set of amplicons spans at least one single nucleotide variant locus of the set of single nucleotide loci patient-specific variants associated with cancer (eg, breast cancer, bladder cancer or colorectal cancer); and determining the sequence of at least a segment of each amplicon from the set of amplicons that contains the patient-specific single nucleotide variant locus, wherein the detection of one or more (or two or more, or three or more, or four or more, or five or more, or six or more, or seven or more, or eight or more, or nine or more, or ten or more) patient-specific single nucleotide variants indicate early recurrence or metastasis of cancer (eg, breast cancer, bladder cancer, or colorectal cancer).
[4] В дополнение к раку молочной железы, раку мочевого пузыря и колоректальному раку, способы, представленные в данном документе, также можно использовать для мониторинга и выявления раннего рецидива или метастазирования других типов рака, таких как: острый лимфобластный лейкоз; острый миелоидный лейкоз; адренокортикальная карцинома; рак, связанный со СПИДом; лимфома, связанная со СПИДом; анальный рак; рак аппендикса; астроцитомы; атипичная тератоидная/рабдоидная опухоль; базально-клеточная карцинома; глиома ствола головного мозга; опухоль головного мозга (в том числе глиома ствола головного мозга, атипичная тератоидная/рабдоидная опухоль центральной нервной системы, эмбриональные опухоли центральной нервной системы, астроцитомы, краниофарингиома, эпендимобластома, эпендимома, медуллобластома, медуллоэпителиома, пинеальные паренхиматозные опухоли промежуточной дифференцировки, супратенториальные недифференцированные нейроэктодермальные опухоли и пинеобластома); бронхиальные опухоли; лимфома Беркита; рак неизвестной первичной локализации; карциноидная опухоль; карцинома неизвестной первичной локализации; атипичная тератоидная/рабдоидная опухоль центральной нервной системы; эбриональные опухоли центральной нервной системы; рак шейки матки; раковые заболевания у детей; хордома; хронический лимфолейкоз; хронический миелогенный лейкоз; хронические миелопролиферативные расстройства; рак толстой кишки; краниофарингиома; кожная Т-клеточная лимфома; опухоли островковых клеток эндокринной системы поджелудочной железы; рак эндометрия; эпендимобластома; эпендимома; рак пищевода; эстезионейробластома; саркома Юинга; экстракраниальная герминогенная опухоль; внегонадная герминогенная опухоль; рак внепеченочного желчного протока; рак желчного пузыря; рак желудочно-кишечного тракта (желудка); желудочно-кишечные карциноидные опухоли; желудочно-кишечные стромально-клеточные опухоли; желудочно-кишечные стромальные опухоли (GIST); гестационная трофобластическая опухоль; глиома; волосатоклеточный лейкоз; рак головы и шеи; рак сердца; лимфома Ходжкина; гипофарингеальный рак; внутриглазная меланома; опухоли островковых клеток; саркома Капоши; рак почки; гистиоцитоз клеток Лангерганса; рак гортани; рак губы; рак печени; злокачественная фиброзная гистиоцитома, рак кости; медуллобластома; медуллоэпителиома; меланома; карцинома клеток Меркеля; рак кожи из клеток Меркеля; мезотелиома; метастатический плоскоклеточный рак шеи с первичным раком неизвестного происхождения; рак ротовой полости; синдромы множественной эндокринной неоплазии; множественная миелома; множественная миелома/новообразование плазмоцитов; грибовидный микоз; миелодиспластические синдромы; миелопролиферативные новообразования; рак полости носа; рак носоглотки; нейробластома; неходжкинская лимфома; немеланомный рак кожи; немелкоклеточный рак легких; рак ротовой полости; рак полости рта; рак ротоглотки; остеосаркома; другие опухоли головного и спинного мозга; рак яичников; эпителиальный рак яичников; герминоклеточная опухоль яичников; пограничная опухоль яичников; рак поджелудочной железы; папилломатоз; рак околоносовых пазух; рак паращитовидной железы; рак таза; рак полового члена; рак глотки; пинеальные паренхиматозные опухоли промежуточной дифференцировки; пинеобластома; опухоль гипофиза; новообразование плазматических клеток/множественная миелома; плевропульмональная бластома; первичная лимфома центральной нервной системы (ЦНС); первичный гепатоцеллюлярный рак печени; рак простаты; рак прямой кишки; рак почки; почечно-клеточный (почечный) рак; почечно-клеточный рак; рак респираторного тракта; ретинобластома; рабдомиосаркома; рак слюнных желез; синдром Сезари; мелкоклеточный рак легких; рак тонкой кишки; саркома мягких тканей; плоскоклеточная карцинома; плоскоклеточный рак шеи; желудочно-кишечный рак (рак желудка); супратенториальные недифференцированные нейроэктодермальные опухоли; Т-клеточная лимфома; рак яичек; рак горла; карцинома тимуса; тимома; рак щитовидной железы; переходно-клеточный рак; переходно-клеточный рак почечной лоханки и мочеточника; трофобластическая опухоль; рак мочеточника; рак уретры; рак матки; саркома матки; рак влагалища; рак вульвы; макроглобулинемия Вальденстрема; или опухоль Вильма.[4] In addition to breast cancer, bladder cancer and colorectal cancer, the methods presented herein can also be used to monitor and detect early relapse or metastasis of other types of cancer, such as: acute lymphoblastic leukemia; acute myeloid leukemia; adrenocortical carcinoma; AIDS-related cancer; AIDS-related lymphoma; anal cancer; appendix cancer; astrocytomas; atypical teratoid/rhabdoid tumor; basal cell carcinoma; brainstem glioma; brain tumor (including brainstem glioma, atypical teratoid/rhabdoid tumor of the central nervous system, embryonal tumors of the central nervous system, astrocytomas, craniopharyngioma, ependymoblastoma, ependymoma, medulloblastoma, medulloepithelioma, pineal parenchymal tumors of intermediate differentiation, supratentorial undifferentiated neuroectodermal tumors and pineoblastoma); bronchial tumors; Burkitt's lymphoma; cancer of unknown primary location; carcinoid tumor; carcinoma of unknown primary location; atypical teratoid/rhabdoid tumor of the central nervous system; fetal tumors of the central nervous system; cervical cancer; cancer in children; chordoma; chronic lymphocytic leukemia; chronic myelogenous leukemia; chronic myeloproliferative disorders; colon cancer; craniopharyngioma; cutaneous T-cell lymphoma; tumors of islet cells of the endocrine system of the pancreas; endometrial cancer; ependymoblastoma; ependymoma; esophageal carcinoma; esthesioneuroblastoma; Ewing's sarcoma; extracranial germ cell tumor; extragonadal germ cell tumor; extrahepatic bile duct cancer; gallbladder cancer; gastrointestinal (stomach) cancer; gastrointestinal carcinoid tumors; gastrointestinal stromal cell tumors; gastrointestinal stromal tumors (GIST); gestational trophoblastic tumor; glioma; hairy cell leukemia; head and neck cancer; heart cancer; Hodgkin's lymphoma; hypopharyngeal cancer; intraocular melanoma; islet cell tumors; Kaposi's sarcoma; kidney cancer; Langerhans cell histiocytosis; laryngeal cancer; lip cancer; liver cancer; malignant fibrous histiocytoma, bone cancer; medulloblastoma; medulloepithelioma; melanoma; Merkel cell carcinoma; Merkel cell skin cancer; mesothelioma; metastatic squamous cell carcinoma of the neck with a primary cancer of unknown origin; oral cancer; multiple endocrine neoplasia syndromes; multiple myeloma; multiple myeloma/plasmocyte neoplasm; mycosis fungoides; myelodysplastic syndromes; myeloproliferative neoplasms; nasal cavity cancer; nasopharyngeal cancer; neuroblastoma; non-Hodgkin's lymphoma; non-melanoma skin cancer; non-small cell lung cancer; oral cancer; oral cancer; oropharyngeal cancer; osteosarcoma; other tumors of the brain and spinal cord; ovarian cancer; epithelial ovarian cancer; germ cell tumor of the ovaries; borderline ovarian tumor; pancreas cancer; papillomatosis; sinus cancer; parathyroid cancer; pelvic cancer; penile cancer; pharynx cancer; pineal parenchymal tumors of intermediate differentiation; pineoblastoma; pituitary tumor; plasma cell neoplasm/multiple myeloma; pleuropulmonary blastoma; primary lymphoma of the central nervous system (CNS); primary hepatocellular liver cancer; prostate cancer; rectal cancer; kidney cancer; renal cell (kidney) cancer; renal cell carcinoma; respiratory tract cancer; retinoblastoma; rhabdomyosarcoma; salivary gland cancer; Sézary syndrome; small cell lung cancer; small bowel cancer; soft tissue sarcoma; squamous cell carcinoma; squamous cell carcinoma of the neck; gastrointestinal cancer (stomach cancer); supratentorial undifferentiated neuroectodermal tumors; T-cell lymphoma; testicular cancer; throat cancer; thymus carcinoma; thymoma; thyroid cancer; transitional cell carcinoma; transitional cell carcinoma of the renal pelvis and ureter; trophoblastic tumor; ureteral cancer; urethral cancer; uterine cancer; uterine sarcoma; vaginal cancer; vulvar cancer; Waldenström's macroglobulinemia; or Wilma's tumor.
[5] В некоторых вариантах воплощения нуклеиновые кислоты выделяют из опухоли пациента, и соматические мутации в опухоли идентифицируют для набора специфичных для пациента локусов однонуклеотидных вариантов перед определением последовательности по меньшей мере сегмента каждого ампликона набора ампликонов для образца крови или мочи, или их фракции, и где имеются однонуклеотидные варианты.[5] In some embodiments, nucleic acids are isolated from a patient's tumor, and somatic mutations in the tumor are identified for a set of patient-specific single nucleotide variant loci before sequencing at least a segment of each amplicon of a set of amplicons for a blood or urine sample, or a fraction thereof, is determined, and where there are single nucleotide variants.
[6] В некоторых вариантах воплощения способ включает сбор и секвенирование образцов крови или мочи у пациента в динамике.[6] In some embodiments, the method includes collecting and sequencing blood or urine samples from a patient over time.
[7] В некоторых вариантах воплощения обнаруживают по меньшей мере 2 или по меньшей мере 5 ОНВ, и наличие по меньшей мере 2 или по меньшей мере 5 ОНВ свидетельствует о раннем рецидиве или метастазировании рака молочной железы, рака мочевого пузыря или колоректального рака.[7] In some embodiments, at least 2 or at least 5 NNVs are detected, and the presence of at least 2 or at least 5 NNVs is indicative of early recurrence or metastasis of breast cancer, bladder cancer, or colorectal cancer.
[8] В некоторых вариантах воплощения рак молочной железы, рак мочевого пузыря или колоректальный рак представляет собой рак молочной железы, рак мочевого пузыря или колоректальный рак стадии 1 или стадии 2. В некоторых вариантах воплощения рак молочной железы, рак мочевого пузыря или колоректальный рак представляет собой рак молочной железы, рак мочевого пузыря или колоректальный рак стадии 3 или стадии 4.[8] In some embodiments, the breast cancer, bladder cancer, or colorectal cancer is stage 1 or stage 2 breast cancer, bladder cancer, or colorectal cancer. In some embodiments, the breast cancer, bladder cancer, or colorectal cancer is is stage 3 or stage 4 breast cancer, bladder cancer, or colorectal cancer.
[9] В некоторых вариантах воплощения индивидуум подвергался хирургическому лечению перед выделением образца крови или мочи.[9] In some embodiments, the subject has undergone surgical treatment before issuing a blood or urine sample.
[10] В некоторых вариантах воплощения индивидуум подвергался лечению химиотерапией перед выделением образца крови или мочи.[10] In some embodiments, the individual was treated with chemotherapy before issuing a blood or urine sample.
[11] В некоторых вариантах воплощения индивидуум подвергался лечению адъювантной или неоадъювантной терапией перед выделением образца крови или мочи.[11] In some embodiments, the individual has been treated with adjuvant or neoadjuvant therapy before obtaining a blood or urine sample.
[12] В некоторых вариантах воплощения индивидуум подвергался лечению лучевой терапией перед выделением образца крови или мочи.[12] In some embodiments, the individual was treated with radiation therapy before issuing a blood or urine sample.
[13] В некоторых вариантах воплощения способ дополнительно включает введение соединения индивидууму, где, как известно, это соединение особенно эффективно при лечении рака молочной железы, рака мочевого пузыря или колоректального рака, имеющего один или более из определенных однонуклеотидных вариантов.[13] In some embodiments, the method further comprises administering a compound to an individual where the compound is known to be particularly effective in treating breast cancer, bladder cancer, or colorectal cancer having one or more of certain single nucleotide variants.
[14] В некоторых вариантах воплощения способ дополнительно включает определение частоты вариантного аллеля для каждого из однонуклеотидных вариантов на основе определения последовательности.[14] In some embodiments, the method further includes determining the variant allele frequency for each of the single nucleotide variants based on the sequence determination.
[15] В некоторых вариантах воплощения план лечения рака молочной железы, рака мочевого пузыря или колоректального рака определяют на основании определений частоты вариантного аллеля.[15] In some embodiments, the treatment plan for breast cancer, bladder cancer, or colorectal cancer is determined based on variant allele frequency determinations.
[16] В некоторых вариантах воплощения способ дополнительно включает введение соединения индивидууму, где, как известно, это соединение особенно эффективно для лечения рака молочной железы, рака мочевого пузыря или колоректального рака, имеющего один из однонуклеотидных вариантов с переменной частотой аллеля, большей чем по меньшей мере половина других определенных однонуклеотидных вариантов.[16] In some embodiments, the method further comprises administering a compound to an individual where the compound is known to be particularly effective for treating breast cancer, bladder cancer, or colorectal cancer having one of the variable allele frequency single nucleotide variants of greater than at least at least half of the other single nucleotide variants identified.
[17] В некоторых вариантах воплощения последовательность определяют с помощью высокопроизводительного секвенирования ДНК множества локусов однонуклеотидной вариации.[17] In some embodiments, the sequence is determined using high-throughput DNA sequencing of multiple single nucleotide variation loci.
[18] В некоторых вариантах воплощения способ дополнительно включает обнаружение клонального однонуклеотидного варианта при раке молочной железы, раке мочевого пузыря или колоректальном раке путем определения частоты вариантного аллеля для каждого из локусов ОНВ на основе последовательности множества копий серии ампликонов, где большая относительная частота аллелей по сравнению с другими однонуклеотидными вариантами множества локусов однонуклеотидных вариантов указывает на клональный однонуклеотидный вариант при раке молочной железы, раке мочевого пузыря или колоректальном раке.[18] In some embodiments, the method further includes detecting a clonal single nucleotide variant in breast cancer, bladder cancer, or colorectal cancer by determining the frequency of the variant allele for each of the SNV loci based on the multiple copy sequence of the amplicon series, where the greater relative frequency of the alleles compared to with other single nucleotide variants at multiple single nucleotide variant loci indicates a clonal single nucleotide variant in breast cancer, bladder cancer or colorectal cancer.
[19] В некоторых вариантах воплощения способ дополнительно включает введение индивидууму соединения, которое нацелено на один или более клональных однонуклеотидных вариантов, но не на другие однонуклеотидные варианты.[19] In some embodiments, the method further includes administering to the individual a compound that targets one or more clonal single nucleotide variants, but not other single nucleotide variants.
[20] В некоторых вариантах воплощения частота вариантного аллеля более 1,0% указывает на клональный однонуклеотидный вариант.[20] In some embodiments, a variant allele frequency greater than 1.0% is indicative of a clonal single nucleotide variant.
[21] В некоторых вариантах воплощения способ дополнительно включает формирование реакционной смеси для амплификации путем объединения полимеразы, нуклеотидтрифосфатов, фрагментов нуклеиновых кислот из библиотеки нуклеиновых кислот, полученных из образца, и набора праймеров, каждый из которых связывается в пределах 150 пар оснований локусов однонуклеотидного варианта, или набора пар праймеров, каждый из которых охватывает область из 160 пар оснований или менее, содержащую локусы однонуклеотидного варианта, и подвергают реакционную смесь для амплификации условиям амплификации для получения набора ампликонов.[21] In some embodiments, the method further includes forming an amplification reaction mixture by combining a polymerase, nucleotide triphosphates, nucleic acid fragments from a library of nucleic acids obtained from the sample, and a set of primers, each of which binds within 150 base pairs of single nucleotide variant loci, or a set of primer pairs, each covering a region of 160 base pairs or less containing single nucleotide variant loci, and subjecting the amplification reaction mixture to amplification conditions to produce a set of amplicons.
[22] В некоторых вариантах воплощения определение того, присутствует ли в образце однонуклеотидный вариант, включает идентификацию значения достоверности для каждого определения аллеля в каждом из наборов локусов однонуклеотидных вариантов на основе по меньшей мере частично, глубины считывания локусов.[22] In some embodiments, determining whether a single nucleotide variant is present in a sample includes identifying a confidence value for each allele definition at each of the sets of single nucleotide variant loci based, at least in part, on the read depth of the loci.
[23] В некоторых вариантах воплощения распознавание однонуклеотидного варианта выполняют, если значение достоверности для присутствия однонуклеотидного варианта превышает 90%.[23] In some embodiments, single nucleotide variant recognition is performed if the confidence value for the presence of the single nucleotide variant is greater than 90%.
[24] В некоторых вариантах воплощения распознавание однонуклеотидного варианта выполняют, если значение достоверности для присутствия однонуклеотидного варианта превышает 95%.[24] In some embodiments, single nucleotide variant recognition is performed if the confidence value for the presence of the single nucleotide variant is greater than 95%.
[25] В некоторых вариантах воплощения набор локусов однонуклеотидной вариации содержит все локусы однонуклеотидной вариации, определенные в наборах данных TCGA и COSMIC для рака молочной железы, рака мочевого пузыря или колоректального рака.[25] In some embodiments, the set of single nucleotide variation loci comprises all single nucleotide variation loci defined in the TCGA and COSMIC data sets for breast cancer, bladder cancer, or colorectal cancer.
[26] В некоторых вариантах воплощения набор сайтов однонуклеотидной вариации содержит все сайты однонуклеотидной вариации, определенные в наборах данных TCGA и COSMIC для рака молочной железы, рака мочевого пузыря или колоректального рака.[26] In some embodiments, the set of single nucleotide variation sites comprises all single nucleotide variation sites identified in the TCGA and COSMIC datasets for breast cancer, bladder cancer, or colorectal cancer.
[27] В некоторых вариантах воплощения способ выполняют с глубиной считывания для набора локусов однонуклеотидной вариации по меньшей мере 1000.[27] In some embodiments, the method is performed with a read depth for a set of single nucleotide variation loci of at least 1000.
[28] В некоторых вариантах воплощения набор локусов однонуклеотидных вариантов содержит от 25 до 1000 локусов однонуклеотидной вариации, которые, как известно, связаны с раком молочной железы, раком мочевого пузыря или колоректальным раком.[28] In some embodiments, the set of single nucleotide variation loci comprises from 25 to 1000 single nucleotide variation loci known to be associated with breast cancer, bladder cancer, or colorectal cancer.
[29] В некоторых вариантах воплощения эффективность и коэффициент ошибок на цикл определяют для каждой реакции амплификации мультиплексной реакции амплификации локусов однонуклеотидных вариаций, а для определения наличия однонуклеотидного варианта в наборе локусов однонуклеотидного варианта в образце используют эффективность и частоту ошибок.[29] In some embodiments, the efficiency and error rate per cycle are determined for each amplification reaction of the multiplex single nucleotide variation loci amplification reaction, and the efficiency and error rate are used to determine the presence of a single nucleotide variant in a set of single nucleotide variant loci in a sample.
[30] В некоторых вариантах воплощения реакция амплификации представляет собой реакцию ПЦР, и температура отжига на 1-15 °С выше температуры плавления по меньшей мере 50% праймеров из набора праймеров.[30] In some embodiments, the amplification reaction is a PCR reaction, and the annealing temperature is 1-15°C above the melting temperature of at least 50% of the primers in the primer set.
[31] В некоторых вариантах воплощения реакция амплификации представляет собой реакцию ПЦР, и продолжительность стадии отжига в реакции ПЦР составляет от 15 до 120 минут.[31] In some embodiments, the amplification reaction is a PCR reaction, and the duration of the annealing step in the PCR reaction is from 15 to 120 minutes.
[32] В некоторых вариантах воплощения реакция амплификации представляет собой реакцию ПЦР, и продолжительность стадии отжига в реакции ПЦР составляет от 15 до 120 минут.[32] In some embodiments, the amplification reaction is a PCR reaction, and the duration of the annealing step in the PCR reaction is from 15 to 120 minutes.
[33] В некоторых вариантах воплощения концентрация праймера в реакции амплификации составляет от 1 до 10 нМ.[33] In some embodiments, the concentration of primer in the amplification reaction is from 1 to 10 nM.
[34] В некоторых вариантах воплощения праймеры в наборе праймеров предназначены для минимизации образования димера праймера.[34] In some embodiments, the primers in the primer set are designed to minimize the formation of a primer dimer.
[35] В некоторых вариантах воплощения реакция амплификации представляет собой реакцию ПЦР, температура отжига на 1-15 °С выше, чем температура плавления по меньшей мере 50% праймеров набора праймеров, продолжительность стадии отжига в реакции ПЦР составляет от 15 до 120 минут, концентрация праймеров в реакции амплификации составляет от 1 до 10 нМ, и праймеры в наборе праймеров предназначены для минимизации образования димеров праймеров.[35] In some embodiments, the amplification reaction is a PCR reaction, the annealing temperature is 1-15 °C higher than the melting temperature of at least 50% of the primers of the primer set, the duration of the annealing step in the PCR reaction is from 15 to 120 minutes, the concentration The number of primers in the amplification reaction ranges from 1 to 10 nM, and the primers in the primer set are designed to minimize the formation of primer dimers.
[36] В некоторых вариантах воплощения реакцию мультиплексной амплификации проводят в условиях ограничивающего праймера.[36] In some embodiments, the multiplex amplification reaction is conducted under limiting primer conditions.
[37] Другой аспект изобретения, представленного в настоящем документе, относится к композиции, содержащей циркулирующие в опухоли фрагменты нуклеиновой кислоты, содержащие универсальный адаптор, где циркулирующие в опухоли нуклеиновые кислоты получены из рака молочной железы, рака мочевого пузыря или колоректального рака.[37] Another aspect of the invention presented herein relates to a composition containing tumor circulating nucleic acid fragments containing a universal adapter, wherein the tumor circulating nucleic acids are derived from breast cancer, bladder cancer or colorectal cancer.
[38] В некоторых вариантах воплощения циркулирующие опухолевые нуклеиновые кислоты, получены из образца крови или мочи или их фракции от индивидуума с раком молочной железы, раком мочевого пузыря или колоректальным раком.[38] In some embodiments, the circulating tumor nucleic acids are obtained from a blood or urine sample or a fraction thereof from an individual with breast cancer, bladder cancer, or colorectal cancer.
[39] Другой аспект изобретения, представленного в настоящем документе, относится к композиции, содержащей твердую подложку, содержащую множество клональных популяций нуклеиновых кислот, где клональные популяции содержат ампликоны, полученные из образца циркулирующих свободных нуклеиновых кислот, где циркулирующие опухолевые нуклеиновые кислоты получены из рака молочной железы, рака мочевого пузыря или колоректального рака.[39] Another aspect of the invention presented herein relates to a composition comprising a solid support containing a plurality of clonal populations of nucleic acids, wherein the clonal populations comprise amplicons derived from a sample of circulating free nucleic acids, wherein the circulating tumor nucleic acids are derived from breast cancer gland, bladder or colorectal cancer.
[40] В некоторых вариантах воплощения циркулирующие свободные нуклеиновые кислоты получены из образца крови или мочи или их фракции от индивидуума с раком молочной железы, раком мочевого пузыря или колоректальным раком.[40] In some embodiments, the circulating free nucleic acids are obtained from a blood or urine sample, or a fraction thereof, from an individual with breast cancer, bladder cancer, or colorectal cancer.
[41] В некоторых вариантах воплощения фрагменты нуклеиновой кислоты в разных клональных популяциях содержат один и тот же универсальный адаптор.[41] In some embodiments, nucleic acid fragments in different clonal populations contain the same universal adapter.
[42] В некоторых вариантах воплощения клональные популяции нуклеиновых кислот получены из фрагментов нуклеиновых кислот из набора образцов от двух или более индивидуумов.[42] In some embodiments, clonal populations of nucleic acids are derived from nucleic acid fragments from a set of samples from two or more individuals.
[43] В некоторых вариантах воплощения фрагменты нуклеиновой кислоты содержат один из ряда молекулярных штрих-кодов, соответствующих образцу в наборе образцов.[43] In some embodiments, the nucleic acid fragments comprise one of a number of molecular barcodes corresponding to a sample in the sample set.
[44] Еще один аспект изобретения, представленного в настоящем документе, относится к способу мониторинга и выявления раннего рецидива или метастазирования рака молочной железы, рака мочевого пузыря или колоректального рака, включающему выбор набора из по меньшей мере 8 или 16 специфичных для пациента локусов однонуклеотидных вариантов на основе соматических мутаций, выявленных в образце опухоли пациента, у которого был диагностирован рак молочной железы, рак мочевого пузыря или колоректальный рак; отбор в динамике одного или более образцов крови или мочи у пациента после того, как пациент подвергся хирургическомулечению, химиотерапии первой линии и/или адъювантной терапии; получение набора ампликонов путем проведения реакции мультиплексной амплификации на нуклеиновых кислотах, выделенных из каждого образца крови или мочи или их фракции, где каждый ампликон из набора ампликонов охватывает по меньшей мере один локус однонуклеотидного варианта из набора специфичного для пациента локусов однонуклеотидного варианта, связанных с раком молочной железы, раком мочевого пузыря или колоректальным раком; и определение последовательности по меньшей мере сегмента каждого ампликона из набора ампликонов, который содержит специфичный для пациента локус однонуклеотидного варианта, в котором обнаруживают один или более (или два или более, или три или более, или четыре или более, или пять или более, или шесть или более, или семь или более, или восемь или более, или девять или более, или десять или более) специфичных для пациента однонуклеотидных вариантов из образца крови или мочи, свидетельствующих о раннем рецидиве или метастазировании рака молочной железы, рака мочевого пузыря или колоректального ракa.[44] Another aspect of the invention presented herein relates to a method for monitoring and detecting early recurrence or metastasis of breast cancer, bladder cancer or colorectal cancer, comprising selecting a set of at least 8 or 16 patient-specific single nucleotide variant loci based on somatic mutations identified in a tumor sample from a patient who has been diagnosed with breast cancer, bladder cancer, or colorectal cancer; collecting one or more blood or urine samples over time from a patient after the patient has undergone surgery, first-line chemotherapy, and/or adjuvant therapy; obtaining a set of amplicons by performing a multiplex amplification reaction on nucleic acids isolated from each blood or urine sample or fraction thereof, where each amplicon from the set of amplicons covers at least one single nucleotide variant locus from a set of patient-specific single nucleotide variant loci associated with breast cancer glands, bladder or colorectal cancer; and determining the sequence of at least a segment of each amplicon from the set of amplicons that contains the patient-specific single nucleotide variant locus at which one or more (or two or more, or three or more, or four or more, or five or more, or six or more, or seven or more, or eight or more, or nine or more, or ten or more) patient-specific single nucleotide variants from a blood or urine sample indicating early recurrence or metastasis of breast, bladder, or colorectal cancer cancer.
[45] Еще один аспект изобретения, представленного в настоящем документе, относится к способу лечения рака молочной железы, рака мочевого пузыря или колоректального рака, включающему лечение пациента, у которого был диагностирован рак молочной железы, рак мочевого пузыря или колоректальный рак, при помощи операции, химиотерапии первой линии и/или адъювантной терапии; отбор в динамике одного или более образцов крови или мочи у пациента; получение набора ампликонов путем проведения реакции мульплексной амплификации на нуклеиновых кислотах, выделенных из каждого образца крови или мочи или их фракции, причем каждый ампликон из набора ампликонов охватывает по меньшей мере один локус однонуклеотидного варианта из набора из по меньшей мере 8 или 16 специфичных для пациента локусов однонуклеотидного варианта, связанных с раком молочной железы, раком мочевого пузыря или колоректальным раком, которые были отобраны на основе соматических мутаций, выявленных в образце опухоли пациента; определение последовательности по меньшей мере сегмента каждого ампликона из набора ампликонов, который содержит специфичный для пациента локус однонуклеотидного варианта, где обнаружение одного или более (или двух или более, или трех или более, или четырех или более, или пяти или более, или шести или более, или семи или более, или восьми или более, или девяти или более, или десяти или более) специфичных для пациента однонуклеотидных вариантов из образца крови или мочи указывает на ранний рецидив или метастазирование рака молочной железы, рака мочевого пузыря или колоректального рака; и введение соединения индивидууму, где известно, что это соединение эффективно для лечения рака молочной железы, рака мочевого пузыря или колоректального рака, имеющих один или более однонуклеотидных вариантов, выявленных из образца крови или мочи.[45] Another aspect of the invention presented herein relates to a method of treating breast cancer, bladder cancer or colorectal cancer, comprising treating a patient who has been diagnosed with breast cancer, bladder cancer or colorectal cancer by surgery , first-line chemotherapy and/or adjuvant therapy; dynamically collecting one or more blood or urine samples from a patient; obtaining a set of amplicons by performing a multiplex amplification reaction on nucleic acids isolated from each blood or urine sample or fraction thereof, wherein each amplicon from the set of amplicons covers at least one single nucleotide variant locus from a set of at least 8 or 16 patient-specific loci single nucleotide variants associated with breast cancer, bladder cancer or colorectal cancer that were selected on the basis of somatic mutations identified in the patient's tumor sample; determining the sequence of at least a segment of each amplicon from a set of amplicons that contains a patient-specific single nucleotide variant locus, wherein the detection of one or more (or two or more, or three or more, or four or more, or five or more, or six or more, or seven or more, or eight or more, or nine or more, or ten or more) patient-specific single nucleotide variants from a blood or urine sample indicates early recurrence or metastasis of breast cancer, bladder cancer, or colorectal cancer; and administering the compound to an individual where the compound is known to be effective in treating breast cancer, bladder cancer or colorectal cancer having one or more single nucleotide variants identified from a blood or urine sample.
[46] Еще один аспект изобретения, представленного в настоящем документе, относится к способу мониторинга или прогнозирования ответа на лечение рака молочной железы, рака мочевого пузыря или колоректального рака, включающему отбор в динамике одного или более образцов крови или мочи у пациента, который подвергается лечению рака молочной железы, рака мочевого пузыря или колоректального рака; получение набора ампликонов путем выполнения реакции мультиплексной амплификации на нуклеиновых кислотах, выделенных из каждого образца крови или мочи или их фракции, где каждый ампликон из набора ампликонов охватывает по меньшей мере один локус однонуклеотидного варианта из набора по меньшей мере 8 или 16 специфичных для пациента локусов однонуклеотидного варианта, связанных с раком молочной железы, раком мочевого пузыря или колоректальным раком, которые были отобраны на основе соматических мутаций, выявленных в образце опухоли пациента; и определение последовательности по меньшей мере сегмента каждого ампликона из набора ампликонов, который содержит специфичный для пациента локус однонуклеотидного варианта, в котором обнаруживают один или более (или два или более, или три или более, или четыре или более, или пять или более, или шесть или более, или семь или более, или восемь или более, или девять или более, или десять или более) специфичных для пациента однонуклеотидных варианта из образца крови или мочи, что указывает на слабый ответ на лечение рака молочной железы, рака мочевого пузыря или колоректального рака.[46] Another aspect of the invention presented herein relates to a method for monitoring or predicting response to treatment for breast cancer, bladder cancer or colorectal cancer, comprising over time collecting one or more blood or urine samples from a patient who is undergoing treatment. breast cancer, bladder cancer or colorectal cancer; obtaining a set of amplicons by performing a multiplex amplification reaction on nucleic acids isolated from each blood or urine sample or fraction thereof, where each amplicon from the set of amplicons covers at least one single nucleotide variant locus from a set of at least 8 or 16 patient-specific single nucleotide variant loci variants associated with breast cancer, bladder cancer or colorectal cancer that were selected on the basis of somatic mutations identified in the patient's tumor sample; and determining the sequence of at least a segment of each amplicon from the set of amplicons that contains the patient-specific single nucleotide variant locus at which one or more (or two or more, or three or more, or four or more, or five or more, or six or more, or seven or more, or eight or more, or nine or more, or ten or more) patient-specific single nucleotide variants from a blood or urine sample, indicating poor response to treatment for breast cancer, bladder cancer, or colorectal cancer.
[47] В некоторых вариантах воплощения способы, представленные в настоящем документе, включают обнаружение цоДНК в плазме пациентов с раком молочной железы до терапии и/или во время неоадъювантной терапии (например, после цикла 1, цикла 2, цикла 3, цикла 4 и т. д.). В некоторых вариантах воплощения предоставляется план лечения на основе определения концентрации цоДНК (например, наличия/отсутствия) и скорости снижения во время неоадъювантной терапии.[47] In some embodiments, the methods provided herein include detecting ctDNA in the plasma of breast cancer patients before therapy and/or during neoadjuvant therapy (e.g., after cycle 1, cycle 2, cycle 3, cycle 4, etc. .d.). In some embodiments, a treatment plan is provided based on determining ctDNA concentration (eg, presence/absence) and rate of decline during neoadjuvant therapy.
[48] В некоторых вариантах воплощения способы, представленные в настоящем документе, включают оценку присутствия и уровней цоДНК для каждого больного раком (то есть нацеливание на мутации, которые фактически присутствуют в опухоли). В некоторых вариантах воплощения способы, представленные в настоящем документе, включают обнаружение 2 или более, 4 или более, 10 или более, 16 или более, 32 или более, 50 или более, 64 или более или 100 или более мутаций, которые фактически присутствуют в опухоли(ях) пациентов.[48] In some embodiments, the methods provided herein include assessing the presence and levels of ctDNA for each cancer patient (ie, targeting mutations that are actually present in the tumor). In some embodiments, the methods provided herein include detecting 2 or more, 4 or more, 10 or more, 16 or more, 32 or more, 50 or more, 64 or more, or 100 or more mutations that are actually present in tumor(s) of patients.
[49] В соответствии с некоторыми вариантами воплощения настоящего изобретения по меньшей мере 50% или по меньшей мере 60%, или по меньшей мере 70%, или по меньшей мере 80%, или по меньшей мере 90%, или приблизительно 100% пациентов, у которых будет метастатический рецидив (например, после неоадъювантной терапии и операции) имеют цоДНК, выявляемую на исходном уровне.[49] In accordance with some embodiments of the present invention, at least 50%, or at least 60%, or at least 70%, or at least 80%, or at least 90%, or approximately 100% of patients, who will experience metastatic recurrence (eg, after neoadjuvant therapy and surgery) have ctDNA detected at baseline.
[50] В соответствии с некоторыми вариантами воплощения настоящего изобретения по меньшей мере 50% или по меньшей мере 60%, или по меньшей мере 70%, или по меньшей мере 80%, или по меньшей мере 90%, или приблизительно 100% пациентов, у которых будет метастатический рецидив (например, после неоадъювантной терапии и хирургии), имеют цоДНК, выявляемую после цикла 1 неоадъювантной терапии.[50] In accordance with some embodiments of the present invention, at least 50%, or at least 60%, or at least 70%, or at least 80%, or at least 90%, or approximately 100% of patients, who will have metastatic recurrence (eg, after neoadjuvant therapy and surgery) have ctDNA detected after cycle 1 of neoadjuvant therapy.
[51] В соответствии с некоторыми вариантами воплощения настоящего изобретения по меньшей мере 50% или по меньшей мере 60%, или по меньшей мере 70%, или по меньшей мере 80%, или по меньшей мере 90%, или приблизительно 100% пациентов, у которых будет метастатический рецидив (например, после неоадъювантной терапии и хирургии), имеют цоДНК, выявляемую после цикла 2 неоадъювантной терапии.[51] In accordance with some embodiments of the present invention, at least 50%, or at least 60%, or at least 70%, or at least 80%, or at least 90%, or approximately 100% of patients, who will have metastatic recurrence (eg, after neoadjuvant therapy and surgery) have ctDNA detected after cycle 2 of neoadjuvant therapy.
[52] В соответствии с некоторыми вариантами воплощения настоящего изобретения по меньшей мере 50% или по меньшей мере 60%, или по меньшей мере 70%, или по меньшей мере 80%, или по меньшей мере 90%, или приблизительно 100% пациентов, у которых будет метастатический рецидив (например, после неоадъювантной терапии и хирургии), имеют цоДНК, выявляемую после неоадъювантной терапии и перед операцией.[52] In accordance with some embodiments of the present invention, at least 50%, or at least 60%, or at least 70%, or at least 80%, or at least 90%, or approximately 100% of patients, who will have metastatic recurrence (eg, after neoadjuvant therapy and surgery) have ctDNA detected after neoadjuvant therapy and before surgery.
[53] В соответствии с некоторыми вариантами воплощения настоящего изобретения по меньшей мере 50% или по меньшей мере 60%, или по меньшей мере 70%, или по меньшей мере 80%, или по меньшей мере 90%, или приблизительно 100% пациентов, у которых будет метастатический рецидив (например, после неоадъювантной терапии и операции), имеют цоДНК, выявляемую после операции.[53] In accordance with some embodiments of the present invention, at least 50%, or at least 60%, or at least 70%, or at least 80%, or at least 90%, or approximately 100% of patients, who will have metastatic recurrence (eg, after neoadjuvant therapy and surgery) have ctDNA detected after surgery.
[54] В соответствии с некоторыми вариантами воплощения настоящего изобретения по меньшей мере 50% или по меньшей мере 60%, или по меньшей мере 70%, или по меньшей мере 80%, или по меньшей мере 90%, или приблизительно 100% пациентов, у которых обнаруживают цоДНК (например, после операции), будут иметь метастазирование без дальнейшего лечения рецидива (например, после неоадъювантной терапии и операции).[54] In accordance with some embodiments of the present invention, at least 50%, or at least 60%, or at least 70%, or at least 80%, or at least 90%, or approximately 100% of patients, in which ctDNA is detected (eg, after surgery) will have metastasis without further treatment for relapse (eg, after neoadjuvant therapy and surgery).
[55] В соответствии с некоторыми вариантами воплощения настоящего изобретения по меньшей мере 50% или по меньшей мере 60%, или по меньшей мере 70%, или по меньшей мере 80%, или по меньшей мере 90%, или приблизительно 100% пациентов, которые имеют повышенные уровни цоДНК между исходным уровнем и циклом 1, или циклом 2 и т.д., будут иметь метастатический рецидив после операции, если не проводится дополнительное лечение.[55] In accordance with some embodiments of the present invention, at least 50%, or at least 60%, or at least 70%, or at least 80%, or at least 90%, or approximately 100% of patients, who have elevated ctDNA levels between baseline and cycle 1, or cycle 2, etc. will have metastatic recurrence after surgery unless additional treatment is given.
[56] В некоторых вариантах воплощения способы, представленные в настоящем документе, включают обнаружение возникновения, рецидива или метастазирования определенных подтипов рака, включая определенные подтипы рака молочной железы. В некоторых вариантах воплощения способы, представленные в настоящем документе, включают обнаружение возникновения, рецидива или метастазирования опухоли HR+/HER2-, включая рак молочной железы HR+/HER2- (например, рецептор-гормона-положительный-ERα+ и/или PR+). Опухоли HR+ обычно менее агрессивны и имеют благоприятный прогноз с 5-летней выживаемостью более 90%.[56] In some embodiments, the methods provided herein include detecting the occurrence, recurrence, or metastasis of certain subtypes of cancer, including certain subtypes of breast cancer. In some embodiments, the methods provided herein include detecting the occurrence, recurrence, or metastasis of an HR+/HER2- tumor, including HR+/HER2- breast cancer (eg, hormone receptor-positive-ERα+ and/or PR+). HR+ tumors are usually less aggressive and have a favorable prognosis with a 5-year survival rate of over 90%.
[57] В некоторых вариантах воплощения способы, представленные в настоящем документе, включают обнаружение возникновения, рецидива или метастазирования опухоли HER2+, включая рак молочной железы HER2+ (положительный по рецептору 2 эпидермального фактора роста человека). Опухоли HER2+, как правило, более инвазивные, имеют худший прогноз и более подвержены рецидивам и метастазированию, чем рак молочной железы HR+/HER2-.[57] In some embodiments, the methods provided herein include detecting the occurrence, recurrence or metastasis of a HER2+ tumor, including HER2+ (human epidermal growth factor receptor 2 positive) breast cancer. HER2+ tumors tend to be more invasive, have a worse prognosis, and are more susceptible to recurrence and metastasis than HR+/HER2− breast cancers.
[58] некоторых вариантах воплощения способы, представленные в настоящем документе, включают обнаружение возникновения, рецидива или метастазирования опухоли HR-/HER2-, включая рак молочной железы HR-/HER2 (TNBC или трижды негативный РМЖ). Трижды негативный рак молочной железы (TNBC) не экспрессирует ERα, PR или HER2. Эти опухоли имеют тенденцию быть наиболее агрессивными и имеют худший прогноз среди всех подтипов рака молочной железы.[58] In some embodiments, the methods provided herein include detecting the occurrence, recurrence or metastasis of an HR-/HER2- tumor, including HR-/HER2 breast cancer (TNBC or triple negative breast cancer). Triple-negative breast cancer (TNBC) does not express ERα, PR, or HER2. These tumors tend to be the most aggressive and have the worst prognosis of all breast cancer subtypes.
[59] В некоторых вариантах воплощения представленный в данном документе способ позволяет обнаруживать специфичные для пациента однонуклеотидные варианты по меньшей мере у 75%, по меньшей мере у 80%, по меньшей мере у 85%, по меньшей мере у 90% или по меньшей мере у 95% пациентов, имеющих ранний рецидив или метастазирование рака.[59] In some embodiments, the method provided herein is capable of detecting patient-specific single nucleotide variants in at least 75%, at least 80%, at least 85%, at least 90%, or at least in 95% of patients with early recurrence or metastasis of cancer.
[60] В некоторых вариантах воплощения представленный в данном документе способ способен обнаруживать специфичные для пациента однонуклеотидные варианты по меньшей мере у 80%, по меньшей мере у 85%, по меньшей мере у 90%, по меньшей мере у 95% или по меньшей мере у 98% пациентов, имеющих ранний рецидив или метастазирование рака молочной железы HER2+.[60] In some embodiments, the method provided herein is capable of detecting patient-specific single nucleotide variants in at least 80%, at least 85%, at least 90%, at least 95%, or at least in 98% of patients with early relapse or metastasis of HER2+ breast cancer.
[61] В некоторых вариантах воплощения представленный в данном документе способ способен обнаруживать специфичные для пациента однонуклеотидные варианты по меньшей мере у 80%, по меньшей мере у 85%, по меньшей мере у 90%, по меньшей мере у 95% или по меньшей мере у 98% пациентов, имеющих ранний рецидив или метастазирование трижды негативного рака молочной железы.[61] In some embodiments, the method provided herein is capable of detecting patient-specific single nucleotide variants in at least 80%, at least 85%, at least 90%, at least 95%, or at least in 98% of patients with early relapse or metastasis of triple-negative breast cancer.
[62] В некоторых вариантах воплощения представленный в данном документе способ способен обнаруживать специфичные для пациента однонуклеотидные варианты по меньшей мере у 75%, по меньшей мере у 80%, по меньшей мере у 85%, по меньшей мере у 90% или по меньшей мере у 95% пациентов, имеющих ранний рецидив или метастазирование рака молочной железы HR+/HER2-.[62] In some embodiments, the method provided herein is capable of detecting patient-specific single nucleotide variants in at least 75%, at least 80%, at least 85%, at least 90%, or at least in 95% of patients with early relapse or metastasis of HR+/HER2- breast cancer.
[63] В некоторых вариантах воплощения представленный в данном документе способ способен обнаруживать специфичные для пациента однонуклеотидные варианты у пациентов, имеющих ранний рецидив или метастазирование рака по меньшей мере за 100 дней, по меньшей мере за 150 дней, по меньшей мере за 200 дней, по меньшей мере за 250 дней или по меньшей мере за 300 дней до клинического рецидива или метастазирования рака, обнаруживаемого посредством визуализации, и/или по меньшей мере за 100 дней, по меньшей мере за 150 дней, по меньшей мере за 200 дней, по меньшей мере за 250 дней или по меньшей мере за 300 дней до повышения уровня CA15-3.[63] In some embodiments, the method provided herein is capable of detecting patient-specific single nucleotide variants in patients who have early cancer recurrence or metastasis at least 100 days, at least 150 days, at least 200 days, at least 250 days or at least 300 days before clinical recurrence or metastasis of cancer detected by imaging, and/or at least 100 days, at least 150 days, at least 200 days, at least 250 days or at least 300 days before CA15-3 levels rise.
[64] В некоторых вариантах воплощения представленный в данном документе способ способен обнаруживать специфичные для пациента однонуклеотидные варианты у пациентов, имеющих ранний рецидив или метастазирование рака молочной железы HER2+ по меньшей мере за 100 дней, по меньшей мере за 150 дней, по меньшей мере за 200 дней, по меньшей мере за 250 дней или по меньшей мере за 300 дней до клинического рецидива или метастазирования рака молочной железы HER2+, обнаруживаемого посредством визуализации, и/или по меньшей мере за 100 дней, по меньшей мере за 150 дней, по меньшей мере за 200 дней, по меньшей мере за 250 дней или по меньшей мере за 300 дней до повышения уровня CA15-3.[64] In some embodiments, the method provided herein is capable of detecting patient-specific single nucleotide variants in patients who have early recurrence or metastasis of HER2+ breast cancer in at least 100 days, at least 150 days, at least 200 days, at least 250 days or at least 300 days before clinical recurrence or metastasis of HER2+ breast cancer detected by imaging, and/or at least 100 days, at least 150 days, at least 200 days, at least 250 days or at least 300 days before CA15-3 levels rise.
[65] В некоторых вариантах воплощения представленный в данном документе способ способен обнаруживать специфичные для пациента однонуклеотидные варианты у пациентов, имеющих ранний рецидив или метастазирование трижды негативного рака молочной железы по меньшей мере за 100 дней, по меньшей мере за 150 дней, по меньшей мере за 200 дней, по меньшей мере за 250 дней или по меньшей мере за 300 дней до клинического рецидива или метастазирования трижды негативного рака молочной железы, обнаруживаемого посредством визуализации, и/или по меньшей мере за 100 дней по меньшей мере, за 150 дней, по меньшей мере за 200 дней, по меньшей мере за 250 дней или по меньшей мере за 300 дней до повышения уровня CA15-3.[65] In some embodiments, the method provided herein is capable of detecting patient-specific single nucleotide variants in patients having early relapse or metastasis of triple negative breast cancer in at least 100 days, at least 150 days, at least in 200 days, at least 250 days or at least 300 days before clinical recurrence or metastasis of triple-negative breast cancer detected by imaging, and/or at least 100 days at least, 150 days at least at least 200 days, at least 250 days, or at least 300 days before CA15-3 levels rise.
[66] В некоторых вариантах воплощения представленный в данном документе способ способен обнаруживать специфичные для пациента однонуклеотидные варианты у пациентов, имеющих ранний рецидив или метастазирование рака молочной железы HR+/HER2- по меньшей мере за 100 дней, по меньшей мере за 150 дней, по меньшей мер, за 200 дней, по меньшей мере за 250 дней или по меньшей мере за 300 дней до клинического рецидива или метастазирования рака молочной железы HR+/HER2-, обнаруживаемого посредством визуализации и/или по меньшей мере за 100 дней, по меньшей мере за 150 дней, по меньшей мере за 200 дней, по меньшей мере за 250 дней или по меньшей мере за 300 дней до повышения уровня CA15-3.[66] In some embodiments, the method provided herein is capable of detecting patient-specific single nucleotide variants in patients having early recurrence or metastasis of HR+/HER2- breast cancer in at least 100 days, in at least 150 days, in at least measures, 200 days, at least 250 days, or at least 300 days before clinical recurrence or metastasis of HR+/HER2- breast cancer detected by imaging and/or at least 100 days, at least 150 days, at least 200 days, at least 250 days, or at least 300 days before the increase in CA15-3 levels.
[67] В некоторых вариантах воплощения представленный в данном документе способ не обнаруживает специфичные для пациента однонуклеотидные варианты по меньшей мере у 95%, по меньшей мере у 98%, по меньшей мере у 99%, по меньшей мере у 99,5%, по меньшей мере у 99,8% или по меньшей мере у 99,9% пациентов, у которых отсутствует ранний рецидив или метастазирование рака.[67] In some embodiments, the method presented herein does not detect patient-specific single nucleotide variants in at least 95%, at least 98%, at least 99%, at least 99.5%, by at least 99.8% or at least 99.9% of patients who do not have early recurrence or metastasis of cancer.
[68] В некоторых вариантах воплощения представленный в данном документе способ не обнаруживает специфичные для пациента однонуклеотидные варианты по меньшей мере у 95%, по меньшей мере у 98%, по меньшей мере у 99%, по меньшей мере у 99,5%, по меньшей мере у 99,8% или по меньшей мере у 99,9% пациентов, у которых отсутствует ранний рецидив или метастазирование рака молочной железы HER2+.[68] In some embodiments, the method presented herein does not detect patient-specific single nucleotide variants in at least 95%, at least 98%, at least 99%, at least 99.5%, by at least 99.8% or at least 99.9% of patients who do not have early recurrence or metastasis of HER2+ breast cancer.
[69] В некоторых вариантах воплощения представленный в данном документе способ не обнаруживает специфичные для пациента однонуклеотидные варианты по меньшей мере у 95%, по меньшей мере у 98%, по меньшей мере у 99%, по меньшей мере у 99,5%, по меньшей мере у 99,8% или по меньшей мере у 99,9% пациентов, у которых отсутствует ранний рецидив или метастазирование трижды негативного рака молочной железы.[69] In some embodiments, the method presented herein does not detect patient-specific single nucleotide variants in at least 95%, at least 98%, at least 99%, at least 99.5%, by at least 99.8% or at least 99.9% of patients who do not have early recurrence or metastasis of triple-negative breast cancer.
[70] В некоторых вариантах воплощения представленный в данном документе способ не обнаруживает специфичные для пациента однонуклеотидные варианты по меньшей мере у 95%, по меньшей мере у 98%, по меньшей мере у 99%, по меньшей мере у 99,5%, по меньшей мере у 99,8% или по меньшей мере у 99,9% пациентов, у которых отсутствует ранний рецидив или метастазирование рака молочной железы HR+/HER2-.[70] In some embodiments, the method presented herein does not detect patient-specific single nucleotide variants in at least 95%, at least 98%, at least 99%, at least 99.5%, by at least 99.8% or at least 99.9% of patients who do not have early recurrence or metastasis of HR+/HER2- breast cancer.
[71] В некоторых вариантах воплощения представленный в данном документе способ имеет специфичность по меньшей мере 95%, по меньшей мере 98%, по меньшей мере 99%, по меньшей мере 99,5%, по меньшей мере 99,8% или по меньшей мере 99,9% в выявлении раннего рецидива или метастазирования рака, когда два или более специфичных для пациента однонуклеотидных варианта выявляются выше предопределенного порога достоверности (например, 0,95, 0,96, 0,97, 0,98 или 0,99).[71] In some embodiments, a method provided herein has a specificity of at least 95%, at least 98%, at least 99%, at least 99.5%, at least 99.8%, or at least at least 99.9% in detecting early cancer recurrence or metastasis when two or more patient-specific single nucleotide variants are detected above a predefined confidence threshold (eg, 0.95, 0.96, 0.97, 0.98, or 0.99) .
[72] В некоторых вариантах воплощения представленный в данном документе способ имеет специфичность по меньшей мере 95%, по меньшей мере 98%, по меньшей мере 99%, по меньшей мере 99,5%, по меньшей мере 99,8% или по меньшей мере 99,9% в выявлении раннего рецидива или метастазирования рака молочной железы HER2+, когда два или более специфичных для пациента однонуклеотидных варианта выявляются выше предопределенного порога достоверности (например, 0,95, 0,96, 0,97, 0,98 или 0,99).[72] In some embodiments, a method provided herein has a specificity of at least 95%, at least 98%, at least 99%, at least 99.5%, at least 99.8%, or at least at least 99.9% in detecting early recurrence or metastasis of HER2+ breast cancer when two or more patient-specific single nucleotide variants are detected above a predefined confidence threshold (eg, 0.95, 0.96, 0.97, 0.98, or 0 ,99).
[73] В некоторых вариантах воплощения представленный в данном документе способ имеет специфичность по меньшей мере 95%, по меньшей мере 98%, по меньшей мере 99%, по меньшей мере 99,5%, по меньшей мере 99,8% или по меньшей мере 99,9% в выявлении раннего рецидива или метастазирования трижды негативного рака молочной железы, когда два или более специфичных для пациента однонуклеотидных варианта выявляются выше предопределенного порога достоверности (например, 0,95, 0,96, 0,97, 0,98 или 0,99).[73] In some embodiments, a method provided herein has a specificity of at least 95%, at least 98%, at least 99%, at least 99.5%, at least 99.8%, or at least at least 99.9% in detecting early recurrence or metastasis of triple-negative breast cancer when two or more patient-specific single nucleotide variants are detected above a predefined confidence threshold (eg, 0.95, 0.96, 0.97, 0.98, or 0.99).
[74] В некоторых вариантах воплощения представленный в данном документе способ имеет специфичность по меньшей мере 95%, по меньшей мере 98%, по меньшей мере 99%, по меньшей мере 99,5%, по меньшей мере 99,8% или по меньшей мере 99,9% в выявлении раннего рецидива или метастазирования рака молочной железы HR+/HER2-, когда два или более специфичных для пациента однонуклеотидных варианта выявляются выше предопределенного порога достоверности (например, 0,95, 0,96, 0,97, 0,98 или 0,99).[74] In some embodiments, a method provided herein has a specificity of at least 95%, at least 98%, at least 99%, at least 99.5%, at least 99.8%, or at least at least 99.9% in detecting early recurrence or metastasis of HR+/HER2- breast cancer when two or more patient-specific single nucleotide variants are detected above a predefined confidence threshold (eg, 0.95, 0.96, 0.97, 0. 98 or 0.99).
[75] В некоторых вариантах воплощения представленный в данном документе способ выявляет специфические для пациента однонуклеотидные варианты по меньшей мере у 75%, по меньшей мере у 80%, по меньшей мере у 85%, по меньшей мере у 90% или по меньшей мере у 95% пациентов, имеющих ранний рецидив или метастазирование мышечно-инвазивного рака мочевого пузыря (МИРМП).[75] In some embodiments, the method provided herein detects patient-specific single nucleotide variants in at least 75%, at least 80%, at least 85%, at least 90%, or at least 95% of patients with early recurrence or metastasis of muscle-invasive bladder cancer (MIBC).
[76] В некоторых вариантах воплощения представленный в данном документе способ выявляет специфические для пациента однонуклеотидные варианты у пациентов, имеющих ранний рецидив или метастазирование рака по меньшей мере за 100 дней, по меньшей мере за 150 дней, по меньшей мере за 200 дней или по меньшей мере за 250 дней до клинического рецидива или метастазирования МИРМП, обнаруживаемого посредством визуализации.[76] In some embodiments, the method provided herein detects patient-specific single nucleotide variants in patients who have had early cancer recurrence or metastasis at least 100 days, at least 150 days, at least 200 days, or at least at least 250 days before clinical recurrence or metastasis of MIBC detected by imaging.
[77] В некоторых вариантах воплощения представленный в данном документе способ не выявляет специфичные для пациента однонуклеотидные варианты по меньшей мере у 95%, по меньшей мере у 98%, по меньшей мере у 99%, по меньшей мере у 99,5%, по меньшей мере у 99,8% или по меньшей мере у 99,9% пациентов, у которых отсутствует ранний рецидив или метастазирование МИРМП.[77] In some embodiments, the method presented herein does not detect patient-specific single nucleotide variants in at least 95%, at least 98%, at least 99%, at least 99.5%, by at least 99.8% or at least 99.9% of patients who do not have early recurrence or metastasis of MIBC.
[78] В некоторых вариантах воплощения представленный в данном документе способ имеет специфичность по меньшей мере 95%, по меньшей мере 98%, по меньшей мере 99%, по меньшей мере 99,5% по меньшей мере 99,8% или по меньшей мере 99,9% при обнаружении раннего рецидива или метастазирования МИРМП, когда два или более специфичных для пациента однонуклеотидных варианта выявляются выше предопределенного порога достоверности (например, 0,95, 0,96, 0,97, 0,98 или 0,99).[78] In some embodiments, a method provided herein has a specificity of at least 95%, at least 98%, at least 99%, at least 99.5%, at least 99.8%, or at least 99.9% in detecting early relapse or metastasis of MIBC when two or more patient-specific single nucleotide variants are detected above a predefined confidence threshold (eg, 0.95, 0.96, 0.97, 0.98, or 0.99).
[79] В дополнение или в качестве альтернативы однонуклеотидным вариантам способы, представленные в настоящем документе, также могут быть основаны на обнаружении других геномных вариантов, таких, как вставки/делеции, варианты с множеством нуклеотидов и/или слияния генов.[79] In addition to or as an alternative to single nucleotide variants, the methods presented herein can also be based on the detection of other genomic variants, such as insertions/deletions, multiple nucleotide variants and/or gene fusions.
[80] Соответственно, дополнительный аспект изобретения, представленного в настоящем документе, относится к способу мониторинга и выявления раннего рецидива или метастазирования рака молочной железы, рака мочевого пузыря или колоректального рака, включающему выбор множества локусов геномных вариантов (например, ОНВ, вставка/делеция, вариант с множеством нуклеотидов и слияние генов) на основе соматических мутаций, выявленных в образце опухоли пациента, у которого был диагностирован рак молочной железы, рак мочевого пузыря или колоректальный рак; отбор в динамике одного или более образцов крови или мочи у пациента после того, как пациент подвергся хирургическому вмешательству, химиотерапии первой линии и/или адъювантной терапии; получение набора ампликонов путем проведения реакции мультиплексной амплификации на нуклеиновых кислотах, выделенных из каждого образца крови или мочи или их фракции, где каждый ампликон из набора ампликонов охватывает по меньшей мере один локус геномных вариантов из набора специфичных для пациента локусов геномных вариантов, связанных с раком молочной железы, раком мочевого пузыря или колоректальным раком; и определение последовательности по меньшей мере сегмента каждого ампликона из набора ампликонов, который содержит специфичный для пациента локус геномных вариантов, в которых обнаруживают один или более (или два или более, или три или более, или четыре или более, или пять или более, или шесть или более, или семь или более, или восемь или более, или девять или более, или десять или более) специфичных для пациента вариантов генома из образца крови или мочи, указывающие на ранний рецидив или метастазирование рака молочной железы, рака мочевого пузыря или колоректального ракa.[80] Accordingly, an additional aspect of the invention presented herein relates to a method for monitoring and detecting early recurrence or metastasis of breast cancer, bladder cancer or colorectal cancer, comprising selecting multiple genomic variant loci (e.g., HB, insertion/deletion, multiple nucleotide variant and gene fusion) based on somatic mutations identified in a tumor sample from a patient diagnosed with breast cancer, bladder cancer, or colorectal cancer; collecting one or more blood or urine samples over time from a patient after the patient has undergone surgery, first-line chemotherapy, and/or adjuvant therapy; obtaining a set of amplicons by performing a multiplex amplification reaction on nucleic acids isolated from each blood or urine sample or fraction thereof, where each amplicon from the set of amplicons covers at least one genomic variant locus from a set of patient-specific genomic variant loci associated with breast cancer glands, bladder or colorectal cancer; and determining the sequence of at least a segment of each amplicon from the set of amplicons that contains the patient-specific locus of genomic variants in which one or more (or two or more, or three or more, or four or more, or five or more, or six or more, or seven or more, or eight or more, or nine or more, or ten or more) patient-specific genomic variants from a blood or urine sample, indicating early recurrence or metastasis of breast, bladder, or colorectal cancer cancer.
[81] Дополнительный аспект изобретения, представленного в настоящем документе, относится к способу лечения рака молочной железы, рака мочевого пузыря или колоректального рака, включающему лечение пациента, у которого был диагностирован рак молочной железы, рак мочевого пузыря или колоректальный рак, при помощи операции, химиотерапии первой линии и/или адъювантной терапии; отбор в динамике одного или более образцов крови или мочи от пациента; получение набора ампликонов путем проведения реакции мультиплексной амплификации на нуклеиновых кислотах, выделенных из каждого образца крови или мочи или их фракции, где каждый ампликон из набора ампликонов охватывает по меньшей мере один локус геномных вариантов (например, ОНВ, вставка/делеция, вариант с множеством нуклеотидов и слияние генов) из набора из по меньшей мере 8 или 16 специфичных для пациента локусов геномных вариантов, связанных с раком молочной железы, раком мочевого пузыря или колоректальным раком, которые были отобраны на основе соматических мутаций, идентифицированных в образце опухоли пациента; определение последовательности по меньшей мере сегмента каждого ампликона из набора ампликонов, который содержит специфичный для пациента локус геномных вариантов, при этом обнаружение одного или более (или двух или более, или трех или более, или четырех или более, или пяти или более, или шести или более, или семи или более, или восьми или более, или девяти или более, или десяти или более) специфичных для пациента вариантов генома из образца крови или мочи указывают на ранний рецидив или метастазирование рака молочной железы, рака мочевого пузыря или колоректального рака; и введение соединения индивидууму, где, как известно, соединение эффективно для лечения рака молочной железы, рака мочевого пузыря или колоректального рака, имеющего один или более геномных вариантов, обнаруженных в образце крови или мочи.[81] A further aspect of the invention provided herein relates to a method of treating breast cancer, bladder cancer or colorectal cancer, comprising treating a patient who has been diagnosed with breast cancer, bladder cancer or colorectal cancer with surgery, first-line chemotherapy and/or adjuvant therapy; dynamically collecting one or more blood or urine samples from the patient; obtaining a set of amplicons by performing a multiplex amplification reaction on nucleic acids isolated from each blood or urine sample or fraction thereof, where each amplicon from the set of amplicons covers at least one locus of genomic variants (for example, NCB, insertion/deletion, multiple nucleotide variant and gene fusion) from a set of at least 8 or 16 patient-specific genomic variant loci associated with breast cancer, bladder cancer or colorectal cancer that were selected based on somatic mutations identified in the patient's tumor sample; determining the sequence of at least a segment of each amplicon from a set of amplicons that contains a patient-specific locus of genomic variants, wherein detecting one or more (or two or more, or three or more, or four or more, or five or more, or six or more, or seven or more, or eight or more, or nine or more, or ten or more) patient-specific genomic variants from a blood or urine sample indicate early recurrence or metastasis of breast cancer, bladder cancer, or colorectal cancer; and administering the compound to an individual where the compound is known to be effective for treating breast cancer, bladder cancer or colorectal cancer having one or more genomic variants detected in a blood or urine sample.
[82] Дополнительный аспект изобретения, представленного в настоящем документе, относится к способу мониторинга или прогнозирования ответа на лечение рака молочной железы, рака мочевого пузыря или колоректального рака, включающему отбор в динамике одной или более проб крови или мочи от пациента, который подвергается лечению рака молочной железы, рака мочевого пузыря или колоректального рака; получение набора ампликонов путем проведения реакции мультиплексной амплификации на нуклеиновых кислотах, выделенных из каждого образца крови или мочи или их фракции, где каждый ампликон из набора ампликонов охватывает по меньшей мере один локус геномных вариантов (например, ОНВ, вставка/делеция, вариант с множеством нуклеотидов и слияние генов) из набора из по меньшей мере 8 или 16 специфичных для пациента локусов геномных вариантов, связанных с раком молочной железы, раком мочевого пузыря или колоректальным раком, которые были отобраны на основе соматических мутаций, идентифицированных в образце опухоли пациента; и определение последовательности по меньшей мере сегмента каждого ампликона из набора ампликонов, который содержит специфичный для пациента локус геномных вариантов, в которых обнаруживают один или более (или два или более, или три или более, или четыре или более, или пять или более, или шесть или более, или семь или более, или восемь или более, или девять или более, или десять или более) специфичных для пациента вариантов генома из образца крови или мочи, указывающих на слабый ответ на лечение рака молочной железы, рака мочевого пузыря или колоректального ракa.[82] A further aspect of the invention provided herein relates to a method for monitoring or predicting response to treatment for breast cancer, bladder cancer or colorectal cancer, comprising over time collecting one or more blood or urine samples from a patient who is undergoing cancer treatment breast, bladder or colorectal cancer; obtaining a set of amplicons by performing a multiplex amplification reaction on nucleic acids isolated from each blood or urine sample or fraction thereof, where each amplicon from the set of amplicons covers at least one locus of genomic variants (for example, NCB, insertion/deletion, multiple nucleotide variant and gene fusion) from a set of at least 8 or 16 patient-specific genomic variant loci associated with breast cancer, bladder cancer or colorectal cancer that were selected based on somatic mutations identified in the patient's tumor sample; and determining the sequence of at least a segment of each amplicon from the set of amplicons that contains the patient-specific locus of genomic variants in which one or more (or two or more, or three or more, or four or more, or five or more, or six or more, or seven or more, or eight or more, or nine or more, or ten or more) patient-specific genomic variants from a blood or urine sample indicating poor response to treatment for breast, bladder, or colorectal cancer cancer.
[83] В дополнение или в качестве альтернативы специфичным для пациента геномным вариантам способы, представленные в настоящем документе, также могут быть основаны на обнаружении повторяющихся мутаций, связанных с раком (например, раковые мутации горячей точки, маркеры, связанные с лекарственной устойчивостью, мутации раковой панели), которые повторяются у многих пациентов с раком.[83] In addition to or as an alternative to patient-specific genomic variants, the methods presented herein can also be based on the detection of recurrent mutations associated with cancer (eg, cancer hot spot mutations, markers associated with drug resistance, cancer mutations). panels) that are repeated in many patients with cancer.
[84] Соответственно, дополнительный аспект изобретения, представленного в настоящем документе, относится к способу мониторинга и выявления раннего рецидива или метастазирования рака молочной железы, рака мочевого пузыря или колоректального рака, включающему выбор множества повторяющихся, связанных с раком мутаций; отбор в динамике одного или более образцов крови или мочи от пациента после того, как пациент подвергся хирургическому вмешательству, химиотерапии первой линии и/или адъювантной терапии; получение набора ампликонов путем проведения реакции мультиплексной амплификации на нуклеиновых кислотах, выделенных из каждого образца крови или мочи или их фракции, где каждый ампликон из набора ампликонов охватывает по меньшей мере одну из набора повторяющихся мутаций, связанных с раком молочной железы, раком мочевого пузыря или колоректальным раком; и определение последовательности по меньшей мере сегмента каждого ампликона из набора ампликонов, который включает повторяющуюся, ассоциированную с раком мутацию, где обнаружение одной или более (или двух или более, или трех или более, или четырех или более, или пяти или более, или шести или более, или семи или более, или восьми или более, или девяти или более, или десяти или более) повторяющихся, связанных с раком мутаций из образца крови или мочи, указывает на ранний рецидив или метастазирование рака молочной железы, рака мочевого пузыря или колоректального рака.[84] Accordingly, a further aspect of the invention presented herein relates to a method for monitoring and detecting early recurrence or metastasis of breast cancer, bladder cancer or colorectal cancer, comprising selecting a plurality of recurrent cancer-associated mutations; collecting one or more blood or urine samples from a patient over time after the patient has undergone surgery, first-line chemotherapy, and/or adjuvant therapy; obtaining a set of amplicons by performing a multiplex amplification reaction on nucleic acids isolated from each blood or urine sample or fraction thereof, where each amplicon from the set of amplicons covers at least one of a set of recurrent mutations associated with breast cancer, bladder cancer or colorectal cancer cancer; and determining the sequence of at least a segment of each amplicon from the set of amplicons that includes a recurrent cancer-associated mutation, wherein the detection of one or more (or two or more, or three or more, or four or more, or five or more, or six or more, or seven or more, or eight or more, or nine or more, or ten or more) recurring, cancer-associated mutations from a blood or urine sample, indicating early recurrence or metastasis of breast, bladder, or colorectal cancer cancer.
[85] Дополнительный аспект изобретения, представленного в настоящем документе, относится к способу лечения рака молочной железы, рака мочевого пузыря или колоректального рака, включающему лечение пациента, у которого был диагностирован рак молочной железы, рак мочевого пузыря или колоректальный рак, при помощи оперпции, химиотерапии первой линии и/или адъювантной терапии; отбор в динамике одного или более образцов крови или мочи от пациента; получение набора ампликонов путем проведения реакции мультиплексной амплификации на нуклеиновых кислотах, выделенных из каждой пробы крови или мочи или их фракции, где каждый ампликон из набора ампликонов охватывает по меньшей мере одну повторяющуюся связанную с раком мутацию (например, раковая мутация горячей точки, маркер, связанный с лекарственной устойчивостью, мутация раковой панели) из набора из по меньшей мере 8 или 16 повторяющихся мутаций, связанных с раком молочной железы, раком мочевого пузыря или колоректальным раком; определение последовательности по меньшей мере сегмента каждого ампликона из набора ампликонов, который содержит повторяющуюся, ассоциированную с раком мутацию, причем обнаружение одной или более (или двух или более, или трех или более, или четырех или более, или пяти или более, или шести или более, или семи или более, или восьми или более, или девяти или более, или десяти или более) повторяющихся, связанных с раком мутаций из образца крови или мочи, указывает на ранний рецидив или метастазирование рака молочной железы, рака мочевого пузыря или колоректального рака; и введение соединения индивидууму, где известно, что это соединение эффективно для лечения рака молочной железы, рака мочевого пузыря или колоректального рака, имеющих одну или более повторяющихся, связанных с раком мутаций, обнаруженных в образце крови или мочи.[85] A further aspect of the invention provided herein relates to a method of treating breast cancer, bladder cancer or colorectal cancer, comprising treating a patient who has been diagnosed with breast cancer, bladder cancer or colorectal cancer with an operation, first-line chemotherapy and/or adjuvant therapy; dynamically collecting one or more blood or urine samples from the patient; producing a set of amplicons by performing a multiplex amplification reaction on nucleic acids isolated from each blood or urine sample or fraction thereof, wherein each amplicon of the set of amplicons covers at least one recurrent cancer-associated mutation (e.g., cancer hot spot mutation, marker associated drug-resistant, cancer panel mutation) from a set of at least 8 or 16 recurrent mutations associated with breast cancer, bladder cancer or colorectal cancer; determining the sequence of at least a segment of each amplicon from a set of amplicons that contains a recurrent cancer-associated mutation, wherein detecting one or more (or two or more, or three or more, or four or more, or five or more, or six or more, or seven or more, or eight or more, or nine or more, or ten or more) recurring cancer-associated mutations from a blood or urine sample, indicating early recurrence or metastasis of breast cancer, bladder cancer, or colorectal cancer ; and administering the compound to an individual where the compound is known to be effective in treating breast cancer, bladder cancer, or colorectal cancer having one or more recurrent cancer-associated mutations found in the blood or urine sample.
[86] Дополнительный аспект изобретения, представленного в настоящем документе, относится к способу мониторинга или прогнозирования ответа на лечение рака молочной железы, рака мочевого пузыря или колоректального рака, включающему отбор в динамике одной или более проб крови или мочи от пациента, который подвергается лечению рака молочной железы, рака мочевого пузыря или колоректального рака; получение набора ампликонов путем проведения реакции мультиплексной амплификации на нуклеиновых кислотах, выделенных из каждой пробы крови или мочи или их фракции, где каждый ампликон из набора ампликонов охватывает по меньшей мере одну повторяющуюся, связанную с раком мутацию (например, раковая мутация горячей точки, маркер, связанный с лекарственной устойчивостью, мутация раковой панели) из набора из по меньшей мере из 8 или 16 повторяющихся мутаций, связанных с раком молочной железы, раком мочевого пузыря или колоректальным раком; и определение последовательности по меньшей мере сегмента каждого ампликона из набора ампликонов, который включает повторяющуюся, ассоциированную с раком мутацию, где обнаружение одной илиболее (или двух или более, или трех или более, или четырех или более, или пяти или более, или шести или более, или семи или более, или восьми или более, или девяти или более, или десяти или более) повторяющихся, связанных с раком мутаций из образца крови или мочи указывают на слабый ответ на лечение рака молочной железы, рака мочевого пузыря или колоректального рака.[86] A further aspect of the invention provided herein relates to a method for monitoring or predicting response to treatment for breast cancer, bladder cancer or colorectal cancer, comprising over time collecting one or more blood or urine samples from a patient who is undergoing cancer treatment breast, bladder or colorectal cancer; producing a set of amplicons by performing a multiplex amplification reaction on nucleic acids isolated from each blood or urine sample or fraction thereof, wherein each amplicon of the set of amplicons covers at least one recurrent cancer-associated mutation (e.g., cancer hot spot mutation, marker, drug resistance associated, cancer panel mutation) from a set of at least 8 or 16 recurrent mutations associated with breast cancer, bladder cancer or colorectal cancer; and determining the sequence of at least a segment of each amplicon from the set of amplicons that includes a recurrent cancer-associated mutation, wherein the detection of one or more (or two or more, or three or more, or four or more, or five or more, or six or more, or seven or more, or eight or more, or nine or more, or ten or more) recurring cancer-related mutations from a blood or urine sample indicate a poor response to treatment for breast cancer, bladder cancer, or colorectal cancer.
[87] В дополнение или в качестве альтернативы первоначальному выявлению соматических мутаций из образца опухоли пациента, у которого диагностирован рак молочной железы, рак мочевого пузыря или колоректальный рак, способы, представленные в настоящем документе, также могут основываться на выявлении соматических мутаций из других биологические образцов пациентов, таких как кровь, сыворотка, плазма, моча, волосы, слезы, слюна, кожа, ногти, кал, желчь, лимфа, цервикальная слизь или сперма.[87] In addition to or as an alternative to initially identifying somatic mutations from a tumor sample of a patient diagnosed with breast cancer, bladder cancer, or colorectal cancer, the methods presented herein can also rely on the detection of somatic mutations from other biological samples patients, such as blood, serum, plasma, urine, hair, tears, saliva, skin, nails, feces, bile, lymph, cervical mucus or semen.
[88] Соответственно, дополнительный аспект изобретения, представленного в настоящем документе, относится к способу мониторинга и выявления раннего рецидива или метастазирования рака молочной железы, рака мочевого пузыря или колоректального рака, включающему выбор множества локусов геномных вариантов (например, ОНВ, вставка/делеция, вариант с множеством нуклеотидов и слияние генов) на основе соматических мутаций, идентифицированных в биологическом образце, включающем связанные с раком мутации (например, кровь, сыворотка, плазма, моча, волосы, слезы, слюна, кожа, ногти, кал, желчь, лимфа, цервикальная слизь или сперма) пациента, у которого был диагностирован рак молочной железы, рак мочевого пузыря или колоректальный рак; отбор в динамике одного или более образцов крови или мочи от пациента после того, как пациент подвергся операции, химиотерапии первой линии и/или адъювантной терапии; получение набора ампликонов путем проведения реакции мультиплексной амплификации на нуклеиновых кислотах, выделенных из каждой пробы крови или мочи или их фракции, причем каждый ампликон из набора ампликонов охватывает по меньшей мере один локус геномных вариантов из набора специфичных для пациента локусов геномных вариантов, связанных с раком молочной железы, раком мочевого пузыря или колоректальным раком; и определение последовательности по меньшей мере сегмента каждого ампликона из набора ампликонов, который содержит специфичный для пациента локус геномных вариантов, в котором обнаруживают один или более (или два или более, или три или более, или четыре или более, или пять или более, или шесть или более, или семь или более, или восемь или более, или девять или более, или десять или более) специфичных для пациента геномных вариантов из образца крови или мочи, что указывает на ранний рецидив или метастазирование рака молочной железы, рака мочевого пузыря или колоректального ракa.[88] Accordingly, an additional aspect of the invention presented herein relates to a method for monitoring and detecting early recurrence or metastasis of breast cancer, bladder cancer or colorectal cancer, comprising selecting multiple genomic variant loci (e.g., HB, insertion/deletion, multinucleotide variant and gene fusion) based on somatic mutations identified in a biological sample including cancer-associated mutations (eg, blood, serum, plasma, urine, hair, tears, saliva, skin, nails, feces, bile, lymph, cervical mucus or semen) from a patient who has been diagnosed with breast cancer, bladder cancer, or colorectal cancer; collecting one or more blood or urine samples over time from a patient after the patient has undergone surgery, first-line chemotherapy, and/or adjuvant therapy; obtaining a set of amplicons by performing a multiplex amplification reaction on nucleic acids isolated from each blood or urine sample or fraction thereof, wherein each amplicon from the set of amplicons covers at least one genomic variant locus from a set of patient-specific genomic variant loci associated with breast cancer glands, bladder or colorectal cancer; and determining the sequence of at least a segment of each amplicon from the set of amplicons that contains a patient-specific locus of genomic variants in which one or more (or two or more, or three or more, or four or more, or five or more, or six or more, or seven or more, or eight or more, or nine or more, or ten or more) patient-specific genomic variants from a blood or urine sample, indicating early recurrence or metastasis of breast cancer, bladder cancer, or colorectal cancer.
[89] Дополнительный аспект изобретения, представленного в настоящем документе, относится к способу лечения рака молочной железы, рака мочевого пузыря или колоректального рака, включающему лечение пациента, у которого был диагностирован рак молочной железы, рак мочевого пузыря или колоректальный рак, при помощи операции, химиотерапии первой линии и/или адъювантной терапии; отбора в динамике одного или более образцов крови или мочи от пациента; получение набора ампликонов путем проведения реакции мультиплексной амплификации на нуклеиновых кислотах, выделенных из каждого образца крови или мочи или их фракции, причем каждый ампликон из набора ампликонов охватывает по меньшей мере один локус геномных вариантов (например, ОНВ, вставка/делеция, вариант с множеством нуклеотидов и слияние генов) набора из по меньшей мере 8 или 16 специфичных для пациента локусов геномных вариантов, связанных с раком молочной железы, раком мочевого пузыря или колоректальным раком, которые были отобраны на основе соматических мутаций, идентифицированных в биологическом образце пациента, содержащего мутации, связанные с раком (например, кровь, сыворотка, плазма, моча, волосы, слезы, слюна, кожа, ногти, кал, желчь, лимфа, цервикальная слизь или сперма); определение последовательности по меньшей мере сегмента каждого ампликона из набора ампликонов, который содержит специфичный для пациента локус геномных вариантов, при этом обнаружение одного или более (или двух или более, или трех или более, или четырех или более, или пяти или более, или шести или более, или семи или более, или восьми или более, или девяти или более, или десяти или более) специфичных для пациента вариантов генома из образца крови или мочи указывают на ранний рецидив или метастазирование рака молочной железы, рака мочевого пузыря или колоректального рака; и введение соединения индивидууму, где, как известно, соединение эффективно для лечения рака молочной железы, рака мочевого пузыря или колоректального рака, имеющего один или более геномных вариантов, обнаруженных из образца крови или мочи.[89] A further aspect of the invention provided herein relates to a method of treating breast cancer, bladder cancer or colorectal cancer, comprising treating a patient who has been diagnosed with breast cancer, bladder cancer or colorectal cancer with surgery, first-line chemotherapy and/or adjuvant therapy; dynamically collecting one or more blood or urine samples from the patient; obtaining a set of amplicons by performing a multiplex amplification reaction on nucleic acids isolated from each blood or urine sample or fraction thereof, wherein each amplicon from the set of amplicons covers at least one locus of genomic variants (e.g., HB, insertion/deletion, multiple nucleotide variant and gene fusion) a set of at least 8 or 16 patient-specific genomic variant loci associated with breast cancer, bladder cancer or colorectal cancer that have been selected on the basis of somatic mutations identified in a patient biological sample containing mutations associated with cancer (eg, blood, serum, plasma, urine, hair, tears, saliva, skin, nails, feces, bile, lymph, cervical mucus or semen); determining the sequence of at least a segment of each amplicon from a set of amplicons that contains a patient-specific locus of genomic variants, wherein detecting one or more (or two or more, or three or more, or four or more, or five or more, or six or more, or seven or more, or eight or more, or nine or more, or ten or more) patient-specific genomic variants from a blood or urine sample indicate early recurrence or metastasis of breast cancer, bladder cancer, or colorectal cancer; and administering the compound to an individual where the compound is known to be effective for treating breast cancer, bladder cancer or colorectal cancer having one or more genomic variants detected from a blood or urine sample.
[90] Дополнительный аспект изобретения, представленного в настоящем документе, относится к способу мониторинга или прогнозирования ответа на лечение рака молочной железы, рака мочевого пузыря или колоректального рака, включающему отбор в динамике одной или более проб крови или мочи от пациента, который подвергается лечению рака молочной железы, рака мочевого пузыря или колоректального рака; получение набора ампликонов путем проведения реакции мультиплексной амплификации на нуклеиновых кислотах, выделенных из каждого образца крови или мочи или их фракции, причем каждый ампликон из набора ампликонов охватывает по меньшей мере один локус геномных вариантов (например, ОНВ, вставка/делеция, вариант с множеством нуклеотидов и слияние генов) набора из по меньшей мере 8 или 16 специфичных для пациента локусов геномных вариантов, связанных с раком молочной железы, раком мочевого пузыря или колоректальным раком, которые были отобраны на основе соматических мутаций, идентифицированных в биологическом образце пациента, содержащем мутации, ассоциированные с раком (например, кровь, сыворотка, плазма, моча, волосы, слезы, слюна, кожа, ногти, кал, желчь, лимфа, цервикальная слизь или сперма); и определение последовательности по меньшей мере сегмента каждого ампликона из набора ампликонов, который содержит специфичный для пациента локус геномных вариантов, в которых обнаруживают один или более (или два или более, или три или более, или четыре или более, или пять или более, или шесть или более, или семь или более, или восемь или более, или девять или более, или десять или более) специфичных для пациента вариантов генома из образца крови или мочи, что указывает на слабый ответ на лечение рака молочной железы, рака мочевого пузыря или колоректального ракa.[90] A further aspect of the invention provided herein relates to a method for monitoring or predicting response to treatment for breast cancer, bladder cancer or colorectal cancer, comprising over time collecting one or more blood or urine samples from a patient who is undergoing cancer treatment breast, bladder or colorectal cancer; obtaining a set of amplicons by performing a multiplex amplification reaction on nucleic acids isolated from each blood or urine sample or fraction thereof, wherein each amplicon from the set of amplicons covers at least one locus of genomic variants (for example, HB, insertion/deletion, multiple nucleotide variant and gene fusion) a set of at least 8 or 16 patient-specific genomic variant loci associated with breast cancer, bladder cancer or colorectal cancer that have been selected on the basis of somatic mutations identified in a patient biological sample containing mutations associated with cancer (eg, blood, serum, plasma, urine, hair, tears, saliva, skin, nails, feces, bile, lymph, cervical mucus or semen); and determining the sequence of at least a segment of each amplicon from the set of amplicons that contains the patient-specific locus of genomic variants in which one or more (or two or more, or three or more, or four or more, or five or more, or six or more, or seven or more, or eight or more, or nine or more, or ten or more) patient-specific genomic variants from a blood or urine sample, indicating poor response to treatment for breast cancer, bladder cancer, or colorectal cancer.
[91] Другие варианты воплощения, особенности и преимущества раскрываемых изобретений будут очевидны из следующего подробного описания и из формулы изобретения.[91] Other embodiments, features and advantages of the disclosed inventions will be apparent from the following detailed description and claims.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙBRIEF DESCRIPTION OF THE DRAWINGS
[92] Файл патента или заявки содержит по меньшей мере один чертеж, выполненный в цвете. Копии этого патента или публикации патентной заявки с цветным(и) чертежом(ами) будут предоставлены Ведомством по запросу и при уплате необходимой пошлины.[92] The patent or application file contains at least one drawing in color. Copies of this patent or patent application publication with color drawing(s) will be made available by the Office upon request and upon payment of the required fee.
[93] Раскрываемые в настоящем документе варианты воплощения будут дополнительно объяснены со ссылкой на приложенные чертежи, на которых одинаковые структуры обозначены одинаковыми номерами на нескольких видах. Показанные чертежи не обязательно выполнены в масштабе, вместо этого, как правило, делается акцент на иллюстрации принципов вариантов воплощения, раскрываемых в настоящее время.[93] The embodiments disclosed herein will be further explained with reference to the accompanying drawings, in which like structures are designated by like numerals in multiple views. The drawings shown are not necessarily to scale, but instead tend to focus on illustrating the principles of the embodiments currently disclosed.
[94] ФИГ. 1 представляет собой диаграмму рабочего процесса.[94] FIG. 1 is a workflow diagram.
[95] ФИГ. 2 Верхняя панель: количество ОНВ на образец; нижняя панель: рабочие тесты, отсортированные по категории драйвера.[95] FIG. 2 Top panel: number of NDCs per sample; bottom panel: performance tests sorted by driver category.
[96] ФИГ. 3. Измеренная концентрация скДНК. Каждая точка данных относится к образцу плазмы.[96] FIG. 3. Measured concentration of scDNA. Each data point refers to a plasma sample.
[97] ФИГ.4. Образцы, демонстрирующие хорошую корреляцию между измерениями ЧВА ткани, определенными ранее (ось х), и в данном случае с использованием мПЦР-СНП (ось у). Каждый образец показан в отдельной рамке, а точки данных ЧВА окрашены соответственно участку ткани.[97] FIG. 4. Samples showing good correlation between tissue FNA measurements determined previously (x-axis) and in this case using mPCR-SNP (y-axis). Each sample is shown in a separate frame, and the FNA data points are colored according to the tissue region.
[98] ФИГ. 5. Образцы, демонстрирующие слабую корреляцию между измерениями ЧВА ткани, определенными ранее (ось х), и в данном случае с использованием мПЦР-СНП (ось у). Каждый образец показан в отдельной рамке, а точки данных ЧВА окрашены соответственно участку ткани.[98] FIG. 5. Samples showing weak correlation between tissue FNA measurements determined previously (x-axis) and in this case using mPCR-SNP (y-axis). Each sample is shown in a separate frame, and the FNA data points are colored according to the tissue region.
[99] ФИГ. 6A-B. Гистограмма глубины считывания в зависимости от полученного распознавания. Вверху: анализ не обнаружил ожидаемого ОНВ плазмы. Внизу: анализ обнаружил ожидаемый ОНВ плазмы.[99] FIG. 6A-B. Histogram of reading depth depending on the received recognition. Top: The analysis did not detect the expected plasma NDC. Bottom: The analysis detected the expected plasma NDC.
[100] ФИГ.7. Количество ОНВ, обнаруженных в плазме, в соответствии с гистологическим типом.[100] FIG. 7. Number of ONVs detected in plasma according to histological type.
[101] ФИГ.8. Обнаружение ОНВ (слева) и обнаружение образца (справа) в плазме по стадии опухоли.[101] FIG. 8. ONV detection (left) and sample detection (right) in plasma by tumor stage.
[102] ФИГ.9. ЧВА плазмы как функция стадии опухоли и клональности ОНВ.[102] FIG. 9. Plasma NVA as a function of tumor stage and CNV clonality.
[103] ФИГ.10. Количество ОНВ, обнаруженных в плазме из каждого образца, как функция количества вводимой скДНК.[103] FIG. 10. Number of ONVs detected in plasma from each sample as a function of the amount of cDNA input.
[104] ФИГ.11. ЧВА плазмы как функция средней ЧВА опухоли. Средняя ЧВА опухоли была рассчитана по всем опухолевым участкам, проанализированным по каждой опухоли.[104] FIG. 11. Plasma NVA as a function of the average tumor NVA. The average tumor NNA was calculated across all tumor sites analyzed for each tumor.
[105] ФИГ. 12 показывает соотношение клонов (красный к синему) и частоту мутантов вариантного аллеля (MутЧВА) каждого обнаруженного ОНВ. Общее количество ОНВ, обнаруженное в каждом образце, помещается в один столбец, и образцы классифицируются по стадии опухоли (стадия pTNM). Включены образцы без обнаруженных ОНВ. Клональное соотношение определяется как отношение между количеством опухолевых участков, в которых наблюдался ОНВ, и общим количеством участков, проанализированных из этой опухоли.[105] FIG. Figure 12 shows the clone ratio (red to blue) and the mutant variant allele frequency (MyTVA) of each detected NCB. The total number of NNVs detected in each sample is placed in one column, and samples are classified by tumor stage (pTNM stage). Samples without detected NDCs were included. The clonal ratio is defined as the ratio between the number of tumor sites in which a CNV was observed and the total number of sites analyzed from that tumor.
[106] ФИГ. 13 демонстрирует клональный статус (синий для клонального и красный для субклонального) и мутантную частоту вариантного аллеля (МутЧВА) каждого обнаруженного ОНВ. Общее количество ОНВ, обнаруженных в каждом образце, помещается в один столбец, и образцы классифицируются по стадии опухоли (стадия pTNM). Включены образцы без обнаруженных ОНВ. Клональный статус был определен с помощью PyCloneCluster с использованием данных полноэкзомного секвенирования из опухолевой ткани.[106] FIG. Figure 13 shows the clonal status (blue for clonal and red for subclonal) and mutant variant allele frequency (MutFVA) of each detected SNV. The total number of NNVs detected in each sample is placed in one column, and samples are classified by tumor stage (pTNM stage). Samples without detected NDCs were included. Clonal status was determined using PyCloneCluster using whole exome sequencing data from tumor tissue.
[107] ФИГ. 14 показывает клональный статус (синий для клонального и красный для субклонального) и частоту мутантного вариантного аллеля (МутЧВА) каждого обнаруженного ОНВ, где верхняя панель показывает только клональные ОНВ, а нижняя панель показывает только субклональные ОНВ. Общее количество ОНВ, обнаруженное в каждом образце, помещается в один столбец, и образцы классифицируются по стадии опухоли (стадия pTNM). Включены образцы без обнаруженных ОНВ. Клональный статус был определен с помощью PyCloneCluster с использованием данных о полноэкзомном секвенировании всего экзома из опухолевой ткани.[107] FIG. 14 shows the clonal status (blue for clonal and red for subclonal) and mutant variant allele frequency (MutVA) of each detected NNV, where the top panel shows only clonal NNV and the lower panel shows only subclonal NNV. The total number of NNVs detected in each sample is placed in one column, and samples are classified by tumor stage (pTNM stage). Samples without detected NDCs were included. Clonal status was determined using PyCloneCluster using whole exome sequencing data from tumor tissue.
[108] ФИГ. 15 демонстрирует количество ОНВ, выявленных в плазме, как функцию гистологического типа и размера опухоли. Гистологический тип и размер опухоли определены на основе патологического отчета. Каждая точка данных окрашена в соответствии с размером, где красный означает наибольший размер опухоли, а синий означает наименьший размер опухоли.[108] FIG. 15 shows the number of ONVs detected in plasma as a function of histological type and tumor size. The histological type and tumor size were determined based on the pathological report. Each data point is colored according to size, with red representing the largest tumor size and blue representing the smallest tumor size.
[109] ФИГ. 16 представляет собой таблицу анализа скДНК, показывающую концентрацию ДНК, эквиваленты копий генома в подготовке библиотеки, степень гемолиза в плазме и профиль кДНК во всех образцах.[109] FIG. 16 is a cDNA analysis table showing DNA concentration, genome copy equivalents in the library preparation, degree of hemolysis in plasma, and cDNA profile in all samples.
[110] ФИГ. 17 представляет собой таблицу ОНВ, выявленных в плазме для каждого образца.[110] FIG. 17 is a table of the NDCs detected in plasma for each sample.
[111] ФИГ. 18 представляет собой таблицу дополнительных ОНВ, выявленных в плазме.[111] FIG. 18 is a table of additional NCBs identified in plasma.
[112] ФИГ. 19 является примером выявленных анализов и их исходных аллельных фракций для образца плазмы во время рецидива (LTX103).[112] FIG. 19 is an example of the identified assays and their initial allelic fractions for a plasma sample at the time of relapse (LTX103).
[113] ФИГ. 20A-B: Схема клинического и молекулярного протоколов.[113] FIG. 20A-B: Clinical and molecular protocol diagram.
[114] ФИГ. 21: Обзор исследования.[114] FIG. 21: Research Overview.
[115] ФИГ. 22: Резюме пациентов за 36 месяцев наблюдения и сбора плазмы.[115] FIG. 22: Summary of patients for 36 months of follow-up and plasma collection.
[116] ФИГ. 23A-B: Риск рецидива после терапии, стратифицированный по послеоперационному статусу цоДНК.[116] FIG. 23A-B: Risk of relapse after therapy stratified by postoperative ctDNA status.
[117 ФИГ. 24A-B: Риск рецидива после терапии, стратифицированный по послеоперационному статусу цоДНК.[117 FIG. 24A-B: Risk of relapse after therapy stratified by postoperative ctDNA status.
[118] ФИГ. 25: Эффективность адъювантной терапии в профилактике рецидивов.[118] FIG. 25: Efficacy of adjuvant therapy in preventing relapses.
[119] ФИГ. 26A-B: Время до рецидива на основе радиологических исследований и цоДНК.[119] FIG. 26A-B: Time to relapse based on radiological studies and ctDNA.
[120] ФИГ. 27A-D: Раннее выявление рецидива и прогнозирование ответа на лечение.[120] FIG. 27A-D: Early detection of relapse and prediction of response to treatment.
[121] ФИГ. 28: Схема сбора клинических образцов.[121] FIG. 28: Clinical specimen collection flowchart.
[122] ФИГ. 29: КК секвенирования плазмы.[122] FIG. 29: QC plasma sequencing.
[123] ФИГ. 30A-F: Ранее выявление рецидива.[123] FIG. 30A-F: Early detection of relapse.
[124] ФИГ. 31: Безрецидивная выживаемость и статус цоДНК на момент постановки диагноза и после цистэктомии.[124] FIG. 31: Disease-free survival and ctDNA status at diagnosis and after cystectomy.
[125] ФИГ. 32A-B: Ответ на неоадъювантное лечение.[125] FIG. 32A-B: Response to neoadjuvant treatment.
[126] ФИГ. 33: Процесс Signatera (RUO).[126] FIG. 33: Signatera Process (RUO).
[127] ФИГ. 34: КК секвенирования плазмы.[127] FIG. 34: QC plasma sequencing.
[128] ФИГ. 35: Чувствительность выявления единичного ОНВ.[128] FIG. 35: Sensitivity of detecting a single NVG.
[129] ФИГ. 36: Ожидаемый ввод против Наблюдаемая ЧВА с Signatera (RUO).[129] FIG. 36: Expected Input vs. Observed NEA with Signatera (RUO).
[130] ФИГ. 37: Резюме пациентов для исследования рака молочной железы в Примере 6.[130] FIG. 37: Summary of patients for the breast cancer study in Example 6.
[131] ФИГ. 38A-H: представляет собой таблицу информации об образцах, проанализированных в исследовании Примера 6. ФИГ. 38А является частью 1 таблицы. ФИГ. 38B является продолжением таблицы. ФИГ. 38С является продолжением таблицы. ФИГ. 38D является продолжением таблицы. ФИГ. 38Е является продолжением таблицы. 38F является продолжением таблицы. ФИГ. 38G является продолжением таблицы. ФИГ. 38Н является продолжением таблицы.[131] FIG. 38A-H: is a table of information about the samples analyzed in the study of Example 6. FIG. 38A is part 1 of the table. FIG. 38B is a continuation of the table. FIG. 38C is a continuation of the table. FIG. 38D is a continuation of the table. FIG. 38E is a continuation of the table. 38F is a continuation of the table. FIG. 38G is a continuation of the table. FIG. 38H is a continuation of the table.
[132] ФИГ. 39: Демография пациентов в исследовании рака молочной железы из Примера 6. Исходные данные ПЭС, полученные от 50 пациентов (с вариантами драйвера для 35 пациентов). Было получено 218 образцов плазмы в различные моменты времени (от 1 до 8). Было получено 108 дополнительных выделенных образцов ДНК. Также был собран статус рецидива. Образцы крови были собраны после адъювантной терапии с интервалами в 6 месяцев.[132] FIG. 39: Patient demographics in the breast cancer study from Example 6. Raw PES data obtained from 50 patients (with driver variations for 35 patients). 218 plasma samples were obtained at various time points (from 1 to 8). 108 additional isolated DNA samples were obtained. Relapse status was also collected. Blood samples were collected after adjuvant therapy at 6-month intervals.
[133] ФИГ. 40: Резюме анализа ПЭС и дизайна пула для исследования рака молочной железы в Примере 6. Пул A основан на способе Signatera. Пул B включает 25 пациентов и обозначен звездочкой на столбчатой диаграмме и диаграмме типа «ящик с усами». 19 пациентов в пуле В имели низкую беспримесность опухоли. У 6 пациентов были очень ранние стадии опухолей HER2-. Пул B содержит варианты драйверов.[133] FIG. 40: Summary of PES analysis and pool design for the breast cancer study in Example 6. Pool A is based on the Signatera method. Pool B contains 25 patients and is indicated by an asterisk in the bar and box plots. 19 patients in pool B had low tumor purity. 6 patients had very early stage HER2- tumors. Pool B contains driver options.
[134] ФИГ. 41: Образцы плазмы для исследования рака молочной железы в Примере 6. Медианный объем плазмы составлял 4 мл. Медианный ввод ДНК составлял 26 нг. Медианный ввод ДНК ниже, чем у образцов КРР и МИРМП (соответственно, 45 нг и 66 нг).[134] FIG. 41: Plasma samples for breast cancer study in Example 6. Median plasma volume was 4 ml. The median DNA input was 26 ng. The median DNA input is lower than that of CRC and MIBC samples (45 ng and 66 ng, respectively).
[135] ФИГ. 42: Контроль качества секвенирования, отображающий медианную частоту ошибок процесса для каждого типа и медианную глубину анализа для исследования рака молочной железы в Примере 6. Всего было обработано 326 образцов секвенирования плазмы. Коэффициент ложных распознаваний мутаций оценивается в 0,28%.[135] FIG. 42: Sequencing quality control showing the median process error rate for each type and the median depth of analysis for the breast cancer study in Example 6. A total of 326 plasma sequencing samples were processed. The false mutation detection rate is estimated at 0.28%.
[136] ФИГ. 43: Повторные исследования для образцов плазмы для исследования рака молочной железы в Примере 6. 319 секвенированных образцов с 214 уникальными образцами плазмы представлены для 49 пациентов.[136] FIG. 43: Replicate studies for plasma samples for breast cancer research in Example 6. 319 sequenced samples with 214 unique plasma samples are presented for 49 patients.
[137] ФИГ. 44: Результаты из Пула А для исследования рака молочной железы в Примере 6. Из 49 пациентов 11 были исходно положительными. 3 имеют только одну временную точку. Оставшиеся 8 пациентов все время остаются положительными. Пул B и драйвер дали аналогичные результаты. Информация о драйвере: 16 образцов с рецидивом имеют мутации драйвера. 11 образцов с рецидивом имеют по меньшей мере один анализ с драйвером.[137] FIG. 44: Results from Pool A for the breast cancer study in Example 6. Of the 49 patients, 11 were initially positive. 3 have only one time point. The remaining 8 patients remain positive all the time. Pool B and driver produced similar results. Driver information: 16 relapsed samples have driver mutations. 11 relapse samples had at least one driver assay.
[138] ФИГ. 45: Резюме 16 пациентов с обнаруженной цоДНК.[138] FIG. 45: Summary of 16 patients with detected ctDNA.
[139] ФИГ. 46: Графическое изображение данных, соответствующих пациенту CD047 (TNBC) на ФИГ. 38.[139] FIG. 46: Graphical representation of data corresponding to patient CD047 (TNBC) in FIG. 38.
[140] ФИГ. 47: Графическое изображение данных, соответствующих пациенту CD033 (TNBC) на ФИГ. 38.[140] FIG. 47: Graphical representation of data corresponding to patient CD033 (TNBC) in FIG. 38.
[141] ФИГ. 48: Графическое изображение данных, соответствующих пациенту CD037 (HER2+) на ФИГ. 38.[141] FIG. 48: Graphical representation of data corresponding to patient CD037 (HER2+) in FIG. 38.
[142] ФИГ. 49: Графическое изображение данных, соответствующих пациенту CD040 (HER2+) на ФИГ. 38.[142] FIG. 49: Graphical representation of data corresponding to patient CD040 (HER2+) in FIG. 38.
[143] ФИГ. 50: Графическое изображение данных, соответствующих пациенту CD048 (HER2-) на ФИГ. 38.[143] FIG. 50: Graphical representation of data corresponding to patient CD048 (HER2-) in FIG. 38.
[144] ФИГ. 51: Графическое изображение данных, соответствующих пациенту CD005 (HER2-) на ФИГ. 38.[144] FIG. 51: Graphical representation of data corresponding to patient CD005 (HER2-) in FIG. 38.
[145] ФИГ. 52: Графическое изображение данных, соответствующих пациенту CD036 (HER2-) на ФИГ. 38.[145] FIG. 52: Graphical representation of data corresponding to patient CD036 (HER2-) in FIG. 38.
[146] ФИГ. 53: Графическое изображение данных, соответствующих пациенту CD044 (HER2-) на ФИГ. 38.[146] FIG. 53: Graphical representation of data corresponding to patient CD044 (HER2-) in FIG. 38.
[147] ФИГ. 54: Графическое изображение данных, соответствующих пациенту CD049 на ФИГ. 38.[147] FIG. 54: Graphical representation of data corresponding to patient CD049 in FIG. 38.
[148] ФИГ. 55: Графическое изображение данных, соответствующих пациенту CD029 на ФИГ. 38.[148] FIG. 55: Graphical representation of data corresponding to patient CD029 in FIG. 38.
[149] ФИГ. 56: Графическое изображение данных, соответствующих пациенту CD026 на ФИГ. 38.[149] FIG. 56: Graphical representation of data corresponding to patient CD026 in FIG. 38.
[150] ФИГ. 57: Графическое изображение данных, соответствующих пациенту CD017 на ФИГ. 38. [150] FIG. 57: Graphical representation of data corresponding to patient CD017 in FIG. 38.
[151] ФИГ. 58: Графическое изображение данных, соответствующих пациенту CD031 на ФИГ. 38. HW: SHC2, PKD1, COLEC12.[151] FIG. 58: Graphical representation of data corresponding to patient CD031 in FIG. 38. HW: SHC2, PKD1, COLEC12.
[152] ФИГ. 59: Графическое изображение данных, соответствующих пациенту CD025 на ФИГ. 38. У этого пациента цоДНК исследовали на наличие мутации в FGF9 в течение 2 последовательных временных точек. Этот пациент может иметь рецидив в ближайшем будущем.[152] FIG. 59: Graphical representation of data corresponding to patient CD025 in FIG. 38. In this patient, ctDNA was examined for the presence of a mutation in FGF9 at 2 consecutive time points. This patient may have a relapse in the near future.
[153] ФИГ. 60: Включение пациентов и сбор клинических образцов. Для 49 женщин с раком молочной железы, находящихся под наблюдением в этом исследовании, собранные образцы опухолевой ткани и серийные образцы плазмы были проанализированы слепым методом с использованием рабочего процесса Signatera™ RUO. Изменения экзома определяли путем секвенирования спаренных концов в зафиксированных формалином и залитых парафином (FFPE) образцах опухолевой ткани и в соответствующей нормальной ДНК. Были разработаны специальные панели для пациентов, включающие 16 соматических мутаций, идентифицированных с помощью ПЭС. Образцы плазмы были обработаны с использованием соответствующих индивидуальных панелей. Для выявления цоДНК было проанализировано 208 образцов.[153] FIG. 60: Patient enrollment and clinical specimen collection. For the 49 women with breast cancer followed in this study, collected tumor tissue samples and serial plasma samples were analyzed in a blinded manner using the Signatera™ RUO workflow. Exome alterations were determined by paired-end sequencing of formalin-fixed paraffin-embedded (FFPE) tumor tissue samples and matched normal DNA. Patient-specific panels were developed that included 16 somatic mutations identified by PES. Plasma samples were processed using appropriate individual panels. A total of 208 samples were analyzed to detect ctDNA.
[154] ФИГ. 61A-C: Краткий обзор и результаты анализа цоДНК. (A) Краткое изложение схемы лечения каждого пациента (n=49) и результаты анализа серийных образцов плазмы (n=208). (B) Сводная таблица, показывающая общее количество пациентов в каждом подтипе рака молочной железы, число рецидивов, процент, обнаруженный с помощью анализа цоДНК, и медианное время упреждения в днях. (C) Сравнение молекулярного и клинического рецидива, окрашенного в соответствии с подтипом рака молочной железы - HR+, HER2+, TNBC, с использованием парного рангового критерия Вилкоксона (значение p меньше 0,001).[154] FIG. 61A-C: Summary and results of ctDNA analysis. (A) Summary of each patient's treatment regimen (n=49) and results of analysis of serial plasma samples (n=208). (B) Summary table showing the total number of patients in each breast cancer subtype, number of recurrences, percentage detected by ctDNA analysis, and median lead time in days. (C) Comparison of molecular and clinical recurrence colored according to breast cancer subtype - HR+, HER2+, TNBC using paired Wilcoxon signed rank test (p value less than 0.001).
[155] ФИГ. 62A-B: Обнаружение цоДНК в серийных образцах плазмы предсказывает безрецидивную выживаемость (A) Безрецидивная выживаемость в соответствии с обнаружением цоДНК в любых последующих образцах плазмы после операции [ОР: 35,84 (7,9626 - 161,32] значение p меньше 0,001. (B Безрецидивная выживаемость по данным выявления цоДНК в первом послеоперационном образце плазмы [ОР: 11,784 (4,2784 - 32,457]. Данные получены от n = 49 пациентов со значением p меньше 0,001.[155] FIG. 62A-B: Detection of ctDNA in serial plasma samples predicts disease-free survival (A) Disease-free survival according to detection of ctDNA in any subsequent plasma samples after surgery [HR: 35.84 (7.9626 - 161.32] p value less than 0.001. (B Disease-free survival based on detection of ctDNA in the first postoperative plasma sample [HR: 11.784 (4.2784 - 32.457). Data are from n = 49 patients with a p value less than 0.001.
[156] ФИГ. 63: (A-E) Уровни в плазме цоДНК в нескольких временных точках плазмы для пяти пациентов с раком молочной железы (по одному на панель). Полноэкзомное секвенирование первичной опухоли и соответствующего контроля идентифицировало специфические для пациента соматические мутации. Используя аналитически подтвержденный рабочий процесс Signatera™ RUO, каждый анализ для конкретного пациента был разработан для определения 16 соматических ОНВ и вариантов вставок/делеций с использованием массового параллельного секвенирования (медианная глубина более 100000X на мишень). Медианные значения ЧВА обозначены синим кружком, а сплошная линия представляет средний профиль ЧВА по времени. Время упреждения рассчитывается по разнице для клинического рецидива и молекулярного рецидива. Уровни CA15-3 отображаются в зависимости от времени, а исходные уровни отмечены светло-голубым оттенком. (F) Сводная информация о ЧВА и количестве мишеней, обнаруженных при молекулярном и клиническом рецидиве, для всех положительных по цоДНК образцов, за исключением пациентов с одной временной точкой.[156] FIG. 63: (A-E) Plasma levels of ctDNA at multiple plasma time points for five breast cancer patients (one per panel). Whole exome sequencing of the primary tumor and matched controls identified patient-specific somatic mutations. Using the analytically validated Signatera™ RUO workflow, each patient-specific assay was designed to identify 16 somatic ONVs and insertion/deletion variants using massively parallel sequencing (median depth greater than 100,000X per target). Median NVA values are indicated by a blue circle, and the solid line represents the average NVA profile over time. Lead time is calculated by the difference for clinical relapse and molecular relapse. CA15-3 levels are plotted over time, with baseline levels indicated in a light blue hue. (F) Summary of NFA and number of targets detected at molecular and clinical relapse for all ctDNA-positive samples excluding single time point patients.
[157] ФИГ. 64A-C: Стратегия Signatera выбора варианта для 49 специфических для пациентов панелей. (Вверху) Распределение ЧВА опухолевой ткани на индивидуальной панели пациента. Разные цвета представляют разные подтипы: HER2- (темно-синий), трижды негативный (оранжевый) и HER2+ (зеленый). (В центре) Количество предполагаемых клональных и субклональных вариантов на индивидуальной панели пациентов. Медианное число клональных вариантов на 49 индивидуальных панелях составляет 13 из 16. (Внизу) Количество предполагаемых клональных и субклональных вариантов в данных ПЭС пациентов.[157] FIG. 64A-C: Signatera option selection strategy for 49 patient-specific panels. (Top) Distribution of tumor tissue NVA on an individual patient panel. Different colors represent different subtypes: HER2- (dark blue), triple negative (orange), and HER2+ (green). (Center) Number of putative clonal and subclonal variants in an individual patient panel. The median number of clonal variants across the 49 individual panels is 13 out of 16. (Bottom) Number of putative clonal and subclonal variants in patient PES data.
[158] ФИГ. 65: (A-L) Уровни цоДНК в плазме во множественных временных точках плазмы для 12 (11 рецидивных и 1 безрецидивный) пациентов с раком молочной железы. Полноэкзомное секвенирование первичной опухоли и соответствующего контроля идентифицировало специфические для пациента соматические мутации. Используя аналитически подтвержденный рабочий процесс Signatera™, каждый анализ для конкретного пациента был разработан для определения 16 соматических ОНВ и вариантов вставок/делеций с использованием массового параллельного секвенирования (средняя глубина более 100000X на мишень). Средние значения ЧВА обозначены синим кружком, а сплошная линия представляет средний профиль ЧВА в зависимости от времени. Время упреждения рассчитывается по разнице для клинического рецидива и молекулярного рецидива. Уровни CA15-3 отображаются в зависимости от времени, а исходные уровни отмечены светло-голубым оттенком.[158] FIG. 65: (A-L) Plasma ctDNA levels at multiple plasma time points for 12 (11 relapsed and 1 nonrelapsed) patients with breast cancer. Whole exome sequencing of the primary tumor and matched controls identified patient-specific somatic mutations. Using the analytically validated Signatera™ workflow, each patient-specific assay was designed to identify 16 somatic ONVs and insertion/deletion variants using massively parallel sequencing (average depth greater than 100,000X per target). The mean NVA values are indicated by the blue circle, and the solid line represents the average NVA profile over time. Lead time is calculated by the difference for clinical relapse and molecular relapse. CA15-3 levels are plotted over time, with baseline levels indicated in a light blue hue.
[159] ФИГ. 66: Распределение ЧВА и количества мутантов. Всего в цоДНК-позитивных образцах плазмы обнаружена 251 мишень. ЧВА обнаруженных мишеней варьировалась от 0,01% до 64% с медианным значением 0,82%. Мы использовали наблюдаемую ЧВА с мутациями и общее количество молекул ДНК в каждом образце для расчета количества молекул опухоли, присутствующих в образце плазмы пациента. Количество обнаруженных мутантных молекул в 251 положительной мишени варьировалось от 1 до 6500 мутантных молекул, с медианным значением 39 молекул.[159] FIG. 66: Distribution of NVA and number of mutants. A total of 251 targets were detected in ctDNA-positive plasma samples. The NVA of detected targets ranged from 0.01% to 64% with a median value of 0.82%. We used the observed mutation-specific TNA and the total number of DNA molecules in each sample to calculate the number of tumor molecules present in the patient's plasma sample. The number of mutant molecules detected in the 251 positive targets ranged from 1 to 6500 mutant molecules, with a median of 39 molecules.
[160] ФИГ. 67A-D: Процесс контроля качества Signatera: Контроль качества проводился на каждом этапе рабочего процесса. Всего из 215 образцов плазмы 208 прошли процесс контроля качества образцов, и из 784 разработанных уникальных анализов 767 анализов прошли контроль качества анализа (что соответствует, в общей сложности, 3237 тестам, из которых 3328 были пройдены по всем образцам). A) Экстрагированная скДНК на мл. скДНК, экстрагированную из каждого образца плазмы количественно оценивали при помощи набора для теста Quant-iT High Sensitivity dsDNA Assay Kit. Образцы, где количество скДНК было менее 5 нг отмечались как ВНИМАНИЕ. Экстрагированная скДНК на мл была в диапазоне от 1 до 21,4 нг при медиане 4,7 нг. B) Подготовка ввода количества ДНК для библиотеки. В протоколе подготовки библиотеки в качестве ввода использовали до 66 нг скДНК из каждого образца плазмы. Количество вводимой ДНК для библиотеки варьировалось от 1 до 66 нг при медиане 25,02. Очищенные библиотеки перед переходом к следующему этапу подвергались контролю качества. C) Охват секвенированием. Тестирования с охватом менее 5000х были исключены из анализа. Впоследствии образцы, прошедшие менее 8 тестирований, не прошли контроль качества охвата последовательности. Медианная глубина считывания для анализов, прошедших тестирование КК, составила 110000x. D) Согласованность образцов. Для отслеживания целостности пробы использовались теги ОНП для измерения согласованности между образцами пациента. Для каждого образца плазмы был рассчитан показатель согласованности генотипирования по сравнению с их соответствующими парными данными генотипирования нормы. Образцы считаются происходящими от одних и тех же пациентов, когда по меньшей мере 85% их ОНВ имели идентичные генотипы. Шесть образцов плазмы, идентифицированных как замена, были исключены из анализов цоДНК.[160] FIG. 67A-D: Signatera Quality Control Process: Quality control was carried out at every stage of the work process. Of the 215 plasma samples, 208 passed the sample quality control process, and of the 784 unique assays developed, 767 assays passed the assay quality control process (representing a total of 3237 tests, of which 3328 were passed across all samples). A) Extracted cDNA per ml. The scDNA extracted from each plasma sample was quantified using the Quant-iT High Sensitivity dsDNA Assay Kit. Samples where the amount of cDNA was less than 5 ng were marked as ATTENTION. Extracted cDNA per ml ranged from 1 to 21.4 ng with a median of 4.7 ng. B) Preparing the DNA quantity input for the library. In the library preparation protocol, up to 66 ng of scDNA from each plasma sample was used as input. The amount of DNA input for the library ranged from 1 to 66 ng with a median of 25.02. Purified libraries were subjected to quality control before moving to the next step. C) Sequencing coverage. Tests with coverage less than 5000x were excluded from the analysis. Subsequently, samples with fewer than 8 tests failed sequence coverage quality control. The median read depth for QC tested assays was 110,000x. D) Pattern consistency. To track sample integrity, SNP tags were used to measure consistency between patient samples. A genotyping concordance score was calculated for each plasma sample compared to their corresponding paired normal genotyping data. Samples were considered to originate from the same patients when at least 85% of their SNVs had identical genotypes. Six plasma samples identified as replacements were excluded from ctDNA analyses.
[161] ФИГ. 68A-B: Результаты аналитической валидации. (A) Чувствительность обнаружения одиночной мишени. С помощью Signatera была достигнута аналитическая чувствительность приблизительно 60% для выявления мутаций при приблизительно 0,03% добавленной опухолевой ДНК. (б) Оценка чувствительности на уровне образца для Signatera, когда из набора из 16 вариантов-мишеней обнаружены по меньшей мере две мутации.[161] FIG. 68A-B: Results of analytical validation. (A) Single target detection sensitivity. Using Signatera, an analytical sensitivity of approximately 60% for mutation detection was achieved with approximately 0.03% added tumor DNA. (b) Sample-level sensitivity assessment for Signatera when at least two mutations are detected from a set of 16 target variants.
[162] ФИГ. 69: После скрининга и набора пациентов было проведено 6 ежемесячных заборов крови. Статус HER2 определяли с помощью иммуногистохимического анализа и флуоресцентного анализа гибридизации in situ. Если любой анализ оказывался положительным, считалось, что у пациента рак, положительный по HER2. НАХТ: неоадъювантная химиотерапия АХТ: адъювантная химиотерапия.[162] FIG. 69: After screening and recruitment of patients, 6 monthly blood draws were performed. HER2 status was determined using immunohistochemical analysis and fluorescence in situ hybridization analysis. If either test came back positive, the patient was considered to have HER2-positive cancer. NACT: neoadjuvant chemotherapy ACT: adjuvant chemotherapy.
[163] ФИГ. 70: Диаграмма рабочего процесса для исследования мышечно-инвазивного рака мочевого пузыря в Примере 9.[163] FIG. 70: Workflow diagram for the muscle-invasive bladder cancer study in Example 9.
[164] ФИГ. 71A-G: Резюме пациента для исследования мышечно-инвазивного рака мочевого пузыря в примере 9. ФИГ. 71А показывает частоту синонимичных и несинонимичных мутаций, распознанных из ПЭС. Опухоль одного пациента была подвергнута гипермутации с мутационной нагрузкой 126 мутаций/т.п.н. и она продемонстрировала мутацию POLD1, которая ранее была связана с гипермутаторами. (Campbell, B. B. et al. Comprehensive Analysis of Hypermutation in Human Cancer. Cell 171, 1042-1056.e10 (2017). ФИГ. 71B показывает относительный вклад мутационных сигнатур, связанных с раком мочевого пузыря. ФИГ. 71C показывает мутации в часто мутирующих генах при раке мочевого пузыря (TCGA) (Robertson, A. G. et al. Comprehensive Molecular Characterization of Muscle-Invasive Bladder Cancer. Cell 171, 540-556.e25 (2017)). ФИГ. 71D показывает вредные мутации в генах, связанных с реакцией на повреждения ДНК (DNA damage response - DDR), мутировавших в более чем 5% из 68 образцов. ФИГ. 71E показывает общее количество вредных мутаций DDR. ФИГ. 71F показывает клинические и гистопатологические характеристики. ФИГ. 71G показывает суммарный статус цоДНК.[164] FIG. 71A-G: Patient summary for the muscle-invasive bladder cancer study in Example 9. FIG. 71A shows the frequency of synonymous and nonsynonymous mutations recognized from the RPE. One patient's tumor was hypermutated with a mutational load of 126 mutations/kb. and she demonstrated a POLD1 mutation, which has previously been associated with hypermutators. (Campbell, B.B. et al. Comprehensive Analysis of Hypermutation in Human Cancer. Cell 171, 1042-1056.e10 (2017). FIG. 71B shows the relative contribution of mutational signatures associated with bladder cancer. FIG. 71C shows mutations in commonly mutated genes in bladder cancer (TCGA) (Robertson, A. G. et al. Comprehensive Molecular Characterization of Muscle-Invasive Bladder Cancer. Cell 171, 540-556.e25 (2017)) FIG. 71D shows deleterious mutations in genes associated with the response for DNA damage response (DDR), mutated in more than 5% of 68 samples.FIG. 71E shows the total number of deleterious DDR mutations.FIG.71F shows clinical and histopathological characteristics.FIG.71G shows the total ctDNA status.
[165] ФИГ. 72: Диаграмма с изложением клинического протокола и графика отбора проб для исследования мышечно-инвазивного рака мочевого пузыря в Примере 9.[165] FIG. 72: Diagram outlining the clinical protocol and sampling schedule for the muscle-invasive bladder cancer study in Example 9.
[166] ФИГ. 73: Диаграмма с изложением рабочего процесса Signatera™.[166] FIG. 73: Diagram outlining the Signatera™ workflow.
[167] ФИГ. 74: Последовательное представление результатов цоДНК для всех проанализированных образцов, соответствующих исследованию мышечно-инвазивного рака мочевого пузыря в Примере 9. Пациенты разделены на три группы на основе статуса цоДНК: на верхней панели показаны пациенты с положительной цоДНК до и после цистэктомии (ЦЭ); средняя панель показывает пациентов, положительных по цоДНК только перед ЦЭ; нижняя панель показывает пациентов, отрицательных по цоДНК. Горизонтальные линии обозначают течение болезни каждого пациента, а кружки обозначают состояние цоДНК, красные кружки указывают образцы с по меньшей мере 2 положительными анализами. Информация о лечении и визуализации указана для каждого пациента.[167] FIG. 74: Consistent presentation of ctDNA results for all samples analyzed corresponding to the muscle-invasive bladder cancer study in Example 9. Patients are divided into three groups based on ctDNA status: the top panel shows patients with positive ctDNA before and after cystectomy (CE); middle panel shows patients positive for ctDNA before CE only; bottom panel shows ctDNA negative patients. Horizontal lines indicate the disease course of each patient and circles indicate ctDNA status, red circles indicate samples with at least 2 positive tests. Treatment and imaging information is provided for each patient.
[168] ФИГ. 75A-E: Графическое изображение прогностической ценности выявления цоДНК для исследования мышечно-инвазивного рака мочевого пузыря в Примере 9. Анализ выживаемости по Каплану-Мейеру, показывающий вероятность безрецидивной выживаемости (БРВ) и общей выживаемости (ОВ), стратифицированной по статусу цоДНК до химиотерапии (ФИГ. 75A), перед цистэктомией (ЦЭ) (ФИГ. 75B) и после цитэктомии (ЦЭ) (ФИГ. 75C). ФИГ. 75D показывает связь между рецидивом заболевания и состоянием цоДНК до химиотерапии, до цистэктомии и после цистэктомии, а также с рецидивом заболевания и состоянием лимфатического узла до цистэктомии. ФИГ. 75E показывает связь между состоянием цоДНК до цистэктомии (ЦЭ) и патологическим статусом при цистэктомии (ЦЭ). Оценка статистической значимости проводилась с использованием рангового критерия Уилкоксона для непрерывных переменных и точного критерия Фишера для категорийных переменных.[168] FIG. 75A-E: Graphical representation of the predictive value of ctDNA detection for the study of muscle-invasive bladder cancer in Example 9. Kaplan-Meier survival analysis showing the probability of disease-free survival (RFS) and overall survival (OS) stratified by pre-chemotherapy ctDNA status ( FIG. 75A), before cystectomy (CE) (FIG. 75B) and after cystectomy (CE) (FIG. 75C). FIG. 75D shows the relationship between disease recurrence and pre-chemotherapy, pre-cystectomy and post-cystectomy ctDNA status, and with disease recurrence and pre-cystectomy lymph node status. FIG. 75E shows the relationship between pre-cystectomy ctDNA status (CE) and pathological status at cystectomy (CE). Statistical significance was assessed using the Wilcoxon signed rank test for continuous variables and the Fisher exact test for categorical variables.
[169] ФИГ. 76: Графики, показывающие изменения цоДНК при отдельных течениях заболевания для исследования мышечно-инвазивного рака мочевого пузыря в Примере 9. ФИГ. 76 показывает представление детальных течений заболевания, применяемых способов лечения и связанных с ними последовательных анализов цоДНК от избранных пациентов. Статус цоДНК, применяемое лечение и результаты визуализации представлены согласно подписи. Указано положительное время упреждения для выявления рецидива на основе цоДНК.[169] FIG. 76: Graphs showing ctDNA changes during selected disease courses for the muscle-invasive bladder cancer study in Example 9. FIG. 76 shows a presentation of detailed disease courses, treatments used, and associated sequential ctDNA analyzes from selected patients. ctDNA status, treatment used, and imaging results are presented as per caption. A positive lead time for ctDNA-based relapse detection is indicated.
[170] ФИГ. 77: Графики, показывающие разницу во времени между молекулярным рецидивом (позитивность по цоДНК) и клиническим рецидивом (положительная рентгенограмма) для исследования мышечно-инвазивного рака мочевого пузыря в Примере 9. Значение р рассчитывали с использованием парного рангового критерия Уилкоксона.[170] FIG. 77: Graphs showing the difference in time between molecular relapse (ctDNA positivity) and clinical relapse (radiography positive) for the muscle-invasive bladder cancer study in Example 9. P value was calculated using the paired Wilcoxon signed rank test.
[171] ФИГ. 78A-H: Графики, показывающие прогностические маркеры ответа на химиотерапию для исследования мышечно-инвазивного рака мочевого пузыря в Примере 9. ФИГ. 78А показывает связь между рецидивом заболевания и реакцией на химиотерапию. ФИГ. 78B показывает, соответственно, относительный вклад сигнатуры 5 для всех пациентов, стратифицированных по реакции на химиотерапию, и статус мутации ERCC2. ФИГ. 78C показывает долю пациентов, отвечающих на терапию, относительно статуса мутации ERCC2. ФИГ. 78D Фигура подтипа РНК figures_NEW. ФИГ. 78E показывает связь между цоДНК и реакцией на химиотерапию для пациентов, отрицательных по цоДНК на протяжении всего течения заболевания, у пациентов, у которых уровень цоДНК падает до нуля, и у пациентов, у которых уровень цоДНК остается положительным. ФИГ. 78F показывает уровень цоДНК для всех пациентов с обнаруживаемой цоДНК до, во время и после химиотерапии. Пациенты сгруппированы по реакции на химиотерапию и указан статус рецидива.[171] FIG. 78A-H: Graphs showing predictive markers of response to chemotherapy for the muscle-invasive bladder cancer study in Example 9. FIG. 78A shows the relationship between disease relapse and response to chemotherapy. FIG. 78B shows, respectively, the relative contribution of signature 5 for all patients stratified by chemotherapy response and ERCC2 mutation status. FIG. 78C shows the proportion of patients responding to therapy relative to ERCC2 mutation status. FIG. 78D RNA subtype figure figures_NEW. FIG. 78E shows the relationship between ctDNA and response to chemotherapy for patients who are ctDNA negative throughout the disease course, patients whose ctDNA levels drop to zero, and patients whose ctDNA levels remain positive. FIG. 78F shows the ctDNA level for all patients with detectable ctDNA before, during and after chemotherapy. Patients are grouped by response to chemotherapy and relapse status is indicated.
[172] ФИГ. 79A-D: Графики, показывающие общее количество выявленных мутаций на пациента в зависимости от статуса ERCC2 или числа мутаций повреждения повреждающей реакции ДНК (DDR) для исследования мышечно-инвазивного рака мочевого пузыря в Примере 9.[172] FIG. 79A-D: Graphs showing the total number of identified mutations per patient as a function of ERCC2 status or number of DNA damage response (DDR) mutations for the muscle-invasive bladder cancer study in Example 9.
[173] ФИГ. 80: Графики, изображающие гетерогенность генома в первичной опухоли и метастатическом рецидиве для исследования мышечно-инвазивного рака мочевого пузыря в Примере 9. Данные полноэкзомного секвенирования (ПЭС) первичных опухолей сравнивали с цоДНК. Данные ПЭС из образцов плазмы с высокой частотой вариантного аллеля (ЧВА) в цоДНК, обнаруженных при метастатическом рецидиве. Геномные позиции с мутациями, идентифицированными либо в плазме, либо в данных экзома опухоли, были исследованы для подсчета оснований. Показаны результирующие частоты аллелей, идентифицированные в плазме и данных экзома опухоли. Отдельные мутации имеют цветовую кодировку в соответствии со статистической вероятностью (силой) распознавания мутации. Диаграммы Венна представляют количество мутаций, идентифицированных исключительно в опухоли, плазме или в обеих.[173] FIG. 80: Graphs depicting genomic heterogeneity in primary tumor and metastatic relapse for the muscle-invasive bladder cancer study in Example 9. Whole exome sequencing (WES) data from primary tumors were compared with ctDNA. PES data from plasma samples with high variant allele frequency (VAF) in ctDNA detected in metastatic relapse. Genomic positions with mutations identified in either plasma or tumor exome data were examined for base counts. The resulting allele frequencies identified in plasma and tumor exome data are shown. Individual mutations are color coded according to the statistical probability (power) of recognizing the mutation. Venn diagrams represent the number of mutations identified exclusively in tumor, plasma, or both.
[174] ФИГ. 81: Графики, отражающие частоту вариантного аллеля (% ЧВА) в разные дни относительно цистэктомии (ЦЭ) у 8 пациентов из исследования мышечно-инвазивного рака мочевого пузыря в Примере 9.[174] FIG. 81: Graphs showing variant allele frequency (%NA) on different days relative to cystectomy (CE) in 8 patients from the muscle-invasive bladder cancer study in Example 9.
[175] ФИГ. 82: Графики, показывающие уровень цоДНК в плазме у 10 пациентов, ранее проанализированных с помощью цифровой капельной ПЦР, по сравнению со сверхглубоким секвенированием для исследования мышечно-инвазивного рака мочевого пузыря в Примере 9.[175] FIG. 82: Graphs showing plasma ctDNA levels in 10 patients previously analyzed by digital droplet PCR compared with ultra-deep sequencing for the study of muscle-invasive bladder cancer in Example 9.
[176] ФИГ. 83A-E: Графики, показывающие клинические, гистопатологические и молекулярные параметры для всех 125 пациентов. ФИГ. 83А показывает относительный вклад пяти наиболее распространенных мутационных признаков, связанных с колоректальным раком. ФИГ. 83B показывает частоту синонимичных и несинонимичных мутаций, распознанных из ПЭС. ФИГ. 83C изображает график, показывающий мутации в часто мутирующих генах при колоректальном раке (TCGA) {Cancer Genome Atlas, 2012 # 52}. ФИГ. 83D показывает клинические и гистопатологические характеристики. ФИГ. 83E показывает график, суммирующий статус цоДНК до и после операции.[176] FIG. 83A-E: Graphs showing clinical, histopathological and molecular parameters for all 125 patients. FIG. 83A shows the relative contribution of the five most common mutational signatures associated with colorectal cancer. FIG. 83B shows the frequency of synonymous and nonsynonymous mutations recognized from the RPE. FIG. 83C depicts a graph showing mutations in commonly mutated genes in colorectal cancer (TCGA) {Cancer Genome Atlas, 2012 #52}. FIG. 83D shows clinical and histopathological characteristics. FIG. 83E shows a graph summarizing the ctDNA status before and after surgery.
[177] ФИГ. 84: Диаграмма, показывающая включение пациентов, сбор образцов и определения подгрупп пациентов, используемых для решения определенных клинических вопросов. Сокращения: цоДНК, циркулирующая опухолевая ДНК; КТ, компьютерная томография; после-опер., послеоперационный; TTR, время до рецидива.[177] FIG. 84: Diagram showing patient inclusion, sample collection, and definitions of patient subgroups used to address specific clinical questions. Abbreviations: ctDNA, circulating tumor DNA; CT, computed tomography; post-operative, postoperative; TTR, time to relapse.
[178] ФИГ. 85A-C: Графики, показывающие тесты контроля качества (КК) рабочего процесса для всей последовательности экзома образцов пациентов. 793 (99%) из 795 образцов плазмы прошли процесс контроля качества образца. 194 пробы (из 70 пациентов) прогоняли с маркером ОНП для проверки соответствия между образцом плазмы и соответствующей биопсией ткани. Все 194 образца плазмы прошли КК. ФИГ. 85А показывает количество вводимой ДНК в подготовку библиотеки. В качестве ввода в протокол подготовки библиотеки использовалось до 66 нг свободно-клеточной ДНК (скДНК) из каждого образца плазмы. Количество вводимой ДНК библиотеки варьировалось от 1 до 66 нг при медиане 45,66. Очищенные библиотеки подвергались контролю качества перед переходом к следующему этапу. Один образец не прошел КК подготовки библиотеки. ФИГ. 85B показывает охват секвенирования. Анализы с охватом менее 5000х были исключены из анализа. Впоследствии образцы с менее чем 8 прохождением анализов не прошли контроль качества охвата последовательности. Один образец не соответствует требованию охвата последовательности. Медианная глубина считывания для анализов, прошедших КК охвата, составила 105000x. ФИГ. 85C показывает частоту ошибок секвенирования, измеренную во всех образцах плазмы. Средний коэффициент ошибок при транзициях составляет 5e-5, а средний коэффициент ошибок при трансверсиях - 8e-6.[178] FIG. 85A-C: Graphs showing workflow quality control (QC) tests for the entire exome sequence of patient samples. 793 (99%) of 795 plasma samples passed the sample quality control process. 194 samples (from 70 patients) were run with the SNP marker to verify the match between the plasma sample and the corresponding tissue biopsy. All 194 plasma samples underwent QC. FIG. 85A shows the amount of DNA input into the library preparation. Up to 66 ng of cell-free DNA (cfDNA) from each plasma sample was used as input to the library preparation protocol. The amount of library DNA input varied from 1 to 66 ng with a median of 45.66. Purified libraries were subjected to quality control before moving to the next step. One sample did not pass the library preparation QC. FIG. 85B shows sequencing coverage. Analyzes with coverage less than 5000x were excluded from the analysis. Subsequently, samples with fewer than 8 assay runs failed quality control of sequence coverage. One sample does not meet the sequence coverage requirement. The median read depth for assays that passed QC coverage was 105,000x. FIG. 85C shows the sequencing error rate measured in all plasma samples. The average error rate for transitions is 5e-5, and the average error rate for transversions is 8e-6.
[179] ФИГ. 86 показывает результаты и динамику циркулирующей опухолевой ДНК (цоДНК) для каждого отдельного пациента.[179] FIG. 86 shows the results and dynamics of circulating tumor DNA (ctDNA) for each individual patient.
[180] ФИГ. 87A-F показывает состояние цоДНК до операции, на 30 день после операции и во время адъювантной химиотерапии (АХТ). ФИГ. 87А показывает предоперационное обнаружение цоДНК. ФИГ. 87B показывает частоту рецидивов. ФИГ. 87C показывает оценки TTR Каплана-Мейера для 94 пациентов I-III стадии, стратифицированных по послеоперационному состоянию на 30-й день и по статусу цоДНК. ФИГ. 87D показывает влияние АХТ на пациентов, позитивных по цоДНК, оцениваемых по частоте рецидивов и статусу цоДНК в динамике. ФИГ. 87E показывает частоту рецидивов, стратифицированную по статусу цоДНК при первом посещении после АХТ. ФИГ. 87F показывает оценки TTR Каплана-Мейера для 58 пациентов, лечившихся АХТ, стратифицированных по статусу цоДНК при первом посещении после АХТ.[180] FIG. 87A-F shows the status of ctDNA before surgery, on day 30 after surgery and during adjuvant chemotherapy (ACT). FIG. 87A shows preoperative detection of ctDNA. FIG. 87B shows the relapse rate. FIG. 87C shows Kaplan-Meier TTR estimates for 94 stage I-III patients stratified by postoperative day 30 status and ctDNA status. FIG. 87D shows the effect of ACT on ctDNA-positive patients, assessed by relapse rates and ctDNA status over time. FIG. 87E shows the relapse rate stratified by ctDNA status at the first visit after chemotherapy. FIG. 87F shows Kaplan-Meier TTR estimates for 58 patients treated with ACT, stratified by ctDNA status at the first visit after ACT.
[181] ФИГ. 88 демонстрирует предоперационное выявление раково-эмбрионального антигена (РЭА) у 125 пациентов с I-III стадией КРР.[181] FIG. 88 demonstrates preoperative detection of carcinoembryonic antigen (CEA) in 125 patients with stage I-III CRC.
[182] ФИГ. 89 показывает схематический обзор результатов профилирования цоДНК образцов плазмы, включенных в анализ цоДНК в день 30, упорядоченный по статусу рецидива и стадии заболевания. Пациенты, отмеченные знаком(ами) а, имеют синхронный КРР. Плазма, отмеченная **, является положительной только во втором пуле (n=1).[182] FIG. 89 shows a schematic overview of ctDNA profiling results from plasma samples included in the day 30 ctDNA analysis, ordered by relapse status and disease stage. Patients marked with a sign(s) have synchronous CRC. Plasma marked ** is positive only in the second pool (n=1).
[183] ФИГ. 90A-B показывает схематический обзор результатов профилирования цоДНК для подмножества образцов плазмы, включенных в анализ цоДНК в день 30 и получавших АХТ, упорядоченный по статусу рецидива и стадии заболевания. Пациенты, отмеченные знаком(ами) а, имеют синхронный КРР.[183] FIG. 90A-B shows a schematic overview of ctDNA profiling results for a subset of plasma samples included in the Day 30 ctDNA analysis and treated with AChT, ordered by relapse status and disease stage. Patients marked with a sign(s) have synchronous CRC.
[184] ФИГ. 91 показывает схематический обзор результатов профилирования цоДНК образцов плазмы, включенных в последовательный пост-АХТ анализ цоДНК, упорядоченный по статусу рецидива, послеоперационному состоянию цоДНК и продолжительности наблюдения. Пациенты, отмеченные знаком(ами) а, имеют синхронный КРР (n=2). Образцы плазмы, отмеченные **, являются положительными только во втором пуле (n=1).[184] FIG. 91 shows a schematic overview of ctDNA profiling results from plasma samples included in sequential post-ACT ctDNA analysis, ordered by relapse status, postoperative ctDNA status, and length of follow-up. Patients marked with a sign(s) have synchronous CRC (n=2). Plasma samples marked with ** are positive only in the second pool (n=1).
[185] ФИГ. 92 показывает схематический обзор результатов профилирования СЕА образцов плазмы, включенных в последовательный анализ цоДНК после АХТ, упорядоченный по статусу рецидива, послеоперационному состоянию цоДНК и продолжительности наблюдения. Пациенты, отмеченные буквой(ами) а, имеют синхронный КРР (n=2). Плазма, отмеченная **, является положительной только во втором пуле (n=1).[185] FIG. 92 shows a schematic overview of CEA profiling results of plasma samples included in sequential ctDNA analysis after ACT, ordered by relapse status, postoperative ctDNA status, and duration of follow-up. Patients marked with letter(s) a have synchronous CRC (n=2). Plasma marked ** is positive only in the second pool (n=1).
[186] ФИГ. 93A-D: Графики, показывающие связь между статусом цоДНК и рецидивом после радикального лечения. ФИГ. 93А показывает частоту рецидивов, стратифицированных по статусу цоДНК в динамике. ФИГ. 93B показывает оценки TTR Каплана-Мейера для 75 пациентов с образцами в динамике, стратифицированными по статусу цоДНК в динамике. ФИГ. 93C показывает график, сравнивающий время до радиологического рецидива и рецидива по цоДНК. ФИГ. 93D показывает, что частота вариантного аллеля (ЧВА) цоДНК в плазме увеличивается в направлении радиологического рецидива. Ранние сроки до и во время АХТ опущены.[186] FIG. 93A-D: Graphs showing the relationship between ctDNA status and relapse after curative treatment. FIG. 93A shows the relapse rate stratified by ctDNA status over time. FIG. 93B shows Kaplan-Meier TTR estimates for 75 patients with time-course samples, stratified by time-course ctDNA status. FIG. 93C shows a graph comparing time to radiological recurrence and ctDNA recurrence. FIG. 93D shows that the variant allele frequency (VA) of plasma ctDNA increases in the direction of radiological relapse. Early periods before and during AHT are omitted.
[187] ФИГ. 94: Схематический обзор результатов профилирования по цоДНК образцов плазмы в динамике у пациентов с рецидивами и без рецидивов. Пациенты с одним положительным образцом плазмы во время наблюдения считаются положительными.[187] FIG. 94: Schematic overview of the results of ctDNA profiling of plasma samples over time in patients with and without relapses. Patients with one positive plasma sample during follow-up are considered positive.
[188] ФИГ. 95: Схематический обзор результатов профилирования РЭА для образцов сыворотки в динамике у пациентов с рецидивами и без рецидивов. Пациенты с одним положительным образцом плазмы во время наблюдения считаются положительными.[188] FIG. 95: Schematic overview of CEA profiling results for serum samples over time in patients with and without relapse. Patients with one positive plasma sample during follow-up are considered positive.
[189] ФИГ. 96: График, сравнивающий время до радиологического рецидива и рецидива по РЭА.[189] FIG. 96: Graph comparing time to radiological recurrence and CEA recurrence.
[190] ФИГ. 97A-C: Выявление значимой мутации у пациентов с рецидивом. На фигуре 97А показан процент рецидивов по цоДНК+ у пациентов со значимыми мутациями, обнаруженными во время наблюдения. Первый образец цоДНК+ (левая колонка) и все образцы цоДНК+ плазмы (правая колонка). ФИГ. 97B показывает значимые варианты, распознанные в крови. Корреляция между средними значениями ЧВА в крови, рассчитанными с использованием анализов цоДНК+ Signatera, и частотами вариантных аллелей (ЧВА) значимых мутаций построена в логарифмическом масштабе по горизонтальной и вертикальной осям. ФИГ. 97C показывает серийное профилирование цоДНК двух репрезентативных рецидивных пациентов с значимыми мутациями.[190] FIG. 97A-C: Identification of a significant mutation in relapsed patients. Figure 97A shows the percentage of ctDNA+ relapses in patients with significant mutations detected during follow-up. First ctDNA+ sample (left column) and all ctDNA+ plasma samples (right column). FIG. 97B shows significant variants recognized in blood. The correlation between mean blood NFA values calculated using Signatera ctDNA+ assays and variant allele frequencies (VAFs) of significant mutations is plotted on a logarithmic scale along the horizontal and vertical axes. FIG. 97C shows serial ctDNA profiling of two representative relapsed patients with significant mutations.
[191] ФИГ. 98: Схематическое сравнение текущего стандарта медицинской практики и потенциального послеоперационного ведения пациента, определяемого по цоДНК.[191] FIG. 98: Schematic comparison of current standard of medical practice and potential postoperative patient management determined by ctDNA.
[192] ФИГ. 99: График, показывающий снижение цоДНК при адъювантной химиотерапии (АХТ).[192] FIG. 99: Graph showing the decrease in ctDNA during adjuvant chemotherapy (ACT).
[193] ФИГ. 100A-B: Графики, показывающие связь между состоянием цоДНК и рецидивом после радикального лечения. ФИГ. 100A показывает частоту рецидивов, стратифицированную по состоянию цоДНК в динамике, и оценки TTR Каплана-Мейера для 58 пациентов с образцами в динамике, стратифицированными по анализу цоДНК в динамике. ФИГ. 100B показывает частоту рецидивов, стратифицированную с помощью анализа РЭА, и оценки TTR Каплана-Мейера для 58 пациентов с образцами в динамике, стратифицированные с помощью анализа РЭА.[193] FIG. 100A-B: Graphs showing the relationship between ctDNA status and relapse after radical treatment. FIG. 100A shows relapse rates stratified by ctDNA status over time and Kaplan-Meier TTR estimates for 58 patients with over time samples stratified by ctDNA analysis over time. FIG. 100B shows relapse rates stratified by CEA analysis and Kaplan-Meier TTR estimates for 58 patients with over-time samples stratified by CEA analysis.
[194] Вышеуказанные фигуры представлены в порядке представления, а не ограничения.[194] The above figures are presented by way of representation and not limitation.
ПОДРОБНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯDETAILED DESCRIPTION OF THE INVENTION
[195] Способы и композиции, представленные в настоящем документе, улучшают обнаружение, диагностику, стадирование, скрининг, лечение и ведение рака (например, рака молочной железы, рака мочевого пузыря или колоректального рака). Способы, предоставленные в данном документе, в иллюстративных вариантах воплощения анализируют мутации однонуклеотидного варианта (ОНВ) в циркулирующих жидкостях, особенно в циркулирующей опухолевой ДНК. Способы обеспечивают преимущество выявления большего количества мутаций, обнаруживаемых в опухоли, и клональных, а также субклональных мутаций в одном тесте, а не в нескольких тестах, которые потребуются, если вообще они будут эффективными, в случае использования образцов опухоли. Способы и композиции могут быть полезны сами по себе, или они могут быть полезны при использовании вместе с другими способами для обнаружения, диагностики, установления стадии, скрининга, лечения и ведения рака (например, рака молочной железы, рака мочевого пузыря или колоректального рака), например, чтобы помочь поддержать результаты этих других способов для того, чтобы обеспечить большую уверенность и/или определенный результат.[195] The methods and compositions provided herein improve the detection, diagnosis, staging, screening, treatment, and management of cancer (eg, breast cancer, bladder cancer, or colorectal cancer). The methods provided herein, in illustrative embodiments, analyze single nucleotide variant (SNV) mutations in circulating fluids, especially circulating tumor DNA. The methods provide the advantage of identifying more tumor-detectable mutations and clonal as well as subclonal mutations in a single test rather than multiple tests that would be required, if at all, to be effective when using tumor samples. The methods and compositions may be useful on their own, or they may be useful when used in conjunction with other methods for the detection, diagnosis, staging, screening, treatment and management of cancer (for example, breast cancer, bladder cancer or colorectal cancer), for example, to help support the results of these other methods in order to provide greater confidence and/or a certain result.
[196] Соответственно, в настоящем документе в одном варианте воплощения представлен способ определения однонуклеотидных вариантов, присутствующих при раке (например, раке молочной железы, раке мочевого пузыря или колоректальном раке), путем определения однонуклеотидных вариантов, присутствующих в образце цоДНК от индивидуума, например, лица, имеющего или подозреваемого на наличие рака (например, рака молочной железы, рака мочевого пузыря или колоректального рака) с использованием рабочего процесса амплификации/секвенирования ОНВ цоДНК, представленного в настоящем документе.[196] Accordingly, herein, in one embodiment, a method is provided for determining single nucleotide variants present in cancer (e.g., breast cancer, bladder cancer, or colorectal cancer) by determining single nucleotide variants present in a ctDNA sample from an individual, e.g. a person who has or is suspected of having cancer (eg, breast cancer, bladder cancer, or colorectal cancer) using the ctDNA CNV amplification/sequencing workflow presented in this document.
[197] Термины «рак» и «раковый» относятся или описывают физиологическое состояние у животных, которое обычно характеризуется нерегулируемым ростом клеток. «Опухоль» включает одну или более раковых клеток. Существует несколько основных видов рака. Карцинома представляет собой это рак, который начинается на коже или в тканях, которые выстилают или покрывают внутренние органы. Саркома представляет собой рак, который начинается в кости, хряще, жире, мышцах, кровеносных сосудах или других соединительных или поддерживающих тканях. Лейкемия представляет собой рак, который начинается в кроветворной ткани, такой как костный мозг, и вызывает образование большого количества аномальных клеток крови и попадание их в кровь. Лимфома и множественная миелома представляет собой рак, который начинается в клетках иммунной системы. Рак центральной нервной системы представляет собой рак, который начинается в тканях головного и спинного мозга.[197] The terms "cancer" and "cancerous" refer to or describe a physiological condition in animals that is typically characterized by unregulated cell growth. "Tumor" includes one or more cancer cells. There are several main types of cancer. Carcinoma is a cancer that begins on the skin or in the tissues that line or cover internal organs. Sarcoma is a cancer that begins in bone, cartilage, fat, muscle, blood vessels, or other connective or supporting tissues. Leukemia is a cancer that begins in blood-forming tissue, such as bone marrow, and causes large numbers of abnormal blood cells to form and enter the bloodstream. Lymphoma and multiple myeloma are cancers that begin in the cells of the immune system. Central nervous system cancer is cancer that begins in the tissues of the brain and spinal cord.
[198] В некоторых вариантах воплощения рак включает острый лимфобластный лейкоз; острый миелоидный лейкоз; адренокортикальную карциному; рак, связанный со СПИДом; лимфому, связанную со СПИДом; анальный рак; рак аппендикса; астроцитомы; атипичную тератоидную/рабдоидную опухоль; базально-клеточную карциному; рак мочевого пузыря; глиому ствола головного мозга; опухоль головного мозга (в том числе глиому ствола головного мозга, атипичную тератоидную/рабдоидную опухоль центральной нервной системы, эмбриональные опухоли центральной нервной системы, астроцитомы, краниофарингиому, эпендимобластому, эпендимому, медуллобластому, медуллоэпителиому, пинеальные паренхиматозные опухоли промежуточной дифференцировки, супратенториальные недифференцированные нейроэктодермальные опухоли и пинеобластому); рак груди; бронхиальные опухоли; лимфому Беркита; рак неизвестной первичной локализации; карциноидную опухоль; карциному неизвестной первичной локализации; атипичную тератоидную/рабдоидную опухоль центральной нервной системы; эбриональные опухоли центральной нервной системы; рак шейки матки; раковые заболевания у детей; хордому; хронический лимфолейкоз; хронический миелогенный лейкоз; хронические миелопролиферативные нарушения; рак толстой кишки; колоректальный рак; краниофарингиому; кожную Т-клеточную лимфому; опухоли островковых клеток эндокринной системы поджелудочной железы; рак эндометрия; эпендимобластому; эпендимому; рак пищевода; эстезионейробластому; саркому Юинга; экстракраниальную герминогенную опухоль; внегонадную герминогенную опухоль; рак внепеченочного желчного протока; рак желчного пузыря; рак желудочно-кишечного тракта (желудка); желудочно-кишечную карциноидную опухоль; желудочно-кишечную стромально-клеточную опухоль; желудочно-кишечную стромальную опухоль (GIST); гестационную трофобластическую опухоль; глиому; волосатоклеточный лейкоз; рак головы и шеи; рак сердца; лимфому Ходжкина; гипофарингеальный рак; внутриглазную меланому; опухоли островковых клеток; саркому Капоши; рак почки; гистиоцитоз клеток Лангерганса; рак гортани; рак губы; рак печени; злокачественную фиброзную гистиоцитому, рак кости; медуллобластому; медуллоэпителиому; меланому; карциному клеток Меркеля; рак кожи из клеток Меркеля; мезотелиому; метастатический плоскоклеточный рак шеи с первичным раком неизвестного происхождения; рак ротовой полости; синдромы множественной эндокринной неоплазии; множественную миелому; множественную миелому/новообразование плазмоцитов; грибовидный микоз; миелодиспластические синдромы; миелопролиферативные новообразования; рак полости носа; рак носоглотки; нейробластому; неходжкинскую лимфому; немеланомный рак кожи; немелкоклеточный рак легких; рак ротовой полости; рак полости рта; рак ротоглотки; остеосаркому; другие опухоли головного и спинного мозга; рак яичников; эпителиальный рак яичников; герминоклеточную опухоль яичников; пограничную опухоль яичников; рак поджелудочной железы; папилломатоз; рак околоносовых пазух; рак паращитовидной железы; рак таза; рак полового члена; рак глотки; пинеальные паренхиматозные опухоли промежуточной дифференцировки; пинеобластому; опухоль гипофиза; новообразование плазматических клеток/множественную миелому; плевропульмональную бластому; первичную лимфому центральной нервной системы (ЦНС); первичный гепатоцеллюлярный рак печени; рак простаты; рак прямой кишки; рак почки; почечно-клеточный (почечный) рак; почечно-клеточный рак; рак респираторного тракта; ретинобластому; рабдомиосаркому; рак слюнных желез; синдром Сезари; мелкоклеточный рак легких; рак тонкой кишки; саркому мягких тканей; плоскоклеточную карциному; плоскоклеточный рак шеи; желудочно-кишечный рак (рак желудка); супратенториальные недифференцированные нейроэктодермальные опухоли; Т-клеточную лимфому; рак яичек; рак горла; карциному тимуса; тимому; рак щитовидной железы; переходно-клеточный рак; переходно-клеточный рак почечной лоханки и мочеточника; трофобластическую опухоль; рак мочеточника; рак уретры; рак матки; саркому матки; рак влагалища; рак вульвы; макроглобулинемию Вальденстрема; или опухоль Вильма.[198] In some embodiments, the cancer includes acute lymphoblastic leukemia; acute myeloid leukemia; adrenocortical carcinoma; AIDS-related cancer; AIDS-related lymphoma; anal cancer; appendix cancer; astrocytomas; atypical teratoid/rhabdoid tumor; basal cell carcinoma; bladder cancer; brainstem glioma; brain tumor (including brainstem glioma, atypical teratoid/rhabdoid tumor of the central nervous system, embryonal tumors of the central nervous system, astrocytomas, craniopharyngioma, ependymoblastoma, ependymoma, medulloblastoma, medulloepithelioma, pineal parenchymal tumors of intermediate differentiation, supratentorial undifferentiated neuroectodermal tumors and pineoblastoma); breast cancer; bronchial tumors; Burkitt's lymphoma; cancer of unknown primary location; carcinoid tumor; carcinoma of unknown primary location; atypical teratoid/rhabdoid tumor of the central nervous system; fetal tumors of the central nervous system; cervical cancer; cancer in children; chordoma; chronic lymphocytic leukemia; chronic myelogenous leukemia; chronic myeloproliferative disorders; colon cancer; colorectal cancer; craniopharyngioma; cutaneous T-cell lymphoma; tumors of islet cells of the endocrine system of the pancreas; endometrial cancer; ependymoblastoma; ependymoma; esophageal carcinoma; esthesioneuroblastoma; Ewing's sarcoma; extracranial germ cell tumor; extragonadal germ cell tumor; extrahepatic bile duct cancer; gallbladder cancer; gastrointestinal (stomach) cancer; gastrointestinal carcinoid tumor; gastrointestinal stromal cell tumor; gastrointestinal stromal tumor (GIST); gestational trophoblastic tumor; glioma; hairy cell leukemia; head and neck cancer; heart cancer; Hodgkin's lymphoma; hypopharyngeal cancer; intraocular melanoma; islet cell tumors; Kaposi's sarcoma; kidney cancer; Langerhans cell histiocytosis; laryngeal cancer; lip cancer; liver cancer; malignant fibrous histiocytoma, bone cancer; medulloblastoma; medulloepithelioma; melanoma; Merkel cell carcinoma; Merkel cell skin cancer; mesothelioma; metastatic squamous cell carcinoma of the neck with a primary cancer of unknown origin; oral cancer; multiple endocrine neoplasia syndromes; multiple myeloma; multiple myeloma/plasmocyte neoplasm; mycosis fungoides; myelodysplastic syndromes; myeloproliferative neoplasms; nasal cavity cancer; nasopharyngeal cancer; neuroblastoma; non-Hodgkin's lymphoma; non-melanoma skin cancer; non-small cell lung cancer; oral cancer; oral cancer; oropharyngeal cancer; osteosarcoma; other tumors of the brain and spinal cord; ovarian cancer; epithelial ovarian cancer; germ cell tumor of the ovaries; borderline ovarian tumor; pancreas cancer; papillomatosis; sinus cancer; parathyroid cancer; pelvic cancer; penile cancer; pharynx cancer; pineal parenchymal tumors of intermediate differentiation; pineoblastoma; pituitary tumor; plasma cell neoplasm/multiple myeloma; pleuropulmonary blastoma; primary lymphoma of the central nervous system (CNS); primary hepatocellular liver cancer; prostate cancer; rectal cancer; kidney cancer; renal cell (kidney) cancer; renal cell carcinoma; respiratory tract cancer; retinoblastoma; rhabdomyosarcoma; salivary gland cancer; Sézary syndrome; small cell lung cancer; small bowel cancer; soft tissue sarcoma; squamous cell carcinoma; squamous cell carcinoma of the neck; gastrointestinal cancer (stomach cancer); supratentorial undifferentiated neuroectodermal tumors; T-cell lymphoma; testicular cancer; throat cancer; thymus carcinoma; thymoma; thyroid cancer; transitional cell carcinoma; transitional cell carcinoma of the renal pelvis and ureter; trophoblastic tumor; ureteral cancer; urethral cancer; uterine cancer; sarcoma of the uterus; vaginal cancer; vulvar cancer; Waldenström's macroglobulinemia; or Wilma's tumor.
[199] В другом варианте воплощения в настоящем документе представлен способ обнаружения рака (например, рака молочной железы, рака мочевого пузыря или колоректального рака) в образце крови или ее фракции от индивидуума, такого как индивидуум, предположительно имеющий рак. Это включает определение однонуклеотидных вариантов, присутствующих в образце, путем определения однонуклеотидных вариантов, присутствующих в образце цоДНК, с использованием рабочего процесса амплификации/секвенирования ОНВ цоДНК, представленного в настоящем документе. Наличие 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14 или 15 ОНВ на нижней границе диапазона, а также 2, 3, 4, 5 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 30, 40 или 50 ОНВ на верхней границе диапазона в образце на множестве однонуклеотидных локусов свидетельствует о наличии рака (например, рака молочной железы, рака мочевого пузыря или колоректального рака).[199] In another embodiment, provided herein is a method for detecting cancer (eg, breast cancer, bladder cancer, or colorectal cancer) in a sample of blood or a fraction thereof from an individual, such as an individual suspected of having cancer. This involves identifying single nucleotide variants present in a sample by identifying single nucleotide variants present in a ctDNA sample using the ctDNA CNV amplification/sequencing workflow presented herein. Presence of 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14 or 15 NDC at the lower end of the range, as well as 2, 3, 4, 5 6, 7, 8 , 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 30, 40, or 50 SNPs at the upper end of the range in the sample on multiple single nucleotides loci indicates the presence of cancer (for example, breast cancer, bladder cancer or colorectal cancer).
[200] В другом варианте воплощения в настоящем документе предложен способ выявления клонального однонуклеотидного варианта в опухоли индивидуума (например, рак молочной железы, рак мочевого пузыря или колоректальный рак). Способ включает выполнение рабочего процесса амплификации/секвенирования ОНВ цоДНК, как предусмотрено в настоящем документе, и определение частоты вариантного аллеля для каждого из локусов ОНВ на основе секвенирования множества копий серий ампликонов. Более высокая относительная частота аллелей по сравнению с другими однонуклеотидными вариантами множества локусов однонуклеотидного варианта свидетельствует о клональном однонуклеотидном варианте в опухоли. Частоты вариантных аллелей хорошо известны в области секвенирования. Поддержка этого варианта воплощения предоставляется, например, на ФИГ. 12-14.[200] In another embodiment, provided herein is a method for detecting a clonal single nucleotide variant in an individual's tumor (eg, breast cancer, bladder cancer, or colorectal cancer). The method includes performing a CNV ctDNA amplification/sequencing workflow as provided herein and determining the variant allele frequency for each of the CNV loci based on multiple copy sequencing of the amplicon series. A higher relative allele frequency compared to other single nucleotide variants at multiple single nucleotide variant loci is indicative of a clonal single nucleotide variant in the tumor. Variant allele frequencies are well known in the sequencing field. Support for this embodiment is provided, for example, in FIG. 12-14.
[201] В некоторых вариантах воплощения способ дополнительно включает определение плана лечения, терапии и/или введения индивидууму соединения, которое нацелено на один или более клональных однонуклеотидных вариантов. В некоторых примерах субклональные и/или другие клональные ОНВ не являются мишенью для терапии. Конкретные способы лечения и связанные с ними мутации представлены в других разделах данного описания и известны в данной области техники. Соответственно, в определенных примерах способ дополнительно включает введение соединения индивидууму, где, как известно, это соединение особенно эффективно для лечения рака (например, рака молочной железы, рака мочевого пузыря или колоректального рака), имеющего один или более из определенных однонуклеотидных вариантов.[201] In some embodiments, the method further includes determining a plan for treatment, therapy, and/or administration to an individual of a compound that targets one or more clonal single nucleotide variants. In some examples, subclonal and/or other clonal ONVs are not a target for therapy. Specific treatments and associated mutations are presented elsewhere herein and are known in the art. Accordingly, in certain examples, the method further comprises administering a compound to an individual where the compound is known to be particularly effective for treating cancer (eg, breast cancer, bladder cancer, or colorectal cancer) having one or more of certain single nucleotide variants.
[202] В определенных аспектах этого варианта воплощения частота вариантного аллеля более 0,25, 0,5, 0,75, 1,0, 5 или 10% указывает на клональный однонуклеотидный вариант. Эти точки отсечения подтверждаются данными в табличной форме на ФИГ. 20A-B.[202] In certain aspects of this embodiment, a variant allele frequency of greater than 0.25, 0.5, 0.75, 1.0, 5, or 10% is indicative of a clonal single nucleotide variant. These cut points are supported by the data in tabular form in FIG. 20A-B.
[203] В определенных примерах этого варианта воплощения рак представляет собой рак молочной железы стадии 1а, 1b или 2а, рак мочевого пузыря или колоректальный рак. В некоторых примерах этого варианта воплощения рак представляет собой рак молочной железы стадии 1a или 1b, рак мочевого пузыря или колоректальный рак. В определенных примерах этого варианта воплощения индивидуум не подвергается хирургическому вмешательству. В определенных примерах этого варианта воплощения индивидуум не подвергается биопсии.[203] In certain examples of this embodiment, the cancer is stage 1a, 1b, or 2a breast cancer, bladder cancer, or colorectal cancer. In some examples of this embodiment, the cancer is stage 1a or 1b breast cancer, bladder cancer, or colorectal cancer. In certain examples of this embodiment, the individual does not undergo surgery. In certain examples of this embodiment, the individual is not biopsied.
[204] В некоторых примерах этого варианта воплощения клональный ОНВ идентифицируется или дополнительно идентифицируется, если другие тесты, такие как прямое тестирование опухоли, предполагают, что в тесте ОНВ является клональным ОНВ, для любого ОНВ в тесте, который имеет переменную частоту аллеля, превышающую по меньшей мере одну четверть, одну треть, одну половину или три четверти других определенных однонуклеотидных вариантов.[204] In some examples of this embodiment, clonal ONV is identified, or is further identified if other tests, such as direct tumor testing, suggest that the ONV in the test is clonal ONV, for any ONV in the test that has a variable allele frequency greater than at least one quarter, one third, one half or three quarters of other specified single nucleotide variants.
[205] В некоторых вариантах воплощения приведенные в данном документе способы выявления ОНВ в цоДНК могут быть использованы вместо прямого анализа ДНК из опухоли. Представленные в данном документе результаты показывают, что ОНВ, которые с большей вероятностью являются клональными ОНВ, имеют более высокие ЧВА (см., например, ФИГ. 12-14).[205] In some embodiments, the methods described herein for detecting CNVs in ctDNA can be used instead of directly analyzing DNA from a tumor. The results presented herein show that NNVs that are more likely to be clonal NNVs have higher NVAs (see, for example, FIGS. 12-14).
[206] В определенных примерах любого из вариантов воплощения способа, представленного в данном документе, до того, как выполнена целевая амплификация на цоДНК от индивидуума, предоставляются данные об ОНВ, которые были обнаружены в опухоли от индивидуума. Соответственно, в этих вариантах воплощения реакция амплификации/секвенирования ОНВ выполняется на одном или более образцов опухоли от индивидуума. В этих способах реакция амплификации/секвенирования ОНВ цоДНК, представленная в настоящем документе, все еще является преимущественной, поскольку она обеспечивает жидкую биопсию клональных и субклональных мутаций. Кроме того, как предусмотрено в настоящем документе, клональные мутации могут быть более однозначно идентифицированы у индивидуума, у которого есть рак (например, рак молочной железы, рак мочевого пузыря или колоректальный рак), если определяется высокий процент ЧВА для ОНВ, например, более 1, 2, 3, 4, 5, 6, 7, 8, 9, 10% ЧВА в образце цоДНК от индивидуума.[206] In certain examples of any of the embodiments of the method presented herein, before targeted amplification is performed on ctDNA from an individual, data are provided on the CNVs that were detected in the tumor from the individual. Accordingly, in these embodiments, the CNV amplification/sequencing reaction is performed on one or more tumor samples from an individual. In these methods, the CNV ctDNA amplification/sequencing reaction presented herein is still advantageous as it provides a liquid biopsy of clonal and subclonal mutations. In addition, as provided herein, clonal mutations can be more clearly identified in an individual who has cancer (eg, breast cancer, bladder cancer, or colorectal cancer) if a high percentage of NVA is detected for NNV, for example, more than 1 , 2, 3, 4, 5, 6, 7, 8, 9, 10% NVA in a ctDNA sample from an individual.
[207] В определенном варианте воплощения способ, предоставленный в настоящем документе, можно использовать для определения того, следует ли изолировать и анализировать цоДНК из циркулирующих свободных нуклеиновых кислот от индивидуума с раком (например, раком молочной железы, раком мочевого пузыря или колоректальным раком). Во-первых, определяется, является ли рак раком молочной железы, раком мочевого пузыря или колоректальным раком. Если рак представляет собой рак молочной железы, рак мочевого пузыря или колоректальный рак, от индивидуума выделяют циркулирующие свободные нуклеиновые кислоты. Способ в некоторых примерах дополнительно включает определение стадии рака.[207] In a certain embodiment, the method provided herein can be used to determine whether ctDNA from circulating free nucleic acids from an individual with cancer (eg, breast cancer, bladder cancer, or colorectal cancer) should be isolated and analyzed. First, it is determined whether the cancer is breast cancer, bladder cancer, or colorectal cancer. If the cancer is breast cancer, bladder cancer or colorectal cancer, circulating free nucleic acids are isolated from the individual. The method, in some examples, further includes determining the stage of the cancer.
[208] В некоторых способах в настоящем изобретении предложены композиции по изобретению и/или твердые носители. Композиция, содержащая циркулирующие опухолевые фрагменты нуклеиновой кислоты, содержащие универсальный адаптор, где циркулирующие опухолевые нуклеиновые кислоты получены из рака молочной железы, рака мочевого пузыря или колоректального рака.[208] Some methods of the present invention provide compositions of the invention and/or solid carriers. A composition comprising circulating tumor nucleic acid fragments containing a universal adapter, wherein the circulating tumor nucleic acid fragments are derived from breast cancer, bladder cancer or colorectal cancer.
[209] В некоторых вариантах воплощения в данном документе предложена композиция по изобретению, которая включает циркулирующие в опухоли фрагменты нуклеиновой кислоты, содержащие универсальный адаптор, где циркулирующие в опухоли нуклеиновые кислоты получены из образца крови или его фракции от индивидуума с раком (например, раком молочной железы, раком мочевого пузыря или колоректальным раком). Эти способы обычно включают образование фрагмента цоДНК, который включает универсальный адаптор. Кроме того, такие способы обычно включают образование твердой подложки, особенно твердой подложки для высокопроизводительного секвенирования, которая включает множество клональных популяций нуклеиновых кислот, где клональные популяции содержат ампликоны, полученные из образца циркулирующих свободных нуклеиновых кислот, где имеется цоДНК. В иллюстративных вариантах воплощения изобретения, основанных на неожиданных результатах, представленных в настоящем документе, цоДНК происходит от рака (например, рака молочной железы, рака мочевого пузыря или колоректального рака).[209] In some embodiments, provided herein is a composition of the invention that includes tumor circulating nucleic acid fragments comprising a universal adapter, wherein the tumor circulating nucleic acid is derived from a blood sample or fraction thereof from an individual with cancer (e.g., breast cancer). glands, bladder cancer or colorectal cancer). These methods typically involve the formation of a ctDNA fragment that includes a universal adapter. In addition, such methods typically involve the formation of a solid support, especially a solid support for high throughput sequencing, that includes multiple clonal populations of nucleic acids, where the clonal populations contain amplicons derived from a sample of circulating free nucleic acids where the ctDNA is present. In illustrative embodiments of the invention, based on the unexpected results presented herein, the ctDNA is derived from cancer (eg, breast cancer, bladder cancer, or colorectal cancer).
[210] Аналогичным образом, в настоящем документе в качестве варианта воплощения изобретения предлагается твердая подложка, содержащая множество клональных популяций нуклеиновых кислот, где клональные популяции содержат фрагменты нуклеиновых кислот, полученные из образца циркулирующих свободных нуклеиновых кислот из образца крови или его фракции, от индивидуума с раком (например, раком молочной железы, раком мочевого пузыря или колоректальным раком).[210] Similarly, an embodiment of the invention herein provides a solid support containing a plurality of clonal populations of nucleic acids, wherein the clonal populations comprise nucleic acid fragments derived from a sample of circulating free nucleic acids from a blood sample, or a fraction thereof, from an individual with cancer (such as breast cancer, bladder cancer or colorectal cancer).
[211] В некоторых вариантах воплощения фрагменты нуклеиновой кислоты в разных клональных популяциях содержат один и тот же универсальный адаптор. Такая композиция обычно образуется во время реакции секвенирования с высокой пропускной способностью в способах по настоящему изобретению. [211] In some embodiments, nucleic acid fragments in different clonal populations contain the same universal adapter. Such a composition is typically generated during a high throughput sequencing reaction in the methods of the present invention.
[212] Клональные популяции нуклеиновых кислот могут быть получены из фрагментов нуклеиновых кислот из набора образцов от двух или более индивидуумов. В этих вариантах воплощения фрагменты нуклеиновой кислоты содержат один из ряда молекулярных штрих-кодов, соответствующих образцу в наборе образцов.[212] Clonal populations of nucleic acids can be obtained from nucleic acid fragments from a set of samples from two or more individuals. In these embodiments, the nucleic acid fragments comprise one of a number of molecular barcodes corresponding to a sample in the sample set.
[213] Подробные аналитические способы представлены в данном документе в аналитическом разделе как Способ 1 ОНВ и Способ 2 ОНВ. Любой из способов, представленных в настоящем документе, может дополнительно включать аналитические этапы, представленные в данном документе. Соответственно, в некоторых примерах способы определения того, присутствует ли однонуклеотидный вариант в образце, включают в себя идентификацию значения достоверности для каждого определения аллеля в каждом из наборов локусов однонуклеотидных вариаций, которые могут быть основаны по меньшей мере частично на глубине считывания для локусов. Доверительный предел может быть установлен как по меньшей мере 75%, 80%, 85%, 90%, 95%, 96%, 97%, 98% или 99%. Доверительный предел для разных типов мутаций может быть установлен на разных уровнях.[213] Detailed analytical methods are presented in this document in the analytical section as Method 1 RNV and Method 2 RNV. Any of the methods presented herein may further include the analytical steps presented herein. Accordingly, in some examples, methods for determining whether a single nucleotide variant is present in a sample include identifying a confidence value for each allele definition at each of the sets of single nucleotide variation loci, which may be based at least in part on the read depth for the loci. The confidence limit may be set to at least 75%, 80%, 85%, 90%, 95%, 96%, 97%, 98%, or 99%. The confidence limit for different types of mutations can be set at different levels.
[214] Способ может быть выполнен с глубиной считывания для множества локусов однонуклеотидных вариаций по меньшей мере 5, 10, 15, 20, 25, 50, 100, 150, 200, 250, 500, 1000, 10000, 25000, 50000, 100000, 250000, 500000 или 1 миллион.[214] The method can be performed with a read depth for multiple single nucleotide variation loci of at least 5, 10, 15, 20, 25, 50, 100, 150, 200, 250, 500, 1000, 10000, 25000, 50000, 100000, 250,000, 500,000 or 1 million.
[215] В некоторых вариантах воплощения, способ любого из вариантов воплощения, представленных в настоящем документе, включает в себя определение эффективности, и/или определение частоты ошибок для цикла для каждой реакции амплификации мультиплексной реакции амплификации локусов однонуклеотидных вариантов. Затем эффективность и частоту ошибок можно использовать для того, чтобы определить, присутствует ли в образце однонуклеотидный вариант из набора локусов однонуклеотидных вариантов. Также в некоторые варианты воплощения могут быть включены более подробные аналитические этапы, представленные в Способе 2 ОНВ, представленном в аналитическом способе.[215] In some embodiments, a method of any of the embodiments presented herein includes determining the efficiency, and/or determining the error rate for a cycle for each amplification reaction of a multiplex reaction for amplifying single nucleotide variant loci. The efficiency and error rate can then be used to determine whether a single nucleotide variant from a set of single nucleotide variant loci is present in a sample. Also, some embodiments may include more detailed analytical steps, as presented in Method 2 of the HB, presented in the analytical method.
[216] В иллюстративных вариантах воплощения любого из представленных в данном документе способов набор локусов однонуклеотидных вариаций включает в себя все локусы однонуклеотидных вариаций, идентифицированные в наборах данных TCGA и COSMIC для рака (например, рака молочной железы, рака мочевого пузыря или колоректального рака).[216] In illustrative embodiments of any of the methods presented herein, the set of single nucleotide variation loci includes all single nucleotide variation loci identified in the TCGA and COSMIC data sets for cancer (eg, breast cancer, bladder cancer, or colorectal cancer).
[217] В некоторых вариантах воплощения любого из приведенных в данном документе способов набор локусов однонуклеотидных вариантов включает 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 40, 50, 75, 100, 250, 500, 1000, 2500, 5000 или 10000 локусов однонуклеотидных вариаций, о которых известно, что они связаны с раком (например, раком молочной железы, раком мочевого пузыря или колоректальным раком) на нижнем конце диапазона, и, 5, 6 , 7, 8, 9, 10, 15, 20, 25, 30, 40, 50, 75, 100, 250, 500, 1000, 2500, 5000, 10000, 20000 и 25000 на верхнем конце диапазона.[217] In some embodiments of any of the methods described herein, the set of single nucleotide variant loci includes 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 40, 50, 75 ,100, 250, 500, 1000, 2500, 5000, or 10000 single nucleotide variation loci known to be associated with cancer (eg, breast cancer, bladder cancer, or colorectal cancer) at the low end of the range, and,5. 6, 7, 8, 9, 10, 15, 20, 25, 30, 40, 50, 75, 100, 250, 500, 1000, 2500, 5000, 10000, 20000 and 25000 at the high end of the range.
[218] В любом из представленных в данном документе способов обнаружения ОНВ, которые включают рабочий процесс амплификации/секвенирования ОНВ цоДНК, можно использовать улучшенные параметры амплификации для мультиплексной ПЦР. Например, где реакция амплификации представляет собой реакцию ПЦР, а температура отжига на 1, 2, 3, 4, 5, 6, 7, 8, 9 или 10 °C больше, чем температура плавления на нижнем конце диапазона и 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14 или 15 ° на верхнем конце диапазона, для по меньшей мере 10, 20, 25, 30, 40, 50, 60, 70, 75, 80, 90, 95 или 100% праймеров из набора праймеров.[218] Any of the CNV detection methods presented herein that include a CNV ctDNA amplification/sequencing workflow can utilize improved amplification parameters for multiplex PCR. For example, where the amplification reaction is a PCR reaction and the annealing temperature is 1, 2, 3, 4, 5, 6, 7, 8, 9, or 10 °C greater than the melting temperature at the lower end of the range and 2, 3, 4 5, 6, 7, 8, 9, 10, 11, 12, 13, 14 or 15° at the high end of the range, for at least 10, 20, 25, 30, 40, 50, 60, 70, 75, 80, 90, 95 or 100% primers from a primer set.
[219] В некоторых вариантах воплощения, в которых реакция амплификации представляет собой реакцию ПЦР, продолжительность стадии отжига в реакции ПЦР составляет от 10, 15, 20, 30, 45 и до 60 минут в нижнем конце диапазона, и 15 20, 30, 45, 60, 120, 180 или 240 минут в верхнем конце диапазона. В некоторых вариантах воплощения концентрация праймера при амплификации, такой как реакция ПЦР, составляет от 1 до 10 нМ. Кроме того, в примерных вариантах воплощения праймеры в наборе праймеров предназначены для минимизации образования димера праймера.[219] In some embodiments in which the amplification reaction is a PCR reaction, the duration of the annealing step in the PCR reaction is from 10, 15, 20, 30, 45, and up to 60 minutes at the lower end of the range, and 15 to 20, 30, 45 60, 120, 180 or 240 minutes at the top end of the range. In some embodiments, the concentration of the primer in an amplification such as a PCR reaction is from 1 nM to 10 nM. Additionally, in exemplary embodiments, the primers in the primer set are designed to minimize primer dimer formation.
[220] Соответственно, в примере любого из представленных в данном документе способов, которые включают стадию амплификации, реакция амплификации представляет собой реакцию ПЦР, температура отжига на 1-10 °С выше, чем температура плавления по меньшей мере 90% праймеров из набора праймеров, продолжительность стадии отжига в реакции ПЦР составляет от 15 до 60 минут, концентрация праймеров в реакции амплификации составляет от 1 до 10 нМ, и праймеры в наборе праймеров предназначены для минимизации образования димера праймера. В дополнительном аспекте этого примера реакцию мультиплексной амплификации проводят в условиях ограничивающего праймера.[220] Accordingly, in any of the methods presented herein that include an amplification step, the amplification reaction is a PCR reaction whose annealing temperature is 1-10 °C higher than the melting temperature of at least 90% of the primers in the primer set, The duration of the annealing step in the PCR reaction is from 15 to 60 minutes, the concentration of primers in the amplification reaction is from 1 to 10 nM, and the primers in the primer set are designed to minimize the formation of primer dimer. In a further aspect of this example, the multiplex amplification reaction is carried out under limiting primer conditions.
[221] В другом варианте воплощения в настоящем документе представлен способ поддержки диагноза рака (например, рака молочной железы, рака мочевого пузыря или колоректального рака) для индивидуума, такого как индивидуум, у которого предположительно имеется рак (например, рак молочной железы, рак мочевого пузыря или колоректальный рак), из образца крови или его фракции от индивидуума, который включает выполнение рабочего процесса амплификации/секвенирования ОНВ цоДНК, как предусмотрено в настоящем документе, для определения наличия одного или более однонуклеотидных вариантов во множестве локусов однонуклеотидного варианта. В данном варианте воплощения применяются следующие элементы, утверждения, рекомендации или правила: отсутствие однонуклеотидного варианта подтверждает диагноз аденокарциномы стадии 1a, 1b или 2a, наличие однонуклеотидного варианта поддерживает диагноз плоскоклеточного рака или стадии аденокарциномы 2b или 3a и/или наличие десяти или более однонуклеотидных вариантов подтверждают диагноз плоскоклеточного рака или аденокарциномы стадии 2b или 3.[221] In another embodiment, provided herein is a method of supporting a diagnosis of cancer (e.g., breast cancer, bladder cancer, or colorectal cancer) for an individual, such as an individual who is suspected of having cancer (e.g., breast cancer, bladder cancer). bladder or colorectal cancer), from a blood sample or fraction thereof from an individual, which includes performing a ctDNA CNV amplification/sequencing workflow as provided herein to determine the presence of one or more single nucleotide variants at multiple single nucleotide variant loci. In this embodiment, the following elements, statements, guidelines, or rules apply: the absence of a single nucleotide variant supports a diagnosis of stage 1a, 1b, or 2a adenocarcinoma, the presence of a single nucleotide variant supports a diagnosis of squamous cell carcinoma or stage 2b or 3a adenocarcinoma, and/or the presence of ten or more single nucleotide variants confirms diagnosis of squamous cell carcinoma or adenocarcinoma stage 2b or 3.
[222] Эти результаты идентифицируют анализ с использованием рабочего процесса амплификации/секвенирования ОНВ цоДНК образцов аденокарциномы и мелкоклеточного рака легкого от индивидуума в качестве ценного способа для идентификации ОНВ, обнаруженного в опухоли аденокарциномы, особенно для опухолей аденокарциномы стадии 2b и 3a, и особенно опухоли мелкоклеточного рака на любой стадии (см., например, ФИГ. 15 и ФИГ. 20A-B).[222] These results identify the analysis using the CNV ctDNA amplification/sequencing workflow of adenocarcinoma and small cell lung cancer samples from an individual as a valuable method for identifying CNVs found in an adenocarcinoma tumor, especially for stage 2b and 3a adenocarcinoma tumors, and especially small cell tumors cancer at any stage (see, for example, FIG. 15 and FIG. 20A-B).
[223] В некоторых вариантах воплощения способы, представленные в данном документе для обнаружения ОНВ, могут использоваться для руководства схемой терапии. Существует доступная терапия и терапия, находящаяся на стадии разработки, которая направлена на специфические мутации, связанные с аденокарциномой и мелкоклеточным раком (Nature Review Cancer. 14:535-551 (2014). Например, обнаружение мутации EGFR в L858R или T790M может быть информативным для выбора терапии. Эрлотиниб, гефитиниб, афатиниб, AZK9291, CO-1686 и HM61713 являются современными способами лечения, одобренными в США или в клинических испытаниях, которые нацелены на специфические мутации EGFR. В другом примере мутация G12D, G12C или G12V в KRAS может использоваться для направления индивидуума на терапию комбинацией селуметиниба плюс доцетаксел. В качестве другого примера, мутация V600E в BRAF может использоваться для направления субъекта на лечение вемурафенибом, дабрафенибом и траметинибом.[223] In some embodiments, the methods presented herein for detecting CNVs can be used to guide a therapy regimen. There are therapies available and in development that target specific mutations associated with adenocarcinoma and small cell carcinoma (Nature Review Cancer. 14:535–551 (2014). For example, detection of an EGFR mutation at L858R or T790M may be informative for choice of therapy. Erlotinib, gefitinib, afatinib, AZK9291, CO-1686 and HM61713 are current treatments approved in the US or in clinical trials that target specific EGFR mutations. In another example, the G12D, G12C or G12V mutation in KRAS may be used to Referring a subject to therapy with a combination of selumetinib plus docetaxel As another example, the V600E mutation in BRAF can be used to refer a subject to treatment with vemurafenib, dabrafenib and trametinib.
[224] Образец, анализируемый способами по настоящему изобретению, в некоторых иллюстративных вариантах воплощения, представляет собой образец крови или его фракцию. Способы, представленные в настоящем документе, в некоторых вариантах воплощения специально адаптированы для амплификации фрагментов ДНК, особенно фрагментов ДНК опухоли, которые обнаруживают в циркулирующей опухолевой ДНК (цоДНК). Такие фрагменты обычно имеют длину приблизительно 160 нуклеотидов.[224] The sample analyzed by the methods of the present invention, in some illustrative embodiments, is a blood sample or a fraction thereof. The methods presented herein are, in some embodiments, specifically adapted to amplify DNA fragments, especially tumor DNA fragments that are found in circulating tumor DNA (ctDNA). Such fragments are typically approximately 160 nucleotides in length.
[225] В данной области техники известно, что свободно-клеточная нуклеиновая кислота (скНК), например, ДНК, может высвобождаться в кровоток посредством различных форм гибели клеток, таких как апоптоз, некроз, аутофагия и некроптоз. СкДНК фрагментирована, и распределение фрагментов по размерам варьируется от 150-350 п.н. до более, чем 10000 п.н. (см. Kalnina et al. World J Gastroenterol. 2015 Nov 7; 21(41): 11636-11653). Например, распределение размеров фрагментов ДНК плазмы у пациентов с гепатоцеллюлярной карциномой (ГЦК) охватывало диапазон 100-220 п.н. с пиком частоты подсчета приблизительно 166 п.н. и самой высокой концентрацией опухолевой ДНК в фрагментах длиной 150-180 п.н. (см.: Jiang et al. Proc Natl Acad Sci USA 112:E1317-E1325).[225] It is known in the art that cell-free nucleic acid (scNA), such as DNA, can be released into the bloodstream through various forms of cell death, such as apoptosis, necrosis, autophagy and necroptosis. The scDNA is fragmented, and the fragment size distribution varies from 150-350 bp. up to more than 10,000 bp (See Kalnina et al. World J Gastroenterol. 2015 Nov 7; 21(41): 11636-11653). For example, the size distribution of plasma DNA fragments in patients with hepatocellular carcinoma (HCC) spanned the range of 100–220 bp. with a peak counting frequency of approximately 166 bp. and the highest concentration of tumor DNA in fragments 150-180 bp long. (See: Jiang et al. Proc Natl Acad Sci USA 112:E1317-E1325).
[226] В иллюстративном варианте воплощения циркулирующую опухолевую ДНК (цоДНК) выделяют из крови с использованием пробирки с EDTA-2Na после удаления клеточного дебриса и тромбоцитов путем центрифугирования. Образцы плазмы могут храниться при минус 80 °C до тех пор, пока ДНК не будет экстрагирована с использованием, например, набора QIAamp DNA Mini Kit (Qiagen, Hilden, Германия), (например, Hamakawa et al., Br J Cancer. 2015; 112:352-356). Hamakava et al. сообщали о медианной концентрации экстрагированной свободно-клеточной ДНК во всех образцах, составляющей 43,1 нг на мл плазмы (диапазон 9,5-1338 нг/мл) и о диапазоне мутантной фракции 0,001-77,8% с медианой 0,90%.[226] In an exemplary embodiment, circulating tumor DNA (ctDNA) is isolated from blood using an EDTA-2Na tube after removal of cellular debris and platelets by centrifugation. Plasma samples can be stored at −80°C until DNA is extracted using, for example, the QIAamp DNA Mini Kit (Qiagen, Hilden, Germany), (e.g. Hamakawa et al., Br J Cancer. 2015; 112:352-356). Hamakawa et al. reported a median extracted cell-free DNA concentration across all samples of 43.1 ng per mL of plasma (range 9.5–1338 ng/mL) and a mutant fraction range of 0.001–77.8% with a median of 0.90%.
[227] В некоторых иллюстративных вариантах воплощения образец представляет собой опухоль. В данной области техники известны способы выделения нуклеиновой кислоты из опухоли и создания библиотеки нуклеиновых кислот из такого образца ДНК с учетом приведенных в данном документе указаний. Кроме того, принимая во внимание приведенные в данном документе указания, специалист в данной области техники поймет, как, в дополнение к образцам цоДНК, создать библиотеку нуклеиновых кислот, подходящую для представленных в данном документе способов, из других образцов, таких, как другие жидкие образцы, где ДНК свободно плавает,[227] In some illustrative embodiments, the sample is a tumor. Methods are known in the art for isolating nucleic acid from a tumor and creating a nucleic acid library from such a DNA sample following the teachings herein. Additionally, taking into account the teachings herein, one skilled in the art will understand how, in addition to ctDNA samples, to create a nucleic acid library suitable for the methods presented herein from other samples, such as other liquid samples , where DNA floats freely,
[228] Способы по настоящему изобретению в некоторых вариантах воплощения обычно включают этап получения и амплификации библиотеки нуклеиновых кислот из образца (т.е. получение библиотеки). Нуклеиновые кислоты из образца во время этапа подготовки библиотеки могут иметь адапторы для лигирования, часто упоминаемые как теги библиотеки или теги адаптора лигирования (ligation tags - LT), которые добавляются там, где адапторы лигирования содержат универсальную инициирующую последовательность с последующей универсальной амплификацией. В одном варианте воплощения это может быть сделано с использованием стандартного протокола, предназначенного для создания библиотек секвенирования после фрагментации. В одном варианте воплощения образец ДНК может иметь тупые концы, а затем на 3'-конце можно добавить А. Можно добавить и лигировать Y-адаптор с T-«липким» концом. В некоторых случаях могут быть использованы другие липкие концы, кроме «липкого» конца A или T. В некоторых случаях могут быть добавлены другие адапторы, например петлевые лигирующие адапторы. В некоторых случаях заявленные адапторы могут иметь метку, предназначенную для амплификации в ПЦР.[228] The methods of the present invention, in some embodiments, typically include the step of obtaining and amplifying a library of nucleic acids from a sample (ie, library preparation). Nucleic acids from a sample during the library preparation step may have ligation adapters, often referred to as library tags or ligation tags (LT), which are added where the ligation adapters contain a universal start sequence followed by universal amplification. In one embodiment, this can be done using a standard protocol designed to generate sequencing libraries after fragmentation. In one embodiment, the DNA sample may be blunt ended and then an A may be added at the 3' end. A Y adapter may be added and ligated to a T overhang. In some cases, sticky ends other than the A or T sticky end may be used. In some cases, other adapters, such as loop ligation adapters, can be added. In some cases, claimed adapters may be labeled for PCR amplification.
[229] Ряд вариантов воплощения, представленных в настоящем документе, включают в себя обнаружение ОНВ в образце цоДНК. Такие способы в иллюстративных вариантах воплощения включают в себя этап амплификации и этап секвенирования (иногда упоминаемый в данном документе как «рабочий процесс амплификации/секвенирования ОНВ цоДНК»). В иллюстративном примере рабочий процесс амплификации/секвенирования цоДНК может включать в себя создание набора ампликонов путем проведения реакции мультиплексной амплификации на нуклеиновых кислотах, выделенных из образца крови или его фракции от индивидуума, такого как индивидуум, подозреваемый на наличие рака, например, рака молочной железы, рака мочевого пузыря или колоректального рака, где каждый ампликон из набора ампликонов охватывает по меньшей мере один локус однонуклеотидного варианта из набора локусов однонуклеотидного варианта, такого как локусы ОНВ, о которых известно, что они связаны с раком (например, раком молочной железы, раком мочевого пузыря или колоректальным раком); и определение последовательности по меньшей мере сегмента в каждом ампликоне из набора ампликонов, где сегмент содержит локусы однонуклеотидного варианта. Таким образом, этот примерный способ определяет однонуклеотидные варианты, присутствующие в образце.[229] A number of embodiments presented herein involve detecting CNVs in a ctDNA sample. Such methods, in illustrative embodiments, include an amplification step and a sequencing step (sometimes referred to herein as a “ctDNA CNF amplification/sequencing workflow”). In an illustrative example, a ctDNA amplification/sequencing workflow may include generating a set of amplicons by performing a multiplex amplification reaction on nucleic acids isolated from a blood sample or fraction thereof from an individual, such as an individual suspected of having cancer, such as breast cancer, bladder cancer or colorectal cancer, wherein each amplicon of the set of amplicons spans at least one single nucleotide variant locus of the set of single nucleotide variant loci, such as HB loci known to be associated with cancer (e.g., breast cancer, bladder cancer bladder or colorectal cancer); and determining the sequence of at least a segment in each amplicon of the set of amplicons, where the segment contains single nucleotide variant loci. Thus, this exemplary method identifies single nucleotide variants present in a sample.
[230] Примерные рабочие процессы амплификации/секвенирования ОНВ цоДНК могут более детально включать формирование реакционной смеси для амплификации путем объединения полимеразы, нуклеотидтрифосфатов, фрагментов нуклеиновых кислот из библиотеки нуклеиновых кислот, сгенерированных из образца, и набора праймеров, каждый из которых связывает эффективное расстояние от локусов однонуклеотидного варианта или набора пар праймеров, каждая из которых охватывает эффективную область, включающую локус однонуклеотидного варианта. Локусы однонуклеотидного варианта в примерных вариантах воплощения, как известно, связаны с раком, например раком молочной железы, раком мочевого пузыря или колоректальным раком. Затем, подвергая реакционную смесь для амплификации условиям амплификации, генерируют набор ампликонов, включающих по меньшей мере один локус однонуклеотидного варианта из набора локусов однонуклеотидного варианта, которые, как известно, предпочтительно связаны с раком (например, раком молочной железы, раком мочевого пузыря или колоректальным раком); и определение последовательности по меньшей мере сегмента каждого ампликона из набора ампликонов, где сегмент содержит локусы однонуклеотидного варианта.[230] Exemplary workflows for ctDNA NCB amplification/sequencing may involve in more detail the formation of an amplification reaction mixture by combining polymerase, nucleotide triphosphates, nucleic acid fragments from a nucleic acid library generated from the sample, and a set of primers, each of which binds an effective distance from the loci single nucleotide variant or a set of primer pairs, each of which covers an effective region including the locus of the single nucleotide variant. Single nucleotide variant loci in exemplary embodiments are known to be associated with cancer, such as breast cancer, bladder cancer, or colorectal cancer. Subjecting the amplification reaction mixture to amplification conditions then generates a set of amplicons comprising at least one single nucleotide variant locus from a set of single nucleotide variant loci known to be preferentially associated with cancer (e.g., breast cancer, bladder cancer, or colorectal cancer ); and determining the sequence of at least a segment of each amplicon from the set of amplicons, where the segment contains single nucleotide variant loci.
[231] Эффективное расстояние связывания праймеров может быть в пределах 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 20, 25, 30, 35, 40, 45, 50, 75, 100, 125 или 150 пар оснований локуса ОНВ. Эффективный диапазон, который охватывает пара праймеров, обычно включает ОНВ и обычно составляет 160 пар оснований или менее, и может составлять 150, 140, 130, 125, 100, 75, 50 или 25 пар оснований или менее. В других вариантах воплощения эффективный диапазон, который охватывает пара праймеров, составляет 20, 25, 30, 40, 50, 60, 70, 75, 100, 110, 120, 125, 130, 140 или 150 нуклеотидов из локусов ОНВ на нижнем конце диапазона и 25, 30, 40, 50, 60, 70, 75, 100, 110, 120, 125, 130, 140 или 150, 160, 170, 175 или 200 на верхнем конце диапазона.[231] The effective binding distance of primers can be in the range of 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 20, 25, 30, 35, 40 , 45, 50, 75, 100, 125 or 150 base pairs of the ONV locus. The effective range that the primer pair covers usually includes the HB and is typically 160 base pairs or less, and may be 150, 140, 130, 125, 100, 75, 50 or 25 base pairs or less. In other embodiments, the effective range that the primer pair covers is 20, 25, 30, 40, 50, 60, 70, 75, 100, 110, 120, 125, 130, 140, or 150 nucleotides from the HB loci at the lower end of the range and 25, 30, 40, 50, 60, 70, 75, 100, 110, 120, 125, 130, 140 or 150, 160, 170, 175 or 200 at the higher end of the range.
[232] Дополнительные подробности, касающиеся способов амплификации, которые можно использовать в процессе амплификации/секвенирования ОНВ цоДНК для обнаружения ОНВ для использования в способах по изобретению, представлены в других разделах данного описания.[232] Additional details regarding amplification methods that can be used in the process of amplification/sequencing of CNV ctDNA to detect CNV for use in the methods of the invention are presented elsewhere in this specification.
[233] Аналитика распознавания ОНВ [233] NVG recognition analytics
[234] Во время выполнения способов, представленных в настоящем документе, генерируют данные о секвенировании нуклеиновых кислот для ампликонов, созданных с помощью мультиплексной ПЦР с тайлингом. Существуют инструменты разработки алгоритма, которые можно использовать и/или адаптировать для анализа этих данных с тем, чтобы определить в определенных пределах достоверности, присутствует ли в целевом гене такая мутация, как ОНВ.[234] The methods presented herein generate nucleic acid sequencing data for amplicons generated by multiplex tiling PCR. There are algorithm development tools that can be used and/or adapted to analyze this data to determine, within certain limits of confidence, whether a mutation such as ONV is present in a target gene.
[235] Считывания секвенирования могут быть демультиплексированы с использованием собственного инструмента и отображены с помощью программного обеспечения Burrows-Wheeler, функция Bwa mem (BWA, Burrows-Wheeler Alignment Software (см. Li H. and Durbin R. (2010) Fast and accurate long-read alignment with Burrows-Wheeler Transform. Bioinformatics, Epub. [PMID: 20080505]) в однопользовательском режиме с использованием считываний генома hg19 при помощи программы PEAR. КК статистики амплификации может быть выполнен путем анализа общего числа считываний, количества картированных считываний, количества картированных считываний на мишени и количества подсчитанных считываний.[235] Sequencing reads can be demultiplexed using a proprietary instrument and displayed using Burrows-Wheeler software, Bwa mem function (BWA, Burrows-Wheeler Alignment Software (see Li H. and Durbin R. (2010) Fast and accurate long -read alignment with Burrows-Wheeler Transform. Bioinformatics, Epub. [PMID: 20080505]) in single-user mode using hg19 genome reads using the PEAR program. QA of amplification statistics can be performed by analyzing the total number of reads, the number of mapped reads, the number of mapped reads on the target and the number of reads counted.
[236] В некоторых вариантах воплощения любой аналитический способ для обнаружения ОНВ по данным определения последовательности нуклеиновых кислот можно использовать со способами по настоящему изобретению, которые включают этап обнаружения ОНВ или определения наличия ОНВ. В некоторых иллюстративных вариантах воплощения изобретения используются способы изобретения, которые используют представленный ниже СПОСОБ 1 ОНВ. В других, еще более иллюстративных вариантах воплощения способы по изобретению, которые включают в себя этап обнаружения ОНВ или определения того, присутствует ли ОНВ в локусах ОНВ, используют СПОСОБ 2 ОНВ ниже.[236] In some embodiments, any analytical method for detecting CNVs from nucleic acid sequencing data can be used with the methods of the present invention that include the step of detecting CNVs or determining the presence of CNVs. Some exemplary embodiments of the invention employ methods of the invention that utilize the CNV METHOD 1 below. In other, even more illustrative embodiments, the methods of the invention that include the step of detecting HNV or determining whether HNV is present at HNV loci use HNV METHOD 2 below.
[237] СПОСОБ 1 ОНВ: Для этого варианта воплощения модель фоновой ошибки строится с использованием нормальных образцов плазмы, которые были секвенированы в одном и том же прогоне секвенирования для учета специфических для прогона артефактов. В некоторых вариантах воплощения 5, 10, 15, 20, 25, 30, 40, 50, 100, 150, 200, 250 или более 250 нормальных образцов плазмы анализируются в одном и том же прогоне секвенирования. В некоторых иллюстративных вариантах воплощения 20, 25, 40 или 50 нормальных образцов плазмы анализируют в одном и том же прогоне секвенирования. Помехонасыщенные позиции с нормальной медианной частотой вариантного аллеля больше значения отсечения удаляются. Например, это значение отсечения в некоторых вариантах воплощения составляет более 0,1, 0,2, 0,25, 0,5, 1, 2, 5 или 10%. В некоторых иллюстративных вариантах воплощения помехонасыщенные положения с нормальной медиальной частотой вариантного аллеля больше 0,5% удаляются. Отклоняющиеся образцы были итеративно удалены из модели, чтобы учесть помехи и загрязнение. В некоторых вариантах воплощения образцы с оценкой Z более 5, 6, 7, 8, 9 или 10 удаляются из анализа данных. Для каждой замены основания каждого геномного локуса вычисляется взвешенное среднее значение глубины и стандартное отклонение ошибки. Позиции опухолевых или бесклеточных образцов плазмы с по меньшей мере 5 вариантами считывания и Z-счетом 10, например, на фоне фоновой ошибки, можно назвать мутацией-кандидатом.[237] METHOD 1 ONV: For this embodiment, a background error model is built using normal plasma samples that were sequenced in the same sequencing run to account for run-specific artifacts. In some embodiments, 5, 10, 15, 20, 25, 30, 40, 50, 100, 150, 200, 250, or more than 250 normal plasma samples are analyzed in the same sequencing run. In some illustrative embodiments, 20, 25, 40, or 50 normal plasma samples are analyzed in the same sequencing run. Noise-saturated positions with a normal median variant allele frequency greater than the cutoff value are removed. For example, this cutoff value in some embodiments is greater than 0.1, 0.2, 0.25, 0.5, 1, 2, 5, or 10%. In some illustrative embodiments, interference-saturated positions with a normal medial variant allele frequency greater than 0.5% are removed. Outliers were iteratively removed from the model to account for noise and contamination. In some embodiments, samples with a Z score greater than 5, 6, 7, 8, 9, or 10 are removed from the data analysis. For each base substitution of each genomic locus, a weighted depth mean and error standard deviation are calculated. Positions of tumor or cell-free plasma samples with at least 5 read variants and a Z-score of 10, for example, against a background error, can be called a candidate mutation.
[238] СПОСОБ 2 ОНВ: Для этого варианта воплощения определяют одиночные нуклеотидные варианты (ОНВ) с использованием данных цоДНК плазмы. Процесс ПЦР моделируется как стохастический процесс, оценка параметров с использованием обучающего набора и осуществление окончательного распознавания ОНВ требует отдельного набора тестирования. Определяется распространение ошибки по нескольким циклам ПЦР, вычисляются среднее значение и дисперсия фоновой ошибки, а в иллюстративных вариантах воплощения фоновая ошибка отличается от реальных мутаций.[238] METHOD 2 SNV: For this embodiment, single nucleotide variants (SNVs) are determined using plasma ctDNA data. The PCR process is modeled as a stochastic process, estimating the parameters using the training set and performing the final recognition of the CNV requires a separate testing set. The propagation of the error over multiple PCR cycles is determined, the mean and variance of the background error are calculated, and in illustrative embodiments, the background error is different from the actual mutations.
[239] Для каждого основания оцениваются следующие параметры:[239] For each basis, the following parameters are assessed:
[240] p = эффективность (вероятность того, что каждое считывание реплицируется в каждлом цикле)[240] p = efficiency (probability that each read is replicated in each cycle)
[241] p e = частота ошибок на цикл для мутаций типа e (вероятность того, что случится ошибка типа e ) [241] p e = error rate per cycle for mutations of type e (probability that an error of type e will occur)
[242] X 0 = первоначальное количество молекул [242] X 0 = initial number of molecules
[243] По мере репликации считываний в ходе процесса ПЦР возникает больше ошибок. Следовательно, профиль ошибки считываний определяется степенями отделения от исходного чтения. Мы называем считывание генерацией kth когда оно прошло k репликаций, пока не было сгенерировано.[243] As reads are replicated, more errors occur during the PCR process. Therefore, the error profile of the reads is determined by the degrees of separation from the original read. We call a read generation k th when it has gone through k replications until it is generated.
[244] Давайте определим следующие переменные для каждого основания:[244] Let's define the following variables for each base:
[245] X ij = количество генераций i считываний, сгенерированных в цикле ПЦР j[245] X ij = number of generations i of reads generated in PCR cycle j
[246] Y ij = общее количество генераций i считываний в конце цикла j[246] Y ij = total number of generations of i reads at the end of cycle j
[247] X ij e = количество генераций i считываний с мутацией e, сгенерированных в цикле ПЦP j[247] X ij e = number of generations of i reads with mutation e generated in a PCR cycle j
[248] Более того, помимо нормальных молекул X 0 , если существуют дополнительные молекулы f e X 0 с мутацией e в начале процесса ПЦР (следовательно, fe/(1+fe) будет фракцией мутантных молекул в исходной смеси). [ 248] Moreover, in addition to normal X 0 molecules, if there are additional fe X 0 molecules with mutation e at the beginning of the PCR process (hence fe/(1+fe) will be the fraction of mutant molecules in the original mixture).
[249] Учитывая общее число генераций i-1 считываний в цикле j-1, количество генераций i считываний, сгенерированных в цикле j, имеет биномальное распределение с размером выборки Y i-1,j-1 и параметром вероятности p . Следовательно, E( X ij, |Y i-1,j-1 , p ) = p Y i-1,j-1 и Var( X ij, |Y i-1,j-1 , p ) = p(1-p) Y i-1,j-1 . [249] Given the total number of i-1 read generations in cycle j-1, the number of i-read generations generated in cycle j has a binomial distribution with sample size Y i-1,j-1 and probability parameter p . Therefore, E( X ij, |Y i-1,j-1 , p ) = p Y i-1,j-1 and Var( X ij, |Y i-1,j-1 , p ) = p( 1-p) Y i-1,j-1 .
[250] Мы также имеем . Следовательно, с помощью рекурсии, моделирования или аналогичных способов мы можем определить E( X ij, ). Подобным образом, используя распределение p , мы можем определить Var( X ij ) = E(Var( X ij, | p )) + Var(E( X ij, | p )). [250] We also have . Therefore, using recursion, simulation or similar methods, we can determine E( X ij, ). Similarly, using the distribution of p , we can define Var( X ij ) = E(Var( X ij, | p )) + Var(E( X ij, | p )).
[251] наконец, E( X ij e |Y i-1,j-1 , p e ) = p e Y i-1,j-1 и Var( X ij e |Y i-1,j-1 , p ) = p e (1- p e ) Y i-1,j-1 , и мы можем это использовать для расчета E( X ij e ) и Var( X ij e ). [251] finally, E( X ij e |Y i-1,j-1 , p e ) = p e Y i-1,j-1 and Var( X ij e |Y i-1,j-1 , p ) = p e (1- p e ) Y i-1,j-1 , and we can use this to calculate E( X ij e ) and Var( X ij e ).
[252] В некоторых вариантах воплощения Способ 2 ОНВ выполняется следующим образом:[252] In some embodiments, Method 2 NVG is performed as follows:
[253] a) Оценивают эффективность ПЦР и частоту ошибок за цикл, используя обучающий набор данных;[253] a) Estimate PCR efficiency and error rate per cycle using the training data set;
[254] б) Оценивают количество исходных молекул для обучающего набора данных на каждом основании, используя распределение эффективности, оцененное на этапе (a);[254] b) Estimate the number of seed molecules for the training data set at each base using the efficiency distribution estimated in step (a);
[255] в) При необходимости обновляют оценку эффективности для обучающего набора данных, используя начальное количество молекул, оцененное на этапе (б);[255] c) If necessary, update the efficiency estimate for the training data set using the initial number of molecules estimated in step (b);
[256] г) Оценивают среднее значение и дисперсию для общего количества молекул, молекул фоновой ошибки и реальных молекул мутации (для пространства поиска, состоящего из начального процента реальных молекул мутации), используя данные обучающего набора и параметры, оцененные на этапах (a), (б) и (в);[256] d) Estimate the mean and variance for the total number of molecules, background error molecules, and real mutation molecules (for a search space consisting of the initial percentage of real mutation molecules) using the training set data and parameters estimated in steps (a). (b) and (c);
[257] д) Подбирают распределение по числу молекул с общей ошибкой (фоновая ошибка и реальная мутация) во всех молекулах и рассчитывают вероятность для каждого процента реальных мутаций в пространстве поиска; и[257] e) Select a distribution based on the number of molecules with a common error (background error and real mutation) in all molecules and calculate the probability for each percentage of real mutations in the search space; And
[258] е) Определяют наиболее вероятный процент реальных мутаций и рассчитывают достоверность, используя данные из этапа (д).[258] f) Determine the most likely percentage of real mutations and calculate the confidence using the data from step (e).
[259] Для идентификации ОНВ на локусах ОНВ можно использовать доверительный предел. Например, для распознавания ОНВ может использоваться 90-процентный, 95-процентный, 96-процентный, 97-процентный, 98-процентный или 99-процентный доверительный предел.[259] A confidence limit can be used to identify ONVs at ONV loci. For example, a 90 percent, 95 percent, 96 percent, 97 percent, 98 percent, or 99 percent confidence limit could be used to recognize an NDC.
[260] Примерный алгоритм СПОСОБА 2 ОНВ [260] Approximate algorithm for METHOD 2 ONV
[261] Алгоритм начинается с оценки эффективности и частоты ошибок за цикл с использованием обучающего набора. Пусть n означает общее количество циклов ПЦР.[261] The algorithm begins by estimating the efficiency and error rate per cycle using the training set. Let n denote the total number of PCR cycles.
[262] Количество считываний R b на каждом основании б может быть аппроксимировано (1+p b ) n X 0 , где p b является эффективностью на основании б. Тогда (R b /X 0 ) 1/n может использоваться для аппроксимирования 1+p b . Тогда мы можем определить среднее и стандартное отклонение p b по всем обучающим образцам для оценки параметров вероятностного распределения (такого, как нормальное, бета или аналогичное распределение) для каждого основания.[262] The number of reads R b at each base b can be approximated by (1+p b ) n X 0 , where p b is the efficiency per base b. Then (R b /X 0 ) 1/n can be used to approximate 1+p b . We can then determine the mean and standard deviation p b across all training samples to estimate the parameters of a probability distribution (such as a normal, beta, or similar distribution) for each base.
[263] Подобным образом, количество считываний с ошибкой e R b e в каждом основании b маожет быть оценено как . После определения среднего значения и стандартного отклонения частоты ошибок по всем обучающим образцам мы аппроксимируем его вероятностное распределение (например, нормальное, бета или аналогичное распределение), параметры которого оцениваются с использованием этого среднего значения и значения стандартного отклонения.[263] Similarly, the number of reads in error e R b e at each base b can be estimated as . After determining the mean and standard deviation of the error rate across all training samples, we approximate its probability distribution (e.g., normal, beta, or similar distribution) whose parameters are estimated using this mean and standard deviation value.
[264] Затем, для обучающих данных, мы оцениваем исходную начальную копию у каждого основания как , где f(.) является оцененным распределением из обучающего набора.[264] Then, for the training data, we estimate the original seed copy at each base as , where f(.) is the estimated distribution from the training set.
[265] , где f(.)является оцененным распределением из обучающего набора.[265] , where f(.) is the estimated distribution from the training set.
[266] Следовательно, мы оценили параметры, которые будут использоваться в стохастическом процессе. Затем, используя эти оценки, мы можем оценить среднее значение и дисперсию молекул, созданных в каждом цикле (обратите внимание, что мы делаем это отдельно для нормальных молекул, ошибочных молекул и мутантных молекул).[266] Consequently, we estimated the parameters to be used in the stochastic process. Using these estimates, we can then estimate the mean and variance of the molecules created in each cycle (note that we do this separately for normal molecules, error molecules, and mutant molecules).
[267] Наконец, используя вероятностный способ (такой как способ максимального правдоподобия или аналогичные способы), мы можем определить наилучшее значение f e , которое наилучшим образом соответствует распределению ошибочных, мутантных и нормальных молекул. Более конкретно, мы оцениваем ожидаемое отношение ошибочных молекул к общим молекулам для различных значений f e в окончательных считываниях и определяем вероятность наших данных для каждого из этих значений, а затем выбираем значение с наибольшей вероятностью.[267] Finally, using a probabilistic method (such as maximum likelihood or similar methods), we can determine the best value of f e that best fits the distribution of faulty, mutant, and normal molecules. More specifically, we estimate the expected ratio of error molecules to total molecules for different values of f e in the final reads and determine the probability of our data for each of these values, and then select the value with the highest probability.
[268] Хвосты праймеров могут улучшить обнаружение фрагментированной ДНК из универсально помеченных библиотек. Если тег библиотеки и хвосты праймеров содержат гомологичную последовательность, гибридизация может быть улучшена (например, снижена температура плавления (Tm)) и могут быть удлинены праймеры, если только часть последовательности-мишени праймера находится в фрагменте ДНК образца, В некоторых вариантах воплощения можно использовать 13 или более целевых пар оснований. В некоторых вариантах воплощения можно использовать от 10 до 12 целевых пар оснований. В некоторых вариантах воплощения можно использовать от 8 до 9 целевых пар оснований. В некоторых вариантах воплощения можно использовать от 6 до 7 целевых пар оснований.[268] Primer tails can improve the detection of fragmented DNA from universally labeled libraries. If the library tag and primer tails contain homologous sequence, hybridization may be improved (e.g., melting temperature (Tm) is reduced) and primers may be extended if only part of the primer target sequence is in a DNA fragment of the sample. In some embodiments, 13 may be used. or more target base pairs. In some embodiments, 10 to 12 target base pairs may be used. In some embodiments, 8 to 9 target base pairs may be used. In some embodiments, 6 to 7 target base pairs may be used.
[269] В одном варианте воплощения библиотеки генерируются из указанных выше образцов путем лигирования адапторов к концам фрагментов ДНК в образцах или к концам фрагментов ДНК, полученных из ДНК, выделенной из образцов. Затем фрагменты могут быть амплифицированы с использованием ПЦР, например, согласно следующему примерному протоколу:[269] In one embodiment, libraries are generated from the above samples by ligating adapters to the ends of DNA fragments in the samples or to the ends of DNA fragments obtained from DNA isolated from the samples. The fragments can then be amplified using PCR, for example according to the following example protocol:
[270] 95°C, 2 мин; 15 x [95°C, 20 сек, 55°C, 20 сек, 68°C, 20 сек], 68°C 2 мин, выдерживание при 4°C.[270] 95°C, 2 min; 15 x [95°C, 20 sec, 55°C, 20 sec, 68°C, 20 sec], 68°C 2 min, hold at 4°C.
[271] В данной области техники известно множество наборов и способов для создания библиотек нуклеиновых кислот, которые включают универсальные сайты связывания праймеров для последующей амплификации, например клональной амплификации, и для секвенирования подпоследовательностей. Для облегчения лигирования адапторов подготовка и амплификация библиотеки может включать в себя восстановление и аденилирование концов (то есть A-tailing). Для практических способов, представленных в настоящем документе могут быть полезны наборы, специально адаптированные для получения библиотек из небольших фрагментов нуклеиновой кислоты, особенно циркулирующей свободной ДНК. Например, наборы NEXTflex Cell Free kits, доступные от Bioo Scientific () или Natera Library Prep Kit (доступный от Natera, Inc. San Carlos, CA). Однако такие наборы обычно модифицируют, чтобы включать в себя адапторы, которые настроены для этапов амплификации и секвенирования способов, предоставленных в данном документе. Лигирование адаптора может быть выполнено с использованием имеющихся в продаже наборов, таких как набор для лигирования, представленный в AGILENT SURESELECT kit (Agilent, CA).[271] There are many kits and methods known in the art for generating nucleic acid libraries that include universal primer binding sites for subsequent amplification, such as clonal amplification, and for subsequence sequencing. To facilitate adapter ligation, library preparation and amplification may involve end repair and adenylation (ie, A-tailing). The practical methods presented herein may benefit from kits specifically adapted for preparing libraries from small nucleic acid fragments, especially circulating free DNA. For example, NEXTflex Cell Free kits available from Bioo Scientific () or Natera Library Prep Kit (available from Natera, Inc. San Carlos, CA). However, such kits are typically modified to include adapters that are customized for the amplification and sequencing steps of the methods provided herein. Ligation of the adapter can be accomplished using commercially available kits, such as the ligation kit provided in the AGILENT SURESELECT kit (Agilent, CA).
[272] Затем амплифицируют целевые области библиотеки нуклеиновых кислот, сгенерированной из ДНК, выделенной из образца, в частности образца циркулирующей свободной ДНК для способов по настоящему изобретению. Для этой амплификации, серия праймеров или пар праймеров, которые могут включать от 5, 10, 15, 20, 25, 50, 100, 125, 150, 250, 500, 1000, 2500, 5000, 10000, 20000, 25000 или 50000 в нижнем конце диапазона и 15, 20, 25, 50, 100, 125, 150, 250, 500, 1000, 2500, 5000, 10000, 20000, 25000, 50000, 60000, 75000 или 100000 праймеров в верхнем конце диапазона, каждый из которых связывается с одним из ряда сайтов связывания праймеров.[272] Target regions of a nucleic acid library generated from DNA isolated from a sample, in particular a circulating free DNA sample for the methods of the present invention, are then amplified. For this amplification, a series of primers or primer pairs that may include 5, 10, 15, 20, 25, 50, 100, 125, 150, 250, 500, 1000, 2500, 5000, 10000, 20000, 25000 or 50000 The lower end of the range and 15, 20, 25, 50, 100, 125, 150, 250, 500, 1000, 2500, 5000, 10,000, 20,000, 25000, 50000, 60000, 75000 or 100,000 primmers at the upper end of the range, each of which binds to one of a number of primer binding sites.
[273] Дизайны праймеров могут быть сгенерированы с Primer3 (Untergrasser A, Cutcutache I, Koressaar T, Ye J, Faircloth BC, Remm M, Rozen SG (2012) “Primer3 - new capabilities and interfaces.” Nucleic Acids Research 40(15):e115 и Koressaar T, Remm M (2007) “Enhancements and modifications of primer design program Primer3.” Bioinformatics 23(10):1289-91) исходный код доступен на primer3.sourceforge.net). Специфичность праймера может быть оценена с помощью BLAST и добавлена к существующим критериям разработки праймера:[273] Primer designs can be generated with Primer3 (Untergrasser A, Cutcutache I, Koressaar T, Ye J, Faircloth BC, Remm M, Rozen SG (2012) “Primer3 - new capabilities and interfaces.” Nucleic Acids Research 40(15) :e115 and Koressaar T, Remm M (2007) “Enhancements and modifications of primer design program Primer3.” Bioinformatics 23(10):1289-91 (source code available at primer3.sourceforge.net). Primer specificity can be assessed using BLAST and added to existing primer design criteria:
[274] Специфичность праймеров можно определить с помощью программы BLASTn из пакета ncbi-blast-2.2.29+. Может использоваться опция задания “blastn-short” для картирования праймеров по отношению к геному человека hg19. Дизайн праймеров можно определить как «специфичные», если праймер имеет менее 100 совпадений с геномом, а верхнее совпадение является целевой областью связывания комплементарного праймера генома и находится по меньшей мере на два балла выше, чем другие совпадения (балл определяется в программе BLASTn). Это может быть сделано для того, чтобы иметь уникальное попадание в геном и не иметь много других попаданий по всему геному.[274] Primer specificity can be determined using the BLASTn program from the ncbi-blast-2.2.29+ package. The “blastn-short” job option can be used to map primers to the human hg19 genome. Primer designs can be defined as “specific” if the primer has fewer than 100 matches to the genome and the top match is the target binding region of the complementary primer of the genome and is at least two points higher than the other matches (score determined by BLASTn). This may be done in order to have a unique hit in the genome and not have many other hits throughout the genome.
[275] Конечные избранные праймеры можно визуализировать в браузерах IGV (James T. Robinson, Helga Thorvaldsdóttir, Wendy Winckler, Mitchell Guttman, Eric S. Lander, Gad Getz, Jill P. Mesirov. Integrative Genomics Viewer. Nature Biotechnology 29, 24-26 (2011)) и UCSC (Kent WJ, Sugnet CW, Furey TS, Roskin KM, Pringle TH, Zahler AM, Haussler D. The human genome browser at UCSC. Genome Res. 2002 Jun;12(6):996-1006), используя для валидации опорные файлы и карты охвата.[275] The final selected primers can be visualized in IGV browsers (James T. Robinson, Helga Thorvaldsdóttir, Wendy Winckler, Mitchell Guttman, Eric S. Lander, Gad Getz, Jill P. Mesirov. Integrative Genomics Viewer. Nature Biotechnology 29, 24-26 (2011)) and UCSC (Kent WJ, Sugnet CW, Furey TS, Roskin KM, Pringle TH, Zahler AM, Haussler D. The human genome browser at UCSC. Genome Res. 2002 Jun;12(6):996-1006) , using reference files and coverage maps for validation.
[276] Способы по настоящему изобретению в некоторых вариантах воплощения включают в себя формирование реакционной смеси для амплификации. Реакционная смесь обычно образуется путем объединения полимеразы, нуклеотидтрифосфатов, фрагментов нуклеиновых кислот из библиотеки нуклеиновых кислот, сгенерированных из образца, набора прямых и обратных праймеров, специфичных для областей-мишеней, содержащих ОНВ. Реакционные смеси, представленные в настоящем документе, сами образуют в иллюстративных вариантах воплощения отдельный аспект изобретения.[276] The methods of the present invention, in some embodiments, include forming an amplification reaction mixture. The reaction mixture is usually formed by combining the polymerase, nucleotide triphosphates, nucleic acid fragments from a library of nucleic acids generated from the sample, and a set of forward and reverse primers specific for the target regions containing NCBs. The reaction mixtures presented herein themselves form a separate aspect of the invention in the illustrative embodiments.
[277] Реакционная смесь для амплификации, используемая для настоящего изобретения, включает компоненты, известные в данной области техники для амплификации нуклеиновых кислот, особенно для амплификации ПЦР. Например, реакционная смесь обычно включает нуклеотидтрифосфаты, полимеразу и магний. Полимеразы, которые полезны для настоящего изобретения, могут включать любую полимеразу, которая может использоваться в реакции амплификации, особенно те, которые полезны в реакциях ПЦР. В некоторых вариантах воплощения полимеразы Taq с горячим стартом являются особенно полезными. Реакционные смеси для амплификации, полезные для осуществления способов, представленных в настоящем документе, такие как AmpliTaq Gold master mix (Life Technologies, Carlsbad, CA), являются коммерчески доступными.[277] The amplification reaction mixture used for the present invention includes components known in the art for nucleic acid amplification, especially PCR amplification. For example, the reaction mixture typically includes nucleotide triphosphates, polymerase and magnesium. Polymerases that are useful for the present invention may include any polymerase that can be used in an amplification reaction, especially those useful in PCR reactions. In some embodiments, hot-start Taq polymerases are particularly useful. Amplification reaction mixtures useful for performing the methods presented herein, such as AmpliTaq Gold master mix (Life Technologies, Carlsbad, CA), are commercially available.
[278] Условия амплификации (например, температурное циклирование) для ПЦР хорошо известны в данной области техники. Способы, представленные в настоящем документе, могут включать любые условия циклирования ПЦР, которые приводят к амплификации нуклеиновых кислот-мишеней, таких как нуклеиновые кислоты-мишени, из библиотеки. Неограничивающие примерные условия циклирования приведены в данном документе в разделе Примеры.[278] Amplification conditions (eg, temperature cycling) for PCR are well known in the art. The methods provided herein may include any PCR cycling conditions that result in the amplification of target nucleic acids, such as target nucleic acids, from a library. Non-limiting exemplary cycling conditions are provided in the Examples section of this document.
[279] Существует множество рабочих процессов, которые возможны при проведении ПЦР; некоторые рабочие процессы, типичные для способов, раскрытых в данном документе, представлены в данном документе. Представленные в данном документе этапы не предназначены для исключения других возможных этапов и не подразумевают, что для правильной работы способа требуется какой-либо из этапов, представленных в данном документе. В литературе известно большое количество вариаций параметров или других модификаций, которые могут быть сделаны без ущерба для сущности изобретения.[279] There are many workflows that are possible when performing PCR; Some workflows typical of the methods disclosed herein are presented in this document. The steps presented herein are not intended to exclude other possible steps and do not imply that any of the steps presented herein are required for proper operation of the method. There are a large number of parameter variations or other modifications known in the literature that can be made without affecting the spirit of the invention.
[280] В некоторых вариантах воплощения способа, представленного в настоящем документе, по меньшей мере его части, и в иллюстративных примерах определяется полная последовательность ампликона, такого как ампликон-мишень для внешнего праймера. Способы определения последовательности ампликона известны в данной области техники. Для определения такой последовательности может использоваться любой из способов секвенирования, известных в данной области техники, например, секвенирование по Сенгеру. В иллюстративных вариантах воплощения для секвенирования ампликонов, полученных способами, представленными в данном документе, могут использоваться методики секвенирования следующего поколения с высокой пропускной способностью (также называемые в настоящем документе методиками массового параллельного секвенирования), такие как те, что используются в MYSEQ (ILLUMINA), HISEQ (ILLUMINA), ION TORRENT (LIFE TECHNOLOGIES), GENOME ANALYZER ILX (ILLUMINA), GS FLEX+ (ROCHE 454), но не ограничиваясь ими.[280] In some embodiments of the method presented herein, at least a portion thereof, and in illustrative examples, the entire sequence of an amplicon, such as a target amplicon for an external primer, is determined. Methods for determining the sequence of an amplicon are known in the art. To determine such a sequence, any of the sequencing methods known in the art, for example, Sanger sequencing, can be used. In illustrative embodiments, high-throughput next-generation sequencing techniques (also referred to herein as massively parallel sequencing techniques), such as those used in MYSEQ (ILLUMINA), can be used to sequence amplicons generated by the methods presented herein. HISEQ (ILLUMINA), ION TORRENT (LIFE TECHNOLOGIES), GENOME ANALYZER ILX (ILLUMINA), GS FLEX+ (ROCHE 454), but not limited to them.
[281] Генетические секвенаторы с высокой пропускной способностью пригодны для использования штрих-кодов (то есть, маркировки образцов отличительными последовательностями нуклеиновых кислот) чтобы идентифицировать конкретные образцы от индивидуумов, что позволяет одновременно анализировать несколько образцов в одном прогоне секвенатора ДНК. Количество раз, когда последовательность данной области генома в приготовлении библиотеки (или другого исследуемого нуклеинового препарата) секвенируется (число считываний) будет пропорционально количеству копий этой последовательности в исследуемом геноме (или уровню экспрессии в случае приготовлений, содержащих кДНК). При таком количественном определении могут быть приняты во внимание отклонения в эффективности амплификации.[281] High-throughput genetic sequencers are suitable for using barcodes (that is, tagging samples with distinctive nucleic acid sequences) to identify specific samples from individuals, allowing multiple samples to be analyzed simultaneously in a single DNA sequencer run. The number of times the sequence of a given genomic region in a library preparation (or other nucleic acid preparation of interest) is sequenced (number of reads) will be proportional to the number of copies of that sequence in the genome of interest (or expression level in the case of preparations containing cDNA). In such quantification, variations in amplification efficiency can be taken into account.
[282] Гены - мишени[282] Target genes
[283] Гены-мишени по настоящему изобретению в примерных вариантах воплощения представляют собой гены, связанные с раком, и во многих иллюстративных вариантах воплощения являются генами, связанными с раком. Ген, связанный с раком (например, ген, связанный с раком, или ген, связанный с раком мочевого пузыря, или ген, связанный с колоректальным раком) относится к гену, связанному с измененным риском развития рака (например, рака молочной железы, рака мочевого пузыря или колоректального рака) или измененным прогнозом рака. Типичные гены, связанные с раком, которые способствуют развитию рака, включают онкогены; гены, которые усиливают пролиферацию, инвазию или метастазирование клеток; гены, которые ингибируют апоптоз; и гены, стимулирующие ангиогенез. Связанные с раком гены, которые ингибируют рак, включают, без ограничений, гены-супрессоры опухоли; гены, которые ингибируют пролиферацию, инвазию или метастазирование клеток; гены, способствующие апоптозу; и гены антиангиогенеза.[283] The target genes of the present invention are, in exemplary embodiments, cancer-associated genes, and in many exemplary embodiments, are cancer-associated genes. A cancer-associated gene (eg, cancer-associated gene, or bladder cancer-associated gene, or colorectal cancer-associated gene) refers to a gene associated with an altered risk of developing cancer (eg, breast cancer, bladder cancer, bladder or colorectal cancer) or altered cancer prognosis. Typical cancer-associated genes that contribute to cancer development include oncogenes; genes that enhance cell proliferation, invasion or metastasis; genes that inhibit apoptosis; and genes that stimulate angiogenesis. Cancer-associated genes that inhibit cancer include, but are not limited to, tumor suppressor genes; genes that inhibit cell proliferation, invasion or metastasis; genes promoting apoptosis; and antiangiogenesis genes.
[284] Вариант воплощения способа обнаружения мутации начинается с выбора области гена, который становится мишенью. Область с известными мутациями используется для разработки праймеров для мПЦР-СНП для амплификации и выявления мутации.[284] An embodiment of a method for detecting a mutation begins with selecting a region of a gene that becomes a target. The region with known mutations is used to design mPCR-SNP primers for amplification and mutation detection.
[285] Способы, представленные в настоящем документе, могут использоваться для обнаружения практически любого типа мутации, особенно мутаций, о которых известно, что они связаны с раком, и наиболее конкретно, способы, представленные в настоящем документе, направлены на мутации, особенно ОНВ, связанные с раком, в частности раком молочной железы, раком мочевого пузыря или колоректальным раком. Примерные ОНВ могут быть в одном или более из следующих генов: EGFR, FGFR1, FGFR2, ALK, MET, ROS1, NTRK1, RET, HER2, DDR2, PDGFRA, KRAS, NF1, BRAF, PIK3CA, MEK1, NOTCH1, MLL2, EZH2, TET2, DNMT3A, SOX2, MYC, KEAP1, CDKN2A, NRG1, TP53, LKB1 и PTEN, которые были идентифицированы в различных образцах рака легких как мутировавшие, имеющие увеличенное количество копий или слитые с другими генами и их комбинациями (Non-small-cell lung cancers: a heterogeneous set of diseases. Chen et al. Nat. Rev. Cancer. 2014 Aug 14(8):535-551). В другом примере список генов - это вышеперечисленные гены, в которых были зарегистрированы ОНВ, такие, как указанные в ссылке Chen et al.[285] The methods presented herein can be used to detect virtually any type of mutation, especially mutations known to be associated with cancer, and most specifically, the methods presented herein are directed at mutations, especially CNVs. associated with cancer, in particular breast cancer, bladder cancer or colorectal cancer. Exemplary ONVs may be in one or more of the following genes: EGFR, FGFR1, FGFR2, ALK, MET, ROS1, NTRK1, RET, HER2, DDR2, PDGFRA, KRAS, NF1, BRAF, PIK3CA, MEK1, NOTCH1, MLL2, EZH2, TET2, DNMT3A, SOX2, MYC, KEAP1, CDKN2A, NRG1, TP53, LKB1 and PTEN, which were identified in various lung cancer samples as mutated, having increased copy numbers, or fused with other genes and their combinations (Non-small-cell lung cancers: a heterogeneous set of diseases. Chen et al. Nat. Rev. Cancer. 2014 Aug 14(8):535-551). In another example, the gene list is the above genes in which NNVs have been reported, such as those listed in Chen et al.
[286] Реакционные смеси для амплификациии (например, ПЦР): [286] Reaction mixtures for amplification (for example, PCR ) :
[287] Способы по настоящему изобретению в некоторых вариантах воплощения включают в себя формирование реакционной смеси для амплификации. Реакционная смесь обычно образуется путем объединения полимеразы, нуклеотидтрифосфатов, фрагментов нуклеиновых кислот из библиотеки нуклеиновых кислот, сгенерированных из образца, серии внешних прямых праймеров, специфичных для мишени, и внешнего обратного универсального праймера для первой цепи. Другим иллюстративным вариантом воплощения является реакционная смесь, которая включает прямые специфичные для мишени внутренние праймеры вместо прямых специфичных для мишени внешних праймеров и ампликонов из первой реакции ПЦР с использованием внешних праймеров вместо фрагментов нуклеиновых кислот из библиотеки нуклеиновых кислот. Реакционные смеси, представленные в настоящем документе, сами образуют в иллюстративных вариантах воплощения отдельный аспект изобретения. В иллюстративных вариантах воплощения реакционные смеси представляют собой реакционные смеси для ПЦР. Реакционные смеси для ПЦР обычно включают магний.[287] The methods of the present invention, in some embodiments, include forming an amplification reaction mixture. The reaction mixture is typically formed by combining polymerase, nucleotide triphosphates, nucleic acid fragments from a nucleic acid library generated from the sample, a series of target-specific outer forward primers, and an outer first-strand universal reverse primer. Another exemplary embodiment is a reaction mixture that includes forward target-specific internal primers in place of forward target-specific external primers and amplicons from a first PCR reaction using external primers in place of nucleic acid fragments from a nucleic acid library. The reaction mixtures presented herein themselves form a separate aspect of the invention in the illustrative embodiments. In illustrative embodiments, the reaction mixtures are PCR reaction mixtures. PCR reaction mixtures typically include magnesium.
[288] В некоторых вариантах воплощения реакционная смесь включает этилендиаминтетрауксусную кислоту (ЭДТА), магний, хлорид тетраметиламмония (ТМАС) или любую их комбинацию. В некоторых вариантах воплощения концентрация TMAC составляет от 20 до 70 мМ включительно. Хотя это и не предназначено для привязки к какой-либо конкретной теории, считается, что TMAC связывается с ДНК, стабилизирует дуплексы, повышает специфичность праймеров и/или выравнивает температуры плавления различных праймеров. В некоторых вариантах воплощения TMAC повышает единообразие количества амплифицированных продуктов для разных целей. В некоторых вариантах воплощения концентрация магния (например, магния из хлорида магния) составляет от 1 до 8 мМ.[288] In some embodiments, the reaction mixture includes ethylenediaminetetraacetic acid (EDTA), magnesium, tetramethylammonium chloride (TMAC), or any combination thereof. In some embodiments, the concentration of TMAC is from 20 to 70 mM, inclusive. Although not intended to be tied to any particular theory, TMAC is thought to bind DNA, stabilize duplexes, increase primer specificity, and/or equalize the melting temperatures of different primers. In some embodiments, TMAC improves the consistency of the amount of amplified products for different purposes. In some embodiments, the concentration of magnesium (eg, magnesium from magnesium chloride) is from 1 to 8 mM.
[289] Большое количество праймеров, используемых для мультиплексной ПЦР с большим количеством мишеней, может хелатировать много магния (2 фосфата в праймерах хелатируют 1 магний). Например, если используется достаточное количество праймеров, так что концентрация фосфата в праймерах составляет приблизительно 9 мМ, тогда праймеры могут снизить эффективную концентрацию магния на приблизительно 4,5 мМ. В некоторых вариантах воплощения ЭДТА используется для уменьшения количества магния, доступного в качестве кофактора для полимеразы, так как высокие концентрации магния могут привести к ошибкам ПЦР, таким как амплификация нецелевых локусов. В некоторых вариантах воплощения концентрация ЭДТА снижает количество доступного магния до 1-5 мМ (например, 3-5 мМ).[289] A large number of primers used for multiplex PCR with a large number of targets can chelate a lot of magnesium (2 phosphates in the primers chelate 1 magnesium). For example, if enough primers are used such that the phosphate concentration in the primers is approximately 9 mM, then the primers can reduce the effective magnesium concentration by approximately 4.5 mM. In some embodiments, EDTA is used to reduce the amount of magnesium available as a cofactor for the polymerase, since high concentrations of magnesium can lead to PCR errors such as amplification of off-target loci. In some embodiments, the EDTA concentration reduces the amount of available magnesium to 1-5 mM (eg, 3-5 mM).
[290] В некоторых вариантах воплощения рН составляет от 7,5 до 8,5, например от 7,5 до 8, от 8 до 8,3 или от 8,3 до 8,5 включительно. В некоторых вариантах воплощения используется Трис, например, при концентрации от 10 до 100 мМ, такой как от 10 до 25 мМ, от 25 до 50 мМ, от 50 до 75 мМ или от 25 до 75 мМ включительно. В некоторых вариантах воплощения любая из этих концентраций Трис используется при рН от 7,5 до 8,5. В некоторых вариантах воплощения используется комбинация KCl и (NH4)2SO4, например, от 50 до 150 мМ KCl и от 10 до 90 мМ (NH4)2SO4 включительно. В некоторых вариантах воплощения концентрация KCl составляет от 0 до 30 мМ, от 50 до 100 мМ или от 100 до 150 мМ включительно. В некоторых вариантах воплощения концентрация (NH4)2SO4 составляет от 10 до 50 мМ, от 50 до 90 мМ, от 10 до 20 мМ, от 20 до 40 мМ, от 40 до 60 мМ или от 60 до 80 мМ (NH4)2SO4 включительно. В некоторых вариантах воплощения концентрация аммония [NH4 +] составляет от 0 до 160 мМ, например от 0 до 50, от 50 до 100 или от 100 до 160 мМ включительно. В некоторых вариантах воплощения сумма концентрация калия и аммония ([K+] + [NH4 +]) составляет от 0 до 160 мМ, например от 0 до 25, от 25 до 50, от 50 до 150, от 50 до 75, от 75 до 100, от 100 до 125 или от 125 до 160 мМ включительно. Примерным буфером с [K+] + [NH4 +] = 120 мМ является 20 мМ KCl и 50 мМ (NH4)2SO4. В некоторых вариантах воплощения буфер содержит от 25 до 75 мМ Трис, рН от 7,2 до 8, от 0 до 50 мМ KCl, от 10 до 80 мМ сульфата аммония и от 3 до 6 мМ магния включительно. В некоторых вариантах воплощения буфер включает от 25 до 75 мМ Трис, рН от 7 до 8,5, от 3 до 6 мМ MgCl2, от 10 до 50 мМ KCl и от 20 до 80 мМ (NH4)2SO4 включительно. В некоторых вариантах воплощения используется от 100 до 200 единиц/мл полимеразы. В некоторых вариантах воплощения используется 100 мМ KCl, 50 мМ (NH4)2SO4, 3 мМ MgCl2, 7,5 нМ каждого праймера в библиотеке, 50 мМ TMAC и 7 мкл ДНК-матрицы в 20 мкл конечного объема при рН 8,1.[290] In some embodiments, the pH is from 7.5 to 8.5, such as from 7.5 to 8, from 8 to 8.3, or from 8.3 to 8.5, inclusive. In some embodiments, Tris is used, for example, at a concentration of 10 to 100 mM, such as 10 to 25 mM, 25 to 50 mM, 50 to 75 mM, or 25 to 75 mM, inclusive. In some embodiments, any of these concentrations of Tris is used at a pH of 7.5 to 8.5. In some embodiments, a combination of KCl and (NH 4 ) 2 SO 4 is used, for example, 50 to 150 mM KCl and 10 to 90 mM (NH 4 ) 2 SO 4 , inclusive. In some embodiments, the KCl concentration is from 0 to 30 mM, from 50 to 100 mM, or from 100 to 150 mM, inclusive. In some embodiments, the concentration of (NH 4 ) 2 SO 4 is 10 to 50 mM, 50 to 90 mM, 10 to 20 mM, 20 to 40 mM, 40 to 60 mM, or 60 to 80 mM (NH 4 ) 2 SO 4 inclusive. In some embodiments, the ammonium concentration [NH 4 + ] is from 0 to 160 mM, such as from 0 to 50, from 50 to 100, or from 100 to 160 mM, inclusive. In some embodiments, the sum of the potassium and ammonium concentration ([K + ] + [NH 4 + ]) is 0 to 160 mM, such as 0 to 25, 25 to 50, 50 to 150, 50 to 75, 75 to 100, 100 to 125, or 125 to 160 mM inclusive. An exemplary buffer with [K + ] + [NH 4 + ] = 120 mM is 20 mM KCl and 50 mM (NH 4 ) 2 SO 4. In some embodiments, the buffer contains from 25 to 75 mM Tris, pH from 7.2 to 8, from 0 to 50 mM KCl, from 10 to 80 mM ammonium sulfate and from 3 to 6 mM magnesium, inclusive. In some embodiments, the buffer comprises 25 to 75 mM Tris, pH 7 to 8.5, 3 to 6 mM MgCl 2 , 10 to 50 mM KCl, and 20 to 80 mM (NH 4 ) 2 SO 4 , inclusive. In some embodiments, 100 to 200 units/ml of polymerase is used. Some embodiments use 100 mM KCl, 50 mM (NH 4 ) 2 SO 4 , 3 mM MgCl 2 , 7.5 nM of each primer in the library, 50 mM TMAC, and 7 μL template DNA in a 20 μL final volume at pH 8 ,1.
[291] В некоторых вариантах воплощения используется краудинг-агент, такой как полиэтиленгликоль (ПЭГ, такой как ПЭГ 8000) или глицерин. В некоторых вариантах воплощения количество ПЭГ (такого, как ПЭГ 8000) составляет от 0,1 до 20%, например от 0,5 до 15%, от 1 до 10%, от 2 до 8% или от 4 до 8% включительно. В некоторых вариантах воплощения количество глицерина составляет от 0,1 до 20%, например от 0,5 до 15%, от 1 до 10%, от 2 до 8% или от 4 до 8% включительно. В некоторых вариантах воплощения краудинг-агент позволяет использовать низкую концентрацию полимеразы и/или более короткое время отжига. В некоторых вариантах воплощения краудинг-агент улучшает однородность глубины считывания (depth of read - DOR) и/или уменьшает отсев (необнаруженные аллели). Полимеразы В некоторых вариантах воплощения используется полимераза с корректирующей активностью, полимераза без или с незначительной корректирующей активностью или смесь полимеразы с корректирующей активностью и полимеразы без или с незначительной корректирующей активностью. В некоторых вариантах воплощения используется полимераза горячего старта, полимераза не-горячего старта или смесь полимеразы горячего старта и полимеразы не-горячего старта. В некоторых вариантах воплощения используется ДНК полимераза HotStarTaq (см., например, каталог QIAGEN № 203203). В некоторых вариантах воплощения используется ДНК полимераза AmpliTaq Gold®. В некоторых вариантах воплощения используется ДНК полимераза PrimeSTAR GXL, полимераза высокой точности, которая обеспечивает эффективную амплификацию ПЦР, когда в реакционной смеси присутствует избыток матрицы, и также она используется при амплификации длинных продуктов (Takara Clontech, Mountain View, CA). В некоторых вариантах воплощения используется ДНК полимераза KAPA Taq или ДНК полимераза KAPA TaqHotStart; они базируются на одно-субъединичной ДНК полимеразе дикого типа Taq термофильной бактерии Thermus aquaticus. ДНК полимеразы KAPA Taq и KAPA TaqHotStart имеют полимеразную активность 5'-3' и экзонуклеазную активность 5'-3', но не 3' -5' экзонуклеазную (корректирующую) активность (см., например, каталог KAPA BIOSYSTEMS № BK1000). В некоторых вариантах воплощения используется ДНК полимераза Pfu; это высоко термостабильная ДНК-полимераза из гипертермофильного архея Pyrococcus furiosus. Этот фермент катализирует матрично-зависимую полимеризацию нуклеотидов в дуплексную ДНК в направлении 5'→3'. ДНК полимеразы Pfu также проявляют 3'→5' экзонуклеазную (корректирующую) активность, что позволяет полимеразе исправлять ошибки включения нуклеотидов. Она не имеет 5'→3' экзонуклеазной активности (см., например, каталог Thermo Scientific № EP0501). В некоторых вариантах воплощения используется Klentaq1; это аналог ДНК полимеразы Taq по фрагменту Кленова, он не обладает экзонуклеазной или эндонуклеазной активностью (см., например, каталог DNA POLYMERASE TECHNOLOGY, Inc, St. Louis, Missouri, № 100). В некоторых вариантах воплощения полимераза представляет собой ДНК полимеразу PHUSION, такую как PHUSION High Fidelity DNA polymerase (M0530S, New England BioLabs, Inc.) или PHUSION Hot Start Flex DNA polymerase (M0535S, New England BioLabs, Inc.). В некоторых вариантах воплощения полимераза представляет собой ДНК полимеразу Q5®, такую как Q5® High-Fidelity DNA Polymerase (M0491S, New England BioLabs, Inc.) или Q5® Hot Start High-Fidelity DNA Polymerase (M0493S, New England BioLabs, Inc.). В некоторых вариантах воплощения полимераза представляет собой ДНК полимеразу T4 DNA (M0203S, New England BioLabs, Inc.).[291] In some embodiments, a crowding agent such as polyethylene glycol (PEG, such as PEG 8000) or glycerol is used. In some embodiments, the amount of PEG (such as PEG 8000) is 0.1 to 20%, such as 0.5 to 15%, 1 to 10%, 2 to 8%, or 4 to 8%, inclusive. In some embodiments, the amount of glycerin is from 0.1 to 20%, such as from 0.5 to 15%, from 1 to 10%, from 2 to 8%, or from 4 to 8%, inclusive. In some embodiments, the crowding agent allows the use of a lower polymerase concentration and/or shorter annealing time. In some embodiments, the crowding agent improves depth of read (DOR) uniformity and/or reduces attrition (undetected alleles). Polymerases In some embodiments, a polymerase with proofreading activity, a polymerase with no or little proofreading activity, or a mixture of a polymerase with proofreading activity and a polymerase with no or little proofreading activity is used. In some embodiments, a hot start polymerase, a non-hot start polymerase, or a mixture of a hot start polymerase and a non-hot start polymerase is used. In some embodiments, HotStarTaq DNA polymerase is used (see, for example, QIAGEN Catalog No. 203203). In some embodiments, AmpliTaq Gold® DNA polymerase is used. In some embodiments, PrimeSTAR GXL DNA polymerase is used, a high fidelity polymerase that provides efficient PCR amplification when excess template is present in the reaction mixture, and is also used in the amplification of long products (Takara Clontech, Mountain View, Calif.). In some embodiments, KAPA Taq DNA polymerase or KAPA TaqHotStart DNA polymerase is used; they are based on the wild-type Taq single-subunit DNA polymerase of the thermophilic bacterium Thermus aquaticus . DNA polymerases KAPA Taq and KAPA TaqHotStart have 5'-3' polymerase activity and 5'-3' exonuclease activity, but not 3'-5' exonuclease (proofreading) activity (see, for example, KAPA BIOSYSTEMS catalog No. BK1000). In some embodiments, Pfu DNA polymerase is used; it is a highly thermostable DNA polymerase from the hyperthermophilic archaeon Pyrococcus furiosus . This enzyme catalyzes the template-dependent polymerization of nucleotides into duplex DNA in the 5'→3' direction. Pfu DNA polymerases also exhibit 3'→5' exonuclease (proofreading) activity, which allows the polymerase to correct nucleotide incorporation errors. It does not have 5'→3' exonuclease activity (see, for example, Thermo Scientific catalog no. EP0501). In some embodiments, Klentaq1 is used; it is an analogue of Taq DNA polymerase in the Klenow fragment; it does not have exonuclease or endonuclease activity (see, for example, the catalog of DNA POLYMERASE TECHNOLOGY, Inc, St. Louis, Missouri, No. 100). In some embodiments, the polymerase is a PHUSION DNA polymerase, such as PHUSION High Fidelity DNA polymerase (M0530S, New England BioLabs, Inc.) or PHUSION Hot Start Flex DNA polymerase (M0535S, New England BioLabs, Inc.). In some embodiments, the polymerase is a Q5® DNA polymerase, such as Q5® High-Fidelity DNA Polymerase (M0491S, New England BioLabs, Inc.) or Q5® Hot Start High-Fidelity DNA Polymerase (M0493S, New England BioLabs, Inc. ). In some embodiments, the polymerase is T4 DNA polymerase (M0203S, New England BioLabs, Inc.).
[292] В некоторых вариантах воплощения используется от 5 до 600 единиц/мл (единиц на 1 мл реакционного объема) полимеразы, например, от 5 до 100, от 100 до 200, от 200 до 300, от 300 до 400, от 400 до 500 или от 500 до 600 единиц/мл включительно.[292] In some embodiments, 5 to 600 units/ml (units per 1 ml of reaction volume) of polymerase is used, e.g., 5 to 100, 100 to 200, 200 to 300, 300 to 400, 400 to 500 or from 500 to 600 units/ml inclusive.
Способы ПЦРPCR methods
[293] В некоторых вариантах воплощения ПЦР с горячим стартом используется для снижения или предотвращения полимеризации перед термоциклированием ПЦР. Типичные способы ПЦР с горячим стартом включают первоначальное ингибирование реакции ДНК-полимеразы или физическое разделение компонентов реакции до тех пор, пока реакционная смесь не достигнет более высоких температур. В некоторых вариантах воплощения используется медленное высвобождение магния. ДНК-полимераза требует активности ионов магния, поэтому магний химически отделяется от реакции путем связывания с химическим соединением и выделяется в раствор только при высокой температуре. В некоторых вариантах воплощения используется нековалентное связывание ингибитора. В этом способе пептид, антитело или аптамер нековалентно связаны с ферментом при низкой температуре и ингибируют его активность. После инкубации при повышенной температуре ингибитор высвобождается и начинается реакция. В некоторых исследованиях используется чувствительная к холоду Taq-полимераза, такая, как модифицированная ДНК-полимераза которая практически не проявляет активности при низкой температуре. В некоторых вариантах воплощения используется химическая модификация. В этом способе молекула ковалентно связана с боковой цепью аминокислоты в активном центре ДНК-полимеразы. Молекула высвобождается из фермента путем инкубации реакционной смеси при повышенной температуре. Как только молекула высвобождается, активируется фермент.[293] In some embodiments, hot start PCR is used to reduce or prevent polymerization before thermal cycling of the PCR. Typical hot-start PCR methods involve initially inhibiting the DNA polymerase reaction or physically separating the reaction components until the reaction mixture reaches higher temperatures. In some embodiments, slow release of magnesium is used. DNA polymerase requires the activity of magnesium ions, so magnesium is chemically separated from the reaction by binding to a chemical compound and released into solution only at high temperature. In some embodiments, non-covalent binding of the inhibitor is used. In this method, a peptide, antibody or aptamer is non-covalently bound to an enzyme at a low temperature and inhibits its activity. After incubation at elevated temperature, the inhibitor is released and the reaction begins. Some studies use cold-sensitive Taq polymerase, such as a modified DNA polymerase that shows little or no activity at low temperatures. In some embodiments, chemical modification is used. In this method, the molecule is covalently linked to an amino acid side chain in the active site of DNA polymerase. The molecule is released from the enzyme by incubating the reaction mixture at elevated temperature. Once the molecule is released, the enzyme is activated.
[294] В некоторых вариантах воплощения количество матричных нуклеиновых кислот (таких, как образец РНК или ДНК) составляет от 20 до 5000 нг, например от 20 до 200, от 200 до 400, от 400 до 600, от 600 до 1000; От 1000 до 1500; или от 2000 до 3000 нг включительно.[294] In some embodiments, the amount of template nucleic acids (such as an RNA or DNA sample) is 20 to 5000 ng, such as 20 to 200, 200 to 400, 400 to 600, 600 to 1000; From 1000 to 1500; or from 2000 to 3000 ng inclusive.
[295] В некоторых вариантах воплощения используется набор QIAGEN Multiplex PCR Kit (каталог QIAGEN, № 206143). Для мультиплексных ПЦР реакций 100 x 50 мкл набор включает 2x QIAGEN Multiplex PCR Master Mix (дающий конечную концентрацию 3 мМ MgCl2, 3 x 0,85 мл), 5x Q-Solution (1 x 2,0 мл), и воду, свободную от РНКаз (RNase-Free Water) (2 x 1,7 мл). QIAGEN Multiplex PCR Master Mix (MM) содержит комбинацию KCl и (NH4)2SO4, а также вспомогательное вещество для ПЦР, Фактор MP, что увеличивает локальную концентрацию праймеров на матрице. Фактор MP стабилизирует специфически связанные праймеры, обеспечивая эффективное удлинение праймеров ДНК полимеразой HotStarTaq DNA Polymerase. ДНК полимераза HotStarTaq является модифицированной формой ДНК полимеразы Taq и не обладает полимеразной активностью при комнатных температурах. В некоторых вариантах воплощения ДНК полимераза HotStarTaq активируется 15-минутной инкубацией при 95 °C, которая может быть включена в любую существующую программу термоциклирования.[295] In some embodiments, the QIAGEN Multiplex PCR Kit (QIAGEN catalog no. 206143) is used. For 100 x 50 µl multiplex PCR reactions, the kit includes 2x QIAGEN Multiplex PCR Master Mix (giving a final concentration of 3 mM MgCl 2 , 3 x 0.85 ml), 5x Q-Solution (1 x 2.0 ml), and free water from RNase (RNase-Free Water) (2 x 1.7 ml). QIAGEN Multiplex PCR Master Mix (MM) contains a combination of KCl and (NH 4 ) 2 SO 4 , as well as the PCR auxiliary Factor MP, which increases the local concentration of primers on the matrix. MP factor stabilizes specifically bound primers, allowing efficient DNA primer extension by HotStarTaq DNA Polymerase. HotStarTaq DNA polymerase is a modified form of Taq DNA polymerase and does not have polymerase activity at room temperatures. In some embodiments, HotStarTaq DNA polymerase is activated by a 15-minute incubation at 95°C, which can be included in any existing thermal cycling program.
[296] В некоторых вариантах воплощения используется конечная концентрация 1x QIAGEN MM (рекомендованная концентрация), 7,5 нМ каждого праймера в библиотеке, 50 мM TMAC и 7 мкл матрицы ДНК в 20 мкл конечного объема. В некоторых вариантах воплощения условия термоциклирования ПЦР включают 95 °С в течение 10 минут (горячий старт); 20 циклов при 96 °С в течение 30 секунд; 65 °С в течение 15 минут; и 72 °С в течение 30 секунд; затем 72 °С в течение 2 минут (окончательное удлинение); а затем выдерживать при 4 °C.[296] In some embodiments, a final concentration of 1x QIAGEN MM (recommended concentration), 7.5 nM of each primer in the library, 50 mM TMAC, and 7 μl of template DNA in a 20 μl final volume is used. In some embodiments, PCR thermal cycling conditions include 95°C for 10 minutes (hot start); 20 cycles at 96 °C for 30 seconds; 65 °C for 15 minutes; and 72 °C for 30 seconds; then 72°C for 2 minutes (final extension); and then maintain at 4 °C.
[297] В некоторых вариантах воплощения используется конечная концентрация 2x QIAGEN MM (двойная рекомендованная концентрация), 2 нМ каждого праймера в бибилиотеке, 70 мМ TMAC и 7 мкл матрицы ДНК в 20 мкл конечного объема. В некоторых вариантах воплощения также включено до 4 мМ ЭДТА. В некоторых вариантах воплощения условия термоциклирования ПЦР включают 95 °С в течение 10 минут (горячий старт); 25 циклов при 96 °С в течение 30 секунд; 65 °С в течение 20, 25, 30, 45, 60, 120 или 180 минут; и, необязательно, 72 °С в течение 30 секунд; затем 72 °С в течение 2 минут (окончательное удлинение); а затем выдерживать при 4 °C.[297] Some embodiments use a final concentration of 2x QIAGEN MM (twice the recommended concentration), 2 nM of each primer in the library, 70 mM TMAC, and 7 μl of DNA template in a 20 μl final volume. In some embodiments, up to 4 mM EDTA is also included. In some embodiments, PCR thermal cycling conditions include 95°C for 10 minutes (hot start); 25 cycles at 96 °C for 30 seconds; 65 °C for 20, 25, 30, 45, 60, 120 or 180 minutes; and optionally 72°C for 30 seconds; then 72°C for 2 minutes (final extension); and then maintain at 4 °C.
[298] Другой примерный набор условий включает в себя подход с полу-вложенной ПЦР. В первой реакции ПЦР используется 20 мкл реакционного объема с конечной концентрацией 2x QIAGEN MM, 1,875 нМ каждого праймера в библиотеке (внешний прямой и обратный праймеры) и матрица ДНК. Параметры термоциклирования включают 95 °С в течение 10 минут; 25 циклов: 96 °С в течение 30 секунд, 65 °С в течение 1 минуты, 58 °С в течение 6 минут, 60 °С в течение 8 минут, 65 °С в течение 4 минут и 72 °С в течение 30 секунд; и затем 72 °С в течение 2 минут, а затем выдерживание при 4 °С. Затем 2 мкл полученного продукта, разведенного 1: 200, используют в качестве исходного материала для второй реакции ПЦР. В этой реакции используется 10 мкл реакционного объема с конечной концентрацией 1x QIAGEN MM, 20 нМ каждого внутреннего прямого праймера и 1 мкМ тега обратного праймера. Параметры термоциклирования включают 95 °С в течение 10 минут; 15 циклов: 95 °С в течение 30 секунд, 65 °С в течение 1 минуты, 60 °С в течение 5 минут, 65 °С в течение 5 минут и 72 °С в течение 30 секунд; и затем 72 °С в течение 2 минут, а затем выдерживание при 4 °С. Температура отжига может быть необязательно выше, чем температура плавления некоторых или всех праймеров, как обсуждается в данном документе (см. Заявку на Патент США № 14/918544, поданную 20 октября 2015 года, которая включена сюда посредством ссылки во всей полноте).[298] Another exemplary set of conditions includes a semi-nested PCR approach. The first PCR reaction uses a 20 µl reaction volume with a final concentration of 2x QIAGEN MM, 1.875 nM of each primer in the library (external forward and reverse primers) and DNA template. Thermal cycling parameters include 95°C for 10 minutes; 25 cycles: 96°C for 30 seconds, 65°C for 1 minute, 58°C for 6 minutes, 60°C for 8 minutes, 65°C for 4 minutes and 72°C for 30 seconds ; and then 72°C for 2 minutes, followed by holding at 4°C. Then 2 μl of the resulting product, diluted 1:200, is used as starting material for the second PCR reaction. This reaction uses a 10 µl reaction volume with a final concentration of 1x QIAGEN MM, 20 nM each internal forward primer and 1 µM reverse primer tag. Thermal cycling parameters include 95°C for 10 minutes; 15 cycles: 95°C for 30 seconds, 65°C for 1 minute, 60°C for 5 minutes, 65°C for 5 minutes and 72°C for 30 seconds; and then 72°C for 2 minutes, followed by holding at 4°C. The annealing temperature may not necessarily be higher than the melting temperature of some or all of the primers, as discussed herein (see US Patent Application No. 14/918,544, filed October 20, 2015, which is incorporated herein by reference in its entirety).
[299] Температура плавления (Tm) представляет собой температуру, при которой половина (50%) дуплекса ДНК олигонуклеотида (такого как праймер) и его идеального комплемента диссоциирует и становится одноцепочечной ДНК. Температура отжига (TA) - это температура, при которой выполняется протокол ПЦР. В предыдущих способах она обычно на 5 °C ниже самой низкой Tm используемых праймеров, таким образом, рядом образуются почти все возможные дуплексы (такие, что по существу все молекулы праймера связывают матричную нуклеиновую кислоту). Хотя это очень эффективно, при более низких температурах происходят более неспецифические реакции. Одним из следствий слишком низкой TA является то, что праймеры могут отжигать последовательности, отличные от истинной мишени, поскольку могут допускаться внутренние несоответствия одного основания или частичный отжиг. В некоторых вариантах воплощения настоящего изобретения TA выше, чем Tm, где в данный момент только небольшая часть мишеней имеет отожженный праймер (например, всего приблизительно 1-5%). Если они удлиняются, они удаляются из равновесия отжигающих и диссоциирующих праймеров и мишени (так как удлинение быстро увеличивает Tm до температуры выше 70 °C), и у новых приблизительно 1-5% мишеней есть праймеры. Таким образом, предоставив реакции отжига длительное время, можно получить приблизительно 100% мишеней, скопированных за цикл.[299] Melting temperature (T m ) is the temperature at which half (50%) of the DNA duplex of an oligonucleotide (such as a primer) and its ideal complement dissociates and becomes single-stranded DNA. Annealing temperature (T A ) is the temperature at which the PCR protocol is performed. In previous methods, it is usually 5 °C below the lowest T m of the primers used, so that almost all possible duplexes are formed nearby (such that essentially all primer molecules bind the template nucleic acid). Although this is very effective, more nonspecific reactions occur at lower temperatures. One consequence of too low a T A is that primers may anneal to sequences other than the true target because internal single-base mismatches or partial annealing may occur. In some embodiments of the present invention, T A is higher than T m where, at a given time, only a small portion of the targets have an annealed primer (eg, only about 1-5%). If they elongate, they are removed from the equilibrium of the annealing and dissociating primers and the target (since elongation rapidly increases T m to temperatures above 70 °C), and approximately 1-5% of the targets have primers new. Thus, by allowing the annealing reaction to take a long time, it is possible to obtain approximately 100% of the targets copied per cycle.
[300] В различных вариантах воплощения температура отжига составляет 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13°C и 2, 3, 4, 5, 6, 7, 8, 9, 10 11, 12, 13 или 15°C на верхнем конце диапазона, превышающем температуру плавления (например, эмпирически измеренную или рассчитанную Tm) по меньшей мере на 25, 50, 60, 70, 75, 80, 90 95 или 100% неидентичных праймеров. В различных вариантах воплощения температура отжига составляет от 1 до 15 °C (например, от 1 до 10, от 1 до 5, от 1 до 3, от 3 до 5, от 5 до 10, от 5 до 8, от 8 до 10, от 10 до 12 или от 12 до 15 °C включительно) больше, чем температура плавления (например, эмпирически измеренная или рассчитанная Tm) по меньшей мере 25; 50; 75; 100; 300; 500; 750; 1000; 2000; 5000; 7500; 10000; 15000; 19000; 20000; 25000; 27000; 28000; 30000; 40000; 50000; 75000; 100000; или всх неидентичных праймеров. В различных вариантах воплощения температура отжига составляет от 1 до 15° C (например, от 1 до 10, от 1 до 5, от 1 до 3, от 3 до 5, от 3 до 8, от 5 до 10, от 5 до 8, от 8 до 10, от 10 до 12, или от 12 до 15 °C включительно) больше температуры плавления (например, эмпирически измеренная или рассчитанная Tm) по меньшей мере 25, 50, 60, 70, 75, 80, 90, 95% или всех неидентичных праймеров, а продолжительность стадии отжига (на цикл ПЦР) составляет от 5 до 180 минут, например от 15 до 120 минут, от 15 до 60 минут, от 15 до 45 минут или от 20 до 60 минут включительно.[300] In various embodiments, the annealing temperature is 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13°C and 2, 3, 4, 5, 6, 7. 8, 9, 10 11, 12, 13 or 15°C at the upper end of the range above the melting point (e.g. empirically measured or calculated Tm ) by at least 25, 50, 60, 70, 75, 80, 90 95 or 100% non-identical primers. In various embodiments, the annealing temperature ranges from 1 to 15 °C (e.g., 1 to 10, 1 to 5, 1 to 3, 3 to 5, 5 to 10, 5 to 8, 8 to 10 , from 10 to 12 or from 12 to 15 °C inclusive) greater than the melting point (for example, empirically measured or calculated Tm ) of at least 25; 50; 75; 100; 300; 500; 750; 1000; 2000; 5000; 7500; 10000; 15000; 19000; 20000; 25000; 27000; 28000; 30000; 40000; 50000; 75000; 100000; or all non-identical primers. In various embodiments, the annealing temperature is from 1 to 15° C. (e.g., 1 to 10, 1 to 5, 1 to 3, 3 to 5, 3 to 8, 5 to 10, 5 to 8 , 8 to 10, 10 to 12, or 12 to 15 °C inclusive) greater than the melting point (e.g., empirically measured or calculated Tm ) of at least 25, 50, 60, 70, 75, 80, 90, 95% or all non-identical primers, and the duration of the annealing step (per PCR cycle) is from 5 to 180 minutes, for example from 15 to 120 minutes, from 15 to 60 minutes, from 15 to 45 minutes or from 20 to 60 minutes inclusive.
[301] Примерные способы мультиплексной ПЦР [301] Exemplary Multiplex PCR Methods
[302] В различных вариантах воплощения используются длительные времена отжига (как обсуждается в данном документе и приведено в качестве примера в Примере 10) и/ или низкие концентрации праймера. Фактически, в некоторых вариантах воплощения используются ограничивающие концентрации праймера и/или ограничивающие условия. В различных вариантах воплощения продолжительность этапа отжига составляет 15, 20, 25, 30, 35, 40, 45 или 60 минут на нижнем конце диапазона и 20, 25, 30, 35, 40, 45, 60, 120 или 180 минут на верхнем конце диапазона. В различных вариантах воплощения продолжительность стадии отжига (на цикл ПЦР) составляет от 30 до 180 минут. Например, стадия отжига может составлять от 30 до 60 минут, а концентрация каждого праймера может быть менее 20, 15, 10 или 5 нМ. В других вариантах воплощения концентрация праймера составляет 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20 или 25 нМ на нижнем конце диапазона и 2, 3, 4, 5 6, 7, 8, 9, 10, 15, 20, 25 и 50 на верхнем конце диапазона.[302] Various embodiments use long annealing times (as discussed herein and exemplified in Example 10) and/or low primer concentrations. In fact, in some embodiments, limiting primer concentrations and/or limiting conditions are used. In various embodiments, the duration of the annealing step is 15, 20, 25, 30, 35, 40, 45 or 60 minutes at the low end of the range and 20, 25, 30, 35, 40, 45, 60, 120 or 180 minutes at the high end range. In various embodiments, the duration of the annealing step (per PCR cycle) ranges from 30 to 180 minutes. For example, the annealing step can be from 30 to 60 minutes, and the concentration of each primer can be less than 20, 15, 10 or 5 nM. In other embodiments, the primer concentration is 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, or 25 nM at the low end of the range and 2, 3, 4, 5, 6, 7, 8 , 9, 10, 15, 20, 25 and 50 at the higher end of the range.
[303] При высоком уровне мультиплексирования раствор может стать вязким из-за большого количества праймеров в растворе. Если раствор слишком вязкий, можно уменьшить концентрацию праймеров до количества, которое все еще достаточно для того, чтобы праймеры связывали матричную ДНК. В различных вариантах воплощения используют от 1000 до 100000 различных праймеров, и концентрация каждого праймера составляет менее 20 нМ, например, менее 10 нМ или от 1 до 10 нМ включительно.[303] At high levels of multiplexing, the solution may become viscous due to the large number of primers in the solution. If the solution is too viscous, the primer concentration can be reduced to an amount that is still sufficient for the primers to bind template DNA. In various embodiments, from 1000 to 100,000 different primers are used, and the concentration of each primer is less than 20 nM, such as less than 10 nM, or from 1 to 10 nM inclusive.
[304] Выявление варации числа копий (ВЧК) [304] Detection of copy number variation (CNV)
[305] В дополнение к ОНВ и вставкам/делециям, способы мониторинга и выявления ранних рецидивов и метастазирования, представленные в данном документе, также могут получить пользу из обнаружения ВЧК.[305] In addition to ONV and insertions/deletions, the methods presented herein for monitoring and detecting early relapses and metastasis may also benefit from detection of ICH.
[306] В одном аспекте настоящее изобретение в целом относится по меньшей мере частично, к улучшенным способам определения наличия или отсутствия вариаций числа копий, таких как делеции или дупликации сегментов хромосом или целых хромосом. Способы особенно полезны для обнаружения небольших делеций или дупликаций, которые может быть трудно обнаружить с высокой специфичностью и чувствительностью с использованием предыдущих способов из-за небольшого количества данных, доступных из соответствующего сегмента хромосомы. Эти способы включают улучшенные аналитические способы, улучшенные способы биоанализа и комбинации улучшенных аналитических способов и способов биоанализа. Способы по изобретению также можно использовать для обнаружения делеций или дупликаций, которые присутствуют только в небольшом проценте тестируемых клеток или молекул нуклеиновых кислот. Это позволяет обнаруживать делеции или дупликации до возникновения заболевания (например, на предраковой стадии) или на ранних стадиях заболевания, например, до того, как накопится большое количество пораженных клеток (таких как раковые клетки) с делецией или дупликацией. Более точное обнаружение делеций или дупликаций, связанных с заболеванием или расстройством, позволяет усовершенствовать способы диагностики, прогнозирования, предотвращения, задержки, стабилизации или лечения заболевания или расстройства. Известно, что некоторые делеции или дупликации связаны с раком или с серьезными умственными или физическими недостатками.[306] In one aspect, the present invention generally relates, at least in part, to improved methods for determining the presence or absence of copy number variations, such as deletions or duplications of chromosome segments or entire chromosomes. The methods are particularly useful for detecting small deletions or duplications, which may be difficult to detect with high specificity and sensitivity using previous methods due to the small amount of data available from the corresponding chromosome segment. These methods include improved analytical methods, improved bioassay methods, and combinations of improved analytical methods and bioassay methods. The methods of the invention can also be used to detect deletions or duplications that are present in only a small percentage of the cells or nucleic acid molecules tested. This makes it possible to detect deletions or duplications before the onset of disease (for example, at a precancerous stage) or in the early stages of disease, for example, before a large number of affected cells (such as cancer cells) with deletion or duplication accumulate. More accurate detection of deletions or duplications associated with a disease or disorder allows for improved methods of diagnosing, predicting, preventing, delaying, stabilizing or treating the disease or disorder. Some deletions or duplications are known to be associated with cancer or severe mental or physical disabilities.
[307] В другом аспекте настоящее изобретение в целом относится по меньшей мере частично, к улучшенным способам обнаружения однонуклеотидных вариантов (ОНВ). Эти улучшенные способы включают улучшенные аналитические способы, улучшенные способы биоанализа и усовершенствованные способы, которые используют комбинацию улучшенных аналитических способов и способов биоанализа. Способы в некоторых иллюстративных вариантах воплощения используются для обнаружения, диагностики, мониторинга или стадирования рака, например, в образцах, где ОНВ присутствует в очень низких концентрациях, например, менее 10, 5, 4, 3, 2,5, 2, 1, 0,5, 0,25 или 0,1% относительно общего количества нормальных копий локуса ОНВ, таких как образцы циркулирующей свободной ДНК. То есть эти способы в определенных иллюстративных вариантах воплощения особенно хорошо подходят для образцов, где имеется относительно низкий процент мутации или варианта относительно нормальных полиморфных аллелей, присутствующих для этого генетического локуса. Наконец, в данном документе представлены способы, которые объединяют улучшенные способы обнаружения вариаций количества копий с усовершенствованными способами обнаружения однонуклеотидных вариаций.[307] In another aspect, the present invention generally relates, at least in part, to improved methods for detecting single nucleotide variants (SNVs). These improved methods include improved analytical methods, improved bioassay methods, and improved methods that use a combination of improved analytical methods and bioassay methods. Methods in some illustrative embodiments are used to detect, diagnose, monitor, or stage cancer, for example, in samples where OCB is present in very low concentrations, for example, less than 10, 5, 4, 3, 2.5, 2, 1, 0 .5, 0.25, or 0.1% relative to the total number of normal copies of the HNV locus, such as circulating free DNA samples. That is, these methods, in certain illustrative embodiments, are particularly well suited for samples where there is a relatively low percentage of mutation or variant relative to the normal polymorphic alleles present for that genetic locus. Finally, this document presents methods that combine improved methods for detecting copy number variations with improved methods for detecting single nucleotide variations.
[308] Успешное лечение такого заболевания, как рак, часто зависит от ранней диагностики, правильного определения стадии заболевания, выбора эффективной терапевтической схемы и тщательного мониторинга для предотвращения или выявления рецидива. Для диагностики рака наиболее надежным способом часто считают гистологическую оценку материала опухоли, полученного из биопсии ткани. Однако инвазивный характер взятия проб на основе биопсии сделал его непрактичным для массового скрининга и регулярного наблюдения. Следовательно, настоящие способы имеют то преимущество, что они могут выполняться неинвазивно, если это желательно, при относительно низких затратах и быстром времени выполнения. Целевое секвенирование, которое может быть использовано способами по изобретению, требует меньше операций считывания, чем дробное секвенирование, например, несколько миллионов операций считывания вместо 40 миллионов операций считывания, что снижает стоимость. Мультиплексная ПЦР и секвенирование следующего поколения, которые могут использоваться, увеличивают пропускную способность и снижают затраты.[308] Successful treatment of a disease such as cancer often depends on early diagnosis, correct staging of the disease, selection of an effective therapeutic regimen, and careful monitoring to prevent or detect relapse. For diagnosing cancer, the most reliable method is often considered to be histological evaluation of tumor material obtained from tissue biopsy. However, the invasive nature of biopsy-based sampling has made it impractical for mass screening and routine surveillance. Therefore, the present methods have the advantage that they can be performed non-invasively, if desired, at relatively low cost and fast turnaround time. Targeted sequencing, which can be used by the methods of the invention, requires fewer reads than fractional sequencing, for example, several million reads instead of 40 million reads, which reduces cost. Multiplex PCR and next generation sequencing that can be used increase throughput and reduce costs.
[309] В некоторых примерных вариантах воплощения анализ паттернов AAI в цоДНК обеспечивает более детальное понимание клональной архитектуры опухолей, чтобы помочь предсказать их терапевтические ответы и оптимизировать стратегии лечения. Следовательно, в некоторых вариантах воплощения выбираются панели ммПЦР-СНП, которые предназначены для клинически значимых ВЧК и ОНВ. Такие панели в некоторых иллюстративных вариантах воплощения особенно полезны для пациентов с раковыми заболеваниями, где ВЧК представляют собой значительную долю мутационной нагрузки, как это часто бывает при раке молочной железы, яичников и легких.[309] In some exemplary embodiments, analysis of AAI patterns in ctDNA provides a more detailed understanding of the clonal architecture of tumors to help predict their therapeutic responses and optimize treatment strategies. Therefore, in some embodiments, mmPCR-SNP panels are selected that are designed for clinically significant ICH and NVC. Such panels, in some illustrative embodiments, are particularly useful for patients with cancers where ICHs represent a significant proportion of the mutational load, as is often the case in breast, ovarian, and lung cancers.
[310] В некоторых вариантах воплощения используются способы для выявления делеции, дупликации или однонуклеотидного варианта у человека. Может быть проанализирован образец от индивидуума, который содержит клетки или нуклеиновые кислоты, предположительно имеющие делецию, дупликацию или однонуклеотидный вариант. В некоторых вариантах воплощения образец взят из ткани или органа, предположительно имеющего делецию, дупликацию или однонуклеотидный вариант, такого как клетки или образование, предположительно раковое. Способы по изобретению можно использовать для обнаружения делеции, дупликации или однонуклеотидного варианта, которые присутствуют только в одной клетке или небольшом количестве клеток в смеси, содержащей клетки с делецией, дупликацией или однонуклеотидным вариантом и в клетках без делеции, дупликации или однонуклеотидного варианта. В некоторых вариантах воплощения анализируется скДНК или скРНК из образца крови индивидуума. В некоторых вариантах воплощения скДНК или скРНК секретируется из клеток, таких, как раковые клетки. В некоторых вариантах воплощения скДНК или скРНК высвобождается клетками, подвергающимися некрозу или апоптозу, такими, как раковые клетки. Способы по изобретению можно использовать для обнаружения делеции, дупликации или однонуклеотидного варианта, которые присутствуют только в небольшом проценте скДНК или скРНК. В некоторых вариантах воплощения тестируется одна или более клеток эмбриона.[310] In some embodiments, methods are used to detect a deletion, duplication, or single nucleotide variant in a person. A sample from an individual may be analyzed that contains cells or nucleic acids suspected of having a deletion, duplication, or single nucleotide variant. In some embodiments, the sample is from a tissue or organ suspected of having a deletion, duplication, or single nucleotide variant, such as a cell or lesion suspected of being cancerous. The methods of the invention can be used to detect a deletion, duplication or single nucleotide variant that is present in only one cell or a small number of cells in a mixture containing cells with the deletion, duplication or single nucleotide variant and cells without the deletion, duplication or single nucleotide variant. In some embodiments, scDNA or scRNA from a blood sample of an individual is analyzed. In some embodiments, the scDNA or scRNA is secreted from cells, such as cancer cells. In some embodiments, the scDNA or scRNA is released by cells undergoing necrosis or apoptosis, such as cancer cells. The methods of the invention can be used to detect deletions, duplications, or single nucleotide variants that are present in only a small percentage of scDNA or scRNA. In some embodiments, one or more embryonic cells are tested.
[311] В дополнение к определению наличия или отсутствия изменения количества копий при необходимости можно проанализировать один или более других факторов. Эти факторы могут использоваться для повышения точности диагностики (например, определения наличия или отсутствия рака или повышенного риска развития рака, классификации рака или стадирования рака) или его прогноза. Эти факторы также могут быть использованы для выбора конкретной терапии или схемы лечения, которая, вероятно, будет эффективной у субъекта. Примеры факторов включают наличие или отсутствие полиморфизмов или мутаций; измененные (повышенные или сниженные) уровни общей или определенной скДНК, скРНК, микроРНК (миРНК); измененную (повышенную или сниженную) опухолевую фракцию; измененные (повышенные или сниженные) уровни метилирования, измененную (повышенную или сниженную) целостность ДНК, измененный (повышенный или сниженный) или альтернативный сплайсинг мРНК.[311] In addition to determining the presence or absence of a copy number change, one or more other factors can be analyzed if necessary. These factors can be used to improve diagnostic accuracy (eg, determining the presence or absence of cancer or increased risk of cancer, cancer classification, or cancer staging) or prognosis. These factors can also be used to select a particular therapy or treatment regimen that is likely to be effective in a subject. Examples of factors include the presence or absence of polymorphisms or mutations; altered (increased or decreased) levels of total or specific scDNA, scRNA, microRNA (miRNA); changed (increased or decreased) tumor fraction; altered (increased or decreased) methylation levels, altered (increased or decreased) DNA integrity, altered (increased or decreased) or alternative splicing of mRNA.
[312] В следующих разделах описываются способы обнаружения делеций или дупликаций с использованием фазированных данных (таких как выведенные или измеренные фазированные данные) или нефазированных данных; образцы, которые можно тестировать; способы пробоподготовки, амплификации и количественного определения; способы фазирования генетических данных; полиморфизмы, мутации, изменения нуклеиновых кислот, изменения сплайсинга мРНК и изменения уровней нуклеиновых кислот, которые могут быть обнаружены; базы данных с результатами способов, других факторов риска и способов скрининга; рак, который можно диагностировать или лечить; лечение рака; модели рака для тестирования лечения; и способы формулировки и назначенияя лечения.[312] The following sections describe methods for detecting deletions or duplications using phased data (such as inferred or measured phased data) or unphased data; samples that can be tested; methods of sample preparation, amplification and quantification; methods for phasing genetic data; polymorphisms, mutations, nucleic acid changes, changes in mRNA splicing and changes in nucleic acid levels that may be detected; databases with results of methods, other risk factors and screening methods; cancer that can be diagnosed or treated; cancer treatment; cancer models for testing treatments; and ways to formulate and prescribe treatments.
[313] Примерные способы определения плоидности с использованием фазированных данных [313] Example methods for determining ploidy using phased data
[314] Некоторые из способов по изобретению частично основаны на открытии того, что использование фазированных данных для обнаружения ВЧК уменьшает частоту ложных отрицательных и ложных положительных результатов по сравнению с использованием нефазированных данных. Это улучшение является наибольшим для образцов с ВЧК, присутствующими на низких уровнях. Таким образом, фазовые данные повышают точность обнаружения ВЧК по сравнению с использованием нефазированных данных (таких как способы, которые вычисляют отношения аллелей в одном или более локусов или совокупные отношения аллелей, чтобы получить агрегированное значение (такое, как среднее значение) по хромосоме или хромосомному сегменту без учета того, указывают ли соотношения аллелей в разных локусах на то, что одинаковые или разные гаплотипы присутствуют в ненормальном количестве). Использование фазированных данных позволяет более точно определить, вызваны ли различия между измеренными и ожидаемыми соотношениями аллелей шумом или наличием ВЧК. Например, если различия между измеренными и ожидаемыми соотношениями аллелей в большинстве или во всех локусах в области указывают на то, что один и тот же гаплотип представлен чрезмерно, то ВЧК с большей вероятностью присутствует. Использование связи между аллелями в гаплотипе позволяет определить, соответствуют ли измеренные генетические данные тому же гаплотипу, который представлен чрезмерно большим количеством (а не случайным шумом). Напротив, если различия между измеренными и ожидаемыми соотношениями аллелей обусловлены только шумом (таким как экспериментальная ошибка), то в некоторых вариантах воплощения приблизительно половину времени первый гаплотип представлен как присутствующий в чрезмерно большом количестве, и приблизительно вторую половину времени второй гаплотип представлен как присутствующий в чрезмерно большом количестве.[314] Some of the methods of the invention are based in part on the discovery that using phased data to detect ICH reduces the rate of false negatives and false positives compared to using non-phased data. This improvement is greatest for samples with ICH present at low levels. Thus, phased data improves the accuracy of ICH detection compared to the use of non-phased data (such as methods that calculate allele ratios at one or more loci or cumulative allele ratios to obtain an aggregated value (such as an average) across a chromosome or chromosomal segment without considering whether the ratios of alleles at different loci indicate that the same or different haplotypes are present in abnormal numbers). Using phased data allows us to more accurately determine whether differences between measured and expected allele ratios are due to noise or the presence of ICH. For example, if differences between measured and expected allele ratios at most or all loci in an area indicate that the same haplotype is overrepresented, then ICH is more likely to be present. Using the relationship between alleles in a haplotype allows one to determine whether the measured genetic data corresponds to the same haplotype that is represented by an overrepresentation (rather than random noise). In contrast, if the differences between measured and expected allele ratios are due only to noise (such as experimental error), then in some embodiments, about half the time the first haplotype is represented as being present in excessive amounts, and about the second half of the time the second haplotype is represented as being present in excessive amounts. large quantities.
[315] В некоторых вариантах воплощения фазированные генетические данные используются для определения наличия чрезмерного количества копий первого гомологичного сегмента хромосомы по сравнению со вторым гомологичным сегментом хромосомы в геноме индивидуума (например, в геноме одной или более клеток или в скДНК или скРНК). Типичные чрезмерные представления включают дупликацию первого гомологичного сегмента хромосомы или делецию второго гомологичного сегмента хромосомы. В некоторых вариантах воплощения чрезмерное представление отсутствует, поскольку первый и гомологичный сегменты хромосомы присутствуют в равных пропорциях (например, одна копия каждого сегмента в диплоидном образце). В некоторых вариантах воплощения рассчитанные соотношения аллелей в образце нуклеиновой кислоты сравнивают с ожидаемыми соотношениями аллелей, чтобы определить, существует ли избыточная представленность, как описано далее ниже. В данном описании фраза «первый гомологичный сегмент хромосомы по сравнению со вторым гомологичным сегментом хромосомы» означает первый гомолог сегмента хромосомы и второй гомолог сегмента хромосомы.[315] In some embodiments, phased genetic data is used to determine whether there is an excess number of copies of a first homologous chromosome segment relative to a second homologous chromosome segment in an individual's genome (eg, in the genome of one or more cells or in scDNA or scRNA). Typical over-presentations include duplication of the first homologous chromosome segment or deletion of the second homologous chromosome segment. In some embodiments, there is no overrepresentation because the first and homologous chromosome segments are present in equal proportions (eg, one copy of each segment in a diploid sample). In some embodiments, the calculated allele ratios in the nucleic acid sample are compared with the expected allele ratios to determine whether overrepresentation exists, as described further below. As used herein, the phrase “a first homologous chromosome segment versus a second homologous chromosome segment” means a first homologous chromosome segment and a second homologous chromosome segment.
[316] В некоторых вариантах воплощения способ включает получение фазированных генетических данных для первого гомологичного сегмента хромосомы, включающего идентичность аллеля, присутствующего в этом локусе на первом гомологичном сегменте хромосомы для каждого локуса в наборе полиморфных локусов на первом гомологичном сегменте хромосомы, получение фазированных генетических данных для второго гомологичного хромосомного сегмента, содержащего идентичность аллеля, присутствующего в этом локусе на втором гомологичном хромосомном сегменте для каждого локуса в наборе полиморфных локусов на втором гомологичном хромосомном сегменте, и получение измеренных генетических данных аллелей, содержащих для каждого из аллелей в каждом из локусов в наборе полиморфных локусов количество каждого аллеля, присутствующего в образце ДНК или РНК из одной или более клеток-мишеней и одной или более нецелевых клеток от индивидуума. В некоторых вариантах воплощения способ включает перечисление набора из одной или более гипотез, указывающих степень избыточной представленности первого гомологичного сегмента хромосомы; вычисление для каждой из гипотез ожидаемых генетических данных для множества локусов в образце из полученных фазированных генетических данных для одного или более возможных соотношений ДНК или РНК из одной или более клеток-мишеней к общей ДНК или РНК в образце; вычисление (например, вычисление на компьютере) для каждого возможного соотношения ДНК или РНК и для каждой гипотезы, соответствуют ли данные от полученных генетических данных образца для этого возможного соотношения ДНК или РНК и для этой гипотезы ожидаемым генетическим данным для образца; ранжирование одной или более гипотез согласно соответствию данных; и выбор гипоты, которая имеет самый высокий рейтинг, тем самым определяя степень чрезмерной представленности числа копий первого гомологичного сегмента хромосомы в геноме одной или более клеток от индивидуума.[316] In some embodiments, the method includes obtaining phased genetic data for a first homologous chromosome segment, including the identity of an allele present at that locus on the first homologous chromosome segment for each locus in a set of polymorphic loci on the first homologous chromosome segment, obtaining phased genetic data for a second homologous chromosomal segment containing the identity of the allele present at that locus on the second homologous chromosomal segment for each locus in the set of polymorphic loci on the second homologous chromosomal segment, and obtaining measured genetic data of the alleles containing for each of the alleles at each of the loci in the set of polymorphic loci the number of each allele present in a sample of DNA or RNA from one or more target cells and one or more non-target cells from an individual. In some embodiments, the method includes listing a set of one or more hypotheses indicating the degree of overrepresentation of a first homologous chromosome segment; calculating, for each of the hypotheses, expected genetic data for a plurality of loci in the sample from the obtained phased genetic data for one or more possible ratios of DNA or RNA from one or more target cells to total DNA or RNA in the sample; calculating (eg, computer calculation) for each possible DNA or RNA ratio and for each hypothesis whether the data from the sample's obtained genetic data for that possible DNA or RNA ratio and for that hypothesis correspond to the expected genetic data for the sample; ranking one or more hypotheses according to the fit of the data; and selecting the hypothesis that has the highest ranking, thereby determining the degree to which the copy number of the first homologous chromosome segment is overrepresented in the genome of one or more cells from an individual.
[317] В некоторых вариантах воплощения способ включает получение фазированных генетических данных с использованием любого из способов, представленных в настоящем документе, или любого известного способа. В некоторых вариантах воплощения способ включает одновременно или последовательно в любом порядке (i) получение фазированных генетических данных для первого гомологичного сегмента хромосомы, включающих идентичность аллеля, присутствующего в этом локусе на первом гомологичном сегменте хромосомы, для каждого локуса в наборе полиморфных локусов на первом гомологичном сегменте хромосомы, (ii) получение фазированных генетических данных для второго гомологичного хромосомного сегмента, содержащего идентичность аллеля, присутствующего в этом локусе на втором гомологичном хромосомном сегменте для каждого локуса в наборе полиморфных локусов на втором гомологичном хромосомном сегменте, и (iii) получение измеренных генетических данных аллеля, включающих количество каждого аллеля в каждом из локусов в наборе полиморфных локусов в образце ДНК из одной или более клеток индивидуума.[317] In some embodiments, the method includes obtaining phased genetic data using any of the methods presented herein or any known method. In some embodiments, the method includes, simultaneously or sequentially in any order, (i) obtaining phased genetic data for a first homologous chromosome segment, including the identity of an allele present at that locus on the first homologous chromosome segment, for each locus in a set of polymorphic loci on the first homologous segment chromosome, (ii) obtaining phased genetic data for a second homologous chromosomal segment containing the identity of the allele present at that locus on the second homologous chromosomal segment for each locus in the set of polymorphic loci on the second homologous chromosomal segment, and (iii) obtaining measured genetic data of the allele , including the amount of each allele at each of the loci in a set of polymorphic loci in a DNA sample from one or more cells of an individual.
[318] В некоторых вариантах воплощения способ включает вычисление соотношений аллелей для одного или более локусов в наборе полиморфных локусов, которые являются гетерозиготными по меньшей мере в одной клетке, из которой был получен образец. В некоторых вариантах воплощения рассчитанное соотношение аллелей для определенного локуса представляет собой измеренное количество одного из аллелей, деленное на общее измеренное количество всех аллелей для локуса. В некоторых вариантах воплощения рассчитанное соотношение аллелей для конкретного локуса представляет собой измеренное количество одного из аллелей (например, аллеля в первом сегменте гомологичной хромосомы), разделенное на измеренное количество одного или более других аллелей (например, аллеля во втором сегменте гомологичной хромосомы) для локуса. Рассчитанные соотношения аллелей могут быть рассчитаны с использованием любого из способов, представленных в настоящем документе, или любого стандартного способа (такого как любое математическое преобразование вычисленных соотношений аллелей, представленных в настоящем документе).[318] In some embodiments, the method includes calculating allele ratios for one or more loci in a set of polymorphic loci that are heterozygous in at least one cell from which the sample was obtained. In some embodiments, the calculated allele ratio for a particular locus is the measured amount of one of the alleles divided by the total measured amount of all alleles for the locus. In some embodiments, the calculated allele ratio for a particular locus is the measured amount of one of the alleles (e.g., an allele on a first segment of a homologous chromosome) divided by the measured amount of one or more other alleles (e.g., an allele on a second segment of a homologous chromosome) for the locus. The calculated allele ratios may be calculated using any of the methods presented herein or any standard method (such as any mathematical transformation of the calculated allele ratios presented herein).
[319] В некоторых вариантах воплощения способ включает определение наличия чрезмерного количества копий первого гомологичного сегмента хромосомы путем сравнения одного или более рассчитанных соотношений аллелей для локуса с отношением аллелей, которое ожидается для этого локуса, если первый и второй гомологичные сегменты хромосомы присутствуют в равных пропорциях. В некоторых вариантах воплощения ожидаемое соотношение аллелей предполагает, что возможные аллели для локуса имеют равную вероятность присутствия. В некоторых вариантах воплощения, в которых вычисленное отношение аллелей для конкретного локуса представляет собой измеренное количество одного из аллелей, деленное на общее измеренное количество всех аллелей для локуса, соответствующее ожидаемое соотношение аллелей составляет 0,5 для двухаллельного локуса или 1/3 для трехаллельного локуса. В некоторых вариантах воплощения ожидаемое соотношение аллелей одинаково для всех локусов, например 0,5 для всех локусов. В некоторых вариантах воплощения ожидаемое соотношение аллелей предполагает, что возможные аллели для локуса могут иметь различную вероятность присутствия, такую как вероятность, основанная на частоте каждого из аллелей в конкретной популяции, к которой принадлежит субъект, такой как популяция, основанная на родословной субъекта. Такие частоты аллелей общедоступны (см., например, HapMap Project; Perlegen Human Haplotype Project; web на ncbi.nlm.nih.gov/projects/SNP/; Sherry ST, Ward MH, Kholodov M, et al. dbSDNP: the NCBI database of genetic variation. Nucleic Acids Res. 2001 Jan 1;29(1):308-11, каждый из которых включен посредством ссылки во всей полноте). В некоторых вариантах воплощения ожидаемое соотношение аллелей - это соотношение аллелей, которое ожидается для конкретного индивидуума, тестируемого для конкретной гипотезы, определяющей степень избыточной представленности первого гомологичного сегмента хромосомы. Например, ожидаемое соотношение аллелей для конкретного индивидуума может быть определено на основе фазированных или нефазированных генетических данных от индивидуума (например, из образца от индивидуума, который вряд ли будет иметь делецию или дупликацию, такого как нераковый образец) или данных от одного или более родственников индивидуума.[319] In some embodiments, the method includes determining whether an excessive number of copies of a first homologous chromosome segment is present by comparing one or more calculated allele ratios for a locus with the allele ratio that would be expected for that locus if the first and second homologous chromosome segments were present in equal proportions. In some embodiments, the expected allele ratio assumes that the possible alleles for a locus have an equal probability of being present. In some embodiments, in which the calculated allele ratio for a particular locus is the measured amount of one of the alleles divided by the total measured amount of all alleles for the locus, the corresponding expected allele ratio is 0.5 for a biallelic locus or 1/3 for a triallelic locus. In some embodiments, the expected allele ratio is the same for all loci, such as 0.5 for all loci. In some embodiments, the expected allele ratio assumes that the possible alleles for a locus may have a different probability of presence, such as a probability based on the frequency of each of the alleles in a particular population to which the subject belongs, such as a population based on the subject's ancestry. Such allele frequencies are publicly available (see, for example , HapMap Project; Perlegen Human Haplotype Project; web at ncbi.nlm.nih.gov/projects/SNP/; Sherry ST, Ward MH, Kholodov M, et al. dbSDNP: the NCBI database of genetic variation. Nucleic Acids Res. 2001 Jan 1;29(1):308-11, each of which is incorporated by reference in its entirety). In some embodiments, the expected allele ratio is the allele ratio that is expected for a particular individual tested for a particular hypothesis determining the degree of overrepresentation of the first homologous chromosome segment. For example, the expected allele ratio for a particular individual can be determined based on phased or unphased genetic data from the individual (for example, from a sample from an individual that is unlikely to have a deletion or duplication, such as a non-cancerous sample) or data from one or more relatives of the individual .
[320] В некоторых вариантах воплощения рассчитанное соотношение аллелей указывает на чрезмерную представленность числа копий первого сегмента гомологичной хромосомы, если либо (i) соотношение аллелей для измеренного количества аллеля, присутствующего в этом локусе на первой гомологичной хромосоме, деленное на общее измеренное количество всех аллелей для локуса больше, чем ожидаемое соотношение аллелей для этого локуса, или (ii) отношение аллелей для измеренного количества аллеля, присутствующего в этом локусе на второй гомологичной хромосоме, деленное на общее измеренное количество всех аллелей для локуса, меньше, чем ожидаемое соотношение аллелей для этого локуса. В некоторых вариантах воплощения рассчитанное соотношение аллелей считается показателем избыточной представленности, только если оно значительно выше или ниже ожидаемого соотношения для этого локуса. В некоторых вариантах воплощения рассчитанное соотношение аллелей указывает на отсутствие чрезмерной представленности числа копий первого гомологичного сегмента хромосомы, если либо (i) соотношение аллелей для измеренного количества аллеля, присутствующего в этом локусе на первой гомологичной хромосоме, деленное на общее измеренное количество всех аллелей для локуса, меньше или равно ожидаемому соотношению аллелей для этого локуса, или (ii) отношение аллелей для измеренного количества аллеля, присутствующего в этом локусе на второй гомологичной хромосоме, деленное на общее измеренное количество всех аллелей для локуса, больше или равно ожидаемому отношению аллелей для этого локуса. В некоторых вариантах воплощения рассчитанные коэффициенты, равные соответствующему ожидаемому коэффициенту, игнорируются (так как они указывают на отсутствие чрезмерной представленности).[320] In some embodiments, a calculated allele ratio indicates copy number overrepresentation of the first segment of a homologous chromosome if either (i) the allele ratio for the measured number of alleles present at that locus on the first homologous chromosome divided by the total measured number of all alleles for locus is greater than the expected allele ratio for that locus, or (ii) the allele ratio for the measured number of alleles present at that locus on the second homologous chromosome divided by the total measured number of all alleles for the locus is less than the expected allele ratio for that locus . In some embodiments, the calculated allele ratio is considered an indicator of overrepresentation only if it is significantly higher or lower than the expected ratio for that locus. In some embodiments, the calculated allele ratio indicates that there is no copy number overrepresentation of the first homologous chromosome segment if either (i) the allele ratio for the measured number of alleles present at that locus on the first homologous chromosome divided by the total measured number of all alleles for the locus, is less than or equal to the expected allele ratio for that locus, or (ii) the allele ratio for the measured number of alleles present at that locus on the second homologous chromosome, divided by the total measured number of all alleles for the locus, is greater than or equal to the expected allele ratio for that locus. In some embodiments, calculated coefficients equal to the corresponding expected coefficient are ignored (as they indicate no overrepresentation).
[321] В различных вариантах воплощения используются один или более из следующих способов для сравнения одного или более рассчитанных соотношений аллелей с соответствующими ожидаемыми соотношениями аллелей. В некоторых вариантах воплощения определяют, является ли рассчитанное соотношение аллелей выше или ниже ожидаемого соотношения аллелей для конкретного локуса, независимо от величины различия. В некоторых вариантах воплощения определяют величину различия между рассчитанным отношением аллелей и ожидаемым отношением аллелей для конкретного локуса независимо от того, находится ли рассчитанное соотношение аллелей выше или ниже ожидаемого соотношения аллелей. В некоторых вариантах воплощения определяют, является ли вычисленное соотношение аллелей выше или ниже ожидаемого соотношения аллелей, и величину различия для конкретного локуса. В некоторых вариантах воплощения определяют, является ли среднее или средневзвешенное значение рассчитанных соотношений аллелей выше или ниже среднего или средневзвешенного значения ожидаемых соотношений аллелей независимо от величины различия. В некоторых вариантах воплощения определяют величину различия между средним или средневзвешенным значением рассчитанных соотношений аллелей и средним или средневзвешенным значением ожидаемых соотношений аллелей независимо от того, выше или ниже среднее или средневзвешенное значение рассчитанного соотношения аллелей среднего или средневзвешенного значения ожидаемого соотношения аллелей. В некоторых вариантах воплощения определяют, является ли среднее или средневзвешенное значение рассчитанных соотношений аллелей выше или ниже среднего или средневзвешенного значения ожидаемых соотношений аллелей, и величину различия. В некоторых вариантах воплощения определяют среднее или средневзвешенное значение величины различия между рассчитанными соотношениями аллелей и ожидаемыми соотношениями аллелей.[321] In various embodiments, one or more of the following methods are used to compare one or more calculated allele ratios with corresponding expected allele ratios. In some embodiments, it is determined whether the calculated allele ratio is higher or lower than the expected allele ratio for a particular locus, regardless of the magnitude of the difference. In some embodiments, the magnitude of the difference between the calculated allele ratio and the expected allele ratio for a particular locus is determined, regardless of whether the calculated allele ratio is above or below the expected allele ratio. In some embodiments, it is determined whether the calculated allele ratio is higher or lower than the expected allele ratio and the magnitude of the difference for a particular locus. In some embodiments, it is determined whether the average or weighted average of the calculated allele ratios is higher or lower than the average or weighted average of the expected allele ratios regardless of the magnitude of the difference. In some embodiments, the magnitude of the difference between the average or weighted average of the calculated allele ratios and the average or weighted average of the expected allele ratios is determined, regardless of whether the average or weighted average of the calculated allele ratio is higher or lower than the average or weighted average of the expected allele ratio. In some embodiments, it is determined whether the average or weighted average of the calculated allele ratios is higher or lower than the average or weighted average of the expected allele ratios, and the magnitude of the difference. In some embodiments, an average or weighted average of the magnitude of the difference between the calculated allele ratios and the expected allele ratios is determined.
[322] В некоторых вариантах воплощения величина различия между рассчитанным соотношением аллелей и ожидаемым соотношением аллелей для одного или более локусов используется для определения того, является ли чрезмерное представление числа копий первого гомологичного сегмента хромосомы следствием дублирования первого гомологичного сегмента хромосомы или делеции второго гомологичного сегмента хромосомы в геноме одной или более клеток.[322] In some embodiments, the magnitude of the difference between the calculated allele ratio and the expected allele ratio for one or more loci is used to determine whether the overrepresentation of the copy number of the first homologous chromosome segment is due to a duplication of the first homologous chromosome segment or a deletion of the second homologous chromosome segment in the genome of one or more cells.
[323] В некоторых вариантах воплощения определяется чрезмерная представленность количества копий первого сегмента гомологичной хромосомы, если выполняется одно или более из следующих условий. В некоторых вариантах воплощения число рассчитанных соотношений аллелей, которые указывают на чрезмерную представленность числа копий первого гомологичного сегмента хромосомы, выше порогового значения. В некоторых вариантах воплощения количество рассчитанных соотношений аллелей, которые указывают на отсутствие чрезмерной представленности числа копий первого гомологичного сегмента хромосомы, ниже порогового значения. В некоторых вариантах воплощения величина различия между рассчитанными соотношениями аллелей, которые указывают на чрезмерную представленность числа копий первого гомологичного сегмента хромосомы и соответствующими ожидаемыми соотношениями аллелей, выше порогового значения. В некоторых вариантах воплощения для всех рассчитанных соотношений аллелей, которые указывают на чрезмерную представленность, сумма величины различий между рассчитанным отношением аллелей и соответствующим ожидаемым отношением аллелей выше порогового значения. В некоторых вариантах воплощения величина различия между рассчитанными соотношениями аллелей, которые указывают на отсутствие чрезмерной представленности числа копий первого гомологичного сегмента хромосомы и соответствующими ожидаемыми соотношениями аллелей, ниже порогового значения. В некоторых вариантах воплощения среднее или средневзвешенное значение рассчитанных соотношений аллелей для измеренного количества аллеля, присутствующего в первой гомологичной хромосоме, деленное на общее измеренное количество всех аллелей для локуса, больше, чем среднее или средневзвешенное значение ожидаемых соотношений аллелей по меньшей мере в рамках порогового значения. В некоторых вариантах воплощения среднее или средневзвешенное значение рассчитанных соотношений аллелей для измеренного количества аллеля, присутствующего на второй гомологичной хромосоме, деленное на общее измеренное количество всех аллелей для локуса, меньше, чем среднее или средневзвешенное значение ожидаемого отношения аллеля по меньшей мере в рамках порогового значения. В некоторых вариантах воплощения соответствие данных между рассчитанными соотношениями аллелей и соотношениями аллелей, которые прогнозируются для чрезмерной представленности числа копий первого гомологичного сегмента хромосомы, ниже порогового значения (указывает на хорошее совпадение данных). В некоторых вариантах воплощения соответствие данных между рассчитанными соотношениями аллелей и соотношениями аллелей, которые прогнозируются для отсутствия чрезмерной представленности числа копий первого гомологичного сегмента хромосомы, превышает пороговое значение (указывает на плохое соответствие данных).[323] In some embodiments, overrepresentation of the copy number of the first segment of a homologous chromosome is determined if one or more of the following conditions are met. In some embodiments, the number of calculated allele ratios that indicate copy number overrepresentation of the first homologous chromosome segment is greater than a threshold value. In some embodiments, the number of calculated allele ratios that indicate no copy number overrepresentation of the first homologous chromosome segment is below a threshold. In some embodiments, the magnitude of the difference between the calculated allele ratios that indicate copy number overrepresentation of the first homologous chromosome segment and the corresponding expected allele ratios is greater than a threshold. In some embodiments, for all calculated allele ratios that indicate overrepresentation, the sum of the magnitude of the differences between the calculated allele ratio and the corresponding expected allele ratio is greater than a threshold. In some embodiments, the magnitude of the difference between calculated allele ratios that indicate no copy number overrepresentation of the first homologous chromosome segment and the corresponding expected allele ratios is below a threshold. In some embodiments, the average or weighted average of the calculated allele ratios for the measured amount of an allele present on the first homologous chromosome divided by the total measured amount of all alleles for the locus is greater than the average or weighted average of the expected allele ratios by at least a threshold value. In some embodiments, the average or weighted average of the calculated allele ratios for the measured amount of an allele present on the second homologous chromosome divided by the total measured amount of all alleles for the locus is less than the average or weighted average of the expected allele ratio at least within a threshold value. In some embodiments, the data fit between the calculated allele ratios and the allele ratios that are predicted for the copy number overrepresentation of the first homologous chromosome segment is below a threshold (indicating a good fit to the data). In some embodiments, the data fit between the calculated allele ratios and the allele ratios that are predicted to not overrepresent the copy number of the first homologous chromosome segment exceeds a threshold (indicating a poor fit to the data).
[324] В некоторых вариантах воплощения чрезмерная представленность количества копий первого гомологичного сегмента хромосомы определяется как отсутствующая, если выполняется одно или более из следующих условий. В некоторых вариантах воплощения количество рассчитанных соотношений аллелей, которые указывают на чрезмерную представленность числа копий первого гомологичного сегмента хромосомы, ниже порогового значения. В некоторых вариантах воплощения число рассчитанных соотношений аллелей, которые указывают на отсутствие чрезмерной представленности числа копий первого гомологичного сегмента хромосомы, выше порогового значения. В некоторых вариантах воплощения величина различия между рассчитанными соотношениями аллелей, которые указывают на чрезмерную представленность числа копий первого гомологичного сегмента хромосомы и соответствующих ожидаемых соотношений аллелей, ниже порогового значения. В некоторых вариантах воплощения величина различия между рассчитанными соотношениями аллелей, которые указывают на отсутствие чрезмерной представленности числа копий первого гомологичного сегмента хромосомы и соответствующих ожидаемых соотношений аллелей, выше порогового значения. В некоторых вариантах воплощения среднее или средневзвешенное значение рассчитанных соотношений аллелей для измеренного количества аллеля, присутствующего в первой гомологичной хромосоме, деленное на общее измеренное количество всех аллелей для локуса минус среднее или средневзвешенное значение ожидаемых соотношений аллелей меньше порогового значения. В некоторых вариантах воплощения среднее или средневзвешенное значение ожидаемых соотношений аллелей минус среднее или средневзвешенное значение рассчитанных соотношений аллелей для измеренного количества аллеля, присутствующего на второй гомологичной хромосоме, деленное на общее измеренное количество всех аллелей для локуса, меньше порогового значения. В некоторых вариантах воплощения соответствие данных между рассчитанными соотношениями аллелей и соотношениями аллелей, которые прогнозируются для чрезмерной представленности числа копий первого гомологичного сегмента хромосомы, выше порогового значения. В некоторых вариантах воплощения соответствие данных между рассчитанными соотношениями аллелей и соотношениями аллелей, которые прогнозируются для отсутствия чрезмерного представления числа копий первого гомологичного сегмента хромосомы, ниже порогового значения. В некоторых вариантах воплощения пороговое значение определяется на основе эмпирических испытаний образцов, для которых известно наличие интересующей ВЧК, и/или образцов, для которых известно отсутствие ВЧК.[324] In some embodiments, copy number overrepresentation of the first homologous chromosome segment is determined to be absent if one or more of the following conditions are met. In some embodiments, the number of calculated allele ratios that indicate copy number overrepresentation of the first homologous chromosome segment is below a threshold. In some embodiments, the number of calculated allele ratios that indicate no copy number overrepresentation of the first homologous chromosome segment is greater than a threshold value. In some embodiments, the magnitude of the difference between the calculated allele ratios that indicate copy number overrepresentation of the first homologous chromosome segment and the corresponding expected allele ratios is below a threshold. In some embodiments, the magnitude of the difference between the calculated allele ratios that indicate non-overrepresentation of the copy number of the first homologous chromosome segment and the corresponding expected allele ratios is greater than a threshold. In some embodiments, the average or weighted average of the calculated allele ratios for the measured amount of an allele present on the first homologous chromosome divided by the total measured amount of all alleles for the locus minus the average or weighted average of the expected allele ratios is less than a threshold. In some embodiments, the average or weighted average of the expected allele ratios minus the average or weighted average of the calculated allele ratios for the measured amount of an allele present on the second homologous chromosome, divided by the total measured amount of all alleles for the locus, is less than a threshold value. In some embodiments, the agreement of the data between the calculated allele ratios and the allele ratios that are predicted for the copy number overrepresentation of the first homologous chromosome segment is greater than a threshold. In some embodiments, the agreement of the data between the calculated allele ratios and the allele ratios that are predicted to not overrepresent the copy number of the first homologous chromosome segment is below a threshold. In some embodiments, the threshold value is determined based on empirical testing of samples known to have the ICH of interest and/or samples known to be free of ICH.
[325] В некоторых вариантах воплощения определение того, существует ли чрезмерная представленность числа копий первого гомологичного сегмента хромосомы, включает перечисление набора из одной или более гипотез, указывающих степень избыточной представленности первого гомологичного сегмента хромосомы. Примерной гипотезой является отсутствие чрезмерной представленности, поскольку первый и гомологичный сегменты хромосомы присутствуют в равных пропорциях (например, одна копия каждого сегмента в диплоидном образце). Другие примерные гипотезы включают первый гомологичный хромосомный сегмент, дублируемый один или более раз (например, 1, 2, 3, 4, 5 или более дополнительных копий первой гомологичной хромосомы по сравнению с количеством копий второго гомологичного хромосомного сегмента). Другая примерная гипотеза включает делецию второго гомологичного сегмента хромосомы. Еще одной примерной гипотезой является делеция как первого, так и второго гомологичных сегментов хромосомы. В некоторых вариантах воплощения предполагаемые соотношения аллелей для локусов, которые являются гетерозиготными по меньшей мере в одной клетке, оцениваются для каждой гипотезы с учетом степени избыточной представленности, определенной этой гипотезой. В некоторых вариантах воплощения вероятность того, что гипотеза верна, рассчитывается путем сравнения рассчитанных соотношений аллелей с прогнозируемыми соотношениями аллелей, и выбирается гипотеза с наибольшим правдоподобием.[325] In some embodiments, determining whether a first homologous chromosome segment copy number is overrepresented includes listing a set of one or more hypotheses indicating the degree of overrepresentation of the first homologous chromosome segment. A rough hypothesis is that there is no overrepresentation because the first and homologous chromosome segments are present in equal proportions (e.g., one copy of each segment in a diploid sample). Other exemplary hypotheses include a first homologous chromosomal segment being duplicated one or more times (eg, 1, 2, 3, 4, 5 or more additional copies of the first homologous chromosome compared to the number of copies of the second homologous chromosomal segment). Another exemplary hypothesis involves deletion of a second homologous chromosome segment. Another tentative hypothesis is the deletion of both the first and second homologous segments of the chromosome. In some embodiments, estimated allele ratios for loci that are heterozygous in at least one cell are estimated for each hypothesis taking into account the degree of overrepresentation determined by that hypothesis. In some embodiments, the probability that a hypothesis is true is calculated by comparing the calculated allele ratios with the predicted allele ratios, and the hypothesis with the highest likelihood is selected.
[326] В некоторых вариантах воплощения ожидаемое распределение тестовой статистики рассчитывается с использованием предсказанных соотношений аллелей для каждой гипотезы. В некоторых вариантах воплощения вероятность того, что гипотеза верна, рассчитывается путем сравнения тестовой статистики, которая рассчитывается с использованием рассчитанных соотношений аллелей, с ожидаемым распределением тестовой статистики, рассчитанной с использованием прогнозируемых соотношений аллелей, и выбирается гипотеза с наибольшим правдоподобием.[326] In some embodiments, the expected distribution of the test statistic is calculated using the predicted allele ratios for each hypothesis. In some embodiments, the probability that a hypothesis is true is calculated by comparing a test statistic that is calculated using the predicted allele ratios with the expected distribution of the test statistic that is calculated using the predicted allele ratios, and the hypothesis with the highest likelihood is selected.
[327] В некоторых вариантах воплощения прогнозируемые соотношения аллелей для локусов, которые являются гетерозиготными по меньшей мере в одной клетке, оцениваются с учетом фазированных генетических данных для первого гомологичного сегмента хромосомы, фазированных генетических данных для второго гомологичного сегмента хромосомы и степени избыточной представленности, определенной этой гипотезой. В некоторых вариантах воплощения вероятность того, что гипотеза верна, рассчитывается путем сравнения рассчитанных соотношений аллелей с предсказанными соотношениями аллелей; и выбирается гипотеза с наибольшим правдоподобием.[327] In some embodiments, predicted allele ratios for loci that are heterozygous in at least one cell are estimated taking into account phased genetic data for the first homologous chromosome segment, phased genetic data for the second homologous chromosome segment, and the degree of overrepresentation determined by this hypothesis. In some embodiments, the probability that a hypothesis is true is calculated by comparing the calculated allele ratios with the predicted allele ratios; and the hypothesis with the greatest likelihood is selected.
[328] Использование смешанных образцов [328] Using mixed samples
[329] Понятно, что для многих вариантов воплощения образец представляет собой смешанный образец с ДНК или РНК из одной или более клеток-мишеней и одной или более нецелевых клеток. В некоторых вариантах воплощения клетки-мишени - это клетки, которые имеют ВЧК, например, интересующую делецию или дупликацию, а нецелевые клетки - это клетки, которые не имеют интересующего изменения числа копий (например, смесь клеток с делецией или дупликацией клеток и исследуемые клетки без каких-либо делеций или дупликаций). В некоторых вариантах воплощения клетки-мишени представляют собой клетки, которые связаны с заболеванием или расстройством или повышенным риском заболевания или расстройства (например, раковые клетки), а клетки, не являющиеся мишенью, представляют собой клетки, которые не связаны с заболеванием или расстройством или повышенным риском для заболевания или расстройства (такие, как нераковые клетки) В некоторых вариантах воплощения все клетки-мишени имеют одинаковую ВЧК. В некоторых вариантах воплощения две или более клеток-мишеней имеют разные ВЧК. В некоторых вариантах воплощения одна или более клеток-мишеней имеют ВЧК, полиморфизм или мутацию, связанную с заболеванием или расстройством или повышенным риском заболевания или расстройства, которые не обнаруживают по меньшей мере в одной другой клетке-мишени. В некоторых таких вариантах воплощения предполагается, что фракция клеток, которые связаны с заболеванием или расстройством или повышенным риском заболевания или расстройства, от общего количества клеток в образце больше или равна фракции наиболее частой из этих ВЧК, полиморфизмов или мутаций в образце. Например, если 6% клеток имеют мутацию K-ras, а 8% клеток имеют мутацию BRAF, предполагается, что по меньшей мере 8% клеток являются раковыми.[329] It is understood that for many embodiments the sample is a mixed sample with DNA or RNA from one or more target cells and one or more non-target cells. In some embodiments, target cells are cells that have an ICH, such as a deletion or duplication of interest, and non-target cells are cells that do not have a copy number change of interest (for example, a mixture of cells with a cell deletion or duplication and cells of interest without any deletions or duplications). In some embodiments, target cells are cells that are associated with a disease or disorder or an increased risk of a disease or disorder (for example, cancer cells), and non-target cells are cells that are not associated with a disease or disorder or increased risk for a disease or disorder (such as non-cancerous cells) In some embodiments, all target cells have the same ICH. In some embodiments, two or more target cells have different ICHs. In some embodiments, one or more target cells have an ICH, polymorphism, or mutation associated with a disease or disorder or an increased risk of a disease or disorder that is not found in at least one other target cell. In some such embodiments, the fraction of cells that are associated with the disease or disorder or increased risk of the disease or disorder, of the total number of cells in the sample, is assumed to be greater than or equal to the fraction of the most common of these ICHs, polymorphisms, or mutations in the sample. For example, if 6% of cells have a K-ras mutation and 8% of cells have a BRAF mutation, at least 8% of the cells are assumed to be cancerous.
[330] В некоторых вариантах воплощения рассчитывается отношение ДНК (или РНК) от одной или более клеток-мишеней к общей ДНК (или РНК) в образце. В некоторых вариантах воплощения перечислен ряд из одной или более гипотез, определяющих степень избыточной представленности первого гомологичного сегмента хромосомы. В некоторых вариантах воплощения прогнозируемые соотношения аллелей для локусов, которые являются гетерозиготными по меньшей мере в одной клетке, оцениваются с учетом рассчитанного соотношения ДНК или РНК и степени избыточной представленности, определенной этой гипотезой, оцениваются для каждой гипотезы. В некоторых вариантах воплощения вероятность того, что гипотеза верна, рассчитывается путем сравнения рассчитанных соотношений аллелей с прогнозируемыми соотношениями аллелей, и выбирается гипотеза с наибольшей правдоподобностью.[330] In some embodiments, the ratio of DNA (or RNA) from one or more target cells to total DNA (or RNA) in the sample is calculated. In some embodiments, a series of one or more hypotheses are listed that determine the degree of overrepresentation of the first homologous chromosome segment. In some embodiments, predicted allele ratios for loci that are heterozygous in at least one cell are estimated taking into account the calculated DNA or RNA ratio and the degree of overrepresentation determined by that hypothesis is estimated for each hypothesis. In some embodiments, the probability that a hypothesis is true is calculated by comparing the calculated allele ratios with the predicted allele ratios, and the hypothesis with the highest likelihood is selected.
[331] В некоторых вариантах воплощения ожидаемое распределение тестовой статистики, рассчитанной с использованием предсказанных соотношений аллелей и рассчитанного соотношения ДНК или РНК, оценивается для каждой гипотезы. В некоторых вариантах воплощения вероятность того, что гипотеза верна, определяется путем сравнения тестовой статистики, рассчитанной с использованием рассчитанных соотношений аллелей и рассчитанного отношения ДНК или РНК, с ожидаемым распределением тестовой статистики, рассчитанной с использованием прогнозируемых соотношений аллелей и рассчитанного отношения ДНК или РНК, и выбирается гипотеза с наибольшей правдоподобностью.[331] In some embodiments, the expected distribution of the test statistic calculated using the predicted allele ratios and the calculated DNA or RNA ratio is estimated for each hypothesis. In some embodiments, the probability that a hypothesis is true is determined by comparing a test statistic calculated using the predicted allele ratios and the calculated DNA or RNA ratio with the expected distribution of the test statistic calculated using the predicted allele ratios and the calculated DNA or RNA ratio, and the hypothesis with the greatest likelihood is selected.
[332] В некоторых вариантах воплощения способ включает перечисление набора из одной или более гипотез, определяющих степень избыточной представленности первого сегмента гомологичной хромосомы. В некоторых вариантах воплощения способ включает в себя оценку для каждой гипотезы либо (i) прогнозируемых соотношений аллелей для локусов, которые являются гетерозиготными по меньшей мере в одной клетке, с учетом степени избыточной представленности, определенной этой гипотезой или (ii) для одного или более возможных соотношений ДНК или РНК - ожидаемое распределение тестовой статистики, рассчитанной с использованием предсказанных соотношений аллелей и возможного отношения ДНК или РНК из одной или более клеток-мишеней к общей ДНК или РНК в образце. В некоторых вариантах воплощения совпадение данных рассчитывается путем сравнения или (i) рассчитанных соотношений аллелей с предсказанными соотношениями аллелей или (ii) тестовой статистики, рассчитанной с использованием рассчитанных соотношений аллелей и возможного соотношения ДНК или РНК к ожидаемому распределению тестовой статистики, рассчитанной с использованием предсказанных соотношений аллелей и возможного соотношения ДНК или РНК. В некоторых вариантах воплощения одна или более гипотез ранжируются в соответствии с совпадением данных и выбирается гипотеза, которая имеет самый высокий рейтинг. В некоторых вариантах воплощения используется методика или алгоритм, такой как алгоритм поиска, для одного или более из следующих этапов: вычисление совпадения данных, ранжирование гипотез или выбор гипотезы, которая имеет самый высокий рейтинг. В некоторых вариантах воплощения совпадение данных - это соответствие бета-биномиальному распределению или соответствие биномиальному распределению. В некоторых вариантах воплощения методику или алгоритм выбирают из группы, состоящей из оценки максимального правдоподобия, максимальной апостериорной оценки, байесовской оценки, динамической оценки (такой как динамическая байесовская оценка) и оценки максимизации ожидания. В некоторых вариантах воплощения способ включает применение методики или алгоритма к полученным генетическим данным и ожидаемым генетическим данным.[332] In some embodiments, the method includes enumerating a set of one or more hypotheses determining the degree of overrepresentation of the first homologous chromosome segment. In some embodiments, the method includes estimating, for each hypothesis, either (i) predicted allele ratios for loci that are heterozygous in at least one cell, taking into account the degree of overrepresentation determined by that hypothesis or (ii) for one or more possible DNA or RNA ratios - the expected distribution of a test statistic calculated using the predicted allele ratios and the possible ratio of DNA or RNA from one or more target cells to the total DNA or RNA in the sample. In some embodiments, data fit is calculated by comparing either (i) the calculated allele ratios with the predicted allele ratios or (ii) a test statistic calculated using the calculated allele ratios and the possible DNA or RNA ratio to the expected distribution of the test statistic calculated using the predicted ratios alleles and possible DNA or RNA ratio. In some embodiments, one or more hypotheses are ranked according to the data match and the hypothesis that has the highest ranking is selected. In some embodiments, a technique or algorithm, such as a search algorithm, is used to perform one or more of the following steps: calculating a match between the data, ranking the hypotheses, or selecting the hypothesis that has the highest ranking. In some embodiments, the data fit is a fit to a beta binomial distribution or a fit to a binomial distribution. In some embodiments, the technique or algorithm is selected from the group consisting of maximum likelihood estimator, maximum posterior estimator, Bayesian estimator, dynamic estimator (such as dynamic Bayesian estimator), and expectation maximization estimator. In some embodiments, the method includes applying a technique or algorithm to the obtained genetic data and the expected genetic data.
[333] В некоторых вариантах воплощения способ включает создание разбиения возможных соотношений, которые варьируются от нижнего предела до верхнего предела для отношения ДНК или РНК от одной или более клеток-мишеней к общей ДНК или РНК в образце. В некоторых вариантах воплощения перечислены одна или более гипотез, определяющих степень избыточной представленности первого гомологичного сегмента хромосомы. В некоторых вариантах воплощения способ включает оценку для каждого из возможных соотношений ДНК или РНК в разбиении и для каждой гипотезы либо (i) предсказанных соотношений аллелей для локусов, которые являются гетерозиготными по меньшей мере в одной клетке с учетом возможного соотношения ДНК или РНК, и степень избыточной представленности, определяемая этой гипотезой, или (ii) ожидаемого распределения тестовой статистики, рассчитанной с использованием предсказанных соотношений аллелей и возможного соотношения ДНК или РНК. В некоторых вариантах воплощения способ включает вычисление для каждого из возможных соотношений ДНК или РНК в разбиении и для каждой гипотезы, вероятности того, что гипотеза верна, путем сравнения либо (i) вычисленных соотношений аллелей с предсказанными соотношениями аллелей, либо (ii) тестовой статистики, рассчитанной с использованием рассчитанных соотношений аллелей и возможного соотношения ДНК или РНК к ожидаемому распределению тестовой статистики, рассчитанной с использованием предсказанных соотношений аллелей и возможного соотношения ДНК или РНК. В некоторых вариантах воплощения объединенная вероятность для каждой гипотезы определяется путем объединения вероятностей этой гипотезы для каждого из возможных соотношений в разбиении; и выбирается гипотеза с наибольшей совокупной вероятностью. В некоторых вариантах воплощения объединенная вероятность для каждой гипотезы определяется путем взвешивания вероятности гипотезы для конкретного возможного соотношения на основе вероятности того, что возможное соотношение является верным соотношением.[333] In some embodiments, the method includes creating a split of possible ratios that range from a lower limit to an upper limit for the ratio of DNA or RNA from one or more target cells to the total DNA or RNA in the sample. In some embodiments, one or more hypotheses are listed that determine the degree of overrepresentation of the first homologous chromosome segment. In some embodiments, the method includes estimating, for each of the possible DNA or RNA ratios in a split and for each hypothesis, either (i) predicted allele ratios for loci that are heterozygous in at least one cell given the possible DNA or RNA ratio, and the degree the overrepresentation determined by this hypothesis, or (ii) the expected distribution of the test statistic calculated using the predicted allele ratios and the possible DNA or RNA ratio. In some embodiments, the method includes calculating, for each of the possible DNA or RNA ratios in a split and for each hypothesis, the probability that the hypothesis is true by comparing either (i) the calculated allele ratios with the predicted allele ratios, or (ii) a test statistic, calculated using the predicted allele ratios and the possible DNA or RNA ratio to the expected distribution of the test statistic, calculated using the predicted allele ratios and the possible DNA or RNA ratio. In some embodiments, the combined probability for each hypothesis is determined by combining the probabilities of that hypothesis for each of the possible relationships in the partition; and the hypothesis with the highest cumulative probability is selected. In some embodiments, the combined probability for each hypothesis is determined by weighting the probability of the hypothesis for a particular candidate relationship based on the probability that the candidate relationship is the correct relationship.
[334] В некоторых вариантах воплощения методика, которая выбирается из группы, состоящей из оценки максимального правдоподобия, максимальной апостериорной оценки, байесовской оценки, динамической оценки (такой как динамическая байесовская оценка) и оценки максимизации ожидания, используется для оценки соотношения ДНК или РНК из одного или более клеток-мишеней к общей ДНК или РНК в образце. В некоторых вариантах воплощения предполагается, что отношение ДНК или РНК из одной или более клеток-мишеней к общей ДНК или РНК в образце одинаково для двух или более (или всех) интересующих ВЧК. В некоторых вариантах воплощения отношение ДНК или РНК из одной или более клеток-мишеней к общей ДНК или РНК в образце рассчитывается для каждой интересующей ВЧК.[334] In some embodiments, a technique that is selected from the group consisting of maximum likelihood estimator, maximum posterior estimator, Bayesian estimator, dynamic estimator (such as dynamic Bayes estimator), and expectation maximization estimator is used to estimate the ratio of DNA or RNA from one or more target cells to the total DNA or RNA in the sample. In some embodiments, the ratio of DNA or RNA from one or more target cells to total DNA or RNA in a sample is assumed to be the same for two or more (or all) ICHs of interest. In some embodiments, the ratio of DNA or RNA from one or more target cells to total DNA or RNA in the sample is calculated for each ICH of interest.
[335] Примерные способы использования недостаточно фазированных данных [335] Example uses of under-phased data
[336] Следует понимать, что для многих вариантов воплощения используются несовершенно фазированные данные. Например, для одного или более локусов в первом и/или втором сегменте гомологичной хромосомы может быть не известно со 100% уверенностью, какой аллель присутствует. В некоторых вариантах воплощения при расчете вероятности каждой гипотезы используются исходные данные для возможных гаплотипов индивидуума (таких как гаплотипы, основанные на частотах гаплотипов, основанных на популяции). В некоторых вариантах воплощения исходные данные для возможных гаплотипов корректируется либо с помощью другого способа для фазированной генерации генетических данных, либо с помощью фазированных данных от других субъектов (например, предыдущих субъектов) для уточнения популяционных данных, используемых для фазирования индивидуума на основе биоинформатики.[336] It should be understood that many embodiments use imperfectly phased data. For example, for one or more loci on the first and/or second segment of a homologous chromosome, it may not be known with 100% certainty which allele is present. In some embodiments, the calculation of the probability of each hypothesis uses input data for the individual's possible haplotypes (such as haplotypes based on population-based haplotype frequencies). In some embodiments, the input data for candidate haplotypes is adjusted either by another method to phase the generation of genetic data, or by phased data from other subjects (e.g., previous subjects) to refine the population data used to phase the individual based on bioinformatics.
[337] В некоторых вариантах воплощения фазированные генетические данные содержат вероятностные данные для двух или более возможных наборов фазированных генетических данных, причем каждый возможный набор фазированных данных содержит возможную идентичность аллеля, присутствующего в каждом локусе в наборе полиморфных локусов на первом гомологичном сегменте хромосомы, и возможную идентичность аллеля, присутствующего в каждом локусе в наборе полиморфных локусов на втором гомологичном сегменте хромосомы. В некоторых вариантах воплощения вероятность по меньшей мере для одной из гипотез определяется для каждого из возможных наборов фазированных генетических данных. В некоторых вариантах воплощения объединенная вероятность для гипотезы определяется путем объединения вероятностей гипотезы для каждого из возможных наборов фазированных генетических данных; и выбирается гипотеза с наибольшей совокупной вероятностью.[337] In some embodiments, the phased genetic data comprises probabilistic data for two or more possible sets of phased genetic data, wherein each possible set of phased genetic data contains a possible identity of an allele present at each locus in a set of polymorphic loci on a first homologous chromosome segment, and a possible the identity of the allele present at each locus in a set of polymorphic loci on the second homologous segment of the chromosome. In some embodiments, a probability for at least one of the hypotheses is determined for each of the possible sets of phased genetic data. In some embodiments, a joint probability for a hypothesis is determined by combining the hypothesis probabilities for each of the possible sets of phased genetic data; and the hypothesis with the highest cumulative probability is selected.
[338] Любой из способов, раскрытых в данном документе, или любой известный способ может быть использован для получения неполностью фазированных данных (такой как использование популяционных частот гаплотипов для определения наиболее вероятной фазы) для использования в заявленных способах. В некоторых вариантах воплощения фазированные данные получают путем вероятностного объединения гаплотипов более мелких сегментов. Например, возможные гаплотипы могут быть определены на основе возможных комбинаций одного гаплотипа из первой области с другим гаплотипом из другой области из той же хромосомы. Вероятность того, что конкретные гаплотипы из разных областей являются частью одного и того же более крупного блока гаплотипов в одной и той же хромосоме, может быть определена с использованием, например, популяционных частот гаплотипов и/или известных скоростей рекомбинации между различными областями.[338] Any of the methods disclosed herein, or any known method, can be used to obtain incompletely phased data (such as using population haplotype frequencies to determine the most likely phase) for use in the claimed methods. In some embodiments, phased data is obtained by probabilistically combining haplotypes of smaller segments. For example, possible haplotypes can be determined based on possible combinations of one haplotype from a first region with another haplotype from another region from the same chromosome. The likelihood that specific haplotypes from different regions are part of the same larger block of haplotypes on the same chromosome can be determined using, for example, population haplotype frequencies and/or known recombination rates between different regions.
[339] В некоторых вариантах воплощения для нулевой гипотезы дисомии используется тест отклонения единичной гипотезы. В некоторых вариантах воплощения вычисляется вероятность гипотезы дисомии, и гипотеза дисомии отклоняется, если вероятность ниже заданного порогового значения (например, менее 1 на 1000). Если нулевая гипотеза отклонена, это может быть связано с ошибками в неполностью фазированных данных или с наличием ВЧК. В некоторых вариантах воплощения получают более точные фазированные данные (такие как фазированные данные из любого из способов молекулярного фазирования, раскрытых в данном документе, для получения фактических фазированных данных, а не выводимых на основе биоинформатики фазированных данных). В некоторых вариантах воплощения вероятность гипотезы дисомии пересчитывается с использованием более точных фазированных данных для того, чтобы определить, следует ли отклонять гипотезу дисомии. Отказ от этой гипотезы указывает на наличие дупликации или делеции сегмента хромосомы. При необходимости, уровень ложноположительных результатов можно изменить, отрегулировав пороговое значение.[339] In some embodiments, a single hypothesis rejection test is used for the null hypothesis of disomy. In some embodiments, the probability of a disomy hypothesis is calculated, and the disomy hypothesis is rejected if the probability is below a predetermined threshold (eg, less than 1 in 1000). If the null hypothesis is rejected, this may be due to errors in incompletely phased data or the presence of ICH. In some embodiments, more accurate phased data is obtained (such as phased data from any of the molecular phasing methods disclosed herein to obtain actual phased data rather than bioinformatics-derived phased data). In some embodiments, the probability of the disomy hypothesis is recalculated using more accurate phase data to determine whether the disomy hypothesis should be rejected. Rejection of this hypothesis indicates the presence of a duplication or deletion of a chromosome segment. If necessary, the false positive rate can be changed by adjusting the threshold value.
[340] Дальнейшие примерные варианты воплощения для определения плоидности с применением фазированных данных [340] Further exemplary embodiments for determining ploidy using phased data
[341] В иллюстративных вариантах воплощения в настоящем документе представлен способ определения плоидности хромосомного сегмента в образце индивидуума. Способ включает следующие этапы: получение данных о частоте аллеля, включающих количество каждого аллеля, присутствующего в образце в каждом локусе в наборе полиморфных локусов на хромосомном сегменте; получение фазированной аллельной информации для набора полиморфных локусов путем оценки фазы данных частоты аллелей; получение индивидуальных вероятностей частот аллелей для полиморфных локусов для различных состояний плоидности с использованием данных частоты аллелей; получение совместных вероятностей для набора полиморфных локусов с использованием индивидуальных вероятностей и фазированной аллельной информации; и выбор, основываясь на совместных вероятностях, модели наилучшего соответствия, указывающей на плоидность хромосом, тем самым определяя плоидность хромосомного сегмента.[341] In illustrative embodiments, provided herein is a method for determining the ploidy of a chromosomal segment in a sample of an individual. The method includes the following steps: obtaining allele frequency data, including the amount of each allele present in the sample at each locus in a set of polymorphic loci on a chromosomal segment; obtaining phased allelic information for a set of polymorphic loci by estimating the phase of allele frequency data; obtaining individual allele frequency probabilities for polymorphic loci for different ploidy states using allele frequency data; obtaining joint probabilities for a set of polymorphic loci using individual probabilities and phased allelic information; and selecting, based on the joint probabilities, the best fit model indicating the ploidy of the chromosomes, thereby determining the ploidy of the chromosomal segment.
[342] Как раскрывается в данном документе, данные о частоте аллелей (также называемые в данном документе измеренными данными о генетических аллелях) могут быть получены способами, известными в данной области техники. Например, данные могут быть получены с использованием кПЦР или микрочипов. В одном иллюстративном варианте воплощения данные генерируются с использованием данных секвенирования нуклеиновой кислоты, особенно данных секвенирования нуклеиновой кислоты с высокой пропускной способностью.[342] As disclosed herein, allele frequency data (also referred to herein as measured genetic allele data) can be obtained by methods known in the art. For example, data can be obtained using qPCR or microarrays. In one exemplary embodiment, the data is generated using nucleic acid sequencing data, especially high throughput nucleic acid sequencing data.
[343] В определенных иллюстративных примерах данные о частоте аллеля корректируются на ошибки до того, как они используются для генерации индивидуальных вероятностей. В конкретных иллюстративных вариантах воплощения ошибки, которые исправляются, включают смещение эффективности амплификации аллелей. В других вариантах воплощения ошибки, которые исправляются, включают загрязнение окружающей средой и загрязнение генотипом. В некоторых вариантах воплощения исправленные ошибк включают смещение амплификации аллелей, ошибки секвенирования, загрязнение окружающей средой и загрязнение генотипом.[343] In certain illustrative examples, allele frequency data are corrected for errors before they are used to generate individual probabilities. In specific illustrative embodiments, the errors that are corrected include bias in allele amplification efficiency. In other embodiments, errors that are corrected include environmental contamination and genotype contamination. In some embodiments, the errors corrected include allelic amplification bias, sequencing errors, environmental contamination, and genotypic contamination.
[344] В некоторых вариантах воплощения индивидуальные вероятности генерируются с использованием набора моделей как различных состояний плоидности, так и фракций аллельного дисбаланса для набора полиморфных локусов. В этих вариантах воплощения и других вариантах воплощения объединенные вероятности генерируются с учетом связи между полиморфными локусами на сегменте хромосомы.[344] In some embodiments, individual probabilities are generated using a set of models of both different ploidy states and allelic imbalance fractions for a set of polymorphic loci. In these embodiments and other embodiments, pooled probabilities are generated taking into account the relationship between polymorphic loci on a chromosome segment.
[345] Соответственно, в одном иллюстративном варианте воплощения, который объединяет некоторые из этих вариантов воплощения, в настоящем документе представлен способ обнаружения хромосомной плоидности в образце индивидуума, который включает в себя следующие этапы: получение данных последовательности нуклеиновой кислоты для аллелей в наборе полиморфных локусов на сегменте хромосомы у индивидуума; обнаружение частот аллелей в наборе локусов с использованием данных секвенирования нуклеиновой кислоты; исправление смещения эффективности амплификации аллелей в обнаруженных частотах аллелей для генерации скорректированных частот аллелей для набора полиморфных локусов; получение индивидуальных вероятностей частот аллелей для полиморфных локусов для различных состояний плоидности путем сравнения фазированной аллельной информации с набором моделей различных состояний плоидности и фракций аллельного дисбаланса набора полиморфных локусов; получение фазированной аллельной информации для набора полиморфных локусов путем оценки данных секвенирования нуклеиновой кислоты; получение объединенных вероятностей для набора полиморфных локусов путем объединения индивидуальных вероятностей с учетом связи между полиморфными локусами на сегменте хромосомы; и, основываясь на объединенных вероятностях, выбор модели наилучшего соответствия, указывающей на хромосомную анеуплоидию.[345] Accordingly, in one illustrative embodiment that combines some of these embodiments, provided herein is a method for detecting chromosomal ploidy in a sample of an individual, which includes the following steps: obtaining nucleic acid sequence data for alleles at a set of polymorphic loci on chromosome segment in an individual; discovery of allele frequencies in a set of loci using nucleic acid sequencing data; correcting allele amplification efficiency bias in detected allele frequencies to generate corrected allele frequencies for a set of polymorphic loci; obtaining individual allele frequency probabilities for polymorphic loci for different ploidy states by comparing phased allelic information with a set of models of different ploidy states and allelic imbalance fractions of a set of polymorphic loci; obtaining phased allelic information for a set of polymorphic loci by assessing nucleic acid sequencing data; obtaining joint probabilities for a set of polymorphic loci by combining individual probabilities taking into account the relationship between polymorphic loci on a chromosome segment; and, based on the pooled probabilities, selecting the best fit model indicating chromosomal aneuploidy.
[346] Как раскрыто в данном документе, индивидуальные вероятности могут быть сгенерированы с использованием набора моделей или гипотезы как различных состояний плоидности, так и средних фракций аллельного дисбаланса для набора полиморфных локусов. Например, в особенно иллюстративном примере, индивидуальные вероятности генерируются путем моделирования состояний плоидности первого гомолога сегмента хромосомы и второго гомолога сегмента хромосомы. Моделируемые состояния плоидности включают следующее: (1) все клетки не имеют делеции или амплификации первого гомолога или второго гомолога сегмента хромосомы; (2) по меньшей мере, некоторые клетки имеют делецию первого гомолога или амплификацию второго гомолога сегмента хромосомы; и (3) по меньшей мере некоторые клетки имеют делецию второго гомолога или амплификацию первого гомолога сегмента хромосомы.[346] As disclosed herein, individual probabilities can be generated using a set of models or hypotheses of both different ploidy states and average fractions of allelic imbalance for a set of polymorphic loci. For example, in a particularly illustrative example, individual probabilities are generated by modeling the ploidy states of a first chromosome segment homologue and a second chromosome segment homolog. Modeled ploidy states include the following: (1) all cells have no deletion or amplification of the first homolog or second homolog of a chromosome segment; (2) at least some cells have a deletion of the first homolog or amplification of the second homologue of the chromosome segment; and (3) at least some cells have a deletion of the second homolog or amplification of the first homologue of the chromosome segment.
[347] Следует понимать, что вышеупомянутые модели могут также называться гипотезой, которая используется для ограничения модели. Таким образом, продемонстрировано 3 гипотезы, которые могут быть использованы.[347] It should be understood that the above models may also be referred to as a hypothesis, which is used to constrain the model. Thus, 3 hypotheses have been demonstrated that can be used.
[348] Моделируемые средние фракции аллельного дисбаланса могут включать любой диапазон среднего аллельного дисбаланса, который включает в себя фактический средний аллельный дисбаланс хромосомного сегмента. Например, в некоторых иллюстративных вариантах воплощения диапазон среднего аллельного дисбаланса, который моделируется, может быть между 0, 0,1, 0,2, 0,25, 0,3, 0,4, 0,5, 0,6, 0,75, 1, 2, 2,5, 3, 4 и 5% на нижнем конце и 1, 2, 2,5, 3, 4, 5, 10, 15, 20, 25, 30, 40, 50, 60, 70, 80, 90, 95 и 99% на верхнем конце. Интервалы для моделирования с диапазоном могут быть любым интервалом в зависимости от используемой вычислительной мощности и времени, отведенного для анализа. Например, можно смоделировать интервалы 0,01, 0,05, 0,02 или 0,1.[348] The simulated average allelic imbalance fractions may include any range of average allelic imbalance that includes the actual average allelic imbalance of a chromosomal segment. For example, in some illustrative embodiments, the range of average allelic imbalance that is modeled may be between 0, 0.1, 0.2, 0.25, 0.3, 0.4, 0.5, 0.6, 0. 75, 1, 2, 2.5, 3, 4 and 5% on the low end and 1, 2, 2.5, 3, 4, 5, 10, 15, 20, 25, 30, 40, 50, 60, 70, 80, 90, 95 and 99% at the high end. The intervals for range modeling can be any interval depending on the processing power used and the time allocated for analysis. For example, you can model intervals of 0.01, 0.05, 0.02, or 0.1.
[349] В определенных иллюстративных вариантах воплощения образец имеет средний аллельный дисбаланс для хромосомного сегмента от 0,4% до 5%. В некоторых вариантах воплощения средний аллельный дисбаланс является низким. В этих вариантах воплощения средний аллельный дисбаланс обычно составляет менее 10%. В некоторых иллюстративных вариантах воплощения аллельный дисбаланс составляет от 0,25, 0,3, 0,4, 0,5, 0,6, 0,75, 1, 2, 2,5, 3, 4 и 5% на нижнем конце и до 1, 2, 2,5, 3, 4 и 5% на верхнем конце. В других примерных вариантах воплощения средний аллельный дисбаланс составляет от 0,4, 0,45, 0,5, 0,6, 0,7, 0,8, 0,9 или 1,0% на нижнем конце до 0,5, 0,6, 0,7, 0,8, 0,9, 1,0, 1,5, 2,0, 3,0 4,0 или 5,0% на верхнем конце. Например, средний аллельный дисбаланс образца в иллюстративном примере составляет от 0,45 до 2,5%. В другом примере средний аллельный дисбаланс обнаруживается с чувствительностью 0,45, 0,5, 0,6, 0,7, 0,8. 0,9 или 1,0%. То есть способ испытания способен обнаруживать хромосомную анеуплоидию до AAI (average allelic imbalance - средний аллельный дисбаланс) 0,45, 0,5, 0,6, 0,7, 0,8. 0,9 или 1,0%. В примерный образец с низким аллельным дисбалансом в способах по настоящему изобретению входят образцы плазмы от индивидуумов с раком, имеющих циркулирующую опухолевую ДНК, или образцы плазмы от беременных женщин, имеющих циркулирующую эмбриональную ДНК.[349] In certain illustrative embodiments, the sample has an average allelic imbalance for a chromosomal segment of 0.4% to 5%. In some embodiments, the average allelic imbalance is low. In these embodiments, the average allelic imbalance is typically less than 10%. In some illustrative embodiments, the allelic imbalance is between 0.25, 0.3, 0.4, 0.5, 0.6, 0.75, 1, 2, 2.5, 3, 4, and 5% at the lower end and up to 1, 2, 2.5, 3, 4 and 5% at the high end. In other exemplary embodiments, the average allelic imbalance is from 0.4, 0.45, 0.5, 0.6, 0.7, 0.8, 0.9, or 1.0% on the low end to 0.5. 0.6, 0.7, 0.8, 0.9, 1.0, 1.5, 2.0, 3.0 4.0 or 5.0% at the high end. For example, the average allelic imbalance of the sample in the illustrative example ranges from 0.45 to 2.5%. In another example, average allelic imbalance is detected with sensitivities of 0.45, 0.5, 0.6, 0.7, 0.8. 0.9 or 1.0%. That is, the test method is capable of detecting chromosomal aneuploidy up to AAI (average allelic imbalance) of 0.45, 0.5, 0.6, 0.7, 0.8. 0.9 or 1.0%. An exemplary sample with low allelic imbalance in the methods of the present invention includes plasma samples from individuals with cancer having circulating tumor DNA, or plasma samples from pregnant women having circulating fetal DNA.
[350] Следует понимать, что для ОНВ доля аномальной ДНК обычно измеряется с использованием частоты мутантных аллелей (количество мутантных аллелей в локусе/общее количество аллелей в этом локусе). Поскольку разница между количеством двух гомологов в опухолях аналогична, мы измеряем долю аномальной ДНК для ВЧК по среднему аллельному дисбалансу (AAI), определяемому как |(H1 - H2)|/(H1 + H2), где Hi - среднее число копий гомолога i в образце, а Hi/(H1 + H2) - относительная распространенность или соотношение гомологов гомолога i. Максимальное соотношение гомологов - это соотношение гомологов более распространенного гомолога.[350] It should be understood that for NCB, the proportion of abnormal DNA is usually measured using mutant allele frequency (number of mutant alleles at a locus/total number of alleles at that locus). Because the difference between the abundance of two homologues in tumors is similar, we measure the proportion of abnormal DNA for ICH by the average allelic imbalance (AAI), defined as |(H1 - H2)|/(H1 + H2), where Hi is the average copy number of homolog i in sample, and Hi/(H1 + H2) is the relative abundance or ratio of homologs of homologue i. The maximum homologue ratio is the homolog ratio of the more common homolog.
[351] Коэффициент отсева анализа - это процент ОНП без считывания, рассчитанный с использованием всех ОНП. Частота отсева одиночных аллелей (ADO - single allele drop-out) - это процент ОНП, в котором присутствует только один аллель, по оценкам с использованием только гетерозиготных ОНП. Достоверность генотипа можно определить путем подгонки биномиального распределения к числу считываний в каждом ОНП, которые были считываниями B-аллеля, и использования статуса плоидности фокальной области ОНП для оценки вероятности каждого генотипа.[351] The assay attrition rate is the percentage of SNPs without readout, calculated using all SNPs. The single allele drop-out rate (ADO) is the percentage of SNPs in which only one allele is present, as estimated using only heterozygous SNPs. Genotype confidence can be determined by fitting a binomial distribution to the number of reads in each SNP that were B-allele reads and using the ploidy status of the focal region of the SNP to estimate the probability of each genotype.
[352] Для образцов опухолевой ткани хромосомная анеуплоидия (примером которой в этом параграфе являются ВЧК) может быть очерчена переходами между частотными распределениями аллелей. В образцах плазмы больных раком, индивидуумов, подозреваемых на наличие рака, индивидуумов, у которых ранее был диагностирован рак, или в качестве скрининга рака для индивидуумов из группы риска или популяции в целом, ВЧК могут быть идентифицированы с помощью алгоритма максимального правдоподобия, который ищет плазменные ВЧК в областях, о которых известно, что они проявляют анеуплоидию при раке, и/или где образец опухоли от того же индивидуума также имеет ВЧК. В иллюстративных вариантах воплощения алгоритм использует информацию о фазе гаплотипа индивидуума, чей образец анализируется на наличие циркулирующей опухолевой ДНК, чтобы соответствовать количеству аллелей измеренного и скорректированного тестового образца ожидаемому количеству аллелей, например, с использованием режима совместного распределения. Такая информация о фазе гаплотипа может быть получена из любого образца от индивидуума, который включает в основном или по меньшей мере 60, 70, 80, 90, 95, 96, 97, 98, 99% или всю нормальную клеточную ДНК, такую как, без ограничений, образец лейкотромбоцитарного слоя, образец слюны или образец кожи, из информации о генотипах родителей или фазирования гаплотипов de novo, что может быть достигнуто различными способами (см., например, Snyder, M., et al., Haplotype-resolved genome sequencing: experimental methods and applications. Nat Rev Genet 16, 344-358 (2015)), такими, как гаплотипирование путем разведения (Kaper, F., et al., Whole-genome haplotyping by dilution, amplification, and sequencing. Proc Natl Acad Sci U S A 110, 5552-5557 (2013)) или секвенирование с длинными считываниями (Kuleshov, V. et al. Whole-genome haplotyping using long reads and statistical methods. Nat Biotech 32, 261-266 (2014)). Этот алгоритм может моделировать ожидаемые частоты аллелей по всем коэффициентам аллельного дисбаланса с интервалами 0,025% для трех наборов гипотез: (1) все клетки нормальные (нет аллельного дисбаланса), (2) некоторые/все клетки имеют делецию гомолога 1 или амплификацию гомолога 2 или (3) некоторые/все клетки имеют делецию гомолога 2 или амплификацию гомолога 1. Правдоподобие каждой гипотезы может быть определено в каждом ОНП с использованием байесовского классификатора, основанного на бета-биномиальной модели ожидаемых и наблюдаемых частот аллелей для всех гетерозиготных ОНП, а затем может быть рассчитана объединенная вероятность по нескольким ОНП, в некоторых иллюстративных вариантах воплощения, с использованием связи локусов ОНП, приведенных в качестве примера. Фактически, в иллюстративных вариантах воплощения информация о фазе нормального клеточного гаплотипа, полученная, как описано выше, используется алгоритмом для подгонки подсчитанных и обычно скорректированных подсчетов аллелей в исследуемом образце к ожидаемым подсчетам аллелей с использованием модели совместного распределения. Затем можно выбрать гипотезу максимального правдоподобия.[352] For tumor tissue samples, chromosomal aneuploidy (of which ICH is an example in this paragraph) can be delineated by transitions between allele frequency distributions. In plasma samples from cancer patients, individuals suspected of having cancer, individuals previously diagnosed with cancer, or as a cancer screen for individuals at risk or the general population, ICHs can be identified using a maximum likelihood algorithm that looks for plasma ICH in areas known to exhibit aneuploidy in cancer and/or where a tumor sample from the same individual also has ICH. In illustrative embodiments, the algorithm uses haplotype phase information of an individual whose sample is being analyzed for circulating tumor DNA to match the allele count of the measured and adjusted test sample to the expected allele count, for example, using a co-allocation mode. Such haplotype phase information can be obtained from any sample from an individual that comprises substantially or at least 60, 70, 80, 90, 95, 96, 97, 98, 99% or all of normal cellular DNA, such as restrictions, a buffy coat sample, a saliva sample, or a skin sample, from parental genotype information or de novo haplotype phasing, which can be achieved in a variety of ways (see, for example, Snyder, M., et al., Haplotype-resolved genome sequencing: experimental methods and applications. Nat Rev Genet 16 , 344-358 (2015)), such as haplotyping by dilution (Kaper, F., et al., Whole-genome haplotyping by dilution, amplification, and sequencing. Proc Natl Acad Sci USA 110 , 5552-5557 (2013)) or sequencing with long reads (Kuleshov, V. et al. Whole-genome haplotyping using long reads and statistical methods. Nat Biotech 32 , 261-266 (2014)). This algorithm can model expected allele frequencies across all allelic imbalance ratios at 0.025% intervals for three sets of hypotheses: (1) all cells are normal (no allelic imbalance), (2) some/all cells have homolog 1 deletion or homolog 2 amplification or ( 3) some/all cells have a homolog 2 deletion or a homolog 1 amplification. The likelihood of each hypothesis can be determined in each SNP using a Bayesian classifier based on a beta binomial model of expected and observed allele frequencies for all heterozygous SNPs and can then be calculated a combined probability across multiple SNPs, in some illustrative embodiments, using the association of exemplary SNP loci. In fact, in illustrative embodiments, the normal cellular haplotype phase information obtained as described above is used by the algorithm to fit the calculated and typically adjusted allele counts in the sample under study to the expected allele counts using a joint distribution model. The maximum likelihood hypothesis can then be selected.
[353] Рассмотрим хромосомную область со средним числом N копий в опухоли, и пусть c обозначает долю ДНК в плазме, полученную из смеси нормальных и опухолевых клеток в дисомической области. AAI рассчитывается как:[353] Consider a chromosomal region with an average number of copies N in a tumor, and let c denote the proportion of plasma DNA derived from a mixture of normal and tumor cells in the disomic region. AAI is calculated as:
[354]
[355] В определенных иллюстративных примерах данные о частоте аллеля корректируются на ошибки до того, как они используются для генерации индивидуальных вероятностей. В данном документе раскрыты различные типы исправления ошибок и/или смещения. В конкретных иллюстративных вариантах воплощения ошибки, которые исправляются, являются смещением эффективности амплификации аллелей. В других вариантах воплощения ошибки, которые исправляются, включают ошибки последовательности, загрязнение окружающей средой и загрязнение генотипом. В некоторых вариантах воплощения исправленные ошибкивключают смещение амплификации аллелей, ошибки секвенирования, загрязнение окружающей средой и загрязнение генотипом.[355] In certain illustrative examples, allele frequency data are corrected for errors before they are used to generate individual probabilities. Various types of error correction and/or offset are disclosed herein. In specific illustrative embodiments, the errors that are corrected are biases in the efficiency of amplification of alleles. In other embodiments, errors that are corrected include sequence errors, environmental contamination, and genotypic contamination. In some embodiments, the errors corrected include allelic amplification bias, sequencing errors, environmental contamination, and genotypic contamination.
[356] Следует понимать, что смещение эффективности амплификации аллелей может быть определено для аллеля как часть эксперимента или лабораторного определения, которое включает определение на тестовом образце, или оно может быть определено в другое время с использованием набора образцов, которые включают аллель, эффективность которого рассчитывается. Загрязнение окружающей средой и загрязнение генотипом, как правило, определяются на том же прогоне, что и анализ исследуемого образца.[356] It should be understood that allele amplification efficiency bias may be determined for an allele as part of an experiment or laboratory determination that includes determination on a test sample, or it may be determined at another time using a set of samples that include the allele whose efficiency is being calculated . Environmental contamination and genotype contamination are typically determined in the same run as the test sample is analyzed.
[357] В некоторых вариантах воплощения для гомозиготных аллелей в образце определяют загрязнение окружающей средой и загрязнение генотипом. Следует понимать, что для любого данного образца от индивидуума некоторые локусы в образце будут гетерозиготными, а другие будут гомозиготными, даже если локус выбран для анализа, поскольку в популяции он имеет относительно высокую гетерозиготность. В некоторых вариантах воплощения целесообразно определять плоидность хромосомного сегмента с использованием гетерозиготных локусов для индивидуума, тогда как загрязнение окружающей средой и генотипом можно рассчитать с использованием гомозиготных локусов.[357] In some embodiments, environmental contamination and genotype contamination are determined for homozygous alleles in the sample. It should be understood that for any given sample from an individual, some loci in the sample will be heterozygous and others will be homozygous, even if the locus is selected for analysis because it has relatively high heterozygosity in the population. In some embodiments, it is useful to determine the ploidy of a chromosomal segment using heterozygous loci for an individual, while environmental and genotype contamination can be calculated using homozygous loci.
[358] В определенных иллюстративных примерах отбор выполняется путем анализа величины различия между фазированной аллельной информацией и оценочными аллельными частотами, сгенерированными для моделей.[358] In certain illustrative examples, selection is performed by analyzing the magnitude of the difference between the phased allelic information and the estimated allelic frequencies generated for the models.
[359] В иллюстративных примерах индивидуальные вероятности частот аллелей генерируются на основе бета-биномиальной модели ожидаемых и наблюдаемых частот аллелей в наборе полиморфных локусов. В иллюстративных примерах индивидуальные вероятности генерируются с использованием байесовского классификатора.[359] In illustrative examples, individual allele frequency probabilities are generated based on a beta binomial model of expected and observed allele frequencies at a set of polymorphic loci. In illustrative examples, individual probabilities are generated using a Bayesian classifier.
[360] В определенных иллюстративных вариантах воплощения данные последовательности нуклеиновой кислоты генерируют путем выполнения высокопроизводительного секвенирования ДНК множества копий серии ампликонов, сгенерированных с использованием реакции мультиплексной амплификации, где каждый ампликон из серии ампликонов охватывает по меньшей мере один полиморфный локус набора полиморфных локусов, и где каждый из полимерных локусов набора амплифицирован. В некоторых вариантах воплощения реакция мультиплексной амплификации проводится в условиях ограничивающего праймера для по меньшей мере 1/2 реакции. В некоторых вариантах воплощения ограничивающие концентрации праймеров используются в 1/10, 1/5, 1/4, 1/3, 1/2 или во всех реакциях мультиплексной реакции. В данном документе представлены факторы, которые следует учитывать для достижения условий ограничивающего праймера в реакции амплификации, такой как ПЦР.[360] In certain illustrative embodiments, nucleic acid sequence data is generated by performing high-throughput DNA sequencing of multiple copies of a series of amplicons generated using a multiplex amplification reaction, wherein each amplicon of the amplicon series spans at least one polymorphic locus of a set of polymorphic loci, and where each from the polymer loci of the set is amplified. In some embodiments, the multiplex amplification reaction is conducted under limiting primer conditions for at least 1/2 of the reaction. In some embodiments, limiting primer concentrations are used in 1/10, 1/5, 1/4, 1/3, 1/2, or all of the multiplex reactions. This document presents factors that should be considered to achieve limiting primer conditions in an amplification reaction such as PCR.
[361] В некоторых вариантах воплощения способы, представленные в настоящем документе, обнаруживают плоидность для множества хромосомных сегментов в нескольких хромосомах. Соответственно, хромосомная плоидность в этих вариантах воплощения определяется для набора сегментов хромосомы в образце. Для этих вариантов воплощения необходимы реакции с более высокой мультиплексной амплификацией. Соответственно, для этих вариантов воплощения реакция мультиплексной амплификации может включать, например, от 2500 до 50000 мультиплексных реакций. В некоторых вариантах воплощения выполняются следующие диапазоны мультиплексных реакций: между 100, 200, 250, 500, 1000, 2500, 5000, 10000, 20000, 25000, 50000 на нижнем конце диапазона и между 200, 250, 500, 1000, 2500, 5000, 10000, 20000, 25000, 50000 и 100000 на верхнем конце диапазона.[361] In some embodiments, the methods presented herein detect ploidy for multiple chromosomal segments on multiple chromosomes. Accordingly, chromosomal ploidy in these embodiments is determined for a set of chromosome segments in a sample. These embodiments require reactions with higher multiplex amplification. Accordingly, for these embodiments, the multiplex amplification reaction may comprise, for example, 2,500 to 50,000 multiplex reactions. In some embodiments, the following ranges of multiplex reactions are performed: between 100, 200, 250, 500, 1000, 2500, 5000, 10000, 20000, 25000, 50000 at the lower end of the range and between 200, 250, 500, 1000, 2500, 5000, 10,000, 20,000, 25,000, 50,000 and 100,000 at the higher end of the range.
[362] В иллюстративных вариантах воплощения набор полиморфных локусов представляет собой набор локусов, которые, как известно, проявляют высокую гетерозиготность. Однако ожидается, что для любого конкретного индивидуума некоторые из этих локусов будут гомозиготными. В некоторых иллюстративных вариантах воплощения способы по изобретению используют информацию о последовательности нуклеиновой кислоты как для гомозиготных, так и для гетерозиготных локусов для индивидуума. Гомозиготные локусы индивидуума используются, например, для исправления ошибок, тогда как гетерозиготные локусы используются для определения аллельного дисбаланса образца. В некоторых вариантах воплощения по меньшей мере 10% полиморфных локусов являются гетерозиготными локусами для индивидуума.[362] In illustrative embodiments, the set of polymorphic loci is a set of loci that are known to exhibit high heterozygosity. However, for any given individual, some of these loci are expected to be homozygous. In some illustrative embodiments, the methods of the invention use nucleic acid sequence information for both homozygous and heterozygous loci for an individual. An individual's homozygous loci are used, for example, to correct errors, while heterozygous loci are used to determine the allelic imbalance of a sample. In some embodiments, at least 10% of the polymorphic loci are heterozygous loci for the individual.
[363] Как раскрыто в данном документе, предпочтение отдается анализу целевых локусов ОНП, которые, как известно, в популяции являются гетерозиготными. Соответственно, в некоторых вариантах воплощения выбирают полиморфные локусы, в которых, как известно по меньшей мере 10, 20, 25, 50, 75, 80, 90, 95, 99 или 100% полиморфных локусов в популяции являются гетерозиготными.[363] As disclosed herein, preference is given to analyzing target SNP loci that are known to be heterozygous in the population. Accordingly, in some embodiments, polymorphic loci are selected where at least 10, 20, 25, 50, 75, 80, 90, 95, 99, or 100% of the polymorphic loci in the population are known to be heterozygous.
[364] Как раскрыто в данном документе, в некоторых вариантах воплощения образец представляет собой образец плазмы от беременной женщины.[364] As disclosed herein, in some embodiments, the sample is a plasma sample from a pregnant woman.
[365] В некоторых примерах способ дополнительно включает выполнение способа на контрольном образце с известным средним коэффициентом аллельного дисбаланса. Контроль может иметь средний коэффициент аллельного дисбаланса для конкретного аллельного состояния, указывающего на анеуплоидию хромосомного сегмента, от 0,4 до 10%, чтобы имитировать средний аллельный дисбаланс аллеля в образце, который присутствует в низких концентрациях, например, как ожидается от циркулирующей свободной ДНК из опухоли.[365] In some examples, the method further includes performing the method on a control sample with a known average allelic imbalance ratio. The control may have an average allelic imbalance ratio for a particular allelic condition indicating aneuploidy of a chromosomal segment of 0.4 to 10% to simulate the average allelic imbalance of an allele in a sample that is present in low concentrations, such as would be expected from circulating free DNA from tumors.
[366] В некоторых вариантах воплощения в качестве контроля используются контроли PlasmArt. Соответственно, в определенных аспектах образец получен способом, включающим фрагментацию образца нуклеиновой кислоты, которая, как известно, проявляет хромосомную анеуплоидию, на фрагменты, которые имитируют размер фрагментов ДНК, циркулирующих в плазме индивидуума. В определенных аспектах используется контроль, который не имеет анеуплоидии для сегмента хромосомы.[366] In some embodiments, PlasmArt controls are used as controls. Accordingly, in certain aspects, a sample is obtained by a method including fragmenting a sample of nucleic acid that is known to exhibit chromosomal aneuploidy into fragments that mimic the size of DNA fragments circulating in the plasma of an individual. In certain aspects, a control is used that does not have aneuploidy for the chromosome segment.
[367] В иллюстративных вариантах воплощения данные из одного или более контролей могут быть проанализированы в способе вместе с тестовым образцом. Например, контроли могут включать образец, отличный от индивидуума, который не подозревается на наличие хромосомной анеуплоидии, или образец, который, предположительно, содержит ВЧК или хромосомную анеуплоидию. Например, если исследуемый образец представляет собой образец плазмы, предположительно содержащий циркулирующую свободную опухолевую ДНК, способ также может быть выполнен для контрольного образца из опухоли субъекта вместе с образцом плазмы. Как раскрыто в настоящем документе, контрольный образец можно получить путем фрагментации образца ДНК, о котором известно, что он обладает хромосомной анеуплоидией. Такое фрагментирование может привести к образцу ДНК, который имитирует состав ДНК апоптотической клетки, особенно когда образец взят от индивидуума, пораженного раком. Данные от контрольного образца повысят достоверность выявления хромосомной анеуплоидии.[367] In illustrative embodiments, data from one or more controls may be analyzed in the method along with a test sample. For example, controls may include a sample other than an individual that is not suspected of having chromosomal aneuploidy, or a sample that is suspected of containing ICH or chromosomal aneuploidy. For example, if the test sample is a plasma sample suspected of containing circulating free tumor DNA, the method may also be performed on a control sample from the subject's tumor along with the plasma sample. As disclosed herein, a control sample can be obtained by fragmenting a DNA sample known to have chromosomal aneuploidy. Such fragmentation can result in a DNA sample that mimics the DNA composition of an apoptotic cell, especially when the sample is from an individual affected by cancer. Data from the control sample will increase the confidence in detecting chromosomal aneuploidy.
[368] В некоторых вариантах воплощения способов определения плоидности образец представляет собой образец плазмы от индивидуума, подозреваемого на наличие рака. В этих вариантах воплощения способ дополнительно содержит определение на основе выбора, присутствует ли вариация числа копий в клетках опухоли индивидуума. Для этих вариантов воплощения образец может представлять собой образец плазмы от индивидуума. Для этих вариантов воплощения способ может дополнительно включать в себя определение на основании выбора, того, присутствует ли рак у индивидуума.[368] In some embodiments of methods for determining ploidy, the sample is a plasma sample from an individual suspected of having cancer. In these embodiments, the method further comprises determining, based on the selection, whether copy number variation is present in the individual's tumor cells. For these embodiments, the sample may be a plasma sample from an individual. For these embodiments, the method may further include determining, based on the selection, whether cancer is present in the individual.
[369] Эти варианты воплощения для определения плоидности хромосомного сегмента могут, кроме того, включать обнаружение однонуклеотидного варианта в месте однонуклеотидной вариации в наборе местоположений однонуклеотидной вариации, где обнаружение либо хромосомной анеуплоидии, либо однонуклеотидного варианта, либо обоих, указывает на наличие циркулирующих опухолевых нуклеиновых кислот в образце.[369] These embodiments for determining the ploidy of a chromosomal segment may further include detecting a single nucleotide variant at a single nucleotide variation site in a set of single nucleotide variation locations, where the detection of either chromosomal aneuploidy or the single nucleotide variant, or both, indicates the presence of circulating tumor nucleic acids in the sample.
[370] Эти варианты воплощения могут дополнительно включать в себя получение информации о гаплотипе сегмента хромосомы для опухоли индивидуума и использование информации о гаплотипе для генерации набора моделей различных состояний плоидности и фракций аллельного дисбаланса набора полиморфных локусов.[370] These embodiments may further include obtaining haplotype information about a chromosome segment for an individual's tumor and using the haplotype information to generate a set of models of various ploidy states and allelic imbalance fractions of a set of polymorphic loci.
[371] Как раскрыто в данном документе, некоторые варианты воплощения способов определения плоидности могут дополнительно включать в себя удаление выпадающих значений из исходных или скорректированных данных о частоте аллеля перед сравнением исходной или скорректированной частоты аллеля с набором моделей. Например, в некоторых вариантах воплощения частоты аллелей локусов, которые по меньшей мере на 2 или 3 стандартных отклонения выше или ниже среднего значения для других локусов на сегменте хромосомы, перед использованием для моделирования удаляют из данных.[371] As disclosed herein, some embodiments of ploidy determination methods may further include removing outliers from the original or adjusted allele frequency data before comparing the original or adjusted allele frequency to a set of models. For example, in some embodiments, allele frequencies of loci that are at least 2 or 3 standard deviations above or below the mean for other loci on a chromosome segment are removed from the data before being used for modeling.
[372] Как упомянуто в данном документе, следует понимать, что для многих из представленных в данном документе вариантов воплощения, в том числе для определения плоидности хромосомного сегмента, предпочтительно используются недостаточно или идеально фазированные данные. Также следует понимать, что в данном документе представлен ряд признаков, которые обеспечивают улучшения по сравнению с предшествующими способами обнаружения плоидности, и что можно использовать множество различных комбинаций этих признаков.[372] As mentioned herein, it should be understood that many of the embodiments presented herein, including for determining the ploidy of a chromosomal segment, preferably use under or perfectly phased data. It should also be understood that this document presents a number of features that provide improvements over prior ploidy detection methods, and that many different combinations of these features can be used.
[373] В некоторых вариантах воплощения в данном документе представлены компьютерные системы и машиночитаемые носители для выполнения любых способов по настоящему изобретению. К ним относятся системы и машиночитаемые носители для выполнения способов определения плоидности. Соответственно, и в качестве неограничивающих примеров вариантов воплощения системы, чтобы продемонстрировать, что любой из способов, представленных в этом документе, может быть выполнен с использованием системы и машиночитаемого носителя с использованием раскрытия в данном документе, в другом аспекте в настоящем документе предоставляется система для обнаружения хромосомной плоидности в образце индивидуума, система, содержащая: процессор ввода, сконфигурированный для приема данных о частоте аллеля, включающих количество каждого аллеля, присутствующего в образце в каждом локусе в наборе полиморфных локусов на хромосомном сегменте; блок моделирования, сконфигурированный для: генерации фазированной аллельной информации для набора полиморфных локусов путем оценки фазы данных частоты аллелей; и получение индивидуальных вероятностей частот аллелей для полиморфных локусов для различных состояний плоидности, используя данные частоты аллелей; и получение объединенных вероятностей для набора полиморфных локусов с использованием индивидуальных вероятностей и фазированной аллельной информации; и менеджер гипотез, сконфигурированный для выбора на основе объединенных вероятностей модели наилучшего соответствия, указывающей на хромосомную плоидность, таким образом определяя плоидность хромосомного сегмента.[373] In some embodiments, provided herein are computer systems and computer readable media for performing any of the methods of the present invention. These include systems and computer-readable media for performing ploidy determination methods. Accordingly, and as non-limiting examples of system embodiments, to demonstrate that any of the methods presented herein can be performed using a system and a computer readable medium using the disclosure herein, in another aspect, a system for detecting chromosomal ploidy in a sample of an individual, a system comprising: an input processor configured to receive allele frequency data including the amount of each allele present in the sample at each locus in a set of polymorphic loci on a chromosomal segment; a modeling unit configured to: generate phased allelic information for a set of polymorphic loci by estimating the phase of allele frequency data; and obtaining individual allele frequency probabilities for polymorphic loci for different ploidy states using allele frequency data; and obtaining joint probabilities for a set of polymorphic loci using individual probabilities and phased allelic information; and a hypothesis manager configured to select, based on the pooled probabilities, a best fit model indicative of chromosomal ploidy, thereby determining the ploidy of the chromosomal segment.
[374] В некоторых вариантах воплощения этой системы данные о частоте аллелей представляют собой данные, сгенерированные системой секвенирования нуклеиновых кислот. В некоторых вариантах воплощения система дополнительно содержит блок коррекции ошибок, выполненный с возможностью исправления ошибок в данных частоты аллеля, причем скорректированные данные частоты аллеля используются блоком моделирования для получения индивидуальных вероятностей. В некоторых вариантах воплощения блок коррекции ошибок корректирует смещение эффективности амплификации аллелей. В некоторых вариантах воплощения блок моделирования генерирует индивидуальные вероятности, используя набор моделей как различных состояний плоидности, так и фракций аллельного дисбаланса для набора полиморфных локусов. Блок моделирования в некоторых примерных вариантах воплощения генерирует объединенные вероятности, рассматривая связь между полиморфными локусами на сегменте хромосомы.[374] In some embodiments of this system, the allele frequency data is data generated by a nucleic acid sequencing system. In some embodiments, the system further comprises an error correction unit configured to correct errors in the allele frequency data, wherein the corrected allele frequency data is used by the modeling unit to obtain individual probabilities. In some embodiments, the error correction unit corrects for bias in allele amplification efficiency. In some embodiments, the modeling unit generates individual probabilities using a set of models of both different ploidy states and allelic imbalance fractions for a set of polymorphic loci. The modeling block in some example embodiments generates joint probabilities by considering the association between polymorphic loci on a chromosome segment.
[375] В одном иллюстративном варианте воплощения в настоящем документе представлена система для обнаружения хромосомной плоидности в образце индивидуума, которая включает в себя следующее: процессор ввода, сконфигурированный для получения данных последовательности нуклеиновой кислоты для аллелей в наборе полиморфных локусов на сегменте хромосомы у индивидуума и определения частоты аллелей в наборе локусов, используя данные последовательности нуклеиновой кислоты; блок коррекции ошибок, сконфигурированный для исправления ошибок в обнаруженных частотах аллелей и получения скорректированных частот аллелей для набора полиморфных локусов; блок моделирования, сконфигурированный для: получения фазированной аллельной информации для набора полиморфных локусов путем оценки фазы данных о последовательности нуклеиновой кислоты; получение индивидуальных вероятностей частот аллелей для полиморфных локусов для различных состояний плоидности путем сравнения фазированной аллельной информации с набором моделей различных состояний плоидности и фракций аллельного дисбаланса набора полиморфных локусов; и получение объединенных вероятностей для набора полиморфных локусов путем объединения индивидуальных вероятностей с учетом относительного расстояния между полиморфными локусами на сегменте хромосомы; и менеджер гипотез, сконфигурированный для выбора на основе объединенных вероятностей модели наилучшего соответствия, указывающей на хромосомную анеуплоидию.[375] In one illustrative embodiment, provided herein is a system for detecting chromosomal ploidy in a sample of an individual, which includes the following: an input processor configured to obtain nucleic acid sequence data for alleles at a set of polymorphic loci on a chromosome segment in the individual and determining allele frequencies at a set of loci using nucleic acid sequence data; an error correction unit configured to correct errors in the detected allele frequencies and obtain corrected allele frequencies for a set of polymorphic loci; a modeling unit configured to: obtain phased allelic information for a set of polymorphic loci by estimating the phase of the nucleic acid sequence data; obtaining individual allele frequency probabilities for polymorphic loci for different ploidy states by comparing phased allelic information with a set of models of different ploidy states and allelic imbalance fractions of a set of polymorphic loci; and obtaining joint probabilities for a set of polymorphic loci by combining the individual probabilities taking into account the relative distance between the polymorphic loci on a chromosome segment; and a hypothesis manager configured to select, based on the pooled probabilities, a best fit model indicative of chromosomal aneuploidy.
[376] В некоторых примерных вариантах воплощения системы, представленных в настоящем документе, набор полиморфных локусов включает от 1000 до 50000 полиморфных локусов. В некоторых примерных вариантах воплощения системы, представленных в настоящем документе, набор полиморфных локусов включает 100 известных локусов горячей точки гетерозиготности. В некоторых приведенных в качестве примера вариантах воплощения системы, представленных в настоящем документе, набор полиморфных локусов включает 100 локусов, которые находятся на расстоянии или в пределах 0,5 т.п.н. от горячей точки рекомбинации.[376] In some exemplary embodiments of the system presented herein, the set of polymorphic loci includes from 1000 to 50,000 polymorphic loci. In some exemplary embodiments of the system provided herein, the set of polymorphic loci includes 100 known heterozygosity hot spot loci. In some exemplary embodiments of the system presented herein, the set of polymorphic loci includes 100 loci that are located at or within 0.5 kb. from the recombination hot spot.
[377] В некоторых примерных вариантах воплощения системы, представленных в настоящем документе, модель наилучшего соответствия анализирует следующие состояния плоидности первого гомолога сегмента хромосомы и второго гомолога сегмента хромосомы: (1) все клетки не имеют делеции или амплификации первого гомолога или второго гомолога сегмента хромосомы; (2) некоторые или все клетки имеют делецию первого гомолога или амплификацию второго гомолога сегмента хромосомы; и (3) некоторые или все клетки имеют делецию второго гомолога или амплификацию первого гомолога сегмента хромосомы.[377] In some exemplary embodiments of the system presented herein, the best-fit model analyzes the following ploidy states of the first chromosome segment homolog and the second chromosome segment homolog: (1) all cells do not have a deletion or amplification of the first homolog or the second chromosome segment homolog; (2) some or all cells have a deletion of the first homologue or amplification of the second homolog of a chromosome segment; and (3) some or all cells have a deletion of the second homolog or amplification of the first homologue of the chromosome segment.
[378] В некоторых примерных вариантах воплощения системы, представленных в настоящем документе, ошибки, которые исправляются, включают смещение эффективности аллельной амплификации, загрязнение и/или ошибки секвенирования. В некоторых примерных вариантах воплощения системы, представленных в настоящем документе, загрязнение включает загрязнение окружающей средой и загрязнение генотипом. В некоторых примерных вариантах воплощения системы, представленных в настоящем документе, загрязнение окружающей средой и загрязнение генотипом определяются для гомозиготных аллелей. [378] In some exemplary system embodiments presented herein, errors that are corrected include allelic amplification efficiency bias, contamination, and/or sequencing errors. In some exemplary system embodiments provided herein, the contamination includes environmental contamination and genetic contamination. In some exemplary system embodiments presented herein, environmental contamination and genotype contamination are determined for homozygous alleles.
[379] В некоторых примерных вариантах воплощения системы, представленных в настоящем документе, менеджер гипотез сконфигурирован для анализа величины различия между фазированной аллельной информацией и оцененными аллельными частотами, сгенерированными для моделей. В некоторых примерных вариантах воплощения системы, представленных в настоящем документе, блок моделирования генерирует индивидуальные вероятности частот аллелей на основе бета-биномиальной модели ожидаемых и наблюдаемых частот аллелей в наборе полиморфных локусов. В некоторых примерных вариантах воплощения системы, представленных в настоящем документе, блок моделирования генерирует индивидуальные вероятности с использованием байесовского классификатора.[379] In some exemplary system implementations presented herein, the hypothesis manager is configured to analyze the magnitude of the difference between the phased allelic information and the estimated allelic frequencies generated for the models. In some exemplary system implementations presented herein, the modeling engine generates individual allele frequency probabilities based on a beta binomial model of expected and observed allele frequencies at a set of polymorphic loci. In some exemplary system implementations presented herein, the modeling unit generates individual probabilities using a Bayesian classifier.
[380] В некоторых примерных вариантах воплощения системы, представленных в настоящем документе, данные последовательности нуклеиновой кислоты генерируют путем выполнения высокопроизводительного секвенирования ДНК множества копий серии ампликонов, сгенерированных с использованием реакции мультиплексной амплификации, где каждый ампликон из серии ампликонов охватывает по меньшей мере один полиморфный локус из набора полиморфных локусов, и где каждый из полиморфных локусов набора амплифицирован. В некоторых примерных вариантах воплощения системы, представленных в настоящем документе, при этом реакция мультиплексной амплификации проводится в условиях ограничивающего по меньшей мере на 1/2 реакции, праймера. В некоторых примерных вариантах воплощения системы, представленных в настоящем документе, при этом образец имеет средний аллельный дисбаланс от 0,4 до 5%.[380] In some exemplary embodiments of the system provided herein, nucleic acid sequence data is generated by performing high-throughput DNA sequencing of multiple copies of a series of amplicons generated using a multiplex amplification reaction, wherein each amplicon of the series of amplicons spans at least one polymorphic locus from a set of polymorphic loci, and where each of the polymorphic loci of the set is amplified. In some exemplary embodiments of the system presented herein, the multiplex amplification reaction is conducted under conditions of at least 1/2 of the reaction limiting primer. In some exemplary embodiments of the system provided herein, the sample has an average allelic imbalance of 0.4 to 5%.
[381] В некоторых примерных вариантах воплощения системы, представленных в настоящем документе, образец представляет собой образец плазмы от индивидуума, подозреваемого на наличие рака, и менеджер гипотез на основе модели наилучшего соответствия дополнительно сконфигурирован для определения наличия изменения числа копий в клетках опухоли индивидуума.[381] In some exemplary embodiments of the system provided herein, the sample is a plasma sample from an individual suspected of having cancer, and a hypothesis manager based on the best fit model is further configured to determine the presence of a copy number alteration in the individual's tumor cells.
[382] В некоторых примерных вариантах воплощения системы, представленных в настоящем документе, образец представляет собой образец плазмы от индивидуума, и менеджер гипотез на основе модели наилучшего соответствия дополнительно сконфигурирован для определения того, что рак присутствует у индивидуума. В этих вариантах воплощения менеджер гипотез может быть дополнительно сконфигурирован для обнаружения однонуклеотидного варианта в месте однонуклеотидной вариации в наборе местоположений однонуклеотидной вариации, где обнаружение либо хромосомной анеуплоидии, либо однонуклеотидного варианта, или обоих, указывает на наличие циркулирующих опухолевых нуклеиновых кислот в образце.[382] In some exemplary embodiments of the system provided herein, the sample is a plasma sample from an individual, and a hypothesis manager based on the best fit model is further configured to determine that cancer is present in the individual. In these embodiments, the hypothesis manager may be further configured to detect a single nucleotide variant at a single nucleotide variation site in a set of single nucleotide variation locations where the detection of either a chromosomal aneuploidy or a single nucleotide variant, or both, indicates the presence of circulating tumor nucleic acids in the sample.
[383] В некоторых примерных вариантах воплощения системы, представленных в настоящем документе, процессор ввода дополнительно сконфигурирован для получения информации о гаплотипе сегмента хромосомы для опухоли индивидуума, и блок моделирования сконфигурирован для использования информации о гаплотипе для генерации набора моделей различных состояний плоидности и фракций аллельного дисбаланса набора полиморфных локусов.[383] In some exemplary system implementations provided herein, the input processor is further configured to obtain haplotype information about a chromosome segment for an individual's tumor, and the modeling unit is configured to use the haplotype information to generate a set of models of various ploidy states and allelic imbalance fractions set of polymorphic loci.
[384] В некоторых примерных вариантах воплощения системы, представленных в настоящем документе, блок моделирования генерирует модели по фракциям аллельного дисбаланса в диапазоне от 0 до 25%.[384] In some exemplary system embodiments presented herein, the modeling engine generates models for allelic imbalance fractions ranging from 0 to 25%.
[385] Следует понимать, что любой из способов, предоставленных в данном документе, может быть выполнен с помощью машиночитаемого кода, который хранится на постоянном машиночитаемом носителе. Соответственно, предоставлен в данном документе в одном варианте воплощения постоянный машиночитаемый носитель для обнаружения хромосомной плоидности в образце индивидуума, содержащий машиночитаемый код, который при выполнении устройством обработки побуждает устройство обработки: принимать данные о частоте аллеля, включающие количество каждого аллеля, присутствующего в образце, в каждом локусе в наборе полиморфных локусов на хромосомном сегменте; генерировать фазированную аллельную информацию для набора полиморфных локусов путем оценки фазы данных частоты аллелей; генерировать индивидуальные вероятности частот аллелей для полиморфных локусов для различных состояний плоидности, используя данные частоты аллелей; генерировать объединенные вероятности для набора полиморфных локусов с использованием индивидуальных вероятностей и фазированной аллельной информации; и выбирать на основе объединенных вероятностей модель наилучшего соответствия, указывающую на хромосомную плоидность, тем самым определяя плоидность хромосомного сегмента.[385] It should be understood that any of the methods provided herein may be performed using computer-readable code that is stored on a non-transitory computer-readable medium. Accordingly, provided herein in one embodiment is a non-transitory computer-readable medium for detecting chromosomal ploidy in a sample of an individual, comprising machine-readable code that, when executed by a processing device, causes the processing device to: receive allele frequency data including the amount of each allele present in the sample, in each locus in a set of polymorphic loci on a chromosomal segment; generate phased allelic information for a set of polymorphic loci by estimating the phase of allele frequency data; generate individual allele frequency probabilities for polymorphic loci for different ploidy states using allele frequency data; generate pooled probabilities for a set of polymorphic loci using individual probabilities and phased allelic information; and select, based on the pooled probabilities, the best fit model indicative of chromosomal ploidy, thereby determining the ploidy of the chromosomal segment.
[386] В некоторых вариантах воплощения машиночитаемого носителя данные о частоте аллеля генерируются из данных последовательности нуклеиновой кислоты. Определенные варианты воплощения машиночитаемого носителя дополнительно содержат исправление ошибок в данных частоты аллеля и использование скорректированных данных частоты аллеля для этапа создания индивидуальных вероятностей. В некоторых вариантах воплощения машиночитаемого носителя ошибки, которые исправлены, являются смещением эффективности амплификации аллеля. В некоторых вариантах воплощения машиночитаемого носителя индивидуальные вероятности генерируются с использованием набора моделей как различных состояний плоидности, так и фракций аллельного дисбаланса для набора полиморфных локусов. В некоторых вариантах воплощения машиночитаемого носителя объединенные вероятности генерируются при учете связи между полиморфными локусами на сегменте хромосомы.[386] In some embodiments of the computer-readable medium, allele frequency data is generated from nucleic acid sequence data. Certain embodiments of the computer-readable medium further comprise correcting errors in the allele frequency data and using the corrected allele frequency data for the step of generating individual probabilities. In some embodiments of the computer-readable medium, the errors that are corrected are biases in the efficiency of amplification of the allele. In some embodiments of the computer-readable medium, individual probabilities are generated using a set of models of both different ploidy states and allelic imbalance fractions for a set of polymorphic loci. In some embodiments of the computer-readable medium, pooled probabilities are generated by taking into account the relationship between polymorphic loci on a chromosome segment.
[387] В одном конкретном варианте воплощения в настоящем документе представлен постоянный машиночитаемый носитель для обнаружения хромосомной плоидности в образце индивидуума, содержащий машиночитаемый код, который при выполнении устройством обработки побуждает устройство обработки: принимать данные последовательности нуклеиновой кислоты для аллелей в наборе полиморфных локусов на сегменте хромосомы индивидуума; определять частоты аллелей в наборе локусов, используя данные последовательности нуклеиновой кислоты; проводить исправление смещения эффективности амплификации аллелей на обнаруженных частотах аллелей для генерации скорректированных частот аллелей для набора полиморфных локусов; генерировать фазированную аллельную информацию для набора полиморфных локусов путем оценки фазы данных последовательности нуклеиновой кислоты; генерировать индивидуальные вероятности частот аллелей для полиморфных локусов для различных состояний плоидности путем сравнения скорректированных частот аллелей с набором моделей различных состояний плоидности и фракций аллельного дисбаланса множества полиморфных локусов; генерировать объединенные вероятности для набора полиморфных локусов путем объединения индивидуальных вероятностей с учетом связи между полиморфными локусами на сегменте хромосомы; и выбирать, основываясь на объединенных вероятностях, модель наилучшего соответствия, указывающую на хромосомную анеуплоидию.[387] In one specific embodiment, provided herein is a non-transitory computer-readable medium for detecting chromosomal ploidy in a sample of an individual, comprising machine-readable code that, when executed by a processing device, causes the processing device to: receive nucleic acid sequence data for alleles at a set of polymorphic loci on a chromosome segment individual; determine allele frequencies at a set of loci using nucleic acid sequence data; perform allele amplification efficiency bias correction at detected allele frequencies to generate corrected allele frequencies for a set of polymorphic loci; generate phased allelic information for a set of polymorphic loci by estimating the phase of the nucleic acid sequence data; generate individual allele frequency probabilities for polymorphic loci for different ploidy states by comparing adjusted allele frequencies with a set of models of different ploidy states and allelic imbalance fractions of multiple polymorphic loci; generate joint probabilities for a set of polymorphic loci by combining individual probabilities taking into account the relationship between polymorphic loci on a chromosome segment; and select, based on the pooled probabilities, the best fit model indicating chromosomal aneuploidy.
[388] В определенных иллюстративных вариантах воплощения для считываемых компьютером носителей выбор выполняется путем анализа величины различия между фазированной аллельной информацией и оцененными аллельными частотами, сгенерированными для моделей.[388] In certain illustrative embodiments for computer readable media, the selection is made by analyzing the magnitude of the difference between the phased allelic information and the estimated allelic frequencies generated for the models.
[389] В определенных иллюстративных вариантах воплощения для машиночитаемого носителя индивидуальные вероятности частот аллелей генерируются на основе бета-биномиальной модели ожидаемых и наблюдаемых частот аллелей в наборе полиморфных локусов.[389] In certain illustrative computer-readable medium embodiments, individual allele frequency probabilities are generated based on a beta binomial model of expected and observed allele frequencies at a set of polymorphic loci.
[390] Следует понимать, что любой из вариантов воплощения способа, предоставленных в данном документе, может быть выполнен посредством выполнения кода, хранящегося на постоянном машиночитаемом носителе.[390] It should be understood that any of the method embodiments provided herein may be performed by executing code stored on a non-transitory computer readable medium.
[391] Примерные варианты воплощения для выявления рака [391] Exemplary Embodiments for Cancer Detection
[392] В определенных аспектах настоящее изобретение предоставляет способ выявления рака. Следует понимать, что образец может быть образцом опухоли или жидким образцом, таким как плазма, от индивидуума, подозреваемого на рак. Эти способы особенно эффективны при выявлении генетических мутаций, таких как единичные нуклеотидные изменения, такие как ОНВ, или изменений числа копий, таких как ВЧК, в образцах с низким уровнем этих генетических изменений в виде фракции от общей ДНК в образце. Таким образом, чувствительность для обнаружения ДНК или РНК от рака в образцах является исключительной. Способы могут сочетать любое или все улучшения, предусмотренные в данном документе, для обнаружения ВЧК и ОНВ для достижения этой исключительной чувствительности.[392] In certain aspects, the present invention provides a method for detecting cancer. It should be understood that the sample may be a tumor sample or a liquid sample, such as plasma, from an individual suspected of having cancer. These methods are particularly effective at detecting genetic mutations, such as single nucleotide changes such as SNV, or copy number changes such as ICH, in samples with low levels of these genetic changes as a fraction of the total DNA in the sample. Thus, the sensitivity for detecting cancer DNA or RNA in samples is exceptional. Methods may combine any or all of the improvements provided herein to detect ICH and NVC to achieve this exceptional sensitivity.
[393] Соответственно, в некоторых вариантах воплощения, представленных в настоящем документе, представлен способ для определения того, присутствуют ли циркулирующие в опухоли нуклеиновые кислоты в образце у индивидуума, и постоянный машиночитаемый носитель, содержащий машиночитаемый код, который при выполнении устройством обработки побуждает устройство обработки к осуществлению способа. Способ включает следующие этапы: анализ образца для определения плоидности в наборе полиморфных локусов на сегменте хромосомы у индивидуума; и определение уровня среднего аллельного дисбаланса, присутствующего в полиморфных локусах, на основании определения плоидности, где средний аллельный дисбаланс равен или превышает 0,4, 0,45, 0,5, 0,6, 0,7, 0,75, 0,8, 0,9 или 1%, указывает на наличие циркулирующих опухолевых нуклеиновых кислот, таких как цоДНК, в образце.[393] Accordingly, in some embodiments provided herein, there is provided a method for determining whether circulating tumor nucleic acids are present in a sample from an individual, and a non-transitory computer-readable medium comprising computer-readable code that, when executed by a processing device, causes the processing device to to implement the method. The method includes the following steps: analysis of a sample to determine ploidy in a set of polymorphic loci on a chromosome segment in an individual; and determining the level of average allelic imbalance present at the polymorphic loci based on the ploidy determination, where the average allelic imbalance is equal to or greater than 0.4, 0.45, 0.5, 0.6, 0.7, 0.75, 0, 8, 0.9, or 1% indicates the presence of circulating tumor nucleic acids, such as ctDNA, in the sample.
[394] В определенных иллюстративных примерах средний аллельный дисбаланс более 0,4, 0,45 или 0,5% свидетельствует о наличии цоДНК. В некоторых вариантах воплощения способ определения наличия циркулирующих опухолевых нуклеиновых кислот, дополнительно включает обнаружение однонуклеотидного варианта в месте однонуклеотидной вариации в наборе местоположений однонуклеотидной вариации, в котором обнаруживают либо аллельный дисбаланс, равный или превышающий 0,5%, либо обнаруживают однонуклеотидный вариант, либо оба, что свидетельствует о наличии циркулирующих опухолевых нуклеиновых кислот в образце. Следует понимать, что любой из способов, предусмотренных для выявления плоидности хромосом или ВЧК, может быть использован для определения уровня аллельного дисбаланса, обычно выражаемого как средний аллельный дисбаланс. Следует понимать, что любой из предложенных в данном документе способов для выявления ОНВ может быть использован для выявления одного нуклеотида для этого аспекта настоящего изобретения.[394] In certain illustrative examples, an average allelic imbalance of greater than 0.4, 0.45, or 0.5% is indicative of the presence of ctDNA. In some embodiments, the method of determining the presence of circulating tumor nucleic acids further comprises detecting a single nucleotide variant at a single nucleotide variation site in a set of single nucleotide variation locations in which either an allelic imbalance equal to or greater than 0.5% is detected, a single nucleotide variant is detected, or both, which indicates the presence of circulating tumor nucleic acids in the sample. It should be understood that any of the methods provided for detecting chromosomal ploidy or ICH can be used to determine the level of allelic imbalance, usually expressed as average allelic imbalance. It should be understood that any of the methods proposed herein for detecting NNVs can be used to detect a single nucleotide for this aspect of the present invention.
[395] В некоторых вариантах воплощения способ определения наличия циркулирующих опухолевых нуклеиновых кислот дополнительно включает выполнение способа на контрольном образце с известным средним коэффициентом аллельного дисбаланса. Контролем, например, может быть образец из опухоли индивидуума. В некоторых вариантах воплощения контроль имеет средний аллельный дисбаланс, ожидаемый для анализируемой пробы. Например, AAI от 0,5 до 5% или средний коэффициент аллельного дисбаланса 0,5%.[395] In some embodiments, a method for determining the presence of circulating tumor nucleic acids further comprises performing the method on a control sample with a known average allelic imbalance ratio. The control, for example, may be a sample from an individual's tumor. In some embodiments, the control has the average allelic imbalance expected for the sample being analyzed. For example, AAI from 0.5 to 5% or an average allelic imbalance coefficient of 0.5%.
[396] В некоторых вариантах воплощения этап анализа в способе определения наличия циркулирующих опухолевых нуклеиновых кислот включает анализ ряда хромосомных сегментов, которые, как известно, проявляют анеуплоидию при раке. В некоторых вариантах воплощения этап анализа в способе определения наличия циркулирующих опухолевых нуклеиновых кислот включает анализ от 1000 до 50000 или от 100 до 1000 полиморфных локусов на предмет плоидности. В некоторых вариантах воплощения этап анализа в способе определения наличия циркулирующих опухолевых нуклеиновых кислот включает анализ от 100 до 1000 сайтов однонуклеотидного варианта. Например, в этих вариантах воплощения этап анализа может включать в себя проведение мультиплексной ПЦР для амплификации ампликонов по 1000-50000 полимерным локусам и 100-1000 сайтам однонуклеотидного варианта. Эта мультиплексная реакция может быть настроена как отдельная реакция или как совокупность различных подмножественных мультиплексных реакций. Предлагаемые в данном документе способы мультиплексной реакции, такие как массовая мультиплексная ПЦР, раскрытая в данном документе, обеспечивают примерный процесс для проведения реакции амплификации, чтобы помочь достичь улучшенного мультиплексирования и, следовательно, уровней чувствительности.[396] In some embodiments, the analysis step of a method for determining the presence of circulating tumor nucleic acids includes analysis of a number of chromosomal segments that are known to exhibit aneuploidy in cancer. In some embodiments, the analysis step of a method for determining the presence of circulating tumor nucleic acids includes analyzing 1000 to 50,000 or 100 to 1000 polymorphic loci for ploidy. In some embodiments, the analysis step of a method for determining the presence of circulating tumor nucleic acids includes analysis of 100 to 1000 single nucleotide variant sites. For example, in these embodiments, the analysis step may include performing multiplex PCR to amplify amplicons at 1000-50000 polymer loci and 100-1000 single nucleotide variant sites. This multiplex reaction can be configured as a single reaction or as a collection of different subset multiplex reactions. The multiplex reaction methods proposed herein, such as the mass multiplex PCR disclosed herein, provide an exemplary process for conducting an amplification reaction to help achieve improved multiplexing and therefore sensitivity levels.
[397] В некоторых вариантах воплощения реакция мультиплексной ПЦР проводится в условиях ограничивающего праймера для по меньшей мере 10, 20, 25, 50, 75, 90, 95, 98, 99 или 100% реакций. Можно использовать улучшенные условия для проведения массовой мультиплексной реакции, представленные в настоящем документе.[397] In some embodiments, the multiplex PCR reaction is run under limiting primer conditions for at least 10, 20, 25, 50, 75, 90, 95, 98, 99, or 100% of the reactions. Improved bulk multiplex reaction conditions presented herein can be used.
[398] В определенных аспектах вышеуказанный способ определения того, присутствуют ли циркулирующие в опухоли нуклеиновые кислоты в образце у индивидуума и все его варианты воплощения, может быть осуществлен с помощью системы. Раскрытие предоставляет указания относительно конкретных функциональных и структурных особенностей для воплощения способов. В качестве неограничивающего примера система включает в себя следующее:[398] In certain aspects, the above method of determining whether circulating tumor nucleic acids are present in a sample from an individual, and all embodiments thereof, can be accomplished by a system. The disclosure provides guidance regarding specific functional and structural features for implementing the methods. By way of non-limiting example, the system includes the following:
[399] Процессор ввода, сконфигурированный для анализа данных из образца для определения плоидности в наборе полиморфных локусов на сегменте хромосомы у индивидуума; и[399] An input processor configured to analyze data from a sample to determine ploidy at a set of polymorphic loci on a chromosome segment in an individual; And
[400] Блок моделирования, сконфигурированный для определения уровня аллельного дисбаланса, присутствующего в полиморфных локусах, на основании определения плоидности, где аллельный дисбаланс, равный или превышающий 0,5%, указывает на наличие циркуляции.[400] A modeling unit configured to determine the level of allelic imbalance present at polymorphic loci based on a determination of ploidy, where allelic imbalance equal to or greater than 0.5% indicates the presence of circulation.
[401] Примерные варианты воплощения для выявления однонуклеотидных вариантов [401] Exemplary Embodiments for Detecting Single Nucleotide Variants
[402] В определенных аспектах в настоящем документе предлагаются способы обнаружения однонуклеотидных вариантов в образце. Усовершенствованные способы, представленные в настоящем документе, могут достигать пределов обнаружения 0,015, 0,017, 0,02, 0,05, 0,1, 0,2, 0,3, 0,4 или 0,5 процента ОНВ в образце. Все варианты воплощения для обнаружения ОНВ могут быть выполнены с помощью системы. Раскрытие предоставляет указания относительно конкретных функциональных и структурных особенностей для осуществления способов. Кроме того, в данном документе представлены варианты воплощения, содержащие постоянный машиночитаемый носитель, содержащий машиночитаемый код, который при выполнении устройством обработки заставляет устройство обработки выполнять способы обнаружения ОНВ, представленные в данном документе.[402] In certain aspects, methods are provided herein for detecting single nucleotide variants in a sample. The improved methods presented herein can achieve detection limits of 0.015, 0.017, 0.02, 0.05, 0.1, 0.2, 0.3, 0.4, or 0.5 percent ODS in a sample. All embodiments for detecting CNVs can be performed using the system. The disclosure provides guidance regarding specific functional and structural features for implementing the methods. Also provided herein are embodiments comprising a non-transitory computer-readable medium comprising computer-readable code that, when executed by a processing device, causes the processing device to perform the CNV detection methods presented herein.
[403] Соответственно, в настоящем документе в одном из вариантов воплощения представлен способ для определения того, присутствует ли однонуклеотидный вариант в наборе геномных позиций в образце от индивидуума, причем способ включает: для каждой геномной позиции получение оценки эффективности и частоты ошибок за цикл для ампликона, охватывающего эту геномную позицию, с использованием набора обучающих данных; получение информации о наблюдаемой идентичности нуклеотидов для каждой геномной позиции в образце; определение набора вероятностей процентного содержания однонуклеотидного варианта в результате одной или более реальных мутаций в каждой геномной позиции путем сравнения наблюдаемой информации об идентичности нуклеотидов в каждой геномной позиции с моделью различных вариантов процентного соотношения с использованием оцененной эффективности амплификации и частоты ошибок по циклам для каждой геномной позиции независимо; и определение наиболее вероятного реального процентного варианта и достоверности из набора вероятностей для каждой геномной позиции.[403] Accordingly, provided herein in one embodiment is a method for determining whether a single nucleotide variant is present at a set of genomic positions in a sample from an individual, the method comprising: for each genomic position, obtaining an estimate of the efficiency and error rate per cycle for the amplicon , covering this genomic position, using the training data set; obtaining information about the observed nucleotide identity for each genomic position in the sample; determining a set of probabilities for the percentage of single nucleotide variants resulting from one or more actual mutations at each genomic position by comparing the observed nucleotide identity information at each genomic position with a model of the various percentage variants using the estimated amplification efficiency and round-robin error rates for each genomic position independently ; and determining the most likely actual percentage variant and confidence from the set of probabilities for each genomic position.
[404] В иллюстративных вариантах воплощения способа для определения наличия однонуклеотидного варианта оценка эффективности и частоты ошибок за цикл генерируются для набора ампликонов, которые охватывают геномную позицию. Например, могут быть включены 2, 3, 4, 5, 10, 15, 20, 25, 50, 100 или более ампликонов, которые охватывают геномную позицию.[404] In exemplary embodiments of a method for determining the presence of a single nucleotide variant, efficiency and per-cycle error rate estimates are generated for a set of amplicons that span a genomic position. For example, 2, 3, 4, 5, 10, 15, 20, 25, 50, 100 or more amplicons that span a genomic position may be included.
[405] В иллюстративных вариантах воплощения способа определения наличия однонуклеотидного варианта наблюдаемая информация об идентичности нуклеотидов содержит наблюдаемое количество полных считываний для каждой геномной позиции и наблюдаемое количество считываний вариантных аллелей для каждой геномной позиции.[405] In exemplary embodiments of a method for determining the presence of a single nucleotide variant, the observed nucleotide identity information comprises an observed number of complete reads for each genomic position and an observed number of variant allele reads for each genomic position.
[406] В иллюстративных вариантах воплощения способа определения наличия однонуклеотидного варианта образец представляет собой образец плазмы, а однонуклеотидный вариант присутствует в циркулирующей опухолевой ДНК образца.[406] In exemplary embodiments of the method for determining the presence of a single nucleotide variant, the sample is a plasma sample and the single nucleotide variant is present in circulating tumor DNA of the sample.
[407] В другом варианте воплощения, представленном в настоящем документе, представлен способ оценки процента однонуклеотидных вариантов, которые присутствуют в образце от индивидуума. Этот способ включает в себя следующие этапы: получение для набора геномных позиций оценки эффективности и частоты ошибок по циклам для одного или более ампликонов, охватывающих эти геномные позиции, с использованием набора обучающих данных; получение наблюдаемой информации об идентичности нуклеотидов для каждой геномной позиции в образце; получение расчетного среднего значения и дисперсии для общего числа молекул, молекул фоновой ошибки и реальных мутантных молекул для пространства поиска, включающего начальный процент реальных мутантных молекул с использованием эффективности амплификации и частоты ошибок ампликонов на цикл; и определение процентного содержания однонуклеотидных вариантов, присутствующих в образце в результате реальных мутаций, путем определения наиболее вероятного реального процентного содержания однонуклеотидного варианта путем подбора распределения с использованием оцененных средних значений и отклонений для наблюдаемой информации об идентичности нуклеотидов в образце.[407] In another embodiment provided herein, a method is provided for estimating the percentage of single nucleotide variants that are present in a sample from an individual. The method includes the following steps: obtaining, for a set of genomic positions, a run-by-cycle efficiency and error rate estimate for one or more amplicons spanning those genomic positions using the training data set; obtaining observable nucleotide identity information for each genomic position in the sample; obtaining a calculated mean and variance for the total number of molecules, background error molecules, and real mutant molecules for a search space including the initial percentage of real mutant molecules using amplification efficiency and amplicon error rates per cycle; and determining the percentage of single nucleotide variants present in the sample as a result of the actual mutations by determining the most likely actual percentage of the single nucleotide variant by fitting a distribution using the estimated means and variances for the observed nucleotide identity information in the sample.
[408] В иллюстративных примерах этого способа для оценки процента однонуклеотидных вариантов, которые присутствуют в образце, образец представляет собой образец плазмы, а однонуклеотидный вариант присутствует в циркулирующей опухолевой ДНК образца.[408] In illustrative examples of this method for estimating the percentage of single nucleotide variants that are present in a sample, the sample is a plasma sample and the single nucleotide variant is present in circulating tumor DNA of the sample.
[409] Набор обучающих данных для этого варианта воплощения изобретения обычно включает образцы от одного здорового индивидуума или, предпочтительно, группы здоровых индивидуумов. В некоторых иллюстративных вариантах воплощения набор обучающих данных анализируется в тот же день или даже в том же цикле, что и один или более исследуемых образцов. Для получения набора обучающих данных, например, могут быть использованы образцы из группы из 2, 3, 4, 5, 10, 15, 20, 25, 30, 36, 48, 96, 100, 192, 200, 250, 500, 1000 или более здоровых индивидуумов. Там, где доступны данные для большего числа здоровых индивидуумов, например, 96 или более, возрастает достоверность для оценок эффективности амплификации, даже если циклы выполняются до выполнения способа на исследуемых образцах. Частота ошибок ПЦР может использовать информацию о последовательности нуклеиновой кислоты, сгенерированную не только для локализации основания с ОНВ, но и для всей амплифицированной области вокруг ОНВ, поскольку частота ошибок рассчитывается на ампликон. Например, используя образцы от 50 индивидуумов и секвенируя ампликон вокруг ОНВ из 20 пар оснований, для определения частоты ошибок можно использовать данные частоты ошибок из 1000 считываний оснований.[409] The training data set for this embodiment typically includes samples from a single healthy individual or, preferably, a group of healthy individuals. In some illustrative embodiments, the training data set is analyzed on the same day, or even in the same cycle, as one or more study samples. To obtain a set of training data, for example, samples from a group of 2, 3, 4, 5, 10, 15, 20, 25, 30, 36, 48, 96, 100, 192, 200, 250, 500, 1000 can be used or healthier individuals. Where data are available from a larger number of healthy individuals, for example 96 or more, confidence in estimates of amplification efficiency increases, even if runs are performed before the method is performed on the test samples. The PCR error rate can make use of the nucleic acid sequence information generated not only for the localization of the base with the ONV, but also for the entire amplified region around the ONV, since the error rate is calculated per amplicon. For example, using samples from 50 individuals and sequencing an amplicon around a 20-bp ONV, error rate data from 1000 base reads can be used to determine error rates.
[410] Обычно эффективность амплификации оценивают путем оценки среднего и стандартного отклонения эффективности амплификации для амплифицированного сегмента, а затем подгоняют его к модели распределения, такой как биномиальное распределение или бета-биномиальное распределение. Частота ошибок определяется для реакции ПЦР с известным числом циклов, а затем оценивается частота ошибок за цикл.[410] Typically, amplification efficiency is estimated by estimating the mean and standard deviation of the amplification efficiency for the amplified segment and then fitting it to a distribution model such as a binomial distribution or a beta-binomial distribution. The error rate is determined for a PCR reaction with a known number of cycles, and the error rate per cycle is then estimated.
[411] В определенных иллюстративных вариантах воплощения оценка начальных молекул набора тестовых данных дополнительно включает в себя обновление оценки эффективности для набора тестовых данных с использованием начального числа молекул, оцененного на этапе (б), если наблюдаемое количество считываний значительно отличается от предполагаемого количества считываний. Затем оценка может быть обновлена для новой эффективности и/или исходных молекул.[411] In certain illustrative embodiments, estimating the initial molecules of the test data set further includes updating the performance estimate for the test data set using the initial number of molecules estimated in step (b) if the observed number of reads differs significantly from the estimated number of reads. The score can then be updated for new potencies and/or parent molecules.
[412] Пространство поиска, используемое для оценки общего числа молекул, молекул фоновой ошибки и молекул реальной мутации, может включать в себя пространство поиска от 0,1, 0,2, 0,25, 0,5, 1, 2,5, 5, 10 , 15, 20 или 25% на нижнем конце и 1, 2, 2,5, 5, 10, 12,5, 15, 20, 25, 50, 75, 90 или 95% на верхнем конце копий оснований в положении ОНВ, являющимся основанием с ОНВ. Нижние диапазоны, 0,1, 0,2, 0,25, 0,5 или 1% на нижнем конце и 1, 2, 2,5, 5, 10, 12,5 или 15% на верхнем конце могут использоваться в иллюстративных примерах для образцов плазмы, где способ обнаруживает циркулирующую опухолевую ДНК. Более высокие диапазоны используются для опухолевых образцов.[412] The search space used to estimate the total number of molecules, background error molecules, and real mutation molecules may include a search space of 0.1, 0.2, 0.25, 0.5, 1, 2.5, 5, 10, 15, 20 or 25% at the lower end and 1, 2, 2.5, 5, 10, 12.5, 15, 20, 25, 50, 75, 90 or 95% at the upper end of the base copies in the provisions of the NDC, which is the basis for the NDC. Lower ranges, 0.1, 0.2, 0.25, 0.5 or 1% at the low end and 1, 2, 2.5, 5, 10, 12.5 or 15% at the high end may be used for illustrative purposes. examples for plasma samples, where the method detects circulating tumor DNA. Higher ranges are used for tumor samples.
[413] Распределение соответствует общему количеству молекул с ошибкой (фоновая ошибка и реальная мутация) в суммарных молекулах для того, чтобы вычислить правдоподобие или вероятность для каждой возможной реальной мутации в пространстве поиска. Это распределение может быть биномиальным или бета-биномиальным.[413] The distribution fits the total number of molecules with error (background error and real mutation) in the total molecules in order to calculate the likelihood or probability for each possible real mutation in the search space. This distribution can be binomial or beta binomial.
[414] Наиболее вероятная реальная мутация определяется путем определения наиболее вероятного процента реальных мутаций и расчета достоверности с использованием данных из подбора распределения. В качестве иллюстративного примера, который не предназначен для ограничения клинической интерпретации способов, представленных в настоящем документе, если средняя частота мутаций высока, то процент достоверности, необходимый для положительного определения ОНВ, ниже. Например, если средняя частота мутаций для ОНВ в образце, использующем наиболее вероятную гипотезу, составляет 5%, а процентная достоверность составляет 99%, то будет выполнено положительное распознавание ОНВ. С другой стороны, для этого иллюстративного примера, если средняя частота мутаций для ОНВ в образце, использующем наиболее вероятную гипотезу, составляет 1%, а процентная достоверность составляет 50%, то в определенных ситуациях положительное распознавание ОНВ не будет проведено. Следует понимать, что клиническая интерпретация данных будет зависеть от чувствительности, специфичности, распространенности и доступности альтернативного продукта.[414] The most likely real mutation is determined by determining the most likely percentage of real mutations and calculating the confidence using data from the fitting distribution. As an illustrative example, and not intended to limit the clinical interpretation of the methods presented herein, if the average mutation rate is high, then the percentage of confidence required to make a positive determination of ONV is lower. For example, if the average mutation rate for an ONV in a sample using the most likely hypothesis is 5% and the percentage confidence is 99%, then a positive ONV recognition will be made. On the other hand, for this illustrative example, if the average mutation rate for a CNV in a sample using the most likely hypothesis is 1% and the percentage confidence is 50%, then in certain situations a positive CNV recognition will not be made. It should be understood that clinical interpretation of the data will depend on the sensitivity, specificity, prevalence, and availability of the alternative product.
[415] В одном иллюстративном варианте воплощения образец представляет собой образец циркулирующей ДНК, такой как образец циркулирующей опухолевой ДНК.[415] In one illustrative embodiment, the sample is a sample of circulating DNA, such as a sample of circulating tumor DNA.
[416] В другом варианте воплощения в настоящем документе представлен способ обнаружения одного или более однонуклеотидных вариантов в тестируемом образце от индивидуума. Способ, согласно этому варианту воплощения, включает в себя следующие этапы:[416] In another embodiment, provided herein is a method for detecting one or more single nucleotide variants in a test sample from an individual. The method according to this embodiment includes the following steps:
[417] Определение медианной частоты вариантного аллеля для множества контрольных образцов от каждого из множества нормальных индивидуумов, для каждой позиции однонуклеотидного варианта в наборе позиций однонуклеотидной вариации на основе результатов, полученных в цикле секвенирования для того, чтобы идентифицировать выбранные позиции однонуклеотидного варианта, имеющие медианные частоты вариантных аллелей в нормальных образцах ниже порогового значения, и определить фоновую ошибку для каждого из положений однонуклеотидного варианта после удаления образцов с выбросами для каждой из позиций однонуклеотидного варианта; определение наблюдаемой глубины считанного взвешенного среднего значения и дисперсии для выбранных позиций однонуклеотидного варианта для тестового образца на основе данных, сгенерированных в ходе секвенирования для тестируемого образца; и выявление с помощью компьютера одной или более позиций однонуклеотидного варианта со статистически значимой глубиной считанного взвешенного среднего значения по сравнению с фоновой ошибкой для этой позиции, тем самым обнаруживая один или более однонуклеотидных вариантов.[417] Determining the median variant allele frequency for a plurality of control samples from each of a plurality of normal individuals, for each single nucleotide variant position in a set of single nucleotide variation positions, based on the results obtained in a sequencing run to identify selected single nucleotide variant positions having median frequencies variant alleles in normal samples below the threshold, and determine the background error for each of the positions of the single-nucleotide variant after removing samples with outliers for each of the positions of the single-nucleotide variant; determining the observed depth of the read weighted mean and variance for selected single nucleotide variant positions for the test sample based on the data generated during sequencing for the test sample; and computer-assisted detection of one or more single nucleotide variant positions with a statistically significant weighted average read depth compared to the background error for that position, thereby detecting the one or more single nucleotide variants.
[418] В некоторых вариантах воплощения этого способа выявления одного или более ОНВ образец представляет собой образец плазмы, контрольные образцы представляют собой образцы плазмы, а обнаруженный один или более однонуклеотидных вариантов присутствуют в циркулирующей опухолевой ДНК образца. В некоторых вариантах воплощения этого способа для обнаружения одного или более ОНВ множество контрольных образцов включает по меньшей мере 25 образцов. В определенных иллюстративных вариантах воплощения множество контрольных образцов составляет по меньшей мере 5, 10, 15, 20, 25, 50, 75, 100, 200 или 250 образцов на нижнем конце и 10, 15, 20, 25, 50, 75, 100, 200, 250, 500 и 1000 образцов на верхнем конце.[418] In some embodiments of this method of detecting one or more CNVs, the sample is a plasma sample, the control samples are plasma samples, and the detected one or more single nucleotide variants are present in circulating tumor DNA of the sample. In some embodiments of this method for detecting one or more CNVs, the set of control samples includes at least 25 samples. In certain illustrative embodiments, the plurality of control samples is at least 5, 10, 15, 20, 25, 50, 75, 100, 200, or 250 samples at the low end and 10, 15, 20, 25, 50, 75, 100, 200, 250, 500 and 1000 samples at the high end.
[419] В некоторых вариантах воплощения этого способа для обнаружения одного или более ОНВ выбросы удаляются из данных, сгенерированных в цикле высокопроизводительного секвенирования, для вычисления наблюдаемой глубины считанного взвешенного среднего и определения наблюдаемой дисперсии. В некоторых вариантах воплощения этого способа для обнаружения одного или более ОНВ глубина считывания для каждого положения однонуклеотидного варианта для тестируемого образца составляет по меньшей мере 100 считываний.[419] In some embodiments of this method for detecting one or more CNVs, outliers are removed from the data generated in the high-throughput sequencing run to calculate the observed depth of the weighted average read and determine the observed variance. In some embodiments of this method for detecting one or more SNVs, the read depth for each single nucleotide variant position for the test sample is at least 100 reads.
[420] В некоторых вариантах воплощения этого способа для обнаружения одного или более ОНВ цикл секвенирования включает реакцию мультиплексной амплификации, проводимую в условиях реакции ограниченного праймера. Для выполнения этих вариантов воплощения в иллюстративных примерах используются усовершенствованные способы выполнения реакций мультиплексной амплификации, представленные в настоящем документе.[420] In some embodiments of this method, to detect one or more CNVs, the sequencing cycle includes a multiplex amplification reaction conducted under limited primer reaction conditions. To perform these embodiments, the illustrative examples utilize the improved methods for performing multiplex amplification reactions presented herein.
[421] Не ограничиваясь теорией, способы по настоящему варианту воплощения используют модель фоновой ошибки с использованием нормальных образцов плазмы, которые секвенируются при том же цикле секвенирования, что и тестируемый образец, для учета артефактов, специфических для цикла. Помехонасыщенные позиции с нормальными медианными частотами вариантного аллеля выше порога, например более 0,1, 0,2, 0,25, 0,5, 0,75 и 1,0%, удаляются.[421] Without being limited by theory, the methods of the present embodiment utilize a background error model using normal plasma samples that are sequenced in the same sequencing run as the test sample to account for run-specific artifacts. Noise-rich positions with normal median variant allele frequencies above a threshold, such as greater than 0.1, 0.2, 0.25, 0.5, 0.75, and 1.0%, are removed.
[422] Образцы с выбросами итерационно извлекаются из модели для учета шума и загрязнения. Для каждой замены основания каждого геномного локуса вычисляется глубина считывания взвешенного среднего значения глубины и стандартное отклонение ошибки. В определенных иллюстративных вариантах воплощения образцы, такие как образцы опухоли или бесклеточной плазмы, с положениями однонуклеотидного варианта с по меньшей мере пороговым числом считываний, например по меньшей мере 2, 3, 4, 5, 6, 7, 8, 9 10, 15, 20, 25, 50, 100, 250, 500 или 1000 считываний вариантов и a1 Z-показателем, превышающим 2,5, 5, 7,5 или 10 по сравнению с моделью фоновой ошибки в некоторых вариантах воплощения, считаются мутацией-кандидатом.[422] Outlier samples are iteratively extracted from the model to account for noise and contamination. For each base substitution of each genomic locus, the depth-weighted mean read depth and error standard deviation are calculated. In certain illustrative embodiments, samples, such as tumor or cell-free plasma samples, with single nucleotide variant positions with at least a threshold number of reads, such as at least 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 50, 100, 250, 500, or 1000 variant reads and an a1 Z-score greater than 2.5, 5, 7.5, or 10 compared to the background error model in some embodiments are considered a candidate mutation.
[423] В некоторых вариантах воплощения глубина считывания более 100, 250, 500, 1000, 2000, 2500, 5000, 10000, 20000, 250000, 50000 или 100000 в нижнем конце диапазона и 2000, 2500, 5000, 7500, 10000, 25000, 50000, 100000, 250000 или 500000 считываний в верхнем конце достигается в цикле секвенирования для каждой позиции однонуклеотидного варианта в наборе позиций однонуклеотидного варианта. Как правило, секвенирование - это высокопроизводительное секвенирование. Средние или медианные значения, сгенерированные для исследуемых образцов, в иллюстративных вариантах воплощения взвешиваются по глубине считывания. Следовательно, вероятность того, что определение вариантного аллеля является действительным в образце с 1 вариантным аллелем, обнаруженным в 1000 считываниях, взвешивается выше, чем в образце с 1 вариантным аллелем, обнаруженным в 10000 считываниях. Поскольку определения вариантного аллеля (то есть мутации) не выполняются со 100%-ной достоверностью, идентифицированный однонуклеотидный вариант можно считать вариантом-кандидатом или мутациями-кандидатами.[423] In some embodiments, read depths greater than 100, 250, 500, 1000, 2000, 2500, 5000, 10000, 20000, 250000, 50000, or 100000 at the low end of the range and 2000, 2500, 5000, 7500, 10 000, 25000, 50,000, 100,000, 250,000, or 500,000 top end reads are achieved per sequencing run for each single nucleotide variant position in a set of single nucleotide variant positions. Generally, sequencing is high-throughput sequencing. The average or median values generated for the test samples are, in exemplary embodiments, weighted by read depth. Therefore, the probability that a variant allele determination is valid in a sample with 1 variant allele detected in 1000 reads is weighted higher than in a sample with 1 variant allele detected in 10,000 reads. Because variant allele (i.e., mutation) determinations are not made with 100% confidence, the identified single nucleotide variant can be considered a candidate variant or candidate mutations.
[424] Примерная тестовая статистика для анализа фазированных данных [424] Example test statistics for phased data analysis
[425] Ниже описывается примерная критериальная статистика для анализа фазированных данных из образца, известного или предположительно являющегося смешанным образцом, содержащим ДНК или РНК, которые получены из двух или более клеток, которые не являются генетически идентичными. Пусть f обозначает фракцию ДНК или РНК, представляющую интерес, например, фракцию ДНК или РНК с ВЧК, представляющую интерес, или фракцию ДНК или РНК из представляющих интерес клеток, таких как раковые клетки. В некоторых вариантах воплощения для тестирования рака f обозначает фракцию ДНК или РНК из раковых клеток в смеси раковых и нормальных клеток, или f обозначает долю раковых клеток в смеси раковых и нормальных клеток. Обратите внимание, что это относится к фракции ДНК из представляющих интерес клеток, при условии, что каждая из представляющих интерес клетка дает две копии ДНК. Это отличается от фракции ДНК от представляющих интерес клеток в сегменте, который подвергается делеции или дупликации.[425] The following describes exemplary test statistics for the analysis of phased data from a sample known or suspected to be a mixed sample containing DNA or RNA that is derived from two or more cells that are not genetically identical. Let f denote the DNA or RNA fraction of interest, for example, the DNA or RNA fraction from ICH of interest, or the DNA or RNA fraction from cells of interest, such as cancer cells. In some embodiments, for cancer testing, f is the fraction of DNA or RNA from cancer cells in a mixture of cancer and normal cells, or f is the fraction of cancer cells in a mixture of cancer and normal cells. Note that this refers to a fraction of DNA from the cells of interest, provided that each cell of interest produces two copies of DNA. This is distinct from the fraction of DNA from the cells of interest in the segment that undergoes deletion or duplication.
[426] Возможные значения аллелей каждого ОНП обозначены A и B. AA, AB, BA и BB используются для обозначения всех возможных упорядоченных пар аллелей. В некоторых вариантах воплощения предоставляются ОНП с упорядоченными аллелями AB или BA. Пусть N i обозначает число считываний последовательности i-го ОНП и обозначим А i и В i число считываний i-го ОНП, которые обозначают, соответственно, аллель A и B. Предполагается, что:[426] The possible allele values for each SNP are designated A and B. AA, AB, BA, and BB are used to designate all possible ordered pairs of alleles. In some embodiments, SNPs with ordered AB or BA alleles are provided. Let N i denote the number of sequence reads of the i-th SNP and let A i and B i denote the number of reads of the i-th SNP, which denote, respectively, allele A and B. It is assumed that:
[427] .[427] .
[428] Соотношение аллелей R i определяется как:[428] The ratio of alleles R i is defined as:
[429] [429]
[430] Пусть Т обозначает количество целевых ОНП.[430] Let T denote the number of target SNPs.
[431] Без потери универсального характера, некоторые варианты воплощения фокусируются на одном хромосомном сегменте. Для большей ясности в данном описании выражение «первый гомологичный сегмент хромосомы по сравнению со вторым гомологичным сегментом хромосомы» означает первый гомолог сегмента хромосомы и второй гомолог сегмента хромосомы. В некоторых таких вариантах воплощения все целевые ОНП содержатся в представляющем интерес сегменте хромосомы. В других вариантах воплощения множественные сегменты хромосомы анализируют на возможные вариации числа копий.[431] Without loss of universality, some embodiments focus on a single chromosomal segment. For clarity, in this specification, the expression “a first homologous chromosome segment versus a second homologous chromosome segment” means a first homologous chromosome segment and a second homologous chromosome segment. In some such embodiments, all of the target SNPs are contained in the chromosome segment of interest. In other embodiments, multiple segments of a chromosome are analyzed for possible copy number variations.
[432] Оценка апостериорного максимума (МАР) [432] Estimation of maximum a posteriori (MAP)
и
[433] Этот способ использует знание фазирования через упорядоченные аллели, чтобы обнаружить делецию или дупликацию целевого сегмента. Для каждого ОНП i определите
And
[433] This method uses knowledge of phasing across ordered alleles to detect deletion or duplication of a target segment. For each SNP i, determine
и
и
и
[434]
And
And
And
[434]
[435] Затем определите[435] Then determine
Все SNP
[436]
All SNPs
[436]
[437] Распределения Х i и S согласно различным гипотезам числа копий (таким как гипотезы о дисомии, делеции первого или второго гомолога или дупликации первого или второго гомолога) описаны ниже.[437] The distributions of Xi and S under various copy number hypotheses (such as disomy, first or second homolog deletions, or first or second homolog duplications) are described below.
[438] Гипотеза дисомии [438] Disomy hypothesis
[439] Согласно этой гипотезы целевой сегмент не подвергается делеции или дупликации.[439] According to this hypothesis, the target segment does not undergo deletion or duplication.
[440][440]
[441] [441]
[442] где[442] where
[443] [443]
[444] Если мы предполагаем постоянную глубину считывания N, это дает нам биномиальное распределение S с параметрами[444] If we assume a constant read depth N , this gives us a binomial distribution S with parameters
[445] и T.[445] and T.
[446] Гипотезы делеции [446] Deletion hypotheses
[447] Согласно этой гипотезы первый гомолог подвергается делеции (то есть, AB ОНП становится B, а BA ОНП становится A), тогда R i имеет биномиальное распределение с параметрами и T для AB ОНП, и и T для BA ОНП. Следовательно,[447] According to this hypothesis, the first homologue undergoes a deletion (that is, the AB SNP becomes B and the BA SNP becomes A), then R i has a binomial distribution with the parameters and T for AB SNP, and and T for BA SNP. Hence,
[448] [448]
[449] Если предположить постоянную глубину считывания N, это дает биномиальное распределение S с параметрами[449] Assuming a constant read depth N , this gives a binomial distribution S with parameters
[450] и T.[450] and T.
[451] Согласно этой гипотезы второй гомолог подвергается делеции (то есть, AB ОНП становится A, и BA ОНП становится B), тогда R i имеет биномиальное распределение с параметрами и T для AB ОНП, и и T для BA ОНП. Следовательно,[451] According to this hypothesis, the second homologue undergoes a deletion (that is, the AB SNP becomes A, and the BA SNP becomes B), then R i has a binomial distribution with the parameters and T for AB SNP, and and T for BA SNP. Hence,
[452] [452]
[453] Если предположить постоянную глубину считывания N, это дает биномиальное распределение S с параметрами[453] Assuming a constant read depth N , this gives a binomial distribution S with parameters
[454] и T.[454] and T.
[455] Гипотезы дупликации [455] Duplication hypotheses
[456] Согласно этой гипотезы первый гомолог подвергается дупликации (то есть, AB ОНП становится AAB, и BA ОНП становится BBA), тогда R i имеет биномиальное распределение с параметрами и T для AB ОНП, и и T для BA ОНП. Следовательно,[456] According to this hypothesis, the first homolog undergoes duplication (that is, the AB SNP becomes AAB, and the BA SNP becomes BBA), then R i has a binomial distribution with the parameters and T for AB SNP, and and T for BA SNP. Hence,
[457] [457]
[458] Если предположить постоянную глубину считывания N, это дает биномиальное распределение S с параметрами[458] Assuming a constant read depth N , this gives a binomial distribution S with parameters
[459] и T.[459] and T.
[460] Согласно этой гипотезы второй гомолог подвергается дупликации (то есть, AB ОНП становится ABB, и BA ОНП становится BAA), тогда R i имеет биномиальное распределение с параметрами и T для AB ОНП, и и T для BA ОНП. Следовательно,[460] According to this hypothesis, the second homolog undergoes duplication (that is, the AB SNP becomes ABB, and the BA SNP becomes BAA), then R i has a binomial distribution with the parameters and T for AB SNP, and and T for BA SNP. Hence,
[462] Если предположить постоянную глубину считывания N, это дает биномиальное распределение S с параметрами[462] Assuming a constant read depth N , this gives a binomial distribution S with parameters
[463] и T.[463] and T.
[464] Классификация [464] Classification
[465] Как показано в разделах выше, Х i , является бинарной случайной величиной с[465] As shown in the sections above, Xi , is a binary random variable with
[466][466]
[467] Это позволяет рассчитать вероятность тестовой статистики S по каждой гипотезе. Может быть рассчитана вероятность каждой гипотезы с учетом измеренных данных. В некоторых вариантах воплощения заявлена гипотеза с наибольшей вероятностью. При необходимости распределение на S может быть упрощено либо путем аппроксимации каждого N i , с постоянной глубиной охвата N, либо путем усечения глубины считываний до константы N. Это упрощение дает[467] This allows the probability of the test statistic S to be calculated for each hypothesis. The probability of each hypothesis given the measured data can be calculated. In some embodiments, the hypothesis with the highest probability is stated. If necessary, the distribution on S can be simplified either by approximating each N i , with a constant coverage depth N , or by truncating the read depth to a constant N . This simplification gives
[468][468]
[469] Значение для f может быть оценено путем выбора наиболее вероятного значения f с учетом измеренных данных, такого как значение f, которое генерирует наилучшее соответствие данных с использованием алгоритма (например, алгоритма поиска), такого как оценка максимального правдоподобия, максимальная апостериорная оценка или байесовская оценка. В некоторых вариантах воплощения анализируется несколько сегментов хромосомы, и значение f оценивается на основе данных для каждого сегмента. Если все клетки-мишени имеют эти дупликации или делеции, оцененные значения для f на основе данных для этих различных сегментов являются аналогичными. В некоторых вариантах воплощения f измеряется экспериментально, например, путем определения фракции ДНК или РНК из раковых клеток на основе различий в метилировании (гипометилирование или гиперметилирование) между раковой и нераковой ДНК или РНК.[469] The value for f can be estimated by selecting the most likely value of f given the measured data, such as the value of f that generates the best fit to the data using an algorithm (e.g., a search algorithm) such as maximum likelihood estimation, maximum posterior estimation, or Bayesian estimation. In some embodiments, multiple chromosome segments are analyzed and the value of f is estimated based on the data for each segment. If all target cells have these duplications or deletions, the estimated values for f based on the data for these different segments are similar. In some embodiments, f is measured experimentally, for example, by determining the fraction of DNA or RNA from cancer cells based on differences in methylation (hypomethylation or hypermethylation) between cancer and noncancerous DNA or RNA.
[470] Непринятие единичной гипотезы [470] Failure to accept a single hypothesis
[471] Распределение S для гипотезы о дисомии не зависит от f. Таким образом, вероятность измеренных данных может быть рассчитана для гипотезы дисомии без расчета f. Для нулевой гипотезы дисомии может использоватьься тест непринятия единичной гипотезы. В некоторых вариантах воплощения вычисляется вероятность S гипотезы дисомии, и гипотеза дисомии отклоняется, если вероятность ниже заданного порогового значения (например, менее 1 на 1000). Это указывает на наличие дупликации или делеции хромосомного сегмента. При необходимости, уровень ложноположительных результатов можно изменить, отрегулировав пороговое значение.[471] The distribution of S for the disomy hypothesis is independent of f . Thus, the probability of the measured data can be calculated for the disomy hypothesis without calculating f . For the null hypothesis of disomy, a single hypothesis rejection test can be used. In some embodiments, the probability S of the disomy hypothesis is calculated, and the disomy hypothesis is rejected if the probability is below a predetermined threshold (eg, less than 1 in 1000). This indicates the presence of a duplication or deletion of a chromosomal segment. If necessary, the false positive rate can be changed by adjusting the threshold value.
[472] Примерные способы анализа фазированных данных [472] Example Methods for Analyzing Phased Data
[473] Примерные способы описаны ниже для анализа данных из образца, о котором известно или предполагается, что он является смешанным образцом, содержащим ДНК или РНК, которые получены из двух или более клеток, которые не являются генетически идентичными. В некоторых вариантах воплощения используются фазированные данные. В некоторых вариантах воплощения для каждого рассчитанного соотношения аллелей способ включает определение того, является ли рассчитанное соотношение аллелей выше или ниже ожидаемого соотношения аллелей и величины различия для конкретного локуса. В некоторых вариантах воплощения определяется вероятное распределение для соотношения аллелей в локусе для конкретной гипотезы, и чем ближе рассчитанное соотношение аллелей к центру вероятного распределения, тем большая вероятность того, что гипотеза верна. В некоторых вариантах воплощения способ включает определение вероятности того, что гипотеза верна для каждого локуса. В некоторых вариантах воплощения способ включает определение вероятности того, что гипотеза верна для каждого локуса, и, объединение вероятностей этой гипотезы для каждого локуса, и выбирается гипотеза с наибольшей суммарной вероятностью. В некоторых вариантах воплощения способ включает определение вероятности того, что гипотеза верна для каждого локуса и для каждого возможного отношения ДНК или РНК из одной или более клеток-мишеней к общей ДНК или РНК в образце. В некоторых вариантах воплощения объединенная вероятность для каждой гипотезы определяется путем объединения вероятностей этой гипотезы для каждого локуса и каждого возможного отношения, и выбирается гипотеза с наибольшей объединенной вероятностью.[473] Exemplary methods are described below for analyzing data from a sample that is known or suspected to be a mixed sample containing DNA or RNA that is derived from two or more cells that are not genetically identical. In some embodiments, phased data is used. In some embodiments, for each calculated allele ratio, the method includes determining whether the calculated allele ratio is higher or lower than the expected allele ratio and the magnitude of the difference for a particular locus. In some embodiments, a probable distribution is determined for the ratio of alleles at a locus for a particular hypothesis, and the closer the calculated ratio of alleles is to the center of the probable distribution, the greater the likelihood that the hypothesis is true. In some embodiments, the method includes determining the probability that the hypothesis is true for each locus. In some embodiments, the method includes determining the probability that a hypothesis is true for each locus, and combining the probabilities of that hypothesis for each locus, and selecting the hypothesis with the highest combined probability. In some embodiments, the method includes determining the probability that the hypothesis is true for each locus and for each possible ratio of DNA or RNA from one or more target cells to the total DNA or RNA in the sample. In some embodiments, a joint probability for each hypothesis is determined by combining the probabilities of that hypothesis for each locus and each possible relationship, and the hypothesis with the highest combined probability is selected.
[474] В одном варианте воплощения рассматриваются следующие гипотезы: H 11 (все клетки нормальные), H 10 (наличие клеток с единственным гомологом 1, следовательно, с делецией гомолога 2), H 01 (наличие клеток с единственным гомологом 2, следовательно, с делецией гомолога 1), H 21 (наличие клеток с дупликацией гомолога 1), H 12 (наличие клеток с дупликацией гомолога 2). Для фракции f клеток-мишеней, таких, как раковые клетки или мозаичные клетки (или фракции ДНК или РНК из клеток-мишеней), ожидаемое соотношение аллелей для гетерозиготных (AB или BA) ОНП можно найти следующим образом:[474] In one embodiment, the following hypotheses are considered: H 11 (all cells are normal), H 10 (presence of cells with a single homolog 1, therefore with deletion of homolog 2), H 01 (presence of cells with a single homologue 2, therefore with deletion of homologue 1), H 21 (presence of cells with duplication of homologue 1), H 12 (presence of cells with duplication of homologue 2). For fraction f of target cells, such as cancer cells or mosaic cells (or fractions of DNA or RNA from target cells), the expected allele ratio for heterozygous ( AB or BA ) SNPs can be found as follows:
[475] Уравнение (1): [475] Equation (1):
[476] [476]
[477] Исправление ошибок смещения, загрязнения и секвенирования: [477] Fix offset, contamination and sequencing errors:
[478] Наблюдение D s в ОНП состоит из ряда оригинальных картированных считываний с присутствием каждой аллели, n A 0 и n B 0 . Затем мы можем найти исправленные считывания n A и n B , используя ожидаемое смещение амплификации аллелей A и B.[478] An observation of D s in an SNP consists of a number of original mapped reads with the presence of each allele, n A 0 and n B 0 . We can then find the corrected reads n A and n B using the expected amplification bias of the A and B alleles.
[479] Пусть c a обозначает загрязнение окружающей средой (например, загрязнение ДНК в воздухе или окружающей среде) и r(c a ) обозначает отношение аллелей для загрязнителя окружающей среды (которое изначально принимается равным 0,5). Более того, c g обозначает степень загрязнения генотипом (например, степень загрязнения из другого образца), и r(c g ) является соотношением аллелей для загрязнителя. Пусть s e (A,B) и s e (B,A) обозначают ошибки секвенирования для распознавания одного аллеля другим аллелем (например, ошибочным обнаружением аллеля A, когда присутствует аллель B).[479] Let c a denote environmental contamination (eg, DNA contamination in the air or environment) and r(c a ) denote the allele ratio for an environmental contaminant (which is initially assumed to be 0.5). Moreover, c g denotes the degree of contamination by genotype (eg, the degree of contamination from another sample), and r(c g ) is the allele ratio for the contaminant. Let s e (A,B) and s e (B,A) denote sequencing errors for the recognition of one allele by another allele (for example, the erroneous detection of allele A when allele B is present).
[480] Можно найти наблюдаемое соотношение аллелей q(r, c a , r(c a ) , c g , r(c g ), s e (A,B), s e (B,A)) для данного ожидаемого соотношения аллелей r путем корректировки на загрязнение окружающей средой, загрязнение генотипом и ошибку секвенирования.[480] It is possible to find the observed ratio of alleles q(r, c a , r(c a ), c g , r(c g ), s e (A,B), s e (B,A)) for a given expected ratio r alleles by adjusting for environmental contamination, genotype contamination, and sequencing error.
[481] Поскольку генотипы загрязняющих веществ неизвестны, чтобы найти P(r(c g )), можно найти популяционные частоты. Более конкретно, пусть p будет популяционной частотой для одного из аллелей (который может упоминаться как референтный аллель). Затем, мы имеем P(r(c g ) = 0) = (1-p) 2 , P(r(c g ) = 0) = 2p(1-p), и P(r(cg) = 0) =p 2 . Условно ожидаемую величину свыше r(c g ) можно использовать для определения E [q(r, c a , r(c a ) , c g , r(c g ), s e (A,B), s e (B,A))] . Обратите внимание, что загрязнение окружающей средой и генотипом определяется с помощью гомозиготных ОНП, поэтому на них не влияет отсутствие или наличие делеций или дупликаций. Кроме того, при необходимости, можно измерить загрязнение окружающей средой и генотипом, используя контрольную хромосому.[481] Since the genotypes of the pollutants are unknown, population frequencies can be found to find P(r(c g )) . More specifically, let p be the population frequency for one of the alleles (which may be referred to as the reference allele). Then, we have P(r(c g ) = 0) = (1-p) 2 , P(r(c g ) = 0) = 2p(1-p) , and P(r(cg) = 0) =p 2 . The conditionally expected value above r(c g ) can be used to determine E [q(r, c a , r(c a ) , c g , r(c g ), s e (A,B), s e (B, A)) ] . Note that environmental and genotype contaminants are determined using homozygous SNPs and are therefore not affected by the absence or presence of deletions or duplications. In addition, if necessary, environmental and genotype contamination can be measured using a reference chromosome.
[482] Правдоподобие при каждой ОНП: [482] Plausibility for each SNP:
[483] Уравнение ниже дает вероятность наблюдения n A и n B при соотношении аллелей r:[483] The equation below gives the probability of observing n A and n B given the allele ratio r :
[484] Уравнение (2): [484] Equation (2):
[485] [485]
[486] Пусть D s обозначает данные для ОНП. Для каждой гипотезы h ϵ { H 11 , H 01 , H 10 , H 21 , H 12 }, можно представить r=r(AB,h) или r=r(BA,h) в уравнении (1) и найти условно ожидаемую величину свыше r(c g ) для определения наблюдаемого соотношения аллелей E [q(r, c a , r(c a ) , c g , r(c g )) ]. Затем, полагая r= E [q(r, c a , r(c a ) , c g , r(c g ), s e (A,B), s e (B,A)) ] в уравнении (2) можно определить P(D s |h,f). [486] Let D s denote the data for the SNP . For each hypothesis h ϵ { H 11 , H 01 , H 10 , H 21 , H 12 }, you can represent r=r(AB,h) or r=r(BA,h) in equation (1) and find the conditionally expected a value greater than r(c g ) to determine the observed allele ratio E [q(r, c a , r(c a ) , c g , r(c g )) ]. Then, setting r= E [q(r, c a , r(c a ) , c g , r(c g ), s e (A,B), s e (B,A)) ] in equation (2 ) we can define P(D s |h,f).
[487] Алгоритм поиска: [487] Search algorithm:
[488] В некоторых вариантах воплощения ОНП с соотношениями аллелей, которые кажутся выбросами, игнорируются (например, путем игнорирования или исключения ОНП с соотношениями аллелей, которые по меньшей мере на 2 или 3 стандартных отклонения выше или ниже среднего значения). Обратите внимание, что преимущество, выявленное для этого подхода, заключается в том, что при наличии более высокого процента мозаицизма изменчивость соотношений аллелей может быть высокой, следовательно, это гарантирует, что ОНП не будут обрезаны из-за мозаицизма.[488] In some embodiments, SNPs with allele ratios that appear to be outliers are ignored (eg, by ignoring or excluding SNPs with allele ratios that are at least 2 or 3 standard deviations above or below the mean). Note that the benefit identified for this approach is that when there is a higher percentage of mosaicism, the variability in allele ratios can be high, hence ensuring that SNPs are not truncated due to mosaicism.
[489] Пусть F = {f 1 , …., f N } означает пространство поиска для процента мозаицизма (такого, как опухолевая фракция). Можно определить P(D s |h,f) в каждой ОНП s и f ϵ F и объединить вероятность для всех ОНП.[489] Let F = {f 1 , ...., f N } denote the search space for the percentage of mosaicism (such as tumor fraction). We can define P(D s |h,f) in each SNP s and f ϵ F and combine the probability for all SNPs.
[490] Алгоритм перебирает каждый f для каждой гипотезы. Используя способ поиска, можно заключить, что мозаицизм существует, если существует диапазон F* от показателей f, где достоверность гипотезы делеции или дупликации выше, чем достоверность гипотез отсутствия удаления и отсутствия дупликации. В некоторых вариантах воплощения определяется оценка максимального правдоподобия для P(D s |h,f) в F*. При необходимости можно определить условно ожидаемую величину f ϵ F*. При необходимости для каждой гипотезы может быть определена достоверность.[490] The algorithm tries each f for each hypothesis. Using the search method, we can conclude that mosaicism exists if there is a range of F* from f scores where the confidence of the deletion or duplication hypothesis is higher than the confidence of the no-deletion and no-duplication hypotheses. In some embodiments, a maximum likelihood estimate for P(D s |h,f) in F * is determined. If necessary, you can determine the conditionally expected value f ϵ F *. If necessary, confidence can be determined for each hypothesis.
[491] В некоторых вариантах воплощения вместо биномиального распределения используется бета-биномиальное распределение. В некоторых вариантах воплощения для определения в образце специфических параметров бета-бинома используется референтная хромосома или хромосомный сегмент.[491] In some embodiments, a beta binomial distribution is used instead of a binomial distribution. In some embodiments, a reference chromosome or chromosomal segment is used to determine specific beta binomial parameters in a sample.
[492] Теоретические характеристики при использовании имитаций: [492] Theoretical characteristics when using simulations:
[493] При необходимости можно оценить теоретические характеристики алгоритма путем случайного присвоения количества рефернтных считываний ОНП с заданной глубиной считывания (DOR). Для нормального случая используйте p = 0,5 для биномиального параметра вероятности, а для делеций или дупликаций, соответственно, p пересматривается. Примерные входные параметры для каждой имитации следующие: (1) количество S ОНП (2) константа DOR D на ОНП, (3) p и (4) количество экспериментов.[493] If necessary, the theoretical performance of an algorithm can be assessed by randomly assigning the number of SNP reference reads to a given read depth (DOR). For the normal case, use p = 0.5 for the binomial probability parameter, and for deletions or duplications, respectively, p is revised. The approximate input parameters for each simulation are: (1) the number S of SNPs (2) the DOR constant D per SNP, (3) p and (4) the number of experiments.
[494] Первый имитационный эксперимент: [494] First simulation experiment:
[495] Данный эксперимент был сосредоточен на S ϵ {500, 1000}, D ϵ {500, 1000} и p ϵ {0%, 1%, 2%, 3%, 4%, 5%}. Мы провели 1000 имитационных экспериментов в каждой настройке (отсюда 24000 экспериментов с фазой и 24000 без фазы). Мы имитировали количество считываний из биномиального распределения (при необходимости могут использоваться другие распределения). Определяли частоту ложноположительных (в случае p=0%) и ложноотрицательных (в случае p>0%) результатов как с информацией о фазе, так и без нее. Примите к сведению, что информация о фазе очень полезна, особенно для S=1000, D = 1000. Однако для S=500, D=500 данный алгоритм имеет наивысший уровень ложноположительных результатов, как с фазой, так и без фазы, независимо от исследуемых условий.[495] This experiment focused on S ϵ {500, 1000}, D ϵ {500, 1000} and p ϵ {0%, 1%, 2%, 3%, 4%, 5%}. We ran 1000 simulation experiments in each setting (hence 24,000 experiments with phase and 24,000 without phase). We simulated the number of reads from a binomial distribution (other distributions can be used if necessary). The frequency of false positive (in the case of p=0% ) and false negative (in the case of p>0% ) results was determined both with and without phase information. Please note that phase information is very useful, especially for S=1000, D=1000 . However, for S=500, D=500, this algorithm has the highest false positive rate, both with and without phase, regardless of the conditions tested.
[496] Информация о фазах особенно полезна для низких процентов мозаицизма (≤ 3%). Без информации о фазе высокий уровень ложноотрицательных результатов наблюдался для p=1%, поскольку достоверность при делеции определяется путем присвоения равных шансов H 10 и H 01 , а небольшого отклонения в пользу одной гипотезы недостаточно, чтобы компенсировать низкое правдоподобие другой гипотезы. Это относится и к дупликациям. Отметим также, что алгоритм кажется более чувствительным к глубине считывания по сравнению с количеством ОНП. Для результатов с информацией о фазе мы предполагаем, что точная информация о фазе доступна для большого числа последовательных гетерозиготных ОНП. При необходимости информацию о гаплотипах можно получить путем вероятностного комбинирования гаплотипов на меньших сегментах.[496] Phase information is especially useful for low percentages of mosaicism (≤ 3% ). Without phase information , a high false-negative rate was observed for p=1% because confidence in a deletion is determined by assigning equal odds to H 10 and H 01 , and a small bias in favor of one hypothesis is not enough to compensate for the low likelihood of the other hypothesis. This also applies to duplications. We also note that the algorithm seems to be more sensitive to read depth compared to the number of SNPs. For results with phase information, we assume that accurate phase information is available for a large number of consecutive heterozygous SNPs. If necessary, haplotype information can be obtained by probabilistically combining haplotypes on smaller segments.
[497] Второй имитационный эксперимент: [497] Second simulation experiment:
[498] Данный эксперимент был сосредоточен на S ϵ {100, 200, 300, 400, 500}, D ϵ {1000, 2000, 3000, 4000, 5000} и p ϵ {0, 1,1, 5, 2, 2,5, 3%} и 10000 случайных экспериментов при каждой настройке. Частота ложноположительных результатов (в слечае p = 0%) и ложноотрицательных результатов (в случае p больше 0%) определялась как с информацией о фазе, так и без нее. Частота ложноотрицательных результатов была 10% для D ≥ 3000 и N ≥ 200 с применением информации о гаплотипe, тогда как та же эффективность достигается для D=5000 и N≥400. Разница между частотой ложноотрицательных результатов была особенно заметна для малых процентов мозаицизма. Например, когда p=1%, частота ложноотрицательных результатов менее 20% никогда не достигается без данных о гаплотипе, тогда как он близок к 0% для N ≥ 300 и D ≥ 3000. Для p=3% частота 0% ложноотрицательных результатов наблюдается с данными гаплотипа, в то время как достижения той же производительности без данных гаплотипа необходимы N≥300 и D≥3000.[498] This experiment focused on S ϵ {100, 200, 300, 400, 500}, D ϵ {1000, 2000, 3000, 4000, 5000} and p ϵ {0, 1,1, 5, 2, 2 ,5, 3%} and 10,000 random experiments at each setting. The rate of false positive results (in the case of p = 0%) and false negative results (in the case of p greater than 0% ) was determined both with and without phase information. The false negative rate was 10% for D ≥ 3000 and N ≥ 200 using haplotype information, while the same performance was achieved for D = 5000 and N ≥ 400 . The difference between false-negative rates was particularly noticeable for small percentages of mosaicism. For example, when p=1%, a false negative rate of less than 20% is never achieved without haplotype data, whereas it is close to 0% for N ≥ 300 and D ≥ 3000 . For p=3%, a 0% false negative rate is observed with haplotype data, while achieving the same performance without haplotype data requires N≥300 and D≥3000 .
[499] Примерные способы обнаружения делеций и дупликаций без фазированных данных [499] Example methods for detecting deletions and duplications without phased data
[500] В некоторых вариантах воплощения используются нефазированные генетические данные для определения того, имеется ли чрезмерное количество копий первого гомологичного сегмента хромосомы по сравнению со вторым гомологичным сегментом хромосомы в геноме индивидуума (например, в геноме одной или более клеток или в скДНК или скРНК). В некоторых вариантах воплощения используются фазированные генетические данные, но фазирование игнорируются. В некоторых вариантах воплощения образец ДНК или РНК представляет собой смешанный образец скДНК или скРНК от индивидуума, который включает скДНК или скРНК из двух или более генетически разных клеток. В некоторых вариантах воплощения способ использует величину различия между рассчитанным соотношением аллелей и ожидаемым соотношением аллелей для каждого из локусов.[500] In some embodiments, unphased genetic data is used to determine whether there is an excessive number of copies of a first homologous chromosome segment relative to a second homologous chromosome segment in an individual's genome (e.g., in the genome of one or more cells or in scDNA or scRNA). In some embodiments, phased genetic data is used, but the phasing is ignored. In some embodiments, the DNA or RNA sample is a mixed sample of scDNA or scRNA from an individual that includes scDNA or scRNA from two or more genetically different cells. In some embodiments, the method uses the magnitude of the difference between the calculated allele ratio and the expected allele ratio for each of the loci.
[501] В некоторых вариантах воплощения способ включает получение генетических данных в наборе полиморфных локусов на хромосоме или сегменте хромосомы в образце ДНК или РНК из одной или более клеток от индивидуума путем измерения количества каждого аллеля в каждом локусе. В некоторых вариантах воплощения соотношения аллелей рассчитываются для локусов, которые являются гетерозиготными по меньшей мере в одной клетке, из которой был получен образец. В некоторых вариантах воплощения рассчитанное соотношение аллелей для конкретного локуса - это измеренное количество одного из аллелей, деленное на общее измеренное количество всех аллелей для локуса. В некоторых вариантах воплощения рассчитанное соотношение аллелей для конкретного локуса - это измеренное количество одного из аллелей (например, аллеля на первом гомологичном сегменте хромосомы), деленное на измеренное для локуса количество одного или более других аллелей (например, аллель на втором гомологичном сегменте хромосомы). Рассчитанные соотношения аллелей и ожидаемые соотношения аллелей могут быть рассчитаны с использованием любого из способов, представленных в данном документе, или любого стандартного способа (например, любого математического преобразования рассчитанных соотношений аллелей или ожидаемых соотношений аллелей, представленных в данном документе).[501] In some embodiments, the method includes obtaining genetic data at a set of polymorphic loci on a chromosome or chromosome segment in a sample of DNA or RNA from one or more cells from an individual by measuring the amount of each allele at each locus. In some embodiments, allele ratios are calculated for loci that are heterozygous in at least one cell from which the sample was obtained. In some embodiments, the calculated allele ratio for a particular locus is the measured amount of one of the alleles divided by the total measured amount of all alleles for the locus. In some embodiments, the calculated allele ratio for a particular locus is the measured amount of one of the alleles (e.g., an allele on a first homologous segment of a chromosome) divided by the measured amount for a locus of one or more other alleles (e.g., an allele on a second homologous segment of a chromosome). The calculated allele ratios and expected allele ratios can be calculated using any of the methods presented herein or any standard method (eg, any mathematical transformation of the calculated allele ratios or expected allele ratios presented herein).
[502] В некоторых вариантах воплощения тестовая статистика рассчитывается на основе величины различия между рассчитанным соотношением аллелей и ожидаемым соотношением аллелей для каждого из локусов. В некоторых вариантах воплощения тестовая статистика Δ рассчитывается с использованием следующей формулы [502] In some embodiments, a test statistic is calculated based on the magnitude of the difference between the calculated allele ratio and the expected allele ratio for each of the loci. In some embodiments, the test statistic Δ is calculated using the following formula
[503] где δ i представляет собой величину различия между рассчитанным соотношением аллелей и ожидаемым соотношением аллелей для i-того локуса;[503] where δi represents the magnitude of the difference between the calculated allele ratio and the expected allele ratio for the i-th locus;
[504] где μ i представляет собой среднее значение δ i ; и[504] where μ i represents the average value of δ i ; And
[505] где σ i 2 представляет собой среднее отклонение δ i .[505] where σ i 2 represents the average deviation δi .
[506] Например, мы можем определить δ i следующим образом, когда ожидаемое соотношение аллелей составляет 0,5:[506] For example, we can define δi as follows when the expected allele ratio is 0.5:
[507] .[507] .
[508] Значения для μ i и σ i можно рассчитать, используя факт того, что R i представляет собой биномиальную случайную величину. В некоторых вариантах воплощения для всех локусов предполагается одинаковое стандартное отклонение. В некоторых вариантах воплощения среднее или средневзвешенное значение стандартного отклонения или оценка стандартного отклонения используется для значения σ i 2 . В некоторых вариантах воплощения предполагается, что тестовая статистика имеет нормальное распределение. Например, из центральной предельной теоремы следует, что распределение Δ приближается к стандартной нормали по мере того, как становится большим количество локусов (например, количество T ОНП).[508] Values for μ i and σ i can be calculated using the fact thatR i is a binomial random variable. In some embodiments, all loci are assumed to have the same standard deviation. In some embodiments, an average or weighted average of the standard deviation or an estimate of the standard deviation is used for the value of σ i 2 . In some embodiments, the test statistic is assumed to have a normal distribution. For example, from the central limit theorem it follows that the distribution Δ approaches the standard normal as the number of loci becomes larger (for example, the numberT SNP).
[509] В некоторых вариантах воплощения перечислен набор из одной или более гипотез, определяющих количество копий хромосомы или сегмента хромосомы в геноме одной или более клеток. В некоторых вариантах воплощения выбирается гипотеза, которая, наиболее вероятно основана на тестовой статистике, тем самым определяя количество копий хромосомы или сегмента хромосомы в геноме одной или более клеток. В некоторых вариантах воплощения выбираются гипотеза, если вероятность того, что тестовая статистика принадлежит распределению тестовой статистики для этой гипотезы, превышает верхний порог; одна или более гипотез отклоняются, если вероятность того, что тестовая статистика принадлежит распределению тестовой статистики для этой гипотезы, ниже нижнего порога; или гипотеза не выбирается и не отклоняется, если вероятность того, что статистика теста принадлежит распределению статистики теста для этой гипотезы, находится между нижним и верхним порогами, или если вероятность не определена с достаточно высокой достоверностью. В некоторых вариантах воплощения верхний и/или нижний порог определяется из эмпирического распределения, такого как распределение из обучающих данных (таких как образцы с известным числом копий, такие как диплоидные образцы или образцы, которые, как известно, имеют конкретную делецию или дупликацию). Такое эмпирическое распределение можно использовать для выбора порога для проверки отклонения единичной гипотезы. Обратите внимание, что статистика теста Δ не зависит от S, и поэтому при необходимости оба показателя могут использоваться независимо.[509] In some embodiments, a set of one or more hypotheses is listed that determine the number of copies of a chromosome or chromosome segment in the genome of one or more cells. In some embodiments, a hypothesis is selected that is most likely based on the test statistic, thereby determining the number of copies of a chromosome or chromosome segment in the genome of one or more cells. In some embodiments, a hypothesis is selected if the probability that the test statistic belongs to the distribution of the test statistic for that hypothesis exceeds an upper threshold; one or more hypotheses are rejected if the probability that the test statistic belongs to the distribution of the test statistic for that hypothesis is below a lower threshold; or a hypothesis is not selected or rejected if the probability that the test statistic belongs to the distribution of the test statistic for that hypothesis is between the lower and upper thresholds, or if the probability is not determined with sufficiently high confidence. In some embodiments, the upper and/or lower threshold is determined from an empirical distribution, such as a distribution from training data (such as samples with a known copy number, such as diploid samples or samples that are known to have a particular deletion or duplication). This empirical distribution can be used to select a threshold for testing the rejection of a single hypothesis. Note that the Δ test statistic is independent of S , and so both measures can be used independently if necessary.
[510] Примерные способы обнаружения делеций и дупликаций, используя распределение аллелей или паттерны [510] Exemplary methods for detecting deletions and duplications using allele distributions or patterns
[511] В этот раздел включены способы определения того, существует ли чрезмерное количество копий первого гомологичного сегмента хромосомы по сравнению со вторым гомологичным сегментом хромосомы. В некоторых вариантах воплощения способ включает перечисление (i) множества гипотез, определяющих количество копий хромосомы или сегмента хромосомы, которые присутствуют в геноме одной или более клеток (таких как раковые клетки) индивидуума, или (ii) множества гипотез определения степени избыточного представления количества копий первого гомологичного сегмента хромосомы по сравнению со вторым гомологичным сегментом хромосомы в геноме одной или более клеток индивидуума. В некоторых вариантах воплощения способ включает получение генетических данных от индивидуума по множеству полиморфных локусов (таких как локусы ОНП) на хромосоме или сегменте хромосомы. В некоторых вариантах воплощения создается распределение вероятностей ожидаемых генотипов индивидуума для каждой из гипотез. В некоторых вариантах воплощения вычисляется соответствие данных между полученными генетическими данными индивидуума и распределением вероятностей ожидаемых генотипов индивидуума. В некоторых вариантах воплощения одна или более гипотез ранжируются в соответствии с соответствием данных, и выбирается гипотеза, получившая наивысший рейтинг. В некоторых вариантах воплощения методика или алгоритм, такой как алгоритм поиска, используется для одного или более из следующих этапов: вычисление соответствия данных, ранжирование гипотез или выбор гипотезы, получившей наивысший рейтинг. В некоторых вариантах воплощения соответствие данных - это соответствие бета-биномиальному распределению или соответствие биномиальному распределению. В некоторых вариантах воплощения методика или алгоритм выбирается из группы, состоящей из оценки максимального правдоподобия, максимальной апостериорной оценки, байесовской оценки, динамической оценки (например, динамической байесовской оценки) и оценки максимизации ожидания. В некоторых вариантах воплощения способ включает применение методики или алгоритма к полученным генетическим данным и ожидаемым генетическим данным.[511] Included in this section are methods for determining whether there is an excessive number of copies of a first homologous chromosome segment compared to a second homologous chromosome segment. In some embodiments, the method includes listing (i) a plurality of hypotheses determining the number of copies of a chromosome or chromosome segment that is present in the genome of one or more cells (such as cancer cells) of an individual, or (ii) a plurality of hypotheses determining the degree of copy number overrepresentation of the first homologous chromosome segment compared to a second homologous chromosome segment in the genome of one or more cells of an individual. In some embodiments, the method includes obtaining genetic data from an individual at multiple polymorphic loci (such as SNP loci) on a chromosome or chromosome segment. In some embodiments, a probability distribution of the individual's expected genotypes for each of the hypotheses is generated. In some embodiments, a data fit between the individual's obtained genetic data and a probability distribution of the individual's expected genotypes is calculated. In some embodiments, one or more hypotheses are ranked according to the fit of the data, and the highest ranking hypothesis is selected. In some embodiments, a technique or algorithm, such as a search algorithm, is used to perform one or more of the following steps: calculating the fit of the data, ranking the hypotheses, or selecting the top-ranked hypothesis. In some embodiments, the data fit is a beta binomial fit or a binomial fit. In some embodiments, the technique or algorithm is selected from the group consisting of maximum likelihood estimator, maximum posterior estimator, Bayesian estimator, dynamic estimator (eg, dynamic Bayesian estimator), and expectation maximization estimator. In some embodiments, the method includes applying a technique or algorithm to the obtained genetic data and the expected genetic data.
[512] В некоторых вариантах воплощения способ включает перечисление (i) множества гипотез, определяющих количество копий хромосомы или сегмента хромосомы, которые присутствуют в геноме одной или более клеток (таких как раковые клетки) индивидуума, или (ii) множества гипотез определения степени избыточного представления количества копий первого гомологичного сегмента хромосомы по сравнению со вторым гомологичным сегментом хромосомы в геноме одной или более клеток индивидуума. В некоторых вариантах воплощения способ включает получение генетических данных от индивидуума по множеству полиморфных локусов (например, локусов ОНП) на хромосоме или сегменте хромосомы. В некоторых вариантах воплощения генетические данные включают количество аллелей для множества полиморфных локусов. В некоторых вариантах воплощения создается совместная модель распределения для ожидаемого количества аллелей во множестве полиморфных локусов на хромосоме или сегменте хромосомы для каждой гипотезы. В некоторых вариантах воплощения относительная вероятность для одной или более гипотез определяется с использованием модели совместного распределения и количества аллелей, измеренных в образце, и выбирается гипотеза с наибольшей вероятностью.[512] In some embodiments, the method includes listing (i) a plurality of hypotheses determining the number of copies of a chromosome or chromosome segment that are present in the genome of one or more cells (such as cancer cells) of an individual, or (ii) a plurality of hypotheses determining the degree of overrepresentation the number of copies of the first homologous chromosome segment compared to the second homologous chromosome segment in the genome of one or more cells of an individual . In some embodiments, the method includes obtaining genetic data from an individual at multiple polymorphic loci (eg, SNP loci) on a chromosome or chromosome segment. In some embodiments, the genetic data includes the number of alleles for multiple polymorphic loci. In some embodiments, a joint distribution model is generated for the expected number of alleles at a plurality of polymorphic loci on a chromosome or chromosome segment for each hypothesis. In some embodiments, the relative probability for one or more hypotheses is determined using a joint distribution model and the number of alleles measured in the sample, and the hypothesis with the highest probability is selected.
[513] В некоторых вариантах воплощения распределение или паттерн аллелей (например, паттерн рассчитанных соотношений аллелей) используется для определения наличия или отсутствия ВЧК, например, делеции или дупликации. При необходимости по этой схеме можно определить исходное происхождение ВЧК.[513] In some embodiments, the distribution or pattern of alleles (eg, the pattern of calculated allele ratios) is used to determine the presence or absence of CC, such as a deletion or duplication. If necessary, this scheme can be used to determine the initial origin of ICH.
[514] Примерные способы подсчета/Количественные способы [514] Approximate methods of counting/Quantitative methods
[515] В некоторых вариантах воплощения один или более способов подсчета (также называемых количественными способами) используются для обнаружения одного или более ВЧК, таких как делеции или дупликации сегментов хромосомы или целых хромосом. В некоторых вариантах воплощения используются один или более способов подсчета для определения того, вызвано ли чрезмерное количество копий первого гомологичного сегмента хромосомы дупликацией первого гомологичного сегмента хромосомы или делецией второго гомологичного сегмента хромосомы. В некоторых вариантах воплощения используются один или более способов подсчета для определения количества дополнительных копий сегмента хромосомы или хромосомы, которые дуплицируются (например, имеется ли 1, 2, 3, 4 или более дополнительных копий). В некоторых вариантах воплощения используются один или более способов подсчета для дифференциации образца с множеством дупликаций и меньшей фракцией опухоли от образца с меньшим количеством дупликаций и большей фракцией опухоли. Например, один или более способов подсчета могут использоваться для дифференциации образца с четырьмя дополнительными копиями хромосомы и фракцией опухоли 10% от образца с двумя дополнительными копиями хромосомы и фракцией опухоли 20%. Примерные способы раскрыты, например, в Публикациях заявки на патент США №№. 2007/0184467; 2013/0172211; и 2012/0003637; Патентах США №№ 8467976; 7888017; 8008018; 8296076; и 8195415; Предварительной заявке на патент США, регистрационный № 62/008235, поданной 5 июня 2014 года и Предварительной заявке на патент США, регистрационный № 62/032785, поданной 4 августа 2014 года, каждый из этих документов настоящим включен в качестве ссылки во всей полноте.[515] In some embodiments, one or more counting methods (also referred to as quantitative methods) are used to detect one or more ICHs, such as deletions or duplications of chromosome segments or entire chromosomes. In some embodiments, one or more scoring methods are used to determine whether the excessive number of copies of the first homologous chromosome segment is caused by a duplication of the first homologous chromosome segment or a deletion of the second homologous chromosome segment. In some embodiments, one or more counting methods are used to determine the number of additional copies of a chromosome segment or chromosome that is duplicated (eg, whether there are 1, 2, 3, 4, or more additional copies). In some embodiments, one or more scoring methods are used to differentiate a sample with many duplications and a smaller tumor fraction from a sample with fewer duplications and a larger tumor fraction. For example, one or more scoring methods may be used to differentiate a sample with four extra chromosome copies and a 10% tumor fraction from a sample with two extra chromosome copies and a 20% tumor fraction. Exemplary methods are disclosed, for example, in US Patent Application Publication Nos. 2007/0184467; 2013/0172211; and 2012/0003637; US Patent No. 8467976; 7888017; 8008018; 8296076; and 8195415; U.S. Provisional Patent Application Serial No. 62/008235, filed June 5, 2014, and U.S. Provisional Patent Application Serial No. 62/032785, filed Aug. 4, 2014, each of which is hereby incorporated by reference in its entirety.
[516] В некоторых вариантах воплощения способ подсчета включает подсчет количества считываний на основе последовательностей ДНК, которые картируются на одной или более заданных хромосом или сегментов хромосомы. Некоторые такие способы включают создание референтного значения (пороговое значение) для количества считываний последовательности ДНК, картируемых на конкретной хромосоме или сегменте хромосомы, причем количество считываний, превышающее это значение, указывает на конкретную генетическую аномалию.[516] In some embodiments, the counting method includes counting the number of reads based on DNA sequences that map to one or more given chromosomes or chromosome segments. Some such methods involve creating a reference value (threshold value) for the number of DNA sequence reads mapping to a particular chromosome or chromosome segment, with a number of reads exceeding this value indicating a particular genetic abnormality.
[517] В некоторых вариантах воплощения общее измеренное количество всех аллелей для одного или более локусов (например, общее количество полиморфного или неполиморфного локуса) сравнивается с референтным количеством. В некоторых вариантах воплощения референтное количество представляет собой (i) пороговое значение или (ii) ожидаемое количество для конкретной гипотезы количества копий. В некоторых вариантах воплощения эталонное количество (при отсутствии ВЧК) представляет собой общее измеренное количество всех аллелей для одного или более локусов для одной или более хромосом или сегментов хромосом, о которых известно или ожидается, что они не имеют делеции или дупликации. В некоторых вариантах воплощения референтное (для наличия ВЧК) представляет собой общее измеренное количество всех аллелей для одного или более локусов для одной или более хромосом или сегментов хромосом, о которых известно или ожидается наличие делеции или дупликации. В некоторых вариантах воплощения референтное количество - это общее измеренное количество всех аллелей для одного или более локусов для одной или более эталонных хромосом или сегментов хромосомы. В некоторых вариантах воплощения референтное количество - это среднее значение или медиана значений, определенных для двух или более разных хромосом, хромосомных сегментов или разных образцов. В некоторых вариантах воплощения используется случайное (например, массовое параллельное дробное секвенирование) или целевое секвенирование для определения количества одного или более полиморфных или неполиморфных локусов.[517] In some embodiments, the total measured amount of all alleles for one or more loci (eg, the total amount of a polymorphic or non-polymorphic locus) is compared to a reference amount. In some embodiments, the reference amount is (i) a threshold value or (ii) an expected amount for a particular copy number hypothesis. In some embodiments, the reference count (in the absence of ICH) is the total measured count of all alleles for one or more loci for one or more chromosomes or chromosome segments that are known or expected to be free of deletion or duplication. In some embodiments, the reference (for the presence of ICH) is the total measured number of all alleles for one or more loci for one or more chromosomes or chromosome segments that are known or expected to have a deletion or duplication. In some embodiments, the reference amount is the total measured amount of all alleles for one or more loci for one or more reference chromosomes or chromosome segments. In some embodiments, the reference amount is the average or median of values determined for two or more different chromosomes, chromosomal segments, or different samples. In some embodiments, random (eg, massively parallel fractional sequencing) or targeted sequencing is used to quantify one or more polymorphic or non-polymorphic loci.
[518] В некоторых вариантах воплощения с использованием эталонного количества способ включает (а) измерение количества генетического материала на хромосоме или представляющем интерес сегменте хромосомы; (б) сравнение количества, полученного на этапе (а), с референтным количеством; и (в) выявление наличия или отсутствия делеции или дупликации на основе сравнения.[518] In some embodiments, using a reference amount, the method includes (a) measuring the amount of genetic material on a chromosome or chromosome segment of interest; (b) comparing the quantity obtained in step (a) with the reference quantity; and (c) identifying the presence or absence of a deletion or duplication based on comparison.
[519] В некоторых вариантах воплощения с использованием референтной хромосомы или сегмента хромосомы, способ включает секвенирование ДНК или РНК из образца для получения множества тегов последовательности, выравнивающих по целевым локусам. В некоторых вариантах воплощения теги последовательности имеют достаточную длину, чтобы быть отнесенными к конкретному целевому локусу (например, длиной 15-100 нуклеотидов); целевые локусы принадлежат множеству различных хромосом или сегментов хромосомы, которые включают по меньшей мере одну первую хромосому или хромосомный сегмент, предположительно имеющий ненормальное распределение в образце, и по меньшей мере одну вторую хромосому или хромосомный сегмент, предположительно нормально распределенный в образце. В некоторых вариантах воплощения соответствующим целевым локусам присваивается множество тегов последовательности. В некоторых вариантах воплощения определяется количество тегов последовательности, выравниваемых с целевыми локусами первой хромосомы или хромосомного сегмента, и количество тегов последовательности, выравниваемых с целевыми локусами второй хромосомы или хромосомного сегмента. В некоторых вариантах воплощения эти числа сравниваются для определения наличия или отсутствия аномального распределения (например, делеции или дупликации) первой хромосомы или сегмента хромосомы.[519] In some embodiments, using a reference chromosome or chromosome segment, the method includes sequencing DNA or RNA from the sample to obtain a plurality of sequence tags aligned to target loci. In some embodiments, the sequence tags are of sufficient length to be assigned to a specific target locus (eg, 15-100 nucleotides in length); the target loci belong to a plurality of different chromosomes or chromosome segments that include at least one first chromosome or chromosome segment expected to be abnormally distributed in the sample and at least one second chromosome or chromosome segment expected to be normally distributed in the sample. In some embodiments, multiple sequence tags are assigned to corresponding target loci. In some embodiments, the number of sequence tags aligned to target loci of the first chromosome or chromosomal segment and the number of sequence tags aligned to target loci of the second chromosome or chromosomal segment are determined. In some embodiments, these numbers are compared to determine the presence or absence of an abnormal distribution (eg, deletion or duplication) of the first chromosome or chromosome segment.
[520] В некоторых вариантах воплощения при определении ВЧК используется значение f (например, фракция опухоли), например, для сравнения наблюдаемого различия между количеством двух хромосом или хромосомных сегментов с различием, которое можно было бы ожидать для определенного типа ВЧК с учетом значения f (см., например, Публикация заявки на патент США № 2012/0190020; Публикация заявки на патент США № 2012/0190021; Публикация заявки на патент США № 2012/0190557; Публикация заявки на патент США № 2012/0191358, каждая из которых настоящим включена в качестве ссылки во всей полноте). Например, разница в количестве сегмента хромосомы, который дуплицируется в опухоли, по сравнению с дисомным референтным сегментом хромосомы увеличивается по мере увеличения фракции опухоли. В некоторых вариантах воплощения способ включает сравнение относительной частоты представляющей интерес хромосомы или сегмента хромосомы с референтными хромосомами или сегментом хромосомы (например, хромосомой или сегментом хромосомы, ожидаемым или известным как дисомный) со значением f для определения вероятности ВЧК. Например, разницу в количестве между первыми хромосомами или сегментом хромосомы и референтной хромосомой или сегментом хромосомы можно сравнить с тем, что можно было бы ожидать, учитывая значение f для различных возможных ВЧК (например, одной или двух дополнительных копий сегмента хромосомы, представляющей интерес.[520] In some embodiments, the definition of ICH uses an f value (eg, tumor fraction), for example, to compare the observed difference between the number of two chromosomes or chromosomal segments with the difference that would be expected for a particular type of ICH given the f value ( see, for example, US Patent Application Publication No. 2012/0190020; US Patent Application Publication No. 2012/0190021; US Patent Application Publication No. 2012/0190557; US Patent Application Publication No. 2012/0191358, each of which is hereby incorporated by reference in its entirety). For example, the difference in the amount of a chromosome segment that is duplicated in a tumor compared to a disomic reference chromosome segment increases as the tumor fraction increases. In some embodiments, the method includes comparing the relative frequency of a chromosome or chromosome segment of interest to a reference chromosome or chromosome segment (e.g., a chromosome or chromosome segment expected or known to be disomic) with an f value to determine the probability of ICH. For example, the difference in abundance between the first chromosomes or chromosome segment and the reference chromosome or chromosome segment can be compared with what would be expected given the f value for various possible ICHs (e.g., one or two additional copies of the chromosome segment of interest.
[521] Следующие примеры возможного использования иллюстрируют использование способа подсчета/количественного способа для различения дупликации первого гомологичного сегмента хромосомы и делеции второго гомологичного сегмента хромосомы. Если рассматривать нормальный дисомный геном хозяина в качестве исходного уровня, то анализ смеси нормальных и раковых клеток дает среднюю разницу между исходным уровнем и раковой ДНК в смеси. Например, представьте себе случай, когда 10% ДНК в образце происходили из клеток с делецией в области хромосомы, на которую направлен анализ. В некоторых вариантах воплощения количественный подход показывает, что количество считываний, соответствующих этой области, должно быть 95% от количества считываний, ожидаемого для нормального образца. Это связано с тем, что одна из двух целевых хромосомных областей в каждой из опухолевых клеток с делецией целевой области отсутствует, и, таким образом, общий объем картирования ДНК в этой области составляет 90% (для нормальных клеток) плюс ½ x 10 % (для опухолевых клеток) = 95%. Альтернативно, в некоторых вариантах воплощения аллельный подход показывает, что соотношение аллелей в гетерозиготных локусах в среднем составляло 19:20. Теперь представьте себе случай, когда 10% ДНК в образце произошло из клеток с пятикратной фокальной амплификацией участка хромосомы, на который направлен анализ. В некоторых вариантах воплощения количественный подход показывает, что количество считываний, соответствующих этой области, должно быть 125% от ожидаемого для нормального образца. Это связано с тем, что одна из двух целевых хромосомных областей в каждой из опухолевых клеток с пятикратной фокальной амплификацией копируется еще пять раз над целевой областью, и, таким образом, общий объем картирования ДНК в этой области составляет 90% (для нормальных клеток) плюс (2 + 5) x 10%/2 (для опухолевых клеток) = 125%. Альтернативно, в некоторых вариантах воплощения аллельный подход показывает, что соотношение аллелей в гетерозиготных локусах составляет в среднем 25:20. Обратите внимание, что при использовании только аллельного подхода фокальная пятикратная амплификация по хромосомной области в образце с 10% скДНК может выглядеть так же, как делеция по той же области в образце с 40% скДНК; в этих двух случаях гаплотип, который недостаточно представлен в случае делеции, оказывается гаплотипом без ВЧК в случае фокальной дупликации, а гаплотип без ВЧК в случае делеции оказывается чрезмерно представленным гаплотипом в случае с фокальной дупликацией. Сочетание вероятностей, полученных с помощью этого аллельного подхода, с вероятностями, полученными с помощью количественного подхода, различает эти две возможности.[521] The following examples of possible use illustrate the use of a counting/quantitative method to distinguish between a duplication of a first homologous chromosome segment and a deletion of a second homologous chromosome segment. Considering the host's normal disomic genome as the baseline, analysis of a mixture of normal and cancer cells provides the average difference between the baseline and the cancer DNA in the mixture. For example, imagine a case where 10% of the DNA in a sample came from cells with a deletion in the region of the chromosome targeted by the assay. In some embodiments, the quantitative approach indicates that the number of reads corresponding to this region should be 95% of the number of reads expected for a normal sample. This is because one of the two target chromosomal regions in each of the tumor cells with a deletion of the target region is missing, and thus the total amount of DNA mapping in this region is 90% (for normal cells) plus ½ x 10% (for tumor cells) = 95%. Alternatively, in some embodiments, the allelic approach reveals that the ratio of alleles at heterozygous loci averaged 19:20. Now imagine a case where 10% of the DNA in the sample came from cells with a fivefold focal amplification of the region of the chromosome targeted by the analysis. In some embodiments, the quantitative approach indicates that the number of reads corresponding to this region should be 125% of that expected for a normal sample. This is because one of the two target chromosomal regions in each of the tumor cells with fivefold focal amplification is copied an additional five times over the target region, and thus the total DNA mapping in that region is 90% (for normal cells) plus (2 + 5) x 10%/2 (for tumor cells) = 125%. Alternatively, in some embodiments, the allelic approach reveals that the ratio of alleles at heterozygous loci averages 25:20. Note that when using an allelic-only approach, a focal fivefold amplification across a chromosomal region in a sample with 10% cDNA may look the same as a deletion across the same region in a sample with 40% cDNA; in these two cases, the haplotype that is underrepresented in the case of a deletion turns out to be the non-ICH haplotype in the case of a focal duplication, and the non-ICH haplotype in the case of a deletion turns out to be an overrepresented haplotype in the case of a focal duplication. Combining the probabilities obtained from this allelic approach with those obtained from the quantitative approach differentiates the two possibilities.
[522] Примерные способы подсчета/Количественные способы, использующие референтные образцы [522] Approximate counting methods/Quantitative methods using reference samples
[523] Примерный количественный способ, использующий один или более референтных образцов, описан в Предварительной заявке на патент США, регистрационный № 62/008235, поданной 5 июня 2014 года, и Предварительной заявке на патент США, регистрационный № 62/032785, поданной 4 августа 2014 года, документы полностью включены сюда посредством ссылки. В некоторых вариантах воплощения один или более референтных образцов, которые, скорее всего, не имеют каких-либо ВЧК на одной или более хромосом или представляющих интерес хромосом (например, нормальный образец), идентифицируются путем отбора образцов с наибольшей фракцией опухолевой ДНК, отбора образцов с z-значением, ближайшем к нулю, отбора образцов, в которых данные соответствуют гипотезе, соответствующей отсутствию ВЧК с наибольшей достоверностью или вероятностью, отбора образцов, заведомо нормальных, отбора образцов от лиц с наименьшей вероятностью рака (например, имеющих молодой возраст, принадлежность к мужскому полу при скрининге на рак молочной железы, отсутствие семейного анамнеза и т. д.), отбора образцов с наибольшим вводимым количеством ДНК, отбора образцов с наивысшим соотношением сигнал/шум, отбора образцов на основе других критериев, которые, как считается, коррелируют с вероятностью рака, или отбора образцов с использованием некоторой комбинации критериев. После того, как выбран референтный набор, можно сделать предположение, что эти случаи дисомичны, а затем оценить смещение по ОНП, то есть специфическую для эксперимента амплификацию и другое смещение обработки для каждого локуса. Затем можно использовать эту специфичную для эксперимента оценку систематической ошибки, чтобы скорректировать систематическую ошибку в измерениях представляющей интерес хромосомы, такой как локусы хромосомы 21, и, при необходимости, для других хромосомных локусов для образцов, которые не являются частью подмножества, где дисомия предполагается для хромосомы 21. После того, как в этих образцах с неизвестной плоидностью были исправлены смещения, данные для этих образцов можно затем проанализировать второй раз, используя тот же или другой способ, чтобы определить, страдают ли индивидуумы трисомией 21. Например, количественный способ может быть использован для оставшихся образцов с неизвестной плоидностью, а z-оценка может быть рассчитана с использованием исправленных измеренных генетических данных на хромосоме 21. Альтернативно, как часть предварительной оценки состояния плоидности хромосомы 21, может быть вычислена фракция опухоли для образцов от индивидуума с подозрением на рак. Для случая с этой фракцией опухоли могут быть рассчитаны доля скорректированных считываний, ожидаемых в случае дисомии (гипотеза дисомии), и доля скорректированных считываний, ожидаемых в случае трисомии (гипотеза трисомии). В качестве альтернативы, если фракция опухоли не была измерена ранее, может быть создан набор гипотез дисомии и трисомии для различных фракций опухоли. Для каждого случая можно рассчитать ожидаемое распределение доли скорректированных считываний с учетом ожидаемого статистического разброса при выборе и измерении различных локусов ДНК. Наблюдаемую скорректированную долю считываний можно сравнить с распределением ожидаемой доли скорректированных считываний, и можно рассчитать отношение правдоподобия для гипотез дисомии и трисомии для каждого из образцов неизвестной плоидности. Состояние плоидности, связанное с гипотезой с наибольшим вычисленным правдоподобием, может быть выбрано как правильное состояние плоидности.[523] An exemplary quantitative method using one or more reference samples is described in U.S. Provisional Patent Application Serial No. 62/008235, filed June 5, 2014, and U.S. Provisional Patent Application Serial No. 62/032785, filed Aug. 4. 2014, documents are incorporated herein by reference in their entirety. In some embodiments, one or more reference samples that are not likely to have any ICH on one or more chromosomes or chromosomes of interest (eg, a normal sample) are identified by selecting samples with the largest fraction of tumor DNA, selecting samples with z-score closest to zero, selecting samples in which the data are consistent with the hypothesis corresponding to the absence of ICH with the greatest confidence or probability, selecting samples known to be normal, selecting samples from individuals with the least likelihood of cancer (for example, being young, male gender in breast cancer screening, lack of family history, etc.), selecting samples with the highest amount of DNA input, selecting samples with the highest signal-to-noise ratio, selecting samples based on other criteria believed to correlate with the likelihood cancer, or sampling using some combination of criteria. Once a reference set is selected, one can make the assumption that these cases are disomic and then estimate SNP bias, that is, experiment-specific amplification and other processing bias for each locus. This experiment-specific estimate of bias can then be used to correct for bias in measurements of the chromosome of interest, such as chromosome 21 loci, and, if necessary, for other chromosomal loci for samples that are not part of the subset where disomy is suspected for the chromosome 21. Once biases have been corrected for these samples of unknown ploidy, the data for these samples can then be analyzed a second time using the same or a different method to determine whether individuals have trisomy 21. For example, a quantitative method can be used to remaining samples of unknown ploidy, and a z-score can be calculated using the corrected measured genetic data on chromosome 21. Alternatively, as part of a preliminary assessment of chromosome 21 ploidy status, the tumor fraction can be calculated for samples from an individual with suspected cancer. For this tumor fraction, the proportion of corrected reads expected in the case of disomy (disomy hypothesis) and the proportion of corrected reads expected in the case of trisomy (trisomy hypothesis) can be calculated. Alternatively, if the tumor fraction has not been previously measured, a set of disomy and trisomy hypotheses can be generated for different tumor fractions. For each case, the expected distribution of the proportion of corrected reads can be calculated, taking into account the expected statistical spread when different DNA loci are selected and measured. The observed adjusted fraction of reads can be compared with the distribution of the expected fraction of corrected reads, and the likelihood ratio for the disomy and trisomy hypotheses can be calculated for each of the samples of unknown ploidy. The ploidy state associated with the hypothesis with the highest calculated likelihood can be selected as the correct ploidy state.
[524] В некоторых вариантах воплощения может быть выбрано подмножество образцов с достаточно низкой вероятностью рака в качестве контрольного набора образцов. Подмножество может быть фиксированным числом или может быть переменным числом, основанным на выборе только тех образцов, которые не достигают порогового значения. Количественные данные из подмножества образцов могут быть объединены, усреднены или объединены с использованием средневзвешенного значения, где взвешивание основано на вероятности того, что выборка является нормой. Количественные данные могут использоваться для определения смещения по локусу для амплификации секвенирования образцов в текущей партии контрольных образцов. Смещение по локусу может также включать данные из других партий образцов. Смещение по локусу может указывать на относительную избыточную или недостаточную амплификацию, которая наблюдается для этого локуса по сравнению с другими локусами, исходя из предположения, что подмножество образцов не содержит каких-либо ВЧК и что любая наблюдаемая избыточная или недостаточная амплификация происходит из-за амплификации и/или секвенирования или другого смещения. Смещение по локусу может учитывать содержание GC в ампликоне. Локусы могут быть сгруппированы в группы локусов с целью вычисления смещения для каждого локуса. После того, как смещение для каждого локуса было вычислено для каждого локуса во множестве локусов, данные секвенирования для одного или более образцов, которые не входят в подмножество образцов, и, необязательно, одного или более образцов, которые находятся в подмножество образцов, для того, чтобы удалить эффект смещения в этом локусе, могут быть скорректированы путем корректировки количественных измерений для каждого локуса. Например, если в подгруппе пациентов наблюдалось, что ОНП 1 имеет глубину считывания, вдвое превышающую среднюю, корректировка может включать замену количества считываний, соответствующих ОНП 1, на число, которое вдвое меньше среднего. Если рассматриваемый локус является ОНП, корректировка может включать сокращение вдвое количества считываний, соответствующих каждому из аллелей в этом локусе. После того, как данные секвенирования для каждого локуса в одном или более образцов были скорректированы, они могут быть проанализированы с использованием способа с целью обнаружения наличия ВЧК в одной или более хромосомных областей.[524] In some embodiments, a subset of samples with a sufficiently low probability of cancer may be selected as a control set of samples. The subset may be a fixed number or may be a variable number based on selecting only those samples that do not reach the threshold. Quantitative data from a subset of samples can be pooled, averaged, or combined using a weighted average, where the weighting is based on the probability that the sample is normal. Quantitative data can be used to determine locus bias for sequencing amplification samples in the current batch of control samples. The locus bias may also include data from other batches of samples. Bias at a locus may indicate the relative over- or under-amplification that is observed for that locus compared to other loci, based on the assumption that a subset of samples does not contain any ICH and that any observed over- or under-amplification is due to amplification and /or sequencing or other offset. Locus bias may account for the GC content of the amplicon. Loci can be grouped into loci groups for the purpose of calculating the bias for each locus. Once the bias for each locus has been calculated for each locus in the set of loci, sequencing data for one or more samples that are not in the sample subset, and optionally one or more samples that are in the sample subset, in order to to remove the effect of bias at that locus can be adjusted by adjusting the quantitative measurements for each locus. For example, if in a subset of patients SNP 1 was observed to have a read depth twice the average, the adjustment might involve replacing the number of reads corresponding to SNP 1 with a number that is half the average. If the locus in question is an SNP, the adjustment may involve halving the number of reads corresponding to each of the alleles at that locus. Once the sequencing data for each locus in one or more samples has been corrected, it can be analyzed using a method to detect the presence of ICH in one or more chromosomal regions.
[525] В одном примере образец A представляет собой смесь амплифицированной ДНК, происходящей из смеси нормальных и раковых клеток, которая анализируется с использованием количественного способа. Следующее иллюстрирует примерные возможные данные. Было обнаружено, что область q-плеча на хромосоме 22 имеет только 90% ДНК, отображаемой на эту область, как и ожидалось; было обнаружено, что фокальная область, соответствующая гену HER2, имеет на 150% больше ДНК, отображаемой в этой области, как и ожидалось; и p-плечо хромосомы 5, как обнаружено, имеет 105% картирования ДНК, сколько и ожидалось. Врач может сделать вывод, что в образце имеется делеция области на плече q хромосомы 22 и дупликация гена HER2. Врач может сделать вывод, что, поскольку делеции 22q распространены при раке молочной железы и что, поскольку клетки с делецией области 22q на обеих хромосомах обычно не выживают, приблизительно 20% ДНК в образце получены из клеток с делецией 22q на одной из двух хромосом. Врач может также сделать вывод, что если ДНК из смешанного образца, происходящего из опухолевых клеток, произошла из набора генетически опухолевых клеток, чья область HER2 и области 22q были гомогенными, то клетки содержали пятикратную дупликацию области HER2.[525] In one example, sample A is a mixture of amplified DNA originating from a mixture of normal and cancer cells, which is analyzed using a quantitative method. The following illustrates sample possible data. The q-arm region on chromosome 22 was found to have only 90% of the DNA mapped to this region, as expected; the focal region corresponding to the HER2 gene was found to have 150% more DNA displayed in that region, as expected; and the p-arm of chromosome 5 was found to have 105% DNA mapping as expected. The doctor may conclude that the sample contains a deletion of a region on the q arm of chromosome 22 and a duplication of the HER2 gene. The physician may conclude that because 22q deletions are common in breast cancer and that because cells with a deletion of the 22q region on both chromosomes usually do not survive, approximately 20% of the DNA in the sample comes from cells with a 22q deletion on one of the two chromosomes. The physician may also conclude that if the DNA from the mixed tumor cell-derived sample came from a set of genetically tumor cells whose HER2 region and 22q regions were homogeneous, then the cells contained a fivefold duplication of the HER2 region.
[526] В одном примере образец А также анализируется аллельным способом. Следующее иллюстрирует примерные возможные данные. Два гаплотипа в одной и той же области на плече q хромосомы 22 присутствуют в соотношении 4: 5; два гаплотипа в фокальной области, соответствующей гену HER2, присутствуют в соотношении 1: 2; и два гаплотипа на p-плече хромосомы 5 представлены в соотношении 20:21. Все остальные исследуемые участки генома не имеют статистически значимого превышения какого-либо гаплотипа. Клиницист может сделать вывод, что образец содержит ДНК опухоли с ВЧК в области 22q, области HER2 и плече 5p. Основываясь на знании того, что делеции 22q очень распространены при раке молочной железы, и/или основываясь на количественном анализе, показывающем недостаточное отображение количества ДНК, отображаемых в области 22q генома, клиницист может сделать вывод о существовании опухоли с делецией 22q. Основываясь на знании того, что амплификации HER2 очень распространены при раке молочной железы, и/или основываясь количественном анализе, показывающем завышенное представление количества ДНК, отображаемых в области HER2 генома, клиницист может сделать вывод о существовании опухоли с амплификацией HER2.[526] In one example, sample A is also analyzed in an allelic manner. The following illustrates sample possible data. Two haplotypes in the same region on the q arm of chromosome 22 are present in a 4:5 ratio; two haplotypes in the focal region corresponding to the HER2 gene are present in a 1:2 ratio; and two haplotypes on the p-arm of chromosome 5 are represented in a ratio of 20:21. All other studied genome regions do not have a statistically significant excess of any haplotype. The clinician can conclude that the sample contains tumor DNA with ICH in the 22q region, the HER2 region, and the 5p arm. Based on the knowledge that 22q deletions are very common in breast cancer, and/or based on quantitative analysis showing an underrepresentation of the amount of DNA mapped to the 22q region of the genome, the clinician can infer the existence of a tumor with a 22q deletion. Based on knowledge that HER2 amplifications are very common in breast cancer and/or based on quantitative analysis showing an overrepresentation of the amount of DNA mapping to the HER2 region of the genome, a clinician can infer the existence of a tumor with HER2 amplification.
[527] Примерные референтные хромосомы или хромосомные сегменты [527] Exemplary reference chromosomes or chromosomal segments
[528] В некоторых вариантах воплощения любой из представленных в данном документе способов также выполняется на одной или более референтных хромосом или сегментах хромосом, и результаты сравниваются с результатами для одной или более представляющих интерес хромосом или сегментов хромосом.[528] In some embodiments, any of the methods presented herein are also performed on one or more reference chromosomes or chromosome segments, and the results are compared with the results for one or more chromosomes or chromosome segments of interest.
[529] В некоторых вариантах воплощения референтная хромосома или сегмент хромосомы используются в качестве контроля того, что можно было бы ожидать в случае отсутствия ВЧК. В некоторых вариантах воплощения референтный образец представляет собой ту же хромосому или сегмент хромосомы из одного или более разных образцов, о которых известно или ожидается, что они не имеют делеции или дупликации в этой хромосоме или сегменте хромосомы. В некоторых вариантах воплощения референтный образец - это хромосома или сегмент хромосомы, отличный от тестируемого образца, который предположительно является дисомным. В некоторых вариантах воплощения референтный образец представляет собой сегмент, отличный от одной из представляющих интерес хромосом в том же образце, который тестируется. Например, референтный образец может представлять собой один или более сегментов за пределами области потенциальной делеции или дупликации. Наличие эталонного образца для одной и той же тестируемой хромосомы позволяет избежать вариабельности между разными хромосомами, например различий в метаболизме, апоптозе, гистонах, инактивации и/или амплификации между хромосомами. Также может использоваться анализ сегментов без ВЧК на той же хромосоме, что и тестируемая хромосома, для определения различий в метаболизме, апоптозе, гистонах, инактивации и/или амплификации между гомологами, что позволяет определить уровень вариабельности между гомологами в отсутствие ВЧК для сравнения с результатами для потенциальной ВЧК. В некоторых вариантах воплощения величина различия между рассчитанным и ожидаемым соотношением аллелей для потенциальной ВЧК больше, чем соответствующая величина для референтного образца, тем самым подтверждая наличие ВЧК.[529] In some embodiments, a reference chromosome or chromosome segment is used as a control for what would be expected in the absence of ICH. In some embodiments, the reference sample is the same chromosome or chromosome segment from one or more different samples that are known or expected not to have a deletion or duplication on that chromosome or chromosome segment. In some embodiments, the reference sample is a chromosome or chromosome segment different from the test sample that is presumed to be disomic. In some embodiments, the reference sample is a segment different from one of the chromosomes of interest in the same sample that is being tested. For example, the reference pattern may be one or more segments outside the region of the potential deletion or duplication. Having a reference sample for the same chromosome being tested avoids variability between different chromosomes, such as differences in metabolism, apoptosis, histones, inactivation and/or amplification between chromosomes. Analysis of non-ICH segments on the same chromosome as the test chromosome can also be used to determine differences in metabolism, apoptosis, histones, inactivation and/or amplification between homologs, allowing the level of variability between homologues in the absence of ICH to be determined for comparison with results for potential VCHK. In some embodiments, the magnitude of the difference between the calculated and expected allele ratio for a potential ICH is greater than the corresponding value for the reference sample, thereby confirming the presence of ICH.
[530] В некоторых вариантах воплощения референтная хромосома или сегмент хромосомы используются в качестве контроля того, что можно было бы ожидать от наличия ВЧК, например, конкретной интересующей делеции или дупликации. В некоторых вариантах воплощения референтный образец - это одна и та же хромосома или сегмент хромосомы из одного или более разных образцов, о которых известно или ожидается, что они имеют делецию или дупликацию в этой хромосоме или сегменте хромосомы. В некоторых вариантах воплощения референтным образцом является хромосома или сегмент хромосомы, отличные от тестируемого образца, о котором известно или ожидается, что он имеет ВЧК. В некоторых вариантах воплощения величина различия между рассчитанным и ожидаемым соотношением аллелей для потенциальной ВЧК аналогична (например, незначительно отличается) соответствующей величине референтного образца для ВЧК, тем самым подтверждая наличие ВЧК. В некоторых вариантах воплощения величина различия между рассчитанным и ожидаемым соотношением аллелей для потенциальной ВЧК меньше (например, значительно меньше), чем соответствующая величина референтного образца для ВЧК, тем самым подтверждая отсутствие ВЧК. В некоторых вариантах воплощения для определения фракции опухоли используется один или более локусов, для которых генотип раковой клетки (или ДНК или РНК из раковой клетки, такой как скДНК или скРНК) отличается от генотипа нераковой клетки (или ДНК или РНК из нераковой клетки, такой как скДНК или скРНК). Фракция опухоли может быть использована для определения того, является ли чрезмерное количество копий первого гомологичного сегмента хромосомы следствием дупликации первого гомологичного сегмента хромосомы или делеции второго гомологичного сегмента хромосомы. Фракцию опухоли также можно использовать для определения количества дополнительных копий сегмента хромосомы или хромосомы, которые дуплицируются (например, есть ли 1, 2, 3, 4 или более дополнительных копий), например, чтобы дифференцировать образец с четырьмя дополнительными копиями хромосомы и фракцией опухоли 10% из образца с двумя дополнительными копиями хромосомы и фракцией опухоли 20%. Фракцию опухоли также можно использовать для определения того, насколько хорошо наблюдаемые данные соответствуют ожидаемым данным для возможных ВЧК. В некоторых вариантах воплощения степень преобладания ВЧК используется для выбора конкретной терапии или терапевтического режима для индивидуума. Например, некоторые терапевтические агенты эффективны только по меньшей мере для четырех, шести или более копий сегмента хромосомы.[530] In some embodiments, a reference chromosome or chromosome segment is used as a control for what would be expected to result from the presence of ICH, such as a particular deletion or duplication of interest. In some embodiments, the reference sample is the same chromosome or chromosome segment from one or more different samples known or expected to have a deletion or duplication on that chromosome or chromosome segment. In some embodiments, the reference sample is a chromosome or segment of a chromosome different from the test sample that is known or expected to have ICH. In some embodiments, the magnitude of the difference between the calculated and expected allele ratio for a potential ICH is similar to (eg, slightly different) that of a reference sample for ICH, thereby confirming the presence of ICH. In some embodiments, the magnitude of the difference between the calculated and expected allele ratio for the potential ICH is less (eg, significantly less) than the corresponding value of the reference sample for ICH, thereby confirming the absence of ICH. In some embodiments, one or more loci for which the genotype of the cancer cell (or DNA or RNA from a cancer cell, such as scDNA or scRNA) is different from the genotype of a non-cancerous cell (or DNA or RNA from a non-cancerous cell, such as scDNA or scRNA). The tumor fraction can be used to determine whether the excessive number of copies of the first homologous chromosome segment is due to a duplication of the first homologous chromosome segment or a deletion of the second homologous chromosome segment. The tumor fraction can also be used to determine the number of extra copies of a segment of a chromosome or chromosome that is being duplicated (e.g., whether there are 1, 2, 3, 4, or more extra copies), for example, to differentiate a sample with four extra copies of a chromosome and a tumor fraction of 10% from a sample with two additional copies of the chromosome and a tumor fraction of 20%. Tumor fraction can also be used to determine how well observed data match expected data for possible ICHs. In some embodiments, the degree of prevalence of ICH is used to select a specific therapy or therapeutic regimen for an individual. For example, some therapeutic agents are effective only on at least four, six, or more copies of a chromosome segment.
[531] В некоторых вариантах воплощения один или более локусов, используемых для определения фракции опухоли, находятся на референтной хромосоме или сегменте хромосомы, таком как хромосома или сегмент хромосомы, о которых известно или ожидается, что они являются дисомной хромосомой или сегментом хромосомы, которые редко подвергаются дупликации или делеции в раковых клетках в целом или при конкретном типе рака, который, как известно, есть у индивидуума или индувидуум имеет повышенный риск его наличия, или хромосома или хромосомный сегмент, который вряд ли будет анеуплоидным (такой как сегмент, который, как ожидается, приведет к гибели клетки в случае делеции или дупликации). В некоторых вариантах воплощения любой из способов изобретения используется для подтверждения того, что референтная хромосома или сегмент хромосомы является дисомным как в раковых, так и в нераковых клетках. В некоторых вариантах воплощения используются одна или более хромосом или сегментов хромосом, для которых существует высокая степень достоверности распознавания дисомии.[531] In some embodiments, one or more loci used to determine tumor fraction are on a reference chromosome or chromosome segment, such as a chromosome or chromosome segment that is known or expected to be a disomic chromosome or chromosome segment that is rare undergo duplications or deletions in cancer cells in general or in a particular type of cancer that an individual is known to have or is at increased risk of having, or a chromosome or chromosomal segment that is unlikely to be aneuploid (such as a segment that is expected to result in cell death in the event of deletion or duplication). In some embodiments, any of the methods of the invention is used to confirm that a reference chromosome or chromosome segment is disomic in both cancer and non-cancerous cells. In some embodiments, one or more chromosomes or chromosome segments are used for which there is a high degree of confidence in recognizing disomy.
[532] Примерные локусы, которые можно использовать для определения фракции опухоли, включают полиморфизмы или мутации (такие как ОНП) в раковой клетке (или ДНК или РНК, такие как скДНК или скРНК из раковой клетки), которые отсутствуют в нераковой клетке (или ДНК или РНК из нераковой клетки) у индивидуума. В некоторых вариантах воплощения фракция опухоли определяется путем идентификации тех полиморфных локусов, в которых раковая клетка (или ДНК, или РНК из раковой клетки) имеет аллель, который отсутствует в нераковых клетках (или ДНК или РНК из нераковой клетки) в образце (например, образец плазмы или биопсия опухоли) от индивидуума; и использование количества аллеля, уникального для раковой клетки, в одном или более идентифицированных полиморфных локусов для определения фракции опухоли в образце. В некоторых вариантах воплощения нераковая клетка гомозиготна по первому аллелю в полиморфном локусе, а раковая клетка (i) гетерозиготна по первому аллелю и второму аллелю или (ii) гомозиготна по второму аллелю в полиморфном локусе. В некоторых вариантах воплощения нераковая клетка гетерозиготна по первому аллелю и второму аллелю в полиморфном локусе, а раковая клетка (i) имеет одну или две копии третьего аллеля в полиморфном локусе. В некоторых вариантах воплощения предполагается или известно, что раковые клетки имеют только одну копию аллеля, которой нет в нераковых клетках. Например, если генотип нераковых клеток является AA, а раковых клеток - AB, и 5% сигнала в этом локусе в образце исходит от аллеля B, а 95% - от аллеля A, то доля опухоли в образце составляет 10%. В некоторых вариантах воплощения предполагается или известно, что раковые клетки имеют две копии аллеля, отсутствующего в нераковых клетках. Например, если генотип нераковых клеток является AA, а раковых клеток является BB, а 5% сигнала в этом локусе в образце происходят от аллеля B, а 95% происходят от аллеля A, фракция опухоли в образце составляет 5%. В некоторых вариантах воплощения анализируются множественные локусы, для которых раковые клетки имеют аллель не в нераковых клетках, для того, чтобы определить, какие из локусов в раковых клетках являются гетерозиготными, а какие гомозиготными. Например, для локусов, в которых нераковые клетки представляют собой AA, если сигнал от аллеля B составляет приблизительно 5% в некоторых локусах и приблизительно 10% в некоторых локусах, то предполагается, что раковые клетки гетерозиготны в локусах с приблизительно 5% B аллеля и гомозиготны по локусам с приблизительно 10% B аллеля (что указывает на фракцию опухоли приблизительно 10%).[532] Exemplary loci that can be used to determine tumor fraction include polymorphisms or mutations (such as SNPs) in a cancer cell (or DNA or RNA, such as scDNA or scRNA from a cancer cell) that are absent in a non-cancerous cell (or DNA or RNA from a non-cancerous cell) in an individual. In some embodiments, the tumor fraction is determined by identifying those polymorphic loci at which the cancer cell (or DNA or RNA from a cancer cell) has an allele that is not present in non-cancerous cells (or DNA or RNA from a non-cancerous cell) in the sample (e.g., sample plasma or tumor biopsy) from the individual; and using the amount of an allele unique to the cancer cell at one or more identified polymorphic loci to determine the tumor fraction in the sample. In some embodiments, the non-cancerous cell is homozygous for the first allele at the polymorphic locus and the cancer cell is (i) heterozygous for the first allele and the second allele or (ii) homozygous for the second allele at the polymorphic locus. In some embodiments, the non-cancerous cell is heterozygous for the first allele and the second allele at the polymorphic locus, and the cancer cell (i) has one or two copies of the third allele at the polymorphic locus. In some embodiments, cancer cells are assumed or known to have only one copy of the allele, which is not present in non-cancerous cells. For example, if the genotype of non-cancerous cells is AA and cancer cells are AB, and 5% of the signal at that locus in a sample comes from the B allele and 95% comes from the A allele, then the proportion of tumor in the sample is 10%. In some embodiments, cancer cells are assumed or known to have two copies of an allele that is absent in non-cancerous cells. For example, if the genotype of non-cancerous cells is AA and cancer cells are BB, and 5% of the signal at that locus in a sample is from the B allele and 95% is from the A allele, the tumor fraction in the sample is 5%. In some embodiments, multiple loci for which cancer cells have an allele other than non-cancerous cells are analyzed to determine which loci in the cancer cells are heterozygous and which are homozygous. For example, for loci at which non-cancerous cells are AA, if the signal from the B allele is approximately 5% at some loci and approximately 10% at some loci, then the cancer cells are assumed to be heterozygous at the loci with approximately 5% B allele and homozygous at loci with approximately 10% B allele (indicating a tumor fraction of approximately 10%).
[533] Примерные локусы, которые можно использовать для определения фракции опухоли, включают локусы, для которых раковая клетка и нераковая клетка имеют один общий аллель (например, локусы, в которых раковой клеткой является AB, а нераковой клеткой является BB, или раковой клеткой является BB, а нераковой клеткой является AB). Количество сигнала A, количество сигнала B или отношение сигнала A к сигналу B в смешанном образце (содержащем ДНК или РНК из раковой клетки и нераковой клетки) сравнивается с соответствующим значением для (i) образца содержащего ДНК или РНК только раковых клеток или (ii) образца, содержащего ДНК или РНК только нераковых клеток. Для определения доли опухоли в смешанном образце используется разница в значениях.[533] Exemplary loci that can be used to determine tumor fraction include loci for which a cancer cell and a non-cancerous cell share one allele (for example, loci in which the cancer cell is AB and the non-cancerous cell is BB, or the cancer cell is BB, and the non-cancerous cell is AB). The amount of signal A, the amount of signal B, or the ratio of signal A to signal B in a mixed sample (containing DNA or RNA from a cancer cell and a non-cancerous cell) is compared with the corresponding value for (i) a sample containing DNA or RNA from cancer cells only or (ii) a sample , containing DNA or RNA only from non-cancerous cells. The difference in values is used to determine the proportion of tumor in a mixed sample.
[534] В некоторых вариантах воплощения локусы, которые можно использовать для определения фракции опухоли, выбираются на основе генотипа (i) образца, содержащего ДНК или РНК только из раковых клеток, и/или (ii) образца, содержащего ДНК или РНК только из нераковых клеток. В некоторых вариантах воплощения локусы выбираются на основе анализа смешанного образца, такие, как локусы, для которых абсолютное или относительное количество каждого аллеля отличается от того, что можно было бы ожидать, если и раковые, и нераковые клетки имеют одинаковый генотип в конкретном локусе. Например, если раковые и нераковые клетки имеют один и тот же генотип, ожидается, что локусы будут производить 0% сигнала B, если все клетки являются AA, 50% сигнала B, если все клетки являются AB, или 100% сигнала B, если все клетки являются BB. Другие значения для сигнала B указывают на то, что генотип раковых и нераковых клеток в этом локусе различный, и, таким образом, этот локус может использоваться для определения фракции опухоли.[534] In some embodiments, loci that can be used to determine tumor fraction are selected based on the genotype of (i) a sample containing DNA or RNA only from cancer cells, and/or (ii) a sample containing DNA or RNA only from non-cancerous cells cells. In some embodiments, loci are selected based on analysis of a mixed sample, such as loci for which the absolute or relative abundance of each allele differs from what would be expected if both cancer and non-cancerous cells had the same genotype at a particular locus. For example, if cancer and non-cancerous cells have the same genotype, the loci would be expected to produce 0% B signal if all cells are AA, 50% B signal if all cells are AB, or 100% B signal if all cells are cells are BB. Other values for signal B indicate that the genotype of cancerous and noncancerous cells at this locus is different, and thus this locus can be used to determine the tumor fraction.
[535] В некоторых вариантах воплощения фракция опухоли, рассчитанная на основе аллелей в одном или более локусов, сравнивается с фракцией опухоли, рассчитанной с использованием одного или более способов подсчета, представленных в настоящем документе.[535] In some embodiments, the tumor fraction calculated based on alleles at one or more loci is compared with the tumor fraction calculated using one or more scoring methods presented herein.
[536] Примерные способы обнаружения фенотипа или анализ множественных мутаций [536] Exemplary Methods for Phenotype Detection or Multiple Mutation Analysis
[537] В некоторых вариантах воплощения способ включает анализ образца на наличие набора мутаций, связанных с заболеванием или расстройством (таким как рак) или повышенным риском заболевания или расстройства. Существуют сильные корреляции между событиями внутри классов (например, классы рака M или C), которые можно использовать для улучшения отношения сигнал/шум способа и классификации опухолей на отдельные клинические подгруппы. Например, очень сильным сигналом могут быть пограничные результаты для нескольких мутаций (таких как несколько ВЧК) на одной или более хромосом или сегментов хромосом, рассматриваемых вместе. В некоторых вариантах воплощения определение наличия или отсутствия множественных полиморфизмов или представляющих интерес мутаций (таких как 2, 3, 4, 5, 8, 10, 12, 15 или более) увеличивает чувствительность и/или специфичность определения наличия или отсутствия заболевания или расстройства, такого как рак, или повышенный риск заболевания или расстройства, такого как рак. В некоторых вариантах воплощения корреляция между событиями в нескольких хромосомах используется для более эффективного анализа сигнала по сравнению с рассмотрением каждого из них по отдельности. Для лучшей классификации опухолей можно оптимизировать дизайн самого способа. Это, по сравнению с рецидивом, может быть невероятно полезно для раннего выявления и скрининга, когда чувствительность к одной конкретной мутации/ВЧК может иметь первостепенное значение. В некоторых вариантах воплощения события не всегда коррелируют, однако существует вероятность того, что они коррелируют. В некоторых вариантах воплощения используется формулировка матричной оценки с ковариационной матрицей шума, имеющей недиагональные параметры.[537] In some embodiments, the method includes analyzing a sample for the presence of a set of mutations associated with a disease or disorder (such as cancer) or an increased risk of a disease or disorder. There are strong correlations between events within classes (eg, cancer classes M or C) that can be used to improve the method's signal-to-noise ratio and classify tumors into distinct clinical subgroups. For example, borderline results for multiple mutations (such as multiple ICHs) on one or more chromosomes or chromosome segments considered together can be a very strong signal. In some embodiments, determining the presence or absence of multiple polymorphisms or mutations of interest (such as 2, 3, 4, 5, 8, 10, 12, 15 or more) increases the sensitivity and/or specificity of determining the presence or absence of a disease or disorder such such as cancer, or an increased risk of a disease or disorder such as cancer. In some embodiments, the correlation between events on multiple chromosomes is used to analyze the signal more efficiently than looking at each one individually. To better classify tumors, the design of the method itself can be optimized. This, compared to relapse, can be incredibly useful for early detection and screening where sensitivity to one specific mutation/ICH may be paramount. In some embodiments, the events are not always correlated, but there is a possibility that they are correlated. In some embodiments, a matrix estimator formulation is used with a noise covariance matrix having off-diagonal parameters.
[538] В некоторых вариантах воплощения изобретение относится к способу обнаружения фенотипа (такого как фенотип рака) у индивидуума, при этом фенотип определяется наличием по меньшей мере одной мутации из набора мутаций. В некоторых вариантах воплощения способ включает получение измерений ДНК или РНК для образца ДНК или РНК из одной или более клеток индивидуума, при этом одна или более клеток предположительно имеют фенотип; и анализ измерений ДНК или РНК, чтобы определить для каждой мутации в наборе мутаций вероятность того, что хотя бы одна из клеток имеет эту мутацию. В некоторых вариантах воплощения способ включает определение того, что индивидуум имеет фенотип, если либо (i) по меньшей мере, для одной из мутаций, вероятность того, что по меньшей мере одна из клеток содержит эту мутацию, превышает пороговое значение, либо (ii) по меньшей мере, для одной из мутаций вероятность того, что по меньшей мере одна из клеток имеет эти мутации, меньше порогового значения, и для множества мутаций совокупная вероятность того, что по меньшей мере одна из клеток имеет по меньшей мере одну из мутаций, больше пороговой. В некоторых вариантах воплощения одна или более клеток имеют подмножество или все мутации в наборе мутаций. В некоторых вариантах воплощения подмножество мутаций связано с раком или повышенным риском рака. В некоторых вариантах воплощения набор мутаций включает подмножество или все мутации в классе M раковых мутаций (Ciriello, Nat Genet. 45(10):1127-1133, 2013, doi: 10.1038/ng.2762, документ полностью включен сюда посредством ссылки). В некоторых вариантах воплощения набор мутаций включает подмножество или все мутации в классе C раковых мутаций (Ciriello, выше). В некоторых вариантах воплощения образец включает внеклеточную ДНК или РНК. В некоторых вариантах воплощения измерения ДНК или РНК включают измерения (например, количество каждого аллеля в каждом локусе) в наборе полиморфных локусов на одной или более хромосом или представляющих интерес сегментов хромосом.[538] In some embodiments, the invention provides a method for detecting a phenotype (such as a cancer phenotype) in an individual, wherein the phenotype is determined by the presence of at least one mutation from a set of mutations. In some embodiments, the method includes obtaining DNA or RNA measurements for a sample of DNA or RNA from one or more cells of an individual, wherein one or more cells are presumed to have a phenotype; and analyzing DNA or RNA measurements to determine, for each mutation in a set of mutations, the probability that at least one of the cells has that mutation. In some embodiments, the method includes determining that an individual has a phenotype if either (i) for at least one of the mutations, the probability that at least one of the cells contains the mutation exceeds a threshold, or (ii) for at least one of the mutations, the probability that at least one of the cells has these mutations is less than a threshold value, and for a plurality of mutations, the combined probability that at least one of the cells has at least one of the mutations is greater threshold. In some embodiments, one or more cells have a subset or all of the mutations in the set of mutations. In some embodiments, a subset of mutations is associated with cancer or an increased risk of cancer. In some embodiments, the set of mutations includes a subset or all of the mutations in class M of cancer mutations (Ciriello, Nat Genet. 45(10):1127-1133, 2013, doi: 10.1038/ng.2762, incorporated herein by reference in its entirety). In some embodiments, the set of mutations includes a subset or all of the mutations in class C cancer mutations (Ciriello, supra ) . In some embodiments, the sample includes cell-free DNA or RNA. In some embodiments, the DNA or RNA measurements include measurements (eg, the amount of each allele at each locus) at a set of polymorphic loci on one or more chromosomes or chromosome segments of interest.
[539] Примерная комбинация способов [539] Approximate combination of methods
[540] Для повышения точности результатов используются два или более способа (например, любой из способов по настоящему изобретению или любой известный способ) для обнаружения наличия или отсутствия ВЧК. В некоторых вариантах воплощения выполняются один или более способов анализа фактора (например, любого из представленных в данном документе способов или любого известного способа), указывающего на наличие или отсутствие заболевания или расстройства, либо на повышенный риск заболевания или расстройства.[540] To improve the accuracy of the results, two or more methods (eg, any of the methods of the present invention or any known method) are used to detect the presence or absence of ICH. In some embodiments, one or more methods are performed to analyze a factor (eg, any of the methods presented herein or any known method) indicating the presence or absence of a disease or disorder, or an increased risk of a disease or disorder.
[541] В некоторых вариантах воплощения для вычисления ковариации и/или корреляции между двумя или более способами используются стандартные математические способы. Стандартные математические способы также могут быть использованы для определения совокупной вероятности конкретной гипотезы на основе двух или более тестов. Примеры способов включают метаанализ, комбинированный вероятностный тест Фишера для независимых тестов, способ Брауна для комбинирования зависимых p-значений с известной ковариацией и способ Коста для комбинирования зависимых p-значений с неизвестной ковариацией. В случаях, когда вероятности определяются первым способом, который ортогонален или не связан с тем, как определяется вероятность для второго способа, комбинирование вероятностей является простым и может быть выполнено путем умножения и нормализации, или путем использования формулы, такой как:[541] In some embodiments, standard mathematical techniques are used to calculate covariance and/or correlation between two or more methods. Standard mathematical techniques can also be used to determine the cumulative probability of a particular hypothesis based on two or more tests. Examples of methods include meta-analysis, Fisher's combined probability test for independent tests, Brown's method for combining dependent p-values with known covariance, and Costa's method for combining dependent p-values with unknown covariance. In cases where the probabilities are determined by the first method, which is orthogonal to or unrelated to how the probability is determined for the second method, combining the probabilities is simple and can be done by multiplication and normalization, or by using a formula such as:
[542] Rcomb= R1R2/[R1R2 + (1-R1)(1-R2)][542] R comb = R 1 R 2 /[R 1 R 2 + (1-R 1 )(1-R 2 )]
[543] Rcomb является объединенной вероятностью, а R1 и R2 являются индивидуальными вероятностями. Например, если вероятность трисомии по способу 1 составляет 90%, а вероятность трисомии по способу 2 составляет 95%, то объединение результатов двух способов позволяет клиницисту сделать вывод, что плод является трисомным с вероятностью (0,90)(0,95)/[(0,90)(0,95) + (1 - 0,90)(1 - 0,95)] = 99,42%. В случаях, когда первый и второй способы не ортогональны, то есть когда существует корреляция между двумя способами, вероятности все же могут быть объединены.[543] R comb is the combined probability, and R1 and R2 are the individual probabilities. For example, if the probability of trisomy by mode 1 is 90% and the probability of trisomy by mode 2 is 95%, then combining the results of the two methods allows the clinician to conclude that the fetus is trisomic with a probability of (0.90)(0.95)/[ (0.90)(0.95) + (1 - 0.90)(1 - 0.95)] = 99.42%. In cases where the first and second methods are not orthogonal, that is, when there is a correlation between the two methods, the probabilities can still be combined.
[544] Примерные способы анализа множества факторов или переменных раскрыты в Патенте США № 8024128, выданном 20 сентября 2011 года; Публикации заявки на патент США № 2007/0027636, поданной 31 июля 2006 года; и Публикации заявки на патент США № 2007/0178501, поданной 6 декабря 2006 года, каждый из этих документов полностью включен сюда посредством ссылки.[544] Exemplary methods for analyzing multiple factors or variables are disclosed in US Patent No. 8,024,128, issued September 20, 2011; US Patent Application Publication No. 2007/0027636, filed July 31, 2006; and U.S. Patent Application Publication No. 2007/0178501, filed December 6, 2006, each of which is incorporated herein by reference in its entirety.
[545] В различных вариантах воплощения совокупная вероятность конкретной гипотезы или диагноза превышает 80, 85, 90, 92, 94, 96, 98, 99 или 99,9% или превышает какое-либо другое пороговое значение.[545] In various embodiments, the cumulative probability of a particular hypothesis or diagnosis is greater than 80%, 85%, 90%, 92%, 94%, 96%, 98%, 99%, or 99.9%, or greater than some other threshold.
[546] Предел обнаружения [546] Detection limit
[547] Как показали эксперименты, представленные в разделе «Примеры», способы, представленные в настоящем документе, способны обнаруживать средний аллельный дисбаланс в образце с пределом обнаружения или чувствительности 0,45% AAI, что является пределом обнаружения анеуплоидии иллюстративного способа настоящего изобретения. Аналогичным образом, в некоторых вариантах воплощения способы, представленные в настоящем документе, способны обнаруживать средний аллельный дисбаланс в образце, составляющий 0,45, 0,5, 0,6, 0,7, 0,8. 0,9 или 1,0%. То есть, способ тестирования способен обнаруживать хромосомную анеуплоидию в образце до 0,45, 0,5, 0,6, 0,7, 0,8. 0,9 или 1,0% AAI. Как продемонстрировано экспериментами, представленными в разделе «Примеры», способы, представленные в данном документе, способны обнаруживать присутствие ОНВ в образце по меньшей мере для некоторых ОНВ с пределом обнаружения или чувствительностью 0,2%, что является пределом обнаружения для по меньшей мере нескольких ОНВ в одном иллюстративном варианте воплощения. Аналогичным образом, в некоторых вариантах воплощения способ позволяет обнаруживать ОНВ или AAI ОНВ с частотой 0,2, 0,3, 0,4, 0,5, 0,6, 0,7, 0,8. 0,9 или 1,0%. То есть, данный способ тестирования способен обнаруживать ОНВ в образце с пределом обнаружения 0,2, 0,3, 0,4, 0,5, 0,6, 0,7, 0,8. 0,9 или 1,0% от общего количества аллелей в хромосомном локусе ОНВ.[547] As demonstrated by the experiments presented in the Examples section, the methods presented herein are capable of detecting average allelic imbalance in a sample with a detection or sensitivity limit of 0.45% AAI, which is the aneuploidy detection limit of the exemplary method of the present invention. Likewise, in some embodiments, the methods provided herein are capable of detecting an average allelic imbalance in a sample of 0.45, 0.5, 0.6, 0.7, 0.8. 0.9 or 1.0%. That is, the testing method is capable of detecting chromosomal aneuploidy in a sample up to 0.45, 0.5, 0.6, 0.7, 0.8. 0.9 or 1.0% AAI. As demonstrated by the experiments presented in the Examples section, the methods presented herein are capable of detecting the presence of NDCs in a sample for at least some NDCs with a detection limit or sensitivity of 0.2%, which is the detection limit for at least several NDCs in one illustrative embodiment. Likewise, in some embodiments, the method can detect NVGs or AAI NVGs at rates of 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8. 0.9 or 1.0%. That is, this testing method is capable of detecting NDCs in a sample with a detection limit of 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8. 0.9 or 1.0% of the total number of alleles in the chromosomal locus ONV.
[548] В некоторых вариантах воплощения предел обнаружения мутации (такой как ОНВ или ВЧК) способа по настоящему изобретению меньше или равен 10, 5, 2, 1, 0,5, 0,1, 0,05, 0,01 или 0,005%. В некоторых вариантах воплощения предел обнаружения мутации (такой как ОНВ или ВЧК) способа по изобретению составляет от 15 до 0,005%, например, от 10 до 0,005%, от 10 до 0,01%, от 10 до 0,1%, от 5 до 0,005% , от 5 до 0,01%, от 5 до 0,1%, от 1 до 0,005%, от 1 до 0,01%, от 1 до 0,1%, от 0,5 до 0,005%, от 0,5 до 0,01%, от 0,5 до 0,1% или от 0,1 до 0,01 включительно. [548] In some embodiments, the detection limit of a mutation (such as NNV or ICH) of the method of the present invention is less than or equal to 10, 5, 2, 1, 0.5, 0.1, 0.05, 0.01, or 0.005% . In some embodiments, the detection limit for a mutation (such as NNV or ICH) of the method of the invention is 15 to 0.005%, e.g., 10 to 0.005%, 10 to 0.01%, 10 to 0.1%, 5 up to 0.005%, from 5 to 0.01%, from 5 to 0.1%, from 1 to 0.005%, from 1 to 0.01%, from 1 to 0.1%, from 0.5 to 0.005%, from 0.5 to 0.01%, from 0.5 to 0.1% or from 0.1 to 0.01 inclusive.
[549] В некоторых вариантах воплощения предел обнаружения такой, что обнаруживается (или может быть обнаружена) мутация (например, ОНВ или ВЧК), которая присутствует в количестве менее чем или равном 10, 5, 2, 1, 0,5, 0,1, 0,05, 0,01 или 0,005% молекулы ДНК или РНК с этим локусом в образце (например, образец скДНК или скРНК). Например, мутация может быть обнаружена, даже если меньше или равно 10, 5, 2, 1, 0,5, 0,1, 0,05, 0,01 или 0,005% молекул ДНК или РНК, имеющих этот локус, имеют эту мутацию в локусе (вместо, например, версии локуса дикого типа или немутантной версии локуса или другой мутации в этом локусе). В некоторых вариантах воплощения предел обнаружения таков, что обнаруживается (или способна быть обнаруженной) мутация (такая, как ОНВ или ВЧК), присутствующая в количестве меньшем или равном 10, 5, 2, 1, 0,5, 0,1, 0,05, 0,01 или 0,005% молекулы ДНК или РНК в образце (таком, как образец скДНК или скРНК). В некоторых вариантах воплощения, где ВЧК представляет собой делецию, делеция может быть обнаружена, даже если она присутствует только в количестве, меньшем или равном 10, 5, 2, 1, 0,5, 0,1, 0,05, 0,01 или 0,005% молекул ДНК или РНК, имеющих в образце представляющую интерес область, которая может содержать или не содержать делецию. В некоторых вариантах воплощения, где ВЧК представляет собой делецию, делеция может быть обнаружена, даже если она присутствует только в количестве, меньшем или равном 10, 5, 2, 1, 0,5, 0,1, 0,05, 0,01 или 0,005% молекул ДНК или РНК в образце. В некоторых вариантах воплощения, в которых ВЧК представляет собой дупликацию, дупликацию можно обнаружить, даже если присутствующая дополнительная дуплицированная ДНК или РНК меньше или равна 10, 5, 2, 1, 0,5, 0,1, 0,05, 0,01, или 0,005% молекул ДНК или РНК, имеющих представляющую интерес область, которая может или не может дуплицироваться в образце. В некоторых вариантах воплощения, где ВЧК представляет собой дупликацию, дупликацию можно обнаружить, даже если присутствующая дополнительная дуплицированная ДНК или РНК меньше или равна 10, 5, 2, 1, 0,5, 0,1, 0,05, 0,01, или 0,005% молекул ДНК или РНК в образце.[549] In some embodiments, the limit of detection is such that a mutation (e.g., CNV or ICH) is detected (or can be detected) that is present in an amount of less than or equal to 10, 5, 2, 1, 0.5, 0. 1, 0.05, 0.01, or 0.005% of the DNA or RNA molecule with that locus in a sample (e.g., a scDNA or scRNA sample). For example, a mutation may be detected even if less than or equal to 10, 5, 2, 1, 0.5, 0.1, 0.05, 0.01, or 0.005% of DNA or RNA molecules having that locus have that mutation at a locus (instead of, for example, a wild-type version of the locus or a non-mutant version of the locus or another mutation at that locus). In some embodiments, the limit of detection is such that a mutation (such as ONV or ICH) is detected (or capable of being detected) present in an amount less than or equal to 10, 5, 2, 1, 0.5, 0.1, 0, 05, 0.01 or 0.005% of the DNA or RNA molecule in a sample (such as a scDNA or scRNA sample). In some embodiments, where the ICH is a deletion, the deletion may be detected even if it is only present in an amount less than or equal to 10, 5, 2, 1, 0.5, 0.1, 0.05, 0.01 or 0.005% of DNA or RNA molecules having a region of interest in the sample, which may or may not contain a deletion. In some embodiments, where the ICH is a deletion, the deletion may be detected even if it is only present in an amount less than or equal to 10, 5, 2, 1, 0.5, 0.1, 0.05, 0.01 or 0.005% of DNA or RNA molecules in the sample. In some embodiments in which the ICH is a duplication, the duplication can be detected even if the additional duplicated DNA or RNA present is less than or equal to 10, 5, 2, 1, 0.5, 0.1, 0.05, 0.01 , or 0.005% of DNA or RNA molecules having a region of interest that may or may not be duplicated in the sample. In some embodiments, where the ICH is a duplication, the duplication can be detected even if the additional duplicated DNA or RNA present is less than or equal to 10, 5, 2, 1, 0.5, 0.1, 0.05, 0.01, or 0.005% of DNA or RNA molecules in the sample.
[550] Примерные образцы [550] Sample samples
[551] В некоторых вариантах воплощения любого из аспектов изобретения образец включает клеточный и/или внеклеточный генетический материал из клеток, подозреваемых в наличии делеции или дупликации, таких как клетки, предположительно являющиеся раковыми. В некоторых вариантах воплощения образец включает любую ткань или биологическую жидкость, предположительно содержащую клетки, ДНК или РНК, имеющие делецию или дупликацию, например опухоли или другие образцы, которые включают раковые клетки, ДНК или РНК. Генетические измерения, используемые как часть этих способов, могут быть выполнены на любом образце, содержащем ДНК или РНК, например, без ограничений, ткани, крови, сыворотки, плазмы, мочи, волос, слез, слюны, кожи, ногтей, фекалий, желчи, лимфы, цервикальной слизи, спермы, опухоли или других клетках или материалах, содержащих нуклеиновые кислоты. Образцы могут включать любой тип клеток или можно использовать ДНК или РНК из любого типа клеток (например, клетки любого органа или ткани, предположительно раковые, или нейроны). В некоторых вариантах воплощения образец включает ядерную и/или митохондриальную ДНК. В некоторых вариантах воплощения образец взят от любого из целевых индивидуумов, представленных в данном документе. В некоторых вариантах воплощения целевым индивидуумом является пациент с раком.[551] In some embodiments of any aspect of the invention, the sample includes cellular and/or extracellular genetic material from cells suspected of having a deletion or duplication, such as cells suspected of being cancerous. In some embodiments, the sample includes any tissue or biological fluid suspected of containing cells, DNA or RNA having a deletion or duplication, such as tumors or other samples that include cancer cells, DNA or RNA. Genetic measurements used as part of these methods can be performed on any sample containing DNA or RNA, such as, but not limited to, tissue, blood, serum, plasma, urine, hair, tears, saliva, skin, nails, feces, bile, lymph, cervical mucus, sperm, tumor or other cells or materials containing nucleic acids. Samples can include any type of cell, or DNA or RNA from any type of cell can be used (for example, cells of any organ or tissue suspected of being cancerous, or neurons). In some embodiments, the sample includes nuclear and/or mitochondrial DNA. In some embodiments, the sample is taken from any of the target individuals provided herein. In some embodiments, the target individual is a patient with cancer.
[552] Примерные образцы включают образцы, содержащие скДНК или скРНК. В некоторых вариантах воплощения скДНК доступна для анализа без потребности этапа лизиса клеток. Свободно-клеточная ДНК может быть получена из различных тканей, таких как ткани, которые находятся в жидкой форме, например, кровь, плазма, лимфа, асцитная жидкость или спинномозговая жидкость. В некоторых случаях скДНК состоит из ДНК, полученной из клеток плода. В некоторых случаях скДНК выделяют из плазмы, выделенной из цельной крови, центрифугированной для удаления клеточного материала. СкДНК может быть смесью ДНК, полученной из клеток-мишеней (таких как раковые клетки) и нецелевых клеток (таких как нераковые клетки).[552] Exemplary samples include samples containing scDNA or scRNA. In some embodiments, the scDNA is available for analysis without the need for a cell lysis step. Cell-free DNA can be obtained from various tissues, such as tissues that are in liquid form, such as blood, plasma, lymph, ascites fluid or cerebrospinal fluid. In some cases, cDNA consists of DNA obtained from fetal cells. In some cases, scDNA is isolated from plasma isolated from whole blood that has been centrifuged to remove cellular material. The scDNA can be a mixture of DNA obtained from target cells (such as cancer cells) and non-target cells (such as non-cancerous cells).
[553] В некоторых вариантах воплощения образец содержит или предположительно содержит смесь ДНК (или РНК), например смесь ДНК (или РНК), происходящей из раковых клеток, и ДНК (или РНК), происходящей из нераковых (то есть нормальных) клеток. В некоторых вариантах воплощения по меньшей мере 0,5, 1, 3, 5, 7, 10, 15, 20, 30, 40, 50, 60, 70, 80, 90, 92, 94, 95, 96, 98, 99 или 100% клеток в образце являются раковыми клетками. В некоторых вариантах воплощения по меньшей мере 0,5, 1, 3, 5, 7, 10, 15, 20, 30, 40, 50, 60, 70, 80, 90, 92, 94, 95, 96, 98, 99 или 100% ДНК (например, скДНК) или РНК (например, скРНК) в образце происходит из раковых клеток. В различных вариантах воплощения процент клеток в образце, являющихся раковыми, составляет от 0,5 до 99%, например, от 1 до 95%, от 5 до 95%, от 10 до 90%, от 5 до 70%, от 10 до 70%, от 20 до 90%, или от 20 до 70% включительно. В некоторых вариантах воплощения образец обогащен раковыми клетками или ДНК или РНК раковых клеток. В некоторых вариантах воплощения, в которых образец обогащен раковыми клетками по меньшей мере 0,5, 1, 2, 3, 4, 5, 6, 7, 10, 15, 20, 30, 40, 50, 60, 70, 80, 90, 92, 94, 95, 96, 98, 99 или 100% клеток в обогащенном образце являются раковыми клетками. В некоторых вариантах воплощения, в которых образец обогащен ДНК или РНК из раковых клеток по меньшей мере 0,5, 1, 2, 3, 4, 5, 6, 7, 10, 15, 20, 30, 40, 50, 60, 70, 80, 90, 92, 94, 95, 96, 98, 99 или 100% ДНК или РНК в обогащенном образце взяты из раковых клеток. В некоторых вариантах воплощения для обогащения раковыми клетками используется сортировка клеток (такая как сортировка флюоресцентно-активированных клеток (Fluorescent Activated Cell Sorting -FACS)) (Barteneva et. al., Biochim Biophys Acta., 1836(1):105-22, Aug 2013. doi: 10.1016/j.bbcan.2013.02.004. Epub 2013 Feb 24, and Ibrahim et al., Adv Biochem Eng Biotechnol. 106:19-39, 2007, каждый из этих документов полностью включен сюда посредством ссылки).[553] In some embodiments, the sample contains or is believed to contain a mixture of DNA (or RNA), such as a mixture of DNA (or RNA) derived from cancer cells and DNA (or RNA) derived from non-cancerous (ie, normal) cells. In some embodiments, at least 0.5, 1, 3, 5, 7, 10, 15, 20, 30, 40, 50, 60, 70, 80, 90, 92, 94, 95, 96, 98, 99 or 100% of the cells in the sample are cancer cells. In some embodiments, at least 0.5, 1, 3, 5, 7, 10, 15, 20, 30, 40, 50, 60, 70, 80, 90, 92, 94, 95, 96, 98, 99 or 100% of the DNA (eg, scDNA) or RNA (eg, scRNA) in the sample comes from cancer cells. In various embodiments, the percentage of cells in the sample that are cancerous is from 0.5 to 99%, for example, from 1 to 95%, from 5 to 95%, from 10 to 90%, from 5 to 70%, from 10 to 70%, from 20 to 90%, or from 20 to 70% inclusive. In some embodiments, the sample is enriched with cancer cells or DNA or RNA of cancer cells. In some embodiments, in which the sample is enriched in cancer cells by at least 0.5, 1, 2, 3, 4, 5, 6, 7, 10, 15, 20, 30, 40, 50, 60, 70, 80, 90, 92, 94, 95, 96, 98, 99 or 100% of the cells in the enriched sample are cancer cells. In some embodiments, wherein the sample is enriched in DNA or RNA from cancer cells by at least 0.5, 1, 2, 3, 4, 5, 6, 7, 10, 15, 20, 30, 40, 50, 60, 70, 80, 90, 92, 94, 95, 96, 98, 99, or 100% of the DNA or RNA in the enriched sample is from cancer cells. In some embodiments, cell sorting (such as Fluorescent Activated Cell Sorting (FACS)) is used to enrich for cancer cells (Barteneva et. al ., Biochim Biophys Acta., 1836(1):105-22, Aug 2013. doi: 10.1016/j.bbcan.2013.02.004. Epub 2013 Feb 24, and Ibrahim et al ., Adv Biochem Eng Biotechnol. 106:19-39, 2007, each of these documents is incorporated herein by reference in its entirety).
[554] В некоторых вариантах воплощения образец обогащен фетальными клетками. В некоторых вариантах воплощения, в которых образец обогащен фетальными клетками, по меньшей мере, 0,5, 1, 2, 3, 4, 5, 6, 7% или более клеток в обогащенном образце являются клетками плода. В некоторых вариантах воплощения процент клеток в образце, которые являются фетальными клетками, составляет от 0,5 до 100%, например, от 1 до 99%, от 5 до 95%, от 10 до 95%, от 10 до 95%, от 20 до 90% или от 30 до 70 % включительно. В некоторых вариантах воплощения образец обогащен фетальной ДНК. В некоторых вариантах воплощения, в которых образец обогащен фетальной ДНК по меньшей мере 0,5, 1, 2, 3, 4, 5, 6, 7% или более ДНК в обогащенном образце является фетальной ДНК. В некоторых вариантах воплощения процент ДНК в образце, которая является фетальной ДНК, составляет от 0,5 до 100%, например, от 1 до 99%, от 5 до 95%, от 10 до 95%, от 10 до 95%, от 20 до 90% или от 30 до 70 % включительно.[554] In some embodiments, the sample is enriched with fetal cells. In some embodiments, in which the sample is enriched in fetal cells, at least 0.5, 1, 2, 3, 4, 5, 6, 7% or more of the cells in the enriched sample are fetal cells. In some embodiments, the percentage of cells in the sample that are fetal cells is from 0.5 to 100%, for example, from 1 to 99%, from 5 to 95%, from 10 to 95%, from 10 to 95%, from 20 to 90% or from 30 to 70% inclusive. In some embodiments, the sample is enriched with fetal DNA. In some embodiments, in which the sample is enriched with fetal DNA, at least 0.5, 1, 2, 3, 4, 5, 6, 7% or more of the DNA in the enriched sample is fetal DNA. In some embodiments, the percentage of DNA in the sample that is fetal DNA is from 0.5 to 100%, for example, from 1 to 99%, from 5 to 95%, from 10 to 95%, from 10 to 95%, from 20 to 90% or from 30 to 70% inclusive.
[555] В некоторых вариантах воплощения образец включает одну клетку или включает ДНК и/или РНК из одной клетки. В некоторых вариантах воплощения множественные отдельные клетки (например по меньшей мере 5, 10, 20, 30, 40 или 50 клеток от одного и того же субъекта или от разных субъектов) анализируются параллельно. В некоторых вариантах воплощения клетки из множественных образцов от одного индивидуума объединяются, что сокращает объем работы по сравнению с анализом образцов по отдельности. Объединение множественных образцов также может позволить одновременно проверять несколько тканей на рак (что может использоваться для обеспечения или более тщательного скрининга на рак или для определения того, мог ли рак метастазировать в другие ткани).[555] In some embodiments, the sample includes a single cell or includes DNA and/or RNA from a single cell. In some embodiments, multiple single cells (eg, at least 5, 10, 20, 30, 40, or 50 cells from the same subject or from different subjects) are analyzed in parallel. In some embodiments, cells from multiple samples from a single individual are pooled, which reduces the amount of work compared to analyzing samples individually. Pooling multiple samples can also allow multiple tissues to be tested for cancer simultaneously (which can be used to provide either more thorough cancer screening or to determine whether cancer may have metastasized to other tissues).
[556] В некоторых вариантах воплощения образец содержит одну клетку или небольшое количество клеток, например 2, 3, 5, 6, 7, 8, 9 или 10 клеток. В некоторых вариантах воплощения образец содержит от 1 до 100, от 100 до 500 или от 500 до 1000 клеток включительно. В некоторых вариантах воплощения образец содержит от 1 до 10 пикограмм, от 10 до 100 пикограмм, от 100 пикограмм до 1 нанограмма, от 1 до 10 нанограммов, от 10 до 100 нанограммов или от 100 нанограммов до 1 микрограмма РНК и/или ДНК включительно.[556] In some embodiments, the sample contains a single cell or a small number of cells, such as 2, 3, 5, 6, 7, 8, 9, or 10 cells. In some embodiments, the sample contains from 1 to 100, from 100 to 500, or from 500 to 1000 cells, inclusive. In some embodiments, the sample contains from 1 to 10 picograms, from 10 to 100 picograms, from 100 picograms to 1 nanogram, from 1 to 10 nanograms, from 10 to 100 nanograms, or from 100 nanograms to 1 microgram of RNA and/or DNA, inclusive.
[557] В некоторых вариантах воплощения образец заключен в парафин. В некоторых вариантах воплощения образец хранится с консервантом, таким как формальдегид, и необязательно заключен в парафин, что может вызвать перекрестное сшивание ДНК, так что для ПЦР доступно ее меньшее количество. В некоторых вариантах воплощения образец представляет собой фиксированный в формальдегиде и заключенный в парафин (formaldehyde fixed-paraffin embedded - FFPE) образец. В некоторых вариантах воплощения образец представляет собой свежий образец (например, образец, полученный за 1 или 2 дня анализа). В некоторых вариантах воплощения образец замораживают перед анализом. В некоторых вариантах воплощения образец представляет собой исторический образец.[557] In some embodiments, the sample is embedded in paraffin. In some embodiments, the sample is stored with a preservative, such as formaldehyde, and optionally embedded in paraffin, which can cause cross-linking of the DNA so that less of it is available for PCR. In some embodiments, the sample is a formaldehyde fixed-paraffin embedded (FFPE) sample. In some embodiments, the sample is a fresh sample (eg, a sample obtained from 1 or 2 days of analysis). In some embodiments, the sample is frozen prior to analysis. In some embodiments, the sample is a historical sample.
[558] Эти образцы можно использовать в любом из способов изобретения.[558] These samples can be used in any of the methods of the invention.
[559] Примерные способы подготовки образца [559] Example Sample Preparation Methods
[560] В некоторых вариантах воплощения способ включает выделение или очистку ДНК и/или РНК. Для достижения этой цели известен ряд стандартных процедур. В некоторых вариантах воплощения образец можно центрифугировать для разделения различных слоев. В некоторых вариантах воплощения ДНК или РНК можно выделить с помощью фильтрации. В некоторых вариантах воплощения подготовка ДНК или РНК может включать амплификацию, разделение, очистку с помощью хроматографии, жидкостное разделение, выделение, предпочтительное обогащение, предпочтительную амплификацию, целевую амплификацию или любой из ряда других способов, известных в данной области техники или представленных в данном документе. В некоторых вариантах воплощения для выделения ДНК используется РНКаза для разложения РНК. В некоторых вариантах воплощения для выделения РНК, для разложения ДНК используется ДНКаза (такая как ДНКаза I от Invitrogen, Carlsbad, CA, США). В некоторых вариантах воплощения для выделения РНК используется мини-набор RNeasy (Qiagen) в соответствии с протоколом производителя. В некоторых вариантах воплощения малые молекулы РНК выделяют с использованием набора mirVana PARIS (Ambion, Austin, TX, Техас, США) в соответствии с протоколом производителя (Gu et al., J. Neurochem. 122:641-649, 2012, документ полностью включен сюда посредством ссылки). Концентрацию и чистоту РНК можно необязательно определить с использованием Nanovue (GE Healthcare, Piscataway, NJ, США), и целостность РНК можно необязательно определить с использованием 2100 Bioanalyzer (Agilent Technologies, Santa Clara, CA, США) (Gu et al., J. Neurochem. 122:641-649, 2012, документ полностью включен сюда посредством ссылки). В некоторых вариантах воплощения для стабилизации РНК во время хранения используется TRIZOL или RNAlater (Ambion).[560] In some embodiments, the method includes isolating or purifying DNA and/or RNA. A number of standard procedures are known to achieve this goal. In some embodiments, the sample may be centrifuged to separate the different layers. In some embodiments, DNA or RNA can be isolated using filtration. In some embodiments, preparation of DNA or RNA may involve amplification, separation, chromatographic purification, liquid separation, isolation, preferential enrichment, preferential amplification, targeted amplification, or any of a number of other methods known in the art or presented herein. In some embodiments, RNase is used to degrade the RNA to isolate DNA. In some embodiments, a DNase (such as DNase I from Invitrogen, Carlsbad, CA, USA) is used to isolate RNA to degrade DNA. In some embodiments, the RNeasy mini kit (Qiagen) is used to isolate RNA according to the manufacturer's protocol. In some embodiments, small RNA molecules are isolated using the mirVana PARIS kit (Ambion, Austin, TX, USA) according to the manufacturer's protocol (Gu et al ., J. Neurochem. 122:641-649, 2012, entire document incorporated here via link). RNA concentration and purity can optionally be determined using Nanovue (GE Healthcare, Piscataway, NJ, USA), and RNA integrity can optionally be determined using a 2100 Bioanalyzer (Agilent Technologies, Santa Clara, CA, USA) (Gu et al ., J. Neurochem 122:641–649, 2012, incorporated herein by reference in its entirety). In some embodiments, TRIzol or RNAlater (Ambion) is used to stabilize the RNA during storage.
[561] В некоторых вариантах воплощения для создания библиотеки добавлены универсальные меченные адапторы. Перед лигированием образец ДНК может быть тупым концом, а затем к 3'-концу добавляется одно аденозиновое основание. Перед лигированием ДНК можно расщепить рестриктазой или каким-либо другим способом расщепления. Во время лигирования 3'-аденозин фрагментов образца и комплементарный 3'-тирозиновый «липкий» конец адаптора могут усиливать эффективность лигирования. В некоторых вариантах воплощения лигирование адаптора проводится с использованием набора для лигирования, находящегося в наборе AGILENT SURESELECT. В некоторых вариантах воплощения библиотека амплифицирована с использованием универсальных праймеров. В одном из вариантов воплощения амплифицированная библиотека фракционируется путем разделения по размеру или с использованием таких продуктов, как микрогранулы AGENCOURT AMPURE, или другими аналогичными способами. В некоторых вариантах воплощения для амплификации целевых локусов используется ПЦР-амплификация. В некоторых вариантах воплощения амплифицированная ДНК секвенируется (например, секвенирование с использованием секвенатора ILLUMINA IIGAX или HiSeq). В некоторых вариантах воплощения амплифицированная ДНК секвенируется с каждого конца амплифицированной ДНК для уменьшения ошибок секвенирования. Если при секвенировании с одного конца амплифицированной ДНК имеется ошибка последовательности в определенном основании, то ошибка последовательности в комплементарном основании при секвенировании с другой стороны амплифицированной ДНК будет происходить с меньшей вероятностью (по сравнению с многократным секвенированием с одного и того же конца амплифицированной ДНК).[561] In some embodiments, universal tagged adapters are added to create the library. Before ligation, the DNA sample can be blunt ended and then a single adenosine base is added to the 3' end. Before ligation, the DNA can be digested with a restriction enzyme or some other digestion method. During ligation, the 3' adenosine of the sample fragments and the complementary 3' tyrosine sticky end of the adapter can enhance the ligation efficiency. In some embodiments, ligation of the adapter is performed using a ligation kit found in the AGILENT SURESELECT kit. In some embodiments, the library is amplified using universal primers. In one embodiment, the amplified library is fractionated by size separation or using products such as AGENCOURT AMPURE microbeads or other similar methods. In some embodiments, PCR amplification is used to amplify target loci. In some embodiments, the amplified DNA is sequenced (eg, sequencing using an ILLUMINA IIGAX or HiSeq sequencer). In some embodiments, the amplified DNA is sequenced from each end of the amplified DNA to reduce sequencing errors. If there is a sequence error at a particular base when sequencing one end of the amplified DNA, then a sequence error at the complementary base when sequencing the other side of the amplified DNA is less likely to occur (compared to sequencing the same end of the amplified DNA multiple times).
[562] В некоторых вариантах воплощения для амплификации образца нуклеиновой кислоты применяется полногеномная амплификация (whole genome amplification - WGA). Существует ряд способов для WGA: опосредованная лигированием ПЦР (ligation-mediated PCR - LM-PCR), ПЦР с вырожденными нуклеотидными праймерами (degenerate oligonucleotide primer PCR - DOP-PCR) и амплификация с множественным замещением (multiple displacement amplification - MDA). При LM-PCR короткие последовательности ДНК, называемые адапторами, лигируются с тупыми концами ДНК. Эти адапторы содержат универсальные последовательности амплификации, которые используются для амплификации ДНК с помощью ПЦР. В DOP-PCR в первом цикле отжига и ПЦР используются случайные праймеры, которые также содержат универсальные последовательности амплификации. Затем используется второй цикл ПЦР для дальнейшей амплификации последовательностей с помощью последовательностей универсальных праймеров. MDA использует полимеразу phi-29, которая является высокопроизводительным и неспецифическим ферментом, который реплицирует ДНК и используется для анализа отдельных клеток. В некоторых вариантах воплощения WGA не проводится.[562] In some embodiments, whole genome amplification (WGA) is used to amplify a nucleic acid sample. There are a number of methods for WGA: ligation-mediated PCR (LM-PCR), PCR with degenerate nucleotide primers (DOP-PCR) and multiple displacement amplification (MDA). In LM-PCR, short DNA sequences called adapters are ligated to the blunt ends of DNA. These adapters contain universal amplification sequences that are used to amplify DNA using PCR. In DOP-PCR, the first round of annealing and PCR uses random primers that also contain universal amplification sequences. A second round of PCR is then used to further amplify the sequences using universal primer sequences. MDA uses phi-29 polymerase, which is a high-throughput and non-specific enzyme that replicates DNA and is used for single cell analysis. In some embodiments, WGA is not performed.
[563] В некоторых вариантах воплощения для амплификации или обогащения целевых локусов используется селективная амплификация. В некоторых вариантах воплощения способ амплификации и/или селективного обогащения может включать ПЦР, такую как ПЦР, опосредованную лигированием, захват фрагмента гибридизацией, инвертируемые молекулярные зонды или другие циркуляризующие зонды. В некоторых вариантах воплощения используется количественная ПЦР в реальном времени (real-time quantitative PCR - RT-qPCR), цифровая ПЦР или эмульсионная ПЦР, реакция достройки по одному основанию в аллеле с последующей масс-спектрометрией (Hung et al., J Clin Pathol 62:308-313, 2009, документ полностью включен сюда посредством ссылки). В некоторых вариантах воплощения для предпочтительного обогащения ДНК используется захват путем гибридизации с гибридными зондами захвата. В некоторых вариантах воплощения способы амплификации или селективного обогащения могут включать использование зондов, в которых при правильной гибридизации с целевой последовательностью 3'-конец или 5'-конец нуклеотидного зонда отделяется от полиморфного сайта полиморфного аллеля небольшим количеством нуклеотидов. Это разделение снижает предпочтительную амплификацию одного аллеля, называемую смещением аллеля. Это является усовершенствованием по сравнению со способами, которые включают использование зондов, в которых 3'- конец или 5'-конец правильно гибридизированного зонда находятся непосредственно рядом или очень близко к полиморфному сайту аллеля. В одном варианте воплощения зонды, в которых гибридизирующаяся область может содержать или обязательно содержит полиморфный сайт, исключаются. Полиморфные сайты в месте гибридизации могут вызывать неравную гибридизацию или вообще подавлять гибридизацию некоторых аллелей, что приводит к предпочтительной амплификации определенных аллелей. Эти варианты воплощения являются усовершенствованиями по сравнению с другими способами, которые включают целевую амплификацию и/или селективное обогащение, в том смысле, что они лучше сохраняют исходные частоты аллелей образца в каждом полиморфном локусе, независимо от того, является ли образец чистым геномным образцом от одного индивидуума или от смеси индивидуумов.[563] In some embodiments, selective amplification is used to amplify or enrich target loci. In some embodiments, the amplification and/or selective enrichment method may include PCR, such as ligation-mediated PCR, fragment capture hybridization, invertible molecular probes, or other circularizing probes. Some embodiments use real-time quantitative PCR (RT-qPCR), digital PCR, or emulsion PCR, single-base extension reaction followed by mass spectrometry (Hung et al., J Clin Pathol 62 :308-313, 2009, incorporated herein by reference in its entirety). In some embodiments, capture by hybridization with hybrid capture probes is used to preferentially enrich DNA. In some embodiments, amplification or selective enrichment methods may involve the use of probes in which, when properly hybridized to the target sequence, the 3' end or 5' end of the nucleotide probe is separated from the polymorphic site of the polymorphic allele by a small number of nucleotides. This separation reduces the preferential amplification of one allele, called allele bias. This is an improvement over methods that involve the use of probes in which the 3' end or 5' end of the correctly hybridized probe is immediately adjacent or very close to the polymorphic site of the allele. In one embodiment, probes in which the hybridizing region may or necessarily contains a polymorphic site are excluded. Polymorphic sites at the site of hybridization may cause unequal hybridization or even suppress hybridization of some alleles, resulting in preferential amplification of certain alleles. These embodiments are improvements over other methods that involve targeted amplification and/or selective enrichment in that they better preserve the sample's original allele frequencies at each polymorphic locus, regardless of whether the sample is a pure genomic sample from one individual or from a mixture of individuals.
[564] В некоторых вариантах воплощения для получения очень коротких ампликонов используется ПЦР (именуемая мини-ПЦР) (Заявка на патент США № 13/683604, поданная 21 ноября 2012 года, Публикация заявки на патент США № 2013/0123120, Заявка на патент США № 13/300235, поданная 18 ноября 2011 года, Публикация заявки на патент США № 2012/0270212, поданная 18 ноября 2011 года и Предварительная заявка на патент США, регистрационный № 61/994791, поданная 16 мая 2014 года, каждый из этих документов полнростью включен сюда посредством ссылки). скДНК (такая, как раковая ДНК, освобождаемая вследствие некроза или апоптоза) высоко фрагментирована. Для фетальной скДНК размеры фрагментов распределяются приблизительно по Гауссу со средним значением 160 п.н., стандартным отклонением 15 п.н., минимальным размером приблизительно 100 п.н. и максимальным размером приблизительно 220 п.н. Полиморфный сайт одного конкретного целевого локуса может занимать любую позицию среди различных фрагментов, происходящих из этого локуса, от начала до конца. Поскольку фрагменты скДНК короткие, вероятность присутствия обоих сайтов праймеров и вероятность того, что фрагмент длиной L содержит сайты как прямого, так и обратного праймеров, представляет собой отношение длины ампликона к длине фрагмента. В идеальных условиях анализы, в которых ампликон составляет 45, 50, 55, 60, 65 или 70 п.н., будут успешно амплифицироваться с, соответственно, 72, 69, 66, 63, 59 или 56% доступных молекул фрагментов матрицы. В некоторых вариантах воплощения, которые наиболее предпочтительно относятся к скДНК из образцов индивидуумов с подозрением на рак, скДНК амплифицируют с использованием праймеров, которые дают максимальную длину ампликона 85, 80, 75 или 70 п.н., а в некоторых предпочтительных вариантах воплощения 75 п.н., и которые имеют температуру плавленияа от 50 до 65 °C, а в некоторых предпочтительных вариантах воплощения от 54 до 60,5 °C. Длина ампликона - это расстояние между 5'-концами прямого и обратного праймированных сайтов. Длина ампликона, которая короче чем та, что обычно используется способами, известными в данной области техники, может привести к более эффективным измерениям желаемых полиморфных локусов, при этом требуется только считывания коротких последовательностей. В одном из вариантов воплощения значительная часть ампликонов имеет размер менее 100 п.н., менее 90 п.н., менее 80 п.н., менее 70 п.н., менее 65 п.н., менее 60 п.н., менее 55 п.н., менее 50 п.н. или менее 45 п.н.[564] In some embodiments, PCR (referred to as mini-PCR) is used to generate very short amplicons (U.S. Patent Application No. 13/683604, filed November 21, 2012, U.S. Patent Application Publication No. 2013/0123120, U.S. Patent Application No. 13/300235, filed November 18, 2011, US Patent Application Publication No. 2012/0270212, filed November 18, 2011, and US Provisional Patent Application Serial No. 61/994791, filed May 16, 2014, each in its entirety incorporated herein by reference). scDNA (such as cancer DNA released due to necrosis or apoptosis) is highly fragmented. For fetal scDNA, fragment sizes are approximately Gaussian with a mean of 160 bp, a standard deviation of 15 bp, and a minimum size of approximately 100 bp. and a maximum size of approximately 220 bp. The polymorphic site of one particular target locus can occupy any position among the various fragments originating from that locus, from beginning to end. Because scDNA fragments are short, the probability that both primer sites are present and the probability that a fragment of length L contains both forward and reverse primer sites is the ratio of the amplicon length to the fragment length. Under ideal conditions, assays in which the amplicon is 45, 50, 55, 60, 65, or 70 bp will successfully amplify from, respectively, 72, 69, 66, 63, 59, or 56% of the available template fragment molecules. In some embodiments, most preferably for scDNA from samples of individuals suspected of having cancer, the scDNA is amplified using primers that produce a maximum amplicon length of 85, 80, 75, or 70 bp, and in some preferred embodiments, 75 bp .n., and which have a melting point of from 50 to 65 °C, and in some preferred embodiments from 54 to 60.5 °C. Amplicon length is the distance between the 5' ends of the forward and reverse primed sites. Amplicon lengths that are shorter than those typically used by methods known in the art can result in more efficient measurements of desired polymorphic loci while only requiring short sequence reads. In one embodiment, a significant portion of the amplicons are less than 100 bp, less than 90 bp, less than 80 bp, less than 70 bp, less than 65 bp, less than 60 bp ., less than 55 bp, less than 50 bp. or less than 45 bp
[565] В некоторых вариантах воплощения апмлификация проводится с использованием прямой мультиплексной ПЦР, последовательной ПЦР, вложенной ПЦР, двойной вложенной ПЦР, полуторасторонней вложенной ПЦР, полностью вложенной ПЦР, односторонней полностью вложенной ПЦР, односторонней вложенной ПЦР, геми-вложенной ПЦР, геми-вложенной ПЦР, трижды геми-вложенной ПЦР, полу-вложенной ПЦР, односторонней полу-вложенной ПЦР, способом обратной полу-вложенной ПЦР или односторонней ПЦР, которые описаны в Заявке на патент США № 13/683604, поданной 21 ноября 2012 года, Публикации заявки на патент США No. 2013/0123120, Заявке на патент США № 13/300235, поданной 18 ноября 2011 года, Публикации заявки на патент США № 2012/0270212 и в Предварительной заявке на патент США, регистрационный № 61/994791, поданной 16 мая 2014 года, документы полностью включены сюда посредством ссылки. При необходимости для мини-ПЦР можно использовать любой из этих способов.[565] In some embodiments, amplification is performed using direct multiplex PCR , sequential PCR, nested PCR, double nested PCR, one-and-a-half-way nested PCR, fully nested PCR, one-way fully nested PCR, one-way nested PCR, hemi-nested PCR, hemi-nested PCR , triple hemi-nested PCR, semi-nested PCR, one-way semi-nested PCR, reverse semi-nested PCR or one-way PCR, which are described in US Patent Application No. 13/683604, filed November 21, 2012, Application Publication No. US Patent No. 2013/0123120, US Patent Application No. 13/300235, filed November 18, 2011, US Patent Application Publication No. 2012/0270212 and US Provisional Patent Application Serial No. 61/994791, filed May 16, 2014, documents in full incorporated herein by reference. If necessary, any of these methods can be used for mini-PCR.
[566] При необходимости стадия удлинения в ПЦР амплификации может быть ограничена с точки зрения времени, чтобы уменьшить амплификацию от фрагментов длиной более 200 нуклеотидов, 300 нуклеотидов, 400 нуклеотидов, 500 нуклеотидов или 1000 нуклеотидов. Это может привести к обогащению фрагментированной или более короткой ДНК (например, фетальной ДНК или ДНК из раковых клеток, подвергшихся апоптозу или некрозу) и улучшению результатов теста.[566] If necessary, the extension step in PCR amplification can be time-limited to reduce amplification from fragments longer than 200 nucleotides, 300 nucleotides, 400 nucleotides, 500 nucleotides, or 1000 nucleotides. This may result in enrichment of fragmented or shorter DNA (eg, fetal DNA or DNA from cancer cells that have undergone apoptosis or necrosis) and improved test results.
[567] В некоторых вариантах воплощения используется мультиплексная ПЦР. В некоторых вариантах воплощения способ амплификации целевых локусов в образце нуклеиновой кислоты включает (i) приведение образца нуклеиновой кислоты в контакт с библиотекой праймеров, которые одновременно гибридизируются по меньшей мере с 100; 200; 500; 750; 1000; 2000; 5000; 7500; 10,000; 20,000; 25000; 30,000; 40000; 50000; 75000; или 100000 различных целевых локусов для получения реакционной смеси; и (ii) воздействие на реакционную смесь условий реакции удлинения праймера (таких как условия ПЦР) для получения амплифицированных продуктов, которые включают целевые ампликоны. В некоторых вариантах воплощения амплифицируются по меньшей мере 50, 60, 70, 80, 90, 95, 96, 97, 98, 99 или 99,5% целевых локусов. В различных вариантах воплощения менее 60, 50, 40, 30, 20, 10, 5, 4, 3, 2, 1, 0,5, 0,25, 0,1 или 0,05% продуктов амплификации представляют собой димеры праймеров. В некоторых вариантах воплощения праймеры находятся в растворе (например, растворены в жидкой фазе, а не в твердой фазе). В некоторых вариантах воплощения праймеры находятся в растворе и не иммобилизованы на твердой подложке. В некоторых вариантах воплощения праймеры не являются частью микроматрицы. В некоторых вариантах воплощения праймеры не включают инвертируемые молекулярные зонды (MIP).[567] In some embodiments, multiplex PCR is used. In some embodiments, a method for amplifying target loci in a nucleic acid sample comprises (i) contacting the nucleic acid sample with a library of primers that simultaneously hybridize to at least 100; 200; 500; 750; 1000; 2000; 5000; 7500; 10,000; 20,000; 25000; 30,000; 40000; 50000; 75000; or 100,000 different target loci to obtain a reaction mixture; and (ii) subjecting the reaction mixture to primer extension reaction conditions (such as PCR conditions) to produce amplified products that include the target amplicons. In some embodiments, at least 50, 60, 70, 80, 90, 95, 96, 97, 98, 99, or 99.5% of the target loci are amplified. In various embodiments, less than 60, 50, 40, 30, 20, 10, 5, 4, 3, 2, 1, 0.5, 0.25, 0.1, or 0.05% of the amplification products are primer dimers. In some embodiments, the primers are in solution (eg, dissolved in a liquid phase rather than in a solid phase). In some embodiments, the primers are in solution and are not immobilized on a solid support. In some embodiments, the primers are not part of the microarray. In some embodiments, the primers do not include molecular invertible probes (MIPs).
[568] В некоторых вариантах воплощения два или более (например, 3 или 4) целевых ампликона (таких, как ампликоны из раскрытого в данном документе способа мини-ПЦР) лигируют вместе, а затем лигированные продукты секвенируют. Объединение нескольких ампликонов в один продукт лигирования увеличивает эффективность последующего этапа секвенирования. В некоторых вариантах воплощения целевые ампликоны имеют длину менее 150, 100, 90, 75 или 50 пар оснований до лигирования. Селективное обогащение и/или амплификация может включать маркировку каждой отдельной молекулы различными метками, молекулярными штрих-кодами, метками для амплификации и/или метками для секвенирования. В некоторых вариантах воплощения амплифицированные продукты анализируются секвенированием (например, высокопроизводительным секвенированием) или гибридизацией с матрицей, такой как ОНП матрица, матрица ILLUMINA INFINIUM или генный чип AFFYMETRIX. В некоторых вариантах воплощения используется нанопоровое секвенирование, такое как технология нанопорового секвенирования, разработанная Genia (см., например, всемирную сеть по адресу geniachip.com/technology, документ полностью включен сюда посредством ссылки). В некоторых вариантах воплощения используется дуплексное секвенирование (Schmitt et al., “Detection of ultra-rare mutations by next-generation sequencing,” Proc Natl Acad Sci U S A. 109(36): 14508-14513, 2012, документ полностью включен сюда посредством ссылки). Такой подход значительно снижает количество ошибок за счет независимой маркировки и секвенирования каждой из двух цепей дуплекса ДНК. Поскольку две цепи комплементарны, истинные мутации обнаруживают в одном и том же положении в обеих цепях. Напротив, ошибки ПЦР или секвенирования приводят к мутациям только в одной цепи и, таким образом, могут быть исключены как техническая ошибка. В некоторых вариантах воплощения способ включает метку обеих цепей дуплексной ДНК случайной, но комплементарной двухцепочечной нуклеотидной последовательностью, называемой дуплексной меткой. Последовательности двухцепочечной метки включаются в стандартные адапторы для секвенирования, сначала вводя одноцепочечную рандомизированную нуклеотидную последовательность в одну цепь адаптора, а затем удлиняя противоположную цепь ДНК-полимеразой с получением комплементарной двухцепочечной метки. После лигирования меченых адапторов к разрезанной ДНК индивидуально меченые нити амплифицируются с помощью ПЦР из асимметричных праймерных сайтов на хвостах адаптора и подвергаются секвенированию спаренных концов. В некоторых вариантах воплощения образец (например, образец ДНК или РНК) делится на несколько фракций, например на разные лунки (например, лунки от WaferGenSmartChip). Разделение образца на разные фракции (например по меньшей мере на 5, 10, 20, 50, 75, 100, 150, 200 или 300 фракций) может повысить чувствительность анализа, поскольку в некоторых из лунок процент молекул с мутацией выше, чем в общем образце. В некоторых вариантах воплощения каждая фракция содержит менее 500, 400, 200, 100, 50, 20, 10, 5, 2 или 1 молекулу ДНК или РНК. В некоторых вариантах воплощения молекулы в каждой фракции секвенируются отдельно. В некоторых вариантах воплощения ко всем молекулам в одной и той же фракции добавляется один и тот же штрих-код (например, случайная последовательность или последовательность, не относящаяся к человеку) (например, путем амплификации с праймером, содержащим штрих-код, или путем лигирования штрих-кода), и к молекулам добавляются разные штрих-коды в разных фракциях. Молекулы со штрих-кодом можно объединять и секвенировать вместе. В некоторых вариантах воплощения молекулы амплифицируются перед объединением и секвенированием, например, с использованием вложенной ПЦР. В некоторых вариантах воплощения используются один прямой и два обратных праймера или два прямых и один обратный праймеры. [568] In some embodiments, two or more (eg, 3 or 4) target amplicons (such as amplicons from a mini-PCR method disclosed herein) are ligated together and the ligated products are then sequenced. Combining multiple amplicons into a single ligation product increases the efficiency of the subsequent sequencing step. In some embodiments, the target amplicons are less than 150, 100, 90, 75, or 50 base pairs in length before ligation. Selective enrichment and/or amplification may involve tagging each individual molecule with various tags, molecular barcodes, amplification tags, and/or sequencing tags. In some embodiments, the amplified products are analyzed by sequencing (eg, high-throughput sequencing) or hybridization to an array, such as an SNP array, an ILLUMINA INFINIUM array, or an AFFYMETRIX gene chip. In some embodiments, nanopore sequencing is used, such as nanopore sequencing technology developed by Genia (see, for example, the World Wide Web at geniachip.com/technology, the document is incorporated herein by reference in its entirety). In some embodiments, duplex sequencing is used (Schmitt et al., “Detection of ultra-rare mutations by next-generation sequencing,” Proc Natl Acad Sci U S A. 109(36): 14508-14513, 2012, incorporated herein in its entirety by links). This approach significantly reduces errors by independently labeling and sequencing each of the two strands of the DNA duplex. Because the two strands are complementary, true mutations are found at the same position on both strands. In contrast, PCR or sequencing errors result in mutations in only one strand and can thus be ruled out as a technical error. In some embodiments, the method includes tagging both strands of duplex DNA with a random but complementary double-stranded nucleotide sequence, called a duplex tag. Double-stranded tag sequences are incorporated into standard sequencing adapters by first introducing a single-stranded random nucleotide sequence into one strand of the adapter and then extending the opposite strand by DNA polymerase to produce a complementary double-stranded tag. After ligation of tagged adapters to cut DNA, the individually tagged strands are amplified by PCR from asymmetric primer sites on the tails of the adapter and subjected to paired-end sequencing. In some embodiments, the sample (eg, a DNA or RNA sample) is divided into multiple fractions, such as into different wells (eg, wells from a WaferGenSmartChip). Dividing the sample into different fractions (e.g., at least 5, 10, 20, 50, 75, 100, 150, 200, or 300 fractions) can increase the sensitivity of the assay because some of the wells have a higher percentage of molecules with the mutation than the overall sample. . In some embodiments, each fraction contains less than 500, 400, 200, 100, 50, 20, 10, 5, 2, or 1 molecule of DNA or RNA. In some embodiments, the molecules in each fraction are sequenced separately. In some embodiments, the same barcode (e.g., random or non-human sequence) is added to all molecules in the same fraction (e.g., by amplification with a primer containing the barcode or by ligation barcode), and different barcodes are added to the molecules in different fractions. Barcoded molecules can be combined and sequenced together. In some embodiments, the molecules are amplified before pooling and sequencing, for example, using nested PCR. In some embodiments, one forward and two reverse primers or two forward and one reverse primers are used.
[569] В некоторых вариантах воплощения обнаруживается (или может быть обнаружена) мутация (например, ОНВ или ВЧК), которая присутствует менее чем в 10, 5, 2, 1, 0,5, 0,1, 0,05, 0,01 или 0,005% молекул ДНК или РНК в образце (например, в образце скДНК или скРНК). В некоторых вариантах воплощения обнаруживается (или может быть обнаружена) мутация (например, ОНВ или ВЧК), которая присутствует менее чем в 1000, 500, 100, 50, 20, 10, 5, 4, 3 или 2 исходных молекулах ДНК или РНК (до амплификации) в образце (таком, как образец скДНК или скРНК из, например, образца крови). В некоторых вариантах воплощения обнаруживается (или может быть обнаружена) мутация (например, ОНВ или ВЧК), которая присутствует только в 1 исходной молекуле ДНК или РНК (до амплификации) в образце (например, в образце скДНК или скРНК из, например, образца крови).[569] In some embodiments, a mutation is (or may be) detected (e.g., ONV or ICH) that is present in less than 10, 5, 2, 1, 0.5, 0.1, 0.05, 0. 01 or 0.005% of the DNA or RNA molecules in a sample (e.g., a scDNA or scRNA sample). In some embodiments, a mutation is (or may be) detected (e.g., ONV or ICH) that is present in less than 1000, 500, 100, 50, 20, 10, 5, 4, 3, or 2 original DNA or RNA molecules ( before amplification) in a sample (such as a scDNA sample or scRNA from, for example, a blood sample). In some embodiments, a mutation is (or may be) detected (e.g., ONV or ICH) that is present in only 1 original DNA or RNA molecule (prior to amplification) in a sample (e.g., a scDNA or scRNA sample from, e.g., a blood sample ).
[570] Например, если предел обнаружения мутации (такой как однонуклеотидный вариант (ОНВ)) составляет 0,1%, мутацию, присутствующую в 0,01%, можно обнаружить, разделив фракцию на несколько фракций, таких как 100 лунок. В большинстве лунок копии мутации отсутствуют. Для нескольких лунок с мутацией мутация находится в гораздо более высоком проценте считываний. В одном примере имеется 20000 начальных копий ДНК из целевого локуса, и две из этих копий включают представляющий интерес ОНВ. Если образец разделен на 100 лунок, 98 лунок содержат ОНВ, а 2 лунки - 0,5%. ДНК в каждой лунке можно закодировать, амплифицировать, объединить с ДНК из других лунок и секвенировать. Лунки без ОНВ можно использовать для измерения частоты ошибок фоновой амплификации/секвенирования для того, чтобы определить, превышает ли сигнал из лунок с выпадающими значениями фоновый уровень шума. [570] For example, if the detection limit of a mutation (such as a single nucleotide variant (SNV)) is 0.1%, the mutation present in 0.01% can be detected by dividing the fraction into several fractions, such as 100 wells. In most wells there are no copies of the mutation. For several wells with a mutation, the mutation is in a much higher percentage of reads. In one example, there are 20,000 initial copies of DNA from a target locus, and two of these copies include the ONV of interest. If the sample is divided into 100 wells, 98 wells contain OBC and 2 wells contain 0.5%. The DNA in each well can be encoded, amplified, combined with DNA from other wells, and sequenced. Wells without OCBs can be used to measure the background amplification/sequencing error rate to determine whether the signal from outlier wells exceeds the background noise level.
[571] В некоторых вариантах воплощения амплифицированные продукты обнаруживают с использованием матрицы, такой как матрица, в частности микроматрица с зондами для одной или более представляющих интерес хромосом (например, хромосомы 13, 18, 21, X, Y или любой их комбинации). Понятно, например, что можно использовать коммерчески доступные микрочипы для обнаружения ОНП, такие как, например, анализ генотипирования Illumina (San Diego, CA) GoldenGate, DASL, Infinium или CytoОНП-12, или продукт для обнаружения ОНП от Affymetrix, например, микрочип OncoScan.[571] In some embodiments, amplified products are detected using an array, such as an array, particularly a microarray with probes for one or more chromosomes of interest (eg, chromosomes 13, 18, 21, X, Y, or any combination thereof). It is clear, for example, that one can use commercially available SNP detection microarrays, such as, for example, the Illumina (San Diego, CA) GoldenGate, DASL, Infinium, or CytoSNP-12 genotyping assay, or a SNP detection product from Affymetrix, such as the OncoScan microarray .
[572] В некоторых вариантах воплощения, включающих секвенирование, глубина считывания представляет собой количество считываний секвенирования, которые соответствуют заданному локусу. Глубина считываний может быть нормализована по общему количеству считываний. В некоторых вариантах воплощения для глубины считывания образца глубина считывания - это средняя глубина считывания по целевым локусам. В некоторых вариантах воплощения для глубины считывания локуса глубина считывания представляет собой количество считываний, измеренное путем картирования секвенатором этого локуса. В целом, чем больше глубина считывания локуса, тем ближе соотношение аллелей в локусе к соотношению аллелей в исходном образце ДНК. Глубину считывания можно выразить множеством различных способов, включая, помимо прочего, процент или пропорцию. Так, например, в высокопараллельном секвенаторе ДНК, таком как Illumina HISEQ, который, например, производит последовательность из 1 миллиона клонов, секвенирование одного локуса 3000 раз приводит к глубине считывания 3000 считываний в этом локусе. Пропорция считываний в этом локусе равна 3000, деленным на 1 миллион общего количества считываний, или 0,3% общего количества считываний. [572] In some embodiments involving sequencing, read depth is the number of sequencing reads that correspond to a given locus. The read depth can be normalized by the total number of reads. In some embodiments, for a sample read depth, the read depth is the average read depth across the target loci. In some embodiments, for the read depth of a locus, the read depth is the number of reads measured by sequencer mapping of that locus. In general, the greater the read depth of a locus, the closer the ratio of alleles at the locus is to the ratio of alleles in the original DNA sample. Reading depth can be expressed in many different ways, including but not limited to percentage or proportion. So, for example, in a highly parallel DNA sequencer such as Illumina HISEQ, which for example produces a sequence of 1 million clones, sequencing a single locus 3000 times results in a read depth of 3000 reads at that locus. The proportion of reads at this locus is 3000 divided by 1 million total reads, or 0.3% of the total reads.
[573] В некоторых вариантах воплощения получают аллельные данные, при этом аллельные данные включают количественные измерения, показывающие количество копий определенного аллеля полиморфного локуса. В некоторых вариантах воплощения аллельные данные включают количественные измерения, показывающие количество копий каждого из аллелей, наблюдаемых в полиморфном локусе. Как правило, количественные измерения получают для всех возможных аллелей представляющего интерес полиморфного локуса. Например, любой из способов, представленных в предыдущих параграфах для определения аллеля для локуса ОНП или ОНВ, такой как, например, микроматрицы, кПЦР, секвенирование ДНК, такое как высокопроизводительное секвенирование ДНК, можно использовать для генерации количественных измерений количества копий определенного аллеля полиморфного локуса. Это количественное измерение называется в данном документе данными частоты аллелей или данными измеренных генетических аллелей. Способы, использующие аллельные данные, иногда называют количественными аллельными способами; это отличается от количественных способов, которые используют исключительно количественные данные из неполиморфных локусов или из полиморфных локусов, но без учета аллельной идентичности. Когда аллельные данные измеряются с использованием высокопроизводительного секвенирования, аллельные данные обычно включают количество считываний каждого аллеля, картируемого на представляющем интерес локусе. [573] In some embodiments, allelic data is obtained, wherein the allelic data includes quantitative measurements indicating the number of copies of a particular allele of a polymorphic locus. In some embodiments, the allelic data includes quantitative measurements indicating the copy number of each of the alleles observed at the polymorphic locus. Typically, quantitative measurements are obtained for all possible alleles of a polymorphic locus of interest. For example, any of the methods presented in the previous paragraphs for identifying an allele for a SNP or SNV locus, such as, for example, microarrays, qPCR, DNA sequencing, such as high-throughput DNA sequencing, can be used to generate quantitative copy number measurements of a particular allele of a polymorphic locus. This quantitative measurement is referred to herein as allele frequency data or measured genetic allele data. Methods using allelic data are sometimes called quantitative allelic methods; this is in contrast to quantitative methods, which use exclusively quantitative data from non-polymorphic loci or from polymorphic loci but without regard to allelic identity. When allelic data is measured using high-throughput sequencing, the allelic data typically includes the number of reads of each allele mapping to the locus of interest.
[574] В некоторых вариантах воплощения получают неаллельные данные, причем неаллельные данные включают количественные измерения, показывающие количество копий конкретного локуса. Локус может быть полиморфным или неполиморфным. В некоторых вариантах воплощения, когда локус не является полиморфным, неаллельные данные не содержат информации об относительном или абсолютном количестве отдельных аллелей, которые могут присутствовать в этом локусе. Способы, использующие только неаллельные данные (то есть количественные данные по неполиморфным аллелям или количественные данные по полиморфным локусам, но без учета аллельной идентичности каждого фрагмента), называются количественными способами. Как правило, количественные измерения получают для всех возможных аллелей интересующего полиморфного локуса, при этом одно значение связано с измеренной величиной для всех аллелей в этом локусе в целом. Неаллельные данные для полиморфного локуса могут быть получены путем суммирования количественного показателя аллеля для каждого аллеля в этом локусе. Когда аллельные данные измеряются с использованием высокопроизводительного секвенирования, неаллельные данные обычно включают количество считываний картирования на интересующий локус. Измерения секвенирования могут указывать относительное и/или абсолютное количество каждого из аллелей, присутствующих в локусе, а неаллельные данные включают сумму считываний, картируемых на локус, независимо от аллельной идентичности. В некоторых вариантах воплощения для получения как аллельных, так и неаллельных данных может использоваться один и тот же набор измерений секвенирования. В некоторых вариантах воплощения аллельные данные используются как часть способа для определения количества копий на интересующей хромосоме, а полученные неаллельные данные могут использоваться как часть другого способа для определения количества копий на интересующей хромосоме. В некоторых вариантах воплощения два способа статистически ортогональны и объединяются, чтобы дать более точное определение числа копий на представляющей интерес хромосоме. [574] In some embodiments, non-allelic data is obtained, wherein the non-allelic data includes quantitative measurements indicating the copy number of a particular locus. A locus may be polymorphic or non-polymorphic. In some embodiments, when a locus is not polymorphic, the non-allelic data does not contain information about the relative or absolute number of individual alleles that may be present at the locus. Methods that use only non-allelic data (that is, quantitative data on non-polymorphic alleles or quantitative data on polymorphic loci, but without taking into account the allelic identity of each fragment) are called quantitative methods. Typically, quantitative measurements are obtained for all possible alleles at a polymorphic locus of interest, with one value associated with the measured value for all alleles at that locus as a whole. Non-allelic data for a polymorphic locus can be obtained by summing the allele score for each allele at that locus. When allelic data is measured using high-throughput sequencing, nonallelic data typically includes the number of mapping reads per locus of interest. Sequencing measurements can indicate the relative and/or absolute amount of each of the alleles present at a locus, and non-allelic data includes the sum of reads mapped to the locus, regardless of allelic identity. In some embodiments, the same set of sequencing measurements may be used to obtain both allelic and non-allelic data. In some embodiments, the allelic data is used as part of a method for determining the copy number on a chromosome of interest, and the resulting non-allelic data can be used as part of another method for determining the copy number on a chromosome of interest. In some embodiments, the two methods are statistically orthogonal and combined to provide a more accurate determination of the copy number on the chromosome of interest.
[575] В некоторых вариантах воплощения получение генетических данных включает (i) получение информации о последовательности ДНК с помощью лабораторных способов, например, с использованием автоматизированного высокопроизводительного секвенатора ДНК, или (ii) получение информации, которая была ранее получена лабораторными способами, при этом информация передается в электронном виде, например, с помощью компьютера через Интернет или электронной передачи с устройства секвенирования. [575] In some embodiments, obtaining genetic data includes (i) obtaining DNA sequence information using laboratory methods, for example, using an automated high-throughput DNA sequencer, or (ii) obtaining information that has previously been obtained by laboratory methods, wherein the information transmitted electronically, such as by computer over the Internet or electronic transmission from a sequencing device.
[576] Дополнительные примерные способы подготовки образцов, амплификации и количественного определения описаны в заявке на патент США № 13/683604, поданной 21 ноября 2012 года (Публикация заявки на патент США № 2013/0123120 и Предварительная заявка на патент США, регистрационный № 61/994791, поданные 16 мая 2014 года, которые полностью включены сюда посредством ссылки). Эти способы могут быть использованы для анализа любых образцов, раскрытых в данном документе. [576] Additional exemplary methods for sample preparation, amplification and quantitation are described in US Patent Application No. 13/683604, filed November 21, 2012 (US Patent Application Publication No. 2013/0123120 and US Provisional Patent Application Serial No. 61/ 994791, filed May 16, 2014, which is incorporated herein by reference in its entirety). These methods can be used to analyze any of the samples disclosed herein.
[577] Примерные способы количественного определения свободно-клеточной ДНК [577] Exemplary Methods for Quantifying Cell-Free DNA
[578] При необходимости это количество или концентрацию скДНК или скРНК можно измерить стандартными способами. В некоторых вариантах воплощения определяется количество или концентрация свободно-клеточной митохондриальной ДНК (скмДНК). В некоторых вариантах воплощения определяется количество или концентрация свободно-клеточной ДНК, происходящей от ядерной ДНК (скяДНК). В некоторых вариантах воплощения количество или концентрация скмДНК и скяДНК определяются одновременно.[578] If necessary, this amount or concentration of scDNA or scRNA can be measured by standard methods. In some embodiments, the amount or concentration of free cell mitochondrial DNA (scmDNA) is determined. In some embodiments, the amount or concentration of cell-free DNA derived from nuclear DNA (scDNA) is determined. In some embodiments, the amount or concentration of csmDNA and csDNA is determined simultaneously.
[579] В некоторых вариантах воплощения для измерения скяДНК и/или скмДНК используется кПЦР (Kohler et al. “Levels of plasma circulating cell free nuclear and mitochondrial DNA as potential biomarkers for breast tumors.” Mol Cancer 8:105, 2009, 8:doi:10.1186/1476-4598-8-105, документ полностью включен сюда посредством ссылки). Например, с помощью мультиплексной кПЦР могут быть измерены один или более локусов из скяДНК (таких как глицеральдегид-3-фосфат-дегидрогеназа, GAPDH) и один или более локусов из скмДНК (АТФаза 8, MTATP 8). В некоторых вариантах воплощения для измерения скяДНК и/или скмДНК используется ПЦР с флуоресцентной меткой (Schwarzenbach et al., “Evaluation of cell-free tumour DNA and RNA in patients with breast cancer and benign breast disease.” Mol Biosys 7:2848-2854, 2011, документ полностью включен сюда посредством ссылки). При необходимости, распределение нормальности данных можно определить с помощью стандартных способов, таких как критерий Шапиро-Уилка. При необходимости уровни скяДНК и мДНК можно сравнивать с помощью стандартных способов, таких как U-тест Манна-Уитни. В некоторых вариантах воплощения уровни скяДНК и/или мДНК сравнивают с другими установленными прогностическими факторами с использованием стандартных способов, таких как U-тест Манна-Уитни или тест Краскела-Уоллиса. [579] In some embodiments, qPCR is used to measure csDNA and/or ccmDNA (Kohler et al. “ Levels of plasma circulating cell free nuclear and mitochondrial DNA as potential biomarkers for breast tumors.” Mol Cancer 8:105, 2009, 8: doi:10.1186/1476-4598-8-105, document incorporated herein by reference in its entirety). For example, one or more loci from csDNA (such as glyceraldehyde-3-phosphate dehydrogenase, GAPDH) and one or more loci from csDNA (ATPase 8, MTATP 8) can be measured using multiplex qPCR. In some embodiments, fluorescently tagged PCR is used to measure csDNA and/or csmDNA (Schwarzenbach et al., “ Evaluation of cell-free tumor DNA and RNA in patients with breast cancer and benign breast disease.” Mol Biosys 7:2848-2854 , 2011, document incorporated herein by reference in its entirety). If necessary, the normality distribution of the data can be determined using standard methods such as the Shapiro-Wilk test. If necessary, scDNA and mDNA levels can be compared using standard methods such as the Mann-Whitney U test. In some embodiments, cDNA and/or mDNA levels are compared with other established prognostic factors using standard methods such as the Mann-Whitney U test or the Kruskal-Wallis test.
[580] Примерные способы амплификации, количественного определения и анализа РНК [580] Exemplary methods for amplification, quantitation and analysis of RNA
[581] Для амплификации и необязательно количественной оценки РНК может быть использован любой из следующих типичных способов, таких как скРНК, клеточная РНК, цитоплазматическая РНК, кодирующая цитоплазматическая РНК, некодирующая цитоплазматическая РНК, мРНК, миРНК, митохондриальная РНК, рРНК, или тРНК. В некоторых вариантах воплощения миРНК представляет собой любую из молекул миРНК, перечисленных в базе данных miRBase, доступной во всемирной паутине по адресу mirbase.org, документ полностью включен сюда посредством ссылки. Примерные молекулы миРНК включают miR-509; miR-21 и miR-146a. [581] Any of the following typical methods can be used to amplify and optionally quantify RNA, such as scRNA, cellular RNA, cytoplasmic RNA, coding cytoplasmic RNA, non-coding cytoplasmic RNA, mRNA, siRNA, mitochondrial RNA, rRNA, or tRNA. In some embodiments, the miRNA is any of the miRNA molecules listed in the miRBase database available on the World Wide Web at mirbase.org, the document being incorporated herein by reference in its entirety. Exemplary miRNA molecules include miR-509; miR-21 and miR-146a.
[582] В некоторых вариантах воплощения для амплификации РНК используется зависимая от мультиплексного лигирования амплификация зонда с обратной транскриптазой (reverse-transcriptase multiplex ligation-dependent probe amplification - RT-MLPA). В некоторых вариантах воплощения каждый набор гибридизирующих зондов состоит из двух коротких синтетических олигонуклеотидов, охватывающих ОНП, и одного длинного олигонуклеотида (Li et al., Arch Gynecol Obstet. “Development of noninvasive prenatal diagnosis of trisomy 21 by RT-MLPA with a new set of SNP markers,” July 5, 2013, DOI 10.1007/s00404-013-2926-5;. Schouten et al. “Relative quantification of 40 nucleic acid sequences by multiplex ligation-dependent probe amplification.” Nucleic Acids Res 30:e57, 2002; Deng et al. (2011) “Non-invasive prenatal diagnosis of trisomy 21 by reverse transcriptase multiplex ligation-dependent probe amplification,” Clin, Chem. Lab Med. 49:641-646, 2011, каждый из этих документов полностью включен сюда посредством ссылки). [582] In some embodiments, reverse-transcriptase multiplex ligation-dependent probe amplification (RT-MLPA) is used to amplify RNA. In some embodiments, each set of hybridization probes consists of two short synthetic oligonucleotides spanning the SNP and one long oligonucleotide (Li et al ., Arch Gynecol Obstet. “Development of noninvasive prenatal diagnosis of trisomy 21 by RT-MLPA with a new set of SNP markers,” July 5, 2013, DOI 10.1007/s00404-013-2926-5; Schouten et al . “Relative quantification of 40 nucleic acid sequences by multiplex ligation-dependent probe amplification.” Nucleic Acids Res 30:e57, 2002 ; Deng et al. (2011) “Non-invasive prenatal diagnosis of trisomy 21 by reverse transcriptase multiplex ligation-dependent probe amplification,” Clin, Chem. Lab Med. 49:641-646, 2011, each of these documents is included here in its entirety via link).
[583] В некоторых вариантах воплощения РНК амплифицируют с помощью ПЦР с обратной транскриптазой. В некоторых вариантах воплощения РНК амплифицируется с помощью ПЦР с обратной транскриптазой в реальном времени, такой как одностадийная ПЦР с обратной транскриптазой в реальном времени с SYBR GREEN I, как описано ранее. (Li et al., Arch Gynecol Obstet. “Development of noninvasive prenatal diagnosis of trisomy 21 by RT-MLPA with a new set of SNP markers,” July 5, 2013, DOI 10.1007/s00404-013-2926-5; Lo et al., “Plasma placental RNA allelic ratio permits noninvasive prenatal chromosomal aneuploidy detection,” Nat Med 13:218-223, 2007; Tsui et al., Systematic micro-array based identification of placental mRNA in maternal plasma: towards non-invasive prenatal gene expression profiling. J Med Genet 41:461-467, 2004; Gu et al., J. Neurochem. 122:641-649, 2012, каждый из этих документов полностью включен сюда посредством ссылки).[583] In some embodiments, the RNA is amplified using reverse transcriptase PCR. In some embodiments, the RNA is amplified using real-time reverse transcriptase PCR, such as one-step real-time reverse transcriptase PCR with SYBR GREEN I, as previously described. (Li et al ., Arch Gynecol Obstet. “Development of noninvasive prenatal diagnosis of trisomy 21 by RT-MLPA with a new set of SNP markers,” July 5, 2013, DOI 10.1007/s00404-013-2926-5; Lo et al., “Plasma placental RNA allelic ratio permits noninvasive prenatal chromosomal aneuploidy detection,” Nat Med 13:218-223, 2007; Tsui et al., Systematic micro-array based identification of placental mRNA in maternal plasma: towards non-invasive prenatal gene expression profiling, J Med Genet 41:461–467, 2004; Gu et al ., J Neurochem 122:641–649, 2012, each of which is incorporated herein by reference in its entirety).
[584] В некоторых вариантах воплощения для обнаружения РНК используется микрочип. Например, микрочип миРНК человека от Agilent Technologies может использоваться в соответствии с протоколом производителя. Вкратце, выделенная РНК дефосфорилируется и лигируется с pCp-Cy3. Меченая РНК очищается и гибридизируется с матрицами миРНК, содержащими зонды для зрелых миРНК человека, на основе высвобождения miRBase 14.0 по Сэнгеру. Матрицы промываются и сканируются с помощью сканера микрочипов (G2565BA, Agilent Technologies). Интенсивность каждого сигнала гибридизации оценивается с помощью программного обеспечения для экстракции Agilent v9.5.3. Мечение, гибридизацию и сканирование можно проводить в соответствии с протоколами микроматрицы Agilent для системы микрочипов (Gu et al., J. Neurochem. 122:641-649, 2012, документ полностью включен сюда посредством ссылки). [584] In some embodiments, a microarray is used to detect RNA. For example, the human miRNA microarray from Agilent Technologies can be used according to the manufacturer's protocol. Briefly, the isolated RNA is dephosphorylated and ligated to pCp-Cy3. Labeled RNA is purified and hybridized to miRNA templates containing mature human miRNA probes based on Sanger release of miRBase 14.0. The arrays are washed and scanned using a microarray scanner (G2565BA, Agilent Technologies). The intensity of each hybridization signal is assessed using Agilent extraction software v9.5.3. Labeling, hybridization, and scanning can be performed according to Agilent microarray protocols for the microarray system (Gu et al ., J. Neurochem. 122:641-649, 2012, incorporated herein by reference in its entirety).
[585] В некоторых вариантах воплощения для обнаружения РНК используется тест TaqMan. Примерным тестом является панель TaqMan Array Human MicroRNA v1.0 (Early Access) (Applied Biosystems), которая содержит тесты 157 TaqMan MicroRNA Assays, включая соответствующие праймеры обратной транскрипции, праймеры ПЦР и зонд TaqMan (Chim et al., “Detection and characterization of placental microRNAs in maternal plasma,” Clin Chem. 54(3):482-90, 2008, документ полностью включен сюда посредством ссылки). [585] In some embodiments, a TaqMan assay is used to detect RNA. An example test is the TaqMan Array Human MicroRNA v1.0 Panel (Early Access) (Applied Biosystems), which contains 157 TaqMan MicroRNA Assays, including appropriate reverse transcription primers, PCR primers, and TaqMan probe (Chim et al., “Detection and characterization of placental microRNAs in maternal plasma,” Clin Chem. 54(3):482–90, 2008, incorporated herein by reference in its entirety).
[586] При необходимости, может быть определен паттерн сплайсинга мРНК для одной или более мРНК с использованием стандартных способов (Fackenthal1 and Godley, Disease Models & Mechanisms 1: 37-42, 2008, doi:10.1242/dmm.000331, документ полностью включен сюда посредством ссылки). Например, для обнаружения вариантов сплайсинга мРНК могут быть использованы микрочипы высокой плотности и/или высокопроизводительное секвенирование ДНК. [586] If necessary, the mRNA splicing pattern of one or more mRNAs can be determined using standard methods (Fackenthal1 and Godley, Disease Models & Mechanisms 1: 37-42, 2008, doi:10.1242/dmm.000331, incorporated herein in its entirety via link). For example, high-density microarrays and/or high-throughput DNA sequencing can be used to detect mRNA splice variants.
[587] В некоторых вариантах воплощения для измерения транскриптома используется дробное секвенирование всего транскриптома или матрица.[587] In some embodiments, whole transcriptome fractional or array sequencing is used to measure the transcriptome.
[588] Примерные способы амплификации [588] Exemplary amplification methods
[589] Также были разработаны усовершенствованные способы амплификации ПЦР, которые минимизируют или предотвращают интерференцию из-за амплификации находящихся поблизости или примыкающих целевых локусов в том же реакционном объеме (например, часть реакции мультиплексной ПЦР образца, которая одновременно амплифицирует все целевые локусы). Эти способы можно использовать для одновременной амплификации находящихся поблизости или примыкающих целевых локусов, что быстрее и дешевле, чем необходимость разделять находящиеся поблизости целевые локусы на разные реакционные объемы, чтобы их можно было амплифицировать отдельно для избегания интерференции. [589] Improved PCR amplification methods have also been developed that minimize or prevent interference due to amplification of nearby or adjacent target loci in the same reaction volume (eg, part of a multiplex PCR reaction of a sample that simultaneously amplify all target loci). These methods can be used to simultaneously amplify nearby or adjacent target loci, which is faster and cheaper than having to separate nearby target loci into different reaction volumes so they can be amplified separately to avoid interference.
[590] В некоторых вариантах воплощения амплификацию целевых локусов проводят с использованием полимеразы (например, ДНК-полимеразы, РНК-полимеразы или обратной транскриптазы) с низкой 5´→3´ экзонуклеазной активностью и/или низкой активностью смещения цепи. В некоторых вариантах воплощения низкий уровень экзонуклеазы 5´→3´ снижает или предотвращает деградацию ближайшего праймера (например, неудлиненного праймера или праймера, к которому был добавлен один или более нуклеотидов во время удлинения праймера). В некоторых вариантах воплощения низкий уровень активности смещения цепи снижает или предотвращает смещение ближайшего праймера (например, неудлиненный праймер или праймер, к которому был добавлен один или более нуклеотидов во время удлинения праймера). В некоторых вариантах воплощения амплифицируются целевые локусы, которые находятся рядом друг с другом (например, между целевыми локусами нет оснований) или поблизости (например, локусы находятся в пределах 50, 40, 30, 20, 15, 10, 9, 8, 7, 6, 5, 4, 3, 2 или 1 основания). В некоторых вариантах воплощения 3´-конец одного локуса находится в пределах 50, 40, 30, 20, 15, 10, 9, 8, 7, 6, 5, 4, 3, 2 или 1 основания от 5´-конца следующего локуса, располагающегося далее. [590] In some embodiments, amplification of target loci is performed using a polymerase (eg, DNA polymerase, RNA polymerase, or reverse transcriptase) with low 5'→3' exonuclease activity and/or low strand displacement activity. In some embodiments, a low level of 5'→3' exonuclease reduces or prevents degradation of a nearby primer (eg, an unextended primer or a primer to which one or more nucleotides have been added during primer extension). In some embodiments, a low level of strand displacement activity reduces or prevents displacement of a nearby primer (eg, an unextended primer or a primer to which one or more nucleotides have been added during primer extension). In some embodiments, target loci that are adjacent to each other (e.g., there are no bases between the target loci) or nearby (e.g., loci that are within 50, 40, 30, 20, 15, 10, 9, 8, 7, 6, 5, 4, 3, 2 or 1 base). In some embodiments, the 3' end of one locus is within 50, 40, 30, 20, 15, 10, 9, 8, 7, 6, 5, 4, 3, 2, or 1 base from the 5' end of the next locus located further down.
[591] В некоторых вариантах воплощения амплифицируются по меньшей мере 100, 200, 500, 750, 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 40000; 50000; 75000; или 100000 различных целевых локусов, например, путем одновременной амплификации в одном реакционном объеме. В некоторых вариантах воплощения, по меньшей мере, 50, 60, 70, 80, 90, 95, 96, 97, 98, 99 или 99,5% амплифицированных продуктов являются целевыми ампликонами. В различных вариантах воплощения количество амплифицированных продуктов, которые являются целевыми ампликонами, составляет от 50 до 99,5%, например, от 60 до 99%, от 70 до 98%, от 80 до 98%, от 90 до 99,5% или от 95 до 99,5% включительно. В некоторых вариантах воплощения по меньшей мере 50, 60, 70, 80, 90, 95, 96, 97, 98, 99 или 99,5% целевых локусов амплифицируются (например, амплифицируются по меньшей мере 5, 10, 20, 30, 50 или 100-кратно по сравнению с количеством до амплификации), например, путем одновременной амплификации в одном реакционном объеме. В различных вариантах воплощения количество целевых локусов, которые амплифицируются (например, амплифицируются по меньшей мере 5, 10, 20, 30, 50 или 100-кратно по сравнению с количеством до амплификации) составляет от 50 до 99,5%, например, от 60 до 99%, от 70 до 98%, от 80 до 99%, от 90 до 99,5%, от 95 до 99,9% или от 98 до 99,99% включительно. В некоторых вариантах воплощения продуцируется меньшее количество нецелевых ампликонов, например меньшее количество ампликонов, образованных из прямого праймера из первой пары праймеров и обратного праймера из второй пары праймеров. Такие нежелательные нецелевые ампликоны могут быть получены с использованием предшествующих способов амплификации, если, например, обратный праймер из первой пары праймеров и/или прямой праймер из второй пары праймеров разрушены и/или замещены. [591] In some embodiments, at least 100, 200, 500, 750, 1000 are amplified; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 40000; 50000; 75000; or 100,000 different target loci, for example, by simultaneous amplification in a single reaction volume. In some embodiments, at least 50, 60, 70, 80, 90, 95, 96, 97, 98, 99, or 99.5% of the amplified products are target amplicons. In various embodiments, the amount of amplified products that are target amplicons is from 50 to 99.5%, for example, from 60 to 99%, from 70 to 98%, from 80 to 98%, from 90 to 99.5%, or from 95 to 99.5% inclusive. In some embodiments, at least 50, 60, 70, 80, 90, 95, 96, 97, 98, 99, or 99.5% of the target loci are amplified (e.g., at least 5, 10, 20, 30, 50 are amplified or 100-fold compared to the amount before amplification), for example, by simultaneous amplification in one reaction volume. In various embodiments, the number of target loci that are amplified (e.g., amplified by at least 5, 10, 20, 30, 50, or 100 times the amount before amplification) is from 50 to 99.5%, such as from 60 up to 99%, from 70 to 98%, from 80 to 99%, from 90 to 99.5%, from 95 to 99.9% or from 98 to 99.99% inclusive. In some embodiments, fewer non-target amplicons are produced, such as fewer amplicons generated from the forward primer of the first primer pair and the reverse primer of the second primer pair. Such unwanted off-target amplicons may be generated using prior amplification methods if, for example, the reverse primer from the first primer pair and/or the forward primer from the second primer pair are disrupted and/or replaced.
[592] В некоторых вариантах воплощения эти способы позволяют использовать более длительное время удлинения, поскольку полимераза, связанная с удлиняемым праймером, с меньшей вероятностью разрушит и/или вытеснит соседний праймер (такой как следующий нижестоящий праймер) при низкой концентрации экзонуклеазы 5´→3´ и/или низкой полимеразной активности замещения цепи. В различных вариантах воплощения условия реакции (такие как время удлинения и температура) используются таким образом, чтобы скорость удлинения полимеразой позволяла количеству нуклеотидов, добавляемых к удлиняемому праймеру, быть равным или превышающим 80, 90, 95, 100, 110, 120, 130, 140, 150, 175 или 200% от числа нуклеотидов между 3'-концом сайта связывания праймера и 5'-концом следующего нижестоящего сайта связывания праймера на той же цепи. [592] In some embodiments, these methods allow the use of longer extension times because the polymerase bound to the primer being extended is less likely to degrade and/or displace an adjacent primer (such as the next downstream primer) at low concentrations of 5'→3' exonuclease and/or low chain displacement polymerase activity. In various embodiments, reaction conditions (such as extension time and temperature) are used such that the rate of extension by the polymerase allows the number of nucleotides added to the extension primer to be equal to or greater than 80, 90, 95, 100, 110, 120, 130, 140 , 150, 175, or 200% of the number of nucleotides between the 3' end of a primer binding site and the 5' end of the next downstream primer binding site on the same strand.
[593] В некоторых вариантах воплощения ДНК-полимераза используется для получения ампликонов ДНК с использованием ДНК в качестве матрицы. В некоторых вариантах воплощения используется РНК-полимераза для получения ампликонов РНК с использованием ДНК в качестве матрицы. В некоторых вариантах воплощения используется обратная транскриптаза для получения ампликонов кДНК с использованием РНК в качестве матрицы. [593] In some embodiments, DNA polymerase is used to produce DNA amplicons using DNA as a template. In some embodiments, RNA polymerase is used to produce RNA amplicons using DNA as a template. In some embodiments, reverse transcriptase is used to generate cDNA amplicons using RNA as a template.
[594] В некоторых вариантах воплощения низкий уровень 5´→3´ экзонуклеазы полимеразы составляет менее 80, 70, 60, 50, 40, 30, 20, 10, 5, 1 или 0,1% активности такого же количества полимеразы Thermus aquaticus в таких же условиях (полимераза «Taq», которая представляет собой обычно используемую ДНК-полимеразу из термофильных бактерий, PDB 1BGX, EC 2.7.7.7, Murali et al., “Crystal structure of Taq DNA polymerase in complex with an inhibitory Fab: the Fab is directed against an intermediate in the helix-coil dynamics of the enzyme,” Proc. Natl. Acad. Sci. USA 95:12562-12567, 1998, документ полностью включен сюда посредством ссылки). В некоторых вариантах воплощения, низкий уровень полимеразной активности замещения цепи составляет менее, чем 80, 70, 60, 50, 40, 30, 20, 10, 5, 1 или 0,1% такого же количества полимеразы Tag в таких же условиях.[594] In some embodiments, the low level of 5'→3' exonuclease polymerase is less than 80, 70, 60, 50, 40, 30, 20, 10, 5, 1, or 0.1% of the activity of the same amount of polymerase Thermus aquaticus under the same conditions ("Taq" polymerase, which is a commonly used DNA polymerasefrom thermophilic bacteria,P.D.B. 1BGX, EC 2.7.7.7, Muraliet al., “Crystal structure of Taq DNA polymerase in complex with an inhibitory Fab: the Fab is directed against an intermediate in the helix-coil dynamics of the enzyme,” Proc. Natl. Acad. Sci. USA 95:12562-12567, 1998, incorporated herein by reference in its entirety). In some embodiments, the low level of strand displacement polymerase activity is less than 80, 70, 60, 50, 40, 30, 20, 10, 5, 1, or 0.1% of the same amount of Tag polymerase under the same conditions.
[595] В некоторых вариантах воплощения полимераза является ДНК-полимеразой полимеразой PUSHION, такой, как ДНК-полимераза PHUSION High Fidelity (M0530S, New England BioLabs, Inc.) или PHUSION Hot Start Flex (M0535S, New England BioLabs, Inc.; Frey and Suppman BioChemica. 2:34-35, 1995; Chester and Marshak Analytical Biochemistry. 209:284-290, 1993, каждый из этих документов полностью включен сюда посредством ссылки). ДНК-полимераза PHUSION является ферментом, подобным Pyrococcus, слитым с доменом, повышающим процессивность. ДНК-полимераза PHUSION обладает 5´→3´ полимеразной активностью и 3´→5´ экзонуклеазной активностью, и генерирует продукты с тупыми концами. ДНК-полимераза PHUSION лишена 5´→3´ экзонуклеазной активности и активности замещения цепей.[595] In some embodiments, the polymerase is a PUSHION DNA polymerase, such as PHUSION High Fidelity DNA Polymerase (M0530S, New England BioLabs, Inc.) or PHUSION Hot Start Flex (M0535S, New England BioLabs, Inc.; Frey and Suppman BioChemica 2:34-35, 1995; Chester and Marshak Analytical Biochemistry 209:284-290, 1993, each of which is incorporated herein by reference in its entirety). PHUSION DNA polymerase is a Pyrococcus -like enzyme fused to a processivity-enhancing domain. PHUSION DNA polymerase has 5´→3´ polymerase activity and 3´→5´ exonuclease activity, and generates blunt-ended products. PHUSION DNA polymerase lacks 5´→3´ exonuclease and strand displacement activity.
[596] В некоторых вариантах воплощения полимеразой является высокоточная ДНК-полимераза Q5®, такая, как Q5® High-Fidelity (M0491S, New England BioLabs, Inc.) или Q5® Hot Start High-Fidelity (M0493S, New England BioLabs, Inc.). ДНК-полимераза Q5® High-Fidelity является высокоточной, термостабильной ДНК-полимеразой с 3´→5´ экзонуклеазной активностью, слитой с усиливающим процессивность доменом Sso7d. ДНК-полимераза Q5® High-Fidelity лишена 5´→3´ экзонуклеазной активности и активности замещения цепей.[596] In some embodiments, the polymerase is a high fidelity DNA polymeraseQ5®, such as Q5® High Fidelity (M0491S, New England BioLabs, Inc.) or Q5® Hot Start High-Fidelity (M0493S, New England BioLabs, Inc.). DNA polymerase Q5® High-Fidelity is a high-fidelity, thermostable DNA polymerase with 3´→5´ exonuclease activity fused to the processivity-enhancing domain of Sso7d. DNA polymerase Q5® High-Fidelity lacks 5´→3´ exonuclease and strand displacement activity.
[597] В некоторых вариантах воплощения полимераза является T4 ДНК-полимеразой (M0203S, New England BioLabs, Inc.; Tabor and Struh. (1989). “DNA-Dependent DNA Polymerases,” In Ausebel et al. (Ed.), Current Protocols in Molecular Biology. 3.5.10-3.5.12. New York: John Wiley & Sons, Inc., 1989; Sambrook et al. Molecular Cloning: A Laboratory Manual. (2nd ed.), 5.44-5.47. Cold Spring Harbor: Cold Spring Harbor Laboratory Press, 1989, каждый из этих документов полностью включен сюда посредством ссылки). T4 ДНК-полимераза катализирует синтез ДНК в направлении 5´→3´ и требует наличия матрицы и праймера. Этот фермент обладает 3´→5´ экзонуклеазной активностью, которая намного более активна, чем та, которую имеет ДНК-полимераза I. T4 ДНК-полимераза лишена 5´→3´ экзонуклеазной активности и активности замещения цепей. [597] In some embodiments, the polymerase is a T4 DNA polymerase (M0203S, New England BioLabs, Inc.; Tabor and Struh. (1989). “DNA-Dependent DNA Polymerases,” In Ausebel et al. (Ed.), Current Protocols in Molecular Biology 3.5.10-3.5.12 New York: John Wiley & Sons, Inc., 1989 Sambrook et al. Molecular Cloning: A Laboratory Manual (2nd ed.), 5.44-5.47 Cold Spring Harbor : Cold Spring Harbor Laboratory Press, 1989, each of these documents is incorporated herein by reference in its entirety). T4 DNA polymerase catalyzes DNA synthesis in the 5´→3´ direction and requires a template and a primer. This enzyme has 3´→5´ exonuclease activity, which is much more active than that of DNA polymerase I. T4 DNA polymerase lacks 5´→3´ exonuclease and strand displacement activities.
[598] В некоторых вариантах воплощения полимераза является ДНК-полимеразой IV Sulfolobus (M0327S, New England BioLabs, Inc.; (Boudsocq,.et al. (2001). Nucleic Acids Res., 29:4607-4616, 2001; McDonald, et al. (2006). Nucleic Acids Res., 34:1102-1111, 2006, каждый из этих документов полностью включен сюда посредством ссылки). ДНК-полимераза IV Sulfolobus является термостабильной ДНК-полимеразой Y-семейства для обхода повреждений, которая эффективно синтезирует ДНК через множество повреждений ДНК-матрицы (McDonald, J.P. et al. (2006). Nucleic Acids Res.,. 34, 1102-1111, документ полностью включен сюда посредством ссылки). ДНК-полимераза IV Sulfolobus лишена 5´→3´ экзонуклеазной активности и активности замещения цепей. [598] In some embodiments, the polymerase is Sulfolobus DNA polymerase IV (M0327S, New England BioLabs, Inc.; (Boudsocq, et al. (2001). Nucleic Acids Res., 29:4607-4616, 2001; McDonald, et al (2006). Nucleic Acids Res., 34:1102-1111, 2006, each of which is incorporated herein by reference in its entirety.) Sulfolobus DNA polymerase IV is a thermostable Y-family damage bypass DNA polymerase that efficiently synthesizes DNA through multiple DNA template lesions (McDonald, JP et al. (2006). Nucleic Acids Res., . 34, 1102-1111, incorporated herein by reference in its entirety). Sulfolobus DNA polymerase IV lacks 5´→3´ exonuclease activity and strand displacement activity.
[599] В некоторых вариантах воплощения, если праймер связывает область с ОНП, праймер может связывать и амплифицировать разные аллели с разной эффективностью или может связывать и амплифицировать только один аллель. Для субъектов, которые являются гетерозиготными, один из аллелей не может быть амплифицирован праймером. В некоторых вариантах воплощения праймер разрабатывается для каждого аллеля. Например, если есть два аллеля (например, двух-аллельный ОНП), то можно использовать два праймера для связывания одного и того же местоположения целевого локуса (например, прямой праймер для связывания аллеля «A» и прямой праймер для связывания аллеля «B»). Для определения местоположения известных ОНП, таких как горячие точки ОНП с высокой степенью гетерозиготности, могут использоваться стандартные способы, такие как база данных dbОНП. [599] In some embodiments, if a primer binds a region to an SNP, the primer may bind and amplify different alleles with different efficiencies or may bind and amplify only one allele. For subjects who are heterozygous, one of the alleles cannot be amplified by the primer. In some embodiments, a primer is designed for each allele. For example, if there are two alleles (eg, a bi-allelic SNP), then two primers can be used to bind the same location of the target locus (eg, a forward primer to bind the "A" allele and a forward primer to bind the "B" allele). . Standard methods such as the dbSNP database can be used to locate known SNPs, such as SNP hotspots with high heterozygosity.
[600] В некоторых вариантах воплощения ампликоны одинаковы по размеру. В некоторых вариантах воплощения диапазон длины целевых ампликонов составляет менее 100, 75, 50, 25, 15, 10 или 5 нуклеотидов. В некоторых вариантах воплощения (таких, как амплификация целевых локусов во фрагментированной ДНК или РНК), длина целевых ампликонов составляет от 50 до 100 нуклеотидов, например, от 60 до 80 нуклеотидов, или от 60 до 75 нуклеотидов включительно. В некоторых вариантах воплощения (таких, как амплификация множества целевых локусов в экзоне или гене), длина целевых ампликонов составляет от 100 до 500 нуклеотидов, например, от 150 до 450 нуклеотидов, от 200 до 400 нуклеотидов, от 200 до 300 нуклеотидов или от 300 до 400 нуклеотидов включительно. [600] In some embodiments, the amplicons are uniform in size. In some embodiments, the length range of the target amplicons is less than 100, 75, 50, 25, 15, 10, or 5 nucleotides. In some embodiments (such as amplification of target loci in fragmented DNA or RNA), the length of the target amplicons is from 50 to 100 nucleotides, for example, from 60 to 80 nucleotides, or from 60 to 75 nucleotides, inclusive. In some embodiments (such as amplifying multiple target loci within an exon or gene), the target amplicons are 100 to 500 nucleotides in length, such as 150 to 450 nucleotides, 200 to 400 nucleotides, 200 to 300 nucleotides, or 300 up to 400 nucleotides inclusive.
[601] В некоторых вариантах воплощения множество целевых локусов одновременно амплифицируются с использованием пары праймеров, которая включает прямой и обратный праймеры для каждого целевого локуса, амплифицируемого в данном реакционном объеме. В некоторых вариантах воплощения один цикл ПЦР выполняется с одним праймером для каждого целевого локуса, а затем второй цикл ПЦР выполняется с парой праймеров для каждого целевого локуса. Например, первый цикл ПЦР может быть выполнен с одним праймером для каждого целевого локуса, так что все праймеры связываются с одной и той же цепью (например, с использованием прямого праймера для каждого целевого локуса). Это позволяет ПЦР амплифицировать линейным образом и снижает или устраняет смещение амплификации между ампликонами из-за различий в последовательности или длине. В некоторых вариантах воплощения ампликоны затем амплифицируются с использованием прямого и обратного праймера для каждого целевого локуса.[601] In some embodiments, multiple target loci are simultaneously amplified using a primer pair that includes a forward and reverse primer for each target locus amplified in a given reaction volume. In some embodiments, one PCR cycle is performed with one primer for each target locus, and then a second PCR cycle is performed with a pair of primers for each target locus. For example, the first round of PCR may be performed with one primer for each target locus, such that all primers bind to the same strand (eg, using a forward primer for each target locus). This allows PCR to amplify in a linear manner and reduces or eliminates amplification bias between amplicons due to differences in sequence or length. In some embodiments, the amplicons are then amplified using a forward and reverse primer for each target locus.
[602] Примерные способы конструирования праймеров [602] Exemplary methods for designing primers
[603] При необходимости мультиплексная ПЦР может выполняться с использованием праймеров с пониженной вероятностью образования димеров праймеров. В частности, высоко мультиплексная ПЦР часто может приводить к образованию очень высокой пропорции продукта ДНК, которая является результатом непродуктивных побочных реакций, таких как образование димера праймера. В одном из вариантов воплощения конкретные праймеры, которые с наибольшей вероятностью вызывают непродуктивные побочные реакции, могут быть удалены из библиотеки праймеров для того, чтобы получить библиотеку праймеров, которая приведет к увеличению пропорции амплифицированной ДНК, которая картируется в геном. Этап удаления проблемных праймеров, то есть тех праймеров, которые с большой вероятностью укрепляют димеры, неожиданно позволил получить чрезвычайно высокие уровни мультиплексирования ПЦР для последующего анализа путем секвенирования. [603] If necessary, multiplex PCR can be performed using primers with a reduced likelihood of primer dimers. In particular, highly multiplexed PCR can often result in the formation of a very high proportion of DNA product, which results from unproductive side reactions such as primer dimer formation. In one embodiment, specific primers that are most likely to cause non-productive side reactions can be removed from the primer library in order to obtain a primer library that will result in an increase in the proportion of amplified DNA that maps to the genome. The step of removing problematic primers, that is, those primers that are likely to strengthen dimers, unexpectedly allowed for extremely high levels of PCR multiplexing for subsequent analysis by sequencing.
[604] Существует несколько способов выбора праймеров для библиотеки, в которых количество димера праймера, не отображающего картирование, или других вредных продуктов праймера сведено к минимуму. Эмпирические данные показывают, что небольшое количество «плохих» праймеров отвечает за большое количество побочных реакций димеров праймеров, не связанных с картированием. Удаление этих «плохих» праймеров может увеличить процент считываний последовательностей, которые картируются на целевые локусы. Один из способов идентифицировать «плохие» праймеры представляет собой оценку данных секвенирования ДНК, которая была амплифицирована с помощью целевой амплификации; те димеры праймеров, которые наблюдаются с наибольшей частотой, могут быть удалены, чтобы получить библиотеку праймеров, которая со значительно меньшей вероятностью приведет к образованию побочного продукта ДНК, который не картируется в геном .Кроме того, существуют общедоступные программы, которые могут подсчитать энергию свзывания различных праймерных комбинаций и удалить из них имеющие наивысший уровень энергии связывания, что позволит получить библиотеку праймеров, которая со значительно меньшей вероятностью приведет к образованию побочного продукта ДНК, который не картируется в геном. [604] There are several methods for selecting primers for a library that minimize the amount of non-mapping primer dimer or other detrimental primer products. Empirical data show that a small number of “bad” primers are responsible for a large number of non-mapping side reactions of primer dimers. Removing these “bad” primers can increase the percentage of sequence reads that map to target loci. One way to identify “bad” primers is to evaluate DNA sequencing data that has been amplified using targeted amplification; those primer dimers that are observed with the greatest frequency can be removed to obtain a primer library that is significantly less likely to produce a DNA by-product that does not map to the genome. Additionally, there are publicly available programs that can calculate the binding energies of different primer combinations and remove those with the highest binding energies, resulting in a primer library that is significantly less likely to produce a DNA byproduct that does not map to the genome.
[605] В некоторых вариантах воплощения для выбора праймеров создается начальная библиотека праймеров-кандидатов путем конструирования одного или более праймеров или пар праймеров для целевых локусов-кандидатов. Набор потенциальных целевых локусов (например, ОНП) может быть выбран на основе общедоступной информации о желаемых параметрах целевых локусов, таких как частота ОНП в целевой популяции или уровень гетерозиготности ОНП. В одном варианте воплощения праймеры для ПЦР могут быть созданы с использованием программы Primer3 (всемирная сеть по адресу primer3.sourceforge.net; libprimer3 выпуск 2.2.3, документ полностью включен сюда посредством ссылки). При необходимости, праймеры могут быть разработаны для отжига в конкретном диапазоне температур отжига, иметь конкретный диапазон содержания GC, иметь конкретный диапазон размеров, производить целевые ампликоны в конкретном диапазоне размеров и/или иметь другие характеристики параметров. Использование нескольких праймеров или пар праймеров для каждого целевого локуса-кандидата увеличивает вероятность того, что праймер или пара праймеров останутся в библиотеке для большинства или всех целевых локусов. В одном варианте воплощения критерии отбора могут требовать, чтобы в библиотеке оставалась по меньшей мере одна пара праймеров на каждый локус-мишень. Таким образом, большая часть или все целевые локусы будут амплифицированы при использовании последней библиотеки праймеров. Это желательно для таких применений, как скрининг на наличие делеций или дупликаций в большом количестве сайтов в геноме или скрининг на большое количество последовательностей (таких как полиморфизмы или другие мутации), связанных с заболеванием или повышенным риском заболевания. Если пара праймеров из библиотеки будет продуцировать целевой ампликон, который перекрывается с целевым ампликоном, продуцируемым другой парой праймеров, одна из пар праймеров может быть удалена из библиотеки для предотвращения интерференции. [605] In some embodiments, an initial library of candidate primers is created for selecting primers by designing one or more primers or primer pairs for target candidate loci. A set of potential target loci (eg, SNPs) can be selected based on publicly available information about the desired parameters of the target loci, such as the frequency of the SNP in the target population or the level of heterozygosity of the SNP. In one embodiment, PCR primers can be designed using the Primer3 program (world wide web at primer3.sourceforge.net; libprimer3 release 2.2.3, incorporated herein by reference in its entirety). If desired, primers may be designed to anneal over a specific range of annealing temperatures, have a specific range of GC content, have a specific size range, produce target amplicons in a specific size range, and/or have other parameter characteristics. Using multiple primers or primer pairs for each candidate target locus increases the likelihood that the primer or primer pair will remain in the library for most or all target loci. In one embodiment, the selection criteria may require that at least one primer pair per target locus remain in the library. Thus, most or all of the target loci will be amplified using the latest primer library. This is desirable for applications such as screening for the presence of deletions or duplications at a large number of sites in the genome or screening for a large number of sequences (such as polymorphisms or other mutations) associated with disease or increased risk of disease. If a primer pair from a library produces a target amplicon that overlaps with a target amplicon produced by another primer pair, one of the primer pairs may be removed from the library to prevent interference.
[606] В некоторых вариантах воплощения «оценка нежелательности» (наивысшая оценка представляет наименьшую желательность) рассчитывается (например, расчет на компьютере) для большинства или всех возможных комбинаций двух праймеров из библиотеки праймеров-кандидатов. В различных вариантах воплощения оценка нежелательности рассчитана по меньшей мере для 80, 90, 95, 98, 99 или 99,5% возможных комбинаций праймеров-кандидатов в библиотеке. Каждая оценка нежелательности основана по меньшей мере частично на вероятности образования димера между двумя праймерами-кандидатами. При необходимости, оценка нежелательности может также основываться на одном или более других параметров, выбранных из группы, состоящей из степени гетерозиготности целевого локуса, распространенности заболевания, ассоциированного с последовательностью (например, полиморфизма) в целевом локусе, пенетрантности заболевания, связанной с последовательностью (например, полиморфизм) в целевом локусе, специфичности праймера-кандидата для целевого локуса, размера праймера-кандидата, температуры плавления целевого ампликона, содержания GC целевого ампликона, эффективности амплификации целевого ампликона, размера целевого ампликона и расстояния от центра горячей точки рекомбинации. В некоторых вариантах воплощения специфичность праймера-кандидата для целевого локуса включает вероятность того, что праймер-кандидат будет неспецифически функционировать путем связывания и амплификации локуса, отличного от целевого локуса, для амплификации которого он был разработан. В некоторых вариантах воплощения один или более или все праймеры-кандидаты, неспецифически функционирующие, удаляются из библиотеки. В некоторых вариантах воплощения для увеличения количества возможных выбираемых праймеров, праймеры-кандидаты, способные неспецифически функционировать, не удаляются из библиотеки. Если рассматривается несколько факторов, оценка нежелательности может быть вычислена на основе средневзвешенного значения различных параметров. Параметрам могут быть присвоены разные веса в зависимости от их важности для конкретного применения, для которого будут использоваться праймеры. В некоторых вариантах воплощения праймер с наивысшей оценкой нежелательности удаляется из библиотеки. Если удаленный праймер является членом пары праймеров, которая гибридизируется с одним целевым локусом, то другой член пары праймеров может быть удален из библиотеки. При желании процесс удаления праймера можно повторить. В некоторых вариантах воплощения способ отбора выполняется до тех пор, пока все показатели нежелательности для комбинаций праймеров-кандидатов, оставшихся в библиотеке, не станут равными или ниже минимального порога. В некоторых вариантах воплощения способ отбора выполняется до тех пор, пока количество праймеров-кандидатов, оставшихся в библиотеке, не уменьшится до желаемого количества. [606] In some embodiments, a “undesirability score” (the highest score representing the least desirability) is calculated (eg, computer calculation) for most or all possible combinations of two primers from a library of candidate primers. In various embodiments, the undesirability score is calculated for at least 80, 90, 95, 98, 99, or 99.5% of the possible candidate primer combinations in the library. Each undesirability score is based at least in part on the probability of dimer formation between two candidate primers. If necessary, the undesirability assessment may also be based on one or more other parameters selected from the group consisting of degree of heterozygosity of the target locus, prevalence of disease associated with the sequence (e.g., polymorphism) at the target locus, penetrance of disease associated with the sequence (e.g., polymorphism) at the target locus, the specificity of the candidate primer for the target locus, the size of the candidate primer, the melting temperature of the target amplicon, the GC content of the target amplicon, the amplification efficiency of the target amplicon, the size of the target amplicon, and the distance from the center of the recombination hotspot. In some embodiments, the specificity of a candidate primer for a target locus includes the likelihood that the candidate primer will nonspecifically function by binding to and amplifying a locus other than the target locus it was designed to amplify. In some embodiments, one or more or all candidate primers that function nonspecifically are removed from the library. In some embodiments, to increase the number of possible primers to be selected, candidate primers capable of nonspecifically functioning are not removed from the library. If several factors are considered, an undesirability score can be calculated based on a weighted average of the various parameters. Parameters can be assigned different weights depending on their importance for the specific application for which the primers will be used. In some embodiments, the primer with the highest undesirability score is removed from the library. If the removed primer is a member of a primer pair that hybridizes to one target locus, then the other member of the primer pair may be removed from the library. If desired, the primer removal process can be repeated. In some embodiments, the selection method is performed until all undesirability scores for the candidate primer combinations remaining in the library are equal to or below a minimum threshold. In some embodiments, the selection method is performed until the number of candidate primers remaining in the library is reduced to the desired number.
[607] В различных вариантах воплощения после подсчета баллов нежелательности праймер-кандидат, который является частью наибольшего числа комбинаций двух праймеров-кандидатов с оценкой нежелательности выше первого минимального порога, удаляется из библиотеки. На этом этапе взаимодействия, равные или ниже первого минимального порога, игнорируются, поскольку эти взаимодействия менее значимы. Если удаленный праймер является членом пары праймеров, которая гибридизируется с одним целевым локусом, то другой член пары праймеров может быть удален из библиотеки. При желании процесс удаления праймера можно повторить. В некоторых вариантах воплощения способ отбора выполняется до тех пор, пока все оценки нежелательности для комбинаций праймеров-кандидатов, оставшихся в библиотеке, не станут равными или ниже первого минимального порога. Если количество праймеров-кандидатов, остающихся в библиотеке, превышает желаемое, количество праймеров можно уменьшить, уменьшив первый минимальный порог до более низкого второго минимального порога и повторив процесс удаления праймеров. Если количество праймеров-кандидатов, остающихся в библиотеке, меньше желаемого, способ можно продолжить, увеличив первый минимальный порог до более высокого второго минимального порога и повторив процесс удаления праймеров с использованием исходной библиотеки праймеров-кандидатов, тем самым позволив большему количеству праймеров-кандидатов остаться в библиотеке. В некоторых вариантах воплощения данный способ отбора выполняется до тех пор, пока все баллы нежелательности для комбинаций праймеров-кандидатов, оставшихся в библиотеке, не станут равными или ниже второго минимального порога, или пока количество возможных праймеров, оставшихся в библиотеке, не уменьшится до желаемого числа. [607] In various embodiments, after undesirability scores are calculated, the candidate primer that is part of the largest number of combinations of two candidate primers with an undesirability score above the first minimum threshold is removed from the library. At this stage, interactions equal to or below the first minimum threshold are ignored because these interactions are less significant. If the removed primer is a member of a primer pair that hybridizes to one target locus, then the other member of the primer pair may be removed from the library. If desired, the primer removal process can be repeated. In some embodiments, the selection method is performed until all undesirability scores for the candidate primer combinations remaining in the library are equal to or below the first minimum threshold. If the number of candidate primers remaining in the library exceeds the desired number, the number of primers can be reduced by reducing the first minimum threshold to a lower second minimum threshold and repeating the primer removal process. If the number of candidate primers remaining in the library is less than desired, the method can continue by increasing the first minimum threshold to a higher second minimum threshold and repeating the primer removal process using the original candidate primer library, thereby allowing more candidate primers to remain in library. In some embodiments, this selection method is performed until all undesirability scores for candidate primer combinations remaining in the library are equal to or below a second minimum threshold, or until the number of candidate primers remaining in the library is reduced to the desired number .
[608] При необходимости, пары праймеров, которые продуцируют целевой ампликон, который перекрывается с целевым ампликоном, продуцируемым другой парой праймеров, можно разделить на отдельные реакции амплификации. Множественные реакции амплификации ПЦР могут быть желательны для применений, в которых желательно анализировать все целевые локусы - кандидаты (вместо исключения целевых локусов - кандидатов из анализа из-за перекрытия целевых ампликонов).[608] If desired, primer pairs that produce a target amplicon that overlaps with a target amplicon produced by another primer pair can be separated into separate amplification reactions. Multiple PCR amplification reactions may be desirable for applications in which it is desirable to analyze all candidate target loci (rather than excluding candidate target loci from analysis due to overlap of target amplicons).
[609] Эти способы отбора минимизируют количество праймеров-кандидатов, которые необходимо удалить из библиотеки для достижения желаемого снижения димеров праймеров. Удалив меньшее количество праймеров-кандидатов из библиотеки, можно амплифицировать большее количество (или все) целевых локусов с использованием полученной библиотеки праймеров.[609] These selection methods minimize the number of candidate primers that must be removed from the library to achieve the desired reduction in primer dimers. By removing fewer candidate primers from the library, more (or all) of the target loci can be amplified using the resulting primer library.
[610] Мультиплексирование большого количества праймеров налагает значительные ограничения на тесты, которые могут быть включены. Непреднамеренно взаимодействующие тесты приводят к ложным продуктам амплификации. Ограничения размера в миниПЦР могут привести к дополнительным ограничениям. В одном из вариантов воплощения можно начать с очень большого количества потенциальных мишеней ОНВ (от, приблизительно, 500 до более 1 миллиона) и попытаться создать праймеры для амплификации каждого ОНП. Там, где можно сконструировать праймеры, можно попытаться идентифицировать пары праймеров, которые могут образовывать ложные продукты, путем оценки вероятности образования ложного дуплекса праймера между всеми возможными парами праймеров с использованием опубликованных термодинамических параметров образования дуплекса ДНК. Взаимодействия праймеров можно ранжировать с помощью функции оценки, связанной с взаимодействием, и праймеры с наихудшими оценками взаимодействия удаляются до тех пор, пока не будет достигнуто необходимое количество праймеров. В случаях, когда наиболее полезные ОНП вероятно могут быть гетерозиготными, можно также ранжировать список тестов и выбрать наиболее совместимые с гетерозиготностью тесты. Эксперименты подтвердили, что праймеры с высокими показателями взаимодействия с наибольшей вероятностью образуют димеры праймеров. При высоком мультиплексировании невозможно устранить все ложные взаимодействия, но важно удалить праймеры или пары праймеров с наивысшими показателями взаимодействия in silico, поскольку они могут доминировать во всей реакции, что значительно ограничивает амплификацию от достижения намеченных целей. Мы выполняли эту процедуру для создания мультиплексных наборов праймеров до 10000 праймеров, а в некоторых случаях, более 10000 праймеров. Усовершенствование, связанное с этой процедурой, является значительным, позволяя проводить амплификацию более чем 80%, более чем 90%, более чем 95%, более чем 98% и даже более чем 99% целевых продуктов, как определено путем секвенирования всех продуктов ПЦР, по сравнению с 10% при реакции, в которой не были удалены худшие праймеры. В сочетании с частичным полувложенным подходом, как описано ранее, более 90% и даже более 95% ампликонов могут картироваться на целевых последовательностях. [610] Multiplexing a large number of primers places significant restrictions on the tests that can be included. Unintentionally, interacting tests result in false amplification products. Size limitations in miniPCR may lead to additional limitations. In one embodiment, one may start with a very large number of potential SNP targets (from about 500 to more than 1 million) and attempt to design primers to amplify each SNP. Where primers can be designed, an attempt can be made to identify primer pairs that are likely to form spurious products by estimating the probability of formation of a spurious primer duplex between all possible primer pairs using published thermodynamic parameters for DNA duplex formation. Primer interactions can be ranked using a scoring function associated with the interaction, and primers with the worst interaction scores are removed until the required number of primers is reached. In cases where the most useful SNPs are likely to be heterozygous, one can also rank the list of tests and select the tests most compatible with heterozygosity. Experiments have confirmed that primers with high interaction rates are most likely to form primer dimers. With high multiplexing, it is not possible to eliminate all spurious interactions, but it is important to remove primers or primer pairs with the highest in silico interaction scores, as they can dominate the entire reaction, significantly limiting the amplification from reaching its intended targets. We performed this procedure to create multiplex primer sets of up to 10,000 primers, and in some cases, more than 10,000 primers. The improvement associated with this procedure is significant, allowing amplification of greater than 80%, greater than 90%, greater than 95%, greater than 98%, and even greater than 99% of the target products, as determined by sequencing all PCR products, according to compared with 10% for a reaction in which the worst primers were not removed. When combined with a partial semi-nested approach as described previously, more than 90% and even more than 95% of amplicons can map to target sequences.
[611] Обращаем внимание на то, что существуют другие способы определения того, какие ПЦР-зонды могут образовывать димеры. В одном из вариантов воплощения анализ пула ДНК, который был амплифицирован с использованием неоптимизированного набора праймеров, может быть достаточен, чтобы определить проблемные праймеры. Например, анализ может быть проведен с использованием секвенирования, и те димеры, которые присутствуют в наибольшем количестве, определяются как те, которые с наибольшей вероятностью образуют димеры, и могут быть удалены. В одном из вариантов воплощения способ конструирования праймеров можно использовать в сочетании со способом мини-ПЦР, представленным в данном документе. [611] Please note that there are other ways to determine which PCR probes can form dimers. In one embodiment, analysis of a pool of DNA that has been amplified using a non-optimized primer set may be sufficient to identify problematic primers. For example, the analysis can be performed using sequencing, and those dimers that are present in the greatest abundance are determined to be those most likely to form dimers and can be removed. In one embodiment, the primer design method can be used in combination with the mini-PCR method presented herein.
[612] Использование меток на праймерах может снизить амплификацию и секвенирование димерных продуктов праймеров. В некоторых вариантах воплощения праймер содержит внутреннюю область, которая образует петлевую структуру с меткой. В конкретных вариантах воплощения праймеры включают 5'-область, которая специфична для целевого локуса, внутреннюю область, которая не является специфичной для целевого локуса и образует петлевую структуру, и 3'-область, которая специфична для целевого локуса. В некоторых вариантах воплощения область петли может находиться между двумя областями связывания, причем две области связывания предназначены для связывания со смежными или соседними областями матричной ДНК. В различных вариантах воплощения длина 3'-области составляет по меньшей мере 7 нуклеотидов. В некоторых вариантах воплощения длина 3'-области составляет от 7 до 20 нуклеотидов, например, от 7 до 15 нуклеотидов, или от 7 до 10 нуклеотидов включительно. В различных вариантах воплощения праймеры включают 5'-область, которая не является специфичной для целевого локуса (например, метку или универсальный сайт связывания праймера), за которой следует область, которая является специфичной для целевого локуса, внутреннюю область, которая не является специфичной для целевого локуса и образует петлевую структуру, и 3'-область, специфичную для целевого локуса. Меченные праймеры можно использовать для сокращения необходимых целевых специфичных последовательностей до менее 20, менее 15, менее 12 и даже менее 10 пар оснований. Это может явиться случайностью со стандартной конструкцией праймера, когда целевая последовательность фрагментирована в пределах сайта связывания праймера, или она может быть сконструирована в конструкции праймера. Преимущества этого способа включают следующее: он увеличивает количество тестов, которые могут быть разработаны для определенной максимальной длины ампликона, и он сокращает «неинформативное» секвенирование последовательности праймера. Его также можно использовать в сочетании с внутренним тегированием. [612] The use of tags on primers can reduce the amplification and sequencing of dimeric primer products. In some embodiments, the primer contains an internal region that forms a loop structure with the label. In particular embodiments, the primers include a 5' region that is specific for the target locus, an internal region that is not specific for the target locus and forms a loop structure, and a 3' region that is specific for the target locus. In some embodiments, the loop region may be located between two binding regions, wherein the two binding regions are designed to bind adjacent or neighboring regions of template DNA. In various embodiments, the 3' region is at least 7 nucleotides in length. In some embodiments, the length of the 3' region is from 7 to 20 nucleotides, such as from 7 to 15 nucleotides, or from 7 to 10 nucleotides, inclusive. In various embodiments, the primers include a 5' region that is not specific to the target locus (e.g., a tag or universal primer binding site), followed by a region that is specific to the target locus, an internal region that is not specific to the target locus and forms a loop structure, and a 3' region specific for the target locus. Tagged primers can be used to reduce the required target specific sequences to less than 20, less than 15, less than 12, and even less than 10 base pairs. This may be an accident with a standard primer design where the target sequence is fragmented within the primer binding site, or it may be engineered into the primer design. The advantages of this method include the following: it increases the number of tests that can be designed for a given maximum amplicon length, and it reduces “uninformative” sequencing of the primer sequence. It can also be used in combination with internal tagging.
[613] В варианте воплощения относительное количество непродуктивных продуктов в мультиплексной целевой ПЦР-амплификации может быть уменьшено путем повышения температуры отжига. В случаях, когда амплифицируются библиотеки с той же меткой, что и специфичные для мишени праймеры, температуру отжига можно повысить по сравнению с геномной ДНК, поскольку метки будут способствовать связыванию праймера. В некоторых вариантах воплощения используются пониженные концентрации праймера, необязательно вместе с более длительным временем отжига. В некоторых вариантах воплощения время отжига может быть более 3 минут, более 5 минут, более 8 минут, более 10 минут, более 15 минут, более 20 минут, более 30 минут, более 60 минут, более 120 минут, более 240 минут, более 480 минут и даже более 960 минут. В определенных иллюстративных вариантах воплощения используется более длительное время отжига при пониженной концентрации праймеров. В различных вариантах воплощения используются более длительные, чем обычно, времена удлинения, например, более 3, 5, 8, 10 или 15 минут. В некоторых вариантах воплощения концентрации праймера составляют всего 50 нМ, 20 нМ, 10 нМ, 5 нМ, 1 нМ и менее 1 нМ. Это неожиданно приводит к надежной работе для высоко мультиплексированных реакций, например 1000-плексированных реакций, 2000-плексированных реакций, 5000-плексированных реакций, 10000-плексированных реакций, 20000-плексированных реакций, 50000-плексированных реакций и даже 100000-плексированных реакций. В варианте воплощения при амплификации используются один, два, три, четыре или пять циклов с длительным временем отжига, за которыми следуют циклы ПЦР с более обычным временем отжига с мечеными праймерами.[613] In an embodiment, the relative amount of non-productive products in a multiplex targeted PCR amplification can be reduced by increasing the annealing temperature. In cases where libraries are amplified with the same tag as target-specific primers, the annealing temperature can be increased compared to genomic DNA because the tags will promote primer binding. In some embodiments, reduced primer concentrations are used, optionally coupled with longer annealing times. In some embodiments, the annealing time may be greater than 3 minutes, greater than 5 minutes, greater than 8 minutes, greater than 10 minutes, greater than 15 minutes, greater than 20 minutes, greater than 30 minutes, greater than 60 minutes, greater than 120 minutes, greater than 240 minutes, greater than 480 minutes and even more than 960 minutes. In certain illustrative embodiments, longer annealing times are used at lower primer concentrations. In various embodiments, longer than usual extension times are used, for example, greater than 3, 5, 8, 10 or 15 minutes. In some embodiments, primer concentrations are as low as 50 nM, 20 nM, 10 nM, 5 nM, 1 nM, and less than 1 nM. This surprisingly results in reliable performance for highly multiplexed reactions, such as 1000-plexed reactions, 2000-plexed reactions, 5000-plexed reactions, 10,000-plexed reactions, 20,000-plexed reactions, 50,000-plexed reactions, and even 100,000-plexed reactions. In an embodiment, the amplification uses one, two, three, four or five cycles of long annealing times, followed by PCR cycles of more conventional annealing times with labeled primers.
[614] Чтобы выбрать целевые местоположения, можно начать с пула дизайнов пар праймеров-кандидатов и создать термодинамическую модель потенциально неблагоприятных взаимодействий между парами праймеров, а затем использовать модель для исключения дизайнов, несовместимых с другими дизайнами в пуле. [614] To select target locations, one can start with a pool of candidate primer pair designs and create a thermodynamic model of the potentially unfavorable interactions between primer pairs, and then use the model to eliminate designs that are inconsistent with other designs in the pool.
[615] В варианте воплощения изобретение относится к способу уменьшения количества локусов-мишеней (таких как локусы, которые могут содержать полиморфизм или мутации, связанные с заболеванием или расстройством, или повышенным риском заболевания или расстройства, такого как рак) и/или усиления тяжести обнаруженного заболевания (например, увеличение количества обнаруженных полиморфизмов или мутаций). В некоторых вариантах воплощения способ включает ранжирование (например, ранжирование от наивысшего к низшему) локусов по частоте или повторению полиморфизма или мутации (например, вариации, вставки или делеции одного нуклеотида или любых других вариаций, представленных в данном документе) в каждом локусе среди субъектов с заболеванием или расстройством, таким как рак. В некоторых вариантах воплощения праймеры для ПЦР предназначены для некоторых или всех локусов. Во время выбора праймеров ПЦР для библиотеки праймеров праймеры для локусов, которые имеют более высокую частоту или повторение (локусы более высокого ранга), предпочтительнее, чем праймеры с более низкой частотой или повторением (локусы более низкого ранга). В некоторых вариантах воплощения этот параметр включен как один из параметров при вычислении представленных в данном документе баллов нежелательности. При необходимости, праймеры (например, праймеры для локусов высокого ранга), несовместимые с другими дизайнами в библиотеке, могут быть включены в другую библиотеку/пул ПЦР. В некоторых вариантах воплощения в отдельных реакциях ПЦР используются несколько библиотек/пулов (например, 2, 3, 4, 5 или более), чтобы обеспечить амплификацию всех (или большинства) локусов, представленных всеми библиотеками/пулами. В некоторых вариантах воплощения этот способ продолжается до тех пор, пока в одну или ,более библиотек/пулов не будет включено достаточное количество праймеров, так что праймеры в совокупности позволят охватить желаемую нагрузку заболеванием для заболевания или расстройства (например, таким образом, как путем обнаружения по меньшей мере 80, 85, 90, 95 или 99% нагрузки заболеванием).[615] In an embodiment, the invention relates to a method of reducing the number of target loci (such as loci that may contain polymorphisms or mutations associated with a disease or disorder, or increased risk of a disease or disorder, such as cancer) and/or increasing the severity of the detected diseases (for example, an increase in the number of detected polymorphisms or mutations). In some embodiments, the method includes ranking (e.g., ranking from highest to lowest) loci by frequency or repetition of a polymorphism or mutation (e.g., a single nucleotide variation, insertion or deletion, or any other variations provided herein) at each locus among subjects with a disease or disorder such as cancer. In some embodiments, the PCR primers are designed for some or all of the loci. During the selection of PCR primers for a primer library, primers for loci that have higher frequency or repetition (higher-rank loci) are preferred over primers with lower frequency or repetition (lower-rank loci). In some embodiments, this parameter is included as one of the parameters in the calculation of undesirability scores presented herein. If necessary, primers (eg primers for high-ranking loci) that are incompatible with other designs in the library can be included in another library/PCR pool. In some embodiments, multiple libraries/pools (eg, 2, 3, 4, 5 or more) are used in individual PCR reactions to ensure amplification of all (or most) of the loci represented by all libraries/pools. In some embodiments, this method continues until a sufficient number of primers are included in one or more libraries/pools such that the primers collectively cover the desired disease load for the disease or disorder (e.g., in a manner such as by detecting at least 80, 85, 90, 95 or 99% disease load).
[616] Примерные библиотеки праймеров [616] Exemplary primer libraries
[617] В одном аспекте изобретение включает библиотеки праймеров, таких как праймеры, выбранные из библиотеки праймеров-кандидатов с использованием любого из способов по изобретению. В некоторых вариантах воплощения библиотека включает праймеры, которые одновременно гибридизируются (или способны одновременно гибридизоваться) с или которые одновременно амплифицируют (или способны одновременно амплифицировать) по меньшей мере 100; 200; 500; 750; 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 40000; 50000; 75000; или 100000 различных целевых локусов в одном реакционном объеме. В различных вариантах воплощения библиотека включает праймеры, которые одновременно амплифицируют (или способны одновременно амплифицировать) от 100 до 500; от 500 до 1000; от 1000 до 2000; от 2000 до 5000; от 5000 до 7500; от 7 500 до 10000; от 10000 до 20000; от 20000 до 25000; от 25000 до 30000; от 30000 до 40000; от 40000 до 50000; от 50000 до 75000; или от 75000 до 100000 различных целевых локусов в одном реакционном объеме включительно. В различных вариантах воплощения библиотека включает праймеры, которые одновременно амплифицируют (или способны одновременно амплифицировать) от 1000 до 100000 различных целевых локусов в одном реакционном объеме, например от 1000 до 50000; от 1000 до 30000; от 1000 до 20000; от 1000 до 10000; от 2000 до 30000; от 2000 до 20000; от 2000 до 10000; от 5000 до 30000; от 5000 до 20000; или от 5000 до 10000 различных целевых локусов включительно. В некоторых вариантах воплощения библиотека включает праймеры, которые одновременно амплифицируют (или способны одновременно амплифицировать) целевые локусы в одном реакционном объеме, так что менее 60, 40, 30, 20, 10, 5, 4, 3, 2, 1, 0,5, 0,25, 0,1 или 0,5% амплифицированных продуктов представляют собой димеры праймеров. В различных вариантах воплощения количество амплифицированных продуктов, которые являются димерами праймеров, составляет от 0,5 до 60%, например от 0,1 до 40%, от 0,1 до 20%, от 0,25 до 20%, от 0,25 до 10%, от 0,5 до 20%, от 0,5 до 10%, от 1 до 20% или от 1 до 10% включительно. В некоторых вариантах воплощения праймеры одновременно амплифицируют (или способны одновременно амплифицировать) целевые локусы в одном реакционном объеме, так что по меньшей мере 50, 60, 70, 80, 90, 95, 96, 97, 98, 99 или 99,5% амплифицированных продуктов являются целевыми ампликонами. В различных вариантах воплощения количество амплифицированных продуктов, которые являются целевыми ампликонами, составляет от 50 до 99,5%, например, от 60 до 99%, от 70 до 98%, от 80 до 98%, от 90 до 99,5% или от 95 до 99,5% включительно. В некоторых вариантах воплощения праймеры одновременно амплифицируют (или способны одновременно амплифицировать) целевые локусы в одном реакционном объеме, так что по меньшей мере 50, 60, 70, 80, 90, 95, 96, 97, 98, 99 или 99,5% целевых локусов амплифицируются (например, амплифицируются по меньшей мере в 5, 10, 20, 30, 50 или 100 раз по сравнению с количеством до амплификации). В различных вариантах воплощения количество целевых локусов, которые амплифицируются (например, амплифицируются по меньшей мере в 5, 10, 20, 30, 50 или 100 раз по сравнению с количеством до амплификации) составляет от 50 до 99,5%, например, от 60 до 99%, от 70 до 98%, от 80 до 99%, от 90 до 99,5%, от 95 до 99,9% или от 98 до 99,99% включительно. В некоторых вариантах воплощения библиотека праймеров включает по меньшей мере 100; 200; 500; 750; 1000; 2000; 5000; 7500; 10000; 20,000; 25000; 30000; 40000; 50000; 75000; или 100000 пар праймеров, где каждая пара праймеров включает прямой тестовый праймер и обратный тестовый праймер, где каждая пара тестовых праймеров гибридизируется с целевым локусом. В некоторых вариантах воплощения библиотека праймеров включает по меньшей мере 100; 200; 500; 750; 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 40000; 50000; 75000; или 100000 индивидуальных праймеров, каждый из которых гибридизируется с различным целевым локусом, при этом отдельные праймеры не являются частью пар праймеров. [617] In one aspect, the invention includes libraries of primers, such as primers selected from a library of candidate primers using any of the methods of the invention. In some embodiments, the library includes primers that simultaneously hybridize (or are capable of simultaneously hybridizing) with or that simultaneously amplify (or are capable of simultaneously amplifying) at least 100; 200; 500; 750; 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 40000; 50000; 75000; or 100,000 different target loci in one reaction volume. In various embodiments, the library includes primers that simultaneously amplify (or are capable of simultaneously amplifying) from 100 to 500; from 500 to 1000; from 1000 to 2000; from 2000 to 5000; from 5000 to 7500; from 7,500 to 10,000; from 10000 to 20000; from 20,000 to 25,000; from 25,000 to 30,000; from 30,000 to 40,000; from 40,000 to 50,000; from 50,000 to 75,000; or from 75,000 to 100,000 different target loci in one reaction volume, inclusive. In various embodiments, the library includes primers that simultaneously amplify (or are capable of simultaneously amplifying) 1,000 to 100,000 different target loci in a single reaction volume, such as 1,000 to 50,000; from 1000 to 30000; from 1000 to 20000; from 1000 to 10000; from 2000 to 30000; from 2000 to 20000; from 2000 to 10000; from 5000 to 30000; from 5000 to 20000; or from 5,000 to 10,000 different target loci, inclusive. In some embodiments, the library includes primers that simultaneously amplify (or are capable of simultaneously amplifying) target loci in a single reaction volume such that less than 60, 40, 30, 20, 10, 5, 4, 3, 2, 1, 0.5 , 0.25, 0.1, or 0.5% of the amplified products are primer dimers. In various embodiments, the amount of amplified products that are primer dimers is from 0.5 to 60%, for example from 0.1 to 40%, from 0.1 to 20%, from 0.25 to 20%, from 0. 25 to 10%, from 0.5 to 20%, from 0.5 to 10%, from 1 to 20% or from 1 to 10% inclusive. In some embodiments, the primers simultaneously amplify (or are capable of simultaneously amplifying) target loci in a single reaction volume such that at least 50, 60, 70, 80, 90, 95, 96, 97, 98, 99, or 99.5% of the amplified products are target amplicons. In various embodiments, the amount of amplified products that are target amplicons is from 50 to 99.5%, for example, from 60 to 99%, from 70 to 98%, from 80 to 98%, from 90 to 99.5%, or from 95 to 99.5% inclusive. In some embodiments, the primers simultaneously amplify (or are capable of simultaneously amplifying) target loci in a single reaction volume such that at least 50, 60, 70, 80, 90, 95, 96, 97, 98, 99, or 99.5% of the target loci are amplified (eg, amplified by at least 5, 10, 20, 30, 50, or 100 times the amount before amplification). In various embodiments, the number of target loci that are amplified (e.g., amplified by at least 5, 10, 20, 30, 50, or 100 times the amount before amplification) is from 50 to 99.5%, such as from 60 up to 99%, from 70 to 98%, from 80 to 99%, from 90 to 99.5%, from 95 to 99.9% or from 98 to 99.99% inclusive. In some embodiments, the primer library includes at least 100; 200; 500; 750; 1000; 2000; 5000; 7500; 10000; 20,000; 25000; 30000; 40000; 50000; 75000; or 100,000 primer pairs, where each primer pair includes a forward test primer and a reverse test primer, where each test primer pair hybridizes to the target locus. In some embodiments, the primer library includes at least 100; 200; 500; 750; 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 40000; 50000; 75000; or 100,000 individual primers, each hybridizing to a different target locus, with the individual primers not being part of primer pairs.
[618] В различных вариантах воплощения концентрация каждого праймера меньше 100, 75, 50, 25, 20, 10, 5, 2 или 1 нМ, или меньше 500, 100, 10 или 1 мкМ. В различных вариантах воплощения концентрация каждого праймера составляет от 1 мкМ до 100 нМ, например, от 1 мкМ до 1 нМ, от 1 до 75 нМ, от 2 до 50 нМ или от 5 до 50 нМ включительно. В различных вариантах воплощения содержание GC в праймерах составляет от 30 до 80%, например от 40 до 70% или от 50 до 60% включительно. В некоторых вариантах воплощения диапазон содержания GC в праймерах составляет менее 30, 20, 10 или 5%. В некоторых вариантах воплощения диапазон содержания GC в праймерах составляет от 5 до 30%, например от 5 до 20% или от 5 до 10% включительно. В некоторых вариантах воплощения температура плавления (Tm) тестовых праймеров составляет от 40 до 80 °C, например от 50 до 70 °C, от 55 до 65 °C или от 57 до 60,5 °C включительно. В некоторых вариантах воплощения Tm рассчитывается с помощью программы Primer3 (libprimer3, выпуск 2.2.3) с использованием встроенных параметров SantaLucia (веб-адрес: primer3.sourceforge.net). В некоторых вариантах воплощения диапазон температур плавления праймеров менее 15, 10, 5, 3 или 1 °C. В некоторых вариантах воплощения диапазон температур плавления праймеров составляет от 1 до 15 °C, например от 1 до 10 °C, от 1 до 5 °C или от 1 до 3 °C включительно. В некоторых вариантах воплощения длина праймеров составляет от 15 до 100 нуклеотидов, например от 15 до 75 нуклеотидов, от 15 до 40 нуклеотидов, от 17 до 35 нуклеотидов, от 18 до 30 нуклеотидов или от 20 до 65 нуклеотидов включительно. В некоторых вариантах воплощения диапазон длины праймеров составляет менее 50, 40, 30, 20, 10 или 5 нуклеотидов. В некоторых вариантах воплощения диапазон длины праймеров составляет от 5 до 50 нуклеотидов, например от 5 до 40 нуклеотидов, от 5 до 20 нуклеотидов или от 5 до 10 нуклеотидов включительно. В некоторых вариантах воплощения длина целевых ампликонов составляет от 50 до 100 нуклеотидов, например, от 60 до 80 нуклеотидов или от 60 до 75 нуклеотидов включительно. В некоторых вариантах воплощения диапазон длины целевых ампликонов менее 50, 25, 15, 10 или 5 нуклеотидов. В некоторых вариантах воплощения диапазон длины целевых ампликонов составляет от 5 до 50 нуклеотидов, например от 5 до 25 нуклеотидов, от 5 до 15 нуклеотидов или от 5 до 10 нуклеотидов включительно. В некоторых вариантах воплощения библиотека не содержит микрочипа. В некоторых вариантах воплощения библиотека включает микрочип. [618] In various embodiments, the concentration of each primer is less than 100, 75, 50, 25, 20, 10, 5, 2, or 1 nM, or less than 500, 100, 10, or 1 μM. In various embodiments, the concentration of each primer is from 1 μM to 100 nM, for example, from 1 μM to 1 nM, from 1 to 75 nM, from 2 to 50 nM, or from 5 to 50 nM, inclusive. In various embodiments, the GC content of the primers is from 30 to 80%, such as from 40 to 70%, or from 50 to 60%, inclusive. In some embodiments, the range of GC content of the primers is less than 30, 20, 10, or 5%. In some embodiments, the range of GC content of the primers is from 5 to 30%, such as from 5 to 20%, or from 5 to 10%, inclusive. In some embodiments, the melting temperature (T m ) of the test primers is 40 to 80°C, such as 50 to 70°C, 55 to 65°C, or 57 to 60.5°C, inclusive. In some embodiments, T m is calculated using the Primer3 program (libprimer3, release 2.2.3) using the built-in parameters of SantaLucia (web address: primer3.sourceforge.net). In some embodiments, the melting temperature range of the primers is less than 15, 10, 5, 3, or 1 °C. In some embodiments, the melting temperature range of the primers is from 1 to 15°C, such as from 1 to 10°C, from 1 to 5°C, or from 1 to 3°C, inclusive. In some embodiments, the length of the primers is from 15 to 100 nucleotides, such as from 15 to 75 nucleotides, from 15 to 40 nucleotides, from 17 to 35 nucleotides, from 18 to 30 nucleotides, or from 20 to 65 nucleotides, inclusive. In some embodiments, the primer length range is less than 50, 40, 30, 20, 10, or 5 nucleotides. In some embodiments, the length range of the primers is from 5 to 50 nucleotides, such as from 5 to 40 nucleotides, from 5 to 20 nucleotides, or from 5 to 10 nucleotides, inclusive. In some embodiments, the length of the target amplicons is from 50 to 100 nucleotides, for example, from 60 to 80 nucleotides, or from 60 to 75 nucleotides, inclusive. In some embodiments, the length range of the target amplicons is less than 50, 25, 15, 10, or 5 nucleotides. In some embodiments, the length range of the target amplicons is from 5 to 50 nucleotides, such as from 5 to 25 nucleotides, from 5 to 15 nucleotides, or from 5 to 10 nucleotides, inclusive. In some embodiments, the library does not contain a microchip. In some embodiments, the library includes a microchip.
[619] В некоторых вариантах воплощения некоторые (например по меньшей мере 80, 90 или 95%) или все адапторы или праймеры включают одну или более связей между соседними нуклеотидами, кроме встречающейся в природе фосфодиэфирной связи. Примеры таких связей включают фосфорамидные, фосфоротиоатные и фосфородитиоатные связи. В некоторых вариантах воплощения некоторые (например по меньшей мере 80, 90 или 95%) или все адапторы или праймеры включают тиофосфат (например, монотиофосфат) между последним 3' нуклеотидом и предпоследним 3' нуклеотидом. В некоторых вариантах воплощения некоторые (например по меньшей мере 80, 90 или 95%) или все адапторы или праймеры включают тиофосфат (например, монотиофосфат) между последними 2, 3, 4 или 5 нуклеотидами на 3'-конце. В некоторых вариантах воплощения некоторые (например по меньшей мере 80, 90 или 95%) или все адапторы или праймеры включают тиофосфат (например, монотиофосфат) между по меньшей мере 1, 2, 3, 4 или 5 нуклеотидами из последних 10 нуклеотидов на 3'-конце. В некоторых вариантах воплощения такие праймеры с меньшей вероятностью будут расщепляться или разрушаться. В некоторых вариантах воплощения праймеры не содержат сайт расщепления ферментом (например, сайт расщепления протеазой). [619] In some embodiments, some (eg, at least 80, 90, or 95%) or all of the adapters or primers include one or more bonds between adjacent nucleotides other than a naturally occurring phosphodiester bond. Examples of such linkages include phosphoramide, phosphorothioate and phosphorodithioate linkages. In some embodiments, some (eg, at least 80, 90, or 95%) or all of the adapters or primers include a thiophosphate (eg, monothiophosphate) between the last 3' nucleotide and the penultimate 3' nucleotide. In some embodiments, some (eg, at least 80, 90, or 95%) or all of the adapters or primers include a thiophosphate (eg, monothiophosphate) between the last 2, 3, 4, or 5 nucleotides at the 3' end. In some embodiments, some (e.g., at least 80, 90, or 95%) or all of the adapters or primers include a thiophosphate (e.g., monothiophosphate) between at least 1, 2, 3, 4, or 5 nucleotides of the last 10 nucleotides at 3' -end. In some embodiments, such primers are less likely to be cleaved or destroyed. In some embodiments, the primers do not contain an enzyme cleavage site (eg, a protease cleavage site).
[620] Дополнительные примерные способы и библиотеки мультиплексной ПЦР описаны в Заявке на патент США № 13/683604, поданной 21 ноября 2012 года (Публикация заявки на патент США № 2013/0123120) и Предварительной заявке на патент США, регистрационный № 61/994791, поданной 16 мая 2014 года, каждый из этих документов полностью включен сюда посредством ссылки). Эти способы и библиотеки можно использовать для анализа любых образцов, раскрытых в данном документе, и для использования в любом из способов по настоящему изобретению. [620] Additional exemplary multiplex PCR methods and libraries are described in US Patent Application No. 13/683604, filed November 21, 2012 (US Patent Application Publication No. 2013/0123120) and US Provisional Patent Application Serial No. 61/994791, filed May 16, 2014, each of which is incorporated herein by reference in its entirety). These methods and libraries can be used to analyze any of the samples disclosed herein and for use in any of the methods of the present invention.
[621] Примерные библиотеки праймеров для обнаружения рекомбинации [621] Exemplary primer libraries for recombination detection
[622] В некоторых вариантах воплощения праймеры в библиотеке праймеров предназначены для определения того, произошла ли рекомбинация в одной или более известных горячих точек рекомбинации (таких как кроссоверы между гомологичными хромосомами человека). Знание того, какие кроссоверы произошли между хромосомами, позволяет определить более точные поэтапные генетические данные для человека. Горячие точки рекомбинации - это локальные области хромосом, в которых, как правило, концентрируются события рекомбинации. Часто они окружены «холодными пятнами», областями с частотой рекомбинации ниже средней. Горячие точки рекомбинации имеют тенденцию обладать сходной морфологией, и они имеют длину приблизительно от 1 до 2 т.п.н. Распределение горячих точек положительно коррелирует с содержанием GC и распределением повторяющихся элементов. В активности некоторых горячих точек играет роль частично вырожденный 13-мерный мотив CCNCCNTNNCCNC. Было показано, что белок «цинковый палец», именуемый PRDM9, связывается с этим мотивом и инициирует рекомбинацию в его местоположении. Сообщается, что среднее расстояние между центрами горячих точек рекомбинации составляет ~80 т.п.н. В некоторых вариантах воплощения расстояние между центрами горячих точек рекомбинации составляет от приблизительн 3 т.п.н. до приблизительно 100 т.п.н. Общедоступные базы данных включают в себя большое количество известных горячих точек рекомбинации человека, например базы данных HUMHOT и International HapMap Project (см., например, Nishant et al., “HUMHOT: a database of human meiotic recombination hot spots,” Nucleic Acids Research, 34: D25-D28, 2006, Database issue; Mackiewiczet al., “Distribution of Recombination Hotspots in the Human Genome - A Comparison of Computer Simulations with Real Data” PLoS ONE 8(6): e65272, doi:10.1371/journal.pone.0065272; и веб-адрес hapmap.ncbi.nlm.nih.gov/downloads/index.html.en, каждый из этих документов полностью включен сюда посредством ссылки). [622] In some embodiments, the primers in the primer library are designed to determine whether recombination has occurred at one or more known recombination hot spots (such as crossovers between homologous human chromosomes). Knowing which crossovers have occurred between chromosomes allows us to determine more precise step-by-step genetic data for an individual. Recombination hotspots are local regions of chromosomes in which recombination events tend to be concentrated. They are often surrounded by “cold spots,” areas with below-average recombination rates. Recombination hotspots tend to have similar morphologies and are approximately 1 to 2 kb in length. Hotspot distribution is positively correlated with GC content and repeat element distribution. The partially degenerate 13-mer motif CCNCCNTNNCCNC plays a role in the activity of some hotspots. A zinc finger protein called PRDM9 has been shown to bind to this motif and initiate recombination at its location. The average distance between recombination hotspot centers is reported to be ~80 kb. In some embodiments, the distance between the centers of recombination hot spots is from about 3 kb. up to approximately 100 kb. Publicly available databases include a large number of known human recombination hot spots, such as the HUMHOT and International HapMap Project databases (see, for example, Nishant et al., “HUMHOT: a database of human meiotic recombination hot spots,” Nucleic Acids Research, 34: D25-D28, 2006, Database issue; Mackiewicz et al., “Distribution of Recombination Hotspots in the Human Genome - A Comparison of Computer Simulations with Real Data” PLoS ONE 8(6): e65272, doi:10.1371/journal. pone.0065272; and the web address hapmap.ncbi.nlm.nih.gov/downloads/index.html.en, each of which is incorporated herein by reference in its entirety).
[623] В некоторых вариантах воплощения праймеры в библиотеке праймеров сгруппированы в горячих точках рекомбинации или рядом с ними (например, в известных горячих точках рекомбинации человека). В некоторых вариантах воплощения соответствующие ампликоны используются для определения последовательности в пределах или рядом с горячей точкой рекомбинации для того, чтобы определить, произошла ли рекомбинация в этой конкретной горячей точке (например, является ли последовательность ампликона последовательностью, ожидаемой в случае, если произошла рекомбинация, или последовательностью, ожидаемой в случае, если рекомбинации не произошло). В некоторых вариантах воплощения праймеры предназначены для амплификации части или всей горячей точки рекомбинации (и, необязательно, последовательности, фланкирующей горячую точку рекомбинации). В некоторых вариантах воплощения для секвенирования части или всей горячей точки рекомбинации используется секвенирование с длинным считыванием (такое как секвенирование с использованием технологии Moleculo, разработанной Illumina для секвенирования до приблизительно 10 т.п.н.) или секвенирование спаренных концов по парным концам. Знание того, произошло ли событие рекомбинации, можно использовать для определения того, какие блоки гаплотипов фланкируют горячую точку. При необходимости присутствие определенных блоков гаплотипов может быть подтверждено с помощью праймеров, специфичных для регионов внутри блоков гаплотипов. В некоторых вариантах воплощения предполагается, что между известными горячими точками рекомбинации нет кроссоверов. В некоторых вариантах воплощения праймеры в библиотеке праймеров сгруппированы на концах хромосом или рядом с ними. Например, такие праймеры можно использовать для определения наличия или отсутствия определенного плеча или участка на конце хромосомы. В некоторых вариантах воплощения праймеры в библиотеке праймеров сгруппированы в горячих точках рекомбинации или рядом с ними, а также на концах хромосом или рядом с ними. [623] In some embodiments, the primers in the primer library are clustered at or near recombination hotspots (eg, known human recombination hotspots). In some embodiments, the corresponding amplicons are used to determine the sequence within or adjacent to a recombination hot spot to determine whether recombination has occurred at that particular hot spot (e.g., whether the amplicon sequence is the sequence expected if recombination has occurred, or sequence expected if recombination did not occur). In some embodiments, the primers are designed to amplify part or all of a recombination hot spot (and, optionally, the sequence flanking the recombination hot spot). In some embodiments, long-read sequencing (such as sequencing using Moleculo technology developed by Illumina for sequencing up to approximately 10 kb) or paired-end paired-end sequencing is used to sequence part or all of a recombination hot spot. Knowing whether a recombination event has occurred can be used to determine which blocks of haplotypes flank a hotspot. If necessary, the presence of certain haplotype blocks can be confirmed using primers specific for regions within the haplotype blocks. In some embodiments, it is assumed that there are no crossovers between known recombination hot spots. In some embodiments, the primers in the primer library are grouped at or near the ends of chromosomes. For example, such primers can be used to determine the presence or absence of a particular arm or region at the end of a chromosome. In some embodiments, the primers in the primer library are clustered at or near recombination hotspots and at or near the ends of chromosomes.
[624] В некоторых вариантах воплощения библиотека праймеров включает один или более праймеров (например по меньшей мере 5; 10; 50; 100; 200; 500; 750; 1000; 2000; 5000; 7 500; 10000; 20000; 25000; 30000; 40000; или 50000 различных праймеров или различных пар праймеров), которые специфичны для горячей точки рекомбинации (например, известной горячей точки рекомбинации человека) и/или специфичны для области рядом с горячей точкой рекомбинации (например, в пределах 10, 8, 5, 3, 2, 1 или 0,5 т.п.н. от 5'- или 3'-конца горячей точки рекомбинации). В некоторых вариантах воплощения по меньшей мере 1, 5, 10, 20, 40, 60, 80, 100 или 150 различных праймеров (или пар праймеров) специфичны для одной и той же горячей точки рекомбинации или специфичны для одной и той же горячей точки рекомбинации или области рядом с горячей точкой рекомбинации. В некоторых вариантах воплощения по меньшей мере 1, 5, 10, 20, 40, 60, 80, 100 или 150 различных праймеров (или пар праймеров) специфичны для области между горячими точками рекомбинации (например, области, которая маловероятно была подвергнута рекомбинации); эти праймеры можно использовать для подтверждения наличия блоков гаплотипов (таких как те, которые можно было бы ожидать в зависимости от того, произошла ли рекомбинация). В некоторых вариантах воплощения, по меньшей мере, 10, 20, 30, 40, 50, 60, 70, 80 или 90% праймеров в библиотеке праймеров специфичны для горячей точки рекомбинации и/или специфичны для области рядом с горячей точкой рекомбинации (например, в пределах 10, 8, 5, 3, 2, 1 или 0,5 т.п.н. от 5'- или 3'-конца горячей точки рекомбинации). В некоторых вариантах воплощения библиотеку праймеров используют для определения того, произошла ли рекомбинация при количестве различных горячих точек рекомбинации большем или равном 5; 10; 50; 100; 200; 500; 750; 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 40000; или 50000 (таких как известные горячие точки рекомбинации человека). В некоторых вариантах воплощения области, являющиеся мишенями праймеров, нацеленных на горячую точку рекомбинации или близлежащую область, приблизительно равномерно распределены вдоль этой части генома. В некоторых вариантах воплощения по меньшей мере 1, 5, 10, 20, 40, 60, 80, 100 или 150 различных праймеров (или пар праймеров) специфичны для области на конце хромосомы или приблизительно нее (например, области в пределах 20, 10, 5, 1, 0,5, 0,1, 0,01 или 0,001 Мб от конца хромосомы). В некоторых вариантах воплощения по меньшей мере 10, 20, 30, 40, 50, 60, 70, 80 или 90% праймеров в библиотеке праймеров специфичны для области на конце хромосомы или приблизительно нее (например, области в пределах 20, 10, 5, 1, 0,5, 0,1, 0,01 или 0,001 Мб от конца хромосомы). В некоторых вариантах воплощения по меньшей мере 1, 5, 10, 20, 40, 60, 80, 100 или 150 различных праймеров (или пар праймеров) специфичны для области в пределах потенциальной микроделеции в хромосоме. В некоторых вариантах воплощения по меньшей мере 10, 20, 30, 40, 50, 60, 70, 80 или 90% праймеров в библиотеке праймеров специфичны для области в пределах потенциальной микроделеции в хромосоме. В некоторых вариантах воплощения по меньшей мере 10, 20, 30, 40, 50, 60, 70, 80 или 90% праймеров в библиотеке праймеров специфичны для горячей точки рекомбинации, области рядом с горячей точкой рекомбинации, области на конце или приблизительно конца хромосомы или области в пределах потенциальной микроделеции в хромосоме.[624] In some embodiments, the primer library includes one or more primers (e.g., at least 5; 10; 50; 100; 200; 500; 750; 1000; 2000; 5000; 7,500; 10,000; 20,000; 25,000; 30,000; 40,000; or 50,000 different primers or different primer pairs) that are specific to a recombination hotspot (e.g., a known human recombination hotspot) and/or specific to a region adjacent to a recombination hotspot (e.g., within 10, 8, 5, 3 , 2, 1, or 0.5 kb from the 5' or 3' end of the recombination hotspot). In some embodiments, at least 1, 5, 10, 20, 40, 60, 80, 100, or 150 different primers (or primer pairs) are specific for the same recombination hot spot or are specific for the same recombination hot spot or areas near a recombination hotspot. In some embodiments, at least 1, 5, 10, 20, 40, 60, 80, 100, or 150 different primers (or primer pairs) are specific for a region between recombination hot spots (eg, a region that is unlikely to have undergone recombination); these primers can be used to confirm the presence of blocks of haplotypes (such as those that would be expected depending on whether recombination has occurred). In some embodiments, at least 10, 20, 30, 40, 50, 60, 70, 80, or 90% of the primers in the primer library are specific for a recombination hot spot and/or specific for a region adjacent to the recombination hot spot (e.g. within 10, 8, 5, 3, 2, 1 or 0.5 kb from the 5' or 3' end of the recombination hotspot). In some embodiments, a library of primers is used to determine whether recombination has occurred at a number of different recombination hot spots greater than or equal to 5; 10; 50; 100; 200; 500; 750; 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 40000; or 50,000 (such as known human recombination hotspots). In some embodiments, the regions targeted by primers targeting a recombination hotspot or nearby region are approximately evenly distributed along that portion of the genome. In some embodiments, at least 1, 5, 10, 20, 40, 60, 80, 100, or 150 different primers (or primer pairs) are specific for a region at or approximately the end of a chromosome (e.g., regions within 20, 10, 5, 1, 0.5, 0.1, 0.01 or 0.001 Mb from the end of the chromosome). In some embodiments, at least 10, 20, 30, 40, 50, 60, 70, 80, or 90% of the primers in the primer library are specific for a region at or approximately the end of the chromosome (e.g., regions within 20, 10, 5, 1, 0.5, 0.1, 0.01 or 0.001 Mb from the end of the chromosome). In some embodiments, at least 1, 5, 10, 20, 40, 60, 80, 100, or 150 different primers (or primer pairs) are specific for a region within a potential microdeletion in a chromosome. In some embodiments, at least 10, 20, 30, 40, 50, 60, 70, 80, or 90% of the primers in the primer library are specific for a region within a potential microdeletion in the chromosome. In some embodiments, at least 10, 20, 30, 40, 50, 60, 70, 80, or 90% of the primers in the primer library are specific for a recombination hotspot, a region adjacent to a recombination hotspot, a region at or approximately the end of a chromosome, or regions within a potential microdeletion in a chromosome.
[625] Примерные способы мультиплексной ПЦР [625] Exemplary Multiplex PCR Methods
[626] В одном аспекте изобретение относится к способам амплификации целевых локусов в образце нуклеиновой кислоты, которые включают (i) контактирование образца нуклеиновой кислоты с библиотекой праймеров, которые одновременно гибридизируются по меньшей мере с 1000; 2000; 5000; 7500; 10000; 15000; 19000; 20000; 25000; 27000; 28000; 30000; 40000; 50000; 75000; или 100000 различных целевых локусов для получения реакционной смеси; и (ii) воздействие на реакционную смесь условий реакции удлинения праймера (таких как условия ПЦР) для получения амплифицированных продуктов, которые включают целевые ампликоны. В некоторых вариантах воплощения способ также включает определение наличия или отсутствия по меньшей мере одного целевого ампликона (например по меньшей мере 50, 60, 70, 80, 90, 95, 96, 97, 98, 99 или 99,5% целевых ампликонов). В некоторых вариантах воплощения способ также включает определение последовательности по меньшей мере одного целевого ампликона (например по меньшей мере 50, 60, 70, 80, 90, 95, 96, 97, 98, 99 или 99,5% целевых ампликонов). В некоторых вариантах воплощения амплифицируются по меньшей мере 50, 60, 70, 80, 90, 95, 96, 97, 98, 99 или 99,5% целевых локусов. В некоторых вариантах воплощения по меньшей мере 25; 50; 75; 100; 300; 500; 750; 1000; 2000; 5000; 7500; 10,000; 15000; 19000; 20000; 25000; 27000; 28000; 30000; 40000; 50000; 75000; или 100000 различных целевых локусов амплифицируются по меньшей мере в 5, 10, 20, 40, 50, 60, 80, 100, 120, 150, 200, 300 или 400 раз. В некоторых вариантах воплощения по меньшей мере 50, 60, 70, 80, 90, 95, 96, 97, 98, 99, 99,5 или 100% целевых локусов амплифицируются по меньшей мере в 5, 10, 20, 40, 50, 60, 80, 100, 120, 150, 200, 300 или 400 раз. В различных вариантах воплощения менее 60, 50, 40, 30, 20, 10, 5, 4, 3, 2, 1, 0,5, 0,25, 0,1 или 0,05% амплифицированных продуктов представляют собой димеры праймеров. В некоторых вариантах воплощения способ включает мультиплексную ПЦР и секвенирование (например, высокопроизводительное секвенирование). [626] In one aspect, the invention relates to methods for amplifying target loci in a nucleic acid sample, which include (i) contacting the nucleic acid sample with a library of primers that simultaneously hybridize with at least 1000; 2000; 5000; 7500; 10000; 15000; 19000; 20000; 25000; 27000; 28000; 30000; 40000; 50000; 75000; or 100,000 different target loci to obtain a reaction mixture; and (ii) exposing the reaction mixture to primer extension reaction conditions (such as PCR conditions) to produce amplified products that include the target amplicons. In some embodiments, the method also includes determining the presence or absence of at least one target amplicon (eg, at least 50, 60, 70, 80, 90, 95, 96, 97, 98, 99, or 99.5% of the target amplicons). In some embodiments, the method also includes determining the sequence of at least one target amplicon (eg, at least 50, 60, 70, 80, 90, 95, 96, 97, 98, 99, or 99.5% of the target amplicons). In some embodiments, at least 50, 60, 70, 80, 90, 95, 96, 97, 98, 99, or 99.5% of the target loci are amplified. In some embodiments, at least 25; 50; 75; 100; 300; 500; 750; 1000; 2000; 5000; 7500; 10,000; 15000; 19000; 20000; 25000; 27000; 28000; 30000; 40000; 50000; 75000; or 100,000 different target loci are amplified at least 5-fold, 10-fold, 20-fold, 40-fold, 50-fold, 60-fold, 80-fold, 100-fold, 120-fold, 150-fold, 200-fold, 300-fold, or 400-fold. In some embodiments, at least 50, 60, 70, 80, 90, 95, 96, 97, 98, 99, 99.5, or 100% of the target loci are amplified in at least 5, 10, 20, 40, 50, 60, 80, 100, 120, 150, 200, 300 or 400 times. In various embodiments, less than 60, 50, 40, 30, 20, 10, 5, 4, 3, 2, 1, 0.5, 0.25, 0.1, or 0.05% of the amplified products are primer dimers. In some embodiments, the method includes multiplex PCR and sequencing (eg, high-throughput sequencing).
[627] В различных вариантах воплощения используется длительное время отжига и/или низкие концентрации праймеров. В различных вариантах воплощения длительность этапа отжига превышает 3, 5, 8, 10, 15, 20, 30, 45, 60, 75, 90, 120, 150 или 180 минут. В различных вариантах воплощения продолжительность этапа отжига (на цикл ПЦР) составляет от 5 до 180 минут, например от 5 до 60, от 10 до 60, от 5 до 30 или от 10 до 30 минут включительно. В различных вариантах воплощения продолжительность стадии отжига больше 5 минут (например, больше 10 или 15 минут), а концентрация каждого праймера меньше 20 нМ. В различных вариантах воплощения продолжительность этапа отжига превышает 5 минут (например, больше 10 или 15 минут), а концентрация каждого праймера составляет от 1 до 20 нМ или от 1 до 10 нМ включительно. В различных вариантах воплощения продолжительность стадии отжига больше 20 минут (например, больше 30, 45, 60 или 90 минут), а концентрация каждого праймера меньше 1 нМ.[627] Various embodiments utilize long annealing times and/or low primer concentrations. In various embodiments, the duration of the annealing step is greater than 3, 5, 8, 10, 15, 20, 30, 45, 60, 75, 90, 120, 150, or 180 minutes. In various embodiments, the duration of the annealing step (per PCR cycle) is from 5 to 180 minutes, such as from 5 to 60, from 10 to 60, from 5 to 30, or from 10 to 30 minutes, inclusive. In various embodiments, the duration of the annealing step is greater than 5 minutes (eg, greater than 10 or 15 minutes) and the concentration of each primer is less than 20 nM. In various embodiments, the duration of the annealing step is greater than 5 minutes (eg, greater than 10 or 15 minutes), and the concentration of each primer is from 1 to 20 nM, or from 1 to 10 nM, inclusive. In various embodiments, the duration of the annealing step is greater than 20 minutes (eg, greater than 30, 45, 60, or 90 minutes) and the concentration of each primer is less than 1 nM.
[628] При высоком уровне мультиплексирования раствор может стать вязким из-за большого количества праймеров в растворе. Если раствор слишком вязкий, можно снизить концентрацию праймера до количества, достаточного для связывания праймером ДНК-матрицы. В различных вариантах воплощения используется менее 60000 различных праймеров, а концентрация каждого праймера меньше 20 нМ, например, меньше 10 нМ или от 1 до 10 нМ включительно. В различных вариантах воплощения используется более 60000 различных праймеров (например, от 60000 до 120000 различных праймеров), и концентрация каждого праймера составляет менее 10 нМ, например, менее 5 нМ или от 1 до 10 нМ включительно. [628] At high levels of multiplexing, the solution may become viscous due to the large number of primers in the solution. If the solution is too viscous, the primer concentration can be reduced to an amount sufficient for the primer to bind the template DNA. In various embodiments, fewer than 60,000 different primers are used, and the concentration of each primer is less than 20 nM, such as less than 10 nM, or from 1 to 10 nM, inclusive. In various embodiments, more than 60,000 different primers are used (eg, from 60,000 to 120,000 different primers), and the concentration of each primer is less than 10 nM, such as less than 5 nM, or from 1 to 10 nM, inclusive.
[629] Было обнаружено, что температура отжига необязательно может быть выше, чем температуры плавления некоторых или всех праймеров (в отличие от других способов, в которых используется температура отжига ниже температур плавления праймеров). Температура плавления (Tm) является температурой, при которой половина (50%) дуплекса ДНК олигонуклеотида (например, праймера) и его совершенного комплемента диссоциируют и превращаются в одноцепочечную ДНК. Температура отжига (TA) является температурой, при которой выполняется протокол ПЦР. Для предшествующих способов она обычно на 5 °C ниже самой низкой Tm используемых праймеров, таким образом, образуются почти все возможные дуплексы (такие, что по существу все молекулы праймера связываются с матричной нуклеиновой кислотой). Хотя это очень эффективно, при более низких температурах обязательно будут происходить более неспецифические реакции. Одним из последствий слишком низкой TA является то, что праймеры могут отжигаться с последовательностями, отличными от истинной мишени, поскольку могут допускаться внутренние несоответствия по одному основанию или частичный отжиг. В некоторых вариантах воплощения настоящего изобретения TA выше, чем (Tm), где в данный момент только небольшая часть мишеней имеет отожженный праймер (например, только приблизительно 1-5%). Если они увеличиваются, то они удаляются из равновесия отжига и диссоциации праймеров и мишени (поскольку удлинение быстро увеличивает Tm до более 70 °C), и новые приблизительно 1-5% мишеней имеют праймеры. Таким образом, давая реакции большое время для отжига, можно получить приблизительно 100% копий мишеней за цикл. Таким образом, наиболее стабильные пары молекул (с идеальным спариванием ДНК между праймером и ДНК-матрицей) предпочтительно удлиняются для получения правильных целевых ампликонов. Например, тот же эксперимент был проведен с 57 °C в качестве температуры отжига и с 63 °C в качестве температуры отжига с праймерами, которые имели температуру плавления ниже 63 °C. Когда температура отжига составляла 57 °C, процент картированных считываний для амплифицированных продуктов ПЦР составлял всего 50% (причем приблизительно 50% амплифицированных продуктов были димерами праймеров). Когда температура отжига составляла 63 °C, процент амплифицированных продуктов, которые были димерами праймера, упал до приблизительно 2%. [629] It has been discovered that the annealing temperature may not necessarily be higher than the melting temperatures of some or all of the primers (unlike other methods that use annealing temperatures below the melting temperatures of the primers). Melting temperature ( Tm ) is the temperature at which half (50%) of the DNA duplex of an oligonucleotide (eg, a primer) and its perfect complement dissociate and become single-stranded DNA. Annealing temperature (T A ) is the temperature at which the PCR protocol is performed. For previous methods, it is usually 5 °C below the lowest T m of the primers used, so that almost all possible duplexes are formed (such that essentially all primer molecules bind to the template nucleic acid). Although this is very effective, at lower temperatures more nonspecific reactions are bound to occur. One consequence of too low a T A is that primers may anneal to sequences other than the true target, since internal single-base mismatches or partial annealing may occur. In some embodiments of the present invention, T A is higher than (T m) , where at a given time only a small portion of the targets have an annealed primer (eg, only about 1-5%). If they are extended, then they are removed from the equilibrium of annealing and primer-target dissociation (as extension rapidly increases T m to over 70°C), and approximately 1-5% of new targets have primers. Thus, by giving the reaction a long annealing time, approximately 100% copies of the targets can be obtained per cycle. Thus, the most stable pairs of molecules (with perfect DNA pairing between primer and template DNA) are preferentially extended to produce the correct target amplicons. For example, the same experiment was performed with 57 °C as the annealing temperature and 63 °C as the annealing temperature with primers that had a melting point below 63 °C. When the annealing temperature was 57°C, the percentage of mapped reads for the amplified PCR products was only 50% (with approximately 50% of the amplified products being primer dimers). When the annealing temperature was 63 °C, the percentage of amplified products that were primer dimers dropped to approximately 2%.
[630] В различных вариантах воплощения температура отжига по меньшей мере на 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13 или 15 °C выше, чем температура плавления (например, эмпирически измеренная или рассчитанная Tm) по меньшей мере 25; 50; 75; 100; 300; 500; 750; 1000; 2000; 5000; 7500; 10000; 15000; 19000; 20000; 25000; 27000; 28000; 30000; 40000; 50000; 75000; 100000; или всех неидентичных праймеров. В некоторых вариантах воплощения температура отжига по меньшей мере на 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13 или 15 °C выше, чем температура плавления (например, эмпирически измеренная или рассчитанная Tm) по меньшей мере 25; 50; 75; 100; 300; 500; 750; 1000; 2000; 5000; 7500; 10000; 15000; 19000; 20000; 25000; 27000; 28000; 30000; 40000; 50000; 75000; 100000; или всех неидентичных праймеров, а продолжительность стадии отжига (на цикл ПЦР) составляет более, чем 1, 3, 5, 8, 10, 15, 20, 30, 45, 60, 75, 90, 120, 150 или 180 минут.[630] In various embodiments, the annealing temperature is at least 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, or 15 °C higher than the melting temperature (e.g. empirically measured or calculated Tm) at least 25; 50; 75; 100; 300; 500; 750; 1000; 2000; 5000; 7500; 10000; 15000; 19000; 20000; 25000; 27000; 28000; 30000; 40000; 50000; 75000; 100000; or all non-identical primers. In some embodiments, the annealing temperature is at least 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, or 15 °C higher than the melting temperature (e.g., empirically measured or calculated Tm) at least 25; 50; 75; 100; 300; 500; 750; 1000; 2000; 5000; 7500; 10000; 15000; 19000; 20000; 25000; 27000; 28000; 30000; 40000; 50000; 75000; 100000; or all non-identical primers, and the duration of the annealing step (per PCR cycle) is more than 1, 3, 5, 8, 10, 15, 20, 30, 45, 60, 75, 90, 120, 150 or 180 minutes.
[631] В различных вариантах воплощения температура отжига на от 1 до 15 °C (например, от 1 до 10, от 1 до 5, от 1 до 3, от 3 до 5, от 5 до 10, от 5 до 8, от 8 до 10, от 10 до 12 или от 12 до 15 °C включительно) выше температуры плавления (такой как эмпирически измеренная или рассчитанная Tm) по меньшей мере 25; 50; 75; 100; 300; 500; 750; 1000; 2000; 5000; 7500; 10000; 15000; 19000; 20000; 25000; 27000; 28000; 30000; 40000; 50000; 75000; 100000; или всех неидентичных праймеров. В различных вариантах воплощения температура отжига от 1 до 15 °C (например, от 1 до 10, от 1 до 5, от 1 до 3, от 3 до 5, от 5 до 10, от 5 до 8, от 8 до 10, от 10 до 12 или от 12 до 15 °C включительно) выше температуры плавления (такой как эмпирически измеренная или рассчитанная Tm) по меньшей мере 25; 50; 75; 100; 300; 500; 750; 1000; 2000; 5000; 7500; 10000; 15000; 19000; 20000; 25000; 27000; 28000; 30000; 40000; 50000; 75000; 100000; или всех неидентичных праймеров, а продолжительность этапа отжига (на цикл ПЦР) составляет от 5 до 180 минут, например от 5 до 60, от 10 до 60, от 5 до 30 или от 10 до 30 минут включительно.[631] In various embodiments, the annealing temperature is 1 to 15 °C (e.g., 1 to 10, 1 to 5, 1 to 3, 3 to 5, 5 to 10, 5 to 8, 8 to 10, 10 to 12, or 12 to 15 °C inclusive) above the melting point (such as empirically measured or calculated Tm ) of at least 25; 50; 75; 100; 300; 500; 750; 1000; 2000; 5000; 7500; 10000; 15000; 19000; 20000; 25000; 27000; 28000; 30000; 40000; 50000; 75000; 100000; or all non-identical primers. In various embodiments, the annealing temperature is from 1 to 15 °C (for example, from 1 to 10, from 1 to 5, from 1 to 3, from 3 to 5, from 5 to 10, from 5 to 8, from 8 to 10, 10 to 12 or 12 to 15 °C inclusive) above the melting point (such as empirically measured or calculated Tm ) of at least 25; 50; 75; 100; 300; 500; 750; 1000; 2000; 5000; 7500; 10000; 15000; 19000; 20000; 25000; 27000; 28000; 30000; 40000; 50000; 75000; 100000; or all non-identical primers, and the duration of the annealing step (per PCR cycle) is from 5 to 180 minutes, for example from 5 to 60, from 10 to 60, from 5 to 30 or from 10 to 30 minutes inclusive.
[632] В некоторых вариантах воплощения температура отжига по меньшей мере на 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13 или 15 °C выше, чем самая высокая температура плавления (например, эмпирически измеренная или рассчитанная Tm) праймеров. В некоторых вариантах воплощения температура отжига по меньшей мере на 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13 или 15 °C выше, чем самая высокая температура плавления (например, эмпирически измеренная или рассчитанная Tm) праймеров, а длина стадии отжига (за цикл ПЦР) больше 1, 3, 5, 8, 10, 15, 20, 30, 45, 60, 75, 90, 120, 150 или 180 минут. [632] In some embodiments, the annealing temperature is at least 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, or 15 °C higher than the highest melting temperature ( for example, empirically measured or calculated T m ) of primers. In some embodiments, the annealing temperature is at least 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, or 15 °C higher than the highest melting temperature (e.g., empirically measured or calculated T m ) of primers, and the length of the annealing step (per PCR cycle) is greater than 1, 3, 5, 8, 10, 15, 20, 30, 45, 60, 75, 90, 120, 150 or 180 minutes.
[633] В некоторых вариантах воплощения температура отжига на от 1 до 15 °C (например, от 1 до 10, от 1 до 5, от 1 до 3, от 3 до 5, от 5 до 10, от 5 до 8, от 8 до 10, от 10 до 12 или от 12 до 15 °C включительно) выше, чем самая высокая температура плавления (например, эмпирически измеренная или рассчитанная Tm) праймеров. В некоторых вариантах воплощения температура отжига на от 1 до 15 °C (например, от 1 до 10, от 1 до 5, от 1 до 3, от 3 до 5, от 5 до 10, от 5 до 8, от 8 до 10, от 10 до 12 или от 12 до 15 °C включительно) выше, чем наивысшая температура плавления (например, эмпирически измеренная или рассчитанная Tm) праймеров, а продолжительность стадии отжига (на цикл ПЦР) составляет от 5 до 180 минут, например от 5 до 60, oт 10 до 60, от 5 до 30 или от 10 до 30 минут включительно.[633] In some embodiments, the annealing temperature is 1 to 15 °C (e.g., 1 to 10, 1 to 5, 1 to 3, 3 to 5, 5 to 10, 5 to 8, 8 to 10, 10 to 12, or 12 to 15 °C inclusive) higher than the highest melting temperature (e.g., empirically measured or calculated T m ) of the primers. In some embodiments, the annealing temperature is 1 to 15 °C (e.g., 1 to 10, 1 to 5, 1 to 3, 3 to 5, 5 to 10, 5 to 8, 8 to 10 , from 10 to 12 or from 12 to 15 °C inclusive) higher than the highest melting temperature (e.g. empirically measured or calculated T m ) of the primers, and the duration of the annealing step (per PCR cycle) is from 5 to 180 minutes, e.g. 5 to 60, from 10 to 60, from 5 to 30 or from 10 to 30 minutes inclusive.
[634] В некоторых вариантах воплощения температура отжига по меньшей мере на 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13 или 15 °C выше, чем средняя температура плавления (например, эмпирически измеренная или рассчитанная Tm) по меньшей мере 25; 50; 75; 100; 300; 500; 750; 1000; 2000; 5000; 7500; 10000; 15000; 19000; 20000; 25000; 27000; 28000; 30000; 40000; 50000; 75000; 100000; или всех неидентичных праймеров. В некоторых вариантах воплощения температура отжига по меньшей мере на 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13 или 15 °C выше, чем средняя температура плавления (например, эмпирически измеренная или рассчитанная Tm) по меньшей мере 25; 50; 75; 100; 300; 500; 750; 1000; 2000; 5000; 7500; 10000; 15000; 19000; 20000; 25000; 27000; 28000; 30000; 40000; 50000; 75000; 100000; или всех неидентичных праймеров, а длина стадии отжига (на цикл ПЦР) больше 1, 3, 5, 8, 10, 15, 20, 30, 45, 60, 75, 90, 120, 150 или 180 минут. [634] In some embodiments, the annealing temperature is at least 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, or 15 °C higher than the average melting temperature (e.g. , empirically measured or calculated T m ) at least 25; 50; 75; 100; 300; 500; 750; 1000; 2000; 5000; 7500; 10000; 15000; 19000; 20000; 25000; 27000; 28000; 30000; 40000; 50000; 75000; 100000; or all non-identical primers. In some embodiments, the annealing temperature is at least 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, or 15 °C higher than the average melting temperature (e.g., empirically measured or calculated Tm) of at least 25; 50; 75; 100; 300; 500; 750; 1000; 2000; 5000; 7500; 10000; 15000; 19000; 20000; 25000; 27000; 28000; 30000; 40000; 50000; 75000; 100000; or all non-identical primers, and the length of the annealing step (per PCR cycle) is greater than 1, 3, 5, 8, 10, 15, 20, 30, 45, 60, 75, 90, 120, 150 or 180 minutes.
[635] В некоторых вариантах воплощения температура отжига на от 1 до 15 °C (например, от 1 до 10, от 1 до 5, от 1 до 3, от 3 до 5, от 5 до 10, от 5 до 8, от 8 до 10, от 10 до 12 или от 12 до 15 °C включительно) выше средней температуры плавления (такой как эмпирически измеренная или рассчитанная Tm) по меньшей мере 25; 50; 75; 100; 300; 500; 750; 1000; 2000; 5000; 7500; 10000; 15000; 19000; 20000; 25000; 27000; 28000; 30000; 40000; 50000; 75000; 100000; или всех неидентичных праймеров. В некоторых вариантах воплощения температура отжига составляет от 1 до 15 °C (например, от 1 до 10, от 1 до 5, от 1 до 3, от 3 до 5, от 5 до 10, от 5 до 8, от 8 до 10, от 10 до 12 или от 12 до 15 °C включительно) выше средней температуры плавления (такой как эмпирически измеренная или рассчитанная Tm) по меньшей мере 25; 50; 75; 100; 300; 500; 750; 1000; 2000; 5000; 7500; 10000; 15000; 19000; 20000; 25000; 27000; 28000; 30000; 40000; 50000; 75000; 100000; или всех неидентичных праймеров, а продолжительность этапа отжига (на цикл ПЦР) составляет от 5 до 180 минут, например от 5 до 60, от 10 до 60, от 5 до 30 или от 10 до 30 минут включительно. [635] In some embodiments, the annealing temperature is 1 to 15 °C (e.g., 1 to 10, 1 to 5, 1 to 3, 3 to 5, 5 to 10, 5 to 8, 8 to 10, 10 to 12, or 12 to 15 °C inclusive) above the average melting temperature (such as empirically measured or calculated Tm ) of at least 25; 50; 75; 100; 300; 500; 750; 1000; 2000; 5000; 7500; 10000; 15000; 19000; 20000; 25000; 27000; 28000; 30000; 40000; 50000; 75000; 100000; or all non-identical primers. In some embodiments, the annealing temperature is 1 to 15 °C (e.g., 1 to 10, 1 to 5, 1 to 3, 3 to 5, 5 to 10, 5 to 8, 8 to 10 , from 10 to 12 or from 12 to 15 °C inclusive) above the average melting temperature (such as empirically measured or calculated Tm ) of at least 25; 50; 75; 100; 300; 500; 750; 1000; 2000; 5000; 7500; 10000; 15000; 19000; 20000; 25000; 27000; 28000; 30000; 40000; 50000; 75000; 100000; or all non-identical primers, and the duration of the annealing step (per PCR cycle) is from 5 to 180 minutes, for example from 5 to 60, from 10 to 60, from 5 to 30 or from 10 to 30 minutes inclusive.
[636] В некоторых вариантах воплощения температура отжига составляет от 50 до 70 °C, например от 55 до 60, от 60 до 65 или от 65 до 70 °C включительно. В некоторых вариантах воплощения температура отжига составляет от 50 до 70 °C, например от 55 до 60, от 60 до 65 или от 65 до 70 °C включительно, и либо (i) длина стадии отжига (на цикл PCR) больше, чем 3, 5, 8, 10, 15, 20, 30, 45, 60, 75, 90, 120, 150 или 180 минут или (ii) продолжительность этапа отжига (на цикл ПЦР) составляет от 5 до 180 минут, например от 5 до 60, от 10 до 60, от 5 до 30 или от 10 до 30 минут включительно. [636] In some embodiments, the annealing temperature is 50 to 70 °C, such as 55 to 60, 60 to 65, or 65 to 70 °C, inclusive. In some embodiments, the annealing temperature is 50 to 70 °C, such as 55 to 60, 60 to 65, or 65 to 70 °C, inclusive, and either (i) the length of the annealing step (per PCR cycle) is greater than 3 , 5, 8, 10, 15, 20, 30, 45, 60, 75, 90, 120, 150 or 180 minutes or (ii) the duration of the annealing step (per PCR cycle) is from 5 to 180 minutes, for example from 5 to 60, from 10 to 60, from 5 to 30 or from 10 to 30 minutes inclusive.
[637] В некоторых вариантах воплощения одно или более из следующих условий используются для эмпирического измерения Tm или принимаются для расчета Tm: температура: 60,0 °C, концентрация праймера 100 нМ и/или концентрация соли 100 мМ. В некоторых вариантах воплощения используются другие условия, такие как условия, которые будут использоваться для мультиплексной ПЦР с библиотекой. В некоторых вариантах воплощения используется 100 мМ KCl, 50 мМ (NH4)2SO4, 3 мМ MgCl2, 7,5 нМ каждого праймера и 50 мМ TMAC при pH 8,1. В некоторых вариантах воплощения Tm рассчитывается с применением программы Primer3 (libprimer3 выпуск 2.2.3) с использованием встроенных параметров SantaLucia (веб-адрес primer3.sourceforge.net, документ полностью включен сюда посредством ссылки). В некоторых вариантах воплощения расчетная температура плавления праймера является температурой, при которой ожидается отжиг половины молекул праймера. Как обсуждалось выше, даже при температуре выше расчетной температуры плавления часть праймеров будет отожжена, и, следовательно, возможно удлинение ПЦР. В некоторых вариантах воплощения эмпирически измеренная Tm (фактическая Tm) определяется с помощью термостатированной ячейки в УФ-спектрофотометре. В некоторых вариантах воплощения график зависимости температуры от поглощения дает S-образную кривую с двумя плато. Показатель поглощения на полпути между плато соответствует Tm. [637] In some embodiments, one or more of the following conditions are used to empirically measure Tm or are used to calculate Tm : temperature: 60.0 °C, primer concentration 100 nM, and/or salt concentration 100 mM. In some embodiments, other conditions are used, such as those that would be used for multiplex PCR with a library. In some embodiments, 100 mM KCl, 50 mM (NH 4 ) 2 SO 4 , 3 mM MgCl 2 , 7.5 nM each primer, and 50 mM TMAC at pH 8.1 are used. In some embodiments, T m is calculated using the Primer3 program (libprimer3 release 2.2.3) using built-in SantaLucia parameters (web address primer3.sourceforge.net, document incorporated herein by reference in its entirety). In some embodiments, the calculated melting temperature of the primer is the temperature at which half of the primer molecules are expected to anneal. As discussed above, even at temperatures above the calculated melting temperature, some of the primers will anneal and hence the PCR may be extended. In some embodiments, the empirically measured T m (actual T m ) is determined using a thermostated cell in a UV spectrophotometer. In some embodiments, a plot of temperature versus absorbance produces an S-shaped curve with two plateaus. The absorption value halfway between the plateaus corresponds to Tm .
[638] В некоторых вариантах воплощения поглощение при 260 нм измеряется как функция температуры на УФ/видимом спектрофотометре ultrospec 2100 pr. (Amershambiosciences) (см., например, Takiya et al., “An empirical approach for thermal stability (Tm) prediction of PNA/DNA duplexes,”Nucleic Acids Symp Ser (Oxf); (48):131-2, 2004, документ полностью включен сюда посредством ссылки). В некоторых вариантах воплощения поглощение при 260 нм измеряется путем снижения температуры с шагом 2 °C в минуту с 95 до 20 °C. В некоторых вариантах воплощения праймер и его идеальный комплемент (например, 2 мкМ каждого спаренного олигомера) смешивают, а затем проводят отжиг путем нагревания образца до 95 °C, выдерживания его там в течение 5 минут с последующим охлаждением до комнатной температуры в течение 30 минут, и выдерживание образцов при 95 °C по меньшей мере 60 минут. В некоторых вариантах воплощения температура плавления определяется путем анализа данных с помощью программы SWIFT Tm. В некоторых вариантах воплощения любого из способов по изобретению, способ включает эмпирическое измерение или расчет (например, расчет с помощью компьютера) температуры плавления по меньшей мере для 50, 80, 90, 92, 94, 96, 98, 99 или 100% праймеров в библиотеке до или после использования праймеров для ПЦР-амплификации целевых локусов. [638] In some embodiments, absorbance at 260 nm is measured as a function of temperature on an ultrospec 2100 pr UV/visible spectrophotometer. (Amershambiosciences) (see, for example, Takiya et al ., “An empirical approach for thermal stability (Tm) prediction of PNA/DNA duplexes,” Nucleic Acids Symp Ser (Oxf); (48):131-2, 2004, document is incorporated herein by reference in its entirety . In some embodiments, absorbance at 260 nm is measured by decreasing the temperature in 2 °C increments per minute from 95 to 20 °C. In some embodiments, the primer and its ideal complement (e.g., 2 μM of each paired oligomer) are mixed and then annealed by heating the sample to 95 °C, holding it there for 5 minutes, then cooling to room temperature over 30 minutes, and holding samples at 95°C for at least 60 minutes. In some embodiments, the melting point is determined by analyzing data using the SWIFT Tm program. In some embodiments of any of the methods of the invention, the method includes empirically measuring or calculating (e.g., computer calculation) the melting temperature of at least 50, 80, 90, 92, 94, 96, 98, 99, or 100% of the primers in library before or after using primers for PCR amplification of target loci.
[639] В некоторых вариантах воплощения библиотека включает микрочип. В некоторых вариантах воплощения библиотека не содержит микрочип. [639] In some embodiments, the library includes a microchip. In some embodiments, the library does not contain a microchip.
[640] В некоторых вариантах воплощения большинство или все праймеры удлиняются с образованием продуктов амплификации. Использование всех праймеров в реакции ПЦР увеличивает однородность амплификации различных целевых локусов, поскольку в целевые ампликоны для каждого целевого локуса превращается одинаковое или аналогичное количество молекул праймеров. В некоторых вариантах воплощения по меньшей мере 80, 90, 92, 94, 96, 98, 99 или 100% молекул праймера удлиняются с образованием амплифицированных продуктов. В некоторых вариантах воплощения для по меньшей мере 80, 90, 92, 94, 96, 98, 99 или 100% целевых локусов по меньшей мере 80, 90, 92, 94, 96, 98, 99 или 100% молекул праймеров для этих целевых локусов удлиняются с образованием амплифицированных продуктов. В некоторых вариантах воплощения выполняется несколько циклов до тех пор, пока этот процент праймеров не будет израсходован. В некоторых вариантах воплощения выполняют несколько циклов до тех пор, пока не будут израсходованы все или практически все праймеры. При необходимости можно использовать более высокий процент праймеров, уменьшив исходную концентрацию праймеров и/или увеличив количество выполняемых циклов ПЦР. [640] In some embodiments, most or all of the primers are extended to produce amplification products. Using all primers in a PCR reaction increases the uniformity of amplification across different target loci because the same or similar number of primer molecules are converted into target amplicons for each target locus. In some embodiments, at least 80, 90, 92, 94, 96, 98, 99, or 100% of the primer molecules are extended to form amplified products. In some embodiments, for at least 80, 90, 92, 94, 96, 98, 99, or 100% of the target loci, at least 80, 90, 92, 94, 96, 98, 99, or 100% of the primer molecules for those targets loci are extended to form amplified products. In some embodiments, multiple cycles are performed until this percentage of primers is consumed. In some embodiments, multiple cycles are performed until all or substantially all of the primers are consumed. If necessary, a higher percentage of primers can be used by decreasing the initial primer concentration and/or increasing the number of PCR cycles performed.
[641] В некоторых вариантах воплощения способы ПЦР могут выполняться с микролитровыми реакционными объемами, для которых может быть труднее достичь специфической амплификации ПЦР (из-за более низкой локальной концентрации матричных нуклеиновых кислот) по сравнению с нанолитровыми или пиколитровыми реакционными объемами, используемыми в микрофлюидных применениях. В некоторых вариантах воплощения объем реакции составляет от 1 до 60 мкл, например от 5 до 50 мкл, от 10 до 50 мкл, от 10 до 20 мкл, от 20 до 30 мкл, от 30 до 40 мкл или от 40 до 50 мкл включительно.[641] In some embodiments, PCR methods can be performed with microliter reaction volumes, which may be more difficult to achieve specific PCR amplification (due to the lower local concentration of template nucleic acids) compared to nanoliter or picoliter reaction volumes used in microfluidic applications . In some embodiments, the reaction volume is 1 to 60 μL, such as 5 to 50 μL, 10 to 50 μL, 10 to 20 μL, 20 to 30 μL, 30 to 40 μL, or 40 to 50 μL, inclusive .
[642] В одном варианте воплощения в способе, раскрытом в данном документе, используется высокоэффективная целевая ПЦР с высокой степенью мультиплексирования для амплификации ДНК с последующим высокопроизводительным секвенированием для определения частот аллелей в каждом целевом локусе. Возможность мультиплексировать более 50 или 100 праймеров для ПЦР в одном реакционном объеме таким образом, чтобы большая часть считываний полученной последовательности картировалась в целевые локусы, является новой и неочевидной. Одна методика, которая позволяет проводить высокоэффективную целевую ПЦР с высокой степенью мультиплексирования, включает разработку праймеров, которые вряд ли будут гибридизоваться друг с другом. Зонды ПЦР, обычно называемые праймерами, выбираются путем создания термодинамической модели потенциально неблагоприятных взаимодействий между по меньшей мере 300; по меньшей мере, 500; по меньшей мере, 750; по меньшей мере, 1000; по меньшей мере, 2000; по меньшей мере, 5000; по меньшей мере, 7500; по меньшей мере, 10000; по меньшей мере, 20000; по меньшей мере, 25000; по меньшей мере, 30000; по меньшей мере, 40000; по меньшей мере, 50000; по меньшей мере, 75000; или по меньшей мере 100000 потенциальных пар праймеров, или непреднамеренных взаимодействий между праймерами и образцом ДНК, а затем использование модели для исключения конструкций, несовместимых с другими конструкциями в пуле. Другая методика, которая позволяет выполнять высокоэффективную целевую ПЦР с высокой степенью мультиплексирования, заключается в использовании подхода частичного или полного вложения к целевой ПЦР. Использование одного или комбинации этих подходов позволяет мультиплексировать по меньшей мере 300 по меньшей мере 800 по меньшей мере 1200 по меньшей мере 4000 или по меньшей мере 10000 праймеров в единый пул с полученной амплифицированной ДНК, содержащей большинство молекул ДНК, которые при секвенировании, будут картироваться в целевые локусы. Использование одного или комбинации этих подходов позволяет мультиплексировать большое количество праймеров в одном пуле с полученной амплифицированной ДНК, содержащей более 50%, более 60%, более 67%, более 80%, более 90%, более 95%, более 96%, более 97%, более 98%, более 99% или более 99,5% молекул ДНК, которые картируются в целевые локусы. [642] In one embodiment, the method disclosed herein uses high-throughput, highly multiplexed targeted PCR to amplify DNA, followed by high-throughput sequencing to determine allele frequencies at each target locus. The ability to multiplex more than 50 or 100 PCR primers in a single reaction volume such that the majority of the resulting sequence reads map to target loci is new and not obvious. One technique that allows highly multiplexed, highly targeted PCR involves designing primers that are unlikely to hybridize to each other. PCR probes, commonly called primers, are selected by creating a thermodynamic model of potentially unfavorable interactions between at least 300; at least 500; at least 750; at least 1000; at least 2000; at least 5000; at least 7500; at least 10,000; at least 20,000; at least 25,000; at least 30,000; at least 40,000; at least 50,000; at least 75,000; or at least 100,000 potential primer pairs, or unintended interactions between the primers and the DNA sample, and then use the model to eliminate constructs that are inconsistent with other constructs in the pool. Another technique that allows for highly multiplexed, high-throughput targeted PCR is to use a partial or full nesting approach to targeted PCR. Using one or a combination of these approaches allows at least 300, at least 800, at least 1200, at least 4000, or at least 10,000 primers to be multiplexed into a single pool, with the resulting amplified DNA containing the majority of the DNA molecules that, when sequenced, will map to target loci. Using one or a combination of these approaches allows you to multiplex a large number of primers in one pool with the resulting amplified DNA containing more than 50%, more than 60%, more than 67%, more than 80%, more than 90%, more than 95%, more than 96%, more than 97 %, greater than 98%, greater than 99%, or greater than 99.5% of DNA molecules that map to target loci.
[643] В некоторых вариантах воплощения обнаружение целевого генетического материала может быть выполнено мультиплексным способом. Число генетических последовательностей-мишеней, которые могут выполняться параллельно, может варьироваться от одной до десяти, от десяти до ста, от ста до одной тысячи, от одной тысячи до десяти тысяч, от десяти тысяч до ста тысяч, от ста тысяч до миллиона, или от одного миллиона до десяти миллионов. Предыдущие попытки мультиплексировать более 100 праймеров на пул привели к значительным проблемам с нежелательными побочными реакциями, такими как образование димера праймера. [643] In some embodiments, detection of target genetic material can be performed in a multiplex manner. The number of target genetic sequences that can be executed in parallel can vary from one to ten, ten to one hundred, one hundred to one thousand, one thousand to ten thousand, ten thousand to one hundred thousand, one hundred thousand to a million, or from one million to ten million. Previous attempts to multiplex more than 100 primers per pool resulted in significant problems with unwanted side reactions such as primer dimer formation.
[644] Целевая ПЦР [644] Targeted PCR
[645] В некоторых вариантах воплощения ПЦР можно использовать для нацеливания на определенные участки генома. В образцах плазмы исходная ДНК сильно фрагментирована (обычно менее 500 п.н., при средней длине менее 200 п.н.). В ПЦР как прямой, так и обратный праймер отжигаются с одним и тем же фрагментом, чтобы сделать амплификацию возможной. Следовательно, если фрагменты короткие, анализы ПЦР также должны амплифицировать относительно короткие области. Подобно MIPS, если полиморфные позиции находятся слишком близко к сайту связывания полимеразы, это может привести к ошибкам в амплификации от разных аллелей. В настоящее время праймеры для ПЦР, нацеленные на полиморфные области, такие как те, которые содержат ОНП, обычно разрабатываются таким образом, что 3'-конец праймера будет гибридизоваться с основанием, непосредственно примыкающим к полиморфному основанию или основаниям. В одном варианте воплощения настоящего изобретения 3'-концы как прямого, так и обратного праймеров для ПЦР предназначены для гибридизации с основаниями, которые находятся на одно или несколько положений дальше от вариантов положений (полиморфных сайтов) целевого аллеля. Количеством оснований между полиморфным сайтом (ОНП или другого) и основанием, для которого предназначена гибридизация 3'-конца праймера, может быть одно основание, это может быть два основания, это может быть три основания, это может быть четыре основания, это может быть пять оснований, это может быть шесть оснований, это может быть от семи до десяти оснований, это может быть от одиннадцати до пятнадцати оснований, или это может быть от шестнадцати до двадцати оснований. Прямой и обратный праймеры могут быть разработаны для гибридизации различного количества оснований вдали от полиморфного сайта. [645] In some embodiments, PCR can be used to target specific regions of the genome. In plasma samples, the original DNA is highly fragmented (usually less than 500 bp, with an average length of less than 200 bp). In PCR, both forward and reverse primers anneal to the same fragment to make amplification possible. Therefore, if the fragments are short, PCR assays should also amplify relatively short regions. Similar to MIPS, if polymorphic positions are too close to the polymerase binding site, this can lead to errors in amplification from different alleles. Currently, PCR primers targeting polymorphic regions, such as those containing SNPs, are typically designed such that the 3' end of the primer will hybridize to the base immediately adjacent to the polymorphic base or bases. In one embodiment of the present invention, the 3' ends of both the forward and reverse PCR primers are designed to hybridize to bases that are one or more positions further from variant positions (polymorphic sites) of the target allele. The number of bases between the polymorphic site (SNP or other) and the base to which the 3' end of the primer is intended to hybridize could be one base, it could be two bases, it could be three bases, it could be four bases, it could be five bases, it could be six bases, it could be seven to ten bases, it could be eleven to fifteen bases, or it could be sixteen to twenty bases. Forward and reverse primers can be designed to hybridize different numbers of bases away from the polymorphic site.
[646] ПЦР-анализы могут проводиться в большом количестве, однако взаимодействие между разными ПЦР-анализами затрудняет их мультиплексирование за пределами приблизительно сотни анализов. Для повышения уровня мультиплексирования можно использовать различные сложные молекулярные подходы, но все же можно ограничиться менее чем 100, возможно, 200 или, возможно, 500 анализами на реакцию. Образцы с большим количеством ДНК можно разделить на несколько субреакций, а затем рекомбинировать перед секвенированием. Для образцов, в которых ограничен либо общий образец, либо некоторая субпопуляция молекул ДНК, разделение образца внесет статистический шум. В одном варианте воплощения небольшое или ограниченное количество ДНК может относиться к количеству ниже 10 пг, от 10 до 100 пг, от 100 пг до 1 нг, от 1 до 10 нг или от 10 до 100 нг. Обратите внимание, что хотя этот способ особенно полезен для небольших количеств ДНК, где другие способы, предполагающие разделение на несколько пулов, могут вызвать значительные проблемы, связанные с внесенным стохастическим шумом, этот способ по-прежнему обеспечивает преимущество минимизации систематической ошибки, когда он выполняется на образцах с любым количеством ДНК. В этих ситуациях можно использовать универсальный этап предварительной амплификации для увеличения общего количества образца. В идеале, этот этап предварительной амплификации не должен заметно изменять аллельные распределения. [646] PCR assays can be performed in large numbers, but interactions between different PCR assays make it difficult to multiplex beyond about a hundred assays. Various complex molecular approaches can be used to increase multiplexing levels, but may still be limited to less than 100, perhaps 200, or perhaps 500 assays per reaction. Samples with large amounts of DNA can be split into multiple subreactions and then recombined before sequencing. For samples in which either the total sample or some subpopulation of DNA molecules is limited, separating the sample will introduce statistical noise. In one embodiment, a small or limited amount of DNA may refer to an amount below 10 pg, from 10 to 100 pg, from 100 pg to 1 ng, from 1 to 10 ng, or from 10 to 100 ng. Note that while this method is particularly useful for small quantities of DNA, where other methods involving partitioning into multiple pools may cause significant problems due to introduced stochastic noise, this method still provides the benefit of minimizing bias when performed on samples with any amount of DNA. In these situations, a versatile preamplification step can be used to increase the total sample quantity. Ideally, this preamplification step should not appreciably alter allelic distributions.
[647] В одном из вариантов воплощения, способ, согласно настоящему описанию, может генерировать продукты ПЦР, которые специфичны для большого количества целевых локусов, в частности для от 1000 до 5000 локусов, от 5000 до 10000 локусов или более 10000 локусов, для генотипирования посредством секвенирования или какого-либо другого способа генотипирования из ограниченного количества образцов, таких как отдельные клетки или ДНК из жидкостей организма. В настоящее время выполнение мультиплексных реакций ПЦР для более, чем 5-10 мишеней представляет собой серьезную проблему и часто затрудняется из-за побочных продуктов праймера, таких как димеры праймеров, и других артефактов. При обнаружении целевых последовательностей с использованием микроматриц с зондами гибридизации, димеры праймеров и другие артефакты можно игнорировать, поскольку они не обнаруживаются. Однако при использовании секвенирования в качестве способа обнаружения подавляющее большинство считываний секвенирования будет секвенировать такие артефакты, а не желаемые целевые последовательности в образце. Способы, представленные на предшествующем уровне техники, используемые для мультиплексирования более 50 или 100 реакций в одном реакционном объеме с последующим секвенированием, как правило, приводят к более чем 20%, а часто и более чем 50%, во многих случаях более 80%, а в некоторых случаях более 90% считываниям нецелевой последовательности. [647] In one embodiment, the method according to the present description can generate PCR products that are specific for a large number of target loci, in particular for 1000 to 5000 loci, 5000 to 10000 loci, or more than 10000 loci, for genotyping by sequencing or some other method of genotyping from a limited number of samples, such as single cells or DNA from body fluids. Currently, performing multiplex PCR reactions for more than 5-10 targets is a major challenge and is often hampered by primer by-products such as primer dimers and other artifacts. When detecting target sequences using microarrays with hybridization probes, primer dimers and other artifacts can be ignored as they are not detected. However, when using sequencing as a detection method, the vast majority of sequencing reads will sequence such artifacts rather than the desired target sequences in the sample. Methods presented in the prior art used to multiplex more than 50 or 100 reactions in a single reaction volume followed by sequencing typically result in greater than 20%, and often greater than 50%, in many cases greater than 80%, and in some cases, more than 90% of the reads are off-target sequence.
[648] В общем, для выполнения целевого секвенирования нескольких (n) мишеней образца (больше 50, больше 100, больше 500 или больше 1000) можно разделить образец на ряд параллельных реакций, которые амплифицируют одну индивидуальную мишень. Это было выполнено в многолуночных планшетах для ПЦР или может быть выполнено на коммерческих платформах, таких как FLUIDIGM ACCESS ARRAY (48 реакций на образец в микрожидкостных чипах) или DROPLET PCR от RAIN DANCE TECHNOLOGY (от 100 до нескольких тысяч мишеней). К сожалению, эти способы разделения и объединения проблематичны для образцов с ограниченным количеством ДНК, поскольку часто не хватает копий генома, чтобы гарантировать наличие одной копии каждой области генома в каждой лунке. Это особенно серьезная проблема тогда, когда мишенью являются полиморфные локусы, и требуются относительные пропорции аллелей в полиморфных локусах, поскольку стохастический шум, вносимый разделением и объединением, приведет к очень неточным измерениям пропорций аллелей, которые присутствует в исходном образце ДНК. В данном документе описан способ эффективной и действенной амплификации многих реакций ПЦР, который применим в случаях, когда доступно только ограниченное количество ДНК. В одном варианте воплощения, способ может применяться для анализа отдельных клеток, биологических жидкостей, смесей ДНК, таких как свободно плавающая ДНК, обнаруживаемая в плазме, биопсиях, образцах окружающей среды и/или образцах судебно-медицинской экспертизы. [648] In general, to perform targeted sequencing of multiple (n) targets on a sample (greater than 50, greater than 100, greater than 500, or greater than 1000), the sample can be divided into a number of parallel reactions that amplify one individual target. This has been performed in multiwell PCR plates or can be performed on commercial platforms such as FLUIDIGM ACCESS ARRAY (48 reactions per sample in microfluidic chips) or DROPLET PCR from RAIN DANCE TECHNOLOGY (100 to several thousand targets). Unfortunately, these splitting and pooling methods are problematic for samples with limited amounts of DNA because there are often not enough copies of the genome to ensure that there is one copy of each genomic region in each well. This is a particularly serious problem when polymorphic loci are targeted and the relative proportions of alleles at the polymorphic loci are required, since the stochastic noise introduced by splitting and merging will lead to very inaccurate measurements of the proportions of alleles that are present in the original DNA sample. This document describes a method for efficient and effective amplification of many PCR reactions, which is applicable in cases where only a limited amount of DNA is available. In one embodiment, the method can be used to analyze single cells, biological fluids, mixtures of DNA, such as free-floating DNA found in plasma, biopsies, environmental samples, and/or forensic samples.
[649] В одном варианте воплощения целевое секвенирование может включать в себя один, множество или все следующие этапы: а) Сгенерировать и амплифицировать библиотеку с последовательностями адапторов на обоих концах фрагментов ДНК. б) Разделить на несколько реакций после амплификации библиотеки. в) Сгенерировать и необязательно амплифицировать библиотеку с последовательностями адапторов на обоих концах фрагментов ДНК. г) Выполнить от 1000- до 10000-плексную амплификацию выбранных мишеней с использованием одного специфичного для мишени «прямого» праймера для каждой мишени и одного праймера, специфичного для метки. д) Выполнить вторую амплификацию этого продукта с использованием «обратных» праймеров, специфичных для мишени, и одного (или более) праймеров, специфичных для универсальной метки, которая была введена как часть специфичных для мишени прямых праймеров в первом цикле. е) Выполнить предварительную 1000-плексную амплификацию выбранной мишени в течение ограниченного числа циклов. ж) Разделить продукт на несколько аликвот и амплифицировать субпулы мишеней в индивидуальных реакциях (например, от 50 до 500-плексная амплификация, хотя это может быть использовано вплоть до одноплексной амплификации. з) Объединить продукты параллельных реакций субпулов. и) Во время этих амплификаций праймеры могут нести теги, совместимые с секвенированием (частичной или полной длины), так что эти продукты могут быть секвенированы. [649] In one embodiment, targeted sequencing may include one, many, or all of the following steps: a) Generate and amplify a library with adapter sequences at both ends of the DNA fragments. b) Divide into several reactions after library amplification. c) Generate and optionally amplify a library with adapter sequences at both ends of the DNA fragments. d) Perform 1000- to 10,000-plex amplification of selected targets using one target-specific “forward” primer for each target and one tag-specific primer. e) Perform a second amplification of this product using target-specific “reverse” primers and one (or more) primers specific for the universal tag that was introduced as part of the target-specific forward primers in the first round. f) Perform 1000-plex pre-amplification of the selected target for a limited number of cycles. g) Divide the product into several aliquots and amplify target subpools in individual reactions (e.g., 50 to 500-plex amplification, although this can be used up to single-plex amplification. h) Combine the products of parallel subpool reactions. i) During these amplifications, primers can carry sequencing-compatible tags (partial or full length) so that these products can be sequenced.
[650] Высоко-мультиплексная ПЦР [650] Highly multiplex PCR
[651] В данном документе раскрыты способы, которые позволяют проводить целенаправленную амплификацию от более чем сотни до десятков тысяч целевых последовательностей (например, локусов ОНП) из образца нуклеиновой кислоты, такого как геномная ДНК, полученная из плазмы. Амплифицированный образец может быть относительно свободным от продуктов димеров праймеров и иметь низкий аллельный сдвиг в целевых локусах. Если во время или после амплификации к продуктам добавляются адапторы, совместимые с секвенированием, анализ этих продуктов может быть выполнен путем секвенирования. [651] Disclosed herein are methods that enable targeted amplification of more than hundreds to tens of thousands of target sequences (eg, SNP loci) from a nucleic acid sample, such as plasma-derived genomic DNA. The amplified sample may be relatively free of primer dimer products and have low allelic shift at target loci. If sequencing-compatible adapters are added to the products during or after amplification, analysis of these products can be performed by sequencing.
[652] Выполнение высоко-мультиплексной ПЦР-амплификации с использованием способов, известных в данной области техники, приводит к получению продуктов димеров праймеров, которые превышают желаемые продукты амплификации и не подходят для секвенирования. Их можно уменьшить эмпирически, исключив праймеры, образующие эти продукты, или проведя выбор праймеров in silico. Однако чем больше количество анализов, тем сложнее становится эта проблема.[652] Performing highly multiplexed PCR amplifications using methods known in the art results in primer dimer products that are larger than the desired amplification products and are not suitable for sequencing. They can be reduced empirically by eliminating primers that form these products or by performing in silico primer selection. However, the greater the number of analyses, the more complex this problem becomes.
[653] Одним из решений является разделение 5000-плексной реакции на несколько амплификаций с более низким плексированием, например сто 50-плексных или пятьдесят 100-плексных реакций, или использовать микрофлюидику, или даже разделить образец на отдельные реакции ПЦР. Однако, если образец ДНК ограничен, например, при неинвазивной пренатальной диагностике из плазмы беременных, следует избегать разделения образца на несколько реакций, поскольку это приведет к возникновению узких мест. [653] One solution is to split the 5000-plex reaction into several lower-plex amplifications, such as one hundred 50-plex or fifty 100-plex reactions, or use microfluidics, or even split the sample into separate PCR reactions. However, if the DNA sample is limited, such as in non-invasive prenatal diagnostics from pregnancy plasma, splitting the sample into multiple reactions should be avoided as this will create bottlenecks.
[654] В данном документе описаны способы, позволяющие сначала амплифицировать ДНК плазмы образца в целом, а затем разделить образец на несколько мультиплексированных реакций целевого обогащения с более умеренным количеством целевых последовательностей на реакцию. В одном варианте воплощения способ настоящего изобретения может использоваться для предпочтительного обогащения смеси ДНК по множеству локусов, причем способ включает один или болееиз следующих этапов: создание и амплификация библиотеки из смеси ДНК, где молекулы в библиотеке имеют последовательности адапторов, лигированные на обоих концах фрагментов ДНК, разделение амплифицированной библиотеки на несколько реакций, выполнение первого цикла мультиплексной амплификации выбранных мишеней с использованием одного специфичного для мишени «прямого» праймера на мишень и одного или нескольких специфичных для адаптора универсальных «обратных» праймеров. В одном варианте воплощения способ настоящего изобретения дополнительно включает выполнение второй амплификации с использованием «обратных» праймеров, специфичных для мишени, и одного или нескольких праймеров, специфичных для универсальной метки, которая была введена как часть специфичных для мишени прямых праймеров в первом цикле. В одном варианте воплощения способ может включать полностью вложенный, геми-вложенный, полу-вложенный, односторонний полностью вложенный, односторонний геми-вложенный или односторонний полу-вложенный подход ПЦР. В варианте воплощения, способ настоящего изобретения используется для предпочтительного обогащения смеси ДНК по множеству локусов, причем способ включает выполнение мультиплексной предварительной амплификации выбранных мишеней в течение ограниченного количества циклов, разделение продукта на несколько аликвот и амплификацию субпулов мишеней в индивидуальных реакциях и объединение продуктов реакций параллельных субпулов. Обратите внимание, что этот подход может быть использован для выполнения целевой амплификации таким образом, который приведет к низкому уровню смещения аллелей для 50-500 локусов, для от 500 до 5000 локусов, от 5000 до 50000 локусов или даже для 50000-500000 локусов. В варианте воплощения праймеры несут теги, совместимые с частичным или полным секвенированием. [654] Methods are described herein to first amplify the plasma DNA of a sample as a whole and then split the sample into multiple multiplexed target enrichment reactions with a more moderate number of target sequences per reaction. In one embodiment, the method of the present invention can be used to preferentially enrich a mixture of DNA at multiple loci, the method comprising one or more of the following steps: creating and amplifying a library from a mixture of DNA, wherein the molecules in the library have adapter sequences ligated at both ends of the DNA fragments, dividing the amplified library into several reactions, performing a first round of multiplex amplification of selected targets using one target-specific “forward” primer per target and one or more adapter-specific universal “reverse” primers. In one embodiment, the method of the present invention further includes performing a second amplification using target-specific reverse primers and one or more primers specific for a universal tag that was introduced as part of the target-specific forward primers in the first round. In one embodiment, the method may include a fully nested, hemi-nested, semi-nested, one-way fully nested, one-way hemi-nested, or one-way semi-nested PCR approach. In an embodiment, the method of the present invention is used to preferentially enrich a mixture of DNA at multiple loci, the method comprising performing multiplex pre-amplification of selected targets over a limited number of cycles, dividing the product into multiple aliquots and amplifying subpools of targets in individual reactions, and combining the reaction products of parallel subpools . Note that this approach can be used to perform targeted amplification in a manner that will result in low levels of allelic bias for 50 to 500 loci, for 500 to 5000 loci, for 5000 to 50,000 loci, or even for 50,000 to 500,000 loci. In an embodiment, the primers carry tags compatible with partial or full sequencing.
[655] Рабочий процесс может включать (1) извлечение ДНК, такой как ДНК плазмы, (2) подготовку библиотеки фрагментов с универсальными адапторами на обоих концах фрагментов, (3) амплификацию библиотеки с использованием универсальных праймеров, специфичных для адапторов, (4) разделение амплифицированного образца «библиотеки» на несколько аликвот, (5) выполнение на аликвотах мультиплексных амплификаций (например, приблизительно 100-плексных, 1000 или 10000-плексных с одним специфическим для мишени праймером на мишень и специфичным для тега праймером), (6) объединение аликвот одного образца, (7) штрих-кодирование образца, (8) смешивание образцов и регулировка концентрации, (9) секвенирование образца. Рабочий процесс может включать несколько подэтапов, которые содержат одну из перечисленных стадий (например, стадия (2) подготовки библиотеки может включать в себя три ферментативных стадии (тупой конец, наращивание dA-хвостов и лигирование адаптора) и три стадии очистки). Этапы рабочего процесса могут быть объединены, разделены или выполнены в разном порядке (например, штрих-кодирование и объединение образцов). [655] The workflow may include (1) extraction of DNA, such as plasma DNA, (2) preparation of a fragment library with universal adapters at both ends of the fragments, (3) amplification of the library using universal adapter-specific primers, (4) separation amplified sample "library" into multiple aliquots, (5) performing multiplex amplifications on the aliquots (e.g., approximately 100-plex, 1000-plex, or 10,000-plex with one target-specific primer per target and a tag-specific primer), (6) pooling the aliquots one sample, (7) sample barcoding, (8) sample mixing and concentration adjustment, (9) sample sequencing. The workflow may include several substeps that contain one of the listed steps (for example, step (2) of library preparation may include three enzymatic steps (blunt end, dA tail extension and adapter ligation) and three purification steps). Workflow steps can be combined, separated, or performed in different orders (for example, barcoding and sample merging).
[656] Важно отметить, что амплификация библиотеки может быть выполнена таким образом, что она будет смещена для более эффективной амплификации коротких фрагментов. Таким образом можно предпочтительно амплифицировать более короткие последовательности, например фрагменты мононуклеосомной ДНК в виде внеклеточной ДНК плода (плацентарного происхождения), обнаруженные в кровотоке беременных женщин. Обратите внимание, что анализы ПЦР могут иметь метки, например метки секвенирования (обычно это усеченная форма из 15-25 оснований). После мультиплексирования ПЦР-мультиплексы образца объединяются, а затем метки завершаются (включая штрих-кодирование) с помощью специфичной для метки ПЦР (также может быть выполнено лигирование). Кроме того, теги полного секвенирования могут быть добавлены в той же реакции, что и мультиплексирование. В первых циклах мишени могут быть амплифицированы с помощью специфичных для мишени праймеров, впоследствии специфичные для метки праймеры вступают в действие для завершения последовательности SQ-адаптора. Праймеры для ПЦР могут не содержать меток. Теги секвенирования могут быть добавлены к продуктам амплификации путем лигирования.[656] It is important to note that library amplification can be done in such a way that it is biased to more efficiently amplify short fragments. In this way, shorter sequences, such as fragments of mononucleosomal DNA in the form of cell-free fetal DNA (of placental origin) found in the bloodstream of pregnant women, can be preferentially amplified. Please note that PCR assays may have labels, such as sequencing tags (usually a truncated form of 15-25 bases). After multiplexing, the sample PCR multiplexes are combined and then tags are completed (including barcoding) using tag-specific PCR (ligation can also be performed). Additionally, full sequencing tags can be added in the same reaction as multiplexing. In the first cycles, targets can be amplified using target-specific primers, subsequently tag-specific primers come into play to complete the SQ adapter sequence. PCR primers may not contain labels. Sequencing tags can be added to amplification products by ligation.
[657] В варианте воплощения для различных применений, таких как обнаружение анеуплоидии плода, может использоваться высоко-мультиплексная ПЦР с последующей оценкой амплифицированного материала путем клонального секвенирования. В то время как традиционные мультиплексные ПЦР оценивают до пятидесяти локусов одновременно, представленный в данном документе подход может использоваться для одновременной оценки более 50 локусов одновременно, более 100 локусов одновременно, более 500 локусов одновременно, более 1000 локусов одновременно, более 5000 локусов одновременно, более 10000 локусов одновременно, более 50000 локусов одновременно и более 100000 локусов одновременно. Эксперименты показали, что до, в том числе, и более 10000 различных локусов могут быть оценены одновременно, в одной реакции, с достаточно хорошей эффективностью и специфичностью для того, чтобы выполнять неинвазивные пренатальные диагнозы анеуплоидии и/или копировать различные распознавания с высокой точностью. Анализы могут быть объединены в одну реакцию со всем образцом, таким, как образец скДНК, выделенный из плазмы, его фракция или производное, подвергшееся дальнейшей обработке, из образца скДНК. Образец (например, скДНК или производное) также можно разделить на несколько параллельных мультиплексных реакций. Оптимальное разделение образца и мультиплексирование определяется путем компромисса различных технических характеристик. Из-за ограниченного количества материала разделение пробы на несколько фракций может привести к шуму выборки, увеличению времени обработки и увеличению вероятности ошибки. И наоборот, более высокое мультиплексирование может привести к большему количеству побочной амплификации и большему неравенству в амплификации, оба из них могут снизить производительность теста. [657] In an embodiment, highly multiplexed PCR followed by evaluation of the amplified material by clonal sequencing may be used for various applications, such as detection of fetal aneuploidy. While traditional multiplex PCR assays evaluate up to fifty loci simultaneously, the approach presented here can be used to simultaneously evaluate more than 50 loci simultaneously, more than 100 loci simultaneously, more than 500 loci simultaneously, more than 1000 loci simultaneously, more than 5000 loci simultaneously, more than 10,000 loci at the same time, more than 50,000 loci at the same time and more than 100,000 loci at the same time. Experiments have shown that up to 10,000 different loci can be assessed simultaneously, in a single reaction, with efficiency and specificity good enough to make non-invasive prenatal aneuploidy diagnoses and/or replicate various recognitions with high accuracy. Assays can be combined into a single reaction with the entire sample, such as a plasma-derived scDNA sample, a fraction thereof, or a further processed derivative of the scDNA sample. The sample (e.g., scDNA or derivative) can also be divided into several parallel multiplex reactions. Optimal sample separation and multiplexing is determined by compromising various technical characteristics. Due to the limited amount of material, dividing a sample into multiple fractions can result in sampling noise, increased processing time, and increased potential for error. Conversely, higher multiplexing may result in more spurious amplification and greater disparity in amplification, both of which can reduce test performance.
[658] Двумя критическими взаимосвязанными соображениями при применении представленных в данном документе способов являются ограниченное количество исходного образца (например, плазмы) и количество исходных молекул в этом материале, из которого получают частоту аллелей или другие измерения. Если количество исходных молекул падает ниже определенного уровня, случайный шум выборки становится значительным и может повлиять на точность теста. Как правило, данные достаточного качества для постановки неинвазивного диагноза пренатальной анеуплоидии могут быть получены, если измерения проводятся на образце, содержащем эквивалент 500-1000 исходных молекул на целевой локус. Есть несколько способов увеличить количество отдельных измерений, например, увеличить объем образца. Каждая манипуляция, применяемая к образцу, также потенциально приводит к потерям материала. Важно охарактеризовать потери, понесенные вследствие различных манипуляций, и избежать их или, при необходимости, улучшить результативность определенных манипуляций, чтобы избежать потерь, которые могут ухудшить производительность теста. [658] Two critical interrelated considerations when using the methods presented herein are the limited amount of starting sample (eg, plasma) and the number of starting molecules in that material from which allele frequency or other measurements are obtained. If the number of starting molecules falls below a certain level, random sampling noise becomes significant and can affect the accuracy of the test. Typically, data of sufficient quality to make a noninvasive diagnosis of prenatal aneuploidy can be obtained if measurements are made on a sample containing the equivalent of 500–1000 parent molecules per target locus. There are several ways to increase the number of individual measurements, such as increasing the sample volume. Each manipulation applied to a sample also potentially results in material loss. It is important to characterize the losses incurred due to various manipulations and avoid them or, if necessary, improve the performance of certain manipulations to avoid losses that could degrade test performance.
[659] В варианте воплощения можно уменьшить потенциальные потери на последующих этапах путем амплификации всего исходного образца или его части (например, образца скДНК). Доступны различные способы для амплификации всего генетического материала в образце, увеличивая объем, доступный для последующих процедур. В варианте воплощения с опосредованной лигированием ПЦР (LM-PCR) фрагменты ДНК амплифицируются с помощью ПЦР после лигирования одного отдельного адаптора, двух разных адапторов или многих отдельных адапторов. В варианте воплощения с амплификацией с множественным замещением (MDA) используется полимераза phi-29 для изотермической амплификации всей ДНК. в DOP-PCR и ее вариациях для амплификации ДНК исходного материала используется случайное праймирование. Каждый способ имеет определенные характеристики, такие как однородность амплификации во всех представленных областях генома, эффективность захвата и амплификации исходной ДНК и производительность амплификации в зависимости от длины фрагмента. [659] In an embodiment, potential losses in downstream steps can be reduced by amplifying all or part of the original sample (eg, a scDNA sample). Various methods are available to amplify all the genetic material in a sample, increasing the volume available for subsequent procedures. In an embodiment of ligation-mediated PCR (LM-PCR), DNA fragments are amplified by PCR after ligation of one single adapter, two different adapters, or many separate adapters. An embodiment of multiple displacement amplification (MDA) uses phi-29 polymerase to amplify all DNA isothermally. DOP-PCR and its variations use random priming to amplify DNA from the starting material. Each method has certain characteristics, such as uniformity of amplification in all represented regions of the genome, efficiency of capture and amplification of source DNA, and amplification performance depending on fragment length.
[660] В варианте воплощения LM-PCR может использоваться с одним гетеродуплексным адаптором, имеющим 3'-тирозин. Гетеродуплексный адаптор позволяет использовать одну молекулу адаптора, которая может быть преобразована в две отдельные последовательности на 5'- и 3'-концах исходного фрагмента ДНК во время первого цикла ПЦР. В варианте воплощения можно фракционировать амплифицированную библиотеку разделением по размерам или продуктами, такими способами как AMPURE, TASS или другими подобными способами. Перед лигированием образец ДНК может быть тупым концом, а затем к 3'-концу добавляется одно аденозиновое основание. Перед лигированием ДНК можно расщепить рестриктазой или каким-либо другим способом расщепления. Во время лигирования 3'-аденозин фрагментов образца и дополнительный 3'-тирозиновый выступ адаптора могут повысить эффективность лигирования. Стадия удлинения амплификации ПЦР может быть ограничена с точки зрения времени, чтобы уменьшить амплификацию от фрагментов длиннее приблизительно 200 п.н., приблизительно 300 п.н., приблизительно 400 п.н., приблизительно 500 п.н. или приблизительно 1000 п.н. Был проведен ряд реакций с использованием условий, указанных в коммерчески доступных наборах; в результате было успешно лигировано менее 10% образцов молекул ДНК. Для этого серия оптимизаций условий реакции улучшила лигирование приблизительно до 70%. [660] In an embodiment, LM-PCR can be used with a single heteroduplex adapter having a 3'-tyrosine. A heteroduplex adapter allows the use of a single adapter molecule, which can be converted into two separate sequences at the 5' and 3' ends of the original DNA fragment during the first round of PCR. In an embodiment, the amplified library can be fractionated by size or product separation, such as AMPURE, TASS, or other similar methods. Before ligation, the DNA sample can be blunt ended and then a single adenosine base is added to the 3' end. Before ligation, the DNA can be digested with a restriction enzyme or some other digestion method. During ligation, the 3'-adenosine of the sample fragments and the additional 3'-tyrosine overhang of the adapter can increase the ligation efficiency. The extension step of the PCR amplification may be time limited to reduce amplification from fragments longer than about 200 bp, about 300 bp, about 400 bp, about 500 bp. or approximately 1000 bp. A series of reactions were carried out using the conditions specified in commercially available kits; as a result, less than 10% of the sample DNA molecules were successfully ligated. To achieve this, a series of optimizations of reaction conditions improved ligation to approximately 70%.
[661] Мини-ПЦР [661] Mini-PCR
[662] Следующий способ мини-ПЦР желателен для образцов, содержащих короткие нуклеиновые кислоты, расщепленные нуклеиновые кислоты или фрагментированные нуклеиновые кислоты, такие как скДНК. Традиционный дизайн анализа в ПЦР приводит к значительным потерям отдельных фетальных молекул, но потери могут быть значительно уменьшены путем разработки очень коротких анализов ПЦР, называемых анализами мини-ПЦР. Фетальная скДНК в материнской сыворотке сильно фрагментирована, а размеры фрагментов распределены приблизительно по Гауссу со средним значением 160 п.н., стандартным отклонением 15 п.н., минимальным размером приблизительно 100 п.н. и максимальным размером приблизительно 220 п.н. Распределение начальных и конечных положений фрагментов относительно целевых полиморфизмов, хотя и не будучи обязательно случайным, широко варьируется среди индивидуальных мишеней и среди всех мишеней в совокупности, и полиморфный сайт одного конкретного целевого локуса среди различных фрагментов, происходящих из этого локуса, может занимать любую позицию от начала и до его конца. Обратите внимание, что термин мини-ПЦР может также относиться к нормальной ПЦР без дополнительных рестрикций или ограничений. [662] The following mini-PCR method is desirable for samples containing short nucleic acids, digested nucleic acids or fragmented nucleic acids such as scDNA. Traditional PCR assay designs result in significant losses of individual fetal molecules, but losses can be significantly reduced by developing very short PCR assays called mini-PCR assays. Fetal cDNA in maternal serum is highly fragmented and fragment sizes are approximately Gaussian with a mean of 160 bp, a standard deviation of 15 bp, and a minimum size of approximately 100 bp. and a maximum size of approximately 220 bp. The distribution of starting and ending positions of fragments relative to target polymorphisms, although not necessarily random, varies widely among individual targets and among all targets collectively, and a polymorphic site of one particular target locus among different fragments originating from that locus can occupy any position from from the beginning to the end. Note that the term mini-PCR can also refer to normal PCR without additional restrictions or limitations.
[663] Во время ПЦР амплификация будет происходить только с фрагментов матричной ДНК, содержащих сайты как прямого, так и обратного праймера. Поскольку фрагменты фетальной скДНК короткие, вероятность присутствия обоих сайтов праймеров и вероятность того, что фетальный фрагмент длиной L, содержит сайты как прямого, так и обратного праймеров, является отношением длины ампликона к длине фрагмента. В идеальных условиях тесты, в которых ампликон составляет 45, 50, 55, 60, 65 или 70 п.н., будут успешно амплифицироваться с, соответственно, 72, 69, 66, 63, 59 или 56% доступных молекул фрагментов матрицы. Длина ампликона - это расстояние между 5'-концами прямого и обратного прайминговых сайтов. Длина ампликона, которая короче, чем та, которая обычно используется способами, известными в данной области техники, может привести к более эффективным измерениям желаемых полиморфных локусов, при этом только требуются считывания коротких последовательностей. В варианте воплощения значительная доля ампликонов должна быть менее 100 п.н., менее 90 п.н., менее 80 п.н., менее 70 п.н., менее 65 п.н., менее 60 п.н., менее 55 п.н., менее 50 п.н. или менее 45 п.н.[663] During PCR, amplification will only occur from template DNA fragments containing both forward and reverse primer sites. Since fetal scDNA fragments are short, the probability of both primer sites being present and the probability that a fetal fragment of length L contains both forward and reverse primer sites is the ratio of the amplicon length to the fragment length. Under ideal conditions, tests in which the amplicon is 45, 50, 55, 60, 65, or 70 bp will successfully amplify from, respectively, 72, 69, 66, 63, 59, or 56% of the available template fragment molecules. Amplicon length is the distance between the 5' ends of the forward and reverse priming sites. Amplicon lengths that are shorter than those typically used by methods known in the art can result in more efficient measurements of desired polymorphic loci while only requiring short sequence reads. In an embodiment, a significant proportion of the amplicons must be less than 100 bp, less than 90 bp, less than 80 bp, less than 70 bp, less than 65 bp, less than 60 bp, less than 55 bp, less than 50 bp or less than 45 bp
[664] Примите во внимание, что в способах, известных в данной области техники, обычно избегают коротких анализов, таких как представленные в данном документе, потому что они не являются необходимыми, и они накладывают значительные ограничения на конструкцию праймера, ограничивая длину праймера, характеристики отжига и расстояние между прямым и обратным праймером.[664] Please note that short assays such as those presented herein are generally avoided in methods known in the art because they are unnecessary and they place significant constraints on primer design by limiting primer length, characteristics annealing and distance between forward and reverse primers.
[665] Также примите во внимание, что существует возможность смещенной амплификации, если 3'-конец любого праймера находится приблизительно в пределах 1-6 оснований от полиморфного сайта. Это различие в одном основании в месте первоначального связывания полимеразы может привести к преимущественной амплификации одного аллеля, что может изменить наблюдаемые частоты аллелей и ухудшить эффективность. Все эти ограничения очень затрудняют идентификацию праймеров, которые будут успешно амплифицировать конкретный локус, и, кроме того, создание больших наборов праймеров, совместимых в одной и той же мультиплексной реакции. В варианте воплощения 3'-конец внутреннего прямого и обратного праймеров предназначены для гибридизации с областью ДНК выше полиморфного сайта, и они отделены от полиморфного сайта небольшим количеством оснований. В идеале, количество оснований может составлять от 6 до 10 оснований, но с равным успехом может составлять от 4 до 15 оснований, от трех до 20 оснований, от двух до 30 оснований или от 1 до 60 оснований, и по существу достигается тот же конец. [665] Also note that there is the possibility of biased amplification if the 3' end of any primer is within approximately 1-6 bases of a polymorphic site. This single base difference at the site of initial polymerase binding can result in preferential amplification of one allele, which can alter observed allele frequencies and impair efficiency. All of these limitations make it very difficult to identify primers that will successfully amplify a particular locus and, furthermore, to design large sets of primers that are compatible in the same multiplex reaction. In an embodiment, the 3' end of the internal forward and reverse primers are designed to hybridize to a region of DNA upstream of the polymorphic site and are separated from the polymorphic site by a small number of bases. Ideally, the number of bases would be 6 to 10 bases, but could equally be 4 to 15 bases, three to 20 bases, two to 30 bases, or 1 to 60 bases, and essentially achieve the same end .
[666] Мультиплексная ПЦР может включать один цикл ПЦР, в котором амплифицируются все мишени, или может включать один цикл ПЦР, за которым следует один или более циклов вложенной ПЦР или некоторого варианта вложенной ПЦР. Вложенная ПЦР состоит из последующего цикла или циклов амплификации ПЦР с использованием одного или более новых праймеров, которые внутренне связываются по меньшей мере одной парой оснований, с праймерами, использованными в предыдущем цикле. Вложенная ПЦР снижает количество ложных целей амплификации за счет амплификации в последующих реакциях только тех продуктов амплификации из предыдущей, которые имеют правильную внутреннюю последовательность. Уменьшение количества побочных мишеней амплификации увеличивает количество полезных измерений, которые могут быть получены, особенно при секвенировании. Вложенная ПЦР обычно влечет за собой создание праймеров, полностью внутренних по отношению к предыдущим сайтам связывания праймеров, что обязательно увеличивает минимальный размер сегмента ДНК, необходимый для амплификации. Для таких образцов, как плазматическая скДНК, в которых ДНК сильно фрагментирована, больший размер анализа уменьшает количество отдельных молекул скДНК, по которым может быть получено измерение. В варианте воплощения, чтобы компенсировать этот эффект, можно использовать частично вложенный подход, при котором один или оба праймера второго цикла перекрывают первые сайты связывания, удлиняя внутри некоторое количество оснований для достижения дополнительной специфичности при минимальном увеличении общего размера анализа. [666] A multiplex PCR may involve one PCR cycle in which all targets are amplified, or may involve one PCR cycle followed by one or more cycles of nested PCR or some variant of nested PCR. Nested PCR consists of a subsequent cycle or cycles of PCR amplification using one or more new primers that are internally linked by at least one base pair to the primers used in the previous cycle. Nested PCR reduces the number of false amplification targets by amplifying in subsequent reactions only those amplification products from the previous one that have the correct internal sequence. Reducing the number of off-target amplification targets increases the number of useful measurements that can be obtained, especially with sequencing. Nested PCR typically entails the design of primers completely internal to the previous primer binding sites, which necessarily increases the minimum DNA segment size required for amplification. For samples such as plasma scDNA, in which the DNA is highly fragmented, a larger assay size reduces the number of individual scDNA molecules from which a measurement can be obtained. In an embodiment, to compensate for this effect, a partially nested approach can be used in which one or both second-round primers overlap the first binding sites, extending a number of bases within to achieve additional specificity with minimal increase in overall assay size.
[667] В варианте воплощения для амплификации потенциально гетерозиготных ОНП или других полиморфных или неполиморфных локусов на одной или более хромосом разработан мультиплексный пул ПЦР-анализов, и эти анализы используются в одной реакции для амплификации ДНК. Количество анализов ПЦР может составлять от 50 до 200 анализов ПЦР, от 200 до 1000 анализов ПЦР, от 1000 до 5000 анализов ПЦР или от 5000 до 20000 анализов ПЦР (соответственно, от 50- до 200-плексный, от 200- до 1000- плексный, от 1000- до 5000-плексный, от 5000- до 20000-плексный, более 20000-плексный анализ). В варианте воплощения мультиплексный пул из приблизительно 10000 ПЦР-анализов (10000-плексный) предназначен для амплификации потенциально гетерозиготных ОНП-локусов на хромосомах X, Y, 13, 18, 21 и 1 или 2, и эти анализы используются в одной реакции для амплификации скДНК полученных из образца плазмы материала, образцов ворсинок хориона, образцов амниоцентеза, отдельных клеток или небольшого количества клеток, других жидкостей или тканей организма, рака или другого генетического материала. Частоты ОНП каждого локуса можно определить клональным или другим способом секвенирования ампликонов. Статистический анализ частотных распределений аллелей или соотношений всех анализов может использоваться для определения того, содержит ли образец трисомию по одной или более хромосом, включенных в тест. В другом варианте воплощения исходные образцы скДНК разделяют на два образца и проводят параллельные 5000-плексные анализы. В другом варианте воплощения исходные образцы скДНК разделяют на n образцов и проводят параллельные (~10000/n)-плексные анализы, где n составляет от 2 до 12, или от 12 до 24, или от 24 до 48, или от 48 до 96. Данные собираются и анализируются аналогично уже изложенному. Обратите внимание, что этот способ одинаково хорошо применим для обнаружения транслокаций, делеций, дупликаций и других хромосомных аномалий. [667] In an embodiment, a multiplex pool of PCR assays is designed to amplify potentially heterozygous SNPs or other polymorphic or non-polymorphic loci on one or more chromosomes, and these assays are used in a single DNA amplification reaction. The number of PCR assays can be from 50 to 200 PCR assays, from 200 to 1000 PCR assays, from 1000 to 5000 PCR assays, or from 5000 to 20,000 PCR assays (respectively, from 50 to 200 plex, from 200 to 1000 plex , from 1000- to 5000-plex, from 5000- to 20000-plex, more than 20000-plex analysis). In an embodiment, a multiplex pool of approximately 10,000 PCR assays (10,000-plex) is designed to amplify potentially heterozygous SNP loci on chromosomes X, Y, 13, 18, 21 and 1 or 2, and these assays are used in a single reaction to amplify scDNA obtained from a plasma sample of material, chorionic villus samples, amniocentesis samples, single cells or small numbers of cells, other body fluids or tissues, cancer or other genetic material. The SNP frequencies of each locus can be determined by clonal or other amplicon sequencing techniques. Statistical analysis of allele frequency distributions or ratios of all assays can be used to determine whether a sample contains trisomy on one or more of the chromosomes included in the test. In another embodiment, the original scDNA samples are split into two samples and parallel 5000-plex assays are performed. In another embodiment, the original scDNA samples are divided into n samples and parallel (~10,000/n)-plex assays are performed, where n is 2 to 12, or 12 to 24, or 24 to 48, or 48 to 96. Data is collected and analyzed in the same way as already described. Please note that this method is equally suitable for detecting translocations, deletions, duplications and other chromosomal abnormalities.
[668] В варианте воплощения хвосты, не имеющие гомологии с целевым геномом, также могут быть добавлены к 3'- или 5'-концу любого из праймеров. Эти хвосты облегчают последующие манипуляции, процедуры или измерения. В варианте воплощения хвостовая последовательность может быть одинаковой для прямых и обратных праймеров, специфичных для мишени. В варианте воплощения для прямых и обратных праймеров, специфичных для мишени, могут использоваться разные хвосты. В варианте воплощения для разных локусов или наборов локусов может использоваться множество разных хвостов. Некоторые хвосты могут быть общими для всех локусов или для подмножества локусов. Например, использование прямых и обратных хвостов, соответствующих прямым и обратным последовательностям, необходимым для любой из существующих платформ секвенирования, может обеспечить прямое секвенирование после амплификации. В варианте воплощения хвосты можно использовать в качестве общих сайтов праймирования среди всех амплифицированных мишеней, которые можно использовать для добавления других полезных последовательностей. В некоторых вариантах воплощения внутренние праймеры могут содержать область, которая предназначена для гибридизации либо выше, либо ниже целевого локуса (например, полиморфного локуса). В некоторых вариантах воплощения праймеры могут содержать молекулярный штрих-код. В некоторых вариантах воплощения праймер может содержать универсальную последовательность прайминга, разработанную для обеспечения возможности ПЦР-амплификации.[668] In an embodiment, tails having no homology to the target genome can also be added to the 3' or 5' end of any of the primers. These tails facilitate subsequent manipulations, procedures or measurements. In an embodiment, the tail sequence may be the same for the target-specific forward and reverse primers. In an embodiment, different tails may be used for the target-specific forward and reverse primers. In an embodiment, multiple different tails may be used for different loci or sets of loci. Some tails may be common to all loci or to a subset of loci. For example, the use of forward and reverse tails corresponding to the forward and reverse sequences required by any of the existing sequencing platforms can provide forward sequencing after amplification. In an embodiment, the tails can be used as common priming sites among all amplified targets, which can be used to add other useful sequences. In some embodiments, the internal primers may contain a region that is designed to hybridize either upstream or downstream of a target locus (eg, a polymorphic locus). In some embodiments, the primers may contain a molecular barcode. In some embodiments, the primer may comprise a universal priming sequence designed to enable PCR amplification.
[669] В варианте воплощения создается пул анализа 10000-плексной ПЦР, так что прямой и обратный праймеры имеют хвосты, соответствующие требуемым прямым и обратным последовательностям, необходимым для высокопроизводительного инструмента секвенирования (часто называемого инструментом массового параллельного секвенирования), такого как HISEQ, GAIIX или MYSEQ, доступный от ILLUMINA. Кроме того, в хвосты секвенирования включена дополнительная 5'-последовательность, которая может использоваться в качестве сайта праймирования в последующей ПЦР для добавления последовательностей нуклеотидных штрих-кодов к ампликонам, что обеспечивает возможность мультиплексного секвенирования нескольких образцов на одной дорожке инструмента для секвенирования с высокой пропускной способностью. [669] In an embodiment, a 10,000-plex PCR assay is pooled such that the forward and reverse primers have tails corresponding to the desired forward and reverse sequences needed by a high-throughput sequencing tool (often called a massively parallel sequencing tool) such as HISEQ, GAIIX, or MYSEQ, available from ILLUMINA. In addition, an additional 5' sequence is included in the sequencing tails, which can be used as a priming site in subsequent PCR to add nucleotide barcode sequences to amplicons, allowing multiplex sequencing of multiple samples in a single lane of a high-throughput sequencing instrument .
[670] В варианте воплощения создается пул анализа 10000-плексной ПЦР, так что обратные праймеры имеют хвосты, соответствующие требуемым обратным последовательностям, необходимым для высокопроизводительного прибора для секвенирования. После амплификации с помощью первого 10000-плексного анализа последующая амплификация ПЦР может быть проведена с использованием другого 10000-плексного пула, имеющего частично вложенные прямые праймеры (например, вложенные 6 оснований) для всех мишеней, и обратный праймер, соответствующий хвосту обратного секвенирования, включенный в первом цикле. Этот последующий цикл частично вложенной амплификации только с одним специфичным для мишени праймером и универсальным праймером ограничивает требуемый размер анализа, уменьшая шум выборки, но значительно сокращает количество побочных ампликонов. К прилагаемым адапторам лигирования и/или как часть ПЦР-зондов могут быть добавлены метки секвенирования, так что метка является частью конечного ампликона. [670] In an embodiment, a 10,000-plex PCR assay is pooled such that the reverse primers have tails corresponding to the desired reverse sequences needed by a high-throughput sequencing instrument. After amplification with the first 10,000-plex assay, subsequent PCR amplification can be performed using another 10,000-plex pool having partially nested forward primers (e.g., nested 6 bases) for all targets, and a reverse primer corresponding to the reverse sequencing tail included in first cycle. This subsequent round of partially nested amplification with only one target-specific primer and a universal primer limits the required assay size, reducing sampling noise, but significantly reduces the number of spurious amplicons. Sequencing tags can be added to the supplied ligation adapters and/or as part of PCR probes so that the tag is part of the final amplicon.
[671] Фракция опухоли влияет на эффективность теста. Есть несколько способов обогатить опухолевую фракцию ДНК, обнаруженную в плазме пациента. Фракцию опухоли можно увеличить с помощью ранее представленного способа LM-PCR, который уже обсуждался, а также путем целенаправленного удаления длинных фрагментов. В варианте воплощения перед мультиплексной ПЦР-амплификацией целевых локусов может быть проведена дополнительная мультиплексная реакция ПЦР для выборочного удаления длинных и, в основном, материнских фрагментов, соответствующих локусам-мишеням в последующей мультиплексной ПЦР. Дополнительные праймеры предназначены для отжига участка, находящегося на большем расстоянии от полиморфизма, чем ожидается среди бесклеточных фрагментов фетальной ДНК. Эти праймеры можно использовать в одноцикловой мультиплексной реакции ПЦР перед мультиплексной ПЦР целевых полиморфных локусов. Эти дистальные праймеры помечены молекулой или фрагментом, которые могут обеспечить селективное распознавание помеченных фрагментов ДНК. В варианте воплощения эти молекулы ДНК могут быть ковалентно модифицированы молекулой биотина, которая позволяет удалить вновь образованную двухцепочечную ДНК, содержащую эти праймеры, после одного цикла ПЦР. Двухцепочечная ДНК, образующаяся во время этого первого цикла, вероятно, имеет материнское происхождение. Удаление гибридного материала может быть выполнено с помощью магнитных стрептавидиновых микрогранул. Есть и другие способы тегирования, которые могут также работать хорошо. В варианте воплощения могут использоваться способы выбора размера для обогащения образца более короткими цепями ДНК; например, менее приблизительно 800 п.н., менее приблизительно 500 п.н. или менее приблизительно 300 п.н. После этого амплификация коротких фрагментов может продолжаться как обычно.[671] Tumor fraction influences test performance. There are several ways to enrich the tumor DNA fraction found in a patient's plasma. The tumor fraction can be increased using the previously presented LM-PCR method, which has already been discussed, as well as by targeted removal of long fragments. In an embodiment, prior to multiplex PCR amplification of target loci, an additional multiplex PCR reaction may be performed to selectively remove long and primarily maternal fragments corresponding to the target loci in the subsequent multiplex PCR. Additional primers are designed to anneal to a region located at a greater distance from the polymorphism than expected among cell-free fetal DNA fragments. These primers can be used in a single-cycle multiplex PCR reaction before multiplex PCR of target polymorphic loci. These distal primers are labeled with a molecule or fragment that can provide selective recognition of the labeled DNA fragments. In an embodiment, these DNA molecules can be covalently modified with a biotin molecule, which allows the newly formed double-stranded DNA containing these primers to be removed after one round of PCR. The double-stranded DNA produced during this first cycle is likely of maternal origin. Removal of the hybrid material can be accomplished using magnetic streptavidin microbeads. There are other tagging methods that can also work well. In an embodiment, size selection methods may be used to enrich the sample with shorter DNA strands; for example, less than about 800 bp, less than about 500 bp. or less than approximately 300 bp. After this, amplification of short fragments can continue as usual.
[672] Способ мини-ПЦР, представленный в данном изобретении, обеспечивает высоко мультиплексную амплификацию и анализ от сотен до тысяч или даже миллионов локусов в одной реакции из одного образца. В то же время обнаружение амплифицированной ДНК может быть мультиплексным; от десятков до сотен образцов можно мультиплексировать в одной полосе секвенирования с помощью ПЦР со штрих-кодированием. Это мультиплексное обнаружение было успешно протестировано до 49-плексного, и теперь возможно гораздо более высокое мультиплексирование. Фактически, это позволяет генотипировать сотни образцов на тысячи ОНП за один прогон секвенирования. Для этих образцов способ позволяет определять генотип и степень гетерозиготности и одновременно определять количество копий, оба из которых могут использоваться с целью обнаружения анеуплоидии. Его можно использовать как часть способа дозирования мутаций. Этот способ может использоваться для любого количества ДНК или РНК, и целевыми областями могут быть ОНП, другие полиморфные области, неполиморфные области и их комбинации. [672] The mini-PCR method of this invention provides highly multiplexed amplification and analysis of hundreds to thousands or even millions of loci in a single reaction from a single sample. At the same time, detection of amplified DNA can be multiplexed; tens to hundreds of samples can be multiplexed into a single sequencing lane using barcoding PCR. This multiplex detection has been successfully tested to 49-plex and much higher multiplexing is now possible. In fact, this allows hundreds of samples to be genotyped for thousands of SNPs in a single sequencing run. For these samples, the method allows determination of genotype and degree of heterozygosity and simultaneously determination of copy number, both of which can be used for the purpose of detecting aneuploidy. It can be used as part of a mutation dosing method. This method can be used for any amount of DNA or RNA, and the target regions can be SNPs, other polymorphic regions, non-polymorphic regions, and combinations thereof.
[673] В некоторых вариантах воплощения можно использовать опосредованную лигированием универсальную-ПЦР-амплификацию фрагментированной ДНК. Универсальная ПЦР-амплификация, опосредованная лигированием, может использоваться для амплификации плазматической ДНК, которая затем может быть разделена на несколько параллельных реакций. Его также можно использовать для предпочтительной амплификации коротких фрагментов, тем самым обогащая опухолевую фракцию. В некоторых вариантах воплощения добавление меток к фрагментам путем лигирования может позволить обнаружение более коротких фрагментов, использование более коротких частей праймеров, специфичных для целевой последовательности, и/или отжиг при более высоких температурах, что снижает неспецифические реакции.[673] In some embodiments, ligation-mediated universal-PCR amplification of fragmented DNA can be used. Versatile ligation-mediated PCR amplification can be used to amplify plasma DNA, which can then be separated into multiple parallel reactions. It can also be used to preferentially amplify short fragments, thereby enriching the tumor fraction. In some embodiments, adding tags to fragments by ligation may allow detection of shorter fragments, use of shorter portions of target sequence-specific primers, and/or annealing at higher temperatures, thereby reducing nonspecific reactions.
[674] Описанные в данном документе способы могут использоваться для ряда целей, когда есть целевой набор ДНК, который смешан с некоторым количеством загрязняющей ДНК. В некоторых вариантах воплощения целевая ДНК и загрязняющая ДНК могут быть от людей, которые являются генетически родственными. Например, генетические аномалии у плода (мишени) могут быть обнаружены из материнской плазмы, которая содержит ДНК плода (мишень), а также материнскую (загрязняющую) ДНК; аномалии включают целые хромосомные аномалии (например, анеуплоидию), частичные хромосомные аномалии (например, делеции, дупликации, инверсии, транслокации), полинуклеотидные полиморфизмы (например, простой тандемный повтор STR), однонуклеотидные полиморфизмы и/или другие генетические аномалии или различия. В некоторых вариантах воплощения целевая и загрязняющая ДНК могут быть от одного и того же индивидуума, но целевая и загрязняющая ДНК различаются по одной или более мутаций, например, в случае рака. (см., например, H. Mamon et al. Preferential Amplification of Apoptotic DNA from Plasma: Potential for Enhancing Detection of Minor DNA Alterations in Circulating DNA. Clinical Chemistry 54:9 (2008). В некоторых вариантах воплощения ДНК может быть обнаружена в супернатанте клеточной культуры (апоптоз). В некоторых вариантах воплощения можно вызвать апоптоз в биологических образцах (например, крови) для последующего приготовления библиотеки, амплификации и/или секвенирования. Ряд рабочих процессов и протоколов для достижения этой цели представлен в другом месте в этом описании. [674] The methods described herein can be used for a number of purposes where there is a target set of DNA that is mixed with some amount of contaminating DNA. In some embodiments, the target DNA and the contaminating DNA may be from people who are genetically related. For example, genetic abnormalities in the fetus (target) can be detected from maternal plasma, which contains fetal (target) DNA as well as maternal (contaminating) DNA; abnormalities include whole chromosomal abnormalities (eg, aneuploidy), partial chromosomal abnormalities (eg, deletions, duplications, inversions, translocations), polynucleotide polymorphisms (eg, STR simple tandem repeat), single nucleotide polymorphisms, and/or other genetic abnormalities or differences. In some embodiments, the target and contaminating DNA may be from the same individual, but the target and contaminating DNA differ in one or more mutations, such as in the case of cancer. (See, e.g., H. Mamon et al. Preferential Amplification of Apoptotic DNA from Plasma: Potential for Enhancing Detection of Minor DNA Alterations in Circulating DNA . Clinical Chemistry 54:9 (2008). In some embodiments, DNA may be detected in cell culture supernatant (apoptosis). In some embodiments, apoptosis can be induced in biological samples (eg, blood) for subsequent library preparation, amplification, and/or sequencing. A number of workflows and protocols for achieving this goal are presented elsewhere in this description.
[675] В некоторых вариантах воплощения целевая ДНК может происходить из отдельных клеток, из образцов ДНК, состоящих менее чем из одной копии целевого генома, из небольших количеств ДНК, из ДНК смешанного происхождения (например, плазма больного раком и опухоли: смесь здоровой и раковой ДНК, трансплантация и т. д.), из других жидкостей организма, из клеточных культур, из супернатантов культур, из судебно-медицинских образцов ДНК, из древних образцов ДНК (например, насекомых, заключенных в янтаре), из других образцов ДНК и их комбинаций.[675] In some embodiments, the target DNA can come from single cells, from DNA samples consisting of less than one copy of the target genome, from small amounts of DNA, from DNA of mixed origin (for example, plasma from a cancer patient and a tumor: a mixture of healthy and cancerous DNA, transplantation, etc.), from other body fluids, from cell cultures, from culture supernatants, from forensic DNA samples, from ancient DNA samples (e.g. insects encased in amber), from other DNA samples and their combinations.
[676] В некоторых вариантах воплощения можно использовать ампликоны небольшого размера. Короткие размеры ампликонов особенно подходят для фрагментированной ДНК (см., например, A. Sikora, et sl. Detection of increased amounts of cell-free fetal DNA with short PCR amplicons. Clin Chem. 2010 Jan;56(1):136-8.) [676] In some embodiments, small amplicons can be used. Short amplicon sizes are especially suitable for fragmented DNA (see, for example, A. Sikora, et al. Detection of increased amounts of cell-free fetal DNA with short PCR amplicons. Clin Chem. 2010 Jan;56(1):136-8 .)
[677] Использование ампликонов небольшого размера может дать некоторые значительные преимущества. Небольшие размеры ампликонов могут привести к оптимизации эффективности амплификации. Короткие размеры ампликонов обычно дают более короткие продукты, поэтому вероятность неспецифического праймирования меньше. Более короткие продукты могут быть сгруппированы более плотно на проточной ячейке секвенирования, так как кластеры будут меньше. Обратите внимание, что представленные в данном документе способы могут одинаково хорошо работать для более длинных ампликонов ПЦР. При необходимости длину ампликона можно увеличить, например, при секвенировании больших участков последовательности. На отдельных клетках и на геномной ДНК с положительными результатами были проведены эксперименты с направленной 146-плексной амплификацией с анализами длиной от 100 до 200 пар оснований в качестве первого шага в протоколе вложенной ПЦР.[677] The use of small amplicons can provide some significant advantages. Small amplicon sizes can lead to optimization of amplification efficiency. Short amplicon sizes tend to produce shorter products, so nonspecific priming is less likely to occur. Shorter products may be clustered more densely on a sequencing flow cell because the clusters will be smaller. Please note that the methods presented here may work equally well for longer PCR amplicons. If necessary, the amplicon length can be increased, for example, when sequencing large sections of the sequence. Targeted 146-plex amplification experiments were performed on single cells and on genomic DNA with positive results, with assays ranging from 100 to 200 bp in length as the first step in the nested PCR protocol.
[678] В некоторых вариантах воплощения представленные в данном документе способы могут быть использованы для амплификации и/или обнаружения ОНП, числа копий, метилирования нуклеотидов, уровней мРНК, других типов уровней экспрессии РНК, других генетических и/или эпигенетических особенностей. Представленные в данном документе способы мини-ПЦР могут использоваться вместе с секвенированием следующего поколения; его можно использовать с другими следующими способами, такими как микрочипы, подсчет с помощью цифровой ПЦР, ПЦР в реальном времени, масс-спектрометрический анализ и т. д. [678] In some embodiments, the methods provided herein can be used to amplify and/or detect SNPs, copy number, nucleotide methylation, mRNA levels, other types of RNA expression levels, other genetic and/or epigenetic features. The mini-PCR methods presented herein can be used in conjunction with next-generation sequencing; it can be used with other following methods such as microarrays, digital PCR enumeration, real-time PCR, mass spectrometry analysis, etc.
[679] В некоторых вариантах воплощения способы мини-ПЦР амплификации, представленные в данном документе, могут использоваться как часть способа точной количественной оценки популяций, присутствующих в меньшинстве. Его можно использовать для абсолютного количественного определения с использованием калибраторов пиков. Его можно использовать для количественной оценки мутаций/минорных аллелей посредством очень глубокого секвенирования, и можно проводить высоко-мультиплексным способом. Его можно использовать для стандартной проверки отцовства и личности родственников или предков у людей, животных, растений или других существ. Может использоваться для судебно-медицинской экспертизы. Его можно использовать для быстрого генотипирования и анализа числа копий (CN) на любом виде материала, например, амниотическая жидкость и проба ворсинчатого хориона, сперма, продукт зачатия (POC). Его можно использовать для анализа отдельных клеток, например для генотипирования образцов биопсии эмбрионов. Его можно использовать для быстрого анализа эмбрионов (менее чем за один, один или два дня после биопсии) путем целевого секвенирования с использованием мини-ПЦР.[679] In some embodiments, the mini-PCR amplification methods presented herein can be used as part of a method for accurately quantifying populations present in a minority. It can be used for absolute quantitation using peak calibrators. It can be used to quantify mutations/minor alleles through very deep sequencing and can be performed in a highly multiplexed manner. It can be used to routinely test paternity and the identity of relatives or ancestors in humans, animals, plants or other creatures. Can be used for forensic examination. It can be used for rapid genotyping and copy number (CN) analysis on any type of material, such as amniotic fluid and chorionic villus sampling, semen, product of conception (POC). It can be used for single cell analysis, such as genotyping embryo biopsy samples. It can be used to rapidly analyze embryos (less than one, one or two days after biopsy) by targeted sequencing using mini-PCR.
[680] В некоторых вариантах воплощения способы мини-ПЦР амплификации могут использоваться для анализа опухолей: биопсия опухоли часто представляет собой смесь здоровых и опухолевых клеток. Целевая ПЦР позволяет проводить глубокое секвенирование ОНП и локусов практически без фоновых последовательностей. Ее можно использовать для анализа количества копий и потери гетерозиготности опухолевой ДНК. Указанная опухолевая ДНК может присутствовать во многих различных жидкостях организма или тканях пациентов с опухолями. Ее можно использовать для обнаружения рецидива опухоли и/или скрининга опухоли. Может использоваться для контроля качества семян. Может использоваться для разведения животных или рыбной ловли. Обратите внимание, что любой из этих способов может с равным успехом использоваться для нацеливания на неполиморфные локусы с целью распознавания плоидности. [680] In some embodiments, mini-PCR amplification methods can be used to analyze tumors: a tumor biopsy is often a mixture of healthy and tumor cells. Targeted PCR allows deep sequencing of SNPs and loci with virtually no background sequences. It can be used to analyze copy number and loss of heterozygosity of tumor DNA. This tumor DNA may be present in many different body fluids or tissues of patients with tumors. It can be used to detect tumor recurrence and/or tumor screening. Can be used to control seed quality. Can be used for raising animals or fishing. Note that any of these methods can be used equally well to target non-polymorphic loci for ploidy discrimination.
[681] Некоторая литература, описывающая некоторые из фундаментальных способов, которые лежат в основе представленных в данном документе способов, включает: (1) Wang HY, Luo M, Tereshchenko IV, Frikker DM, Cui X, Li JY, Hu G, Chu Y, Azaro MA, Lin Y, Shen L, Yang Q, Kambouris ME, Gao R, Shih W, Li H. Genome Res. 2005 Feb;15(2):276-83. Department of Molecular Genetics, Microbiology and Immunology/The Cancer Institute of New Jersey, Robert Wood Johnson Medical School, New Brunswick, New Jersey 08903, USA. (2) High-throughput genotyping of single nucleotide polymorphisms with high sensitivity. Li H, Wang HY, Cui X, Luo M, Hu G, Greenawalt DM, Tereshchenko IV, Li JY, Chu Y, Gao R. Methods Mol Biol. 2007;396 - PubMed PMID: 18025699. (3) Способ, включающий мультиплексирование в среднем 9 анализов для секвенирования, описан в: Nested Patch PCR enables highly multiplexed mutation discovery in candidate genes. Varley KE, Mitra RD. Genome Res. 2008 Nov;18(11):1844-50. Epub 2008 Oct 10. Примите во внимание, что раскрытые в данном документе способы позволяют мультиплексировать на несколько порядков больше, чем в приведенных выше ссылках.[681] Some literature describing some of the fundamental techniques that underlie the methods presented herein include: (1) Wang HY, Luo M, Tereshchenko IV, Frikker DM, Cui X, Li JY, Hu G, Chu Y , Azaro MA, Lin Y, Shen L, Yang Q, Kambouris ME, Gao R, Shih W, Li H. Genome Res. 2005 Feb;15(2):276-83. Department of Molecular Genetics, Microbiology and Immunology/The Cancer Institute of New Jersey, Robert Wood Johnson Medical School, New Brunswick, New Jersey 08903, USA. (2) High-throughput genotyping of single nucleotide polymorphisms with high sensitivity. Li H, Wang HY, Cui X, Luo M, Hu G, Greenawalt DM, Tereshchenko IV, Li JY, Chu Y, Gao R. Methods Mol Biol. 2007;396 - PubMed PMID: 18025699. (3) A method involving multiplexing an average of 9 sequencing assays is described in: Nested Patch PCR enables highly multiplexed mutation discovery in candidate genes. Varley KE, Mitra RD. Genome Res. 2008 Nov;18(11):1844-50. Epub 2008 Oct 10. Please note that the methods disclosed herein allow for multiplexing that is several orders of magnitude greater than in the above references.
[682] Примерные наборы [682] Sample sets
[683] В одном аспекте изобретение представляет собой набор, такой как набор для амплификации целевых локусов в образце нуклеиновой кислоты для обнаружения делеций и/или дупликаций хромосомных сегментов или целых хромосом с использованием любого из представленных в данном документе способов. В некоторых вариантах воплощения набор может включать любую из библиотек праймеров по изобретению. В варианте воплощения набор включает множество внутренних прямых праймеров и, необязательно, множество внутренних обратных праймеров, и необязательно внешних прямых праймеров и внешних обратных праймеров, где каждый из праймеров предназначен для гибридизации с областью ДНК, расположенной непосредственно выше и/или или ниже одного из целевых сайтов (например, полиморфных сайтов) на целевой хромосоме(ах) или сегменте(ах) хромосомы, и, необязательно, дополнительных хромосомах или сегментах хромосомы. В некоторых вариантах воплощения набор включает инструкции по использованию библиотеки праймеров для амплификации целевых локусов, например, для обнаружения одной или более делеций и/или дупликаций одного или более сегментов хромосомы или целых хромосом с использованием любого из представленных в данном документе способов.[683] In one aspect, the invention is a kit, such as a kit for amplifying target loci in a nucleic acid sample to detect deletions and/or duplications of chromosomal segments or entire chromosomes using any of the methods presented herein. In some embodiments, the kit may include any of the primer libraries of the invention. In an embodiment, the set includes a plurality of internal forward primers and, optionally, a plurality of internal reverse primers, and optionally external forward primers and external reverse primers, wherein each of the primers is designed to hybridize to a region of DNA located immediately upstream and/or downstream of one of the target sites (eg, polymorphic sites) on the target chromosome(s) or chromosome segment(s), and optionally additional chromosomes or chromosome segments. In some embodiments, the kit includes instructions for using a library of primers to amplify target loci, for example, to detect one or more deletions and/or duplications of one or more chromosome segments or entire chromosomes using any of the methods presented herein.
[684] В некоторых вариантах воплощения наборы по изобретению обеспечивают пары праймеров для обнаружения хромосомной анеуплоидии и определения ВЧК, такие как пары праймеров для массовых мультиплексных реакций для обнаружения хромосомных анеуплоидий, таких как ВЧК (CoNVERGe) (Copy Number Variant Events Revealed Genotypically) и/или ОНВ. В этих вариантах воплощения наборы могут включать в себя по меньшей мере 100, 200, 250, 300, 500, 1000, 2000, 2500, 3000, 5000, 10000, 20000, 25000, 28000, 50000 или 75000 и не более 200, 250, 300, 500, 1000, 2000, 2500, 3000, 5000, 10000, 20000, 25000, 28000, 50000, 75000 или 100000 пар праймеров, которые поставляются вместе. Пары праймеров могут содержаться в одной емкости, такой как одна пробирка или коробка, или несколько пробирок или коробок. В некоторых вариантах воплощения пары праймеров предварительно квалифицируются коммерческим поставщиком и продаются вместе, а в других вариантах воплощения заказчик выбирает индивидуализированные генные мишени и/или праймеры, а коммерческий поставщик изготавливает и отправляет пул праймеров заказчику или в пробирке, или в множестве пробирок. В некоторых примерных вариантах воплощения наборы включают праймеры для обнаружения как ВЧК, так и ОНВ, особенно ВЧК и ОНВ, которые, как известно, коррелируют по меньшей мере с одним типом рака.[684] In some embodiments, the kits of the invention provide primer pairs for detecting chromosomal aneuploidy and detecting ICH, such as primer pairs for massive multiplex reactions for detecting chromosomal aneuploidy such as ICH (CoNVERGe) (Copy Number Variant Events Revealed Genotypically) and/ or ONV. In these embodiment options, sets may include at least 100, 200, 250, 300, 500, 1000, 2000, 2500, 3000, 5000, 10,000, 20,000, 25000, 28000, 50,000 or 75000 and not more than 200, 250, 300, 500, 1000, 2000, 2500, 3000, 5000, 10000, 20000, 25000, 28000, 50000, 75000 or 100000 primer pairs supplied together. The primer pairs may be contained in a single container, such as a single tube or box, or multiple tubes or boxes. In some embodiments, the primer pairs are pre-qualified by a commercial supplier and sold together, and in other embodiments, the customer selects customized gene targets and/or primers and the commercial supplier prepares and ships a pool of primers to the customer in either a tube or multiple tubes. In some exemplary embodiments, the kits include primers for detecting both ICH and NNV, especially ICH and NVC, which are known to correlate with at least one type of cancer.
[685] Наборы для обнаружения циркулирующей ДНК в соответствии с некоторыми вариантами воплощения настоящего изобретения включают стандарты и/или контроли для обнаружения циркулирующей ДНК. Например, в некоторых вариантах воплощения стандарты и/или контроли продаются и, необязательно, отправляются и упаковываются вместе с праймерами, используемыми для проведения реакций амплификации, предусмотренных в настоящем документе, такими как праймеры для выполнения CoNVERGe. В некоторых вариантах воплощения контроли включают полинуклеотиды, такие как ДНК, включая изолированную геномную ДНК, которая проявляет одну или более хромосомных анеуплоидий, таких как ВЧК, и/или включает один или более ОНВ. В некоторых вариантах воплощения стандарты и/или контроли называются стандартами PlasmArt и включают полинуклеотиды, последовательность которых идентична участкам генома, которые, как известно, проявляют ВЧК, особенно при определенных наследственных заболеваниях и при определенных болезненных состояниях, таких как рак, а также распределение по размеру, которое отражает распределение фрагментов скДНК, встречающихся в естественных условиях в плазме. Примерные способы создания стандартов PlasmArt представлены в приведенных в данном документе примерах. Как правило, геномную ДНК из источника, о котором известно, что он включает хромосомную анеуплоидию, выделяют, фрагментируют, очищают и выбирают по размеру. [685] Kits for detecting circulating DNA in accordance with some embodiments of the present invention include standards and/or controls for detecting circulating DNA. For example, in some embodiments, standards and/or controls are sold and optionally shipped and packaged along with primers used to perform the amplification reactions provided herein, such as primers to perform CoNVERGe. In some embodiments, the controls include polynucleotides, such as DNA, including isolated genomic DNA, that exhibits one or more chromosomal aneuploidies, such as ICH, and/or includes one or more ONVs. In some embodiments, standards and/or controls are referred to as PlasmArt standards and include polynucleotides that are identical in sequence to regions of the genome that are known to exhibit ICH, particularly in certain inherited diseases and in certain disease states such as cancer, as well as size distribution , which reflects the distribution of scDNA fragments naturally occurring in plasma. Examples of ways to create PlasmArt standards are provided in the examples provided in this document. Typically, genomic DNA from a source known to include a chromosomal aneuploidy is isolated, fragmented, purified, and size selected.
[686] Соответственно, стандарты и/или контроли искусственных полинуклеотидов скДНК могут быть изготовлены путем добавления образцов выделенных полинуклеотидов, приготовленных, как описано выше, в образцы ДНК, которые, как известно, не проявляют хромосомной анеуплоидии и/или ОНВ, в концентрациях, аналогичных наблюдаемым для скДНК in vivo, например, от 0,01% до 20%, от 0,1 до 15% или от 0,4 до 10% ДНК в такой жидкости. Эти стандарты/контроли могут использоваться в качестве контролей для конструирования, характеристики, разработки и/или валидации анализа, а также в качестве стандартов контроля качества во время тестирования, например, при тестировании на рак, выполняемом в лаборатории CLIA, и/или в качестве стандартов, включенных только в исследовательское использование или наборы диагностических тестов.[686] Accordingly, standards and/or controls for artificial scDNA polynucleotides can be prepared by adding samples of isolated polynucleotides prepared as described above to DNA samples that are not known to exhibit chromosomal aneuploidy and/or ONV, at concentrations similar to observed for scDNA in vivo, for example, from 0.01% to 20%, from 0.1 to 15%, or from 0.4 to 10% DNA in such a liquid. These standards/controls may be used as controls for assay design, characterization, development, and/or validation, and as quality control standards during testing, such as cancer testing performed in a CLIA laboratory, and/or as standards included in research use or diagnostic test kits only.
[687] Примерные способы нормализации/коррекции [687] Approximate methods of normalization/correction
[688] В некоторых вариантах воплощения измерения для разных локусов, хромосомных сегментов или хромосом корректируются с учетом смещения, например смещения из-за различий в содержании GC или смещения из-за других различий в эффективности амплификации или с учетом ошибок секвенирования. В некоторых вариантах воплощения измерения для разных аллелей одного и того же локуса скорректированы с учетом различий в метаболизме, апоптозе, гистонах, инактивации и/или амплификации между аллелями. В некоторых вариантах воплощения измерения для разных аллелей одного и того же локуса в РНК скорректированы с учетом различий в скорости транскрипции или стабильности между разными аллелями РНК.[688] In some embodiments, measurements for different loci, chromosomal segments, or chromosomes are adjusted for bias, such as bias due to differences in GC content or bias due to other differences in amplification efficiency or to account for sequencing errors. In some embodiments, measurements for different alleles of the same locus are adjusted for differences in metabolism, apoptosis, histones, inactivation, and/or amplification between alleles. In some embodiments, measurements for different alleles of the same RNA locus are adjusted to account for differences in transcription rate or stability between different RNA alleles.
[689] Примерные способы фазирования генетических данных [689] Example methods for phasing genetic data
[690] В некоторых вариантах воплощения генетические данные фазируются с использованием представленных в данном документе способов или любого известного способа фазирования генетических данных (см., например, Публикация РСТ № WO2009/105531, поданная 9 февраля 2009 года, и Публикация РСТ № WO2010/017214, поданная 4 августа 2009 года; Публикация заявки на патент США № 2013/0123120, 21 ноября 2012 года; Публикация заявки на патент США № 2011/0033862, поданная 7 октября 2010 года; Публикация заявки на патент США № 2011/0033862, поданная 19 августа 2010 года; Публикация заявки на патент США № 2011/0178719, поданная 3 февраля 2011 года; Патент США № 8515679, поданный 17 марта 2008 года; Публикация заявки на патент США № 2007/0184467, поданная 22 ноября 2006 года; Публикация заявки на патент США № 2008/0243398, поданная 17 марта 2008 года, и Предварительная заявка на патент США, регистрационный № 61/994791, поданная 16 мая 2014 года, каждый из этих документов полностью включен сюда посредством ссылки). В некоторых вариантах воплощения фаза определяется для одной или более областей, которые, как известно, или предположительно содержат представляющую интерес ВЧК. В некоторых вариантах воплощения фаза также определяется для одной или более областей, фланкирующих область(и) ВЧК, и/или для одной или более референтных областей. В одном варианте воплощения генетические данные индивидуума фазируются путем выведения путем измерения гаплоидной ткани индивидуума, например, путем измерения одного или более сперматозоидов или яйцеклеток. В одном варианте воплощения генетические данные индивидуума фазируются путем выведения с использованием измеренных генотипических данных одного или более родственников первой степени родства, таких как родители индивидуума (например, сперма от отца индивидуума) или братья и сестры. [690] In some embodiments, genetic data is phased using the methods presented herein or any known method of phasing genetic data (see, for example, PCT Publication No. WO2009/105531, filed February 9, 2009, and PCT Publication No. WO2010/017214 , filed August 4, 2009; US Patent Application Publication No. 2013/0123120, November 21, 2012; US Patent Application Publication No. 2011/0033862, filed October 7, 2010; US Patent Application Publication No. 2011/0033862, filed 19 August 2010; US Patent Application Publication No. 2011/0178719, filed February 3, 2011; US Patent No. 8515679, filed March 17, 2008; US Patent Application Publication No. 2007/0184467, filed November 22, 2006; US Patent No. 2008/0243398, filed March 17, 2008, and US Provisional Patent Application Serial No. 61/994791, filed May 16, 2014, each of which is incorporated herein by reference in its entirety). In some embodiments, the phase is determined for one or more regions that are known or suspected to contain the ICH of interest. In some embodiments, phase is also determined for one or more regions flanking the ICH region(s) and/or for one or more reference regions. In one embodiment, an individual's genetic data is phased by inference by measuring the individual's haploid tissue, for example, by measuring one or more sperm or eggs. In one embodiment, an individual's genetic data is phased by inference using measured genotypic data from one or more first-degree relatives, such as the individual's parents (eg, sperm from the individual's father) or siblings.
[691] В одном варианте воплощения генетические данные индивидуума фазируются, когда ДНК или РНК разводятся в одной или более лунок, например, с помощью цифровой ПЦР. В некоторых вариантах воплощения ДНК или РНК разводят до точки, при которой ожидается не более приблизительно одной копии каждого гаплотипа в каждой лунке, а затем измеряют ДНК или РНК в одной или более лунок. В некоторых вариантах воплощения клетки задерживаются в фазе митоза, когда хромосомы представляют собой плотные связки, и для помещения отдельных хромосом в отдельные лунки используется микрофлюидика. Поскольку ДНК или РНК разбавлены, маловероятно, что в одной фракции (или пробирке) находится более одного гаплотипа. Таким образом, фактически в пробирке может находиться одна молекула ДНК, что позволяет определить гаплотип на одной молекуле ДНК или РНК. В некоторых вариантах воплощения способ включает разделение образца ДНК или РНК на множество фракций, так что по меньшей мере одна из фракций включает одну хромосому или один сегмент хромосомы из пары хромосом, и генотипирование (например, определение наличия двух или более полиморфных локусов) образца ДНК или РНК по меньшей мере в одной из фракций, тем самым определяя гаплотип. В некоторых вариантах воплощения генотипирование включает секвенирование (такое как дробное секвенирование или секвенирование отдельной молекулы), матрицу ОНП для обнаружения полиморфных локусов или мультиплексную ПЦР. В некоторых вариантах воплощения генотипирование включает использование матрицы ОНП для обнаружения полиморфных локусов, например по меньшей мере 100; 200; 500; 750; 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 40000; 50000; 75000; или 100000 различных полиморфных локусов. В некоторых вариантах воплощения генотипирование включает использование мультиплексной ПЦР. В некоторых вариантах воплощения способ включает контактирование образца во фракции с библиотекой праймеров, которые одновременно гибридизируются по меньшей мере со 100; 200; 500; 750; 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 40000; 50000; 75000; или 100000 различных полиморфных локусов (таких как ОНП) для получения реакционной смеси; и воздействие на реакционную смесь условий реакции удлинения праймера для получения продуктов амплификации, которые измеряются с помощью высокопроизводительного секвенатора для получения данных секвенирования. В некоторых вариантах воплощения РНК (например, мРНК) секвенирована. Поскольку мРНК содержит только экзоны, секвенирование мРНК позволяет определять аллели полиморфных локусов (таких как ОНП) на большом расстоянии в геноме, например, в несколько мегабаз. В некоторых вариантах воплощения гаплотип индивидуума определяется сортировкой хромосом. Типичный способ сортировки хромосом включает задержку клеток на фазе митоза, когда хромосомы представляют собой плотные пучки, и использование микрофлюидики для помещения отдельных хромосом в отдельные лунки. Другой способ включает сбор отдельных хромосом с помощью FACS-опосредованной сортировки отдельных хромосом. Для идентификации аллелей на одной хромосоме с целью определения гаплотипа индивидуума могут использоваться стандартные способы (такие как секвенирование или матрица). [691] In one embodiment, an individual's genetic data is phased when DNA or RNA is diluted into one or more wells, for example, using digital PCR. In some embodiments, the DNA or RNA is diluted to the point where no more than approximately one copy of each haplotype is expected in each well, and then the DNA or RNA in one or more wells is measured. In some embodiments, cells are arrested in the mitotic phase where the chromosomes are tightly bundled and microfluidics is used to place individual chromosomes into individual wells. Because the DNA or RNA is dilute, it is unlikely that there will be more than one haplotype in a single fraction (or tube). Thus, in fact, there can be one DNA molecule in a test tube, which makes it possible to determine the haplotype on one DNA or RNA molecule. In some embodiments, the method includes dividing a DNA or RNA sample into a plurality of fractions such that at least one of the fractions includes one chromosome or one chromosome segment of a pair of chromosomes, and genotyping (e.g., determining the presence of two or more polymorphic loci) the DNA sample or RNA in at least one of the fractions, thereby defining the haplotype. In some embodiments, genotyping includes sequencing (such as fractional or single molecule sequencing), SNP array to detect polymorphic loci, or multiplex PCR. In some embodiments, genotyping includes using an SNP array to detect polymorphic loci, such as at least 100; 200; 500; 750; 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 40000; 50000; 75000; or 100,000 different polymorphic loci. In some embodiments, genotyping involves the use of multiplex PCR. In some embodiments, the method includes contacting a sample in a fraction with a library of primers that simultaneously hybridize with at least 100; 200; 500; 750; 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 40000; 50000; 75000; or 100,000 different polymorphic loci (such as SNPs) to obtain a reaction mixture; and exposing the reaction mixture to primer extension reaction conditions to produce amplification products, which are measured by a high-throughput sequencer to obtain sequencing data. In some embodiments, the RNA (eg, mRNA) is sequenced. Because mRNA contains only exons, mRNA sequencing allows the determination of alleles at polymorphic loci (such as SNPs) over large distances in the genome, such as several megabases. In some embodiments, an individual's haplotype is determined by chromosome sorting. A typical way to sort chromosomes involves arresting cells in the mitotic phase, when the chromosomes are in dense bundles, and using microfluidics to place individual chromosomes into individual wells. Another method involves collecting individual chromosomes using FACS-mediated single chromosome sorting. Standard techniques (such as sequencing or array) can be used to identify alleles on a single chromosome to determine an individual's haplotype.
[692] В некоторых вариантах воплощения гаплотип индивидуума определяется путем секвенирования с длинным считыванием, например, с использованием технологии Moleculo, разработанной Illumina. В некоторых вариантах воплощения этап подготовки библиотеки включает разрезание ДНК на фрагменты, например, фрагменты размером ~10 т.п.н., разбавление фрагментов и размещение их в лунках (так, чтобы в одной лунке находилось приблизительно 3000 фрагментов), амплификацию фрагментов в каждой лунке с помощью ПЦР длинных фрагментов, разрезание на короткие фрагменты и штрих-кодирование фрагментов, а также объединение фрагментов со штрих-кодом из каждой лунки для их совместного секвенирования. После секвенирования вычислительные этапы включают разделение считываний из каждой лунки на основе прикрепленных штрих-кодов и группировку их во фрагменты, сборку фрагментов в перекрывающихся гетерозиготных ОНВ в блоки гаплотипов и статистическое фазирование блоков на основе поэтапной референтной панели, и получение длинных контигов гаплотипов.[692] In some embodiments, an individual's haplotype is determined by long-read sequencing, such as using Illumina's Moleculo technology. In some embodiments, the library preparation step includes cutting the DNA into fragments, e.g., ~10 kb fragments, diluting the fragments and placing them in wells (so that there are approximately 3000 fragments in one well), amplifying the fragments in each well by PCR of long fragments, cutting into short fragments and barcoding the fragments, and combining the barcoded fragments from each well to sequence them together. After sequencing, computational steps include separating the reads from each well based on the attached barcodes and grouping them into fragments, assembling the fragments in overlapping heterozygous HNVs into haplotype blocks and statistically phasing the blocks based on a stepwise reference panel, and obtaining long haplotype contigs.
[693] В некоторых вариантах воплощения гаплотип индивидуума определяется с использованием данных от родственника индивидуума. В некоторых вариантах воплощения используется матрица ОНП для определения наличия по меньшей мере 100; 200; 500; 750; 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 40000; 50000; 75000; или 100000 различных полиморфных локусов в образце ДНК или РНК от индивидуума и его родственника. В некоторых вариантах воплощения способ включает контактирование образца ДНК от индивидуума и/или родственника индивидуума с библиотекой праймеров, которые одновременно гибридизируются по меньшей мере с 100; 200; 500; 750; 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 40000; 50000; 75000; или 100000 различных полиморфных локусов (таких как ОНП) для получения реакционной смеси; и воздействие на реакционную смесь условий реакции удлинения праймера для получения продуктов амплификации, которые измеряются с помощью высокопроизводительного секвенатора для получения данных секвенирования. [693] In some embodiments, an individual's haplotype is determined using data from a relative of the individual. In some embodiments, an SNP matrix is used to determine the presence of at least 100; 200; 500; 750; 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 40000; 50000; 75000; or 100,000 different polymorphic loci in a DNA or RNA sample from an individual and his relative. In some embodiments, the method includes contacting a DNA sample from the individual and/or a relative of the individual with a library of primers that simultaneously hybridize with at least 100; 200; 500; 750; 1000; 2000; 5000; 7500; 10000; 20000; 25000; 30000; 40000; 50000; 75000; or 100,000 different polymorphic loci (such as SNPs) to obtain a reaction mixture; and exposing the reaction mixture to primer extension reaction conditions to produce amplification products, which are measured by a high-throughput sequencer to obtain sequencing data.
[694] В одном варианте воплощения генетические данные индивидуума фазируются с помощью компьютерной программы, которая использует популяционные частоты гаплотипов для определения наиболее вероятной фазы, например, фазирование на основе HapMap. Например, наборы гаплоидных данных могут быть выведены непосредственно из диплоидных данных с помощью статистических способов, которые используют известные блоки гаплотипов в общей популяции (например, созданные для общедоступного проекта HapMap и для проекта гаплотипа человека Perlegen). Блок гаплотипа - это, по сути, серия коррелированных аллелей, которые неоднократно встречаются в различных популяциях. Поскольку эти блоки гаплотипов часто бывают древними и распространенными, их можно использовать для прогнозирования гаплотипов на основе диплоидных генотипов. Общедоступные алгоритмы, которые решают эту задачу, включают несовершенный филогенетический подход, байесовские подходы, основанные на сопряженных исходных данных, и исходные данные из популяционной генетики. Некоторые из этих алгоритмов используют скрытую марковскую модель. [694] In one embodiment, an individual's genetic data is phased using a computer program that uses population haplotype frequencies to determine the most likely phase, for example, HapMap-based phasing. For example, haploid data sets can be inferred directly from diploid data using statistical methods that use known blocks of haplotypes in the general population (eg, those created for the public HapMap project and for the Perlegen human haplotype project). A haplotype block is essentially a series of correlated alleles that occur repeatedly in different populations. Because these haplotype blocks are often ancient and widespread, they can be used to predict haplotypes based on diploid genotypes. Publicly available algorithms that solve this problem include imperfect phylogenetic approaches, Bayesian approaches based on conjugate inputs, and inputs from population genetics. Some of these algorithms use a hidden Markov model.
[695] В одном из вариантов воплощения, индивидуальные генетические данные фазируются с использованием алгоритма, который оценивает гаплотипы на основе данных генотипа, например алгоритма, использующего локализованную кластеризацию гаплотипов (см., например, Browning and Browning, “Rapid and Accurate Haplotype Phasing and Missing-Data Inference for Whole-Genome Association Studies By Use of Localized Haplotype Clustering” Am J Hum Genet. Nov 2007; 81(5): 1084-1097, документ полностью включен сюда посредством ссылки). Примерной программой является Beagle версия: 3.3.2 или версия 4 (доступна по веб-адресу hfaculty.washington.edu/browning/beagle/beagle.html, документ полностью включен сюда посредством ссылки). [695] In one embodiment, individual genetic data is phased using an algorithm that estimates haplotypes based on genotype data, such as an algorithm using localized haplotype clustering (see, e.g. , Browning and Browning, “Rapid and Accurate Haplotype Phasing and Missing -Data Inference for Whole-Genome Association Studies By Use of Localized Haplotype Clustering” Am J Hum Genet Nov 2007;81(5):1084-1097, incorporated herein by reference in its entirety). An example program is Beagle version: 3.3.2 or version 4 (available at hfaculty.washington.edu/browning/beagle/beagle.html, the document is incorporated herein by reference in its entirety).
[696] В одном из вариантов воплощения, генетические данные индивидуума фазируются с использованием алгоритма, который оценивает гаплотипы на основе данных генотипа, таких как алгоритм, который использует распад неравновесия по сцеплению с расстоянием, порядок и интервалы генотипированных маркеров, условную подстановку отсутствующих данных, оценку скорости рекомбинации или их комбинацию (см., например, Stephens and Scheet, “Accounting for Decay of Linkage Disequilibrium in Haplotype Inference and Missing-Data Imputation” Am. J. Hum. Genet. 76:449-462, 2005, документ полностью включен сюда посредством ссылки). Примерной программой является PHASE v.2.1 или v2.1.1. (доступные по веб адресу stephenslab.uchicago.edu/software.html, документ полностью включен сюда посредством ссылки).[696] In one embodiment, an individual's genetic data is phased using an algorithm that estimates haplotypes based on genotype data, such as an algorithm that uses linkage disequilibrium decay with distance, the order and spacing of genotyped markers, imputation of missing data, estimation recombination rates or a combination thereof (see, for example, Stephens and Scheet, “Accounting for Decay of Linkage Disequilibrium in Haplotype Inference and Missing-Data Imputation” Am. J. Hum. Genet. 76:449-462, 2005, entire document included here via link). An example program is PHASE v.2.1 or v2.1.1. (available at stephenslab.uchicago.edu/software.html, the document is incorporated herein by reference in its entirety).
[697] В одном из вариантов воплощения, генетические данные индивидуума фазируются с использованием алгоритма, который оценивает гаплотипы по данным популяционного генотипа, такого как алгоритм, который позволяет членству в кластерах непрерывно изменяться вдоль хромосомы в соответствии со скрытой марковской моделью. Этот подход является гибким, допускающим как «блочные» модели неравновесия по сцеплению, так и постепенное снижение неравновесия по сцеплению с расстоянием (см., например, Scheet and Stephens, “A fast and flexible statistical model for large-scale population genotype data: applications to inferring missing genotypes and haplotypic phase.” Am J Hum Genet, 78:629-644, 2006, документ полностью включен сюда посредством ссылки). Примерной программой является fastPHASE (доступная по веб- адресу stephenslab.uchicago.edu/software.html, документ полностью включен сюда посредством ссылки).[697] In one embodiment, an individual's genetic data is phased using an algorithm that estimates haplotypes from population genotype data, such as an algorithm that allows cluster membership to vary continuously along a chromosome in accordance with a hidden Markov model. This approach is flexible, allowing both “block” models of linkage disequilibrium and a gradual decrease in linkage disequilibrium with distance (see, for example, Scheet and Stephens, “A fast and flexible statistical model for large-scale population genotype data: applications to inferring missing genotypes and haplotypic phase.” Am J Hum Genet 78:629–644, 2006, incorporated herein by reference in its entirety). An example program is fastPHASE (available at stephenslab.uchicago.edu/software.html, the document is incorporated herein by reference in its entirety).
[698] В одном из вариантов воплощения, генетические данные индивидуума фазируются с использованием способа условной подстановки генотипа, такого как способ, который использует один или более из следующих референтных наборов данных: набор данных HapMap, наборы данных контролей, генотипированных на нескольких чипах ОНП, и плотно типизированные образцы из проекта 1,000 Genomes Project. Примерным подходом является гибкая структура моделирования, которая повышает точность и объединяет информацию из нескольких референтных панелей (см., например, Howie, Donnelly, and Marchini (2009) “A flexible and accurate genotype imputation method for the next generation of genome-wide association studies.” PLoS Genetics 5(6): e1000529, 2009, документ полностью включен сюда посредством ссылки). Примерными программами являются IMPUTE или IMPUTE версия 2 (также известная как IMPUTE2) (доступные по веб-адресу mathgen.stats.ox.ac.uk/impute/impute_v2.html, которые полностью включены сюда посредством ссылки). [698] In one embodiment, an individual's genetic data is phased using a conditional genotype imputation method, such as a method that uses one or more of the following reference data sets: a HapMap data set, data sets of controls genotyped on multiple SNP chips, and densely typed samples from the 1,000 Genomes Project. An exemplary approach is a flexible modeling framework that improves accuracy and integrates information from multiple reference panels (see, for example, Howie, Donnelly, and Marchini (2009) “A flexible and accurate genotype imputation method for the next generation of genome-wide association studies " PLoS Genetics 5(6): e1000529, 2009, incorporated herein by reference in its entirety). Example programs are IMPUTE or IMPUTE version 2 (also known as IMPUTE2) (available at mathgen.stats.ox.ac.uk/impute/impute_v2.html, which are incorporated herein by reference in their entirety).
[699] В одном из вариантов воплощения, генетические данные индивидуума фазируются с использованием алгоритма, который выводит гаплотипы, такого как алгоритм, который выводит гаплотипы в соответствии с генетической моделью слияния с рекомбинацией, такой как разработанный Стивенсом в PHASE v2.1. Основные алгоритмические улучшения основаны на использовании двоичных деревьев для представления наборов гаплотипов-кандидатов для каждого индивидуума. Эти представления бинарного дерева: (1) ускоряют вычисления апостериорных вероятностей гаплотипов, избегая избыточных операций, сделанных в PHASE v2.1, и (2) преодолевают экспоненциальный аспект проблемы вывода гаплотипов за счет интеллектуального исследования большинства вероятных путей (т.е.,гаплотипов) в бинарных деревьях (см., например, Delaneau, Coulonges and Zagury, “Shape-IT: new rapid and accurate algorithm for haplotype inference,” BMC Bioinformatics 9:540, 2008 doi:10.1186/1471-2105-9-540, документ полностью включен сюда посредством ссылки). Примерной программой является SHAPEIT (доступная по веб-адресу mathgen.stats.ox.ac.uk/genetics_software/shapeit/shapeit.html, документ полностью включен сюда посредством ссылки).[699] In one embodiment, an individual's genetic data is phased using an algorithm that infers haplotypes, such as an algorithm that infers haplotypes according to a genetic model of fusion with recombination, such as developed by Stevens in PHASE v2.1. Major algorithmic improvements rely on the use of binary trees to represent sets of candidate haplotypes for each individual. These binary tree representations: (1) speed up calculations of posterior haplotype probabilities by avoiding the redundant operations done in PHASE v2.1, and (2) overcome the exponential aspect of the haplotype inference problem by intelligently exploring most likely paths (i.e., haplotypes) in binary trees (see, for example, Delaneau, Coulonges and Zagury, “Shape-IT: a new rapid and accurate algorithm for haplotype inference,” BMC Bioinformatics 9:540, 2008 doi:10.1186/1471-2105-9-540, incorporated herein by reference in its entirety. An example program is SHAPEIT (available at mathgen.stats.ox.ac.uk/genetics_software/shapeit/shapeit.html, the document is incorporated herein by reference in its entirety).
[700] В одном из вариантов воплощения, генетические данные индивидуума фазируются с использованием алгоритма, который оценивает гаплотипы по данным популяционного генотипа, такого как алгоритм, который использует частоты фрагментов гаплотипов для получения эмпирически обоснованных вероятностей для более длинных гаплотипов. В некоторых вариантах воплощения алгоритм реконструирует гаплотипы так, чтобы они имели максимальную локальную когерентность (см., например, Eronen, Geerts, and Toivonen, “HaploRec: Efficient and accurate large-scale reconstruction of haplotypes,”BMC Bioinformatics 7:542, 2006, документ полностью включен сюда посредством ссылки). Примерной программой является HaploRec, например HaploRec версия 2.3. (доступная по веб-адресу cs.helsinki.fi/group/genetics/haplotyping.html, документ полностью включен сюда посредством ссылки).[700] In one embodiment, an individual's genetic data is phased using an algorithm that estimates haplotypes from population genotype data, such as an algorithm that uses haplotype fragment frequencies to derive empirically based probabilities for longer haplotypes. In some embodiments, the algorithm reconstructs haplotypes so that they have maximum local coherence (see, for example, Eronen, Geerts, and Toivonen, “HaploRec: Efficient and accurate large-scale reconstruction of haplotypes,”BMC Bioinformatics 7:542, 2006, incorporated herein by reference in its entirety). An example program is HaploRec, for example HaploRec version 2.3. (available at cs.helsinki.fi/group/genetics/haplotyping.html, the document is incorporated herein by reference in its entirety).
[701] В одном из вариантов воплощения, генетические данные индивидуума фазируются с использованием алгоритма, который оценивает гаплотипы на основе данных генотипа популяции, такого как алгоритм, который использует стратегию разделения-лигирования, и алгоритм, основанный на максимизации ожидания (см., например, Qin, Niu, and Liu, “Partition-Ligation-Expectation-Maximization Algorithm for Haplotype Inference with Single-Nucleotide Polymorphisms,” Am J Hum Genet. 71(5): 1242-1247, 2002, документ полностью включен сюда посредством ссылки). Примерной программой является PL-EM (доступная по веб-адресу people.fas.harvard.edu/~junliu/plem/click.html, документ полностью включен сюда посредством ссылки).[701] In one embodiment, an individual's genetic data is phased using an algorithm that estimates haplotypes based on population genotype data, such as an algorithm that uses a split-ligation strategy and an algorithm based on expectation maximization (see, for example, Qin, Niu, and Liu, “Partition-Ligation-Expectation-Maximization Algorithm for Haplotype Inference with Single-Nucleotide Polymorphisms,” Am J Hum Genet. 71(5): 1242-1247, 2002, incorporated herein by reference in its entirety). An example program is PL-EM (available at people.fas.harvard.edu/~junliu/plem/click.html, the document is incorporated herein by reference in its entirety).
[702] В одном из вариантов воплощения, генетические данные индивидуума фазируются с использованием алгоритма, который оценивает гаплотипы по данным популяционного генотипа, такого как алгоритм для одновременного фазирования генотипов на гаплотипы и разделение блоков. В некоторых вариантах воплощения, используется алгоритм максимизации ожидания (см., например, Kimmel and Shamir, “GERBIL: Genotype Resolution and Block Identification Using Likelihood,” Proceedings of the National Academy of Sciences of the United States of America (PNAS) 102: 158-162, 2005, документ полностью включен сюда посредством ссылки). Примерной программой является GERBIL, доступная как часть программы GEVALT версия 2 (доступная по веб адресу acgt.cs.tau.ac.il/gevalt/, документ полностью включен сюда посредством ссылки).[702] In one embodiment, an individual's genetic data is phased using an algorithm that estimates haplotypes from population genotype data, such as an algorithm for simultaneously phasing genotypes into haplotypes and block partitioning. In some embodiments, an expectation maximization algorithm is used (see, for example, Kimmel and Shamir, “GERBIL: Genotype Resolution and Block Identification Using Likelihood,” Proceedings of the National Academy of Sciences of the United States of America (PNAS) 102: 158 -162, 2005, incorporated herein by reference in its entirety). An example program is GERBIL, available as part of the GEVALT program version 2 (available at the web address acgt.cs.tau.ac.il/gevalt/, the document is incorporated herein by reference in its entirety).
[703] В одном из вариантов воплощения, генетические данные индивидуума фазируются с использованием алгоритма, который оценивает гаплотипы на основе данных генотипа популяции, такого как алгоритм, который использует алгоритм EM для вычисления оценок ML частот гаплотипов с учетом измерений генотипа, которые не указывают фазу. Алгоритм также допускает отсутствие некоторых измерений генотипа (например, из-за неудачной ПЦР). Он также позволяет проводить множественные условные подстановки индивидуальных гаплотипов (см., например, Clayton, D. (2002), "SNPHAP: A Program for Estimating Frequencies of Large Haplotypes of SNPs", документ полностью включен сюда посредством ссылки). Примерной программой является SNPHAP (доступная по веб-адресу gene.cimr.cam.ac.uk/clayton/software/snphap.txt, документ полностью включен сюда посредством ссылки).[703] In one embodiment, an individual's genetic data is phased using an algorithm that estimates haplotypes based on population genotype data, such as an algorithm that uses the EM algorithm to compute ML estimates of haplotype frequencies given genotype measurements that do not indicate phase. The algorithm also allows for the absence of some genotype measurements (for example, due to PCR failure). It also allows for multiple conditional substitutions of individual haplotypes (see, for example, Clayton, D. (2002), "SNPHAP: A Program for Estimating Frequencies of Large Haplotypes of SNPs", incorporated herein by reference in its entirety. An example program is SNPHAP (available at gene.cimr.cam.ac.uk/clayton/software/snphap.txt, the document is incorporated herein by reference in its entirety).
[704] В одном из вариантов воплощения, генетические данные индивидуума фазируются с использованием алгоритма, который оценивает гаплотипы на основе данных генотипа популяции, такого как алгоритм вывода гаплотипа на основе статистики генотипа, собранной для пар ОНП. Это программное обеспечение можно использовать для сравнительно точного фазирования большого количества длинных последовательностей генома, например полученных из матриц ДНК. Примерная программа принимает матрицу генотипов в качестве входных данных и выводит соответствующую матрицу гаплотипов. (см., например, Brinza and Zelikovsky, “2SNP: scalable phasing based on 2-SNP haplotypes,” Bioinformatics.22(3):371-3, 2006, документ полностью включен сюда посредством ссылки). Примерной программой является 2SNP (доступная по веб адресу alla.cs.gsu.edu/~software/2SNP, документ полностью включен сюда посредством ссылки).[704] In one embodiment, an individual's genetic data is phased using an algorithm that estimates haplotypes based on population genotype data, such as a haplotype inference algorithm based on genotype statistics collected for SNP pairs. This software can be used to relatively accurately phase large numbers of long genome sequences, such as those obtained from DNA templates. The example program takes a genotype matrix as input and outputs the corresponding haplotype matrix. (See, for example , Brinza and Zelikovsky, “2SNP: scalable phasing based on 2-SNP haplotypes,” Bioinformatics.22(3):371-3, 2006, incorporated herein by reference in its entirety). An example program is 2SNP (available at alla.cs.gsu.edu/~software/2SNP, the document is incorporated herein by reference in its entirety).
[705] В различных вариантах воплощения, генетические данные индивидуума фазируются с использованием данных о вероятности кроссинговера хромосом в разных местах хромосомы или сегмента хромосомы (например, с использованием данных рекомбинации, которые могут быть найдены в базе данных HapMap, для создания оценки риска рекомбинации для любого интервала) для моделирования зависимости между полиморфными аллелями на хромосоме или сегменте хромосомы. В некоторых вариантах воплощения, количество аллелей в полиморфных локусах рассчитывается на компьютере на основе данных секвенирования или данных матрицы ОНП. В некоторых вариантах воплощения, создается (например, создание на компьютере) множество гипотез, каждая из которых относится к различному возможному состоянию хромосомы или сегмента хромосомы (например, чрезмерное представление количества копий первого гомологичного сегмента хромосомы по сравнению со вторым гомологичным сегментом хромосомы в геноме одной или более клеток из индивидуум, дупликация первого гомологичного сегмента хромосомы, делеция второго гомологичного сегмента хромосомы или равное представление первого и второго гомологичных сегментов хромосомы); для каждой гипотезы строится (например, на компьютере) модель (например, совместная модель распределения) ожидаемого количества аллелей в полиморфных локусах хромосомы; определяется (например, определение на компьютере) относительная вероятность каждой из гипотез с использованием модели совместного распределения и подсчета аллелей; и выбирается гипотеза с наибольшей вероятностью. В некоторых вариантах воплощения построение объединенной модели распределения для количества аллелей и этап определения относительной вероятности каждой гипотезы выполняется с использованием способа, который не требует использования референтной хромосомы. [705] In various embodiments, an individual's genetic data is phased using data on the probability of chromosome crossing over at different locations on a chromosome or chromosome segment (e.g., using recombination data that can be found in the HapMap database to create a recombination risk score for any interval) to model the dependence between polymorphic alleles on a chromosome or chromosome segment. In some embodiments, the number of alleles at polymorphic loci is calculated on a computer based on sequencing data or SNP array data. In some embodiments, a plurality of hypotheses are generated (e.g., computer-generated), each of which relates to a different possible state of a chromosome or chromosome segment (e.g., an overrepresentation of the copy number of a first homologous chromosome segment relative to a second homologous chromosome segment in the genome of one or more cells from an individual, duplication of the first homologous chromosome segment, deletion of the second homologous chromosome segment, or equal representation of the first and second homologous chromosome segments); for each hypothesis, a model (for example, a joint distribution model) of the expected number of alleles in polymorphic chromosome loci is built (for example, on a computer); the relative probability of each of the hypotheses is determined (eg, computer determined) using a joint distribution and allele counting model; and the hypothesis with the highest probability is selected. In some embodiments, constructing a joint distribution model for the number of alleles and the step of determining the relative likelihood of each hypothesis is performed using a method that does not require the use of a reference chromosome.
[706] В некоторых вариантах воплощения образец (например, биопсия, такая как биопсия опухоли, образец крови, образец плазмы, образец сыворотки или другой образец, который может содержать в основном или только клетки, ДНК или РНК с представляющим интерес ВЧК) от индивидуума анализируется для определения фазы для одной или более областей, о которых известно или предполагается, что они содержат интересующую ВЧК (например, делецию или дупликацию). В некоторых вариантах воплощения образец имеет высокую фракцию опухоли (например, 30, 40, 50, 60, 70, 80, 90, 95, 98, 99 или 100%). [706] In some embodiments, a sample (e.g., a biopsy such as a tumor biopsy, a blood sample, a plasma sample, a serum sample, or other sample that may contain primarily or only cells, DNA, or RNA of the ICH of interest) from the individual is analyzed to determine the phase for one or more regions known or suspected to contain the ICH of interest (eg, deletion or duplication). In some embodiments, the sample has a high tumor fraction (eg, 30, 40, 50, 60, 70, 80, 90, 95, 98, 99, or 100%).
[707] В некоторых вариантах воплощения образец имеет гаплотипический дисбаланс или любую анеуплоидию. В некоторых вариантах воплощения образец включает любую смесь двух типов ДНК, где два типа имеют разные соотношения двух гаплотипов и имеют по меньшей мере один гаплотип. Например, в случае опухоли, нормальная ткань составляет 1:1, а опухолевая ткань - 1:0 или 1:2, 1:3, 1:4 и т. д. В некоторых вариантах воплощения анализируются по меньшей мере 10; 100; 500; 1000; 2000; 3000; 5000; 8000; или 10000 полиморфных локусов для определения фазы аллелей в некоторых или во всех локусах. В некоторых вариантах воплощения образец взят из клетки или ткани, которые были обработаны для получения анеуплоидии, такой как анеуплоидия, индуцированная длительным культивированием клеток. [707] In some embodiments, the sample has a haplotype imbalance or any aneuploidy. In some embodiments, the sample includes any mixture of two types of DNA, where the two types have different ratios of two haplotypes and have at least one haplotype. For example, in the case of a tumor, normal tissue is 1:1 and tumor tissue is 1:0 or 1:2, 1:3, 1:4, etc. In some embodiments, at least 10 are analyzed; 100; 500; 1000; 2000; 3000; 5000; 8000; or 10,000 polymorphic loci to determine the phase of alleles at some or all loci. In some embodiments, the sample is from a cell or tissue that has been treated to produce aneuploidy, such as aneuploidy induced by long-term cell culture.
[708] В некоторых вариантах воплощения большой процент или вся ДНК или РНК в образце имеют представляющую интерес ВЧК. В некоторых вариантах воплощения соотношение ДНК или РНК из одной или более клеток-мишеней, содержащих интересующую ВЧК, к общей ДНК или РНК в образце составляет по меньшей мере 80, 85, 90, 95 или 100%. Для образцов с делецией присутствует только один гаплотип для клеток (или ДНК, или РНК) с делецией. Этот первый гаплотип можно определить стандартными способами для определения идентичности аллелей, присутствующих в области делеции. В образцах, которые содержат только клетки (или ДНК или РНК) с делецией, будет сигнал только от первого гаплотипа, присутствующего в этих клетках. В образцах, которые также содержат небольшое количество клеток (или ДНК или РНК) без делеции (например, небольшое количество доброкачественных клеток), слабый сигнал от второго гаплотипа в этих клетках (или ДНК или РНК) можно игнорировать. Второй гаплотип, который присутствует в других клетках, ДНК или РНК индивидуума, у которых отсутствует делеция, может быть определен путем вывода. Например, если генотип клеток индивидуума без делеции равен (AB, AB), а фазированные данные для индивидуума указывают, что первый гаплотип - (A, A); тогда другой гаплотип может быть выведен как (B, B). [708] In some embodiments, a large percentage or all of the DNA or RNA in the sample has the ICH of interest. In some embodiments, the ratio of DNA or RNA from one or more target cells containing the ICH of interest to total DNA or RNA in the sample is at least 80%, 85%, 90%, 95%, or 100%. For samples with a deletion, there is only one haplotype for the cells (either DNA or RNA) with the deletion. This first haplotype can be determined by standard methods for determining the identity of alleles present in the region of the deletion. In samples that contain only cells (or DNA or RNA) with a deletion, there will only be a signal from the first haplotype present in those cells. In samples that also contain a small number of cells (or DNA or RNA) without deletion (for example, a small number of benign cells), the weak signal from the second haplotype in those cells (or DNA or RNA) can be ignored. A second haplotype that is present in other cells, the DNA or RNA of an individual that lacks the deletion, can be determined by inference. For example, if the genotype of an individual's cells without a deletion is (AB, AB), and the phased data for the individual indicates that the first haplotype is (A, A); then another haplotype can be inferred as (B, B).
[709] Для образцов, в которых присутствуют как клетки (или ДНК, или РНК) с делецией, так и клетки (или ДНК или РНК) без делеции, фаза все же может быть определена. Например, могут быть созданы графики, на которых ось абсцисс представляет линейное положение отдельных локусов вдоль хромосомы, а ось ординат представляет количество считываемых аллелей А как долю от общего числа (А + В) считываний аллелей. В некоторых вариантах воплощения для делеции паттерн включает две центральные полосы, которые представляют ОНП, по которым индивид является гетерозиготным (верхняя полоса представляет AB из клеток без делеции и A из клеток с делецией, а нижняя полоса представляет AB из клеток без делеции и B из клетки с делецией). В некоторых вариантах воплощения разделение этих двух полос увеличивается по мере увеличения доли клеток, ДНК или РНК с делецией. Таким образом, идентичность аллелей A может использоваться для определения первого гаплотипа, а идентичность аллелей B может использоваться для определения второго гаплотипа. [709] For samples in which both cells (or DNA or RNA) with a deletion and cells (or DNA or RNA) without a deletion are present, the phase can still be determined. For example, graphs can be created in which the x-axis represents the linear position of individual loci along the chromosome and the y-axis represents the number of A allele reads as a proportion of the total (A + B) allele reads. In some embodiments, for a deletion, the pattern includes two central bands that represent SNPs for which the individual is heterozygous (the top band represents AB from cells without the deletion and A from cells with the deletion, and the bottom band represents AB from cells without the deletion and B from the cell with deletion). In some embodiments, the separation of the two bands increases as the proportion of cells with DNA or RNA with the deletion increases. Thus, the identity of the A alleles can be used to determine the first haplotype, and the identity of the B alleles can be used to determine the second haplotype.
[710] Для образцов с дупликацией дополнительная копия гаплотипа присутствует для клеток (или ДНК, или РНК) с дупликацией. Этот гаплотип дуплицированной области может быть определен с использованием стандартных способов определения идентичности аллелей, присутствующих в увеличенном количестве в области дупликации, или гаплотип области, которая не дуплицируется, может быть определен с использованием стандартных способов для определения идентичности аллелей, присутствующих в уменьшенном количестве. Как только определен один гаплотип, другой гаплотип может быть определен путем вывода. [710] For samples with a duplication, an additional copy of the haplotype is present for the cells (either DNA or RNA) with the duplication. This haplotype of the duplicated region can be determined using standard methods for determining the identity of alleles present in increased abundance in the region of duplication, or the haplotype of the region that is not duplicated can be determined using standard methods for determining the identity of alleles present in decreased abundance. Once one haplotype is determined, another haplotype can be determined by inference.
[711] Для образцов, в которых присутствуют как клетки (или ДНК, или РНК) с дупликацией, так и клетки (или ДНК или РНК) без дупликации, фазу все же можно определить с помощью способа, аналогичного представленному выше для делеций. Например, могут быть созданы графики, на которых ось абсцисс представляет линейное положение отдельных локусов вдоль хромосомы, а ось ординат представляет количество считываемых аллелей А как долю от общего числа (А + В) считываний аллелей. В некоторых вариантах воплощения для делеции паттерн включает две центральные полосы, которые представляют ОНП, по которым индивидуум является гетерозиготным (верхняя полоса представляет AB из клеток без дупликации и AAB из клеток с дупликацией, а нижняя полоса представляет AB из клеток без дупликации и ABB из клеток с дупликацией). В некоторых вариантах воплощения разделение этих двух полос увеличивается по мере увеличения доли клеток, ДНК или РНК с дупликацией. Таким образом, идентичность аллелей A может использоваться для определения первого гаплотипа, а идентичность аллелей B может использоваться для определения второго гаплотипа. В некоторых вариантах воплощения фаза одного или более участков ВЧК (например, фаза по меньшей мере 50, 60, 70, 80, 90, 95 или 100% полиморфных локусов в измеряемой области) определяется для образца (например, биопсия опухоли или образец плазмы) от индивидуума, о котором известно, что он болен раком, и используется для анализа последующих образцов от того же индивидуума для того, чтобы отслеживать прогрессирование рака (например, мониторинг ремиссии или повторного возникновения рака). В некоторых вариантах воплощения образец с высокой фракцией опухоли (например, биопсия опухоли или образец плазмы от индивидуума с высокой опухолевой нагрузкой) используется для получения фазированных данных, которые используются для анализа последующих образцов с более низкой фракцией опухоли (например, образец плазмы от индивидуума, проходящего лечение от рака или находящегося в стадии ремиссии). [711] For samples in which there are both cells (or DNA or RNA) with duplication and cells (or DNA or RNA) without duplication, the phase can still be determined using a method similar to that presented above for deletions. For example, graphs can be created in which the x-axis represents the linear position of individual loci along the chromosome and the y-axis represents the number of A allele reads as a proportion of the total (A + B) allele reads. In some embodiments, for a deletion, the pattern includes two central bands that represent SNPs for which the individual is heterozygous (the top band represents AB from cells without duplication and AAB from cells with duplication, and the bottom band represents AB from cells without duplication and ABB from cells with duplication). In some embodiments, the separation of these two bands increases as the proportion of cells, DNA or RNA with duplication increases. Thus, the identity of the A alleles can be used to determine the first haplotype, and the identity of the B alleles can be used to determine the second haplotype. In some embodiments, the phase of one or more regions of ICH (e.g., the phase of at least 50, 60, 70, 80, 90, 95, or 100% of the polymorphic loci in the measured region) is determined for a sample (e.g., tumor biopsy or plasma sample) from an individual known to have cancer, and is used to analyze subsequent samples from the same individual in order to monitor the progression of cancer (eg, monitoring remission or recurrence of cancer). In some embodiments, a sample with a high tumor fraction (eg, a tumor biopsy or a plasma sample from an individual with a high tumor burden) is used to obtain phased data that is used to analyze subsequent samples with a lower tumor fraction (for example, a plasma sample from an individual undergoing being treated for cancer or in remission).
[712] В некоторых вариантах воплощения для фазирования генетических данных индивидуума используются два или более из представленных в данном документе способов. В некоторых вариантах воплощения для получения фактических фазированных данных используется как способ биоинформатики (например, использование частот гаплотипов на основе популяции для определения наиболее вероятной фазы), так и способ молекулярной биологии (например, любой из способов молекулярного фазирования, раскрытых в настоящем документе, а не предполагаемых фазированных данных на основе биоинформатики). В некоторых вариантах воплощения фазированные данные от других субъектов (например, предыдущих субъектов) используются для уточнения данных о популяции. Например, фазированные данные от других субъектов могут быть добавлены к данным о популяции для расчета исходных данных для возможных гаплотипов для другого субъекта. В некоторых вариантах воплощения фазированные данные от других субъектов (например, предыдущих субъектов) используются для расчета исходных данных для возможных гаплотипов для другого субъекта. [712] In some embodiments, two or more of the methods presented herein are used to phase an individual's genetic data. In some embodiments, both a bioinformatics method (e.g., using population-based haplotype frequencies to determine the most likely phase) and a molecular biology method (e.g., any of the molecular phasing methods disclosed herein rather than prospective phased data based on bioinformatics). In some embodiments, phased data from other subjects (eg, previous subjects) is used to refine the population data. For example, phased data from other subjects can be added to population data to calculate inputs for possible haplotypes for another subject. In some embodiments, phased data from other subjects (eg, previous subjects) is used to calculate inputs for possible haplotypes for another subject.
[713] В некоторых вариантах воплощения могут использоваться вероятностные данные. Например, из-за вероятностного характера представления молекул ДНК в образце, а также из-за различных ошибок амплификации и измерении относительное количество молекул ДНК, измеренное из двух разных локусов или из разных аллелей в данном локусе, не всегда отражает относительное количество молекул в смеси или у индивидуума. Если пытаться определять генотип нормального диплоидного индивидуума в данном локусе на аутосомной хромосоме путем секвенирования ДНК из плазмы индивидуума, можно было бы ожидать, что будет наблюдаться либо только один аллель (гомозиготный), либо приблизительно равное количество двух аллелей (гетерозиготный). Если бы на этом аллеле наблюдались десять молекул аллеля A и наблюдались две молекулы аллеля B, было бы неясно, был ли индивидуум гомозиготным по локусу, а две молекулы аллеля B были обусловлены шумом или загрязнением, или если индивидуум был гетерозиготным, и меньшее количество молекул аллеля B было вызвано случайным статистическим изменением количества молекул ДНК в плазме, смещением амплификации, загрязнением или любым количеством других причин. В этом случае можно рассчитать вероятность того, что индивидуум был гомозиготным, и соответствующую вероятность того, что индивидуум был гетерозиготным, и эти вероятностные генотипы можно было использовать в дальнейших вычислениях. [713] In some embodiments, probabilistic data may be used. For example, due to the probabilistic nature of the representation of DNA molecules in a sample, as well as various amplification and measurement errors, the relative number of DNA molecules measured from two different loci or from different alleles at a given locus does not always reflect the relative number of molecules in the mixture or at the individual. If one were to attempt to determine the genotype of a normal diploid individual at a given locus on an autosomal chromosome by sequencing DNA from the individual's plasma, one would expect that either only one allele (homozygous) or approximately equal numbers of two alleles (heterozygous) would be observed. If ten molecules of allele A were observed on this allele and two molecules of allele B were observed, it would not be clear whether the individual was homozygous at the locus and the two molecules of allele B were due to noise or contamination, or if the individual was heterozygous and fewer molecules of the allele B was caused by a random statistical change in the number of DNA molecules in the plasma, amplification bias, contamination, or any number of other reasons. In this case, the probability that an individual was homozygous and the corresponding probability that the individual was heterozygous could be calculated, and these probabilistic genotypes could be used in further calculations.
[714] Примите во внимание, что для данного соотношения аллелей вероятность того, что это соотношение точно представляет соотношение молекул ДНК у индивидуума, тем больше, чем больше количество наблюдаемых молекул. Например, если бы нужно было измерить 100 молекул A и 100 молекул B, вероятность того, что фактическое соотношение составляет 50%, значительно выше, чем если бы нужно было измерить 10 молекул A и 10 молекул B. В одном варианте воплощения используется байесовская теория в сочетании с подробной моделью данных для определения вероятности того, что конкретная гипотеза верна с учетом наблюдения. Например, если бы кто-то рассматривал две гипотезы - одну, которая соответствует трисомному индивидууму, и другую, которая соответствует дисомному индивидууму, то вероятность того, что дисомная гипотеза будет правильной, будет значительно выше для случая, где наблюдалось 100 молекул каждого из двух аллелей, по сравнению со случаем, когда наблюдались 10 молекул каждого из двух аллелей. По мере того, как данные становятся более зашумленными из-за систематической ошибки, загрязнения или какого-либо другого источника шума, или по мере того, как количество наблюдений в данном локусе уменьшается, вероятность того, что гипотеза максимального правдоподобия будет верной, с учетом наблюдаемых данных падает. На практике можно агрегировать вероятности по множеству локусов, чтобы повысить уверенность в том, что гипотеза максимального правдоподобия может быть определена как правильная. В некоторых вариантах воплощения вероятности просто суммируются без учета рекомбинации. В некоторых вариантах воплощения в расчетах учтены кроссоверы. [714] Consider that for a given ratio of alleles, the probability that this ratio accurately represents the ratio of DNA molecules in an individual increases as the number of molecules observed increases. For example, if 100 molecules of A and 100 molecules of B were to be measured, the probability that the actual ratio is 50% is significantly higher than if 10 molecules of A and 10 molecules of B were to be measured. In one embodiment, Bayesian theory is used in combined with a detailed model of the data to determine the likelihood that a particular hypothesis is true given an observation. For example, if one were to consider two hypotheses, one that corresponds to a trisomic individual and one that corresponds to a disomic individual, then the probability that the disomic hypothesis would be correct would be significantly higher for the case where 100 molecules of each of the two alleles were observed , compared to the case where 10 molecules of each of the two alleles were observed. As the data becomes noisier due to bias, contamination, or some other source of noise, or as the number of observations at a given locus decreases, the probability that the maximum likelihood hypothesis will be true, given the observed data drops. In practice, it is possible to aggregate probabilities across multiple loci to increase confidence that the maximum likelihood hypothesis can be determined to be correct. In some embodiments, the probabilities are simply summed without taking into account recombination. In some embodiments, crossovers are taken into account in the calculations.
[715] В одном из вариантов воплощения вероятностно фазированные данные используются при определении вариации количества копий. В некоторых вариантах воплощения вероятностно фазированные данные являются данными о частоте блоков гаплотипов на основе популяционного источника данных, такого как база данных HapMap. В некоторых вариантах воплощения вероятностно фазированные данные являются данными о гаплотипах, полученных молекулярным способом, например, фазирование путем разбавления, когда отдельные сегменты хромосом разбавляются до одной молекулы на реакцию, но из-за стохастического шума идентичность гаплотипов может быть полностью неизвестной. В некоторых вариантах воплощения вероятностно фазированные данные является данными о гаплотипе, полученными молекулярным способом, где идентичность гаплотипов может быть известна с высокой степенью уверенности.[715] In one embodiment, probabilistically phased data is used in determining copy number variation. In some embodiments, the probabilistically phased data is haplotype block frequency data based on a population data source, such as a HapMap database. In some embodiments, the probabilistic phasing data is molecularly derived haplotype data, such as dilution phasing where individual chromosome segments are diluted to one molecule per reaction, but due to stochastic noise the identity of the haplotypes may be completely unknown. In some embodiments, the probabilistically phased data is molecularly derived haplotype data where the identity of the haplotypes can be known with a high degree of confidence.
[716] Представьте себе гипотетический случай, когда врач хотел определить, есть ли в организме индивидуума некоторые клетки с делецией в определенном сегменте хромосомы, путем измерения ДНК плазмы этого индивидуума. Врач мог бы использовать информацию о том, что если бы все клетки, из которых произошла ДНК плазмы, были диплоидными и имели один и тот же генотип, то для гетерозиготных локусов относительное количество молекул ДНК, наблюдаемых для каждого из двух аллелей, попало бы в одно распределение, сосредоточенное на 50% аллелей A и 50% аллелей B. Однако, если фракция клеток, из которых произошла ДНК плазмы, имела делецию в определенном сегменте хромосомы, то для гетерозиготных локусов можно было бы ожидать, что относительное количество молекул ДНК, наблюдаемых для каждого из двух аллелей, будет делиться на два распределения, одно с центром выше 50% аллеля A для локусов, в которых произошла делеция сегмента хромосомы, содержащего аллель B, и одно с центром ниже 50% для локусов, где произошла делеция сегмента хромосомы, содержащего аллель A. Чем большая доля клеток, из которых произошла ДНК плазмы, содержала делецию, тем дальше от 50% будут эти два распределения. [716] Imagine a hypothetical case where a physician wanted to determine whether an individual's body had some cells with a deletion in a certain segment of a chromosome by measuring the DNA of that individual's plasma. The physician could use the information that if all the cells from which plasma DNA originated were diploid and had the same genotype, then for heterozygous loci the relative number of DNA molecules observed for each of the two alleles would fall into one distribution centered on 50% of the A alleles and 50% of the B alleles. However, if the fraction of cells from which plasma DNA originated had a deletion in a particular chromosome segment, then for heterozygous loci one would expect the relative number of DNA molecules observed for of each of the two alleles, will be divided into two distributions, one centered above 50% of the A allele for loci where a deletion of the chromosome segment containing the B allele has occurred, and one centered below 50% for loci where a deletion of the chromosome segment containing allele A. The greater the proportion of cells from which the plasma DNA originated contained the deletion, the further away from 50% these two distributions will be.
[717] В этом гипотетическом случае представьте себе клинициста, который хочет определить, была ли у индивидуума делеция хромосомной области в определенной части клеток в организме индивидуума. Клиницист может взять кровь у индивидуума в вакутейнер или пробирку другого типа, центрифугировать кровь и выделить слой плазмы. Клиницист может выделить ДНК из плазмы, обогатить ДНК в целевых локусах, возможно, с помощью целевой или другой амплификации, способов захвата локусов, увеличения размера или других способов обогащения. Клиницист может анализировать, например, путем измерения количества аллелей в наборе ОНП, другими словами, генерируя данные частоты аллелей, обогащенную и/или амплифицированную ДНК, используя такой анализ, как кПЦР, секвенирование, микроматрица или другие способы измерения количества ДНК в образце. Мы рассмотрим анализ данных для случая, когда клиницист амплифицировал внеклеточную плазменную ДНК с помощью способа целевой амплификации, а затем секвенировал амплифицированную ДНК так, чтобы получить следующие примерные возможные данные для шести ОНП, обнаруженных на сегменте хромосомы, который указывает на рак там, где индивидуум оказался гетерозиготным по этим ОНП:[717] In this hypothetical case, imagine a clinician who wants to determine whether an individual has had a deletion of a chromosomal region in a certain portion of cells in the individual's body. The clinician may draw blood from the individual into a vacutainer or other type of tube, centrifuge the blood, and isolate a layer of plasma. The clinician can isolate DNA from plasma, enrich DNA at target loci, possibly through targeted or other amplification, loci capture techniques, size expansion, or other enrichment techniques. The clinician may analyze, for example, by measuring the number of alleles in a set of SNPs, in other words, generating allele frequency data, enriched and/or amplified DNA, using an analysis such as qPCR, sequencing, microarray or other methods of measuring the amount of DNA in a sample. We will consider data analysis for a case in which a clinician amplified cell-free plasma DNA using a targeted amplification method and then sequenced the amplified DNA to obtain the following estimated possible data for six SNPs found on a segment of the chromosome that indicates cancer where the individual ended up heterozygous for these SNPs:
[718] ОНП 1: 460 считываний аллеля А; 540 считываний аллеля В (46% A)[718] SNP 1: 460 reads of allele A; 540 reads of allele B (46% A)
[719] ОНП 2: 530 считываний аллеля А; 470 считываний аллеля В (53% A)[719] SNP 2: 530 reads of allele A; 470 B allele reads (53% A)
[720] ОНП 3: 40 считываний аллеля А; 60 считываний аллеля В (40% A)[720] SNP 3: 40 reads of allele A; 60 reads of allele B (40% A)
[721] ОНП 4: 46 считываний аллеля А; 54 считываний аллеля В (46% A)[721] SNP 4: 46 reads of allele A; 54 B allele reads (46% A)
[722] ОНП 5: 520 считываний аллеля А; 480 считываний аллеля В (52% A)[722] SNP 5: 520 reads of allele A; 480 B allele reads (52% A)
[723] ОНП 6: 200 считываний аллеля А; 200 считываний аллеля В (50% A)[723] SNP 6: 200 reads of allele A; 200 reads of allele B (50% A)
[724] Из этого набора данных, может быть трудно провести различие между случаем, когда индивидуум является нормальным, когда все клетки являются дисомными, или когда у индивидуума может быть рак, с некоторой частью клеток, ДНК которых внесла вклад в свободно-клеточную ДНК, обнаруженную в плазме, с делецией или дупликацией на хромосоме. Например, две гипотезы с максимальной вероятностью могут заключаться в том, что индивидуум имеет делецию в этом сегменте хромосомы с долей опухоли 6%, и где удаленный сегмент хромосомы имеет генотип по шести ОНП (A, B, A, A, B, B) или (A, B, A, A, B, A). В этом представлении генотипа индивидуума над набором ОНП первая буква в скобках соответствует генотипу гаплотипа для ОНП 1, вторая - ОНП 2 и т. д. [724] From this data set, it may be difficult to distinguish between the case where an individual is normal, where all cells are disomic, or where an individual may have cancer, with some portion of the cells whose DNA contributed to free-cell DNA. found in plasma, with a deletion or duplication on the chromosome. For example, the two highest likelihood hypotheses would be that the individual has a deletion in that chromosome segment with a tumor fraction of 6%, and where the deleted chromosome segment has a genotype for six SNPs (A, B, A, A, B, B) or (A, B, A, A, B, A). In this representation of an individual's genotype over a set of SNPs, the first letter in parentheses corresponds to the haplotype genotype for SNP 1, the second to SNP 2, etc.
[725] Если бы использовали способ для определения гаплотипа индивидуума в этом сегменте хромосомы и было бы обнаружено, что гаплотип для одной из двух хромосом составил (A, B, A, A, B, B), это бы согласовывалось с гипотезой максимального правдоподобия, и рассчитанная вероятность того, что у индивидуума имеется делеция в этом сегменте и, следовательно, могут быть раковые или предраковые клетки, будет значительно увеличена. С другой стороны, если бы у индивидуума был обнаружен гаплотип (A, A, A, A, A, A), то вероятность того, что у индивидуума есть делеция в этом сегменте хромосомы, значительно снизилась бы, и, возможно, вероятность гипотезы об отсутствии делеции будет выше (фактические значения вероятности будут зависеть от других параметров, таких как, среди прочего, измеренный шум в системе). [725] If a method were used to determine the haplotype of an individual on that chromosome segment and it was found that the haplotype for one of the two chromosomes was (A, B, A, A, B, B), this would be consistent with the maximum likelihood hypothesis. and the calculated probability that an individual has a deletion in this segment and therefore may have cancerous or precancerous cells will be significantly increased. On the other hand, if the haplotype (A, A, A, A, A, A) were found in an individual, then the likelihood that the individual has a deletion in that chromosome segment would be greatly reduced, and perhaps the likelihood of the hypothesis in the absence of a deletion will be higher (actual probability values will depend on other parameters such as, among other things, measured noise in the system).
[726] Существует много способов определить гаплотип индивидуума, многие из которых описаны в другом месте данного документа. В данном документе приводится неполный список, который не является исчерпывающим. Одним из способов является биологический способ, при котором отдельные молекулы ДНК разбавляются до тех пор, пока приблизительно одна молекула из каждой хромосомной области не окажется в любом заданном реакционном объеме, а затем для измерения генотипа используются такие способы, как секвенирование. Другой способ основан на информатике, где популяционные данные о различных гаплотипах в сочетании с их частотой могут использоваться вероятностным образом. Другой способ заключается в том, чтобы измерить диплоидные данные индивидуума вместе с одним или множеством связанных индивидуумов, которые, как ожидается, будут иметь общие с индивидуумом блоки гаплотипов, и затем сделать вывод о блоках гаплотипов. Другим способом может быть забор образца ткани с высокой концентрацией сегмента с делецией или дупликацией и определение гаплотипа на основе аллельного дисбаланса, например, измерения генотипа образца опухолевой ткани с делецией могут быть использованы для определения фазированных данных для этой области делеции, и эти данные затем могут быть использованы для определения повторного роста рака после резекции. [726] There are many ways to determine an individual's haplotype, many of which are described elsewhere in this document. This document provides a partial list and is not intended to be exhaustive. One method is a biological method in which individual DNA molecules are diluted until approximately one molecule from each chromosomal region is present in any given reaction volume, and then methods such as sequencing are used to measure the genotype. Another method is based on computer science, where population data on different haplotypes, combined with their frequencies, can be used in a probabilistic manner. Another way is to measure the diploid data of an individual along with one or many related individuals that are expected to share haplotype blocks with the individual, and then infer the haplotype blocks. Another method could be to sample tissue with a high concentration of a segment with a deletion or duplication and determine the haplotype based on allelic imbalance, for example, genotype measurements of a tumor tissue sample with a deletion could be used to determine phased data for that region of deletion, and these data could then be used to determine cancer regrowth after resection.
[727] На практике обычно на данном сегменте хромосомы измеряется более 20 ОНП, более 50 ОНП, более 100 ОНП, более 500 ОНП, более 1000 ОНП или более 5000 ОНП.[727] In practice, it is common to measure more than 20 SNPs, more than 50 SNPs, more than 100 SNPs, more than 500 SNPs, more than 1000 SNPs, or more than 5000 SNPs on a given chromosome segment.
[728] Примерные мутации [728] Example Mutations
[729] Примеры мутаций, связанных с заболеванием или расстройством, таким как рак, или повышенным риском (например, уровнем риска выше нормального) для заболевания или расстройства, такого как рак, включают однонуклеотидные варианты (ОНВ), множественные нуклеотидные мутации, делеции (например, как делеция области от 2 до 30 миллионов пар оснований), дупликации или тандемные повторы. В некоторых вариантах воплощения мутация находится в ДНК, такой как скДНК, внеклеточная митохондриальная ДНК (скмДНК), внеклеточная ДНК, происходящая из ядерной ДНК (скяДНК), клеточная ДНК или митохондриальная ДНК. В некоторых вариантах воплощения мутация находится в РНК, такой как скРНК, клеточная РНК, цитоплазматическая РНК, кодирующая цитоплазматическая РНК, некодирующая цитоплазматическая РНК, мРНК, миРНК, митохондриальная РНК, рРНК или тРНК. В некоторых вариантах воплощения мутация с большей частотой встречается у субъектов с заболеванием или расстройством (таким как рак), чем у субъектов без заболевания или расстройства (такого как рак). В некоторых вариантах воплощения мутация указывает на рак, например мутация, вызывающая рак. В некоторых вариантах воплощения мутация является драйверной мутацией, которая играет причинную роль в заболевании или расстройстве. В некоторых вариантах воплощения мутация не является причинной мутацией. Например, при некоторых формах рака накапливаются множественные мутации, но некоторые из них не являются причинными мутациями. Мутации (такие как те, которые присутствуют с большей частотой у субъектов с заболеванием или расстройством, чем у субъектов без заболевания или расстройства), которые не являются причинными, все же могут быть полезны для диагностики заболевания или расстройства. В некоторых вариантах воплощения мутация представляет собой потерю гетерозиготности (loss-of-heterozygosity - LOH) по одному или более микросателлитов. [729] Examples of mutations associated with a disease or disorder, such as cancer, or increased risk (eg, a higher than normal level of risk) for a disease or disorder, such as cancer, include single nucleotide variants (SNVs), multiple nucleotide mutations, deletions (eg , as a deletion of a region of 2 to 30 million base pairs), duplications or tandem repeats. In some embodiments, the mutation is in DNA, such as cDNA, extracellular mitochondrial DNA (scmDNA), extracellular DNA derived from nuclear DNA (scDNA), cellular DNA, or mitochondrial DNA. In some embodiments, the mutation is in RNA, such as scRNA, cellular RNA, cytoplasmic RNA, coding cytoplasmic RNA, non-coding cytoplasmic RNA, mRNA, miRNA, mitochondrial RNA, rRNA, or tRNA. In some embodiments, the mutation occurs at a higher frequency in subjects with a disease or disorder (such as cancer) than in subjects without the disease or disorder (such as cancer). In some embodiments, the mutation is indicative of cancer, such as a mutation that causes cancer. In some embodiments, the mutation is a driver mutation that plays a causative role in a disease or disorder. In some embodiments, the mutation is not a causal mutation. For example, in some forms of cancer multiple mutations accumulate, but some of them are not causative mutations. Mutations (such as those that are present at a higher frequency in subjects with a disease or disorder than in subjects without the disease or disorder) that are not causal may still be useful in diagnosing the disease or disorder. In some embodiments, the mutation is a loss-of-heterozygosity (LOH) for one or more microsatellites.
[730] В некоторых вариантах воплощения субъект проходит скрининг на один из нескольких полиморфизмов или мутаций, которые, как известно, имеются у субъекта (например, для проверки их наличия, изменения количества клеток, ДНК или РНК с этими полиморфизмами или мутациями, или при ремиссии рака или повторном развитии). В некоторых вариантах воплощения субъект проходит скрининг на наличие одного или более полиморфизмов или мутаций, по которым субъект, как известно, подвержен риску (например, субъект, у которого есть родственник с полиморфизмом или мутацией). В некоторых вариантах воплощения субъект проходит скрининг по панели полиморфизмов или мутаций, связанных с заболеванием или расстройством, таким как рак (например по меньшей мере 5, 10, 50, 100, 200, 300, 500, 750, 1000, 1500, 2000 или 5000 полиморфизмов или мутаций).[730] In some embodiments, the subject is screened for one of several polymorphisms or mutations that the subject is known to have (e.g., to test for their presence, changes in the number of cells, DNA or RNA with those polymorphisms or mutations, or in remission cancer or re-development). In some embodiments, the subject is screened for the presence of one or more polymorphisms or mutations for which the subject is known to be at risk (eg, a subject who has a relative with the polymorphism or mutation). In some embodiments, the subject is screened for a panel of polymorphisms or mutations associated with a disease or disorder, such as cancer (e.g., at least 5, 10, 50, 100, 200, 300, 500, 750, 1000, 1500, 2000, or 5000 polymorphisms or mutations).
[731] Многие варианты кодирования, связанные с раком, описаны в Abaan et al., "The Exomes of the NCI-60 Panel: A Genomic Resource for Cancer Biology and Systems Pharmacology", Cancer Research, July 15, 2013, и по веб-адресу dtp.nci.nih.gov/branches/btb/characterizationNCI60.html, каждый из этих документов полностью включен сюда посредством ссылки). Панель раковых клеток человека NCI-60 состоит из 60 различных клеточных линий, представляющих рак легких, толстой кишки, мозга, яичников, молочной железы, простаты и почек, а также лейкоз и меланому. Генетические вариации, которые были идентифицированы в этих клеточных линиях, состояли из двух типов: варианты типа I, которые встречаются в нормальной популяции, и варианты типа II, специфичные для рака.[731] Many coding variants associated with cancer are described in Abaan et al ., “The Exomes of the NCI-60 Panel: A Genomic Resource for Cancer Biology and Systems Pharmacology,” Cancer Research, July 15, 2013, and on the web -address dtp.nci.nih.gov/branches/btb/characterizationNCI60.html, each of these documents is incorporated herein by reference in its entirety). The NCI-60 Human Cancer Cell Panel consists of 60 different cell lines representing lung, colon, brain, ovarian, breast, prostate and kidney cancers, as well as leukemia and melanoma. The genetic variations that were identified in these cell lines consisted of two types: type I variants, which occur in the normal population, and type II variants, which are specific to cancer.
[732] Примерные полиморфизмы или мутации (такие как делеции или дупликации) находятся в одном или более из следующих генов: TP53, PTEN, PIK3CA, APC, EGFR, NRAS, NF2, FBXW7, ERBBs, ATAD5, KRAS, BRAF, VEGF, EGFR, HER2, ALK, p53, BRCA, BRCA1, BRCA2, SETD2, LRP1B, PBRM, SPTA1, DNMT3A, ARID1A, GRIN2A, TRRAP, STAG2, EPHA3/5/7, POLE, SYNE1, C20orf80, CSMD1, CTNNB1, ERBB2, FBXW7, KIT, MUC4, ATM, CDH1, DDX11, DDX12, DSPP, EPPK1, FAM186A, GNAS, HRNR, KRTAP4-11, MAP2K4, MLL3, NRAS, RB1, SMAD4, TTN, ABCC9, ACVR1B, ADAM29, ADAMTS19, AGAP10, AKT1, AMBN, AMPD2, ANKRD30A, ANKRD40, APOBR, AR, BIRC6, BMP2, BRAT1, BTNL8, C12orf4, C1QTNF7, C20orf186, CAPRIN2, CBWD1, CCDC30, CCDC93, CD5L, CDC27, CDC42BPA, CDH9, CDKN2A, CHD8, CHEK2, CHRNA9, CIZ1, CLSPN, CNTN6, COL14A1, CREBBP, CROCC, CTSF, CYP1A2, DCLK1, DHDDS, DHX32, DKK2, DLEC1, DNAH14, DNAH5, DNAH9, DNASE1L3, DUSP16, DYNC2H1, ECT2, EFHB, RRN3P2, TRIM49B, TUBB8P5, EPHA7, ERBB3, ERCC6, FAM21A, FAM21C, FCGBP, FGFR2, FLG2, FLT1, FOLR2, FRYL, FSCB, GAB1, GABRA4, GABRP, GH2, GOLGA6L1, GPHB5, GPR32, GPX5, GTF3C3, HECW1, HIST1H3B, HLA-A, HRAS, HS3ST1, HS6ST1, HSPD1, IDH1, JAK2, KDM5B, KIAA0528, KRT15, KRT38, KRTAP21-1, KRTAP4-5, KRTAP4-7, KRTAP5-4, KRTAP5-5, LAMA4, LATS1, LMF1, LPAR4, LPPR4, LRRFIP1, LUM, LYST, MAP2K1, MARCH1, MARCO, MB21D2, MEGF10, MMP16, MORC1, MRE11A, MTMR3, MUC12, MUC17, MUC2, MUC20, NBPF10, NBPF20, NEK1, NFE2L2, NLRP4, NOTCH2, NRK, NUP93, OBSCN, OR11H1, OR2B11, OR2M4, OR4Q3, OR5D13, OR8I2, OXSM, PIK3R1, PPP2R5C, PRAME, PRF1, PRG4, PRPF19, PTH2, PTPRC, PTPRJ, RAC1, RAD50, RBM12, RGPD3, RGS22, ROR1, RP11-671M22.1, RP13-996F3.4, RP1L1, RSBN1L, RYR3, SAMD3, SCN3A, SEC31A, SF1, SF3B1, SLC25A2, SLC44A1, SLC4A11, SMAD2, SPTA1, ST6GAL2, STK11, SZT2, TAF1L, TAX1BP1, TBP, TGFBI, TIF1, TMEM14B, TMEM74, TPTE, TRAPPC8, TRPS1, TXNDC6, USP32, UTP20, VASN, VPS72, WASH3P, WWTR1, XPO1, ZFHX4, ZMIZ1, ZNF167, ZNF436, ZNF492, ZNF598, ZRSR2, ABL1, AKT2, AKT3, ARAF, ARFRP1, ARID2, ASXL1, ATR, ATRX, AURKA, AURТЫС. П.Н., AXL, BAP1, BARD1, BCL2, BCL2L2, BCL6, BCOR, BCORL1, BLM, BRIP1, BTK, CARD11, CBFB, CBL, CCND1, CCND2, CCND3, CCNE1, CD79A, CD79B, CDC73, CDK12, CDK4, CDK6, CDK8, CDKN1B, CDKN2B, CDKN2C, CEBPA, CHEK1, CIC, CRKL, CRLF2, CSF1R, CTCF, CTNNA1, DAXX, DDR2, DOT1L, EMSY (C11orf30), EP300, EPHA3, EPHA5, EPHB1, ERBB4, ERG, ESR1, EZH2, FAM123B (WTX), FAM46C, FANCA, FANCC, FANCD2, FANCE, FANCF, FANCG, FANCL, FGF10, FGF14, FGF19, FGF23, FGF3, FGF4, FGF6, FGFR1, FGFR2, FGFR3, FGFR4, FLT3, FLT4, FOXL2, GATA1, GATA2, GATA3, GID4 (C17orf39), GNA11, GNA13, GNAQ, GNAS, GPR124, GSK3B, HGF, IDH1, IDH2, IGF1R, IKBKE, IKZF1, IL7R, INHBA, IRF4, IRS2, JAK1, JAK3, JUN, KAT6A (MYST3), KDM5A, KDM5C, KDM6A, KDR, KEAP1, KLHL6, MAP2K2, MAP2K4, MAP3K1, MCL1, MDM2, MDM4, MED12, MEF2B, MEN1, MET, MITF, MLH1, MLL, MLL2, MPL, MSH2, MSH6, MTOR, MUTYH, MYC, MYCL1, MYCN, MYD88, NF1, NFKBIA, NKX2-1, NOTCH1, NPM1, NRAS, NTRK1, NTRK2, NTRK3, PAK3, PALB2, PAX5, PBRM1, PDGFRA, PDGFRB, PDK1, PIK3CG, PIK3R2, PPP2R1A, PRDM1, PRKAR1A, PRKDC, PTCH1, PTPN11, RAD51, RAF1, RARA, RET, RICTOR, RNF43, RPTOR, RUNX1, SMARCA4, SMARCB1, SMO, SOCS1, SOX10, SOX2, SPEN, SPOP, SRC, STAT4, SUFU, TET2, TGFBR2, TNFAIP3, TNFRSF14, TOP1, TP53, TSC1, TSC2, TSHR, VHL, WISP3, WT1, ZNF217, ZNF703 и их комбинациях (Suet al., J Mol Diagn 2011, 13:74-84; DOI:10.1016/j.jmoldx.2010.11.010; и Abaan et al., "The Exomes of the NCI-60 Panel: A Genomic Resource for Cancer Biology and Systems Pharmacology", Cancer Research, July 15, 2013, каждый из этих документов полностью включен сюда посредством ссылки). В некоторых вариантах воплощения дупликация является дупликацией хромосомы 1p («Chr1p»), связанной с раком молочной железы. В некоторых вариантах воплощения один или более полиморфизмов или мутаций находятся в BRAF, например, мутация V600E. В некоторых вариантах воплощения один или более полиморфизмов или мутаций находятся в K-ras. В некоторых вариантах воплощения существует комбинация одного или более полиморфизмов или мутаций в K-ras и APC. В некоторых вариантах воплощения существует комбинация одного или более полиморфизмов или мутаций в K-ras и p53. В некоторых вариантах воплощения существует комбинация одного или более полиморфизмов или мутаций в APC и p53. В некоторых вариантах воплощения существует комбинация одного или более полиморфизмов или мутаций в K-ras, APC и p53. В некоторых вариантах воплощения существует комбинация одного или более полиморфизмов или мутаций в K-ras и EGFR. Примерные полиморфизмы или мутации находятся в одном или более из следующих микроРНК: miR-15a, miR-16-1, miR-23a, miR-23b, miR-24-1, miR-24-2, miR-27a, miR-27b, miR-29b-2, miR-29c, miR-146, miR-155, miR-221, miR-222, и miR-223 (Calin et al. “A miRNA signature associated with prognosis and progression in chronic lymphocytic leukemia.” N Engl J Med 353:1793- 801, 2005, документ полностью включен сюда посредством ссылки). [732] Exemplary polymorphisms or mutations (such as deletions or duplications) are found in one or more of the following genes: TP53, PTEN, PIK3CA, APC, EGFR, NRAS, NF2, FBXW7, ERBBs, ATAD5, KRAS, BRAF, VEGF, EGFR , HER2, ALK, p53, BRCA, BRCA1, BRCA2, SETD2, LRP1B, PBRM, SPTA1, DNMT3A, ARID1A, GRIN2A, TRRAP, STAG2, EPHA3/5/7, POLE, SYNE1, C20orf80, CSMD1, CTNNB1, ERBB2, FBXW7 , KIT, MUC4, ATM, CDH1, DDX11, DDX12, DSPP, EPPK1, FAM186A, GNAS, HRNR, KRTAP4-11, MAP2K4, MLL3, NRAS, RB1, SMAD4, TTN, ABCC9, ACVR1B, ADAM29, ADAMTS19, AGAP10, AKT1 , AMBN, AMPD2, ANKRD30A, ANKRD40, APOBR, AR, BIRC6, BMP2, BRAT1, BTNL8, C12orf4, C1QTNF7, C20orf186, CAPRIN2, CBWD1, CCDC30, CCDC93, CD5L, CDC27, CDC42BPA, CDH9, CDKN2A, CHD8, CHEK2, CHRNA 9 , CIZ1, CLSPN, CNTN6, COL14A1, CREBBP, CROCC, CTSF, CYP1A2, DCLK1, DHDDS, DHX32, DKK2, DLEC1, DNAH14, DNAH5, DNAH9, DNASE1L3, DUSP16, DYNC2H1, ECT2, EFHB, RRN3P2, TRIM49B, TUBB8P5, EPHA7 , ERBB3, ERCC6, FAM21A, FAM21C, FCGBP, FGFR2, FLG2, FLT1, FOLR2, FRYL, FSCB, GAB1, GABRA4, GABRP, GH2, GOLGA6L1, GPHB5, GPR32, GPX5, GTF3C3, HECW1, HIST1H3B, HLA-A, HRAS , HS3ST1, HS6ST1, HSPD1, IDH1, JAK2, KDM5B, KIAA0528, KRT15, KRT38, KRTAP21-1, KRTAP4-5, KRTAP4-7, KRTAP5-4, KRTAP5-5, LAMA4, LATS1, LMF1, LPAR4, LPPR4, LRRFIP1 Lum, Lyst, MAP2K1, March1, Marco, MB21D2, MEGF10, MMP16, Morc1, MRE11AA, MTMR3, MUC12, MUC17, MUC2, MUC20, NBPFF10, NBPF20, NEK1, NFE2L2, NLRP4, NOTCH2, NR K, nup93, OBSCN, OR11H1 , OR2B11, OR2M4, OR4Q3, OR5D13, OR8I2, OXSM, PIK3R1, PPP2R5C, PRAME, PRF1, PRG4, PRPF19, PTH2, PTPRC, PTPRJ, RAC1, RAD50, RBM12, RGPD3, RGS22, ROR1, RP11-671M22.1, RP13 -996F3.4, RP1L1, RSBN1L, RYR3, SAMD3, SCN3A, SEC31A, SF1, SF3B1, SLC25A2, SLC44A1, SLC4A11, SMAD2, SPTA1, ST6GAL2, STK11, SZT2, TAF1L, TAX1BP1, TBP, TGFBI, TIF1, TMEM14B TMEM74 TPTE, TRAPPC8, TRPS1, TXNDC6, USP32, UTP20, VASN, VPS72, Wash3P, WWTR1, XPO1, ZFHX4, ZMIZ1, ZNF167, ZNF436, ZNF492, ZNF598, ZRSR2, AB1, AB1, AK T2, AKT3, ARAF, ArFRP1, Arid2, ASXL1 , ATR, ATRX, AURKA, AURTHUS. P.N., AXL, BAP1, BARD1, BCL2, BCL2L2, BCL6, BCOR, BCORL1, BLM, BRIP1, BTK, CARD11, CBFB, CBL, CCND1, CCND2, CCND3, CCNE1, CD79A, CD79B, CDC73, CDK12, CDK4 , CDK6, CDK8, CDKN1B, CDKN2B, CDKN2C, CEBPA, CHEK1, CIC, CRKL, CRLF2, CSF1R, CTCF, CTNNA1, DAXX, DDR2, DOT1L, EMSY (C11orf30), EP300, EPHA3, EPHA5, EPHB1, ERBB4, ERG, ESR1, EZH2, FAM123B (WTX), FAM46C, FANCA, FANCC, FANCD2, FANCE, FANCF, FANCG, FANCL, FGF10, FGF14, FGF19, FGF23, FGF3, FGF4, FGF6, FGFR1, FGFR2, FGFR3, FGFR4, FLT3, FLT4 , FOXL2, GATA1, GATA2, GATA3, GID4 (C17orf39), GNA11, GNA13, GNAQ, GNAS, GPR124, GSK3B, HGF, IDH1, IDH2, IGF1R, IKBKE, IKZF1, IL7R, INHBA, IRF4, IRS2, JAK1, JAK3, JUN, KAT6A (MYST3), KDM5A, KDM5C, KDM6A, KDR, KEAP1, KLHL6, MAP2K2, MAP2K4, MAP3K1, MCL1, MDM2, MDM4, MED12, MEF2B, MEN1, MET, MITF, MLH1, MLL, MLL2, MPL, MSH2 , MSH6, MTOR, MUTYH, MYC, MYCL1, MYCN, MYD88, NF1, NFKBIA, NKX2-1, NOTCH1, NPM1, NRAS, NTRK1, NTRK2, NTRK3, PAK3, PALB2, PAX5, PBRM1, PDGFRA, PDGFRB, PDK1, PIK3CG , PIK3R2, PPP2R1A, PRDM1, PRKAR1A, PRKDC, PTCH1, PTPN11, RAD51, RAF1, RARA, RET, RICTOR, RNF43, RPTOR, RUNX1, SMARCA4, SMARCB1, SMO, SOCS1, SOX10, SOX2, SPEN, SPOP, SRC, STAT4 , SUFU, TET2, TGFBR2, TNFAIP3, TNFRSF14, TOP1, TP53, TSC1, TSC2, TSHR, VHL, WISP3, WT1, ZNF217, ZNF703 and combinations thereof (Su et al ., J Mol Diagn 2011, 13:74-84; DOI:10.1016/j.jmoldx.2010.11.010; and Abaan et al ., “The Exomes of the NCI-60 Panel: A Genomic Resource for Cancer Biology and Systems Pharmacology,” Cancer Research, July 15, 2013, each of which is incorporated herein by reference in its entirety). In some embodiments, the duplication is a duplication of chromosome 1p (“Chr1p”), which is associated with breast cancer. In some embodiments, one or more polymorphisms or mutations are found in BRAF, for example, the V600E mutation. In some embodiments, one or more polymorphisms or mutations are in K-ras. In some embodiments, there is a combination of one or more polymorphisms or mutations in K-ras and APC. In some embodiments, there is a combination of one or more polymorphisms or mutations in K-ras and p53. In some embodiments, there is a combination of one or more polymorphisms or mutations in APC and p53. In some embodiments, there is a combination of one or more polymorphisms or mutations in K-ras, APC, and p53. In some embodiments, there is a combination of one or more polymorphisms or mutations in K-ras and EGFR. Exemplary polymorphisms or mutations are found in one or more of the following microRNAs: miR-15a, miR-16-1, miR-23a, miR-23b, miR-24-1, miR-24-2, miR-27a, miR-27b , miR-29b-2, miR-29c, miR-146, miR-155, miR-221, miR-222, and miR-223 (Calin et al. “A miRNA signature associated with prognosis and progression in chronic lymphocytic leukemia. N Engl J Med 353:1793-801, 2005, incorporated herein by reference in its entirety).
[733] В некоторых вариантах воплощения делецией является делеция по меньшей мере 0,01 т.п.н., 0.1 т.п.н., 1 т.п.н., 10 т.п.н., 100 т.п.н., 1 Мб, 2 Мб, 3 Мб, 5 Мб, 10 Мб, 15 Мб, 20 Мб, 30 Мб или 40 Мб. В некоторых вариантах воплощения делецией является делеция от 1 т.п.н. до 40 Мб, такая как от 1 т.п.н. до 100 т.п.н., от 100 т.п.н. до 1 Мб, от 1 до 5 Мб, от 5 до 10 Мб, от 10 до 15 Мб, от 15 до 20 Мб, от 20 до 25 Мб, от 25 до 30 Мб или от 30 до 40 Мб включительно. [733] In some embodiments, the deletion is a deletion of at least 0.01 kb, 0.1 kb, 1 kb, 10 kb, 100 k. bp, 1 MB, 2 MB, 3 MB, 5 MB, 10 MB, 15 MB, 20 MB, 30 MB or 40 MB. In some embodiments, the deletion is a deletion of 1 kb. up to 40 MB, such as from 1 kb. up to 100 kb, from 100 kb up to 1 MB, from 1 to 5 MB, from 5 to 10 MB, from 10 to 15 MB, from 15 to 20 MB, from 20 to 25 MB, from 25 to 30 MB or from 30 to 40 MB inclusive.
[734] В некоторых вариантах воплощения дупликация является дупликацией по меньшей мере 0,01 т.п.н., 0,1 т.п.н., 1 т.п.н., 10 т.п.н., 100 т.п.н., 1 Мб, 2 Мб, 3 Мб, 5 Мб, 10 Мб, 15 Мб, 20 Мб, 30 Мб или 40 Мб. В некоторых вариантах воплощения дупликацией является дупликация от 1 т.п.н. до 40 Мб, такая как от 1 т.п.н. до 100 т.п.н., от 100 т.п.н. до 1 Мб, от 1 до 5 Мб, от 5 до 10 Мб, от 10 до 15 Мб, от 15 до 20 Мб, от 20 до 25 Мб, от 25 до 30 Мб или от 30 до 40 Мб включительно. [734] In some embodiments, the duplication is a duplication of at least 0.01 kb, 0.1 kb, 1 kb, 10 kb, 100 tbp, 1 MB, 2 MB, 3 MB, 5 MB, 10 MB, 15 MB, 20 MB, 30 MB or 40 MB. In some embodiments, the duplication is a duplication of 1 kb or greater. up to 40 MB, such as from 1 kb. up to 100 kb, from 100 kb up to 1 MB, from 1 to 5 MB, from 5 to 10 MB, from 10 to 15 MB, from 15 to 20 MB, from 20 to 25 MB, from 25 to 30 MB or from 30 to 40 MB inclusive.
[735] В некоторых вариантах воплощения тандемный повтор представляет собой повтор из от 2 до 60 нуклеотидов, например, от 2 до 6, от 7 до 10, от 10 до 20, от 20 до 30, от 30 до 40, от 40 до 50 или от 50 до 60 нуклеотидов включительно. В некоторых вариантах воплощения тандемный повтор представляет собой повтор из 2 нуклеотидов (динуклеотидный повтор). В некоторых вариантах воплощения тандемный повтор представляет собой повтор из 3 нуклеотидов (тринуклеотидный повтор). [735] In some embodiments, the tandem repeat is a repeat of 2 to 60 nucleotides, such as 2 to 6, 7 to 10, 10 to 20, 20 to 30, 30 to 40, 40 to 50 or from 50 to 60 nucleotides inclusive. In some embodiments, the tandem repeat is a 2-nucleotide repeat (dinucleotide repeat). In some embodiments, the tandem repeat is a repeat of 3 nucleotides (trinucleotide repeat).
[736] В некоторых вариантах воплощения полиморфизм или мутация являются прогностическими. Типичные прогностические мутации включают мутации K-ras, такие как мутации K-ras, которые являются индикаторами рецидива послеоперационного заболевания при колоректальном раке (Ryan et al.” A prospective study of circulating mutant KRAS2 in the serum of patients with colorectal neoplasia: strong prognostic indicator in postoperative follow up,” Gut 52:101-108, 2003; and Lecomte T et al. Detection of free-circulating tumor-associated DNA in plasma of colorectal cancer patients and its association with prognosis,” Int J Cancer 100:542-548, 2002, каждый из этих документов полностью включен сюда посредством ссылки).[736] In some embodiments, the polymorphism or mutation is prognostic. Typical prognostic mutations include K-ras mutations, such as K-ras mutations, which are indicators of postoperative disease recurrence in colorectal cancer (Ryan et al." A prospective study of circulating mutant KRAS2 in the serum of patients with colorectal neoplasia: strong prognostic indicator in postoperative follow up," Gut 52:101-108, 2003; and Lecomte T et al. Detection of free-circulating tumor-associated DNA in plasma of colorectal cancer patients and its association with prognosis," Int J Cancer 100:542- 548, 2002, each of which is incorporated herein by reference in its entirety).
[737] В некоторых вариантах воплощения полиморфизм или мутация связаны с измененным ответом на конкретное лечение (например, повышенная или пониженная эффективность или побочные эффекты). Примеры включают мутации K-ras, связанные со снижением ответа на лечение на основе EGFR при немелкоклеточном раке легкого (Wang et al. “Potential clinical significance of a plasma-based KRAS mutation analysis in patients with advanced non-small cell lung cancer,” Clin Canc Res16:1324-1330, 2010, документ полностью включен сюда посредством ссылки).[737] In some embodiments, the polymorphism or mutation is associated with an altered response to a particular treatment (eg, increased or decreased effectiveness or side effects). Examples include K-ras mutations associated with decreased response to EGFR-based treatment in non-small cell lung cancer (Wang et al. “ Potential clinical significance of a plasma-based KRAS mutation analysis in patients with advanced non-small cell lung cancer,” Clin Canc Res16:1324-1330, 2010, incorporated herein by reference in its entirety).
[738] K-ras является онкогеном, который активируется при многих раковых заболеваниях. Типичные мутации K-ras представляют собой мутации в кодонах 12, 13 и 61. Мутации скДНК K-ras были идентифицированы при раке поджелудочной железы, легких, колоректальном раке, раке мочевого пузыря и желудка (Fleischhacker & Schmidt “Circulating nucleic acids (CNAs) and caner - a survey,” Biochim Biophys Acta 1775:181-232, 2007, документ полностью включен сюда посредством ссылки).[738] K-ras is an oncogene that is activated in many cancers. Typical K-ras mutations are mutations at codons 12, 13, and 61. K-ras scDNA mutations have been identified in pancreatic, lung, colorectal, bladder, and gastric cancers (Fleischhacker & Schmidt, “Circulating nucleic acids (CNAs) and caner - a survey,” Biochim Biophys Acta 1775:181-232, 2007, incorporated herein by reference in its entirety).
[739] p53 представляет собой опухолевый супрессор, который мутирует при многих формах рака и способствует прогрессированию опухоли (Levine & Oren “The first 30 years of p53: growing ever more complex. Nature Rev Cancer,” 9:749-758, 2009, документ полностью включен сюда посредством ссылки). Могут мутировать множество различных кодонов, например Ser249. Мутации p53 скДНК были выявлены при раке молочной железы, легких, яичников, мочевого пузыря, желудка, поджелудочной железы, колоректального рака, кишечника и гепатоцеллюлярного рака (Fleischhacker & Schmidt “Circulating nucleic acids (CNAs) and caner - a survey,” Biochim Biophys Acta 1775:181-232, 2007, документ полностью включен сюда посредством ссылки).[739] p53 is a tumor suppressor that is mutated in many forms of cancer and promotes tumor progression (Levine & Oren, “The first 30 years of p53: growing ever more complex. Nature Rev Cancer,” 9:749–758, 2009, paper incorporated herein by reference in its entirety). Many different codons can mutate, such as Ser249. p53 cDNA mutations have been identified in breast, lung, ovarian, bladder, gastric, pancreatic, colorectal, intestinal, and hepatocellular cancers (Fleischhacker & Schmidt, “Circulating nucleic acids (CNAs) and caner - a survey,” Biochim Biophys Acta 1775:181-232, 2007, incorporated herein by reference in its entirety).
[740] BRAF - онкоген, расположенный ниже Ras. Мутации BRAF были идентифицированы при глиальных новообразованиях, меланоме, раке щитовидной железы и легких (Dias-Santagata et al. BRAF V600E mutations are common in pleomorphic xanthoastrocytoma: diagnostic and therapeutic implications. PLOS ONE 2011;6:e17948, 2011; Shinozaki et al. Utility of circulating B-RAF DNA mutation in serum for monitoring melanoma patients receiving biochemotherapy. Clin Canc Res 13:2068-2074, 2007 и Board et al. Detection of BRAF mutations in the tumor and serum of patients enrolled in the AZD6244 (ARRY-142886) advanced melanoma phase II study. Brit J Canc2009;101:1724-1730, каждый из этих документов полностью включен сюда посредством ссылки). Мутация BRAF V600E встречается, например, при меланомных опухолях и чаще встречается на поздних стадиях. Мутация V600E была обнаружена в скДНК. [740] BRAF is an oncogene located downstream of Ras. BRAF mutations have been identified in glial neoplasms, melanoma, thyroid and lung cancers (Dias-Santagata et al. BRAF V600E mutations are common in pleomorphic xanthoastrocytoma: diagnostic and therapeutic implications. PLOS ONE 2011;6:e17948, 2011; Shinozaki et al. Utility of circulating B-RAF DNA mutation in serum for monitoring melanoma patients receiving biochemotherapy. Clin Canc Res 13:2068-2074, 2007 and Board et al. Detection of BRAF mutations in the tumor and serum of patients enrolled in the AZD6244 (ARRY- 142886) advanced melanoma phase II study. Brit J Canc2009;101:1724-1730, each of these documents is incorporated herein by reference in its entirety). The BRAF V600E mutation occurs, for example, in melanoma tumors and is more common in advanced stages. The V600E mutation was found in cDNA.
[741] EGFR способствует пролиферации клеток и неправильно регулируется при многих формах рака (Downward J. Targeting RAS signalling pathways in cancer therapy. Nature Rev Cancer 3:11-22, 2003 и Levine & Oren “The first 30 years of p53: growing ever more complex. Nature Rev Cancer,” 9:749-758, 2009, документ полностью включен сюда посредством ссылки). Примерные мутации EGFR включают мутации в экзонах 18-21, которые были идентифицированы у пациентов с раком легких. У больных раком легких идентифицированы мутации EGFR в скДНК (Jia et al. “Prediction of epidermal growth factor receptor mutations in the plasma/pleural effusion to efficacy of gefitinib treatment in advanced non-small cell lung cancer,” J Canc Res Clin Oncol 2010;136:1341-1347, 2010, документ полностью включен сюда посредством ссылки). [741] EGFR promotes cell proliferation and is misregulated in many forms of cancer (Downward J. Targeting RAS signaling pathways in cancer therapy. Nature Rev Cancer 3:11–22, 2003 and Levine & Oren “The first 30 years of p53: growing ever more complex. Nature Rev Cancer,” 9:749–758, 2009, incorporated herein by reference in its entirety). Exemplary EGFR mutations include mutations in exons 18–21, which have been identified in patients with lung cancer. EGFR mutations in cDNA have been identified in patients with lung cancer (Jia et al. “ Prediction of epidermal growth factor receptor mutations in the plasma/pleural effusion to the efficacy of gefitinib treatment in advanced non-small cell lung cancer,” J Canc Res Clin Oncol 2010; 136:1341–1347, 2010, incorporated herein by reference in its entirety).
[742] Примеры полиморфизмов или мутаций, связанных с раком молочной железы, включают LOH на микросателлитах (Kohler et al. ”Levels of plasma circulating cell free nuclear and mitochondrial DNA as potential biomarkers for breast tumors,” Mol Cancer 8:doi:10.1186/1476-4598-8-105, 2009, документ полностью включен сюда посредством ссылки), мутации p53 (такие, как мутации в экзонах 5-8) (Garcia et al.” Extracellular tumor DNA in plasma and overall survival in breast cancer patients,” Genes, Chromosomes & Cancer 45:692-701, 2006, документ полностью включен сюда посредством ссылки), HER2 (Sorensen et al. “Circulating HER2 DNA after trastuzumab treatment predicts survival and response in breast cancer,” Anticancer Res30:2463-2468, 2010, документ полностью включен сюда посредством ссылки), PIK3CA, MED1 и полиморфизмы или мутации GAS6 (Murtaza et al. “Non-invasive analysis of acquired resistance to cancer therapy by sequencing of plasma DNA,” Nature 2013;doi:10.1038/nature12065, 2013, документ полностью включен сюда посредством ссылки). [742] Examples of polymorphisms or mutations associated with breast cancer include LOH on microsatellites (Kohler et al. “ Levels of plasma circulating cell free nuclear and mitochondrial DNA as potential biomarkers for breast tumors,” Mol Cancer 8:doi:10.1186/ 1476-4598-8-105, 2009, incorporated herein by reference in its entirety), p53 mutations (such as mutations in exons 5-8) (Garcia et al.” Extracellular tumor DNA in plasma and overall survival in breast cancer patients, “Genes, Chromosomes & Cancer 45:692-701, 2006, incorporated herein by reference in its entirety), HER2 (Sorensen et al. “ Circulating HER2 DNA after trastuzumab treatment predicts survival and response in breast cancer,” Anticancer Res30:2463-2468 , 2010, document incorporated herein by reference in its entirety), PIK3CA, MED1, and GAS6 polymorphisms or mutations (Murtaza et al. “ Non-invasive analysis of acquired resistance to cancer therapy by sequencing of plasma DNA,” Nature 2013;doi:10.1038/nature12065 , 2013, document incorporated herein by reference in its entirety).
[743] Повышенные уровни скДНК и LOH связаны с уменьшением общей выживаемости и безрецидивной выживаемости. Мутации p53 (экзоны 5-8) связаны с уменьшением общей выживаемости. Снижение уровней HER2 циркулирующей скДНК связано с лучшим ответом на лечение, направленным на HER2, у субъектов с HER2-положительной опухолью молочной железы. Активирующая мутация в PIK3CA, усечение MED1 и мутация сплайсинга в GAS6 приводят к резистентности к лечению. [743] Increased levels of cDNA and LOH are associated with decreased overall survival and disease-free survival. Mutations in p53 (exons 5–8) are associated with decreased overall survival. Reduced levels of circulating HER2 cDNA are associated with better response to HER2-targeted treatments in subjects with HER2-positive breast tumors. Activating mutation in PIK3CA, truncation of MED1, and splicing mutation in GAS6 lead to treatment resistance.
[744] Примерные полиморфизмы или мутации, связанные с колоректальным раком, включают мутации p53, APC, K-ras и тимидилатсинтазы, а также метилирование гена p16. (Wang et al. “Molecular detection of APC, K-ras, and p53 mutations in the serum of colorectal cancer patients as circulating biomarkers,” World J Surg 28:721-726, 2004; Ryan et al. “A prospective study of circulating mutant KRAS2 in the serum of patients with colorectal neoplasia: strong prognostic indicator in postoperative follow up,” Gut 52:101-108, 2003; Lecomte et al. “Detection of free-circulating tumor-associated DNA in plasma of colorectal cancer patients and its association with prognosis,” Int J Cancer 100:542-548, 2002; Schwarzenbach et al. “Molecular analysis of the polymorphisms of thymidylate synthase on cell-free circulating DNA in blood of patients with advanced colorectal carcinoma,” Int J Cancer 127:881-888, 2009, каждый из этих документов полностью включен сюда посредством ссылки). Послеоперационное обнаружение мутаций K-ras в сыворотке крови является надежным предиктором рецидива заболевания. Обнаружение мутаций K-ras и метилирования гена p16 связано с уменьшением выживаемости и увеличением рецидивов заболевания. Обнаружение мутаций K-ras, APC и/или p53 связано с рецидивом и/или метастазами. Полиморфизмы (включая LOH, ОНП, тандемные повторы с переменным числом и делецию) в гене тимидилатсинтазы (мишень химиотерапии на основе фторпиримидина) при использовании скДНК могут быть связаны с ответом на лечение. [744] Exemplary polymorphisms or mutations associated with colorectal cancer include mutations in p53, APC, K-ras, and thymidylate synthase, as well as methylation of the p16 gene. (Wang et al. “ Molecular detection of APC, K-ras, and p53 mutations in the serum of colorectal cancer patients as circulating biomarkers,” World J Surg 28:721-726, 2004; Ryan et al. “ A prospective study of circulating mutant KRAS2 in the serum of patients with colorectal neoplasia: strong prognostic indicator in postoperative follow up,” Gut 52:101-108, 2003; Lecomte et al. “ Detection of free-circulating tumor-associated DNA in plasma of colorectal cancer patients and its association with prognosis,” Int J Cancer 100:542-548, 2002; Schwarzenbach et al. “ Molecular analysis of the polymorphisms of thymidylate synthase on cell-free circulating DNA in the blood of patients with advanced colorectal carcinoma,” Int J Cancer 127:881-888, 2009, each of these documents is incorporated herein by reference in its entirety). Postoperative detection of K-ras mutations in serum is a reliable predictor of disease relapse. Detection of K-ras mutations and p16 gene methylation is associated with decreased survival and increased disease relapse. Detection of K-ras, APC and/or p53 mutations is associated with relapse and/or metastasis. Polymorphisms (including LOH, SNP, variable number tandem repeats, and deletion) in the thymidylate synthase gene (a target of fluoropyrimidine-based chemotherapy) using scDNA may be associated with treatment response.
[745] Примерные полиморфизмы или мутации, связанные с раком легкого (таким, как немелкоклеточный рак легкого включают K-ras (такие как мутации в кодоне 12) и мутации EGFR. Примеры прогностических мутаций включают мутации EGFR (делеция экзона 19 или мутация экзона 21), связанные с увеличением общей выживаемости и выживаемости без прогрессирования, а K-рас мутации (в кодонах 12 и 13) связаны с уменьшением выживаемости без прогрессирования (Jian et al. “Prediction of epidermal growth factor receptor mutations in the plasma/pleural effusion to efficacy of gefitinib treatment in advanced non-small cell lung cancer,” J Canc Res Clin Oncol 136:1341-1347, 2010; Wang et al. “Potential clinical significance of a plasma-based KRAS mutation analysis in patients with advanced non-small cell lung cancer,” Clin Canc Res 16:1324-1330, 2010, каждый из этих документов полностью включен сюда посредством ссылки). Примерные полиморфизмы или мутации, указывающие на ответ на лечение, включают мутации EGFR (делеция экзона 19 или мутация экзона 21), которые улучшают ответ на лечение, и мутации K-ras (кодоны 12 и 13), которые снижают ответ на лечение. Выявлена мутация, придающая устойчивость EFGR. (Murtaza et al. “Non-invasive analysis of acquired resistance to cancer therapy by sequencing of plasma DNA,” Nature doi:10.1038/nature12065, 2013, документ полностью включен сюда посредством ссылки).[745] Exemplary polymorphisms or mutations associated with lung cancer (such as non-small cell lung cancer) include K-ras (such as mutations in codon 12) and EGFR mutations. Examples of prognostic mutations include EGFR mutations (exon 19 deletion or exon 21 mutation) are associated with increased overall survival and progression-free survival, and K-ras mutations (at codons 12 and 13) are associated with decreased progression-free survival (Jian et al. “ Prediction of epidermal growth factor receptor mutations in the plasma/pleural effusion to efficacy of gefitinib treatment in advanced non-small cell lung cancer,” J Canc Res Clin Oncol 136:1341-1347, 2010; Wang et al. “ Potential clinical significance of a plasma-based KRAS mutation analysis in patients with advanced non-small cell lung cancer,” Clin Canc Res 16:1324-1330, 2010, each of which is incorporated herein by reference in its entirety.) Exemplary polymorphisms or mutations indicative of treatment response include EGFR mutations (exon 19 deletion or exon 21 mutation), which improve response to treatment, and K-ras mutations (codons 12 and 13), which reduce response to treatment. A mutation conferring resistance to EFGR has been identified. (Murtaza et al. “ Non-invasive analysis of acquired resistance to cancer therapy by sequencing of plasma DNA,” Nature doi:10.1038/nature12065, 2013, the document is incorporated herein by reference in its entirety).
[746] Примерные полиморфизмы или мутации, связанные с меланомой (такой, как увельная меланома) включают таковые в GNAQ, GNA11, BRAF и p53. Примерные мутации GNAQ и GNA11 включают мутации R183 и Q209. Мутации Q209 в GNAQ или GNA11 связаны с метастазами в кости. Мутации BRAF V600E могут быть обнаружены у пациентов с метастатической/распространенной меланомой. BRAF V600E является индикатором инвазивной меланомы. Наличие мутации BRAF V600E после химиотерапии связано с отсутствием ответа на лечение.[746] Exemplary polymorphisms or mutations associated with melanoma (such as ulcerative melanoma) include those in GNAQ, GNA11, BRAF and p53. Exemplary GNAQ and GNA11 mutations include the R183 and Q209 mutations. Q209 mutations in GNAQ or GNA11 are associated with bone metastases. BRAF V600E mutations may be found in patients with metastatic/advanced melanoma. BRAF V600E is an indicator of invasive melanoma. The presence of the BRAF V600E mutation after chemotherapy is associated with lack of response to treatment.
[747] Примерные полиморфизмы или мутации, связанные с панкреатическими карциномами, включают таковые в K-ras и p53 (такие, как p53 Ser249). p53 Ser249 также связана с инфекцией гепатитом В и гепатоцеллюлярной карциномой, а также с раком яичников и неходжкинской лимфомой. [747] Exemplary polymorphisms or mutations associated with pancreatic carcinomas include those in K-ras and p53 (such as p53 Ser249). p53 Ser249 is also associated with hepatitis B infection and hepatocellular carcinoma, as well as ovarian cancer and non-Hodgkin's lymphoma.
[748] Даже полиморфизмы или мутации, которые присутствуют в образце с низкой частотой, могут быть обнаружены с помощью способов по настоящему изобретению. Например, полиморфизм или мутацию, которая присутствует с частотой 1 на миллион, можно наблюдать 10 раз, выполнив 10 миллионов считываний секвенирования. При необходимости количество считываний секвенирования может быть изменено в зависимости от желаемого уровня чувствительности. В некоторых вариантах воплощения образец анализируется повторно или другой образец от субъекта анализируется с использованием большего количества считываний секвенирования для повышения чувствительности. Например, если не обнаружено или обнаружено лишь небольшое количество (например, 1, 2, 3, 4 или 5) полиморфизмов или мутаций, связанных с раком или повышенным риском рака, образец повторно анализируется или тестируется другой образец.[748] Even polymorphisms or mutations that are present at low frequency in a sample can be detected using the methods of the present invention. For example, a polymorphism or mutation that is present at a frequency of 1 in a million can be observed 10 times by performing 10 million sequencing reads. If necessary, the number of sequencing reads can be changed depending on the desired level of sensitivity. In some embodiments, the sample is reanalyzed or a different sample from the subject is analyzed using more sequencing reads to increase sensitivity. For example, if no or only a small number (eg, 1, 2, 3, 4, or 5) polymorphisms or mutations associated with cancer or increased risk of cancer are found, the sample is reanalyzed or a different sample is tested.
[749] В некоторых вариантах воплощения для рака или метастатического рака необходимы множественные полиморфизмы или мутации. В таких случаях скрининг на множественные полиморфизмы или мутации улучшает возможность точной диагностики рака или метастатического рака. В некоторых вариантах воплощения, когда субъект имеет подмножество множественных полиморфизмов или мутаций, необходимых для рака или метастатического рака, субъект может быть повторно подвергнут скринингу позже, чтобы увидеть, приобретает ли субъект дополнительные мутации.[749] In some embodiments, multiple polymorphisms or mutations are required for cancer or metastatic cancer. In such cases, screening for multiple polymorphisms or mutations improves the ability to accurately diagnose cancer or metastatic cancer. In some embodiments, when a subject has a subset of multiple polymorphisms or mutations required for cancer or metastatic cancer, the subject may be rescreened at a later date to see if the subject acquires additional mutations.
[750] В некоторых вариантах воплощения, в которых для рака или метастатического рака требуется несколько полиморфизмов или мутаций, можно сравнить частоту каждого полиморфизма или мутации, чтобы увидеть, встречаются ли они с одинаковой частотой. Например, если для рака требуются две мутации (обозначенные «A» и «B»), некоторые клетки не будут иметь ни одной из них, некоторые клетки - A, некоторые - B, а некоторые - A и B. Если A и B наблюдаются с одинаковой частотой, у субъекта более вероятно будет несколько клеток с A и B. Если A и B наблюдаются с разной частотой, у субъекта с большей вероятностью будут разные популяции клеток. [750] In some embodiments in which multiple polymorphisms or mutations are required for a cancer or metastatic cancer, the frequency of each polymorphism or mutation can be compared to see if they occur at the same frequency. For example, if a cancer requires two mutations (labeled "A" and "B"), some cells will have neither of them, some cells will have A, some will have B, and some will have A and B. If A and B are observed with the same frequency, a subject is more likely to have multiple cells with A and B. If A and B are observed at different frequencies, the subject is more likely to have different populations of cells.
[751] В некоторых вариантах воплощения, в которых для рака или метастатического рака требуются множественные полиморфизмы или мутации, количество или идентичность таких полиморфизмов или мутаций, которые присутствуют у субъекта, можно использовать для прогнозирования вероятности или скорости появления у субъекта заболевания или расстройства. В некоторых вариантах воплощения, в которых полиморфизмы или мутации имеют тенденцию происходить в определенном порядке, субъект может периодически тестироваться, чтобы видеть, приобрел ли субъект другие полиморфизмы или мутации. [751] In some embodiments in which multiple polymorphisms or mutations are required for cancer or metastatic cancer, the number or identity of such polymorphisms or mutations that are present in a subject can be used to predict the likelihood or rate of occurrence of the disease or disorder in the subject. In some embodiments, in which polymorphisms or mutations tend to occur in a particular order, the subject may be tested periodically to see if the subject has acquired other polymorphisms or mutations.
[752] В некоторых вариантах воплощения определение наличия или отсутствия множественных полиморфизмов или мутаций (таких как 2, 3, 4, 5, 8, 10, 12, 15 или более) увеличивает чувствительность и/или специфичность определения наличия или отсутствия заболевания или расстройства, такого как рак, или повышенный риск заболевания или расстройства, такого как рак.[752] In some embodiments, determining the presence or absence of multiple polymorphisms or mutations (such as 2, 3, 4, 5, 8, 10, 12, 15 or more) increases the sensitivity and/or specificity of determining the presence or absence of a disease or disorder, such as cancer, or an increased risk of a disease or disorder such as cancer.
[753] В некоторых вариантах воплощения полиморфизм(ы) или мутация(и) обнаруживают прямым способом. В некоторых вариантах воплощения полиморфизм(ы) или мутация(и) обнаруживают непрямым способом путем обнаружения одной или более последовательностей (например, полиморфного локуса, такого, как ОНП), связанных с полиморфизмом или мутацией.[753] In some embodiments, the polymorphism(s) or mutation(s) are detected in a direct manner. In some embodiments, the polymorphism(s) or mutation(s) are detected indirectly by detecting one or more sequences (eg, a polymorphic locus, such as an SNP) associated with the polymorphism or mutation.
[754] Примерные изменения нуклеиновых кислот [754] Approximate nucleic acid changes
[755] В некоторых вариантах воплощения имеется изменение целостности РНК или ДНК (например, изменение размера фрагментированных скРНК, или скДНК, или изменение нуклеосомного состава), которое связано с заболеванием или расстройством, таким как рак, или повышенным риском заболевания или расстройства, такого как рак. В некоторых вариантах воплощения имеется изменение в структуре метилирования РНК или ДНК, связанное с заболеванием или расстройством, таким как рак, или повышенным риском заболевания или расстройства, такого как рак (например, гиперметилирование генов-супрессоров опухолей). Например, предполагается, что метилирование CpG-островков в промоторной области генов-супрессоров опухолей запускает локальный сайленсинг генов. Аберрантное метилирование гена-супрессора опухоли p16 происходит у субъектов с раком печени, легких и молочной железы. Другие часто метилированные гены-супрессоры опухолей, включая APC, белок 1A семейства ассоциативных доменов Ras (RASSF1A), глутатион-S-трансферазу P1 (GSTP1) и DAPK, были обнаружены при различных типах рака, например, при карциноме носоглотки, колоректальном раке, раке легкого, раке пищевода, раке простаты, раке мочевого пузыря, меланомe и остром лейкозе. Метилирование определенных генов-супрессоров опухолей, таких как p16, было описано как раннее событие в формировании рака и, таким образом, полезно для раннего скрининга рака. [755] In some embodiments, there is a change in RNA or DNA integrity (e.g., a change in the size of fragmented scRNA or scDNA, or a change in nucleosomal composition) that is associated with a disease or disorder, such as cancer, or an increased risk of a disease or disorder, such as cancer. In some embodiments, there is a change in RNA or DNA methylation pattern associated with a disease or disorder, such as cancer, or an increased risk of a disease or disorder, such as cancer (eg, hypermethylation of tumor suppressor genes). For example, methylation of CpG islands in the promoter region of tumor suppressor genes has been proposed to trigger local gene silencing. Aberrant methylation of the p16 tumor suppressor gene occurs in subjects with liver, lung, and breast cancer. Other frequently methylated tumor suppressor genes, including APC, Ras association domain family protein 1A (RASSF1A), glutathione S-transferase P1 (GSTP1), and DAPK, have been found in various types of cancer, such as nasopharyngeal carcinoma, colorectal cancer, lung, esophageal cancer, prostate cancer, bladder cancer, melanoma and acute leukemia. Methylation of certain tumor suppressor genes such as p16 has been described as an early event in cancer formation and is thus useful for early cancer screening.
[756] В некоторых вариантах воплощения для определения паттерна метилирования используется бисульфитная конверсия или стратегия, не основанная на бисульфите, с использованием переваривания чувствительным к метилированию рестрикционным ферментом (Hung et al., J Clin Pathol 62:308-313, 2009, документ полностью включен сюда посредством ссылки). При бисульфитной конверсии метилированные цитозины остаются цитозинами, в то время как неметилированные цитозины превращаются в урацилы. Чувствительные к метилированию рестрикционные ферменты (например, BstUI) расщепляют неметилированные последовательности ДНК в определенных сайтах узнавания (например, 5´-CG против CG-3´ для BstUI), в то время как метилированные последовательности остаются нетронутыми. В некоторых вариантах воплощения обнаруживают интактные метилированные последовательности. В некоторых вариантах воплощения используются праймеры типа «петля на стебле» для селективной амплификации неметилированных фрагментов, расщепленных рестрикционным ферментом, без совместной амплификации метилированной ДНК, не расщепленной ферментом.[756] In some embodiments, bisulfite conversion or a non-bisulfite-based strategy using methylation-sensitive restriction enzyme digestion is used to determine the methylation pattern (Hung et al., J Clin Pathol 62:308-313, 2009, entire document incorporated here via link). In bisulfite conversion, methylated cytosines remain cytosines, while unmethylated cytosines are converted to uracils. Methylation-sensitive restriction enzymes (e.g., BstUI) cleave unmethylated DNA sequences at specific recognition sites (e.g., 5´-CG vs. CG-3´ for BstUI), while methylated sequences remain intact. In some embodiments, intact methylated sequences are detected. In some embodiments, stem-loop primers are used to selectively amplify unmethylated restriction enzyme-digested fragments without co-amplifying methylated, non-enzymatically digested DNA.
[757] Примерные измерения в сплайсинге мРНК [757] Approximate measurements in mRNA splicing
[758] В некоторых вариантах воплощения изменение в сплайсинге мРНК связано с заболеванием или расстройством, таким как рак, или повышенным риском заболевания или расстройства, такого как рак. В некоторых вариантах воплощения изменение в сплайсинге мРНК происходит в одной или более из следующих нуклеиновых кислот, связанных с раком или с повышенным риском рака: DNMT3B, BRCA1, KLF6, Ron или Gemin5. В некоторых вариантах воплощения обнаруженный вариант сплайсинга мРНК связан с заболеванием или расстройством, таким как рак. В некоторых вариантах воплощения здоровыми клетками (такими как незлокачественные клетки) продуцируются множественные варианты сплайсинга мРНК, но изменение относительных количеств вариантов сплайсинга мРНК связано с заболеванием или расстройством, таким как рак. В некоторых вариантах воплощения изменение в сплайсинге мРНК происходит из-за изменения последовательности мРНК (например, мутации в сайте сплайсинга), изменения уровней факторов сплайсинга, изменения количества доступного фактора сплайсинга (например, уменьшения количества доступного фактора сплайсинга из-за связывания фактора сплайсинга с повтором), изменения регуляции сплайсинга или микроокружения опухоли. [758] In some embodiments, a change in mRNA splicing is associated with a disease or disorder, such as cancer, or an increased risk of a disease or disorder, such as cancer. In some embodiments, the change in mRNA splicing occurs in one or more of the following nucleic acids associated with cancer or increased risk of cancer: DNMT3B, BRCA1, KLF6, Ron, or Gemin5. In some embodiments, the detected mRNA splice variant is associated with a disease or disorder, such as cancer. In some embodiments, healthy cells (such as non-cancerous cells) produce multiple mRNA splice variants, but a change in the relative amounts of mRNA splice variants is associated with a disease or disorder, such as cancer. In some embodiments, the change in mRNA splicing occurs due to a change in the mRNA sequence (e.g., a mutation at a splice site), a change in the levels of splicing factors, a change in the amount of splicing factor available (e.g., a decrease in the amount of splicing factor available due to binding of the splicing factor to a repeat ), changes in splicing regulation or tumor microenvironment.
[759] Реакция сплайсинга осуществляется комплексом из нескольких белков и РНК, который называется сплайсосомой (Fackenthal1 and Godley, Disease Models & Mechanisms 1: 37-42, 2008, doi:10.1242/dmm.000331, документ полностью включен сюда посредством ссылки). Сплайсосома распознает границы интрон-экзон и удаляет промежуточные интроны посредством двух реакций переэтерификации, которые приводят к лигированию двух соседних экзонов. Точность этой реакции должна быть безупречной, потому что, если лигирование происходит неправильно, нормальный потенциал кодирования белка может быть нарушен. Например, в случаях, когда пропуск экзона сохраняет рамку считывания триплетных кодонов, определяющую идентичность и порядок аминокислот во время трансляции, альтернативно сплайсированная мРНК может указывать на белок, в котором отсутствуют важные аминокислотные остатки. Чаще всего пропуск экзона нарушает трансляционную рамку считывания, что приводит к преждевременным стоп-кодонам. Эти мРНК обычно деградируют по меньшей мере на 90% в результате процесса, известного как нонсенс-опосредованная деградация мРНК, что снижает вероятность того, что такие дефектные сообщения будут накапливаться с образованием усеченных белковых продуктов. Если неправильно сплайсированные мРНК избегают этого пути, то образуются усеченные, мутированные или нестабильные белки. [759] The splicing reaction is carried out by a complex of several proteins and RNA called the spliceosome (Fackenthal1 and Godley, Disease Models & Mechanisms 1: 37–42, 2008, doi:10.1242/dmm.000331, incorporated herein by reference in its entirety). The spliceosome recognizes intron-exon boundaries and removes intervening introns through two transesterification reactions that result in the ligation of two adjacent exons. The precision of this reaction must be perfect because if ligation occurs incorrectly, the normal protein coding potential may be disrupted. For example, in cases where exon skipping preserves the triplet codon reading frame that determines the identity and order of amino acids during translation, the alternatively spliced mRNA may indicate a protein that is missing important amino acid residues. Most often, exon skipping disrupts the translational reading frame, resulting in premature stop codons. These mRNAs are typically degraded by at least 90% through a process known as nonsense-mediated mRNA degradation, making it less likely that such defective messages will accumulate to form truncated protein products. If misspliced mRNAs escape this pathway, truncated, mutated, or unstable proteins are produced.
[760] Альтернативный сплайсинг представляет собой способ экспрессии нескольких или многих различных транскриптов одной и той же геномной ДНК и является результатом включения подмножества доступных экзонов для конкретного белка. При исключении одного или более экзонов определенные белковые домены могут быть потеряны из кодируемого белка, что может привести к потере или усилению функции белка. Описано несколько типов альтернативного сплайсинга: пропуск экзона; альтернативные 5' или 3' сайты сплайсинга; взаимоисключающие экзоны; и, что гораздо реже, удержание интрона. Другие сравнивали количество альтернативного сплайсинга в раковых клетках по сравнению с нормальными клетками с использованием биоинформационного подхода и определили, что у раковых заболеваний уровень альтернативного сплайсинга ниже, чем у нормальных клеток. Кроме того, распределение типов альтернативных событий сплайсинга отличалось в раковых и нормальных клетках. Раковые клетки демонстрировали меньший пропуск экзонов, но больший выбор альтернативных 5'- и 3'-сайтов сплайсинга и удержание интронов, чем нормальные клетки. Когда был исследован феномен экзонизации (использование последовательностей в качестве экзонов, которые преимущественно используются другими тканями в качестве интронов), гены, связанные с экзонизацией в раковых клетках, были преимущественно связаны с процессингом мРНК, что указывает на прямую связь между раковыми клетками и генерацией аберрантных форм сплайсинга мРНК.[760] Alternative splicing is a method of expressing several or many different transcripts from the same genomic DNA and results from the inclusion of a subset of available exons for a particular protein. By deleting one or more exons, certain protein domains may be lost from the encoded protein, which may result in loss or gain of protein function. Several types of alternative splicing have been described: exon skipping; alternative 5' or 3' splice sites; mutually exclusive exons; and, much less commonly, intron retention. Others have compared the amount of alternative splicing in cancer cells compared to normal cells using a bioinformatics approach and determined that cancers have lower levels of alternative splicing than normal cells. In addition, the distribution of types of alternative splicing events differed in cancer and normal cells. Cancer cells showed less exon skipping, but greater selection of alternative 5' and 3' splice sites and intron retention than normal cells. When the phenomenon of exonization (the use of sequences as exons that are preferentially used by other tissues as introns) was investigated, genes associated with exonization in cancer cells were predominantly associated with mRNA processing, indicating a direct link between cancer cells and the generation of aberrant forms mRNA splicing.
[761] Примерные изменения в уровнях ДНК или РНК [761] Approximate changes in DNA or RNA levels
[762] В некоторых вариантах воплощения наблюдается изменение общего количества или концентрации одного или более типов ДНК (такой, как скДНК, скмДНК, скяДНК, клеточная ДНК или митохондриальная ДНК) или РНК (скРНК, клеточная РНК, цитоплазматическая РНК, кодирующая цитоплазматическая РНК, некодирующая цитоплазматическая РНК, мРНК, миРНК, митохондриальная РНК, рРНК или тРНК). В некоторых вариантах воплощения существует изменение количества или концентрации одной или более конкретных молекул ДНК (такой, как скДНК, скмДНК, скяДНК, клеточная ДНК или митохондриальная ДНК) или РНК (скРНК, клеточная РНК, цитоплазматическая РНК, кодирующая цитоплазматическая РНК, некодирующая цитоплазматическая РНК, мРНК, миРНК, митохондриальная РНК, рРНК или тРНК). В некоторых вариантах воплощения один аллель экспрессируется сильнее, чем другой аллель интересующего локуса. Типичные миРНК представляют собой короткие молекулы РНК из 20-22 нуклеотидов, которые регулируют экспрессию гена. В некоторых вариантах воплощения существует изменение транскриптома, такое как изменение идентичности или количества одной или более молекул РНК.[762] In some embodiments, there is a change in the total amount or concentration of one or more types of DNA (such as scDNA, scmDNA, scDNA, cellular DNA, or mitochondrial DNA) or RNA (scRNA, cellular RNA, cytoplasmic RNA, coding cytoplasmic RNA, non-coding cytoplasmic RNA, mRNA, miRNA, mitochondrial RNA, rRNA or tRNA). In some embodiments, there is a change in the amount or concentration of one or more specific molecules of DNA (such as scDNA, scmDNA, scDNA, cellular DNA, or mitochondrial DNA) or RNA (scRNA, cellular RNA, cytoplasmic RNA, coding cytoplasmic RNA, non-coding cytoplasmic RNA, mRNA, miRNA, mitochondrial RNA, rRNA or tRNA). In some embodiments, one allele is expressed more strongly than another allele of the locus of interest. Typical miRNAs are short RNA molecules of 20–22 nucleotides that regulate gene expression. In some embodiments, there is a change in the transcriptome, such as a change in the identity or quantity of one or more RNA molecules.
[763] В некоторых вариантах воплощения увеличение общего количества или концентрации скДНК или скРНК связано с заболеванием или расстройством, таким как рак, или повышенным риском заболевания или расстройства, такого как рак. В некоторых вариантах воплощения общая концентрация типа ДНК (такой, как скДНК, скмДНК, скяДНК, клеточная ДНК или митохондриальная ДНК) или РНК (скРНК, клеточная РНК, цитоплазматическая РНК, кодирующая цитоплазматическая РНК, некодирующая цитоплазматическая РНК, мРНК, миРНК, митохондриальная РНК, рРНК или тРНК) увеличивается по меньшей мере в 2, 3, 4, 5, 6, 7, 8, 9, 10 раз или более по сравнению с общей концентрацией этого типа ДНК или РНК у здоровых (например, нераковых) субъектов. В некоторых вариантах воплощения общая концентрация скДНК от 75 до 100 нг/мл, от 100 до 150 нг/мл, от 150 до 200 нг/мл, от 200 до 300 нг/мл, от 300 до 400 нг/мг, от 400 до 600 нг/мл, от 600 до 800 нг/мл, от 800 до 1000 нг/мл включительно, или общая концентрация скДНК более 100 нг/мл, например, более 200, 300, 400, 500, 600, 700, 800, 900 или 1000 нг/мл указывает на рак, повышенный риск рака, повышенный риск того, что опухоль будет злокачественной, а не доброкачественной, снижение вероятности перехода рака в стадию ремиссии или худший прогноз для рака. В некоторых вариантах воплощения количество типа ДНК (такой, как скДНК, скмДНК, скяДНК, клеточная ДНК или митохондриальная ДНК) или РНК (скРНК, клеточная РНК, цитоплазматическая РНК, кодирующая цитоплазматическая РНК, некодирующая цитоплазматическая РНК, мРНК, миРНК, митохондриальная РНК, рРНК или тРНК), имеющей один или более полиморфизмов/мутаций (таких как делеции или дупликации), связанных с заболеванием или расстройством, таким как рак, или повышенным риском заболевания или расстройства, такого как рак, составляет по меньшей мере 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 14, 16, 18, 20 или 25% от общего количества этого типа ДНК или РНК. В некоторых вариантах воплощения по меньшей мере 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 14, 16, 18, 20 или 25% от общего количества этого типа ДНК (такой, как скДНК, скмДНК, скяДНК, клеточная ДНК или митохондриальная ДНК) или РНК (скРНК, клеточная РНК, цитоплазматическая РНК, кодирующая цитоплазматическая РНК, некодирующая цитоплазматическая РНК, мРНК, миРНК, митохондриальная РНК, рРНК или тРНК) имеет определенный полиморфизм или мутацию (например, делецию или дупликацию), связанную с заболеванием или расстройством, таким как рак, или повышенным риском заболевания или расстройства, такого как рак. [763] In some embodiments, an increase in the total amount or concentration of scDNA or scRNA is associated with a disease or disorder, such as cancer, or an increased risk of a disease or disorder, such as cancer. In some embodiments, the total concentration of a type of DNA (such as scDNA, scmDNA, scDNA, cellular DNA, or mitochondrial DNA) or RNA (scRNA, cellular RNA, cytoplasmic RNA, coding cytoplasmic RNA, non-coding cytoplasmic RNA, mRNA, miRNA, mitochondrial RNA, rRNA or tRNA) increases by at least 2, 3, 4, 5, 6, 7, 8, 9, 10 times or more compared to the total concentration of that type of DNA or RNA in healthy (eg, non-cancerous) subjects. In some embodiments, the total scDNA concentration is from 75 to 100 ng/mL, from 100 to 150 ng/mL, from 150 to 200 ng/mL, from 200 to 300 ng/mL, from 300 to 400 ng/mg, from 400 to 600 ng/ml, 600 to 800 ng/ml, 800 to 1000 ng/ml inclusive, or total cDNA concentration greater than 100 ng/ml, e.g. greater than 200, 300, 400, 500, 600, 700, 800, 900 or 1000 ng/ml indicates cancer, increased risk of cancer, increased risk of the tumor being cancerous rather than benign, decreased likelihood of the cancer going into remission, or a worse prognosis for the cancer. In some embodiments, the amount of a type of DNA (such as scDNA, scmDNA, scDNA, cellular DNA, or mitochondrial DNA) or RNA (scRNA, cellular RNA, cytoplasmic RNA, coding cytoplasmic RNA, non-coding cytoplasmic RNA, mRNA, miRNA, mitochondrial RNA, rRNA or tRNA) having one or more polymorphisms/mutations (such as deletions or duplications) associated with a disease or disorder, such as cancer, or an increased risk of a disease or disorder, such as cancer, is at least 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 14, 16, 18, 20 or 25% of the total amount of that type of DNA or RNA. In some embodiments, at least 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 14, 16, 18, 20, or 25% of the total amount of that type of DNA (such as cDNA , scmDNA, scDNA, cellular DNA or mitochondrial DNA) or RNA (scRNA, cellular RNA, cytoplasmic RNA, coding cytoplasmic RNA, non-coding cytoplasmic RNA, mRNA, miRNA, mitochondrial RNA, rRNA or tRNA) has a specific polymorphism or mutation (eg, deletion or duplication) associated with a disease or disorder such as cancer, or an increased risk of a disease or disorder such as cancer.
[764] В некоторых вариантах воплощения скДНК инкапсулирована. В некоторых вариантах воплощения скДНК не инкапсулирована. [764] In some embodiments, the scDNA is encapsulated. In some embodiments, the scDNA is not encapsulated.
[765] В некоторых вариантах воплощения определяется доля опухолевой ДНК от общей ДНК (например, доля опухолевой скДНК от общего количества скДНК или доля опухолевой скДНК с определенной мутацией от общего количества скДНК). В некоторых вариантах воплощения фракция опухолевой ДНК может быть определена для множества мутаций, где мутации могут быть однонуклеотидными вариантами, вариантами числа копий, дифференциальным метилированием или их комбинациями. В некоторых вариантах воплощения средняя фракция опухоли, рассчитанная для одной мутации или набора мутаций с наивысшей рассчитанной фракцией опухоли, принимается за фактическую фракцию опухоли в образце. В некоторых вариантах воплощения средняя фракция опухоли, рассчитанная для всех мутаций, принимается за фактическую фракцию опухоли в образце. В некоторых вариантах воплощения эта фракция опухоли используется для определения стадии рака (поскольку более высокие фракции опухоли могут быть связаны с более поздними стадиями рака). В некоторых вариантах воплощения фракция опухоли используется для определения размера рака, поскольку более крупные опухоли могут коррелировать с фракцией ДНК опухоли в плазме. В некоторых вариантах воплощения фракция опухоли используется для определения размера доли опухоли, пораженной одной или множеством мутаций, поскольку может существовать корреляция между измеренной фракцией опухоли в образце плазмы и размером ткани с данной мутацией(ями). Например, размер ткани с данной мутацией(ями) может быть скоррелирован с фракцией опухоли ДНК, которая может быть рассчитана с нацеливанием на эту конкретную мутацию(ии).[765] In some embodiments, the proportion of tumor DNA out of total DNA is determined (eg, the proportion of tumor cDNA out of total cDNA, or the proportion of tumor cDNA with a particular mutation out of total cDNA). In some embodiments, the tumor DNA fraction can be determined for a plurality of mutations, where the mutations can be single nucleotide variants, copy number variants, differential methylation, or combinations thereof. In some embodiments, the average tumor fraction calculated for the single mutation or set of mutations with the highest calculated tumor fraction is taken to be the actual tumor fraction in the sample. In some embodiments, the average tumor fraction calculated for all mutations is taken to be the actual tumor fraction in the sample. In some embodiments, this tumor fraction is used to determine the stage of the cancer (since higher tumor fractions may be associated with more advanced stages of cancer). In some embodiments, the tumor fraction is used to determine the size of the cancer, since larger tumors may correlate with the tumor DNA fraction in the plasma. In some embodiments, the tumor fraction is used to determine the size of the tumor fraction affected by one or multiple mutations, since there may be a correlation between the measured tumor fraction in the plasma sample and the size of the tissue with the given mutation(s). For example, the size of tissue with a given mutation(s) can be correlated with the tumor DNA fraction, which can be calculated to target those specific mutation(s).
[766] Примерные базы данных [766] Sample Databases
[767] В изобретении также представлены базы данных, содержащие один или более результатов способа по изобретению. Например, база данных может включать записи с любой из следующей информации для одного или более субъектов: любые выявленные полиморфизмы/мутации (например, ВЧК), любая известная ассоциация полиморфизмов/мутаций с заболеванием или расстройством или повышенный риск заболевания или нарушения, влияние полиморфизмов/мутаций на экспрессию или уровень активности кодируемой мРНК или белка, фракция ДНК, РНК или клеток, связанных с заболеванием или расстройством (например, ДНК, РНК или клетки, имеющие полиморфизм/мутацию, связанные с заболеванием или расстройством) из общей ДНК, РНК или клеток в образце, источник образца, используемый для идентификации полиморфизмов/мутаций (например, образец крови или образец из конкретной ткани), количество пораженных клеток, результаты последующего повторения теста (например, повторение теста для отслеживания прогрессирования или ремиссии заболевания или расстройства), результаты других тестов на заболевание или расстройство, тип заболевания или расстройства, с которым у субъекта был поставлен диагноз, назначенное лечение(я), ответ на такое лечение(я), побочные эффекты такого лечения(й), симптомы (такие как симптомы, связанные с заболеванием или расстройством), продолжительность и количество ремиссий, продолжительность выживания (например, продолжительность времени от первоначального теста до смерти или продолжительность времени от постановки диагноза до смерти), причина смерти, и их комбинации. [767] The invention also provides databases containing one or more results of the method of the invention. For example, the database may include records with any of the following information for one or more subjects: any identified polymorphisms/mutations (eg, ICH), any known association of polymorphisms/mutations with a disease or disorder or increased risk of a disease or disorder, impact of polymorphisms/mutations on the expression or activity level of the encoded mRNA or protein, the fraction of DNA, RNA or cells associated with a disease or disorder (for example, DNA, RNA or cells having a polymorphism/mutation associated with a disease or disorder) from the total DNA, RNA or cells in sample, the source of the sample used to identify polymorphisms/mutations (for example, a blood sample or a sample from a specific tissue), the number of cells affected, the results of a subsequent repeat of the test (for example, a repeat of the test to monitor the progression or remission of a disease or disorder), results of other tests on disease or disorder, type of disease or disorder with which the subject has been diagnosed, treatment(s) prescribed, response to such treatment(s), side effects of such treatment(s), symptoms (such as symptoms associated with the disease or disorder ), duration and number of remissions, duration of survival (eg, length of time from initial test to death or length of time from diagnosis to death), cause of death, and combinations thereof.
[768] В некоторых вариантах воплощения база данных включает записи с любой из следующей информации для одного или более субъектов: любые выявленные полиморфизмы/мутации, любая известная ассоциация полиморфизмов/мутаций с раком или повышенным риском рака, влияние полиморфизмов/мутаций на уровень экспрессии или активности кодируемой мРНК или белка, фракция раковой ДНК, РНК или клеток из общей ДНК, РНК или клеток в образце, источник образца, используемого для идентификации полиморфизмов/мутаций (например, образец крови или образец из конкретной ткани), количество раковых клеток, размер опухоли (опухолей), результаты последующего повторения теста (например, повторение теста для мониторинга прогрессирования или ремиссии рака), результаты других тестов на рак, тип рака, который был диагностирован у субъекта, назначенное(ые) лечение(я), ответ на такое(ие) лечение(я), побочные эффекты такого(их) лечения(ий), симптомы (например, симптомы, связанные с раком), продолжительность и количество ремиссий, продолжительность выживания (например, продолжительность времени от первоначального теста до смерти или продолжительность времени от диагноза рака до смерти), причина смерти, и их комбинации. В некоторых вариантах воплощения ответ на лечение включает любое из следующего: уменьшение или стабилизация размера опухоли (например, доброкачественной или раковой опухоли), замедление или предотвращение увеличения размера опухоли, уменьшение или стабилизация количества опухолевых клеток, увеличение времени безрецидивной выживаемости между исчезновением опухоли и ее повторным появлением, предотвращение первоначального или последующего возникновения опухоли, уменьшение или стабилизация неблагоприятного симптома, связанного с опухолью, или их комбинации. В некоторых вариантах воплощения включены результаты одного или более других тестов на заболевание или расстройство, такое как рак, например, результаты скрининговых тестов, медицинской визуализации или микроскопического исследования образца ткани. [768] In some embodiments, the database includes records with any of the following information for one or more subjects: any identified polymorphisms/mutations, any known association of polymorphisms/mutations with cancer or increased risk of cancer, effect of polymorphisms/mutations on expression or activity levels encoded mRNA or protein, fraction of cancer DNA, RNA or cells from the total DNA, RNA or cells in the sample, source of the sample used to identify polymorphisms/mutations (for example, a blood sample or a sample from a specific tissue), number of cancer cells, tumor size ( tumors), results of subsequent repeat test (eg, repeat test to monitor cancer progression or remission), results of other cancer tests, type of cancer that was diagnosed in the subject, treatment(s) prescribed, response to such treatment(s), side effects of such treatment(s), symptoms (eg, cancer-related symptoms), duration and number of remissions, length of survival (eg, length of time from initial test to death or length of time from cancer diagnosis before death), cause of death, and combinations thereof. In some embodiments, the response to treatment includes any of the following: reducing or stabilizing the size of a tumor (e.g., benign or cancerous tumor), slowing or preventing the increase in tumor size, reducing or stabilizing the number of tumor cells, increasing the time of disease-free survival between the disappearance of a tumor and its recurrence occurrence, prevention of initial or subsequent occurrence of a tumor, reduction or stabilization of an adverse symptom associated with a tumor, or a combination thereof. In some embodiments, results of one or more other tests for a disease or disorder, such as cancer, are included, such as results of screening tests, medical imaging, or microscopic examination of a tissue sample.
[769] В одном таком аспекте изобретение предлагает электронную базу данных, включающую по меньшей мере 5, 10, 102, 103, 104, 105, 106, 107, 108 или более записей. В некоторых вариантах воплощения база данных содержит записи для по меньшей мере 5, 10, 102, 103, 104, 105, 106, 107, 108 или более различных субъектов. [769] In one such aspect, the invention provides an electronic database comprising at least 5, 10, 10 2 , 10 3 , 10 4 , 10 5 , 10 6 , 10 7 , 10 8 or more entries. In some embodiments, the database contains records for at least 5, 10, 10 2 , 10 3 , 10 4 , 10 5 , 10 6 , 10 7 , 10 8 or more different entities.
[770] В другом аспекте изобретение относится к компьютеру, включающему базу данных изобретения и пользовательский интерфейс. В некоторых вариантах воплощения пользовательский интерфейс может отображать часть или всю информацию, содержащуюся в одной или более записей. В некоторых вариантах воплощения пользовательский интерфейс способен отображать (i) один или более типов рака, которые были идентифицированы как такие, которые содержат полиморфизм или мутацию, запись о которых хранится в компьютере, (ii) один или более полиморфизмов или мутаций, которые были идентифицированы в конкретном типе рака, запись о котором хранится в компьютере, (iii) информацию о прогнозе для конкретного типа рака или конкретного полиморфизма или мутации, запись о котором хранится в компьютере, (iv) одно или более соединений или других способов лечения, полезных для рака с полиморфизмом или мутацией, запись о которых хранится в компьютере, (v) одно или более соединений, которые модулируют экспрессию или активность мРНК или белка, запись о которых хранится в компьютере и (vi) одну или более молекул или белков мРНК, экспрессия или активность которых модулируется соединением, запись о которых хранится в компьютере. Внутренние компоненты компьютера обычно включают процессор, соединенный с памятью. Внешние компоненты обычно включают в себя запоминающее устройство, например жесткий диск; пользовательские устройства ввода, например клавиатуру и мышь; дисплей, например, монитор; и, необязательно, сетевой канал, способный соединять компьютерную систему с другими компьютерами, чтобы обеспечить совместное использование данных и задачи обработки. Во время работы в память данной системы могут загружаться программы. [770] In another aspect, the invention relates to a computer including a database of the invention and a user interface. In some embodiments, the user interface may display some or all of the information contained in one or more records. In some embodiments, the user interface is capable of displaying (i) one or more cancer types that have been identified as containing a polymorphism or mutation that is stored in the computer, (ii) one or more polymorphisms or mutations that have been identified in a particular type of cancer, a record of which is stored in a computer, (iii) information about the prognosis for a particular type of cancer or a particular polymorphism or mutation, a record of which is stored in a computer, (iv) one or more compounds or other treatments beneficial for cancer with a polymorphism or mutation of which a computer-recorded record is stored, (v) one or more compounds that modulate the expression or activity of an mRNA or protein of which a computer-recorded record is stored, and (vi) one or more mRNA molecules or proteins of which the expression or activity is stored modulated by a connection, a record of which is stored in the computer. The internal components of a computer typically include a processor connected to memory. External components typically include a storage device such as a hard drive; user input devices such as keyboard and mouse; display, such as a monitor; and, optionally, a network link capable of connecting the computer system to other computers to enable sharing of data and processing tasks. During operation, programs can be loaded into the memory of this system.
[771] В другом аспекте изобретение представляет собой реализованный на компьютере процесс, который включает в себя один или более этапов любого из способов изобретения.[771] In another aspect, the invention is a computer-implemented process that includes one or more steps of any of the methods of the invention.
[772] Примерные факторы риска [772] Sample risk factors
[773] В некоторых вариантах воплощения субъект также оценивается на предмет одного или более факторов риска заболевания или расстройства, такого как рак. Примеры факторов риска включают семейный анамнез заболевания или расстройства, образ жизни (например, курение и воздействие канцерогенов) и уровень одного или более гормонов или белков сыворотки (например, альфа-фетопротеина (AFP) при раке печени, карциноэмбрионального антигена (CEA) при колоректальном раке или простатоспецифического антигена (ПСА) при раке простаты). В некоторых вариантах воплощения измеряется и используется размер и/или количество опухолей для определения прогноза субъекта или выбора лечения для субъекта.[773] In some embodiments, the subject is also assessed for one or more risk factors for a disease or disorder, such as cancer. Examples of risk factors include family history of disease or disorder, lifestyle (eg, smoking and exposure to carcinogens), and levels of one or more hormones or serum proteins (eg, alpha-fetoprotein (AFP) for liver cancer, carcinoembryonic antigen (CEA) for colorectal cancer or prostate-specific antigen (PSA) for prostate cancer). In some embodiments, the size and/or number of tumors are measured and used to determine a subject's prognosis or select treatment for the subject.
[774] Примерные способы скрининга [774] Example Screening Methods
[775] При необходимости наличие или отсутствие заболевания или расстройства, такого как рак, можно подтвердить, или заболевание или нарушение, такое как рак, можно классифицировать с использованием любого стандартного способа. Например, заболевание или расстройство, такое как рак, можно обнаружить несколькими способами, включая наличие определенных признаков и симптомов, биопсию опухоли, скрининговые тесты или медицинскую визуализацию (например, маммографию или ультразвук). Как только возможный рак обнаружен, его можно диагностировать с помощью микроскопического исследования образца ткани. В некоторых вариантах воплощения субъект, которому поставлен диагноз, подвергается повторному тестированию с использованием способа по изобретению или известного тестирования на заболевание или расстройство в нескольких временных точках для отслеживания прогрессирования заболевания или расстройства, или же ремиссии или повторного возникновения заболевания или расстройства.[775] If necessary, the presence or absence of a disease or disorder, such as cancer, can be confirmed, or the disease or disorder, such as cancer, can be classified using any standard method. For example, a disease or disorder such as cancer can be detected in several ways, including the presence of certain signs and symptoms, a tumor biopsy, screening tests, or medical imaging (such as mammography or ultrasound). Once a possible cancer is found, it can be diagnosed by microscopic examination of a tissue sample. In some embodiments, a subject who has been diagnosed is retested using a method of the invention or known testing for a disease or disorder at multiple time points to monitor the progression of the disease or disorder, or remission or recurrence of the disease or disorder.
[776] Примерные виды рака [776] Example types of cancer
[777] Примерные виды рака, которые можно диагностировать, прогнозировать, стабилизировать, лечить, предотвращать, для которых ответ на лечение можно прогнозировать или контролировать с помощью любого из способов по изобретению, включают солидные опухоли, карциномы, саркомы, лимфомы, лейкемии, герминогеннные опухоли или бластомы. В различных вариантах воплощения рак представляет собой острый лимфобластный лейкоз, острый миелоидный лейкоз, адренокортикальную карциному, рак, связанный со СПИДом, лимфому, связанную со СПИДом, рак анального канала, рак аппендикса, астроцитому (например, мозжечковая или церебральная астроцитома у детей), базальноклеточную карциному, рак желчных протоков (например, рак внепеченочного желчного протока), рак мочевого пузыря, опухоль кости (например, остеосаркома или злокачественная фиброзная гистиоцитома), глиому ствола головного мозга, рак головного мозга (например, астроцитома мозжечка, астроцитома головного мозга/злокачественная глиома, эпендимома, медуллобластома, супратенторильные примитивные нейроэктодермальные опухоли, или глиома зрительного пути/гипоталамуса), глиобластому, рак молочной желехы, аденому или карциноид бронхов, лимфому Беркитта, карциноидную опухоль (например, карциноидная опухоль у детей или карциноидная опухоль желудочно-кишечного тракта), карциному, лимфому центральной нервной системы, астроцитому мозжечка или злокачественная глиому (например, астроцитома мозжечка у детей или злокачественная глиома), рак шейки матки, педиатрический рак, хронический лимфоцитарный лейкоз, хроническую миелогенную лейкемию, хронические миелопролиферативные расстройства, рак толстой кишки, кожную Т-клеточную лимфому, десмопластическую мелкокруглоклеточную опухоль, рак эндометрия, эпендимому, рак пищевода, саркому Юинга, опухоль в семействе опухолей Юинга, экстракраниальную герминогенную опухоль (например, экстракраниальная герминогенная опухоль в детском возрасте), внегонадную герминогенную опухоль, рак глаза (например, внутриглазная меланома или ретинобластомный рак глаза), рак желчного пузыря, рак желудка, карциноидную опухоль желудочно-кишечного тракта, стромальную опухоль желудочно-кишечного тракта, герминогенную опухоль (например, экстракраниальная, внегонадная или овариальная герминогенная опухоль), гестационную трофобластическую опухоль, глиому (например, глиома ствола мозга, детская церебральная астроцитома или детская глиома зрительного пути/гипоталамическая глиома), карциноид желудка, волосатоклеточный лейкоз, рак головы и шеи, рак сердца, гепатоцеллюлярный (печеночный) рак, лимфому Ходжкина, гипофарингеальный рак, глиому гипоталамического и зрительного путей (например, детская глиома зрительного пути), карциному островковых клеток (например, эндокринная карцинома или карцинома островковых клеток поджелудочной железы), саркому Капоши, рак почки, рак гортани, лейкоз (например, острый лимфобластный, острый миелоидный, хронический лимфоцитарный, хронический миелогенный или волосатоклеточный лейкоз), рак губы или полости рта, липосаркому, рак печени (например, немелкоклеточный или мелкоклеточный рак), рак легкого, лимфому (например, связанная со СПИДом, Беркитта, кожная Т-клеточная лимфома, лимфома Ходжкина, неходжкинская лимфома или лимфома центральной нервной системы), макроглобулинемию (например, макроглобулинемия Вальденстрема, злокачественная фиброзная гистиоцитома кости или остеосаркома, медуллобластома (например, медуллобластома у детей), меланому, карциному из клеток Меркеля, мезотелиому (например, мезотелиома взрослых или детей), метастатический плоскоклеточный рак шеи неизвестнгго происхождения, рак ротовой полости, синдром множественной эндокринной неоплазии (например, синдром множественной эндокринной неоплазии в детском возрасте), множественную миелому или новообразование плазматических клеток, грибовидный микоз, миелодиспластический синдром, миелодиспластическое или миелопролиферативное заболевание, миелогенный лейкоз (такой как хронический миелогенный лейкоз), миелоидный лейкоз (например, острый миелоидный лейкоз у взрослых или острый миелоидный лейкоз у детей), миелопролиферативное расстройство (такое, как например, хроническое миелопролиферативное расстройство), рак носовой полости или придаточных пазух носа, рак носоглотки, нейробластому, рак полости рта, рак ротоглотки, остеосаркому или злокачественную фиброзную гистиоцитому кости, рак яичников, эпителиальный рак яичников, герминогенную опухоль яичников, опухоль яичников низкой злокачественности, рак поджелудочной железы (такой, как рак островковых клеток поджелудочной железы), рак придаточных пазух носа или полости носа, рак паращитовидной железы, рак полового члена, рак глотки, феохромоцитому, астроцитому пинеальной железы, герминому пинеальной железы, пинеобластому или супратенториальную примитивную нейроэктодермальную опухоль (например, детская пинеобластома или супратенториальная примитивная нейроэктодермальная опухоль), аденому гипофиза, неоплазию плазматических клеток, плевролегочную бластому, первичную лимфому центральной нервной системы, рак, рак прямой кишки, почечно-клеточную карциному или рак почечной лоханки (такой, как рак лоханки или переходно-клеточный рак мочеточника), ретинобластому, рабдомиосаркому (например, рабдомиосаркома в детском возрасте), рак слюнных желез, саркому (например, саркома из семейства опухолей Юинга, Капоши, мягких тканей или саркома матки), синдром Сезари, рак кожи (например, немеланомный рак, меланома или рак кожи из клеток Мергкеля), рак тонкой кишки, плоскоклеточную карциному, супратенториальную примитивную нейроэктодермальную опухоль (например, детская супратенториальная примитивная нейроэктодермальная опухоль), Т-клеточную лимфому (например, кожная Т-клеточная лимфома), рак яичек, рак горла, тимому (например, детская тимома), тимому или карциному тимуса, рак щитовидной железы (например, детский рак щитовидной железы), трофобластическую опухоль (например, гестационная трофобластическая опухоль), карциному с неизвестной первичной локализацией (например, карцинома с неизвестной первичной локализацией у взрослых или детей), рак уретры (например, рак эндометрия матки), саркому матки, рак влагалища, глиому зрительного пути или глиому гипоталамуса (например, глиома зрительного пути/гипоталамуса у детей), рак вульвы, макроглобулинемию Вальденстрема или опухоль Вильмса (например, опухоль Вильмса у детей). В различных вариантах воплощения рак метастазировал или не метастазировал. [777] Exemplary cancers that can be diagnosed, predicted, stabilized, treated, prevented, and for which response to treatment can be predicted or monitored using any of the methods of the invention include solid tumors, carcinomas, sarcomas, lymphomas, leukemias, germ cell tumors or blastoma. In various embodiments, the cancer is acute lymphoblastic leukemia, acute myeloid leukemia, adrenocortical carcinoma, AIDS-related cancer, AIDS-related lymphoma, anal cancer, appendiceal cancer, astrocytoma (eg, cerebellar or cerebral astrocytoma in children), basal cell carcinoma, bile duct cancer (eg, extrahepatic bile duct cancer), bladder cancer, bone tumor (eg, osteosarcoma or malignant fibrous histiocytoma), brainstem glioma, brain cancer (eg, cerebellar astrocytoma, cerebral astrocytoma/malignant glioma , ependymoma, medulloblastoma, supratentorial primitive neuroectodermal tumors, or optic pathway/hypothalamic glioma), glioblastoma, breast cancer, bronchial adenoma or carcinoid, Burkitt's lymphoma, carcinoid tumor (eg, childhood carcinoid tumor or gastrointestinal carcinoid tumor), carcinoma, central nervous system lymphoma, cerebellar astrocytoma or malignant glioma (eg, pediatric cerebellar astrocytoma or malignant glioma), cervical cancer, pediatric cancer, chronic lymphocytic leukemia, chronic myelogenous leukemia, chronic myeloproliferative disorders, colon cancer, cutaneous T- cell lymphoma, desmoplastic small round cell tumor, endometrial cancer, ependymoma, esophageal cancer, Ewing's sarcoma, tumor in the Ewing tumor family, extracranial germ cell tumor (eg, extracranial germ cell tumor of childhood), extragonadal germ cell tumor, eye cancer (eg, intraocular melanoma or retinoblastoma ocular cancer), gallbladder cancer, gastric cancer, gastrointestinal carcinoid tumor, gastrointestinal stromal tumor, germ cell tumor (eg, extracranial, extragonadal, or ovarian germ cell tumor), gestational trophoblastic tumor, glioma (eg, truncal glioma brain, childhood cerebral astrocytoma or childhood optic pathway glioma/hypothalamic glioma), gastric carcinoid, hairy cell leukemia, head and neck cancer, heart cancer, hepatocellular (liver) cancer, Hodgkin's lymphoma, hypopharyngeal cancer, hypothalamic and optic pathway glioma (eg, pediatric optic pathway glioma), islet cell carcinoma (eg, endocrine carcinoma or pancreatic islet cell carcinoma), Kaposi's sarcoma, kidney cancer, laryngeal cancer, leukemia (eg, acute lymphoblastic, acute myeloid, chronic lymphocytic, chronic myelogenous or hairy cell leukemia), cancer of the lip or mouth, liposarcoma, liver cancer (eg, non-small cell or small cell cancer), lung cancer, lymphoma (eg, AIDS-related, Burkitt's, cutaneous T-cell lymphoma, Hodgkin's lymphoma, non-Hodgkin's lymphoma, or central nervous system lymphoma), macroglobulinemia (eg, Waldenström's macroglobulinemia, malignant fibrous histiocytoma of bone or osteosarcoma, medulloblastoma (eg, childhood medulloblastoma), melanoma, Merkel cell carcinoma, mesothelioma (eg, adult or pediatric mesothelioma), metastatic squamous cell carcinoma of the neck of unknown origin, oral cancer , multiple endocrine neoplasia syndrome (eg, multiple endocrine neoplasia syndrome of childhood), multiple myeloma or plasma cell neoplasm, mycosis fungoides, myelodysplastic syndrome, myelodysplastic or myeloproliferative disease, myelogenous leukemia (such as chronic myelogenous leukemia), myeloid leukemia (eg, acute myeloid leukemia in adults or acute myeloid leukemia in children), a myeloproliferative disorder (such as chronic myeloproliferative disorder), cancer of the nasal cavity or paranasal sinuses, cancer of the nasopharynx, neuroblastoma, cancer of the oral cavity, cancer of the oropharynx, osteosarcoma or malignant fibrous bone histiocytoma, ovarian cancer, epithelial ovarian cancer, ovarian germ cell tumor, low-grade ovarian tumor, pancreatic cancer (such as pancreatic islet cell cancer), cancer of the paranasal sinuses or nasal cavity, parathyroid cancer, penile cancer, cancer pharynx, pheochromocytoma, pineal astrocytoma, pineal germinoma, pineoblastoma or supratentorial primitive neuroectodermal tumor (eg, infantile pineoblastoma or supratentorial primitive neuroectodermal tumor), pituitary adenoma, plasma cell neoplasia, pleuropulmonary blastoma, primary central nervous system lymphoma, cancer, rectal cancer colon, renal cell carcinoma or cancer of the renal pelvis (such as renal pelvis cancer or transitional cell carcinoma of the ureter), retinoblastoma, rhabdomyosarcoma (eg, childhood rhabdomyosarcoma), salivary gland cancer, sarcoma (eg, sarcoma of the Ewing tumor family, Kaposi, soft tissue, or uterine sarcoma), Sézary syndrome, skin cancer (eg, nonmelanoma, melanoma, or Mergkel cell skin cancer), small bowel cancer, squamous cell carcinoma, supratentorial primitive neuroectodermal tumor (eg, childhood supratentorial primitive neuroectodermal tumor), T-cell lymphoma (eg, cutaneous T-cell lymphoma), testicular cancer, throat cancer, thymoma (eg, childhood thymoma), thymoma or carcinoma of the thymus, thyroid cancer (eg, childhood thyroid cancer), trophoblastic tumor (eg, gestational trophoblastic tumor), carcinoma of unknown primary site (eg, carcinoma of unknown primary site in adults or children), urethral cancer (eg, endometrial cancer of the uterus), uterine sarcoma, vaginal cancer, optic pathway glioma, or hypothalamic glioma (eg, glioma optic pathway/hypothalamus in children), vulvar cancer, Waldenström's macroglobulinemia, or Wilms' tumor (eg, Wilms' tumor in children). In various embodiments, the cancer has metastasized or not metastasized.
[778] Рак может быть или не быть связанным с гормонами или зависимым от гормонов раком (например, эстрогенный или андрогенный рак). Доброкачественные опухоли или злокачественные опухоли можно диагностировать, прогнозировать, стабилизировать, лечить или предотвращать с использованием способов и/или композиций по настоящему изобретению.[778] The cancer may or may not be hormone-related or hormone-dependent cancer (eg, estrogen or androgen cancer). Benign tumors or malignant tumors can be diagnosed, prognosis, stabilized, treated or prevented using the methods and/or compositions of the present invention.
[779] В некоторых вариантах воплощения у субъекта имеется раковый синдром. Раковый синдром является генетическим заболевание, при котором генетические мутации в одном или более из генов предрасполагают пораженных индивидуумов к развитию рака, а также могут вызывать раннее начало этих видов рака. Раковые синдромы часто показывают не только высокий риск развития рака в течение всей жизни, но и развитие множественных независимых первичных опухолей. Многие из этих синдромов вызваны мутациями в генах-супрессорах опухолей, генах, которые участвуют в защите клетки от превращения в злокачественную. Другие гены, которые могут быть затронуты, - это гены репарации ДНК, онкогены и гены, участвующие в образовании кровеносных сосудов (ангиогенез). Распространенными примерами наследственных онкологических синдромов являются наследственный синдром рака молочной железы и яичников и наследственный неполипозный рак толстой кишки (синдром Линча).[779] In some embodiments, the subject has a cancer syndrome. Cancer syndrome is a genetic disease in which genetic mutations in one or more genes predispose affected individuals to developing cancer and can also cause early onset of these cancers. Cancer syndromes often show not only a high lifetime risk of developing cancer, but also the development of multiple independent primary tumors. Many of these syndromes are caused by mutations in tumor suppressor genes, genes that are involved in protecting cells from becoming cancerous. Other genes that may be affected are DNA repair genes, oncogenes, and genes involved in the formation of blood vessels (angiogenesis). Common examples of hereditary cancer syndromes are hereditary breast and ovarian cancer syndrome and hereditary nonpolyposis colon cancer (Lynch syndrome).
[780] В некоторых вариантах воплощения субъекту с одним или более полиморфизмами или мутациями в K-ras, p53, BRA, EGFR или HER2 вводят лечение, нацеленное на, соответственно, K-ras, p53, BRA, EGFR или HER2. [780] In some embodiments, a subject with one or more polymorphisms or mutations in K-ras, p53, BRA, EGFR, or HER2 is administered a treatment targeting, respectively, K-ras, p53, BRA, EGFR, or HER2.
[781] Способы по настоящему изобретению обычно можно применять для лечения злокачественных или доброкачественных опухолей любого типа клеток, тканей или органов. [781] The methods of the present invention can generally be used to treat malignant or benign tumors of any type of cell, tissue or organ.
[782] Примерные виды лечения [782] Sample treatments
[783] При необходимости субъекту может быть назначено любое лечение для стабилизации, лечения или предотвращения заболевания или расстройства, такого как рак, или повышенного риска заболевания или расстройства, такого как рак (например, субъекту, у которого выявлен рак или повышенный риск рака, используя любой из способов изобретения). В различных вариантах воплощения лечение представляет собой известное лечение или комбинацию способов лечения заболевания или расстройства, такого как рак, включая, помимо прочего, цитотоксические агенты, таргетную терапию, иммунотерапию, гормональную терапию, лучевую терапию, хирургическое удаление раковых клеток или клеток, которые могут стать злокачественными, трансплантацию стволовых клеток, трансплантацию костного мозга, фотодинамическую терапию, паллиативное лечение или их комбинацию. В некоторых вариантах воплощения лечение (такое как профилактическое лекарство) используется для предотвращения, отсрочки или уменьшения тяжести заболевания или расстройства, такого как рак, у субъекта с повышенным риском заболевания или расстройства, такого как рак. В некоторых вариантах воплощения лечение представляет собой хирургическое вмешательство, химиотерапию первой линии, адъювантную терапию или неоадъювантную терапию.[783] If necessary, a subject may be prescribed any treatment to stabilize, treat, or prevent a disease or disorder, such as cancer, or an increased risk of a disease or disorder, such as cancer (for example, a subject who is diagnosed with cancer or an increased risk of cancer using any of the methods of the invention). In various embodiments, the treatment is a known treatment or combination of treatments for a disease or disorder, such as cancer, including, but not limited to, cytotoxic agents, targeted therapy, immunotherapy, hormonal therapy, radiation therapy, surgical removal of cancer cells or cells that may become malignant, stem cell transplantation, bone marrow transplantation, photodynamic therapy, palliative treatment, or a combination thereof. In some embodiments, a treatment (such as a prophylactic medication) is used to prevent, delay, or reduce the severity of a disease or disorder, such as cancer, in a subject at increased risk of the disease or disorder, such as cancer. In some embodiments, treatment is surgery, first-line chemotherapy, adjuvant therapy, or neoadjuvant therapy.
[784] В некоторых вариантах воплощения таргетная терапия - это лечение, нацеленное на специфические гены, белки рака или тканевую среду, которая способствует росту и выживанию рака. Этот тип лечения блокирует рост и распространение раковых клеток, ограничивая повреждение нормальных клеток, что обычно приводит к меньшему количеству побочных эффектов по сравнению с другими лекарствами от рака. [784] In some embodiments, targeted therapy is a treatment that targets specific cancer genes, proteins, or tissue environments that promote cancer growth and survival. This type of treatment blocks the growth and spread of cancer cells while limiting damage to normal cells, which usually results in fewer side effects than other cancer drugs.
[785] Одним из наиболее успешных подходов является нацеливание на ангиогенез, рост новых кровеносных сосудов вокруг опухоли. Таргетная терапия, такая как бевацизумаб (Авастин), леналидомид (Ревлимид), сорафениб (Нексавар), сунитиниб (Сутент) и талидомид (Таломид), препятствуют ангиогенезу. Другим примером является использование лечения, нацеленного на HER2, такого как трастузумаб или лапатиниб, для рака, сверхэкспрессирующего HER2 (например, некоторых видов рака молочной железы). В некоторых вариантах воплощения используется моноклональное антитело для блокирования конкретной мишени снаружи раковых клеток. Примеры включают алемтузумаб (Campath-1H), бевацизумаб, цетуксимаб (Erbitux), панитумумаб (Vectibix), пертузумаб (Omnitarg), ритуксимаб (Rituxan) и трастузумаб. В некоторых вариантах воплощения моноклональное антитело тозитумомаб (Bexxar) используется для доставки излучения к опухоли. В некоторых вариантах воплощения пероральная малая молекула подавляет раковый процесс внутри раковой клетки. Примеры включают дазатиниб (Sprycel), эрлотиниб (Tarceva), гефитиниб (Iressa), иматиниб (Gleevec), лапатиниб (Tykerb), нилотиниб (Tasigna), сорафениб, сунитиниб и темсиролимус (Torisel). В некоторых вариантах воплощения ингибитор протеасом (например, лекарство от множественной миеломы, бортезомиб (Велкейд)) мешает работе специализированных белков, называемых ферментами, которые расщепляют другие белки в клетке. [785] One of the most successful approaches is to target angiogenesis, the growth of new blood vessels around the tumor. Targeted therapies such as bevacizumab (Avastin), lenalidomide (Revlimid), sorafenib (Nexavar), sunitinib (Sutent), and thalidomide (Thalomid) interfere with angiogenesis. Another example is the use of HER2-targeted treatments, such as trastuzumab or lapatinib, for cancers that overexpress HER2 (such as some breast cancers). In some embodiments, a monoclonal antibody is used to block a specific target on the outside of cancer cells. Examples include alemtuzumab (Campath-1H), bevacizumab, cetuximab (Erbitux), panitumumab (Vectibix), pertuzumab (Omnitarg), rituximab (Rituxan), and trastuzumab. In some embodiments, the monoclonal antibody tositumomab (Bexxar) is used to deliver radiation to the tumor. In some embodiments, the oral small molecule inhibits the cancer process within a cancer cell. Examples include dasatinib (Sprycel), erlotinib (Tarceva), gefitinib (Iressa), imatinib (Gleevec), lapatinib (Tykerb), nilotinib (Tasigna), sorafenib, sunitinib, and temsirolimus (Torisel). In some embodiments, a proteasome inhibitor (eg, the multiple myeloma drug bortezomib (Velcade)) interferes with specialized proteins called enzymes that break down other proteins in the cell.
[786] В некоторых вариантах воплощения разработана иммунотерапия для стимулирования естественной защиты организма для борьбы с раком. Примерные типы иммунотерапии используют материалы, вырабатываемые в организме либо в лаборатории, для поддержки, нацеливания или восстановления функции иммунной системы.[786] In some embodiments, immunotherapy is provided to stimulate the body's natural defenses to fight cancer. Exemplary types of immunotherapy use materials produced in the body or in the laboratory to support, target, or restore immune system function.
[787] В некоторых вариантах воплощения гормональная терапия лечит рак, снижая количество гормонов в организме. Некоторые виды рака, в том числе некоторые виды рака молочной железы и простаты, растут и распространяются только в присутствии природных химических веществ в организме, называемых гормонами. В различных вариантах воплощения гормональная терапия используется для лечения рака простаты, молочной железы, щитовидной железы и репродуктивной системы. [787] In some embodiments, hormone therapy treats cancer by reducing the amount of hormones in the body. Some cancers, including some breast and prostate cancers, grow and spread only in the presence of natural chemicals in the body called hormones. In various embodiments, hormone therapy is used to treat prostate, breast, thyroid, and reproductive cancers.
[788] В некоторых вариантах воплощения лечение включает трансплантацию стволовых клеток, при которой пораженный костный мозг заменяется высокоспециализированными клетками, называемыми гемопоэтическими стволовыми клетками. Гемопоэтические стволовые клетки обнаруживают как в кровотоке, так и в костном мозге. [788] In some embodiments, the treatment includes a stem cell transplant in which the diseased bone marrow is replaced with highly specialized cells called hematopoietic stem cells. Hematopoietic stem cells are found both in the bloodstream and in the bone marrow.
[789] В некоторых вариантах воплощения лечение включает фотодинамическую терапию, при которой используются специальные препараты, называемые фотосенсибилизирующими агентами, а также свет для уничтожения раковых клеток. Лекарства действуют после того, как они были активированы определенным светом.[789] In some embodiments, treatment includes photodynamic therapy, which uses special drugs called photosensitizing agents as well as light to kill cancer cells. Medicines work after they have been activated by a certain light.
[790] В некоторых вариантах воплощения лечение включает хирургическое удаление раковых клеток или клеток, которые могут стать злокачественными (такое, как лампэктомия или мастэктомия). Например, женщина с мутацией гена предрасположенности к раку молочной железы (мутация гена BRCA1 или BRCA2) может снизить риск рака молочной железы и яичников при помощи снижающей риск сальпингоофорэктомии (удаление маточных труб и яичников) и/или снижающей риск двусторонней мастэктомии (удаление обеих молочных желез). Лазеры, которые представляют собой очень мощные и точные лучи света, при очень осторожной хирургической работе, включая лечение некоторых видов рака, могут использоваться вместо лезвий (скальпелей). [790] In some embodiments, treatment includes surgical removal of cancer cells or cells that may become cancerous (such as a lumpectomy or mastectomy). For example, a woman with a breast cancer susceptibility gene mutation ( BRCA1 or BRCA2 gene mutation) can reduce her risk of breast and ovarian cancer by having a risk-reducing salpingo-oophorectomy (removal of the fallopian tubes and ovaries) and/or a risk-reducing bilateral mastectomy (removal of both breasts). ). Lasers, which are very powerful and precise beams of light, can be used instead of blades (scalpels) for very careful surgical work, including the treatment of some types of cancer.
[791] В дополнение к лечению для замедления, остановки или устранения рака (также называемого лечением, направленным на заболевание), важной частью лечения рака является облегчение симптомов и побочных эффектов у субъекта, таких, как боль и тошнота. Оно включает в себя поддержку субъекта с физическими, эмоциональными и социальными потребностями, подход, который называется паллиативным или поддерживающим уходом. Люди часто одновременно получают терапию, направленную на заболевание, и лечение для облегчения симптомов. [791] In addition to treatment to slow, stop, or eliminate cancer (also called disease-directed treatment), an important part of cancer treatment is relieving the subject's symptoms and side effects, such as pain and nausea. It involves supporting the subject with physical, emotional and social needs, an approach called palliative or supportive care. People often receive therapy to target the disease and treatment to relieve symptoms at the same time.
[792] Примеры лечения включают актиномицин D, адцетрис, адриамицин, альдеслейкин, алемтузумаб, алимту, амсидин, амсакрин, анастрозол, аредиа, аримидекс, аромазин, аспарагиназу, авастин, бевацизумаб, бикалутамид, блеомицин, бондронат, бонефос, бортезомиб, бусилвекс, бусульфан, кампто, капецитабин, карбоплатин, кармустин, касодекс, цетуксимаб, химакс, хлорамбуцил, циметидин, цисплатин, кладрибин, клодронат, клофарабин, крисантаспазу, циклофосфамид, ципротерона ацетат, ципростат, цитарабин, цитоксан, дакарбозин, дактиномицин, дазатиниб, даунорубицин, дексаметазон, диэтилстильбестрол, доцетаксел, доксорубицин, дрогенил, эмцит, эпирубицин, эпозин, эрбитукс, эрлотиниб, эстрацит, эстрамустин, этопофос, этопозид, эволтру, экземестан, фарестон, фемару, филграстим, флудару, флударабин, фторурацил, флутамид, гефинитиб, гемцитабин, гемзар, глеевек, гливек, гонапептил депо, гозерелин, халавен, герцептин, гикамптин, гидроксикарбамид, ибандроновую кислоту, ибритумомаб, идарубицин, ифосфомид, интерферон, мезилат иматиниба, ирессу, иринотекан, джевтану, ланвис, лапатиниб, летрозол, лейкеран, лейпрорелин, лейстат, ломустин, мабкампат, мабтеру, мегас, мегестрол, метотрексат, митозантрон, митомицин, мутулан, милеран, навельбин, нейласту, нейпоген, нексавар, нипент, нолвадекс D, новантрон, онковин, паклитаксел, памидронат, PCV, пеметрексед, пентостатин, перджету, прокарбазин, провендж, преднизолон, прострап, ралтитрексед, ритуксимаб, спрайцел, сорафениб, солтамокс, стрептозоцин, стильбэстрол, стимувакс, сунитиниб, сутент, таблоид, тагамет, тамофен, тамоксифен, тарцеву, таксол, таксотер, тегафур с урацилом, темодал, темозоломид, талидомид, тиоплекс, тиотепу, тиогуанин, томудекс, топотекан, торемифен, трастузумаб, третиноин, треосульфан, триэтилентиофорсфорамид, трипторелин, тиверб, уфторал, велкад, вепезид, везаноид, винкристин, винорелбин, ксалкори, кселоду, ервой, зактиму, заносар, заведос, зевелин, золадекс, золедронат, золедроновую кислоту зометы и зитигу. [792] Examples of treatments include Actinomycin D, Adcetris, Adriamycin, Aldesleukin, Alemtuzumab, Alimta, Amsidin, Amsacrine, Anastrozole, Aredia, Arimidex, Aromasin, Asparaginase, Avastin, Bevacizumab, Bicalutamide, Bleomycin, Bondronate, Bonefos, Bortezomib, Busilvex, Busulf en , campto, capecitabine, carboplatin, carmustine, casodex, cetuximab, chymax, chlorambucil, cimetidine, cisplatin, cladribine, clodronate, clofarabine, crisantaspase, cyclophosphamide, cyproterone acetate, cyprostat, cytarabine, cytoxan, dacarbozine, dactinomycin, dasatinib, yes unorubicin, dexamethasone, diethylstilbestrol, docetaxel, doxorubicin, drogenil, emcyt, epirubicin, epozine, erbitux, erlotinib, estracit, estramustine, etopofos, etoposide, evoltra, exemestane, fareston, femaru, filgrastim, fludaru, fludarabine, fluorouracil, flutamide, gefinitib, gemcitabine, gem zar, Gleevec, Gleevec, gonapeptil depot, goserelin, Halaven, Herceptin, hycamptin, hydroxycarbamide, ibandronic acid, ibritumomab, idarubicin, ifsfomide, interferon, imatinib mesylate, iressu, irinotecan, jevtan, Lanvis, lapatinib, letrozole, leukeran, leuprorelin, lestat , lomustine , Mabcampate, Mabthera, Megas, Megestrol, Methotrexate, Mitosanthrone, Mitomycin, Mutulan, Mileran, Navelbine, Neulastu, Neupogen, Nexavar, Nipent, Nolvadex D, Novantrone, Oncovin, Paclitaxel, Pamidronate, PCV, Pemetrexed, Pentostatin, Perjeta, Procarbazine, provenge, prednisolone, prostrup, raltitrexed, rituximab, sprycel, sorafenib, saltamox, streptozocin, stilbestrol, stimuvax, sunitinib, sutent, tabloid, tagamet, tamofen, tamoxifen, tarceva, taxol, taxotere, tegafur with uracil, temodal, temozolomide, thalidomide, thioplex, thiotepa, thioguanine, tomudex, topotecan, toremifene, trastuzumab, tretinoin, treosulfan, triethylenethioforamide, triptorelin, tyverb, uftoral, velcad, vepezid, vesanoid, vincristine, vinorelbine, xalkori, xeloda, ervoy, zaktimu, zanosar, zavedos, zevelin , zoladex, zoledronate, zoledronic acid, zometa and zitiga.
[793] В некоторых вариантах воплощения рак представляет собой рак молочной железы, и лечение или соединение, вводимое индивидууму, представляет собой одно или более из следующего: Абемациклиб, Абраксан (состав наночастиц, стабилизированных Паклитакселом Альбумином), Адо-Трастузумаб Эмтанзин, Афинитор (Эверолимус), Анастрозол, Аредиа (Памидронат Динатрий), Аримидекс (Анастрозол), Аромазин (Экземестан), Капецитабин, Циклофосфамид, Доцетаксел, Гидрохлорид Доксорубицина, Эллетс (Гидрохлорид Эпирубицина), гидрохлорид Эпирубицина, Мезилат Эрибулина, Эверолимус, Экземестан, 5-ФУ (фторурацил для инъекций), Фарестон (Торемифен), Фаслодекс (Фулвестрант), Фемара (Летрозол), Фторурацил для инъекций, Фулвестрант, Гемцитабина Гидрохлорид, Гемзар (Гемцитабина Гидрохлорид), Гозерелина Ацетат, Халавен (Мезилат Эрибулина), Герцептин (Трастузумаб), Ибранс (Палбоциклиб), Иксабепилон, Иксемпра (Иксабепилон), Кадсила (Адо-Трастузумаб Эмтанзин), Кискали (Рибоциклиб), Лапатиниб Дитозилат, Летрозол, Линпарза (Олапариб), Мегестрол ацетат, Метотрексат, Нератиниб Малеат, Нерлинкс (Нератиниб Малеат), Олапариб, Паклитаксел, Состав наночастиц, стабилизированных Паклитакселом Альбумином, Палбоциклиб, Памидронат динатрий, Перьета (Пертузумаб), Пертузумаб, Рибоциклиб, Цитрат Тамоксифена, Таксол (Паклитаксел), Таксотер (Доцетаксел), Тиотепа, Торемифен, Трастузумаб, Трексалл (Метотрексилат), Тикерб (Лапатиниба Дитозилат), Верзенио (Абемациклиб), Винбластина сульфат, Кселода (Капецитабин), Золадекс (Гозерелина ацетат), Эвиста (Ралоксифена гидрохлорид), Ралоксифена гидрохлорид, Тамоксифена цитрат. В некоторых вариантах воплощения рак представляет собой рак молочной железы, и лечение или соединение, вводимое индивиду, представляет собой комбинацию, выбранную из следующего: Доксорубицина гидрохлорид (Адриамицин) и Циклофосфамид; Доксорубицина гидрохлорид (Адриамицин), Циклофосфамид и Паклитаксел (Таксол); Доксорубицина гидрохлорид (Адриамицин), Циклофосфамид и Фторурацил; Метотрексат, Циклофосфамид и Фторурацил; Эпирубицина гидрохлорид, Циклофосфамид и Фторурацил; и Доксорубицина гидрохлорид (Адриамицин), Циклофосфамид и Доцетаксел (Таксотер).[793] In some embodiments, the cancer is breast cancer, and the treatment or compound administered to the individual is one or more of the following: Abemaciclib, Abraxane (a nanoparticle formulation stabilized by Paclitaxel Albumin), Ado-Trastuzumab Emtansine, Afinitor (Everolimus ), Anastrozole, Aredia (Pamidronate Disodium), Arimidex (Anastrozole), Aromasin (Exemestane), Capecitabine, Cyclophosphamide, Docetaxel, Doxorubicin Hydrochloride, Ellets (Epirubicin Hydrochloride), Epirubicin Hydrochloride, Eribulin Mesylate, Everolimus, Exemestane, 5-FU (f torouracil for injection), Fareston (Toremifene), Faslodex (Fulvestrant), Femara (Letrozole), Fluorouracil for injection, Fulvestrant, Gemcitabine Hydrochloride, Gemzar (Gemcitabine Hydrochloride), Goserelin Acetate, Halaven (Eribulina Mesylate), Herceptin (Trastuzumab), Ibrance ( Palbociclib), Ixabepilone, Ixempra (Ixabepilone), Kadcyla (Ado-Trastuzumab Emtansine), Kisqali (Ribociclib), Lapatinib Ditosylate, Letrozole, Lynparza (Olaparib), Megestrol acetate, Methotrexate, Neratinib Maleate, Nerlinx (Neratinib Maleate), Olaparib, Paclitaxel , Composition of nanoparticles stabilized by Paclitaxel Albumin, Palbociclib, Pamidronate disodium, Perjeta (Pertuzumab), Pertuzumab, Ribociclib, Tamoxifen Citrate, Taxol (Paclitaxel), Taxotere (Docetaxel), Thiotepa, Toremifene, Trastuzumab, Trexall (Methotrexilate), Tickerb (Lapatinib Ditosylate ), Verzenio (Abemaciclib), Vinblastine sulfate, Xeloda (Capecitabine), Zoladex (Goserelin acetate), Evista (Raloxifene hydrochloride), Raloxifene hydrochloride, Tamoxifene citrate. In some embodiments, the cancer is breast cancer, and the treatment or compound administered to the individual is a combination selected from the following: Doxorubicin hydrochloride (Adriamycin) and Cyclophosphamide; Doxorubicin hydrochloride (Adriamycin), Cyclophosphamide and Paclitaxel (Taxol); Doxorubicin hydrochloride (Adriamycin), Cyclophosphamide and Fluorouracil; Methotrexate, Cyclophosphamide and Fluorouracil; Epirubicin hydrochloride, Cyclophosphamide and Fluorouracil; and Doxorubicin hydrochloride (Adriamycin), Cyclophosphamide and Docetaxel (Taxotere).
[794] Для субъектов, которые экспрессируют как мутантную форму (например, форму, связанную с раком), так и форму дикого типа (например, форму, не связанную с раком) мРНК или белка, терапия предпочтительно ингибирует экспрессию или активность мутантной формы по меньшей мере в 2, 5, 10 или 20 раз сильнее, чем она подавляет экспрессию или активность формы дикого типа. Одновременное или последовательное использование нескольких терапевтических агентов может значительно снизить заболеваемость раком и уменьшить количество пролеченных раковых образований, которые становятся устойчивыми к терапии. Кроме того, терапевтические агенты, которые используются как часть комбинированной терапии, могут потребовать более низкой дозы для лечения рака, чем соответствующая доза, необходимая при индивидуальном применении терапевтических агентов. Низкая доза каждого соединения в комбинированной терапии снижает серьезность потенциальных неблагоприятных побочных эффектов этих соединений. [794] For subjects that express both a mutant form (eg, a form associated with cancer) and a wild-type form (eg, a form not associated with cancer) of an mRNA or protein, therapy preferably inhibits the expression or activity of the mutant form by at least at least 2, 5, 10, or 20 times more potent than it inhibits the expression or activity of the wild-type form. The simultaneous or sequential use of multiple therapeutic agents can significantly reduce the incidence of cancer and reduce the number of treated cancers that become resistant to therapy. In addition, therapeutic agents that are used as part of a combination therapy may require a lower dose to treat cancer than the corresponding dose required when the therapeutic agents are administered individually. The low dose of each compound in combination therapy reduces the severity of the potential adverse side effects of these compounds.
[795] В некоторых вариантах воплощения субъект, идентифицированный как имеющий повышенный риск рака, (способами согласно изобретению или любым стандартным способом), должен избегать конкретных факторов риска или внести изменения в образ жизни, чтобы снизить любой дополнительный риск рака. [795] In some embodiments, a subject identified as having an increased risk of cancer (by the methods of the invention or any standard method) must avoid specific risk factors or make lifestyle changes to reduce any additional risk of cancer.
[796] В некоторых вариантах воплощения полиморфизмы, мутации, факторы риска или любые их комбинации используются для выбора схемы лечения для субъекта. В некоторых вариантах воплощения для субъекта с повышенным риском рака или с худшим прогнозом выбрана большая доза или большее количество курсов лечения. [796] In some embodiments, polymorphisms, mutations, risk factors, or any combination thereof are used to select a treatment regimen for a subject. In some embodiments, a higher dose or more treatments are selected for a subject with an increased risk of cancer or a worse prognosis.
[797] Другие соединения для включения в отдельные или комбинированные терапии [797] Other compounds for inclusion in single or combination therapies
[798] При необходимости дополнительные соединения для стабилизации, лечения или предотвращения заболевания или расстройства, такого как рак, или повышенного риска заболевания или расстройства, такого как рак, могут быть идентифицированы из больших библиотек как натуральных продуктов, так и синтетических (или полусинтетических) экстрактов или химических библиотек, в соответствии со способами, известными в данной области техники. Специалисты в области открытия и разработки лекарств поймут, что точный источник тестируемых экстрактов или соединений не является критическим для способов по настоящему изобретению. Соответственно, практически любое количество химических экстрактов или соединений может быть подвергнуто скринингу на предмет их влияния на клетки их конкретного типа рака или от конкретного субъекта, или может быть проведен скрининг на предмет их влияния на активность или экспрессию молекул, связанных с раком (таких, как молекулы, связанные с раком, о которых известно, что они имеют измененную активность или экспрессию при определенном типе рака). Когда обнаруживается, что неочищенный экстракт модулирует активность или экспрессию молекулы, связанной с раком, может быть выполнено дальнейшее фракционирование положительного основного экстракта для выделения химического компонента, ответственного за наблюдаемый эффект, с использованием способов, известных в данной области техники. [798] If necessary, additional compounds for stabilizing, treating, or preventing a disease or disorder, such as cancer, or an increased risk of a disease or disorder, such as cancer, can be identified from large libraries of both natural products and synthetic (or semi-synthetic) extracts or chemical libraries, in accordance with methods known in the art. Those skilled in the art of drug discovery and development will appreciate that the exact source of the extracts or compounds tested is not critical to the methods of the present invention. Accordingly, virtually any number of chemical extracts or compounds can be screened for their effect on cells of their particular cancer type or from a particular subject, or can be screened for their effect on the activity or expression of cancer-related molecules (such as cancer-associated molecules known to have altered activity or expression in a particular cancer type). When a crude extract is found to modulate the activity or expression of a cancer-associated molecule, further fractionation of the positive core extract can be performed to isolate the chemical component responsible for the observed effect using methods known in the art.
[799] Примерные тесты и модели на животных для тестирования терапий [799] Exemplary tests and animal models for testing therapies
[800] При необходимости один или более представленных в данном документе способов лечения могут быть протестированы на предмет их воздействия на заболевание или расстройство, такое как рак, с использованием клеточной линии (такой как клеточная линия с одной или более мутаций, идентифицированных у субъекта, у которого был диагностирован рак или повышенный риск рака при использовании способов по изобретению) или на модели заболевания или расстройства на животных, такой как мышиная модель SCID (Jain et al., Tumor Models In Cancer Research, ed. Teicher, Humana Press Inc., Totowa, N.J., pp. 647-671, 2001, документ полностью включен сюда посредством ссылки). Кроме того, существует множество стандартных анализов и моделей на животных, которые можно использовать для определения эффективности конкретных способов лечения для стабилизации, лечения или предотвращения заболевания или расстройства, такого как рак, или повышенного риска заболевания или расстройства, такого как рак. Терапии также могут быть протестированы в стандартных клинических испытаниях на людях.[800] If desired, one or more treatments provided herein may be tested for their effect on a disease or disorder, such as cancer, using a cell line (such as a cell line with one or more mutations identified in a subject who has been diagnosed with cancer or an increased risk of cancer using the methods of the invention) or in an animal model of the disease or disorder, such as the SCID mouse model (Jain et al., Tumor Models In Cancer Research, ed. Teicher, Humana Press Inc., Totowa , NJ, pp. 647-671, 2001, incorporated herein by reference in its entirety). In addition, there are a variety of standard assays and animal models that can be used to determine the effectiveness of specific treatments to stabilize, treat, or prevent a disease or disorder, such as cancer, or an increased risk of a disease or disorder, such as cancer. Therapies can also be tested in standard human clinical trials.
[801] Для выбора предпочтительной терапии для конкретного субъекта соединения могут быть протестированы на их влияние на экспрессию или активность в отношении одного или более генов, мутировавших у субъекта. Например, способность соединения модулировать экспрессию определенных молекул или белков мРНК может быть обнаружена с помощью стандартного нозерн-блоттинга, вестерн-блоттинга или анализа с помощью микрочипов. В некоторых вариантах воплощения отбирается одно или более соединений, которые (i) ингибируют экспрессию или активность молекул мРНК или белков, способствующих развитию рака, которые экспрессируются на более высоком, чем обычно, уровне, или имеют более высокий, чем нормальный уровень активности у субъекта (например, в образце от субъекта) или (ii) способствуют экспрессии или активности молекул мРНК или белков, которые ингибируют рак, которые экспрессируются на более низком уровне, чем нормальный, или имеют более низкий, чем нормальный уровень активности, у субъекта. Отдельная или комбинированная терапия, которая (i) модулирует наибольшее количество молекул мРНК или белков, которые имеют мутации, связанные с раком у субъекта, и (ii) модулирует наименьшее количество молекул или белков мРНК, которые не имеют мутаций, связанных с раком у субъекта. В некоторых вариантах воплощения избранная отдельная или комбинированная терапия обладает высокой лекарственной эффективностью и дает мало побочных эффектов, если вообще таковые имеются. [801] To select the preferred therapy for a particular subject, compounds can be tested for their effect on the expression or activity of one or more genes mutated in the subject. For example, the ability of a compound to modulate the expression of specific mRNA molecules or proteins can be detected using standard Northern blotting, Western blotting, or microarray analysis. In some embodiments, one or more compounds are selected that (i) inhibit the expression or activity of cancer-promoting mRNA molecules or proteins that are expressed at a higher than normal level or have a higher than normal level of activity in a subject ( for example, in a sample from a subject) or (ii) promote the expression or activity of cancer-inhibiting mRNA molecules or proteins that are expressed at a lower than normal level or have a lower than normal level of activity in the subject. A single or combination therapy that (i) modulates the largest number of mRNA molecules or proteins that have mutations associated with a subject's cancer, and (ii) modulates the smallest number of mRNA molecules or proteins that do not have mutations associated with a subject's cancer. In some embodiments, the selected single or combination therapy has high medicinal efficacy and produces few, if any, side effects.
[802] В качестве альтернативы субъект-специфическому анализу, представленному выше, ДНК-чипы могут использоваться для сравнения экспрессии молекул мРНК в конкретном типе рака на ранней или поздней стадии (например, в клетках рака молочной железы) с экспрессией в нормальной ткани (Marracket al., Current Opinion in Immunology 12, 206-209, 2000; Harkin, Oncologist. 5:501-507, 2000; Pelizzariet al., Nucleic Acids Res. 28(22):4577-4581, 2000, каждый из этих документов полностью включен сюда посредством ссылки). На основе этого анализа можно выбрать отдельную или комбинированную терапию для субъектов с этим типом рака, чтобы модулировать экспрессию мРНК или белков, которые изменили экспрессию при этом типе рака. [802] As an alternative to the subject-specific analysis presented above, DNA chips can be used to compare the expression of mRNA molecules in a particular type of early or late stage cancer (eg, breast cancer cells) with expression in normal tissue (Marrack et al ., Current Opinion in Immunology 12, 206-209, 2000; Harkin, Oncologist. 5:501-507, 2000; Pelizzari et al. , Nucleic Acids Res. 28(22):4577-4581, 2000, each of these documents are incorporated herein by reference in their entirety). Based on this analysis, single or combination therapies can be selected for subjects with this type of cancer to modulate the expression of mRNAs or proteins that are altered in expression in this type of cancer.
[803] Помимо использования для выбора терапии для конкретного субъекта или группы субъектов, профили экспрессии можно использовать для отслеживания изменений в экспрессии мРНК и/или белка, которые происходят во время лечения. Например, профилирование экспрессии можно использовать, чтобы определить, вернулась ли экспрессия генов, связанных с раком, к нормальному уровню. В противном случае доза одного или более соединений в терапии может быть изменена для увеличения или уменьшения эффекта терапии на уровни экспрессии соответствующего гена(ов), связанного(ых) с раком. Кроме того, этот анализ можно использовать для определения того, влияет ли терапия на экспрессию других генов (например, генов, связанных с неблагоприятными побочными эффектами). При необходимости доза или состав терапии могут быть изменены для предотвращения или уменьшения нежелательных побочных эффектов. [803] In addition to being used to select therapy for a particular subject or group of subjects, expression profiles can be used to monitor changes in mRNA and/or protein expression that occur during treatment. For example, expression profiling can be used to determine whether the expression of cancer-related genes has returned to normal levels. Alternatively, the dose of one or more compounds in the therapy may be adjusted to increase or decrease the effect of the therapy on the expression levels of the corresponding gene(s) associated with cancer. In addition, this assay can be used to determine whether therapy affects the expression of other genes (for example, genes associated with adverse side effects). If necessary, the dose or composition of therapy may be changed to prevent or reduce unwanted side effects.
[804] Примерные составы и способы введения [804] Exemplary Formulations and Routes of Administration
[805] Для стабилизации, лечения или предотвращения заболевания или расстройства, такого как рак, или повышенного риска заболевания или расстройства, такого как рак, композиция может быть составлена и введена с использованием любого способа, известного специалистам в данной области техники (см., например, Патенты США №№ 8389578 и 8389557, каждый из этих документов полностью включен сюда посредством ссылки). Общие способы составления и введения находятся в "Remington: The Science and Practice of Pharmacy,” 21st Edition, Ed. David Troy, 2006, Lippincott Williams & Wilkins, Philadelphia, Pa., документ полностью включен сюда посредством ссылки). Примерами таких составов являются жидкости, суспензии, таблетки, капсулы, пилюли, порошки, гранулы, гели, мази, суппозитории, инъекции, ингаляционные средства и аэрозоли. В качестве примера, пероральный состав с модифицированным или пролонгированным высвобождением может быть получен с использованием дополнительных способов, известных в этой области техники. Например, подходящей формой с пролонгированным высвобождением активного ингредиента может быть матричная таблетка или капсульная композиция. Подходящие материалы, образующие матрицу, включают, например, воски (например, карнаубский, пчелиный воск, парафиновый воск, церезин, шеллаковый воск, жирные кислоты и жирные спирты), масла, отвержденные масла или жиры (например, отвержденное рапсовое масло, касторовое масло, говяжий жир, пальмовое масло и соевое масло) и полимеры (например, гидроксипропилцеллюлоза, поливинилпирролидон, гидроксипропилметилцеллюлоза и полиэтиленгликоль). Другими подходящими материалами для матричного таблетирования являются микрокристаллическая целлюлоза, порошкообразная целлюлоза, гидроксипропилцеллюлоза, этилцеллюлоза с другими носителями и наполнителями. Таблетки также могут содержать гранулы, порошки с покрытием или пеллеты. Таблетки также могут быть многослойными. Необязательно, готовая таблетка может быть покрыта или быть без покрытия. [805] To stabilize, treat, or prevent a disease or disorder, such as cancer, or an increased risk of a disease or disorder, such as cancer, the composition may be formulated and administered using any method known to those skilled in the art (see, e.g. , US Patent Nos. 8389578 and 8389557, each of which is incorporated herein by reference in its entirety). General methods of formulation and administration are found in “Remington: The Science and Practice of Pharmacy,” 21st Edition, Ed. David Troy, 2006, Lippincott Williams & Wilkins, Philadelphia, Pa., incorporated herein by reference in its entirety. Examples of such formulations are liquids, suspensions, tablets, capsules, pills, powders, granules, gels, ointments, suppositories, injections, inhalants and aerosols. As an example, a modified or extended release oral formulation can be prepared using additional methods known in the art technique. For example, a suitable sustained release form of the active ingredient may be a matrix tablet or capsule composition. Suitable matrix forming materials include, for example, waxes (for example, carnauba, beeswax, paraffin wax, ceresin, shellac wax, fatty acids and alcohols), oils, hardened oils or fats (for example, hardened canola oil, castor oil, beef tallow, palm oil and soybean oil) and polymers (for example, hydroxypropylcellulose, polyvinylpyrrolidone, hydroxypropylmethylcellulose and polyethylene glycol). Other suitable materials for matrix tabletting are microcrystalline cellulose, powdered cellulose, hydroxypropyl cellulose, ethyl cellulose with other carriers and fillers. Tablets may also contain granules, coated powders or pellets. Tablets can also be multilayered. Optionally, the finished tablet may be coated or uncoated.
[806] Типичные пути введения таких композиций включают, без ограничения, пероральный, сублингвальный, буккальный, местный, трансдермальный, ингаляционный, парентеральный (например, подкожные, внутривенные, внутримышечные, внутристернальные инъекции или методики инфузии), ректальный, вагинальный и интраназальный. В предпочтительных вариантах воплощения терапию проводят с использованием устройства пролонгированного высвобождения.[806] Typical routes of administration of such compositions include, but are not limited to, oral, sublingual, buccal, topical, transdermal, inhalation, parenteral (eg, subcutaneous, intravenous, intramuscular, intrasternal injection or infusion techniques), rectal, vaginal, and intranasal. In preferred embodiments, therapy is administered using a sustained release device.
Композиции по изобретению составлены таким образом, чтобы активный ингредиент (ингредиенты), содержащий(е)ся в них, был(и) биодоступным(и) после введения композиции. Композиции могут иметь форму одной или более дозированных единиц. Композиции могут содержать 1, 2, 3, 4 или более активных ингредиентов и необязательно могут содержать 1, 2, 3, 4 или более неактивных ингредиентов.The compositions of the invention are formulated in such a way that the active ingredient(s) contained therein are/are bioavailable after administration of the composition. The compositions may take the form of one or more dosage units. The compositions may contain 1, 2, 3, 4 or more active ingredients and may optionally contain 1, 2, 3, 4 or more inactive ingredients.
[807] Альтернативные варианты воплощения [807] Alternative Embodiments
[808] Любой из представленных в данном документе способов может включать вывод данных в физическом формате, например, на экране компьютера или на бумажной распечатке. Любой из способов изобретения может быть объединен с выводом данных, требующих принятия мер, в формате, который может использоваться врачом. Некоторые из вариантов воплощения, представленных в документе, для определения генетических данных, относящихся к целевому индивидууму, могут быть объединены с уведомлением медицинского работника о потенциальной хромосомной аномалии (например, делеции или дупликации) или ее отсутствии. Некоторые из представленных в данном документе вариантов воплощения могут быть объединены с выводом данных, требующих принятия мер, и выполнением клинического решения, которое приводит к клиническому лечению, или к выполнению клинического решения не предпринимать никаких действий.[808] Any of the methods presented herein may involve outputting data in a physical format, such as on a computer screen or on a paper printout. Any of the methods of the invention can be combined to output actionable data in a format that can be used by a physician. Some of the embodiments presented herein for determining genetic data related to a target individual may be combined with notifying a healthcare professional of a potential chromosomal abnormality (eg, deletion or duplication) or lack thereof. Some of the embodiments presented herein may be combined with outputting actionable data and making a clinical decision that results in clinical treatment, or making a clinical decision to take no action.
[809] В некоторых вариантах воплощения в данном документе раскрывается способ создания отчета, раскрывающего результат любого способа по изобретению (например, наличие или отсутствие делеции или дупликации). В результате применения способа по изобретению может быть сгенерирован отчет, и он может быть отправлен врачу в электронном виде, отображен на устройстве вывода (например, в цифровом отчете) или может быть доставлен врачу в виде письменного отчета (например, отчет в виде распечатанной бумажной копии). Кроме того, представленные способы могут быть объединены с фактическим исполнением клинического решения, которое приводит к клиническому лечению, или к выполнению клинического решения не предпринимать никаких действий. [809] In some embodiments, this document discloses a method for generating a report disclosing the result of any method of the invention (eg, the presence or absence of a deletion or duplication). As a result of the method of the invention, a report may be generated and it may be sent to the physician electronically, displayed on an output device (e.g., a digital report), or may be delivered to the physician as a written report (e.g., a hard copy report ). In addition, the presented methods may be combined with the actual execution of a clinical decision that results in clinical treatment, or the execution of a clinical decision to take no action.
[810] В некоторых вариантах воплощения настоящее изобретение предоставляет реагенты, наборы и способы, а также компьютерные системы и компьютерные среды с закодированными инструкциями для выполнения таких способов для обнаружения как ВЧК, так и ОНВ в одном образце с использованием представленных в данном документе способов мультиплексной ПЦР. В некоторых предпочтительных вариантах воплощения образец представляет собой образец одной клетки или образец плазмы, предположительно содержащий циркулирующую опухолевую ДНК. Эти варианты воплощения используют преимущество открытия того, что путем исследования образцов ДНК из отдельных клеток или плазмы на наличие ВЧК и ОНВ с использованием высокочувствительных способов мультиплексной ПЦР, раскрытых в данном документе, может быть достигнуто улучшенное обнаружение рака по сравнению с исследованием только для ВЧК или ОНВ, особенно для видов рака, демонстрирующих ВЧК, таких как рак молочной железы, яичников и легких. Способы в некоторых иллюстративных вариантах воплощения для анализа ВЧК исследуют от 50 до 100000 или от 50 до 10000, или от 50 до 1000 ОНП, и для ОНВ исследуют от 50 до 1000 ОНВ или от 50 до 500 ОНВ, или от 50 до 250 ОНВ. Предоставленные в данном документе способы для обнаружения ВЧК и/или ОНВ в плазме субъектов с подозрением на рак, включая, например, рак, который, как известно, проявляет ВЧК и ОНВ, такой как рак молочной железы, легких и яичников, обеспечивают преимущество обнаружения ВЧК и/или ОНВ из опухолей, которые часто состоят из гетерогенных популяций раковых клеток с точки зрения генетического состава. Таким образом, традиционные способы, которые ориентированы на анализ только определенных областей опухоли, часто могут упускать из виду ВЧК или ОНВ, которые присутствуют в клетках в других областях опухоли. Образцы плазмы действуют как жидкие биопсии, которые можно исследовать для обнаружения любых ВЧК и/или ОНВ, которые присутствуют только в субпопуляциях опухолевых клеток. [810] In some embodiments, the present invention provides reagents, kits and methods, as well as computer systems and computer environments with encoded instructions for performing such methods to detect both ICH and CNV in a single sample using the multiplex PCR methods provided herein . In some preferred embodiments, the sample is a single cell sample or a plasma sample suspected of containing circulating tumor DNA. These embodiments take advantage of the discovery that by testing DNA samples from single cells or plasma for the presence of ICH and NNV using the highly sensitive multiplex PCR methods disclosed herein, improved cancer detection can be achieved compared to testing for ICH or NNV alone. , especially for cancers exhibiting ICH, such as breast, ovarian, and lung cancers. Methods in some illustrative embodiments examine 50 to 100,000, or 50 to 10,000, or 50 to 1,000 SNPs for the analysis of ICH, and 50 to 1,000 SNPs, or 50 to 500 SNPs, or 50 to 250 SNPs, for SNVs. Methods provided herein for detecting ICH and/or NNV in the plasma of subjects with suspected cancer, including, for example, cancers known to exhibit ICH and NVC, such as breast, lung, and ovarian cancer, provide the advantage of detecting ICH and/or CNVs from tumors, which often consist of heterogeneous populations of cancer cells in terms of genetic composition. Thus, traditional methods that focus on analyzing only certain areas of the tumor can often miss ICHs or ONVs that are present in cells in other areas of the tumor. Plasma samples act as liquid biopsies that can be examined to detect any ICHs and/or NNVs that are present only in subpopulations of tumor cells.
[811] Нижеследующие примеры представлены для того, чтобы предоставить рядовым специалистам в данной области техники полное раскрытие и описание того, как использовать варианты воплощения, представленные в данном документе, и не предназначены для ограничения объема изобретения, и также они не предназначены для обозначения того, что приведенные ниже примеры являются всеми или единственными выполненными экспериментами. Были предприняты усилия для обеспечения точности используемых чисел (например, количества, температуры и т. д.), но следует учитывать некоторые экспериментальные ошибки и отклонения. Если не указано иное, части являются частями по объему, а температура дана в градусах Цельсия. Следует понимать, что изменения в представленных способах могут быть сделаны без изменения фундаментальных аспектов, которые эти примеры признаны иллюстрировать. [811] The following examples are presented to provide those of ordinary skill in the art with complete disclosure and description of how to use the embodiments presented herein and are not intended to limit the scope of the invention, nor are they intended to indicate that that the examples below are all or only experiments performed. Efforts have been made to ensure the accuracy of the numbers used (e.g. quantity, temperature, etc.), but some experimental errors and deviations should be taken into account. Unless otherwise noted, parts are parts by volume and temperatures are given in degrees Celsius. It should be understood that changes to the presented methods may be made without changing the fundamental aspects that these examples purport to illustrate.
ПРИМЕРЫEXAMPLES
[812] ПРИМЕР 1. Персонализированный анализ циркулирующей опухолевой ДНК для мониторинга колоректального рака [812] EXAMPLE 1: Personalized analysis of circulating tumor DNA for monitoring colorectal cancer
[813] Было показано, что раннее выявление рецидивов заболевания улучшает выживаемость пациентов с колоректальным раком (КРР). Обнаружение циркулирующей опухолевой ДНК (цоДНК) после операции определяет подгруппу пациентов с КРР с очень высоким риском рецидива. Предыдущие исследования проводили анализ цоДНК для мониторинга опухолевой нагрузки на ранней стадии КРР с использованием секвенирования небольших генов или цифровой капельной ПЦР.[813] Early detection of disease recurrence has been shown to improve survival in patients with colorectal cancer (CRC). Detection of circulating tumor DNA (ctDNA) after surgery identifies a subgroup of CRC patients at very high risk of relapse. Previous studies have performed ctDNA analysis to monitor tumor burden in early stage CRC using small gene sequencing or digital droplet PCR.
[814] Целью этого примера было использовать персонализированную платформу ССП для мультиплексной ПЦР, нацеленную на 16 опухолеспецифических мутаций на пациента, для оценки минимального остаточного заболевания после операции и мониторинга реакции на лечение КРР.[814] The purpose of this case study was to use a personalized multiplex PCR SSP platform targeting 16 tumor-specific mutations per patient to assess minimal residual disease after surgery and monitor response to CRC treatment.
[815] В исследование были включены 130 пациентов с I-IV стадией КРР, получавших лечебное хирургическое вмешательство и (необязательно) адъювантную химиотерапию (см. Таблицу 1). Образцы плазмы собирали в динамике на исходном уровне до операции и во время запланированных контрольных визитов после операции (ФИГ. 20A). Полноэкзомное секвенирование выявило соматические мутации; в соответствии со стандартным рабочим процессом Signatera, тесты мультиплексной ПЦР для конкретных пациентов, нацеленные на 16 соматических однонуклеотидных вариантов и вариантов со вставкой/делецией, были проанализированы путем массового параллельного секвенирования в образцах плазмы, собранных до и после операции, а также во время адъювантной терапии (ФИГ. 20B). [815] The study included 130 patients with stage I–IV colorectal cancer treated with curative surgery and optionally adjuvant chemotherapy (see Table 1). Plasma samples were collected over time at baseline before surgery and at scheduled follow-up visits after surgery (FIG. 20A). Whole exome sequencing revealed somatic mutations; Following Signatera's standard workflow, patient-specific multiplex PCR tests targeting 16 somatic single nucleotide and insertion/deletion variants were analyzed by massively parallel sequencing in plasma samples collected pre- and post-operatively and during adjuvant therapy (FIG. 20B).
[816] Таблица 1. Характеристики и демографические данные пациентов (N=130)[816] Table 1. Patient Characteristics and Demographics (N=130)
Н/О*Poorly differentiated
BUT*
10 (7,7)20 (15.5)
10 (7.7)
III
II
6 (14,3)0 (0)
6 (14.3)
Н/О*MSI
BUT*
9 (6,9)17 (13.1)
9 (6.9)
[817] ФИГ.22 представляет собой схематический обзор результатов профилирования цоДНК более 800 образцов плазмы от 128 из 130 пациентов. ФИГ.23A-B показывает риск рецидива, стратифицированный по послеоперационному статусу цоДНК. Статус цоДНК был установлен на основании первой послеоперационной пробы крови, взятой на 6 неделе и до начала АХТ. ФИГ.23 (A) показывает анализ Каплана-Мейера безрецидивной выживаемости, стратифицированный по статусу цоДНК. Пациенты без события были оценены в конце периода наблюдения. ФИГ.23 (В) показывает частоту рецидивов в соответствии со статусом цоДНК (без оценки пациентов). Адъювантная химиотерапия была проведена 58 пациентам, что, вероятно, повлияло на частоту рецидивов у пациентов с положительной реакцией на цоДНК. [817] FIG. 22 is a schematic overview of the results of ctDNA profiling of over 800 plasma samples from 128 of 130 patients. FIGS. 23A-B show the risk of relapse stratified by postoperative ctDNA status. ctDNA status was established based on the first postoperative blood sample taken at 6 weeks and before the start of chemotherapy. FIG. 23 (A) shows Kaplan-Meier analysis of disease-free survival stratified by ctDNA status. Patients without an event were assessed at the end of the follow-up period. FIG. 23 (B) shows the relapse rate according to ctDNA status (without patient assessment). Adjuvant chemotherapy was administered to 58 patients, which likely influenced the relapse rate in ctDNA-positive patients.
[818] ФИГ.24(A) показывает риск рецидива после постадъювантной химиотерапии, стратифицированный по постадъювантному статусу цоДНК. Пациенты считались цоДНК- положительными, если в любой момент времени после адъювантной терапии этот статус был положительным, и отрицательными, если во все постадъювантные моменты времени статус был отрицательным. ФИГ.24(B) показывает профилирование по цоДНК у репрезентативного пациента во время адъювантного и постадъювантного лечения.[818] FIG. 24(A) shows the risk of relapse after post-juvant chemotherapy, stratified by post-juvant ctDNA status. Patients were considered ctDNA positive if the status was positive at any time point after adjuvant therapy, and negative if the status was negative at all post-adjuvant time points. FIG. 24(B) shows ctDNA profiling of a representative patient during adjuvant and post-adjuvant treatment.
[819] ФИГ.25 демонстрирует частоту рецидивов у 10 пациентов с послеоперационным цоДНК-положительным статусом до лечения при помощи адъювантной химиотерапии, а также то, как цоДНК была устранена посредством АХТ у двух из трех безрецидивных цоДНК-положительных пациентов.[819] FIG. 25 shows the relapse rate in 10 patients who were postoperative ctDNA positive before treatment with adjuvant chemotherapy, and how ctDNA was cleared by AChT in two of the three relapse-free ctDNA positive patients.
[820] ФИГ.26A-B показывает сравнение времени до рецидива (TTR) с использованием цоДНК и компьютерной томографии: (A) сравнение TTR с использованием цоДНК и КT-визуализации для 12 пациентов с рецидивом, у которых рецидив был обнаружен обоими способами; (б) серийное профилирование цоДНК репрезентативного пациента с рецидивом со сроком исследования цоДНК 10,2 месяца.[820] FIG. 26A-B shows a comparison of time to relapse (TTR) using ctDNA and computed tomography: (A) comparison of TTR using ctDNA and CT imaging for 12 patients with relapse in whom relapse was detected by both methods; (b) serial ctDNA profiling of a representative patient with relapse with a ctDNA study period of 10.2 months.
[821] ФИГ.27A-D демонстрирует серийное профилирование цоДНК четырех репрезентативных пациентов.[821] FIGS. 27A-D show serial ctDNA profiling of four representative patients.
[822] В заключение можно сказать, что подход Signatera RUO к массовому параллельному секвенированию персонализированных мультиплексных ПЦР-тестов, направленных на опухолеспецифические мутации, является высокочувствительной и специфической платформой для обнаружения и количественной оценки цоДНК. Послеоперационный анализ цоДНК позволяет разделить пациентов с КРР на подгруппы с очень высоким или очень низким риском рецидива, как до, так и после АХТ. Как до, так и после адъювантной химиотерапии. Анализ цоДНК в динамике обеспечивает эффективный послеоперационный мониторинг лечения и раннее выявление рецидивов. Анализ цоДНК очень полезен при принятии решений о лечении как в адъювантном, так и в постадъювантном режиме.[822] In conclusion, Signatera RUO's approach to massively parallel sequencing of personalized multiplex PCR tests targeting tumor-specific mutations provides a highly sensitive and specific platform for the detection and quantification of ctDNA. Postoperative ctDNA analysis allows dividing patients with colorectal cancer into subgroups with a very high or very low risk of relapse, both before and after chemotherapy. Both before and after adjuvant chemotherapy. Analysis of ctDNA over time provides effective postoperative monitoring of treatment and early detection of relapses. ctDNA analysis is very useful in making treatment decisions in both the adjuvant and post-adjuvant settings.
[823] ПРИМЕР 2. Секвенирование скДНК плазмы пациентов с местнораспространенным раком мочевого пузыря для наблюдения и мониторинга терапевтической эффективности [823] EXAMPLE 2: ScDNA sequencing of plasma from patients with locally advanced bladder cancer for surveillance and monitoring of therapeutic efficacy
[824] Исследования на различных типах рака показали, что уровни циркулирующей опухолевой ДНК (цоДНК) можно эффективно использовать для мониторинга реакции на неоадъювантную терапию и/или выявления рецидива заболевания раньше клинического и радиологического обнаружения. При раке мочевого пузыря мутации в плазме ранее использовались для отслеживания ответа во время лечения и выявления ранних признаков метастатического заболевания. Недавно было описано обнаружение цоДНК в динамике у пациентов с НМРЛ, и был разработан персонализированный тест обнаружения циркулирующей опухолевой ДНК (цоДНК) (Signatera™ RUO).[824] Studies in various types of cancer have shown that circulating tumor DNA (ctDNA) levels can be effectively used to monitor response to neoadjuvant therapy and/or detect disease recurrence before clinical and radiological detection. In bladder cancer, mutations in plasma have previously been used to monitor response during treatment and detect early signs of metastatic disease. Recently, the detection of ctDNA over time in patients with NSCLC has been described, and a personalized circulating tumor DNA (ctDNA) detection test (Signatera™ RUO) has been developed.
[825] Целью исследования явилось использование специфичных для пациента мутаций, выявленных в первичной опухоли, для обнаружения метастатического рецидива, оценки прогноза и мониторинга ответа на лечение по цоДНК из образцов плазмы, собранных в динамике. [825] The purpose of the study was to use patient-specific mutations identified in the primary tumor to detect metastatic recurrence, assess prognosis, and monitor treatment response using ctDNA from plasma samples collected over time.
[826] Клинический протокол. Пациенты с диагнозом местно-распространенный мышечно-инвазивный рак мочевого пузыря (МИРМП), которым назначена химиотерапия, были проспективно набраны в период с 2013 по 2017 год. Все пациенты получали неоадъювантную химиотерапию или химиотерапию первой линии перед цистэктомией (ЦЭ) и наблюдались в течение 2 лет (ФИГ.28). Образцы плазмы отбирались в динамике до и после системной терапии и при плановых контрольных визитах после ЦЭ. [826] Clinical protocol. Patients diagnosed with locally advanced muscle-invasive bladder cancer (MIBC) scheduled for chemotherapy were prospectively recruited between 2013 and 2017. All patients received neoadjuvant chemotherapy or first-line chemotherapy before cystectomy (CE) and were followed for 2 years (FIG. 28). Plasma samples were collected over time before and after systemic therapy and at scheduled follow-up visits after CE.
[827] Молекулярный протокол. Соматические мутации, специфичные для пациента, были идентифицированы путем полноэкзомного секвенирования (ПЭС) опухоли и сопоставлялись с нормальными образцами. Персонализированные анализы мультиплексной ПЦР использовали для обнаружения специфичной для пациента ДНК опухоли в плазме с использованием скДНК из образцов плазмы, собранных в динамике. Для каждого пациента было выполнено секвенирование 16 опухолеспецифичных мишеней, и данные были проанализированы клинически слепым способом на наличие цоДНК. Образцы считались цоДНК положительными, если и только если в них были распознаны по меньшей мере две положительные мишени, специфичные для пациента, и которые соответствовали требуемому порогу доверительной оценки. Клинические результаты (рентгенографические изображения и ответ на лечение) не были слепыми и сравнивались непосредственно с результатами анализа плазмы Signatera. [827] Molecular protocol. Patient-specific somatic mutations were identified by whole exome sequencing (WES) of the tumor and compared with normal samples. Personalized multiplex PCR assays were used to detect patient-specific tumor DNA in plasma using cDNA from plasma samples collected over time. For each patient, 16 tumor-specific targets were sequenced and the data were analyzed in a clinically blinded manner for the presence of ctDNA. Samples were considered ctDNA positive if and only if they identified at least two positive patient-specific targets that met the required confidence threshold. Clinical results (radiographic images and response to treatment) were not blinded and were compared directly with the results of the Signatera plasma assay.
[828] Всего в исследование было включено 50 пациентов (Таблица 2). [828] A total of 50 patients were included in the study (Table 2).
[829] Таблица 2. Характеристики и демографические данные пациентов (N=50) [829] Table 2. Patient Characteristics and Demographics (N=50)
T4a/b T1/T2
T4a/b
7 (14)43 (86)
7 (14)
[830] Оперативный контроль качества секвенирования проводился в 5 циклах HiSeq PE 2x50; среднее значение на целевую глубину считывания и фоновую частоту ошибок показано на ФИГ.29. [830] On-line sequencing quality control was carried out in 5 cycles of HiSeq PE 2x50; the average of the target read depth and background error rate is shown in FIG. 29.
[831] Раннее обнаружение рецидива. Клинический рецидив после ЦЭ был диагностирован у десяти пациентов, а цоДНК была обнаружена в плазме у девяти из этих пациентов с медианным значением 128 дней до клинического рецидива. (Таблица 3). У одного пациента последний контрольный образец через 4 месяца после ЦЭ еще не анализировался. [831] Early detection of relapse. Clinical relapse after CE was diagnosed in ten patients, and ctDNA was detected in plasma in nine of these patients, with a median of 128 days to clinical relapse. (Table 3). In one patient, the last control sample 4 months after CE had not yet been analyzed.
[832] Таблица 3. Сравнение молекулярного и клинического рецидива (n=9). [832] Table 3. Comparison of molecular and clinical relapse (n=9).
№No.
[833] ФИГ.30A-F изображает 6 пациентов, у которых был выявлен ранний рецидив. цоДНК была обнаружена при ЧВА всего на уровне 0,02% во время молекулярного рецидива, время упреждения которого составляло до 265 дней до клинического рецидива (ФИГ. 30D, 30E и 30F). У большинства пациентов ответ на химиотерапию соответствовал снижению ЧВА цоДНК (Таблица 4).[833] FIGS. 30A-F depict 6 patients who showed early relapse. ctDNA was detected in FNA as low as 0.02% during molecular relapse, which had a lead time of up to 265 days before clinical relapse (FIGS. 30D, 30E and 30F). In most patients, the response to chemotherapy was consistent with a decrease in ctDNA FNA (Table 4).
[834] Таблица 4. Прогнозирование ответа на лечение после химиотерапии [834] Table 4. Prediction of response to treatment after chemotherapy
aПолучил химиотерапию первой линии перед ЦЭ. bИмел TUR-P перед TUR-B, опухоль T1 из уретры, простатическая часть. cОтвет на лечение определялся переходом от неоперабельного к операбельному состоянию после химиотерапии (несмотря на изменение стадии рака). ЧВА, частота вариантного аллеля; ЦЭ, цистэктомия; Н/О, не обнаружено. a Received first-line chemotherapy before CE. b Had TUR-P before TUR-B, T1 tumor from urethra, prostatic part. c Treatment response was defined as progression from unresectable to resectable status after chemotherapy (despite change in cancer stage). VVA, variant allele frequency; CE, cystectomy; N/A, not found.
[835] На ФИГ.32A-B изображены два пациента, у которых наблюдалась реакция на лечение с использованием цоДНК; цоДНК, обнаруженная первоначально при постановке диагноза, снизилась при неоадъювантном лечении и оставалась невыявляемой после ЦЭ.[835] FIGS. 32A-B depict two patients who responded to ctDNA treatment; ctDNA initially detected at diagnosis decreased with neoadjuvant treatment and remained undetected after CE.
[836] В заключение, эти данные демонстрируют, что анализ цоДНК (например, с помощью Signatera) может помочь получить информацию о реакции на лечение и выявить рецидивы заболевания на 265 дней раньше, чем при рентгенографии. Анализ выживаемости выявил достоверно более низкую безрецидивную выживаемость у пациентов с цоДНК на момент постановки диагноза или после цистэктомии. В конечном счете, анализ цоДНК может быть включен в рутинное наблюдение для раннего выявления рецидива и, следовательно, потенциально более раннего начала альтернативного лечения, такого как иммунотерапия. Положительное воздействие на общую выживаемость, достигнутое за счет выявления рецидива цоДНК, следует оценивать в рандомизированных клинических исследованиях.[836] In conclusion, these data demonstrate that ctDNA analysis (eg, with Signatera) can provide information about treatment response and detect disease relapse up to 265 days earlier than radiography. Survival analysis revealed significantly lower disease-free survival in patients with ctDNA at diagnosis or after cystectomy. Ultimately, ctDNA analysis may be included in routine surveillance for early detection of relapse and therefore potentially earlier initiation of alternative treatment such as immunotherapy. The beneficial impact on overall survival achieved through detection of ctDNA relapse should be assessed in randomized clinical trials.
[837] Пример 3. Высокочувствительный анализ неинвазивного выявления рецидивов рака и мониторинга терапии на основе специфической для пациента мультиплексной ПЦР, основанной на секвенировании следующего поколения (ССП) [837] Example 3: Highly Sensitive Assay for Non-Invasive Cancer Recurrence Detection and Therapy Monitoring Based on Patient-Specific Multiplex PCR Based on Next Generation Sequencing (NGS)
[838] Идентификация опухолевых мутаций в циркулирующей внеклеточной ДНК имеет большой потенциал для неинвазивного выявления рецидива рака до его клинического проявления, обнаружения минимального остаточного заболевания после радикального лечения и обнаружения терапевтически значимых мутаций. Анализировать и сообщать результаты аналитической валидации для выявления опухолеспецифических вариантов с помощью текущей версии анализа. [838] Identification of tumor mutations in circulating cell-free DNA has great potential for non-invasive detection of cancer recurrence before clinical manifestation, detection of minimal residual disease after curative treatment, and detection of therapeutically relevant mutations. Analyze and report results of analytical validation to identify tumor-specific variants using the current version of the assay.
[839] Signatera RUO. Процесс Signatera™ (RUO) начинается с выявления и назначения приоритетности соматических мутаций на основе полноэкзомного секвенирования опухоли и соответствующих нормальных образцов. Специфичные для пациента анализы мультиплексной ПЦР, нацеленные на 16 соматических однонуклеотидных вариантов и вариантов вставка/делеция, затем анализируются путем массового параллельного секвенирования образцов плазмы, собранных на протяжении всего течения болезни пациента, чтобы помочь обнаружить и контролировать циркулирующую опухолевую ДНК. [839] Signatera RUO. The Signatera™ (RUO) process begins with the identification and prioritization of somatic mutations based on whole exome sequencing of the tumor and corresponding normal samples. Patient-specific multiplex PCR assays targeting 16 somatic single nucleotide variants and insertion/deletion variants are then analyzed through massively parallel sequencing of plasma samples collected throughout the patient's disease course to help detect and monitor circulating tumor DNA.
[840] Аналитическая валидация. Аналитическая проверка текущей версии анализа Signatera (RUO) была проведена на двух линиях клеток рака молочной железы (HCC2218, HCC1395), одной клеточной линии рака легких (NCI-H1395) и их соответствующих нормальных аналогах (соответственно, HCC2218-BL, HCC1395-BL и NCI-H1395-BL). Различные количества ДНК линии опухолевых клеток (0; 0,005; 0,01; 0,03; 0,05; 0,1; 0,3; 0,5; 1%) титровали до соответствующей подходящей ДНК нормальной линии клеток. Пулы праймеров для мультиплексного ПЦР-анализа (каждый из которых состоит из 16 анализов пар праймеров, специфичных для соматических мутаций с высокой степенью достоверности) были разработаны с использованием данных всего экзома из соответствующей ДНК линии опухолевых клеток и соответствующей ДНК нормальной клеточной линии. Начальный общий ввод в подготовку библиотеки для каждой реакции составлял 20 тыс. геномных эквивалентов; мишени ОНВ и вставки/делеции из соответствующих образцов опухолевой ДНК были амплифицированы с использованием пулов праймеров для мультиплексной ПЦР, упомянутых выше. Продукты мПЦР получали штрих-коды, затем были объединены с другими продуктами мПЦР, и впоследствии секвенированы на Illumina HiSeq 2500 Rapid Run с 50 циклами парных считываний с использованием набора Illumina Paired End v2 со средней глубиной считывания ~100000/анализ. [840] Analytical validation. Analytical validation of the current version of the Signatera assay (RUO) was performed on two breast cancer cell lines (HCC2218, HCC1395), one lung cancer cell line (NCI-H1395) and their corresponding normal counterparts (HCC2218-BL, HCC1395-BL, and NCI-H1395-BL). Various amounts of tumor cell line DNA (0; 0.005; 0.01; 0.03; 0.05; 0.1; 0.3; 0.5; 1%) were titrated to match the corresponding normal cell line DNA. Primer pools for multiplex PCR analyzes (each consisting of 16 runs of primer pairs specific for high-confidence somatic mutations) were designed using whole-exome data from matched tumor cell line DNA and matched normal cell line DNA. The initial total input to library preparation for each reaction was 20 thousand genome equivalents; ONV targets and insertions/deletions from corresponding tumor DNA samples were amplified using the multiplex PCR primer pools mentioned above. The mPCR products were barcoded, then pooled with other mPCR products, and subsequently sequenced on an Illumina HiSeq 2500 Rapid Run with 50 cycles of paired reads using the Illumina Paired End kit v2 with an average read depth of ~100,000/assay.
[841] ФИГ.34 изображает последовательность проверок контроля качества процесса по 4 запускам HiSeq PE 2x50, включая фоновый переход и частоту ошибок преобразования, а также среднее значение на целевую глубину считывания (depth-of-reads - DOR) приблизительно 100тыс. (где любые мишени, получившие менее 5000 считываний, считались неудачными и не учитывались для распознавания).[841] FIG. 34 depicts a sequence of process quality control checks across 4 HiSeq PE 2x50 runs, including background transition and conversion error rates, and the average per depth-of-reads (DOR) of approximately 100K. (where any targets receiving fewer than 5000 reads were considered failures and were not considered for recognition).
[842] С Signatera (RUO) была достигнута аналитическая чувствительность ~60% для обнаружения при 0,03% добавленной опухолевой ДНК (Таблица 5). [842] With Signatera (RUO), an analytical sensitivity of ~60% for detection was achieved with 0.03% spiked tumor DNA (Table 5).
[843] Таблица 5. Результаты аналитической чувствительности для текущей версии Signatera (RUO) [843] Table 5. Analytical sensitivity results for the current version of Signatera (RUO)
[844] Для данного набора ОНВ количество ожидаемых процентов ввода по сравнению с обнаруженными процентными значениями частоты вариантного аллеля (ЧВА) для различных концентраций добавленной мутантной ДНК показано по 6 мишеням, демонстрируя высокую чувствительность выше 0,03% концентрации опухолевой ДНК (ФИГ.36). Ложноотрицательные результаты, показанные при вводе не более 0,01% ОНВ (начиная с менее 2 мутантных копий), включают мутантные молекулы, потерянные в результате забора образцов (ФИГ.36).[844] For a given set of SNVs, the number of expected input percentages versus detected variant allele frequency (VAF) percentages for various added mutant DNA concentrations is shown for 6 targets, demonstrating high sensitivity above 0.03% tumor DNA concentration (FIG. 36) . False negatives, shown with inputs of no more than 0.01% OHB (starting with less than 2 mutant copies), include mutant molecules lost as a result of sampling (FIG. 36).
[845] Расчетная чувствительность на уровне образца для Signatera (RUO) при распознавании по меньшей мере двух ОНВ из набора из 16 ОНВ с высокой степенью достоверности, указана в Таблице 6.[845] The estimated sample-level sensitivity for Signatera (RUO) for recognizing at least two NVGs from a set of 16 NVGs with high confidence is shown in Table 6.
[846] Таблица 6. Расчетная чувствительность на уровне образца [846] Table 6. Sample-level calculated sensitivity
[847] В заключение. Анализ Signatera RUO представляет собой новый способ неинвазивного обнаружения рецидива персонализированных сигнатур рака в плазме путем сверхглубокого мультиплексного секвенирования индивидуализированных ПЦР-анализов (выбранных для опухоли пациента) с высокой чувствительностью, высокой специфичностью и низкой частотой ошибок. Основываясь на результатах аналитической валидации, анализ Signatera RUO на уровне ОНВ имеет специфичность 99,9% и чувствительность более 65% при фракции опухоли свыше 0,03%, и чувствительность 100% при фракции опухоли свыше 0,1%. На уровне образца анализ Signatera RUO имеет чувствительность более 95% при фракции опухоли 0,01%, чувствительность почти 100% при фракции опухоли 0,03% и 100% чувствительность при фракции опухоли 0,05% и выше. Эти данные демонстрируют высокую степень обнаружения на уровне мутантных одиночных молекул; они также предполагают, что можно использовать более низкие объемы плазмы для достижения такого же обнаружения одиночных молекул с высокой специфичностью. Эффективность анализа Signatera предполагает возможность его применения для определения эффективности химиотерапевтического лечения.[847] In conclusion. The Signatera RUO assay is a new way to non-invasively detect recurrence of personalized cancer signatures in plasma through ultra-deep multiplex sequencing of customized PCR assays (selected for the patient's tumor) with high sensitivity, high specificity and low error rates. Based on analytical validation results, the Signatera RUO assay at the NBC level has a specificity of 99.9% and a sensitivity of more than 65% for tumor fractions greater than 0.03%, and a sensitivity of 100% for tumor fractions greater than 0.1%. At the sample level, the Signatera RUO assay has greater than 95% sensitivity at 0.01% tumor fraction, nearly 100% sensitivity at 0.03% tumor fraction, and 100% sensitivity at 0.05% tumor fraction and above. These data demonstrate high detection rates at the single-molecule mutant level; they also suggest that lower plasma volumes can be used to achieve the same single-molecule detection with high specificity. The performance of the Signatera assay suggests that it can be used to determine the effectiveness of chemotherapy treatments.
[848] Пример 4. Оценка в динамике мультиплексных индивидуальных биомаркеров цоДНК при раке мочевого пузыря для диагностики, наблюдения и выявления рецидива [848] Example 4. Dynamic evaluation of multiplex individual ctDNA biomarkers in bladder cancer for diagnosis, monitoring and detection of relapse
[849] Обоснование. Использование циркулирующей опухолевой ДНК (цоДНК) в качестве биомаркера для определения стадии заболевания при диагностике (DX), реакции на лечение и мониторинг рецидивов является новой областью для многих типов рака. При раке мочевого пузыря применение цоДНК показало многообещающие результаты. Раскрывается высокочувствительный и специфический подход к мониторингу цоДНК на основе ССП. [849] Justification. The use of circulating tumor DNA (ctDNA) as a biomarker to determine disease stage at diagnosis (DX), treatment response, and relapse monitoring is an emerging area for many cancer types. In bladder cancer, the use of ctDNA has shown promising results. A highly sensitive and specific approach to monitoring ctDNA based on SSP is revealed.
[850] Способы. Была проспективно включена когорта из 50 пациентов с местно-распространенным мышечно-инвазивным раком мочевого пузыря, получавших неоадъювантную химиотерапию. Для каждого пациента была разработана панель из 16 опухолеспецифических мутаций (SignateraTM RUO) на основе полноэкзомного секвенирования ДНК опухоли и зародышевой линии. В общей сложности мы проанализировали цоДНК из собранных в динамике образцов плазмы из 386 временных точек, полученных при диагностике, во время лечения, при цистэктомии (Сх) и во время мониторинга до рецидива заболевания или до 2 лет наблюдения. Результаты анализа цоДНК сравнивали с рентгенологическими данными и клиническими исходами. цоДНК из образцов мочи, собранных в динамике, также может быть проанализирована на предмет ответа на лечение и рецидива заболевания. [850] Methods. A cohort of 50 patients with locally advanced muscle-invasive bladder cancer treated with neoadjuvant chemotherapy was prospectively enrolled. A panel of 16 tumor-specific mutations (SignateraTM RUO) was developed for each patient based on whole exome sequencing of tumor and germline DNA. In total, we analyzed ctDNA from longitudinally collected plasma samples from 386 time points obtained at diagnosis, during treatment, at cystectomy (Cx), and during monitoring until disease relapse or up to 2 years of follow-up. The results of ctDNA analysis were compared with radiographic findings and clinical outcomes. ctDNA from urine samples collected over time can also be analyzed for treatment response and disease relapse.
[851] Результаты. При DX статус цоДНК в плазме был сильным прогностическим фактором безрецидивной выживаемости. В частности, 62% (8/13) пациентов с цоДНК+ при DX имели рецидив после неоадъювантного лечения и Сх; и наоборот, ни один (0/22) из пациентов с цоДНК- не имел рецидива (логарифмический ранг; p меньше 0,0001). Кроме того, также наблюдалась сильная корреляция между наличием цоДНК после Cx и рецидивом заболевания. В частности, рецидив после Cx был обнаружен у 100% (10/10) пациентов с цоДНК+ за приблизительно 120 дней (0-245 дней) до рентгенографии, в то время как у 0% (0/38) пациентов с цоДНК- был отмечен рецидив (логарифмический ранг); р меньше 0,0001).[851] Results. In DX, plasma ctDNA status was a strong predictor of disease-free survival. Specifically, 62% (8/13) of ctDNA+ patients on DX relapsed after neoadjuvant treatment and Cx; conversely, none (0/22) of the ctDNA- patients experienced relapse (log rank; p less than 0.0001). In addition, a strong correlation was also observed between the presence of ctDNA after Cx and disease relapse. Specifically, relapse after Cx was found in 100% (10/10) of ctDNA+ patients approximately 120 days (0–245 days) before radiography, while 0% (0/38) of ctDNA− patients had relapse noted (log rank); p less than 0.0001).
[852] Выводы. Был продемонстрирован значительный прогностический потенциал цоДНК при раке мочевого пузыря во время DX, что предполагает наличие роли цоДНК в стадировании рака мочевого пузыря. Кроме того, было показано, что цоДНК выявляется у всех пациентов с рецидивом заболевания после Сх. Включение анализа цоДНК в рутинное наблюдение для раннего выявления рецидива позволяет раньше начинать применение альтернативных способов лечения.[852] Conclusions. Significant prognostic potential of ctDNA in bladder cancer at the time of DX was demonstrated, suggesting a role for ctDNA in bladder cancer staging. In addition, it has been shown that ctDNA is detected in all patients with disease relapse after Cx. Including ctDNA analysis in routine monitoring for early detection of relapse allows for earlier initiation of alternative treatment methods.
[853] Пример 5. Серийный анализ циркулирующей опухолевой ДНК для выявления остаточной болезни, оценки эффективности адъювантной терапии и раннего выявления рецидивов колоректального рака [853] Example 5: Serial Analysis of Circulating Tumor DNA to Detect Residual Disease, Evaluate the Effectiveness of Adjuvant Therapy, and Early Detection of Recurrent Colorectal Cancer
[854] Обоснование. Было показано, что раннее обнаружение рецидива заболевания улучшает выживаемость пациентов с колоректальным раком (КРР). Предыдущие исследования анализировали циркулирующую опухолевую ДНК (цоДНК) для мониторинга опухолевой нагрузки при КРР с использованием небольших панелей генов и цифровой капельной ПЦР. В данном случае была использована персонализированная мультиплексная ПЦР и платформа ССП (Signatera™RUO) для обнаружения цоДНК в серийно собранных образцах плазмы, чтобы оценить, определяет ли обнаружение цоДНК подгруппу пациентов с высоким риском рецидива как до, так и после адъювантной химиотерапии (АХТ).[854] Justification. Early detection of disease recurrence has been shown to improve survival in patients with colorectal cancer (CRC). Previous studies have analyzed circulating tumor DNA (ctDNA) to monitor tumor burden in CRC using small gene panels and digital droplet PCR. Here, a personalized multiplex PCR and SSP platform (Signatera™RUO) was used to detect ctDNA in serially collected plasma samples to evaluate whether ctDNA detection identifies a subgroup of patients at high risk of relapse both before and after adjuvant chemotherapy (ACT).
[855] Способы. Была проанализирована когорта из 130 пациентов с I-IV стадией КРР, получавших лечение по стандарту медицинской помощи. Для каждого пациента были разработаны опухолеспецифические панели из 16 мутаций с использованием сигнатур соматических мутаций, полученных из ПЭС. Были проанализированы образцы плазмы (n=829), отобранные до и после операции, а также во время АХТ. Рассчитана безрецидивная выживаемость пациентов, стратифицированных по статусу цоДНК после операции (n=91) и после АХТ (n=58). [855] Methods. A cohort of 130 patients with stage I-IV colorectal cancer treated according to the standard of care was analyzed. Tumor-specific panels of 16 mutations were developed for each patient using somatic mutation signatures derived from the RPE. Plasma samples (n=829) collected before and after surgery, as well as during chemotherapy, were analyzed. Relapse-free survival was calculated for patients stratified by ctDNA status after surgery (n=91) and after chemotherapy (n=58).
[856] Результаты. Статус цоДНК после операции, но до АХТ, оценивали у 91 пациента. Рецидив наблюдался у 75% (6/8) пациентов с цоДНК+ и только у 13% (11/83) пациентов с цоДНК-. Эффективное лечение при помощи АХТ наблюдалось у 30% (3/10) послеоперационных больных цоДНК+. Они постоянно имели статус цоДНК- в серийных образцах крови, взятых после АХТ, и, соответственно, не имели рецидивов в конце периода наблюдения. Статус цоДНК после АХТ оценен у 58 пациентов. Рентгенологически подтвержденный рецидив отмечен у 77% (10/13) пациентов с цоДНК+ и у 4% (2/45) пациентов с цоДНК-. В среднем цоДНК выявляет рецидив на 9,13 месяца раньше, чем при стандартной компьютерной томографии.[856] Results. ctDNA status after surgery but before chemotherapy was assessed in 91 patients. Relapse was observed in 75% (6/8) of patients with ctDNA+ and only in 13% (11/83) of patients with ctDNA-. Effective treatment with AChT was observed in 30% (3/10) of postoperative ctDNA+ patients. They consistently had ctDNA- status in serial blood samples taken after chemotherapy and, accordingly, had no relapses at the end of the observation period. The ctDNA status after chemotherapy was assessed in 58 patients. Radiologically confirmed relapse was observed in 77% (10/13) of patients with ctDNA+ and in 4% (2/45) of patients with ctDNA-. On average, ctDNA detects relapse 9.13 months earlier than standard CT scanning.
[857] Выводы. Серийный послеоперационный анализ цоДНК позволяет разделить пациентов на подгруппы с высоким или низким риском рецидива, оценить эффективность лечения АХТ и обеспечить раннее выявление рецидива. Важно отметить, что это также указывает на то, что АХТ может устранить остаточную болезнь у 30% послеоперационных пациентов с цоДНК+ и, следовательно, может быть вариантом лечения для пациентов с цоДНК+. Таким образом, анализ цоДНК имеет большой потенциал для определения решений о лечении, как в адъювантных, так и в постадъювантных условиях.[857] Conclusions. Serial postoperative ctDNA analysis allows dividing patients into subgroups with high or low risk of relapse, assessing the effectiveness of AChT treatment and ensuring early detection of relapse. Importantly, this also indicates that ACT can eliminate residual disease in 30% of postoperative ctDNA+ patients and may therefore be a treatment option for ctDNA+ patients. Thus, ctDNA analysis has great potential to guide treatment decisions in both adjuvant and post-adjuvant settings.
[858] Пример 6. Раннее обнаружение остаточного рака молочной железы (РМЖ) с помощью надежного, масштабируемого и персонализированного анализа циркулирующей опухолевой ДНК (цоДНК) предшествует выраженному метастатическому рецидиву [858] Example 6: Early detection of residual breast cancer (BC) using reliable, scalable and personalized circulating tumor DNA (ctDNA) analysis precedes significant metastatic recurrence
[859] Обоснование. У многих пациентов с РМЖ наблюдается рецидив после первичного лечения, но отсутствуют надежные тесты для выявления отдаленных метастазов до того, как они станут явными. В нашем варианте продемонстрировано более раннее выявление рецидивирующих пациентов с помощью персонализированного анализа цоДНК. Способ применим ко всем пациентам и не ограничивается мутациями горячих точек, которые обычно обнаруживают с помощью генных панелей.[859] Justification. Many patients with breast cancer experience recurrence after primary treatment, but there are no reliable tests to detect distant metastases before they become apparent. Our variant demonstrated earlier identification of relapsed patients using personalized ctDNA analysis. The method is applicable to all patients and is not limited to hot spot mutations that are typically detected using gene panels.
[860] Способы. Было набрано 49 пациентов с неметастатическим РМЖ после хирургического вмешательства и адъювантной терапии. Образцы плазмы (n=208) собирали серийно раз в полгода. Используя аналитически подтвержденный рабочий процесс SignateraTM, мутационные сигнатуры определяли на основе данных всего экзома первичной опухоли и путем сверхглубокого секвенирования (в среднем, более 100000X).были разработаны персонализированные анализы с высокой чувствительностью, нацеленные на 16 вариантов. Для того, чтобы определить, можно ли обнаружить мутационную сигнатуру в плазме, использовали анализ каждого пациента. Все пациенты, кроме 5, получали химиотерапию, а остальные 5 получали лучевую терапию.[860] Methods. Forty-nine patients with non-metastatic breast cancer after surgery and adjuvant therapy were recruited. Plasma samples (n=208) were collected serially every six months. Using the analytically validated SignateraTM workflow, mutational signatures were determined from whole-exome data from the primary tumor and through ultra-deep sequencing (on average greater than 100,000X) and highly sensitive personalized assays were developed targeting 16 variants. A patient-by-patient assay was used to determine whether a mutational signature could be detected in plasma. All but 5 patients received chemotherapy, and the remaining 5 received radiation therapy.
[861] Результаты. У 16 из 18 (89%) пациентов с клиническим рецидивом цоДНК была обнаружена перед метастатическим рецидивом, диагностированным путем клинического обследования и биохимическими измерениями (CA15-3), и цоДНК оставалась положительной при последующем наблюдении. Из 2 пациентов с невыявленной цоДНК у одного был местный рецидив, а у другого две первичные опухоли. Ни один из 33 безрецидивных пациентов не был положительным по цоДНК в любой временной точке (n=142). Метастатический рецидив был предсказан Signatera с высокой точностью и временем упреждения до 2 лет (медиана = 9,5 месяцев). Резюме этих результатов представлено на ФИГ. 37. Подробные результаты показаны на ФИГ. 38-59.[861] Results. In 16 of 18 (89%) patients with clinical relapse, ctDNA was detected before metastatic relapse diagnosed by clinical examination and biochemical measurements (CA15-3), and ctDNA remained positive at follow-up. Of the 2 patients with undetected ctDNA, one had a local recurrence and the other had two primary tumors. None of the 33 disease-free patients were ctDNA positive at any time point (n=142). Metastatic recurrence was predicted with high accuracy by Signatera and a lead time of up to 2 years (median = 9.5 months). A summary of these results is presented in FIG. 37. Detailed results are shown in FIG. 38-59.
[862] Выводы. Использование масштабируемого валидированного рабочего процесса на основе цоДНК, ориентированного на конкретного пациента, позволяет раньше идентифицировать пациентов, у которых возникнет рецидив. Точный и более ранний прогноз с помощью анализа цоДНК может обеспечить средство мониторинга пациентов с раком молочной железы, нуждающихся в вспомогательной адъювантной терапии второй линии, чтобы предотвратить выраженное, угрожающее жизни метастатическое прогрессирование. [862] Conclusions. Using a scalable, validated, patient-specific ctDNA workflow allows for earlier identification of patients who will relapse. Accurate and earlier prognosis using ctDNA analysis may provide a means of monitoring breast cancer patients requiring second-line adjuvant therapy to prevent advanced, life-threatening metastatic progression.
[863] Представленные в данном документе результаты демонстрируют, что способы на основе обнаружения персонализированного маркера рака/циркулирующей опухолевой ДНК в образце крови пациента очень чувствительны в прогнозировании рецидива рака молочной железы. Например, 16 из 18 случаев рецидива были верно предсказаны, и ложноположительных результатов отмечено не было. Способы также очень последовательны. После того, как обнаружен положительный результат, последующий образец крови от того же пациента остается неизменно положительным.[863] The results presented herein demonstrate that methods based on the detection of a personalized cancer marker/circulating tumor DNA in a patient's blood sample are very sensitive in predicting breast cancer recurrence. For example, 16 of 18 cases of relapse were correctly predicted, and no false positives were noted. The methods are also very consistent. Once a positive result is detected, a subsequent blood sample from the same patient remains consistently positive.
[864] Способы позволяют обнаруживать персонализированный маркер рака/циркулирующую опухолевую ДНК и прогнозировать рецидив, например, за 27-610 дней до обнаружения рецидива с помощью стандартных способов (например, визуализации). Медианное время выявления рецидива составляет 9 месяцев до того, как рецидив обнаруживается стандартными способами.[864] The methods allow detection of a personalized cancer marker/circulating tumor DNA and prediction of relapse, for example, 27-610 days before detection of relapse using standard methods (eg, imaging). The median time to detect relapse is 9 months before relapse is detected by standard methods.
[865] Пример 7. Персонализированный серийный анализ циркулирующей опухолевой ДНК (цоДНК) у пациентов с высоким риском рака молочной железы на ранней стадии для мониторинга и прогнозирования ответа на неоадъювантную терапию (НАТ) и исхода в исследовании I-SPY2 TRIAL [865 ] Example 7: Personalized Serial Analysis of Circulating Tumor DNA (ctDNA) in High-Risk Early Stage Breast Cancer Patients to Monitor and Predict Response to Neoadjuvant Therapy (NAT) and Outcome in the I-SPY2 TRIAL Study
[866] Обоснование. Анализ цоДНК предлагает неинвазивный подход к мониторингу ответа и устойчивости к лечению. Серийное тестирование цоДНК во время НАТ может предоставить ранние индикаторы возникающей резистентности и прогрессирования заболевания. В этом исследовании цоДНК была проанализирована у пациентов с ранним раком молочной железы с высоким риском, получивших НАТ и радикальную операцию в исследовании I-SPY2 TRIAL (NCT01042379). Данные, собранные в этом примере, будут использоваться для: (1) определения взаимосвязи между уровнями цоДНК во время раннего лечения и полным патологическим ответом/остаточной раковой нагрузкой/отдаленной выживаемостью без рецидивов; (2) сравнения эффективности цоДНК и МРТ в прогнозировании ответа опухоли на терапию; и (3) изучения взаимосвязи уровней цоДНК до и после НАТ с 3-летней выживаемостью без событий (event-free survival - EFS).[866] Justification. ctDNA analysis offers a noninvasive approach to monitoring treatment response and resistance. Serial ctDNA testing during NAT may provide early indicators of emerging resistance and disease progression. In this study, ctDNA was analyzed in patients with high-risk early breast cancer who received NAT and radical surgery in the I-SPY2 TRIAL (NCT01042379). Data collected in this case study will be used to: (1) determine the relationship between ctDNA levels during early treatment and pathological complete response/residual cancer burden/long-term recurrence-free survival; (2) comparing the effectiveness of ctDNA and MRI in predicting tumor response to therapy; and (3) studying the relationship of ctDNA levels before and after NAT with 3-year event-free survival (EFS).
[867] Способы. Анализ цоДНК был проведен у 84 пациентов с раком молочной железы II и III стадии с высоким риском, рандомизированных по неоадъювантному исследуемому агенту (n = 57), ингибитору AKT MK-2206 (M) в комбинации с паклитакселом (T), а затем к доксорубицину и циклофосфамиду (AC). (M + T-> AC) или стандарт лечения (T-> AC) (n = 27). Пациенты с HER2 + получали трастузумаб (H) в дополнение к T или M + T. [867] Methods. ctDNA analysis was performed in 84 patients with high-risk stage II and III breast cancer randomized to neoadjuvant investigational agent (n = 57), the AKT inhibitor MK-2206 (M) in combination with paclitaxel (T), and then to doxorubicin and cyclophosphamide (AC). (M+T->AC) or standard of care (T->AC) (n = 27). HER2+ patients received trastuzumab (H) in addition to T or M+T.
[868] Серийную плазму собирали до НАТ, в начале лечения (3 недели), между схемами (12 недель) и после НАТ перед операцией. Мутационные профили, полученные из биопсии опухоли перед лечением и полноэкзомные последовательностей ДНК зародышевой линии, были использованы для разработки персонализированных анализов, нацеленных на 16 вариантов, специфичных для опухоли пациента, для обнаружения цоДНК в плазме. В подгруппе пациентов, у которых не наблюдалось полного патологического ответа (n = 18-22), мутации в остаточном раке сравнивали с мутациями, обнаруженными в опухоли до лечения.[868] Serial plasma was collected before NAT, at the start of treatment (3 weeks), between regimens (12 weeks) and after NAT before surgery. Mutational profiles obtained from pre-treatment tumor biopsies and whole-exome germline DNA sequences were used to develop personalized assays targeting 16 patient tumor-specific variants to detect ctDNA in plasma. In the subgroup of patients who did not experience a complete pathological response (n = 18–22), mutations in residual cancer were compared with mutations detected in the tumor before treatment.
[869] Анализ: Из 84 пациентов в этом анализе 15-25% имели HR-HER2-, 40-60% H+ HER2- и 35-35% - HER2+. Из них 20-25% и 30-42% достигли полного патологического ответа, соответственно, в контрольной и лечебной группах. В настоящее время данные собираются для: (1) определения взаимосвязи между уровнями цоДНК во время раннего лечения и полным патологическим ответом/остаточной раковой нагрузкой/отдаленной выживаемостью без рецидивов; (2) сравнения эффективности цоДНК и МРТ в прогнозировании ответа опухоли на терапию; (3) изучения взаимосвязи уровней цоДНК до и после НАТ с 3-летней бессобытийной выживаемостью (EFS). [869] Analysis: Of the 84 patients in this analysis, 15-25% were HR-HER2-, 40-60% H+ HER2- and 35-35% were HER2+. Of these, 20-25% and 30-42% achieved pathological complete response, respectively, in the control and treatment groups. Data are currently being collected to: (1) determine the relationship between ctDNA levels during early treatment and pathological complete response/residual cancer burden/long-term recurrence-free survival; (2) comparing the effectiveness of ctDNA and MRI in predicting tumor response to therapy; (3) studying the relationship of pre- and post-NAT ctDNA levels with 3-year event-free survival (EFS).
[870] Выводы. Это исследование предоставляет платформу для оценки клинической значимости цоДНК для серийного мониторинга ответа на НАТ. Точный и ранний прогноз ответа с помощью высокочувствительного анализа цоДНК может способствовать своевременному и разумному изменению лечения для того, чтобы повысить шансы пациентов на достижение полного патологического ответа. Наконец, персонализированное тестирование цоДНК может дополнять визуализацию и патологическую оценку ответа опухоли для оптимизации полного патологического ответа в качестве суррогатной конечной точки для улучшения EFS.[870] Conclusions. This study provides a platform to evaluate the clinical relevance of ctDNA for serial monitoring of response to NAT. Accurate and early prediction of response using highly sensitive ctDNA analysis can facilitate timely and intelligent treatment changes to improve patients' chances of achieving pathological complete response. Finally, personalized ctDNA testing can complement imaging and pathological assessment of tumor response to optimize pathological complete response as a surrogate endpoint for improving EFS.
[871] Пример 8. Раннее выявление остаточного рака молочной железы с помощью масштабируемого и персонализированного анализа циркулирующей опухолевой ДНК (цоДНК) предшествует выраженному метастатическому рецидиву. [871] Example 8: Early detection of residual breast cancer using scalable and personalized circulating tumor DNA (ctDNA) analysis precedes significant metastatic recurrence.
[872] ВВЕДЕНИЕ [872] INTRODUCTION
[873] Рак молочной железы является одним из наиболее часто диагностируемых онкологических заболеваний во всем мире и второй по значимости причиной смерти женщин от рака. В настоящее время стандартом лечения женщин с неметастатическим раком молочной железы является хирургическое вмешательство, за которым часто следует адъювантная терапия для устранения микроскопических остаточных заболеваний, которые могут привести к рецидиву или дальнейшему прогрессированию заболевания. К сожалению, у до 30% женщин, у которых нет признаков заболевания после радикального лечения, в конечном итоге обнаруживается рецидив, и они умирают от метастатического рака молочной железы в результате микрометастазов. Современные инструменты для мониторинга заболеваний, включая способы визуализации и/или биохимические способы (включая уровни ракового антигена 15-3 (CA15-3) в сыворотке), обладают ограниченной чувствительностью и точностью при обнаружении микрометастазов. Позднее обнаружение метастазов связано с плохими результатами у многих пациентов, что подчеркивает необходимость разработки более ранних и более чувствительных показателей минимальной остаточной болезни (МОБ).[873] Breast cancer is one of the most commonly diagnosed cancers worldwide and the second leading cause of cancer death in women. The current standard of care for women with nonmetastatic breast cancer is surgery, often followed by adjuvant therapy to eliminate microscopic residual disease that may lead to recurrence or further disease progression. Unfortunately, up to 30% of women who remain disease-free after curative treatment eventually relapse and die from metastatic breast cancer due to micrometastases. Current disease monitoring tools, including imaging and/or biochemical methods (including serum cancer antigen 15-3 (CA15-3) levels), have limited sensitivity and accuracy in detecting micrometastases. Late detection of metastases is associated with poor outcomes in many patients, highlighting the need to develop earlier and more sensitive measures of minimal residual disease (MRD).
[874] Циркулирующая опухолевая ДНК (цоДНК), высвобождаемая апоптотическими и некротическими раковыми клетками, как было обнаружено, отражает мутационные сигнатуры опухоли и становится потенциальным неинвазивным биомаркером для мониторинга прогрессирования опухоли при различных типах рака. При раке молочной железы использование цоДНК для выявления минимальной остаточной болезни после хирургического вмешательства и/или адъювантной терапии, а также для мониторинга метастатического заболевания дало многообещающие результаты. В частности, было показано, что уровни цоДНК в плазме коррелируют с изменениями в массе опухоли, тем самым обеспечивая более раннюю оценку ответа на лечение и позволяя различать пациентов с клиническим рецидивом после операции и без него. Хотя многочисленные исследования документально подтвердили потенциальное использование анализа цоДНК при раке молочной железы, на сегодняшний день нет масштабируемых тестов, способных надежно обнаруживать минимальную остаточную болезнь у всех пациентов. [874] Circulating tumor DNA (ctDNA) released by apoptotic and necrotic cancer cells has been found to reflect tumor mutational signatures and is emerging as a potential non-invasive biomarker for monitoring tumor progression in various cancer types. In breast cancer, the use of ctDNA to detect minimal residual disease after surgery and/or adjuvant therapy and to monitor metastatic disease has shown promising results. In particular, plasma ctDNA levels have been shown to correlate with changes in tumor burden, thereby providing earlier assessment of response to treatment and allowing discrimination between patients with and without clinical relapse after surgery. Although numerous studies have documented the potential use of ctDNA analysis in breast cancer, to date there are no scalable tests that can reliably detect minimal residual disease in all patients.
[875] Персонализированный опухолеспецифический подход к исследованию однонуклеотидных вариантов и вариантов ВСТАВКА/ДЕЛЕЦИЯ в скДНК плазмы предсказал рецидив у пациентов с немелкоклеточным раком легкого до клинического обнаружения, что позволяет предположить, что это также может быть подходящим способом для мониторинга минимальной остаточной болезни у пациентов с раком молочной железы. в данном документе, используя расширенную и масштабируемую версию этого подхода, мы стремились определить использование серийного анализа цоДНК для мониторинга рецидива рака молочной железы после хирургического вмешательства и адъювантной терапии по сравнению с традиционными методами мониторинга. Основная цель заключалась в определении «упреждающего интервала» между обнаружением цоДНК в плазме крови и клиническим обнаружением выраженного метастатического заболевания у пациентов с первичным раком молочной железы.[875] A personalized tumor-specific approach examining single nucleotide and INSERT/DELETION variants in plasma cDNA predicted relapse in patients with non-small cell lung cancer before clinical detection, suggesting that it may also be a suitable method for monitoring minimal residual disease in patients with cancer mammary gland. Here, using an expanded and scalable version of this approach, we sought to determine the use of serial ctDNA analysis for monitoring breast cancer recurrence after surgery and adjuvant therapy compared with traditional monitoring methods. The primary objective was to determine the “lead interval” between detection of ctDNA in plasma and clinical detection of advanced metastatic disease in patients with primary breast cancer.
[876] СПОСОБЫ [876] METHODS
[877] Пациенты и образцы [877] Patients and samples
[878] EBLIS представляет собой многоцентровое ожидаемое когортное исследование (номер NIHR REC - 13/LO/1152; IRAS: 126462), финансируемое Cancer Research UK и Национальным институтом медицинских исследований (NIHR). Все пациенты дали письменное информированное согласие до начала исследования. Протокол исследования был одобрен Комитетом по этике исследований Риверсайда (Riverside Research Ethics Committee - REC): 13/LO/115; IRAS: 126462. Весь исследовательский и технический персонал не знал о результатах лечения пациентов.[878] EBLIS is a multicentre prospective cohort study (NIHR REC number 13/LO/1152; IRAS: 126462) funded by Cancer Research UK and the National Institute for Health Research (NIHR). All patients provided written informed consent before the start of the study. The study protocol was approved by the Riverside Research Ethics Committee (REC): 13/LO/115; IRAS: 126462. All research and technical staff were blinded to patient outcomes.
[879] Всего мы набрали 197 пациентов из 3 центров Великобритании. Девять пациентов не соответствовали критериям включения в исследование; таким образом, когорта из 188 пациентов наблюдалась с 6-месячным забором крови на цоДНК вместе с сопутствующим клиническим обследованием и биохимическими измерениями, включая CA153 (ФИГ.60). Подходящие пациенты должны были быть 18 лет и старше, не иметь клинических признаков метастатического заболевания и, следовательно, считаться здоровыми после операции и адъювантной химиотерапии. Все они прошли адъювантную химиотерапию в течение 5 лет после включения в исследование. У всех был рак молочной железы высокого риска (риск смерти более 50% через 10 лет без лечения, что соответствует частоте рецидивов 65% через 10 лет без лечения). [879] We recruited a total of 197 patients from 3 UK centers. Nine patients did not meet study inclusion criteria; Thus, a cohort of 188 patients was followed up with 6-month ctDNA blood sampling along with concomitant clinical examination and biochemical measurements including CA153 (FIG. 60). Eligible patients had to be 18 years or older, have no clinical evidence of metastatic disease, and therefore be considered healthy after surgery and adjuvant chemotherapy. All of them received adjuvant chemotherapy within 5 years after inclusion in the study. All had high-risk breast cancer (risk of death greater than 50% after 10 years without treatment, corresponding to a recurrence rate of 65% after 10 years without treatment).
[880] середине исследования (2 года), после промежуточного анализа и с учетом того, что наблюдалось 50% предсказанных событий, мы решили провести полноэкзомный анализ первичной опухоли у первых 50 пациентов. [880] At the midpoint of the study (2 years), after the interim analysis and given that 50% of the predicted events were observed, we decided to perform a whole-exome analysis of the primary tumor in the first 50 patients.
[881] Образцы крови собирали в пробирки с K2-EDTA. Образцы обрабатывали в течение 2 часов после забора путем двойного центрифугирования крови, сначала в течение 10 минут при 1000 g, затем плазмы в течение 10 минут при 2000 g. Плазму хранили в виде аликвот по 1 мл при минус 80 °C. [881] Blood samples were collected in K2-EDTA tubes. Samples were processed within 2 hours of collection by double centrifugation of blood, first for 10 minutes at 1000 g, then plasma for 10 minutes at 2000 g. Plasma was stored in 1 ml aliquots at −80°C.
[882] Платформа Signatera™ RUO. Весь исследовательский и технический персонал не знали результатов лечения пациентов, и анализы проводились слепым способом. Строго контролируемый полуавтоматический лабораторный процесс выполнялся обученным персоналом с подписанными СОП и засвидетельствованием. Все реагенты и оборудование были проверены и аттестованы перед поступлением в процесс обработки Signatera™ RUO. Информация о процессе и реагентах/оборудовании фиксировалась в электронном виде и загружалась в базу данных со встроенными проверками целостности. Контроль качества проводился на каждом этапе рабочего процесса (ФИГ.67A-D). Образцы и ампликоны, не прошедшие контроль качества, были исключены из анализа. Для каждого пациента был генотипирован набор из 45 ОНП в ПЭС и секвенировании плазмы для обеспечения соответствия образцов. Данные ПЭС были использованы для разработки индивидуальной панели соматических мутаций для всех 49 пациентов. Всего на определение цоДНК было проанализировано 215 проб плазмы. Для каждого целевого варианта рассчитывалась оценка достоверности на основе глубины считывания мутантных и эталонных аллелей. Образец плазмы с двумя и более высоко достоверными вариантами считался цоДНК-положительным. Подробная информация об этапах рабочего процесса Signatera представлена ниже.[882] Signatera™ RUO platform. All research and technical personnel were blinded to the patient outcomes, and the analyzes were performed in a blinded manner. A strictly controlled semi-automated laboratory process was performed by trained personnel with signed SOPs and witnessing. All reagents and equipment have been tested and qualified before entering the Signatera™ RUO process. Process and reagent/equipment information was captured electronically and loaded into a database with built-in integrity checks. Quality control was carried out at each stage of the work process (FIG. 67A-D). Samples and amplicons that failed quality control were excluded from analysis. For each patient, a set of 45 SNPs were genotyped in PES and plasma sequencing to ensure sample matching. The PES data were used to develop a customized somatic mutation panel for all 49 patients. A total of 215 plasma samples were analyzed for ctDNA determination. For each target variant, a confidence score was calculated based on the read depth of the mutant and reference alleles. A plasma sample with two or more highly significant variants was considered ctDNA positive. Details of the Signatera workflow steps are provided below.
[883] Статистические анализы [883] Statistical analyzes
[884] Все данные были представлены описательно как средние, медианы или пропорции. Безрецидивную выживаемость со дня включения в исследование определяли с использованием способа Каплана-Мейера. Для моделирования времени до рецидива заболевания использовался регрессионный анализ пропорциональных рисков Кокса. Все статистические анализы были выполнены с использованием Stata, выпуск 12.0 (Stata Corp., College Station, Texas, США), и графики выживаемости были сгенерированы с использованием R версия 3.5.1 (пакет “survminer” версия 0.4.2.99).[884] All data were presented descriptively as means, medians or proportions. Disease-free survival from the date of inclusion in the study was determined using the Kaplan-Meier method. Cox proportional hazards regression analysis was used to model time to disease relapse. All statistical analyzes were performed using Stata, release 12.0 (Stata Corp., College Station, Texas, USA), and survival plots were generated using R version 3.5.1 (package “survminer” version 0.4.2.99).
[885] Была использована консервативная стратегия обработки недостающих непрерывных данных. Если отдельные точки данных отсутствовали, последнее наблюдение переносилось на будущее или, если предыдущие и последующие данные были доступны, то среднее из этих двух значений служило оценкой отсутствующих данных. [885] A conservative strategy for handling missing continuous data was used. If individual data points were missing, the last observation was carried forward or, if previous and subsequent data were available, then the average of these two values served as the missing data estimate.
[886] Полноэкзомное секвенирование [886] Whole exome sequencing
[887] Диагностические FFPE блоки проверяли путем визуальной инспекции и для выделения ДНК использовали блок с наибольшей остаточной опухолью. Единичный гематоксилин-эозиновый срез опухоли исследовал консультант-гистопатолог (D M) и по меньшей мере 2 области опухоли подвергали макроскопическому препарированию с использованием 1 мм микрочиповой иглы для пункционной биопсии. ДНК экстрагировали из ядер FFPE опухоли с использованием набора Gene Read (Qiagen) в соответствии с инструкциями производителя, и концентрацию ДНК измеряли, как описано ранее. [887] Diagnostic FFPE blocks were checked by visual inspection and the block with the largest residual tumor was used for DNA extraction. A single hematoxylin and eosin section of the tumor was examined by a consultant histopathologist (D M) and at least 2 areas of the tumor were grossly dissected using a 1 mm microarray needle biopsy. DNA was extracted from FFPE tumor cores using the Gene Read kit (Qiagen) according to the manufacturer's instructions, and DNA concentration was measured as previously described.
[888] Illumina HiSeq был использован для выполнения полноэкзомного секвенирования на 200-500 нг объединенной опухолевой ДНК из 1-3 областей, сформированных из каждого FFPE блока первичной опухоли (секвенирование выполнялось Novogen как плата за услугу, при средней глубине целевого считывания с дедупликацией 150x для всех 49 опухолевых ДНК и 50x для 49 соответствующих образцов зародышевой линии. Все данные секвенирования депонированы в Европейском архиве генома-фенома. [888] Illumina HiSeq was used to perform whole-exome sequencing on 200–500 ng of pooled tumor DNA from 1–3 regions generated from each FFPE block of the primary tumor (sequencing was performed by Novogen as a fee-for-service, at an average target read depth with 150x deduplication for all 49 tumor DNAs and 50x for 49 corresponding germline samples.All sequencing data are deposited in the European Genome-Phenome Archive.
[889] Индивидуальный дизайн панели. Соматические варианты, специфичные для каждого пациента, были идентифицированы путем анализа первичной опухоли и соответствовали нормальному ПЭС для всех 49 пациентов. Клональность вариантов была выведена на основании расчетной доли раковых клеток, несущих вариант. Предполагаемая клональность и типы вариантов были использованы для приоритетных соматических ОНВ и коротких вставок/делеций, идентифицированных для каждой опухоли. Для создания праймеров для ПЦР для данного набора вариантов использовался стандартный процесс обработки анализов Signatera. Для каждого пациента было выбрано 16 высокорейтинговых совместимых анализов для индивидуальной панели конкретного пациента. Специализированные для пациента 16-плексные ПЦР-анализы заказывали у Integrated DNA Technologies. [889] Custom panel design. Somatic variants specific to each patient were identified by analysis of the primary tumor and corresponded to normal PES for all 49 patients. The clonality of variants was inferred from the estimated proportion of cancer cells harboring the variant. Inferred clonality and variant types were used for the prioritized somatic SNVs and short insertions/deletions identified for each tumor. Standard Signatera assay processing was used to generate PCR primers for this set of variants. For each patient, 16 high-ranking compatible assays were selected for the individual patient-specific panel. Patient-specific 16-plex PCR assays were ordered from Integrated DNA Technologies.
[890] Экстракция и количественное определение скДНК. Для этого исследования было доступно до 8 мл плазмы на случай (диапазон 1-8 мл; медиана 5 мл). Для экстракции скДНК был использован весь объем плазмы. скДНК экстрагировали с применением набора QIAamp Circulating Nucleic Acid kit (Qiagen) и элюировали в 50 мкл буфера для суспензии ДНК (Sigma). Проводили количественное определение каждого образца скДНК с помощью набора Quant-iT High Sensitivity dsDNA Assay Kit (Invitrogen). У 49 пациентов скДНК была выделена из 215 серийных образцов плазмы.[890] Extraction and quantification of cDNA. Up to 8 mL of plasma per case was available for this study (range, 1–8 mL; median, 5 mL). The entire volume of plasma was used for scDNA extraction. scDNA was extracted using the QIAamp Circulating Nucleic Acid kit (Qiagen) and eluted in 50 μl of DNA suspension buffer (Sigma). Each cDNA sample was quantified using the Quant-iT High Sensitivity dsDNA Assay Kit (Invitrogen). In 49 patients, cDNA was isolated from 215 serial plasma samples.
[891] Приготовление библиотеки скДНК. В качестве исходных данных для подготовки пользовательской библиотеки использовалось до 66 нг (20000 геномных эквивалентов) скДНК из каждого образца плазмы. Бесклеточная ДНК была подвергнута репарации на концах, наращиванию A-хвостов и лигированию с помощью специальных адапторов. Очищенный продукт лигирования амплифицировали в течение 20 циклов, очищали с использованием микрогранул Ampure XP beads (Agencourt/Beckman Coulter).[891]Preparation of scDNA library.Up to 66 ng (20,000 genome equivalents) of scDNA from each plasma sample was used as input for custom library preparation. Cell-free DNA was subjected to end repair, A-tail extension, and ligation using special adapters.The purified ligation product was amplified for 20 cycles, purified using Ampure XP beads microbeads (Agencourt/Beckman Coulter).
[892] Рабочий процесс ССП в мультиплексной ПЦР. Аликвоту каждой библиотеки использовали в качестве ввода для специфичной для пациента реакции 16-плексной ПЦР. Образцы были амплифицированы с использованием опухолеспецифического анализа Signatera и закодированы при помощи штрих-кода, а затем объединены. Секвенирование проводили на Illumina HiSeq 2500 Rapid Run с 50 циклами считывания спаренных концов с использованием набора Illumina Paired Ends v2 со средней глубиной считывания более 100000X на ампликон. [892] SSP workflow in multiplex PCR. An aliquot of each library was used as input for a patient-specific 16-plex PCR reaction. Samples were amplified using the Signatera tumor-specific assay and barcoded and then pooled . Sequencing was performed on an Illumina HiSeq 2500 Rapid Run with 50 paired-end read cycles using the Illumina Paired Ends v2 kit with an average read depth of >100,000X per amplicon.
[893] Процесс обработки биоинформатики. Все считывания парных концов были объединены с использованием программного обеспечения Pear. Основания, которые не совпадали при прямом и обратном считывании или имели низкий показатель качества, были отфильтрованы с тем, чтобы минимизировать ошибки секвенирования. Объединенные считывания были сопоставлены с эталонным геномом hg19 с помощью Novoalign версия 2.3.4. Ампликоны с менее 5000 считываниями высокого качества считались не прошедшими контроль качества. Контроль качества выполнялся с помощью собственной программы, проверяющей широкий список статистических данных для каждой выборки, который включал общее количество считываний, картированных считываний, целевых считываний, количество неудачных мишеней и среднюю частоту ошибок (ФИГ.67A-D)[893] Bioinformatics Processing Process. All paired-end reads were merged using Pear software. Bases that did not match forward and reverse reads or had a low quality score were filtered out to minimize sequencing errors. The merged reads were aligned to the hg19 reference genome using Novoalign version 2.3.4. Amplicons with fewer than 5000 high-quality reads were considered to fail quality control. Quality control was performed using a proprietary program that checked a comprehensive list of statistics for each sample, which included total reads, mapped reads, targeted reads, number of failed targets, and average error rate (FIG. 67A-D)
[894] Распознавание плазматических вариантов. Для построения модели фоновой ошибки для конкретного варианта был предварительно обработан большой набор образцов отрицательного контроля (~1000). Оценка достоверности была рассчитана для каждого целевого варианта с использованием мутантных и референтных аллелей на основе модели ошибок, документ полностью включен в настоящий документ посредством ссылки. Образец плазмы, содержащий по меньшей мере 2 варианта с показателем достоверности выше заранее определенного порога (0,97), называется цоДНК положительным. [894] Recognition of plasma variants. To construct a variant-specific background error model, a large set of negative control samples (~1000) were preprocessed. Confidence scores were calculated for each target variant using mutant and reference alleles based on an error model and are incorporated herein by reference in their entirety. A plasma sample containing at least 2 variants with a confidence score above a predefined threshold (0.97) is called ctDNA positive.
[895] Аналитическая валидация. Аналитическая проверка проводилась с использованием титрования мононуклеосомной ДНК из трех линий раковых клеток и их соответствующих нормальных аналогов (ATCC). Были использованы две линии клеток рака молочной железы (HCC2218 и HCC1395), одна линия клеток рака легких (NCI-H1395) и соответствующие им подходящие линии нормальных клеток, происходящих из B-лимфобластов (HCC2218-BL, HCC1395-BL и NCI-BL1395). ДНК была секвенирована через экзом для каждой пары клеточных линий, были отобраны целевые варианты, и были сконструированы два пула праймеров для мультиплексной ПЦР с использованием стандартного процесса обработки Signatera. Титрование опухоли на нормальные мононуклеосомные ДНК проводилось при средних ЧВА (на основе ввода ДНК) 1.0; 0,5; 0,3; 0,1; 0,05; 0,03; 0,01; 0,005, 0% (числа реплик были взяты из от двух до девяти - увеличиваясь с коэффициентом разбавления). Из-за возможности гетерогенности и анеуплоидии в линиях опухолевых клеток ЧВА отдельных мишеней могут отличаться от средних вводимых ЧВА. Для точного расчета номинального ЧВА каждой мишени на каждом этапе титрования был проведен отдельный эксперимент со смесями 10% ЧВА. Наблюдаемые ЧВА из этого эксперимента затем использовались для расчета поправочных коэффициентов ввода (наблюдаемое ЧВА/10%). Поправочные коэффициенты применялись к соответствующим целевым показателям в серии разведений. Дополнительные отрицательные образцы были проанализированы с использованием скДНК, выделенной из 16 образцов плазмы индивидуума (примерно 8 мл каждая). Для серии титрования в качестве ввода для подготовки библиотеки Signatera использовали 66 нг скДНК (что соответствует 20000 эквивалентов гаплоидного генома); для образцов плазматической скДНК в качестве ввода использовалась вся выделенная ДНК (в диапазоне от 13 до 55 нг). Затем эти библиотеки были пропущены через рабочий процесс плазмы Signatera (два пула праймеров для каждого образца титрования и пять пулов праймеров для каждого образца скДНК), секвенированы и проанализированы с помощью процесса обработки анализа Signatera. ФИГ.68А демонстрирует нашу расчетную чувствительность для обнаружения мишеней в плазме при различных уровнях концентрации. Для отрицательных образцов была достигнута целевая специфичность больше 99,6%. Делая предположение о том, что пользовательская панель имеет от 10 до 16 клональных вариантов, на уровне образца может быть получена чувствительность, как указано на ФИГ.68B. Специфичность на уровне образца оценивается в более 99,8%.[895] Analytical validation . Analytical validation was performed using titrations of mononucleosomal DNA from three cancer cell lines and their corresponding normal counterparts (ATCC). Two breast cancer cell lines (HCC2218 and HCC1395), one lung cancer cell line (NCI-H1395) and their corresponding matched normal B lymphoblast-derived cell lines (HCC2218-BL, HCC1395-BL and NCI-BL1395) were used. . DNA was exome-sequenced for each pair of cell lines, targeted variants were selected, and two primer pools were designed for multiplex PCR using standard Signatera processing. Tumor titration to normal mononucleosomal DNA was performed at an average NNA (based on DNA input) of 1.0; 0.5; 0.3; 0.1; 0.05; 0.03; 0.01; 0.005, 0% (replicate numbers were taken from two to nine - increasing with dilution factor). Due to the possibility of heterogeneity and aneuploidy in tumor cell lines, the NVA of individual targets may differ from the average administered NVA. To accurately calculate the nominal NVA of each target at each titration step, a separate experiment was conducted with mixtures of 10% NVA. The observed NVA from this experiment was then used to calculate input correction factors (observed NVA/10%). Correction factors were applied to the appropriate targets in the dilution series. Additional negative samples were analyzed using scDNA isolated from 16 individual plasma samples (approximately 8 ml each). For the titration series, 66 ng of scDNA (corresponding to 20,000 haploid genome equivalents) was used as input for Signatera library preparation; for plasma scDNA samples, all extracted DNA (ranging from 13 to 55 ng) was used as input. These libraries were then run through the Signatera plasma workflow (two primer pools for each titration sample and five primer pools for each cDNA sample), sequenced, and analyzed using the Signatera assay processing workflow. FIG. 68A shows our calculated sensitivity for detecting targets in plasma at various concentration levels. For negative samples, a target specificity of greater than 99.6% was achieved. By making the assumption that the custom panel has 10 to 16 clonal variants, sample-level sensitivity can be obtained as indicated in FIG. 68B. Sample-level specificity is estimated to be greater than 99.8%.
[896] РЕЗУЛЬТАТЫ [896] RESULTS
[897] десь мы представляем анализ первых 50 пациентов, включенных в исследование EBLIS (ФИГ.60). Один образец опухоли не подходил для секвенирования экзома, поэтому мы продолжили исследование с 49 пациентами. На дату сбора сведений для отчета (30 июня 2018 г.) у 18 пациентов случился рецидив, и 31 пациент оставался без признаков заболевания. Все из 49 пациентов, кроме 7 человек получали адъювантную химиотерапию или НАТ по схеме антрациклин/таксан. (см. ФИГ.69 и Таблицу A). Сорок один пациент получал адъювантную эндокринную терапию на протяжении всего времени забора крови. (Таблица B1-B3). Хотя до включения в исследование повторное сканирование не требовалось, все, кроме 3 пациентов, прошли визуализационные исследования при постановке диагноза или во время включения в исследование, и все были в пределах нормы (Таблица B1-B3).[897] Here we present an analysis of the first 50 patients enrolled in the EBLIS study (FIG. 60). One tumor sample was not suitable for exome sequencing, so we continued the study with 49 patients. As of the reporting date (June 30, 2018), 18 patients had relapsed and 31 patients remained disease-free. All but 7 of the 49 patients received adjuvant chemotherapy or NAT with an anthracycline/taxane regimen. (See FIG. 69 and Table A). Forty-one patients were receiving adjuvant endocrine therapy throughout the duration of blood sampling. (Table B1-B3). Although repeat scanning was not required before study entry, all but 3 patients had imaging studies at diagnosis or at study entry, and all were within normal limits (Table B1-B3).
[898] Пациенты без рецидива были последовательными пациентами, набранными в течение того же периода времени по сравнению с теми, у кого возник рецидив, у них было достаточно опухолевой ДНК, выделенной из FFPE блока первичной опухоли, для профилирования экзома, и они наблюдались в течение по меньшей мере 2 лет при серийном заборе крови. Мы проанализировали серийные образцы плазмы слепым способом с использованием оптимизированного рабочего процесса Signatera.[898] Patients without relapse were consecutive patients recruited over the same period of time compared to those who relapsed, had sufficient tumor DNA extracted from the FFPE block of the primary tumor for exome profiling, and were followed for at least 2 years with serial blood sampling. We analyzed serial plasma samples in a blinded manner using an optimized Signatera workflow.
[899] Из 18 пациентов, у которых случился рецидив, 10 случаев рецидива были обнаружены с помощью компьютерной томографии, 3 - с помощью сканирования костей и по одному - с помощью маммографии, МРТ, повышения уровня ферментов печени и ультразвука. Один пациент умер по неизвестной причине. [899] Of the 18 patients who relapsed, 10 relapses were detected by CT scan, 3 by bone scan, and 1 each by mammography, MRI, liver enzyme elevation, and ultrasound. One patient died of unknown cause.
[900] Выявление циркулирующей опухолевой ДНК и упреждающий интервал [900] Detection of circulating tumor DNA and preemptive interval
[901] Мы собрали FFPE образцы опухоли у всех пациентов: 39 не получали системную терапию до биопсии; 10 человек получали неоадъювантную химиотерапию (НАХТ) перед резекцией рака молочной железы (подробная информация о всей системной терапии, включая время взятия образцов крови, содержится на ФИГ.60 и в Таблицах B1-B3).[901] We collected FFPE tumor samples from all patients: 39 did not receive systemic therapy before biopsy; 10 people received neoadjuvant chemotherapy (NACT) before resection of breast cancer (details of all systemic therapy, including timing of blood sampling, are contained in FIG. 60 and Tables B1-B3).
[902] Для оценки наличия циркулирующей опухолевой ДНК для каждого пациента мы разработали индивидуальные тесты, нацеленные на 16 соматических ОНВ и вариантов ВСТАВКА/ДЕЛЕЦИЯ из профилей соматических мутаций опухоли каждого пациента (ФИГ.64A-C). Затем мы применили 49 соответствующих персонализированных анализов к каждому из 208 образцов плазмы (диапазон: 1-8 временных точек) от 49 пациентов. [902] To assess the presence of circulating tumor DNA for each patient, we developed individual tests targeting 16 somatic SNVs and INSERT/DELETION variants from each patient's tumor somatic mutation profiles (FIG. 64A-C). We then applied 49 corresponding personalized assays to each of 208 plasma samples (range: 1–8 time points) from 49 patients.
[903] Циркулирующая ДНК опухоли была обнаружена у 89% (16 из 18) пациентов, у которых возник рецидив; обнаружение составило 82%, 100% и 100% при, соответственно, HR+/HER2-, HER2+ и трижды негативном раке молочной железы (triple negative breast cancer - TNBC) (ФИГ.61A и B). Из двух пациентов с рецидивом, которые не были обнаружены цоДНК, у одного (1018) было три первичных рака, а у другого (1019) был небольшой местный рецидив в грудине (впоследствии удаленный) (ФИГ.61A, Таблица A). Примечательно, что у одного пациента (1072) изначально был нормальный профиль крови, но при последнем посещении он был положительным на цоДНК; у пациента не было признаков заболевания на момент анализа крови, но впоследствии у пациента появились отдаленные метастазы незадолго до даты сбора сведений (ФИГ.61A и ФИГ.65A). Мы выявляли рецидив заболевания за 2 года до клинического рецидива с медианным значением 266 дней (8,9 месяцев; ФИГ.61B). При разделении по подтипам медианное время упреждения составляло, соответственно, 301, 164 и 258 дней для HR+/HER2-, HER2+ и трижды негативного рака молочной железы (TNBC) (ФИГ.61B и C). Поразительно, что у двух пациентов ER+ PR+ HER2- (1031 и 1051, ФИГ.61A) было до четырех временных точек, которые были положительными на цоДНК до клинического рецидива, что означает наличие упреждающего интервала почти в 2 года. [903] Circulating tumor DNA was detected in 89% (16 of 18) of patients who relapsed; detection rates were 82%, 100%, and 100% for HR+/HER2-, HER2+, and triple negative breast cancer (TNBC), respectively (FIG. 61A and B). Of the two patients with relapse who were not detected by ctDNA, one (1018) had three primary cancers, and the other (1019) had a small local recurrence in the sternum (subsequently removed) (FIG. 61A, Table A). Notably, one patient (1072) initially had a normal blood profile but was ctDNA positive at the final visit; the patient had no evidence of disease at the time of the blood test, but the patient subsequently developed distant metastases shortly before the date of collection (FIG. 61A and FIG. 65A). We detected disease relapse 2 years before clinical relapse with a median of 266 days (8.9 months; FIG. 61B). When stratified by subtype, median lead times were 301, 164, and 258 days, respectively, for HR+/HER2-, HER2+, and triple negative breast cancer (TNBC) (FIG. 61B and C). Strikingly, two ER+ PR+ HER2- patients (1031 and 1051, FIG. 61A) had up to four time points that were ctDNA positive before clinical relapse, implying a lead interval of almost 2 years.
[904] Мы не обнаружили цоДНК ни в одном из 156 образцов плазмы 31 пациента, у которых не было рецидива заболевания (ФИГ.61A). Присутствие цоДНК было связано со значительно худшим прогнозом как при обнаружении цоДНК в первом послеоперационном образце плазмы (ОР = 11,8 (95%, ДИ 4,3-32,5)), так и в последующих образцах плазмы после операции (ОР = 35,8 (95% ДИ 8,0-161,3)) (ФИГ.62A-B). У всех пациентов с положительным результатом на цоДНК в течение 50 месяцев после операции возник рецидив. [904] We did not detect ctDNA in any of the 156 plasma samples from 31 patients who did not have disease relapse (FIG. 61A). The presence of ctDNA was associated with a significantly worse prognosis, both when ctDNA was detected in the first postoperative plasma sample (HR = 11.8 (95%, CI 4.3–32.5)) and in subsequent postoperative plasma samples (HR = 35 .8 (95% CI 8.0-161.3)) (FIG. 62A-B). All patients who tested positive for ctDNA relapsed within 50 months after surgery.
[905] Для всех пациентов результаты рентгенологического и сканирующего обследования были отрицательными на предмет отдаленных метастазов до даты выраженного рецидива, которому обычно предшествовали симптомы пациента. Многие пациенты прошли последующее сканирование в дополнение к сканированию, проведенному при обращении, и оно также было отрицательным (Таблица B1-B3). У семи пациентов (1004, 1055, 1072, 1091, 3018, 3019, 3048) сканирование было выполнено в течение 4 месяцев после того, как тест на цоДНК впервые стал положительным, и все результаты были отрицательными. [905] For all patients, radiographic and scanning findings were negative for distant metastases until the date of significant recurrence, which was usually preceded by the patient's symptoms. Many patients had follow-up scans in addition to the scans taken at presentation, which were also negative (Table B1-B3). In seven patients (1004, 1055, 1072, 1091, 3018, 3019, 3048), scans were performed within 4 months of first testing positive for ctDNA, and all results were negative.
[906] Мы также проводили мониторинг CA15-3 у 43 из 49 пациентов на протяжении всего исследования. Тридцать девять из этих пациентов показали нормальные результаты в течение периода наблюдения. Двенадцать из 18 пациентов, у которых случился рецидив, имели нормальные уровни CA15-3 в течение периода наблюдения. У двух пациентов (1051 и 1088) наблюдалось прогрессирующее повышение уровня CA15-3, но цоДНК был более чувствительным, чем CA15-3, с цоДНК, обнаруженной до повышения уровня CA15-3 раньше на, соответственно, 224 и 212 дней (ФИГ.63A and ФИГ.65B). У пациентов 1111 и 1018 была взята одна проба крови до клинического рецидива, и у них были повышенные показатели CA15-3. У пациента 1111 был положительный тест на цоДНК, у пациента 1018 - отрицательный на цоДНК. Примечательно, что у шести других пациентов (3 с рецидивом и 3 без рецидива) периодически брались образцы крови со слегка повышенным CA15-3, но это значение колебалось и не отражало прогрессирование заболевания (Таблица B1-B3). [906] We also monitored CA15-3 in 43 of 49 patients throughout the study. Thirty-nine of these patients showed normal results during the follow-up period. Twelve of the 18 patients who relapsed had normal CA15-3 levels during the follow-up period. Two patients (1051 and 1088) had a progressive increase in CA15-3 levels, but ctDNA was more sensitive than CA15-3, with ctDNA detected before the increase in CA15-3 levels earlier at 224 and 212 days, respectively (FIG. 63A and FIG. 65B). Patients 1111 and 1018 had one blood sample taken before clinical relapse and had elevated CA15-3 values. Patient 1111 tested positive for ctDNA and patient 1018 tested negative for ctDNA. Notably, six other patients (3 with relapse and 3 without relapse) had periodic blood samples taken with slightly elevated CA15-3, but this value fluctuated and did not reflect disease progression (Table B1-B3).
[907] Характеристика циркулирующей опухолевой ДНК [907] Characterization of circulating tumor DNA
[908] Анализ Signatera предназначен для нацеливания на 16 специфичных для пациента соматических ОНВ и вариантов ВСТАВКА/ДЕЛЕЦИЯ, обеспечивающих наибольшую вероятность обнаружения. Все 16 больных с рецидивами, выявленных цоДНК, показаны на ФИГ.63 и ФИГ.65. В 10 образцах плазмы от восьми пациентов с рецидивом были выявлены частоты вариантных аллелей (ЧВА) в пределах 0,01-0,02%. Наименьшая частота вариантного аллеля 0,01% соответствует обнаружению одной мутантной молекулы в образце плазмы (ФИГ.66). Этот уровень чувствительности можно увидеть у четырех пациентов - 1004, 01055, 1072 и 1096 (ФИГ.63, ФИГ.65, Таблица C). Специфичность теста выше 99,5% достигается за счет требования, чтобы два или более вариантов измерялись выше выбранного доверительного порога алгоритма распознавания для того, чтобы иметь уверенность в том, что цоДНК присутствует в плазме. Специфичность подчеркивается тем фактом, что ни один из образцов плазмы пациентов без рецидива не был признан положительным. [908] The Signatera assay is designed to target 16 patient-specific somatic SNVs and INSERT/DELETION variants that provide the highest probability of detection. All 16 patients with relapses identified by ctDNA are shown in FIG. 63 and FIG. 65. In 10 plasma samples from eight patients with relapse, variant allele frequencies (VAFs) ranging from 0.01-0.02% were detected. The lowest variant allele frequency of 0.01% corresponds to the detection of one mutant molecule in the plasma sample (FIG. 66). This level of sensitivity can be seen in four patients - 1004, 01055, 1072 and 1096 (FIG. 63, FIG. 65, Table C). Test specificity greater than 99.5% is achieved by requiring that two or more variants measure above the selected confidence threshold of the recognition algorithm in order to have confidence that the ctDNA is present in the plasma. The specificity is emphasized by the fact that none of the plasma samples from patients without relapse were found to be positive.
[909] Что касается изменений профилей цоДНК с течением времени, то из 16 рецидивов, выявленных с помощью цоДНК, у семи пациентов был положительный тест на цоДНК во все проанализированные моменты времени, и они показали увеличение как количества обнаруженных вариантов, так и процента ЧВА с течением времени; шесть пациентов, которые изначально были цоДНК-отрицательными, позже стали положительными, а у трех пациентов с рецидивом для анализа была доступна только одна временная точка плазмы, все они были положительными на цоДНК (ФИГ.63 and ФИГ.65).[909] Regarding changes in ctDNA profiles over time, of the 16 relapses identified by ctDNA, seven patients had a positive ctDNA test at all time points analyzed and showed an increase in both the number of detected variants and the percentage of PTA with the passage of time; six patients who were initially ctDNA negative later became positive, and three patients with relapse had only one plasma time point available for analysis, all of whom were ctDNA positive (FIG. 63 and FIG. 65).
[910] Пять из этих пациентов выделены на ФИГ.63, где представлены по меньшей мере по одному из каждого подтипа - HR+/HER2- (1031 и 1051), HER2+ (1096) и TNBC (1055 и 1074). Пациенты 1031, 1051, 1055 изначально были цоДНК-отрицательными, но цоДНК стал обнаруживаться в более поздние временные точки. (ФИГ.63A-C). У двух из этих пациентов, оба HR+ (1031 и 1051), было наибольшее время упреждения между молекулярным рецидивом, обнаруженным по цоДНК, и клиническим рецидивом, соответственно, 721 и 611 днями (ФИГ.63A-B). У пациентов 1031, 1055, 1074 и 1096 частоты вариантов аллелей обнаруживались в диапазоне от 0,01 до 0,02%, и у них наблюдалось прогрессивное повышение ЧВА, коррелирующее с прогрессированием заболевания (ФИГ.63B-E). После выявления цоДНК все пациенты оставались положительными в течение периода наблюдения (ФИГ.63 и ФИГ.65). [910] Five of these patients are highlighted in FIG. 63, where at least one of each subtype is represented - HR+/HER2- (1031 and 1051), HER2+ (1096) and TNBC (1055 and 1074). Patients 1031, 1051, 1055 were initially ctDNA negative, but ctDNA became detectable at later time points. (FIG. 63A-C). Two of these patients, both HR+ (1031 and 1051), had the longest lead time between ctDNA-detected molecular relapse and clinical relapse, respectively, 721 and 611 days (FIG. 63A-B). In patients 1031, 1055, 1074 and 1096, variant allele frequencies were found in the range of 0.01 to 0.02%, and they showed a progressive increase in NVA, correlating with disease progression (FIG. 63B-E). After detection of ctDNA, all patients remained positive during the observation period (FIG. 63 and FIG. 65).
[911] В целом, за прогрессированием заболевания можно следить как по частоте вариантного аллеля, так и по количеству обнаруженных вариантов, как показано на ФИГ.63F. Поскольку количество временных точек у разных пациентов варьировалось, выделяются различия между первой и последней временными точками в серии образцов плазмы от одного и того же пациента. Медианная частота вариантного аллеля увеличилась с 0,092% в первой временной точке (диапазон: от 0,01 до 9,2%) до 3,9% (диапазон: от 0,05 до 64,4%), тогда как медианное количество вариантов, обнаруженных в первой временной точке, составило 5 (диапазон: 2-12) по сравнению с 12 вариантами (диапазон: 5-15) в последней временной точке. Малое количество вариантов, обнаруживаемых в ранних временных точках, и тот факт, что они присутствуют в очень малом количестве копий, указывают на важность тестирования множественных мутаций, присутствующих в опухоли пациента, для проведения высокочувствительного теста на присутствие цоДНК в плазма пациента. [911] In general, disease progression can be monitored by both variant allele frequency and the number of variants detected, as shown in FIG. 63F. Because the number of time points varied between patients, differences between the first and last time points in a series of plasma samples from the same patient are highlighted. The median variant allele frequency increased from 0.092% at the first time point (range: 0.01 to 9.2%) to 3.9% (range: 0.05 to 64.4%), while the median number of variants detected at the first time point was 5 (range: 2-12) compared to 12 variants (range: 5-15) at the last time point. The low number of variants detected at early time points and the fact that they are present in very low copy numbers indicate the importance of testing multiple mutations present in a patient's tumor to provide a highly sensitive test for the presence of ctDNA in the patient's plasma.
[912] Обсуждение [912] Discussion
[913] В этом отчете описан надежный и воспроизводимый способ мониторинга минимальной остаточной болезни у пациентов с раком молочной железы по основным подтипам. Подход использует геномные данные опухоли для разработки анализов для конкретных пациентов. Затем выполняется секвенирование плазматической скДНК с очень большой глубиной, в среднем до более 100000 считываний на мишень для того, чтобы достичь чувствительности вплоть до одной мутантной молекулы. Эта новая преобразующая технология надежна и масштабируема для внедрения в современное здравоохранение, и она уже разработана для использования в исследованиях. Это особенно своевременно, учитывая, например, недавнее объявление о том, что все виды рака в Великобритании будут получать геномное профилирование с осени 2018 года. Платформа Signatera способна предоставить индивидуализированный способ обнаружения микрометастазов, что четко подтверждается результатами исследования. В этом исследовании все, кроме одной, пациентки с раком молочной железы, у которых случился рецидив с отдаленными метастазами, имели положительный анализ крови до выраженного рецидива, а в некоторых случаях демонстрировали почти 2-летний упреждающий интервал. [913] This report describes a reliable and reproducible method for monitoring minimal residual disease in patients with breast cancer across major subtypes. The approach uses tumor genomic data to develop patient-specific assays. The plasma scDNA is then sequenced to very high depth, averaging over 100,000 reads per target, to achieve sensitivity down to a single mutant molecule. This new transformative technology is robust and scalable for implementation in modern healthcare, and has already been developed for use in research. This is particularly timely given, for example, the recent announcement that all cancers in the UK will receive genomic profiling from autumn 2018. The Signatera platform is capable of providing a personalized way to detect micrometastases, which is clearly supported by the study results. In this study, all but one of the breast cancer patients who relapsed with distant metastases had a positive blood test before significant recurrence, and in some cases showed a nearly 2-year lead time.
[914] Предыдущее исследование с прототипом этой технологии показало многообещающие результаты у пациентов с немелкоклеточным раком легкого (Abbosh et al., 2017, полностью включено в настоящий документ посредством ссылки), и с тех пор рабочий процесс был усовершенствован для достижения более высоких показателей чувствительности обнаружения цоДНК и для того, чтобы быть более экономичным. В этом случае мы демонстрируем превосходную воспроизводимость и точность этой системы. Сосредоточение внимания на ОНВ, уникальных для пациента, а не на известных генах-драйверах, представляет собой наиболее точный и чувствительный на сегодняшний день способ обнаружения МОБ у пациентов с раком молочной железы.[914] A previous prototype study of this technology showed promising results in patients with non-small cell lung cancer (Abbosh et al., 2017, incorporated herein by reference in its entirety), and the workflow has since been refined to achieve higher detection sensitivity rates ctDNA and in order to be more economical. In this case, we demonstrate the excellent repeatability and accuracy of this system. Focusing on SNVs unique to the patient, rather than known driver genes, represents the most accurate and sensitive way to detect MRD in patients with breast cancer.
[915] Клиническое применение измерений цоДНК в лечении рака на ранних стадиях остается очень спорным вопросом, и недавний совместный обзор ASCO и ACP пришел к выводу, что нет доказательств его клинической применимости, и существует мало доказательств его клинической валидности для мониторинга лечения или раннего обнаружения остаточной болезни на ранних стадиях рака. Этот вывод отчасти может быть связан с тем фактом, что все предыдущие исследования проводились без сравнения с обычными маркерами, как это было сделано в данном документе. [915] The clinical application of ctDNA measurements in the treatment of early cancer remains highly controversial, and a recent joint review by ASCO and ACP concluded that there is no evidence of its clinical utility, and there is little evidence of its clinical validity for monitoring treatment or early detection of residual disease. diseases in the early stages of cancer. This finding may be partly due to the fact that all previous studies were conducted without comparison with conventional markers, as was done here.
[916] Из этого исследования следует несколько важных моментов. Во-первых, теперь можно с высокой степенью точности предсказать рецидив у пациентов без признаков заболевания при визуализации. Во-вторых, большинство пациентов в настоящее время наблюдаются в центрах США и Великобритании с помощью комбинации ежегодной маммографии и, в некоторых случаях, CA15-3 и функциональных печеночных тестов. Все они, за исключением двух случаев прогрессивно повышенного CA15-3 при отсутствии обнаруживаемых метастазов, в нашей когорте были нормальными до выраженного метастатического рецидива, демонстрируя ограничения текущих подходов, используемых клиницистами. Семь из пациентов, у которых случился рецидив, также прошли сканирование приблизительно во время первого обнаружения цоДНК, и все результаты были отрицательными. Следует отметить наблюдение, что у некоторых пациентов временно повышен уровень CA15-3, и они остаются здоровыми, в то время как тест Signatera всегда был положительным после обнаружения, и ложноположительные результаты отсутствовали. В-третьих, несмотря на то, что НАХТ уменьшила первичный рак (на котором было проведено секвенирование экзома), сигнатура мутации остаточного рака отражает остаточное метастатическое заболевание у этих пациентов, что предполагает, что персонализированный тест, разработанный на основе профиля мутации первичной опухоли не только возможен, но и эффективен. [916] Several important points emerge from this study. First, relapse can now be predicted with a high degree of accuracy in patients without evidence of disease on imaging. Second, most patients are currently followed in US and UK centers with a combination of annual mammography and, in some cases, CA15-3 and liver function tests. All of these, with the exception of two cases of progressively elevated CA15-3 in the absence of detectable metastases, were normal until significant metastatic recurrence in our cohort, demonstrating the limitations of current approaches used by clinicians. Seven of the patients who relapsed also had scans around the time of first ctDNA detection, and all results were negative. Of note is the observation that some patients have transiently elevated CA15-3 levels and remain healthy, whereas the Signatera test was always positive upon detection and there were no false positives. Third, although NACT shrunk the primary cancer (on which exome sequencing was performed), the mutation signature of the residual cancer reflects residual metastatic disease in these patients, suggesting that a personalized test developed based on the mutation profile of the primary tumor is not only possible, but also effective.
[917] Однако существует требование, чтобы цоДНК попадал в плазму, и, таким образом, тест может быть ограничен теми, у кого вначале имеется достаточно агрессивное заболевание, и, следовательно, может быть неприменим к пациентам с меньшим и менее агрессивным раком молочной железы, у которых часто имеется хороший прогноз. Поскольку предел обнаружения в нашем анализе ограничен одной молекулой, отсутствие обнаружения, вероятно, связано с биологией опухоли, при которой менее агрессивные опухоли могут выделять меньше молекул цоДНК. Примером этого является один пациент (1018), у которого возник рецидив местного резектабельного заболевания при отрицательном результате на цоДНК. Кроме того, у пациентов с множественными первичными опухолями все опухоли должны быть профилированы для наблюдения за прогрессированием заболевания. Это наблюдается у пациента 1019, у которого было три первичные опухоли; к сожалению, только одна из них была подвергнута секвенированию экзома из-за ограниченного наличия доступных тканей. В этом случае рецидив заболевания не был обнаружен по цоДНК, и наша гипотеза состоит в том, что метастазы произошли не от той опухоли, которая подверглась секвенированию. Наконец, тест не подходит для обнаружения второго первичного рака молочной железы, если только это не рецидив исходной опухоли; примером этого является пациент 1044, у которого при рутинной маммографии был обнаружен второй первичный рак противоположной стороны, но плазма оставалась отрицательной по цоДНК на протяжении всего периода (Таблица A). [917] However, there is a requirement that the ctDNA be released into the plasma, and thus the test may be limited to those with fairly aggressive disease to begin with, and therefore may not be applicable to patients with smaller, less aggressive breast cancers. which often have a good prognosis. Because the limit of detection in our assay is limited to a single molecule, the lack of detection is likely due to tumor biology, in which less aggressive tumors may secrete fewer ctDNA molecules. An example of this is one patient (1018) who experienced recurrence of locally resectable disease while being ctDNA negative. Additionally, in patients with multiple primary tumors, all tumors should be profiled to monitor disease progression. This is observed in patient 1019, who had three primary tumors; unfortunately, only one of them was subjected to exome sequencing due to the limited availability of available tissue. In this case, recurrent disease was not detected by ctDNA, and our hypothesis is that the metastases did not originate from the same tumor that was sequenced. Finally, the test is not suitable for detecting a second primary breast cancer unless it is a recurrence of the original tumor; An example of this is patient 1044, who had a contralateral second primary cancer detected on routine mammography, but plasma remained ctDNA negative throughout (Table A).
[918] Описываемая в данном документе аналитическая платформа не предназначена для идентификации определяемых мишеней из плазмы. Большинство ОНВ, выбранных для использования для обнаружения опухолевой ДНК, были уникальными для каждого пациента, и они были выбраны как отражение опухолевой нагрузки, а не как репрезентативные мутации-драйверы, которые часто способствуют прогрессированию рака. Однако это также является преимуществом анализа Signatera - выбор мутаций-пассажиров и клональных мутаций является обязательным для мониторинга нагрузки заболевания, поскольку мутации-драйверы часто дают селективное преимущество, ведущее к изменению гетерогенности опухоли. Хотя 16-плексные анализы не обеспечивают значимых мишеней, ПЭС опухоли может обеспечивать такие мишени, и библиотеки плазмы также могут быть протестированы с другими анализами, которые идентифицируют определяемые мутации.[918] The analytical platform described herein is not intended for the identification of detectable targets from plasma. Most of the ONVs selected for use in detecting tumor DNA were unique to each patient, and they were selected as a reflection of tumor burden rather than as representative of driver mutations that often contribute to cancer progression. However, this is also an advantage of the Signatera assay - selection of passenger and clonal mutations is imperative for monitoring disease burden, as driver mutations often provide a selective advantage leading to alteration of tumor heterogeneity. Although 16-plex assays do not provide meaningful targets, tumor RPE may provide such targets, and plasma libraries can also be tested with other assays that identify detectable mutations.
[919] Наши результаты дополняют другие результаты, в которых значимые мутации, например, в PIK3CA, прослеживаются в период неоадъювантной и адъювантной терапии. В то время, как при выборе мутации-драйвера можно отслеживать прогрессирование некоторых опухолей (ссылки), исследования показали, что они не приносят пользу при выявлении раннего метастатического рецидива у всех пациентов, поскольку не все пациенты имеют одни и те же целевые мутации-драйверы в опухоли (ссылки). В одном из предыдущих исследований только 78% (43 из 55) случаев имели одну или более соматических мутаций, которые идентифицировались и впоследствии отслеживались с помощью цифровой капельной ПЦР. Мы также проанализировали готовую панель рака молочной железы (Oncomine™ Breast cfDNA Assay), нацеленную на более 150 горячих точек в 10 генах рака молочной железы, и эта панель выявила цоДНК только у 73% пациентов с раком молочной железы. Поскольку панели генов не могут отражать неоднородность всех случаев рака молочной железы, они не включают всех пациентов и не применимы ко всем пациентам с раком молочной железы, как показано в двух вышеупомянутых примерах. Следовательно, для выявления минимальной остаточной болезни у всех пациентов с метастатическим раком молочной железы необходимо использовать профилирование экзома опухоли и индивидуальный подход Signatera; в случае положительного результата необходимо провести вторичный анализ на наличие значимых мутаций. [919] Our results complement others in which significant mutations, for example in PIK3CA , are observed during neoadjuvant and adjuvant therapy. While driver mutation targeting can track the progression of some tumors (links), studies have shown that they are not beneficial in detecting early metastatic recurrence in all patients because not all patients have the same target driver mutations in tumors (links). In one previous study, only 78% (43 of 55) of cases had one or more somatic mutations that were identified and subsequently monitored by digital droplet PCR. We also analyzed an off-the-shelf breast cancer panel (Oncomine™ Breast cfDNA Assay) targeting over 150 hotspots in 10 breast cancer genes, and this panel detected ctDNA in only 73% of breast cancer patients. Because gene panels cannot reflect the heterogeneity of all breast cancer cases, they do not include all patients and are not applicable to all patients with breast cancer, as shown in the above two examples. Therefore, tumor exome profiling and Signatera's personalized approach should be used to detect minimal residual disease in all patients with metastatic breast cancer; in case of a positive result, it is necessary to conduct a secondary analysis for the presence of significant mutations.
[920] Имеется несколько важных следствий нашего исследования. До сих пор было показано, что системное лечение с помощью таргетной или цитотоксической терапии является излечивающим только при введении в адъювантном режиме; лечение выраженного метастатического заболевания редко, если вообще когда-либо, приводит к излечению (ссылка). Представленный в данном документе подход предлагает альтернативу: попытку спасти пациентов с цоДНК с помощью терапии второй линии. Другое применение может заключаться в помощи в оценке новых лекарственных препаратов, особенно тех, механизм которых заключается в усилении иммунного ответа. До сих пор использовался косвенный показатель успеха - время до прогрессирования опухоли; способ Signatera обнаружения цоДНК теперь позволит использовать в качестве мерила еще один критерий успеха - уменьшение или удаление цоДНК. [920] There are several important implications of our study. Thus far, systemic treatment with targeted or cytotoxic therapy has been shown to be curative only when administered in the adjuvant setting; Treatment of advanced metastatic disease is rarely, if ever, curative (link). The approach presented here offers an alternative: attempting to save ctDNA patients with second-line therapy. Another application could be to help evaluate new drugs, especially those whose mechanism is to enhance the immune response. Until now, an indirect measure of success—time to tumor progression—has been used; Signatera's method of detecting ctDNA will now allow the use of another criterion for success - reduction or removal of ctDNA - as a measure of success.
[921] В заключение, платформа Signatera способна обнаруживать МОБ у пациентов с раком молочной железы с высокой степенью чувствительности. Он превосходит традиционные способы наблюдения и демонстрирует многообещающие возможности для наблюдения за пациентами с точки зрения точной медицины. Впервые предлагается анализ крови, который убеждает пациентов в том, что их болезнь находится под контролем.[921] In conclusion, the Signatera platform is capable of detecting MRD in breast cancer patients with high sensitivity. It is superior to traditional monitoring methods and shows promise for monitoring patients from a precision medicine perspective. For the first time, a blood test is being offered that reassures patients that their disease is under control.
[922] Резюме [922] Summary
[923] У многих пациенты с РМЖ после первичного лечения развивается рецидив, но отсутствуют надежные тесты для выявления отдаленных метастазов до того, как они станут выраженными. В этом случае мы демонстрируем более раннюю идентификацию рецидива рака молочной железы с помощью масштабируемого персонализированного анализа циркулирующей опухолевой ДНК (цоДНК). Способ применим ко всем пациентам и не ограничивается мутациями горячих точек, которые обычно обнаруживают с помощью генных панелей. [923] Many patients with breast cancer relapse after primary treatment, but there are no reliable tests to detect distant metastases before they become evident. Here, we demonstrate earlier identification of breast cancer recurrence using scalable, personalized analysis of circulating tumor DNA (ctDNA). The method is applicable to all patients and is not limited to hot spot mutations that are typically detected using gene panels.
[924] Было набрано 49 пациентов с неметастатическим РМЖ после хирургического вмешательства и адъювантной терапии. Образцы плазмы (n = 208) собирали серийно раз в полгода. Используя аналитически проверенный рабочий процесс Signatera™, мы определили мутационные сигнатуры на основе данных всего экзома первичной опухоли и разработали персонализированные тесты с высокой чувствительностью, с помощью сверхглубокого секвенирования (в среднем более 100000X), нацеленные на 16 вариантов. Для определения присутствия цоДНК в плазме использовался специфический для пациента анализ.[924] Forty-nine patients with non-metastatic breast cancer after surgery and adjuvant therapy were recruited. Plasma samples (n = 208) were collected serially every six months. Using the analytically validated Signatera™ workflow, we identified mutational signatures from primary tumor whole-exome data and developed personalized tests with high sensitivity using ultra-deep sequencing (averaging over 100,000X) targeting 16 variants. A patient-specific assay was used to determine the presence of ctDNA in plasma.
[925] У 16 из 18 (89%) пациентов с клиническим рецидивом цоДНК была обнаружена перед метастатическим рецидивом, диагностированным клиническим обследованием, рентгенологическим исследованием и измерением CA15-3, и пациенты оставались цоДНК-положительными при последующем наблюдении. Из 2 пациентов, у которых цоДНК обнаружена не была, у одного был только небольшой местный рецидив (в настоящее время удален), а у другого три первичные опухоли. Ни один из 31 безрецидивного пациента не был цоДНК-положительным в любой момент времени (n = 156). Метастатический рецидив был предсказан Signatera с периодом упреждения до 2 лет (медиана = 8,9 месяцев, ОР: 35,84 (95% ДИ 7,9626 - 161,32)). [925] In 16 of 18 (89%) patients with clinical relapse, ctDNA was detected before metastatic relapse diagnosed by clinical examination, radiological examination, and CA15-3 measurement, and the patients remained ctDNA positive at follow-up. Of the 2 patients in whom no ctDNA was detected, one had only a small local recurrence (currently removed) and the other had three primary tumors. None of the 31 disease-free patients were ctDNA positive at any time point (n = 156). Metastatic recurrence was predicted by Signatera with a lead time of up to 2 years (median = 8.9 months, HR: 35.84 (95% CI 7.9626 - 161.32)).
[926] Использование масштабируемого валидированного рабочего процесса, ориентированного на конкретного пациента, на основе цоДНК выявляет минимальную остаточную болезнь до метастатического рецидива рака молочной железы, опережая клиническое выявление основных подтипов рака молочной железы. Точный и более ранний прогноз с помощью анализа цоДНК может обеспечить средство наблюдения за пациентами с раком молочной железы, нуждающимися во вспомогательной адъювантной терапии второго ряда в попытке предотвратить выраженный опасный для жизни метастатический рецидив.[926] Using a scalable, validated, patient-specific ctDNA-based workflow detects minimal residual disease before metastatic recurrence of breast cancer, outpacing clinical detection of major breast cancer subtypes. Accurate and earlier prognosis by ctDNA analysis may provide a means of monitoring breast cancer patients requiring second-line adjuvant therapy in an attempt to prevent significant life-threatening metastatic recurrence.
[927] Таблица A1. Клинические характеристики всех 49 пациентов. Пациенты, отмеченные звездочкой*, скончались.[927] Table A1 . Clinical characteristics of all 49 patients. Patients marked with an asterisk* have died.
TNM Stage
TNM
[928] Таблица B1. Временные точки забора плазмы у пациентов.[928] Table B1 . Temporary points for plasma collection from patients.
[929] Таблица B2. Уровни CA15-3 пациентов.[929] Table B2 . Patient CA15-3 levels.
[930] Таблица B3. Эндокринная терапия пациентов.[930] Table B3 . Endocrine therapy for patients.
[931] Таблица C. Резюме уровня образцов и ЧВА.[931] Table C . Sample level summary and NVA.
обнаружен-ных
мишеней Quantity
discovered
targets
[932] Пример 9. Раннее обнаружение метастатического рецидива и мониторинг терапевтической эффективности с помощью сверхглубокого секвенирования серийной плазматической свободно-клеточной ДНК у пациентов с уротелиальной карциномой мочевого пузыря. [932] Example 9: Early detection of metastatic relapse and monitoring of therapeutic efficacy using ultra-deep sequencing of serial plasma free-cell DNA in patients with urothelial carcinoma of the bladder.
[933] ВВЕДЕНИЕ [933] INTRODUCTION
[934] Рак мочевого пузыря является наиболее распространенным злокачественным новообразованием мочевыводящих путей, и приблизительно у 20-25% пациентов с недавно диагностированной уротелиальной карциномой развивается мышечно-инвазивный рак мочевого пузыря (МИРМП), и 10-30% пациентов с диагнозом «не-МИРМП» (НМИРМП) будут прогрессировать до МИРМП. В настоящее время стандартным способом лечения МИРМП является радикальная цистэктомия. К сожалению, у 20% пациентов с отрцательным поражением лимфоузлов и у 80% пациентов с положительным поражением лимфоузлов на момент операции наблюдается метастатический рецидив, а общая выживаемость (ОВ) в среднем составляет 50% в течение 5 лет.[934] Bladder cancer is the most common malignancy of the urinary tract, and approximately 20–25% of patients with newly diagnosed urothelial carcinoma develop muscle-invasive bladder cancer (MIBC), and 10–30% of patients diagnosed with non-MIBC "(NMIBC) will progress to MIBC. Currently, the standard treatment for MIBC is radical cystectomy. Unfortunately, 20% of node-negative patients and 80% of node-positive patients at the time of surgery experience metastatic recurrence, and overall survival (OS) averages 50% at 5 years.
[935] Неоадъювантная химиотерапия (НАХТ) улучшает выживаемость пациентов с МИРМП, а лечение гемцитабином и цисплатином (ГК) является наиболее часто применяемой неоадъювантной химиотерапией (НАХТ) МИРМП. В настоящее время лечение гемцитабином и цисплатином приводит к значительному снижению стадии (pT меньше 2 N0 при цистэктомии) приблизительно у 40-50% пациентов.[935] Neoadjuvant chemotherapy (NACT) improves survival in patients with MIBC, and treatment with gemcitabine and cisplatin (GC) is the most commonly used neoadjuvant chemotherapy (NACT) for MIBC. Currently, treatment with gemcitabine and cisplatin results in significant downstaging (pT less than 2 N0 at cystectomy) in approximately 40-50% of patients.
[936] Раннее обнаружение метастатического рецидива у пациентов с раком мочевого пузыря может предложить новые терапевтические подходы для увеличения выживаемости. Выявление метастатического рецидива после цистэктомии на ранней стадии, когда рецидив не обнаруживается с помощью рентгенографии, может значительно улучшить идентификацию пациентов, которые может получить пользу от раннего/адъювантного лечения и улучшить исход выживаемости для этой группы пациентов. Кроме того, раннее определение рецидива и метастазирования может помочь предотвратить ненужное и потенциально вредное продолжительное лечение пациентов, которые не отвечают на лечение.[936] Early detection of metastatic recurrence in patients with bladder cancer may offer new therapeutic approaches to improve survival. Detection of metastatic recurrence after cystectomy at an early stage, when recurrence is undetectable by radiography, can significantly improve the identification of patients who may benefit from early/adjuvant treatment and improve survival outcome for this group of patients. In addition, early detection of recurrence and metastasis may help prevent unnecessary and potentially harmful long-term treatment in patients who do not respond to treatment.
[937] В настоящее время для обнаружения рецидива, метастазов и отслеживания реакции на лечение используется стандартная компьютерная томография (КТ) с заданными интервалами. В то время как способы визуализации предлагают оценку опухолевой нагрузки, возможности мониторинга ограничены неоптимальным пределом обнаружения и присущей вариабельностью измерений, поэтому раннее обнаружение метастатического рецидива и/или прогрессирования и оценка эффективности лечения остаются серьезной клинической проблемой.[937] Currently, standard computed tomography (CT) scanning at predetermined intervals is used to detect recurrence, metastasis, and monitor response to treatment. While imaging modalities offer an assessment of tumor burden, monitoring capabilities are limited by suboptimal detection limits and inherent measurement variability, so early detection of metastatic recurrence and/or progression and assessment of treatment response remain a major clinical challenge.
[938] Полный потенциал использования циркулирующей опухолевой ДНК (цоДНК) в качестве биомаркера для определения стадии заболевания при диагностике, определении опухолевой нагрузки, раннего обнаружения метастатического рецидива и терапевтического ответа на лечение остается нереализованным. Недавние многообещающие исследования показали, что свободно-клеточная ДНК (скДНК) может использоваться для мониторинга эволюции рака легких на ранней стадии и субклонального развития при метастатическом заболевании (Abbosh, et al., Nature 545, 446-451 (2017) (“Abbosh et al. 2017”), полностью включено в настоящий документ). При раке мочевого пузыря было показано, что цоДНК обнаруживается в плазме и моче, и что высокие уровни цоДНК связаны с более поздним клиническим прогрессированием заболевания и метастазированием (Birkenkamp-Demtröderet al., Eur. Urol. 70, 75-82 (2016); Christensenet al., Eur. Urol. 71, 961-969 (2017); Birkenkamp-Demtröder, K. et al. Eur. Urol. 73, 535-540 (2018); Patel, et al., Sci. Rep. 7, 5554 (2017)). Однако эти предыдущие исследования рака мочевого пузыря были основаны на небольших отобранных когортах и использовали анализы цифровой капельной ПЦР, которые имеют относительно ограниченную чувствительность по сравнению со способом на основе секвенирования следующего поколения (ССП), представленным в данном документе. [938] The full potential of using circulating tumor DNA (ctDNA) as a biomarker for disease staging at diagnosis, determination of tumor burden, early detection of metastatic relapse, and therapeutic response to treatment remains unrealized. Recent promising studies have shown that free-cell DNA (scDNA) can be used to monitor the evolution of early-stage lung cancer and subclonal development in metastatic disease (Abbosh, et al., Nature 545, 446-451 (2017) (“Abbosh et al. . 2017”), included in this document in its entirety). In bladder cancer, it has been shown that ctDNA is detectable in plasma and urine, and that high levels of ctDNA are associated with later clinical disease progression and metastasis (Birkenkamp-Demtröderet al., Eur. Urol. 70, 75-82 (2016); Christensenet al., Eur. Urol. 71, 961-969 (2017); Birkenkamp-Demtröder, K. et al. Eur. Urol. 73, 535-540 (2018); Patel, et al., Sci. Rep. 7, 5554 (2017)). However, these previous studies of bladder cancer were based on small selected cohorts and used digital droplet PCR assays, which have relatively limited sensitivity compared with the next-generation sequencing (NGS)-based method presented here.
[939] десь мы сообщаем о результатах проспективного исследования, включающего полноэкзомное секвенирование (ПЭС) первичных опухолей и соответствующих ДНК зародышевой линии у 68 пациентов, получавших неоадъювантную химиотерапию (n = 56) или химиотерапию первой линии (n=12) перед цистэктомией. Чувствительные, персонализированные анализы на основе ССП в мультиплексной ПЦР, специфичные для опухолевой мутационной сигнатуры каждого индивидуального пациента, были разработаны и использованы для мониторинга соматических мутаций в образцах плазмы, которые были получены в динамике, до, во время и после химиотерапии. Основная цель этого исследования заключалась в разработке способа обнаружения цоДНК, позволяющего использовать цоДНК в качестве мощного биомаркера для прогноза, раннего выявления метастатического заболевания и в качестве предиктора ответа на химиотерапию.[939] Here we report the results of a prospective study involving whole exome sequencing (WES) of primary tumors and corresponding germline DNA in 68 patients who received neoadjuvant chemotherapy (n = 56) or first-line chemotherapy (n = 12) before cystectomy. Sensitive, personalized multiplex PCR-based SSP assays specific to each individual patient's tumor mutational signature have been developed and used to monitor somatic mutations in plasma samples obtained over time, before, during, and after chemotherapy. The main goal of this study was to develop a ctDNA detection method allowing the use of ctDNA as a powerful biomarker for prognosis, early detection of metastatic disease, and as a predictor of response to chemotherapy.
[940] СПОСОБЫ [940] METHODS
[941] Пациенты и клинические образцы [941] Patients and clinical specimens
[942] Пациенты с диагнозом МИРМП, получавшие неоадъювантную химиотерапию перед цистэктомией, а также пациенты, получавшие химиотерапию из-за метастатического заболевания с предшествующей цистэктомией или без нее, были зарегистрированы в период с 2013 по 2017 год в единой специализированной университетской больнице (Университетская больница Орхуса, Дания). Радикальную цистэктомию проводили как открытую цистэктомию или с роботизированной помощью в зависимости от критериев пациента и доступности робота. У всех пациентов была выполнена расширенная лимфодиссекция до уровня бифуркации аорты.[942] Patients diagnosed with MIBC who received neoadjuvant chemotherapy before cystectomy, as well as patients who received chemotherapy for metastatic disease with or without previous cystectomy, were enrolled between 2013 and 2017 at a single tertiary university hospital (Aarhus University Hospital , Denmark). Radical cystectomy was performed as open cystectomy or robotic-assisted depending on patient criteria and robot availability. All patients underwent extended lymph node dissection to the level of the aortic bifurcation.
[943] Пациенты лечились в соответствии с национальными рекомендациями Дании. Неоадъювантная химиотерапия проводилась в виде 4 серий гемцитабина и цисплатина (ГК) с трехнедельными интервалами. Пациенты с метастазами или опухолями cT4b на момент постановки диагноза получали до 6 серий ГК. Снижение патологической стадии после химиотерапии, проведенной до ЦЭ, определялось как менее T1N0 после лечения. Пациенты с цистэктомией наблюдались с помощью рентгенографических изображений с помощью дотерапевтической ПЭТ/КТ и КТ грудной клетки и брюшной полости в запланированном контроле через 4, 12 и 24 месяца после цистэктомии для пациентов с диагнозом pT2N0 и дополнительных контролей через 8 и 18 месяцев для пациентов с диагнозом более pT2 и/или N+. Пациенты, получавшие лечение по поводу распространенного заболевания, наблюдались с интервалом в 3-4 месяца с помощью КТ. Подробные данные последующего наблюдения были доступны для всех пациентов, а клиническими конечными точками были последнее зарегистрированное посещение или время смерти, полученные из национального персонального реестра. Пациенты были отобраны для полноэкзомного секвенирования на основании следующих критериев: 1) неоадъювантная химиотерапия/химиотерапия первой линии для локализованных МИРМП 2) количество посещений с образцами плазмы, взятыми до и во время химиотерапии, до и после ЦЭ 3) наличие биопсии опухоли. Все пациенты предоставили письменное информированное согласие, и исследование было одобрено Национальным комитетом по этике медицинских исследований (№1302183).[943] Patients were treated according to Danish national guidelines. Neoadjuvant chemotherapy was administered in the form of 4 series of gemcitabine and cisplatin (GC) at three-week intervals. Patients with metastatic or cT4b tumors at diagnosis received up to 6 series of GCs. Pathological downstaging after chemotherapy administered before CE was defined as less than T1N0 after treatment. Cystectomy patients were followed radiographically with pre-therapy PET/CT and CT of the chest and abdomen at planned follow-ups at 4, 12 and 24 months post-cystectomy for patients diagnosed with pT2N0 and additional controls at 8 and 18 months for patients diagnosed more than pT2 and/or N+. Patients treated for advanced disease were followed up at 3-4 month intervals using CT. Detailed follow-up data were available for all patients, and clinical endpoints were last recorded visit or time of death obtained from a national personal registry. Patients were selected for whole exome sequencing based on the following criteria: 1) neoadjuvant chemotherapy/first-line chemotherapy for localized MIBC 2) number of visits with plasma samples collected before and during chemotherapy, before and after CE 3) presence of tumor biopsy. All patients provided written informed consent and the study was approved by the National Medical Research Ethics Committee (No. 1302183).
[944] Сбор образцов и экстракция ДНК [944] Sample collection and DNA extraction
[945] Мы проанализировали материал из крови, биопсии опухоли и в динамике собранных образцов плазмы. Биопсии ткани были взяты из TUR-B во время постановки диагноза. ДНК экстрагировали, как описано ранее, либо из срезов TISSUE-TEK® O.C.T. Ткань, залитая смесью (Sakura) или залитая парафином, фиксированная формалином (FFPE) из биоптата, взятого в наиболее репрезентативной локализации с высоким процентом клеток карциномы. 40 мл крови с ЭДТА собирали при каждом посещении или перед каждой серией химиотерапии и немедленно обрабатывали. Образцы центрифугировали при 3000 g в течение 10 минут при комнатной температуре, а плазму и лейкоцитарную пленку хранили отдельно при минус 80 °C. ДНК зародышевой линии экстрагировали из лейкоцитов лейкоцитарной пленки, и концентрацию измеряли флуорометрическим количественным анализом QUBIT®. Плазму хранили при минус 80 °C. В этом исследовании использовалось до 9 мл плазмы на случай (диапазон 4-9 мл; в среднем X мл). Весь объем плазмы использовали для экстракции скДНК с использованием набора QIAAMP® Circulating Nucleic Acid kit (Qiagen) и элюировали в 50 мкл буфера для суспензии ДНК (Sigma). Каждый образец скДНК был количественно определен с помощью набора QUANT-IT® High Sensitivity dsDNA Assay Kit (Invitrogen).[945] We analyzed material from blood, tumor biopsies, and over time collected plasma samples. Tissue biopsies were taken from TUR-B at the time of diagnosis. DNA was extracted as previously described, either from TISSUE-TEK ® OCT Tissue-embedded (Sakura) or formalin-fixed paraffin-embedded (FFPE) sections from a biopsy sample taken from the most representative location with a high percentage of carcinoma cells. 40 ml of EDTA blood was collected at each visit or before each chemotherapy series and processed immediately. Samples were centrifuged at 3000 g for 10 minutes at room temperature, and plasma and buffy coat were stored separately at −80°C. Germline DNA was extracted from buffy coat leukocytes and the concentration was measured by the QUBIT ® fluorometric quantitation assay. Plasma was stored at minus 80 °C. This study used up to 9 mL of plasma per case (range 4–9 mL; mean X mL). The entire volume of plasma was used for scDNA extraction using the QIAAMP ® Circulating Nucleic Acid kit (Qiagen) and eluted in 50 μl of DNA suspension buffer (Sigma). Each scDNA sample was quantified using the QUANT-IT ® High Sensitivity dsDNA Assay Kit (Invitrogen).
[946] Секвенирование экзома и анализ в области биоинформатики [946] Exome sequencing and bioinformatics analysis
[947] Библиотеки опухолевой ДНК и подходящей ДНК зародышевой линии получали с использованием 100-500 нг ДНК и захватывали с помощью панели SEQCAPEZ® MedExomeV1_hg19 или MedExomePlusV1_hg19 (Roche). Показаны метрики секвенирования экзома, процент клеток карциномы и тип ткани.[947] Libraries of tumor DNA and matching germline DNA were prepared using 100-500 ng of DNA and captured using the SEQCAPEZ ® MedExomeV1_hg19 or MedExomePlusV1_hg19 panel (Roche). Exome sequencing metrics, percentage of carcinoma cells, and tissue type are shown.
[948] Все варианты, прошедшие примененные фильтры, были подвергнуты анализу на активность мутационных сигнатур. Варианты изначально были загружены в объект VRanges, а затем контекст последовательности был извлечен с помощью пакета SomaticSignatures R (Obenchainet al., Bioinformatics 30, 2076-2078 (2014); Gehring et al., Bioinformatics 31, 3673-3675 (2015)). Экстракция сигнатур мутаций de novo не применялaсь из-за размера когорты. Вместо этого мутационные профили, идентифицированные в наших образцах, проецировались на известные сигнатуры COSMIC с помощью пакета MutationalPatterns R (см. cancer.sanger.ac.uk/cosmic/signatures и Blokzijl et al., Genome Med. 10, 33 (2018)). Для анализов были приоритезированы мутационные сигнатуры 1, 2, 5 и 13, идентифицированные в Robertson et al., Cell 171, 540-556.e25 (2017) для рака мочевого пузыря. [948] All variants that passed the applied filters were analyzed for the activity of mutation signatures. Variants were initially loaded into a VRanges object and then sequence context was extracted using the SomaticSignatures R package (Obenchainet al., Bioinformatics 30, 2076-2078 (2014); Gehring et al., Bioinformatics 31, 3673-3675 (2015)). De novo mutation signature extraction was not used due to cohort size. Instead, the mutational profiles identified in our samples were projected onto known COSMIC signatures using the MutationalPatterns R package (see cancer.sanger.ac.uk/cosmic/signatures and Blokzijl et al., Genome Med . 10, 33 (2018)) . Mutation signatures 1, 2, 5, and 13 identified in Robertson et al., Cell 171, 540-556.e25 (2017) for bladder cancer were prioritized for analyses.
[949] Мутации, связанные с ответом на повреждение ДНК [949] Mutations associated with DNA damage response
[950] Избранные гены ответа на повреждение ДНК были описаны в Teo et al., Clin. Cancer Res. 3610-3618 (2017). Мутации, идентифицированные в этих генах, были проанализированы на предмет повреждающего действия или доброкачественности. Все мутации с потерей функции считались повреждающими. Миссенс-мутации были подвергнуты дальнейшему анализу с использованием PolyPhen2 и MutationAssessor, как описано в Reva et al., Nucleic Acids Res. 39, e118 (2011) и Adzhubei et al., Nature Methods 7, 248-249 (2010). Варианты, идентифицированные как вероятно повреждающие/возможно повреждающие или средние/высокие, соответственно, в PolyPhen2 и MutationAssessor, считались повреждающими.[950] Selected DNA damage response genes have been described in Teo et al., Clin. Cancer Res . 3610-3618 (2017). Mutations identified in these genes were analyzed to determine whether they were deleterious or benign. All loss-of-function mutations were considered damaging. Missense mutations were further analyzed using PolyPhen2 and MutationAssessor as described in Reva et al., Nucleic Acids Res. 39, e118 (2011) and Adzhubei et al., Nature Methods 7, 248-249 (2010). Variants identified as likely damaging/possibly damaging or medium/high, respectively, in PolyPhen2 and MutationAssessor were considered damaging.
[951] Подготовка бибилиотеки свободно-клеточной ДНК [951] Free Cell DNA Library Preparation
[952] Получение свободно-клеточной ДНК (скДНК) было ранее описано в качестве исходных данных для подготовки библиотеки использовали до 66 нг (20000 геномных эквивалентов) внеклеточной ДНК (скДНК) из каждого образца плазмы. скДНК была подвергнута репарации на концах, наращиванию A-хвостов и лигированию с помощью специальных адапторов. Очищенный продукт лигирования амплифицировали в течение 20 циклов и очищали с использованием микрогранул AMPURE® XP (Agencourt/Beckman Coulter). [952] Preparation of cell-free DNA (cfDNA) was previously described as input for library preparation using up to 66 ng (20,000 genome equivalents) of cell-free DNA (cfDNA) from each plasma sample. The scDNA was subjected to end repair, A-tail extension, and ligation using special adapters. The purified ligation product was amplified for 20 cycles and purified using AMPURE ® XP microbeads (Agencourt/Beckman Coulter).
[953] Рабочий процесс секвенирования следующего поколения (ССП) плазмы в мультиплексной ПЦР [953] Next generation sequencing (NGS) workflow for plasma in multiplex PCR
[954] Аликвоту каждой библиотеки использовали в качестве ввода для связанной с пациентом реакции 16-плексной ПЦР. Образцы были амплифицированы с использованием опухолеспецифического анализа SIGНАТERA® и закодированы штрих-кодом с последующим объединением. Секвенирование выполнялось на Illumina HISEQ® 2500 Rapid Run с 50 циклами считывания парных концов с использованием набора Illumina PAIRED END® v2 со средней глубиной считывания более 100000X на ампликон, как описано в Abbosh et al., Phylogenetic ctDNA analysis depicts early-stage lung cancer evolution, Nature 545, 446-451 (2017).[954] An aliquot of each library was used as input for a patient-related 16-plex PCR reaction. Samples were amplified using the tumor-specific SIGNATERA ® assay and barcoded and pooled. Sequencing was performed on an Illumina HISEQ ® 2500 Rapid Run with 50 paired-end read cycles using the Illumina PAIRED END ® v2 kit with an average read depth of more than 100,000X per amplicon, as described in Abbosh et al., Phylogenetic ctDNA analysis depicts early-stage lung cancer evolution , Nature 545, 446-451 (2017).
[955] Распознавание плазматических вариантов [955] Recognition of plasma variants
[956] Для построения модели фоновой ошибки был предварительно обработан большой набор отрицательных контрольных образцов (~1000). Для каждого целевого варианта с использованием глубины чтения мутантных и референтных аллелей показатель достоверности был рассчитан на основе модели ошибок, как описано в Abbosh et al. 2017. Образец положительной плазмы цоДНК был определен как имеющий по меньшей мере 2 варианта с показателем достоверности выше предопределенного порога алгоритма (0,97), как описано Abbosh et al. 2017.[956] To build the background error model, a large set of negative control samples (~1000) were preprocessed. For each target variant, using the read depth of mutant and reference alleles, a confidence score was calculated based on the error model as described in Abbosh et al. 2017. A ctDNA positive plasma sample was defined as having at least 2 variants with a confidence score above the predefined algorithm threshold (0.97) as described by Abbosh et al. 2017.
[957] Полноэкзомное секвенирование плазмы [957] Whole exome sequencing of plasma
[958] Аликвоту каждой библиотеки плазмы кодировали штрих-кодом и захватывали с помощью набора для обогащения мишени SEQCAP® EZ MedExome Target Enrichment Kit. Секвенирование проводили на Illumina HISEQ® 2500 с 200 циклами считываний одиночных концов с применением набора Illumina TRUESEQ®v1 kit. Данные были демультиплексированы, адаптор обрезан, и картирование было выполнено с помощью инструмента выравнивания Burrows-Wheeler Alignment (BWA-mem) и использования hg19 в качестве эталонной последовательности. Для манипулирования с данными секвенирования дубликаты были маркированы с помощью инструмента Picard. Файлы Bam, созданные из этого картирования, были обработаны в соответствии с передовой практикой GATK (ссылка). Варианты распознавались с помощью MuTect2, а для определения геномных позиций использовались варианты, прошедшие встроенные фильтры, с изменениями для каждого пациента. Распознанные варианты в обоих экзомах для каждого пациента впоследствии были использованы для анализа всех включенных положений вручную с использованием BAM-readcount (ссылка). Были включены только основания и считывания с качеством выше 20, а позиции с менее 10 считываниями в обоих экзомах не были включены в сравнение.[958] An aliquot of each plasma library was barcoded and captured using the SEQCAP ® EZ MedExome Target Enrichment Kit. Sequencing was performed on an Illumina HISEQ ® 2500 with 200 cycles of single-end reads using the Illumina TRUESEQ ® v1 kit. Data were demultiplexed, adapter trimmed, and mapping was performed using the Burrows-Wheeler Alignment tool (BWA-mem) using hg19 as the reference sequence. For sequencing data manipulation, duplicates were labeled using the Picard tool. Bam files generated from this mapping have been processed according to GATK best practices (link). Variants were recognized using MuTect2, and variants passed the built-in filters were used to determine genomic positions, with modifications for each patient. Recognized variants in both exomes for each patient were subsequently used to manually analyze all included positions using BAM-readcount (link). Only bases and reads with a quality greater than 20 were included, and positions with fewer than 10 reads in both exomes were not included in the comparison.
[959] Секвенирование РНК, обработка данных и анализ [959] RNA sequencing, data processing and analysis
[960] Секвенирование РНК проводили при помощи QUANTSEQ® 3' mRNA-Seq Library Prep (Lexogen) с вводом РНК в пределах 50-250 нг. Библиотеки готовили согласно рекомендациям производителя. Секвенирование выполняли однократным считыванием 70 п.н. на платформе Illumina NEXTSEQ® 500. Считанные последовательности выравнивали с транскриптомом GRCh38 (кДНК + нкРНК) с использованием Salmon (Patro et al., Nature Methods, 14, 417-419 ( 2017)) без коррекции длины гена, и данные экспрессии гена TPM были нормализованы с использованием edgeR (Robinson and Oshlack, Genome Biology, 11,R25 (2010)). Образцы были классифицированы согласно консенсусным подтипам МИРМП (рукопись на стадии подготовки).[960] RNA sequencing was performed using QUANTSEQ ® 3' mRNA-Seq Library Prep (Lexogen) with RNA input ranging from 50-250 ng. Libraries were prepared according to the manufacturer's recommendations. Sequencing was performed with a single read of 70 bp. on the Illumina NEXTSEQ ® 500 platform. Sequence reads were aligned to the GRCh38 transcriptome (cDNA + ncRNA) using Salmon (Patro et al., Nature Methods , 14, 417-419 (2017)) without gene length correction, and TPM gene expression data were normalized using edgeR (Robinson and Oshlack, Genome Biology , 11,R25 (2010)). Samples were classified according to consensus MIBC subtypes (manuscript in preparation).
[961] Статистические анализы [961] Statistical analyzes
[962] Анализ выживаемости проводился в статистике R с использованием пакетов Survminer и Survival. Оценка статистической значимости проводилась с использованием критерия суммы рангов Вилкоксона для непрерывных переменных и точного критерия Фишера для категориальных переменных.[962] Survival analysis was performed in R statistics using the Survminer and Survival packages. Statistical significance was assessed using the Wilcoxon rank sum test for continuous variables and the Fisher exact test for categorical variables.
[963] РЕЗУЛЬТАТЫ [963] RESULTS
[964] Характеристики пациентов и анализ первичной опухоли [964] Patient characteristics and primary tumor analysis
[965] Мы включили пациентов с локализованными МИРМП, получавших химиотерапию перед цистэктомией в период с 2014 по 2017 год в больнице Орхусского университета, Дания (ФИГ. 70). Всего 68 пациентов соответствовали всем критериям включения (см. ФИГ. 70, ФИГ. 71A-G и Таблицу IA ниже).[965] We included patients with localized MIBC who received chemotherapy before cystectomy between 2014 and 2017 at Aarhus University Hospital, Denmark (FIG. 70). A total of 68 patients met all inclusion criteria (see FIG. 70, FIG. 71A-G and Table IA below).
Таблица IA: Характеристики и демографические данные пациентов.Table IA: Patient characteristics and demographics.
T4a/b T1/T2
T4a/b
10 (14,7)58 (85.3)
10 (14.7)
[966] Полноэкзомное секвенирование (ПЭС) опухоли и ДНК соответствующей зародышевой линии было выполнено при среднем целевом охвате 104X (31X-251X) для образцов опухоли и 66X (35X-120X) для образцов зародышевой линии, определяя в среднем 488 (11- 3536) мутаций на пациента. Кроме того, было выполнено РНК-секвенирование 46 опухолей для определения подтипов рака мочевого пузыря, иммунных сигнатур и клеточного состава. Резюме молекулярных характеристик и клинических данных для всех пациентов приведено на ФИГ. 71A-G. Схема клинического протокола и график отбора проб для этого исследования показаны на ФИГ. 72.[966] Whole exome sequencing (WES) of tumor and corresponding germline DNA was performed at an average target coverage of 104X (31X-251X) for tumor samples and 66X (35X-120X) for germline samples, identifying an average of 488 (11-3536) mutations per patient. In addition, RNA sequencing of 46 tumors was performed to determine bladder cancer subtypes, immune signatures, and cellular composition. A summary of the molecular characteristics and clinical data for all patients is shown in FIG. 71A-G. The clinical protocol design and sampling schedule for this study are shown in FIG. 72.
[967] Мониторинг цоДНК при помощи секвенирования следующего поколения (ССП) основанного на сверхглубокой мультиплексной ПЦР. [967] Monitoring ctDNA using next generation sequencing (NGS) based on ultra-deep multiplex PCR.
[968] Для обнаружения цоДНК использовали индивидуальный подход ССП мультиплексной ПЦР. Соматические ОНВ и короткие ВСТАВКИ/ДЕЛЕЦИИ были расставлены по приоритету на основании данных полноэкзомного секвенирования (ПЭС) на основе наблюдаемой частоты вариантного аллеля (ЧВА) в контексте ткани и последовательности. Были разработаны и синтезированы уникальные специфические для пациента анализы для шестнадцати высокорейтинговых соматических мутаций, как указано на ФИГ. 73. ССП в мультиплексной ПЦР проводили на скДНК плазмы. Образец считался цоДНК положительным только в том случае, если было обнаружено по меньшей мере два целевых варианта на основе ранее разработанного алгоритма распознавания, представленного в Abbosh et.al 2017. Аналитическая чувствительность на уровне образца (когда обнаруживают 2 или более вариантов из 16) определялась как более 95% при частотах вариантных аллелей 0,01%.[968] A customized SSP multiplex PCR approach was used to detect ctDNA. Somatic SNVs and short INSERT/DELETIONS were prioritized based on whole exome sequencing (WES) data based on observed variant allele frequency (VAF) in tissue and sequence context. Unique patient-specific assays were developed and synthesized for sixteen high-ranking somatic mutations, as indicated in FIG. 73. SSP in multiplex PCR was performed on plasma cDNA. A sample was considered ctDNA positive only if at least two target variants were detected based on a previously developed recognition algorithm presented in Abbosh et.al 2017. Sample-level analytical sensitivity (when 2 or more variants out of 16 are detected) was defined as more than 95% with variant allele frequencies of 0.01%.
[969] Используя этот подход, статус цоДНК был проанализирован в 618 образцах плазмы 68 пациентов, включенных в исследование (ФИГ. 70). Контроль качества осуществлялся на протяжении всего рабочего процесса. Образцы и ампликоны, не прошедшие контроль качества, были исключены из дальнейшего анализа. Для каждого пациента набор из 45 ОНП был генотипирован при полноэкзомном секвенировании (ПЭС) и при секвенировании плазмы для обеспечения соответствия образцов. Медианное покрытие мишени составляло 120000X.[969] Using this approach, ctDNA status was analyzed in 618 plasma samples from 68 patients included in the study (FIG. 70). Quality control was carried out throughout the entire work process. Samples and amplicons that failed quality control were excluded from further analysis. For each patient, a set of 45 SNPs were genotyped by whole exome sequencing (WES) and plasma sequencing to ensure sample matching. The median target coverage was 120,000X.
[970] Обнаружение цоДНК для прогноза и выявления рецидива [970] Detection of ctDNA for prognosis and detection of relapse
[971] На протяжении всего течения заболевания наличие или отсутствие цоДНК сильно коррелировало с исходом заболевания (ФИГ. 74, ФИГ. 75A-C). Значительный интерес представлял статус цоДНК в следующих трех временных точках. Первым интересующим моментом времени является статус цоДНК до введения НАХТ, и было обнаружено, что эта временная точка в высокой степени прогнозирует исход. При раке мочевого пузыря первым вмешательством является ТУРОМП (трансуретральная резекция опухоли мочевого пузыря), и поэтому было обнаружено, что эта первая временная точка служит приблизительным показателем для измерения минимальной остаточной болезни. Поразительно, что 94% (34/36) пациентов с отрицательным результатом на цоДНК в этот первый момент времени не имели рецидив на протяжении всего исследования. Напротив, 44% (11/25) пациентов, которые были цоДНК-положительными в этот момент до НАХТ, имели рецидив после цистэктомии. Таким образом, обнаружение цоДНК в этот ранний момент времени является очень сильным прогностическим фактором для долгосрочного клинического исхода после НАХТ и цистэктомии (ЦЭ).[971] Throughout the course of the disease, the presence or absence of ctDNA was highly correlated with disease outcome (FIG. 74, FIG. 75A-C). Of significant interest was the ctDNA status at the following three time points. The first time point of interest is ctDNA status before NACT administration, and this time point has been found to be highly predictive of outcome. For bladder cancer, the first intervention is TURB (transurethral resection of bladder tumor), and therefore this first time point has been found to serve as a proxy for measuring minimal residual disease. Strikingly, 94% (34/36) of patients with a negative ctDNA result at this first time point did not relapse throughout the study. In contrast, 44% (11/25) of patients who were ctDNA positive at this point before NACT had a recurrence after cystectomy. Thus, detection of ctDNA at this early time point is a very strong prognostic factor for long-term clinical outcome after NACT and cystectomy (CE).
[972] Вторая временная точка была после НАХТ и до цистэктомии, статус цоДНК в этот временной момент также был прогностическим для исхода пациента. Среди цоДНК-отрицательных пациентов было только 7% (4/55; 4 были положительными после цистэктомии (ЦЭ) и имели рецидив) пациентов с рецидивом по сравнению с 70% (7/10) положительных по цоДНК пациентов, у которых был рецидив. Статус цоДНК до цистэктомии (ЦЭ) был связан с патологией при ЦЭ, потому что у 100% цоДНК-положительных пациентов в этот момент времени была остаточная опухоль T2+ и/или метастазы в лимфатические узлы, идентифицированные при цистэктомии (ФИГ. 75B). [972] The second time point was after NACT and before cystectomy, ctDNA status at this time point was also predictive of patient outcome. Among the ctDNA-negative patients, there were only 7% (4/55; 4 were post-cystectomy (CE) positive and had recurrence) patients who relapsed compared with 70% (7/10) of ctDNA positive patients who had a relapse. Pre-cystectomy (CE) ctDNA status was associated with CE pathology because 100% of ctDNA-positive patients at this time point had residual T2+ tumor and/or lymph node metastases identified at cystectomy (FIG. 75B).
[973] Третья временная точка была после цистэктомии. Стратификация пациентов по статусу цоДНК после ЦЭ показала значительно худший результат для цоДНК положительных пациентов (ФИГ. 75C). Большинство, 96% пациентов с отрицательным результатом на цоДНК (50/52) не имели рецидив, однако у 2/52 пациентов возник рецидив через более, чем 1,5 года после ЦЭ (анализ на цоДНК ближе к рецидиву не проводился). Напротив, 92% (12/13) пациентов с положительной реакцией на цоДНК имели рецидив. Примечательно, что один пациент умер до клинической оценки (ФИГ. 75D). Было обнаружено, что статус цоДНК после ЦЭ является высокопрогностическим фактором рецидива заболевания и более сильным прогностическим фактором, чем любой другой прогностический фактор, такой как стадия N перед цистэктомией и ответ на химиотерапию (ФИГ. 75E).[973] The third time point was after cystectomy. Stratification of patients by ctDNA status after CE showed a significantly worse outcome for ctDNA positive patients (FIG. 75C). The majority, 96% of patients with a negative ctDNA result (50/52) did not relapse, but 2/52 patients relapsed more than 1.5 years after CE (ctDNA testing was not performed closer to relapse). In contrast, 92% (12/13) of ctDNA-positive patients relapsed. Notably, one patient died before clinical evaluation (FIG. 75D). Post-CE ctDNA status was found to be highly predictive of disease recurrence and a stronger prognostic factor than any other prognostic factor such as pre-cystectomy N stage and response to chemotherapy (FIG. 75E).
[974] Серийные измерения цоДНК для наблюдения за заболеванием [974] Serial ctDNA measurements for disease surveillance
[975] Здесь раскрывается, что серийное измерение цоДНК может использоваться как для мониторинга терапевтического ответа, так и для обнаружения рецидива. В нашем исследовании чтобы оценить ценность цоДНК в условиях наблюдения плазма была собрана после цистэктомии, в серийные временные точки, когда пациенты были без признаков заболевания. При включении анализа серийных измерений цоДНК во время течения заболевания мы наблюдали чувствительность 92% при 100% специфичности (ФИГ. 76). В среднем, обнаружение цоДНК наблюдалось за 96 дней (0-245 дней) до обнаружения с помощью рентгенографии. Например, у пациента 4265 наблюдалось падение цоДНК во время НАХТ, а затем цоДНК было обнаружено через 138 дней после ЦЭ; тогда как клинический рецидив был выявлен через 186 дней (324 дня после ЦЭ). Подобным образом, пациент 4189 показал положительный результат на цоДНК до ЦЭ и впоследствии был отрицательным, а затем, через 273 дня после ЦЭ, снова была обнаружена цоДНК; однако клинический рецидив был выявлен на 369 день или 96 дней спустя (см. ФИГ. 76). Для 12 пациентов с метастатическим рецидивом мы обнаружили, что анализ цоДНК имеет медианное время упреждения 103 дня (диапазон; p=0,019) по сравнению с обычными способами визуализации (ФИГ.77). Время упреждения может быть смещено при анализе более частого отбора проб плазмы по сравнению с визуализацией. Ограничение нашего анализа пациентами с одновременным исследованием плазмы и рентгенографией позволило выявить восемь пациентов, пять из которых показали упреждение времени обнаружения рецидива для анализов цоДНК. У остальных трех пациентов было выявлено одновременное рецидивирование (ФИГ.77), и среднее время упреждения для всех восьми пациентов составило 106 дней. [975] It is disclosed here that serial ctDNA measurement can be used to both monitor therapeutic response and detect relapse. In our study, to evaluate the value of ctDNA in a surveillance setting, plasma was collected after cystectomy, at serial time points when patients were disease-free. When we included analysis of serial ctDNA measurements throughout the course of the disease, we observed a sensitivity of 92% with 100% specificity (FIG. 76). On average, ctDNA detection was observed 96 days (0–245 days) before radiographic detection. For example, patient 4265 had a drop in ctDNA during NACT, and then ctDNA was detected 138 days after CE; whereas clinical relapse was detected after 186 days (324 days after CE). Similarly, patient 4189 tested positive for ctDNA before CE and was subsequently negative, and then 273 days after CE, ctDNA was detected again; however, clinical relapse was detected on day 369 or 96 days later (see FIG. 76). For 12 patients with metastatic relapse, we found that ctDNA analysis had a median lead time of 103 days (range; p=0.019) compared with conventional imaging (FIG. 77). The lead time may be biased by analysis of more frequent plasma sampling compared with imaging. Restricting our analysis to patients with simultaneous plasma and radiographic studies identified eight patients, five of whom showed advanced time to relapse detection for ctDNA analyses. The remaining three patients showed concurrent recurrence (FIG. 77), and the mean lead time for all eight patients was 106 days.
[976] Серийный отбор измерений цоДНК для мониторинга ответа на терапию [976] Serial sampling of ctDNA measurements to monitor response to therapy
[977] Рак мочевого пузыря лечится с помощью НАХТ, однако клинически полезные прогностические биомаркеры ответа на лечение были ранее и в настоящее время недоступными, и снижение патологической стадии при ЦЭ используется в качестве показателя эффективности лечения (ссылка). В нашей серии рецидив заболевания был достоверно связан с ожидаемым ответом на химиотерапию (ФИГ. 78A), однако только у 44% (х/у) пациентов без ответа наблюдался рецидив заболевания, что указывает на то, что снижение патологической стадии явилось неоптимальным маркером для оценки эффективности лечения. В данном случае мы обнаружили, что измерения цоДНК в динамике во время НАХТ показали очень разные распределения между пациентами, отвечающими на лечение, и пациентами, не отвечающими на лечение (p = xx; ФИГ. 78F-G). В общей сложности 83% (34/41) цоДНК-отрицательных пациентов показали ответ на химиотерапию, и 53% (9/17) пациентов, у которых был выявлен клиренс цоДНК в результате исходно положительных тестов, отвечали на терапию, что указывает на то, что уровни цоДНК могут служить лучшими индикаторами эффективности лечения во время и после лечения. У пациентов с положительной цоДНК после НАХТ не было ответа на химиотерапию. В целом, уровни цоДНК отражали характеристики течения болезни, наблюдаемые в когорте (ФИГ. 78G). [977] Bladder cancer is treated with NACT, but clinically useful predictive biomarkers of treatment response have previously been and are currently unavailable, and downstaging in CE is used as an indicator of treatment response (ref). In our series, disease relapse was significantly associated with expected response to chemotherapy (FIG. 78A), but only 44% (x/y) of non-responder patients experienced disease relapse, indicating that downstaging was a suboptimal marker for evaluation effectiveness of treatment. Here, we found that ctDNA measurements over time during NACT showed very different distributions between responders and nonresponders (p = xx; FIG. 78F-G). A total of 83% (34/41) of ctDNA-negative patients responded to chemotherapy, and 53% (9/17) of patients who had ctDNA clearance from initially positive tests responded to therapy, indicating that that ctDNA levels may serve as better indicators of treatment efficacy during and after treatment. Patients with positive ctDNA after NACT did not respond to chemotherapy. Overall, ctDNA levels reflected the disease characteristics observed in the cohort (FIG. 78G).
[978] Анализ молекулярных характеристик опухолей, ранее не получавших лечение, показал значительно более высокий вклад мутационной сигнатуры 5 (p = 0,01) у пациентов, отвечающих на химиотерапию (ФИГ. 78B). Высокий вклад сигнатуры 5 был в значительной степени связан со статусом мутации ERCC2 (ФИГ. 80), что указывает на корреляцию с механизмами ответа на повреждение ДНК (DDR), как сообщалось ранее. Мутации ERCC2 у пациентов, отвечающих на лечение, однако, не были значимо более распространенными (ФИГ. 78C). В целом, статус мутации DDR не был прогностическим биомаркером ответа на химиотерапию (ФИГ. 78D). Путем стратификации опухолей по молекулярным подтипам (ФИГ. 78E) мы обнаружили значительную корреляцию с выживаемостью (ФИГ. 78F), но эти подтипы не позволяли прогнозировать ответ на НАХТ (ФИГ. 78G). Опухоли, классифицированные как «инфильтрированные», показали более высокую скорость ответа на химиотерапию по сравнению с другими подтипами (ФИГ. 78G). Это контрастирует с более ранними сообщениями, в которых подчеркивается, что опухоли, подобные базальным, в наибольшей степени связаны с ответом на лечение НАХТ. [978] Analysis of the molecular characteristics of treatment-naive tumors showed a significantly higher contribution of mutational signature 5 (p = 0.01) in patients responding to chemotherapy (FIG. 78B). The high contribution of signature 5 was significantly associated with ERCC2 mutation status (FIG. 80), indicating a correlation with DNA damage response (DDR) mechanisms, as previously reported. ERCC2 mutations in responding patients, however, were not significantly more common (FIG. 78C). Overall, DDR mutation status was not a predictive biomarker of response to chemotherapy (FIG. 78D). By stratifying tumors by molecular subtype (FIG. 78E), we found a significant correlation with survival (FIG. 78F), but these subtypes did not predict response to NACT (FIG. 78G). Tumors classified as "infiltrated" showed a higher response rate to chemotherapy compared with other subtypes (FIG. 78G). This contrasts with earlier reports, which emphasized that basal-like tumors were most associated with response to NACT treatment.
[979] Полноэкзомное секвенирование цоДНК плазмы от пациентов с метастатической болезнью [979] Whole exome sequencing of plasma ctDNA from patients with metastatic disease
[980] Мы провели полноэкзомное секвенирование (ПЭС) скДНК из образцов плазмы с цоДНК-мишенями, измеренными с частотой аллелей 10% или выше в анализах ССП мультиплексной ПЦР. Четыре образца от трех пациентов были секвенированы до среднего целевого охвата 307X (272X-340X), и было идентифицировано 508-1294 мутаций. Мы сравнили все мутации, идентифицированные в данных ПЭС плазмы, с соответствующими данными ПЭС первичной опухоли, чтобы оценить мутационные изменения, приобретенные во время метастатической эволюции (ФИГ. 79A-D). Мы обнаружили большое сходство между мутационными ландшафтами первичных опухолей и метастатических поражений, что указывает на ограниченную клональную эволюцию в течение болезни у выбранных пациентов. В среднем, мы идентифицировали 62 мутации в цоДНК, присутствующие на момент метастазирования, которые не были обнаружены в первичных опухолях. Интересно, что мы идентифицировали две мутации CYP2C19 в плазме пациента 4119, обе затрагивающие кодон 214. Полученная аминокислота находится в канале, участвующем в направлении соединений к активному центру белка. Эти мутации могли произойти во время химиотерапии, и они могут объяснить отсутствие снижения патологической стадии, наблюдаемого у этого пациента. [980] We performed whole exome sequencing (WES) of scDNA from plasma samples with ctDNA targets measured at allele frequencies of 10% or higher in multiplex PCR SSP assays. Four samples from three patients were sequenced to an average target coverage of 307X (272X-340X), and 508-1294 mutations were identified. We compared all mutations identified in the plasma RPE data with the corresponding primary tumor RPE data to evaluate mutational changes acquired during metastatic evolution (FIG. 79A-D). We found high similarity between the mutational landscapes of primary tumors and metastatic lesions, indicating limited clonal evolution during the disease course of the selected patients. On average, we identified 62 ctDNA mutations present at the time of metastasis that were not detected in primary tumors. Interestingly, we identified two CYP2C19 mutations in the plasma of patient 4119, both affecting codon 214. The resulting amino acid is in a channel involved in directing compounds to the active site of the protein. These mutations may have occurred during chemotherapy and may explain the lack of pathological downstaging observed in this patient.
[981] Обсуждение [981] Discussion
[982] В данном отчете описан надежный и воспроизводимый способ для раннего выявления и улучшения лечения метастатического заболевания, основанный на обнаружении и мониторинге цоДНК до, во время и после лечения. У пациентов, подвергшихся радикальной операции, обнаружение цоДНК служит прямым доказательством скрытых раковых клеток и, следовательно, остаточного заболевания.[982] This report describes a reliable and reproducible method for early detection and improved treatment of metastatic disease based on detection and monitoring of ctDNA before, during and after treatment. In patients undergoing radical surgery, detection of ctDNA provides direct evidence of occult cancer cells and therefore residual disease.
[983] Что интересно, в данном случае было обнаружено, что выявление цоДНК часто предшествовало обнаружению метастазов с помощью способов визуализации. В частности, мы обнаружили, что все пациенты, у которых в конечном итоге был выявлен метастатический рак мочевого пузыря, были цоДНК-положительными после цистэктомии, со средним временем упреждения 103 дня по сравнению с визуализационными способами. Таким образом, способ анализа, представленной в данном документе цоДНК, предлагает уникальную возможность для начала лечения метастатического рецидива в более ранний момент времени. Важно отметить, что начало лечения небольших объемов метастатического заболевания может повысить уровни ответа и положительно повлиять на выживаемость. [983] Interestingly, in this case it was found that detection of ctDNA often preceded detection of metastases by imaging modalities. Specifically, we found that all patients who were ultimately diagnosed with metastatic bladder cancer were ctDNA positive after cystectomy, with a median lead time of 103 days compared with imaging modalities. Thus, the ctDNA analysis method presented here offers a unique opportunity to initiate treatment of metastatic relapse at an earlier point in time. Importantly, initiating treatment for small amounts of metastatic disease may improve response rates and positively impact survival.
[984] В этом исследовании также описан надежный и воспроизводимый способ выявления пациентов с низким риском метастатического рецидива. При этом было обнаружено, что все пациенты, у которых не было заболевания, после цистэктомии были цоДНК-отрицательными (100% специфичность). 100% специфичность теста после цистэктомии может быть использована для выявления пациентов с низким риском метастатического рецидива и, следовательно, уменьшения потребности в постоянном наблюдении с дорогостоящей рентгенографической визуализацией и связанной с этим тревогой пациента. Соответственно, настоящее описание обеспечивает лучшую связь между статусом цоДНК и исходом по сравнению с обычными способами, тем самым приближая анализ цоДНК к клиническому значению. [984] This study also describes a reliable and reproducible method for identifying patients at low risk of metastatic recurrence. It was found that all patients who did not have disease after cystectomy were ctDNA negative (100% specificity). The 100% specificity of the post-cystectomy test can be used to identify patients at low risk of metastatic recurrence and therefore reduce the need for continuous surveillance with costly radiographic imaging and associated patient anxiety. Accordingly, the present description provides a better association between ctDNA status and outcome compared with conventional methods, thereby bringing ctDNA analysis closer to clinical relevance.
[985] Настоящее изобретение также явилось открытием того, что динамика цоДНК может помочь в идентификации пациентов, реагирующих на НАХТ, уже во время лечения. Пациенты с МИРМП получали НАХТ для уменьшения первичной опухолевой нагрузки и потенциального устранения микрометастазов до цистэктомии, и у большинства пациентов наблюдалось снижение патологической стадии после НАХТ. Отсутствие снижения патологической стадии, т.е. остаточная первичная опухоль или инфильтрация лимфатических узлов во время цистэктомии, или предшествующая инфильтрация лимфатических узлов, являются факторами риска, связанными с рецидивом заболевания после цистэктомии. В нашем исследовании цоДНК была обнаружена у 37% (25/68) пациентов до или во время НАХТ, а у 53% пациентов со снижением цоДНК ниже нашего порога обнаружения наблюдалось снижение патологической стадии. Важно отметить, что ни у одного из пациентов с постоянно определяемой цоДНК не наблюдалось снижения патологической стадии. Однако мы наблюдали подгруппу пациентов со снижением патологической стадии, у которых наблюдались рецидивы заболевания, и наоборот. Эти результаты показывают, что, хотя клинические и гистопатологические параметры служат прогностическими факторами риска, стратификация риска пациентов на основе патологии далека от идеала. [985] The present invention also resulted from the discovery that ctDNA dynamics can help identify patients who respond to NACT already during treatment. Patients with MIBC received NACT to reduce the primary tumor burden and potentially eliminate micrometastases before cystectomy, and most patients experienced a reduction in pathological stage after NACT. No reduction in pathological stage, i.e. residual primary tumor or lymph node infiltration at the time of cystectomy, or previous lymph node infiltration, are risk factors associated with disease recurrence after cystectomy. In our study, ctDNA was detected in 37% (25/68) of patients before or during NACT, and 53% of patients with ctDNA reduction below our detection threshold had a reduction in pathological stage. It is important to note that none of the patients with persistently detectable ctDNA experienced a decrease in pathological stage. However, we observed a subgroup of patients with pathological downstaging who experienced disease relapse and vice versa. These results indicate that although clinical and histopathological parameters serve as prognostic risk factors, risk stratification of patients based on pathology is less than ideal.
[986] В данном изобретении также предлагается, что статус цоДНК до и во время химиотерапии может быть реализован как новый мощный клинический фактор риска и потенциально может помочь в отборе пациентов с ранним метастатическим распространением, которым могут быть полезны длительные режимы НАХТ и усиленного наблюдения. При этом было продемонстрировано, что ни у одного из пациентов с отрицательным результатом цоДНК до или во время химиотерапии не было рецидива заболевания после цистэктомии, в то время как у 44% (11/25) пациентов, которые были положительными по цоДНК до или во время химиотерапии, был рецидив заболевания. Таким образом, присутствие цоДНК даже на ранней стадии может указывать на метастатическое распространение и способствовать более высокой стратификации риска пациентов по сравнению с имеющимися в настоящее время факторами риска для этой группы пациентов, которые, насколько нам известно, ранее не демонстрировались на аналогичном уровне закономерности. Подгруппа пациентов с первоначально обнаруживаемой цоДНК, но без признаков возможного рецидива заболевания, может представлять собой случаи, когда химиотерапия или цистэктомия эффективно искоренили болезнь. Следовательно, пациенты без признаков раннего метастатического распространения (цоДНК отрицательные) и снижения патологической стадии после НАХТ могут иметь право на лечение с сохранением мочевого пузыря. [986] The present invention also proposes that ctDNA status before and during chemotherapy may be a powerful new clinical risk factor and may potentially aid in the selection of patients with early metastatic spread who may benefit from long-term regimens of NACT and enhanced surveillance. It was demonstrated that none of the patients who were ctDNA negative before or during chemotherapy had disease recurrence after cystectomy, while 44% (11/25) of patients who were ctDNA positive before or during chemotherapy, there was a relapse of the disease. Thus, the presence of ctDNA even at an early stage may indicate metastatic spread and facilitate higher risk stratification of patients compared with currently available risk factors for this group of patients, which, to our knowledge, have not previously been demonstrated at a similar level of pattern. A subset of patients with initially detectable ctDNA but no evidence of possible disease relapse may represent cases in which chemotherapy or cystectomy has effectively eradicated the disease. Therefore, patients without evidence of early metastatic spread (ctDNA negative) and pathological downstaging after NACT may be eligible for bladder-sparing treatment.
[987] Примечательно, что для многих пациентов частоты цоДНК были довольно низкими (несколько мутировавших копий), и для надежного обнаружения этих редких вариантов требуются подходы сверхглубокого секвенирования на основе ССП. Отбор клональных мутаций на основе ПЭС первичной опухоли позволяет провести сверхглубокое секвенирование специфичных для пациента мутаций в цоДНК плазмы. Более ранняя работа показала генетическую гетерогенность между первичными опухолями и метастазами, указывая на то, что могут потребоваться генные панели часто мутирующих генов. При применении ПЭС скДНК из плазмы мы по-прежнему наблюдали гетерогенность между первичными опухолями и метастазами, но, что важно, все клональные мутации, выбранные из первичных опухолей, были обнаружены в метастазах.[987] Notably, for many patients, ctDNA frequencies were quite low (few mutated copies), and CSP-based ultra-deep sequencing approaches are required to reliably detect these rare variants. Selection of clonal mutations based on primary tumor PES allows for ultra-deep sequencing of patient-specific mutations in plasma ctDNA. Earlier work has shown genetic heterogeneity between primary tumors and metastases, indicating that gene panels of frequently mutated genes may be required. When using PES scDNA from plasma, we still observed heterogeneity between primary tumors and metastases, but importantly, all clonal mutations selected from primary tumors were found in metastases.
[988] В заключение, представленное в данном документе изобретение, показало, что определение уровней цоДНК у пациентов с раком мочевого пузыря является высокопрогнозируемым маркером метастатического рецидива и ответа на лечение. В частности, изобретатели настоящего изобретения предоставили в данном документе точные и надежные способы мониторинга реакции пациента на лечение рака, чтобы убедить пациента в том, что заболевание находится под контролем, и обнаружение рецидива значительно ранее обычных способов может улучшить результаты выживаемости.[988] In conclusion, the invention presented herein has shown that determination of ctDNA levels in patients with bladder cancer is a highly predictive marker of metastatic recurrence and response to treatment. In particular, the inventors of the present invention have provided herein accurate and reliable methods for monitoring a patient's response to cancer treatment to reassure the patient that the disease is under control and detecting recurrence significantly earlier than conventional methods can improve survival outcomes.
[989] Пример 10. Анализ в динамике свободно-клеточной ДНК плазмы путем ультраглубокого секвенирования у пациентов с колоректальным раком I-III стадии. [989] Example 10. Dynamic analysis of plasma free-cell DNA by ultra-deep sequencing in patients with stage I-III colorectal cancer.
[990] Целью этого примера было показать, что послеоперационный анализ в динамике циркулирующей опухолевой ДНК (цоДНК) позволяет идентифицировать и контролировать остаточную опухолевую нагрузку у пациентов без клинических проявлений заболевания. В частности, этот пример показал, что анализ цоДНК позволяет персонализировать и стратифицировать риск послеоперационного лечения пациентов с колоректальным раком I-III стадии.[990] The purpose of this case study was to demonstrate that postoperative analysis of circulating tumor DNA (ctDNA) dynamics can identify and monitor residual tumor burden in asymptomatic patients. In particular, this example showed that ctDNA analysis makes it possible to personalize and stratify the risk of postoperative treatment of patients with stage I-III colorectal cancer.
[991] ВВЕДЕНИЕ [991] INTRODUCTION
[992] олоректальный рак (КРР) является третьим по распространенности раком в мире и второй ведущей причиной смертей, связанных с раком, с 1,3 миллионами впервые диагностированных случаев ежегодно. Несмотря на улучшение хирургических вмешательств, проведение скрининга и прогресс в схемах лечения, пятилетний уровень смертности пациентов с КРР остается высоким и составляет приблизительно 40%, что представляет собой серьезное бремя для здравоохранения во всем мире.[992] Colorectal cancer (CRC) is the third most common cancer in the world and the second leading cause of cancer-related deaths, with 1.3 million newly diagnosed cases annually. Despite improvements in surgical procedures, screening, and advances in treatment regimens, the 5-year mortality rate for patients with CRC remains high at approximately 40%, representing a significant healthcare burden worldwide.
[993] Текущий стандарт лечения пациентов с КРР включает хирургическое удаление опухоли с последующей адъювантной химиотерапией (АХТ) у отдельных пациентов. Большинство пациентов II стадии не получают АХТ, однако приблизительно 10-15% имеют остаточное заболевание после операции. Если бы их можно было идентифицировать, лечение АХТ потенциально могло бы снизить риск рецидива. Напротив, большинство пациентов III стадии получают АХТ. Несмотря на это, более 50% уже становятся излеченными хирургическим путем. Кроме того, приблизительно 30% пациентов с III стадией лечения АХТ испытывают рецидивы, что делает их кандидатами на дополнительную терапию. Таким образом, крайне необходимы улучшенные инструменты для определения популяции пациентов, которым АХТ принесет пользу. [993] The current standard of care for patients with CRC involves surgical resection of the tumor followed by adjuvant chemotherapy (ACT) in selected patients. Most stage II patients do not receive chemotherapy, but approximately 10-15% have residual disease after surgery. If they could be identified, treatment with ACT could potentially reduce the risk of relapse. On the contrary, most stage III patients receive chemotherapy. Despite this, more than 50% are already cured by surgery. In addition, approximately 30% of patients treated with stage III ACT experience relapse, making them candidates for additional therapy. Therefore, improved tools are urgently needed to identify the patient population that will benefit from ACT.
[994] Ранняя диагностика рецидивов заболевания является еще одной значимой клинически неудовлетворенной потребность при КРР. После завершения радикального лечения рекомендуется наблюдение за рецидивом, чтобы выявить рецидив на достаточно ранней стадии для потенциально излечивающего хирургического вмешательства. Несмотря на наблюдение, многие рецидивы выявляются поздно, и только 10-20% метахронных метастазов лечатся с намерением исцеления. Следовательно, существует потребность в лучших биомаркерах, которые могут раньше выявлять пациентов с высоким риском рецидива, что позволяет использовать соответствующие стратегии последующего наблюдения и лечения для улучшения выживаемости пациентов. [994] Early diagnosis of recurrent disease is another significant clinical unmet need in CRC. After completion of definitive treatment, surveillance for recurrence is recommended to detect recurrence early enough for potentially curative surgery. Despite surveillance, many relapses are detected late, and only 10-20% of metachronous metastases are treated with curative intent. Therefore, there is a need for better biomarkers that can earlier identify patients at high risk of relapse, allowing appropriate follow-up and treatment strategies to improve patient survival.
[995] СПОСОБЫ [995] METHODS
[996] Пациенты [996] Patients
[997] Пациенты с КРР стадии I - III были набраны в хирургических отделениях больницы Орхусского университета, больницы Рандерс и больницы Хернинга в период с 2014 по 2018 год. Опухолевая ткань была собрана во время операции. Образцы крови собирали до операции (за 14 дней до операции) и после операции на 30-й день (при этом можно было взять образец за 14 дней до или после), а затем каждые три месяца до смерти, выхода пациента из исследования или в месяц 36, в зависимости от того, что наступит раньше. Семьдесят пять пациентов предоставили серийные образцы крови (от 3 до 14 образцов на пациента), тогда как оставшиеся 50 пациентов предоставили только два образца крови (дооперационный и послеоперационный в день 30). Характеристики и демографические данные пациентов приведены ниже в Таблице 12.1.[997] Stage I to III CRC patients were recruited from the surgical departments of Aarhus University Hospital, Randers Hospital and Herning Hospital between 2014 and 2018. Tumor tissue was collected during surgery. Blood samples were collected preoperatively (14 days before surgery) and postoperatively on day 30 (with the option of collecting a sample 14 days before or after), and then every three months until death, patient withdrawal from the study, or monthly 36, whichever comes first. Seventy-five patients provided serial blood samples (ranging from 3 to 14 samples per patient), whereas the remaining 50 patients provided only two blood samples (preoperative and postoperative at day 30). Patient characteristics and demographics are summarized below in Table 12.1.
[998] Для всех пациентов была собрана информация о послеоперационном клиническом вмешательстве и другая клинико-патологическая информация, как показано в Таблице 12.2 ниже. Всем пациентам в исследовании была выполнена резекция первичной опухоли.[998] Information on postoperative clinical intervention and other clinicopathological information was collected for all patients, as shown in Table 12.2 below. All patients in the study underwent resection of the primary tumor.
пациента patient
первичной опухолиprimary tumor
первичной primary
опухоли, ммtumors, mm
поBy
UICC UICC
терапияtherapy
5-10 смmiddle part of the rectum,
5-10 cm
10-15 смupper part of the rectum
10-15 cm
10-15 смupper part of the rectum
10-15 cm
10-15 смupper part of the rectum
10-15 cm
10-15 смupper part of the rectum
10-15 cm
восходящая кишка (2)transverse colon (1) and
ascending colon (2)
40 (2)170 (1) and
40 (2)
T3N1M0V1 (2)T3N1M0V1 (1) and
T3N1M0V1 (2)
10-15 смupper part of the rectum
10-15 cm
и поперечная кишка (2)ascending colon (1)
and transverse colon (2)
13 (2)55 (1) and
13 (2)
TxN1M0Vx (2)T3N1M0V1 (1) and
TxN1M0Vx (2)
левый изгиб (2)left bend (1) and
left bend (2)
Н/Д (2)62 (1) and
N/A (2)
T3N1M0V0 (2)T3N1MxV0 (1) and
T3N1M0V0 (2)
восходящая кишка (2)cecum (1) and
ascending colon (2)
35 (2)60 (1) and
35 (2)
T3N1MxV0 (2)T3N1MxV0 (1) and
T3N1MxV0 (2)
пациента patient
после операции, after operation,
месяц month
РецидиваRelapse
фолиевая кислота5FU and Oxaliplatin and
folic acid
фолиевая кислота 5FU and Irinotecan and
folic acid
фолиевая кислота 5FU and Oxaliplatin and
folic acid
фолиевая кислота 5FU and Irinotecan and
folic acid
РЧА печениOperation and
RFA of the liver
радикальная резекцияradical resection
радикальная резекция radical resection
резекция resection
опухолиtumors
[999] Все пациенты получали лечение и наблюдение в соответствии с Национальными рекомендациями Дании. Исследование было одобрено Комитетом по этике биомедицинских исследований в Центральном регионе Дании (1-16-02-453-14) и проводилось в соответствии с Хельсинкской декларацией. Все участники предоставили письменное информированное согласие.[999] All patients were treated and monitored in accordance with the Danish National Guidelines. The study was approved by the Biomedical Research Ethics Committee of the Central Region of Denmark (1-16-02-453-14) and was conducted in accordance with the Declaration of Helsinki. All participants provided written informed consent.
[1000] Анализ карциноэмбрионального антигена (CEA). [1000] Carcinoembryonic antigen (CEA) assay.
[1001] Анализ CEA выполнялся на платформе Cobas e601 (Roche) в соответствии с рекомендациями производителя с использованием 500 мкл сыворотки. Пороговые уровни были установлены на уровне 4,0 мкг/л и 6,0 мкг/л для, соответственно, некурящих и курильщиков в соответствии с рекомендациями анализирующей больницы. Человек, который не курил 8 недель до сбора образцов, считался бывшим курильщиком. [1001] The CEA assay was performed on the Cobas e601 platform (Roche) according to the manufacturer's recommendations using 500 μl of serum. Threshold levels were set at 4.0 μg/L and 6.0 μg/L for nonsmokers and smokers, respectively, as recommended by the reviewing hospital. A person who had not smoked for 8 weeks prior to sample collection was considered a former smoker.
[1002] Сбор ткани и полноэкзомное секвенирование. [1002] Tissue collection and whole exome sequencing.
[1003] Опухолевая ткань была собрана у всех пациентов в виде свежезамороженной (n = 102) или фиксированной формалином и залитой парафином ткани (FFPE) (n = 27). Четыре пациента поступили с синхронным колоректальным раком (КРР); у этих пациентов были взяты ткани обеих опухолей. Метастатическая ткань была взята у трех пациентов с рецидивом. Конституционная ДНК, соответствующая всем пациентам, была извлечена из лейкоцитов периферической крови. [1003] Tumor tissue was collected from all patients as fresh frozen (n = 102) or formalin-fixed paraffin-embedded (FFPE) tissue (n = 27). Four patients presented with synchronous colorectal cancer (CRC); Tissue from both tumors was collected from these patients. Metastatic tissue was collected from three patients with relapse. Constitutional DNA corresponding to all patients was extracted from peripheral blood leukocytes.
[1004] Первичные свежезамороженные или фиксированные в формалине и залитые в парафин образцы ткани (FFPE) имели медианную патологическую клеточность опухоли 50% (диапазон 20-90%). (Приложение, Таблица 2). ДНК экстрагировали с использованием набора для очистки ДНК Puregene® DNA purification kit (Gentra Systems) или с использованием набора QiAamp® DNA FFPE tissue kit (Qiagen). [1004] Primary fresh frozen or formalin-fixed paraffin-embedded (FFPE) tissue samples had a median pathological tumor cellularity of 50% (range 20–90%). (Appendix, Table 2). DNA was extracted using a Puregene ® DNA purification kit (Gentra Systems) or using a QiAamp ® DNA FFPE tissue kit (Qiagen).
[1005] Полноэкзомное секвенирование (ПЭС) выполняли на соответствующих ДНК опухолей и ДНК лейкоцитов лейкоцитарной пленки. Сводная информация об образце и ПЭС приведена в таблице 12.5 ниже. Содержание рака оценивали с помощью гематоксилин-эозиновой оценки срезов ткани, вырезанных до и после тех, которые использовались для экстракции. Синхронные КРР отмечены в таблице буквами S1 и S2.[1005] Whole exome sequencing (WES) was performed on matched tumor DNA and buffy coat leukocyte DNA. A summary of the sample and PES information is given in Table 12.5 below. Cancer content was assessed by hematoxylin-eosin assessment of tissue sections cut before and after those used for extraction. Synchronous CRCs are marked in the table with the letters S1 and S2.
[1006] Подготовку библиотеки, секвенирование и анализ данных проводили как описано в Lamy et al. Paired Exome Analysis Reveals Clonal Evolution and Potential Therapeutic Targets in Urothelial Carcinoma. Cancer Res. 76(19):5894-5906 (2016).[1006] Library preparation, sequencing and data analysis were performed as described in Lamy et al . Paired Exome Analysis Reveals Clonal Evolution and Potential Therapeutic Targets in Urothelial Carcinoma. Cancer Res . 76(19):5894–5906 (2016).
[1007] Сбор крови и выделение плазмы [1007] Blood collection and plasma isolation
[1008] Образцы крови собирали в 10 мл пробирки с K2-ЭДТА (BD 367525) в больнице Орхусского университета. Все образцы обрабатывали в течение 2 часов после сбора путем двойного центрифугирования крови при комнатной температуре, сначала в течение 10 минут при 3000 g, а затем центрифугированием плазмы в течение 10 минут при 3000 g. Плазму разделяли на аликвоты в криопробирки объемом 5 мл и хранили при минус 80 °C.[1008] Blood samples were collected in 10 ml K2-EDTA tubes (BD 367525) at Aarhus University Hospital. All samples were processed within 2 hours of collection by centrifuging the blood twice at room temperature, first for 10 minutes at 3000 g and then centrifuging the plasma for 10 minutes at 3000 g. Plasma was aliquoted into 5 ml cryovials and stored at minus 80°C.
[1009] Экстракция свободно-клеточной ДНК, количественное определение и подготовка библиотеки. [1009] Cell-free DNA extraction, quantitation and library preparation.
[1010] В этом исследовании использовали до 10 мл плазмы на случай (диапазон 2-10 мл; медиана 8,5 мл), а внеклеточная ДНК (скДНК) была извлечена с использованием набора QIAamp® Circulating Nucleic Acid kit (Qiagen) и элюирована в 50 мкл буфера DNA Suspension Buffer (Sigma). Поводили количественное определение каждого образца скДНК с помощью набора Quant-iT® High Sensitivity dsDNA Assay Kit (Invitrogen). У 125 пациентов скДНК был выделена из 795 серийных образцов плазмы.[1010] In this study, up to 10 ml of plasma per case was used (range 2-10 ml; median 8.5 ml), and cell-free DNA (scDNA) was extracted using the QIAamp ® Circulating Nucleic Acid kit (Qiagen) and eluted in 50 µl DNA Suspension Buffer (Sigma). Each scDNA sample was quantified using the Quant-iT ® High Sensitivity dsDNA Assay Kit (Invitrogen). In 125 patients, cDNA was isolated from 795 serial plasma samples.
[1011] В качестве исходных данных для подготовки библиотеки использовали до 66 нг (20000 геномных эквивалентов) скДНК из каждого образца плазмы. скДНК была подвергнута репарации на концах, наращиванию A-хвостов и лигированию с помощью специальных адапторов, как описано в Abbosh et al. Phylogenetic ctDNA analysis depicts early-stage lung cancer evolution. Nature 545(7655):446-451(2017). Очищенный продукт лигирования амплифицировали в течение 20 циклов и очищали с использованием микрогранул Ampure® X (Agencourt/Beckman Coulter).[1011] Up to 66 ng (20,000 genome equivalents) of cDNA from each plasma sample was used as input for library preparation. The scDNA was subjected to end repair, A-tailing, and ligation using specific adapters as described in Abbosh et al. Phylogenetic ctDNA analysis depicts early-stage lung cancer evolution. Nature 545(7655):446–451(2017). The purified ligation product was amplified for 20 cycles and purified using Ampure ® X microbeads (Agencourt/Beckman Coulter).
[1012] Схема анализа мультиплексной ПЦР [1012] Multiplex PCR assay scheme
[1013] Соматические варианты для конкретного пациента были идентифицированы путем анализа первичной опухоли и ПЭС соответствующих нормальных образцов для всех пациентов. Клональность вариантов была выведена на основании расчетной доли раковых клеток, несущих вариант. Обратите внимание, что вывод о клональности для образцов с низкой фракцией опухолевых клеток ограничен из-за довольно плоского распределения частоты вариантного аллеля. Наблюдаемые ЧВА в ткани и в контексте последовательностей вариантов были использованы для определения приоритета соматических ОНВ и коротких ВСТАВОК/ДЕЛЕЦИЙ, идентифицированных для каждой опухоли. Для создания пар праймеров для ПЦР для данного набора вариантов использовался стандартный процесс разработки ампликонов Signatera. Для каждого пациента было выбрано 16 высокорейтинговых совместимых ампликонов для индивидуальной панели пациента. Праймеры для ПЦР заказывались в Integrated DNA Technologies.[1013] Patient-specific somatic variants were identified by analyzing the primary tumor and RPE of corresponding normal samples for all patients. The clonality of variants was inferred from the estimated proportion of cancer cells harboring the variant. Note that inference of clonality for samples with a low tumor cell fraction is limited due to the rather flat frequency distribution of the variant allele. Observed TNAs in tissue and in the context of variant sequences were used to prioritize the somatic CNAs and short INSERTIONS/DELETIONS identified for each tumor. The standard Signatera amplicon design process was used to generate PCR primer pairs for this set of variants. For each patient, 16 high-ranking compatible amplicons were selected for an individual patient panel. PCR primers were ordered from Integrated DNA Technologies.
[1014] Рабочий процесс секвенирования следующего поколения плазмы в мультиплексной ПЦР [1014] Multiplex PCR Plasma Next Generation Sequencing Workflow
[1015] Аликвоту каждой библиотеки использовали в качестве ввода для связанной с пациентом реакции 16-плексной ПЦР. Образцы были амплифицированы с использованием специфического для пациента анализа и закодированы штрих-кодом с последующим объединением. Секвенирование выполняли на Illumina HiSeq® 2500 Rapid Run с 50 циклами считывания парных концов с использованием набора Illumina PAIRED END® v2 со средней глубиной считывания более 105000X на ампликон.[1015] An aliquot of each library was used as input for a patient-related 16-plex PCR reaction. Samples were amplified using a patient-specific assay and barcoded, followed by pooling. Sequencing was performed on an Illumina HiSeq ® 2500 Rapid Run with 50 paired-end read cycles using the Illumina PAIRED END ® v2 kit with an average read depth of greater than 105,000X per amplicon.
[1016] Процесс обработки биоинформатики [1016] Bioinformatics Processing Process
[1017] Все считывания парных концов были объединены с использованием программного обеспечения Pear как описано в Zhang, Bioinformatics, 30(5): 614-620 (2014). Основания, которые не совпадали при прямом и обратном считывании или имели низкий показатель качества, были отфильтрованы с тем, чтобы минимизировать ошибки секвенирования. Объединенные считывания были сопоставлены с эталонным геномом hg19 с помощью Novoalign версия 2.3.4 (http://www.novocraft.com/). Ампликоны с менее 5000 считываний высокого качества считались не прошедшими контроль качества (КК). КК выполнялся с помощью собственной программы, проверяющей широкий список статистических данных для каждой выборки, который включал общее количество считываний, картированных считываний, целевых считываний, количество неудачных мишеней и среднюю частоту ошибок. [1017] All paired-end reads were merged using Pear software as described in Zhang, Bioinformatics, 30(5): 614–620 (2014). Bases that did not match forward and reverse reads or had low quality scores were filtered out to minimize sequencing errors. The merged reads were aligned to the hg19 reference genome using Novoalign version 2.3.4 ( http://www.novocraft.com/ ). Amplicons with fewer than 5000 high-quality reads were considered to fail quality control (QC). QC was performed using a proprietary program that examined a broad list of statistics for each sample, which included total reads, mapped reads, targeted reads, number of failed targets, and average error rate.
[1018] Распознавание плазматических вариантов [1018] Recognition of plasma variants
[1019] Для построения модели фоновой ошибки был предварительно обработан большой набор образцов отрицательного контроля (~1000). Для каждого целевого варианта с использованием глубины считывания мутантных и референтных аллелей показатель достоверности рассчитывался на основе модели ошибок, как описано в Abbosh et al. Phylogenetic ctDNA analysis depicts early-stage lung cancer evolution. Nature 545(7655):446-451 (2017). Образец плазмы с по меньшей мере 2 вариантами с оценкой достоверности выше заранее определенного порога алгоритма был определен как цоДНК положительный, как описано в Abbosh et al, 2017, выше.[1019] To build the background error model, a large set of negative control samples (~1000) were preprocessed. For each target variant, using the read depth of the mutant and reference alleles, a confidence score was calculated based on the error model as described in Abbosh et al. Phylogenetic ctDNA analysis depicts early-stage lung cancer evolution. Nature 545(7655):446–451 (2017). A plasma sample with at least 2 variants with a confidence score above the predefined algorithm threshold was defined as ctDNA positive, as described in Abbosh et al, 2017, above.
[1020] Статистический анализ [1020] Statistical analysis
[1021] Первичным критерием результата было время до рецидива (TTR), оцененное по стандартным радиологическим критериям. TTR измеряли от даты операции до зарегистрированного первого радиологического рецидива (местного или отдаленного) или смерти в результате колоректального рака и проверяли при последнем наблюдении или смерти, не связанной с колоректальным раком. Анализ выживаемости проводили с использованием способа Каплана - Мейера. Для оценки влияния цоДНК и CEA на TTR был использован регрессионный анализ пропорциональных рисков Кокса. Многофакторный анализ проводился с клиническими параметрами, которые были статистически значимыми при одномерном анализе. Все P-значения были основаны на двустороннем тестировании, и различия считались значимыми при P≤0,05. Статистический анализ был проведен с использованием программного обеспечения STATA IC/12.1 и R Statistical software, версия 2.4 для Windows.[1021] The primary outcome measure was time to recurrence (TTR) assessed by standard radiological criteria. TTR was measured from the date of surgery to the recorded first radiological recurrence (local or distant) or death due to colorectal cancer and checked at last follow-up or death not related to colorectal cancer. Survival analysis was performed using the Kaplan-Meier method. Cox proportional hazards regression analysis was used to evaluate the effect of ctDNA and CEA on TTR. Multivariate analysis was performed on clinical parameters that were statistically significant on univariate analysis. All P-values were based on two-sided testing, and differences were considered significant at P≤0.05. Statistical analysis was performed using STATA IC/12.1 and R Statistical software, version 2.4 for Windows.
[1022] РЕЗУЛЬТАТЫ [1022] RESULTS
[1023] С 2014 по 2016 год в исследование было включено 130 пациентов с КРР I - III стадии по UICC. Пять пациентов были впоследствии исключены, поскольку они были либо потеряны для последующего наблюдения (n = 3), либо переведены в стадию IV. Для идентификации соматических мутаций использовали полноэкзомное секвенирование (ПЭС) опухоли и соответствующей ДНК зародышевой линии, как показано на ФИГ. 90A-B. Для каждого пациента были разработаны опухолеспецифические панели для анализа в мультиплексной ПЦР, нацеленные на 16 мутаций. ССП на основе сверхглубокой мультиплексной ПЦР использовали для анализа и количественной оценки циркулирующей опухолевой ДНК в 795 образцах плазмы 125 пациентов с медианным периодом наблюдения 12,5 месяцев (диапазон от 1,4 до 38,5 месяцев). Рабочий процесс этого исследования показан на ФИГ. 83A-E. Контроль качества проводился на каждом этапе рабочего процесса. Глубина считывания для тестов, прошедших контроль качества покрытия, составила более 105000X, как показано на ФИГ. 91. Подробная информация о результатах и динамике цоДНК для всех 125 пациентов указана в Таблице 12.6 и представлена на ФИГ. 92. За период наблюдения за пациентами у 24 (19,2%) пациентов были рентгенологические рецидивы.[1023] From 2014 to 2016, 130 patients with UICC stage I–III colorectal cancer were included in the study. Five patients were subsequently excluded because they were either lost to follow-up (n = 3) or converted to stage IV. Whole exome sequencing (WES) of tumor and corresponding germline DNA was used to identify somatic mutations, as shown in FIG. 90A-B. Tumor-specific multiplex PCR assay panels targeting 16 mutations were developed for each patient. Ultra-deep multiplex PCR-based SSP was used to analyze and quantify circulating tumor DNA in 795 plasma samples from 125 patients with a median follow-up of 12.5 months (range, 1.4 to 38.5 months). The workflow of this study is shown in FIG. 83A-E. Quality control was carried out at every stage of the work process. The read depth for tests that passed the coating quality control was greater than 105,000X, as shown in FIG. 91. Details of the results and ctDNA dynamics for all 125 patients are listed in Table 12.6 and presented in FIG. 92. During the follow-up period, 24 (19.2%) patients had radiographic recurrences.
[1024] Дооперационное выявление цоДНК [1024] Preoperative detection of ctDNA
[1025] В исходных дооперационных образцах плазмы (n=122) мы обнаружили цоДНК в 89% образцов с чувствительностью 40%, 92% и 90% на стадиях, соответственно, I, II и III как показано на ФИГ. 87A. Анализ карциноэмбрионального антигена (CEA), проведенный на тех же образцах, выявил 43,3% случаев рака, как показано на ФИГ. 88.[1025] In initial preoperative plasma samples (n=122), we detected ctDNA in 89% of samples with sensitivities of 40%, 92%, and 90% for stages I, II, and III, respectively, as shown in FIG. 87A. Carcinoembryonic antigen (CEA) analysis performed on the same samples detected 43.3% of cancers, as shown in FIG. 88.
[1026] Послеоперационный статус цоДНК в день 30 прогнозирует рецидив [1026] Postoperative ctDNA status at day 30 predicts relapse
[1027] Чтобы оценить способность выявлять остаточную болезнь и прогнозировать рецидив в будущем, мы провели анализ цоДНК в образцах плазмы, собранных после операции. Плазма, собранная на 30-й день, до начала адъювантной химиотерапии, была доступна для 94 пациентов. Интересно, что подавляющее большинство (89,4%) пациентов были цоДНК отрицательными, и только 10,6% пациентов были положительными по цоДНК после операции, как показано на ФИГ. 89. Эти цоДНК-положительные пациенты имели значительно более высокую частоту рецидивов (70%, 7/10) по сравнению с теми, которые были цоДНК-отрицательными после операции (11.9%, 10/84), как показано на ФИГ. 87B. Присутствие цоДНК было связано со значительным сокращением времени до рецидива (TTR) по сравнению с цоДНК-отрицательными пациентами (ОР, 7,2; 95% ДИ, 2,7-19; P менее 0,0000), как показано на ФИГ. 87C. По сравнению с известными прогностическими факторами, такими как стадия и лимфоваскулярная инвазия, в модели многомерной логистической регрессии статус цоДНК был единственным значимым прогностическим фактором, как показано в Таблице 12.7 ниже. [1027] To evaluate the ability to detect residual disease and predict future relapse, we performed ctDNA analysis in plasma samples collected after surgery. Plasma collected at day 30, before the start of adjuvant chemotherapy, was available for 94 patients. Interestingly, the vast majority (89.4%) of patients were ctDNA negative, and only 10.6% of patients were ctDNA positive after surgery, as shown in FIG. 89. These ctDNA-positive patients had a significantly higher relapse rate (70%, 7/10) compared with those who were ctDNA-negative after surgery (11.9%, 10/84), as shown in FIG. 87B. The presence of ctDNA was associated with a significant reduction in time to relapse (TTR) compared with ctDNA-negative patients (HR, 7.2; 95% CI, 2.7-19; P less than 0.0000), as shown in FIG. 87C. Compared with known prognostic factors such as stage and lymphovascular invasion, in the multivariate logistic regression model, ctDNA status was the only significant prognostic factor, as shown in Table 12.7 below.
[1028] Подгруппа пациентов получала АХТ (n=52), что могло изменить прогностическую ценность цоДНК в отношении исхода. Однако даже для этой подгруппы положительность по цоДНК была связана с высоким риском рецидива (ОР, 7,1; 95% ДИ 2,2-22; P=0,0008) как показано на ФИГ. 90A-B. Частота рецидивов у цоДНК-отрицательных пациентов составляла 11,9% независимо от того, лечились они АХТ (5/42) или нет (5/42). Таким образом, статус цоДНК на 30-й день после операции является сильным предиктором будущего рецидива даже для пациентов, получавших АХТ.[1028] A subgroup of patients received chemotherapy (n=52), which may have altered the predictive value of ctDNA for outcome. However, even for this subgroup, ctDNA positivity was associated with a high risk of relapse (HR, 7.1; 95% CI, 2.2-22; P=0.0008) as shown in FIG. 90A-B. The relapse rate in ctDNA-negative patients was 11.9% regardless of whether they were treated with ACT (5/42) or not (5/42). Thus, ctDNA status at 30 days after surgery is a strong predictor of future relapse, even for patients treated with ACT.
[1029] Адъювантная химиотерапия устраняет цоДНК в субфракции дня 30 у положительных по цоДНК пациентов. [1029] Adjuvant chemotherapy eliminates ctDNA in a subfraction of day 30 in ctDNA positive patients.
[1030] Хотя рандомизированные исследования показали, что адъювантная химиотерапия (АХТ) может снизить общую частоту рецидивов III стадии КРР 21-24, в настоящее время неизвестно, может ли АХТ специфически предотвращать рецидивы среди цоДНК-положительной подгруппы высокого риска. Десять пациентов, у которых был положительный результат на цоДНК на 30-е сутки, впоследствии получали АХТ, как показано на ФИГ. 87D. Среди этих пациентов, впоследствии получавших АХТ, у 70% (n = 7) возник рецидив, в то время как у 30% (n=3) к концу периода наблюдения все еще отсутствовали признаки заболевания. Эта эффективность лечения аналогична оценке, когда АХТ назначается всем ракам толстой кишки стадии III, как описано в Upadhyay et al., Chemotherapy use in stage III colon cancer: a National Cancer Database analysis. Ther Adv Med Oncol. 7(5):244-251 (2015); André et al., Improved overall survival with oxaliplatin, fluorouracil, and leucovorin as adjuvant treatment in stage II or III colon cancer in the MOSAIC trial. J Clin Oncol. 27(19):3109-3116 (2009); Gill et al., Pooled analysis of fluorouracil-based adjuvant therapy for stage II and III colon cancer: who benefits and by how much? J Clin Oncol. 22(10):1797-1806 (2004); Haller et al., Capecitabine plus oxaliplatin compared with fluorouracil and folinic acid as adjuvant therapy for stage III colon cancer. J Clin Oncol. 29(11):1465-1471 (2011). Таким образом, представленные в данном документе результаты, показанные на ФИГ. 87D, показали, что АХТ может устранить остаточную болезнь в подгруппе цоДНК-положительных пациентов с высоким риском. [1030] Although randomized trials have shown that adjuvant chemotherapy (ACT) can reduce the overall relapse rate of stage III CRC, 21–24 it is currently unknown whether ACT can specifically prevent relapse among the high-risk ctDNA-positive subgroup. Ten patients who were ctDNA positive at day 30 were subsequently treated with AChT as shown in FIG. 87D. Among these patients subsequently treated with chemotherapy, 70% (n = 7) relapsed, while 30% (n = 3) were still disease free at the end of the follow-up period. This treatment efficacy is similar to that assessed when ACT is given to all stage III colon cancers, as described in Upadhyay et al ., Chemotherapy use in stage III colon cancer: a National Cancer Database analysis. Ther Adv Med Oncol. 7(5):244-251 (2015); Andre et al. , Improved overall survival with oxaliplatin, fluorouracil, and leucovorin as adjuvant treatment in stage II or III colon cancer in the MOSAIC trial. J Clin Oncol. 27(19):3109-3116 (2009); Gill et al. , Pooled analysis of fluorouracil-based adjuvant therapy for stage II and III colon cancer: who benefits and by how much? J Clin Oncol. 22(10):1797-1806 (2004); Haller et al. , Capecitabine plus oxaliplatin compared with fluorouracil and folinic acid as adjuvant therapy for stage III colon cancer . J Clin Oncol. 29(11):1465–1471 (2011). Thus, the results presented herein and shown in FIG. 87D showed that ACT can eliminate residual disease in a subgroup of high-risk ctDNA-positive patients.
[1031] Для двух из трех пациентов, которые не имели рецидивов, собранные образцы плазмы были доступны в динамике. В соответствии с АХТ, устраняющей остаточное заболевание, эти пациенты продемонстрировали полный клиренс цоДНК во время терапии и оставались отрицательными на протяжении всего исследования. Напротив, шесть пациентов с рецидивом и доступной в динамике плазмой либо оставались цоДНК-положительными во время АХТ, либо снова становились цоДНК-положительными вскоре после завершения АХТ.[1031] For two of the three patients who did not relapse, collected plasma samples were available over time. Consistent with ACT eliminating residual disease, these patients demonstrated complete ctDNA clearance during therapy and remained negative throughout the study. In contrast, six patients with relapse and plasma available over time either remained ctDNA-positive during ACT or became ctDNA-positive again shortly after completion of ACT.
[1032] Мониторинг цоДНК в динамике измеряет эффективность лечения при помощи АХТ. [1032] Monitoring ctDNA over time measures the effectiveness of treatment with AChT.
[1033] Собранные в динамике образцы крови были доступными для 8/10 пациентов, которые были цоДНК-положительными перед началом АХТ. Эти собранные в динамике образцы крови были проанализированы для наблюдения за изменениями уровней цоДНК во время лечения. Статус цоДНК стал отрицательным у 50% пациентов (n=4), как показано на ФИГ. 87D, тогда как у остальных четырех пациентов статус цоДНК оставался положительным на протяжении всего лечения. Поразительно, что все четыре пациента (100%), у которых не было клиренса цоДНК, имели рецидив заболевания, что указывает на то, что остаточная цоДНК предсказала, что АХТ не смогла устранить остаточное заболевание. Из четырех пациентов, которые избавились от цоДНК во время лечения, двое оставались отрицательными на цоДНК во всех образцах после АХТ и все время не имели рецидив, в то время как у двух других пациентов вскоре после лечения восстановился положительный результат на цоДНК, и в конечном итоге развился рецидив, как показано на ФИГ. 87D.[1033] Follow-up blood samples were available for 8/10 patients who were ctDNA positive before initiation of chemotherapy. These longitudinally collected blood samples were analyzed to monitor changes in ctDNA levels during treatment. The ctDNA status became negative in 50% of patients (n=4), as shown in FIG. 87D, while in the remaining four patients the ctDNA status remained positive throughout treatment. Strikingly, all four patients (100%) who did not clear ctDNA had disease recurrence, indicating that residual ctDNA predicted that ACT failed to clear residual disease. Of the four patients who cleared ctDNA during treatment, two remained ctDNA negative in all post-ACT samples and did not relapse at all times, while the other two patients regained ctDNA positivity shortly after treatment and ultimately a relapse developed, as shown in FIG. 87D.
[1034] Выявление цоДНК после АХТ определяет подгруппу пациентов с очень высоким риском рецидива. [1034] Detection of ctDNA after chemotherapy identifies a subgroup of patients at very high risk of relapse.
[1035] Поскольку у 100% пациентов, которые не избавились от цоДНК во время адъювантной химиотерапии (АХТ), впоследствии произошел рецидив заболевания, мы предположили, что анализ цоДНК первой пробы крови, взятой после АХТ, может быть использован для идентификации подгруппы пациентов с продолжающимся остаточным заболеванием, которым принесет пользу дальнейшее лечение. Мы обнаружили, что из 58 пациентов с образцами крови после АХТ все цоДНК-положительные пациенты (7/7) имели рецидив. Для сравнения, частота рецидивов составила 13,7% (7/51) для пациентов с отрицательным результатом на цоДНК (точный критерий Фишера, P менее 0,0001), как показано на ФИГ. 87E. Статус цоДНК после АХТ был более сильным предиктором начала рецидива по сравнению с другими прогностическими факторами, такими как стадия, лимфоваскулярная инвазия, микроскопический статус радикальной резекции и CEA, как показано в Таблице 12.8 ниже, а статус цоДНК был очень значимым предиктором времени до рецидива (TTR) (ОР, 18,0; 95% ДИ, 5,4-57; P менее 0,0000), как показано на ФИГ. 87F. [1035] Because 100% of patients who did not clear ctDNA during adjuvant chemotherapy (ACT) subsequently experienced disease relapse, we hypothesized that ctDNA analysis of the first blood sample drawn after ACT could be used to identify a subgroup of patients with ongoing residual disease that will benefit from further treatment. We found that of the 58 patients with blood samples after ACT, all ctDNA-positive patients (7/7) had a relapse. In comparison, the relapse rate was 13.7% (7/51) for ctDNA-negative patients (Fisher's exact test, P less than 0.0001), as shown in FIG. 87E. ctDNA status after ACT was a stronger predictor of the onset of relapse compared with other prognostic factors such as stage, lymphovascular invasion, microscopic radical resection status, and CEA, as shown in Table 12.8 below, and ctDNA status was a highly significant predictor of time to relapse (TTR ) (HR, 18.0; 95% CI, 5.4-57; P less than 0.0000), as shown in FIG. 87F.
[1036] Анализ цоДНК в динамике, включая все образцы крови после АХТ, был еще более сильным предиктором времени до рецидива (ОР, 29,0; 95% ДИ, 6,4-130; p <0,0000), и выявил 13 цоДНК-положительных пациентов, из которых 92,3% (12/13) имели рецидив, как показано на ФИГ. 91. Хотя анализ карциноэмбрионального антигена (СЕА) в динамике также был значительным предиктором времени до рецидива, как показано на ФИГ. 92, после мнофакторной корректировки статус цоДНК в динамике был единственным значимым предиктором времени до рецидива (ОР, 26,9; 95% ДИ, 5,11-142; P = 0,0001), как показано в таблице 12.9 ниже.[1036] Analysis of ctDNA over time, including all blood samples after chemotherapy, was an even stronger predictor of time to relapse (RR, 29.0; 95% CI, 6.4-130; p < 0.0000), and identified 13 ctDNA-positive patients, of which 92.3% (12/13) had recurrence, as shown in FIG. 91. Although the carcinoembryonic antigen (CEA) assay over time was also a significant predictor of time to relapse, as shown in FIG. 92, after multivariate adjustment, ctDNA status over time was the only significant predictor of time to relapse (HR, 26.9; 95% CI, 5.11–142; P = 0.0001), as shown in Table 12.9 below.
[1037] Анализ цоДНК в динамике предсказал исход пациентов и сделал возможным ранее выявление рецидива. [1037] Analysis of ctDNA over time predicted patient outcome and made earlier detection of relapse possible.
[1038] Серийный анализ цоДНК во время наблюдения после радикального лечения 75 пациентов с помощью образцов плазмы в динамике выявил метастатический рецидив с чувствительностью 87,5% (14/16) и специфичностью 98,3% (58/59). Поразительно, что 93,3% (14/15) цоДНК-положительных пациентов имели рецидивы по сравнению с частотой рецидивов, составляющей только 3,3% (2/60) для цоДНК-отрицательных пациентов (точный тест Фишера, P менее 0,0001). Пациенты, положительные по цоДНК, имели значительно сокращенное время до рецидива (TTR) (ОР, 44,0; 95% ДИ, 9,8-190; P <0,0000), как показано на ФИГ. 93A-B. Течение болезни и результаты цоДНК в динамике для всех 75 больных показаны на ФИГ. 94. Серийный анализ цоДНК пропустил два рецидива (пациенты 20 и 24, ФИГ. 94). Тем не менее, полноэкзомное секвенирование двух пропущенных метастазов подтвердило присутствие мутаций, используемых для скрининга плазмы, как показано в Таблице 12.10 ниже. [1038] Serial analysis of ctDNA during follow-up after radical treatment of 75 patients using plasma samples over time detected metastatic recurrence with a sensitivity of 87.5% (14/16) and specificity of 98.3% (58/59). Strikingly, 93.3% (14/15) of ctDNA-positive patients had relapses compared with a relapse rate of only 3.3% (2/60) for ctDNA-negative patients (Fisher's exact test, P less than 0.0001 ). Patients positive for ctDNA had a significantly reduced time to relapse (TTR) (HR, 44.0; 95% CI, 9.8-190; P < 0.0000), as shown in FIG. 93A-B. The course of the disease and ctDNA results over time for all 75 patients are shown in FIG. 94. Serial ctDNA analysis missed two relapses (patients 20 and 24, FIG. 94). However, whole exome sequencing of the two missed metastases confirmed the presence of mutations used for plasma screening, as shown in Table 12.10 below.
не выявлена ctDNA
not identified
[1039] Для двух пациентов с рецидивом (ИН 20 и 24, Таблица 12.10) анализ в динамике после операции не выявил цоДНК, как показано на ФИГ. 90A-B. У этих двух пациентов было проанализировано такое же количество плазмы, что и у других пациентов. Возможная замена образцов могла быть отклонена из-за 45 общих ОНП во всех опухолях и образцах плазмы, что подтвердило то, что никакие образцы не были заменены. Затем мы выполнили полноэкзомное секвенирование (ПЭС) метастатических рецидивов для двух пациентов и подтвердили, что мутации, выбранные для профилирования плазмы, присутствовали в метастазах. Таблица 12.9. ПЭС была также выполнена на метастазах от пациента 77. Для этого пациента анализ цоДНК в динамике не обнаруживал цоДНК до тех пор, пока рецидив не был выявлен с помощью радиологической визуализации, как показано на ФИГ. 90A-B. И снова ПЭС подтвердило, что мутации, выбранные для профилирования плазмы, присутствовали в метастазах. Таким образом, отрицательные послеоперационные результаты были вызваны уровнем цоДНК ниже уровня обнаружения, а не тем, что выбранные маркеры были неинформативными.[1039] For two patients with relapse (IN 20 and 24, Table 12.10), follow-up analysis after surgery did not detect ctDNA, as shown in FIG. 90A-B. The same amount of plasma was analyzed from these two patients as from the other patients. Potential sample replacement may have been rejected due to 45 common SNPs across all tumors and plasma samples, confirming that no samples were replaced. We then performed whole exome sequencing (WES) of metastatic relapses for two patients and confirmed that the mutations selected for plasma profiling were present in the metastases. Table 12.9. PES was also performed on metastases from patient 77. For this patient, follow-up ctDNA analysis did not detect ctDNA until recurrence was detected by radiological imaging, as shown in FIG. 90A-B. Again, PES confirmed that the mutations selected for plasma profiling were present in the metastases. Thus, the negative postoperative results were due to ctDNA levels below the detection level and not because the selected markers were uninformative.
[1040] Анализ в динамике CEA-анализ этой же популяции выявил рецидив с чувствительностью 68,8% (11/16) и специфичностью 64,4% (38/59), как показано на ФИГ. 95. В многофакторном анализе цоДНК был единственным значимым предиктором времени до рецидива (TTR) (ОР, 41; 95% ДИ, 8,5-199; P <0,0000), как показано в Таблице 12.11 ниже. [1040] Time course analysis CEA analysis of the same population revealed recurrence with a sensitivity of 68.8% (11/16) and specificity of 64.4% (38/59), as shown in FIG. 95. In multivariate analysis, ctDNA was the only significant predictor of time to relapse (TTR) (HR, 41; 95% CI, 8.5-199; P < 0.0000), as shown in Table 12.11 below.
[1041] Для пациентов с метастатическим рецидивом и обнаруживаемой цоДНК было выявлено, что анализ цоДНК имел среднее время упреждения 8,7 месяцев (знаковый ранговый критерий Вилкоксона; P=0,0009) по сравнению со стандартными КТ-изображениями, как показано на ФИГ. 93C; тогда как время упреждения с помощью анализа карциноэмбрионального антигена (CEA) не могло быть установлено, как показано на ФИГ. 96. С момента обнаружения цоДНК и до радиологического обнаружения рецидива образцы плазмы оставались положительными на цоДНК, и наблюдалось 50-кратное увеличение среднего значения ЧВА цоДНК, что указывает на резкое увеличение опухолевой нагрузки, в то время, когда пациенты ожидали радиологического обнаружения рецидива, как показано на ФИГ. 93D. [1041] For patients with metastatic recurrence and detectable ctDNA, ctDNA analysis was found to have a mean lead time of 8.7 months (Wilcoxon signed rank test; P=0.0009) compared with standard CT images, as shown in FIG. 93C; whereas the lead time by carcinoembryonic antigen (CEA) assay could not be established as shown in FIG. 96. From the time of ctDNA detection until radiological detection of recurrence, plasma samples remained positive for ctDNA, and a 50-fold increase in the mean ctDNA ANA was observed, indicating a dramatic increase in tumor burden while patients were awaiting radiological detection of recurrence, as shown in FIG. 93D.
[1042] Анализ цоДНК выявил клинически значимые мутации [1042] ctDNA analysis revealed clinically significant mutations
[1043] Показав, что анализ цоДНК в динамике позволяет проводить раннее обнаружение микрометастазов, мы затем исследовали, можно ли использовать анализ цоДНК в динамике для получения информации о потенциально значимых мутациях, присутствующих в метастазах.[1043] Having demonstrated that time-course ctDNA analysis allows for early detection of micrometastases, we next examined whether time-course ctDNA analysis could be used to provide information about potentially relevant mutations present in metastases.
[1044] Из доступных образцов в динамике было идентифицировано 11 пациентов с метастатическим рецидивом, и клинически значимые мутации были идентифицированы путем выполнения полноэкзомного секвенирования (ПЭС) первичной опухоли, как показано в Таблице 12.12 ниже. [1044] From the available follow-up samples, 11 patients with metastatic recurrence were identified and clinically significant mutations were identified by performing whole exome sequencing (WES) of the primary tumor, as shown in Table 12.12 below.
[1045] В качестве доказательства концепции была разработана дополнительная панель мультиплексной ПЦР, нацеленная на значимые мутации, и она была применена к полученным в динамике образцам. Значимая мутация была обнаружена у 82% (9/11) пациентов, как показано на ФИГ. 97А. Мы наблюдали хорошую корреляцию между средними ЧВА цоДНК и ЧВА значимых мутаций, как показано на ФИГ. 97B. Изменения в динамике частот значимых вариантов аллелей (ЧВА) в целом показали хорошую корреляцию с лечением и очень небольшую интермутационную вариабельность, как показано на ФИГ. 97C.[1045] As a proof of concept, an additional multiplex PCR panel targeting significant mutations was developed and applied to dynamic samples. A significant mutation was found in 82% (9/11) of patients, as shown in FIG. 97A. We observed a good correlation between the average ctDNA FNA and the FNA of significant mutations, as shown in FIG. 97B. Changes in significant variant allele frequencies (SVA) showed generally good correlation with treatment and very little intermutational variability, as shown in FIG. 97C.
[1046] ОБСУЖДЕНИЕ [1046] DISCUSSION
[1047] Этот пример продемонстрировал, что анализ цоДНК в динамике у пациентов с I-III стадией КРР может эффективно обнаруживать и отслеживать изменения в опухолевом образовании на протяжении всего клинического течения заболевания. В частности, было продемонстрировано, что цоДНК служил надежным биомаркером для i) дооперационного обнаружения КРР, ii) послеоперационной и пост-АХТ стратификации риска, iii) мониторинга эффективности АХТ, iv) выявления клинически значимых мутаций и v) раннего выявления рецидивов. Эти наблюдения имеют важные и потенциально изменяющие парадигму последствия для будущего послеоперационного ведения пациентов с КРР, и они заложили основу для будущих интервенционных испытаний для изучения клинических преимуществ лечения под контролем цоДНК.[1047] This example demonstrated that ctDNA analysis over time in patients with stage I–III CRC can effectively detect and monitor changes in tumor formation throughout the clinical course of the disease. In particular, it was demonstrated that ctDNA served as a reliable biomarker for i) preoperative detection of CRC, ii) postoperative and post-ACT risk stratification, iii) monitoring the effectiveness of ACT, iv) identification of clinically significant mutations and v) early detection of relapses. These observations have important and potentially paradigm-changing implications for the future postoperative management of patients with CRC, and they lay the foundation for future interventional trials to explore the clinical benefits of ctDNA-guided treatment.
[1048] В предоперационном контексте была продемонстрирована применимость предоперационных измерений цоДНК для выявления заболевания.[1048] In the preoperative context, the utility of preoperative ctDNA measurements for disease detection has been demonstrated.
[1049] Что касается стратификации пациентов, то использованный в данном документе анализ цоДНК разделил пациентов на группы с высоким и низким риском рецидивов, что могло иметь потенциальное влияние на отбор пациентов для лечения при помощи адъювантной химиотерапии (АХТ) и для решения о дополнительном лечении после АХТ. Ранее принятие решения о лечении АХТ основывалось на стадиях и клинических факторах риска. Однако данное изобретение показало, что статус цоДНК является более сильным прогностическим фактором, чем стадия, CEA и другие признаки высокого риска. Следовательно, в будущем, возможно, появится возможность назначать лечение АХТ на основе анализа цоДНК для цоДНК-положительных, но клинически низкого риска (I и II стадии) пациентов, которые не получали бы сегодня АХТ в качестве стандарта лечения. Изобретатели настоящего изобретения в настоящее время проводят испытания для оценки клинической пользы отбора пациентов на основе цоДНК в этих условиях (например, клинические исследования IMPROVE-IT ClinicalTrials. gov: NCT03748680 и реестр клинических исследований Австралии и Новой Зеландии DYNAMIC Australian New Zealand Clinical Trials registry: АСТRN12615000381583). [1049] With regard to patient stratification, the ctDNA analysis used here stratified patients into high- and low-risk relapse groups, which could have a potential impact on the selection of patients for treatment with adjuvant chemotherapy (ACT) and for decisions about additional treatment after AHT. Previously, treatment decisions for ACT were based on stage and clinical risk factors. However, this invention has shown that ctDNA status is a stronger prognostic factor than stage, CEA and other high-risk features. Therefore, in the future, it may be possible to prescribe ctDNA-based treatment with ACT for ctDNA-positive but clinically low-risk (stages I and II) patients who would not receive ACT as standard of care today. The inventors of the present invention are currently conducting trials to evaluate the clinical utility of ctDNA-based patient selection in these settings (eg, IMPROVE-IT ClinicalTrials.gov: NCT03748680 and DYNAMIC Australian New Zealand Clinical Trials registry: ACTRN12615000381583 ).
[1050] Настоящее изобретение также продемонстрировало, что цоДНК-отрицательные пациенты имеют низкий риск рецидива, независимо от того, вводили ли им АХТ (11,9%) или нет (11,9%). Следовательно, в будущем, возможно, появится возможность удерживать от АХТ цоДНК-отрицательных, но клинически высокого риска (стадия III) пациентов с минимальным влиянием на риск их рецидива. Этой группе пациентов можно было бы предложить активное наблюдение на основе цоДНК вместо АХТ, что избавило бы многих пациентов, вылеченных одним только хирургическим путем, от токсичности химиотерапии. Кроме того, в условиях пост-АХТ, где отсутствуют текущие прогностические маркеры, мы демонстрируем, что анализ цоДНК выявляет пациентов, у которых все еще сохраняется остаточная болезнь. Этой популяции может принести пользу усиленное терапевтическое лечение. [1050] The present invention also demonstrated that ctDNA-negative patients had a low risk of relapse, regardless of whether they were administered ACT (11.9%) or not (11.9%). Therefore, in the future, it may be possible to keep ctDNA-negative but clinically high-risk (stage III) patients off chemotherapy with minimal impact on their risk of relapse. This group of patients could be offered ctDNA-based active surveillance instead of ACT, which would spare many patients cured by surgery alone from the toxicity of chemotherapy. Additionally, in the post-ACT setting, where current prognostic markers are lacking, we demonstrate that ctDNA analysis identifies patients who still have residual disease. This population may benefit from enhanced therapeutic treatment.
[1051] Настоящее изобретение также продемонстрировало, что мониторинг цоДНК в динамике до, во время и после АХТ может обеспечить измерение эффективности АХТ на уровне пациента. 30% пациентов, у которых произошел клиренс цоДНК и они оставались отрицательными по цоДНК во всех последующих образцах, на протяжении всего исследования оставались без признаков заболевания. Таким образом, этот пример предоставил первую линию доказательств того, что АХТ может снизить риск рецидива у цоДНК-положительных пациентов. Настоящее изобретение также продемонстрировало, что все пациенты, у которых не произошел клиренс цоДНК, имели рецидив в течение года после завершения АХТ, и все пациенты, у которых наблюдался временный клиренс, также имели рецидив. Будущие клинические испытания, которые включают клиренс цоДНК в дизайн исследования, могут позволить измерять эффективность терапии на уровне пациента в реальном времени. [1051] The present invention also demonstrates that monitoring ctDNA over time before, during and after ACT can provide patient-level measures of ACT effectiveness. 30% of patients who had ctDNA clearance and remained ctDNA negative in all subsequent samples remained disease free throughout the study. In summary, this example provided the first line of evidence that ACT may reduce the risk of relapse in ctDNA-positive patients. The present invention also demonstrated that all patients who did not clear ctDNA relapsed within a year of completion of chemotherapy, and all patients who experienced temporary clearance also relapsed. Future clinical trials that incorporate ctDNA clearance into the study design may allow patient-level measurement of therapy efficacy in real time.
[1052] В послеоперационном периоде мониторинг цоДНК показывает значительное улучшение в выявлении рецидивов по сравнению со стандартными рентгенологическими изображениями, демонстрируя значительное время упреждения в 8,7 месяцев (P <0,001). Важно отметить, что в ожидании радиологического обнаружения уровень цоДНК увеличился в среднем в 50 раз, что указывает на резкое увеличение опухолевой нагрузки в течение 8,7 месяцев времени упреждения. Текущие руководства рекомендуют наблюдение после радикальной операции КРР, но большинство рецидивов выявляются слишком поздно, чтобы быть подходящими для радикального вмешательства. Раннее обнаружение остаточной болезни с помощью анализа цоДНК может дать возможность более раннего радиологического обнаружения. Помимо выявления остаточной болезни, анализ цоДНК также позволил выявить клинически значимые мутации. Следовательно, цоДНК имеет потенциал как для раннего выявления, так и для принятия решений о лечении.[1052] Postoperatively, ctDNA monitoring shows significant improvement in detecting recurrence compared with standard radiographic imaging, demonstrating a significant lead time of 8.7 months (P < 0.001). Importantly, while awaiting radiological detection, ctDNA levels increased an average of 50-fold, indicating a dramatic increase in tumor burden during the 8.7-month lead time. Current guidelines recommend surveillance after radical CRC surgery, but most recurrences are detected too late to be suitable for radical intervention. Early detection of residual disease by ctDNA analysis may enable earlier radiological detection. In addition to identifying residual disease, ctDNA analysis also identified clinically significant mutations. Therefore, ctDNA has the potential for both early detection and treatment decisions.
[1053] В заключение, изобретение, представленное в этом примере, обеспечивает потенциально изменяющее парадигму клиническое применение цоДНК при колоректальном раке. Как упоминалось выше, разрабатываются или уже проводятся дополнительные клинические испытания для изучения клинических преимуществ лечения под контролем цоДНК. Представленные в данном документе результаты позволяют использовать циркулирующие биомаркеры для персонализированной стратификации риска и мониторинга терапии, чтобы гарантировать, что правильное лечение будет назначено правильному пациенту в нужное время и в течение нужной продолжительности.[1053] In conclusion, the invention presented in this example provides a potentially paradigm-changing clinical application of ctDNA in colorectal cancer. As mentioned above, additional clinical trials are being developed or already underway to explore the clinical benefits of ctDNA-guided treatments. The results presented here enable the use of circulating biomarkers for personalized risk stratification and therapy monitoring to ensure that the right treatment is given to the right patient at the right time and for the right duration.
[1054] Пример 11. Полноэкзомное профилирование скДНК плазмы захватывает мутационные сигнатуры доклинического рецидива для мониторинга эволюции заболевания. [1054] Example 11: Whole exome profiling of plasma cDNA captures mutational signatures of preclinical relapse to monitor disease evolution.
[1055] Целью этого примера было оценить использование полноэкзомного секвенирования свободно-клеточной ДНК (ПЭС-скДНК) плазмы для исследования мутационных сигнатур и клональной эволюции у пациентов с запущенными формами рака или пациентов с высокой нагрузкой циркулирующей опухолевой ДНК (цоДНК). В частности, в данном случае мы продемонстрировали использование профилирования ПЭС-скДНК для выявления доклинических метастазов у пациентов с первичным раком молочной железы.[1055] The purpose of this case study was to evaluate the use of whole exome sequencing of free-cell DNA (PES-cDNA) of plasma to study mutational signatures and clonal evolution in patients with advanced cancers or patients with a high burden of circulating tumor DNA (ctDNA). Specifically, here we demonstrated the use of PES-scDNA profiling to identify preclinical metastases in patients with primary breast cancer.
[1056] СПОСОБЫ [1056] METHODS
[1057] Сорок девять пациентов с первичным раком молочной железы были набраны после хирургического вмешательства и адъювантной терапии. Серийные образцы плазмы собирали каждые шесть месяцев для анализа цоДНК путем сверхглубокого секвенирования с рабочим процессом Signatera от Natera с использованием тестов для конкретных пациентов, нацеленных на 16 вариантов. Полноэкзомное секвенирование было выполнено на скДНК плазмы от всех 17 пациентов с рецидивом до, во время или после клинического рецидива, чтобы определить соответствие между вариантами, идентифицированными в плазме и биопсии опухоли, и понять эволюцию опухоли во время прогрессирования заболевания.[1057] Forty-nine patients with primary breast cancer were recruited after surgery and adjuvant therapy. Serial plasma samples were collected every six months for ctDNA analysis by ultra-deep sequencing with Natera's Signatera workflow using patient-specific assays targeting 16 variants. Whole exome sequencing was performed on plasma cDNA from all 17 relapsed patients before, during, or after clinical relapse to determine the concordance between variants identified in plasma and tumor biopsies and to understand tumor evolution during disease progression.
[1058] РЕЗУЛЬТАТЫ [1058] RESULTS
[1059] Предварительный анализ ПЭС-скДНК профилей от 3 пациентов с рецидивом показал высокую степень соответствия между специфическими для пациента вариантами, идентифицированными при биопсии опухоли и в плазме. При ПЭС плазмы также были идентифицированы 34 из 35 вариантов, обнаруженных Signatera, и они продемонстрировали высококонкордантные частоты вариантных аллелей (ЧВА). Один вариант, который не был обнаружен ПЭС-скДНК, ранее был обнаружен Signatera при 0,2% ЧВА.[1059] Preliminary analysis of PES-scDNA profiles from 3 patients with relapse showed a high degree of agreement between patient-specific variants identified in tumor biopsy and in plasma. Plasma PES also identified 34 of the 35 variants detected by Signatera and demonstrated highly concordant variant allele frequencies (HAFs). One variant that was not detected by PES-scDNA was previously detected by Signatera at 0.2% NVA.
[1060] ВЫВОДЫ [1060] CONCLUSIONS
[1061] Эти примеры показали, что ПЭС плазмы может обнаруживать молекулярную остаточную болезнь у пациентов с первичным раком молочной железы. Анализ плазмы при ПЭС потенциально свидетельствует об эволюции рака, что может быть важно для принятия решения о лечении. [1061] These examples demonstrated that plasma PES could detect molecular residual disease in patients with primary breast cancer. Plasma analysis of PES potentially provides evidence of cancer evolution, which may be important for treatment decisions.
[1062] Пример 12. Использование циркулирующей опухолевой ДНК (цоДНК) в качестве молекулярного биомаркера для оценки ответа на лечение при лимфоме. [1062] Example 12: Use of circulating tumor DNA (ctDNA) as a molecular biomarker to assess treatment response in lymphoma.
[1063] Здесь, в пилотном биофармацевтическом исследовании, мы оценивали потенциал персонализированного, специфичного для опухоли, мультиплексного подхода на основе ССП-ПЦР (Signatera ™) для обнаружения цоДНК в ходе режима лечения пациентов, чтобы сопоставить наличие цоДНК с общим клиническим ответом в когорте с неходжкинской лимфомой (НХЛ).[1063] Here, in a pilot biopharmaceutical study, we assessed the potential of a personalized, tumor-specific, multiplex SSP-PCR-based approach (Signatera™) to detect ctDNA during a patient's treatment regimen to correlate the presence of ctDNA with overall clinical response in a cohort with non-Hodgkin's lymphoma (NHL).
[1064] СПОСОБЫ [1064] METHODS
[1065] Для анализа цоДНК были доступны образцы крови, взятые у 8 пациентов с неходжкинской лимфомой (НХЛ) (6 диффузных больших В-клеточных лимфом и 2 фолликулярные лимфомы). Соматические варианты, специфичные для пациента, были идентифицированы путем анализа данных полноэкзомного секвенирования (ПЭС) из биопсии первичной опухоли и соответствующих нормальных образцов. Затем образцы плазмы были проанализированы слепым способом с помощью соответствующих индивидуальных 16-плексных анализов с использованием рабочего процесса Signatera. Образцы считались цоДНК-положительными, если по меньшей мере два целевых показателей для конкретного пациента соответствовали квалификационному порогу доверительной оценки.[1065] Blood samples from 8 patients with non-Hodgkin's lymphoma (NHL) (6 diffuse large B-cell lymphomas and 2 follicular lymphomas) were available for ctDNA analysis. Patient-specific somatic variants were identified by analyzing whole exome sequencing (WES) data from primary tumor biopsies and matched normal samples. Plasma samples were then analyzed in a blinded manner using the corresponding individual 16-plex assays using the Signatera workflow. Samples were considered ctDNA positive if at least two patient-specific targets met the qualifying confidence threshold.
[1066] РЕЗУЛЬТАТЫ [1066] RESULTS
[1067] Для неходжкинской лимфомы (НХЛ) из 2,5 мл (медиана) плазмы было извлечено 14,9 нг (медиана) (диапазон 2,25-685 нг) скДНК. цоДНК была обнаружена в 5 временных точках плазмы у 4 пациентов. Из 5 образцов плазмы цоДНК+ 4 образца плазмы коррелировали либо с клинически прогрессирующим заболеванием, либо с частичным ответом на терапию при заборе крови. У 4 пациентов без обнаружения цоДНК в любой момент времени при заборе крови был выявлен полный клинический ответ.[1067] For non-Hodgkin's lymphoma (NHL), 14.9 ng (median) (range 2.25-685 ng) of cDNA were extracted from 2.5 ml (median) of plasma. ctDNA was detected at 5 plasma time points in 4 patients. Of the 5 ctDNA+ plasma samples, 4 plasma samples were correlated with either clinically progressive disease or partial response to therapy at blood draw. Four patients without ctDNA detection at any time during blood sampling showed a complete clinical response.
[1068] ВЫВОДЫ [1068] CONCLUSIONS
[1069] Масштабируемый анализ мониторинга цоДНК для конкретного пациента может применяться для определения исходного уровня, мониторинга терапии и выявления рецидивов. Высокочувствительный анализ обнаружения цоДНК компании Signatera обеспечивает неинвазивные средства контроля над текущими стандартами лечения.[1069] Scalable patient-specific ctDNA monitoring assays can be used to establish baseline, monitor therapy, and detect relapse. Signatera's highly sensitive ctDNA detection assay provides a non-invasive means of monitoring current standards of care.
Claims (56)
Applications Claiming Priority (7)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US62/657,727 | 2018-04-14 | ||
| US62/669,330 | 2018-05-09 | ||
| US62/693,843 | 2018-07-03 | ||
| US62/715,143 | 2018-08-06 | ||
| US62/746,210 | 2018-10-16 | ||
| US62/777,973 | 2018-12-11 | ||
| US62/804,566 | 2019-02-12 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| RU2020128083A RU2020128083A (en) | 2022-05-16 |
| RU2811503C2 true RU2811503C2 (en) | 2024-01-12 |
Family
ID=
Non-Patent Citations (1)
| Title |
|---|
| Ng, S., Chua, C., Ng, M. et al. Individualised multiplexed circulating tumour DNA assays for monitoring of tumour presence in patients after colorectal cancer surgery. Sci Rep 7, 40737 (2017). Francesca Riva et al, Patient-Specific Circulating Tumor DNA Detection during Neoadjuvant Chemotherapy in Triple-Negative Breast Cancer, Clinical Chemistry, Volume 63, Issue 3, 1 March 2017, Pages 691-699. Vandekerkhove G. et al. Circulating Tumor DNA Reveals Clinically Actionable Somatic Genome of Metastatic Bladder CancerctDNA Alterations in Metastatic Bladder Cancer //Clinical Cancer Research. - 2017. - Т. 23. - No. 21. - С. 6487-6497. Чебышев Н. В. и др. ПЕРСПЕКТИВЫ ИСПОЛЬЗОВАНИЯ ЦИРКУЛИРУЮЩЕЙ ОПУХОЛЕВОЙ ДНК В КАЧЕСТВЕ МАРКЕРА СОСТОЯНИЯ ЗЛОКАЧЕСТВЕННЫХ НОВООБРАЗОВАНИЙ //Сеченовский вестник. - 2015. - No. 3 (21). - С. 18-22. * |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US12385096B2 (en) | Methods for cancer detection and monitoring | |
| JP7713054B2 (en) | Methods for analyzing circulating cells | |
| US20250163516A1 (en) | Detecting mutations and ploidy in chromosomal segments | |
| US20220356530A1 (en) | Methods for determining velocity of tumor growth | |
| US20250109441A1 (en) | Methods for cancer detection and monitoring | |
| RU2811503C2 (en) | Methods of detecting and monitoring cancer by personalized detection of circulating tumor dna | |
| US20240352513A1 (en) | Detecting mutations and ploidy in chromosomal segments | |
| HK40045572A (en) | Methods for cancer detection and monitoring by means of personalized detection of circulating tumor dna |