[go: up one dir, main page]

RU2759205C1 - Calculation of the burden of tumour mutations using tumour rna sequencing data and controlled machine learning - Google Patents

Calculation of the burden of tumour mutations using tumour rna sequencing data and controlled machine learning Download PDF

Info

Publication number
RU2759205C1
RU2759205C1 RU2020128823A RU2020128823A RU2759205C1 RU 2759205 C1 RU2759205 C1 RU 2759205C1 RU 2020128823 A RU2020128823 A RU 2020128823A RU 2020128823 A RU2020128823 A RU 2020128823A RU 2759205 C1 RU2759205 C1 RU 2759205C1
Authority
RU
Russia
Prior art keywords
mutations
tumor
model
training
tmb
Prior art date
Application number
RU2020128823A
Other languages
Russian (ru)
Inventor
Антон Александрович Буздин
Максим Игоревич Сорокин
Евгения Дмитриевна Зотова
Виктор Сергеевич Ткачев
Андрей Владимирович Гаража
Original Assignee
Общество с ограниченной ответственностью «Онкобокс» (ООО «Онкобокс»)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество с ограниченной ответственностью «Онкобокс» (ООО «Онкобокс») filed Critical Общество с ограниченной ответственностью «Онкобокс» (ООО «Онкобокс»)
Priority to RU2020128823A priority Critical patent/RU2759205C1/en
Application granted granted Critical
Publication of RU2759205C1 publication Critical patent/RU2759205C1/en

Links

Images

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B23/00Models for scientific, medical, or mathematical purposes, e.g. full-sized devices for demonstration purposes
    • G09B23/28Models for scientific, medical, or mathematical purposes, e.g. full-sized devices for demonstration purposes for medicine

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Medicinal Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Algebra (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Medical Informatics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

FIELD: medicine.
SUBSTANCE: group of inventions relates to medicine, namely to the field of molecular diagnostics, personalised medicine and clinical oncology. Proposed is a method for calculating the tumour mutation burden (TMB) on a million base pairs based on the data on RNA sequencing from a tumour sample as an alternative for sequencing a full exome or a target gene panel. Filtration of mutations based on the data on RNA sequencing, used in software sets for identifying mutations, is supplemented by filtration after identifying and annotating mutations using machine learning with a true set of mutations, produced from tumours and corresponding normal tissues tested by sequencing a full exome.
EFFECT: group of inventions provides an increase in the correlation coefficient for TMB measured by means of RNA sequencing, an increase in the correlation coefficient between the TMBs measured by two different methods from 0.18 to 0.6.
14 cl, 12 dwg, 4 tbl, 2 ex

Description

Область изобретенияScope of invention

Изобретение относится к области молекулярной диагностики, персонализированной медицины и клинической онкологии, а именно к расчету мутационной нагрузки опухоли (TMB) на миллион пар оснований с использованием данных секвенирования РНК опухоли и алгоритмов машинного обучения с учителем.The invention relates to the field of molecular diagnostics, personalized medicine and clinical oncology, in particular to the calculation of tumor mutational load (TMB) per million base pairs using tumor RNA sequencing data and supervised machine learning algorithms.

Уровень техникиState of the art

В то время как глобальная угроза рака продолжает возрастать, разрабатываются новые стратегии лечения, такие как таргетная терапия и иммунотерапия. Многие из этих методов лечения полезны только для небольшого числа пациентов, что подчеркивает необходимость персонализации назначения лекарств и поиска надежных биомаркеров ответа на терапию.As the global cancer threat continues to grow, new treatment strategies such as targeted therapies and immunotherapy are being developed. Many of these treatments are only useful for a small number of patients, highlighting the need to personalize drug prescriptions and find reliable biomarkers of therapy response.

Мутационная нагрузка опухоли (TMB) на миллион пар оснований является хорошо известным прогностическим маркером эффективности ингибиторов контрольных точек иммунитета (Zhu J, et al., Association Between Tumor Mutation Burden (TMB) and Outcomes of Cancer Patients Treated With PD-1/PD-L1 Inhibitions: A Meta-Analysis. Front Pharmacol. 2019;10: 673). TMB может быть определен как число соматических мутаций на миллион пар оснований (мегабаз) в белок-кодирующей области генома, включая как замены, так и делеции/инсерции, без учета функциональной роли мутаций (Chalmers ZR, et al., Analysis of 100,000 human cancer genomes reveals the landscape of tumor mutational burden. Genome Med. 2017;9: 34). Сильно мутированные опухоли с большей вероятностью продуцируют опухолевые неоантигены и являются более «видимыми» для иммунной системы, поэтому TMB считается надежной оценкой нагрузки опухоли неоантигенами (Fancello L, Gandini S, Pelicci PG, Mazzarella L. Tumor mutational burden quantification from targeted gene panels: major advancements and challenges. J Immunother Cancer. 2019;7: 183).Tumor mutation load (TMB) per million base pairs is a well-known predictive marker of the effectiveness of immune checkpoint inhibitors (Zhu J, et al., Association Between Tumor Mutation Burden (TMB) and Outcomes of Cancer Patients Treated With PD-1 / PD-L1 Inhibitions: A Meta-Analysis. Front Pharmacol. 2019; 10: 673). TMB can be defined as the number of somatic mutations per million base pairs (megabases) in the protein-coding region of the genome, including both substitutions and deletions / insertions, without considering the functional role of mutations (Chalmers ZR, et al., Analysis of 100,000 human cancer genomes reveals the landscape of tumor mutational burden. Genome Med. 2017; 9:34). Strongly mutated tumors are more likely to produce tumor neoantigens and are more "visible" to the immune system, therefore TMB is considered a reliable estimate of tumor burden with neoantigens (Fancello L, Gandini S, Pelicci PG, Mazzarella L. Tumor mutational burden quantification from targeted gene panels: major advancements and challenges. J Immunother Cancer. 2019; 7: 183).

На сегодняшний день оценка TMB коммерчески доступна в форме диагностических тестов для клинических и исследовательских целей (Büttner R, et al. Implementing TMB measurement in clinical practice: considerations on assay requirements. ESMO Open. 2019;4: e000442). Расчёт TMB является частью многих генетических тест-системы. Все доступные в настоящее время генетические тесты используют данные секвенирования ДНК опухоли для расчета TMB. Большинство из них вычисляют TMB, используя данные таргетной панели экзомного секвенирования, реже - данные секвенирования всего экзома (WES) или секвенирования всего генома (WGS).Today, the TMB assessment is commercially available in the form of diagnostic tests for clinical and research purposes (Büttner R, et al. Implementing TMB measurement in clinical practice: considerations on assay requirements. ESMO Open. 2019; 4: e000442). Calculating TMB is part of many genetic test systems. All currently available genetic tests use tumor DNA sequencing data to calculate TMB. Most of them calculate TMB using data from a targeted panel of exome sequencing, less often data from whole exome sequencing (WES) or whole genome sequencing (WGS).

Профилирование экспрессии генов с использованием данных секвенирования РНК является другим типом анализа, который может помочь в назначении терапии (Buzdin A, et al. RNA sequencing for research and diagnostics in clinical oncology. Semin Cancer Biol. 2020 Feb;60:311-323). Такой тип анализа получит дополнительное преимущество, если будет включать оценку TMB. В данных по секвенированию РНК присутствуют только эскпрессируемые гены, поэтому TMB, рассчитанный по данным секвенирования РНК, потенциально может быть более надежным предиктором эффективности ингибиторов контрольных точек иммунитета, чем TMB, рассчитанный по данным WES, WGS или таргетного ДНК секвенирования панели генов.Gene expression profiling using RNA sequencing data is another type of analysis that can aid in therapy prescription (Buzdin A, et al. RNA sequencing for research and diagnostics in clinical oncology. Semin Cancer Biol. 2020 Feb; 60: 311-323). This type of analysis will have the added benefit of including a TMB score. RNA sequencing data contains only expressed genes; therefore, TMB calculated from RNA sequencing data can potentially be a more reliable predictor of the effectiveness of immune checkpoint inhibitors than TMB calculated from WES, WGS, or targeted DNA sequencing of a panel of genes.

Хотя это и возможно теоретически, но на практике надежное обнаружение соматических мутаций для расчета TMB с использованием данных секвенирования только-опухолевой РНК является проблематичным из-за ряда факторов, таких как гетерогенность опухоли, неоднородный охват ген-кодирующих областей, и артефактов, часто возникающих в результате фиксации образца опухоли. Машинное обучение (ML) в настоящее время широко используется для различных задач в биоинформатике и, в частности, для ее применения в клинической онкологии (Tkachev V, et al., Flexible Data Trimming Improves Performance of Global Machine Learning Methods in Omics-Based Personalized Oncology. Int J Mol Sci. 2020 Jan 22;21(3)). Существует необходимость в разработке проверенного алгоритма ML для улучшения расчета TMB на основе данных секвенирования только-опухолевой РНК.Although theoretically possible, in practice, reliable detection of somatic mutations for calculating TMB using tumor-only RNA sequencing data is problematic due to a number of factors, such as tumor heterogeneity, heterogeneous coverage of gene-coding regions, and artifacts that often occur in as a result of fixation of the tumor sample. Machine learning (ML) is currently widely used for various tasks in bioinformatics and, in particular, for its application in clinical oncology (Tkachev V, et al., Flexible Data Trimming Improves Performance of Global Machine Learning Methods in Omics-Based Personalized Oncology Int J Mol Sci. 2020 Jan 22; 21 (3)). There is a need to develop a proven ML algorithm to improve the calculation of TMB based on tumor-only RNA sequencing data.

Сущность изобретенияThe essence of the invention

Раскрытые здесь варианты исполнения изобретения относятся к способам, системам и продуктам для расчета мутационной нагрузки опухоли (TMB) с использованием данных секвенирования только-опухолевой РНК из образцов опухоли. Цель состоит в том, чтобы разработать эффективный подход для расчета TMB на миллион пар оснований (мегабазу) на основе данных секвенирования РНК с использованием фильтрации соматических мутаций с помощью модели машинного обучения с учителем (ML). Этот подход основан на модификации стандартного набора программ для идентификации мутаций в данных секвенирования только-опухолевой РНК, с дополнительным этапом фильтрации, который выполняется моделью ML. Технический результат заключается в повышении точности расчета TMB по данным секвенирования только-опухолевой РНК.Embodiments of the invention disclosed herein relate to methods, systems, and products for calculating tumor mutational load (TMB) using tumor-only RNA sequencing data from tumor samples. The goal is to develop an efficient approach for calculating TMB per million base pairs (megabase) from RNA sequencing data using somatic mutation filtering with a supervised machine learning (ML) model. This approach is based on a modification of the standard set of programs for identifying mutations in tumor-only RNA sequencing data, with an additional filtering step performed by the ML model. The technical result consists in increasing the accuracy of calculating TMB according to sequencing data of only tumor RNA.

В одном варианте исполнения предложен метод компьютерного вычисления мутационной нагрузки опухоли (TMB) с использованием данных секвенирования только-опухолевой РНК из образца опухоли, причем способ включает стадии: (а) получение данных РНК секвенирования образца опухоли, и прогнозирование мутаций в РНК с использованием набора программ для идентификации и аннотации мутаций, посредством чего создается предварительный профиль мутаций для образца опухоли; (b) применение предварительно обученной модели машинного обучения с учителем (ML) для расчета TMB образца опухоли путем корректировки предварительного профиля мутаций; где предобучение модели ML включает в себя: I. получение обучающей выборки, содержащей выборку мутаций по данным секвенирования РНК и вторую выборку мутаций из соответствующих данных секвенирования ДНК, взятых из тех же образцов опухоли; II. аннотирование мутаций в первой выборке мутаций в виде ИСТИННЫХ или ЛОЖНЫХ мутаций на основе второй выборки мутаций; III. выполнение обучения модели ML с учителем с использованием первой и второй выборок мутаций.In one embodiment, there is provided a method for computing tumor mutation load (TMB) using sequencing data of tumor-only RNA from a tumor sample, the method comprising the steps of: (a) obtaining RNA sequencing data from a tumor sample, and predicting mutations in RNA using a suite of programs to identify and annotate mutations, whereby a preliminary mutation profile is generated for a tumor sample; (b) applying a pre-trained supervised machine learning (ML) model to calculate the TMB of a tumor sample by adjusting the pre-mutation profile; where pre-training of the ML model includes: I. obtaining a training sample containing a sample of mutations from RNA sequencing data and a second sample of mutations from the corresponding DNA sequencing data taken from the same tumor samples; II. annotating mutations in the first set of mutations as TRUE or FALSE mutations based on the second set of mutations; III. performing supervised ML model training using the first and second mutation samples.

Несколько модификаций или альтернативных вариантов исполнения метода возможны без отклонения от сущности изобретения; некоторые из этих альтернативных вариантов реализации перечислены ниже.Several modifications or alternative embodiments of the method are possible without departing from the spirit of the invention; some of these alternative implementations are listed below.

В одном варианте реализации метод дополнительно содержит этап проверки модели ML после предобучения путем тестирования предобученной модели ML с учителем на второй обучающей выборке. Разделение выборок данных на обучающую выборку и тестовую выборку может быть выполнено с использованием различных порогов в соответствии с Y. Xu and R. Goodacre, J Anal Test. 2018; 2 (3): 249-262. Достаточное количество образцов должно быть оставлено в тестовой выборке для надежной оценки производительности модели путем расчета корреляции между фактическим и прогнозируемым TMB.In one implementation, the method further comprises the step of validating the ML model after pre-training by testing the pre-trained ML model with a teacher on a second training set. Separation of data samples into training set and test set can be performed using different thresholds in accordance with Y. Xu and R. Goodacre, J Anal Test. 2018; 2 (3): 249-262. A sufficient number of samples should be left in the test sample to reliably evaluate the performance of the model by calculating the correlation between the actual and predicted TMB.

В другом варианте реализации образец опухоли и образцы тренировочной выборки получают из опухолевой ткани, заключенной в парафин и фиксированной в формалине (FFPE).In another embodiment, the tumor sample and training samples are obtained from tumor tissue embedded in paraffin wax and fixed in formalin (FFPE).

В другом варианте реализации образец опухоли и образцы тренировочного набора получают из свежезамороженной опухолевой ткани.In another embodiment, the tumor sample and training kit samples are obtained from freshly frozen tumor tissue.

В другом варианте реализации коррекция предварительного мутационного профиля выполняется с использованием алгоритма градиентного бустинга.In another implementation, the pre-mutation profile correction is performed using a gradient boosting algorithm.

В другом варианте реализации коррекция предварительного мутационного профиля выполняется с использованием алгоритма случайных деревьев.In another implementation, the pre-mutation profile correction is performed using a random tree algorithm.

В другом варианте реализации предобучение модели ML с учителем дополнительно включает следующие этапы: выделение признаков, которые характеризуют аннотированные мутации в первой выборке мутаций; выбор извлеченных элементов и подходящей модели для ML с учителем; классификация выбранных признаков как соответствующих ИСТИННОЙ или ЛОЖНОЙ мутации.In another embodiment, supervised ML model pre-training further includes the following steps: identifying features that characterize annotated mutations in the first mutation sample; selection of extracted elements and a suitable model for supervised ML; classification of the selected traits as corresponding to a TRUE or FALSE mutation.

В другом варианте реализации предобучение модели ML с учителем выполняется до тех пор, пока метрика AUC (площадь под ROC-кривой) параметров модели не станет равной или превышающей 90% на кросс-валидации. Методы вычисления метрики AUC известны в данной области техники, см., например, Green Dm, S. J. A. (1966) Signal Detection Theory and Psychophysics, New York.In another implementation, supervised ML model pre-training is performed until the metric AUC (area under the ROC curve) of the model parameters is equal to or greater than 90% on cross-validation. Methods for calculating the AUC metric are known in the art, see, for example, Green Dm, S. J. A. (1966) Signal Detection Theory and Psychophysics, New York.

В другом варианте реализации изобретения раскрыт вычислительный продукт, причем вычислительный продукт содержит машиночитаемый носитель длительного хранения, содержащий множество инструкций для управления вычислительной системой для выполнения операции одним из вышеупомянутых способов.In another embodiment, a computing product is disclosed, wherein the computing product comprises a computer-readable storage medium containing a plurality of instructions for controlling a computing system to perform an operation in one of the aforementioned methods.

В другом варианте реализации изобретения раскрыта система для расчета мутационной нагрузки опухоли (TMB) с использованием данных секвенирования только-опухолевой РНК из образца опухоли, причем система содержит: по меньшей мере, один носитель данных, сконфигурированный для хранения набора данных секвенирования, включая, по меньшей мере, данные секвенирования РНК и данные секвенирования ДНК, взятые из образцов опухоли; и, по меньшей мере, один процессор, функционально связанный с, по меньшей мере, тем одним носителем данных, причем, по меньшей мере, один процессор сконфигурирован для (а) получения данных о секвенировании РНК из образца опухоли и предсказания мутаций в РНК с помощью набора программ для идентификации и аннотирования, в результате чего создается предварительный профиль мутаций для образца опухоли; (б) применения предобученной модели машинного обучения (ML) с учителем для расчета TMB для образца опухоли путем корректировки предварительного профиля мутаций; где предварительное обучение модели ML включает в себя: I. получение обучающей выборки, содержащей первую выборку мутаций из данных секвенирования РНК, взятых из образцов опухоли, и вторую выборку мутаций из соответствующих данных секвенирования ДНК, взятых из тех же образцов опухоли; II. аннотирование мутаций в первой выборке мутаций в виде ИСТИННОЙ или ЛОЖНОЙ мутации на основе второй выборки мутаций; III. выполнение обучения модели ML с учителем с использованием первой и второй выборок мутаций.In another embodiment of the invention, a system is disclosed for calculating tumor mutational load (TMB) using sequencing data of only tumor RNA from a tumor sample, the system comprising: at least one data carrier configured to store a sequencing data set, including at least measure, RNA sequencing data and DNA sequencing data taken from tumor samples; and at least one processor operably associated with at least one storage medium, the at least one processor configured to (a) obtain RNA sequencing data from a tumor sample and predict mutations in RNA using a set of programs for identification and annotation, resulting in a preliminary mutation profile for a tumor sample; (b) applying a supervised pre-trained machine learning (ML) model to calculate TMB for a tumor sample by adjusting the preliminary mutation profile; where the preliminary training of the ML model includes: I. obtaining a training set containing the first sample of mutations from the RNA sequencing data taken from tumor samples, and a second sample of mutations from the corresponding DNA sequencing data taken from the same tumor samples; II. annotating mutations in the first set of mutations as TRUE or FALSE mutations based on the second set of mutations; III. performing supervised ML model training using the first and second mutation samples.

Элементы любого из раскрытых вариантов реализации могут использоваться в сочетании друг с другом без ограничения. Кроме того, другие функции и преимущества настоящего изобретения станут очевидными для специалистов в данной области техники после рассмотрения следующего подробного описания и прилагаемых иллюстраций.Elements of any of the disclosed embodiments may be used in combination with each other without limitation. In addition, other functions and advantages of the present invention will become apparent to those skilled in the art upon consideration of the following detailed description and accompanying illustrations.

КРАТКОЕ ОПИСАНИЕ РИСУНКОВBRIEF DESCRIPTION OF THE FIGURES

Подробное описание изложено со ссылкой на прилагаемые рисунки.A detailed description is set out with reference to the accompanying figures.

Фиг. 1. Пример набора программ для идентификации мутаций. Файлы с данными показаны в овалах, шаги набора программ - в прямоугольниках. Файлы секвенирования РНК (RNAseq) находятся на левой панели, полноэкзомного секвенирования (WES) опухолевой и WES нормальной ткани - на правой панели.FIG. 1. An example of a set of programs for identifying mutations. Data files are shown in ovals, program steps are shown in rectangles. RNA sequencing (RNAseq) files are on the left panel, total exome sequencing (WES) of tumor and WES of normal tissue are on the right panel.

Фиг. 2. TMB, рассчитанный с использованием данных WES для регионов, также охваченных данными секвенирования РНК свежезамороженной ткани (ось Y, «isec» обозначает пересечение данных секвенирования РНК и WES) по сравнению со всем набором данных WES (ось X ). Формы точек соответствуют локализациям образцов тканей из TCGA. Коды болезни TCGA - COAD: аденокарцинома толстой кишки; GBM: мультиформная глиобластома; LUAD: аденокарцинома легкого; STAD: аденокарцинома желудка; SKCM: меланома кожи. Коэффициент корреляции Спирмена = 0,92 (р-значение < 2 *10-16), коэффициент корреляции Пирсона = 0,88 (р-значение < 2*10-16).FIG. 2. TMB calculated using WES data for regions also covered by fresh frozen tissue RNA sequencing data (Y-axis, "isec" represents the intersection of RNA and WES sequencing data) compared to the entire WES dataset (X-axis). The dot shapes correspond to the localizations of the TCGA tissue samples. Disease Codes TCGA - COAD: colon adenocarcinoma; GBM: glioblastoma multiforme; LUAD: lung adenocarcinoma; STAD: gastric adenocarcinoma; SKCM: Skin melanoma. Spearman's correlation coefficient = 0.92 (p-value <2 * 10 -16 ), Pearson's correlation coefficient = 0.88 (p-value <2 * 10 -16 ).

Фиг. 3. TMB, рассчитанный по данным РНК-секвенирования (RNAseq) свежезамороженной ткани, отфильтрованным с использованием стандартной фильтрации идентификатора вариантов (ось Y) по сравнению с данными WES (ось X). Формы точек соответствуют локализациям образцов тканей из TCGA. Коды болезни TCGA COAD: аденокарцинома толстой кишки; GBM: мультиформная глиобластома; LUAD: аденокарцинома легкого; STAD: аденокарцинома желудка; SKCM: меланома кожи. Коэффициент корреляции Спирмена = 0,06 (р-значение = 0,52), коэффициент корреляции Пирсона = 0,09 (р-значение = 0,359).FIG. 3. TMB calculated from RNA sequencing (RNAseq) data of fresh frozen tissue filtered using standard Variant ID filtering (Y-axis) versus WES data (X-axis). The dot shapes correspond to the localizations of the TCGA tissue samples. TCGA COAD disease codes: colon adenocarcinoma; GBM: glioblastoma multiforme; LUAD: lung adenocarcinoma; STAD: gastric adenocarcinoma; SKCM: Skin melanoma. Spearman's correlation coefficient = 0.06 (p-value = 0.52), Pearson's correlation coefficient = 0.09 (p-value = 0.359).

Фиг. 4. TMB, рассчитанный по данным РНК-секвенирования (RNAseq) свежезамороженной ткани, отфильтрованным с использованием стандартной фильтрации идентификатора вариантов, а также с фильтрации известных полиморфизмов из базы данных ExAC (ось Y) по сравнению с данными WES (ось X). Формы точек соответствуют локализациям образцов тканей из TCGA. Коды болезни TCGA - COAD: аденокарцинома толстой кишки; GBM: мультиформная глиобластома; LUAD: аденокарцинома легкого; STAD: аденокарцинома желудка; SKCM: меланома кожи. Коэффициент корреляции Спирмена = 0,4 (р-значение = 3.73*10-5), коэффициент корреляции Пирсона = 0,44 (р-значение = 3.09*10-6).FIG. 4. TMB calculated from RNA sequencing (RNAseq) data of fresh frozen tissue filtered using standard Variant ID filtering as well as filtering known polymorphisms from the ExAC database (Y-axis) versus WES data (X-axis). The dot shapes correspond to the localizations of the TCGA tissue samples. Disease Codes TCGA - COAD: colon adenocarcinoma; GBM: glioblastoma multiforme; LUAD: lung adenocarcinoma; STAD: gastric adenocarcinoma; SKCM: Skin melanoma. Spearman's correlation coefficient = 0.4 (p-value = 3.73 * 10 -5 ), Pearson's correlation coefficient = 0.44 (p-value = 3.09 * 10 -6 ).

Фиг. 5. TMB, рассчитанный по данным РНК-секвенирования (RNAseq) из свежезамороженной ткани, отфильтрованным с использованием XGBoost (ось Y) по сравнению с данными WES (ось X). Формы точек соответствуют локализациям образцов тканей из TCGA. Коды болезни TCGA - COAD: аденокарцинома толстой кишки; GBM: мультиформная глиобластома; LUAD: аденокарцинома легкого; STAD: аденокарцинома желудка; SKCM: меланома кожи. Коэффициент корреляции Спирмена = 0,52 (р-значение = 0,00709), коэффициент корреляции Пирсона = 0,67 (р-значение = 0,000165).FIG. 5. TMB calculated from RNA sequencing data (RNAseq) from fresh frozen tissue filtered using XGBoost (Y-axis) versus WES data (X-axis). The dot shapes correspond to the localizations of the TCGA tissue samples. Disease Codes TCGA - COAD: colon adenocarcinoma; GBM: glioblastoma multiforme; LUAD: lung adenocarcinoma; STAD: gastric adenocarcinoma; SKCM: Skin melanoma. Spearman's correlation coefficient = 0.52 (p-value = 0.00709), Pearson's correlation coefficient = 0.67 (p-value = 0.000165).

Фиг. 6. TMB, рассчитанный по данным РНК-секвенирования (RNAseq) свежезамороженной ткани, отфильтрованным с использованием метода случайных деревьев (ось Y) по сравнению с данными WES (ось X). Формы точек соответствуют локализациям образцов тканей из TCGA. Коды болезни TCGA - COAD: аденокарцинома толстой кишки; GBM: мультиформная глиобластома; LUAD: аденокарцинома легкого; STAD: аденокарцинома желудка; SKCM: меланома кожи. Коэффициент корреляции Спирмена = 0,82 (р-значение < 2*10-16), коэффициент корреляции Пирсона = 0,82 (р-значение < 2*10-16).FIG. 6. TMB calculated from RNA sequencing (RNAseq) data of fresh frozen tissue filtered using random tree method (Y-axis) versus WES data (X-axis). The dot shapes correspond to the localizations of the TCGA tissue samples. Disease Codes TCGA - COAD: colon adenocarcinoma; GBM: glioblastoma multiforme; LUAD: lung adenocarcinoma; STAD: gastric adenocarcinoma; SKCM: Skin melanoma. Spearman's correlation coefficient = 0.82 (p-value <2 * 10 -16 ), Pearson's correlation coefficient = 0.82 (p-value <2 * 10 -16 ).

Фиг. 7. TMB, рассчитанный с использованием данных WES для регионов, также охваченных данными секвенирования РНК парафинизированной ткани (FFPE) (ось Y, «isec» обозначает пересечение данных секвенирования РНК и WES), по сравнению со всем набором данных WES (ось X). Формы точек соответствуют локализациям образцов тканей из TCGA. Коды болезни TCGA - COAD: аденокарцинома толстой кишки; LUAD: аденокарцинома легкого; BRCA: рак молочной железы; UCEC: карцинома матки и тела матки; BLCA: рак мочевого пузыря; PRAD: аденокарцинома простаты. Коэффициент корреляции Спирмена = 0,82 (р-значение = 3.28*10-7), коэффициент корреляции Пирсона = 0,82 (р-значение = 3.97*10-7).FIG. 7. TMB calculated using WES data for regions also covered by waxed tissue RNA sequencing (FFPE) data (Y-axis, "isec" represents the intersection of RNA and WES sequencing data), compared to the entire WES dataset (X-axis). The dot shapes correspond to the localizations of the TCGA tissue samples. Disease Codes TCGA - COAD: colon adenocarcinoma; LUAD: lung adenocarcinoma; BRCA: breast cancer; UCEC: carcinoma of the uterus and uterine corpus; BLCA: bladder cancer; PRAD: prostate adenocarcinoma. Spearman's correlation coefficient = 0.82 (p-value = 3.28 * 10 -7 ), Pearson's correlation coefficient = 0.82 (p-value = 3.97 * 10 -7 ).

Фиг. 8. TMB, рассчитанный на основе данных секвенирования РНК парафинизированной ткани (FFPE RNAseq), отфильтрованных с использованием стандартной фильтрации идентификатора вариантов (ось Y) по сравнению с данными WES (ось X). Формы точек соответствуют локализациям образцов тканей из TCGA. Коды болезни TCGA - COAD: аденокарцинома толстой кишки; LUAD: аденокарцинома легкого; BRCA: рак молочной железы; UCEC: карцинома матки и тела матки; BLCA: рак мочевого пузыря; PRAD: аденокарцинома простаты. Коэффициент корреляции Спирмена = 0,18 (р-значение = 0,377), коэффициент корреляции Пирсона = 0,26 (р-значение = 0,207).FIG. 8. TMB calculated from waxed tissue RNA sequencing data (FFPE RNAseq) filtered using standard Variant ID filtering (Y-axis) versus WES data (X-axis). The dot shapes correspond to the localizations of the TCGA tissue samples. Disease Codes TCGA - COAD: colon adenocarcinoma; LUAD: lung adenocarcinoma; BRCA: breast cancer; UCEC: carcinoma of the uterus and uterine corpus; BLCA: bladder cancer; PRAD: prostate adenocarcinoma. Spearman's correlation coefficient = 0.18 (p-value = 0.377), Pearson's correlation coefficient = 0.26 (p-value = 0.207).

Фиг. 9. TMB, рассчитанный по данным РНК-секвенирования парафинизированной ткани (FFPE RNAseq), с использованием стандартной фильтрации идентификатора вариантов, а также фильтрации известных полиморфизмов из базы данных ExAC (ось Y) по сравнению с данными WES (ось X). Формы точек соответствуют локализациям образцов тканей из TCGA. Коды болезни TCGA - COAD: аденокарцинома толстой кишки; LUAD: аденокарцинома легкого; BRCA: рак молочной железы; UCEC: карцинома матки и тела матки; BLCA: рак мочевого пузыря; PRAD: аденокарцинома простаты. Коэффициент корреляции Спирмена = 0,49 (р-значение = 0,0122), коэффициент корреляции Пирсона = 0,45 (р-значение = 0,0211).FIG. 9. TMB calculated from waxed tissue RNA sequencing (FFPE RNAseq) using standard Variant ID filtering as well as filtering known polymorphisms from the ExAC database (Y-axis) versus WES data (X-axis). The dot shapes correspond to the localizations of the TCGA tissue samples. Disease Codes TCGA - COAD: colon adenocarcinoma; LUAD: lung adenocarcinoma; BRCA: breast cancer; UCEC: carcinoma of the uterus and uterine corpus; BLCA: bladder cancer; PRAD: prostate adenocarcinoma. Spearman's correlation coefficient = 0.49 (p-value = 0.0122), Pearson's correlation coefficient = 0.45 (p-value = 0.0211).

Фиг. 10. TMB, рассчитанный на основе данных секвенирования РНК парафинизированной ткани (FFPE RNAseq), отфильтрованных с использованием XGBoost (ось Y) по сравнению с данными WES (ось X). Формы точек соответствуют локализациям образцов тканей из TCGA. Коды болезни TCGA - COAD: аденокарцинома толстой кишки; LUAD: аденокарцинома легкого; BRCA: рак молочной железы; UCEC: карцинома матки и тела матки; BLCA: рак уротелия пузыря; PRAD: аденокарцинома простаты. Коэффициент корреляции Спирмена = 0,6 (р-значение = 0,00141), коэффициент корреляции Пирсона = 0,74 (р-значение = 1.68*10-5).FIG. 10. TMB calculated from waxed tissue RNA sequencing data (FFPE RNAseq) filtered using XGBoost (Y-axis) versus WES data (X-axis). The dot shapes correspond to the localizations of the TCGA tissue samples. Disease Codes TCGA - COAD: colon adenocarcinoma; LUAD: lung adenocarcinoma; BRCA: breast cancer; UCEC: carcinoma of the uterus and uterine corpus; BLCA: bladder urothelium cancer; PRAD: prostate adenocarcinoma. Spearman's correlation coefficient = 0.6 (p-value = 0.00141), Pearson's correlation coefficient = 0.74 (p-value = 1.68 * 10 -5 ).

Фиг. 11. TMB, рассчитанный по данным РНК-секвенирования парафинизированной ткани (FFPE RNAseq), отфильтрованным с использованием метода случайных деревьев (ось Y) по сравнению с данными WES (ось X). Формы точек соответствуют локализациям образцов тканей из TCGA. Коды болезни TCGA - COAD: аденокарцинома толстой кишки; LUAD: аденокарцинома легкого; BRCA: рак молочной железы; UCEC: карцинома матки и тела матки; BLCA: рак мочевого пузыря; PRAD: аденокарцинома простаты. Коэффициент корреляции Спирмена = 0,58 (р-значение = 0,00202), коэффициент корреляции Пирсона = 0,69 (р-значение = 8.96*10-5).FIG. 11. TMB calculated from waxed tissue RNA sequencing data (FFPE RNAseq) filtered using random tree method (Y-axis) versus WES data (X-axis). The dot shapes correspond to the localizations of the TCGA tissue samples. Disease Codes TCGA - COAD: colon adenocarcinoma; LUAD: lung adenocarcinoma; BRCA: breast cancer; UCEC: carcinoma of the uterus and uterine corpus; BLCA: bladder cancer; PRAD: prostate adenocarcinoma. Spearman's correlation coefficient = 0.58 (p-value = 0.00202), Pearson's correlation coefficient = 0.69 (p-value = 8.96 * 10 -5 ).

Фиг. 12. Общая схема вычислительного устройства (120), которое обеспечивает обработку данных, необходимую для реализации заявленных методов.FIG. 12. General diagram of a computing device (120), which provides data processing necessary for the implementation of the claimed methods.

ПОДРОБНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯDETAILED DESCRIPTION OF THE INVENTION

В данном описании термины «включает», «включающий» и/или «имеющий», используемые в данном документе, определяются как содержащий (то есть открытый язык). Эти термины не предназначены для толкования как «состоит только из». Термин «другой», используемый в данном документе, определяется как, по меньшей мере, второй или более. Термин «множество», используемый в данном документе, определяется как два или более двух. Упоминание на протяжении всего этого документа слов как «один вариант реализации», «определенные варианты реализации», «вариант реализации», «реализация», «пример» или других подобных терминов означает, что конкретная особенность, структура или характеристика, описанная в связи с вариантом реализации, включена, по меньшей мере, в одном варианте реализации настоящего изобретения. Таким образом, появление таких фраз в различных местах данного описания не обязательно относится к одному и тому же варианту реализации. Кроме того, конкретные особенности, структуры или характеристики могут быть объединены любым подходящим способом в одном или нескольких вариантах реализации без ограничения. Технические и научные термины в данном описании имеют стандартные значения, общепринятые в научно-технической литературе, если не указано иное.As used herein, the terms "includes", "including" and / or "having" as used herein are defined as containing (ie, open language). These terms are not intended to be construed as “consists only of”. The term "other" as used herein is defined as at least a second or more. The term "plurality" as used herein is defined as two or more than two. Throughout this document, references to the words “one implementation”, “specific implementations”, “implementation”, “implementation”, “example” or other similar terms mean that a particular feature, structure, or characteristic described in connection with an embodiment is included in at least one embodiment of the present invention. Thus, the appearance of such phrases in different places of this description does not necessarily refer to the same implementation option. In addition, specific features, structures, or characteristics may be combined in any suitable manner in one or more implementations without limitation. Technical and scientific terms in this description have the standard meanings generally accepted in the scientific and technical literature, unless otherwise indicated.

Соматическая мутация - это генетическая вариация, которая произошла во время онкогенеза. Такие мутации обнаруживаются в опухолях, но отсутствуют в здоровой ткани того же человека.A somatic mutation is a genetic variation that occurs during oncogenesis. Such mutations are found in tumors, but absent in healthy tissue of the same person.

Мутации зародышевой линии - это вариации, которые были унаследованы человеком от его/ее родителей или произошли в гаметах или на ранних стадиях эмбрионального развития.Germline mutations are variations that have been inherited by a person from his / her parents or have occurred in gametes or early embryonic development.

«Модель машинного обучения с учителем» означает задачу машинного обучения, состоящую в обучении функции, которая отображает входные данные в выходные на основе примеров пар ввода-вывода из маркированных данных обучающей выборки.“Supervised machine learning model” means a machine learning problem that trains a function that maps inputs to outputs based on examples of I / O pairs from labeled training data.

«Мутационная нагрузка опухоли на мегабазу (TMB)» определяется как число соматических мутаций на мегабазу анализируемой кодирующей области, включая однонуклеотидные замены, вставки, делеции, без учета функциональных эффектов мутаций."Mutational load of a tumor per megabase (TMB)" is defined as the number of somatic mutations per megabase of the analyzed coding region, including single nucleotide substitutions, insertions, deletions, excluding the functional effects of mutations.

В некоторых вариантах реализации изобретения обработка данных секвенирования РНК с помощью набора программ для идентификации соматических мутаций в режиме анализа опухолевого образца, включает такие этапы, как: 1) выравнивание прочтений секвенирования с референсным геномом или транскриптомом, 2) использование набора программ для идентификации мутаций без учета нормальной ткани, с или без панели нормальных (здоровых) тканей.In some embodiments of the invention, the processing of RNA sequencing data using a set of programs for identifying somatic mutations in a tumor sample analysis mode includes such steps as: 1) aligning the sequencing reads with a reference genome or transcriptome, 2) using a set of programs for identifying mutations without taking into account normal tissue, with or without a panel of normal (healthy) tissue.

В предпочтительных вариантах реализации изобретения, данные секвенирования РНК из образца опухоли анализируются без какого-либо сопоставленного образца нормальной (здоровой) ткани, например, полученного из крови или прилегающих к опухоли нормальных тканей от того же человека.In preferred embodiments of the invention, RNA sequencing data from a tumor sample is analyzed without any matched normal (healthy) tissue sample, for example, obtained from blood or adjacent normal tissue from the same person.

Для создания предварительного профиля мутаций для опухолевого образца, в предпочтительных вариантах реализации изобретения получают данные секвенирования РНК из образца опухоли и прогнозируют мутационную нагрузку опухоли при помощи алгоритмического поиска и аннотирования мутаций. Под алгоритмическим поиском следует понимать использование стандартных, специализированных программных инструментов, известных специалистам. Некоторые из них раскрыты ниже, например, GATK-подобный пайплайн идентификации мутаций.To generate a preliminary mutation profile for a tumor sample, in preferred embodiments of the invention, RNA sequencing data is obtained from a tumor sample and the mutation load of the tumor is predicted by algorithmic search and mutation annotation. Algorithmic search should be understood as the use of standard, specialized software tools known to those skilled in the art. Some of them are disclosed below, for example, the GATK-like mutation identification pipeline.

«Панель данных нормальной ткани» означает набор отсеквенированных образцов здоровой ткани от группы индивидуумов. Этот набор предназначен быть репрезентативным для вариантов зародышевой линии, распространенных в популяции в целом, а также используется для обнаружения технических артефактов с целью улучшения результатов идентификации мутаций."Normal tissue data panel" means a set of sequenced healthy tissue samples from a group of individuals. This kit is intended to be representative of germline variants prevalent in the general population, and is also used to detect technical artifacts in order to improve the results of mutation identification.

«Соответствующий образец здоровой ткани» означает образец здоровой ткани того же индивидуума, включая, но не ограничивая, кровь или здоровую ткань, прилегающую к опухоли."Corresponding healthy tissue sample" means a healthy tissue sample from the same individual, including, but not limited to, blood or healthy tissue adjacent to a tumor.

Для машинного обучения с учителем необходима выборка данных для обучения. В некоторых вариантах реализации изобретения выборка обучающих данных содержит образцы секвенирования РНК опухоли с аннотированными мутациями. Аннотация подразумевает исследование статуса наличия мутации в опухоли и соответствующих образцов здоровой ткани в отдельном эксперименте или серии экспериментов для валидации истинных соматических мутаций. Если мутация обнаружена в опухоли и не обнаружена в нормальном образце, такой вариант аннотируется как истинная соматическая мутация. Если статус мутации не может быть оценен, например, из-за низкого покрытия секвенирования, такая мутация должна быть исключена из обучающей выборки данных.Supervised machine learning requires data sampling for training. In some embodiments of the invention, the training data sample contains tumor RNA sequencing samples with annotated mutations. Abstract implies the study of the status of the presence of a mutation in a tumor and corresponding samples of healthy tissue in a separate experiment or a series of experiments to validate true somatic mutations. If a mutation is found in a tumor and not found in a normal specimen, that variant is annotated as a true somatic mutation. If the status of a mutation cannot be estimated, for example, due to low sequencing coverage, such a mutation should be excluded from the training dataset.

В настоящем описании «предобучение» модели ML означает выполнение тренировки модели ML перед фактическим использованием, чтобы скорректировать предварительный профиль мутаций для вычисления TMB для образца опухоли.As used herein, “pretraining” an ML model means performing training on the ML model prior to actual use to correct the preliminary mutation profile for calculating TMB for a tumor sample.

«Отдельный эксперимент» означает любой эксперимент или серию экспериментов, необходимых для определения мутационного статуса (соматической или зародышевой линии) в опухоли. Такие эксперименты сравнивают данные, полученные из опухоли, с соответствующими образцами здоровой ткани и могут включать, но не ограничиваются, секвенирование всего генома или экзома, панель таргентного секвенирования ДНК и обнаружение полиморфизмов с помощью микрочиповой гибридизации ДНК."Separate experiment" means any experiment or series of experiments necessary to determine the mutational status (somatic or germ line) in a tumor. Such experiments compare tumor data with corresponding healthy tissue samples and may include, but are not limited to, whole genome or exome sequencing, a targeted DNA sequencing panel, and polymorphism detection by microarray DNA hybridization.

Характеристики мутаций, идентифицированных соответствующим набором программ для идентификации соматических мутаций, которые будут использоваться для обучения с учителем, могут быть получены из параметров прочтений, параметров выравнивания, контекста мутации и положения в геноме, а также из внешних аннотаций, таких как базы данных известных полиморфизмов и функциональной аннотации мутаций и т.д.Characteristics of mutations identified by an appropriate set of programs for identifying somatic mutations to be used for supervised learning can be obtained from read parameters, alignment parameters, mutation context and position in the genome, as well as from external annotations such as databases of known polymorphisms and functional annotation of mutations, etc.

Секвенирование РНК и ДНК может быть выполнено для нуклеиновых кислот, выделенных из тканей человека, хранящихся в различных условиях: свежезамороженных тканей, заархивированных тканей, фиксированных формалином и заключенных в парафиновые блоки (FFPE), тканей, хранящихся в RNAlater или другом стабилизирующем растворе, примером чего являются следующие научные публикации (Suntsova M. et al., Atlas of RNA sequencing profiles for normal human tissues. Sci Data. 2019 Apr 23;6(1):36; Hedegaard J. et al. Next-generation sequencing of RNA and DNA isolated from paired fresh-frozen and formalin-fixed paraffin-embedded samples of human cancer and normal tissue. PLoS One. 2014 May 30;9(5):e98187; Choi Y. et al. Optimization of RNA Extraction from Formalin-Fixed Paraffin-Embedded Blocks for Targeted Next-Generation Sequencing. J Breast Cancer. 2017 Dec;20(4):393-399). Эти способы включены в описание изобретения.RNA and DNA sequencing can be performed on nucleic acids isolated from human tissue stored in a variety of conditions: fresh frozen tissue, archived formalin-fixed tissue embedded in paraffin wax blocks (FFPE), tissue stored in RNAlater or other stabilizing solution, for example are the following scientific publications (Suntsova M. et al., Atlas of RNA sequencing profiles for normal human tissues. Sci Data. 2019 Apr 23; 6 (1): 36; Hedegaard J. et al. Next-generation sequencing of RNA and DNA isolated from paired fresh-frozen and formalin-fixed paraffin-embedded samples of human cancer and normal tissue.PLoS One. 2014 May 30; 9 (5): e98187; Choi Y. et al. Optimization of RNA Extraction from Formalin-Fixed Paraffin -Embedded Blocks for Targeted Next-Generation Sequencing. J Breast Cancer. 2017 Dec; 20 (4): 393-399). These methods are included in the description of the invention.

В некоторых вариантах реализации изобретения параметры алгоритма обучения с учителем могут быть установлены путем перекрестной валидации, например, 5× или 10×. После этого выполняется подбор параметров модели на тренировочной выборке данных.In some embodiments, the supervised learning algorithm parameters may be cross-validated, for example, 5 × or 10 × . After that, the selection of model parameters is performed on the training data set.

В предпочтительном варианте реализации отдельная аннотированная выборка образцов, которая не используется при первоначальном обучении (или подборе) модели, может быть сохранена в качестве дополнительной тестовой выборки для установления эффективности фильтрации. Подходящая и проверенная модель может быть использована для расчета TMB в образцах опухоли от онкопациентов.In a preferred embodiment, a separate annotated sample set that is not used in the initial training (or fit) of the model can be stored as an additional test sample to establish filtering efficiency. A suitable and validated model can be used to calculate TMB in tumor samples from cancer patients.

Известно, что разные модели ML будут основывать свои прогнозы на характеристиках (признаках) мутаций совершенно по-разному и нет единых решений. Таким образом, предварительное обучение модели ML с учителем может включать различные этапы. Например, в случае линейной регрессии можно выяснить, какие признаки принимаются моделью как важные - и модели будут присваивать более высокие по абсолютной величине коэффициенты таким признакам. Для нейронных сетей очень трудно определить важность каждой характеристики. Существуют специальные методы для объяснения поведения обученной нейронной сети. Как правило, для проведения предобучения требуется только набор данных для секвенирования РНК с правильно помеченными состояниями мутации (такие как, ИСТИННАЯ или ЛОЖНАЯ), и тогда каждая модель ML будет выявлять важные для классификации признаки в своем собственном стиле. В некоторых вариантах реализации изобретения для всех категориальных признаков мутации (когда переменная принимает не числовые значения, а, например, типы мутаций A-> T, G-> A и т.д.), метод one hot encoding используется для кодирования функций.It is known that different ML models will base their predictions on the characteristics (signs) of mutations in completely different ways and there are no single solutions. Thus, preliminary supervised learning of the ML model can include various stages. For example, in the case of linear regression, you can find out which features are accepted by the model as important - and the models will assign higher coefficients in absolute value to such features. It is very difficult for neural networks to determine the importance of each characteristic. There are special methods for explaining the behavior of a trained neural network. Typically, pre-training requires only a set of RNA sequencing datasets with correctly labeled mutation states (such as TRUE or FALSE), and then each ML model will identify important features for classification in its own style. In some embodiments of the invention, for all categorical features of the mutation (when the variable takes not numeric values, but, for example, types of mutations A-> T, G-> A, etc.), the one hot encoding method is used to encode the functions.

В некоторых вариантах реализации изобретения перекрестная проверка параметров модели ML может быть выполнена следующим образом. Для выбора гиперпараметров модели ML используется классический метод разделения известного маркированного набора данных на три выборки: обучающую, тестовую и проверочную. Меньшая часть обычно откладывается для использования в качестве проверочной выборки. Большая часть делится на k частей, обычно 5 или 10, в зависимости от объема данных. Затем данные для обучения генерируются различными способами из k-1 таких частей, а оставшаяся k-я часть преобразуется в тестовую выборку. Используя этот метод кросс-валидации, можно определить точные гиперпараметры. На последнем этапе выбранная модель проверяется с использованием проверочной выборки.In some embodiments of the invention, the cross-validation of the parameters of the ML model can be performed as follows. To select the hyperparameters of the ML model, the classical method of dividing the known labeled dataset into three samples is used: training, test, and validation. A smaller portion is usually set aside for use as a test sample. Most are divided into k parts, usually 5 or 10, depending on the amount of data. Then the training data is generated in various ways from k-1 such parts, and the remaining k-th part is transformed into a test sample. Using this cross-validation technique, you can determine the exact hyperparameters. In the last step, the selected model is validated using a test sample.

В некоторых вариантах реализации изобретения предлагаются способы расчета мутационной нагрузки опухоли на мегабазу (TMB) в образцах секвенирования РНК. Подход основан на модификации стандартного набора программ для идентификации мутаций на данных секвенирования только-опухолевой РНК с дополнительным этапом фильтрации после идентификации. Фильтрация выполняется с помощью ML модели, обученной на данных секвенирования РНК, в которых наличие соматических мутаций установлено с использованием альтернативной технологии, включающей исследование статуса мутаций в опухоли и здоровых тканях. Чтобы полностью понять, как модель ML может быть обучена и реализована, эта заявка будет описывать изобретение в контексте использования модели XGBoost (T. Chen, C. Guestrin. XGBoost: a scalable tree boosting system. ArXiv, 1603 (2016). arXiv:1603.02754) и модели случайных деревьев (A. Liaw and M. Wiener (2002). Classification and Regression by randomForest. R News 2(3), 18-22) для фильтрации мутаций RNAseq. Примеры расчета TMB приведены ниже для раскрытия характеристик данного изобретения, и их никоим образом не следует рассматривать как ограничивающие объем изобретения. Следует понимать, что другие модели ML могут быть успешно обучены и использованы в различных вариантах реализации изобретения.In some embodiments, methods are provided for calculating tumor mutation load per megabase (TMB) in RNA sequencing samples. The approach is based on the modification of a standard set of programs for identification of mutations on sequencing data of tumor RNA only with an additional stage of filtration after identification. Filtration is performed using an ML model trained on RNA sequencing data, in which the presence of somatic mutations was established using an alternative technology, including the study of the status of mutations in tumors and healthy tissues. To fully understand how an ML model can be trained and implemented, this application will describe the invention in the context of using the XGBoost model (T. Chen, C. Guestrin. XGBoost: a scalable tree boosting system. ArXiv, 1603 (2016). ArXiv: 1603.02754 ) and random tree models (A. Liaw and M. Wiener (2002). Classification and Regression by randomForest. R News 2 (3), 18-22) for filtering RNAseq mutations. Examples of calculating TMB are provided below to illustrate the characteristics of the present invention and should in no way be construed as limiting the scope of the invention. It should be understood that other ML models can be successfully trained and used in various embodiments of the invention.

Примерами таких моделей ML являются линейная регрессия, логистическая регрессия, нейронные сети (Перцептрон, Многослойный перцептрон (MLP), метод обратного распространения ошибки, стохастический градиентный спуск, сеть Хопфилда, сеть радиально-базисных функций (RBFN)), алгоритмы глубокого обучения (свёрточные нейронные сети (CNN), рекуррентные нейронные сети (RNNs), сети долгой краткосрочной памяти (LSTMs), авто-энкодеры, машина Больцмана (DBM), глубокие сети доверия (DBN)), методы решающих деревьев (деревья классификации и доверия (CART), итеративный дихотомайзер 3 (ID3), C4.5 и C5.0 (различные его версии), Хи-квадратичная автоматическая детекция взаимодействий (CHAID), Decision Stump, модель M5, условные решающие деревья), метод опорных векторов (SVM), сети векторного квантования, обучаемые с учителем (LVQ), самоорганизующаяся карта Кохонена (SOM), локально взвешенное обучение (LWL), метод случайного леса, Гауссовские процессы, стохастический градиентный спуск, метод оценивания коэффициентов линейной регрессионной модели (LASSO), эластичная сеть с наименьшим углом регрессии (LARS), ridge регрессия, Баесовские алгоритмы (наивный байес, гауссовский наивный байес, мультиномиальный наивный байес, усредненные оценщики с одной зависимостью (AODE), байесовские сети доверия (BBN), байесовская сеть (BN)), метод k-ближайших соседей, алгоритмы понижения размерности (метод главных компонент (PCA), регрессия главных компонент (PCR), регрессия частично наименьших квадратов (PLSR), Sammon Mapping, метод многомерного шкалирования (MDS), поиска наилучшей проекции, линейных дискриминантный анализ (LDA), дискриминантный анализ смеси (MDA), квадратичный дискриминантный анализ (QDA), гибкий дискриминантный анализ (FDA)), градиентный бустинг (например, GBM, XGBoost, LightGBM, CatBoost), ансамбльные методы (e.g. AdaBoost, Weighted Average, Bootstrapped Aggregation) и другие.Examples of such ML models are linear regression, logistic regression, neural networks (Perceptron, Multilayer Perceptron (MLP), backpropagation method, stochastic gradient descent, Hopfield network, radial basis function network (RBFN)), deep learning algorithms (convolutional neural networks (CNN), recurrent neural networks (RNNs), long short term memory networks (LSTMs), auto-encoders, Boltzmann machine (DBM), deep trust networks (DBN)), decision tree methods (classification and trust trees (CART), iterative dichotomizer 3 (ID3), C4.5 and C5.0 (various versions), Chi-square automatic interaction detection (CHAID), Decision Stump, M5 model, conditional decision trees), support vector machine (SVM), vector networks supervised quantization (LVQ), self-organizing Kohonen map (SOM), locally weighted learning (LWL), random forest method, Gaussian processes, stochastic gradient descent, coefficient estimation method linear regression model (LASSO), Least Angle Regression Elastic Network (LARS), ridge regression, Bayesian algorithms (Naive Bayes, Gaussian Naive Bayes, Multinomial Naive Bayes, Averaged Single Dependency Estimators (AODE), Bayesian Trust Networks , Bayesian Network (BN)), k-nearest neighbors, dimensionality reduction algorithms (principal component analysis (PCA), principal component regression (PCR), partial least squares regression (PLSR), Sammon Mapping, multidimensional scaling (MDS), best projection search, linear discriminant analysis (LDA), mixture discriminant analysis (MDA), quadratic discriminant analysis (QDA), flexible discriminant analysis (FDA)), gradient boosting (e.g. GBM, XGBoost, LightGBM, CatBoost), ensemble methods ( eg AdaBoost, Weighted Average, Bootstrapped Aggregation) and others.

Пример 1. Расчет TMB в 119 образцах секвенирования РНК. Example 1. Calculation of TMB in 119 RNA sequencing samples.

Для расчета TMB с использованием данных РНК-секвенирования (RNAseq) и сравнения их с данными WES, 119 случаев пяти различных типов рака (аденокарцинома толстой кишки, мультиформная глиобластома, аденокарцинома легкого, меланома кожи и аденокарцинома желудка) из базы данных The Cancer Genome Atlas (TCGA) были проанализированы. TCGA - это база генетических данных онкопациентов, в которой содержатся результаты молекулярного профилирования более 20 000 онкопациентов и соответствующих нормальных образцов, охватывающая 33 типа рака (Cancer Genome Atlas Research Network, Weinstein JN, Collisson EA, et al., The Cancer Genome Atlas Pan-Cancer analysis project. Nat Genet. 2013 Oct;45(10):1113-20.). Данные WES и RNAseq для каждого случая идентифицированных мутаций были проанализированы, как описано ниже. 19 образцов были использованы для обучения модели ML, в то время как 100 были использованы для проверки модели.To calculate TMB using RNA sequencing data (RNAseq) and compare them with WES data, 119 cases of five different types of cancer (colon adenocarcinoma, glioblastoma multiforme, lung adenocarcinoma, skin melanoma and gastric adenocarcinoma) from The Cancer Genome Atlas ( TCGA) were analyzed. TCGA is a cancer patient genetic database containing molecular profiling results from over 20,000 cancer patients and corresponding normal specimens, covering 33 types of cancer (Cancer Genome Atlas Research Network, Weinstein JN, Collisson EA, et al., The Cancer Genome Atlas Pan- Cancer analysis project Nat Genet 2013 Oct; 45 (10): 1113-20.). The WES and RNAseq data for each case of identified mutations were analyzed as described below. 19 samples were used to train the ML model, while 100 were used to validate the model.

Таблица 1. Свежезамороженные биологические образцы TCGA, использованные для обучения и проверки модели XGBoost для фильтрации мутаций RNAseq.Table 1. Fresh frozen TCGA biological samples used to train and validate the XGBoost model for filtering RNAseq mutations.

TCGA код тканиTCGA fabric code Тип ракаCancer type Код локализацииLocalization code Количество пациентовNumber of patients COADCOAD Аденокарцинома толстой кишкиColon adenocarcinoma 3L3L 11 COADCOAD Аденокарцинома толстой кишкиColon adenocarcinoma 4N4N 11 COADCOAD Аденокарцинома толстой кишкиColon adenocarcinoma 4T4T 11 COADCOAD Аденокарцинома толстой кишкиColon adenocarcinoma 5M5M 55 COADCOAD Аденокарцинома толстой кишкиColon adenocarcinoma A6A6 2323 GBMGBM ГлиобластомаGlioblastoma 0202 22 GBMGBM ГлиобластомаGlioblastoma 0606 1717 LUADLUAD Аденокарцинома легкогоLung adenocarcinoma 0505 20twenty LUADLUAD Аденокарцинома легкогоLung adenocarcinoma 4444 10ten SKCMSKCM МеланомаMelanoma 3N3N 33 SKCMSKCM МеланомаMelanoma BFBf 1717 STADSTAD Аденокарцинома желудкаAdenocarcinoma of the stomach B7B7 44 STADSTAD Аденокарцинома желудкаAdenocarcinoma of the stomach BRBR 1515

Образцы данных были загружены с портала GDC (https://portal.gdc.cancer.gov/). Все полученные файлы bam были конвертированы в формат fastq с помощью инструммента Picard v2.18.17 SamToFastq (http://broadinstitute.github.io/picard), с последующим выравниванием и идентификацией мутаций.Sample data were downloaded from the GDC portal (https://portal.gdc.cancer.gov/). All the resulting bam files were converted to fastq format using the Picard v2.18.17 SamToFastq tool (http://broadinstitute.github.io/picard), followed by alignment and mutation identification.

Для данных RNAseq использовался GATK-подобный пайплайн идентификации мутаций (Фиг. 1). GATK относится к Genome Analysis ToolKit (Van der Auwera GA, Carneiro MO, et al., From FastQ data to high confidence variant calls: the Genome Analysis Toolkit best practices pipeline. Curr Protoc Bioinformatics. 2013;43:11.10.1-11.10.33), разработан организацией Broad Institute (broadinstitute.org) и содержит несколько модулей для обработки данных NGS. Прочтения были выравнены на 38 версию генома человека с помощью программного обеспечения STAR v2.6.1d в режиме 2-PASS (Dobin et al. STAR: ultrafast universal RNA-seq aligner. Bioinformatics. 2013 Jan; 29(1): 15-21). Параметрами не по умолчанию были: sjdbOverhang 100, twopass1readsN 10000000, twopassMode Basic. Координаты экзонов были взяты из аннотации Ensembl версии 89. Samtools v1.3.1 использовался для индексации bam (Li H., Handsaker B., Wysoker A., et al., 1000 Genome Project Data Processing Subgroup. The Sequence alignment/map (SAM) format and SAMtools. Bioinformatics. 2009 Aug 15;25(16):2078-9). Редактирование информации о группе прочтений (все прочтения были присвоены к одной группе) и маркировка дубликатов выполнялась с помощью Picard (http://broadinstitute.github.io/picard) AddOrReplaceReadGroups и MarkDuplicatesRead, соответственно. GATK v3.8.0 SplitNCigarReads модуль использовался для отделения прочтений, которые выравнивались на регионы альтернативного сплайсинга, а ReassignOneMappingQuality использовался для обеспечения совместимости качества выравнивания STAR с последующим анализом. Повторная калибровка показателя качества оснований была выполнена с помощью модулей GATK v4.beta.1 BaseRecalibrator и ApplyBQSR. Для идентификации мутации был использован GATK4 Mutect2 (Cibulskis K, Lawrence MS, et al. Sensitive detection of somatic point mutations in impure and heterogeneous cancer samples. Nat Biotechnol. 2013 Mar;31(3):213-9) в только-опухолевом (tumor-only) режиме с базой данных генетических вариантов dbSNP версии 146 (Sherry ST, Ward MH, et al., dbSNP: the NCBI database of genetic variation. Nucleic Acids Res. 2001 Jan 1;29(1):308-11) и базой данных Mills, содержащей стандартные инсерции и делеции найденные в рамках проекта 1000 геномов (Mills RE, Luttig CT, et al., An initial map of insertion and deletion (INDEL) variation in the human genome. Genome Res. 2006 Sep;16(9):1182-90). Панель норм не использовалась. Варианты идентифицировались только в экзонах (по аннотации GENCODE (Frankish A, Diekhans M, et al. GENCODE reference annotation for the human and mouse genomes. Nucleic Acids Res. 2019 Jan 8;47(D1):D766-D773), только хромосомы 1-22, X и Y) и параметр PCR_indel_model был установлен на «HOSTILE». Варианты были отфильтрованы с помощью GATK4 FilterMutectCalls (все варианты хранятся в VCF, редактируется только поле «FILTER»). Влияние мутаций на последовательность белка было аннотировано с использованием программного обеспечения annovar (Wang K, Li M, Hakonarson H. ANNOVAR: functional annotation of genetic variants from high-throughput sequencing data. Nucleic Acids Res. 2010 Sep;38(16):e164). Для ExAC (Lek M. et al. Analysis of protein-coding genetic variation in 60,706 humans. Nature. 2016 Aug 18;536(7616):285-91) аннотации, была использована часть, не содержащая нормальных тканей TCGA, и, следовательно, не включающая варианты зародышевой линии, обнаруженные у пациентов из TCGA. Все три- или более аллельных сайтов были исключены из дальнейшего анализа.For the RNAseq data, a GATK-like mutation identification pipeline was used (FIG. 1). GATK refers to the Genome Analysis ToolKit (Van der Auwera GA, Carneiro MO, et al., From FastQ data to high confidence variant calls: the Genome Analysis Toolkit best practices pipeline. Curr Protoc Bioinformatics. 2013; 43: 11.10.1-11.10. 33), developed by the Broad Institute (broadinstitute.org) and contains several modules for processing NGS data. Reads were aligned to version 38 of the human genome using STAR v2.6.1d software in 2-PASS mode (Dobin et al. STAR: ultrafast universal RNA-seq aligner. Bioinformatics. 2013 Jan; 29 (1): 15-21) ... The non-default parameters were: sjdbOverhang 100, twopass1readsN 10000000, twopassMode Basic. Exon coordinates were taken from Ensembl annotation version 89. Samtools v1.3.1 was used for bam indexing (Li H., Handsaker B., Wysoker A., et al., 1000 Genome Project Data Processing Subgroup. The Sequence alignment / map (SAM) format and SAMtools Bioinformatics 2009 Aug 15; 25 (16): 2078-9). Editing read group information (all reads were assigned to the same group) and marking duplicates was done using Picard (http://broadinstitute.github.io/picard) AddOrReplaceReadGroups and MarkDuplicatesRead, respectively. The GATK v3.8.0 SplitNCigarReads module was used to separate reads that were aligned to the alternative splicing regions, and the ReassignOneMappingQuality was used to ensure compatibility of STAR alignment quality with subsequent analysis. Re-calibration of the base quality index was performed using the GATK v4.beta.1 BaseRecalibrator and ApplyBQSR modules. GATK4 Mutect2 (Cibulskis K, Lawrence MS, et al. Sensitive detection of somatic point mutations in impure and heterogeneous cancer samples. Nat Biotechnol. 2013 Mar; 31 (3): 213-9) in tumor-only ( tumor-only) mode with dbSNP version 146 genetic variants database (Sherry ST, Ward MH, et al., dbSNP: the NCBI database of genetic variation.Nucleic Acids Res. 2001 Jan 1; 29 (1): 308-11) and the Mills database containing standard insertions and deletions found in the 1000 genomes project (Mills RE, Luttig CT, et al., An initial map of insertion and deletion (INDEL) variation in the human genome. Genome Res. 2006 Sep; 16 (9): 1182-90). The norms panel was not used. Variants were identified only in exons (according to the GENCODE annotation (Frankish A, Diekhans M, et al. GENCODE reference annotation for the human and mouse genomes. Nucleic Acids Res. 2019 Jan 8; 47 (D1): D766-D773), only chromosomes 1 -22, X and Y) and the PCR_indel_model parameter was set to "HOSTILE". Variants were filtered using GATK4 FilterMutectCalls (all variants are stored in VCF, only the FILTER field is editable). The effect of mutations on the protein sequence was annotated using the annovar software (Wang K, Li M, Hakonarson H. ANNOVAR: functional annotation of genetic variants from high-throughput sequencing data.Nucleic Acids Res. 2010 Sep; 38 (16): e164) ... For the ExAC (Lek M. et al. Analysis of protein-coding genetic variation in 60,706 humans. Nature. 2016 Aug 18; 536 (7616): 285-91) annotations, a portion containing no TCGA normal tissues was used, and therefore not including germline variants found in TCGA patients. All three or more allelic sites were excluded from further analysis.

Для анализа данных WES использовался GATK-подобный пайплайн идентификации соматических мутаций (Фиг.1). Чтения были картированы на 38 версию генома человека с помощью программного обеспечения BWA mem v0.7.17. (Li H, Durbin R. Fast and accurate long-read alignment with Burrows-Wheeler transform. Bioinformatics. 2010 Mar 1;26(5):589-95). Параметры не по умолчанию были: -k 15, -r 2. Преобразование файлов sam в bam и сортировка файлов bam выполнялись с помощью программного обеспечения samtools (Li H., Handsaker B., Wysoker A., Fennell T., Ruan J., Homer N., Marth G., Abecasis G., Durbin R. and 1000 Genome Project Data Processing Subgroup. The Sequence alignment/map (SAM) format and SAMtools. Bioinformatics. 2009 Aug 15;25(16):2078-9). Остальные этапы предварительной обработки были идентичны шагам для данных RNAseq, за исключением пропущенных шагов редактирования качества прочтения и картрирования. Для идентификации мутаций, GATK4 Mutect2 (Cibulskis K, Lawrence MS et al. Sensitive detection of somatic point mutations in impure and heterogeneous cancer samples. Nat Biotechnol. 2013 Mar;31(3):213-9) использовали одновременно для опухолевых и соответствующих нормальных образцов с использованием тех же баз данных dbSNP и инсерций, делеций, что и для RNAseq. Последующие этапы постобработки включали фильтрацию GATK4 FilterMutectCalls и аннотацию annovar. Все три- или более аллельных сайтов были исключены из дальнейшего анализа. Для управления параллельными вычислительными задачами использовалось программное обеспечение GNU parallel (Tange, O. GNU Parallel-the command-line power tool. USENIX. 2011; 36, 42-47).To analyze the WES data, a GATK-like pipeline for the identification of somatic mutations was used (Figure 1). The readings were mapped to version 38 of the human genome using the BWA mem v0.7.17 software. (Li H, Durbin R. Fast and accurate long-read alignment with Burrows-Wheeler transform. Bioinformatics. 2010 Mar 1; 26 (5): 589-95). The non-default options were: -k 15, -r 2. Converting sam files to bam and sorting bam files were done using samtools software (Li H., Handsaker B., Wysoker A., Fennell T., Ruan J., Homer N., Marth G., Abecasis G., Durbin R. and 1000 Genome Project Data Processing Subgroup. The Sequence alignment / map (SAM) format and SAMtools. Bioinformatics. 2009 Aug 15; 25 (16): 2078-9) ... The rest of the preprocessing steps were identical to those for RNAseq data, except for the omitted read quality editing and mapping steps. To identify mutations, GATK4 Mutect2 (Cibulskis K, Lawrence MS et al. Sensitive detection of somatic point mutations in impure and heterogeneous cancer samples. Nat Biotechnol. 2013 Mar; 31 (3): 213-9) was used simultaneously for tumor and corresponding normal samples using the same dbSNP and insertion / deletion databases as for RNAseq. Subsequent post-processing steps included GATK4 FilterMutectCalls filtering and annovar annotation. All three or more allelic sites were excluded from further analysis. To control parallel computing tasks, the GNU parallel software was used (Tange, O. GNU Parallel-the command-line power tool. USENIX. 2011; 36, 42-47).

Для обработки данных ДНК и РНК могут использоваться и другие наборы программ для идентификации мутаций, например: FreeBayes (E. Garrison, Marth G. Haplotype-based variant detection from short-read sequencing (2012) arXiv preprint arXiv:12073907), SAMtools (H. Li. A statistical framework for SNP calling, mutation discovery, association mapping and population genetical parameter estimation from sequencing data. Bioinformatics, 27 (21) (2011), pp. 2987-2993), Platypus (A. Rimmer, H. Phan, I. Mathieson, Z. Iqbal, S.R. Twigg, A.O. Wilkie, et al., Integrating mapping-, assembly-and haplotype-based approaches for calling variants in clinical sequencing applications Nat Genet, 46 (8) (2014), pp. 912-918), SNVSniffer (Y. Liu, M. Loewer, S. Aluru, Schmidt B. SNVSniffer: an integrated caller for germline and somatic single-nucleotide and indel mutations BMC Syst Biol, 10 (2) (2016), p. 47), VarScan2 (D.C. Koboldt, Q. Zhang, D.E. Larson, D. Shen, M.D. McLellan, L. Lin, et al. Varscan 2: somatic mutation and copy number alteration discovery in cancer by exome sequencing. Genome Res, 22 (3) (2012), pp. 568-576) и другие, например, представленные в (C. Xu. A review of somatic single nucleotide variant calling algorithms for next-generation sequencing data. Comput Struct Biotechnol J. 2018 Feb 6;16:15-24).To process DNA and RNA data, other sets of programs for identification of mutations can also be used, for example: FreeBayes (E. Garrison, Marth G. Haplotype-based variant detection from short-read sequencing (2012) arXiv preprint arXiv: 12073907), SAMtools (H Li. A statistical framework for SNP calling, mutation discovery, association mapping and population genetical parameter estimation from sequencing data. Bioinformatics, 27 (21) (2011), pp. 2987-2993), Platypus (A. Rimmer, H. Phan , I. Mathieson, Z. Iqbal, SR Twigg, AO Wilkie, et al., Integrating mapping-, assembly-and haplotype-based approaches for calling variants in clinical sequencing applications Nat Genet, 46 (8) (2014), pp. 912-918), SNVSniffer (Y. Liu, M. Loewer, S. Aluru, Schmidt B. SNVSniffer: an integrated caller for germline and somatic single-nucleotide and indel mutations BMC Syst Biol, 10 (2) (2016), p 47), VarScan2 (DC Koboldt, Q. Zhang, DE Larson, D. Shen, MD McLellan, L. Lin, et al. Varscan 2: somatic mu tation and copy number alteration discovery in cancer by exome sequencing. Genome Res, 22 (3) (2012), pp. 568-576) and others, for example, presented in (C. Xu. A review of somatic single nucleotide variant calling algorithms for next-generation sequencing data. Comput Struct Biotechnol J. 2018 Feb 6; 16: 15-24).

Для ML фильтрации были выбраны 32 признака, такие как покрытие референсного аллеля, медианное качество оснований или число событий в гаплотипе. Из них 24 параметра были взяты непосредственно из выходного файла VCF Mutect2, а одна была получена из аннотации VCF с базой данных ExAC. Другие 7 параметров были построены с использованием данных из выходного VCF Mutect2: 4 логических параметра, указывающих является ли мутация (1) инсерцией, (2) делецией, (3) заменой C-> T (G-> A), (4) заменой C-> A (G-> T) и 3 численных параметра: (5) покрытие, и (6-7) длина инсерции/делеции.For ML filtering, 32 traits were selected, such as coverage of the reference allele, median base quality, or the number of events in a haplotype. Of these, 24 parameters were taken directly from the VCF Mutect2 output file, and one was obtained from the VCF annotation with the ExAC database. The other 7 parameters were plotted using data from the output VCF Mutect2: 4 boolean parameters indicating whether the mutation is (1) an insertion, (2) a deletion, (3) a C-> T (G-> A) substitution, (4) a substitution C-> A (G-> T) and 3 numerical parameters: (5) coverage, and (6-7) insertion / deletion length.

Обучающий набор данных использовался для обучения модели XGBoost (T. Chen, C. Guestrin. XGBoost: a scalable tree boosting system. ArXiv, 1603 (2016). arXiv:1603.02754). Гиперпараметры модели были выбраны во время серии рандомизированных поисков по сетке. Были установлены следующие параметры: learning_rate, n_estimators, min_child_weight, gamma, subsample, colsample_bytree, max_depth, reg_alpha, reg_lambda; среди них первые два имели наибольший вес. Кросс-валидация была 5-кратной, и ROC AUC использовался в качестве метрики для выбора гиперпараметров.The training dataset was used to train the XGBoost model (T. Chen, C. Guestrin. XGBoost: a scalable tree boosting system. ArXiv, 1603 (2016). ArXiv: 1603.02754). The model's hyperparameters were selected during a series of randomized grid searches. The following parameters were set: learning_rate, n_estimators, min_child_weight, gamma, subsample, colsample_bytree, max_depth, reg_alpha, reg_lambda; among them, the first two had the greatest weight. Cross-validation was 5-fold and ROC AUC was used as a metric for hyperparameter selection.

Набор обучающих данных также использовался для обучения модели случайного леса (A. Liaw and M. Wiener (2002). Classification and Regression by randomForest. R News 2(3), 18-22) с 20 деревьями. Могут быть использованы другие модели машинного обучения с учителем (ML).The training dataset was also used to train a random forest model (A. Liaw and M. Wiener (2002). Classification and Regression by randomForest. R News 2 (3), 18-22) with 20 trees. Other supervised machine learning (ML) models can be used.

Во-первых, были сравнены TMB в WES и TMB в регионах WES, также покрытых в RNAseq (Фиг. 2). Это было сделано для оценки максимально возможной прогностической эффективности RNAseq. TMB, рассчитанный с использованием мутаций на основе WES в областях, покрытых в RNAseq, сильно коррелирует с TMB, рассчитанным для полного набора данных WES (Коэффициент корреляции Пирсона=0.88, P-значение<2e-16).First, the TMB in WES and TMB in the WES regions also covered in RNAseq were compared (Fig. 2). This was done to evaluate the best possible predictive performance of RNAseq. The TMB calculated using WES-based mutations in the areas covered in RNAseq is strongly correlated with the TMB calculated for the full WES dataset (Pearson's correlation coefficient = 0.88, P-value <2e-16).

Эффективность фильтрации данных RNAseq оценивалась с использованием программного обеспечения Mutect2 с настройками по умолчанию (Фиг. 3, Коэффициент корреляции Пирсона=0.09, P-значение=0.359) и настройками по умолчанию в сочетании с фильтрацией вариантов зародышевой линии из не-TCGA подмножества базы данных ExAC (Фиг. 4, Коэффициент корреляции Пирсона=0.5, P-значение=3.09e-6). Была рассчитана корреляция TMB (RNAseq с фильтрацией XGBoost) с TMB (WES) (Фиг. 5, Коэффициент корреляции Пирсона=0.67, P-значение=0.000165). Также была вычислена корреляция TMB (RNAseq с фильтрацией методом случайного леса) с TMB (WES) (Фиг. 6, Коэффициент корреляции Пирсона=0.82, P-значение=2e-16). Оказалось, что фильтрация с помощью ML модели значительно превосходила наивную (стандартную) фильтрацию в оценке TMB.Filtering performance of RNAseq data was evaluated using Mutect2 software with default settings (Fig. 3, Pearson's correlation coefficient = 0.09, P-value = 0.359) and default settings, combined with filtering germline variants from the non-TCGA subset of the ExAC database (Fig. 4, Pearson correlation coefficient = 0.5, P-value = 3.09e-6). The correlation of TMB (RNAseq with XGBoost filtering) with TMB (WES) was calculated (Fig. 5, Pearson correlation coefficient = 0.67, P-value = 0.000165). The correlation of TMB (RNAseq with random forest filtering) with TMB (WES) was also calculated (Fig. 6, Pearson correlation coefficient = 0.82, P-value = 2e-16). It turned out that filtering using the ML model was significantly superior to naive (standard) filtering in the TMB assessment.

Кроме того, было проверена прогностическая эффективность TMB на основе RNAseq с использованием расчета площади под ROC кривой (AUC) в тех же группах сравнения, как описано выше. Для этого использовали наиболее распространенные пороги для данных WES (TMB >6, >10 и >20, соответсвенно (Stenzinger A. et al. Tumor mutational burden standardization initiatives: Recommendations for consistent tumor mutational burden assessment in clinical samples to guide immunotherapy treatment decisions. 2019 Aug;58(8):578-588) и вычислили, является ли TMB из соответствующего профиля RNAseq предиктором TMB по WES. Было обнаружено, что подход, основанный на ML, превосходил фильтрацию по ExAC и наивную фильтрацию и может использоваться для надежной оценки TMB для всех вышеупомянутых порогов с AUC> 0,86 (таблица 2).In addition, the predictive efficacy of TMB based on RNAseq was tested using the calculation of the area under the ROC curve (AUC) in the same comparison groups as described above. For this, the most common thresholds for the WES data were used (TMB> 6,> 10 and> 20, respectively (Stenzinger A. et al. Tumor mutational burden standardization initiatives: Recommendations for consistent tumor mutational burden assessment in clinical samples to guide immunotherapy treatment decisions. 2019 Aug; 58 (8): 578-588) and calculated whether TMB from the corresponding RNAseq profile is a predictor of TMB by WES.The ML-based approach was found to be superior to ExAC filtering and naive filtering and can be used for reliable estimation TMB for all of the above thresholds with AUC> 0.86 (Table 2).

Таблица 2. Значения ROC AUC для прогнозирования TMB (пороговые значения: > 6,> 10 и > 20) в WES с использованием данных RNAseq.Table 2. ROC AUC values for TMB prediction (thresholds:> 6,> 10 and> 20) in WES using RNAseq data.

Метод фильтрацииFiltration method TMB >6TMB> 6 TMB >10TMB> 10 TMB >20TMB> 20 WES мутации, покрытые в RNAseq данных WES mutations covered in RNAseq data 0.9770.977 0.9620.962 0.9340.934 Стандартная фильтрация идентификатора вариантовVariant ID Filtering Standard 0.5160.516 0.5510.551 0.6600.660 Стандартная фильтрация идентификатора вариантов + исключение мутаций из базы экзомных данных ExAC (не-TCGA подмножество)Standard Variant ID filtering + mutation exclusion from the ExAC exome database (non-TCGA subset) 0.6560.656 0.7230.723 0.790.79 Oncobox ML-фильтрация с использованием XGBoost методаOncobox ML filtering using XGBoost method 0.8990.899 0.8630.863 0.9590.959 Oncobox ML-фильтрация с использованием метода случайных деревьевOncobox ML filtering using random tree method 0.9110.911 0.8850.885 0.9540.954

Пример 2. Расчет TMB по данным секвенирования РНК в 50 образцах, фиксированных в формалине и заключенных в парафиновые блоки (FFPE). Example 2. Calculation of TMB from RNA sequencing data in 50 samples fixed in formalin and embedded in paraffin blocks (FFPE).

Чтобы рассчитать TMB с использованием данных РНК-секвенирования (RNAseq) и сравнить его с данными WES, были проанализированы 50 пациентов восьми различных типов рака (рак мочевого пузыря, инвазивный рак молочной железы, плоскоклеточный рак шейки матки и аденокарцинома шейки матки, аденокарцинома толстой кишки, почечно-клеточный рак, аденокарцинома легкого, аденокарцинома предстательной железы и рак эндометрия матки) с данными RNAseq, доступными для фиксированных в формалине и заключенных в парафиновые блоки (FFPE) образцов в базе данных The Cancer Genome Atlas (TCGA) (Таблица 3).To calculate TMB using RNA sequencing data (RNAseq) and compare it with WES data, 50 patients of eight different types of cancer were analyzed (bladder cancer, invasive breast cancer, cervical squamous cell carcinoma and cervical adenocarcinoma, colon adenocarcinoma, renal cell carcinoma, lung adenocarcinoma, prostate adenocarcinoma and uterine endometrial cancer) with RNAseq data available for formalin-fixed paraffin-embedded paraffin-embedded (FFPE) specimens in The Cancer Genome Atlas (TCGA) database (Table 3).

TCGA - это база генетических данных онкопациентов, в которой содержатся результаты молекулярного профилирования более 20 000 онкопациентов и соответствующих нормальных образцов, охватывающая 33 типа рака (Cancer Genome Atlas Research Network, Weinstein JN, Collisson EA, et al., The Cancer Genome Atlas Pan-Cancer analysis project. Nat Genet. 2013 Oct;45(10):1113-20). Данные WES и RNAseq для каждого случая идентифицированных соматических мутаций для 27 образцов были использованы для обучения модели ML, в то время как 23 были использованы для проверки модели. TCGA is a cancer patient genetic database containing molecular profiling results from over 20,000 cancer patients and corresponding normal specimens, covering 33 types of cancer (Cancer Genome Atlas Research Network, Weinstein JN, Collisson EA, et al., The Cancer Genome Atlas Pan- Cancer analysis project Nat Genet 2013 Oct; 45 (10): 1113-20). The WES and RNAseq data for each case of identified somatic mutations for 27 samples were used to train the ML model, while 23 were used to validate the model.

Таблица 3. Биологические образцы TCGA FFPE, используемые для обучения и проверки модели XGBoost для фильтрации мутаций, идентифицированных из данных RNAseq.Table 3. TCGA FFPE biological samples used to train and validate the XGBoost model for filtering mutations identified from RNAseq data.

TCGA код тканиTCGA fabric code Тип ракаCancer type Код локализацииLocalization code Количество пациентовNumber of patients BLCABLCA Рак мочевого пузыряBladder cancer BLBL 33 BRCABRCA Рак молочной железыMammary cancer A7A7 77 BRCABRCA Рак молочной железыMammary cancer ACAC 22 BRCABRCA Рак молочной железыMammary cancer PLPL 44 CESCCESC Плоскоклеточный рак шейки матки и эндоцервикальная аденокарциномаSquamous cell carcinoma of the cervix and endocervical adenocarcinoma PNPN 11 COADCOAD Аденокарцинома толстой кишкиColon adenocarcinoma A6A6 1313 KIRCKIRC Почечно-клеточная карциномаRenal cell carcinoma B2B2 22 LUADLUAD Аденокарцинома легкогоLung adenocarcinoma 4444 1212 PRADPRAD Аденокарцинома простатыAdenocarcinoma of the prostate HCHC 22 UCECUCEC Карцинома эндометрия маткиEndometrial carcinoma of the uterus BKBK 44

Анализ RNAseq и WES, а также ML фильтрация были проведены аналогично Примеру 1. RNAseq and WES analysis as well as ML filtration were performed in the same manner as in Example 1.

В случае образцов FFPE TMB, рассчитанный с использованием мутаций на основе WES в областях, покрытых RNAseq, сильно коррелирует с TMB, рассчитанным для полного набора данных WES (Фиг. 7, коэффициент корреляции Пирсона = 0,82, P-значение = 3,97e-7).In the case of FFPE samples, TMB calculated using WES-based mutations in areas covered by RNAseq strongly correlates with TMB calculated for the full WES dataset (Fig. 7, Pearson correlation coefficient = 0.82, P-value = 3.97e -7).

Эффективность фильтрации данных RNAseq оценивалась с использованием программного обеспечения Mutect2 с настройками по умолчанию. (Cibulskis K, Lawrence MS, Carter SL, Sivachenko A, Jaffe D, Sougnez C, et al. Sensitive detection of somatic point mutations in impure and heterogeneous cancer samples. Nat Biotechnol. 2013 Mar;31(3):213-9) (Фиг. 8, коэффициент корреляции Пирсона = 0.26, P-значение=0.207) и с настройками по умолчанию в сочетании с фильтрацией вариантов зародышевой линии из не-TCGA подмножества ExAC (Lek M. et al. Analysis of protein-coding genetic variation in 60,706 humans. Nature. 2016 Aug 18;536(7616):285-91) (Фиг. 9, Коэффициент корреляции Пирсона=0.45, P-значение=0.0211). Была посчитана корреляция TMB (RNAseq с XGBoost фильтрацией) с TMB (WES) (Фиг. 10, Коэффициент корреляции Пирсона=0.74, P-значение=1.68e-5). Так же была вычислена корреляция TMB (RNAseq с фильтрацией по методу случайных деревьев) с TMB (WES) (Фиг. 11, Коэффициент корреляции Пирсона=0.69, P-значение=8.96e-5). Фильтрация с помощью ML-модели значительно превзошла наивную (стандартную) фильтрацию в оценке TMB.RNAseq data filtering performance was evaluated using Mutect2 software with default settings. (Cibulskis K, Lawrence MS, Carter SL, Sivachenko A, Jaffe D, Sougnez C, et al. Sensitive detection of somatic point mutations in impure and heterogeneous cancer samples. Nat Biotechnol. 2013 Mar; 31 (3): 213-9) (Fig. 8, Pearson correlation coefficient = 0.26, P-value = 0.207) and with default settings combined with filtering germline variants from the non-TCGA subset of ExAC (Lek M. et al. Analysis of protein-coding genetic variation in 60,706 humans. Nature. 2016 Aug 18; 536 (7616): 285-91) (Fig. 9, Pearson's correlation coefficient = 0.45, P-value = 0.0211). The correlation of TMB (RNAseq with XGBoost filtering) with TMB (WES) was calculated (Fig. 10, Pearson correlation coefficient = 0.74, P-value = 1.68e-5). The correlation of TMB (RNAseq with filtering by the method of random trees) with TMB (WES) was also calculated (Fig. 11, Pearson correlation coefficient = 0.69, P-value = 8.96e-5). Filtering by ML model significantly outperformed naive (standard) filtering in TMB estimation.

Прогнозирующая эффективность RNAseq TMB затем была протестирована с использованием AUC ROC анализа в тех же группах сравнения, как описано выше. Были использованы те же пороговые значения, что и в примере 1 для данных WES (TMB >6, >10 и >20), чтобы оценить, является ли TMB из соответствующего профиля RNAseq предиктором TMB из WES. ML подход превзошел ExAC и наивную фильтрацию в большинстве случаев и мог быть использован для надежной оценки TMB в образцах FFPE для всех вышеуказанных порогов с AUC ≥ 0,85 (Таблица 4).The predictive efficacy of RNAseq TMB was then tested using the AUC ROC assay in the same comparison groups as described above. Were used the same thresholds as in example 1 for the WES data (TMB> 6,> 10 and> 20) to assess whether TMB from the corresponding RNAseq profile is a predictor of TMB from WES. The ML approach outperformed ExAC and naive filtering in most cases and could be used to reliably estimate TMB in FFPE samples for all of the above thresholds with AUC ≥ 0.85 (Table 4).

Таблица 4. Значения ROC AUC для прогнозирования TMB (пороговые значения: > 6,> 10 и > 20) в WES с использованием данных FFPE RNAseq.Table 4. ROC AUC values for TMB prediction (thresholds:> 6,> 10 and> 20) in WES using FFPE RNAseq data.

Метод фильтрацииFiltration method TMB >6TMB> 6 TMB >10TMB> 10 TMB >20TMB> 20 WES мутации, покрытые в RNAseq данных WES mutations covered in RNAseq data 0.9470.947 0.9830.983 0.9520.952 Стандартная фильтрация идентификатора вариантовVariant ID Filtering Standard 0.6010.601 0.7170.717 0.790.79 Стандартная фильтрация идентификатора вариантов + исключение вариантов из базы экзомных данных ExAC (не-TCGA подмножество)Variant ID Standard Filtering + Variants Exclusion from the Exome Exom Database (non-TCGA subset) 0.7070.707 0.8330.833 0.8570.857 Oncobox ML-фильтрация с использованием XGBoost методаOncobox ML filtering using XGBoost method 0.880.88 11 11 Oncobox ML-фильтрация с использованием метода случайных деревьевOncobox ML filtering using random tree method 0.850.85 0.9750.975 0.9710.971

На Фиг. 12 представлена общая схема вычислительного устройства (120), которое обеспечивает обработку данных, необходимую для реализации заявленных методов. Обычно устройство (120) содержит следующие компоненты: один или несколько процессоров (121), по меньшей мере, одну память (122), по меньшей мере, один носитель данных (123), интерфейсы ввода/вывода (I/O) (124), средства для ввода-вывода данных (125), сетевые инструменты (126). Процессор (121) выполняет основные вычислительные операции, необходимые для работы устройства (120) или функциональности одного или нескольких его компонентов. Процессор (121) выполняет необходимые машиночитаемые инструкции, расположенные в оперативной памяти (122). Память (122) выполнена обычно в виде оперативной памяти и содержит необходимую программную логику, обеспечивающую необходимые функциональные возможности. Носитель данных (123) представлен в виде жестких дисков или дисков SSD, массивов, сетевых хранилищ, флэш-памяти, оптических устройств хранения информации (CD, DVD, MD, Blue-Ray) и т.д. Носитель данных (123) обеспечивает долговременное хранение различных типов информации, например, вышеупомянутых данных РНК и ДНК-секвенирования, алгоритмов ML, идентификаторов пользователей и т.д.FIG. 12 shows a general diagram of a computing device (120), which provides data processing necessary for the implementation of the claimed methods. Typically, the device (120) contains the following components: one or more processors (121), at least one memory (122), at least one data carrier (123), input / output (I / O) interfaces (124) , data input / output tools (125), network tools (126). The processor (121) performs the basic computational operations required for the operation of the device (120) or the functionality of one or more of its components. The processor (121) executes the necessary machine-readable instructions located in the main memory (122). Memory (122) is usually made in the form of random access memory and contains the necessary program logic that provides the necessary functionality. The data carrier (123) is presented in the form of hard disks or SSD disks, arrays, network storages, flash memory, optical storage devices (CD, DVD, MD, Blue-Ray), etc. The data carrier (123) provides long-term storage of various types of information, for example, the aforementioned RNA and DNA sequencing data, ML algorithms, user IDs, etc.

Интерфейсы ввода/вывода (124) обычно являются стандартными инструментами для подключения и работы со стороны сервера, например, USB, RS232, RJ45, LPT, COM, HDMI, PS/2, Lightning, FireWire и т.д. На выбор I/O интерфейсы (124) зависят от специфики устройства (120), которым может быть персональный компьютер, мэйнфрейм, кластер серверов, смартфон, ноутбук и т.д.I / O interfaces (124) are usually standard tools for connecting and operating from the server side, such as USB, RS232, RJ45, LPT, COM, HDMI, PS / 2, Lightning, FireWire, etc. The choice of I / O interfaces (124) depends on the specifics of the device (120), which can be a personal computer, mainframe, server cluster, smartphone, laptop, etc.

В качестве средства для данных ввода/вывода (125) в любом варианте реализации системы, которая использует описанные способы, предпочтительно использовать клавиатуру. Аппаратная версия клавиатуры может быть любой известной: это может быть встроенная клавиатура, используемая на ноутбуке или нетбуке, или автономное устройство, подключенное к настольному компьютеру, серверу или другому вычислительному устройству. Соединение может быть проводным, в котором соединительный кабель клавиатуры подключен к порту PS/2 или USB, расположенному на системном блоке настольного компьютера, или беспроводным, в котором клавиатура обменивается данными, например, по беспроводному каналу; радиоканал с базовой станцией, которая, в свою очередь, напрямую подключена к системному блоку, например, к одному из портов USB. Помимо клавиатуры, данные ввода/вывода также могут включать в себя: джойстик, дисплей (сенсорный экран), проектор, сенсорную панель, мышь, трекбол, световое перо, динамики, микрофон и т.д.It is preferable to use a keyboard as a means for input / output data (125) in any implementation of a system that uses the described methods. The hardware version of the keyboard can be any known version: it can be a built-in keyboard used on a laptop or netbook, or a stand-alone device connected to a desktop computer, server, or other computing device. The connection can be wired, in which the keyboard connecting cable is connected to the PS / 2 or USB port located on the system unit of the desktop computer, or wireless, in which the keyboard communicates, for example, wirelessly; a radio channel with a base station, which, in turn, is directly connected to the system unit, for example, to one of the USB ports. Besides the keyboard, I / O data can also include: joystick, display (touchscreen), projector, touchpad, mouse, trackball, light pen, speakers, microphone, etc.

Инструменты сетевой связи (126) или сетевые инструменты включают в себя устройство, которое обеспечивает сетевой прием и передачу данных, например, карту Ethernet, модуль WLAN/Wi-Fi, модуль Bluetooth, модуль BLE, модуль NFC, IrDa, модуль RFID, GSM-модем и т.д. С помощью сетевых инструментов (126) обеспечивается организация обмена данными по проводному или беспроводному каналу данных, например, WAN, PAN, LAN, LAN, Интранет, Интернет, WLAN, WMAN или GSM.Network communication tools (126) or network tools include a device that provides network reception and transmission of data, such as an Ethernet card, WLAN / Wi-Fi module, Bluetooth module, BLE module, NFC module, IrDa, RFID module, GSM modem, etc. Using network tools (126), it is possible to organize data exchange via a wired or wireless data channel, for example, WAN, PAN, LAN, LAN, Intranet, Internet, WLAN, WMAN or GSM.

Наконец, компоненты устройства (120) обычно соединяются через общую шину данных (127).Finally, the components of the device (120) are usually connected via a common data bus (127).

Вышеприведенное описание раскрывает и описывает только примерные варианты реализации настоящего изобретения. Как будет понятно специалистам в данной области техники, настоящее изобретение может быть воплощено в других конкретных формах без отклонения от его сущности или существенных характеристик. Многочисленные модификации и вариации настоящего изобретения возможны в свете вышеизложенного. Соответственно, раскрытие настоящего изобретения предназначено для иллюстрации, но не ограничения объема изобретения, который изложен в следующей формуле изобретения. Раскрытие, включая любые легко различимые варианты приведенных здесь идей, частично определяет объем терминологии формулы изобретения, так что ни один предмет изобретения не предназначен для широкой публики.The above description discloses and describes only exemplary embodiments of the present invention. As will be understood by those skilled in the art, the present invention may be embodied in other specific forms without departing from its spirit or essential characteristics. Numerous modifications and variations of the present invention are possible in light of the above. Accordingly, the disclosure of the present invention is intended to illustrate, but not limit, the scope of the invention, which is set forth in the following claims. The disclosure, including any readily discernible variations on the teachings provided herein, partly defines the scope of the claims terminology, so that no subject matter is intended to be publicly disclosed.

Все публикации, заявки на патенты, патенты и другие ссылки, упомянутые здесь, включены в качестве ссылки во всей их полноте. Кроме того, материалы, способы и примеры являются только иллюстративными и не предназначены для ограничения, если не указано иное.All publications, patent applications, patents, and other references mentioned herein are incorporated by reference in their entirety. In addition, the materials, methods, and examples are illustrative only and are not intended to be limiting unless otherwise indicated.

Claims (33)

1. Реализуемый на компьютере способ расчета мутационной нагрузки опухоли (ТМВ) с использованием данных секвенирования РНК из образца опухоли, включающий следующие этапы:1. Computer-implemented method for calculating tumor mutation load (TMB) using RNA sequencing data from a tumor sample, including the following steps: (a) получают данные секвенирования РНК из образца опухоли и прогнозируют мутационную нагрузку опухоли при помощи алгоритмического поиска и аннотирования мутаций, посредством чего создается предварительный профиль мутаций для опухолевого образца;(a) obtaining RNA sequencing data from a tumor sample and predicting the mutational load of the tumor using algorithmic search and annotation of mutations, whereby a preliminary mutation profile for the tumor sample is generated; (b) применяют предварительно обученную модель машинного обучения с учителем (ML) для расчета ТМВ для образца опухоли путем корректировки предварительного профиля мутаций,(b) apply a pretrained supervised machine learning (ML) model to calculate TMB for a tumor sample by adjusting the preliminary mutation profile, где предварительное обучение модели ML включает:where pre-training the ML model includes: i. получение обучающей выборки, содержащей первый набор мутаций из данных секвенирования РНК, взятых из образцов опухоли, и второй набор мутаций по данным секвенирования ДНК, взятых соответственно из одних и тех же образцов опухолей;i. obtaining a training set containing a first set of mutations from RNA sequencing data taken from tumor samples and a second set of mutations from DNA sequencing data taken from the same tumor samples, respectively; ii. аннотирование мутаций в первом наборе мутаций в виде ИСТИННЫХ или ЛОЖНЫХ мутаций на основе второго набора мутаций;ii. annotating mutations in the first set of mutations as TRUE or FALSE mutations based on the second set of mutations; iii. выполнение обучения модели ML с использованием первого и второго наборов мутаций.iii. performing ML model training using the first and second sets of mutations. 2. Способ по п. 1, дополнительно содержащий этап проверки модели ML после предварительной тренировки путем тестирования предварительно обученной модели ML на втором тренировочном наборе.2. The method of claim 1, further comprising the step of verifying the ML model after pre-training by testing the pre-trained ML model on a second training set. 3. Способ по п. 1, в котором образец опухоли и образцы из обучающего набора получают из опухолевой ткани, фиксированной в формалине и заключенной в парафин.3. The method according to claim 1, wherein the tumor sample and samples from the training kit are obtained from tumor tissue fixed in formalin and embedded in paraffin. 4. Способ по п. 1, в котором образец опухоли и образцы из тренировочного набора получают из свежезамороженной опухолевой ткани.4. The method of claim 1, wherein the tumor sample and training kit samples are obtained from fresh frozen tumor tissue. 5. Способ по п. 1, в котором коррекцию предварительного профиля мутаций выполняют с использованием алгоритма градиентного бустинга.5. The method of claim 1, wherein the correction of the pre-profile of the mutations is performed using a gradient boosting algorithm. 6. Способ по п. 1, в котором исправление предварительного профиля мутации выполняется с использованием алгоритма случайного леса.6. The method of claim 1, wherein correcting the preliminary mutation profile is performed using a random forest algorithm. 7. Способ по п. 1, в котором предварительное обучение модели ML дополнительно содержит следующие этапы:7. The method of claim 1, wherein pre-training the ML model further comprises the following steps: извлечение признаков, которые характеризуют аннотированные мутации в первом наборе мутаций;extracting features that characterize annotated mutations in the first set of mutations; выбор извлеченных признаков и обучение модели ML;selection of extracted features and training of the ML model; классификация выбранных признаков как соответствующих ИСТИННОЙ или ЛОЖНОЙ мутации.classification of the selected traits as corresponding to a TRUE or FALSE mutation. 8. Способ по п. 1, в котором предварительное обучение модели ML выполняется до тех пор, пока показатель AUC по кросс-валидации параметров модели не станет равным или превышающим 90%.8. The method of claim 1, wherein the ML model is pre-trained until the cross-validation AUC of the model parameters is equal to or greater than 90%. 9. Предназначенный для долговременного хранения информации машиночитаемый носитель, хранящий машиночитаемые указания, которые, будучи исполненными системой, включающей по меньшей мере одно вычислительное устройство, инициируют реализацию способа расчета мутационной нагрузки опухоли (ТМВ) с использованием данных секвенирования РНК из образца опухоли по п. 1.9. A computer-readable medium intended for long-term storage of information, storing computer-readable instructions, which, when executed by a system including at least one computing device, initiate the implementation of a method for calculating tumor mutational load (TMB) using RNA sequencing data from a tumor sample according to claim 1 ... 10. Система для расчета мутационной нагрузки опухоли (ТМВ) с использованием данных секвенирования РНК из образца опухоли, включающая:10. System for calculating tumor mutation load (TMB) using RNA sequencing data from a tumor sample, including: по меньшей мере, один носитель данных, сконфигурированный для хранения множества данных секвенирования, включая, по меньшей мере, данные секвенирования РНК и данные секвенирования ДНК, взятые из образцов опухоли; а также по меньшей мере, один процессор, функционально связанный с, по меньшей мере, одним носителем данных, причем, по меньшей мере, один процессор сконфигурирован с целью:at least one storage medium configured to store a plurality of sequencing data, including at least RNA sequencing data and DNA sequencing data taken from tumor samples; and also at least one processor operatively associated with at least one storage medium, wherein the at least one processor is configured to: (a) получения данных секвенирования РНК из образца опухоли и прогнозирования мутационной нагрузки опухоли при помощи алгоритмического поиска и аннотирования мутаций, создавая тем самым предварительный профиль мутаций для опухолевого образца;(a) obtaining RNA sequencing data from a tumor sample and predicting tumor mutation load by algorithmic search and annotation of mutations, thereby creating a preliminary mutation profile for the tumor sample; (b) применения предварительно обученной модели машинного обучения с учителем (ML) для расчета ТМВ для образца опухоли путем корректировки предварительного профиля мутаций,(b) applying a pre-trained supervised machine learning (ML) model to calculate TMB for a tumor sample by adjusting the preliminary mutation profile, где предварительное обучение модели ML включает:where pre-training the ML model includes: i. получение обучающей выборки, содержащей первый набор мутаций из данных секвенирования РНК, взятых из образцов опухоли, и второй набор мутаций от данных секвенирования ДНК, взятых соответственно из одних и тех же образцов опухолей;i. obtaining a training sample containing a first set of mutations from RNA sequencing data taken from tumor samples and a second set of mutations from DNA sequencing data taken from the same tumor samples, respectively; ii. аннотирование мутаций в первом наборе мутаций в виде ИСТИННЫХ или ЛОЖНЫХ мутаций на основе второго набора мутаций;ii. annotating mutations in the first set of mutations as TRUE or FALSE mutations based on the second set of mutations; iii. выполнение обучения модели ML с использованием первого и второго наборов мутаций.iii. performing ML model training using the first and second sets of mutations. 11. Система по п. 10, в которой предварительное обучение модели ML дополнительно содержит этапы:11. The system according to claim 10, in which the preliminary training of the ML model additionally contains the following steps: извлечение признаков, которые характеризуют аннотированные мутации в первом наборе мутаций;extracting features that characterize annotated mutations in the first set of mutations; выбор извлеченных признаков и обучение ML модели;selection of extracted features and training of the ML model; классификация выбранных признаков как соответствующих ИСТИННОЙ или ЛОЖНОЙ мутации.classification of the selected traits as corresponding to a TRUE or FALSE mutation. 12. Система по п. 10, в которой исправление предварительного профиля мутаций выполняется с использованием алгоритма градиентного бустинга.12. The system of claim 10, wherein correcting the preliminary mutation profile is performed using a gradient boosting algorithm. 13. Система по п. 10, в которой исправление предварительного профиля мутаций выполняется с использованием алгоритма случайного леса.13. The system of claim 10, wherein the pre-mutation profile correction is performed using a random forest algorithm. 14. Система по п. 10, в которой предварительное обучение модели ML выполняется до тех пор, пока показатель AUC по кросс-валидации параметров модели не станет равным или превышающим 90%.14. The system of claim 10, wherein the ML model is pre-trained until the cross-validation AUC of the model parameters is equal to or greater than 90%.
RU2020128823A 2020-08-31 2020-08-31 Calculation of the burden of tumour mutations using tumour rna sequencing data and controlled machine learning RU2759205C1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2020128823A RU2759205C1 (en) 2020-08-31 2020-08-31 Calculation of the burden of tumour mutations using tumour rna sequencing data and controlled machine learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2020128823A RU2759205C1 (en) 2020-08-31 2020-08-31 Calculation of the burden of tumour mutations using tumour rna sequencing data and controlled machine learning

Publications (1)

Publication Number Publication Date
RU2759205C1 true RU2759205C1 (en) 2021-11-10

Family

ID=78466975

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2020128823A RU2759205C1 (en) 2020-08-31 2020-08-31 Calculation of the burden of tumour mutations using tumour rna sequencing data and controlled machine learning

Country Status (1)

Country Link
RU (1) RU2759205C1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114496099A (en) * 2022-01-26 2022-05-13 腾讯科技(深圳)有限公司 Cell function annotation methods, devices, equipment and media

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014149134A2 (en) * 2013-03-15 2014-09-25 Guardant Health Inc. Systems and methods to detect rare mutations and copy number variation

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014149134A2 (en) * 2013-03-15 2014-09-25 Guardant Health Inc. Systems and methods to detect rare mutations and copy number variation

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
B&uuml;ttner R., et al., Implementing TMB measurement in clinical practice: considerations on assay requirements. ESMO Open. 2019;4. Tkachev V., et al., Flexible Data Trimming Improves Performance of Global Machine Learning Methods in Omics-Based Personalized Oncology. Int J Mol Sci. 2020 Jan 22;21(3). *
Büttner R., et al., Implementing TMB measurement in clinical practice: considerations on assay requirements. ESMO Open. 2019;4. *
Tkachev V., et al., Flexible Data Trimming Improves Performance of Global Machine Learning Methods in Omics-Based Personalized Oncology. Int J Mol Sci. 2020 Jan 22;21(3). *
Zhu J., et al., Association Between Tumor Mutation Burden (TMB) and Outcomes of Cancer Patients Treated With PD-1/PD-L1 Inhibitions: A Meta-Analysis. Front Pharmacol. 2019;10: 673. *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114496099A (en) * 2022-01-26 2022-05-13 腾讯科技(深圳)有限公司 Cell function annotation methods, devices, equipment and media

Similar Documents

Publication Publication Date Title
JP7689557B2 (en) An integrated machine learning framework for inferring homologous recombination defects
JP7316270B2 (en) Interpreting Gene and Genomic Variants via Integrated Computational and Experimental Deep Mutational Learning Frameworks
US20240013921A1 (en) Generalized computational framework and system for integrative prediction of biomarkers
US20230114581A1 (en) Systems and methods for predicting homologous recombination deficiency status of a specimen
US20220215900A1 (en) Systems and methods for joint low-coverage whole genome sequencing and whole exome sequencing inference of copy number variation for clinical diagnostics
US20210358626A1 (en) Systems and methods for cancer condition determination using autoencoders
WO2020077232A1 (en) Methods and systems for nucleic acid variant detection and analysis
WO2021258026A1 (en) Molecular response and progression detection from circulating cell free dna
US10699802B2 (en) Microsatellite instability characterization
US12236346B2 (en) Systems and methods for using a convolutional neural network to detect contamination
US20240076744A1 (en) METHODS AND SYSTEMS FOR mRNA BOUNDARY ANALYSIS IN NEXT GENERATION SEQUENCING
CN120958527A (en) Predictive biomarker discovery based on machine learning and patient stratification using standard of care data
RU2759205C1 (en) Calculation of the burden of tumour mutations using tumour rna sequencing data and controlled machine learning
US20250003016A1 (en) Methods of identifying cancer-associated microbial biomarkers
US20220293214A1 (en) Methods of analyzing genetic variants based on genetic material
KR20240004775A (en) Predict efficacy and improve skin care treatment outcomes based on responder/non-responder information
JP7787904B2 (en) Predicting efficacy and improving skin care treatment outcomes based on responder/non-responder information
Emmert-Streib Statistical diagnostics for cancer: analyzing high-dimensional data
US20250037876A1 (en) Systems and methods for developing and utilizing a hematologic prognostic classifier
WO2025071851A1 (en) Systems and methods for single sample variant calling utilizing circulating tumor allele fractions
Vergara Lope Gracia Mathematical tools for analysis of genome function, linkage disequilibrium structure and disease gene prediction