[go: up one dir, main page]

WO2023063845A1 - СИСТЕМА И СПОСОБ АВТОМАТИЧЕСКОГО МАШИННОГО ОБУЧЕНИЯ (AutoML) МОДЕЛЕЙ КОМПЬЮТЕРНОГО ЗРЕНИЯ ДЛЯ АНАЛИЗА БИОМЕДИЦИНСКИХ ИЗОБРАЖЕНИЙ - Google Patents

СИСТЕМА И СПОСОБ АВТОМАТИЧЕСКОГО МАШИННОГО ОБУЧЕНИЯ (AutoML) МОДЕЛЕЙ КОМПЬЮТЕРНОГО ЗРЕНИЯ ДЛЯ АНАЛИЗА БИОМЕДИЦИНСКИХ ИЗОБРАЖЕНИЙ Download PDF

Info

Publication number
WO2023063845A1
WO2023063845A1 PCT/RU2021/000440 RU2021000440W WO2023063845A1 WO 2023063845 A1 WO2023063845 A1 WO 2023063845A1 RU 2021000440 W RU2021000440 W RU 2021000440W WO 2023063845 A1 WO2023063845 A1 WO 2023063845A1
Authority
WO
WIPO (PCT)
Prior art keywords
training
computer vision
automatically
image data
models
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/RU2021/000440
Other languages
English (en)
French (fr)
Inventor
Сергей Юрьевич СОРОКИН
Иван Сергеевич ДРОКИН
Олег Леонидович БУХВАЛОВ
Елена Витальевна ЕРИЧЕВА
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Obshchestvo S Ogranichennoj Otvetstvennostyu "intellodzhik"
Original Assignee
Obshchestvo S Ogranichennoj Otvetstvennostyu "intellodzhik"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from RU2021129912A external-priority patent/RU2787558C1/ru
Application filed by Obshchestvo S Ogranichennoj Otvetstvennostyu "intellodzhik" filed Critical Obshchestvo S Ogranichennoj Otvetstvennostyu "intellodzhik"
Publication of WO2023063845A1 publication Critical patent/WO2023063845A1/ru
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images

Definitions

  • the invention relates to the field of information and communication technologies for processing medical data, in particular, to a system and method for automatic machine learning (AutoML) of computer vision models for analyzing biomedical images.
  • AutoML automatic machine learning
  • the presented solution can be used in medical decision support systems (DMSS), by doctors, for example, CT diagnostic doctors, MRI doctors, radiologists, radiologists, mammologists, oncologists and other specialists who analyze biomedical images obtained using various diagnostic methods.
  • doctors for example, CT diagnostic doctors, MRI doctors, radiologists, radiologists, mammologists, oncologists and other specialists who analyze biomedical images obtained using various diagnostic methods.
  • CT scans e.g. CT scans, MPT scans, ultrasound scans, x-rays, mammography, etc.
  • Patent US10282835B2 publication date 05/07/2019, describes a method and system for automatic analysis of clinical images using models developed using machine learning.
  • the system includes a server with an electronic processor and an interface for communication with the data source.
  • the electronic processor is configured to receive training information from a data source via an interface.
  • the training information includes a plurality of images and graphic reports associated with each of the plurality of images.
  • Each graphical report includes a graphic marker denoting a portion of one of the plurality of images and diagnostic information associated with a portion of one of the plurality of images.
  • the electronic processor is also configured to perform machine learning to develop a model using the training information.
  • the electronic processor is also configured to receive images for analysis and automatic image processing using a model to generate a diagnosis for the image.
  • the method includes: receiving the user's target and the first data set by the AutoML system; determining, according to the target, that the original artificial intelligence (AI) model is used to implement the user's target; training the AutoML system, according to the obtained first data set, the initial AI model to obtain the trained AI model; further analyzing, according to the first data set, the training of the initial AI model to obtain an analysis result, the analysis result including the effect of at least one type of data in the first data set on the training of the initial AI model.
  • AI artificial intelligence
  • An AutoML system is also described, providing, depending on the analysis result and the user, an optimization mode for the trained AI model, while the optimization mode can load a second data set to optimize the trained AL model.
  • the technical problem to be solved by the claimed invention is the development of methods and systems for automatic training of computer vision models for tasks related to biomedical images, the development of automated methods for evaluating and validating trained models, the development of a data and markup management system to provide the AutoML process, increasing accuracy of AutoML machine learning models for biomedical image analysis.
  • the technical result of the claimed invention is to expand the arsenal of technical tools for automating the creation of models machine learning for biomedical image analysis (e.g. CT scans, MPT scans, ultrasound scans, x-rays, mammography, angiography, and others), improving the accuracy of biomedical image analysis by choosing the best model, reducing biomedical image analysis time by automating search, training and evaluation of computer vision models, increasing the speed of processing a large number of biomedical images simultaneously with increasing accuracy, increasing the ability to adapt computer vision models to new cases, devices, research modes, etc.
  • biomedical image analysis e.g. CT scans, MPT scans, ultrasound scans, x-rays, mammography, angiography, and others
  • a computer-implemented automatic machine learning (AutoML) system for computer vision models for biomedical image analysis comprises: a database, the database storing biomedical image data; moreover, the data on the basis of which the biomedical image data is obtained is collected automatically; server containing:
  • the loader automatically loads the biomedical image data required for testing, training and validating computer vision models from the database;
  • transformation unit automatically transforms the biomedical image data received from the download unit into a format accepted by the search, learning and evaluation units;
  • search unit and with the help of the search unit, computer vision models are automatically searched using training and test samples generated on the basis of biomedical image data received from the transformation unit, and the architecture parameters of the found models are automatically searched and optimized;
  • the training unit automatically trains the computer vision models found by the search unit using a training sample generated on the basis of biomedical image data received from the transformation unit and using architecture parameters received from the search unit; wherein the best of said trained models is automatically selected and the selected model is passed to the estimator;
  • the estimator automatically evaluates the best selected computer vision model trained by the training unit using a validation set formed on the basis of biomedical image data received from the transformation unit.
  • data collection can be automatically carried out using a clinic agent, on the basis of which biomedical image data is obtained.
  • a model can be searched until the specified metric values are reached or until the search budget is exhausted.
  • additional training of the computer vision model found by the search unit can be carried out using a training sample, which is supplemented with data from additional biomedical images received from the transformation unit, if the specified model has not passed validation.
  • the training and evaluation units may be configured to initiate a repeated search and training process for computer vision models for biomedical image analysis.
  • biomedical image data required for testing, training and validation of computer models vision; moreover, the data on the basis of which the biomedical image data is obtained is collected automatically;
  • loading of biomedical image data can be automatically performed using a loading block
  • automatic collection of data from which biomedical image data is obtained can be performed using a clinic agent
  • transformation of the loaded biomedical image data can be automatically performed using a transformation block
  • the computer vision models can be automatically searched with the search block
  • the found computer vision models can be automatically trained with the training block
  • the best selected trained computer vision model can be automatically evaluated with the evaluation block.
  • the method can be used to search for a model until the specified values of the metrics are reached or until the search budget is exhausted.
  • additional training of the computer vision model found by the search unit can be carried out using a training set, in which additional biomedical image data received from the transformation unit is added, if the specified model has not passed the validation.
  • the method may further initiate a repeated process of searching and training computer vision models for biomedical image analysis.
  • Fig. 1 illustrates an example of a general architecture of which an automatic machine learning (AutoML) system of computer vision models for biomedical image analysis is a part.
  • AutoML automatic machine learning
  • Fig. 2 - illustrates the general scheme for constructing AutoML computer vision models for biomedical image analysis using hybrid intelligence.
  • Fig. 3 - illustrates the general scheme of the learning agent device.
  • Fig. 4 illustrates the general scheme for updating AutoML computer vision models for biomedical image analysis.
  • Fig. 5 - illustrates the general scheme of the device of the clinic agent.
  • Fig. 6 illustrates a general diagram of a computing device for implementing the present invention.
  • the present invention discloses an automatic machine learning (AutoML) system for computer vision models for analyzing biomedical images.
  • the system is designed to automate the stages of development and training of computer vision models in the tasks of biomedical image analysis.
  • Biomedical images are medical images obtained by various methods, for example, methods of radiation diagnostics (X-ray, magnetic resonance, radionuclide, ultrasound, etc.) - computed tomography (CT) images, magnetic resonance imaging (MRI) images, ultrasound images ( ultrasonography), positron emission tomography (PET) images, x-rays, mammography, angiography images, elastography images, etc.), through an endoscope (endoscopic images), using photographic methods (for example, medical photographs of skin conditions and other superficial conditions, such as the palate, birthmarks, moles, etc.), etc.
  • CT computed tomography
  • MRI magnetic resonance imaging
  • PET positron emission tomography
  • x-rays x-rays
  • mammography mammography
  • the task of building machine learning models consists of the following steps:
  • Data preparation normalization, cleaning, search for outliers.
  • the Clinic Agent provides automation of data collection from clinics based on a system of rules and filters.
  • the clinic agent is also responsible for technical integration and data download, validation and storage.
  • the work of a clinic agent is based on sets of rules, filters and lists of DICOM tags. Based on this data, it is possible to automate the processes of access, technical integration, validation, download, storage and retrieval of biomedical image data.
  • Data collection is carried out from internal sources (for example, mini and postgre databases storing biomedical images) by automatic copying to the point of work - to the server where the training model will be launched.
  • the training agent is responsible for dividing the prepared data into test, validation and training sets, choosing the model architecture, choosing hyperparameters, training the selected model, and evaluating the model, which collects all actions into a chain of tasks that are performed on computing resources in sequential mode.
  • Automatic sampling relies on industry-leading AutoML approaches based on parsing the markup in the data to partition the samples in a stratified manner.
  • model architecture is based on the methods of Neural Architecture Serach (NAS) - a branch of machine learning that solves the problem of finding the best model in the context of a training set.
  • NAS Neural Architecture Serach
  • a method is used based on the adaptation of NAS methods to the specifics of medical data - small sample sizes, the task of segmenting biomedical images as a key task of analysis, the use of existing solutions as a starting point for searching for computer vision models for analyzing biomedical images.
  • the found architecture is also trained in automatic mode, which eliminates the need for manual launches and selection of training parameters, which reduces human participation in this cycle.
  • Model evaluation is performed on the basis of a prepared protocol, which allows you to evaluate all the necessary model metrics in automatic mode.
  • FIG. 1 shows an example of a general architecture, of which an automatic machine learning (AutoML) system for computer vision models for biomedical image analysis is a part.
  • AutoML automatic machine learning
  • Botkin Main Platform the main platform, the central cloud of the Botkin.AI ecosystem. Carries out the relationship between all agents and subsystems, including managing data flows used for training and labeling models.
  • groups of services 1.
  • Agent Manager infrastructure management services that perform the following functions:
  • Model Registry model artifacts
  • Process Schedule Management - process planning service This service performs the following functions:
  • Platform Controller - a service for coordinating system processes.
  • Botkin Secondary Platform - secondary secondary platform Botkin.AL It differs from the main platform in that there are no AutoML management services, and process scheduling tasks are delegated to the main platform.
  • Inference Agent is an inference agent whose task is to process medical images using already trained models.
  • the Learning Agent a learning agent whose task is to find and train new machine learning models.
  • the learning agent contains several subcomponents: a module for interacting with the system, a module for training computer vision models, a module for automatically deploying a model in industrial outline. This module is deployed on servers with sufficient computing resources. Multiple copies may be deployed.
  • Clinic Agent is a clinic agent that is deployed on the side of the clinic and provides a means of interaction with the clinic's information systems.
  • Satellite - agent management service
  • ML Service - a service that performs the processing of studies by a computer vision model.
  • Report Service - a service that generates reports in the DICOM standard based on the results of processing a series of studies by a machine learning model.
  • Learning Service is a service that trains machine learning models, including machine learning algorithms.
  • Cloud Provider - provider of cloud servers.
  • PACS English Picture Archiving and Communication System
  • Botkin Resource Layer resource management layer.
  • the 3rd Party DICOM Viewer is a doctor-supplied viewer, such as a web viewer or a standalone viewer, that contains all the necessary tools for biomedical image analysis, labeling biomedical images according to required protocols, and interacts with the system in terms of data addressing and tasks.
  • FIG. Figure 2 shows a general scheme for building computer vision models for analyzing biomedical images based on two key technologies - AutoML technology, which automates the routine work of computer vision specialists, and hybrid intelligence - a group of methods that allow taking into account feedback from a person (for example, a radiologist) and using it to update AutoML models.
  • the stages where AutoML and hybrid intelligence are used are highlighted in color.
  • the physician(s) mark up a pool of biomedical image data.
  • the data is uploaded to the server for training.
  • the AutoML algorithm is launched, which consists of the following steps: data preparation, search for suitable model architectures, training of selected architectures, selection of the best model, testing on a delayed sample.
  • the model is updated in the industrial loop, otherwise this step is skipped.
  • the data is processed by the current version of the model and provided to the doctor for validation. If the validation result is unsatisfactory (FAIL), the data is returned to the markup and the process is repeated.
  • FAIL unsatisfactory
  • FIG. Figure 3 shows the general layout of the learning agent device.
  • Satellite Service designed to train artificial intelligence models for biomedical image analysis tasks.
  • FIG. 3 shows the following learning agent services:
  • Satellite - managing agent service 1. Satellite - managing agent service.
  • the service consists of the following components:
  • Data Preprocessor data preparation module - a block that performs the transformation of data received from the data loading block into a format accepted by the blocks for searching for models and their training;
  • Model Search block a block that implements a set of AutoML methods for searching and optimizing metaparameters. Starts and controls the model search process;
  • Block - a block that trains the model according to the found architecture parameters. If necessary, may initiate a second learning search process; (In case of incorrect completion of training or problems of an infrastructural nature (temporary communication problems, equipment reboot, etc.).
  • Model Test block - a block that performs testing and evaluation of model metrics on a delayed sample. If necessary, it can initiate a repeated learning search process, for example, if the specified metric values are not reached on the test sample.
  • FIG. 4 shows a general scheme for updating AutoML computer vision models for biomedical image analysis.
  • FIG. 5 shows a general diagram of the device of the clinic agent.
  • Clinic agents are a group of services managed by the Satellite service, deployed on the side of the clinic, designed to be integrated with the clinic's information systems, devices, radiologists' tools, etc.
  • the clinic agent periodically, for example, once a day at midnight, selects all studies that have entered the clinic's PACS in the last 24 hours.
  • the clinic agent sends the collected biomedical image data to the main or auxiliary platform for processing, and returns the results of the biomedical image analysis to the responsible doctor.
  • AutoML automatic machine learning
  • the learning agent loads from the storage locations specified in the configuration file the mammography data as images and the generated annotations for the specified images.
  • Annotation is created by physicians and usually consists of a class of study (normal or pathological, such as breast cancer) and a set of regions of interest associated with the mammographic image.
  • the configuration file specifies the necessary parameters for the operation of the learning agent, for example, the search budget (how many hours of computing resources can be spent on searching), the type of problem being solved (classification, segmentation), service information (for example, addresses of alloying servers), the share of training and test examples in the sample, image parameters in the study (their number) and the number of channels (classes) into which the samples are divided, etc.
  • the learning agent processes the received data (for example, for raw data from the DICOM viewports embedded in the file, determines the projections of the image) and saves the data in the accepted format on the server (for example, in the form of binary files containing 4 images (images of each breast in two projections, and images of regions of interest.)
  • the learning agent launches methods for preparing data partitioning into training and test data. For example, a stratified partition by the presence of a norm and a pathology into two samples according to specified proportions. One patient can enter only one sample - training or a test one, even if it has more than one study.
  • the learning agent runs the learning methods that represent is a variation of a method called Neural Architecture Search (NAS) based on a gradient architecture search.
  • NAS Neural Architecture Search
  • a basic architecture consisting of large blocks (for example, Linet) is used. Each block is searched by optimizing links between nodes.
  • the search process is a search for such a set of weights that achieves a minimum of training error.
  • the final architecture itself is obtained by binarizing (removing) links that have too low a weight.
  • unified models are used that differ only in parameters. Alloying takes place in the ML Flow service.
  • DS Data Science
  • a specialist has access to logs to evaluate the performance of the model.
  • the search for suitable models occurs until the specified values of the metrics are reached.
  • the search is carried out by running the learning method with different metaparameters (training step size, regularization parameters, data augmentation parameters, etc.).
  • the criterion for choosing models for the analysis of mammograms is, for example, maximizing the value of the AUC metric (area under the ROC-curve) to determine the norm / pathology for the study on the entire test sample.
  • the traditional threshold value AUC 0.85.
  • the validation set is created from a separate data source that is not represented in the test or training dataset, otherwise the process is similar to the process of creating training and test sets.
  • a workflow is launched that sends mammographic data from the validation dataset to the trained model, which performs processing, and as a result, annotated mammographic images generated by the model are obtained.
  • Mammography images processed by the trained model are assigned to a doctor who checks the quality of the model on the data provided. If the model fails validation, the decision is usually made to add training data and repeat the training process.
  • FIG. 6 shows a general diagram of a computing device (600) that provides the data processing necessary to implement the claimed solution.
  • the device (600) contains components such as: one or more processors (601), at least one memory (602), storage media (603), input/output interfaces (604), I/O ( 605), networking tools (606).
  • processors such as: one or more processors (601), at least one memory (602), storage media (603), input/output interfaces (604), I/O ( 605), networking tools (606).
  • the processor (601) of the device performs the basic computing operations necessary for the operation of the device (600) or the functionality of one or more of its components.
  • the processor (601) executes the necessary machine-readable instructions contained in the main memory (602).
  • the memory (602) is typically in the form of RAM and contains the necessary software logic to provide the desired functionality.
  • the data storage means (603) can be in the form of HDD, SSD disks, raid array, network storage, flash memory, optical information storage devices (CD, DVD, MD, Blue-Ray disks), etc.
  • the means (603) allows long-term storage of various types of information.
  • Interfaces (604) are standard means for connecting and working with the server part, for example, USB, RS232, RJ45, LPT, COM, HDMI, PS/2, Lightning, FireWire, etc.
  • interfaces (604) depends on the specific implementation of the device (N00), which can be a personal computer, mainframe, server cluster, thin client, smartphone, laptop, etc.
  • the data I/O means (605) in any embodiment of the system must be a keyboard.
  • the keyboard hardware can be any known: it can be either a built-in keyboard used on a laptop or netbook, or a separate device connected to a desktop computer, server, or other computer device.
  • the connection can be either wired, in which the keyboard connection cable is connected to the PS / 2 or USB port located on the system unit of the desktop computer, or wireless, in which the keyboard exchanges data via a wireless communication channel, for example, a radio channel, with base station, which, in turn, is directly connected to the system unit, for example, to one of the USB- ports.
  • the following I/O devices can also be used: joystick, display (touchscreen), projector, touchpad, mouse, trackball, light pen, speakers, microphone, etc.
  • Means of networking are selected from devices that provide network reception and transmission of data, for example, an Ethernet card, WLAN/Wi-Fi module, Bluetooth module, BLE module, NFC module, IrDa, RFID module, GSM modem, etc.
  • an Ethernet card for example, WAN, PAN, LAN (LAN), Intranet, Internet, WLAN, WMAN or GSM, 3G, 4G, 5G, is provided.
  • the components of the device (600) are coupled via a common data bus (607).

Landscapes

  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Artificial Intelligence (AREA)
  • Epidemiology (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Radiology & Medical Imaging (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Image Analysis (AREA)

Abstract

Изобретение относится к системе и способу автоматического машинного обучения (AutoML) моделей компьютерного зрения для анализа биомедицинских изображений. Система содержит базу данных биомедицинских изображений, сервер, обеспечивающий: загрузку данных биомедицинских изображений для тестирования, обучения и валидации моделей компьютерного зрения; трансформацию данных биомедицинских изображений в формат, требуемый для поиска, обучения и оценки; поиск моделей компьютерного зрения с помощью обучающей и тестовой выборок; поиск и оптимизацию параметров архитектур найденных моделей; обучение моделей компьютерного зрения с помощью обучающей выборки, сформированной на основе данных биомедицинских изображений; выбор лучшей из обученных моделей; оценку лучшей выбранной модели компьютерного зрения с помощью валидационной выборки, сформированной на основе данных биомедицинских изображений.

Description

СИСТЕМА И СПОСОБ АВТОМАТИЧЕСКОГО МАШИННОГО ОБУЧЕНИЯ (AutoML) МОДЕЛЕЙ КОМПЬЮТЕРНОГО ЗРЕНИЯ ДЛЯ АНАЛИЗА БИОМЕДИЦИНСКИХ ИЗОБРАЖЕНИЙ
ОБЛАСТЬ ТЕХНИКИ
Изобретение относится к области информационных и коммуникационных технологий для обработки медицинских данных, в частности, к системе и способу автоматического машинного обучения (AutoML) моделей компьютерного зрения для анализа биомедицинских изображений.
Представленное решение может быть использовано в системах поддержки принятия врачебных решений (СППВР), врачами, например, врачами КТ- диагностики, врачами МРТ, радиологами, рентгенологами, маммологами, онкологами и другими специалистами, которые проводят анализ биомедицинских изображений, полученных с помощью различных методов диагностики (например, КТ-снимки, MPT-снимки, УЗИ-снимки, рентгеновские снимки, маммография и др.).
УРОВЕНЬ ТЕХНИКИ
В патенте US10282835B2, дата публикации 07.05.2019, описаны способ и система автоматического анализа клинических изображений с использованием моделей, разработанных с использованием машинного обучения. Система включает в себя сервер с электронным процессором и интерфейсом для связи с источником данных. Электронный процессор сконфигурирован для приема обучающей информации от источника данных через интерфейс. Информация для обучения включает в себя множество изображений и графические отчеты, связанные с каждым из множества изображений. Каждый графический отчет включает в себя графический маркер, обозначающий часть одного из множества изображений и диагностическую информацию, связанную с частью одного из множества изображений. Электронный процессор также настроен на выполнение машинного обучения для разработки модели с использованием обучающей информации. Электронный процессор также сконфигурирован для приема изображения для анализа и автоматической обработки изображения с использованием модели для генерации диагноза для изображения.
В международной заявке WO2021035412A1 , дата публикации 04.03.2021 описан способ автоматического машинного обучения (AutoML). Способ включает: получение системой AutoML целевой задачи пользователя и первого набора данных; определение, согласно целевой задаче, что исходная модель искусственного интеллекта (AI) используется для реализации целевой задачи пользователя; обучение системы AutoML, согласно полученному первому набору данных, начальной модели AI для получения обученной модели AI; дополнительно анализируют, согласно первому набору данных, обучение начальной модели AI для получения результата анализа, при этом результат анализа включает влияние по меньшей мере одного типа данных в первом наборе данных на обучение начальной модели AI. Также описана система AutoML, обеспечивающая, в зависимости от результата анализа и пользователя, режим оптимизации для обученной модели AI, при этом режим оптимизации может загружать второй набор данных для оптимизации обученной модели AL С помощью данного решения, согласно анализу обучения исходной модели AI, режим оптимизации, предоставляемый системой AutoML пользователю, может эффективно оптимизировать степень точности прогнозирования модели AL
Однако, в данных решениях отсутствует автоматический поиск нескольких моделей компьютерного зрения для анализа биомедицинских изображений, обучение найденных нескольких моделей и выбор лучшей из обученных моделей для ее последующей оценки, а также отсутствует автоматический сбор биомедицинских изображений.
Техническая проблема, на решение которой направлено заявляемое изобретение, заключается в разработке методов и систем автоматического обучения моделей компьютерного зрения для задач, связанных с биомедицинскими изображениями, разработке автоматизированных методов оценки и валидации обученных моделей, разработке системы управления данными и разметкой для обеспечения AutoML процесса, повышении точности AutoML моделей машинного обучения для анализа биомедицинских изображений.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
Техническим результатом заявляемого изобретения является обеспечение расширения арсенал технических средств автоматизации создания моделей машинного обучения для анализа биомедицинских изображений (например, КТ- снимки, MPT-снимки, УЗИ-снимки, рентгеновские снимки, маммография, ангиография и другие), повышение точности анализа биомедицинских изображений за счет выбора лучшей модели, снижение времени анализа биомедицинских изображений за счет автоматизации поиска, обучения и оценки моделей компьютерного зрения, повышение скорости обработки большого количества биомедицинских изображений одновременно с повышением точности, повышение способности к адаптации моделей компьютерного зрения к новым кейсам, аппаратам, режимам проведения исследований и т.д. - например, к появлению большого числа КТ-исследований с признаками вирусной пневмонии, повышение масштабируемости процессов построения моделей компьютерного зрения в задачах анализа биомедицинских изображений, снижение участия исследователей при построении моделей компьютерного зрения в задачах анализа биомедицинских изображений и, тем самым, экономия на самом дефицитном ресурсе - человеческой экспертизе, повышение качества получаемых моделей компьютерного зрения в задачах анализа биомедицинских изображений за счет автоматизации исследования пространства конфигураций моделей компьютерного зрения и параметров обучения.
Указанный технический результат достигается за счёт того, что
Компьютерно-реализуемая система автоматического машинного обучения (AutoML) моделей компьютерного зрения для анализа биомедицинских изображений содержит: базу данных, причем база данных хранит данные биомедицинских изображений; причем данные, на основе которых получают данные биомедицинских изображений, собирают автоматически; сервер, содержащий:
- блок загрузки, причем с помощью блока загрузки автоматически выполняют загрузку данных биомедицинских изображений, необходимых для тестирования, обучения и валидации моделей компьютерного зрения, из базы данных;
- блок трансформации, причем с помощью блока трансформации автоматически выполняют трансформацию данных биомедицинских изображений, полученных от блока загрузки, в формат, принимаемый блоками поиска, обучения и оценки; - блок поиска, причем с помощью блока поиска автоматически осуществляют поиск моделей компьютерного зрения с помощью обучающей и тестовой выборок, сформированных на основе данных биомедицинских изображений, полученных от блока трансформации, и автоматически осуществляют поиск и оптимизацию параметров архитектур найденных моделей;
- блок обучения, причем с помощью блока обучения автоматически выполняют обучение моделей компьютерного зрения, найденных блоком поиска, с помощью обучающей выборки, сформированной на основе данных биомедицинских изображений, полученных от блока трансформации, и с помощью параметров архитектуры, полученных от блока поиска; причем автоматически выбирают лучшую из указанных обученных моделей и передают выбранную модель в блок оценки;
- блок оценки, причем с помощью блока оценки автоматически выполняют оценку лучшей выбранной модели компьютерного зрения, обученной блоком обучения, с помощью валидационной выборки, сформированной на основе данных биомедицинских изображений, полученных от блока трансформации.
В системе может быть автоматически осуществлен с помощью агента клиники сбор данных, на основе которых получают данные биомедицинских изображений.
В системе с помощью блока поиска может быть осуществлен поиск модели до достижения заданных значений метрик либо до исчерпания бюджета на поиск.
В системе с помощью блока обучения поиска может быть осуществлено дообучение модели компьютерного зрения, найденной блоком поиска, с помощью обучающей выборки, в которую добавлены данные дополнительных биомедицинских изображений, полученных от блока трансформации, в том случае, если указанная модель не прошла валидацию.
В системе блоки обучения и оценки могут быть выполнены с возможностью инициировать повторный процесс поиска и обучения моделей компьютерного зрения для анализа биомедицинских изображений.
В компьютерно-реализуемом способе автоматического машинного обучения (AutoML) моделей компьютерного зрения для анализа биомедицинских изображений:
- автоматически выполняют загрузку данных биомедицинских изображений, необходимых для тестирования, обучения и валидации моделей компьютерного зрения; причем данные, на основе которых получают данные биомедицинских изображений, собирают автоматически;
- автоматически выполняют трансформацию загруженных данных биомедицинских изображений в формат, принимаемый для автоматического поиска, обучения и оценки;
- автоматически осуществляют поиск моделей компьютерного зрения с помощью обучающей и тестовой выборок, сформированных на основе трансформированных данных биомедицинских изображений, и автоматически осуществляют поиск и оптимизацию параметров архитектур найденных моделей;
- автоматически выполняют обучение найденных моделей компьютерного зрения с помощью обучающей выборки, сформированной на основе трансформированных данных биомедицинских изображений, и с помощью найденных и оптимизированных параметров архитектур найденных моделей; причем автоматически выбирают лучшую из указанных обученных моделей;
- автоматически выполняют оценку лучшей выбранной обученной модели компьютерного зрения с помощью валидационной выборки, сформированной на основе трансформированных данных биомедицинских изображений.
В способе может быть автоматически выполнена загрузка данных биомедицинских изображений с помощью блока загрузки, может быть осуществлен автоматический сбор данных, на основе которых получают данные биомедицинских изображений, с помощью агента клиники, может быть автоматически выполнена трансформация загруженных данных биомедицинских изображений с помощью блока трансформации, может быть автоматически осуществлен поиск моделей компьютерного зрения с помощью блока поиска, может быть автоматически выполнено обучение найденных моделей компьютерного зрения с помощью блока обучения, может быть автоматически выполнена оценка лучшей выбранной обученной модели компьютерного зрения с помощью блока оценки.
В способе может быть осуществлен поиск модели до достижения заданных значений метрик либо до исчерпания бюджета на поиск.
В способе может быть осуществлено дообучение модели компьютерного зрения, найденной блоком поиска, с помощью обучающей выборки, в которую добавлены данные дополнительных биомедицинских изображений, полученные от блока трансформации, в том случае, если указанная модель не прошла валидацию. В способе может быть дополнительно инициирован повторный процесс поиска и обучения моделей компьютерного зрения для анализа биомедицинских изображений.
ОПИСАНИЕ ЧЕРТЕЖЕЙ
Реализация изобретения будет описана в дальнейшем в соответствии с прилагаемыми чертежами, которые представлены для пояснения сути изобретения и никоим образом не ограничивают область изобретения.
Заявляемое изобретение проиллюстрировано фигурами 1-6, на которых изображены:
Фиг. 1 - иллюстрирует пример общей архитектуры, частью которой является система автоматического машинного обучения (AutoML) моделей компьютерного зрения для анализа биомедицинских изображений.
Фиг. 2 - иллюстрирует общую схему построения AutoML моделей компьютерного зрения для анализа биомедицинских изображений с использованием гибридного интеллекта.
Фиг. 3 - иллюстрирует общую схему устройства агента обучения.
Фиг. 4 - иллюстрирует общую схему обновления AutoML моделей компьютерного зрения для анализа биомедицинских изображений.
Фиг. 5 - иллюстрирует общую схему устройства агента клиники.
Фиг. 6 - иллюстрирует общую схема вычислительного устройства для реализации настоящего изобретения.
ДЕТАЛЬНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ
В приведенном ниже подробном описании реализации изобретения приведены многочисленные детали реализации, призванные обеспечить отчетливое понимание настоящего изобретения. Однако, квалифицированному в предметной области специалисту будет очевидно, каким образом можно использовать настоящее изобретение, как с данными деталями реализации, так и без них. В других случаях хорошо известные методы, процедуры и компоненты не были описаны подробно, чтобы не затруднять излишне понимание особенностей настоящего изобретения.
Кроме того, из приведенного изложения будет ясно, что изобретение не ограничивается приведенной реализацией. Многочисленные возможные модификации, изменения, вариации и замены, сохраняющие суть и форму настоящего изобретения, будут очевидными для квалифицированных в предметной области специалистов.
Настоящее изобретение раскрывает систему автоматического машинного обучения (AutoML) моделей компьютерного зрения для анализа биомедицинских изображений. Система предназначена для автоматизации этапов разработки и обучения моделей компьютерного зрения в задачах анализа биомедицинских изображений. Биомедицинские изображения - это медицинские изображения, полученные различными методами, например, методами лучевой диагностики (рентгенологический, магнитно-резонансный, радионуклидный, ультразвуковой и др.) - снимки компьютерной томографии (КТ), снимки магнитно-резонансной томографии (МРТ), ультразвуковые снимки (УЗИ), снимки позитронно-эмиссионной томографии (ПЭТ), рентгеновские снимки, маммографические снимки, снимки ангиографических исследований, эластографические изображения и др.), с помощью эндоскопа (эндоскопические изображения), с помощью фотографических методов (например, медицинские фотографии состояния кожи и других поверхностных состояний, таких как нёбо, родимые пятна, родинки и др.) и др.
Задача построения моделей машинного обучения состоит из следующих этапов:
1. Сбор данных:
-доступ к источникам данных;
- техническая интеграция;
- валидация данных;
- скачивание данных;
- хранение данных;
- поиск данных.
2. Подготовка данных: нормирование, очистка, поиск выбросов.
3. Разделение подготовленных данных на тестовую, валидационную и обучающую выборки.
4. Выбор архитектуры модели.
5. Выбор гиперпараметров.
6. Обучение выбранной модели.
7. Оценка модели.
Агент Клиники обеспечивает автоматизацию забора данных из клиник, опираясь на систему правил и фильтров. Агент клиники так же отвечает за техническую интеграцию и скачивание данных, валидацию и хранение. В основе работы агента клиники лежат комплекты правил, фильтров и списки тегов DICOM. Опираясь на эти данные, возможно автоматизировать процессы доступа, технической интеграции, валидации, скачивания, хранения и поиска данных биомедицинских изображений. Сбор данных осуществляется из внутренних источников (например, минио и постгре баз данных, хранящих биомедицинские изображения) путем автоматического копирования в точку работы - на сервер, где будет запущена модель для обучения.
За разделение подготовленных данных на тестовую, валидационную и обучающую выборки, выбор архитектуры модели, выбор гиперпараметров, обучение выбранной модели, оценку модели отвечает Агент обучения, который собирает все действия в цепочку задач, выполняющихся на вычислительных ресурсах в последовательном режиме.
Автоматическое разделение на выборки опирается на имеющиеся в AutoML отрасли подходы, основываясь на анализе разметки в данных для разбиения выборок стратифицированно.
Выбор архитектуры модели выполняется на базе методов Neural Architecture Serach (NAS) - отрасли машинного обучения, решающей задачу поиска наилучшей модели в контексте обучающей выборки. В рамках данного изобретения применяется метод, основанный на адаптации NAS методов под особенности медицинских данных - малые размеры выборок, задача сегментации биомедицинских изображений, как ключевая задача анализа, использование уже существующих решений как точки старта для поиска моделей компьютерного зрения для анализа биомедицинских изображений.
Обучение найденной архитектуры выполняется так же в автоматическом режиме, что снимает необходимость ручных запусков и подборов параметров обучения, что снижает участие человека в данном цикле.
Оценка модели выполняется на базе подготовленного протокола, который позволяет оценить все необходимые метрики модели в автоматическом режиме.
На Фиг. 1 представлен пример общей архитектуры, частью которой является система автоматического машинного обучения (AutoML) моделей компьютерного зрения для анализа биомедицинских изображений.
Botkin Main Platform - основная платформа, центральное облако экосистемы Botkin.AI. Осуществляет взаимосвязь между всеми агентами и подсистемами, в том числе управляет потоками данных, используемых для обучения и разметки моделей. Здесь находятся следующие группы сервисов: 1. Data Management - сервисы управления данными системы: исследования, медицинские изображения, поддержка стандарта DICOM, управление датасетами и группами исследований (DataSet, DataFolder).
2. User Management - сервисы управления пользователями, выполняющие следующие функции:
- учети и регистрация пользователей;
- ведение прав пользователей;
- аудит;
- сервисы авторизации OAuth 2.
3. Agent Manager - сервисы управления инфраструктурой, выполняющие следующие функции:
- учет и реестр агентов, дескрипторов агентов;
- взаимодействие с API облачных провайдеров для поднятия виртуальных машин, развертывания локальных кластеров Kubernetes;
- взаимодействие с контроллерами кластеров Kubernetes для развертывания и обновления сервисов агентов.
4. AutoML Management - сервисы управления обучения моделей, выполняющие следующие функции:
- учет метрик обучения моделей (Leader Board);
- хранение артефактов моделей (Model Registry).
5. Process Schedule Management - сервис планирования процессов. Данный сервис выполняет следующие функции:
- назначение процесса (в том числе подпроцесса), выбор агента;
- контроль утилизации ресурсов.
6. Platform Controller - сервис координации процессов системы.
Botkin Secondary Platform - вторичная вспомогательная платформа Botkin.AL Она отличается от главной платформы тем, что здесь отсутствуют сервисы управления AutoML, а также задачи планирования процессов делегируются в главную платформу.
Inference Agent - агент вывода, задачей которого является обработка медицинских изображений с использованием уже обученных моделей.
Learning Agent - агент обучения, задачей которого является поиск и обучение новых моделей машинного обучения. Агент обучения содержит несколько подкомпонент: модуль взаимодействия с системой, модуль обучения моделей компьютерного зрения, модуль автоматической развертки модели в промышленный контур. Данный модуль разворачивается на серверах, имеющих достаточные вычислительные ресурсы. Может быть развернуто несколько копий.
Clinic Agent - агент клиники, разворачиваемый на стороне клиники и предоставляющий средства взаимодействия с информационными системами клиники.
Satellite - управляющий сервис агента.
ML Service - сервис, выполняющий обработку исследований моделью компьютерного зрения.
Report Service - сервис, генерирующий отчеты в DICOM стандарте, опираясь на результаты обработки серии исследований моделью машинного обучения.
Learning Service - сервис, выполняющий обучение моделей машинного обучения, включая алгоритмы машинного обучения.
Clinic Side - внутренняя сеть клиники.
Cloud Provider - поставщик облачных серверов.
HIS -информационная система клиники.
PACS - (англ. Picture Archiving and Communication System) — системы передачи и архивации DICOM изображений.
Scanners - устройства, выполняющие исследование (КТ аппарат, мат аппарат и др.).
User -пользователь системы.
Botkin Resource Layer - слой управления ресурсами.
3rd Party DICOM Viewer- просмотрщик для врачей, поставляемый третьей стороной, например веб-просмотрщик или автономный (standalone) просмотрщик, содержит все необходимые инструменты для анализа биомедицинских изображений, разметки биомедицинских изображений согласно требуем протоколам, а также взаимодействует с системой в части адресации данных и задач.
На Фиг. 2 представлена общая схема построения моделей компьютерного зрения для анализа биомедицинских изображений на основе двух ключевых технологий - технологии AutoML, автоматизирующей рутинную работу специалистов по компьютерному зрению, и гибридного интеллекта - группы методов, позволяющих учитывать обратную связь от человека (например, радиолога) и использовать ее для обновления AutoML моделей. Этапы, на которых используются AutoML и гибридный интеллект, выделены цветом. Например, врач(и) размечает пул данных биомедицинских изображений. В автоматическом режиме данные выгружаются на сервер для обучения. Запускается алгоритм AutoML, состоящий из следующих шагов: подготовка данных, поиск подходящих архитектур моделей, обучение выбранных архитектур, отбор лучшей модели, тестирование на отложенной выборке. Если качество модели превысило заданный порог, происходит обновление модели в промышленном контуре, иначе этот шаг пропускается. Данные обрабатываются текущей версией модели и предоставляются врачу на валидацию. При неудовлетворительном результате валидации (FAIL), данные возвращаются на разметку и процесс повторяется.
На Фиг. 3 приведена общая схема устройства агента обучения.
Агенты обучения - это управляемая сервисом Satellite группа сервисов, предназначенная для обучения моделей искусственного интеллекта для задач анализа биомедицинских изображений.
На Фиг. 3 представлены следующие сервисы агента обучения:
1. Satellite - управляющий сервис агента.
2. Learning Service - сервис, выполняющий обучение. Сервис состоит из следующих компонент:
- загрузчик данных (Data Loader) - блок, выполняющий загрузку данных, необходимых для обучения и тестирования моделей, из хранилища непосредственно на сервер, где развернут агент;
- модуль подготовки данных (Data Preprocessor) - блок, выполняющий трансформацию данных, полученных от блока загрузки данных, в формат, принимаемый блоками поиска моделей и их обучения;
- блок поиска модели (Model Search) - блок, реализующий наборы методов AutoML для поиска и оптимизации метапараметров. Запускает и контролирует процесс поиска модели;
- блок обучения модели (Model Train) - блок, выполняющий обучение модели по найденным параметрам архитектуры. При необходимости, может инициировать повторный процесс поиска обучения; (В случае некорректного завершения обучения или проблем инфраструктурного характера (временные проблемы с связью, перезагрузка оборудования и др.).
- блок тестирования модели (Model Test) - блок, выполняющий тестирование и оценку метрик модели на отложенной выборке. При необходимости, может инициировать повторный процесс поиска обучения, например, при недостижении заданных значений метрик на тестовой выборке. На Фиг. 4 представлена общая схема обновления AutoML моделей компьютерного зрения для анализа биомедицинских изображений.
На Фиг. 5 представлена общая схема устройства агента клиники.
Агенты клиники - это управляемая сервисом Satellite группа сервисов, разворачиваемая на стороне клиники, предназначенная для интеграции с информационными системами клиники, аппаратами, инструментами радиологов и т.д. Агент клиники периодически, например, один раз в день в полночь, выбирает все исследования, попавшие в PACS клиники за последние 24 часа. Далее агент клиники отправляет собранные данные биомедицинских изображений на обработку в основную или вспомогательную платформу и возвращает результаты анализа биомедицинских изображений ответственному врачу.
Ниже приведен пример автоматического машинного обучения (AutoML) моделей компьютерного зрения для анализа маммографических изображений.
Агент обучения загружает из мест хранения, указанных в файле конфигурации, данные маммографических исследований в виде изображений и созданные аннотации к указанным изображениям. Аннотация создается врачами, и обычно состоит из класса исследования (норма или патология, например, рак молочной железы) и множества регионов интереса, привязанных к маммографическому изображению. В файле конфигурации указываются необходимые параметры для работы агента обучения, например, бюджет на поиск (сколько часов вычислительных ресурсов можно потратить на поиск), тип решаемой задачи (классификация, сегментация), сервисная информация (например, адреса серверов легирования), доля обучающих и тестовых примеров в выборке, параметры изображений в исследовании (их число) и количество каналов (классов) на которые происходит разбиение выборок и т.д. Далее агент обучения обрабатывает полученные данные (например, для сырых данных из DICOM окон просмотра, заложенных в файле, определяет проекции снимка) и сохраняет данные в принятом формате на сервере (например, в виде бинарных файлов, содержащих 4 изображения (изображения каждой молочной железы в двух проекциях, и изображения регионов интереса). Далее агент обучения запускает методы для подготовки разбиения данных на обучающие и тестовые данные. Например, стратифицированное разбиение по наличию нормы и патологии на две выборки согласно заданным долям. Один пациент может войти только в одну выборку - обучающую или тестовую, даже если у него больше одного исследования. Далее агент обучения запускает методы обучения, представляющие собой вариации метода под названием Neural Architecture Search (NAS), основанного на градиентом поиске архитектуры. Для этого используется базовая архитектура, состоящая из крупных блоков (например, Linet). Каждый блок ищется путем оптимизации связей между узлами. Таким образом, процесс поиска - это поиск такого набора весов, при котором достигается минимум ошибки обучения. Сама итоговая архитектура получается путем бинаризации (удаления) связей, которые имеют слишком низкий вес. В процессе обучения используются унифицированные модели, отличающиеся лишь параметрами. Легирование происходит в сервис ML Flow. На каждой эпохе обучения DS (Data Science) специалист имеет доступ к логам для оценки перформанса модели. Поиск подходящих моделей происходит до достижения заданных значений метрик. Поиск осуществляется путем запуска метода обучения с разными метапараметрами (размер шага обучения, параметров регуляризации, параметров аугментации данных и т.д.). Критерием выбора моделей для анализа маммограмм является, например, максимизация значения метрики AUC (площадь под ROC-кривой) для определения нормы/патологии для исследования на всей тестовой выборке. Традиционный порог значения AUC = 0.85. При его достижении обучение считается успешно завершенным, либо до исчерпания бюджета на поиск. Бюджет - это количество машино-часов, отведенных на поиск. Если за отведённое время не достигнуто заданное качество, процесс завершается. В этом случае DS специалист получает уведомление с указанием причины остановки «исчерпан бюджет на поиск». Если на какой-либо эпохе достигнуто качество модели, агент обучения выполняет развертывание модели в контур валидации. Для валидации модели формируется валидационный датасет Валидационная выборка создается из отдельного источника данных, который не представлен в тестовом или обучающем датасете, в остальном процесс аналогичен процессу создания обучающей и тестовой выборок. Далее запускается workflow, который отправляет маммографические данные из валидационного датасета на обученную модель, которая производит обработку, и в результате получают маммографические изображения с аннотацией, сгенерированный моделью. Маммографические изображения, обработанные обученной моделью, назначаются на врача, который проверяет качество работы модели на предоставленных данных. В случае, если модель не прошла валидацию, как правило принимается решение о добавлении обучающих данных и повторении процесса обучения. На Фиг. 6 представлена общая схема вычислительного устройства (600), обеспечивающего обработку данных, необходимую для реализации заявленного решения.
В общем случае устройство (600) содержит такие компоненты, как: один или более процессоров (601), по меньшей мере одну память (602), средство хранения данных (603), интерфейсы ввода/вывода (604), средство В/В (605), средства сетевого взаимодействия (606).
Процессор (601) устройства выполняет основные вычислительные операции, необходимые для функционирования устройства (600) или функциональности одного или более его компонентов. Процессор (601) исполняет необходимые машиночитаемые команды, содержащиеся в оперативной памяти (602).
Память (602), как правило, выполнена в виде ОЗУ и содержит необходимую программную логику, обеспечивающую требуемый функционал.
Средство хранения данных (603) может выполняться в виде HDD, SSD дисков, рейд массива, сетевого хранилища, флэш-памяти, оптических накопителей информации (CD, DVD, MD, Blue-Ray дисков) и т.п. Средство (603) позволяет выполнять долгосрочное хранение различного вида информации.
Интерфейсы (604) представляют собой стандартные средства для подключения и работы с серверной частью, например, USB, RS232, RJ45, LPT, COM, HDMI, PS/2, Lightning, FireWire и т.п.
Выбор интерфейсов (604) зависит от конкретного исполнения устройства (N00), которое может представлять собой персональный компьютер, мейнфрейм, серверный кластер, тонкий клиент, смартфон, ноутбук и т.п.
В качестве средств В/В данных (605) в любом воплощении системы должна использоваться клавиатура. Аппаратное исполнение клавиатуры может быть любым известным: это может быть, как встроенная клавиатура, используемая на ноутбуке или нетбуке, так и обособленное устройство, подключенное к настольному компьютеру, серверу или иному компьютерному устройству. Подключение при этом может быть, как проводным, при котором соединительный кабель клавиатуры подключен к порту PS/2 или USB, расположенному на системном блоке настольного компьютера, так и беспроводным, при котором клавиатура осуществляет обмен данными по каналу беспроводной связи, например, радиоканалу, с базовой станцией, которая, в свою очередь, непосредственно подключена к системному блоку, например, к одному из USB- портов. Помимо клавиатуры, в составе средств В/В данных также может использоваться: джойстик, дисплей (сенсорный дисплей), проектор, тачпад, манипулятор мышь, трекбол, световое перо, динамики, микрофон и т.п.
Средства сетевого взаимодействия (606) выбираются из устройств, обеспечивающих сетевой прием и передачу данных, например, Ethernet карту, WLAN/Wi-Fi модуль, Bluetooth модуль, BLE модуль, NFC модуль, IrDa, RFID модуль, GSM модем и т.п. С помощью средств (605) обеспечивается организация обмена данными по проводному или беспроводному каналу передачи данных, например, WAN, PAN, ЛВС (LAN), Интранет, Интернет, WLAN, WMAN или GSM, 3G, 4G, 5G.
Компоненты устройства (600) сопряжены посредством общей шины передачи данных (607).
В настоящих материалах заявки представлено предпочтительное раскрытие осуществления заявленного технического решения, которое не должно использоваться как ограничивающее иные, частные воплощения его реализации, которые не выходят за рамки испрашиваемого объема правовой охраны и являются очевидными для специалистов в соответствующей области техники.
Специалисту в данной области техники должно быть понятно, что различные вариации заявляемого способа и системы не изменяют сущность изобретения, а лишь определяют его конкретные воплощения и применения.

Claims

ФОРМУЛА ИЗОБРЕТЕНИЯ
1. Компьютерно-реализуемая система автоматического машинного обучения (AutoML) моделей компьютерного зрения для анализа биомедицинских изображений, содержащая: базу данных, причем база данных хранит данные биомедицинских изображений; причем данные, на основе которых получают данные биомедицинских изображений, собирают автоматически; сервер, содержащий:
- блок загрузки, причем с помощью блока загрузки автоматически выполняют загрузку данных биомедицинских изображений, необходимых для тестирования, обучения и валидации моделей компьютерного зрения, из базы данных;
- блок трансформации, причем с помощью блока трансформации автоматически выполняют трансформацию данных биомедицинских изображений, полученных от блока загрузки, в формат, принимаемый блоками поиска, обучения и оценки;
- блок поиска, причем с помощью блока поиска автоматически осуществляют поиск моделей компьютерного зрения с помощью обучающей и тестовой выборок, сформированных на основе данных биомедицинских изображений, полученных от блока трансформации, и автоматически осуществляют поиск и оптимизацию параметров архитектур найденных моделей;
- блок обучения, причем с помощью блока обучения автоматически выполняют обучение моделей компьютерного зрения, найденных блоком поиска, с помощью обучающей выборки, сформированной на основе данных биомедицинских изображений, полученных от блока трансформации, и с помощью параметров архитектуры, полученных от блока поиска; причем автоматически выбирают лучшую из указанных обученных моделей и передают выбранную модель в блок оценки;
- блок оценки, причем с помощью блока оценки автоматически выполняют оценку лучшей выбранной модели компьютерного зрения, обученной блоком обучения, с помощью валидационной выборки, сформированной на основе данных биомедицинских изображений, полученных от блока трансформации.
2. Система по п. 1 , характеризующаяся тем, что с помощью агента клиники автоматически осуществляют сбор данных, на основе которых получают данные биомедицинских изображений.
3. Система по п. 1 , характеризующаяся тем, что с помощью блока поиска осуществляют поиск модели до достижения заданных значений метрик либо до исчерпания бюджета на поиск.
4. Система по п. 1 , характеризующаяся тем, что с помощью блока обучения осуществляют дообучение модели компьютерного зрения, найденной блоком поиска, с помощью обучающей выборки, в которую добавлены данные дополнительных биомедицинских изображений, полученные от блока трансформации, в том случае, если указанная модель не прошла валидацию.
5. Система по п. 1, характеризующаяся тем, что блоки обучения и оценки выполнены с возможностью инициировать повторный процесс поиска и обучения моделей компьютерного зрения для анализа биомедицинских изображений.
6. Компьютерно-реализуемый способ автоматического машинного обучения (AutoML) моделей компьютерного зрения для анализа биомедицинских изображений, в котором:
- автоматически выполняют загрузку данных биомедицинских изображений, необходимых для тестирования, обучения и валидации моделей компьютерного зрения; причем данные, на основе которых получают данные биомедицинских изображений, собирают автоматически;
- автоматически выполняют трансформацию загруженных данных биомедицинских изображений в формат, принимаемый для автоматического поиска, обучения и оценки;
- автоматически осуществляют поиск моделей компьютерного зрения с помощью обучающей и тестовой выборок, сформированных на основе трансформированных данных биомедицинских изображений, и автоматически осуществляют поиск и оптимизацию параметров архитектур найденных моделей;
- автоматически выполняют обучение найденных моделей компьютерного зрения с помощью обучающей выборки, сформированной на основе трансформированных данных биомедицинских изображений, и с помощью найденных и оптимизированных параметров архитектур найденных моделей; причем автоматически выбирают лучшую из указанных обученных моделей;
- автоматически выполняют оценку лучшей выбранной обученной модели компьютерного зрения с помощью валидационной выборки, сформированной на основе трансформированных данных биомедицинских изображений.
7. Способ по п. 6, характеризующийся тем, что с помощью блока загрузки автоматически выполняют загрузку данных биомедицинских изображений, с помощью агента клиники осуществляют автоматический сбор данных, на основе которых получают данные биомедицинских изображений, с помощью блока трансформации автоматически выполняют трансформацию загруженных данных биомедицинских изображений, с помощью блока поиска автоматически осуществляют поиск моделей компьютерного зрения, с помощью блока обучения автоматически выполняют обучение найденных моделей компьютерного зрения, с помощью блока оценки автоматически выполняют оценку лучшей выбранной обученной модели компьютерного зрения.
8. Способ по п. 6, характеризующийся тем, что осуществляют поиск модели до достижения заданных значений метрик либо до исчерпания бюджета на поиск.
9. Способ по п. 6, характеризующийся тем, что осуществляют дообучение модели компьютерного зрения, найденной блоком поиска, с помощью обучающей выборки, в которую добавлены данные дополнительных биомедицинских изображений, полученные от блока трансформации, в том случае, если указанная модель не прошла валидацию.
10. Способ по п. 6, характеризующийся тем, что дополнительно инициируют повторный процесс поиска и обучения моделей компьютерного зрения для анализа биомедицинских изображений.
18
PCT/RU2021/000440 2021-10-14 2021-10-18 СИСТЕМА И СПОСОБ АВТОМАТИЧЕСКОГО МАШИННОГО ОБУЧЕНИЯ (AutoML) МОДЕЛЕЙ КОМПЬЮТЕРНОГО ЗРЕНИЯ ДЛЯ АНАЛИЗА БИОМЕДИЦИНСКИХ ИЗОБРАЖЕНИЙ Ceased WO2023063845A1 (ru)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
RU2021129912A RU2787558C1 (ru) 2021-10-14 СИСТЕМА И СПОСОБ АВТОМАТИЧЕСКОГО МАШИННОГО ОБУЧЕНИЯ (AutoML) МОДЕЛЕЙ КОМПЬЮТЕРНОГО ЗРЕНИЯ ДЛЯ АНАЛИЗА БИОМЕДИЦИНСКИХ ИЗОБРАЖЕНИЙ
RU2021129912 2021-10-14

Publications (1)

Publication Number Publication Date
WO2023063845A1 true WO2023063845A1 (ru) 2023-04-20

Family

ID=85987652

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/RU2021/000440 Ceased WO2023063845A1 (ru) 2021-10-14 2021-10-18 СИСТЕМА И СПОСОБ АВТОМАТИЧЕСКОГО МАШИННОГО ОБУЧЕНИЯ (AutoML) МОДЕЛЕЙ КОМПЬЮТЕРНОГО ЗРЕНИЯ ДЛЯ АНАЛИЗА БИОМЕДИЦИНСКИХ ИЗОБРАЖЕНИЙ

Country Status (1)

Country Link
WO (1) WO2023063845A1 (ru)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160364527A1 (en) * 2015-06-12 2016-12-15 Merge Healthcare Incorporated Methods and Systems for Automatically Analyzing Clinical Images and Determining when Additional Imaging May Aid a Diagnosis
WO2021035412A1 (zh) * 2019-08-23 2021-03-04 华为技术有限公司 一种自动机器学习AutoML系统、方法及设备
US11094034B2 (en) * 2018-06-26 2021-08-17 International Business Machines Corporation Determining appropriate medical image processing pipeline based on machine learning

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160364527A1 (en) * 2015-06-12 2016-12-15 Merge Healthcare Incorporated Methods and Systems for Automatically Analyzing Clinical Images and Determining when Additional Imaging May Aid a Diagnosis
US10282835B2 (en) * 2015-06-12 2019-05-07 International Business Machines Corporation Methods and systems for automatically analyzing clinical images using models developed using machine learning based on graphical reporting
US11094034B2 (en) * 2018-06-26 2021-08-17 International Business Machines Corporation Determining appropriate medical image processing pipeline based on machine learning
WO2021035412A1 (zh) * 2019-08-23 2021-03-04 华为技术有限公司 一种自动机器学习AutoML系统、方法及设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GESSERT NILS ET AL.: "Efficient Neural Architecture Search on Low-Dimensional Data for OCT Image Segmentation", MEDICAL IMAGING WITH DEEP LEARNING 2019 CONFERENCE, XP081273317 *
YAN JIANGCHENG, RUI SHI, BINGBING NI: "MedMNIST Classification Decathlon: A Lightweight AutoML Benchmark for Medical Image Analysis", IEEE 18TH INTERNATIONAL SYMPOSIUM ON BIOMEDICAL IMAGING, 28 October 2020 (2020-10-28), pages 1 - 5, XP093061894 *

Similar Documents

Publication Publication Date Title
Azizi et al. Robust and data-efficient generalization of self-supervised machine learning for diagnostic imaging
KR101818074B1 (ko) 인공지능 기반 의료용 자동 진단 보조 방법 및 그 시스템
US20170011185A1 (en) Artificial neural network and a method for the classification of medical image data records
WO2015023732A1 (en) Systems, methods and devices for analyzing quantitative information obtained from radiological images
KR20220038017A (ko) 임상 워크플로 결정을 자동화하고 우선 순위 판독 표시자를 생성하기 위한 시스템 및 방법
CN112561869A (zh) 一种胰腺神经内分泌肿瘤术后复发风险预测方法
WO2020050721A1 (en) Determination of a growth rate of an object in 3d data sets using deep learning
US20230118546A1 (en) High-definition labeling system for medical imaging AI algorithms
Graziani et al. Breast histopathology with high-performance computing and deep learning
US20230290485A1 (en) Artificial intelligence prioritization of abnormal radiology scans
EP4290527A1 (en) Bladder lesion diagnosis method using neural network, and system thereof
CN113034428A (zh) 用于在头部ct平扫图像中检测急性颅内出血的深度学习系统
RU2787558C1 (ru) СИСТЕМА И СПОСОБ АВТОМАТИЧЕСКОГО МАШИННОГО ОБУЧЕНИЯ (AutoML) МОДЕЛЕЙ КОМПЬЮТЕРНОГО ЗРЕНИЯ ДЛЯ АНАЛИЗА БИОМЕДИЦИНСКИХ ИЗОБРАЖЕНИЙ
WO2023063845A1 (ru) СИСТЕМА И СПОСОБ АВТОМАТИЧЕСКОГО МАШИННОГО ОБУЧЕНИЯ (AutoML) МОДЕЛЕЙ КОМПЬЮТЕРНОГО ЗРЕНИЯ ДЛЯ АНАЛИЗА БИОМЕДИЦИНСКИХ ИЗОБРАЖЕНИЙ
US20240087697A1 (en) Methods and systems for providing a template data structure for a medical report
CN118262913A (zh) 基于多尺度病理图像的预后分析方法、系统、设备及介质
JP2023537390A (ja) 電子画像を処理してデータの自動ルーティングを提供するためのシステム及び方法
Jesus et al. A Vendor Neutral Archive with MONAI for Automatic Medical Image Analysis
WO2022055394A1 (ru) Цифровая компьютерно-реализуемая платформа для создания медицинских приложений с использованием искусственного интеллекта и способ её работы
CN119131403B (zh) 基于自监督学习的脑出血分割预测模型的处理方法及装置
JP2020038723A (ja) 情報処理装置、情報処理方法、情報処理システム、およびプログラム
KR102873090B1 (ko) 암 예후 및 응급질환 예측을 위한 컨테이너 기반 디지털트윈 시스템 및 그 방법
US20230238096A1 (en) Method and system for providing a medical report
EP4657453A1 (en) System and method for automation of patient discovery and workflow distribution
US20240203591A1 (en) System and method for providing an analytical result based on a medical data set using ml algorithms

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21960765

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21960765

Country of ref document: EP

Kind code of ref document: A1

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 23/09/2024)

122 Ep: pct application non-entry in european phase

Ref document number: 21960765

Country of ref document: EP

Kind code of ref document: A1