RU2791415C1 - Method for audiovisual recognition of personal protection equipment on human face - Google Patents
Method for audiovisual recognition of personal protection equipment on human face Download PDFInfo
- Publication number
- RU2791415C1 RU2791415C1 RU2022114638A RU2022114638A RU2791415C1 RU 2791415 C1 RU2791415 C1 RU 2791415C1 RU 2022114638 A RU2022114638 A RU 2022114638A RU 2022114638 A RU2022114638 A RU 2022114638A RU 2791415 C1 RU2791415 C1 RU 2791415C1
- Authority
- RU
- Russia
- Prior art keywords
- face
- people
- protective equipment
- personal protective
- audio
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 230000001681 protective effect Effects 0.000 claims abstract description 75
- 238000012545 processing Methods 0.000 claims abstract description 20
- 230000000007 visual effect Effects 0.000 claims description 25
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 5
- 230000001360 synchronised effect Effects 0.000 claims description 2
- 238000000926 separation method Methods 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 19
- 238000004458 analytical method Methods 0.000 abstract description 12
- 230000001815 facial effect Effects 0.000 abstract description 11
- 230000000694 effects Effects 0.000 abstract description 6
- 238000012544 monitoring process Methods 0.000 abstract description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 230000003287 optical effect Effects 0.000 abstract description 4
- 230000003993 interaction Effects 0.000 abstract description 3
- 239000000126 substance Substances 0.000 abstract 1
- 238000001514 detection method Methods 0.000 description 20
- 239000012634 fragment Substances 0.000 description 13
- 239000013598 vector Substances 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000012549 training Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000003062 neural network model Methods 0.000 description 6
- 208000032443 Masked facies Diseases 0.000 description 5
- 238000013186 photoplethysmography Methods 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000036760 body temperature Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000003909 pattern recognition Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000013481 data capture Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 239000004744 fabric Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 206010002953 Aphonia Diseases 0.000 description 1
- 241000006464 Asura Species 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 208000025721 COVID-19 Diseases 0.000 description 1
- 208000001528 Coronaviridae Infections Diseases 0.000 description 1
- 206010011376 Crepitations Diseases 0.000 description 1
- 208000037656 Respiratory Sounds Diseases 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 210000004204 blood vessel Anatomy 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000000946 synaptic effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Abstract
Description
Заявленное изобретение относится к области искусственного интеллекта, в частности, к цифровым методам автоматического мониторинга уровня безопасности людей, а также к человеко-машинному взаимодействию. Оно может использоваться в ситуациях, когда необходимо эффективно предотвращать вспышки различных эпидемий (COVID-19 и др.) и дальнейшего их распространения или же в случаях, когда возникает потребность в автоматической проверке наличия средств индивидуальной защиты на лицах медицинских работников и лиц других профессий, которые должны перемещаться по территориям различных учреждений (медицинских, промышленных, торговых, банковских, страховых и т.д.) и контактировать с другими людьми исключительно в различных вариациях защитных масок (медицинские, тканевые и т.д.), экранов, респираторов.The claimed invention relates to the field of artificial intelligence, in particular, to digital methods for automatically monitoring the level of people's safety, as well as to human-machine interaction. It can be used in situations where it is necessary to effectively prevent outbreaks of various epidemics (COVID-19, etc.) and their further spread, or in cases where there is a need to automatically check the availability of personal protective equipment on the faces of medical workers and other professions who must move around the territories of various institutions (medical, industrial, trade, banking, insurance, etc.) and contact other people only in various variations of protective masks (medical, fabric, etc.), screens, respirators.
Данное изобретение способно производить как интеллектуальный анализ голосовых характеристик людей по их речи для определения наличия средств индивидуальной защиты в процессе говорения, так и интеллектуальный анализ лицевых характеристик людей по видеоданным для локализации и детекции наличия средств индивидуальной защиты в процессе выполнения каких-либо действий в определенный момент времени. Поддержка одновременной обработки обоих модальностей (аудио и видео) позволяет достичь более точных аудиовизуальных предсказаний для итоговых действий в зависимости от определенной степени индивидуальной защиты на лице человека.This invention is capable of both intellectual analysis of the voice characteristics of people from their speech to determine the presence of personal protective equipment in the process of speaking, and intellectual analysis of facial characteristics of people from video data to localize and detect the presence of personal protective equipment in the process of performing any actions at a certain moment time. Support for simultaneous processing of both modalities (audio and video) allows you to achieve more accurate audiovisual predictions for the final actions, depending on a certain degree of individual protection on a person's face.
Для решения задач автоматического мониторинга уровня безопасности людей возможно использовать передовые цифровые системы на базе универсальных способов обработки информации (аудио, видео). Так, например, компания «ВижнЛабс» (VisionLabs), является официальным резидентом инновационного центра «Сколково», входит в экосистему «Сбер» и осуществляет научно-исследовательскую деятельность в сферах компьютерного зрения, машинного обучения, анализа визуальных данных и робототехники. К основным программно-аппаратным решениям и цифровым сервисам данной компании можно отнести биометрический терминал контроля и управления доступом LUNA АСЕ (https://www.visionlabs.ru/ru/products/luna-ace), который способен решать множество задача связанных с увеличением пропускной способности на различных проходных с соблюдением всех обязательных мер безопасности (например, распознавание лиц под воздействием внешних факторов: борода, очки, изменение прически головные уборы, медицинские маски и др.). Кроме того, используемая технология Liveness позволяет защищать систему от различных спуфинг-атак, что приводит к исключению использования распечатанных фотографий или видео, которое воспроизводится на экране мобильного или иного устройства.To solve the problems of automatic monitoring of the level of people's safety, it is possible to use advanced digital systems based on universal methods of information processing (audio, video). For example, the VisionLabs company is an official resident of the Skolkovo Innovation Center, is part of the Sber ecosystem and carries out research activities in the areas of computer vision, machine learning, visual data analysis and robotics. The main software and hardware solutions and digital services of this company include the LUNA ACE biometric terminal for access control and management (https://www.visionlabs.ru/ru/products/luna-ace), which is able to solve many problems associated with increasing bandwidth abilities at various checkpoints in compliance with all mandatory security measures (for example, face recognition under the influence of external factors: a beard, glasses, changing hairstyles, hats, medical masks, etc.). In addition, the Liveness technology used allows you to protect the system from various spoofing attacks, which leads to the exclusion of the use of printed photos or videos that are played on the screen of a mobile or other device.
В свою очередь, Голландская компания «Aerialtronics», специализирующаяся на разработке комплексных решений, на базе визуального искусственного интеллекта и данных получаемых от Интернет вещей представила программное обеспечение (ПО) для локализации и идентификации различных вариантов защитных масок на лицах людей (https://www.aerialtromcs.com/en/products/face-mask-detection-software#featuresfacemask). К основным отличительным характеристикам ПО компания относит: 1) точную локализацию и идентификацию защитных масок на лицах людей; 2) масштабируемость ПО (можно использовать любой тип IP камер); конфиденциальность анализируемых визуальных данных; 4) мобильность (получение уведомления на мобильные устройства в режиме реального времени, в случаях когда люди не носят защитных масок или носят их неверно).In turn, the Dutch company Aerialtronics, which specializes in the development of integrated solutions based on visual artificial intelligence and data obtained from the Internet of Things, presented software for localizing and identifying various options for protective masks on people's faces (https://www. .aerialtromcs.com/en/products/face-mask-detection-software#featuresfacemask). The company refers to the main distinguishing characteristics of the software: 1) accurate localization and identification of protective masks on people's faces; 2) software scalability (you can use any type of IP cameras); confidentiality of analyzed visual data; 4) mobility (receiving notifications on mobile devices in real time when people do not wear protective masks or wear them incorrectly).
Другая Европейская компания «Grekkom Technologies)) из Испании разрабатывает интеллектуальные решения, направленные на анализ визуальных данных. Так, была представлена система обнаружения защитных масок на лицах людей (https://grekkom.com/en/products/our-analytics/facial-recognition/face-mask-detection/), которая способна функционировать в условиях плохого освещения и при необходимости отправлять оповещения или сигналы тревоги в режиме реального времени.Another European company "Grekkom Technologies") from Spain develops intelligent solutions aimed at analyzing visual data. Thus, a system for detecting protective masks on people's faces was presented (https://grekkom.com/en/products/our-analytics/facial-recognition/face-mask-detection/), which is able to function in poor lighting conditions and, if necessary, send alerts or alarms in real time.
Компания «Asura Technologies)) головной офис которой расположен в Венгрии ведет активные разработки систем видеоаналитики нового поколения и ПО для обнаружения защитных масок на лицах людей в режиме реального времени (https://asuratechnologies.com/mask-detection/). По заявлениям данной компании ПО способно обнаруживать различные вариации защитных масок независимо от рисунков или иллюстраций, которые нанесены поверх них и даже в условиях большого скопления людей. Также имеется утверждение, о том, что ПО может быть интегрировано в системы наблюдения и идеально подходит для таких областей применения, как автоматический контроль доступа в торговых помещениях, гостиничном секторе или общественном транспорте, с высокой точностью определяя людей без защитных масок и присылая уведомления или другие автоматические оповещения на мобильные устройства людей, отвечающих за общую безопасность.Asura Technologies, whose head office is located in Hungary, is actively developing new generation video analytics systems and software for detecting protective masks on people's faces in real time (https://asuratechnologies.com/mask-detection/). According to the statements of this company, the software is able to detect various variations of protective masks, regardless of the drawings or illustrations that are applied on top of them, and even in crowded conditions. There is also a claim that the software can be integrated into surveillance systems and is ideal for applications such as automatic access control in retail premises, the hospitality sector or public transport, identifying people without protective masks with high accuracy and sending notifications or other automatic alerts on mobile devices of people responsible for general security.
Стоит выделить ведущего мирового поставщика инновационных продуктов и систем безопасности, а именно Китайскую компанию «Hikvision». Разработчики данной компании предлагают комплексное решение для обнаружения защитных масок на лицах людей (https://www.hikvision.com/pt/solutions/solutions-by-application/mask-detection/). Их отличительная особенность заключается в предоставлении не только ПО для решения поставленных задач связанных с обнаружением защитных масок на лицах людей, но и аппаратного обеспечения, которое в связке с их ПО работает как единый механизм.It is worth highlighting the world's leading supplier of innovative products and security systems, namely the Chinese company Hikvision. The developers of this company offer a comprehensive solution for detecting protective masks on people's faces (https://www.hikvision.com/pt/solutions/solutions-by-application/mask-detection/). Their distinctive feature lies in the provision of not only software for solving the assigned tasks related to the detection of protective masks on people's faces, but also hardware, which, in conjunction with their software, works as a single mechanism.
Американские компании «Milestone» и «6SS» в тесном сотрудничестве разработали модуль обнаружения различных защитных масок на лицах людей (https://www.milestonesys.com/marketplace/6ss/6ss-iva---face-mask-detection/), для определения ситуаций, когда ношение масок не соблюдается. Данный модуль позволяет осуществлять захват видеоинформации и в режиме реального времени производить визуальный анализ контролируемой среды для определения находится ли человек в маске или он без нее. Ключевая особенность заявленного модуля состоит в его возможной интеграции с системой контроля доступа или другими системами сторонних разработчиков ПО, а также производителей аппаратных средств (IP камеры и т.д.).The American companies "Milestone" and "6SS" in close cooperation have developed a module for detecting various protective masks on people's faces (https://www.milestonesys.com/marketplace/6ss/6ss-iva---face-mask-detection/), to identify situations where the wearing of masks is not enforced. This module allows capturing video information and real-time visual analysis of the controlled environment to determine whether a person is wearing a mask or not. The key feature of the claimed module is its possible integration with the access control system or other systems of third-party software developers, as well as hardware manufacturers (IP cameras, etc.).
Кроме описанных решений также имеются другие способы и устройства для визуального анализа лицевых характеристик человека для определения различных средств индивидуальной защиты на его лице. Известен способ многоклассового распознавания объектов на изображениях с помощью глубоких сверточных нейросетей (патент RU 2710942 С1), относящийся к интеллектуальным автоматизированным системам и направлен на повышение точности при различных уровнях освещенности и окклюзиях. Представленный способ делит весь процесс многоклассового распознавания на связанные между собой этапы которые позволяют: 1) извлекать векторы признаков из объектов на изображениях; 2) применять преобразование главных компонентов к извлеченных векторам и упорядочивать их по собственным значениям; 3) делить полученное количество главных компонентов на последовательности таким образом, чтобы они отличались друг от друга; 4) сопоставлять объекты из входного изображения с обучающим подмножеством изображений для классификации. Такой способ может быть полезен, например при задачах более детального извлечения признаков из объектов на изображениях. В роли интересующих объектов могут выступать лица людей в различных вариациях защитных масок. К довольно значительному недостатку данного способа следует отнести его сложность обработки входных данных (изображений), что сказывается на невозможности реализации различных мобильных автоматизированных систем, которые должны функционировать в режиме реального времени с меньшим количеством затрачиваемых ресурсов для различных вычислений.In addition to the described solutions, there are also other methods and devices for visual analysis of the facial characteristics of a person to determine the various personal protective equipment on his face. A known method of multi-class recognition of objects in images using deep convolutional neural networks (patent RU 2710942 C1), related to intelligent automated systems and is aimed at improving accuracy at different levels of illumination and occlusions. The presented method divides the entire process of multiclass recognition into interconnected stages that allow: 1) to extract feature vectors from objects in images; 2) apply a principal component transformation to the extracted vectors and order them by eigenvalues; 3) divide the obtained number of main components into sequences so that they differ from each other; 4) match objects from the input image with the training subset of images for classification. This method can be useful, for example, in the tasks of more detailed extraction of features from objects in images. The faces of people in various variations of protective masks can act as objects of interest. A rather significant disadvantage of this method is its complexity of processing input data (images), which affects the impossibility of implementing various mobile automated systems that should operate in real time with fewer resources expended for various calculations.
Известны способ и система для создания мимики на основе текста (патент RU 2723454 С1). Изобретение относится к процессу создания видеопоследовательности с анимированными изображениями 3D-модели головы с размещенной на ней динамической текстурой защитной маски на основе данных, которые получены от речевого сигнала. Речевой сигнал генерируется с помощью средств синтеза речи (например, система преобразования текста в речь) эмитирующих человеческий голос, который соответствует акустическим параметрам голоса диктора. Технический результат представленного способа и системы состоит из таких этапов, как: 1) получение данных минимум от одного речевого сигнала; 2) разделение участков полученного речевого сигнала на временные последовательности (окна); 3) формирование для каждого временного окна частотного изображения; 4) образование лицевой маски на основе частотных наборов изображений; 5) размещение лицевой маски на 3D-модель головы для формирования видеопоследовательности. Такой способ и система являются полезными, например для генерации искусственного набора данных с лицами людей с дальнейшим наложением на них различных вариаций защитных масок.Known method and system for creating facial expressions based on text (patent RU 2723454 C1). The invention relates to a process for creating a video sequence with animated images of a 3D head model with a dynamic texture of a protective mask placed on it based on data obtained from a speech signal. The speech signal is generated using speech synthesis tools (for example, a text-to-speech system) that emit a human voice that matches the acoustic parameters of the speaker's voice. The technical result of the presented method and system consists of such stages as: 1) obtaining data from at least one speech signal; 2) division of sections of the received speech signal into time sequences (windows); 3) formation of a frequency image for each time window; 4) formation of a face mask based on frequency sets of images; 5) placing a face mask on a 3D head model to form a video sequence. Such a method and system is useful, for example, for generating an artificial data set with people's faces with further imposition of various protective mask variations on them.
Известны способ и устройство для систем детектирования/распознавания лица (патент RU 2741768 С2), предназначенные для повышения безопасности при попытках осуществить спуфинг-атаку путем предъявления системе поддельного биометрического параметра (лица). Устройство приема информации позволяет получать последовательности видеокадров для дальнейшей идентификации области лица на основе участков кожи в области лица и извлечения сердечных сокращений из каждого сигнала сердцебиения. Способ направлен на извлечение и анализ пространственных признаков из множества отдельных областей лица, которые не перекрыты другим видимым объектом (например, защитной маской).A method and device for face detection/recognition systems are known (patent RU 2741768 C2), designed to improve security when trying to carry out a spoofing attack by presenting a fake biometric parameter (face) to the system. The information receiving device makes it possible to obtain sequences of video frames for further identification of the facial area based on skin areas in the facial area and extracting heart beats from each heartbeat signal. The method is aimed at extracting and analyzing spatial features from a plurality of separate areas of the face that are not covered by another visible object (for example, a protective mask).
Известны способ и устройство распознавания лица с частичным его перекрытием на основе извлечения основных лицевых характеристик (патент KR 101998112 В1, Корея, от англ. Method for Recognizing Partial Obscured Face by Specifying Partial Area based on Facial Feature Point, Recording Medium and Apparatus for Performing the Method). Изобретение относится к области биометрических технологий и направлено на получение изображений, которые содержат минимум одно лицо человека; установку множества областей интереса (лиц) на входном изображении; формирование векторов признаков путем соответствующего извлечения локальных признаков из области с лицом; произведение анализа и определения сходства между извлеченными признаками и оригинальными признаками из имеющего набора данных (эталоны). Реализация данного изобретения актуально при задачах идентификации человека в условиях, когда лица подвержено частичному перекрытию (например, на лице присутствует защитная маска).A method and device for recognizing a face with its partial overlap based on the extraction of the main facial characteristics are known (patent KR 101998112 B1, Korea, from the English. Method for Recognizing Partial Obscured Face by Specifying Partial Area based on Facial Feature Point, Recording Medium and Apparatus for Performing the method). The invention relates to the field of biometric technologies and is aimed at obtaining images that contain at least one person's face; setting a plurality of regions of interest (faces) in the input image; generating feature vectors by appropriately extracting local features from the area with the face; the product of analysis and determination of the similarity between the extracted features and the original features from the existing data set (references). The implementation of this invention is relevant for the tasks of identifying a person in conditions where faces are subject to partial overlap (for example, a protective mask is present on the face).
Известен двухрежимный способ автоматического обнаружения человека в защитной маске на основе статистических характеристик, получаемых от видеосигнала (патент CN 105678213 А, Китай, от англ. Dual-Mode Masked Man Event Automatic Detection Method based on Video Characteristic Statistics). Изобретение направлено на устранение недостатков современных систем интеллектуального видеонаблюдения, которые должны обнаруживать и распознавать лица людей в различных вариациях защитных масок в режиме реального времени. Процесс автоматического обнаружения человека в защитной маске состоит из следующих этапов: 1) считывание исходного цветного видеокадра с последующим масштабированием и преобразованием его в градацию оттенков серого; 2) нахождение лиц людей; 2) обнаружение контуров лиц людей; 3) сохранение информации о количестве людей и их местоположении; 4) оценивание местоположения и положения лица для каждого найденного человека; 5) обнаружение лиц людей в защитных масках. Таким образом реализация предложенного изобретения позволит в режиме реального времени автоматически обнаруживать лица людей в различных вариациях защитных масок, который также робастен к различным сценам и углам захвата видеоинформации.A dual-mode method for automatically detecting a person in a protective mask based on statistical characteristics obtained from a video signal is known (patent CN 105678213 A, China, from the English Dual-Mode Masked Man Event Automatic Detection Method based on Video Characteristic Statistics). The invention is aimed at eliminating the shortcomings of modern intelligent video surveillance systems, which must detect and recognize people's faces in various variations of protective masks in real time. The process of automatic detection of a person in a protective mask consists of the following steps: 1) reading the original color video frame with subsequent scaling and converting it to grayscale; 2) finding people's faces; 2) detection of the contours of people's faces; 3) saving information about the number of people and their location; 4) estimation of the location and position of the face for each found person; 5) face detection of people wearing protective masks. Thus, the implementation of the proposed invention will allow real-time automatic detection of people's faces in various variations of protective masks, which is also robust to different scenes and video information capture angles.
Известны способ и устройство для определения температуры тела человека в защитной маске (патент CN 211904417 U, Китай, от англ. Face Mask Wearing Recognition and Body Temperature Detection System), относящиеся к биометрическим технологиям. Основная идея изобретения заключается в определении корректно надетой защитной маски на лицо человека и текущей температуры тела, что позволит контролировать и предотвращать различные эпидемические ситуации (например, коронавирусную инфекцию), а также обезопасить их распространение на промышленных производствах. Устройство состоит из множества связанных между собой таких модулей, как: модуль получения изображения, модуль определения температуры тела, модуль анализа процесса распознавания наличия защитной маски на лице человека и голосовой модуль для передачи информационных сообщений пользователю в случаях, когда маска надета не полностью или вовсе отсутствует. К недостаткам данного изобретения следует отнести обязательное наличие устройства с довольно большими габаритами и сложной системой обмена информации между модулями.A method and device for determining the temperature of a human body in a protective mask are known (patent CN 211904417 U, China, from the English Face Mask Wearing Recognition and Body Temperature Detection System), related to biometric technologies. The main idea of the invention is to determine the correctly worn protective mask on a person’s face and the current body temperature, which will allow to control and prevent various epidemic situations (for example, coronavirus infection), as well as to secure their spread in industrial production. The device consists of a plurality of interconnected modules such as: an image acquisition module, a body temperature detection module, a module for analyzing the process of recognizing the presence of a protective mask on a person’s face, and a voice module for transmitting information messages to the user in cases where the mask is not completely worn or is completely absent. . The disadvantages of this invention include the mandatory presence of a device with rather large dimensions and a complex system of information exchange between modules.
Известен способ распознавания наличия/отсутствия защитной маски на лице (патент CN 112115818 А, Китай, от англ. Mask Wearing Recognition Method), состоящий из: 1) обучения модели детектирования лиц на основе сверточной нейронной сети MTCNN (от англ. Multi-task Cascaded Convolutional Networks); 2) обучения модели распознавания наличия/отсутствия защитной маски на лице на основе метода опорных векторов. Изобретение направлено на использование в различных общественных местах с большим скоплением людей, где необходимо соблюдать правила социального дистанцирования и масочного режима. Из преимуществ данного способа стоит отметить высокую скорость обработки входных видеоданных. К недостаткам относятся естественные проблемы с производительностью при обнаружении и распознавании лиц людей в условиях со слабой освещенностью.A known method for recognizing the presence / absence of a protective mask on a face (patent CN 112115818 A, China, from the English Mask Wearing Recognition Method), consisting of: 1) training a face detection model based on the convolutional neural network MTCNN (from the English. Multi-task Cascaded Convolutional Networks); 2) training the recognition model for the presence / absence of a protective mask on the face based on the support vector machine. The invention is aimed at use in various public places with a large crowd of people, where it is necessary to comply with the rules of social distancing and mask mode. Of the advantages of this method, it is worth noting the high speed of processing input video data. Drawbacks include inherent performance issues in detecting and recognizing human faces in low-light environments.
Известен способ распознавания лиц в защитной маске с помощью алгоритма YOLOv3 (патент CN 111414887 А, Китай, от англ. Secondary Detection Mask Face Recognition Method based on YOLOV3 Algorithm). Изобретение относится к области распознавания лиц и включает в себя следующие этапы: сбор видео в общественных местах и сохранение их в виде изображений в качестве базового набора данных для распознавания лиц в маске; использование изображений из базового набора данных в качестве обучающих данных и выполнение их аннотации по областям «голова», «маска», а также обучение алгоритма YOLOv3 на обнаружение области «голова»; повторное обучение алгоритма YOLOv3 для задачи распознавания лиц в маске; вывод результата распознавания лиц в маске, при этом алгоритм распознавания способен выводить один из двух возможных классов «лицо в маске», «лицо без маски», а также ограничительные рамки для головы в целом. Таким образом изобретение выполняет обнаружение областей головы и распознавание наличия/отсутствия маски на лице. Такое изобретение способно работать как по одному изображению, так и по видеопоследовательности и может быть применимо в местах, где возникает необходимость в ношении защитной маски на лице.A known method of face recognition in a protective mask using the YOLOv3 algorithm (patent CN 111414887 A, China, from the English. Secondary Detection Mask Face Recognition Method based on YOLOV3 Algorithm). The invention relates to the field of face recognition and includes the following steps: collecting videos in public places and storing them as images as a base data set for masked face recognition; using images from the base data set as training data and performing their annotation on the "head", "mask" regions, as well as training the YOLOv3 algorithm to detect the "head" region; retraining of the YOLOv3 algorithm for the masked face recognition problem; displaying the result of face recognition in a mask, while the recognition algorithm is able to output one of two possible classes "face in a mask", "face without a mask", as well as bounding boxes for the head as a whole. Thus, the invention performs detection of head regions and recognition of the presence/absence of a mask on the face. Such an invention is capable of working both on a single image and on a video sequence and can be applied in places where it becomes necessary to wear a protective mask on the face.
Известны способ и устройство построения 3D маски для лица при антиспуфинге с дистанционной фотоплетизмографией (патент US 10380444 В2 США, от англ. 3D Mask Face Anti-Spoofing with Remote Photoplethysmography), относящиеся к области обнаружения частей тела человека. Изобретение выполняет следующие задачи: захват в видеопотоке лица интересующего человека (камера спроектирована таким образом, чтобы захватывать изменения цвета кожи лица); извлечение сигналов с дистащионной фотоплетизмографией; моделирование извлеченных сигналов посредством взаимной корреляции для создания надежной модели антиспуфинга лица при наличии 3D маски; формирование прогнозов на основе извлеченных сигналов с дистанционной фотоплетизмографией; классификация лица на предмет наличия или отсутствия 3D маски. С помощью встроенных технологий оценивания состояния сосудов (фотоплетизмография и спроектированная камера) способ способен обнаружить области лица, при которых цвет кожи остается неизменным, что позволяет не только предотвратить спуфинг, но и зафиксировать присутствие посторонних атрибутов на лице, в том числе защитной маски.A method and device for constructing a 3D mask for a face with anti-spoofing with remote photoplethysmography is known (patent US 10380444 B2 USA, from the English. 3D Mask Face Anti-Spoofing with Remote Photoplethysmography), related to the field of detection of human body parts. The invention performs the following tasks: capturing the face of a person of interest in a video stream (the camera is designed in such a way as to capture changes in facial skin color); extraction of signals with distance photoplethysmography; modeling the extracted signals through cross-correlation to create a reliable face anti-spoofing model in the presence of a 3D mask; formation of forecasts based on the extracted signals with remote photoplethysmography; face classification for the presence or absence of a 3D mask. With the help of built-in technologies for assessing the state of blood vessels (photoplethysmography and a designed camera), the method is able to detect areas of the face in which skin color remains unchanged, which allows not only to prevent spoofing, but also to detect the presence of extraneous attributes on the face, including a protective mask.
Известны способ и устройство распознавания лица в маске (патент US 10984225 В1 США, от англ. Masked Face Recognition). Изобретение относится к системам и методам распознавания лиц в маске, включающее вычислительное устройство, которое имеет по крайней мере один центральный процессор. Технический результат достигается за счет таких компонентов, как: 1) вычислительное устройство для получения видеопоследовательностей; 2) алгоритм обнаружения лица в маске, т.е. определение наличия на изображении лица в маске; 3) сопоставление областей лица без маски или маской с эталонами, хранящимися в исходном наборе данных, при совпадении как минимум с одним эталоном для каждой области лица, выполняется идентификация пользователя на основе взвешенного набора совпадающих визуальных лицевых признаков. Такое изобретение является полезным, например, для отслеживания людей без маски. Так при распознавании человека без маски, этому человеку или организации может быть сформировано и отправлено сообщение о нарушении режима обязательного ношения масок.Known method and device for face recognition in a mask (patent US 10984225 B1 US, from the English. Masked Face Recognition). The invention relates to systems and methods for recognizing faces in a mask, including a computing device that has at least one central processing unit. The technical result is achieved due to such components as: 1) a computing device for obtaining video sequences; 2) masked face detection algorithm, i.e. determining the presence of a masked face in the image; 3) comparison of face areas without a mask or a mask with the templates stored in the original data set, if it matches at least one template for each face area, the user is identified based on a weighted set of matching visual facial features. Such an invention is useful, for example, for tracking people without a mask. So, when a person without a mask is recognized, a message can be generated and sent to this person or organization about a violation of the mandatory wearing of masks.
Известны способ и устройство для систем распознавания лиц со значительным перекрытием (патент WO 2019011165 А1, от англ. Facial Recognition Method and Apparatus, Electronic Device, and Storage Medium), предназначенные для проверки личности в контрольно-пропускных пунктах при окклюзии лица различными предметами, включая защитные маски. Технический результат представленного способа и устройства состоит из таких этапов, как: 1) получение изображения лица; 2) нахождение перекрытой и не перекрытой областей на лице путем сегментации входного изображения; 3) расчет весов найденных областей интереса; 4) извлечение векторов признаков из найденных областей интереса; 5) объединение весов каждой области с соответствующими ими векторами признаков; 6) выполнение сравнения объединенных векторов с оригинальными векторами из набора данных. Сходство между изображениями фиксируется в том случае, если оно больше или равно установленному пороговому значению. Также из особенностей стоит отметить, что способ включает в себя этап нахождения перекрытой и не перекрытой областей на лице, что также говорит о том, что помимо задачи распознавания лиц, метод способен надежно детектировать наличие/отсутствие различных атрибутов на лице, включая защитные маски.A method and device for face recognition systems with significant overlap are known (patent WO 2019011165 A1, from the English Facial Recognition Method and Apparatus, Electronic Device, and Storage Medium), designed to verify identity at checkpoints when the face is occluded by various objects, including protective masks. The technical result of the presented method and device consists of the following steps: 1) obtaining a face image; 2) finding overlapped and non-overlapped areas on the face by segmenting the input image; 3) calculation of the weights of the found areas of interest; 4) extraction of feature vectors from the found areas of interest; 5) combining the weights of each area with their corresponding feature vectors; 6) performing a comparison of the merged vectors with the original vectors from the dataset. The similarity between images is fixed if it is greater than or equal to the set threshold value. It is also worth noting from the features that the method includes the stage of finding overlapped and non-overlapped areas on the face, which also indicates that in addition to the task of face recognition, the method is able to reliably detect the presence / absence of various attributes on the face, including protective masks.
Наиболее близким по технической сущности к заявляемому способу и выбранным в качестве прототипа является система и способ идентификации средств индивидуальной защиты на человеке (патент RU 2724785 С1), относящиеся к области применения искусственных нейронных сетей в различных задачах компьютерного зрения, а именно к системам и способам обработки визуальной информации, которая может быть получена от различных камер видеонаблюдения, для обеспечения необходимых мер безопасности на рабочем месте. Технический результат в данном патенте обеспечивается за счет локализации и идентификации средств индивидуальной защиты на человеке в режиме реального времени путем программной обработки входной визуальной информации, получаемой минимум от одного устройства захвата видеоданных. Непосредственный процесс сегментации изображений выполняется по цвету, форме или текстуре интересующих объектов (различные вариации защитных масок, респираторов и других средств индивидуальной защиты области лица).The closest in technical essence to the claimed method and selected as a prototype is a system and a method for identifying personal protective equipment on a person (patent RU 2724785 C1), related to the field of application of artificial neural networks in various computer vision tasks, namely to systems and methods for processing visual information that can be obtained from various CCTV cameras to ensure the necessary security measures in the workplace. The technical result in this patent is achieved by localizing and identifying personal protective equipment on a person in real time by software processing of input visual information received from at least one video data capture device. The direct process of image segmentation is performed by the color, shape or texture of the objects of interest (different variations of protective masks, respirators and other personal protective equipment for the face area).
Основными недостатками существующих аналогов в предметной области является их узкая функциональная направленность, выраженная в решении задач распознавания различных средств индивидуальной защиты на лицах людей посредствам исключительно одной модальности (визуальной).The main disadvantages of existing analogues in the subject area is their narrow functional orientation, expressed in solving the problems of recognizing various personal protective equipment on people's faces through only one modality (visual).
Техническая проблема, решение которой обеспечивается настоящим изобретением, заключается в необходимости расширения функциональности различных способов путем использования интеллектуального анализа аудиовизуальной информации для более точного распознавания различных средств индивидуальной защиты на лицах людей через объединение аудио и видео модальностей.The technical problem to be solved by the present invention is the need to expand the functionality of various methods by using the intelligent analysis of audiovisual information to more accurately recognize various personal protective equipment on people's faces through the combination of audio and video modalities.
В свою очередь, технический результат достигается за счет того, что способ аудиовизуального распознавания средств индивидуальной защиты на лице человека объединяет обработку аудио- и видеоинформации получаемых от каких-либо устройств захвата данных информаций.In turn, the technical result is achieved due to the fact that the method of audiovisual recognition of personal protective equipment on a person's face combines the processing of audio and video information received from any data capture devices.
Также стоит заметить, что процесс объединения видео- и аудиоинформации базируется на последовательной обработке аудиоинформации, получаемой от микрофона устройства захвата данной акустической информации, а именно: считывание аудиоданных; определение границ речи; определение речи целевого диктора; вычисление акустических признаков; предсказание типа индивидуальной защиты на лице человека на основе акустических признаков. В свою очередь последовательная обработка видеоинформации, получаемая от цветной камеры устройства захвата данной визуальной информации выполняется благодаря считыванию видеоданных; процессу разделения видеоданных на цветные кадры; обработке цветных кадров; вычислению визуальных признаков; поиску графических областей лиц; поиску ближайшей графической области лица; цифровой обработке ближайшей графической области лица; предсказанию типа индивидуальной защиты на лице человека на основе визуальных признаков. Итоговое принятие решения в зависимости от определенной степени индивидуальной защиты на лице человека происходит на основании полученных результатов от синхронных между собой аудио и видео модальностей.It is also worth noting that the process of combining video and audio information is based on the sequential processing of audio information received from the microphone of the device for capturing this acoustic information, namely: reading audio data; definition of the boundaries of speech; determining the speech of the target speaker; calculation of acoustic features; prediction of the type of personal protection on a person's face based on acoustic features. In turn, the sequential processing of video information received from the color camera of the device for capturing this visual information is performed due to the reading of video data; the process of dividing video data into color frames; processing of color frames; calculation of visual features; search for graphic areas of faces; search for the nearest graphic area of the face; digital processing of the nearest graphic area of the face; predicting the type of personal protection on a person's face based on visual features. The final decision-making, depending on a certain degree of individual protection on a person's face, occurs on the basis of the results obtained from audio and video modalities synchronous with each other.
Сущность изобретения поясняется фиг. 1, на которой отображена функциональная схема способа аудиовизуального распознавания средств индивидуальной защиты на лице человека. Позициями на фиг. 1 обозначены: 100 - аудиосигнал; 101 - считывание аудиоданных; 110 - определение границ речи; 120 - определения речи целевого диктора; 130 - вычисление акустических признаков; 140 - предсказание средств индивидуальной защиты на лице человека; 200 - видеосигнал; 201 - считывание видеоданных; 210 - разделение видеоданных на цветные кадры; 220 - обработка цветных кадров; 221 - вычисление визуальных признаков; 222 - поиск графических областей лиц; 223 - поиск ближайшей графической области лица; 230 - цифровая обработка ближайшей графической области лица; 240 - предсказание средств индивидуальной защиты на лице человека; 300 - объединение предсказаний для итогового определения средств индивидуальной защиты на лице человека; 400 - вывод текстовой гипотезы предсказания о распознанном средстве индивидуальной защиты на лице человека.The essence of the invention is illustrated in Fig. 1, which shows a functional diagram of a method for audiovisual recognition of personal protective equipment on a person's face. The positions in FIG. 1 are marked: 100 - audio signal; 101 - reading audio data; 110 - definition of the boundaries of speech; 120 - speech definitions of the target speaker; 130 - calculation of acoustic features; 140 - prediction of personal protective equipment on a person's face; 200 - video signal; 201 - reading video data; 210 - division of video data into color frames; 220 - processing of color frames; 221 - calculation of visual features; 222 - search for graphic areas of faces; 223 - search for the nearest graphic area of the face; 230 - digital processing of the nearest graphic area of the face; 240 - prediction of personal protective equipment on a person's face; 300 - combining predictions for the final determination of personal protective equipment on a person's face; 400 - derivation of a text prediction hypothesis about a recognized personal protective equipment on a person's face.
В способе аудиовизуального распознавания средств индивидуальной защиты на лице человека (фиг. 1) входные данные представляют в виде аудиосигнала (100) и видеосигнала (200). В роли устройства захвата аудиосигнала выступает приемник способный получать аудиоданные (101) с окном в 4 секунды, частотой дискретизации 16 кГц, 16 бит на цифровой отсчет и отношением аудиосигнал/шум - не менее 50 дБ (например, встроенные аудиосредства в веб-камере Logitech StreamCam). В роли устройства захвата видеосигнала выступает приемник способный получать цветные оптические видеоданные (например, встроенные видеосредства в веб-камере Logitech StreamCam). Качество цветопередачи цветного оптического (201) видеопотока составляет 8 бит с разрешением видеопотока 1920×1080 (FullHD) пикселей и частотой 30 кадров в секунду. Установка оборудования получения сигналов производят на высоту от 1,5 до 2,0 метров с обязательным соблюдением расстояния в диапазоне от 0,7 до 1,5 метров до как минимум одного человека, который выполняет какие-то статичные или динамичные действия (сидит, стоит, идет и т.д.) и на лице, которого может находиться/отсутствовать индивидуальные средства защиты (различные вариации защитных масок (медицинские, тканевые и т.д.), экраны, респираторы).In the method of audiovisual recognition of personal protective equipment on a person's face (Fig. 1), the input data is presented in the form of an audio signal (100) and a video signal (200). The audio capture device is a receiver capable of receiving audio data (101) with a window of 4 seconds, a sampling rate of 16 kHz, 16 bits per digital sample, and an audio signal-to-noise ratio of at least 50 dB (for example, built-in audio in the Logitech StreamCam webcam ). The video capture device is a receiver capable of receiving color optical video data (for example, the built-in video tools in the Logitech StreamCam webcam). The color quality of the color optical (201) video stream is 8 bits with a video stream resolution of 1920×1080 (FullHD) pixels and a frequency of 30 frames per second. Installation of equipment for receiving signals is carried out at a height of 1.5 to 2.0 meters with the obligatory observance of a distance in the range from 0.7 to 1.5 meters to at least one person who performs some static or dynamic actions (sitting, standing , walking, etc.) and on the face, which may or may not have personal protective equipment (different variations of protective masks (medical, fabric, etc.), screens, respirators).
Определение границ речи (110) производят с помощью предварительно обученного детектора голосовой активности [https://github.com/snakers4/silero-vad/] с учетом таких важных параметров, как: порог вероятности речи (от 0,0 до 1,0); минимальная длительность речевого фрагмента (измеряется в миллисекундах); минимальная длительность тишины между речевыми фрагментами (измеряется в миллисекундах); количество временных отчетов в каждом окне (в роли окна выступает короткий речевой фрагмент установленной длины, измеряется в миллисекундах). Каждый формирующийся речевой сегмент подлежит проверки на наличие/отсутствие голосовой активности как минимум одного человека. Исходя из того, что как минимум один человек может воспроизводить голосовую активность за очень короткий промежуток времени, а также возможно наличие в речевых фрагментах определенных звуковых артефактов (щелчки, треск, смычки перед взрывными согласными и другие неречевые участки сигнала), приводящих к ошибочным восприятиям их в качестве речи, устанавливают минимальную длительность речевого фрагмента равную 250 миллисекундам. Также для исключения других специфических акустических активностей применяют порог вероятности речи в 0,56. Значение минимальной длительности тишины между речевыми фрагментами устанавливают в 50 миллисекунд, что позволяет объединять речевые фрагменты, состоящие из речи человека, произнесенной очень быстрым темпом говорения. Количество временных отчетов в каждом окне устанавливают в значение равное 1536, что является оптимальным для любых условий эксплуатации.Speech boundaries (110) are determined using a pre-trained voice activity detector [https://github.com/snakers4/silero-vad/] taking into account such important parameters as: speech probability threshold (from 0.0 to 1.0 ); the minimum duration of a speech fragment (measured in milliseconds); the minimum duration of silence between speech fragments (measured in milliseconds); the number of temporal reports in each window (the role of the window is a short speech fragment of a set length, measured in milliseconds). Each emerging speech segment is subject to checking for the presence/absence of voice activity of at least one person. Based on the fact that at least one person can reproduce vocal activity in a very short period of time, and it is also possible that speech fragments contain certain sound artifacts (clicks, crackles, bows before explosive consonants and other non-speech parts of the signal), leading to erroneous perceptions of them as speech, set the minimum duration of a speech fragment to 250 milliseconds. Also, to exclude other specific acoustic activities, a speech probability threshold of 0.56 is used. The value of the minimum duration of silence between speech fragments is set to 50 milliseconds, which allows you to combine speech fragments consisting of human speech delivered at a very fast pace of speaking. The number of time reports in each window is set to 1536, which is optimal for any operating conditions.
Задачу определения речи целевого диктора (120) решают путем вычисления значения энергии Е на каждом найденном речевом фрагменте следующим образом:The task of determining the speech of the target speaker (120) is solved by calculating the energy value E on each found speech fragment as follows:
, ,
где n∈N, N - длина кадра речевого фрагмента S.where n∈N, N is the frame length of the speech fragment S.
В случаях, когда полученное значение Е больше заранее определенного порога T, то считается, что данный речевой фрагмент считается речевым фрагментом целевого диктора. Такой поиск выполняют для каждого сегмента акустического сигнала.In cases where the received value E is greater than a predetermined threshold T, then the given speech fragment is considered to be the speech fragment of the target speaker. Such a search is performed for each segment of the acoustic signal.
Вычисление акустических признаков (130) выполняют несколькими последовательными манипуляциями. В первую очередь, весь речевой сигнал делится на фрагменты с шириной окна в 1 секунду и шагом 0,5 секунды. Затем, для каждого анализируемого речевого сегмента строится спектрограмма (в виде 2D полутонового изображения), которая показывает зависимость спектральной плотности мощности сигнала по отношению к его времени. Процесс генерации спектрограмм производится с помощью специально разработанного программного модуля для анализа аудиоинформации torchaudio [https://pytorch.org/audio/stable/index.html] с шириной окна 22 миллисекунды и шагом 5 миллисекунд. После этого каждая отдельно взятая спектрограмма преобразуется в мел-шкалу с 64 мел-фильтрбанками (происходит преобразование частоты сигнала из Гц в мел), которая в свою очередь преобразуется в логарифмический масштаб (из мел в ДБ).The calculation of acoustic features (130) is performed by several sequential manipulations. First of all, the entire speech signal is divided into fragments with a window width of 1 second and a step of 0.5 seconds. Then, for each analyzed speech segment, a spectrogram (in the form of a 2D grayscale image) is constructed, which shows the dependence of the spectral power density of the signal with respect to its time. The process of generating spectrograms is performed using a specially developed software module for analyzing audio information torchaudio [https://pytorch.org/audio/stable/index.html] with a window width of 22 milliseconds and a step of 5 milliseconds. After that, each individual spectrogram is converted to a chalk scale with 64 chalk filter banks (the signal frequency is converted from Hz to chalk), which in turn is converted to a logarithmic scale (from chalk to dB).
Предсказания средств индивидуальной защиты на лице человека (140) по акустической модальности производят на основе выбранной предварительно обученной сверточной нейросети с архитектурой CNN-14 из семейства архитектур сверточный нейросетей PANNs [Kong Q., Cao Y., Iqbal Т., Wang Y., Wang W., Plumbley M.D. PANNs: Large-Scale Pretrained Audio Neural Networks for Audio Pattern Recognition // IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2020, V. 28, pp. 2880-2894]. PANNs показывают высокую степень обобщения и точность распознавания при анализе акустических событий.Predictions of personal protective equipment on the face of a person (140) by acoustic modality are made on the basis of a selected pre-trained convolutional neural network with the CNN-14 architecture from the family of PANNs convolutional neural network architectures [Kong Q., Cao Y., Iqbal T., Wang Y., Wang W., Plumbley M.D. PANNs: Large-Scale Pretrained Audio Neural Networks for Audio Pattern Recognition // IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2020, V. 28, pp. 2880-2894]. PANNs show a high degree of generalization and recognition accuracy in the analysis of acoustic events.
Процесс дообучения нейросетевой модели CNN-14 производили на аудиовизуальном корпусе русскоязычных данных людей в защитных масках BRAVE-MASKS [Маркитантов М.В., Рюмин Д.А., Рюмина Е.В., Карпов А.А. Корпус аудиовизуальных русскоязычных данных людей в защитных масках (BRAVE-MASKS - Biometric Russian Audio-Visual Ex-tended MASKS corpus) // Свидетельство о государственной регистрации Базы данных, №2021621094 от 26.05.2021]. Все предсказания для каждого речевого фрагмента, полученного на начальном этапе вычисления акустических признаков (130), объединялись с помощью мажоритарного голосования.The process of additional training of the CNN-14 neural network model was carried out on the audiovisual corpus of Russian-language data of people wearing protective masks BRAVE-MASKS [Markitantov M.V., Ryumin D.A., Ryumina E.V., Karpov A.A. Corpus of audiovisual Russian-language data of people in protective masks (BRAVE-MASKS - Biometric Russian Audio-Visual Extended MASKS corpus) // Certificate of state registration of the Database, No. 2021621094 dated 05/26/2021]. All predictions for each speech fragment obtained at the initial stage of calculating acoustic features (130) were combined using a majority vote.
Разделение видеоданных на последовательности из кадров (210) осуществляют с помощью набора средств разработки используемого приемника, который способен формировать цветные оптические видеоданные. В случае если таких программных средств не предусмотрено для используемого приемника, то применяют сторонние инструментарии из библиотеки машинного обучения с открытым исходным кодом PyTorch [https://pytorch.org/vision/stable/io.html].The division of video data into sequences of frames (210) is carried out using the development kit of the receiver used, which is capable of generating color optical video data. If such software is not provided for the receiver used, then third-party tools from the PyTorch open source machine learning library [https://pytorch.org/vision/stable/io.html] are used.
Обработку цветных кадров (220) выполняют циклически и подразумевается, что цветной кадр подлежит процессу преобразования в предварительный набор карт признаков разной размерности [Wang C.Y., Liao H.Y.M., Wu Y.H., Chen P.Y., Hsieh J.W., Yeh I.H. CSPNet: A New Backbone that can Enhance Learning Capability of CNN // IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) workshops, 2020, pp. 390-391]. Каждая предварительная карта признаков является 2D матрицей и содержит свое, характерное исключительно ей, синаптическое ядро (фильтр свертки).Color frame processing (220) is performed cyclically, and it is understood that a color frame is subject to a process of transformation into a preliminary set of feature maps of different dimensions [Wang C.Y., Liao H.Y.M., Wu Y.H., Chen P.Y., Hsieh J.W., Yeh I.H. CSPNet: A New Backbone that can Enhance Learning Capability of CNN // IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) workshops, 2020, pp. 390-391]. Each preliminary feature map is a 2D matrix and contains its own unique synaptic nucleus (convolution filter).
Задачу вычисления визуальных признаков (221) решают путем многоразового масштабирования карт признаков с помощью пирамидального их объединения [Не K., Zhang X., Ren S., Sim J. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition // Transactions on Pattern Analysis and Machine Intelligence, 2015, V. 37, N. 9, pp. 1904-1916], что позволяет сохранить контекстную информацию о исходном кадре в процессе масштабирования, а также нормализовать сформированные визуальные признаки для последующей гипотезы относительно той или иной области.The task of calculating visual features (221) is solved by repetitive scaling of feature maps using their pyramidal pooling [He K., Zhang X., Ren S., Sim J. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition // Transactions on Pattern Analysis and Machine Intelligence, 2015, V. 37, N. 9, pp. 1904-1916], which allows you to save contextual information about the original frame in the process of scaling, as well as normalize the generated visual features for a subsequent hypothesis regarding a particular area.
Поиск графических областей лиц (222) на кадре производят на основе трех взаимосвязанных между собой архитектур глубоких нейросетей. В частности, архитектура пирамидальной нейросети [Kirillov A., Girshick R., Не K., Dollár P. Panoptic Feature Pyramid Networks // IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019, pp. 6399-6408] направлена на формирование нейросетевых моделей таким образом, чтобы достигать максимальной производительности в задачах семантической сегментации объектов (в данном случае лиц). Вторая нейросеть с функцией агрегации пикселей [Wang W., Xie Е., Song X., Zang Y., Wang W., Lu Т., Shen C. Efficient and Accurate Arbitrary-Shaped Text Detection with Pixel Aggregation Network // IEEE/CVF International Conference on Computer Vision (CVPR), 2019, pp. 8440-8449] отвечает за группировку пикселей в сегментированных объектах. Сгруппированные пиксели образуют кластеры, на которых в дальнейшем должны быть локализованы объекты (области лиц). Процесс непосредственной локализации графических областей лиц на каждом цветном кадре видеопотока осуществляется с помощью алгоритма обнаружения объектов YOLOv5 [https://github.com/ultralytics/yolov5]. Данный алгоритм базируется на продуманной архитектуре глубокой нейросети, на основе которой производится обучение модели нейросети YOLOv5, что позволяет добиваться, как высокой точности обнаружения областей интересующих объектов (в данном случае лиц людей), так и скорости обработки кадров сопоставимой или превосходящей режим реальной времени (более 25 кадров в секунду).The search for graphic areas of faces (222) on the frame is performed on the basis of three interconnected architectures of deep neural networks. In particular, the architecture of the pyramidal neural network [Kirillov A., Girshick R., Ne K., Dollár P. Panoptic Feature Pyramid Networks // IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019, pp. 6399-6408] is aimed at generating neural network models in such a way as to achieve maximum performance in tasks of semantic segmentation of objects (in this case, faces). Second Neural Network with Pixel Aggregation Function [Wang W., Xie E., Song X., Zang Y., Wang W., Lu T., Shen C. Efficient and Accurate Arbitrary-Shaped Text Detection with Pixel Aggregation Network // IEEE/ CVF International Conference on Computer Vision (CVPR), 2019, pp. 8440-8449] is responsible for grouping pixels in segmented objects. The grouped pixels form clusters on which objects (face areas) should be localized in the future. The process of direct localization of the graphic areas of faces on each color frame of the video stream is carried out using the YOLOv5 object detection algorithm [https://github.com/ultralytics/yolov5]. This algorithm is based on a well-thought-out architecture of a deep neural network, on the basis of which the YOLOv5 neural network model is trained, which makes it possible to achieve both high accuracy in detecting areas of objects of interest (in this case, people's faces) and frame processing speed comparable or superior to real-time mode (more 25 fps).
Поиск ближайшей графической области лица (223) осуществляют с помощью вычисления 2D площадей из всех локализованных областей с лицами людей. Ближайшее лицо считается то, которое имеет наибольшую 2D площадь. Этот процесс необходим для дальнейшего объединения предсказаний средств индивидуальной защиты на лице человека (300) на уровне двух модальностей (аудио и видео).The search for the nearest face graphic area (223) is performed by calculating 2D areas from all localized areas with people's faces. The closest face is the one with the largest 2D area. This process is necessary to further combine the predictions of personal protective equipment on the human face (300) at the level of two modalities (audio and video).
Цифровую обработку ближайшей графической области лица (230) проводят множеством последовательных манипуляций. Так, манипуляция по выравниванию области лица решается посредством алгоритма, который реализован в библиотеке с открытым исходным кодом Face-Alignment [https://github.com/ladrianb/face-alignment; Bulat A., Tzimiropoulos G. How Far are we from Solving the 2D & 3D Face Alignment Problem? (and a Dataset of 230,000 3D Facial Landmarks) // IEEE/CVF International Conference on Computer Vision (CVPR), 2017, pp. 1021-1030]. Канальная нормализация (центрирование) пикселей выполняется по принципу того, что сперва из каждого пикселя канала Red отнимается значение равное 91,4953, затем из пикселей канала Green отнимается значение равное 103,8827, в заключении из всех пикселей канала Blue отнимается значение равное 131,0912. Данные значения стандартизированы и широко известны в цифровой обработке изображений. Цветное изображение графической области лица нормализуется до размера 224×224 пикселя. Реализация процесса нормализации присутствует в модуле трансформации и аугментации изображений библиотеки машинного обучения с открытым исходным кодом PyTorch [https://pytorch.org/vision/stable/transforms.html].Digital processing of the nearest graphic area of the face (230) is carried out by a set of sequential manipulations. So, the manipulation of the alignment of the face area is solved using an algorithm that is implemented in the Face-Alignment open source library [https://github.com/ladrianb/face-alignment; Bulat A., Tzimiropoulos G. How Far are we from Solving the 2D & 3D Face Alignment Problem? (and a Dataset of 230,000 3D Facial Landmarks) // IEEE/CVF International Conference on Computer Vision (CVPR), 2017, pp. 1021-1030]. Channel normalization (centering) of pixels is performed on the principle that, first, a value equal to 91.4953 is subtracted from each pixel of the Red channel, then a value equal to 103.8827 is subtracted from the Green channel pixels, and finally, a value equal to 131.0912 is subtracted from all the pixels of the Blue channel . These values are standardized and widely known in digital imaging. The color image of the face graphic area is normalized to a size of 224×224 pixels. The implementation of the normalization process is present in the image transformation and augmentation module of the PyTorch open source machine learning library [https://pytorch.org/vision/stable/transforms.html].
Предсказания средств индивидуальной защиты на лице человека (240) по визуальной модальности производят на основе предварительно обученной сверточной нейросети с архитектурой ResNet-50 [Не K., Zhang X., Ren S., Sun J. Deep Residual Learning for Image Recognition // IEEE/CVF International Conference on Computer Vision (CVPR), 2016, pp.770-778], которая, например, включена в коллекцию нейросетевых моделей, в том числе и для распознавания объектов с открытым исходным кодом PyTorch Image Models [https://github.com/rwightman/pytorch-image-models] и основана на инвертированной остаточной структуре. Непосредственное предварительное обучение нейросетевой модели ResNet-50 производили на визуальном корпусе VggFace2 [Cao Q., Shen L., Xie W., Parkhi О., Zisserman A. Vggface2: A Dataset for Recognising Faces Across Pose and Age // International Conference on Automatic Face and Gesture Recognition (FG), 2018, pp. 67-74]. Процесс дообучения нейросетевой модели ResNet-50 производили на аудиовизуальном корпусе русскоязычных данных людей в защитных масках BRAVE-MASKS [Маркитантов М.В., Рюмин Д.А., Рюмина Е.В., Карпов А.А. Корпус аудиовизуальных русскоязычных данных людей в защитных масках (BRAVE-MASKS - Biometric Russian Audio-Visual Ex-tended MASKS corpus) // Свидетельство о государственной регистрации Базы данных, №2021621094 от 26.05.2021].Predictions of personal protective equipment on a person's face (240) by visual modality are made on the basis of a pre-trained convolutional neural network with the ResNet-50 architecture [He K., Zhang X., Ren S., Sun J. Deep Residual Learning for Image Recognition // IEEE /CVF International Conference on Computer Vision (CVPR), 2016, pp.770-778], which, for example, is included in the collection of neural network models, including those for object recognition with the open source PyTorch Image Models [https://github .com/rwightman/pytorch-image-models] and is based on an inverted residual structure. Direct preliminary training of the ResNet-50 neural network model was performed on the VggFace2 visual corpus [Cao Q., Shen L., Xie W., Parkhi O., Zisserman A. Vggface2: A Dataset for Recognizing Faces Across Pose and Age // International Conference on Automatic Face and Gesture Recognition (FG), 2018, pp. 67-74]. The process of additional training of the neural network model ResNet-50 was carried out on the audiovisual corpus of Russian-language data of people in protective masks BRAVE-MASKS [Markitantov M.V., Ryumin D.A., Ryumina E.V., Karpov A.A. Corpus of audiovisual Russian-language data of people in protective masks (BRAVE-MASKS - Biometric Russian Audio-Visual Extended MASKS corpus) // Certificate of state registration of the Database, No. 2021621094 dated 05/26/2021].
Технический результат итогового определения средств индивидуальной защиты на лице человека (300) достигают за счет объединения предсказаний, полученных на акустическом и визуальном уровнях, с помощью взвешенного усреднения предсказаний, следующим образом:The technical result of the final determination of personal protective equipment on a person's face (300) is achieved by combining the predictions obtained at the acoustic and visual levels, using a weighted averaging of the predictions, as follows:
, ,
где с ∈ С, С - количество классов; РА и Pv - векторы предсказаний для акустического и визуального сигналов соответственно, тогда предсказания по двум сигналам можно представить в виде общей матрицы:where c ∈ C, C is the number of classes; P A and P v are prediction vectors for acoustic and visual signals, respectively, then the predictions for two signals can be represented as a common matrix:
, ,
где m ∈ М, М - количество векторов предсказаний, полученных от двух сигналов. В данном случае М=2. Затем для более точного итогового определения средств индивидуальной защиты на лице человека строится матрица весов, согласно:where m ∈ M, M is the number of prediction vectors obtained from two signals. In this case M=2. Then, for a more accurate final determination of personal protective equipment on a person’s face, a weight matrix is built, according to:
, ,
где W - матрица весов, сгенерированная с помощью распределения Дирихле [Ryumina Е., Verkholyak О., Karpov A. Annotation Confidence vs. Training Sample Size: Trade-off Solution for Partially-Continuous Categorical Emotion Recognition // Proceedings of the Annual Conference of the International Speech Communication Association (INTERSPEECH), 2021, pp. 3690-3694]. Таким образом, все объединенные векторы предсказаний рассчитываются согласно:where W is the weight matrix generated using the Dirichlet distribution [Ryumina E., Verkholyak O., Karpov A. Annotation Confidence vs. Training Sample Size: Trade-off Solution for Partially-Continuous Categorical Emotion Recognition // Proceedings of the Annual Conference of the International Speech Communication Association (INTERSPEECH), 2021, pp. 3690-3694]. Thus, all the combined prediction vectors are calculated according to:
. .
Финальное решение о наиболее подходящем средстве индивидуальной защиты (максимальная вероятность) из всех средств индивидуальной защиты на лице человека выносится согласно:The final decision on the most appropriate personal protective equipment (maximum probability) of all personal protective equipment on a person's face is made according to:
. .
В заключении производят вывод текстовой гипотезы предсказания о распознанном средстве индивидуальной защиты на лице человека (400). При необходимости возможна отправка различных уведомлений на мобильные устройства в режиме реального времени, в случаях, когда люди не носят вовсе или носят неверно различные средства индивидуальной защиты на лице.In conclusion, a text prediction hypothesis is produced about the recognized personal protective equipment on a person's face (400). If necessary, it is possible to send various notifications to mobile devices in real time, in cases where people do not wear at all or wear incorrectly various personal protective equipment on their faces.
Таким образом, указанные отличительные особенности способа аудиовизуального распознавания средств индивидуальной защиты на лице человека позволяют производить автоматический мониторинг уровня безопасности людей, а также при необходимости осуществлять человеко-машинное взаимодействие и использоваться в случаях, когда необходимо максимально эффективно предотвращать вспышки различных эпидемий, а также дальнейшее их распространения.Thus, these distinctive features of the method of audiovisual recognition of personal protective equipment on a person's face allow automatic monitoring of the level of people's safety, as well as, if necessary, human-machine interaction and be used in cases where it is necessary to most effectively prevent outbreaks of various epidemics, as well as their further distribution.
Проведенный заявителем анализ уровня аналогов позволил установить, что способ аудиовизуального распознавания средств индивидуальной защиты на лице человека, характеризующийся совокупностями признаков, соответствует условию патентоспособности «Новизна».The analysis of the level of analogues carried out by the applicant made it possible to establish that the method of audiovisual recognition of personal protective equipment on a person's face, characterized by a combination of features, corresponds to the condition of patentability "Novelty".
Результаты поиска известных решений в данной и смежной областях техники с целью выявления признаков, совпадающих с отличительными от прототипов признаками заявляемого изобретения, показали, что они не следуют явным образом из уровня техники. Из определенного заявителем уровня техники не выявлена известность влияния предусматриваемых существенными признаками заявленного изобретения на достижение указанного технического результата. Следовательно, заявленное изобретение соответствует условию патентоспособности «Изобретательский уровень».The results of the search for known solutions in this and related fields of technology in order to identify features that match the distinguishing features of the prototypes of the claimed invention showed that they do not follow explicitly from the prior art. From the level of technology determined by the applicant, the known effect of the essential features of the claimed invention on the achievement of the specified technical result has not been revealed. Therefore, the claimed invention meets the condition of patentability "Inventive step".
Claims (1)
Publications (1)
| Publication Number | Publication Date |
|---|---|
| RU2791415C1 true RU2791415C1 (en) | 2023-03-07 |
Family
ID=
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP2653772A1 (en) * | 2012-04-20 | 2013-10-23 | Honeywell International Inc. | Image recognition for personal protective equipment compliance enforcement in work areas |
| WO2019166952A1 (en) * | 2018-03-01 | 2019-09-06 | 3M Innovative Properties Company | Personal protection equipment identification system |
| RU2724785C1 (en) * | 2020-02-20 | 2020-06-25 | ООО "Ай Ти Ви групп" | System and method of identifying personal protective equipment on a person |
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP2653772A1 (en) * | 2012-04-20 | 2013-10-23 | Honeywell International Inc. | Image recognition for personal protective equipment compliance enforcement in work areas |
| WO2019166952A1 (en) * | 2018-03-01 | 2019-09-06 | 3M Innovative Properties Company | Personal protection equipment identification system |
| RU2724785C1 (en) * | 2020-02-20 | 2020-06-25 | ООО "Ай Ти Ви групп" | System and method of identifying personal protective equipment on a person |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US12175684B2 (en) | Pedestrian tracking method, computing device, pedestrian tracking system and storage medium | |
| CN105160318B (en) | Lie detecting method based on facial expression and system | |
| CN107766819B (en) | A video surveillance system and its real-time gait recognition method | |
| Kang et al. | Development of head detection and tracking systems for visual surveillance | |
| Lin et al. | Development of novel lip-reading recognition algorithm | |
| Cimmino et al. | M2FRED: Mobile masked face REcognition through periocular dynamics analysis | |
| CN110348272B (en) | Dynamic face recognition method, device, system and medium | |
| Arbab‐Zavar et al. | On forensic use of biometrics | |
| RU2791415C1 (en) | Method for audiovisual recognition of personal protection equipment on human face | |
| RU2316051C2 (en) | Method and system for automatically checking presence of a living human face in biometric safety systems | |
| WO2023068956A1 (en) | Method and system for identifying synthetically altered face images in a video | |
| Logronio et al. | Age range classification through facial recognition using keras model | |
| El-Bashir et al. | Face Recognition Model Based on Covariance Intersection Fusion for Interactive devices | |
| Nainan et al. | Real time face mask detection using MobileNetV2 and InceptionV3 models | |
| Dhanawansa et al. | Sinhala sign language interpreter optimized for real–time implementation on a mobile device | |
| Patil et al. | Analysis of facial expression using deep learning techniques | |
| Hsu et al. | Extraction of visual facial features for health management | |
| Mashudi et al. | Dynamic U-Net using residual network for iris segmentation | |
| Jebarani et al. | PNN-SIFT: an enhanced face recognition and classification system in image processing | |
| Yohannan et al. | Optimal camera positions for human identification | |
| Liu et al. | Visual focus of attention and spontaneous smile recognition based on continuous head pose estimation by cascaded multi-task learning | |
| Lakshmi et al. | Artificial Vision–Yolov8 Algorithm For Objects And Impediments Detection | |
| Vinora et al. | Augmenting Security Systems with Sign Language Recognition Using Deep Learning | |
| Desai et al. | Unauthorised Activity Detection during Online Exam | |
| Dixit et al. | SIFRS: Spoof Invariant Facial Recognition System (A Helping Hand for Visual Impaired People) |