RU2841111C1

RU2841111C1 - Method of controlling on-board systems of unmanned vehicles using neural networks based on architecture of transformers

Info

Publication number: RU2841111C1
Application number: RU2024118011A
Authority: RU
Inventors: Атеф Абдельмагид Абдо Эльдакрури Карим; Мостафа Айман Ахмед Мохамед Хегази; Бадер Рашид
Original assignee: Автономная некоммерческая организация высшего образования "Университет Иннополис"
Filing date: 2024-06-28
Publication date: 2025-06-02

Abstract

FIELD: physics.

SUBSTANCE: invention relates to a method of controlling on-board systems of unmanned vehicles using neural networks based on a transformer architecture. Method includes combined processing of output signals of unmanned vehicle sensors. Neural network is trained directly on the input signals of the sensors and outputs the required control signals based on the studied patterns. Architecture of the convolutional neural network directly maps input raw image pixels to control commands. Synthesis network is the basis of the model architecture and is responsible for extraction of environmental characteristics. Path prediction network receives the feature vectors provided by the synthesis network and predicts the next multiple route points for the vehicle. Synthesis network is divided into an image branch and a bird's-eye view branch. Characteristic maps from both branches are transmitted to the input of the transformer module, which performs combined processing of modality branch data.

EFFECT: improving the accuracy and performance of on-board systems of unmanned vehicles.

2 cl, 4 dwg

Description

ОБЛАСТЬ ТЕХНИКИAREA OF TECHNOLOGY

Заявленное изобретение относится к компьютерно-реализованным способам и системам для управления бортовыми системами беспилотных транспортных средств при помощи нейронных сетей на основе архитектуры трансформеров.The claimed invention relates to computer-implemented methods and systems for controlling on-board systems of unmanned vehicles using neural networks based on transformer architecture.

ПРЕДШЕСТВУЮЩИЙ УРОВЕНЬ ТЕХНИКИPRIOR ART

В последнее время область беспилотных транспортных средств представляет большой исследовательский интерес, обусловленный близостью к реализации полностью автономных автомобилей. Данные, полученные с различных сенсоров, объединяются вместе, для создания однородного представления об окружающем пространстве. The field of unmanned vehicles has recently attracted much research interest due to its proximity to the implementation of fully autonomous vehicles. Data from various sensors is combined together to create a unified view of the surrounding space.

Модели нейронных сетей на основе архитектуры трансформеров находят применение в различных областях высоких технологий, к примеру, в бортовых системах беспилотного транспорта. Вместе с тем, остается недостаточно изученным вопрос о применении методики end-to-end обучения нейронных сетей на основе архитектуры трансформеров для использования в бортовых системах беспилотного транспорта.Neural network models based on the transformer architecture are used in various areas of high technology, for example, in on-board systems of unmanned vehicles. At the same time, the issue of applying the end-to-end training method of neural networks based on the transformer architecture for use in on-board systems of unmanned vehicles remains insufficiently studied.

Подобные подходы известны из уровня техники, например, автомобильная система отображения (см. US10300856B2, опубл. 28.05.2019), которая включает в себя один экран видеодисплея и видеопроцессор, предназначенный для обработки захваченных данных видеоизображения, захваченных камерой в транспортном средстве. Одиночный экран видеодисплея включает в себя левую область отображения в левой части, правую область отображения в правой части и среднюю область отображения между левой и правой областями отображения. Экран дисплея может использовать каждую область отображения для отображения видеоизображений, полученных из соответствующей части захваченных данных изображения. Когда экран дисплея отображает видеоизображения в правой или левой области отображения, полученные из соответствующей части данных захваченного изображения, на одном экране дисплея не отображаются видеоизображения, представляющие другую часть данных захваченного изображения на другом дисплее. область, край.Similar approaches are known in the art, for example, an automotive display system (see US10300856B2, published 05/28/2019), which includes a single video display screen and a video processor designed to process captured video image data captured by a camera in a vehicle. A single video display screen includes a left display area on the left side, a right display area on the right side, and a middle display area between the left and right display areas. The display screen can use each display area to display video images obtained from a corresponding portion of the captured image data. When the display screen displays video images in the right or left display area obtained from a corresponding portion of the captured image data, video images representing another portion of the captured image data on the other display are not displayed on one display screen. area, edge.

Представленная в аналоге система трекинга не раскрывает полностью подхода к считыванию данных камер, поэтому сложно судить об используемой системе отслеживания объектов.The tracking system presented in the analogue does not fully reveal the approach to reading camera data, so it is difficult to judge the object tracking system used.

Также из уровня техники известны способы и системы для автоматизированного определения присутствия объектов (см. RU2744012, опубл. 02.03.2021). Способ содержит прием данных датчиков, представляющих окружающую область SDC в форме данных облака трехмерных точек, формирование, посредством MLA, на основе данных облака трехмерных точек, набора векторов признаков, представляющих окружающую область, формирование, посредством MLA, представления в форме сетки окружающей области, причем каждая данная ячейка представления в форме сетки включает в себя спрогнозированный параметр расстояния, указывающий расстояние от данной ячейки до ближайшей ячейки с препятствием, и использование, посредством электронного устройства, параметра расстояния для того, чтобы определять присутствие препятствия в окружающей области SDC. Also known from the prior art are methods and systems for automated detection of the presence of objects (see RU2744012, published 02.03.2021). The method comprises receiving sensor data representing the surrounding area of the SDC in the form of three-dimensional point cloud data, generating, by means of an MLA, based on the three-dimensional point cloud data, a set of feature vectors representing the surrounding area, generating, by means of an MLA, a grid representation of the surrounding area, wherein each given cell of the grid representation includes a predicted distance parameter indicating the distance from the given cell to the nearest cell with an obstacle, and using, by means of an electronic device, the distance parameter in order to determine the presence of an obstacle in the surrounding area of the SDC.

Указанный способ не обладает большой точностью, так как разработан только для работы только внутри помещений/складских территорий, и не способен работать в условиях дождя или снегопада. Также данный метод определения расстояния до объектов не учитывает историю передвижения обнаруженного препятствия, информация о которой может заметно улучшить точность определения расстояния до динамических объектов.The specified method does not have high accuracy, since it is designed only for indoor/warehouse use, and is not capable of operating in rain or snow conditions. Also, this method of determining the distance to objects does not take into account the history of the movement of the detected obstacle, information about which can significantly improve the accuracy of determining the distance to dynamic objects.

Из уровня техники известны, выбранные в качестве ближайшего аналога способы и системы для автоматизированного определения присутствия объектов (см. RU2769921, опубл. 08.04.2022) Способ осуществляется посредством электронного устройства, соединенного с возможностью связи с лидаром, установленным на транспортном средстве, причем лидар имеет множество лазеров для захвата данных облака лидарных точек. Способ содержит: прием первых данных облака лидарных точек, захваченных посредством лидара; выполнение посредством электронного устройства алгоритма машинного обучения (MLA) для следующего: анализа первого множества лидарных точек из первых данных облака точек относительно шаблона откликов множества лазеров; извлечения данных представления в виде сетки окружающей области транспортного средства; определения того, что первое множество лидарных точек ассоциировано со слепой зоной, причем слепая зона препятствует алгоритму обнаружения электронного устройства обнаружить присутствие по меньшей мере одного объекта в окружении транспортного средства, что обусловлено тем, что присутствует по меньшей мере один объект.The prior art discloses methods and systems for automated detection of the presence of objects, selected as the closest analogue (see RU2769921, published 08.04.2022). The method is implemented by means of an electronic device connected with the possibility of communication with a lidar installed on a vehicle, wherein the lidar has a plurality of lasers for capturing lidar point cloud data. The method comprises: receiving first lidar point cloud data captured by the lidar; executing by the electronic device a machine learning algorithm (MLA) for the following: analyzing a first plurality of lidar points from the first point cloud data relative to a response template of the plurality of lasers; extracting data of a grid representation of the surrounding area of the vehicle; determining that the first plurality of lidar points is associated with a blind spot, wherein the blind spot prevents the detection algorithm of the electronic device from detecting the presence of at least one object in the surroundings of the vehicle, which is due to the fact that at least one object is present.

Указанный способ также не обладает большой точностью, так как задействует в качестве сенсора только лидар, который имеет большое количество шума при работе в условиях сильного дождя, тумана или снега. Использование нескольких сенсоров с объединением данных с них позволяет нивелировать недостатки каждого сенсора и увеличить точность распознавания.This method also does not have high accuracy, since it uses only a lidar as a sensor, which has a large amount of noise when operating in conditions of heavy rain, fog or snow. Using several sensors with data merging from them allows you to level out the shortcomings of each sensor and increase the accuracy of recognition.

Предложенный аналог наиболее близко подходит к решению проблем, решаемых заявленным изобретением, однако, по мнению заявителя проблема решается не самым эффективным способом, поскольку способ также не обеспечивает надежности.The proposed analogue comes closest to solving the problems solved by the claimed invention, however, in the opinion of the applicant, the problem is not solved in the most effective way, since the method also does not ensure reliability.

КРАТКОЕ ИЗЛОЖЕНИЕ ИЗОБРЕТЕНИЯSUMMARY OF THE INVENTION

Данное изобретение направлено на решение технической проблемы, связанной с созданием способа управления бортовыми системами беспилотных транспортных средств при помощи нейронных сетей на основе архитектуры трансформеров повышенной точности и производительности управления беспилотными транспортными средствами.This invention is aimed at solving a technical problem associated with the creation of a method for controlling on-board systems of unmanned vehicles using neural networks based on the architecture of transformers with increased accuracy and performance of controlling unmanned vehicles.

Техническим результатом изобретения является повышение точности и производительности работы бортовых систем беспилотных транспортных средств.The technical result of the invention is to increase the accuracy and performance of the on-board systems of unmanned vehicles.

Технический результат достигается посредством создания способа управления бортовыми системами беспилотных транспортных средств при помощи нейронных сетей на основе архитектуры трансформеров, включающего совместную обработку выходных сигналов сигналов датчиков беспилотного транспортного средства, в том числе различного типа.The technical result is achieved by creating a method for controlling on-board systems of unmanned vehicles using neural networks based on the architecture of transformers, including joint processing of output signals of sensors of the unmanned vehicle, including various types.

Способ управления бортовыми системами беспилотных транспортных средств, характеризуется тем, что для управления бортовой системой используют нейронную сеть, которая обучается непосредственно на входных сигналах датчиков и выводит необходимые управляющие сигналы на основе изученных паттернов для этого архитектура сверточной нейронной сети, напрямую сопоставляет входные необработанные пиксели изображения с командами управления, при этом сеть синтеза представляет собой основу архитектуру модели и отвечает за извлечение характеристик окружающей среды, вторая часть – сеть прогнозирования пути, которая принимает векторы характеристик, предоставленные сетью синтеза, и прогнозирует следующие несколько точек маршрута для транспортного средства, затем выходные значения из сети прогнозирования пути подают на пропорционально-интегрально-дифференцирующий регулятор (ПИД-регуляторы), которые осуществляют управление системами контроля движения транспортного средства, сеть синтеза разделяется на две ветви: ветвь изображения и ветвь вида с высоты птичьего полета, объединенные через модуль трансформера, ветвь изображения получает на вход RGB-изображение и использует серию сверточных кодировщиков для извлечения визуальных характеристик из окружающей среды, кодировщики работают в разных масштабах, захватывая как мелкие детали, так и контекстуальную информацию, полученные карты характеристик содержат визуальные представления, охватывающие различные паттерны, присутствующие на изображении, ветвь вида с высоты птичьего полета принимает в качестве входных данных отображение облака точек, полученных с лидара, которая использует собственный набор сверточных кодировщиков, информация, полученная с лидара, позволяет осуществлять геометрическую и пространственную интерпретацию данных, позволяя модели воспринимать вид трехмерной структуры окружающей среды с высоты птичьего полета, карты характеристик, полученные из обеих ветвей, подаются на вход модуля трансформера, который осуществляет совместную обработку данных ветвей модальности, при этом трансформеры представляют собой одну из моделей глубокого обучения, а их архитектура состоит из блоков «кодировщик-декодировщик» и слоев самоконтроля, при обработке информации механизм самоконтроля позволяет модели упорядочить различные элементы по весам значимости, трансформер вычисляет оценку значимости для каждого элемента, сравнивая его с остальными. The method of controlling the on-board systems of unmanned vehicles is characterized in that a neural network is used to control the on-board system, which is trained directly on the input signals of the sensors and outputs the necessary control signals based on the learned patterns for this purpose, the architecture of the convolutional neural network directly matches the input raw image pixels with control commands, while the synthesis network is the basis of the model architecture and is responsible for extracting the characteristics of the environment, the second part is the path prediction network, which receives the feature vectors provided by the synthesis network and predicts the next few route points for the vehicle, then the output values from the path prediction network are fed to a proportional-integral-differentiative controller (PID controllers), which control the vehicle motion control systems, the synthesis network is divided into two branches: an image branch and a bird's eye view branch, combined through a transformer module, the image branch receives an RGB image as an input and uses a series of convolutional encoders to extract visual characteristics from the environment, the encoders work in different scales, capturing both fine details and contextual information, the resulting feature maps contain visual representations that capture the various patterns present in the image, the bird's eye view branch takes as input a point cloud display obtained from the lidar, which uses its own set of convolutional encoders, the information obtained from the lidar allows for geometric and spatial interpretation of the data, allowing the model to perceive a bird's eye view of the three-dimensional structure of the environment, the feature maps obtained from both branches are fed to the input of the transformer module, which performs joint processing of the data from the modality branches, while transformers are one of the deep learning models, and their architecture consists of encoder-decoder blocks and self-supervision layers, when processing information, the self-supervision mechanism allows the model to order the various elements according to importance weights, the transformer calculates an importance score for each element by comparing it with the others.

В предпочтительном варианте осуществления при оснащении беспилотного транспортного средства могут быть использованы различные типы датчиков, включая камеры, лидары и радары.In a preferred embodiment, various types of sensors may be used in equipping the unmanned vehicle, including cameras, lidars, and radars.

КРАТКОЕ ОПИСАНИЕ РИСУНКОВBRIEF DESCRIPTION OF THE DRAWINGS

Сущность изобретения поясняется рисунками, на которых:The essence of the invention is explained by the drawings, which show:

Рис.1 – архитектура модели TransFuser;Fig.1 – architecture of the TransFuser model;

Рис.2 – вспомогательные задачи, используемые в TransFuser;Fig.2 – auxiliary tasks used in TransFuser;

Рис.3 – входные данные набора данных KITTI;Fig.3 – input data of the KITTI dataset;

Рис.4 – разметка семантической сегментации KITTI;Fig.4 – KITTI semantic segmentation markup;

Эти чертежи не охватывают и, кроме того, не ограничивают весь объем вариантов реализации данного технического решения, а представляют собой только иллюстративный материал частного случая его реализации.These drawings do not cover and, moreover, do not limit the entire scope of options for implementing this technical solution, but represent only illustrative material of a particular case of its implementation.

ВАРИАНТ ОСУЩЕСТВЛЕНИЯ ИЗОБРЕТЕНИЯEMBODIMENT OF THE INVENTION

Заявленный способ управления бортовыми системами беспилотных транспортных средств при помощи нейронных сетей на основе архитектуры трансформеров направлен на упрощение рутинных операций и обеспечение безопасности для людей. Несчастные случаи, относящиеся к любому виду транспорта, происходят в основном по причине человеческого фактора. Следовательно, разработка беспилотных транспортных средств, исключающих возможность человеческой ошибки, становится все более значимой задачей. The claimed method of controlling on-board systems of unmanned vehicles using neural networks based on the transformer architecture is aimed at simplifying routine operations and ensuring safety for people. Accidents related to any type of transport occur mainly due to the human factor. Therefore, the development of unmanned vehicles that exclude the possibility of human error is becoming an increasingly important task.

Метод end-to-end обучения является одним из методов машинного обучения, связанных с преобразованием входных данных в выходные данные, и при этом исключающих необходимость ручной обработки признаков. Метод показал высокую эффективность в таких задачах, как классификация изображений и обработка естественного языка. В сфере разработки беспилотного транспорта наблюдается значительный интерес к применению end-to-end обучения нейронных сетей бортовых систем, поскольку он позволяет модели напрямую учиться на входных данных и генерировать соответствующие управляющие команды.The end-to-end learning method is one of the machine learning methods that deals with the transformation of input data into output data, while eliminating the need for manual feature processing. The method has shown high efficiency in such tasks as image classification and natural language processing. In the field of unmanned transport development, there is considerable interest in the application of end-to-end learning of neural networks of onboard systems, since it allows the model to directly learn from the input data and generate appropriate control commands.

Автономные транспортные средства являются важной областью исследований в практическом применении машинного обучения. Способность беспилотных транспортных средств адекватно воспринимать окружающую среду критически важна для их успешного функционирования. Для создания беспилотного транспортного средства, которое может действовать самостоятельно, без вмешательства человека, требуется комплексное оснащение транспортного средства системой датчиков. При этом также необходимо создание системы совместной обработки сигналов датчиков, в качестве которой в настоящей работе выбрана нейронная сеть. Далее описаны методы, позволяющие решить задачу совместной обработки сигналов датчиков с использованием нейронной сети, и приводятся источники, в которых они описываются.Autonomous vehicles are an important area of research in the practical application of machine learning. The ability of unmanned vehicles to adequately perceive the environment is critical to their successful operation. To create an unmanned vehicle that can operate independently, without human intervention, it is necessary to equip the vehicle with a comprehensive sensor system. At the same time, it is also necessary to create a system for joint processing of sensor signals, for which a neural network is chosen in this paper. Below, we describe methods for solving the problem of joint processing of sensor signals using a neural network, and provide sources in which they are described.

Совместная обработка сигналов датчиков представляет собой одновременную обработку выходных сигналов нескольких датчиков, в том числе различного типа. В контексте беспилотного транспорта совместная обработка сигналов датчиков является одним из ключевых компонентов безопасности, позволяющим бортовой системе точно воспринимать окружающую среду и принимать адекватные обстановке решения автоматического управления.Co-processing of sensor signals is the simultaneous processing of output signals from multiple sensors, including different types. In the context of unmanned vehicles, co-processing of sensor signals is one of the key safety components, allowing the on-board system to accurately perceive the environment and make automatic control decisions adequate to the situation.

В оснащении беспилотного транспорта могут использоваться различные типы датчиков, включая камеры, лидары и радары. Каждый тип датчика имеет свои сильные и слабые стороны, и комбинирование нескольких датчиков помогает преодолеть проблемы каждого из них в отдельности, и, таким образом, обеспечить более точное и надежное восприятие окружающей среды.There are different types of sensors that can be used in autonomous vehicles, including cameras, lidars, and radars. Each type of sensor has its own strengths and weaknesses, and combining multiple sensors can help overcome the problems of each one individually, thus providing a more accurate and reliable perception of the environment.

Одним из широко используемых подходов в совместной обработке сигналов датчиков является использование вероятностной модели, такой как байесовский фильтр. Байесовский фильтр – это математическая модель, которая может объединять информацию от нескольких датчиков и оценивать наиболее вероятное состояние окружающей среды. One widely used approach in joint processing of sensor signals is to use a probabilistic model such as a Bayesian filter. A Bayesian filter is a mathematical model that can combine information from multiple sensors and estimate the most probable state of the environment.

Другие подходы к слиянию сенсоров основаны на глубоком обучении нейронных сетей таких типов, как сверточные нейронные сети (CNN) и рекуррентные нейронные сети (RNN). Эти методы применяются в объединении информации от нескольких датчиков непосредственно из необработанных сигналов. Other approaches to sensor fusion rely on deep learning neural networks of the type convolutional neural networks (CNNs) and recurrent neural networks (RNNs). These methods are used to combine information from multiple sensors directly from raw signals.

Байесовские фильтры и методы глубокого обучения, которые показали многообещающие результаты в области беспилотного транспорта, являются наиболее распространенными подходами в совместной обработке сигналов датчиков.Bayesian filters and deep learning methods, which have shown promising results in the field of autonomous vehicles, are the most common approaches in joint processing of sensor signals.

Алгоритмы и методы совместной обработки сигналов датчиков имеют важное значение при интеграции выходов различных датчиков для получения более точного описания состояния окружающей среды. В таблице 1 приводятся некоторые распространенные методы совместной обработки сигналов датчиков и их особенности.Algorithms and methods for joint processing of sensor signals are important in integrating the outputs of different sensors to obtain a more accurate description of the state of the environment. Table 1 lists some common methods for joint processing of sensor signals and their features.

Таблица 1. Распространенные методы совместной обработки сигналов датчиков и их особенностиTable 1. Common methods of joint processing of sensor signals and their features

МетодMethod ПризнакиSigns ПреимуществаAdvantages Фильтр КалманаKalman filter Линейная модель, гауссовский шумLinear model, Gaussian noise Оптимальный в линейных системах с гауссовским шумомOptimal in linear systems with Gaussian noise Расширенный фильтр КалманаExtended Kalman Filter Нелинейная модель, гауссовский шумNonlinear model, Gaussian noise Расширенная версия фильтра Калмана, способная обрабатывать нелинейные системыAn extended version of the Kalman filter capable of handling nonlinear systems Нейронные сетиNeural networks Не вероятностная модельNot a probabilistic model Может изучать сложные взаимосвязи между даннымиCan explore complex relationships between data Байесовские сетиBayesian networks Вероятностная модельProbabilistic model Может учитывать неопределенность и использоваться для аргументацииCan take into account uncertainty and be used for argumentation

Одним из основных преимуществ обучения end-to-end для автономных транспортных средств является то, что оно снижает зависимость от специалистов, которые вручную осуществляют разметку данных и разрабатывают процесс принятия решений. Этот подход позволяет модели учиться непосредственно на входных сигналах датчиков и выводить необходимые управляющие сигналы на основе изученных паттернов. Кроме того, модели обучения end-to-end могут быть обучены с использованием больших наборов данных, что помогает улучшить точность модели и ее обобщающую способность.One of the main advantages of end-to-end learning for autonomous vehicles is that it reduces the reliance on human workers to manually label data and develop decision-making processes. This approach allows the model to learn directly from sensor inputs and output the necessary control signals based on the learned patterns. In addition, end-to-end learning models can be trained using large data sets, which helps improve the accuracy of the model and its generalization ability.

Заявленный способ предлагает решение, которое представляет концепцию обучения end-to-end в области автономных транспортных средств. Предложена архитектура сверточной нейронной сети, которая напрямую сопоставляет входные необработанные пиксели изображения с командами управления, не требуя ручной разметки данных. На этапе обучения использовалась обширная коллекция видеозаписей вождения наземных транспортных средств. Успешность использования предложенного метода была подтверждена в реальных дорожных условиях. The stated method proposes a solution that introduces the concept of end-to-end learning in the field of autonomous vehicles. A convolutional neural network architecture is proposed that directly maps input raw image pixels to control commands without requiring manual data labeling. A large collection of ground vehicle driving videos was used in the training phase. The success of the proposed method was confirmed in real road conditions.

Архитектура применяемой модели TransFuserArchitecture of the applied TransFuser model

TransFuser состоит из двух основных частей: первая – это сеть синтеза на основе трансформеров. Сеть синтеза, как показано на рисунке 1, представляет собой основу архитектуру модели TransFuser и отвечает за извлечение характеристик окружающей среды. Вторая часть – это сеть прогнозирования пути, которая принимает векторы характеристик, предоставленные сетью синтеза, и прогнозирует следующие несколько точек маршрута для транспортного средства. Затем выходные значения из сети прогнозирования пути подаются на ПИД-регуляторы, которые осуществляют управление системами контроля движения транспортного средства.TransFuser consists of two main parts: the first is a transformer-based synthesis network. The synthesis network, as shown in Figure 1, is the core architecture of the TransFuser model and is responsible for extracting environmental features. The second part is a path prediction network, which takes the feature vectors provided by the synthesis network and predicts the next few waypoints for the vehicle. The outputs from the path prediction network are then fed to PID controllers that control the vehicle's motion control systems.

Сеть синтеза разделяется на две ветви: ветвь изображения и ветвь вида с высоты птичьего полета (BEV), объединенные через модуль трансформера. Эти компоненты, в дополнение к процессу объединения признаков, выполняемому модулем трансформера, подробно описаны в следующих разделах.The synthesis network is divided into two branches: an image branch and a bird's eye view (BEV) branch, which are combined via a transformer module. These components, in addition to the feature fusion process performed by the transformer module, are described in detail in the following sections.

1) Ветви модальности: 1) Branches of modality:

Ветвь изображения получает на вход RGB-изображение и использует серию сверточных кодировщиков для извлечения визуальных характеристик из окружающей среды. Кодировщики работают в разных масштабах, захватывая как мелкие детали, так и контекстуальную информацию. Полученные карты характеристик содержат визуальные представления, охватывающие различные паттерны, присутствующие на изображении.The image branch takes an RGB image as input and uses a series of convolutional encoders to extract visual features from the environment. The encoders operate at different scales, capturing both fine detail and contextual information. The resulting feature maps contain visual representations that capture the various patterns present in the image.

Ветвь вида с высоты птичьего полета принимает в качестве входных данных отображение облака точек, полученных с лидара. Эта ветвь использует собственный набор сверточных кодировщиков. Информация, полученная с лидара, позволяет осуществлять геометрическую и пространственную интерпретацию данных, позволяя модели воспринимать вид трехмерной структуры окружающей среды с высоты птичьего полета.The bird's eye view branch takes as input a point cloud image from the lidar. This branch uses its own set of convolutional encoders. The information obtained from the lidar enables geometric and spatial interpretation of the data, allowing the model to perceive a bird's eye view of the 3D structure of the environment.

2) Модуль трансформера:2) Transformer module:

Карты характеристик, полученные из обеих ветвей, подаются на вход модуля трансформера, который осуществляет совместную обработку данных ветвей модальности. Трансформеры представляют собой одну из моделей глубокого обучения. Их архитектура состоит из блоков «кодировщик-декодировщик» и слоев самоконтроля, которые являются отличительной особенностью трансформеров.The feature maps obtained from both branches are fed to the input of the transformer module, which performs joint processing of the modality branches. Transformers are one of the deep learning models. Their architecture consists of encoder-decoder blocks and self-control layers, which are the distinctive feature of transformers.

При обработке информации механизм самоконтроля позволяет модели упорядочить различные элементы по весам значимости. Трансформер вычисляет оценку значимости для каждого элемента, сравнивая его с остальными. Оценка значимости также определяет вклад всех остальных элементов в представление оцениваемого элемента.When processing information, the self-checking mechanism allows the model to order the different elements according to importance weights. The transformer calculates an importance score for each element by comparing it with the others. The importance score also determines the contribution of all other elements to the representation of the element being evaluated.

Механизм самоконтроля математически описывается следующим образом: интеграции данных топливно-энергетических балансов, региональных программ газификации, а также информации по работе с потребителями газа в государственные информационные системы;The self-control mechanism is mathematically described as follows: integration of data from fuel and energy balances, regional gasification programs, as well as information on working with gas consumers into state information systems;

Задается последовательность входных элементов, определенная как , где n - длина последовательности. Каждый элемент преобразуется в векторы ключа (K), запроса (Q) и значения (V) с помощью изученных линейных проекций:A sequence of input elements is given, defined as , where n is the length of the sequence. Each element is transformed into key ( K ), query ( Q ), and value ( V ) vectors using the learned linear projections:

Здесь , и – матрицы весов. Механизм самоконтроля вычисляет оценку (α) для каждой пары элементов:Here , And – weight matrices. The self-checking mechanism calculates an estimate (α) for each pair of elements:

где - вектор запроса для элемента , - вектор ключа для элемента , а - размерность вектора ключа. Скалярное произведение масштабируется с учетом , чтобы снизить влияние магнитуд векторов.Where - query vector for the element , - key vector for the element , A - the dimension of the key vector. The scalar product is scaled taking into account , to reduce the influence of vector magnitudes.

Затем полученные оценки обрабатываются функцией softmax, которая вычисляет веса:The resulting estimates are then processed by the softmax function, which calculates the weights:

Окончательно, механизм самоконтроля сопоставляет веса внимания с векторами значений, чтобы получить выходное представление (AttOut) для каждого элемента:Finally, the self-supervision mechanism maps the attention weights to the value vectors to produce an output representation (AttOut) for each element:

Полученные выходные представления затем обрабатываются в модели трансформера нейронными сетями прямого распространения.The resulting output representations are then processed in the transformer model by feedforward neural networks.

Механизм самоконтроля трансформера особенно хорошо зарекомендовал себя в задачах беспилотного наземного транспорта. Модель способна улавливать сложные взаимосвязи между объектами и их окружением, например, как позиция и движение автомобиля связаны с позициями других транспортных средств, пешеходов и препятствий. The transformer's self-control mechanism has proven itself particularly well in unmanned ground transportation tasks. The model is able to capture complex relationships between objects and their environment, such as how the position and movement of a car relate to the positions of other vehicles, pedestrians, and obstacles.

3) Объединение признаков: 3) Combining features:

В процессе объединения признаков рассматриваются две модальности, каждая из которых представлена промежуточными картами характеристик размерностью и . Для объединения этих модальностей производится их конкатенация, в результате которой получаем тензор с размерностью:In the process of combining features, two modalities are considered, each of which is represented by intermediate feature maps of dimension And To combine these modalities, they are concatenated, resulting in a tensor with the dimension:

Полученный тензор содержит входные данные для дальнейшей обработки и проходит через модуль трансформера. Выходом модуля является тензор той же размерности, который затем преобразуется в две карты с размерами, соответствующими исходным картам характеристик, и . Эти карты используются в качестве входов для последующих шагов в каждой модальной ветви. Окончательная карта признаков из каждой ветви подвергается дополнительной обработке. Для уменьшения размерности векторов признаков используется усредняющий слой с преобразованием до размерности 512, что позволяет сохранить важную информацию.The resulting tensor contains the input data for further processing and passes through the transformer module. The output of the module is a tensor of the same dimension, which is then transformed into two maps with dimensions corresponding to the original feature maps, And . These maps are used as inputs for subsequent steps in each modal branch. The final feature map from each branch undergoes additional processing. To reduce the dimensionality of the feature vectors, an averaging layer is used with a transformation to 512 dimensions, which allows preserving important information.

Основная цель настоящего исследования – оценить производительность TransFuser в восприятии специфики новой среды. Вместо интеграции карт признаков обеих модальностей на последнем слое каждая карта подается на соответствующие декодеры трансформеров для вспомогательных задач.The main objective of this study is to evaluate the performance of TransFuser in perceiving the specificity of a new environment. Instead of integrating the feature maps of both modalities in the last layer, each map is fed to the corresponding transformer decoders for auxiliary tasks.

B. Вспомогательные задачиB. Auxiliary tasks

Вспомогательные задачи в контексте проведенного исследования служат цели улучшения процесса обучения путем ввода дополнительных сигналов или использования техник регуляризации, что в конечном итоге приводит к повышению производительности основной системы. Более того, они позволяют сети осуществлять более устойчивые и обобщаемые представления.Auxiliary tasks in the context of the conducted research serve the purpose of improving the learning process by introducing additional signals or using regularization techniques, which ultimately leads to an increase in the performance of the main system. Moreover, they allow the network to implement more robust and generalizable representations.

Помимо основной задачи прогнозирования точек маршрута, TransFuser использует четыре вспомогательные функции потерь, которые показали большой потенциал в проведенных исследованиях с участием управляющих агентов:In addition to the primary task of predicting waypoints, TransFuser uses four auxiliary loss functions that have shown great potential in previous studies involving control agents:

1) Прогнозирование глубины в 2D. Оценка глубины относится к процессу прогнозирования расстояния до объектов от заданной точки обзора. TransFuser использует метод, называемый 2D оценка глубины, который направлен на оценку глубины на основе двумерных изображений.1) 2D Depth Prediction: Depth estimation refers to the process of predicting the distance of objects from a given viewpoint. TransFuser uses a method called 2D depth estimation, which aims to estimate depth based on two-dimensional images.

2) Семантическая сегментация. Задача заключается в маркировке отдельных пикселей на изображении в соответствии с конкретной семантической категорией, с которой они ассоциируются. Эта техника позволяет модели понимать различные объекты и области, присутствующие на изображении.2) Semantic segmentation: The task is to label individual pixels in an image according to the specific semantic category they are associated with. This technique allows the model to understand the different objects and regions present in the image.

3) HD-карта. В TransFuser HD-карта прогнозируется с использованием трехканальной маски сегментации вида с высоты птичьего полета. Эта HD-карта содержит различные классы, такие как маркировка полосы движения, дороги, предоставляя детали о проходимых и непроходимых зонах.3) HD Map: In TransFuser, HD map is predicted using three-channel segmentation mask of bird's eye view. This HD map contains different classes such as lane markings, roads, providing details about passable and impassable areas.

4) Ограничивающие параллелепипеды. Для обнаружения дополнительных транспортных средств TransFuser использует декодер CenterNet для оценки ключевых точек. Он прогнозирует местоположения транспортных средств по характеристикам вида с высоты птичьего полета с использованием сверточного декодера. Обучение включает создание 2D целевой метки с гауссовыми ядрами в центрах объектов. Для решения проблем ориентации транспортных средств используется двухэтапный подход. Сначала TransFuser дискретизирует относительный угол поворота на каждый пиксель. Затем генерируется карта регрессии для размера транспортного средства, смещений положения и смещений ориентации. Обучение учитывает фокусировочные потери, потери перекрестной энтропии и -потери, соответственно, для отображений позиции, регрессии и ориентации.4) Bounding Boxes. To detect additional vehicles, TransFuser uses the CenterNet decoder to estimate keypoints. It predicts vehicle locations from bird's eye view features using a convolutional decoder. Training involves creating a 2D target label with Gaussian kernels at the centers of objects. A two-step approach is used to solve vehicle orientation problems. First, TransFuser discretizes the relative rotation angle at each pixel. Then, a regression map is generated for vehicle size, position offsets, and orientation offsets. Training takes into account focusing loss, cross-entropy loss, and -losses, respectively, for position, regression and orientation mappings.

Оригинальная модель TransFuser изначально обучалась на симуляторе CARLA, виртуальной среде для беспилотных автомобилей.The original TransFuser model was initially trained on the CARLA simulator, a virtual environment for self-driving cars.

1) Окружение реального автотранспортного средства. На первом этапе производится оценка производительности модели с использованием набора данных реального автотранспортного средства. Этот критически важный этап направлен на оценку того, насколько эффективно модель может интерпретировать реальные данные по сравнению с синтезированными данными. Хотя симулятор CARLA стремится предоставить реалистичную среду, важно признать ограничения в точном представлении сложности сцен реального мира. Например, одно из ограничений заключается в качестве данных датчиков, генерируемых CARLA, которые могут значительно отличаться от выходных данных реальных датчиков. Это расхождение может проявиться в изменениях в точности, зашумленности, что потенциально может привести к значительным изменениям в поведении модели.1) Real Vehicle Environment: The first step evaluates the performance of the model using a real vehicle dataset. This critical step aims to assess how effectively the model can interpret real data compared to synthesized data. While the CARLA simulator aims to provide a realistic environment, it is important to recognize the limitations in accurately representing the complexity of real-world scenes. For example, one limitation is the quality of the sensor data generated by CARLA, which can differ significantly from the output of real sensors. This discrepancy can manifest itself in changes in accuracy, noise, and potentially lead to significant changes in the behavior of the model.

Для оценки был выбран широко используемый набор данных KITTI Vision. В ходе анализа производительности результаты модели TransFuser сравнивались с производительностью ее аналогов, представленными в рейтинге KITTI с использованием стандартизированных метрик. В частности, внимание было сосредоточено на вспомогательных задачах, таких как семантическая сегментация, прогнозирование глубины и прогнозирование ограничивающего параллелепипеда. The widely used KITTI Vision dataset was chosen for evaluation. The performance analysis compared the results of the TransFuser model with the performance of its peers presented in the KITTI ranking using standardized metrics. In particular, attention was focused on auxiliary tasks such as semantic segmentation, depth prediction, and bounding box prediction.

2) Симуляция окружения беспилотного транспортного средства. На втором этапе производится оценка производительности модели в среде симулятора, адаптированной для беспилотных судов. Предварительно обученный модуль слияния признаков был окончательно настроен, после чего модель тестировалась на вспомогательных задачах. Этот этап направлен на адаптацию модели к характерным особенностям среды. Модель предварительно была настроена на основе ранее полученной информации и способна различать новые характеристики, типичные для среды, сохраняя при этом понимание общих особенностей, изученных в исходной наземной среде. Использовались данные симулятора, полученные из сценариев управления судном на платформе Unreal Engine 4. При оценке исследуемой модели осуществлялось сравнение с классическим методом трекинга и совместной обработки высокоуровневых сигналов, использованного здесь в качестве эталона для сравнения производительности.2) Simulation of the unmanned vehicle environment. The second stage evaluates the performance of the model in a simulator environment adapted for unmanned vessels. The pre-trained feature fusion module was finally tuned, after which the model was tested on auxiliary tasks. This stage aims to adapt the model to the characteristic features of the environment. The model was pre-tuned based on previously acquired information and is able to discern new features typical for the environment, while maintaining an understanding of the common features learned in the original terrestrial environment. The simulator data obtained from ship control scenarios on the Unreal Engine 4 platform were used. The model under study was evaluated in comparison with the classical tracking and joint processing of high-level signals, which is used here as a benchmark for performance comparison.

Ранее использованный метод для прогнозирования состояния детектированных объектов на основе измерений и моделей движения использует расширенный фильтр Калмана (EKF). Происходит совместная обработка обнаруженных камерой и лидаром объектов и их сопоставление. Обнаруженные камерой объекты преобразуются в 3D с использованием постобработки, а алгоритм сопоставления находит центр изображения, определяет размеры и классы объектов. Расширенный фильтр Калмана выполняет прогнозирование с учетом влияния зашумленности данных и ошибок измерения. Описанный трекинговый модуль позволяет точнее оценивать состояние объектов и улучшить восприятие окружающей среды бортовой системой транспортного средства.The previously used method for predicting the state of detected objects based on measurements and motion models uses an extended Kalman filter (EKF). The objects detected by the camera and lidar are processed jointly and compared. The objects detected by the camera are converted to 3D using post-processing, and the matching algorithm finds the center of the image, determines the sizes and classes of objects. The extended Kalman filter performs prediction taking into account the influence of data noise and measurement errors. The described tracking module allows for more accurate assessment of the state of objects and improves the perception of the environment by the on-board vehicle system.

3) Окружение реального автотранспортного судна. На заключительном этапе производится тестирование модели на реальных данных, полученных бортовыми системами беспилотных транспортных средств. Подобно начальному этапу, требуется оценить производительность модели. 3) Environment of a real motor transport vessel. At the final stage, the model is tested on real data obtained by onboard systems of unmanned vehicles. Similar to the initial stage, it is necessary to evaluate the performance of the model.

Наборы данных, используемые на каждом этапе экспериментов, исследуются с учетом характеристик, таких как форма ввода/вывода, метки истинных значений и метрики.The datasets used in each stage of the experiments are examined taking into account characteristics such as input/output shape, ground truth labels, and metrics.

Наборы данных KITTI состоят из показаний различных типов датчиков, обычно используемых в системах автономного вождения. Основные источники данных в наборе включают:KITTI datasets consist of readings from various types of sensors commonly used in autonomous driving systems. The main sources of data in the set include:

- Изображения с камеры. Набор данных предоставляет черно-белые и цветные изображения, снятые камерой высокого разрешения, установленной на транспортном средстве. Эти изображения имеют разрешение 1392 × 512 пикселей.- Camera images. The dataset provides black and white and color images captured by a high-resolution camera mounted on a vehicle. These images have a resolution of 1392 × 512 pixels.

- Облака точек лидар. Набор данных включает трехмерные данные облака точек, захваченные датчиком LiDAR Velodyne HDL-64E. Точки лидара представлены в форме координат (x, y, z) в системе координат транспортного средства.- Lidar point clouds. The dataset includes 3D point cloud data captured by a Velodyne HDL-64E LiDAR sensor. Lidar points are represented as (x, y, z) coordinates in the vehicle coordinate system.

Помимо изображений камер и облаков точек лидаров, KITTI также предоставляет данные GPS и IMU, информацию о положении, ориентации и скорости транспортного средства. Однако, в рассматриваемом примере только RGB-изображения и данные лидаров используются в качестве входных данных для модели. На рис. 3 показан пример визуализации входных данных набора данных KITTI.In addition to camera images and lidar point clouds, KITTI also provides GPS and IMU data, vehicle position, orientation, and speed information. However, in this example, only RGB images and lidar data are used as input to the model. Figure 3 shows an example of visualization of the input data of the KITTI dataset.

1) Эталонные данные и метрики. Коллекция KITTI предоставляет эталонные данные для ряда задач, включая отслеживание и обнаружение объектов, сегментацию, а также оценку глубины изображения. 1) Benchmark data and metrics: The KITTI collection provides benchmark data for a range of tasks, including object tracking and detection, segmentation, and image depth estimation.

Оценка глубины избражения. Набор данных для этой задачи представлен картами глубины, которые предоставляют информацию о глубине на уровне пикселей. Основные метрики, используемые при оценке этой задачи:Image Depth Estimation. The dataset for this task is represented by depth maps, which provide pixel-level depth information. The main metrics used in evaluating this task are:

Ошибка SILog:SILog Error:

SILog является распространенной метрикой в компьютерном зрении, особенно в задачах оценки глубины. Это основной показатель, используемый тестом KITTI Vision Benchmark для ранжирования моделей по оценке глубины. SILog можно интерпретировать как среднюю логарифмическую ошибку на пиксель между спрогнозированной и истинной глубиной. Меньшие значения SILog указывают на лучшую оценку глубины.SILog is a common metric in computer vision, especially in depth estimation tasks. It is the main metric used by the KITTI Vision Benchmark to rank models for depth estimation. SILog can be interpreted as the average logarithmic error per pixel between the predicted and true depth. Lower SILog values indicate better depth estimation.

Отклонение iRMSE:iRMSE Deviation:

iRMSE - еще одна метрика, используемая в рейтинге оценки глубины тестом KITTI. Подобно SILog, более низкое значение iRMSE обычно указывает на более качественную модель.iRMSE is another metric used in the KITTI depth evaluation ranking. Similar to SILog, a lower iRMSE value generally indicates a better quality model.

Семантическая сегментация экземпляров. Данные сегментации хранятся в каждом файле в формате изображения PNG, закодированного как 8-битное беззнаковое целое число, при этом значение каждого пикселя обозначает его класс. Коллекция данных KITTI рассматривает 34 класса, поэтому для отображения их на 7 классов, рассматриваемых TransFuser, используется следующий подход: Semantic segmentation of instances. The segmentation data is stored in each file in PNG image format, encoded as an 8-bit unsigned integer, with each pixel value representing its class. The KITTI data collection considers 34 classes, so the following approach is used to map them to the 7 classes considered by TransFuser:

1) Все классы типа транспортных средств из KITTI (например, автомобиль, грузовик, автобус, поезд и т. д.) помечаются как "транспортное средство". 1) All vehicle type classes from KITTI (e.g. car, truck, bus, train, etc.) are labeled as "vehicle".

2) Классы "дорога", "тротуар" и "пешеход" отображаются напрямую.2) The classes "road", "sidewalk" and "pedestrian" are displayed directly.

3) Все остальные классы (включая "разметку полосы" и "красный свет" из TransFuser) считаются "неразмеченными" из-за отсутствия соответствующей метки в наборе данных.3) All other classes (including "lane markings" and "red light" from TransFuser) are considered "unlabeled" due to the lack of a corresponding label in the dataset.

Для оценки задачи семантической сегментации учитывается метрика средней точности (AP), используемая тестом KITTI. Для каждого класса вычисляется средняя точность по области, а затем определяется их среднее значение по шкале порогов перекрытия. Такой подход помогает сгладить любой потенциальный сдвиг в сторону конкретного значения. Диапазон порогов перекрытия включает значения от 0.5 до 0.95 с шагом 0.05. В результате в процессе оценки рассматривается 10 различных порогов перекрытия.To evaluate the semantic segmentation task, the average precision (AP) metric used by the KITTI benchmark is taken into account. For each class, the average precision over the domain is calculated, and then their average value is determined on a scale of overlap thresholds. This approach helps to smooth out any potential bias towards a specific value. The overlap threshold range includes values from 0.5 to 0.95 with a step of 0.05. As a result, 10 different overlap thresholds are considered during the evaluation.

Кроме того, помимо средней точности, также используются дополнительные метрики, включая точность пикселей, точность, полноту и сходство. Они рассчитываются следующим образом:In addition, in addition to average accuracy, additional metrics are also used, including pixel accuracy, precision, recall, and similarity. They are calculated as follows:

точность пикселей pixel precision

точность accuracy

полнота completeness

сходство similarity

Указанные метрики позволяют осуществить разностороннюю оценку производительности модели.The specified metrics allow for a comprehensive assessment of the model's performance.

Обнаружение объектов. KITTI содержит встроенный инструмент для теста по обнаружению 3D объектов с ограничивающими параллелепипедами транспортных средств и пешеходов. В настоящей работе тест KITTI рассматривается как эталон для оценки производительности модели во вспомогательной задаче ограничивающих параллелепипедов.Object Detection. KITTI contains a built-in benchmark for 3D object detection with vehicle and pedestrian bounding boxes. In this paper, KITTI is considered as a benchmark for evaluating the model's performance in the auxiliary bounding box problem.

Процесс оценки осуществляется на основе вычисления процента обнаруженных ограничивающих параллелепипедов, которые обладают минимальным порогом перекрытия. Для транспортных средств требуется 70% перекрытие, а для пешеходов достаточно 50% перекрытия. Полученная оценка дополнительно разделяется на три различных уровня сложности, учитывающих такие факторы, как минимальная высота ограничивающего параллелепипеда, степень перекрытия объектов и максимальное усечение. Модель TransFuser фокусируется на прогнозировании 2D ограничивающих параллелепипедов с перспективы вида с высоты птичьего полета. Для согласования меток настоящих значений производится проекция на плоскость XY. Это включает в себя вычисление минимального и максимального значения для каждой из координат X и Y по всем восьми углам ограничивающих параллелепипедов эталонных данных. На основе этих координат создаются четыре новые точки: (), (), (), (), которые определяют спроецированный ограничивающий параллелепипед.The scoring process is based on calculating the percentage of detected bounding boxes that meet a minimum overlap threshold. For vehicles, 70% overlap is required, while for pedestrians, 50% overlap is sufficient. The resulting score is further divided into three different complexity levels, taking into account factors such as the minimum height of the bounding box, the degree of object overlap, and the maximum truncation. The TransFuser model focuses on predicting 2D bounding boxes from a bird's eye view perspective. To match the labels to the real values, a projection onto the XY plane is performed. This involves calculating the minimum and maximum value for each of the X and Y coordinates at all eight corners of the reference data bounding boxes. Based on these coordinates, four new points are created: ( ), ( ), ( ), ( ), which define the projected bounding parallelepiped.

B. Данные симулятора суднаB. Ship Simulator Data

Для второго этапа экспериментов были использованы данные, собранные нами в Центре беспилотных технологий Университета Иннополис. Предоставленный набор данных состоит из двух сценариев, каждый из которых содержит около 500 кадров. Каждый кадр описывается пятью файлами:For the second stage of experiments, we used data collected by us at the Center for Unmanned Technologies of Innopolis University. The provided data set consists of two scenarios, each containing about 500 frames. Each frame is described by five files:

1) PNG-файл, содержащий RGB-изображение размером 960 × 640, полученное с передней камеры.1) A PNG file containing a 960×640 RGB image captured from the front camera.

2) Файл XYZ, содержащий данные облака точек лидара дл ядистанции 150 метров в формате: X, Y, Z.2) XYZ file containing lidar point cloud data for a range of 150 meters in the format: X, Y, Z.

3) Файл EXR, содержащий закодированную информацию о глубине изображения в виде изображения размером 960 × 640.3) EXR file containing encoded image depth information as a 960×640 image.

4) PNG-файл, содержащий RGB-изображение размером 960 × 640, представляющее собой сегментацию пикселей на уровне семантики с использованием цветовой кодировки изображения камеры.4) A PNG file containing a 960×640 RGB image representing a semantic-level pixel segmentation using the color encoding of the camera image.

5) TXT-файл, содержащий список ограничивающих параллелепипедов в формате: метка, 8 угловых точек в пространстве XYZ, угол поворота. Поскольку модель TransFuser работает с 2D ограничивающими параллелепипедами вида с высоты птичьего полета, ограничивающие параллелепипеды были спроецированы на плоскость XY по тому же принципу, что и ограничивающие параллелепипеды KITTI.5) A TXT file containing a list of bounding boxes in the format: label, 8 corner points in XYZ space, rotation angle. Since the TransFuser model works with 2D bird's eye view bounding boxes, the bounding boxes were projected onto the XY plane using the same principle as the KITTI bounding boxes.

Таким образом, платформа TransFuser продемонстрировала способность адаптироваться к любой среде, показав конкурентоспособную производительность по сравнению с другими известными методами совместной обработки сигналов, полученных с различных датчиков, для беспилотных транспортных средств.Thus, the TransFuser platform has demonstrated the ability to adapt to any environment, showing competitive performance compared to other known methods of joint processing of signals obtained from different sensors for unmanned vehicles.

Claims

1. A method for controlling on-board systems of unmanned vehicles using neural networks based on a transformer architecture, including joint processing of output signals from sensors of the unmanned vehicle, characterized in that a neural network is used to control the on-board system, which is trained directly on the input signals of the sensors and outputs the necessary control signals based on the learned patterns, for this purpose the convolutional neural network architecture directly matches the input raw image pixels with control commands, wherein the synthesis network is the basis of the model architecture and is responsible for extracting environmental characteristics, the second part is a path prediction network that receives the feature vectors provided by the synthesis network and predicts the next several route points for the vehicle, then the output values from the path prediction network are fed to proportional-integral-differentiative controllers (PID controllers) that control the vehicle motion control systems, the synthesis network is divided into two branches: an image branch and a bird's eye view branch, combined through a transformer module, the branch the image branch takes as input an RGB image and uses a series of convolutional encoders to extract visual features from the environment, the encoders operate at different scales, capturing both fine detail and contextual information, the resulting feature maps contain visual representations that capture the various patterns present in the image, the bird's eye view branch takes as input a lidar point cloud display, which uses its own set of convolutional encoders, the information obtained from the lidar enables geometric and spatial interpretation of the data, allowing the model to perceive a bird's eye view of the 3D structure of the environment, the feature maps obtained from both branches are fed to the input of the transformer module, which jointly processes the data from the modality branches, while transformers are a type of deep learning model, and their architecture consists of encoder-decoder blocks and self-supervision layers, when processing information, the self-supervision mechanism allows the model to order the various elements according to importance weights, the transformer calculates an importance score for each element, comparing it with the others.

2. The control method according to paragraph 1, characterized in that the unmanned vehicle is equipped with cameras, lidars and radars.