[go: up one dir, main page]

RU2776924C1 - Method for generating the signature of an unwanted electronic message - Google Patents

Method for generating the signature of an unwanted electronic message Download PDF

Info

Publication number
RU2776924C1
RU2776924C1 RU2021106650A RU2021106650A RU2776924C1 RU 2776924 C1 RU2776924 C1 RU 2776924C1 RU 2021106650 A RU2021106650 A RU 2021106650A RU 2021106650 A RU2021106650 A RU 2021106650A RU 2776924 C1 RU2776924 C1 RU 2776924C1
Authority
RU
Russia
Prior art keywords
electronic
electronic message
signature
email
messages
Prior art date
Application number
RU2021106650A
Other languages
Russian (ru)
Inventor
Алексей Сергеевич Марченко
Алексей Евгеньевич Утки-Отки
Дмитрий Сергеевич Голубев
Юрий Геннадьевич Слободянюк
Original Assignee
Акционерное общество "Лаборатория Касперского"
Filing date
Publication date
Application filed by Акционерное общество "Лаборатория Касперского" filed Critical Акционерное общество "Лаборатория Касперского"
Priority to US17/565,570 priority Critical patent/US12143358B2/en
Priority to EP22162132.9A priority patent/EP4060962B1/en
Application granted granted Critical
Publication of RU2776924C1 publication Critical patent/RU2776924C1/en
Priority to US18/906,240 priority patent/US20250047639A1/en

Links

Images

Abstract

FIELD: information security.
SUBSTANCE: method for generating the signature of an unwanted electronic message includes the stages of: determining the attributes of at least two consecutively intercepted electronic messages; classifying the first electronic message as unwanted using a trained model for classifying electronic messages; determining that the first and second electronic messages belong to the same cluster of electronic messages, based on certain attributes; generating the signature of the unwanted electronic message based on the determined cluster of electronic messages.
EFFECT: ensured high detection rate and reduced probability of type I and II errors occurring when detecting unwanted electronic messages due to the generation of the signature of an unwanted electronic message using machine learning methods.
7 cl, 4 dwg

Description

Область техникиTechnical field

Изобретение относится к области обеспечения информационной безопасности.The invention relates to the field of information security.

Уровень техникиState of the art

В настоящий момент практически любой обладатель электронного устройства (например, компьютера, мобильного телефона, смартфона, планшета и т.д.) сталкивается с нежелательными электронными сообщениями: SMS–сообщениями и электронными письмами из банков, медицинских центров, страховых фирм, салонов красоты и других компаний, использующих в своей работе телемаркетинг. Также электронные сообщения нередко используют мошенники для получения конфиденциальной информации пользователя (например, данных о кредитных картах, номерах социального страхования и т.д.).At the moment, almost any owner of an electronic device (for example, a computer, mobile phone, smartphone, tablet, etc.) encounters unwanted electronic messages: SMS messages and emails from banks, medical centers, insurance companies, beauty salons and others. companies that use telemarketing in their work. Also, emails are often used by fraudsters to obtain confidential user information (for example, credit card information, social security numbers, etc.).

К примеру, такие нежелательные электронные сообщения как спам письма являются серьезной проблемой, поскольку уже достигают 70-90% от общего объема почтового трафика. Такое количество нежелательных электронных писем вызывает неудобства для пользователей электронной почты и нарушения в работе почтовых серверов. В частности, ведет к ухудшению пропускной способности, трате ресурсов и увеличению времени обработки электронных писем почтовыми службами. For example, unsolicited emails such as spam emails are a serious problem as they already account for 70-90% of total email traffic. This amount of spam e-mails causes inconvenience for e-mail users and disruption of mail servers. In particular, it leads to a deterioration in throughput, a waste of resources, and an increase in the processing time of emails by postal services.

Существует два основных подхода обнаружения нежелательных электронных сообщений: сигнатурный и с использованием методов машинного обучения. There are two main approaches for detecting spam emails: signature-based and using machine learning methods.

При сигнатурном подходе массовую рассылку электронных сообщений разбирают на части, из подмножеств которых формируют сигнатуры. Сигнатуры позволяют однозначно обнаружить нежелательные электронные сообщения в системах обмена электронными сообщениями (к примеру, в почтовых сервисах, службе мгновенных сообщений). Плюсом такого подхода является высокая скорость обнаружения и практически нулевая вероятность возникновения ошибки первого рода, т.е. ложного срабатывания. Ложным срабатыванием в данном случае является ситуация, когда легитимное электронное сообщение определяется как нежелательное. Минусом данного подхода являются пропуски нежелательных электронных сообщений (т.е. возникновение ошибки второго рода).With the signature approach, the mass distribution of electronic messages is disassembled into parts, from subsets of which signatures are formed. Signatures allow unambiguous detection of unwanted electronic messages in electronic messaging systems (for example, in mail services, instant messaging service). The advantage of this approach is a high detection rate and an almost zero probability of a Type I error, i.e. false positive. A false positive in this case is when a legitimate email message is determined to be spam. The disadvantage of this approach is the omission of unwanted e-mails (ie, the occurrence of a Type II error).

К примеру, в патентной публикации US20190281000A1 описана технология определения нежелательного электронного сообщения при помощи сигнатуры. В качестве сигнатуры используют хэш, вычисленный на основании текста тела нежелательного электронного сообщения. For example, patent publication US20190281000A1 describes a technology for detecting unwanted electronic messages using a signature. The signature is a hash calculated from the body text of the spam e-mail message.

В рамках методов машинного обучения используют коллекцию нежелательных электронных сообщений и коллекцию легитимных электронных сообщений. Из сообщений выделяют признаки, которые используют для обучения классификатора. Плюсом такого подхода является высокая обобщающая способность, что позволяет добиться минимального количества пропусков нежелательных электронных сообщений. Вместе с тем минусом данного подхода является высокая вероятность возникновения ложных срабатываний, а также низкая в сравнении с сигнатурным подходом скорость обнаружения.Machine learning methods use a collection of spam emails and a collection of legitimate emails. Signs are extracted from the messages, which are used to train the classifier. The advantage of this approach is a high generalization ability, which allows to achieve a minimum number of skips of unwanted electronic messages. At the same time, the disadvantage of this approach is the high probability of false positives, as well as the low detection rate compared to the signature approach.

Настоящее изобретение позволяет устранить отмеченные недостатки и решить задачу обнаружения нежелательных электронных сообщений путем обобщения сигнатурного вердикта при помощи методов машинного обучения. The present invention allows to eliminate the noted shortcomings and solve the problem of detecting unwanted electronic messages by generalizing the signature verdict using machine learning methods.

Раскрытие изобретенияDisclosure of invention

Изобретение предназначено для обеспечения информационной безопасности.The invention is intended to ensure information security.

Технический результат настоящего изобретения заключается в формировании сигнатуры нежелательного электронного сообщения.The technical result of the present invention is to generate a signature of an unsolicited electronic message.

Данные результаты достигаются с помощью использования способа формирования сигнатуры нежелательного электронного сообщения, при этом способ содержит этапы, на которых: определяют атрибуты по меньшей мере двух последовательно перехваченных электронных сообщений; классифицируют первое электронное сообщение как нежелательное с помощью обученной модели классификации электронных сообщений; определяют, что первое и второе электронное сообщение относятся к одному кластеру электронных сообщений на основании определенных атрибутов; формируют сигнатуру нежелательного электронного сообщения на основании определенного кластера электронных сообщений. These results are achieved by using a spam email signature generation method, the method comprising: determining attributes of at least two successively intercepted email messages; classifying the first email message as spam using the trained email classification model; determine that the first and second electronic messages belong to the same cluster of electronic messages based on certain attributes; generating an unsolicited electronic message signature based on the determined cluster of electronic messages.

В частном случае реализации способа электронное сообщение перехватывают при передаче по меньшей мере через: электронную почту; мессенджер; службу мгновенных сообщений. In a particular case of implementing the method, an electronic message is intercepted during transmission through at least: e-mail; messenger; instant messaging service.

Ещё в одном частном случае реализации способа классифицируют как нежелательное электронное сообщение, переданное по меньшей мере для: осуществления мошенничества; несанкционированного получения конфиденциальной информации; навязывания товаров и услуг. In another particular case, the implementation of the method is classified as an unsolicited electronic message transmitted at least for: fraud; unauthorized receipt of confidential information; imposition of goods and services.

Ещё в одном частном случае реализации способа в качестве обученной модели классификации электронных сообщений выступает по меньшей мере один из следующих алгоритмов классификации: байесовские классификаторы; логистическая регрессия; MRF-классификатор; метод опорных векторов; методы ближайших соседей; дерево принятия решений; рекуррентная нейронная сеть. In another particular case of the implementation of the method, at least one of the following classification algorithms acts as a trained model for classifying electronic messages: Bayesian classifiers; logistic regression; MRF classifier; support vector machine; nearest neighbor methods; decision tree; recurrent neural network.

В частном случае реализации способа в качестве атрибута электронного сообщения выступает по меньшей мере: последовательность слов, выявленная из текста электронного сообщения; нечеткий хэш, вычисленный на основании последовательности слов текста электронного сообщения; вектор, характеризующий текст электронного сообщения. In a particular case of the implementation of the method as an attribute of the electronic message is at least: a sequence of words identified from the text of the electronic message; fuzzy hash calculated based on the sequence of words of the text of the electronic message; a vector characterizing the text of an electronic message.

Ещё в одном частном случае реализации способа формируют сигнатуру нежелательного электронного сообщения на основании одного из следующих критериев: наибольшая общая подпоследовательность слов в тексте электронных сообщений, которые содержатся в определенном кластере электронных сообщений; наибольшая общая подпоследовательность символов нечетких хэшей, вычисленных на основании текста электронных сообщений, которые содержатся в определенном кластере электронных сообщений.In another particular case of implementing the method, an unwanted electronic message signature is generated based on one of the following criteria: the largest common subsequence of words in the text of electronic messages that are contained in a certain cluster of electronic messages; the largest common subsequence of characters of fuzzy hashes calculated from the text of electronic messages contained in a particular cluster of electronic messages.

В частном случае реализации способа сигнатуру нежелательного электронного сообщения формируют на основании повторно определенного кластера электронных сообщений таким образом, чтобы с помощью сформированной сигнатуры определять больше нежелательных электронных сообщений, чем с текущей.In a particular case of the implementation of the method, the signature of an unwanted electronic message is formed on the basis of a redefined cluster of electronic messages in such a way that more unwanted electronic messages are determined using the generated signature than with the current one.

Краткое описание чертежейBrief description of the drawings

Фиг. 1 иллюстрирует один из вариантов архитектуры системы обмена электронными сообщениями. Fig. one illustrates one of the options for the architecture of the electronic messaging system.

Фиг. 2 иллюстрирует один из вариантов архитектуры системы, реализующей способ формирования сигнатуры нежелательного электронного сообщения. Fig. 2 illustrates one of the system architecture options that implements a method for generating a spam email signature .

Фиг. 3 иллюстрирует способ формирования сигнатуры нежелательного электронного сообщения. Fig. 3 illustrates a method for generating a spam email signature.

Фиг. 4 представляет пример компьютерной системы общего назначения, персональный компьютер или сервер. Fig. 4 represents an example of a general purpose computer system, a personal computer or a server.

Хотя изобретение может иметь различные модификации и альтернативные формы, характерные признаки, показанные в качестве примера на чертежах, будут описаны подробно. Следует понимать, однако, что цель описания заключается не в ограничении изобретения конкретным его воплощением. Наоборот, целью описания является охват всех изменений, модификаций, входящих в рамки данного изобретения, как это определено приложенной формуле.Although the invention may have various modifications and alternative forms, the characteristic features shown by way of example in the drawings will be described in detail. It should be understood, however, that the purpose of the description is not to limit the invention to a particular embodiment thereof. On the contrary, the purpose of the description is to cover all changes, modifications, included in the scope of this invention, as defined by the attached claims.

Описание вариантов осуществления изобретенияDescription of embodiments of the invention

Объекты и признаки настоящего изобретения, способы для достижения этих объектов и признаков станут очевидными посредством отсылки к примерным вариантам осуществления. Однако настоящее изобретение не ограничивается примерными вариантами осуществления, раскрытыми ниже, оно может воплощаться в различных видах. Сущность, приведённая в описании, является ничем иным, как конкретными деталями, необходимыми для помощи специалисту в области техники в исчерпывающем понимании изобретения, и настоящее изобретение определяется в объёме приложенной формулы.The objects and features of the present invention, methods for achieving these objects and features will become apparent by reference to exemplary embodiments. However, the present invention is not limited to the exemplary embodiments disclosed below, but may be embodied in various forms. The gist of the description is nothing but the specific details necessary to assist a person skilled in the art in a thorough understanding of the invention, and the present invention is defined within the scope of the appended claims.

На Фиг. 1 представлен один из вариантов архитектуры системы обмена электронными сообщениями. On FIG. 1 shows one of the options for the architecture of the electronic messaging system.

Данная система включает в себя систему обмена электронными сообщениями 100, устройство пользователя 110, электронное сообщение 111, агент 120, устройство хранения данных 130, атрибуты классификации 140, модель классификации 150. This system includes an electronic messaging system 100 , a user device 110 , an electronic message 111 , an agent 120 , a storage device 130 , classification attributes 140 , a classification model 150 .

Система обмена электронными сообщениями 100 представляет собой систему физических и логических каналов связи, реализующую протокол передачи электронного сообщения 111 между устройствами пользователей 110.The electronic messaging system 100 is a system of physical and logical communication channels that implements a protocol for transmitting an electronic message 111 between user devices 110 .

Примерами систем обмена электронными сообщениями 100 являются по меньшей мере:Examples of electronic messaging systems 100 are at least:

• почтовый сервис;• Post service;

• служба мгновенных сообщений;• instant messaging service;

• мессенджер.• messenger.

Электронное сообщение 111 имеет определенную структуру. Кроме тела (англ. body) электронное сообщение 111 содержит заголовки (англ. header) – это служебная информация, включающая в том числе информацию о маршруте прохождения электронного сообщения 111. В заголовках представлены данные о том, когда, откуда и по какому маршруту пришло электронное сообщение 111, а также информацию, добавляемую к данному сообщению 111 различными служебными программами. При этом каждый заголовок определяется своим именем и значением. Значение заголовка представляет собой информацию, представленную в заранее заданном виде. Например, для заголовка, который содержит информацию об отправителе электронного сообщения 111, в качестве имени служит «from», а значение будет иметь вид адреса электронной почты отправителя, например, username@domain.com. The electronic message 111 has a certain structure. In addition to the body (English body), the electronic message 111 contains headers (English header) - this is service information, including information about the route of the electronic message 111 . The headers provide information about when, from where, and by what route the e-mail came 111 , as well as information added to the e-mail 111 by various utilities. Each header is defined by its name and value. The header value is information presented in a predetermined form. For example, for a header that contains information about the sender of email 111 , the name would be "from" and the value would be the sender's email address, such as username@domain.com.

Устройство пользователя 110 формирует электронное сообщение 111 и передает его системе обмена электронными сообщениями 100, а также принимает электронное сообщение 111 от других устройств 110.The user device 110 generates an electronic message 111 and transmits it to the electronic messaging system 100 and also receives an electronic message 111 from other devices 110 .

Агент 120 перехватывает электронное сообщение 111 по меньшей мере:Agent 120 intercepts email 111 at least:

• отслеживая принимаемый и передаваемый по протоколу передачи электронного сообщения трафик (POP3, SMTP, IMAP, NNTP);• tracking the traffic received and transmitted via the protocol of transmission of an electronic message (POP3, SMTP, IMAP, NNTP);

• отслеживая файлы в хранилище системы обмена электронными сообщениями 100;• keeping track of files in the storage of the electronic messaging system 100 ;

• отслеживая файлы в хранилище на устройстве пользователя 110.• keeping track of files in storage on the user's device 110 .

К примеру, в качестве агента 120 выступает модуль (программный компонент) приложения безопасности компании АО «Лаборатория Касперского» (например, Kaspersky Internet Security).For example, agent 120 is a module (software component) of a security application of JSC Kaspersky Lab (for example, Kaspersky Internet Security).

Агент 120 определяет атрибуты классификации 140, содержащиеся в перехваченном электронном сообщении 111, и передает их устройству хранения данных 130. The agent 120 determines the classification attributes 140 contained in the intercepted email message 111 and transmits them to the storage device 130.

К примеру, в качестве атрибутов классификации 140 электронного письма выступают значения заголовков, относящихся к информации о маршруте прохождения, а также служебная информация, сформированная почтовыми клиентами: For example, the attributes of the classification 140 of an e-mail are the values of the headers related to information about the route of passage , as well as service information generated by mail clients :

• Message_ID – уникальный идентификатор электронного письма, присваиваемый первым почтовым сервером, который встретится у него на пути;• Message_ID – a unique e-mail identifier assigned by the first mail server it encounters on the way;

• X-mailer (mailer_name) – значение поля заголовка, в котором почтовый клиент или сервис, с помощью которого было создано электронное письмо, идентифицирует себя;• X-mailer (mailer_name) – value of the header field in which the mail client or service with which the email was created identifies itself;

• последовательность значений заголовков электронного письма.• sequence of e-mail header values.

В ином варианте реализации Агент 120 определяет атрибуты классификации 140 электронного сообщения 111 на основании события, ассоциированного с указанным электронным сообщением. К примеру, в качестве атрибутов классификации 140 электронного сообщения службы мгновенных сообщений выступают:In another implementation, the Agent 120 determines the classification attributes 140 of the electronic message 111 based on an event associated with the indicated electronic message. For example, the instant messaging email classification 140 attributes are:

• флаг просмотра электронного сообщения 111 пользователем;• flag of viewing the electronic message 111 by the user;

• флаг взаимодействия с устройством пользователя 110 во время просмотра электронного сообщения 111 (к примеру, пролистывание сообщения);• a flag for interacting with the user's device 110 while viewing the electronic message 111 (eg, scrolling through the message);

• флаг удаления электронного сообщения 111 пользователем;• a flag for deleting an electronic message 111 by the user;

Устройство хранения данных 130 предназначено для хранения и обработки атрибутов классификации 140. К примеру, атрибуты классификации 140 используют для обучения модели классификации 150. The data storage device 130 is designed to store and process classification attributes 140 . For example, the classification attributes 140 are used to train the classification model 150.

В предпочтительном варианте реализации в качестве устройства хранения данных 130 выступает облачное хранилище данных, обрабатывающее атрибуты классификации 140 в так называемом «облаке», где «облако» – модель хранилища, предусматривающая хранение данных в сети «Интернет» с помощью поставщика облачных вычислительных ресурсов, который предоставляет хранилище данных как сервис и обеспечивает управление им.In the preferred embodiment, the data storage device 130 is a cloud storage device that processes the classification attributes 140 in the so-called “cloud”, where “cloud” is a storage model that stores data on the Internet using a cloud computing resource provider that exposes the data warehouse as a service and manages it.

К примеру, в качестве устройства хранения данных 130 может выступать средство, содержащее систему Kaspersky Security Network (KSN) компании АО «Лаборатория Касперского».For example, the data storage device 130 can be a tool containing the Kaspersky Security Network (KSN) system of Kaspersky Lab JSC.

На Фиг. 2 представлен один из вариантов архитектуры системы, реализующей способ формирования сигнатуры нежелательного электронного сообщения. On FIG. 2 shows one of the options for the architecture of the system that implements the method for generating the signature of an unsolicited electronic message .

Структурная схема системы, реализующей способ формирования сигнатуры нежелательного электронного сообщения, содержит электронное сообщение 111 (в том числе 111а, 111б, 111в), агент 120, устройство хранения данных 130, атрибуты классификации 140, атрибуты кластеризации 210 (в том числе 210а, 210б, 210в), модель классификации 150, средство классификации 220, средство определения схожести 230, средство формирования сигнатуры 240, сигнатуру 250, кластер нежелательных электронных сообщений 260.Block diagram of a system that implements a method for generating an unwanted electronic message signature contains an electronic message111(including111a,111b,111v), agent120, storage device130, classification attributes140, clustering attributes210(including210a,210b,210v),classification model150,means of classification220, similarity tool230, signature generator240,signature250,spam cluster260.

В одном из вариантов реализации указанные средство классификации 220, средство определения схожести 230 и средство формирования сигнатуры 240 являются составными частями устройства хранения данных 130.In one embodiment, said classifier220, similarity tool230 and signature generator240are integral parts of the data storage device130.

В ином варианте реализации средство классификации 220, средство определения схожести 230 и средство формирования сигнатуры 240 могут представлять собой отдельные, независимые, но связанные друг с другом, технические средства, которые могут быть реализованы при помощи отдельных компьютерных систем.In another embodiment, the classifier220, similarity tool230 and signature generator240may be separate, independent, but related, technical means that can be implemented using separate computer systems.

Агент 120 предназначен для перехвата электронного сообщения 111 (в том числе 111а, 111б, 111в), определения атрибутов классификации 140, атрибутов кластеризации 210 (в том числе 210а, 210б, 210в), а также передачи атрибутов классификации 140, атрибутов кластеризации 210а и 210б устройству хранения данных 130.Agent120designed to intercept email111(including111a,111b,111v),classification attribute definitions140,clustering attributes210(including210a,210b,210v),as well as passing classification attributes140, clustering attributes210aand210bstorage device130.

В качестве атрибутов кластеризации 210 выступает по меньшей мере:The attributes of clustering 210 are at least:

• последовательность слов, выявленная из текста электронного сообщения 111;• a sequence of words identified from the text of an electronic message 111 ;

• нечеткий хэш (англ. fuzzy hash), вычисленный на основании последовательности слов текста электронного сообщения 111;• fuzzy hash calculated based on the sequence of words in the text of the electronic message 111 ;

• вектор, характеризующий текст электронного сообщения 111.• a vector characterizing the text of an electronic message 111 .

Устройство хранения данных 130 предназначено для классификации электронного сообщения 111а, определения того, что электронные сообщения 111а и 111б относятся к одному кластеру, а также для формирования сигнатуры 250.The storage device 130 is used to classify the electronic message 111a , determine that the electronic messages 111a and 111b belong to the same cluster , and generate a signature 250 .

Средство классификации 220, в предпочтительном варианте реализации являющееся частью устройства хранения данных 130, предназначено для классификации электронного сообщения 111а на основании атрибутов классификации 140 при помощи модели классификации 150. Модель 150 классифицирует электронное сообщение 111а по меньшей мере как:Classifier220, in the preferred implementation being part of the data storage device130, designed to classify an electronic message111a based on classification attributes140using a classification model150. Model150classifies the email111a at least like:

• нежелательное;• unwanted;

• легитимное.• legitimate.

К примеру, в качестве нежелательного электронного сообщения выступает электронное сообщение 111, переданное по меньшей мере для:For example, the spam email is an email 111 sent for at least:

• осуществления мошенничества;• implementation of fraud;

• несанкционированного получения конфиденциальной информации;• unauthorized receipt of confidential information;

• навязывания товаров и услуг.• the imposition of goods and services.

Модель классификации 150 заранее обучают при помощи атрибутов классификации 140, переданных на устройство хранения данных 130, таким образом, что модель классификации 150 определяет на основании указанных атрибутов признаки, при помощи которых классифицирует электронное сообщение 111а как нежелательное с некоторой вероятностью.Classification model150in advance teach with classification attributes140, transferred to the storage device130, so that the classification model150 determines, based on the specified attributes, the signs by which it classifies the electronic message111a as unwanted with some probability.

В качестве алгоритма классификации выступает по меньшей мере один из следующих алгоритмов (или их комбинация):The classification algorithm is at least one of the following algorithms (or a combination thereof):

• байесовские классификаторы (англ. naive bayesian classifier);• Bayesian classifiers (English naive bayesian classifier);

• логистическая регрессия (англ. logistic regression);• logistic regression;

• MRF-классификатор (англ. MRF classifier);• MRF classifier (eng. MRF classifier);

• метод опорных векторов (англ. support vector machine, SVM);• support vector machine (SVM);

• методы ближайших соседей (англ. k-nearest neighbor);• nearest neighbor methods (eng. k-nearest neighbor);

• дерево принятия решений (англ. decision tree);• decision tree;

• рекуррентная нейронная сеть (англ. Recurrent neural network, RNN).• Recurrent neural network (RNN).

К примеру, модель классификации 150 может быть основана на методах глубокого обучения (англ. deep learning). В частности, атрибуты классификации 140 представляют в виде матрицы, где каждый символ атрибута классификации 140 закодирован вектором чисел фиксированной длины, и подвергают преобразованию с помощью нейронной сети, которая вычисляет степень схожести указанных атрибутов с атрибутами подозрительных сообщений. В качестве признаков выступают преобразованные слоем нейронной сети атрибуты классификации 140.For example, the classification model 150 may be based on deep learning methods. Specifically, classification attributes 140 are represented as a matrix, where each character of classification attribute 140 is encoded as a vector of fixed length numbers, and subjected to a neural network transformation that calculates how similar these attributes are to poison message attributes. The attributes of the classification 140 transformed by the layer of the neural network act as features.

Средство классификации 220 определяет электронное сообщение 111а как нежелательное, если степень схожести электронного сообщения 111а с нежелательными электронными сообщениями выше заранее заданного значения (к примеру, 0.7).Classifier220defines electronic message111aas unwanted,if email similarity111a with spam e-mails above a predetermined value (eg 0.7).

Средство определения схожести 230, в предпочтительном варианте реализации являющееся частью устройства хранения данных 130, предназначено для определения того, что электронные сообщения 111а и 111б относятся к одному кластеру на основании атрибутов кластеризации 210а и 210б. Similarity tool230, in the preferred implementation being part of the data storage device130, is intended to determine that electronic messages111aand111bbelong to the same cluster based on clustering attributes210a and210b.

К примеру, агент 120 передает устройству хранения данных 130 определенные атрибуты кластеризации 210а и 210б соответствующих электронных сообщений 111а и 111б, где в качестве атрибутов кластеризации 210 используют нечеткий хэш, вычисленный на основании последовательности слов текста электронных сообщений 111а и 111б. Средство определения схожести 230 вычисляет расстояние Левенштейна, определяемое как минимальное количество односимвольных операций (вставки, удаления, замены), необходимых для превращения одной последовательности символов в другую, и определяет, что электронные сообщения 111а и 111б относятся к одному кластеру, если указанная метрика не превышает заранее заданного значения.For example, an agent120transfers to the storage device130certain clustering attributes210a and210brelevant electronic messages111aand111b,where as clustering attributes210use a fuzzy hash calculated based on the sequence of words in the text of electronic messages111aand111b.Similarity tool230calculates the Levenshtein distance, defined as the minimum number of single-character operations (inserts, deletes, substitutions) required to turn one sequence of characters into another, and determines that email messages111aand111bbelong to the same cluster if the specified metric does not exceed a predetermined value.

Устройство хранения данных 130 определяет, что электронные сообщения 111а и 111б относятся к кластеру нежелательных электронных сообщений 260, если электронное сообщение 111а было классифицировано средством классификации 220 как нежелательное, а средство определения схожести 230 определило, что электронные сообщения 111а и 111б относятся к одному кластеру.The data storage device 130 determines that the emails 111a and 111b belong to the spam email cluster 260 if the email 111a was classified by the classification engine 220 as spam and the similarity engine 230 determined that the emails 111a and 111b belong to the same cluster.

Средство формирования сигнатуры 240, в предпочтительном варианте реализации являющееся частью устройства хранения данных 130, предназначено для формирования сигнатуры 250 нежелательного электронного сообщения на основании кластера нежелательных электронных сообщений 260. Signature generator240, in the preferred implementation being part of the data storage device130, designed to form a signature250spam e-mail based on a cluster of spam e-mails260.

Сигнатуру 250 кластера нежелательных электронных сообщений 260 формируют на основании по меньшей мере одного из следующих критериев:The signature 250 of the spam cluster 260 is generated based on at least one of the following criteria:

• наибольшая общая подпоследовательность слов в тексте электронных сообщений 111а и 111б, которые содержатся в кластере нежелательных электронных сообщений 260;• the largest common subsequence of words in the body of email messages 111a and 111b that are contained in the spam email cluster 260 ;

• наибольшая общая подпоследовательность символов нечетких хэшей, вычисленных на основании текста электронных сообщений 111а и 111б, которые содержатся в кластере нежелательных электронных сообщений 260.• the largest common character subsequence of fuzzy hashes calculated from the text of the email messages 111a and 111b that are contained in the spam email cluster 260 .

В одном из вариантов реализации сигнатуру нежелательного электронного сообщения формируют на основании повторно определенного кластера нежелательных электронных сообщений таким образом, чтобы с помощью сформированной сигнатуры определять больше нежелательных электронных сообщений, чем с текущей сигнатурой 250.In one embodiment, the spam email signature is generated based on the re-determined cluster of spam emails such that more spam emails are detected with the generated signature than with the current signature 250 .

Дополнительно средство формирования сигнатуры 240 передает сформированную сигнатуру 250 агенту 120, который определяет, содержат ли атрибуты кластеризации 210в электронного сообщения 111в сигнатуру 250. Если атрибуты кластеризации 210в содержат сигнатуру 250, агент 120 определяет электронное сообщение 111в как электронное сообщение, принадлежащее кластеру нежелательных электронных сообщений 260, и обеспечивает информационную безопасность. Additionally, the signature generator 240 passes the generated signature 250 to the agent 120 , which determines whether the clustering attributes 210b of the email message 111b contain the signature 250 . and ensures information security.

Обеспечение информационной безопасности включает в себя по меньшей мере:Ensuring information security includes at least:

• блокирование нежелательного электронного сообщения 111в;• blocking unwanted e-mail 111v ;

• информирование получателя о нежелательном характере электронного сообщения 111в;• informing the recipient about the unwanted nature of the electronic message 111v ;

• передачу атрибутов классификации 140 и атрибутов кластеризации 210 электронного сообщения 111в средству хранения данных 130.• transferring the classification attributes 140 and the clustering attributes 210 of the electronic message 111 to the data storage means 130 .

На Фиг. 3 отображен способ формирования сигнатуры нежелательного электронного сообщения. On FIG. 3 shows a method for generating an unsolicited email signature.

Структурная схема способа формирования сигнатуры нежелательного электронного сообщения содержит этап 310, на котором определяют атрибуты по меньшей мере двух последовательно перехваченных электронных сообщений, этап 320, на котором классифицируют первое электронное сообщение как нежелательное, этап 330, на котором определяют, что первое и второе электронное сообщение относятся к одному кластеру, этап 340, на котором формируют сигнатуру нежелательного электронного сообщения.The block diagram of the method for generating a spam email signature includes step 310 , which determines the attributes of at least two sequentially intercepted electronic messages, step 320 , which classifies the first electronic message as spam, step 330 , which determines that the first and second electronic messages belong to the same cluster, step 340 , in which the spam email signature is generated.

На этапе 310 с помощью агента 120 определяют атрибуты 210 двух последовательно перехваченных электронных сообщений 111.At step 310 , the attributes 210 of the two sequentially intercepted email messages 111 are determined by the agent 120 .

На этапе 320 с помощью модели классификации 150 классифицируют первое электронное сообщение 111 как нежелательное.At 320 , the classification model 150 classifies the first email 111 as spam.

На этапе 330 с помощью средства определения схожести 230 определяют, что первое и второе электронное сообщение 111 относятся к одному кластеру 260.At step 330 , it is determined by the similarity determiner 230 that the first and second email messages 111 belong to the same cluster 260 .

На этапе 340 с помощью средства формирования сигнатуры 240 формируют сигнатуру 250 нежелательного электронного сообщения.At step 340 , a signature 250 of an unsolicited e-mail message is generated by the signature generator 240 .

Фиг. 4 представляет пример компьютерной системы общего назначения, персональный компьютер или сервер 20, содержащий центральный процессор 21, системную память 22 и системную шину 23, которая содержит разные системные компоненты, в том числе память, связанную с центральным процессором 21. Системная шина 23 реализована, как любая известная из уровня техники шинная структура, содержащая в свою очередь память шины или контроллер памяти шины, периферийную шину и локальную шину, которая способна взаимодействовать с любой другой шинной архитектурой. Системная память содержит постоянное запоминающее устройство (ПЗУ) 24, память с произвольным доступом (ОЗУ) 25. Основная система ввода/вывода (BIOS) 26, содержит основные процедуры, которые обеспечивают передачу информации между элементами персонального компьютера 20, например, в момент загрузки операционной системы с использованием ПЗУ 24. Fig. 4 shows an example of a general purpose computer system, a personal computer or a server 20 ', comprising a central processing unit 21 ', system memory 22 ', and a system bus 23 ', which contains various system components including memory associated with the central processing unit 21 '. The system bus 23 is implemented as any bus structure known in the art, comprising in turn a bus memory or bus memory controller, a peripheral bus, and a local bus capable of interfacing with any other bus architecture. The system memory contains read-only memory (ROM) 24 , random access memory (RAM) 25 . The main input/output system (BIOS) 26 contains the main procedures that ensure the transfer of information between the elements of a personal computer 20 , for example, at the time of booting the operating system using ROM 24 .

Персональный компьютер 20 в свою очередь содержит жёсткий диск 27 для чтения и записи данных, привод магнитных дисков 28 для чтения и записи на сменные магнитные диски 29 и оптический привод 30 для чтения и записи на сменные оптические диски 31, такие как CD-ROM, DVD-ROM и иные оптические носители информации. Жёсткий диск 27, привод магнитных дисков 28, оптический привод 30 соединены с системной шиной 23 через интерфейс жёсткого диска 32, интерфейс магнитных дисков 33 и интерфейс оптического привода 34 соответственно. Приводы и соответствующие компьютерные носители информации представляют собой энергонезависимые средства хранения компьютерных инструкций, структур данных, программных модулей и прочих данных персонального компьютера 20. The personal computer 20 , in turn, contains a hard disk 27 for reading and writing data, a magnetic disk drive 28 for reading and writing to removable magnetic disks 29 and an optical drive 30 for reading and writing to removable optical disks 31 , such as CD-ROM, DVD -ROM and other optical storage media. The hard disk 27 , the magnetic disk drive 28 , the optical drive 30 are connected to the system bus 23 via the hard disk interface 32 , the magnetic disk interface 33 , and the optical drive interface 34 , respectively. Drives and related computer storage media are non-volatile means of storing computer instructions, data structures, program modules, and other personal computer data 20 .

Настоящее описание раскрывает реализацию системы, которая использует жёсткий диск 27, сменный магнитный диск 29 и сменный оптический диск 31, но следует понимать, что возможно применение иных типов компьютерных носителей информации 56, которые способны хранить данные в доступной для чтения компьютером форме (твердотельные накопители, флеш карты памяти, цифровые диски, память с произвольным доступом (ОЗУ) и т.п.), которые подключены к системной шине 23 через контроллер 55.The present description discloses an implementation of a system that uses a hard disk 27 , a removable magnetic disk 29 and a removable optical disk 31 , but it should be understood that other types of computer storage media 56 that are capable of storing data in a computer-readable form (solid-state drives, flash memory cards, digital disks, random access memory (RAM), etc.), which are connected to the system bus 23 through the controller 55 .

Компьютер 20 имеет файловую систему 36, где хранится записанная операционная система 35, а также дополнительные программные приложения 37, другие программные модули 38 и данные программ 39. Пользователь имеет возможность вводить команды и информацию в персональный компьютер 20 посредством устройств ввода (клавиатуры 40, манипулятора «мышь» 42). Могут использоваться другие устройства ввода (не отображены): микрофон, джойстик, игровая консоль, сканер и т.п. Подобные устройства ввода по своему обычаю подключают к компьютерной системе 20 через последовательный порт 46, который в свою очередь подсоединён к системной шине, но могут быть подключены иным способом, например, при помощи параллельного порта, игрового порта или универсальной последовательной шины (USB). Монитор 47 или иной тип устройства отображения также подсоединён к системной шине 23 через интерфейс, такой как видеоадаптер 48. В дополнение к монитору 47, персональный компьютер может быть оснащён другими периферийными устройствами вывода (не отображены), например, колонками, принтером и т.п.The computer 20 has a file system 36 that stores the recorded operating system 35 as well as additional software applications 37 , other program modules 38 and program data 39 . The user has the ability to enter commands and information into the personal computer 20 through input devices (keyboard 40 , mouse 42 ). Other input devices (not shown) may be used: microphone, joystick, game console, scanner, etc. Such input devices are normally connected to the computer system 20 through a serial port 46 , which in turn is connected to the system bus, but may be connected in other ways, such as a parallel port, game port, or universal serial bus (USB). A monitor 47 or other type of display device is also connected to the system bus 23 via an interface such as a video adapter 48 '. In addition to the monitor 47 , the personal computer may be equipped with other peripheral output devices (not shown), such as speakers, a printer, etc.

Персональный компьютер 20 способен работать в сетевом окружении, при этом используется сетевое соединение с другим или несколькими удалёнными компьютерами 49. Удалённый компьютер (или компьютеры) 49 являются такими же персональными компьютерами или серверами, которые имеют большинство или все упомянутые элементы, отмеченные ранее при описании существа персонального компьютера 20, представленного на Фиг. 4. В вычислительной сети могут присутствовать также и другие устройства, например, маршрутизаторы, сетевые станции, пиринговые устройства или иные сетевые узлы. The personal computer 20 is capable of operating in a networked environment using a network connection to another or more remote computers 49 . The remote computer (or computers) 49 are the same personal computers or servers that have most or all of the elements mentioned earlier in the description of the nature of the personal computer 20 shown in FIG. 4 . Other devices may also be present in the computer network, such as routers, network stations, peer-to-peer devices, or other network nodes.

Сетевые соединения могут образовывать локальную вычислительную сеть (LAN) 50 и глобальную вычислительную сеть (WAN). Такие сети применяются в корпоративных компьютерных сетях, внутренних сетях компаний и, как правило, имеют доступ к сети Интернет. В LAN- или WAN-сетях персональный компьютер 20 подключён к локальной сети 50 через сетевой адаптер или сетевой интерфейс 51. При использовании сетей персональный компьютер 20 может использовать модем 54 или иные средства обеспечения связи с глобальной вычислительной сетью, такой как Интернет. Модем 54, который является внутренним или внешним устройством, подключён к системной шине 23 посредством последовательного порта 46. Следует уточнить, что сетевые соединения являются лишь примерными и не обязаны отображать точную конфигурацию сети, т.е. в действительности существуют иные способы установления соединения техническими средствами связи одного компьютера с другим.The network connections may form a local area network (LAN) 50 and a wide area network (WAN). Such networks are used in corporate computer networks, internal networks of companies and, as a rule, have access to the Internet. In LAN or WAN networks, the personal computer 20 is connected to the local network 50 via a network adapter or network interface 51 . When using networks, personal computer 20 may use a modem 54 or other means to communicate with a wide area network, such as the Internet. Modem 54 , which is an internal or external device, is connected to system bus 23 via serial port 46 . It should be clarified that network connections are only indicative and are not required to represent the exact network configuration, i.e. in fact, there are other ways to establish a connection by technical means of communication from one computer to another.

В заключение следует отметить, что приведённые в описании сведения являются примерами, которые не ограничивают объём настоящего изобретения, определённого формулой.In conclusion, it should be noted that the information given in the description are examples that do not limit the scope of the present invention defined by the formula.

Claims (29)

1. Способ формирования сигнатуры нежелательного электронного сообщения, содержащий этапы, на которых:1. A method for generating an unsolicited electronic message signature, comprising the steps of: а) определяют атрибуты по меньшей мере двух последовательно перехваченных электронных сообщений;a) determine the attributes of at least two sequentially intercepted electronic messages; б) классифицируют первое электронное сообщение как нежелательное с помощью обученной модели классификации электронных сообщений;b) classifying the first email message as spam using the trained email classification model; в) определяют, что первое и второе электронные сообщения относятся к одному кластеру электронных сообщений на основании определенных атрибутов; c) determining that the first and second electronic messages belong to the same electronic message cluster based on certain attributes; г) формируют сигнатуру нежелательного электронного сообщения на основании определенного кластера электронных сообщений.d) generating an unsolicited electronic message signature based on a certain cluster of electronic messages. 2. Способ по п.1, по которому электронное сообщение перехватывают при передаче по меньшей мере через:2. The method of claim 1, wherein the electronic message is intercepted in transit through at least: • электронную почту;• email; • мессенджер;• messenger; • службу мгновенных сообщений.• instant messaging service. 3. Способ по п.1, по которому классифицируют как нежелательное электронное сообщение, переданное по меньшей мере для:3. The method according to claim 1, which classifies as unsolicited electronic communication transmitted at least for: • осуществления мошенничества;• implementation of fraud; • несанкционированного получения конфиденциальной информации;• unauthorized receipt of confidential information; • навязывания товаров и услуг.• the imposition of goods and services. 4. Способ по п.1, в котором в качестве обученной модели классификации электронных сообщений выступает по меньшей мере один из следующих алгоритмов классификации:4. The method of claim 1, wherein the trained electronic message classification model is at least one of the following classification algorithms: • байесовские классификаторы;• Bayesian classifiers; • логистическая регрессия;• logistic regression; • MRF-классификатор;• MRF classifier; • метод опорных векторов;• support vector machine; • методы ближайших соседей;• nearest neighbor methods; • дерево принятия решений;• decision tree; • рекуррентная нейронная сеть.• recurrent neural network. 5. Способ по п.1, по которому в качестве одного из атрибутов электронного сообщения выступает по меньшей мере: 5. The method according to claim 1, wherein at least one of the attributes of the electronic message is: • последовательность слов, выявленная из текста электронного сообщения;• the sequence of words revealed from the text of the electronic message; • нечеткий хэш, вычисленный на основании последовательности слов текста электронного сообщения;• fuzzy hash calculated on the basis of the sequence of words in the text of the electronic message; • вектор, характеризующий текст электронного сообщения.• a vector characterizing the text of an electronic message. 6. Способ по п.1, по которому формируют сигнатуру нежелательного электронного сообщения на основании одного из следующих критериев:6. The method of claim 1, which generates an unsolicited email signature based on one of the following criteria: • наибольшая общая подпоследовательность слов в тексте электронных сообщений, которые содержатся в определенном кластере электронных сообщений;• the largest common subsequence of words in the text of electronic messages that are contained in a certain cluster of electronic messages; • наибольшая общая подпоследовательность символов нечетких хэшей, вычисленных на основании текста электронных сообщений, которые содержатся в определенном кластере электронных сообщений.• the largest common subsequence of characters of fuzzy hashes calculated from the text of electronic messages contained in a certain cluster of electronic messages. 7. Способ по п.1, по которому сигнатуру нежелательного электронного сообщения формируют на основании повторно определенного кластера электронных сообщений таким образом, чтобы с помощью сформированной сигнатуры определять больше нежелательных электронных сообщений, чем с текущей. 7. The method of claim 1, wherein the spam email signature is generated based on the re-determined cluster of email messages such that more spam emails are detected with the generated signature than with the current one.
RU2021106650A 2021-03-15 2021-03-15 Method for generating the signature of an unwanted electronic message RU2776924C1 (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US17/565,570 US12143358B2 (en) 2021-03-15 2021-12-30 System and method for creating a signature of a spam message
EP22162132.9A EP4060962B1 (en) 2021-03-15 2022-03-15 System and method for creating a signature of a spam message
US18/906,240 US20250047639A1 (en) 2021-03-15 2024-10-04 System and method for generating a signature of a spam message based on clustering

Publications (1)

Publication Number Publication Date
RU2776924C1 true RU2776924C1 (en) 2022-07-28

Family

ID=

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060036693A1 (en) * 2004-08-12 2006-02-16 Microsoft Corporation Spam filtering with probabilistic secure hashes
US7716297B1 (en) * 2007-01-30 2010-05-11 Proofpoint, Inc. Message stream analysis for spam detection and filtering
US7739341B1 (en) * 2003-06-04 2010-06-15 Symantec Corporation System utilizing updated spam signatures for performing secondary signature-based analysis of a held e-mail to improve spam email detection
RU2420791C1 (en) * 2009-10-01 2011-06-10 ЗАО "Лаборатория Касперского" Method of associating previously unknown file with collection of files depending on degree of similarity
RU2632408C2 (en) * 2013-03-08 2017-10-04 БИТДЕФЕНДЕР АйПиАр МЕНЕДЖМЕНТ ЛТД Classification of documents using multilevel signature text

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7739341B1 (en) * 2003-06-04 2010-06-15 Symantec Corporation System utilizing updated spam signatures for performing secondary signature-based analysis of a held e-mail to improve spam email detection
US20060036693A1 (en) * 2004-08-12 2006-02-16 Microsoft Corporation Spam filtering with probabilistic secure hashes
US7716297B1 (en) * 2007-01-30 2010-05-11 Proofpoint, Inc. Message stream analysis for spam detection and filtering
RU2420791C1 (en) * 2009-10-01 2011-06-10 ЗАО "Лаборатория Касперского" Method of associating previously unknown file with collection of files depending on degree of similarity
RU2632408C2 (en) * 2013-03-08 2017-10-04 БИТДЕФЕНДЕР АйПиАр МЕНЕДЖМЕНТ ЛТД Classification of documents using multilevel signature text

Similar Documents

Publication Publication Date Title
JP4335582B2 (en) System and method for detecting junk e-mail
Venkatraman et al. Spam e-mail classification for the Internet of Things environment using semantic similarity approach
Bhowmick et al. Machine learning for e-mail spam filtering: review, techniques and trends
Blanzieri et al. A survey of learning-based techniques of email spam filtering
EP4187871B1 (en) System and method for identifying a phishing email
US12244562B2 (en) Algorithm to detect malicious emails impersonating brands
Jazzar et al. Evaluation of machine learning techniques for email spam classification
Maqsood et al. An intelligent framework based on deep learning for SMS and e‐mail spam detection
Kumar Birthriya et al. A comprehensive survey of phishing email detection and protection techniques
US11909745B2 (en) Systems and methods for establishing sender-level trust in communications using sender-recipient pair data
Mageshkumar et al. Efficient spam filtering through intelligent text modification detection using machine learning
Mallampati et al. A machine learning based email spam classification framework model: related challenges and issues
Mehrotra et al. Email spam filtering technique from various perspectives using machine learning algorithms
Kulkarni et al. Effect of header-based features on accuracy of classifiers for spam email classification
Banday et al. Effectiveness and limitations of statistical spam filters
RU2776924C1 (en) Method for generating the signature of an unwanted electronic message
Karimovich et al. Analysis of machine learning methods for filtering spam messages in email services
Srivastava et al. Email Spam Monitoring System
US20240356969A1 (en) Statistical modeling of email senders to detect business email compromise
Sasikala et al. Performance evaluation of Spam and Non-Spam E-mail detection using Machine Learning algorithms
CN118250087A (en) A method and system for automatically generating email account honeypots for email security protection
US12143358B2 (en) System and method for creating a signature of a spam message
EP4060962B1 (en) System and method for creating a signature of a spam message
SINGH A DETALED DTUDY ON EMAIL SPAM FILTERING TECHNIQUES
RU2828610C1 (en) Method of classifying email messages and system for implementing it