RU2776924C1 - Method for generating the signature of an unwanted electronic message - Google Patents
Method for generating the signature of an unwanted electronic message Download PDFInfo
- Publication number
- RU2776924C1 RU2776924C1 RU2021106650A RU2021106650A RU2776924C1 RU 2776924 C1 RU2776924 C1 RU 2776924C1 RU 2021106650 A RU2021106650 A RU 2021106650A RU 2021106650 A RU2021106650 A RU 2021106650A RU 2776924 C1 RU2776924 C1 RU 2776924C1
- Authority
- RU
- Russia
- Prior art keywords
- electronic
- electronic message
- signature
- messages
- Prior art date
Links
Images
Abstract
Description
Область техникиTechnical field
Изобретение относится к области обеспечения информационной безопасности.The invention relates to the field of information security.
Уровень техникиState of the art
В настоящий момент практически любой обладатель электронного устройства (например, компьютера, мобильного телефона, смартфона, планшета и т.д.) сталкивается с нежелательными электронными сообщениями: SMS–сообщениями и электронными письмами из банков, медицинских центров, страховых фирм, салонов красоты и других компаний, использующих в своей работе телемаркетинг. Также электронные сообщения нередко используют мошенники для получения конфиденциальной информации пользователя (например, данных о кредитных картах, номерах социального страхования и т.д.).At the moment, almost any owner of an electronic device (for example, a computer, mobile phone, smartphone, tablet, etc.) encounters unwanted electronic messages: SMS messages and emails from banks, medical centers, insurance companies, beauty salons and others. companies that use telemarketing in their work. Also, emails are often used by fraudsters to obtain confidential user information (for example, credit card information, social security numbers, etc.).
К примеру, такие нежелательные электронные сообщения как спам письма являются серьезной проблемой, поскольку уже достигают 70-90% от общего объема почтового трафика. Такое количество нежелательных электронных писем вызывает неудобства для пользователей электронной почты и нарушения в работе почтовых серверов. В частности, ведет к ухудшению пропускной способности, трате ресурсов и увеличению времени обработки электронных писем почтовыми службами. For example, unsolicited emails such as spam emails are a serious problem as they already account for 70-90% of total email traffic. This amount of spam e-mails causes inconvenience for e-mail users and disruption of mail servers. In particular, it leads to a deterioration in throughput, a waste of resources, and an increase in the processing time of emails by postal services.
Существует два основных подхода обнаружения нежелательных электронных сообщений: сигнатурный и с использованием методов машинного обучения. There are two main approaches for detecting spam emails: signature-based and using machine learning methods.
При сигнатурном подходе массовую рассылку электронных сообщений разбирают на части, из подмножеств которых формируют сигнатуры. Сигнатуры позволяют однозначно обнаружить нежелательные электронные сообщения в системах обмена электронными сообщениями (к примеру, в почтовых сервисах, службе мгновенных сообщений). Плюсом такого подхода является высокая скорость обнаружения и практически нулевая вероятность возникновения ошибки первого рода, т.е. ложного срабатывания. Ложным срабатыванием в данном случае является ситуация, когда легитимное электронное сообщение определяется как нежелательное. Минусом данного подхода являются пропуски нежелательных электронных сообщений (т.е. возникновение ошибки второго рода).With the signature approach, the mass distribution of electronic messages is disassembled into parts, from subsets of which signatures are formed. Signatures allow unambiguous detection of unwanted electronic messages in electronic messaging systems (for example, in mail services, instant messaging service). The advantage of this approach is a high detection rate and an almost zero probability of a Type I error, i.e. false positive. A false positive in this case is when a legitimate email message is determined to be spam. The disadvantage of this approach is the omission of unwanted e-mails (ie, the occurrence of a Type II error).
К примеру, в патентной публикации US20190281000A1 описана технология определения нежелательного электронного сообщения при помощи сигнатуры. В качестве сигнатуры используют хэш, вычисленный на основании текста тела нежелательного электронного сообщения. For example, patent publication US20190281000A1 describes a technology for detecting unwanted electronic messages using a signature. The signature is a hash calculated from the body text of the spam e-mail message.
В рамках методов машинного обучения используют коллекцию нежелательных электронных сообщений и коллекцию легитимных электронных сообщений. Из сообщений выделяют признаки, которые используют для обучения классификатора. Плюсом такого подхода является высокая обобщающая способность, что позволяет добиться минимального количества пропусков нежелательных электронных сообщений. Вместе с тем минусом данного подхода является высокая вероятность возникновения ложных срабатываний, а также низкая в сравнении с сигнатурным подходом скорость обнаружения.Machine learning methods use a collection of spam emails and a collection of legitimate emails. Signs are extracted from the messages, which are used to train the classifier. The advantage of this approach is a high generalization ability, which allows to achieve a minimum number of skips of unwanted electronic messages. At the same time, the disadvantage of this approach is the high probability of false positives, as well as the low detection rate compared to the signature approach.
Настоящее изобретение позволяет устранить отмеченные недостатки и решить задачу обнаружения нежелательных электронных сообщений путем обобщения сигнатурного вердикта при помощи методов машинного обучения. The present invention allows to eliminate the noted shortcomings and solve the problem of detecting unwanted electronic messages by generalizing the signature verdict using machine learning methods.
Раскрытие изобретенияDisclosure of invention
Изобретение предназначено для обеспечения информационной безопасности.The invention is intended to ensure information security.
Технический результат настоящего изобретения заключается в формировании сигнатуры нежелательного электронного сообщения.The technical result of the present invention is to generate a signature of an unsolicited electronic message.
Данные результаты достигаются с помощью использования способа формирования сигнатуры нежелательного электронного сообщения, при этом способ содержит этапы, на которых: определяют атрибуты по меньшей мере двух последовательно перехваченных электронных сообщений; классифицируют первое электронное сообщение как нежелательное с помощью обученной модели классификации электронных сообщений; определяют, что первое и второе электронное сообщение относятся к одному кластеру электронных сообщений на основании определенных атрибутов; формируют сигнатуру нежелательного электронного сообщения на основании определенного кластера электронных сообщений. These results are achieved by using a spam email signature generation method, the method comprising: determining attributes of at least two successively intercepted email messages; classifying the first email message as spam using the trained email classification model; determine that the first and second electronic messages belong to the same cluster of electronic messages based on certain attributes; generating an unsolicited electronic message signature based on the determined cluster of electronic messages.
В частном случае реализации способа электронное сообщение перехватывают при передаче по меньшей мере через: электронную почту; мессенджер; службу мгновенных сообщений. In a particular case of implementing the method, an electronic message is intercepted during transmission through at least: e-mail; messenger; instant messaging service.
Ещё в одном частном случае реализации способа классифицируют как нежелательное электронное сообщение, переданное по меньшей мере для: осуществления мошенничества; несанкционированного получения конфиденциальной информации; навязывания товаров и услуг. In another particular case, the implementation of the method is classified as an unsolicited electronic message transmitted at least for: fraud; unauthorized receipt of confidential information; imposition of goods and services.
Ещё в одном частном случае реализации способа в качестве обученной модели классификации электронных сообщений выступает по меньшей мере один из следующих алгоритмов классификации: байесовские классификаторы; логистическая регрессия; MRF-классификатор; метод опорных векторов; методы ближайших соседей; дерево принятия решений; рекуррентная нейронная сеть. In another particular case of the implementation of the method, at least one of the following classification algorithms acts as a trained model for classifying electronic messages: Bayesian classifiers; logistic regression; MRF classifier; support vector machine; nearest neighbor methods; decision tree; recurrent neural network.
В частном случае реализации способа в качестве атрибута электронного сообщения выступает по меньшей мере: последовательность слов, выявленная из текста электронного сообщения; нечеткий хэш, вычисленный на основании последовательности слов текста электронного сообщения; вектор, характеризующий текст электронного сообщения. In a particular case of the implementation of the method as an attribute of the electronic message is at least: a sequence of words identified from the text of the electronic message; fuzzy hash calculated based on the sequence of words of the text of the electronic message; a vector characterizing the text of an electronic message.
Ещё в одном частном случае реализации способа формируют сигнатуру нежелательного электронного сообщения на основании одного из следующих критериев: наибольшая общая подпоследовательность слов в тексте электронных сообщений, которые содержатся в определенном кластере электронных сообщений; наибольшая общая подпоследовательность символов нечетких хэшей, вычисленных на основании текста электронных сообщений, которые содержатся в определенном кластере электронных сообщений.In another particular case of implementing the method, an unwanted electronic message signature is generated based on one of the following criteria: the largest common subsequence of words in the text of electronic messages that are contained in a certain cluster of electronic messages; the largest common subsequence of characters of fuzzy hashes calculated from the text of electronic messages contained in a particular cluster of electronic messages.
В частном случае реализации способа сигнатуру нежелательного электронного сообщения формируют на основании повторно определенного кластера электронных сообщений таким образом, чтобы с помощью сформированной сигнатуры определять больше нежелательных электронных сообщений, чем с текущей.In a particular case of the implementation of the method, the signature of an unwanted electronic message is formed on the basis of a redefined cluster of electronic messages in such a way that more unwanted electronic messages are determined using the generated signature than with the current one.
Краткое описание чертежейBrief description of the drawings
Фиг. 1 иллюстрирует один из вариантов архитектуры системы обмена электронными сообщениями. Fig. one illustrates one of the options for the architecture of the electronic messaging system.
Фиг. 2 иллюстрирует один из вариантов архитектуры системы, реализующей способ формирования сигнатуры нежелательного электронного сообщения. Fig. 2 illustrates one of the system architecture options that implements a method for generating a spam email signature .
Фиг. 3 иллюстрирует способ формирования сигнатуры нежелательного электронного сообщения. Fig. 3 illustrates a method for generating a spam email signature.
Фиг. 4 представляет пример компьютерной системы общего назначения, персональный компьютер или сервер. Fig. 4 represents an example of a general purpose computer system, a personal computer or a server.
Хотя изобретение может иметь различные модификации и альтернативные формы, характерные признаки, показанные в качестве примера на чертежах, будут описаны подробно. Следует понимать, однако, что цель описания заключается не в ограничении изобретения конкретным его воплощением. Наоборот, целью описания является охват всех изменений, модификаций, входящих в рамки данного изобретения, как это определено приложенной формуле.Although the invention may have various modifications and alternative forms, the characteristic features shown by way of example in the drawings will be described in detail. It should be understood, however, that the purpose of the description is not to limit the invention to a particular embodiment thereof. On the contrary, the purpose of the description is to cover all changes, modifications, included in the scope of this invention, as defined by the attached claims.
Описание вариантов осуществления изобретенияDescription of embodiments of the invention
Объекты и признаки настоящего изобретения, способы для достижения этих объектов и признаков станут очевидными посредством отсылки к примерным вариантам осуществления. Однако настоящее изобретение не ограничивается примерными вариантами осуществления, раскрытыми ниже, оно может воплощаться в различных видах. Сущность, приведённая в описании, является ничем иным, как конкретными деталями, необходимыми для помощи специалисту в области техники в исчерпывающем понимании изобретения, и настоящее изобретение определяется в объёме приложенной формулы.The objects and features of the present invention, methods for achieving these objects and features will become apparent by reference to exemplary embodiments. However, the present invention is not limited to the exemplary embodiments disclosed below, but may be embodied in various forms. The gist of the description is nothing but the specific details necessary to assist a person skilled in the art in a thorough understanding of the invention, and the present invention is defined within the scope of the appended claims.
На Фиг. 1 представлен один из вариантов архитектуры системы обмена электронными сообщениями. On FIG. 1 shows one of the options for the architecture of the electronic messaging system.
Данная система включает в себя систему обмена электронными сообщениями 100, устройство пользователя 110, электронное сообщение 111, агент 120, устройство хранения данных 130, атрибуты классификации 140, модель классификации 150. This system includes an
Система обмена электронными сообщениями 100 представляет собой систему физических и логических каналов связи, реализующую протокол передачи электронного сообщения 111 между устройствами пользователей 110.The
Примерами систем обмена электронными сообщениями 100 являются по меньшей мере:Examples of
• почтовый сервис;• Post service;
• служба мгновенных сообщений;• instant messaging service;
• мессенджер.• messenger.
Электронное сообщение 111 имеет определенную структуру. Кроме тела (англ. body) электронное сообщение 111 содержит заголовки (англ. header) – это служебная информация, включающая в том числе информацию о маршруте прохождения электронного сообщения 111. В заголовках представлены данные о том, когда, откуда и по какому маршруту пришло электронное сообщение 111, а также информацию, добавляемую к данному сообщению 111 различными служебными программами. При этом каждый заголовок определяется своим именем и значением. Значение заголовка представляет собой информацию, представленную в заранее заданном виде. Например, для заголовка, который содержит информацию об отправителе электронного сообщения 111, в качестве имени служит «from», а значение будет иметь вид адреса электронной почты отправителя, например, username@domain.com. The electronic message 111 has a certain structure. In addition to the body (English body), the electronic message 111 contains headers (English header) - this is service information, including information about the route of the electronic message 111 . The headers provide information about when, from where, and by what route the e-mail came 111 , as well as information added to the e-mail 111 by various utilities. Each header is defined by its name and value. The header value is information presented in a predetermined form. For example, for a header that contains information about the sender of email 111 , the name would be "from" and the value would be the sender's email address, such as username@domain.com.
Устройство пользователя 110 формирует электронное сообщение 111 и передает его системе обмена электронными сообщениями 100, а также принимает электронное сообщение 111 от других устройств 110.The
Агент 120 перехватывает электронное сообщение 111 по меньшей мере:
• отслеживая принимаемый и передаваемый по протоколу передачи электронного сообщения трафик (POP3, SMTP, IMAP, NNTP);• tracking the traffic received and transmitted via the protocol of transmission of an electronic message (POP3, SMTP, IMAP, NNTP);
• отслеживая файлы в хранилище системы обмена электронными сообщениями 100;• keeping track of files in the storage of the
• отслеживая файлы в хранилище на устройстве пользователя 110.• keeping track of files in storage on the user's
К примеру, в качестве агента 120 выступает модуль (программный компонент) приложения безопасности компании АО «Лаборатория Касперского» (например, Kaspersky Internet Security).For example,
Агент 120 определяет атрибуты классификации 140, содержащиеся в перехваченном электронном сообщении 111, и передает их устройству хранения данных 130. The
К примеру, в качестве атрибутов классификации 140 электронного письма выступают значения заголовков, относящихся к информации о маршруте прохождения, а также служебная информация, сформированная почтовыми клиентами: For example, the attributes of the
• Message_ID – уникальный идентификатор электронного письма, присваиваемый первым почтовым сервером, который встретится у него на пути;• Message_ID – a unique e-mail identifier assigned by the first mail server it encounters on the way;
• X-mailer (mailer_name) – значение поля заголовка, в котором почтовый клиент или сервис, с помощью которого было создано электронное письмо, идентифицирует себя;• X-mailer (mailer_name) – value of the header field in which the mail client or service with which the email was created identifies itself;
• последовательность значений заголовков электронного письма.• sequence of e-mail header values.
В ином варианте реализации Агент 120 определяет атрибуты классификации 140 электронного сообщения 111 на основании события, ассоциированного с указанным электронным сообщением. К примеру, в качестве атрибутов классификации 140 электронного сообщения службы мгновенных сообщений выступают:In another implementation, the
• флаг просмотра электронного сообщения 111 пользователем;• flag of viewing the electronic message 111 by the user;
• флаг взаимодействия с устройством пользователя 110 во время просмотра электронного сообщения 111 (к примеру, пролистывание сообщения);• a flag for interacting with the user's
• флаг удаления электронного сообщения 111 пользователем;• a flag for deleting an electronic message 111 by the user;
Устройство хранения данных 130 предназначено для хранения и обработки атрибутов классификации 140. К примеру, атрибуты классификации 140 используют для обучения модели классификации 150. The
В предпочтительном варианте реализации в качестве устройства хранения данных 130 выступает облачное хранилище данных, обрабатывающее атрибуты классификации 140 в так называемом «облаке», где «облако» – модель хранилища, предусматривающая хранение данных в сети «Интернет» с помощью поставщика облачных вычислительных ресурсов, который предоставляет хранилище данных как сервис и обеспечивает управление им.In the preferred embodiment, the
К примеру, в качестве устройства хранения данных 130 может выступать средство, содержащее систему Kaspersky Security Network (KSN) компании АО «Лаборатория Касперского».For example, the
На Фиг. 2 представлен один из вариантов архитектуры системы, реализующей способ формирования сигнатуры нежелательного электронного сообщения. On FIG. 2 shows one of the options for the architecture of the system that implements the method for generating the signature of an unsolicited electronic message .
Структурная схема системы, реализующей способ формирования сигнатуры нежелательного электронного сообщения, содержит электронное сообщение 111 (в том числе 111а, 111б, 111в), агент 120, устройство хранения данных 130, атрибуты классификации 140, атрибуты кластеризации 210 (в том числе 210а, 210б, 210в), модель классификации 150, средство классификации 220, средство определения схожести 230, средство формирования сигнатуры 240, сигнатуру 250, кластер нежелательных электронных сообщений 260.Block diagram of a system that implements a method for generating an unwanted electronic message signature contains an electronic message111(including111a,111b,111v), agent120, storage device130, classification attributes140, clustering attributes210(including210a,210b,210v),classification model150,means of classification220, similarity tool230, signature generator240,signature250,spam cluster260.
В одном из вариантов реализации указанные средство классификации 220, средство определения схожести 230 и средство формирования сигнатуры 240 являются составными частями устройства хранения данных 130.In one embodiment, said classifier220, similarity tool230 and signature generator240are integral parts of the data storage device130.
В ином варианте реализации средство классификации 220, средство определения схожести 230 и средство формирования сигнатуры 240 могут представлять собой отдельные, независимые, но связанные друг с другом, технические средства, которые могут быть реализованы при помощи отдельных компьютерных систем.In another embodiment, the classifier220, similarity tool230 and signature generator240may be separate, independent, but related, technical means that can be implemented using separate computer systems.
Агент 120 предназначен для перехвата электронного сообщения 111 (в том числе 111а, 111б, 111в), определения атрибутов классификации 140, атрибутов кластеризации 210 (в том числе 210а, 210б, 210в), а также передачи атрибутов классификации 140, атрибутов кластеризации 210а и 210б устройству хранения данных 130.Agent120designed to intercept email111(including111a,111b,111v),classification attribute definitions140,clustering attributes210(including210a,210b,210v),as well as passing classification attributes140, clustering attributes210aand210bstorage device130.
В качестве атрибутов кластеризации 210 выступает по меньшей мере:The attributes of clustering 210 are at least:
• последовательность слов, выявленная из текста электронного сообщения 111;• a sequence of words identified from the text of an electronic message 111 ;
• нечеткий хэш (англ. fuzzy hash), вычисленный на основании последовательности слов текста электронного сообщения 111;• fuzzy hash calculated based on the sequence of words in the text of the electronic message 111 ;
• вектор, характеризующий текст электронного сообщения 111.• a vector characterizing the text of an electronic message 111 .
Устройство хранения данных 130 предназначено для классификации электронного сообщения 111а, определения того, что электронные сообщения 111а и 111б относятся к одному кластеру, а также для формирования сигнатуры 250.The
Средство классификации 220, в предпочтительном варианте реализации являющееся частью устройства хранения данных 130, предназначено для классификации электронного сообщения 111а на основании атрибутов классификации 140 при помощи модели классификации 150. Модель 150 классифицирует электронное сообщение 111а по меньшей мере как:Classifier220, in the preferred implementation being part of the data storage device130, designed to classify an electronic message111a based on classification attributes140using a classification model150. Model150classifies the email111a at least like:
• нежелательное;• unwanted;
• легитимное.• legitimate.
К примеру, в качестве нежелательного электронного сообщения выступает электронное сообщение 111, переданное по меньшей мере для:For example, the spam email is an email 111 sent for at least:
• осуществления мошенничества;• implementation of fraud;
• несанкционированного получения конфиденциальной информации;• unauthorized receipt of confidential information;
• навязывания товаров и услуг.• the imposition of goods and services.
Модель классификации 150 заранее обучают при помощи атрибутов классификации 140, переданных на устройство хранения данных 130, таким образом, что модель классификации 150 определяет на основании указанных атрибутов признаки, при помощи которых классифицирует электронное сообщение 111а как нежелательное с некоторой вероятностью.Classification model150in advance teach with classification attributes140, transferred to the storage device130, so that the classification model150 determines, based on the specified attributes, the signs by which it classifies the electronic message111a as unwanted with some probability.
В качестве алгоритма классификации выступает по меньшей мере один из следующих алгоритмов (или их комбинация):The classification algorithm is at least one of the following algorithms (or a combination thereof):
• байесовские классификаторы (англ. naive bayesian classifier);• Bayesian classifiers (English naive bayesian classifier);
• логистическая регрессия (англ. logistic regression);• logistic regression;
• MRF-классификатор (англ. MRF classifier);• MRF classifier (eng. MRF classifier);
• метод опорных векторов (англ. support vector machine, SVM);• support vector machine (SVM);
• методы ближайших соседей (англ. k-nearest neighbor);• nearest neighbor methods (eng. k-nearest neighbor);
• дерево принятия решений (англ. decision tree);• decision tree;
• рекуррентная нейронная сеть (англ. Recurrent neural network, RNN).• Recurrent neural network (RNN).
К примеру, модель классификации 150 может быть основана на методах глубокого обучения (англ. deep learning). В частности, атрибуты классификации 140 представляют в виде матрицы, где каждый символ атрибута классификации 140 закодирован вектором чисел фиксированной длины, и подвергают преобразованию с помощью нейронной сети, которая вычисляет степень схожести указанных атрибутов с атрибутами подозрительных сообщений. В качестве признаков выступают преобразованные слоем нейронной сети атрибуты классификации 140.For example, the
Средство классификации 220 определяет электронное сообщение 111а как нежелательное, если степень схожести электронного сообщения 111а с нежелательными электронными сообщениями выше заранее заданного значения (к примеру, 0.7).Classifier220defines electronic message111aas unwanted,if email similarity111a with spam e-mails above a predetermined value (eg 0.7).
Средство определения схожести 230, в предпочтительном варианте реализации являющееся частью устройства хранения данных 130, предназначено для определения того, что электронные сообщения 111а и 111б относятся к одному кластеру на основании атрибутов кластеризации 210а и 210б. Similarity tool230, in the preferred implementation being part of the data storage device130, is intended to determine that electronic messages111aand111bbelong to the same cluster based on clustering attributes210a and210b.
К примеру, агент 120 передает устройству хранения данных 130 определенные атрибуты кластеризации 210а и 210б соответствующих электронных сообщений 111а и 111б, где в качестве атрибутов кластеризации 210 используют нечеткий хэш, вычисленный на основании последовательности слов текста электронных сообщений 111а и 111б. Средство определения схожести 230 вычисляет расстояние Левенштейна, определяемое как минимальное количество односимвольных операций (вставки, удаления, замены), необходимых для превращения одной последовательности символов в другую, и определяет, что электронные сообщения 111а и 111б относятся к одному кластеру, если указанная метрика не превышает заранее заданного значения.For example, an agent120transfers to the storage device130certain clustering attributes210a and210brelevant electronic messages111aand111b,where as clustering attributes210use a fuzzy hash calculated based on the sequence of words in the text of electronic messages111aand111b.Similarity tool230calculates the Levenshtein distance, defined as the minimum number of single-character operations (inserts, deletes, substitutions) required to turn one sequence of characters into another, and determines that email messages111aand111bbelong to the same cluster if the specified metric does not exceed a predetermined value.
Устройство хранения данных 130 определяет, что электронные сообщения 111а и 111б относятся к кластеру нежелательных электронных сообщений 260, если электронное сообщение 111а было классифицировано средством классификации 220 как нежелательное, а средство определения схожести 230 определило, что электронные сообщения 111а и 111б относятся к одному кластеру.The
Средство формирования сигнатуры 240, в предпочтительном варианте реализации являющееся частью устройства хранения данных 130, предназначено для формирования сигнатуры 250 нежелательного электронного сообщения на основании кластера нежелательных электронных сообщений 260. Signature generator240, in the preferred implementation being part of the data storage device130, designed to form a signature250spam e-mail based on a cluster of spam e-mails260.
Сигнатуру 250 кластера нежелательных электронных сообщений 260 формируют на основании по меньшей мере одного из следующих критериев:The
• наибольшая общая подпоследовательность слов в тексте электронных сообщений 111а и 111б, которые содержатся в кластере нежелательных электронных сообщений 260;• the largest common subsequence of words in the body of
• наибольшая общая подпоследовательность символов нечетких хэшей, вычисленных на основании текста электронных сообщений 111а и 111б, которые содержатся в кластере нежелательных электронных сообщений 260.• the largest common character subsequence of fuzzy hashes calculated from the text of the
В одном из вариантов реализации сигнатуру нежелательного электронного сообщения формируют на основании повторно определенного кластера нежелательных электронных сообщений таким образом, чтобы с помощью сформированной сигнатуры определять больше нежелательных электронных сообщений, чем с текущей сигнатурой 250.In one embodiment, the spam email signature is generated based on the re-determined cluster of spam emails such that more spam emails are detected with the generated signature than with the
Дополнительно средство формирования сигнатуры 240 передает сформированную сигнатуру 250 агенту 120, который определяет, содержат ли атрибуты кластеризации 210в электронного сообщения 111в сигнатуру 250. Если атрибуты кластеризации 210в содержат сигнатуру 250, агент 120 определяет электронное сообщение 111в как электронное сообщение, принадлежащее кластеру нежелательных электронных сообщений 260, и обеспечивает информационную безопасность. Additionally, the
Обеспечение информационной безопасности включает в себя по меньшей мере:Ensuring information security includes at least:
• блокирование нежелательного электронного сообщения 111в;• blocking unwanted e-mail 111v ;
• информирование получателя о нежелательном характере электронного сообщения 111в;• informing the recipient about the unwanted nature of the electronic message 111v ;
• передачу атрибутов классификации 140 и атрибутов кластеризации 210 электронного сообщения 111в средству хранения данных 130.• transferring the classification attributes 140 and the clustering attributes 210 of the electronic message 111 to the data storage means 130 .
На Фиг. 3 отображен способ формирования сигнатуры нежелательного электронного сообщения. On FIG. 3 shows a method for generating an unsolicited email signature.
Структурная схема способа формирования сигнатуры нежелательного электронного сообщения содержит этап 310, на котором определяют атрибуты по меньшей мере двух последовательно перехваченных электронных сообщений, этап 320, на котором классифицируют первое электронное сообщение как нежелательное, этап 330, на котором определяют, что первое и второе электронное сообщение относятся к одному кластеру, этап 340, на котором формируют сигнатуру нежелательного электронного сообщения.The block diagram of the method for generating a spam email signature includes
На этапе 310 с помощью агента 120 определяют атрибуты 210 двух последовательно перехваченных электронных сообщений 111.At
На этапе 320 с помощью модели классификации 150 классифицируют первое электронное сообщение 111 как нежелательное.At 320 , the
На этапе 330 с помощью средства определения схожести 230 определяют, что первое и второе электронное сообщение 111 относятся к одному кластеру 260.At
На этапе 340 с помощью средства формирования сигнатуры 240 формируют сигнатуру 250 нежелательного электронного сообщения.At
Фиг. 4 представляет пример компьютерной системы общего назначения, персональный компьютер или сервер 20, содержащий центральный процессор 21, системную память 22 и системную шину 23, которая содержит разные системные компоненты, в том числе память, связанную с центральным процессором 21. Системная шина 23 реализована, как любая известная из уровня техники шинная структура, содержащая в свою очередь память шины или контроллер памяти шины, периферийную шину и локальную шину, которая способна взаимодействовать с любой другой шинной архитектурой. Системная память содержит постоянное запоминающее устройство (ПЗУ) 24, память с произвольным доступом (ОЗУ) 25. Основная система ввода/вывода (BIOS) 26, содержит основные процедуры, которые обеспечивают передачу информации между элементами персонального компьютера 20, например, в момент загрузки операционной системы с использованием ПЗУ 24. Fig. 4 shows an example of a general purpose computer system, a personal computer or a server 20 ', comprising a central processing unit 21 ', system memory 22 ', and a system bus 23 ', which contains various system components including memory associated with the central processing unit 21 '. The
Персональный компьютер 20 в свою очередь содержит жёсткий диск 27 для чтения и записи данных, привод магнитных дисков 28 для чтения и записи на сменные магнитные диски 29 и оптический привод 30 для чтения и записи на сменные оптические диски 31, такие как CD-ROM, DVD-ROM и иные оптические носители информации. Жёсткий диск 27, привод магнитных дисков 28, оптический привод 30 соединены с системной шиной 23 через интерфейс жёсткого диска 32, интерфейс магнитных дисков 33 и интерфейс оптического привода 34 соответственно. Приводы и соответствующие компьютерные носители информации представляют собой энергонезависимые средства хранения компьютерных инструкций, структур данных, программных модулей и прочих данных персонального компьютера 20. The
Настоящее описание раскрывает реализацию системы, которая использует жёсткий диск 27, сменный магнитный диск 29 и сменный оптический диск 31, но следует понимать, что возможно применение иных типов компьютерных носителей информации 56, которые способны хранить данные в доступной для чтения компьютером форме (твердотельные накопители, флеш карты памяти, цифровые диски, память с произвольным доступом (ОЗУ) и т.п.), которые подключены к системной шине 23 через контроллер 55.The present description discloses an implementation of a system that uses a
Компьютер 20 имеет файловую систему 36, где хранится записанная операционная система 35, а также дополнительные программные приложения 37, другие программные модули 38 и данные программ 39. Пользователь имеет возможность вводить команды и информацию в персональный компьютер 20 посредством устройств ввода (клавиатуры 40, манипулятора «мышь» 42). Могут использоваться другие устройства ввода (не отображены): микрофон, джойстик, игровая консоль, сканер и т.п. Подобные устройства ввода по своему обычаю подключают к компьютерной системе 20 через последовательный порт 46, который в свою очередь подсоединён к системной шине, но могут быть подключены иным способом, например, при помощи параллельного порта, игрового порта или универсальной последовательной шины (USB). Монитор 47 или иной тип устройства отображения также подсоединён к системной шине 23 через интерфейс, такой как видеоадаптер 48. В дополнение к монитору 47, персональный компьютер может быть оснащён другими периферийными устройствами вывода (не отображены), например, колонками, принтером и т.п.The
Персональный компьютер 20 способен работать в сетевом окружении, при этом используется сетевое соединение с другим или несколькими удалёнными компьютерами 49. Удалённый компьютер (или компьютеры) 49 являются такими же персональными компьютерами или серверами, которые имеют большинство или все упомянутые элементы, отмеченные ранее при описании существа персонального компьютера 20, представленного на Фиг. 4. В вычислительной сети могут присутствовать также и другие устройства, например, маршрутизаторы, сетевые станции, пиринговые устройства или иные сетевые узлы. The
Сетевые соединения могут образовывать локальную вычислительную сеть (LAN) 50 и глобальную вычислительную сеть (WAN). Такие сети применяются в корпоративных компьютерных сетях, внутренних сетях компаний и, как правило, имеют доступ к сети Интернет. В LAN- или WAN-сетях персональный компьютер 20 подключён к локальной сети 50 через сетевой адаптер или сетевой интерфейс 51. При использовании сетей персональный компьютер 20 может использовать модем 54 или иные средства обеспечения связи с глобальной вычислительной сетью, такой как Интернет. Модем 54, который является внутренним или внешним устройством, подключён к системной шине 23 посредством последовательного порта 46. Следует уточнить, что сетевые соединения являются лишь примерными и не обязаны отображать точную конфигурацию сети, т.е. в действительности существуют иные способы установления соединения техническими средствами связи одного компьютера с другим.The network connections may form a local area network (LAN) 50 and a wide area network (WAN). Such networks are used in corporate computer networks, internal networks of companies and, as a rule, have access to the Internet. In LAN or WAN networks, the
В заключение следует отметить, что приведённые в описании сведения являются примерами, которые не ограничивают объём настоящего изобретения, определённого формулой.In conclusion, it should be noted that the information given in the description are examples that do not limit the scope of the present invention defined by the formula.
Claims (29)
Priority Applications (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US17/565,570 US12143358B2 (en) | 2021-03-15 | 2021-12-30 | System and method for creating a signature of a spam message |
| EP22162132.9A EP4060962B1 (en) | 2021-03-15 | 2022-03-15 | System and method for creating a signature of a spam message |
| US18/906,240 US20250047639A1 (en) | 2021-03-15 | 2024-10-04 | System and method for generating a signature of a spam message based on clustering |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| RU2776924C1 true RU2776924C1 (en) | 2022-07-28 |
Family
ID=
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20060036693A1 (en) * | 2004-08-12 | 2006-02-16 | Microsoft Corporation | Spam filtering with probabilistic secure hashes |
| US7716297B1 (en) * | 2007-01-30 | 2010-05-11 | Proofpoint, Inc. | Message stream analysis for spam detection and filtering |
| US7739341B1 (en) * | 2003-06-04 | 2010-06-15 | Symantec Corporation | System utilizing updated spam signatures for performing secondary signature-based analysis of a held e-mail to improve spam email detection |
| RU2420791C1 (en) * | 2009-10-01 | 2011-06-10 | ЗАО "Лаборатория Касперского" | Method of associating previously unknown file with collection of files depending on degree of similarity |
| RU2632408C2 (en) * | 2013-03-08 | 2017-10-04 | БИТДЕФЕНДЕР АйПиАр МЕНЕДЖМЕНТ ЛТД | Classification of documents using multilevel signature text |
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7739341B1 (en) * | 2003-06-04 | 2010-06-15 | Symantec Corporation | System utilizing updated spam signatures for performing secondary signature-based analysis of a held e-mail to improve spam email detection |
| US20060036693A1 (en) * | 2004-08-12 | 2006-02-16 | Microsoft Corporation | Spam filtering with probabilistic secure hashes |
| US7716297B1 (en) * | 2007-01-30 | 2010-05-11 | Proofpoint, Inc. | Message stream analysis for spam detection and filtering |
| RU2420791C1 (en) * | 2009-10-01 | 2011-06-10 | ЗАО "Лаборатория Касперского" | Method of associating previously unknown file with collection of files depending on degree of similarity |
| RU2632408C2 (en) * | 2013-03-08 | 2017-10-04 | БИТДЕФЕНДЕР АйПиАр МЕНЕДЖМЕНТ ЛТД | Classification of documents using multilevel signature text |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP4335582B2 (en) | System and method for detecting junk e-mail | |
| Venkatraman et al. | Spam e-mail classification for the Internet of Things environment using semantic similarity approach | |
| Bhowmick et al. | Machine learning for e-mail spam filtering: review, techniques and trends | |
| Blanzieri et al. | A survey of learning-based techniques of email spam filtering | |
| EP4187871B1 (en) | System and method for identifying a phishing email | |
| US12244562B2 (en) | Algorithm to detect malicious emails impersonating brands | |
| Jazzar et al. | Evaluation of machine learning techniques for email spam classification | |
| Maqsood et al. | An intelligent framework based on deep learning for SMS and e‐mail spam detection | |
| Kumar Birthriya et al. | A comprehensive survey of phishing email detection and protection techniques | |
| US11909745B2 (en) | Systems and methods for establishing sender-level trust in communications using sender-recipient pair data | |
| Mageshkumar et al. | Efficient spam filtering through intelligent text modification detection using machine learning | |
| Mallampati et al. | A machine learning based email spam classification framework model: related challenges and issues | |
| Mehrotra et al. | Email spam filtering technique from various perspectives using machine learning algorithms | |
| Kulkarni et al. | Effect of header-based features on accuracy of classifiers for spam email classification | |
| Banday et al. | Effectiveness and limitations of statistical spam filters | |
| RU2776924C1 (en) | Method for generating the signature of an unwanted electronic message | |
| Karimovich et al. | Analysis of machine learning methods for filtering spam messages in email services | |
| Srivastava et al. | Email Spam Monitoring System | |
| US20240356969A1 (en) | Statistical modeling of email senders to detect business email compromise | |
| Sasikala et al. | Performance evaluation of Spam and Non-Spam E-mail detection using Machine Learning algorithms | |
| CN118250087A (en) | A method and system for automatically generating email account honeypots for email security protection | |
| US12143358B2 (en) | System and method for creating a signature of a spam message | |
| EP4060962B1 (en) | System and method for creating a signature of a spam message | |
| SINGH | A DETALED DTUDY ON EMAIL SPAM FILTERING TECHNIQUES | |
| RU2828610C1 (en) | Method of classifying email messages and system for implementing it |