[go: up one dir, main page]

RU2273879C2 - Method for synthesis of self-teaching system for extracting knowledge from text documents for search engines - Google Patents

Method for synthesis of self-teaching system for extracting knowledge from text documents for search engines Download PDF

Info

Publication number
RU2273879C2
RU2273879C2 RU2004131643/09A RU2004131643A RU2273879C2 RU 2273879 C2 RU2273879 C2 RU 2273879C2 RU 2004131643/09 A RU2004131643/09 A RU 2004131643/09A RU 2004131643 A RU2004131643 A RU 2004131643A RU 2273879 C2 RU2273879 C2 RU 2273879C2
Authority
RU
Russia
Prior art keywords
text
sentence
word
stochastically indexed
semantic
Prior art date
Application number
RU2004131643/09A
Other languages
Russian (ru)
Other versions
RU2004131643A (en
Inventor
Владимир Владимирович Насыпный (RU)
Владимир Владимирович Насыпный
Галина Анатольевна Насыпна (RU)
Галина Анатольевна НАСЫПНАЯ
Original Assignee
Владимир Владимирович Насыпный
Галина Анатольевна НАСЫПНАЯ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Владимир Владимирович Насыпный, Галина Анатольевна НАСЫПНАЯ filed Critical Владимир Владимирович Насыпный
Priority to RU2004131643/09A priority Critical patent/RU2273879C2/en
Publication of RU2004131643A publication Critical patent/RU2004131643A/en
Application granted granted Critical
Publication of RU2273879C2 publication Critical patent/RU2273879C2/en

Links

Landscapes

  • Machine Translation (AREA)

Abstract

FIELD: computer science, information-searching and intellectual systems engineering.
SUBSTANCE: result is achieved due to realization of self-teaching mechanism in form of stochastically indexed artificial intelligence system; morphological and syntax analysis is performed, and also stochastic indexing of text documents on given topic for forming semantic analysis databases; user request is transformed in stochastically integrated form to multiple new requests equivalent to source request, and selection of stochastically indexed text document fragments is performed with all word combinations of transformed request, of which stochastically indexed semantic structure is formed, short response of system on basis of structure is formed and relevance of short system response to query is checked by means of their comparison.
EFFECT: possible automatic forming of knowledge by extracting them from text documents represented in digital form at different languages, and possible intellectual processing of text information and user requests to extract knowledge on any foreign language.
2 cl, 1 dwg, 3 tbl

Description

Область техникиTechnical field

Изобретение относится к области вычислительной техники, информационно-поисковых и интеллектуальных систем.The invention relates to the field of computer technology, information retrieval and intelligent systems.

Изобретение предназначено для использования при создании информационно-поисковых и других информационных и интеллектуальных систем, работающих на базе Internet.The invention is intended for use in the creation of information retrieval and other information and intelligent systems based on the Internet.

Предшествующий уровень техникиState of the art

В настоящее время в системе Internet накоплен огромный объем информации по различным предметным областям и темам. В этой информации содержатся и постоянно обновляются всеобъемлющие сведения и знания. Однако доступ к ним со стороны многомиллионной пользовательской аудитории затруднен. Это обусловлено недостаточной эффективностью современных способов извлечения информации для поисковых систем. Известны способы извлечения информации для поисковых систем Yandex, Yahoo, Rambler. Известные способы обеспечивают выдачу текстовых документов по запросам пользователя из системы Internet.Currently, the Internet has accumulated a huge amount of information on various subject areas and topics. This information contains and constantly updates comprehensive information and knowledge. However, access to them from the multimillion-dollar user audience is difficult. This is due to the lack of effectiveness of modern methods of extracting information for search engines. Known methods for extracting information for search engines Yandex, Yahoo, Rambler. Known methods provide the issuance of text documents at the request of the user from the Internet.

Основными недостатками известных способов извлечения информации названных систем являются:The main disadvantages of the known methods of extracting information from these systems are:

- сложность формализованных языков запросов;- the complexity of formalized query languages;

- отсутствие аппарата семантического анализа содержания текстовых документов и их соответствия задаваемым вопросам;- lack of apparatus for semantic analysis of the content of text documents and their relevance to the questions asked;

- невозможность точного определения наличия в поисковом документе информации, указанной в запросе пользователя, а также выделения из объемных информационных источников конкретных сведений и знаний, необходимых пользователю.- the impossibility of accurately determining the presence in the search document of the information specified in the user’s request, as well as the selection of specific information and knowledge necessary for the user from voluminous information sources.

В силу указанных недостатков при реализации информационно-поисковых процедур наряду с полезной передается много лишней, "шумовой" информации, которая плохо селектируется современными поисковыми системами. Это существенно повышает время поиска нужной информации, загружает каналы и серверы системы передачей и обработкой поискового шума.Due to these shortcomings, when implementing information retrieval procedures, along with useful information, a lot of superfluous, “noise” information is transmitted, which is poorly selected by modern search engines. This significantly increases the search time for the necessary information, loads the channels and servers of the system by transmitting and processing search noise.

Главная проблема состоит в том, что при этом и пользователь, задав запрос системе, получает большие объемы информации, часто не содержащей нужных сведений. Возникает необходимость ознакомиться с каждым полученным документом для определения наличия в нем требуемых данных. Это приводит к неоправданным временным и интеллектуальным затратам. Невозможность получения в реальном масштабе времени из огромных массивов Internet конкретных сведений и знаний, нужных пользователю для решения проблем различного характера, существенно снижает как ценность информации, так и эффективность работающих с ней поисковых систем.The main problem is that in doing so, the user, asking the system, receives large amounts of information, often not containing the necessary information. There is a need to familiarize yourself with each document received to determine if it contains the required data. This leads to unjustified time and intellectual costs. The inability to obtain in real time from the vast arrays of the Internet the specific information and knowledge that the user needs to solve problems of a different nature, significantly reduces both the value of the information and the effectiveness of the search engines working with it.

Известен способ извлечения знаний и сведений по запросам пользователя из баз знаний, который реализован в интеллектуальной информационно-логической вычислительной системе, описанной в монографии: Насыпный В.В. Развитие теории построения открытых систем на основе информационной технологии искусственного интеллекта. М., 1994. - 248 с. (С.85-112). Указанный способ, основанный на стохастической информационной технологии, обеспечивает возможность эффективного поиска знаний и их обработки с использованием логического вывода в реальном масштабе времени. Это обусловлено тем, что в отличие от существующих способов обработки знаний, которые применяются в современных системах искусственного интеллекта, данный способ обеспечивает линейную зависимость времени поиска и логической обработки от объема знаний, необходимых для формирования ответа. Однако этот способ не дает возможности извлечения знаний из текстовых документов, что объясняется его ориентацией на обработку формализованной информации баз знаний, осуществляемой экспертами и инженерами по знаниям. Это делает невозможным использование данного способа для извлечения знаний из текстовых документов современных информационно-поисковых систем.A known method of extracting knowledge and information at the request of a user from knowledge bases, which is implemented in an intelligent information-logical computing system described in the monograph: Nasypny V.V. The development of the theory of building open systems based on information technology of artificial intelligence. M., 1994 .-- 248 p. (S.85-112). The specified method, based on stochastic information technology, provides the ability to effectively search for knowledge and its processing using inference in real time. This is due to the fact that, in contrast to the existing methods of knowledge processing, which are used in modern artificial intelligence systems, this method provides a linear dependence of the search time and logical processing on the amount of knowledge needed to form an answer. However, this method does not make it possible to extract knowledge from text documents, which is explained by its orientation to the processing of formalized information of knowledge bases carried out by experts and knowledge engineers. This makes it impossible to use this method to extract knowledge from text documents of modern information retrieval systems.

Известен также способ извлечения знаний из текстовых документов, описанный в работе: Насыпный В.В., Насыпная Г.А. Построение интеллектуальной информационно-поисковой системы. М.: Прометей, 2001. - 27 с. В основу способа положена стохастическая интеллектуальная информационная технология, которая обеспечивает проведение в реальном масштабе времени морфологического, синтаксического и семантического анализа больших объемов текстовой информации. Данная система может функционировать совместно с существующими информационно-поисковыми системами в качестве интеллектуальной надстройки над ними, а также создавать поисковые системы нового поколения со своими стандартами стохастической индексации текстовых документов, протоколами информационного обмена и обработки запросов пользователя. Главными достоинствами указанного способа по сравнению со способами, реализованными в современных поисковых системах, являются:There is also a method of extracting knowledge from text documents described in the work: Nasypny V.V., Nasypnaya G.A. Building an intelligent information retrieval system. M .: Prometheus, 2001 .-- 27 p. The method is based on stochastic intelligent information technology, which provides real-time morphological, syntactic and semantic analysis of large amounts of textual information. This system can function in conjunction with existing information retrieval systems as an intellectual add-on above them, as well as create new generation search engines with their own standards for stochastic indexing of text documents, information exchange protocols and user request processing. The main advantages of this method in comparison with the methods implemented in modern search engines are:

- обработка запросов пользователя на естественном языке;- processing user requests in natural language;

- поиск и выдача документов, достоверно содержащих полную информацию, релевантную запросу пользователя;- search and issuance of documents that reliably contain complete information relevant to the user's request;

- выделение фрагментов текста в соответствии с запросом пользователя, содержащих сведения и знания по различным предметным областям, необходимым для решения конкретных проблем.- selection of fragments of text in accordance with the user's request, containing information and knowledge on various subject areas necessary to solve specific problems.

Основным недостатком данного способа является то, что наполнение баз знаний интеллектуальных систем, предназначенных для проведения морфологического, синтаксического, семантического анализа текста производится экспертами и требует длительных временных и технологических затрат. Поэтому создание подобных систем извлечения знаний из текстовых документов в интересах пользователей развитых стран, которые имеют национальные подсистемы в Internet с информацией на языке данной страны, требуют длительного времени. Вследствие этого указанный способ не может быть использован для создания на базе Internet многоязычных систем извлечения знаний из текстов. Это существенно затрудняет переход к индустрии знаний, которая бы основывалась на текстовой информации национальных поисковых систем и обеспечивала бы качественно новый информационный сервис в различных сферах - производственной, научной, образовательной, культурной и бытовой деятельности человека с учетом современных требований цивилизованного общества.The main disadvantage of this method is that the knowledge bases of intelligent systems designed for morphological, syntactic, semantic analysis of the text are filled by experts and require long time and technological costs. Therefore, the creation of such systems for extracting knowledge from text documents in the interests of users of developed countries that have national Internet subsystems with information in the language of a given country requires a long time. As a result of this, the indicated method cannot be used to create multilingual systems for extracting knowledge from texts on the basis of the Internet. This significantly complicates the transition to the knowledge industry, which would be based on textual information from national search engines and provide a qualitatively new information service in various fields - industrial, scientific, educational, cultural and everyday activities of a person, taking into account the modern requirements of a civilized society.

К другим недостаткам указанного способа можно отнести отсутствие возможности автоматического анализа новых слов, не входящих в состав словарей. В случае их появления в текстовых документах требуется участие экспертов при определении, к какой части речи относится новое слово, и его морфологических характеристик. Это делает невозможным автоматическое настраивание системы извлечения знаний на обработку текстовых документов по заданным новым темам. Отметим также, что для обеспечения эффективности извлечения знаний требуется комплексная обработка фрагментов текста из различных документов, основанная на анализе семантических связей с помощью логического вывода между указанными фрагментами, а также на эквивалентных преобразованиях предложения данного текста. Эта функция также не реализована в рассматриваемом способе.Other disadvantages of this method include the lack of the ability to automatically analyze new words that are not part of the dictionaries. If they appear in text documents, the participation of experts is required in determining which part of the speech the new word refers to and its morphological characteristics. This makes it impossible to automatically configure the knowledge extraction system to process text documents on specified new topics. We also note that in order to ensure the efficiency of knowledge extraction, complex processing of text fragments from various documents is required, based on the analysis of semantic relationships with the help of logical inference between these fragments, as well as on equivalent transformations of the sentence of the given text. This function is also not implemented in the considered method.

Раскрытие изобретенияDisclosure of invention

Задачей изобретения является создание способа синтеза самообучающейся системы извлечения знаний из текстовых документов для поисковых систем для использования при создании глобальной индустрии знаний на базе Internet, не имеющего вышеуказанных недостатков. Достигаемым результатом является:The objective of the invention is to provide a method for the synthesis of a self-learning system for extracting knowledge from text documents for search engines for use in creating a global knowledge industry based on the Internet that does not have the above disadvantages. The achieved result is:

- возможность автоматического формирования знаний путем извлечения их из текстовых документов, представленных на различных языках в электронном виде для заполнения баз знаний;- the ability to automatically generate knowledge by extracting them from text documents presented in various languages in electronic form to fill knowledge bases;

- автоматический анализ новых слов и обновления словарей;- automatic analysis of new words and dictionary updates;

- эквивалентные преобразования запросов пользователей и предложений текстовых документов, обеспечивающие повышение эффективности извлечения знаний;- equivalent conversions of user requests and sentences of text documents, providing increased efficiency of knowledge extraction;

- самообучение указанных систем правилам грамматического и семантического анализа;- self-study of these systems the rules of grammatical and semantic analysis;

- интеллектуальная обработка текстовой информации и запросов пользователей с целью извлечения знаний на заданном иностранном языке.- intellectual processing of textual information and user requests in order to extract knowledge in a given foreign language.

Указанный технический результат достигается тем, что в способе синтеза самообучающейся системы извлечения знаний на заданном языке из текстовых документов поисковых системThe specified technical result is achieved by the fact that in the method of synthesis of a self-learning system for extracting knowledge in a given language from text documents of search engines

обеспечивают механизм самообучения в виде стохастически индексированной системы искусственного интеллекта, основанной на применении уникальных комбинаций двоичных сигналов стохастических индексов информации,provide a self-learning mechanism in the form of a stochastically indexed artificial intelligence system based on the use of unique binary combinations of stochastic information indices,

обеспечивают автоматическое обучение системы правилам грамматического и семантического анализа путем применения эквивалентных преобразований стохастически индексированных фрагментов текста, логического вывода и формирования из них связанных семантических структур и стохастического индексирования для представления в формате правил продукций,provide automatic training of the system for the rules of grammatical and semantic analysis by using equivalent transformations of stochastically indexed text fragments, inference and the formation of related semantic structures and stochastic indexing for presentation in the format of production rules,

производят морфологический анализ и стохастическое индексирование лингвистических текстов в электронном виде с одновременным автоматическим обучением системы правилам морфологического анализа,perform morphological analysis and stochastic indexing of linguistic texts in electronic form with simultaneous automatic training of the system to the rules of morphological analysis,

производят морфологический и синтаксический анализ, а также стохастическое индексирование текстовых документов по заданной теме в электронном виде на заданном языке с одновременным автоматическим обучением системы правилам синтаксического анализа,perform morphological and syntactic analysis, as well as stochastic indexing of text documents on a given topic in electronic form in a given language with simultaneous automatic training of the system in the rules of parsing,

производят семантический анализ стохастически индексированных текстовых документов по заданной теме в электронном виде с одновременным автоматическим обучением системы правилам семантического анализа,perform semantic analysis of stochastically indexed text documents on a given topic in electronic form with simultaneous automatic training of the system in the rules of semantic analysis,

формируют запрос пользователя на естественном заданном языке и представляют его в электроном виде после стохастического индексирования в форме вопросительного предложения,form a user request in a natural given language and submit it in electronic form after stochastic indexing in the form of an interrogative sentence,

преобразуют запрос пользователя в стохастически индексированном виде во множество новых запросов, эквивалентных исходному запросу,Convert a user’s request in stochastically indexed form into many new queries equivalent to the original query,

в соответствии с запросом пользователя осуществляют предварительный выбор стохастически индексированных фрагментов текстовых документов в электронном виде, содержащих в совокупности все словосочетания преобразованного запроса,in accordance with the user's request, a preliminary selection is made of stochastically indexed fragments of text documents in electronic form, containing all the phrases of the converted request in aggregate,

формируют стохастически индексированную семантическую структуру с использованием указанных фрагментов текстовых документов,form a stochastically indexed semantic structure using the indicated fragments of text documents,

на основе указанной структуры с помощью логического вывода, обеспечивающего связь стохастически индексированных элементов различных текстов, и эквивалентного преобразования текста формируют краткий ответ системы,on the basis of this structure, using a logical conclusion that ensures the connection of stochastically indexed elements of various texts, and equivalent text conversion form a short response of the system,

проверяют релевантность полученного краткого ответа системы запросу путем формирования на его основе вопросительного предложения, сравнения полученного вопросительного предложения с запросом,check the relevance of the received short response of the system to the request by forming on its basis an interrogative sentence, comparing the received interrogative sentence with the request,

при идентичности полученного вопросительного предложения и запроса принимают решение о релевантности краткого ответа системы запросу и представляют его на заданном языке.if the question and offer received are identical, they decide on the relevance of the short response of the system to the request and present it in a given language.

Указанный технический результат достигается тем, что в способе синтеза самообучающейся системы извлечения знаний на любом из заданных иностранных языков из текстовых документов поисковых системThe specified technical result is achieved by the fact that in the method of synthesis of a self-learning system for extracting knowledge in any of the given foreign languages from text documents of search engines

обеспечивают механизм самообучения в виде стохастически индексированной системы искусственного интеллекта, основанной на применении уникальных комбинаций двоичных сигналов стохастических индексов информации для стохастической индексации и поиска фрагментов лингвистических текстов на заданном базовом языке, содержащих описание процедур грамматического и семантического анализа, и автоматического обучения системы правилам грамматического и семантического анализа путем эквивалентных преобразований стохастически индексированных фрагментов текста, логического вывода и формирования из них связанных семантических структур, их стохастического индексирования для представления в формате правил продукций,provide a self-learning mechanism in the form of a stochastically indexed artificial intelligence system based on the use of unique combinations of binary signals of stochastic information indices for stochastic indexing and searching for fragments of linguistic texts in a given base language containing a description of grammatical and semantic analysis procedures and automatic training of the system in grammar and semantic rules analysis by equivalent transforms are stochastically indexed fragments of text, inference, and the formation of their associated semantic structures of the stochastic index for submission to the rules of output formats,

производят морфологический анализ и стохастическое индексирование лингвистических текстов на заданном базовом языке в электронном виде с одновременным автоматическим обучением системы правилам морфологического анализа, формированием базы данных стохастически индексированных словарей и формированием таблиц индексов лингвистических текстов для каждого из заданных иностранных языков, а также базы знаний морфологического анализа, содержащей полученные правила продукций для заданного базового языка и каждого из заданных иностранных языков,perform morphological analysis and stochastic indexing of linguistic texts in a given base language in electronic form with simultaneous automatic training of the system for the rules of morphological analysis, the formation of a database of stochastically indexed dictionaries and the formation of index tables of linguistic texts for each of the specified foreign languages, as well as the knowledge base of morphological analysis, containing the resulting production rules for a given base language and each of the specified foreign x languages

производят морфологический и синтаксический анализ, а также стохастическое индексирование текстовых документов по заданной теме на каждом из заданных иностранных языков в электронном виде из поисковой системы с представлением их в виде таблиц индексов текстовых документов по заданной теме и записью в базы стохастически индексированных текстов с одновременным автоматическим обучением системы правилам синтаксического анализа с использованием стохастически индексированных лингвистических текстов на заданном базовом языке и формированием базы знаний синтаксического анализа для базового языка и каждого из заданных иностранных языков,perform morphological and syntactic analysis, as well as stochastic indexing of text documents on a given topic in each of the given foreign languages in electronic form from a search system with their presentation in the form of tables of indexes of text documents on a given topic and writing to the database of stochastically indexed texts with simultaneous automatic learning system rules for parsing using stochastically indexed linguistic texts in a given base language and form vaniem knowledge base to parse the language and each of the specified languages,

производят семантический анализ стохастически индексированных текстовых документов по заданной теме на заданном базовом языке в электронном виде с одновременным автоматическим обучением системы правилам семантического анализа и формированием базы знаний семантического анализа для базового языка и каждого из заданных иностранных языков,perform semantic analysis of stochastically indexed text documents on a given topic in a given base language in electronic form with simultaneous automatic training of the system for the rules of semantic analysis and the formation of a semantic analysis knowledge base for the base language and each of the specified foreign languages,

формируют запрос пользователя на естественном заданном иностранном языке и представляют его в электронном виде после стохастического индексирования в форме вопросительного предложения, включающего вопросительное словосочетание и словосочетания, которые определяют семантику запроса,form a user’s request in a natural predetermined foreign language and submit it in electronic form after stochastic indexing in the form of an interrogative sentence, including an interrogative phrase and phrases that determine the semantics of the request,

преобразуют запрос пользователя в стохастически индексированном виде во множество новых запросов, эквивалентных исходному запросу на заданном иностранном языке,convert the user’s request in stochastically indexed form into many new queries equivalent to the original query in a given foreign language,

в соответствии с запросом пользователя осуществляют предварительный выбор стохастически индексированных фрагментов текстовых документов на заданном иностранном языке в электронном виде, содержащих в совокупности все словосочетания преобразованного запроса,in accordance with the user's request, a preliminary selection of stochastically indexed fragments of text documents in a given foreign language in electronic form, containing all the phrases of the converted request in total, is performed,

формируют стохастически индексированную семантическую структуру на основе указанных фрагментов текстовых документов,form a stochastically indexed semantic structure based on the indicated fragments of text documents,

на основе сформированной стохастически индексированной семантической структуры с помощью логического вывода, обеспечивающего связь стохастически индексированных элементов различных текстов, и эквивалентного преобразования текста формируют краткий ответ системы, содержащий словосочетания в стохастически индексированном виде, которые определяют семантику запроса, а также группу слов ответа, соответствующую вопросительному словосочетанию запроса,on the basis of the generated stochastically indexed semantic structure with the help of logical inference, providing the connection of stochastically indexed elements of various texts, and equivalent text conversion, a short system response is formed containing phrases in stochastically indexed form that determine the semantics of the query, as well as a group of response words corresponding to the interrogative phrase request

проверяют релевантность полученного краткого ответа системы запросу путем замены группы слов ответа на соответствующее вопросительное словосочетание в стохастически индексированном виде, получения стохастически индексированного вопросительного предложения, сравнения полученного вопросительного предложения с запросом и при идентичности полученного вопросительного предложения и запроса принимают решение о релевантности краткого ответа системы запросу и представляют его на заданном иностранном языке.the relevance of the short answer of the system to the query is checked by replacing the group of response words with the corresponding interrogative phrase in a stochastically indexed form, obtaining a stochastically indexed interrogative sentence, comparing the received interrogative sentence with the query and if the received interrogative sentence and query are identical, they decide on the relevance of the short answer of the system to the query and represent it in a given foreign language.

В случае неудачной попытки сформировать вопросительное предложение, идентичное запросу пользователя, запрашивают новые текстовые документы из поисковой системы для поиска ответа, релевантного запросу пользователя.In the event of an unsuccessful attempt to generate an interrogative sentence identical to the user's request, they request new text documents from the search engine to search for an answer relevant to the user's request.

Дополнительно по запросу пользователя может быть сформирован полный ответ, содержащий более подробную информацию или совокупность конкретных знаний, при этом используют логический вывод для образования стохастически индексированной семантической структуры и необходимые эквивалентные преобразования указанной совокупности фрагментов текстов для получения стохастически индексированного нового текста, раскрывающего с возможной детализацией содержание полученного ранее краткого ответа.Additionally, at the user's request, a complete answer can be generated containing more detailed information or a set of specific knowledge, while using logical inference to form a stochastically indexed semantic structure and the necessary equivalent transformations of this set of text fragments to obtain a stochastically indexed new text that reveals the contents with possible detail short answer received earlier.

При этом автоматическое обучение системы правилам морфологического анализа производят путем выделения в стохастически индексируемом тексте определенного набора словоформ каждого слова, получения стохастических индексов основы слова и заданного набора его окончаний или предлогов, произвольного доступа по указанным индексам к стохастически индексированным лингвистическим текстам, выделения из них фрагментов, связывающих указанный набор окончаний слова или предлогов с соответствующей данному слову частью речи, а также с полным набором окончаний или предлогов, получаемых при склонении или спряжении, преобразования данных фрагментов в формат правил продукций путем их стохастического индексирования, обеспечивая при этом корректность каждого правила путем независимого его формирования на основе нескольких фрагментов из соответствующих лингвистических текстов, и получения таблицы индексов правил продукций для базы знаний морфологического анализа.At the same time, the system is automatically trained in the rules of morphological analysis by highlighting in a stochastically indexed text a specific set of word forms for each word, obtaining stochastic indices of the word base and a given set of its endings or prepositions, random access by indicated indices to stochastically indexed linguistic texts, extracting fragments from them, connecting the specified set of word endings or prepositions with the part of speech corresponding to the given word, as well as with a complete set rum of endings or prepositions obtained by declension or conjugation, converting these fragments into the format of production rules by stochastic indexing, while ensuring the correctness of each rule by independently generating it based on several fragments from the corresponding linguistic texts, and obtaining a table of indexes of production rules for the base knowledge of morphological analysis.

Кроме того, при стохастическом индексировании лингвистических текстов после определения части речи каждого слова с помощью правил базы знаний морфологического анализа заполняют базу данных стохастически индексированного словаря стохастическими индексами основы каждого очередного слова и полного набора его окончаний или предлогов, а при формировании таблиц индексов текстов осуществляют стохастическое преобразование информации и получение уникальных двоичных комбинаций индексов основ слов, их окончаний, предлогов, предложений, абзацев и названий текстов, которые помещают в таблицы индексов базы стохастически индексированных текстов с обеспечением связности между указанными индексами, определенной в исходном тексте и обеспечивающей его восстановление по таблице индекса.In addition, when stochastic indexing of linguistic texts after determining the part of the speech of each word using the rules of the knowledge base of morphological analysis, the database of the stochastically indexed dictionary is filled with stochastic indices of the basis of each word and a complete set of its endings or prepositions, and stochastic conversion is performed when forming tables of text indices information and obtaining unique binary combinations of indices of word stems, their endings, prepositions, sentences, ab atsev titles and text which are placed in the table base stochastically indexed text index with providing connectivity between said indices defined in the source code and its restoration by providing an index table.

Кроме того, автоматическое обучение системы правилам синтаксического анализа осуществляют путем поиска в стохастически индексированных лингвистических текстах фрагментов, описывающих порядок синтаксического разбора предложений, при этом реализуется логический вывод для получения стохастически индексированной семантической структуры, определяющей связь синтаксических элементов и структур с заданными частями речи слов, и формирования правил продукций, определяющих синтаксический разбор предложений по морфологическим характеристикам слов, обеспечивая при этом корректность каждого правила путем независимого его формирования на основе нескольких фрагментов из соответствующих лингвистических текстов, полученные правила заносят в базу знаний синтаксического анализа, по мере заполнения которой осуществляют ее стохастическое индексирование и представление в виде таблицы индексов.In addition, automatic training of the system for the rules of parsing is carried out by searching in stochastically indexed linguistic texts for fragments describing the order of parsing sentences, while the logical conclusion is realized to obtain a stochastically indexed semantic structure that determines the relationship of syntactic elements and structures with given parts of speech, and the formation of production rules that determine the syntactic analysis of sentences according to morphological characteristics word ticks, while ensuring the correctness of each rule by independently forming it on the basis of several fragments from the corresponding linguistic texts, the obtained rules are entered into the syntactic analysis knowledge base, as they are filled, they are stochastically indexed and presented in the form of an index table.

Кроме того, автоматическое обучение системы правилам семантического анализа текста осуществляют путем формирования запроса к таблицам индексов лингвистических текстов по стохастическим индексам основ слов и частей речи, не точно определенных членов предложения, и получения ответа в виде фрагмента текста, описывающего семантические характеристики, которыми должны обладать слова для их соответствия данному конкретному члену предложения, и по полученному ответу, используя стохастический индекс основы данного слова и требуемые семантические характеристики, обращаются к таблицам индексов толковых словарей и энциклопедий общего и тематического назначения, при этом с помощью логического вывода делают попытку образовать стохастически индексированную семантическую структуру, связывающую данное слово и требуемые семантические характеристики, в положительном случае считают, что указанный член предложения определен точно, а фрагмент текста, релевантный запросу, преобразуют в правило продукций, обеспечивая при этом корректность каждого правила путем независимого его формирования на основе нескольких фрагментов из соответствующих лингвистических текстов, которое включают в базу знаний семантического анализа, стохастически индексируют данную базу, представляют в виде таблицы индексов и применяют при семантическом анализе слов, как членов предложения, и отношений между словами, выраженных словосочетаниями.In addition, automatic training of the system for the rules of semantic text analysis is carried out by forming a query on the tables of indexes of linguistic texts on stochastic indices of the stems of words and parts of speech, not precisely defined members of the sentence, and receiving an answer in the form of a fragment of text describing the semantic characteristics that the words should have for their correspondence to this particular member of the sentence, and to the answer received, using the stochastic index of the base of the word and the required semant characteristics, refer to tables of indexes of explanatory dictionaries and general and thematic encyclopedias, while using logical inference they try to form a stochastically indexed semantic structure that connects this word and the required semantic characteristics, in the positive case, they consider that the specified sentence member is defined exactly, and the text fragment relevant to the request is transformed into a production rule, while ensuring the correctness of each rule by its independent Formations based on several fragments from the corresponding linguistic texts, which are included in the knowledge base of semantic analysis, stochastically index this database, represent it in the form of an index table and are used in the semantic analysis of words as members of a sentence and relations between words expressed by phrases.

После образования таблицы индексов каждого текста и завершения его морфологического, синтаксического и семантического анализа формируют стохастические индексы наименований частей речи, членов предложения и вопросов к ним, которые соответствуют каждому слову в составе предложений, и записывают указанные индексы в ячейки таблицы индексов данного текста, что позволяет при поиске фрагментов текста автоматически определять, к какой части речи, члену предложения относится каждое слово, и формировать вопросы к нему.After the formation of the index table of each text and the completion of its morphological, syntactic and semantic analysis, stochastic indices of the names of the parts of speech, sentence members and questions that correspond to each word in the sentences are formed, and the indicated indices are written in the cells of the index table of this text, which allows when searching for fragments of text, automatically determine to which part of speech each sentence belongs to a sentence member, and form questions to it.

Затем, после получения всех таблиц индексов текстов, формируют таблицу индексов текстов по данной теме, строки которой поименованы неповторяющимися стохастическими индексами основ слов, а каждый столбец соответствует стохастическому индексу конкретного текста, при этом в ячейки таблицы записывают стохастические индексы абзацев, в которых в данном тексте содержится слово с соответствующим индексом основы, полученную таблицу индексов по данной теме применяют для предварительного поиска фрагментов, содержащих определенную совокупность словосочетаний запроса.Then, after receiving all the text index tables, a text index table is formed on this topic, the rows of which are named by non-repeating stochastic indexes of word stems, and each column corresponds to a stochastic index of a specific text, while stochastic paragraph indexes in which in this text are written in the table cells contains a word with the corresponding base index, the resulting index table on this topic is used for preliminary search of fragments containing a certain aggregate s query phrases.

При этом эквивалентные преобразования исходного запроса пользователя осуществляют с использованием синонимов, близких по смыслу слов, а также замены частей речи и членов предложения с сохранением смыслового содержания исходного запроса на основе применения стохастически индексированных правил морфологического, синтаксического и семантического анализа для получения эквивалентных структур словосочетаний вопросительного предложения запроса и сохранения семантической связи между ними.In this case, equivalent conversions of the user's initial request are carried out using synonyms that are close in meaning of the words, as well as replacing parts of speech and sentence members while preserving the semantic content of the initial request based on the application of stochastically indexed rules of morphological, syntactic and semantic analysis to obtain equivalent phrase structures of the interrogative sentence request and save semantic communication between them.

Совокупность семантически связанных фрагментов текста, содержащих все слова запроса пользователя, формируют путем обращения по стохастическим индексам указанных основ слов к таблице индексов текстов по заданной теме, выбора стохастических индексов абзацев и соответствующих им текстов, содержащих в совокупности все словосочетания запроса, обращения по указанным индексам к таблице индексов каждого из выбранных текстов, логического вывода по таблицам индексов и эквивалентных преобразований текстов для образования стохастически индексированной семантической структуры, связывающей индексы группы слов ответа, соответствующего вопросительному словосочетанию запроса, а также все словосочетания запроса, определяющие семантику запроса и входящие в предварительно выбранные абзацы.The set of semantically related fragments of text containing all the words of the user's query is formed by referring to the table of text indices for a given topic using stochastic indices of the indicated word stems, selecting stochastic paragraph indices and texts corresponding to them containing all the query phrases in aggregate, referring to the indicated indices to an index table for each of the selected texts, inference from index tables and equivalent text transformations to form stochastically ind pensate semantic structure linking group codes words response corresponding to an interrogative request phrase and all query phrase defining query semantics, and included in the pre-selected paragraph.

При этом успешно сформированная в процессе логического вывода стохастически индексированная семантическая структура, соответствующая запросу пользователя, принимается в качестве основы для формирования с использованием полученной совокупности фрагментов текста вопросительного предложения, идентичного запросу пользователя, которое образуют путем эквивалентного преобразования стохастических индексов основ слов запроса и их окончаний с помощью правил баз знаний для обеспечения требуемых семантических характеристик каждого словосочетания текстового фрагмента, входящего в состав запроса, а также с использованием логического вывода на транзитивных зависимостях между словосочетаниями для объединения их в единое вопросительное предложение, идентичное запросу пользователя, которое содержит группу слов ответа, соответствующую вопросительному словосочетанию запроса.At the same time, the stochastically indexed semantic structure that is formed in the logical inference process and corresponds to the user's request is taken as the basis for generating, using the resulting set of fragments of text, a question sentence identical to the user's request, which is formed by equivalent conversion of stochastic indices of the base words of the query and their endings with using knowledge base rules to provide the required semantic characteristics of each word combining the text fragment included in the query, as well as using inference on transitive dependencies between phrases to combine them into a single interrogative sentence, identical to the user's query, which contains a group of response words corresponding to the interrogative phrase of the query.

Корректность краткого ответа может быть обеспечена путем формирования нескольких идентичных стохастически индексированных семантических структур упомянутого ответа на основе различных, предварительно выбранных стохастически индексированных фрагментов текстовых документов.The correctness of the short answer can be ensured by the formation of several identical stochastically indexed semantic structures of the mentioned answer based on different, pre-selected stochastically indexed fragments of text documents.

В процессе поиска и формирования ответа с использованием таблиц индексов текстовых документов самообучение системы осуществляют путем формирования индексированных текстовых элементов, связывающих запрос и релевантный краткий ответ, для получения базы знаний, содержащей элементы типа "запрос-ответ", которую стохастически индексируют, представляют в виде таблицы индексов и применяют при грамматическом и семантическом анализе предложений текста, а также при формировании ответов на повторяющиеся запросы пользователей, содержащиеся в указанной индексированной базе знаний.In the process of searching and generating an answer using tables of indexes of text documents, self-learning of the system is carried out by forming indexed text elements linking the request and the relevant short answer to obtain a knowledge base containing elements of the type "request-response", which is stochastically indexed, presented in the form of a table indices and are used in grammatical and semantic analysis of text sentences, as well as in the formation of answers to repeated user requests contained in indicated indexed knowledge base.

При этом для формирования полного ответа, содержащего знания, релевантные запросу пользователя, на основе краткого ответа с помощью логического вывода по таблицам индексов, использованных при получении фрагмента текста, формируют стохастически индексированную семантическую структуру, связывающую группу слов ответа со стохастическими индексами основ слов предложений, поддерживающих транзитивную зависимость, обеспечивающую в своей совокупности полное раскрытие содержания краткого ответа в рамках сформированного фрагмента текста, затем с помощью эквивалентных преобразований предложений на основе указанной стохастически индексированной семантической структуры получают единый связанный текст полного ответа.At the same time, to formulate a complete answer containing knowledge relevant to the user's request, based on a short answer using logical inference on the index tables used to obtain the text fragment, a stochastically indexed semantic structure is formed that connects the group of response words with stochastic indices of sentence word strings supporting transitive dependence, providing in its entirety a full disclosure of the content of the short answer within the framework of the generated text fragment, Then, with the help of equivalent sentence transformations, based on the indicated stochastically indexed semantic structure, a single linked text of the complete answer is obtained.

Эквивалентное преобразование стохастически индексированных фрагментов текста производят путем представления каждого предложения в виде совокупности стохастически индексированных словосочетаний, которые преобразуют с использованием правил баз знаний морфологического, синтаксического и семантического анализа путем эквивалентного преобразования стохастических индексов основ однокоренных слов, их окончаний и предлогов для образования новых частей речи или членов предложения с обеспечением неизменности связи указанных словосочетаний в рамках стохастически индексированной семантической структуры каждого предложения и согласования указанных предложений между собой при образовании из них нового фрагмента текста.An equivalent transformation of stochastically indexed text fragments is performed by presenting each sentence as a set of stochastically indexed phrases that are transformed using the rules of knowledge bases of morphological, syntactic and semantic analysis by equivalent conversion of stochastic indices of the stems of cognate words, their endings and prepositions to form new parts of speech or members of the proposal ensuring the invariability of the connection of the specified words REPRESENTATIONS within stochastically indexed semantic structure of each sentence and harmonization of these proposals with each other in the formation of these new text fragment.

При появлении в процессе стохастического индексирования текстовых документов в индексируемом тексте нового слова, не содержащегося в словаре стохастически индексированных слов и в лингвистических текстах, находят в данном словаре однокоренное слово с указанным новым словом, а в базе знаний морфологического анализа находят правила для эквивалентного преобразования найденного в словаре однокоренного слова в новое слово, при этом по виду эквивалентного преобразования определяют часть речи, к которой относится новое слово и все его словоформы, получаемые при склонении или спряжении, а при отсутствии однокоренных слов в словаре выбирают из текста определенный набор словоформ нового слова, по предлогам или окончаниям которых с помощью стохастически индексированного словаря или правил продукций морфологического анализа определяют часть речи, к которой оно относится, и полный набор его словоформ, получаемых при склонении или спряжении.When a new word appears in the indexed text during stochastic indexing of text documents that is not contained in the dictionary of stochastically indexed words and in linguistic texts, a single-root word with the specified new word is found in this dictionary, and the rules for the equivalent conversion of found in dictionary of the same root word into a new word, while by the type of equivalent conversion, the part of speech to which the new word and all its word belong is determined forms obtained by declension or conjugation, and in the absence of cognates in the dictionary, a certain set of word forms of the new word is selected from the text, based on the prepositions or endings of which using the stochastically indexed dictionary or rules of production of morphological analysis determine the part of speech to which it refers, and the full a set of its word forms obtained by declension or conjugation.

При этом для одновременного извлечения знаний из текстовых документов на заданных иностранных языках сначала осуществляют автоматическое обучение системы правилам морфологического, синтаксического, семантического анализа для заданного базового языка, производят формирование базы стохастически индексированного словаря и баз знаний морфологического, синтаксического, семантического анализа с использованием стохастически индексированных лингвистических текстов на заданном базовом языке, с помощью сформированных баз осуществляют автоматическое формирование запросов для автоматического обучения системы любому из заданных иностранных языков, при этом производят предварительный выбор по автоматически сформированным запросам фрагментов лингвистических текстов на базовом языке, содержащих знания, необходимые для изучения заданного иностранного языка, эквивалентные преобразования указанных текстов, формирование стохастически индексируемых семантических структур и логический вывод на заданных структурах для формирования ответов, релевантных автоматическим запросам, которые используют для формирования баз знаний морфологического, синтаксического и семантического анализа для любого из заданных иностранных языков, обеспечивающих извлечение знаний из текстовых документов на заданном иностранном языке.Moreover, to simultaneously extract knowledge from text documents in given foreign languages, the system is first automatically taught the rules of morphological, syntactic, semantic analysis for a given base language, a stochastically indexed dictionary base and morphological, syntactic, semantic analysis knowledge bases are generated using stochastically indexed linguistic texts in a given base language, using the generated databases automatic generation of queries for automatically teaching the system to any of the given foreign languages, at the same time, preliminary selection of fragments of linguistic texts in the base language containing the knowledge necessary to study the given foreign language, equivalent conversions of the indicated texts, the formation of stochastically indexed semantic structures and logical inference on given structures for the formation of answers relevant to automatic s to aprosu, who use morphological, syntactic and semantic analysis for any of the given foreign languages to form knowledge bases for extracting knowledge from text documents in a given foreign language.

Краткое описание чертежейBrief Description of the Drawings

Изобретение поясняется на примере, иллюстрируемом Фиг.1, где показана структурная схема интеллектуальной самообучающейся системы извлечения знаний из текстовых документов для поисковых систем; а также следующими таблицами:The invention is illustrated by the example illustrated in FIG. 1, which shows a block diagram of an intelligent self-learning system for extracting knowledge from text documents for search engines; as well as the following tables:

Таблица 1- Фрейм предложения,Table 1- frame proposals

Таблица 2 - Индексы текста,Table 2 - Text indices,

Таблица 3 - Индексы текстов по данной теме.Table 3 - Text indices on this topic.

Предпочтительный вариант осуществления изобретенияPreferred Embodiment

Ниже приведены определения терминов, используемых в настоящем описании.The following are definitions of terms used in the present description.

База знаний - один или несколько специальным образом организованных файлов, хранящих систематизированную совокупность понятий, правил и фактов, относящихся к некоторой предметной области. A knowledge base is one or several specially organized files that store a systematic set of concepts, rules, and facts related to a certain subject area.

Вопросительное словосочетание - словосочетание с вопросительным местоимением или наречием в роли вопросительного слова, связанного с главным словом словосочетания (именем или глаголом). Interrogative phrase - a phrase with a interrogative pronoun or adverb as the interrogative word associated with the main word of the phrase (name or verb).

Грамматический анализ - анализ морфологический и синтаксический. Grammatical analysis - morphological and syntactic analysis.

Знания - новая текстовая информация, не содержащаяся в явном виде в текстовых документах, которая автоматически формируется системой с использованием эквивалентных преобразований и логического вывода в виде ответа, релевантная запросу пользователя и направленная на решение его задач в соответствии с запросом. Knowledge - new textual information that is not explicitly contained in text documents, which is automatically generated by the system using equivalent transformations and inference in the form of an answer, relevant to the user's request and aimed at solving his tasks in accordance with the request.

Лингвистические тексты - учебно-методические, научные, справочные (толковые словари, энциклопедии) и другие тексты, предназначенные для изучения данного языка. Linguistic texts - educational, methodical, scientific, reference (explanatory dictionaries, encyclopedias) and other texts intended for the study of this language.

Логический вывод - метод обработки знаний, имитирующий процесс рассуждений человека, который на основе отдельных языковых единиц позволяет синтезировать семантическую структуру с определенным смысловым содержанием. The logical conclusion is a method of processing knowledge that imitates the process of human reasoning, which, based on individual language units, allows you to synthesize a semantic structure with a specific semantic content.

Морфологический анализ - это разбор слов предложения для определения морфологического состава с последующим уточнением характеристик отдельных слов, относящихся к той или иной части речи, при этом вначале указываются постоянные морфологические признаки слова, не зависящие от его позиции в предложении, затем анализируется грамматическая форма слова, связанная с его склонением или спряжением. Morphological analysis is the analysis of the words of a sentence to determine the morphological composition with the subsequent refinement of the characteristics of individual words related to a particular part of speech, first indicating the constant morphological characteristics of the word, which are independent of its position in the sentence, then analyzing the grammatical form of the word related with its declination or conjugation.

Основа слова - часть слова, выражающая его лексическое значение, при этом в склоняемых и спрягаемых словах имеются основа и окончание, а остальные слова содержат только основу. The basis of the word is the part of the word expressing its lexical meaning, while in the inflected and conjugated words there is a basis and an ending, and the rest of the words contain only the basis.

Поисковая система - система, выполняющая автоматический поиск информации по ключевым словам, темам и т.д. Search system - a system that automatically searches for information on keywords, topics, etc.

Правила продукций - форма представления знаний в виде сложноподчиненного предложения "Если (условие), то (заключение)", в котором условие содержит различные словосочетания, включающие предикативные и другие виды отношений между объектами предметной области, объединенные логическими связками "и", а заключение содержит словосочетание или совокупность словосочетаний, определяющих семантическое следствие, которое истинно, или действие, которое активизируется, если истинны все словосочетания условия. Production rules - a form of knowledge representation in the form of a complex sentence "If (condition), then (conclusion)", in which the condition contains various phrases, including predicative and other types of relations between objects of the subject area, united by logical connectives "and", and the conclusion contains a phrase or set of phrases that determine the semantic consequence that is true, or an action that is activated if all the phrases of the condition are true.

Релевантность - мера, определяющая, насколько полно тот или иной документ отвечает критериям, указанным в запросе пользователя. Relevance - a measure that determines how fully a particular document meets the criteria specified in the user’s request.

Семантическая структура - форма связи отдельных языковых единиц различных предложений с учетом видов отношений между ними, выражающая определенное смысловое содержание анализируемого текста. The semantic structure is a form of communication of individual linguistic units of various sentences, taking into account the types of relations between them, expressing a certain semantic content of the analyzed text.

Семантический анализ - анализ смысла, значения отдельных языковых единиц: слов, словосочетаний предложения, их соотнесенности с определенными видами отношений между объектами предметной области и явлениями действительности. Semantic analysis is the analysis of the meaning, meaning of individual language units: words, sentences of a sentence, their correlation with certain types of relations between objects of the subject area and phenomena of reality.

Синтаксический анализ - это разбор слов предложения для определения синтаксического состава с последующим уточнением характеристик отдельных слов, словосочетаний, их типов, форм связи между словами в словосочетании и предложении, строения предложений, структурных типов предложений. Syntactic analysis is the analysis of sentence words to determine the syntactic composition with subsequent refinement of the characteristics of individual words, phrases, their types, forms of communication between words in a phrase and sentence, the structure of sentences, structural types of sentences.

Система искусственного интеллекта - программно-техническая система, содержащая в качестве основы подсистему логического вывода, базы знаний, а также в зависимости от класса другие программно-аппаратные средства искусственного интеллекта и предназначенная для поддержки интеллектуальной деятельности человека или его замены в ряде процессов управления. An artificial intelligence system is a software and hardware system that contains, as a basis, a subsystem of logical inference, a knowledge base, and also depending on the class, other hardware and software of artificial intelligence and designed to support human intellectual activity or its replacement in a number of control processes.

Склонение слова - изменение существительных по падежам (для большинства имен и по числам), а для прилагательных и других согласуемых слов также по родам. Declension of a word is a change of nouns by cases (for most names and by numbers), and for adjectives and other coordinated words also by gender.

Словосочетание - это синтаксическая единица, образующаяся соединением двух или более слов на основе подчинительной связи - согласования, управления или примыкания - и тех лексико-грамматических отношений, которые порождаются этой связью. A phrase is a syntactic unit formed by combining two or more words on the basis of a subordinate connection - coordination, control or adjacency - and those lexical and grammatical relations that are generated by this connection.

Словоформа - данное слово в данной грамматической форме. Wordform - a given word in a given grammatical form.

Спряжение слова - изменение глагола по лицам, числам, временам и наклонениям, а в прошедшем времени и в сослагательном наклонении в единственном числе также по родам. Conjugation of a word is a change of a verb in persons, numbers, tenses and moods, and in the past tense and in the subjunctive mood in the singular also by gender.

Эквивалентное преобразование - замена отдельных языковых единиц на другие с обеспечением их связи в рамках семантической структуры предложения или в определенной совокупности предложений текста, способных выражать то же смысловое содержание. An equivalent transformation is the replacement of individual linguistic units with others with the provision of their connection within the framework of the semantic structure of a sentence or in a certain set of text sentences that can express the same semantic content.

Рассмотрим более подробно реализацию предложенного способа на примере построения и функционирования интеллектуальной самообучающейся системы извлечения знаний для поисковых систем (ИССИЗ), представленной на Фиг.1. Упомянутая стохастически индексированная система искусственного интеллекта включает:Let us consider in more detail the implementation of the proposed method on the example of the construction and operation of an intelligent self-learning system for extracting knowledge for search engines (ISIS), presented in Figure 1. The mentioned stochastically indexed artificial intelligence system includes:

- многоязычный лингвистический процессор (1);- multilingual linguistic processor (1);

- подсистему стохастического индексирования текстовых документов и выделения фрагментов текстов (2);- a subsystem of stochastic indexing of text documents and highlighting fragments of texts (2);

- подсистему управления режимом самообучения и извлечения знаний (3);- a subsystem for managing the self-learning and knowledge extraction mode (3);

- интерпретатор стохастически индексированных текстов и правил продукций (4);- interpreter of stochastically indexed texts and production rules (4);

- подсистему эквивалентных преобразований текста (5);- a subsystem of equivalent text transformations (5);

- подсистему логического вывода (6);- logical inference subsystem (6);

- базу данных стохастически индексированных словарей базового и новых слов (7);- a database of stochastically indexed dictionaries of the base and new words (7);

- базу стохастически индексированных лингвистических текстов (8);- a database of stochastically indexed linguistic texts (8);

- базу знаний "запрос-ответ" (9);- knowledge base "request-response" (9);

- базу стохастически индексированных текстовых документов по заданным темам (10);- a database of stochastically indexed text documents on given topics (10);

- базу стохастически индексированных словарей иностранных слов (11);- a database of stochastically indexed dictionaries of foreign words (11);

- базу знаний морфологического анализа (12);- knowledge base of morphological analysis (12);

- базу знаний синтаксического анализа (13);- knowledge base of parsing (13);

- базу знаний семантического анализа (14);- knowledge base of semantic analysis (14);

- базу стохастически индексированных словосочетаний (15).- the base of stochastically indexed phrases (15).

Указанная система основана на использовании стохастического преобразования и индексирования символьной информации, формирования таблиц индексов правил продукций для управления режимом самообучения и индексов текстов. Она обеспечивает доступ по стохастическим индексам к фрагментам текстовой информации, логический вывод и эквивалентные преобразования текста с использованием стохастически индексированных правил для извлечения знаний из выделенных фрагментов текста и представления их в формате правил продукций или в виде ответов на запросы пользователей.The indicated system is based on the use of stochastic conversion and indexing of symbolic information, the formation of index tables of production rules for controlling the self-learning mode and text indices. It provides access by stochastic indices to fragments of textual information, logical inference and equivalent text transformations using stochastically indexed rules to extract knowledge from selected fragments of text and present them in the form of production rules or in the form of answers to user requests.

Создание ИССИЗ предполагает разработку механизма самообучения системы правилам морфологического, синтаксического и семантического анализа текстовой информации на основе лингвистических текстов. Указанные тексты содержат словари общеупотребительных слов, тематические словари, словари синонимов, толковые словари, учебно-методические тексты по грамматике заданных языков и др.The creation of ISSIS involves the development of a self-learning mechanism for the system of rules for morphological, syntactic and semantic analysis of textual information based on linguistic texts. These texts contain dictionaries of common words, thematic dictionaries, dictionaries of synonyms, explanatory dictionaries, educational and methodical texts on the grammar of given languages, etc.

Общение пользователя с системой осуществляется через многоязычный лингвистический процессор (1). Он обеспечивает ввод запросов на естественном языке и выдачу ответов, формируемых системой. При этом обмен информации между пользователем и системой может осуществляться на заданных языках. Кроме этого лингвистический процессор (1) по команде подсистемы (3) управления режимом самообучения и извлечения знаний обеспечивает взаимодействие с подключенной к ИССИЗ поисковой системой. Цель этого взаимодействия - ввод по запросу подсистемы (3) новых текстовых документов из поисковой системы на заданном языке по определенной теме для их последующей обработки. Многоязычный лингвистический процессор (1) также обеспечивает ввод в систему лингвистических текстов на заданном языке в электронном виде.The user communicates with the system through a multilingual linguistic processor (1). It provides the input of queries in a natural language and the issuance of answers generated by the system. Moreover, the exchange of information between the user and the system can be carried out in predetermined languages. In addition, the linguistic processor (1), at the command of the subsystem (3) for managing the self-learning and knowledge extraction mode, provides interaction with the search system connected to the AISS. The purpose of this interaction is to enter, at the request of subsystem (3), new text documents from a search engine in a given language on a specific topic for their subsequent processing. The multilingual linguistic processor (1) also provides input into the system of linguistic texts in a given language in electronic form.

Морфологический анализ лингвистических текстов и автоматическое обучение системы правилам морфологического анализа производят по команде подсистемы (3) управления режимом самообучения и извлечения знаний в процессе формирования базового словаря и записи его в базу данных (7) стохастически индексированных словарей базового и новых слов. Эти функции проводят одновременно с индексированием лингвистических текстов с помощью подсистемы (2) стохастического индексирования текстовых документов и выделения фрагментов текстов.Morphological analysis of linguistic texts and automatic training of the system for the rules of morphological analysis are performed by the command of the subsystem (3) for managing the self-learning and knowledge extraction process in the process of forming the basic dictionary and writing it to the database (7) of stochastically indexed dictionaries of the base and new words. These functions are carried out simultaneously with the indexing of linguistic texts using the subsystem (2) of stochastic indexing of text documents and the selection of text fragments.

Для формирования стохастически индексированного базового словаря используют словарь общеупотребительных слов в электронном виде, который вводят в систему через многоязычный лингвистический процессор (1) и определяют по заданным словоформам этого словаря часть речи каждого слова, его основу, и соответствующие наборы окончаний. Основу данного слова стохастически индексируют с помощью подсистемы (2) стохастического индексирования текстовых документов и выделения фрагментов текстов и записывают в базу данных (7) стохастически индексированных словарей базового и новых слов в таблицу стохастически индексированного базового словаря в столбец индексов основ слов.To form a stochastically indexed basic dictionary, a dictionary of common words is used in electronic form, which is entered into the system through a multilingual linguistic processor (1) and determined from the given word forms of this dictionary, the speech part of each word, its basis, and the corresponding sets of endings. The basis of this word is stochastically indexed using the subsystem (2) of stochastic indexing of text documents and extracting text fragments and written into the database (7) of stochastically indexed dictionaries of the base and new words in the table of the stochastically indexed base dictionary in the column of the word base indices.

В результате описанной обработки слов указанного словаря в многоязычном лингвистическом процессоре (1) получают стохастические индексы основ всех слов и сами основы, а также определенный набор окончаний, которые заносят в базу данных (7) стохастически индексированных словарей базового и новых слов.As a result of the described word processing of the specified dictionary in the multilingual linguistic processor (1), stochastic indices of the stems of all words and the stems themselves are obtained, as well as a certain set of endings that are entered into the database (7) of stochastically indexed dictionaries of the base and new words.

Стохастически индексированный базовый словарь, записанный в базу данных (7) стохастически индексированных словарей базового и новых слов, имеет несколько форматов таблиц, каждая из которых соответствует определенной части речи. В заголовке таблиц содержатся графы, включающие наименования морфологических характеристик (род, число, падеж, лицо, время и т.д.), а также вопросы, которые соответствуют словоформам данного слова, получаемым при его склонении или спряжении. При этом каждой основе соответствует строка, содержащая окончания указанных словоформ данного слова. Отметим, что в начале заполнения стохастически индексированного базового словаря, известно только несколько словоформ каждого слова, а именно те, которые приведены в словаре общеупотребительных слов. Нахождение остальных словоформ и соответствующих им окончаний для заполнения таблиц стохастически индексированного базового словаря производят в режиме автоматического обучения системы правилам морфологического анализа после первоначального индексирования соответствующих лингвистических текстов.The stochastically indexed basic dictionary recorded in the database (7) of stochastically indexed dictionaries of the basic and new words has several table formats, each of which corresponds to a certain part of speech. The heading of the tables contains graphs that include the names of morphological characteristics (gender, number, case, person, time, etc.), as well as questions that correspond to the word forms of a given word obtained when it is declined or conjugated. Moreover, each basis corresponds to a line containing the endings of the indicated word forms of the given word. Note that at the beginning of filling a stochastically indexed basic dictionary, only a few word forms of each word are known, namely those that are listed in the dictionary of common words. Finding the remaining word forms and their endings to fill in the tables of a stochastically indexed basic dictionary is performed in the automatic training mode of the system for the rules of morphological analysis after the initial indexing of the corresponding linguistic texts.

В основу этого механизма положено введение нового способа стохастической индексации текстовых документов, который реализуется в подсистеме (2) стохастического индексирования текстовых документов и выделения фрагментов текстов. Процедура базируется на функциях стохастического преобразования символьной информации и формирования стохастических индексов в виде уникальных двоичных комбинаций основ слов, предложений, абзацев и названий текстовых документов, включая библиографические данные. При этом одновременно со стохастическим преобразованием символьной информации, формированием стохастических индексов {I ξi(u) } основ слов, предложений {I ξi(p) }, абзацев {I ξi(a) } и названия текста I ξi(t), который находится в обработке, производится заполнение фреймов каждого предложения (Таблица 1) и формирование таблицы индексов данного текста (Таблица 2).The basis of this mechanism is the introduction of a new method for stochastic indexing of text documents, which is implemented in subsystem (2) of stochastic indexing of text documents and highlighting text fragments. The procedure is based on the functions of stochastic transformation of symbolic information and the formation of stochastic indices in the form of unique binary combinations of the foundations of words, sentences, paragraphs and titles of text documents, including bibliographic data. At the same time, along with the stochastic transformation of symbolic information, the formation of stochastic indices {I ξi (u) } of word stems, sentences {I ξi (p) } , paragraphs {I ξi (a) } and the name of the text I ξi (t) , which is in processing, the frames of each sentence are filled in (Table 1) and the table of indices for this text is formed (Table 2).

Указанный фрейм (Таблица 1), который формируется в подсистеме (2) стохастического индексирования текстовых документов и выделения фрагментов текстов, содержит десять уровней (строк) слотов (ячеек). Эти уровни слотов заполняются в процессе стохастического индексирования текста, а также при выполнении морфологического, синтаксического и семантического анализа каждого предложения.The specified frame (Table 1), which is formed in the subsystem (2) of stochastic indexing of text documents and extracting text fragments, contains ten levels (lines) of slots (cells). These levels of slots are filled in during the stochastic indexing of the text, as well as when performing morphological, syntactic and semantic analysis of each sentence.

При стохастическом индексировании лингвистических текстов в слоты первого уровня записываются стохастические индексы основ слов {I ξij(u) } и их окончания. Слоты второго уровня содержат слова в порядке следования в данном предложении с номером i. При этом предлоги, частицы, союзы и знаки препинания заносят в слоты тех слов, с которыми они связаны. Для заполнения слотов третьего уровня используются стохастические индексы основ слов {I ξij(u) } и их окончания, записанные в слоты первого уровня.In stochastic indexing of linguistic texts, stochastic indices of the stems of the words {I ξij (u) } and their endings are written in slots of the first level. Slots of the second level contain words in the order in this sentence with the number i. In this case, prepositions, particles, unions and punctuation marks are entered in the slots of those words with which they are associated. To fill the slots of the third level, stochastic indices of the stems {I ξij (u) } and their endings recorded in the slots of the first level are used.

По индексам основ слов производят доступ к строкам соответствующих таблиц стохастически индексированного базового словаря, поименованным идентичными индексами для определения части речи, к которой относится данное слово. Указанную информацию из базы данных (7) стохастически индексированных словарей базового и новых слов записывают в слоты третьего уровня фрейма предложения, соответствующие словам слотов второго уровня.On the basis of the indexes of words, access is made to the rows of the corresponding tables of the stochastically indexed basic dictionary, named by identical indexes to determine the part of speech to which the given word belongs. The specified information from the database (7) of stochastically indexed dictionaries of the base and new words is recorded in the slots of the third level of the sentence frame corresponding to the words of the slots of the second level.

Запись в слоты третьего уровня фрейма характеристик частей речи, а также заполнение слотов уровней с четвертого по десятый производят в процессе дальнейшего морфологического и синтаксического анализа текста, который осуществляют одновременно с обучением системы правилам морфологического и синтаксического анализа. Этот процесс будет рассмотрен ниже.Writing into the slots of the third level of the frame the characteristics of the parts of speech, as well as filling in the slots of the fourth to tenth levels, is carried out in the process of further morphological and syntactic analysis of the text, which is carried out simultaneously with teaching the system the rules of morphological and syntactic analysis. This process will be discussed below.

На основе получения фреймов предложений текста с заполненными первыми четырьмя уровнями слотов в подсистеме (2) стохастического индексирования текстовых документов и выделения фрагментов текстов осуществляют формирование таблицы индексов данного текста.Based on the receipt of text sentence frames with the first four levels of slots filled in the subsystem (2) of stochastic indexing of text documents and the selection of text fragments, an index table of this text is formed.

Таблица 2 индексов текста представляет собой таблицу, строки которой поименованы стохастическими индексами {I ξi(u) } основ слов, столбцы обозначены индексами абзацев {I ξj(a) } в порядке их появления в тексте, а ячейки, расположенные на пересечении соответствующих столбцов и строк, содержат индексы списков {I ξij(s) }. При этом сама информация, которая содержится в каждом списке, поименованная {I ξij(s) }, записана в отдельном файле и в общем случае должна включать следующие данные:Table 2 of text indices is a table whose rows are named by stochastic indices {I ξi (u) } of word stems, columns are indicated by paragraph indices {I ξj (a) } in the order they appear in the text, and the cells located at the intersection of the corresponding columns and rows contain the indices of the lists {I ξij (s) } . Moreover, the information contained in each list, named {I ξij (s) }, is recorded in a separate file and in the general case should include the following data:

{I ξi(p) } - индекс предложения, в которое входит данное слово; {I ξi (p) } - the sentence index in which the given word is included;

N i(n) - номер предложения, в которое входит данное слово; N i (n) is the number of the sentence the given word is in;

(u i u j ) - окончание, которое имеет данное слово в предложении (I ξi(p) N i(n) ); (u i u j ) - the ending that the given word has in the sentence (I ξi (p) N i (n) ) ;

I ξj-1(u) - индекс предшествующего слова в предложении или абзаце текста, при этом, если I ξj(u) - первое слово в предложении (абзаце), то после индекса I ξj-1(u) ставится точка. I ξj-1(u) может соответствовать слову, завершающему предыдущее предложение в рамках данного абзаца или предыдущего абзаца. Если после I ξj-1(u) ставится запятая, то это означает, что I ξj(u) может начинать причастный или деепричастный оборот, придаточное предложение или простое предложение в составе сложного; I ξj-1 (u) is the index of the previous word in the sentence or paragraph of the text; moreover , if I ξj (u) is the first word in the sentence (paragraph), then a dot is placed after the index I ξj-1 (u) . I ξj-1 (u) may correspond to the word ending the previous sentence in the framework of this paragraph or the previous paragraph. If a comma is placed after I ξj-1 (u) , then this means that I ξj (u) can begin the participial or participial turn, the subordinate clause or the simple sentence in the compound;

I ξ(j+1)(u) - индекс последующего слова в предложении, абзаце, тексте, при этом, если I ξ (j + 1) (u) is the index of the next word in the sentence, paragraph, text, and if

I ξj(u) - завершающее слово в предложении (абзаце), то перед I ξj-1(u) ставится точка. I ξj (u) is the final word in the sentence (paragraph), then I ξj-1 (u) is preceded by a period.

I ξj-1(u) может соответствовать слову, начинающему новое предложение данного абзаца или последующего абзаца. Если перед I ξj-1(u) ставится запятая, то это означает, что I ξj(u) может завершать деепричастный, причастный обороты или простое предложение в составе сложного; I ξj-1 (u) may correspond to a word starting a new sentence of a given paragraph or a subsequent paragraph. If a comma is placed before I ξj-1 (u) , then this means that I ξj (u) can complete the participle, participial turns or a simple sentence as part of a complex one;

I ξj(vu) - индекс вопроса к данному слову, как к члену предложения; I ξj (vu) is the index of the question to the given word, as to the sentence member;

I ξj(pu) - индекс наименования члена предложения, которому соответствует данное слово; I ξj (pu) - index of the name of the sentence member to which the given word corresponds;

I ξj(vpru) - индекс вопроса, которому соответствуют деепричастный, причастный обороты или придаточное предложение, которое начинает I ξj(u); I ξj (vpru) - the index of the question, which corresponds to the participle, participial sentences or subordinate clause that begins I ξj (u) ;

I ξj(pru) - индекс наименования члена предложения, которому соответствуют причастный, деепричастный обороты или придаточное предложение, начинающее I ξj(u). I ξj (pru) - the index of the name of the sentence member, to which the participle, participial sentences or the subordinate clause starting I ξj (u) correspond .

Указанные индексы и символы соответствуют слову с основой I ξi(u) в составе одного из предложений I ξj(p) абзаца I ξj(а) и имеют заданный формат, определяющий расположение индексов и символов в составе данной группы. Если отдельные индексы отсутствуют, то вместо них на соответствующей позиции ставится знак "пробел". Если данное слово I ξi(u) входит в n предложений {I ξi(p) } абзаца I ξi(a), то указанных групп в составе списка также будет n.The indicated indices and symbols correspond to the word with the basis I ξi (u) as part of one of the sentences I ξj (p) of the paragraph I ξj (a) and have a given format that determines the location of the indices and symbols in this group. If there are no individual indices, then a space sign is put in their place. If the given word I ξi (u) is included in n sentences {I ξi (p) } of the paragraph I ξi (a) , then the indicated groups in the list will also be n .

Отметим, что первые шесть индексов списка I ξij(s) формируются в ходе стохастического индексирования текста. При этом по индексу I ξi(u) основы путем обращения к стохастически индексированному базовому словарю всегда можно определить, к какой части речи относится указанное слово. Остальные данные списка I ξij(s) определяются после заполнения уровней четыре-десять фреймов предложений текста в процессе дальнейшего морфологического и синтаксического разбора, которые реализуются одновременно с самообучением системы правилам грамматического анализа предложений.Note that the first six indices of the list I ξij (s) are formed during stochastic indexing of the text. Moreover, from the basis index I ξi (u), by referring to a stochastically indexed basic dictionary, it is always possible to determine to which part of speech the indicated word belongs. The remaining data of the list I ξij (s) are determined after filling in the levels of four to ten frames of text sentences in the process of further morphological and syntactic analysis, which are implemented simultaneously with the system’s self-learning rules for grammar analysis of sentences.

После стохастического индексирования всех лингвистических текстов, включая тексты, содержащие описания грамматического разбора предложений, их записывают в базу (8) стохастически индексированных лингвистических текстов и переходят к формированию правил морфологического анализа текста одновременно с заполнением базы данных (7) стохастически индексированных словарей базового и новых слов.After stochastic indexing of all linguistic texts, including texts containing descriptions of the grammatical analysis of sentences, they are written into the database (8) of stochastically indexed linguistic texts and proceed to the formation of the rules for morphological analysis of the text simultaneously with filling in the database (7) of stochastically indexed dictionaries of the base and new words .

С этой целью из каждой таблицы стохастически индексированного базового словаря, которая содержит основы слов, относящихся к данной части речи, выбирают стохастический индекс основы каждого слова и заданного набора его окончаний или предлогов. Затем осуществляют произвольный доступ по указанным индексам к базе (8) стохастически индексированных лингвистических текстов для выделения из них фрагментов, связывающих индекс части речи и указанный набор окончаний слова или предлогов с соответствующими данной части речи полным набором окончаний, предлогов или вопросов, получаемых при склонении или спряжении. После этого данный фрагмент текста поступает в интерпретатор (4) стохастически индексированных текстов и правил продукций, в котором формируют стохастически индексированную семантическую структуру в виде совокупности словосочетаний каждого предложения, входящего в данный фрагмент:For this purpose, from each table of a stochastically indexed basic dictionary that contains the basics of words related to a given part of speech, a stochastic index of the basics of each word and a given set of its endings or prepositions is selected. Then random access is made at the indicated indices to the base (8) of stochastically indexed linguistic texts to extract fragments from them that connect the index of the speech part and the specified set of word endings or prepositions with the corresponding complete set of endings, prepositions or questions obtained in declension or conjugation. After that, this fragment of the text enters the interpreter (4) of stochastically indexed texts and production rules, which form a stochastically indexed semantic structure in the form of a combination of phrases of each sentence included in this fragment:

Figure 00000002
Figure 00000002

где I ξi(u) I ξj(u) - стохастические индексы соответственно главного и зависимого основ слов данного словосочетания, I ξi(r) I ξj(r) - стохастические индексы частей речи главного и зависимого слов указанного словосочетания, I ξi(z) I ξj(z) - стохастические индексы соответственно морфологических характеристик частей речи главного и зависимого слов данного словосочетания, а знак → определяет связь между главным и зависимым словами данного словосочетания.where I ξi (u) I ξj (u) are the stochastic indices of the main and dependent stems of the words of the given phrase, I ξi (r) I ξj (r) are the stochastic indices of the parts of speech of the main and dependent words of the given stratum, I ξi (z) I ξj (z) are the stochastic indices, respectively, of the morphological characteristics of the speech parts of the main and dependent words of a given phrase, and the → sign defines the relationship between the main and dependent words of a given phrase.

Основным связующим звеном каждой стохастически индексированной семантической структуры, представленной выражением (1), является глагол, который определяет семантику связей внутри данной структурной схемы. Связь между различными стохастически индексированными семантическими структурами (1), входящими в разные предложения, осуществляется при наличии в них идентичных словосочетаний, их синонимов, повторения главных слов или применения во втором предложении местоимения, соответствующего одному из словосочетаний первого предложения, а также местоимения в сочетании с главным словом. В соответствии с этим находят предложения или части предложений, в которых стохастически индексированная семантическая структура, содержащая индексированные исходные данные запроса, соответствующим образом связана со стохастически индексированной семантической структурой с индексированными данными ответа. При этом для определения семантики глаголов производят обращение по стохастическим индексам их основ к базе (8) стохастически индексированных лингвистических текстов для доступа к таблицам индексов словарей синонимов.The main connecting link of each stochastically indexed semantic structure represented by expression (1) is a verb that defines the semantics of relationships within a given structural scheme. The connection between different stochastically indexed semantic structures (1) that are included in different sentences is carried out if they have identical phrases, their synonyms, the repetition of the main words or the use in the second sentence of a pronoun corresponding to one of the phrases of the first sentence, as well as a pronoun in combination with the main word. Accordingly, sentences or parts of sentences are found in which the stochastically indexed semantic structure containing the indexed source data of the request is appropriately linked to the stochastically indexed semantic structure with indexed response data. At the same time, to determine the semantics of verbs, stochastic indices of their stems are accessed to the base (8) of stochastically indexed linguistic texts to access the synonym dictionary index tables.

Если первая и вторая структурные схемы связаны между собой словосочетанием, содержащим определяемую часть речи, а значения глаголов, связанные с данной частью речи, идентичны или синонимичны глаголам запроса и предполагаемого ответа, то указанные структурные схемы поступают в подсистему (5) эквивалентных преобразований текста. В подсистеме (5) производится преобразование двух указанных семантических структурных схем в единую стохастически индексированную семантическую структуру правила продукций, которая содержит условие, включающее запрос, и заключение (ответ). Указанная стохастически индексированная семантическая структура имеет в общем случае следующий вид:If the first and second structural schemes are interconnected by a phrase containing a definable part of speech, and the meanings of the verbs associated with this part of speech are identical or synonymous with the verbs of the request and the intended answer, then these structural schemes enter the subsystem (5) of equivalent text transformations. In subsystem (5), these two semantic structural schemes are transformed into a single stochastically indexed semantic structure of the production rule, which contains a condition that includes a request and a conclusion (response). The indicated stochastically indexed semantic structure has the following general form:

Figure 00000003
Figure 00000003

Figure 00000004
Figure 00000004

где I ξi(su) - является стохастическим индексом соответствующего словосочетанияwhere I ξi (su) - is the stochastic index of the corresponding phrase

I ξi(su) : (I ξi(u) I ξi(r) I ξi(z) ) → (I ξj(su) (I ξj(r) (I ξj(z) ) из выражения (1), а секвенция ⇒ истолковывается в обычном логическом смысле как знак логического следования заключения, находящегося в правой части выражения (2), из условия в левой части выражения (2), если все словосочетания условия являются истинными (соответствуют исходным данным запроса). Отметим, что корректность каждого правила обеспечивается при этом путем независимого формирования описанным выше порядком идентичных стохастически индексированных семантических структур (2) на основе нескольких фрагментов из соответствующих лингвистических текстов. I ξi (su) : (I ξi (u) I ξi (r) I ξi (z) ) → (I ξj (su) (I ξj (r) (I ξj (z) ) from expression (1), and the sequence ⇒ is interpreted in the usual logical sense as a sign of the logical following of the conclusion located on the right side of the expression (2) from the condition on the left side of the expression (2), if all the word combinations of the condition are true (correspond to the initial data of the query). the rule is ensured by independent formation of the identical stochastically indexed semantic structures (2) based on non how many fragments from the corresponding linguistic texts.

Каждое правило продукций, сформированное в подсистеме (5) эквивалентных преобразований в виде выражения (2), поступает в интерпретатор (4) стохастически индексированного текста и правил продукций, где осуществляют преобразование данного выражения (2) в текстовый формат правил продукций, представленный в виде "Если (условие), то (заключение)". Полученное правило в индексированном виде поступает в базу знаний (11) морфологического анализа. Порядок синтеза баз знаний, содержащих стохастически индексированные правила, будет описан ниже.Each production rule, formed in the subsystem (5) of equivalent transformations in the form of expression (2), enters the interpreter (4) of stochastically indexed text and production rules, where this expression (2) is converted to a text format of production rules, presented in the form " If (condition), then (conclusion). " The resulting rule is indexed into the knowledge base (11) of morphological analysis. The synthesis of knowledge bases containing stochastically indexed rules will be described below.

При формировании правил морфологического анализа текста одновременно с заполнением базы данных (7) стохастически индексированных словарей базового и новых слов первая стохастически индексированная семантическая структура (1) (структурная схема) содержит стохастические индексы основы слова, обозначающие часть речи и заданный набор его окончаний или предлогов. Вторая структурная схема (1) связывается с первой через идентичный индекс части речи и определяет полный набор окончаний, предлогов, вопросов, получаемых при склонении или спряжении данной части речи.When forming the rules for morphological analysis of the text simultaneously with filling in the database (7) of stochastically indexed dictionaries of the basic and new words, the first stochastically indexed semantic structure (1) (structural diagram) contains stochastic indices of the word’s base, indicating part of speech and a given set of its endings or prepositions. The second structural diagram (1) is associated with the first through an identical index of a part of speech and defines a complete set of endings, prepositions, questions obtained by declension or conjugation of a given part of speech.

Путем обращения описанным выше порядком к таблицам индексов словарей синонимов, соответствующих лингвистическим текстам базы (8) стохастически индексированных лингвистических текстов, определяют соответствие семантики глаголов первой и второй семантических структур запросу и предполагаемому ответу. Затем определяют словосочетание, связывающее первую и вторую структуры. При положительном результате две части указанного фрагмента текста поступают в подсистему (5) эквивалентных преобразований текста, затем в интерпретатор (4) стохастически индексированных текстов и правил продукций. В результате осуществляют преобразование данного фрагмента в формат правил продукций, представленный в виде "Если (условие), то (заключение)". При этом в условие правила входят индексы словосочетаний, связывающих часть речи и заданный набор окончаний слова или предлогов, расположенных в формате словаря и определяющих изменения словоформы при склонении или спряжении данного слова. Заключение содержит полный набор окончаний, предлогов и вопросов, получаемых при склонении или спряжении данного слова как соответствующей части речи. Сформированное правило продукций записывают в базу знаний (11) морфологического анализа. После завершения формирования правил, определяющих части речи, по команде подсистемы (3) управления режимом самообучения и извлечения знаний переходят к синтезу правил эквивалентных преобразований однокоренных слов. Здесь используется предварительно записанное в базу знаний (11) морфологического анализа общее правило преобразования частей речи, основанное на применении таблиц стохастически индексированного базового словаря и выборе соответствующих фрагментов лингвистических текстов, которые описывают порядок образования одной части речи на базе другой однокоренной части речи:By applying the procedure described above to the tables of indexes of dictionaries of synonyms corresponding to the linguistic texts of the base (8) of stochastically indexed linguistic texts, the correspondence of the semantics of the verbs of the first and second semantic structures to the query and the expected answer is determined. Then the phrase connecting the first and second structures is determined. If the result is positive, two parts of the indicated fragment of the text enter the subsystem (5) of equivalent text transformations, then to the interpreter (4) of stochastically indexed texts and production rules. As a result, this fragment is converted into a format of production rules, presented in the form "If (condition), then (conclusion)". In this case, the condition of the rule includes phrase indices connecting the part of speech and a given set of word endings or prepositions located in the dictionary format and determining the changes in the word form when this word is declined or conjugated. The conclusion contains a complete set of endings, prepositions and questions obtained by declension or conjugation of a given word as an appropriate part of speech. The generated production rule is recorded in the knowledge base (11) of morphological analysis. After completion of the formation of the rules that determine the parts of speech, at the command of the subsystem (3) for controlling the self-learning and knowledge extraction mode, they proceed to the synthesis of the rules for equivalent transformations of cognates. Here we use the general rule for transforming parts of speech, previously recorded in the knowledge base (11) of morphological analysis, based on the use of tables of a stochastically indexed basic dictionary and the selection of the corresponding fragments of linguistic texts that describe the formation order of one part of speech based on another one-root part of speech:

"Если требуется преобразовать одну часть речи в другую, " If you want to convert one part of speech into another,

то сначала выделяем основу первой части речи,first we highlight the basis of the first part of speech,

обращаемся к формату стохастически индексированного базового словаря,we turn to the format of a stochastically indexed basic dictionary,

ищем вторую часть речи, основа которой имеет общую часть, включающую корень (возможно два, возможно с приставкой, возможно с чередованием, добавлением, исключением отдельных гласных или согласных), с основой первой части речи,we are looking for the second part of speech, the basis of which has a common part, including the root (maybe two, possibly with a prefix, possibly with alternation, addition, with the exception of individual vowels or consonants), with the basis of the first part of speech,

после выделения корня, используя основу этих частей речи, выделяем их суффиксы,after highlighting the root, using the basis of these parts of speech, select their suffixes,

затем, путем обращения по стохастическим индексам основ слов частей речи к таблицам индексов лингвистических текстов выбираем фрагмент, в котором описан соответствующий способ преобразования одной части речи в другую, и проверяем по формату словаря, каким способом образована основа второй части речи по отношению к основе первой (заменой, отбрасыванием, прибавлением суффиксов),then, by referring to stochastic indices of the basics of words of parts of speech to tables of indices of linguistic texts, we select a fragment that describes the corresponding method of converting one part of speech to another, and check according to the format of the dictionary how the basis of the second part of speech is formed in relation to the basis of the first ( replacing, discarding, adding suffixes),

далее определяем, соответствует ли данный способ замены части речи требуемому способу образования второй части речи из первой части речи,then we determine whether this method of replacing a part of speech corresponds to the required method of forming a second part of speech from the first part of speech,

в положительном случае принимаем вторую часть речи в качестве вновь образованной".in the positive case, we accept the second part of speech as newly formed. "

В процессе преобразования конкретных слов с использованием общего правила на его основе формируется соответствующее частное правило с указанием преобразуемых частей речи, суффиксов и способа образования одной части речи из другой. Это происходит в интерпретаторе (4) стохастически индексированных текстов и правил продукций и в подсистеме (5) эквивалентных преобразований текста. Описанным выше порядком осуществляют преобразование данного фрагмента сначала в единую стохастически индексированную семантическую структуру правила продукций (2), а затем в формат правил продукций, представленный в виде "Если (условие), то (заключение)". Эти правила после стохастического индексирования заносятся в базу знаний (11) морфологического анализа.In the process of converting specific words using a general rule, an appropriate particular rule is formed on its basis, indicating the transformed parts of speech, suffixes and the method of forming one part of speech from another. This occurs in the interpreter (4) of stochastically indexed texts and production rules and in the subsystem (5) of equivalent text transformations. By the above-described procedure, this fragment is converted first into a single stochastically indexed semantic structure of the production rule (2), and then into the format of production rules presented in the form "If (condition), then (conclusion)". After stochastic indexing, these rules are entered into the knowledge base (11) of morphological analysis.

Если при индексировании очередного текстового документа появляется новое слово, основа которого не содержится в базовом словаре, то переходят к процедуре определения части речи нового слова и его окончаний при склонении или спряжении.If, when indexing the next text document, a new word appears, the basis of which is not contained in the base dictionary, then they proceed to the procedure for determining the part of speech of a new word and its endings when declension or conjugation.

Для начала процесса определения, к какой части речи относится новое слово, выделяют из текста не менее двух различных словоформ этого слова, путем их сравнения определяют неизменяемую часть, которая предположительно является основой нового слова, и его окончание. После этого определяют, есть ли в формате базового словаря слова, имеющие общий корень (возможно с приставкой) с новым словом. Корнем является общая, нечленимая часть основ родственных слов (содержащая не менее двух букв, включая одну гласную), которую при добавлении приставок, суффиксов и окончаний используют для образования однокоренных частей речи. В соответствии с этим выделение общего корня производят путем сравнения основы нового слова и основ слов из формата базового словаря до тех пор, пока не найдут общую неделимую часть двух сравниваемых основ - нового слова и очередного слова из базового словаря.To begin the process of determining which part of speech a new word refers to, at least two different word forms of this word are extracted from the text, by comparing them, the unchanging part, which is supposedly the basis of the new word, and its end are determined. After that, it is determined whether the words in the basic dictionary format have a common root (possibly with a prefix) with the new word. The root is the common, indivisible part of the basics of related words (containing at least two letters, including one vowel), which, when adding prefixes, suffixes and endings, is used to form one-root parts of speech. In accordance with this, a common root is extracted by comparing the foundations of a new word and the foundations of words from the format of the basic dictionary until they find the common indivisible part of the two compared bases - the new word and the next word from the basic dictionary.

После этого производят обращение к базе знаний (12) морфологического анализа для выбора правила, позволяющего определить, к какой части речи относится новое слово. С этой целью используют соответствующее правило эквивалентных преобразований.After that, a reference is made to the knowledge base (12) of morphological analysis to select a rule that allows you to determine which part of the speech a new word refers to. For this purpose, use the corresponding rule of equivalent transformations.

Чтобы использовать правила эквивалентных преобразований для определения части речи нового слова, полагают, что вторая часть речи в общем правиле эквивалентных преобразований, приведенном выше, относится к новому слову и является неизвестной, при этом первая часть речи, имеющая с ним общий корень, найдена в базовом словаре и поэтому известна. Затем проверяют, возможно ли с помощью преобразований, описанных в правиле, получить из основы известной части речи основу нового слова, часть речи которого неизвестна. При этом используется семейство конкретных правил, полученных на основе общего правила и содержащихся в базе знаний (12) морфологического анализа, которые позволяют преобразовать известную (первую) часть речи в другие части речи. Если в результате использования одного из правил удастся получить основу нового слова, то часть речи, к которой оно относится, станет известной - оно будет соответствовать второй части речи, указанной в правиле. При этом с использованием правил продукций базы знаний (12) морфологического анализа можно более подробно определить характеристики каждой части речи. Например, если при морфологическом анализе текстов на русском языке правила базы знаний (12) морфологического анализа позволяют определить не только часть речи нового слова, но и окончание имени (сущ., прил.) в им.п., ед.ч., то, следовательно, они дают возможность уточнить, к какому типу склонения (1, 2, 3) относится новое слово. Для имен существительных, прилагательных, порядковых числительных, некоторых видов местоимений, а также причастий это позволяет точно определить полный набор их окончаний, получаемых при склонении. В данном случае для указанных частей речи достаточно найти в формате словаря соответствующее им слово, имеющее в им.п. ед.ч. такое же окончание, как в новом слове. Полный набор окончаний указанных частей речи будет соответствовать набору окончаний нового слова, которые записывают в формат словаря новых слов вместе с его основой. После этого формируют стохастический индекс основы, а все полученные характеристики нового слова записывают в формат словаря новых слов.In order to use the rules of equivalent transformations to determine the part of speech of a new word, it is believed that the second part of speech in the general rule of equivalent transformations above refers to a new word and is unknown, while the first part of speech having a common root with it is found in the base dictionary and therefore known. Then they check whether it is possible, using the transformations described in the rule, to obtain from the basis of a known part of speech the basis of a new word whose part of speech is unknown. In this case, a family of specific rules is used, obtained on the basis of a general rule and contained in the knowledge base (12) of morphological analysis, which allows you to convert a known (first) part of speech into other parts of speech. If as a result of using one of the rules it is possible to obtain the basis of a new word, the part of the speech to which it refers will become known - it will correspond to the second part of the speech indicated in the rule. Moreover, using the rules of production of the knowledge base (12) of morphological analysis, it is possible to determine in more detail the characteristics of each part of speech. For example, if in the morphological analysis of texts in Russian, the rules of the knowledge base (12) of morphological analysis allow us to determine not only the part of the speech of a new word, but also the end of the name (noun, adj.) In the im.p., singular, then therefore, they provide an opportunity to clarify what type of declension (1, 2, 3) a new word refers to. For nouns, adjectives, ordinal numbers, some types of pronouns, as well as participles, this allows you to accurately determine the complete set of their endings obtained by declension. In this case, for the indicated parts of speech, it is enough to find the corresponding word in the dictionary format, which has in im. unit the same ending as in the new word. A complete set of endings of these parts of speech will correspond to a set of endings of a new word, which are written in the format of the dictionary of new words along with its basis. After that, the stochastic index of the base is formed, and all the obtained characteristics of the new word are recorded in the format of the dictionary of new words.

Если новое слово является глаголом, то после выделения его основы описанным выше порядком и обращения к базе знаний (12) морфологического анализа с помощью соответствующего правила определяют его часть речи и находят инфинитив. По суффиксу данного инфинитива (-ть или -ти), обращаясь к формату базового словаря, находят глагол, который имеет в неопределенной форме такой же суффикс (-ть или -ти). При этом полный набор окончаний данного глагола, полученных после его спряжения и записанных в формате словаря, предположительно выбирают в качестве полного набора окончаний нового глагола. Для более точного определения, к какому типу спряжения (1, 2) относится данный глагол и, соответственно, для уточнения полного набора его окончаний в процессе индексирования текста находят предложение, в котором данный глагол представлен в форме 3-его л. мн.ч. Для этого находят предложение, в котором есть подлежащее, выраженное существительным (местоимением) во мн.ч., которое координирует со сказуемым, выраженным данным глаголом с личным окончанием -ут/-ют (1 спряжение) или -ат/-ят (2 спряжение). По личному окончанию отмеченного глагола в формате базового словаря находят глагол, имеющий идентичное с ним окончание в 3-ем л. мн.ч. При этом полный набор окончаний данного глагола принимают в качестве полного набора окончаний нового глагола и записывают вместе с его основой в формат словаря новых слов. После получения стохастического индекса основы нового глагола всю указанную информацию записывают в формат словаря новых слов.If the new word is a verb, then after highlighting its foundation as described above and referring to the knowledge base (12) of morphological analysis, using the appropriate rule, determine its part of speech and find the infinitive. By the suffix of this infinitive (-ty or -ty), referring to the format of the basic dictionary, they find a verb that has the same suffix (-ty or -ty) in undefined form . In this case, the complete set of endings of a given verb, obtained after its conjugation and recorded in the dictionary format, is presumably selected as the complete set of endings of the new verb. For a more accurate determination of what type of conjugation (1, 2) this verb belongs and, accordingly, to clarify the complete set of its endings in the process of indexing the text, they find a sentence in which this verb is presented in the form of 3rd L. plural To do this, find a sentence in which there is a subject expressed by a noun (pronoun) in plural, which coordinates with the predicate, expressed by this verb with a personal ending -ut / -yut (1 conjugation) or -at / -yat (2 conjugation ) By the personal ending of the marked verb in the format of the basic dictionary, the verb is found having the same ending in it in 3rd L. plural In this case, the complete set of endings of a given verb is taken as a complete set of endings of a new verb and recorded together with its basis in the format of a dictionary of new words. After receiving the stochastic index of the basis of the new verb, all of the specified information is recorded in the format of the dictionary of new words.

В процессе индексирования текста при появлении различных словоформ новых слов, не содержащихся в базе данных (7) стохастически индексированных словарей базового и новых слов, путем сравнения указанных словоформ в подсистеме (2) стохастического индексирования текстовых документов и выделения фрагментов текстов осуществляют выделение основы нового слова и определенного набора его окончаний. Затем формируют стохастический индекс основы нового слова и вместе с его окончаниями заносят в формат словаря новых слов базы данных (7) стохастически индексированных словарей базового и новых слов. После обработки заданного набора словоформ данного слова и соответственно заполнения формата словаря с различными видами его окончаний производят обращение к таблице индексированного базового словаря. Данный словарь после заполнения содержит индексы и основы общеупотребительных слов, а также все виды окончаний различных частей речи и их типов, относящихся к данному слову, которые получены при его склонении или спряжении с указанием характеристик частей речи. Запрос к словарю содержит стохастический индекс основы данного слова, саму основу, а также все виды окончаний, которые имели словоформы этого слова при обработке текстовых документов. В базе данных (7) стохастически индексированных словарей базового и новых слов по окончаниям данного слова, используя формат словаря, находится слово, имеющее такие же окончания среди полного набора окончаний. Это означает, что новое слово относится к такой же части речи, как и слово в словаре, имеющее идентичные окончания. После определения части речи, к которой относится новое слово, всю информацию, входящую в запрос, заносят в словарь новых слов в установленном формате. Одновременно с этим в интерпретаторе (4) стохастически индексированных текстов и правил продукций и в подсистеме (5) эквивалентных преобразований текста описанным выше порядком осуществляют преобразование данного фрагмента сначала в единую стохастически индексированную семантическую структуру (2) правила продукций, а затем в формат правил продукций, представленный в виде "Если (условие), то (заключение)".In the process of indexing the text when various word forms of new words that are not contained in the database (7) of stochastically indexed dictionaries of the base and new words appear, by comparing the indicated word forms in the subsystem (2) of stochastic indexing of text documents and extracting text fragments, the basis of the new word is selected and a specific set of its endings. Then, a stochastic index of the basis of the new word is formed and, together with its endings, it is entered into the dictionary format of the new words in the database (7) of stochastically indexed dictionaries of the base and new words. After processing a given set of word forms of a given word and, accordingly, filling out a dictionary format with various types of its endings, an appeal is made to the indexed base dictionary table. This dictionary after filling contains the indices and foundations of commonly used words, as well as all kinds of endings of various parts of speech and their types related to this word, which are obtained by declining or conjugating with the characteristics of parts of speech. The query to the dictionary contains the stochastic index of the stem of the given word, the stem itself, as well as all kinds of endings that had word forms of this word when processing text documents. In the database (7) of stochastically indexed dictionaries of the base and new words at the endings of a given word, using the dictionary format, there is a word having the same endings among a complete set of endings. This means that the new word refers to the same part of speech as the word in the dictionary with identical endings. After determining the part of speech to which the new word belongs, all the information included in the request is entered into the dictionary of new words in the established format. At the same time, in the interpreter (4) of stochastically indexed texts and production rules and in the subsystem (5) of equivalent text transformations as described above, this fragment is converted first into a single stochastically indexed semantic structure (2) production rules, and then into the production rules format, presented in the form "If (condition), then (conclusion)".

В результате формируется правило продукций, в условие которого входит заданный набор окончаний данного слова, а заключение содержит наименование части речи данного слова, имеющего приведенные в условии окончания, а также расположенный в формате словаря полный набор окончаний, которые определяют изменения словоформы при склонении или спряжении данного слова. Кроме этого в заключении содержатся вопросы к словоформам данной части речи при ее склонении или спряжении, которые расположены в порядке, определяемом форматом словаря.As a result, a production rule is formed, the condition of which includes a given set of endings for a given word, and the conclusion contains the name of the speech part of a given word having the endings given in the condition, as well as a complete set of endings located in the dictionary format that determine changes in the word form when this the words. In addition, the conclusion contains questions about the word forms of a given part of speech when it is declined or conjugated, which are arranged in the order determined by the format of the dictionary.

Таким образом, в процессе обработки текстов, содержащих новые слова, которые представлены в своих различных словоформах, производится автоматическое определение их части речи, заполнение формата словаря новых слов в базе данных (7) стохастически индексированных словарей базового и новых слов, а также обучение системы правилам морфологического анализа. Эти правила заносятся в базу знаний (12) морфологического анализа. По мере заполнения базы знаний (12) и ее стохастического индексирования описанным ниже порядком она наряду с форматом стохастически индексированного базового словаря используется для определения, к какой части речи относится новое слово и его характеристики, если оно не содержится в формате словаря новых слов.Thus, in the process of processing texts containing new words that are presented in their various word forms, they automatically determine their part of speech, fill out the dictionary format for new words in the database (7) of stochastically indexed dictionaries of the base and new words, and also teach the system rules morphological analysis. These rules are entered into the knowledge base (12) of morphological analysis. As the knowledge base (12) is filled and its stochastic indexing is described below, along with the format of the stochastically indexed basic dictionary, it is used to determine which part of the speech the new word and its characteristics belong to if it is not contained in the new word dictionary format.

После завершения морфологического анализа и стохастического индексирования лингвистических текстов, формирования базы знаний (12) морфологического анализа, базы (8) стохастически индексированных лингвистических текстов, а также базы (7) стохастически индексированных словарей базового и новых слов переходят к стохастическому индексированию текстов по заданной теме с одновременным автоматическим обучением системы правилам синтаксического анализа.After completion of morphological analysis and stochastic indexing of linguistic texts, formation of a knowledge base (12) of morphological analysis, base (8) of stochastically indexed linguistic texts, and also base (7) of stochastically indexed dictionaries of the base and new words, they pass to stochastic indexing of texts on a given topic with simultaneous automatic training of the system for the rules of parsing.

Автоматическое обучение системы правилам синтаксического анализа осуществляется по команде подсистемы (3) управления режимом самообучения и извлечения знаний путем поиска в базе (8) стохастически индексированных лингвистических текстов фрагментов, определяющего порядок синтаксического разбора предложений. Сначала описанным выше порядком производят преобразование данных фрагментов в набор стохастически индексированных семантических структур правил продукций, имеющих в общем случае вид выражения (2).The system is automatically taught the rules of parsing by the command of the subsystem (3) for managing the self-learning and knowledge extraction mode by searching the database (8) for stochastically indexed linguistic texts of fragments that determines the order of parsing sentences. First, the above-described order converts these fragments into a set of stochastically indexed semantic structures of production rules, which in the general case are of the form of expression (2).

После этого в подсистеме (6) логического вывода с использованием полученных стохастически индексированных семантических структур (2) правил продукций, которые описывают порядок синтаксического разбора предложений, реализуется логический вывод для получения стохастически индексированных семантических структур новых правил продукций. Эти семантические структуры связывают синтаксические элементы с заданными частями речи при формировании правил продукций, определяющих синтаксический разбор предложений по морфологическим характеристикам слов. Полученные правила заносят в базу знаний (12) синтаксического анализа, по мере заполнения которой происходит ее стохастическое индексирование и представление в виде таблицы индекса.After that, in the inference subsystem (6) using the obtained stochastically indexed semantic structures (2) production rules, which describe the order of parsing sentences, the logical conclusion is implemented to obtain stochastically indexed semantic structures of the new production rules. These semantic structures associate syntactic elements with predetermined parts of speech during the formation of production rules that determine the parsing of sentences according to the morphological characteristics of words. The obtained rules are entered into the knowledge base (12) of parsing, as it is filled, it is stochastically indexed and presented in the form of an index table.

Как было отмечено выше, проведение синтаксического разбора текста начинается с определения порядка его реализации, который описан в учебно-методических текстовых документах по грамматике данного языка. При этом для извлечения из указанных текстов знаний, определяющих порядок синтаксического разбора, подсистемой (3) управления режимом самообучения и извлечения знаний первоначально формируется запрос к базе (8) стохастически индексированных лингвистических текстов для доступа к таблицам индексов учебно-методических текстов. По этому запросу, содержащему фразу "Порядок синтаксического разбора" на данном языке, в указанных текстах будут найдены абзацы, которые включают данную фразу и термины, определяющие последовательность проведения данного разбора.As noted above, the parsing of the text begins with determining the order of its implementation, which is described in educational and methodical text documents on the grammar of this language. In this case, to extract knowledge from these texts that determine the order of parsing, the subsystem (3) for controlling the self-learning mode and the extraction of knowledge initially forms a request to the database (8) of stochastically indexed linguistic texts for accessing the index tables of educational and methodical texts. For this query containing the phrase "Procedure for parsing" in a given language, paragraphs that include this phrase and terms that determine the sequence of this parsing will be found in the indicated texts.

После обработки описанным выше порядком фрагмента текста, полученного из соответствующих учебно-методических изданий, для русского языка, например, может быть сформировано следующее правило продукций: "Если необходимо провести синтаксический разбор предложения, то его порядок будет следующим: словосочетание (сочинительная или подчинительная связь), простое предложение (подлежащее, сказуемое, определение, дополнение, обстоятельство), вид простого предложения (повествовательное, вопросительное, побудительное), строение предложения (двусоставное или односоставное, нераспространенное или распространенное), сказуемое (простое, составное глагольное, составное именное), предложение с однородными членами, предложение с обособленными членами, предложение с прямой речью, сложносочиненное предложение, сложноподчиненное предложение с одним придаточным, сложноподчиненное предложение с несколькими придаточными, бессоюзное сложное предложение, сложное предложение с разными видами связи". После формирования этого правила в виде выражения (2) на основе индексов {I ξi(su) } словосочетаний формируется стохастический индекс самого правила продукций I ξi(рр) в виде уникальной двоичной комбинации заданной длины:After processing, as described above, a fragment of the text obtained from the corresponding educational and methodical publications for the Russian language, for example, the following production rule can be formed: “If you need to parse the sentence, its order will be as follows: phrase (composing or subordinate connection) , simple sentence (subject, predicate, definition, addition, circumstance), type of simple sentence (narrative, interrogative, incentive), sentence structure (two compound or one-compound, not widespread or widespread), predicate (simple, compound verb, compound nominal), sentence with homogeneous members, sentence with separate members, sentence with direct speech, compound sentence, compound sentence with one subordinate clause, compound sentence with several subordinate clauses, an all-union compound sentence, a complex sentence with different types of communication. " After the formation of this rule in the form of expression (2) based on the indices {I ξi (su) } of phrases, the stochastic index of the production rule I ξi (pp) is formed in the form of a unique binary combination of a given length:

Figure 00000005
Figure 00000005

где F - функция стохастического преобразования правила продукций.where F is the stochastic transformation function of the production rule.

Затем производится поочередное раскрытие содержания каждого из терминов, приведенных в заключение правила продукций (3), путем формирования соответствующих запросов к базе (8) стохастически индексированных лингвистических текстов. В результате будет сформировано множество правил {I ξij(рр) }, определяющих каждый из синтаксических терминов, которые содержатся в правиле I ξi(рр). При этом с использованием связей между правилами продукций, включающих в условие или в заключение идентичные синтаксические термины, в подсистеме (6) реализуется логический вывод. В результате будет сформирована следующая последовательность логической связи правил продукций:Then, the contents of each of the terms given in the conclusion of the production rule (3) are disclosed one by one by generating the corresponding queries to the database (8) of stochastically indexed linguistic texts. As a result, a set of rules {I ξij (pp) } will be generated that define each of the syntactic terms that are contained in the rule I ξi (pp) . In this case, using the relationships between the production rules, which include identical syntactic terms in the condition or in conclusion, a logical conclusion is realized in subsystem (6). As a result, the following sequence of logical relationships between production rules will be formed:

Figure 00000006
Figure 00000006

Здесь индексы {I ξij(рр) } обозначают набор правил, соответствующих определенному уровню синтаксического разбора, который задан в правиле I ξi(рр). Например, это может быть словосочетание (сочинительная или подчинительная связь), простое предложение (подлежащее, сказуемое, определение, дополнение, обстоятельство), вид простого предложения (повествовательное, вопросительное, побудительное) и др.Here, the indices {I ξij (pp) } denote the set of rules corresponding to a certain level of parsing, which is specified in the rule I ξi (pp) . For example, it can be a phrase (composing or subordinate connection), simple sentence (subject, predicate, definition, addition, circumstance), type of simple sentence (narrative, interrogative, incentive), etc.

Таким образом, в системе реализуется дедуктивный логический вывод, цель которого - связать синтаксические термины с определенными частями речи слов, их характеристиками и провести последовательный синтаксический анализ согласно приведенному выше правилу. Например, для русского языка в процессе указанного логического вывода для термина "подлежащее" может быть найден следующий фрагмент текста: "Подлежащее в предложении может быть выражено следующими словами: существительным в им.п., местоимением в им.п., инфинитивом, цельным словосочетанием". Полученный фрагмент текста поступает в интерпретатор (4), подсистему (5) эквивалентных преобразований текстов и подсистему (6) логического вывода. В результате описанных выше преобразований с использованием выражения (2) получим набор правил продукций, связывающих морфологические характеристики слов с наименованиями членов предложения:Thus, a deductive inference is implemented in the system, the purpose of which is to associate syntactic terms with certain parts of speech of words, their characteristics and conduct sequential parsing in accordance with the above rule. For example, for the Russian language in the process of the indicated logical conclusion for the term “subject” the following text fragment can be found: “The subject in the sentence can be expressed by the following words: noun in the im.p., pronoun in the im.p., infinitive, whole phrase " The resulting fragment of the text enters the interpreter (4), the subsystem (5) of the equivalent text transformations and the subsystem (6) of the logical inference. As a result of the above transformations using expression (2), we obtain a set of production rules that connect the morphological characteristics of words with the names of the sentence members:

"Если в предложении есть слово, являющееся существительным в им.п., то это слово предположительно является подлежащим".“If the sentence contains a word that is a noun in the im.p., then this word is presumably a subject.”

"Если в предложении есть слово, являющееся местоимением в им.п., то это слово предположительно является подлежащим"."If the sentence contains a word that is a pronoun in the im.p., then this word is presumably a subject."

"Если в предложении есть слово, являющееся инфинитивом, то это слово предположительно является подлежащим"."If the sentence has a word that is an infinitive, then that word is supposedly subject."

"Если в предложении есть слова, относящиеся к цельному словосочетанию, то эти слова предположительно являются подлежащим"."If the sentence contains words related to the whole phrase, then these words are presumably subject."

В процессе извлечения фрагментов текстов для формирования правил продукций, определяющих словосочетания и отдельные члены предложения, в качестве исходной информации являются морфологические характеристики слов предложения. По этим исходным данным выделяются фрагменты текста, в которых указанные данные посредством идентичных словосочетаний связаны с предполагаемым ответом, имеющим наименование члена предложения. Эти словосочетания соответствуют слову с исходными морфологическими характеристиками.In the process of extracting text fragments to form production rules that define phrases and individual sentence members, the morphological characteristics of the sentence words are used as initial information. Based on these initial data, fragments of the text are distinguished in which the indicated data are connected by identical phrases with the proposed answer, which has the name of the sentence member. These phrases correspond to a word with initial morphological characteristics.

Поэтому отмеченный фрагмент текста, определяющий связь между словом с данными морфологическими характеристиками и членом предложения, может быть переведен в стохастически индексированную семантическую структуру (2) с обеспечением описанным выше порядком ее корректности. Затем стохастически индексированная семантическая структура (2) будет представлена в формате правила продукций: "Если (условие), то (заключение)". Указанная процедура осуществляется с использованием интерпретатора (4), подсистемы (5) эквивалентных преобразований текста и правил продукций. При этом в условие правила включаются исходные морфологические характеристики слова, а заключение содержит соответствующее указанному слову наименование члена предложения и вопрос, который ему соответствует.Therefore, the marked fragment of the text that defines the relationship between the word with the given morphological characteristics and the sentence member can be translated into a stochastically indexed semantic structure (2) with the provision of the order of its correctness described above. Then, the stochastically indexed semantic structure (2) will be presented in the format of the production rule: "If (condition), then (conclusion)". The specified procedure is carried out using the interpreter (4), subsystem (5) of equivalent text transformations and production rules. In this case, the initial morphological characteristics of the word are included in the rule condition, and the conclusion contains the name of the sentence member and the question that corresponds to it.

В результате будут образованы правила продукций для определения главных членов предложения (подлежащее и сказуемое), второстепенных членов предложения (определение, дополнение, обстоятельство), а также образуемых ими словосочетаний. При определении сказуемого указывается, к какому типу оно относится: простое глагольное, составное глагольное, составное именное. Прежде всего определяется предикативная основа предложения, в котором координируют подлежащее и сказуемое, а также другие словосочетания и соответствующие им виды отношений. Они включают подлежащее и определение, сказуемое и дополнение, сказуемое и обстоятельство и т.д.As a result, production rules will be formed to determine the main members of the proposal (subject and predicate), secondary members of the proposal (definition, addition, circumstance), as well as the phrases they form. When defining a predicate, it is indicated what type it belongs to: simple verb, compound verb, compound nominal. First of all, the predicative basis of the sentence is determined, in which the subject and predicate are coordinated, as well as other phrases and the corresponding types of relations. They include subject and definition, predicate and complement, predicate and circumstance, etc.

Таким образом, в процессе обработки текстовой информации при синтаксическом разборе предложения происходит самообучение системы правилам определения главных и второстепенных членов предложения. Полученные при этом правила заносятся в базу знаний (13) синтаксического анализа. Затем в соответствии с порядком синтаксического разбора начинается самообучение системы правилам определения обособленных членов предложения. Исходными данными здесь являются части речи, члены предложения и их характеристики, которые после преобразования текста входят в условия правил продукций. Заключения этих правил определяют вид группы обособленных членов, наименование члена предложения и вопрос, которым они соответствуют.Thus, in the process of processing textual information during parsing of a sentence, the system self-learns the rules for determining the main and secondary members of a sentence. The rules thus obtained are entered into the knowledge base (13) of parsing. Then, in accordance with the order of the parsing, self-study of the system begins with the rules for determining separate members of a sentence. The initial data here are the parts of speech, the members of the sentence and their characteristics, which, after the conversion of the text, enter the conditions of the rules of production. The conclusions of these rules determine the type of group of separate members, the name of the member of the proposal and the question to which they correspond.

Таким образом, описывают обособленные согласованные определения (причастные обороты, прилагательные с зависимыми словами), обособленные несогласованные определения, обособленные приложения, обособленные дополнения, обособленные обстоятельства и др., включая соответствующие им вопросы.Thus, they describe separate agreed definitions (participles, adjectives with dependent words), isolated inconsistent definitions, isolated appendices, separate additions, isolated circumstances, etc., including questions related to them.

После этого в режиме самообучения происходит формирование правил продукций, позволяющих производить разбор простого предложения на основе исходных данных, определяющих, какими членами предложений являются слова, которые входят в данное предложение, какие словосочетания и обособленные группы членов предложения они образуют. В результате будут получены правила продукций, позволяющие определить, является ли данное предложение двусоставным или односоставным (если односоставное, то к какому типу относится - неопределенно-личное, безличное, назывное и др.). При этом выделяются предложения с однородными членами, с обособленными членами предложения, с прямой речью.After that, in self-learning mode, production rules are formed that allow you to parse a simple sentence on the basis of the source data that determines which members of the sentences are the words that are included in this sentence, which phrases and separate groups of sentence members they form. As a result, production rules will be obtained that allow one to determine whether a given proposal is two-part or one-part (if it is one-part, then to which type it refers - indefinitely personal, impersonal, callative, etc.). In this case, sentences with homogeneous members, with separate members of the proposal, with direct speech are highlighted.

Затем на основе выделяемых фрагментов текста формируются правила продукций для синтаксического разбора сложных предложений. Исходными данными, входящими в условия правил продукций, здесь являются типы и характеристики простых предложений, которые входят в состав сложных предложений. При этом заключения правил позволяют определить, к какому типу относится данное сложное предложение: сложносочиненное предложение, сложноподчиненное предложение с одним придаточным, сложноподчиненное предложение с несколькими придаточными, бессоюзное сложное предложение, сложное предложение с разными видами связей. В заключение правил также определено, какой вопрос соответствует каждому из простых предложений в составе данного сложного предложения.Then, based on the selected fragments of the text, production rules are formed for the parsing of complex sentences. The initial data included in the terms of the rules of production, here are the types and characteristics of simple offers that are part of complex offers. Moreover, the conclusions of the rules make it possible to determine the type of the given complex sentence: the compound sentence, the compound sentence with one subordinate clause, the compound sentence with several subordinate clauses, the unionless compound sentence, the complex sentence with different types of relations. In conclusion, the rules also determine which question corresponds to each of the simple sentences in this complex sentence.

Все описанные уровни формирования правил продукций соответствуют схеме разбора предложения, формируемой в начале режима самообучения по команде подсистемы (3) управления режимом самообучения и извлечения знаний в виде логического выражения (4).All described levels of formation of production rules correspond to a sentence parsing scheme formed at the beginning of the self-learning mode by the command of the subsystem (3) for managing the self-learning mode and extracting knowledge in the form of a logical expression (4).

В результате реализации режима самообучения полученные правила продукций записываются в базу знаний (13) синтаксического анализа. Отметим, что самообучение системы правилам синтаксического разбора предложений производится непосредственно в процессе обработки исходных текстов по заданной теме путем анализа каждого предложения. Указанный анализ позволяет заполнить уровни пять-десять фрейма каждого предложения текста, который в свою очередь используется для заполнения таблицы индексов данного текста (Таблица 2) и описанных выше списков, составляющих содержание каждой его ячейки.As a result of the implementation of the self-learning mode, the obtained production rules are recorded in the knowledge base (13) of parsing. Note that the system’s self-study of the rules for parsing sentences is performed directly in the process of processing source texts on a given topic by analyzing each sentence. This analysis allows you to fill in the levels of five to ten frames of each sentence of the text, which in turn is used to populate the index table of the text (Table 2) and the lists described above that make up the contents of each of its cells.

По мере заполнения базы знаний синтаксического анализа происходит ее стохастическое индексирование и представление в форме таблицы индекса. Это существенно повышает эффективность разбора предложений за счет произвольного доступа по индексам условия, соответствующего правилам продукций, для получения искомого результата.As the parsing knowledge base is filled, it is stochastically indexed and presented in the form of an index table. This significantly increases the efficiency of the analysis of proposals due to random access by condition indices corresponding to the production rules to obtain the desired result.

Рассмотрим более подробно порядок стохастического индексирования баз знаний и их использования в процессе грамматического разбора предложений.Let us consider in more detail the order of stochastic indexing of knowledge bases and their use in the process of grammatical analysis of sentences.

После получения завершенного текста базы знаний в виде набора правил продукций, представленных в виде стохастически индексированного текста в формате "Если (условие), то (заключение)", каждое правило продукций поступает в интерпретатор (4) стохастически индексированных текстов и правил продукций. Здесь повторно формируют стохастически индексированную семантическую структуру (2), которая содержит совокупность всех словосочетаний данного правила:After receiving the completed text of the knowledge base in the form of a set of production rules presented in the form of stochastically indexed text in the format “If (condition), then (conclusion)”, each production rule enters the interpreter (4) of stochastically indexed texts and production rules. Here, a stochastically indexed semantic structure (2) is re-formed, which contains the totality of all phrases of this rule:

Figure 00000007
Figure 00000007

При этом каждому словосочетанию ставится в соответствие индекс I ξi(su) : In addition, each phrase is associated with the index I ξi (su) :

Figure 00000008
Figure 00000008

затем на основе этих индексов формируются уникальные стохастические индексы каждого правила продукций I ξi(рр) в соответствии с выражением (3).then, based on these indices, unique stochastic indices of each production rule I ξi (pp) are formed in accordance with expression (3).

Далее производится формирование таблицы индекса для данной базы знаний в текстовом виде подобно тому, как индексируются обычные текстовые документы. При этом в качестве абзаца принимается правило продукций с индексом (I ξi(рр) ). В соответствии с этим входом в таблицу индекса правил продукций является строка, содержащая {I ξi(u) } основ слов словаря правил продукций (множества неповторяющихся основ слов, входящих в состав правил продукций). Каждая ячейка строки, соответствующей определенному индексу (I ξi(u) ), содержит индекс I ξi(su) словосочетания и индекс (I ξi(рр) ) правила, который включает данное слово, окончание и номер этого слова в составе правила продукций, а также индексы (I ξi-1(u) ) и (I ξi+1(u) ), соответственно, предыдущего и последующего слова в данном правиле. Это позволяет, как и для случая с текстовыми документами, сформировать на основе индекса текст любого правила продукций. При этом выражениеNext, the index table is generated for this knowledge base in text form, similar to how regular text documents are indexed. Moreover, the production rule with the index (I ξi (pp) ) is adopted as a paragraph . In accordance with this entry in the table of production rules index is a row containing {I ξi (u) } the basis of the words of the dictionary of production rules (the set of non-repeating bases of words that are part of the production rules). Each cell of the row corresponding to a specific index (I ξi (u) ) contains the index I ξi (su) of the phrase and the index (I ξi (pp) ) of the rule, which includes the given word, the ending and the number of this word as part of the production rule, and also the indices (I ξi-1 (u) ) and (I ξi + 1 (u) ) , respectively, of the previous and next words in this rule. This allows, as for the case with text documents, to form the text of any production rule based on the index. In this case, the expression

Figure 00000009
Figure 00000009

записывается в виде строки таблицы базы (15) стохастически индексированных словосочетаний.is written as a row in the table of the base (15) of stochastically indexed phrases.

Исходные данные для обращения к индексу текста правил продукций извлекаются из фрейма разбираемого предложения. Как было представлено выше, данный фрейм после морфологического анализа содержит четыре уровня строк, включающих, соответственно, индексы основ слов {I ξi(u) }, слова в контексте предложения, части речи и характеристики, соответствующие данным словам, и вопросы к ним. Именно эта информация в разных сочетаниях входит в условия правил продукций и позволяет на основе логического вывода делать заключение, к какому члену предложения (точно или неточно) относится данная часть речи. При этом обращение к таблице индексов правил продукций производится по индексам основ слов {I ξi(u) } фрейма предложения, а также по значениям {I ξi(su) } словосочетаний условий или заключений правил.The source data for accessing the index of the text of production rules is extracted from the frame of the parsed offer. As was presented above, this frame after morphological analysis contains four line levels, which include, respectively, indices of the stems of the words {I ξi (u) } , words in the context of the sentence, parts of speech and characteristics corresponding to these words, and questions to them. It is this information in various combinations that is part of the conditions of production rules and allows, based on a logical conclusion, to conclude which member of the sentence (accurately or inaccurately) this part of speech belongs. In this case, a reference to the table of indexes of production rules is made by the indices of the foundations of words {I ξi (u) } of the sentence frame, as well as by the values of {I ξi (su) } of phrases of terms or conclusions of the rules.

Для реализации функций логического вывода с помощью правил продукций применяется интерпретатор (4) стохастически индексированного текста и правил продукций. В результате правило продукций преобразуется в вид (2) стохастически индексированной семантической структуры. При этом по словосочетаниям (I ξi(su) ) условий правил продукций (после обращения по индексам I ξi(su) к базе (15) стохатически индексированных словосочетаний и определения стохастических индексов {I ξi(u) } основ слов данного словосочетания) может производиться поиск соответствующих ячеек фрейма предложения и считывание из них наименований слов, характеристик частей речи или вопросов к ним. По словосочетаниям {I ξj(su) } заключения должны заполняться соответствующие ячейки уровней 5-10 фрейма предложения, определяющих наименование членов предложения, их групп, обособленных членов, типов простых предложений в сложном предложении с указанием вопросов к ним. При этом правила продукций проверяются по всем словосочетаниям условия, и в случае истинности всех словосочетаний условия, объединенных логическими связками "и" (во фрейме предложения найдены все характеристики и данные, описанные в словосочетаниях условия правила продукций), заключение считается истинным. При этом данные, определяемые в словосочетаниях заключения правила, заносят в соответствующие ячейки фрейма предложения уровней 5-10. Если заключение содержит предварительный результат или словосочетание, по которому необходимо найти логически связанные правила, то их поиск производится путем обращения по индексам основ слов словосочетания к таблице индексов соответствующей базы знаний. При этом за счет произвольного доступа к таблицам на основе стохастических индексов исключается необходимость перебора на всем множестве правил продукций. В результате обеспечивается линейность зависимости времени логического вывода от числа задействованных в обработке правил продукций. Обращение к базе знаний и обработка правил продукций предназначены для заполнения всех ячеек фрейма предложения точными данными.To implement inference functions using production rules, an interpreter (4) of stochastically indexed text and production rules is used. As a result, the production rule is transformed into the form (2) of a stochastically indexed semantic structure. Moreover, according to the phrases (I ξi (su) ) of the conditions of the production rules (after referring to the base (15) of the stochastically indexed phrases and determining the stochastic indices {I ξi (u) } of the stems of the words of the phrases according to the indices I ξi (su), the words search for the corresponding cells of the sentence frame and reading from them the names of words, characteristics of parts of speech or questions to them. According to the phrases {I ξj (su) } of the conclusion, the corresponding cells of levels 5-10 of the sentence frame should be filled out, defining the names of the sentence members, their groups, separate members, types of simple sentences in a complex sentence with questions to them. In this case, the production rules are checked for all phrases of the condition, and if all phrases of the condition are true, combined by logical connectives "and" (in the proposal frame all the characteristics and data described in the phrases of the condition of the production rule are found), the conclusion is considered true. At the same time, the data defined in the phrases of the conclusion of the rule are entered in the corresponding cells of the frame of the proposal of levels 5-10. If the conclusion contains a preliminary result or phrase, according to which it is necessary to find logically related rules, then they are searched by referring to the index bases of the word phrases to the index table of the corresponding knowledge base. Moreover, due to random access to tables based on stochastic indices, the need for enumeration on the whole set of production rules is eliminated. As a result, the linear dependence of the inference time on the number of production rules involved in processing is ensured. The appeal to the knowledge base and the processing of production rules are intended to fill all the cells of the proposal frame with accurate data.

Если в процессе синтаксического анализа отдельные члены предложения будут определены неточно, то для их точного определения система переходит к семантическому анализу слов этих предложений одновременно с реализацией режима самообучения правилам семантического анализа. Это относится прежде всего к определению подлежащего, дополнения и обстоятельства, выраженным существительным с предлогом, деепричастным оборотом и др.If in the process of parsing the individual members of the sentence are not defined accurately, then for their exact definition the system proceeds to the semantic analysis of the words of these sentences simultaneously with the implementation of the self-learning mode of the rules of semantic analysis. This applies primarily to the definition of the subject, additions and circumstances expressed by a noun with a preposition, participle turnover, etc.

Для точного определения членов предложения используется семантический анализ, который основан на функции разработанной ИССИЗ, обеспечивающей выделение из текстов абзацев и предложений, описывающих все возможные виды отношений между различными объектами. Запросы системы на реализацию этой функции могут формироваться автоматически в подсистеме (3) управления режимом самообучения и извлечения знаний, если в результате синтаксического анализа не будет установлено точно, каким членом предложения являются части речи исследуемого предложения.To accurately determine the sentence members, a semantic analysis is used, which is based on the function developed by AISS, which provides the selection of paragraphs and sentences from the texts that describe all possible types of relations between different objects. The system’s requests for the implementation of this function can be generated automatically in the subsystem (3) for managing the self-learning and knowledge extraction mode, if as a result of parsing it will not be established exactly which member of the sentence is the speech part of the sentence being studied.

С этой целью используется подсистема (3) управления режимом самообучения и извлечения знаний, подсистема (6) логического вывода и интерпретатор (4) текста и правил продукций. Уточнение членов предложения в случае их неточного определения при синтаксическом анализе основано на выделении из множества текстов предложений, описывающих отношения между заданными объектами, и определении видов отношений между ними. В результате автоматического формирования запросов системы и семантического анализа выделенных предложений между заданными объектами в интерпретаторе (4) стохастически индексированного текста и правил продукций могут быть определены следующие виды отношений:For this purpose, the subsystem (3) for controlling the self-learning and knowledge extraction mode, the subsystem (6) for logical inference, and the interpreter (4) for the text and production rules are used. Clarification of sentence members in the case of their inaccurate definition during parsing is based on the selection of sentences describing the relations between given objects from the set of texts and determining the types of relations between them. As a result of automatic generation of system queries and semantic analysis of selected sentences between given objects in the interpreter (4) of stochastically indexed text and production rules, the following types of relations can be defined:

- родо-видовые,- generic,

- агрегатные (часть - целое),- aggregate (part - the whole),

- объектные отношения,- object relations,

- определительные отношения,- definitive relationships,

- обстоятельственные,- circumstantial,

- допустимые, недопустимые.- permissible, unacceptable.

В свою очередь обстоятельственные отношения подразделяются на следующие виды:In turn, the circumstances of the relationship are divided into the following types:

- образа действия,- way of action,

- места,- places

- времени,- time

- меры или степени,- measures or degrees

- причины,- causes,

- цели,- goals

- условия,- conditions,

- уступки.- concessions.

В тексте указанные отношения между объектами описываются предикативной основой каждого предложения, которое состоит из подлежащего и сказуемого, а также словосочетаниями между различными членами предложения и прежде всего словосочетаниями, описывающими связь сказуемого с обстоятельством (обстоятельственные отношения) или с дополнением (объектные отношения). При этом для классификации вида отношений решающую роль играют словосочетания, содержащие сказуемое и связанное с ним дополнение или обстоятельство. Именно по содержанию двух указанных членов предложения определяется, какой вид отношений имеется в данном предложении между объектами предметной области, выраженными подлежащим, а также дополнением или обстоятельством. При этом определительные отношения описывают свойства подлежащего, дополнения или обстоятельства с помощью словосочетаний, содержащих согласованные или несогласованные определения. В процессе анализа членов предложения классификация вида описываемых им отношений позволяет практически точно определить члены предложения в наиболее сложных случаях, когда синтаксический анализ дает неточный результат.In the text, the indicated relations between objects are described by the predicative basis of each sentence, which consists of the subject and the predicate, as well as phrases between the various members of the sentence and, first of all, phrases describing the relationship of the predicate with the circumstance (circumstances) or with the complement (object relations). Moreover, collocations containing the predicate and related addition or circumstance play a decisive role in classifying the type of relationship. It is from the content of the two indicated members of the sentence that it is determined what type of relationship exists in the given sentence between the objects of the subject area expressed by the subject, as well as by addition or circumstance. In this case, the definitive relationship describes the properties of the subject, additions or circumstances using phrases that contain agreed or inconsistent definitions. In the process of analyzing sentence members, classifying the type of relationships described by it allows you to practically accurately determine the sentence members in the most complex cases when the parsing gives an inaccurate result.

С целью классификации вида отношений в словосочетаниях в интерпретатор (4) по команде подсистемы управления (3) из таблиц индексов толковых словарей базы (8) стохастически индексированных лингвистических текстов записывают стохастические индексы типовых словосочетаний каждого из указанных выше отношений. При этом в процессе семантического анализа каждое из исследуемых словосочетаний с помощью логического вывода по таблице индексов текста толкового словаря и формирования стохастически индексированной семантической структуры соотносят с одним из индексов словосочетаний, записанных в интерпретатор (4). Порядок логического вывода по таблицам индексов текста будет представлен ниже при описании процесса формирования стохастически индексированной семантической структуры ответа системы.In order to classify the type of relations in phrases, the interpreter (4), using the command of the control subsystem (3), writes stochastic indexes of typical phrases of each of the above relations from the tables of indexes of explanatory dictionaries of the database (8) of stochastically indexed linguistic texts. At the same time, in the process of semantic analysis, each of the phrases under study is correlated using the logical inference of the explanatory dictionary text index table and the formation of a stochastically indexed semantic structure with one of the phrase indices written in the interpreter (4). The inference order for the text index tables will be presented below when describing the process of forming a stochastically indexed semantic structure of the system response.

В общем случае для семантического анализа слов и словосочетаний предложений в системе используется пять источников информации, а именно:In the general case, for the semantic analysis of words and phrases of sentences, the system uses five sources of information, namely:

- база знаний (9), которая содержит текстовые элементы типа "запрос-ответ", формируемые в процессе функционирования ИССИЗ для обработки типовых запросов (эта база подробно будет описана ниже);- a knowledge base (9), which contains text elements of the "request-response" type, formed during the operation of the AHMIS to process typical requests (this database will be described in detail below);

- база (8) стохастически индексированных лингвистических текстов, которая содержит таблицы индексов текстов толковых словарей, энциклопедий и базовых научно-методических материалов общего и специального назначения, позволяющих извлекать знания об объектах предметной области и видах отношений между ними;- base (8) of stochastically indexed linguistic texts, which contains tables of indexes of texts of explanatory dictionaries, encyclopedias and basic scientific and methodological materials of general and special purpose, allowing to extract knowledge about objects of the subject area and types of relations between them;

- база знаний (14) семантического анализа, которая содержит правила для точного определения членов предложения, обеспечения эквивалентности преобразования членов предложения, которые необходимы для семантического анализа и оценки релевантности формируемых ответов на поступающие запросы; она подробно будет описана ниже;- the knowledge base (14) of semantic analysis, which contains the rules for accurately determining the sentence members, ensuring the equivalence of the conversion of sentence members, which are necessary for semantic analysis and assessing the relevance of the generated answers to incoming requests; it will be described in detail below;

- база знаний (12) морфологического анализа, которая содержит правила для определения частей речи и их эквивалентных преобразований;- knowledge base (12) of morphological analysis, which contains rules for determining parts of speech and their equivalent transformations;

- база знаний (13) синтаксического анализа, которая содержит правила для определения членов предложения и их эквивалентных преобразований.- knowledge base (13) of parsing, which contains rules for determining the sentence members and their equivalent transformations.

Первая из названных баз знаний образуется на основе стохастически индексированных кратких ответов, формируемых в ходе обработки запросов пользователей, и содержит множество текстовых элементов типа "запрос-ответ". Эти знания представляют собой семантическую основу релевантных ответов на запросы пользователей и содержат вопросительные предложения. Каждое из данных предложений идентично соответствующему запросу пользователя, в которое после вопросительного слова (или вопросительного словосочетания) дополнительно включена соответствующая ему группа слов ответа. Эта группа может содержать одно или несколько словосочетаний, являться группой обособленных членов предложения или придаточным предложением. При этом в каждом элементе указанных знаний точно определен вопрос к группе слов ответа, что позволяет классифицировать отношения между объектами предметной области, которые представлены в данном предложении и, соответственно, определить, каким членом предложения является главное слово в словосочетании ответа.The first of these knowledge bases is formed on the basis of stochastically indexed short answers generated during the processing of user requests, and contains many text elements of the "request-response" type. This knowledge is the semantic basis of relevant responses to user requests and contains interrogative sentences. Each of these suggestions is identical to the corresponding user request, in which, after the interrogative word (or interrogative phrase), the corresponding group of response words is additionally included. This group may contain one or more phrases, be a group of separate members of a sentence, or a subordinate clause. Moreover, in each element of the specified knowledge, the question to the group of answer words is precisely defined, which allows one to classify the relations between the objects of the subject area that are presented in this sentence and, accordingly, determine which member of the sentence is the main word in the phrase of the answer.

Вторая база лингвистических текстов представлена множеством стохастически индексированных текстов, толковых словарей, энциклопедий, базовых научно-методических материалов как общего, так и тематического назначения. В их состав входит подробное описание общеупотребительной лексики, а также специальных терминов по данной теме. Эти текстовые материалы, представленные в виде таблиц индексов, используются для извлечения из них знаний, которые характеризуют базовые свойства различных типов объектов предметной области и отношения между ними, соотнося их с приведенной выше системой классификации.The second base of linguistic texts is represented by a multitude of stochastically indexed texts, explanatory dictionaries, encyclopedias, basic scientific and methodological materials of both general and thematic purposes. They include a detailed description of common vocabulary, as well as special terms on the subject. These text materials, presented in the form of index tables, are used to extract knowledge from them that characterize the basic properties of various types of objects of the subject area and the relationships between them, correlating them with the above classification system.

Третья база знаний (14) семантического анализа состоит из правил продукций, которые сформированы автоматически и предназначены для решения задач семантического анализа текста с использованием логического вывода и информации, содержащейся в первых двух базах знаний.The third knowledge base (14) of semantic analysis consists of production rules that are automatically generated and designed to solve the problems of semantic text analysis using inference and information contained in the first two knowledge bases.

Базы знаний морфологического и синтаксического анализа применяются для эквивалентных преобразований текста в ходе семантического анализа. Более подробно процесс эквивалентных преобразований будет описан ниже при анализе функций обработки запроса.Morphological and syntactic analysis knowledge bases are used for equivalent text transformations during semantic analysis. The process of equivalent transformations will be described in more detail below in the analysis of query processing functions.

Для обеспечения рациональной обработки знаний описанная выше первая база представлена в виде таблицы индекса, вход которой включает основу слов, находящихся в знаниях "запрос-ответ". При этом каждая строка таблицы имеет ячейки, содержащие индекс текста, индекс и номер абзаца, на основе которого сформировано данное предложение, номер слова в его составе, окончание данного слова, а также индексы основ предыдущего и последующего слов в предложении. Это позволяет по запросу системы осуществлять произвольный доступ с использованием индексов основ слов к соответствующим строкам таблицы, выделять из них требуемые ячейки и при необходимости восстанавливать исходный текст соответствующего "запроса - ответа".To ensure rational processing of knowledge, the first base described above is presented in the form of an index table, the input of which includes the basis of words in the “request-response” knowledge. Moreover, each row of the table has cells containing the text index, index and paragraph number, on the basis of which the sentence is formed, the number of the word in its composition, the end of the word, as well as the indices of the foundations of the previous and subsequent words in the sentence. This allows, at the request of the system, to make random access using the word base indices to the corresponding rows of the table, select the required cells from them and, if necessary, restore the source text of the corresponding "request-response".

Описанная база знаний позволяет при синтаксическом анализе предложения определять члены предложения в наиболее сложных случаях. Например, отличить подлежащее от прямого дополнения или косвенное дополнение от обстоятельства с точной классификацией его вида и др. Для этой цели система семантического анализа формирует соответствующий запрос к базе знаний. В первом случае, когда требуется уточнить подлежащее (например, в предложениях типа Дождь намочил зонт или Зонт намочил дождь ), по запросу системы определяют, для какого объекта является допустимым отношение, выраженное сказуемым. При этом очевидно, что объект, соответствующий допустимому отношению, принимается в качестве подлежащего.The described knowledge base allows one to determine the members of a sentence in the most complex cases when parsing a sentence. For example, to distinguish a subject from direct addition or indirect addition from a circumstance with an exact classification of its type, etc. For this purpose, the system of semantic analysis generates a corresponding request to the knowledge base. In the first case, when it is necessary to clarify the subject (for example, in sentences like Rain wet an umbrella or an umbrella wet rain ), at the request of the system, it is determined for which object the relation expressed by the predicate is permissible. It is obvious that the object corresponding to the permissible ratio is accepted as the subject.

В случае, когда база знаний не позволяет дать ответ на указанный запрос, вопрос будет обращен к таблицам индексов текстов по данной проблематике для поиска словосочетания, содержащего требуемое отношение между объектами на всем множестве текстовых документов второй базы знаний по данной теме.In the case when the knowledge base does not allow an answer to the specified query, the question will be addressed to the tables of text indexes on this issue for searching for a phrase containing the required relationship between objects on the whole set of text documents of the second knowledge base on this topic.

Во втором случае на основе запроса системы к базе знаний должно быть определено, на какой вопрос отвечает член предложения, который можно отнести как к дополнению, так и к обстоятельству и тем самым точно установить, каким членом предложения является данное слово. Для этой цели в запросе системы, обращенном к базе знаний, указывается требуемое слово и предполагаемый вопрос к нему. Если при этом в базе знаний находится соответствующий "запрос-ответ", у которого в словосочетании ответа главное слово и вопрос к нему совпадают, соответственно, с содержанием запроса системы, то это означает, что анализируемый член предложения точно отвечает на данный вопрос. Следовательно, указанный результат обработки запроса системы позволяет точно определить, каким членом предложения является содержащееся в нем слово. Например, если анализируется предложение типа Мужчина прогуливается в парке или Мужчина прогуливается в костюме для уточнения, каким членом предложения (обстоятельством или дополнением) являются словосочетания в парке или в костюме, формируется два запроса системы. Первый запрос содержит вопросительное слово где? и словосочетание в парке , поскольку в результате синтаксического анализа был сделан неточный вывод о том, что в парке - это обстоятельство места. Во втором случае формируется следующий запрос системы: в чем? - в костюме . Если в результате обработки запроса системы будет дан положительный ответ на каждый из них, то это означает, что первое словосочетание является точно обстоятельством, а второе - дополнением. Если будет сформирован запрос системы, содержащий ошибочное утверждение (например, где? - в костюме ), то ответ будет отрицательным. Это означает, что словосочетание в костюме не является обстоятельством места.In the second case, based on the system’s request to the knowledge base, it should be determined which question the sentence member answers, which can be attributed both to the supplement and to the circumstance, and thereby precisely determine which member of the sentence the given word is. For this purpose, the query of the system, addressed to the knowledge base, indicates the required word and the proposed question to it. If, at the same time, the knowledge base contains the corresponding “request-response”, in which the main word and the question in the phrase match, respectively, with the content of the system’s request, this means that the analyzed sentence member accurately answers this question. Therefore, the specified result of processing the system’s request allows you to determine exactly which member of the sentence is the word contained in it. For example, if a sentence like Man is walking in a park or a Man is walking in a suit to analyze which sentence member (circumstance or addition) are phrases in a park or in a suit is analyzed , two system requests are generated. The first query contains a question word where? and the phrase in the park , because as a result of parsing, an inaccurate conclusion was made that the park is a circumstance of the place. In the second case, the following system request is generated: in what? - in a suit . If as a result of processing the system request a positive answer is given to each of them, this means that the first phrase is exactly a circumstance, and the second is an addition. If a system request is generated containing an erroneous statement (for example , where? - in a suit ), then the answer will be negative. This means that the phrase in the suit is not a circumstance.

Описанный способ формирования запросов к первой базе знаний системы семантического анализа может быть использован и в более сложных случаях синтаксического анализа предложений. Например, при определении, каким видом обстоятельства является деепричастный оборот (деепричастие), или при уточнении типа придаточного предложения. Для этой цели формируется специальный запрос, содержащий данный деепричастный оборот или придаточное предложение, на основе которого с точностью до синонимов производится поиск их аналогов на множестве знаний типа "запрос-ответ". Если указанные аналоги содержатся в группе слов ответа этой базы, то с использованием индексной таблицы текста они будут извлечены из нее. Это позволит определить вопрос, которому соответствует определяемый деепричастный оборот или придаточное предложение и, следовательно, точно выявить, к какому типу они относятся.The described method for generating queries to the first knowledge base of the semantic analysis system can be used in more complex cases of syntactic analysis of sentences. For example, when determining what type of circumstance is the participle turnover (participle), or when specifying the type of subordinate clause. For this purpose, a special request is generated containing the given participle turnover or subordinate clause, on the basis of which, up to synonyms, their analogues are searched on a set of knowledge of the "request-response" type. If the indicated analogs are contained in the group of response words of this database, then using the text index table they will be extracted from it. This will allow you to determine the question to which the determined adverbial turnover or subordinate clause corresponds and, therefore, accurately identify what type they belong to.

Если в первой базе знаний не содержится запрашиваемых аналогов, то для точного определения членов предложения используется вторая и третья базы знаний в сочетании с подсистемой (6) логического вывода. Как было отмечено выше, третья база знаний составлена из правил продукций, которые позволяют с помощью семантического анализа уточнять наименования членов предложения, деепричастных оборотов или типов придаточных предложений в сложноподчиненных предложениях с целью формирования к ним соответствующих вопросов.If the first knowledge base does not contain the requested analogues, then the second and third knowledge bases in combination with the inference subsystem (6) are used to accurately determine the sentence members. As noted above, the third knowledge base is composed of production rules, which allow using semantic analysis to clarify the names of sentence members, participles or types of subordinate clauses in complex sentences in order to formulate relevant questions for them.

Одним из основных вариантов проведения семантического анализа с использованием этой базы знаний является перевод с помощью правил продукций семантических определений, характерных для каждого члена предложения, в набор словосочетаний, содержащих определяемое слово и некое базовое слово. Это базовое слово семантически связано только с данным членом предложения и однозначно ему соответствует (не может употребляться с другими членами предложения). При формировании из исходного анализируемого текста словосочетания, описанного в правилах продукций, часто необходимо проводить эквивалентные преобразования исходного текста на основе правил баз знаний морфологического, синтаксического анализа с использованием логического вывода.One of the main options for conducting semantic analysis using this knowledge base is to translate, using production rules, semantic definitions specific to each sentence member into a set of phrases containing the defined word and some base word. This base word is semantically associated only with the given member of the sentence and unambiguously corresponds to it (cannot be used with other members of the sentence). When forming the word combination described in the production rules from the source text being analyzed, it is often necessary to carry out equivalent transformations of the source text based on the rules of the knowledge bases of morphological, syntactic analysis using inference.

После получения требуемого словосочетания проводится проверка его допустимости путем обращения ко второй индексированной базе текстов, которая позволяет производить выделение абзацев и отдельных предложений, содержащих требуемые словосочетания. Если на множестве текстовых документов найдется одно или более предложений, в которых данное словосочетание используется, то отношения между словами данного словосочетания являются допустимыми. Поэтому считается, что исследуемое слово точно относится к данному члену предложения.After obtaining the required phrase, its validity is checked by referring to the second indexed text database, which allows the selection of paragraphs and individual sentences containing the required phrases. If on a set of text documents there is one or more sentences in which this phrase is used, then the relationship between the words of this phrase is valid. Therefore, it is believed that the word under investigation refers exactly to this member of the sentence.

Вместо отдельных словосочетаний могут использоваться более сложные конструкции (например, причастный, деепричастный обороты, придаточные предложения в сложных предложениях). Таким образом, сочетание семантических знаний, выраженных конкретными словосочетаниями, в совокупности с определением допустимости отношений между словами в них на множестве текстовых документов позволит точно определять члены предложения, если их синтаксический анализ не дает точный результат.Instead of separate phrases, more complex constructions can be used (for example, participial, participial sentences, subordinate clauses in complex sentences). Thus, a combination of semantic knowledge expressed by specific phrases, together with determining the admissibility of the relationship between words in them on a variety of text documents, will allow you to accurately determine the sentence members if their parsing does not give an accurate result.

После завершения морфологического, синтаксического и семантического анализа предложений данного текстового документа на основе полученных при этом фреймов предложений полностью заполняется таблица индексов данного текста (Таблица 2), включая списки {I ξi(s) }, определяющие содержание каждой ячейки таблицы. После этого переходят к стохастическому индексированию следующего текста по данной теме. Одновременно с этим реализуется автоматическое обучение и происходит заполнение базы знаний (14) семантического анализа правилами продукций, сформированными на основе соответствующих фрагментов текста описанным выше порядком с использованием стохастически индексированной семантической структуры (2). Отметим, что корректность каждого правила обеспечивается при этом путем независимого формирования описанным выше порядком идентичных стохастически индексированных семантических структур (2) на основе нескольких фрагментов из соответствующих лингвистических текстов. Затем стохастически индексированная семантическая структура переводится в формат правил продукций, представленный в виде "Если (условие), то (заключение)". Это происходит в интерпретаторе (4) стохастически индексированных текстов и правил продукций и в подсистеме (5) эквивалентных преобразований текста.After the morphological, syntactic and semantic analysis of sentences of this text document is completed, based on the frames of sentences received, the index table of the text is completely filled (Table 2), including the lists {I ξi (s) } that determine the content of each table cell. After that, we move on to stochastic indexing of the next text on this topic. At the same time, automatic training is implemented and the knowledge base (14) of semantic analysis is filled in with production rules formed on the basis of the corresponding text fragments as described above using a stochastically indexed semantic structure (2). Note that the correctness of each rule is ensured by independent formation of the identical stochastically indexed semantic structures (2), described above, based on several fragments from the corresponding linguistic texts. Then, the stochastically indexed semantic structure is translated into the format of production rules, presented in the form "If (condition), then (conclusion)". This occurs in the interpreter (4) of stochastically indexed texts and production rules and in the subsystem (5) of equivalent text transformations.

После обработки всех представленных текстовых документов по данной теме формируется таблица индексов текстов по данной теме (Таблица 3). Ее строки поименованы неповторяющимися индексами {I ξi(u) } основ слов, входящих в текстовые документы. Столбцы данной таблицы соответствуют стохастическим индексам {I ξi(t) } текстов, которые были обработаны в ходе грамматического и семантического анализа. Ячейки этой таблицы содержат индексы {I ξi(s) } списков, содержащих индексы абзацев {I ξi(а) } каждого текста I ξi(t), в которые входит соответствующий индекс I ξi(u) основы слова. Записи списков хранятся в отдельном файле, доступ к которым производится по соответствующим индексам {I ξi(s) }.After processing all the submitted text documents on this topic, a table of text indices is formed on this topic (Table 3). Its lines are named by the non-repeating indices {I ξi (u) } of the stems of words included in text documents. The columns of this table correspond to the stochastic indices {I ξi (t) } of texts that were processed in the course of grammatical and semantic analysis. The cells of this table contain indices {I ξi (s) } of lists containing index indices of paragraphs {I ξi (a) } of each text I ξi (t) , which include the corresponding index I ξi (u) of the word base. List entries are stored in a separate file, accessed by the corresponding indices {I ξi (s) } .

После формирования указанных таблиц индексов и заполнения баз знаний в режиме самообучения ИССИЗ по команде подсистемы (3) управления режимом самообучения и извлечения знаний переходят к обработке запроса пользователя с целью извлечения знаний из текстовых документов, релевантных этому запросу.After the formation of the indicated index tables and filling in the knowledge bases in the ISISS self-learning mode, according to the command of the subsystem (3) for managing the self-learning and knowledge extraction subsystem, they proceed to processing the user request in order to extract knowledge from text documents relevant to this request.

В данном процессе широко используются эквивалентные преобразования как запроса пользователя, так и предложений фрагментов текста при извлечении из них знаний. Рассмотрим более подробно порядок преобразований предложений текста.In this process, equivalent transformations of both a user's request and sentences of fragments of text are widely used when extracting knowledge from them. Let us consider in more detail the order of transformations of text sentences.

В ИССИЗ обеспечивают следующие уровни эквивалентных преобразований текста.In ISIS, the following levels of equivalent text transformations are provided.

Первый уровень преобразований реализуется внутри групп членов предложений - словосочетаний, содержащих подлежащее, сказуемое, дополнение, обстоятельство. При этом происходит изменение частей речи с целью замены согласованных определений на несогласованные. Этому уровню соответствуют преобразования терминов, например: компьютерная сеть - сеть компьютеров, компьютерное обслуживание - обслуживание компьютеров. The first level of transformations is implemented within groups of proposal members - phrases containing subject, predicate, addition, circumstance. In this case, there is a change in the parts of speech in order to replace agreed definitions with inconsistent ones. Transformations of terms correspond to this level, for example: a computer network - a network of computers, computer service - computer maintenance .

Второму уровню преобразований соответствуют эквивалентные преобразования членов предложения внутри простых предложений как самостоятельных, так и составляющих сложные. При этом реализуются следующие виды замены членов предложения с использованием преобразований однокоренных частей речи:The second level of transformations corresponds to equivalent transformations of sentence members within simple sentences, both independent and complex. In this case, the following types of replacement of sentence members using transformations of cognate parts of speech are realized:

подлежащее заменяется на сказуемое,the subject is replaced by the predicate,

сказуемое - на подлежащее,predicate - on the subject,

дополнение - на подлежащее,addition to the subject,

сказуемое - на обстоятельство и т.д.predicate - on circumstance, etc.

В частных случаях части речи могут не изменяться (изменяются только падежи).In special cases, parts of speech may not change (only cases are changed).

Третий уровень эквивалентных преобразований соответствует преобразованию внутри сложных предложений. В этом случае придаточное предложение одного вида может быть заменено на придаточное предложение другого вида или на причастные, деепричастные обороты. Иногда сложное предложение преобразуется в простое предложение путем замены союза на соответствующие предлоги, определяемые правилами.The third level of equivalent transforms corresponds to the transformation within complex sentences. In this case, the subordinate clause of one type can be replaced by the subordinate clause of another type or by the participle, participial turnovers. Sometimes a compound sentence is converted into a simple sentence by replacing the conjunction with the corresponding prepositions defined by the rules.

Рассмотрим пример эквивалентных преобразований с использованием замены членов предложения в словосочетаниях, а именно: замены согласованного определения на несогласованное и прямого дополнения на подлежащее. Выберем в качестве исходного предложения следующее: "Программные и аппаратные средства защищают компьютерные программы". В системе исходное предложение с индексом I ξ1(p) будет представлено приведенной ниже стохастически индексированной семантической структурой:Consider the example of equivalent transformations using the replacement of sentence members in phrases, namely: replacing the agreed definition with an inconsistent and direct addition with the subject. We choose the following sentence as the initial sentence: "Software and hardware protect computer programs." In the system, the initial sentence with the index I ξ1 (p) will be represented by the stochastically indexed semantic structure below:

Figure 00000010
Figure 00000010

Эта структура содержит следующие словосочетания исходного предложения:This structure contains the following phrases of the original sentence:

I ξ12(su) : = (программные и аппаратные средства), I ξ12 (su) : = (software and hardware),

I ξ13(su) : = (защищают), I ξ13 (su) : = (protect),

I ξ14(su) : = (компьютерные программы). I ξ14 (su) : = (computer programs).

Произведем указанные выше эквивалентные преобразования членов предложения. При этом будут образованы такие словосочетания:We perform the above equivalent transformations of the sentence members. In this case, the following phrases will be formed:

I ξ22(su) : = (программы компьютера), I ξ22 (su) : = (computer program),

I ξ23(su) : = (защищаются), I ξ23 (su) : = (defend),

I ξ24(su) : = (программными и аппаратными средствами). I ξ24 (su) : = (software and hardware).

В результате данных преобразований будет получено предложение, эквивалентное исходному предложению с индексом I ξ1(p) , которое имеет индекс I ξ2(p) и следующую стохастически индексированную семантическую структуру:As a result of these transformations, we get a sentence equivalent to the original sentence with the index I ξ1 (p) , which has the index I ξ2 (p) and the following stochastically indexed semantic structure:

Figure 00000011
Figure 00000011

На основе этой структуры будет образовано предложение: "Программы компьютера защищаются программными и аппаратными средствами", которое эквивалентно исходному. Отметим, что в новом предложении подлежащее I ξ22(su) соответствует словосочетанию прямого дополнения I ξ14(su) исходного предложения, в котором произведена замена согласованного определения на несогласованное. При этом подлежащее первого предложения I ξ12(su) преобразовано в косвенное дополнение I ξ24(su) во втором предложении, а сказуемое I ξ13(su) стало иметь форму возвратного глагола I ξ23(su). Указанные преобразования наиболее часто используются как для эквивалентных преобразований стохастически индексированных предложений текста, так и для запросов пользователей.Based on this structure, a sentence will be formed: "Computer programs are protected by software and hardware," which is equivalent to the original one. Note that in the new sentence, the subject I ξ22 (su) corresponds to the phrase direct supplement I ξ14 (su) of the original sentence, in which the agreed definition is replaced by the inconsistent one. Moreover, the subject of the first sentence I ξ12 (su) was transformed into an indirect complement I ξ24 (su) in the second sentence, and the predicate I ξ13 (su) began to take the form of the reflexive verb I ξ23 (su) . The indicated transformations are most often used both for equivalent transformations of stochastically indexed text sentences, and for user queries.

Запрос пользователя формируют на естественном языке. Затем преобразуют запрос пользователя во множество новых запросов, включающих вопросительное слово и словосочетания, определяющие семантику запроса, эквивалентных исходному запросу. Указанные эквивалентные преобразования исходного запроса пользователя осуществляют с использованием синонимов, близких по смыслу слов, а также замены частей речи и членов предложения. При этом обеспечивается сохранение смыслового содержания исходного запроса на основе применения стохастически индексированных правил морфологического, синтаксического и семантического анализа для получения эквивалентных структур словосочетаний вопросительного предложения запроса и сохранения семантической связи между ними.The user request is formed in a natural language. The user’s request is then converted into many new queries, including a question word and phrases that define the semantics of the query, equivalent to the original query. These equivalent conversions of the user's initial request are carried out using synonyms that are close in meaning to the words, as well as replacing parts of speech and sentence members. This ensures the preservation of the semantic content of the initial query based on the application of stochastically indexed rules of morphological, syntactic and semantic analysis to obtain equivalent phrase structures of the query query query and preserve the semantic connection between them.

После этого в соответствии с очередным преобразованным запросом пользователя осуществляют предварительный выбор фрагментов текстовых документов, содержащих в совокупности все словосочетания запроса. Если данный запрос не обеспечил возможность предварительного выбора фрагментов текстовых документов, отвечающих указанным требованиям, то производят новое эквивалентное преобразование запроса.After that, in accordance with the next converted user request, a preliminary selection of fragments of text documents is carried out, containing all the phrases of the request in total. If this request did not provide the possibility of preliminary selection of fragments of text documents that meet the specified requirements, then a new equivalent query conversion is performed.

Рассмотрим порядок обработки запроса и алгоритма формирования ответа на основе различных текстовых документов, абзацев и предложений. После поступления очередного запроса пользователя в лингвистический процессор (1) он заносится в подсистему (2) стохастического индексирования и выделения фрагментов текстов, где производится формирование стохастических индексов основ слов и выделение их окончаний. После этого стохастически индексированный запрос через подсистему (3) управления режимом самообучения и извлечения знаний записывается в подсистему (6) логического вывода. Здесь на основе правил продукций баз знаний (12-13) сначала производят морфологический и синтаксический разбор запроса пользователя. Получают фрейм вопросительного предложения. Затем в интерпретаторе (4) вопросительное предложение представляют в виде совокупности словосочетаний, содержащих главные и зависимые слова, и соответствующих им стохастических индексов основ словConsider the order of processing the request and the response generation algorithm based on various text documents, paragraphs and sentences. After the next user request arrives at the linguistic processor (1), it is entered into the subsystem (2) of stochastic indexing and selection of text fragments, where stochastic indexes of word stems are formed and their endings are highlighted. After that, a stochastically indexed request through the subsystem (3) for controlling the self-learning and knowledge extraction mode is recorded in the inference subsystem (6). Here, on the basis of the rules for the production of knowledge bases (12-13), the user is first morphologically and syntactically parsed. Get the frame of the interrogative sentence. Then, in the interpreter (4), the interrogative sentence is represented as a combination of phrases containing the main and dependent words, and the corresponding stochastic indices of the word stems

Figure 00000012
Figure 00000012

где I ξi(u) I ξj(u) - стохастические индексы соответственно главного и зависимого основ слов данного словосочетания,where I ξi (u) I ξj (u) are stochastic indices, respectively, of the main and dependent word stems of a given phrase,

I ξi(r) I ξj(r) - стохастические индексы частей речи главного и зависимого слов данного словосочетания, I ξi (r) I ξj (r) - stochastic indices of the parts of speech of the main and dependent words of a given phrase,

I ξi(z) I ξj(z) - стохастические индексы соответственно морфологических и синтаксических характеристик частей речи главного и зависимого слов данного словосочетания. I ξi (z) I ξj (z) are stochastic indices of the morphological and syntactic characteristics of the parts of speech of the main and dependent words of a given phrase, respectively.

На основе полученных индексов формируют стохастически индексированную семантическую структуры запроса, которая в общем случае имеет следующий вид:Based on the obtained indices, a stochastically indexed semantic query structure is formed, which in the general case has the following form:

Figure 00000013
Figure 00000013

где I ξ1(su) - индекс вопросительного словосочетания,where I ξ1 (su) is the index of the interrogative phrase,

I ξ2(su) - индекс словосочетания подлежащего, I ξ3(su) - индекс словосочетания сказуемого, I ξ2(su) → I ξ3(su) - предикативная основа предложения, связывающая подлежащее и сказуемое, I ξ3(su) → I ξ4(su) связь между сказуемым и дополнением (обстоятельством), определяющая тип отношения в данном предложении, I ξ4(su) - индекс словосочетаний дополнения (обстоятельства), I ξ5(su) - индекс словосочетания обстоятельства (дополнения). I ξ2 (su) - index of phrases to be, I ξ3 (su) - phrases index predicate, I ξ2 (su) → I ξ3 (su) - predicative basis of a proposal that links the subject and predicate, I ξ3 (su) → I ξ4 ( su) the relationship between the predicate and the complement (circumstance), which determines the type of relationship in this sentence, I ξ4 (su) is the index of phrases of the complement (circumstances), I ξ5 (su) is the index of phrases of the circumstance (additions).

По полученным индексам выражений (6, 7) путем обращения к базе (10) стохастически индексированных текстов по заданным темам с использованием таблиц индексов текстов по заданной теме (Фиг.4) находят совокупность фрагментов, в которые входят все словосочетания запроса, включая вопросительное словосочетание. При этом каждый фрагмент текста может состоять из одного или нескольких абзацев.Using the obtained indexes of expressions (6, 7), by accessing the database (10) of stochastically indexed texts on given topics using tables of text indexes on a given topic (Figure 4), a set of fragments is found that includes all query phrases, including the interrogative phrase. In addition, each piece of text may consist of one or more paragraphs.

Если будут найдены один или несколько текстов, отвечающих указанным условиям, то переходят к дальнейшей обработке абзацев этих текстов с использованием таблиц индексов каждого из них. Отметим: наличие в таблице индексов одного из текстов индекса I ξ1(su) вопросительного словосочетания, содержащего индекс вопроса (в списке I ξi(s) одной из ячеек таблицы) и связанного с ним индекса основы главного слова, свидетельствует о том, что в указанном абзаце данного текста есть предложение, которое содержит группу слов ответа I ξ0(su), связанную с главным словом вопросительного словосочетания: (I ξ0(su) → I ξ1(su) ).If one or several texts that meet the specified conditions are found, then they proceed to further processing the paragraphs of these texts using the index tables of each of them. Note: the presence in the index table of one of the texts of the index I ξ1 (su) of the interrogative phrase containing the index of the question (in the list I ξi (s) of one of the cells in the table) and the index of the main word base associated with it, indicates that in the indicated the paragraph of this text is a sentence that contains the group of response words I ξ0 (su) related to the main word of the interrogative phrase: (I ξ0 (su) → I ξ1 (su) ) .

Если не будет найден хотя бы один из текстов, отвечающий данным условиям, то переходят к эквивалентным преобразованиям запроса пользователя путем замены слов, которые не вошли в абзац текста, на синонимы и близкие по смыслу слова, а также применяя замену частей речи и членов предложения без изменения смысла запроса.If at least one of the texts that meets these conditions is not found, then they switch to equivalent transformations of the user's request by replacing words that are not included in the paragraph of the text with synonyms and words that are close in meaning, and also using replacing parts of speech and sentence members without changing the meaning of the request.

Дальнейшую обработку текста, отвечающего указанным выше условиям, производят по таблице индексов данного текста. С этой целью, используя индексы вопросительного словосочетания I ξ1(su) путем обращения к таблице индексов текста из базы (10), находят предложение, содержащее группу слов ответа, которая соответствует вопросительному словосочетанию запроса и связана с главным словом этого запроса. Если словосочетанияFurther processing of the text that meets the above conditions is performed according to the index table of the text. To this end, using the indices of the interrogative phrase I ξ1 (su) by looking at the table of indexes of text from the database (10), we find a sentence containing a group of response words that corresponds to the interrogative phrase of the query and is associated with the main word of this query. If collocations

Figure 00000014
Figure 00000014

запроса при этом входят в разные абзацы различных текстовqueries in different paragraphs of different texts

Figure 00000015
Figure 00000015

то необходимым условием для формирования единого, логически связанного текста ответа является наличие хотя бы в одном из абзацев группы слов ответа I ξ0(su), соответствующего I ξ1(su) вопросительного словосочетания запроса, и предикативной основы I ξ2(su) → I ξ3(su) выражения (7), в которую в общем виде входят индексы словосочетаний подлежащего и сказуемого. Если указанное условие выполняется, то выделенная совокупность абзацев используется при дальнейшей обработке, поскольку на основе предварительно выбранных абзацев можно попытаться сформировать единый, логически связанный текст ответа. В противоположном случае необходимо перейти к вводу и индексированию новых текстов по данной теме.then a necessary condition for the formation of a unified, logically related response text is the presence of at least one of the paragraphs of the group of response words I ξ0 (su) corresponding to I ξ1 (su) of the interrogative phrase of the query and the predicative basis I ξ2 (su) → I ξ3 ( su) expressions (7), which generally includes the indices of phrases of the subject and predicate. If the specified condition is fulfilled, then the selected set of paragraphs is used during further processing, since on the basis of pre-selected paragraphs you can try to form a single, logically related response text. In the opposite case, it is necessary to move on to entering and indexing new texts on this topic.

Рассмотрим сначала более простой случай формирования релевантного ответа, когда фрагмент текста, содержащего все словосочетания запроса, может быть образован на основе одного или нескольких последовательных абзацев данного текста. В этом случае сначала формируют основу стохастически индексированной семантической структуры ответа пользователя в виде следующего выражения:We first consider a simpler case of the formation of a relevant answer, when a fragment of text containing all phrases of a query can be formed on the basis of one or more consecutive paragraphs of a given text. In this case, first form the basis of the stochastically indexed semantic structure of the user's response in the form of the following expression:

Figure 00000016
Figure 00000016

где I ξ0(su) - индекс группы слов ответа, I ξ1(su) - индекс вопросительного словосочетания, I ξ2(su) - индекс словосочетания подлежащего, I ξ3(su) - индекс словосочетания сказуемого, I ξ2(su) → I ξ3(su) - предикативная основа предложения. С этой целью после определения в данном фрагменте текста предложения, где в индексированном виде содержится группа слов ответа, связанная с главным словом вопросительного словосочетания (I ξ0(su) → I ξ1(su) ), находят предложение, в которое входит предикативная основа (I ξ2(su) → I ξ3(su) ). where I ξ0 (su) is the index of the group of answer words, I ξ1 (su) is the index of the interrogative phrase, I ξ2 (su) is the index of the subject phrase, I ξ3 (su) is the predicate phrase index, I ξ2 (su) → I ξ3 (su) is the predicative basis of a sentence . To this end, after defining a sentence in this fragment of the text, where the group of answer words associated with the main word of the interrogative phrase (I ξ0 (su) → I ξ1 (su) ) is indexed, they find a sentence that includes the predicative base (I ξ2 (su) → I ξ3 (su) ).

Поскольку указанные группы слов в общем случае входят в разные выражения, то для образования семантической структурной схемы (8) реализуют процедуру логического вывода с использованием индексированных предложений данного фрагмента текста. С этой целью предложение c номером i, содержащее группу слов ответа, представляют в следующем виде:Since these groups of words generally occur in different expressions, for the formation of a semantic structural scheme (8), the logical inference procedure is implemented using indexed sentences of a given text fragment. For this purpose, a sentence with number i containing a group of response words is represented as follows:

Figure 00000017
Figure 00000017

где I ξ0(su) - индекс группы слов ответа, I ξ1(su) - индекс вопросительного словосочетания, I ξ2i(su) - индекс словосочетания подлежащего, I ξ3i(su) - индекс словосочетания сказуемого, I ξ2i(su) → I ξ3i(su) - предикативная основа предложения, I ξ3i(su) → I ξ4i(su) - связь между сказуемым и дополнением (обстоятельством), определяющая тип отношения в данном предложении, I ξ4i(su) - индекс словосочетаний дополнения (обстоятельства), I ξ5i(su) - индекс словосочетания обстоятельства (дополнения).where I ξ0 (su) is the index of the group of response words, I ξ1 (su) is the index of the interrogative phrase, I ξ2i (su) is the index of the subject phrase, I ξ3i (su) is the predicate phrase index, I ξ2i (su) → I ξ3i (su) is the predicative basis of the sentence , I ξ3i (su) → I ξ4i (su) is the relationship between the predicate and the complement (circumstance), which determines the type of relationship in this sentence, I ξ4i (su) is the index of the phrases of the complement (circumstance), I ξ5i (su) is the index of the combination of circumstances (additions).

Для реализации логического вывода на основе выражения (9) с использованием транзитивной зависимости формируется стохастически индексированная семантическая структура типа тема → рема предложения с номером i:To implement a logical conclusion on the basis of expression (9) using a transitive dependence, a stochastically indexed semantic structure of the topic → topic type of sentence with number i is formed :

Figure 00000018
Figure 00000018

где тема является индексом I ξ2i(su) словосочетания подлежащего, а рема - индексом I ξ4i(su) словосочетания дополнения (обстоятельства).where the topic is the index I ξ2i (su) of the phrase of the subject, and Rhema is the index I ξ4i (su) of the phrase of the supplement (circumstance).

При этом предложение с номером j, содержащее предикативную основу запроса, имеет в общем случае следующую стохастически индексированную семантическую структуру:Moreover, the sentence with number j , containing the predicative basis of the query, has in the general case the following stochastically indexed semantic structure:

Figure 00000019
Figure 00000019

где I ξ2(su) - индекс словосочетания подлежащего запроса, I ξ3(su) - индекс словосочетания сказуемого запроса, I ξ2(su) → I ξ3(su) - предикативная основа предложения запроса, I ξ3(su) → I ξ4j(su) - связь между сказуемым и дополнением (обстоятельством), определяющая тип отношения в данном предложении с номером j, I ξ4(su) - индекс словосочетаний дополнения (обстоятельства), I ξ5j(su) - индекс словосочетания обстоятельства (дополнения). Затем выражение (11) преобразуется в следующую семантическую структуру тема → рема предложения с номером j:where I ξ2 (su) is the phrase index of the subject query, I ξ3 (su) is the phrase index of the predicate query, I ξ2 (su) → I ξ3 (su) is the predicative basis of the query sentence , I ξ3 (su) → I ξ4j (su ) is the relationship between the predicate and the complement (circumstance), which determines the type of relationship in this sentence with the number j , I ξ4 (su) is the index of the phrases of the complement (circumstances), I ξ5j (su) is the index of the phrase of the circumstances (additions). Then expression (11) is transformed into the following semantic structure topic → rema of the sentence with number j :

Figure 00000020
Figure 00000020

Отметим, что в текстовой информации между законченными предложениями имеется семантическая, а следовательно, и грамматическая (синтаксическая) связь. Существуют два способа структурной соотнесенности предложений - синтаксической связи между ними. Первый способ можно назвать цепной (последовательной), а второй - параллельной связью.Note that in textual information between completed sentences there is a semantic, and therefore grammatical (syntactic) connection. There are two ways of structural correlation of sentences - syntactic connection between them. The first method can be called a chain (sequential), and the second - parallel connection.

Цепная связь отражает последовательное развитие мысли в связном тексте. Тема - это исходный пункт, начало движения мысли, "данное", рема - развитие мысли, ее основа, ядро, "новое".Chain connection reflects the consistent development of thought in a coherent text. The theme is the starting point, the beginning of the movement of thought, "given", Rema - the development of thought, its basis, core, "new".

Синтаксический характер цепной связи выражается в структурной соотнесенности двух соседних предложений. Обычно какой-либо член предшествующего предложения, например дополнение, в последующем предложении становится подлежащим. Наиболее распространенные структурные виды цепной связи "дополнение - подлежащее", "дополнение - дополнение", "подлежащее - дополнение", "подлежащее - подлежащее" и др.The syntactic nature of the chain link is expressed in the structural correlation of two neighboring sentences. Typically, a member of a previous sentence, such as an addition, in a subsequent sentence becomes subject. The most common structural types of chain links are "complement - subject", "complement - complement", "subject - complement", "subject - subject", etc.

Структурная соотнесенность между предложениями при цепной связи выражается: а) с помощью лексического повтора (когда соотносящиеся члены предложений выражены одинаково); б) посредством синонимической лексики; в) с помощью местоимений.The structural correlation between sentences in a chain connection is expressed: a) using lexical repetition (when the corresponding members of the sentences are expressed the same way); b) through synonymous vocabulary; c) using pronouns.

Цепная связь - один из важнейших и наиболее распространенных способов связи самостоятельных предложений.Chain communication is one of the most important and most common ways of connecting independent offers.

Параллельная связь, как и цепная, заключается в структурной соотнесенности соединяемых предложений. Однако характер этой соотнесенности иной. Основные структурные признаки параллельной связи предложений: а) параллелизм структуры (однотипность или синтаксическая близость соединяемых предложений); б) параллельный (сходный) порядок слов; в) одинаковое грамматическое выражение всех или некоторых членов предложений.A parallel connection, like a chain one, consists in the structural correlation of the connected sentences. However, the nature of this correlation is different. The main structural features of the parallel connection of sentences: a) the parallelism of the structure (uniformity or syntactic proximity of the connected sentences); b) parallel (similar) word order; c) the same grammatical expression of all or some members of sentences.

Семантическим "входом" как в цепную, так и в параллельную структуры связи абзаца является тема начального ее предложения в связанных предложениях данного абзаца или нескольких последовательных абзацев текста.The semantic “entry” into both a chain and parallel link structure of a paragraph is the topic of its initial sentence in the related sentences of this paragraph or several consecutive paragraphs of text.

В соответствии с этим на основе элементарной семантической структуры каждого предложения типа тема → рема с помощью логического вывода могут быть сформированы более сложные семантические структуры, определяющие связи между предложениями как последовательного, так и параллельного типа. Поэтому необходимым условием семантической связи между группой слов ответа, содержащейся в предложении с номером i, и предикативной основой предложения запроса, которая входит в состав предложения с номером j, является доказательство с помощью логического вывода их вхождения в единую семантическую структуру данного фрагмента текста. В стохастически индексированном виде эта структура может выглядеть следующим образом:In accordance with this, on the basis of the elementary semantic structure of each sentence of the topic → rem type, with the help of logical inference, more complex semantic structures can be formed that determine the relationships between sentences of both sequential and parallel types. Therefore, a necessary condition for the semantic connection between the group of response words contained in the sentence with the number i and the predicative basis of the query sentence, which is part of the sentence with the number j , is the proof using the logical conclusion of their occurrence in a single semantic structure of this fragment of the text. In a stochastically indexed form, this structure may look like this:

Figure 00000021
Figure 00000021

Логический вывод для установления семантической связи между указанными группами слов производят по таблице индексов текста базы (10) стохастически индексированных текстовых документов по заданным темам. С этой целью используется подсистема (6) логического вывода и подсистема (5) эквивалентных преобразований текста. При этом логический вывод начинается с предложения с номером i, содержащего группу слов ответа, которая связана с главным словом вопросительного словосочетания, предикативную основу запроса, и имеет стохастически индексированную семантическую структуру (9).The logical conclusion for establishing a semantic connection between the indicated groups of words is produced according to the table of text indexes of the base (10) of stochastically indexed text documents on given topics. To this end, the inference subsystem (6) and the subsystem (5) of equivalent text transformations are used. In this case, the logical conclusion begins with the sentence with number i , containing the group of answer words, which is connected with the main word of the interrogative phrase, the predicative basis of the query, and has a stochastically indexed semantic structure (9).

После представления названного предложения в виде семантической структуры типа тема → рема (10) по таблице индексов находят следующее предложение, в котором рема данного предложения переходит в тему следующего предложения. Для этого используют ячейки, которые соответствуют индексу данного абзаца I ξj(а) и индексу словосочетания I ξ4i(su), являющегося дополнением или обстоятельством предложения с номером i. По этим ячейкам находят номер предложения данного абзаца, в котором данное словосочетание включает подлежащее. Затем, используя адресную информацию ячейки, находят индекс сказуемого указанного предложения и связанные с ним индексы словосочетания дополнения или обстоятельства I ξ4k(su) , т.е. в соответствии с выражением (13) рему следующего предложения, логически связанного с предыдущим и т.д. Логический вывод продолжается до тех пор, пока в очередном предложении, определяемом связью (I ξ2(su) → I ξ4j(su) ), не будут содержаться индексы (I ξ2(su)I ξ3(su) ), которые соответствуют предикативной основе запроса.After presenting the named sentence in the form of a semantic structure of the topic → reme type (10), the next sentence is found from the index table in which the current sentence goes into the topic of the next sentence. To do this, use cells that correspond to the index of this paragraph I ξj (a) and the phrase index I ξ4i (su) , which is the complement or circumstance of the sentence with number i . These cells find the sentence number of this paragraph, in which this phrase includes the subject. Then, using the address information of the cell, the predicate index of the indicated sentence and related addition indexes or circumstances I ξ4k (su) are found , i.e. in accordance with expression (13), remu of the next sentence, logically related to the previous one, etc. The logical conclusion continues until the next sentence defined by the relation (I ξ2 (su) → I ξ4j (su) ) does not contain indices (I ξ2 (su)I ξ3 (su) ) that correspond to the predicative basis request.

Если в ходе логического вывода индекс ремы I ξ4n(su) очередного предложения не совпадает с темой I ξ2n+1(su) последующего предложения, то это означает, что в последующем предложении используется либо синоним данного слова, либо местоимение. В первом случае по индексам основ слов I ξ2n+1(su) этого словосочетания обращаются к таблице индексов словаря синонимов базы (8) стохастически индексированных лингвистических текстов. Здесь находят основы слов синонимов {I ξs(u) }, из которых можно образовать индекс I ξ4n(su) ремы предыдущего предложения. Во втором случае индекс I ξ2n+1(su) темы следующего предложения может соответствовать местоимению, согласованному со словосочетанием I ξ4n(su), что проверяется по таблице индексов словаря базы данных (7). При выполнении первого или второго условия логический вывод продолжается, пока не будет найдено предложение, содержащее искомое словосочетание запроса, в данном случае (I ξ2(su) → I ξ3(su) ) предикативной основы запроса. Таким образом, в ходе логического вывода будет синтезирована стохастически индексированная семантическая структура, описанная выражением (13).If during the logical conclusion the index of the mode I ξ4n (su) of the next sentence does not coincide with the topic I ξ2n + 1 (su) of the subsequent sentence, then this means that the subsequent sentence uses either a synonym for the word or a pronoun. In the first case, by the indices of the word stems I ξ2n + 1 (su) of this phrase, they refer to the table of indexes of the synonym dictionary of the base (8) of stochastically indexed linguistic texts. Here, the foundations of the synonyms {I ξs (u) } are found , from which one can form the index I ξ4n (su) of the rema of the previous sentence. In the second case, the index I ξ2n + 1 (su) of the topic of the next sentence may correspond to the pronoun consistent with the phrase I ξ4n (su) , which is checked according to the index table of the database dictionary (7). When the first or second condition is fulfilled, the logical conclusion continues until a sentence containing the desired phrase of the query is found, in this case (I ξ2 (su) → I ξ3 (su) ) of the predicative basis of the query. Thus, in the course of inference, a stochastically indexed semantic structure will be synthesized, described by expression (13).

Поскольку в рассматриваемом случае все словосочетания запроса входят в один абзац или в группу последовательных абзацев одного текста, то логический вывод в данном фрагменте текста будут продолжать с целью образования единой стохастически индексированной семантической структуры, содержащей все словосочетания запроса, включая словосочетания дополнения I ξ4(su) и обстоятельства I ξ5(su):Since in the case under consideration all phrases of the query are included in one paragraph or in a group of consecutive paragraphs of the same text, the logical inference in this fragment of the text will continue with the aim of forming a single stochastically indexed semantic structure containing all phrases of the query, including phrases of the complement I ξ4 (su) and circumstances I ξ5 (su) :

Figure 00000022
Figure 00000022

С этой целью реализуют описанные выше функции логического вывода по схеме тема → рема до тех пор, пока все словосочетания запроса, входящие в различные предложения данного абзаца, будут включены в семантическую структуру (14). Отметим, что необходимым условием синтеза указанной семантической структуры (14) является соответствие словосочетаний запроса и идентичных им словосочетаний в тексте абзаца одним и тем же членам предложений. Поэтому, если некоторые словосочетания, идентичные словосочетаниям запроса в предложениях текста, относятся к другим членам предложения, то эти предложения подвергают эквивалентным преобразованиям с тем, чтобы указанные словосочетания относились к требуемым членам предложений. Эти функции выполняют описанным выше порядком в подсистеме (5) эквивалентных преобразований текста.For this purpose, the logical inference functions described above are implemented according to the theme → rem scheme until all phrase phrases included in various sentences of this paragraph are included in the semantic structure (14). Note that the necessary condition for the synthesis of the indicated semantic structure (14) is the correspondence of the phrases of the query and the identical phrases in the text of the paragraph to the same sentence members. Therefore, if some phrases identical to the phrases of the query in the sentences of the text relate to other members of the sentence, then these sentences are subjected to equivalent transformations so that these phrases refer to the required members of the sentences. These functions are performed as described above in the subsystem (5) of equivalent text transformations.

После образования семантической структуры (14) переходят к контролю ее непротиворечивости. С этой целью проверяют семантическое соответствие словосочетания сказуемых {I ξ3i(su) }, входящих в каждое из предложений, на основе которых образована семантическая структура (14), базовым отношениям. К ним относятся родовидовые отношения, отношения типа "часть-целое" или "причина-следствие" (условие-заключение). Эти отношения определяются путем обращения по указанным индексам к базе (8) стохастически индексированных текстов для поиска семантических значений сказуемых {I ξ3i(su) } в таблицах индексов толковых словарей. При этом проверяется идентичность семантических значений сказуемых {I ξ3i(su) } индексам указанных выше базовых отношений или их синонимов, записанных в интерпретатор (4). В случае выполнения данных условий в образованной семантической структуре (14) поддерживается транзитивная зависимость. Поэтому любое искомое словосочетание запроса с индексом I ξj(su) может быть перенесено в формируемое предложение ответа с использованием логического вывода на образованной семантической структуре типа тема → рема после словосочетания с индексом I ξj-1(su). Если это условие не выполняется, то данный абзац не содержит ответа, релевантного запросу пользователя. В этом случае переходят к анализу следующего предварительно выбранного абзаца или совокупности последовательных абзацев.After the formation of the semantic structure (14), they proceed to control its consistency. To this end, check the semantic correspondence of the word combinations of the predicates {I ξ3i (su) } included in each of the sentences, on the basis of which the semantic structure (14) is formed, to the basic relations. These include generic relations, relations of the type "part-whole" or "cause-effect" (condition-conclusion). These relations are determined by referring to the indicated indices to the base (8) of stochastically indexed texts to search for the semantic values of the predicates {I ξ3i (su) } in the tables of explanatory dictionary indexes. In this case, the identity of the semantic values of the predicates {I ξ3i (su) } with the indices of the above basic relations or their synonyms recorded in the interpreter (4) is checked. If these conditions are met, the transitive dependence is maintained in the formed semantic structure (14). Therefore, any desired phrase of a query with index I ξj (su) can be transferred to the generated response sentence using logical inference on the formed semantic structure of the topic → rem type after a phrase with index I ξj-1 (su) . If this condition is not met, then this paragraph does not contain an answer relevant to the user's request. In this case, they proceed to the analysis of the next pre-selected paragraph or set of consecutive paragraphs.

Описанную процедуру логического вывода для определения семантической связи между словосочетаниями запроса при нахождении их в различных предложениях абзаца производят до тех пор, пока не будет сформирован краткий ответ пользователю в виде предложения, содержащего группу слов ответа, вопросительное словосочетание, предикативную основу и все другие словосочетания, которые входят в ответ. При этом сформированный краткий ответ будет представлен в виде следующей стохастически индексированной семантической структуры:The described inference procedure for determining the semantic connection between query phrases when they are found in various sentences of a paragraph is performed until a short answer is formed to the user in the form of a sentence containing a group of response words, an interrogative phrase, a predicative base and all other phrases that are included in the answer. In this case, the generated short answer will be presented in the form of the following stochastically indexed semantic structure:

Figure 00000023
Figure 00000023

где I ξ0(su) - индекс группы слов ответа, I ξ1(su) - индекс вопросительного словосочетания, I ξ2(su) - индекс словосочетания подлежащего, I ξ3(su) - индекс словосочетания сказуемого, I ξ2(su) → I ξ3(su) - предикативная основа предложения, I ξ3(su) → I ξ4(su) - связь между сказуемым и дополнением (обстоятельством), определяющая тип отношения в данном предложении, I ξ4(su) - индекс словосочетаний дополнения (обстоятельства), I ξ5(su) - индекс словосочетания обстоятельства (дополнения).where I ξ0 (su) is the index of the group of answer words, I ξ1 (su) is the index of the interrogative phrase, I ξ2 (su) is the index of the subject phrase, I ξ3 (su) is the predicate phrase index, I ξ2 (su) → I ξ3 (su) is the predicative basis of the sentence , I ξ3 (su) → I ξ4 (su) is the relationship between the predicate and the complement (circumstance), which determines the type of relationship in this sentence, I ξ4 (su) is the index of the phrases of the complement (circumstance), I ξ5 (su) is the index of the combination of circumstances (additions).

При этом корректность краткого ответа обеспечивают путем формирования описанным выше порядком нескольких идентичных стохастически индексированных семантических структур (15) на основе различных, предварительно выбранных стохастически индексированных фрагментов текстовых документов.At the same time, the correctness of the short answer is ensured by forming, as described above, several identical stochastically indexed semantic structures (15) based on various pre-selected stochastically indexed fragments of text documents.

Сформированное выражение (15) означает, что в результате логического вывода получен краткий ответ, идентичный вопросительному предложению запроса. Поэтому данный ответ является релевантным запросу пользователя. Он может быть выдан пользователю после преобразования в текстовую форму на данном языке в виде знания, сформированного системой в соответствии с его запросом.The generated expression (15) means that as a result of the logical conclusion, a short answer is received, identical to the interrogative sentence of the request. Therefore, this answer is a relevant user request. It can be issued to the user after conversion to a text form in a given language in the form of knowledge generated by the system in accordance with his request.

При необходимости получения по требованию пользователя более полного ответа переходят к преобразованию исходного абзаца текста, на основе которого сформирован краткий ответ, а при необходимости и последующих абзацев текста. Это производят с целью получения на основе указанных абзацев единой стохастически индексированной семантической структуры, дающей возможное уточнение краткого ответа в рамках данного фрагмента текста. Описанные функции формирования полного ответа будут представлены ниже.If it is necessary to obtain a more complete answer at the request of the user, they proceed to transform the original paragraph of the text, on the basis of which a short answer is formed, and, if necessary, the subsequent paragraphs of the text. This is done in order to obtain, on the basis of the indicated paragraphs, a unified stochastically indexed semantic structure that gives the possibility of clarifying the short answer within the given text fragment. The described functions for generating a complete response will be presented below.

Если же в результате предварительного поиска по таблице индексов текстов не будут найдены тексты, содержащие абзацы, включающие все словосочетания ответа, то по полученным индексам запроса находят тексты, фрагменты которых в совокупности включают все словосочетания запроса. Если такая совокупность не будет найдена, то это означает, что содержание базы (10) стохастически индексированных текстовых документов не позволяет сформировать ответ, релевантный запросу пользователя. В этом случае необходимо перейти к вводу и индексированию новых текстов по данной теме из поисковой системы.If, as a result of a preliminary search on the table of text indexes, texts containing paragraphs that include all phrases of the answer are not found, then the texts obtained by the query indexes are found, fragments of which together include all the phrase phrases. If such a collection is not found, then this means that the content of the database (10) of stochastically indexed text documents does not allow forming an answer relevant to the user's request. In this case, it is necessary to proceed to entering and indexing new texts on a given topic from a search engine.

В процессе предварительного выбора, используя таблицу индексов текстов по индексам словосочетаний S:{I ξi(u) → I ξj(u) } запроса, выбирают для каждого текста фрагменты в виде совокупности абзацев, содержащих все словосочетания запросаIn the preliminary selection process, using the table of text indices by phrase indices S: {I ξi (u) → I ξj (u) } of the query, fragments are selected for each text as a set of paragraphs containing all query phrases

V:={I ξi(t) , I ξj(a) }, V: = {I ξi (t) , I ξj (a) },

где I ξi(t) , I ξj(a) - соответственно индекс текста и индекс абзаца данного текста, содержащих определенные словосочетания запроса пользователя. Если индексы I ξi(su) :{I ξi(u) I ξj(u) } словосочетаний запроса не входят в полном составе ни в один абзац (I ξi(t) , I ξj(a) ) хотя бы одного из текстов I ξi(t) , а содержатся в различных абзацах одного текста или в различных абзацах разных текстов V:={I ξi(t) , I ξj(a) }, то на основе предварительно выбранных абзацев фрагментов текстов необходимо сформировать единый логически связанный текст, содержащий все словосочетания запросаwhere I ξi (t) , I ξj (a) are the text index and paragraph index of the given text, respectively, containing certain phrases of the user's request. If the indices I ξi (su) : {I ξi (u) I ξj (u) } of the query phrases are not included in their entirety in any paragraph (I ξi (t) , I ξj (a) ) of at least one of the texts I ξi (t) , but are contained in different paragraphs of the same text or in different paragraphs of different texts V: = {I ξi (t) , I ξj (a) } , then based on the pre-selected paragraphs of the text fragments, it is necessary to form a single logically connected text containing all query phrases

S:={I ξi(su) }, включая вопросительное словосочетание. S: = {I ξi (su) }, including the interrogative phrase.

Если словосочетания S:={I ξi(su) }, при этом входят в разные абзацы различных текстов V:={I ξi(t) , I ξj(a) }, то необходимым условием для формирования единого, логически связанного текста ответа является наличие хотя бы в одном из абзацев индексов группы слов ответа I ξ0(su) , главного слова вопросительного словосочетания I ξ1(su) запроса и предикативной основы (I ξ2(su) → I ξ3(su) ) выражения (15), в которую в общем виде входят индексы словосочетаний подлежащего и сказуемого.If the phrases S: = {I ξi (su) }, at the same time, are included in different paragraphs of different texts V: = {I ξi (t) , I ξj (a) } , then the necessary condition for the formation of a single, logically related response text is the presence of at least one of the paragraphs of the indices of the group of response words I ξ0 (su) , the main word of the interrogative phrase I ξ1 (su) of the query and the predicative basis (I ξ2 (su) → I ξ3 (su) ) of expression (15) into which in general, the indices of phrases of the subject and predicate are included.

Если указанное условие выполняется, то выделенная совокупность абзацев используется при дальнейшей обработке, поскольку на основе предварительно выбранных абзацев можно попытаться сформировать единый, логически связанный текст ответа. В противоположном случае необходимо перейти к вводу и индексированию новых текстов по данной теме.If the specified condition is fulfilled, then the selected set of paragraphs is used during further processing, since on the basis of pre-selected paragraphs you can try to form a single, logically related response text. In the opposite case, it is necessary to move on to entering and indexing new texts on this topic.

При выполнении указанного условия переходят к формированию логически связанной совокупности указанных абзацев. С этой целью проверяют выполнение следующего условия: каждое словосочетание входит не менее чем в два различных абзаца:When the specified conditions are met, they proceed to the formation of a logically connected totality of these paragraphs. To this end, verify the following condition: each phrase is included in at least two different paragraphs:

Figure 00000024
Figure 00000024

При невыполнении этого условия проверяется, есть ли в абзацах, содержащих только одно словосочетание запроса I ξi(su), другое словосочетание I ξk(su), которое содержится в других предварительно выбранных абзацах и связано со словосочетанием I ξi(su) одним из базовых семантических отношений. Для проверки этого положения подсистема (3) управления режимом самообучения и извлечения знаний формирует запрос на поиск предложения в базе (8) стохастически индексированных лингвистических текстов, в которое входят указанные индексы, связанные отношением тема → рема: If this condition is not met, it is checked whether in the paragraphs containing only one phrase I ξi (su) , the other phrase I ξk (su) , which is contained in other pre-selected paragraphs and is associated with the phrase I ξi (su), one of the basic semantic relationship. To check this position, the subsystem (3) for managing the self-learning and knowledge extraction mode generates a query to search for a proposal in the database (8) of stochastically indexed linguistic texts, which includes the indicated indices related by the topic → rem relation :

Figure 00000025
Figure 00000025

Найденное предложение поступает в интерпретатор (4) стохастически индексированного текста и правил продукций, где проверяют, соответствует ли отношение (16а) родо-видовым, агрегатным или причинно-следственным отношениям.The found sentence goes to the interpreter (4) of the stochastically indexed text and production rules, where it is checked whether relation (16a) corresponds to the generic, aggregate, or causal relationship.

При невыполнения условий (16) или (16а) считается, что данный фрагмент текста нельзя использовать для формирования ответа.If conditions (16) or (16a) are not fulfilled, it is considered that this fragment of the text cannot be used to form the answer.

Если эти условия выполняются, то переходят к проверке возможности сформировать на основе выделенных абзацев единую семантическую структуру. С этой целью, используя таблицу индексов каждого текста, содержащего предварительно выбранные абзацы, сначала формируют списки индексов словосочетаний. Данные индексы словосочетаний входят в абзац, обозначенный соответствующим индексом:If these conditions are met, then we go on to test the possibility of forming a single semantic structure on the basis of the selected paragraphs. To this end, using the index table of each text containing pre-selected paragraphs, lists of word indexes are first formed. These phrase indices are included in the paragraph indicated by the corresponding index:

Figure 00000026
Figure 00000026

Затем определяют, с какими из абзацев связан каждый данный абзац посредством идентичных индексов словосочетаний в списках указанных абзацев. На основе указанных списков для каждого индекса абзаца составляются новые списки, каждый из которых содержит индексы других абзацев, связанных с данным абзацем идентичными индексами словосочетаний. Если при этом каждый из списков содержит не менее одного индекса абзаца, входящего не менее чем в один из других списков, то, используя прямые или транзитивные связи между списками, образуют единый список, в который входят индексы всех абзацев. В этом случае полагают, что предварительно выбранные абзацы образуют логически связанную совокупность абзацев в виде единого фрагмента текста. В противоположном случае считается, что данная совокупность абзацев не образует логическую структуру, необходимую для формирования единого фрагмента текста. При этом она исключается из процесса обработки, и переходят к предварительному выбору новых фрагментов текстов.Then, it is determined which of the paragraphs each given paragraph is associated with using identical phrase indices in the lists of said paragraphs. Based on the lists for each paragraph index, new lists are compiled, each of which contains indices of other paragraphs associated with the same paragraph with identical phrase indices. If at the same time each of the lists contains at least one index of the paragraph included in at least one of the other lists, then using direct or transitive links between the lists, they form a single list, which includes indices of all paragraphs. In this case, it is believed that the pre-selected paragraphs form a logically related collection of paragraphs in the form of a single piece of text. In the opposite case, it is believed that this set of paragraphs does not form the logical structure necessary to form a single piece of text. At the same time, it is excluded from the processing process, and they proceed to the preliminary selection of new text fragments.

После определения того, что предварительно выбранные абзацы образуют единую структуру логически связанных абзацев, на основе соответствующих таблиц индексов каждого текста формируют единую таблицу текста. При этом указанные абзацы располагаются в последовательности, определяемой порядком следования входящих в них словосочетаний запроса в вопросительном предложении запроса. Полученный в результате фрагмент текста поступает в дальнейшую обработку для определения с помощью логического вывода вида семантических связей между предложениями абзацев, содержащих все словосочетания {I ξi(u) } запроса. Цель реализации указанных функций - попытка сформировать на основе полученного фрагмента текста в соответствии с описанным выше алгоритмом стохастически индексированную семантическую структуру, включающую все словосочетания запроса. Затем полученная семантическая структура с использованием эквивалентных преобразований и логического вывода на транзитивных зависимостях в соответствии с описанным выше алгоритмом применяется для формирования семантической структуры (15) предложения, содержащего краткий ответ, релевантный запросу пользователя. При этом корректность краткого ответа обеспечивают путем формирования описанным выше порядком нескольких идентичных стохастически индексированных семантических структур (15) на основе различных, предварительно выбранных стохастически индексированных фрагментов текстовых документов.After determining that the pre-selected paragraphs form a single structure of logically related paragraphs, on the basis of the corresponding index tables of each text form a single text table. At the same time, the indicated paragraphs are arranged in the sequence determined by the sequence of the phrases of the query included in them in the interrogative sentence of the query. The resulting fragment of the text goes into further processing to determine, using logical inference, the form of semantic connections between paragraph sentences containing all the phrases {I ξi (u) } of the query. The purpose of the implementation of these functions is an attempt to form a stochastically indexed semantic structure, including all phrases of the query, on the basis of the received fragment of text in accordance with the algorithm described above. Then, the obtained semantic structure using equivalent transformations and inference on transitive dependencies in accordance with the algorithm described above is used to form the semantic structure (15) of the sentence containing a short answer relevant to the user's request. At the same time, the correctness of the short answer is ensured by forming, as described above, several identical stochastically indexed semantic structures (15) based on various pre-selected stochastically indexed fragments of text documents.

Полученный краткий ответ вместе с вопросительным словосочетанием при этом записывается в базу знаний (9) "запрос-ответ", которая используется для обработки повторяющихся типовых запросов пользователей, а также, как описано выше, при семантическом анализе индексируемых текстов.The short answer obtained, together with the interrogative phrase, is then recorded in the knowledge base (9) "request-response", which is used to process repeated typical user requests, as well as, as described above, in the semantic analysis of indexed texts.

Если после образования семантической структуры выяснится, что между словосочетаниями {I ξi(su) } запроса в данном фрагменте текста не поддерживаются требуемые базовые семантические связи, то переходят к поиску новых текстов для формирования ответа пользователя.If, after the formation of the semantic structure, it turns out that between the phrases {I ξi (su) } of the query in this fragment of the text the required basic semantic relationships are not supported, then we proceed to search for new texts to form the user's response.

В случае положительного результата логического вывода будет сформировано предложение, содержащее краткий ответ, релевантный запросу, для выдачи его пользователю в текстовом виде на заданном языке. Если при этом пользователь потребует дать ему более полный ответ, то переходят к формированию полного ответа на основе преобразования полученного ранее фрагмента текста в соответствии с описанным ниже алгоритмом.In the case of a positive result of the logical conclusion, a proposal will be generated containing a short answer relevant to the request, for delivery to the user in text form in a given language. If at the same time the user demands to give him a more complete answer, then they proceed to the formation of a complete answer based on the conversion of the previously received fragment of text in accordance with the algorithm described below.

Рассмотрим на примере порядок реализации описанного выше алгоритма формирования краткого ответа. Допустим, что после эквивалентных преобразований поступившего запроса пользователя он принял в текстовом выражении следующий вид: "Какая программа используется при некорректном завершении работы с компьютером в результате пропадания напряжения в сети?" Это обеспечило возможность предварительного выбора следующих двух логически связанных абзацев из разных текстовых документов, содержащих в совокупности все словосочетания преобразованного запроса. Первый абзац:Consider, for example, the implementation order of the short answer generation algorithm described above. Suppose that after equivalent conversions of a user’s request, he took the following form in text expression: "What program is used when the computer is not completed correctly as a result of power failure?" This made it possible to preselect the next two logically related paragraphs from different text documents containing all the phrases of the converted query together. First paragraph:

"На жестком диске могут возникать логические ошибки. Логические ошибки - это нарушения в файловой структуре. Для выявления логических ошибок используется программа "Проверка диска". Логические ошибки возникают при некорректном завершении работы с компьютером". " Logical errors can occur on the hard disk. Logical errors are violations in the file structure. The Disk Check program is used to detect logical errors. Logical errors occur when the computer is not completed correctly."

Второй абзац: "В результате пропадания напряжения в сети на жестком диске возникают нарушения в файловой структуре. В этом случае используется программа "Проверка диска". The second paragraph: "As a result of the loss of voltage in the network on the hard disk, violations occur in the file structure. In this case, the" Disk Check "program is used.

В стохастически индексированном виде, в котором происходит реальный процесс обработки запроса и формирования краткого ответа, текст запроса имеет следующий вид:In a stochastically indexed form, in which the real process of processing the request and forming a short response takes place, the text of the request has the following form:

Figure 00000027
Figure 00000027

При этом стохастическим индексам I ξ0j(su) соответствуют следующие словосочетания:Moreover, the following phrases correspond to stochastic indices I ξ0j (su) :

I ξ01(su) : = (какая программа), I ξ01 (su) : = (which program),

I ξ02(su) : = (программа), I ξ02 (su) : = (program),

I ξ03(su) : = (используется), I ξ03 (su) : = (used),

I ξ04(su) : = (при некорректном завершении), I ξ04 (su) : = (upon incorrect completion),

I ξ05(su) : = (работы с компьютером), I ξ05 (su) : = (work with computer),

I ξ041(su) : = (в результате пропадания), I ξ041 (su) : = (as a result of disappearance),

I ξ051(su) : = (напряжения в сети). I ξ051 (su) : = (mains voltage).

Предложения первого абзаца в стохастически индексированном виде будут представлены следующим образом:The sentences of the first paragraph in stochastically indexed form will be presented as follows:

Figure 00000028
Figure 00000028

При этом стохастическим индексам I ξij(su) соответствуют следующие словосочетания:Moreover, the following phrases correspond to stochastic indices I ξij (su) :

I ξ12(su) : = (логические ошибки), I ξ12 (su) : = (logical errors),

I ξ13(su) : = (могут возникать), I ξ13 (su) : = (may occur),

I ξ14(su) : = (на жестком диске), I ξ14 (su) : = (on the hard disk),

I ξ22(su) : = (логические ошибки) I ξ22 (su) : = (logical errors)

I ξ23(su) : = (- это), I ξ23 (su) : = (- this),

I ξ24(su) : = (нарушения в файловой структуре), I ξ24 (su) : = (violations in the file structure),

I ξ32(su) : = (программа "Проверка диска"), I ξ32 (su) : = (Disk Check program),

I ξ33(su) : = (используется), I ξ33 (su) : = (used),

I ξ34(su) : = (для выявления), I ξ34 (su) : = (for identification),

I ξ35(su) : = (логических ошибок), I ξ35 (su) : = (logical errors),

I ξ42(su) : = (логические ошибки), I ξ42 (su) : = (logical errors),

I ξ43(su) : = (возникают), I ξ43 (su) : = (arise),

I ξ44(su) : = (при некорректном завершении), I ξ44 (su) : = (upon incorrect completion),

I ξ45(su) : = (работы с компьютером). I ξ45 (su) : = (work with the computer).

Предложения второго абзаца в стохастически индексированном виде будут иметь следующий вид:The sentences of the second paragraph in a stochastically indexed form will have the following form:

Figure 00000029
Figure 00000029

При этом стохастическим индексам I ξij(su) соответствуют следующие словосочетания:Moreover, the following phrases correspond to stochastic indices I ξij (su) :

I ξ52(su) : = (нарушения файловой структуры), I ξ52 (su) : = (file structure violations),

I ξ53(su) : = (возникают), I ξ53 (su) : = (arise),

I ξ54(su) : = (на жестком диске), I ξ54 (su) : = (on the hard disk),

I ξ55(su) : = (в результате пропадания), I ξ55 (su) : = (as a result of disappearance),

I ξ551(su) : = (напряжения в сети), I ξ551 (su) : = (mains voltage),

I ξ62(su) : = (программа "Проверка диска"), I ξ62 (su) : = (Disk Check program),

I ξ63(su) : = (используется), I ξ63 (su) : = (used),

I ξ64(su) : = (для выявления), I ξ64 (su) : = (for identification),

I ξ65(su) : = (логических ошибок), I ξ65 (su) : = (logical errors),

I ξ651(su) : = (в этом случае). I ξ651 (su) : = (in this case).

На основе приведенных выше стохастически индексированных семантических структур описанным выше порядком будет образована стохастически индексированная семантическая структура, включающая все I ξij(su) словосочетаний запроса. В качестве основы выбрана структура I ξ3(р) , которая включает группу слов ответа I ξ32(su) , соответствующую вопросительному словосочетанию I ξ31(su) . При этом учитывается идентичность (с точностью до основ слов) следующих индексов словосочетаний:Based on the above stochastically indexed semantic structures, the stochastically indexed semantic structure including all I ξij (su) phrases of the query will be formed as described above. The structure I ξ3 (p) , which includes the group of response words I ξ32 (su) , corresponding to the interrogative phrase I ξ31 (su), was chosen as the basis . This takes into account the identity (up to the basics of words) of the following phrase indices:

Figure 00000030
Figure 00000030

В результате указанная стохастически индексированная структура будет иметь следующий вид:As a result, the indicated stochastically indexed structure will have the following form:

Figure 00000031
Figure 00000031

Учитывая, отмеченную выше идентичность соответствующих индексов и тот факт, что зависимости между индексами в данной семантической структуре имеют родо-видовой и причинно-следственный характер, получим с использованием логического вывода на транзитивных зависимостях следующую структуру:Considering the above-mentioned identity of the corresponding indices and the fact that the dependencies between the indices in this semantic structure are of a genus-specific and causal nature, we obtain the following structure using inference on transitive dependencies:

Figure 00000032
Figure 00000032

В результате будет сформирована стохастически индексированная семантическая структура краткого ответа, которая в текстовом представлении будет иметь следующее вид: "Программа "Проверка диска" используется при некорректном завершении работы с компьютером в результате пропадания напряжения в сети" . As a result, a stochastically indexed semantic structure of the short answer will be formed, which in the textual representation will look like this: "The Disk Check program is used when the computer is not completed properly due to a power failure . "

Полученный краткий ответ после замены группы слов ответа "Программа "Проверка диска" на соответствующее вопросительное словосочетание "Какая программа" будет идентичен запросу: "Какая программа используется при некорректном завершении работы с компьютером в результате пропадания напряжения в сети?" . Это является критерием релевантности полученного краткого ответа запросу. Поэтому полученный краткий ответ может быть выдан пользователю.The received short answer after replacing the group of answer words "Program" Disk Check " with the corresponding interrogative phrase " Which program " will be identical to the query: " Which program is used when the computer is not completed correctly due to power failure? " . This is a criterion for the relevance of the received short answer to the request, therefore, the received short answer can be given to the user.

Для формирования полного ответа на основе предварительно выбранного абзаца или полученного фрагмента текста отбирают только те предложения, которые были задействованы в логическом выводе при формировании краткого ответа-предложения. При этом из предложений указанных абзацев или фрагментов текстов выстраивают последовательности, обусловленные логическими связями. Порядок логических связей такой же, как при определении семантической связанности между словосочетаниями запроса. Эти словосочетания, входящие в состав разных предложений, связаны с теми словосочетаниями запроса, которые имеются в составе предложения, содержащего группу слов ответа и главное слово вопросительного словосочетания. Порядок следования цепочек предложения определяется порядком следования соответствующих им словосочетаний запроса в сформированном ранее кратком предложении - ответе пользователю. В процессе формирования полного ответа для обеспечения согласования предложений могут производить эквивалентные преобразования отдельных предложений путем замены частей речи или членов предложений без изменения смыслового содержания этих предложений. Если эквивалентные преобразования предложения требуют замены предлогов, то их производят с учетом того, какие характеристики должны иметь части речи при сочетании их с конкретными предлогами. В случае необходимости для согласования существительных или прилагательных, местоимений или причастий с новыми предлогами могут производить замену падежей указанных частей речи. Для этого используют соответствующие правила, связывающие предлог с падежами, в которых указанные части речи согласуются с данным предлогом.To formulate a complete answer based on a pre-selected paragraph or a received fragment of text, only those sentences that were involved in the inference during the formation of a short answer-sentence are selected. At the same time, from the sentences of the indicated paragraphs or text fragments, the sequences due to logical connections are built. The order of logical connections is the same as in the definition of semantic connectivity between phrases of a query. These phrases, which are part of different sentences, are associated with those query phrases that are in the sentence containing a group of response words and the main word of the interrogative phrase. The order of the sentence chains is determined by the order of the corresponding phrases of the request in the previously formed short sentence - the response to the user. In the process of forming a complete answer, to ensure coordination of sentences, they can produce equivalent transformations of individual sentences by replacing parts of speech or members of sentences without changing the semantic content of these sentences. If equivalent conversions of a sentence require replacing prepositions, then they are made taking into account what characteristics parts of speech should have when combined with specific prepositions. If necessary, to harmonize nouns or adjectives, pronouns or participles with new prepositions, they can replace the cases of these parts of speech. To do this, use the appropriate rules connecting the preposition with cases in which these parts of speech are consistent with this preposition.

Если вопросительное слово или словосочетание запроса (как? каким образом?) предполагает не короткий ответ в одном предложении, а представление последовательности действий или описаний какого-либо процесса или явления, в этом случае короткий ответ может быть предложением-зачином, содержащим группу слов ответа типа: "следующим образом", "таким образом". При этом в следующих предложениях ответа раскрывается содержание последовательности действий или описаний, содержащих ответ пользователю с требуемой полнотой. В случае отсутствия такой типовой группы слов ответа она может быть введена дополнительно для формирования предложения-зачина. После этого группа слов ответа в предложении-зачине принимается в качестве начальной темы будущего полного ответа. Далее с помощью логического вывода выбирается последовательность предложений одного или нескольких абзацев, которые образуют совокупность семантически связанных предложений полного ответа на данный вопрос пользователя. При этом границы ответа будут определяться непрерывной цепочкой логически связанных предложений, которая завершается при окончании одного из абзацев, если тема последнего предложения этого абзаца не связана с ремой первого предложения последующего абзаца. После формирования фрагмента текста, содержащего полный ответ, включая предложение-зачин, он выдается пользователю.If the question word or phrase of the request (how? How?) Does not imply a short answer in one sentence, but a representation of a sequence of actions or descriptions of a process or phenomenon, in this case the short answer can be a sentence-sentence containing a group of response words of the type : "as follows," "in this way." In this case, the following response sentences disclose the contents of the sequence of actions or descriptions containing the answer to the user with the required completeness. In the absence of such a typical group of response words, it can be introduced in addition to form a sentence-reason. After this, the group of response words in the sentence-sentence is accepted as the initial topic of the future complete answer. Then, using a logical conclusion, a sequence of sentences of one or several paragraphs is selected, which form a set of semantically related sentences of a complete answer to this user's question. At the same time, the boundaries of the answer will be determined by a continuous chain of logically related sentences, which ends when one of the paragraphs ends, if the topic of the last sentence of this paragraph is not connected with the first sentence of the next paragraph. After the formation of a fragment of text containing a complete answer, including a sentence-sentence, it is issued to the user.

Разработанный способ может быть использован для синтеза самообучающейся системы извлечения знаний из текстовых документов поисковых систем на заданном иностранном языке. Автоматическое обучение системы правилам морфологического, синтаксического и семантического анализа производят описанным выше порядком с использованием стохастически индексированных лингвистических текстов на заданном иностранном языке. Полученные правила, также представленные на заданном иностранном языке, стохастически индексируют и записывают в соответствующие базы знаний (12-14) морфологического, синтаксического и семантического анализа. При этом производят заполнение базы данных (7) стохастически индексированных словарей базового и новых слов, а также баз (10) стохастически индексированных текстовых документов по заданным темам на данном иностранном языке.The developed method can be used to synthesize a self-learning system for extracting knowledge from text documents of search engines in a given foreign language. The system is automatically trained in the rules of morphological, syntactic and semantic analysis as described above using stochastically indexed linguistic texts in a given foreign language. The obtained rules, also presented in a given foreign language, are stochastically indexed and recorded in the corresponding knowledge bases (12-14) of morphological, syntactic and semantic analysis. At the same time, the database (7) of stochastically indexed dictionaries of the base and new words is filled, as well as the databases (10) of stochastically indexed text documents on given topics in this foreign language.

После заполнения указанных баз данных и знаний описанным выше порядком осуществляют преобразования запросов пользователей на данном иностранном языке, предварительный выбор фрагментов текстовых документов по соответствующим темам. Затем осуществляют эквивалентные преобразования данных фрагментов текстовых документов, образование стохастически индексированных семантических структур и логический вывод с использованием указанных структур для формирования краткого ответа, релевантного запросу на заданном иностранном языке.After filling in the indicated databases and knowledge as described above, the user requests are converted in this foreign language, and the preliminary selection of fragments of text documents on relevant topics is performed. Then, equivalent transformations of these fragments of text documents are carried out, the formation of stochastically indexed semantic structures and logical inference using these structures to form a short answer relevant to the request in a given foreign language.

Разработанный способ может быть использован также для синтеза самообучающейся системы извлечения знаний из текстовых документов поисковых систем на любом из множества заданных иностранных языков. Для этой цели используют описанный выше механизм самообучения в виде стохастически индексированной системы искусственного интеллекта, основанной на применении уникальных комбинаций двоичных сигналов стохастических индексов информации для стохастической индексации и поиска фрагментов лингвистических текстов на заданном базовом языке, содержащих описание процедур грамматического и семантического анализа. Данный механизм обеспечивает автоматическое обучение системы правилам грамматического и семантического анализа путем эквивалентных преобразований стохастически индексированных фрагментов текста на любом из заданных иностранных языков, логического вывода и формирования из указанных фрагментов текста связанных семантических структур, их стохастического индексирования для представления в формате правил продукций.The developed method can also be used to synthesize a self-learning system for extracting knowledge from text documents of search engines in any of a variety of specified foreign languages. For this purpose, the self-learning mechanism described above is used in the form of a stochastically indexed artificial intelligence system based on the use of unique combinations of binary signals of stochastic information indices for stochastic indexing and searching for fragments of linguistic texts in a given base language containing a description of grammatical and semantic analysis procedures. This mechanism provides automatic training of the system for the rules of grammatical and semantic analysis by equivalent transformations of stochastically indexed text fragments in any of the given foreign languages, inference and formation of related semantic structures from these text fragments, their stochastic indexing for presentation in the format of production rules.

Сначала с помощью описанного выше механизма производят морфологический анализ и стохастическое индексирование лингвистических текстов на заданном базовом языке в электронном виде с одновременным автоматическим обучением системы правилам морфологического анализа. Это осуществляется одновременно с формированием базы данных (7) стохастически индексированных словарей и формированием таблиц индексов лингвистических текстов базы (8) для каждого из заданных иностранных языков, а также базы знаний (12) морфологического анализа, содержащей полученные правила продукций для заданного базового языка и каждого из заданных иностранных языков.First, using the mechanism described above, morphological analysis and stochastic indexing of linguistic texts in a given basic language in electronic form are performed with simultaneous automatic training of the system in the rules of morphological analysis. This is carried out simultaneously with the formation of a database (7) of stochastically indexed dictionaries and the formation of index tables of linguistic texts of the database (8) for each of the given foreign languages, as well as the knowledge base (12) of the morphological analysis containing the obtained production rules for the given base language and each from the given foreign languages.

После этого производят морфологический и синтаксический анализ, а также стохастическое индексирование текстовых документов по заданной теме на каждом из заданных иностранных языков после получения их в электронном виде из поисковой системы. При этом производят формирование таблиц индексов текстовых документов по заданной теме и запись их в базу (10) стохастически индексированных текстов с одновременным автоматическим обучением системы правилам синтаксического анализа. Указанное обучение производят описанным выше порядком с использованием стохастически индексированных лингвистических текстов на заданном базовом языке. При этом осуществляют формирование базы знаний (13) синтаксического анализа для базового языка и каждого из заданных иностранных языков.After that, morphological and syntactic analysis is performed, as well as stochastic indexing of text documents on a given topic in each of the given foreign languages after receiving them in electronic form from a search system. In this case, tables of indexes of text documents are generated on a given topic and written to the database (10) of stochastically indexed texts with simultaneous automatic training of the system in the rules of parsing. The specified training is carried out as described above using stochastically indexed linguistic texts in a given base language. In this case, the formation of the knowledge base (13) of parsing for the base language and each of the specified foreign languages is carried out.

Затем производят семантический анализ стохастически индексированных текстовых документов по заданной теме на заданном базовом языке в электронном виде с одновременным автоматическим обучением системы правилам семантического анализа и формированием базы знаний (14) семантического анализа для базового языка и каждого из заданных иностранных языков.Then, a semantic analysis of stochastically indexed text documents is carried out on a given topic in a given base language in electronic form with simultaneous automatic training of the system for the rules of semantic analysis and the formation of a semantic analysis knowledge base (14) for the base language and each of the specified foreign languages.

После заполнения базы знаний (11-12) система переходит из режима автоматического обучения в режим обработки запросов пользователей. При этом запрос пользователя формируют на естественном заданном иностранном языке и представляют его в электронном виде после стохастического индексирования в форме вопросительного предложения, включающего вопросительное словосочетание и словосочетания, которые определяют семантику запроса. После этого описанным выше порядком преобразуют запрос пользователя в стохастически индексированном виде во множество новых запросов, эквивалентных исходному запросу на заданном иностранном языке. Затем в соответствии с запросом пользователя осуществляют предварительный выбор стохастически индексированных фрагментов текстовых документов на заданном иностранном языке в электронном виде, содержащих в совокупности все словосочетания преобразованного запроса. Используя указанные фрагменты текстовых документов формируют стохастически индексированную семантическую структуру. На основе сформированной стохастически индексированной семантической структуры с помощью логического вывода, обеспечивающего связь стохастически индексированных элементов различных текстов, и эквивалентного преобразования текста формируют краткий ответ системы, содержащий словосочетания в стохастически индексированном виде, которые определяют семантику запроса, а также группу слов ответа, соответствующую вопросительному словосочетанию запроса. При этом обеспечивают корректность краткого ответа путем формирования нескольких идентичных стохастически индексированных семантических структур на основе различных, предварительно выбранных стохастически индексированных фрагментов текстовых документов.After filling in the knowledge base (11-12), the system switches from automatic learning mode to user request processing mode. At the same time, the user’s request is formed in a naturally defined foreign language and presented in electronic form after stochastic indexing in the form of an interrogative sentence, including an interrogative phrase and phrases that determine the semantics of the request. After that, as described above, the user's request is converted in a stochastically indexed form into many new queries that are equivalent to the original query in a given foreign language. Then, in accordance with the user’s request, a preliminary selection of stochastically indexed fragments of text documents in a given foreign language in electronic form, containing together all the phrases of the converted request, is carried out. Using the indicated fragments of text documents, a stochastically indexed semantic structure is formed. Based on the generated stochastically indexed semantic structure with the help of logical inference, ensuring the connection of stochastically indexed elements of various texts, and equivalent text conversion, a short system response is formed containing phrases in stochastically indexed form that determine the query semantics, as well as a group of response words corresponding to the interrogative phrase request. This ensures the correctness of the short answer by forming several identical stochastically indexed semantic structures based on different, pre-selected stochastically indexed fragments of text documents.

Затем проверяют релевантность полученного краткого ответа системы запросу посредством замены группы слов ответа на соответствующее вопросительное словосочетание в стохастически индексированном виде, получения стохастически индексированного вопросительного предложения, сравнения полученного вопросительного предложения с запросом. На основе сравнения указанных предложений при идентичности полученного вопросительного предложения и запроса принимают решение о релевантности краткого ответа системы запросу и представляют его на заданном иностранном языке.Then, the relevance of the short answer of the system to the request is checked by replacing the group of response words with the corresponding interrogative phrase in a stochastically indexed form, obtaining a stochastically indexed interrogative sentence, comparing the received interrogative sentence with the query. Based on a comparison of the indicated sentences with the identity of the received interrogative sentence and the request, a decision is made on the relevance of the short response of the system to the request and presented in a given foreign language.

Рассмотрим теперь другой порядок применения данного способа для синтеза самообучающейся системы, обеспечивающей одновременное извлечение знаний из текстовых документов на любом из заданных иностранных языков. В этом случае сначала производят автоматическое обучение системы описанным выше порядком правилам морфологического, синтаксического и семантического анализа с использованием стохастически индексированных лингвистических текстов на заданном базовом языке. При этом в состав базы (8) стохастически индексированных лингвистических текстов включают учебно-методические пособия по изучению каждого из заданных иностранных языков на выбранном базовом языке. В базу (11) стохастически индексированных словарей иностранных слов записывают словари, обеспечивающие прямой и обратный перевод отдельных слов с базового языка на любой из заданных иностранных языков. Затем осуществляют формирование базы данных (7) стохастически индексированного словаря и баз знаний (12-14) морфологического, синтаксического, семантического анализа на заданном базовом языке. После этого подсистема управления (3) режимом автоматического обучения осуществляет автоматическое формирование запросов к указанным базам данных и знаний для предварительного выбора фрагментов лингвистических текстов на базовом языке, содержащих знания, необходимые для изучения каждого из заданных иностранных языков. Затем производят эквивалентные преобразования текстов, формирования стохастически индексируемых семантических структур и логический вывод на заданных структурах для формирования ответов, релевантных автоматическим запросам. Эти ответы используют для формирования правил продукций морфологического, синтаксического и семантического анализа текстовых документов для каждого иностранного языка. Например, если базовым языком является русский язык, то при формировании базы знаний синтаксического анализа для изучения английского языка, среди автоматически формируемых правил могут быть следующие:Let us now consider a different order of application of this method for the synthesis of a self-learning system that provides simultaneous extraction of knowledge from text documents in any of the given foreign languages. In this case, first, the system is automatically trained in the order described above for the rules of morphological, syntactic and semantic analysis using stochastically indexed linguistic texts in a given base language. Moreover, the base (8) of stochastically indexed linguistic texts includes teaching aids for studying each of the given foreign languages in the selected base language. Dictionaries are written in the database (11) of stochastically indexed dictionaries of foreign words, providing direct and reverse translation of individual words from the base language into any of the specified foreign languages. Then, a database (7) of a stochastically indexed dictionary and knowledge bases (12-14) of morphological, syntactic, semantic analysis in a given base language are formed. After that, the control subsystem (3) of the automatic learning mode automatically generates queries to the indicated databases and knowledge for preliminary selection of fragments of linguistic texts in the base language containing the knowledge necessary for studying each of the given foreign languages. Then, equivalent text transformations are made, stochastically indexed semantic structures are formed, and logical inference is made on the given structures to form answers relevant to automatic queries. These answers are used to formulate production rules for morphological, syntactic and semantic analysis of text documents for each foreign language. For example, if the base language is Russian, then when creating the knowledge base of parsing for learning English, among the automatically generated rules there may be the following:

1. Если существительное без предлога стоит в начале предложения,1. If a noun without a preposition is at the beginning of a sentence,

и это существительное стоит перед существительным с предлогом of (in, from), and this noun faces the noun with the pretext of (in, from),

и за этим существительным следует глагол,and this noun is followed by the verb

то первое существительное - подлежащее.then the first noun is the subject.

Например: The work of the engineer is on the table. For example: The work of the engineer is on the table.

2. Если словосочетание состоит из глагола-связки (глагол to be в личной форме) и именной части, выраженной прилагательным,2. If the phrase consists of a bunch verb (the verb to be in personal form) and a nominal part expressed by an adjective,

то это словосочетание - составное именное сказуемое.then this phrase is a compound nominal predicate.

Например:The tree is big. For example: The tree is big.

Полученные правила после стохастического индексирования записывают в базы знаний (12-14) морфологического, синтаксического и семантического анализа для обеспечения извлечения знаний из текстовых документов на заданном иностранном языке в соответствии с запросами пользователей. При этом формирование базы данных стохастически индексированных словарей и таблиц индексированных текстовых документов по заданным темам производят с использованием соответствующего иностранного языка. Отметим, что в процессе семантического анализа текстовых документов по заданным темам на соответствующем иностранном языке для определения вида семантического отношения осуществляется перевод отдельных словосочетаний с помощью базы (11) стохастически индексированных словарей иностранных слов на базовый язык. Указанное словосочетание с помощью логического вывода по таблицам индексов толковых словарей на базовом языке соотносят с одним из видов семантических отношений, индексы которых записаны в интерпретаторе (4) стохастически индексированных текстов и правил продукций. Это позволяет использовать семантический анализ для уточнения описанным выше порядком принадлежности слов к членам предложения, а также для определения вида отношений между словосочетаниями при формировании стохастически индексированной семантической структуры ответа на запрос.The rules obtained after stochastic indexing are recorded in the knowledge base (12-14) of morphological, syntactic and semantic analysis to ensure the extraction of knowledge from text documents in a given foreign language in accordance with user requests. Moreover, the formation of a database of stochastically indexed dictionaries and tables of indexed text documents on given topics is performed using the corresponding foreign language. Note that in the process of semantic analysis of text documents on given topics in the corresponding foreign language to determine the type of semantic relation, individual phrases are translated using the base (11) of stochastically indexed dictionaries of foreign words into the base language. The specified phrase with the help of logical inference on the tables of indexes of explanatory dictionaries in the base language is correlated with one of the types of semantic relations whose indices are written in the interpreter (4) of stochastically indexed texts and production rules. This allows you to use semantic analysis to clarify the above-described order of word belonging to the sentence members, as well as to determine the type of relationship between phrases in the formation of a stochastically indexed semantic structure of the response to the request.

С помощью указанных баз данных и знаний по командам подсистемы (3) управления режимом самообучения и извлечения знаний осуществляют эквивалентное преобразование запросов пользователей на заданных иностранных языках. Затем производят предварительный выбор фрагментов текстовых документов по заданным темам, их эквивалентные преобразования, формирование стохастически индексированных семантических структур и логический вывод на данных структурах. Это обеспечивает формирование ответов, релевантных запросам пользователей, на каждом из числа заданных иностранных языков.Using the indicated databases and knowledge of the commands of the subsystem (3), the self-learning and knowledge management regimes perform equivalent conversion of user requests in given foreign languages. Then a preliminary selection of fragments of text documents is carried out on given topics, their equivalent transformations, the formation of stochastically indexed semantic structures and logical inference on these structures. This ensures the formation of answers relevant to user requests in each of the number of specified foreign languages.

Если при обработке запроса выясняется, что необходимо обращение к поисковой системе для ввода новых текстовых документов на одном из иностранных языков по заданной теме, то подсистема (3) управления режимом самообучения и извлечения знаний подключает многоязычный лингвистический процессор (1). В него поступает команда на ввод новых документов с указанием темы и наименования языка, которые представлены на базовом языке. Многоязычный лингвистический процессор (1) с помощью базы (11) стохастически индексированных словарей иностранных слов выбирает соответствующий словарь и производит перевод слов, обозначающих наименование темы, на соответствующий иностранный язык. По полученной информации многоязычный лингвистический процессор (1) формирует формализованный запрос на заданном языке к поисковой системе для ввода новых документов на иностранном языке по соответствующей теме. Указанные документы поступают в подсистему (2) стохастического индексирования текстовых документов и выделения фрагментов текстов для описанной выше обработки и ввода в базу (10) стохастически индексированных текстовых документов по заданным темам.If, when processing a request, it turns out that a search engine is needed to enter new text documents in one of the foreign languages on a given topic, then the subsystem (3) for managing the self-learning and knowledge extraction mode connects a multilingual linguistic processor (1). It receives a command to enter new documents indicating the topic and the name of the language, which are presented in the base language. The multilingual linguistic processor (1), using the database (11) of stochastically indexed dictionaries of foreign words, selects the appropriate dictionary and translates the words denoting the topic name into the corresponding foreign language. According to the information received, the multilingual linguistic processor (1) generates a formalized request in a given language to a search system for entering new documents in a foreign language on a relevant topic. The indicated documents enter the subsystem (2) of stochastic indexing of text documents and extract fragments of texts for the processing described above and input into the database (10) of stochastically indexed text documents on given topics.

Промышленная применимостьIndustrial applicability

Способ синтеза самообучающейся системы извлечения знаний из текстовых документов поисковых систем прежде всего может быть использован для создания на базе Internet глобальной индустрии знаний с использованием многоязычных систем извлечения знаний из текстов. Это обеспечит качественно новый информационный сервис в различных сферах - производственной, научной, образовательной, культурной и бытовой деятельности человека с учетом современных требований развития цивилизованного общества. Другим перспективным направлением промышленного применения указанного способа являются мобильные системы (мобильный Internet). Это обусловлено возможностью создания интеллектуальных информационно-поисковых систем, обеспечивающих извлечение из больших объемов текстовых документов Internet конкретных знаний и сведений по запросам пользователей с минимизацией времени передачи и восприятия пользователем необходимой ему информации. При этом запросы могут вводиться пользователем в систему на естественном языке и в речевой форме. Важным направлением промышленного применения предложенного способа является создание нового поколения интеллектуальных обучающих систем по различным предметам и проблемным областям.A method for synthesizing a self-learning system for extracting knowledge from text documents of search engines can primarily be used to create an Internet-based global knowledge industry using multilingual systems for extracting knowledge from texts. This will provide a qualitatively new information service in various fields - industrial, scientific, educational, cultural and domestic human activities, taking into account the modern requirements of the development of a civilized society. Another promising area of industrial application of this method are mobile systems (mobile Internet). This is due to the possibility of creating intelligent information retrieval systems that extract specific knowledge and information from large volumes of Internet text documents at the request of users with minimizing the time for transmission and perception by the user of the information he needs. In this case, requests can be entered by the user into the system in natural language and in speech form. An important area of industrial application of the proposed method is the creation of a new generation of intelligent teaching systems in various subjects and problem areas.

Таблица 1Table 1
Фрейм предложенияFrame suggestions
Вопросы к простым предложениямQuestions for simple sentences Вопросы к простым предложениям формируются на основе базы знаний синтаксического анализаQuestions for simple sentences are formed on the basis of the syntactic analysis knowledge base Наименование простых предложений в составе сложносочиненных или сложноподчиненныхThe name of simple sentences in the composition of complex or complex subject Характеристики простых предложенийCharacteristics of simple sentences Вопросы к группам членов предложенияQuestions to offer member groups Вопросы к группам членов предложения формируются на основе вопросов к членам предложения, являющимся основой данной группыQuestions to the groups of members of the proposal are formed on the basis of questions to the members of the proposal, which are the basis of this group Наименования групп членов предложенияNames of proposal member groups Группа подлежащего,
группа сказуемого,
группа дополнения,
группа обстоятельства,
группа обособленных членов предложения,
группа вводных слов, словосочетаний и вставных конструкций
Subject Group
predicate group
supplement group
group of circumstances
a group of separate members of the proposal,
group of introductory words, phrases and plug-ins
Вопросы к членам предложенияQuestions to members of the proposal По формату словаря (включая предлоги) и таблице перевода вопросов к частям речи в вопросы к членам предложенияAccording to the format of the dictionary (including prepositions) and the table for translating questions to parts of speech into questions to sentence members Наименования членов предложенияNames of proposal members Подлежащее,
сказуемое (простое глагольное, составное глагольное, составное именное),
определение (согласованное, несогласованное),
дополнение (прямое, косвенное),
обстоятельство (образа действия, места, времени, меры или степени, причины, цели, условия, уступки)
Subject
predicate (simple verb, compound verb, compound noun),
definition (agreed, inconsistent),
addition (direct, indirect),
circumstance (mode of action, place, time, measure or degree, reason, purpose, condition, assignment)
Вопросы к частям речиQuestions for parts of speech По формату словаряBy dictionary format Части речи и их характеристикиParts of speech and their characteristics По формату словаряBy dictionary format СловоWord В контексте предложенияIn the context of the proposal Стохастические индексы основ словStochastic indices of word stems Вычисляются по специальному алгоритму или выделяются из формата словаряCalculated by a special algorithm or extracted from the dictionary format

Таблица 2table 2
Индексы текстаText indices
Индексы основ словBasic Word Indexes Индексы абзацевParagraph Indices I ξ1(a) I ξ1 (a) I ξ2(a) I ξ2 (a) ...... I ξn(a) I ξn (a) I ξ1(u) I ξ1 (u) I ξ11(s) I ξ11 (s) I ξ12(s) I ξ12 (s) ...... I ξ1n(s) I ξ1n (s) I ξ2(u) I ξ2 (u) I ξ21(s) I ξ21 (s) I ξ22(s) I ξ22 (s) ...... I ξ2n(s) I ξ2n (s) ...... ...... ...... ...... ...... I ξm(u) I ξm (u) I ξm1(s) I ξm1 (s) I ξm2(s) I ξm2 (s) ...... I ξmn(s) I ξmn (s)

Таблица 3Table 3
Индексы текстов по данной темеIndexes of texts on this topic
Индексы основ словBasic Word Indexes Индексы текстовText Indexes I ξ1(t) I ξ1 (t) I ξ2(t) I ξ2 (t) ...... I ξn(t) I ξn (t) I ξ1(u) I ξ1 (u) I ξ11(s) I ξ11 (s) I ξ12(s) I ξ12 (s) ...... I ξ1n(s) I ξ1n (s) I ξ2(u) I ξ2 (u) I ξ21(s) I ξ21 (s) I ξ22(s) I ξ22 (s) ...... I ξ2n(s) I ξ2n (s) ...... ...... ...... ...... ...... I ξm(u) I ξm (u) I ξm1(s) I ξm1 (s) I ξm2(s) I ξm2 (s) ...... I ξmn(s) I ξmn (s)

Claims (20)

1. Способ синтеза самообучающейся системы извлечения знаний на заданном языке из текстовых документов поисковых систем, при котором:1. A method for synthesizing a self-learning system for extracting knowledge in a given language from text documents of search engines, in which: обеспечивают механизм самообучения в виде стохастически индексированной системы искусственного интеллекта, основанной на применении уникальных комбинаций двоичных сигналов стохастических индексов информации,provide a self-learning mechanism in the form of a stochastically indexed artificial intelligence system based on the use of unique binary combinations of stochastic information indices, обеспечивают автоматическое обучение системы правилам грамматического и семантического анализа путем применения эквивалентных преобразований стохастически индексированных фрагментов текста, логического вывода и формирования из них связанных семантических структур и стохастического индексирования для представления в формате правил продукций,provide automatic training of the system for the rules of grammatical and semantic analysis by using equivalent transformations of stochastically indexed text fragments, inference and the formation of related semantic structures and stochastic indexing for presentation in the format of production rules, производят морфологический анализ и стохастическое индексирование лингвистических текстов в электронном виде с одновременным автоматическим обучением системы правилам морфологического анализа,perform morphological analysis and stochastic indexing of linguistic texts in electronic form with simultaneous automatic training of the system to the rules of morphological analysis, производят морфологический и синтаксический анализ, а также стохастическое индексирование текстовых документов по заданной теме в электронном виде на заданном языке с одновременным автоматическим обучением системы правилам синтаксического анализа,perform morphological and syntactic analysis, as well as stochastic indexing of text documents on a given topic in electronic form in a given language with simultaneous automatic training of the system in the rules of parsing, производят семантический анализ стохастически индексированных текстовых документов по заданной теме в электронном виде с одновременным автоматическим обучением системы правилам семантического анализа,perform semantic analysis of stochastically indexed text documents on a given topic in electronic form with simultaneous automatic training of the system in the rules of semantic analysis, формируют запрос пользователя на естественном заданном языке и представляют его в электроном виде после стохастического индексирования в форме вопросительного предложения,form a user request in a natural given language and submit it in electronic form after stochastic indexing in the form of an interrogative sentence, преобразуют запрос пользователя в стохастически индексированном виде во множество новых запросов, эквивалентных исходному запросу,Convert a user’s request in stochastically indexed form into many new queries equivalent to the original query, в соответствии с запросом пользователя осуществляют предварительный выбор стохастически индексированных фрагментов текстовых документов в электронном виде, содержащих в совокупности все словосочетания преобразованного запроса,in accordance with the user's request, a preliminary selection is made of stochastically indexed fragments of text documents in electronic form, containing all the phrases of the converted request in aggregate, формируют стохастически индексированную семантическую структуру с использованием указанных фрагментов текстовых документов,form a stochastically indexed semantic structure using the indicated fragments of text documents, на основе указанной структуры с помощью логического вывода, обеспечивающего связь стохастически индексированных элементов различных текстов, и эквивалентного преобразования текста формируют краткий ответ системы,on the basis of this structure, using a logical conclusion that ensures the connection of stochastically indexed elements of various texts, and equivalent text conversion form a short response of the system, проверяют релевантность полученного краткого ответа системы запросу путем формирования на его основе вопросительного предложения, сравнения полученного вопросительного предложения с запросом,check the relevance of the received short response of the system to the request by forming on its basis an interrogative sentence, comparing the received interrogative sentence with the request, при идентичности полученного вопросительного предложения и запроса принимают решение о релевантности краткого ответа системы запросу и представляют его на заданном языке.if the question and offer received are identical, they decide on the relevance of the short response of the system to the request and present it in a given language. 2. Способ синтеза самообучающейся системы извлечения знаний на любом из заданных иностранных языках из текстовых документов поисковых систем, при котором:2. A method for synthesizing a self-learning system for extracting knowledge in any of the given foreign languages from text documents of search engines, in which: обеспечивают механизм самообучения в виде стохастически индексированной системы искусственного интеллекта, основанной на применении уникальных комбинаций двоичных сигналов стохастических индексов информации для стохастической индексации и поиска фрагментов лингвистических текстов на заданном базовом языке, содержащих описание процедур грамматического и семантического анализа, и автоматического обучения системы правилам грамматического и семантического анализа путем эквивалентных преобразований стохастически индексированных фрагментов текста, логического вывода и формирования из них связанных семантических структур, их стохастического индексирования для представления в формате правил продукций,provide a self-learning mechanism in the form of a stochastically indexed artificial intelligence system based on the use of unique combinations of binary signals of stochastic information indices for stochastic indexing and searching for fragments of linguistic texts in a given base language containing a description of grammatical and semantic analysis procedures and automatic training of the system in grammar and semantic rules analysis by equivalent transforms are stochastically indexed fragments of text, inference, and the formation of their associated semantic structures of the stochastic index for submission to the rules of output formats, производят морфологический анализ и стохастическое индексирование лингвистических текстов на заданном базовом языке в электронном виде с одновременным автоматическим обучением системы правилам морфологического анализа, формированием базы данных стохастически индексированных словарей и формированием таблиц индексов лингвистических текстов для каждого из заданных иностранных языков, а также базы знаний морфологического анализа, содержащей полученные правила продукций для заданного базового языка и каждого из заданных иностранных языков,perform morphological analysis and stochastic indexing of linguistic texts in a given base language in electronic form with simultaneous automatic training of the system for the rules of morphological analysis, the formation of a database of stochastically indexed dictionaries and the formation of index tables of linguistic texts for each of the specified foreign languages, as well as the knowledge base of morphological analysis, containing the resulting production rules for a given base language and each of the specified foreign x languages производят морфологический и синтаксический анализ, а также стохастическое индексирование текстовых документов по заданной теме на каждом из заданных иностранных языков в электронном виде из поисковой системы с представлением их в виде таблиц индексов текстовых документов по заданной теме и записью в базы стохастически индексированных текстов с одновременным автоматическим обучением системы правилам синтаксического анализа с использованием стохастически индексированных лингвистических текстов на заданном базовом языке и формированием базы знаний синтаксического анализа для базового языка и каждого из заданных иностранных языков,perform morphological and syntactic analysis, as well as stochastic indexing of text documents on a given topic in each of the given foreign languages in electronic form from a search system with their presentation in the form of tables of indexes of text documents on a given topic and writing to the database of stochastically indexed texts with simultaneous automatic learning system rules for parsing using stochastically indexed linguistic texts in a given base language and form vaniem knowledge base to parse the language and each of the specified languages, производят семантический анализ стохастически индексированных текстовых документов по заданной теме на заданном базовом языке в электронном виде с одновременным автоматическим обучением системы правилам семантического анализа и формированием базы знаний семантического анализа для базового языка и каждого из заданных иностранных языков,perform semantic analysis of stochastically indexed text documents on a given topic in a given base language in electronic form with simultaneous automatic training of the system for the rules of semantic analysis and the formation of a semantic analysis knowledge base for the base language and each of the specified foreign languages, формируют запрос пользователя на естественном заданном иностранном языке и представляют его в электроном виде после стохастического индексирования в форме вопросительного предложения, включающего вопросительное словосочетание и словосочетания, которые определяют семантику запроса,form a user’s request in a natural predetermined foreign language and submit it in electronic form after stochastic indexing in the form of an interrogative sentence, including an interrogative phrase and phrases that determine the semantics of the request, преобразуют запрос пользователя в стохастически индексированном виде во множество новых запросов, эквивалентных исходному запросу на заданном иностранном языке,convert the user’s request in stochastically indexed form into many new queries equivalent to the original query in a given foreign language, в соответствии с запросом пользователя осуществляют предварительный выбор стохастически индексированных фрагментов текстовых документов на заданном иностранном языке в электронном виде, содержащих в совокупности все словосочетания преобразованного запроса,in accordance with the user's request, a preliminary selection of stochastically indexed fragments of text documents in a given foreign language in electronic form, containing all the phrases of the converted request in total, is performed, формируют стохастически индексированную семантическую структуру на основе указанных фрагментов текстовых документов,form a stochastically indexed semantic structure based on the indicated fragments of text documents, на основе сформированной стохастически индексированной семантической структуры с помощью логического вывода, обеспечивающего связь стохастически индексированных элементов различных текстов, и эквивалентного преобразования текста формируют краткий ответ системы, содержащий словосочетания в стохастически индексированном виде, которые определяют семантику запроса, а также группу слов ответа, соответствующую вопросительному словосочетанию запроса,on the basis of the generated stochastically indexed semantic structure with the help of logical inference, providing the connection of stochastically indexed elements of various texts, and equivalent text conversion, a short system response is formed containing phrases in stochastically indexed form that determine the semantics of the query, as well as a group of response words corresponding to the interrogative phrase request проверяют релевантность полученного краткого ответа системы запросу путем замены группы слов ответа на соответствующее вопросительное словосочетание в стохастически индексированном виде, получения стохастически индексированного вопросительного предложения, сравнения полученного вопросительного предложения с запросом и при идентичности полученного вопросительного предложения и запроса принимают решение о релевантности краткого ответа системы запросу и представляют его на заданном иностранном языке.the relevance of the short answer of the system to the query is checked by replacing the group of response words with the corresponding interrogative phrase in a stochastically indexed form, obtaining a stochastically indexed interrogative sentence, comparing the received interrogative sentence with the query and if the received interrogative sentence and query are identical, they decide on the relevance of the short answer of the system to the query and represent it in a given foreign language. 3. Способ по п.1, отличающийся тем, что при неудачной попытке сформировать вопросительное предложение, идентичное запросу пользователя, запрашивают новые текстовые документы из поисковой системы для поиска ответа, релевантного запросу пользователя,3. The method according to claim 1, characterized in that in case of an unsuccessful attempt to generate an interrogative sentence identical to the user's request, they request new text documents from the search engine to search for an answer relevant to the user's request, 4. Способ по п.1, отличающийся тем, что дополнительно по запросу пользователя формируют полный ответ, содержащий более подробную информацию или совокупность конкретных знаний, при этом используют логический вывод для образования стохастически индексированной семантической структуры и необходимые эквивалентные преобразования указанной совокупности фрагментов текстов для получения стохастически индексированного нового текста, раскрывающего с возможной детализацией содержание полученного ранее краткого ответа.4. The method according to claim 1, characterized in that, in addition, at the request of the user, a complete answer is formed containing more detailed information or a set of specific knowledge, while using logical inference to form a stochastically indexed semantic structure and the necessary equivalent transformations of the specified set of text fragments to obtain a stochastically indexed new text revealing with possible detail the content of the previously received short answer. 5. Способ по п.1, отличающийся тем, что автоматическое обучение системы правилам морфологического анализа производят путем выделения в стохастически индексируемом тексте определенного набора словоформ каждого слова, получения стохастических индексов основы слова и заданного набора его окончаний или предлогов, произвольного доступа по указанным индексам к стохастически индексированным лингвистическим текстам, выделения из них фрагментов, связывающих указанный набор окончаний слова или предлогов с соответствующей данному слову частью речи, а также с полным набором окончаний или предлогов, получаемых при склонении или спряжении, преобразования данных фрагментов в формат правил продукций путем их стохастического индексирования, обеспечивая при этом корректность каждого правила путем независимого его формирования на основе нескольких фрагментов из соответствующих лингвистических текстов, и получения таблицы индексов правил продукций для базы знаний морфологического анализа.5. The method according to claim 1, characterized in that the system is automatically taught the rules of morphological analysis by highlighting in a stochastically indexed text a specific set of word forms for each word, obtaining stochastic indices of the word base and a given set of its endings or prepositions, random access to the indicated indices stochastically indexed linguistic texts, extracting fragments from them, connecting the specified set of word endings or prepositions with the corresponding part of the word speech, as well as with a full set of endings or prepositions obtained by declension or conjugation, converting these fragments into the format of production rules by stochastic indexing, while ensuring the correctness of each rule by independently forming it on the basis of several fragments from the corresponding linguistic texts, and obtaining a table of indexes of production rules for the knowledge base of morphological analysis. 6. Способ по п.5, отличающийся тем, что при стохастическом индексировании лингвистических текстов после определения части речи каждого слова с помощью правил базы знаний морфологического анализа заполняют базу данных стохастически индексированного словаря стохастическими индексами основы каждого очередного слова и полного набора его окончаний или предлогов.6. The method according to claim 5, characterized in that when stochastically indexing linguistic texts after determining part of the speech of each word using the rules of the knowledge base of morphological analysis, the database of the stochastically indexed dictionary is filled with stochastic indices of the basis of each word and a complete set of its endings or prepositions. 7. Способ по п.6, отличающийся тем, что для формирования таблиц индексов текстов осуществляют стохастическое преобразование информации и получение уникальных двоичных комбинаций индексов основ слов, их окончаний, предлогов, предложений, абзацев и названий текстов, которые помещают в таблицы индексов базы стохастически индексированных текстов с обеспечением связности между указанными индексами, определенной в исходном тексте и обеспечивающей его восстановление по таблице индекса.7. The method according to claim 6, characterized in that for the formation of the text index tables, the information is stochastically converted and unique binary combinations of word base indices, their endings, prepositions, sentences, paragraphs and text names are placed that are stochastically indexed in the index tables texts with ensuring the connectivity between the indicated indices, defined in the source text and ensuring its recovery from the index table. 8. Способ по п.1, отличающийся тем, что автоматическое обучение системы правилам синтаксического анализа осуществляют путем поиска в стохастически индексированных лингвистических текстах фрагментов, описывающих порядок синтаксического разбора предложений, при этом реализуется логический вывод для получения стохастически индексированной семантической структуры, определяющей связь синтаксических элементов и структур с заданными частями речи слов, и формирования правил продукций, определяющих синтаксический разбор предложений по морфологическим характеристикам слов, обеспечивая при этом корректность каждого правила путем независимого его формирования на основе нескольких фрагментов из соответствующих лингвистических текстов, полученные правила заносят в базу знаний синтаксического анализа, по мере заполнения которой осуществляют ее стохастическое индексирование и представление в виде таблицы индексов.8. The method according to claim 1, characterized in that the system is automatically taught the rules of parsing by searching in stochastically indexed linguistic texts of fragments describing the order of parsing sentences, while the logical conclusion is realized to obtain a stochastically indexed semantic structure that determines the relationship of syntactic elements and structures with given parts of speech of words, and the formation of production rules that determine the parsing of sentences by fologicheskim characteristics words, while ensuring the correctness of each independent rule by its formation on the basis of several fragments from the respective linguistic texts received rules are entered into the knowledge base parsing, as filling which is exercised by the stochastic index, and represented as index table. 9. Способ по п.1, отличающийся тем, что автоматическое обучение системы правилам семантического анализа текста осуществляют путем формирования запроса к таблицам индексов лингвистических текстов по стохастическим индексам основ слов и частей речи, не точно определенных членов предложения, и получения ответа в виде фрагмента текста, описывающего семантические характеристики, которыми должны обладать слова для их соответствия данному конкретному члену предложения, и по полученному ответу, используя стохастический индекс основы данного слова и требуемые семантические характеристики, обращаются к таблицам индексов толковых словарей и энциклопедий общего и тематического назначения, при этом с помощью логического вывода делают попытку образовать стохастически индексированную семантическую структуру, связывающую данное слово и требуемые семантические характеристики, в положительном случае считают, что указанный член предложения определен точно, а фрагмент текста, релевантный запросу, преобразуют в правило продукций, обеспечивая при этом корректность каждого правила путем независимого его формирования на основе нескольких фрагментов из соответствующих лингвистических текстов, которое включают в базу знаний семантического анализа, стохастически индексируют данную базу, представляют в виде таблицы индексов и применяют при семантическом анализе слов, как членов предложения, и отношений между словами, выраженных словосочетаниями.9. The method according to claim 1, characterized in that the system is automatically taught the rules of semantic analysis of the text by generating a query on the index tables of linguistic texts on stochastic indices of the stems of words and parts of speech, not precisely defined members of the sentence, and receiving the answer in the form of a text fragment describing the semantic characteristics that words must have in order to match this particular member of the sentence, and according to the answer received, using the stochastic index of the basis of this words and the required semantic characteristics refer to tables of indexes for explanatory dictionaries and general and thematic encyclopedias, while using logical inference they try to form a stochastically indexed semantic structure linking the given word and the required semantic characteristics, in the positive case, consider that the specified sentence member defined exactly, and the text fragment relevant to the request is converted into a production rule, while ensuring the correctness of each rule by independently forming it on the basis of several fragments from the corresponding linguistic texts, which are included in the knowledge base of semantic analysis, stochastically index this database, present it in the form of an index table and apply it in the semantic analysis of words as members of a sentence and relations between words expressed by phrases. 10. Способ по п.9, отличающийся тем, что после образования таблицы индексов каждого текста и завершения его морфологического, синтаксического и семантического анализа формируют стохастические индексы наименований частей речи, членов предложения и вопросов к ним, которые соответствуют каждому слову в составе предложений, и записывают указанные индексы в ячейки таблицы индексов данного текста, что позволяет при поиске фрагментов текста автоматически определять, к какой части речи, члену предложения относится каждое слово, и формировать вопросы к нему.10. The method according to claim 9, characterized in that after the formation of the index table of each text and the completion of its morphological, syntactic and semantic analysis, stochastic indices of the names of the parts of speech, sentence members and questions to them that correspond to each word in the sentence are formed, and they record the indicated indices in the cells of the index table of the given text, which allows you to automatically determine which part of speech, each word belongs to the sentence, when searching for fragments of the text, and form millet to him. 11. Способ по п.10, отличающийся тем, что после получения всех таблиц индексов текстов формируют таблицу индексов текстов по данной теме, строки которой поименованы неповторяющимися стохастическими индексами основ слов, а каждый столбец соответствует стохастическому индексу конкретного текста, при этом в ячейки таблицы записывают стохастические индексы абзацев, в которых в данном тексте содержится слово с соответствующим индексом основы, полученную таблицу индексов по данной теме применяют для предварительного поиска фрагментов, содержащих определенную совокупность словосочетаний запроса.11. The method according to claim 10, characterized in that after receiving all the text index tables, a text index table is formed on a given topic, the rows of which are named by non-repeating stochastic indexes of word stems, and each column corresponds to a stochastic index of a specific text, while in the table cells are written stochastic index indices of paragraphs in which the text contains the word with the corresponding index of the basis, the resulting index table on this topic is used to preliminary search for fragments containing aschih certain set phrases request. 12. Способ по п.11, отличающийся тем, что эквивалентные преобразования исходного запроса пользователя осуществляют с использованием синонимов, близких по смыслу слов, а также замены частей речи и членов предложения с сохранением смыслового содержания исходного запроса на основе применения стохастически индексированных правил морфологического, синтаксического и семантического анализа для получения эквивалентных структур словосочетаний вопросительного предложения запроса и сохранения семантической связи между ними.12. The method according to claim 11, characterized in that the equivalent transformations of the user's initial request are carried out using synonyms that are close in meaning of the words, as well as replacing parts of speech and sentence members while maintaining the semantic content of the initial request based on the application of stochastically indexed morphological, syntactic rules and semantic analysis to obtain equivalent collocation structures of the interrogative sentence of the query and preserve the semantic connection between them. 13. Способ по п.12, отличающийся тем, что совокупность семантически связанных фрагментов текста, содержащих все слова запроса пользователя, формируют путем обращения по стохастическим индексам указанных основ слов к таблице индексов текстов по заданной теме, выбора стохастических индексов абзацев и соответствующих им текстов, содержащих в совокупности все словосочетания запроса, обращения по указанным индексам к таблице индексов каждого из выбранных текстов, логического вывода по таблицам индексов и эквивалентных преобразований текстов для образования стохастически индексированной семантической структуры, связывающей индексы группы слов ответа, соответствующего вопросительному словосочетанию запроса, а также все словосочетания запроса, определяющие семантику запроса и входящие в предварительно выбранные абзацы.13. The method according to p. 12, characterized in that the set of semantically related text fragments containing all the words of the user's query is formed by referring to the table of text indices for a given topic by stochastic indices of the indicated word strings, selecting stochastic paragraph indices and the texts corresponding to them, containing in aggregate all phrases of the query, accessing the indicated indices to the index table of each of the selected texts, logical inference on the index tables and equivalent text transformations in order to form a stochastically indexed semantic structure linking the indices of the response word group corresponding to the interrogative phrase, as well as all query phrases that determine the semantics of the query and are included in pre-selected paragraphs. 14. Способ по п.13, отличающийся тем, что успешно сформированная в процессе логического вывода стохастически индексированная семантическая структура, соответствующая запросу пользователя, принимается в качестве основы для формирования с использованием полученной совокупности фрагментов текста вопросительного предложения, идентичного запросу пользователя, которое образуют путем эквивалентного преобразования стохастических индексов основ слов запроса и их окончаний с помощью правил баз знаний для обеспечения требуемых семантических характеристик каждого словосочетания текстового фрагмента, входящего в состав запроса, а также с использованием логического вывода на транзитивных зависимостях между словосочетаниями для объединения их в единое вопросительное предложение, идентичное запросу пользователя, которое содержит группу слов ответа, соответствующую вопросительному словосочетанию запроса.14. The method according to p. 13, characterized in that the stochastically indexed semantic structure corresponding to the user’s request that is successfully generated during the logical inference process is taken as the basis for generating, using the resulting set of fragments of text, an interrogative sentence identical to the user's request, which is formed by the equivalent transform stochastic indices of the stems of query words and their endings using the rules of knowledge bases to provide the required semantic characteristics of each word combination of the text fragment that is part of the query, as well as using logical inference on transitive dependencies between word combinations to combine them into a single interrogative sentence identical to the user's query, which contains a group of response words corresponding to the interrogative phrase. 15. Способ по п.14, отличающийся тем, что корректность краткого ответа обеспечивают путем формирования нескольких идентичных стохастически индексированных семантических структур упомянутого ответа на основе различных, предварительно выбранных стохастически индексированных фрагментов текстовых документов.15. The method according to 14, characterized in that the correctness of the short answer is ensured by the formation of several identical stochastically indexed semantic structures of the response based on various pre-selected stochastically indexed fragments of text documents. 16. Способ по п.15, отличающийся тем, что в процессе поиска и формирования ответа с использованием таблиц индексов текстовых документов самообучение системы осуществляют путем формирования индексированных текстовых элементов, связывающих запрос и релевантный краткий ответ, для получения базы знаний, содержащей элементы типа "запрос - ответ", которую стохастически индексируют, представляют в виде таблицы индексов и применяют при грамматическом и семантическом анализе предложений текста, а также при формировании ответов на повторяющиеся запросы пользователей, содержащиеся в указанной индексированной базе знаний.16. The method according to p. 15, characterized in that in the process of searching and generating an answer using tables of indexes of text documents, self-learning of the system is carried out by forming indexed text elements linking the request and the relevant short answer to obtain a knowledge base containing elements of the type "request - the answer ", which is stochastically indexed, presented in the form of a table of indices and is used in the grammatical and semantic analysis of sentences of the text, as well as in the formation of answers to repeated user surveys contained in the specified indexed knowledge base. 17. Способ по п.16, отличающийся тем, что для формирования полного ответа, содержащего знания, релевантные запросу пользователя, на основе краткого ответа с помощью логического вывода по таблицам индексов, использованных при получении фрагмента текста, формируют стохастически индексированную семантическую структуру, связывающую группу слов ответа со стохастическими индексами основ слов предложений, поддерживающих транзитивную зависимость, обеспечивающую в своей совокупности полное раскрытие содержания краткого ответа в рамках сформированного фрагмента текста, затем с помощью эквивалентных преобразований предложений на основе указанной стохастически индексированной семантической структуры получают единый связанный текст полного ответа.17. The method according to clause 16, characterized in that for the formation of a complete response containing knowledge relevant to the user's request, based on a short answer using logical inference on the index tables used to obtain the text fragment, form a stochastically indexed semantic structure that connects the group response words with stochastic indices of the stems of sentence words that support transitive dependence, which together provide a complete disclosure of the content of the short answer in the framework of ovannogo text fragment and then with equivalent transformations proposals on the basis of said stochastically indexed semantic structure obtained single associated text complete response. 18. Способ по п.17, отличающийся тем, что эквивалентное преобразование стохастически индексированных фрагментов текста производят путем представления каждого предложения в виде совокупности стохастически индексированных словосочетаний, которые преобразуют с использования правил баз знаний морфологического, синтаксического и семантического анализа путем эквивалентного преобразования стохастических индексов основ однокоренных слов, их окончаний и предлогов для образования новых частей речи или членов предложения с обеспечением неизменности связи указанных словосочетаний в рамках стохастически индексированной семантической структуры каждого предложения и согласования указанных предложений между собой при образовании из них нового фрагмента текста.18. The method according to 17, characterized in that the equivalent conversion of stochastically indexed text fragments is performed by presenting each sentence as a set of stochastically indexed phrases that are converted using the rules of knowledge bases of morphological, syntactic and semantic analysis by equivalent conversion of stochastic indices of the fundamentals of the same root words, their endings and prepositions for the formation of new parts of speech or members of the sentence with the provision of it mennosti regard these phrases as part of a stochastically indexed semantic structure of each sentence and harmonization of these proposals with each other in the formation of these new text fragment. 19. Способ по п.18, отличающийся тем, что при появлении в процессе стохастического индексирования текстовых документов в индексируемом тексте нового слова, не содержащегося в словаре стохастически индексированных слов и в лингвистических текстах, находят в данном словаре однокоренное слово с указанным новым словом, а в базе знаний морфологического анализа находят правила для эквивалентного преобразования найденного в словаре однокоренного слова в новое слово, при этом по виду эквивалентного преобразования определяют часть речи, к которой относится новое слово и все его словоформы, получаемые при склонении или спряжении, а при отсутствии однокоренных слов в словаре выбирают из текста определенный набор словоформ нового слова, по предлогам или окончаниям которых с помощью стохастически индексированного словаря или правил продукций морфологического анализа определяют часть речи, к которой оно относится, и полный набор его словоформ, получаемых при склонении или спряжении.19. The method according to p. 18, characterized in that when a new word appears in the indexed text during stochastic indexing of text documents that is not contained in the dictionary of stochastically indexed words and in linguistic texts, the root word with the specified new word is found in this dictionary, and in the knowledge base of morphological analysis find the rules for the equivalent conversion of the same root word found in the dictionary into a new word, while by the type of equivalent conversion the part of speech to which the new word belongs to and all its word forms obtained by declension or conjugation, and if there are no cognate words in the dictionary, a certain set of word forms of the new word is selected from the text, based on prepositions or endings using the stochastically indexed dictionary or production rules of morphological analysis, they determine the part of speech, to which it refers, and a complete set of its word forms obtained by declension or conjugation. 20. Способ по п.19, отличающийся тем, что для одновременного извлечения знаний из текстовых документов на заданных иностранных языках сначала осуществляют автоматическое обучение системы правилам морфологического, синтаксического, семантического анализа для заданного базового языка, производят формирование базы стохастически индексированного словаря и баз знаний морфологического, синтаксического, семантического анализа с использованием стохастически индексированных лингвистических текстов на заданном базовом языке, с помощью сформированных баз осуществляют автоматическое формирование запросов для автоматического обучения системы любому из заданных иностранных языков, при этом производят предварительный выбор по автоматически сформированным запросам фрагментов лингвистических текстов на базовом языке, содержащих знания, необходимые для изучения заданного иностранного языка, эквивалентные преобразования указанных текстов, формирование стохастически индексируемых семантических структур и логический вывод на заданных структурах для формирования ответов, релевантных автоматическим запросам, которые используют для формирования баз знаний морфологического, синтаксического и семантического анализа для любого из заданных иностранных языков, обеспечивающих извлечение знаний из текстовых документов на заданном иностранном языке.20. The method according to claim 19, characterized in that for the simultaneous extraction of knowledge from text documents in predetermined foreign languages, the system is first automatically trained in the rules of morphological, syntactic, semantic analysis for a given base language, the database is formed stochastically indexed dictionary and morphological knowledge bases , syntactic, semantic analysis using stochastically indexed linguistic texts in a given base language, using of these databases, they automatically generate queries for automatically learning the system in any of the given foreign languages, while preliminary selection of fragments of linguistic texts in the base language containing the knowledge necessary for learning a given foreign language, equivalent conversions of these texts, and the formation of stochastically indexed ones semantic structures and logical inference on given structures for the formation of answers, elevantnyh automatic queries that used to form the knowledge base of the morphological, syntactic and semantic analysis for any of the specified foreign languages, providing knowledge extraction from text documents in a given foreign language.
RU2004131643/09A 2002-05-28 2002-05-28 Method for synthesis of self-teaching system for extracting knowledge from text documents for search engines RU2273879C2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2004131643/09A RU2273879C2 (en) 2002-05-28 2002-05-28 Method for synthesis of self-teaching system for extracting knowledge from text documents for search engines

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2004131643/09A RU2273879C2 (en) 2002-05-28 2002-05-28 Method for synthesis of self-teaching system for extracting knowledge from text documents for search engines

Publications (2)

Publication Number Publication Date
RU2004131643A RU2004131643A (en) 2005-04-20
RU2273879C2 true RU2273879C2 (en) 2006-04-10

Family

ID=35634772

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2004131643/09A RU2273879C2 (en) 2002-05-28 2002-05-28 Method for synthesis of self-teaching system for extracting knowledge from text documents for search engines

Country Status (1)

Country Link
RU (1) RU2273879C2 (en)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2348072C1 (en) * 2007-05-03 2009-02-27 Алексей Сергеевич Злыгостев Context-based method of assessing manifestation degree of notion in text for search systems
RU2386167C1 (en) * 2008-09-01 2010-04-10 Федеральное государственное унитарное предприятие "Курский научно-исследовательский институт" Министерства обороны Российской Федерации Device of information processing for information searching
WO2010050844A1 (en) * 2008-10-29 2010-05-06 Zakrytoe Aktsionernoe Obschestvo "Avicomp Services" Method of computerized semantic indexing of natural language text, method of computerized semantic indexing of collection of natural language texts, and machine-readable media
RU2392660C2 (en) * 2008-04-15 2010-06-20 Государственное образовательное учреждение высшего профессионального образования "Мордовский государственный университет им. Н.П. Огарева" Method of searching for information in text array
WO2013022384A1 (en) * 2011-08-09 2013-02-14 Serebrennikov Oleg Aleksandrovich Method for producing and using a recursive index of search engines
RU2488877C2 (en) * 2007-08-31 2013-07-27 Майкрософт Корпорейшн Identification of semantic relations in indirect speech
US8570818B2 (en) 2008-03-13 2013-10-29 Qualcomm Incorporated Address multiplexing in pseudo-dual port memory
RU2501078C2 (en) * 2008-04-11 2013-12-10 Майкрософт Корпорейшн Ranking search results using edit distance and document information
US8738635B2 (en) 2010-06-01 2014-05-27 Microsoft Corporation Detection of junk in search result ranking
RU2517428C2 (en) * 2012-06-13 2014-05-27 Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Самарский государственный университет путей сообщения" (СамГУПС) Method of generating quasi-structured models of factographic information content of documents
US8843486B2 (en) 2004-09-27 2014-09-23 Microsoft Corporation System and method for scoping searches using index keys
RU2549118C2 (en) * 2013-05-24 2015-04-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Iterative filling of electronic glossary
US9348912B2 (en) 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
RU2592395C2 (en) * 2013-12-19 2016-07-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Resolution semantic ambiguity by statistical analysis
RU2592396C1 (en) * 2015-02-03 2016-07-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Method and system for machine extraction and interpretation of text information
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results
RU2607976C1 (en) * 2015-08-19 2017-01-11 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Extracting information from structured documents containing text in natural language
RU2618375C2 (en) * 2015-07-02 2017-05-03 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Expanding of information search possibility
RU2632134C2 (en) * 2015-12-28 2017-10-02 Общество С Ограниченной Ответственностью "Яндекс" Method and system of processing of search requests
RU2646386C1 (en) * 2016-12-07 2018-03-02 Общество с ограниченной ответственностью "Аби Продакшн" Extraction of information using alternative variants of semantic-syntactic analysis
RU2662699C2 (en) * 2014-01-23 2018-07-26 Общество с ограниченной ответственностью "Аби Продакшн" Comprehensive automatic processing of text information
RU2683507C2 (en) * 2013-07-15 2019-03-28 МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи Retrieval of attribute values based upon identified entries
RU2717718C1 (en) * 2019-11-10 2020-03-25 Игорь Петрович Рогачев Method of transforming a structured data array containing simple judgments
RU2717719C1 (en) * 2019-11-10 2020-03-25 Игорь Петрович Рогачев Method of forming a data structure containing simple judgments

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5454106A (en) * 1993-05-17 1995-09-26 International Business Machines Corporation Database retrieval system using natural language for presenting understood components of an ambiguous query on a user interface
US5787234A (en) * 1994-06-22 1998-07-28 Molloy; Bruce G. System and method for representing and retrieving knowledge in an adaptive cognitive network
RU2166208C2 (en) * 1999-04-29 2001-04-27 Халин Евгений Васильевич Computer-aided technique for acquiring knowledge on safety precautions in manufacture

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5454106A (en) * 1993-05-17 1995-09-26 International Business Machines Corporation Database retrieval system using natural language for presenting understood components of an ambiguous query on a user interface
US5787234A (en) * 1994-06-22 1998-07-28 Molloy; Bruce G. System and method for representing and retrieving knowledge in an adaptive cognitive network
RU2166208C2 (en) * 1999-04-29 2001-04-27 Халин Евгений Васильевич Computer-aided technique for acquiring knowledge on safety precautions in manufacture

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
НАСЫПНЫЙ В.В. и др. Построение интеллектуальной информационной поисковой системы, Москва, Прометей, 2001, с.3-24. НАСЫПНЫЙ В.В. Развитие теории построения открытых систем на основе информационной технологии искусственного интеллекта, Москва, Военное издательство, 1994, с.36-112. *

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8843486B2 (en) 2004-09-27 2014-09-23 Microsoft Corporation System and method for scoping searches using index keys
RU2348072C1 (en) * 2007-05-03 2009-02-27 Алексей Сергеевич Злыгостев Context-based method of assessing manifestation degree of notion in text for search systems
RU2488877C2 (en) * 2007-08-31 2013-07-27 Майкрософт Корпорейшн Identification of semantic relations in indirect speech
US9348912B2 (en) 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
US8570818B2 (en) 2008-03-13 2013-10-29 Qualcomm Incorporated Address multiplexing in pseudo-dual port memory
US8812493B2 (en) 2008-04-11 2014-08-19 Microsoft Corporation Search results ranking using editing distance and document information
RU2501078C2 (en) * 2008-04-11 2013-12-10 Майкрософт Корпорейшн Ranking search results using edit distance and document information
RU2392660C2 (en) * 2008-04-15 2010-06-20 Государственное образовательное учреждение высшего профессионального образования "Мордовский государственный университет им. Н.П. Огарева" Method of searching for information in text array
RU2386167C1 (en) * 2008-09-01 2010-04-10 Федеральное государственное унитарное предприятие "Курский научно-исследовательский институт" Министерства обороны Российской Федерации Device of information processing for information searching
RU2399959C2 (en) * 2008-10-29 2010-09-20 Закрытое акционерное общество "Авикомп Сервисез" Method for automatic text processing in natural language through semantic indexation, method for automatic processing collection of texts in natural language through semantic indexation and computer readable media
WO2010050844A1 (en) * 2008-10-29 2010-05-06 Zakrytoe Aktsionernoe Obschestvo "Avicomp Services" Method of computerized semantic indexing of natural language text, method of computerized semantic indexing of collection of natural language texts, and machine-readable media
US8738635B2 (en) 2010-06-01 2014-05-27 Microsoft Corporation Detection of junk in search result ranking
WO2013022384A1 (en) * 2011-08-09 2013-02-14 Serebrennikov Oleg Aleksandrovich Method for producing and using a recursive index of search engines
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results
RU2517428C2 (en) * 2012-06-13 2014-05-27 Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Самарский государственный университет путей сообщения" (СамГУПС) Method of generating quasi-structured models of factographic information content of documents
RU2549118C2 (en) * 2013-05-24 2015-04-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Iterative filling of electronic glossary
RU2683507C2 (en) * 2013-07-15 2019-03-28 МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи Retrieval of attribute values based upon identified entries
US10956433B2 (en) 2013-07-15 2021-03-23 Microsoft Technology Licensing, Llc Performing an operation relative to tabular data based upon voice input
US10776375B2 (en) 2013-07-15 2020-09-15 Microsoft Technology Licensing, Llc Retrieval of attribute values based upon identified entities
RU2592395C2 (en) * 2013-12-19 2016-07-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Resolution semantic ambiguity by statistical analysis
RU2662699C2 (en) * 2014-01-23 2018-07-26 Общество с ограниченной ответственностью "Аби Продакшн" Comprehensive automatic processing of text information
RU2592396C1 (en) * 2015-02-03 2016-07-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Method and system for machine extraction and interpretation of text information
RU2618375C2 (en) * 2015-07-02 2017-05-03 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Expanding of information search possibility
RU2607976C1 (en) * 2015-08-19 2017-01-11 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Extracting information from structured documents containing text in natural language
RU2632134C2 (en) * 2015-12-28 2017-10-02 Общество С Ограниченной Ответственностью "Яндекс" Method and system of processing of search requests
RU2646386C1 (en) * 2016-12-07 2018-03-02 Общество с ограниченной ответственностью "Аби Продакшн" Extraction of information using alternative variants of semantic-syntactic analysis
RU2717718C1 (en) * 2019-11-10 2020-03-25 Игорь Петрович Рогачев Method of transforming a structured data array containing simple judgments
RU2717719C1 (en) * 2019-11-10 2020-03-25 Игорь Петрович Рогачев Method of forming a data structure containing simple judgments

Also Published As

Publication number Publication date
RU2004131643A (en) 2005-04-20

Similar Documents

Publication Publication Date Title
RU2273879C2 (en) Method for synthesis of self-teaching system for extracting knowledge from text documents for search engines
CN100392644C (en) Method for integrating self-learning systems for extracting knowledge from documents used in search systems
Lloret et al. The challenging task of summary evaluation: an overview
Hirschman et al. Natural language question answering: the view from here
US20040030540A1 (en) Method and apparatus for language processing
KR20050032937A (en) Method for automatically creating a question and indexing the question-answer by language-analysis and the question-answering method and system
Amaral et al. Priberam’s question answering system for Portuguese
Kangavari et al. A new model for question answering systems
Kangavari et al. Information retrieval: Improving question answering systems by query reformulation and answer validation
Burton-Jones et al. Context-aware query processing on the semantic web
Chimetto et al. SEUPD@ CLEF: Team hextech on Argument Retrieval for Comparative Questions. The importance of adjectives in documents quality evaluation.
Callison-Burch Active learning for statistical machine translation
Anttila Automatic Text Summarization
Ouvrard et al. Collatinus & Eulexis: Latin & Greek Dictionaries in the Digital Ages.
Yan et al. A novel word-graph-based query rewriting method for question answering
Tharp et al. Using computers in a natural language mode for elementary education
Fliedner Linguistically informed question answering
Cheatham The properties of property alignment on the semantic web
A Wani et al. Review on abstractive text summarization methods
Landoulsi et al. Building natural language responses from natural language questions in the spatio-temporal context
Hoque Question Answering System Over Linked Data
Wu An experimental language translation system for ATIS
Kolesnikova Automatic extraction of lexical functions
Leveling Feedback mechanisms for a natural language interface: an application of the critic paradigm
Berger Activation on the move: adaptive information retrieval via spreading activation

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20160529