RU2606873C2

RU2606873C2 - Creation of ontologies based on natural language texts analysis

Info

Publication number: RU2606873C2
Application number: RU2014147623A
Authority: RU
Inventors: Татьяна Владимировна Даниэлян
Original assignee: Общество с ограниченной ответственностью "Аби ИнфоПоиск"
Priority date: 2014-11-26
Filing date: 2014-11-26
Publication date: 2017-01-10
Also published as: RU2014147623A

Abstract

FIELD: computer engineering.

SUBSTANCE: invention, in general, relates to computer systems, specifically to natural language processing systems and methods. In method ontologies making and filling based on natural language texts analysis performing text in natural language semantic-syntactic analysis based on linguistic descriptions representing language model, to produce plurality of semantic structures related with text body, where semantic structures are represented by graphs. Comparing semantic structures by determining fact, that corresponding inner contexts of first semantic structure and second semantic structure are similar by selected similarity criterion.

EFFECT: technical result is increasing accuracy and decreasing duration of text fragments comparing due to provision of sentences and their parts semantic values automatic comparison irrespective of their syntax expression.

20 cl, 18 dwg

Description

ОБЛАСТЬ ТЕХНИКИFIELD OF TECHNOLOGY

[0001] Настоящее изобретение в целом относится к вычислительным системам, а точнее - к системам и способам обработки естественного языка.[0001] The present invention generally relates to computing systems, and more specifically, to systems and methods for processing a natural language.

УРОВЕНЬ ТЕХНИКИBACKGROUND

[0002] Интерпретацию неструктурированной информации, представленной текстами на естественном языке, может затруднять многозначность, которая является неотъемлемой чертой естественных языков. Решению задачи интерпретации текстов на естественном языке может способствовать поиск семантически похожих языковых конструкций, их сравнение и определение степени подобия.[0002] The interpretation of unstructured information represented by natural language texts can be hindered by ambiguity, which is an integral feature of natural languages. The search for semantically similar linguistic constructions, their comparison and determination of the degree of similarity can help solve the problem of interpreting texts in a natural language.

РАСКРЫТИЕ ИЗОБРЕТЕНИЯSUMMARY OF THE INVENTION

[0003] В соответствии с одним или более аспектами настоящего изобретения пример способа может включать: получение множества семантических структур, соотнесенных с текстовым корпусом; идентификацию, с помощью устройства обработки, первой семантической структуры и второй семантической структуры, где первая семантическая структура включает первую подструктуру и вторую подструктуру, а вторая семантическая структура включает третью подструктуру и четвертую подструктуру, и где первая подструктура подобна третьей подструктуре по первому критерию подобия; и в случае определения того, что вторая подструктура подобна четвертой подструктуре по второму критерию подобия - соотнесение объектов, представленных второй подструктурой и четвертой подструктурой, с определенным концептом онтологии, соотнесенной с текстовым корпусом.[0003] In accordance with one or more aspects of the present invention, an example of a method may include: obtaining a plurality of semantic structures associated with a text body; identification, using the processing device, of the first semantic structure and the second semantic structure, where the first semantic structure includes the first substructure and the second substructure, and the second semantic structure includes the third substructure and the fourth substructure, and where the first substructure is similar to the third substructure according to the first similarity criterion; and if it is determined that the second substructure is similar to the fourth substructure according to the second similarity criterion, the correlation of objects represented by the second substructure and the fourth substructure with a certain ontology concept correlated with the text corpus.

[0004] В соответствии с одним или более аспектами настоящего изобретения пример системы может включать: память и процессор, соединенный с памятью, причем этот процессор настроен на: получение множества семантических структур, соотнесенных с текстовым корпусом; установление первой семантической структуры и второй семантической структуры, где первая семантическая структура включает первую подструктуру и вторую подструктуру, а вторая семантическая структура включает третью подструктуру и четвертую подструктуру и где первая подструктура подобна третьей подструктуре по первому критерию подобия; и в случае определения того, что вторая подструктура подобна четвертой подструктуре по второму критерию подобия, - соотнесение объектов, представленных второй подструктурой и четвертой подструктурой, с определенным концептом онтологии, соотнесенной с текстовым корпусом.[0004] In accordance with one or more aspects of the present invention, an example system may include: a memory and a processor coupled to the memory, the processor being configured to: obtain a plurality of semantic structures associated with a text body; establishing a first semantic structure and a second semantic structure, where the first semantic structure includes a first substructure and a second substructure, and the second semantic structure includes a third substructure and a fourth substructure, and where the first substructure is similar to the third substructure according to the first similarity criterion; and if it is determined that the second substructure is similar to the fourth substructure according to the second similarity criterion, the correlation of objects represented by the second substructure and the fourth substructure with a certain ontology concept correlated with the text corpus.

[0005] В соответствии с одним или более аспектами настоящего изобретения пример постоянного машиночитаемого носителя данных может включать исполняемые команды, которые при исполнении их вычислительным устройством приводят к выполнению вычислительным устройством операций, включающих в себя: получение множества семантических структур, соотнесенных с текстовым корпусом; установление первой семантической структуры и второй семантической структуры, где первая семантическая структура включает первую подструктуру и вторую подструктуру, а вторая семантическая структура включает третью подструктуру и четвертую подструктуру и где первая подструктура подобна третьей подструктуре по первому критерию подобия; и в случае определения того, что вторая подструктура подобна четвертой подструктуре по второму критерию подобия, - соотнесение объектов, представленных второй подструктурой и четвертой подструктурой, с определенным концептом онтологии, соотнесенной с текстовым корпусом.[0005] In accordance with one or more aspects of the present invention, an example of a permanent computer-readable storage medium may include executable instructions that, when executed by a computing device, cause the computing device to perform operations including: obtaining a plurality of semantic structures associated with a text body; establishing a first semantic structure and a second semantic structure, where the first semantic structure includes a first substructure and a second substructure, and the second semantic structure includes a third substructure and a fourth substructure, and where the first substructure is similar to the third substructure according to the first similarity criterion; and if it is determined that the second substructure is similar to the fourth substructure according to the second similarity criterion, the correlation of objects represented by the second substructure and the fourth substructure with a certain ontology concept correlated with the text corpus.

Технический результат от внедрения изобретения состоит в предоставлении конечному пользователю возможности, используя технологию глубинного семантического анализа на основе исчерпывающих языковых описаний, создавать и пополнять онтологии посредством автоматического сопоставления семантических значений предложений и их частей независимо от способа их синтаксического выражения.The technical result from the implementation of the invention is to provide the end user with the possibility, using the technology of deep semantic analysis based on comprehensive language descriptions, to create and replenish ontologies by automatically matching the semantic values of sentences and their parts, regardless of how they are syntactically expressed.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙBRIEF DESCRIPTION OF THE DRAWINGS

[0006] Настоящее изобретение иллюстрируется с помощью примеров, а не путем ограничений. Для более полного его понимания приведенное ниже описание предпочтительных вариантов реализации следует рассматривать в сочетании с чертежами, на которых:[0006] The present invention is illustrated by way of examples, and not by way of limitation. For a more complete understanding of it, the following description of preferred embodiments should be considered in conjunction with the drawings, in which:

[0007] На Фиг. 1 приведена блок-схема одного иллюстративного примера способа создания онтологий на основе анализа текстов на естественном языке в соответствии с одним или более аспектами настоящего изобретения;[0007] In FIG. 1 is a flowchart of one illustrative example of a method for creating ontologies based on natural language text analysis in accordance with one or more aspects of the present invention;

[0008] На Фиг. 2 приведена блок-схема одного иллюстративного примера способа (200) проведения семантико-синтаксического анализа предложения на естественном языке (212) в соответствии с одним или более аспектами настоящего изобретения;[0008] In FIG. 2 is a flowchart of one illustrative example of a method (200) for conducting semantic-syntactic analysis of a sentence in a natural language (212) in accordance with one or more aspects of the present invention;

[0009] На Фиг. 3 схематически иллюстрируется пример лексико-морфологической структуры предложения в соответствии с одним или более аспектами настоящего изобретения;[0009] In FIG. 3 schematically illustrates an example of the lexical-morphological structure of a sentence in accordance with one or more aspects of the present invention;

[00010] Фиг. 4 схематически иллюстрирует языковые описания, представляющие модель естественного языка в соответствии с одним или более аспектами настоящего изобретения;[00010] FIG. 4 schematically illustrates language descriptions representing a natural language model in accordance with one or more aspects of the present invention;

[00011] На Фиг. 5 схематически показаны примеры морфологических описаний в соответствии с одним или более аспектами настоящего изобретения;[00011] In FIG. 5 schematically shows examples of morphological descriptions in accordance with one or more aspects of the present invention;

[00012] На Фиг. 6 схематически показаны примеры синтаксических описаний в соответствии с одним или более аспектами настоящего изобретения;[00012] In FIG. 6 schematically shows examples of syntactic descriptions in accordance with one or more aspects of the present invention;

[00013] На Фиг. 7 схематически показаны примеры семантических описаний в соответствии с одним или более аспектами настоящего изобретения;[00013] In FIG. 7 schematically shows examples of semantic descriptions in accordance with one or more aspects of the present invention;

[00014] На Фиг. 8 схематически показаны примеры лексических описаний в соответствии с одним или более аспектами настоящего изобретения;[00014] In FIG. 8 schematically shows examples of lexical descriptions in accordance with one or more aspects of the present invention;

[00015] На Фиг. 9 схематически показаны примеры структур данных, которые могут быть использованы в рамках одного или более способов, реализованных в соответствии с одним или более аспектами настоящего изобретения;[00015] In FIG. 9 schematically shows examples of data structures that can be used within one or more methods implemented in accordance with one or more aspects of the present invention;

[00016] Фиг. 10 схематически иллюстрирует пример графа обобщенных составляющих в соответствии с одним или более аспектами настоящего изобретения;[00016] FIG. 10 schematically illustrates an example of a graph of generalized components in accordance with one or more aspects of the present invention;

[00017] На Фиг. 11 приводится пример синтаксической структуры, соответствующей предложению, приведенному на Фиг. 10;[00017] In FIG. 11 is an example of a syntax structure corresponding to the sentence of FIG. 10;

[00018] На Фиг. 12 приводится семантическая структура, соответствующая синтаксической структуре на Фиг. 11;[00018] In FIG. 12 shows a semantic structure corresponding to the syntax structure in FIG. eleven;

[00019] На Фиг. 13 схематически иллюстрируется класс онтологии в соответствии с одним или более аспектами настоящего изобретения;[00019] In FIG. 13 schematically illustrates an ontology class in accordance with one or more aspects of the present invention;

[00020] На Фиг. 14 схематически иллюстрируется пара семантических структур, определенных способом создания онтологий на основе анализа текстов на естественном языке, в соответствии с одним или более аспектами настоящего изобретения;[00020] FIG. 14 schematically illustrates a pair of semantic structures defined by a method for creating ontologies based on natural language text analysis, in accordance with one or more aspects of the present invention;

[00021] На Фиг. 15-17 приведены примеры семантических структур, соответствующих примеру предложения, проанализированного способом создания онтологий на основе анализа текстов на естественном языке, в соответствии с одним или более аспектами настоящего изобретения; а также[00021] In FIG. 15-17 are examples of semantic structures corresponding to an example sentence analyzed by a method for creating ontologies based on a natural language text analysis, in accordance with one or more aspects of the present invention; as well as

[00022] На Фиг. 18 изображена схема примера вычислительного устройства, осуществляющего методы настоящего изобретения.[00022] FIG. 18 is a diagram of an example of a computing device implementing the methods of the present invention.

ОПИСАНИЕ ПРЕДПОЧТИТЕЛЬНЫХ ВАРИАНТОВ РЕАЛИЗАЦИИDESCRIPTION OF PREFERRED EMBODIMENTS

[00023] В настоящем документе описываются способы и системы создания онтологий на основе анализа текстов на естественном языке.[00023] This document describes methods and systems for creating ontologies based on the analysis of texts in natural language.

[00024] "Онтология" означает модель, которая представляет собой объекты, относящиеся к определенной области знаний (предметной области), и отношения между данными объектами. Онтология может включать определения некого множества классов, где каждый класс соответствует концепту предметной области. Каждое определение класса может включать определения одного или более отнесенных к данному классу объектов. Согласно общепринятой терминологии класс онтологии может также означать концепт, а принадлежащий классу объект может означать экземпляр данного концепта.[00024] "Ontology" means a model that represents objects belonging to a certain field of knowledge (domain), and the relationship between these objects. An ontology may include definitions of a certain set of classes, where each class corresponds to the concept of a subject area. Each class definition may include definitions of one or more objects assigned to that class. According to generally accepted terminology, an ontology class can also mean a concept, and an object belonging to a class can mean an instance of a given concept.

[00025] В качестве иллюстративного примера класс "Person" (Человек) может быть соотнесен с одним или более объектами, соответствующими определенным лицам. Определение каждого класса может далее включать одно или несколько определений отношений одного или более отнесенных к данному классу объектов. Определение каждого класса может далее включать одно или несколько ограничений, устанавливающих определенные свойства объектов класса. В определенных вариантах осуществления класс может являться предком или потомком другого класса.[00025] As an illustrative example, the class "Person" (Man) can be associated with one or more objects corresponding to certain persons. The definition of each class may further include one or more definitions of the relations of one or more objects assigned to this class. The definition of each class may further include one or more restrictions establishing certain properties of the objects of the class. In certain embodiments, the class may be the ancestor or descendant of another class.

[00026] Определение объекта может представлять собой материальный объект реального мира (как, например, человек или вещь) либо некое понятие, соотнесенное с одним или более объектами реального мира (как, например, число или слово). В определенных вариантах осуществления объект может быть соотнесен с двумя или более классами. Онтология может являться предком или (и) потомком другой онтологии, в случае чего концепты и свойства онтологии-предка также относятся к онтологии-потомку.[00026] The definition of an object can be a material object of the real world (such as a person or thing) or a concept associated with one or more objects of the real world (such as a number or a word). In certain embodiments, an object may be associated with two or more classes. An ontology can be an ancestor or (and) a descendant of another ontology, in which case the concepts and properties of an ancestor ontology also apply to a descendant ontology.

[00027] В настоящем раскрытии изобретения описываются системы и способы установления с помощью вычислительного устройства альтернативных семантических структур, представляющих похожие или совпадающие объекты, факты, черты и явления, и соотнесения установленных семантических структур с соответствующими классами и объектами онтологии, соотнесенной с анализируемым полем текста на естественном языке.[00027] The present disclosure of the invention describes systems and methods for establishing, using a computing device, alternative semantic structures representing similar or matching objects, facts, features and phenomena, and correlating established semantic structures with corresponding classes and objects of an ontology correlated with the analyzed text field on natural language.

[00028] В настоящем документе термин "вычислительное устройство" означает устройство обработки данных, оснащенное универсальным процессором, памятью и по меньшей мере одним интерфейсом связи. Примерами вычислительных устройств, которые могут использовать описанные в этом документе способы, являются, помимо прочего, настольные компьютеры, портативные компьютеры, планшетные компьютеры и смартфоны.[00028] As used herein, the term "computing device" means a data processing device equipped with a universal processor, memory, and at least one communication interface. Examples of computing devices that can use the methods described in this document are, but are not limited to, desktop computers, laptop computers, tablet computers, and smartphones.

[00029] В соответствии с одним или более аспектами настоящего изобретения вычислительное устройство, осуществляющее данный способ, может проводить синтаксический и семантический анализ множества текстов на естественном языке, принадлежащих некоторому текстовому корпусу, формируя множество независимых от языка семантических структур.[00029] In accordance with one or more aspects of the present invention, a computing device implementing the method can parse and semantically analyze a plurality of natural language texts belonging to a particular text corpus, forming a plurality of language-independent semantic structures.

[00030] Затем в рамках множества семантических структур вычислительное устройство может установить первую семантическую структуру и вторую семантическую структуру, причем первая семантическая структура включает первую подструктуру, подобную по определенному критерию подобия второй подструктуре, входящей во вторую семантическую структуру. Критерий подобия может предполагать по крайней мере частичную эквивалентность двух подструктур. Таким образом, в различных иллюстративных примерах данные две схожие подструктуры могут считаться эквивалентными. В качестве иллюстративного примера каждая из подобных подструктур может состоять из двух частей (именуемых "левый контекст" и "правый контекст" с целью указания на то, что они окружают соответствующие оставшиеся подструктуры первой семантической структуры и второй семантической структуры).[00030] Then, within a plurality of semantic structures, the computing device can establish a first semantic structure and a second semantic structure, the first semantic structure including a first substructure similar in a certain similarity criterion to a second substructure included in the second semantic structure. The similarity criterion may suggest at least partial equivalence of the two substructures. Thus, in various illustrative examples, these two similar substructures can be considered equivalent. As an illustrative example, each of these substructures may consist of two parts (referred to as “left context” and “right context” to indicate that they surround the respective remaining substructures of the first semantic structure and the second semantic structure).

[00031] В случае идентификации двух семантических структур, включающих подобные подструктуры, вычислительное устройство может выдвинуть гипотезу о подобии соответствующих внутренних контекстов первой семантической структуры и второй семантической структуры (где каждый внутренний контекст окружен соответствующими левым и правым контекстами). Затем гипотеза может быть подвергнута проверке, например, путем поиска и идентификации в рамках одного и того же текстового корпуса двух семантических структур, отличающихся от первой семантической структуры и второй семантической структуры и включающих подструктуры, семантическое подобие которых подвергается проверке (т.е. третья подструктура и четвертая подструктура, представляющие соответствующие внутренние контексты), при том что оставшиеся части только что установленных семантических структур являются подобными (например, в точки зрения того же критерия подобия, который был применен для установления схожести первой подструктуры и второй подструктуры). При подтверждении гипотезы вычислительное устройство может определить объекты, представленные соответствующими внутренними контекстами двух семантических структур (т.е. третья подструктура и четвертая подструктура) как экземпляры определенного концепта онтологии, соотнесенной с определенной областью знаний.[00031] In the case of the identification of two semantic structures, including similar substructures, the computing device may hypothesize that the corresponding internal contexts of the first semantic structure and the second semantic structure are similar (where each internal context is surrounded by corresponding left and right contexts). Then the hypothesis can be tested, for example, by searching and identifying within the same textual corpus two semantic structures that differ from the first semantic structure and the second semantic structure and include substructures whose semantic similarity is tested (i.e., the third substructure and the fourth substructure, representing the relevant internal contexts), while the remaining parts of the newly established semantic structures are similar (for example, of view of the similarity criterion which has been used to establish similarity first substructure and a second substructure). When confirming the hypothesis, the computing device can determine the objects represented by the corresponding internal contexts of the two semantic structures (i.e., the third substructure and fourth substructure) as instances of a specific ontology concept related to a specific field of knowledge.

[00032] Различные аспекты упомянутых выше способов и систем подробно описаны ниже в этом документе с помощью примеров, а не способом ограничения.[00032] Various aspects of the above methods and systems are described in detail later in this document by way of examples and not by way of limitation.

[00033] На Фиг. 1 приведена блок-схема одного иллюстративного примера способа (100) создания онтологий на основе анализа текстов на естественном языке в соответствии с одним или более аспектами настоящего изобретения. Способ (100) и (или) каждая из его отдельных функций, стандартных программ, подпрограмм или операций может выполняться с помощью одного или более процессоров вычислительного устройства (например, вычислительного устройства (100) на Фиг. 1), реализующего данный способ. В некоторых вариантах осуществления способ (100) может выполняться в одном потоке обработки. При альтернативном подходе способ (100) может быть реализован с помощью двух или более потоков обработки, при этом каждый поток выполняет одну или несколько отдельных функций, стандартных программ, подпрограмм или операций данного способа. В качестве иллюстративного примера потоки обработки, реализующие способ (100), могут быть синхронизованы (например, с использованием семафоров, критических секций и (или) других механизмов синхронизации потоков). При альтернативном подходе потоки обработки, реализующие способ (100), могут выполняться асинхронно по отношению друг к другу.[00033] FIG. 1 is a flow chart of one illustrative example of a method (100) for creating ontologies based on natural language text analysis in accordance with one or more aspects of the present invention. Method (100) and (or) each of its individual functions, standard programs, subprograms or operations can be performed using one or more processors of a computing device (for example, computing device (100) in Fig. 1) that implements this method. In some embodiments, method (100) may be performed in a single processing stream. In an alternative approach, method (100) can be implemented using two or more processing threads, with each thread performing one or more separate functions, standard programs, subprograms, or operations of this method. As an illustrative example, processing threads implementing method (100) can be synchronized (for example, using semaphores, critical sections, and / or other mechanisms for synchronizing threads). In an alternative approach, processing threads implementing method (100) can be performed asynchronously with respect to each other.

[00034] В блоке (120) вычислительное устройство, реализующее данный способ, может проводить семантико-синтаксический анализ исходного корпуса текстов (110) для получения множества независимых от языка семантических структур (более подробное описание см. ниже в настоящем документе).[00034] In block (120), a computing device that implements this method can perform semantic-syntactic analysis of the original text corpus (110) to obtain a variety of language-independent semantic structures (for a more detailed description see later in this document).

[00035] В блоке (130) вычислительное устройство может создавать индекс множества семантических структур (более подробное описание см. ниже в настоящем документе). Данный индекс может использоваться для установления определенных элементов в составе семантических структур и тем самым способствовать идентификации семантических структур, определенным образом связанных друг с другом (например, структуры, схожие по определенному критерию подобия).[00035] In block (130), the computing device may create an index of a plurality of semantic structures (for a more detailed description see later in this document). This index can be used to establish certain elements in the composition of semantic structures and thereby contribute to the identification of semantic structures that are related in a certain way to each other (for example, structures that are similar by a certain similarity criterion).

[00036] В блоке (140) вычислительное устройство может устанавливать две семантические структуры, где первая семантическая структура включает первую подструктуру, которая с точки зрения определенного критерия схожести является сходной со второй подструктурой, входящей в состав второй установленной семантической структуры. Критерий подобия может предполагать по меньшей мере частичную эквивалентность двух подструктур (более подробное описание см. ниже в настоящем документе).[00036] In block (140), the computing device can establish two semantic structures, where the first semantic structure includes a first substructure, which, in terms of a certain similarity criterion, is similar to the second substructure that is part of the second established semantic structure. The similarity criterion may imply at least partial equivalence of the two substructures (for a more detailed description see later in this document).

[00037] В качестве иллюстративного примера каждая из установленных подобных подструктур может состоять из двух частей (именуемых "левый контекст" и "правый контекст" с целью указания на то, что они окружают соответствующие оставшиеся подструктуры первой семантической структуры и второй семантической структуры).[00037] As an illustrative example, each of the identified similar substructures may consist of two parts (referred to as “left context” and “right context” to indicate that they surround the corresponding remaining substructures of the first semantic structure and the second semantic structure).

[00038] В блоке (150) вычислительное устройство может определить, что соответствующие внутренние контексты первой семантической структуры и второй семантической структуры (где каждый внутренний контекст окружен соответствующими левым и правым контекстами) являются подобными по определенному критерию подобия.[00038] In block (150), the computing device can determine that the corresponding internal contexts of the first semantic structure and the second semantic structure (where each internal context is surrounded by corresponding left and right contexts) are similar by a certain similarity criterion.

[00039] В блоке 160 вычислительное устройство может отмечать слова или словосочетания, соответствующие внутренним контекстам двух семантических структур, как семантически подобные или эквивалентные.[00039] In block 160, the computing device may mark words or phrases corresponding to the internal contexts of the two semantic structures as semantically similar or equivalent.

[00040] В блоке (170) вычислительное устройство может определять объекты, представленные соответствующими внутренними контекстами двух семантических структур (например, третья подструктура и четвертая подструктура) как экземпляры определенного концепта онтологии, соотнесенной с текстовым корпусом (более подробное описание см. ниже в настоящем документе), после чего способ может вернуться к выполнению блока (140).[00040] In block (170), the computing device can determine the objects represented by the corresponding internal contexts of two semantic structures (for example, the third substructure and the fourth substructure) as instances of a specific ontology concept associated with a text body (for a more detailed description see later in this document ), after which the method may return to block execution (140).

[00041] На Фиг. 2 приведена блок-схема одного иллюстративного примера способа (200) проведения семантико-синтаксического анализа предложения на естественном языке (212) в соответствии с одним или более аспектами настоящего изобретения. Способ (200) может быть применен к одной или более синтаксическим единицам (например, предложениям), включенным в определенный текстовый корпус, для формирования множества семантико-синтаксических деревьев, соответствующих синтаксическим единицам. В различных иллюстративных примерах предложения на естественном языке, подлежащие обработке способом (200), могут извлекаться из одного или более электронных документов, которые могут создаваться путем сканирования (или другим способом получения изображений бумажных документов) и оптического распознавания символов (OCR), для формирования текстов, соотнесенных с данными документами. Предложения на естественном языке также могут извлекаться из других различных источников, включая сообщения, отправляемые по электронной почте, тексты из социальных сетей, файлы с цифровым содержимым, обработанные с использованием способов распознавания речи и т.д.[00041] In FIG. 2 is a flow chart of one illustrative example of a method (200) for conducting semantic-syntactic analysis of a sentence in a natural language (212) in accordance with one or more aspects of the present invention. Method (200) can be applied to one or more syntactic units (e.g., sentences) included in a particular text corpus to form a plurality of semantic-syntactic trees corresponding to syntactic units. In various illustrative examples, natural language sentences to be processed by method (200) can be extracted from one or more electronic documents that can be generated by scanning (or other means of obtaining images of paper documents) and optical character recognition (OCR) to form texts correlated with these documents. Natural language sentences can also be extracted from various other sources, including e-mail messages, texts from social networks, digital content files processed using speech recognition methods, etc.

[00042] В блоке (214) вычислительное устройство, реализующее данный способ, может проводить лексико-морфологический анализ предложения (212) для установления морфологических значений слов, входящих в состав предложения. В настоящем документе "морфологическое значение" слова означает одну или несколько лемм (т.е. канонических или словарных форм), соответствующих слову, и соответствующий набор значений грамматических признаков, которые определяют грамматическое значение слова. В число таких грамматических признаков могут входить лексическая категория (часть речи) слова и один или более морфологических и/или грамматических признаков (например, падеж, род, число, спряжение и т.д.). Ввиду омонимии и (или) совпадающих грамматических форм, соответствующих разным лексико-морфологическим значениям определенного слова, для данного слова может быть установлено два или более морфологических значений. Более подробное описание иллюстративного примера проведения лексико-морфологического анализа предложения приведено ниже в настоящем документе со ссылкой на Фиг. 3.[00042] In block (214), a computing device that implements this method can conduct a lexical-morphological analysis of the sentence (212) to establish the morphological meanings of the words that make up the sentence. As used herein, the "morphological meaning" of a word means one or more lemmas (i.e., canonical or dictionary forms) corresponding to a word, and a corresponding set of grammatical attribute values that define the grammatical meaning of the word. Such grammatical features may include the lexical category (part of speech) of the word and one or more morphological and / or grammatical features (for example, case, gender, number, conjugation, etc.). Due to the homonymy and (or) matching grammatical forms corresponding to different lexical and morphological meanings of a particular word, two or more morphological meanings can be established for a given word. A more detailed description of an illustrative example of conducting a lexical-morphological analysis of a sentence is given later in this document with reference to FIG. 3.

[00043] В блоке (215) вычислительное устройство может проводить грубый синтаксический анализ предложения (212). Грубый синтаксический анализ может включать применение одной или нескольких синтаксических моделей, которые могут быть соотнесены с элементами предложения (212), с последующим установлением поверхностных (т.е. синтаксических) связей в рамках предложения (212) для получения графа обобщенных составляющих. В настоящем документе "составляющая" означает группу соседних слов исходного предложения, функционирующую как одна грамматическая сущность. Составляющая включает в себя ядро в виде одного или более слов и может также включать одну или несколько дочерних составляющих на более низких уровнях. Дочерняя составляющая является зависимой составляющей, которая может быть соотнесена с одной или несколькими родительскими составляющими.[00043] In block (215), the computing device may conduct crude parsing of sentence (212). Rough parsing can include the use of one or more syntactic models that can be correlated with elements of a sentence (212), followed by the establishment of surface (i.e., syntactic) relationships within a sentence (212) to obtain a graph of generalized components. As used herein, “constituent” means a group of neighboring words of an original sentence that functions as one grammatical entity. A component includes a core in the form of one or more words and may also include one or more child components at lower levels. A child component is a dependent component that can be correlated with one or more parent components.

[00044] В блоке (216) вычислительное устройство может проводить точный синтаксический анализ предложения (212) для формирования одного или более синтаксических деревьев предложения. Причиной многообразия возможных синтаксических деревьев, соответствующих какому-либо данному исходному предложению, может быть омонимия и (или) совпадающие грамматические формы, соответствующие разным лексико-морфологическим значениям одного или более слов в составе исходного предложения. Среди различных синтаксических деревьев на основе определенной функции оценки с учетом совместимости лексических значений слов исходного предложения, поверхностных отношений, глубинных отношений и т.д. может быть отобрано одно или несколько лучших синтаксических деревьев, соответствующих предложению (212).[00044] In block (216), the computing device can perform precise parsing of the sentence (212) to generate one or more syntactic sentence trees. The reason for the variety of possible syntactic trees corresponding to any given initial sentence may be homonymy and (or) matching grammatical forms corresponding to different lexical and morphological meanings of one or more words in the composition of the initial sentence. Among the various syntax trees, based on a specific evaluation function, taking into account the compatibility of the lexical meanings of the words of the original sentence, surface relations, deep relations, etc. one or more of the best syntax trees corresponding to proposal (212) can be selected.

[00045] В блоке (217) вычислительное устройство может обрабатывать синтаксические деревья для формирования семантической структуры (218), соответствующей предложению (212). Семантическая структура (218) может включать множество узлов, соответствующих семантическим классам и также может включать множество дуг, соответствующих семантическим отношениям (более подробное описание см. ниже в настоящем документе).[00045] In block (217), the computing device can process syntax trees to form a semantic structure (218) corresponding to sentence (212). The semantic structure (218) may include many nodes corresponding to semantic classes and may also include many arcs corresponding to semantic relations (for a more detailed description see later in this document).

[00046] На Фиг. 3 схематически иллюстрируется пример лексико-морфологической структуры предложения в соответствии с одним или более аспектами настоящего изобретения. Пример лексико-морфологической структуры (300) может включать множество пар "лексическое значение - грамматическое значение" для примера предложения (320). В качестве иллюстративного примера, "ll" может быть соотнесено с лексическим значением "shall" (312) и "will" (314). Грамматическим значением, соотнесенным с лексическим значением (312), является <Verb, GTVerbModal, ZeroType, Present, Nonnegative, Composite II>. Грамматическим значением, соотнесенным с лексическим значением (314), является <Verb, GTVerbModal, ZeroType, Present, Nonnegative, Irregular, Composite II>.[00046] In FIG. 3 schematically illustrates an example of the lexical-morphological structure of a sentence in accordance with one or more aspects of the present invention. An example of a lexical-morphological structure (300) may include many pairs of “lexical meaning - grammatical meaning” for an example sentence (320). As an illustrative example, “ll” can be correlated with the lexical meaning “shall” (312) and “will” (314). The grammatical meaning associated with the lexical meaning (312) is <Verb, GTVerbModal, ZeroType, Present, Nonnegative, Composite II>. The grammatical meaning associated with the lexical meaning (314) is <Verb, GTVerbModal, ZeroType, Present, Nonnegative, Irregular, Composite II>.

[00047] Фиг. 4 схематически иллюстрирует используемые языковые описания (410), в том числе морфологические описания (101), лексические описания (103), синтаксические описания (102) и семантические описания (104), а также отношения между ними. Среди них морфологические описания (101), лексические описания (103) и синтаксические описания (102) зависят от языка. Набор языковых описаний (210) представляет собой модель определенного естественного языка.[00047] FIG. 4 schematically illustrates the language descriptions used (410), including morphological descriptions (101), lexical descriptions (103), syntactic descriptions (102) and semantic descriptions (104), as well as the relationships between them. Among them, morphological descriptions (101), lexical descriptions (103) and syntactic descriptions (102) depend on the language. A set of language descriptions (210) is a model of a certain natural language.

[00048] В качестве иллюстративного примера определенное лексическое значение в лексических описаниях (203) может быть соотнесено с одной или несколькими поверхностными моделями синтаксических описаний (202), соответствующих данному лексическому значению. Определенная поверхностная модель синтаксических описаний (202) может быть соотнесена с глубинной моделью семантических описаний (204).[00048] As an illustrative example, a specific lexical meaning in lexical descriptions (203) can be correlated with one or more surface models of syntactic descriptions (202) corresponding to a given lexical meaning. A specific surface model of syntactic descriptions (202) can be correlated with an in-depth model of semantic descriptions (204).

[00049] На Фиг. 5 схематически иллюстрируются несколько примеров морфологических описаний. В число компонентов морфологических описаний (201) могут входить: описания словоизменения (310), грамматическая система (320), описания словообразования (330) и другие. Грамматическая система (320) включает набор грамматических категорий, таких как часть речи, падеж, род, число, лицо, возвратность, время, вид и их значения (так называемые "граммемы"), в том числе, например, прилагательное, существительное или глагол; именительный, винительный или родительный падеж; женский, мужской или средний род и т.д. Соответствующие граммемы могут использоваться для составления описания словоизменения (310) и описания словообразования (330).[00049] In FIG. 5 schematically illustrates several examples of morphological descriptions. The components of morphological descriptions (201) may include: inflection descriptions (310), grammar system (320), word formation descriptions (330) and others. The grammar system (320) includes a set of grammatical categories, such as a part of speech, case, gender, number, person, recurrence, time, type and their meanings (so-called "grammes"), including, for example, an adjective, noun or verb ; nominative, accusative or genitive; feminine, masculine or neuter, etc. Corresponding grammars can be used to compose a word inflection description (310) and a word derivation description (330).

[00050] Описание словоизменения (310) определяет формы данного слова в зависимости от его грамматических категорий (например, падеж, род, число, время и т.д.) и в широком смысле включает в себя или описывает различные возможные формы слова. Описание словообразования 330 определяет, какие новые слова могут быть образованы от данного слова (например, сложные слова).[00050] The description of the inflection (310) defines the forms of a given word depending on its grammatical categories (for example, case, gender, number, time, etc.) and in the broad sense includes or describes various possible forms of the word. Description of word formation 330 determines which new words can be formed from a given word (for example, compound words).

[00051] В соответствии с одним из аспектов настоящего изобретения при установлении синтаксических отношений между элементами исходного предложения могут использоваться модели составляющих. Составляющая представляет собой группу соседних слов в предложении, ведущих себя как единое целое. Ядром составляющей является слово, она также может содержать дочерние составляющие более низких уровней. Дочерняя составляющая является зависимой составляющей и может быть прикреплена к другим составляющим (родительским) для построения синтаксических описаний (102) исходного предложения.[00051] In accordance with one aspect of the present invention, component models may be used to establish syntactic relationships between elements of the original sentence. A component is a group of neighboring words in a sentence that behave as a whole. The core component is the word; it can also contain child components of lower levels. The child component is a dependent component and can be attached to other components (parent) to build syntactic descriptions (102) of the original sentence.

[00052] На Фиг. 6 приведены примеры синтаксических описаний. В число компонентов синтаксических описаний (202) могут входить, среди прочего, поверхностные модели (410), описания поверхностных позиций (420), описание референциального и структурного контроля (456), описание управления и согласования (440), описание недревесного синтаксиса (450) и правила анализа (460). Синтаксические описания (102) могут использоваться для построения возможных синтаксических структур исходного предложения на заданном естественном языке с учетом свободного линейного порядка слов, недревесных синтаксических явлений (например, согласование, эллипсис и т.д.), референциальных отношений и других факторов.[00052] In FIG. 6 shows examples of syntactic descriptions. The components of syntactic descriptions (202) may include, but are not limited to, surface models (410), descriptions of surface positions (420), description of referential and structural control (456), description of control and alignment (440), description of non-wood syntax (450) and rules of analysis (460). Syntactic descriptions (102) can be used to construct possible syntactic structures of the original sentence in a given natural language taking into account the free linear order of words, non-wood syntactic phenomena (e.g., matching, ellipsis, etc.), referential relations, and other factors.

[00053] Поверхностные модели 410 могут быть представлены в виде совокупностей одной или нескольких синтаксических форм («синтформ» (412)) для описания возможных синтаксических структур предложений, входящих в состав синтаксического описания (102). В целом, лексическое значение слова на естественном языке может быть связано с поверхностными (синтаксическими) моделями (410). Поверхностная модель может представлять собой составляющие, которые возможны, если лексическое значение выступает в роли "ядра". Поверхностная модель может включать набор поверхностных позиций дочерних элементов, описание линейного порядка и (или) диатезу. В настоящем документе "диатеза" означает определенное отношение между поверхностными и глубинными позициями и их семантическими ролями, выражаемыми посредством глубинных позиций.[00053] Surface models 410 can be represented as collections of one or more syntactic forms (“synths” (412)) to describe possible syntactic sentence structures that are part of the syntax description (102). In general, the lexical meaning of a word in a natural language can be associated with superficial (syntactic) models (410). The surface model can represent the components that are possible if the lexical meaning acts as a "core". A surface model may include a set of surface positions of child elements, a description of the linear order, and / or diathesis. As used herein, “diathesis” means a definite relationship between surface and depth positions and their semantic roles expressed through depth positions.

[00054] В модели составляющих может использоваться множество поверхностных позиций (415) дочерних составляющих и описаний их линейного порядка (416) для описания грамматических значений (414) возможных заполнителей этих поверхностных позиций. Диатезы (417) представляют собой соответствия между поверхностными позициями (415) и глубинными позициями (514) (как показано на Фиг. 7). Коммуникативные описания (480) описывают коммуникативный порядок в предложении.[00054] A plurality of surface positions (415) of daughter components and descriptions of their linear order (416) can be used in the component model to describe grammatical values (414) of possible placeholders for these surface positions. Diathesis (417) are the correspondence between the surface positions (415) and the deep positions (514) (as shown in Fig. 7). Communicative descriptions (480) describe the communicative order in a sentence.

[00055] Описание линейного порядка (416) может быть представлено в виде выражений линейного порядка, отражающих последовательность, в которой различные поверхностные позиции (415) могут встречаться в предложении. В число выражений линейного порядка могут входить наименования переменных, имена поверхностных позиций, круглые скобки, граммемы, оператор «or» (или) и т.д. В качестве иллюстративного примера описание линейного порядка простого предложения "Boys play football" можно представить в виде "Subject Core Object_Direct" (Подлежащее - Ядро - Прямое дополнение), где Subject (Подлежащее), Core (Ядро) и Object_Direct (Прямое дополнение) представляют собой имена поверхностных позиций (415), соответствующих порядку слов.[00055] The description of the linear order (416) can be represented as linear order expressions reflecting the sequence in which various surface positions (415) can be found in the sentence. Linear expressions can include variable names, surface position names, parentheses, grammes, the or operator (or), etc. As an illustrative example, the linear ordering description of the Boys play football simple sentence can be represented as Subject Core Object_Direct, where Subject, Core, Object_Direct are the direct complement names of surface positions (415) corresponding to word order.

[00056] Коммуникативные описания (480) могут описывать порядок слов в синтформе (412) с точки зрения коммуникативных актов, представленных в виде коммуникативных выражений порядка, которые похожи на выражения линейного порядка. Описание управления и согласования (440) может включать правила и ограничения на грамматические значения присоединяемых составляющих, которые используются во время синтаксического анализа.[00056] Communicative descriptions (480) can describe the word order in synthform (412) from the point of view of communicative acts represented as communicative order expressions that are similar to linear order expressions. The description of control and coordination (440) may include rules and restrictions on the grammatical values of the attached components that are used during parsing.

[00057] Описания недревесного синтаксиса (450) могут создаваться для отражения различных языковых явлений, таких как эллипсис и согласование, они используются при трансформациях синтаксических структур, которые создаются на различных этапах анализа в различных вариантах реализации изобретения. Описания не древесного синтаксиса (450) могут, среди прочего, включать описание эллипсиса (452), описание согласования (454), а также описание референциального и структурного контроля (430).[00057] Descriptions of non-wood syntax (450) can be created to reflect various linguistic phenomena, such as ellipsis and matching, they are used in transformations of syntactic structures that are created at various stages of analysis in various embodiments of the invention. Descriptions of non-tree syntax (450) may, among other things, include a description of the ellipsis (452), a description of the agreement (454), and a description of the reference and structural control (430).

[00058] Правила анализа (460) могут описывать свойства конкретного языка и использоваться в рамках семантического анализа (150). Правила анализа (460) могут включать правила вычисления семантем (462) и правила нормализации (464). Правила нормализации (464) могут использоваться для описания трансформаций семантических структур, которые могут отличаться в разных языках.[00058] The rules of analysis (460) can describe the properties of a particular language and can be used in the framework of semantic analysis (150). Rules of analysis (460) may include rules for calculating semantems (462) and normalization rules (464). Normalization rules (464) can be used to describe transformations of semantic structures that may differ in different languages.

[00059] На Фиг. 7 приведен пример семантических описаний. Компоненты семантических описаний (104) не зависят от языка и могут, среди прочего, включать семантическую иерархию (510), описания глубинных позиций (520), систему семантем (530) и прагматические описания (540).[00059] FIG. 7 gives an example of semantic descriptions. The components of semantic descriptions (104) are language independent and may, among other things, include a semantic hierarchy (510), descriptions of deep positions (520), a system of semantems (530), and pragmatic descriptions (540).

[00060] Ядро семантических описаний может быть представлено семантической иерархией (510), в которую могут входить семантические понятия (семантические сущности), также называемые семантическими классами. Последние могут быть упорядочены в иерархическую структуру, отражающую отношения "родитель-потомок". В целом, дочерний семантический класс может унаследовать одно или более свойств своего прямого родителя и других семантических классов-предков. В качестве иллюстративного примера семантический класс SUBSTANCE (Вещество) является дочерним семантическим классом класса ENTITY (Сущность) и родительским семантическим классом для классов GAS, (Газ), LIQUID (Жидкость), METAL (Металл), WOOD_MATERIAL (Древесина) и т.д.[00060] The core of semantic descriptions can be represented by a semantic hierarchy (510), which can include semantic concepts (semantic entities), also called semantic classes. The latter can be arranged in a hierarchical structure that reflects the parent-child relationship. In general, a child semantic class can inherit one or more properties of its direct parent and other semantic ancestor classes. As an illustrative example, the semantic class SUBSTANCE (Substance) is a child semantic class of the ENTITY class and the parent semantic class for the classes GAS, (Gas), LIQUID (Liquid), METAL (Metal), WOOD_MATERIAL (Wood), etc.

[00061] Каждый семантический класс в семантической иерархии (510) может сопровождаться глубинной моделью (512). Глубинная модель (512) семантического класса может включать множество глубинных позиций (514), которые могут отражать семантические роли дочерних составляющих в различных предложениях с объектами данного семантического класса в качестве ядра родительской составляющей. Глубинная модель (512) также может включать возможные семантические классы, выступающие в роли заполнителей глубинных позиций. Глубинные позиции (514) могут выражать семантические отношения, в том числе, например, "agent" (агент), "addressee" (адресат), "instrument" (инструмент), "quantity" (количество) и т.д. Дочерний семантический класс может наследовать и уточнять глубинную модель своего непосредственного родительского семантического класса.[00061] Each semantic class in the semantic hierarchy (510) may be accompanied by a deep model (512). An in-depth model (512) of the semantic class may include many in-depth positions (514), which may reflect the semantic roles of child components in various sentences with objects of a given semantic class as the core of the parent component. The deep model (512) may also include possible semantic classes that act as placeholders for deep positions. Deep positions (514) can express semantic relationships, including, for example, "agent" (agent), "addressee" (destination), "instrument" (instrument), "quantity" (quantity), etc. A child semantic class can inherit and refine the deep model of its immediate parent semantic class.

[00062] Описания глубинных позиций (520) отражают семантические роли дочерних составляющих в глубинных моделях (512) и могут использоваться для описания общих свойств глубинных позиций (514). Описания глубинных позиций (520) также могут содержать грамматические и семантические ограничения в отношении заполнителей глубинных позиций (514). Свойства и ограничения, связанные с глубинными позициями (514) и их возможными заполнителями в различных языках, могут быть в значительной степени подобными и зачастую идентичными. Таким образом, глубинные позиции (514) не зависят от языка.[00062] Descriptions of deep positions (520) reflect the semantic roles of daughter components in deep models (512) and can be used to describe general properties of deep positions (514). Descriptions of deep positions (520) may also contain grammatical and semantic restrictions on placeholders for deep positions (514). The properties and limitations associated with deep positions (514) and their possible placeholders in various languages can be largely similar and often identical. Thus, deep positions (514) are language independent.

[00063] Набор семантем (530) может представлять собой множество семантических категорий и семантем, которые представляют значения семантических категорий. В качестве иллюстративного примера семантическая категория "DegreeOfComparison" (Степень сравнения) может использоваться для описания степени сравнения прилагательных и включать следующие семантемы: "Positive" (Положительная), "ComparativeHigherDegree" (Сравнительная степень сравнения), "SuperlativeHighestDegree" (Превосходная степень сравнения) и другие. В качестве еще одного иллюстративного примера семантическая категория "RelationToReferencePoint" (Отношение к точке) может использоваться для описания порядка (пространственного или временного в широком смысле анализируемых слов), как, например, до или после точки или события, и включать семантемы "Previous" (Предыдущий) и "Subsequent" (Последующий). В качестве еще одного иллюстративного примера семантическая категория "EvaluationObjective" (Оценка) может использоваться для описания объективной оценки, как, например, "Bad" (Плохой), "Good" (Хороший) и т.д.[00063] A set of semantems (530) can be a set of semantic categories and semantems that represent the meanings of semantic categories. As an illustrative example, the semantic category "DegreeOfComparison" (Comparison Degree) can be used to describe the degree of comparison of adjectives and include the following semantems: "Positive", "ComparativeHigherDegree" (Comparative Comparison), "SuperlativeHighestDegree" (Superlative Comparison) and others. As another illustrative example, the semantic category "RelationToReferencePoint" (Relation to a point) can be used to describe the order (spatial or temporal in the broad sense of the analyzed words), such as before or after a point or event, and include semantems "Previous" ( Previous) and Subsequent. As another illustrative example, the semantic category "EvaluationObjective" can be used to describe an objective assessment, such as, for example, "Bad", "Good", etc.

[00064] Система семантем (530) может включать независимые от языка семантические атрибуты, которые могут выражать не только семантические характеристики, но и стилистические, прагматические и коммуникативные характеристики. Некоторые семантемы могут использоваться для выражения атомарного значения, которое находит регулярное грамматическое и (или) лексическое выражение в естественном языке. По своему целевому назначению и использованию системы семантем могут разделяться на категории, например, грамматические семантемы (532), лексические семантемы (534) и классифицирующие грамматические (дифференцирующие) семантемы (536).[00064] The system of semantems (530) may include language-independent semantic attributes that can express not only semantic characteristics, but also stylistic, pragmatic and communicative characteristics. Some semanthemes can be used to express an atomic meaning that finds a regular grammatical and / or lexical expression in a natural language. According to their intended purpose and use, systems of semantems can be divided into categories, for example, grammatical semantems (532), lexical semantems (534) and classifying grammatical (differentiating) semantems (536).

[00065] Грамматические семантемы (532) могут использоваться для описания грамматических свойств составляющих при преобразовании синтаксического дерева в семантическую структуру. Лексические семантемы (534) могут описывать конкретные свойства объектов (например, "being flat" (быть плоским) или "being liquid" (являться жидкостью)) и использоваться в описаниях глубинных позиций (520) как ограничение заполнителей глубинных позиций (например, для глаголов "face (with)" (облицовывать) и "flood" (заливать), соответственно). Классифицирующие грамматические (дифференцирующие) семантемы (536) могут выражать дифференциальные свойства объектов внутри одного семантического класса. В качестве иллюстративного примера в семантическом классе HAIRDRESSER (ПАРИКМАХЕР) семантема «RelatedToMen» (Относится к мужчинам) присваивается лексическому значению "barber" в отличие от других лексических значений, которые также относятся к этому классу, например, «hairdresser», «hairstylist» и т.д. Используя данные независимые от языка семантические свойства, которые могут быть выражены в виде элементов семантического описания, в том числе семантических классов, глубинных позиций и семантем, можно извлекать семантическую информацию в соответствии с одним или более аспектами настоящего изобретения.[00065] Grammatical semantems (532) can be used to describe the grammatical properties of constituents when transforming a syntax tree into a semantic structure. Lexical semantems (534) can describe specific properties of objects (for example, “being flat” or “being liquid”) and used in descriptions of deep positions (520) as a restriction of placeholders for deep positions (for example, for verbs "face (with)" (lining) and "flood" (fill), respectively). Classifying grammatical (differentiating) semantems (536) can express the differential properties of objects within a single semantic class. As an illustrative example, in the HAIRDRESSER semantic class, the relatedToMen semantem is assigned to the lexical meaning barber, unlike other lexical meanings that also belong to this class, for example, hairdresser, hairstylist, and etc. Using data language-independent semantic properties that can be expressed as elements of a semantic description, including semantic classes, deep positions, and semantems, semantic information can be extracted in accordance with one or more aspects of the present invention.

[00066] Прагматические описания (540) позволяют назначать определенную тему, стиль или жанр с текстам и объектам семантической иерархии (510) (например, «Экономическая политика», «Внешняя политика», «Юриспруденция», «Законодательство», «Торговля», «Финансы» и т.д.). Прагматические свойства также могут выражаться семантемами. В качестве иллюстративного примера прагматический контекст может приниматься во внимание при семантическом анализе.[00066] Pragmatic descriptions (540) allow you to assign a specific theme, style or genre with texts and objects of the semantic hierarchy (510) (for example, “Economic Policy”, “Foreign Policy”, “Law”, “Legislation”, “Trade”, "Finance", etc.). Pragmatic properties can also be expressed by semantems. As an illustrative example, pragmatic context can be taken into account in semantic analysis.

[00067] На Фиг. 8 приведен пример лексических описаний. Лексические описания (203) представляют собой множество лексических значений (612) конкретного естественного языка. Для каждого лексического значения (612) имеется связь (602) с его независимым от языка семантическим родителем для того, чтобы указать положение какого-либо заданного лексического значения в семантической иерархии (510).[00067] FIG. 8 is an example of lexical descriptions. Lexical descriptions (203) are the set of lexical meanings (612) of a particular natural language. For each lexical meaning (612), there is a relationship (602) with its language-independent semantic parent in order to indicate the position of any given lexical meaning in the semantic hierarchy (510).

[00068] Лексическое значение (612) в лексико-семантической иерархии (510) может быть соотнесено с поверхностной моделью (410), которая в свою очередь через одну или несколько диатез (417) может быть соотнесена с соответствующей глубинной моделью (512). Лексическое значение (612) может наследовать семантический класс своего родителя и уточнять свою глубинную модель (512).[00068] The lexical meaning (612) in the lexical-semantic hierarchy (510) can be correlated with the surface model (410), which in turn can be correlated through one or more diathesis (417) with the corresponding depth model (512). The lexical meaning (612) can inherit the semantic class of its parent and refine its depth model (512).

[00069] Поверхностная модель (410) лексического значения может включать одну или несколько синтаксических форм (412). Синтформа (412) поверхностной модели (410) может включать одну или несколько поверхностных позиций (415), в том числе соответствующие описания их линейного порядка (416), одно или несколько грамматических значений (414), выраженных в виде набора грамматических категорий (граммем), одно или несколько семантических ограничений, соотнесенных с заполнителями поверхностных позиций, и одну или несколько диатез (417). Семантические ограничения, соотнесенные с определенным заполнителем поверхностной позиции, могут быть представлены в виде одного или более семантических классов, объекты которых могут заполнить эту поверхностную позицию.[00069] A surface model (410) of lexical meaning may include one or more syntactic forms (412). The synth form (412) of the surface model (410) may include one or more surface positions (415), including the corresponding descriptions of their linear order (416), one or more grammatical values (414), expressed as a set of grammatical categories (gramme) , one or more semantic restrictions associated with placeholder surface positions, and one or more diathesis (417). Semantic constraints associated with a particular placeholder for a surface position can be represented as one or more semantic classes whose objects can fill this surface position.

[00070] На Фиг. 9 схематически иллюстрируются примеры структур данных, которые могут быть использованы в рамках одного или более методов настоящего изобретения. Снова ссылаясь на Фиг. 2, в блоке (214) вычислительное устройство, реализующее данный способ, может проводить лексико-морфологический анализ предложения (212) для построения лексико-морфологической структуры (722) согласно Фиг. 9. Лексико-морфологическая структура (722) может включать множество соответствий лексического и грамматического значений для каждой лексической единицы (например, слова) исходного предложения. На Фиг. 3 схематически иллюстрируется пример лексико-морфологической структуры.[00070] FIG. 9 schematically illustrates examples of data structures that can be used within the framework of one or more methods of the present invention. Referring again to FIG. 2, in block (214), a computing device that implements this method can conduct a lexical-morphological analysis of sentence (212) to construct a lexical-morphological structure (722) according to FIG. 9. The lexical-morphological structure (722) may include many correspondences of lexical and grammatical meanings for each lexical unit (for example, a word) of the initial sentence. In FIG. 3 schematically illustrates an example of a lexical-morphological structure.

[00071] В блоке 215 вычислительное устройство может проводить грубый синтаксический анализ исходного предложения (212) для построения графа обобщенных составляющих (732) согласно Фиг. 9. Грубый синтаксический анализ предполагает применение одной или нескольких возможных синтаксических моделей возможных лексических значений к каждому элементу множества элементов лексико-морфологической структуры (722), с тем чтобы установить множество потенциальных синтаксических отношений в составе исходного предложения (212), представленных графом обобщенных составляющих (732).[00071] In block 215, the computing device may conduct rough syntax analysis of the original sentence (212) to construct a graph of generalized components (732) according to FIG. 9. Rough parsing involves applying one or more possible syntactic models of possible lexical meanings to each element of the set of elements of the lexical-morphological structure (722) in order to establish the set of potential syntactic relations in the initial sentence (212) represented by the graph of generalized components ( 732).

[00072] Граф обобщенных составляющих (732) может быть представлен ациклическим графом, включающим множество узлов, соответствующих обобщенным составляющим исходного предложения (212) и включающим множество дуг, соответствующих поверхностным (синтаксическим) позициям, которые могут выражать различные типы отношений между обобщенными лексическими значениями. В рамках данного способа может применяться множество потенциально применимых синтаксических моделей для каждого элемента множества элементов лексико-морфологических структур исходного предложения (212) для формирования набора составляющих исходного предложения (212). Затем в рамках способа может рассматриваться множество возможных составляющих исходного предложения (212) для построения графа обобщенных составляющих (732) на основе набора составляющих. Граф обобщенных составляющих (732) на уровне поверхностной модели может отражать множество потенциальных связей между словами исходного предложения (212). Поскольку количество возможных синтаксических структур может быть относительно большим, граф обобщенных составляющих (732) может, в общем случае, включать избыточную информацию, в том числе относительно большое число лексических значений по определенным узлам и (или) поверхностных позиций по определенным дугам графа.[00072] The graph of generalized components (732) can be represented by an acyclic graph that includes many nodes corresponding to the generalized components of the original sentence (212) and includes many arcs corresponding to surface (syntactic) positions that can express different types of relations between generalized lexical values. In the framework of this method, many potentially applicable syntactic models can be applied for each element of the set of elements of lexical and morphological structures of the original sentence (212) to form a set of components of the initial sentence (212). Then, within the framework of the method, many possible components of the initial sentence (212) can be considered for constructing a graph of generalized components (732) based on a set of components. The graph of generalized components (732) at the level of the surface model can reflect many potential connections between the words of the original sentence (212). Since the number of possible syntactic structures can be relatively large, the graph of generalized components (732) may, in the general case, include redundant information, including a relatively large number of lexical values at certain nodes and (or) surface positions along certain arcs of the graph.

[00073] Граф обобщенных составляющих (732) может изначально строиться в виде дерева, начиная с концевых узлов (листьев) и двигаясь далее к корню, путем добавления дочерних составляющих, заполняющих поверхностные позиции (415) множества родительских составляющих, с тем чтобы были охвачены все лексические единицы исходного предложения (212).[00073] The graph of generalized components (732) can initially be constructed in the form of a tree, starting from the end nodes (leaves) and moving further to the root by adding child components filling the surface positions (415) of the set of parent components so that all are covered lexical units of the original sentence (212).

[00074] В определенных вариантах осуществления корень графа обобщенных составляющих (732) представляет собой предикат. В ходе описанного выше процесса дерево может стать графом, так как определенные составляющие более низкого уровня могут быть включены в одну или несколько составляющих верхнего уровня. Множество составляющих, которые представляют определенные элементы лексико-морфологической структуры, затем может быть обобщено для получения обобщенных составляющих. Составляющие могут быть обобщены на основе их лексических значений или грамматических значений (414), например, на основе частей речи и отношений между ними. На Фиг. 10 схематически иллюстрируется пример графа обобщенных составляющих.[00074] In certain embodiments, the root of the graph of generalized components (732) is a predicate. In the process described above, a tree can become a graph, as certain lower-level components can be included in one or more upper-level components. Many components that represent certain elements of the lexical-morphological structure can then be generalized to obtain generalized components. Components can be generalized based on their lexical meanings or grammatical meanings (414), for example, on the basis of parts of speech and relations between them. In FIG. 10 schematically illustrates an example of a graph of generalized components.

[00075] В блоке (216) вычислительное устройство может проводить точный синтаксический анализ предложения (212) для формирования одного или более синтаксических деревьев (742) согласно Фиг. 9 на основе графа обобщенных составляющих (732). Для каждого синтаксического дерева вычислительное устройство может определить интегральную оценку на основе априорных и вычисляемых оценок. Дерево с наилучшей оценкой может быть выбрано для построения наилучшей синтаксической структуры (746) исходного предложения (212).[00075] In block (216), the computing device can parse sentence (212) accurately to form one or more syntax trees (742) according to FIG. 9 based on the graph of generalized components (732). For each syntax tree, the computing device can determine an integral estimate based on a priori and calculated estimates. The tree with the best rating can be selected to build the best syntactic structure (746) of the original sentence (212).

[00076] В ходе построения синтаксической структуры (746) на основе выбранного синтаксического дерева вычислительное устройство может установить одну или несколько недревесных связей (например, путем создания дополнительной связи среди, как минимум, двух узлов графа). Если этот процесс заканчивается неудачей, вычислительное устройство может выбрать синтаксическое дерево с условно оптимальной оценкой, наиболее близкой к оптимальной, и производится попытка установить одну или несколько недревесных связей в дереве. Наконец, в результате точного синтаксического анализа создается синтаксическая структура (746), которая представляет собой лучшую синтаксическую структуру, соответствующую исходному предложению (212). Фактически в результате отбора лучшей синтаксической структуры (746) определяются лучшие лексические значения (240) для элементов исходного предложения (212).[00076] During the construction of the syntax structure (746) based on the selected syntax tree, the computing device can establish one or more non-wood links (for example, by creating an additional link among at least two nodes of the graph). If this process fails, the computing device can select a syntax tree with a conditionally optimal estimate that is closest to the optimal one, and an attempt is made to establish one or more non-wood links in the tree. Finally, as a result of accurate parsing, a syntax structure (746) is created, which is the best syntax structure corresponding to the original sentence (212). In fact, as a result of selecting the best syntactic structure (746), the best lexical meanings (240) for the elements of the original sentence (212) are determined.

[00077] В блоке (217) вычислительное устройство может обрабатывать синтаксические деревья для формирования семантической структуры (218), соответствующей предложению (212). Семантическая структура (218) может отражать передаваемую исходным предложением семантику в независимых от языка терминах. Семантическая структура (218) может быть представлена в виде ациклического графа (например, дерево, возможно, дополненное одной или более не древесной связью (дугой графа). Слова исходного предложения представлены узлами с соответствующими независимыми от языка семантическими классами семантической иерархии (510). Дуги графа представляют глубинные (семантические) отношения между элементами предложения. Переход к семантической структуре (218) может осуществляться с помощью правил анализа (460) и предполагает соотнесение одного или более атрибутов (отражающих лексические, синтаксические и (или) семантические свойства слов исходного предложения (212)) с каждым семантическим классом.[00077] In block (217), the computing device can process syntax trees to form a semantic structure (218) corresponding to sentence (212). The semantic structure (218) may reflect the semantics conveyed by the original sentence in language-independent terms. The semantic structure (218) can be represented as an acyclic graph (for example, a tree, possibly supplemented by one or more non-tree links (an arc of the graph). The words of the initial sentence are represented by nodes with corresponding language-independent semantic classes of the semantic hierarchy (510). the graphs represent the deep (semantic) relationships between elements of the sentence.The transition to the semantic structure (218) can be carried out using the rules of analysis (460) and involves the correlation of one or more attributes comrade (reflecting lexical, syntactical and (or) the semantic properties of the source sentence word (212)) to each semantic class.

[00078] На Фиг. 11 приводятся примеры синтаксической структуры, соответствующей предложению, приведенному на Фиг. 10. Узел (901) соответствует лексическому элементу "life" (жизнь) (906) в исходном предложении (212). Применяя способ описанного в настоящем документе синтактико-семантического анализа, вычислительное устройство может установить, что лексический элемент "life" (жизнь) (906) представляет одну из лексем производной формы "live" (жить) (902), соотнесенной с семантическим классом "LIVE" (ЖИТЬ) (904) и заполняет поверхностную позицию $Adjunctr_Locative (905) в родительской составляющей, представленной управляющим узлом Verb:succeed:succeed:TO_SUCCEED (907).[00078] In FIG. 11 are examples of a syntax structure corresponding to the sentence of FIG. 10. Node (901) corresponds to the lexical element "life" (life) (906) in the original sentence (212). Using the method of syntactic-semantic analysis described in this document, a computing device can establish that the lexical element “life” (906) represents one of the lexemes of the derivative form “live” (902), correlated with the semantic class “LIVE” "(LIVE) (904) and fills the surface position of $ Adjunctr_Locative (905) in the parent component represented by the Verb: succeed: succeed: TO_SUCCEED control node (907).

[00079] На Фиг. 12 приводится семантическая структура, соответствующая синтаксической структуре на Фиг. 11. В отношении вышеупомянутого лексического элемента "life" (жизнь) (906) на Фиг. 11 семантическая структура включает лексические и семантические классы (1010) и (1030), подобные представленным на Фиг. 11, однако вместо поверхностной позиции (905) семантическая структура включает глубинную позицию "Sphere" (сфера деятельности) (1020).[00079] FIG. 12 shows a semantic structure corresponding to the syntax structure in FIG. 11. With respect to the aforementioned lexical element “life” (906) in FIG. 11, the semantic structure includes lexical and semantic classes (1010) and (1030), similar to those presented in FIG. 11, however, instead of the surface position (905), the semantic structure includes the deep position “Sphere” (field of activity) (1020).

[00080] Как отмечено выше в настоящем документе, в качестве "онтологии" может выступать модель, которая представляет собой объекты, относящиеся к определенной области знаний (предметной области), и отношения между данными объектами. Таким образом, онтология отличается от семантической иерархии, несмотря на то что она может быть соотнесена с элементами семантической иерархии через определенные отношения (также называемые "якоря"). Онтология может включать определения некого множества классов, где каждый класс соответствует концепту предметной области. Каждое определение класса может включать определения одного или более отнесенных к данному классу объектов. Согласно общепринятой терминологии класс онтологии может также означать концепт, а принадлежащий классу объект может означать экземпляр данного концепта.[00080] As noted above in this document, a “ontology” can be a model that represents objects belonging to a certain field of knowledge (subject area), and the relationship between these objects. Thus, the ontology is different from the semantic hierarchy, despite the fact that it can be correlated with the elements of the semantic hierarchy through certain relationships (also called "anchors"). An ontology may include definitions of a certain set of classes, where each class corresponds to the concept of a subject area. Each class definition may include definitions of one or more objects assigned to that class. According to generally accepted terminology, an ontology class can also mean a concept, and an object belonging to a class can mean an instance of a given concept.

[00081] В соответствии с одним или более аспектами настоящего изобретения вычислительное устройство, реализующее методы настоящего изобретения, может индексировать один или более параметров, полученных в результате семантико-синтаксического анализа. Таким образом, методы настоящего изобретения позволяют рассматривать не только множество слов в составе исходного текстового корпуса, но и множества лексических значений данных слов, храня и индексируя всю синтаксическую и семантическую информацию, полученную в ходе синтаксического и семантического анализа каждого предложения исходного текстового корпуса. Такая информация может дополнительно включать данные, полученные в ходе промежуточных этапов анализа, а также результаты лексического выбора, в том числе результаты, полученные в ходе разрешения неоднозначностей, вызванных омонимией и (или) совпадающими грамматическими формами, соответствующими различным лексико-морфологическим значениям определенных слов исходного языка.[00081] In accordance with one or more aspects of the present invention, a computing device that implements the methods of the present invention can index one or more parameters obtained from semantic-syntactic analysis. Thus, the methods of the present invention allow us to consider not only many words in the composition of the original text corpus, but also many lexical meanings of these words, storing and indexing all the syntactic and semantic information obtained in the course of parsing and semantic analysis of each sentence of the original text corpus. Such information may additionally include data obtained during the intermediate stages of the analysis, as well as the results of lexical selection, including the results obtained during the resolution of ambiguities caused by homonymy and (or) matching grammatical forms corresponding to different lexical and morphological meanings of certain words of the original language.

[00082] Для каждого текста, корпуса текстов или множества корпусов может быть создан один или более индексов. Индекс может быть представлен в виде структуры данных памяти, такой как таблица, состоящая из множества записей. Каждая запись может представлять собой установление соответствия между определенным элементом или параметром описания (например, одно или несколько слов, лексическое значение, синтаксическое отношение, морфологическое, синтаксическое или семантическое свойство или синтаксическая или семантическая структура) и одним или более идентификаторами (или адресами) случаев употребления данного элемента семантической в исходном тексте или корпусе.[00082] One or more indexes may be created for each text, body of texts, or multiple bodies. An index can be represented as a memory data structure, such as a table consisting of many records. Each entry can be a correspondence between a specific element or parameter of a description (for example, one or more words, lexical meaning, syntactic relation, morphological, syntactic or semantic property or syntactic or semantic structure) and one or more identifiers (or addresses) of use cases this element is semantic in the source text or body.

[00083] В определенных вариантах осуществления индекс может включать одно или несколько значений морфологических, синтаксических, лексических и (или) семантических параметров. Данные значения могут быть получены в процессе двухэтапного семантического анализа (более подробное описание см. в настоящем документе). Индекс может использоваться для выполнения различных задач обработки естественного языка, в том числе выполнения семантического поиска.[00083] In certain embodiments, an index may include one or more values of morphological, syntactic, lexical, and / or semantic parameters. These values can be obtained in the process of two-stage semantic analysis (for a more detailed description, see this document). The index can be used to perform various natural language processing tasks, including performing semantic search.

[00084] Вычислительное устройство, реализующее данный способ, может извлекать широкий спектр лексических, грамматических, синтаксических, прагматических и (или) семантических характеристик в ходе проведения синтактико-семантического анализа и построения семантических структур. В качестве иллюстративного примера система может извлекать и хранить определенную лексическую информацию, данные о принадлежности определенных лексических единиц семантическим классам, информацию касательно грамматических форм и линейном порядке, информацию касательно использования определенных форм, аспектов, тональности (например, положительная или отрицательная), глубинных позиций, недревесных связей, семантем и т.д.[00084] A computing device that implements this method can extract a wide range of lexical, grammatical, syntactic, pragmatic and (or) semantic characteristics during syntactic-semantic analysis and the construction of semantic structures. As an illustrative example, the system can extract and store certain lexical information, data on the membership of certain lexical units in semantic classes, information regarding grammatical forms and linear order, information regarding the use of certain forms, aspects, tonality (for example, positive or negative), deep positions, non-wood connections, semantems, etc.

[00085] Вычислительное устройство, реализующее методы настоящего изобретения, может, применяя один или более описанных в настоящем документе методов текстового анализа, создавать и индексировать любой из одного или более параметров языковых описаний, в том числе лексических значений, семантических классов, граммем, семантем и т.д. Индексация семантических классов может применяться при выполнении различных задач обработки естественного языка, включая семантический поиск, классификацию, кластеризацию, фильтрацию текста и т.д. Индексация лексических значений (в отличие от индексации слов) позволяет искать не только слова и формы слов, но и лексические значения, т.е. слова с определенными лексическими значениями. Вычислительное устройство, реализующее методы настоящего изобретения, также может хранить, индексировать и искать синтаксические и семантические структуры, полученные одним или более описанными в настоящем документе методами текстового анализа, для использования данных структур и (или) индексов при проведении семантического поиска, классификации, кластеризации и фильтрации документов.[00085] A computing device that implements the methods of the present invention can, using one or more of the text analysis methods described herein, create and index any of one or more parameters of language descriptions, including lexical values, semantic classes, grammes, semantems, and etc. Indexing of semantic classes can be used for various tasks of natural language processing, including semantic search, classification, clustering, text filtering, etc. Indexing lexical meanings (as opposed to indexing words) allows you to search not only for words and word forms, but also for lexical meanings, i.e. words with certain lexical meanings. A computing device that implements the methods of the present invention can also store, index, and search for syntactic and semantic structures obtained by one or more text analysis methods described herein to use these structures and (or) indices for semantic search, classification, clustering, and filtering documents.

[00086] В различных вариантах осуществления вычислительное устройство, реализующее методы настоящего изобретения, может использовать индексы, в состав которых входит одно или несколько целых чисел, для индексирования различных синтаксических, семантических и других параметров. В качестве иллюстративного примера поверхностные или глубинные позиции могут индексироваться с использованием комбинаций из двух целых чисел, где целые числа обозначают "координаты", соответствующие определенной позиции слова в тексте. Так, применительно к примеру семантической структуры на Фиг. 12 глубинная позиция "Sphere" (сфера_деятельности) (1010) связывает лексическое значение "succeed:TO_SUCCEED" (1020) с лексическим значением "life:LIVE" (1030). Более конкретно, лексическое значение "life:LIVE" заполняет глубинную позицию "Sphere" глагола "succeed:TO_SUCCEED". В ходе построения индекса лексических значений вычислительное устройство может соотносить данные лексические значения с координатами их соответствующих расположений в исходном тексте, например, N1 и N2. В ходе построения индекса глубинных позиций вычислительное устройство может соотносить каждую глубинную позицию с идентификатором ее положения в исходном тексте. Так, индекс глубинных позиций будет соотносить глубинную позицию "Sphere" со значением идентификаторов (N1, N2) и другими ее вхождениями.[00086] In various embodiments, a computing device that implements the methods of the present invention may use indices that include one or more integers to index various syntactic, semantic, and other parameters. As an illustrative example, surface or depth positions can be indexed using combinations of two integers, where integers indicate "coordinates" corresponding to a particular position of a word in the text. So, with reference to the example of the semantic structure in FIG. 12 the deep position “Sphere” (sphere_of_operation) (1010) associates the lexical meaning “succeed: TO_SUCCEED” (1020) with the lexical meaning “life: LIVE” (1030). More specifically, the lexical meaning "life: LIVE" fills the deep position of "Sphere" of the verb "succeed: TO_SUCCEED". During the construction of the index of lexical values, the computing device can correlate these lexical values with the coordinates of their respective locations in the source text, for example, N1 and N2. During the construction of the index of deep positions, the computing device can correlate each deep position with the identifier of its position in the source text. So, the index of deep positions will correlate the deep position "Sphere" with the value of identifiers (N1, N2) and its other occurrences.

[00087] Аналогичные способы могут применяться для индексирования не только слов, но и лексических значений, семантических классов, синтаксических и семантических отношений и (или) других элементов синтаксических и семантических структур, применяемых и создаваемых в рамках методов настоящего изобретения. Индексы могут облегчать поиск и распознавание определенных контекстов не только по ключевым словам, но и контекстов, заданных определенными лексическими значениями, соотнесенными с определенными семантическими классами, синтаксическими и (или) семантическими свойствами, морфологическими свойствами или их сочетаниями.[00087] Similar methods can be used to index not only words, but also lexical meanings, semantic classes, syntactic and semantic relations and (or) other elements of syntactic and semantic structures used and created in the framework of the methods of the present invention. Indexes can facilitate the search and recognition of certain contexts not only by keywords, but also by contexts defined by certain lexical values, correlated with certain semantic classes, syntactic and (or) semantic properties, morphological properties, or combinations thereof.

[00088] Вычислительное устройство, реализующее методы настоящего изобретения, также может осуществлять поиск определенных фрагментов синтаксических или семантических структур. Результатами такого поиска могут стать предложения, абзацы и другие текстовые фрагменты согласно параметрам поиска.[00088] A computing device that implements the methods of the present invention can also search for specific fragments of syntactic or semantic structures. The results of such a search can be sentences, paragraphs and other text fragments according to the search parameters.

[00089] Вычислительное устройство, реализующее методы настоящего изобретения, может анализировать множество предложений, входящих в исходный текстовый корпус, и хранить результаты синтаксического и семантического анализа данных предложений. Следовательно, вычислительное устройство может быть запрограммировано на сравнение синтаксических и семантических структур, а также их классификацию, кластеризацию и (или) другой вид обработки, в том числе создание их соответствующих визуальных представлений с помощью устройства с графическим интерфейсом пользователя.[00089] A computing device that implements the methods of the present invention can analyze many sentences included in the source text corpus and store the results of parsing and semantic analysis of these sentences. Therefore, the computing device can be programmed to compare syntactic and semantic structures, as well as their classification, clustering and (or) other type of processing, including the creation of their corresponding visual representations using a device with a graphical user interface.

[00090] Возвратимся к Фиг. 1. В блоке 140 вычислительное устройство, реализующее данный способ, устанавливает две схожие семантические структуры, с тем чтобы установить семантически близкие или эквивалентные слова или словосочетания. В качестве иллюстративного примера вычислительное устройство может устанавливать первую семантическую структуру и вторую семантическую структуру, где первая семантическая структура включает первую подструктуру, которая по определенному критерию подобия является подобной второй подструктуре, входящей в состав второй установленной семантической структуры. Критерий подобия может предполагать по меньшей мере частичную эквивалентность двух подструктур (более подробное описание см. ниже в настоящем документе). В качестве иллюстративного примера каждая из установленных подобных подструктур может состоять из двух частей (именуемых "левый контекст" и "правый контекст" с целью указания на то, что они окружают соответствующие оставшиеся подструктуры первой семантической структуры и второй семантической структуры).[00090] Returning to FIG. 1. In block 140, a computing device that implements this method establishes two similar semantic structures in order to establish semantically close or equivalent words or phrases. As an illustrative example, a computing device can establish a first semantic structure and a second semantic structure, where the first semantic structure includes a first substructure, which according to a certain similarity criterion is similar to the second substructure that is part of the second established semantic structure. The similarity criterion may imply at least partial equivalence of the two substructures (for a more detailed description see later in this document). As an illustrative example, each of the identified similar substructures may consist of two parts (referred to as “left context” and “right context” to indicate that they surround the corresponding remaining substructures of the first semantic structure and the second semantic structure).

[00091] В различных вариантах осуществления вычислительное устройство, реализующее настоящий способ, может использовать различные индексы для идентификации подобных семантических структур. В качестве иллюстративного примера вычислительное устройство может использовать индексы лексических значений, индексы поверхностных позиций и (или) индексы глубинных позиций. В качестве еще одного иллюстративного примера вычислительное устройство может использовать индексы N-грамм, т.е. индексы N последовательностей элементов, элементы которых могут быть представлены лексическими значениями, поверхностными позициями и т.д.[00091] In various embodiments, a computing device implementing the present method may use various indices to identify similar semantic structures. As an illustrative example, a computing device may use lexical value indices, surface position indices, and / or deep position indices. As another illustrative example, a computing device may use N-gram indices, i.e. indices of N sequences of elements whose elements can be represented by lexical values, surface positions, etc.

[00092] В качестве иллюстративного примера исходный текстовый корпус может включать множество юридических документов. Такие документы обычно содержат относительно большое количество предложений, имеющих похожую семантическую структуру. В настоящем документе иллюстративный пример описывает с создание концепта онтологии и (или) добавление экземпляров концепта, связанных с различными вариантами термина "прекращение трудовых отношений" в различных контекстах, в том числе "увольнение по инициативе работодателя", "увольнение по собственному желанию", "увольнение со службы", "увольнение должностного лица", а также семантически близкие "освобождение от должности", "расторжение трудового договора" и т.д. Вычислительное устройство, реализующее данный способ, может выбрать определенные классы структур определенного вида, например, описывающие именную группу, или факт (субъект, предикат, объект), или содержащие определенную глубинную позицию, или семантический класс и т.д.[00092] As an illustrative example, the source text corpus may include many legal documents. Such documents usually contain a relatively large number of sentences that have a similar semantic structure. In this document, an illustrative example describes the creation of an ontology concept and (or) the addition of concept copies associated with various variants of the term “termination of employment” in various contexts, including “dismissal at the initiative of the employer,” “termination of their own free will,” dismissal from service "," dismissal of an official ", as well as semantically close" dismissal "," termination of an employment contract ", etc. A computing device that implements this method can select certain classes of structures of a certain type, for example, describing a name group, or a fact (subject, predicate, object), or containing a specific deep position, or semantic class, etc.

[00093] Термин "Увольнение" может быть представлен соответствующим классом онтологии, как схематически показано на Фиг. 13. Вычислительное устройство, реализующее методы настоящего изобретения, может обрабатывать исходный текстовый корпус и (или) его индексы для установления семантически близких или эквивалентных терминов, подлежащих добавлению в класс онтологии. В различных иллюстративных примерах такие термины как "увольнение работника"; "увольнение лица"; "увольнение сотрудника"; "увольнение с работы" могут быть определены вычислительным устройством как принадлежащие к классу онтологии "Увольнение сотрудника = расторжение трудового договора".[00093] The term “Dismissal" may be represented by the corresponding ontology class, as schematically shown in FIG. 13. A computing device that implements the methods of the present invention can process the source text corpus and (or) its indices to establish semantically similar or equivalent terms to be added to the ontology class. In various illustrative examples, terms such as “dismissal of an employee”; "dismissal of a person"; "dismissal of an employee"; “dismissal from work” can be defined by a computing device as belonging to the ontology class “Employee dismissal = termination of employment contract”.

[00094] Способ по Фиг. 1 основан на допущении, что семантически близкие или эквивалентные слова или выражения могут употребляться в текстовом корпусе два или более раз, и что по меньшей мере в некоторых из таких случаев употребления будут использоваться семантически близкие или эквивалентные слова или выражения в близких или эквивалентных контекстах.[00094] The method of FIG. 1 is based on the assumption that semantically close or equivalent words or expressions can be used in the text corpus two or more times, and that at least in some of these cases of use semantically close or equivalent words or expressions in similar or equivalent contexts will be used.

[00095] В качестве иллюстративного примера в рамках данного способа могут обрабатываться следующие два предложения:[00095] As an illustrative example, within the framework of this method, the following two sentences may be processed:

[00096] (а) При рассмотрении дела о восстановлении на работе лица, трудовой договор с которым расторгнут по инициативе работодателя, обязанность доказать наличие законного основания увольнения возлагается на работодателя; и[00096] (a) When considering the reinstatement of a person whose employment contract was terminated on the initiative of the employer, the obligation to prove the existence of a legal basis for dismissal rests with the employer; and

[00097] (b) При рассмотрении дела о восстановлении на работе лица, трудовой договор с которым расторгнут по инициативе работодателя, обязанность доказать наличие законного основания расторжения трудового договора возлагается на работодателя.[00097] (b) When considering the reinstatement of a person whose employment contract has been terminated on the initiative of the employer, the obligation to prove the existence of a legal basis for termination of the employment contract rests with the employer.

[00098] Как схематически показано на Фиг. 14, данные два предложения содержат одинаковые левый "При рассмотрении дела о восстановлении на работе лица, трудовой договор с которым расторгнут по инициативе работодателя, обязанность доказать наличие законного основания", (1101) и (1102), и правый "возлагается на работодателя" контексты (1103) и (1104), соответственно. Эквивалентность контекстов может быть установлена путем текстуального сравнения текстов или, если контексты близки семантически, но различны текстуально - сравнением их семантических структур. Семантические структуры (1510) и (1520), соответствующие предложениям (а) и (b) схематически показаны на Фиг. 15 и 16.[00098] As schematically shown in FIG. 14, these two sentences contain the same left “When considering the reinstatement of a person whose employment contract was terminated on the initiative of the employer, the obligation to prove the existence of a legal basis”, (1101) and (1102), and the right “is assigned to the employer” contexts (1103) and (1104), respectively. The equivalence of contexts can be established by textual comparison of texts or, if contexts are close semantically, but textually different by comparing their semantic structures. The semantic structures (1510) and (1520) corresponding to sentences (a) and (b) are shown schematically in FIG. 15 and 16.

[00099] Для сокращения перебора множество семантико-синтаксических структур, представляющих исходный текстовый корпус, может быть подвергнуто предварительной кластеризации или классификации, либо фильтрации (например, на основе определенных семантических классов). Далее, для сокращения перебора и получения более точного результата, выделенные в подмножества семантико-синтаксические структуры (классы или кластеры) могут быть сопоставлены попарно. В определенных вариантах осуществления вычислительное устройство может быть настроено на установление двух или более структур, имеющих эквивалентные подструктуры, включающие левый и правый контексты, таких как упомянутые выше исходные предложения (а) и (b). Такие подструктуры могут не вполне совпадать текстуально, но иметь совпадающие семантические структуры. Под совпадением может пониматься, например, наличие одних и тех же семантических классов в узлах семантических структур, наличие набора одних и тех же семантем при них и одинаковых глубинных позиций. Набор совпадающих семантем может быть предварительно ограничен некоторым выделенным набором, например, дифференцирующих семантем. Таким образом, технология глубинного анализа позволяет сопоставлять семантические значения предложений и их частей независимо от способа их синтаксического выражения.[00099] To reduce enumeration, many semantic-syntactic structures representing the original text corpus can be subjected to preliminary clustering or classification, or filtering (for example, based on certain semantic classes). Further, to reduce enumeration and obtain a more accurate result, semantic-syntactic structures (classes or clusters) allocated to subsets can be compared in pairs. In certain embodiments, the computing device may be configured to establish two or more structures having equivalent substructures including left and right contexts, such as the aforementioned source sentences (a) and (b). Such substructures may not coincide textually, but have the same semantic structures. By coincidence, we can mean, for example, the presence of the same semantic classes in the nodes of semantic structures, the presence of a set of the same semantems with them and the same deep positions. The set of matching semantems can be preliminarily limited to some selected set, for example, differentiating semantems. Thus, the technology of in-depth analysis allows you to compare the semantic meanings of sentences and their parts, regardless of how they are syntactically expressed.

[000100] Вычислительное устройство, реализующее данный способ, затем может выдвинуть гипотезу о том, что оставшиеся после исключения установленных совпадающих подструктур (например, соответствующие левые и правые контексты) части предложений являются семантически подобными или эквивалентными. В иллюстративном примере на Фиг. 15-16 вычислительное устройство может выдвинуть гипотезу о том, что термины "увольнение" и "расторжение трудового договора" являются семантически подобными или эквивалентными, даже если их соответствующие семантические подструктуры (1210) и (1220) различаются.[000100] A computing device that implements this method can then hypothesize that parts of sentences that are left after excluding established matching substructures (for example, corresponding left and right contexts) are semantically similar or equivalent. In the illustrative example of FIG. 15-16, a computing device may hypothesize that the terms “termination” and “termination of employment” are semantically similar or equivalent, even if their respective semantic substructures (1210) and (1220) are different.

[000101] Вычислительное устройство, реализующее данный способ, затем может осуществить проверку выдвигаемой гипотезы, например, используя аналогичный или тот же корпус текстов, исключив указанные предложения. В определенных вариантах осуществления гипотеза может проверяться путем нахождения в рамках того же или подобного текстового корпуса других предложений, содержащих термины, семантическое подобие или эквивалентность которых подвергается проверке (например, "увольнение" и "расторжение трудового договора"). В качестве иллюстративного примера вычислительное устройство, реализующее данный способ, может установить две подобные или эквивалентные семантические структуры, отличные от двух установленных ранее семантических структур и включающие подструктуры, содержащие термины, семантическое подобие или эквивалентность которых подвергается проверке, тогда как остающиеся части вновь установленных структур являются семантически подобными или эквивалентными (например, по тому же критерию подобия, который был использован для установления подобия первых двух семантических структур).[000101] A computing device that implements this method can then test the hypothesis put forward, for example, using the same or the same body of texts, excluding these sentences. In certain embodiments, a hypothesis can be tested by finding other sentences within the same or similar text corpus that contain terms whose semantic similarity or equivalence is tested (for example, “termination” and “termination of employment”). As an illustrative example, a computing device that implements this method can establish two similar or equivalent semantic structures that are different from two previously established semantic structures and include substructures containing terms whose semantic similarity or equivalence is verified, while the remaining parts of the newly established structures are semantically similar or equivalent (for example, by the same similarity criterion that was used to establish biya of the first two semantic structures).

[000102] В определенных вариантах осуществления требования к эквивалентности левых и правых контекстов, окружающих подструктуру-кандидата, могут быть снижены, так чтобы левый и правый контексты могли быть подобными по определенному критерию подобия, тогда как значение метрики подобия должно превышать определенное пороговое значение.[000102] In certain embodiments, the equivalence requirements of the left and right contexts surrounding the candidate substructure can be reduced so that the left and right contexts can be similar by a certain similarity criterion, while the similarity metric must exceed a certain threshold value.

[000103] В качестве иллюстративного примера в рамках данного способа могут обрабатываться следующие два предложения:[000103] As an illustrative example, within the framework of this method, the following two sentences may be processed:

[000104] (а) При рассмотрении дела о восстановлении на работе лица, трудовой договор с которым расторгнут по инициативе работодателя, обязанность доказать наличие законного основания увольнения возлагается на работодателя; и[000104] (a) When considering the reinstatement of a person whose employment contract was terminated on the initiative of the employer, the obligation to prove the existence of a legal basis for dismissal rests with the employer; and

[000105] (с) В процессе рассмотрения дела о восстановлении на работе лица, трудовой договор с которым расторгнут по инициативе работодателя, обязанность доказать наличие законного основания расторжения трудового договора возлагается на работодателя.[000105] (c) In the process of considering the reinstatement of a person whose employment contract was terminated at the initiative of the employer, the obligation to prove the existence of a legal basis for termination of the employment contract rests with the employer.

[000106] Семантические структуры, соответствующие предложениям (а) и (с) схематически показаны на Фиг. 15 и 17, соответственно. Семантические структуры (1230) и (1240), соответствующие выделенным частям предложений, а именно: "При рассмотрении дела" и "В процессе рассмотрения дела" могут рассматриваться как по существу подобные по определенному критерию подобия и, таким образом, обладают эквивалентными семантическими значениями.[000106] The semantic structures corresponding to sentences (a) and (c) are schematically shown in FIG. 15 and 17, respectively. The semantic structures (1230) and (1240) corresponding to the highlighted parts of the sentences, namely: “When considering a case” and “During the consideration of a case” can be considered as essentially similar by a certain criterion of similarity and, thus, have equivalent semantic meanings.

[000107] Подобие семантических структур может оцениваться с помощью интегральной метрики подобия. В зависимости от требований в отношении точности и (или) сложности вычислений метрика может учитывать различные факторы, в том числе: структурное подобие семантических структур; наличие идентичных глубинных позиций или позиций, соотнесенных с тем же семантическим классом; наличие идентичных лексических или семантических классов в узлах семантических структур; наличие отношений родитель-потомок между классами в соответствующих узлах семантических структур, так чтобы родитель и потомок были разделены не более, чем определенным числом уровней семантической иерархии; наличие общего предка по определенным семантическим классам и расстояния между узлами, представляющими данные классы. Если обнаруживается, что определенные семантические классы являются эквивалентными или в сущности подобными, метрика может далее принять во внимание наличие или отсутствие определенных дифференцирующих семантем и (или) другие факторы.[000107] The similarity of semantic structures can be evaluated using an integral similarity metric. Depending on the requirements regarding the accuracy and (or) complexity of calculations, the metric can take into account various factors, including: structural similarity of semantic structures; the presence of identical deep positions or positions correlated with the same semantic class; the presence of identical lexical or semantic classes in the nodes of semantic structures; the presence of parent-child relationships between classes in the corresponding nodes of the semantic structures, so that the parent and child are separated by no more than a certain number of levels of the semantic hierarchy; the presence of a common ancestor for certain semantic classes and the distance between nodes representing these classes. If it is discovered that certain semantic classes are equivalent or essentially similar, the metric may further take into account the presence or absence of certain differentiating semantems and (or) other factors.

[000108] В определенных вариантах осуществления между семантическими структурами может задаваться отношение частичного порядка. В качестве иллюстративного примера, предложения и их соответствующие семантические структуры могут располагаться по степени абстрактности, например, от менее общих (более конкретных) к более общим (менее конкретным) утверждениям. В определенных вариантах осуществления каждая семантическая структура может соотноситься с определенной оценкой, отражающей отношение частичного порядка.[000108] In certain embodiments, a partial order relation may be defined between semantic structures. As an illustrative example, sentences and their corresponding semantic structures can range in degree of abstractness, for example, from less general (more specific) to more general (less specific) statements. In certain embodiments, each semantic structure may be associated with a specific rating reflecting a partial order relationship.

[000109] Снова ссылаясь на Фиг. 1, в блоке 150 вычислительное устройство, реализующее данный способ, может определить, что соответствующие внутренние контексты первой семантической структуры и второй семантической структуры (где каждый внутренний контекст окружен соответствующим левым и правым контекстами) являются подобными по определенному критерию подобия.[000109] Referring again to FIG. 1, in block 150, a computing device implementing the method may determine that the corresponding internal contexts of the first semantic structure and the second semantic structure (where each internal context is surrounded by corresponding left and right contexts) are similar by a certain similarity criterion.

[000110] В блоке 160 вычислительное устройство может обозначать слова или словосочетания, соответствующие внутренним контекстам двух семантических структур, как семантически подобные или эквивалентные.[000110] In block 160, the computing device may designate words or phrases corresponding to the internal contexts of the two semantic structures as semantically similar or equivalent.

[000111] В блоке 170 вычислительное устройство может определить объекты, представленные соответствующими внутренними контекстами двух семантических структур (т.е. третья подструктура и четвертая подструктура) как экземпляры определенного концепта онтологии, соотнесенной с текстовым корпусом или областью знаний.[000111] In block 170, the computing device can determine the objects represented by the respective internal contexts of the two semantic structures (ie, the third substructure and fourth substructure) as instances of a specific ontology concept associated with a text body or knowledge area.

[000112] В других вариантах осуществления данного способа на Фиг. 1 вычислительное устройство может устанавливать слова и группы слов, которые находятся в отношении "общее - частное" и поэтому могут принадлежать к классу онтологии и его подклассу либо классу онтологии в качестве его экземпляров.[000112] In other embodiments of the method of FIG. 1, a computing device can establish words and groups of words that are in a general-to-partial relationship and therefore can belong to the ontology class and its subclass or the ontology class as its instances.

[000113] Важным преимуществом способа, показанного на Фиг. 1, является то, что экземпляры, добавляемые в онтологию, создаются в результате синтактико-семантического анализа соответствующих семантических структур, в результате которого также были получены свойства объектов, соответствующих вновь добавленным экземплярам онтологии. Следовательно, данные свойства экземпляров могут храниться с экземплярами онтологии и использоваться в будущем для выполнения различных задач обработки языка.[000113] An important advantage of the method shown in FIG. 1, it is that the instances added to the ontology are created as a result of syntactic-semantic analysis of the corresponding semantic structures, as a result of which the properties of objects corresponding to the newly added ontology instances were also obtained. Therefore, these properties of instances can be stored with ontology instances and used in the future to perform various language processing tasks.

[000114] Еще одним важным преимуществом способа, указанного на Фиг. 1, является то, что вновь добавленные экземпляры онтологии могут быть соотнесены с соответствующими элементами семантической иерархии, что, таким образом, позволяет использовать связанную с ними синтаксическую и семантическую информацию для выполнения различных задач обработки языка и поиска.[000114] Another important advantage of the method indicated in FIG. 1, it is that newly added ontology instances can be correlated with the corresponding elements of the semantic hierarchy, which thus allows the use of the syntactic and semantic information associated with them to perform various language processing and search tasks.

[000115] На Фиг. 18 показан иллюстративный приме вычислительного устройства (1000), которое может исполнять набор команд, которые вызывают выполнение вычислительным устройством любого отдельно взятого или нескольких способов настоящего изобретения. Вычислительное устройство может подключаться к другому вычислительному устройству по локальной сети, корпоративной сети, сети экстранет или сети Интернет. Вычислительное устройство может работать в качестве сервера или клиентского вычислительного устройства в сетевой среде "клиент/сервер" либо в качестве однорангового вычислительного устройства в одноранговой (или распределенной) сетевой среде. Вычислительное устройство может быть представлено персональным компьютером (ПК), планшетным ПК, телевизионной приставкой (STB), карманным ПК (PDA), сотовым телефоном или любым вычислительным устройством, способным выполнять набор команд (последовательно или иным образом), определяющих операции, которые должны быть выполнены этим вычислительным устройством. Кроме того, в то время как показано только одно вычислительное устройство, следует принять, что термин «вычислительное устройство» также может включать любую совокупность вычислительных устройств, которые отдельно или совместно выполняют набор (или несколько наборов) команд для выполнения одной или нескольких методик, описанных в настоящем документе.[000115] In FIG. 18 shows an illustrative example of a computing device (1000) that can execute a set of instructions that cause the computing device to execute any one or more of the methods of the present invention. A computing device may connect to another computing device via a local area network, a corporate network, an extranet, or the Internet. A computing device may operate as a server or client computing device in a client / server network environment, or as a peer computing device in a peer-to-peer (or distributed) network environment. A computing device can be represented by a personal computer (PC), a tablet PC, a television set-top box (STB), a pocket PC (PDA), a cell phone, or any computing device capable of executing a set of commands (sequentially or otherwise) that define the operations that should be performed by this computing device. In addition, while only one computing device is shown, it should be accepted that the term “computing device” may also include any combination of computing devices that separately or jointly execute a set (or several sets) of instructions to perform one or more of the techniques described in this document.

[000116] Пример вычислительного устройства (1000) включает процессор (502), основную память (504) (например, постоянное запоминающее устройство (ПЗУ) или динамическую оперативную память (DRAM)) и устройство хранения данных (518), которые взаимодействуют друг с другом по шине (530).[000116] An example of a computing device (1000) includes a processor (502), main memory (504) (eg, read only memory (ROM) or dynamic random access memory (DRAM)) and a data storage device (518) that communicate with each other on the bus (530).

[000117] Процессор (502) может быть представлен одним или более универсальными вычислительными устройствами, например, микропроцессором, центральным процессором и т.д. В частности, процессор (502) может представлять собой микропроцессор с полным набором команд (CISC), микропроцессор с сокращенным набором команд (RISC), микропроцессор с командными словами сверхбольшой длины (VLIW), процессор, реализующий другой набор команд, или процессоры, реализующие комбинацию наборов команд. Процессор (502) также может представлять собой одно или несколько вычислительных устройств специального назначения, например, заказную интегральную микросхему (ASIC), программируемую пользователем вентильную матрицу (FPGA), процессор цифровых сигналов (DSP), сетевой процессор и т.п. Процессор (502) настроен на выполнение команд (526) для осуществления рассмотренных в настоящем документе операций и функций.[000117] The processor (502) may be represented by one or more universal computing devices, for example, a microprocessor, a central processor, etc. In particular, the processor (502) may be a full instruction set microprocessor (CISC), an reduced instruction set microprocessor (RISC), an extra long instruction microprocessor (VLIW), a processor implementing another instruction set, or processors implementing a combination command sets. The processor (502) may also be one or more special-purpose computing devices, for example, a custom integrated circuit (ASIC), user-programmable gate array (FPGA), digital signal processor (DSP), network processor, etc. The processor (502) is configured to execute instructions (526) to perform the operations and functions discussed herein.

[000118] Вычислительное устройство (1000) может дополнительно включать устройство сетевого интерфейса (522), устройство визуального отображения (510), устройство ввода символов (512) (например, клавиатуру), и устройство ввода - сенсорный экран (514).[000118] The computing device (1000) may further include a network interface device (522), a visual display device (510), a character input device (512) (eg, a keyboard), and an input device is a touch screen (514).

[000119] Устройство хранения данных (518) может содержать машиночитаемый носитель данных (524), в котором хранится один или более наборов команд (526), и в котором реализован один или более из методов или функций настоящего изобретения. Команды (526) также могут находиться полностью или по меньшей мере частично в основной памяти (504) и/или в процессоре (502) во время выполнения их в вычислительном устройстве (1000), при этом оперативная память (504) и процессор (502) также составляют машиночитаемый носитель данных. Команды (526) дополнительно могут передаваться или приниматься по сети (516) через устройство сетевого интерфейса (522).[000119] The data storage device (518) may comprise a computer-readable storage medium (524) that stores one or more sets of instructions (526) and that implements one or more of the methods or functions of the present invention. The instructions (526) can also be located completely or at least partially in the main memory (504) and / or in the processor (502) while they are being executed in the computing device (1000), with the main memory (504) and the processor (502) also constitute a computer-readable storage medium. Commands (526) can additionally be transmitted or received over the network (516) through a network interface device (522).

[000120] В некоторых вариантах осуществления команды (526) могут включать в себя команды способа (800) на создание онтологий на основе анализа текстов на естественном языке. В то время как машиночитаемый носитель данных (524), показанный на примере на Фиг. 4, является единым носителем, термин «машиночитаемый носитель» должен включать один носитель или несколько носителей (например, централизованную или распределенную базу данных, и/или соответствующие кэши и серверы), в которых хранится один или более наборов команд. Термин "машиночитаемый носитель данных" также следует рассматривать как термин, включающий любой носитель, который способен хранить, кодировать или переносить набор команд для выполнения машиной, который заставляет эту машину выполнять любую одну или несколько из методик, описанных в настоящем раскрытии изобретения. Таким образом, термин «машиночитаемый носитель данных», помимо прочего, также относится к твердотельной памяти и оптическим и магнитным носителям.[000120] In some embodiments, the instructions (526) may include instructions of a method (800) for creating ontologies based on a natural language text analysis. While the computer-readable storage medium (524) shown in the example of FIG. 4 is a single medium, the term “machine-readable medium” should include one medium or several mediums (for example, a centralized or distributed database, and / or corresponding caches and servers) that store one or more sets of instructions. The term “computer-readable storage medium” should also be construed as a term that includes any medium that is capable of storing, encoding or transferring a set of instructions for execution by a machine that causes this machine to execute any one or more of the techniques described in this disclosure. Thus, the term “computer-readable storage medium”, among other things, also refers to solid-state memory and optical and magnetic media.

[000121] Описанные в документе способы, компоненты и функции могут быть реализованы дискретными аппаратными компонентами, либо они могут быть интегрированы в функции других аппаратных компонентов, таких как ASICS, FPGA, DSP или подобных устройств. Кроме того, способы, компоненты и функции могут быть реализованы с помощью модулей встроенного программного обеспечения или функциональных схем аппаратных устройств. Способы, компоненты и функции также могут быть реализованы с помощью любой комбинации вычислительных средств и программных компонентов, либо исключительно с помощью программного обеспечения.[000121] The methods, components, and functions described herein may be implemented by discrete hardware components, or they may be integrated into functions of other hardware components, such as ASICS, FPGA, DSP, or similar devices. In addition, methods, components, and functions may be implemented using firmware modules or functional diagrams of hardware devices. The methods, components and functions can also be implemented using any combination of computing tools and software components, or exclusively using software.

[000122] В приведенном выше описании изложены многочисленные детали. Однако специалисту в этой области техники благодаря этому описанию очевидно, что настоящее изобретение может быть реализовано на практике без этих конкретных деталей. В некоторых случаях хорошо известные структуры и устройства показаны в виде блок-схемы, а не детально, чтобы не усложнять описание настоящего изобретения.[000122] In the above description, numerous details are set forth. However, it will be apparent to those skilled in the art from this description that the present invention can be practiced without these specific details. In some cases, well-known structures and devices are shown in block diagram form, and not in detail, so as not to complicate the description of the present invention.

[000123] Некоторые части описания предпочтительных вариантов реализации представлены в виде алгоритмов и символического представления операций с битами данных в памяти компьютера. Такие описания и представления алгоритмов представляют собой средства, используемые специалистами в области обработки данных, чтобы наиболее эффективно передавать сущность своей работы другим специалистам в данной области. В настоящем документе и в целом алгоритмом называется самосогласованная последовательность операций, приводящих к требуемому результату. Операции требуют физических манипуляций с физическими величинами. Обычно, хотя и не обязательно, эти величины принимают форму электрических или магнитных сигналов, которые можно хранить, передавать, комбинировать, сравнивать и подвергать другим манипуляциям. Оказалось, что прежде всего для обычного использования удобно описывать эти сигналы в виде битов, значений, элементов, символов, членов, цифр и т.д.[000123] Some parts of the description of preferred embodiments are presented in the form of algorithms and a symbolic representation of operations with data bits in computer memory. Such descriptions and representations of algorithms represent the means used by specialists in the field of data processing in order to most effectively transfer the essence of their work to other specialists in this field. In this document and in general, an algorithm is a self-consistent sequence of operations leading to the desired result. Operations require physical manipulations with physical quantities. Usually, although not necessarily, these quantities take the form of electrical or magnetic signals that can be stored, transmitted, combined, compared and subjected to other manipulations. It turned out that, first of all, for normal use, it is convenient to describe these signals in the form of bits, values, elements, symbols, members, numbers, etc.

[000124] Однако следует иметь в виду, что все эти и подобные термины должны быть связаны с соответствующими физическими величинами, и что они представляют собой просто удобные метки, применяемые к этим величинам. Если иное специально и недвусмысленно не указано в нижеследующем обсуждении, следует принимать, что везде по тексту такие термины как "определение", "вычисление", "расчет", "вычисление", "получение", "установление", "изменение" и т.п., относятся к действиям и процессам вычислительного устройства или аналогичного электронного вычислительного устройства, которое работает с данными и преобразует данные, представленные в виде физических (например, электронных) величин в регистрах и памяти вычислительного устройства, в другие данные, аналогичным образом представленные в виде физических величин в памяти или регистрах вычислительного устройства, либо других подобных устройствах хранения, передачи или отображения информации.[000124] However, it should be borne in mind that all of these and similar terms should be associated with the corresponding physical quantities, and that they are simply convenient labels that apply to these quantities. Unless otherwise specifically and explicitly indicated in the following discussion, it should be assumed that throughout the text such terms as “definition”, “calculation”, “calculation”, “calculation”, “receipt”, “establishment”, “change”, etc. .p., relate to the actions and processes of a computing device or similar electronic computing device that works with data and converts data represented in the form of physical (e.g. electronic) quantities in the registers and memory of the computing device into other data similar to immediately presented in the form of physical quantities in the memory or registers of a computing device, or other similar devices for storing, transmitting or displaying information.

[000125] Настоящее изобретение также относится к устройству для выполнения операций, описанных в настоящем документе. Такое устройство может быть специально сконструировано для требуемых целей или оно может содержать универсальный компьютер, который избирательно активируется или реконфигурируется с помощью компьютерной программы, хранящейся в компьютере. Такая компьютерная программа может храниться на машиночитаемом носителе данных, таком как, в числе прочих, диск любого рода, в том числе дискеты, оптические диски, компакт-диски, магнитно-оптические диски, постоянные запоминающие устройства (ПЗУ), оперативные запоминающие устройства (ОЗУ), СППЗУ, ЭППЗУ, магнитные или оптические карты и другие виды носителей данных, подходящие для хранения электронных команд.[000125] The present invention also relates to a device for performing the operations described herein. Such a device may be specially designed for the required purposes or it may contain a universal computer that is selectively activated or reconfigured using a computer program stored in the computer. Such a computer program may be stored on a computer-readable storage medium, such as, among others, a disk of any kind, including floppy disks, optical disks, compact disks, magneto-optical disks, read-only memory (ROM), random access memory (RAM) ), EPROM, EEPROM, magnetic or optical cards and other types of storage media suitable for storing electronic commands.

[000126] Следует понимать, что вышеприведенное описание носит иллюстративный, а не ограничительный характер. Различные другие варианты осуществления станут очевидны специалистам в данной области техники после прочтения и понимания приведенного выше описания. Поэтому объем раскрытия должен определяться со ссылкой на прилагаемую формулу изобретения наряду с полным объемом эквивалентов, на которые такие требования предоставляют право.[000126] It should be understood that the above description is illustrative and not restrictive. Various other embodiments will become apparent to those skilled in the art after reading and understanding the above description. Therefore, the scope of disclosure should be determined with reference to the appended claims along with the full scope of equivalents to which such claims are entitled.

Claims

1. Performed by the computing device, a method for creating and updating ontologies based on the analysis of texts in natural language, which consists in:

performing semantic-syntactic analysis of text in a natural language based on language descriptions representing a language model to obtain a variety of semantic structures associated with a text corpus, where semantic structures are represented by graphs;

comparing semantic structures in accordance with the chosen similarity criterion;

identifying with a computing device the first semantic structure and the second semantic structure, where the first semantic structure includes the first substructure and the second substructure, the second semantic structure includes the third substructure and the fourth substructure and where the first substructure is similar to the third substructure according to the first similarity criterion; as well as

if it is determined that the second substructure is similar to the fourth substructure according to the second similarity criterion, correlation of the objects represented by the second substructure and the fourth substructure with a certain ontology concept correlated with the text corpus.

2. The method according to p. 1, characterized in that the ontology includes one or more concepts, each of which is associated with one or more instances of the concept represented by one or more objects.

3. The method according to p. 1, characterized in that the first substructure includes a left context and a right context surrounding the second substructure.

4. The method according to p. 1, characterized in that the second substructure includes a left context and a right context surrounding the fourth substructure.

5. The method of claim 1, wherein determining that the second substructure is similar to the fourth substructure by the second similarity criterion includes: identifying a third semantic structure and a fourth semantic structure, where the third semantic structure includes a second substructure and a fifth substructure, where the fourth the semantic structure includes a fourth substructure and a sixth substructure and where the fifth substructure is similar to the sixth substructure according to the first similarity criterion.

6. The method according to p. 1, characterized in that at least one structure from the first semantic structure and the second semantic structure is represented by a graph comprising a plurality of nodes corresponding to a plurality of semantic classes and a plurality of arcs corresponding to a plurality of semantic relations.

7. The method according to p. 1, characterized in that the identification of the first semantic structure and the second semantic structure includes comparing the first set of semantic classes associated with the first set of nodes of the first graph representing the first semantic structure with the second set of semantic classes associated with the second set nodes of the second graph representing the second semantic structure.

8. The method according to p. 1, characterized in that the identification of the first semantic structure and the second semantic structure includes comparing the first set of semantems associated with the first set of nodes of the first graph representing the first semantic structure with the second set of semantics associated with the second set of nodes of the second a graph representing the second semantic structure.

9. The method according to p. 1, characterized in that the identification of the first semantic structure and the second semantic structure includes comparing the first set of deep positions associated with the first set of nodes of the first graph representing the first semantic structure with the second set of deep positions associated with the second set nodes of the second graph representing the second semantic structure.

10. The method according to p. 1, additionally involving the creation of many semantic structures by conducting syntactic-semantic analysis of the text corpus.

11. A system for creating and updating ontologies based on the analysis of texts in a natural language, containing:

memory;

the processor associated with this memory, and this processor is configured to:

performing semantic-syntactic analysis of the text in a natural language based on language descriptions representing the language model to obtain many semantic structures associated with the text corpus, where the semantic structures are represented by graphs;

comparison of semantic structures in accordance with the selected similarity criterion;

identification of the first semantic structure and the second semantic structure, where the first semantic structure includes the first substructure and the second substructure, the second semantic structure includes the third substructure and the fourth substructure and where the first substructure is similar to the third substructure according to the first similarity criterion; as well as

12. The system of claim 11, wherein determining that the second substructure is similar to the fourth substructure by the second similarity criterion includes: identifying a third semantic structure and a fourth semantic structure, where the third semantic structure includes a second substructure and a fifth substructure, where the fourth the semantic structure includes a fourth substructure and a sixth substructure and where the fifth substructure is similar to the sixth substructure according to the first similarity criterion.

13. The system of claim 11, wherein the identification of the first semantic structure and the second semantic structure includes comparing the first set of semantic classes correlated with the first set of nodes of the first graph representing the first semantic structure with the second set of semantic classes correlated with the second set nodes of the second graph representing the second semantic structure.

14. The system of claim 11, wherein the identification of the first semantic structure and the second semantic structure includes comparing the first set of semantems associated with the first set of nodes of the first graph representing the first semantic structure with the second set of semantics associated with the second set of nodes of the second a graph representing the second semantic structure.

15. The system of claim 11, wherein the identification of the first semantic structure and the second semantic structure includes comparing the first set of deep positions associated with the first set of nodes of the first graph representing the first semantic structure with the second set of deep positions associated with the second set nodes of the second graph representing the second semantic structure.

16. A permanent computer-readable storage medium containing executable instructions that, when executed by a computing device, lead to operations including:

identification by the computing device of the first semantic structure and the second semantic structure, where the first semantic structure includes a first substructure and a second substructure, the second semantic structure includes a third substructure and a fourth substructure, and where the first substructure is similar to the third substructure according to the first similarity criterion; as well as

17. A permanent computer-readable storage medium according to claim 16, characterized in that the determination that the second substructure is similar to the fourth substructure by the second similarity criterion includes: identifying the third semantic structure and the fourth semantic structure, where the third semantic structure includes a second substructure and fifth substructure where the fourth semantic structure includes the fourth substructure and the sixth substructure and where the fifth substructure is similar to the sixth substructure according to the first similarity criterion.

18. A permanent computer-readable storage medium according to claim 16, characterized in that the identification of the first semantic structure and the second semantic structure includes comparing the first set of semantic classes associated with the first set of nodes of the first graph representing the first semantic structure with the second set of semantic classes related with the second set of nodes of the second graph representing the second semantic structure.

19. A permanent computer-readable storage medium according to claim 16, characterized in that the identification of the first semantic structure and the second semantic structure includes comparing the first set of semantems associated with the first set of nodes of the first graph representing the first semantic structure with the second set of semantics associated with the second the set of nodes of the second graph representing the second semantic structure.

20. A permanent computer-readable storage medium according to claim 16, characterized in that the identification of the first semantic structure and the second semantic structure includes comparing the first set of deep positions correlated with the first set of nodes of the first graph representing the first semantic structure with the second set of deep positions correlated with the second set of nodes of the second graph representing the second semantic structure.