[go: up one dir, main page]

RU2538303C1 - Method for automatic semantic comparison of natural language texts - Google Patents

Method for automatic semantic comparison of natural language texts Download PDF

Info

Publication number
RU2538303C1
RU2538303C1 RU2013136905/08A RU2013136905A RU2538303C1 RU 2538303 C1 RU2538303 C1 RU 2538303C1 RU 2013136905/08 A RU2013136905/08 A RU 2013136905/08A RU 2013136905 A RU2013136905 A RU 2013136905A RU 2538303 C1 RU2538303 C1 RU 2538303C1
Authority
RU
Russia
Prior art keywords
level
semantic
semantically significant
elementary units
text
Prior art date
Application number
RU2013136905/08A
Other languages
Russian (ru)
Other versions
RU2013136905A (en
Inventor
Александр Александрович Харламов
Original Assignee
Александр Александрович Харламов
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Александр Александрович Харламов filed Critical Александр Александрович Харламов
Priority to RU2013136905/08A priority Critical patent/RU2538303C1/en
Application granted granted Critical
Publication of RU2538303C1 publication Critical patent/RU2538303C1/en
Publication of RU2013136905A publication Critical patent/RU2013136905A/en

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

FIELD: physics, computer engineering.
SUBSTANCE: invention relates to information technology. The disclosed method includes presenting two texts to be compared in digital form for subsequent processing; indexing the texts to obtain elementary units of first to fifth levels; detecting the frequency of occurrence of elementary units of the fourth level, each being a semantically significant object or attribute, and the frequency of occurrence of semantically significant relationships linking semantically significant objects, as well as the semantically significant objects and attributes; storing the formed elementary units of the second to fifth levels, and the obtained indices together with links to specific sentences of said text; forming from a triad, which are elementary units of the fifth level, a semantic network; ranking the elementary units of the fourth level according to semantic weight by comparing the semantic weight of each of them with a predetermined threshold and removing elementary units of the fourth level having a semantic weight below the threshold; detecting for two compared texts the degree of crossing of their semantic networks.
EFFECT: faster process of comparing texts.
4 cl, 2 dwg, 26 tbl

Description

Область техники, к которой относится изобретениеFIELD OF THE INVENTION

Настоящее изобретение относится к области информационных технологий, а именно к способу автоматизированного семантического сравнения текстов на естественном языке.The present invention relates to the field of information technology, and in particular to a method for automated semantic comparison of texts in natural language.

Уровень техникиState of the art

Существуют различные способы автоматизированного семантического (т.е. смыслового) сравнения текстов на естественных языках.There are various ways of automated semantic (i.e. semantic) comparison of texts in natural languages.

Семантическое сравнение текстов на естественном языке нельзя осуществлять «в лоб», поскольку сравнивать в данном случае нужно не наличие конкретных слов, а тот смысл, который стоит за целыми предложениями и даже абзацами или разделами. Поэтому обычно семантическое сравнение текстов предваряют семантической индексацией этих текстов, которая осуществляется различными способами. При этом важное значение имеет устранение семантической неоднозначности этих текстов.The semantic comparison of texts in a natural language cannot be carried out “head-on”, since in this case it is not necessary to compare specific words, but the meaning behind the whole sentences and even paragraphs or sections. Therefore, usually semantic comparison of texts is preceded by semantic indexing of these texts, which is carried out in various ways. Moreover, the elimination of the semantic ambiguity of these texts is important.

Такие способы семантической индексации текстов для их последующего сравнения с устранением семантической неоднозначности описаны, например, в патенте РФ №2242048 (опубл. 10.12.2004), в патентах США №№6871199 (опубл. 22.03.2005), 7024407 (опубл. 04.04.2006) и 7383169 (опубл. 03.06.2008), в заявках на патент США №№2007/0005343 и 2007/0005344 (обе опубл. 04.01.2007), 2008/0097951 (опубл. 24.04.2008), в выложенных заявках Японии №№05-128149 (опубл. 25.05.1993), 06-195374 (опубл. 15.07.1994), 10-171806 (опубл. 26.06.1998) и 2005-182438 (опубл. 07.07.2005), в заявке ЕПВ №0853286 (опубл. 15.07.1998).Such methods of semantic indexing of texts for their subsequent comparison with the elimination of semantic ambiguity are described, for example, in RF patent No. 2242048 (publ. 10.12.2004), in US patents No. 6871199 (publ. 22.03.2005), 7024407 (publ. 04.04. 2006) and 7383169 (publ. 06/03/2008), in applications for US patent No. 2007/0005343 and 2007/0005344 (both publ. 04.01.2007), 2008/0097951 (publ. 24.04.2008), in Japanese applications laid out No. 05-128149 (publ. 05/25/1993), 06-195374 (publ. 07/15/1994), 10-171806 (publ. 06/26/1998) and 2005-182438 (publ. 07/07/2005), in EPO application no. 0853286 (published on July 15, 1998).

Наиболее близким к заявленному изобретению можно считать способ автоматизированной семантической индексации текста на естественном языке, раскрытый в патенте РФ №2399959 (опубл. 20.09.2010). В этом способе текст в цифровой форме сегментируют на элементарные единицы первого уровня (слова); формируют для каждой элементарной единицы первого уровня (слова) элементарную единицу второго уровня (нормализованную словоформу); сегментируют текст в цифровой форме на предложения, соответствующие участкам индексируемого текста; выявляют в тексте в процессе лингвистического анализа элементарные единицы третьего уровня (устойчивые словосочетания); в процессе многоступенчатого семантико-синтаксического анализа путем обращения к заранее сформированным в базе данных лингвистическим и эвристическим правилам в заранее заданной лингвистической среде выявляют в каждом из сформированных предложений элементарные единицы четвертого уровня (семантически значимый объект и его атрибут) и семантически значимые отношения между выявленными семантически значимыми объектами, а также между семантически значимыми объектами и атрибутами; формируют в пределах данного текста для каждого из выявленных семантически значимых отношений множество элементарных единиц пятого уровня (триад); индексируют на множестве сформированных триад все связанные семантически значимыми отношениями семантически значимые объекты, а также атрибуты по отдельности и все триады вида «семантически значимый объект - семантически значимое отношение - семантически значимый объект», а также все триады вида «семантически значимый объект - семантически значимое отношение - атрибут»; сохраняют в базе данных сформированные триады и полученные индексы вместе со ссылкой на исходный текст, из которого сформированы эти триады.Closest to the claimed invention can be considered a method of automated semantic indexing of text in a natural language, disclosed in the patent of the Russian Federation No. 2399959 (publ. 09/20/2010). In this method, text in digital form is segmented into elementary units of the first level (words); form for each elementary unit of the first level (words) an elementary unit of the second level (normalized word form); segment text in digital form into sentences corresponding to sections of indexed text; reveal in the text in the process of linguistic analysis elementary units of the third level (stable phrases); in the process of multi-stage semantic-syntactic analysis by referring to linguistic and heuristic rules preformed in the database in a predefined linguistic environment, elementary units of the fourth level (semantically significant object and its attribute) and semantically significant relationships between the identified semantically significant are revealed in each of the generated sentences objects, as well as between semantically significant objects and attributes; form within this text for each of the identified semantically significant relationships, a set of elementary units of the fifth level (triads); index on a set of formed triads all semantically significant objects connected by semantically significant relations, as well as individually attributes and all triads of the form “semantically significant object - semantically significant relation - semantically significant object”, as well as all triads of the form “semantically significant object - semantically significant relation - attribute ”; save the generated triads and the resulting indexes in a database together with a link to the source text from which these triads are formed.

Недостатком данного способа является отсутствие ранжирования сформированных элементарных единиц четвертого уровня по степени их релевантности к тексту, что приводит к неоправданно большому объему вычислений, связанному с необходимостью использовать для дальнейшей обработки весь сформированный индекс.The disadvantage of this method is the lack of ranking of the formed elementary units of the fourth level in terms of their relevance to the text, which leads to an unreasonably large amount of calculations associated with the need to use the entire generated index for further processing.

Раскрытие изобретенияDisclosure of invention

Цель настоящего изобретения состоит в расширении арсенала способов семантического сравнения текстов на естественных языках за счет ускорения процесса сравнения текстов.The purpose of the present invention is to expand the arsenal of methods for semantic comparison of texts in natural languages by accelerating the process of comparing texts.

Достижение этой цели и получение указанного технического результата обеспечиваются в настоящем изобретении посредством способа автоматизированного семантического сравнения текстов на естественном языке, заключающегося в том, что: представляют два сравниваемых текста в цифровой форме для последующей автоматической и(или) автоматизированной обработки; осуществляют индексацию этих текстов в цифровой форме, получая: элементарные единицы первого уровня, включающие в себя, по меньшей мере, слова, элементарные единицы второго уровня, каждая из которых представляет собой нормализованную словоформу, элементарные единицы третьего уровня, каждая из которых представляет собой устойчивое словосочетание в упомянутом тексте, элементарные единицы четвертого уровня, каждая из которых является семантически значимым объектом и атрибутом, и элементарные единицы пятого уровня, каждая из которых представляет собой триаду либо из двух семантически значимых объектов и семантически значимого отношения между ними, либо из семантически значимого объекта и атрибута и связывающего их семантически значимого отношения; выявляют частоты встречаемости элементарных единиц четвертого уровня и частоты встречаемости упомянутых семантически значимых отношений; сохраняют в базе данных сформированные элементарные единицы второго, третьего, четвертого и пятого уровней с выявленными частотами встречаемости элементарных единиц четвертого уровня и семантически значимых отношений, а также полученные индексы вместе со ссылками на конкретные предложения данного текста; формируют из триад семантическую сеть таким образом, что первая элементарная единица четвертого уровня последующей триады связывается с такой же второй элементарной единицей четвертого уровня предыдущей триады; осуществляют в процессе итеративной процедуры перенормировку частот встречаемости в смысловой вес элементарных единиц четвертого уровня, являющихся вершинами семантической сети, таким образом, что элементарные единицы четвертого уровня, связанные в сети с большим числом элементарных единиц четвертого уровня с большой частотой встречаемости, увеличивают свой смысловой вес, а прочие элементарные единицы четвертого уровня его равномерно теряют; ранжируют элементарные единицы четвертого уровня по смысловому весу путем сравнения их смыслового веса с заранее заданным пороговым значением; удаляют элементарные единицы четвертого уровня, имеющие смысловой вес ниже порогового значения; сохраняют в памяти оставшиеся элементарные единицы четвертого уровня с весом выше порогового, а также семантически значимые отношения между оставшимися элементарными единицами четвертого уровня; выявляют для двух сравниваемых текстов степень пересечения их семантических сетей как по вершинам, так и по связям между этими вершинами с учетом смысловых весов вершин семантических сетей и весовых характеристик их связей, причем степень пересечения семантических сетей двух сравниваемых текстов является величиной, характеризующей семантическое подобие этих текстов.Achieving this goal and obtaining the indicated technical result is provided in the present invention by means of an automated semantic comparison of texts in natural language, which consists in the following: represent two compared texts in digital form for subsequent automatic and (or) automated processing; indexing these texts in digital form, obtaining: elementary units of the first level, including at least words, elementary units of the second level, each of which is a normalized word form, elementary units of the third level, each of which is a stable phrase in the mentioned text, elementary units of the fourth level, each of which is a semantically significant object and attribute, and elementary units of the fifth level, each of which constitutes a triad of either two semantically significant objects and a semantically significant relationship between them, or from a semantically significant object and attribute and the semantically meaningful relationship that connects them; identify the frequency of occurrence of elementary units of the fourth level and the frequency of occurrence of the mentioned semantically significant relationships; save in the database the formed elementary units of the second, third, fourth and fifth levels with the detected frequencies of occurrence of elementary units of the fourth level and semantically significant relations, as well as the resulting indices, together with links to specific sentences of this text; form a semantic network of triads in such a way that the first elementary unit of the fourth level of the subsequent triad is associated with the same second elementary unit of the fourth level of the previous triad; during the iterative procedure, renormalization of the frequencies of occurrence into the semantic weight of the elementary units of the fourth level, which are the vertices of the semantic network, is carried out in such a way that the elementary units of the fourth level connected in the network with a large number of elementary units of the fourth level with a high frequency of occurrence increase their semantic weight, and other elementary units of the fourth level evenly lose it; rank elementary units of the fourth level by semantic weight by comparing their semantic weight with a predetermined threshold value; remove elementary units of the fourth level having a semantic weight below a threshold value; save in memory the remaining elementary units of the fourth level with a weight above the threshold, as well as semantically significant relations between the remaining elementary units of the fourth level; for the two texts being compared, the degree of intersection of their semantic networks both over the vertices and the connections between these vertices is taken into account, taking into account the semantic weights of the vertices of the semantic networks and the weight characteristics of their connections, and the degree of intersection of the semantic networks of the two compared texts is a value characterizing the semantic similarity of these texts .

Особенность способа по настоящему изобретению состоит в том, что индексацию осуществляют в процессе выполнения следующих этапов: сегментируют текст в цифровой форме на элементарные единицы первого уровня, включающие в себя, по меньшей мере, слова; сегментируют по графематическим правилам текст в цифровой форме на предложения; формируют для каждой элементарной единицы первого уровня, представляющей собой слово, на основе морфологического анализа элементарные единицы второго уровня, включающие в себя нормализованную словоформу; подсчитывают частоту встречаемости каждой элементарной единицы первого уровня для двух и более соседних единиц первого уровня в данном тексте и объединяют среди элементарных единиц первого уровня последовательности слов, следующих друг за другом в данном тексте, в элементарные единицы третьего уровня, представляющие собой устойчивые сочетания слов, в случае если для каждых двух и более следующих друг за другом слов в данном тексте разности подсчитанных частот встречаемости этих слов для первого появления данной последовательности слов и для нескольких последующих их появлений для каждой пары слов последовательности остаются неизменными; выявляют в процессе многоступенчатого семантико-синтаксического анализа путем обращения к заранее сформированным в базе данных лингвистическим и эвристическим правилам в заранее заданной лингвистической среде в каждом из сформированных предложений семантически значимые объекты и атрибуты - элементарные единицы четвертого уровня; для каждой элементарной единицы четвертого уровня фиксируют тождество по референции между соответствующим семантически значимым объектом, а также атрибутом и соответствующей анафорической ссылкой при ее наличии в индексируемом тексте, заменяя каждую анафорическую ссылку на соответствующий ей антецедент; сохраняют в памяти каждый семантически значимый объект и атрибут; выявляют в процессе многоступенчатого семантико-синтаксического анализа путем обращения к заранее сформированным в базе данных лингвистическим и эвристическим правилам в заранее заданной лингвистической среде в каждом из сформированных предложений семантически значимые отношения между выявленными единицами четвертого уровня - семантически значимыми объектами, а также между семантически значимыми объектами и атрибутами; присваивают каждому семантически значимому отношению соответствующий тип из хранящейся в базе данных предметной онтологии по тематике той предметной области, к которой относится индексируемый текст; выявляют на всем тексте частоты встречаемости элементарных единиц четвертого уровня и частоты встречаемости упомянутых семантически значимых отношений; сохраняют в памяти каждое выявленное семантически значимое отношение вместе с присвоенным ему типом; формируют в пределах данного текста для каждого из выявленных семантически значимых отношений, связывающих как соответствующие семантически значимые объекты, так и семантически значимый объект и его атрибут, множество триад, которые являются элементарными единицами пятого уровня; индексируют на множестве сформированных триад по отдельности все связанные семантически значимыми отношениями семантически значимые объекты с их частотами встречаемости, все атрибуты с их частотами встречаемости и все сформированные триады.A feature of the method of the present invention is that indexing is carried out in the process of performing the following steps: segment the text in digital form into elementary units of the first level, including at least words; Segment digitally into sentences according to graphematic rules; form for each elementary unit of the first level, which is a word, based on morphological analysis, elementary units of the second level, including a normalized word form; calculate the frequency of occurrence of each elementary unit of the first level for two or more adjacent units of the first level in this text and combine among the elementary units of the first level the sequence of words following each other in this text into elementary units of the third level, which are stable combinations of words, if for every two or more consecutive words in a given text the difference in the calculated frequencies of occurrence of these words for the first occurrence of a given sequence of words s and for several subsequent occurrences for each pair of words, the sequences remain unchanged; identify in the process of multi-stage semantic-syntactic analysis by referring to linguistic and heuristic rules pre-generated in the database in a predefined linguistic environment in each of the generated sentences, semantically significant objects and attributes - elementary units of the fourth level; for each elementary unit of the fourth level, the identity is fixed by reference between the corresponding semantically significant object, as well as the attribute and the corresponding anaphoric link, if any, in the indexed text, replacing each anaphoric link with the corresponding antecedent; store in memory every semantically significant object and attribute; in the process of multistage semantic-syntactic analysis, they identify the semantically significant relations between the identified units of the fourth level - semantically significant objects, as well as between semantically significant objects and semantically meaningful objects and attributes assign to each semantically significant relation the corresponding type from the subject ontology stored in the database on the subject matter of the subject area to which the indexed text belongs; identify throughout the text the frequency of occurrence of elementary units of the fourth level and the frequency of occurrence of the mentioned semantically significant relationships; store in memory each identified semantically significant relation together with the type assigned to it; form within the given text for each of the identified semantically significant relations, linking both the corresponding semantically significant objects and the semantically significant object and its attribute, a multitude of triads that are elementary units of the fifth level; index on a set of formed triads individually all associated semantically significant relationships semantically significant objects with their frequencies of occurrence, all attributes with their frequencies of occurrence and all formed triads.

Еще одна особенность способа по настоящему изобретению состоит в том, что степень пересечения двух семантических сетей, принадлежащих двум сравниваемым текстам, вычисляется как сумма совпадений элементарных единиц пятого уровня этих двух семантических сетей.Another feature of the method of the present invention is that the degree of intersection of two semantic networks belonging to the two texts being compared is calculated as the sum of the coincidences of elementary units of the fifth level of these two semantic networks.

При этом осуществляют этапы, на которых: выбирают в качестве базовой сети ту из двух семантических сетей, в которой после ранжирования и удаления вершин со смысловыми весами ниже порогового значения осталось больше вершин, чем в другой, выбираемой в качестве сравниваемой; находят для каждой вершины базовой сети в сравниваемой сети вершину, являющуюся той же самой элементарной единицей четвертого уровня, т.е. тем же самым семантически значимым объектом или тем же самым атрибутом; вычисляют для каждой найденной вершины в каждой из базовой и сравниваемой сетей величины всех связанных с данной вершиной триад как площади треугольников, стороны которых соответствуют компонентам каждой из этих триад, а угол между сторонами пропорционален весу семантически значимого отношения этой триады; выбирают для каждой пары триад, связанных с парой конкретных вершин в базовой и сравниваемой сетях, меньшую из вычисленных величин в качестве степени пересечения триад в базовой и сравниваемой сетях; суммируют для каждой из вершин, связанных с данной вершиной, все выбранные вычисленные величины, получая степень пересечения для данной пары вершин базовой и сравниваемой сетей; нормируют найденную сумму на число семантически значимых объектов и атрибутов, связанных с данной вершиной в той из базовой и сравниваемой сетей, которая содержит больше вершин, связанных с данной вершиной; суммируют нормированные суммы по всем вершинам той из базовой и сравниваемой сетей, которая содержит больше вершин; нормируют полученную сумму на число оставшихся в этой сети элементарных единиц четвертого уровня, получая степень пересечения семантических сетей сравниваемых текстов.At the same time, the stages are carried out in which: one of the two semantic networks is selected as the basic network, in which, after ranking and removing vertices with semantic weights, more vertices remain below the threshold value than in the other, which is chosen as the comparison one; find for each vertex of the core network in the compared network a vertex that is the same elementary unit of the fourth level, i.e. the same semantically significant object or the same attribute; calculating for each vertex found in each of the base and compared networks the values of all triads connected with a given vertex as the area of triangles whose sides correspond to the components of each of these triads, and the angle between the sides is proportional to the weight of the semantically significant relationship of this triad; choose for each pair of triads associated with a pair of specific vertices in the base and the compared networks, the smaller of the calculated values as the degree of intersection of the triads in the base and the compared networks; summarize for each of the vertices associated with a given vertex, all selected calculated values, obtaining the degree of intersection for a given pair of vertices of the base and compared networks; normalize the found amount to the number of semantically significant objects and attributes associated with a given vertex in that of the base and compared networks, which contains more vertices associated with this vertex; summarize the normalized sums for all the vertices of that of the base and compared networks, which contains more vertices; normalize the amount received to the number of elementary units of the fourth level remaining in this network, obtaining the degree of intersection of the semantic networks of the texts being compared.

Краткое описание чертежейBrief Description of the Drawings

Настоящее изобретение поясняется далее описанием конкретного примера его осуществления и прилагаемыми чертежами.The present invention is further explained by the description of a specific example of its implementation and the accompanying drawings.

На Фиг.1 приведена условная блок-схема, поясняющая заявленный способ.Figure 1 shows the conditional block diagram explaining the claimed method.

На Фиг.2 приведена блок-схема, поясняющая предпочтительный способ индексации текста.2 is a flowchart illustrating a preferred method for indexing text.

Подробное описание изобретенияDETAILED DESCRIPTION OF THE INVENTION

Способ по настоящему изобретению может быть реализован практически в любой вычислительной среде, к примеру на персональном компьютере, подключенном к внешним базам данных. Этапы осуществления способа иллюстрируются на Фиг.1.The method of the present invention can be implemented in almost any computing environment, for example, on a personal computer connected to external databases. The steps of the method are illustrated in FIG.

Все дальнейшие пояснения даются в применении к русскому языку, который является одним из самых высокофлективных языков, хотя предложенный способ применим к семантическому сравнению текстов на любых естественных языках.All further explanations are given as applied to the Russian language, which is one of the most highly inflected languages, although the proposed method is applicable to the semantic comparison of texts in any natural languages.

Прежде всего, каждый из подлежащих семантическому сравнению текстов необходимо представить в электронной форме для последующей автоматизированной обработки. Этот этап на Фиг.1 условно обозначен ссылочной позицией 1 и может быть выполнен любым известным способом, например сканированием текста с последующим распознаванием с помощью общеизвестных средств типа ABBYY FineReader. Если же текст поступает на индексацию из электронной сети, к примеру из Интернета, то этап его представления в электронной форме выполняется заранее, до размещения этого текста в сети.First of all, each of the texts subject to semantic comparison must be submitted in electronic form for subsequent automated processing. This step in Fig. 1 is conventionally indicated by the reference number 1 and can be performed in any known manner, for example, by scanning the text and then recognizing it using well-known means such as ABBYY FineReader. If the text is sent for indexing from an electronic network, for example, from the Internet, then the stage of its submission in electronic form is performed in advance, before this text is posted on the network.

Специалистам должно быть понятно, что операции этого и последующих этапов осуществляются с запоминанием промежуточных результатов, например, в оперативном запоминающем устройстве (ОЗУ).Professionals should be clear that the operations of this and subsequent steps are carried out with storing intermediate results, for example, in random access memory (RAM).

Преобразованный в электронную форму текст поступает на обработку, в процессе которой осуществляется индексация. Эта индексация (этап 2 на Фиг.1) может производиться так же, как это раскрыто, например, в упомянутом в патенте РФ №2399959 или в заявке на патент США №2007/0073533 (опубл. 29.03.2007). В процессе этой индексации получают элементарные единицы текста разных уровней. Элементарные единицы первого уровня включают в себя, по меньшей мере, слова; каждая из элементарных единиц второго уровня представляет собой нормализованную словоформу; каждая из элементарных единиц третьего уровня представляет собой последовательность следующих друг за другом слов в обрабатываемом тексте; каждая из элементарных единиц четвертого уровня является семантически значимым объектом, или атрибутом; каждая из элементарных единиц пятого уровня представляет собой триаду либо из двух семантически значимых объектов и семантически значимого отношения между ними, либо семантически значимый объект и его атрибут и связывающее их семантически значимое отношение.The text converted into electronic form is sent for processing, during which indexation is carried out. This indexing (step 2 in FIG. 1) can be done in the same way as it is disclosed, for example, in the aforementioned patent of the Russian Federation No. 2399959 or in the application for US patent No. 2007/0073533 (published on March 29, 2007). In the process of this indexing, elementary text units of different levels are obtained. Elementary units of the first level include at least words; each of the elementary units of the second level is a normalized word form; each of the elementary units of the third level is a sequence of successive words in the processed text; each of the fourth-level elementary units is a semantically significant object or attribute; each of the elementary units of the fifth level is a triad of either two semantically significant objects and a semantically significant relationship between them, or a semantically significant object and its attribute and a semantically significant relation connecting them.

Предпочтительно, однако, индексировать текст с помощью способа, заявленного в заявке на патент РФ №2012150734 (приоритет от 27.11.2012) и проиллюстрированного на Фиг.2. В этом способе текст в цифровой форме сначала сегментируется на элементарные единицы первого уровня, включающие в себя, по меньшей мере, слова. В упомянутом патенте РФ №2399959 эти элементарные единицы первого уровня именуются токенами (token). Токеном может быть любой текстовый объект из следующего множества: слова, состоящие каждое из последовательности букв и, возможно, дефисов; последовательность пробелов; знаки препинания; числа. Иногда сюда же относят такие последовательности символов как A300, i150b, и т.п. Выделение токенов всегда осуществляется по достаточно простым правилам, например, как в упомянутом патенте РФ №2399959. На Фиг.2 этот этап условно обозначен ссылочной позицией 21.It is preferable, however, to index the text using the method claimed in the patent application of the Russian Federation No. 20112150734 (priority from 11.27.2012) and illustrated in FIG. 2. In this method, the text in digital form is first segmented into elementary units of the first level, including at least words. In the mentioned patent of the Russian Federation No. 2399959, these elementary units of the first level are called tokens. A token can be any text object from the following set: words consisting of each sequence of letters and, possibly, hyphens; sequence of spaces; punctuation marks; numbers. Sometimes sequences of symbols such as A300, i150b, etc. are also included here. Tokens are always allocated according to fairly simple rules, for example, as in the aforementioned RF patent No. 2399959. In Fig.2, this step is conventionally indicated by reference numeral 21.

Вслед за этим на этапе 22 (Фиг.2) сегментируют индексируемый текст в цифровой форме на предложения, соответствующие участкам данного текста. Такую сегментацию проводят по графематическим правилам. К примеру, самым простым правилом для выделения предложений является: «Предложением является последовательность токенов, начинающаяся с заглавной буквы и заканчивающаяся точкой».Following this, at step 22 (FIG. 2), the indexed text is digitally segmented into sentences corresponding to sections of the given text. Such segmentation is carried out according to graphematical rules. For example, the simplest rule for highlighting sentences is: “A sentence is a sequence of tokens, starting with a capital letter and ending with a period”.

Далее для каждой элементарной единицы первого уровня (для каждого токена), представляющей собой слово, на основе морфологического анализа формируют соответствующую элементарную единицу второго уровня, представляющую собой нормализованную словоформу, именуемую далее леммой. К примеру, для слова «иду» нормализованной словоформой будет «идти», для слова «красивого» нормализованной словоформой будет «красивый», а для слова «стеной» нормализованная словоформа - «стена». Кроме того, для каждой словоформы указывается часть речи, к которой относится данное слово, и его морфологические характеристики. Естественно, что для разных частей речи эти характеристики различны. К примеру, для существительных и прилагательных это род (мужской - женский - средний), число (единственное - множественное), падеж; для глаголов это вид (совершенный - несовершенный), лицо, число (единственное - множественное); и т.д. Таким образом, для заданного слова его нормализованная словоформа (лемма) + морфологические характеристики, в том числе часть речи, являются его морфом. Одно и то же слово может иметь несколько морфов. Например, слово «стекло» имеет два морфа - один для существительного среднего рода и один для глагола в прошедшем времени. Этот этап условно обозначен на Фиг.2 ссылочной позицией 23.Further, for each elementary unit of the first level (for each token), which is a word, on the basis of morphological analysis, the corresponding elementary unit of the second level is formed, which is a normalized word form, hereinafter referred to as the lemma. For example, for the word “go” the normalized word form will be “go”, for the word “beautiful” the normalized word form will be “beautiful”, and for the word “wall” the normalized word form will be “wall”. In addition, for each word form, the part of speech to which the given word belongs and its morphological characteristics are indicated. Naturally, for different parts of speech, these characteristics are different. For example, for nouns and adjectives it is a gender (masculine - feminine - average), number (singular - plural), case; for verbs it is a form (perfect - imperfect), person, number (singular - plural); etc. Thus, for a given word, its normalized word form (lemma) + morphological characteristics, including part of speech, are its morph. One and the same word can have several morphs. For example, the word "glass" has two morphs - one for a noun of the middle gender and one for a past tense verb. This step is conventionally indicated in figure 2 by reference numeral 23.

Следующий этап, условно обозначенный на Фиг.2 ссылочной позицией 24, состоит в том, что для каждой из упомянутых элементарных единиц первого уровня в упомянутом тексте подсчитывают частоту встречаемости. Иначе говоря, определяют, сколько раз каждое слово встречается в обрабатываемом тексте. Эту операцию осуществляют автоматически, например, простым подсчетом частоты встречаемости каждого токена, либо так, как это описано в патенте РФ №2167450 (опубл. 20.05.2001), либо в патенте США №6189002 (опубл. 13.02.2001). Одновременно с подсчетом частоты встречаемости находят для каждых двух и более следующих друг за другом слов в данном тексте разности подсчитанных частот встречаемости этих слов в первое появление этой последовательности слов и в последующие их появления. Если эти разности для первого появления данной последовательности слов и для нескольких последующих их появлений остаются неизменными, такую последовательность слов, следующих друг за другом в данном тексте (т.е. элементарных единиц второго уровня), объединяют в элементарные единицы третьего уровня, представляющие собой устойчивые словосочетания.The next step, conventionally indicated in FIG. 2 by reference numeral 24, is that for each of the mentioned first level elementary units, the frequency of occurrence is counted in said text. In other words, they determine how many times each word occurs in the processed text. This operation is carried out automatically, for example, by simply calculating the frequency of occurrence of each token, either as described in the patent of the Russian Federation No. 2164450 (publ. 05/20/2001), or in US patent No. 6189002 (publ. 13.02.2001). Simultaneously with the calculation of the frequency of occurrence, for every two or more words that follow in a given text, the differences in the calculated frequencies of occurrence of these words are found in the first occurrence of this sequence of words and in their subsequent occurrences. If these differences for the first occurrence of a given sequence of words and for several subsequent occurrences of them remain unchanged, such a sequence of words following each other in this text (i.e., elementary units of the second level) is combined into elementary units of the third level, which are stable collocations.

Далее, на следующем этапе, обозначенном на Фиг.2 ссылочной позицией 25, с целью выявления семантически значимых объектов и атрибутов выполняют многоступенчатый семантико-синтаксический анализ. Такой многоступенчатый семантико-синтаксический анализ выполняют путем обращения к сформированным в базе данных лингвистическим и эвристическим правилам в заранее заданной лингвистической среде. Такой средой может быть, например, лингвистическая среда, упомянутая в вышеуказанной заявке на патент США №2007/0073533 либо в вышеуказанных патентах РФ №2242048 и РФ №2399959, либо любая иная лингвистическая среда, определяющая соответствующие правила, которые позволяют устранять синтаксические и семантические неоднозначности слов и выражений реального текста. Лингвистические и эвристические правила в выбранной среде именуются далее правилами.Further, in the next step, indicated in FIG. 2 by the reference numeral 25, in order to identify semantically significant objects and attributes, a multi-stage semantic-syntactic analysis is performed. Such multistage semantic-syntactic analysis is performed by referring to the linguistic and heuristic rules generated in the database in a predetermined linguistic environment. Such a medium may be, for example, the linguistic medium mentioned in the aforementioned application for US patent No. 2007/0073533 or in the above patents of the Russian Federation No. 2242048 and the Russian Federation No. 2399959, or any other linguistic medium that defines the appropriate rules that allow to eliminate syntactic and semantic ambiguities words and expressions of real text. Linguistic and heuristic rules in the selected environment are referred to below as rules.

Выявление семантически значимых объектов и атрибутов, которые считаются элементарными единицами четвертого уровня, производится в предложении на множестве элементарных единиц первого, второго и(или) третьего уровней.The identification of semantically significant objects and attributes, which are considered elementary units of the fourth level, is performed in the sentence on the set of elementary units of the first, second and (or) third levels.

Для каждого семантически значимого объекта, или атрибута, т.е. элементарной единицы четвертого уровня с присвоенными им типами, находят соответствующую ему анафорическую ссылку (если она есть). Например, в предложении «Механика - часть физики, которая изучает закономерности механического движения и причины, вызывающие или изменяющие это движение» анафорической ссылкой к слову «механика» будет местоимение «которая», тогда как слово «механика» будет антецедентом для этой анафоры, и еще, анафорической ссылкой к слову «механическое» будет местоимение «это», тогда как слово «механическое» будет антецедентом для этой анафоры. Этот этап нахождения анафорической ссылки условно обозначен на Фиг.2 ссылочной позицией 26. Каждую анафорическую ссылку заменяют на соответствующий ей антецедент. После этого каждый выявленный семантически значимый объект и атрибут сохраняют в соответствующей памяти.For each semantically significant object or attribute, i.e. elementary units of the fourth level with the types assigned to them, find the corresponding anaphoric link (if any). For example, in the sentence “Mechanics is a part of physics that studies the laws of mechanical motion and the causes that cause or change this movement”, the anaphoric reference to the word “mechanics” will be the pronoun “which”, while the word “mechanics” will be an antecedent for this anaphora, and also, the anaphoric reference to the word “mechanical” will be the pronoun “this,” while the word “mechanical” will be an antecedent for this anaphora. This step of finding the anaphoric link is conventionally indicated in FIG. 2 by reference numeral 26. Each anaphoric link is replaced with its corresponding antecedent. After that, each identified semantically significant object and attribute is stored in the corresponding memory.

На следующем этапе, обозначенном на Фиг.2 ссылочной позицией 27, выполняют многоступенчатый семантико-синтаксический анализ, с помощью которого на основе элементарных единиц первого, второго, третьего и четвертого уровней находят с помощью упомянутых правил семантически значимые отношения между семантически значимыми объектами, а также между семантически значимыми объектами и атрибутами.In the next step, indicated by a reference numeral 27 in FIG. 2, a multi-stage semantic-syntactic analysis is performed, with which, on the basis of elementary units of the first, second, third and fourth levels, semantically significant relations between semantically significant objects are found using the above rules, and between semantically significant objects and attributes.

На этапе, обозначенном на Фиг.2 ссылочной позицией 28, каждому семантически значимому отношению присваивают соответствующий тип из хранящейся в базе данных предметной онтологии по тематике той предметной области, к которой относится индексируемый текст. После этого каждое семантически значимое отношение сохраняют в соответствующей памяти вместе с присвоенным ему типом и найденными для него морфологическими и семантическими атрибутами.At the step indicated by reference numeral 28 in FIG. 2, each semantically significant relation is assigned a corresponding type from the subject ontology stored in the database on the subject of the subject area to which the indexed text belongs. After that, each semantically significant relation is stored in the corresponding memory together with the type assigned to it and the morphological and semantic attributes found for it.

После этого на этапе, обозначенном на Фиг.2 ссылочной позицией 29, выявляют частоты встречаемости семантически значимых объектов и атрибутов, а также частоты встречаемости семантически значимых отношений между семантически значимыми объектами и между семантически значимыми объектами и атрибутами на всем данном тексте. Эту операцию выполняют практически так же, как на этапе 24 для элементарных единиц первого уровня.After that, at the stage indicated by reference numeral 29 in FIG. 2, the occurrence frequencies of semantically significant objects and attributes, as well as the occurrence frequencies of semantically significant relationships between semantically significant objects and between semantically significant objects and attributes throughout the entire text, are detected. This operation is performed in almost the same way as in step 24 for elementary units of the first level.

На этапе, обозначенном на Фиг.2 ссылочной позицией 30, сохраненные семантически значимые объекты, а также атрибуты и семантически значимые отношения используют для формирования триад. При этом в пределах индексируемого текста для каждого из выявленных семантически значимых отношений, связывающих определенные семантически значимые объекты и атрибуты, формируют множество триад двух типов. Каждая из множества триад первого типа включает семантически значимое отношение и два семантически значимых объекта, которые связываются этим семантически значимым отношением. Каждая из множества триад второго типа включает семантически значимое отношение, один семантически значимый объект, а также его атрибут, которые связываются этим семантически значимым отношением. Если обозначить два семантически значимых объекта через Oi и Oj, а связывающее их семантически значимое отношение через Rij, то каждую из триад первого типа можно условно представить (изобразить) как Oi→Rij→Oj. Каждая из триад второго типа может быть представлена как Oi→Rim→Am, где Am являются соответствующим атрибутом, a Rim связывающее семантически значимый объект и атрибут семантически значимое отношение. В этих записях индексы i, j, m представляют собой целые числа.In the step indicated by reference numeral 30 in FIG. 2, stored semantically meaningful objects, as well as attributes and semantically meaningful relationships, are used to form triads. Moreover, within the limits of the text being indexed, for each of the identified semantically meaningful relationships that connect certain semantically meaningful objects and attributes, many triads of two types are formed. Each of the many triads of the first type includes a semantically meaningful relationship and two semantically meaningful objects that are linked by this semantically meaningful relationship. Each of the many triads of the second type includes a semantically significant relation, one semantically significant object, as well as its attribute, which are associated with this semantically significant relation. If two semantically significant objects are denoted by O i and O j , and the semantically significant relation connecting them is denoted by R ij , then each of the triads of the first type can be conditionally represented (depicted) as O i → R ij → O j . Each of the triads of the second type can be represented as O i → R im → A m , where A m are the corresponding attribute, and R im associates the semantically significant object and the attribute is a semantically significant relation. In these entries, the indices i, j, m are integers.

Затем на этапе, обозначенном на Фиг.2 ссылочной позицией 31, выполняют индексацию текста. При этом индексируют по отдельности на множестве сформированных триад все связанные семантически значимыми отношениями семантически значимые объекты с их частотами встречаемости, все атрибуты с их частотами встречаемости и все сформированные триады.Then, in the step indicated by reference numeral 31 in FIG. 2, the text is indexed. At the same time, individually associated with semantically significant relations, all semantically significant objects with their frequencies of occurrence, all attributes with their frequencies of occurrence, and all formed triads are indexed individually on the set of formed triads.

Для этого на множестве сформированных триад индексируют все семантически значимые объекты и их атрибуты по отдельности с их частотами встречаемости и все триады вида «семантически значимый объект - семантически значимое отношение - семантически значимый объект», а также все триады вида «семантически значимый объект - семантически значимое отношение - атрибут». Сформированные на этапе 30 триады и полученные на этапе 31 индексы вместе со ссылкой на конкретные предложения исходного текста, из которого сформированы эти триады, сохраняют в базе данных (этап 32 на Фиг.2).For this, on the set of triads formed, all semantically significant objects and their attributes are separately indexed with their occurrence frequencies and all triads of the form “semantically significant object - semantically significant relation - semantically significant object”, as well as all triads of the form “semantically significant object - semantically significant attitude is an attribute. ” The indices generated in step 30 of the triad and the indices obtained in step 31, together with a link to specific sentences of the source text from which these triads are generated, are stored in the database (step 32 in FIG. 2).

Для специалистов очевидно, что упоминавшиеся на отдельных этапах запоминающие устройства могут на деле быть как разными устройствами, так и одним запоминающим устройством достаточного объема. Точно так же отдельные базы данных, упоминавшиеся на соответствующих этапах, могут быть не только физически раздельными базами данных, но и единственной базой данных. Более того, упомянутые запоминающие устройства (памяти) могут хранить ту же самую единственную базу данных, либо хранить по отдельности упомянутые базы данных. Специалистам также понятно, что заявленные в настоящем изобретении способы выполняются в соответствующей вычислительной среде под управлением соответствующих программ, которые записаны на машиночитаемых носителях, предназначенных для непосредственного участия в работе компьютера.For specialists, it is obvious that the storage devices mentioned at separate stages can in fact be both different devices, and one storage device of sufficient volume. Similarly, the individual databases mentioned at the respective stages can be not only physically separate databases, but also the only database. Moreover, said storage devices (memories) may store the same single database, or store said databases separately. Those skilled in the art will also understand that the methods claimed in the present invention are executed in an appropriate computing environment under the control of appropriate programs that are recorded on computer-readable media intended for direct participation in a computer.

Возвратимся к блок-схеме Фиг.1. На этапе 3 выявляют частоты встречаемости элементарных единиц четвертого уровня (т.е. семантически значимых объектов и атрибутов), а также выявляют частоты встречаемости семантически значимых отношений. Отметим, что сформированные элементарные единицы четвертого уровня сохраняют в базе данных вместе с выявленными частотами встречаемости. Кроме того, сохраняют в базе данных полученные индексы вместе со ссылками на конкретные предложения данного текста.Returning to the block diagram of FIG. 1. At stage 3, the frequencies of occurrence of elementary units of the fourth level (i.e., semantically significant objects and attributes) are identified, as well as the frequencies of occurrence of semantically significant relationships are identified. Note that the formed elementary units of the fourth level are stored in the database along with the identified frequency of occurrence. In addition, the resulting indexes are stored in the database along with links to specific sentences of the text.

Затем на этапе 4 в способе по настоящему изобретению формируют семантическую сеть таким образом, что первый семантически значимый объект последующей триады связывается с таким же вторым семантически значимым объектом предыдущей триады. При этом в процессе итеративной процедуры осуществляют перенормировку частот встречаемости семантически значимых объектов и атрибутов в смысловой вес семантически значимых объектов и атрибутов, которые являются вершинами семантической сети. Эту перенормировку осуществляют таким образом, что семантически значимые объекты и атрибуты, связанные в сети с большим числом семантически значимых объектов и атрибутов с большой частотой встречаемости, увеличивают свой смысловой вес, а другие семантически значимые объекты и атрибуты его равномерно теряют (этап 5 на Фиг.1).Then, in step 4, a semantic network is formed in the method of the present invention such that the first semantically significant object of the subsequent triad is associated with the same second semantically significant object of the previous triad. At the same time, in the course of the iterative procedure, the frequency of occurrence of semantically significant objects and attributes is renormalized into the semantic weight of semantically significant objects and attributes, which are the vertices of the semantic network. This renormalization is carried out in such a way that semantically significant objects and attributes connected in a network with a large number of semantically significant objects and attributes with a high frequency of occurrence increase their semantic weight, while other semantically significant objects and attributes evenly lose it (step 5 in FIG. one).

Далее элементарные единицы четвертого уровня ранжируют по смысловому весу путем сравнения их смыслового веса с заранее заданным пороговым значением (этап 6 на Фиг.1).Next, the elementary units of the fourth level are ranked by semantic weight by comparing their semantic weight with a predetermined threshold value (step 6 in FIG. 1).

Элементарные единицы четвертого уровня со смысловым весом ниже порогового удаляют (этап 7 на Фиг.1). Оставшиеся элементарные единицы четвертого уровня с весом выше порогового сохраняют в памяти (этап 8). Сохраняют в памяти также семантически значимые отношения между семантически значимыми объектами, а также между семантически значимыми объектами и атрибутами, оставшимися в семантической сети.The elementary units of the fourth level with a semantic weight below the threshold are removed (step 7 in FIG. 1). The remaining elementary units of the fourth level with a weight above the threshold are stored in memory (step 8). The semantically significant relations between semantically significant objects and also between semantically significant objects and attributes remaining in the semantic network are also stored in memory.

Далее, на этапе 9 выявляют степень пересечения построенных семантических сетей двух подлежащих сравнению текстов и по вершинам, и по связям, учитывая смысловые веса вершин семантических сетей и частоты встречаемости связывающих их семантически значимых отношений. Эта степень пересечения семантических сетей сравниваемых текстов и является характеристикой смыслового подобия указанных текстов.Next, at step 9, the degree of intersection of the constructed semantic networks of the two texts to be compared both in the vertices and in the links is determined, taking into account the semantic weights of the vertices of the semantic networks and the frequency of occurrence of semantically significant relationships connecting them. This degree of intersection of the semantic networks of the texts being compared is a characteristic of the semantic similarity of these texts.

Степень пересечения двух семантических сетей, сформированных описанным выше способом, принадлежащих двум сравниваемым текстам, вычисляется как сумма совпадений элементарных единиц пятого уровня этих двух семантических сетей. В принципе, это вычисление может проводиться различными известными специалистам методами.The degree of intersection of two semantic networks, formed as described above, belonging to the two texts being compared, is calculated as the sum of the coincidences of elementary units of the fifth level of these two semantic networks. In principle, this calculation can be carried out by various methods known to those skilled in the art.

Предпочтительно степень пересечения может вычисляться как сумма пересечений элементарных единиц пятого уровня этих двух сетей. Для этого выбирают в качестве базовой сети ту из двух семантических сетей, в которой после ранжирования и удаления вершин со смысловыми весами ниже порогового значения (см. этап 7 на Фиг.1) осталось больше вершин, чем в другой, выбираемой в качестве сравниваемой. Для каждой вершины базовой сети находят в сравниваемой сети вершину, являющуюся той же самой элементарной единицей четвертого уровня, т.е. тем же самым семантически значимым объектом или тем же самым атрибутом. Для каждой найденной вершины в каждой из базовой и сравниваемой сетей вычисляют величины всех связанных с данной вершиной триад как площади треугольников, стороны которых соответствуют компонентам каждой из этих триад. Это вычисление площади можно осуществлять как нормированное на 100% скалярное произведение на векторах c ¯ i

Figure 00000001
и c ¯ j
Figure 00000002
, где вектор c ¯ i
Figure 00000001
соответствует первому семантически значимому объекту или атрибуту элементарной единицы пятого уровня, вектор c ¯ j
Figure 00000003
соответствует второму семантически значимому объекту либо атрибуту элементарной единицы пятого уровня, а угол между векторами ci, и cj, равный wij, пропорционален частоте встречаемости семантически значимого отношения между первым и вторым семантически значимыми объектами или между первым семантически значимым объектом и атрибутом, нормированной на 90°: wij∈(0…90°).Preferably, the degree of intersection can be calculated as the sum of the intersections of the fifth level elementary units of these two networks. For this, one of the two semantic networks is selected as the basic network, in which, after ranking and deleting vertices with semantic weights below the threshold value (see step 7 in FIG. 1), more vertices remain than in the other, which is chosen as the comparison. For each vertex of the core network, a vertex is found in the compared network, which is the same elementary unit of the fourth level, i.e. the same semantically significant object or the same attribute. For each vertex found in each of the base and compared networks, the values of all triads connected with this vertex are calculated as the area of triangles whose sides correspond to the components of each of these triads. This area calculation can be performed as a 100% normalized scalar product on vectors c ¯ i
Figure 00000001
and c ¯ j
Figure 00000002
where is the vector c ¯ i
Figure 00000001
corresponds to the first semantically significant object or attribute of an elementary unit of the fifth level, the vector c ¯ j
Figure 00000003
corresponds to the second semantically significant object or attribute of an elementary unit of the fifth level, and the angle between the vectors c i and c j equal to w ij is proportional to the frequency of occurrence of the semantically significant relationship between the first and second semantically significant objects or between the first semantically significant object and the attribute normalized 90 °: w ij ∈ (0 ... 90 °).

Далее выбирают для каждой пары триад, связанных с парой конкретных вершин в базовой и сравниваемой сетях, меньшую из вычисленных величин в качестве степени пересечения триад в базовой и сравниваемой сетях. Все выбранные вычисленные величины суммируют для каждой из вершин, получая степень пересечения для данной пары вершин базовой и сравниваемой сетей. Найденную сумму нормируют на число семантически значимых объектов и атрибутов, связанных с данной вершины в той из базовой и сравниваемой сетей, которая содержит больше вершин. Полученные нормированные суммы суммируют теперь уже по всем вершинам той из базовой и сравниваемой сетей, которая содержит больше вершин. Наконец, полученную итоговую сумму нормируют на число оставшихся в этой сети элементарных единиц четвертого уровня, т.е. семантически значимых объектов и атрибутов, получая степень пересечения семантических сетей для двух сравниваемых текстов.Next, choose for each pair of triads associated with a pair of specific vertices in the base and the compared networks, the smaller of the calculated values as the degree of intersection of the triads in the base and the compared networks. All selected calculated values are summed for each of the vertices, obtaining the degree of intersection for a given pair of vertices of the base and compared networks. The found amount is normalized to the number of semantically significant objects and attributes associated with a given vertex in that of the base and compared networks, which contains more vertices. The obtained normalized sums are now summed over all the vertices of that of the base and compared networks, which contains more vertices. Finally, the resulting total amount is normalized to the number of elementary units of the fourth level remaining in this network, i.e. semantically significant objects and attributes, getting the degree of intersection of semantic networks for two compared texts.

Очевидно, что в случае отсутствия в сравниваемой сети какой-либо вершины степень пересечения для этой вершины принимается равной нулю.Obviously, if there is no vertex in the compared network, the degree of intersection for this vertex is taken equal to zero.

ПримерExample

Для иллюстрации осуществления заявленного способа автоматизированного семантического сравнения текста на естественном языке рассмотрим следующий пример. Пусть имеется некоторый русскоязычный текст о правилах приема в Нижегородский государственный университет им. Н.И. Лобачевского в 2005 году, представленный на Интернет-сайте http://www.unn.ru/rus/priem.htm, и несколько (например, два) других текста из той же и из другой предметных областей. Таким образом, можно считать, что преобразование текстов в электронную форму, обозначенное на Фиг.1 ссылочной позицией 1, уже выполнено.To illustrate the implementation of the claimed method of automated semantic comparison of text in a natural language, consider the following example. Let there be some Russian-language text about the rules for admission to the Nizhny Novgorod State University. N.I. Lobachevsky in 2005, presented on the website http://www.unn.ru/rus/priem.htm, and several (for example, two) other texts from the same and from other subject areas. Thus, we can assume that the conversion of texts into electronic form, indicated in FIG. 1 by reference numeral 1, has already been completed.

Типичным примером такого текста является следующий фрагмент:A typical example of such text is the following snippet:

«В ННГУ на первый курс для обучения по основным образовательным программам высшего профессионального образования на места, финансируемые за счет средств федерального бюджета, принимаются на конкурсной основе граждане Российской Федерации, Республики Беларусь, Республики Казахстан, Киргизской Республики и Республики Таджикистан, имеющие документ об образовании государственного образца (аттестат о среднем (полном) общем образовании; диплом о среднем профессиональном образовании; диплом о начальном профессиональном образовании, если в нем есть запись о получении среднего (полного) общего образования), если образование данного уровня получается впервые».“At the NNSU, citizens of the Russian Federation, the Republic of Belarus, the Republic of Kazakhstan, the Kyrgyz Republic and the Republic of Tajikistan who have a document on the formation of state education are admitted to the first year to study in the main educational programs of higher professional education in places financed from the federal budget sample (certificate of secondary (complete) general education; diploma of secondary vocational education; diploma of primary vocational education, if It has a record of receiving secondary (full) general education), if the formation of the first level is obtained. "

В соответствии с заявленным способом автоматизированного семантического сравнения текстов на естественном языке используют предварительно созданную базу синтаксических правил и словарей, в рамках которых будет осуществляться обработка текста и построение семантического индекса. Подобные базы готовятся экспертами-лингвистами, которые на основании своего опыта и знаний определяют последовательность и состав синтаксической обработки текста, характерных для конкретного языка.In accordance with the claimed method of automated semantic comparison of texts in a natural language, a previously created base of syntactic rules and dictionaries is used, within which text processing and construction of a semantic index will be carried out. Such databases are prepared by linguistic experts, who, based on their experience and knowledge, determine the sequence and composition of the syntactic processing of the text specific to a particular language.

Экспертами-лингвистами предварительно строится множество синтаксических правил, которые позволяют с помощью использования также предварительно построенных экспертами-лингвистами соответствующих лингвистических словарей в дальнейшем в обрабатываемых текстах автоматически выявлять конкретные сведения, соответствующие семантически значимым объектам, атрибутам семантически значимых объектов и семантически значимым отношениям, которые могут иметь место между семантически значимыми объектами или между семантически значимыми объектами и атрибутами.Linguistic experts preliminarily construct many syntactic rules that allow using the corresponding linguistic dictionaries also previously constructed by expert linguists to automatically identify specific information in processed texts corresponding to semantically significant objects, attributes of semantically significant objects, and semantically significant relationships that may have space between semantically significant objects or between semantically significant objects Tami and attributes.

Кроме спецификации предметной области и правил в соответствии с изложенными выше способами используются словари общей и специальной лексики.In addition to the specification of the subject area and the rules in accordance with the above methods, dictionaries of general and special vocabulary are used.

В соответствии с заявленным способом автоматизированного семантического сравнения текстов на естественном языке сначала осуществляют сегментацию текста на элементарные единицы - токены (ссылочная позиция 21 на Фиг.2) и морфологический анализ токенов-слов (ссылочная позиция 23 на Фиг.2). В результате выполнения этого этапа исходный текст трансформируется во множество токенов и морфов, которые представлены в Таблице 1 и Таблице 2 соответственно.In accordance with the claimed method of automated semantic comparison of texts in natural language, the text is first segmented into elementary units — tokens (reference position 21 in FIG. 2) and morphological analysis of word tokens (reference position 23 in FIG. 2). As a result of this stage, the source text is transformed into many tokens and morphs, which are presented in Table 1 and Table 2, respectively.

Вводные слова и вставные конструкции не несут никакой синтаксической нагрузки, поэтому токены этого типа из дальнейшего анализа исключаются.Introductory words and plug-in constructions do not carry any syntactical load, therefore tokens of this type are excluded from further analysis.

Токены-географические названия рассматриваются как одно слово с морфом, соответствующим морфу главного слова.Geographic tokens are considered as one word with a morph corresponding to the morph of the main word.

Далее, после сегментации текста на токены и морфологического анализа токенов-слов осуществляют выделение устойчивых словосочетаний (ссылочная позиция 24 на Фиг.2). Для этого подсчитывают частоту встречаемости слов в последовательностях из двух и более слов в тексте. Затем сравнивают разности частот встречаемости слов в последовательности для первого появления данной последовательности слов и для нескольких последующих их появлений.Further, after segmenting the text into tokens and morphological analysis of the word tokens, stable phrases are extracted (reference position 24 in FIG. 2). To do this, calculate the frequency of occurrence of words in sequences of two or more words in the text. Then, the differences in the frequencies of occurrence of words in the sequence are compared for the first appearance of a given sequence of words and for several subsequent occurrences of them.

Частоты встречаемости слов при нервом появлении последовательности и при ее последующем появлении, а также разности этих частот представлены в Таблице 3.The frequency of occurrence of words with a nerve occurrence of a sequence and with its subsequent occurrence, as well as the difference of these frequencies are presented in Table 3.

В результате выполнения этого этана исходный текст кроме элементарных единиц первого и второго уровней дополняется множеством единиц третьего уровня - устойчивыми словосочетаниями. Словосочетания для нашего примера представлены в Таблице 4.As a result of this ethane, the source text, in addition to elementary units of the first and second levels, is supplemented by a multitude of units of the third level - stable phrases. The phrases for our example are presented in Table 4.

После выполнения вышеуказанных этапов осуществляют фрагментацию обрабатываемого текста на предложения (ссылочная позиция 22 на Фиг.2). В результате выполнения этого этапа сформированные выше множества дополняются множеством предложений, представленным в Таблице 5.After the above steps are completed, the processed text is fragmented into sentences (reference position 22 in FIG. 2). As a result of this step, the sets formed above are supplemented by the set of sentences presented in Table 5.

Таким образом, после выполнения всех рассмотренных выше этапов обрабатываемый текст будет сегментирован на предложения, каждое из которых размечено множествами аннотаций элементарных единиц первого, второго и третьего уровней.Thus, after all the above steps are completed, the processed text will be segmented into sentences, each of which is marked with sets of annotations of elementary units of the first, second and third levels.

Вслед за этим, в соответствии с заявленным способом автоматизированного семантического сравнения текстов на естественном языке осуществляется выявление семантически значимых объектов и атрибутов (элементарных единиц четвертого уровня) (ссылочная позиция 25 на Фиг.2). Оно производится в каждом предложении на множестве элементарных единиц первого, второго и(или) третьего уровней путем применения заранее сформированного множества лингвистических и эвристических правил с использованием заранее же сформированных соответствующих лингвистических словарей.Following this, in accordance with the claimed method of automated semantic comparison of texts in natural language, semantically significant objects and attributes (elementary units of the fourth level) are identified (reference position 25 in FIG. 2). It is made in each sentence on the set of elementary units of the first, second and (or) third levels by applying a pre-formed set of linguistic and heuristic rules using the pre-formed corresponding linguistic dictionaries.

Семантико-синтаксическая обработка предложения проводится в несколько этапов. Все этапы будем проводить на тексте, выбранном авторами для примера.Semantic-syntactic processing of sentences is carried out in several stages. All stages will be carried out on the text selected by the authors as an example.

1. Членение предложения по знакам пунктуации и союзам (союзным словам и словосочетаниям) на начальные фрагменты и определение типа фрагмента на основе его морфологических характеристик. Для этого используется словарь союзов, союзных слов и словосочетаний.1. Subdivision of sentences on punctuation marks and unions (union words and phrases) into initial fragments and determining the type of fragment based on its morphological characteristics. For this, a dictionary of unions, union words and phrases is used.

Границы фрагментов ставятся по всем знакам препинания и союзам (союзным словам и словосочетаниям) без запятой. Кроме того, по словарю союзов определяется, нет ли такого сложного союза, начало которого в соседнем слева фрагменте, а конец в данном. В нашем случае таким союзным словосочетанием является «до тех пор, пока». Если такой союз есть, то запятую переносят перед всем союзом.Borders of fragments are set for all punctuation marks and unions (union words and phrases) without a comma. In addition, the dictionary of unions determines whether there is such a complex union, the beginning of which is in the fragment to the left of the left, and the end is in this. In our case, such an allied phrase is “as long as”. If there is such a union, then a comma is transferred before the whole union.

Тип фрагмента - одно из следующих значений, указанных в таблице 6. По порядку, указанному в таблице 6, ищется во фрагменте словоформа с соответствующим омонимом, остальные омонимы найденной словоформы не рассматриваются.The fragment type is one of the following values indicated in table 6. In the order indicated in table 6, the word form with the corresponding homonym is searched in the fragment, the remaining homonyms of the found word form are not considered.

2. Объединение исходных отрезков с простыми случаями однородных рядов прилагательных, наречий, существительных и т.п. Признаком однородности выступает наличие сочинительного союза (или запятой), до и после которого должны находиться словоформы одной части речи, у которых есть омонимы, имеющие одинаковую морфологическую информацию. Остальные омонимы не рассматриваются при дальнейшем анализе, таким образом, происходит частичное снятие омонимии.2. Combining the original segments with simple cases of homogeneous series of adjectives, adverbs, nouns, etc. A sign of homogeneity is the presence of a compositional union (or comma), before and after which there should be word forms of one part of speech, which have homonyms that have the same morphological information. The remaining homonyms are not considered during further analysis, thus, partial removal of homonymy occurs.

В нашем примере сочинительным союзом «и» соединены фрагменты 6 и 7, поскольку у токенов 38 («Киргизской Республики») и 41 («Республики Таджикистан») таблицы 1 есть омонимы одной части речи, имеющие одинаковую морфологическую информацию - Род.п. Ж.р. Ед.ч. Существительное Неодуш. Кроме того, запятые стоят между фрагментами 3-6, у входящих в них токенов 30, 32, 36, 38 таблицы 1 есть омонимы одной части речи, имеющие одинаковую морфологическую информацию - Род.п. Ж.р. Ед.ч. Существительное Неодуш. Следовательно, сливаем фрагменты 3-7 в один. Тип полученного фрагмента - 9 (табл.8).In our example, fragments 6 and 7 are connected by the creative union “and”, since the tokens 38 (“Kyrgyz Republic”) and 41 (“Republic of Tajikistan”) of table 1 have homonyms of one part of speech that have the same morphological information - Rod.p. J.R. Unit Noun Inanimate. In addition, commas stand between fragments 3-6, the tokens 30, 32, 36, 38 of the table 1 included in them have homonyms for one part of speech that have the same morphological information - Rod. J.R. Unit Noun Inanimate. Therefore, we merge fragments 3-7 into one. The type of fragment obtained is 9 (Table 8).

3. Построение простых синтаксических групп, соответствующих атрибутивному уровню описания (табл.9): признак объекта/субъекта/действия + объект/субъект/действие, мера признака объекта/субъекта/действия + объект/субъект/действие.3. Construction of simple syntactic groups corresponding to the attribute level of description (Table 9): attribute of an object / subject / action + object / subject / action, measure of an attribute of an object / subject / action + object / subject / action.

Далее в предложениях текста выявляются и раскрываются анафорические ссылки. Для этого в пределах всего обрабатываемого текста в процессе выполнения этапа, обозначенного на Фиг.2 ссылочной позицией 26, находят местоимения, которые могут быть анафорическими ссылками на соответствующие слова, и для местоимений, которые действительно таковыми являются, фиксируют тождество по референции между соответствующим семантически значимым объектом и его анафорической ссылкой. В нашем примере анафоры отсутствуют.Further in sentences of the text anaphoric links are revealed and revealed. To do this, within the entire text being processed, during the stage indicated in FIG. 2 by the reference numeral 26, pronouns are found that can be anaphoric references to the corresponding words, and for pronouns that really are, they fix the identity by reference between the corresponding semantically significant object and its anaphoric reference. In our example, there are no anaphora.

4. Вложение контактно расположенных фрагментов (причастных, деепричастных оборотов, придаточных определительных, etc.) и установление иерархии на фрагментах. Причастный оборот и придаточное определительное будут являться признаком соответствующего объекта, деепричастный оборот - признаком действия.4. Attachment of contact-located fragments (participial, participial revolutions, accessory definitive, etc.) and establishing a hierarchy on fragments. The participial turnover and the adjunctive definitive will be a sign of the corresponding object, the participial turnover - a sign of action.

В нашем примере фрагменты 2 и 4 (табл.8) с типом 5 «финансируемые за счет средств федерального бюджета» и «имеющие документ об образовании государственного образца» являются причастными оборотами с главными словами «финансируемые» и «имеющие» соответственно, согласованными с синтаксическим существительными «места» и «граждане» предыдущих фрагментов по роду и числу, следовательно, весь фрагмент 2 подчиняется существительному «места», а фрагмент 4 - существительному «граждане», являясь их признаковым описанием. Таким образом, весь фрагмент 2 - атрибут (признак) существительного «места», а фрагмент 4 - атрибут существительного «граждане».In our example, fragments 2 and 4 (Table 8) with type 5 “financed from the federal budget” and “having a document on the formation of a state sample” are involved sentences with the main words “funded” and “having” respectively, consistent with the syntactic nouns “places” and “citizens” of the previous fragments by gender and number, therefore, the entire fragment 2 obeys the noun “places”, and fragment 4 - the noun “citizens”, being their characteristic description. Thus, the entire fragment 2 is the attribute (attribute) of the noun “place”, and fragment 4 is the attribute of the noun “citizens”.

Во втором столбце таблицы 11 показаны полученные после объединения и вложения укрупненные фрагменты предложения.The second column of table 11 shows the enlarged fragments of the proposal obtained after combining and investing.

5. Построение множества однозначных морфологических интерпретаций каждого фрагмента.5. The construction of many unique morphological interpretations of each fragment.

В пределах каждого предложения осуществляется частичное снятие омонимии на морфологическом уровне путем:Within each sentence, partial removal of homonymy is carried out at the morphological level by:

1) выделения групп существительных, согласованных с одним или несколькими прилагательными/причастиями/местоимениями-прилагательными, находящимися в однородной связи (так называемый атрибутивный уровень, описанный выше в п.3);1) the allocation of groups of nouns consistent with one or more adjectives / participles / pronouns-adjectives that are in homogeneous connection (the so-called attributive level described above in clause 3);

2) анализа местоположения тире, что снимает омонимию, во-первых, со словоформы «это», поскольку тире перед данной словоформой указывает на то, что «это» - частица, во-вторых, с существительных до и после тире, т.к. у ближайшего к тире существительного справа возможен только именительный падеж, а слева - именительный или творительный;2) analysis of the location of the dash, which removes homonymy, firstly, from the word form “this”, since the dash before this wordform indicates that “this” is a particle, and secondly, from nouns before and after the dash, because . for the closest noun to the dash, only the nominative case is possible on the right, and the nominative or instrumental on the left;

3) выявления причастных оборотов, стоящих после существительного, поскольку такой оборот выделяется запятыми, а существительные, входящие в него, зависят от причастия и не могут быть в именительном падеже. Так, в нашем примере словоформа «документ» (токен 44, табл.2) может быть только в винительном падеже.3) the identification of participles following the noun, since such a turn is distinguished by commas, and the nouns included in it depend on the participle and cannot be in the nominative case. So, in our example, the word form “document” (token 44, Table 2) can only be in the accusative case.

4) выявления предлогов, при этом у подчиненного предлогу существительного убираются те омонимы, которые имеют падеж, не употребляемый с данным предлогом (используется модель управления предлога). В нашем примере:4) identifying prepositions, while those homonyms that have a case not used with this preposition are removed from the subordinate of the preposition of the noun (the preposition management model is used). In our example:

- предлог «на» (токен 3, табл.1) перед словоформой «курс» (токен 5, табл.1) не может управлять существительным в именительном падеже;- the preposition “on” (token 3, Table 1) before the word form “course” (token 5, Table 1) cannot manage a noun in the nominative case;

- предлог «для» (токен 6, табл.1) перед словоформой «обучения» (токен 7, табл.1) не может управлять существительным в именительном или винительном падеже;- the preposition “for” (token 6, Table 1) before the word form “training” (token 7, Table 1) cannot control a noun in the nominative or accusative case;

- предлог «на» (токен 15, табл.1) перед словоформой «места» (токен 16, табл.1) не может управлять существительным в именительном или родительном падеже;- the preposition “on” (token 15, Table 1) before the word form “places” (token 16, Table 1) cannot manage a noun in the nominative or genitive case;

- предлог «за» (токен 19, табл.1) перед словоформой «счет» (токен 20, табл.1) не может управлять существительным в именительном падеже;- the preposition “for” (token 19, table 1) before the word form “account” (token 20, table 1) cannot manage a noun in the nominative case;

- предлог «на» (токен 26, табл.1) перед словоформой «основе» (токен 28, табл.1) не может управлять существительным в дательном падеже,- the preposition “on” (token 26, table 1) before the word form “basis” (token 28, table 1) cannot control a noun in the dative case,

следовательно, эти омонимы убираются из рассмотрения.therefore, these homonyms are removed from consideration.

В таблице 2 варианты омонимов, которые исключены из рассмотрения в результате частичного снятия омонимии на морфологическом уровне, выделены серым цветом.In table 2, variants of homonyms that are excluded from consideration as a result of partial removal of homonymy at the morphological level are highlighted in gray.

6. Объединение фрагментов в простые предложения в составе сложноподчиненного с помощью подчинительных союзов. Подчинительные союзы выступают как границы простых предложений (табл.11, столбец 3).6. Combining fragments into simple sentences as part of a complex subject using subordinate unions. Subordinate unions act as boundaries of simple sentences (Table 11, column 3).

7. Выявление предикативного минимума (в том числе основных семантически значимых объектов и основных семантически значимых связей - предикатов) предложения путем сравнения его структуры со словарем шаблонов минимальных структурных схем предложений, фрагмент которого приведен в Таблице 12. Результат для нашего примера приведен в Таблице 13. Необходимо заметить, что фрагменты 2 и 4 (Табл.8) являются признаковым описанием существительных «места» и «граждане» соответственно, т.е. выступают как определение, поэтому составляющие их словоформы не анализируются как члены предложения.7. Identification of the predictive minimum (including the main semantically significant objects and the main semantically significant relationships - predicates) of a sentence by comparing its structure with a dictionary of templates of minimal structural sentence schemes, a fragment of which is shown in Table 12. The result for our example is shown in Table 13. It should be noted that fragments 2 and 4 (Table 8) are indicative descriptions of the nouns “places” and “citizens”, respectively, i.e. act as a definition, therefore, their word forms are not analyzed as members of a sentence.

8. Выделение остальных членов простого предложения (остальных семантически значимых объектов и атрибутов) и остальных семантически значимых связей осуществляется последовательным сравнением слов предложения с актантной структурой глагола из словаря валентностей глаголов. Заполненные валентные гнезда для предикатов текста примера приведены в Таблице 14.8. The selection of the remaining members of a simple sentence (other semantically significant objects and attributes) and other semantically meaningful relationships is carried out by a consistent comparison of the words of the sentence with the actual structure of the verb from the dictionary of valencies of verbs. The filled valence nests for predicates of the example text are shown in Table 14.

Более подробно рассмотрим предикат приниматься. Согласно семантической классификации, используемой в словаре валентностей глаголов, он прогнозирует ситуацию включения объекта в состав чего-либо. Глаголы этого класса требуют заполнения валентных ячеек 1 и 6 (т.е. Субъект и Конечный локатив) и имеют формальное выражение вида «существительное в именительном падеже - глагол - предложная группа с предлогами в, к, на, под и существительным в винительном падеже». Т.е. под данную схему подходит часть предложения В ННГУ на первый курс на места принимаются граждане, а все остальное является факультативными членами предложения и содержит дополнительную информацию, выражая семантику цели (для обучения), признак действия, представленного отглагольным существительным «обучение» (по основным образовательным программам). Таким образом, выявляются основные семантически значимые объекты «граждане», «курс», «место» и основное семантически значимое отношение «включение».We consider the predicate in more detail. According to the semantic classification used in the dictionary of valencies of verbs, he predicts the situation of inclusion of an object in the composition of something. Verbs of this class require filling valence cells 1 and 6 (ie, Subject and Final Locative) and have a formal expression of the form "noun in the nominative case - the verb is a prepositional group with the prepositions in, to, on, under and noun in the accusative case" . Those. part of the proposal is suitable for this scheme. In the NNSU, citizens are accepted for the first year in the field, and everything else is optional members of the proposal and contains additional information expressing the semantics of the goal (for training), an attribute of the action represented by the verb noun “training” (for basic educational programs ) Thus, the main semantically significant objects “citizens”, “course”, “place” and the main semantically significant relation “inclusion” are revealed.

9. Построение синтаксических групп внутри полученных простых предложений, в которых актанты предикатов - главные слова, с помощью синтаксических правил, выявляющих синтаксические связи между словами. Построенные группы приведены в Таблице 15.9. The construction of syntactic groups inside the received simple sentences, in which the predicate actants are the main words, with the help of syntactic rules that reveal the syntactic relations between words. The constructed groups are shown in Table 15.

Таким образом, выявляется множество остальных семантически значимых объектов и атрибутов, а также остальных семантически отношений. Для указанного примера они сведены в Таблицу 16.Thus, many other semantically significant objects and attributes are revealed, as well as other semantically related relationships. For this example, they are summarized in Table 16.

После выполнения предыдущих этапов на множестве выделенных элементарных единиц первого, второго, третьего и четвертого уровней с помощью упомянутых правил находят семантически значимые отношения между семантически значимыми объектами, а также между семантически значимыми объектами и атрибутами. Так, например, в предложении «В ННГУ на первый курс для обучения по основным образовательным программам высшего профессионального образования на места, финансируемые за счет средств федерального бюджета, принимаются па конкурсной основе граждане Российской Федерации, Республики Беларусь, Республики Казахстан, Киргизской Республики и Республики Таджикистан, имеющие документ об образовании государственного образца» рассматриваемого текста с помощью множества правил, соответствующая которым схема обработки представлена на Фиг.2 (этапы обработки 21-27), а используемые в этом правиле словари представлены в Таблицах 6-16, выделяются семантически значимое отношение «какой». Другие семантически значимые отношения выделяются с помощью того же самого множества правил. Каждому семантически значимому отношению присваивается его тип. В результате в исходном тексте выделяют семантически значимые отношения. Множество таких семантически значимых отношений с присвоенными им типами для рассматриваемого примера представлено в Таблице 17.After performing the previous steps on a set of selected elementary units of the first, second, third and fourth levels, using the above-mentioned rules, semantically significant relations are found between semantically significant objects, as well as between semantically significant objects and attributes. So, for example, in the proposal “At the NNSU, citizens of the Russian Federation, the Republic of Belarus, the Republic of Kazakhstan, the Kyrgyz Republic and the Republic of Tajikistan are accepted on a competitive basis for the first year to study in the main educational programs of higher professional education in places financed from the federal budget having a document on the formation of a state sample "of the text in question using a variety of rules, the corresponding processing scheme is presented in figure 2 (stage processing 21-27), and the dictionaries used in the rule shown in Tables 6-16 are allocated named relation "a". Other semantically significant relationships are distinguished using the same set of rules. Each semantically significant relation is assigned its type. As a result, semantically significant relationships are distinguished in the source text. Many of these semantically significant relationships with the types assigned to them for the example in question are presented in Table 17.

Таким образом, после выполнения всех рассмотренных выше этапов обработки исходный текст будет размечен множеством аннотаций, соответствующих семантически значимым объектам, их атрибутам и семантически значимым отношениям между семантически значимыми объектами, а также между семантически значимыми объектам и атрибутами.Thus, after all the above processing steps have been completed, the source text will be marked out with a lot of annotations corresponding to semantically significant objects, their attributes and semantically significant relations between semantically significant objects, as well as between semantically significant objects and attributes.

После этого на этапе, обозначенном на Фиг.2 ссылочной позицией 29, выявляют частоты встречаемости семантически значимых объектов и атрибутов, а также семантически значимых отношений между семантически значимыми объектами и между семантически значимыми объектами и атрибутами на всем данном тексте. Эту операцию выполняют практически так же, как на этапе 24 для элементарных единиц первого уровня. Фрагмент такого частотного словаря для нашего примера представлен в Таблице 19.After that, at the step indicated by reference numeral 29 in FIG. 2, the occurrence frequencies of semantically significant objects and attributes, as well as semantically significant relationships between semantically significant objects and between semantically significant objects and attributes throughout the entire text are detected. This operation is performed in almost the same way as in step 24 for elementary units of the first level. A fragment of such a frequency dictionary for our example is presented in Table 19.

Следующий этап, обозначенный на Фиг.2 ссылочной позицией 30, является техническим и выполняется для формирования триад, соответствующих сохраненным семантически значимым объектам, атрибутам и семантически значимым отношениям. Фрагмент множества таких триад для нашего примера представлен в Таблице 20. По сути дела сформированное множество триад составляет исходные данные для построения семантического индекса, обработанного на предыдущих этапах текста.The next step, indicated by reference numeral 30 in FIG. 2, is technical and is performed to form triads corresponding to stored semantically significant objects, attributes, and semantically significant relationships. A fragment of the set of such triads for our example is presented in Table 20. In fact, the generated set of triads makes up the initial data for constructing the semantic index processed in the previous stages of the text.

На этапе, обозначенном на Фиг.2 ссылочной позицией 31, строят семантический индекс следующим образом. Сначала из множества триад, полученных на предыдущем этапе, формируют подмножества триад, каждое из которых соответствует одному семантически значимому объекту с его атрибутами, и каждое полученное подмножество триад используют как вход для одного из стандартных индексаторов, например широко известного свободно распространяемого индексатора Lucene, индексатора поисковой машины Яндекс, индексатора Google или любого другого индексатора, с выхода которого получают уникальный для заданного подмножества триад индекс. Аналогичную последовательность действий выполняют для всех подмножеств триад, соответствующих триадам вида «семантически значимый объект - семантически значимое отношение - семантически значимый объект» и триадам вида «семантически значимый объект - семантически значимое отношение - атрибут», получая множество соответствующих уникальных индексов, которые в совокупности и составляют семантический индекс текста.In the step indicated by reference numeral 31 in FIG. 2, a semantic index is constructed as follows. First, from the set of triads obtained in the previous step, subsets of triads are formed, each of which corresponds to one semantically significant object with its attributes, and each obtained subset of triads is used as an input for one of the standard indexers, for example, the well-known freely distributed indexer Lucene, the search indexer Yandex machines, Google indexer, or any other indexer, from the output of which they receive an index unique for a given subset of triads. A similar sequence of actions is performed for all subsets of triads corresponding to triads of the form “semantically significant object - semantically significant relation - semantically significant object” and triads of the form “semantically significant object - semantically significant relation - attribute”, receiving a set of corresponding unique indices, which together and make up the semantic index of the text.

На этапе, обозначенном на Фиг.2 ссылочной позицией 32, сформированные на этапе 30 триады и полученные на этапе 31 индексы вместе со ссылкой на исходный текст, из которого сформированы эти триады, сохраняют в базе данных.In the step indicated by reference numeral 32 in FIG. 2, the indices generated in step 30 of the triad and the indices obtained in step 31, together with a link to the source text from which these triads are generated, are stored in the database.

В соответствии со способом автоматизированного семантического сравнения текстов на естественном языке из упомянутых триад могут формировать семантическую сеть таким образом, что первый семантически значимый объект последующей триады связывается с таким же вторым семантически значимым объектом предыдущей триады. Пример фрагмента такой семантической сети приведен в Таблице 21.In accordance with the method of automated semantic comparison of texts in natural language from these triads, a semantic network can be formed in such a way that the first semantically significant object of the subsequent triad is associated with the same second semantically significant object of the previous triad. An example of a fragment of such a semantic network is shown in Table 21.

При этом перед сохранением в базе данных сформированных триад и полученных индексов осуществляется в процессе итеративной процедуры перенормировка частот встречаемости семантически значимых объектов и атрибутов, а также частот встречаемости семантически значимых отношений в смысловой вес семантически значимых объектов и атрибутов, являющихся вершинами семантической сети, таким образом, что семантически значимые объекты или атрибуты, связанные в сети с большим числом семантически значимых объектов или атрибутов, с большой частотой встречаемости увеличивают свой смысловой вес, а другие семантически значимые объекты или атрибуты его равномерно теряют. Пример перенормированных в смысловые веса численных значений весовых коэффициентов понятий семантической сети приведен в Таблице 22. Аналогичным образом обрабатываются другие тексты (в данном примере - два), которые должны быть подвергнуты сравнению с исходным текстом.Moreover, before storing the generated triads and obtained indices in the database, the iterative procedure renormalizes the frequencies of occurrence of semantically significant objects and attributes, as well as the frequencies of occurrence of semantically significant relations, into the semantic weight of semantically significant objects and attributes that are the vertices of the semantic network, thus that semantically significant objects or attributes connected in a network with a large number of semantically significant objects or attributes with a high frequency occurrences increase their semantic weight, while other semantically significant objects or attributes evenly lose it. An example of the renormalized into semantic weights of the numerical values of the weighting coefficients of the concepts of the semantic network is shown in Table 22. Other texts (in this example, two) are processed in a similar way, which should be compared with the source text.

Далее вычисляют степени пересечения семантических сетей исходного текста и двух других проанализированных текстов как по вершинам, так и по их связям с учетом смысловых весов вершин семантических сетей и весовых характеристик их связей. Пример значений степеней пересечений семантических сетей трех текстов приведен в Таблице 23. Степень пересечения исходного текста с первым сравниваемым текстом говорит о большом их смысловом подобии, а степень пересечения с другим сравниваемым текстом - об их малом смысловом подобии.Next, the degrees of intersection of the semantic networks of the source text and two other analyzed texts are calculated both by the vertices and by their relationships, taking into account the semantic weights of the vertices of the semantic networks and the weight characteristics of their relationships. An example of the values of the degrees of intersection of the semantic networks of three texts is given in Table 23. The degree of intersection of the source text with the first text to be compared indicates their semantic similarity, and the degree of intersection with other compared text indicates their small semantic similarity.

Степень пересечения двух семантических сетей, принадлежащих двум текстам, вычисляется как сумма степеней пересечений элементарных единиц пятого уровня этих двух сетей. Эта сумма формируется по всем вершинам той из сетей, у которой больше вершин. Для каждой вершины этой сети находится вершина в другой сети, являющаяся той же элементарной единицей четвертого уровня - тем же семантически значимым объектом или тем же атрибутом. Если такой вершины во второй сети не находится, степень пересечения для этой вершины приравнивается к нулю. Пример значений степеней пересечения вершин фрагментов семантических сетей двух текстов приведен в Таблице 24.The degree of intersection of two semantic networks belonging to two texts is calculated as the sum of the degrees of intersection of elementary units of the fifth level of these two networks. This sum is formed over all the vertices of the network with more vertices. For each vertex of this network, there is a vertex in another network, which is the same elementary unit of the fourth level - the same semantically significant object or the same attribute. If such a vertex is not in the second network, the degree of intersection for this vertex is equal to zero. An example of the values of the degrees of intersection of the vertices of fragments of semantic networks of two texts is given in Table 24.

Для каждой вершины одной семантической сети (для каждого семантически значимого элемента или атрибута - элементарных единиц четвертого уровня) посчитаем степень пересечения с соответствующей вершиной другой семантической сети. В приведенном примере рассматриваем, например, вершину «обучение» (см. Таблицу 24), которая имеется в семантических сетях обоих сравниваемых текстов. Эта степень пересечения вычисляется как сумма степеней пересечения всех семантически значимых объектов и атрибутов, связанных с этой вершиной. В семантических сетях выбранных текстов это «устав», «факультет», «кафедра», «юридический» и др. в одной семантической сети и «факультет», «юридический», «абитуриент», «курс» и др. - в другой семантической сети. Если пары не находится, степень пересечения считается равной нулю. Степень пересечения семантических сетей, таким образом, вычисляется суммированием наименьших степеней пересечения из двух пар одноименных семантически значимых понятий или атрибутов двух сравниваемых сетей. При этом вычисляются семантические пересечения смысловых весов каждого семантически значимого объекта, или атрибута, связанных с этой вершиной в этих двух сетях. Эти семантические пересечения вычисляются как нормированные на 100% скалярные произведения смысловых весов первой и второй вершин, а угол между ними берется пропорциональным нормированной на 100% частоте встречаемости связывающего их семантически значимого отношения. К полученной сумме добавляйся меньшее из скалярных произведений. Если во второй сети для данной вершины не находится соответствующего семантически значимого объекта, или атрибута, степень пересечения по этому семантически значимому объекту, или атрибуту, приравнивается нулю. После суммирования по всем семантически значимым объектам или атрибутам, связанным с текущей вершиной, нормируют полученную сумму на наибольшее в двух сетях число семантически значимых объектов и атрибутов, связанных с этой вершины, и переходят к следующей вершине.For each vertex of one semantic network (for each semantically significant element or attribute - elementary units of the fourth level), we calculate the degree of intersection with the corresponding vertex of another semantic network. In the given example, we consider, for example, the “learning” top (see Table 24), which is available in the semantic networks of both compared texts. This degree of intersection is calculated as the sum of the degrees of intersection of all semantically significant objects and attributes associated with this vertex. In the semantic networks of the selected texts, these are “charter”, “faculty”, “department”, “legal”, etc. in one semantic network and “faculty”, “legal”, “entrant”, “course”, etc. - in another semantic network. If no pair is found, the degree of intersection is considered equal to zero. The degree of intersection of semantic networks is thus calculated by summing the smallest degrees of intersection of two pairs of the same semantically significant concepts or attributes of the two compared networks. In this case, semantic intersections of semantic weights of each semantically significant object or attribute associated with this vertex in these two networks are calculated. These semantic intersections are calculated as normalized to 100% scalar products of the semantic weights of the first and second vertices, and the angle between them is taken proportional to the normalized at 100% frequency of occurrence of a semantically significant relationship connecting them. To the resulting amount, add the smaller of the scalar products. If there is no corresponding semantically significant object or attribute in the second network for a given vertex, the degree of intersection over this semantically significant object or attribute is equal to zero. After summing over all semantically significant objects or attributes associated with the current vertex, the resulting sum is normalized to the largest number of semantically significant objects and attributes associated with this vertex in the two networks and go to the next vertex.

Полученная по всем вершинам в одной из сетей (с наибольшим числом вершин) сумма нормируется на число сохраненных после применения обработки на этапе 7 (см. Фиг.1) элементарных единиц четвертого уровня.The sum obtained for all vertices in one of the networks (with the largest number of vertices) is normalized to the number of elementary units of the fourth level saved after applying the processing in step 7 (see Fig. 1).

Для вершин «обучение» вычисляются нормированные на 100% скалярные произведения 99×99×sin(67,5°)/100=90,54 и 99×99×sin(72°)/100=93,21 с вершинами «факультет». И так для всех вершин семантической сети, семантический вес которых превысил пороговое значение (выбранное равным 70 в данном примере).For the “learning” vertices, the normalized 100% scalar products are calculated 99 × 99 × sin (67.5 °) / 100 = 90.54 and 99 × 99 × sin (72 °) / 100 = 93.21 with the “faculty” vertices . And so for all the vertices of the semantic network, whose semantic weight exceeded the threshold value (chosen equal to 70 in this example).

Суммарная степень пересечения двух семантических сетей по вершине «обучение» - 122,45 по всем соседним с ней вершинам семантических сетей нормируется на наибольшее число 10 оставшихся после удаления подпороговых вершин в одной из двух семантических сетей сравниваемых текстов.The total degree of intersection of two semantic networks at the top of “training” - 122.45 for all vertices of semantic networks adjacent to it is normalized to the largest number of 10 remaining after removal of subthreshold vertices in one of the two semantic networks of compared texts.

Следует еще раз подчеркнуть, что хотя в заявленном способе экспертами-лингвистами предварительно строится множество синтаксических правил и соответствующих лингвистических словарей (в силу чего в названии заявленного способа употреблено определение «автоматизированного»), раскрытое выше семантическое сравнение текстов осуществляется без вмешательства оператора.It should be emphasized once again that although the linguistic experts preliminarily construct a lot of syntactic rules and corresponding linguistic dictionaries in the claimed method (as a result of which the definition of “automated” is used in the name of the claimed method), the semantic comparison of texts described above is carried out without operator intervention.

Таким образом, настоящее изобретение обеспечивает способ семантического сравнения текстов на естественном языке практически без участия оператора. Основное отличие этого способа от известных способов состоит в том, что подсчитываются частоты встречаемости элементарных единиц четвертого уровня, т.е. семантически значимых объектов и атрибутов с последующей их перенормировкой в смысловые веса. Объединение триад из семантически значимых объектов и атрибутов с помощью семантически значимых отношений в семантическую сеть обеспечивает быстрое сравнение текстов, особенно текстов на высоко флективных языках.Thus, the present invention provides a method for semantic comparison of texts in natural language with virtually no operator. The main difference of this method from known methods is that the frequencies of occurrence of elementary units of the fourth level are calculated semantically significant objects and attributes with their subsequent renormalization into semantic weights. Combining triads of semantically meaningful objects and attributes using semantically meaningful relationships into a semantic network provides a quick comparison of texts, especially texts in highly inflected languages.

Таблица 1Table 1 Сегментация текста на токеныToken text segmentation № токенаToken Number ТокенToken НачалоStart Конецthe end Тип токенаToken Type 1one ВAT 1one 1one словоword 22 ННГУNNSU 33 66 сокращениеreduction 33 наon 88 99 словоword 4four первыйthe first 11eleven 1616 словоword 55 курсcourse словоword 66 дляfor словоword 77 обученияlearning словоword 88 поby словоword 99 основнымthe main словоword 1010 образовательнымeducational словоword 11eleven программамprograms словоword 1212 высшегоhigher словоword 1313 профессиональногоprofessional словоword 14fourteen образованияeducation словоword 15fifteen наon словоword 1616 местаplaces словоword 1717 ,, знак преп.prep sign 18eighteen финансируемыеfunded словоword 1919 заbehind словоword 20twenty счетscore словоword 2121 средствmeans словоword 2222 федеральногоfederal словоword 2323 бюджетаthe budget словоword 2424 ,, знак преп.prep sign 2525 принимаютсяaccepted словоword 2626 наon словоword 2727 конкурснойcompetitive словоword 2828 основеbasis словоword 2929th гражданеcitizens словоword 30thirty Российской ФедерацииRussian Federation слово - геогр. названиеthe word is geogr. title 3131 ,, знак преп.prep sign 3232 Республики БеларусьThe Republic of Belarus слово - геогр. названиеthe word is geogr. title 3535 ,, знак преп.prep sign 3636 Республики КазахстанRepublic of Kazakhstan слово - геогр. названиеthe word is geogr. title 3737 ,, знак преп.prep sign 3838 Киргизской РеспубликиKyrgyz Republic слово - геогр. названиеthe word is geogr. title 4040 иand словоword 4141 Республики ТаджикистанRepublic of Tajikistan слово - геогр. названиеthe word is geogr. title 4242 ,, знак преп.prep sign 4343 имеющиеhaving словоword 4444 документdocument словоword 4545 обabout словоword 4646 образованииeducation словоword 4747 государственногоstate словоword 4848 образцаsample словоword 4949 (аттестат о среднем (полном) общем образовании; диплом о среднем профессиональном образовании; диплом о начальном профессиональном образовании, если в нем есть запись о получении среднего (полного) общего образования)(certificate of secondary (full) general education; diploma of secondary vocational education; diploma of primary vocational education, if it contains a record of secondary (complete) general education) вставная конструкция - вставное предложениеplug-in design - plug-in offer 50fifty еслиif словоword 5151 образованиеeducation словоword 5252 данногоof this словоword 5353 уровняlevel словоword 5454 получаетсяit turns out словоword 5555 впервыеfirst словоword 5656 .. знак преп.prep sign

Таблица 2table 2 Леммы и морфыLemmas and morphs № токенаToken Number ЛеммыLemmas МорфыMorphs 1one ВAT ПредлогPretext 33 наon ПредлогPretext 4four первыйthe first Им.п. М.р. Ед.ч. Числительное ПорядковоеNamed after M.R. Unit Numeral Ordinal Вин.п. М.р. Ед.ч. Числительное ПорядковоеWin.p. M.R. Unit Numeral Ordinal 55 курсcourse Им.п. М.р. Ед.ч. Существительное Неодуш.Named after M.R. Unit Noun Inanimate. Вин.п. М.р. Ед.ч. Существительное Неодуш.Win.p. M.R. Unit Noun Inanimate. 66 дляfor ПредлогPretext длитьto extend Настоящее Деепричастие НесовершенныйReal Holy Communion Imperfect 77 обучениеtraining Им.п. С.р. Мн.ч. Существительное Неодуш.Named after S.R. Mn. Noun Inanimate. Род.п. С.р. Ед.ч. Существительное Неодуш.Rod.p. S.R. Unit Noun Inanimate. Вин.п. С.р. Мн.ч. Существительное Неодуш.Win.p. S.R. Mn. Noun Inanimate. 88 поby ПредлогPretext 99 основныйbasic Дат.п. Мн.ч. ПрилагательноеDat.p Mn. Adjective Тв.п. М.р. Ед.ч. ПрилагательноеTv.p. M.R. Unit Adjective Тв.п. С.р. Ед.ч. ПрилагательноеTv.p. S.R. Unit Adjective основнойmain Дат.п. Мн.ч. ПрилагательноеDat.p Mn. Adjective Тв.п. М.р. Ед.ч. ПрилагательноеTv.p. M.R. Unit Adjective Тв.п. С.р. Ед.ч. ПрилагательноеTv.p. S.R. Unit Adjective 1010 образовательныйeducational Дат.п. Мн.ч. ПрилагательноеDat.p Mn. Adjective Тв.п. М.р. Ед.ч. ПрилагательноеTv.p. M.R. Unit Adjective Тв.п. С.р. Ед.ч. ПрилагательноеTv.p. S.R. Unit Adjective 11eleven программаprogram Дат.п. Ж.р. Мн.ч. Существительное Неодуш.Dat.p J.R. Mn. Noun Inanimate. Род.п. М.р. Ед.ч. ПрилагательноеRod.p. M.R. Unit Adjective 1212 высшийhigher Род.п. С.р. Ед.ч. ПрилагательноеRod.p. S.R. Unit Adjective Вин.п. М.р. Ед.ч. Прилагательное Одушевл.Win.p. M.R. Unit Adjective Animation. Вин.п. С.р. Ед.ч. Прилагательное Одушевл.Win.p. S.R. Unit Adjective Animation. Род.п. М.р. Ед.ч. ПрилагательноеRod.p. M.R. Unit Adjective 1313 профессиональныйprofessional Род.п. С.р. Ед.ч. ПрилагательноеRod.p. S.R. Unit Adjective Вин.п. М.р. Ед.ч. Прилагательное Одушевл.Win.p. M.R. Unit Adjective Animation. Вин.п. С.р. Ед.ч. Прилагательное Одушевл.Win.p. S.R. Unit Adjective Animation. Им.п. С.р. Мн.ч. Существительное Неодуш.Named after S.R. Mn. Noun Inanimate. 14fourteen образованиеeducation Род.п. С.р. Ед.ч. Существительное Неодуш.Rod.p. S.R. Unit Noun Inanimate. Вин.п. С.р. Мн.ч. Существительное Неодуш.Win.p. S.R. Mn. Noun Inanimate. 15fifteen наon ПредлогPretext Им.п. С.р. Мн.ч. Существительное Неодуш.Named after S.R. Mn. Noun Inanimate. 1616 местоa place Род.п. С.р. Ед.ч. Существительное Неодуш.Rod.p. S.R. Unit Noun Inanimate. Вин.п. С.р. Мн.ч. Существительное Неодуш.Win.p. S.R. Mn. Noun Inanimate. 18eighteen финансироватьto finance Им.п. Мн.ч. Настоящее Пассивный Причастие Сов.-Несов. видNamed after Mn. Present Passive Communion Sov.-Nesov. view Вин.п. Мн.ч. Настоящее Пассивный Причастие Неодуш. Сов.-Несов. видWin.p. Mn. The Real Passive Communion is Inanimate. Sov.-Nesov. view 1919 заbehind ПредлогPretext 20twenty счетscore Им.п. М.р. Ед.ч. Существительное Неодуш.Named after M.R. Unit Noun Inanimate. Вин.п. М.р. Ед.ч. Существительное Неодуш.Win.p. M.R. Unit Noun Inanimate. 2121 средствоmeans Род.п. С.р. Мн.ч. Существительное Неодуш.Rod.p. S.R. Mn. Noun Inanimate. Род.п. М.р. Ед.ч. ПрилагательноеRod.p. M.R. Unit Adjective 2222 федеральныйfederal Род.п. С.р. Ед.ч. ПрилагательноеRod.p. S.R. Unit Adjective Вин.п. М.р. Ед.ч. Прилагательное Одушевл.Win.p. M.R. Unit Adjective Animation. Вин.п. С.р. Ед.ч. Прилагательное Одушевл.Win.p. S.R. Unit Adjective Animation. 2323 бюджетbudget Род.п. М.р. Ед.ч. Существительное Неодуш.Rod.p. M.R. Unit Noun Inanimate. 2525 приниматьсяbe accepted Мн.ч. Настоящее 3-е лицо Глагол НесовершенныйMn. Real 3rd person Verb Imperfect 2626 наon ПредлогPretext Род.п. Ж.р. Ед.ч. ПрилагательноеRod.p. J.R. Unit Adjective 2727 конкурсныйcompetitive Дат.п. Ж.р. Ед.ч. ПрилагательноеDat.p J.R. Unit Adjective Тв.п. Ж.р. Ед.ч. ПрилагательноеTv.p. J.R. Unit Adjective Предл.п. Ж.р. Ед.ч. ПрилагательноеOffers J.R. Unit Adjective 2828 основаthe basis Дат.п. Ж.р. Ед.ч. Существительное Неодуш.Dat.p J.R. Unit Noun Inanimate. Предл.п. Ж.р. Ед.ч. Существительное Неодуш.Offers J.R. Unit Noun Inanimate. 2929th гражданинcitizen Им.п. М.р. Мн.ч. Существительное Одушевл.Named after M.R. Mn. Noun Animated. Род.п. Ж.р. Ед.ч. Существительное Неодуш.Rod.p. J.R. Unit Noun Inanimate. 30thirty Российская Федерацияthe Russian Federation Дат.п. Ж.р. Ед.ч. Существительное Неодуш.Dat.p J.R. Unit Noun Inanimate. Предл.п. Ж.р. Ед.ч. Существительное Неодуш.Offers J.R. Unit Noun Inanimate. Им.п. Ж.р. Мн.ч. Существительное Неодуш.Named after J.R. Mn. Noun Inanimate. 3232 Республика БеларусьRepublic of Belarus Род.п. Ж.р. Ед.ч. Существительное Неодуш.Rod.p. J.R. Unit Noun Inanimate. Вин.п. Ж.р. Мн.ч. Существительное Неодуш.Win.p. J.R. Mn. Noun Inanimate. 3636 Республика КазахстанThe Republic of Kazakhstan Им.п. Ж.р. Мн.ч. Существительное Неодуш.Named after J.R. Mn. Noun Inanimate. Род.п. Ж.р. Ед.ч. Существительное Неодуш.Rod.p. J.R. Unit Noun Inanimate. Вин.п. Ж.р. Мн.ч. Существительное Неодуш.Win.p. J.R. Mn. Noun Inanimate. 3838 Киргизская РеспубликаKyrgyz Republic Род.п. Ж.р. Ед.ч. Существительное Неодуш.Rod.p. J.R. Unit Noun Inanimate. 4040 иand СоюзUnion 4141 Республика ТаджикистанThe Republic of Tajikistan Им.п. Ж.р. Мн.ч. Существительное Неодуш.Named after J.R. Mn. Noun Inanimate. Род.п. Ж.р. Ед.ч. Существительное Неодуш.Rod.p. J.R. Unit Noun Inanimate. Вин.п. Ж.р. Мн.ч. Существительное Неодуш.Win.p. J.R. Mn. Noun Inanimate. 4343 иметьhave Им.п. Мн.ч. Настоящее Активный Причастие НесовершенныйNamed after Mn. Real Active Communion Imperfect Вип.п. Мн.ч. Настоящее Активный Причастие Неодуш. НесовершенныйVip.p. Mn. Real Active Communion Inanimate. Imperfect 4444 документdocument Им.п. М.р. Ед.ч. Существительное Неодуш.Named after M.R. Unit Noun Inanimate. Вин.п. М.р. Ед.ч. Существительное Неодуш.Win.p. M.R. Unit Noun Inanimate. 4545 обabout ПредлогPretext 4646 образованиеeducation Предл.п. С.р. Ед.ч. Существительное Неодуш.Offers S.R. Unit Noun Inanimate. Род.п. М.р. Ед.ч. ПрилагательноеRod.p. M.R. Unit Adjective 4747 государственныйstate Вин.п. М.р. Ед.ч. Прилагательное Одушевл.Win.p. M.R. Unit Adjective Animation. Род.п. С.р. Ед.ч. ПрилагательноеRod.p. S.R. Unit Adjective 4848 образецsample Род.п. М.р. Ед.ч. Существительное Неодуш.Rod.p. M.R. Unit Noun Inanimate. 50fifty еслиif СоюзUnion 5151 образованиеeducation Им.п. С.р. Ед.ч. Существительное Неодуш.Named after S.R. Unit Noun Inanimate. Вин.п. С.р. Ед.ч. Существительное Неодуш.Win.p. S.R. Unit Noun Inanimate. 5252 данныеdata Род.п. С.р. Ед.ч. Существительное Неодуш.Rod.p. S.R. Unit Noun Inanimate. Род.п. М.р. Ед.ч. ПрилагательноеRod.p. M.R. Unit Adjective Род.п. С.р. Ед.ч. ПрилагательноеRod.p. S.R. Unit Adjective Вин.п. М.р. Ед.ч. Прилагательное Одушевл.Win.p. M.R. Unit Adjective Animation. данныйthe Вин.п. С.р. Ед.ч. Прилагательное Одушевл.Win.p. S.R. Unit Adjective Animation. Род.п. М.р. Ед.ч. Местоимение Местоим.-прилаг.Rod.p. M.R. Unit Pronoun Pronoun. Род.п. С.р. Ед.ч. Местоимение Местоим.-прилаг.Rod.p. S.R. Unit Pronoun Pronoun. Вин.п. М.р. Ед.ч. Местоимение Одушевл. Местоим.-прилаг.Win.p. M.R. Unit Pronoun Animated. Pronoun. Род.п. М.р. Ед.ч. Прош. Пассивный Причастие СовершенныйRod.p. M.R. Unit Past Passive Communion Perfect датьgive Вин.п. М.р. Ед.ч. Прош. Пассивный Причастие Одушевл. СовершенныйWin.p. M.R. Unit Past Passive Communion Animated. Perfect Род.п. С.р. Ед.ч. Прош. Пассивный Причастие СовершенныйRod.p. S.R. Unit Past Passive Communion Perfect Вин.п. С.р. Ед.ч. Прош. Пассивный Причастие Одушевл. СовершенныйWin.p. S.R. Unit Past Passive Communion Animated. Perfect 5353 уровеньlevel Род.п. М.р. Ед.ч. Существительное Неодуш.Rod.p. M.R. Unit Noun Inanimate. 5454 получатьсяget out Ед.ч. Настоящее 3-е лицо Глагол НесовершенныйUnit Real 3rd person Verb Imperfect 5555 впервыеfirst НаречиеAdverb

Таблица 3Table 3 Частоты встречаемости первых и последующих слов последовательности в тексте, а также разности частот встречаемости для разных слов в последовательностиFrequencies of occurrence of the first and subsequent words of the sequence in the text, as well as differences in the frequencies of occurrence for different words in the sequence ПовторениеReiteration СловаThe words ЧастотаFrequency РазницаDifference последовательности слов в текстеsequences of words in the text последовательностиsequences встречаемостиoccurrences частотfrequencies 1one 1one национальнаяnational 1one экономикаeconomy 1one 00 22 национальнаяnational 22 экономикаeconomy 22 00 33 национальнаяnational 33 экономикаeconomy 33 00 22 1one экономикаeconomy 4four письменнаяwritten 1one 33 22 экономикаeconomy 55 письменнаяwritten 22 33 33 экономикаeconomy 66 письменнаяwritten 33 33 ... ... ... ... ...

Таблица 4Table 4 Устойчивые словосочетания слов в текстеStable word combinations in the text СловосочетаниеCollocation национальная экономикаNational economy Экономика письменнаяWriting Economics ... ...

Таблица 5Table 5 Множество предложений текстаLots of text suggestions Предложения текстаText suggestions Единицы 1 уровняLevel 1 Units Единицы 2 уровняLevel 2 Units Единицы 3 уровняLevel 3 Units Правила приема в Нижегородский государственный университет им. Н.И. Лобачевского в годуAdmission rules to the Nizhny Novgorod State University. N.I. Lobachevsky in the year правила, приема, в, нижегородский, государственный, университет, им., н., и., лобачевского, в, годуrules, admission, in, Nizhny Novgorod, state, university, im., n., and., lobachevsky, in, year правила, приема, в, нижегородский, государственный, унивесрситет, лобачевский, в, годrules, admission, in, Nizhny Novgorod, state, university, lobachevsky, in, year Нижегородский государственный университет им. Н.И. ЛобачевскогоNizhny Novgorod State University N.I. Lobachevsky Утверждено и.о. ректора ННГУ, проф. Р.Г. Стронгиным май г.Approved by Acting Rector of UNN, prof. R.G. Strongin May утвержден, и.о., о., ректор, ННГУ, проф., р., г., стронгин, май, г.approved, acting, about, rector, UNN, prof., river, city, strongin, May, city утвержден, ректор, ННГУ, стронгин, майApproved, Rector, UNN, Strongin, May Ректор ННГУ проф. Р.Г. СтронгинRector of UNN prof. R.G. Strongin ...

Таблица 6Table 6 Тин фрагментаTin Fragment Глагол в личной формеPersonal verb Краткое причастиеBrief communion Краткое прилагательноеShort adjective Предикативное словоPredicative word ПричастиеParticiple ДеепричастиеCommunion ИнфинитивInfinitive Вводное словоIntroductory word ИноеOther 1one 22 33 4four 55 66 77 88 99

Таблица 7Table 7 Результаты начальной фрагментации предложенияInitial Fragmentation Results № фрагм.No. of fragments. Фрагменты предложенияOffer snippets Тип фрагментаFragment Type 1one В ННГУ на первый курс для обучения по основным образовательным программам высшего профессионального образования на местаAt the NNSU, the first year for training in the main educational programs of higher professional education in the field 99 22 финансируемые за счет средств федерального бюджетаfunded by the federal budget 55 33 принимаются на конкурсной основе граждане Российской Федерацииcitizens of the Russian Federation are accepted on a competitive basis 1one 4four Республики БеларусьThe Republic of Belarus 99 55 Республики КазахстанRepublic of Kazakhstan 99 66 Киргизской РеспубликиKyrgyz Republic 99 77 и Республики Таджикистанand the Republic of Tajikistan 99 88 имеющие документ об образовании государственного образцаhaving a state education certificate 55 99 если образование данного уровня получается впервыеif education of this level is obtained for the first time 1one

Таблица 8Table 8 Результаты фрагментации предложения после объединения однородных рядовFragmentation of a sentence after combining homogeneous series № фрагм.No. of fragments. Фрагменты предложенияOffer snippets Тип фрагментаFragment Type 1one В ННГУ на первый курс для обучения по основным образовательным программам высшего профессионального образования на местаAt the NNSU, the first year for training in the main educational programs of higher professional education in the field 99 22 финансируемые за счет средств федерального бюджетаfunded by the federal budget 55 33 принимаются на конкурсной основе граждане Российской Федерации, Республики Беларусь, Республики Казахстан, Киргизской Республики и Республики Таджикистанcitizens of the Russian Federation, the Republic of Belarus, the Republic of Kazakhstan, the Kyrgyz Republic and the Republic of Tajikistan are accepted on a competitive basis 1one 4four имеющие документ об образовании государственного образцаhaving a state education certificate 55 55 если образование данного уровня получается впервыеif education of this level is obtained for the first time 1one

Таблица 9Table 9 Элементы атрибутивного уровня описанияDescription attribute level elements Компоненты предложенияOffer Components Морфологические признакиMorphological features Объект/СубъектObject / Subject Существительное, местоимение-существительноеNoun pronoun ДействиеAct ГлаголVerb Признак объектаItem Feature Полное прилагательное, порядковое числительное, местоимение-прилагательное, согласованное с объектом/субъектом по роду, числу и падежуFull adjective, ordinal, pronoun-adjective, consistent with the object / subject by gender, number and case Признак действияSign of action НаречиеAdverb Мера признакаAttribute measure Наречие, наречное числительноеAdverb, adverbial numeral

Таблица 10Table 10 Синтаксические группы, соответствующие атрибутивному уровню описанияSyntactic groups corresponding to the attribute level of description Элементы синтаксической группыSyntax Group Elements Номера токеновToken Numbers Синтаксическая группаSyntax group признак объекта + объектfeature of the object + object 4+54 + 5 первый курсThe first course признак объекта + объектfeature of the object + object 9+10+119 + 10 + 11 основным образовательным программамmajor educational programs признак объекта + объектfeature of the object + object 12+13+1412 + 13 + 14 высшего профессионального образованияhigher vocational education признак объекта + объектfeature of the object + object 22+2322 + 23 федерального бюджетаfederal budget признак объекта + объектfeature of the object + object 27+2827 + 28 конкурсной основеcompetitive basis признак объекта + объектfeature of the object + object 47+4847 + 48 государственного образцаstate model признак объекта + объектfeature of the object + object 52+5352 + 53 данного уровняof this level действие + признак действияaction + sign of action 54+5554 + 55 получается впервыеit turns out for the first time

Таблица 11Table 11 Полученные простые предложения в результате укрупнения фрагментовReceived simple sentences as a result of enlargement of fragments № простого предл.No simple offer Укрупненные фрагментыEnlarged Fragments Составляющие простые предложенияSimple sentences 1one В ННГУ на первый курс для обучения по основным образовательным программам высшего профессионального образования на места, финансируемые за счет средств федерального бюджетаAt the NNSU, the first year for training in the main educational programs of higher professional education in places funded from the federal budget В ННГУ на первый курс для обучения по основным образовательным программам высшего профессионального образования на места, финансируемые за счет средств федерального бюджета, принимаются на конкурсной основе граждане Российской Федерации, Республики Беларусь, Республики Казахстан, Киргизской Республики и Республики Таджикистан, имеющие документ об образовании государственного образцаAt the NNSU, citizens of the Russian Federation, the Republic of Belarus, the Republic of Kazakhstan, the Kyrgyz Republic, and the Republic of Tajikistan who have a state-approved document принимаются на конкурсной основе граждане Российской Федерации, Республики Беларусь, Республики Казахстан, Киргизской Республики и Республики Таджикистан, имеющие документ об образовании государственного образцаcitizens of the Russian Federation, the Republic of Belarus, the Republic of Kazakhstan, the Kyrgyz Republic and the Republic of Tajikistan are accepted on a competitive basis, having a document on the formation of a state standard 22 если образование данного уровня получается впервыеif education of this level is obtained for the first time если образование данного уровня получается впервыеif education of this level is obtained for the first time

Таблица 12Table 12 Минимальные структурные схемы предложений (фрагмент)Minimum block diagrams of sentences (fragment) МССMCC Примеры предложенийExamples of offers N1 V(f)N1 V (f) Грачи прилетели. Дела делаются людьми.The Rooks Have Arrived. Things are done by people. N1 Cop(f) Adj1N1 Cop (f) Adj1 Ночь была тихая (тихой, тиха).The night was quiet (quiet, quiet). N1 Cop(f) Adj5N1 Cop (f) Adj5 Ночь тихая (тиха).The night is quiet (quiet). N1 Cop(f) Adj(f)N1 Cop (f) Adj (f) Ночь была тише дня.The night was quieter than the day. N1 Cop(f) N1N1 Cop (f) N1 Он (был) студент.He (was) a student. N1 Cop(f) N5N1 Cop (f) N5 Он был студентом.He was a student. Cop(f) N1Cop (f) N1 Будет дождь. Была зима. Шепот. Робкое дыхание. Тишина.It will be raining. It was winter. Whisper. Timid breathing. Silence. ... ... Пояснение к таблице 12:Explanation of table 12: V(f) - спрягаемые формы глагола (не инфинитив);V (f) - conjugated forms of the verb (not infinitive); Cop(f) - спрягаемые формы связки служебных слов быть, стать, являться;Cop (f) - conjugated forms of a bunch of official words to be, become, appear; Inf - инфинитив глагола или связки;Inf - infinitive of a verb or connective; N1, N5 - именительный, творительный падеж субстантива;N1, N5 - nominative, instrumental case of the substantive; Adj1, Adj5 - именительный, творительный падеж прилагательных и страдательных причастий;Adj1, Adj5 - nominative, instrumental case of adjectives and passive participles; Adj(f) - краткие формы и компоративы прилагательных и страдательных причастий.Adj (f) - short forms and corporate bodies of adjectives and passive participles.

Предложения с шаблоном Cop(f) N1 могут быть назывными, т.е. глагол-связка там не присутствует в явном виде. В этом случае полагаем предикат - нулевой, обозначаемый как NULL.Sentences with the pattern Cop (f) N1 can be called, i.e. the link verb is not present there explicitly. In this case, we assume that the predicate is zero, denoted as NULL.

Таблица 13Table 13 Предикативный минимум простых предложений, входящих в состав сложноподчиненного предложения исходного текстаThe predictive minimum of simple sentences that make up the complex sentence of the source text № простого предл.No simple offer Составляющие простые предложенияSimple sentences Шаблон МССMCC Template Предикативный минимум (Субъект-Предикат)Predictive minimum (Subject-Predicate) 1one В ННГУ на первый курс для обучения по основным образовательным программам высшего профессионального образования на места, финансируемые за счет средств федерального бюджета, принимаются на конкурсной основе граждане Российской Федерации, Республики Беларусь, Республики Казахстан, Киргизской Республики и Республики Таджикистан, имеющие документ об образовании государственного образцаAt the NNSU, citizens of the Russian Federation, the Republic of Belarus, the Republic of Kazakhstan, the Kyrgyz Republic, and the Republic of Tajikistan who have a state-approved document N1 V(f) - Существительное в именительном падеже + Спрягаемая форма глаголаN1 V (f) - Noun in the nominative case + Conjugate form of the verb граждане принимаютсяcitizens are accepted 22 если образование данного уровня получается впервые.if education of this level is obtained for the first time. N1 V(f) - Существительное в именительном падеже + Спрягаемая форма глаголаN1 V (f) - Noun in the nominative case + Conjugate form of the verb образование получаетсяeducation is obtained

Таблица 14Table 14 Заполнение валентных гнезд для предикатов текста примераFill valencies for example text predicates № простого предл.No simple offer ПредикатPredicate 1. Субъект1. Subject 2. Объект2. Object 3. Адресат3. Addressee 4. Инструмент4. Tool 5-7. Локативы5-7. Locatives 1one приниматьсяbe accepted гражданеcitizens -- -- -- в ННГУ, на курс, на места -in UNN, for the course, for places - 22 получатьсяget out образованиеeducation -- -- -- -- Примечание к таблице: 5 - начальный локатив, 6 - конечный локатив, 7 - средний локатив.Note to the table: 5 - the initial locative, 6 - the final locative, 7 - the middle locative.

Таблица 15Table 15 Синтаксические группы, полученные из исходного текста с помощью синтаксических правилSyntactic groups derived from source text using syntax rules № простого предл.No simple offer Фрагменты предложенияOffer snippets Синтаксические группы, где актанты и предикат-главные словаSyntactic groups where actants and predicate are the main words Название групп и правилName of groups and rules 1one В ННГУ на первый курс для обучения по основным образовательным программам высшего профессионального образования на места, финансируемые за счет средств федерального бюджетаAt the NNSU, the first year for training in the main educational programs of higher professional education in places funded from the federal budget на первый курсon the first course Объект + Признак объектаObject + Object Tag на места, финансируемые за счет средств федерального бюджетаto places funded by the federal budget Объект + Признак объектаObject + Object Tag принимаются на конкурсной основе граждане Российской Федерации, Республики Беларусь, Республики Казахстан, Киргизской Республики и Республики Таджикистан, имеющие документ об образовании государственного образцаcitizens of the Russian Federation, the Republic of Belarus, the Republic of Kazakhstan, the Kyrgyz Republic and the Republic of Tajikistan are accepted on a competitive basis, having a document on the formation of a state standard граждане Российской Федерацииcitizens of the Russian Federation Генитивное определение в постпозицииGenitive determination in postposition 1one граждане Республики Беларусьcitizens of the Republic of Belarus Генитивное определение в постпозицииGenitive determination in postposition граждане Республики Казахстанcitizens of the Republic of Kazakhstan Генитивное определение в постпозицииGenitive determination in postposition граждане Киргизской Республикиcitizens of the Kyrgyz Republic Генитивное определение в постпозицииGenitive determination in postposition граждане Республики Таджикистанcitizens of the Republic of Tajikistan Генитивное определение в постпозицииGenitive determination in postposition граждане, имеющие документ об образовании государственного образцаcitizens with a document on education of the state sample Объект + Признак объектаObject + Object Tag 22 если образование данного уровня получается впервыеif education of this level is obtained for the first time образование уровняlevel education Объект + Признак объектаObject + Object Tag Генитивное определение в постпозицииGenitive determination in postposition данного уровняof this level Объект + Признак объектаObject + Object Tag получается впервыеit turns out for the first time Действие + признак действияAction + sign of action

Таблица 16Table 16 Множество семантически значимых объектов и атрибутов (фрагмент)Many semantically significant objects and attributes (fragment) Простое предложениеSimple sentence Семантически значимые объектыSemantically significant objects АтрибутыAttributes В ННГУ на первый курс для обучения по основным образовательным программам высшего профессионального образования на места, финансируемые за счет средств федерального бюджета, принимаются на конкурсной основе граждане Российской Федерации, Республики Беларусь, Республики Казахстан, Киргизской Республики и Республики Таджикистан, имеющие документ об образовании государственного образцаAt the NNSU, citizens of the Russian Federation, the Republic of Belarus, the Republic of Kazakhstan, the Kyrgyz Republic, and the Republic of Tajikistan who have a state-approved document ННГУNNSU -- курсcourse первыйthe first местаplaces финансируемые за счет средств федерального бюджетаfunded by the federal budget граждане Российской Федерации, граждане Республики Беларусь, граждане Республики Казахстан, граждане Киргизской Республики, граждане Республики Таджикистанcitizens of the Russian Federation, citizens of the Republic of Belarus, citizens of the Republic of Kazakhstan, citizens of the Kyrgyz Republic, citizens of the Republic of Tajikistan имеющие документ об образовании государственного образцаhaving a state education certificate если образование данного уровня получается впервыеif education of this level is obtained for the first time образование уровняlevel education --

Таблица 17Table 17 Отношения между семантически значимыми объектами, и между семантически значимыми объектами и атрибутамиRelations between semantically significant objects, and between semantically significant objects and attributes Семантически значимый объект 1Semantically significant object 1 Семантически значимый объект 2Semantically significant object 2 Семантически значимое отношениеSemantically significant relationship Тип семантически значимого отношенияType of semantically significant relationship 1one гражданеcitizens ННГУNNSU приниматьсяbe accepted включатьinclude 22 гражданеcitizens курсcourse приниматьсяbe accepted включатьinclude 33 гражданеcitizens местоa place приниматьсяbe accepted включатьinclude ...

Таблица 18Table 18 Частота встречаемости семантически значимых объектов и атрибутов.The frequency of occurrence of semantically significant objects and attributes. Семантически значимый объект или атрибутSemantically significant object or attribute Частота встречаемостиFrequency of occurrence 1one гражданеcitizens 77 22 ННГУNNSU 3838 33 курсcourse 77 4four местоa place 4141 ...

Таблица 19Table 19 Частота встречаемости семантически значимых отношений между семантически значимыми объектами, и между семантически значимыми объектами и атрибутамиThe frequency of occurrence of semantically significant relationships between semantically significant objects, and between semantically significant objects and attributes Семантически значимый объект 1 - семантически значимый объект 2Semantically significant object 1 - semantically significant object 2 Семантически значимое отношениеSemantically significant relationship Частота встречаемости семантически значимого отношенияThe frequency of the semantically significant relationship 1one граждане - ННГУcitizens - UNN приниматьсяbe accepted 5656 22 граждане - курсcitizens - course приниматьсяbe accepted 50fifty 33 граждане - местоcitizens - place приниматьсяbe accepted 5353 ...

Таблица 20Table 20 Множество триад (фрагмент).Many triads (fragment). ТриадыTriads 1one граждане - НГГУcitizens - NGSU 22 граждане - курсcitizens - course 33 граждане - местоcitizens - place 4four НГГУ - местоNSU - place 55 НГГУ - гражданеNGSU - citizens 66 НГГУ - курсNSU - course 77 место - абитуриентplace - applicant ...

Таблица 21Table 21 Семантическая сеть из триад (фрагмент).Semantic network of triads (fragment). Главное словоMain word ОтношениеAttitude Подчиненное словоSubordinate Word 1one гражданеcitizens включатьinclude НГГУNGSU 22 гражданеcitizens включатьinclude курсcourse 33 гражданеcitizens включатьinclude местоa place 4four НГГУNGSU часть-целоеwhole part местоa place 55 НГГУNGSU включатьinclude гражданеcitizens 66 НГГУNGSU часть-целоеwhole part курсcourse 77 местоa place претендоватьclaim абитуриентenrollee ...

Таблица 22Table 22 Смысловой вес семантически значимых слов и атрибутовThe semantic weight of semantically significant words and attributes Семантически значимый объект или атрибутSemantically significant object or attribute Семантический весSemantic weight 1one гражданеcitizens 9898 22 ННГУNNSU 9898 33 курсcourse 9595 4four местоa place 9999 ...

Таблица 23Table 23 Степени пересечений семантических сетей исходного текста с сетями двух других текстовThe degrees of intersection of semantic networks of the source text with the networks of two other texts Текст 1Text 1 Текст 2Text 2 Текст 3Text 3 Текст 1Text 1 100,00100.00 8,358.35 2,912.91 Текст 2Text 2 8,358.35 100,00100.00 1,151.15 Текст 3Text 3 2,912.91 1,151.15 100,00100.00

Таблица 24Table 24 Степень пересечения двух фрагментов двух семантических сетейThe degree of intersection of two fragments of two semantic networks фрагмент первой сетиfragment of the first network фрагмент второй сетиfragment of the second network степень пересечения вторых объектов или атрибутовdegree of intersection of second objects or attributes вершинаvertex вершина, связанная с первойvertex associated with the first семантический вес, вес отношенияsemantic weight, relationship weight вершина, связанная с первойvertex associated with the first семантический вес, вес отношенияsemantic weight, relationship weight обучениеtraining 122,45/10=12,24122.45 / 10 = 12.24 1one университетuniversity 100,98100.98 00 22 студентstudent 99,9199.91 00 33 преподавательteacher 99,9599.95 00 4four бюджетbudget 99,5399.53 00 55 ректорrector 99,5599.55 00 66 сотрудникemployee 99,4299.42 00 77 уставcharter 99,3099.30 00 88 факультетfaculty 99,7599.75 факультетfaculty 99,8099.80 90,5490.54 99 кафедраthe department 78,6578.65 00 1010 юридическийlegal 71,3071.30 юридическийlegal 72,4072.40 31,9131.91 абитуриентenrollee 99,7599.75 00 зачислениеenrollment 99,3299.32 00 курсcourse 98,4198.41 00 степень пересечения вершин «обучение»degree of intersection of peaks “training” 122,45122.45 курсcourse факультетfaculty 9999 00 ...

Таблица 25Table 25 Степень пересечения семантических сетей двух текстовThe degree of intersection of semantic networks of two texts первая сетьfirst network вторая сетьsecond network вершинаvertex вершина, связанная с первойvertex associated with the first вершинаvertex вершина, связанная с первойvertex associated with the first суммарный весtotal weight 1one государственныйstate 1one государственныйstate 14,2514.25 22 бюджетbudget 22 гражданинcitizen 00 33 преподавательteacher 33 комиссияcommission 00 4four обучениеtraining 4four информатикаInformatics 00 55 ректорrector 55 ректорrector 19,4219.42 66 сотрудникemployee 66 письменнаяwritten 00 77 студентstudent 77 студентstudent 18,3118.31 88 факультетfaculty 88 факультетfaculty 15,2015,20 99 кафедраthe department 99 00 ... ... 6060 юридическийlegal 7979 юридическийlegal 13,1813.18 СуммаAmount 659,91659.91 Нормированная суммаNormalized amount 660/79=8,35660/79 = 8.35

Таблица 26Table 26 Степень пересечения вершины «обучение» двух семантических сетейThe degree of intersection of the top "learning" of two semantic networks первая сетьfirst network вторая сетьsecond network первая вершинаfirst peak вторая вершинаsecond peak весthe weight вес отношенияrelationship weight скалярное произведениеscalar product первая вершинаfirst peak вторая вершинаsecond peak весthe weight вес отношенияrelationship weight скалярное произведениеscalar product обучениеtraining 9999 обучениеtraining 9999 факультетfaculty 9999 7575 90,5490.54 факультетfaculty 9999 8080 93,2193.21 юридическийlegal 7171 30thirty 31,9131.91 юридическийlegal 7272 4040 41,8941.89 степень пересечение «факультет»degree intersection "faculty" 90,5490.54 степень пересечение «юридический»degree of intersection "legal" 31,9131.91 степень пересечениеdegree of intersection 122,45/10=12,24122.45 / 10 = 12.24

Claims (4)

1. Способ автоматизированного семантического сравнения текстов на естественном языке, заключающийся в том, что:
- представляют два сравниваемых текста в цифровой форме для последующей автоматической и(или) автоматизированной обработки;
- осуществляют индексацию этих текстов в цифровой форме, получая:
- элементарные единицы первого уровня, включающие в себя, по меньшей мере, слова,
- элементарные единицы второго уровня, каждая из которых представляет собой нормализованную словоформу,
- элементарные единицы третьего уровня, каждая из которых представляет собой устойчивое словосочетание в упомянутом тексте,
- элементарные единицы четвертого уровня, каждая из которых является семантически значимым объектом и атрибутом, и
- элементарные единицы пятого уровня, каждая из которых представляет собой триаду либо из двух семантически значимых объектов и семантически значимого отношения между ними, либо из семантически значимого объекта и атрибута и связывающего их семантически значимого отношения;
- выявляют частоты встречаемости элементарных единиц четвертого уровня и частоты встречаемости упомянутых семантически значимых отношений;
- сохраняют в базе данных сформированные элементарные единицы второго, третьего, четвертого и пятого уровней с выявленными частотами встречаемости элементарных единиц четвертого уровня и семантически значимых отношений, а также полученные индексы вместе со ссылками на конкретные предложения данного текста;
- формируют из упомянутых триад семантическую сеть таким образом, что первая элементарная единица четвертого уровня последующей триады связывается с такой же второй элементарной единицей четвертого уровня предыдущей триады;
- осуществляют в процессе итеративной процедуры перенормировку упомянутых частот встречаемости в смысловой вес элементарных единиц четвертого уровня, являющихся вершинами семантической сети, таким образом, что элементарные единицы четвертого уровня, связанные в сети с большим числом других элементарных единиц четвертого уровня с большой частотой встречаемости, увеличивают свой смысловой вес, а прочие элементарные единицы четвертого уровня его равномерно теряют;
- ранжируют элементарные единицы четвертого уровня по смысловому весу путем сравнения смыслового веса каждой из них с заранее заданным пороговым значением и удаляют элементарные единицы четвертого уровня, имеющие смысловой вес ниже порогового значения;
- сохраняют в памяти оставшиеся элементарные единицы четвертого уровня со смысловым весом выше порогового, а также семантически значимые отношения между оставшимися элементарными единицами четвертого уровня;
- выявляют для двух сравниваемых текстов степень пересечения их семантических сетей как по вершинам, так и по связям между этими вершинами с учетом смысловых весов вершин семантических сетей и весовых характеристик их связей, причем степень пересечения семантических сетей двух сравниваемых текстов является величиной, характеризующей семантическое подобие этих текстов.
1. The method of automated semantic comparison of texts in natural language, which consists in the fact that:
- represent two compared texts in digital form for subsequent automatic and (or) automated processing;
- carry out the indexing of these texts in digital form, receiving:
- elementary units of the first level, including at least words,
- elementary units of the second level, each of which is a normalized word form,
- elementary units of the third level, each of which is a stable phrase in the said text,
- elementary units of the fourth level, each of which is a semantically significant object and attribute, and
- elementary units of the fifth level, each of which is a triad of either two semantically significant objects and a semantically significant relationship between them, or from a semantically significant object and attribute and a semantically meaningful relation connecting them;
- identify the frequency of occurrence of elementary units of the fourth level and the frequency of occurrence of the mentioned semantically significant relationships;
- store in the database the formed elementary units of the second, third, fourth and fifth levels with the identified frequencies of occurrence of elementary units of the fourth level and semantically significant relationships, as well as the resulting indices, together with links to specific sentences of this text;
- form a semantic network from said triads in such a way that the first elementary unit of the fourth level of the subsequent triad is associated with the same second elementary unit of the fourth level of the previous triad;
- during the iterative procedure, the mentioned frequencies of occurrence are renormalized into the semantic weight of elementary units of the fourth level, which are the vertices of the semantic network, so that elementary units of the fourth level, connected in a network with a large number of other elementary units of the fourth level with a high frequency of occurrence, increase their semantic weight, and other elementary units of the fourth level evenly lose it;
- rank elementary units of the fourth level by semantic weight by comparing the semantic weight of each of them with a predetermined threshold value and delete elementary units of the fourth level having semantic weight below the threshold value;
- retain in memory the remaining elementary units of the fourth level with a semantic weight above the threshold, as well as semantically significant relations between the remaining elementary units of the fourth level;
- reveal the degree of intersection of their semantic networks for the two texts being compared both by vertices and the relationships between these vertices, taking into account the semantic weights of the vertices of the semantic networks and the weight characteristics of their connections, the degree of intersection of the semantic networks of the two texts being compared is a value characterizing the semantic similarity of these texts.
2. Способ по п.1, в котором упомянутую индексацию осуществляют в процессе выполнения следующих этапов:
- сегментируют текст в цифровой форме на элементарные единицы первого уровня, включающие в себя, по меньшей мере, слова;
- сегментируют по графематическим правилам текст в цифровой форме на предложения;
- формируют для каждой элементарной единицы первого уровня, представляющей собой слово, на основе морфологического анализа элементарные единицы второго уровня, включающие в себя нормализованную словоформу;
- подсчитывают частоту встречаемости каждой элементарной единицы первого уровня для двух и более соседних единиц первого уровня в данном тексте и объединяют среди упомянутых элементарных единиц первого уровня последовательности слов, следующих друг за другом в данном тексте, в элементарные единицы третьего уровня, представляющие собой устойчивые сочетания слов, в случае если для каждых двух и более следующих друг за другом слов в данном тексте разности подсчитанных частот встречаемости этих слов для первого появления данной последовательности слов и для нескольких последующих их появлений для каждой пары слов последовательности остаются неизменными;
- выявляют в процессе многоступенчатого семантико-синтаксического анализа путем обращения к заранее сформированным в базе данных лингвистическим и эвристическим правилам в заранее заданной лингвистической среде в каждом из сформированных предложений семантически значимый объекты и атрибуты - единицы четвертого уровня;
- для каждой элементарной единицы четвертого уровня фиксируют тождество по референции между соответствующим семантически значимым объектом, а также атрибутом и соответствующей анафорической ссылкой при ее наличии в индексируемом тексте, заменяя каждую анафорическую ссылку на соответствующий ей антецедент;
- сохраняют в памяти каждый семантически значимый объект и атрибут;
- выявляют в процессе многоступенчатого семантико-синтаксического анализа путем обращения к заранее сформированным в базе данных лингвистическим и эвристическим правилам в заранее заданной лингвистической среде в каждом из сформированных предложений семантически значимые отношения между выявленными единицами четвертого уровня - семантически значимыми объектами, а также между семантически значимыми объектами и их атрибутами;
- присваивают каждому семантически значимому отношению соответствующий тип из хранящейся в базе данных предметной онтологии по тематике той предметной области, к которой относится индексируемый текст;
- выявляют на всем тексте частоты встречаемости элементарных единиц четвертого уровня и частоты встречаемости упомянутых семантически значимых отношений;
- сохраняют в памяти каждое выявленное семантически значимое отношение вместе с присвоенным ему типом;
- формируют в пределах данного текста для каждого из выявленных семантически значимых отношений, связывающих как соответствующие семантически значимые объекты, так и семантически значимый объект и его атрибут, множество триад, которые являются элементарными единицами пятого уровня;
- индексируют на множестве сформированных триад по отдельности все связанные семантически значимыми отношениями семантически значимые объекты с их частотами встречаемости, все атрибуты с их частотами встречаемости и все сформированные триады.
2. The method according to claim 1, wherein said indexing is carried out in the process of performing the following steps:
- segment the text in digital form into elementary units of the first level, including at least words;
- segment text in digital form into sentences according to graphematical rules;
- form for each elementary unit of the first level, which is a word, on the basis of morphological analysis, elementary units of the second level, including a normalized word form;
- calculate the frequency of occurrence of each elementary unit of the first level for two or more adjacent units of the first level in this text and combine among the mentioned elementary units of the first level sequences of words following one after another in this text into elementary units of the third level, which are stable combinations of words , if for every two or more consecutive words in a given text the difference is in the calculated frequencies of occurrence of these words for the first occurrence of a given sequence word integrity and for several subsequent occurrences for each pair of words, the sequences remain unchanged;
- identify in the process of multi-stage semantic-syntactic analysis by referring to linguistic and heuristic rules pre-generated in the database in a predefined linguistic environment in each of the generated sentences, semantically significant objects and attributes - units of the fourth level;
- for each elementary unit of the fourth level, the identity is fixed by reference between the corresponding semantically significant object, as well as the attribute and the corresponding anaphoric link, if any, in the indexed text, replacing each anaphoric link with the corresponding antecedent;
- store in memory each semantically significant object and attribute;
- identify in the process of multi-stage semantic-syntactic analysis by referring to linguistic and heuristic rules pre-generated in the database in a predefined linguistic environment in each of the generated sentences, semantically significant relationships between the identified units of the fourth level - semantically significant objects, as well as between semantically significant objects and their attributes;
- assign to each semantically significant relation the corresponding type from the subject ontology stored in the database on the subject of the subject area to which the indexed text belongs;
- identify throughout the text the frequency of occurrence of elementary units of the fourth level and the frequency of occurrence of the mentioned semantically significant relationships;
- store in memory each identified semantically significant relation together with the type assigned to it;
- form within the given text for each of the identified semantically significant relations that connect both the corresponding semantically significant objects and the semantically significant object and its attribute, a multitude of triads, which are elementary units of the fifth level;
- index on the set of formed triads individually all related semantically meaningful relationships semantically significant objects with their frequencies of occurrence, all attributes with their frequencies of occurrence and all formed triads.
3. Способ по п.1, в котором упомянутая степень пересечения двух семантических сетей, принадлежащих упомянутым двум сравниваемым текстам, вычисляется как сумма совпадений элементарных единиц пятого уровня этих двух семантических сетей.3. The method according to claim 1, wherein said degree of intersection of two semantic networks belonging to the two compared texts is calculated as the sum of the coincidences of the elementary units of the fifth level of these two semantic networks. 4. Способ по п.3, в котором:
- выбирают в качестве базовой сети ту из упомянутых двух семантических сетей, в которой после ранжирования и удаления вершин со смысловыми весами ниже упомянутого порогового значения осталось больше вершин, чем в другой, выбираемой в качестве сравниваемой;
- находят для каждой вершины упомянутой базовой сети в упомянутой сравниваемой сети вершину, являющуюся той же самой элементарной единицей четвертого уровня, т.е. тем же самым семантически значимым объектом или тем же самым атрибутом;
- вычисляют для каждой найденной вершины в каждой из упомянутых базовой и сравниваемой сетей величины всех связанных с данной вершиной упомянутых триад как площади треугольников, стороны которых соответствуют компонентам каждой из этих триад, а угол между сторонами пропорционален весу семантически значимого отношения этой триады;
- выбирают для каждой пары упомянутых триад, связанных с парой конкретных вершин в упомянутых базовой и сравниваемой сетях, меньшую из упомянутых вычисленных величин в качестве степени пересечения упомянутых триад в упомянутых базовой и сравниваемой сетях;
- суммируют для каждой из вершин, связанных с данной вершиной, все выбранные вычисленные величины, получая степень пересечения для данной пары вершин упомянутых базовой и сравниваемой сетей;
- нормируют найденную сумму на число упомянутых семантически значимых объектов и атрибутов, связанных с данной вершиной в той из упомянутых базовой и сравниваемой сетей, которая содержит больше вершин, связанных с данной вершиной;
- суммируют нормированные суммы по всем вершинам той из упомянутых базовой и сравниваемой сетей, которая содержит больше вершин;
- нормируют полученную сумму на число оставшихся в этой сети элементарных единиц четвертого уровня, получая упомянутую степень пересечения семантических сетей упомянутых сравниваемых текстов.
4. The method according to claim 3, in which:
- choose one of the two semantic networks as the basic network, in which, after ranking and removing vertices with semantic weights, more vertices remain below the threshold value than the other, which is chosen as the comparison;
- find for each vertex of said core network in said comparative network a vertex that is the same elementary unit of the fourth level, i.e. the same semantically significant object or the same attribute;
- calculate for each vertex found in each of the aforementioned base and compared networks the values of all the mentioned triads associated with a given vertex as the area of triangles whose sides correspond to the components of each of these triads, and the angle between the sides is proportional to the weight of the semantically significant relationship of this triad;
- choose for each pair of said triads associated with a pair of specific vertices in said basic and compared networks, the smaller of said calculated values as the degree of intersection of said triads in said basic and compared networks;
- summarize for each of the vertices associated with a given vertex, all selected calculated values, obtaining the degree of intersection for a given pair of vertices of the mentioned base and compared networks;
- normalize the found amount to the number of the mentioned semantically significant objects and attributes associated with a given vertex in that of the mentioned base and compared networks, which contains more vertices associated with this vertex;
- summarize the normalized sums for all the vertices of that of the mentioned base and compared networks, which contains more vertices;
- normalize the received amount to the number of elementary units of the fourth level remaining in this network, obtaining the mentioned degree of intersection of the semantic networks of the mentioned compared texts.
RU2013136905/08A 2013-08-07 2013-08-07 Method for automatic semantic comparison of natural language texts RU2538303C1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2013136905/08A RU2538303C1 (en) 2013-08-07 2013-08-07 Method for automatic semantic comparison of natural language texts

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2013136905/08A RU2538303C1 (en) 2013-08-07 2013-08-07 Method for automatic semantic comparison of natural language texts

Publications (2)

Publication Number Publication Date
RU2538303C1 true RU2538303C1 (en) 2015-01-10
RU2013136905A RU2013136905A (en) 2015-02-20

Family

ID=53281857

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2013136905/08A RU2538303C1 (en) 2013-08-07 2013-08-07 Method for automatic semantic comparison of natural language texts

Country Status (1)

Country Link
RU (1) RU2538303C1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023204724A1 (en) * 2022-04-20 2023-10-26 Общество С Ограниченной Ответственностью "Дентонс Юроп" (Ооо "Дентонс Юроп") Method for analyzing a legal document
RU2852967C2 (en) * 2022-04-20 2025-12-16 ОБЩЕСТВО С ОГРАНИЧЕННОЙ ОТВЕТСТВЕННОСТЬЮ "НЕКСТОНС Северо-Запад" Method for analysing legal document to verify its compliance with requirements of applicable law

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2242048C2 (en) * 2003-02-18 2004-12-10 Онтос Аг Method for automated processing of text information materials
RU2399959C2 (en) * 2008-10-29 2010-09-20 Закрытое акционерное общество "Авикомп Сервисез" Method for automatic text processing in natural language through semantic indexation, method for automatic processing collection of texts in natural language through semantic indexation and computer readable media

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2242048C2 (en) * 2003-02-18 2004-12-10 Онтос Аг Method for automated processing of text information materials
RU2399959C2 (en) * 2008-10-29 2010-09-20 Закрытое акционерное общество "Авикомп Сервисез" Method for automatic text processing in natural language through semantic indexation, method for automatic processing collection of texts in natural language through semantic indexation and computer readable media

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023204724A1 (en) * 2022-04-20 2023-10-26 Общество С Ограниченной Ответственностью "Дентонс Юроп" (Ооо "Дентонс Юроп") Method for analyzing a legal document
RU2852967C2 (en) * 2022-04-20 2025-12-16 ОБЩЕСТВО С ОГРАНИЧЕННОЙ ОТВЕТСТВЕННОСТЬЮ "НЕКСТОНС Северо-Запад" Method for analysing legal document to verify its compliance with requirements of applicable law

Also Published As

Publication number Publication date
RU2013136905A (en) 2015-02-20

Similar Documents

Publication Publication Date Title
Chai Comparison of text preprocessing methods
Zong et al. Text data mining
RU2518946C1 (en) Method for automatic semantic indexing of natural language text
US10095692B2 (en) Template bootstrapping for domain-adaptable natural language generation
RU2399959C2 (en) Method for automatic text processing in natural language through semantic indexation, method for automatic processing collection of texts in natural language through semantic indexation and computer readable media
Al-Saleh et al. Automatic Arabic text summarization: a survey
EP3203383A1 (en) Text generation system
CN109783806B (en) Text matching method utilizing semantic parsing structure
Salaev et al. Simreluz: Similarity and relatedness scores as a semantic evaluation dataset for uzbek language
CN108108468A (en) A kind of short text sentiment analysis method and apparatus based on concept and text emotion
KR100481580B1 (en) Apparatus for extracting event sentences in documents and method thereof
Alshammari et al. TAQS: an Arabic question similarity system using transfer learning of BERT with BiLSTM
RU2538304C1 (en) Method for automatic semantic classification of natural language texts
Sen et al. Bangla natural language processing: A comprehensive review of classical machine learning and deep learning based methods
Agrawal et al. Revolutionizing subjective assessments: A three-pronged comprehensive approach with NLP and deep learning
Lee N-Gram Language Model
Islam et al. Applications of corpus-based semantic similarity and word segmentation to database schema matching
Joshi et al. Word embeddings in low resource Gujarati language
Eggi Afaan oromo text retrieval system
RU2538303C1 (en) Method for automatic semantic comparison of natural language texts
Mara English-Wolaytta Machine Translation using Statistical Approach
Mihi et al. Automatic sarcasm detection in Arabic tweets: resources and approaches
Modrzejewski Improvement of the translation of named entities in neural machine translation
Barkovska et al. AUTOMATIC TEXT TRANSLATION SYSTEM FOR ARTIFICIAL LLANGUAGES
DeVille et al. Text as Data: Computational Methods of Understanding Written Expression Using SAS

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20160808