[go: up one dir, main page]

KR20160062254A - Method for reasoning of semantic robust on speech recognition error - Google Patents

Method for reasoning of semantic robust on speech recognition error Download PDF

Info

Publication number
KR20160062254A
KR20160062254A KR1020140164204A KR20140164204A KR20160062254A KR 20160062254 A KR20160062254 A KR 20160062254A KR 1020140164204 A KR1020140164204 A KR 1020140164204A KR 20140164204 A KR20140164204 A KR 20140164204A KR 20160062254 A KR20160062254 A KR 20160062254A
Authority
KR
South Korea
Prior art keywords
semantic
speech recognition
syllables
extracted
extracting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
KR1020140164204A
Other languages
Korean (ko)
Other versions
KR102199444B1 (en
Inventor
이청재
Original Assignee
에스케이텔레콤 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이텔레콤 주식회사 filed Critical 에스케이텔레콤 주식회사
Priority to KR1020140164204A priority Critical patent/KR102199444B1/en
Publication of KR20160062254A publication Critical patent/KR20160062254A/en
Application granted granted Critical
Publication of KR102199444B1 publication Critical patent/KR102199444B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

The present invention relates to a meaning inference method and, more specifically, to a meaning inference method robust to a speech recognition error and to a device therefor, wherein meaning can be inferred robustly to a speech recognition error by extracting the result text of speech recognition into multiple separate syllables, comparing the result text with a pre-constructed language dictionary database to extract semantic features and inferring meaning using the same. The meaning inference method comprises the steps of: allowing the meaning inference device for the purpose according to an embodiment of the present invention to receive the result text of speech recognition; allowing the meaning inference device to extract multiple syllables from the received result text of speech recognition; and allowing the meaning inference device to extract one or more semantic features from the extracted multiple syllables using a pre-constructed language dictionary database.

Description

음성 인식 오류에 강인한 의미 추론 방법 및 이를 위한 장치{METHOD FOR REASONING OF SEMANTIC ROBUST ON SPEECH RECOGNITION ERROR}BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech recognition method,

본 발명은 의미 추론 방법에 관한 것으로, 더욱 상세하게는 음성 인식 결과 텍스트를 복수의 음절로 분리하여 추출하고, 이를 기 구축된 언어 사전 데이터베이스와 비교하여 의미 자질을 추출한 후 이를 이용하여 의미를 추론함으로써, 음성 인식 오류에 강인하게 의미 추론이 가능한 음성 인식 오류에 강인한 의미 추론 방법 및 이를 위한 장치에 관한 것이다. The present invention relates to a semantic reasoning method, more specifically, extracting a speech recognition result text into a plurality of syllables, extracting semantic qualities by comparing them with a previously prepared language dictionary database, To a method of semantic reasoning robust to speech recognition errors capable of semantically inferring robust to speech recognition errors, and to an apparatus therefor.

이 부분에 기술된 내용은 단순히 본 실시 예에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.The contents described in this section merely provide background information on the present embodiment and do not constitute the prior art.

기술의 발달에 따라 최근 많은 분야에서 음성 인식 기술이 적용되고 있다. 음성 인식 기술은 사람이 발성하는 음성을 이해하여 컴퓨터가 다룰 수 있는 문자 정보로 변환하는 일련의 과정이라 할 수 있다. 일반적으로 음성 인식 결과는 텍스트 형태로 사용자에게 제공될 수 있는데, 텍스트 형태로 사용자에게 제공할 경우, 음성 인식기의 성능에 따라 어절과 형태소가 불균일하게 인식되어 화자의 발성 의도와는 전혀 다른 결과를 제공할 수 있다는 문제점이 있다. In recent years, speech recognition technology has been applied in many fields. Speech recognition technology is a series of processes for understanding human speech and converting it into character information that can be handled by a computer. In general, speech recognition results can be provided to a user in the form of a text. In case of providing the text to a user, the words and morphemes are recognized unevenly according to the performance of the speech recognizer, There is a problem that it can be done.

이러한 문제점을 해결하기 위해, 띄어쓰기 규칙 및 형태소 분석을 음성 인식 결과에 적용하여 정규화를 수행함으로써, 상술한 문제점을 해결할 수 있으나, 띄어쓰기 규칙과 형태소 분석기 자체에 오류가 있을 경우 이를 보정하기가 어렵다는 문제점이 있다.In order to solve such a problem, the above problem can be solved by applying the spacing rule and the morphological analysis to the speech recognition result to perform normalization, but it is difficult to correct the spacing rule and the morpheme analyzer itself if there is an error have.

이에 띄어쓰기 규칙과 형태소 분석을 이용하지 않고 음절 기반으로 음성 인식 결과에 대한 의미를 추론할 수 있는 기술 개발의 필요성이 대두되고 있다. Therefore, there is a need to develop a technique that can deduce the meaning of the speech recognition result based on the syllable without using the spacing rule and morphological analysis.

한국공개특허 제2010-0069120호, 2010년 6월 24일 공개 (명칭: 운율 모델을 이용한 형태소 품사 태깅 방법 및 그 장치)Korean Patent Publication No. 2010-0069120, published on June 24, 2010 (name: tagging method and apparatus for morpheme part using rhythm model)

본 발명은 상기한 종래의 문제점을 해결하기 위해 제안된 것으로서, 음절 기반으로 음성 인식 결과 텍스트를 이해하여 의미를 추론할 수 있는 음성 인식 오류에 강인한 의미 추론 방법 및 이를 위한 장치를 제공하는 데 목적이 있다. It is an object of the present invention to provide a semantic reasoning method robust to speech recognition errors that can infer semantics based on syllable-based speech recognition result texts and an apparatus therefor. have.

이를 위해, 본 발명은 음성 인식 결과 텍스트를 복수의 음절로 분리하여 추출하고, 이를 기 구축된 언어 사전 데이터베이스와 비교하여 의미 자질을 추출한 후 이를 이용하여 의미를 추론함으로써, 화자의 발성 의도를 명확하게 추론할 수 있는 음성 인식 오류에 강인한 의미 추론 방법 및 이를 위한 장치를 제공하는 데 그 목적이 있다. To this end, the present invention separates and extracts the speech recognition result text into a plurality of syllables, extracts the meaning qualities by comparing them with the pre-established language dictionary database, and deduces the meaning by using the extracted semantic qualities, The present invention provides a meaningful reasoning method robust against inferable speech recognition errors and an apparatus therefor.

그러나, 이러한 본 발명의 목적은 상기의 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 명확하게 이해될 수 있을 것이다.However, the object of the present invention is not limited to the above-mentioned objects, and other objects not mentioned can be clearly understood from the following description.

상술한 바와 같은 목적을 달성하기 위한 본 발명의 실시 예에 따른 음성 인식 오류에 강인한 의미 추론 방법은 의미 추론 장치가 음성 인식 결과 텍스트를 수신하는 단계; 상기 의미 추론 장치가 상기 수신된 음성 인식 결과 텍스트에서 복수의 음절을 추출하는 단계; 및 상기 의미 추론 장치가 상기 추출된 복수의 음절에서 기 구축된 언어 사전 데이터베이스를 이용하여 하나 이상의 의미 자질을 추출하는 단계;를 포함하여 이뤄질 수 있다. According to another aspect of the present invention, there is provided a method of semantic reasoning robust against a speech recognition error, comprising: receiving a speech recognition result text by a semantic inference device; Extracting a plurality of syllables from the received speech recognition result text; And extracting at least one semantic feature from the semantic inference device using the pre-built language dictionary database from the extracted plurality of syllables.

이때, 상기 복수의 음절을 추출하는 단계는 상기 의미 추론 장치가 띄어쓰기 규칙 또는 형태소와 무관하게 기준 음절에 따라 전후 일정 개소의 음절을 복수의 음절로 추출할 수 있다. In this case, in the step of extracting the plurality of syllables, the semantic inference apparatus may extract a syllable of a predetermined portion in front and back according to a reference syllable, regardless of a space rule or a morpheme.

여기서, 상기 의미 추론 장치가 상기 복수의 음절로 추출 시 엔그램(N-gram) 방식을 이용하여 복수의 음절로 추출할 수 있다. Here, the semantic reasoning device may extract a plurality of syllables by using an N-gram method when extracting the plurality of syllables.

또한, 상기 하나 이상의 의미 자질을 추출하는 단계는 기 구축된 언어 사전 데이터베이스의 상위어, 하위어, 등위어, 전체어, 부분어, 관련어 정보를 포함하는 워드넷과 설정 가능한 키워드 사전을 이용하여 상기 추출된 복수의 음절에 대응하여 설정된 의미 있는 어휘를 의미 자질로 추출할 수 있다. In addition, the step of extracting the one or more semantic qualities may include extracting the at least one semantic feature by extracting the at least one semantic feature using the word net including the parent word, the lower word, the equal word, the whole word, the partial word, It is possible to extract a meaningful vocabulary set corresponding to a plurality of syllables that have been formed in a semantic quality.

이때, 상기 키워드 사전은 사용자 설정에 따라 또는 기 정의된 키워드 추출 알고리즘을 이용하여 구축될 수 있다. At this time, the keyword dictionary can be constructed according to user setting or using a predefined keyword extraction algorithm.

그리고, 상기 하나 이상의 의미 자질을 추출하는 단계 이후에, 상기 의미 추론 장치가 상기 추출된 복수의 음절과 상기 추출된 의미 자질을 기 정의된 학습 알고리즘을 이용하여 의미를 추론하는 단계; 및 상기 의미 추론 장치가 상기 추론된 의미 추론 결과를 출력하는 단계;를 더 포함하여 이뤄질 수 있다. The semantic inference device deduces the meaning of the extracted syllable and the extracted semantic feature using a predefined learning algorithm after extracting the at least one semantic feature. And the semantic inference apparatus outputting the inferred semantic reasoning result.

추가로 본 발명은 상술한 바와 같은 본 발명의 실시 예에 따른 음성 인식 오류에 강인한 의미 추론 방법을 실행하는 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체를 제공할 수 있다.Furthermore, the present invention can provide a computer-readable recording medium having recorded thereon a program for executing a semantic reasoning method robust against a speech recognition error according to an embodiment of the present invention as described above.

상술한 바와 같은 목적을 달성하기 위한 본 발명의 실시 예에 따른 의미 추론 장치는 수신된 음성 인식 결과 텍스트에서 복수의 음절을 추출하는 음절 추출부; 상기 음절 추출부를 통해 추출된 복수의 음절을 기 구축된 언어 사전 데이터베이스를 이용하여 하나 이상의 의미 자질을 추출하는 의미 자질 추출부; 및 상기 음절 추출부를 통해 추출된 복수의 음절과, 상기 의미 자질 추출부를 통해 추출된 의미 자질을 이용하여 상기 음성 인식 결과 텍스트에 대한 의미를 추론하는 의미 추론부;를 포함하여 구성될 수 있다. According to an aspect of the present invention, there is provided a semantic inference apparatus comprising: a syllable extractor for extracting a plurality of syllables from a received speech recognition result text; A semantic feature extraction unit for extracting one or more semantic features using a pre-built language dictionary database of a plurality of syllables extracted through the syllable extractor; And a semantic reasoning unit for inferring a meaning of the speech recognition result text using a plurality of syllables extracted through the syllable extracting unit and a semantic feature extracted through the semantic feature extracting unit.

본 발명의 음성 인식 오류에 강인한 의미 추론 방법 및 이를 위한 장치에 의하면, 음성 인식 결과 텍스트를 복수의 음절로 분리하여 추출하고, 이를 기 구축된 언어 사전 데이터베이스와 비교하여 의미 자질을 추출한 후 이를 이용하여 의미를 추론함으로써, 화자의 발성 의도를 명확하게 추론하고 음성 인식 오류에 강인하게 동작할 수 있다는 효과가 있다. According to the semantic reasoning method robust against the speech recognition error of the present invention, the speech recognition result text is separated into a plurality of syllables and extracted, and the extracted semantic features are compared with the previously prepared language dictionary database, By inferring the meaning, it is possible to clearly deduce the speaker's utterance intention and to work robustly against the speech recognition error.

또한, 명확하게 도출된 의미 추론 결과에 따라 특정 기능을 수행함으로써, 음성 인식 서비스를 사용하는 사용자의 편의를 향상시킬 수 있으며, 다양한 음성 인식 서비스 제공이 가능하게 된다. In addition, by performing a specific function according to the clearly derived reasoning result, the convenience of the user using the speech recognition service can be improved and various speech recognition services can be provided.

또한, 의미 분석에 이용되는 언어 사전 데이터베이스를 사용자 설정에 따라 변경하거나 생성함으로써 성능 향상 및 유지 보수가 용이하다는 효과가 있다. Also, there is an effect that performance improvement and maintenance can be facilitated by changing or creating a language dictionary database used for semantic analysis according to a user setting.

아울러, 상술한 효과 이외의 다양한 효과들이 후술될 본 발명의 실시 예에 따른 상세한 설명에서 직접적 또는 암시적으로 개시될 수 있다.In addition, various effects other than the above-described effects can be directly or implicitly disclosed in the detailed description according to the embodiment of the present invention to be described later.

도 1은 본 발명의 실시 예에 따른 의미 추론 시스템의 주요 구성을 개략적으로 도시한 블록도이다.
도 2는 본 발명의 실시 예에 따른 의미 추론 장치의 주요 구성을 도시한 구성도이다.
도 3은 본 발명의 실시 예에 따른 음성 인식 오류에 강인한 의미 추론 방법을 개략적으로 설명하기 위한 흐름도이다.
도 4는 본 발명의 실시 예에 따른 음성 인식 오류에 강인한 의미 추론 방법을 보다 구체적으로 설명하기 위한 흐름도이다.
FIG. 1 is a block diagram schematically illustrating a main configuration of a semantic reasoning system according to an embodiment of the present invention.
FIG. 2 is a block diagram showing a main configuration of a semantic inference apparatus according to an embodiment of the present invention.
FIG. 3 is a flowchart schematically illustrating a semantic reasoning method robust against a speech recognition error according to an embodiment of the present invention.
FIG. 4 is a flowchart for explaining a meaningful reasoning method robust to a speech recognition error according to an embodiment of the present invention.

이하 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있는 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예에 대한 동작 원리를 상세하게 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 이는 불필요한 설명을 생략함으로써 본 발명의 핵심을 흐리지 않고 더욱 명확히 전달하기 위함이다. 또한 본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 하나, 이는 본 발명을 특정한 실시 형태로 한정하려는 것은 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. However, the detailed description of known functions and configurations incorporated herein will be omitted when it may unnecessarily obscure the subject matter of the present invention. This is to omit the unnecessary description so as to convey the key of the present invention more clearly without fading. While the invention is susceptible to various modifications and alternative forms, specific embodiments thereof are shown by way of example in the drawings and will herein be described in detail. However, it should be understood that the invention is not limited to the specific embodiments thereof, It is to be understood that the invention is intended to cover all modifications, equivalents, and alternatives falling within the spirit and scope of the invention.

또한, 제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하기 위해 사용하는 것으로, 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용될 뿐, 상기 구성요소들을 한정하기 위해 사용되지 않는다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제2 구성요소는 제1 구성요소로 명명될 수 있고, 유사하게 제1 구성요소도 제2 구성요소로 명명될 수 있다.Also, terms including ordinal numbers such as first, second, etc. are used to describe various elements, and are used only for the purpose of distinguishing one element from another, Not used. For example, without departing from the scope of the present invention, the second component may be referred to as a first component, and similarly, the first component may also be referred to as a second component.

더하여, 어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급할 경우, 이는 논리적 또는 물리적으로 연결되거나, 접속될 수 있음을 의미한다. 다시 말해, 구성요소가 다른 구성요소에 직접적으로 연결되거나 접속되어 있을 수 있지만, 중간에 다른 구성요소가 존재할 수도 있으며, 간접적으로 연결되거나 접속될 수도 있다고 이해되어야 할 것이다. In addition, when referring to an element as being "connected" or "connected" to another element, it means that it can be connected or connected logically or physically. In other words, it is to be understood that although an element may be directly connected or connected to another element, there may be other elements in between, or indirectly connected or connected.

또한, 본 명세서에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 또한, 본 명세서에서 기술되는 "포함 한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.Also, the terminology used herein is for the purpose of describing particular embodiments only and is not intended to be limiting of the invention. The singular expressions include plural expressions unless the context clearly dictates otherwise. It is also to be understood that the terms such as " comprising "or" having ", as used herein, are intended to specify the presence of stated features, integers, It should be understood that the foregoing does not preclude the presence or addition of other features, numbers, steps, operations, elements, parts, or combinations thereof.

이제 본 발명의 실시 예에 따른 음성 인식 오류에 강인한 의미 추론 방법 및 이를 위한 장치에 대하여 도면을 참조하여 상세하게 설명하도록 한다. 이때, 도면 전체에 걸쳐 유사한 기능 및 작용을 하는 부분에 대해서는 동일한 도면 부호를 사용하며, 이에 대한 중복되는 설명은 생략하기로 한다.Now, a semantic reasoning method robust against a speech recognition error according to an embodiment of the present invention and an apparatus therefor will be described in detail with reference to the drawings. Here, the same reference numerals are used for similar functions and functions throughout the drawings, and a duplicate description thereof will be omitted.

먼저 본 발명의 의미 추론 장치를 포함하는 의미 추론 시스템에 대해 설명하도록 한다. First, the semantic reasoning system including the semantic inference apparatus of the present invention will be described.

도 1은 본 발명의 실시 예에 따른 의미 추론 시스템의 주요 구성을 개략적으로 도시한 블록도이다.FIG. 1 is a block diagram schematically illustrating a main configuration of a semantic reasoning system according to an embodiment of the present invention.

도 1을 참조하면, 본 발명의 실시 예에 따른 의미 추론 시스템(500)은 음성 인식 장치(100) 및 의미 추론 장치(200)를 포함하여 구성될 수 있다. Referring to FIG. 1, a semantic reasoning system 500 according to an embodiment of the present invention may include a speech recognition apparatus 100 and a semantic inference apparatus 200.

먼저, 음성 인식 장치(100)는 사용자로부터 아날로그 형태의 음성 신호가 입력되면, 입력된 음성 신호를 디지털 형태의 음성 데이터로 변환한 후, 변환된 음성 데이터를 기초로 음성 인식을 진행하여 인식 결과를 출력하게 된다. 여기서, 음성 인식 장치(100)에 입력되는 아날로그 형태의 음성 신호는 복수의 사용자에 대한 음성 신호를 포함한다. 음성 인식 장치(100)는 이러한 복수의 사용자에 대한 음성 신호가 입력되면 이에 대한 음성 인식을 진행하여 인식 결과를 출력하며, 이때의 인식 결과는 텍스트 형태로 사용자가 인지할 수 있는 일련의 문자로 표시되어 출력될 수 있다. First, when an analog voice signal is input from a user, the voice recognition device 100 converts the input voice signal into digital voice data, and then proceeds to voice recognition based on the converted voice data, . Here, the analog voice signal input to the voice recognition apparatus 100 includes voice signals for a plurality of users. When a voice signal for a plurality of users is inputted, the voice recognition apparatus 100 performs voice recognition on the voice signals and outputs a recognition result. The recognition result at this time is displayed as a series of characters And output.

아울러, 본 발명의 음성 인식 장치(100)는 다양한 샘플링 주파수를 포함하는 음성 신호의 입력을 지원할 수 있다. 음성 인식 장치(100)는 다양한 형태의 음성 신호가 입력되면 이를 디지털 형태의 이산적인 음성 데이터 값으로 변환시키는 ADC(Analog to Digital Convert) 과정을 수행하게 된다. 그리고 디지털 형태로 변환된 음성 데이터를 기초로 다양한 방식으로 특징 파라미터를 추출한다. 여기서, 특징 파라미터는 상기 디지털 형태로 변환된 음성 데이터의 주파수 영역에서의 음성, 음향학적인 특징 정보를 의미한다. 예컨대, 음의 길이(duration), 음의 에너지(energy), 피치(pitch), 파워(power), LPC(linear predictive coding) 계수, 모음의 구성음소 즉, 포만트(formant), RFC(Rising Falling Connection)/Tilt, 스펙트럼(Spectrum), VOT(Voice Onset Time) 등이 특징 파라미터로 추출될 수 있다. 아울러, 본 발명의 음성 인식 장치(100)는 특징 파라미터 추출 시 MFCC(Mel-Frequency Cepstrum Codfficient), LPCC(Linear Prediction Coefficient Cepstrum) 또는 PLPCC(Preceptual Linear Prediction Ceptrum Coeffcient), EIH(Ensemble Interval Histogram), SMC (Short-time Modified Coherence) 등의 기법을 통해 추출할 수 있다. In addition, the speech recognition apparatus 100 of the present invention can support input of speech signals including various sampling frequencies. The voice recognition apparatus 100 performs an analog to digital conversion (ADC) process for converting various types of voice signals into discrete voice data values in digital form. The feature parameters are extracted in various ways based on the voice data converted into the digital form. Herein, the feature parameter means voice and acoustical feature information in the frequency domain of the voice data converted into the digital form. For example, the following parameters may be used: negative duration, negative energy, pitch, power, linear predictive coding (LPC) coefficients, compositional phonemes, formant, RFC Connection / Tilt, Spectrum, VOT (Voice Onset Time), and the like can be extracted as the feature parameters. In addition, the speech recognition apparatus 100 according to the present invention may be configured to extract characteristic parameters such as a Mel-Frequency Cepstrum Codec (MFCC), a Linear Prediction Coefficient Cepstrum (LPCC), a Preceptual Linear Prediction Ceptrum Coeffcient (PLPCC), an Ensemble Interval Histogram (EIH) (Short-time Modified Coherence).

그리고 음성 인식 장치(100)는 추출된 특징 파라미터를 기 구축된 음소들을 통계적으로 모델링한 음향 모델, 문법에 적합한 음성 인식 결과가 도출되도록 지원하는 언어 모델, 표준 발음법에 의거한 결과가 산출되도록 지원하는 발음 사전 등을 고려하여 최종 음성 인식 결과를 산출할 수 있게 된다. 본 발명의 음성 인식 장치(100)는 특징 파라미터를 음향 모델, 언어 모델, 발음 사전 등을 고려하여 음성 인식 결과 산출 시 다양한 방식을 적용하여 음성 인식 결과를 산출할 수 있다. 예컨대, HMM(hidden Markov Model), FSN(Finite State Network) 등에 따라 음성 인식 결과를 산출할 수 있다. 그리고, 음성 인식 장치(100)는 음성 인식 결과를 텍스트 형태로 산출하고, 이를 의미 추론 장치(200)로 전달한다.The speech recognition apparatus 100 further includes an acoustic model modeled by statistically modeling the extracted phonemes, a language model supporting a speech recognition result suitable for the grammar, and a result based on the standard pronunciation method The final speech recognition result can be calculated in consideration of the pronunciation dictionary and the like. The speech recognition apparatus 100 of the present invention can calculate speech recognition results by applying various methods to the speech recognition result in consideration of acoustic models, language models, pronunciation dictionary, and the like. For example, the speech recognition result can be calculated according to HMM (hidden Markov Model), FSN (Finite State Network), or the like. Then, the speech recognition apparatus 100 calculates the speech recognition result in the form of a text and delivers it to the semantic reasoning device 200.

본 발명의 의미 추론 장치(200)는 음성 인식 장치(100)로부터 전달되는 음성 인식 결과 텍스트를 복수의 음절로 구분하여 추출하는 과정을 수행한다. 이때, 의미 추론 장치(200)는 확률적 언어 모델인 엔그램(N-gram)을 이용하여 음성 인식 결과 텍스트를 복수의 음절로 구분하여 추출하게 된다. 이때, 본 발명에서는 유니그램(unigram), 바이그램(bigram), 트라이그램(trigram) 등 음절의 수에 따라 단어의 연쇄 확률을 이용하는 다양한 방식의 엔그램(N-gram)을 이용할 수 있다. 아울러, 본 발명의 일 실시 예에 따른 의미 추론 장치(200)가 엔그램(N-gram)을 이용하여 복수의 음절을 추출하는 것을 예로 들어 설명하나, 상기 엔그램(N-gram)과 유사한 또는 동등한 동작 및 효과가 도출될 수 있는 언어 모델이라면 어떠한 언어 모델이라도 본 발명에 적용될 수 있다. The semantic inference apparatus 200 of the present invention performs a process of extracting a speech recognition result text transmitted from the speech recognition apparatus 100 into a plurality of syllables. At this time, the semantic reasoning device 200 extracts the speech recognition result text into a plurality of syllables using an N-gram, which is a probabilistic language model. At this time, in the present invention, various types of N-grams that use a word chaining probability according to the number of syllables such as unigram, bigram, and trigram can be used. In addition, although the semantic inference apparatus 200 according to an embodiment of the present invention extracts a plurality of syllables using an N-gram, it is similar to the N-gram, Any language model can be applied to the present invention as long as it is a language model in which equivalent operations and effects can be derived.

그리고, 의미 추론 장치(200)는 추출된 복수의 음절을 기 구축된 언어 사전 데이터베이스와 비교하여 하나 이상의 의미 자질을 추출하게 된다. 그리고, 의미 추론 장치(200)는 추출된 복수의 음절과 의미 자질에 의미 추론을 위한 학습 알고리즘을 적용하여 의미를 추론하고, 추론된 의미 추론 결과를 출력할 수 있다. 여기서, 출력될 수 있는 의미 추론 결과는 '일정 추가', '알람 설정' 등과 같이 특정 기능 또는 명령을 수행할 수 있는 명령 정보 형태로 출력될 수 있다. Then, the semantic reasoning device 200 compares the extracted syllables with a pre-built language dictionary database to extract one or more semantic features. Then, the semantic reasoning device 200 applies a learning algorithm for semantic reasoning to the extracted syllables and semantic qualities to deduce semantics and output the inferred semantic reasoning results. Here, the semantic reasoning result that can be output can be output in the form of command information capable of performing a specific function or command such as 'add schedule', 'alarm setting', and the like.

보다 구체적인 의미 추론 장치(200)에서의 음성 인식 오류에 강인한 의미 추론 방법에 대해서는 후술하도록 하며, 본 발명의 음성 인식 장치(100) 및 의미 추론 장치(200)는 설명의 편의를 위해 도면에서는 구분된 형태로 도시하였으나, 이에 한정되는 것은 아니며, 음성 인식 장치(100) 및 의미 추론 장치(200)는 하나의 통합된 장치로 구현될 수 있다. 또한, 음성 인식 장치(100) 및 의미 추론 장치(200)는 독립된 장치로 구현될 수도 있으나, 또 다른 장치 또는 시스템 내에 내장된(embedded) 일 모듈 형태로 존재할 수도 있다. The speech recognition apparatus 100 and the semantic inference apparatus 200 of the present invention will be described in greater detail below with reference to FIG. However, the present invention is not limited thereto, and the speech recognition apparatus 100 and the semantic inference apparatus 200 may be implemented as a single integrated apparatus. In addition, the speech recognition apparatus 100 and the semantic inference apparatus 200 may be implemented as independent apparatuses, but may exist in a single module form embedded in another apparatus or system.

아울러, 본 발명의 음성 인식 장치(100) 및 의미 추론 장치(200)는 어플리케이션(application)과 같은 프로그램 형태로 구현될 수도 있다. 예시로, 스마트 폰(smart phone), 로봇(robot), 스마트카(smart car)와 같이 사용자가 이용할 수 있는 각종 단말에 내장되거나, 프로그램 형태로 상기 장치에 설치되어 이용될 수 있으며, 이 경우, 사용자 단말에 구비된 마이크 등의 음성 입력 장치를 통해 입력된 음성 데이터를 이용하여 음성 인식을 수행하고, 음성 인식 결과를 기초로 의미 분석을 수행한 후, 의미 추론 결과를 해당하는 모듈로 전달할 수 있다. In addition, the speech recognition apparatus 100 and the semantic inference apparatus 200 of the present invention may be implemented in the form of a program such as an application. For example, it may be embedded in various terminals available to the user such as a smart phone, a robot, and a smart car, or may be installed in the device in a program form. In this case, Speech recognition is performed using speech data input through a speech input device such as a microphone provided in a user terminal, semantic analysis is performed based on speech recognition result, and semantic reasoning results can be transmitted to a corresponding module .

또한, 본 발명의 음성 인식 장치(100) 및 의미 추론 장치(200)는 웹 서버 형태로 구현될 수 있다. 이 때, 사용자는 자신의 스마트폰, 로봇, 스마트카와 같은 사용자 단말을 이용하여 파일 형태의 음성 데이터를 생성하고, 이를 통신망을 거쳐 음성 인식 장치(100)로 전달할 수 있다. 또한, 의미 추론 장치(200)를 통해 의미 추론 결과를 통신망을 거쳐 사용자 단말로 전달될 수 있으며, 사용자 단말을 상기 의미 추론 결과에 따라 특정 기능 또는 동작을 수행할 수도 있다.In addition, the speech recognition apparatus 100 and the semantic inference apparatus 200 of the present invention can be implemented in the form of a web server. At this time, the user can generate voice data in the form of a file using a user terminal such as a smart phone, a robot, or a smart car, and transmit the voice data to the voice recognition device 100 via the communication network. In addition, the semantic reasoning result may be transmitted to the user terminal through the communication network through the semantic reasoning device 200, and the user terminal may perform a specific function or operation according to the semantic reasoning result.

또한, 음성 인식 장치(100) 및 의미 추론 장치(200)는 유선으로 연결될 수 있으나, 통신망으로 연결되는 이원적 처리 시스템으로 구현될 수도 있다. 더하여, 본 발명의 의미 추론 장치(200)는 일정 관리 시스템과 같이 특정 서비스를 지원하는 웹 서버와 연동하여 동작할 수도 있다. In addition, the speech recognition apparatus 100 and the semantic reasoning apparatus 200 may be connected by wire, but may be implemented by a binary processing system connected to a communication network. In addition, the semantic reasoning device 200 of the present invention may operate in conjunction with a web server supporting a specific service such as a schedule management system.

이러한 본 발명의 음성 인식 장치(100) 및 의미 추론 장치(200)에 탑재되는 프로세서는 본 발명에 따른 방법을 실행하기 위한 프로그램 명령을 처리할 수 있다. 일 구현 예에서, 이 프로세서는 싱글 쓰레드(Single-threaded) 프로세서일 수 있으며, 다른 구현 예에서 본 프로세서는 멀티 쓰레드(Multithreaded) 프로세서일 수 있다. 나아가 본 프로세서는 메모리 혹은 저장 장치 상에 저장된 명령을 처리하는 것이 가능하다.The processor mounted on the speech recognition apparatus 100 and the semantic reasoning device 200 of the present invention can process program instructions for executing the method according to the present invention. In one implementation, the processor may be a single-threaded processor, and in other embodiments, the processor may be a multithreaded processor. Further, the processor is capable of processing instructions stored on a memory or storage device.

이하, 본 발명의 실시 예에 따른 의미 추론 장치(200)의 주요 구성 및 동작 방법에 대해 설명하도록 한다. Hereinafter, a main configuration and an operation method of the semantic inference apparatus 200 according to an embodiment of the present invention will be described.

도 2는 본 발명의 실시 예에 따른 의미 추론 장치의 주요 구성을 도시한 구성도이다. FIG. 2 is a block diagram showing a main configuration of a semantic inference apparatus according to an embodiment of the present invention.

도 1 및 도 2를 참조하면, 본 발명의 실시 예에 따른 의미 추론 장치(200)는 음성 인식 결과 수신부(210), 음절 추출부(220), 의미 자질 추출부(230), 의미 추론부(240), 결과 출력부(250) 및 언어 사전 데이터베이스(260)를 포함하여 구성될 수 있다. 1 and 2, a semantic inference apparatus 200 according to an embodiment of the present invention includes a speech recognition result receiving unit 210, a syllable extracting unit 220, a semantic feature extracting unit 230, a semantic reasoning unit 240, a result output unit 250, and a language dictionary database 260.

각 구성 요소에 대해 보다 구체적으로 설명하면, 먼저, 음성 인식 결과 수신부(210)는 음성 인식 장치(100)로부터 음성 인식 결과 텍스트를 수신하여 입력하는 역할을 지원한다. 여기서 음성 인식 결과 수신부(210)는 음성 인식 장치(100)로부터 유선 또는 무선의 방식으로 음성 인식 결과 텍스트를 수신할 수 있다. First of all, the speech recognition result receiving unit 210 supports the role of receiving and inputting the speech recognition result text from the speech recognition apparatus 100. Here, the speech recognition result receiving unit 210 can receive the speech recognition result text from the speech recognition apparatus 100 in a wired or wireless manner.

음절 추출부(220)는 음성 인식 결과 수신부(210)를 통해 전달되는 음성 인식 결과 텍스트에서 복수의 음절을 추출하는 역할을 수행한다. 이때, 음절 추출부(220)는 띄어쓰기 규칙 또는 형태소와 무관하게 기준 음절에 따라 전후 일정 개소의 음절을 복수의 음절로 추출하게 된다. 여기서, 음절 추출부(220)는 엔그램(N-gram) 방식에 따라 복수의 음절로 추출할 수 있는데, 예를 들어 유니그램 방식에 따라 복수의 음절 추출 시 기준 음절별로 음절을 추출할 수 있으며, 트라이그램 방식에 따라 복수의 음절 추출 시 기준 음절 전후 2개의 음절을 결합한 음절을 추출하게 된다. The syllable extracting unit 220 extracts a plurality of syllables from the speech recognition result text transmitted through the speech recognition result receiving unit 210. At this time, the syllable extracting unit 220 extracts the syllable of a certain portion before and after the syllable according to the reference syllable, regardless of the spacing rule or the morpheme. Here, the syllable extracting unit 220 may extract a plurality of syllables according to an N-gram method. For example, syllables may be extracted for each of the plurality of syllables in accordance with a unigram method, And extracts syllables combining two syllables before and after the reference syllable in extracting a plurality of syllables according to the trigram method.

의미 자질 추출부(230)는 상기 추출된 복수의 음절에서 기 구축된 언어 사전 데이터베이스(260)를 이용하여 하나 이상의 의미 자질을 추출한다. 여기서, 의미 자질은 적어도 하나의 음절에 대응하여 설정될 수 있는 의미 있는 어휘를 의미하는 것으로, 예를 들어, 추출된 음절이 '다섯 시'일 경우, 상기 '다섯 시'에 대한 의미 자질은 '오후', '시간', '약속' 등과 같이 상기 음절에 대응하여 설정될 수 있는 모든 의미 있는 어휘의 집합을 의미한다. The semantic feature extraction unit 230 extracts one or more semantic features using the pre-built language dictionary database 260 from the extracted plurality of syllables. For example, if the extracted syllable is' five o'clock ', the semantic quality of the' o'-o'clock 'is' Means a set of all meaningful vocabularies that can be set corresponding to the syllable, such as 'afternoon', 'time', 'promise', and the like.

의미 자질 추출부(230)에 의해 하나 이상의 의미 자질이 추출되면, 의미 추론부(240)는 음절 추출부(220)에 의해 추출된 복수의 음절에 더하여, 상기 의미 자질 추출부(230)에 의해 추출된 의미 자질을 이용하여 음성 인식 결과 텍스트에 대한 화자의 의도, 즉 의미를 추론하여 분석하게 된다. 이때, 의미 추론부(240)는 다양한 학습 알고리즘에 따라 의미를 추론할 수 있다. 예컨대, SVM(Support Vector Machine), 최대 엔트로피(ME; Maximum Entropy), 조건적 임의 필드(CRF; Conditional Random Field)와 같은 학습 알고리즘을 적용하여 의미를 추론할 수 있다. If one or more semantic features are extracted by the semantic feature extraction unit 230, the semantic deducing unit 240 extracts the semantic features extracted by the semantic feature extraction unit 230 in addition to a plurality of syllables extracted by the syllable extraction unit 220 The intention of the speaker, that is, the meaning of the speech recognition result text, is inferred by analyzing the extracted semantic qualities. At this time, the semantic reasoning unit 240 can infer meaning according to various learning algorithms. For example, meaning can be inferred by applying learning algorithms such as Support Vector Machine (SVM), Maximum Entropy (ME), and Conditional Random Field (CRF).

결과 출력부(250)는 의미 추론부(240)를 통해 추론된 의미 추론 결과를 출력하는 역할을 수행한다. 이때 의미 추론 장치(200)가 일 장치 내의 모듈 형태로 존재하는 경우, 상기 장치 내의 상기 의미 추론 결과에 대응하는 기능을 수행하는 모듈로 상기 의미 추론 결과를 제공할 수 있다. 예를 들어, 상기 의미 추론 결과가 '일정 추가'일 경우, 결과 출력부(250)는 일정 관리 어플리케이션으로 상기 의미 추론 결과를 전달할 수 있다. 반면, 상기 의미 추론 장치(200)가 웹 서버 형태로 존재하는 경우, 상기 결과 출력부(250)는 음성 신호가 입력된 사용자의 단말로 통신망을 거쳐 상기 의미 추론 결과를 전달하는 과정을 지원할 수 있다. The result output unit 250 outputs the result of the inferred semantic reasoning through the semantic inference unit 240. In this case, if the semantic reasoning device 200 exists as a module in a device, the semantic reasoning result may be provided to a module that performs a function corresponding to the semantic reasoning result in the device. For example, when the semantic reasoning result is 'add schedule', the result output unit 250 may transmit the semantic reasoning result to the schedule management application. Meanwhile, when the semantic inference apparatus 200 exists in the form of a web server, the result output unit 250 may support the process of transmitting the semantic reasoning result through the communication network to the user terminal, .

아울러, 본 발명의 실시 예에 따른 언어 사전 데이터베이스(260)는 본 발명의 의미 자질 추론을 위한 관련된 정보를 저장하고 관리하는 역할을 수행한다. 이때의 언어 사전 데이터베이스(260)는 워드넷(261), 키워드 사전(262), 학습 모델(263)을 포함하여 구성될 수 있다. In addition, the language dictionary database 260 according to the embodiment of the present invention stores and manages related information for semantic qualitative inference of the present invention. The language dictionary database 260 at this time may include a word net 261, a keyword dictionary 262, and a learning model 263.

워드넷(261)은 상위어, 하위어, 등위어, 전체어, 부분어에 대한 정보를 포함한다. 예를 들어 복수의 음절이 '스타벅스'일 경우, 의미 자질 추출부(230)는 상기 워드넷(261)을 확인하여 상기 '스타벅스' 음절에 대응하여 저장된 상위어 '커피숍', 등위어 '스벅', '별다방', 관련어 '이디아', '탐앤탐스' 등을 의미 자질로 추출하게 된다. 이때, 본 발명의 워드넷(261)은 잘못된 음성 인식에 따른 오류 음절에 대한 정보를 포함할 수도 있다. 이를 통해 본 발명은 추출된 음절이 잘못된 음성 인식에 따른 오류 음절이더라도 워드넷(261)을 통해 정상적인 음성 인식에 따른 음절을 확인하고, 확인된 정상 음절에 대응하여 기 저장된 관련어, 상위어, 하위어 등을 확인할 수도 있다. The word net 261 includes information on a parent word, a lower word, an equal word, an entire word, and a partial word. For example, when a plurality of syllables is' Starbucks', the semantic feature extraction unit 230 identifies the WordNet 261 and stores the word 'coffee shop', ' , 'Taeba', 'Swab', 'Star Cafe', related words 'Idia', and 'Tam & Tom'. At this time, the word net 261 of the present invention may include information on an error syllable due to erroneous speech recognition. Accordingly, even if the extracted syllable is an erroneous syllable due to erroneous speech recognition, the syllable according to the normal speech recognition is confirmed through the word net 261, and the previously stored syllable, parent word, .

반면, 키워드 사전(262)은 사용자 설정에 따라 또는 기 정의된 키워드 추출 알고리즘(TF-IDF 등)을 이용하여 구출될 수 있는 것으로, 의미 자질 추출부(230)는 상기 키워드 사전(262)을 이용하여 의미 자질을 추가로 추출할 수 있다. 예를 들어, 음절이 '다섯 시'일 경우, 상기 다섯 시에 대응하여 기 정의된 키워드인 '약속', '시간', '오후'를 의미 자질로 추출하게 된다. On the other hand, the keyword dictionary 262 can be retrieved according to a user setting or by using a predefined keyword extraction algorithm (TF-IDF, etc.), and the semantic feature extracting unit 230 uses the keyword dictionary 262 To extract additional meaning qualities. For example, if the syllable is "five o'clock," the predefined keywords "appointment", "time", and "afternoon" are extracted as the meaning qualities corresponding to the five o'clock.

학습 모델(263)은 의미 추론부(240)에 의해 이용되는 것으로, 학습 알고리즘을 이용하여 의미 추론을 수행하기 위한 학습 모델을 의미한다. The learning model 263 is used by the semantic reasoning unit 240 and means a learning model for performing semantic reasoning using a learning algorithm.

이와 같이, 본 발명의 의미 추론 장치(200)는 음성 인식 결과 텍스트를 복수의 음절로 분리하여 추출하고, 이를 기 구축된 언어 사전 데이터베이스와 비교하여 의미 자질을 추출한 후 이를 이용하여 의미를 추론함으로써, 띄어쓰기 규칙 또는 형태소를 고려하지 않더라도 화자의 발성 의도를 명확하게 추론하고 음성 인식 오류에 강인하게 동작하게 된다. As such, the semantic inference apparatus 200 of the present invention extracts the speech recognition result text into a plurality of syllables, extracts the semantic features by comparing the text with the pre-built language dictionary database, Even if the spacing rule or the morpheme is not considered, the speaker's intention of utterance is clearly deduced and the speaker is robust against the speech recognition error.

또한, 명확하게 도출된 의미 추론 결과에 따라 특정 기능을 수행함으로써, 음성 인식 서비스를 사용하는 사용자의 편의를 향상시킬 수 있으며, 다양한 음성 인식 서비스 제공이 가능하게 된다. 또한, 의미 추론을 위한 언어 사전 데이터베이스를 사용자 설정에 따라 변경하거나 생성함으로써 성능 향상 및 유지 보수가 용이할 수 있다. In addition, by performing a specific function according to the clearly derived reasoning result, the convenience of the user using the speech recognition service can be improved and various speech recognition services can be provided. In addition, performance improvement and maintenance can be facilitated by changing or creating a language dictionary database for semantic reasoning according to user setting.

이상으로 본 발명의 실시 예에 따른 의미 추론 장치(200)의 주요 구성 및 동작 방법에 대해 설명하였다. The main configuration and operation method of the semantic inference apparatus 200 according to the embodiment of the present invention have been described above.

이러한 본 발명의 의미 추론 장치(200)에 탑재되는 메모리는 그 장치 내에서 정보를 저장한다. 일 구현예의 경우, 메모리는 컴퓨터로 판독 가능한 매체이다. 일 구현 예에서, 메모리는 휘발성 메모리 유닛 일 수 있으며, 다른 구현예의 경우, 메모리는 비휘발성 메모리 유닛 일 수도 있다. 일 구현예의 경우, 저장장치는 컴퓨터로 판독 가능한 매체이다. 다양한 서로 다른 구현 예에서, 저장장치는 예컨대 하드디스크 장치, 광학디스크 장치, 혹은 어떤 다른 대용량 저장장치를 포함할 수도 있다.The memory mounted on the semantic reasoning device 200 according to the present invention stores information in the device. In one implementation, the memory is a computer-readable medium. In one implementation, the memory may be a volatile memory unit, and in other embodiments, the memory may be a non-volatile memory unit. In one implementation, the storage device is a computer-readable medium. In various different implementations, the storage device may include, for example, a hard disk device, an optical disk device, or any other mass storage device.

비록 본 명세서와 도면에서는 예시적인 장치 구성을 기술하고 있지만, 본 명세서에서 설명하는 기능적인 동작과 주제의 구현물들은 다른 유형의 디지털 전자 회로로 구현되거나, 본 명세서에서 개시하는 구조 및 그 구조적인 등가물들을 포함하는 컴퓨터 소프트웨어, 펌웨어 혹은 하드웨어로 구현되거나, 이들 중 하나 이상의 결합으로 구현 가능하다. 본 명세서에서 설명하는 주제의 구현물들은 하나 이상의 컴퓨터 프로그램 제품, 다시 말해 본 발명에 따른 장치의 동작을 제어하기 위하여 혹은 이것에 의한 실행을 위하여 유형의 프로그램 저장매체 상에 인코딩된 컴퓨터 프로그램 명령에 관한 하나 이상의 모듈로서 구현될 수 있다. 컴퓨터로 판독 가능한 매체는 기계로 판독 가능한 저장 장치, 기계로 판독 가능한 저장 기판, 메모리 장치, 기계로 판독 가능한 전파형 신호에 영향을 미치는 물질의 조성물 혹은 이들 중 하나 이상의 조합일 수 있다.Although the present specification and drawings describe exemplary device configurations, the functional operations and subject matter implementations described herein may be embodied in other types of digital electronic circuitry, or alternatively, of the structures disclosed herein and their structural equivalents May be embodied in computer software, firmware, or hardware, including, or in combination with, one or more of the foregoing. Implementations of the subject matter described herein may be embodied in one or more computer program products, i. E. One for computer program instructions encoded on a program storage medium of the type for < RTI ID = 0.0 & And can be implemented as a module as described above. The computer-readable medium can be a machine-readable storage device, a machine-readable storage substrate, a memory device, a composition of matter that affects the machine readable propagation type signal, or a combination of one or more of the foregoing.

이하, 본 발명의 실시 예에 따른 음성 인식 오류에 강인한 의미 추론 방법에 대해 설명하도록 한다. Hereinafter, a semantic reasoning method robust against a speech recognition error according to an embodiment of the present invention will be described.

도 3은 본 발명의 실시 예에 따른 음성 인식 오류에 강인한 의미 추론 방법을 개략적으로 설명하기 위한 흐름도이다. FIG. 3 is a flowchart schematically illustrating a semantic reasoning method robust against a speech recognition error according to an embodiment of the present invention.

도 1 및 도 3을 참조하면, 본 발명의 실시 예에 따른 음성 인식 오류에 강인한 의미 추론 방법은 먼저, 의미 추론 장치(200)가 음성 인식 결과 텍스트를 수신한다(S101). 그리고, 의미 추론 장치(200)는 수신된 음성 인식 결과 텍스트에서 복수의 음절을 추출하고(S103), 추출된 복수의 음절을 언어 사전 데이터베이스를 이용하여 의미 자질을 추출하게 된다(S105).Referring to FIGS. 1 and 3, a semantic reasoning method robust against a speech recognition error according to an exemplary embodiment of the present invention starts with a semantic reasoning device 200 receiving a speech recognition result text (S101). Then, the semantic inference device 200 extracts a plurality of syllables from the received speech recognition result text (S103), and extracts the semantic features using the extracted language syllable database (S105).

이후에, 의미 추론 장치(200)는 추출된 복수의 음절과 함께 상기 추출된 의미 자질을 이용하여 상기 음성 인식 결과 텍스트에 대한 의미를 추론하고 이에 대한 분석 결과를 출력하는 역할을 수행할 수 있다. Thereafter, the semantic reasoning device 200 may deduce the meaning of the speech recognition result text by using the extracted semantic feature together with the extracted syllables, and output the analysis result thereof.

이러한 본 발명의 실시 예에 따른 음성 인식 오류에 강인한 의미 추론 방법에 대해 보다 구체적으로 설명하도록 한다. The semantic reasoning method robust against the speech recognition error according to the embodiment of the present invention will be described in more detail.

도 4는 본 발명의 실시 예에 따른 음성 인식 오류에 강인한 의미 추론 방법을 보다 구체적으로 설명하기 위한 흐름도이다.FIG. 4 is a flowchart for explaining a meaningful reasoning method robust to a speech recognition error according to an embodiment of the present invention.

도 1 및 도 4를 참조하면, 본 발명의 실시 예에 따른 의미 추론 장치(200)는 음성 인식 결과 텍스트를 수신한다(S201). 이때, 의미 추론 장치(200)는 논리적 또는 물리적으로 연결된 음성 인식 장치(100)로부터 음성 인식 결과 텍스트를 수신할 수 있다. 그러나 이에 한정되는 것은 아니며, 별도의 장치에 기 저장된 음성 인식 결과 텍스트를 요청 또는 일정 주기에 따라 수신할 수도 있다. Referring to FIGS. 1 and 4, a semantic inference apparatus 200 according to an embodiment of the present invention receives speech recognition result text (S201). At this time, the semantic reasoning device 200 can receive speech recognition result text from the voice recognition device 100 logically or physically connected. However, the present invention is not limited to this, and the speech recognition result text previously stored in a separate apparatus may be requested or received at predetermined intervals.

이를 수신한 의미 추론 장치(200)는 띄어쓰기 규칙 또는 형태소와 무관하게 기준 음절에 따라 전후 일정 개소의 음절을 복수의 음절로 추출하게 된다. 특히, 의미 추론 장치(200)는 엔그램(N-gram) 방식에 따라 상기 음성 인식 결과 텍스트에서 복수의 음절을 추출하게 된다(S203).The semantic inference apparatus 200 receives a syllable of a predetermined portion in a plurality of syllables according to a reference syllable regardless of a space rule or a morpheme. In particular, the semantic reasoning device 200 extracts a plurality of syllables from the speech recognition result text according to an N-gram method (S203).

예를 들어, 수신된 음성 인식 결과 텍스트가 다음과 같다고 가정한다. For example, assume that the received speech recognition result text is as follows.

오늘오후 다섯 시에 스탈 벅 스 에서 약속을 잡아줘Make an appointment at Stallbucks at five this afternoon.

일반적으로, 음성 인식 결과 텍스트는 어절과 형태소가 불균일한 상태로 출력될 수 있는데, 종래의 방식에서는 상기 어절과 형태소가 불균일하여 의미가 불명료한 음성 인식 결과 텍스트를 띄어쓰기 규칙 및 형태소를 고려하여 의미를 분석하였다면, 본 발명은 기 구축된 언어 사전 데이터베이스를 비교하는 방식을 적용하고자 한다. 이를 위해, 먼저 의미 추론 장치(200)는 상기 음성 인식 결과 텍스트를 기준 음절에 따라 복수의 음절로 구분하여 추출하게 된다. Generally, the speech recognition result text can be outputted in a state in which the word and morpheme are unevenly distributed. In the conventional method, the word and the morpheme are not uniform, and the meaning of the speech recognition result text, which is ambiguous, If analyzed, the present invention seeks to apply a method of comparing pre-built language dictionary databases. To this end, the semantic reasoning device 200 extracts the speech recognition result text by dividing the text into a plurality of syllables according to a reference syllable.

여기서, 기준 음절은 상기 음성 인식 결과 텍스트에 존재하는 모든 음절을 의미한다. 예를 들어, 기준 음절은 '오', '늘', '후', '다', '섯', '시', '에', '스', '탈', '벅', '서', '약', '속', '을', '잡', '아', '줘'가 될 수 있다. 그리고 엔그램 방식에 따라 복수의 음절을 추출하게 되는 데, 이때 유니그램 방식으로 음절을 추출하는 경우, 상기 기준 음절 그대로 복수의 음절을 추출하게 된다. 반면, 엔그램 중 바이그램 방식으로 음절을 추출하는 경우, 상기 기준 음절을 전후 1개의 음절을 결합하여 복수의 음절로 추출할 수 있다. 예를 들어, 기준 음절이 '시'라 할 경우, 바이그램 방식으로 음절을 추출하면, '섯시', '시에'의 형태로 음절을 추출할 수 있다. 반면, 엔그램 중 트라이그램 방식으로 음절을 추출하면, '다섯시', '시에스', '섯시에'의 형태로 음절을 추출할 수 있다. Here, the reference syllable means all syllables existing in the speech recognition result text. For example, the standard syllable is' o ',' ever ',' after ',' da ',' m ',' poetry ',' e ',' , 'Medicine', 'genus', 'eu', 'job', 'ah', 'give'. Then, a plurality of syllables are extracted according to an engram method. In this case, when a syllable is extracted by a unigram method, a plurality of syllables are extracted as the reference syllable. On the other hand, when a syllable is extracted in a bi-gram manner among the engrams, one syllable before and after the reference syllable can be combined to extract a plurality of syllables. For example, if the reference syllable is 'si', the syllable can be extracted in the form of 'six si' and 'si si' when the syllable is extracted by the bi-gram method. On the other hand, if a syllable is extracted in the form of a trigram, the syllable can be extracted in the form of "five o'clock", "ss", and "six o'clock".

이러한 과정을 거쳐 복수의 음절이 추출되면, 의미 추론 장치(200)는 기 구축된 언어 사전 데이터베이스를 이용하여 하나 이상의 의미 자질을 추출한다(S205).When a plurality of syllables are extracted through this process, the semantic inference device 200 extracts one or more semantic features using the pre-built language dictionary database (S205).

여기서, 의미 자질은 적어도 하나의 음절에 대응하여 설정될 수 있는 의미 있는 어휘를 의미하는 것으로, 예를 들어, 추출된 음절이 '다섯 시'일 경우, 상기 '다섯 시'에 대한 의미 자질은 '오후', '시간', '약속' 등과 같이 상기 음절에 대응하여 설정될 수 있는 모든 의미 있는 어휘의 집합이 될 수 있다. 아울러, 본 발명의 의미 자질은 음절에 대한 상위어, 하위어, 등위어, 전체어, 부분어, 관련어 등 대응하여 설정될 수 있는 모든 관련된 어휘를 의미할 수 있다. 이때의 의미 자질을 사용자 설정 또는 기 정의된 키워드 추출 알고리즘에 따라 음절에 대응하여 설정될 수 있다. 예를 들어, 전술한 상기 '다섯 시' 음절에 대한 의미 자질 '오후', '시간', '약속'은 키워드 사전을 이용하여 추출된 정보가 될 수 있다. 또 다른 예를 들어, 추출된 음절이 '스탈벅스'일 경우, 상기 '스탈벅스' 음절에 대응하여 저장된 상위어 '커피숍', 등위어 '스벅', '별다방', 관련어 '이디아', '탐앤탐스' 등이 의미 자질로 설정될 수 있다. 이때, 상기 '스탈벅스' 음절이 잘못된 음성 인식에 따른 오류 음절이더라도 본 발명의 언어 사전 데이터베이스는 잘못된 음성 인식에 따른 오류 음절도 워드넷으로 구축하여 관리할 수 있으므로, '스탈벅스'에 대응하여 기 저장된 등위어인 '스타벅스'를 먼저 확인하고, 확인된 '스타벅스'에 대한 상위어, 관련어, 하위어 등을 의미 자질로 추출할 수 있다. For example, if the extracted syllable is' five o'clock ', the semantic quality of the' o'-o'clock 'is' May be a set of all meaningful vocabularies that can be set corresponding to the syllable, such as 'afternoon', 'time', 'promise', and the like. In addition, the semantic qualities of the present invention may mean all related vocabulary corresponding to syllables such as a parent word, a lower word, an equal word, a whole word, a partial word, an association, and the like. The meaning qualities at this time can be set according to the syllable according to the user setting or the pre-defined keyword extraction algorithm. For example, the meaning qualities 'afternoon', 'time', and 'promise' for the 'five o'clock' syllable may be information extracted using a keyword dictionary. In another example, when the extracted syllable is' Stallbucks', the 'Coffee Shop', 'Swab', 'Star Cafe', and ' And 'Tom and Toms' can be set as meaning qualities. At this time, even if the 'Stallbucks' syllable is an erroneous syllable due to erroneous speech recognition, the language dictionary database of the present invention can construct and manage erroneous syllables due to erroneous speech recognition using WordNet, We can first check the stored starbucks 'Starbucks' and extract the synonyms, related words, and subordinates of the identified 'Starbucks' as meaningful qualities.

이러한 의미 자질이 추출되면, 의미 추론 장치(200)는 학습 알고리즘을 이용하여 추출된 음절 및 의미 자질을 이용하여 의미를 추론하게 된다(S207). 여기서 학습 알고리즘은 다양한 학습 알고리즘을 이용할 수 있다. 예컨대, SVM(Support Vector Machine), 최대 엔트로피(ME; Maximum Entropy), 조건적 임의 필드(CRF; Conditional Random Field)와 같은 학습 알고리즘을 적용하여 의미를 추론할 수 있다. When such a semantic feature is extracted, the semantic inference device 200 inferences the meaning using the extracted syllable and semantic feature using the learning algorithm (S207). Here, learning algorithms can use various learning algorithms. For example, meaning can be inferred by applying learning algorithms such as Support Vector Machine (SVM), Maximum Entropy (ME), and Conditional Random Field (CRF).

그리고, 의미 추론 장치(200)는 추론된 의미 추론 결과를 출력하게 된다(S209). 이때 의미 추론 장치(200)가 일 장치 내의 모듈 형태로 존재하는 경우, 상기 장치 내의 상기 의미 분석 결과에 대응하는 기능을 수행하는 모듈로 상기 의미 분석 결과를 제공할 수 있다. 예를 들어, 상기 의미 추론 결과가 '일정 추가'일 경우, 의미 추론 장치(200)는 일정 관리 어플리케이션으로 상기 의미 추론 결과를 전달할 수 있다. 반면, 상기 의미 추론 장치(200)가 웹 서버 형태로 존재하는 경우, 상기 의미 추론 장치(200)는 음성 신호가 입력된 사용자의 단말로 통신망을 거쳐 상기 의미 추론 결과를 전달하는 과정을 지원할 수 있다. Then, the semantic reasoning device 200 outputs the inferred semantic reasoning result (S209). In this case, if the semantic reasoning device 200 exists as a module in a device, the semantic analysis result may be provided to a module that performs a function corresponding to the semantic analysis result in the device. For example, if the semantic reasoning result is 'add schedule', the semantic reasoning device 200 can deliver the semantic reasoning result to the schedule management application. Meanwhile, if the semantic inference apparatus 200 exists in the form of a web server, the semantic inference apparatus 200 may support a process of transmitting the semantic inference result through a communication network to a user's terminal to which a voice signal is input .

이상으로 본 발명의 실시 예에 따른 음성 인식 오류에 강인한 의미 추론 방법에 대해 설명하였다. Thus, the semantic reasoning method robust to the speech recognition error according to the embodiment of the present invention has been described.

상술한 바와 같은 본 발명의 음성 인식 오류에 강인한 의미 추론 방법은 컴퓨터 프로그램 명령어와 데이터를 저장하기에 적합한 컴퓨터로 판독 가능한 매체의 형태로 제공될 수도 있다. 본 발명의 일 실시 예에 따른 음성 인식 오류에 강인한 의미 추론 방법을 구현하기 위한 기록매체에 기록되는 프로그램은 의미 추론 장치가 음성 인식 결과 텍스트를 수신하는 단계, 상기 의미 추론 장치가 상기 수신된 음성 인식 결과 텍스트에서 복수의 음절을 추출하는 단계 및 상기 의미 추론 장치가 상기 추출된 복수의 음절에서 기 구축된 언어 사전 데이터베이스를 이용하여 하나 이상의 의미 자질을 추출하는 단계 등을 실행할 수 있다. The semantic reasoning method robust against the speech recognition error of the present invention as described above may be provided in the form of a computer readable medium suitable for storing computer program instructions and data. A program recorded on a recording medium for implementing a semantic reasoning method robust against a speech recognition error according to an embodiment of the present invention includes a step of receiving a speech recognition result text by a semantic reasoning device, Extracting a plurality of syllables from the resultant text, and extracting one or more semantic qualities using the language dictionary database constructed from the extracted plurality of syllables by the semantic inference apparatus.

이때, 기록매체에 기록된 프로그램은 컴퓨터에서 읽히어 설치되고 실행됨으로써 전술한 기능들을 실행할 수 있다. At this time, the program recorded on the recording medium can be read and installed in the computer and executed, thereby executing the above-described functions.

여기서, 컴퓨터가 기록매체에 기록된 프로그램을 읽어 들여 프로그램으로 구현된 기능들을 실행시키기 위하여, 전술한 프로그램은 컴퓨터의 프로세서(CPU)가 컴퓨터의 장치 인터페이스(Interface)를 통해 읽힐 수 있는 C, C++, JAVA, 기계어 등의 컴퓨터 언어로 코드화된 코드(Code)를 포함할 수 있다. In order to allow a computer to read a program recorded on a recording medium and to execute functions implemented by the program, the above-mentioned program may be stored in a computer-readable medium such as C, C ++, JAVA, machine language, and the like.

이러한 코드는 전술한 기능들을 정의한 함수 등과 관련된 기능적인 코드(Function Code)를 포함할 수 있고, 전술한 기능들을 컴퓨터의 프로세서가 소정의 절차대로 실행시키는데 필요한 실행 절차 관련 제어 코드를 포함할 수도 있다. 또한, 이러한 코드는 전술한 기능들을 컴퓨터의 프로세서가 실행시키는데 필요한 추가 정보나 미디어가 컴퓨터의 내부 또는 외부 메모리의 어느 위치(주소 번지)에서 참조 되어야 하는지에 대한 메모리 참조 관련 코드를 더 포함할 수 있다. 또한, 컴퓨터의 프로세서가 전술한 기능들을 실행시키기 위하여 원격(Remote)에 있는 어떠한 다른 컴퓨터나 서버 등과 통신이 필요한 경우, 코드는 컴퓨터의 프로세서가 컴퓨터의 통신 모듈을 이용하여 원격(Remote)에 있는 어떠한 다른 컴퓨터나 서버 등과 어떻게 통신해야만 하는지, 통신 시 어떠한 정보나 미디어를 송수신해야 하는지 등에 대한 통신 관련 코드를 더 포함할 수도 있다.The code may include a function code related to a function or the like that defines the functions described above and may include an execution procedure related control code necessary for the processor of the computer to execute the functions described above according to a predetermined procedure. In addition, such code may further include memory reference related code as to what additional information or media needed to cause the processor of the computer to execute the aforementioned functions should be referenced at any location (address) of the internal or external memory of the computer . In addition, when a processor of a computer needs to communicate with any other computer or server that is remote to execute the above-described functions, the code may be stored in a memory of the computer using a communication module of the computer, It may further include a communication-related code such as how to communicate with another computer or a server, and what information or media should be transmitted or received during communication.

이러한, 컴퓨터 프로그램 명령어와 데이터를 저장하기에 적합한 컴퓨터로 판독 가능한 매체는, 예컨대 기록매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 및 롬(ROM, Read Only Memory), 램(RAM, Random Access Memory), 플래시 메모리, EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM)과 같은 반도체 메모리를 포함한다. 프로세서와 메모리는 특수 목적의 논리 회로에 의해 보충되거나, 그것에 통합될 수 있다. Such computer-readable media suitable for storing computer program instructions and data include, for example, magnetic media such as hard disks, floppy disks and magnetic tape, compact disk read only memory (CD-ROM) Optical media such as a DVD (Digital Video Disk), a magneto-optical medium such as a floppy disk, and a ROM (Read Only Memory), a RAM , Random Access Memory), flash memory, EPROM (Erasable Programmable ROM), and EEPROM (Electrically Erasable Programmable ROM). The processor and memory may be supplemented by, or incorporated in, special purpose logic circuits.

또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 본 발명을 구현하기 위한 기능적인(Functional) 프로그램과 이와 관련된 코드 및 코드 세그먼트 등은, 기록매체를 읽어서 프로그램을 실행시키는 컴퓨터의 시스템 환경 등을 고려하여, 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론되거나 변경될 수도 있다.The computer readable recording medium may also be distributed over a networked computer system so that computer readable code can be stored and executed in a distributed manner. The functional program for implementing the present invention and the related code and code segment may be implemented by programmers in the technical field of the present invention in consideration of the system environment of the computer that reads the recording medium and executes the program, Or may be easily modified or modified by the user.

본 명세서는 다수의 특정한 구현물의 세부사항들을 포함하지만, 이들은 어떠한 발명이나 청구 가능한 것의 범위에 대해서도 제한적인 것으로서 이해되어서는 안되며, 오히려 특정한 발명의 특정한 실시형태에 특유할 수 있는 특징들에 대한 설명으로서 이해되어야 한다. 개별적인 실시형태의 문맥에서 본 명세서에 기술된 특정한 특징들은 단일 실시형태에서 조합하여 구현될 수도 있다. 반대로, 단일 실시형태의 문맥에서 기술한 다양한 특징들 역시 개별적으로 혹은 어떠한 적절한 하위 조합으로도 복수의 실시형태에서 구현 가능하다. 나아가, 특징들이 특정한 조합으로 동작하고 초기에 그와 같이 청구된 바와 같이 묘사될 수 있지만, 청구된 조합으로부터의 하나 이상의 특징들은 일부 경우에 그 조합으로부터 배제될 수 있으며, 그 청구된 조합은 하위 조합이나 하위 조합의 변형물로 변경될 수 있다.While the specification contains a number of specific implementation details, it should be understood that they are not to be construed as limitations on the scope of any invention or claim, but rather on the description of features that may be specific to a particular embodiment of a particular invention Should be understood. Certain features described herein in the context of separate embodiments may be implemented in combination in a single embodiment. Conversely, various features described in the context of a single embodiment may also be implemented in multiple embodiments, either individually or in any suitable subcombination. Further, although the features may operate in a particular combination and may be initially described as so claimed, one or more features from the claimed combination may in some cases be excluded from the combination, Or a variant of a subcombination.

마찬가지로, 특정한 순서로 도면에서 동작들을 묘사하고 있지만, 이는 바람직한 결과를 얻기 위하여 도시된 그 특정한 순서나 순차적인 순서대로 그러한 동작들을 수행하여야 한다거나 모든 도시된 동작들이 수행되어야 하는 것으로 이해되어서는 안 된다. 특정한 경우, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다. 또한, 상술한 실시형태의 다양한 시스템 컴포넌트의 분리는 그러한 분리를 모든 실시형태에서 요구하는 것으로 이해되어서는 안되며, 설명한 프로그램 컴포넌트와 시스템들은 일반적으로 단일의 소프트웨어 제품으로 함께 통합되거나 다중 소프트웨어 제품에 패키징 될 수 있다는 점을 이해하여야 한다.Likewise, although the operations are depicted in the drawings in a particular order, it should be understood that such operations must be performed in that particular order or sequential order shown to achieve the desired result, or that all illustrated operations should be performed. In certain cases, multitasking and parallel processing may be advantageous. Also, the separation of the various system components of the above-described embodiments should not be understood as requiring such separation in all embodiments, and the described program components and systems will generally be integrated together into a single software product or packaged into multiple software products It should be understood.

본 발명은 의미 추론 방법에 관한 것으로, 더욱 상세하게는 음성 인식 결과 텍스트를 복수의 음절로 분리하여 추출하고, 이를 기 구축된 언어 사전 데이터베이스와 비교하여 의미 자질을 추출한 후 이를 이용하여 의미를 추론함으로써, 음성 인식 오류에 강인하게 의미 추론이 가능한 음성 인식 오류에 강인한 의미 추론 방법 및 이를 위한 장치에 관한 것이다. The present invention relates to a semantic reasoning method, more specifically, extracting a speech recognition result text into a plurality of syllables, extracting semantic qualities by comparing them with a previously prepared language dictionary database, To a method of semantic reasoning robust to speech recognition errors capable of semantically inferring robust to speech recognition errors, and to an apparatus therefor.

본 발명에 의하면, 음성 인식 결과 텍스트를 복수의 음절로 분리하여 추출하고, 이를 기 구축된 언어 사전 데이터베이스와 비교하여 의미 자질을 추출한 후 이를 이용하여 의미를 추론함으로써, 화자의 발성 의도를 명확하게 추론하고 음성 인식 오류에 강인하게 동작할 수 있게 된다. According to the present invention, by extracting the speech recognition result text into a plurality of syllables, extracting the semantic qualities by comparing them with the pre-established language dictionary database, and deducing the meaning using the extracted semantic qualities, the speech utterance intention is clearly inferred And can operate robustly against speech recognition errors.

이를 통해 본 발명은 음성 인식 기술의 발전에 이바지함은 물론 시판 또는 영업의 가능성이 충분할 뿐만 아니라 현실적으로 명백하게 실시할 수 있는 정도이므로 산업상 이용가능성이 있다.Accordingly, the present invention not only contributes to the development of speech recognition technology, but also has a possibility of commercialization or sales, and is practically usable.

100: 음성 인식 장치 200: 의미 추론 장치
210: 음성 인식 결과 수신부 220: 음절 추출부
230: 의미 자질 추출부 240: 의미 추론부
250: 결과 출력부 260: 언어 사전 데이터베이스
261: 워드넷 262: 키워드 사전
263: 학습 모델 500: 의미 추론 시스템
100: speech recognition device 200: semantic reasoning device
210: speech recognition result receiving unit 220: syllable extracting unit
230: Semantic feature extraction unit 240: Semantic reasoning unit
250: Result output section 260: Language dictionary database
261: WordNet 262: Keyword Dictionary
263: Learning model 500: Semantic reasoning system

Claims (8)

의미 추론 장치가 음성 인식 결과 텍스트를 수신하는 단계;
상기 의미 추론 장치가 상기 수신된 음성 인식 결과 텍스트에서 복수의 음절을 추출하는 단계; 및
상기 의미 추론 장치가 상기 추출된 복수의 음절에서 기 구축된 언어 사전 데이터베이스를 이용하여 하나 이상의 의미 자질을 추출하는 단계;
를 포함하는 것을 특징으로 하는 음성 인식 오류에 강인한 의미 추론 방법.
Receiving a speech recognition result text by a semantic reasoning device;
Extracting a plurality of syllables from the received speech recognition result text; And
Extracting one or more semantic qualities using the language dictionary database constructed from the extracted plurality of syllables;
Wherein the speech recognition error is robust to the speech recognition error.
제1 항에 있어서,
상기 복수의 음절을 추출하는 단계는
상기 의미 추론 장치가 띄어쓰기 규칙 또는 형태소와 무관하게 기준 음절에 따라 전후 일정 개소의 음절을 복수의 음절로 추출하는 것을 특징으로 하는 음성 인식 오류에 강인한 의미 추론 방법.
The method according to claim 1,
The step of extracting the plurality of syllables
Wherein the semantic inference apparatus extracts a syllable of a certain portion of the front and back in a plurality of syllables according to a reference syllable regardless of a space rule or a morpheme.
제2 항에 있어서,
상기 의미 추론 장치가 상기 복수의 음절로 추출 시 엔그램(N-gram) 방식을 이용하여 복수의 음절로 추출하는 것을 특징으로 하는 음성 인식 오류에 강인한 의미 추론 방법.
3. The method of claim 2,
Wherein the semantic inference apparatus extracts a plurality of syllables using an N-gram scheme when extracting the plurality of syllables.
제1 항에 있어서,
상기 하나 이상의 의미 자질을 추출하는 단계는
기 구축된 언어 사전 데이터베이스의 상위어, 하위어, 등위어, 전체어, 부분어, 관련어 정보를 포함하는 워드넷과 설정 가능한 키워드 사전을 이용하여 상기 추출된 복수의 음절에 대응하여 설정된 의미 있는 어휘를 의미 자질로 추출하는 것을 특징으로 하는 음성 인식 오류에 강인한 의미 추론 방법.
The method according to claim 1,
Wherein extracting the one or more semantic features comprises:
A meaningful vocabulary set corresponding to the plurality of extracted syllables is extracted using a word dictionary including a word, an upper word, a lower word, an equal word, a whole word, a partial word, Wherein the speech recognition error is extracted as a semantic feature.
제4 항에 있어서,
상기 키워드 사전은 사용자 설정에 따라 또는 기 정의된 키워드 추출 알고리즘을 이용하여 구축되는 것을 특징으로 하는 음성 인식 오류에 강인한 의미 추론 방법.
5. The method of claim 4,
Wherein the keyword dictionary is constructed according to a user setting or by using a predefined keyword extraction algorithm.
제1 항에 있어서,
상기 하나 이상의 의미 자질을 추출하는 단계 이후에,
상기 의미 추론 장치가 상기 추출된 복수의 음절과 상기 추출된 의미 자질을 기 정의된 학습 알고리즘을 이용하여 의미를 추론하는 단계; 및
상기 의미 추론 장치가 상기 추론된 의미 추론 결과를 출력하는 단계;
를 더 포함하는 것을 특징으로 하는 음성 인식 오류에 강인한 의미 추론 방법.
The method according to claim 1,
After extracting the one or more semantic features,
Wherein the semantic reasoning device deduces meaning by using a learning algorithm defined by the extracted syllable and the extracted semantic feature; And
The semantic inference device outputting the inferred semantic reasoning result;
Further comprising the step of determining whether the speech recognition error is robust to the speech recognition error.
제1항 내지 제6항 중 어느 하나의 항에 기재된 음성 인식 오류에 강인한 의미 추론 방법을 실행하는 프로그램을 기록한 컴퓨터 판독 가능한 기록매체.A computer-readable recording medium recording a program for executing a semantic reasoning method robust against the speech recognition error described in any one of claims 1 to 6. 수신된 음성 인식 결과 텍스트에서 복수의 음절을 추출하는 음절 추출부;
상기 음절 추출부를 통해 추출된 복수의 음절을 기 구축된 언어 사전 데이터베이스를 이용하여 하나 이상의 의미 자질을 추출하는 의미 자질 추출부; 및
상기 음절 추출부를 통해 추출된 복수의 음절과, 상기 의미 자질 추출부를 통해 추출된 의미 자질을 이용하여 상기 음성 인식 결과 텍스트에 대한 의미를 추론하는 의미 추론부;
를 포함하는 것을 특징으로 하는 의미 추론 장치.

A syllable extractor for extracting a plurality of syllables from the received speech recognition result text;
A semantic feature extraction unit for extracting one or more semantic features using a pre-built language dictionary database of a plurality of syllables extracted through the syllable extractor; And
A semantic reasoning unit for inferring a meaning of the speech recognition result text using a plurality of syllables extracted through the syllable extracting unit and a semantic feature extracted through the semantic feature extracting unit;
Wherein the semantic reasoning device comprises:

KR1020140164204A 2014-11-24 2014-11-24 Method for reasoning of semantic robust on speech recognition error Active KR102199444B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140164204A KR102199444B1 (en) 2014-11-24 2014-11-24 Method for reasoning of semantic robust on speech recognition error

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140164204A KR102199444B1 (en) 2014-11-24 2014-11-24 Method for reasoning of semantic robust on speech recognition error

Publications (2)

Publication Number Publication Date
KR20160062254A true KR20160062254A (en) 2016-06-02
KR102199444B1 KR102199444B1 (en) 2021-01-07

Family

ID=56135444

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140164204A Active KR102199444B1 (en) 2014-11-24 2014-11-24 Method for reasoning of semantic robust on speech recognition error

Country Status (1)

Country Link
KR (1) KR102199444B1 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200055897A (en) * 2018-11-14 2020-05-22 삼성전자주식회사 Electronic device for recognizing abbreviated content name and control method thereof
KR20220035222A (en) * 2019-11-25 2022-03-21 아이플라이텍 캄파니 리미티드 Speech recognition error correction method, related devices, and readable storage medium
KR20230040951A (en) * 2020-05-18 2023-03-23 아이플라이텍 캄파니 리미티드 Speech recognition method, apparatus and device, and storage medium

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08235182A (en) * 1995-02-28 1996-09-13 Canon Inc Text processing method and device
JP2002140094A (en) * 2000-11-01 2002-05-17 Mitsubishi Electric Corp Speech recognition device, speech recognition method, and computer-readable recording medium recording speech recognition program
JP2004264719A (en) * 2003-03-04 2004-09-24 Advanced Telecommunication Research Institute International Speech recognition device and computer program
JP2007256836A (en) * 2006-03-24 2007-10-04 Toshiba Corp Speech recognition apparatus, speech recognition method, and speech recognition program
KR20100069120A (en) 2008-12-16 2010-06-24 한국전자통신연구원 Method for tagging morphology by using prosody modeling and its apparatus
KR20130029696A (en) * 2011-09-15 2013-03-25 울산대학교 산학협력단 Analysis device and method for analysis of compound nouns

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08235182A (en) * 1995-02-28 1996-09-13 Canon Inc Text processing method and device
JP2002140094A (en) * 2000-11-01 2002-05-17 Mitsubishi Electric Corp Speech recognition device, speech recognition method, and computer-readable recording medium recording speech recognition program
JP2004264719A (en) * 2003-03-04 2004-09-24 Advanced Telecommunication Research Institute International Speech recognition device and computer program
JP2007256836A (en) * 2006-03-24 2007-10-04 Toshiba Corp Speech recognition apparatus, speech recognition method, and speech recognition program
KR20100069120A (en) 2008-12-16 2010-06-24 한국전자통신연구원 Method for tagging morphology by using prosody modeling and its apparatus
KR20130029696A (en) * 2011-09-15 2013-03-25 울산대학교 산학협력단 Analysis device and method for analysis of compound nouns

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200055897A (en) * 2018-11-14 2020-05-22 삼성전자주식회사 Electronic device for recognizing abbreviated content name and control method thereof
KR20220035222A (en) * 2019-11-25 2022-03-21 아이플라이텍 캄파니 리미티드 Speech recognition error correction method, related devices, and readable storage medium
KR20230040951A (en) * 2020-05-18 2023-03-23 아이플라이텍 캄파니 리미티드 Speech recognition method, apparatus and device, and storage medium

Also Published As

Publication number Publication date
KR102199444B1 (en) 2021-01-07

Similar Documents

Publication Publication Date Title
US12499892B2 (en) Method and apparatus to provide comprehensive smart assistant services
CN112927683B (en) Method for modifying a set of one or more wake-up words for a voice-enabled device
US10027662B1 (en) Dynamic user authentication
Kumar et al. A Hindi speech recognition system for connected words using HTK
US9640175B2 (en) Pronunciation learning from user correction
US10176809B1 (en) Customized compression and decompression of audio data
KR102097710B1 (en) Apparatus and method for separating of dialogue
CN109686383B (en) Voice analysis method, device and storage medium
US11024298B2 (en) Methods and apparatus for speech recognition using a garbage model
KR20230107860A (en) Voice personalization and federation training using real noise
CN116235245A (en) Improving speech recognition transcription
CN104969288A (en) Methods and systems for providing speech recognition systems based on speech recordings logs
CN111243599A (en) Speech recognition model construction method, device, medium and electronic equipment
CN110503956A (en) Audio recognition method, device, medium and electronic equipment
Hämäläinen et al. Multilingual speech recognition for the elderly: The AALFred personal life assistant
US20250149036A1 (en) Preemptive wakeword detection
Sahu et al. A study on automatic speech recognition toolkits
KR20160062254A (en) Method for reasoning of semantic robust on speech recognition error
CN110809796A (en) Speech recognition system and method with decoupled wake-up phrase
US12315502B1 (en) On-device commands utilizing utterance patterns
Rahim et al. Robust numeric recognition in spoken language dialogue
US11176930B1 (en) Storing audio commands for time-delayed execution
Sharan et al. Speaker-independent recognition system for continuous Hindi speech using probabilistic model
Syadida et al. Sphinx4 for indonesian continuous speech recognition system
KR20140077423A (en) Speech model storing method of the Multi-Model based Speech Recognition

Legal Events

Date Code Title Description
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20141124

PG1501 Laying open of application
A201 Request for examination
PA0201 Request for examination

Patent event code: PA02012R01D

Patent event date: 20181025

Comment text: Request for Examination of Application

Patent event code: PA02011R01I

Patent event date: 20141124

Comment text: Patent Application

E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20200218

Patent event code: PE09021S01D

E701 Decision to grant or registration of patent right
PE0701 Decision of registration

Patent event code: PE07011S01D

Comment text: Decision to Grant Registration

Patent event date: 20201028

GRNT Written decision to grant
PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20201230

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20201230

End annual number: 3

Start annual number: 1

PG1601 Publication of registration
PR1001 Payment of annual fee

Payment date: 20240919

Start annual number: 5

End annual number: 5