[go: up one dir, main page]

KR20160059640A - Method for recognition voice apply to multi voice recognition module and voice recognition apparatus thereof - Google Patents

Method for recognition voice apply to multi voice recognition module and voice recognition apparatus thereof Download PDF

Info

Publication number
KR20160059640A
KR20160059640A KR1020140161354A KR20140161354A KR20160059640A KR 20160059640 A KR20160059640 A KR 20160059640A KR 1020140161354 A KR1020140161354 A KR 1020140161354A KR 20140161354 A KR20140161354 A KR 20140161354A KR 20160059640 A KR20160059640 A KR 20160059640A
Authority
KR
South Korea
Prior art keywords
speech recognition
keyword
category
keywords
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
KR1020140161354A
Other languages
Korean (ko)
Other versions
KR102342571B1 (en
Inventor
김영준
Original Assignee
에스케이텔레콤 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이텔레콤 주식회사 filed Critical 에스케이텔레콤 주식회사
Priority to KR1020140161354A priority Critical patent/KR102342571B1/en
Publication of KR20160059640A publication Critical patent/KR20160059640A/en
Application granted granted Critical
Publication of KR102342571B1 publication Critical patent/KR102342571B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 다중 음성인식모듈을 적용한 다중 음성 인식 방법 및 이를 위한 음성인식장치에 관한 것으로서, 특히, 키워드 음성인식과 연속 음성인식을 단계적으로 적용하여 발성한 음성을 분석한다. 이를 통해, 고객의 녹취 데이터를 문자로 변환하여 문제 파일 검색, 상담사 관리 및 마케팅 툴에 사용 가능하다. 또한, 음성인식의 정확도가 낮은 녹취 데이터에 대한 다중 음성인식 성능을 향상시킴으로써 빅 데이터 기반의 음성분석에 활용할 수 있다. 또한, 키워드 음성인식을 이용한 언어모델을 선정하여 연속 음성인식에 적용할 수 있기 때문에, 다양한 음성인식 서비스를 위한 음성인식 속도와 성능을 개선할 수 있다.[0001] The present invention relates to a multiple speech recognition method using a multiple speech recognition module and a speech recognition apparatus for the same. More particularly, speech speech is analyzed by applying keyword speech recognition and continuous speech recognition step by step. Through this, it is possible to convert recorded data of a customer into a character and use it for problem file search, counselor management and marketing tool. In addition, by improving the performance of multiple speech recognition for low-accuracy recorded speech data, it can be utilized for voice analysis based on big data. In addition, since a language model using keyword speech recognition can be selected and applied to continuous speech recognition, speech recognition speed and performance for various speech recognition services can be improved.

Description

다중 음성인식모듈을 적용한 음성 인식 방법 및 이를 위한 음성인식장치{Method for recognition voice apply to multi voice recognition module and voice recognition apparatus thereof}BACKGROUND OF THE INVENTION 1. Field of the Invention [0001] The present invention relates to a voice recognition method using a multi-voice recognition module,

본 발명은 음성 인식 기술에 관한 것으로, 더욱 상세하게는 키워드 음성인식과 연속 음성인식을 단계적으로 적용하여 발성한 음성을 분석하는 다중 음성인식모듈을 적용한 다중 음성 인식 방법 및 이를 위한 음성인식장치에 관한 것이다.The present invention relates to a speech recognition technology, and more particularly, to a multiple speech recognition method using a multiple speech recognition module for analyzing voiced speech by stepwise applying keyword speech recognition and continuous speech recognition, and a speech recognition device therefor will be.

음성인식 기술을 사용하여 기계와 사람간의 인터페이스를 보다 편리하고 자연스럽게 만들고자 하는 노력이 국내외에서 꾸준히 진행되어 오고 있으며, 그 결과 단순한 단어 인식 수준을 넘어 자연스럽게 발성한 음성도 처리할 수 있는 수준으로 발전되어 왔다. 음성인식 기술은 지난 20세기 후반의 지속적인 기술개발에 힘입어 다양한 분야에서 실생활에 이용될 수 있는 수준으로 발전되어 왔지만, 우리가 상상하는 수많은 응용 분야에 적극적으로 이용되기에는 아직 해결해야 할 기술적 과제가 산적해 있는 실정이다.Efforts to make the interface between machine and person more convenient and natural by using speech recognition technology have been progressed steadily at home and abroad, and as a result, it has been developed to a level that can process natural voiced speech beyond simple word recognition level . Speech recognition technology has evolved into a level that can be used in real life in various fields thanks to continuous technology development in the latter half of the 20th century. However, in order to be actively used in many application fields that we imagine, It is a fact that it is piled up.

최근에 이러한 자연어 음성인식 처리 기술을 활용하여 사용자들에게 보다 편리한 서비스를 제공하려는 노력들이 국내에서도 통신사 및 금융기관을 중심으로 일어나고 있다. 스마트폰에서도 제한된 키보드를 통한 입력의 어려움을 개선하기 위해 음성인식 지원기능이 무선 모바일 기기 등에서 필수 기능이 되고 있다. 이에 대한 솔루션으로 현재 애플은 음성인식 서비스인 시리(Siri)를 안드로이드(Android) 진영에서는 구글 보이스를 사용하고 있다.In recent years, efforts to provide users with more convenient services by utilizing such natural language speech recognition processing technology have been taking place in domestic communication companies and financial institutions. In order to improve the difficulty of inputting through a limited keyboard in a smartphone, voice recognition support function becomes a necessary function in a wireless mobile device and the like. As a solution to this problem, Apple is currently using Siri, a voice recognition service, and Google Voice, for Android.

하지만, 구글에서는 아직까지 영어 이외의 언어에 대한 인식에는 크게 영향을 못 미치고 있어서, 각 언어별로 연구되고 있다. 음성인식은 일반적인 영역뿐 만 아니라, 시각 장애인들을 위한 여러 서비스들에서도 매우 유용하게 사용될 수 있는 기술이다.However, Google has not yet significantly influenced perceptions of languages other than English, so it is being studied for each language. Speech recognition is a technology that can be used not only in general areas but also in many services for the visually impaired.

실생활에서의 음성인식은 말하는 지식, 의미, 문법, 문장요소, 단어 등이 음성 근육의 움직임에 따라 생리학적으로 말이 듣는 사람 귀에 전달되어 의미화 지식이 전달되는 과정을 제공한다. 정보과학 분야에서는 음성에 포함된 음향학적 정보로부터 음운 및 언어적 정보를 취득하여 이를 사람이 아닌 기기가 인지하고 반응하게 만드는 일련의 과정이다. 특히, 음성 처리는 대화모드, 화자모드, 단어크기, 대화 스타일에 따라 분류되어 이 기준에 따라 음성인식 시스템을 구성한다.Speech recognition in real life provides a process in which knowledge, meaning, grammar, sentence elements, words and so on are transmitted to the ear of a speaker physiologically according to the movement of the voice muscle to convey the knowledge of meaning. In the field of information science, phonological and linguistic information is acquired from the acoustical information contained in the voice, and it is a series of processes that make the device recognize and respond to the person. Particularly, speech processing is classified according to a dialog mode, a speaker mode, a word size, and a dialogue style, and forms a speech recognition system according to the criteria.

이와 함께, 최근에는 고객의 녹취 데이터를 문자로 변환하여 문제 파일 검색, 상담사 관리, 마케팅 툴에 많이 사용하고 있다. 하지만, 녹취 데이터에 포함된 모든 음성데이터를 텍스트로 전환하는데 사용하는 음성인식 엔진의 성능은 많은 서비스를 가진 회사일수록 인식해야 할 대상이 많아지기 때문에, 낮은 성능을 가지게 된다.At the same time, recently, the recorded data of a customer is converted into a character, which is often used for problem file search, counselor management, and marketing tool. However, the performance of the speech recognition engine, which is used to convert all the voice data included in the recorded data into text, has a low performance because the number of objects to be recognized is increased as a company having many services.

한국공개특허 10-2004-0055417 A, 2004년 06월 26일 공개 (명칭: 대화체 연속음성인식 장치 및 방법)Korean Patent Laid-open Publication No. 10-2004-0055417 A, June 26, 2004 (Name: Speech Recognition Device and Method)

이러한 종래의 문제점을 해결하기 위하여, 본 발명의 목적은 음성인식 대상을 한정하고, 이에 맞는 언어모델을 선택하여 적용함으로써, 성능 향상을 이루고자 하며, 키워드 음성인식을 이용하여 한정 분야를 선별하고, 선별된 분야에 대한 언어모델을 적용하여 연속 음성인식을 수행하는 다중 음성인식모듈을 적용한 음성 인식 방법 및 이를 위한 음성인식장치를 제공하고자 한다.In order to solve such conventional problems, it is an object of the present invention to improve performance by limiting a speech recognition target and selecting and applying a language model corresponding to the selected speech recognition target, And a speech recognition device for the same. [0002] The present invention relates to a speech recognition method and a speech recognition method.

상술한 바와 같은 목적을 달성하기 위한 본 발명의 실시 예에 따른 다중 음성인식모듈을 적용한 음성 인식 방법은 음성인식장치가 키워드 음성인식을 위한 다수의 키워드를 등록하는 단계와, 음성인식장치가 등록된 키워드를 검색 기준으로 설정하여 음성데이터에 대한 키워드 음성인식을 수행하는 단계와, 음성인식장치가 키워드 음성인식을 통해 검색된 키워드 수를 카테고리 별로 확인하는 단계와, 음성인식장치가 확인된 키워드 수를 기준으로 기준 카테고리를 결정하는 단계 및 음성인식장치가 기준 카테고리와 관련된 언어모델을 적용하여 음성데이터에 대한 연속 음성인식을 수행하는 단계를 실행하는 프로그램을 기록한 컴퓨터 판독 가능한 기록매체를 제공한다.According to another aspect of the present invention, there is provided a speech recognition method using a multiple speech recognition module, including the steps of registering a plurality of keywords for keyword speech recognition, The method comprising the steps of: performing keyword speech recognition on speech data by setting a keyword as a search criterion; checking the number of keywords searched for by the speech recognition apparatus by the speech recognition apparatus on a category basis; And a step of performing continuous speech recognition on the speech data by applying a language model related to the reference category to the speech recognition apparatus.

또한, 본 발명에 따른 다중 음성인식모듈을 적용한 음성 인식 방법에 있어서, 키워드를 등록하는 단계는 음성인식장치가 각각의 카테고리 별로 포함되는 적어도 하나의 키워드를 등록하는 것을 실행하는 프로그램을 기록한 컴퓨터 판독 가능한 기록매체를 제공한다.Further, in the speech recognition method using the multiple speech recognition module according to the present invention, the step of registering the keyword may include a step of registering at least one keyword included in each category of the speech recognition apparatus, Thereby providing a recording medium.

또한, 본 발명에 따른 다중 음성인식모듈을 적용한 음성 인식 방법에 있어서, 키워드 음성인식을 수행하는 단계는 음성인식장치가 음성데이터 내 등록된 키워드와 매칭되는 키워드를 검색하는 단계 및 음성인식장치가 검색된 키워드를 카테고리 별로 구분하는 단계를 실행하는 프로그램을 기록한 컴퓨터 판독 가능한 기록매체를 제공한다.In the speech recognition method using the multiple speech recognition module according to the present invention, the step of performing keyword speech recognition may include a step of searching for a keyword whose speech recognition device matches a keyword registered in the speech data, There is provided a computer-readable recording medium recording a program for executing a step of dividing a keyword into categories.

또한, 본 발명에 따른 다중 음성인식모듈을 적용한 음성 인식 방법에 있어서, 확인하는 단계는 음성인식장치가 경제, 스포츠, 문화, 교육, 사회, 정치, 복지, 국제, 과학 중 적어도 하나를 포함하는 카테고리 별로 키워드 음성인식을 통해 검색된 키워드를 분류하는 단계 및 음성인식장치가 분류된 키워드 수를 각각의 카테고리 별로 확인하는 단계를 실행하는 프로그램을 기록한 컴퓨터 판독 가능한 기록매체를 제공한다.Further, in the speech recognition method using the multiple speech recognition module according to the present invention, the checking step may include checking whether the speech recognition apparatus is a category including at least one of economy, sports, culture, education, A step of classifying the keywords searched through the keyword speech recognition by the speech recognition device, and a step of checking the number of keywords categorized by the speech recognition device by each category.

또한, 본 발명에 따른 다중 음성인식모듈을 적용한 음성 인식 방법에 있어서, 기준 카테고리를 결정하는 단계는 음성인식장치가 검색된 키워드 수에 따라 카테고리 순서를 정렬하는 단계 및 음성인식장치가 정렬된 카테고리 순서에서 최상위에 있는 카테고리를 기준 카테고리로 결정하는 단계를 실행하는 프로그램을 기록한 컴퓨터 판독 가능한 기록매체를 제공한다.In the speech recognition method using the multiple speech recognition module according to the present invention, the step of determining the reference category includes a step of arranging the category order according to the number of keywords searched by the speech recognition device, There is provided a computer-readable recording medium having recorded thereon a program for executing a step of determining a category at a top level as a reference category.

또한, 본 발명에 따른 다중 음성인식모듈을 적용한 음성 인식 방법에 있어서, 연속 음성인식을 수행하는 단계는 음성인식장치가 결정된 카테고리에 해당하는 언어모델을 선정하는 단계와, 음성인식장치가 음성데이터의 모든 문장을 어절 단위로 구분하는 단계 및 음성인식장치가 어절 단위로 구분된 음성데이터를 선정된 언어모델을 적용하여 인식하는 단계를 실행하는 프로그램을 기록한 컴퓨터 판독 가능한 기록매체를 제공한다.According to another aspect of the present invention, there is provided a speech recognition method using a multiple speech recognition module, the method comprising: selecting a language model corresponding to a category determined by the speech recognition apparatus; There is provided a computer-readable recording medium storing a program for executing a step of dividing all sentences into units of words and a step of recognizing speech data classified by the speech recognition unit by applying a predetermined language model.

본 발명의 실시 예에 따른 음성인식장치는 키워드 음성인식을 위한 다수의 키워드를 등록하고, 등록된 키워드를 검색 기준으로 하여 음성데이터에 대한 키워드 음성인식을 수행하고, 키워드 음성인식을 통해 검색된 키워드 수를 카테고리 별로 확인하고, 확인된 키워드 수를 기준으로 기준 카테고리를 결정하는 키워드 음성인식모듈 및 키워드 음성인식모듈을 통해 결정된 기준 카테고리와 관련된 언어모델을 적용하여 음성데이터에 대한 연속 음성인식을 수행하는 연속 음성인식모듈을 포함하는 것을 특징으로 한다.The speech recognition apparatus according to the embodiment of the present invention registers a plurality of keywords for keyword speech recognition, carries out keyword speech recognition on the speech data using the registered keyword as a search criterion, A keyword speech recognition module for determining a reference category based on the number of confirmed keywords, and a series of continuous speech recognition for speech data by applying a language model related to a reference category determined through a keyword speech recognition module And a voice recognition module.

또한, 본 발명에 따른 음성인식장치에 있어서, 외부로부터 입력되는 음성데이터 및 적어도 하나의 다른 장치로부터 수신되는 음성데이터를 수집하는 음성데이터 수집모듈을 더 포함하는 것을 특징으로 한다.Further, the speech recognition apparatus according to the present invention may further include an audio data collection module for collecting audio data inputted from outside and audio data received from at least one other apparatus.

본 발명에 따르면, 고객의 녹취 데이터를 문자로 변환하여 문제 파일 검색, 상담사 관리 및 마케팅 툴에 사용 가능하다.According to the present invention, it is possible to convert recorded data of a customer into a character, and to use it for problem file search, counselor management, and marketing tool.

또한, 음성인식의 정확도가 낮은 녹취 데이터에 대한 다중 음성인식 성능을 향상시킴으로써 빅 데이터(Big data) 기반의 음성분석에 활용할 수 있다.In addition, by improving the performance of multiple speech recognition for voice data with low accuracy of recorded data, it can be utilized for voice analysis based on Big data.

또한, 키워드 음성인식을 이용한 언어모델을 선정하여 연속 음성인식에 적용할 수 있기 때문에, 다양한 음성인식 서비스를 위한 음성인식 속도와 성능을 개선할 수 있다.In addition, since a language model using keyword speech recognition can be selected and applied to continuous speech recognition, speech recognition speed and performance for various speech recognition services can be improved.

도 1은 본 발명의 실시 예에 따른 음성인식장치의 구성을 나타내는 블록도 이다.
도 2는 본 발명의 실시 예에 따른 다중 음성인식모듈을 적용한 음성 인식 방법을 설명하기 위한 흐름도이다.
도 3은 본 발명의 실시 예에 따른 키워드 음성인식 과정을 설명하기 위한 흐름도이다.
도 4는 본 발명의 실시 예에 따른 연속 음성인식 과정을 설명하기 위한 흐름도이다.
1 is a block diagram showing a configuration of a speech recognition apparatus according to an embodiment of the present invention.
2 is a flowchart illustrating a speech recognition method using a multiple speech recognition module according to an embodiment of the present invention.
3 is a flowchart illustrating keyword speech recognition according to an embodiment of the present invention.
4 is a flowchart illustrating a continuous speech recognition process according to an embodiment of the present invention.

이하 본 발명의 바람직한 실시 예를 첨부한 도면을 참조하여 상세히 설명한다. 다만, 하기의 설명 및 첨부된 도면에서 본 발명의 요지를 흐릴 수 있는 공지 기능 또는 구성에 대한 상세한 설명은 생략한다. 또한, 도면 전체에 걸쳐 동일한 구성 요소들은 가능한 한 동일한 도면 부호로 나타내고 있음에 유의하여야 한다.Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. In the following description and the accompanying drawings, detailed description of well-known functions or constructions that may obscure the subject matter of the present invention will be omitted. It should be noted that the same constituent elements are denoted by the same reference numerals as possible throughout the drawings.

이하에서 설명되는 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위한 용어의 개념으로 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서 본 명세서에 기재된 실시 예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시 예에 불과할 뿐이고, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형 예들이 있을 수 있음을 이해하여야 한다.The terms and words used in the present specification and claims should not be construed to be limited to ordinary or dictionary meanings and the inventor is not limited to the concept of terminology for describing his or her invention in the best way. It should be interpreted as meaning and concept consistent with the technical idea of the present invention. Therefore, the embodiments described in the present specification and the configurations shown in the drawings are merely the most preferred embodiments of the present invention, and not all of the technical ideas of the present invention are described. Therefore, It is to be understood that equivalents and modifications are possible.

이하에서는 본 발명의 실시 예에 따른 음성인식장치는 통신망에 연결되어 다중 음성인식모듈을 통해 음성 인식을 수행하고, 음성 인식 결과를 송수신할 수 있는 이동통신단말기를 대표적인 예로서 설명하지만 단말기는 이동통신단말기에 한정된 것이 아니고, 모든 정보통신기기, 멀티미디어 단말기, 유선 단말기, 고정형 단말기 및 IP(Internet Protocol) 단말기 등의 다양한 단말기에 적용될 수 있다. 또한, 단말기는 휴대폰, PMP(Portable Multimedia Player), MID(Mobile Internet Device), 스마트폰(Smart Phone), 데스크톱(Desktop), 태블릿컴퓨터(Tablet PC), 노트북(Note book), 넷북(Net book) 및 정보통신 기기 등과 같은 다양한 이동통신 사양을 갖는 모바일(Mobile) 단말기일 때 유리하게 활용될 수 있다.Hereinafter, a speech recognition apparatus according to an embodiment of the present invention is described as a representative example of a mobile communication terminal connected to a communication network to perform voice recognition through a multi-voice recognition module and transmit and receive voice recognition results, The present invention can be applied to various terminals such as all information communication devices, multimedia terminals, wired terminals, fixed type terminals and IP (Internet Protocol) terminals. Also, the terminal may be a mobile phone, a portable multimedia player (PMP), a mobile Internet device (MID), a smart phone, a desktop, a tablet PC, a notebook, And an information communication device, which can be advantageously used in a mobile terminal having various mobile communication specifications.

또한, 본 발명에 따른 음성인식장치에 탑재되는 프로세서는 본 발명에 따른 방법을 실행하기 위한 프로그램 명령을 처리할 수 있다. 일 구현 예에서, 이 프로세서는 싱글 쓰레드(Single-threaded) 프로세서일 수 있으며, 다른 구현 예에서 본 프로세서는 멀티 쓰레드(Multi-threaded) 프로세서일 수 있다. 나아가 본 프로세서는 메모리 혹은 저장 장치 상에 저장된 명령을 처리하는 것이 가능하다.Further, a processor mounted on the speech recognition apparatus according to the present invention can process a program command for executing the method according to the present invention. In one implementation, the processor may be a single-threaded processor, and in other embodiments, the processor may be a multi-threaded processor. Further, the processor is capable of processing instructions stored on a memory or storage device.

상술한 본 발명의 실시 예에 따른 다중 음성인식모듈을 적용한 음성인식장치에 대하여 설명하도록 한다.The speech recognition apparatus using the multiple speech recognition module according to the embodiment of the present invention will now be described.

도 1은 본 발명의 실시 예에 따른 음성인식장치의 구성을 나타내는 블록도 이다.1 is a block diagram showing a configuration of a speech recognition apparatus according to an embodiment of the present invention.

도 1을 참조하면, 본 발명에 따른 음성인식장치(100)는 제어부(10), 입력부(20), 표시부(30), 저장부(40), 오디오처리부(50) 및 통신부(60)로 구성된다. 여기서, 제어부(11)는 키워드 음성인식모듈(11), 연속 음성인식모듈(12) 및 음성데이터 수집모듈(13)을 포함하고, 저장부(40)는 음성데이터(41) 및 키워드(42)를 포함한다.1, a speech recognition apparatus 100 according to the present invention includes a control unit 10, an input unit 20, a display unit 30, a storage unit 40, an audio processing unit 50, and a communication unit 60 do. The control unit 11 includes a keyword speech recognition module 11, a continuous speech recognition module 12 and a speech data collection module 13. The storage unit 40 stores speech data 41 and keywords 42, .

입력부(20)는 숫자 및 문자 정보 등의 다양한 정보를 입력 받고, 각종 기능을 설정 및 음성인식장치(100)의 기능 제어와 관련하여 입력되는 신호를 제어부(10)로 전달한다. 또한, 입력부(20)는 사용자의 터치 또는 조작에 따른 입력 신호를 발생하는 키패드와 터치패드 중 적어도 하나를 포함하여 구성될 수 있다. 이때, 입력부(20)는 표시부(30)와 함께 하나의 터치패널(또는 터치스크린(touch screen))의 형태로 구성되어 입력과 표시 기능을 동시에 수행할 수 있다. 또한, 입력부(20)는 키보드, 키패드, 마우스, 조이스틱 등과 같은 입력 장치 외에도 향후 개발될 수 있는 모든 형태의 입력 수단이 사용될 수 있다. 특히, 본 발명에 따른 입력부(20)는 음성 인식을 위한 일련의 입력 신호를 감지하여 제어부(10)로 전달한다.The input unit 20 receives various information such as numbers and character information and transmits various signals to the control unit 10 in connection with setting various functions and controlling functions of the voice recognition apparatus 100. The input unit 20 may include at least one of a keypad and a touchpad that generates an input signal according to a user's touch or operation. At this time, the input unit 20 may be configured in the form of a single touch panel (or a touch screen) together with the display unit 30 to simultaneously perform the input and display functions. The input unit 20 may be any type of input device that can be developed in addition to an input device such as a keyboard, a keypad, a mouse, a joystick, and the like. In particular, the input unit 20 according to the present invention senses a series of input signals for voice recognition and transmits the input signals to the controller 10.

표시부(30)는 음성인식장치(100)의 기능 수행 중에 발생하는 일련의 동작상태 및 동작결과 등에 대한 정보를 표시한다. 또한, 표시부(30)는 음성인식장치(100)의 메뉴 및 사용자가 입력한 사용자 데이터 등을 표시할 수 있다. 여기서, 표시부(30)는 액정표시장치(LCD, Liquid Crystal Display), 초박막 액정표시장치(TFT-LCD, Thin Film Transistor LCD), 발광다이오드(LED, Light Emitting Diode), 유기 발광다이오드(OLED, Organic LED), 능동형 유기발광다이오드(AMOLED, Active Matrix OLED), 레티나 디스플레이(Retina Display), 플렉시블 디스플레이(Flexible display) 및 3차원(3 Dimension) 디스플레이 등으로 구성될 수 있다. 이때, 표시부(30)가 터치스크린(touch screen) 형태로 구성된 경우, 표시부(30)는 입력부(20)의 기능 중 일부 또는 전부를 수행할 수 있다. 특히, 본 발명에 따른 표시부(30)는 음성 인식 과정에서 발생하는 모든 화면 정보를 출력한다.The display unit 30 displays information on a series of operation states, operation results, and the like that occur during the performance of the function of the voice recognition apparatus 100. In addition, the display unit 30 can display menus of the voice recognition apparatus 100 and user data input by the user. The display unit 30 may be a liquid crystal display (LCD), a thin film transistor LCD (TFT-LCD), a light emitting diode (LED), an organic light emitting diode LEDs, active matrix organic light emitting diodes (AMOLED), active matrix OLEDs, retina displays, flexible displays, and three-dimensional displays. In this case, when the display unit 30 is configured as a touch screen, the display unit 30 may perform some or all of the functions of the input unit 20. [ In particular, the display unit 30 according to the present invention outputs all the screen information generated in the speech recognition process.

저장부(40)는 데이터를 저장하기 위한 장치로, 주 기억 장치 및 보조 기억 장치를 포함하고, 음성인식장치(100)의 기능 동작에 필요한 응용 프로그램을 저장한다. 이러한 저장부(40)는 크게 프로그램 영역과 데이터 영역을 포함할 수 있다. 여기서, 음성인식장치(100)는 사용자의 요청에 상응하여 각 기능을 활성화하는 경우, 제어부(10)의 제어 하에 해당 응용 프로그램들을 실행하여 각 기능을 제공하게 된다. 특히, 본 발명에 따른 저장부(40)는 음성인식장치(100)를 부팅시키는 운영체제, 키워드를 등록하는 프로그램, 키워드 음성인식을 수행하는 프로그램, 키워드 음성인식을 통해 검색된 키워드 수를 카테고리 별로 확인하는 프로그램, 키워드 수를 기준으로 기준 카테고리를 결정하는 프로그램, 기준 카테고리와 관련된 언어모델을 적용하여 음성데이터에 대한 연속 음성인식을 수행하는 프로그램 등을 저장한다. 또한, 저장부(40)는 외부로부터 입력되는 음성데이터 및 다른 장치로부터 수신되는 음성데이터를 저장하고, 키워드 음성인식에 적용되는 키워드를 저장한다.The storage unit 40 is a device for storing data, and includes a main storage device and an auxiliary storage device, and stores an application program necessary for the functional operation of the speech recognition device 100. [ The storage unit 40 may include a program area and a data area. Here, when activating each function according to a user's request, the speech recognition apparatus 100 executes the corresponding application programs under the control of the control unit 10 to provide each function. In particular, the storage unit 40 according to the present invention includes an operating system for booting the speech recognition apparatus 100, a program for registering keywords, a program for performing keyword speech recognition, A program for determining a reference category based on the number of programs and a keyword, and a program for performing continuous speech recognition on speech data by applying a language model related to a reference category. Also, the storage unit 40 stores voice data inputted from the outside and voice data received from another apparatus, and stores a keyword applied to the keyword voice recognition.

오디오처리부(50)는 오디오 신호를 재생하여 출력하기 위한 스피커(SPK) 또는 마이크(MIC)로부터 입력되는 오디오 신호를 제어부(10)에 전달하는 기능을 수행한다. 이러한 오디오처리부(50)는 마이크를 통해 입력되는 아날로그 형식의 오디오 신호를 디지털 형식으로 변환하여 제어부(10)에 전달할 수 있다. 또한, 오디오처리부(50)는 제어부(10)로부터 출력되는 디지털 형식의 오디오 신호를 아날로그 신호로 변환하여 스피커를 통해 출력할 수 있다. 특히, 본 발명에 따른 오디오처리부(50)는 음성 인식 과정에서 발생하는 효과음 또는 실행음을 출력한다.The audio processing unit 50 performs a function of transmitting an audio signal input from a speaker SPK or a microphone MIC for reproducing and outputting an audio signal to the control unit 10. The audio processing unit 50 converts an analog audio signal input through a microphone into a digital format, and transmits the audio signal to the controller 10. The audio processing unit 50 may convert an audio signal of a digital format output from the control unit 10 into an analog signal and output it through a speaker. In particular, the audio processing unit 50 according to the present invention outputs an effect sound or an execution sound generated in the speech recognition process.

통신부(60)는 다른 장치와 통신망(미도시)을 통해 데이터를 송수신하기 위한 기능을 수행한다. 여기서, 통신부(60)는 송신되는 신호의 주파수를 상승 변환 및 증폭하는 RF 송신 수단과 수신되는 신호를 저잡음 증폭하고 주파수를 하강 변환하는 RF 수신 수단 등을 포함한다. 이러한 통신부(60)는 무선통신 모듈(미도시) 및 유선통신 모듈(미도시) 중 적어도 하나를 포함할 수 있다. 또한, 유선통신 모듈은 유선으로 데이터를 송수신하기 위한 것이다. 특히, 본 발명에 따른 통신부(60)는 외부의 다른 장치와 연동하여 음성데이터를 수집한다.The communication unit 60 performs a function for transmitting and receiving data through a communication network (not shown) with another device. Here, the communication unit 60 includes RF transmitting means for up-converting and amplifying the frequency of the transmitted signal, RF receiving means for low-noise amplifying the received signal and down-converting the frequency. The communication unit 60 may include at least one of a wireless communication module (not shown) and a wired communication module (not shown). The wired communication module is for transmitting / receiving data by wire. In particular, the communication unit 60 according to the present invention collects voice data in cooperation with an external device.

여기서, 통신망은 음성인식장치(100)와 다른 장치들 간의 데이터 전송 및 정보 교환을 위한 일련의 데이터 송수신 동작을 수행한다. 특히, 통신망은 다양한 형태의 통신망이 이용될 수 있으며, 예컨대, 무선랜(WLAN, Wireless LAN), 와이파이(Wi-Fi), 와이브로(Wibro), 와이맥스(Wimax), 고속하향패킷접속(HSDPA, High Speed Downlink Packet Access) 등의 무선 통신방식 또는 이더넷(Ethernet), xDSL(ADSL, VDSL), HFC(Hybrid Fiber Coax), FTTC(Fiber to The Curb), FTTH(Fiber To The Home) 등의 유선 통신방식이 이용될 수 있다. 한편, 통신망은 상기에 제시된 통신방식에 한정되는 것은 아니며, 상술한 통신 방식 이외에도 기타 널리 공지되었거나 향후 개발될 모든 형태의 통신 방식을 포함할 수 있다.Here, the communication network performs a series of data transmission / reception operations for data transmission and information exchange between the voice recognition apparatus 100 and other apparatuses. In particular, various types of communication networks may be used for the communication network. For example, the communication network may be a wireless LAN (WLAN), a Wi-Fi, a Wibro, a WiMAX, a high speed downlink packet access Speed Downlink Packet Access) or a wired communication method such as Ethernet, xDSL (ADSL, VDSL), HFC (Hybrid Fiber Coax), FTTC (Fiber to the Curb), FTTH (Fiber To The Home) Can be used. Meanwhile, the communication network is not limited to the above-described communication methods, and may include all other known or later-developed communication methods in addition to the communication methods described above.

제어부(10)는 운영 체제(OS, Operation System) 및 각 구성을 구동시키는 프로세스 장치가 될 수 있다. 예컨대, 제어부(10)는 키워드 음성인식을 위한 다수의 키워드를 등록한다. 그리고, 제어부(10)는 등록된 키워드를 검색 기준으로 설정하여 음성데이터에 대한 키워드 음성인식을 수행한다.The control unit 10 may be an operating system (OS) and a process unit for driving each configuration. For example, the control unit 10 registers a plurality of keywords for keyword speech recognition. Then, the control unit 10 sets the registered keyword as a search criterion, and performs keyword speech recognition on the voice data.

제어부(10)는 키워드 음성인식을 통해 검색된 키워드 수를 카테고리 별로 확인한다. 그리고, 제어부(10)는 확인된 키워드 수를 기준으로 기준 카테고리를 결정한다. 이후, 제어부(10)는 기준 카테고리와 관련된 언어모델을 적용하여 음성데이터에 대한 연속 음성인식을 수행한다.The control unit 10 checks the number of keywords searched through keyword speech recognition for each category. Then, the control unit 10 determines the reference category based on the number of confirmed keywords. Thereafter, the control unit 10 performs continuous speech recognition on the speech data by applying a language model related to the reference category.

이와 같이, 음성인식장치(100)의 기능을 보다 효과적으로 수행하기 위하여 제어부(10)는 복수의 모듈로 구성되는데, 상기 복수의 모듈은 키워드 음성인식모듈(11), 연속 음성인식모듈(12) 및 음성데이터 수집모듈(13)을 포함한다.In order to more effectively perform the functions of the speech recognition apparatus 100, the control unit 10 includes a plurality of modules, each of which includes a keyword speech recognition module 11, a continuous speech recognition module 12, And an audio data acquisition module 13.

키워드 음성인식모듈(11)은 키워드 음성인식을 위한 다수의 키워드를 등록한다. 여기서, 키워드 음성인식모듈(11)은 각각의 카테고리 별로 포함되는 적어도 하나의 키워드를 등록한다. 예를 들어, 카테고리는 경제, 스포츠, 문화, 교육, 사회, 정치, 복지, 국제, 과학 등이 포함되며, 각각의 카테고리는 다수의 연관된 키워드를 포함할 수 있다. 이때, 카테고리 중 경제 카테고리는 금리, 경기, 간접세, 직접세, GDP, GNP, 주식, 증권 등의 키워드를 포함한다. 또한, 스포츠 카테고리는 축구, 야구, 메이저리그, 올림픽, 월드컵 등의 키워드를 포함한다. 또한, 문화 카테고리는 영화, 극장, 배우, 대종상, 레드카펫 등의 키워드를 포함한다. 또한, 교육 카테고리는 사교육, 대학교, 유학, 어린이집, 유치원 등의 키워드를 포함한다. 또한, 사회 카테고리는 학벌, 범죄, 대중교통, 축제, 노벨상 등의 키워드를 포함한다. 또한, 정치 카테고리는 선거, 국회, 법안, 개정, 대통령, 총리 등의 키워드를 포함한다. 또한, 복지 카테고리는 실버, 고령화, 출산, 병원, 건강검진 등의 키워드를 포함하다. 또한, 국제 카테고리는 에볼라, 전쟁, 핵, UN, 평화 등의 키워드를 포함한다. 또한, 과학 카테고리는 기술, 스마트폰, LTE, 싸이언스, 생명, 공대 등의 키워드를 포함한다.The keyword speech recognition module 11 registers a plurality of keywords for keyword speech recognition. Here, the keyword speech recognition module 11 registers at least one keyword included in each category. For example, a category may include economic, sports, cultural, educational, social, political, welfare, international, and scientific, and each category may include a plurality of associated keywords. At this time, the category of economic category includes keywords such as interest rate, economy, indirect tax, direct tax, GDP, GNP, stock, and securities. In addition, the sports category includes keywords such as soccer, baseball, major league, Olympic, World Cup, and the like. Cultural categories include keywords such as movies, theaters, actors, Daejongsang, and red carpets. Also, the education category includes keywords such as private tutoring, university, study abroad, child care, kindergarten, and the like. Social categories also include keywords such as schooling, crime, public transportation, festivals, and the Nobel Prize. Political categories also include keywords such as elections, legislatures, legislation, amendments, presidents, and prime ministers. In addition, the welfare category includes keywords such as silver, aging, birth, hospital, and health checkup. In addition, international categories include keywords such as Ebola, War, Nuclear, UN, and Peace. Also, the science category includes keywords such as technology, smartphone, LTE, science, life, and engineering.

키워드 음성인식모듈(11)은 등록된 키워드를 검색 기준으로 설정하여 음성데이터에 대한 키워드 음성인식을 수행한다. 여기서, 키워드 음성인식모듈(11)은 음성데이터 내 등록된 키워드와 매칭되는 키워드를 검색하고, 검색된 키워드를 카테고리 별로 구분한다. 즉, 키워드 음성인식모듈(11)은 키워드 인식을 위하여 특성 분석, 음성인식 단위 인식, 어휘 분석, 문장 분석 등을 수행한다. 예를 들어, 특성 분석은 음성 파형의 용장성 및 시간적 변동성 등으로 인한 불안정한 상황을 위해 수행되며, 스펙트럴 분석(Spectral analysis), 시간적 분석 등이 포함된다. 또한, 음성인식 단위 인식은 음성신호의 인식 단위인 단어, 준음절, 음절, 음소 등에 대하여, 음성인식 단위 순서로 인식을 수행한다. 또한, 어휘 분석은 인식된 음성 인식 단위 순서와 키워드 파일에서 일치하는 음성인식 단위 순서가 있는지 확인하며, 이를 위해 인식하고자 하는 모든 키워드들이 파일에 정의되어 있다. 또한, 문장 분석은 어휘적 분석에서 인식된 키워드들을 문법 파일에 정의된 문법에 의해 일치하는지 문장을 찾는 과정을 수행한다.The keyword speech recognition module 11 sets the registered keyword as a search criterion and performs keyword speech recognition on the speech data. Here, the keyword speech recognition module 11 searches for keywords matched with the registered keywords in the speech data, and sorts the searched keywords by category. That is, the keyword speech recognition module 11 performs characteristic analysis, speech recognition unit recognition, lexical analysis, and sentence analysis for keyword recognition. For example, characterization is performed for unstable situations due to redundancy and temporal variability of speech waveforms, including spectral analysis and temporal analysis. In addition, speech recognition unit recognition recognizes words, semi-syllables, syllables, phonemes, etc., which are recognition units of speech signals, in the order of speech recognition units. In addition, the lexical analyzer verifies whether the recognized speech recognition unit order and the matching speech recognition unit order exist in the keyword file, and all the keywords to be recognized are defined in the file. In addition, the sentence analysis performs a process of finding sentences that match the recognized keywords in the lexical analysis by the grammar defined in the grammar file.

키워드 음성인식모듈(11)은 키워드 음성인식을 통해 검색된 키워드 수를 카테고리 별로 확인한다. 이때, 키워드 음성인식모듈(11)은 경제, 스포츠, 문화, 교육, 사회, 정치, 복지, 국제, 과학 등을 포함하는 카테고리 별로 키워드 음성인식을 통해 검색된 키워드를 분류하고, 분류된 키워드 수를 각각의 카테고리 별로 확인한다. 예를 들어, 키워드 음성인식모듈(11)은 키워드(A 내지 D)에 대하여, 키워드 음성인식을 수행한 결과, 키워드(A)는 카테고리(교육 10번, 과학 5번)에서 검색되고, 키워드(B)는 카테고리(과학 10번, 교육 6번, 사회 4번), 키워드(C)는 카테고리(문화 4번, 교육 1번), 키워드(D)는 카테고리(과학 3번, 교육 2번)에서 검색될 수 있다.The keyword speech recognition module 11 checks the number of keywords searched through keyword speech recognition for each category. At this time, the keyword speech recognition module 11 classifies the keywords searched through keyword speech recognition by categories including economy, sports, culture, education, society, politics, welfare, international, science, . For example, when the keyword speech recognition module 11 performs keyword speech recognition on the keywords A to D, the keyword A is searched in the categories (education 10 and science 5) B) is a category (Science 10, Education 6, Society 4), Keyword (C) is a category (Culture 4 and Education 1) Can be searched.

키워드 음성인식모듈(11)은 확인된 키워드 수를 기준으로 기준 카테고리를 결정한다. 즉, 키워드 음성인식모듈(11)은 검색된 키워드 수에 따라 카테고리 순서를 정렬하고, 정렬된 카테고리 순서에서 최상위에 있는 카테고리를 기준 카테고리로 결정한다. 예를 들어, 상기의 예와 같이, 키워드 음성인식모듈(11)은 키워드 수에 따라 카테고리 별로 구분된 데이터를 기준으로 기준 카테고리를 결정하는데, 키워드(A)는 카테고리(교육 67%, 과학 33%), 키워드(B)는 카테고리(과학 50%, 교육 30%, 사회 23%), 키워드(C)는 카테고리(문화 80%, 교육 20%), 키워드(D)는 카테고리(과학 60%, 교육 40%)일 경우, 수집된 정보들을 종합하여 최대의 키워드 수를 가지는 카테고리(교육)를 기준 카테고리로 설정할 수 있다.The keyword speech recognition module 11 determines the reference category based on the number of confirmed keywords. That is, the keyword speech recognition module 11 arranges the category order according to the number of searched keywords, and determines the category at the top in the ordered category order as the reference category. For example, as in the above example, the keyword speech recognition module 11 determines a reference category based on data classified by category according to the number of keywords. The keyword A is classified into categories (education 67%, science 33% ), The keyword (B) is classified into categories (50% of science, 30% of education, 23% of society) 40%), the category (education) having the maximum number of keywords can be set as the reference category by synthesizing the collected information.

연속 음성인식모듈(12)은 기준 카테고리와 관련된 언어모델을 적용하여 음성데이터에 대한 연속 음성인식을 수행한다. 여기서, 연속 음성인식모듈(12)은 결정된 카테고리에 해당하는 언어모델을 선정한다. 그리고, 연속 음성인식모듈(12)은 음성데이터의 모든 문장을 어절(Syntagma) 단위로 구분하고, 어절 단위로 구분된 음성데이터를 선정된 언어모델을 적용하여 음성 인식을 수행한다. 즉, 연속 음성인식모듈(12)은 발화자의 특성에 따라 다른 어절에 분할될 것으로 예상되는 구간들이 하나의 어절이 되거나 하나의 어절이어야 할 구간이 두 개의 어절 형태로 나타나는 경우가 발생하기 때문에, 유성음과 무성음의 특성, 포만트(formant), 프레임 및 서브랜드 에너지 등을 이용하여 음절 단위 분할을 수행한다.The continuous speech recognition module 12 performs continuous speech recognition on speech data by applying a language model related to the reference category. Here, the continuous speech recognition module 12 selects a language model corresponding to the determined category. The continuous speech recognition module 12 divides all the sentences of the voice data into units of a word, and performs voice recognition by applying the selected language model to the voice data classified in the unit of the word. That is, according to the characteristics of the speaker, the consecutive speech recognition module 12 may have a section in which the sections that are expected to be divided into different phrases become one word or a section in which one word should appear in the form of two phrases, And syllable unit segmentation is performed by using characteristics of unvoiced sound, formant, frame and Western brand energy.

음성데이터 수집모듈(13)은 외부로부터 입력되는 음성데이터 및 다른 장치로부터 수신되는 음성데이터를 수집하여 관리한다.The voice data collection module 13 collects and manages voice data input from the outside and voice data received from another device.

음성데이터 수집모듈(13)은 수집된 음성데이터에서 실제 음성데이터와 잡음을 분리하는 기능을 수행한다. 즉, 외부에서 수집된 음성데이터에는 주변의 잡음이 섞여 있기 때문에, 신뢰성 높은 음성 인식을 위하여 노이즈 제거 과정을 수행한다. 예를 들어, 음성데이터 수집모듈(13)은 수집된 음성데이터 내 잡음 제거를 위하여 전방향 탐색에 의한 판별 기술, 심리 음향 기반의 추정 기술, 개선된 스펙트럼 차감에 의한 제거 기술 등을 적용할 수 있다.The voice data collection module 13 separates actual voice data and noise from the collected voice data. That is, since the noise data collected from the outside is mixed with surrounding noise, a noise removal process is performed for reliable speech recognition. For example, the voice data acquisition module 13 can apply a discrimination technique based on a forward search, a psychoacoustic-based estimation technique, and an improved spectral subtraction technique to remove noise in the collected voice data .

한편, 음성인식장치(100)에 탑재되는 메모리는 그 장치 내에서 정보를 저장한다. 일 구현예의 경우, 메모리는 컴퓨터로 판독 가능한 매체이다. 일 구현 예에서, 메모리는 휘발성 메모리 유닛 일 수 있으며, 다른 구현예의 경우, 메모리는 비휘발성 메모리 유닛 일 수도 있다. 일 구현예의 경우, 저장장치는 컴퓨터로 판독 가능한 매체이다. 다양한 서로 다른 구현 예에서, 저장장치는 예컨대 하드디스크 장치, 광학디스크 장치, 혹은 어떤 다른 대용량 저장장치를 포함할 수도 있다.On the other hand, the memory mounted on the speech recognition apparatus 100 stores information in the apparatus. In one implementation, the memory is a computer-readable medium. In one implementation, the memory may be a volatile memory unit, and in other embodiments, the memory may be a non-volatile memory unit. In one implementation, the storage device is a computer-readable medium. In various different implementations, the storage device may include, for example, a hard disk device, an optical disk device, or any other mass storage device.

비록 본 명세서와 도면에서는 예시적인 장치 구성을 기술하고 있지만, 본 명세서에서 설명하는 기능적인 동작과 주제의 구현물들은 다른 유형의 디지털 전자 회로로 구현되거나, 본 명세서에서 개시하는 구조 및 그 구조적인 등가물들을 포함하는 컴퓨터 소프트웨어, 펌웨어 혹은 하드웨어로 구현되거나, 이들 중 하나 이상의 결합으로 구현 가능하다. 본 명세서에서 설명하는 주제의 구현물들은 하나 이상의 컴퓨터 프로그램 제품, 다시 말해 본 발명에 따른 장치의 동작을 제어하기 위하여 혹은 이것에 의한 실행을 위하여 유형의 프로그램 저장매체 상에 인코딩된 컴퓨터 프로그램 명령에 관한 하나 이상의 모듈로서 구현될 수 있다. 컴퓨터로 판독 가능한 매체는 기계로 판독 가능한 저장 장치, 기계로 판독 가능한 저장 기판, 메모리 장치, 기계로 판독 가능한 전파형 신호에 영향을 미치는 물질의 조성물 혹은 이들 중 하나 이상의 조합일 수 있다.Although the present specification and drawings describe exemplary device configurations, the functional operations and subject matter implementations described herein may be embodied in other types of digital electronic circuitry, or alternatively, of the structures disclosed herein and their structural equivalents May be embodied in computer software, firmware, or hardware, including, or in combination with, one or more of the foregoing. Implementations of the subject matter described herein may be embodied in one or more computer program products, i. E. One for computer program instructions encoded on a program storage medium of the type for < RTI ID = 0.0 & And can be implemented as a module as described above. The computer-readable medium can be a machine-readable storage device, a machine-readable storage substrate, a memory device, a composition of matter that affects the machine readable propagation type signal, or a combination of one or more of the foregoing.

도 2는 본 발명의 실시 예에 따른 다중 음성인식모듈을 적용한 음성 인식 방법을 설명하기 위한 흐름도이고, 도 3은 본 발명의 실시 예에 따른 키워드 음성인식 과정을 설명하기 위한 흐름도이고, 도 4는 본 발명의 실시 예에 따른 연속 음성인식 과정을 설명하기 위한 흐름도이다.FIG. 2 is a flowchart illustrating a speech recognition method using a multiple speech recognition module according to an embodiment of the present invention. FIG. 3 is a flowchart illustrating a keyword speech recognition process according to an embodiment of the present invention. 6 is a flowchart illustrating a continuous speech recognition process according to an embodiment of the present invention.

도 2 내지 도 4를 참조하면, 본 발명에 따른 다중 음성인식모듈을 적용한 음성 인식 방법에 있어서, 음성인식장치(100)는 S11 단계에서 키워드 음성인식을 위한 다수의 키워드를 등록한다. 여기서, 음성인식장치(100)는 각각의 카테고리 별로 포함되는 적어도 하나의 키워드를 등록한다. 예를 들어, 카테고리는 경제, 스포츠, 문화, 교육, 사회, 정치, 복지, 국제, 과학 등이 포함하며, 각각의 카테고리는 다수의 연관된 키워드를 포함할 수 있다. 이때, 카테고리 중 경제 카테고리는 금리, 경기, 간접세, 직접세, GDP, GNP, 주식, 증권 등의 키워드를 포함한다. 또한, 스포츠 카테고리는 축구, 야구, 메이저리그, 올림픽, 월드컵 등의 키워드를 포함한다. 또한, 문화 카테고리는 영화, 극장, 배우, 대종상, 레드카펫 등의 키워드를 포함한다. 또한, 교육 카테고리는 사교육, 대학교, 유학, 어린이집, 유치원 등의 키워드를 포함한다. 또한, 사회 카테고리는 학벌, 범죄, 대중교통, 축제, 노벨상 등의 키워드를 포함한다. 또한, 정치 카테고리는 선거, 국회, 법안, 개정, 대통령, 총리 등의 키워드를 포함한다. 또한, 복지 카테고리는 실버, 고령화, 출산, 병원, 건강검진 등의 키워드를 포함하다. 또한, 국제 카테고리는 에볼라, 전쟁, 핵, UN, 평화 등의 키워드를 포함한다. 또한, 과학 카테고리는 기술, 스마트폰, LTE, 싸이언스, 생명, 공대 등의 키워드를 포함한다.Referring to FIGS. 2 to 4, in the speech recognition method using the multiple speech recognition module according to the present invention, the speech recognition apparatus 100 registers a plurality of keywords for keyword speech recognition in step S11. Here, the speech recognition apparatus 100 registers at least one keyword included in each category. For example, categories include economy, sport, culture, education, society, politics, welfare, international, science, etc., and each category may include a plurality of associated keywords. At this time, the category of economic category includes keywords such as interest rate, economy, indirect tax, direct tax, GDP, GNP, stock, and securities. In addition, the sports category includes keywords such as soccer, baseball, major league, Olympic, World Cup, and the like. Cultural categories include keywords such as movies, theaters, actors, Daejongsang, and red carpets. Also, the education category includes keywords such as private tutoring, university, study abroad, child care, kindergarten, and the like. Social categories also include keywords such as schooling, crime, public transportation, festivals, and the Nobel Prize. Political categories also include keywords such as elections, legislatures, legislation, amendments, presidents, and prime ministers. In addition, the welfare category includes keywords such as silver, aging, birth, hospital, and health checkup. In addition, international categories include keywords such as Ebola, War, Nuclear, UN, and Peace. Also, the science category includes keywords such as technology, smartphone, LTE, science, life, and engineering.

음성인식장치(100)는 S13 단계에서 등록된 키워드를 검색 기준으로 설정하여 음성데이터에 대한 키워드 음성인식을 수행한다. 여기서, 음성인식장치(100)는 S31 단계에서 기 등록된 키워드를 검색 기준으로 설정하여 음성데이터에 대한 키워드 음성 인식을 실행한다. 그리고, 음성인식장치(100)는 음성데이터 내 등록된 키워드와 매칭되는 키워드를 검색하고, 검색된 키워드를 카테고리 별로 구분한다(S33 내지 S35).The speech recognition apparatus 100 sets the registered keyword as a search criterion in step S13 and performs keyword speech recognition on the speech data. Here, the speech recognition apparatus 100 sets the previously registered keyword as a search criterion in step S31 and executes keyword speech recognition on the speech data. Then, the speech recognition apparatus 100 searches for a keyword matching the registered keyword in the voice data, and sorts the searched keyword by category (S33 to S35).

즉, 음성인식장치(100)는 키워드 인식을 위하여 특성 분석, 음성인식 단위 인식, 어휘 분석, 문장 분석 등을 수행한다. 예를 들어, 특성 분석은 음성 파형의 용장성 및 시간적 변동성 등으로 인한 불안정한 상황을 위해 수행되며, 스펙트럴 분석, 시간적 분석 등이 포함된다. 또한, 음성인식 단위 인식은 음성신호의 인식 단위인 단어, 준음절, 음절, 음소 등에 대하여, 음성인식 단위 순서로 인식을 수행한다. 또한, 어휘 분석은 인식된 음성 인식 단위 순서와 키워드 파일에서 일치하는 음성인식 단위 순서가 있는지 확인하며, 이를 위해 인식하고자 하는 모든 키워드들이 파일에 정의되어 있다. 또한, 문장 분석은 어휘적 분석에서 인식된 키워드들을 문법 파일에 정의된 문법에 의해 일치하는지 문장을 찾는 과정을 수행한다.That is, the speech recognition apparatus 100 performs characteristic analysis, speech recognition unit recognition, lexical analysis, and sentence analysis for keyword recognition. For example, characterization is performed for unstable situations due to redundancy and temporal variability of speech waveforms, and includes spectral analysis and temporal analysis. In addition, speech recognition unit recognition recognizes words, semi-syllables, syllables, phonemes, etc., which are recognition units of speech signals, in the order of speech recognition units. In addition, the lexical analyzer verifies whether the recognized speech recognition unit order and the matching speech recognition unit order exist in the keyword file, and all the keywords to be recognized are defined in the file. In addition, the sentence analysis performs a process of finding sentences that match the recognized keywords in the lexical analysis by the grammar defined in the grammar file.

음성인식장치(100)는 S15 단계에서 키워드 음성인식을 통해 검색된 키워드 수를 카테고리 별로 확인한다. 이때, 음성인식장치(100)는 경제, 스포츠, 문화, 교육, 사회, 정치, 복지, 국제, 과학 등을 포함하는 카테고리 별로 키워드 음성인식을 통해 검색된 키워드를 분류하고, 분류된 키워드 수를 각각의 카테고리 별로 확인한다. 예를 들어, 음성인식장치(100)는 키워드(A 내지 D)에 대하여, 키워드 음성인식을 수행한 결과, 키워드(A)는 카테고리(교육 10번, 과학 5번)에서 검색되고, 키워드(B)는 카테고리(과학 10번, 교육 6번, 사회 4번), 키워드(C)는 카테고리(문화 4번, 교육 1번), 키워드(D)는 카테고리(과학 3번, 교육 2번)에서 검색될 수 있다.In step S15, the speech recognition apparatus 100 checks the number of keywords searched through keyword speech recognition for each category. At this time, the speech recognition apparatus 100 classifies keywords searched through keyword speech recognition by categories including economy, sports, culture, education, society, politics, welfare, international science, and the like, Check by category. For example, when the speech recognition apparatus 100 performs keyword speech recognition on the keywords A to D, the keyword A is searched in the categories 10 and 5, ) Is classified in categories (Science 10, Education 6, Society 4), Keyword (C) in Category (Culture 4 and Education 1) .

음성인식장치(100)는 S17 단계에서 확인된 키워드 수를 기준으로 기준 카테고리를 결정한다. 즉, 음성인식장치(100)는 검색된 키워드 수에 따라 카테고리 순서를 정렬하고, 정렬된 카테고리 순서에서 최상위에 있는 카테고리를 기준 카테고리로 결정한다. 예를 들어, 상기의 예와 같이, 음성인식장치(100)는 키워드 수에 따라 카테고리 별로 구분된 데이터를 기준으로 기준 카테고리를 결정하는데, 키워드(A)는 카테고리(교육 67%, 과학 33%), 키워드(B)는 카테고리(과학 50%, 교육 30%, 사회 23%), 키워드(C)는 카테고리(문화 80%, 교육 20%), 키워드(D)는 카테고리(과학 60%, 교육 40%)일 경우, 수집된 정보들을 종합하여 다수의 키워드를 포함하는 카테고리(교육)을 기준 카테고리로 설정할 수 있다.The speech recognition apparatus 100 determines a reference category based on the number of keywords identified in step S17. That is, the speech recognition apparatus 100 arranges the category order according to the number of searched keywords, and determines the highest category as the reference category in the sorted category order. For example, as in the above example, the speech recognition apparatus 100 determines a reference category based on data classified by category according to the number of keywords. The keyword A is classified into categories (education 67%, science 33%), (60%), education (40%), and keyword (B) are categories (50% for science, 30% for education and 23% for society) %), A category (education) including a plurality of keywords can be set as a reference category by synthesizing the collected information.

음성인식장치(100)는 S19 단계에서 기준 카테고리와 관련된 언어모델을 적용하여 음성데이터에 대한 연속 음성인식을 수행한다. 여기서, 음성인식장치(100)는 S41 단계에서 결정된 카테고리에 해당하는 언어모델을 선정한다. 그리고, 음성인식장치(100)는 음성데이터의 모든 문장을 어절(Syntagma) 단위로 구분하고, 어절 단위로 구분된 음성데이터를 선정된 언어모델을 적용하여 음성 인식을 수행한다(S43 내지 S45). 즉, 음성인식장치(100)는 발화자의 특성에 따라 다른 어절에 분할될 것으로 예상되는 구간들이 하나의 어절이 되거나 하나의 어절이어야 할 구간이 두 개의 어절 형태로 나타나는 경우가 발생하기 때문에, 유성음과 무성음의 특성, 포만트(formant), 프레임 및 서브랜드 에너지 등을 이용하여 음절 단위 분할을 수행한다.In step S19, the speech recognition apparatus 100 applies a language model related to the reference category to perform continuous speech recognition on the speech data. Here, the speech recognition apparatus 100 selects a language model corresponding to the category determined in step S41. Then, the speech recognition apparatus 100 divides all the sentences of the voice data into units of the syntax, and performs voice recognition by applying the selected language model to the voice data classified in the unit of the word (S43 to S45). That is, according to the characteristics of the speaker, the speech recognition apparatus 100 may have a section in which the sections that are expected to be divided into different phrases become one word or a section in which one word should be divided into two phrases, Syllable unit division is performed by using the characteristics of unvoiced sound, formant, frame and Western brand energy.

컴퓨터 프로그램 명령어와 데이터를 저장하기에 적합한 컴퓨터로 판독 가능한 매체는, 예컨대 기록매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 및 롬(ROM, Read Only Memory), 램(RAM, Random Access Memory), 플래시 메모리, EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM)과 같은 반도체 메모리를 포함한다. 프로세서와 메모리는 특수 목적의 논리 회로에 의해 보충되거나, 그것에 통합될 수 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 이러한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.Computer-readable media suitable for storing computer program instructions and data include, for example, magnetic media such as hard disks, floppy disks, and magnetic tape, compact disk read only memory (CD-ROM) A magneto-optical medium such as a floppy disk and an optical recording medium such as a digital video disk, a magneto-optical medium such as a floppy disk, and a read only memory (ROM) Access Memory), a flash memory, an erasable programmable ROM (EPROM), and a semiconductor memory such as an Electrically Erasable Programmable ROM (EEPROM). The processor and memory may be supplemented by, or incorporated in, special purpose logic circuits. Examples of program instructions may include machine language code such as those generated by a compiler, as well as high-level language code that may be executed by a computer using an interpreter or the like. Such a hardware device may be configured to operate as one or more software modules to perform the operations of the present invention, and vice versa.

본 명세서는 다수의 특정한 구현물의 세부사항들을 포함하지만, 이들은 어떠한 발명이나 청구 가능한 것의 범위에 대해서도 제한적인 것으로서 이해되어서는 안되며, 오히려 특정한 발명의 특정한 실시형태에 특유할 수 있는 특징들에 대한 설명으로서 이해되어야 한다. 개별적인 실시형태의 문맥에서 본 명세서에 기술된 특정한 특징들은 단일 실시형태에서 조합하여 구현될 수도 있다. 반대로, 단일 실시형태의 문맥에서 기술한 다양한 특징들 역시 개별적으로 혹은 어떠한 적절한 하위 조합으로도 복수의 실시형태에서 구현 가능하다. 나아가, 특징들이 특정한 조합으로 동작하고 초기에 그와 같이 청구된 바와 같이 묘사될 수 있지만, 청구된 조합으로부터의 하나 이상의 특징들은 일부 경우에 그 조합으로부터 배제될 수 있으며, 그 청구된 조합은 하위 조합이나 하위 조합의 변형물로 변경될 수 있다.While the specification contains a number of specific implementation details, it should be understood that they are not to be construed as limitations on the scope of any invention or claim, but rather on the description of features that may be specific to a particular embodiment of a particular invention Should be understood. Certain features described herein in the context of separate embodiments may be implemented in combination in a single embodiment. Conversely, various features described in the context of a single embodiment may also be implemented in multiple embodiments, either individually or in any suitable subcombination. Further, although the features may operate in a particular combination and may be initially described as so claimed, one or more features from the claimed combination may in some cases be excluded from the combination, Or a variant of a subcombination.

마찬가지로, 특정한 순서로 도면에서 동작들을 묘사하고 있지만, 이는 바람직한 결과를 얻기 위하여 도시된 그 특정한 순서나 순차적인 순서대로 그러한 동작들을 수행하여야 한다거나 모든 도시된 동작들이 수행되어야 하는 것으로 이해되어서는 안 된다. 특정한 경우, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다. 또한, 상술한 실시형태의 다양한 시스템 컴포넌트의 분리는 그러한 분리를 모든 실시형태에서 요구하는 것으로 이해되어서는 안되며, 설명한 프로그램 컴포넌트와 시스템들은 일반적으로 단일의 소프트웨어 제품으로 함께 통합되거나 다중 소프트웨어 제품에 패키징 될 수 있다는 점을 이해하여야 한다.Likewise, although the operations are depicted in the drawings in a particular order, it should be understood that such operations must be performed in that particular order or sequential order shown to achieve the desired result, or that all illustrated operations should be performed. In certain cases, multitasking and parallel processing may be advantageous. Also, the separation of the various system components of the above-described embodiments should not be understood as requiring such separation in all embodiments, and the described program components and systems will generally be integrated together into a single software product or packaged into multiple software products It should be understood.

한편, 본 명세서와 도면에 개시된 본 발명의 실시 예들은 이해를 돕기 위해 특정 예를 제시한 것에 지나지 않으며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시 예들 이외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 자명한 것이다.It should be noted that the embodiments of the present invention disclosed in the present specification and drawings are only illustrative of specific examples for the purpose of understanding and are not intended to limit the scope of the present invention. It will be apparent to those skilled in the art that other modifications based on the technical idea of the present invention are possible in addition to the embodiments disclosed herein.

본 발명은 다중 음성인식모듈을 적용한 다중 음성 인식을 위하여, 키워드 음성인식과 연속 음성인식을 단계적으로 적용하여 발성한 음성을 분석한다. 이에 따라, 본 발명은 고객의 녹취 데이터를 문자로 변환하여 문제 파일 검색, 상담사 관리 및 마케팅 툴에 사용 가능하다. 또한, 음성인식의 정확도가 낮은 녹취 데이터에 대한 다중 음성인식 성능을 향상시킴으로써 빅 데이터 기반의 음성분석에 활용할 수 있다. 또한, 키워드 음성인식을 이용한 언어모델을 선정하여 연속 음성인식에 적용할 수 있기 때문에, 다양한 음성인식 서비스를 위한 음성인식 속도와 성능을 개선할 수 있다. 이는 시판 또는 영업의 가능성이 충분할 뿐만 아니라 현실적으로 명백하게 실시할 수 있는 정도이므로 산업상 이용가능성이 있다.The present invention analyzes voiced speech by applying keyword speech recognition and continuous speech recognition step by step for multi-speech recognition using a multi-speech recognition module. Accordingly, the present invention can be used for problem file search, counselor management, and marketing tool by converting recorded data of a customer into a character. In addition, by improving the performance of multiple speech recognition for low-accuracy recorded speech data, it can be utilized for voice analysis based on big data. In addition, since a language model using keyword speech recognition can be selected and applied to continuous speech recognition, speech recognition speed and performance for various speech recognition services can be improved. This is not only a possibility of commercialization or sales, but also a possibility of being industrially applicable since it is practically possible to carry out clearly.

100: 음성인식장치 10: 제어부
11: 키워드 음성인식모듈 12: 연속 음성인식모듈
13: 음성데이터 수집모듈 20: 입력부
30: 표시부 40: 저장부
41: 음성데이터 42: 키워드
50: 오디오처리부 60: 통신부
100: speech recognition device 10:
11: Keyword speech recognition module 12: Continuous speech recognition module
13: audio data collection module 20: input part
30: Display section 40: Storage section
41: voice data 42: keyword
50: audio processor 60:

Claims (8)

음성인식장치가 키워드 음성인식을 위한 다수의 키워드를 등록하는 단계;
상기 음성인식장치가 상기 등록된 키워드를 검색 기준으로 설정하여 음성데이터에 대한 키워드 음성인식을 수행하는 단계;
상기 음성인식장치가 상기 키워드 음성인식을 통해 검색된 키워드 수를 카테고리 별로 확인하는 단계;
상기 음성인식장치가 상기 확인된 키워드 수를 기준으로 기준 카테고리를 결정하는 단계; 및
상기 음성인식장치가 상기 기준 카테고리와 관련된 언어모델을 적용하여 상기 음성데이터에 대한 연속 음성인식을 수행하는 단계를 실행하는 프로그램을 기록한 컴퓨터 판독 가능한 기록매체.
Registering a plurality of keywords for keyword speech recognition by the speech recognition apparatus;
Performing the keyword speech recognition on the speech data by setting the registered keyword as a search criterion in the speech recognition apparatus;
Checking the number of keywords searched through keyword speech recognition for each category by the speech recognition apparatus;
The speech recognition apparatus determining a reference category based on the number of confirmed keywords; And
Wherein the speech recognition apparatus performs continuous speech recognition on the speech data by applying a language model associated with the reference category.
제1항에 있어서, 상기 키워드를 등록하는 단계는
상기 음성인식장치가 각각의 카테고리 별로 포함되는 적어도 하나의 키워드를 등록하는 것을 실행하는 프로그램을 기록한 컴퓨터 판독 가능한 기록매체.
The method of claim 1, wherein registering the keyword comprises:
And the speech recognition apparatus registers at least one keyword included in each category.
제1항에 있어서, 상기 키워드 음성인식을 수행하는 단계는
상기 음성인식장치가 상기 음성데이터 내 상기 등록된 키워드와 매칭되는 키워드를 검색하는 단계; 및
상기 음성인식장치가 상기 검색된 키워드를 카테고리 별로 구분하는 단계를 실행하는 프로그램을 기록한 컴퓨터 판독 가능한 기록매체.
2. The method of claim 1, wherein the step of performing the keyword speech recognition comprises:
Retrieving a keyword matching the registered keyword in the voice data; And
And the speech recognition apparatus classifies the searched keyword by category.
제1항에 있어서, 상기 확인하는 단계는
상기 음성인식장치가 경제, 스포츠, 문화, 교육, 사회, 정치, 복지, 국제, 과학 중 적어도 하나를 포함하는 카테고리 별로 상기 키워드 음성인식을 통해 검색된 키워드를 분류하는 단계; 및
상기 음성인식장치가 상기 분류된 키워드 수를 각각의 카테고리 별로 확인하는 단계를 실행하는 프로그램을 기록한 컴퓨터 판독 가능한 기록매체.
2. The method of claim 1,
Classifying the keywords searched through keyword speech recognition for each category including at least one of economy, sports, culture, education, society, politics, welfare, international, and science; And
And the voice recognition device checks the number of classified keywords for each category.
제1항에 있어서, 상기 기준 카테고리를 결정하는 단계는
상기 음성인식장치가 상기 검색된 키워드 수에 따라 카테고리 순서를 정렬하는 단계; 및
상기 음성인식장치가 상기 정렬된 카테고리 순서에서 최상위에 있는 카테고리를 기준 카테고리로 결정하는 단계를 실행하는 프로그램을 기록한 컴퓨터 판독 가능한 기록매체.
2. The method of claim 1, wherein determining the criteria category comprises:
Arranging a category order according to the number of searched keywords; And
And the speech recognition device determines the category at the top of the sorted category order as a reference category.
제1항에 있어서, 상기 연속 음성인식을 수행하는 단계는
상기 음성인식장치가 상기 결정된 카테고리에 해당하는 언어모델을 선정하는 단계;
상기 음성인식장치가 상기 음성데이터의 모든 문장을 어절 단위로 구분하는 단계; 및
상기 음성인식장치가 상기 어절 단위로 구분된 음성데이터를 상기 선정된 언어모델을 적용하여 인식하는 단계를 실행하는 프로그램을 기록한 컴퓨터 판독 가능한 기록매체.
2. The method of claim 1, wherein performing the continuous speech recognition comprises:
Selecting a language model corresponding to the determined category by the speech recognition apparatus;
The speech recognition apparatus classifying all sentences of the speech data in units of words; And
And the speech recognition apparatus recognizes the speech data classified by the phrase unit by applying the selected language model.
키워드 음성인식을 위한 다수의 키워드를 등록하고, 상기 등록된 키워드를 검색 기준으로 하여 음성데이터에 대한 키워드 음성인식을 수행하고, 상기 키워드 음성인식을 통해 검색된 키워드 수를 카테고리 별로 확인하고, 상기 확인된 키워드 수를 기준으로 기준 카테고리를 결정하는 키워드 음성인식모듈; 및
상기 키워드 음성인식모듈을 통해 결정된 기준 카테고리와 관련된 언어모델을 적용하여 상기 음성데이터에 대한 연속 음성인식을 수행하는 연속 음성인식모듈;
을 포함하는 것을 특징으로 하는 음성인식장치.
A plurality of keywords for keyword speech recognition are registered, a keyword speech recognition is performed for speech data using the registered keywords as search criteria, the number of keywords searched through the keyword speech recognition is checked for each category, A keyword speech recognition module for determining a reference category based on the number of keywords; And
A continuous speech recognition module for performing continuous speech recognition on the speech data by applying a language model related to a reference category determined through the keyword speech recognition module;
And a speech recognition unit for recognizing the speech.
제7항에 있어서,
외부로부터 입력되는 음성데이터 및 적어도 하나의 다른 장치로부터 수신되는 음성데이터를 수집하는 음성데이터 수집모듈;
을 더 포함하는 것을 특징으로 하는 음성인식장치.
8. The method of claim 7,
A voice data collection module for collecting voice data input from outside and voice data received from at least one other device;
The speech recognition apparatus further comprising:
KR1020140161354A 2014-11-19 2014-11-19 Method for recognition voice apply to multi voice recognition module and voice recognition apparatus thereof Active KR102342571B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140161354A KR102342571B1 (en) 2014-11-19 2014-11-19 Method for recognition voice apply to multi voice recognition module and voice recognition apparatus thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140161354A KR102342571B1 (en) 2014-11-19 2014-11-19 Method for recognition voice apply to multi voice recognition module and voice recognition apparatus thereof

Publications (2)

Publication Number Publication Date
KR20160059640A true KR20160059640A (en) 2016-05-27
KR102342571B1 KR102342571B1 (en) 2021-12-22

Family

ID=56105870

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140161354A Active KR102342571B1 (en) 2014-11-19 2014-11-19 Method for recognition voice apply to multi voice recognition module and voice recognition apparatus thereof

Country Status (1)

Country Link
KR (1) KR102342571B1 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018124355A1 (en) * 2016-12-28 2018-07-05 엘지전자 주식회사 Audio device and control method therefor
KR20180130421A (en) * 2017-05-29 2018-12-07 (주)누리아이 Entertaining device for Reading and the driving method thereof
WO2019194451A1 (en) * 2018-04-06 2019-10-10 삼성전자주식회사 Voice conversation analysis method and apparatus using artificial intelligence
WO2020263016A1 (en) * 2019-06-26 2020-12-30 삼성전자 주식회사 Electronic device for processing user utterance and operation method therefor

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040055417A (en) 2002-12-21 2004-06-26 한국전자통신연구원 Apparatus and method for spontaneous continuous speech recognition
WO2005122016A1 (en) * 2004-06-10 2005-12-22 Matsushita Electric Industrial Co., Ltd. Information search device, input auxiliary device, method, and program
JP2010014885A (en) * 2008-07-02 2010-01-21 Advanced Telecommunication Research Institute International Information processing terminal with voice recognition function
KR101309042B1 (en) * 2012-09-17 2013-09-16 포항공과대학교 산학협력단 Apparatus for multi domain sound communication and method for multi domain sound communication using the same

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040055417A (en) 2002-12-21 2004-06-26 한국전자통신연구원 Apparatus and method for spontaneous continuous speech recognition
WO2005122016A1 (en) * 2004-06-10 2005-12-22 Matsushita Electric Industrial Co., Ltd. Information search device, input auxiliary device, method, and program
JP2010014885A (en) * 2008-07-02 2010-01-21 Advanced Telecommunication Research Institute International Information processing terminal with voice recognition function
KR101309042B1 (en) * 2012-09-17 2013-09-16 포항공과대학교 산학협력단 Apparatus for multi domain sound communication and method for multi domain sound communication using the same

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018124355A1 (en) * 2016-12-28 2018-07-05 엘지전자 주식회사 Audio device and control method therefor
KR20180130421A (en) * 2017-05-29 2018-12-07 (주)누리아이 Entertaining device for Reading and the driving method thereof
WO2019194451A1 (en) * 2018-04-06 2019-10-10 삼성전자주식회사 Voice conversation analysis method and apparatus using artificial intelligence
US11769492B2 (en) 2018-04-06 2023-09-26 Samsung Electronics Co., Ltd. Voice conversation analysis method and apparatus using artificial intelligence
WO2020263016A1 (en) * 2019-06-26 2020-12-30 삼성전자 주식회사 Electronic device for processing user utterance and operation method therefor
US12183329B2 (en) 2019-06-26 2024-12-31 Samsung Electronics Co., Ltd. Electronic device for processing user utterance and operation method therefor

Also Published As

Publication number Publication date
KR102342571B1 (en) 2021-12-22

Similar Documents

Publication Publication Date Title
US12249332B2 (en) Proactive command framework
US10192545B2 (en) Language modeling based on spoken and unspeakable corpuses
US11881209B2 (en) Electronic device and control method
US8630860B1 (en) Speaker and call characteristic sensitive open voice search
JP6923332B2 (en) Automatic interpretation method and equipment
KR101859708B1 (en) Individualized hotword detection models
US9330661B2 (en) Accuracy improvement of spoken queries transcription using co-occurrence information
US11093110B1 (en) Messaging feedback mechanism
US11556302B2 (en) Electronic apparatus, document displaying method thereof and non-transitory computer readable recording medium
CN106560891A (en) Speech Recognition Apparatus And Method With Acoustic Modelling
US11276403B2 (en) Natural language speech processing application selection
JPWO2005101235A1 (en) Dialogue support device
US11417313B2 (en) Speech synthesizer using artificial intelligence, method of operating speech synthesizer and computer-readable recording medium
EP3550454A1 (en) Electronic device and control method
US11893813B2 (en) Electronic device and control method therefor
US10600419B1 (en) System command processing
KR102342571B1 (en) Method for recognition voice apply to multi voice recognition module and voice recognition apparatus thereof
KR20150041281A (en) Method for providing health diagnosis service using voice analysis, system and apparatus thereof
US11227578B2 (en) Speech synthesizer using artificial intelligence, method of operating speech synthesizer and computer-readable recording medium
Tripathi et al. Cyclegan-based speech mode transformation model for robust multilingual ASR
KR20160060915A (en) Method for creating language model based on root and language processing apparatus thereof
US11443732B2 (en) Speech synthesizer using artificial intelligence, method of operating speech synthesizer and computer-readable recording medium

Legal Events

Date Code Title Description
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20141119

PG1501 Laying open of application
A201 Request for examination
PA0201 Request for examination

Patent event code: PA02012R01D

Patent event date: 20181025

Comment text: Request for Examination of Application

Patent event code: PA02011R01I

Patent event date: 20141119

Comment text: Patent Application

E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20200429

Patent event code: PE09021S01D

E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20201029

Patent event code: PE09021S01D

E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20210430

Patent event code: PE09021S01D

E701 Decision to grant or registration of patent right
PE0701 Decision of registration

Patent event code: PE07011S01D

Comment text: Decision to Grant Registration

Patent event date: 20210929

GRNT Written decision to grant
PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20211220

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20211220

End annual number: 3

Start annual number: 1

PG1601 Publication of registration
PR1001 Payment of annual fee

Payment date: 20240919

Start annual number: 4

End annual number: 4