KR20030076661A - Method, module, device and server for voice recognition - Google Patents
Method, module, device and server for voice recognition Download PDFInfo
- Publication number
- KR20030076661A KR20030076661A KR10-2003-7010428A KR20037010428A KR20030076661A KR 20030076661 A KR20030076661 A KR 20030076661A KR 20037010428 A KR20037010428 A KR 20037010428A KR 20030076661 A KR20030076661 A KR 20030076661A
- Authority
- KR
- South Korea
- Prior art keywords
- unrecognized
- terminal
- language model
- representation
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
Abstract
본 발명은, 적어도 하나의 단말(114)에서 구현되는 음성 인식 방법으로서, 이 음성 인식 방법은, 언어 모델(311)을 사용하여,The present invention is a speech recognition method implemented in at least one terminal 114, the speech recognition method using a language model 311,
- 하나의 단말에서 적어도 하나의 미인식된 표현을 검출(502)하는 단계와,Detecting (502) at least one unrecognized representation in one terminal,
- 상기 미인식된 표현(309)을 나타내는 데이터를 단말에 리코드(503)하는 단계와,Recording (503) data representing the unrecognized representation (309) to the terminal;
- 상기 리코드된 데이터를 단말에 의해 리모트 서버(116)로 송신(603)하는 단계와,Sending (603) the recorded data by the terminal to the remote server 116,
- 상기 리모트 서버의 레벨에서 상기 데이터를 분석(803)하며 상기 미인식된 표현의 적어도 하나의 부분을 고려하여 상기 언어 모델을 정정하기 위한 정보를 생성(805)하는 단계와,Analyzing (803) the data at the level of the remote server and generating (805) information for correcting the language model in view of at least one portion of the unrecognized representation;
- 상기 미인식된 표현의 적어도 특정 표현을 차후 인식 가능하게 하기 위하여, 상기 정정 정보를 상기 서버로부터 적어도 하나의 단말(114, 117, 118)로 송신 (806)하는 단계Transmitting (806) said correction information from said server to at least one terminal (114, 117, 118) in order to be able to subsequently recognize at least a particular representation of said unrecognized representation.
를 포함하는 음성 인식 방법에 관한 것이다.It relates to a speech recognition method comprising a.
또한 본 발명은 대응하는 모듈, 디바이스(102), 및 리모트 서버(116)에 관한 것이다.The invention also relates to a corresponding module, device 102, and remote server 116.
Description
정보 또는 제어 시스템은 음성 인터페이스의 사용을 더욱 더 증가시켜 더 신속하며 및/또는 보다 직관적으로 유저와 상호작용 가능하게 한다. 이들 시스템이 훨씬 더 복잡해지고 있으므로, 음성 인식 면에서의 요구조건도 인식 범위(매우 많은 어휘)와 인식 속도(실시간 인식) 모두에 관해 훨씬 더 고려해야 한다.The information or control system further increases the use of the voice interface to enable faster and / or more intuitive interaction with the user. As these systems become much more complex, the requirements in terms of speech recognition must be considered even more in terms of both recognition range (very much vocabulary) and recognition speed (real time recognition).
언어 모델(응용 어휘의 주어진 워드가 문장의 시간적 순서에서 다른 워드나 워드의 그룹의 다음에 위치할 확률)과 음성 유닛의 사용에 기초한 음성 인식 방법은 이 기술 분야에 알려져 있다. 이들 기술은 특히 1997년에 MIT 출판사에서 발행한 프레드릭 제리넥(Frederik Jelinek)의 "음성 인식을 위한 통계적 방법 (Statistical methods for speech recognition)" 논문에 기술되어 있다.Speech recognition methods based on language models (probability that a given word of an application vocabulary is next to another word or group of words in the temporal order of the sentence) and the use of speech units are known in the art. These techniques are described in particular in the paper "Statistical methods for speech recognition" by Frederik Jelinek, published in 1997 by the MIT Press.
이들 기술은, 대표적인 음성 샘플(예를 들어 명령을 입력하는 단말의 유저의 집단(population)으로부터 나오는 샘플)로부터 생성된 언어 모델과 음성 유닛에 의존하고 있다.These techniques rely on speech models and speech units generated from representative speech samples (e.g., samples from a population of users of a terminal entering a command).
실제, 언어 모델은 시스템의 유저에 의해 통상 사용되는 발언 스타일 (speaking style)과 특히 자기의 "결점", 즉 말더듬(hesitation), 잘못된 시작 (false start), 마음의 변화(change of mind) 등을 고려하여야만 한다.Indeed, the language model identifies the speaking styles commonly used by users of the system, and especially their "defects": hesitation, false start, change of mind, etc. Should be considered
널리 사용되고 있는 언어 모델의 품질은 음성 인식의 신뢰성에 크게 영향을 미친다. 이 품질은 언어 모델의 혼란(perplexity)이라고 부르는 지수(index)로 종종 측정되는데, 이 지수는 개략적으로 시스템이 각 디코딩된 워드에 대해 취해야 하는 선택의 수를 나타내는 것이다. 이 혼란이 낮으면 낮을수록, 품질은 더 우수하게 된다.The quality of widely used language models greatly affects the reliability of speech recognition. This quality is often measured by an index called the language model's perplexity, which roughly represents the number of choices the system must make for each decoded word. The lower this confusion, the better the quality.
언어 모델은 음성 신호를 워드의 문자 열(textual string)로 변환하는데 필요하며, 이 단계는 다이알로그 시스템(dialogue system)에 의해 종종 사용된다. 이후, 질문에 답을 하기 위해 질문을 이해할 수 있게 하는 이해 로직(comprehension logic)을 구성하는 것이 필요하다.The language model is needed to convert the speech signal into a textual string of words, which is often used by a dialog system. Then, to answer the question, it is necessary to construct the comprehension logic that enables the question to be understood.
많은 어휘의 언어 모델을 생성하는 데에는 2가지 표준 방법이 있다:There are two standard ways to create language models of many vocabularies:
대부분 흔히 바이그램(bigram) 또는 트라이그램(trigram)을 사용하는, 소위 N-그램 통계적 방법(statistical method)은, 문장 내에 워드의 발생 확률이 문장의 나머지 문맥에 상관없이 그 워드에 선행하는 N개의 워드에만 의존하는 것으로 가정하고 있다.The so-called N-gram statistical method, most often using bigrams or trigrams, includes N words where the probability of occurrence of a word in a sentence precedes that word, regardless of the rest of the context of the sentence. It is assumed to depend only on.
만일, 1000개의 워드의 어휘에 대해 트라이그램의 예를 가지면, 언어 모델을 한정하기 위해 10003의 확률을 한정할 필요가 있게 되는데, 이것은 불가능하다. 그러므로 이 워드는 모델 디자이너에 의해 명시적으로 한정되거나 또는 자기 구성 방법으로 추론되는 세트로 그룹화된다.If we have an example of a trigram for a vocabulary of 1000 words, then we need to define a probability of 1000 3 to define the language model, which is not possible. Therefore, these words are grouped into sets that are either explicitly defined by the model designer or inferred by a self-organizing method.
그리하여 이 언어 모델은 텍스트 언어자료로부터 자동적으로 구성된다.Thus, this language model is automatically constructed from textual language material.
이 타입의 언어 모델은, 그 궁극적인 기능이 임의의 이해 단계도 필요없이 음성 신호를 텍스트로 변환하는 것인 음성 명령 시스템에 주로 사용된다.This type of language model is mainly used in speech command systems, whose ultimate function is to convert speech signals into text without the need for any level of understanding.
2번째 방법은, 개연적 문법, 전형적으로 소위 배커스 나우르 폼 즉 BNF (Backus Naur Form)로 기술되는 룰 세트에 의하여 한정된 문맥없는 문법(context-free grammer), 또는 이 폼을 문맥상의 문법으로 연장한 문법에 의하여 구문 (syntax)을 기술하는 것이다. 문법을 기술하는 룰은 대부분 흔히 손으로 기록된다. 이 타입의 언어 모델은, 음성 인식 단계 후에 어플라이언스를 제어하는 단계 또는 데이터베이스 내 정보를 검색하는 단계가 따라오는 명령 및 제어 응용(command and control application)에 적합하다.The second method is a context-free grammer defined by a set of probable grammars, typically a so-called Backus Naur form, or BNF (Backus Naur Form), or extending this form to a contextual grammar. A grammar describes a syntax. Most rules describing grammar are written by hand. This type of language model is suitable for command and control applications followed by controlling the appliance after a speech recognition step or retrieving information in a database.
응용의 언어 모델은 인식하는데 응용을 요구하는 표현(예를 들어 문장)의 세트를 기술한다. 종래 기술의 단점은, 만일 언어 모델의 품질이 불량한 경우, 인식 시스템이 음향-음성 디코딩 레벨(acoustico-phonetic decoding level)에서 매우 잘 수행되더라도, 이 음성 시스템은 특정 표현에 대해서는 평범한 성능(mediocre performance)을 가질 수 있다는 것이다.The language model of the application describes a set of expressions (eg sentences) that require the application to recognize. A disadvantage of the prior art is that, if the quality of the language model is poor, even if the recognition system performs very well at the acoustic-phonetic decoding level, the speech system has mediocre performance for certain expressions. Is to have.
이 확률적인 타입의 언어 모델은, 적절히 말하면, 언어 모델 내에 있는 표현과 외부에 있는 표현에 대한 명확한 정의를 갖지 않는다. 특정 표현은 단지 다른 표현에 비해 선험적으로 더 높은 발생 확률을 가지고 있다.This stochastic type of language model, when appropriately said, does not have a clear definition of what is in the language model and what is outside. Certain expressions only have a higher probability of occurrence a priori than other expressions.
개연적인 문법 타입의 언어 모델은 언어 모델에 속하는 표현과 언어 모델 외부에 있는 표현 사이에 명확한 차이를 보여준다. 그리하여 이들 모델에서는, 사용되고 있는 음성 모델의 품질에 상관없이, 전혀 인식될 수 없는 표현이 존재하게 된다. 이들은 일반적으로 개발된 시스템의 응용 분야 외의 의미를 가지거나 또는 전혀 의미를 가지지 않는 표현들이다.Probable grammatical type language models show a clear difference between expressions belonging to a language model and expressions outside the language model. Thus, in these models, there is an expression that cannot be recognized at all, regardless of the quality of the speech model being used. These are generally expressions that have a meaning outside the field of application of the developed system or have no meaning at all.
개연적인 타입의 언어 모델과 그 파생 모델은 명령 및 제어 응용에 보다 효과적인 것으로 밝혀져 있다. 이들 문법은 종종 손으로 기록되며, 다이알로그 시스템의 개발의 주요 어려움 중 하나는 우수한 품질의 언어 모델을 제공하는 것이다.Probabilistic types of language models and their derivative models have been found to be more effective for command and control applications. These grammars are often written by hand, and one of the major difficulties in developing dialog systems is to provide a high quality language model.
특히, 문법 타입의 모델에 관한 한, 많은 집단(예를 들어 대량 판매되는 어플라이언스를 위한 리모트 콘트롤의 경우)에 의해 언어가 사용되기 쉬운 경우에 특히 그 언어를 구체적으로 한정하는 것이 가능하지 않을 수 있다. 모든 가능한 표현과 구의 말투(turns of phrase)(형식적 언어에서부터 속어에 이르기까지) 및/또는 문법의 오류 등을 고려하는 것이 가능하지 않을 수 있다.In particular, as far as the grammar type model is concerned, it may not be possible to specifically limit the language, especially if the language is easy to use by a large number of groups (e.g. in the case of remote controls for mass marketed appliances). . It may not be possible to take into account all possible expressions and turns of phrases (from formal language to slang) and / or errors in grammar.
본 발명은 음성 인터페이스 분야에 관한 것이다.The present invention relates to the field of voice interfaces.
보다 상세하게는, 본 발명은 음성 인식을 사용하여 단말에서 언어 모델 (language model) 및/또는 음성 유닛(phonetic unit)의 최적화에 관한 것이다.More specifically, the present invention relates to the optimization of a language model and / or phonetic unit in a terminal using speech recognition.
도 1 은 본 발명의 기술이 구현될 수 있는 음성 제어 박스를 포함하는 시스템의 전체 개략도.1 is an overall schematic diagram of a system including a voice control box in which the techniques of the present invention may be implemented;
도 2 는 도 1의 시스템의 음성 인식 박스의 개략도.2 is a schematic diagram of a speech recognition box of the system of FIG.
도 3 은 도 2의 개략도를 구현하는 음성 인식 박스의 전자 도면.3 is an electronic diagram of a speech recognition box implementing the schematic diagram of FIG.
도 4 는 도 1의 시스템의 서버의 개략도.4 is a schematic diagram of a server of the system of FIG. 1;
도 5 는 도 2의 인식 엔진으로 구현되는, 미인식된 표현에 관한 데이터를 리코드하며 표현을 테스트 하는 방법의 흐름도.5 is a flow chart of a method for testing a representation by recording data relating to an unrecognized representation, implemented with the recognition engine of FIG.
도 6 은 도 2의 거부 모듈에 의해 구현되는, 미인식된 표현에 관한 데이터를 송신하는 방법의 흐름도.6 is a flow chart of a method for transmitting data regarding an unrecognized representation, implemented by the reject module of FIG.
도 7 은 도 2의 언어 모델을 로딩하기 위한 모듈에 의해 구현되는, 정정 데이터를 수신하는 방법의 흐름도.7 is a flow diagram of a method for receiving correction data, implemented by a module for loading the language model of FIG.
도 8 은 도 4의 리모트 서버에서 구현되는, 정정 데이터를 수신 및 처리하는방법의 흐름도.8 is a flow diagram of a method for receiving and processing correction data, implemented in the remote server of FIG.
본 발명은, 시스템에 의해 인식되지 못한 표현의 리코딩에 기초하여, 언어 모델을 원격적으로 수정 및 개선할 수 있게 하는 음성 인식 방법 및 시스템에 관한 것이다.The present invention relates to a speech recognition method and system that enables remote modification and improvement of a language model based on the recording of an expression not recognized by the system.
보다 구체적으로, 본 발명의 주제는, 적어도 하나의 단말에서 구현되는 음성 인식 방법으로서, 상기 음성 인식 방법은, 언어 모델을 사용하여,More specifically, a subject of the present invention is a speech recognition method implemented in at least one terminal, the speech recognition method using a language model,
- 하나의 단말에서 적어도 하나의 미인식된 표현을 검출하는 단계와,Detecting at least one unrecognized representation in one terminal,
- 상기 미인식된 표현을 나타내는 데이터를 단말에 리코딩하는 단계와,Recording at the terminal data representing the unrecognized representation;
- 제 1 송신 채널을 통해, 상기 리코드된 데이터를 리모트 서버로 단말에 의해 송신하는 단계와,Transmitting, by a terminal, the recorded data to a remote server over a first transmission channel;
- 상기 리모트 서버의 레벨에서, 상기 데이터를 분석하며 상기 미인식된 표현의 적어도 하나의 부분을 고려하여 언어 모델을 정정하기 위한 정보를 생성하는 단계와,At the level of the remote server, analyzing the data and generating information for correcting the language model taking into account at least one part of the unrecognized representation,
- 상기 미인식된 표현 중 적어도 특정 표현을 차후 인식하도록 하기 위해, 제 2 송신 채널을 통해 상기 정정 정보를 상기 서버로부터 적어도 하나의 단말로 송신하는 단계Transmitting the correction information from the server to at least one terminal via a second transmission channel to subsequently recognize at least a particular representation of the unrecognized representation.
를 포함하는 것을 특징으로 하는 음성 인식 방법에 있다.In a voice recognition method comprising a.
따라서, 본 발명은, 정정 정보를 생성하는 중요한 자원(예를 들어, 사람 및/또는 연산 능력)을 리모트 서버에 갖춰 놓고 국부적으로 미인식된 표현의 함수로서 음성 인식을 가능하게 하는 여러 요소를 업데이트할 수 있는, 음성 인식에 대한 전적으로 새롭고 진보적인 접근법에 의존한다.Thus, the present invention updates several elements that enable the speech recognition as a function of a locally unrecognized representation, with a remote server having significant resources (e.g., human and / or computing power) for generating correction information. It relies on an entirely new and progressive approach to speech recognition.
여기서 이 언어 모델은,This language model is
- 엄격한 의미(strict sense)의 언어 모델(이것은, 예를 들어, 인식 주제인 데이터가 순수하게 텍스트 타입일 때 그러하다)과;A strict sense language model (for example, when the data subject to recognition is purely text type);
- 엄격한 의미의 하나 이상의 언어 모델과 음성 유닛의 하나 이상의 세트로 형성된 모델(이것은 특히 음성 샘플에 적용된 음성 인식의 일반적인 경우에 해당한다)A model formed of one or more language models of strict meaning and one or more sets of speech units (this is especially the case in speech recognition applied to speech samples)
을 포함하는 것을 특징으로 한다.Characterized in that it comprises a.
본 발명은 어휘의 단순한 업데이트를 넘어 진행된다. 구체적으로, 어휘 내의 표현의 특징을 갖는 모든 워드가 단말의 언어 모델에 의해 사용되었다하더라도, 이 표현이 인식되지 못할 수도 있다는 것이다. 언어 모델 자체의 업데이트만이 이 표현이 차후 인식될 수 있게 할 수 있다. 언어 모델이 유도되는 정보 아이템 중 하나인 어휘의 업데이트로는 충분치 않다.The present invention goes beyond a simple update of the vocabulary. Specifically, even if all words having a feature of the expression in the vocabulary have been used by the language model of the terminal, this expression may not be recognized. Only an update of the language model itself can allow this expression to be recognized later. An update of the vocabulary, one of the information items from which the language model is derived, is not sufficient.
여기에서, 그 표현은 넓은 의미에서 취해진 것이며 단말과 그 유저 사이에 상호작용을 가능하게 하는 임의의 구두 표현(vocal expression)에 관련된 것이다. 표현(또는 말)은, 특히, 문장(sentence), 구(phrase), 분리 또는 비분리된 워드 (isolated or non-isolated word), 단말에 지정된 코드 워드(code word), 지시, 명령 등을 포함한다.Here, the expression is taken in a broad sense and relates to any verbal expression that enables interaction between the terminal and its user. Expressions (or words) include, in particular, sentences, phrases, isolated or non-isolated words, code words assigned to a terminal, instructions, commands, and the like. do.
정정 정보는, 단말 내에 있는 요소를 삭제, 대체, 또는 추가함으로써 각 단말에 존재하는 음성 유닛 및/또는 언어 모델의 부분적 또는 완전한 수정을 가능하게 하는 정보를 특히 포함할 수 있다.The correction information may specifically include information that enables partial or complete modification of the speech unit and / or language model present at each terminal by deleting, replacing, or adding elements within the terminal.
서버는 각 단말로부터 데이터를 수신할 수 있어, 이에 의해 각 단말은 데이터 송신 단말과 또한 다른 모든 단말에 존재하는 음성 유닛 및/또는 언어 모델을 개선시킬 수 있게 되며, 여기서 각 단말은 모든 단말로부터 서버에 의해 획득한 공유 경험(shared experience)으로부터 이익을 얻는다.The server may receive data from each terminal, thereby enabling each terminal to improve the speech unit and / or language model present at the data transmitting terminal and also at all other terminals, where each terminal is a server from all terminals. Benefit from the shared experience gained by
이리하여, 본 발명은, 특정 유저에 지정된 언어 스타일이나 구의 말투, 예를 들어, "8pm" 또는 "저녁 8시"가 아닌 표현, 즉 구현되는 언어 모델의 구성 동안 제공되지 않았던 표현인 "저녁 8pm"(선험적으로 상상하기 어려운 용어)을 참작할 수도 있다.In this way, the present invention relates to a language style or phrase that is assigned to a particular user, for example, an expression other than "8pm" or "evening 8 o'clock", that is, an expression that was not provided during the construction of the implemented language model. "(A term difficult to imagine a priori) may be taken into account.
나아가, 본 발명은 현용 언어(living language)의 진화(새로운 구의 말투 또는 표현 등)도 참작한다.Furthermore, the present invention also takes into account the evolution of living languages (such as new phrases or expressions).
본 발명은 개연적인(probabilistic) 문법 타입의 언어 모델과 확률적 (stochastic) 타입의 언어 모델에 동일하게 잘 적용된다는 것이 주목된다. 본 발명이 확률적 타입의 언어 모델에 적용될 때, 인식에 영향을 미치는 매우 많은 정정 데이터가 일반적으로 존재하는 반면, 개연적인 문법 타입의 모델에 대해서는 정정 데이터가 거의 없을 수 있고 또한 인식의 효과와 신뢰성에 상당한 영향력을 가질 수 있다.It is noted that the present invention applies equally well to probabilistic grammatical and stochastic type language models. When the present invention is applied to a probabilistic type language model, there is generally a great deal of correction data that affects recognition, whereas for probabilistic grammar type models there may be little correction data and also the effect and reliability of recognition. Can have a significant impact on
특정 특성에 따라, 본 방법은 미인식된 표현을 나타내는 데이터가 음향 신호를 기술하는 파라미터를 나타내는 압축된 음성 리코딩을 포함하는 것을 특징으로 한다.According to a particular characteristic, the method is characterized in that the data representing the unrecognized representation comprises compressed speech recordings representing parameters describing the acoustic signal.
따라서, 본 발명은 리모트 서버로 송신되는 데이터의 양을 제한하면서도 서버 레벨에서 정교한 분석을 위해 소스로 송신된 음성 데이터를 유리하게 고려할 수 있도록 한다.Thus, the present invention allows to advantageously consider the voice data sent to the source for sophisticated analysis at the server level while limiting the amount of data sent to the remote server.
특정 특성에 따라, 본 방법은, 단말에 의해 송신되는 단계 동안, 단말은,According to a particular characteristic, the method, during the step sent by the terminal, the terminal,
- 어느 표현이 인식되지 못하였을 때 음성 인식 방법의 사용에 대한 문맥 정보와,Contextual information on the use of speech recognition methods when no expression is recognized,
- 미인식된 표현을 말한 화자에 관한 정보-Information about the speaker who spoke the unrecognized expression
를 포함하는 그룹의 부분을 형성하는 정보 중 적어도 하나의 아이템을 서버로 더 송신하는 것을 특징으로 한다.And at least one item of information forming a part of the group including a further to the server.
그리하여, 원격적으로 수행될 수 있는 단말에 의해 인식되지 못한 표현의 음성 인식이 용이해지게 된다.Thus, speech recognition of expressions not recognized by the terminal that can be performed remotely is facilitated.
나아가, 미인식된 표현의 콘텐츠의 유효성 체크(check of the validity)가 문맥의 함수로서 수행될 수 있다(예를 들어, "송신 리코드" 명령은 이 명령이 보내진 단말이 비디오 리코더일 때는 의미를 가지며 따라서 유효하지만 모바일 전화인 경우에는 의미를 가지지 않는다).Furthermore, a check of the validity of the content of the unrecognized representation may be performed as a function of the context (eg, a "transmit record" command means meaning when the terminal to which this command was sent is a video recorder. And therefore valid but not meaningful for mobile phones).
특정 특성에 따라, 본 방법은 암호화 및/또는 리코드된 데이터 및/또는 정정 정보의 스크램블링을 구현하는 것을 특징으로 한다.According to certain features, the method is characterized by implementing scrambling of the encrypted and / or recorded data and / or correction information.
따라서, 데이터는 효과적으로 안전하게 만들어지며 기밀로 유지된다.Thus, data is effectively made secure and confidential.
이 정보는 또한 언어 모델을 사용하는 음성 인식 모듈에 관한 것으로서,This information also relates to speech recognition modules using language models,
- 미인식된 표현을 검출하는 분석기와,An analyzer for detecting unrecognized expressions,
- 적어도 하나의 미인식된 표현을 나타내는 데이터를 리코드하는 리코더와,A recorder for recording data representing at least one unrecognized representation,
- 상기 리코드된 데이터를 리모트 서버로 송신하는 송신기와,A transmitter for transmitting the recorded data to a remote server;
- 모듈에 의해 미인식된 표현 중 적어도 특정 표현을 차후 인식 가능하게 하도록, 정정 모듈로 송신된 언어 모델의 정정을 가능하게 하는 정정 정보를 수신하는 수신기로서, 리모트 서버의 레벨에서 상기 데이터를 분석한 후 그리고 미인식된 표현 중 적어도 하나의 부분을 고려하여 언어 모델을 정정하기 위한 정보를 생성한 후 상기 정정 정보가 리모트 서버에 의해 송신되는, 수신기A receiver for receiving correction information enabling correction of a language model transmitted to a correction module, so as to enable subsequent recognition of at least a particular expression among the expressions unrecognized by the module, the data being analyzed at the level of the remote server; A receiver, after generating information for correcting a language model in view of at least one portion of the later and unrecognized representation, the correction information being transmitted by a remote server
를 포함하는 것을 특징으로 하는 음성 인식 모듈에 관한 것이다.It relates to a speech recognition module comprising a.
본 발명은 또한 언어 모델을 사용하는 음성 인식 디바이스에 관한 것으로서,The invention also relates to a speech recognition device using a language model,
- 미인식된 표현을 검출하는 분석기와,An analyzer for detecting unrecognized expressions,
- 적어도 하나의 미인식된 표현을 나타내는 데이터를 리코드 하는 리코더와,A recorder for recording data representing at least one unrecognized representation,
- 상기 리코드된 데이터를 리모트 서버로 송신하는 송신기와,A transmitter for transmitting the recorded data to a remote server;
- 디바이스에 의해 미인식된 표현 중 적어도 특정 표현을 차후 인식 가능하게 하도록 디바이스로 송신된 언어 모델의 정정을 가능하게 하는 정정 정보를 수신하는 수신기로서, 리모트 서버의 레벨에서 상기 데이터를 분석한 후 그리고 미인식된 표현 중 적어도 하나의 부분을 고려하여 언어 모델을 정정하기 위한 정보를 생성한 후 상기 정정 정보가 리모트 서버에 의해 송신되는, 수신기A receiver for receiving correction information enabling correction of a language model sent to the device to enable later recognition of at least a particular expression of the unrecognized expression by the device, after analyzing the data at the level of the remote server and A receiver in which the correction information is transmitted by a remote server after generating information for correcting the language model in view of at least one portion of the unrecognized expression
를 포함하는 것을 특징으로 하는 음성 인식 디바이스에 관한 것이다.It relates to a voice recognition device comprising a.
본 발명은 또한 언어 모델을 사용하여 적어도 하나의 리모트 단말의 세트에서 인식이 구현되는 음성 인식 서버에 관한 것으로서, 다음의 수단, 즉The invention also relates to a speech recognition server in which recognition is implemented in a set of at least one remote terminal using a language model, comprising:
- 적어도 하나의 리모트 단말의 세트의 부분을 형성하며 그리고 음성 인식 동작 동안 미인식된 표현을 검출한, 적어도 하나의 단말에 의해 미인식된 적어도 하나의 표현을 나타내는 데이터를 수신하는 수신기와,A receiver which forms part of a set of at least one remote terminal and receives data indicative of at least one representation not recognized by at least one terminal which has detected an unrecognized representation during a speech recognition operation,
- 서버의 레벨에서 수신된 데이터의 분석에 기초하여 획득된 정정 정보를 적어도 하나의 리모트 단말의 세트로 송신하는 송신기로서, 상기 정정 정보는 상기 세트의 각 단말에 의해 미인식된 표현의 적어도 하나의 부분을 차후 인식 가능하게 하도록 언어 모델의 정정을 가능하게 하는, 송신기A transmitter for transmitting to the set of at least one remote terminal the correction information obtained based on the analysis of the data received at the level of the server, the correction information being at least one of an unrecognized representation by each terminal of the set; Transmitter that allows correction of the language model to enable later recognition of the part
를 포함하는 것을 특징으로 하는, 음성 인식 서버에 관한 것이다.It relates to a speech recognition server, characterized in that it comprises a.
음성 인식 모듈, 디바이스, 및 서버의 특정 특성 및 잇점은 음성 인식 방법의 특성 및 잇점과 유사하므로, 이들의 특성과 잇점은 여기에서는 재기술하지 않는다.Since the specific features and benefits of the speech recognition module, device, and server are similar to those of the speech recognition method, their features and benefits are not described herein again.
본 발명의 다른 특성과 잇점은 단지 비제한적인 예시적인 예에 의하여 주어지는 바람직한 실시예와 첨부 도면에 관한 이후 상세한 설명을 판독할 때 보다 명확하게 밝혀질 것이다.Other features and advantages of the present invention will become more apparent upon reading the following detailed description of the preferred embodiments and the accompanying drawings, which are given by way of non-limiting illustrative examples only.
따라서 본 발명의 일반적인 원리는, 음성 인식 방법이 특히 리모트 서버가 필요하다고 간주할 때 리모트 서버에 의해 업데이트될 수 있는 음성 유닛의 세트 및/또는 언어 모델을 사용하는, 단말에서 구현되는 음성 인식에 의존한다.The general principle of the present invention therefore depends on the speech recognition implemented at the terminal, using a set of speech units and / or language models that can be updated by the remote server, especially when the speech recognition method is deemed necessary. do.
일반적으로, 각 단말은 화자에 의해 구성된 표현(예를 들어, 문장이나 명령)을 인식하여 대응하는 조치를 수행할 수 있다.In general, each terminal may recognize a representation (eg, a sentence or a command) configured by the speaker and perform a corresponding action.
그럼에도 불구하고, 사람에게 완전히 이해가능한 특정 표현이 음성 인식을 구현하는 디바이스나 모듈에 의해서는 인식되지 못하는 일이 종종 발견된다.Nevertheless, it is often found that certain expressions that are fully understandable to a human are not recognized by a device or module that implements speech recognition.
인식을 못하는 이유로는 여러 원인, 즉Unrecognized reasons include a number of reasons,
- 언어 모델의 부분을 형성하지 않는 화자에 의해 사용되는 어휘와,Vocabulary used by speakers who do not form part of the language model,
- (예를 들어, 액센트가 있는) 특정 발음(pronunciation)과,-Specific pronunciation (e.g. with accents),
- 음성 인식 디바이스나 모듈에 의해 제공되지 않는 특정 구의 말투(turn)와,A specific phrase turn not provided by a speech recognition device or module,
- 등- Etc
이 있을 수 있다.This can be.
구체적으로, 언어 모델과 음성 유닛의 세트는 전형적인 집단에 의해 관습적으로 사용되는 표현의 샘플, 즉 특정 어휘의 워드, 발음, 및/또는 전에는 고려되지 않은(그리고 고려할 수 없었던) 구의 말투를 고려하여 통계적 데이터에 기초하여 종종 구성된다.Specifically, the language model and the set of speech units take into account a sample of expressions customarily used by a typical group, ie words, pronunciation, and / or phrases of phrases not previously considered (and not considered). Often constructed based on statistical data.
본 발명은 음성 인식 디바이스나 모듈에 의해 미인식된 표현을 먼저 검출하는 것에 의존한다.The present invention relies on first detecting the expression not recognized by the speech recognition device or module.
어느 표현이 인식되지 못하였을 때, 단말은 미인식된 표현을 리모트 서버로 송신하기 위하여 미인식된 표현에 해당하는 신호를 나타내는 데이터를 리코딩한다(예를 들어, 그 표현의 음성 디지털 리코딩과 같이).When a representation is not recognized, the terminal records data representing a signal corresponding to the unrecognized representation in order to send the unrecognized representation to the remote server (e.g., voice digital recording of that representation). .
단말의 세트로부터 미인식된 표현을 중앙 집중시키는 리모트 서버의 레벨에서, 인간인 오퍼레이터는 이 미인식된 표현을 분석할 수 있다.At the level of the remote server that centralizes the unrecognized representation from the set of terminals, a human operator can analyze this unrecognized representation.
이 미인식된 표현 중 특정 표현은 이해 불가능 및/또는 사용불가능인 것으로 밝혀질 수 있으며 그러면 버려지게 될 것이다.Certain of these unrecognized expressions may be found to be incomprehensible and / or unusable and will then be discarded.
한편, 다른 표현들은, (만일 오퍼레이터가 유용하다고 생각하면) 사람/기계 연결을 통해 단말에 의해 지금까지 미인식된 이들 표현을 서버에서 이해할 수 있는 코드로 "번역"할 수 있는 오퍼레이터에게 완전히 이해될 수 있을 것이다.On the other hand, other expressions would be fully understood by an operator who could "translate" those expressions thus far unrecognized by the terminal through human / machine connections (if the operator finds them useful) to code understandable at the server. Could be.
서버는 언어 모델 및/또는 음성 유닛 세트를 정정하기 위한 정보를 생성하기 위해 이들 표현과 그 번역문과 함께 고려할 수 있다.The server may take into account these expressions and their translations to generate information for correcting the language model and / or speech unit set.
여기서 정정은,The correction here is
- 모델의 수정 및/또는Modification of the model and / or
- 모델의 보완Complement the model
으로서 이해되는 것을 주목하여야 한다.It should be noted that it is understood as.
이후 서버는 각 단말에 이 정정 정보를 송신하며, 각 단말은 스스로 또는 다른 단말에 의해 인식되지 못한 다수의 표현으로 차 있는 그 언어 모델 및/또는 음성 유닛 세트를 업데이트할 수 있다.The server then sends this correction information to each terminal, where each terminal can update its language model and / or speech unit set, filled with multiple representations not recognized by itself or by another terminal.
이리하여, 각 단말의 음성 인식은 모든 단말이 공유하는 경험으로부터 유익을 얻음으로써 개선된다.Thus, speech recognition of each terminal is improved by benefiting from the experience shared by all terminals.
본 발명의 특정 모드에 따라, 분석은 오퍼레이터에 의해 수행되는 것이 아니라 단순한 단말보다 임의대로 훨씬 더 많은 자원을 가질 수 있는 서버에 의해 수행된다.According to a particular mode of the present invention, the analysis is not performed by an operator but by a server that can have much more resources at random than a simple terminal.
특정 실시예에 따라, 단말은 미인식된 표현에 해당하는 신호를 나타내는 데이터와 함께 서버 문맥 데이터(예를 들어, 시간, 날짜, 음성 명령이 실패한 후 수동으로 또는 구두로 수행되는 제어, 위치, 단말 타입, 등)를 송신한다.According to a particular embodiment, the terminal may include server context data (e.g., control, location, terminal performed manually or verbally after a failure of a time, date, or voice command) with data representing a signal corresponding to an unrecognized representation. Type, etc.).
이것은 오퍼레이터 및/또는 서버의 분석 작업을 용이하게 할 수 있다.This may facilitate the analysis of the operator and / or server.
본 발명의 기술이 구현될 수 있는 음성 제어 박스를 포함하는 시스템의 전체 개략도가 도 1과 연계하여 묘사되어 있다.An overall schematic diagram of a system including a voice control box in which the techniques of the present invention may be implemented is depicted in connection with FIG. 1.
본 시스템은,This system,
- 사람인 오퍼레이터(122)에 의해 제어되는 리모트 서버(116)와,A remote server 116 controlled by an operator 122 which is a human,
- 복수의 유저 시스템(114, 117 및 118)Multiple user systems 114, 117 and 118
을 특히 포함한다.In particular it includes.
리모트 서버(116)는 통신 다운링크(115, 119 및 120)를 통해 각 유저 시스템 (114, 117 및 118)에 각각 링크된다. 이들 링크는 영구적이거나 임시적인 것일 수 있으며 이 기술 분야에 숙련된 사람에게 잘 알려져 있는 임의의 타입일 수 있다. 이들 링크는 특히 방송 타입일 수 있으며 그리고 TV에 의해 사용되는 RF, 위성 또는 유선 채널이나 예를 들어, 인터넷 타입 링크와 같은 임의의 다른 타입에 기초할 수 있다.Remote server 116 is linked to respective user systems 114, 117, and 118 via communication downlinks 115, 119, and 120, respectively. These links may be permanent or temporary and may be of any type well known to those skilled in the art. These links may be of particular broadcast type and may be based on the RF, satellite or wired channel used by the TV or any other type, for example an internet type link.
도 1 은 통신 업링크(121)를 통해 서버(116)에 링크된 유저 시스템(114)을 특히 기술한다. 이 링크도 마찬가지로 이 기술 분야에 숙련된 사람에게는 잘 알려진 임의의 타입(특히 전화, 인터넷 등)일 수 있다.1 specifically describes a user system 114 linked to a server 116 via a communication uplink 121. This link can likewise be of any type well known to those skilled in the art (especially telephone, internet, etc.).
유저 시스템(114)은User system 114
- 화자에 의해 발생된 음성 신호를 픽업하기 위한 마이크로폰으로 특히 구성될 수 있는 음성 소스(100)와,A voice source 100, which may in particular be configured as a microphone for picking up a voice signal generated by the speaker,
- 음성 인식 박스(102)와,A speech recognition box 102,
- 어플라이언스(107)를 구동하기 위한 제어 박스(105)와,A control box 105 for driving the appliance 107,
- 예를 들어 TV, 비디오 리코더 또는 모바일 통신 단말 타입의 제어되는 어플라이언스(107)Controlled appliance 107, for example of TV, video recorder or mobile communication terminal type
- 미인식된 것으로 검출된 표현을 저장하기 위한 유닛(109)과,A unit 109 for storing the detected expression as unrecognized,
- 서버(116)에 대해 업워드(upward) 및 다운워드(downward) 통신을 가능하게 하는 인터페이스(112)An interface 112 that enables upward and downward communication to the server 116.
를 특히 포함한다.In particular, it includes.
소스(100)는 링크(101)를 통해 음성 인식 박스(102)에 링크되며, 이 링크 (101)는 소스(100)가 음성 신호를 나타내는 아날로그 소스의 음파를 박스(102)로 송신할 수 있게 한다.The source 100 is linked to the speech recognition box 102 via a link 101, which allows the source 100 to transmit sound waves of an analog source representing the speech signal to the box 102. do.
박스(102)는 링크(104)를 통해 문맥 정보(104){예를 들어, 제어 코드의 리스트 또는 제어 박스(105)에 의해 제어될 수 있는 어플라이언스(107)의 타입과 같은 정보}를 검색하며 링크(103)를 통해 제어 박스(105)에 명령을 송신할 수 있다.Box 102 retrieves contextual information 104 (eg, a list of control codes or information such as the type of appliance 107 that can be controlled by control box 105) via link 104. A command can be sent to the control box 105 via the link 103.
제어 박스(105)는, 박스(102)가 자기의 언어 모델과 사전(dictionary)에 따라 인식하는 정보 함수로서, 예를 들어, 적외선과 같은 링크(106)를 통해 명령을 어플라이언스(107)로 송신한다.The control box 105 is an information function that the box 102 recognizes according to its language model and dictionary, for example, sending a command to the appliance 107 via a link 106 such as infrared. do.
제어 박스(105)는 박스(102)가 인식하지 못한 표현을 검출하며 그리고 이들 표현을 단순히 거부하는 대신에 미인식 신호를 송신함으로써, 박스(102)는 링크 (108)를 통해 이들 표현을 저장 유닛(109)으로의 리코딩을 수행한다.Control box 105 detects representations that box 102 does not recognize and transmits unrecognized signals instead of simply rejecting these representations, thereby allowing box 102 to store these representations via link 108. Recording to 109 is performed.
미인식된 표현을 저장하기 위한 유닛(109)은 링크(111)를 통해 인터페이스 (112)로 대표적인 데이터를 송신하며, 인터페이스(112)는 이 데이터를 링크(121)를 통해 서버(116)로 중계한다. 올바른 송신 후에, 인터페이스(112)는 저장 유닛(109)으로 신호(110)를 송신할 수 있으며, 이 저장 유닛(109)은 이후 송신된 데이터를 소거할 수 있다.The unit 109 for storing the unrecognized representation transmits representative data to the interface 112 via the link 111, which interface 112 relays this data to the server 116 via the link 121. do. After the correct transmission, the interface 112 may transmit a signal 110 to the storage unit 109, which may then erase the transmitted data.
제어 박스(105)는, 인터페이스(112)가 링크(115)를 통해 리모트 서버로부터 수신한 정정 데이터를 링크(113)를 통해 인터페이스(112)로부터 더 수신한다. 이들 정정 데이터는 음성 유닛의 세트 및/또는 언어 모델의 업데이트를 위해 제어 박스 (105)에 의해 고려된다.The control box 105 further receives correction data from the interface 112 via the link 113 that the interface 112 receives from the remote server via the link 115. These correction data are considered by the control box 105 for updating the set of speech units and / or language model.
고려되는 실시예에 따라, 소스(100), 음성 인식 박스(102), 제어 박스(105), 저장 유닛(109), 및 인터페이스(112)는 하나이며 동일한 디바이스의 일부를 형성하며, 따라서 링크(101, 103, 104, 108, 111, 110 및 113)는 이 디바이스 내부의 링크이다. 이 링크(106)는 전형적으로 무선 링크이다.According to the contemplated embodiment, the source 100, the speech recognition box 102, the control box 105, the storage unit 109, and the interface 112 are one and form part of the same device, thus linking ( 101, 103, 104, 108, 111, 110 and 113 are links inside this device. This link 106 is typically a wireless link.
도 1에 기술되어 있는 본 발명의 제 1 변형 실시예에 따라, 요소(100, 102, 105, 109, 및 112)는 부분적으로 또는 완전히 분리되어 있으며, 하나이며 동일한 디바이스의 일부를 이루지 않는다. 이 경우에, 링크(101, 103, 104, 108, 111, 110, 및 113)는 외부 배선이나 다른 링크이다.In accordance with a first variant of the invention described in FIG. 1, the elements 100, 102, 105, 109, and 112 are partially or completely separated and are one and do not form part of the same device. In this case, the links 101, 103, 104, 108, 111, 110, and 113 are external wires or other links.
제 2 변형 실시예에 따라, 소스(100), 박스(102 및 105), 저장 유닛(109), 및 인터페이스(112) 뿐만 아니라 어플라이언스(107)는 하나이며 동일한 디바이스의 일부를 형성하며, 내부 버스{링크(101, 103, 104, 108, 111, 110, 113, 및 106)}에 의해 상호 링크된다. 본 변형 실시예는 이 디바이스가 예를 들어 모바일 전화 또는 휴대형 통신 단말인 경우 특히 유익하다.According to a second variant embodiment, the source 100, the boxes 102 and 105, the storage unit 109, and the interface 112 as well as the appliance 107 are one and form part of the same device, and have an internal bus. Mutually linked by {links 101, 103, 104, 108, 111, 110, 113, and 106}. This variant embodiment is particularly advantageous when the device is for example a mobile phone or a portable communication terminal.
도 2 는 도 1에 대해 도시되어 있는 박스(102)와 같은 음성으로 제어되는 박스의 개략도를 도시한다.FIG. 2 shows a schematic diagram of a box that is voice controlled such as the box 102 shown for FIG. 1.
박스(102)는 외부에서부터 아날로그 소스의 음파(101)를 수신하며, 이 음파 (101)는 음향-음성 디코더(200)(Acoustico-Phonetic Decoder) 즉 APD("프론트 엔드"라고도 부름)에 의해 처리되는 것이 주목된다. 이 APD(200)는, 링크(201)를 통해 인식 엔진(203)으로 송신되는 전형적으로 구술 공명(oral resonance)을 나타내는 코드 북(code book)에 속하는 리얼 벡터(real vector) 즉 벡터를 생성하기 위하여 일정 간격(전형적으로 매 10ms마다)으로 소스 음파(101)를 샘플링한다. APD 는 예를 들어 하이넥 헤르만스키(Hynek Hermansky)에 의해 저술되고 "미국 음향 협회 저널(Journal of the Acoustical Society of America)" Vol. 97, No4, 1990년,1738-1752페이지에 발행된 논문 "음성 지각의 선형 예측 분석(Perceptual Linear Prediction (PLP) analysis of speech)"에 특히 기술되어 있는 PLP("Perceptual Linear Prediction")에 기초를 두고 있다.The box 102 receives sound waves 101 of analog sources from the outside, which are processed by an acoustic-phone decoder 200 (Acoustico-Phonetic Decoder) or APD (also called "front end"). It is to be noted. The APD 200 generates a real vector, or vector, belonging to a code book, typically representing an oral resonance, transmitted to the recognition engine 203 via a link 201. For this purpose, the source sound waves 101 are sampled at regular intervals (typically every 10 ms). APD is, for example, authored by Heynek Hermansky and published in the Journal of the Acoustical Society of America Vol. 97, No4, 1990, based on PLP ("Perceptual Linear Prediction"), which is described in particular in the paper "Perceptual Linear Prediction (PLP) analysis of speech" published in pages 1738-1752. I put it.
사전(202)의 도움으로, 인식 엔진(203)은 특히 숨은 마르코브 모델(hidden Markov model) 즉 HMM 및 언어 모델(하나의 워드가 다른 워드에 따라 나올 확률을 나타내는 모델)을 사용하여 인식 엔진(203)이 수신하는 리얼 벡터를 분석한다. 인식 엔진은 특히 프레데릭 제리넥(Frederick Jelinek)에 의해 저술되고 MIT 출판사에 의해 1997년 출판된 책 "통계적 음성 인식 방법(Statistical Methods for Speech Recognition)"에 상세하게 기술되어 있다.With the help of the dictionary 202, the recognition engine 203 uses a hidden Markov model, in particular an HMM and a language model (a model representing the probability of one word coming out according to another word). 203 analyzes the received real vector. The recognition engine is described in detail in the book "Statistical Methods for Speech Recognition," published by Frederick Jelinek and published in 1997 by MIT Publishing.
언어 모델에 의해 (특히 숨은 마르코브 네트워크를 사용할 수 있는) 인식 엔진(203)은 어느 워드가 주어진 응용에서 화자에 의해 사용가능한 임의의 표현의 정해진 워드를 따라 갈 수 있는지를 결정할 수 있고 관련 확률을 제공할 수 있다. 관련 워드는 언어 모델에 상관없이 소(小) 사이즈(전형적으로 10 내지 300 워드) 또는 대(大) 사이즈(예를 들어, 300 000 워드보다 더 큰 사이즈)일 수 있는 응용의 어휘에 속한다.The linguistic model allows the recognition engine 203 (especially the use of hidden Markov networks) to determine which words can follow a given word of any expression available by the speaker in a given application and determine the relevant probabilities. Can provide. Relevant words belong to the vocabulary of an application, which may be small (typically 10 to 300 words) or large (e.g., larger than 300 000 words) regardless of the language model.
톰슨 멀티미디어(Thomson Multimedia)의 이름으로 출원된 1999년 11월 29일자 특허 출원 PCT/FR00/03329는 복수의 구문 블록(syntactic block)을 포함하는 언어 모델을 기술한다. 본 특허 출원의 주제인 본 발명의 사용은 모듈이 독립적으로 업데이트될 수 있어 과도하게 많은 양의 파일을 다운로드하는 것을 피할 수 있게 하므로, 이 타입의 모듈 언어 모델과 연관하여 특히 유리하다.The patent application PCT / FR00 / 03329 filed November 29, 1999, filed under the name of Thomson Multimedia, describes a language model comprising a plurality of syntactic blocks. The use of the present invention, which is the subject of this patent application, is particularly advantageous in connection with this type of module language model, as the module can be updated independently to avoid downloading an excessively large amount of files.
언어 모델은 언어 모델 로딩 모듈(207)에 의해 송신된다. 이 모듈(207)은 링크(113)를 통해 서버로부터 송신된 언어 모델을 수신하며, 서버로부터 송신된 음성 유닛 및/또는 언어 모델의 업데이트 또는 정정 데이터를 수신한다.The language model is sent by the language model loading module 207. This module 207 receives a language model transmitted from the server via link 113 and receives update or correction data of the voice unit and / or language model transmitted from the server.
사전(202)은 이 사전으로부터 워드를 참조하여 언어 모델에 속하는 것이 주목된다. 그리하여, 이 사전(202)은 모듈(207)에 의해 로딩된 언어 모델을 통해 업데이트 및/또는 정정될 수 있다.It is noted that the dictionary 202 belongs to a language model with reference to words from this dictionary. Thus, this dictionary 202 may be updated and / or corrected via the language model loaded by module 207.
비터비 알고리즘(Viterbi algorithm)의 사용에 기초하는 인식 동작을 구현한 후, 인식 엔진(203)은 발성된 표현에 대한 베스트 스코어를 나타내는 언어 모델에 따른 워드 열의 순서 리스트를 거부 모듈(211)에 공급한다.After implementing the recognition operation based on the use of the Viterbi algorithm, the recognition engine 203 supplies to the reject module 211 an ordered list of word strings according to the language model representing the best score for the spoken expression. do.
거부 모듈(211)은 인식 엔진(203)의 다운스트림에서 동작하며 이하의 원리 중 하나의 원리에 따라 동작한다:The reject module 211 operates downstream of the recognition engine 203 and operates according to one of the following principles:
- 때때로, 비터비 알고리즘에 특정된 이유로서, 비터비 알고리즘은 그 스코어가 너무 낮아 산술 연산 면에서 볼 때 기계의 허용가능한 정확도의 한계를 초과하기 때문에, 일관적인 리스트를 생성하지 못할 수 있다. 그러므로, 일관된 완전한 안이 존재하지 못한다. 따라서, 거부 모듈(211)이 미리 결정된 허용가능한 한계 아래에 있는 하나 이상의 스코어를 검출할 때 이 표현은 거부된다.Sometimes, for reasons specific to the Viterbi algorithm, the Viterbi algorithm may not produce a consistent list because its score is so low that it exceeds the limits of the machine's acceptable accuracy in terms of arithmetic operations. Therefore, no coherent perfection exists. Thus, this representation is rejected when the reject module 211 detects one or more scores below a predetermined acceptable limit.
- 비터비 알고리즘에 의해 연산된 리스트의 각 요소는, 관련된 스코어가 언어 모델에 따라 모든 가능한 표현의 최고의 상대 스코어 중에 있었기 때문에, 간직되어왔다. 추가적으로, 이들 표현 각각과 연관된 마르코브 네트워크에 의해, 관측된 스코어와 연관된 표현을 생성하는 관련 네트워크의 고유(intrinsic) 확률을 평가할 수 있다. 이 거부 모듈(211)은 이 확률을 분석하며, 만일 이 확률이 허용가능한 확률의 미리 결정된 임계치보다 적으면 이 표현은 거부된다.Each element of the list computed by the Viterbi algorithm has been retained because the associated score was among the best relative scores of all possible representations according to the language model. In addition, the Markov network associated with each of these representations may be used to evaluate the intrinsic probability of the associated network generating the representation associated with the observed score. This rejection module 211 analyzes this probability and if this probability is less than a predetermined threshold of acceptable probabilities, this representation is rejected.
- 다른 방법에 따라, 비터비 알고리즘을 통해 획득된 최상의 안에 대해 거부 모듈(211)은 비터비 개발 과정에서 고려되지 못했던 기준을 사용하여 이 표현의 보완 처리를 수행한다. 예를 들어, 거부 모듈은, 발성되어야 하는 신호 부분이 모음 (vowel)과 연관되어 있기 때문에 발성되어야 하는 이들 신호 부분이 실제로 그런지를 체크한다. 만일 발의된 표현이 이들 조건을 충족하지 못하는 경우에는 이 표현은 거부된다.According to another method, the reject module 211 performs the complementary processing of this representation using criteria not considered in the Viterbi development process for the best proposal obtained through the Viterbi algorithm. For example, the reject module checks whether these signal portions that should be uttered are actually such because the signal portions that should be uttered are associated with a vowel. If the proposed expression does not meet these conditions, this expression is rejected.
거부 모듈(211)이 앞서 예시된 바와 같이 어느 표현을 거부하면, 이 표현은 미인식된 것이라 하게 되며 그리고 거부된 표현을 나타내는 신호는 인식 엔진(203)으로 송신된다. 동시에, 거부 모듈은 링크(108)를 통해 저장 유닛(109)으로 미인식된 표현의 리코딩을 송신한다.If the reject module 211 rejects any expression as illustrated above, the expression is said to be unrecognized and a signal indicative of the rejected expression is sent to the recognition engine 203. At the same time, the reject module transmits the recording of the unrecognized representation to the storage unit 109 via the link 108.
인식 엔진(203)은 음성 샘플의 형태로 APD(200)로부터 나오는 표현을 인식하는 일을 담당한다. 그리하여, 인식 엔진(203)은,Recognition engine 203 is responsible for recognizing representations coming from APD 200 in the form of speech samples. Thus, the recognition engine 203
- 사전(202)의 각 워드가 아마도 수 개의 "음성화(phonetizations)"를 가질 수 있는, 마르코브 모델의 형태로 된 워드의 음성 표현(phonetic representation)을 구성하기 위한 음성 유닛과, 동시에A speech unit for constructing a phonetic representation of the word in the form of a Markov model, in which each word of the dictionary 202 may possibly have several "phonetizations"
- 더 크거나 또는 더 낮은 복잡도(complexity)의 표현을 인식하기 위한 엄격한 의미의 언어 모델A strict semantic language model for recognizing larger or lower complexity representations
을 사용한다.Use
인식 엔진(203)은, 인식된 표현{즉 모듈(211)에 의해 거부되지 않은 표현}과 인식 엔진(203)이 수신된 벡터에 기초하여 식별한 표현을, 이들 표현을 어플라이언스(107)가 이해될 수 있는 명령으로 번역하기 위한 수단(205)으로 공급한다. 이 수단(205)은 하나 이상의 명령(103)을 제어 박스(105)에 송신하기 전에 제어 박스 (105)에 의해 공급된 문맥 정보(104)를 고려하는 인공 지능 번역 방법(artificial intelligence translation process)을 사용한다.The recognition engine 203 understands these representations by the appliance 107 to understand the representations (that is, representations not rejected by the module 211) and the representations that the recognition engine 203 has identified based on the received vectors. To means 205 for translating into instructions that can be made. This means 205 employs an artificial intelligence translation process that takes into account the contextual information 104 supplied by the control box 105 before sending one or more instructions 103 to the control box 105. use.
도 3 은 도 1과 연계하여 도시된 바와 같은 도 2의 개략도를 구현하는 음성 인식 모듈 또는 디바이스(102)를 개략적으로 도시한다.FIG. 3 schematically illustrates a speech recognition module or device 102 implementing the schematic diagram of FIG. 2 as shown in conjunction with FIG. 1.
박스(I02)는 어드레스와 데이터 버스에 의해 상호 연결된,Box I02 is interconnected by an address and data bus,
- 음성 인터페이스(301)와,A voice interface 301,
- 아날로그 디지털 변환기(302)와,An analog-to-digital converter 302,
- 프로세서(304)와,A processor 304,
- 비휘발성 메모리(305)와,Non-volatile memory 305,
- 랜덤 억세스 메모리(306)와,A random access memory 306,
- 수신 모듈(312)과,A receiving module 312,
- 송신 모듈(313)과,A sending module 313,
- 입력/출력 인터페이스(307)Input / Output Interface (307)
를 포함한다.It includes.
도 3에 도시된 각 요소는 이 기술 분야에 숙련된 사람에게 잘 알려져 있다. 이들 평범한 요소는 여기에 기술되지 않는다.Each element shown in FIG. 3 is well known to those skilled in the art. These ordinary elements are not described here.
상세한 설명 전체에 걸쳐 사용되는 워드 "레지스터"는 언급된 각 메모리에서 소 용량의 메모리 영역(수 개의 데이터 비트)과 대 용량의 메모리 영역(전체 프로그램 또는 거래 데이터의 전체 열을 저장할 수 있는 영역) 모두를 지시한다.The word "register", which is used throughout the description, is both a small memory area (several data bits) and a large memory area (an area capable of storing entire rows of entire program or transaction data) in each memory mentioned. To indicate.
비휘발성 메모리(305)(ROM)는 "prog" 레지스터(308)에서 프로세서(304)를 동작시키기 위한 프로그램을 특히 보유한다.Nonvolatile memory 305 (ROM) specifically holds a program for operating processor 304 in " prog "
랜덤 억세스 메모리(306)는, 레지스터가 보유하는 데이터와 편의상 동일한 이름을 가지는 레지스터에 있는 데이터, 변수, 및 중간 처리 결과를 간직하며, 이 레지스터는The random access memory 306 retains data, variables, and intermediate processing results in registers having the same name as the data held by the registers for convenience.
- 미인식된 표현의 리코딩이 간직되는 레지스터(309)(Exp_Not_Rec)와,A register 309 ( Exp_Not_Rec ) in which the recording of the unrecognized representation is kept,
- 미인식된 문장의 카운터(310)(Nb_Exp_Not_Rec)와,A counter 310 ( Nb_Exp_Not_Rec ) of the unrecognized sentence,
- 레지스터(311) 내의 언어 모델(Model_Language)Language model ( Model_Language ) in register 311
를 특히 포함한다.In particular, it includes.
수신 모듈(312)과 송신 모듈(313)은 리모트 서버(116)로부터 또는 리모트 서버(116)로 데이터를 각각 송신할 수 있게 하는 모듈이다. 수신 및 송신용 유선 또는 무선 기술은 원격통신 기술 분야에서 숙련된 사람에게는 잘 알려져 있으며 더 상세하게 기술되지 않는다.Receive module 312 and transmit module 313 are modules that enable data to be transmitted from or to remote server 116, respectively. Wired or wireless technologies for receiving and transmitting are well known to those skilled in the telecommunications art and are not described in greater detail.
도 4 는 도 1에 관해 도시된 시스템의 서버(116)를 도시한다.4 illustrates a server 116 of the system shown with respect to FIG. 1.
서버(116)는 임의의 사람/기계 인터페이스(404)(예를 들어, 키보드와 스크린 타입의 인터페이스)를 통해 사람인 오퍼레이터(122)에 의해 제어된다.The server 116 is controlled by the operator 122 who is a person via any human / machine interface 404 (eg, a keyboard and screen type interface).
서버(116)는Server 116
- 수신기(400)와,A receiver 400,
- 분석기(401)와,An analyzer 401,
- 음성 유닛 세트 및/또는 언어 모델의 정정 데이터를 구성하기 위한 모듈 (402)과,A module 402 for configuring correction data of the speech unit set and / or the language model,
- 송신기(403)Transmitter 403
를 특히 포함한다.In particular, it includes.
수신기(400)는 단말의 송신기(313)와 호환가능하며 그리고 링크(121)를 통해 미인식된 표현과 아마 보완적인 데이터(예를 들어 문맥 데이터)를 나타내는 특정 데이터(에를 들어 리코딩)를 각 단말로부터 수신할 수 있다.Receiver 400 is compatible with transmitter 313 of the terminal and each terminal has specific data (e.g., recording) that represents an unrecognized representation and possibly complementary data (e.g. contextual data) via link 121. Can be received from.
분석기(401)는 링크(121)를 통해 수신기(400)로부터 오는 데이터 세트를 수신하며, 이 분석기(401)는 이 데이터 세트를 인터페이스(404)를 통해 오퍼레이터 (122)로 송신하며, 이 오퍼레이터(122)는, 예를 들어,The analyzer 401 receives a data set coming from the receiver 400 via a link 121, which transmits the data set to the operator 122 via the interface 404. 122), for example,
- 서버(116) 및 그 제어장치와 대화가능하게 하는 스크린과 키보드가 장착되며,Is equipped with a screen and a keyboard enabling interaction with the server 116 and its controls,
- 미인식된 리코딩을 듣기 위한 스피커나 오디오 헤드셋이 장착된-Equipped with a speaker or audio headset for listening to unrecognized recordings
단말이다.It is a terminal.
또한 이 인터페이스(404)에 의해 분석기(401)는,The interface 404 also allows the analyzer 401 to:
- 언어 모델에 의해 커버되지 않은 미인식된 표현이 이해불가능한 상태로 남아 있는지, 단말에 대해 응용 내에 의미를 가지지 않는지, 및/또는 단말과 관련되어 있지 않는지(그리하여 이것은 언어 모델에 포함되어서는 아니되는 것이다)와,이 경우, 이 표현은 이후 언어 모델의 정정에 대해 무시되며 분석기(401)에 의해 버려지게 되며,Whether unrecognized representations not covered by the language model remain incomprehensible, have no meaning in the application for the terminal, and / or are not related to the terminal (and thus this should not be included in the language model) In this case, this expression is later ignored for correction of the language model and discarded by the analyzer 401,
- 그럼에도 불구하고 미인식된 표현이 엄격한 의미의 언어 모델에 속하는지(이때 이것은 순수 인식 문제를 수반한다)와, 이 경우에 이것은 엄격한 의미의 언어 모델이 아니라 음성 유닛의 수정을 수반하게 되며,Nevertheless, whether the unrecognized expressions belong to a strict meaning language model (this involves a pure recognition problem), and in this case it involves modification of the speech unit, not a strict meaning language model,
- 오퍼레이터에 의해 어느 표현의 콘텐츠를 식별한 후에 예를 들어 제어 코드 형태로 번역한 것인지와, 여기서 미인식된 표현은 언어 모델에 속하지 않으며 이 표현이 의도하는 단말에 대한 의미를 가지지 않는 것이며, 이후 이것은 엄격한 의미의 언어 모델을 정정하는 것을 수반하는 것이며,Which representation of the content has been identified by the operator and then translated into a control code, for example, where the unrecognized representation does not belong to a language model and does not have meaning for the intended terminal. This entails correcting a strict language model,
를 나타내는, 오퍼레이터(122)로부터의 정보를 수신할 수 있다.Information from the operator 122 can be received.
제 2 및 제 3 솔루션을 조합하는 것도 가능하며, 이 경우에, 이것은 엄격한 의미의 언어 모델과 음성 유닛을 모두 수정하는 것을 수반한다.It is also possible to combine the second and third solutions, in which case this involves modifying both the strict meaning language model and the speech unit.
본 실시예는 미인식된 표현을 수동으로 처리하는 것에 해당한다. 이 실시예에 따라, 사람인 오퍼레이터(122)는 미인식된 표현을 청취하며 거부 이유의 원인을 분석한다. 오퍼레이터(122)는 특히 이 표현이 언어 모델에 속하는지 아닌지를 결정한다. 이 표현이 언어 모델에 속하는 경우에는, 오퍼레이터는 고유 인식 문제 (intrinsic recognition problem)를 확인하기 위해 표현(인식했어야 하지만 다른 이유, 즉 잡음, 스피커의 액센트 등에 의해 인식하지 못한 언어 모델에 속하는 표현)을 분석한다.This embodiment corresponds to manual processing of unrecognized expressions. According to this embodiment, the operator 122 who is a human listens to the unrecognized expression and analyzes the cause of the rejection reason. The operator 122 determines in particular whether or not this representation belongs to a language model. If this expression belongs to a language model, the operator uses the expression (which belongs to a language model that should have been recognized but not recognized by other reasons, such as noise, speaker accents, etc.) to identify an intrinsic recognition problem. Analyze
제 1 변형 실시예에 따라, 처리는 자동적이며 사람인 오퍼레이터의 개입은없어지게 된다. 이 경우에, 서버(116)와 특히 분석기(401)는 특히 단말보다도 훨씬 더 클 수 있는 비교적 상당한 연산 능력을 소유한다. 이 변형 실시예에 따라, 분석기(401)는, 예를 들어 더 좋은 언어 모델 및/또는 더 복잡한 음성 모델을 사용하여, 단말에 의해 행해질 수 있는 것보다 더 적절한 방식으로 미인식된 각 표현을 분석한다. (화자의 명령에 빠른 응답 시간을 종종 요구하는) 단말일 수 있는 이러한 엄격한 실시간 연산 요건을 받지 않고, 분석기(401)는 또한 예를 들어, 단말에서보다 더 긴 처리 시간을 요구하는 인식을 허용할 수 있다.According to the first variant embodiment, the process is automatic and eliminates human intervention. In this case, the server 116 and especially the analyzer 401 possess a relatively significant computing power which can be much larger than the terminal in particular. According to this variant embodiment, the analyzer 401 analyzes each unrecognized expression in a more appropriate way than can be done by the terminal, for example using a better language model and / or a more complex speech model. do. Without receiving this rigorous real-time computational requirement, which may be a terminal (which often requires a fast response time to the speaker's command), the analyzer 401 may also allow for recognition that requires a longer processing time than, for example, at the terminal. Can be.
제 2 변형 실시예에 따라, 처리는 반자동이며, 사람인 오퍼레이터의 개입은 분석기에 의해 해결될 수 없는 경우로 제한된다.According to the second variant embodiment, the process is semi-automatic and the human intervention of the operator is limited to cases which cannot be solved by the analyzer.
서버(116)의 일반적인 구조는 바람직한 실시예에 따라 도 3에 대해 기술된 것과 같은 단말의 것과 유사하게 여기에서 기술되며, 그리고 특히 어드레스와 데이터 버스에 의해 상호 연결된,The general structure of the server 116 is described here similarly to that of the terminal as described for FIG. 3 according to a preferred embodiment, and in particular interconnected by an address and data bus,
- 프로세서와,A processor;
- 랜덤 억세스 메모리와,Random access memory,
- 비휘발성 메모리와,Non-volatile memory,
- 적절한 송신 모듈과,An appropriate transmission module,
- 수신 모듈과,A receiving module,
- 사람/기계 연결 인터페이스-Human / machine connection interface
를 포함한다.It includes.
도 2의 인식 엔진(203)에 의해 구현되는, 표현을 테스트하며 미인식된 표현에 관한 데이터의 리코딩의 흐름도를 나타내는 도 5에 따라, 첫 번째 초기화 단계 (500) 동안, 마이크로프로세서(304)는 프로그램(308)의 실행을 시작하며 랜덤 억세스 메모리(306)의 변수를 초기화한다.In accordance with FIG. 5, which illustrates a flowchart of the recording of data relating to an unrecognized representation, which is implemented by the recognition engine 203 of FIG. 2, during the first initialization step 500, the microprocessor 304 is The execution of the program 308 is started and the variables of the random access memory 306 are initialized.
이후, 표현 대기 단계(501) 동안, 마이크로프로세서는 화자에 의해 송신된 표현을 기다리며 수신한다.Thereafter, during the presentation wait step 501, the microprocessor waits and receives the presentation sent by the speaker.
그 다음에, 테스트(502) 동안, 수신된 표현에 대한 음성 인식 동작을 실행한 후, 이 마이크로프로세서는 이 표현이 도 2의 거부 모듈(211)의 기술에 관해 도시된 하나 이상의 기준에 따라 인식되었는지 또는 인식되지 못했는지를 결정한다.Then, during the test 502, after performing a speech recognition operation on the received representation, the microprocessor recognizes the representation according to one or more criteria shown with respect to the description of the reject module 211 of FIG. 2. Determine whether it is recognized or not recognized.
만약 인식되었다면, 제어 단계(504) 동안, 음성 인식 박스(102)는 수신된 표현에 적용된 음성 인식의 결과를 고려하며 그리고 예를 들어 명령과 같은 적절한 조치를 실행한다.If so, during the control step 504, the speech recognition box 102 considers the result of the speech recognition applied to the received representation and performs the appropriate action, for example a command.
만약 인식되지 못했다면, 표현을 리코딩하는 단계(503) 동안, 미인식된 표현은 압축되며 도 6에 관해 도시된 리모트 서버(116)로의 송신을 기다리는 저장 유닛 (109)에 리코드된다.If not recognized, during the step 503 of recording the representation, the unrecognized representation is compressed and recorded in the storage unit 109 waiting for transmission to the remote server 116 shown with respect to FIG.
단계(503 또는 504) 중 어느 하나가 완료된 때, 표현을 기다리는 단계(501)가 반복된다.When either step 503 or 504 is completed, step 501 awaiting the presentation is repeated.
도 6 은 도 2의 거부 모듈에 의해 구현되는, 미인식된 표현에 관한 데이터의 송신 흐름도를 나타내며, 첫 번째 초기화 단계(600) 동안, 마이크로프로세서(304)는 프로그램(308)의 실행을 시작하며 랜덤 억세스 메모리(306)의 변수를 초기화한다.FIG. 6 shows a flow diagram of the transmission of data relating to an unrecognized representation, implemented by the reject module of FIG. 2, during the first initialization phase 600, the microprocessor 304 starts executing the program 308. The variable of the random access memory 306 is initialized.
이후, 음성 인식 박스(102)에 의해 미인식된 표현을 기다리는 단계(601) 동안, 마이크로프로세서(304)는 미인식된 표현의 리코딩을 기다리며 그후 수신한다.The microprocessor 304 then waits for the recording of the unrecognized representation and then receives it during step 601 of waiting for the unrecognized representation by the speech recognition box 102.
그 뒤, 단계(602) 동안, 단말(114)은 원격통신의 기술 분야에 숙련된 사람에게 잘 알려진 방법에 따라 리모트 서버(116)로까지 연결한다.Then, during step 602, terminal 114 connects to remote server 116 according to methods well known to those skilled in the art of telecommunications.
그 다음에, 단계(603) 동안, 미인식된 표현의 리코딩이 이루어지고 리모트 서버(116)로 송신된다.Then, during step 603, recording of the unrecognized representation is made and transmitted to the remote server 116.
이후, 단절 단계(604) 동안, 단말은 리모트 서버(116)와 단절되며, 신호는 리모트 서버와의 인터페이스(112)와 표현의 리코딩의 송신을 나타내는 미인식된 표현에 해당하는 데이터를 저장하기 위한 유닛(109) 사이에 송신된다. 이때 이들 표현에 해당하는 데이터는 저장 유닛(109)으로부터 소거된다.Then, during disconnection step 604, the terminal is disconnected from remote server 116, and the signal is for storing data corresponding to the unrecognized representation representing the transmission of the recording of the interface 112 and the representation with the remote server. Is transmitted between units 109. At this time, the data corresponding to these representations are erased from the storage unit 109.
그 다음에 단계(601)가 반복된다.Then step 601 is repeated.
도 7 은 도 2의 언어 모델을 로딩하기 위한 모듈(207)에 의해 구현되는, 정정 데이터의 수신 흐름도를 나타낸다.FIG. 7 shows a flow diagram of receiving correction data, implemented by module 207 for loading the language model of FIG. 2.
첫 번째 초기화 단계(700) 후에, 단계(701)동안, 단말은 서버(116)에 의해 복수의 단말로 방송되는 정정 데이터를 기다리는 대기 상태에 놓인다.After the first initialization step 700, during step 701, the terminal is placed in a waiting state waiting for correction data broadcast by the server 116 to the plurality of terminals.
그 다음에, 단계(702) 동안, 단말은 음성 인식 모듈에 의해 사용되는 음성 유닛 세트 및/또는 언어 모델을 업데이트하기 위하여 정정 데이터를 고려한다. 정정 데이터의 특성에 따라, 이들 데이터는 특히Then, during step 702, the terminal considers the correction data to update the speech unit set and / or language model used by the speech recognition module. Depending on the nature of the correction data, these data
- 음성 유닛 세트 및/또는 언어 모델 내의 현존하는 데이터를 대체하는 것과,Replacing existing data in the speech unit set and / or language model,
- 현존하는 데이터를 수정하는 것과,Modifying existing data,
- 현존하는 데이터를 보완하는 것과, 및/또는Complementing existing data, and / or
- 현존하는 데이터의 삭제를 수행하는 것Performing deletion of existing data
을 할 수 있다.can do.
단계(702)의 수행 후에, 단계(701)가 반복된다.After performing step 702, step 701 is repeated.
도 8 은 도 4의 리모트 서버 내에 구현되는, 정정 데이터의 수신 및 처리 흐름도를 나타낸다.8 shows a flow diagram for receiving and processing correction data, implemented within the remote server of FIG. 4.
서버의 관리를 위한 프로그램의 유인(instigation)과 파라미터(parameter)를 초기화하는 첫 번째 단계(800) 후에, 서버(116)는 단말{도 6에 대해 도시된 단계 (602)를 수행하는 단말}로부터 유래하는 연결 요청을 기다리는 대기 상태에 놓이며 그리고 원격통신의 기술 분야에 숙련된 사람에게는 잘 알려진 방법에 따라 단말과 연결을 수립한다.After the first step 800 of initializing the induction and parameters of the program for the management of the server, the server 116 receives from the terminal (terminal performing the step 602 shown in FIG. 6). It is placed in a waiting state waiting for an originating connection request and establishes a connection with the terminal according to methods well known to those skilled in the telecommunications arts.
이후 단계(802) 동안, 서버(116)는 전술된 단계(603)를 수행하는 연결된 단말에서부터 유래하는 데이터를 수신한다. 이들 데이터는, 단말에서 구현되는 음성 인식 모듈에 의해 인식되지 못한 것으로 인해, 단말에 의해 거부된 하나 이상의 표현의 리코딩을 특히 포함한다. 모든 데이터가 수신되었을 때, 단말과 서버(116) 사이의 연결이 끊어진다.Subsequently during step 802, server 116 receives data originating from the connected terminal performing step 603 described above. These data include, in particular, the recording of one or more representations rejected by the terminal due to not being recognized by the speech recognition module implemented in the terminal. When all data has been received, the connection between the terminal and the server 116 is broken.
그 다음에, 수신된 데이터를 처리하는 단계(803) 동안, 서버(116)는 오퍼레이터(122)에 의해 수동으로 또는 도 4에 대해 도시된 여러 대안에 따라 자동적으로 또는 반자동으로 수신된 표현의 리코딩 각각을 처리한다.Then, during processing 803 of the received data, the server 116 records the representations received automatically or semi-automatically by the operator 122 or in accordance with various alternatives shown for FIG. 4. Process each.
이후, 테스트(804) 동안, 서버(116)는 특히 수신된 하나 이상의 표현이 이해할 수 있었는지 그리고 이 표현 또는 이들 표현을 송신한 단말에 대해 관련된 것인지를 결정한다. 이때는 언어 모델 및/또는 음성 유닛의 업데이트가 필요하다.Then, during the test 804, the server 116 determines in particular whether one or more representations received were understandable and relevant to the representation or the terminal that sent these representations. In this case, it is necessary to update the language model and / or the voice unit.
만약 아니라면, 대기 단계(801)가 반복된다.If not, the wait step 801 is repeated.
반대의 경우에, 서버(116)는 정정 데이터를 수신한 후에 단말 내에 단계 (607)(앞에서 예시된)를 가능하게 하는 수 개의 형태를 취할 수 있는 언어 모델의 정정 데이터를 구성한다. 이들 정정 데이터는 특히In the opposite case, server 116 constructs the correction data of the language model, which may take several forms to enable step 607 (illustrated above) in the terminal after receiving the correction data. These correction data are especially
- 정정의 특성(특히, 대체, 수정, 보완, 또는 삭제)을 지정하는 지시자 (indicator)와,-Indicators that specify the nature of the correction, in particular substitutions, modifications, supplements, or deletions,
- 지시자의 함수로서의 정정 데이터Correction data as a function of the indicator
를 포함한다.It includes.
언어 모델이 복수의 구문 블록을 포함하면(특히 전술된 특허 PCT/FR00/03329에 기술된 바와 같은 언어 모델의 경우), 각 모듈은 개별적으로 정정될 수 있다는 것을 주의해야 한다. 이 경우에, 정정 데이터는 정정될 모듈이나 모듈들의 지시자를 또한 포함한다.It should be noted that if a language model includes a plurality of syntax blocks (especially for language models as described in the aforementioned patent PCT / FR00 / 03329), each module can be corrected individually. In this case, the correction data also includes an indicator of the module or modules to be corrected.
이후, 단계(806) 동안, 서버(116)는 단계(607)에 따라 음성 유닛 세트 및/또는 그 언어 모델을 업데이트할 수 있는 단말 중 하나 또는 바람직하게는 단말의 세트로 정정 데이터를 방송한다.Thereafter, during step 806, the server 116 broadcasts the correction data to one or preferably a set of terminals that can update the set of speech units and / or its language model in accordance with step 607.
이후 단계(801)가 반복된다.Then step 801 is repeated.
그 절차는 이렇게 반복되며 수 회 반복될 수 있다. 이 절차는 또한 응용이새로운 질문을 추가함으로써 업데이트될 수 있게 한다.The procedure is repeated this way and can be repeated several times. This procedure also allows the application to be updated by adding new questions.
물론, 본 발명은 전술된 예시적인 실시예로 한정되지 않는다.Of course, the invention is not limited to the exemplary embodiments described above.
특히, 이 기술 분야에 숙련된 사람은, 음성 인식 방법을 사용하거나 사용할 수 있는 모듈 및/또는 임의의 타입의 디바이스에 관한 본 발명을 구현하는 단말의 정의를 변경할 수 있다{예를 들어, 멀티미디어 단말, TV, 비디오 리코더, 멀티미디어 디지털 디코더(또는 셋톱박스), 오디오 또는 비디오 장비, 고정형 또는 휴대형 단말 등의 타입}.In particular, one of ordinary skill in the art may change the definition of a terminal implementing the present invention relating to a module and / or any type of device that may or may use a speech recognition method (eg, a multimedia terminal). , Type of TV, video recorder, multimedia digital decoder (or set-top box), audio or video equipment, fixed or portable terminal.
마찬가지로. 본 발명은 임의의 타입의 리모트 서버에 관한 것이다(예를 들어, 인터넷 서버, TV 프로그램 방송국에 연결된 장비, 모바일 통신 네트워크에 연결된 장비, 서비스 제공자 장비 등)Likewise. The invention relates to any type of remote server (e.g., an Internet server, equipment connected to a TV program station, equipment connected to a mobile communication network, service provider equipment, etc.)
나아가, 본 발명에 따라, 미인식된 문장에 해당하는 데이터에 대한 송신 채널과 언어 모델 및/또는 음성 유닛을 정정하기 위한 데이터에 대한 송신 채널은 무엇이든 임의적인 것이며 그리고 특히Furthermore, according to the invention, the transmission channel for data corresponding to an unrecognized sentence and the transmission channel for data for correcting a language model and / or a speech unit are arbitrary and in particular
- RF 송신 패스웨이(pathway)와,An RF transmission pathway,
- 위성 송신 패스웨이와,A satellite transmission path,
- TV 방송 네트워크의 채널과,-Channels of TV broadcast networks,
- 인터넷 타입 네트워크의 채널과,A channel of an internet type network,
- 전화 네트워크의 채널과,-The channel of the telephone network,
- 모바일 네트워크의 채널과,-Channels on mobile networks,
- 이동가능한 매체Removable media
를 포함한다.It includes.
나아가, 본 발명은 미인식된 문장에 뿐만 아니라 예를 들어, 기계와 그 유저 사이의 대화를 가능하게 하는 하나 이상의 문장(sentence), 분리 또는 비분리된 워드(isolated or unisolated word), 구(phrase), 음성 코드(voice code)와 같은 임의의 타입의 구두 표현에 관련된 것이라는 것을 주목하여야 한다. 이들 구술 표현은, 예를 들어, 유저가 기계에 구성 데이터(configuration data), 프로그래밍 데이터(programming data) 등을 송신할 수 있는 정보 데이터로서, 명령 뿐만아니라 기계와 그 유저 사이의 대화 주제를 형성할 수 있는 임의의 타입의 데이터와 연관될 수도 있다.Furthermore, the present invention not only relates to unrecognized sentences, but also to, for example, one or more sentences, isolated or unisolated words, phrases that enable communication between the machine and its users. It is to be noted that it relates to any type of verbal expression, such as voice code. These oral expressions are, for example, information data that allows a user to send configuration data, programming data, and the like to a machine, to form the subject of conversation between the machine and the user as well as instructions. It may be associated with any type of data that may be.
본 특허에 기술되어 있는 언어 모델을 업데이트하는 방법은 엄격한 의미의 음성 인식 방법 뿐만 아니라 철자의 실수(orthographic mistake) 및/또는 타이핑 실수를 지원하며 또한 이 특허에 기술된 바와 같이 엄격한 의미의 마르코브 모델 (Markovian model) 또는 언어 모델(language model)에 기초하는 텍스트 입력의 인식 방법에도 적용된다는 것을 또한 주목하여야 한다.The method of updating the language model described in this patent supports not only strict speech recognition methods but also orthographic mistakes and / or typing mistakes, and also as described in this patent, the Markov model. It should also be noted that the same applies to a method of recognizing text input based on a Markovian model or a language model.
본 발명은 순수 하드웨어의 설치로 제한되는 것이 아니라 컴퓨터 프로그램의 지시 열의 형태로 또는 하드웨어 부분과 소프트웨어 부분을 혼합하는 임의의 형태로 또한 구현될 수 있다는 것을 알 수 있을 것이다. 본 발명이 부분적으로 또는 전적으로 소프트웨어 형태로 설치되는 경우에, 해당 지시 열은 이동가능한 저장 수단 (예를 들어, 디스켓, CD-ROM 또는 DVD_ROM과 같은 수단) 내에 저장될 수 있으며 또는 그렇지 않은 경우, 이 저장 수단은 컴퓨터 또는 마이크로프로세서에 의해 부분적으로 또는 전적으로 판독가능하다.It will be appreciated that the invention is not limited to the installation of pure hardware but can also be implemented in the form of instruction strings of computer programs or in any form that mixes hardware and software portions. If the present invention is installed in part or in whole software form, the corresponding instruction string may be stored in removable storage means (e.g., a diskette, CD-ROM or DVD_ROM) or otherwise The storage means is partially or wholly readable by a computer or microprocessor.
전술한 바와 같이, 본 발명은 음성 인터페이스 분야 등에 이용가능하다.As described above, the present invention can be used in the field of voice interface and the like.
Claims (7)
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| FR0101910A FR2820872B1 (en) | 2001-02-13 | 2001-02-13 | VOICE RECOGNITION METHOD, MODULE, DEVICE AND SERVER |
| FR01/01910 | 2001-02-13 | ||
| PCT/FR2002/000518 WO2002065454A1 (en) | 2001-02-13 | 2002-02-12 | Method, module, device and server for voice recognition |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| KR20030076661A true KR20030076661A (en) | 2003-09-26 |
| KR100908358B1 KR100908358B1 (en) | 2009-07-20 |
Family
ID=8859932
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| KR1020037010428A Expired - Fee Related KR100908358B1 (en) | 2001-02-13 | 2002-02-12 | Methods, modules, devices and servers for speech recognition |
Country Status (10)
| Country | Link |
|---|---|
| US (1) | US7983911B2 (en) |
| EP (1) | EP1362343B1 (en) |
| JP (1) | JP4751569B2 (en) |
| KR (1) | KR100908358B1 (en) |
| CN (1) | CN1228762C (en) |
| DE (1) | DE60222093T2 (en) |
| ES (1) | ES2291440T3 (en) |
| FR (1) | FR2820872B1 (en) |
| MX (1) | MXPA03007178A (en) |
| WO (1) | WO2002065454A1 (en) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20210075815A (en) * | 2019-12-13 | 2021-06-23 | 주식회사 소리자바 | device for applying speech recognition hints and method the same |
Families Citing this family (73)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20030182113A1 (en) * | 1999-11-22 | 2003-09-25 | Xuedong Huang | Distributed speech recognition for mobile communication devices |
| JP4267385B2 (en) | 2003-06-30 | 2009-05-27 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Statistical language model generation device, speech recognition device, statistical language model generation method, speech recognition method, and program |
| US8954325B1 (en) * | 2004-03-22 | 2015-02-10 | Rockstar Consortium Us Lp | Speech recognition in automated information services systems |
| US7542904B2 (en) * | 2005-08-19 | 2009-06-02 | Cisco Technology, Inc. | System and method for maintaining a speech-recognition grammar |
| EP1760566A1 (en) * | 2005-08-29 | 2007-03-07 | Top Digital Co., Ltd. | Voiceprint-lock system for electronic data |
| US20070136069A1 (en) * | 2005-12-13 | 2007-06-14 | General Motors Corporation | Method and system for customizing speech recognition in a mobile vehicle communication system |
| US8510109B2 (en) | 2007-08-22 | 2013-08-13 | Canyon Ip Holdings Llc | Continuous speech transcription performance indication |
| US8117268B2 (en) | 2006-04-05 | 2012-02-14 | Jablokov Victor R | Hosted voice recognition system for wireless devices |
| US8214213B1 (en) * | 2006-04-27 | 2012-07-03 | At&T Intellectual Property Ii, L.P. | Speech recognition based on pronunciation modeling |
| EP2033489B1 (en) | 2006-06-14 | 2015-10-28 | Personics Holdings, LLC. | Earguard monitoring system |
| TWI321313B (en) * | 2007-03-03 | 2010-03-01 | Ind Tech Res Inst | Apparatus and method to reduce recognization errors through context relations among dialogue turns |
| US11750965B2 (en) | 2007-03-07 | 2023-09-05 | Staton Techiya, Llc | Acoustic dampening compensation system |
| US8352264B2 (en) | 2008-03-19 | 2013-01-08 | Canyon IP Holdings, LLC | Corrective feedback loop for automated speech recognition |
| US9973450B2 (en) | 2007-09-17 | 2018-05-15 | Amazon Technologies, Inc. | Methods and systems for dynamically updating web service profile information by parsing transcribed message strings |
| US11217237B2 (en) | 2008-04-14 | 2022-01-04 | Staton Techiya, Llc | Method and device for voice operated control |
| US11683643B2 (en) | 2007-05-04 | 2023-06-20 | Staton Techiya Llc | Method and device for in ear canal echo suppression |
| US11856375B2 (en) | 2007-05-04 | 2023-12-26 | Staton Techiya Llc | Method and device for in-ear echo suppression |
| US10009677B2 (en) | 2007-07-09 | 2018-06-26 | Staton Techiya, Llc | Methods and mechanisms for inflation |
| US8140632B1 (en) | 2007-08-22 | 2012-03-20 | Victor Roditis Jablokov | Facilitating presentation by mobile device of additional content for a word or phrase upon utterance thereof |
| US9053489B2 (en) | 2007-08-22 | 2015-06-09 | Canyon Ip Holdings Llc | Facilitating presentation of ads relating to words of a message |
| US9129599B2 (en) * | 2007-10-18 | 2015-09-08 | Nuance Communications, Inc. | Automated tuning of speech recognition parameters |
| US8326631B1 (en) * | 2008-04-02 | 2012-12-04 | Verint Americas, Inc. | Systems and methods for speech indexing |
| JP5327838B2 (en) * | 2008-04-23 | 2013-10-30 | Necインフロンティア株式会社 | Voice input distributed processing method and voice input distributed processing system |
| US8600067B2 (en) | 2008-09-19 | 2013-12-03 | Personics Holdings Inc. | Acoustic sealing analysis system |
| US9129291B2 (en) | 2008-09-22 | 2015-09-08 | Personics Holdings, Llc | Personalized sound management and method |
| US8374872B2 (en) * | 2008-11-04 | 2013-02-12 | Verizon Patent And Licensing Inc. | Dynamic update of grammar for interactive voice response |
| US20120215528A1 (en) | 2009-10-28 | 2012-08-23 | Nec Corporation | Speech recognition system, speech recognition request device, speech recognition method, speech recognition program, and recording medium |
| WO2011144675A1 (en) * | 2010-05-19 | 2011-11-24 | Sanofi-Aventis Deutschland Gmbh | Modification of operational data of an interaction and/or instruction determination process |
| US20110307250A1 (en) * | 2010-06-10 | 2011-12-15 | Gm Global Technology Operations, Inc. | Modular Speech Recognition Architecture |
| US9484018B2 (en) * | 2010-11-23 | 2016-11-01 | At&T Intellectual Property I, L.P. | System and method for building and evaluating automatic speech recognition via an application programmer interface |
| US12349097B2 (en) | 2010-12-30 | 2025-07-01 | St Famtech, Llc | Information processing using a population of data acquisition devices |
| US9472185B1 (en) | 2011-01-05 | 2016-10-18 | Interactions Llc | Automated recognition system for natural language understanding |
| US9245525B2 (en) | 2011-01-05 | 2016-01-26 | Interactions Llc | Automated speech recognition proxy system for natural language understanding |
| JP5837341B2 (en) * | 2011-06-24 | 2015-12-24 | 株式会社ブリヂストン | Road surface condition determination method and apparatus |
| GB2493413B (en) | 2011-07-25 | 2013-12-25 | Ibm | Maintaining and supplying speech models |
| JP2013127536A (en) * | 2011-12-19 | 2013-06-27 | Sharp Corp | Voice output device, communication terminal and hearing aid equipped with the same, program for controlling voice output device, method of providing individualized voice to voice output device users, and system for updating conversion data of voice output device |
| AU2018202888B2 (en) * | 2013-01-17 | 2020-07-02 | Samsung Electronics Co., Ltd. | Image processing apparatus, control method thereof, and image processing system |
| JP6025785B2 (en) * | 2013-07-08 | 2016-11-16 | インタラクションズ リミテッド ライアビリティ カンパニー | Automatic speech recognition proxy system for natural language understanding |
| US9305554B2 (en) * | 2013-07-17 | 2016-04-05 | Samsung Electronics Co., Ltd. | Multi-level speech recognition |
| DE102013216427B4 (en) * | 2013-08-20 | 2023-02-02 | Bayerische Motoren Werke Aktiengesellschaft | Device and method for means of transport-based speech processing |
| US10192557B2 (en) * | 2013-08-26 | 2019-01-29 | Samsung Electronics Co., Ltd | Electronic device and method for voice recognition using a plurality of voice recognition engines |
| US10885918B2 (en) | 2013-09-19 | 2021-01-05 | Microsoft Technology Licensing, Llc | Speech recognition using phoneme matching |
| US9167082B2 (en) | 2013-09-22 | 2015-10-20 | Steven Wayne Goldstein | Methods and systems for voice augmented caller ID / ring tone alias |
| DE102013219649A1 (en) * | 2013-09-27 | 2015-04-02 | Continental Automotive Gmbh | Method and system for creating or supplementing a user-specific language model in a local data memory connectable to a terminal |
| US10043534B2 (en) | 2013-12-23 | 2018-08-07 | Staton Techiya, Llc | Method and device for spectral expansion for an audio signal |
| DE102014200570A1 (en) * | 2014-01-15 | 2015-07-16 | Bayerische Motoren Werke Aktiengesellschaft | Method and system for generating a control command |
| US9601108B2 (en) * | 2014-01-17 | 2017-03-21 | Microsoft Technology Licensing, Llc | Incorporating an exogenous large-vocabulary model into rule-based speech recognition |
| CN103956168A (en) * | 2014-03-29 | 2014-07-30 | 深圳创维数字技术股份有限公司 | Voice recognition method and device, and terminal |
| US10749989B2 (en) | 2014-04-01 | 2020-08-18 | Microsoft Technology Licensing Llc | Hybrid client/server architecture for parallel processing |
| KR102225404B1 (en) * | 2014-05-23 | 2021-03-09 | 삼성전자주식회사 | Method and Apparatus of Speech Recognition Using Device Information |
| US20150371628A1 (en) * | 2014-06-23 | 2015-12-24 | Harman International Industries, Inc. | User-adapted speech recognition |
| US10163453B2 (en) | 2014-10-24 | 2018-12-25 | Staton Techiya, Llc | Robust voice activity detector system for use with an earphone |
| JPWO2016067418A1 (en) * | 2014-10-30 | 2017-04-27 | 三菱電機株式会社 | Dialog control apparatus and dialog control method |
| US9711141B2 (en) * | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
| KR102325724B1 (en) * | 2015-02-28 | 2021-11-15 | 삼성전자주식회사 | Synchronization of Text Data among a plurality of Devices |
| US20160274864A1 (en) * | 2015-03-20 | 2016-09-22 | Google Inc. | Systems and methods for enabling user voice interaction with a host computing device |
| CN104758075B (en) * | 2015-04-20 | 2016-05-25 | 郑洪� | Family expenses oral care implement based on speech recognition controlled |
| US10325590B2 (en) * | 2015-06-26 | 2019-06-18 | Intel Corporation | Language model modification for local speech recognition systems using remote sources |
| US10616693B2 (en) | 2016-01-22 | 2020-04-07 | Staton Techiya Llc | System and method for efficiency among devices |
| US9858918B2 (en) * | 2016-03-15 | 2018-01-02 | GM Global Technology Operations LLC | Root cause analysis and recovery systems and methods |
| US9761227B1 (en) | 2016-05-26 | 2017-09-12 | Nuance Communications, Inc. | Method and system for hybrid decoding for enhanced end-user privacy and low latency |
| US10971157B2 (en) * | 2017-01-11 | 2021-04-06 | Nuance Communications, Inc. | Methods and apparatus for hybrid speech recognition processing |
| US10229682B2 (en) | 2017-02-01 | 2019-03-12 | International Business Machines Corporation | Cognitive intervention for voice recognition failure |
| US10636423B2 (en) | 2018-02-21 | 2020-04-28 | Motorola Solutions, Inc. | System and method for managing speech recognition |
| CN108683937B (en) * | 2018-03-09 | 2020-01-21 | 百度在线网络技术(北京)有限公司 | Voice interaction feedback method and system for smart television and computer readable medium |
| US10951994B2 (en) | 2018-04-04 | 2021-03-16 | Staton Techiya, Llc | Method to acquire preferred dynamic range function for speech enhancement |
| KR102544250B1 (en) * | 2018-07-03 | 2023-06-16 | 삼성전자주식회사 | Method and device for outputting sound |
| US11087739B1 (en) * | 2018-11-13 | 2021-08-10 | Amazon Technologies, Inc. | On-device learning in a hybrid speech processing system |
| CN110473530B (en) * | 2019-08-21 | 2021-12-07 | 北京百度网讯科技有限公司 | Instruction classification method and device, electronic equipment and computer-readable storage medium |
| CN113052191A (en) * | 2019-12-26 | 2021-06-29 | 航天信息股份有限公司 | Training method, device, equipment and medium of neural language network model |
| US12198689B1 (en) * | 2020-08-10 | 2025-01-14 | Summer Institute of Linguistics, Inc. | Systems and methods for multilingual dialogue interactions using dynamic automatic speech recognition and processing |
| US11552966B2 (en) | 2020-09-25 | 2023-01-10 | International Business Machines Corporation | Generating and mutually maturing a knowledge corpus |
| DE102023128287A1 (en) * | 2023-10-16 | 2025-04-17 | Bayerische Motoren Werke Aktiengesellschaft | CONTROL DEVICE AND METHOD FOR CONTROLLING A FUNCTION OF A MOTOR VEHICLE BASED ON A USER'S VOICE INPUT |
Family Cites Families (25)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5384892A (en) * | 1992-12-31 | 1995-01-24 | Apple Computer, Inc. | Dynamic language model for speech recognition |
| ZA948426B (en) * | 1993-12-22 | 1995-06-30 | Qualcomm Inc | Distributed voice recognition system |
| JPH07222248A (en) | 1994-02-08 | 1995-08-18 | Hitachi Ltd | Method of using voice information in portable information terminals |
| US5852801A (en) * | 1995-10-04 | 1998-12-22 | Apple Computer, Inc. | Method and apparatus for automatically invoking a new word module for unrecognized user input |
| US6058363A (en) * | 1997-01-02 | 2000-05-02 | Texas Instruments Incorporated | Method and system for speaker-independent recognition of user-defined phrases |
| US6173259B1 (en) * | 1997-03-27 | 2001-01-09 | Speech Machines Plc | Speech to text conversion |
| US6078886A (en) * | 1997-04-14 | 2000-06-20 | At&T Corporation | System and method for providing remote automatic speech recognition services via a packet network |
| US5953700A (en) * | 1997-06-11 | 1999-09-14 | International Business Machines Corporation | Portable acoustic interface for remote access to automatic speech/speaker recognition server |
| WO1999018556A2 (en) * | 1997-10-08 | 1999-04-15 | Koninklijke Philips Electronics N.V. | Vocabulary and/or language model training |
| US5937385A (en) * | 1997-10-20 | 1999-08-10 | International Business Machines Corporation | Method and apparatus for creating speech recognition grammars constrained by counter examples |
| US6195641B1 (en) * | 1998-03-27 | 2001-02-27 | International Business Machines Corp. | Network universal spoken language vocabulary |
| US6157910A (en) * | 1998-08-31 | 2000-12-05 | International Business Machines Corporation | Deferred correction file transfer for updating a speech file by creating a file log of corrections |
| US6185535B1 (en) * | 1998-10-16 | 2001-02-06 | Telefonaktiebolaget Lm Ericsson (Publ) | Voice control of a user interface to service applications |
| US6275803B1 (en) * | 1999-02-12 | 2001-08-14 | International Business Machines Corp. | Updating a language model based on a function-word to total-word ratio |
| US6195636B1 (en) * | 1999-02-19 | 2001-02-27 | Texas Instruments Incorporated | Speech recognition over packet networks |
| EP1088299A2 (en) * | 1999-03-26 | 2001-04-04 | Scansoft, Inc. | Client-server speech recognition |
| US6408272B1 (en) * | 1999-04-12 | 2002-06-18 | General Magic, Inc. | Distributed voice user interface |
| US6463413B1 (en) * | 1999-04-20 | 2002-10-08 | Matsushita Electrical Industrial Co., Ltd. | Speech recognition training for small hardware devices |
| US6360201B1 (en) * | 1999-06-08 | 2002-03-19 | International Business Machines Corp. | Method and apparatus for activating and deactivating auxiliary topic libraries in a speech dictation system |
| JP2001013985A (en) | 1999-07-01 | 2001-01-19 | Meidensha Corp | Dictionary managing system of voice recognition system |
| US6484136B1 (en) * | 1999-10-21 | 2002-11-19 | International Business Machines Corporation | Language model adaptation via network of similar users |
| US20030182113A1 (en) * | 1999-11-22 | 2003-09-25 | Xuedong Huang | Distributed speech recognition for mobile communication devices |
| JP3728177B2 (en) * | 2000-05-24 | 2005-12-21 | キヤノン株式会社 | Audio processing system, apparatus, method, and storage medium |
| JP2003036088A (en) * | 2001-07-23 | 2003-02-07 | Canon Inc | Dictionary management device for voice conversion |
| US7016849B2 (en) * | 2002-03-25 | 2006-03-21 | Sri International | Method and apparatus for providing speech-driven routing between spoken language applications |
-
2001
- 2001-02-13 FR FR0101910A patent/FR2820872B1/en not_active Expired - Fee Related
-
2002
- 2002-02-12 EP EP02703691A patent/EP1362343B1/en not_active Expired - Lifetime
- 2002-02-12 US US10/467,586 patent/US7983911B2/en not_active Expired - Fee Related
- 2002-02-12 MX MXPA03007178A patent/MXPA03007178A/en active IP Right Grant
- 2002-02-12 WO PCT/FR2002/000518 patent/WO2002065454A1/en not_active Ceased
- 2002-02-12 JP JP2002565299A patent/JP4751569B2/en not_active Expired - Fee Related
- 2002-02-12 CN CNB028049195A patent/CN1228762C/en not_active Expired - Fee Related
- 2002-02-12 DE DE60222093T patent/DE60222093T2/en not_active Expired - Lifetime
- 2002-02-12 ES ES02703691T patent/ES2291440T3/en not_active Expired - Lifetime
- 2002-02-12 KR KR1020037010428A patent/KR100908358B1/en not_active Expired - Fee Related
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20210075815A (en) * | 2019-12-13 | 2021-06-23 | 주식회사 소리자바 | device for applying speech recognition hints and method the same |
Also Published As
| Publication number | Publication date |
|---|---|
| JP4751569B2 (en) | 2011-08-17 |
| US7983911B2 (en) | 2011-07-19 |
| US20050102142A1 (en) | 2005-05-12 |
| CN1228762C (en) | 2005-11-23 |
| DE60222093T2 (en) | 2008-06-05 |
| FR2820872A1 (en) | 2002-08-16 |
| DE60222093D1 (en) | 2007-10-11 |
| FR2820872B1 (en) | 2003-05-16 |
| EP1362343B1 (en) | 2007-08-29 |
| ES2291440T3 (en) | 2008-03-01 |
| KR100908358B1 (en) | 2009-07-20 |
| CN1491412A (en) | 2004-04-21 |
| MXPA03007178A (en) | 2003-12-04 |
| EP1362343A1 (en) | 2003-11-19 |
| JP2004530149A (en) | 2004-09-30 |
| WO2002065454A1 (en) | 2002-08-22 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| KR100908358B1 (en) | Methods, modules, devices and servers for speech recognition | |
| US11437041B1 (en) | Speech interface device with caching component | |
| CN110473531B (en) | Voice recognition method, device, electronic equipment, system and storage medium | |
| KR101183344B1 (en) | Automatic speech recognition learning using user corrections | |
| CN1667700B (en) | Method for adding voice or acoustic description, pronunciation in voice recognition dictionary | |
| US7848926B2 (en) | System, method, and program for correcting misrecognized spoken words by selecting appropriate correction word from one or more competitive words | |
| US7412387B2 (en) | Automatic improvement of spoken language | |
| WO2000049599A1 (en) | Speech translator, speech translating method, and recorded medium on which speech translation control program is recorded | |
| JP5149107B2 (en) | Sound processing apparatus and program | |
| JP2000035795A (en) | Enrollment of noninteractive system in voice recognition | |
| US7076422B2 (en) | Modelling and processing filled pauses and noises in speech recognition | |
| CN113327609A (en) | Method and apparatus for speech recognition | |
| CN1254787C (en) | Speech recognition method and device using discrete language model | |
| JP5271299B2 (en) | Speech recognition apparatus, speech recognition system, and speech recognition program | |
| WO2023109129A1 (en) | Speech data processing method and apparatus | |
| JP4689032B2 (en) | Speech recognition device for executing substitution rules on syntax | |
| US20030105632A1 (en) | Syntactic and semantic analysis of voice commands | |
| US7206738B2 (en) | Hybrid baseform generation | |
| Odell et al. | Architecture, user interface, and enabling technology in Windows Vista's speech systems | |
| JP2001013992A (en) | Voice understanding device | |
| Nguyen et al. | Progress in transcription of Vietnamese broadcast news | |
| Ju et al. | Spontaneous Mandarin speech understanding using Utterance Classification: A case study | |
| HK1135225A1 (en) | Voice recognition device | |
| GB2465384A (en) | A speech recognition based method and system for retrieving data |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PA0105 | International application |
St.27 status event code: A-0-1-A10-A15-nap-PA0105 |
|
| PG1501 | Laying open of application |
St.27 status event code: A-1-1-Q10-Q12-nap-PG1501 |
|
| PN2301 | Change of applicant |
St.27 status event code: A-3-3-R10-R13-asn-PN2301 St.27 status event code: A-3-3-R10-R11-asn-PN2301 |
|
| A201 | Request for examination | ||
| P11-X000 | Amendment of application requested |
St.27 status event code: A-2-2-P10-P11-nap-X000 |
|
| P13-X000 | Application amended |
St.27 status event code: A-2-2-P10-P13-nap-X000 |
|
| PA0201 | Request for examination |
St.27 status event code: A-1-2-D10-D11-exm-PA0201 |
|
| E902 | Notification of reason for refusal | ||
| PE0902 | Notice of grounds for rejection |
St.27 status event code: A-1-2-D10-D21-exm-PE0902 |
|
| P11-X000 | Amendment of application requested |
St.27 status event code: A-2-2-P10-P11-nap-X000 |
|
| P13-X000 | Application amended |
St.27 status event code: A-2-2-P10-P13-nap-X000 |
|
| E902 | Notification of reason for refusal | ||
| PE0902 | Notice of grounds for rejection |
St.27 status event code: A-1-2-D10-D21-exm-PE0902 |
|
| T11-X000 | Administrative time limit extension requested |
St.27 status event code: U-3-3-T10-T11-oth-X000 |
|
| P11-X000 | Amendment of application requested |
St.27 status event code: A-2-2-P10-P11-nap-X000 |
|
| P13-X000 | Application amended |
St.27 status event code: A-2-2-P10-P13-nap-X000 |
|
| E701 | Decision to grant or registration of patent right | ||
| PE0701 | Decision of registration |
St.27 status event code: A-1-2-D10-D22-exm-PE0701 |
|
| GRNT | Written decision to grant | ||
| PR0701 | Registration of establishment |
St.27 status event code: A-2-4-F10-F11-exm-PR0701 |
|
| PR1002 | Payment of registration fee |
St.27 status event code: A-2-2-U10-U12-oth-PR1002 Fee payment year number: 1 |
|
| PG1601 | Publication of registration |
St.27 status event code: A-4-4-Q10-Q13-nap-PG1601 |
|
| R18-X000 | Changes to party contact information recorded |
St.27 status event code: A-5-5-R10-R18-oth-X000 |
|
| PN2301 | Change of applicant |
St.27 status event code: A-5-5-R10-R13-asn-PN2301 St.27 status event code: A-5-5-R10-R11-asn-PN2301 |
|
| PN2301 | Change of applicant |
St.27 status event code: A-5-5-R10-R13-asn-PN2301 St.27 status event code: A-5-5-R10-R11-asn-PN2301 |
|
| PR1001 | Payment of annual fee |
St.27 status event code: A-4-4-U10-U11-oth-PR1001 Fee payment year number: 4 |
|
| P22-X000 | Classification modified |
St.27 status event code: A-4-4-P10-P22-nap-X000 |
|
| FPAY | Annual fee payment |
Payment date: 20130620 Year of fee payment: 5 |
|
| PR1001 | Payment of annual fee |
St.27 status event code: A-4-4-U10-U11-oth-PR1001 Fee payment year number: 5 |
|
| FPAY | Annual fee payment |
Payment date: 20140630 Year of fee payment: 6 |
|
| PR1001 | Payment of annual fee |
St.27 status event code: A-4-4-U10-U11-oth-PR1001 Fee payment year number: 6 |
|
| FPAY | Annual fee payment |
Payment date: 20150619 Year of fee payment: 7 |
|
| PR1001 | Payment of annual fee |
St.27 status event code: A-4-4-U10-U11-oth-PR1001 Fee payment year number: 7 |
|
| FPAY | Annual fee payment |
Payment date: 20160616 Year of fee payment: 8 |
|
| PR1001 | Payment of annual fee |
St.27 status event code: A-4-4-U10-U11-oth-PR1001 Fee payment year number: 8 |
|
| FPAY | Annual fee payment |
Payment date: 20170616 Year of fee payment: 9 |
|
| PR1001 | Payment of annual fee |
St.27 status event code: A-4-4-U10-U11-oth-PR1001 Fee payment year number: 9 |
|
| PR1001 | Payment of annual fee |
St.27 status event code: A-4-4-U10-U11-oth-PR1001 Fee payment year number: 10 |
|
| R18-X000 | Changes to party contact information recorded |
St.27 status event code: A-5-5-R10-R18-oth-X000 |
|
| FPAY | Annual fee payment |
Payment date: 20190711 Year of fee payment: 11 |
|
| PR1001 | Payment of annual fee |
St.27 status event code: A-4-4-U10-U11-oth-PR1001 Fee payment year number: 11 |
|
| PN2301 | Change of applicant |
St.27 status event code: A-5-5-R10-R11-asn-PN2301 |
|
| PN2301 | Change of applicant |
St.27 status event code: A-5-5-R10-R14-asn-PN2301 |
|
| PR1001 | Payment of annual fee |
St.27 status event code: A-4-4-U10-U11-oth-PR1001 Fee payment year number: 12 |
|
| PC1903 | Unpaid annual fee |
St.27 status event code: A-4-4-U10-U13-oth-PC1903 Not in force date: 20210711 Payment event data comment text: Termination Category : DEFAULT_OF_REGISTRATION_FEE |
|
| PC1903 | Unpaid annual fee |
St.27 status event code: N-4-6-H10-H13-oth-PC1903 Ip right cessation event data comment text: Termination Category : DEFAULT_OF_REGISTRATION_FEE Not in force date: 20210711 |