KR20180024807A - 화자 인식에 기초한 음성 인식 방법 및 장치 - Google Patents
화자 인식에 기초한 음성 인식 방법 및 장치 Download PDFInfo
- Publication number
- KR20180024807A KR20180024807A KR1020160111690A KR20160111690A KR20180024807A KR 20180024807 A KR20180024807 A KR 20180024807A KR 1020160111690 A KR1020160111690 A KR 1020160111690A KR 20160111690 A KR20160111690 A KR 20160111690A KR 20180024807 A KR20180024807 A KR 20180024807A
- Authority
- KR
- South Korea
- Prior art keywords
- speech recognition
- speaker
- speech
- session
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/038—Vector quantisation, e.g. TwinVQ audio
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Game Theory and Decision Science (AREA)
- Business, Economics & Management (AREA)
- Telephonic Communication Services (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
음성 인식 방법은, 오디오 신호를 입력 받기 위한 세션을 활성화 하는 단계; 상기 세션이 유지되는 동안 입력된 입력 오디오 신호로부터 검출된 음성 신호에 대한 음성 인식을 수행하는 단계;상기 음성 신호로부터 생성된 화자 정보에 기초하여, 상기 음성 신호의 화자가 등록된 화자인지 여부를 판단하는 단계; 상기 판단 결과에 기초하여, 상기 세션의 유지 여부를 결정하는 단계; 및 상기 음성 인식이 수행된 결과를 출력하는 단계를 포함할 수 있다.
Description
도 2a, 2b, 2c 및 2d는 일 실시예에 따른 음성 인식 시스템을 설명하기 위한 도면이다.
도 3a 및 3b는 일 실시예에 따른 음성 인식 장치의 블록도이다.
도 4는 일 실시예에 따른 음성 인식 방법의 흐름도이다.
도 5는 일 실시예에 따른 음성 인식 방법의 구체적인 흐름도이다.
도 6은 일 실시예에 따른 프로세서의 블록도이다.
도 7은 일 실시예에 따른 음성 인식 방법의 구체적인 흐름도이다.
도 8은 일 실시예따른 음성 인식 장치가음성 인식을 수행하고 화자 정보를 생성하는 방법을 설명하기 위한 도면이다.
도 9는 일 실시예에 따를 음성 인식 장치가 실시간 화자 인식을 위해 인접 프레임의 정보로 정규화를 수행하는 방법을 설명하기 위한 도면이다.
도 10은 일 실시예에 따른 음성 인식 장치가 화자 인식 결과에 기초하여 세션의 유지를 관리하고 등록된 화자 정보를 갱신하는 방법을 설명하기 위한 도면이다.
도 11a, 11b 및 11c는 일 실시예에 따른 음성 인식 장치가 음성 인식 결과를 출력하는 예를 도시한다.
도 12a 및 12b는 일 실시예에 따른 음성 인식 장치가 음성 인식 결과를 출력하는 예를 도시한다.
도 13a, 13b 및 13c는 일 실시예에 따른 음성 인식 장치가 음성 인식 결과를 출력하는 예를 도시한다.
도 14a, 14b 및 14c는 일 실시예에 따른 음성 인식 장치가 음성 인식 결과를 출력하는 예를 도시한다.
도 15는 일 실시예에 따른 음성 인식 시스템이 동작하는 방법의 흐름도이다.
도 16는 일 실시예에 따른 음성 인식 시스템이 동작하는 방법의 흐름도이다.
도 17a 및 17b는 일 실시예에 따른 음성 인식 시스템이 음성 인식 결과를 출력하는 예를 도시한다.
Claims (21)
- 오디오 신호를 입력 받기 위한 세션을 활성화 하는 단계;
상기 세션이 유지되는 동안 입력된 입력 오디오 신호로부터 검출된 음성 신호에 대한 음성 인식을 수행하는 단계;
상기 음성 신호로부터 생성된 화자 정보에 기초하여, 상기 음성 신호의 화자가 등록된 화자인지 여부를 판단하는 단계;
상기 판단 결과에 기초하여, 상기 세션의 유지 여부를 결정하는 단계; 및
상기 음성 인식이 수행된 결과를 출력하는 단계를 포함하는, 음성 인식 방법. - 제1 항에 있어서,
상기 세션의 유지 여부를 결정하는 단계는,
상기 음성 신호의 화자가 상기 등록된 화자인 경우, 상기 세션을 유지하는 단계; 및
상기 음성 신호의 화자가 상기 등록된 화자가 아닐 경우, 상기 세션을 종료하는 단계를 포함하는 것을 특징으로 하는, 음성 인식 방법. - 제1 항에 있어서,
상기 세션을 활성화 하는 단계는,
상기 세션이, 미리 결정된 세션 유지 시간 동안 유지되고, 상기 세션 유지 시간 이후에는 종료되도록 설정하는 단계를 포함하고,
상기 세션의 유지 여부를 결정하는 단계는,
상기 음성 신호의 화자가 상기 등록된 화자인 경우, 상기 세션이 미리 결정된 연장 시간 동안 유지되고, 상기 연장 시간 이후에는 종료되도록 재설정하는 단계를 포함하는 것을 특징으로 하는, 음성 인식 방법. - 제1 항에 있어서,
상기 음성 인식 결과를 출력하는 단계는,
상기 음성 신호의 화자가 상기 등록된 화자인 경우, 상기 음성 인식이 수행된 결과를 출력하는 단계를 포함하는 것을 특징으로 하는, 음성 인식 방법. - 제1 항에 있어서,
상기 음성 인식을 수행하는 단계는,
음성 인식에 강인한 음성 인식용 특징 벡터 및 화자 인식에 강인한 화자 인식용 특징 벡터를 상기 음성 신호로부터 추출하는 단계;
상기 음성 인식용 특징 벡터에 대해 음성 인식을 수행함으로써 상기 음성 인식이 수행된 결과를 생성하는 단계; 및
상기 화자 인식용 특징 벡터를 이용하여 상기 화자 정보를 생성하는 단계를 포함하는 것을 특징으로 하는, 음성 인식 방법. - 제5 항에 있어서,
상기 음성 인식이 수행된 결과를 생성하는 단계는,
음향 모델 및 언어 모델에 기초하여, 상기 음성 인식용 특징 벡터에 대해 음성 인식을 수행하는 단계를 포함하고,
상기 화자 정보를 생성하는 단계는,
상기 음향 모델 및 상기 음성 인식용 특징 벡터에 기초하여 사후 정보를 추출하는 단계; 및
상기 사후 정보 및 상기 화자 인식용 특징 벡터를 이용하여 상기 화자 정보를 생성하는 단계를 포함하는 것을 특징으로 하는, 음성 인식 방법. - 제1 항에 있어서,
상기 음성 인식을 수행하는 단계는,
실시간으로 입력되는 상기 입력 오디오 신호를 소정 길이의 프레임 단위로 분할하는 단계;
분할된 상기 입력 오디오 신호를 처리함으로써, 상기 음성 신호를 상기 프레임 단위로 검출하는 단계;
상기 음성 신호의 제1 프레임에 대한 음성 인식을 수행하는 단계;
상기 제1 프레임에 대해 음성 인식이 수행되는 과정에서 추출되는 상기 제1 프레임에 대한 사후 정보를 이용하여, 상기 제1 프레임에 대한 화자 정보를 생성하는 단계; 및
실시간으로 입력되는 상기 입력 오디오 신호로부터 순차적으로 검출되는 상기 음성 신호의 프레임들 각각에 대해서 상기 음성 인식을 수행하는 단계 및 상기 화자 정보를 생성하는 단계를 반복하는 단계를 포함하는 것을 특징으로 하는, 음성 인식 방법. - 제1 항에 있어서,
상기 음성 신호의 화자가 등록된 화자인지 여부를 판단하는 단계는,
상기 화자 정보와 상기 등록된 화자에 대하여 미리 저장된 등록된 화자 정보 간의 유사도를 계산하는 단계; 및
상기 유사도와 소정 임계값을 비교한 결과에 기초하여, 상기 음성 신호의 화자가 상기 등록된 화자인지 여부를 판단하는 단계를 포함하는 것을 특징으로 하는, 음성 인식 방법. - 제8 항에 있어서,
상기 음성 신호의 화자가 상기 등록된 화자일 경우, 상기 화자 정보를 이용한 적응 훈련에 의해 상기 등록된 화자 정보를 갱신하는 단계를 더 포함하는 것을 특징으로 하는, 음성 인식 방법. - 제1 항에 있어서,
상기 음성 인식이 수행된 결과를 출력하는 단계는,
상기 세션 중에 검출된 이 전 음성 신호에 대해 음성 인식이 수행된 결과 및 상기 음성 신호에 대해 음성 인식이 수행된 결과에 대해 자연어 처리를 수행함으로써, 상기 음성 신호가 음성 인식을 위해 상기 화자에 의해 발화되었는지 여부를 판단하는 단계; 및
상기 음성 신호가 음성 인식을 위해 상기 화자에 의해 발화되었다고 판단되는 경우, 상기 음성 인식이 수행된 결과를 출력하는 단계를 포함하는, 음성 인식 방법. - 오디오 신호를 입력 받기 위한 세션이 유지되는 동안, 입력 오디오 신호를 수신하는 수신부;
상기 입력 오디오 신호로부터 음성 신호를 검출하고, 상기 음성 신호에 대한 음성 인식을 수행하고, 상기 음성 신호로부터 생성된 화자 정보에 기초하여 상기 음성 신호의 화자가 등록된 화자인지 여부를 판단하고, 상기 판단 결과에 기초하여 상기 세션의 유지 여부를 결정하는, 프로세서; 및
상기 음성 인식이 수행된 결과를 출력하는 출력부를 포함하는, 음성 인식 장치. - 제11 항에 있어서,
상기 프로세서는,
상기 음성 신호의 화자가 상기 등록된 화자인 경우, 상기 세션을유지하고, 상기 음성 신호의 화자가 상기 등록된 화자가 아닐 경우, 상기 세션을 종료하는 것을 특징으로 하는, 음성 인식 장치. - 제11 항에 있어서,
상기 프로세서는, 상기 수신부가 상기 입력 오디오 신호를 수신하기에 앞서,
상기 세션이, 미리 결정된 세션 유지 시간 동안 유지되고, 상기 세션 유지 시간 이후에는 종료되도록 설정하고,
상기 프로세서는, 상기 세션의 유지 여부를 결정함에 있어서,
상기 음성 신호의 화자가 상기 등록된 화자인 경우, 상기 세션이 미리 결정된 연장 시간 동안 유지되고, 상기 연장 시간 이후에는 종료되도록 재설정하는 것을 특징으로 하는, 음성 인식 장치. - 제11 항에 있어서,
상기 프로세서는,
상기 음성 신호의 화자가 상기 등록된 화자인 경우, 상기 음성 인식이 수행된 결과를 출력하도록 상기 출력부를 제어하는 것을 특징으로 하는, 음성 인식 장치. - 제11 항에 있어서,
상기 프로세서는,
음성 인식에 강인한 음성 인식용 특징 벡터 및 화자 인식에 강인한 화자 인식용 특징 벡터를 상기 음성 신호로부터 추출하고, 음향 모델 및 언어 모델에 기초하여 상기 음성 인식용 특징 벡터에 대해 음성 인식을 수행하고, 상기 음향 모델 및 상기 음성 인식용 특징 벡터에 기초하여 사후 정보를 추출하고, 상기 사후 정보 및 상기 화자 인식용 특징 벡터를 이용하여 상기 화자 정보를 생성하는 것을 특징으로 하는, 음성 인식 장치. - 제11 항에 있어서,
상기 프로세서는,
실시간으로 입력되는 상기 입력 오디오 신호를 소정 길이의 프레임 단위로 분할하고, 분할된 상기 입력 오디오 신호를 처리함으로써, 상기 음성 신호를 상기 프레임 단위로 검출하고,
상기 음성 신호의 제1 프레임에 대한 음성 인식을 수행하는 동작, 상기 제1 프레임에 대해 음성 인식이 수행되는 과정에서 추출되는 상기 제1 프레임에 대한 사후 정보를 이용하여 상기 제1 프레임에 대한 화자 정보를 생성하는 동작, 및 실시간으로 입력되는 상기 입력 오디오 신호로부터 순차적으로 검출되는 상기 음성 신호의 프레임들 각각에 대해서 상기 음성 인식을 수행하고 상기 화자 정보를 생성하는 동작을 반복하는 것을 특징으로 하는, 음성 인식 장치. - 제11 항에 있어서,
상기 프로세서는, 상기 음성 신호의 화자가 등록된 화자인지 여부를 판단함에 있어서,
상기 화자 정보와 상기 등록된 화자에 대하여 미리 저장된 등록된 화자 정보 간의 유사도를 계산하고, 상기 유사도와 소정 임계값을 비교한 결과에 기초하여 상기 음성 신호의 화자가 상기 등록된 화자인지 여부를 판단하는 것을 특징으로 하며,
상기 프로세서는,
상기 음성 신호의 화자가 상기 등록된 화자일 경우, 상기 화자 정보를 이용한 적응 훈련에 의해 상기 등록된 화자 정보를 갱신하는 것을 특징으로 하는, 음성 인식 장치. - 제11 항에 있어서,
상기 프로세서는,
상기 세션 중에서 검출된 이 전 음성 신호에 대해 음성 인식이 수행된 결과 및 상기 음성 신호에 대해 음성 인식이 수행된 결과에 대해 자연어 처리를 수행함으로써, 상기 음성 신호가 음성 인식을 위해 상기 화자에 의해 발화되었는지 여부를 판단하고,
상기 음성 신호가 음성 인식을 위해 상기 화자에 의해 발화되었다고 판단되는 경우, 상기 음성 인식이 수행된 결과를 출력하는 것을 특징으로 하는, 음성 인식 장치. - 입력 오디오 신호를 음성 인식 장치로부터 수신하는 수신부로서, 상기 입력 오디오 신호는, 오디오 신호를 입력 받기 위한 세션이 유지되는 동안 상기 음성 인식 장치가 수신한 것을 특징으로 하는, 수신부;
상기 입력 오디오 신호로부터 음성 신호를 검출하고, 상기 음성 신호에 대한 음성 인식을 수행하고, 상기 음성 신호로부터 생성된 화자 정보에 기초하여 상기 음성 신호의 화자가 등록된 화자인지 여부를 판단하고, 상기 판단 결과에 기초하여 상기 음성 인식 장치의 상기 세션의 유지 여부를 결정하는, 프로세서; 및
상기 세션의 유지 여부를 결정하기 위한 세션 관리 신호 및 상기 음성 인식이 수행된 결과를 상기 음성 인식 장치에게 송신하는 출력부를 포함하는, 음성 인식 서버. - 디바이스가 음성 인식 방법을 실행하도록 하는 명령어들을 포함하는 하나 이상의 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록 매체에 있어서, 상기 음성 인식 방법은,
오디오 신호를 입력 받기 위한 세션을 활성화 하는 단계;
상기 세션이 유지되는 동안 입력된 입력 오디오 신호로부터 검출된 음성 신호에 대한 음성 인식을 수행하는 단계;
상기 음성 신호로부터 생성된 화자 정보에 기초하여, 상기 음성 신호의 화자가 등록된 화자인지 여부를 판단하는 단계;
상기 판단 결과에 기초하여, 상기 세션의 유지 여부를 결정하는 단계; 및
상기 음성 인식이 수행된 결과를 출력하는 단계를 포함하는 것을 특징으로 하는, 기록 매체. - 복수의 음성 인식 장치들, 및 상기 복수의 음성 인식 장치들을 제어하는 음성 인식 서버를 포함하는 음성 인식 시스템에 있어서,
상기 복수의 음성 인식 장치들 중에서 제1 음성 인식 장치는,
오디오 신호를 입력 받기 위한 세션이 유지되는 동안, 입력 오디오 신호를 수신하고, 상기 입력 오디오 신호를 상기 서버에게 송신하고,
상기 음성 인식 서버는,
상기 입력 오디오 신호로부터 음성 신호를 검출하고, 상기 음성 신호에 대한 음성 인식을 수행하고, 상기 음성 신호로부터 생성된 화자 정보에 기초하여 상기 음성 신호의 화자가 등록된 화자인지 여부를 판단하고, 상기 음성 신호의 화자가 상기 등록된 화자인 경우, 상기 복수의 음성 인식 장치들의 세션들이 소정 시간 동안 유지되도록 상기 복수의 음성 인식 장치들을 제어하는 것을 특징으로 하는, 음성 인식 시스템.
Priority Applications (5)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020160111690A KR102596430B1 (ko) | 2016-08-31 | 2016-08-31 | 화자 인식에 기초한 음성 인식 방법 및 장치 |
| EP17846916.9A EP3479376A4 (en) | 2016-08-31 | 2017-08-24 | SPEECH RECOGNITION AND DEVICE BASED ON SPEAKER RECOGNITION |
| PCT/KR2017/009251 WO2018043991A1 (en) | 2016-08-31 | 2017-08-24 | Speech recognition method and apparatus based on speaker recognition |
| CN201780052734.6A CN109643549B (zh) | 2016-08-31 | 2017-08-24 | 基于说话者识别的语音识别方法和装置 |
| US15/688,136 US10762899B2 (en) | 2016-08-31 | 2017-08-28 | Speech recognition method and apparatus based on speaker recognition |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020160111690A KR102596430B1 (ko) | 2016-08-31 | 2016-08-31 | 화자 인식에 기초한 음성 인식 방법 및 장치 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| KR20180024807A true KR20180024807A (ko) | 2018-03-08 |
| KR102596430B1 KR102596430B1 (ko) | 2023-10-31 |
Family
ID=61240692
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| KR1020160111690A Active KR102596430B1 (ko) | 2016-08-31 | 2016-08-31 | 화자 인식에 기초한 음성 인식 방법 및 장치 |
Country Status (5)
| Country | Link |
|---|---|
| US (1) | US10762899B2 (ko) |
| EP (1) | EP3479376A4 (ko) |
| KR (1) | KR102596430B1 (ko) |
| CN (1) | CN109643549B (ko) |
| WO (1) | WO2018043991A1 (ko) |
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20190134366A (ko) * | 2018-05-25 | 2019-12-04 | 삼성전자주식회사 | 전자 장치, 전자 장치의 제어 방법 및 컴퓨터 판독 가능 매체 |
| WO2020009297A1 (ko) * | 2018-07-05 | 2020-01-09 | 미디어젠 주식회사 | 도메인 추출기반의 언어 이해 성능 향상장치및 성능 향상방법 |
| WO2020075998A1 (ko) * | 2018-10-12 | 2020-04-16 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
| KR20200075339A (ko) * | 2018-12-18 | 2020-06-26 | 전자부품연구원 | 화자인식 장치 및 방법 |
| KR20200114606A (ko) * | 2019-03-29 | 2020-10-07 | 주식회사 엘지유플러스 | 음성을 제공하는 방법 및 장치 |
| KR20220077313A (ko) * | 2020-12-01 | 2022-06-09 | 주식회사 덴컴 | Ai 기반 음성인식을 이용한 치아 상태 표시 장치 및 그 방법 |
| WO2023128035A1 (ko) * | 2021-12-31 | 2023-07-06 | 서울대학교산학협력단 | 화자 유사도 판단 방법 및 장치 |
Families Citing this family (18)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US10186263B2 (en) * | 2016-08-30 | 2019-01-22 | Lenovo Enterprise Solutions (Singapore) Pte. Ltd. | Spoken utterance stop event other than pause or cessation in spoken utterances stream |
| KR102472010B1 (ko) * | 2018-05-04 | 2022-11-30 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 기능 실행 방법 |
| CN109166575A (zh) * | 2018-07-27 | 2019-01-08 | 百度在线网络技术(北京)有限公司 | 智能设备的交互方法、装置、智能设备和存储介质 |
| US10923128B2 (en) | 2018-08-29 | 2021-02-16 | Cirrus Logic, Inc. | Speech recognition |
| KR102831245B1 (ko) * | 2018-10-23 | 2025-07-08 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 제어 방법 |
| US11508378B2 (en) * | 2018-10-23 | 2022-11-22 | Samsung Electronics Co., Ltd. | Electronic device and method for controlling the same |
| CN110290280B (zh) * | 2019-05-28 | 2021-08-13 | 同盾控股有限公司 | 一种终端状态的识别方法、装置及存储介质 |
| US11302335B2 (en) * | 2019-08-01 | 2022-04-12 | Nuance Communications, Inc. | System and method for managing an automated voicemail |
| US11227602B2 (en) * | 2019-11-20 | 2022-01-18 | Facebook Technologies, Llc | Speech transcription using multiple data sources |
| WO2021112639A1 (en) | 2019-12-05 | 2021-06-10 | Samsung Electronics Co., Ltd. | Electronic device performing operation based on user speech in multi device environment and operating method thereof |
| CN111462759B (zh) * | 2020-04-01 | 2024-02-13 | 科大讯飞股份有限公司 | 一种说话人标注方法、装置、设备及存储介质 |
| US11373657B2 (en) * | 2020-05-01 | 2022-06-28 | Raytheon Applied Signal Technology, Inc. | System and method for speaker identification in audio data |
| US11315545B2 (en) * | 2020-07-09 | 2022-04-26 | Raytheon Applied Signal Technology, Inc. | System and method for language identification in audio data |
| US12020697B2 (en) | 2020-07-15 | 2024-06-25 | Raytheon Applied Signal Technology, Inc. | Systems and methods for fast filtering of audio keyword search |
| CN112102816A (zh) * | 2020-08-17 | 2020-12-18 | 北京百度网讯科技有限公司 | 语音识别方法、装置、系统、电子设备和存储介质 |
| CN113724713B (zh) * | 2021-09-07 | 2024-07-05 | 中国科学技术大学 | 一种语音识别方法、装置、设备及存储介质 |
| CN113921016A (zh) * | 2021-10-15 | 2022-01-11 | 阿波罗智联(北京)科技有限公司 | 语音处理方法、装置、电子设备以及存储介质 |
| US12322384B1 (en) * | 2024-09-27 | 2025-06-03 | Character Technologies Inc. | Audio turn understanding system |
Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20030013855A (ko) * | 2001-08-09 | 2003-02-15 | 삼성전자주식회사 | 음성등록방법 및 음성등록시스템과 이에 기초한음성인식방법 및 음성인식시스템 |
| US20140163978A1 (en) * | 2012-12-11 | 2014-06-12 | Amazon Technologies, Inc. | Speech recognition power management |
| WO2015005679A1 (ko) * | 2013-07-09 | 2015-01-15 | 주식회사 윌러스표준기술연구소 | 음성 인식 방법, 장치 및 시스템 |
| US20150112684A1 (en) * | 2013-10-17 | 2015-04-23 | Sri International | Content-Aware Speaker Recognition |
| KR20160098771A (ko) * | 2015-02-11 | 2016-08-19 | 삼성전자주식회사 | 음성 기능 운용 방법 및 이를 지원하는 전자 장치 |
| KR20160100765A (ko) * | 2015-02-16 | 2016-08-24 | 삼성전자주식회사 | 전자 장치 및 음성 인식 기능 운용 방법 |
| US9558749B1 (en) * | 2013-08-01 | 2017-01-31 | Amazon Technologies, Inc. | Automatic speaker identification using speech recognition features |
Family Cites Families (40)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS53105303A (en) * | 1977-02-25 | 1978-09-13 | Hitachi Ltd | Preprocessing system for audio recognition |
| US4837830A (en) * | 1987-01-16 | 1989-06-06 | Itt Defense Communications, A Division Of Itt Corporation | Multiple parameter speaker recognition system and methods |
| US6073101A (en) * | 1996-02-02 | 2000-06-06 | International Business Machines Corporation | Text independent speaker recognition for transparent command ambiguity resolution and continuous access control |
| US6151575A (en) * | 1996-10-28 | 2000-11-21 | Dragon Systems, Inc. | Rapid adaptation of speech models |
| US6144938A (en) * | 1998-05-01 | 2000-11-07 | Sun Microsystems, Inc. | Voice user interface with personality |
| US6757362B1 (en) * | 2000-03-06 | 2004-06-29 | Avaya Technology Corp. | Personal virtual assistant |
| GB2372864B (en) * | 2001-02-28 | 2005-09-07 | Vox Generation Ltd | Spoken language interface |
| US7016843B2 (en) * | 2001-03-09 | 2006-03-21 | Bevocal, Inc. | System method and computer program product for transferring unregistered callers to a registration process |
| DE10150108B4 (de) * | 2001-10-11 | 2004-03-11 | Siemens Ag | Fortwährende Sprecherauthentifizierung |
| US20060248019A1 (en) * | 2005-04-21 | 2006-11-02 | Anthony Rajakumar | Method and system to detect fraud using voice data |
| WO2007057879A1 (en) * | 2005-11-17 | 2007-05-24 | Shaul Simhi | Personalized voice activity detection |
| US8234494B1 (en) * | 2005-12-21 | 2012-07-31 | At&T Intellectual Property Ii, L.P. | Speaker-verification digital signatures |
| JP4131978B2 (ja) * | 2006-02-24 | 2008-08-13 | 本田技研工業株式会社 | 音声認識機器制御装置 |
| CN101562013B (zh) * | 2008-04-15 | 2013-05-22 | 联芯科技有限公司 | 一种自动识别语音的方法和装置 |
| DE102008024257A1 (de) * | 2008-05-20 | 2009-11-26 | Siemens Aktiengesellschaft | Verfahren zur Sprecheridentifikation bei einer Spracherkennung |
| JP5200712B2 (ja) * | 2008-07-10 | 2013-06-05 | 富士通株式会社 | 音声認識装置、音声認識方法及びコンピュータプログラム |
| KR20100027865A (ko) * | 2008-09-03 | 2010-03-11 | 엘지전자 주식회사 | 화자 및 음성 인식 장치 및 그 방법 |
| CN101923853B (zh) * | 2009-06-12 | 2013-01-23 | 华为技术有限公司 | 说话人识别方法、设备和系统 |
| WO2011040056A1 (ja) * | 2009-10-02 | 2011-04-07 | 独立行政法人情報通信研究機構 | 音声翻訳システム、第一端末装置、音声認識サーバ装置、翻訳サーバ装置、および音声合成サーバ装置 |
| US9262612B2 (en) * | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
| US20130144619A1 (en) * | 2011-12-01 | 2013-06-06 | Richard T. Lord | Enhanced voice conferencing |
| US8934652B2 (en) * | 2011-12-01 | 2015-01-13 | Elwha Llc | Visual presentation of speaker-related information |
| US9117449B2 (en) | 2012-04-26 | 2015-08-25 | Nuance Communications, Inc. | Embedded system for construction of small footprint speech recognition with user-definable constraints |
| KR20130133629A (ko) | 2012-05-29 | 2013-12-09 | 삼성전자주식회사 | 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법 |
| US10109278B2 (en) * | 2012-08-02 | 2018-10-23 | Audible, Inc. | Aligning body matter across content formats |
| US20140088965A1 (en) * | 2012-09-27 | 2014-03-27 | Polaris Wireless, Inc. | Associating and locating mobile stations based on speech signatures |
| EP2816554A3 (en) | 2013-05-28 | 2015-03-25 | Samsung Electronics Co., Ltd | Method of executing voice recognition of electronic device and electronic device using the same |
| US9710219B2 (en) * | 2013-06-10 | 2017-07-18 | Panasonic Intellectual Property Corporation Of America | Speaker identification method, speaker identification device, and speaker identification system |
| WO2014203370A1 (ja) * | 2013-06-20 | 2014-12-24 | 株式会社東芝 | 音声合成辞書作成装置及び音声合成辞書作成方法 |
| US20150025888A1 (en) * | 2013-07-22 | 2015-01-22 | Nuance Communications, Inc. | Speaker recognition and voice tagging for improved service |
| US9495967B2 (en) * | 2013-08-20 | 2016-11-15 | Intel Corporation | Collaborative audio conversation attestation |
| JP6164076B2 (ja) * | 2013-12-17 | 2017-07-19 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
| US9812130B1 (en) * | 2014-03-11 | 2017-11-07 | Nvoq Incorporated | Apparatus and methods for dynamically changing a language model based on recognized text |
| US9715875B2 (en) * | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
| US9875743B2 (en) * | 2015-01-26 | 2018-01-23 | Verint Systems Ltd. | Acoustic signature building for a speaker from multiple sessions |
| US9870785B2 (en) * | 2015-02-06 | 2018-01-16 | Knuedge Incorporated | Determining features of harmonic signals |
| US9978374B2 (en) * | 2015-09-04 | 2018-05-22 | Google Llc | Neural networks for speaker verification |
| US10079020B2 (en) * | 2015-11-19 | 2018-09-18 | Panasonic Corporation | Speech recognition method and speech recognition apparatus to improve performance or response of speech recognition |
| US9972322B2 (en) * | 2016-03-29 | 2018-05-15 | Intel Corporation | Speaker recognition using adaptive thresholding |
| US10810212B2 (en) * | 2016-07-29 | 2020-10-20 | Lenovo Enterprise Solutions (Singapore) Pte. Ltd. | Validating provided information in a conversation |
-
2016
- 2016-08-31 KR KR1020160111690A patent/KR102596430B1/ko active Active
-
2017
- 2017-08-24 CN CN201780052734.6A patent/CN109643549B/zh active Active
- 2017-08-24 EP EP17846916.9A patent/EP3479376A4/en not_active Ceased
- 2017-08-24 WO PCT/KR2017/009251 patent/WO2018043991A1/en not_active Ceased
- 2017-08-28 US US15/688,136 patent/US10762899B2/en active Active
Patent Citations (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20030013855A (ko) * | 2001-08-09 | 2003-02-15 | 삼성전자주식회사 | 음성등록방법 및 음성등록시스템과 이에 기초한음성인식방법 및 음성인식시스템 |
| US20050033573A1 (en) * | 2001-08-09 | 2005-02-10 | Sang-Jin Hong | Voice registration method and system, and voice recognition method and system based on voice registration method and system |
| US20140163978A1 (en) * | 2012-12-11 | 2014-06-12 | Amazon Technologies, Inc. | Speech recognition power management |
| WO2015005679A1 (ko) * | 2013-07-09 | 2015-01-15 | 주식회사 윌러스표준기술연구소 | 음성 인식 방법, 장치 및 시스템 |
| US9558749B1 (en) * | 2013-08-01 | 2017-01-31 | Amazon Technologies, Inc. | Automatic speaker identification using speech recognition features |
| US20150112684A1 (en) * | 2013-10-17 | 2015-04-23 | Sri International | Content-Aware Speaker Recognition |
| KR20160098771A (ko) * | 2015-02-11 | 2016-08-19 | 삼성전자주식회사 | 음성 기능 운용 방법 및 이를 지원하는 전자 장치 |
| KR20160100765A (ko) * | 2015-02-16 | 2016-08-24 | 삼성전자주식회사 | 전자 장치 및 음성 인식 기능 운용 방법 |
Non-Patent Citations (1)
| Title |
|---|
| Senior, A., & Lopez-Moreno, I. (2014, May). Improving DNN speaker independence with i-vector inputs. In 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) * |
Cited By (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20190134366A (ko) * | 2018-05-25 | 2019-12-04 | 삼성전자주식회사 | 전자 장치, 전자 장치의 제어 방법 및 컴퓨터 판독 가능 매체 |
| WO2020009297A1 (ko) * | 2018-07-05 | 2020-01-09 | 미디어젠 주식회사 | 도메인 추출기반의 언어 이해 성능 향상장치및 성능 향상방법 |
| WO2020075998A1 (ko) * | 2018-10-12 | 2020-04-16 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
| KR20200041671A (ko) * | 2018-10-12 | 2020-04-22 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
| US12002475B2 (en) | 2018-10-12 | 2024-06-04 | Samsung Electronics Co., Ltd. | Electronic device performing speaker recognition and control method thereof |
| KR20200075339A (ko) * | 2018-12-18 | 2020-06-26 | 전자부품연구원 | 화자인식 장치 및 방법 |
| KR20200114606A (ko) * | 2019-03-29 | 2020-10-07 | 주식회사 엘지유플러스 | 음성을 제공하는 방법 및 장치 |
| KR20220077313A (ko) * | 2020-12-01 | 2022-06-09 | 주식회사 덴컴 | Ai 기반 음성인식을 이용한 치아 상태 표시 장치 및 그 방법 |
| WO2023128035A1 (ko) * | 2021-12-31 | 2023-07-06 | 서울대학교산학협력단 | 화자 유사도 판단 방법 및 장치 |
Also Published As
| Publication number | Publication date |
|---|---|
| EP3479376A4 (en) | 2019-10-30 |
| CN109643549A (zh) | 2019-04-16 |
| WO2018043991A1 (en) | 2018-03-08 |
| CN109643549B (zh) | 2023-09-05 |
| US10762899B2 (en) | 2020-09-01 |
| KR102596430B1 (ko) | 2023-10-31 |
| EP3479376A1 (en) | 2019-05-08 |
| US20180061412A1 (en) | 2018-03-01 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| KR102596430B1 (ko) | 화자 인식에 기초한 음성 인식 방법 및 장치 | |
| US12159086B2 (en) | Device arbitration by multiple speech processing systems | |
| US12080280B2 (en) | Systems and methods for determining whether to trigger a voice capable device based on speaking cadence | |
| US11875820B1 (en) | Context driven device arbitration | |
| US11710478B2 (en) | Pre-wakeword speech processing | |
| EP3832643B1 (en) | Dynamic wakewords for speech-enabled devices | |
| US11669300B1 (en) | Wake word detection configuration | |
| US10943606B2 (en) | Context-based detection of end-point of utterance | |
| US10861446B2 (en) | Generating input alternatives | |
| US11361763B1 (en) | Detecting system-directed speech | |
| US10262657B1 (en) | Processing spoken commands to control distributed audio outputs | |
| EP3314606B1 (en) | Language model speech endpointing | |
| US9159319B1 (en) | Keyword spotting with competitor models | |
| KR101986354B1 (ko) | 키워드 오인식을 방지하는 음성 제어 장치 및 이의 동작 방법 | |
| US9466286B1 (en) | Transitioning an electronic device between device states | |
| US11069352B1 (en) | Media presence detection | |
| US11056118B2 (en) | Speaker identification | |
| KR20230156145A (ko) | 하이브리드 다국어 텍스트 의존형 및 텍스트 독립형 화자 검증 | |
| US11626106B1 (en) | Error attribution in natural language processing systems | |
| KR102061206B1 (ko) | 키워드 오인식을 방지하는 음성 제어 장치 및 이의 동작 방법 | |
| CN115691478A (zh) | 语音唤醒方法、装置、人机交互设备和存储介质 | |
| US20250201230A1 (en) | Sending media comments using a natural language interface |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20160831 |
|
| PG1501 | Laying open of application | ||
| A201 | Request for examination | ||
| PA0201 | Request for examination |
Patent event code: PA02012R01D Patent event date: 20210728 Comment text: Request for Examination of Application Patent event code: PA02011R01I Patent event date: 20160831 Comment text: Patent Application |
|
| E902 | Notification of reason for refusal | ||
| PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20230515 Patent event code: PE09021S01D |
|
| E701 | Decision to grant or registration of patent right | ||
| PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20230726 |
|
| GRNT | Written decision to grant | ||
| PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20231026 Patent event code: PR07011E01D |
|
| PR1002 | Payment of registration fee |
Payment date: 20231027 End annual number: 3 Start annual number: 1 |
|
| PG1601 | Publication of registration |