KR102304701B1 - 사용자의 음성 입력에 대한 답변을 제공하는 방법 및 장치 - Google Patents
사용자의 음성 입력에 대한 답변을 제공하는 방법 및 장치 Download PDFInfo
- Publication number
- KR102304701B1 KR102304701B1 KR1020170039303A KR20170039303A KR102304701B1 KR 102304701 B1 KR102304701 B1 KR 102304701B1 KR 1020170039303 A KR1020170039303 A KR 1020170039303A KR 20170039303 A KR20170039303 A KR 20170039303A KR 102304701 B1 KR102304701 B1 KR 102304701B1
- Authority
- KR
- South Korea
- Prior art keywords
- user
- image
- voice input
- information
- intention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/002—Specific input/output arrangements not covered by G06F3/01 - G06F3/16
- G06F3/005—Input arrangements through a video camera
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/263—Language identification
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Signal Processing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Medical Informatics (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Description
도 2는 일 실시예에 따른, 사용자의 음성 입력에 대한 답변을 제공하는 방법의 흐름도이다.
도 3은 일 실시예에 따른 사용자 억양 정보를 이용하여 사용자의 음성 입력에 대한 답변을 제공하는 예시를 설명하는 도면이다.
도 4는 일 실시예에 따른 사용자 감정 정보를 이용하여 사용자의 음성 입력에 대한 답변을 제공하는 예시를 설명하는 도면이다.
도 5는 일 실시예에 따른 사용자가 사용하는 언어의 종류에 기초하여 사용자의 음성 입력에 대한 답변을 제공하는 예시를 설명하는 도면이다.
도 6은 일 실시예에 따른 사용자가 사용하는 방언(dialect)에 기초하여 사용자의 음성 입력에 대한 답변을 제공하는 예시를 설명하는 도면이다.
도 7은 일 실시예에 따른 사용자의 의도와 관련된 부가 정보와 함께 사용자의 음성 입력에 대한 답변을 제공하는 예시를 설명하는 도면이다.
도 8은 일 실시예에 따른, 디스플레이된 이미지의 일부 영역에 대한, 사용자의 음성 입력 대한 답변을 제공하는 예시를 설명하는 도면이다.
도 9 및 10은 일 실시예에 따른 디바이스의 블록도이다.
도 11은 일 실시예에 따른 제어부의 블록도이다.
도 12는 일 실시예에 따른 데이터 학습부의 블록도이다.
도 13은 일 실시예에 따른 데이터 인식부의 블록도이다.
도 14는 일 실시예에 따른 디바이스 및 서버가 서로 연동함으로써 데이터를 학습하고 인식하는 예시를 나타내는 도면이다.
Claims (19)
- 디바이스가 사용자의 음성 입력에 대한 답변을 제공하는 방법에 있어서,
상기 디바이스의 카메라를 통하여 적어도 하나의 객체가 포함된 이미지를 촬영하는 단계;
상기 이미지가 촬영되는 동안 상기 디바이스의 마이크를 활성화하는 단계;
상기 마이크를 통하여, 상기 이미지 내의 객체에 대한 사용자의 음성 입력을 수신하는 단계;
상기 이미지 및 상기 음성 입력에 기초하여, 상기 수신된 음성 입력의 대상이 되는 상기 이미지 내의 객체를 확인하는 단계;
상기 수신된 음성 입력을 분석함으로써 사용자 억양 정보 및 사용자 감정 정보 중 적어도 하나를 획득하는 단계;
상기 획득된 적어도 하나의 사용자 억양 정보 및 사용자 감정 정보에 기초하여, 상기 확인된 객체에 관한 상기 사용자의 의도를 결정하는 단계; 및
상기 결정된 사용자의 의도에 기초하여 상기 확인된 객체에 관한 답변을 제공하는 단계;
를 포함하는, 방법. - 제 1항에 있어서,
상기 사용자 억양 정보 및 사용자 감정 정보 중 적어도 하나를 획득하는 단계는,
상기 사용자의 음성 입력의 음성 에너지, 음 높이, 음성 파형의 규칙성 및 성대 진동 변화율 중 적어도 하나를 분석함으로써 상기 사용자의 억양 정보를 생성하는 단계;
를 포함하고,
상기 사용자의 의도를 결정하는 단계는,
상기 생성된 억양 정보를 이용하여 상기 확인된 객체에 관한 상기 사용자의 의도를 결정하는 단계;
를 포함하는, 방법. - 제 2항에 있어서,
상기 사용자 억양 정보 및 사용자 감정 정보 중 적어도 하나를 획득하는 단계는,
상기 생성된 억양 정보를 분석함으로써 상기 사용자의 감정 정보를 생성하는 단계;
를 포함하고,
상기 사용자의 의도를 결정하는 단계는,
상기 생성된 억양 정보 및 상기 생성된 감정 정보에 기초하여 상기 확인된 객체에 관한 상기 사용자의 의도를 결정하는 단계;
를 포함하는, 방법. - 제 1항에 있어서,
상기 사용자의 음성 입력을 분석함으로써 상기 사용자가 사용하는 언어의 종류를 결정하는 단계; 및
상기 결정된 언어의 종류에 대응되는 국가의 배경지식 정보를 결정하는 단계;
를 더 포함하고,
상기 확인된 객체에 관한 답변을 제공하는 단계는,
상기 결정된 배경지식 정보에 기초하여, 상기 확인된 객체에 관한 배경지식 정보를 포함하는 답변을 상기 결정된 언어의 종류를 이용하여 제공하는 단계;
를 포함하는, 방법. - 제 4항에 있어서,
상기 사용자의 의도를 결정하는 단계는,
상기 결정된 언어의 종류에 기초하여 상기 사용자의 음성 입력의 대상이 되는 상기 이미지 내의 객체를 확인하는 단계;
를 포함하고,
상기 확인된 객체에 관한 답변을 제공하는 단계는,
상기 결정된 언어의 종류를 이용하여 상기 확인된 객체에 관한 답변을 제공하는 단계;
를 포함하는, 방법. - 제 1항에 있어서,
상기 방법은,
상기 수신된 음성 입력에 포함된 텍스트 데이터를 추출하는 단계;
를 더 포함하고,
상기 확인된 객체에 관한 답변을 제공하는 단계는,
상기 추출된 텍스트 데이터 및 상기 사용자의 의도에 기초하여 상기 확인된 객체에 관한 답변을 제공하는 단계;
를 포함하는, 방법. - 제 1항에 있어서,
상기 확인된 객체에 관한 답변을 제공하는 단계는,
상기 사용자의 의도에 기초하여 검색어를 생성하는 단계; 및
상기생성된 검색어를 이용하여 검색한 검색 결과를 상기 객체에 관한 답변과 함께 제공하는 단계;
를 포함하는, 방법. - 제 1항에 있어서,
상기 방법은,
상기 적어도 하나의 객체가 포함된 이미지를 디스플레이하는 단계; 및
상기 이미지가 디스플레이되는 동안 상기 디바이스의 마이크를 활성화하는 단계;
를 더 포함하는, 방법. - 제 8항에 있어서,
상기 방법은,
상기 디스플레이된 이미지의 일부 영역을 선택하는 상기 사용자의 입력을 수신하는 단계;
를 더 포함하고,
상기 수신된 음성 입력의 대상이 되는 상기 이미지 내의 객체를 확인하는 단계는,
상기 수신된 음성 입력의 대상이 되는 상기 이미지 내의 객체를 상기 선택된 일부 영역 내에서 확인하는 단계;
를 포함하고,
상기 확인된 객체에 관한 답변을 제공하는 단계는,
상기 결정된 사용자의 의도에 기초하여, 상기 선택된 일부 영역 내 상기 확인된 객체에 관한 답변을 제공하는 단계;
를 포함하는, 방법. - 사용자의 음성 입력에 대한 답변을 제공하는 디바이스에 있어서,
상기 디바이스의 카메라를 통하여 촬영된, 적어도 하나의 객체가 포함된 이미지를 수신하고,
상기 디바이스의 마이크를 통하여 입력된, 상기 이미지 내의 객체에 대한 사용자의 음성 입력을 수신하는 입력부;
적어도 하나의 인스트럭션을 저장하기 위한 메모리; 및
상기 메모리에 저장된 상기 적어도 하나의 인스트럭션을 실행하는 적어도 하나의 프로세서를 포함하고,
상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,
상기 이미지가 촬영되는 동안 상기 디바이스의 마이크를 활성화하고,
상기 이미지 및 상기 음성 입력에 기초하여, 상기 사용자로부터 수신된 음성 입력의 대상이 되는 상기 이미지 내의 객체를 확인하고,
상기 수신된 음성 입력을 분석함으로써 사용자 억양 정보 및 사용자 감정 정보 중 적어도 하나를 획득하고,
상기 획득된 적어도 하나의 사용자 억양 정보 및 사용자 감정 정보에 기초하여, 상기 확인된 객체에 관한 상기 사용자의 의도를 결정하고,
상기 결정된 사용자의 의도에 기초하여 상기 확인된 객체에 관한 답변을 제공하는, 디바이스. - 제 10항에 있어서,
상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,
상기 사용자의 음성 입력의 음성 에너지, 음 높이, 음성 파형의 규칙성 및 성대 진동 변화율 중 적어도 하나를 분석함으로써 상기 사용자의 억양 정보를 생성하고,
상기 생성된 억양 정보를 이용하여 상기 확인된 객체에 관한 상기 사용자의 의도를 결정하는, 디바이스. - 제 11항에 있어서,
상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,
상기 생성된 억양 정보를 분석함으로써 상기 사용자의 감정 정보를 생성하고,
상기 생성된 억양 정보 및 상기 생성된 감정 정보에 기초하여 상기 확인된 객체에 관한 상기 사용자의 의도를 결정하는, 디바이스. - 제 10항에 있어서,
상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,
상기 사용자의 음성 입력을 분석함으로써 상기 사용자가 사용하는 언어의 종류를 결정하고,
상기 결정된 언어의 종류에 대응되는 국가의 배경지식 정보를 결정하고,
상기 결정된 배경지식 정보에 기초하여, 상기 확인된 객체에 관한 배경지식 정보를 포함하는 답변을 상기 결정된 언어의 종류를 이용하여 제공하는, 디바이스. - 제 13항에 있어서,
상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,
상기 결정된 언어의 종류에 기초하여 상기 사용자의 음성 입력의 대상이 되는 상기 이미지 내의 객체를 확인하고,
상기 결정된 언어의 종류를 이용하여 상기 확인된 객체에 관한 답변을 제공하는, 디바이스. - 제 10항에 있어서,
상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,
상기 수신된 음성 입력에 포함된 텍스트 데이터를 추출하고,
상기 추출된 텍스트 데이터 및 상기 사용자의 의도에 기초하여 상기 확인된 객체에 관한 답변을 제공하는, 디바이스. - 제 10항에 있어서,
상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,
상기 사용자의 의도에 기초하여 검색어를 생성하고,
상기 생성된 검색어를 이용하여 검색한 검색 결과를 상기 객체에 관한 답변과 함께 제공하는, 디바이스. - 제 10항에 있어서,
상기 적어도 하나의 객체가 포함된 이미지를 디스플레이하는 디스플레이;
를 더 포함하고,
상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,
상기 이미지가 디스플레이 되는 동안 상기 디바이스의 마이크를 활성화하는, 디바이스. - 제 17항에 있어서,
상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,
상기 디스플레이된 이미지의 일부 영역을 선택하는 상기 사용자의 입력을 수신하고,
상기 수신된 음성 입력의 대상이 되는 상기 이미지 내의 객체를 상기 선택된 일부 영역 내에서 확인하고,
상기 결정된 사용자의 의도에 기초하여, 상기 선택된 일부 영역 내 상기 확인된 객체에 관한 답변을 제공하는, 디바이스. - 제 1항 내지 제9항 중 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
Priority Applications (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020170039303A KR102304701B1 (ko) | 2017-03-28 | 2017-03-28 | 사용자의 음성 입력에 대한 답변을 제공하는 방법 및 장치 |
| PCT/KR2018/002847 WO2018182201A1 (ko) | 2017-03-28 | 2018-03-09 | 사용자의 음성 입력에 대한 답변을 제공하는 방법 및 장치 |
| US16/489,485 US11227594B2 (en) | 2017-03-28 | 2018-03-09 | Method and device for providing response to voice input of user |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020170039303A KR102304701B1 (ko) | 2017-03-28 | 2017-03-28 | 사용자의 음성 입력에 대한 답변을 제공하는 방법 및 장치 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| KR20180109499A KR20180109499A (ko) | 2018-10-08 |
| KR102304701B1 true KR102304701B1 (ko) | 2021-09-24 |
Family
ID=63678215
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| KR1020170039303A Expired - Fee Related KR102304701B1 (ko) | 2017-03-28 | 2017-03-28 | 사용자의 음성 입력에 대한 답변을 제공하는 방법 및 장치 |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US11227594B2 (ko) |
| KR (1) | KR102304701B1 (ko) |
| WO (1) | WO2018182201A1 (ko) |
Families Citing this family (13)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20190207879A1 (en) * | 2017-12-28 | 2019-07-04 | Christian Chouchani | Transmitting a message based on machine learning systems |
| US10891951B2 (en) * | 2018-10-17 | 2021-01-12 | Ford Global Technologies, Llc | Vehicle language processing |
| KR102747289B1 (ko) | 2019-01-18 | 2024-12-31 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
| WO2020176112A1 (en) * | 2019-02-26 | 2020-09-03 | Google Llc | Reinforcement learning techniques for selecting a software policy network and autonomously controlling a corresponding software client based on selected policy network |
| US11238865B2 (en) * | 2019-11-18 | 2022-02-01 | Lenovo (Singapore) Pte. Ltd. | Function performance based on input intonation |
| KR102437760B1 (ko) | 2021-05-27 | 2022-08-29 | 이충열 | 컴퓨팅 장치에 의한 음향의 처리 방법, 영상 및 음향의 처리 방법 및 이를 이용한 시스템들 |
| CN113569712B (zh) * | 2021-07-23 | 2023-11-14 | 北京百度网讯科技有限公司 | 信息交互方法、装置、设备以及存储介质 |
| KR20230137814A (ko) | 2022-03-22 | 2023-10-05 | 이충열 | 컴퓨팅 장치와 연동하는 촬영 장치로부터 획득되는 영상을 처리하는 방법 및 이를 이용한 시스템 |
| CN116540972A (zh) * | 2023-03-13 | 2023-08-04 | 北京有竹居网络技术有限公司 | 用于问答的方法、装置、设备和存储介质 |
| CN116628150A (zh) * | 2023-05-04 | 2023-08-22 | 北京有竹居网络技术有限公司 | 用于问答的方法、装置、设备和存储介质 |
| US11990139B1 (en) * | 2023-10-09 | 2024-05-21 | Sandrew & Company, Llc | System that conducts dialogs using artificial intelligence |
| US12277635B1 (en) | 2023-12-07 | 2025-04-15 | Google Llc | User verification of a generative response to a multimodal query |
| US12437153B1 (en) * | 2025-01-10 | 2025-10-07 | Straightline.AI, Inc. | Persuasive conversational agents for selecting words and tonalities |
Family Cites Families (61)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8202094B2 (en) | 1998-02-18 | 2012-06-19 | Radmila Solutions, L.L.C. | System and method for training users with audible answers to spoken questions |
| US20030033266A1 (en) * | 2001-08-10 | 2003-02-13 | Schott Wade F. | Apparatus and method for problem solving using intelligent agents |
| US7496500B2 (en) * | 2004-03-01 | 2009-02-24 | Microsoft Corporation | Systems and methods that determine intent of data and respond to the data based on the intent |
| US7643985B2 (en) | 2005-06-27 | 2010-01-05 | Microsoft Corporation | Context-sensitive communication and translation methods for enhanced interactions and understanding among speakers of different languages |
| US8666928B2 (en) * | 2005-08-01 | 2014-03-04 | Evi Technologies Limited | Knowledge repository |
| US7603330B2 (en) | 2006-02-01 | 2009-10-13 | Honda Motor Co., Ltd. | Meta learning for question classification |
| US8275803B2 (en) | 2008-05-14 | 2012-09-25 | International Business Machines Corporation | System and method for providing answers to questions |
| US9147212B2 (en) * | 2008-06-05 | 2015-09-29 | Aisle411, Inc. | Locating products in stores using voice search from a communication device |
| KR101560834B1 (ko) | 2009-02-18 | 2015-10-15 | 삼성전자주식회사 | 음성 신호를 이용한 감정 인식 장치 및 방법 |
| US8930265B2 (en) * | 2010-01-29 | 2015-01-06 | Bank Of America Corporation | Monitoring retail transactions associated with a financial institution-based merchant offer program and determining savings metrics |
| US8998671B2 (en) | 2010-09-30 | 2015-04-07 | Disney Enterprises, Inc. | Interactive toy with embedded vision system |
| KR101756840B1 (ko) | 2011-05-27 | 2017-07-12 | 삼성전자주식회사 | 촬영 이미지를 이용한 의사 전달 방법 및 장치 |
| US20130132308A1 (en) | 2011-11-22 | 2013-05-23 | Gregory Jensen Boss | Enhanced DeepQA in a Medical Environment |
| US9311751B2 (en) * | 2011-12-12 | 2016-04-12 | Microsoft Technology Licensing, Llc | Display of shadows via see-through display |
| KR101590332B1 (ko) * | 2012-01-09 | 2016-02-18 | 삼성전자주식회사 | 영상장치 및 그 제어방법 |
| US9129591B2 (en) * | 2012-03-08 | 2015-09-08 | Google Inc. | Recognizing speech in multiple languages |
| US20130282360A1 (en) * | 2012-04-20 | 2013-10-24 | James A. Shimota | Method and Apparatus for Translating and Locating Services in Multiple Languages |
| CN103425640A (zh) | 2012-05-14 | 2013-12-04 | 华为技术有限公司 | 一种多媒体问答系统及方法 |
| KR20130133629A (ko) * | 2012-05-29 | 2013-12-09 | 삼성전자주식회사 | 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법 |
| US20130346068A1 (en) * | 2012-06-25 | 2013-12-26 | Apple Inc. | Voice-Based Image Tagging and Searching |
| US9547647B2 (en) * | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
| GB201219594D0 (en) * | 2012-10-31 | 2012-12-12 | Lancaster Univ Business Entpr Ltd | Text analysis |
| KR101995428B1 (ko) * | 2012-11-20 | 2019-07-02 | 엘지전자 주식회사 | 이동 단말기 및 그 제어방법 |
| US10134401B2 (en) * | 2012-11-21 | 2018-11-20 | Verint Systems Ltd. | Diarization using linguistic labeling |
| US20140142928A1 (en) * | 2012-11-21 | 2014-05-22 | Harman International Industries Canada Ltd. | System to selectively modify audio effect parameters of vocal signals |
| US9753986B2 (en) | 2012-12-17 | 2017-09-05 | International Business Machines Corporation | Multi-dimensional feature merging for supporting evidence in a question and answering system |
| CN103077165A (zh) * | 2012-12-31 | 2013-05-01 | 威盛电子股份有限公司 | 自然语言对话方法及其系统 |
| KR102158098B1 (ko) * | 2013-01-07 | 2020-09-22 | 삼성전자주식회사 | 이미지 인식을 이용한 이미지 레이아웃 방법 및 장치 |
| EP2821943A1 (en) * | 2013-07-03 | 2015-01-07 | Accenture Global Services Limited | Query response device |
| US20170163866A1 (en) * | 2013-07-24 | 2017-06-08 | Google Inc. | Input System |
| WO2015023751A1 (en) * | 2013-08-13 | 2015-02-19 | The Children's Hospital Philadelphia | Device for language processing enhancement in autism |
| US20150106205A1 (en) * | 2013-10-16 | 2015-04-16 | Google Inc. | Generating an offer sheet based on offline content |
| US9471834B1 (en) * | 2013-11-22 | 2016-10-18 | Google Inc. | System and method for updating map views |
| US10558325B2 (en) * | 2013-12-01 | 2020-02-11 | Upskill, Inc. | Systems and methods for controlling operation of an on-board component |
| US20150172285A1 (en) * | 2013-12-17 | 2015-06-18 | Mei Ling LO | Method for Accessing E-Mail System |
| US10467302B2 (en) | 2014-02-11 | 2019-11-05 | International Business Machines Corporation | Candidate answers for speculative questions in a deep question answering system |
| US9311525B2 (en) * | 2014-03-19 | 2016-04-12 | Qualcomm Incorporated | Method and apparatus for establishing connection between electronic devices |
| US20150370787A1 (en) * | 2014-06-18 | 2015-12-24 | Microsoft Corporation | Session Context Modeling For Conversational Understanding Systems |
| US20160027063A1 (en) * | 2014-07-23 | 2016-01-28 | OrCam Technologies, Ltd. | Targeted advertisements based on analysis of image information from a wearable camera |
| EP3007029B1 (en) * | 2014-10-07 | 2017-12-27 | LG Electronics Inc. | Mobile terminal and wearable device |
| KR102252072B1 (ko) * | 2014-10-14 | 2021-05-14 | 삼성전자주식회사 | 음성 태그를 이용한 이미지 관리 방법 및 그 장치 |
| US20160124937A1 (en) * | 2014-11-03 | 2016-05-05 | Service Paradigm Pty Ltd | Natural language execution system, method and computer readable medium |
| JP2016111406A (ja) * | 2014-12-02 | 2016-06-20 | ソニー株式会社 | 情報処理装置、情報処理方法及びプログラム |
| KR20160072639A (ko) * | 2014-12-15 | 2016-06-23 | 엘지전자 주식회사 | 이동 단말기 및 그 제어 방법 |
| CN104469319A (zh) * | 2014-12-18 | 2015-03-25 | 上海小蚁科技有限公司 | 一种图像采集与图像显示分离的方法及装置 |
| JP6520108B2 (ja) * | 2014-12-22 | 2019-05-29 | カシオ計算機株式会社 | 音声合成装置、方法、およびプログラム |
| EP3241123B1 (en) * | 2014-12-30 | 2022-09-28 | Harman International Industries, Incorporated | Voice recognition-based dialing |
| US20160260353A1 (en) * | 2015-03-04 | 2016-09-08 | Arjun Kundan Dhawan | Object recognition for the visually impaired |
| US9769367B2 (en) * | 2015-08-07 | 2017-09-19 | Google Inc. | Speech and computer vision-based control |
| KR20170022490A (ko) * | 2015-08-20 | 2017-03-02 | 엘지전자 주식회사 | 이동 단말기 및 그 제어방법 |
| US10331312B2 (en) * | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
| US9715490B2 (en) * | 2015-11-06 | 2017-07-25 | International Business Machines Corporation | Automating multilingual indexing |
| CN114663131A (zh) * | 2016-01-25 | 2022-06-24 | 索尼公司 | 通信系统、通信控制方法和计算机可读存储介质 |
| US10120882B2 (en) * | 2016-02-17 | 2018-11-06 | Google Llc | Methods, systems, and media for storing information associated with content presented on a media presentation device |
| US10140770B2 (en) * | 2016-03-24 | 2018-11-27 | Toyota Jidosha Kabushiki Kaisha | Three dimensional heads-up display unit including visual context for voice commands |
| JP6710562B2 (ja) * | 2016-03-29 | 2020-06-17 | 本田技研工業株式会社 | 受付システム及び受付方法 |
| US9918006B2 (en) * | 2016-05-20 | 2018-03-13 | International Business Machines Corporation | Device, system and method for cognitive image capture |
| US10418026B2 (en) * | 2016-07-15 | 2019-09-17 | Comcast Cable Communications, Llc | Dynamic language and command recognition |
| JP6827758B2 (ja) * | 2016-10-12 | 2021-02-10 | 東芝映像ソリューション株式会社 | 移動式アシスト装置及び移動式アシスト方法 |
| US11748978B2 (en) * | 2016-10-16 | 2023-09-05 | Ebay Inc. | Intelligent online personal assistant with offline visual search database |
| US10741174B2 (en) * | 2017-01-24 | 2020-08-11 | Lenovo (Singapore) Pte. Ltd. | Automatic language identification for speech |
-
2017
- 2017-03-28 KR KR1020170039303A patent/KR102304701B1/ko not_active Expired - Fee Related
-
2018
- 2018-03-09 WO PCT/KR2018/002847 patent/WO2018182201A1/ko not_active Ceased
- 2018-03-09 US US16/489,485 patent/US11227594B2/en active Active
Also Published As
| Publication number | Publication date |
|---|---|
| US11227594B2 (en) | 2022-01-18 |
| KR20180109499A (ko) | 2018-10-08 |
| WO2018182201A1 (ko) | 2018-10-04 |
| US20200066270A1 (en) | 2020-02-27 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| KR102304701B1 (ko) | 사용자의 음성 입력에 대한 답변을 제공하는 방법 및 장치 | |
| US11470385B2 (en) | Method and apparatus for filtering video | |
| KR102556492B1 (ko) | 텍스트와 연관된 이미지 제공 방법 및 이를 위한 전자 장치 | |
| CN112204655B (zh) | 用于通过使用应用输出对语音输入的响应的电子装置及其操作方法 | |
| KR20220020296A (ko) | 디바이스가 이미지를 보정하는 방법 및 그 디바이스 | |
| KR102718120B1 (ko) | 인공지능을 이용한 음성 대화 분석 방법 및 장치 | |
| KR20220140673A (ko) | 디바이스가 이미지를 보정하는 방법 및 그 디바이스 | |
| KR102491546B1 (ko) | 객체를 인식하는 방법 및 장치 | |
| US10825453B2 (en) | Electronic device for providing speech recognition service and method thereof | |
| KR102426435B1 (ko) | 사용자 입력에 기반한 문장을 제공하는 장치 및 방법 | |
| US20230134852A1 (en) | Electronic apparatus and method for providing search result related to query sentence | |
| KR102420567B1 (ko) | 음성 인식 장치 및 방법 | |
| KR20200042739A (ko) | 지식 그래프에 기초하여 콘텐트를 제공하는 시스템 및 방법 | |
| US20180285641A1 (en) | Electronic device and operation method thereof | |
| US11475218B2 (en) | Apparatus and method for providing sentence based on user input | |
| KR102430567B1 (ko) | 텍스트와 연관된 이미지 제공 방법 및 이를 위한 전자 장치 | |
| KR102384878B1 (ko) | 동영상을 필터링하는 방법 및 장치 | |
| US20190251355A1 (en) | Method and electronic device for generating text comment about content | |
| KR102628042B1 (ko) | 연락처 정보를 추천하는 방법 및 디바이스 | |
| KR20180054362A (ko) | 사용자의 음성 입력을 인식하는 방법 및 장치 | |
| US11617957B2 (en) | Electronic device for providing interactive game and operating method therefor | |
| KR102757491B1 (ko) | 동영상을 제작하는 방법 및 그에 따른 장치 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PA0109 | Patent application |
St.27 status event code: A-0-1-A10-A12-nap-PA0109 |
|
| PG1501 | Laying open of application |
St.27 status event code: A-1-1-Q10-Q12-nap-PG1501 |
|
| P22-X000 | Classification modified |
St.27 status event code: A-2-2-P10-P22-nap-X000 |
|
| P22-X000 | Classification modified |
St.27 status event code: A-2-2-P10-P22-nap-X000 |
|
| P22-X000 | Classification modified |
St.27 status event code: A-2-2-P10-P22-nap-X000 |
|
| P22-X000 | Classification modified |
St.27 status event code: A-2-2-P10-P22-nap-X000 |
|
| A201 | Request for examination | ||
| PA0201 | Request for examination |
St.27 status event code: A-1-2-D10-D11-exm-PA0201 |
|
| P22-X000 | Classification modified |
St.27 status event code: A-2-2-P10-P22-nap-X000 |
|
| P22-X000 | Classification modified |
St.27 status event code: A-2-2-P10-P22-nap-X000 |
|
| E902 | Notification of reason for refusal | ||
| PE0902 | Notice of grounds for rejection |
St.27 status event code: A-1-2-D10-D21-exm-PE0902 |
|
| P11-X000 | Amendment of application requested |
St.27 status event code: A-2-2-P10-P11-nap-X000 |
|
| P13-X000 | Application amended |
St.27 status event code: A-2-2-P10-P13-nap-X000 |
|
| E701 | Decision to grant or registration of patent right | ||
| PE0701 | Decision of registration |
St.27 status event code: A-1-2-D10-D22-exm-PE0701 |
|
| GRNT | Written decision to grant | ||
| PR0701 | Registration of establishment |
St.27 status event code: A-2-4-F10-F11-exm-PR0701 |
|
| PR1002 | Payment of registration fee |
St.27 status event code: A-2-2-U10-U11-oth-PR1002 Fee payment year number: 1 |
|
| PG1601 | Publication of registration |
St.27 status event code: A-4-4-Q10-Q13-nap-PG1601 |
|
| PC1903 | Unpaid annual fee |
St.27 status event code: A-4-4-U10-U13-oth-PC1903 Not in force date: 20240916 Payment event data comment text: Termination Category : DEFAULT_OF_REGISTRATION_FEE |
|
| PC1903 | Unpaid annual fee |
St.27 status event code: N-4-6-H10-H13-oth-PC1903 Ip right cessation event data comment text: Termination Category : DEFAULT_OF_REGISTRATION_FEE Not in force date: 20240916 |