KR102168802B1 - 상호 작용 장치 및 방법 - Google Patents
상호 작용 장치 및 방법 Download PDFInfo
- Publication number
- KR102168802B1 KR102168802B1 KR1020180112984A KR20180112984A KR102168802B1 KR 102168802 B1 KR102168802 B1 KR 102168802B1 KR 1020180112984 A KR1020180112984 A KR 1020180112984A KR 20180112984 A KR20180112984 A KR 20180112984A KR 102168802 B1 KR102168802 B1 KR 102168802B1
- Authority
- KR
- South Korea
- Prior art keywords
- action
- recognizing
- interaction
- gesture
- recognized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J11/00—Manipulators not otherwise provided for
- B25J11/0005—Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J13/00—Controls for manipulators
- B25J13/08—Controls for manipulators by means of sensing devices, e.g. viewing or touching devices
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1602—Programme controls characterised by the control system, structure, architecture
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1679—Programme controls characterised by the tasks executed
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1694—Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
- B25J9/1697—Vision controlled systems
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24143—Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/013—Eye tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/03—Arrangements for converting the position or the displacement of a member into a coded form
- G06F3/033—Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
- G06F3/038—Control and interface arrangements therefor, e.g. drivers or device-embedded control circuitry
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2203/00—Indexing scheme relating to G06F3/00 - G06F3/048
- G06F2203/01—Indexing scheme relating to G06F3/01
- G06F2203/011—Emotion or mood input determined on the basis of sensed human body parameters such as pulse, heart rate or beat, temperature of skin, facial expressions, iris, voice pitch, brain activity patterns
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2203/00—Indexing scheme relating to G06F3/00 - G06F3/048
- G06F2203/038—Indexing scheme relating to G06F3/038
- G06F2203/0381—Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L15/222—Barge in, i.e. overridable guidance for interrupting prompts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Ophthalmology & Optometry (AREA)
- Data Mining & Analysis (AREA)
- Automation & Control Theory (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- User Interface Of Digital Computer (AREA)
- Manipulator (AREA)
Abstract
Description
도 2는 본 발명의 일실시예에 따른 상호 작용 장치를 나타낸 블록도이다.
도 3은 본 발명의 일실시예에 따른 상호 작용 방법을 나타낸 동작흐름도이다.
도 4는 도 3에 도시된 교류 행위 인식 단계의 일 예를 세부적으로 나타낸 동작흐름도이다.
도 5는 본 발명의 일실시예에 따른 멀티 모달 정보와 교류 행위 인식 관계를 나타낸 블록도이다.
도 6은 본 발명의 일실시예에 따른 딥 러닝을 이용한 멀티 모달 정보와 교류 행위 인식 관계를 나타낸 블록도이다.
도 7은 본 발명의 일실시예에 따른 대상이 발언을 시작하려는 행위를 인식하는 케이스를 나타낸 도면이다.
도 8은 본 발명의 일실시예에 따른 대상이 상호 작용 장치의 발언을 기다려주는 행위를 인식하는 케이스를 나타낸 도면이다.
도 9는 본 발명의 일실시예에 따른 대상이 발언을 계속하려는 행위를 인식하는 케이스를 나타낸 도면이다.
도 10은 본 발명의 일실시예에 따른 대상이 발언을 멈추려는 행위를 인식하는 케이스를 나타낸 도면이다.
도 11은 본 발명의 일실시예에 따른 컴퓨터 시스템을 나타낸 도면이다.
100: 상호 작용 장치 110: 입력부
120: 인식부 130: 수행부
1100: 컴퓨터 시스템 1110: 프로세서
1120: 버스 1130: 메모리
1131: 롬 1132: 램
1140: 사용자 인터페이스 입력 장치
1150: 사용자 인터페이스 출력 장치
1160: 스토리지 1170: 네트워크 인터페이스
1180: 네트워크
Claims (20)
- 상호 작용 장치가 대상과 상호 작용하기 위해 상기 대상에 대한 영상 및 음성을 포함하는 멀티 모달 정보를 입력받는 입력부;
상기 멀티 모달 정보를 이용하여 상기 대상의 교류 행위를 인식하는 인식부; 및
상기 교류 행위를 인식한 결과에 기반하여 상기 대상과 상호 작용하기 위한 행위를 수행하는 수행부;
를 포함하고,
상기 인식부는
상기 상호 작용 장치가 발언 행위를 수행하는 동안에 입력 받은 상기 멀티 모달 정보를 이용하여 발언을 시작하려는 제1 행위 및 상기 상호 작용 장치의 발언을 기다려주는 제2 행위 중 어느 하나를 상기 교류 행위로 인식하되,
상기 멀티 모달 정보로부터 인식한 상기 대상의 입술 모양 및 제스처 중 어느 하나 이상이 부정적인 것으로 판단되는 경우, 상기 제1 행위를 상기 교류 행위로 인식하고,
상기 입술 모양 및 상기 제스처 중 어느 하나 이상이 긍정적인 것 판단되는 경우, 상기 제2 행위를 상기 교류 행위로 인식하고,
상기 수행부는
상기 교류 행위를 인식한 결과가 상기 제1 행위인 경우, 상기 발언 행위를 중지하고, 상기 교류 행위를 인식한 결과가 상기 제2 행위인 경우, 상기 발언 행위를 계속하는 것을 특징으로 하는 상호 작용 장치. - 청구항 1에 있어서,
상기 인식부는
상기 상호 작용 장치가 발언 행위를 수행하는 동안에 입력 받은 상기 대상에 대한 멀티 모달 정보 및 상기 대상이 발언 행위를 수행하는 동안에 입력 받은 상기 대상에 대한 멀티 모달 정보 중 어느 하나에 기반하여 상기 교류 행위를 인식하는 것을 특징으로 하는 상호 작용 장치. - 청구항 2에 있어서,
상기 인식부는
상기 멀티 모달 정보에 기반하여 상기 상호 작용 장치가 상기 대상의 네 가지 행위를 인식하고, 상기 네 가지 행위 중 어느 하나를 상기 교류 행위로 인식하는 것을 특징으로 하는 상호 작용 장치. - 청구항 3에 있어서,
상기 인식부는
상기 대상이 발언 행위를 수행하는 동안에 입력 받은 상기 대상에 대한 멀티 모달 정보를 이용하여 상기 대상이 발언을 계속하려는 행위 및 상기 대상이 발언을 멈추려는 행위 중 어느 하나를 상기 교류 행위로 인식하는 것을 특징으로 하는 상호 작용 장치. - 삭제
- 삭제
- 청구항 4에 있어서,
상기 인식부는
상기 대상의 입술이 열려 있는 상태를 상기 대상의 입술 상태로 인식하고, 상기 입술 모양으로부터 기설정된 단어를 인식하여 상기 대상이 발언을 시작하려는 행위 및 상기 대상이 상기 상호 작용 장치의 발언을 기다려주는 행위 중 어느 하나를 인식하는 것을 특징으로 하는 상호 작용 장치. - 청구항 7에 있어서,
상기 인식부는
상기 대상이 발언 행위를 수행하지 않는 동안 인식한 상기 대상의 입술이 열리는 빈도 및 상기 대상의 입술이 열려 있는 시간을 상기 대상의 입술 상태를 인식하기 위한 가중치로 설정하는 것을 특징으로 하는 상호 작용 장치. - 청구항 8에 있어서,
상기 인식부는
상기 멀티 모달 정보로부터 인식한 상기 대상의 제스처가 부정적인 제스처인 경우, 상기 대상이 발언을 시작하려는 행위로 인식하고 상기 대상의 제스처가 긍정적인 제스처인 경우, 상기 대상이 상기 상호 작용 장치의 발언을 기다려주는 행위로 인식하는 것을 특징으로 하는 상호 작용 장치. - 청구항 9에 있어서,
상기 인식부는
상기 대상의 제스처를 인식하기 위한 가중치에 상기 대상의 긍정적인 제스처보다 상기 대상의 부정적인 제스처에 높은 가중치를 설정하여 상기 대상이 발언을 시작하려는 행위의 인식 가능성을 높게 설정하는 것을 특징으로 하는 상호 작용 장치. - 상호 작용 장치의 상호 작용 방법에 있어서,
상기 상호 작용 장치가 대상과 상호 작용하기 위해 상기 대상에 대한 영상 및 음성을 포함하는 멀티 모달 정보를 입력받는 단계;
상기 멀티 모달 정보를 이용하여 상기 대상의 교류 행위를 인식하는 단계; 및
상기 교류 행위를 인식한 결과에 기반하여 상기 대상과 상호 작용하기 위한 행위를 수행하는 단계;
를 포함하고,
상기 인식하는 단계는
상기 상호 작용 장치가 발언 행위를 수행하는 동안에 입력 받은 상기 멀티 모달 정보를 이용하여 발언을 시작하려는 제1 행위 및 상기 상호 작용 장치의 발언을 기다려주는 제2 행위 중 어느 하나를 상기 교류 행위로 인식하되,
상기 멀티 모달 정보로부터 인식한 상기 대상의 입술 모양 및 제스처 중 어느 하나 이상이 부정적인 것으로 판단되는 경우, 상기 제1 행위를 상기 교류 행위로 인식하고,
상기 입술 모양 및 상기 제스처 중 어느 하나 이상이 긍정적인 것 판단되는 경우, 상기 제2 행위를 상기 교류 행위로 인식하고,
상기 수행하는 단계는
상기 교류 행위를 인식한 결과가 상기 제1 행위인 경우, 상기 발언 행위를 중지하고, 상기 교류 행위를 인식한 결과가 상기 제2 행위인 경우, 상기 발언 행위를 계속하는 것을 특징으로 하는 상호 작용 방법. - 청구항 11에 있어서,
상기 인식하는 단계는
상기 상호 작용 장치가 발언 행위를 수행하는 동안에 입력 받은 상기 대상에 대한 멀티 모달 정보 및 상기 대상이 발언 행위를 수행하는 동안에 입력 받은 상기 대상에 대한 멀티 모달 정보 중 어느 하나에 기반하여 상기 교류 행위를 인식하는 것을 특징으로 하는 상호 작용 방법. - 청구항 12에 있어서,
상기 인식하는 단계는
상기 멀티 모달 정보에 기반하여 상기 상호 작용 장치가 상기 대상의 네 가지 행위를 인식하고, 상기 네 가지 행위 중 어느 하나를 상기 교류 행위로 인식하는 것을 특징으로 하는 상호 작용 방법. - 청구항 13에 있어서,
상기 인식하는 단계는
상기 대상이 발언 행위를 수행하는 동안에 입력 받은 상기 대상에 대한 멀티 모달 정보를 이용하여 상기 대상이 발언을 계속하려는 행위 및 상기 대상이 발언을 멈추려는 행위 중 어느 하나를 상기 교류 행위로 인식하는 것을 특징으로 하는 상호 작용 방법. - 삭제
- 삭제
- 청구항 14에 있어서,
상기 인식하는 단계는
상기 대상의 입술이 열려 있는 상태를 상기 대상의 입술 상태로 인식하고, 상기 입술 모양으로부터 기설정된 단어를 인식하여 상기 대상이 발언을 시작하려는 행위 및 상기 대상이 상기 상호 작용 장치의 발언을 기다려주는 행위 중 어느 하나를 인식하는 것을 특징으로 하는 상호 작용 방법. - 청구항 17에 있어서,
상기 인식하는 단계는
상기 대상이 발언 행위를 수행하지 않는 동안 인식한 상기 대상의 입술이 열리는 빈도 및 상기 대상의 입술이 열려 있는 시간을 상기 대상의 입술 상태를 인식하기 위한 가중치로 이용하는 것을 특징으로 하는 상호 작용 방법. - 청구항 18에 있어서,
상기 인식하는 단계는
상기 멀티 모달 정보로부터 인식한 상기 대상의 제스처가 부정적인 제스처인 경우, 상기 대상이 발언을 시작하려는 행위로 인식하고 상기 대상의 제스처가 긍정적인 제스처인 경우, 상기 대상이 상기 상호 작용 장치의 발언을 기다려주는 행위로 인식하는 것을 특징으로 하는 상호 작용 방법. - 청구항 19에 있어서,
상기 인식하는 단계는
상기 대상의 제스처를 인식하기 위한 가중치에 상기 대상의 긍정적인 제스처보다 상기 대상의 부정적인 제스처에 높은 가중치를 설정하여 상기 대상이 발언을 시작하려는 행위의 인식 가능성을 높게 설정하는 것을 특징으로 하는 상호 작용 방법.
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020180112984A KR102168802B1 (ko) | 2018-09-20 | 2018-09-20 | 상호 작용 장치 및 방법 |
| US16/206,711 US10800043B2 (en) | 2018-09-20 | 2018-11-30 | Interaction apparatus and method for determining a turn-taking behavior using multimodel information |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020180112984A KR102168802B1 (ko) | 2018-09-20 | 2018-09-20 | 상호 작용 장치 및 방법 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| KR20200036089A KR20200036089A (ko) | 2020-04-07 |
| KR102168802B1 true KR102168802B1 (ko) | 2020-10-22 |
Family
ID=69884420
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| KR1020180112984A Active KR102168802B1 (ko) | 2018-09-20 | 2018-09-20 | 상호 작용 장치 및 방법 |
Country Status (2)
| Country | Link |
|---|---|
| US (1) | US10800043B2 (ko) |
| KR (1) | KR102168802B1 (ko) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US11824819B2 (en) | 2022-01-26 | 2023-11-21 | International Business Machines Corporation | Assertiveness module for developing mental model |
Families Citing this family (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US11762457B1 (en) | 2019-09-27 | 2023-09-19 | Apple Inc. | User comfort monitoring and notification |
| KR102576788B1 (ko) | 2020-08-21 | 2023-09-11 | 한국전자통신연구원 | 로봇 인터랙션 행위 생성 장치 및 방법 |
| US11049497B1 (en) * | 2020-10-26 | 2021-06-29 | Cresta Intelligence Inc. | Contemporaneous machine-learning analysis of audio streams |
| US11709795B2 (en) | 2020-11-12 | 2023-07-25 | Electronics And Telecommunications Research Institute | Electronic device including main processor and systolic array processor and operating method of electronic device |
| CN113460067B (zh) * | 2020-12-30 | 2023-06-23 | 安波福电子(苏州)有限公司 | 一种人车交互系统 |
| US12033656B2 (en) * | 2021-06-19 | 2024-07-09 | Kyndryl, Inc. | Diarisation augmented reality aide |
| CN115237255B (zh) * | 2022-07-29 | 2023-10-31 | 天津大学 | 一种基于眼动和语音的自然图像共指目标定位系统及方法 |
| US12393273B1 (en) | 2022-09-23 | 2025-08-19 | Apple Inc. | Dynamic recording of an experience based on an emotional state and a scene understanding |
| CN116301389B (zh) * | 2023-05-17 | 2023-09-01 | 广东皮阿诺科学艺术家居股份有限公司 | 一种基于深度学习的多模态智能家具控制方法 |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR100580619B1 (ko) * | 2002-12-11 | 2006-05-16 | 삼성전자주식회사 | 사용자와 에이전트 간의 대화 관리방법 및 장치 |
| KR101092820B1 (ko) * | 2009-09-22 | 2011-12-12 | 현대자동차주식회사 | 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템 |
Family Cites Families (27)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6594629B1 (en) * | 1999-08-06 | 2003-07-15 | International Business Machines Corporation | Methods and apparatus for audio-visual speech detection and recognition |
| US6795808B1 (en) * | 2000-10-30 | 2004-09-21 | Koninklijke Philips Electronics N.V. | User interface/entertainment device that simulates personal interaction and charges external database with relevant data |
| US20030171932A1 (en) * | 2002-03-07 | 2003-09-11 | Biing-Hwang Juang | Speech recognition |
| US20060206330A1 (en) | 2004-12-22 | 2006-09-14 | David Attwater | Mode confidence |
| US20070015121A1 (en) * | 2005-06-02 | 2007-01-18 | University Of Southern California | Interactive Foreign Language Teaching |
| US8046221B2 (en) * | 2007-10-31 | 2011-10-25 | At&T Intellectual Property Ii, L.P. | Multi-state barge-in models for spoken dialog systems |
| CN102160335B (zh) * | 2008-09-18 | 2015-01-28 | 皇家飞利浦电子股份有限公司 | 周围电话系统中的对话检测 |
| US8473420B2 (en) * | 2009-06-26 | 2013-06-25 | Microsoft Corporation | Computational models for supporting situated interactions in multi-user scenarios |
| KR101239274B1 (ko) * | 2009-07-06 | 2013-03-06 | 한국전자통신연구원 | 상호작용성 로봇 |
| US9015048B2 (en) * | 2012-11-30 | 2015-04-21 | At&T Intellectual Property I, L.P. | Incremental speech recognition for dialog systems |
| KR20140104537A (ko) | 2013-02-18 | 2014-08-29 | 한국전자통신연구원 | 생체 신호 기반의 감성 인터랙션 장치 및 방법 |
| US20150039312A1 (en) * | 2013-07-31 | 2015-02-05 | GM Global Technology Operations LLC | Controlling speech dialog using an additional sensor |
| US20150127340A1 (en) * | 2013-11-07 | 2015-05-07 | Alexander Epshteyn | Capture |
| EP2933070A1 (en) | 2014-04-17 | 2015-10-21 | Aldebaran Robotics | Methods and systems of handling a dialog with a robot |
| KR101559364B1 (ko) * | 2014-04-17 | 2015-10-12 | 한국과학기술원 | 페이스 투 페이스 인터랙션 모니터링을 수행하는 모바일 장치, 이를 이용하는 인터랙션 모니터링 방법, 이를 포함하는 인터랙션 모니터링 시스템 및 이에 의해 수행되는 인터랙션 모니터링 모바일 애플리케이션 |
| JP6739907B2 (ja) * | 2015-06-18 | 2020-08-12 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 機器特定方法、機器特定装置及びプログラム |
| KR102558873B1 (ko) | 2016-03-23 | 2023-07-25 | 한국전자통신연구원 | 상호 작용 장치 및 그것의 상호 작용 방법 |
| US20180054688A1 (en) * | 2016-08-22 | 2018-02-22 | Dolby Laboratories Licensing Corporation | Personal Audio Lifestyle Analytics and Behavior Modification Feedback |
| KR20180046649A (ko) | 2016-10-28 | 2018-05-09 | 한국과학기술연구원 | 멀티모달 지각을 이용한 사용자의 상호작용 의도 검출 시스템 및 이를 이용한 사용자의 상호작용 의도 검출 방법 |
| US9812151B1 (en) * | 2016-11-18 | 2017-11-07 | IPsoft Incorporated | Generating communicative behaviors for anthropomorphic virtual agents based on user's affect |
| US10467488B2 (en) * | 2016-11-21 | 2019-11-05 | TeleLingo | Method to analyze attention margin and to prevent inattentive and unsafe driving |
| JP6629172B2 (ja) | 2016-11-28 | 2020-01-15 | 日本電信電話株式会社 | 対話制御装置、その方法及びプログラム |
| US10959661B2 (en) * | 2017-04-05 | 2021-03-30 | The Curators Of The University Of Missouri | Quantification of bulbar function |
| WO2019040669A1 (en) * | 2017-08-22 | 2019-02-28 | Silicon Algebra, Inc. | METHOD FOR DETECTING EXPRESSIONS AND FACIAL EMOTIONS OF USERS |
| US10910001B2 (en) * | 2017-12-25 | 2021-02-02 | Casio Computer Co., Ltd. | Voice recognition device, robot, voice recognition method, and storage medium |
| US20190251957A1 (en) * | 2018-02-15 | 2019-08-15 | DMAI, Inc. | System and method for prediction based preemptive generation of dialogue content |
| US10997979B2 (en) * | 2018-06-21 | 2021-05-04 | Casio Computer Co., Ltd. | Voice recognition device and voice recognition method |
-
2018
- 2018-09-20 KR KR1020180112984A patent/KR102168802B1/ko active Active
- 2018-11-30 US US16/206,711 patent/US10800043B2/en active Active
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR100580619B1 (ko) * | 2002-12-11 | 2006-05-16 | 삼성전자주식회사 | 사용자와 에이전트 간의 대화 관리방법 및 장치 |
| KR101092820B1 (ko) * | 2009-09-22 | 2011-12-12 | 현대자동차주식회사 | 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템 |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US11824819B2 (en) | 2022-01-26 | 2023-11-21 | International Business Machines Corporation | Assertiveness module for developing mental model |
Also Published As
| Publication number | Publication date |
|---|---|
| US10800043B2 (en) | 2020-10-13 |
| KR20200036089A (ko) | 2020-04-07 |
| US20200094416A1 (en) | 2020-03-26 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| KR102168802B1 (ko) | 상호 작용 장치 및 방법 | |
| JP6818280B2 (ja) | 対話システム、対話方法、対話装置、およびプログラム | |
| US10019992B2 (en) | Speech-controlled actions based on keywords and context thereof | |
| US11017779B2 (en) | System and method for speech understanding via integrated audio and visual based speech recognition | |
| US10930303B2 (en) | System and method for enhancing speech activity detection using facial feature detection | |
| US9462230B1 (en) | Catch-up video buffering | |
| US11200902B2 (en) | System and method for disambiguating a source of sound based on detected lip movement | |
| EP4435710A1 (en) | Method and device for providing interactive avatar service | |
| US20190371318A1 (en) | System and method for adaptive detection of spoken language via multiple speech models | |
| JP6719739B2 (ja) | 対話方法、対話システム、対話装置、及びプログラム | |
| JP6970413B2 (ja) | 対話方法、対話システム、対話装置、およびプログラム | |
| CN106503786B (zh) | 用于智能机器人的多模态交互方法和装置 | |
| JP4505862B2 (ja) | 音声対話装置と音声対話方法及びそのプログラム | |
| Bilac et al. | Gaze and filled pause detection for smooth human-robot conversations | |
| KR20220023543A (ko) | 로봇 인터랙션 행위 생성 장치 및 방법 | |
| US20040095389A1 (en) | System and method for managing engagements between human users and interactive embodied agents | |
| JP4992218B2 (ja) | 情報処理装置および方法、並びにプログラム | |
| KR20250053015A (ko) | 로봇-휴먼 상호작용을 위한 발화 상황 인식 시스템 및 방법 | |
| KR20220029912A (ko) | 통역 상황 정보를 제공하는 방법 및 장치 | |
| JP6647636B2 (ja) | 対話方法、対話システム、対話装置、及びプログラム | |
| KR20250145925A (ko) | 로봇에서의 대화 상황 인식 장치 및 방법 | |
| JP2023149321A (ja) | 対話における失敗からの回復方法及びコンピュータプログラム | |
| KR20250095001A (ko) | 대화 기반 상호작용을 위한 대화형 로봇의 맞장구 시점 및 유형 예측 장치와 그 방법 | |
| JP2023149322A (ja) | 対話における失敗からの回復方法及びコンピュータプログラム | |
| JP2024172495A (ja) | 行動制御システム及びプログラム |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20180920 |
|
| PA0201 | Request for examination |
Patent event code: PA02012R01D Patent event date: 20181109 Comment text: Request for Examination of Application Patent event code: PA02011R01I Patent event date: 20180920 Comment text: Patent Application |
|
| E902 | Notification of reason for refusal | ||
| PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20200216 Patent event code: PE09021S01D |
|
| PG1501 | Laying open of application | ||
| E701 | Decision to grant or registration of patent right | ||
| PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20201013 |
|
| PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20201016 Patent event code: PR07011E01D |
|
| PR1002 | Payment of registration fee |
Payment date: 20201019 End annual number: 3 Start annual number: 1 |
|
| PG1601 | Publication of registration | ||
| PR1001 | Payment of annual fee |