[go: up one dir, main page]

WO2019235135A1 - タスク対応情報の表示位置を変更する情報処理装置 - Google Patents

タスク対応情報の表示位置を変更する情報処理装置 Download PDF

Info

Publication number
WO2019235135A1
WO2019235135A1 PCT/JP2019/018770 JP2019018770W WO2019235135A1 WO 2019235135 A1 WO2019235135 A1 WO 2019235135A1 JP 2019018770 W JP2019018770 W JP 2019018770W WO 2019235135 A1 WO2019235135 A1 WO 2019235135A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
task
user
unit
display
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP2019/018770
Other languages
English (en)
French (fr)
Inventor
悟士 尾崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to US15/733,826 priority Critical patent/US20210217412A1/en
Publication of WO2019235135A1 publication Critical patent/WO2019235135A1/ja
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Definitions

  • the present disclosure relates to an information processing apparatus, an information processing system, an information processing method, and a program. More specifically, the present invention relates to an information processing apparatus, an information processing system, an information processing method, and a program that perform processing and response based on a speech recognition result of a user utterance.
  • Devices that perform such voice recognition include mobile devices such as smartphones, smart speakers, agent devices, signage devices, and the like. In a configuration using smart speakers, agent devices, signage devices, etc., there are many cases where there are many people around these devices.
  • the voice recognition device needs to specify a speaker (speaking user) for the device, provide a service requested by the speaker, and specifically display, for example, display information requested by the speaker.
  • Patent Document 1 Japanese Patent Laid-Open No. 2000-187553
  • Japanese Patent Laid-Open No. 2000-187553 Japanese Patent Laid-Open No. 2000-187553
  • This document discloses a configuration in which a gaze position of a speaker is detected from an image taken by a camera or the like, and display information is controlled based on the detection result.
  • the present disclosure has been made in view of the above-described problems, for example, an information processing apparatus, an information processing system, and an information processing method that analyze attention information of a user and control display information based on the analysis result,
  • the purpose is to provide a program.
  • an information processing device even when there are a plurality of users, an information processing device, an information processing system, and information that analyze attention information of each user and control display information based on the analysis result It is an object to provide a processing method and a program.
  • the first aspect of the present disclosure is: A voice recognition unit that performs analysis processing of voice input via the voice input unit; An image analysis unit for performing analysis processing of a captured image input via the imaging unit; A task control / execution unit that executes processes according to user utterances; A display unit that outputs task correspondence information that is display information based on execution of a task in the task control / execution unit; The task control / execution unit The information processing apparatus changes the display position of the task correspondence information according to the user position.
  • the second aspect of the present disclosure is: An information processing system having an information processing terminal and a server,
  • the information processing terminal An audio input unit, an imaging unit, A task control / execution unit that executes processes according to user utterances;
  • a communication unit that transmits the voice acquired via the voice input unit and the captured image acquired via the imaging unit to the server;
  • the server Based on the received data from the information processing terminal, the utterance content of the utterer, the utterance direction, and the user position indicating the position of the user included in the camera-captured image is generated as analysis information,
  • the task control / execution unit of the information processing terminal The information processing system performs task execution and control using analysis information generated by the server.
  • the third aspect of the present disclosure is: An information processing method executed in an information processing apparatus,
  • the voice recognition unit executes analysis processing of voice input via the voice input unit
  • the image analysis unit executes analysis processing of a captured image input via the imaging unit
  • the task control / execution unit outputs task correspondence information, which is display information based on the execution of a task that executes processing according to the user's utterance, to the display unit, and changes the display position of the task correspondence information according to the user position
  • the fourth aspect of the present disclosure is: An information processing method executed in an information processing system having an information processing terminal and a server, The information processing terminal Send the voice acquired through the voice input unit and the captured image acquired through the imaging unit to the server, The server Based on the received data from the information processing terminal, the utterance content of the utterer, the utterance direction, and the user position indicating the position of the user included in the camera-captured image is generated as analysis information, The information processing terminal In the information processing method, the analysis information generated by the server is used to execute and control the task, and the display position of the task correspondence information is changed according to the user position generated by the server.
  • the fifth aspect of the present disclosure is: A program for executing information processing in an information processing apparatus; Let the voice recognition unit perform analysis processing of the voice input via the voice input unit, Let the image analysis unit perform analysis processing of the captured image input via the imaging unit, There is a program for causing the task control / execution unit to output task correspondence information, which is display information based on execution of a task according to a user utterance, to the display unit and to change the display position of the task correspondence information according to the user position. .
  • the program of the present disclosure is a program that can be provided by, for example, a storage medium or a communication medium provided in a computer-readable format to an information processing apparatus or a computer system that can execute various program codes.
  • a program in a computer-readable format, processing corresponding to the program is realized on the information processing apparatus or the computer system.
  • system is a logical set configuration of a plurality of devices, and is not limited to one in which the devices of each configuration are in the same casing.
  • an apparatus and a method for performing display control of task correspondence information by identifying a task of interest of a user are realized.
  • an image analysis unit that executes an analysis process of a captured image
  • a task control / execution unit that executes a process according to a user utterance
  • display information based on task execution in the task control / execution unit It has a display unit that outputs certain task correspondence information.
  • the task control / execution unit executes control to change the display position and display shape of the task correspondence information according to the user position and the user's face or line-of-sight direction.
  • FIG. 2 is a diagram illustrating a configuration example and a usage example of an information processing device. It is a figure explaining the structural example of the information processing apparatus of this indication. It is a figure explaining the structural example of the information processing apparatus of this indication. It is a figure explaining an example of the storage data of a user information database (DB). It is a figure explaining the structural example of the information processing apparatus of this indication. It is a figure explaining an example of the storage data of a task information database (DB). It is a figure explaining the specific example of the process which the information processing apparatus of this indication performs.
  • DB user information database
  • DB task information database
  • FIG. 11 is a diagram illustrating a flowchart for describing a sequence of processing executed by the information processing apparatus. It is a figure explaining the structural example of an information processing system.
  • FIG. 25 is a diagram for describing an example hardware configuration of an information processing device.
  • FIG. 1 is a diagram illustrating a processing example of an information processing apparatus 10 that recognizes and responds to a user utterance made by a speaker 1.
  • the information processing apparatus 10 executes processing based on the speech recognition result of the user utterance.
  • the information processing apparatus 10 displays an image indicating weather information and performs the following system response.
  • System response “Tomorrow in Osaka, the afternoon weather is fine, but there may be a shower in the evening.”
  • the information processing apparatus 10 executes speech synthesis processing (TTS: Text To Speech) to generate and output the system response.
  • TTS Text To Speech
  • the information processing apparatus 10 generates and outputs a response using knowledge data acquired from a storage unit in the apparatus or knowledge data acquired via a network.
  • An information processing apparatus 10 illustrated in FIG. 1 includes an imaging unit 11, a microphone 12, a display unit 13, and a speaker 14, and has a configuration capable of audio input / output and image input / output.
  • the imaging unit 11 is, for example, an omnidirectional camera that can capture an image of approximately 360 ° around.
  • the microphone 12 is configured as a microphone array including a plurality of microphones that can specify the sound source direction.
  • the display unit 13 is an example using a projector-type display unit. However, the display unit 13 may be a display-type display unit, or may be configured to output display information to a display unit such as a TV or a PC connected to the information processing apparatus 10.
  • the information processing apparatus 10 illustrated in FIG. 1 is called, for example, a smart speaker or an agent device.
  • the information processing apparatus 10 according to the present disclosure is not limited to the agent device 10 a but may be various device forms such as a smartphone 10 b and a PC 10 c, or a signage device installed in a public place. Is possible.
  • the information processing apparatus 10 recognizes the utterance of the speaker 1 and makes a response based on the user's utterance, and also executes control of the external device 30 such as a television and an air conditioner shown in FIG. 2 according to the user's utterance. For example, when the user utterance is a request such as “change the TV channel to 1” or “set the air conditioner temperature to 20 degrees”, the information processing apparatus 10 determines whether the user utterance is based on the voice recognition result of the user utterance. A control signal (Wi-Fi, infrared light, etc.) is output to the external device 30 to execute control according to the user utterance.
  • Wi-Fi Wi-Fi, infrared light, etc.
  • the information processing apparatus 10 is connected to the server 20 via the network, and can acquire information necessary for generating a response to the user utterance from the server 20. Moreover, it is good also as a structure which makes a server perform a speech recognition process and a semantic analysis process.
  • FIG. 3 is a block diagram illustrating an external configuration and an internal configuration of the information processing apparatus 100 that recognizes a user utterance and performs processing and a response corresponding to the user utterance.
  • the information processing apparatus 100 illustrated in FIG. 3 corresponds to the information processing apparatus 10 illustrated in FIG.
  • the information processing apparatus 100 includes a voice input unit 101, an imaging unit 102, a voice recognition unit 110, an image analysis unit 120, a user information DB 131, a task control / execution unit 140, a task information DB 151, and an output control unit. 161, an audio output unit 162, a display unit 163, and a communication unit 171.
  • the communication unit 171 communicates with an external device such as a server that provides various information and applications via the network 180.
  • the voice input unit (microphone) 101 corresponds to the microphone 12 of the information processing apparatus 100 shown in FIG.
  • the voice input unit (microphone) 101 is configured as a microphone array including a plurality of microphones that can specify the sound source direction.
  • the imaging unit 102 corresponds to the imaging unit 11 of the information processing apparatus 10 illustrated in FIG. For example, it is an omnidirectional camera that can capture an image of approximately 360 ° around.
  • the audio output unit (speaker) 162 corresponds to the speaker 14 of the information processing apparatus 10 illustrated in FIG.
  • the display unit 163 corresponds to the display unit 13 of the information processing apparatus 10 illustrated in FIG.
  • it can be configured by a projector or the like, and can also be configured using a television display unit of an external device.
  • the display unit 163 has a rotatable configuration, and the display position by the projector can be set in various directions.
  • the user's uttered voice is input to the voice input unit 101 such as a microphone.
  • the voice input unit (microphone) 101 inputs the input user utterance voice to the voice recognition unit 110.
  • the imaging unit 102 captures an image of the uttering user and the surrounding image and inputs the captured image to the image analysis unit 120.
  • the image analysis unit 120 detects the utterance user or other user's face, and executes the position, line-of-sight direction, user identification, and the like of each user.
  • the configuration and processing of the speech recognition unit 110 and the image analysis unit 120 will be described in detail with reference to FIG.
  • FIG. 4 is a block diagram showing the detailed configuration of the speech recognition unit 110 and the image analysis unit 120.
  • the voice recognition unit 110 includes a voice detection unit 111, a voice direction estimation unit 112, and an utterance content recognition recognition unit 113.
  • the image analysis unit 120 includes a face detection unit 121, a user position estimation unit 122, a face / gaze direction estimation unit 123, a face identification unit 124, and an attribute discrimination processing unit 125.
  • the voice recognition unit 110 will be described.
  • the voice detection unit 111 detects and extracts a voice that is estimated to be a human utterance from various sounds input from the voice input unit 101.
  • the voice direction estimation unit 112 estimates the direction of the user who made the utterance, that is, the voice direction.
  • the voice input unit (microphone) 101 is configured as a microphone array including a plurality of microphones that can specify the sound source direction.
  • the acquired sound of the microphone array is acquired sound of a plurality of microphones arranged at a plurality of different positions.
  • the sound source direction estimation unit 112 estimates the sound source direction based on the acquired sounds of the plurality of microphones. Each microphone constituting the microphone array acquires a sound signal having a phase difference according to the sound source direction. This phase difference varies depending on the sound source direction.
  • the sound direction estimation unit 112 obtains the sound source direction by analyzing the phase difference between the sound signals acquired by the microphones.
  • the utterance content recognition / recognition unit 113 has, for example, an ASR (Automatic Speech Recognition) function, and converts speech data into text data composed of a plurality of words. Furthermore, an utterance semantic analysis process is performed on the text data.
  • the utterance content recognition / recognition unit 113 has a natural language understanding function such as NLU (Natural Language Understanding), for example, and an intention (intent) of a user utterance from text data or a meaningful element included in the utterance ( Entity information that is a significant element) is estimated.
  • NLU Natural Language Understanding
  • the intention (intent) and the entity information (entity) can be accurately estimated and acquired from the user utterance, accurate processing for the user utterance can be performed. For example, in the above example, tomorrow's afternoon weather in Osaka can be obtained and output as a response.
  • the voice direction information of the user utterance estimated by the voice direction estimation unit 112 and the contents of the user utterance analyzed by the utterance content recognition / recognition unit 113 are stored in the user information DB 131.
  • a specific example of data stored in the user information DB 131 will be described later with reference to FIG.
  • the image analysis unit 120 includes a face detection unit 121, a user position estimation unit 122, a face / gaze direction estimation unit 123, a face identification unit 124, and an attribute discrimination processing unit 125.
  • the face detection unit 121 detects a human face area from the captured image of the imaging unit 102. This process is performed by applying an existing method such as a collation process with face feature information (pattern information) registered in the storage unit in advance.
  • the user position estimation unit 122 estimates the position of the face detected by the face detection unit 121.
  • the distance and direction from the information processing apparatus are calculated from the position and size of the face in the image, and the position of the user's face is determined.
  • the position information is relative position information with respect to the information processing apparatus, for example. In addition, it is good also as a structure using sensor information, such as a distance sensor and a position sensor.
  • the face / gaze direction estimation unit 123 estimates the face direction and gaze direction detected by the face detection unit 121.
  • the face direction and the line-of-sight direction are detected by detecting the position of the eyes of the face, the pupil position of the eyes, and the like.
  • the face identification unit 124 sets an identifier (ID) for each face detected by the face detection unit 121. When a plurality of faces are detected in the image, a unique identifier that can be distinguished from each other is set.
  • the user information DB 131 stores pre-registered face information, and when a matching face is identified by comparison and collation processing with the registered face information, the user name (registered name) is also identified. .
  • the attribute attribute determination processing unit 125 acquires attribute information for each user identified by the face identification unit 124, for example, user attribute information such as age and sex. This attribute acquisition process can be executed by estimating the attribute, for example, whether it is an adult or a child, a male or a female, based on the photographed image. Further, when the face identified by the face identifying unit 124 has been registered in the user information DB 131 and the attribute information of the user has been recorded in the DB, this DB registration data may be acquired.
  • the face detection unit 121 of the image analysis unit 120, the user position estimation unit 122, the face / gaze direction estimation unit 123, the face identification unit 124, the attribute discrimination processing unit 125, and the acquisition method for each of these components are stored in the user information DB 131. be registered.
  • the user information DB 131 includes a user ID, a user name, a user position, a user's face (line of sight) direction, a user's age, a user's gender, a user's utterance content, and a task being operated by the user.
  • a task ID is registered.
  • the user ID, the user name, the user position, the user's face (line of sight) direction, the user's age, the user's gender, and these pieces of information are information acquired by the image analysis unit 120.
  • the user's utterance content is information acquired by the voice recognition unit 110.
  • the task ID of the task being operated by the user is information registered by the task / control / execution unit 140.
  • the user position (X, Y, Z) is defined by defining, for example, a certain point in the information processing apparatus 100 as the origin, the front direction of the information processing apparatus 100 as the Z axis, the left and right direction as the X axis, and the vertical direction as the Y axis.
  • the calculated three-dimensional coordinate position of the user For example, ( ⁇ , ⁇ ) shown as registered data of the user's face (line of sight) direction is an image of the angle formed by the camera direction of the imaging unit 102 and the face (line of sight) direction on the XZ plane, on the YZ plane. This is angle data in which the angle formed by the camera direction of the unit 102 and the face (line of sight) direction is ⁇ .
  • user information registered in advance for example, a face image, a name, and other attributes (age, gender, etc.) are stored in association with the user ID. Yes.
  • the face detected from the captured image of the imaging unit 102 matches the registered face image, the user attribute can be acquired from the registered information.
  • the task control / execution unit 140 controls tasks executed in the information processing apparatus 100.
  • the task is a task executed in the information processing apparatus 100, and includes, for example, various tasks as follows. Sightseeing point search task, Restaurant search task, Weather information provision task, Traffic information provision task, Music information provision task,
  • These tasks can be executed using information and applications stored in the task information DB 151 of the information processing apparatus 100.
  • an external information providing server, an application execution server, or the like, and a communication unit 171 are used. It is also possible to perform communication using the network 180 and use external information (data or application). A specific task execution example will be described in detail later.
  • the task control / execution unit 140 includes an utterance user identification unit 141, a visual task identification unit 142, a target task execution unit 143, a related task update unit 144, and a display position / shape determination unit 145.
  • the utterance user specifying unit 141 performs processing for specifying the face of the user who is speaking from the face included in the captured image of the imaging unit 102. This process is performed using user position information associated with the utterance content stored in the user information DB 131. You may perform as a process which specifies the user of the face in the direction using the estimation information of an utterance direction.
  • the visual recognition task specifying unit 142 performs a process of specifying a display task that the user is viewing included in the captured image of the imaging unit 102. This process is executed using user position information and face (line of sight) direction information stored in the user information DB 131. In the display unit 163, for example, Sightseeing point search task, Restaurant search task, There are cases where two tasks are displayed side by side.
  • the visual task identification unit 142 identifies which task the user is viewing in the captured image of the imaging unit 102 is. Specific examples will be described in detail later.
  • the target task execution unit 143 specifies, for example, a task that the user is viewing or a task whose display is changed based on the user's utterance, and executes processing related to the task.
  • the related task update unit 144 executes, for example, task update processing related to the task being executed.
  • the display position / shape determining unit 145 determines the display position and shape of the task being displayed on the display unit 163, and updates the display information to the determined position and shape. A specific example of processing executed by these processing units will be described in detail later.
  • the task information DB 151 stores data related to tasks executed in the information processing apparatus 100, for example, information to be displayed on the display unit 163, applications for task execution, and the like. Furthermore, information (task information table) relating to the task currently being executed is also stored.
  • FIG. 7 shows an example of information (task information table) related to a task currently being executed that is stored in the task information DB 151.
  • task ID As shown in FIG. 7, task ID, task name, task data display area, task icon display area, related task ID, operation user ID, last viewing time, task as information on the currently executing task (task information table)
  • Unique information and these data are recorded in association with each other.
  • the lower part of FIG. 7 shows a display example of task data (tourist spot search task) 201 and task icon 202 as an example of display information 200 displayed on display unit 163.
  • the task ID and task name are the ID and task name of the task currently displayed on the display unit 163.
  • the task data display area and the task icon display area are data indicating a task data display area and a task icon display area of the task currently displayed on the display unit 163.
  • x, y, w, and h are pixel values on the display screen, for example, and represent an area having a width and height of (w, h) pixels from the position of the pixel (x, y).
  • the related task is information on a task being executed, specifically, for example, a task related to a task displayed on the display unit 163.
  • the ID of the task displayed side by side on the display unit 163 is recorded.
  • the operation user ID the user ID of the user who is executing the operation request for the task currently displayed on the display unit 163 is recorded.
  • the last viewing time the last time information when the user visually recognizes the task being displayed on the display unit 163 is recorded.
  • the task unique information unique information regarding the task being displayed on the display unit 163 is recorded.
  • the output control unit 161 controls audio and display information output via the audio output unit 162 and the display unit 163. System utterance output via the voice output unit 162, task data output to the display unit 163, display control of task icons, and the like are executed.
  • the voice output unit 162 is a speaker, and outputs the voice of the system utterance.
  • the display unit 163 is a display unit that uses a projector, for example, and displays various task data, task icons, and the like.
  • FIG. 8 shows an example of processing when there are two users A and 301 and users B and 302 in front of the information processing apparatus 100, and the users A and 301 perform the following user utterances.
  • User utterance recommended tourist spots in Enoshima
  • the voice recognition unit 110 of the information processing apparatus 100 performs voice recognition processing of the user utterance and stores the voice recognition result in the user information DB 131. Based on the user utterance stored in the user information DB 131, the task control / execution unit 140 determines that the user is requesting information presentation regarding recommended sightseeing spots in Enoshima, and executes a sightseeing spot search task.
  • the display information 200 based on the sightseeing spot information acquired by executing the sightseeing spot information search application acquired from the task information DB 151 or the external sightseeing spot information providing server is generated and output to the display unit 163. .
  • the display information 200 includes sightseeing spot information 210 that is execution result data of a sightseeing spot search task, and a sightseeing spot search task icon 211 indicating that the display information is an execution result of the sightseeing spot search task.
  • the tourist spot information 210 includes tourist spot map information 212 and recommended spot information (photographs, explanations, etc.) 213 as display data.
  • the voice recognition unit 110 analyzes the utterance direction of the user utterance (direction from the information processing apparatus 100). Furthermore, the image analysis unit 120 analyzes the position and face (line of sight) direction of the users A and 301 who have made the above-mentioned user utterance. These analysis results are stored in the user information DB 131.
  • the display information 200 of the display unit is in a state in which the sightseeing spot information 210 including the map information 212 near the Enoshima island and the recommended spot information 213 is displayed on the entire screen.
  • the voice recognition unit 110 of the information processing apparatus 100 performs voice recognition processing of the user utterance and stores the voice recognition result in the user information DB 131.
  • the user B, 302 does not use the place name “Enoshima” but uses the word “the neighborhood”, but the speech recognition unit 110 utters the user A, 301 just before the user B, 302 speaks. Since “Enoshima” is included in the list, the intention of the users B and 302 is determined to be “tell me a restaurant where delicious fish near Enoshima can be eaten”, and the utterance content including the intention information is the user information. Register in the DB 131.
  • the task control / execution unit 140 determines that the user is requesting information presentation regarding a restaurant where delicious fish near Enoshima can be eaten, and performs a restaurant search task. Execute.
  • restaurant information 220 based on restaurant information acquired by executing a restaurant information search application acquired from the task information DB 151 or an external restaurant information providing server is generated and output to a part of the display unit 163. .
  • the task control / execution unit 140 reduces the tourist spot information 210 already displayed in the entire display area of the display unit 163 to the left half display area, and displays the restaurant information 220 in the right half area.
  • the task control / execution unit 140 executes a display control process in which the position of each information display area is set to an area close to the position of the user who requested the provision of the information. These processes are executed by the display position / shape determination unit 145 of the task control / execution unit 140.
  • the sightseeing spot information 210 is displayed in a display area close to the users A and 301 who have requested presentation of sightseeing spot information
  • the restaurant information 220 is displayed in a display area close to the users B and 302 who have requested presentation of restaurant information.
  • the user position information of each user is acquired from the registration information in the user information DB 131.
  • the speech recognition unit 110 analyzes the utterance direction of the user utterance (direction from the information processing apparatus 100) in response to the user utterance from the users B and 302. Further, the image analysis unit 120 analyzes the position and face (line of sight) direction of the users B and 302 who have made the above-described user utterance. These analysis results are stored in the user information DB 131.
  • the display information 200 of the display unit displays the sightseeing spot information 210 near Enoshima in the left half area on the user A side, and the restaurant information 220 near Enoshima in the right half area on the user B side. It becomes a state.
  • the task control / execution unit 140 records two tasks currently being executed, that is, a sightseeing spot search task and a restaurant search task as related tasks in both task information registration information. That is, registration information in which the related task ID as shown in FIG. 7 is recorded is registered in the task information DB 151.
  • the task control / execution unit 140 not only determines a task being executed in parallel as a related task, but also, for example, factors such as region and time common to two utterances that have triggered two tasks. Even if is included, it is determined that the two tasks are related tasks, and the related task ID is registered in the task information DB 151. The utterance content is acquired with reference to the registration information in the user information DB 131. For example, even when the utterance of the user A is an utterance related to “Enoshima” and the utterance of the user B is also an utterance related to “Enoshima”, it is determined that the two tasks executed based on the two utterances are related tasks. The Note that the processing related to these related tasks is executed by the related task update unit 144 of the task control / execution unit 140.
  • This user movement is analyzed by the image analysis unit 120 that analyzes the captured image of the imaging unit 102, and new user position information is registered in the user information DB 131.
  • the task control / execution unit 140 executes display information update processing for changing the display position of the display information on the display unit 163 based on the update of the user position information registered in the user information DB 131. This processing is executed by the display position / shape determining unit 145 of the task control / execution unit 140.
  • the tourist area information 210 is displayed on the right display area near the users A and 301 who have requested presentation of the tourist area information
  • the restaurant information 220 is displayed on the left side near the users B and 302 who have requested the presentation of restaurant information.
  • the display position changing process to be displayed is executed.
  • the display position changing process according to the user position can be set such that the user position is always tracked and the display position is sequentially changed based on the tracking information.
  • control may be performed so that the display position does not frequently change by providing a certain degree of hysteresis.
  • FIG. 11 shows an example in which the user B moves from the right side of the user A to the left side.
  • the display unit displays the data a as the execution result of the task a requested by the user A on the left side, and the execution result of the task b requested by the user B on the right side.
  • Data b is displayed.
  • the display positions of the data a and b are not changed. As shown in the figure, the display position of the data a and b is changed when it is confirmed that the distance L1 between AB is equal to or greater than the specified threshold value Lth.
  • (Processing example 2) shows an example in which the user B moves from the left side of the user A to the right side. Also in this case, when the user B moves from the left side to the right side of the user A and the user B becomes the right side of the user A, the display positions of the data a and b are not changed. As shown in the figure, the display position of the data a and b is changed when it is confirmed that the distance L2 between AB is equal to or greater than the specified threshold value Lth. By performing such processing, it is possible to prevent the display data from being changed from being displayed frequently and the display data from being difficult to see.
  • FIG. 12 illustrates an example of a display image when the user A is located on the left side from the front of the display image of the display unit 163.
  • the task control / execution unit 140 deforms and displays the display image. That is, for example, when it is determined that the position of the user A and the angle of the projection plane are shallow and it is difficult to view, the display mode of the display data that is the execution result of the task is changed so that the user A looks optimal.
  • the transformation target data is a task executed at the request of the user A.
  • the task control / execution unit 140161 which is the tourist spot information 210 output in the left half area of the display information 200,
  • the display data of the sightseeing spot information 210 is transformed and displayed so as to be optimally viewed from the user A.
  • this modified display process may be performed only when only the user A is viewing the sightseeing spot information 210.
  • the display image is not deformed.
  • the task control / execution unit 140 acquires the position information and face (gaze) direction data of each user recorded in the user information DB 131, determines the data that the user is paying attention to, and executes these controls.
  • transformation aspect of a display image has not only the setting shown in FIG. 12, but various settings as shown, for example in FIG.
  • FIG. 12A is an example of display data when the user looks up at the display image from below.
  • FIG. 12B is an example of display data when the user is viewing the display image sideways.
  • FIG. 12C is an example of display data when the user is viewing the display image upside down. In either case, the image is transformed and displayed so as to be optimally viewed from the user's viewpoint.
  • FIG. 14 illustrates a state in which sightseeing spot information 210 that is the execution result of the request task of user A and restaurant information 220 that is the execution result of the request task of user B are displayed side by side. Both the sightseeing spot information 210 and the restaurant information 220 are information on the same area. In such a case, the map information that can be used in common with the two pieces of information is displayed in a large size across the two information display areas. That is, large common map information 231 is displayed as shown in the figure. By performing such display processing, both the users A and B can observe a large map.
  • User utterance showing number 3
  • the speech recognition unit 110 of the information processing apparatus 100 analyzes that the intention of the users B and 302 is to show the number 3 and records this user utterance content in the user information DB 131. To do.
  • the task control / execution unit 140 executes processing according to the intention of the user B, 302 “I want you to show No. 3”. As shown in the figure, the task control / execution unit 140 also has restaurant information 210 as well as restaurant information. 220 also has the same first to third selection items.
  • the task control / execution unit 140 determines whether the user B is paying attention to the sightseeing spot information 210 or the restaurant information 220 at the utterance timing of the users B and 302. That is, at the utterance timing of the users B and 302, it is determined to which side of the sightseeing spot information 210 or the restaurant information 220 the line of sight of the users B and 302 is directed, and task control is performed according to the determination result.
  • the third data on the sightseeing spot information 210 side is processed.
  • the third data on the restaurant information 220 side is processed.
  • the task control / execution unit 140 for example, which of the line-of-sight determination areas 251 and 252 set on the display screen has the face (line-of-sight) direction of the user B, 302 as shown in FIG. The process which determines is performed.
  • the task control / execution unit 140 executes the task on the sightseeing spot information 210 side. Determine that you are requesting.
  • the face (line of sight) direction of the users B and 302 is within the line-of-sight determination area 252 on the restaurant information 220 side, it is determined that the users B and 302 are requesting task execution on the restaurant information 220 side.
  • a line passing through the center of the information processing apparatus 100 from the center O of the display information 200 display surface in the left-right direction is defined as the z axis
  • a line parallel to the display surface of the display information 200 and passing through the center of the information processing apparatus 100 is defined as the x axis.
  • F ⁇ [rad] angle formed by the x-axis and the user face center
  • Fx [mm] distance on the x-axis from the information processing device center to the user face center
  • Fz [mm] z from the information processing device center to the user face center
  • V ⁇ [rad] Angle in the user face (line of sight) direction (device direction is 0 degree)
  • Sz [mm] Distance between the information processing apparatus and display information (projection plane).
  • the values of F ⁇ , Fx, Fz, and V ⁇ are values that can be acquired from the face position information and face (line of sight) direction information recorded in the user information DB 131.
  • Sz is a value that can be acquired from the projector control parameter of the display unit 163. Note that some of these parameters may be measured using a distance sensor included in the information processing apparatus 100.
  • Equation 1 is an equation for calculating the distance in the horizontal direction (x direction) from O of the intersection point P of the display information 200 display surface.
  • the distance in the direction (y direction), that is, Cy [mm] can also be calculated using known parameters.
  • the task B / 302 is displayed on the sightseeing spot information 210 side. It is determined that the task execution is requested, and processing related to the task on the sightseeing spot information 210 side is executed. On the other hand, when the coordinates (x, y) are within the line-of-sight determination area 252 on the restaurant information 220 side, the user B and 302 determine that the task execution on the restaurant information 220 side is requested, and the restaurant information 220 side Execute processing related to the task.
  • the determination may be difficult depending on the setting of the line-of-sight determination region.
  • the example shown in FIG. 17 is an example in which a rectangular area centered on the icon of each task is set as the line-of-sight determination area.
  • the user's line-of-sight vector enters one of the line-of-sight determination areas. It becomes possible to determine the requested task without any problem.
  • the task control / execution unit 140 executes the requested task determination process using the center line of the two icons as the determination dividing line.
  • the process for the sightseeing spot search task is executed, and if it is on the right side, the process for the restaurant search task is executed.
  • FIG. 18 is a processing example when the user B, 302 utters the following utterance while changing the line-of-sight direction at any time.
  • User utterance There is something recommended near (3) (while looking at direction 2 (restaurant information)) (while looking at direction 2 (restaurant information)).
  • the task control / execution unit 140 When there is such a user utterance, the task control / execution unit 140 first determines the user gaze direction at the utterance timing of “No. 3”. In this case, the user's line-of-sight direction at the “3rd” utterance timing is direction 1 (tourist spot information). Therefore, it is determined that “No. 3” included in the user utterance is No. 3 on the sightseeing spot information side. Next, the user's line-of-sight direction at the utterance timing of “something is recommended” is determined. In this case, the user's line-of-sight direction at the utterance timing “something is recommended” is direction 2 (restaurant information). Therefore, it is determined that “something is recommended” included in the user utterance is a request for restaurant information. In this way, the task control / execution unit 140 determines the user's attention task (visual task) by detecting the user's line-of-sight direction in units of words included in the user utterance.
  • FIG. 18 also shows another utterance example of the users B and 302. It is the following utterance.
  • User's utterance (While looking at direction 1 (sightseeing spot information)) There is a recommended restaurant near No. 3 there.
  • the task control / execution unit 140 first determines the user's line-of-sight direction at the “third” utterance timing.
  • the user's line-of-sight direction at the “3rd” utterance timing is direction 1 (tourist spot information). Therefore, it is determined that “No. 3” included in the user utterance is No. 3 on the sightseeing spot information side.
  • the user's line-of-sight direction at the utterance timing of “some recommended restaurant” is determined.
  • the user's line-of-sight direction at the utterance timing of “something recommended restaurant” is also direction 1 (tourist information), but from the intention of “something recommended restaurant” included in the user utterance, Determine that it is a request.
  • the task control / execution unit 140 executes task control based on the user's request in consideration of not only the gaze direction but also the intention of the user's utterance.
  • FIG. 19 is a diagram illustrating another process example of task control by the task control / execution unit 140.
  • the example shown in FIG. 19 is also a processing example when the user B, 302 performs the following utterance while changing the line-of-sight direction as needed.
  • the task control / execution unit 140 first determines the user gaze direction of the utterance timing of “the neighborhood”.
  • the user's line-of-sight direction at the utterance timing of “the neighborhood” is direction 1 (tourist spot information). Therefore, it is determined that the “side” included in the user utterance is an area presented on the sightseeing spot information side.
  • the user's line-of-sight direction at the utterance timing of “something is recommended” is determined.
  • the user's line-of-sight direction at the utterance timing “something is recommended” is direction 2 (restaurant information). Therefore, it is determined that “something is recommended” included in the user utterance is a request for restaurant information.
  • Various information other than the display information is associated with the information displayed as the execution result of each task. For example, there are various information such as location address information, arrival time information when using transportation, recommended music information, and the like.
  • the task control / execution unit 140 can perform a response to the user utterance using the associated information.
  • the task control / execution unit 140 executes a restaurant search task using information associated with the displayed sightseeing spot information, and selects an optimal restaurant that matches the arrival time of the user. A process of searching and presenting a search result can be performed.
  • FIG. 20 is a diagram for explaining an example of an execution task information update process by the task control / execution unit 140.
  • the sightseeing spot information 210 as an execution result of the sightseeing spot search task is displayed on the left side
  • the restaurant information 220 as an execution result of the restaurant search task is displayed on the right side.
  • the task control / execution unit 140 not only displays the display information but also performs various information provision processing for the user. Specifically, display content update processing, information provision processing by voice output, and the like are performed.
  • the following system utterance is shown as the system utterance by the sightseeing spot search task.
  • System utterance Travel time by car to the displayed tourist destination candidate is about 10 minutes for XXX, about 15 minutes for YYY, and about 20 minutes for ZZZ.
  • the following system utterances are shown as system utterances by the restaurant search task.
  • System utterance PPP, PPP is a shop famous for seafood bowls, and the sea view from the seat seems to have a good reputation
  • each task also executes processing such as displaying a marker 261 indicating a tourist spot or restaurant location included in the system utterance on the displayed map. Further, additional information such as travel time to restaurants and sightseeing spots may be notified by image or voice. Moreover, it is good also as a structure which highlights display information relevant to the word contained in audio
  • FIG. 21 is a diagram illustrating an example of task end processing performed by the target task execution unit 143 of the task control / execution unit 140.
  • the target task execution unit 143 of the task control / execution unit 140 detects, for example, that nobody is seeing the task being executed and that no voice input processing has been performed for a certain period of time. In this case, the display related to the task being executed is turned off and the optimal display is performed with the remaining task.
  • display information at time t1 is shown.
  • the sightseeing spot information 210 as an execution result of the sightseeing spot search task is displayed on the left side
  • the restaurant information 220 as an execution result of the restaurant search task is displayed on the right side. All of the users A and 301 and the users B and 302 are looking at the sightseeing spot information 210.
  • the target task execution unit 143 of the task control / execution unit 140 detects that the restaurant information 220 is not seen by anyone and is not processed by voice input for a certain period of time, the restaurant information 220
  • the display relating to the sightseeing area information 210 remaining after the display relating to 220 is erased is displayed to be enlarged over the entire display area. That is, the display mode is changed to (t2) display state @ t2 shown on the right side of FIG.
  • the display data to be erased may be temporarily saved in the background so that it can be quickly restored if there is a call by voice input within a certain time.
  • the task itself is stopped after a certain period of time.
  • Step S101 image analysis processing is executed.
  • This process is a process executed by the image analysis unit 120 that has input a captured image of the imaging unit 102.
  • the detailed sequence of the image analysis process in step S101 is the process in steps S201 to S207 on the right side of FIG. The processing of each step in steps S201 to S207 will be described.
  • Step S201 the image analysis unit 120 detects a face area from the captured image of the imaging unit 102. This processing is executed by the face detection unit 121 of the image analysis unit 120 described above with reference to FIG. For example, the following steps S202 to S207, which are performed by applying an existing method such as collation processing with face feature information (pattern information) registered in the storage unit in advance, are repeatedly executed for each detected face. It is processing.
  • Steps S202 to S207 In steps S202 to S207, a user position estimation process, a face (line of sight) direction estimation process, a user identification process, and a user attribute (gender, age, etc.) discrimination process are executed for each face detected from the captured image of the imaging unit 102.
  • the user position estimation unit 122 estimates the position of the face detected by the face detection unit 121.
  • the distance and direction from the information processing apparatus are calculated from the position and size of the face in the image, and the position of the user's face is determined.
  • the position information is relative position information with respect to the information processing apparatus, for example. In addition, it is good also as a structure using sensor information, such as a distance sensor and a position sensor.
  • the face / gaze direction estimation unit 123 estimates the face direction and gaze direction detected by the face detection unit 121.
  • the face direction and the line-of-sight direction are detected by detecting the position of the eyes of the face, the pupil position of the eyes, and the like.
  • the face identification unit 124 sets an identifier (ID) for each face detected by the face detection unit 121. When a plurality of faces are detected in the image, a unique identifier that can be distinguished from each other is set.
  • the user information DB 131 stores pre-registered face information, and when a matching face is identified by comparison and collation processing with the registered face information, the user name (registered name) is also identified. .
  • the attribute attribute determination processing unit 125 acquires attribute information for each user identified by the face identification unit 124, for example, user attribute information such as age and sex. This attribute acquisition process can be executed by estimating the attribute, for example, whether it is an adult or a child, a male or a female, based on the photographed image. Further, when the face identified by the face identifying unit 124 has been registered in the user information DB 131 and the attribute information of the user has been recorded in the DB, this DB registration data may be acquired.
  • the face detection unit 121 of the image analysis unit 120, the user position estimation unit 122, the face / gaze direction estimation unit 123, the face identification unit 124, the attribute discrimination processing unit 125, and the acquisition method for each of these components are stored in the user information DB 131. be registered.
  • step S101 the above processing is executed in units of faces detected from the captured image of the imaging unit 102, and information on the units of faces is registered in the user information DB 131.
  • Step S102 voice detection is performed in step S102.
  • This process is a process executed by the voice recognition unit 110 that inputs a voice signal via the voice input unit 101.
  • the voice detection unit 111 of the voice recognition unit 110 shown in FIG. If it is determined in step S103 that sound has been detected, the process proceeds to step S104. If it is determined that no sound has been detected, the process proceeds to step S110.
  • Step S104 speech recognition processing for the detected speech and speech direction (speech direction) estimation processing are executed. This processing is executed by the speech direction estimation unit 112 and the utterance content recognition unit 113 of the speech recognition unit 110 shown in FIG.
  • the voice direction estimation unit 112 estimates the direction of the user who made the utterance, that is, the voice direction.
  • the voice input unit (microphone) 101 is configured as a microphone array including a plurality of microphones that can specify the sound source direction, and the voice direction is determined based on the phase difference of the acquired sound of each microphone. Is estimated.
  • the utterance content recognition unit 113 converts the speech data into text data composed of a plurality of words by using, for example, an ASR (Automatic Speech Recognition) function. Furthermore, an utterance semantic analysis process is performed on the text data.
  • ASR Automatic Speech Recognition
  • Step S105 the uttering user is specified.
  • This process is a process executed by the task / control execution unit 140. This is executed by the utterance user identification unit 141 of the task / control execution unit 140 shown in FIG. This process is performed using user position information associated with the utterance content stored in the user information DB 131. You may perform as a process which specifies the user of the face in the direction using the estimation information of an utterance direction.
  • Step S106 the visual recognition icon of each user is specified.
  • This process is executed by the visual task identification unit 142 of the task / control execution unit 140 shown in FIG.
  • the visual recognition task specifying unit 142 performs a process of specifying a display task that the user is viewing included in the captured image of the imaging unit 102. This process is executed using user position information and face (line of sight) direction information stored in the user information DB 131.
  • Step S107 a processing task is determined based on the visual recognition task specified in step S106 and the voice recognition result acquired in step S104, and processing by the task is executed.
  • This process is executed by the target task execution unit 143 of the task / control execution unit 140 shown in FIG.
  • the target task execution unit 143 specifies, for example, a task that the user is viewing or a task whose display is changed based on the user's utterance, and executes processing related to the task.
  • Steps S108 to S109 it is determined whether or not there is a related task related to the task that is currently being processed. If there is, a change process or an additional process of the output content related to the related task is performed. This process is executed by the related task update unit 144 of the task / control execution unit 140 shown in FIG.
  • step S110 processing such as changing output information such as display information by the currently executing task in accordance with the latest user position, line-of-sight direction, and the like is performed.
  • This processing is executed by the display position / shape determining unit 145 of the task / control execution unit 140 shown in FIG.
  • the display position / shape determining unit 145 determines the display position and shape of the task being displayed on the display unit 163, and updates the display information to the determined position and shape.
  • steps S105 to S110 is processing executed by the task / control execution unit 140, and specifically, various processing described above with reference to FIGS. 8 to 21 is performed. .
  • Step S111 Finally, in step S111, an image. Audio output processing is executed. The output contents of the image and sound are determined by the task being executed in the task / control execution unit 140. Display information and audio information determined by this task are output via the audio output unit 162 and the image output unit 163 under the control of the output control unit 161.
  • the processing functions of the constituent elements of the information processing apparatus 100 shown in FIG. 3 can all be configured in one apparatus, for example, an agent device owned by a user, or an apparatus such as a smartphone or a PC. It is also possible to adopt a configuration in which the unit is executed on a server or the like.
  • FIG. 23 illustrates an example of a system configuration for executing the processing of the present disclosure.
  • Information processing system configuration example 1 has almost all the functions of the information processing apparatus shown in FIG. 3 as one apparatus, for example, a smartphone or PC owned by the user, or voice input / output and image input / output functions.
  • the information processing apparatus 410 is a user terminal such as an agent device.
  • the information processing apparatus 410 corresponding to the user terminal executes communication with the application execution server 420 only when an external application is used when generating a response sentence, for example.
  • the application execution server 420 is, for example, a weather information providing server, a traffic information providing server, a medical information providing server, a tourist information providing server, or the like, and is configured by a server group that can provide information for generating a response to a user utterance. .
  • FIG. 23 (2) information processing system configuration example 2 is provided in the information processing apparatus 410, which is an information processing terminal such as a smartphone, PC, agent device, etc., owned by the user, with some of the functions of the information processing apparatus shown in FIG.
  • This is an example of a system configured such that a part thereof is executed by a data processing server 460 capable of communicating with an information processing apparatus.
  • a configuration in which processing executed in the voice recognition unit 110 and the image analysis unit 120 in the apparatus shown in FIG. Acquired data of the voice input unit 101 and the imaging unit 102 on the information processing device 410 side on the information processing terminal side is transmitted to the server, and analysis data is generated on the server side.
  • the information processing terminal is configured to control and execute tasks using server analysis data.
  • the task control / execution unit on the information processing terminal side performs a process of changing the display position and shape of the task correspondence information according to the user position included in the analysis data generated by the server.
  • the function division mode of the function on the information processing terminal such as the user terminal and the function on the server side can be set in various different ways, and a configuration in which one function is executed in both is also possible.
  • FIG. 24 is an example of the hardware configuration of the information processing apparatus described above with reference to FIG. 3, and constitutes the data processing server 460 described with reference to FIG. It is an example of the hardware constitutions of information processing apparatus.
  • a CPU (Central Processing Unit) 501 functions as a control unit or a data processing unit that executes various processes according to a program stored in a ROM (Read Only Memory) 502 or a storage unit 508. For example, processing according to the sequence described in the above-described embodiment is executed.
  • a RAM (Random Access Memory) 503 stores programs executed by the CPU 501 and data.
  • the CPU 501, ROM 502, and RAM 503 are connected to each other by a bus 504.
  • the CPU 501 is connected to an input / output interface 505 via a bus 504.
  • An input unit 506 including various switches, a keyboard, a mouse, a microphone, and a sensor, and an output unit 507 including a display and a speaker are connected to the input / output interface 505.
  • the CPU 501 executes various processes in response to a command input from the input unit 506 and outputs a processing result to the output unit 507, for example.
  • the storage unit 508 connected to the input / output interface 505 includes, for example, a hard disk and stores programs executed by the CPU 501 and various data.
  • a communication unit 509 functions as a transmission / reception unit for Wi-Fi communication, Bluetooth (BT) communication, and other data communication via a network such as the Internet or a local area network, and communicates with an external device.
  • BT Bluetooth
  • the drive 510 connected to the input / output interface 505 drives a removable medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory such as a memory card, and executes data recording or reading.
  • a removable medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory such as a memory card
  • the technology disclosed in this specification can take the following configurations. (1) a speech recognition unit that executes analysis processing of speech input via the speech input unit; An image analysis unit for performing analysis processing of a captured image input via the imaging unit; A task control / execution unit that executes processes according to user utterances; A display unit that outputs task correspondence information that is display information based on execution of a task in the task control / execution unit; The task control / execution unit An information processing apparatus that changes a display position of the task correspondence information according to a user position.
  • the task control / execution unit The information processing apparatus according to (1) or (2), wherein control is performed to change at least one of a display position or a display shape of the task correspondence information according to a user's face or line-of-sight direction.
  • the task control / execution unit When displaying a plurality of task correspondence information on the display unit, The information processing apparatus according to any one of (1) to (3), wherein display position control in units of tasks is performed such that a display position of each task correspondence information is a position close to a user position that requested execution of each task.
  • the image analysis unit analyzes a user position
  • the task control / execution unit The information processing apparatus according to any one of (1) to (4), wherein at least one of a display position and a display shape of the task correspondence information on the display unit is changed based on the user position information analyzed by the image analysis unit. .
  • the image analysis unit The information processing apparatus according to any one of (1) to (5), wherein user information including user position information acquired by the captured image analysis processing is stored in a user information database.
  • the task control / execution unit The information processing apparatus according to (6), wherein a change mode of at least one of a display position and a display shape of the task correspondence information is determined using the storage information of the user information database.
  • the task control / execution unit Calculating the intersection of the user's line-of-sight vector and the display information, identifying the task correspondence information displayed at the calculated intersection position as a user visual task,
  • the information processing apparatus according to any one of (1) to (7), wherein the process of the visual recognition task is executed for a user utterance.
  • the task control / execution unit A process of calculating an intersection between the user's line-of-sight vector and the display information in units of words included in the user utterance, and specifying the task correspondence information displayed at the calculated intersection position as a user visual task (1) to (8)
  • the information processing apparatus according to any one of the above.
  • the task control / execution unit The information processing apparatus according to any one of (1) to (9), wherein task information including display area information of task correspondence information is stored in a task information database.
  • the task control / execution unit The information processing apparatus according to (10), wherein an identifier of a related task related to a task being executed is stored in the task information database.
  • the voice recognition unit Execute utterance direction estimation processing of user utterance,
  • the task control / execution unit The information processing apparatus according to any one of (1) to (11), wherein at least one of a display position and a display shape of the task correspondence information on the display unit is changed according to the speech direction estimated by the voice recognition unit.
  • An information processing system having an information processing terminal and a server, The information processing terminal An audio input unit, an imaging unit, A task control / execution unit that executes processes according to user utterances; A communication unit that transmits the voice acquired via the voice input unit and the captured image acquired via the imaging unit to the server; The server Based on the received data from the information processing terminal, the utterance content of the utterer, the utterance direction, and the user position indicating the position of the user included in the camera-captured image is generated as analysis information The task control / execution unit of the information processing terminal An information processing system that executes and controls tasks using analysis information generated by the server.
  • the task control / execution unit of the information processing terminal includes: The information processing system according to (13), wherein a display position of the task correspondence information is changed according to a user position generated by the server.
  • the voice recognition unit executes analysis processing of voice input via the voice input unit
  • the image analysis unit executes analysis processing of a captured image input via the imaging unit
  • the task control / execution unit outputs task correspondence information, which is display information based on the execution of a task that executes processing according to the user's utterance, to the display unit, and changes the display position of the task correspondence information according to the user position Information processing method.
  • An information processing method executed in an information processing system having an information processing terminal and a server The information processing terminal Send the voice acquired through the voice input unit and the captured image acquired through the imaging unit to the server, The server Based on the received data from the information processing terminal, the utterance content of the utterer, the utterance direction, and the user position indicating the position of the user included in the camera-captured image is generated as analysis information, The information processing terminal An information processing method that executes and controls a task using analysis information generated by the server and changes a display position of task correspondence information according to a user position generated by the server.
  • a program for executing information processing in an information processing device Let the voice recognition unit perform analysis processing of the voice input via the voice input unit, Let the image analysis unit perform analysis processing of the captured image input via the imaging unit, A program for causing a task control / execution unit to output task correspondence information, which is display information based on execution of a task according to a user utterance, to the display unit, and to change a display position of the task correspondence information according to a user position.
  • the series of processes described in the specification can be executed by hardware, software, or a combined configuration of both.
  • the program recording the processing sequence is installed in a memory in a computer incorporated in dedicated hardware and executed, or the program is executed on a general-purpose computer capable of executing various processing. It can be installed and run.
  • the program can be recorded in advance on a recording medium.
  • the program can be received via a network such as a LAN (Local Area Network) or the Internet and installed on a recording medium such as a built-in hard disk.
  • the various processes described in the specification are not only executed in time series according to the description, but may be executed in parallel or individually according to the processing capability of the apparatus that executes the processes or as necessary.
  • the system is a logical set configuration of a plurality of devices, and the devices of each configuration are not limited to being in the same casing.
  • an apparatus and a method for performing display control of task correspondence information by identifying a user's attention task are realized.
  • an image analysis unit that executes an analysis process of a captured image
  • a task control / execution unit that executes a process according to a user utterance
  • display information based on task execution in the task control / execution unit It has a display unit that outputs certain task correspondence information.
  • the task control / execution unit executes control to change the display position and display shape of the task correspondence information according to the user position and the user's face or line-of-sight direction.
  • task-based display control is performed such that the display position of each task correspondence information is close to the user position that requested the execution of each task.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

ユーザの注目タスクを識別してタスク対応情報の表示制御を行う装置、方法を実現する。撮影画像の解析処理を実行する画像解析部と、ユーザ発話に応じた処理を実行するタスク制御・実行部と、タスク制御・実行部におけるタスクの実行に基づく表示情報であるタスク対応情報を出力する表示部を有する。タスク制御・実行部は、ユーザ位置や、ユーザの顔または視線方向に応じてタスク対応情報の表示位置や表示形状を変更する制御を実行する。表示部に複数のタスク対応情報を表示する場合、各タスク対応情報の表示位置を、各タスクの実行を要求したユーザ位置に近い位置とするタスク単位の表示制御を実行する。

Description

[規則37.2に基づきISAが決定した発明の名称] タスク対応情報の表示位置を変更する情報処理装置
 本開示は、情報処理装置、情報処理システム、および情報処理方法、並びにプログラムに関する。さらに詳細には、ユーザ発話の音声認識結果に基づく処理や応答を行う情報処理装置、情報処理システム、および情報処理方法、並びにプログラムに関する。
 昨今、ユーザ発話の音声認識を行い、認識結果に基づく様々な処理や応答を行う音声認識システムの利用が増大している。
 この音声認識システムにおいては、マイクを介して入力するユーザ発話を認識理解して、それに応じた処理を行う。
 例えばユーザが、「明日の天気を教えて」と発話した場合、天気情報提供サーバから天気情報を取得して、取得情報に基づくシステム応答を生成して、生成した応答をスピーカーから出力する。具体的には、例えば、
 システム発話=「明日の天気は晴れです。ただし、夕方、雷雨があるかもしれません」
 このようなシステム発話を出力する。
 このような音声認識を行う機器として、スマートフォン等のモバイル機器、スマートスピーカー、エージェント機器、サイネージ機器等がある。
 スマートスピーカー、エージェント機器、サイネージ機器等を利用した構成では、これらの機器の周囲に多くの人がいる場合が多い。
 音声認識機器は、機器に対する発話者(発話ユーザ)を特定し、その発話者の求めるサービスを提供すること、具体的には例えば発話者の求める表示情報を表示する等の処理が必要となる。
 発話者の求める表示情報の表示処理を開示した従来技術として、例えば特許文献1(特開2000-187553号公報)がある。この文献は、カメラ等によって撮影された画像から発話者の注視位置を検出して、検出結果に基づいて表示情報を制御する構成を開示している。
 しかし、例えば、エージェント機器の前に複数のユーザがおり、これらのユーザがそれぞれ異なる情報提示を機器に求めているような状況では、各ユーザの興味がどの情報に向けられているのかを判別して提供情報の制御を行う必要がある。上記の従来技術を適用してもこのような制御は困難である。
特開2000-187553号公報
 本開示は、例えば、上記問題点に鑑みてなされたものであり、ユーザの注目情報を解析して、解析結果に基づく表示情報の制御を行う情報処理装置、情報処理システム、および情報処理方法、並びにプログラムを提供することを目的とする。
 さらに、本開示の一実施例においては、複数のユーザがいる場合においても、各ユーザの注目情報を解析して、解析結果に基づく表示情報の制御を行う情報処理装置、情報処理システム、および情報処理方法、並びにプログラムを提供することを目的とする。
 本開示の第1の側面は、
 音声入力部を介して入力する音声の解析処理を実行する音声認識部と、
 撮像部を介して入力する撮影画像の解析処理を実行する画像解析部と、
 ユーザ発話に応じた処理を実行するタスク制御・実行部と、
 前記タスク制御・実行部におけるタスクの実行に基づく表示情報であるタスク対応情報を出力する表示部を有し、
 前記タスク制御・実行部は、
 ユーザ位置に応じて前記タスク対応情報の表示位置を変更する情報処理装置にある。
 さらに、本開示の第2の側面は、
 情報処理端末とサーバを有する情報処理システムであり、
 前記情報処理端末は、
 音声入力部と、撮像部と、
 ユーザ発話に応じた処理を実行するタスク制御・実行部と、
 前記音声入力部を介して取得した音声と、前記撮像部を介して取得した撮影画像を前記サーバに送信する通信部を有し、
 前記サーバは、
 前記情報処理端末からの受信データに基づいて、前記発話者の発話内容と、発話方向と、前記カメラ撮影画像に含まれるユーザの位置を示すユーザ位置を解析情報として生成し、
 前記情報処理端末のタスク制御・実行部は、
 前記サーバの生成した解析情報を利用して、タスクの実行および制御を行う情報処理システムにある。
 さらに、本開示の第3の側面は、
 情報処理装置において実行する情報処理方法であり、
 音声認識部が、音声入力部を介して入力する音声の解析処理を実行し、
 画像解析部が、撮像部を介して入力する撮影画像の解析処理を実行し、
 タスク制御・実行部が、ユーザ発話に応じた処理を実行するタスクの実行に基づく表示情報であるタスク対応情報を表示部に出力するとともに、ユーザ位置に応じて前記タスク対応情報の表示位置を変更する情報処理方法にある。
 さらに、本開示の第4の側面は、
 情報処理端末とサーバを有する情報処理システムにおいて実行する情報処理方法であり、
 前記情報処理端末は、
 音声入力部を介して取得した音声と、撮像部を介して取得した撮影画像を前記サーバに送信し、
 前記サーバは、
 前記情報処理端末からの受信データに基づいて、前記発話者の発話内容と、発話方向と、前記カメラ撮影画像に含まれるユーザの位置を示すユーザ位置を解析情報として生成し、
 前記情報処理端末は、
 前記サーバの生成した解析情報を利用して、タスクの実行および制御を行うとともに、前記サーバの生成したユーザ位置に応じてタスク対応情報の表示位置を変更する情報処理方法にある。
 さらに、本開示の第5の側面は、
 情報処理装置において情報処理を実行させるプログラムであり、
 音声認識部に、音声入力部を介して入力する音声の解析処理を実行させ、
 画像解析部に、撮像部を介して入力する撮影画像の解析処理を実行させ、
 タスク制御・実行部に、ユーザ発話に応じたタスクの実行に基づく表示情報であるタスク対応情報を表示部に出力させるとともに、ユーザ位置に応じて前記タスク対応情報の表示位置を変更させるプログラムにある。
 なお、本開示のプログラムは、例えば、様々なプログラム・コードを実行可能な情報処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、情報処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。
 本開示のさらに他の目的、特徴や利点は、後述する本開示の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
 本開示の一実施例の構成によれば、ユーザの注目タスクを識別してタスク対応情報の表示制御を行う装置、方法が実現される。
 具体的には、例えば、撮影画像の解析処理を実行する画像解析部と、ユーザ発話に応じた処理を実行するタスク制御・実行部と、タスク制御・実行部におけるタスクの実行に基づく表示情報であるタスク対応情報を出力する表示部を有する。タスク制御・実行部は、ユーザ位置や、ユーザの顔または視線方向に応じてタスク対応情報の表示位置や表示形状を変更する制御を実行する。表示部に複数のタスク対応情報を表示する場合、各タスク対応情報の表示位置を、各タスクの実行を要求したユーザ位置に近い位置とするタスク単位の表示制御を実行する。
 本構成により、ユーザの注目タスクを識別してタスク対応情報の表示制御を行う装置、方法が実現される。
 なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。
ユーザ発話に対する応答を行う情報処理装置の具体的な処理例について説明する図である。 情報処理装置の構成例と利用例について説明する図である。 本開示の情報処理装置の構成例について説明する図である。 本開示の情報処理装置の構成例について説明する図である。 ユーザ情報データベース(DB)の格納データの一例について説明する図である。 本開示の情報処理装置の構成例について説明する図である。 タスク情報データベース(DB)の格納データの一例について説明する図である。 本開示の情報処理装置の実行する処理の具体例について説明する図である。 本開示の情報処理装置の実行する処理の具体例について説明する図である。 本開示の情報処理装置の実行する処理の具体例について説明する図である。 本開示の情報処理装置の実行する処理の具体例について説明する図である。 本開示の情報処理装置の実行する処理の具体例について説明する図である。 本開示の情報処理装置の実行する処理の具体例について説明する図である。 本開示の情報処理装置の実行する処理の具体例について説明する図である。 本開示の情報処理装置の実行する処理の具体例について説明する図である。 本開示の情報処理装置の実行する処理の具体例について説明する図である。 本開示の情報処理装置の実行する処理の具体例について説明する図である。 本開示の情報処理装置の実行する処理の具体例について説明する図である。 本開示の情報処理装置の実行する処理の具体例について説明する図である。 本開示の情報処理装置の実行する処理の具体例について説明する図である。 本開示の情報処理装置の実行する処理の具体例について説明する図である。 情報処理装置の実行する処理のシーケンスについて説明するフローチャートを示す図である。 情報処理システムの構成例について説明する図である。 情報処理装置のハードウェア構成例について説明する図である。
 以下、図面を参照しながら本開示の情報処理装置、情報処理システム、および情報処理方法、並びにプログラムの詳細について説明する。なお、説明は以下の項目に従って行なう。
 1.情報処理装置の実行する処理の概要について
 2.情報処理装置の構成例について
 3.情報処理装置の実行する具体的な処理例について
 4.ユーザの注目タスクを判定してタスク制御を行う構成について
 5.タスク制御・実行部による実行タスクの情報更新処理例
 6.情報処理装置の実行する処理のシーケンスについて
 7.情報処理装置、および情報処理システムの構成例について
 8.情報処理装置のハードウェア構成例について
 9.本開示の構成のまとめ
  [1.情報処理装置の実行する処理の概要について]
 まず、図1以下を参照して、本開示の情報処理装置の実行する処理の概要についてについて説明する。
 図1は、発話者1の発するユーザ発話を認識して応答を行う情報処理装置10の一処理例を示す図である。
 情報処理装置10は、発話者1のユーザ発話、例えば、
 ユーザ発話=「大阪の明日、午後の天気を教えて」
 このユーザ発話の音声認識処理を実行する。
 さらに、情報処理装置10は、ユーザ発話の音声認識結果に基づく処理を実行する。
 図1に示す例では、ユーザ発話=「大阪の明日、午後の天気を教えて」に応答するためのデータを取得し、取得データに基づいて応答を生成して、生成した応答を、スピーカー14を介して出力する。
 図1に示す例では、情報処理装置10は、天気情報を示す画像表示を行うとともに、以下のシステム応答を行っている。
 システム応答=「大阪の明日、午後の天気は晴れですが、夕方、にわか雨がある可能性があります。」
 情報処理装置10は、音声合成処理(TTS:Text To Speech)を実行して上記のシステム応答を生成して出力する。
 情報処理装置10は、装置内の記憶部から取得した知識データ、またはネットワークを介して取得した知識データを利用して応答を生成して出力する。
 図1に示す情報処理装置10は、撮像部11、マイク12、表示部13、スピーカー14を有しており、音声入出力と画像入出力が可能な構成を有する。
 撮像部11は、例えば、ほぼ周囲360°の画像を撮影可能な全方位カメラである。また、マイク12は、音源方向を特定可能とした複数のマイクロフォンから構成されるマイクロフォン・アレイとして構成されている。
 表示部13は、図に示す例ではプロジェクタ型の表示部を用いた例を示している。ただし、表示部13は、ディスプレイ型の表示部としてもよいし、あるいは情報処理装置10に接続されたTV、PC等の表示部に表示情報を出力する構成としてもよい、
 図1に示す情報処理装置10は、例えばスマートスピーカーあるいはエージェント機器と呼ばれる。
 本開示の情報処理装置10は、図2に示すように、エージェント機器10aに限らず、スマホ10bやPC10c等、あるいは公共の場所に設置されたサイネージ機器のような様々な装置形態とすることが可能である。
 情報処理装置10は、発話者1の発話を認識して、ユーザ発話に基づく応答を行う他、例えば、ユーザ発話に応じて図2に示すテレビ、エアコン等の外部機器30の制御も実行する。
 例えばユーザ発話が「テレビのチャンネルを1に変えて」、あるいは「エアコンの設定温度を20度にして」といった要求である場合、情報処理装置10は、このユーザ発話の音声認識結果に基づいて、外部機器30に対して制御信号(Wi-Fi、赤外光など)を出力して、ユーザ発話に従った制御を実行する。
 なお、情報処理装置10は、ネットワークを介してサーバ20と接続され、サーバ20から、ユーザ発話に対する応答を生成するために必要となる情報を取得することが可能である。また、音声認識処理や意味解析処理をサーバに行わせる構成としてもよい。
  [2.情報処理装置の構成例について]
 次に、図3を参照して、情報処理装置の具体的な構成例について説明する。
 図3には、ユーザ発話を認識して、ユーザ発話に対応する処理や応答を行う情報処理装置100の外観構成と、内部構成を示すブロック図を示している。
図3に示す情報処理装置100は図1に示す情報処理装置10に相当する。
 図3に示すように、情報処理装置100は、音声入力部101、撮像部102、音声認識部110、画像解析部120、ユーザ情報DB131、タスク制御・実行部140、タスク情報DB151、出力制御部161、音声出力部162、表示部163、通信部171を有する。通信部171は、ネットワーク180を介して外部装置、例えば様々な情報や、アプリケーションを提供するサーバ等との通信を行う。
 図3に示す情報処理装置100の構成要素について説明する。
 音声入力部(マイク)101は、図1に示す情報処理装置100のマイク12に対応する。音声入力部(マイク)101は、音源方向を特定可能とした複数のマイクロフォンから構成されるマイクロフォン・アレイとして構成されている。
 撮像部102は、図1に示す情報処理装置10の撮像部11に対応する。例えば、ほぼ周囲360°の画像を撮影可能な全方位カメラである。
 音声出力部(スピーカー)162は、図1に示す情報処理装置10のスピーカー14に対応する。
 表示部163は、図1に示す情報処理装置10の表示部13に対応する。例えば、プロジェクタ等によって構成可能であり、また外部装置のテレビの表示部を利用した構成とすることも可能である。図3左の外観構成図に示すように、表示部163は回転可能な構成を有し、プロジェクタによる表示位置を様々な方向に設定することができる。
 ユーザの発話音声はマイクなどの音声入力部101に入力される。
 音声入力部(マイク)101は、入力したユーザ発話音声を音声認識部110に入力する。
 撮像部102は、発話ユーザおよびその周囲の画像を撮影して、画像解析部120に入力する。
 画像解析部120は、発話ユーザやその他のユーザの顔を検出し、各ユーザの位置や視線方向、ユーザ識別等を実行する。
 音声認識部110と、画像解析部120の構成と処理については、図4を参照して詳細に説明する。
 図4に音声認識部110と、画像解析部120の詳細構成を示すブロック図を示す。
 図4に示すように、音声認識部110は、音声検出部111、音声方向推定部112、発話内容認認識部113を有する。
 画像解析部120は、顔検出部121、ユーザ位置推定部122、顔・視線方向推定部123、顔識別部124、属性判別処理部125を有する。
 まず、音声認識部110について説明する。音声検出部111は、音声入力部101から入力する様々な音から、人の発話であると推定される音声を検出して抽出する。
 音声方向推定部112は、発話を行ったユーザの方向、すなわち音声方向を推定する。前述したように、音声入力部(マイク)101は、音源方向を特定可能とした複数のマイクロフォンから構成されるマイクロフォン・アレイとして構成されている。
 マイクロフォン・アレイの取得音は、複数の異なる位置に配置された複数のマイクの取得音である。音源方向推定部112は、この複数マイクの取得音に基づいて音源方向を推定する。マイクロフォン・アレイを構成する各マイクは音源方向に応じて位相差を持った音信号を取得する。この位相差は、音源方向に応じて異なるものとなる。音声方向推定部112は、各マイクの取得した音声信号の位相差を解析することで、音源方向を求める。
 発話内容認認識部113は、例えばASR(Automatic Speech Recognition)機能を有し、音声データを複数の単語から構成されるテキストデータに変換する。さらに、テキストデータに対する発話意味解析処理を実行する。
 発話内容認認識部113は、例えば、NLU(Natural Language Understanding)等の自然言語理解機能を有し、テキストデータからユーザ発話の意図(インテント:Intent)や、発話に含まれる意味のある要素(有意要素)である実体情報(エンティティ:Entity)を推定する。
 具体例について説明する。例えば以下のユーザ発話が入力されたとする。
 ユーザ発話=明日の大阪の午後の天気を教えて
 このユーザ発話の、
 意図(インテント)は、天気を知りたいであり、
 実体情報(エンティティ)は、大阪、明日、午後、これらのワードである。
 ユーザ発話から、意図(インテント)と、実体情報(エンティティ)を正確に推定、取得することができれば、ユーザ発話に対する正確な処理を行うことができる。
 例えば、上記の例では、明日の大阪の午後の天気を取得して、応答として出力することができる。
 音声方向推定部112において推定されたユーザ発話の音声方向情報と、発話内容認認識部113において解析されたユーザ発話の内容は、ユーザ情報DB131に格納される。
 ユーザ情報DB131の格納データの具体例については、後段で図5を参照して説明する。
 次に、画像解析部120の構成と処理について説明する。図4に示すように、画像解析部120は、顔検出部121、ユーザ位置推定部122、顔・視線方向推定部123、顔識別部124、属性判別処理部125を有する。
 顔検出部121は、撮像部102の撮影画像から人の顔領域を検出する。この処理は、例えば予め記憶部に登録された顔の特徴情報(パターン情報)との照合処理等の既存の手法を適用して行われる。ユーザ位置推定部122は、顔検出部121の検出した顔のある位置を推定する。画像中の顔の位置や大きさ等から情報処理装置からの距離と方向を算出してユーザの顔の位置を判定する。位置情報は例えば情報処理装置に対する相対位置情報である。なお、距離センサーや位置センサー等のセンサー情報を利用する構成としてもよい。
 顔・視線方向推定部123は、顔検出部121の検出した顔の向きや視線方向を推定する。顔の目の位置、目の瞳位置等を検出して、顔方向、視線方向を検出する。
 顔識別部124は、顔検出部121の検出した顔の各々に識別子(ID)を設定する。画像内に複数の顔が検出されている場合、それぞれを区別可能な固有識別子を設定する。なお、ユーザ情報DB131には、予め登録済みの顔情報が格納されており、この登録顔情報との比較照合処理によって一致する顔が識別された場合は、そのユーザ名(登録名)も識別する。
 属性属性判別処理部125は、顔識別部124において識別されたユーザ単位の属性情報、例えば年齢、性別等のユーザ属性情報を取得する。この属性取得処理は、撮影画像に基づいて、その属性、例えば大人か子供か、男性か女性か等の属性を推定することで実行可能である。また、顔識別部124において識別された顔がユーザ情報DB131に登録済みであり、そのユーザの属性情報がDBに記録済みの場合は、このDB登録データを取得してもよい。
 画像解析部120の顔検出部121、ユーザ位置推定部122、顔・視線方向推定部123、顔識別部124、属性判別処理部125、これらの各構成部の取得自用法は、ユーザ情報DB131に登録される。
 ユーザ情報DB131の格納情報(ユーザ情報テーブル)の例を図5に示す。
 図5に示すように、ユーザ情報DB131には、ユーザID、ユーザ名、ユーザ位置、ユーザの顔(視線)方向、ユーザの年齢、ユーザの性別、ユーザの発話内容、ユーザが操作中のタスクのタスクIDが登録される。
 ユーザID、ユーザ名、ユーザ位置、ユーザの顔(視線)方向、ユーザの年齢、ユーザの性別、これらの情報は画像解析部120において取得される情報である。
 ユーザの発話内容は、音声認識部110が取得する情報である。ユーザが操作中のタスクのタスクIDは、タスク・制御・実行部140が登録する情報である。
 ユーザ位置(X,Y,Z)は、例えば情報処理装置100内のある点を原点として情報処理装置100の正面方向をZ軸、左右方向をX軸、上下方向をY軸等と定義して算出したユーザの3次元座標位置である。
 ユーザの顔(視線)方向の登録データとして示す(θ,φ)は、例えば上記のXZ平面上において、撮像部102のカメラ方向と顔(視線)方向のなす角をθ、YZ平面上において撮像部102のカメラ方向と顔(視線)方向のなす角をφとした角度データである。
 年齢や性別は顔画像から推定される情報でもよいし、ユーザ自身が別途入力した情報を利用出来るのであればそれらを使用してもよい。またユーザ情報DB131に登録済みのデータがあれば、そのデータを利用してもよい。
 発話内容は音声認識部110の音声認識結果が、ほぼリアルタイムで登録される。登録データは、ユーザの発話の進行に従って、順次更新される。例えば、ユーザ発話が、以下の発話である場合、
 ユーザ発話=そっちの3番見せて
 このようなユーザ発話が入力される場合、ユーザ情報DB131の記録データは、以下のように時間経過に伴って更新される。
 「そっちの」→「そっちの3番」→「そっちの3番見せて」
 図3に戻り、情報処理装置100の構成についての説明を続ける。
 ユーザ情報DB131には、図5を参照して説明した情報の他、予め登録されたユーザ情報、例えば顔画像、名前、その他の属性(年齢、性別等)がユーザIDに対応付けて格納されている。
 撮像部102の撮影画像から検出された顔が、登録済みの顔画像に一致する場合、この登録情報からユーザ属性を取得することが可能となる。
 タスク制御・実行部140は、情報処理装置100において実行するタスクの制御を行う。
 タスクとは、情報処理装置100において実行するタスクであり、例えば、以下のような様々なタスクがある。
 観光地検索タスク、
 レストラン検索タスク、
 天気情報提供タスク、
 交通情報提供タスク、
 音楽情報提供タスク、
 これらのタスクは、情報処理装置100のタスク情報DB151に格納された情報やアプリケーションを利用して実行することも可能であるが、例えば外部の情報提供サーバ、アプリケーション実行サーバ等のサーバと通信部171、ネットワーク180を介した通信を行って、外部の情報(データやアプリケーション)を利用して行うことも可能である。
 なお、具体的なタスクの実行例については、後段で詳細に説明する。
 図6を参照して、タスク制御・実行部140の詳細構成例について説明する。図6に示すように、タスク制御・実行部140は、発話ユーザ特定部141、視認タスク特定部142、対象タスク実行部143、関連タスク更新部144、表示位置・形状決定部145を有する。
 発話ユーザ特定部141は、撮像部102の撮影画像に含まれる顔から、発話を行っているユーザの顔を特定する処理を行う。この処理は、ユーザ情報DB131に格納された発話内容に対応付けられたユーザ位置情報を利用して行われる。発話方向の推定情報を用いてその方向にある顔のユーザを特定する処理として実行してもよい。
 視認タスク特定部142は、撮像部102の撮影画像に含まれるユーザが見ている表示タスクを特定する処理を行う。この処理は、ユーザ情報DB131に格納されたユーザ位置情報と、顔(視線)方向情報を用いて実行される。表示部163には、例えば、
 観光地検索タスク、
 レストラン検索タスク、
 これらに2つのタスクが並んで表示されている場合がある。視認タスク特定部142は、撮像部102の撮影画像に含まれるユーザが見ているタスクが、これらどのタスクであるかを識別する。なお、具体例については後段で詳細に説明する。
 対象タスク実行部143は、例えば、ユーザの見ているタスク、あるいはユーザ発話に基づいて表示変更を行うタスクを特定して、そのタスクに関する処理を実行する。関連タスク更新部144は、例えば、実行中のタスクに関連するタスクの更新処理等を実行する。表示位置・形状決定部145は、表示部163に表示中のタスクの表示位置や形状を決定して、決定した位置、形状に表示情報を更新する。
 なお、これらの処理部の実行する処理の具体例については後段で詳細に説明する。
 タスク情報DB151は、情報処理装置100において実行するタスクに関するデータ、例えば表示部163に表示するための情報やタスク実行のためのアプリケーション等が格納されている。
 さらに、現在実行中のタスクに関する情報(タスク情報テーブル)も格納される。
 タスク情報DB151に格納される現在実行中のタスクに関する情報(タスク情報テーブル)の一例を図7に示す。
 図7に示すように、現在実行中のタスクに関する情報(タスク情報テーブル)として、タスクID、タスク名、タスクデータ表示領域、タスクアイコン表示領域、関連タスクID、操作ユーザID、最終視認時刻、タスク固有情報、これらのデータが対応付けて記録される。
 図7の下部には、表示部163に表示された表示情報200の一例としてのタスクデータ(観光地検索タスク)201、タスクアイコン202の表示例を示している。
 タスクID、タスク名は、表示部163に表示中のタスクのIDとタスク名である。タスクデータ表示領域、タスクアイコン表示領域は、表示部163に表示中のタスクのタスクデータの表示領域とタスクアイコンの表示領域を示すデータである。x,y,w,hは例えば表示画面上のピクセル値であり、ピクセル(x,y)の位置から(w,h)ピクセルの幅、高さを持った領域を表す。
 関連タスクは、実行中のタスク、具体的には例えば表示部163に表示中のタスクに関連するタスクの情報である。例えば表示部163に並んで表示されているタスクのID等が記録される。操作ユーザIDには、表示部163に表示中のタスクに対する操作要求を実行しているユーザのユーザIDが記録される。最終視認時刻には、ユーザが表示部163に表示中のタスクを視認した最終時刻情報が記録される。タスク固有情報には、表示部163に表示中のタスクに関する固有情報が記録される。
 図3に戻り、情報処理装置100のその他の構成について説明する。出力制御部161は、音声出力部162や表示部163を介して出力する音声、表示情報の制御を行う。音声出力部162を介して出力するシステム発話や、表示部163に出力するタスクデータ、タスクアイコンの表示制御等を実行する。
 音声出力部162はスピーカーであり、システム発話の音声を出力する。
 表示部163は、例えばプロジェクタ等を利用した表示部であり、様々なタスクデータ、タスクアイコン等を表示する。
  [3.情報処理装置の実行する具体的な処理例について]
 次に、図8以下を参照して本開示の情報処理装置100の実行する具体的な処理例について説明する。
 図8には、情報処理装置100の前に2人のユーザA,301とユーザB,302がおり、ユーザA,301が、以下のユーザ発話を行った場合の処理例を示している。
 ユーザ発話=江の島のおすすめ観光スポットは
 情報処理装置100の音声認識部110は、このユーザ発話の音声認識処理を実行し、音声認識結果をユーザ情報DB131に格納する。
 タスク制御・実行部140は、ユーザ情報DB131に格納されたユーザ発話に基づいて、ユーザが江の島のおすすめ観光スポットに関する情報提示を要求していると判断し、観光地検索タスクを実行する。
 具体的には、例えばタスク情報DB151、あるいは外部の観光地情報提供サーバから取得した観光地情報検索アプリケーションを実行して取得した観光地情報に基づく表示情報200を生成して表示部163に出力する。
 表示情報200は、観光地検索タスクの実行結果データである観光地情報210と、表示情報が観光地検索タスクの実行結果であることを示す観光地検索タスクアイコン211によって構成される。また、観光地情報210には、表示データとして観光地地図情報212と、おすすめスポット情報(写真、説明等)213が含まれる。
 なお、ユーザ発話の発生に伴い、音声認識部110はユーザ発話の発話方向(情報処理装置100からの方向)を解析する。さらに、画像解析部120は、上記のユーザ発話を行ったユーザA,301の位置、顔(視線)方向を解析する。
 これらの解析結果は、ユーザ情報DB131に格納される。
 この時点で、表示部の表示情報200は、江の島近辺の地図情報212と、おすすめスポット情報213から構成される観光地情報210が画面全体に表示された状態となる。
 次に、図9に示すように、ユーザB,302が、以下のユーザ発話を行ったものとする。
 ユーザ発話=その辺でおいしい魚が食べられるお店教えて
 情報処理装置100の音声認識部110は、このユーザ発話の音声認識処理を実行し、音声認識結果をユーザ情報DB131に格納する。
 なお、ユーザB,302は、「江の島」という地名を用いず「その辺」というワードを使用しているが、音声認識部110は、ユーザB,302の発話の直前のユーザA,301の発話に「江の島」が含まれていることから、ユーザB,302の意図が「江の島近辺のおいしい魚が食べられるお店を教えて」であると判定し、この意図情報を含む発話内容がユーザ情報DB131に登録する。
 タスク制御・実行部140は、ユーザ情報DB131に格納されたユーザ発話に基づいて、ユーザが江の島の近辺のおいしい魚が食べられるお店に関する情報提示を要求していると判断し、レストラン検索タスクを実行する。
 具体的には、例えばタスク情報DB151、あるいは外部のレストラン情報提供サーバから取得したレストラン情報検索アプリケーションを実行して取得したレストラン情報に基づくレストラン情報220を生成して表示部163の一部に出力する。
 なお、タスク制御・実行部140は、表示部163の表示領域全体に既に表示されている観光地情報210を左半分の表示領域に縮小し、右半分の領域にレストラン情報220を表示する。タスク制御・実行部140は、各情報の表示領域の位置を、それぞれの情報の提供を要求したユーザの位置に近い領域とする表示制御処理を実行する。これらの処理を実行するのは、タスク制御・実行部140の表示位置・形状決定部145である。
 すなわち、観光地情報210を観光地情報の提示を要求したユーザA,301に近い表示領域に表示し、レストラン情報220をレストラン情報の提示を要求したユーザB,302に近い表示領域に表示する。
 なお、各ユーザのユーザ位置情報は、ユーザ情報DB131の登録情報から取得する。
 なお、ユーザB,302からのユーザ発話に応じて、音声認識部110はユーザ発話の発話方向(情報処理装置100からの方向)を解析する。さらに、画像解析部120は、上記のユーザ発話を行ったユーザB,302の位置、顔(視線)方向を解析する。
 これらの解析結果は、ユーザ情報DB131に格納される。
 この時点で、表示部の表示情報200は、ユーザA側の左半分の領域に江の島近辺の観光地情報210が表示され、ユーザB側の右半分の領域に江の島近辺のレストラン情報220が表示された状態となる。
 なお、タスク制御・実行部140は、現在実行中の2つのタスク、すなわち、観光地検索タスクと、レストラン検索タスクをの関連タスクとして、双方のタスク情報登録情報中に記録する。すなわち、図7に示すような関連タスクIDを記録した登録情報をタスク情報DB151に登録する。
 なお、タスク制御・実行部140は、並列に実行されているタスクを関連タスクと判定するのみならず、例えば2つのタスクを実行させるきっかけとなった2つの発話に共通の地域、時間等の要素が含まれている場合も2つのタスクを関連タスクと判定して、関連タスクIDをタスク情報DB151に登録する。発話内容についてはユーザ情報DB131の登録情報を参照して取得する。例えば、ユーザAの発話が「江の島」に関する発話であり、ユーザBの発話も「江の島」に関する発話である場合も、2つの発話に基づいて実行される2つのタスクが関連タスクであると判定される。
 なお、これらの関連タスクに関する処理は、タスク制御・実行部140の関連タスク更新部144が実行する。
 次に、図10に示すように、ユーザA,301とユーザB,302が移動して、2つのユーザ位置が入れ替わったものとする。
 図10に示すように、ユーザA,301が左側から右側に移動し、ユーザB,302が右側から左側に移動したものとする。
 このユーザの移動は、撮像部102の撮影画像を解析する画像解析部120によって解析され、新たなユーザ位置情報がユーザ情報DB131に登録される。
 タスク制御・実行部140は、ユーザ情報DB131に登録されたユーザ位置情報が更新されたことに基づいて、表示部163の表示情報の表示位置を変更する表示情報更新処理を実行する。この処理を実行するのは、タスク制御・実行部140の表示位置・形状決定部145である。
 すなわち、観光地情報210を観光地情報の提示を要求したユーザA,301に近い右側の表示領域に表示し、レストラン情報220をレストラン情報の提示を要求したユーザB,302に近い左側の表示領域に表示する表示位置変更処理を実行する。
 なお、このようなユーザ位置に応じた表示位置の変更処理は、ユーザ位置を常時、トラッキングし、トラッキング情報に基づいて表示位置を逐次、変更する設定が可能である。ただし、頻繁に表示位置を変更すると表示情報が見にくくなるので、ある程度ヒステリシスを持たせて、表示位置の変更が頻繁に発生しない制御を行ってもよい。
 図11を参照して、ヒステリシスを持たせて表示位置変更を行う処理例について説明する。
 図11(処理例1)には、ユーザBがユーザAの右側から左側に移動する場合の例を示している。
 ユーザBがユーザAの右側にいる時点で、表示部には左側にユーザAの要求したタスクaの実行結果としてのデータaが表示され、右側にユーザBの要求したタスクbの実行結果としてのデータbが表示されている。
 ヒステリシスを持たせた表示位置変更を行う場合、ユーザBがユーザAの右側から左側に移動してユーザBがユーザAの左側になった時点では、データa,bの表示位置を変更しない。図に示すように、AB間の距離L1が、規定しきい値Lth以上の距離となったことが確認された場合にデータa,bの表示位置を変更する。
 (処理例2)は、ユーザBがユーザAの左側から右側に移動する場合の例を示している。この場合も、ユーザBがユーザAの左側から右側に移動してユーザBがユーザAの右側になった時点では、データa,bの表示位置を変更しない。図に示すように、AB間の距離L2が、規定しきい値Lth以上の距離となったことが確認された場合にデータa,bの表示位置を変更する。
 このような処理を行うことで、表示部の表示データの表示位置変更が頻繁に発生せず、表示データが見にくくなることを防止できる。
 タスク制御・実行部140の実行する表示データのもう一つの制御例について図12を参照して説明する。
 図12に示す例は、ユーザAが表示部163の表示画像の正面からかなり左側に位置する場合の表示画像の一例を示している。
 このように、ユーザAが表示部163の表示画像の正面から離れた左側、あるいは右側にいるような場合、タスク制御・実行部140は、表示画像を変形させて表示する。すなわち、例えばユーザAの位置と投影面の角度が浅く視認が難しいと判断される場合、ユーザAから最適に見える様にタスクの実行結果である表示データの表示態様を変更する。
 変形対象データは、ユーザAの要求によって実行されているタスクであり、本例の場合、表示情報200の左半分領域に出力されている観光地情報210である
 タスク制御・実行部140161は、この観光地情報210の表示データをユーザAから最適に見える様に変形して表示する。
 なお、この変形表示処理は、ユーザAのみが観光地情報210を見ている場合に限り行うようにしてもよい。図12に示す表示画像の右側にいるユーザBも観光地情報210を見ている場合には、表示画像の変形処理は行わない。
 タスク制御・実行部140は、ユーザ情報DB131に記録された各ユーザの位置情報と顔(視線)方向データを取得して、ユーザの注目しているデータを判定してこれらの制御を実行する。
 表示画像の変形態様は、図12に示す設定に限らず、例えば、図13に示すように、様々な設定がある。
 図12(a)は、ユーザが表示画像を下から見上げて見ている場合の表示データ例である。
 図12(b)は、ユーザが表示画像を横になって見ている場合の表示データ例である。
 図12(c)は、ユーザが表示画像を逆立ちして見ている場合の表示データ例である。
 いずれの場合も、ユーザの視点から最適に見える様に変形して表示する。
 さらに、図14を参照して、タスク制御・実行部140の制御による表示情報の制御例について説明する。図14に示す例は、ユーザAの要求タスクの実行結果である観光地情報210と、ユーザBの要求タスクの実行結果であるレストラン情報220が並んで表示された状態を示している。観光地情報210とレストラン情報220とも同一地域に関する情報である。このような場合、2つの情報に共通して利用可能な地図情報を2つの情報表示領域にまたがる形で大きく表示する。すなわち、図に示すように大きな共通地図情報231を表示する。
 このような表示処理を行うことで、ユーザA,Bとも大きな地図を観察することが可能となる。
  [4.ユーザの注目タスクを判定してタスク制御を行う構成について]
 次に、ユーザの注目タスクを判定してタスク制御を行う構成について説明する。
 上述した処理例では、ユーザA,301の要求によって観光地検索タスクが実行されて観光地情報を表示し、ユーザB,302の要求によってレストラン検索タスクが実行されてレストラン情報を表示する例について説明した。
 図15に示すように、表示情報200の左側に観光地情報210が表示され、右側にレストラン情報220が表示される。
 ここで、図15に示すように、ユーザB,302が、以下のユーザ発話を行ったとする。
 ユーザ発話=3番見せて
 情報処理装置100の音声認識部110は、ユーザB,302の意図が3番を見せてほしいという意図であると解析して、このユーザ発話内容をユーザ情報DB131に記録する。
 タスク制御・実行部140は、このユーザB,302の「3番を見せてほしい」という意図に従った処理を実行することになるが、図に示すように、観光地情報210にもレストラン情報220にも同じ1番~3番の選択項目がある。
 このような場合、タスク制御・実行部140は、ユーザB,302の発話タイミングにおいて、ユーザBが観光地情報210と、レストラン情報220のどちらに注目しているかを判定する。すなわち、ユーザB,302の発話タイミングにおいて、ユーザB,302の視線が観光地情報210と、レストラン情報220のどちら側に向けられているかを判定し、この判定結果に応じてタスク制御を行う。
 ユーザB,302の発話タイミングにおいて、ユーザBの視線が観光地情報210に向けられていると判定した場合、観光地情報210側の3番のデータに対する処理を行う。一方、ユーザB,302の発話タイミングにおいて、ユーザBの視線がレストラン情報220に向けられていると判定した場合、レストラン情報220側の3番のデータに対する処理を行う。
 タスク制御・実行部140は、この視線判定処理に際して、例えば、図15に示すように表示画面上に設定した視線判定領域251,252のどちらにユーザB,302の顔(視線)方向があるかを判定する処理を行う。
 タスク制御・実行部140は、ユーザB,302の顔(視線)方向が、観光地情報210側の視線判定領域251内である場合、ユーザB,302は、観光地情報210側のタスク実行を要求していると判定する。一方、ユーザB,302の顔(視線)方向が、レストラン情報220側の視線判定領域252内である場合、ユーザB,302は、レストラン情報220側のタスク実行を要求していると判定する。
 この処理においては、ユーザの視線方向のベクトルと、表示情報との交点を検出することが必要となる。この交点検出処理の具体例について図16を参照して説明する。
 表示情報200表示面の左右方向中心位置Oから情報処理装置100の中心を通る線をz軸とし、表示情報200表示面に平行で情報処理装置100の中心を通る線をx軸とする。
 このとき、ユーザ300の視線ベクトルと、表示情報200表示面の交点位置PのOからの距離、すなわちOP間の距離Cx[mm]は以下の(式1)に従って算出することができる。
Figure JPOXMLDOC01-appb-M000001
 ただし、
 Fθ[rad]:x軸とユーザ顔中心のなす角
 Fx[mm]:情報処理装置中心からユーザ顔中心までのx軸上の距離
 Fz[mm]:情報処理装置中心からユーザ顔中心までのz軸上の距離
 Vθ[rad]:ユーザ顔(視線)方向の角度(装置方向を0度)
 Sz[mm]:情報処理装置と表示情報(投影面)との距離
 である。
 これらのパラメータ中、Fθ、Fx,Fz、Vθの各値は、ユーザ情報DB131に記録された顔位置情報、顔(視線)方向情報から取得可能な値である。
 Szについては、表示部163のプロジェクタ制御パラメータから取得可能な値である。なお、これらのパラメータの一部については、情報処理装置100の有する距離センサーを用いて計測する構成としてもよい。
 上記(式1)は、表示情報200表示面の交点位置PのOからの水平方向(x方向)の距離を算出する式であるが、表示情報200表示面の交点位置PのOからの垂直方向(y方向)の距離、すなわちCy[mm]についても、既知のパラメータを利用して算出することが可能となる。
 結果として、ユーザの視線方向のベクトルと、表示情報との交点の座標、具体的には、表示情報の中心位置を原点Oとした場合の座標(x,y)を算出することが可能となる。
 タスク制御・実行部140は、上記の算出処理に従って算出される座標(x,y)が、観光地情報210側の視線判定領域251内である場合、ユーザB,302は、観光地情報210側のタスク実行を要求していると判定し、観光地情報210側のタスクに関する処理を実行する。
 一方、座標(x,y)が、レストラン情報220側の視線判定領域252内である場合、ユーザB,302は、レストラン情報220側のタスク実行を要求していると判定し、レストラン情報220側のタスクに関する処理を実行する。
 なお、このようにユーザの視線方向ベクトルと表示面との交点検出によってユーザの処理要求タスクを決定する構成では、視線判定領域の設定によっては、判定が困難となる場合がある。
 具体例について図17を参照して説明する。
 図17に示す例は、各タスクのアイコンを中心とした矩形領域を視線判定領域として設定した例である。
 図17(1)に示すように、2つのタスク各々の2つのアイコンを中心とした矩形領域が重複した領域を持たない場合は、ユーザの視線ベクトルがいずれか一方の視線判定領域に入ることになり問題なく要求タスクを判定することが可能となる。
 しかし、例えば、図17(2)に示すように、2つのタスク各々の2つのアイコンを中心とした矩形領域が重複した領域を持つような場合は、ユーザの視線ベクトルが2つの視線判定領域に入る場合があり、要求タスクの判定が困難となる。タスク制御・実行部140は、このような場合、2つのアイコンの中心線を判定区分線として用いて要求タスクの判定処理を実行する。図に示す例では、ユーザの視線ベクトルと表示面との交点が中心線より左にあれば観光地検索タスクに対する処理を実行し、右側にあればレストラン検索タスクの処理を実行する。
 このユーザ視線ベクトルと、表示情報の表示面との交点検出によるタスク実行制御の具体例について図18を参照して説明する。
 図18に示す例は、ユーザB,302が視線方向を随時変更しながら以下の発話を行った場合の処理例である。
 ユーザ発話=(方向1(観光地情報)を見ながら)そっちの3番の近くに、(方向2(レストラン情報)を見ながら)何かおすすめある。
 このようなユーザ発話があった場合、タスク制御・実行部140は、まず、「3番」の発話タイミングのユーザ視線方向を判定する。この場合、「3番」の発話タイミングのユーザ視線方向は、方向1(観光地情報)である。従って、ユーザ発話に含まれる「3番」は、観光地情報側の3番であると判定する。
 次に、「何かおすすめある」の発話タイミングのユーザ視線方向を判定する。この場合、「何かおすすめある」の発話タイミングのユーザ視線方向は、方向2(レストラン情報)である。従って、ユーザ発話に含まれる「何かおすすめある」は、レストラン情報に対する要求であると判定する。
 このように、タスク制御・実行部140は、ユーザ発話に含まれるワード単位でユーザ視線方向を検出してユーザの注目タスク(視認タスク)を判定する。
 図18にはもう一つのユーザB,302の発話例も示している。以下の
発話である。
 ユーザ発話=(方向1(観光地情報)を見ながら)そっちの3番の近くに、何かおすすめのレストランある。
 この場合、タスク制御・実行部140は、まず、「3番」の発話タイミングのユーザ視線方向を判定する。この場合、「3番」の発話タイミングのユーザ視線方向は、方向1(観光地情報)である。従って、ユーザ発話に含まれる「3番」は、観光地情報側の3番であると判定する。
 次に、「何かおすすめのレストランある」の発話タイミングのユーザ視線方向を判定する。この場合、「何かおすすめのレストランある」の発話タイミングのユーザ視線方向も、方向1(観光情報)であるが、ユーザ発話に含まれる「何かおすすめのレストランある」の意図から、レストラン情報に対する要求であると判定する。
 このように、タスク制御・実行部140は、視線方向のみならず、ユーザ発話の意図も考慮してユーザの要求に基づくタスク制御を実行する。
 図19は、タスク制御・実行部140によるタスク制御のもう一つの処理例を示す図である。
 図19に示す例も、ユーザB,302が視線方向を随時変更しながら以下の発話を行った場合の処理例である。
 ユーザ発話=(方向1(観光地情報)を見ながら)その辺に、(方向2(レストラン情報)を見ながら)何かおすすめある。
 さらに、続けて、
 ユーザ発話=(方向1(観光地情報)を見ながら)その後に行けるおすすめのレストランある。
 このようなユーザ発話があった場合、タスク制御・実行部140は、まず、「その辺」の発話タイミングのユーザ視線方向を判定する。この場合、「その辺」の発話タイミングのユーザ視線方向は、方向1(観光地情報)である。従って、ユーザ発話に含まれる「その辺」は、観光地情報側で提示している地域であると判定する。
 次に、「何かおすすめある」の発話タイミングのユーザ視線方向を判定する。この場合、「何かおすすめある」の発話タイミングのユーザ視線方向は、方向2(レストラン情報)である。従って、ユーザ発話に含まれる「何かおすすめある」は、レストラン情報に対する要求であると判定する。
 なお、各タスクの実行結果として表示されている情報には、表示情報以外の様々な情報が紐づけられている。例えば場所の住所情報、交通機関を利用した場合の到着時間情報、おすすめ音楽情報等、様々な情報である。
 タスク制御・実行部140は、これらの紐づけられた情報を用いて、ユーザ発話に対する応答を行うことができる。
 例えば、
 ユーザ発話=(方向1(観光地情報)を見ながら)その後に行けるおすすめのレストランある。
 このユーザ発話に応じて、タスク制御・実行部140は、表示中の観光地情報に紐づけられた情報を利用してレストラン検索タスクを実行して、ユーザの到着時刻に合せた最適なレストランを検索して検索結果を提示する処理を行うことができる。
  [5.タスク制御・実行部による実行タスクの情報更新処理例]
 次に、タスク制御・実行部140による実行タスクの情報更新処理例について説明する。
 図20は、タスク制御・実行部140による実行タスクの情報更新処理の一例を説明する図である。
 表示情報200として、左側に観光地検索タスクの実行結果としての観光地情報210、右側にレストラン検索タスクの実行結果としてのレストラン情報220が表示された状態である。
 タスク制御・実行部140は、これらの表示情報を表示するのみならず、ユーザに対する様々な情報提供処理行う。
 具体的には表示内容の更新処理や音声出力による情報提供処理等を行う。図20に示す例では、観光地検索タスクによるシステム発話として以下のシステム発話を示している。
 システム発話=表示している観光地候補までの車での移動時間はそれぞれ、XXXが約10分、YYYが約15分、ZZZが約20分です。
 さらに、レストラン検索タスクによるシステム発話として以下のシステム発話を示している。
 システム発話=PPPは、PPPは、海鮮丼が有名なお店で、席から眺める海の景色も評判が良いみたいです
 さらに各タスクは、例えば表示された地図上にシステム発話に含まれる観光地やレストランの場所を示すマーカー261の表示等の処理も実行する。
 また、レストランや観光地との移動時間等の追加情報についても画像や音声で通知してもよい。また、音声出力に含まれるワードに関連する表示情報をハイライト表示、点滅表示等の強調表示を行う構成としてもよい。
 これらの処理は、すべてタスク制御・実行部140の対象タスク実行部143の実行する処理である。
 図21は、タスク制御・実行部140の対象タスク実行部143が行うタスク終了処理の一例について説明する図である。
 タスク制御・実行部140の対象タスク実行部143は、例えば、実行中のタスクが誰にも見られておらず、かつ音声入力による処理もなされていない状態が一定時間継続したことが検出された場合、実行中のタスクに関する表示を消して残ったタスクで最適な表示を行う。
 図21の左側には、時間t1における表示情報を示している。表示情報200として、左側に観光地検索タスクの実行結果としての観光地情報210、右側にレストラン検索タスクの実行結果としてのレストラン情報220が表示された状態である。
 ユーザA,301、ユーザB,302は、いずれも観光地情報210の方を見ている。
 タスク制御・実行部140の対象タスク実行部143は、レストラン情報220が誰にも見られておらず、かつ音声入力による処理もなされていない状態が一定時間継続したことを検出した場合、レストラン情報220に関する表示を消して残った観光地情報210を表示領域全体に拡大する表示を行う。すなわち、図21の右側に示す(t2)表示状態@t2の表示態様に変更する。
 なお、タスク表示の消去時には、一旦、消去対象の表示データをバックグラウンドに退避して一定時間内に音声入力による呼び出しがあれば迅速に復帰させる設定としてもよい。一定時間経過後はタスク自体を停止する。
  [6.情報処理装置の実行する処理のシーケンスについて]
 次に、図22に示すフローチャートを参照して情報処理装置100の実行する処理のシーケンスについて説明する。
 なお、図22のフローに示す処理は、情報処理装置100の記憶部に格納されたプログラムに従って実行することが可能であり、例えばプログラム実行機能を有するCPU等のプロセッサによるプログラム実行処理として行うことができる。
 以下、図22に示すフローの各ステップの処理について説明する。
  (ステップS101)
 まず、ステップS101において、画像解析処理を実行する。この処理は、撮像部102の撮影画像を入力した画像解析部120が実行する処理である。
 このステップS101の画像解析処理の詳細シーケンスが、図22の右にあるステップS201~S207の処理である。
 このステップS201~S207の各ステップの処理について説明するる
  (ステップS201)
 まず、画像解析部120は、撮像部102の撮影画像から顔領域を検出する。この処理は、先に図4を参照して説明した画像解析部120の顔検出部121が実行する。例えば予め記憶部に登録された顔の特徴情報(パターン情報)との照合処理等の既存の手法を適用して行われる
 以下のステップS202~S207の処理は、検出した顔単位で繰り返し実行するループ処理である。
  (ステップS202~S207)
 ステップS202~S207において、撮像部102の撮影画像から検出した顔単位で、ユーザ位置推定処理、顔(視線)方向推定処理、ユーザ識別処理、ユーザ属性(性別、年齢等)判別処理を実行する。
 これらの処理は、先に図4を参照して説明した画像解析部120のユーザ位置推定部122、顔・視線方向推定部123、顔識別部124、属性判別処理部125において実行する処理である。ユーザ位置推定部122は、顔検出部121の検出した顔のある位置を推定する。画像中の顔の位置や大きさ等から情報処理装置からの距離と方向を算出してユーザの顔の位置を判定する。位置情報は例えば情報処理装置に対する相対位置情報である。なお、距離センサーや位置センサー等のセンサー情報を利用する構成としてもよい。
 顔・視線方向推定部123は、顔検出部121の検出した顔の向きや視線方向を推定する。顔の目の位置、目の瞳位置等を検出して、顔方向、視線方向を検出する。
 顔識別部124は、顔検出部121の検出した顔の各々に識別子(ID)を設定する。画像内に複数の顔が検出されている場合、それぞれを区別可能な固有識別子を設定する。なお、ユーザ情報DB131には、予め登録済みの顔情報が格納されており、この登録顔情報との比較照合処理によって一致する顔が識別された場合は、そのユーザ名(登録名)も識別する。
 属性属性判別処理部125は、顔識別部124において識別されたユーザ単位の属性情報、例えば年齢、性別等のユーザ属性情報を取得する。この属性取得処理は、撮影画像に基づいて、その属性、例えば大人か子供か、男性か女性か等の属性を推定することで実行可能である。また、顔識別部124において識別された顔がユーザ情報DB131に登録済みであり、そのユーザの属性情報がDBに記録済みの場合は、このDB登録データを取得してもよい。
 画像解析部120の顔検出部121、ユーザ位置推定部122、顔・視線方向推定部123、顔識別部124、属性判別処理部125、これらの各構成部の取得自用法は、ユーザ情報DB131に登録される。
 ステップS101では、撮像部102の撮影画像から検出した顔単位で上記の処理を実行し、顔単位の情報をユーザ情報DB131に登録する。
  (ステップS102~S103)
 次にステップS102において音声検出が実行される。この処理は、音声入力部101を介した音声信号を入力する音声認識部110が実行する処理である。図4に示す音声認識部110の音声検出部111が実行する。
 ステップS103で、音声が検出されたと判定した場合は、ステップS104に進む。音声が検出されなかったと判定した場合はステップS110に進む。
  (ステップS104)
 次に、ステップS104において、検出した音声の音声認識処理と、音声方向(発話方向)推定処理を実行する。
 この処理は、図4に示す音声認識部110の音声方向推定部112と発話内容認識部113が実行する。
 音声方向推定部112は、発話を行ったユーザの方向、すなわち音声方向を推定する。前述したように、音声入力部(マイク)101は、音源方向を特定可能とした複数のマイクロフォンから構成されるマイクロフォン・アレイとして構成されており、各マイクの取得音の位相差に基づいて音声方向を推定する。
 発話内容認識部113は、例えばASR(Automatic Speech Recognition)機能を利用して音声データを複数の単語から構成されるテキストデータに変換する。さらに、テキストデータに対する発話意味解析処理を実行する。
  (ステップS105)
 次に、ステップS105において、発話ユーザを特定する。この処理は、タスク・制御実行部140の実行する処理である。図6に示すタスク・制御実行部140の発話ユーザ特定部141が実行する。この処理は、ユーザ情報DB131に格納された発話内容に対応付けられたユーザ位置情報を利用して行われる。発話方向の推定情報を用いてその方向にある顔のユーザを特定する処理として実行してもよい。
  (ステップS106)
 次に、ステップS106において、各ユーザの視認アイコンを特定する。この処理は、図6に示すタスク・制御実行部140の視認タスク特定部142が実行する。視認タスク特定部142は、撮像部102の撮影画像に含まれるユーザが見ている表示タスクを特定する処理を行う。この処理は、ユーザ情報DB131に格納されたユーザ位置情報と、顔(視線)方向情報を用いて実行される。
  (ステップS107)
 次に、ステップS107において、ステップS106で特定された視認タスクと、ステップS104において取得された音声認識結果に基づいて、処理タスクを決定してタスクによる処理を実行する。この処理は、図6に示すタスク・制御実行部140の対象タスク実行部143が実行する。対象タスク実行部143は、例えば、ユーザの見ているタスク、あるいはユーザ発話に基づいて表示変更を行うタスクを特定して、そのタスクに関する処理を実行する。
  (ステップS108~S109)
 次に、ステップS108~S109において、現在処理を実行中のタスクに関連する関連タスクがあるか否かを判定し、ある場合は、関連タスクに関する出力内容の変更処理や追加処理を行う。この処理は、図6に示すタスク・制御実行部140の関連タスク更新部144が実行する。
  (ステップS110)
 次に、ステップS110において、現在実行中のタスクによる表示情報等の出力情報を、最新のユーザの位置、視線方向等に応じて変更する等の処理を行う。この処理は、図6に示すタスク・制御実行部140の表示位置・形状決定部145が実行する。
 表示位置・形状決定部145は、表示部163に表示中のタスクの表示位置や形状を決定して、決定した位置、形状に表示情報を更新する。
 なお、ステップS105~S110の処理は、タスク・制御実行部140の実行する処理であり、具体的には、先に図8~図21を参照して説明した様々な処理が行われることになる。
  (ステップS111)
 最後に、ステップS111において、画像。音声の出力処理が実行される。この画像、音声の出力内容は、タスク・制御実行部140において実行されているタスクによって決定される。このタスクの決定した表示情報や音声情報が、出力制御部161の制御の下、音声出力部162、画像出力部163を介して出力される。
  [7.情報処理装置、および情報処理システムの構成例について]
 図3に示す情報処理装置100の各構成要素の処理機能は、すべて一つの装置、例えばユーザの所有するエージェント機器、あるいはスマホやPC等の装置内に構成することも可能であるが、その一部をサーバ等において実行する構成とすることも可能である。
 図23に、本開示の処理を実行するためのシステム構成の例を示す。
 図23(1)情報処理システム構成例1は、図3に示す情報処理装置のほぼ全ての機能を一つの装置、例えばユーザの所有するスマホやPC、あるいは音声入出力と画像入出力機能を持つエージェント機器等のユーザ端末である情報処理装置410内に構成した例である。
 ユーザ端末に相当する情報処理装置410は、例えば応答文生成時に外部アプリを利用する場合にのみ、アプリ実行サーバ420と通信を実行する。
 アプリ実行サーバ420は、例えば天気情報提供サーバ、交通情報提供サーバ、医療情報提供サーバ、観光情報提供サーバ等であり、ユーザ発話に対する応答を生成するための情報を提供可能なサーバ群によって構成される。
 一方、図23(2)情報処理システム構成例2は、図3に示す情報処理装置の機能の一部をユーザの所有するスマホやPC、エージェント機器等の情報処理端末である情報処理装置410内に構成し、一部を情報処理装置と通信可能なデータ処理サーバ460において実行する構成としたシステム例である。
 例えば、図3に示す装置中の音声認識部110や画像解析部120において実行する処理をサーバ側で実行する構成等が可能である。情報処理端末側の情報処理装置410側の音声入力部101と撮像部102の取得データをサーバに送信してサーバ側で解析データを生成する。情報処理端末は、サーバ解析データを用いてタスクの制御、実行を行うといった構成である。
 情報処理端末側のタスク制御・実行部は、サーバの生成した解析データに含まれるユーザ位置に応じてタスク対応情報の表示位置や形状を変更する処理を行うことになる。なお、ユーザ端末等の情報処理端末側の機能と、サーバ側の機能の機能分轄態様は、様々な異なる設定が可能であり、また、1つの機能を双方で実行する構成も可能である。
  [8.情報処理装置のハードウェア構成例について]
 次に、図24を参照して、情報処理装置のハードウェア構成例について説明する。
 図24を参照して説明するハードウェアは、先に図3を参照して説明した情報処理装置のハードウェア構成例であり、また、図23を参照して説明したデータ処理サーバ460を構成する情報処理装置のハードウェア構成の一例である。
 CPU(Central Processing Unit)501は、ROM(Read Only Memory)502、または記憶部508に記憶されているプログラムに従って各種の処理を実行する制御部やデータ処理部として機能する。例えば、上述した実施例において説明したシーケンスに従った処理を実行する。RAM(Random Access Memory)503には、CPU501が実行するプログラムやデータなどが記憶される。これらのCPU501、ROM502、およびRAM503は、バス504により相互に接続されている。
 CPU501はバス504を介して入出力インタフェース505に接続され、入出力インタフェース505には、各種スイッチ、キーボード、マウス、マイクロフォン、センサーなどよりなる入力部506、ディスプレイ、スピーカーなどよりなる出力部507が接続されている。CPU501は、入力部506から入力される指令に対応して各種の処理を実行し、処理結果を例えば出力部507に出力する。
 入出力インタフェース505に接続されている記憶部508は、例えばハードディスク等からなり、CPU501が実行するプログラムや各種のデータを記憶する。通信部509は、Wi-Fi通信、ブルートゥース(登録商標)(BT)通信、その他インターネットやローカルエリアネットワークなどのネットワークを介したデータ通信の送受信部として機能し、外部の装置と通信する。
 入出力インタフェース505に接続されているドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、あるいはメモリカード等の半導体メモリなどのリムーバブルメディア511を駆動し、データの記録あるいは読み取りを実行する。
  [9.本開示の構成のまとめ]
 以上、特定の実施例を参照しながら、本開示の実施例について詳解してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本開示の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
 なお、本明細書において開示した技術は、以下のような構成をとることができる。
 (1) 音声入力部を介して入力する音声の解析処理を実行する音声認識部と、
 撮像部を介して入力する撮影画像の解析処理を実行する画像解析部と、
 ユーザ発話に応じた処理を実行するタスク制御・実行部と、
 前記タスク制御・実行部におけるタスクの実行に基づく表示情報であるタスク対応情報を出力する表示部を有し、
 前記タスク制御・実行部は、
 ユーザ位置に応じて前記タスク対応情報の表示位置を変更する情報処理装置。
 (2) 前記タスク制御・実行部は、
 前記タスク対応情報の表示位置、または表示形状の少なくともいずれかを、ユーザ位置に応じて変更する制御を実行する(1)に記載の情報処理装置。
 (3) 前記タスク制御・実行部は、
 前記タスク対応情報の表示位置、または表示形状の少なくともいずれかを、ユーザの顔または視線方向に応じて変更する制御を実行する(1)または(2)に記載の情報処理装置。
 (4) 前記タスク制御・実行部は、
 前記表示部に複数のタスク対応情報を表示する場合、
 各タスク対応情報の表示位置を、各タスクの実行を要求したユーザ位置に近い位置とするタスク単位の表示位置制御を実行する(1)~(3)いずれかに記載の情報処理装置。
 (5) 前記画像解析部は、ユーザ位置を解析し、
 前記タスク制御・実行部は、
 前記画像解析部の解析したユーザ位置情報に基づいて、前記表示部におけるタスク対応情報の表示位置、または表示形状の少なくともいずれかを変更する(1)~(4)いずれかに記載の情報処理装置。
 (6) 前記画像解析部は、
 前記撮影画像の解析処理によって取得されるユーザ位置情報を含むユーザ情報をユーザ情報データベースに格納する(1)~(5)いずれかに記載の情報処理装置。
 (7) 前記タスク制御・実行部は、
 前記ユーザ情報データベースの格納情報を用いて、タスク対応情報の表示位置、または表示形状の少なくともいずれかの変更態様を決定する(6)に記載の情報処理装置。
 (8) 前記タスク制御・実行部は、
 ユーザの視線ベクトルと前記表示情報との交点を算出し、算出した交点位置に表示されたタスク対応情報をユーザ視認タスクとして特定し、
 ユーザ発話に対して、前記視認タスクの処理を実行する(1)~(7)いずれかに記載の情報処理装置。
 (9) 前記タスク制御・実行部は、
 ユーザ発話に含まれるワード単位で、ユーザの視線ベクトルと前記表示情報との交点を算出し、算出した交点位置に表示されたタスク対応情報をユーザ視認タスクとして特定する処理を実行する(1)~(8)いずれかに記載の情報処理装置。
 (10) 前記タスク制御・実行部は、
 タスク対応情報の表示領域情報を含むタスク情報をタスク情報データベースに格納する(1)~(9)いずれかに記載の情報処理装置。
 (11) 前記タスク制御・実行部は、
 実行中のタスクに関連する関連タスクの識別子を前記タスク情報データベースに格納する(10)に記載の情報処理装置。
 (12) 前記音声認識部は、
 ユーザ発話の発話方向推定処理を実行し、
 前記タスク制御・実行部は、
 前記音声認識部の推定した発話方向に応じて、前記表示部におけるタスク対応情報の表示位置、または表示形状の少なくともいずれかを変更する(1)~(11)いずれかに記載の情報処理装置。
 (13) 情報処理端末とサーバを有する情報処理システムであり、
 前記情報処理端末は、
 音声入力部と、撮像部と、
 ユーザ発話に応じた処理を実行するタスク制御・実行部と、
 前記音声入力部を介して取得した音声と、前記撮像部を介して取得した撮影画像を前記サーバに送信する通信部を有し、
 前記サーバは、
 前記情報処理端末からの受信データに基づいて、前記発話者の発話内容と、発話方向と、前記カメラ撮影画像に含まれるユーザの位置を示すユーザ位置を解析情報として生成し、
 前記情報処理端末のタスク制御・実行部は、
 前記サーバの生成した解析情報を利用して、タスクの実行および制御を行う情報処理システム。
 (14) 前記情報処理端末のタスク制御・実行部は、
 前記サーバの生成したユーザ位置に応じて前記タスク対応情報の表示位置を変更する(13)に記載の情報処理システム。
 (15) 情報処理装置において実行する情報処理方法であり、
 音声認識部が、音声入力部を介して入力する音声の解析処理を実行し、
 画像解析部が、撮像部を介して入力する撮影画像の解析処理を実行し、
 タスク制御・実行部が、ユーザ発話に応じた処理を実行するタスクの実行に基づく表示情報であるタスク対応情報を表示部に出力するとともに、ユーザ位置に応じて前記タスク対応情報の表示位置を変更する情報処理方法。
 (16) 情報処理端末とサーバを有する情報処理システムにおいて実行する情報処理方法であり、
 前記情報処理端末は、
 音声入力部を介して取得した音声と、撮像部を介して取得した撮影画像を前記サーバに送信し、
 前記サーバは、
 前記情報処理端末からの受信データに基づいて、前記発話者の発話内容と、発話方向と、前記カメラ撮影画像に含まれるユーザの位置を示すユーザ位置を解析情報として生成し、
 前記情報処理端末は、
 前記サーバの生成した解析情報を利用して、タスクの実行および制御を行うとともに、前記サーバの生成したユーザ位置に応じてタスク対応情報の表示位置を変更する情報処理方法。
 (17) 情報処理装置において情報処理を実行させるプログラムであり、
 音声認識部に、音声入力部を介して入力する音声の解析処理を実行させ、
 画像解析部に、撮像部を介して入力する撮影画像の解析処理を実行させ、
 タスク制御・実行部に、ユーザ発話に応じたタスクの実行に基づく表示情報であるタスク対応情報を表示部に出力させるとともに、ユーザ位置に応じて前記タスク対応情報の表示位置を変更させるプログラム。
 また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、LAN(Local Area Network)、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
 なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
 以上、説明したように、本開示の一実施例の構成によれば、ユーザの注目タスクを識別してタスク対応情報の表示制御を行う装置、方法が実現される。
 具体的には、例えば、撮影画像の解析処理を実行する画像解析部と、ユーザ発話に応じた処理を実行するタスク制御・実行部と、タスク制御・実行部におけるタスクの実行に基づく表示情報であるタスク対応情報を出力する表示部を有する。タスク制御・実行部は、ユーザ位置や、ユーザの顔または視線方向に応じてタスク対応情報の表示位置や表示形状を変更する制御を実行する。表示部に複数のタスク対応情報を表示する場合、各タスク対応情報の表示位置を、各タスクの実行を要求したユーザ位置に近い位置とするタスク単位の表示制御を実行する。
 本構成により、ユーザの注目タスクを識別してタスク対応情報の表示制御を行う装置、方法が実現される。
  10 情報処理装置
  11 撮像部
  12 マイク
  13 表示部
  14 スピーカー
  20 サーバ
  30 外部機器
 101 音声入力部
 102 撮像部
 110 音声認識部
 111 音声検出部
 112 音声方向推定部
 113 発話内容認認識部
 120 画像解析部
 121 顔検出部
 122 ユーザ位置推定部
 123 顔・視線方向推定部
 124 顔識別部
 125 属性判別処理部
 131 ユーザ情報DB
 140 タスク制御・実行部
 141 発話ユーザ特定部
 142 視認タスク特定部
 143 対象タスク実行部
 144 関連タスク更新部
 145 表示位置・形状決定部
 151 タスク情報DB
 161 出力制御部
 162 音声出力部
 163 表示部
 171 通信部
 410 情報処理装置
 420 アプリ実行サーサーバ
 460 データ処理サーバ
 501 CPU
 502 ROM
 503 RAM
 504 バス
 505 入出力インタフェース
 506 入力部
 507 出力部
 508 記憶部
 509 通信部
 510 ドライブ
 511 リムーバブルメディア

Claims (17)

  1.  音声入力部を介して入力する音声の解析処理を実行する音声認識部と、
     撮像部を介して入力する撮影画像の解析処理を実行する画像解析部と、
     ユーザ発話に応じた処理を実行するタスク制御・実行部と、
     前記タスク制御・実行部におけるタスクの実行に基づく表示情報であるタスク対応情報を出力する表示部を有し、
     前記タスク制御・実行部は、
     ユーザ位置に応じて前記タスク対応情報の表示位置を変更する情報処理装置。
  2.  前記タスク制御・実行部は、
     前記タスク対応情報の表示位置、または表示形状の少なくともいずれかを、ユーザ位置に応じて変更する制御を実行する請求項1に記載の情報処理装置。
  3.  前記タスク制御・実行部は、
     前記タスク対応情報の表示位置、または表示形状の少なくともいずれかを、ユーザの顔または視線方向に応じて変更する制御を実行する請求項1に記載の情報処理装置。
  4.  前記タスク制御・実行部は、
     前記表示部に複数のタスク対応情報を表示する場合、
     各タスク対応情報の表示位置を、各タスクの実行を要求したユーザ位置に近い位置とするタスク単位の表示位置制御を実行する請求項1に記載の情報処理装置。
  5.  前記画像解析部は、ユーザ位置を解析し、
     前記タスク制御・実行部は、
     前記画像解析部の解析したユーザ位置情報に基づいて、前記表示部におけるタスク対応情報の表示位置、または表示形状の少なくともいずれかを変更する請求項1に記載の情報処理装置。
  6.  前記画像解析部は、
     前記撮影画像の解析処理によって取得されるユーザ位置情報を含むユーザ情報をユーザ情報データベースに格納する請求項1に記載の情報処理装置。
  7.  前記タスク制御・実行部は、
     前記ユーザ情報データベースの格納情報を用いて、タスク対応情報の表示位置、または表示形状の少なくともいずれかの変更態様を決定する請求項6に記載の情報処理装置。
  8.  前記タスク制御・実行部は、
     ユーザの視線ベクトルと前記表示情報との交点を算出し、算出した交点位置に表示されたタスク対応情報をユーザ視認タスクとして特定し、
     ユーザ発話に対して、前記視認タスクの処理を実行する請求項1に記載の情報処理装置。
  9.  前記タスク制御・実行部は、
     ユーザ発話に含まれるワード単位で、ユーザの視線ベクトルと前記表示情報との交点を算出し、算出した交点位置に表示されたタスク対応情報をユーザ視認タスクとして特定する処理を実行する請求項1に記載の情報処理装置。
  10.  前記タスク制御・実行部は、
     タスク対応情報の表示領域情報を含むタスク情報をタスク情報データベースに格納する請求項1に記載の情報処理装置。
  11.  前記タスク制御・実行部は、
     実行中のタスクに関連する関連タスクの識別子を前記タスク情報データベースに格納する請求項10に記載の情報処理装置。
  12.  前記音声認識部は、
     ユーザ発話の発話方向推定処理を実行し、
     前記タスク制御・実行部は、
     前記音声認識部の推定した発話方向に応じて、前記表示部におけるタスク対応情報の表示位置、または表示形状の少なくともいずれかを変更する請求項1に記載の情報処理装置。
  13.  情報処理端末とサーバを有する情報処理システムであり、
     前記情報処理端末は、
     音声入力部と、撮像部と、
     ユーザ発話に応じた処理を実行するタスク制御・実行部と、
     前記音声入力部を介して取得した音声と、前記撮像部を介して取得した撮影画像を前記サーバに送信する通信部を有し、
     前記サーバは、
     前記情報処理端末からの受信データに基づいて、前記発話者の発話内容と、発話方向と、前記カメラ撮影画像に含まれるユーザの位置を示すユーザ位置を解析情報として生成し、
     前記情報処理端末のタスク制御・実行部は、
     前記サーバの生成した解析情報を利用して、タスクの実行および制御を行う情報処理システム。
  14.  前記情報処理端末のタスク制御・実行部は、
     前記サーバの生成したユーザ位置に応じて前記タスク対応情報の表示位置を変更する請求項13に記載の情報処理システム。
  15.  情報処理装置において実行する情報処理方法であり、
     音声認識部が、音声入力部を介して入力する音声の解析処理を実行し、
     画像解析部が、撮像部を介して入力する撮影画像の解析処理を実行し、
     タスク制御・実行部が、ユーザ発話に応じた処理を実行するタスクの実行に基づく表示情報であるタスク対応情報を表示部に出力するとともに、ユーザ位置に応じて前記タスク対応情報の表示位置を変更する情報処理方法。
  16.  情報処理端末とサーバを有する情報処理システムにおいて実行する情報処理方法であり、
     前記情報処理端末は、
     音声入力部を介して取得した音声と、撮像部を介して取得した撮影画像を前記サーバに送信し、
     前記サーバは、
     前記情報処理端末からの受信データに基づいて、前記発話者の発話内容と、発話方向と、前記カメラ撮影画像に含まれるユーザの位置を示すユーザ位置を解析情報として生成し、
     前記情報処理端末は、
     前記サーバの生成した解析情報を利用して、タスクの実行および制御を行うとともに、前記サーバの生成したユーザ位置に応じてタスク対応情報の表示位置を変更する情報処理方法。
  17.  情報処理装置において情報処理を実行させるプログラムであり、
     音声認識部に、音声入力部を介して入力する音声の解析処理を実行させ、
     画像解析部に、撮像部を介して入力する撮影画像の解析処理を実行させ、
     タスク制御・実行部に、ユーザ発話に応じたタスクの実行に基づく表示情報であるタスク対応情報を表示部に出力させるとともに、ユーザ位置に応じて前記タスク対応情報の表示位置を変更させるプログラム。
PCT/JP2019/018770 2018-06-07 2019-05-10 タスク対応情報の表示位置を変更する情報処理装置 Ceased WO2019235135A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US15/733,826 US20210217412A1 (en) 2018-06-07 2019-05-10 Information processing apparatus, information processing system, information processing method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-109295 2018-06-07
JP2018109295 2018-06-07

Publications (1)

Publication Number Publication Date
WO2019235135A1 true WO2019235135A1 (ja) 2019-12-12

Family

ID=68770754

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/018770 Ceased WO2019235135A1 (ja) 2018-06-07 2019-05-10 タスク対応情報の表示位置を変更する情報処理装置

Country Status (2)

Country Link
US (1) US20210217412A1 (ja)
WO (1) WO2019235135A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022107199A1 (ja) * 2020-11-17 2022-05-27 日本電信電話株式会社 文字情報付与方法、文字情報付与装置及びプログラム
JPWO2023047487A1 (ja) * 2021-09-22 2023-03-30

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0883093A (ja) * 1994-09-14 1996-03-26 Canon Inc 音声認識装置及び該装置を用いた情報処理装置
JPH0883157A (ja) * 1994-09-14 1996-03-26 Canon Inc 情報処理方法及び装置
WO2010089989A1 (ja) * 2009-02-05 2010-08-12 パナソニック株式会社 情報表示装置及び情報表示方法
US20120268372A1 (en) * 2011-04-19 2012-10-25 Jong Soon Park Method and electronic device for gesture recognition
JP2013179553A (ja) * 2012-01-30 2013-09-09 Sharp Corp 画面分割表示システム及び画面分割表示方法
US20140210714A1 (en) * 2013-01-25 2014-07-31 Lg Electronics Inc. Image display apparatus and method for operating the same
WO2015049931A1 (ja) * 2013-10-04 2015-04-09 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
WO2016072128A1 (ja) * 2014-11-04 2016-05-12 ソニー株式会社 情報処理装置、通信システム、情報処理方法およびプログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0883093A (ja) * 1994-09-14 1996-03-26 Canon Inc 音声認識装置及び該装置を用いた情報処理装置
JPH0883157A (ja) * 1994-09-14 1996-03-26 Canon Inc 情報処理方法及び装置
WO2010089989A1 (ja) * 2009-02-05 2010-08-12 パナソニック株式会社 情報表示装置及び情報表示方法
US20120268372A1 (en) * 2011-04-19 2012-10-25 Jong Soon Park Method and electronic device for gesture recognition
JP2013179553A (ja) * 2012-01-30 2013-09-09 Sharp Corp 画面分割表示システム及び画面分割表示方法
US20140210714A1 (en) * 2013-01-25 2014-07-31 Lg Electronics Inc. Image display apparatus and method for operating the same
WO2015049931A1 (ja) * 2013-10-04 2015-04-09 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
WO2016072128A1 (ja) * 2014-11-04 2016-05-12 ソニー株式会社 情報処理装置、通信システム、情報処理方法およびプログラム

Also Published As

Publication number Publication date
US20210217412A1 (en) 2021-07-15

Similar Documents

Publication Publication Date Title
US11430448B2 (en) Apparatus for classifying speakers using a feature map and method for operating the same
CN113302664B (zh) 运载工具的多模态用户接口
EP3792911B1 (en) Method for detecting key term in speech signal, device, terminal, and storage medium
US10373648B2 (en) Apparatus and method for editing content
US20180188840A1 (en) Information processing device, information processing method, and program
KR102748077B1 (ko) 음향 주밍
US11373650B2 (en) Information processing device and information processing method
US20200327890A1 (en) Information processing device and information processing method
US9870521B1 (en) Systems and methods for identifying objects
KR102805440B1 (ko) 인공지능 시스템의 앱들 또는 스킬들의 리스트를 표시하는 증강 현실 장치 및 동작 방법
US10788902B2 (en) Information processing device and information processing method
KR20190053001A (ko) 이동이 가능한 전자 장치 및 그 동작 방법
US20230122450A1 (en) Anchored messages for augmented reality
WO2018139036A1 (ja) 情報処理装置、情報処理方法およびプログラム
KR102668301B1 (ko) 전자 장치의 움직임을 결정하는 방법 및 이를 사용하는 전자 장치
KR102330218B1 (ko) 발달장애인의 언어 훈련을 위한 가상현실 교육 시스템 및 방법
WO2019235135A1 (ja) タスク対応情報の表示位置を変更する情報処理装置
EP2888716B1 (en) Target object angle determination using multiple cameras
CN107548483B (zh) 控制方法、控制装置、系统以及包括这样的控制装置的机动车辆
US20210020179A1 (en) Information processing apparatus, information processing system, information processing method, and program
JP2007272534A (ja) 省略語補完装置、省略語補完方法、及びプログラム
US11057734B2 (en) Geospecific information system and method
EP3816774A1 (en) Information processing device for executing plurality of processes in parallel
JP6621595B2 (ja) 情報処理装置、情報処理方法及びプログラム
KR20200079748A (ko) 발달장애인의 언어 훈련을 위한 가상현실 교육 시스템 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19815930

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19815930

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP