[go: up one dir, main page]

JP2011253374A - 情報処理装置、および情報処理方法、並びにプログラム - Google Patents

情報処理装置、および情報処理方法、並びにプログラム Download PDF

Info

Publication number
JP2011253374A
JP2011253374A JP2010127110A JP2010127110A JP2011253374A JP 2011253374 A JP2011253374 A JP 2011253374A JP 2010127110 A JP2010127110 A JP 2010127110A JP 2010127110 A JP2010127110 A JP 2010127110A JP 2011253374 A JP2011253374 A JP 2011253374A
Authority
JP
Japan
Prior art keywords
user
information
unit
information processing
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2010127110A
Other languages
English (en)
Inventor
Akane Sano
あかね 佐野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2010127110A priority Critical patent/JP2011253374A/ja
Priority to CN2011101511852A priority patent/CN102270042A/zh
Priority to US13/116,848 priority patent/US9477304B2/en
Publication of JP2011253374A publication Critical patent/JP2011253374A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】ユーザ状態等を解析してユーザの困り度を判定して判定結果に応じてヘルプ情報を提供する装置および方法を実現する。
【解決手段】カメラの撮影画像の解析処理を実行する画像解析部の解析結果と、マイクから入力する音声の解析処理を実行する音声解析部の解析結果を入力して、ユーザに対するヘルプ情報の出力制御を実行するデータ処理部を有する。データ処理部は、画像解析結果として、例えばユーザの顔の向きが装置方向を向いているか否か等のユーザ情報を取得し、取得したユーザ情報に基づいて、ユーザの困り度を算出し、算出した困り度が規定の閾値以上である場合にユーザに対してヘルプ情報を出力する処理を行う。
【選択図】図3

Description

本発明は、情報処理装置、および情報処理方法、並びにプログラムに関する。特に、ユーザの発話等に基づいて様々な処理を実行する情報処理装置、および情報処理方法、並びにプログラムに関する。
PCや、テレビ、録画再生機、その他、様々な家電製品を操作する場合、ユーザは、各装置に備えられた入力部やあるいはリモコンなどを操作して、所望の処理を装置に実行させる。例えばPCを利用する場合にはキーボードやマウスを入力デバイスとして用いることが多い。また、テレビや録画再生機などに対してはリモコンを用いて、様々な処理、例えばチャンネルの切り替えや再生コンテンツの選択などを行うことが多い。
このような様々な装置に対する指示を、ユーザの発話や動作によって実行するシステムについて、様々な研究がなされている。具体的には音声認識処理を用いてユーザの発話を認識するシステムや、画像処理を用いてユーザの行動やジェスチャーを認識するシステムなどである。
リモコン、キーボート、マウス等の一般的な入力デバイスに加えて、音声認識や画像認識など、様々な複数のコミュニケーションモードを利用して、ユーザとのコミュニケーションを実行するインタフェースは、マルチモーダル・インタフェースと呼ばれる。マルチモーダル・インタフェースについて開示した従来技術として、例えば、特許文献1(US特許6988072号公報)がある。
しかしながら、このようなマルチモーダル・インタフェース等において利用される音声認識装置や画像認識装置は処理能力に限界があり、理解できるユーザの発話や動作が限られてしまう。従って、ユーザの意思が正確にシステム側に伝わらない場合も多いというのが現状である。特に音声認識のシステムにおいて,ユーザの発話できるコマンドの種類が増えれば増えるほど,ユーザは自然なインタラクションを行うことができるが,何が受け付けられるのか,利用可能なコマンドを知ることができず,次に何を発話してよいか困る時がある。
US特許第6,988,072号公報
本発明は、例えば上記問題点に鑑みてなされたものであり、ユーザの発話や動作などの音声情報や画像情報を情報処理装置が入力して処理を実行するマルチモーダルなインタラクションシステムにおいて、例えばユーザの存在、ユーザの顔の向き、ユーザの状態、システムの状態、今までの応答の履歴等に応じて最適なヘルプ情報をユーザに提供することを可能とした情報処理装置、および情報処理方法、並びにプログラムを提供することを目的とする。
本発明の第1の側面は、
カメラの撮影画像の解析処理を実行する画像解析部と、
マイクから入力する音声の解析処理を実行する音声解析部と、
前記画像解析部の解析結果と、前記音声解析部の解析結果を入力して、ユーザに対するヘルプ情報の出力制御を実行するデータ処理部を有し、
前記データ処理部は、
画像解析結果または音声解析結果の少なくともいずれかの解析結果に基づいて、ユーザの困り度を算出し、算出した困り度が規定の閾値以上である場合にユーザに対してヘルプ情報を出力する処理を行う情報処理装置にある。
さらに、本発明の情報処理装置の一実施態様において、前記データ処理部は、画像解析結果からユーザの顔の向きが情報処理装置の方向を向いているか否かを判定し、該判定情報を適用して前記困り度の算出を実行する。
さらに、本発明の情報処理装置の一実施態様において、前記データ処理部は、画像解析結果からユーザの顔が一定の方向を向いている持続時間を判定し、該判定情報を適用して前記困り度の算出を実行する。
さらに、本発明の情報処理装置の一実施態様において、前記データ処理部は、ユーザの要求に応じた処理が実行されたか否かの判定情報を適用して前記困り度の算出を実行する。
さらに、本発明の情報処理装置の一実施態様において、前記データ処理部は、ユーザ要求の棄却回数情報に基づいてユーザレベルを判定し、該判定情報を適用して前記困り度の算出を実行する。
さらに、本発明の情報処理装置の一実施態様において、前記データ処理部は、情報処理装置からのユーザに対する応答処理からの経過時間情報に基づいて前記困り度の算出を実行する。
さらに、本発明の情報処理装置の一実施態様において、前記情報処理装置は、情報処理装置の状態遷移を取得して保持するシステム状態制御部を有し、前記データ処理部は、前記システム状態制御部の保持したシステム状態に応じたヘルプ情報を出力する処理を行う。
さらに、本発明の第2の側面は、
情報処理装置において実行する情報処理方法であり、
画像解析部が、カメラの撮影画像の解析処理を実行する画像解析ステップと、
音声解析部が、マイクから入力する音声の解析処理を実行する音声解析ステップと、
データ処理部が、前記画像解析部の解析結果と、前記音声解析部の解析結果を入力して、ユーザに対するヘルプ情報の出力制御を実行するデータ処理ステップを実行し、
前記データ処理ステップは、
画像解析結果または音声解析結果の少なくともいずれかの解析結果に基づいて、ユーザの困り度を算出し、算出した困り度が規定の閾値以上である場合にユーザに対してヘルプ情報を出力する処理を行うステップである情報処理方法にある。
さらに、本発明の第3の側面は、
情報処理装置において情報処理を実行させるプログラムであり、
画像解析部に、カメラの撮影画像の解析処理を実行させる画像解析ステップと、
音声解析部に、マイクから入力する音声の解析処理を実行させる音声解析ステップと、
データ処理部に、前記画像解析部の解析結果と、前記音声解析部の解析結果を入力して、ユーザに対するヘルプ情報の出力制御を実行させるデータ処理ステップを有し、
前記データ処理ステップは、
画像解析結果または音声解析結果の少なくともいずれかの解析結果に基づいて、ユーザの困り度を算出し、算出した困り度が規定の閾値以上である場合にユーザに対してヘルプ情報を出力する処理を行わせるステップであるプログラムにある。
なお、本発明のプログラムは、例えば、様々なプログラム・コードを実行可能な情報処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、情報処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。
本発明のさらに他の目的、特徴や利点は、後述する本発明の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
本発明の一実施例の構成によれば、ユーザ状態を解析してユーザの困り度を判定して判定結果に応じてヘルプ情報を提供する装置および方法が実現される。具体的には、データ処理部が、カメラの撮影画像の解析処理を実行する画像解析部の解析結果と、マイクから入力する音声の解析処理を実行する音声解析部の解析結果を入力して、ユーザに対するヘルプ情報の出力制御を実行する。データ処理部は、画像解析結果として、例えばユーザの顔の向きが装置方向を向いているか否か等のユーザ情報を取得し、取得したユーザ情報に基づいて、ユーザの困り度を算出し、算出した困り度が規定の閾値以上である場合にユーザに対してヘルプ情報を出力する処理を行う。
本発明の情報処理装置の利用例について説明する図である。 本発明の情報処理装置の構成例を示すブロック図である。 本発明の情報処理装置の詳細な構成例を示すブロック図である。 本発明の情報処理装置の実行する処理例について説明するフローチャートを示す図である。 本発明の情報処理装置の実行する処理例について説明するフローチャートを示す図である。 本発明の情報処理装置の実行する処理例について説明するフローチャートを示す図である。 本発明の情報処理装置の実行する処理例について説明するフローチャートを示す図である。 本発明の情報処理装置の実行する処理例について説明する図である。 本発明の情報処理装置の実行する処理例について説明する図である。 本発明の情報処理装置のハードウェア構成例について説明する図である。
以下、図面を参照しながら本発明の情報処理装置、および情報処理方法、並びにプログラムの詳細について説明する。なお、説明は以下の項目に従って行う。
1.本発明の情報処理装置の実行する処理の概要について
2.本発明の情報処理装置の構成例について
3.ユーザに対するヘルプ情報の出力処理の具体例について
4.情報処理装置のハードウェア構成例について
[1.本発明の情報処理装置の実行する処理の概要について]
まず、図1を参照して本発明の情報処理装置の実行する処理の概要について説明する。図1には、本発明に係る情報処理装置の例としてテレビを示している。情報処理装置100は、例えば、放送コンテンツの表示処理の他、内蔵する録画再生機器、例えばハードディスク、DVDやBlu−rayディスク等に記録されたコンテンツの再生処理や、録画再生機器に対する番組の録画処理などを実行する。
情報処理装置100の前には、複数のユーザがいる。図に示す例では、ユーザa,11、ユーザb,12、ユーザc,13がいる。これらのユーザは、情報処理装置100に対して、様々な要求を行う。例えばチャンネルの切り替え、ボリュームの調整、録画処理の開始、あるいは記録コンテンツの一覧リストの表示、リストからのコンテンツの選択再生要求、再生の停止、早送りなどの要求である。
ユーザは、これらの要求を音声、すなわち発話によって行う。情報処理装置100は、カメラ101、マイクとスピーカを備えた音声入出力部102を有する。ユーザa〜c,11〜13の発する言葉は、マイクとスピーカを備えた音声入出力部102を介して情報処理装置100内に入力される。また、ユーザa〜c,11〜13の画像は、カメラ101を介して情報処理装置100内に入力される。
情報処理装置101は、これらの入力情報を解析して、装置が実行すべきアクションを決定し、実行する。ユーザの要求が理解できた場合は、その要求に応じた処理を実行する。例えばチャンネルの切り替えやコンテンツの選択再生処理などである。
例えば、本発明の情報処理装置101は、例えばユーザの過去数ステップの顔の向き、注視方向、一つ前の発話からの経過時間、システムからの応答を最後に出力してからの経過時間、過去数ステップのユーザの音声コマンドに対するシステムからの行動、システムの現在の状態等を解析し、この解析結果に応じてユーザがシステムからの助けを必要としている状態かどうかを推定し、困っていると推定された時には利用可能なコマンド例、あるいはヘルプを表示するためのコマンドの提示などのヘルプ情報の出力を行う。これらの具体的な処理については後段で説明する。
[2.本発明の情報処理装置の構成例について]
次に、図2を参照して本発明の情報処理装置の構成例について説明する。図2に示す情報処理装置100は、例えば図1に示す情報処理装置100に対応する。なお、本発明の情報処理装置はテレビに限らず、PCや、録画再生機、その他、様々な家電製品として実現可能である。すなわち、ユーザ要求に応じて様々な処理を行う情報処理装置である。
図2に示すように情報処理装置100は、画像入力部(カメラ)201、画像解析部202、音声入力部(マイク)203、音声解析部204、データ処理部205、音声出力部(スピーカ)206、画像出力部(表示部)207を有する。
画像入力部(カメラ)201は、情報処理装置200の周囲の画像、例えばユーザの画像を入力する。画像入力部(カメラ)201の撮影した画像は画像解析部202に入力される。画像解析部202は、例えば、予め記憶部に格納済みのユーザの顔情報などの登録情報を用いて、撮影画像に含まれるユーザの識別処理を実行する。具体的には、ユーザの位置、ユーザが誰であるかなどの情報を解析する。この解析情報がデータ処理部205に入力される。
音声入力部(マイク)203は、情報処理装置200の周囲の音声情報、例えばユーザの発話を入力する。音声入力部(マイク)203の入力した音声情報は音声解析部204に入力される。音声解析部204は、音声解析用の辞書を記憶部内に有しており、ユーザの発話した単語を、辞書を用いて解析し、解析情報をデータ処理部205に入力する。
データ処理部205では、音声解析部204から音声解析情報を入力し、画像解析部202から画像解析情報を入力し、入力情報に従って、情報処理装置が実行する処理(アクション)を決定する。すなわち、前述したように、ユーザの要求が理解できた場合は、その要求に応じた処理を実行する。例えばチャンネルの切り替えやコンテンツの選択再生処理などである。
さらに、データ処理部205は、例えばユーザの過去数ステップの顔の向き、注視方向、一つ前の発話からの経過時間、システムからの応答を最後に出力してからの経過時間、過去数ステップのユーザの音声コマンドに対するシステムからの行動、システムの現在の状態等を解析し、この解析結果に応じてユーザがシステムからの助けを必要としている状態かどうかを推定し、困っていると推定された時には利用可能なコマンド例、あるいはヘルプを表示するためのコマンドの提示などのヘルプ情報の出力を行う。
ヘルプ情報の出力処理は、音声出力部(スピーカ)206を介した音声出力、あるいは画像出力部(表示部)207を介した画像出力のいずれか、あるいはその組み合わせによって行われる。この具体的な内容については後段で説明する。
図3は、図2に示した情報処理装置100の詳細構成を示す図である。
画像解析部202は、顔・顔方向認識部311と、人認識部312を有する。
音声解析部204は、音声検出部321と、意味検出部322を有する。
データ処理部205は、ユーザ情報管理部331と、ユーザインタラクション状態推定部322、システム状態制御部333、システム応答生成部334、およびシステム応答出力部335を有する。
画像解析部202の、顔・顔方向認識部311と、人認識部312では、画像入力部(カメラ)201から入力する撮像画像から、予め規定したあるフレーム間隔毎のサンプルタイム毎に顔や人がフレーム画像中に存在するか、さらに存在している場合には、顔の属性(顔の角度,推定年齢,性別等)の推定、顔の方向の解析、顔認識などを行う。なお、これらの処理に必要な辞書データや顔画像情報は画像解析部202内のメモリに登録されている。例えば、顔認識処理等の処理は、画像入力部201を介して入力した画像から識別した人の顔に基づいて、予め登録した顔画像データとのマッチング処理を実行して行われる。
音声解析部204の音声検出部321と、意味検出部322では、音声入力部(マイク)203から入力する音声データに基づいて音声源の方向推定、音声区間の検出、意味理解、信頼度付加などを行う。音声解析部204は、音声解析用の辞書を記憶部内に有しており、ユーザの発話した単語を、辞書を用いて解析し、解析情報をデータ処理部205に入力する。
この音声解析処理に際しては、音声以外の音を棄却し、人の声のみを取得する処理が行われる。さらに取得した音声情報に基づく意味抽出処理が実行される。この処理は、例えば音声解析部204の保持する辞書データとのマッチング処理をベースとして行われる。この処理において、マッチする登録単語がない場合などには、無意味な発話としてデータが棄却される。さらに音声認識の信頼度が算出される。信頼度は、例えば音声解析部204の保持する辞書データとのマッチング率等に基づいて行われ、予め設定した閾値等との比較により信頼度が低いと判断された発話は棄却されることになる。
データ処理部205は、図3に示すようにユーザ情報管理部331と、ユーザインタラクション推定部322、システム状態制御部333、システム応答生成部334、およびシステム応答出力部335を有する。
ユーザ情報管理部331は、顔・顔方向認識部311と、人認識部312からの出力情報、例えば画像中に顔が含まれるか否か、さらに含まれる場合は顔の属性(顔の角度,推定年齢,性別等)の推定、顔の方向の解析、顔認識結果等の情報を入力する。さらに、音声解析部204の意味検出部322から、発話内容についての情報を入力する。ユーザ情報管理部331は、これらの入力情報をユーザ管理情報として保持、管理する。なお、これ等の情報は、時間経過に伴って、順次更新される情報であり、ユーザ情報管理部331は、各サンプリングタイム(t,t+1,t+2・・・)対応のユーザ情報として、これらの情報をメモリに記録して管理する。
ユーザ情報管理部331の保持したユーザ情報は、ユーザインタラクション状態推定部332に提供される。
ユーザインタラクション状態推定部332は、例えば以下の処理を実行する。
(処理A)現在から過去の規定時間中(=所定のサンプリングタイム期間)におけるユーザの顔の向き、注視方向、顔の向きの持続時間等の解析処理。
(処理B)現在から過去の規定時間中(=所定のサンプリングタイム期間)におけるシステム(情報処理装置)の動作履歴(音声区間検出失敗やドメイン外発話の有無)、ユーザの習熟度の解析処理。
(処理C)システム(情報処理装置)からのユーザへの最後の応答からの経過時間に応じて、ユーザの困っている確率(困り度)を推定し,困っていると判定した時に最適なヘルプ情報の提示を行う処理。
システム状態制御部333は、システム(情報処理装置)内部の状態遷移を取得して保持する。
システム応答生成部334は、ユーザの発話にあいまい性があるかどうか、システムの応答としてユーザの状態によって何をどのようにシステムの応答をどのように出力するかの決定を行う。
システム応答出力部335は、ユーザに対するヘルプ情報等の応答を出力する。出力は、音声出力部(スピーカ)206や、画像出力部(表示部)207を介して行われる。
[3.ユーザに対するヘルプ情報の出力処理の具体例について]
次に、本発明の情報処理装置の実行する処理例として、ユーザに対するヘルプ情報の出力処理の具体例について説明する。
先に説明したように、音声認識や画像認識を適用したマルチモーダル・インタフェースでは、利用される音声認識装置や画像認識装置の処理能力に限界があり、理解できるユーザの発話や動作が限られてしまう。この結果、ユーザの意思がシステム側に伝わらず、ユーザの意思に応じた処理が実行されない場合が発生するという問題がある。以下に説明する処理例は、このような問題を解決する処理例であり、ユーザが困っているか否かを解析して、ユーザの困り度を算出し、算出した困り度に応じてヘルプ情報の提示を実行する処理例である。
前述したように、データ処理部205のユーザインタラクション状態推定部332は、以下の処理を実行する。
(処理A)現在から過去の規定時間中(=所定のサンプリングタイム期間)におけるユーザの顔の向き、注視方向、顔の向きの持続時間等の解析処理。
(処理B)現在から過去の規定時間中(=所定のサンプリングタイム期間)におけるシステム(情報処理装置)の動作履歴(音声区間検出失敗やドメイン外発話の有無)、ユーザの習熟度の解析処理。
(処理C)システム(情報処理装置)からのユーザへの最後の応答からの経過時間に応じて、ユーザの困っている確率(困り度)を推定し,困っていると判定した時に最適なヘルプ情報の提示を行う処理。
これらの処理A〜Cの具体的な処理シーケンスについて図4以下のフローチャートを参照して説明する。
まず、図4を参照して、処理Aのシーケンスについて説明する。処理Aは以下の処理である。
(処理A)現在から過去の規定時間中(=所定のサンプリングタイム期間)におけるユーザの顔の向き、注視方向、顔の向きの持続時間等の解析処理。
ステップS101においてユーザ情報を入力する。このユーザ情報は、ユーザ情報管理部331が画像無解析部202と音声解析部204から入力した情報である。すなわち、例えば画像中に顔が含まれるか否か、さらに含まれる場合は顔の属性(顔の角度,推定年齢,性別等)の推定、顔の方向の解析、顔認識結果等の情報、さらに、発話内容についての情報等が含まれる。なお、これ等の情報は、時間経過に伴って、順次更新されており、ユーザインタラクション状態推定部332は、各時間(t,t+1,t+2・・・)に対応する情報を、ユーザ情報管理部331から入力する。
ステップS102では、ユーザ情報管理部331から入力したユーザジョウホウニ従って、時刻tのユーザの顔の向きがシステム(情報処理装置100)の方を向いているか否かを判定する。
データ処理部205のユーザインタラクション状態推定部332は、ユーザの顔の向きがシステム(情報処理装置100)の方を向いているか否かを判定するための閾値として、水平方向の角度閾値(θ_MINとθ_MAX)と、垂直方向の角度閾値(φ_MINとφ_MAX)を有しており、ユーザの顔の向きがこれらの角度範囲にある場合は、ユーザがシステム(情報処理装置100)の方を向いていると判定する。
すなわち、ステップS102では、
時刻tでの顔の向き(θ,φ)が
θ_MIN<=θ<=θ_MAX、かつ、
φ_MIN<=φ<=φ_MIN
上記条件を満足するか否かを判定する。
上記条件を満足する場合は、ユーザの顔の向きがシステム(情報処理装置100)の方を向いていると判定し、ステップS102の判定がYesとなり、ステップS103に進む。
一方、上記条件を満足しない場合は、ユーザの顔の向きがシステム(情報処理装置100)の方を向いていないと判定し、ステップS102の判定がNoとなり、ステップS104に進む。
ステップS103では、顔の向きがシステム方向であると判定し、時刻(t)におけるユーザの顔の向きを示すパラメータ(FaceDirection(t))を以下のように設定する。
FaceDirection(t)=for System
上記データは、時刻(t)におけるユーザの顔の向きがシステム方向であることを示すデータである。
一方、ステップS104では、顔の向きがシステム方向でないと判定し、時刻(t)におけるユーザの顔の向きを示すパラメータ(FaceDirection(t))を以下のように設定する。
FaceDirection(t)=for Others
上記データは、時刻(t)におけるユーザの顔の向きがシステム方向でないことを示すデータである。
これ等ステップS103とステップS104において設定されたデータは、ステップS110に示すように、メモリに保持される。保持データは時間対応のデータとして保持される。
ステップS103,S104の処理の後、ステップS105に進む。
ステップS105では、
時刻(t)におけるユーザの顔の向き[Face Direction(t)]と、1つ前のサンプルタイム(t−1)のユーザの顔の向き[Face Direction(t−1)]とが一致するか否かを判定する。すなわち、ユーザが継続的に同じ方向を向いているか否かを判定する。
時刻(t)におけるユーザの顔の向き[Face Direction(t)]と、1つ前のサンプルタイム(t−1)のユーザの顔の向き[Face Direction(t−1)]とが一致する場合は、ステップS106に進み、ユーザの顔の向き[Face Direction(t)]の持続時間を更新してメモリに保持する。
一致しない場合は、ステップS106の処理を省略する。
次に、ステップS107において、ユーザの顔の向き[Face Direction(t)]の持続時間(tfd)に基づいて、顔の向き持続時間(FaceDirDur)を、規定閾値に従って、
(1)短時間(short)
(2)中時間(Medium)
(3)長時間(long)
これらの分類を実行してメモリに保持する。
次に、図5に示すフローチャートを参照して、処理Bのシーケンスについて説明する。処理Bは以下の処理である。
(処理B)現在から過去の規定時間中(=所定のサンプリングタイム期間)におけるシステム(情報処理装置)の動作履歴(音声区間検出失敗やドメイン外発話の有無)、ユーザの習熟度の解析処理。
ステップS201において、システム(情報処理装置)がユーザの発話を受け付けて処理を実行したか否かを判定する。
この処理は、ユーザインタラクション推定部332がシステム状態制御部333から入力するシステム処理情報に基づいて判定する。
ステップS201において、システム(情報処理装置)がユーザの発話を受け付けて処理を実行したと判定した場合は、ステップS202に進み、処理を実行しなかったと判定した場合は、ステップS211に進む。
システム(情報処理装置)がユーザの発話を受け付けて処理を実行し、ステップS202に進むと、ステップS202において、いままでのユーザ発話の棄却回数、すなわち、ユーザ発話に応じて処理を実行しなかった回数をセッション情報としてメモリに保存する。
次に、ステップS203において、過去数セッションの棄却回数に関する特徴量と規定閾値を比較する。特徴量とは、例えば棄却理由等の情報である。棄却理由としては、例えば音声区間の検出失敗や、ドメイン外発話であるとの判定、あるいは音声解析結果が低信頼度であるとの判定などがある。
次に、ステップS204において、棄却回数と特徴量と、予め規定した閾値比較処理に基づいて、ユーザレベル(UserLevel)を、
(a)ビギナー(Beginner)
(b)経験者(Trained)
(c)エクスパート(Expert)
これらのレベルにユーザを分類する。
セッションとは、例えば、ユーザ発話に応じた処理が実行されたと推定されるまでの期間である。
例えばユーザの発話がチャンネル変更要求である場合、システムがユーザ要求に応じた正しいチャンネル変更を実行するまでの期間であり、その間にユーザ発話が複数回(例えばn+1回)、実行され、n+1回目の発話に応じて正しいチャンネル変更処理を実行した場合には、棄却回数=nとなる。
ステップS204では、棄却回数と予め設定された閾値に応じて以下のようにユーザレベルを判定する。
(a)棄却回数が多いユーザ=ビギナー(Beginner)
(b)棄却回数が中程度のユーザ=経験者(Trained)
(c)棄却回数が少ないユーザ=エクスパート(Expert)
これらのレベルにユーザを分類する。
なお、棄却理由としての特徴量が異なる場合と同じ場合とでは、上記のレベル設定を変更する構成としてもよい。
一方、ステップS201において、システム(情報処理装置)がユーザの発話を受け付けて処理を実行しなかったと判定した場合、すなわちユーザ発話の棄却を行った場合は、ステップS211に進む。
ステップS211では、メモリに格納しているユーザ発話の棄却回数を更新する。なお、ユーザ発話に対して処理を実行しない、すなわち棄却する理由としては、例えば、音声区間の検出失敗や、ドメイン外発話である場合、あるいは音声解析結果が低信頼度であると判定した場合など、様々な要因がある。
次に、ステップS212では、過去数セッションの棄却回数と設定閾値を比較する。
次に、ステップS213において、棄却回数と閾値比較処理に基づいて、エラーレベルを、
(a)低(Low)
(b)中(Mid)
(c)高(High)
これらのレベルにエラーレベルを分類する。
次に、図6に示すフローチャートを参照して、処理Cの前半(C−1)シーケンスについて説明する。処理Cは以下の処理である。
(処理C)システム(情報処理装置)からのユーザへの最後の応答からの経過時間に応じて、ユーザの困っている確率(困り度)を推定し,困っていると判定した時に最適なヘルプ情報の提示を行う処理。
図6に示す処理は、この処理Cの前半の処理(C−1)であり、システム(情報処理装置)からのユーザへの最後の応答からの経過時間を算出する処理である。
ステップS301において、システム(情報処理装置)がユーザからの応答を待機している状態であるか否かを判定する。
この処理は、ユーザインタラクション推定部332がシステム状態制御部333から入力するシステム処理情報に基づいて判定する。
ステップS301において、システム(情報処理装置)がユーザからの応答を待機している状態であると判定するとステップS302に進む。
ステップS302では、システムの実行したユーザに対する応答処理からの経過時間を更新する。
システム状態制御部333は、システムの実行したユーザに対する応答処理からの経過時間を記録しており、このデータを逐次更新する。
ステップS303では、システム応答からの経過時間を予め規定した閾値に従って、以下のように分類する。
(a)短時間(Short)
(b)中時間(Medium)
(c)長時間(Long)
これらのいずれかに分類する。
次に、ステップS304において、経過時間(RT)について、
(a)短時間(Short)
(b)中時間(Medium)
(c)長時間(Long)
のいずれかをメモリに保存する。
この図6に示すフローは、処理Cの前半の処理(C−1)である。
処理Cの後半の処理(C−2)は、上述した処理A、処理B、処理C−1の結果を適用してユーザの困り度を算出し、算出した困り度に応じてユーザに対してヘルプ情報の提示を行うか否かを決定し、行うと判定した場合にヘルプ情報を提示する処理である。
この処理について図7に示すフローチャートを参照して説明する。
図7に示すフローチャート中、ステップS501〜S545までの処理は、上述した処理A,B,C−1によって行われる処理に対応する。
ステップS551以下の処理が処理Cの後半の処理(C−2)に対応する。
ステップS501の画像イベント入力は、画像入力部(カメラ)201から入力する画像情報に基づいて、画像解析部202の実行する解析処理結果をデータ処理部205に入力する処理である。
具体的には、例えば画像中に顔が含まれるか否か、さらに含まれる場合は顔の属性(顔の角度,推定年齢,性別等)の推定、顔の方向の解析、顔認識結果等の情報等を画像解析部202の実行する解析処理結果として入力する。
ステップS502の音声イベント入力は、音声入力部(マイク)203から入力する音声情報に基づいて、音声解析部204の実行する解析処理結果をデータ処理部205に入力する処理である。具体的には、例えば発話内容についての情報等を音声解析部204の実行する解析処理結果として入力する。
ステップS521の処理Aは、先に図4に示すフローチャートを参照して説明した処理である。
すなわち、ステップS521では、
(処理A)現在から過去の規定時間中(=所定のサンプリングタイム期間)におけるユーザの顔の向き、注視方向、顔の向きの持続時間等の解析処理が実行される。
このステップS521の処理Aの実行結果の取得とメモリ格納処理が、
ステップS531と、ステップS541、
ステップS532と、ステップS542、
これらの処理ステップである。
ステップS531と、ステップS541の処理は以下の処理である。
ステップS531において、処理Aの結果として、
各サンプル時間(t,t+1,t+2・・・)の顔の向き情報(Face Dir)、すなわち、
(a)顔の向きがシステム(情報処理装置)方向にある(For System)
(b)顔の向きがシステム(情報処理装置)方向にない(For Others)
これらの顔の向き情報を取得する。
この取得情報がステップS541においてメモリに格納される。
ステップS532と、ステップS542の処理は以下の処理である。
ステップS532において、処理Aの結果として、
各サンプル時間(t,t+1,t+2・・・)の顔の向きの持続時間情報(Face Dir Dur)、すなわち、
(a)顔が1つの特定方向に向いている持続時間が短い(Short)
(b)顔が1つの特定方向に向いている持続時間が中程度(Medium)
(c)顔が1つの特定方向に向いている持続時間が長い(Long)
ステップS502の音声イベント入力の後のステップS511のシステム動作が実行され、その後、ステップS522の処理B、ステップS523の処理Cが実行される。
ステップS502の音声イベント入力とは、例えばユーザがシステム(情報処理装置)に対して実行する動作要求である。具体的には例えばチャンネル変更要求などである。
ステップS502の音声イベント入力の後のステップS511のシステム動作とは、ユーザ要求に対するシステム(情報処理装置)側の処理である。なお、このシステム動作は、ユーザ要求に対して正しく実行される場合もあり、正しく実行されない場合もある。また、例えば音声区間の検出失敗や、ドメイン外発話であるとの判定、あるいは音声解析結果が低信頼度であるとの判定などにより、ユーザ発話を棄却してしまう場合もある。ステップS511のシステム動作にはこれ等の動作のすべてが含まれる。
ステップS511のシステム動作の後に、ステップS522において、先に図5のフローチャートを参照して説明した処理B、さらに、ステップS523において、先に図6のフローチャートを参照して説明した処理C−1が実行される。
ステップS522の処理Bは、先に図5に示すフローチャートを参照して説明した処理である。
すなわち、ステップS522では、
(処理B)現在から過去の規定時間中(=所定のサンプリングタイム期間)におけるシステム(情報処理装置)の動作履歴(音声区間検出失敗やドメイン外発話の有無)、ユーザの習熟度の解析処理が実行される。
このステップS522の処理Bの実行結果の取得とメモリ格納処理が、
ステップS533と、ステップS543、
ステップS534と、ステップS544、
これらの処理ステップである。
ステップS533と、ステップS543の処理は以下の処理である。
ステップS533において、処理Bの結果として、
ユーザレベル情報(User Level)、すなわち、
(a)ビギナー(Beginner)
(b)経験者(Trained)
(c)エクスパート(Expert)
これらのユーザレベル情報を取得する。
この取得情報がステップS543においてメモリに格納される。なお、このユーザレベル情報についても各サンプル時間(t,t+1,t+2・・・)対応の情報としてメモリに記録される。
ステップS534と、ステップS544の処理は以下の処理である。
ステップS534において、処理Bの結果として、エラーレベル情報(Error)、すなわち、
(a)低(Low)
(b)中(Mid)
(c)高(High)
これらエラーレベル情報が取得される。なお、先に図5のフローを参照して説明したようにエラーレベル情報はユーザ発話に対する棄却回数に基づいて取得される。
ステップS544では、このエラーレベル情報がメモリに格納される。なお、このエラーレベル情報についても各サンプル時間(t,t+1,t+2・・・)対応の情報として取得されメモリに記録される。
さらに、ステップS511のシステム動作の後に、ステップS523において、先に図6のフローチャートを参照して説明した処理C−1が実行される。
すなわち、
(処理C)システム(情報処理装置)からのユーザへの最後の応答からの経過時間に応じて、ユーザの困っている確率(困り度)を推定し,困っていると判定した時に最適なヘルプ情報の提示を行う処理。
ステップS523において実行する処理は、この処理Cの前半の処理(処理C−1)であり、システム(情報処理装置)からのユーザへの最後の応答からの経過時間を算出する処理が行われる。
このステップS523の処理Cの実行結果の取得とメモリ格納処理が、
ステップS535と、ステップS545、
これらの処理ステップである。
ステップS535と、ステップS545の処理は以下の処理である。
ステップS535において、処理Cの結果として、システムの実行したユーザに対する応答処理からの経過時間を予め規定した閾値に従って分類した結果である経過時間(RT)情報として、以下の情報を取得する。
(a)経過時間(RT)=短時間(Short)
(b)経過時間(RT)=中時間(Medium)
(c)経過時間(RT)=長時間(Long)
これらのいずれかの経過時間(RT)情報を取得する。
この取得情報がステップS545においてメモリに格納される。なお、この経過時間(RT)情報についても各サンプル時間(t,t+1,t+2・・・)対応の情報としてメモリに記録される。
このように、ステップS521〜S523における処理A〜Cの結果として取得される以下の情報がメモリに記録される。
メモリに記録されるデータの例を図8に示す。図8には3人のユーザ(U1〜U3)各々に対するサンプルタイム=t−1,tの2つの連続するサンプルタイム対応の取得データ例を示している。
例えば以下に示す(1)〜(5)の値がメモリに記録される。
(1)顔の向き情報(Face Dir)
(1a)顔の向きがシステム(情報処理装置)方向にある(For System)=1
(1b)顔の向きがシステム(情報処理装置)方向にない(For Others)=2
(2)顔の向きの持続時間情報(Face Dir Dur)
(2a)顔が1つの特定方向に向いている持続時間が短い(Short)=1
(2b)顔が1つの特定方向に向いている持続時間が中程度(Medium)=2
(2c)顔が1つの特定方向に向いている持続時間が長い(Long)=3
(3)ユーザレベル情報(User Level)
(3a)ビギナー(Beginner)=1
(3b)経験者(Trained)=2
(3c)エクスパート(Expert)=3
(4)エラーレベル情報(Error)
(4a)低(Low)=1
(4b)中(Mid)=2
(4c)高(High)=3
(5)システムの応答処理からの経過時間(RT)情報
(5a)経過時間(RT)=短時間(Short)=1
(5b)経過時間(RT)=中時間(Medium)=2
(5c)経過時間(RT)=長時間(Long)=3
このように、ステップS521〜S523における処理A〜Cの結果として取得される上記の情報(1)〜(5)がステップS541〜545においてメモリに記録される。
ステップS551以降の処理が、処理Cの後半の処理(処理C−2)に対応する。
処理Cは、前述したように以下の処理である。
(処理C)システム(情報処理装置)からのユーザへの最後の応答からの経過時間に応じて、ユーザの困っている確率(困り度)を推定し,困っていると判定した時に最適なヘルプ情報の提示を行う処理。
ステップS551以下において実行する処理は、この処理Cの後半の処理(処理C−2)であり、ユーザの困っている確率(困り度)を推定し,困っていると判定した時に最適なヘルプ情報の提示を行う処理である。
ステップS551以下の処理の詳細について説明する。
ステップS551では、ステップS541〜S545においてメモリに格納された値の変化の有無を判定する。前述したようにステップS521〜S523における処理A〜Cの結果として取得される上記の情報(1)〜(5)は規定のサンプルタイム(t,t+1,t+2・・・)毎に取得され、時間対応のデータとしてメモリに格納される。具体的には、先に説明した図8に示す時間対応のデータがメモリに順次記録される。
ステップS551では、メモリに記録された最新のサンプルタイムの取得データと、直前のサンプルタイムの取得データとの差異の有無を判別する。
メモリに記録された最新のサンプルタイムのデータと、直前のサンプルタイムのデータ中、上記(1)〜(5)のいずれかのデータに変化があったと判定すると、ステップS552以下の処理を実行する。
ステップS522では、最新の取得データに基づいて評価値の算出処理を開始する。評価値とは、具体的にはユーザの困っている度合いを示す困り度(H)であり、この困り度(H)の算出処理が開始される。
困り度(H)は具体的には、メモリに格納された前述の
(1)顔の向き情報(Face Dir)=1〜2
(2)顔の向きの持続時間情報(Face Dir Dur)=1〜3
(3)ユーザレベル情報(User Level)=1〜3
(4)エラーレベル情報(Error)=1〜3
(5)システムの応答処理からの経過時間(RT)情報=1〜3
これらの各値を適用して予め設定した関数を適用して算出する。
具体的には、例えば、以下のような関数を適用して困り度(H)を算出する。
H=p((1)の値)+q((2)の値)+r((3)の値)+s((4)の値)+t((5)の値)
ただしp,q,r,s,tは予め設定した係数、
例えば上述の式に従って、(1)〜(5)の情報を適用したユーザの困り度(H)を算出する。
ステップS552において算出した困り度はステップS553においてメモリ(データベース)に格納される。図8に示す右端のデータが算出された困り度(H)である。
困り度(H)は、例えば0〜100の範囲で算出され、値が大きいほどユーザが困っている状態である確率が高いことを示している。
ステップS554では、新たに算出した最新の困り度(H)の更新値に基づく処理を開始する。
ステップS555において、更新した困り度(H)と予め設定した閾値(TH)とを比較する。
困り度(H)≧TH
ステップS555において、上記判定式が成立すると判定した場合は、ステップS556に進み、ヘルプ情報を音声出力部(スピーカ)205や画像出力部(表示部)207を介して出力する。なお、提示するヘルプ情報は、システム(情報処理装置100)の状態に応じて変更される。
一方、ステップS555において、上記判定式が成立しないと判定した場合は、ステップS557に進み、ヘルプ情報の出力は行わない。
ステップS556においてユーザに提示されるヘルプ情報の例を図9に示す。
上述したように、提示するヘルプ情報は、システム(情報処理装置100)の状態に応じて変更される。このシステム状態は、図3に示すシステム状態制御部333が監視している。
図9に示すように、例えば、
システム状態=おすすめ番組の表示状態
である場合には、
「おすすめ番組から見たい番組を選ぶか、検索キーワードで検索してね」
このようなヘルプ情報が音声出力部(スピーカ)205や画像出力部(表示部)207を介してユーザに提示される。
また、
システム状態=チャンネル,曜日指定の表示状態
である場合には、
「タイトル,あるいはドラマ,スポーツ,バラエティ,音楽,映画のジャンルで絞り込みもできます」
このようなヘルプ情報が音声出力部(スピーカ)205や画像出力部(表示部)207を介してユーザに提示される。
また、
システム状態=ジャンル指定の表示状態
である場合には、
「タイトル,チャンネルなどで絞り込みもできます」
このようなヘルプ情報が音声出力部(スピーカ)205や画像出力部(表示部)207を介してユーザに提示される。
なお、ステップS552以下の処理は、ステップS551においてメモリに格納された値が変更された場合に逐次、実行される。従って情報処理装置100は、時間経過に伴うユーザの最新の困り度(H)を把握することが可能であり、最新の困り度に応じて、最適なタイミングでユーザに対してヘルプ情報を提示することが可能となる。
本発明の情報処理装置は、このように、前述の処理A〜Cにおいて取得され、メモリに格納された以下の情報、すなわち、
(1)顔の向き情報(Face Dir)=1〜2
(2)顔の向きの持続時間情報(Face Dir Dur)=1〜3
(3)ユーザレベル情報(User Level)=1〜3
(4)エラーレベル情報(Error)=1〜3
(5)システムの応答処理からの経過時間(RT)情報=1〜3
これらの各値を適用して予め設定した関数を適用してユーザの困り度(H)を算出し、算出したする困り度とシステム状態に応じたヘルプ情報をユーザに提供する。
ユーザ状態の取得処理と、困り度(H)の算出処理、およびヘルプ情報の提示処理の具体例について説明する。
(具体例1)
例えば、ユーザが正面を向いており、システムに対して注意を向けているのにもかからず、ユーザからの応答がない場合にはユーザが発話するコマンドがわからず困っている、あるいは悩んでいると判定して、例えば以下のヘルプ情報(ヒント)を提示する。
「おすすめ番組から見たい番組を選ぶか,検索キーワードで検索してね」
なお、この場合のユーザ状態情報は、例えば以下の情報辞である。
(1)顔の向き情報(Face Dir)=顔の向きがシステム(情報処理装置)方向にある(For System)=1
(2)顔の向きの持続時間情報(Face Dir Dur)=顔が1つの特定方向に向いている持続時間が長い(Long)=3
(3)ユーザレベル情報(User Level)=ビギナー(Beginner)=1
(4)エラーレベル情報(Error)=低(Low)=1
(5)システムの応答処理からの経過時間(RT)情報=長時間(long)=3
これらの各値を適用して、以下の関数を適用して困り度(H)を算出する。
H=p((1)の値)+q((2)の値)+r((3)の値)+s((4)の値)+t((5)の値)
例えば、上記困り度(H)算出式に従って、
困り度(H)=80
このような値が算出され、規定閾値=20とした場合、
困り度(H)=80≧20
となり、上記のようなヘルプ情報がユーザに提示されることになる。
(具体例2)
ユーザがシステムに対して注意を向けておらずシステムがユーザからの応答を待っている場合、このような状況にある場合は、システムはユーザに対して利用可能なコマンドを提示、あるいは数分後にシステムを一時停止する、あるいは終了することを伝えるといったヘルプ出力を実行する。具体的には、
「見たい番組を探してみてください。あるいはジャンルで絞り込でください」
このようなヘルプ情報(ヒント)を提示する。
なお、この場合のユーザ状態情報は、例えば以下の情報辞である。
(1)顔の向き情報(Face Dir)=顔の向きがシステム(情報処理装置)方向にない(For Others)=2
(2)顔の向きの持続時間情報(Face Dir Dur)=顔が1つの特定方向に向いている持続時間が中程度(mid)=2
(3)ユーザレベル情報(User Level)=経験者(Trained)=2
(4)エラーレベル情報(Error)=低(Low)=1
(5)システムの応答処理からの経過時間(RT)情報=長時間(long)=3
これらの各値を適用して、以下の関数を適用して困り度(H)を算出する。
H=p((1)の値)+q((2)の値)+r((3)の値)+s((4)の値)+t((5)の値)
例えば、上記困り度(H)算出式に従って、
困り度(H)=20
このような値が算出され、規定閾値=20とした場合、
困り度(H)=20≧20
となり、上記のようなヘルプ情報がユーザに提示されることになる。
(具体例3)
ユーザがシステムに対して何度も発話を行っているのにもかからず、音声区間検出失敗や意味理解失敗(ドメイン外発話)等のシステムの行動生成に達しない状態の事象が何回か連続する場合には、ユーザに対して例えば以下のようなヘルプ情報(ヒント)を提示する。
「利用可能なコマンドをガイドウィンドウに表示します」
なお、この場合のユーザ状態情報は、例えば以下の情報辞である。
(1)顔の向き情報(Face Dir)=顔の向きがシステム(情報処理装置)方向(For System)=1
(2)顔の向きの持続時間情報(Face Dir Dur)=顔が1つの特定方向に向いている持続時間が長時間(long)=3
(3)ユーザレベル情報(User Level)=ビギナー(Beginner)=1
(4)エラーレベル情報(Error)=高(High)=3
(5)システムの応答処理からの経過時間(RT)情報=短時間(short)=1
これらの各値を適用して、以下の関数を適用して困り度(H)を算出する。
H=p((1)の値)+q((2)の値)+r((3)の値)+s((4)の値)+t((5)の値)
例えば、上記困り度(H)算出式に従って、
困り度(H)=90
このような値が算出され、規定閾値=20とした場合、
困り度(H)=90≧20
となり、上記のようなヘルプ情報がユーザに提示されることになる。
[4.情報処理装置のハードウェア構成例について]
最後に、図10を参照して、上述した処理を実行する情報処理装置のハードウェア構成例について説明する。CPU(Central Processing Unit)701は、ROM(Read Only Memory)702、または記憶部708に記憶されているプログラムに従って各種の処理を実行する。
例えば、図2の情報処理装置の構成における音声解析部204、画像解析部202、データ処理部205の処理を実行する。RAM(Random Access Memory)703には、CPU701が実行するプログラムやデータなどが適宜記憶される。これらのCPU701、ROM702、およびRAM703は、バス704により相互に接続されている。
CPU701はバス704を介して入出力インタフェース705に接続され、入出力インタフェース705には、カメラ、マイク、リモコン、キーボード、マウスなどの入力部706、ディスプレイ、スピーカなどよりなる出力部707が接続されている。CPU701は、入力部706から入力される情報に対応して各種の処理を実行し、処理結果を例えば出力部707に出力する。
入出力インタフェース705に接続されている記憶部708は、例えばハードディスクからなり、CPU701が実行するプログラムや各種のデータを記憶する。
さらに、音声認識処理に必用となる各種の音声情報や辞書データ、さらには、ユーザ認識処理に必用となるユーザ画像データ等が記録されている。通信部709は、インターネットやローカルエリアネットワークなどのネットワークを介して外部の装置と通信する。
入出力インタフェース705に接続されているドライブ710は、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア711を駆動し、記録されているプログラムやデータなどを取得する。取得されたプログラムやデータは、必要に応じて記憶部708に転送され記憶される。
以上、特定の実施例を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本発明の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、LAN(Local Area Network)、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
以上、説明したように、本発明の一実施例の構成によれば、ユーザ状態を解析してユーザの困り度を判定して判定結果に応じてヘルプ情報を提供する装置および方法が実現される。具体的には、データ処理部が、カメラの撮影画像の解析処理を実行する画像解析部の解析結果と、マイクから入力する音声の解析処理を実行する音声解析部の解析結果を入力して、ユーザに対するヘルプ情報の出力制御を実行する。データ処理部は、画像解析結果として、例えばユーザの顔の向きが装置方向を向いているか否か等のユーザ情報を取得し、取得したユーザ情報に基づいて、ユーザの困り度を算出し、算出した困り度が規定の閾値以上である場合にユーザに対してヘルプ情報を出力する処理を行う。
11〜13 ユーザ
100 情報処理装置
101 カメラ
102 音声入出力部
201 画像入力部
202 画像解析部
203 音声入力部
204 音声解析部
205 データ処理部
206 音声出力部
207 画像出力部
311 顔・顔方向認識部
312 人認識部
321 音声検出部
322 意味検出部
331 ユーザ情報管理部
332 ユーザインタラクション状態推定部
333 システム状態制御部
334 システム応答生成部
335 システム応答出力部
701 CPU
702 ROM
703 RAM
704 バス
705 入出力インタフェース
706 入力部
707 出力部
708 記憶部
709 通信部
710 ドライブ
711 リムーバブルメディア

Claims (9)

  1. カメラの撮影画像の解析処理を実行する画像解析部と、
    マイクから入力する音声の解析処理を実行する音声解析部と、
    前記画像解析部の解析結果と、前記音声解析部の解析結果を入力して、ユーザに対するヘルプ情報の出力制御を実行するデータ処理部を有し、
    前記データ処理部は、
    画像解析結果または音声解析結果の少なくともいずれかの解析結果に基づいて、ユーザの困り度を算出し、算出した困り度が規定の閾値以上である場合にユーザに対してヘルプ情報を出力する処理を行う情報処理装置。
  2. 前記データ処理部は、
    画像解析結果からユーザの顔の向きが情報処理装置の方向を向いているか否かを判定し、該判定情報を適用して前記困り度の算出を実行する請求項1に記載の情報処理装置。
  3. 前記データ処理部は、
    画像解析結果からユーザの顔が一定の方向を向いている持続時間を判定し、該判定情報を適用して前記困り度の算出を実行する請求項1または2に記載の情報処理装置。
  4. 前記データ処理部は、
    ユーザの要求に応じた処理が実行されたか否かの判定情報を適用して前記困り度の算出を実行する請求項1〜3いずれかに記載の情報処理装置。
  5. 前記データ処理部は、
    ユーザ要求の棄却回数情報に基づいてユーザレベルを判定し、該判定情報を適用して前記困り度の算出を実行する請求項1〜4いずれかに記載の情報処理装置。
  6. 前記データ処理部は、
    情報処理装置からのユーザに対する応答処理からの経過時間情報に基づいて前記困り度の算出を実行する請求項1〜5いずれかに記載の情報処理装置。
  7. 前記情報処理装置は、
    情報処理装置の状態遷移を取得して保持するシステム状態制御部を有し、
    前記データ処理部は、
    前記システム状態制御部の保持したシステム状態に応じたヘルプ情報を出力する処理を行う請求項1〜6いずれかに記載の情報処理装置。
  8. 情報処理装置において実行する情報処理方法であり、
    画像解析部が、カメラの撮影画像の解析処理を実行する画像解析ステップと、
    音声解析部が、マイクから入力する音声の解析処理を実行する音声解析ステップと、
    データ処理部が、前記画像解析部の解析結果と、前記音声解析部の解析結果を入力して、ユーザに対するヘルプ情報の出力制御を実行するデータ処理ステップを実行し、
    前記データ処理ステップは、
    画像解析結果または音声解析結果の少なくともいずれかの解析結果に基づいて、ユーザの困り度を算出し、算出した困り度が規定の閾値以上である場合にユーザに対してヘルプ情報を出力する処理を行うステップである情報処理方法。
  9. 情報処理装置において情報処理を実行させるプログラムであり、
    画像解析部に、カメラの撮影画像の解析処理を実行させる画像解析ステップと、
    音声解析部に、マイクから入力する音声の解析処理を実行させる音声解析ステップと、
    データ処理部に、前記画像解析部の解析結果と、前記音声解析部の解析結果を入力して、ユーザに対するヘルプ情報の出力制御を実行させるデータ処理ステップを有し、
    前記データ処理ステップは、
    画像解析結果または音声解析結果の少なくともいずれかの解析結果に基づいて、ユーザの困り度を算出し、算出した困り度が規定の閾値以上である場合にユーザに対してヘルプ情報を出力する処理を行わせるステップであるプログラム。
JP2010127110A 2010-06-02 2010-06-02 情報処理装置、および情報処理方法、並びにプログラム Withdrawn JP2011253374A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2010127110A JP2011253374A (ja) 2010-06-02 2010-06-02 情報処理装置、および情報処理方法、並びにプログラム
CN2011101511852A CN102270042A (zh) 2010-06-02 2011-05-26 信息处理设备、信息处理方法和程序
US13/116,848 US9477304B2 (en) 2010-06-02 2011-05-26 Information processing apparatus, information processing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010127110A JP2011253374A (ja) 2010-06-02 2010-06-02 情報処理装置、および情報処理方法、並びにプログラム

Publications (1)

Publication Number Publication Date
JP2011253374A true JP2011253374A (ja) 2011-12-15

Family

ID=45052364

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010127110A Withdrawn JP2011253374A (ja) 2010-06-02 2010-06-02 情報処理装置、および情報処理方法、並びにプログラム

Country Status (3)

Country Link
US (1) US9477304B2 (ja)
JP (1) JP2011253374A (ja)
CN (1) CN102270042A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016009282A (ja) * 2014-06-24 2016-01-18 株式会社東芝 医用画像診断装置

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6362085B2 (ja) * 2014-05-21 2018-07-25 キヤノン株式会社 画像認識システム、画像認識方法およびプログラム
EP3154052A4 (en) * 2014-06-03 2018-01-10 Sony Corporation Information processing device, information processing method, and program
CN104486654A (zh) * 2014-12-15 2015-04-01 四川长虹电器股份有限公司 一种提供指导的方法和电视机
US10635460B2 (en) * 2015-12-21 2020-04-28 Google Llc Assisted interaction for mobile products
US11437032B2 (en) 2017-09-29 2022-09-06 Shanghai Cambricon Information Technology Co., Ltd Image processing apparatus and method
KR102354720B1 (ko) 2018-02-13 2022-01-21 상하이 캠브리콘 인포메이션 테크놀로지 컴퍼니 리미티드 계산 장치 및 방법
US11630666B2 (en) 2018-02-13 2023-04-18 Shanghai Cambricon Information Technology Co., Ltd Computing device and method
US11620130B2 (en) 2018-02-13 2023-04-04 Shanghai Cambricon Information Technology Co., Ltd Computing device and method
CN110162162B (zh) 2018-02-14 2023-08-18 上海寒武纪信息科技有限公司 处理器的控制装置、方法及设备
WO2019218896A1 (zh) 2018-05-18 2019-11-21 上海寒武纪信息科技有限公司 计算方法以及相关产品
CN110728364B (zh) 2018-07-17 2024-12-17 上海寒武纪信息科技有限公司 一种运算装置和运算方法
WO2020001438A1 (zh) 2018-06-27 2020-01-02 上海寒武纪信息科技有限公司 片上代码断点调试方法、片上处理器及芯片断点调试系统
CN108966001A (zh) * 2018-07-18 2018-12-07 深圳Tcl数字技术有限公司 电视频道音量管控方法、装置及存储介质
EP3640810A4 (en) 2018-08-28 2021-05-05 Cambricon Technologies Corporation Limited PRE-TREATMENT PROCEDURES AND DEVICE OF DATA, COMPUTER DEVICE AND STORAGE MEDIUM
CN110968235B (zh) * 2018-09-28 2022-02-22 上海寒武纪信息科技有限公司 信号处理装置及相关产品
WO2020062392A1 (zh) 2018-09-28 2020-04-02 上海寒武纪信息科技有限公司 信号处理装置、信号处理方法及相关产品
US10831442B2 (en) * 2018-10-19 2020-11-10 International Business Machines Corporation Digital assistant user interface amalgamation
CN111383637A (zh) 2018-12-28 2020-07-07 上海寒武纪信息科技有限公司 信号处理装置、信号处理方法及相关产品
US11847554B2 (en) 2019-04-18 2023-12-19 Cambricon Technologies Corporation Limited Data processing method and related products
CN111832738B (zh) 2019-04-18 2024-01-09 中科寒武纪科技股份有限公司 一种数据处理方法及相关产品
US11676029B2 (en) 2019-06-12 2023-06-13 Shanghai Cambricon Information Technology Co., Ltd Neural network quantization parameter determination method and related products
WO2020248423A1 (zh) 2019-06-12 2020-12-17 上海寒武纪信息科技有限公司 一种神经网络的量化参数确定方法及相关产品
US12001955B2 (en) 2019-08-23 2024-06-04 Anhui Cambricon Information Technology Co., Ltd. Data processing method, device, computer equipment and storage medium
EP4020329A4 (en) 2019-08-23 2023-07-05 Anhui Cambricon Information Technology Co., Ltd. DATA PROCESSING METHOD AND EQUIPMENT, COMPUTER EQUIPMENT AND STORAGE MEDIA
CN112434781B (zh) 2019-08-26 2024-09-10 上海寒武纪信息科技有限公司 用于处理数据的方法、装置以及相关产品
JP7146953B2 (ja) 2019-08-27 2022-10-04 安徽寒武紀信息科技有限公司 データ処理方法、装置、コンピュータデバイス、及び記憶媒体
WO2021076164A1 (en) 2019-10-15 2021-04-22 Google Llc Detection and/or enrollment of hot commands to trigger responsive action by automated assistant
US11430447B2 (en) * 2019-11-15 2022-08-30 Qualcomm Incorporated Voice activation based on user recognition
US11302323B2 (en) * 2019-11-21 2022-04-12 International Business Machines Corporation Voice response delivery with acceptable interference and attention
CN113298843B (zh) 2020-02-24 2024-05-14 中科寒武纪科技股份有限公司 数据量化处理方法、装置、电子设备和存储介质
US12427864B2 (en) * 2020-12-25 2025-09-30 Nissan Motor Co., Ltd. Information processing device and information processing method

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7006881B1 (en) * 1991-12-23 2006-02-28 Steven Hoffberg Media recording device with remote graphic user interface
US6397180B1 (en) * 1996-05-22 2002-05-28 Qwest Communications International Inc. Method and system for performing speech recognition based on best-word scoring of repeated speech attempts
US6021403A (en) * 1996-07-19 2000-02-01 Microsoft Corporation Intelligent user assistance facility
US6434527B1 (en) * 1999-05-17 2002-08-13 Microsoft Corporation Signalling and controlling the status of an automatic speech recognition system for use in handsfree conversational dialogue
US6895380B2 (en) * 2000-03-02 2005-05-17 Electro Standards Laboratories Voice actuation with contextual learning for intelligent machine control
US7013297B2 (en) * 2001-02-27 2006-03-14 Microsoft Corporation Expert system for generating user interfaces
US7665024B1 (en) * 2002-07-22 2010-02-16 Verizon Services Corp. Methods and apparatus for controlling a user interface based on the emotional state of a user
US6637883B1 (en) * 2003-01-23 2003-10-28 Vishwas V. Tengshe Gaze tracking system and method
US8527277B2 (en) * 2004-02-17 2013-09-03 At&T Intellectual Property I, L.P. System and method for managing recognition errors in a multiple dialog state environment
US7676754B2 (en) * 2004-05-04 2010-03-09 International Business Machines Corporation Method and program product for resolving ambiguities through fading marks in a user interface
US8725505B2 (en) * 2004-10-22 2014-05-13 Microsoft Corporation Verb error recovery in speech recognition
US20060192775A1 (en) * 2005-02-25 2006-08-31 Microsoft Corporation Using detected visual cues to change computer system operating states
US7438414B2 (en) * 2005-07-28 2008-10-21 Outland Research, Llc Gaze discriminating electronic control apparatus, system, method and computer program product
US7429108B2 (en) * 2005-11-05 2008-09-30 Outland Research, Llc Gaze-responsive interface to enhance on-screen user reading tasks
JP4921374B2 (ja) * 2006-03-27 2012-04-25 パナソニック株式会社 ユーザ支援装置および困惑状態判定装置
WO2008047315A1 (en) * 2006-10-19 2008-04-24 Koninklijke Philips Electronics N.V. Method and apparatus for classifying a person
US8880402B2 (en) * 2006-10-28 2014-11-04 General Motors Llc Automatically adapting user guidance in automated speech recognition
EP1975783A1 (en) * 2007-03-31 2008-10-01 Sony Deutschland Gmbh Method and system for adapting a user interface of a device
JP5440177B2 (ja) * 2007-12-21 2014-03-12 日本電気株式会社 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体
JP2009294728A (ja) * 2008-06-02 2009-12-17 Sony Ericsson Mobilecommunications Japan Inc 表示処理装置、表示処理方法、表示処理プログラム、及び携帯端末装置
US8108214B2 (en) * 2008-11-19 2012-01-31 Robert Bosch Gmbh System and method for recognizing proper names in dialog systems
US8494507B1 (en) * 2009-02-16 2013-07-23 Handhold Adaptive, LLC Adaptive, portable, multi-sensory aid for the disabled
TWI423144B (zh) * 2009-11-10 2014-01-11 Inst Information Industry Combined with the audio and video behavior identification system, identification methods and computer program products
US8914290B2 (en) * 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016009282A (ja) * 2014-06-24 2016-01-18 株式会社東芝 医用画像診断装置

Also Published As

Publication number Publication date
US20110301956A1 (en) 2011-12-08
US9477304B2 (en) 2016-10-25
CN102270042A (zh) 2011-12-07

Similar Documents

Publication Publication Date Title
JP2011253374A (ja) 情報処理装置、および情報処理方法、並びにプログラム
US8381238B2 (en) Information processing apparatus, information processing method, and program
JP7234926B2 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
CN110557589B (zh) 用于整合记录的内容的系统和方法
US20190043500A1 (en) Voice based realtime event logging
US9031243B2 (en) Automatic labeling and control of audio algorithms by audio recognition
US9542604B2 (en) Method and apparatus for providing combined-summary in imaging apparatus
US9396180B1 (en) System and method for analyzing video content and presenting information corresponding to video content to users
US12455877B1 (en) Identifying user content
Chaudhuri et al. Ava-speech: A densely labeled dataset of speech activity in movies
US10942563B2 (en) Prediction of the attention of an audience during a presentation
CN106710593B (zh) 一种添加账号的方法、终端、服务器
CN110313152A (zh) 用于智能助理计算机的用户注册
JP2005173569A (ja) オーディオ信号の分類装置及び方法
JP2011209787A (ja) 情報処理装置、および情報処理方法、並びにプログラム
JP2013200423A (ja) 音声対話支援装置、方法、およびプログラム
JP2011209786A (ja) 情報処理装置、および情報処理方法、並びにプログラム
WO2008050649A1 (fr) Système, procédé et programme de récapitulation de contenu
US11871084B2 (en) Systems and methods for displaying subjects of a video portion of content
WO2019155717A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
CN110689896A (zh) 追溯性声音识别系统
JP2008252667A (ja) 動画イベント検出装置
US12142047B1 (en) Automated audio description system and method
EP3553776A1 (en) Device and method for identifying users using voice and gait information
KR102389776B1 (ko) 요청시 오디오 레코딩으로의 보충적 오디오 콘텐츠의 동적 삽입

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20130806