JP2016110631A - 状態推定装置、状態推定方法およびプログラム - Google Patents
状態推定装置、状態推定方法およびプログラム Download PDFInfo
- Publication number
- JP2016110631A JP2016110631A JP2015213452A JP2015213452A JP2016110631A JP 2016110631 A JP2016110631 A JP 2016110631A JP 2015213452 A JP2015213452 A JP 2015213452A JP 2015213452 A JP2015213452 A JP 2015213452A JP 2016110631 A JP2016110631 A JP 2016110631A
- Authority
- JP
- Japan
- Prior art keywords
- state
- data
- sensor
- user
- sensor data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/048—Fuzzy inferencing
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medical Informatics (AREA)
- Fuzzy Systems (AREA)
- Automation & Control Theory (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- User Interface Of Digital Computer (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】センサデータをもとにユーザの状態を推定する処理において、センサデータから導出できないユーザの状態を推定する。【解決手段】コンテンツ表示装置100は、自装置内または外部に設けられたセンサにてユーザを観測して得られるセンサデータをもとに、ユーザの状態を推定する。このコンテンツ表示装置100は、センサデータが属する層であるセンサデータ層と、ユーザの状態を示す状態データが属する層である複数の状態データ層とが重ねられた階層構造を有する予め定められた推定モデルを用いて、取得されたセンサデータからユーザの状態を推定する。また、推定モデルにおいて、状態データ層に属する状態データは、隣の層に属するセンサデータおよび状態データの少なくともいずれか一方と関連付けられており、センサデータから導出可能な状態データと関連付けられた状態データとして、センサデータから導出できない状態データが存在している。【選択図】図1
Description
本発明は、状態推定装置、状態推定方法およびプログラムに関する。
従来、センサを用いてユーザを観測し、得られたセンサデータからユーザの状態や行動などを表すコンテキストを推定するシステムが提案されている。このようなシステムでは、センサデータをもとにユーザの状態や行動などを推定するための状態認識エンジンが用いられる場合がある。状態認識エンジンとは、例えばニューラルネットワークのような機械学習モデルを利用したものである。また、ニューラルネットワークとは、人間の脳などにおける神経細胞とその結合様式とを工学的に真似た、神経回路網モデルのことである。ニューラルネットワークは、脳の情報処理や知識獲得方法などを真似た学習アルゴリズムとして、最適化問題の解決法に利用されている。このような状態認識エンジンは、複数の入力ノードを有しており、センサデータの前処理結果を入力として受け付ける。
従来のコンテキスト推定システムの具体例を挙げて、より詳細に説明する。図16に示すように、従来のコンテキスト推定システム400は、センサ401およびセンサ402によりユーザを観測し、得られたセンサデータに対して前処理を行い、コンテキストの推定に必要な情報に加工する。例えば、センサ401では、前処理の結果、「顔の向き」、「目の開閉」、「笑顔」のデータが得られる。また、センサ402では、前処理の結果、「体の姿勢」、「移動」、「発話」のデータが得られる。そして、「顔の向き」、「目の開閉」、「笑顔」、「体の姿勢」、「移動」、「発話」のデータが状態認識エンジンに入力され、「集中度」、「興味度」のコンテキストが推定される。
ここで、従来は、コンテキストの推定に使用するセンサデータが限定される場合があった。即ち、図16に示す例では、「集中度」および「興味度」の推定に必要なセンサデータは、センサ401およびセンサ402によるセンサデータに限定される。そのため、センサ402によりセンサデータが得られる環境であっても、例えばセンサ401が存在しない場合やセンサ401が故障している場合には、センサ401によるセンサデータが得られない。この場合、「集中度」および「興味度」の推定は行われない。また、従来は、このような状態認識エンジンを用いて、センサデータとの関連性があり、センサデータから導出可能なコンテキストを推定するのが一般的であった。図16に示す例では、「集中度」および「興味度」は、センサデータを前処理して得られた「顔の向き」、「目の開閉」、「笑顔」、「体の姿勢」、「移動」、「発話」から導出可能である。
また、例えば、前処理に失敗して、「笑顔」、「体の姿勢」の結果が得られない場合や、結果が得られたとしても通常の範囲外のイレギュラーな値となった場合は、「笑顔」、「体の姿勢」のデータにノイズが含まれることとなる。そのため、ノイズが介在したデータが状態認識エンジンに入力されることとなり、「集中度」、「興味度」の推定精度が低下する。この問題を解決するには、ノイズが介在したデータを状態認識エンジンに与えずに、残りの入力データでコンテキスト(状態データ)の推定を行えば良い。しかし、ニューラルネットワーク構造を持つような機械学習エンジンでは、入力ノードは固定であり、動的に変更されるわけではない。
現在、センサデータにおけるノイズを低減するための技術も提案されている。また、計測条件の変動の影響を受けにくいセンサの改良も進められている。しかし、センサデータにおけるノイズを除去するには技術的な限界もあり、センサの改良は機器のコストを増大させる。
また、センサデータからユーザの状態や行動などを推定する技術としては、ほかに種々のものが提案されている。例えば、特許文献1には、ベイジアンネットワークを用いて人間の意図を推測する技術が記載されている。特許文献1の技術では、オフィス空間、学校、店舗空間、家庭などの空間内に存在する電気製品や証明などのスイッチ、かばん、携帯電話機、財布などのユーザが触れる複数のオブジェクトにそれぞれRFID(Radio Frequency Identifier)タグが設けられる。そして、ユーザが移動したときにRFIDリーダでRFIDタグの情報を読み取り、RFIDタグの情報に基づきユーザが触れた又は使用したオブジェクトをユーザの行動の記録として蓄積する。蓄積されたユーザの行動の記録を、予め作成された行動パターンと比較することにより、ユーザの意図が推測される。
さらに、例えば、特許文献2には、ユーザ周辺に混在する多様な状況情報を共通された形態で示す状況情報モデルと、状況情報及び状況情報提供者間の階層モデルを提供し、多様な領域で発生する状況情報を統合的に推論する技術が記載されている。
そして、例えば、特許文献3には、センサデータの収集度合いにかかわらず任意のサービスが必要とするセンサ値を提供する技術が記載されている。特許文献2の技術では、センサデータのうち指定された範囲の時空間領域における指定された種類のセンサデータについて母平均の信頼区間を推定して第1の推定値を出力する。また、この第1の推定値において欠損している時空間領域の近傍で観測された異種センサデータについて母平均の信頼区間を推定して第2の推定値を出力する。そして、第1の推定値と第2の推定値との局所的な相関関係を用いて、欠損している時空間領域の第1の推定値を補完する。
センサにてユーザを観測し、得られるセンサデータをもとにユーザの状態を推定する処理では、センサデータから導出可能なコンテキストしか推定されない場合がある。また、コンテキストの推定に使用するセンサデータを限定したために、一部のセンサデータが欠落するとコンテキストの推定が行われない場合もある。なお、特許文献1、2の技術は、このようなセンサデータから導出できないコンテキストの推定や、センサデータ欠落時の推定を行うものではない。
また、センサにてユーザを観測し、得られるデータをもとにユーザの状態を推定する処理では、ノイズが介在すると推定精度が低下してしまう。なお、特許文献1、3の技術は、このようなユーザの状態を推定する際の推定精度の低下を防止するものではない。
本発明の目的は、センサデータをもとにユーザの状態を推定する処理において、センサデータから導出できないユーザの状態を推定することを可能にすることにある。
また、本発明の他の目的は、一部のセンサデータが欠落した場合であっても、ユーザの状態を推定することを可能にすることにある。
さらに、本発明の他の目的は、センサにて得られるデータをもとにユーザの状態を推定する処理において、ノイズが介在したとしても、ノイズの影響を抑制してユーザの状態を推定することにある。
また、本発明の他の目的は、一部のセンサデータが欠落した場合であっても、ユーザの状態を推定することを可能にすることにある。
さらに、本発明の他の目的は、センサにて得られるデータをもとにユーザの状態を推定する処理において、ノイズが介在したとしても、ノイズの影響を抑制してユーザの状態を推定することにある。
かかる目的のもと、本発明は、自装置内または外部に設けられたセンサにてユーザを観測して得られるセンサデータをもとに、ユーザの状態を推定する装置であって、センサデータを取得する取得手段と、センサデータが属する層であるセンサデータ層と、ユーザの状態を示す状態データが属する層である複数の状態データ層とが重ねられた階層構造を有する予め定められた推定モデルを用いて、取得されたセンサデータからユーザの状態を推定する推定手段とを備え、推定モデルにおいて、状態データ層に属する状態データは、隣の層に属するセンサデータおよび状態データの少なくともいずれか一方と関連付けられており、センサデータから導出可能な状態データと関連付けられた状態データとして、センサデータから導出できない状態データが存在していることを特徴とする状態推定装置を提供する。
ここで、センサデータ層の隣に存在する状態データ層には、センサデータ層に属し異なる複数のセンサで得られた複数のセンサデータと関連付けられた1つの状態データが属していることを特徴とする。
また、推定モデルの状態データには、同一の状態データ層に属する他の状態データと関連付けられたものが存在することを特徴とする。
さらに、関連付けられたセンサデータと状態データとの間、および関連付けられた状態データと他の状態データとの間は、向きを有する有向グラフで接続されており、有向グラフは、接続先のデータにとっての接続元のデータの関連の度合いを示す値を有することを特徴とする。
そして、この状態推定装置は、外部からコンテンツを受信するコンテンツ受信手段をさらに備え、センサは、コンテンツを視聴するユーザを観測してセンサデータを取得し、推定手段は、センサから得られるセンサデータを入力として推定したユーザの状態とコンテンツとを対応させた対応関係を生成することを特徴とする。
また、推定手段は、推定モデルを用いて、取得されたセンサデータからユーザの状態を示す状態データの値を時系列で推定し、推定した状態データの時系列の値をもとに、特定の時刻における状態データの値を推定することを特徴とする。
また、推定モデルの状態データには、同一の状態データ層に属する他の状態データと関連付けられたものが存在することを特徴とする。
さらに、関連付けられたセンサデータと状態データとの間、および関連付けられた状態データと他の状態データとの間は、向きを有する有向グラフで接続されており、有向グラフは、接続先のデータにとっての接続元のデータの関連の度合いを示す値を有することを特徴とする。
そして、この状態推定装置は、外部からコンテンツを受信するコンテンツ受信手段をさらに備え、センサは、コンテンツを視聴するユーザを観測してセンサデータを取得し、推定手段は、センサから得られるセンサデータを入力として推定したユーザの状態とコンテンツとを対応させた対応関係を生成することを特徴とする。
また、推定手段は、推定モデルを用いて、取得されたセンサデータからユーザの状態を示す状態データの値を時系列で推定し、推定した状態データの時系列の値をもとに、特定の時刻における状態データの値を推定することを特徴とする。
また、本発明は、自装置内または外部に設けられたセンサにてユーザを観測して得られるセンサデータをもとに、ユーザの状態を推定する装置であって、センサデータを取得する取得手段と、センサデータが属する層であるセンサデータ層と、ユーザの状態を示す状態データが属する層である複数の状態データ層とが重ねられた階層構造を有する予め定められた推定モデルを用いて、取得されたセンサデータからユーザの状態を推定する推定手段とを備え、推定モデルにおいて、状態データ層に属する状態データは、隣の層に属するセンサデータおよび状態データの少なくともいずれか一方と関連付けられており、センサデータ層の隣に存在する状態データ層には、センサデータ層に属し異なる複数のセンサで得られた複数のセンサデータと関連付けられた1つの状態データが属していることを特徴とする状態推定装置も提供する。
さらに、本発明は、センサにてユーザを観測して得られるセンサデータをもとに、ユーザの状態を推定する方法であって、センサデータを取得するステップと、センサデータが属する層であるセンサデータ層と、ユーザの状態を示す状態データが属する層である複数の状態データ層とが重ねられた階層構造を有する予め定められた推定モデルを用いて、取得されたセンサデータからユーザの状態を推定するステップとを含み、推定モデルにおいて、状態データ層に属する状態データは、隣の層に属するセンサデータおよび状態データの少なくともいずれか一方と関連付けられており、センサデータから導出可能な状態データと関連付けられた状態データとして、センサデータから導出できない状態データが存在していることを特徴とする状態推定方法も提供する。
そして、本発明は、センサにてユーザを観測して得られるセンサデータをもとに、ユーザの状態を推定する方法であって、センサデータを取得するステップと、センサデータが属する層であるセンサデータ層と、ユーザの状態を示す状態データが属する層である複数の状態データ層とが重ねられた階層構造を有する予め定められた推定モデルを用いて、取得されたセンサデータからユーザの状態を推定するステップとを含み、推定モデルにおいて、状態データ層に属する状態データは、隣の層に属するセンサデータおよび状態データの少なくともいずれか一方と関連付けられており、センサデータ層の隣に存在する状態データ層には、センサデータ層に属し異なる複数のセンサで得られた複数のセンサデータと関連付けられた1つの状態データが属していることを特徴とする状態推定方法も提供する。
また、本発明は、自装置内または外部に設けられたセンサにてユーザを観測して得られるセンサデータをもとにユーザの状態を推定するシステムとして、コンピュータを機能させるプログラムであって、コンピュータに、センサデータを取得する機能と、センサデータが属する層であるセンサデータ層と、ユーザの状態を示す状態データが属する層である複数の状態データ層とが重ねられた階層構造を有する予め定められた推定モデルを用いて、取得されたセンサデータからユーザの状態を推定する機能とを実現させ、推定モデルにおいて、状態データ層に属する状態データは、隣の層に属するセンサデータおよび状態データの少なくともいずれか一方と関連付けられており、センサデータから導出可能な状態データと関連付けられた状態データとして、センサデータから導出できない状態データが存在していることを特徴とするプログラムも提供する。
さらに、本発明は、自装置内または外部に設けられたセンサにてユーザを観測して得られるセンサデータをもとにユーザの状態を推定するシステムとして、コンピュータを機能させるプログラムであって、コンピュータに、センサデータを取得する機能と、センサデータが属する層であるセンサデータ層と、ユーザの状態を示す状態データが属する層である複数の状態データ層とが重ねられた階層構造を有する予め定められた推定モデルを用いて、取得されたセンサデータからユーザの状態を推定する機能とを実現させ、推定モデルにおいて、状態データ層に属する状態データは、隣の層に属するセンサデータおよび状態データの少なくともいずれか一方と関連付けられており、センサデータ層の隣に存在する状態データ層には、センサデータ層に属し異なる複数のセンサで得られた複数のセンサデータと関連付けられた1つの状態データが属していることを特徴とするプログラムも提供する。
また、本発明は、自装置内または外部に設けられたセンサにてユーザを観測して得られるデータをもとに、ユーザの状態を推定する装置であって、センサから得られるデータの全てまたは一部を入力としてユーザの状態を示す状態データを出力する予め定められた複数のデータ処理部の中から、センサから得られるデータに含まれるノイズの有無により、ユーザの状態を推定するのに用いるデータ処理部を選択する選択手段と、選択手段により選択されたデータ処理部を用いて、センサから得られるデータを入力としてユーザの状態を推定する推定手段とを備える状態推定装置を提供する。
ここで、選択手段は、ノイズが含まれるデータを入力とするデータ処理部を選択しないことを特徴とすることができる。
また、選択手段は、センサから得られるデータに含まれるノイズの有無により、予め定められた規則に従ってデータ処理部ごとの重要度を算出し、推定手段は、算出された重要度をもとに各データ処理部が出力する状態データを重み付けして、ユーザの状態を推定することを特徴とすることができる。
さらに、予め定められた複数のデータ処理部は、センサから得られるデータの全てまたは一部を入力値として受け付けることのできるデータ処理部を組み合わせた複数の組み合わせの中から、選ばれた一の組み合わせであり、一の組み合わせは、複数の組み合わせのそれぞれで推定されたユーザの状態を、実際のユーザの状態である正解値と比較して、正答となる度合いをもとに、複数の組み合わせの中から選ばれることを特徴とすることができる。
そして、この状態推定装置は、外部からコンテンツを受信するコンテンツ受信手段をさらに備え、センサは、コンテンツを視聴するユーザを観測してデータを取得し、推定手段は、センサから得られるデータを入力として推定したユーザの状態とコンテンツとを対応させた対応関係を生成することを特徴とすることができる。
また、選択手段は、センサから得られるデータに含まれるノイズの有無により、予め定められた規則に従ってデータ処理部ごとの重要度を算出し、推定手段は、算出された重要度をもとに各データ処理部が出力する状態データを重み付けして、ユーザの状態を推定することを特徴とすることができる。
さらに、予め定められた複数のデータ処理部は、センサから得られるデータの全てまたは一部を入力値として受け付けることのできるデータ処理部を組み合わせた複数の組み合わせの中から、選ばれた一の組み合わせであり、一の組み合わせは、複数の組み合わせのそれぞれで推定されたユーザの状態を、実際のユーザの状態である正解値と比較して、正答となる度合いをもとに、複数の組み合わせの中から選ばれることを特徴とすることができる。
そして、この状態推定装置は、外部からコンテンツを受信するコンテンツ受信手段をさらに備え、センサは、コンテンツを視聴するユーザを観測してデータを取得し、推定手段は、センサから得られるデータを入力として推定したユーザの状態とコンテンツとを対応させた対応関係を生成することを特徴とすることができる。
また、本発明は、センサにてユーザを観測して得られるデータをもとに、ユーザの状態を推定する方法であって、センサから得られるデータの全てまたは一部を入力としてユーザの状態を示す状態データを出力する予め定められた複数のデータ処理部の中から、センサから得られるデータに含まれるノイズの有無により、ユーザの状態を推定するのに用いるデータ処理部を選択するステップと、選択されたデータ処理部を用いて、センサから得られるデータを入力としてユーザの状態を推定するステップとを含む状態推定方法も提供する。
さらに、本発明は、自装置内または外部に設けられたセンサにてユーザを観測して得られるデータをもとにユーザの状態を推定するシステムとして、コンピュータを機能させるプログラムであって、センサから得られるデータの全てまたは一部を入力としてユーザの状態を示す状態データを出力する予め定められた複数のデータ処理部の中から、センサから得られるデータに含まれるノイズの有無により、ユーザの状態を推定するのに用いるデータ処理部を選択する機能と、選択されたデータ処理部を用いて、センサから得られるデータを入力としてユーザの状態を推定する機能とをコンピュータに実現させるためのプログラムも提供する。
本発明によれば、センサデータをもとにユーザの状態を推定する処理において、センサデータから導出できないユーザの状態を推定することができる。
また、本発明によれば、一部のセンサデータが欠落した場合であっても、ユーザの状態を推定することができる。
さらに、本発明によれば、センサにて得られるデータをもとにユーザの状態を推定する処理において、ノイズが介在したとしても、ノイズの影響を抑制してユーザの状態を推定することができる。
また、本発明によれば、一部のセンサデータが欠落した場合であっても、ユーザの状態を推定することができる。
さらに、本発明によれば、センサにて得られるデータをもとにユーザの状態を推定する処理において、ノイズが介在したとしても、ノイズの影響を抑制してユーザの状態を推定することができる。
以下、添付図面を参照して、本発明の実施の形態について詳細に説明する。
[第1の実施形態]
<コンテキスト推定システムの機能構成>
図1は、第1の実施形態に係るコンテキスト推定システムの機能構成例を示したブロック図である。このコンテキスト推定システムは、センサを用いて得られたセンサデータをもとに、ユーザの状態を表すデータであるコンテキストを推定して、ユーザの状態を推定するシステムである。ここで、ユーザの状態には、ユーザの動作、行動に関するものも含まれるものとする。図示するように、コンテキスト推定システムは、コンテンツ表示装置100と、コンテンツ配信装置200と、センサ装置300とを含む。ただし、図1に示す例ではセンサ装置300を1台設ける構成としているが、センサ装置300を2台以上設けることとしても良い。本実施の形態では、状態データの一例として、コンテキストが用いられる。
[第1の実施形態]
<コンテキスト推定システムの機能構成>
図1は、第1の実施形態に係るコンテキスト推定システムの機能構成例を示したブロック図である。このコンテキスト推定システムは、センサを用いて得られたセンサデータをもとに、ユーザの状態を表すデータであるコンテキストを推定して、ユーザの状態を推定するシステムである。ここで、ユーザの状態には、ユーザの動作、行動に関するものも含まれるものとする。図示するように、コンテキスト推定システムは、コンテンツ表示装置100と、コンテンツ配信装置200と、センサ装置300とを含む。ただし、図1に示す例ではセンサ装置300を1台設ける構成としているが、センサ装置300を2台以上設けることとしても良い。本実施の形態では、状態データの一例として、コンテキストが用いられる。
コンテンツ表示装置100は、例えば、テレビジョン受像機、携帯電話、PC(Personal Computer)、タブレット端末等であり、コンテンツ配信装置200が送信するコンテンツを受信して表示する装置である。また、コンテンツ表示装置100は、無線又は有線により接続されたセンサ装置300からセンサデータを受け取ることもできる。このコンテンツ表示装置100は、センサデータ受信部101と、センサデータ前処理部102と、コンテキスト推定部103と、コンテンツ受信部104と、コンテンツ表示部105とを含む。また、コンテンツ表示装置100は、コンテンツ評価結果生成部106と、コンテンツ評価結果送信部107と、コンテンツ推薦結果生成部108と、推薦結果表示部109とを含む。
コンテンツ配信装置200は、テレビ番組、ラジオ番組等を配信するサービス会社により運営され、コンテンツを配信する装置である。ここで、コンテンツには、例えば、テレビ番組等の映像コンテンツ、ラジオ番組等の音声コンテンツがある。或いは、映像コンテンツ又は音声コンテンツに関する説明を行う文書コンテンツをコンテンツに含めてもよい。また、コンテンツの配信は、例えば、地上波、インターネットにより行われる。このコンテンツ配信装置200は、コンテンツ送信部201と、コンテンツ評価結果受信部202とを含む。
センサ装置300は、例えば、カメラ、マイクロホン、スマートフォン、ウェアラブル端末、タブレット端末、PC等であり、コンテンツ表示装置100に表示されたコンテンツを視聴するユーザを観測し、その観測結果であるセンサデータを出力する装置である。このセンサ装置300は、センサデータ送信部301を含む。
まず、コンテンツ表示装置100の構成要素について説明する。
取得手段の一例としてのセンサデータ受信部101は、センサ装置300のセンサデータ送信部301からセンサデータを受信する。
センサデータ前処理部102は、コンテキストを推定するための前処理として、センサデータ受信部101が受信したセンサデータを、コンテキストの推定に必要な情報に加工する。
推定手段の一例としてのコンテキスト推定部103は、センサデータ前処理部102により加工された情報をもとに、ユーザの状態を表すコンテキストを推定する。コンテキストの推定では、事前に作成された推定モデルが用いられる。推定モデルの詳細については後述する。
コンテンツ受信手段の一例としてのコンテンツ受信部104は、コンテンツ配信装置200のコンテンツ送信部201からコンテンツを受信する。ここで、コンテンツ受信部104は、コンテンツが地上波で配信される場合はチューナーに相当し、コンテンツがインターネットで配信される場合はネットワークアダプタ又は携帯端末に相当する。
コンテンツ表示部105は、コンテンツ受信部104がコンテンツ配信装置200から受信したコンテンツを表示する。
推定手段の一例としてのコンテンツ評価結果生成部106は、コンテキスト推定部103が推定したコンテキストと、コンテンツ表示部105が表示しているコンテンツとを統合し、ユーザごとのコンテンツの評価結果を生成する。評価結果は、例えば、推定された興味度をもとにユーザの興味が高いとされる番組の一覧などである。本実施の形態では、対応関係の一例として、評価結果が用いられる。
コンテンツ評価結果送信部107は、コンテンツ評価結果生成部106が生成したコンテンツ評価結果を、コンテンツ配信装置200のコンテンツ評価結果受信部202に送信する。
コンテンツ推薦結果生成部108は、コンテンツ評価結果生成部106が生成したコンテンツ評価結果をもとに、ユーザに推薦する番組などの推薦結果を生成する。コンテンツ推薦結果生成部108は、例えば、コンテンツ評価結果によりユーザの興味が高いと示される番組を抽出し、抽出した番組と同じジャンルの番組を推薦結果として生成する。
推薦結果表示部109は、コンテンツ推薦結果生成部108が生成した推薦結果を表示して、ユーザにフィードバックする。
次に、コンテンツ配信装置200の構成要素について説明する。
コンテンツ送信部201は、コンテンツ表示装置100のコンテンツ受信部104にコンテンツを配信する。
コンテンツ評価結果受信部202は、コンテンツ表示装置100のコンテンツ評価結果送信部107からユーザごとのコンテンツの評価結果を受信する。このコンテンツの評価結果は、例えば、マーケティングのための情報として活用される。
次いで、センサ装置300の構成要素について説明する。
センサデータ送信部301は、ユーザを観測した結果であるセンサデータを、コンテンツ表示装置100のセンサデータ受信部101に送信する。
センサデータ送信部301は、ユーザを観測した結果であるセンサデータを、コンテンツ表示装置100のセンサデータ受信部101に送信する。
このように、本実施の形態に係るコンテキスト推定システムは、センサ装置300を用いてユーザを観測し、得られたセンサデータからコンテキストを推定する。コンテキストの推定では、予め作成された推定モデルが用いられる。そして、コンテキスト推定システムは、推定したコンテキストをもとにコンテンツ評価結果やユーザへの推薦結果を生成する。
<コンテンツ表示装置の処理フロー>
次に、コンテンツ表示装置100による処理について説明する。図2は、第1の実施形態に係るコンテンツ表示装置100による処理手順の一例を示したフローチャートである。初期状態として、コンテキストを推定するための推定モデルが予め作成されているものとする。
次に、コンテンツ表示装置100による処理について説明する。図2は、第1の実施形態に係るコンテンツ表示装置100による処理手順の一例を示したフローチャートである。初期状態として、コンテキストを推定するための推定モデルが予め作成されているものとする。
まず、センサデータ受信部101は、センサ装置300のセンサデータ送信部301からセンサデータを受信する(ステップ101)。次に、センサデータ前処理部102は、前処理として、センサデータをコンテキストの推定に必要な情報に加工する(ステップ102)。次に、コンテキスト推定部103は、センサデータ前処理部102により加工された情報をもとに、推定モデルを用いてコンテキストを推定する(ステップ103)。
次に、コンテンツ評価結果生成部106は、コンテキスト推定部103が推定したコンテキストと、コンテンツ表示部105が表示しているコンテンツとを統合し、ユーザごとのコンテンツの評価結果を生成する(ステップ104)。ここで、コンテンツ表示部105は、コンテンツ受信部104がコンテンツ配信装置200から受信したコンテンツを表示している。
次に、コンテンツ評価結果送信部107は、コンテンツ評価結果生成部106が生成したコンテンツ評価結果をコンテンツ配信装置200に送信する(ステップ105)。なお、コンテンツ評価結果は、コンテンツ推薦結果生成部108における推薦結果の生成にも用いられる。生成された推薦結果は、推薦結果表示部109により表示される。そして、本処理フローは終了する。
<推定モデルの説明>
次に、推定モデルについて、詳細に説明する。図3は、コンテキストの推定に用いられる推定モデルの一例を示す図である。推定モデルでは、センサデータやコンテキストなどの各データを表すノードと、それらのノード間を結ぶ有向グラフとにより表現される。有向グラフは頂点と向きを持つ辺(図3に示す例では、矢印)とで構成されたグラフであり、確率を有している。確率は、有向グラフの接続元と接続先との関連の度合いを示すものである。付言すると、確率は、有向グラフの接続元の値が、有向グラフの接続先の値にどのくらいの影響を及ぼすかを示す。以下では、この確率を「重み値」と称する。このように、ノード間を結ぶ有向グラフにより、センサデータとコンテキストとの関係、および異なるコンテキスト間の関係が示される。
次に、推定モデルについて、詳細に説明する。図3は、コンテキストの推定に用いられる推定モデルの一例を示す図である。推定モデルでは、センサデータやコンテキストなどの各データを表すノードと、それらのノード間を結ぶ有向グラフとにより表現される。有向グラフは頂点と向きを持つ辺(図3に示す例では、矢印)とで構成されたグラフであり、確率を有している。確率は、有向グラフの接続元と接続先との関連の度合いを示すものである。付言すると、確率は、有向グラフの接続元の値が、有向グラフの接続先の値にどのくらいの影響を及ぼすかを示す。以下では、この確率を「重み値」と称する。このように、ノード間を結ぶ有向グラフにより、センサデータとコンテキストとの関係、および異なるコンテキスト間の関係が示される。
このような推定モデルを作成するにあたり、作成者は、まず、被験者に対して実験やアンケートなどを行い、各ノードのデータを収集する。そして、収集したデータに対して、例えばベイジアンネットワークなどの機械学習アルゴリズムを適用することにより、推定モデルが作成される。ここで、推定モデルは、図3に示すように、センサデータおよびコンテキストを要素とする階層構造になっており、各ノードがその種類に応じた複数の層に分類される。複数の層としては、下の層から順番に、「Sensor」、「Lower layer Contexts」、「Middle layer Contexts」、「Higher layer Contexts」、「Other Contexts」の5つが挙げられる。
まず、「Sensor」には、センサ装置300にて取得されたセンサデータが属する。例えば、カメラやマイクロホン、スマートフォン、タブレット端末、ウェアラブル端末等により取得されたセンサデータが挙げられる。推定モデルの作成にあたり、被験者に対して、様々な種類のセンサ装置300を用いた実験が行われる。実験の結果、各センサ装置300にて得られたセンサデータが収集される。
次に、「Lower layer Contexts」には、センサデータを一次処理(前処理)した結果であるコンテキストが属する。例えば、カメラのセンサデータ(画像データ)を処理して得られる「目の開度」や「顔の正面度」、「体姿勢の正面度」、「笑顔度」、「発話の大きさ度」等のコンテキストが挙げられる。ここで、「目の開度」は、目が開いている度合い、「顔の正面度」は、顔が正面を向いている度合い、「体姿勢の正面度」は、体が正面を向いている度合いを示す。また、「笑顔度」は、笑顔の度合い、「発話の大きさ度」は、発話の大きさの度合いを示す。推定モデルの作成にあたり、「Lower layer Contexts」に属するコンテキスト(以下、低層コンテキストと称する)は、収集されたセンサデータを処理することにより、直接的に導出可能である。
次に、「Middle layer Contexts」には、低層コンテキストを処理することにより得られるコンテキストが属する。例えば、「コンテンツへの集中度」、「コンテンツに対する興味度」、「ユーザの喜び度」等のコンテキストが挙げられる。「Middle layer Contexts」に属するコンテキスト(以下、中層コンテキストと称する)は、センサ装置300にて取得されたセンサデータとの結び付きが強い。そのため、中層コンテキストは、低層コンテキストを処理することにより得られるものであり、即ち、センサデータから導出可能なコンテキストである。ただし、推定モデルの作成では、センサデータから導出された推定値よりも、被験者から直接得られた正解値を用いた方が、推定モデルの精度が高くなる。そのため、推定モデルの作成にあたり、中層コンテキストは、例えば、被験者に対するアンケートをもとに算出されたり、別途用意された専用のセンサ(不図示)で得られたデータをもとに収集されたりする。
次に、「Higher layer Contexts」には、センサ装置300のセンサデータから導出できないコンテキストが属する。例えば、「ストレス度」、「疲労度」、「退屈度」等のコンテキストが挙げられる。「Higher layer Contexts」に属するコンテキスト(以下、高層コンテキストと称する)は、センサ装置300のセンサデータとの結び付きが弱く、低層コンテキストや中層コンテキストとは異なり、センサデータから導出されない。ただし、高層コンテキストは、コンテキスト推定システムが備えるセンサ装置300のセンサデータから導出できないのであって、その高層コンテキスト用に別途用意された専用のセンサ(不図示)等では導出できる場合もあるものとする。そして、推定モデルの作成にあたり、高層コンテキストは、中層コンテキストと同様に、例えば、被験者に対するアンケートをもとに算出されたり、専用のセンサで得られたデータをもとに収集されたりする。
最後に、「Other Contexts」には、ユーザの属性を示すコンテキストが属する。例えば、「交友関係」、「家族構成」、「年齢」等のコンテキストが挙げられる。推定モデルの作成にあたり、「Other Contexts」に属するコンテキスト(以下、他コンテキストと称する)は、被験者から提供された情報をもとに収集される。
このように、推定モデルの作成にあたり、被験者に対する実験やアンケートなどが行われ、各ノードのデータが収集される。そして、収集されたデータに対して機械学習アルゴリズムが適用され、センサデータとコンテキストとの関係、異なるコンテキスト間の関係が算出される。その結果、図3に示すような推定モデルが作成される。また、本実施の形態では、センサデータ層の一例として、Sensorの層が用いられる。さらに、状態データ層の一例として、Lower layer Contextsの層、Middle layer Contextsの層、Higher layer Contextsの層が用いられる。
また、作成された推定モデルでは、低層コンテキストには、その低層コンテキストを推定するために用いられるセンサデータが有向グラフで接続される。ただし、1つの低層コンテキストに対して接続されるセンサデータは1つに限られない。1つの低層コンテキストに対して、異なる複数のセンサで得られた複数のセンサデータが接続されても良い。例えば、図3に示す「顔の正面度」には、カメラおよびマイクロホンのセンサデータが接続される。
中層コンテキストには、その中層コンテキストを推定するために用いられる低層コンテキストが有向グラフで接続される。また、接続されるコンテキストとしては低層コンテキストに限られず、同じ層に属する他の中層コンテキストが接続される場合もある。例えば、コンテンツへの集中度が高い場合には、ユーザがそのコンテンツが好きである可能性が高いとして、中層コンテキストの「集中度」から中層コンテキストの「興味度」へ有向グラフが示される。
高層コンテキストには、その高層コンテキストを推定するために用いられる中層コンテキストが有向グラフで接続される。また、接続されるコンテキストとしては中層コンテキストに限られず、同じ層に属する他の高層コンテキストが接続される場合もある。
他コンテキストは、ユーザの属性を示すコンテキストであり、ユーザが直接入力することにより得られる。そして、他コンテキストは、他の層のコンテキストに接続され、他の層のコンテキストの推定結果を制御するパラメータとなる。例えば、「年齢」の高いユーザは「年齢」の低いユーザよりも「疲労度」の値が高くなり易い。この場合、他コンテキストの「年齢」から高層コンテキストの「疲労度」へ有向グラフが示される。また、他コンテキストは、他の層のコンテキストに接続されることにより、他の層のコンテキストから推定されることとしても良い。
このように、推定モデルでは、センサデータ、コンテキストが各層に振り分けられ、ノード同士が有向グラフで接続される。付言すると、各層に属するコンテキストは、隣の層に属するセンサデータおよびコンテキストの少なくともいずれか一方と有向グラフで接続されている。そして、有向グラフで接続された両データは関連付けられている。
そして、コンテンツ表示装置100は、推定モデルを用いて、センサ装置300にて得られたセンサデータからコンテキストを推定する。即ち、センサデータ受信部101がセンサデータを受信すると、センサデータ前処理部102は、センサデータを一次処理(前処理)して低層コンテキストを推定する。そして、コンテキスト推定部103は、推定された低層コンテキストをもとに、中層コンテキストを推定する。さらに、コンテキスト推定部103は、生成された中層コンテキストをもとに、高層コンテキストを推定する。
高層コンテキストは、上述のように、コンテキスト推定システムが備えるセンサ装置300で取得されるセンサデータからは導出できない。しかし、推定モデルにおいて、高層コンテキストは、センサデータから導出可能な中層コンテキストなどの他のコンテキストと関連付けられている。そのため、推定モデルを用いることにより、センサ装置300で取得されるセンサデータから、高層コンテキストの推定が行われる。
<センサデータが欠落した場合の処理の説明>
次に、センサ装置300により得られるセンサデータが欠落した場合の処理について説明する。推定モデルでは、上述のように、複数のセンサデータに接続された低層コンテキストが存在する。この場合、センサデータの前処理結果である低層コンテキストは、複数のセンサデータにより共有される。そのため、あるセンサデータが欠落した場合であっても、他のセンサデータが接続されていれば、他のセンサデータを用いて低層コンテキストが推定される。同様に、中層コンテキスト、高層コンテキストについても、それに関係する一部のコンテキストが欠落していても、他のコンテキストを用いて推定される。
次に、センサ装置300により得られるセンサデータが欠落した場合の処理について説明する。推定モデルでは、上述のように、複数のセンサデータに接続された低層コンテキストが存在する。この場合、センサデータの前処理結果である低層コンテキストは、複数のセンサデータにより共有される。そのため、あるセンサデータが欠落した場合であっても、他のセンサデータが接続されていれば、他のセンサデータを用いて低層コンテキストが推定される。同様に、中層コンテキスト、高層コンテキストについても、それに関係する一部のコンテキストが欠落していても、他のコンテキストを用いて推定される。
図4は、センサデータが欠落した場合の処理の一例を説明するための図である。図4に示す例では、センサ装置300のカメラによるセンサデータが得られずに欠落している。そのため、カメラのセンサデータの前処理結果である「目の開度」、「顔の正面度」、「体姿勢の正面度」、「笑顔度」の低層コンテキストは推定されない。しかし、他のセンサ装置300であるマイクロホンのセンサデータから、「顔の正面度」の低層コンテキストが推定される。さらに、他のセンサ装置300であるスマートフォンのセンサデータから、「体姿勢の正面度」、「笑顔度」の低層コンテキストが推定される。即ち、カメラのセンサデータが欠落しても、「顔の正面度」、「体姿勢の正面度」、「笑顔度」は推定されることとなる。
また、例えば、中層コンテキスト「集中度」には、低層コンテキストとして、「目の開度」、「顔の正面度」、「体姿勢の正面度」、「笑顔度」が接続されている。ここで、カメラによるセンサデータが欠落したとしても、マイクロホンおよびスマートフォンのセンサデータから、「顔の正面度」、「体姿勢の正面度」、「笑顔度」の低層コンテキストが推定される。一方、「目の開度」の値は欠落する。しかし、このような場合であっても、「顔の正面度」、「体姿勢の正面度」、「笑顔度」の値を用いて、「集中度」が推定されることとなる。
このようにして、コンテンツ表示装置100は、一部のセンサデータが欠落した場合であっても、受信した他のセンサデータから求められる低層コンテキストを推定する。また、コンテンツ表示装置100は、センサデータの欠落に伴って一部の低層コンテキストが欠落していても、残りの低層コンテキストから中層コンテキスト、高層コンテキストを推定する。
<コンテキストの推定処理の具体例>
次に、コンテキストの推定処理について、具体例を示して説明する。図5は、コンテキストの推定処理の具体例を説明するための図である。図5に示す例では、4つのコンテキスト(コンテキスト1〜コンテキスト4)から上の層のコンテキスト(コンテキスト5)を推定するものとして説明する。コンテキスト1〜コンテキスト4はそれぞれ、低層コンテキストの「目の開度」、「顔の正面度」、「体姿勢の正面度」、「笑顔度」とする。また、コンテキスト5は中層コンテキストの「集中度」とする。
次に、コンテキストの推定処理について、具体例を示して説明する。図5は、コンテキストの推定処理の具体例を説明するための図である。図5に示す例では、4つのコンテキスト(コンテキスト1〜コンテキスト4)から上の層のコンテキスト(コンテキスト5)を推定するものとして説明する。コンテキスト1〜コンテキスト4はそれぞれ、低層コンテキストの「目の開度」、「顔の正面度」、「体姿勢の正面度」、「笑顔度」とする。また、コンテキスト5は中層コンテキストの「集中度」とする。
まず、コンテキストの推定値は、次の数1式のように表される。
数1式において、Eiはi番目のコンテキストの推定値、Wjiはi番目のコンテキストの推定値に対するj番目のコンテキストの推定値の重み値を表す。例えば、推定モデルの有向グラフの接続先がi番目のコンテキスト、接続元がj番目のコンテキストである場合、有向グラフの重み値はWjiである。また、Ciは推定値Eiの信頼度、Nは推定に用いられるコンテキストの総数を表す。ここで、信頼度とは、推定値の結果に対する信頼の度合いを表す値である。信頼度が高いほど、推定値が信頼できることとなる。Ciは、次の数2式のように表される。
ここで、コンテキスト1〜コンテキスト5をそれぞれ1〜5番目のコンテキストと捉えると、コンテキスト5はコンテキスト1〜コンテキスト4から推定される。そのため、コンテキスト5の推定値E5、信頼度C5は、数1式および数2式にてi=5とすることにより、それぞれ、次の数3式、数4式のように表される。
数3式および数4式において、W15はコンテキスト5に対するコンテキスト1の重み値、W25はコンテキスト5に対するコンテキスト2の重み値である。また、W35はコンテキスト5に対するコンテキスト3の重み値、W45はコンテキスト5に対するコンテキスト4の重み値である。さらに、E1〜5はそれぞれ、コンテキスト1〜5の推定値である。また、C1〜C5はそれぞれ、コンテキスト1〜5の信頼度である。
次に、図6(a)〜(c)および図7(a)〜(c)は、図5の推定処理における計算例を示す図である。まず、図6(a)に示す例では、重み値をそれぞれ、W15=1.0、W25=1.0、W35=1.0、W45=1.0とする。また、各コンテキストの推定値をそれぞれ、E1=1.0、E2=1.0、E3=1.0、E4=1.0とする。さらに、各コンテキストの信頼度をそれぞれ、C1=1.0、C2=1.0、C3=1.0、C4=1.0とする。この場合、コンテキスト5の推定値E5、信頼度C5はそれぞれ、次の数5式、数6式のように表される。
図6(a)に示す例では、コンテキスト1〜4の重み値が1.0であるため、コンテキスト5に強い影響を持つ。また、コンテキスト1〜4の信頼度が1.0であり、100パーセント信頼できるものである。このような条件では、コンテキスト5の推定値は1.0、信頼度は1.0となる。即ち、100パーセント信頼できる結果として、コンテキスト5(集中度)が100パーセントと推定される。
次に、図6(b)に示す例では、重み値をそれぞれ、W15=1.0、W25=1.0、W35=1.0、W45=1.0とする。また、各コンテキストの推定値をそれぞれ、E1=1.0、E2=1.0、E3=1.0、E4=1.0とする。さらに、各コンテキストの信頼度をそれぞれ、C1=1.0、C2=1.0、C3=0、C4=0とする。この場合、コンテキスト5の推定値E5、信頼度C5はそれぞれ、次の数7式、数8式のように表される。
図6(b)に示す例では、コンテキスト1〜4の重み値が1.0であるため、コンテキスト5に強い影響を持つ。また、コンテキスト1および2の信頼度が1.0である一方、コンテキスト3および4の信頼度は0である。即ち、コンテキスト3および4については、例えばセンサ装置300が存在しない等の理由で欠落していると考えられる。このような条件では、コンテキスト5の推定値が1.0、信頼度が0.5となる。推定値としては、信頼度の高い2つのコンテキスト(コンテキスト1および2)の推定値(E1=1.0、E2=1.0)の総計で、1.0(集中度が100パーセント)となる。しかし、強い影響を及ぼす2つのコンテキスト(コンテキスト3および4)の信頼度が低いため、コンテキスト4の信頼度は0.5(50パーセント信頼できる結果)となる。
次に、図6(c)に示す例では、重み値をそれぞれ、W15=1.0、W25=1.0、W35=0.1、W45=0.1とする。また、各コンテキストの推定値をそれぞれ、E1=1.0、E2=1.0、E3=1.0、E4=1.0とする。さらに、各コンテキストの信頼度をそれぞれ、C1=1.0、C2=1.0、C3=0、C4=0とする。この場合、コンテキスト5の推定値E5、信頼度C5はそれぞれ、次の数9式、数10式のように表される。
図6(c)に示す例では、図6(b)に示す例と比較して、コンテキスト3および4の重み値が0.1と低く、コンテキスト5への影響が弱い。コンテキスト3および4の信頼度は0であるが、その一方、コンテキスト5への影響が強い2つのコンテキスト(コンテキスト1および2)の信頼度が高い。そのため、コンテキスト3および4の信頼度が低くても、コンテキスト5の信頼度は高い値(91パーセント信頼できる結果)となる。
次に、図7(a)に示す例では、重み値をそれぞれ、W15=1.0、W25=1.0、W35=0.1、W45=0.1とする。また、各コンテキストの推定値をそれぞれ、E1=1.0、E2=1.0、E3=1.0、E4=1.0とする。さらに、各コンテキストの信頼度をそれぞれ、C1=0、C2=0、C3=0、C4=1.0とする。この場合、コンテキスト5の推定値E5、信頼度C5はそれぞれ、次の数11式、数12式のように表される。
図7(a)に示す例では、図6(c)に示す例と比較して、コンテキスト4の信頼度が1.0で高く、他3つのコンテキストの信頼度は0で低い。この条件で、コンテキスト5の推定値は1.0(集中度が100パーセント)となる。しかし、コンテキスト5へ弱い影響を持つコンテキスト4の結果のみが信頼できることから、コンテキスト5の信頼度は非常に低い値(5パーセント信頼できる結果)となる。
次に、図7(b)に示す例では、重み値をそれぞれ、W15=1.0、W25=1.0、W35=0.1、W45=0.1とする。また、各コンテキストの推定値をそれぞれ、E1=0、E2=0、E3=1.0、E4=1.0とする。さらに、各コンテキストの信頼度をそれぞれ、C1=1.0、C2=1.0、C3=1.0、C4=1.0とする。この場合、コンテキスト5の推定値E5、信頼度C5はそれぞれ、次の数13式、数14式のように表される。
図7(b)に示す例では、4つのコンテキスト1〜4の信頼度は1.0で高いため、コンテキスト5の信頼度も高い値(100パーセント信頼できる結果)となる。ただし、コンテキスト5への影響が強い2つのコンテキスト(コンテキスト1および2)の推定値は0で小さい。そのため、コンテキスト5の推定値は小さい値(集中度が9パーセント)となる。
次に、図7(c)に示す例では、重み値をそれぞれ、W15=1.0、W25=1.0、W35=0.1、W45=0.1とする。また、各コンテキストの推定値をそれぞれ、E1=0、E2=0、E3=1.0、E4=1.0とする。さらに、各コンテキストの信頼度をそれぞれ、C1=1.0、C2=0、C3=1.0、C4=1.0とする。この場合、コンテキスト5の推定値E5、信頼度C5はそれぞれ、次の数15式、数16式のように表される。
図7(c)に示す例では、図7(b)に示す例と比較して、コンテキスト2の信頼度が0で低い。その結果、コンテキスト5の推定値は0.17(集中度が17パーセント)となり、図7(b)におけるコンテキスト5の推定値よりも大きくなる。これは、コンテキスト5への影響が強いコンテキスト2の信頼度が0となり、コンテキスト2の影響が及ばなくなったためである。一方、コンテキスト2の信頼度が0となったために、コンテキスト5の信頼度は0.55となり、図7(b)におけるコンテキスト5の信頼度よりも低くなる。
このように、推定モデルの有向グラフをもとに、コンテキストが推定される。また、各コンテキストには信頼度が定められる。有向グラフの接続元のコンテキストの信頼度が低くても、接続先のコンテキストは推定される。ただし、信頼度の低いコンテキストの重み値が大きい場合には、その接続先のコンテキストの信頼度は下がることになる。
また、図5〜図7に示す例では、低層コンテキストから中層コンテキストを推定する例を示したが、中層コンテキストから高層コンテキストを推定する場合のように、他のコンテキストを推定する場合も同様の処理が行われる。
また、図5〜図7に示す例では、低層コンテキストから中層コンテキストを推定する例を示したが、中層コンテキストから高層コンテキストを推定する場合のように、他のコンテキストを推定する場合も同様の処理が行われる。
また、コンテキストの推定処理では、コンテキストの推定結果に対する、有向グラフの接続元のセンサデータやコンテキストの推定値、信頼度、重み値が把握される。例えば、図6(b)に示す例では、集中度は100パーセントと推定される。その際の「目の開度」、「顔の正面度」の推定値も1.0(100パーセント)である。この結果より、例えば、「目を開けて顔を正面に向けていたので集中していた」という説明が行われる。
また、例えば、図7(b)に示す例では、集中度は9パーセントと推定される。その際の「目の開度」、「顔の正面度」の推定値は0パーセント、「体姿勢の正面度」、「笑顔度」の推定値は100パーセントである。そのため、例えば、「体の姿勢を正面に向けて笑顔であるので集中していなかった」、という説明が行われる。このように、コンテキストの推定処理において用いられた値をもとに、コンテキストの推定結果の説明が行われる。他のコンテキストの推定処理では、例えば、集中度が高くて興味度も高い場合、「好きな番組なので集中していた」などの説明が行われる。
<時系列方向についての予測処理の説明>
次に、コンテキストの時系列のデータを用いて、コンテキストの予測を行う処理について説明する。コンテキストは、時間の経過とともに経過するデータであり、データの連続性により、近接した時刻間では、同種のコンテキスト同士には類似性がある。ただし、近接した時刻間でのコンテキストの類似性は、コンテキスト毎に変動量の特性によって異なる。そこで、推定モデルを時間方向に複製し、同種のコンテキスト同士を、ある重み(重み値)を持った有向グラフによって接続することで、コンテキストの予測を行う。
次に、コンテキストの時系列のデータを用いて、コンテキストの予測を行う処理について説明する。コンテキストは、時間の経過とともに経過するデータであり、データの連続性により、近接した時刻間では、同種のコンテキスト同士には類似性がある。ただし、近接した時刻間でのコンテキストの類似性は、コンテキスト毎に変動量の特性によって異なる。そこで、推定モデルを時間方向に複製し、同種のコンテキスト同士を、ある重み(重み値)を持った有向グラフによって接続することで、コンテキストの予測を行う。
図8は、同種のコンテキストを有向グラフで接続した予測モデルの一例を示す図である。図8に示す予測モデルは、時刻t−2、t−1、t、t+1について、図3に示す推定モデルの各層の同種コンテキストを有向グラフで接続したものである。また、それぞれの有向グラフが有する重み値も示している。
具体的には、図8に示す例において、「Sensor」では、カメラのセンサデータを示している。「Lower layer Contexts」では、低層コンテキストとして「顔の正面度」を示している。「Middle layer Contexts」では、中層コンテキストとして「集中度」を示している。「Higher layer Contexts」では、高層コンテキストとして「ストレス度」を示している。「Other Contexts」では、他コンテキストとして「家族構成」を示している。
ここで、図8に示す予測モデルは、被験者に対する実験やアンケートなどにより訓練データを用意し、その訓練データを用いたパラメータ学習によって決定される。即ち、予測モデルにおける有向グラフの重み値は、訓練データを用いたパラメータ学習によって決定される。また、パラメータ学習には、例えば、ベイズモデルによるパラメータ学習や、遺伝的アルゴリズムによる最適解対策などがある。
このような時系列毎の同種のコンテキストを接続した予測モデルにおいて、コンテキストの推定値P0tは、次の数17式のように表される。
数17式において、t及びkは、ある時刻を表す。nは、時刻tのコンテキストの推定値を算出するために参照する時間幅を表す。P0t(A)は、時系列の値をもとに計算される、時刻tにおける、あるコンテキストAの推定値を表す。Pk(A)は、図3に示す推定モデルにより計算される、時刻kにおける、あるコンテキストAの推定値を表す。Ck(A)は、時刻kにおける、あるコンテキストAの推定値の信頼度を表す。Wk,t(A)は、あるコンテキストAについて、時刻kから時刻tへの重み値を表す。
ここで、信頼度Ck(A)は、図3に示す推定モデルを用いて、数2式にて計算される。例えば、時刻t−2の場合、図3に示す推定モデルを用いて、図5〜図7に示す処理を行い、それぞれのコンテキスト毎に、時刻t−2におけるコンテキストの信頼度Ct−2(A)が計算される。また、例えば時刻t−1の場合も同様に、図3に示す推定モデルを用いて、それぞれのコンテキスト毎に、時刻t−1におけるコンテキストの信頼度Ct−1(A)が計算される。即ち、同種のコンテキストであっても、それぞれの時刻毎に、信頼度が計算される。
例えば、時刻tにおけるコンテキスト「家族構成」を推定する場合について説明する。時刻tにおけるコンテキスト「家族構成」が不明な場合、時刻t−1や時刻t−2の「家族構成」が自明ならば、それぞれの時刻の重み値を用いて、数17式により、時刻tにおける「家族構成」の値が推定される。ここで、時系列の値をもとに計算される、時刻tにおけるコンテキスト「家族構成」の推定値をP0tとする。数17式を用いることにより、P0tは、次の数18式のように表される。
図8に示す予測モデルにおいて、時刻tにおけるコンテキスト「家族構成」は、時刻t−2におけるコンテキスト「家族構成」及び時刻t−1におけるコンテキスト「家族構成」が有向グラフの接続元とされている。そのため、数18式において、n=2になる。また、重み値の値は、図8に示す予測モデルで表しているように、Wt−2,t=0.9、Wt−1,t=0.95、Wt,t=1.0として計算される。また、この例では、時刻t−1の推定値Pt−1、及び時刻t−2の推定値Pt−2は自明であり、図3に示す推定モデルを用いて計算される。さらに、信頼度Ct−2、Ct−1の値もそれぞれ、図3に示す推定モデルを用いて計算される。また、図3に示す推定モデルにより、時刻tの推定値Pt、時刻tの信頼度Ctの値が計算されている場合には、数18式の右辺の「Pt」、「Ct」に計算された値を代入すれば良い。なお、図3に示す推定モデルにより時刻tの推定値Ptが計算されていない場合には、時刻tの信頼度Ctを「0」として、右辺の「Ct」に「0」を代入すれば良い。
このようにして、数18式に値を代入することにより、時刻tにおけるコンテキスト「家族構成」の推定値P0tが、時系列の値をもとに計算される。
このようにして、数18式に値を代入することにより、時刻tにおけるコンテキスト「家族構成」の推定値P0tが、時系列の値をもとに計算される。
ここで、「家族構成」は、短時間で変わる可能性は低く変動の少ないコンテキストであるため、時系列間の重みは強い。そのため、有向グラフの重み値は、0.9〜1.0の範囲であり、大きな値を示している。「ストレス度」や「集中度」も、比較的変動の少ないコンテキストであり、時系列間の重みは比較的強い。そのため、有向グラフの重み値は、0.5〜0.8の範囲であり、比較的大きな値を示している。
一方、「顔の正面度」は、顔の向きによって決まるために変動が大きいコンテキストであり、時系列間の重みは小さい。そのため、有向グラフの重み値は、0.2〜0.4の範囲であり、小さな値を示している。
一般的に、推定モデルで階層の高いコンテキストは時間変動量が少なく、階層の低いコンテキストは時間的変動量が大きい。また、センサデータについてはコンテキスト推定の対象ではないため、有向グラフでは接続していない。
一般的に、推定モデルで階層の高いコンテキストは時間変動量が少なく、階層の低いコンテキストは時間的変動量が大きい。また、センサデータについてはコンテキスト推定の対象ではないため、有向グラフでは接続していない。
次に、時系列のデータを用いてコンテキストの予測を行う処理の手順について説明する。図9は、時系列のデータを用いてコンテキストの予測を行う処理手順の一例を示したフローチャートである。
まず、コンテキスト推定部103は、被験者から提供された年齢や家族構成などの他コンテキストの値を読み込む(ステップ201)。ここでは、他コンテキストに応じて予め定められている信頼度の値も読み込まれる。ステップ201の処理は、他コンテキストが更新されるたびに行われる。
次に、コンテキスト推定部103は、図5〜図7に示す推定処理のように、図3に示す推定モデルを用いて、各層のコンテキストの値を推定する。
ここで、コンテキスト推定部103は、まず、センサデータを一次処理(前処理)して低層コンテキストの値を推定する(ステップ202)。これらの推定には、例えば、画像認識や音声認識などの認識アルゴリズムが用いられる。即ち、センサデータを入力値として認識アルゴリズムを用いることにより、低層コンテキストの推定値が計算される。この場合、低層コンテキストの信頼度も、認識アルゴリズムにて出力される。この低層コンテキストの信頼度は、例えば、センサデータを収集した際の外部環境などに合わせて、値が変わる。
ここで、コンテキスト推定部103は、まず、センサデータを一次処理(前処理)して低層コンテキストの値を推定する(ステップ202)。これらの推定には、例えば、画像認識や音声認識などの認識アルゴリズムが用いられる。即ち、センサデータを入力値として認識アルゴリズムを用いることにより、低層コンテキストの推定値が計算される。この場合、低層コンテキストの信頼度も、認識アルゴリズムにて出力される。この低層コンテキストの信頼度は、例えば、センサデータを収集した際の外部環境などに合わせて、値が変わる。
次に、コンテキスト推定部103は、低層コンテキスト等の関連するコンテキストを用いて、中層コンテキストの値を推定する(ステップ203)。このとき、中層コンテキストの信頼度も計算される。次に、コンテキスト推定部103は、他コンテキストや中層コンテキスト等の関連するコンテキストを用いて、高層コンテキストの値を推定する(ステップ204)。このとき、高層コンテキストの信頼度も計算される。
次に、コンテキスト推定部103は、図4に示すように、センサデータの不足などが原因により未推定となっているコンテキストの値について、関連する既知のコンテキストの値を用いて推定する(ステップ205)。このとき、推定されたコンテキストの信頼度も計算される。
ある時刻においてステップ201〜ステップ205の処理を行うことにより、図3に示す推定モデルの各コンテキストについて、ある時刻における推定値が算出される。ただし、この時点でもまだ算出されていないコンテキストや、不具合により誤って推定されたコンテキストが存在していることが考えられる。このような場合のために、コンテキスト推定部103は、図8に示す予測モデルを用いて、すでに算出している過去の時系列の推定値を用いて、ある時刻におけるコンテキストの値を推定する(ステップ206)。ここで、コンテキスト推定部103は、推定する対象のコンテキストをどのように決めても良く、例えば、ある時刻においてまだ算出されていないコンテキストのみ算出しても良いし、推定モデルの各コンテキストの全てについて算出しても良い。
付言すると、ステップ201〜ステップ205は、ある同時刻でのコンテキストの推定処理であり、ステップ206は、時系列方向についてのコンテキストの予測処理である。
そして、コンテキスト推定部103は、ステップ201〜ステップ206で得た各コンテキストの値を、コンテンツ評価結果生成部106に出力する(ステップ207)。そして、本処理フローは終了する。
そして、コンテキスト推定部103は、ステップ201〜ステップ206で得た各コンテキストの値を、コンテンツ評価結果生成部106に出力する(ステップ207)。そして、本処理フローは終了する。
このように、時系列上のコンテキストの相関を見てコンテキストの推定が行われることにより、例えば、図3の推定モデルを用いた際に算出されていないコンテキストや誤って推定されたコンテキストの値が補完される。
以上説明したように、本実施の形態に係るコンテキスト推定システムは、センサ装置300を用いてユーザを観測し、得られたセンサデータをもとにコンテキストを推定する。コンテキストの推定において、コンテキスト推定システムは、センサデータおよびコンテキストを階層に積み重ねた推定モデルを使用する。
推定モデルでは、センサデータから導出できない高層コンテキストについても、他の層のコンテキストと結び付いている。そのため、例えば、センサデータから導出可能なコンテキストの推定のみ行われるような構成とは違い、センサデータから導出できない高層コンテキストについても推定が行われる。また、推定モデルでは、1つのコンテキストに対して、複数のセンサデータや複数の他のコンテキストが結び付く場合がある。そのため、例えば、一部のセンサデータやコンテキストが欠落することでコンテキストの推定が行われない構成とは違い、欠落があった場合でも、別のセンサデータやコンテキストにて補完されて、推定が行われる。
さらに、コンテキストの推定では、コンテキストの推定結果に対する、有向グラフの接続元のセンサデータやコンテキストの推定値、信頼度、重み値が把握される。そのため、コンテキストの推定結果の説明が行われ、センサデータやコンテキストの関係の分析に利用される。
<コンテンツ表示装置100のハードウェア構成例>
次に、コンテンツ表示装置100のハードウェア構成について説明する。図10は、第1の実施形態に係るに係るコンテンツ表示装置100を構成するのに好適なハードウェア構成例を示す図である。ここでは、コンピュータに適用する場合について説明する。図10に示すコンピュータは、演算手段であるCPU(Central Processing Unit)100aと、主記憶手段であるメモリ100cを備える。また、外部デバイスとして、磁気ディスク装置(HDD:Hard Disk Drive)100g、ネットワークインターフェイス100f、ディスプレイ装置を含む表示機構100d、音声機構100h、キーボードやマウス等の入力デバイス100i等を備える。
次に、コンテンツ表示装置100のハードウェア構成について説明する。図10は、第1の実施形態に係るに係るコンテンツ表示装置100を構成するのに好適なハードウェア構成例を示す図である。ここでは、コンピュータに適用する場合について説明する。図10に示すコンピュータは、演算手段であるCPU(Central Processing Unit)100aと、主記憶手段であるメモリ100cを備える。また、外部デバイスとして、磁気ディスク装置(HDD:Hard Disk Drive)100g、ネットワークインターフェイス100f、ディスプレイ装置を含む表示機構100d、音声機構100h、キーボードやマウス等の入力デバイス100i等を備える。
図10に示す構成例では、メモリ100cおよび表示機構100dは、システムコントローラ100bを介してCPU100aに接続されている。また、ネットワークインターフェイス100f、磁気ディスク装置100g、音声機構100hおよび入力デバイス100iは、I/Oコントローラ100eを介してシステムコントローラ100bと接続されている。各構成要素は、システム・バスや入出力バス等の各種のバスによって接続される。
また、図10において、磁気ディスク装置100gにはOSのプログラムやアプリケーション・プログラムが格納されている。そして、これらのプログラムがメモリ100cに読み込まれてCPU100aに実行されることにより、本実施の形態に係るコンテンツ表示装置100における各機能部の機能が実現される。また、コンテンツ表示部105、推薦結果表示部109は、例えば、表示機構100dにより実現される。
なお、図10は、本実施の形態が適用されるのに好適なコンピュータのハードウェア構成を例示するに過ぎない。本実施の形態は、ユーザの状態を推定する機能を有する装置に広く適用できるものであり、図示の構成においてのみ本実施の形態が実現されるのではない。
<コンテキスト推定システムの他の構成例>
次に、本実施の形態に係るコンテキスト推定システムの他の構成例について説明する。図11は、第1の実施形態に係るコンテキスト推定システムの他の構成例を示す図である。図11に示すコンテキスト推定システムは、センサデータを出力する装置をコンテンツ表示装置100が内蔵している点で、図1に示すコンテキスト推定システムと異なる。即ち、図11に示す例では、コンテンツ表示装置100は、図1のセンサ装置300の機能を具備している。本構成例において、図1に示す構成例と同様のものについては、同じ符号を付してその詳細な説明を省略する。
次に、本実施の形態に係るコンテキスト推定システムの他の構成例について説明する。図11は、第1の実施形態に係るコンテキスト推定システムの他の構成例を示す図である。図11に示すコンテキスト推定システムは、センサデータを出力する装置をコンテンツ表示装置100が内蔵している点で、図1に示すコンテキスト推定システムと異なる。即ち、図11に示す例では、コンテンツ表示装置100は、図1のセンサ装置300の機能を具備している。本構成例において、図1に示す構成例と同様のものについては、同じ符号を付してその詳細な説明を省略する。
コンテンツ表示装置100は、例えば、デジタルサイネージ等であり、コンテンツ配信装置200が送信するコンテンツを受信して表示する装置である。このコンテンツ表示装置100は、センサデータ送信部110を備えており、センサデータ送信部110にてユーザを観測し、その観測結果であるセンサデータを出力する。そして、センサデータ受信部101は、センサデータ送信部110からセンサデータを受信する。
コンテンツ配信装置200は、広告やプロモーション映像等を配信するサービス会社により運営され、コンテンツを配信する装置である。ここで、コンテンツには、例えば、広告やプロモーション映像等の映像コンテンツ、音声コンテンツがある。或いは、映像コンテンツ又は音声コンテンツに関する説明を行う文書コンテンツをコンテンツに含めても良い。
このような図11に示す構成により、図1に示す構成と同様に、センサデータをもとにしたコンテキストの推定が行われる。また、コンテンツ評価結果が生成され、例えば、マーケティングのための情報として活用される。
また、本実施の形態では、高層コンテキストに対して、中層コンテキストだけでなく低層コンテキストを接続することとしても良い。さらに、上の層のコンテキストから下の層のコンテキストに向けた有向グラフを示すこととしても良い。例えば、高層コンテキストから低層コンテキストに向けた有向グラフを示した推定モデルでは、高層コンテキストの推定値から、さらに、低層コンテキストが推定される。また、関連のある低層コンテキスト同士を接続することとしても良い。
[第2の実施形態]
第1の実施形態では、センサデータ前処理部102が、前処理としてセンサデータをコンテキストの推定に必要な情報に加工し、コンテキスト推定部103が、センサデータ前処理部102により加工された情報をもとに、コンテキストを推定した。ここで、センサデータ前処理部102により前処理されたセンサデータには、センサによる計測エラーや前処理の誤認識等によるノイズが含まれている場合がある。そこで、第2の実施形態は、前処理されたセンサデータにノイズが含まれた場合の対策を行ったものである。
第1の実施形態では、センサデータ前処理部102が、前処理としてセンサデータをコンテキストの推定に必要な情報に加工し、コンテキスト推定部103が、センサデータ前処理部102により加工された情報をもとに、コンテキストを推定した。ここで、センサデータ前処理部102により前処理されたセンサデータには、センサによる計測エラーや前処理の誤認識等によるノイズが含まれている場合がある。そこで、第2の実施形態は、前処理されたセンサデータにノイズが含まれた場合の対策を行ったものである。
図12は、第2の実施形態に係るコンテキスト推定システムの機能構成例を示したブロック図である。このコンテキスト推定システムは、センサを用いてユーザを観測して得られるセンサデータをもとに、ユーザの状態を示すコンテキストを生成してユーザの状態を推定するシステムである。ユーザの状態には、ユーザの動作、行動に関するものも含まれるものとする。図示するように、コンテキスト推定システムは、コンテンツ表示装置500と、コンテンツ配信装置200と、センサ装置300とを含む。ただし、図12に示す例ではセンサ装置300を1台設ける構成としているが、センサ装置300を2台以上設けることとしても良い。
なお、コンテンツ配信装置200、センサ装置300は、第1の実施の形態と同様の構成を有するため、ここでは説明を省略する。また、第2の実施形態に係るコンテンツ表示装置500は、図10に示すような第1の実施の形態に係るコンテンツ表示装置100と同様のハードウェア構成を有するものとする。さらに、以下では、ユーザの状態を示すコンテキストを、「状態データ」と称して、説明を行う。
コンテンツ表示装置500は、例えば、テレビジョン受像機、携帯電話、PC(Personal Computer)、タブレット端末等であり、コンテンツ配信装置200が送信するコンテンツを受信して表示する装置である。また、コンテンツ表示装置500は、無線又は有線により接続されたセンサ装置300からセンサデータを受け取ることもできる。このコンテンツ表示装置500は、センサデータ受信部501と、センサデータ前処理部502と、状態認識エンジン選択部503と、状態推定部504と、コンテンツ受信部505と、コンテンツ表示部506とを含む。また、コンテンツ表示装置500は、コンテンツ評価結果生成部507と、コンテンツ評価結果送信部508と、コンテンツ推薦結果生成部509と、推薦結果表示部510とを含む。
センサデータ受信部501は、センサ装置300のセンサデータ送信部301からセンサデータを受信する。
センサデータ前処理部502は、状態データを推定するための前処理として、センサデータ受信部501が受信したセンサデータを、状態データの推定に必要な情報に加工する。
選択手段の一例としての状態認識エンジン選択部503は、センサデータ前処理部502により加工された情報をもとに、状態データの推定に使用される状態認識エンジンを選択する。状態認識エンジンは、上述したように、例えばニューラルネットワークのような機械学習モデルを利用したものである。状態認識エンジンは、複数の入力ノードを有しており、センサデータ前処理部502によるセンサデータの前処理結果を入力として受け付ける。本実施の形態では、データ処理部の一例として、状態認識エンジンが用いられる。
ここで、センサデータ前処理部502により前処理されたセンサデータには、センサによる計測エラーや前処理の誤認識等によるノイズが含まれている場合がある。そこで、本実施の形態では、前処理されたセンサデータにノイズが含まれた場合の対策として、入力ノードを削減してセンサデータの一部を入力とする状態認識エンジンが予め準備される。そして、状態認識エンジン選択部503は、前処理結果に含まれるノイズが状態データの推定に影響を与えないように、ノイズの有無により、予め準備された複数の状態認識エンジンの中から、状態データの推定に使用される状態認識エンジンの選択を行う。状態認識エンジン選択部503も、例えばニューラルネットワークのような機械学習モデルを利用しており、状態認識エンジンと同様の構造を有している。
推定手段の一例としての状態推定部504は、状態認識エンジン選択部503にて選択された状態認識エンジンを用いて、前処理されたセンサデータをもとに状態データを推定する。
コンテンツ受信手段の一例としてのコンテンツ受信部505は、コンテンツ配信装置200のコンテンツ送信部201からコンテンツを受信する。ここで、コンテンツ受信部505は、コンテンツが地上波で配信される場合はチューナーに相当し、コンテンツがインターネットで配信される場合はネットワークアダプタ又は携帯端末に相当する。
コンテンツ表示部506は、コンテンツ受信部505がコンテンツ配信装置200から受信したコンテンツを表示する。
推定手段の一例としてのコンテンツ評価結果生成部507は、状態推定部504が推定した状態データと、コンテンツ表示部506が表示しているコンテンツとを統合し、ユーザごとのコンテンツの評価結果を生成する。評価結果は、例えば、推定された興味度をもとにユーザの興味が高いとされる番組の一覧などである。本実施の形態では、対応関係の一例として、評価結果が用いられる。
コンテンツ評価結果送信部508は、コンテンツ評価結果生成部507が生成したコンテンツ評価結果を、コンテンツ配信装置200のコンテンツ評価結果受信部202に送信する。
コンテンツ推薦結果生成部509は、コンテンツ評価結果生成部507が生成したコンテンツ評価結果をもとに、ユーザに推薦する番組などの推薦結果を生成する。コンテンツ推薦結果生成部509は、例えば、コンテンツ評価結果によりユーザの興味が高いと示される番組を抽出し、抽出した番組と同じジャンルの番組を推薦結果として生成する。
推薦結果表示部510は、コンテンツ推薦結果生成部509が生成した推薦結果を表示して、ユーザにフィードバックする。
このように、本実施の形態に係るコンテキスト推定システムは、センサ装置300を用いてユーザを観測し、得られたセンサデータから状態データを推定する。状態データの推定において、コンテキスト推定システムは、センサデータのノイズが影響しないように状態認識エンジンの選択を行う。そして、コンテキスト推定システムは、選択した状態認識エンジンを用いて状態データを推定し、推定した状態データをもとにコンテンツ評価結果やユーザへの推薦結果を生成する。
<コンテンツ表示装置の処理フロー>
次に、コンテンツ表示装置500による処理について説明する。図13は、第2の実施形態に係るコンテンツ表示装置500による処理手順の一例を示したフローチャートである。初期状態として、状態データを推定するための複数の状態認識エンジンが予め準備されているものとする。
次に、コンテンツ表示装置500による処理について説明する。図13は、第2の実施形態に係るコンテンツ表示装置500による処理手順の一例を示したフローチャートである。初期状態として、状態データを推定するための複数の状態認識エンジンが予め準備されているものとする。
まず、センサデータ受信部501は、センサ装置300のセンサデータ送信部301からセンサデータを受信する(ステップ301)。次に、センサデータ前処理部502は、前処理として、センサデータを状態データの推定に必要な情報に加工する(ステップ302)。次に、状態認識エンジン選択部503は、前処理されたセンサデータに含まれるノイズに合わせて、予め準備された状態認識エンジンから状態データの推定に使用される状態認識エンジンを選択する(ステップ303)。具体的には、状態認識エンジン選択部503は、予め準備された各状態認識エンジンをどのくらいの重みで使用するかを示す値(以下、重み値と称する)を、状態認識エンジンごとに計算する。重み値の詳細については、後述する。
次に、状態推定部504は、センサデータ前処理部502により前処理されたセンサデータと、状態認識エンジン選択部503により算出された重み値とをもとに、状態データを推定する(ステップ304)。ここで、状態推定部504は、状態認識エンジンごとに状態データを推定して重み値と積算し、それらを足し合わせることにより、合計の状態データを推定する。
次に、コンテンツ評価結果生成部507は、状態推定部504が推定した状態データと、コンテンツ表示部506が表示しているコンテンツとを統合し、ユーザごとのコンテンツの評価結果を生成する(ステップ305)。ここで、コンテンツ表示部506は、コンテンツ受信部505がコンテンツ配信装置200から受信したコンテンツを表示している。
次に、コンテンツ評価結果送信部508は、コンテンツ評価結果生成部507が生成したコンテンツ評価結果をコンテンツ配信装置200に送信する(ステップ306)。なお、コンテンツ評価結果は、コンテンツ推薦結果生成部509における推薦結果の生成にも用いられる。生成された推薦結果は、推薦結果表示部510により表示される。そして、本処理フローは終了する。
<状態データの推定処理の説明>
次に、コンテンツ表示装置500が状態データを推定する処理について、詳細に説明する。図14は、コンテンツ表示装置500が状態データを推定する処理の一例を説明するための図である。コンテンツ表示装置500では、図14に示すように、予め複数の状態認識エンジン(図14に示す例では、状態認識エンジンA〜I)が準備されている。状態認識エンジンを準備する手順の詳細については、後述する。
次に、コンテンツ表示装置500が状態データを推定する処理について、詳細に説明する。図14は、コンテンツ表示装置500が状態データを推定する処理の一例を説明するための図である。コンテンツ表示装置500では、図14に示すように、予め複数の状態認識エンジン(図14に示す例では、状態認識エンジンA〜I)が準備されている。状態認識エンジンを準備する手順の詳細については、後述する。
まず、センサデータ前処理部502は、センサデータの前処理結果が有効であるか否かを示すフラグ情報を生成する。即ち、センサデータ前処理部502は、前処理結果にノイズが含まれている場合には、その前処理結果が有効でない旨のフラグ情報を生成する。そして、状態認識エンジン選択部503は、フラグ情報を入力として受け付け、予め準備された状態認識エンジンの中から、状態データの推定に使用される状態認識エンジンを選択する。
具体的には、状態認識エンジン選択部503は、フラグ情報をもとに、予め定められた規則に従って、準備された各状態認識エンジンをどのくらいの重みで使用するかを示す重み値を計算する。重み値は、状態認識エンジンごとに計算される。例えば、フラグ情報によりノイズが含まれている前処理結果がある場合、状態認識エンジン選択部503は、その前処理結果を入力とする状態認識エンジンについて、状態データの推定に用いないこととする。この場合、状態認識エンジン選択部503は、状態データの推定に用いない状態認識エンジンの重み値を「0」にする。また、例えば、ある状態認識エンジンの出力結果を重視する場合には、状態認識エンジン選択部503は、その状態認識エンジンの重み値を大きくする。本実施の形態では、重要度の一例として、重み値が用いられる。
そして、状態推定部504は、センサデータ前処理部502による前処理結果のデータを受け付けて、状態認識エンジンごとに状態データを出力する。また、状態推定部504は、状態認識エンジンが出力する状態データについて、重み値をもとに重み付けして、状態データの推定を行う。付言すると、状態推定部504は、各状態認識エンジンが出力する状態データと、その状態データに対応する重み値とを積算し、それらを全て足し合わせて、状態データの推定を行う。
ここで、推定される状態データは、数19式のように表される。
数19式において、Rは推定される状態データ、nは状態認識エンジンの総数を表す。また、wは状態認識エンジン選択部503が出力する重み値、riはi番目の状態認識エンジンが出力する状態データを表す。
図14に示す例では、センサデータの前処理が成功すると、「顔の向き」、「目の開閉」、「笑顔」、「体の姿勢」、「移動」、「発話」のデータが得られる例である。ここで、「顔の向き」は、顔が正面を向いている度合い、「目の開閉」は、目が開いている度合い、「笑顔」は、笑顔の度合いを示す。また、「体の姿勢」は、体が正面を向いている度合い、「移動」は、体が移動している度合い、「発話」は、発話の大きさの度合いを示す。
ここで、前処理に失敗して「笑顔」、「体の姿勢」のデータが得られず、「笑顔」、「体の姿勢」はノイズが介在したデータになるものとする。この場合、状態認識エンジン選択部503は、例えば、「入力ノード3」で「笑顔」のデータが有効ではない旨のフラグ情報を受け付ける。また、状態認識エンジン選択部503は、例えば、「入力ノード4」で「体の姿勢」のデータが有効ではない旨のフラグ情報を受け付ける。さらに、状態認識エンジン選択部503は、その他の「顔の向き」、「目の開閉」、「移動」、「発話」のデータについて、例えば「入力ノード1、2、5、6」で、有効である旨のフラグ情報を受け付ける。そして、状態認識エンジン選択部503は、受け付けたフラグ情報をもとに、状態認識エンジンA〜Iのそれぞれについて重み値を算出する。
例えば、状態認識エンジン選択部503は、状態データの推定に使用する状態認識エンジン(図14に示す例では、状態認識エンジンA、B)については、重み値を「0」ではない値とする。一方、状態認識エンジン選択部503は、状態データの推定に使用しない状態認識エンジン(図14に示す例では、C〜I)については、重み値を「0」とする。そして、状態認識エンジン選択部503は、例えば、「出力ノード1」で状態認識エンジンAの重み値を出力する。また、状態認識エンジン選択部503は、例えば、「出力ノード2」で状態認識エンジンBの重み値を出力する。同様に、状態認識エンジン選択部503は、例えば、「出力ノード3〜9」で、順番に、状態認識エンジンC〜Iの重み値を出力する。出力された重み値は状態推定部504に入力される。
次に、状態推定部504は、状態認識エンジンA〜Iのそれぞれにおいて、前処理結果のデータを受け付けて状態データを出力する。重み値が「0」ではない状態認識エンジン、例えば、状態認識エンジンAは、「顔の向き」、「目の開閉」をそれぞれ入力ノード1、入力ノード2で受け付ける。そして、状態認識エンジンAは、例えば、「出力ノード1」にて「集中度」の状態データを出力し、「出力ノード2」にて「興味度」の状態データを出力する。
また、例えば、状態認識エンジンBは、「目の開閉」、「移動」、「発話」をそれぞれ「入力ノード2」、「入力ノード5」、「入力ノード6」で受け付ける。そして、状態認識エンジンBは、例えば、「出力ノード1」にて「集中度」の状態データを出力し、「出力ノード2」にて「興味度」の状態データを出力する。
一方、重み値が「0」の状態データ認識エンジンについては、その出力結果は状態データの推定に使用されない。そのため、状態推定部504は、重み値が「0」の状態データ認識エンジンについて、状態データを出力する処理を行わなくても良い。
一方、重み値が「0」の状態データ認識エンジンについては、その出力結果は状態データの推定に使用されない。そのため、状態推定部504は、重み値が「0」の状態データ認識エンジンについて、状態データを出力する処理を行わなくても良い。
状態認識エンジンA、Bにて状態データが出力されると、状態推定部504は、数19式のように、状態認識エンジンA、Bの出力結果に対してそれぞれの重み値を積算する。そして、状態推定部504は、積算された値を足し合わせることにより、ユーザの状態データ「集中度」、「興味度」の推定値を算出する。
このようにして、状態認識エンジン選択部503は、センサデータの前処理結果に含まれるノイズに合わせて、予め準備された状態認識エンジンのそれぞれについて重み値を算出する。そして、状態推定部504は、各状態認識エンジンの出力結果を求めて重み値を積算し、積算結果を足し合わせて状態データを推定する。
また、図14に示す状態認識エンジンH、Iのように、状態認識エンジン選択部503は、ノイズが含まれる「笑顔」、「体の姿勢」のデータを受け付けない状態認識エンジンについて、重み値を「0」としても良い。後述するように、状態認識エンジンの重み値は、状態データの推定精度を高めるような学習パラメータをもとに計算される。
<状態認識エンジンを準備する手順の説明>
次に、状態認識エンジンを予め準備する手順について、詳細に説明する。状態認識エンジンは、上述したように、センサ装置300によるセンサデータの前処理結果の全てまたは一部を入力として受け付ける。そのため、例えばセンサ装置300の数が増え、前処理結果として出力されるデータの種類数が増えると、状態認識エンジンのバリエーションも増えることとなる。一方、コンテンツ表示装置500には、状態認識エンジンの処理に対して割り当て可能なメモリ容量やデータ容量が存在する。そのため、状態認識エンジンとしては、コンテンツ表示装置500が許容するメモリ容量やデータ容量を考慮して準備される。
次に、状態認識エンジンを予め準備する手順について、詳細に説明する。状態認識エンジンは、上述したように、センサ装置300によるセンサデータの前処理結果の全てまたは一部を入力として受け付ける。そのため、例えばセンサ装置300の数が増え、前処理結果として出力されるデータの種類数が増えると、状態認識エンジンのバリエーションも増えることとなる。一方、コンテンツ表示装置500には、状態認識エンジンの処理に対して割り当て可能なメモリ容量やデータ容量が存在する。そのため、状態認識エンジンとしては、コンテンツ表示装置500が許容するメモリ容量やデータ容量を考慮して準備される。
具体的には、センサデータの前処理結果の種類(例えば、「顔の向き」、「目の開閉」、「笑顔」など)をもとに考え得る全ての状態認識エンジンのバリエーションの中から、最適な状態認識エンジン群を選び出す処理が行われる。この処理を行うにあたり、事前に被験者に対する実験が行われ、被験者を観測して得られたセンサデータが用意される。また、例えば被験者に対してアンケートが行われ、その被験者の状態データも取得される。この状態データは、被験者から直接取得され実際の被験者の状態を示すものであり、正解値として扱われる。即ち、被験者に対して、行動認識エンジンの入力値となるセンサデータと、正解値となる状態データとのデータセットが取得される。このような実験を複数の被験者に対して行うことにより(または、1人の被験者に対して複数の実験を行うことにより)、複数のデータセットが取得される。
実験により複数のデータセットが取得された後、まず、状態認識エンジン選択部503は、一般的な探索処理の遺伝的アルゴリズム(以下、GAと称する)を用いて、いくつかの状態認識エンジンを抽出する。ここでは、状態認識エンジン選択部503は、センサデータの前処理結果の種類をもとに考え得る全ての状態認識エンジンのバリエーションの中から、いくつかの状態認識エンジンを抽出する。そして、抽出された状態認識エンジン群に対して、実験により得られたセンサデータが入力される。センサデータの入力により、抽出された状態認識エンジン群において、状態データの推定が行われる。
次に、推定結果として得られた状態データと、実験により得られた正解値の状態データとの比較が行われる。そして、推定結果の状態データが正解値に近ければ、推定結果は正答であるとされる。このような比較が複数のデータセットごとに行われる。その結果、複数のデータセットのうち何個のデータセットが正答であるかの割合を示す正答率が算出される。
ここで、状態データを推定するためには、各状態認識エンジンに対応する重み値が必要である。そこで、状態認識エンジン選択部503は、重み値を計算するための計算ロジック(以下、学習パラメータと称する)を調整し、正答率が最も高くなるようにする。付言すると、状態認識エンジン選択部503は、フラグ情報を入力として受け付け、学習パラメータを用いて状態認識エンジンの重み値を算出する際、正答率が最も高くなるように学習パラメータを決定する。このようにして最も高い正答率が求まると、その正答率は、抽出された状態認識エンジン群における評価値として扱われる。
抽出した状態認識エンジン群の評価値を算出すると、状態認識エンジン選択部503は、さらに、GAを用いて、別の組み合わせとなる状態認識エンジン群を抽出する。そして、状態認識エンジン選択部503は、新たな状態認識エンジン群において、状態データの正答率が最も高くなるように、学習パラメータを調整する。最も高い正答率が求まると、新たな状態認識エンジン群における評価値として扱われる。
このように、状態認識エンジン選択部503は、GAを用いて、あらゆる組み合わせの状態認識エンジン群を抽出し、抽出した状態認識エンジン群における評価値を算出する。そして、算出された全ての評価値の中で最も評価値が高い状態認識エンジン群が、状態データを推定するための状態認識エンジンとして、予め準備されることとなる。ここで、GAの処理において、どれだけの個数の状態認識エンジンを抽出するかを定義しておくことで、コンテンツ表示装置500が許容するメモリ容量やデータ容量を満たす個数の状態認識エンジンが抽出される。そのため、コンテキスト推定システムが、例えば計算負荷の高い前処理を実行できないような低スペックであったとしても、ノイズの影響を抑制した状態データの推定が行われる。また、予め準備するものとして決定した状態認識エンジン群について、正答率の算出の過程で決定された学習パラメータは、実際の状態データの推定においても利用可能である。
以上説明したように、本実施の形態に係るコンテキスト推定システムは、センサ装置300を用いてユーザを観測し、得られたセンサデータをもとに状態データを推定する。状態データの推定において、コンテキスト推定システムは、センサデータの前処理結果に含まれるノイズに合わせて、状態認識エンジンの重み値を算出する。そのため、例えば、センサデータの前処理結果にノイズが含まれていてもそのまま入力として受け付けるような構成と比較して、本実施の形態では、ノイズの影響を抑制して状態データが推定される。
また、本実施の形態では、被験者に対する実験をもとに正答率が最も高くなるような状態認識エンジン群を抽出することとしたが、このような構成に限られるものではない。例えば、状態認識エンジン群を抽出せずに、センサデータの前処理結果の種類をもとに考え得る全ての状態認識エンジンを準備することとしても良い。この場合には、準備する状態認識エンジンの数が増えるため、必要なメモリ容量およびデータ容量が増えるが、そのためのスペックが備わっていれば良い。
<コンテキスト推定システムの他の構成例>
次に、本実施の形態に係るコンテキスト推定システムの他の構成例について説明する。図15は、第2の実施形態に係るコンテキスト推定システムの他の構成例を示す図である。図15に示すコンテキスト推定システムは、センサデータを出力する装置をコンテンツ表示装置500が内蔵している点で、図12に示すコンテキスト推定システムと異なる。即ち、図15に示す例では、コンテンツ表示装置500は、図12のセンサ装置300の機能を具備している。本構成例において、図12に示す構成例と同様のものについては、同じ符号を付してその詳細な説明を省略する。
次に、本実施の形態に係るコンテキスト推定システムの他の構成例について説明する。図15は、第2の実施形態に係るコンテキスト推定システムの他の構成例を示す図である。図15に示すコンテキスト推定システムは、センサデータを出力する装置をコンテンツ表示装置500が内蔵している点で、図12に示すコンテキスト推定システムと異なる。即ち、図15に示す例では、コンテンツ表示装置500は、図12のセンサ装置300の機能を具備している。本構成例において、図12に示す構成例と同様のものについては、同じ符号を付してその詳細な説明を省略する。
コンテンツ表示装置500は、例えば、デジタルサイネージ等であり、コンテンツ配信装置200が送信するコンテンツを受信して表示する装置である。このコンテンツ表示装置500は、センサデータ送信部511を備えており、センサデータ送信部511にてユーザを観測し、その観測結果であるセンサデータを出力する。そして、センサデータ受信部501は、センサデータ送信部511からセンサデータを受信する。
コンテンツ配信装置200は、広告やプロモーション映像等を配信するサービス会社により運営され、コンテンツを配信する装置である。ここで、コンテンツには、例えば、広告やプロモーション映像等の映像コンテンツ、音声コンテンツがある。或いは、映像コンテンツ又は音声コンテンツに関する説明を行う文書コンテンツをコンテンツに含めても良い。
このような図15に示す構成により、図12に示す構成と同様に、センサデータをもとにした状態データの推定が行われる。また、コンテンツ評価結果が生成され、例えば、マーケティングのための情報として活用される。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態には限定されない。本発明の精神および範囲から逸脱することなく様々に変更したり代替態様を採用したりすることが可能なことは、当業者に明らかである。
100…コンテンツ表示装置、101…センサデータ受信部、102…センサデータ前処理部、103…コンテキスト推定部、104…コンテンツ受信部、105…コンテンツ表示部、106…コンテンツ評価結果生成部、107…コンテンツ評価結果送信部、108…コンテンツ推薦結果生成部、109…推薦結果表示部、200…コンテンツ配信装置、201…コンテンツ送信部、202…コンテンツ評価結果受信部、300…センサ装置、301…センサデータ送信部、500…コンテンツ表示装置、501…センサデータ受信部、502…センサデータ前処理部、503…状態認識エンジン選択部、504…状態推定部、505…コンテンツ受信部、506…コンテンツ表示部、507…コンテンツ評価結果生成部、508…コンテンツ評価結果送信部、509…コンテンツ推薦結果生成部、510…推薦結果表示部
Claims (18)
- 自装置内または外部に設けられたセンサにてユーザを観測して得られるセンサデータをもとに、ユーザの状態を推定する装置であって、
前記センサデータを取得する取得手段と、
センサデータが属する層であるセンサデータ層と、ユーザの状態を示す状態データが属する層である複数の状態データ層とが重ねられた階層構造を有する予め定められた推定モデルを用いて、取得された前記センサデータからユーザの状態を推定する推定手段とを備え、
前記推定モデルにおいて、前記状態データ層に属する状態データは、隣の層に属するセンサデータおよび状態データの少なくともいずれか一方と関連付けられており、当該センサデータから導出可能な状態データと関連付けられた状態データとして、当該センサデータから導出できない状態データが存在していること
を特徴とする状態推定装置。 - 前記センサデータ層の隣に存在する前記状態データ層には、当該センサデータ層に属し異なる複数の前記センサで得られた複数の前記センサデータと関連付けられた1つの状態データが属していること
を特徴とする請求項1に記載の状態推定装置。 - 前記推定モデルの状態データには、同一の状態データ層に属する他の状態データと関連付けられたものが存在すること
を特徴とする請求項1または2に記載の状態推定装置。 - 関連付けられたセンサデータと状態データとの間、および関連付けられた状態データと他の状態データとの間は、向きを有する有向グラフで接続されており、当該有向グラフは、接続先のデータにとっての接続元のデータの関連の度合いを示す値を有すること
を特徴とする請求項1乃至3のいずれか1項に記載の状態推定装置。 - 外部からコンテンツを受信するコンテンツ受信手段をさらに備え、
前記センサは、前記コンテンツを視聴するユーザを観測してセンサデータを取得し、
前記推定手段は、前記センサから得られるセンサデータを入力として推定したユーザの状態と前記コンテンツとを対応させた対応関係を生成すること
を特徴とする請求項1乃至4のいずれか1項に記載の状態推定装置。 - 前記推定手段は、前記推定モデルを用いて、取得された前記センサデータからユーザの状態を示す状態データの値を時系列で推定し、推定した当該状態データの時系列の値をもとに、特定の時刻における当該状態データの値を推定すること
を特徴とする請求項1乃至5のいずれか1項に記載の状態推定装置。 - 自装置内または外部に設けられたセンサにてユーザを観測して得られるセンサデータをもとに、ユーザの状態を推定する装置であって、
前記センサデータを取得する取得手段と、
センサデータが属する層であるセンサデータ層と、ユーザの状態を示す状態データが属する層である複数の状態データ層とが重ねられた階層構造を有する予め定められた推定モデルを用いて、取得された前記センサデータからユーザの状態を推定する推定手段とを備え、
前記推定モデルにおいて、前記状態データ層に属する状態データは、隣の層に属するセンサデータおよび状態データの少なくともいずれか一方と関連付けられており、前記センサデータ層の隣に存在する当該状態データ層には、当該センサデータ層に属し異なる複数の前記センサで得られた複数の当該センサデータと関連付けられた1つの状態データが属していること
を特徴とする状態推定装置。 - センサにてユーザを観測して得られるセンサデータをもとに、ユーザの状態を推定する方法であって、
前記センサデータを取得するステップと、
センサデータが属する層であるセンサデータ層と、ユーザの状態を示す状態データが属する層である複数の状態データ層とが重ねられた階層構造を有する予め定められた推定モデルを用いて、取得された前記センサデータからユーザの状態を推定するステップとを含み、
前記推定モデルにおいて、前記状態データ層に属する状態データは、隣の層に属するセンサデータおよび状態データの少なくともいずれか一方と関連付けられており、当該センサデータから導出可能な状態データと関連付けられた状態データとして、当該センサデータから導出できない状態データが存在していること
を特徴とする状態推定方法。 - センサにてユーザを観測して得られるセンサデータをもとに、ユーザの状態を推定する方法であって、
前記センサデータを取得するステップと、
センサデータが属する層であるセンサデータ層と、ユーザの状態を示す状態データが属する層である複数の状態データ層とが重ねられた階層構造を有する予め定められた推定モデルを用いて、取得された前記センサデータからユーザの状態を推定するステップとを含み、
前記推定モデルにおいて、前記状態データ層に属する状態データは、隣の層に属するセンサデータおよび状態データの少なくともいずれか一方と関連付けられており、前記センサデータ層の隣に存在する当該状態データ層には、当該センサデータ層に属し異なる複数の前記センサで得られた複数の当該センサデータと関連付けられた1つの状態データが属していること
を特徴とする状態推定方法。 - 自装置内または外部に設けられたセンサにてユーザを観測して得られるセンサデータをもとにユーザの状態を推定するシステムとして、コンピュータを機能させるプログラムであって、当該コンピュータに、
前記センサデータを取得する機能と、
センサデータが属する層であるセンサデータ層と、ユーザの状態を示す状態データが属する層である複数の状態データ層とが重ねられた階層構造を有する予め定められた推定モデルを用いて、取得された前記センサデータからユーザの状態を推定する機能とを実現させ、
前記推定モデルにおいて、前記状態データ層に属する状態データは、隣の層に属するセンサデータおよび状態データの少なくともいずれか一方と関連付けられており、当該センサデータから導出可能な状態データと関連付けられた状態データとして、当該センサデータから導出できない状態データが存在していること
を特徴とするプログラム。 - 自装置内または外部に設けられたセンサにてユーザを観測して得られるセンサデータをもとにユーザの状態を推定するシステムとして、コンピュータを機能させるプログラムであって、当該コンピュータに、
前記センサデータを取得する機能と、
センサデータが属する層であるセンサデータ層と、ユーザの状態を示す状態データが属する層である複数の状態データ層とが重ねられた階層構造を有する予め定められた推定モデルを用いて、取得された前記センサデータからユーザの状態を推定する機能とを実現させ、
前記推定モデルにおいて、前記状態データ層に属する状態データは、隣の層に属するセンサデータおよび状態データの少なくともいずれか一方と関連付けられており、前記センサデータ層の隣に存在する当該状態データ層には、当該センサデータ層に属し異なる複数の前記センサで得られた複数の当該センサデータと関連付けられた1つの状態データが属していること
を特徴とするプログラム。 - 自装置内または外部に設けられたセンサにてユーザを観測して得られるデータをもとに、ユーザの状態を推定する装置であって、
前記センサから得られるデータの全てまたは一部を入力としてユーザの状態を示す状態データを出力する予め定められた複数のデータ処理部の中から、当該センサから得られるデータに含まれるノイズの有無により、ユーザの状態を推定するのに用いるデータ処理部を選択する選択手段と、
前記選択手段により選択された前記データ処理部を用いて、前記センサから得られるデータを入力としてユーザの状態を推定する推定手段と
を備える状態推定装置。 - 前記選択手段は、ノイズが含まれるデータを入力とする前記データ処理部を選択しないこと
を特徴とする請求項12に記載の状態推定装置。 - 前記選択手段は、前記センサから得られるデータに含まれるノイズの有無により、予め定められた規則に従ってデータ処理部ごとの重要度を算出し、
前記推定手段は、算出された前記重要度をもとに各データ処理部が出力する状態データを重み付けして、ユーザの状態を推定すること
を特徴とする請求項12または13に記載の状態推定装置。 - 予め定められた複数の前記データ処理部は、
前記センサから得られるデータの全てまたは一部を入力値として受け付けることのできるデータ処理部を組み合わせた複数の組み合わせの中から、選ばれた一の組み合わせであり、
前記一の組み合わせは、
前記複数の組み合わせのそれぞれで推定されたユーザの状態を、実際のユーザの状態である正解値と比較して、正答となる度合いをもとに、当該複数の組み合わせの中から選ばれること
を特徴とする請求項12乃至14のいずれか1項に記載の状態推定装置。 - 外部からコンテンツを受信するコンテンツ受信手段をさらに備え、
前記センサは、前記コンテンツを視聴するユーザを観測してデータを取得し、
前記推定手段は、前記センサから得られるデータを入力として推定したユーザの状態と前記コンテンツとを対応させた対応関係を生成すること
を特徴とする請求項12乃至15のいずれか1項に記載の状態推定装置。 - センサにてユーザを観測して得られるデータをもとに、ユーザの状態を推定する方法であって、
前記センサから得られるデータの全てまたは一部を入力としてユーザの状態を示す状態データを出力する予め定められた複数のデータ処理部の中から、当該センサから得られるデータに含まれるノイズの有無により、ユーザの状態を推定するのに用いるデータ処理部を選択するステップと、
選択された前記データ処理部を用いて、前記センサから得られるデータを入力としてユーザの状態を推定するステップと
を含む状態推定方法。 - 自装置内または外部に設けられたセンサにてユーザを観測して得られるデータをもとにユーザの状態を推定するシステムとして、コンピュータを機能させるプログラムであって、
前記センサから得られるデータの全てまたは一部を入力としてユーザの状態を示す状態データを出力する予め定められた複数のデータ処理部の中から、当該センサから得られるデータに含まれるノイズの有無により、ユーザの状態を推定するのに用いるデータ処理部を選択する機能と、
選択された前記データ処理部を用いて、前記センサから得られるデータを入力としてユーザの状態を推定する機能と
を前記コンピュータに実現させるためのプログラム。
Priority Applications (4)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201580065848.5A CN107003736A (zh) | 2014-12-02 | 2015-12-02 | 用于获取指示用户状态的状态数据的方法和装置 |
| PCT/KR2015/013043 WO2016089105A1 (ko) | 2014-12-02 | 2015-12-02 | 사용자의 상태를 나타내는 상태 데이터를 획득하는 방법 및 디바이스 |
| US15/532,793 US10878325B2 (en) | 2014-12-02 | 2015-12-02 | Method and device for acquiring state data indicating state of user |
| KR1020150170670A KR102572698B1 (ko) | 2014-12-02 | 2015-12-02 | 사용자의 상태를 나타내는 상태 데이터를 획득하는 방법 및 디바이스 |
Applications Claiming Priority (4)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2014244405 | 2014-12-02 | ||
| JP2014244404 | 2014-12-02 | ||
| JP2014244404 | 2014-12-02 | ||
| JP2014244405 | 2014-12-02 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2016110631A true JP2016110631A (ja) | 2016-06-20 |
Family
ID=56124463
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2015213452A Pending JP2016110631A (ja) | 2014-12-02 | 2015-10-29 | 状態推定装置、状態推定方法およびプログラム |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US10878325B2 (ja) |
| JP (1) | JP2016110631A (ja) |
| KR (1) | KR102572698B1 (ja) |
| CN (1) | CN107003736A (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2023000857A (ja) * | 2021-06-18 | 2023-01-04 | ヤフー株式会社 | 端末装置、端末装置の制御方法、および、端末装置の制御プログラム |
| WO2023166979A1 (ja) * | 2022-03-01 | 2023-09-07 | ソニーグループ株式会社 | 情報処理装置、情報処理方法、およびプログラム |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR102476825B1 (ko) * | 2016-06-16 | 2022-12-09 | 삼성에스디에스 주식회사 | 데이터 플랫폼에 기반한 IoT 서비스 제공 방법 및 그 장치 |
| JP7006199B2 (ja) * | 2017-12-01 | 2022-01-24 | オムロン株式会社 | データ生成装置、データ生成方法、データ生成プログラムおよびセンサ装置 |
| CA3118759A1 (en) | 2018-11-09 | 2020-05-14 | Akili Interactive Labs, Inc. | Facial expression detection for screening and treatment of affective disorders |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2001083984A (ja) * | 1999-09-09 | 2001-03-30 | Alpine Electronics Inc | インタフェース装置 |
| JP2005199403A (ja) * | 2004-01-16 | 2005-07-28 | Sony Corp | 情動認識装置及び方法、ロボット装置の情動認識方法、ロボット装置の学習方法、並びにロボット装置 |
| JP2005346471A (ja) * | 2004-06-03 | 2005-12-15 | Canon Inc | 情報処理方法、情報処理装置 |
| US20140112556A1 (en) * | 2012-10-19 | 2014-04-24 | Sony Computer Entertainment Inc. | Multi-modal sensor based emotion recognition and emotional interface |
Family Cites Families (21)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP4799120B2 (ja) | 2005-10-14 | 2011-10-26 | 株式会社内田洋行 | 個人の行動特性を用いた意図推測システム及び方法並びにプログラム |
| JP5011190B2 (ja) | 2008-03-31 | 2012-08-29 | 株式会社エヌ・ティ・ティ・データ | コンテクスト装置およびプログラム |
| JP5215098B2 (ja) * | 2008-09-17 | 2013-06-19 | オリンパス株式会社 | 情報処理システム、プログラム及び情報記憶媒体 |
| JP5691512B2 (ja) * | 2010-03-24 | 2015-04-01 | 沖電気工業株式会社 | 入力支援装置、入力支援方法、およびプログラム |
| KR101890717B1 (ko) | 2010-07-20 | 2018-08-23 | 삼성전자주식회사 | 생체 정보를 활용한 가상 세계 조작 장치 및 방법 |
| US9082235B2 (en) * | 2011-07-12 | 2015-07-14 | Microsoft Technology Licensing, Llc | Using facial data for device authentication or subject identification |
| JP2013037471A (ja) | 2011-08-05 | 2013-02-21 | Nec Corp | 確率モデル更新システム、確率モデル更新装置、確率モデル更新方法およびプログラム |
| JP5937829B2 (ja) | 2012-01-25 | 2016-06-22 | 日本放送協会 | 視聴状況認識装置及び視聴状況認識プログラム |
| US8898687B2 (en) * | 2012-04-04 | 2014-11-25 | Microsoft Corporation | Controlling a media program based on a media reaction |
| US20130268955A1 (en) | 2012-04-06 | 2013-10-10 | Microsoft Corporation | Highlighting or augmenting a media program |
| CA2775700C (en) * | 2012-05-04 | 2013-07-23 | Microsoft Corporation | Determining a future portion of a currently presented media program |
| CN103383764A (zh) * | 2012-05-04 | 2013-11-06 | 微软公司 | 基于当前媒体反应的广告呈现 |
| CA2775814C (en) | 2012-05-04 | 2013-09-03 | Microsoft Corporation | Advertisement presentation based on a current media reaction |
| KR101460404B1 (ko) | 2012-09-04 | 2014-11-12 | 포항공과대학교 산학협력단 | 사용자 중심의 상황정보 관리 장치 및 그 방법 |
| KR101978743B1 (ko) * | 2012-10-19 | 2019-08-29 | 삼성전자주식회사 | 디스플레이 장치, 상기 디스플레이 장치를 제어하는 원격 제어 장치, 디스플레이 장치 제어 방법, 서버 제어 방법 및 원격 제어 장치 제어 방법 |
| KR102011495B1 (ko) | 2012-11-09 | 2019-08-16 | 삼성전자 주식회사 | 사용자의 심리 상태 판단 장치 및 방법 |
| US9344773B2 (en) | 2013-02-05 | 2016-05-17 | Microsoft Technology Licensing, Llc | Providing recommendations based upon environmental sensing |
| KR20140104537A (ko) | 2013-02-18 | 2014-08-29 | 한국전자통신연구원 | 생체 신호 기반의 감성 인터랙션 장치 및 방법 |
| JP6002599B2 (ja) | 2013-02-22 | 2016-10-05 | 日本電信電話株式会社 | センサデータ統合装置、センサデータ統合方法及びプログラム |
| US10265008B2 (en) * | 2013-03-13 | 2019-04-23 | Aptima, Inc. | Systems and methods to determine user state |
| JPWO2015190141A1 (ja) * | 2014-06-13 | 2017-04-20 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
-
2015
- 2015-10-29 JP JP2015213452A patent/JP2016110631A/ja active Pending
- 2015-12-02 KR KR1020150170670A patent/KR102572698B1/ko active Active
- 2015-12-02 US US15/532,793 patent/US10878325B2/en not_active Expired - Fee Related
- 2015-12-02 CN CN201580065848.5A patent/CN107003736A/zh active Pending
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2001083984A (ja) * | 1999-09-09 | 2001-03-30 | Alpine Electronics Inc | インタフェース装置 |
| JP2005199403A (ja) * | 2004-01-16 | 2005-07-28 | Sony Corp | 情動認識装置及び方法、ロボット装置の情動認識方法、ロボット装置の学習方法、並びにロボット装置 |
| JP2005346471A (ja) * | 2004-06-03 | 2005-12-15 | Canon Inc | 情報処理方法、情報処理装置 |
| US20140112556A1 (en) * | 2012-10-19 | 2014-04-24 | Sony Computer Entertainment Inc. | Multi-modal sensor based emotion recognition and emotional interface |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2023000857A (ja) * | 2021-06-18 | 2023-01-04 | ヤフー株式会社 | 端末装置、端末装置の制御方法、および、端末装置の制御プログラム |
| JP7485638B2 (ja) | 2021-06-18 | 2024-05-16 | Lineヤフー株式会社 | 端末装置、端末装置の制御方法、および、端末装置の制御プログラム |
| WO2023166979A1 (ja) * | 2022-03-01 | 2023-09-07 | ソニーグループ株式会社 | 情報処理装置、情報処理方法、およびプログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| KR102572698B1 (ko) | 2023-08-31 |
| US20170344891A1 (en) | 2017-11-30 |
| CN107003736A (zh) | 2017-08-01 |
| KR20160066526A (ko) | 2016-06-10 |
| US10878325B2 (en) | 2020-12-29 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN114036398B (zh) | 内容推荐和排序模型训练方法、装置、设备以及存储介质 | |
| US8756184B2 (en) | Predicting users' attributes based on users' behaviors | |
| AU2018333873B2 (en) | System and method for classifying passive human-device interactions through ongoing device context awareness | |
| JP6248106B2 (ja) | 広告ターゲティングのための否定的なシグナル | |
| US10453099B2 (en) | Behavior prediction on social media using neural networks | |
| KR20210040316A (ko) | 사용자 상호작용 정보 처리모델 생성방법, 사용자 상호작용 정보 처리방법 및 프로그램 | |
| US9785888B2 (en) | Information processing apparatus, information processing method, and program for prediction model generated based on evaluation information | |
| US20190005399A1 (en) | Learning device, generation device, learning method, generation method, and non-transitory computer readable storage medium | |
| US10360482B1 (en) | Crowd-sourced artificial intelligence image processing services | |
| JP2024503774A (ja) | 融合パラメータの特定方法及び装置、情報推奨方法及び装置、パラメータ測定モデルのトレーニング方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム | |
| KR20220024579A (ko) | 인공지능 서버 | |
| US20180121986A1 (en) | System and Method for Recommending Products to Bridge Gaps Between Desired and Actual Personal Branding | |
| US20180218287A1 (en) | Determining performance of a machine-learning model based on aggregation of finer-grain normalized performance metrics | |
| JP2016110631A (ja) | 状態推定装置、状態推定方法およびプログラム | |
| JP2019527395A (ja) | コンテンツを効果的に配信するための動的クリエイティブの最適化 | |
| Chaubey et al. | Sentiment analysis of image with text caption using deep learning techniques | |
| US10770072B2 (en) | Cognitive triggering of human interaction strategies to facilitate collaboration, productivity, and learning | |
| US10937428B2 (en) | Pose-invariant visual speech recognition using a single view input | |
| WO2014141976A1 (ja) | ソーシャル・メデイアにおけるユーザの分類方法、コンピュータ・プログラム及びコンピュータ | |
| US20220164382A1 (en) | Customized selection of video thumbnails to present on social media webpages | |
| US11651392B2 (en) | Electronic apparatus and control method thereof | |
| Fromberg et al. | Beyond Accuracy: Fairness, Scalability, and Uncertainty Considerations in Facial Emotion Recognition | |
| Florentino et al. | Identifying Suspects on Social Networks: An Approach based on Non-structured and Non-labeled Data. | |
| US20210248640A1 (en) | Method and apparatus for real-time matching of promotional content to consumed content | |
| Selma et al. | Inference Analysis of Video Quality of Experience in Relation with Face Emotion, Video Advertisement, and ITU-T P. 1203 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181023 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190830 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191001 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20200804 |