[go: up one dir, main page]

JP6367748B2 - 認識装置、映像コンテンツ提示システム - Google Patents

認識装置、映像コンテンツ提示システム Download PDF

Info

Publication number
JP6367748B2
JP6367748B2 JP2015080592A JP2015080592A JP6367748B2 JP 6367748 B2 JP6367748 B2 JP 6367748B2 JP 2015080592 A JP2015080592 A JP 2015080592A JP 2015080592 A JP2015080592 A JP 2015080592A JP 6367748 B2 JP6367748 B2 JP 6367748B2
Authority
JP
Japan
Prior art keywords
visual information
sound
video content
predetermined
recognition device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015080592A
Other languages
English (en)
Other versions
JP2016201678A (ja
Inventor
優 鎌本
優 鎌本
善史 白木
善史 白木
佐藤 尚
尚 佐藤
パブロ ナバ ガブリエル
パブロ ナバ ガブリエル
守谷 健弘
健弘 守谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
NTT Inc USA
Original Assignee
Nippon Telegraph and Telephone Corp
NTT Inc USA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, NTT Inc USA filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015080592A priority Critical patent/JP6367748B2/ja
Publication of JP2016201678A publication Critical patent/JP2016201678A/ja
Application granted granted Critical
Publication of JP6367748B2 publication Critical patent/JP6367748B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

本発明は、映像を見るものによって入力される情報を、その映像に重畳して表示する技術に関する。
映像を見るものによって入力されるテキスト情報を、その映像に重畳して表示する従来技術として非特許文献1が知られている。非特許文献1では、視聴者は、動画を視聴しながら、コメントを投稿することができる。
「動画の視聴 コメントの投稿」、[online]、NIWANGO.INC、[平成27年2月2日検索]、インターネット<URL : http://info.nicovideo.jp/help/player/howto/>
しかしながら、従来技術では、動画に対してコメントしたいと思ってから、コメントを入力し、コメント投稿ボタンをクリックまたはエンターキーを押下する必要があるため、視聴者がコメントしたいと思ったタイミングから遅れてコメントが表示される場合がある。逆に動画の内容を予め知っている場合には、予めコメントを入力しておき、コメント投稿ボタンをクリックまたはエンターキーを押下するタイミングを視聴者が図ることもできるが、その場合であっても、視聴者がコメントしたいと思ったタイミングよりも早くなったり、または、遅くなったりする場合がある。例えば、ミュージックビデオやライブ映像の楽曲のテンポに合わせて、拍手を意味するテキスト情報「8」をコメントする場合、実際に拍手する場合よりも、ズレてしまう場合が多い、または、ズレ幅が大きくなりやすい。
本発明は、コメント投稿ボタンのクリックまたはエンターキーの押下を行わずに、情報を映像に適切なタイミングで重畳して表示するための認識装置、映像コンテンツ提示システムを提供することを目的とする。
上記の課題を解決するために、本発明の一態様によれば、認識装置は、収音された少なくとも発話以外の音を含む音信号に基づき、発話以外の音に対応し、かつ、発話以外の音をそのまま表記した文字列ではない、所定の視覚情報を得る認識部を含む。
本発明によれば、コメント投稿ボタンのクリックまたはエンターキーの押下を行わずに、情報を映像に適切なタイミングで重畳して表示することができるという効果を奏する。
第一実施形態に係る映像コンテンツ提示システムの機能ブロック図。 第一実施形態に係る映像コンテンツ提示システムの処理フローの例を示す図。 視覚情報付き映像コンテンツの例を示す図。 視覚情報データベースの例を示す図。
以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。
<第一実施形態に係る映像コンテンツ提示システム1>
図1は第一実施形態に係る映像コンテンツ提示システム1の機能ブロック図を、図2はその処理フローを示す。
映像コンテンツ提示システム1は、1台以上の視聴者端末91と、視聴者端末100と、映像コンテンツを視聴者端末91及び100に配信する動画配信サーバ92とを含む。各視聴者端末91及び100と動画配信サーバ92とは、通信回線を介して通信可能とされている。
<視聴者端末91>
視聴者端末91は、映像コンテンツ(例えば、動画)を見るもの(例えば、動画の視聴者)によって操作され、入力部(キーボード、マウス、タッチパネル等)と、表示部(ディスプレイ、タッチパネル等)とを含み、例えば、パーソナルコンピュータ、スマートホン、タブレット等からなる。視聴者は、視聴者端末91の入力部を介して、動画配信サーバ92に対して映像コンテンツの再生を要求することができる。また、視聴者端末91の表示部を介して、映像コンテンツを視聴することができる。さらに、視聴者は、入力部を介して、映像コンテンツに重畳して表示される視覚情報(例えば、コメント)を入力することができる。ここで、「視覚情報」とは、表示部を介して視覚的に認識可能な情報であって、例えば、文字、図形若しくは記号若しくはこれらの結合又はこれらと色彩との結合である。また、静止画に限らず、動く画像であってもよい。例えば、(1)「笑い」や「拍手」等の所定の行為を意味するテキスト情報(例えば「w」や「8」等)、(2)テキスト情報以外の「笑い」や「拍手」等の所定の行為を意味し、識別するためのコンピュータ上のビット情報、(3)顔文字、絵文字等、通常のテキスト情報で無いもの。例えば、キャリアの異なる携帯電話間で共通絵文字(参考文献1参照)、(4)アスキーアート等,全体としてはテキスト情報とテキスト情報の配置情報を用いた絵のようになっているもの(参考文献2参照)、(5)上述の(1)〜(4)に対応するネットスラング。例えば、「笑い」を意味するテキスト情報「wwwww…」に対して「草生えた」等のネットスラングがある。
(参考文献1)「docomo/au共通絵文字」、株式会社NTTドコモ、[online]、[平成27年2月9日検索]、インターネット<URL: https://www.nttdocomo.co.jp/service/developer/smart_phone/make_contents/pictograph/>
(参考文献2)「アスキーアート」、[online]、2015年2月2日、ウィキペディア、[平成27年2月9日検索]、インターネット<URL: http://ja.wikipedia.org/wiki/%E3%82%A2%E3%82%B9%E3%82%AD%E3%83%BC%E3%82%A2%E3%83%BC%E3%83%88>
<動画配信サーバ92>
動画配信サーバ92は、動画データベース及びビデオカメラから動画を受け取り、視聴者端末91及び100の要求に応じて、動画データベース内に格納されている動画、または、ビデオカメラで収録した動画をリアルタイムで配信する。また、ビデオカメラで収録された動画に限らず、リアルタイムで合成・編集されたCGやモーションキャプチャ等から合成されたCGをリアルタイム配信することもある。なお、本実施形態において、動画とは、時間軸に同期させた音響信号と共に提供される映像コンテンツを意味する。動画データベースには、動画と共に動画に付加された視覚情報が記憶される。さらに、視覚情報にはメタデータが付加されている。メタデータとしては、視覚情報の入力時刻、視覚情報の大きさ、その色、その出現方法、その移動速度や、移動位置等がある。例えば、大きさ、色、出現方法、移動速度、移動位置等は、視覚情報の入力者が選択できるものとしてもよく、視聴者端末91及び100がメタデータとして視覚情報と一緒に送信し、動画データベースに動画と共に記憶される。
<視聴者端末100>
視聴者端末100は、映像コンテンツ(例えば、動画)を見るもの(例えば、動画の視聴者)によって操作される。視聴者端末100は、表示部(ディスプレイ、タッチパネル等)110と収音部(マイクロホン等)120と認識部130と表示サイズ取得部140とを含み、例えば、パーソナルコンピュータ、スマートホン、タブレット等からなる。視聴者は、視聴者端末100の入力部(収音部120、キーボード、マウス、タッチパネル等)を介して、動画配信サーバ92に対して映像コンテンツの再生を要求することができる。また、視聴者端末100の表示部110を介して、映像コンテンツを視聴することができる。視聴者端末100の視聴者は、入力部を介して、映像コンテンツに重畳して表示される視覚情報(例えば、コメント)を入力することができる。
視聴者端末100は、表示部110を介して、映像コンテンツを表示する(S110A)。なお、映像コンテンツは、動画配信サーバ92から配信される。視聴者端末100は、収音部120を介して、映像コンテンツの視聴者が、映像コンテンツに対応して発する音を音信号x(t)として収音する(S120)。なお、tは時刻を表すインデックスである。
<認識部130>
認識部130は、収音された少なくとも発話以外の音を含む音信号x(t)を受け取り、この音信号x(t)に基づき、発話以外の音に対応し、かつ、発話以外の音をそのまま表記した文字列ではない、視聴者端末91の表示部または表示部110を介して視覚的に認識可能な所定の視覚情報v(t)を得(S130)、通信回線を介して動画配信サーバ92に送信する。
動画配信サーバ92は、視覚情報v(t)を受け取り、動画に重畳して配信する。なお、動画データベースに、動画と共に動画に付加された視覚情報v(t)を格納する。視聴者端末91の表示部または表示部110は、視覚情報v(t)が重畳された映像コンテンツを受け取り、表示する(S110B)。なお、視覚情報v(t)を送信した際の再生時には、視覚情報v(t)を重畳せずに動画のみを配信し、それ以降の再生時に、視覚情報を重畳した動画を配信する構成としてもよい。
ここで、「発話以外の音」とは、「言語を音声として発し、その結果として発せられた音声」以外の音を意味し、例えば、笑い声、拍手音である。
「所定の視覚情報」は、前述の発話以外の音(例えば拍手音、笑い声)に対応するものであり、本実施形態では、「所定の視覚情報」として拍手音を表すテキスト情報「8」や笑い声を表すテキスト情報「w」等を用いるものとする。
「発話以外の音をそのまま表記した文字列」とは、要は、発話以外の音を、従来の音声認識装置に入力して得られるテキスト情報である。従来の音声認識装置は、「発話」、つまり、「言語を音声として発し、その結果として発せられた音声」を認識対象としているため、「発話以外の音」を認識対象とした場合、適切な認識結果を得ることができない。例えば、発話以外の音が拍手音の場合、従来の音声認識装置に拍手音を入力しても、「パチパチパチ」といったテキスト情報を得られる可能性は低く、ノイズとして音声認識の対象とされない可能性が高い。従来の音声認識装置を用いて、音声認識の結果、「パチパチパチ」というテキスト情報を得たいのであれば、人が「パチパチパチ」と発音する必要がある。同様に、発話以外の音が笑い声の場合、従来の音声認識装置に笑い声を入力しても、「ワハハッ」というテキスト情報を得られる可能性は低く、ノイズとして音声認識の対象とされないか、または、笑い声とは判断できないような音声認識結果が得られる可能性がある。そこで、認識部130は、発話以外の音に対して、発話以外の音を従来の音声認識装置に入力して得られるテキスト情報とは異なる所定の視覚情報(例えば、拍手音を表すテキスト情報「8」や笑い声を表すテキスト情報「w」)を得る。
以下、「発話以外の音」を認識し、認識結果として視覚情報を取得する方法について説明する。なお、本実施形態において、所定の視覚情報は、映像コンテンツに重畳して表示するために得るものである。
認識部130は、受け取った音信号x(t)から、その大きさを表す指標(例えば、音量、パワー、エネルギー)を求め、大きさを表す指標と所定の閾値との大小関係に基づき、無音か否かを判定し、無音ではなく、何らかの音を収音できたと判定したときに、以下の方法により、所定の視覚情報を取得する。例えば、大きさを表す指標が音が大きいほど大きくなる値(例えば、音量、パワー、エネルギー)の場合には、大きさを表す指標が所定の閾値未満のときに無音と判定し、閾値以上のときに何らかの音を収音できたと判定する。また、大きさを表す指標が音信号が大きいほど小さくなる値の場合には、大きさを表す指標が所定の閾値より大きいときに無音と判定し、閾値以下のときに何らかの音を収音できたと判定する。本実施形態では、音信号x(t)の音量が所定の閾値以上となったときに何らかの音を収音できたと判定する。
(取得方法1)
認識部130は、所定の視覚情報を、映像コンテンツに既に重畳されている1種類以上の視覚情報から得る。例えば、音信号x(t)の音量が所定の閾値以上となる時刻において、映像コンテンツに既に重畳されている1種類以上の視覚情報の中から1種類の視覚情報を選択し、所定の視覚情報とする。例えば、(1-1)重畳されている数が最も多い種類の視覚情報を、所定の視覚情報を選択する。また、(1-2)重畳されている数の割合に応じて、ランダムに所定の視覚情報を選択する。(1-3)重畳されている1種類以上の視覚情報の中からランダムに所定の視覚情報を選択する。
例えば、音信号x(t)の音量が所定の閾値以上になった時刻において、図3のような視覚情報付き映像コンテンツを受け取った場合、拍手音を表す「8」というテキスト情報と、笑い声を表す「w」というテキスト情報との、2種類の視覚情報が、映像コンテンツに既に重畳されており、それぞれの視覚情報の重畳されている個数は4個と2個である。なお、本実施形態では、ある視覚情報(例えば「8」というテキスト情報)とその視覚情報の繰り返し(例えば「888…」というテキスト情報)とは同じ種類の視覚情報として取り扱う。ただし、異なる種類の視覚情報として取り扱ってもよい。この2種類の視覚情報から何れか一方の視覚情報を選択して、所定の視覚情報を得る。(1-1)の場合、重畳されている数が最も多い種類の視覚情報は、拍手音を表す「8」というテキスト情報なので、これを所定の視覚情報として得る。(1-2)の場合、拍手音を表す「8」というテキスト情報が重畳されている数の割合は4/6であり、笑い声を表す「w」というテキスト情報が重畳されている数の割合は2/6であり、この割合に応じて、ランダムに所定の視覚情報を選択する。例えば、4/6の確率で拍手音を表す「8」というテキスト情報を所定の視覚情報として選択し、2/6の確率で笑い声を表す「w」というテキスト情報を所定の視覚情報として選択する。(1-3)の場合、1/2の確率で拍手音を表す「8」というテキスト情報を所定の視覚情報として選択し、1/2の確率で笑い声を表す「w」というテキスト情報を所定の視覚情報として選択する。
また、例えば、「音信号x(t)の音量が所定の閾値以上となる時刻において、」ではなく、「音信号x(t)の音量が所定の閾値以上となる時刻までに、」映像コンテンツに既に重畳されている1種類以上の視覚情報の中から1種類の視覚情報を選択し、所定の視覚情報としてもよい。例えば、音信号x(t)の音量が所定の閾値以上となったときに、それ以前に得ていた1種以上の視覚情報の中から1種類の視覚情報を選択し、所定の視覚情報としてもよい。選択の方法としては、(1-1)〜(1-3)の方法を用いればよい。
(取得方法2)
認識部130は、所定の視覚情報を、映像コンテンツに重畳して表示するために予め用意されている1種類以上の視覚情報から得る。例えば、図4に示すような視覚情報データベースを予め用意しておき、(2)1種類以上の視覚情報の中からランダムに所定の視覚情報を選択する。なお、所定の視覚情報として、所定の行為、例えば、「笑い」を意味する情報のみを選択したい場合には、視覚情報データベースに「笑い」を意味する情報のみ、例えば、「w」「(笑)」「:-)」「(^o^)」等を用意しておけばよい。
(取得方法3)
(取得方法2)と、音信号x(t)がどのような音なのかを認識する処理を組合せてもよい。
(3-1)例えば、音信号x(t)に対して、VAD(voice activity detection:音声区間検出)を行い、音声区間と判定した場合には、「発話以外の音」が「笑い声」に対応すると判定し、笑い声に対応する視覚情報を、所定の視覚情報として選択する。また、非音声区間と判定した場合には、「発話以外の音」が「拍手音」に対応すると判定し、拍手に対応する視覚情報を、所定の視覚情報として選択する。この場合、所定の視覚情報が意味する行為が2種類以上ある場合には、視覚情報データベースには、視覚情報が音声区間に対応するものか、非音声区間に対応するものかを記憶しておく。なお、音声区間や非音声区間に対応する視覚情報が複数種類ある場合には、その中からランダムに所定の視覚情報を選択する。
(3-2)例えば、予め「発話以外の音」から音声特徴量を抽出しておき、音信号x(t)から抽出した音声特徴量との類似度を求め、類似度が所定の閾値以上となる場合に、その「発話以外の音」に対応する視覚情報を、所定の視覚情報として選択する。なお、笑い声や拍手等に対応する視覚情報が複数種類ある場合には、その中からランダムに所定の視覚情報を選択してもよい。なお、従来の音声認識装置では、発話から音声特徴量を抽出していたのに対し、本実施形態では「発話以外の音」から音声特徴量を抽出する。また、この場合、「発話以外の音」は視聴者の所定の行為(笑いや拍手)を意味し(所定の行為に対応し)、背景雑音等を含まない。
(取得方法4)
(取得方法1)と、(取得方法2)または(取得方法3)とを組合せてもよい。
認識部130は、(4-a)音信号の収音時刻に対応する映像コンテンツの時刻に、既に重畳されている視覚情報が1種類である場合、または、(4-b)複数種類あるがそのうち1種類の割合が極めて高い場合には、当該種類の視覚情報を所定の視覚情報として得る。
一方、(4-a)及び(4-b)以外の場合には、映像コンテンツに重畳して表示するために予め用意されている複数種類の視覚情報から所定の視覚情報を得る。
例えば、音信号x(t)の音量が所定の閾値以上となる時刻において、(または「音信号x(t)の音量が所定の閾値以上となる時刻までに、」)映像コンテンツに既に重畳されている視覚情報が1種類か、2種類以上かを判定する。1種類の場合には、その視覚情報を所定の視覚情報として得る。2種類以上の場合には、重畳されている数が最も多い種類の視覚情報の割合を求め、その割合が所定の閾値(例えば0.5)より大きいときに、その視覚情報を所定の視覚情報として選択する。重畳されている数が最も多い種類の視覚情報の割合が所定の閾値以下のときに、(取得方法2)または(取得方法3)の方法により、所定の視覚情報を選択する。
このような取得方法により、発話以外の音を、そのとき表示部に出ている視覚情報の中で多数を占める視覚情報に変換して画面に表示することができる。
(取得方法5)
(取得方法1)と、(取得方法2)または(取得方法3)との組合せとしては以下のような方法も考えられる。
認識部130は、(5)音信号の収音時刻に対応する映像コンテンツの時刻に、既に重畳されている視覚情報に占める1種類の視覚情報の割合が高い場合には、当該種類の視覚情報を所定の視覚情報として得ることを優先し、(5)以外の場合には、映像コンテンツに重畳して表示するために予め用意されている複数種類の視覚情報から所定の視覚情報を得ることを優先することで、所定の視覚情報を得る。
例えば、音信号x(t)の音量が所定の閾値以上となる時刻において、(または「音信号x(t)の音量が所定の閾値以上となる時刻までに、」)映像コンテンツに既に重畳されている視覚情報の種類毎にそれぞれの割合を求め、その割合が所定の閾値a(例えばa>0.5)より大きいときに、所定の確率b(0.5<b<1)でその割合に対応する視覚情報を所定の視覚情報として選択し、(1-b)の確率で、(取得方法2)または(取得方法3)の方法により、所定の視覚情報を選択する。一方、その割合が所定の閾値a以下のときに、所定の確率c(0.5<c<1)で、(取得方法2)または(取得方法3)の方法により、所定の視覚情報を選択し、(1-c)の確率でその割合に対応する視覚情報を所定の視覚情報として選択する。
<表示サイズ取得部140>
表示サイズ取得部140は、収音された少なくとも発話以外の音を含む音信号x(t)を受け取り、その大きさを表す指標(例えば、音量、パワー、エネルギー)を求め、大きさを表す指標と所定の閾値との大小関係に基づき、無音か否かを判定する。例えば、大きさを表す指標が音が大きいほど大きくなる値(例えば、音量、パワー、エネルギー)の場合には、大きさを表す指標が所定の閾値未満のときに無音と判定し、閾値以上のときに何らかの音を収音できたと判定する。また、大きさを表す指標が音信号が大きいほど小さくなる値の場合には、大きさを表す指標が所定の閾値より大きいときに無音と判定し、閾値以下のときに何らかの音を収音できたと判定する。さらに、無音ではなく、何らかの音を収音できたと判定したときに、表示サイズ取得部140は、大きさを表す指標に対応する情報を、所定の視覚情報が視聴者端末91の表示部または表示部110を介して表示される際の大きさの情報s(t)として得(S140)、通信回線を介して動画配信サーバ92に送信する。例えば、音信号x(t)の大きさが大きいほど、表示される際の大きさが大きくなるように情報s(t)を取得する。
このような構成により、音量に合わせても文字の大きさを変えて表示部に表示することができ、より視聴者の雰囲気を詳細に伝えることができる。
<効果>
以上の構成により、コメント投稿ボタンのクリックまたはエンターキーの押下を行わずに、視覚情報を映像コンテンツに適切なタイミングで重畳して表示することができる。
<変形例>
本実施形態では、表示部110は、映像コンテンツと共にそれに重畳される視覚情報を表示しているが、映像コンテンツのみを表示する表示部を別途設けてもよい。
本実施形態の視聴者端末100内に従来の音声認識装置を組み込んでもよい。例えば、認識部130の前段に従来の音声認識装置を組み込み、適切な音声認識ができなかった場合にのみ認識部130で認識処理を行う構成としてもよい。
本実施形態では、表示サイズ取得部140を備えるが、必ずしも備えなくともよい。なお、表示サイズ取得部140を備えない場合、視覚情報の大きさを表す情報として予めデフォルト値を設定しておけばよい。また、視覚情報の大きさは視聴者の操作により図示しない入力部から変更可能としてもよい。
本実施形態では、認識部130が、視聴者端末100に組み込まれる構成としたが、独立した認識装置として構成してもよい。また、認識部130が、動画配信サーバ92、または、視聴者端末100以外の動画を再生する側の視聴者端末91に組み込まれる構成としてもよい。その場合には、認識部130が組み込まれた装置に、音信号x(t)を送信する必要がある。データの伝送量を考慮すると、本実施形態のように、視聴者端末100に認識部130が組み込まれ、視覚情報v(t)を送信する構成が望ましい。
なお、本実施形態では、表示部110において、視聴者に対して映像コンテンツを提示しているが、他のコンテンツを提示してもよい。端末は、対象者に対して何らかの刺激によってコンテンツを提示することができればよく、本実施形態のように音刺激及び光刺激による映像コンテンツを提示してもよいし、音刺激のみによる音響コンテンツ(ラジオ放送等)を提示してもよいし、対象者が持つ他の感覚器(触覚器、嗅覚器、味覚器)で受け取ることができる他の刺激(化学物質、温度、圧力)、または、各刺激の組合せによってコンテンツを提示してもよい。その場合であっても、表示部110は所定の視覚情報を表示するために用いる。なお、対象者が持つ感覚器で受け取ることができる刺激(光、音、化学物質、温度、圧力等)、または、それらの組合せによって提示されるコンテンツを纏めて「メディアコンテンツ」ともいい、メディアコンテンツを対象者に提示するための構成を提示部という。収音部120では、メディアコンテンツから刺激を感じ取った対象者がメディアコンテンツに対応して発する音を収音する。
視聴者端末100は、図示しない表示長取得部を含んでもよい。表示長取得部は、収音された少なくとも発話以外の音を含む音信号x(t)を受け取り、その大きさを表す指標(例えば、音量の移動平均)を求め、大きさを表す指標と所定の閾値との大小関係に基づき、無音か否かを判定する。例えば、大きさを表す指標が音が大きいほど大きくなる値(例えば、音量、パワー、エネルギー)の場合には、大きさを表す指標が所定の閾値未満のときに無音と判定し、閾値以上のときに何らかの音を収音できたと判定する。また、大きさを表す指標が音信号が大きいほど小さくなる値の場合には、大きさを表す指標が所定の閾値より大きいときに無音と判定し、閾値以下のときに何らかの音を収音できたと判定する。表示長取得部は、無音ではなく、何らかの音を収音できたと判定したときに、その音の継続時間に対応する情報を、所定の視覚情報が視聴者端末91の表示部または表示部110を介して表示される際の繰り返し回数として得、認識部130に出力する。例えば、音信号x(t)の継続時間が大きいほど、繰り返し回数が大きくなるような構成とする。認識部130は、求めた所定の視覚情報v(t)を繰り返し回数に応じて、繰り返した情報を、改めて所定の視覚情報として動画配信サーバ92に出力する。例えば、所定の視覚情報v(t)が「w」であり、繰り返し回数が5回のとき、改めて所定の視覚情報v(t)として「wwwww」、または、これと同じ意味を表すネットスラングである「草生えた」等を通信回線を介して動画配信サーバに送信する。このような構成により、より視聴者の雰囲気を詳細に伝えることができる。なお、認識部130では、繰り返し回数を得てから、所定の視覚情報v(t)を出力するため、視覚情報v(t)を送信した際の再生時において、視覚情報v(t)を動画に重畳する場合、発話以外の音が発生してから、所定の視覚情報v(t)を出力するまでに、ズレが生じる。このズレをなくすために、送信した際の再生時においては、繰り返さずに所定の視覚情報v(t)を動画配信サーバ92に送信してもよい。そして、動画配信サーバ92は、視覚情報v(t)を受け取り、繰り返さずに動画に重畳して配信する。認識部130では、繰り返し回数を得てから、求めた所定の視覚情報v(t)を繰り返し回数に応じて、繰り返した情報を、改めて所定の視覚情報として動画配信サーバ92に出力する。動画配信サーバ92では、動画データベースに、動画と共に繰り返した視覚情報v(t)を格納する。このような構成により、動画配信サーバ92では、繰り返した視覚情報v(t)を格納した後になされた再生要求に対して、繰り返した視覚情報を重畳した動画を配信することができる。
本実施形態では、認識部130において、受け取った音信号x(t)から、その大きさを表す指標を求め、大きさを表す指標と所定の閾値との大小関係に基づき、無音か否かを判定しているが、認識部130の前段に既存のVAD(voice activity detection)を設け、VADで音信号x(t)が無音か否かを判定してもよい。さらに、何らかの音を収音できたと判定したときに、音信号x(t)が認識部130に入力される構成とし、認識部130では、音信号x(t)を用いて、所定の視覚情報v(t)を得ればよい。
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (9)

  1. 収音された少なくとも発話以外の音を含む音信号に基づき、上記発話以外の音に対応し、かつ、上記発話以外の音をそのまま表記した文字列ではない、所定の視覚情報を得る認識部を含み、
    上記所定の視覚情報は、映像コンテンツに重畳して表示するために得るものであり、
    上記認識部は、
    映像コンテンツに既に重畳されている1種類以上の視覚情報から上記所定の視覚情報を得る、
    認識装置。
  2. 請求項の認識装置であって、
    上記認識部は、
    上記音信号の収音時刻に対応する映像コンテンツの時刻に、既に重畳されている視覚情報が複数種類ある場合には、重畳されている数が最も多い種類の視覚情報を、上記所定の視覚情報として得る、
    認識装置。
  3. 請求項の認識装置であって、
    上記認識部は、(1-a)上記音信号の収音時刻に対応する映像コンテンツの時刻に、既に重畳されている視覚情報が1種類である場合、または、(1-b)複数種類あるがそのうち1種類の割合が極めて高い場合には、当該種類の視覚情報を上記所定の視覚情報として得て、(2)上記以外の場合には、映像コンテンツに重畳して表示するために予め用意されている複数種類の視覚情報から上記所定の視覚情報を得る、
    認識装置。
  4. 請求項の認識装置であって、
    上記認識部は、(1)上記音信号の収音時刻に対応する映像コンテンツの時刻に、既に重畳されている視覚情報に占める1種類の視覚情報の割合が高い場合には、当該種類の視覚情報を上記所定の視覚情報として得ることを優先し、(2)上記以外の場合には、映像コンテンツに重畳して表示するために予め用意されている複数種類の視覚情報から上記所定の視覚情報を得ることを優先することで、上記所定の視覚情報を得る、
    認識装置。
  5. 請求項1の認識装置であって、
    上記認識部は、
    上記音信号の収音時刻に対応する映像コンテンツの時刻に、既に重畳されている視覚情報が複数種類ある場合には、既に重畳されている複数種類の視覚情報から、重畳されている数の割合の確率に応じてそれぞれの所定の視覚情報が得られるように、ランダムに上記所定の視覚情報を得る、
    認識装置。
  6. 収音された少なくとも発話以外の音を含む音信号に基づき、上記発話以外の音に対応し、かつ、上記発話以外の音をそのまま表記した文字列ではない、所定の視覚情報を得る認識部を含み、
    上記所定の視覚情報は、映像コンテンツに重畳して表示するために得るものであり、
    上記認識部は、
    映像コンテンツに既に重畳されている1種類以上の視覚情報、映像コンテンツに重畳して表示するために予め用意されている1種類以上の視覚情報の少なくとも何れかから第一の視覚情報を得、
    上記第一の視覚情報の繰り返し回数が得られた場合に、得られた繰り返し回数に応じて、前記第一の視覚情報を繰り返した情報と同じ意味を表す他の視覚情報を前記所定の視覚情報とする、
    認識装置。
  7. 請求項1から請求項の何れかの認識装置であって、
    上記発話以外の音の大きさを表す指標に対応する情報を、上記所定の視覚情報が表示部を介して表示される際の大きさの情報として得る表示サイズ取得部を含む、
    認識装置。
  8. 映像コンテンツを表示する第一の表示部と、
    上記映像コンテンツに対応して発せられた音を収音して上記音信号とする収音部と、
    上記請求項1から請求項の何れかの認識装置と、
    上記認識装置が得た所定の視覚情報を映像コンテンツに重畳して表示する第二の表示部とを含む、
    映像コンテンツ提示システム。
  9. メディアコンテンツを提示する提示部と、
    上記メディアコンテンツに対応して発せられた音を収音して上記音信号とする収音部と、
    上記請求項1から請求項の何れかの認識装置と、
    上記認識装置が得た所定の視覚情報を上記メディアコンテンツに対応する映像コンテンツに重畳して表示する表示部とを含む、
    映像コンテンツ提示システム。
JP2015080592A 2015-04-10 2015-04-10 認識装置、映像コンテンツ提示システム Active JP6367748B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015080592A JP6367748B2 (ja) 2015-04-10 2015-04-10 認識装置、映像コンテンツ提示システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015080592A JP6367748B2 (ja) 2015-04-10 2015-04-10 認識装置、映像コンテンツ提示システム

Publications (2)

Publication Number Publication Date
JP2016201678A JP2016201678A (ja) 2016-12-01
JP6367748B2 true JP6367748B2 (ja) 2018-08-01

Family

ID=57424482

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015080592A Active JP6367748B2 (ja) 2015-04-10 2015-04-10 認識装置、映像コンテンツ提示システム

Country Status (1)

Country Link
JP (1) JP6367748B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10101804B1 (en) 2017-06-21 2018-10-16 Z5X Global FZ-LLC Content interaction system and method
US12279025B2 (en) 2017-06-21 2025-04-15 Koshayojan Services Ltd. Content interaction system and method with presence detection and emotional state determination to recommend a piece of interactive content
US12212821B2 (en) 2017-06-21 2025-01-28 Koshayojan Services Limited Machine learning encoding system and method for content interaction system and method
US10743087B2 (en) 2017-06-21 2020-08-11 Z5X Global FZ-LLC Smart furniture content interaction system and method
US12197636B2 (en) 2017-06-21 2025-01-14 Koshayojan Services Limited Cost per scent system and method
CN111210804A (zh) * 2018-11-01 2020-05-29 普天信息技术有限公司 一种social signal的识别方法和装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH082015A (ja) * 1994-06-27 1996-01-09 Nec Corp プリンタ装置
JP4030440B2 (ja) * 2003-02-26 2008-01-09 富士フイルム株式会社 メッセージ再生装置、メッセージ記録および再生方法、およびプログラム
JP2005065252A (ja) * 2003-07-29 2005-03-10 Fuji Photo Film Co Ltd 携帯電話機
JP2008278199A (ja) * 2007-04-27 2008-11-13 Sharp Corp テレビジョン受信装置
JP5626878B2 (ja) * 2010-10-20 2014-11-19 Necカシオモバイルコミュニケーションズ株式会社 ビューイングシステム、携帯端末、サーバ、ビューイング方法
JP6039915B2 (ja) * 2011-07-08 2016-12-07 株式会社ドワンゴ ステージ演出システム、演出制御サブシステム、ステージ演出システムの動作方法、演出制御サブシステムの動作方法、およびプログラム
KR102057284B1 (ko) * 2013-01-23 2020-01-22 엘지전자 주식회사 전자 기기 및 전자 기기의 제어 방법
EP3007456A4 (en) * 2013-05-30 2016-11-02 Sony Corp CLIENT DEVICE, CONTROL PROCEDURE, SYSTEM AND PROGRAM

Also Published As

Publication number Publication date
JP2016201678A (ja) 2016-12-01

Similar Documents

Publication Publication Date Title
CN110085244B (zh) 直播互动方法、装置、电子设备及可读存储介质
JP6367748B2 (ja) 認識装置、映像コンテンツ提示システム
JP6510536B2 (ja) インスタント通信において表現情報を処理する方法及び装置
US8117281B2 (en) Using internet content as a means to establish live social networks by linking internet users to each other who are simultaneously engaged in the same and/or similar content
JP2022534708A (ja) 動的に反応する仮想キャラクターのためのマルチモーダルモデル
CN111294606B (zh) 直播处理方法、装置、直播客户端及介质
US12022136B2 (en) Techniques for providing interactive interfaces for live streaming events
CN108141499A (zh) 惯性音频滚动
CN109474843A (zh) 语音操控终端的方法、客户端、服务器
US20170092253A1 (en) Karaoke system
JP5729844B1 (ja) コンテンツの評価装置、システム、サーバ装置及び端末装置
JP2011164681A (ja) 文字入力装置、文字入力方法、文字入力プログラムおよびそれを記録したコンピュータ読み取り可能な記録媒体
CN114501103A (zh) 基于直播视频的互动方法、装置、设备及存储介质
CN115776578A (zh) 一种视频生成方法及装置、一种音频播放方法及装置
JP7230085B2 (ja) 音声を処理するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
CN112287129A (zh) 音频数据的处理方法、装置及电子设备
US20250126305A1 (en) Server, method and computer program
Zhou et al. Exploring the Diversity of Music Experiences for Deaf and Hard of Hearing Individuals
JP6619072B2 (ja) 音合成装置、音合成方法、及びそのプログラム
JP6567461B2 (ja) 認識装置、映像コンテンツ提示システム、プログラム
US20220109911A1 (en) Method and apparatus for determining aggregate sentiments
CN104796786A (zh) 信息处理设备、信息处理方法以及程序
US20240303030A1 (en) Dynamic audio content generation
US20140108329A1 (en) Logic model for media customization
CN111753107A (zh) 资源展示方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170425

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180320

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180508

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180703

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180705

R150 Certificate of patent or registration of utility model

Ref document number: 6367748

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350