JP6367748B2 - 認識装置、映像コンテンツ提示システム - Google Patents
認識装置、映像コンテンツ提示システム Download PDFInfo
- Publication number
- JP6367748B2 JP6367748B2 JP2015080592A JP2015080592A JP6367748B2 JP 6367748 B2 JP6367748 B2 JP 6367748B2 JP 2015080592 A JP2015080592 A JP 2015080592A JP 2015080592 A JP2015080592 A JP 2015080592A JP 6367748 B2 JP6367748 B2 JP 6367748B2
- Authority
- JP
- Japan
- Prior art keywords
- visual information
- sound
- video content
- predetermined
- recognition device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Description
図1は第一実施形態に係る映像コンテンツ提示システム1の機能ブロック図を、図2はその処理フローを示す。
視聴者端末91は、映像コンテンツ(例えば、動画)を見るもの(例えば、動画の視聴者)によって操作され、入力部(キーボード、マウス、タッチパネル等)と、表示部(ディスプレイ、タッチパネル等)とを含み、例えば、パーソナルコンピュータ、スマートホン、タブレット等からなる。視聴者は、視聴者端末91の入力部を介して、動画配信サーバ92に対して映像コンテンツの再生を要求することができる。また、視聴者端末91の表示部を介して、映像コンテンツを視聴することができる。さらに、視聴者は、入力部を介して、映像コンテンツに重畳して表示される視覚情報(例えば、コメント)を入力することができる。ここで、「視覚情報」とは、表示部を介して視覚的に認識可能な情報であって、例えば、文字、図形若しくは記号若しくはこれらの結合又はこれらと色彩との結合である。また、静止画に限らず、動く画像であってもよい。例えば、(1)「笑い」や「拍手」等の所定の行為を意味するテキスト情報(例えば「w」や「8」等)、(2)テキスト情報以外の「笑い」や「拍手」等の所定の行為を意味し、識別するためのコンピュータ上のビット情報、(3)顔文字、絵文字等、通常のテキスト情報で無いもの。例えば、キャリアの異なる携帯電話間で共通絵文字(参考文献1参照)、(4)アスキーアート等,全体としてはテキスト情報とテキスト情報の配置情報を用いた絵のようになっているもの(参考文献2参照)、(5)上述の(1)〜(4)に対応するネットスラング。例えば、「笑い」を意味するテキスト情報「wwwww…」に対して「草生えた」等のネットスラングがある。
(参考文献1)「docomo/au共通絵文字」、株式会社NTTドコモ、[online]、[平成27年2月9日検索]、インターネット<URL: https://www.nttdocomo.co.jp/service/developer/smart_phone/make_contents/pictograph/>
(参考文献2)「アスキーアート」、[online]、2015年2月2日、ウィキペディア、[平成27年2月9日検索]、インターネット<URL: http://ja.wikipedia.org/wiki/%E3%82%A2%E3%82%B9%E3%82%AD%E3%83%BC%E3%82%A2%E3%83%BC%E3%83%88>
動画配信サーバ92は、動画データベース及びビデオカメラから動画を受け取り、視聴者端末91及び100の要求に応じて、動画データベース内に格納されている動画、または、ビデオカメラで収録した動画をリアルタイムで配信する。また、ビデオカメラで収録された動画に限らず、リアルタイムで合成・編集されたCGやモーションキャプチャ等から合成されたCGをリアルタイム配信することもある。なお、本実施形態において、動画とは、時間軸に同期させた音響信号と共に提供される映像コンテンツを意味する。動画データベースには、動画と共に動画に付加された視覚情報が記憶される。さらに、視覚情報にはメタデータが付加されている。メタデータとしては、視覚情報の入力時刻、視覚情報の大きさ、その色、その出現方法、その移動速度や、移動位置等がある。例えば、大きさ、色、出現方法、移動速度、移動位置等は、視覚情報の入力者が選択できるものとしてもよく、視聴者端末91及び100がメタデータとして視覚情報と一緒に送信し、動画データベースに動画と共に記憶される。
視聴者端末100は、映像コンテンツ(例えば、動画)を見るもの(例えば、動画の視聴者)によって操作される。視聴者端末100は、表示部(ディスプレイ、タッチパネル等)110と収音部(マイクロホン等)120と認識部130と表示サイズ取得部140とを含み、例えば、パーソナルコンピュータ、スマートホン、タブレット等からなる。視聴者は、視聴者端末100の入力部(収音部120、キーボード、マウス、タッチパネル等)を介して、動画配信サーバ92に対して映像コンテンツの再生を要求することができる。また、視聴者端末100の表示部110を介して、映像コンテンツを視聴することができる。視聴者端末100の視聴者は、入力部を介して、映像コンテンツに重畳して表示される視覚情報(例えば、コメント)を入力することができる。
認識部130は、収音された少なくとも発話以外の音を含む音信号x(t)を受け取り、この音信号x(t)に基づき、発話以外の音に対応し、かつ、発話以外の音をそのまま表記した文字列ではない、視聴者端末91の表示部または表示部110を介して視覚的に認識可能な所定の視覚情報v(t)を得(S130)、通信回線を介して動画配信サーバ92に送信する。
認識部130は、所定の視覚情報を、映像コンテンツに既に重畳されている1種類以上の視覚情報から得る。例えば、音信号x(t)の音量が所定の閾値以上となる時刻において、映像コンテンツに既に重畳されている1種類以上の視覚情報の中から1種類の視覚情報を選択し、所定の視覚情報とする。例えば、(1-1)重畳されている数が最も多い種類の視覚情報を、所定の視覚情報を選択する。また、(1-2)重畳されている数の割合に応じて、ランダムに所定の視覚情報を選択する。(1-3)重畳されている1種類以上の視覚情報の中からランダムに所定の視覚情報を選択する。
認識部130は、所定の視覚情報を、映像コンテンツに重畳して表示するために予め用意されている1種類以上の視覚情報から得る。例えば、図4に示すような視覚情報データベースを予め用意しておき、(2)1種類以上の視覚情報の中からランダムに所定の視覚情報を選択する。なお、所定の視覚情報として、所定の行為、例えば、「笑い」を意味する情報のみを選択したい場合には、視覚情報データベースに「笑い」を意味する情報のみ、例えば、「w」「(笑)」「:-)」「(^o^)」等を用意しておけばよい。
(取得方法2)と、音信号x(t)がどのような音なのかを認識する処理を組合せてもよい。
(取得方法1)と、(取得方法2)または(取得方法3)とを組合せてもよい。
(取得方法5)
(取得方法1)と、(取得方法2)または(取得方法3)との組合せとしては以下のような方法も考えられる。
表示サイズ取得部140は、収音された少なくとも発話以外の音を含む音信号x(t)を受け取り、その大きさを表す指標(例えば、音量、パワー、エネルギー)を求め、大きさを表す指標と所定の閾値との大小関係に基づき、無音か否かを判定する。例えば、大きさを表す指標が音が大きいほど大きくなる値(例えば、音量、パワー、エネルギー)の場合には、大きさを表す指標が所定の閾値未満のときに無音と判定し、閾値以上のときに何らかの音を収音できたと判定する。また、大きさを表す指標が音信号が大きいほど小さくなる値の場合には、大きさを表す指標が所定の閾値より大きいときに無音と判定し、閾値以下のときに何らかの音を収音できたと判定する。さらに、無音ではなく、何らかの音を収音できたと判定したときに、表示サイズ取得部140は、大きさを表す指標に対応する情報を、所定の視覚情報が視聴者端末91の表示部または表示部110を介して表示される際の大きさの情報s(t)として得(S140)、通信回線を介して動画配信サーバ92に送信する。例えば、音信号x(t)の大きさが大きいほど、表示される際の大きさが大きくなるように情報s(t)を取得する。
以上の構成により、コメント投稿ボタンのクリックまたはエンターキーの押下を行わずに、視覚情報を映像コンテンツに適切なタイミングで重畳して表示することができる。
本実施形態では、表示部110は、映像コンテンツと共にそれに重畳される視覚情報を表示しているが、映像コンテンツのみを表示する表示部を別途設けてもよい。
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
Claims (9)
- 収音された少なくとも発話以外の音を含む音信号に基づき、上記発話以外の音に対応し、かつ、上記発話以外の音をそのまま表記した文字列ではない、所定の視覚情報を得る認識部を含み、
上記所定の視覚情報は、映像コンテンツに重畳して表示するために得るものであり、
上記認識部は、
映像コンテンツに既に重畳されている1種類以上の視覚情報から上記所定の視覚情報を得る、
認識装置。 - 請求項1の認識装置であって、
上記認識部は、
上記音信号の収音時刻に対応する映像コンテンツの時刻に、既に重畳されている視覚情報が複数種類ある場合には、重畳されている数が最も多い種類の視覚情報を、上記所定の視覚情報として得る、
認識装置。 - 請求項1の認識装置であって、
上記認識部は、(1-a)上記音信号の収音時刻に対応する映像コンテンツの時刻に、既に重畳されている視覚情報が1種類である場合、または、(1-b)複数種類あるがそのうち1種類の割合が極めて高い場合には、当該種類の視覚情報を上記所定の視覚情報として得て、(2)上記以外の場合には、映像コンテンツに重畳して表示するために予め用意されている複数種類の視覚情報から上記所定の視覚情報を得る、
認識装置。 - 請求項1の認識装置であって、
上記認識部は、(1)上記音信号の収音時刻に対応する映像コンテンツの時刻に、既に重畳されている視覚情報に占める1種類の視覚情報の割合が高い場合には、当該種類の視覚情報を上記所定の視覚情報として得ることを優先し、(2)上記以外の場合には、映像コンテンツに重畳して表示するために予め用意されている複数種類の視覚情報から上記所定の視覚情報を得ることを優先することで、上記所定の視覚情報を得る、
認識装置。 - 請求項1の認識装置であって、
上記認識部は、
上記音信号の収音時刻に対応する映像コンテンツの時刻に、既に重畳されている視覚情報が複数種類ある場合には、既に重畳されている複数種類の視覚情報から、重畳されている数の割合の確率に応じてそれぞれの所定の視覚情報が得られるように、ランダムに上記所定の視覚情報を得る、
認識装置。 - 収音された少なくとも発話以外の音を含む音信号に基づき、上記発話以外の音に対応し、かつ、上記発話以外の音をそのまま表記した文字列ではない、所定の視覚情報を得る認識部を含み、
上記所定の視覚情報は、映像コンテンツに重畳して表示するために得るものであり、
上記認識部は、
映像コンテンツに既に重畳されている1種類以上の視覚情報、映像コンテンツに重畳して表示するために予め用意されている1種類以上の視覚情報の少なくとも何れかから第一の視覚情報を得、
上記第一の視覚情報の繰り返し回数が得られた場合に、得られた繰り返し回数に応じて、前記第一の視覚情報を繰り返した情報と同じ意味を表す他の視覚情報を前記所定の視覚情報とする、
認識装置。 - 請求項1から請求項6の何れかの認識装置であって、
上記発話以外の音の大きさを表す指標に対応する情報を、上記所定の視覚情報が表示部を介して表示される際の大きさの情報として得る表示サイズ取得部を含む、
認識装置。 - 映像コンテンツを表示する第一の表示部と、
上記映像コンテンツに対応して発せられた音を収音して上記音信号とする収音部と、
上記請求項1から請求項7の何れかの認識装置と、
上記認識装置が得た所定の視覚情報を映像コンテンツに重畳して表示する第二の表示部とを含む、
映像コンテンツ提示システム。 - メディアコンテンツを提示する提示部と、
上記メディアコンテンツに対応して発せられた音を収音して上記音信号とする収音部と、
上記請求項1から請求項7の何れかの認識装置と、
上記認識装置が得た所定の視覚情報を上記メディアコンテンツに対応する映像コンテンツに重畳して表示する表示部とを含む、
映像コンテンツ提示システム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2015080592A JP6367748B2 (ja) | 2015-04-10 | 2015-04-10 | 認識装置、映像コンテンツ提示システム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2015080592A JP6367748B2 (ja) | 2015-04-10 | 2015-04-10 | 認識装置、映像コンテンツ提示システム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2016201678A JP2016201678A (ja) | 2016-12-01 |
| JP6367748B2 true JP6367748B2 (ja) | 2018-08-01 |
Family
ID=57424482
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2015080592A Active JP6367748B2 (ja) | 2015-04-10 | 2015-04-10 | 認識装置、映像コンテンツ提示システム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6367748B2 (ja) |
Families Citing this family (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US10101804B1 (en) | 2017-06-21 | 2018-10-16 | Z5X Global FZ-LLC | Content interaction system and method |
| US12279025B2 (en) | 2017-06-21 | 2025-04-15 | Koshayojan Services Ltd. | Content interaction system and method with presence detection and emotional state determination to recommend a piece of interactive content |
| US12212821B2 (en) | 2017-06-21 | 2025-01-28 | Koshayojan Services Limited | Machine learning encoding system and method for content interaction system and method |
| US10743087B2 (en) | 2017-06-21 | 2020-08-11 | Z5X Global FZ-LLC | Smart furniture content interaction system and method |
| US12197636B2 (en) | 2017-06-21 | 2025-01-14 | Koshayojan Services Limited | Cost per scent system and method |
| CN111210804A (zh) * | 2018-11-01 | 2020-05-29 | 普天信息技术有限公司 | 一种social signal的识别方法和装置 |
Family Cites Families (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH082015A (ja) * | 1994-06-27 | 1996-01-09 | Nec Corp | プリンタ装置 |
| JP4030440B2 (ja) * | 2003-02-26 | 2008-01-09 | 富士フイルム株式会社 | メッセージ再生装置、メッセージ記録および再生方法、およびプログラム |
| JP2005065252A (ja) * | 2003-07-29 | 2005-03-10 | Fuji Photo Film Co Ltd | 携帯電話機 |
| JP2008278199A (ja) * | 2007-04-27 | 2008-11-13 | Sharp Corp | テレビジョン受信装置 |
| JP5626878B2 (ja) * | 2010-10-20 | 2014-11-19 | Necカシオモバイルコミュニケーションズ株式会社 | ビューイングシステム、携帯端末、サーバ、ビューイング方法 |
| JP6039915B2 (ja) * | 2011-07-08 | 2016-12-07 | 株式会社ドワンゴ | ステージ演出システム、演出制御サブシステム、ステージ演出システムの動作方法、演出制御サブシステムの動作方法、およびプログラム |
| KR102057284B1 (ko) * | 2013-01-23 | 2020-01-22 | 엘지전자 주식회사 | 전자 기기 및 전자 기기의 제어 방법 |
| EP3007456A4 (en) * | 2013-05-30 | 2016-11-02 | Sony Corp | CLIENT DEVICE, CONTROL PROCEDURE, SYSTEM AND PROGRAM |
-
2015
- 2015-04-10 JP JP2015080592A patent/JP6367748B2/ja active Active
Also Published As
| Publication number | Publication date |
|---|---|
| JP2016201678A (ja) | 2016-12-01 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN110085244B (zh) | 直播互动方法、装置、电子设备及可读存储介质 | |
| JP6367748B2 (ja) | 認識装置、映像コンテンツ提示システム | |
| JP6510536B2 (ja) | インスタント通信において表現情報を処理する方法及び装置 | |
| US8117281B2 (en) | Using internet content as a means to establish live social networks by linking internet users to each other who are simultaneously engaged in the same and/or similar content | |
| JP2022534708A (ja) | 動的に反応する仮想キャラクターのためのマルチモーダルモデル | |
| CN111294606B (zh) | 直播处理方法、装置、直播客户端及介质 | |
| US12022136B2 (en) | Techniques for providing interactive interfaces for live streaming events | |
| CN108141499A (zh) | 惯性音频滚动 | |
| CN109474843A (zh) | 语音操控终端的方法、客户端、服务器 | |
| US20170092253A1 (en) | Karaoke system | |
| JP5729844B1 (ja) | コンテンツの評価装置、システム、サーバ装置及び端末装置 | |
| JP2011164681A (ja) | 文字入力装置、文字入力方法、文字入力プログラムおよびそれを記録したコンピュータ読み取り可能な記録媒体 | |
| CN114501103A (zh) | 基于直播视频的互动方法、装置、设备及存储介质 | |
| CN115776578A (zh) | 一种视频生成方法及装置、一种音频播放方法及装置 | |
| JP7230085B2 (ja) | 音声を処理するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム | |
| CN112287129A (zh) | 音频数据的处理方法、装置及电子设备 | |
| US20250126305A1 (en) | Server, method and computer program | |
| Zhou et al. | Exploring the Diversity of Music Experiences for Deaf and Hard of Hearing Individuals | |
| JP6619072B2 (ja) | 音合成装置、音合成方法、及びそのプログラム | |
| JP6567461B2 (ja) | 認識装置、映像コンテンツ提示システム、プログラム | |
| US20220109911A1 (en) | Method and apparatus for determining aggregate sentiments | |
| CN104796786A (zh) | 信息处理设备、信息处理方法以及程序 | |
| US20240303030A1 (en) | Dynamic audio content generation | |
| US20140108329A1 (en) | Logic model for media customization | |
| CN111753107A (zh) | 资源展示方法、装置、设备及存储介质 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170425 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180207 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180320 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180508 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180703 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180705 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6367748 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |