JP2016009262A

JP2016009262A - 動画処理装置、動画処理プログラム及び動画処理方法

Info

Publication number: JP2016009262A
Application number: JP2014128460A
Authority: JP
Inventors: 智志長谷川; Satoshi Hasegawa; 順司松下; Junji Matsushita; 俊英花澤; Toshihide Hanazawa
Original assignee: Nikon Corp
Current assignee: Nikon Corp
Priority date: 2014-06-23
Filing date: 2014-06-23
Publication date: 2016-01-18

Abstract

【課題】ユーザが簡単に動画を処理する装置、プログラム及び方法を提供する。
【解決手段】動画データに関する複数の情報のうち第１情報が選択されると、第１情報と関連のある第１関連情報を表示部２０に表示させる。第１情報に基づいて動画データを処理する。また、第１情報と、第１関連情報のうち選択された第２情報と、に基づいて動画データを処理する。第２情報が選択されると、第２情報と関連のある第２関連情報または処理された動画データに基づく動画像を表示させる。
【選択図】図１

Description

本発明は、動画処理装置、動画処理プログラム及び動画処理方法に関するものである。

従来、フレーム単位で人間に理解可能なインデックスを付与し、そのインデックスを用いて任意の場面を検索できる動画検索方法が知られている。例えば、特許文献１では、動画内容を処理して得られる物理量をもとに単語データベースの中から複数の単語を計算機に自動的に選択させ、これをフレーム単位で付与しインデックスとする。検索実行時には、検索したい場面に相当する単語を入力して、一致した動画像のフレームを候補画像とする技術が開示されている。

特開平５−２８２３８０

しかしながら、従来技術では、各インデックスが互いに関連付いていない。そのため、動画を処理することはユーザにとって手間がかかる作業であった。

本発明は、このような問題点に鑑みてなされたものであり、ユーザが簡単に動画を処理することを目的とする。

本発明の一態様に係る動画処理装置は、動画データに関する複数の情報のうち第１情報が選択されると前記第１情報と関連のある第１関連情報を表示部に表示させる制御部と、少なくとも前記第１情報に基づいて前記動画データを処理する処理部とを備える。

本発明の一態様に係る動画処理方法は、動画データに関する複数の情報のうち第１情報が選択されると前記第１情報と関連のある第１関連情報を表示部に表示し、少なくとも前記第１情報に基づいて前記動画データを処理する。

本発明の一態様に係る動画処理プログラムは、動画データに関する複数の情報のうち第１情報が選択されると前記第１情報と関連のある第１関連情報を表示部に表示させる制御ステップと、少なくとも前記第１情報に基づいて前記動画データを処理する処理ステップとを実行させる。

本発明によれば、ユーザは簡単に動画データを処理することができる。

実施形態１による動画処理装置１の機能ブロック図である。実施形態１による情報テーブルの一例である。実施形態１による情報テーブルの一例である。実施形態１による動画処理装置１の動作を示すフローチャートである。実施形態１による表示部２０の表示の一例である。実施形態１による表示部２０の表示の一例である。実施形態１による表示部２０の表示の一例である。実施形態１による表示部２０の表示の一例である。実施形態１による表示部２０の表示の一例である。実施形態２による動画処理装置１の機能ブロック図である。実施形態２による動画処理装置１の動作を示すフローチャートである。実施形態２による表示部２０の表示の一例である。実施形態２による表示部２０の表示の一例である。実施形態２による表示部２０の表示の一例である。実施形態３による動画処理装置１の機能ブロック図である。実施形態３による動画処理装置１の動作を示すフローチャートである。実施形態３による情報テーブルの一例である。実施形態３による表示部２０の表示の一例である。実施形態４による動画処理装置１の機能ブロック図である。実施形態４による動画処理装置１の動作を示すフローチャートである。実施形態４による表示部２０の表示の一例である。実施形態４による表示部２０の表示の一例である。実施形態４による表示部２０の表示の一例である。実施形態４による表示部２０の表示の一例である。実施形態４による表示部２０の表示の一例である。実施形態４による表示部２０の表示の一例である。本発明による表示部２０の表示の一例である。

本発明による動画処理装置ついて、以下、図面やフローチャートを参照しながら説明する。
≪実施形態１≫

図１は、本実施形態に係る動画処理装置１の機能ブロック図の一例である。

動画処理装置１は、動画取得部１０と、処理部１１と、制御部１２と、を備える。

外部装置２は、表示部２０と、選択部２１と、を備える。本実施形態の表示部２０は、例えばパーソナルコンピュータやスマートフォン、タブレット、デジタルカメラ、その他電子機器等のディスプレイ等が挙げられる。選択部２１は、マウスやキーボード、マイク、トラックボール、カメラ、ライトペン、タッチパネル等が挙げられる。

動画処理装置１は、制御部１２の制御により、動画取得部１０を介して、動画取得部１０に接続されたＵＳＢメモリやメモリーカード、メモリースティック等の外部記憶装置や、インターネットを介して通信接続されたサーバ上に記憶されている動画ファイルを取得する。本実施形態での動画ファイルには、動画データ、音声データ、動画データと音声データを同期させるための信号などが含まれる。字幕やメタデータなどのテキストが含まれていてもよい。さらに本実施形態では、動画データに関する複数の情報があらかじめ関連付いており、これら情報は動画ファイルに含まれているとする。つまり、動画取得部１０は、図２ａまたは図２ｂに示すような、動画データに関する複数の情報が互いに関連付いて記憶されている情報テーブルが含まれる動画ファイルを取得する。本実施形態でいう動画データに関する複数の情報とは、動画データに記録されている被写体や、被写体の動作、被写体の大きさ、場所、時間、天気、状況、色、音輝度、エッジ等、様々な情報が挙げられる。図２ａまたは図２ｂでは、情報は文字として情報テーブルに記憶されているが、画像やアイコンで記憶されていてもよい。

制御部１２は、動画取得部１０が取得した情報テーブルに記憶されている情報のうち少なくとも１つを外部装置２の表示部２０に表示させる。外部装置２の選択部２１は、表示部２０に表示された情報を選択する。ここで、表示部２０に表示された情報に関連付けられた情報がある場合、情報を選択すると、表示部２０に情報に関連付いた情報が表示されるといった表示の仕方がある。例えば、動画処理装置１の制御部１２は、選択部２１によって選択された情報を取得し、取得した情報と関連付いている情報を表示部２０に表示させる。

処理部１１は、制御部１２が選択部２１から取得した情報に基づいて、動画取得部１０を介して取得した動画データを処理する。動画データの処理については後に詳述する。

制御部１２は、処理部１１で処理された動画データを複号化して、表示部２０に動画を再生させる。このとき、動画データとともに処理された、音声データ、動画データと音声データを同期させるための信号、字幕やメタデータなどのテキストを複合化し、動画を再生してもよい。動画データのみを複合化し、動画として再生してもよい。制御部１２は、動画処理装置１の動画取得部１０と処理部１１とを制御する。また、制御部１２は、外部装置２の表示部２０と選択部２１とを制御する。

次に、本実施形態に係る動画処理装置１の動作を図３に示すフローチャートを用いて説明する。

（Ｓ１）ユーザが動画処理装置１のスイッチをＯＮにする。なお、本実施形態ではユーザが動画処理装置１のスイッチをＯＮにすることに基づいて図３に示す処理を実行するが、それに限定されるものではない。外部装置２の表示部２０にメニュー画面を表示させ、メニュー画面を操作することによって、図３に示す処理を実行してもよい。また、必ずしもユーザによる操作は必要なく、自動的に図３に示す処理が実行されてもよい。

（Ｓ２）動画取得部１０は、動画ファイルを取得する。本実施形態での動画ファイルには、動画データ、音声データ、動画データと音声データを同期させるための信号、字幕、メタデータなどのテキスト、情報テーブル等が含まれている。本実施形態で情報テーブルとは、動画データに関する複数の情報があらかじめ互いに関連付いて記憶されているテーブルである。図２ａは、「Ａ君が運動会で走る」場面を録画した動画データに対応する情報テーブルの一例である。図２ｂは、「Ａ君が運動会で走る」場面と「Ｂ君が運動会で食べる」場面と２つの場面を録画した動画データに対応する情報テーブルの一例である。情報テーブルは、音声データや字幕、テキストなどに関する複数の情報があらかじめ互いに関連付いて記憶されていてもよい。この情報テーブルは、あらかじめ動画データに関連付いて外部（ＵＳＢメモリやメモリーカード、メモリースティック等の外部記憶装置や、インターネットを介して通信接続されたサーバ等）に記憶されていてもよいし、動画処理装置１が作成してもよい。動画処理装置１が作成する場合については、実施形態２で詳述する。

（Ｓ３）制御部１２は、動画取得部１０が取得した情報テーブルに記憶されている情報のうち少なくとも１つを外部装置２の表示部２０の第１領域２０１に表示させる（図４ａ）。例えば図２ｂに示すような情報テーブルを取得した場合、図４ａに示すように、「Ａ君」「運動会」「走る」「Ｂ君」「食べる」が表示部２０の第１領域２０１に表示される。表示方法としては、各情報に対応する文字または画像、アイコン等を表示部２０の第１領域２０１に表示する方法が挙げられる。本実施形態では、各情報を文字として表示させる。各情報に対応する画像またはアイコンを表示させる方法に関しては、実施形態２で詳述する。

（Ｓ４）ユーザは外部装置２の選択部２１を介して、表示部２０に表示された情報のうち１つを第１情報４０１として選択する。選択部２１はマウスを使用して図４ａに示すようなカーソルを移動することで選択してもよいし、キーボード、マイク、トラックボール、カメラ、ライトペン、タッチパネル等を使用してユーザが選択してもよい。情報が選択されない場合、Ｓ３へ戻り情報を表示し続ける。また、一定時間ユーザからの選択がなければ処理を終了してもよい。情報が選択されたらＳ５へ進む。

（Ｓ５）制御部１２は、ユーザが選択部２１を介して選択した情報と関連付いている情報を表示部２０に表示させる。例えば制御部１２は、第１領域２０１に表示された情報のうち選択部２１によって選択された情報を第１情報４０１として取得する。さらに制御部１２は、第１情報４０１と関連付いている情報を第１関連情報３０２として表示部２０の第２領域２０２に表示させる。図４ｂにおいて、図４ａと同様の構成は番号を省略して記載している。図４ｂは、第１領域２０１に表示された情報のうち「Ａ君」が選択部２１によって選択され、「Ａ君」と関連付いている第１関連情報３０２を第２領域２０２に表示した一例である。この表示例は、図２ｂに示すような情報テーブルを取得した場合である。「Ａ君」は第１情報４０１となる。このとき第１情報４０１を強調して表示してもよい。例えば、「Ａ君」の文字の色を変える、文字の大きさを大きくする、文字の太さを太くする、文字を回転等の動きをつけて表示する、等が挙げられる。また、第１情報４０１以外の第１領域に表示されている情報（「運動会」「走る」「Ｂ君」「食べる」）をうすく表示する、表示しない等も挙げられる。第１関連情報３０２を表示したらＳ６へ進む。ユーザが、動画データ処理の実行を指示する実行ボタン１００を選択したらＳ８へ進んでもよい。

（Ｓ６）ユーザは外部装置２の選択部２１を介して、第１関連情報３０２のうち１つを第２情報４０２として選択する。制御部１２は、ユーザが選択した情報を第２情報４０２として取得する（図４ｃ）。図４ｃにおいて、図４ａまたはｂと同様の構成は番号を省略して記載している。情報が選択されない場合、Ｓ５へ戻り第１関連情報３０２を表示し続ける。また、一定時間ユーザからの選択がなければ処理を終了してもよいし、Ｓ８へ進んでもよい。情報が選択されたらＳ７へ進む。ユーザが、動画データ処理の実行を指示する実行ボタン１００を選択したらＳ８へ進んでもよい。

（Ｓ７）ユーザは第１情報４０１かつ第２情報４０２と関連付いている情報をさらに表示するか、しないかを決定する。表示する場合、Ｓ５へ戻る。つまり、制御部１２は、第１情報４０１かつ第２情報４０２と関連付いている情報を、第２関連情報３０３として図４ｃに示すように第３領域２０３に表示させる。第１情報４０１かつ第２情報４０２と関連付いている情報は、図２ｂに示す情報テーブルから決定できる。第２情報４０２と関連付いている情報を表示させてもよい。表示する情報がない場合（選択した情報と関連付いている情報がなくなった場合）は、選択した情報に関連付いている情報がこれ以上存在しない旨を示す情報を表示部２０に表示させてもよい。表示しない場合、Ｓ８へ進む。ユーザが、動画データ処理の実行を指示する実行ボタン１００を選択したらＳ８へ進んでもよい。

（Ｓ８）処理部１１は、選択部２１が選択した情報（第１情報４０１等）に基づいて、動画取得部１０を介して取得した動画データを処理する。例えば図４ｄに示すように、ユーザは第１情報４０１として「Ａ君」、第２情報４０２として「走る」、第３情報４０３として「運動会」を選択したとする。処理部１１は、動画取得部１０を介して取得した動画データから「Ａ君が運動会で走る」場面を取得する。少なくとも第１情報４０１「Ａ君」の場面だけ取得するようにしてもよい。第１情報４０１「Ａ君」と第２情報４０２「走る」の場面、つまり「Ａ君が走る」場面を取得するようにしてもよい。取得方法としては、各情報には、動画データの中でどこからどこまでが各情報に対応する場面かを示す時間情報が関連付いており、その時間情報に基づいて動画データから対応する場面を取得する方法が考えられる。例えば、「Ａ君」に対応する場面は０秒から３０秒、「走る」に対応する場面は１０秒から３０秒と４０秒から５０秒、「運動会」に対応する場面は０秒から５０秒とする。この場合、「Ａ君」「走る」「運動会」に基づいて動画データを処理すると、処理部１１は１０秒から３０秒の範囲の動画データを取得する。また、動画データに基づくフレームには、そのフレームに関連する情報がタグ付けされており、「Ａ君」「走る」「運動会」全てがタグ付けされているフレームを取得してもよい。

（Ｓ９）制御部１２は、図４ｄに示すように、Ｓ８で処理部が取得した範囲の動画データに基づく動画を表示部２０の動画領域２０４で再生させる。また処理部が取得した範囲の動画データに基づく代表画像（サムネイル画像）を動画領域２０４に表示させ、ユーザが選択部２１を介して代表画像を選択すると、動画を再生するようにしてもよい。代表画像は、動画再生時の先頭の画像、被写体の大きさが最も大きい画像、被写体の動きが少ない範囲での画像などが考えられる。代表画像ではなく、再生を示すアイコン等でもよい。また、処理部が取得した範囲の動画データと対応する音声データ、動画データと音声データを同期させるための信号、字幕やメタデータなどのテキストも共に再生してもよい。

以上のように、本実施形態によれば、各情報が互いに関連付いているため、ユーザは簡単に動画データを処理することができる。また、各情報に関連付いている情報が表示されるため、ユーザにとって見やすい表示を提供することができる。さらに、動画の内容を文字で提供できるので、ユーザは動画の内容を把握しやすい。

本実施形態では、情報テーブルは動画ファイルに含まれているとしたが、それに限定されるものではない。例えば、動画ファイルには情報テーブルの記憶場所を示すアドレスが含まれており、そのアドレスを参照することにより情報テーブルを使用してもよい。

本実施形態では、動画処理装置１は情報テーブルを含む動画ファイルを取得したがそれに限定されるものではない。情報テーブルは取得されなくてもよい。例えば、動画データに基づくフレームには、そのフレームに関連する情報がタグ付けされており、同じフレームにタグ付けされている情報は互いに関連付いているとして、表示部２０に表示させてもよい。その結果、情報テーブルがなくても、ユーザが選択した情報と関連のある情報を表示することができる。

本実施形態では、表示部２０と選択部２１は外部装置２に備えられるとしたが、それに限定されるものではない。表示部２０と選択部２１は動画処理装置１に備えられてもよい。例えば、動画処理装置１がカメラや、スマートフォン、タブレット、ＰＣ等で、動画処理装置１の処理を行うアプリケーションを使用する場合が考えられる。

本実施形態では、動画取得部１０が外部記憶装置等から動画ファイルを取得したが、それに限定されるものではない。例えば、動画処理装置１にはあらかじめ動画ファイルが記憶されていてもよい。

本実施形態では、動画処理装置１のスイッチがＯＮされ、動画ファイルを取得すると、情報テーブルに記憶されている情報のうち少なくとも１つを外部装置２の表示部２０に表示させ、表示された情報から第１情報４０１を選択するとしたがそれに限定されるものではない。ユーザがマイクまたはキーボード等の図示しない入力部から第１情報４０１を入力してもよい。動画処理装置１は、マイクによって取得した音（音声）を電気信号に変換し、変換された電気信号を解析した結果である文字データを第１情報４０１として表示部２０に表示する。例えば、ユーザは「Ａ君」がうつっている場面を動画データから取得したいとき、マイクに対して「Ａ君」と発声する。動画処理装置１は、「Ａ君」という音声を音声認識等で解析し、「Ａ君」という文字データを取得する。動画処理装置１は、取得した「Ａ君」という文字データを第１情報４０１として表示部２０に表示する。第１情報４０１「Ａ君」を表示部２０に表示した後、第１情報４０１「Ａ君」に関連づいている情報がある場合は、「Ａ君」に関連付いている情報を第１関連情報３０２として表示部２０に表示させてもよい。第１情報４０１「Ａ君」に関連付いている情報がない場合は、「Ａ君」に関連付いている情報がない旨を表示部２０に表示させてもよい。動画データに「Ａ君」がうつっている場面がない場合は、動画データにＡ君がうつっている場面がない旨を表示部２０に表示させてもよい。あらかじめ動画データに関する複数の情報を表示部２０に表示し、表示された複数の情報のいずれかを、第１情報４０１としてマイクを使用して選択してもよい。また、ユーザがマイクに対して「Ａ君がうつっている場面がほしい」と発声した場合、動画処理装置１は、音声認識等を用いて「Ａ君がうつっている場面がほしい」という文字データを取得し、さらに形態素解析等で「Ａ君」という名詞を取得する。その後、名詞である「Ａ君」を第１情報４０１として表示部２０に表示させてもよい。名詞が複数取得された場合は、複数の名詞を表示部２０に表示させてもよい。名詞でなく、動詞や形容詞、形容動詞を表示させてもよい。例えばユーザが「走る場面がほしい」とマイクに対して発声した場合、動画処理装置１は、音声認識や形態素解析等で「走る」という動詞を文字データで取得し、第１情報４０１として表示部２０に表示させてもよい。「走る」という動詞を取得する方法は、名詞を取得する場合と同様の方法があげられる。また、動画処理装置１は、ユーザがキーボードから入力した文字データを第１情報４０１として表示部２０に表示してもよい。動画処理装置が、文字データを第１情報４０１として表示部２０に表示する方法は、マイクを通して第１情報４０１を表示する場合と同様の方法があげられる。動画処理装置１は、ユーザから入力された第１情報と、その第１情報と関連付いている第１関連情報を表示部２０に表示させてもよい。

本実施形態では、ユーザは情報を各領域で１つずつ選択したが、それに限定されるものではない。複数の情報を選択して、選択された各情報に関連付いている情報をそれぞれ表示部２０に表示してもよい。例えば図５に示すように第１領域２０１に表示された情報のうち、第１情報４０１として「Ａ君」と「食べる」の２つを選択してもよい。その結果、１つの動画データから２つの場面をそれぞれ同時に取得することができる。図５に示すように第１情報４０１として「Ａ君」と「食べる」、第２情報４０２として「運動会」と「Ｂ君」が選択されたとする。その場合、１つの動画データから、「Ａ君」「運動会」に対応する場面と、「食べる」「Ｂ君」に対応する場面とがそれぞれ取得され、動画領域２０４に表示される。

本実施形態では、第１領域、第２領域、第３領域、動画領域は表示部に表示したままであるが、それに限定されるものではない。例えば第２領域が表示部２０に表示されるタイミングで、第１領域は表示部２０から削除してもよい。第３領域が表示部２０に表示されるタイミングで、第１領域及び第２領域は表示部２０から削除してもよい。動画領域が表示部２０に表示されるタイミングで、その他の領域は表示部２０から削除してもよい。また表示部２０が十分な大きさでなかった場合、ユーザがスクロール等の動作をすることで、各領域を表示部２０に表示させたり、表示部２０に表示させなかったりを制御してもよい。

処理部１１は、動画データから対応する場面を取得する方法として、時間情報と一致する範囲の動画データを取得するとした。この場合、時間情報と一致する範囲の動画データに基づくフレームを全て取得してもよいし、一部を取得してもよい。また、処理部１１は、動画データから対応する場面を取得する方法として、選択された情報がタグ付けされているフレームを取得するとした。この場合、選択された情報がタグ付けされているフレームを全て取得してもよいし、一部を取得してもよい。取得するフレームはユーザが手動で選択してもよいし、動画処理装置１が自動で選択してもよい。自動で選択する場合は、５フレームごと等で間引きして取得してもよいし、手振れやボケを検出してうまく撮れているフレームを取得するようにしてもよい。ユーザが動画データの再生時間を指定して、その時間内におさまるようにフレーム数を決めてもよい。

本実施形態では、情報は互いに関連付いているとした。例えば、「Ａ君は座る、Ｂ君は食べる」場面からは、「Ａ君」「Ｂ君」「座る」「食べる」という情報が取得され、関連付けられる。ユーザが「Ａ君」という情報を第１情報４０１として選択すると、「Ｂ君」「座る」「食べる」が第１関連情報３０２として表示部２０に表示される。その後、第１関連情報３０２「Ｂ君」「座る」「食べる」のうち第２情報４０２として「食べる」を選択したとする。つまり、第１情報４０１として「Ａ君」を、第２情報４０２として「食べる」を選択したとする。この場合、「Ａ君」と「食べる」に関連する場面を表示部２０に表示してもよい。例えば、「Ａ君は走る、Ｂ君は食べる」場面や、「Ａ君は笑う、Ｃ君は食べる」場面等を表示部２０に表示してもよい。もしくは、動画データには「A君が食べる」場面が含まれていないため、動画処理装置１は「Ａ君は食べる」場面はない旨を示す情報を表示部２０に表示してもよい。また、動画処理装置１は、「Ａ君」と「食べる」、「Ｂ君」と「座る」は関連付いていない情報テーブルを取得するようにしてもよい。また、実施形態２で説明するように、動画処理装置１が情報テーブルを作成する場合は、「Ａ君」と「食べる」、「Ｂ君」と「座る」を関連付けずに情報テーブルを作成する。具体的には、フレームから「食べる」という情報が取得された場合、「食べる」という情報は、フレームの中で「食べる」を取得した部分の近くから取得される被写体（この場合はＡ君）と関連付ける。その結果、第１情報４０１「Ａ君」を選択した場合、第１関連情報３０２として「食べる」は表示されない。「Ａ君は食べる」場面がある場合、第１関連情報３０２として「食べる」が表示部２０に表示され、第２情報４０２として「食べる」が選択されると、「Ａ君は食べる」場面が表示２０に表示される。

表示部２０は、戻るボタンを表示しており、ユーザが戻るボタンを押すと、前の処理に戻ることができる。
≪実施形態２≫

実施形態１では、動画処理装置は、動画データに関する複数の情報が関連付いている情報テーブルを含む動画ファイルを取得した。実施形態２では、動画処理装置が情報テーブルの作成を行う。また、実施形態１では、情報を文字で表示部２０に表示した。実施形態２では、情報を画像、またはアイコンで表示部２０に表示する。実施形態１に係る動画処理装置１と実施形態２に係る動画処理装置１との主な相違点は、情報テーブル作成部が追加された点である。なお本実施形態において、実施形態１と同様の構成部、動作の説明は省略する。

図６は、実施形態２に係る動画処理装置１の機能ブロック図の一例である。実施形態２において、実施形態１と同様の構成部は、実施形態１と同様の数字で表している。

動画処理装置１は、動画取得部１０と、情報テーブル作成部１３と、処理部１１と、制御部１２とを備える。

動画処理装置１は、制御部１２の制御により、動画取得部１０を介して、動画取得部１０に接続されたＵＳＢメモリやメモリーカード、メモリースティック等の外部記憶装置や、インターネットを介して通信接続されたサーバ上記憶されている動画ファイルを取得する。実施形態１では、動画データに関する情報が互いに関連付いている情報テーブルが動画ファイル含まれていたが、本実施形態では、情報テーブルは動画ファイルに含まれてなくてよい。本実施形態での動画ファイルには、動画データ、音声データ、動画データと音声データを同期させるための信号などが含まれる。字幕やメタデータなどのテキストが含まれていてもよい。

情報テーブル作成部１３は、動画取得部１０を介して取得した動画ファイルに含まれる動画データから情報を取得し、取得した情報を互いに関連付けて、情報テーブルを作成する。情報テーブルの作成方法については、後に詳述する。動画ファイルに含まれる音声データや、字幕、メタデータなどのテキストから情報を取得してもよい。

制御部１２は、情報テーブル作成部１３で作成した情報テーブルに記憶されている情報のうち少なくとも１つを外部装置２の表示部２０に表示させる。外部装置２の選択部２１は、表示部２０に表示された情報を選択する。動画処理装置１の制御部１２は、選択部２１によって選択された情報を取得し、取得した情報に基づいて、表示部２０を制御する。また、制御部１２は、処理部１１で処理した動画データに基づく動画を表示部２０で再生する。

処理部１１は、制御部１２が選択部２１から取得した情報に基づいて、動画取得部１０を介して取得した動画データを処理する。

制御部１２は、動画処理装置１の動画取得部１０と情報テーブル作成部１３と処理部１１とを制御する。また、制御部１２は、外部装置２の表示部２０と選択部２１とを制御する。

次に、本実施形態に係る動画処理装置１の動作を図７に示すフローチャートを用いて説明する。実施形態１と同様の処理は、実施形態１のフローチャート図３と同様のステップ番号がついている。実施形態１と同様の処理は説明を省略する。また、図７に示すフローチャートの「Ａ」は図３に示すフローチャートの「Ａ」に続くことを意味している。

（Ｓ２）動画取得部１０は、動画データを取得する。実施形態１では、動画データに関する情報が互いに関連付いている情報テーブルを含む動画ファイルを取得したが、本実施形態では、情報テーブルは取得しなくてよい。本実施形態では、動画データ、音声データ、動画データと音声データを同期させるための信号、字幕、メタデータなどのテキストを含む動画ファイルを取得する。

（Ｓ２１）情報テーブル作成部１３は、動画取得部１０を介して取得した動画データから、動画データに基づくフレームを選択する。選択されたフレームをフレームｉとする。本実施形態では、取得した動画データの先頭のフレームから１枚ずつ選択するとするが、それに限定されるものではない。

（Ｓ２２）情報テーブル作成部１３は、Ｓ２１で選択されたフレームｉに関する情報を取得する。フレームｉに関する情報とは、フレームｉにうつっている被写体や、被写体の動作、被写体の大きさ、フレームｉが記録された場所や、時間、天気、状況、フレームｉの色や、輝度、エッジ等、様々な情報が挙げられる。情報の取得方法は、例えば、あらかじめ被写体になりうるものの画像を動画処理装置１が記憶していて、その記憶されている画像の特徴とフレームｉの特徴（例えば色や輝度、エッジ等）とを比較することで被写体を特定することができる。また、複数のフレームとフレームレートとを使用して、フレームｉからフレームｉ+ｎまでに被写体が移動した距離と時間とを把握し、被写体の動き（「走る」「歩く」「止まる」等）の情報を取得することができる。また、フレームｉの被写体のエッジとレンズのズーム率とから、被写体の大きさを取得することができる。また、メタデータから、フレームｉが記録された場所や時間を取得することができる。また、サーバにアクセスすることで、フレームｉが記録されたときの天気や状況を取得することができる。さらに、音声データから、「静か」「にぎやか」等の状況を取得することができる。その他ここに記載した以外の既存の技術を使用してフレームｉに関する情報を取得してもよい。

（Ｓ２３）情報テーブル作成部１３は、Ｓ２２で取得した情報を互いに関連づけることで、情報テーブルを作成する。例えば、フレームｉに関する情報として「Ａ君」「運動会」「走る」という３つの情報が取得された場合、図２ａに示すような情報テーブルを作成する。次に、フレームｉ+ｎで、「Ｂ君」「運動会」「食べる」という３つの情報が取得されたとする。すでに「運動会」という情報は情報テーブルに記録されているので、「運動会」という情報に「Ｂ君」「食べる」をさらに関連付ける。その結果、情報テーブルは図２ｂに示すような情報テーブルとなる。

（Ｓ２４）フレームｉが最後のフレームでなければＳ２１に戻る。最後のフレームならＳ３へ進む。

（Ｓ３）制御部１２は、情報テーブル作成部１３が作成した情報テーブルに記憶されている情報のうち少なくなくとも１つを外部装置２の表示部２０の第１領域２０１に表示させる。実施形態１では、情報を文字で表示部２０に表示したが、本実施形態では図８ａに示すように情報を画像またはアイコンで表示部２０に表示する。図８ａに示す表示例では文字も表示しているが、文字は表示せずに画像またはアイコンのみを表示してもよい。

図８ａ〜ｃは、実施形態２での表示部２０の表示例である。実施形態１と同様の表示内容は、図４と同様の番号がついている。図８ａに示すように第１領域２０１に表示された情報から第１情報４０１として「Ｂ君」が選択されると「Ｂ君」の画像またはアイコンが強調表示される。図８ａでは「Ｂ君」の画像またはアイコンの枠を太くすることで強調表示しているが、それに限定されるものではない。例えば、「Ｂ君」以外の画像またはアイコンの表示を薄くしてもよいし、表示しないようにしてもよい。また「Ｂ君」の画像またはアイコンを光らせる、回転させる、点滅させる、色を変える、大きく表示する等が考えられる。第１情報４０１が選択されると、第２領域２０２に第１関連情報３０２が表示される。

図８ｂに示すように、第１関連情報３０２から第２情報４０２として「食べる」が選択されると「食べる」の画像またはアイコンが強調表示される。第２情報４０２が選択されると第３領域２０３に第２関連情報３０３が表示される。図８ｃに示すように、第２関連情報３０３から第３情報４０３が選択され、ユーザが動画データ処理の実行を指示する実行ボタン１００を押すと、動画領域２０４に処理部１１で処理された動画データに基づく動画が再生される。処理された動画データに基づく代表画像（サムネイル画像）を動画領域２０４に表示させ、ユーザが選択部２１を介して代表画像を選択すると、動画を再生するようにしてもよい。代表画像は、動画再生時の先頭の画像、被写体の大きさが最も大きい画像、被写体の動きが少ない範囲での画像などが考えられる。代表画像ではなく、再生を示すアイコン等でもよい。また、処理部が取得した範囲の動画データと対応する音声データ、動画データと音声データを同期させるための信号、字幕やメタデータなどのテキストも共に再生してもよい。本実施形態では、「Ｂ君」「食べる」「運動会」という３つの情報に基づいて動画データを処理する。そのため、「Ｂ君が運動会で食べる」場面の動画データに基づく動画が再生される。または、「Ｂ君が運動会で食べる」場面の代表画像が表示され、ユーザが代表画像を選択すると、動画が再生される。代表画像ではなく、再生をしめすアイコン等でもよい。また、表示部２０の大きさには限りがあるため、情報または動画データを表示するスペースが表示部２０にない場合、ユーザが表示部２０をスクロールする等の指示をすることで図８ａ、図８ｂ、図８ｃと表示を変えるようにしてもよい。

また、ユーザは、第１情報４０１を選択したら実行ボタン１００を押してもよい。その場合、第１情報４０１「Ｂ君」がうつっている場面が取得される。さらにユーザは、第２情報４０２を選択したら実行ボタン１００を押してもよい。その場合、第１選択情報「Ｂ君」と第２選択情報「食べる」とに基づいた場面、つまり「Ｂ君が食べる」場面が取得される。

以上のように、本実施形態によれば、各情報が互いに関連付いているため、ユーザは簡単に動画データを処理することができる。各情報に関連付いている情報が表示されるため、ユーザにとって見やすい表示を提供することができる。また、動画の内容を画像またはアイコンで表示するため、ユーザは直観的に動画の内容を把握できる。さらに、動画データから情報を取得できるため、情報テーブルを取得しなくてよい。

本実施形態では、動画処理装置１に情報テーブル作成部１３を備えたがそれに限定されるものではない。例えば、情報テーブル作成部１３は図示しない外部情報処理部３に備えられており、動画処理装置１は外部情報処理部３から処理結果を取得してもよい。

本実施形態では、情報テーブル作成部１３が動画データから情報を取得しているが、それに限定されるものではない。例えばユーザが、図示しない入力部から情報を入力してもよい。

本実施形態では、動画データから情報を取得する際、フレームを１枚ずつ選択したが、それに限定されるものではない。例えば、フレームを５枚ごとや、１０枚ごとに選択してもよい。選択する間隔は、自動に設定してあってもよいし、ユーザが設定してもよい。また、１枚ずつではなく複数枚を選択することで、「走る」等の被写体の動きに関する情報が取得できる。
≪実施形態３≫

実施形態３は、情報を選択する際に、ユーザは文章を作成する感覚で情報を選択することができる動画処理装置である。実施形態１に係る動画処理装置１と実施形態３に係る動画処理装置１との主な相違点は、表示順決定部が追加された点である。なお本実施形態において、実施形態１と同様の構成部、動作の説明は省略する。

図９は、実施形態３に係る動画処理装置１の機能ブロック図の一例である。実施形態３において、実施形態１と同様の構成部は、実施形態１と同様の数字で表している。

動画処理装置１は、動画取得部１０と、表示順決定部１４と、処理部１１と、制御部１２とを備える。表示順決定部１４は、品詞特定部１４ａと情報分類部１４ｂとを備える。

動画処理装置１は、制御部１２の制御により、動画取得部１０を介して、動画取得部１０に接続されたＵＳＢメモリやメモリーカード、メモリースティック等の外部記憶装置や、インターネットを介して通信接続されたサーバ上に記憶されている動画データを取得する。実施形態３では、実施形態１と同様に動画データに関する情報が予め互いに関連付いている情報テーブルと動画データとを共に取得する。また、実施形態２のように動画処理装置１が情報テーブル作成部１３を備えていて、動画処理装置１が情報テーブルを作成してもよい。

表示順決定部１４は、外部装置２の表示部２０に表示する情報の順番を決定する。品詞特定部１４ａは、動画取得部１０を介して取得した情報テーブルに記憶されている情報について、各情報に対応する品詞を特定する。情報分類部１４ｂは、品詞特定部１４ａが特定した各情報の品詞に基づき、各情報を対応するカテゴリに分類する。

制御部１２は、動画取得部１０を介して取得した情報テーブルを表示順決定部１４に送信し、表示順決定部１４が決定した表示順に基づいて、外部装置２の表示部２０に情報を表示させる。外部装置２の選択部２１は、表示部２０に表示された情報を選択する。制御部１２は、選択部２１によって選択された情報を取得し、取得した情報と表示順決定部１４が決定した表示順に基づいて、さらに表示部２０を制御する。また、制御部１２は、処理部１１で処理した動画データに基づく動画像を表示部２０に再生させる。

処理部１１は、制御部１２が選択部２１から取得した情報に基づいて、制御部１２が動画取得部１０を介して取得した動画データを処理する

次に、本実施形態に係る動画処理装置１の動作を図１０に示すフローチャートを用いて説明する。実施形態１と同様の処理は、実施形態１のフローチャート図３と同様のステップ番号がついている。実施形態１と同様の処理は説明を省略する。また、図１０に示すフローチャートの「Ａ」は図３に示すフローチャートの「Ａ」に続くことを意味している。

（Ｓ２）動画取得部１０は、動画ファイルを取得する。本実施形態では、実施形態１と同様に、動画ファイルには情報テーブルが含まれている。実施形態２のように動画処理装置１が情報テーブル作成部１３を備えていて、動画処理装置１が情報テーブルを作成してもよい。

（Ｓ３１）品詞特定部１４ａは、動画取得部１０が取得した動画ファイルに含まれる情報テーブルを制御部１２を介して取得し、情報テーブルに記憶されている情報について、各情報に対応する品詞を特定する。品詞を特定する方法は、単語とその単語の品詞が関連付けられている単語辞書を動画処理装置１が有しており、単語辞書と各情報を照らし合わせることで情報の品詞を特定する。単語辞書は外部サーバが有しており、有線または無線で外部サーバと通信することで単語辞書と各情報を照らし合わせ品詞を特定してもよい。その他ここに記載した以外の方法や既存の技術を使用して、各情報に対応する品詞を特定してもよい。

（Ｓ３２）情報分類部１４ｂは、品詞特定部１４ａが特定した品詞に基づき、各情報を対応するカテゴリに分類する。本実施形態では、カテゴリを「主語」「述語」「目的語または修飾語」とする。例えば情報分類部１４ｂは、名詞を第１カテゴリ「主語」に分類し、動詞を第２カテゴリ「述語」に分類し、それ以外の品詞を第３カテゴリ「目的語または修飾語」に分類する。

（Ｓ３）制御部１２は、情報分類部１４ｂで第１カテゴリ「主語」に分類された情報を第１領域２０１に表示させる。

（Ｓ５）制御部１２は、第１領域２０１に表示された情報のうち、ユーザが選択部２１を介して選択した情報を第１情報４０１として取得する。制御部１２は、第１情報４０１と関連付いている情報のうち第２カテゴリ「述語」に分類された情報を第１関連情報３０２として、第２領域２０２に表示させる。第１情報４０１と関連付いており、かつ第２カテゴリ「述語」に分類された情報がない場合は、その旨を示す情報を表示部２０に表示させてもよい。その後、Ｓ７へ進む。ユーザが、動画データ処理の実行を指示する実行ボタン１００を選択したらＳ８へ進んでもよい。

（Ｓ７）ユーザは次の情報をさらに表示するか、しないかを決定する。表示する場合、Ｓ５へ戻る。つまり、制御部１２は、第１情報４０１かつ第２情報４０２と関連付いている情報のうち第３カテゴリ「目的語または修飾語」に分類された情報を第２関連情報３０３として、第３領域２０３に表示させる。第１情報４０１と第２情報４０２とに関連付いており、かつ第３カテゴリ「目的語または修飾語」に分類された情報がない場合は、その旨を示す情報を表示部２０に表示させてもよい。次の情報をさらに表示しない場合、Ｓ８へ進む。ユーザが、動画データ処理の実行を指示する実行ボタン１００を選択したらＳ８へ進んでもよい。

以上のように、本実施形態によれば、ユーザは主語、述語、目的語または修飾語の順に情報を選択できるため、文章を作成する感覚で情報を選択し、動画データを処理することができる。例えば図１２は、図１１に示すような情報テーブルがあったときの表示例である。第１領域２０１には、第１カテゴリ「主語」に分類された情報「Ａ君」「Ｂ君」「Ｃさん」が表示される。第１情報４０１「Ａ君」と関連付いている情報「走る」「にぎやか」「笑う」「楽しい」のうち、第２カテゴリ「述語」に分類された情報「走る」「笑う」が第２領域２０２に表示される。さらに、第１情報４０１「Ａ君」かつ第２情報４０２「笑う」と関連付いている情報「楽しい」のうち、第３カテゴリ「目的語または修飾語」に分類された情報「楽しい」が第３領域２０３に表示される。第１情報４０１として「Ａ君」、第２情報４０２として「笑う」、第３選択情報として「楽しい」が選択されているため、「Ａ君が楽しく笑う」場面の動画データが取得され、動画領域２０４に表示される。このように情報がカテゴリごとに表示されるので、ユーザは情報を選択しやすい。また、第１カテゴリ「主語」に分類された情報から表示されるので、ユーザは日常使い慣れた文章を作成する感覚で簡単に情報を選択できる。

本実施形態では、情報を主語、述語、目的語または修飾語の順に表示部２０に表示したが、それに限定されるものではない。表示する順番はユーザが好みの順番を指定するようにしてもよい。また、表示部２０に「主語を選択してください。」「述語を選択してください。」「目的語または修飾語を選択してください。」というような指示を表示してもよい。

本実施形態では、名詞を第１カテゴリ「主語」、動詞を第２カテゴリ「述語」、その他の品詞を第３カテゴリ「目的語または修飾語」として分類したが、それに限定されるものではない。例えば、人物名を示す名詞を第１カテゴリ「主語」に分類してもよい。被写体を示す名詞を第１カテゴリ「主語」に分類してもよい。動詞または形容詞または形容動詞を第２カテゴリ「述語」に分類してもよい。被写体の状態を示す動詞または形容詞または形容動詞を第２カテゴリ「述語」に分類してもよい。これらの分類方法は、ユーザが指定してもよい。

本実施形態では、カテゴリを「主語」「述語」「目的語または修飾語」としたがこれに限定されるものではない。品詞の種類をカテゴリにしてもよいし、「人物」「風景」「動作」「場所」「時間」「その他」等をカテゴリにしてもよい。カテゴリの数はいくつあってもよい。「人物」「風景」「動作」「場所」「時間」「その他」等で分類した場合は、例えば「人物」または「風景」に分類された情報を、第１カテゴリとし、第１領域２０１に表示させ、「動作」に分類された情報を第２カテゴリとし、第２領域２０２に表示させ、「場所」または「時間」または「その他」に分類された情報を第３カテゴリとし、第３領域２０３に表示させてもよい。その結果、被写体を示す名詞がまず表示され、次に被写体の状態を示す動詞または形容詞または形容動詞が表示される。表示させる順番はこれに限らない。
≪実施形態４≫

実施形態４は、選択された情報で文章を作成し、作成された文章をユーザが選択することで、動画データを処理することができる動画処理装置である。その結果、ユーザは何度も情報を選択する必要なく動画データを処理することができる。また、作成された文章を記憶しておくことで、ユーザは１度利用した文章を再度利用しやすくなる。実施形態１に係る動画処理装置１と実施形態４に係る動画処理装置１との主な相違点は、文章作成部と文章記憶部が追加された点である。なお本実施形態において、実施形態１と同様の構成部、動作の説明は省略する。

図１３は、実施形態４に係る動画処理装置１の機能ブロック図の一例である。実施形態４において、実施形態１と同様の構成部は、実施形態１と同様の数字で表している。

動画処理装置１は、動画取得部１０と、文章作成部１５と、文章記憶部１６と、処理部１１と、制御部１２とを備える。

文章作成部１５は、選択部２１によって選択された情報に基づいて文章を作成する。文章を作成する方法は、後に詳述する。

文章記憶部１６は、文章作成部１５で作成された文章を記憶する。

制御部１２は、動画取得部１０を介して取得した情報テーブルに記憶されている情報のうち少なくとも１つを表示部２０に表示させる。選択部２１は、表示部２０に表示された情報を選択する。制御部１２は、選択部２１によって選択された情報を取得し、取得した情報に基づいて、表示部２０をさらに制御する。また、制御部１２は、選択部２１で選択された情報を文章作成部１５へ送信する。文章作成部１５は制御部１２から送信された情報に基づいて文章を作成し、文章記憶部１６へ記憶する。制御部１２は、文章記憶部１６に記憶されている文章を取得し、表示部２０に表示させる。また、制御部１２は、選択部２１が選択した情報を処理部１１へ送信する。さらに、制御部１２は、処理部１１で処理した動画データを表示部２０に表示させる。

次に、本実施形態に係る動画処理装置１の動作を図１４に示すフローチャートを用いて説明する。実施形態１と同様の処理は、実施形態１のフローチャート図３と同様のステップ番号がついている。実施形態１と同様の処理は説明を省略する。

（Ｓ４１）制御部１２は、図１５に示すように情報を選択して動画データを処理するか、文章を選択して動画データを処理するかをユーザに問う内容を表示部２０に表示させる。情報を選択して動画データを処理するとは、実施形態１から３で記載した動画処理方法である。すなわち、ユーザが情報を選択していき、選択された情報に基づいて動画データを処理する。文章を選択して動画データを処理するとは、本実施形態の動画処理方法である。すなわち、文章記憶部に記憶されている文章を表示部２０に表示し、ユーザが選択した文章に基づいて動画データを処理する。この場合、ユーザが何度も情報を選択する手間が省け、１回の選択で動画データを処理することができる。また、作成された文章を記憶しておくことで、ユーザは１度利用した文章を再度利用しやすくなる。ユーザが、情報を選択して動画データを処理することを選択したらＳ３へ進む。ユーザが、文章を選択して動画データを処理することを選択したらＳ４４へ進む。

ユーザが、情報を選択して動画データを処理することを選択してＳ３へ進む場合、Ｓ３からＳ７までは実施形態１と同様の処理をする。その後Ｓ４２へ進み、選択された情報に基づいて文章を作成し、作成した文章を文章記憶部１６へ記憶する。文章を記憶したら、実施形態１と同様の処理で動画データを処理し、処理された動画データに基づく動画像を表示部２０に再生する。

（Ｓ４２）文章作成部１５は、選択部２１が選択した情報を制御部１２を介して取得し、取得した情報に基づいて文章を作成する。例えば、実施形態３のように情報を表示する順番が決められており、図１２に示すように「Ａ君」「笑う」「楽しい」が選択されたとする。この場合、主語は「Ａ君」、述語は「笑う」、目的語または修飾語は「楽しい」となる。文章作成部１５は、適当な助詞または助動詞を各情報と組み合わせたり、目的語または修飾語の語尾を変形させることで「Ａ君が楽しく笑う。」という文章を作成する。また、実施形態１のように情報を表示する順願が決められてなく、図４ｄに示すように「Ａ君」「走る」「運動会」が選択されたとする。この場合、文章作成部１５は各情報の品詞を特定し、品詞が名詞と特定された情報に関しては、その名詞が人物名かどうかを判定する。取得した情報の中に人物名に対応する情報があった場合、文章作成部１５は人物名に対応する情報を主語、動詞を述語、その他の品詞を修飾語、人物名以外の名詞を目的語とする。文章作成部１５は、適当な助詞または助動詞を各情報と組み合わせたり、目的語または修飾語の語尾を変形させることで「Ａ君が運動会で走る。」という文章を作成する。文章を作成したらＳ４３へ進む。

（Ｓ４３）文章記憶部１６は、Ｓ４２で文章作成部１５が作成した文章を記憶する。文章を記憶したら、Ｓ８へ進む。実施形態１と同様に動画データを処理し、処理された動画データに基づく動画像を表示部２０に再生する。

（Ｓ４４）ユーザが、Ｓ４１で文章を選択して動画データを処理することを選択したらＳ４４の処理を行う。制御部１２は、文章記憶部１６に記憶されている文章を表示部２０に表示させる。文章記憶部１６に記憶されている文章がない場合、その旨をユーザに通知してもよい。通知する方法は、表示部２０に表示してもよいし、音で通知してもよい。処理を終了してもよい。

（Ｓ４５）ユーザは選択部２１を介して、表示部２０に表示された文章の中から１つを選択する。文章が選択されない場合、Ｓ４４へ戻り文章を表示し続ける。また、一定時間ユーザからの選択がなければ処理を終了してもよい。文章が選択されたらＳ４６へ進む。

（Ｓ４６）選択された文章で動画データを処理するか、選択された文章を一部修正して動画データを処理するかをユーザに問う内容を表示部２０に表示させる。選択された文章で動画データを処理する場合、Ｓ８へ進み、実施形態１と同様の処理で動画データを処理する。選択された文章を一部修正して動画データを処理する場合、Ｓ４７へ進む。

（Ｓ４７）ユーザは、選択した文章のうち修正したい箇所を選択部２１で選択する。制御部１２は、選択部２１で選択された修正したい箇所を取得し、その代わりとなる情報を表示する。ユーザは表示された情報の中から、ユーザの意図する情報を選択する。表示された情報の中に、ユーザの意図する情報がない場合、図示しない入力部からユーザが入力してもよい。例えば、ユーザが「Ａ君が運動会で走る」という文章を選択し、この文章を修正するとする。図１６に示すように、修正したい箇所として「Ａ君」をユーザが選択する。「Ａ君」は人物名なので、「Ａ君」の代わりとなる情報として、情報テーブルに記憶されている「Ａ君」以外の人物名を表示領域５に表示する。ユーザは表示領域５に表示された代わりの情報のうち、ユーザの意図する情報を選択する。意図する情報が表示されなかった場合、入力部６から入力してもよい。

（Ｓ４８）文章記憶部１６は、Ｓ４７で修正した文章を記憶する。文章を記憶したら、Ｓ８へ進む。

（Ｓ８）処理部１１は、動画取得部１０を介して取得した動画データを処理する。Ｓ４１で情報を選択して動画データを処理した場合、処理部１１は実施形態１と同様に選択部２１が選択した情報（第１情報４０１等）に基づいて、動画取得部１０を介して取得した動画データを処理する。Ｓ４１で文章を選択し、さらに選択した文章を修正した場合、Ｓ４７で修正した文章に基づいて動画データを処理する。すなわち、修正した文章に含まれる情報と対応する場面を動画データから取得する。Ｓ４１で文章を選択し、選択した文章を修正しなかった場合、Ｓ４５で選択した文章に基づいて動画データを処理する。すなわち、選択した文章に含まれる情報と対応する場面を動画データから取得する。

以上のように、本実施形態によれば、ユーザが文章記憶部１６に記憶されている文章を選択することで、ユーザは何度も情報を選択する必要なく動画データを処理することができる。また、作成された文章を記憶しておくことで、ユーザは１度利用した文章を再度利用しやすくなる。

本実施形態では、主語、述語、修飾語、目的語を自動で判断し、適当な助詞または助動詞を組み合わせ、目的語または修飾語の語尾を変形させることで、動画処理装置１が自動で文章を作成したが、それに限定されるものではない。ユーザが手動で行ってもよい。例えば、ユーザは主語、述語、目的語または修飾語となる情報を選択する。主語、述語、目的語または修飾語をつなぐ助詞や助動詞はユーザが図示しない入力部から入力する。または、助詞や助動詞を表示部２０に表示させ、表示された助詞や助動詞から適当なものをユーザが選択する。自動で文章を作成するとき、主語または動詞がないと判断され、文章作成部１５が文章を作成できなかった場合はその旨をユーザに通知してもよい。

本実施形態では、文章作成部１５が作成した文章を全て文章記憶部１６に記憶させたがそれに限定されるものではない。例えば、制御部１２は、文章作成部１５が作成した文章を表示部２０に表示させる。ユーザが表示された文章を文章記憶部１６に記憶する指示をした場合のみ、制御部１２は作成された文章を文章記憶部１６に記憶させてもよい。

本実施形態では、文章記憶部１６に記憶されている文章を表示部２０に表示するとした。表示する順番としては、使用頻度の高い順、作成された日順、文章が長い順等が考えられる。

本実施形態では、文章が１つだけの場合を説明したがそれに限定されるものではない。例えば、接続詞を使用して、２つの文章をつなげることにより、２つの場面を動画データから取得することも考えられる。具体的に図１７を使用して説明する。まず図１７ａに示すように、ユーザが「Ａ君が運動会で走る」という文章を選択したとする。ユーザが複数の文章で動画データを処理したいと考えた場合、接続詞ボタン７を押す。接続詞ボタン７を押すと、複数の接続詞が表示部２０に表示され、ユーザは意図する接続詞「そして」を選択する（図１７ｂ）。ユーザが接続詞を選択すると、２つ目の文章の候補が表示部２０に表示さる（図１７ｃ）。表示された２つ目の文章の候補の中から、ユーザは意図する２つ目の文章「Ｂ君は運動会で食べる。」を選択する。すると、「Ａ君は運動会で走る。そして、Ｂ君は運動会で食べる。」という文章ができる（図１７ｄ）。ユーザがこの文章で動画データを処理する指示をすると、動画処理装置１は「Ａ君が運動会で走る」場面と「Ｂ君が運動会で食べる」場面とを動画データから取得し、２つの場面をつなげて表示部２０に表示させる。このとき使用した接続詞によって、２つの場面間に効果を付け加えてもよい。例えば、「そして」という接続詞は順接であるので、動画処理装置１は２つの場面は似たような場面であると判断し、フェード等２つの場面のつながりを持たせられるような効果を２つの場面間に挿入して、表示部２０に表示させる。「ところで」等の転換の接続詞の場合は、ページをめくる演出等の場面の転換を連想させる効果を２つの場面間に挿入してもよい。接続詞と効果の対応は、あらかじめ設定されていてもよいし、ユーザが指定してもよい。

本発明の表示部２０として図１８に示すような表示例も考えられる。動画領域２０４は、複数の領域に分割されている。図１８では領域８、領域９、領域１０に分割されている。これら分割された領域は、各領域の下にある第１領域２０１と第２領域２０２と第３領域２０３にそれぞれ表示された情報に対応する場面を表示する。例えば、領域８には「Ａ君が運動会で走る」場面が表示される。領域９には「Ｂ君が運動会で走る」場面が表示され、領域１０には「Ｃ君が運動会で走る」場面が表示される。第１情報２０１または第２情報２０２または第３情報２０３に表示されている情報は、ユーザが表示部２０をスライドすることで表示する情報を変えるようにしてもよい。

本発明では、動画取得部１０を介して、動画データ、音声データ、動画データと音声データを同期させるための信号などが含まれる動画ファイルを取得したが、それに限定されるものではない。例えば、動画データを取得してもよい。その場合、動画処理装置１は動画データを処理する。

以上、本発明の実施形態について図面やフローチャートを使用して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計等も含まれる。

なお、本発明の実施形態における各部は、専用のハードウェアにより実現されるものであってもよく、また、メモリおよびマイクロプロセッサにより実現させるものであってもよい。

なお、本発明の実施形態における制御部１２は、メモリおよびＣＰＵ（中央演算装置）により構成され、制御部１２の機能を実現するためのプログラムをメモリにロードして実行することによりその機能を実現させるものであってもよい。

また、制御部１２の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、制御部１２による処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。

また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。

Claims

動画データに関する複数の情報のうち第１情報が選択されると、前記第１情報と関連のある第１関連情報を表示部に表示させる制御部と、
少なくとも前記第１情報に基づいて前記動画データを処理する処理部と、を備える
ことを特徴とする動画処理装置。
前記制御部は、前記動画データから取得された前記複数の情報のうち前記第１情報が選択されると、前記第１関連情報を前記表示部に表示させる
ことを特徴とする請求項１に記載の動画処理装置。
前記処理部は、前記第１情報と、前記第１関連情報のうち選択された第２情報と、に基づいて前記動画データを処理する
ことを特徴とする請求項１から２に記載の動画処理装置。
前記制御部は、前記第２情報が選択されると、前記第２情報と関連のある第２関連情報または前記処理部で処理された前記動画データに基づく動画像を前記表示部に表示させる
ことを特徴とする請求項３に記載の動画処理装置。
前記制御部は、前記第１情報が選択されると前記第１情報を強調して前記表示部に表示させ、前記第２情報が選択されると前記第２情報を強調して前記表示部に表示させる
ことを特徴とする請求項３から４に記載の動画処理装置。
前記制御部は、前記動画データが前記処理部で処理されると、前記処理部で処理された前記動画データに基づく動画像を前記表示部に表示させる
ことを特徴とする請求項１から５に記載の動画処理装置。
前記制御部は、前記複数の情報のうち第１カテゴリに分類された情報を前記表示部に表示させ、前記第１カテゴリに分類された情報のうち前記第１情報が選択されると、前記複数の情報のうち第２カテゴリに分類された前記第１関連情報を前記表示部に表示させる
ことを特徴とする請求項１から６に記載の動画処理装置。
前記第１カテゴリに分類された情報は被写体を示す名詞であり、
前記制御部は、前記被写体を示す名詞を前記表示部に表示させる
ことを特徴とする請求項７に記載の動画処理装置。
前記制御部は、前記複数の情報のうち前記第１カテゴリに分類された前記被写体を示す名詞と、前記複数の情報のうち前記第２カテゴリに分類された前記被写体の状態を示す動詞または形容詞または形容動詞と、を前記表示部に表示させる
ことを特徴とする請求項８に記載の動画処理装置。
前記制御部は、前記動画データから取得された前記複数の情報または前記動画データに関するフレームから取得された前記複数の情報のうち前記第１情報が選択されると、前記第１関連情報を前記表示部に表示させる
ことを特徴とする請求項１から９に記載の動画処理装置。
前記処理部は、前記第１情報と前記第２情報とが取得されたフレームを前記動画データから取得する
ことを特徴とする請求項３に記載の動画処理装置。
前記複数の情報は、前記複数の情報が取得されたフレームに対応する時間情報が関連付いており、
前記処理部は、前記第１情報と関連付いている前記時間情報と、前記第２情報と関連付いている前記時間情報と、に対応するフレームを前記動画データから取得する
ことを特徴とする請求項１１に記載の動画処理装置。
少なくとも前記第１情報に基づいて文章を作成する文章作成部を備え、
前記処理部は、前記文章作成部で作成された前記文章が選択されると、選択された前記文章に基づいて前記動画データを処理する
ことを特徴とする請求項１から１２に記載の動画処理装置。
前記文章作成部で作成された前記文章を記憶する文章記憶部を備え、
前記制御部は、前記文章記憶部に記憶された前記文章を前記表示部に表示させ、
前記処理部は、前記表示部に表示された前記文章が少なくとも１つ選択されると、選択された前記文章に基づいて前記動画データを処理する
ことを特徴とする請求項１３に記載の動画処理装置。
前記制御部は、少なくとも１つの接続詞を前記表示部に表示させ、
前記処理部は、前記表示部に表示された前記接続詞のうち少なくとも１つが選択されると、選択された前記接続詞に基づいて前記動画データを処理する
ことを特徴とする請求項１から１４に記載の動画処理装置。
動画データに関する複数の情報のうち第１情報が選択されると、前記第１情報と関連のある第１関連情報を表示部に表示させる制御方法と、
少なくとも前記第１情報に基づいて前記動画データを処理する処理方法と、を備える
ことを特徴とする動画処理方法。
動画データに関する複数の情報のうち第１情報が選択されると、前記第１情報と関連のある第１関連情報を表示部に表示させる制御ステップと、
少なくとも前記第１情報に基づいて前記動画データを処理する処理ステップと、を備える
ことを特徴とする動画処理プログラム。