WO2022239281A1

WO2022239281A1 - 画像処理装置、画像処理方法、及びプログラム

Info

Publication number: WO2022239281A1
Application number: PCT/JP2021/044138
Authority: WO
Inventors: 亜貴代福田; 達仁當波; 亜矢子千葉; 純鈴木; 裕樹椎名; 裕也山下; 奏子簗
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2021-05-12
Filing date: 2021-12-01
Publication date: 2022-11-17
Anticipated expiration: 2023-11-12
Also published as: JPWO2022239281A1; US20240233770A1

Abstract

本開示は、ユーザにとって満足度の高い動画制作サービスを提供することができるようにする画像処理装置、画像処理方法、及びプログラム。メタデータが付加された撮影画像を取得し、設定画面で設定された制作する動画の時間的な長さ、及びメタデータに基づいて、取得した撮影画像の中から、動画の制作に用いる撮影画像を選択し、選択した撮影画像を用いて、動画を制作する処理部を備える画像処理装置が提供される。本開示は、例えば、インターネットを介してサービスを提供するクラウドサーバに適用することができる。

Description

画像処理装置、画像処理方法、及びプログラム

　本開示は、画像処理装置、画像処理方法、及びプログラムに関し、特に、ユーザにとって満足度の高い動画制作サービスを提供することができるようにした画像処理装置、画像処理方法、及びプログラムに関する。

　ユーザが撮影した静止画や動画等の撮影画像を自動で編集する機能を有するプログラムが提供されている。例えば、特許文献１には、動画を自動で編集するプログラムとして、テンプレートを指定するものが開示されている。

特開2009-55152号公報

　撮影画像を編集して動画を制作する動画制作サービスを提供するに際しては、ユーザが満足するようなサービスを提供することが求められる。特に、動画編集を習熟していないユーザは、動画編集機能を使いこなすことができず、満足する動画を作ることができなかった。

　本開示はこのような状況に鑑みてなされたものであり、ユーザにとって満足度の高い動画制作サービスを提供することができるようにするものである。

　本開示の一側面の画像処理装置は、メタデータが付加された撮影画像を取得し、設定画面で設定された制作する動画の時間的な長さ、及び前記メタデータに基づいて、取得した前記撮影画像の中から、前記動画の制作に用いる撮影画像を選択し、選択した前記撮影画像を用いて、前記動画を制作する処理部を備える画像処理装置である。

　本開示の一側面の画像処理方法は、画像処理装置が、メタデータが付加された撮影画像を取得し、設定画面で設定された制作する動画の時間的な長さ、及び前記メタデータに基づいて、取得した前記撮影画像の中から、前記動画の制作に用いる撮影画像を選択し、選択した前記撮影画像を用いて、前記動画を制作する画像処理方法である。

　本開示の一側面のプログラムは、コンピュータを、メタデータが付加された撮影画像を取得し、設定画面で設定された制作する動画の時間的な長さ、及び前記メタデータに基づいて、取得した前記撮影画像の中から、前記動画の制作に用いる撮影画像を選択し、選択した前記撮影画像を用いて、前記動画を制作する処理部として機能させるプログラムである。

　本開示の一側面の画像処理装置、画像処理方法、及びプログラムにおいては、メタデータが付加された撮影画像が取得され、設定画面で設定された制作する動画の時間的な長さ、及び前記メタデータに基づいて、取得した前記撮影画像の中から、前記動画の制作に用いる撮影画像が選択され、選択された前記撮影画像を用いて、前記動画が制作される。

　なお、本開示の一側面の画像処理装置は、独立した装置であってもよいし、１つの装置を構成している内部ブロックであってもよい。

本開示を適用した動画制作システムの一実施の形態の構成例を示す図である。カメラの構成例を示すブロック図である。クラウドサーバの構成例を示すブロック図である。端末装置の構成例を示すブロック図である。カメラからクラウドサーバへの撮影画像のアップロード方法を示す図である。プロキシ画と本画のアップロード方法を示す図である。撮影画像ファイルのアップロードのシーケンスの第１の例を示す図である。撮影画像ファイルのアップロードのシーケンスの第２の例を示す図である。動画制作サービスの全体の流れを説明するフローチャートである。編集処理の詳細を説明するフローチャートである。ショットマークの提示例を示す図である。カメラの動き情報の提示例を示す図である。動画制作システム１における処理部の機能的な構成例を示すブロック図である。設定画面の第１の例を示す図である。編集画面の第１の例を示す図である。設定画面の第２の例を示す図である。アスペクト比の例を示す図である。目安時間の例を示す図である。テンプレートの例を示す図である。編集画面の第２の例を示す図である。ファイル管理画面の第１の例を示す図である。ファイル管理画面の第２の例を示す図である。プロジェクト登録画面の例を示す図である。第７領域の表示例を示す図である。設定画面の第３の例を示す図である。撮影画像選択処理と自動編集処理の流れを説明するフローチャートである。グループごとの撮影画像の選択の例を示す図である。トランジション期間の例を示す図である。

＜システム構成＞
　図１は、本開示を適用した動画制作システムの一実施の形態の構成例を示す図である。

　図１の動画制作システム１は、ユーザが撮影した撮影画像から動画を制作するシステムである。動画制作システム１は、カメラ１０、クラウドサーバ２０、及び端末装置３０から構成される。

　カメラ１０は、動画と静止画を撮影可能なデジタルカメラである。カメラ１０は、デジタルカメラに限らず、スマートフォンやタブレット型端末などの撮影機能を有する機器であってもよい。カメラ１０は、ユーザの操作に従い、被写体像を撮影し、その結果得られる撮影画像を記録する。

　撮影画像は、動画と静止画等のコンテンツを含む。以下の説明では、撮影画像としての動画と、動画制作サービスにより自動制作される動画とを区別する必要がある場合、後者を制作動画と呼ぶ。

　カメラ１０により撮影された撮影画像は、クラウドサーバ２０に送信される。カメラ１０は、ネットワーク４０－１を介して、撮影画像をクラウドサーバ２０に送信することができる。あるいは、フラッシュメモリ等のメモリカードや、無線LAN(Local Area Network)等の無線通信、USB(Universal Serial Bus)等の規格に準拠した有線通信などを利用して、カメラ１０から端末装置３０に撮影画像を転送することで、端末装置３０が、ネットワーク４０－２を介して、撮影画像をクラウドサーバ２０に送信してもよい。

　ネットワーク４０－１とネットワーク４０－２は、インターネットや携帯電話網などの通信回線を含む。ネットワーク４０－１とネットワーク４０－２は、同一のネットワークであってもよいし、異なるネットワークであってもよい。以下、ネットワーク４０－１とネットワーク４０－２を区別する必要がない場合、ネットワーク４０と呼ぶ。

　クラウドサーバ２０は、ネットワーク４０を通じて、撮影画像から制作動画を自動制作する動画制作サービスを提供するサーバである。クラウドサーバ２０は、本開示を適用した画像処理装置の一例である。クラウドサーバ２０は、カメラ１０により撮影された撮影画像を、ネットワーク４０を介して受信する。クラウドサーバ２０は、撮影画像に対する編集等の処理を行うことで制作動画を制作し、ネットワーク４０を介して端末装置３０に送信する。また、クラウドサーバ２０は、設定画面や編集画面などの画面(例えばWebページ)を生成し、ネットワーク４０を介して端末装置３０に送信する。

　端末装置３０は、PC(Personal Computer)、タブレット型端末、スマートフォンなどの機器である。端末装置３０は、クラウドサーバ２０からの設定画面や編集画面などの画面(例えばWebブラウザのUI(User Interface))を表示し、それらの画面に対するユーザの操作に従い、動画制作サービスに関する設定や制作動画の編集などの処理を行う。端末装置３０は、ネットワーク４０を介してクラウドサーバ２０から送信されてくる制作動画を受信する。端末装置３０は、制作動画を端末内に記録したり、外部に出力したりする。

＜カメラの構成例＞
　図２は、図１のカメラ１０の構成例を示すブロック図である。

　図２に示すように、カメラ１０は、レンズ系１１１、撮像部１１２、カメラ信号処理部１１３、記録制御部１１４、表示部１１５、通信部１１６、操作部１１７、カメラ制御部１１８、メモリ部１１９、ドライバ部１２０、センサ部１２１、音入力部１２２、及び音処理部１２３から構成される。

　レンズ系１１１は、被写体からの入射光(像光)を取り込んで、撮像部１１２に入射させる。撮像部１１２は、CMOS(Complementary Metal Oxide Semiconductor)イメージセンサ等の固体撮像素子を有し、レンズ系１１１によって固体撮像素子の撮像面上に結像された入射光の光量を画素単位で電気信号に変換して画素信号として出力する。

　カメラ信号処理部１１３は、DSP(Digital Signal Processor)や、画像データを一時的に記録するフレームメモリ等から構成される。カメラ信号処理部１１３は、撮像部１１２から出力される画像信号に対し、各種の信号処理を行い、その結果得られる撮影画像の画像データを出力する。このように、レンズ系１１１と、撮像部１１２と、カメラ信号処理部１１３とから撮像系が構成される。

　記録制御部１１４は、撮像系で撮像された撮影画像の画像データを、フラッシュメモリ等のメモリカードを含む記憶媒体に記録する。表示部１１５は、液晶ディスプレイや有機ELディスプレイ等から構成され、撮像系で撮像された撮影画像を表示する。

　通信部１１６は、無線LANやセルラー方式の通信（例えば5G(5th Generation)）を含む無線通信などの所定の通信方式に対応した通信モジュール等から構成され、撮像系で撮像された撮影画像の画像データを、ネットワークを介して他の機器に送信する。操作部１１７は、物理的なボタンやタッチパネルなどの操作系からなり、ユーザによる操作に応じて、カメラ１０が有する様々な機能についての操作指令を発する。

　カメラ制御部１１８は、CPU(Central Processing Unit)やマイクロプロセッサ等のプロセッサから構成され、カメラ１０の各部の動作を制御する。メモリ部１１９は、カメラ制御部１１８からの制御に従い、各種のデータを記録する。ドライバ部１２０は、カメラ制御部１１８からの制御に従い、オートフォーカスやズーム等を実現するためにレンズ系１１１を駆動する。

　センサ部１２１は、空間情報や時間情報等のセンシングを行い、そのセンシングの結果得られるセンサ信号を出力する。例えば、センサ部１２１は、ジャイロセンサや加速度センサ等の各種のセンサを含んで構成される。

　音入力部１２２は、マイク等から構成され、ユーザの声(音声)や環境音などの音を検出し、その結果得られる音信号を出力する。音処理部１２３は、音入力部１２２から出力される音信号に対し、音信号処理を行う。音処理部１２３からの音信号は、カメラ信号処理部１１３に入力され、カメラ制御部１１８からの制御に従って画像信号と同期して処理されることで、動画の音(音声)として記録される。

　以上のように構成されるカメラ１０においては、撮影された動画や静止画を含む撮影画像に対し、様々なメタデータ(カメラメタデータ)を付与することができる。例えば、撮像部１１２では、固体撮像素子の画素領域に像面位相差画素が配置される場合、像面位相差画素で得られた情報をメタデータ(像面位相差画素情報メタ)として付与することができる。

　カメラ制御部１１８とドライバ部１２０によるオートフォーカスに関する情報を、メタデータ(フォーカスメタ)として付与してもよい。センサ部１２１では、ジャイロセンサ等のセンサから得られる情報をメタデータ(ジャイロメタ等)として付与することができる。音処理部１２３では、音信号を入力するデバイス(カメラ内蔵マイク等)に関する情報等をメタデータとして付与することができる。

　カメラ１０においては、撮影された動画や静止画を含む撮影画像に対し、ユーザによる操作部１１７の操作に応じたショットマークが付与されてもよい。例えば、撮影時において、ユーザが撮影中の撮影画像を、特定の用途(広告の動画等)に使用する撮影画像にしたいと考えたとき、ボタンやタッチパネルのUI等の操作系を含む操作部１１７を操作することで、対象の撮影画像に対し、ショットマークが付与されるようにする。ショットマークは、ユーザが所望のタイミングで付与する「しるし」であり、撮影画像に付与されたメタデータであるとも言える。

　像面位相差画素、オートフォーカス、センサ、及び音入力デバイスに関する情報、並びにショットマークは、カメラ１０により付与されるメタデータの一例であり、カメラ１０の内部で処理された情報であれば、他の情報をメタデータとして付与しても構わない。

＜クラウドサーバの構成例＞
　図３は、図１のクラウドサーバ２０の構成例を示すブロック図である。

　図３に示すように、クラウドサーバ２０において、CPU２１１と、ROM(Read Only Memory)２１２と、RAM(Random Access Memory)２１３は、バス２１４により相互に接続される。バス２１４には、さらに入出力I/F２１５が接続される。入出力I/F２１５には、入力部２１６、出力部２１７、記憶部２１８、及び通信部２１９が接続される。

　入力部２１６は、各種の入力信号を、入出力I/F２１５を介してCPU２１１を含む各部に供給する。例えば、入力部２１６は、キーボード、マウス、マイクなどから構成される。

　出力部２１７は、入出力I/F２１５を介してCPU２１１からの制御に従い、各種の情報を出力する。例えば、出力部２１７は、ディスプレイ、スピーカなどから構成される。

　記憶部２１８は、半導体メモリ、HDD(Hard Disk Drive)等の補助記憶装置として構成される。記憶部２１８は、CPU２１１からの制御に従い、各種のデータやプログラムを記録する。CPU２１１は、記憶部２１８から各種のデータを読み出して処理したり、プログラムを実行したりする。

　通信部２１９は、無線LANやセルラー方式の通信(例えば5G)などの無線通信、又は有線通信に対応した通信モジュールなどから構成される。通信部２１９は、CPU２１１からの制御に従い、ネットワーク４０を介して、カメラ１０及び端末装置３０を含む他の機器と通信を行う。

　なお、図３に示したクラウドサーバ２０の構成は一例であり、例えばGPU(Graphics Processing Unit)等の専用のプロセッサを設けて、画像処理が行われるようにしてもよい。

＜端末装置の構成例＞
　図４は、図１の端末装置３０の構成例を示すブロック図である。

　図４に示すように、端末装置３０において、CPU３１１と、ROM３１２と、RAM３１３は、バス３１４により相互に接続される。バス３１４には、さらに入出力I/F３１５が接続される。入出力I/F３１５には、入力部３１６、出力部３１７、記憶部３１８、及び通信部３１９が接続される。

　入力部３１６は、各種の入力信号を、入出力I/F３１５を介してCPU３１１を含む各部に供給する。例えば、入力部３１６は、操作部３２１を有する。操作部３２１は、キーボード、マウス、マイク、物理的なボタン、タッチパネル等から構成される。操作部３２１は、ユーザによって操作され、その操作に対応する操作信号をCPU３１１に供給する。

　出力部３１７は、入出力I/F３１５を介してCPU３１１からの制御に従い、各種の情報を出力する。例えば、出力部３１７は、表示部３３１、及び音出力部３３２を有する。

　表示部３３１、液晶ディスプレイや有機ELディスプレイなどから構成される。表示部３３１は、CPU３１１からの制御に従い、撮影画像や編集画面等を表示する。音出力部３３２は、スピーカや出力端子に接続されるヘッドホンなどから構成される。音出力部３３２は、CPU３１１からの制御に従い、音信号に応じた音を出力する。

　記憶部３１８は、半導体メモリ等の補助記憶装置として構成される。記憶部３１８は、内部ストレージとして構成されてもよいし、メモリカード等の外部ストレージであってもよい。記憶部３１８は、CPU３１１からの制御に従い、各種のデータやプログラムを記録する。CPU３１１は、記憶部３１８から各種のデータを読み出して処理したり、プログラムを実行したりする。

　通信部３１９は、無線LANやセルラー方式の通信（例えば5G）などの無線通信、又は有線通信などの所定の通信方式に対応した通信モジュールなどから構成される。通信部３１９は、CPU３１１からの制御に従い、ネットワークを介して他の機器と通信を行う。

　なお、図４に示した端末装置３０の構成は一例であり、例えばGPU等の専用のプロセッサを設けて、画像処理が行われるようにしてもよい。

　以上のように構成される動画制作システム１では、カメラ１０により撮影された撮影画像がクラウドサーバ２０に引き抜かれ、それらの撮影画像と付与されたメタデータを用いた編集等の処理が行われることで制作動画が制作される。その際に、端末装置３０では、クラウドサーバ２０上の撮影画像や制作動画等に関する情報が編集画面等の画面により表示されるので、ユーザが、それらの情報を編集することができる。

　なお、図１の動画制作システム１では、説明を簡略化するために、１台のカメラ１０と１台の端末装置３０がそれぞれ設けられた構成を示したが、動画制作サービスを利用するユーザごとに、１又は複数台のカメラ１０と１又は複数台の端末装置３０が設けられる。カメラ１０と端末装置３０は、同一のユーザにより操作されてもよいし、異なるユーザにより操作されてもよい。クラウドサーバ２０は、データセンタ等に設置されるが、１台のサーバに限らず、複数台のサーバから構成されるようにして、動画制作サービスを提供してもよい。

＜撮影画像のアップロード方法＞
　動画制作システム１において、カメラ１０により撮影された撮影画像のファイルは、ネットワーク４０を介してクラウドサーバ２０にアップロードされて処理されるが、例えば、図５に示す方法によりアップロードされる。

　図５は、カメラ１０とクラウドサーバ２０を紐付けて、カメラ１０からクラウドサーバ２０に撮影画像をアップロードする方法を示す図である。図５のＡ乃至Ｆにより、カメラ１０とクラウドサーバ２０との間のやり取りを時系列に示している。カメラ１０とクラウドサーバ２０との間では、カメラ登録と、カメラ接続と、ファイルアップロードとの３段階で処理が行われる。

　まず、カメラ登録では、図５のＡに示す処理が行われる。すなわち、カメラ１０は、動画制作サービスを利用するために、ネットワーク４０を介してクラウドサーバ２０に接続し、ユーザ操作等に応じて機器登録を行う(図５のＡ)。

　次に、カメラ接続では、図５のＢ乃至Ｅに示す処理が行われる。すなわち、カメラ１０は、ユーザ操作等に応じて本体設定を行い、クラウド連携をオン状態とし、機器登録を済み状態とする(図５のＢ)。また、カメラ１０は、MQTT(Message Queuing Telemetry Transport)等の通信プロトコルを用いて、クラウドサーバ２０に対し、電源オンを通知する(図５のＣ)。

　カメラ１０からの通知を受信したクラウドサーバ２０は、MQTT等の通信プロトコルを用いて、カメラ１０に対し、WebRTC(Web Real-Time Communication)による通信に移行するためのコマンドと接続先を通知する(図５のＤ)。これにより、カメラ１０とクラウドサーバ２０との間では、WebRTCによる通信が行われ、PTP-IP(Picture Transfer Protocol over TCP/IP networks)等の画像転送プロトコルを用いたファイルアップロード先が通知される(図５のＥ)。

　次に、ファイルアップロードでは、図５のＦに示す処理が行われる。すなわち、カメラ１０は、クラウドサーバ２０からの要求をトリガにして(PULL要求として)、ネットワーク４０を介して、動画や静止画を含む撮影画像のファイルのアップロードを開始する(図５のＦ)。このとき、クラウドサーバ２０側で、本画又はプロキシ画など、カメラ１０側からアップロードされるファイルを選択することができる。

　カメラ１０は、アップロードする撮影画像に対し、メタデータを埋め込むことができる。クラウドサーバ２０は、撮影画像に埋め込まれたメタデータを用いた処理により、自動セレクションや自動トリミング、自動品質補正などが行われ、制作動画の制作(自動動画制作)が行われる。ファイルアップロードに際しては、HTTPS(Hypertext Transfer Protocol Secure)等のセキュリティを要求される通信を行うためのプロトコルを用いることで、より安全に撮影画像ファイルをアップロードすることができる。

　ここで、プロキシ画とは、本画よりも解像度の低い画像である。カメラ１０は、撮影画像を記録する際に、高解像度の撮影画像である本画と、低解像度の撮影画像であるプロキシ画とを同時に記録することができる。これにより、カメラ１０は、プロキシ画と本画を、異なるタイミングでアップロードすることができる。すなわち、撮影画像には、本画とともに、プロキシ画も含まれる。例えば、動画と静止画のそれぞれについて、本画とプロキシ画がそれぞれ記録される。

　図６は、プロキシ画と本画のアップロード方法を示す図である。図６のＡに示すように、クラウドサーバ２０が、プロキシ画をPULL要求することで、カメラ１０からプロキシ画のファイルがアップロードされる。クラウドサーバ２０は、アップロードされたプロキシ画のファイルを用いて、自動動画制作に用いる撮影画像を決定する。

　その後、図６のＢに示すように、クラウドサーバ２０が、決定した撮影画像に応じた本画をPULL要求することで、カメラ１０から本画のファイルがアップロードされる。クラウドサーバ２０は、アップロードされた本画のファイルを用いて、自動動画制作を行う。

　このように、クラウドサーバ２０は、プロキシ画のアップロードをカメラ１０に要求してプロキシ画だけを先に引き抜き、プロキシ画を用いて自動動画制作に用いる撮影画像を決めた後に、本画のアップロードをカメラ１０に要求して自動動画制作に用いる本画を後から引き抜くことができる。

　図７は、撮影画像ファイルのアップロードのシーケンスの第１の例を示す図である。

　図７に示すように、端末装置３０は、ネットワーク４０を介して、クラウドサーバ２０に対し、カメラ１０内に記録された撮影画像のリストであるカメラ内撮影画像リストを要求する(Ｓ１１)。クラウドサーバ２０は、端末装置３０からの要求に基づき、ネットワーク４０を介して、カメラ１０に対し、カメラ内撮影画像リストを要求する(Ｓ１２)。

　カメラ１０は、ネットワーク４０を介して、クラウドサーバ２０からの要求を受信し、当該要求に応じた撮影画像リストを送信(返却)する(Ｓ１３)。クラウドサーバ２０は、ネットワーク４０を介して、カメラ１０からの撮影画像リストを端末装置３０に送信(返却)する(Ｓ１４)。

　端末装置３０では、クラウドサーバ２０からの撮影画像リストから、クラウドサーバ２０による自動動画制作で使用する撮影画像が選択される。このとき、端末装置３０では、撮影画像リストを提示して、ユーザの操作に応じた所望の撮影画像を選択することができる。端末装置３０は、クラウド側使用撮影画像のプロキシ画要求リストを、ネットワーク４０を介してクラウドサーバ２０に送信する(Ｓ１５)。

　クラウドサーバ２０は、端末装置３０からのプロキシ画要求リストを、ネットワーク４０を介してカメラ１０に送信する(Ｓ１６)。カメラ１０は、ネットワーク４０を介してクラウドサーバ２０からのプロキシ画要求リストを受信し、当該リストに応じたプロキシ画をクラウドサーバ２０にアップロードする(Ｓ１７)。プロキシ画には、様々なメタデータ(カメラメタデータ)が付与されている。

　クラウドサーバ２０では、カメラ１０からアップロードされるプロキシ画のファイルが記憶部２１８に順次記録される。クラウドサーバ２０は、ネットワーク４０を介して、カメラ１０によりアップロードされたプロキシ画を端末装置３０に送信する(Ｓ１８)。

　端末装置３０では、クラウドサーバ２０からのプロキシ画に付与されたメタデータが分析され、本画のアップロードを要求する撮影画像が選択される(Ｓ１９)。このとき、端末装置３０では、プロキシ画やメタデータに関する情報を提示して、ユーザの操作に応じた所望の撮影画像を選択することができる。端末装置３０は、本画要求リストを、ネットワーク４０を介してクラウドサーバ２０に送信する(Ｓ２０)。

　クラウドサーバ２０は、端末装置３０からの本画要求リストを、ネットワーク４０を介してカメラ１０に送信する(Ｓ２１)。カメラ１０は、ネットワーク４０を介してクラウドサーバ２０からの本画要求リストを受信し、当該リストに応じた本画をクラウドサーバ２０にアップロードする(Ｓ２２)。本画としてアップロードされる撮影画像が動画である場合、１つの動画の全尺又は一部の尺であってもよい。つまり、本画として、１つの動画の全尺又は一部の尺を切り出してアップロードすることが可能である。

　クラウドサーバ２０では、カメラ１０からアップロードされる本画のファイルが記憶部２１８に順次記録される。クラウドサーバ２０は、ネットワーク４０を介して、カメラ１０によりアップロードされた本画を端末装置３０に送信する(Ｓ２３)。これにより、端末装置３０では、必要に応じてクラウドサーバ２０と連携しながら、本画を用いた編集処理等の動画制作処理が行われる(Ｓ２４)。

　なお、実際の撮影時において、カメラ１０とクラウドサーバ２０との間で、ネットワーク４０を介して次のようなやり取りが行われてもよい。

　すなわち、撮影時に、カメラ１０が、撮影中の撮影画像のメタデータをクラウドサーバ２０にアップロードすることで、撮影終了前に、クラウドサーバ２０が、メタデータに基づき、プロキシ画のアップロードをカメラ１０に要求してもよい。あるいは、撮影時に、カメラ１０が、撮影中の撮影画像のメタデータとプロキシ画をクラウドサーバ２０にアップロードすることで、撮影終了前に、クラウドサーバ２０が、メタデータとプロキシ画に基づき、本画のアップロードをカメラ１０に要求してもよい。

　以上、撮影画像ファイルのアップロードのシーケンスを示したが、他のシーケンスを用いてもよい。例えば、カメラ１０に記録された撮影画像ファイルを端末装置３０に転送することで、端末装置３０が撮影画像ファイルをクラウドサーバ２０にアップロードしてもよい。

　図８は、撮影画像ファイルのアップロードのシーケンスの第２の例を示す図である。

　図８に示すように、カメラ１０は、撮影画像を端末装置３０に転送する(Ｓ３１)。端末装置３０は、転送された撮影画像のファイルを記憶部３１８に記録する。このファイル転送では、フラッシュメモリ等のメモリカード、無線LAN等の無線通信、又はUSB等の規格に準拠した有線通信などを利用して、撮影画像のファイルを転送することができる。

　端末装置３０は、URL(Uniform Resource Locator)等のロケーション情報に従い、ネットワーク４０を介してクラウドサーバ２０により提供されるWebページにアクセスする(Ｓ３２)。クラウドサーバ２０は、端末装置３０からのアクセスに応じて、ネットワーク４０を介してファイル管理画面を送信する(Ｓ３３)。

　端末装置３０では、クラウドサーバ２０からのファイル管理画面が提示され、ユーザの操作に従い、記憶部３１８に記録された端末内の撮影画像の中から、アップロードする撮影画像のファイルが指定される(Ｓ３４)。端末装置３０は、ネットワーク４０を介して、指定された撮影画像をクラウドサーバ２０にアップロードする(Ｓ３５)。

　クラウドサーバ２０では、端末装置３０からアップロードされる撮影画像のファイルが記憶部２１８に順次記録され、撮影画像のアップロードが完了したとき、ネットワーク４０を介してアップロード完了が端末装置３０に通知される(Ｓ３６)。これにより、端末装置３０では、必要に応じてクラウドサーバ２０と連携しながら、撮影画像を用いた編集処理等の動画制作処理が行われる(Ｓ３７)。

　なお、図８のシーケンスでは、撮影画像として、本画とプロキシ画を区別せずに説明したが、上述した説明と同様に、プロキシ画、本画の順に処理することができる。

＜全体フロー＞
　図９は、動画制作システム１により提供される動画制作サービスの流れを示したフローチャートである。

　動画制作サービスの利用に際しては、カメラ１０により撮影が行われ(Ｓ１１１)、当該撮影で得られた動画や静止画などの撮影画像がクラウドサーバ２０にアップロードされて取り込まれる(Ｓ１１２)。撮影画像ファイルのアップロードは、例えば、上述した図５乃至図８に示した方法のいずれかにより行うことができる。

　撮影画像が取り込まれると、クラウドサーバ２０では、編集処理が行われる(Ｓ１１３)。編集処理では、自動編集で用いられるテンプレートの選択、撮影画像(クリップ)の自動編集と手動編集、音加工などの処理が行われる。編集処理の詳細は、図１１のフローチャートを参照して後述する。以下の説明では、クラウドサーバ２０等の機器に取り込まれた撮影画像のことを、クリップとも称する。

　クラウドサーバ２０では、編集処理によって、自動編集で得られた動画を繋ぎ合わせることで、最終的な制作動画が制作され、当該制作動画の配信や共有などが行われる(Ｓ１１４)。

　例えば、動画制作サービスでは、次のような流れで動画制作が行われる。すなわち、まず、クラウドサーバ２０は、ユーザの操作に応じて、動画制作に関する情報を管理するためのプロジェクトを作成し、カメラ１０から撮影画像の取り込み開始を指示する。

　このとき、クラウドサーバ２０は、カメラ１０で撮影された撮影画像のうち、例えばショットマークが付与されている撮影画像のみ、プロキシ画が取り込まれるように、カメラ１０に対し、プロキシ画のアップロード要求(PULL要求)を行う。これにより、クラウドサーバ２０では、カメラ１０からのプロキシ画が取り込まれる(Ｓ１１２)。

　クラウドサーバ２０は、編集処理を行い(Ｓ１１３)、取り込んだプロキシ画からプレ制作動画を制作し、ネットワーク４０を介して端末装置３０などに配信することで、ユーザに提示する。ここでの編集処理では、撮影画像が動画である場合にショットマーク付近の画像フレームの切り出しや、物体認識、音声の盛り上がり認識などの処理が行われ、これらの処理に応じたプレ制作動画が制作される。

　次に、クラウドサーバ２０は、プレ制作動画に必要な撮影画像の本画だけがさらに取り込まれるように、カメラ１０に対し、本画のアップロード要求(PULL要求)を行う。これにより、クラウドサーバ２０では、カメラ１０からの本画が取り込まれる(Ｓ１１２)。

　クラウドサーバ２０は、再度編集処理を行い(Ｓ１１３)、取り込んだ本画から最終的な制作動画(完成動画)を制作する。このようにして制作された制作動画は、ネットワーク４０を介して端末装置３０などに配信され(Ｓ１１４)、ユーザに提示される。

　ここで、図１０のフローチャートを参照して、図９のステップＳ１１３に対応した編集処理の詳細を説明する。

　編集処理では、テンプレート選択処理(Ｓ１３１)と、撮影画像選択処理(Ｓ１３２)と、自動編集処理(Ｓ１３３)と、手動編集処理(Ｓ１３４)と、音加工処理(Ｓ１３５)などの処理が行われる。

　テンプレート選択処理では、ユーザの操作に応じて、自動編集で用いられるテンプレートが選択される(Ｓ１３１)。テンプレートを利用することで、より少ない工程で、ユーザの意図を反映した制作動画を制作することが可能となる。テンプレートの詳細は、後述する。

　撮影画像選択処理では、取り込んだ撮影画像の中から、任意の撮影画像が選択(自動選択又は手動選択)される(Ｓ１３２)。例えば、撮影画像選択処理では、AI技術を用いて、同じシーンで撮影された撮影画像を認識し、同じであると認識された撮影画像をグルーピングする機能が提供される。つまり、一つのシーンに対し、複数の撮影画像が撮影される場合のセレクション機能を提供する。具体的には、取り込まれた複数の撮影画像からそれぞれ得られる画像情報と撮影時刻情報に基づき、似ている撮影画像をグルーピングすることができる。

　撮影画像のグルーピングにより得られるグループ情報を用い、例えば、同じグループからは、１カットを制作動画に使う撮影画像として選択して自動編集を行うことができ、ユーザによる手動編集の手間を削減することができる。

　このようなセレクション機能を提供することで、例えば、ユーザが良い撮影画像が撮影できるまで、同じあるいは近い被写体や構図などで繰り返して撮影したときに、同じシーンで撮影された撮影画像から、制作動画に用いる撮影画像を選択することができる。また、撮影画像の手動選択の補助として、シーンごとにグループ分けされた撮影画像を提示してもよい。これにより、ユーザは、該当する被写体や構図の撮影画像の中から、実際に制作動画に使いたい撮影画像を選択し易くなる。

　また、撮影画像選択処理では、次のような処理を行うことで、撮影画像の自動選択と選択補助を行うことができる。すなわち、撮影画像が動画である場合に、動画の撮影中に録音された音声に基づき、例えば「OK」という音声が含まれる動画クリップを優先的に抽出して選択することができる。また、ショットマークを利用して、撮影画像の自動選択又は手動選択の補助を行ってもよい。

　撮影画像の手動選択の補助として、例えば、図１１に示すように、撮影時にユーザ(撮影者)の操作に応じてショットマークが付与された撮影画像が識別可能になるようにビューワーを提示してもよい。例えば、ショットマークは、ユーザが広告に使用するとしてレコメンドした撮影画像に付与される。当該ビューワーは、端末装置３０に表示することができる。

　図１１では、同じグループにグルーピングされた撮影画像５１１－１乃至５１１－５のうち、撮影画像５１１－５にショットマーク５２１－１が付与されている。同様に、同じグループにグルーピングされた撮影画像５１２－１乃至５１２－４のうち、撮影画像５１２－４にショットマーク５２１－２が付与されている。また、同じグループにグルーピングされた撮影画像５１３－１乃至５１３－６のうち、撮影画像５１３－４，５１３－６にショットマーク５２１－３，５２１－４がそれぞれ付与されている。

　また、撮影画像の手動選択の補助として、カメラ１０の動きに関する情報(ジャイロメタ等)を用いて、ビューワー上にカメラワークを可視化してもよい。例えば、図１２に示すように、カメラ１０において、撮影時に検出した人の顔の部分に重畳される枠に関するパラメータ(顔枠パラメータ)を用い、撮影画像に含まれる顔の領域を切り出して、パンやズーム等のカメラワークを付与する画像処理を行うことができる。顔枠メタデータは、顔等の合焦している位置やサイズを含むメタデータである。

　図１２では、撮影画像５１４に含まれる顔の領域に顔枠５２２が重畳され、図中の矢印で示したカメラワーク情報５２３によって、例えば、カメラ１０がズームイン又はズームアウトしたことを示す情報や、左又は右に振られたことを示す情報などが表示される。

　撮影画像が動画である場合には、音(音声)が入っている位置に関する情報を可視化してもよい。例えば、動画の音を分析する分析処理を行い、編集画面に表示される動画のタイムライン上に、音のある期間を示すマークを表示することができる。あるいは、いわゆる音声自動文字起こし機能などを利用して、話者の台詞を基にした文字情報を表示してもよい。撮影画像に含まれる物体を認識する認識処理を行い、所望の物体が含まれる撮影画像を抽出して表示してもよい。例えば、撮影画像に対し、顔認識処理を施すことで、特定の人物(例えばＡさん)が写っている撮影画像を抽出することができる。

　自動編集処理では、撮影画像選択処理で選択された撮影画像を用いた自動編集が行われる(Ｓ１３３)。例えば、自動編集処理では、動画のインポイントとアウトポイントの自動選択を行う自動トリミングや、撮影画像(クリップ)の品質を向上させるための補正を行う自動品質補正などの処理が行われる。例えば、自動品質補正では、カメラ１０の動きに関する情報(ジャイロメタ等)を用いた手振れ除去加工処理を行い、撮影画像から手振れの影響を除去することができる。あるいは、フォーカスメタを用いた主要被写体認識によるパンやズーム等の加工処理を行ってもよい。

　撮影時において、HFR(High Frame Rate)で動画を撮影することで、撮影後の編集処理でスローモーション加工処理を行うことができる。当該加工処理では、AI技術や画像処理などを用いて画像フレームを補間しても構わない。撮影時に、撮影画像に付与されたショットマークを用いて、例えば主要なシーンの撮影画像(クリップ)を切り出す処理を行うことができる。

　あるいは、撮影時に撮影画像に付加されたメタデータや、AI技術を用いて、撮影画像に対して補正処理を行ってもよい。例えば、メタデータとしては、WB(White Balance)や明るさに関する情報を含めることができる。補正処理としては、複数の撮影画像間のWBや露出、LUT(Lookup Table)に関する補正を行うことができる。LUTは、色等を変換する際に用いられるテーブルである。

　撮影画像に対する編集処理で得られる編集情報に基づき、撮影画像の明るさや色合いを均一にするための処理を行ってもよい。すなわち、撮影画像は、撮影時の被写体や光の状況などで明るさや色合いが、それぞれで異なった状態となる。このような状態を回避するために、制作動画(完成動画)の制作に用いる撮影画像が決定した時点で、対象の撮影画像の明るさや色合いを均一に揃えるための補正処理が行われるようにする。

　これにより、ユーザが制作動画を視聴するときの違和感を軽減し、制作動画の完成度を向上させることができる。このような補正処理が自動で行われない場合に、編集の知識があるユーザであれば、これを手動で行うが、手間と時間がかかってしまう。当該補正処理により、編集の知識があるユーザは自動化により省力化することが可能となる一方で、編集の知識がないユーザであれば、今までできなかったことが可能となる。

　手動編集処理では、ユーザの操作に応じて、撮影画像選択処理で選択された撮影画像であって、自動編集で制作された制作動画に関する編集処理が行われる(Ｓ１３４)。ここでは、ユーザは、端末装置３０に表示された編集画面のUIに対する操作を行うことで、制作動画に対する編集処理を指示することができる。例えば、自動編集で制作された制作動画に対し、必要に応じて好みの動画や静止画に入れ替えたり、切り出し時間を変更したりするといった追加編集が行われる。なお、ユーザが、制作動画を編集する必要がないと判断した場合には、手動編集処理を行う必要はない。

　音加工処理では、制作動画の音の加工に関する処理が行われる(Ｓ１３５)。例えば、カメラ１０の音入力部１２２としてのカメラ内蔵マイクのデバイス特性情報を用いて、AI技術や音信号処理等による風音低減処理を行うことができる。これにより、動画の音として、風音などのノイズを除去して、人の発話音量を均一化することができる。

　風音は動画の視聴者にとっては耳障りであるが、撮影時に風音が録音されないように撮るためには、ウィンドジャマーのアクセサリを取り付ける必要があるなど、ユーザにとっては一手間必要である。また、撮影時に風音が録音されてしまうと手動で除去するには、イコライザを使うなど、専門的な編集が必要となる。音加工処理では、撮影画像の編集時に、動画から自動で風音などのノイズを除去するので、ユーザは何ら操作をすることなく、簡単にノイズを除去することができる。

　カメラ１０により動画を撮影するに際して、撮影場所によって人とマイクの距離が異なる場合や、同時に撮影している人でも人の位置によってマイクとの距離が変わり、発話の音量が変わる場合がある。このような場合において、音量を揃えるには、通常発話者別に、マイクで別チャンネルとしたり、別音声ファイルとして保存したりして、個別に音量調整するといった手間がかかる編集が必要となる。音加工処理では、複数ファイル間の発話音量の均一化、及び同一ファイルの同一音声チャンネル内でも複数発話者の音声を分離した上で、音量の均一化を自動で行うことができる。これにより、ユーザは簡単に音の聞きやすい動画を制作することができる。

　ステップＳ１３５の処理が終了すると、処理は、図９のステップＳ１１３に戻り、それ以降の処理が実行される。

　なお、図１０のフローチャートで説明した編集処理は一例であり、他の処理が実行されても構わない。例えば、像面位相差画素情報メタを用い、撮影後にフォーカス位置を変更する処理を行ってもよい。また、センサ部１２１として、測距センサが設けられる場合、測距センサで得られるデプス情報を用いたXR(Extended Reality)に関する処理が行われてもよい。

　カメラ１０で撮影画像を撮影する際にフォーカスを合わせた座標情報を示すメタデータと、クラウドサーバ２０による撮影画像内の物体名や人物名などの認識処理とを組み合わせてもよい。これにより、撮影時にフォーカスを合わせた物体や人の名称を文字情報にすることができ、撮影画像の手動選択の補助データとして表示することができる。

　撮影画像が動画である場合に、動画内の音が入っている位置について、カメラ１０の本体で録音された動画内音と、ICレコーダやPCMレコーダ等のレコーダで別に録音された別撮り音とを、音声認識処理により認識した上で、同じ文言を発している時刻を基準に、音(音声)の同期をとるようにしてもよい。

　クリエイタが手動で調整したWBや露出等を機械学習により学習して、学習済みモデル(例えばDNN(Deep Neural Network))を生成することで、それ以降の制作では、当該学習済みモデルを用いて、撮影画像に対するWBや露出等の補正(自動品質補正)を行うことができる。さらに、当該学習済みモデルを用いて複数人が作業をしたり、業務を引き継いだりしても、継続的に同じWBや同じ露出等の補正を行うことができる。このように、クリエイタの作成データを学習データとして用いて学習した学習済みモデルを、各ユーザが利用することができる。

　動画制作システム１では、動画編集を実現する一連のユーザ操作をシステムとして提供している。動画編集は一般に、適した撮影画像の選定や複数の編集操作を組み合わせて行う必要があり、ユーザにとっては編集技術を習得する難易度が高い。動画制作システム１では、例えば、下記の手順（ａ）乃至（ｅ）を踏むことで、動画編集の知識がない、あるいは知識の少ないユーザでも、容易に動画編集を行って所望の制作動画を制作することができるようにしている。

（ａ）動画の雰囲気を決める音楽、フォント、色合いなどの情報のテンプレートと制作動画(完成動画)の時間的な長さを決める。
（ｂ）動画、静止画、音(音声)、LUTファイルをアップロードする。
（ｃ）編集画面等の画面の自動作成ボタンを押下する。
（ｄ）必要に応じて好みの動画や静止画に入れ替える、切り出し時間を変更するといった手動編集を行う。
（ｅ）入れ替えた動画や静止画に応じて、必要に応じて再度、明るさや色合いの補正を行い、加えて手振れ補正、風音低減、発話音量の均一化などの補正処理も合わせて実行し、制作動画(完成動画)を制作する。

＜機能的な構成例＞
　図１３は、動画制作システム１における処理部２００の機能的な構成例を示すブロック図である。例えば、処理部２００は、クラウドサーバ２０のCPU２１１やGPU等のプロセッサによって、動画制作プログラム等のプログラムが実行されることで実現される。あるいは、処理部２００を専用の回路として実現してもよい。

　図１３において、処理部２００では、撮影画像を用いた選択や編集等の処理が行われ、制作動画が制作される。処理部２００は、撮影画像取得部２５１、メタデータ抽出部２５２、操作情報取得部２５３、撮影画像選択部２５４、及び編集部２５５を有する。

　撮影画像取得部２５１は、カメラ１０又は端末装置３０からネットワーク４０を介してアップロードされた撮影画像を取得し、メタデータ抽出部２５２に供給する。

　メタデータ抽出部２５２は、撮影画像取得部２５１から供給される撮影画像に付加されたメタデータを抽出し、撮影画像とともに撮影画像選択部２５４に供給する。メタデータ抽出部２５２において、メタデータが付加されていない撮影画像が供給された場合には、そのまま撮影画像選択部２５４に供給される。

　操作情報取得部２５３は、端末装置３０からネットワーク４０を介して送信されてくる設定画面や編集画面等の画面の操作に関する操作情報を取得し、撮影画像選択部２５４又は編集部２５５に供給する。

　撮影画像選択部２５４には、メタデータ抽出部２５２からのメタデータ及び撮影画像と、操作情報取得部２５３からの操作情報が供給される。撮影画像選択部２５４は、操作情報及びメタデータに基づいて、撮影画像の中から、制作動画の制作に用いる撮影画像を選択し、選択した撮影画像を編集部２５５に供給する。

　例えば、操作情報は、設定画面で設定される制作動画の時間的な長さを示す情報を含む。メタデータは、撮影時にカメラ１０で、撮影画像に付加されたカメラメタデータを含む。より具体的には、メタデータは、ユーザの操作に応じて、撮影画像に付与されるショットマークを含む。詳細は後述するが、撮影画像選択部２５４は、制作動画の時間的な長さ、及びショットマークに基づいて、制作動画の制作に用いる撮影画像を選択することができる。

　編集部２５５は、撮影画像選択部２５４から供給される選択済みの撮影画像を用いて、自動トリミングや自動品質補正等の処理を含む自動編集処理を行うことで、制作動画を制作する。詳細は後述するが、自動品質補正では、明るさ補正や色合い補正等の補正処理を行うことができる。また、編集部２５５は、操作情報取得部２５３から操作情報として、編集画面で設定される編集情報が供給された場合、編集情報を用いた自動編集処理を行うことができる。例えば、制作された制作動画は、ネットワーク４０を介して端末装置３０に配信されるか、あるいはネットワーク４０上で共有される。

＜設定画面の第１の例＞
　図１４は、撮影前に用いられる設定画面の第１の例を示す図である。例えば、設定画面は、端末装置３０の表示部３３１に表示される。

　図１４において、設定画面６１１では、クラウドサーバ２０が制作動画を制作する際の制作条件６１１Ａとして、アスペクト比、時間的な長さ(目安時間)、及びクリップ数(撮影画像の数)を設定することができる。設定画面６１１により設定されたアスペクト比、時間的な長さ、及びクリップ数に基づき、制作動画に関する絵コンテ(のフレーム)が生成される。

　次ボタン６１１Ｂが押下された場合、設定画面６１１から設定画面６１２に、画面が遷移する。図１４において、設定画面６１２では、テンプレートに関する設定が行われる。例えば、絵コンテに応じたテンプレートの編集を行うことができる。

　設定画面６１２には、サンプル動画を再生する再生領域６１２Ａと、制作動画内で用いる音楽や、制作動画の明るさや色などを設定する設定領域６１２Ｂと、テンプレートを切り換える際に操作される切換ボタン６１２Ｃと、テンプレートを保存する際に操作される保存ボタン６１２Ｄとが表示される。

　切換ボタン６１２Ｃが押下された場合、設定画面６１２から選択画面６１３に、画面が遷移する。選択画面６１３では、既存のテンプレート群６１３Ａの中から所望のテンプレートを選択し、OKボタン６１３Ｂを押下することで、使用するテンプレートを切り換えることができる。保存ボタン６１２Ｄが押下された場合、設定画面６１２に表示されているテンプレートの内容が保存される。

　設定画面６１２にはまた、撮影画像(クリップ)ごとに文字挿入尺等を設定する設定領域６１２Ｅと、撮影画像間(クリップ間)の切り換え効果を示す切換情報６１２Ｆと、テンプレートを適用したときの内容を確認する際に操作されるプレビューボタン６１２Ｇと、テンプレートを決定する際に操作されるOKボタン６１２Ｈが表示される。

　OKボタン６１２Ｈが押下された場合、設定画面６１２に表示されたテンプレートの内容が設定され、動画制作時に用いられる。ユーザは、このような設定操作を行った後に、カメラ１０により撮影を開始することで、当該撮影で得られた撮影画像に対しテンプレートに応じた処理が行われ、制作動画が制作される。このように、ユーザがテンプレートを事前に設定しておくだけで、撮影画像と動画制作とが紐付くため、動画制作の作業を容易にすることができる。

　また、動画制作では、自動セレクションや自動トリミング、自動品質補正などの自動編集が行われた後に、適宜、ユーザの操作に応じた手動編集を行うことができる。手動編集に際しては、例えば、図１５に示した編集画面を用いることができる。例えば、編集画面は、端末装置３０の表示部３３１に表示される。

＜編集画面の第１の例＞
　図１５の編集画面６１５においては、図１４の設定画面６１１，６１２により事前に設定されたテンプレートの内容に応じて、設定後に撮影された撮影画像に対して自動編集を施すことで得られた制作動画に関する各種情報が表示される。編集画面６１５に表示された各種情報は、ユーザの操作に応じて手動編集することができる。

　例えば、編集画面６１５において、第１領域６１５Ａには、テンプレート設定時の絵コンテに対して選択された撮影画像(クリップ)が表示される。対象の撮影画像にショットマークが付与されている場合には、ショットマークを示す情報が重畳されてもよい。第１領域６１５Ａに表示される撮影画像(クリップ)は、手振れや音加工などの補正処理を適用済みである。また、第２領域６１５Ｂに時系列で表示される撮影画像(クリップ)には、明るさや色が揃うように補正処理を適用済みである。

　このように、事前にテンプレートを設定しておくことで、テンプレートの内容を適用した制作動画を制作することができる。あるいは、図１６に示すような設定画面を用いて、制作動画の目安時間やテンプレートが設定されてもよい。

＜設定画面の第２の例＞
　図１６は、動画制作時に用いられる設定画面の第２の例を示す図である。図１６の設定画面の説明では、図１７乃至図１９のテーブルを適宜参照しながら説明する。

　図１６において、設定画面６２１は、プロジェクトのタイトル等を指定するタイトル等指定部６２１Ａと、制作動画のアスペクト比を指定するアスペクト比指定部６２１Ｂと、制作動画の時間を指定する目安時間指定部６２１Ｃとを含む。設定画面６２１はまた、所望のテンプレートを選択するテンプレート選択部６２１Ｄと、選択されたテンプレートを表示するテンプレート表示部６２１Ｅと、プロジェクトの作成を指示する作成ボタン６２１Ｆを含む。

　タイトル等指定部６２１Ａには、ユーザの操作に応じて、制作動画やプロジェクトのタイトルと、制作動画やプロジェクトに関するメモなどが入力される。

　アスペクト比指定部６２１Ｂには、ユーザの操作に応じて、制作動画のアスペクト比が指定される。例えば、図１７に示すように、16：9を初期値として、1：1や9：16などのアスペクト比を選択可能である。近年、動画を視聴する機器としてテレビ受像機の他に、スマートフォンやタブレット端末などが用いられていることや、SNS(Social Networking Service)やWebサイトのUIの一部として動画が表示されて視聴することが増えている。そのため、ユーザにより自身が配布したい環境などに応じて、制作動画のアスペクト比を変更できるようにしている。

　なお、詳細は後述するが、設定画面６２１のアスペクト比指定部６２１Ｂにより設定した制作動画のアスペクト比を、後から変更することも可能である。アスペクト比が合わない動画に対しては、画角を切り出して一部を見せるようにするか、あるいは黒帯の領域を重畳して全体を見せるようにするかの設定を行うこともできる。

　目安時間指定部６２１Ｃには、ユーザの操作に応じて、制作動画の時間的な長さを何秒程度にするかが指定される。例えば、図１８に示すように、60秒を初期値として、6秒、15秒、30秒、90秒などの目安時間を選択可能である。目安時間を設定しなくても構わない。

　テンプレート選択部６２１Ｄには、１又は複数のテンプレートに関する情報が表示され、ラジオボタン等により１つのテンプレートを選択可能である。ユーザは、テンプレート選択部６２１Ｄに表示されたテンプレートの中から、所望のテンプレートを１つ選択するだけで、簡単に動画の雰囲気を好みのものに変えることができる。

　例えば、図１９に示すように、「テンプレートなし」を初期値として、テンプレート１乃至８のいずれかを選択可能であり、設定可能なテンプレートごとに、名称やその他の設定情報が登録済みである。例えば、テンプレートごとに、動画の各カット時間、色合い、カット切り替えのトランジション、BGM、字幕重畳時の位置や文字の大きさ、フォントなどの情報が登録されている。

　テンプレート表示部６２１Ｅには、テンプレート選択部６２１Ｄで選択されたテンプレートがプレビュー再生される。ユーザに対し、指定されたテンプレートを動画に適用したときの完成サンプル動画を視聴させることで、制作動画(完成動画)のイメージが直感的に認識できるようにしている。

　なお、テンプレート等の設定情報を編集作業後に変更することも可能であるが、例えばカットの時間など、ユーザの編集作業を優先する箇所については、編集できないようにするなど、編集可能な箇所を振り分けることができる。

　作成ボタン６２１Ｆは、プロジェクトのエントリを指示するボタンである。作成ボタン６２１Ｆがユーザにより押下された場合、設定内容に応じた制作動画を制作するためのプロジェクトが登録される。閉じるボタン６２１Ｇが押下された場合、設定画面６２１が閉じられ、呼び出し元の画面が表示される。

＜編集画面の第２の例＞
　図２０は、動画編集時に用いられる編集画面の第２の例を示す図である。

　編集画面７１１は、ユーザの操作を受け付ける第１領域７１１Ａと、動画のプレビュー再生を行う第２領域７１１Ｂと、編集に関する設定を行う第３領域７１１Ｃと、タイムライン編集やトランジション設定を行う第４領域７１１Ｄとを含む。編集画面７１１はまた、対象の撮影画像に対する編集操作を行う第５領域７１１Ｅ，第６領域７１１Ｆと、アップロード済みの撮影画像等の一覧を表示する第７領域７１１Ｇとを含む。

　第１領域７１１Ａは、制作動画の制作や補正、書き出しなどの実行を指示するためのユーザ操作を受け付けるボタン等が配置される領域である。例えば、制作動画に用いる撮影画像の入れ替えにより、再度明るさや色合い、発話音の音量差などを揃えたい場合、ユーザの操作により自動作成ボタンが押下されることで、それらの機能が実行される。なお、自動作成ボタンが押下されたタイミングではなく、ユーザによる操作が行われたとき、瞬間に当該操作に応じた機能が実行されてもよい。制作動画を出力したい場合には、書き出しボタンが押下される。

　第２領域７１１Ｂは、第４領域７１１Ｄで行われるタイムライン編集のプレビュー再生が行われる領域である。第３領域７１１Ｃは、制作動画全体の編集設定などを行う領域である。例えば、第３領域７１１Ｃでは、制作動画全体の明るさや色合いを変えたり、BGMを変更したりすることができる。また、第３領域７１１Ｃでは、制作動画のアスペクト比や、制作動画の時間的な長さ(目安時間)を変更することができる。

　第４領域７１１Ｄは、タイムライン編集のカット入れ替えや、トランジション設定などを行う領域である。例えば、自動作成ボタンを押下して自動編集を実行した後でも、ユーザは、第４領域７１１Ｄを使って、タイムラインに入れる撮影画像の追加や削除などを行ったり、順番を入れ替えたり、切り替えのトランジションエフェクトを変えたりすることができる。

　第５領域７１１Ｅと第６領域７１１Ｆは、対象の撮影画像に対する編集操作を行うための領域である。第６領域７１１Ｆでは、撮影画像が動画である場合には、その１つの動画から切り出す時間の開始終了時間を変更したり、撮影画像が静止画である場合には、その１つの静止画を表示する時間の長さを変更したりすることができる。

　第７領域７１１Ｇは、プロジェクトにアップロードした撮影画像、又は登録した撮影画像の一覧が表示される領域である。ユーザは、ファイル管理画面を用いて、プロジェクトに対し、動画や静止画等の撮影画像や、音(音声)などのファイルを登録することができる。

　図２１と図２２は、ファイル管理画面の例を示す図である。図２１のファイル管理画面７２１の選択領域７２１Ａでは、動画や静止画等の撮影画像ごとにサムネイル画像が表示されている。図２２のファイル管理画面７２２の選択領域７２２Ａでは、動画や静止画等の撮影画像の一覧が表示されている。

　このようなサムネイル表示とリスト表示とは、切替ボタン７２１Ｂ又は切替ボタン７２２Ｂを操作することで切り替えることができる。ユーザは、ファイル管理画面７２１又はファイル管理画面７２２を用いて、所望の撮影画像を選択し、追加ボタン７２１Ｃ又は追加ボタン７２２Ｃを押下することで、所望のプロジェクトに登録することができる。

　図２３は、プロジェクト登録画面の例を示す図である。ユーザは、プロジェクト登録画面７３１に表示されたプロジェクト一覧７３１Ａの中から所望のプロジェクトを選択し、OKボタン７３１Ｃを押下することで、所望の撮影画像を所望のプロジェクトに登録することができる。なお、プロジェクトへの登録をやめる場合には、キャンセルボタン７３１Ｂを押下すればよい。

　例えば、撮影画像がクラウドサーバ２０にアップロードされたときに、同時にプロジェクトに登録することができる。このとき、プロジェクト登録画面７３１を用いて、撮影画像をプロジェクトに登録してもよい。あるいは、事前にアップロード済みの撮影画像を、プロジェクト登録画面７３１を用いてプロジェクトに登録してもよい。

　プロジェクトに登録された撮影画像は、編集画面７１１における第７領域７１１Ｇの一覧に表示される。第７領域７１１Ｇでは、プロジェクトに登録された撮影画像が動画である場合、例えば動画内の0秒目、5秒目、10秒目のように一定間隔で時間をあけたときの時刻に対応した画像フレームが表示される。これにより、ユーザは、プロジェクトに登録済みの動画の全体像を認識することができる。音ファイルの登録に関する画面は例示しないが、図２１と図２２に示した撮影画像用のファイル管理画面とは別に、音ファイルを選択可能なUIが提供され、リスト表示された音ファイルを選択してプロジェクトに登録することができる。

　ユーザは、動画、静止画、又は音(音声)のファイルをアップロードした場合、その後、第１領域７１１Ａの自動作成ボタンを押下することで、制作動画の制作を実行することができる。ところで、カメラ１０による撮影時において、ユーザは、ある被写体を撮影したときに、１回ではよく撮ることができず、２回、３回と繰り返し撮影することは一般的によくある。

　そこで、第１領域７１１Ａの自動作成ボタンが押下されたときの処理として、撮影画像の特徴量を、AI技術を用いて抽出し、さらに撮影画像を撮影した時刻情報を加味することで、特徴が近く、かつ、撮影した時刻が近い撮影画像をグループ化する処理が行われるようにする。このようにしてグループ化された撮影画像は、第７領域７１１Ｇに表示することができる。

　図２４は、自動作成ボタンが押下されたときの第７領域７１１Ｇの表示例を示す図である。図２４では、グループをシーンと表現しており、Scene1の撮影画像群(動画群)に続いて、Scene2，Scene3，・・・と、シーンごとの撮影画像群が表示される。

　動画制作の実行前の撮影画像は未分類となるが、自動作成ボタンが押下されて制作動画の制作を実行すると、基本的な使用方法では、全てScene1から始まるどこかのシーンに分類される。つまり、制作動画の制作の実行後にアップロードした撮影画像は、まずは未分類となり、再度動画制作を実行したときにシーン分類が行われることになる。

　なお、撮影画像が動画である場合に、動画の開始や最後の部分に付加される企業ロゴのようなものについては、個別に自動分類しない機能を、ユーザの設定などにより入れても構わない。

　制作動画の制作では、自動作成ボタンが押下された後に、シーン分類の機能だけでなく、例えば、実際に制作動画(完成動画)として、どの撮影画像を用いるべきかを編集(自動編集)する機能を有している。その編集結果は、編集画面７１１における第４領域７１１Ｄに表示される。

　ユーザは、第４領域７１１Ｄに表示された編集結果を参照して、例えば、好みの動画や静止画に変更したり、表示時間やトランジションを変更したり、字幕や静止画を重畳したり、BGMを変更したり、明るさや色合いを変更したりといった動画編集作業(手動編集)を行うことができる。ここで、第４領域７１１Ｄに表示される、全体の流れを時系列で管理するものをタイムラインと呼ぶ。タイムライン内の動画や静止画、その表示時間、トランジションなどの判定方法は、図２６のフローチャートを参照して後述する。

＜設定画面の第３の例＞
　図２５は、動画出力時に用いられる設定画面の第３の例を示す図である。

　図２０の編集画面７１１における第１領域７１１Ａの書き出しボタンが押下されると、最終的に制作動画(完成動画)を制作する処理が実行される。このとき、図２５の設定画面８１１を利用して、アスペクト比やフレームレート等の出力設定を変更することができる。

　図２５において、設定画面８１１は、出力する制作動画のファイル名を指定する出力ファイル名指定部８１１Ａと、制作動画のアスペクト比を指定するアスペクト比指定部８１１Ｂと、制作動画のフレームレートを設定するフレームレート指定部８１１Ｃとを含む。設定画面８１１にはまた、制作動画のフォーマットを設定するフォーマット指定部８１１Ｄと、制作動画の解像度を設定する解像度指定部８１１Ｅを含む。

　設定画面８１１では、出力ファイル名指定部８１１Ａ乃至解像度指定部８１１Ｅが操作されることで、16：9であるアスペクト比や、30pであるフレームレート、MP4であるフォーマット、1920×1080である解像度など、制作動画の出力設定を変更することができる。

　動画表示部８１１Ｆでは、最終的な制作動画(完成動画)がプレビュー再生される。再生操作部８１１Ｇは、シークバーなどから構成され、動画表示部８１１Ｆでプレビュー再生される制作動画(完成動画)の再生位置などを操作することができる。

　キャンセルボタン８１１Ｈは、制作動画(完成動画)の制作のキャンセルを指示するボタンである。出力開始ボタン８１１Ｉは、制作動画(完成動画)の制作の実行を指示するボタンである。

＜撮影画像選択・自動編集処理の流れ＞
　次に、図２６のフローチャートを参照して、撮影画像選択処理と自動編集処理の流れを説明する。

　ステップＳ２１１において、撮影画像取得部２５１は、カメラ１０又は端末装置３０などの機器からネットワーク４０を介してアップロードされた撮影画像を取得する。

　ステップＳ２１２において、処理部２００は、機械学習により学習された学習済みモデル(例えばDNN)を用い、取得した撮影画像の特徴量を抽出する。例えば、撮影画像の特徴量としては、特徴ベクトルを抽出することができる。

　ここでは、撮影画像として動画がアップロードされた場合には必ず特徴量を抽出するが、静止画がアップロードされた場合の特徴量の抽出は任意にするなど、その運用や設定等に応じて特徴量の抽出の有無を変更することができる。撮影画像の特徴量は、撮影画像と同じコンテンツID(content_id)の特徴グルーピング(feature_grouping)として保持することができる。

　ステップＳ２１３において、処理部２００は、操作情報取得部２５３により取得された操作情報に基づいて、ユーザの操作によって、図２０の編集画面７１１における第１領域７１１Ａの自動作成ボタンが押下されたかどうかを判定する。ステップＳ２１３において、自動作成ボタンが押下されたと判定された場合、処理はステップＳ２１４に進められる。

　ステップＳ２１４において、処理部２００は、自動セレクションを行うかどうかを判定する。ステップＳ２１４において、自動セレクションを行うと判定された場合、処理はステップＳ２１５に進められる。

　ステップＳ２１５において、撮影画像選択部２５４は、抽出した撮影画像の特徴量と撮影時刻に基づいて、撮影画像をグルーピングする。ステップＳ２１６において、撮影画像選択部２５４は、グループ情報に基づいて、編集画面７１１の第４領域７１１Ｄに表示されるタイムラインに使用する撮影画像を自動判定する。この自動判定では、撮影画像に付与されたショットマークを用いることができる。

　ステップＳ２１６の処理が終了すると、処理はステップＳ２１７に進められる。また、ステップＳ２１４において、自動セレクションを行わないと判定された場合、ステップＳ２１５，Ｓ２１６はスキップされ、処理はステップＳ２１７に進められる。

　ステップＳ２１７において、処理部２００は、自動明るさ補正を行うかどうかを判定する。ステップＳ２１７において、自動明るさ補正を行うと判定された場合、処理はステップＳ２１８に進められる。

　ステップＳ２１８において、編集部２５５は、編集画面７１１の第４領域７１１Ｄに表示されるタイムラインの１つ目の撮影画像を明るさの基準にして、タイムラインの２つ目以降の撮影画像の明るさを、１つ目の撮影画像を明るさと同程度になるように補正する。ここに示した明るさ補正の手法は一例であり、他の明るさ補正の手法を適用しても構わない。

　ステップＳ２１８の処理が終了すると、処理はステップＳ２１９に進められる。また、ステップＳ２１７において、自動明るさ補正を行わないと判定された場合、ステップＳ２１８はスキップされ、処理はステップＳ２１９に進められる。

　ステップＳ２１９において、処理部２００は、ステップＳ２１４乃至Ｓ２１８の処理結果を、編集画面７１１に表示する。例えば、自動セレクションが行われた場合(Ｓ２１４の「Yes」，Ｓ２１５，Ｓ２１６)、処理結果として、グループ情報とタイムライン情報が、編集画面７１１の第４領域７１１Ｄに表示される。また、自動明るさ補正が行われた場合(Ｓ２１７の「Yes」，Ｓ２１８)、処理結果として、明るさ補正結果が、編集画面７１１の第４領域７１１Ｄに表示される。

　ステップＳ２１９の処理が終了すると、一連の処理は終了する。

　図２６のステップＳ２１５，Ｓ２１６では、自動セレクションが行われるが、例えば、次のような処理が行われてもよい。すなわち、まず、撮影画像のグルーピングを実行する際に、１カット目の時間と２カット目の時間、制作動画の完全パッケージの時間が設定されている場合、下記の式(１)から式(２)、式(２)から式(３)が導かれるので、式(３)から得られるグループ数に応じたグルーピングを要求することで、撮影画像のグルーピングを行うことができる。完全パッケージの時間は、図１４の設定画面６１１又は図１６の設定画面６２１等の設定画面により、制作動画の時間的な長さとして設定可能である。例えば、図１６の設定画面６２１では、目安時間指定部６２１Ｃにより設定可能である。

　１カット目の時間＋２カット目の時間 × (グループ数－１) ＝完全パッケージの時間・・・（１）

　グループ数－ 1 ＝ (完全パッケージの時間－１カット目の時間)／２カット目の時間・・・（２）

　グループ数＝ 1 ＋ (完全パッケージの時間－１カット目の時間)／２カット目の時間・・・（３）

　このようなグルーピングが行われた後に、各グループから撮影画像が選択される。例えば、図２７に示すように、グループ１乃至５の各グループから、１つずつ撮影画像を選択することができる。なお、各グループから選択される撮影画像は、１つに限らず、時間調整に応じて各グループから複数選択してもよいし、グループごとに異なってもよい。

　各グループから抽出する撮影画像を１つとした場合、まず、同一グループ内でショットマークが付与された撮影画像を選択する。例えば、ショットマークが付与された動画が、そのグループに１以上ある場合は、その動画の中で日時が新しい動画から順に選択する。ショットマークが付与された撮影画像がない場合には、撮影日時が新しい撮影画像を選択する。

　選択された撮影画像のうち、ショットマークが付与された動画の場合には、ショットマークの時刻を中心に3秒、4秒などの目標の時間になるように切り出し時間を選択する。その結果として、動画の開始時刻がマイナスになったり、終了時刻が記録時間を超えてしまったりする場合には、開始時刻が0秒、終了時刻が3秒や開始時刻が記録時間の3秒前、終了時刻が記録時間と一致するように時間を調整する。

　カットの目標時間が3秒だが、動画の時間が2秒だった場合には、2秒全尺が使われるようにする。これにともない、トータルの目標時間が変化しても、ユーザが気にすることはない。仮に、0.1秒の動画であった場合でも、とりあえずは0.1秒の動画が使われるようにする。ショットマークは、複数種類あり、それぞれが複数付与される場合も想定されるが、その場合には最も遅い時刻に付与されたショットマークを用いることができる。

　また、選択された撮影画像のうち、ショットマークが付与されていない動画は、当該動画の真ん中の時間を中心に切り出すことができる。例えば、5秒の動画であれば2.5秒、8秒の動画だったら4秒の部分を中心にカットを切り出すことができる。静止画の場合には、時間の概念がないので、カットに合わせて3秒間表示を継続するなどを決めることができる。

　このように、設定画面６１１又は設定画面６２１等の設定画面により設定される制作動画の時間的な長さ(完全パッケージの時間)、及び撮影画像に付加されたメタデータ(ショットマーク)に基づき、アップロードされた撮影画像の中から、制作動画に用いる撮影画像を選択することができる。

　ここでは、制作動画の時間的な長さ(完全パッケージの時間)に基づき、撮影画像がグルーピングされ、メタデータ(ショットマーク)に基づき、グルーピングされた撮影画像の中から、制作動画に用いる撮影画像が選択されている。また、この例では、メタデータとして、ショットマークが用いられる場合を例示したが、他のパラメータ(例えばカメラパラメータ)を用いても構わない。

　ここで、例えば、動画のカットが4秒で、カット間を繋ぐためのトランジションが1秒の場合を想定すれば、図２８のＡに示すように、0～1秒がトランジション期間で、1～3秒が通常表示期間で、3～4秒もトランジション期間となる。図２８のＢに示すように、4秒の動画のカットに対し、1秒であるトランジション秒数分だけ足すといったことは行われない。

　また、図２６のステップＳ２１８では、自動品質補正として明るさ補正が行われるが、例えば、次のような処理が行われてもよい。すなわち、自動セレクションが要求されている場合、自動セレクションのときに選択された撮影画像を、明るさ補正の推奨値取得対象とすることができる。

　撮影画像が動画である場合には、どの時刻の画像フレームを用いるかの指定が必要となるが、ショットマークが付与された動画であるとき、ショットマークの時刻のうち最も遅い時刻の画像フレームを用いることができる。また、ショットマークが付与されていない動画であるときには、動画の時刻の真ん中の画像フレーム(例えば4秒の動画なら2秒の画像フレーム)を用いることができる。撮影画像が静止画である場合には、いわば１枚の画像フレームであるため、時刻を指定する必要はない。

　一方で、自動セレクションが要求されていない場合に、撮影画像が動画であるときには、例えば、設定画面等のUIで設定された動画の切り出しの開始時刻と終了時刻との中間の時刻の画像フレームを用いることができる。撮影画像が静止画である場合には、時刻を指定する必要はない。

　なお、図２６のステップＳ２１８では、撮影画像の補正処理として、明るさ補正を例示したが、色合い補正などの他の補正処理を行ってもよい。さらに、風音などのノイズを低減する処理や、各動画内の発話の音量を均一化する処理を追加してもよい。あるいは、手振れ補正などを追加してもよい。例えば、設定画面等により、手振れ補正がオンに設定されている場合には、全ての動画に対して手振れ補正が行われるようにする。

　図２６のステップＳ２１１では、撮影画像ファイルのアップロード方法として、上述したように、ユーザが端末装置３０でWebブラウザのUIからボタン押下やドラッグアンドドロップなどの操作を行うことで、ネットワーク４０を介してクラウドサーバ２０にファイルをアップロードする方式を用いることができる。

　あるいは、カメラ１０で撮影した撮影画像が、ネットワーク４０を介してクラウドサーバ２０に自動でアップロードされる方式を用いてもよい。端末装置３０において、Webブラウザにカメラ１０内の撮影画像の一覧を表示して、ユーザが所望の撮影画像を選択できるようにしてもよい。

　このとき、カメラ１０がプロキシ記録、つまり、本画(高解像度の撮影画像)とプロキシ画(低解像度の撮影画像)を同時に記録する機能を使っているとき、プロキシ画を先にクラウドサーバ２０にアップロードして自動編集を実行し、実際に制作動画(完成動画)を作るときまでに、本画をクラウドサーバ２０にアップロードすることができる。これにより、通信にかかる時間を削減することができる。

　以上のように、本開示では、ユーザにとって満足度の高い動画制作サービスを提供することができる。特に、動画編集を習熟していないユーザは、動画編集機能を使いこなすことができず、満足する動画を作ることができないという問題があったが、本開示では、編集に必要なユーザの操作の流れや、編集に必要な機能要素を指定することで手順に従うだけで容易に目的の動画を制作することが可能となる。

　また、ユーザは、撮影技術や専用機材がなくても、カメラメタデータを活用した自動補正により高品質な映像制作を実現することができる。さらに、広告等の動画の構成を、テンプレートを用いて簡単に作成、又はカメラメタデータを活用したテンプレートに挿入することができる。セレクション機能によって、クリップの仕分けとシーン選択のサポートを実現することができる。ユーザは、所望の被写体を撮影するだけで、撮影終了時には、広告等の制作動画を自動で制作することができる。

＜変形例＞
　上述した編集処理で行われる処理は一例であり、例えば、アンドゥ／リドゥの機能や、スローや高速化などの速度変更といった基本的な編集機能が追加されてもよい。アンドゥ(undo)は、直前の処理内容を取り消しで、処理する前の状態に戻すことを意味する。リドゥ(redo)は、アンドゥで取り消した処理を逆に元の状態にやり直すことを意味する。また、動画の自動セレクションとタイムラインの作成時に、例えば、パン、チルト、ズームのようなエフェクトが追加されてもよい。また、音声の発話を自動で文字に起こす機能が追加されてもよい。

　上述した説明では、動画制作システム１において、クラウドサーバ２０の処理部２００が編集処理等の処理を実行するとして説明したが、クラウドサーバ２０以外の機器で処理が実行されても構わない。例えば、端末装置３０の処理部が、処理部２００に対応した機能を有することで、編集処理等の処理の全部又は一部を実行してもよい。

　また、上述した説明では、クラウドサーバ２０からの画面(設定画面や編集画面等)がWebページであって、ネットワーク４０を介して端末装置３０に提供され、それらの画面がWebブラウザのUIとして表示される場合を例示したが、端末側のUIはそれに限定されるものではない。例えば、端末装置３０では、専用のソフトウェア(いわゆるネイティブアプリを含む)をインストールして実行することで、設定画面や編集画面等の端末側のUIに関する機能が実現されても構わない。

　上述したフローチャートの各ステップの処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、各装置のコンピュータにインストールされる。

　コンピュータが実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体に記録して提供することができる。また、プログラムは、LAN、インターネット、デジタル衛星放送といった、有線又は無線の伝送媒体を介して提供することができる。

　コンピュータでは、プログラムは、リムーバブル記録媒体をドライブに装着することにより、入出力I/Fを介して、記憶部にインストールすることができる。また、プログラムは、有線又は無線の伝送媒体を介して、通信部で受信し、記憶部にインストールすることができる。その他、プログラムは、ROMや記憶部に、あらかじめインストールしておくことができる。

　ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理(例えば並列処理あるいはオブジェクトによる処理)も含む。

　また、プログラムは、１のコンピュータ(プロセッサ)により処理されるものであってもよいし、複数のコンピュータによって分散処理されるものであってもよい。さらに、プログラムは、遠方のコンピュータに転送されて実行されてもよい。

　本開示の実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。

　本明細書において、「自動」と記載した場合、クラウドサーバ２０等の機器が、ユーザの直接的な操作を介さずに処理を行うことを意味し、「手動」と記載した場合、ユーザの直接的な操作を介して処理を行うことを意味する。また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。

　本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

　また、本開示は、以下のような構成をとることができる。

（１）
　メタデータが付加された撮影画像を取得し、
　設定画面で設定された制作する動画の時間的な長さ、及び前記メタデータに基づいて、取得した前記撮影画像の中から、前記動画の制作に用いる撮影画像を選択し、
　選択した前記撮影画像を用いて、前記動画を制作する
　処理部を備える
　画像処理装置。
（２）
　前記メタデータは、前記撮影画像を撮影したカメラで付加されたカメラメタデータを含む
　前記（１）に記載の画像処理装置。
（３）
　前記メタデータは、ユーザの操作に応じて前記撮影画像に付与されるショットマークを含む
　前記（２）に記載の画像処理装置。
（４）
　前記処理部は、
　　前記動画の時間的な長さに基づいて、取得した前記撮影画像をグルーピングし、
　　前記ショットマークに基づいて、グルーピングされた前記撮影画像の中から、前記動画の制作に用いる撮影画像を選択する
　前記（３）に記載の画像処理装置。
（５）
　前記動画の時間的な長さは、前記動画の制作の前に、ユーザの操作に応じて、前記設定画面により設定される
　前記（１）乃至（４）のいずれかに記載の画像処理装置。
（６）
　前記動画の時間的な長さは、前記撮影画像の撮影の前に、ユーザの操作に応じて、前記設定画面により設定される
　前記（１）乃至（４）のいずれかに記載の画像処理装置。
（７）
　前記動画の時間的な長さは、前記動画を編集する編集画面により変更可能である
　前記（１）乃至（６）のいずれかに記載の画像処理装置。
（８）
　前記設定画面により前記動画の制作で用いられる前記撮影画像の数がさらに設定され、
　前記処理部は、設定された前記動画の時間的な長さ及び前記撮影画像の数、並びに前記メタデータに基づいて、前記撮影画像を選択する
　前記（１）乃至（７）のいずれかに記載の画像処理装置。
（９）
　前記設定画面によりアスペクト比がさらに設定され、
　前記処理部は、設定された前記アスペクト比に応じた前記動画を制作する
　前記（１）乃至（８）のいずれかに記載の画像処理装置。
（１０）
　前記撮影画像は、動画又は静止画である
　前記（１）乃至（９）のいずれかに記載の画像処理装置。
（１１）
　ユーザが操作するカメラにより撮影された前記撮影画像であって、ネットワークを介して受信した前記撮影画像を処理するサーバとして構成され、
　制作した前記動画を、ネットワークを介してユーザが操作する端末装置に送信する
　前記（１）乃至（１０）のいずれかに記載の画像処理装置。
（１２）
　前記設定画面は、前記端末装置に表示され、前記ユーザにより操作される
　前記（１１）に記載の画像処理装置。
（１３）
　画像処理装置が、
　メタデータが付加された撮影画像を取得し、
　設定画面で設定された制作する動画の時間的な長さ、及び前記メタデータに基づいて、取得した前記撮影画像の中から、前記動画の制作に用いる撮影画像を選択し、
　選択した前記撮影画像を用いて、前記動画を制作する
　画像処理方法。
（１４）
　コンピュータを、
　メタデータが付加された撮影画像を取得し、
　設定画面で設定された制作する動画の時間的な長さ、及び前記メタデータに基づいて、取得した前記撮影画像の中から、前記動画の制作に用いる撮影画像を選択し、
　選択した前記撮影画像を用いて、前記動画を制作する
　処理部として機能させるプログラム。

　１　動画制作システム，　１０　カメラ，　２０　クラウドサーバ，　３０　端末装置，　４０－１，４０－２，４０　ネットワーク，　２００　処理部，　２１１　CPU，　２５１　撮影画像取得部，　２５２　メタデータ抽出部，　２５３　操作情報取得部，　２５４　撮影画像選択部，　２５５　編集部

Claims

　メタデータが付加された撮影画像を取得し、
　設定画面で設定された制作する動画の時間的な長さ、及び前記メタデータに基づいて、取得した前記撮影画像の中から、前記動画の制作に用いる撮影画像を選択し、
　選択した前記撮影画像を用いて、前記動画を制作する
　処理部を備える
　画像処理装置。
　前記メタデータは、前記撮影画像を撮影したカメラで付加されたカメラメタデータを含む
　請求項１に記載の画像処理装置。
　前記メタデータは、ユーザの操作に応じて前記撮影画像に付与されるショットマークを含む
　請求項２に記載の画像処理装置。
　前記処理部は、
　　前記動画の時間的な長さに基づいて、取得した前記撮影画像をグルーピングし、
　　前記ショットマークに基づいて、グルーピングされた前記撮影画像の中から、前記動画の制作に用いる撮影画像を選択する
　請求項３に記載の画像処理装置。
　前記動画の時間的な長さは、前記動画の制作の前に、ユーザの操作に応じて、前記設定画面により設定される
　請求項１に記載の画像処理装置。
　前記動画の時間的な長さは、前記撮影画像の撮影の前に、ユーザの操作に応じて、前記設定画面により設定される
　請求項１に記載の画像処理装置。
　前記動画の時間的な長さは、前記動画を編集する編集画面により変更可能である
　請求項１に記載の画像処理装置。
　前記設定画面により前記動画の制作で用いられる前記撮影画像の数がさらに設定され、
　前記処理部は、設定された前記動画の時間的な長さ及び前記撮影画像の数、並びに前記メタデータに基づいて、前記撮影画像を選択する
　請求項１に記載の画像処理装置。
　前記設定画面によりアスペクト比がさらに設定され、
　前記処理部は、設定された前記アスペクト比に応じた前記動画を制作する
　請求項１に記載の画像処理装置。
　前記撮影画像は、動画又は静止画である
　請求項１に記載の画像処理装置。
　ユーザが操作するカメラにより撮影された前記撮影画像であって、ネットワークを介して受信した前記撮影画像を処理するサーバとして構成され、
　制作した前記動画を、ネットワークを介してユーザが操作する端末装置に送信する
　請求項１に記載の画像処理装置。
　前記設定画面は、前記端末装置に表示され、前記ユーザにより操作される
　請求項１１に記載の画像処理装置。
　画像処理装置が、
　メタデータが付加された撮影画像を取得し、
　設定画面で設定された制作する動画の時間的な長さ、及び前記メタデータに基づいて、取得した前記撮影画像の中から、前記動画の制作に用いる撮影画像を選択し、
　選択した前記撮影画像を用いて、前記動画を制作する
　画像処理方法。
　コンピュータを、
　メタデータが付加された撮影画像を取得し、
　設定画面で設定された制作する動画の時間的な長さ、及び前記メタデータに基づいて、取得した前記撮影画像の中から、前記動画の制作に用いる撮影画像を選択し、
　選択した前記撮影画像を用いて、前記動画を制作する
　処理部として機能させるプログラム。