WO2015056712A1

WO2015056712A1 - 動画像符号化方法、動画像復号方法、動画像符号化装置、動画像復号装置、動画像符号化プログラム、及び動画像復号プログラム

Info

Publication number: WO2015056712A1
Application number: PCT/JP2014/077436
Authority: WO
Inventors: 信哉志水; 志織杉本; 明小島
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 2013-10-17
Filing date: 2014-10-15
Publication date: 2015-04-23
Anticipated expiration: 2016-04-17
Also published as: CN105612748B; US10911779B2; US20160255370A1; KR20160045864A; CN105612748A; KR101750421B1; JPWO2015056712A1; US20170055000A2

Abstract

　複数の異なる視点の動画像からなる多視点動画像を予測しながら符号化／復号する動画像符号化／復号装置は、符号化／復号対象領域に対して、デプスマップ上での対応領域を設定する対応領域設定部と、符号化／復号対象領域を分割した領域である予測領域を設定する領域分割部と、予測領域ごとに、対応領域内の当該予測領域に対応する領域におけるデプス情報を用いて、参照視点に対する視差ベクトルを生成する視差ベクトル生成部と、参照視点に対する視差ベクトルに基づいて、参照視点動き情報から予測領域における動き情報を生成する動き情報生成部と、予測領域における動き情報を用いて、予測領域に対する予測画像を生成する予測画像生成部とを備える。

Description

動画像符号化方法、動画像復号方法、動画像符号化装置、動画像復号装置、動画像符号化プログラム、及び動画像復号プログラム

　本発明は、多視点動画像を符号化及び復号する動画像符号化方法、動画像復号方法、動画像符号化装置、動画像復号装置、動画像符号化プログラム、及び動画像復号プログラムに関する。
　本願は、２０１３年１０月１７日に日本へ出願された特願２０１３－２１６５２６号に基づき優先権を主張し、その内容をここに援用する。

　従来から、複数のカメラで同じ被写体と背景を撮影した複数の画像からなる多視点画像（Multiview images：マルチビューイメージ）が知られている。この複数のカメラで撮影した動画像のことを多視点動画像（または多視点映像）という。以下の説明では１つのカメラで撮影された画像（動画像）を“２次元画像（２次元動画像）”と称し、同じ被写体と背景とを位置や向き（以下、視点と称する）が異なる複数のカメラで撮影した２次元画像（２次元動画像）群を“多視点画像（多視点動画像）”と称する。

　２次元動画像は、時間方向に関して強い相関があり、その相関を利用することによって符号化効率を高めることができる。一方、多視点画像や多視点動画像では、各カメラが同期されている場合、各カメラの映像の同じ時刻に対応するフレーム（画像）は、全く同じ状態の被写体と背景を別の位置から撮影したものであるので、カメラ間（同じ時刻の異なる２次元画像間）で強い相関がある。多視点画像や多視点動画像の符号化においては、この相関を利用することによって符号化効率を高めることができる。

　ここで、２次元動画像の符号化技術に関する従来技術を説明する。国際符号化標準であるＨ．２６４、ＭＰＥＧ－２、ＭＰＥＧ－４をはじめとした従来の多くの２次元動画像符号化方式では、動き補償予測、直交変換、量子化、エントロピー符号化という技術を利用して、高効率な符号化を行う。例えば、Ｈ．２６４では、符号化対象フレームと過去あるいは未来の複数枚のフレームとの時間相関を利用した符号化が可能である。

　Ｈ．２６４で使われている動き補償予測技術の詳細については、例えば非特許文献１に記載されている。Ｈ．２６４で使われている動き補償予測技術の概要を説明する。Ｈ．２６４の動き補償予測は、符号化対象フレームを様々なサイズのブロックに分割し、各ブロックで異なる動きベクトルと異なる参照フレームを持つことを許可している。各ブロックで異なる動きベクトルを使用することで、被写体ごとに異なる動きを補償した精度の高い予測を実現している。一方、各ブロックで異なる参照フレームを使用することで、時間変化によって生じるオクルージョンを考慮した精度の高い予測を実現している。

　次に、従来の多視点画像や多視点動画像の符号化方式について説明する。多視点画像の符号化方法と、多視点動画像の符号化方法との違いは、多視点動画像にはカメラ間の相関に加えて、時間方向の相関が同時に存在するということである。しかし、どちらの場合でも、同じ方法でカメラ間の相関を利用することができる。そのため、ここでは多視点動画像の符号化において用いられる方法について説明する。

　多視点動画像の符号化については、カメラ間の相関を利用するために、動き補償予測を同じ時刻の異なるカメラで撮影された画像に適用した“視差補償予測”によって高効率に多視点動画像を符号化する方式が従来から存在する。ここで、視差とは、異なる位置に配置されたカメラの画像平面上で、被写体上の同じ部分が存在する位置の差である。図８は、カメラ（第１のカメラと第２のカメラ）間で生じる視差を示す概念図である。図８に示す概念図では、光軸が平行なカメラの画像平面を垂直に見下ろしたものとなっている。このように、異なるカメラの画像平面上で被写体上の同じ部分が投影される位置は、一般的に対応点と呼ばれる。

　視差補償予測では、この対応関係に基づいて、符号化対象フレームの各画素値を参照フレームから予測して、その予測残差と、対応関係を示す視差情報とを符号化する。視差は対象とするカメラ対や位置ごとに変化するため、視差補償予測を行う領域ごとに視差情報を符号化することが必要である。実際に、Ｈ．２６４の多視点動画像符号化方式では、視差補償予測を用いるブロックごとに視差情報を表すベクトルを符号化している。

　視差情報によって与えられる対応関係は、カメラパラメータを用いることで、エピポーラ幾何拘束に基づき、２次元ベクトルではなく、被写体の３次元位置を示す１次元量で表すことができる。被写体の３次元位置を示す情報としては、様々な表現が存在するが、基準となるカメラから被写体までの距離や、カメラの画像平面と平行ではない軸上の座標値を用いることが多い。なお、距離ではなく距離の逆数を用いる場合もある。また、距離の逆数は視差に比例する情報となるため、基準となるカメラを２つ設定し、それらのカメラで撮影された画像間での視差量として３次元位置を表現する場合もある。どのような表現を用いたとしても本質的な違いはないため、以下では、表現による区別をせずに、それら３次元位置を示す情報をデプスと表現する。

　図９はエピポーラ幾何拘束の概念図である。エピポーラ幾何拘束によれば、あるカメラの画像上の点に対応する別のカメラの画像上の点はエピポーラ線という直線上に拘束される。このとき、その画素に対するデプスが得られた場合、対応点はエピポーラ線上に一意に定まる。例えば、図９に示すように、第１のカメラ画像においてｍの位置に投影された被写体に対する第２のカメラ画像での対応点は、実空間における被写体の位置がＭ’の場合にはエピポーラ線上の位置ｍ’に投影され、実空間における被写体の位置がＭ’’の場合にはエピポーラ線上の位置ｍ’’に投影される。

　非特許文献２では、この性質を利用して、参照フレームに対するデプスマップ（距離画像）によって与えられる各被写体の３次元情報に従って、参照フレームから符号化対象フレームに対する合成画像を生成し、生成された合成画像を領域ごとの予測画像の候補とすることで、精度の高い予測を実現し、効率的な多視点動画像の符号化を実現している。なお、このデプスに基づいて生成される合成画像は視点合成画像、視点補間画像、または視差補償画像と呼ばれる。

ITU-T Recommendation H.264 (03/2009), "Advanced video coding for generic audiovisual services", March, 2009. S. Shimizu, H. Kimata, and Y. Ohtani, "Adaptive appearance compensated view synthesis prediction for Multiview Video Coding", 2009 16th IEEE International Conference on Image Processing (ICIP), pp. 2949-2952, 7-10 Nov. 2009.

　非特許文献２に記載の方法によれば、デプスマップから得られる被写体の３次元情報を用いて高精度な視差補償を行った視点合成画像によって、高効率な予測を実現することが可能である。また、領域ごとに既存の予測と視点合成画像による予測を選択することで、デプスマップの品質やオクルージョンの影響を受けて、部分的には精度が低い視点合成画像が生成される場合においても、領域ごとに視点合成画像を予測画像とするか否かを選択することで、符号量が増加してしまうのを防ぐことが可能である。

　しかしながら、非特許文献２に記載の方法では、デプスマップによって表現される３次元情報の精度が低い場合、一般的な視差ベクトルを用いた視差補償予測と比べて、低い精度でしか視差を補償することができなくなるため、高効率な予測を実現することができなくなってしまうという問題がある。

　本発明は、このような事情に鑑みてなされたもので、デプスマップによって表現される視差量の精度が低い場合でも、精度の高い予測を実現し、高効率な符号化を実現することができる動画像符号化方法、動画像復号方法、動画像符号化装置、動画像復号装置、動画像符号化プログラム、及び動画像復号プログラムを提供することを目的とする。

　本発明の一態様は、複数の異なる視点の動画像からなる多視点動画像の１フレームを符号化する際に、符号化対象画像とは異なる参照視点に対する参照視点画像の動き情報である参照視点動き情報と、前記多視点動画像中の被写体に対するデプスマップとを用いて、異なる視点間で予測しながら、前記符号化対象画像を分割した領域である符号化対象領域ごとに、符号化を行う動画像符号化装置であって、前記符号化対象領域に対して、前記デプスマップ上での対応領域を設定する対応領域設定部と、前記符号化対象領域を分割した領域である予測領域を設定する領域分割部と、前記予測領域ごとに、前記対応領域内の当該予測領域に対応する領域におけるデプス情報を用いて、前記参照視点に対する視差ベクトルを生成する視差ベクトル生成部と、前記参照視点に対する前記視差ベクトルに基づいて、前記参照視点動き情報から前記予測領域における動き情報を生成する動き情報生成部と、前記予測領域における前記動き情報を用いて、前記予測領域に対する予測画像を生成する予測画像生成部とを備える動画像符号化装置である。

　本発明の動画像符号化装置において、前記視差ベクトル生成部は、さらに、前記符号化対象領域に対して、前記デプスマップに対する視差ベクトルを生成し、前記対応領域設定部は、前記デプスマップに対する前記視差ベクトルによって示される領域を前記対応領域として設定してもよい。

　本発明の動画像符号化装置において、前記視差ベクトル生成部は、前記符号化対象領域に隣接する領域を符号化する際に使用した視差ベクトルを用いて、前記デプスマップに対する前記視差ベクトルを設定してもよい。

　本発明の動画像符号化装置において、前記領域分割部は、前記対応領域内のデプス情報に基づいて、前記符号化対象領域に対する領域分割を設定してもよい。

　本発明の動画像符号化装置において、前記視差ベクトル生成部は、前記予測領域ごとに、前記対応領域内の当該予測領域に対応する前記領域における前記デプス情報から代表デプスを設定し、当該代表デプスに基づいて前記参照視点に対する前記視差ベクトルを設定してもよい。

　本発明の動画像符号化装置において、前記動き情報生成部は、前記予測領域に対して予め定められた画素の位置と前記参照視点に対する前記視差ベクトルとを用いて、前記参照視点における対応位置を求め、前記参照視点動き情報のうち、当該対応位置を含む領域に対して与えられた動き情報を前記予測領域における前記動き情報としてもよい。

　本発明の動画像符号化装置において、前記符号化対象画像に対して、符号化対象視点における前記符号化対象画像とは異なる既に符号化済みの１フレームを参照画像として設定する参照画像設定部をさらに備え、前記動き情報生成部は、前記参照視点動き情報から得られた動き情報を、前記符号化対象画像と前記参照画像との時間間隔に合わせてスケーリングすることで前記予測領域における前記動き情報を生成してもよい。

　本発明の動画像符号化装置において、前記予測画像生成部は、前記予測領域における前記動き情報を用いて生成した第１の予測画像と、前記参照視点に対する前記視差ベクトルと前記参照視点画像とを用いて生成した第２の予測画像とを用いて、前記予測領域に対する前記予測画像を生成してもよい。

　本発明の一態様は、複数の異なる視点の動画像からなる多視点動画像の符号データから、復号対象画像を復号する際に、前記復号対象画像とは異なる参照視点に対する参照視点画像の動き情報である参照視点動き情報と、前記多視点動画像中の被写体に対するデプスマップとを用いて、異なる視点間で予測しながら、前記復号対象画像を分割した領域である復号対象領域ごとに、復号を行う動画像復号装置であって、前記復号対象領域に対して、前記デプスマップ上での対応領域を設定する対応領域設定部と、前記復号対象領域を分割した領域である予測領域を設定する領域分割部と、前記予測領域ごとに、前記対応領域内の当該予測領域に対応する領域におけるデプス情報を用いて、前記参照視点に対する視差ベクトルを生成する視差ベクトル生成部と、前記参照視点に対する前記視差ベクトルに基づいて、前記参照視点動き情報から前記予測領域における動き情報を生成する動き情報生成部と、前記予測領域における前記動き情報を用いて、前記予測領域に対する予測画像を生成する予測画像生成部とを備える動画像復号装置である。

　本発明の動画像復号装置において、前記視差ベクトル生成部は、さらに、前記復号対象領域に対して、前記デプスマップに対する視差ベクトルを生成し、前記対応領域設定部は、前記デプスマップに対する前記視差ベクトルによって示される領域を前記対応領域として設定してもよい。

　本発明の動画像復号装置において、前記視差ベクトル生成部は、前記復号対象領域に隣接する領域を復号する際に使用した視差ベクトルを用いて、前記デプスマップに対する前記視差ベクトルを設定してもよい。

　本発明の動画像復号装置において、前記領域分割部は、前記対応領域内のデプス情報に基づいて、前記復号対象領域に対する領域分割を設定してもよい。

　本発明の動画像復号装置において、前記視差ベクトル生成部は、前記予測領域ごとに、前記対応領域内の当該予測領域に対応する前記領域における前記デプス情報から代表デプスを設定し、当該代表デプスに基づいて前記参照視点に対する前記視差ベクトルを設定してもよい。

　本発明の動画像復号装置において、前記動き情報生成部は、前記予測領域に対して予め定められた画素の位置と前記参照視点に対する前記視差ベクトルとを用いて、前記参照視点における対応位置を求め、前記参照視点動き情報のうち、当該対応位置を含む領域に対して与えられた動き情報を前記予測領域における前記動き情報としてもよい。

　本発明の動画像復号装置において、前記復号対象画像に対して、復号対象視点における前記復号対象画像とは異なる既に復号済みの１フレームを参照画像として設定する参照画像設定部をさらに備え、前記動き情報生成部は、前記参照視点動き情報から得られた動き情報を、前記復号対象画像と前記参照画像との時間間隔に合わせてスケーリングすることで前記予測領域における前記動き情報を生成してもよい。

　本発明の動画像復号装置において、前記予測画像生成部は、前記予測領域における前記動き情報を用いて生成した第１の予測画像と、前記参照視点に対する前記視差ベクトルと前記参照視点画像とを用いて生成した第２の予測画像とを用いて、前記予測領域に対する前記予測画像を生成してもよい。

　本発明の一態様は、複数の異なる視点の動画像からなる多視点動画像の１フレームを符号化する際に、符号化対象画像とは異なる参照視点に対する参照視点画像の動き情報である参照視点動き情報と、前記多視点動画像中の被写体に対するデプスマップとを用いて、異なる視点間で予測しながら、前記符号化対象画像を分割した領域である符号化対象領域ごとに、符号化を行う動画像符号化方法であって、前記符号化対象領域に対して、前記デプスマップ上での対応領域を設定する対応領域設定ステップと、前記符号化対象領域を分割した領域である予測領域を設定する領域分割ステップと、前記予測領域ごとに、前記対応領域内の当該予測領域に対応する領域におけるデプス情報を用いて、前記参照視点に対する視差ベクトルを生成する視差ベクトル生成ステップと、前記参照視点に対する前記視差ベクトルに基づいて、前記参照視点動き情報から前記予測領域における動き情報を生成する動き情報生成ステップと、前記予測領域における前記動き情報を用いて、前記予測領域に対する予測画像を生成する予測画像生成ステップとを有する動画像符号化方法である。

　本発明の一態様は、複数の異なる視点の動画像からなる多視点動画像の符号データから、復号対象画像を復号する際に、前記復号対象画像とは異なる参照視点に対する参照視点画像の動き情報である参照視点動き情報と、前記多視点動画像中の被写体に対するデプスマップとを用いて、異なる視点間で予測しながら、前記復号対象画像を分割した領域である復号対象領域ごとに、復号を行う動画像復号方法であって、前記復号対象領域に対して、前記デプスマップ上での対応領域を設定する対応領域設定ステップと、前記復号対象領域を分割した領域である予測領域を設定する領域分割ステップと、前記予測領域ごとに、前記対応領域内の当該予測領域に対応する領域におけるデプス情報を用いて、前記参照視点に対する視差ベクトルを生成する視差ベクトル生成ステップと、前記参照視点に対する前記視差ベクトルに基づいて、前記参照視点動き情報から前記予測領域における動き情報を生成する動き情報生成ステップと、前記予測領域における前記動き情報を用いて、前記予測領域に対する予測画像を生成する予測画像生成ステップとを有する動画像復号方法である。

　本発明の一態様は、コンピュータに、前記動画像符号化方法を実行させるための動画像符号化プログラムである。

　本発明の一態様は、コンピュータに、前記動画像復号方法を実行させるための動画像復号プログラムである。

　本発明によれば、デプスマップによって表現される視差の精度が低い場合においても、小数画素精度の予測を実現することが可能となり、少ない符号量で多視点動画像を符号化することができるという効果が得られる。

本発明の一実施形態における動画像符号化装置の構成を示すブロック図である。図１に示す動画像符号化装置１００の動作を示すフローチャートである。図１に示す動き情報生成部１０５における動き情報を生成する動作（ステップＳ１０４）の詳細処理動作を示すフローチャートである。本発明の一実施形態における動画像復号装置の構成を示すブロック図である。図４に示す動画像復号装置２００の動作を示すフローチャートである。図１に示す動画像符号化装置１００をコンピュータとソフトウェアプログラムとによって構成する場合のハードウェア構成を示すブロック図である。図４に示す動画像復号装置２００をコンピュータとソフトウェアプログラムとによって構成する場合のハードウェア構成を示すブロック図である。カメラ間で生じる視差を示す概念図である。エピポーラ幾何拘束の概念図である。

　以下、図面を参照して、本発明の実施形態による動画像符号化装置及び動画像復号装置を説明する。以下の説明においては、第１のカメラ（カメラＡという）、第２のカメラ（カメラＢという）の２つのカメラで撮影された多視点動画像を符号化する場合を想定し、カメラＡを参照視点としてカメラＢの動画像の１フレームを符号化または復号するものとして説明する。なお、デプス情報から視差を得るために必要となる情報は別途与えられているものとする。具体的には、この情報は、カメラＡとカメラＢの位置関係を表す外部パラメータや、カメラによる画像平面への投影情報を表す内部パラメータであるが、これら以外の形態であってもデプス情報から視差が得られるものであれば、別の情報が与えられていてもよい。これらのカメラパラメータに関する詳しい説明は、例えば、参考文献「Olivier Faugeras, "Three-Dimensional Computer Vision", pp. 33-66, MIT Press; BCTC/UFF-006.37 F259 1993, ISBN:0-262-06158-9.」に記載されている。この参考文献には、複数のカメラの位置関係を示すパラメータや、カメラによる画像平面への投影情報を表すパラメータに関する説明が記載されている。

　以下の説明では、画像や映像フレーム、デプスマップに対して、記号［］で挟まれた位置を特定可能な情報（座標値もしくは座標値に対応付け可能なインデックスなど）を付加することで、その位置の画素によってサンプリングされた画像信号や、それに対するデプスを示すものとする。また、座標値やブロックに対応付け可能なインデックス値とベクトルの加算によって、その座標やブロックをベクトルの分だけずらした位置の座標値やブロックを表すものとする。

　図１は本実施形態における動画像符号化装置の構成を示すブロック図である。動画像符号化装置１００は、図１に示すように、符号化対象画像入力部１０１、符号化対象画像メモリ１０２、参照視点動き情報入力部１０３、デプスマップ入力部１０４、動き情報生成部１０５、視点合成画像生成部１０６、画像符号化部１０７、画像復号部１０８及び参照画像メモリ１０９を備えている。

　符号化対象画像入力部１０１は、符号化対象となる画像を入力する。以下では、この符号化対象となる画像を符号化対象画像と称する。ここではカメラＢの動画像を１フレームずつ入力するものとする。また、符号化対象画像を撮影した視点（ここではカメラＢ）を符号化対象視点と称する。符号化対象画像メモリ１０２は、入力した符号化対象画像を記憶する。参照視点動き情報入力部１０３は、参照視点の動画像に対する動き情報（動きベクトルなど）を入力する。以下では、ここで入力された動き情報を参照視点動き情報と呼ぶ。ここではカメラＡの動き情報を入力するものとする。

　デプスマップ入力部１０４は、視点合成画像を生成する際に参照するデプスマップを入力する。ここでは、符号化対象画像に対するデプスマップを入力するものとするが、参照視点など別の視点に対するデプスマップでもよい。なお、デプスマップとは対応する画像の各画素に写っている被写体の３次元位置を表すものである。デプスマップは、別途与えられるカメラパラメータ等の情報によって３次元位置が得られるものであれば、どのような情報でもよい。例えば、カメラから被写体までの距離や、画像平面とは平行ではない軸に対する座標値、別のカメラ（例えばカメラＡ）に対する視差量を用いることができる。また、ここでは視差量が得られればよいので、デプスマップではなく、視差量を直接表現した視差マップを用いてもよい。なお、ここではデプスマップが画像の形態で渡されるものとしているが、同様の情報が得られるのであれば、画像の形態でなくてもよい。

　動き情報生成部１０５は、参照視点動き情報とデプスマップとを用いて、符号化対象画像に対する動き情報を生成する。視点合成画像生成部１０６は、生成された動き情報に基づいて、参照画像から符号化対象画像に対する視点合成画像を生成する。画像符号化部１０７は、視点合成画像を用いながら、符号化対象画像を予測符号化する。画像復号部１０８は、符号化対象画像のビットストリームを復号する。参照画像メモリ１０９は、符号化対象画像のビットストリームを復号した際に得られる画像を蓄積する。

　次に、図２を参照して、図１に示す動画像符号化装置１００の動作を説明する。図２は、図１に示す動画像符号化装置１００の動作を示すフローチャートである。まず、符号化対象画像入力部１０１は、符号化対象画像Ｏｒｇを入力し、入力された符号化対象画像Ｏｒｇを符号化対象画像メモリ１０２に記憶する（ステップＳ１０１）。次に、参照視点動き情報入力部１０３は参照視点動き情報を入力し、入力された参照視点動き情報を動き情報生成部１０５へ出力し、デプスマップ入力部１０４はデプスマップを入力し、入力されたデプスマップを動き情報生成部１０５へ出力する（ステップＳ１０２）。

　なお、ステップＳ１０２で入力される参照視点動き情報とデプスマップは、既に符号化済みのものを復号したものなど、復号側で得られるものと同じものとする。これは復号装置で得られるものと全く同じ情報を用いることで、ドリフト等の符号化ノイズの発生を抑えるためである。ただし、そのような符号化ノイズの発生を許容する場合には、符号化前のものなど、符号化側でしか得られないものが入力されてもよい。デプスマップに関しては、既に符号化済みのものを復号したもの以外に、複数のカメラに対して復号された多視点動画像に対してステレオマッチング等を適用することで推定したデプスマップや、復号された視差ベクトルや動きベクトルなどを用いて推定されるデプスマップなども、復号側で同じものが得られるものとして用いることができる。

　参照視点動き情報は、参照視点に対する画像を符号化する際に使用された動き情報を用いてもよいし、参照視点に対して別途符号化されたものでもよい。また、参照視点に対する動画像を復号し、そこから推定して得られた動き情報を用いることも可能である。

　符号化対象画像、参照視点動き情報、デプスマップの入力が終了したら、符号化対象画像を予め定められた大きさの領域に分割し、分割した領域ごとに、符号化対象画像の映像信号を符号化する（ステップＳ１０３～Ｓ１０９）。すなわち、符号化対象領域インデックスをｂｌｋ、１フレーム中の総符号化対象領域数をｎｕｍＢｌｋｓで表すとすると、ｂｌｋを０で初期化し（ステップＳ１０３）、その後、ｂｌｋに１を加算しながら（ステップＳ１０８）、ｂｌｋがｎｕｍＢｌｋｓになるまで（ステップＳ１０９）、以下の処理（ステップＳ１０４～Ｓ１０７）を繰り返す。一般的な符号化では１６画素×１６画素のマクロブロックと呼ばれる処理単位ブロックへ分割するが、復号側と同じであればその他の大きさのブロックに分割してもよい。

　符号化対象領域ごとに繰り返される処理では、まず、動き情報生成部１０５は、符号化対象領域ｂｌｋにおける動き情報を生成する（ステップＳ１０４）。ここでの処理は後で詳しく説明する。符号化対象領域ｂｌｋに対する動き情報が得られたら、視点合成画像生成部１０６は、その動き情報に従って、参照画像メモリ１０９に蓄積された画像から、符号化対象領域ｂｌｋに対する視点合成画像Ｓｙｎを生成する（ステップＳ１０５）。具体的には、視点合成画像生成部１０６は、符号化対象領域ｂｌｋに含まれる画素ｐごとに、次の数式で表されるように、動き情報によって表される参照画像上の対応点の画素値を求めることで視点合成画像Ｓｙｎを生成する。
　Ｓｙｎ［ｐ］＝Ｄｅｃ_{Ｒｅｆ（ｐ）}［ｐ＋ｍｖ（ｐ）］

　ｍｖ（ｐ）とＲｅｆ（ｐ）は画素ｐに対する動き情報の示す動きベクトルとその時間間隔を表し、Ｄｅｃ_Ｔは符号化対象画像に対して時間間隔Ｔの参照画像メモリ１０９に蓄積されている画像（参照画像）を表す。なお、対応点ｐ＋ｍｖ（ｐ）が整数画素位置ではない場合は、最も近い整数画素位置の画素値を対応点の画素値としてもよいし、対応点の周辺の整数画素群に対してフィルタ処理を施すことで対応点における画素値を生成してもよい。ただし、復号側での処理と同じ方法で対応点の画素値を生成するものとする。

　画素ｐに対する動き情報が２つ以上存在する場合、その平均値によって視点合成画像を生成してもよい。すなわち、画素ｐに対する動き情報の数をＮ（ｐ）で表し、動き情報のインデックスをｎとすると、視点合成画像は下記の数式で表される。

　なお、この数式では除算における整数への丸めを考慮していないが、四捨五入を行うようにオフセットを加えてもよい。具体的には、Ｎ（ｐ）／２を加えてからＮ（ｐ）で除算を行う。また、動き情報が３つ以上存在する場合は、平均値ではなく中央値で予測を行ってもよい。ただし、復号側での処理と同じ処理を行う必要がある。ここでは、画素ごとに視点合成画像を生成するものとしたが、小領域ごとに同じ動き情報を持つ場合には、その小領域ごとに処理を行うこともできる。

　次に、視点合成画像が得られたら、画像符号化部１０７は、視点合成画像を予測画像としながら、符号化対象領域ｂｌｋにおける符号化対象画像の映像信号（画素値）を符号化する（ステップＳ１０６）。符号化の結果得られるビットストリームが動画像符号化装置１００の出力となる。なお、符号化する方法には、どのような方法を用いてもよい。ＭＰＥＧ－２やＨ．２６４／ＡＶＣなどの一般的な符号化では、ブロックｂｌｋの映像信号と予測画像との差分信号に対して、ＤＣＴ（Discrete Cosine Transform）などの周波数変換、量子化、２値化、エントロピー符号化を順に施すことで符号化を行う。

　次に、画像復号部１０８は、ビットストリームと視点合成画像とを用いて、ブロックｂｌｋに対する映像信号を復号し、復号結果であるところの復号画像Ｄｅｃ［ｂｌｋ］を参照画像メモリ１０９に蓄積する（ステップＳ１０７）。ここでは、符号化時に用いた手法に対応する手法を用いる。例えば、ＭＰＥＧ－２やＨ．２６４／ＡＶＣなどの一般的な符号化であれば、符号データに対して、エントロピー復号、逆２値化、逆量子化、ＩＤＣＴ（Inverse Discrete Cosine Transform）などの周波数逆変換を順に施し、得られた２次元信号に対して予測画像を加え、最後に画素値の値域でクリッピングを行うことで映像信号を復号する。なお、符号化側での処理がロスレスになる直前のデータと予測画像を受け取り、簡略化した処理によって復号を行ってもよい。すなわち、前述の例であれば符号化時に量子化処理を加えた後の値と予測画像を受け取り、その量子化後の値に逆量子化、周波数逆変換を順に施して得られた２次元信号に対して予測画像を加え、画素値の値域でクリッピングを行うことで映像信号を復号してもよい。

　次に、図３を参照して、図１に示す動き情報生成部１０５が、符号化対象領域ｂｌｋにおける動き情報を生成する処理（図２に示すステップＳ１０４）について詳細に説明する。動き情報を生成する処理において、まず、動き情報生成部１０５は、符号化対象領域ｂｌｋに対するデプスマップ上の領域（符号化対象領域に対するデプスマップ上での対応領域）を設定する（ステップＳ１４０１）。ここでは、符号化対象画像に対するデプスマップが入力されているため、符号化対象領域ｂｌｋと同じ位置のデプスマップを設定することとなる。なお、符号化対象画像とデプスマップの解像度が異なる場合は、解像度比に応じてスケーリングした領域を設定する。

　符号化対象視点と異なる視点の１つをデプス視点とするとき、デプス視点に対するデプスマップを用いる場合は、符号化対象領域ｂｌｋにおける符号化対象視点とデプス視点の視差ＤＶ（デプスマップに対する視差ベクトル）を求め、ｂｌｋ＋ＤＶにおけるデプスマップを設定する。なお、符号化対象画像とデプスマップの解像度が異なる場合は、解像度比に応じて位置および大きさのスケーリングを行う。

　符号化対象領域ｂｌｋにおける符号化対象視点とデプス視点の視差ＤＶは、復号側と同じ方法であればどのような方法を用いて求めてもよい。例えば、符号化対象領域ｂｌｋの周辺領域を符号化する際に使用された視差ベクトルや、符号化対象画像全体や符号化対象領域を含む部分画像に対して設定されたグローバル視差ベクトル、符号化対象領域に対して別途設定し符号化される視差ベクトルなどを用いることが可能である。また、符号化対象領域ｂｌｋとは異なる領域や過去に符号化された画像で使用した視差ベクトルを蓄積しておき、蓄積された視差ベクトルを用いてもよい。更に符号化対象視点に対して過去に符号化されたデプスマップの符号化対象領域と同位置のデプス値を変換して得られる視差ベクトルを用いてもよい。

　次に、動き情報生成部１０５は、符号化対象領域ｂｌｋの分割方法を決定する（ステップＳ１４０２）。分割方法として、予め定められた方法で分割してもよいし、設定されたデプスマップを解析して分割方法を決定してもよい。ただし、復号側と同じ方法で分割方法を設定する。

　予め定められた方法としては、固定のブロックサイズで分割を設定する方法がある。例えば、４画素×４画素のブロックや８画素×８画素のブロックに分割する方法などがある。また、符号化対象領域ｂｌｋの大きさに応じて分割サイズを決定する方法もある。例えば、符号化対象領域のサイズが２Ｎ×２Ｍの場合は、（Ｎ／２）×（Ｍ／２）のブロックやＭＡＸ（Ｎ／２，４）×ＭＡＸ(Ｍ／２，４)のブロックに分割する方法がある。なお、ＭＡＸ（ａ，ｂ）はａとｂの最大値を表すものとする。また、符号化対象領域のサイズが１６画素×１６画素より大きい場合には、８画素×８画素のブロックに分割し、符号化対象領域のサイズが１６画素×１６画素以下の場合には４画素×４画素のブロックサイズにするなどの方法もある。

　デプスマップを解析して分割方法を決める方法としては、例えば、デプス値をもとにクラスタリングした結果を用いる方法や、生成した分割毎のデプス値の分散値が閾値以下になるように四分木表現で再帰的に分割する方法がある。生成した分割毎のデプス値の分散値の代わりに、符号化対象領域に対するデプスマップ上での対応領域の４頂点におけるデプス値を比較することで分割方法を決定してもよい。

　次に、符号化対象領域ｂｌｋの分割方法が決定したら、その分割方法に従って生成されるサブ領域（予測領域）ごとに、動き情報を生成する（ステップＳ１４０３～Ｓ１４０９）。すなわち、サブ領域インデックスをｓｂｌｋ、符号化対象領域ｂｌｋ内のサブ領域数をｎｕｍＳＢｌｋｓ_ｂｌｋで表すとすると、ｓｂｌｋを０で初期化し（ステップＳ１４０３）、その後、ｓｂｌｋに１を加算しながら（ステップＳ１４０８）、ｓｂｌｋがｎｕｍＳＢｌｋｓ_ｂｌｋになるまで（ステップＳ１４０９）、以下の処理（ステップＳ１４０４～Ｓ１４０７）を繰り返す。

　サブ領域ごとに繰り返される処理において、まず、動き情報生成部１０５は、サブ領域ｓｂｌｋに対して、設定されたデプスマップ（対応領域内の予測領域に対応する領域におけるデプス情報）から代表デプス値を決定する（ステップＳ１４０４）。どのような方法を用いて代表デプス値を決定してもよいが、復号側と同じ方法を用いる必要がある。例えば、サブ領域ｓｂｌｋに対するデプスマップの平均値や中央値、最大値、最小値などを用いる方法がある。また、サブ領域ｓｂｌｋに対するデプスマップの全ての画素ではなく、一部の画素に対するデプス値の平均値や中央値、最大値、最小値などを用いてもよい。一部の画素としては、４頂点や４頂点と中央などを用いてもよい。更に、サブ領域ｓｂｌｋに対して左上や中央など予め定められた位置に対するデプス値を用いる方法もある。

　代表デプス値が得られたら、動き情報生成部１０５は、符号化対象視点と参照視点の位置関係に関する情報を用いて、代表デプス値から視差ベクトルｄｖ_ｓｂｌｋ（参照視点に対する視差ベクトル）を求める（ステップＳ１４０５）。具体的には、カメラパラメータを用いた逆投影及び再投影によって視差ベクトルｄｖ_ｓｂｌｋを求める方法や、ホモグラフィ行列を用いた変換によって視差ベクトルｄｖ_ｓｂｌｋを求める方法、予め作成されたデプス値に対する視差ベクトルのルックアップテーブルを参照して視差ベクトルｄｖ_ｓｂｌｋを求める方法などがある。

　視差ベクトルが得られたら、動き情報生成部１０５は、参照視点において対応する位置を求める（ステップＳ１４０６）。具体的には、サブ領域ｓｂｌｋを代表する点Ｐ_ｓｂｌｋ（予測領域に対して予め定められた画素の位置）に、視差ベクトルｄｖ_ｓｂｌｋを加えることで対応位置を求める。サブ領域を代表する点としては、サブ領域に対して左上や中央など、予め定められた位置を用いることができる。なお、どの位置を代表する点とするかは、復号側と同じである必要がある。

　次に、動き情報生成部１０５は、参照視点における対応点Ｐ_ｓｂｌｋ＋ｄｖ_ｓｂｌｋを含む領域に対して蓄積されている参照視点動き情報をサブ領域ｓｂｌｋに対する動き情報（予測領域における動き情報）として設定する（ステップＳ１４０７）。なお、対応点Ｐ_ｓｂｌｋ＋ｄｖ_ｓｂｌｋを含む領域に対して動き情報が蓄積されていない場合は、動き情報なしの情報を設定しても、ゼロベクトルなどデフォルトの動き情報を設定しても、対応点Ｐ_ｓｂｌｋ＋ｄｖ_ｓｂｌｋに最も近い動き情報を蓄積している領域を同定して、その領域において蓄積されている動き情報を設定してもよい。ただし、復号側と同じ規則で動き情報を設定する。

　前述の説明では、参照視点動き情報をそのまま動き情報として設定したが、時間間隔を予め設定し、動き情報をその予め定められた時間間隔と参照視点動き情報における時間間隔に従ってスケーリングし、参照視点動き情報における時間間隔をその予め定められた時間間隔に置き換えて得られる動き情報を設定してもよい。このようにすることで、異なる領域に対して生成される動き情報が全て同じ時間間隔を持つことになり、視点合成画像を生成する際の参照画像を統一し（符号化対象視点における符号化対象画像とは異なる既に符号化済みの１フレームを参照画像として設定し）、アクセスするメモリ空間を限定することが可能となる。なお、アクセスするメモリ空間が限定されることによって、キャッシュヒットをさせて、処理速度を向上することが可能となる。

　本実施形態では、サブ領域ごとに参照視点動き情報から生成される動き情報のみを用いて視点合成画像（第１の予測画像）を生成したが、動き情報に加えて、サブ領域ごとに得られる視差ベクトルｄｖ_ｓｂｌｋを用いてもよい。例えば、参照視点に対する復号画像をＤｅｃＩＶとすると、次の数式で視点合成画像を生成（第１の予測画像と第２の予測画像の整数に丸められた平均値を求めることで、予測領域に対する予測画像を生成）してもよい。
　Ｓｙｎ［ｐ］＝（Ｄｅｃ_{Ｒｅｆ（ｐ）}［ｐ＋ｍｖ（ｐ）］＋ＤｅｃＩＶ［ｐ＋ｄｖ（ｐ）］＋１）／２
　なお、ｄｖ（ｐ）は画素ｐを含むサブ領域に対する視差ベクトルを表す。

　また、サブ領域または画素ごとに、動き情報と視差ベクトルのいずれか一方を選択しながら、視点合成画像を生成してもよい。さらに、動き情報と視差ベクトルのいずれか一方または両方を選択するようにしてもよい。なお、復号側と同じ方法であれば、選択にはどのような方法を用いてもよい。例えば、ステップＳ１４０６で求めた対応点についてステップＳ１４０７で設定した参照視点動き情報が存在しない場合や、参照視点に対する動画像を符号化する際に、その対応点を含む領域では動き補償予測以外の予測を用いた場合には視差ベクトルを用いて視点合成画像を生成し、それ以外の場合には動き情報を用いて視点合成画像を生成する方法がある。

　別の方法としては、参照視点に対する動画像の対応点を含む領域において符号化されていた動き補償予測残差の量が予め定められた閾値よりも大きい場合には視差ベクトルを用いて視点合成画像を生成し、この動き補償予測残差の量が閾値以下の場合には動き情報を用いて視点合成画像を生成する方法もある。

　更に別の方法としては、参照視点において時間間隔Ｔの復号画像ＤｅｃＩＶ_Ｔを用いて、動き情報および視差ベクトルのうちのいずれを選択するのかを決定する方法もある。例えば、参照視点における符号化済みの動画像を用いて、領域ｓｂｌｋ＋ｄｖ_ｓｂｌｋにおいて、ｓｂｌｋに対して生成した動き情報を用いて動き補償予測を行った際の予測残差を生成して用いてもよい。具体的には、生成された予測残差の量が予め定められた閾値よりも大きい場合には視差ベクトルを用いて視点合成画像を生成し、その量が閾値以下の場合には動き情報を用いて視点合成画像を生成する。なお、このとき用いる予測残差ＲｅｓＩＶＭＣは次の数式で表される。
　ＲｅｓＩＶＭＣ＝ＤｅｃＩＶ［ｓｂｌｋ＋ｄｖ_ｓｂｌｋ］―ＤｅｃＩＶ_{Ｒｅｆ（ｓｂｌｋ）}［ｓｂｌｋ＋ｄｖ_ｓｂｌｋ＋ｍｖ（ｓｂｌｋ）］

　ＤｅｃＩＶ_Ｔを用いた別の方法として、ＲｅｓＩＶＭＣに加えて、次の予測残差ＲｅｓＰａｓｔＩＶを生成して用いる方法もある。具体的には、｜ＲｅｓＩＶＭＣ｜と｜ＲｅｓＰａｓｔＩＶ｜とを比較して、｜ＲｅｓＩＶＭＣ｜の方が小さい場合には動き情報を用いて視点合成画像を生成し、｜ＲｅｓＰａｓｔＩＶ｜の方が小さい場合には視差ベクトルを用いて視点合成画像を生成する。両者が等しい場合には、いずれかを用いてもよいし、両方を用いてもよい。
　ＲｅｓＰａｓｔＩＶ＝Ｄｅｃ_{Ｒｅｆ（ｓｂｌｋ）}［ｓｂｌｋ＋ｍｖ（ｓｂｌｋ）］―ＤｅｃＩＶ_{Ｒｅｆ（ｓｂｌｋ）}［ｓｂｌｋ＋ｄｖ_ｓｂｌｋ＋ｍｖ（ｓｂｌｋ）］

　また、閾値を設定し、｜ＲｅｓＩＶＭＣ｜と｜ＲｅｓＰａｓｔＩＶ｜をそれぞれ、設定した閾値と比較し、閾値よりも小さいものに対応する情報だけを用いて視点合成画像を生成するものとしてもよい。この時、両方が閾値よりも大きくなってしまった場合は、前述のルールに従ってより小さい値を持つ残差に対応する情報だけを用いてもよいし、両方を用いてもよい。

　また、参照視点における時間間隔Ｔの復号画像ＤｅｃＩＶ_Ｔを用いる場合、次の数式に従って視点合成画像またはその候補を生成してもよい。
　Ｓｙｎ［ｐ］＝Ｄｅｃ_{Ｒｅｆ（ｐ）}［ｐ＋ｍｖ（ｐ）］＋ｗ０×（ＤｅｃＩＶ［ｐ＋ｄｖ（ｐ）］－ＤｅｃＩＶ_{Ｒｅｆ（ｐ）}［ｐ＋ｄｖ（ｐ）＋ｍｖ（ｐ）］）
　Ｓｙｎ［ｐ］＝ＤｅｃＩＶ［ｐ＋ｄｖ（ｐ）］＋ｗ１×（Ｄｅｃ_{Ｒｅｆ（ｐ）}［ｐ＋ｍｖ（ｐ）］－ＤｅｃＩＶ_{Ｒｅｆ（ｐ）}［ｐ＋ｄｖ（ｐ）＋ｍｖ（ｐ）］）
　ここで、ｗ０及びｗ１は別途定められた重み係数であり、復号側と同じ値であればどのように決定してもよい。例えば、予め定めた値を使用してもよい。上記数式に従って生成された画像を視点合成画像の候補として用いる場合は、前述した参照視点動き情報から生成される動き情報のみを用いて生成した視点合成画像の代わりや、サブ領域ごとに得られる視差ベクトルのみを用いて生成した視点合成画像の代わりに、上記数式に従って生成された画像を用いてもよいし、上記数式に従って生成された画像を別の候補として選択肢に加えてもよい。

　次に、本実施形態における動画像復号装置について説明する。図４は本実施形態における動画像復号装置の構成を示すブロック図である。動画像復号装置２００は、図４に示すように、ビットストリーム入力部２０１、ビットストリームメモリ２０２、参照視点動き情報入力部２０３、デプスマップ入力部２０４、動き情報生成部２０５、視点合成画像生成部２０６、画像復号部２０７及び参照画像メモリ２０８を備えている。

　ビットストリーム入力部２０１は、復号対象となる動画像のビットストリームを入力する。以下では、この復号対象となる動画像の１フレームを復号対象画像と呼ぶ。ここでは、復号対象画像はカメラＢの動画像の１フレームを指す。また、以下では、復号対象画像を撮影した視点（ここではカメラＢ）を復号対象視点と呼ぶ。ビットストリームメモリ２０２は、入力した復号対象画像に対するビットストリームを記憶する。参照視点動き情報入力部２０３は、参照視点の動画像に対する動き情報（動きベクトルなど）を入力する。以下では、ここで入力された動き情報を参照視点動き情報と呼ぶ。ここではカメラＡの動き情報が入力されるものとする。

　デプスマップ入力部２０４は、視点合成画像を生成する際に参照するデプスマップを入力する。ここでは、復号対象画像に対するデプスマップを入力するものとするが、参照視点など別の視点に対するデプスマップでもよい。なお、デプスマップとは対応する画像の各画素に写っている被写体の３次元位置を表すものである。デプスマップは、別途与えられるカメラパラメータ等の情報によって３次元位置が得られるものであれば、どのような情報でもよい。例えば、カメラから被写体までの距離や、画像平面とは平行ではない軸に対する座標値、別のカメラ（例えばカメラＡ）に対する視差量を用いることができる。また、ここでは視差量が得られればよいので、デプスマップではなく、視差量を直接表現した視差マップを用いてもよい。なお、ここではデプスマップが画像の形態で渡されるものとしているが、同様の情報が得られるのであれば、画像の形態でなくてもよい。

　動き情報生成部２０５は、参照視点動き情報とデプスマップとを用いて、復号対象画像に対する動き情報を生成する。視点合成画像生成部２０６は、生成された動き情報に基づいて、参照画像から復号対象画像に対する視点合成画像を生成する。画像復号部２０７は、視点合成画像を用いながら、ビットストリームから復号対象画像を復号して出力する。参照画像メモリ２０８は、得られた復号対象画像を以降の復号のために蓄積する。

　次に、図５を参照して、図４に示す動画像復号装置２００の動作を説明する。図５は、図４に示す動画像復号装置２００の動作を示すフローチャートである。まず、ビットストリーム入力部２０１は、復号対象画像を符号化したビットストリームを入力し、入力されたビットストリームをビットストリームメモリ２０２に記憶する（ステップＳ２０１）。次に、参照視点動き情報入力部２０３は参照視点動き情報を入力し、入力された参照視点動き情報を動き情報生成部２０５へ出力し、デプスマップ入力部２０４はデプスマップを入力し、入力されたデプスマップを動き情報生成部２０５へ出力する（ステップＳ２０２）。

　なお、ステップＳ２０２で入力される参照視点動き情報とデプスマップは、符号化側で使用されたものと同じものとする。これは動画像符号化装置で得られるものと全く同じ情報を用いることで、ドリフト等の符号化ノイズの発生を抑えるためである。ただし、そのような符号化ノイズの発生を許容する場合には、符号化時に使用されたものと異なるものが入力されてもよい。デプスマップに関しては、別途復号したもの以外に、複数のカメラに対して復号された多視点画像に対してステレオマッチング等を適用することで推定したデプスマップや、復号された視差ベクトルや動きベクトルなどを用いて推定されるデプスマップなどを用いることもある。

　参照視点動き情報は、参照視点に対する画像を復号する際に使用された動き情報を用いてもよいし、参照視点に対して別途符号化されたものでもよい。また、参照視点に対する動画像を復号し、そこから推定して得られた動き情報を用いることも可能である。

　ビットストリーム、参照視点動き情報、デプスマップの入力が終了したら、復号対象画像を予め定められた大きさの領域に分割し、分割した領域ごとに、復号対象画像の映像信号をビットストリームから復号する（ステップＳ２０３～Ｓ２０８）。すなわち、復号対象領域インデックスをｂｌｋ、１フレーム中の総復号対象領域数をｎｕｍＢｌｋｓで表すとすると、ｂｌｋを０で初期化し（ステップＳ２０３）、その後、ｂｌｋに１を加算しながら（ステップＳ２０７）、ｂｌｋがｎｕｍＢｌｋｓになるまで（ステップＳ２０８）、以下の処理（ステップＳ２０４～Ｓ２０６）を繰り返す。一般的な復号では１６画素×１６画素のマクロブロックと呼ばれる処理単位ブロックへ分割するが、符号化側と同じであればその他の大きさのブロックに分割してもよい。

　復号対象領域ごとに繰り返される処理において、まず、動き情報生成部２０５は、復号対象領域ｂｌｋにおける動き情報を生成する（ステップＳ２０４）。ここでの処理は、前述したステップＳ１０４と同じである。復号対象領域ｂｌｋに対する動き情報が得られたら、視点合成画像生成部２０６は、その動き情報に従って、参照画像メモリ２０８に蓄積された画像から、復号対象領域ｂｌｋに対する視点合成画像Ｓｙｎを生成する（ステップＳ２０５）。ここでの処理は、前述したステップＳ１０５と同じである。

　次に、視点合成画像が得られたら、画像復号部２０７は、視点合成画像を予測画像として用いてビットストリームから復号対象画像を復号する（ステップＳ２０６）。得られた復号対象画像は参照画像メモリ２０８に蓄積されると共に、動画像復号装置２００の出力となる。

　復号対象画像の復号には符号化時に用いられた方法に対応する方法を用いる。例えば、ＭＰＥＧ－２やＨ．２６４／ＡＶＣなどの一般的な符号化が用いられている場合は、符号データに対して、エントロピー復号、逆２値化、逆量子化、ＩＤＣＴ（Inverse Discrete Cosine Transform）などの周波数逆変換を順に施し、得られた２次元信号に対して予測画像を加え、最後に画素値の値域でクリッピングを行うことで映像信号を復号する。

　前述した説明では、符号化対象画像または復号対象画像を分割した領域ごとに、動き情報の生成及び視点合成画像の生成を行ったが、動き情報または動き情報と視点合成画像の両方を符号化対象画像または復号対象画像の全体に対して生成してもよい。動き情報を画像全体に対して生成する場合は、生成された動き情報をバッファリングするメモリが必要となる。また、動き情報と視点合成画像の両方を画像全体に対して生成する場合は、生成された視点合成画像を蓄積するためのメモリが必要となる。

　また、前述した説明では、画像全体を符号化/復号する処理として本手法の処理を説明したが、画像の一部分のみに処理を適用することも可能である。この場合、処理を適用するか否かを判断して、適用の要否を示すフラグを符号化または復号してもよいし、なんらか別の手段で適用の要否を指定してもよい。例えば、領域ごとの予測画像を生成する手法を示すモードの１つとして適用の要否を表現する方法を用いてもよい。

　このように、デプスマップから求めた視差を用いて視点合成画像を生成する際に、画素値を視点間で直接予測するのではなく、動きベクトルを視点間で予測した後に、画素値は時間方向に予測することで、デプスマップによって表現される視差の精度が低い場合においても、小数画素精度の予測を実現することが可能となり、少ない符号量で多視点動画像を符号化することができる。

　図６は、前述した動画像符号化装置１００をコンピュータとソフトウェアプログラムとによって構成する場合のハードウェア構成を示すブロック図である。図６に示すシステムは、プログラムを実行するＣＰＵ（Central Processing Unit）５０と、ＣＰＵ５０がアクセスするプログラムやデータが格納されるＲＡＭ（Random Access Memory）等のメモリ５１と、カメラ等からの符号化対象の画像信号を入力する符号化対象画像入力部５２（ディスク装置等による画像信号を記憶する記憶部でもよい）と、メモリ等から参照視点の動き情報を入力する参照視点動き情報入力部５３（ディスク装置等による動き情報を記憶する記憶部でもよい）と、デプスカメラ等からの符号化対象画像を撮影した視点に対するデプスマップを入力するデプスマップ入力部５４（ディスク装置等によるデプスマップを記憶する記憶部でもよい）と、動画像符号化処理をＣＰＵ５０に実行させるソフトウェアプログラムである画像符号化プログラム５５１が格納されたプログラム記憶装置５５と、ＣＰＵ５０がメモリ５１にロードされた画像符号化プログラム５５１を実行することにより生成されたビットストリームを、例えばネットワークを介して出力するビットストリーム出力部５６（ディスク装置等によるビットストリームを記憶する記憶部でもよい）とが、バスで接続された構成になっている。

　図７は、前述した動画像復号装置２００をコンピュータとソフトウェアプログラムとによって構成する場合のハードウェア構成を示すブロック図である。図７に示すシステムは、プログラムを実行するＣＰＵ６０と、ＣＰＵ６０がアクセスするプログラムやデータが格納されるＲＡＭ等のメモリ５１と、動画像符号化装置が本手法により符号化したビットストリームを入力するビットストリーム入力部６２（ディスク装置等によるビットストリームを記憶する記憶部でもよい）と、メモリ等からの参照視点の動き情報を入力する参照視点動き情報入力部６３（ディスク装置等による動き情報を記憶する記憶部でもよい）と、デプスカメラ等からの復号対象を撮影した視点に対するデプスマップを入力するデプスマップ入力部６４（ディスク装置等によるデプス情報を記憶する記憶部でもよい）と、画像復号処理をＣＰＵ６０に実行させるソフトウェアプログラムである画像復号プログラム６５１が格納されたプログラム記憶装置６５と、ＣＰＵ６０がメモリ６１にロードされた画像復号プログラム６５１を実行することにより、ビットストリームを復号して得られた復号対象画像を、再生装置などに出力する復号対象画像出力部６６（ディスク装置等による画像信号を記憶する記憶部でもよい）とが、バスで接続された構成になっている。

　前述した実施形態における動画像符号化装置１００及び動画像復号装置２００をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって、動画像符号化装置１００及び動画像復号装置２００を実現してもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳ（Operating System）や周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ（Read Only Memory）、ＣＤ（Compact Disc）－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。また、動画像符号化装置１００及び動画像復号装置２００は、ＰＬＤ（Programmable Logic Device）やＦＰＧＡ（Field Programmable Gate Array）等のハードウェアを用いて実現されるものであってもよい。

　以上、図面を参照して本発明の実施形態を説明してきたが、上記実施形態は本発明の例示に過ぎず、本発明が上記実施形態に限定されるものではないことは明らかである。したがって、本発明の技術思想及び範囲を逸脱しない範囲で構成要素の追加、省略、置換、その他の変更を行ってもよい。

　本発明は、例えば、符号化（復号）対象画像を撮影した視点とは異なる視点から撮影された画像とそれら画像中の被写体に対するデプスマップを用いて、符号化（復号）対象画像に対して視点合成予測を行う際に、そのデプスマップが高い精度の視差情報を表現していなくても、高い符号化効率を達成する用途に適用できる。

１００・・・動画像符号化装置
１０１・・・符号化対象画像入力部
１０２・・・符号化対象画像メモリ
１０３・・・参照視点動き情報入力部
１０４・・・デプスマップ入力部
１０５・・・動き情報生成部
１０６・・・視点合成画像生成部
１０７・・・画像符号化部
１０８・・・画像復号部
１０９・・・参照画像メモリ
２００・・・動画像復号装置
２０１・・・ビットストリーム入力部
２０２・・・ビットストリームメモリ
２０３・・・参照視点動き情報入力部
２０４・・・デプスマップ入力部
２０５・・・動き情報生成部
２０６・・・視点合成画像生成部
２０７・・・画像復号部
２０８・・・参照画像メモリ

Claims

　複数の異なる視点の動画像からなる多視点動画像の１フレームを符号化する際に、符号化対象画像とは異なる参照視点に対する参照視点画像の動き情報である参照視点動き情報と、前記多視点動画像中の被写体に対するデプスマップとを用いて、異なる視点間で予測しながら、前記符号化対象画像を分割した領域である符号化対象領域ごとに、符号化を行う動画像符号化装置であって、
　前記符号化対象領域に対して、前記デプスマップ上での対応領域を設定する対応領域設定部と、
　前記符号化対象領域を分割した領域である予測領域を設定する領域分割部と、
　前記予測領域ごとに、前記対応領域内の当該予測領域に対応する領域におけるデプス情報を用いて、前記参照視点に対する視差ベクトルを生成する視差ベクトル生成部と、
　前記参照視点に対する前記視差ベクトルに基づいて、前記参照視点動き情報から前記予測領域における動き情報を生成する動き情報生成部と、
　前記予測領域における前記動き情報を用いて、前記予測領域に対する予測画像を生成する予測画像生成部と
　を備える動画像符号化装置。
　前記視差ベクトル生成部は、さらに、前記符号化対象領域に対して、前記デプスマップに対する視差ベクトルを生成し、
　前記対応領域設定部は、前記デプスマップに対する前記視差ベクトルによって示される領域を前記対応領域として設定する請求項１に記載の動画像符号化装置。
　前記視差ベクトル生成部は、前記符号化対象領域に隣接する領域を符号化する際に使用した視差ベクトルを用いて、前記デプスマップに対する前記視差ベクトルを設定する請求項２に記載の動画像符号化装置。
　前記領域分割部は、前記対応領域内のデプス情報に基づいて、前記符号化対象領域に対する領域分割を設定する請求項１から３のいずれか１項に記載の動画像符号化装置。
　前記視差ベクトル生成部は、前記予測領域ごとに、前記対応領域内の当該予測領域に対応する前記領域における前記デプス情報から代表デプスを設定し、当該代表デプスに基づいて前記参照視点に対する前記視差ベクトルを設定する請求項１から４のいずれか１項に記載の動画像符号化装置。
　前記動き情報生成部は、前記予測領域に対して予め定められた画素の位置と前記参照視点に対する前記視差ベクトルとを用いて、前記参照視点における対応位置を求め、前記参照視点動き情報のうち、当該対応位置を含む領域に対して与えられた動き情報を前記予測領域における前記動き情報とする請求項１から請求項５のいずれか１項に記載の動画像符号化装置。
　前記符号化対象画像に対して、符号化対象視点における前記符号化対象画像とは異なる既に符号化済みの１フレームを参照画像として設定する参照画像設定部をさらに備え、
　前記動き情報生成部は、前記参照視点動き情報から得られた動き情報を、前記符号化対象画像と前記参照画像との時間間隔に合わせてスケーリングすることで前記予測領域における前記動き情報を生成する請求項１から請求項６のいずれか１項に記載の動画像符号化装置。
　前記予測画像生成部は、前記予測領域における前記動き情報を用いて生成した第１の予測画像と、前記参照視点に対する前記視差ベクトルと前記参照視点画像とを用いて生成した第２の予測画像とを用いて、前記予測領域に対する前記予測画像を生成する請求項１から請求項７のいずれか１項に記載の動画像符号化装置。
　複数の異なる視点の動画像からなる多視点動画像の符号データから、復号対象画像を復号する際に、前記復号対象画像とは異なる参照視点に対する参照視点画像の動き情報である参照視点動き情報と、前記多視点動画像中の被写体に対するデプスマップとを用いて、異なる視点間で予測しながら、前記復号対象画像を分割した領域である復号対象領域ごとに、復号を行う動画像復号装置であって、
　前記復号対象領域に対して、前記デプスマップ上での対応領域を設定する対応領域設定部と、
　前記復号対象領域を分割した領域である予測領域を設定する領域分割部と、
　前記予測領域ごとに、前記対応領域内の当該予測領域に対応する領域におけるデプス情報を用いて、前記参照視点に対する視差ベクトルを生成する視差ベクトル生成部と、
　前記参照視点に対する前記視差ベクトルに基づいて、前記参照視点動き情報から前記予測領域における動き情報を生成する動き情報生成部と、
　前記予測領域における前記動き情報を用いて、前記予測領域に対する予測画像を生成する予測画像生成部と
　を備える動画像復号装置。
　前記視差ベクトル生成部は、さらに、前記復号対象領域に対して、前記デプスマップに対する視差ベクトルを生成し、
　前記対応領域設定部は、前記デプスマップに対する前記視差ベクトルによって示される領域を前記対応領域として設定する請求項９に記載の動画像復号装置。
　前記視差ベクトル生成部は、前記復号対象領域に隣接する領域を復号する際に使用した視差ベクトルを用いて、前記デプスマップに対する前記視差ベクトルを設定する請求項１０に記載の動画像復号装置。
　前記領域分割部は、前記対応領域内のデプス情報に基づいて、前記復号対象領域に対する領域分割を設定する請求項９から請求項１１のいずれか１項に記載の動画像復号装置。
　前記視差ベクトル生成部は、前記予測領域ごとに、前記対応領域内の当該予測領域に対応する前記領域における前記デプス情報から代表デプスを設定し、当該代表デプスに基づいて前記参照視点に対する前記視差ベクトルを設定する請求項９から請求項１２のいずれか１項に記載の動画像復号装置。
　前記動き情報生成部は、前記予測領域に対して予め定められた画素の位置と前記参照視点に対する前記視差ベクトルとを用いて、前記参照視点における対応位置を求め、前記参照視点動き情報のうち、当該対応位置を含む領域に対して与えられた動き情報を前記予測領域における前記動き情報とする請求項９から請求項１３のいずれか１項に記載の動画像復号装置。
　前記復号対象画像に対して、復号対象視点における前記復号対象画像とは異なる既に復号済みの１フレームを参照画像として設定する参照画像設定部をさらに備え、
　前記動き情報生成部は、前記参照視点動き情報から得られた動き情報を、前記復号対象画像と前記参照画像との時間間隔に合わせてスケーリングすることで前記予測領域における前記動き情報を生成する請求項９から請求項１４のいずれか１項に記載の動画像復号装置。
　前記予測画像生成部は、前記予測領域における前記動き情報を用いて生成した第１の予測画像と、前記参照視点に対する前記視差ベクトルと前記参照視点画像とを用いて生成した第２の予測画像とを用いて、前記予測領域に対する前記予測画像を生成する請求項９から請求項１５のいずれか１項に記載の動画像復号装置。
　複数の異なる視点の動画像からなる多視点動画像の１フレームを符号化する際に、符号化対象画像とは異なる参照視点に対する参照視点画像の動き情報である参照視点動き情報と、前記多視点動画像中の被写体に対するデプスマップとを用いて、異なる視点間で予測しながら、前記符号化対象画像を分割した領域である符号化対象領域ごとに、符号化を行う動画像符号化方法であって、
　前記符号化対象領域に対して、前記デプスマップ上での対応領域を設定する対応領域設定ステップと、
　前記符号化対象領域を分割した領域である予測領域を設定する領域分割ステップと、
　前記予測領域ごとに、前記対応領域内の当該予測領域に対応する領域におけるデプス情報を用いて、前記参照視点に対する視差ベクトルを生成する視差ベクトル生成ステップと、
　前記参照視点に対する前記視差ベクトルに基づいて、前記参照視点動き情報から前記予測領域における動き情報を生成する動き情報生成ステップと、
　前記予測領域における前記動き情報を用いて、前記予測領域に対する予測画像を生成する予測画像生成ステップと
　を有する動画像符号化方法。
　複数の異なる視点の動画像からなる多視点動画像の符号データから、復号対象画像を復号する際に、前記復号対象画像とは異なる参照視点に対する参照視点画像の動き情報である参照視点動き情報と、前記多視点動画像中の被写体に対するデプスマップとを用いて、異なる視点間で予測しながら、前記復号対象画像を分割した領域である復号対象領域ごとに、復号を行う動画像復号方法であって、
　前記復号対象領域に対して、前記デプスマップ上での対応領域を設定する対応領域設定ステップと、
　前記復号対象領域を分割した領域である予測領域を設定する領域分割ステップと、
　前記予測領域ごとに、前記対応領域内の当該予測領域に対応する領域におけるデプス情報を用いて、前記参照視点に対する視差ベクトルを生成する視差ベクトル生成ステップと、
　前記参照視点に対する前記視差ベクトルに基づいて、前記参照視点動き情報から前記予測領域における動き情報を生成する動き情報生成ステップと、
　前記予測領域における前記動き情報を用いて、前記予測領域に対する予測画像を生成する予測画像生成ステップと
　を有する動画像復号方法。
　コンピュータに、請求項１７に記載の動画像符号化方法を実行させるための動画像符号化プログラム。
　コンピュータに、請求項１８に記載の動画像復号方法を実行させるための動画像復号プログラム。