JP6038360B2

JP6038360B2 - エンハンストダイナミックレンジ信号の階層符号化のための適応的再構成

Info

Publication number: JP6038360B2
Application number: JP2015563023A
Authority: JP
Inventors: スゥ，グワン‐ミーン; アトキンス，ロビン; スコットミラー，ジョン
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション
Priority date: 2013-06-17
Filing date: 2014-06-16
Publication date: 2016-12-07
Anticipated expiration: 2034-06-16
Also published as: US20160134872A1; WO2014204865A1; US9716887B2; JP2016529741A; EP3011741B1; CN105324997B; EP3011741A1; US20170085881A1; US9584811B2; JP6181259B2; CN105324997A; JP2017079471A; CN106488246A; JP2017022737A; CN106488246B; JP6312775B2; HK1217393A1

Description

本願は、２０１３年６月１７日出願の米国特許仮出願第６１／８３６，０４４号、２０１４年３月１２日出願の米国特許仮出願第６１／９５１，９１４号、および、２０１４年５月２３日出願の米国特許仮出願第６２／００２，６３１号に基づく優先権を主張するものであり、これらの出願の開示内容の全てを本願に援用する。

本願は、２０１４年３月２５日出願の国際出願第ＰＣＴ／ＵＳ２０１４／０３１７１６号にも関連し得るものであり、この出願の開示内容の全てを本願に援用する。

本発明は、広義には、ビデオ画像に関する。より具体的には、本発明のある実施形態は、階層符号化および復号化のための、ハイまたはエンハンスト（ｅｎｈａｎｃｅｄ）ダイナミックレンジを有する画像の適応的再構成（ａｄａｐｔｉｖｅｒｅｓｈａｐｉｎｇ）に関する。

本明細書において、用語「ダイナミックレンジ」（ＤＲ）は、画像においてある範囲の強度（例えば、輝度、ルマ）（例えば、最暗部（黒）から最明部（白）まで）を知覚する人間の心理視覚システム（ＨＶＳ）の能力に関連し得る。この意味では、ＤＲはシーン−リファード（ｓｃｅｎｅ−ｒｅｆｅｒｒｅｄ）の強度に関する。ＤＲはまた、ディスプレイデバイスが特定の幅を有する強度範囲を妥当にまたは近似的に描画する能力にも関連し得る。この意味では、ＤＲは、ディスプレイ−リファード（ｄｉｓｐｌａｙ−ｒｅｆｅｒｒｅｄ）の強度に関する。本明細書中の任意の箇所において、ある特定の意味が特に明示的に指定されている場合を除いて、この用語はどちらの意味としても（例えば、区別なく）使用できるものとする。

本明細書において、ハイダイナミックレンジ（ＨＤＲ）という用語は、人間の視覚システム（ＨＶＳ）において１４〜１５桁ほどにわたるＤＲ幅に関する。例えば、しっかりと順応した、実質的に正常（例えば、統計的な意味、バイオメトリック的な意味、または、眼科的な意味の１つ以上において）な人間は、約１５桁にわたる強度範囲を有する。順応した人間は、ほんの少量の光子のうす暗い光源を知覚し得る。また、同じ人間が、砂漠、海または雪上における真昼の太陽の、目が痛くなるほどの明るい強度を知覚し得る（また、怪我をしないような短時間であるとしても太陽を見ることもできる）。ただし、この範囲は、「順応した人間」、例えば、そのＨＶＳをリセットして調節する時間を経た人間に当てはまるものである。

これに対して、人間が、広範囲の強度範囲を同時に知覚し得るＤＲは、ＨＤＲに対して幾分端折られ得る。本明細書において、エンハンストダイナミックレンジ（ＥＤＲ）または視覚ダイナミックレンジ（ＶＤＲ）という用語は、個別にまたは区別なく、ＨＶＳによって同時に知覚可能なＤＲに関連し得る。本明細書において、ＥＤＲは、５〜６桁にわたるＤＲに関連し得る。従って、真のシーンリファードのＨＤＲに対して幾分狭いものの、ＥＤＲは、広いＤＲ幅を示す。

実際には、画像は、１つ以上の色成分（例えば、輝度Ｙおよび色差ＣｂおよびＣｒ）を有し、各色成分はｎビット／ピクセルの精度で表される（例えば、ｎ＝８）。輝度ダイナミックレンジとビット深度は同じものではないが、しばしば相互に関連性がある。ｎ≦８の画像（例えば、カラー２４ビットＪＰＥＧ画像）は標準的なダイナミックレンジの画像とされ、ｎ＞８の画像はエンハンストダイナミックレンジの画像とされる。ＥＤＲおよびＨＤＲ画像は、”ＩｎｄｕｓｔｒｉａｌＬｉｇｈｔａｎｄＭａｇｉｃ”が開発したＯｐｅｎＥＸＲファイルフォーマットなどの高精度の（例えば、１６ビット）浮動小数点フォーマットを用いて、保存および配信され得る。

ビデオ信号は、ビット深度、色空間、色域および解像度などの複数のパラメータによって特徴付けられる。最新のテレビおよびビデオ再生デバイス（例えば、ブルーレイプレーヤー）は、標準解像度（例えば、７２０×４８０ｉ）および高精細（ＨＤ）（例えば、１９２０×１０８０ｐ）を含む様々な解像度をサポートしている。超高精細（ＵＨＤ）は、少なくとも３，８４０×２，１６０の解像度（「４ＫＵＨＤ」）を有し、７６８０×４３２０（「８ＫＵＨＤ」）まで上げられるオプションを有する次世代解像度フォーマットである。超高精細は、ＵｌｔｒａＨＤ、ＵＨＤＴＶまたはスーパーハイビジョンとも呼ばれることがある。本明細書において、ＵＨＤは、ＨＤ解像度よりも高い任意の解像度を指す。

新しいＨＤＲまたはＵＨＤ符号化およびディスプレイ技術だけでなく、旧式の８ビットの再生デバイスとの下位互換性をサポートするために、上流側デバイスから下流側デバイスへとＵＨＤおよびＨＤＲ（またはＥＤＲ）ビデオデータを送信する際に、複数フォーマットが用いられ得る。あるＥＤＲストリームに対して、あるデコーダは、１セットの８ビットレイヤを用いて、コンテンツのＨＤＳＤＲまたはＥＤＲバージョンを再構築し得る。新型のデコーダは、従来の８ビットよりも高いビット深度で符号化された第２のセットのレイヤを用いて、コンテンツのＵＨＤＥＤＲバージョンを再構築し、それをより高性能なディスプレイ上に描画し得る。本願発明者も理解しているように、ＥＤＲビデオの符号化および配信のためにより向上した技術が望まれる。

本節に記載されている手法は、探求し得る手法ではあるが、必ずしもこれまでに着想または探求されてきた手法ではない。従って、特に反対の記載がない限り、本節に記載された手法のいずれも、本節に記載されているという理由だけで従来技術としての適格性を有すると考えるべきではない。同様に、特に反対の記載がない限り、１以上の手法に関して特定される問題が、本節に基づいて、いずれかの先行技術において認識されたことがあると考えるべきではない。

図１Ａは、本発明のある実施形態による、ＥＤＲ階層符号化のフレームワーク例を示す図である。図１Ｂは、本発明のある実施形態による、ＥＤＲ階層復号化のフレームワーク例を示す図である。図２は、本発明のある実施形態による、関数パラメータａを決定する、べき関数に基づくＥＤＲ信号再構成関数の一例を示す図である。図３は、本発明のある実施形態による、ＥＤＲ入力の順方向構成関数の最適な指数を決定する処理例を示す図である。図４は、本発明のある実施形態による、ＥＤＲ符号語の順方向マッピングを決定する処理例を示す図である。図５は、入力ＥＤＲ符号語（ｖ_c）を、本発明のある実施形態に従って算出される、ブロックベースのスケーリング係数（ｋ（ｖ_c））に中間マッピングする一例を示す図である。図６は、本発明のある実施形態による、入力ＥＤＲ符号語を最終出力である再構成済みシンボルにマッピングする一例を示す図である。図７は、本発明のある実施形態に従って算出される、逆方向マッピングの一例を示す図である。図８Ａおよび図８Ｂは、本発明のある実施形態による色度範囲スケーリングの一例を示す図である。図９は、本発明のある実施形態による、符号化および復号化パイプラインの一例を示す図である。

エンハンストダイナミックレンジ（ＥＤＲ）を有するビデオ画像の階層符号化のための、適応的再構成技術を本明細書に説明する。以下の説明においては、便宜上、本発明を完全に理解できるように、多数の詳細事項を説明する。ただし、これらの詳細事項が無くても本発明を実施可能であることは明白であろう。他方、本発明の説明を不必要に煩雑にしたり、不明瞭にしたり、難読化したりしないように、周知の構造およびデバイスの細かな詳細までは説明しない。

同様の部材に同様の参照符号を付した添付図面の各図において、本発明のある実施形態を限定する事なく例示する。

概要
本明細書に記載の実施形態例は、効率的な階層符号化を行うための、ハイまたはエンハンストダイナミックレンジを有するビデオ画像の適応的再構成に関する。エンコーダは、レイヤ表現で符号化されるための入力エンハンストダイナミックレンジ（ＥＤＲ）画像を受信する。入力画像は、ガンマ符号化されていてもよいし、利用可能なビデオエンコーダの１つ以上でサポートされていないビット深度フォーマットを用いて知覚的符号化されていてもよい。入力画像を１つ以上の量子化レイヤに再マッピングし、これにより、利用可能なビデオエンコーダを用いた圧縮に適した出力符号語を生成する。

ある実施形態において、再マッピングは、単一の関数パラメータを用いたべき関数に基づいている。入力ＥＤＲ画像中の各ブロックについてブロックベースの複雑性尺度を算出し、その後、量子化画像における量子化に起因する歪みの量を評価することにより、最適な関数パラメータを求める技術を説明する。

別の実施形態においては、標準偏差のようなブロックベースの複雑性尺度と、ブロックベースの線形量子化モデル（各画像ブロックについて別々の最適な量子化器スケーラを求める）とを用いて、最適マッピングを生成する。この別々の最適スケーラを組み合わせることにより、各入力符号語について包絡線の傾きを求め、入力および出力符号語間の最適な順方向マッピング関数を包絡線の傾きに基づいて求める。逆方向マッピング関数を、ルックアップテーブルとしてデコーダに送信してもよいし、区分的多項式近似を用いて近似してもよい。

別の実施形態において、ある逆方向マッピングルックアップテーブルが与えられると、多項式近似技術を用いて逆方向マッピング関数が近似される。

デコーダにおいて、符号化ビットストリームレイヤを復号化することによって復号化ビデオレイヤを生成し、これら復号化ビデオレイヤを再結合して１つの復号化信号を生成する。そして、エンコーダの再構成（ｒｅｓｈａｐｉｎｇ）またはマッピング関数を定義する受信パラメータが与えられると、復号化信号を逆方向マッピングして、これにより、エンコーダからデコーダに送信される元のＥＤＲ信号の推定結果を生成する。

別の実施形態においては、所望の白色点の座標が変換後の色度範囲の中心に概ねシフトされるように、入力ビデオ信号の色度色成分を変換してもよい。

ビデオ信号再構成および階層分解のためのフレームワーク例
階層符号化および復号化
ＨＤＴＶ、セットトップボックスまたはブルーレイプレーヤーのような既存のディスプレイおよび再生デバイスは、典型的に、最大１０８０ｐＨＤ解像度（例えば、１９２０×１０８０６０フレーム／秒）までの信号をサポートしている。家庭用用途では、このような信号は、現在、典型的には色差成分が輝度成分よりも低い解像度を有するような輝度−色差色フォーマット（例えば、ＹＣｂＣｒまたはＹＵＶ４：２：０色フォーマット）で、各色成分について８ビット／ピクセルのビット深度を用いて典型的に圧縮される。８ビットの深度およびそれに対応する低ダイナミックレンジのために、これらの信号は典型的には、標準ダイナミックレンジ（ＳＤＲ）を有する信号と呼ばれる。超高精細（ＵＨＤ）などの新しいテレビ規格が開発される中、エンハンスト（ｅｎｈａｎｃｅｄ）解像度および／またはエンハンストダイナミックレンジを用いて信号を符号化することが望まれ得る。

ビデオ画像は、典型的には、人間の視覚システムの特性を補うためにガンマ符号化される。例えば、ＩＴＵ−ＲＲｅｃ２０２０は、推奨されるＵＨＤＴＶ信号のガンマ符号化を定義している。ＥＤＲ画像については、知覚量子化（ＰＱ）は、従来のガンマ符号化よりも良い代替法であり得る。人間の視覚システムは、光レベルの増大に対して非常に非線形的に反応する。人間が刺激を見る能力は、その刺激の輝度、その刺激の大きさ、その刺激を構成する空間周波数、および、その刺激を見ている瞬間までに目が順応した輝度レベルに影響される。知覚的量子化器関数は、線形入力グレイレベルを、人間の視覚システムにおけるコントラスト感度閾値によりマッチした出力グレイレベルにマッピングする。ＰＱマッピング関数の一例は、Ｊ．Ｓ．Ｍｉｌｌｅｒらによる２０１２年１２月０６日出願の「Ｐｅｒｃｅｐｔｕａｌｌｕｍｉｎａｎｃｅｎｏｎｌｉｎｅａｒｉｔｙ−ｂａｓｅｄｉｍａｇｅｄａｔａｅｘｃｈａｎｇｅａｃｒｏｓｓｄｉｆｆｅｒｅｎｔｄｉｓｐｌａｙｃａｐａｂｉｌｉｔｉｅｓ」という表題のＰＣＴ出願シリアル番号第ＰＣＴ／ＵＳ２０１２／０６８２１２号（以下、「‘２１２出願」と呼ぶ）に記載されており、この出願の開示内容を全て本願に援用する。上記ＰＣＴ出願において、ある固定刺激サイズに対して、それぞれの輝度レベル（即ち、刺激レベル）について、最高感度の適応レベルおよび最高感度の空間周波数（ＨＶＳモデルによる）に応じて、その輝度レベルにおける最小可視コントラストステップを選択する。物理的な陰極線管（ＣＲＴ）装置の応答曲線を表しており、人間の視覚システムの応答の仕方に対して非常に大まかな類似性を偶然有し得る従来のガンマ曲線と比較して、‘２１２出願において決定されているＰＱ曲線は、比較的シンプルな関数モデルを用いながら人間の視覚システムの本当の視覚応答を模擬している。

本願にその開示内容が援用される２０１３年３月２６日出願の「Ｅｎｃｏｄｉｎｇｐｅｒｃｅｐｔｕａｌｌｙ−ｑｕａｎｔｉｚｅｄｖｉｄｅｏｃｏｎｔｅｎｔｉｎｍｕｌｔｉ−ｌａｙｅｒＶＤＲｃｏｄｉｎｇ」という表題の米国特許仮出願シリアル番号第６１／８０５，３８８号（以下「‘３８８出願」と呼ぶ）（２０１４年３月２５日にＰＣＴ／ＵＳ２０１４／０３１７１６としても出願されている）において、発明者らは、２レイヤエンコーダを用いたＰＱ符号化ＥＤＲ画像データの効率的な符号化および送信を行うための、画像再構成技術を記載している。本願は、シングルレイヤまたはマルチレイヤエンコーダの両方を用いた、ＥＤＲデータの符号化に適用可能な新規なマッピングまたは再構成技術を記載することによって‘３８８出願を発展させたものである。

図１Ａは、本発明のある実施形態による、ＥＤＲ階層符号化のフレームワーク例を示す。入力信号（１０２）は、ガンマまたはＰＱ符号化され得るＥＤＲピクセル値を有する、ビデオフレームシーケンスを含む。システムは、少なくとも１つのベースレイヤ（ＢＬ）ビデオエンコーダ（１２０−０）を含み、合計Ｌ個の符号化レイヤに対して、１つ以上、最大Ｌ−１個のエンハンスメントレイヤ（ＥＬ）ビデオエンコーダ（１２０−１，１２０−Ｌ−１）を含み得る。例えば、Ｌ＝２の場合、システムは、１つのデュアルレイヤエンコーダを含む。ビデオエンコーダ（１２０）は全て同じでもよく、または異なっていてもよく、ＭＰＥＧ−２、ＭＰＥＧ−４、ｐａｒｔ２、Ｈ．２６４（またはＡＶＣ）、Ｈ．２６５（またはＨＥＶＣ）等のような既知の、または未来のビデオ圧縮用符号化フォーマットを実行する。さらに、あるレイヤのビデオエンコーダが、別のレイヤのビデオエンコーダとは異なるビット深度をサポートし得る。例えば、限定はしないが、実施形態は、以下の構成を有していてもよい。
・少なくとも１０ビットのビット深度をサポートし、好ましくは１２ビット以上をサポートする、シングルレイヤのＨＥＶＣエンコーダ。
・デュアルレイヤエンコーダであって、両方のエンコーダが同じフォーマット（例えばＨ．２６４）を用いて符号化を行い、両方のエンコーダが同じまたは異なるビット深度（例えば８ビットおよび１０ビット）をサポートするようなデュアルレイヤエンコーダ。
・デュアルレイヤエンコーダであって、２つのエンコーダは異なる符号化フォーマットを用いて符号化を行い、それぞれが異なるビット深度（例えば８ビットおよび１０ビット以上）をサポートし得るような、デュアルレイヤエンコーダ。
・マルチレイヤエンコーダであって、少なくとも１つのエンコーダが８ビットＭＰＥＧ−２エンコーダであり、少なくとも他方のエンコーダがＨＥＶＣまたはＨ．２６４エンコーダである、マルチレイヤエンコーダ。
ビデオエンコーダ（１２０）は、全て、単一のプロセッサまたは１つ以上のプロセッサによって実施され得る。

ある実施形態によれば、信号再構成モジュール（１１０）は、入力ＥＤＲ信号（ｖと表記する）（１０２）を量子化して、最大サポートビット深度などのビデオエンコーダ（１２０）の特性により良く適合する、信号ｓ（１１２）を得る。本明細書において、「再構成（ｒｅｓｈａｐｉｎｇ）」、「量子化」および「（順方向）マッピング」の用語は、入力信号を第１のダイナミックレンジから（典型的には第１のダイナミックレンジよりも低い）第２のダイナミックレンジの出力信号へとマッピングする同様な機能を指し、互いに区別無く使用され得る。

Ｂ_lがｌ番目のレイヤビデオエンコーダ（１２０−ｌ、ｌ＝０、１、２、．．．、Ｌ−１）が用いるビット深度を指すものとすると、各レイヤは、合計Ｎ_T＝Ｎ₀＋Ｎ₁＋．．．＋Ｎ_L-1個の符号語に対して、最大Ｎ_l＝２^Bl個の入力符号語をサポートできる。例えば、Ｌ＝１（シングルレイヤ）およびＢ₀＝１０の場合、２¹⁰＝１０２４個の量子化符号語が存在する。Ｌ＝２（デュアルレイヤ）およびＢ₀＝Ｂ₁＝８の場合、２⁸＋２⁸＝５１２個の量子化符号語が存在する。Ｌ＝２およびＢ₀＝１０およびＢ₁＝８の場合、合計２¹⁰＋２⁸＝１２８０個の量子化符号語が存在する。よって、システムは、それぞれが独自のビット深度で動作する複数のビデオ符号化規格の、任意の組み合わせに対応し得る。

ｓ＝ｆ（ｖ）が信号再構成／量子化関数（１１０）を表すものとする。このような関数の例は詳しく後述する。再構成関数を特定するパラメータが、メタデータ信号（１１９）として含まれていてもよい。いくつかの実施形態において、メタデータ（１１９）はメタデータエンコーダ（１２５）によって符号化され、符号化メタデータ（１２７）は、適切な逆量子化および復号化のために、図１Ｂに示したようなデコーダに送信され得る。別の実施形態において、信号再構成（１１０）は、１群の信号再構成関数を含み、１つ以上のレイヤに対して、または１レイヤ内の１つ以上の色度成分に対して、別々の構成関数を用いてもよい。例えば、ある実施形態において、ベースレイヤ（ｌ＝０）の信号再構成関数は線形関数である一方で、第１のエンハンスメントレイヤ（ｌ＝１）の信号再構成関数は非線形関数または区分線形関数を含んでいてもよい。

レイヤ分解
ある実施形態において、量子化信号ｓ（１１２）のピクセル値を、区分境界｛ｐ_i、ｉ＝０、１、．．．、Ｌ｝によって定義されるＬ個の区分に分割するものとする。ただし、ｐ₀は典型的にはｓの最小値（例えば、ｐ₀＝０）を表し、

である。

例えば、Ｌ＝１の場合、ｐ₀＝０およびｐ₁＝Ｎ₀である。このモジュールは、全符号語をベースレイヤに符号化する。

Ｌ＝２の場合、ｐ₀＝０、ｐ₁＝Ｎ₀、ｐ₂＝Ｎ₀＋Ｎ₁である。ある実施形態において、｛ｐ₀、ｐ₁｝間の符号語を有するピクセルはレイヤ０で符号化され、｛ｐ₁、ｐ₂｝間の符号語を有するピクセルはレイヤ１で符号化される。一般的に、Ｌ個のレイヤがあった場合、各レイヤｌに対して、当該レイヤのｓ_lピクセルは、以下のように符号化される。
ｓ_l＝Ｃｌｉｐ３（ｓ，ｐ_l，ｐ_l+1−１）−ｐ_l，
ｌ＝０，１，２，…，Ｌ−１（２）
ただし、ｄ＝Ｃｌｉｐ３（ｓ，ａ，ｂ）はクリッピング関数を表し、ここで、ａ≦ｓ≦ｂであればｄ＝ｓであり、ｓ＜ａであればｄ＝ａであり、ｓ＞ｂであればｄ＝ｂである。

レイヤ分解（１１５）後、ある実施形態においては、各レイヤｓ_l（１１７−ｌ、ｌ＝０、１、．．．、Ｌ−１）をビデオエンコーダ（１２０）でそれぞれ独立して符号化し、これにより、圧縮ビットストリーム（１２２）を生成してもよい。‘３８８出願において説明されているように、いくつかの実施形態において、図１Ａに示すシステムを改変して、レイヤ間予測をも可能にしてもよい。そのような実施形態においては、予測器を用いて、ｌ−１レイヤのピクセル値に基づいてｌ番目のレイヤのピクセル値を推定すればよく、その後、ｌ番目のレイヤのピクセル値を直接符号化するのではなく、実値および予測値の間の残差を単に符号化して送信する。

いくつかの実施形態において、符号化ビットストリーム（１２２）、符号化メタデータ（１２７）および他のデータ（例えば、オーディオデータ）を多重化して単一のビットストリームにし、単一の多重化されたビットストリーム（図示せず）としてデコーダに送信してもよい。

図１Ｂは、本発明のある実施形態によるＥＤＲ階層復号化のフレームワーク例を示す。図１Ｂに示すように、オーディオ、ビデオおよび補助的なデータ（図示せず）を組み合わせ得る受信ビットストリームを多重分離した後、受信符号化ビットストリーム（１２２）をそれぞれビデオデコーダ（１３０）アレイに送る。デコーダ群（１３０）はエンコーダ群（１２０）に対応し、１つ以上の復号化ビデオ信号（１３２）を生成する。信号逆再構成（ｉｎｖｅｒｓｅｒｅｓｈａｐｉｎｇ）およびレイヤ結合器（１４０）ユニットを用いて、受信した階層信号を結合および逆再構成して信号（＾付ｖ）（１４２）（元のＥＤＲ信号（１０２）の推定結果を表す）を生成する。ある実施形態において、出力ＥＤＲ信号（１４２）は以下のように生成され得る。

ただし、ｆ^-1（）は、信号再構成関数（１１０）の逆数（または逆数の近い近似値）を表し、（＾付ｓ_l）は、元のｓ_l信号（１１７）の非常に近い近似値を表す再構築されたレイヤ信号（１３２）を表す。図１Ｂに示すように、受信レイヤ間においてレイヤ間予測は無い。しかし、ビデオ符号化の分野において公知であるように、容易にこのシステムは拡張することができ、受信した残差信号およびレイヤ間予測を用いて（＾付ｓ_l）信号を生成するデコーダとすることができる。

べき関数を用いたＥＤＲ信号再構成
‘３８８出願に記載のように、ＰＱ符号化された信号について、ある実施形態においては、信号再構成関数（１１０）は以下のように表される。

ただし、ｖ_Lおよびｖ_Hは、入力ＥＤＲ信号（１０２）について検討中のカラーチャンネルにおける最小値および最大値を表し、ｃ_Lおよびｃ_Hは対応する最小および最大出力値を表す。例えば、ある実施形態においては、等式（１）に定義されるように、ｃ_L＝０およびｃ_H＝ｐ_L−１である。αの値は一定であるが、フレーム毎に、シーン毎に、または、他の適切な基準に従って適応および変更してもよい。図２は、α＜１についての等式（４）のべき再構築関数の一例を示す。ある実施形態においては、入力（１１２）がＰＱ符号化されている場合α＞１であり、またそうではなく、入力（１１２）がガンマ符号化されている場合α＜１である。

‘３８８出願には、あるブロック内のピクセルの標準偏差またはそのブロック内の最小と最大ピクセル値の差分に基づいて、ブロック複雑性尺度（ｍｅｔｒｉｃｓ）（Ｍ_EDR）を用いて、αの最適値を求める方法を記載した。これらの尺度に加えて、あるブロックの空間的または周波数特性のいずれかに基づいて他の複雑性尺度を適用することも可能である。例えば、Ｍ_EDRは、ブロック内でのピクセルの分散、ブロックのＤＣ値、または、そのピクセル値あるいはＤＣＴ係数の別の関数に対応していてもよい。

それぞれＮブロックに区分された（例えば、各ブロックは８ｘ８ピクセル）Ｆ枚のビデオフレームを含むビデオシーンについて考える。画像ブロックはオーバーラップしていてもよいが、好適な実施形態においてはオーバーラップしていない。図３は、一般化したブロック複雑性尺度Ｍ_EDR（ｊ，ｎ）（例えば、限定はしないが、ブロック内のピクセル値の標準偏差）に基づいて最適なαを算出する処理を示す。

図３に示すように、そのシーン内の全フレームについてブロック毎にＭ_EDR（ｊ，ｎ）を算出する工程（３０５）の後、工程（３１０）において、ある基準（例えば、Ｍ_EDR（ｊ，ｎ）＞Ｔ但し、Ｔは予め定められた閾値（例えば０）である）を満たす全画像ブロックを含む１つの集合（ｓｅｔ）Φ_jを構築する。

工程（３１５）、（３２０）および（３２５）は、所定の範囲（例えば、ＭＩＮ＿α≦α_j≦ＭＡＸ＿α）内の様々なα_j値について算出されるループ（３２７）を構成する。例えば、α_jは始めに１に等しくしておき、その後、元のＥＤＲビデオデータがどのように符号化されているかによって増減させてもよい。例えば、ＰＱ符号化されたデータの場合には増加し、ガンマ符号化されたデータの場合には低減してもよい。工程（３２０）においては、与えられたα_jおよび等式（４）を用いて、入力データＥＤＲを量子化し、量子化された各ブロックについて新たな尺度Ｍ_LD（ｊ，ｎ，α_j）を算出してもよい。いくつかの実施形態において、複雑性尺度Ｍ_LDは複雑性尺度Ｍ_EDRと同一である。他の実施形態においては、これら２つの複雑性尺度は異なっていてもよい。入力ＥＤＲデータを量子化する程、量子化信号（１１２）の特性はより変化する。理想的には、量子化（１１０）がなるべく入力を歪ませない方がよい。工程（３２５）においては、量子化による歪みの尺度を適用して、選択α_j値が最適かどうかを突き止めてもよい。例えば、ある実施形態において、

の場合に、α_jを最適として選択してもよい。ただし、Ｔσはまた別の所定の閾値（例えば、Ｔσ＝０）

あるシーンの全ブロックを量子化した後、工程（３３０）において総合的に最適なアルファ値を選択する。例えば、ある実施形態において、α＞１の場合、総合的に最適なαは、全最適α_j値に対して最小であるαとして選択する。同様に、α＜１の場合、総合的に最適なαは、全最適α_j値に対して最大であるαとして選択する。

いくつかの実施形態において、ビデオエンコーダ（１２０）による損失の多い圧縮に起因する量子化の影響に対して調節するために、総合的に最適なアルファをさらに調節してもよい（例えば、α＝α＋Δα、但し、α＞１の場合はΔは負の値であり、α＜１の場合はΔは正の値である）。同パラメータ最適化処理は、複数の関数パラメータで特徴付けられる、他の線形または非線形量子化関数および再構築関数に、容易に拡張することができる。

表１は、図３に示す処理（所望のα＜１である）に基づくある実施形態による、ガンマ符号化値を再構成するためのアルゴリズムの一例を疑似コードで示したものである。
表１：ガンマ符号化ＥＤＲ信号について最適なαを算出する方法

デコーダにおいて、逆構成処理（１４０）は以下のように表すことができる。

いくつかの実施形態において、等式（４）のべき関数は、区分的線形多項式、区分的２次または３次多項式または区分的Ｂスプラインとして表すことができる。そのような実施の場合、量子化に関連するアーチファクトを避けるために、全区分にわたって、滑らかさおよび単調性に関する制約を与えるべきである。そして、これまでに、または、‘３８８出願において記載されたものと同様の検索方法を適用してもよい。

ブロック適応的な再構成関数
再び、それぞれＮブロックに区分された（例えば、各ブロックは８ｘ８ピクセル）Ｆ枚のビデオフレームを含むビデオシーンについて考える。画像ブロックはオーバーラップしていてもよいが、好適な実施形態においてはオーバーラップしていない。図４は、ある実施形態による、入力ＥＤＲ符号語（１０２）を再構成済み出力値（１１２）にマッピングするためのデータフローの一例を示す。

先述のように、ブロックベースの複雑性尺度（Ｍ_EDR）を定義できる。ある実施形態において、工程（４０５）において、限定はしないが、複雑性尺度がブロック内のピクセルの標準偏差（ｓｔｄ）に基づいて算出されるものとして考える。なお、フレームｊ（ｊ＝１、２、．．．、Ｆ）におけるブロックｎの標準偏差がゼロである（例えば、Ｍ_EDR（ｊ，ｎ）＝ｓｔｄ_jn＝０）かどうかを確認することは、このブロック内の最大値（例えば、Ｂ（ｊ，ｎ））とこのブロック内の最小値（例えば、Ａ（ｊ，ｎ））との差異が０であるかどうかを確認することに等しい。

再構成関数（１１０）が区分的線形直線で構築されているとすると、入力ｖ_iに対して、ローカル量子化器は以下のように表すことができる。

ただし、ｋ（ｊ，ｎ）は、ｊ番目のフレームのｎ番目のブロックにおける量子化器の傾きを調節するためのスケーリング係数である。

工程（４１０）において、Φが、ブロック尺度がある基準を満たす全ブロックの集合を表すものとする。例えば、Φが、量子化前に非ゼロの標準偏差を有する全ブロックの集合を表すものとする。すなわち、

ある実施形態において、閾値Ｔ_th（ただし、限定はしないが、Ｔ_th≧１）が与えられ、ブロックの最小および最大ピクセル値が与えられると、工程（４１５）において、最適なｋ（ｊ，ｎ）は以下のように求められ得る。

データ｛Ａ（ｊ，ｎ）、Ｂ（ｊ，ｎ）、ｋ（ｊ，ｎ）｝が与えられるとき、この３つの値は、区分［Ａ（ｊ，ｎ）、Ｂ（ｊ，ｎ）］内で、量子化器は、少なくともｋ（ｊ，ｎ）の傾きを有するべきであることを示す。特定のＥＤＲ符号（例えば、ｖ_c）が複数［Ａ（ｊ，ｎ）、Ｂ（ｊ，ｎ）］区分に属し得るとするならば、ＥＤＲ符号語ｖ_cについて、各符号語について全ブロックを満足する最大の傾きを求める必要がある。

θ（ｖ_c）は、符号語ｖ_cをカバーする全ブロックにわたる全区分の集合を表すものとする。すなわち、

すると、工程（４２０）において、符号語ｖ_cにおいて必要な傾きは、θ（ｖ_c）集合に属するブロック内の全ての最適な傾きの包絡線として求められ得る。すなわち、

工程（４２５）において、これらの包絡線の傾き全ての合計を以下のように表記するものとすると、

各ｖ_c符号語について、限定はしないが、工程（４３０）において、累積傾斜関数は以下のように定義されてもよい。

全符号語が範囲［ｃ_L，ｃ_H］内にマッピングされることを担保するためには、ｖ_c符号語からｓ_i値へのマッピングは、以下を用いて算出してもよい。

等式（１３）が与えられたとき、入力ｖ_c値と出力ｓ_i値の間のマッピングは、順方向マッピングルックアップテーブル（例えば、ＬＵＴ_F（ｖ_c））を用いて算出してもよい。ある実施形態においては、このテーブルは、データと一緒に保存してもよいし、画像メタデータ（１１９）の一部としてデコーダに送信し、デコーダが逆方向マッピング処理を再構築し得るようにしてもよい。

ある実施形態例において、表２は、疑似コードを用いて、図４に示すマッピング処理をまとめたものである。

表２

いくつかの実施形態において、等式（１２）では、代替的な関数を用いて累積傾斜関数ｋ（ｖ_c）を算出してもよい。例えば、ｋ（ｖ_c）値は、合算する前に、以下のようにフィルタリングまたは重み付けされてもよい。

ただし、ｗ_iは、所定の重み、または、（２ｕ＋１）フィルタタップ（例えば、ｕ＝２であって、フィルタ係数はローパスフィルタのそれと対応する）を有するフィルタのフィルタ係数を表す。

図５は、［ｃ_L，ｃ_H］範囲を［０、２５５］とした場合の、フレーム群のテストシーケンスについての、ｖ_c符号語に対する包絡線傾きｋ（ｖ_c）値のプロットの一例を示す。

図５に示すデータに対して、図６は、ｖ_cに対する￣付Ｋ（ｖ_c）マッピングの一例を示す。

逆再構成
デコーダにおいて、等式（１３）の￣付Ｋ（ｖ_c）値が与えられると、逆量子化器または再構成関数（１４０）は以下のようにして求められ得る。
各復号化符号語（＾付ｓ_c）に対して、

とすると、

となる。

換言すれば、量子化領域（＾付ｓ_c）における所与の符号語について、対応する推定ＥＤＲ符号語（＾付ｖ_c）は、まず、量子化値（＾付ｓ_c）を有する全ピクセルをグループ分けし、対応するＥＤＲ符号語を見つけ、そして、集めた全ＥＤＲ符号語の平均をとることによって構築される。等式（１６）から、逆ルックアップテーブルＬＵＴ_B（＾付ｓ_c）を構築して、データと一緒に保存してもよいし、または例えばメタデータ（１１９）の一部としてこれをデコーダに送信してもよい。

図６に示すデータに対して、図７は、

マッピングまたは逆再構成（１４０）の一例を示す。

ある実施形態において、

という関係によって定義されるマッピングは、メタデータ（１１９、１２７）を用いてデコーダに送信してもよい。このような手法は、ビットレートオーバーヘッドの観点から高コスト過ぎるかもしない。例えば、８ビットデータの場合、ルックアップテーブルは２５５個のエントリを含んでおり、これがシーンチェンジのたびに送信されてもよい。他の実施形態においては、逆方向マッピングを区分的多項式近似に置き換えてもよい。このような多項式は典型的には１次および２次多項式を含むが、高次多項式またはＢスプラインを用いることも可能である。あるレイヤｌ（ｌ＝０、１、．．．、Ｌ−１）に対する１つのＬＵＴを近似する多項式の数は、利用可能な帯域幅および処理の複雑度によって変わり得る。ある実施形態において、エンハンスメントレイヤが単一の区分を使用するのに対して、ベースレイヤは最大８区分を使用する。

表３は、ある実施形態において、２次多項式を用いてデコーダＬＵＴテーブルを近似するアルゴリズムの一例を示す。
表３：２次多項式を用いたＬＵＴ近似

表３に示すように、ある実施形態において、近似処理の入力は、元のルックアップテーブル（例えば、等式（１６）を用いて算出）と、ＬＵＴ中の値および多項式近似により生成される値の間の許容可能な誤差範囲と、利用可能な符号語数と、その最初の符号語値（等式（１）参照）とを含む。出力は、各多項式のエンドポイント（ピボットポイントとも呼ぶ）と、多項式係数とを含み得る。

最初のピボットポイントからスタートして、アルゴリズムは、限定はしないが２次多項式を用いて、利用可能な符号語の最大範囲のフィッティングを試みる。平均二乗誤差多項式フィット等のような、任意の既知の多項式フィットアルゴリズムを用いてよい。

算出最大誤差が入力許容範囲を超える場合、最適な多項式のパラメータを保存して、新たな多項式の検索を開始し、これをＬＵＴテーブル全体がマッピングされるまで行う。

いくつかの実施形態において、１つのＬＵＴを近似するのに使用できる多項式数が固定値（例えば８）に制限される場合がある。その場合、より大きな誤差許容範囲をアルゴリズムに組み込んでよい。

表３の方法はまた、より高次の多項式、Ｂスプラインまたは近似関数の組み合わせなどの他の近似関数に対応するようにも容易に改変可能である。

知覚的に均質な色空間における符号化
ビデオ信号は典型的にはよく知られたＲＧＢ色空間に描画されるが、ＭＰＥＧ−２、Ｈ．２６４（ＡＶＣ）、Ｈ．２６５（ＨＥＶＣ）等のようなほとんどのビデオ圧縮規格は、これと対立するＹＣｂＣｒまたはＹＵＶのような色空間で使用するように最適化されている。これらの色空間は、８〜１０ビットの標準ダイナミックレンジ（ＳＤＲ）ビデオを符号化および送信するのには十分であるが、ビット／ピクセル要件の観点からは、ＥＤＲビデオを符号化および送信する際に最も効率が良いとはいえない。例えば、Ｌｕ’ｖ’およびＬｏｇ（Ｌ）ｕ’ｖ’色空間がこれまでに提唱されている。

発明者らの理解によれば、知覚的に均質な色空間における信号の符号化は、ビデオコーデックによる処理の前のｕ’およびｖ’色度データを追加的に処理することによって利点を有し得る。例えば、ある実施形態において、エンコーダにおいて、このような処理は、信号再構築処理（１１０）の一部として入力信号（１０２）上で行われ得る。

白色点変換
ある実施形態において、線形ＸＹＺからルマｕ’ｖ’色空間への変換は、以下の工程を含み得る。
ａ）白色点の座標（例えば、Ｄ６５）を定義し、
ｂ）Ｌｕｍａ＝ｆ（Ｙ）について解を求め、
ｃ）Ｘ、ＹおよびＺからｕ’およびｖ’について解を求める。

本明細書において、関数ｆ（Ｙ）は、Ｌ（またはＬ’）、Ｌｏｇ（Ｌ）等のような明度に関連する関数を表している。好適な実施形態において、ｆ（Ｙ）は、‘２１２出願に記載したような知覚的量子化（ＰＱ）マッピング関数を表していてもよい。

ある実施形態においては、白色点は、ｕ’およびｖ’座標を用いてＤ６５（６５００Ｋ）と定義されてもよい。
Ｄｕ＝ｄ６５ｕ＝０．１９７８３０００６６４２８；
Ｄｖ＝ｄ６５ｖ＝０．４６８３１９９９４９３８８；

ある実施形態において、ｕ’およびｖ’は以下のように求めることができる。

逆演算処理は以下を含む。
ａ）白色点の座標（例えば、Ｄ６５）を定義し、
ｂ）Ｙ＝ｆ^-1（Ｌｕｍａ）について解を求め、
ｃ）ｕ’およびｖ’からＸおよびＺについて解を求める。

例えば、‘２１２出願による知覚的量子化関数を用いる実施形態においては、対応する逆ＰＱマッピングを適用してＹピクセル値を生成することが可能である。

ある実施形態において、ＸおよびＺは以下のように求めることができる。

図８Ａは、ｕ’ｖ’色度空間における白色点（８０５）（例えば、Ｄ６５）の従来のマッピングを示している。図８Ａに示すように、ｕ’およびｖ’色度値の範囲は、概ね、ｕ’については（０、０．６２３）であり、ｖ’については（０、０．５８７）である。図８Ａに示すように、Ｄ６５白色点は、ｕ’ｖ’信号表記では中心ではない。これにより、色差成分をサブサンプリングおよびアップサンプリングして、元の４：４：４色フォーマットとビデオ符号化において典型的に用いられる４：２：０または４：２：２色フォーマットとの間の変換を行った後に、色ズレが生じ得る。このような色ズレを軽減するために、色度値に変換関数を適用することが推奨される。ある実施形態において、この変換関数によって、白色点を、概ね、変換後のｕ’ｖ’の中心にずらすが、白色点は、クロマ誤差を引きつけたい任意の他の色値に置き換えられてもよい。例えば、変換後の値ｕ’_tおよびｖ’_tが（０、１）の範囲内にある場合、以下のマッピングを適用してもよい。

ただし、ＤｕおよびＤｖは選択された白色点の元のｕ’およびｖ’座標を表し、（ｂ₁、ｂ₂）は変換後の色空間における白色点の所望位置の座標を決定し、ａ_i（ｉ＝１、２）は、所望の変換点およびｕ’およびｖ’の最小および最大値に基づいて算出される定数である。ある実施形態において、変換パラメータ（例えば、ａ₁およびａ₂）は、全体のビデオシーケンスについて固定であってもよい。別の実施形態においては、入力コンテンツの色度範囲が変化することを利用するために、シーン毎またはフレーム毎に変換パラメータを算出してもよい。

図８Ｂは、ある実施形態例による変換後の色度空間における白色点（８０５）のマッピングを示す。図８Ｂにおいて、元のｕ’およびｖ’色度値は、選択点（例えば、Ｄ６５）が概ね変換後の色度空間の中心（０．５、０．５）になるように置き換えられる。例えば、変換後の値ｕ’_tおよびｖ’_tが（０、１）内であれば、ｂ₁＝ｂ₂＝０．５について、ある実施形態において、以下のマッピングを適用してもよい。

ただし、ＤｕおよびＤｖは、選択された白色点のｕ’およびｖ’座標を表す。この変換の結果、色誤差は、色相ずれではなく、脱飽和に見えるであろう。ｕ’およびｖ’色度値に非線形関数を適用して、これと同じ変換を実現することも可能であることは当業者であれば理解できるであろう。このような非線形関数は、符号化および量子化による色誤差の可視性をさらに低減するために、ほぼ中間色である色に対してより高い精度を割り当ててもよい。

クロマエントロピーの低減
ｕ’およびｖ’ピクセル成分に光度の関数を掛ければ、クロマ的詳細の可視性をより改善できるかもしれない。例えば、ある実施形態において、変換された色度値は以下のように求めてもよい。

ただし、ｇ（Ｌｕｍａ）はルマチャネルの関数を表している。ある実施形態において、ｇ（Ｌｕｍａ）＝Ｌｕｍａである。

デコーダにおいて、入力信号はＬｕｍａｕ’_tｖ’_tと表記され得る。多くの用途において、この信号は、さらなる処理の前に、変換してＸＹＺ、ＲＧＢまたは他の色空間に戻さなければならない。ある実施形態例において、Ｌｕｍａｕ’_tｖ’_tからＸＹＺへの色変換処理は、以下の工程を含み得る。
ａ）Ｌｕｍａ符号化を元に戻し、
Ｙ＝ｆ^-1（Ｌｕｍａ）
ｂ）ｕ’_tおよびｖ’_tの値をスケーリングする範囲を元に戻して、ｕ’およびｖ’に戻し、
ｃ）等式（１８）を用いてＸおよびＺを復元する。

いくつかの実施形態において、入力信号のＬｕｍａ、ｕ’_tおよびｖ’_t成分は、何らかの色変換を行う前に、（０、１）範囲に正規化してもよい。いくつかの実施形態において、ルックアップテーブル、乗算、加算を組み合わせることによって等式（１７）〜（２１）を実行してもよい。例えば、ある実施形態において、
Ｙ＝ｆ^-1（Ｌｕｍａ）
Ｂ＝３ｕ’、
Ｃ＝２０ｖ’、および
Ｄ＝１／（４ｖ’）
が、Ｌｕｍａ、ｕ’およびｖ’を入力とする３つのルックアップテーブルの出力を表しているとすると、等式（１８）から、ＸおよびＺの値は、以下のように４つの乗算と２つの加算を用いて算出され得る。
Ｚ＝（Ｙ＊Ｄ）＊（１２−Ｂ−Ｃ）
および
Ｘ＝（Ｙ＊Ｄ）＊（３＊Ｂ）

例えば、ある実施形態において、１０ビット符号化信号について、各ＬＵＴは、それぞれターゲットアプリケーションにとって十分な精度（例えば、３２ビット）を持つ１０２４個のエントリを含んでいてもよい。

図９は、本発明のある実施形態による、符号化および復号化パイプラインの一例を示す。入力信号（９０２）は、ＲＧＢ４：４：４または他の適切な色フォーマットであり得る。工程（９１０）において、例えば、輝度値に対し知覚的量子化（ＰＱ）マッピング、および色度値に対し等式（１７）を用いて、信号（９０２）を知覚的ルマｕ’ｖ’フォーマットに置き換えられる。工程（９１５）において、白色点が概ね変換された色度空間の中心に位置するように、例えば、等式（１９）〜（２１）に示す変換を適用して、元のｕ’ｖ’色度値を変換された色度値ｕ’_tおよびｖ’_tに置き換える。この色変換および変換後Ｌｕｍａｕ’_tｖ’_t４：４：４信号（例えば、９１７）は、ビデオエンコーダ（９２０）による符号化の前に、４：２：０または４：２：２フォーマットに色サブサンプリングされてもよい（図示せず）。ビデオエンコーダ（９２０）は、上述のように、信号再構成（１１０）およびレイヤ分解（１１５）処理を含んでいてもよい。受信器上では、ビデオデコーダ（９３０）が復号化信号（９３２）を生成する。ビデオデコーダ（９３０）は、信号逆再構成およびレイヤ結合器（１４０）を備えていてもよい。任意の色アップサンプリング（例えば、４：２：０から４：４：４）の後に、（９１５）の変換演算処理を逆転することによって、逆色度変換工程（９３５）がＬｕｍａｕ’_tｖ’_t信号（９３２）を変換してＬｕｍａｕ’ｖ’信号（９３７）に戻してもよい。最後に、Ｌｕｍａｕ’ｖ’信号（９３７）を変換して、ＲＧＢまたは他の適切な色空間の出力信号（９４２）とし、これを表示またはさらに処理してもよい。

知覚的量子化されたＩＰＴ色空間における符号化
白色点変換は、ＩＰＴ色空間またはＩＰＴ−ＰＱ色空間（エンハンストまたはハイダイナミックレンジを有するビデオ信号の符号化に理想的に適していると思われる知覚的量子化された色空間）のような他の色空間にも適用してもよい。ＩＰＴ−ＰＱ色空間を最初に記載したのは、本願にその全文が援用される、Ｒ．Ａｔｋｉｎｓらによる２０１４年２月１３日出願の「Ｄｉｓｐｌａｙｍａｎａｇｅｍｅｎｔｆｏｒｈｉｇｈｄｙｎａｍｉｃｒａｎｇｅｖｉｄｅｏ」という表題のＰＣＴ出願ＰＣＴ／ＵＳ２０１４／０１６３０４である。

本願にその全文が援用される、Ｆ．ＥｂｎｅｒおよびＭ．Ｄ．Ｆａｉｒｃｈｉｌｄによる「Ｄｅｖｅｌｏｐｍｅｎｔａｎｄｔｅｓｔｉｎｇｏｆａｃｏｌｏｒｓｐａｃｅ（ｉｐｔ）ｗｉｔｈｉｍｐｒｏｖｅｄｈｕｅｕｎｉｆｏｒｍｉｔｙ」、Ｐｒｏｃ．６^th ＣｏｌｏｒＩｍａｇｉｎｇＣｏｎｆｅｒｅｎｃｅ：ＣｏｌｏｒＳｃｉｅｎｃｅ，Ｓｙｓｔｅｍｓ，ａｎｄＡｐｐｌｉｃａｔｉｏｎｓ，ＩＳ＆Ｔ，Ｓｃｏｔｔｓｄａｌｅ，Ａｒｉｚｏｎａ、１９９８年１１月、ｐｐ．８−１３（「Ｅｂｎｅｒ論文」と呼ぶ）に記載のＩＰＴ色空間は、人間の視覚システムにおける錐体間の色差のモデルである。その意味ではＹＣｂＣｒまたはＣＩＥ−Ｌａｂ色空間のようであるが、いくつかの科学的研究において、これらの空間よりも人間の視覚処理をより良く模擬することが分かっている。ＣＩＥ−Ｌａｂと同様に、ＩＰＴは、何らかの参照輝度に対する正規化された空間である。ある実施形態において、正規化は、ターゲットディスプレイの最大輝度に基づいていてもよい。

本明細書において、用語「ＰＱ」は知覚的量子化を指す。人間の視覚システムは、光レベルの増大に対して非常に非線形的に反応する。人間が刺激を見る能力は、その刺激の輝度、その刺激の大きさ、その刺激を構成する空間周波数、および、その刺激を見ている瞬間までに目が適応した輝度レベルに影響される。好適な実施形態において、知覚的量子化器関数は、線形入力グレイレベルを、人間の視覚システムにおけるコントラスト感度閾値によりマッチした出力グレイレベルにマッピングする。ＰＱマッピング関数の一例は、‘２１２出願に記載されており、この出願の全文を本願に援用する。ある固定刺激サイズに対して、それぞれの輝度レベル（即ち、刺激レベル）について、最高感度の適応レベルおよび最高感度の空間周波数（ＨＶＳモデルによる）に応じて、その輝度レベルにおける最小可視コントラストステップを選択する。物理的な陰極線管（ＣＲＴ）装置の応答曲線を表しており、人間の視覚システムの応答の仕方に対して非常に大まかな意味での類似性を偶然有し得る従来のガンマ曲線と比較して、‘２１２出願において決定されているＰＱ曲線は、比較的シンプルな関数モデルを用いながら人間の視覚システムの本当の視覚応答を模擬している。

表１は、表示時点においてデジタルビデオ符号値を絶対線形輝度レベルに変換するための知覚的曲線ＥＯＴＦの計算を示している。絶対線形輝度をデジタル符号値に変換するための逆ＯＥＴＦの計算も含まれている。

表１
例示的な等式定義：
Ｄ＝知覚的曲線デジタル符号値、ＳＤＩ−ｌｅｇａｌ符号無し整数、１０または１２ビット
ｂ＝デジタル信号表記における成分毎のビット数、１０または１２
Ｖ＝正規化された知覚的曲線信号値、０≦Ｖ≦１
Ｙ＝正規化された輝度値、０≦Ｙ≦１
Ｌ＝絶対輝度値、０≦Ｌ≦１０，０００ｃｄ／ｍ²

例示的なＥＯＴＦ復号化等式：

例示的なＯＥＴＦ符号化等式：

例示的な定数：

備考：
１．演算子ＩＮＴは、０〜０．４９９９．．．の範囲の小数部に対しては値０を返し、０．５〜０．９９９９．．．の範囲の小数部に対しては＋１を返す（即ち、０．５より大きい小数部は切り上げ）。
２．定数は全て四捨五入の問題を回避するために、１２ビット有理数のちょうどの倍数として定義する。
３．Ｒ、ＧまたはＢ信号成分は、上記のＹ信号成分と同じ方法で算出する。

ＩＰＴ−ＰＱ色空間への信号の変換は、以下の工程を含み得る。
ａ）入力色空間（例えば、ＲＧＢまたはＹＣｂＣｒ）からＸＹＺに信号を変換する。
ｂ）以下のように、信号をＸＹＺからＩＰＴ−ＰＱに変換する。
ａ．３ｘ３ＸＹＺをＬＭＳ行列に適用して、信号をＸＹＺからＬＭＳに変換する。
ｂ．ＬＭＳ信号の各色成分を知覚的量子化されたＬＭＳ信号（Ｌ’Ｍ’Ｓ’またはＬＭＳ−ＰＱ）に変換する（例えば、等式（ｔ２）を適用して）。
ｃ．３ｘ３ＬＭＳをＩＰＴ行列に適用して、ＬＭＳ−ＰＱ信号をＩＰＴ−ＰＱ色空間に変換する。

３ｘ３ＸＹＺからＬＭＳ、および、Ｌ’Ｍ’Ｓ’（またはＬＭＳ−ＰＱ）からＩＰＴの変換行列の例は、Ｅｂｎｅｒ論文に見出すことができる。ＩＰＴ−ＰＱ信号の色成分（例えば、Ｐ’およびＴ’）が範囲（−０．５、０．５）内にあるとすると、色成分の範囲が実質的に範囲（０、１）内となるように、バイアスａ（例えば、ａ＝０．５）を加えてもよい。例えば、

逆色演算処理は、以下の工程を含み得る。
ａ）色成分に加えられた全てのバイアス値を引いておき、
ｂ）３ｘ３Ｉ’Ｐ’Ｔ’をＬＭＳ変換行列に適用して、ＩＰＴ−ＰＱからＬＭＳ−ＰＱに変換し、
ｃ）逆ＰＱ関数を適用して、ＬＭＳ−ＰＱからＬＭＳに変換し（例えば、等式（ｔ１）を使用）、
ｄ）３ｘ３ＬＭＳをＸＹＺ変換に適用して、ＬＭＳからＸＹＺに変換し、
ｅ）ＸＹＺから、選択した装置依存の色空間（例えば、ＲＧＢまたはＹＣｂＣｒ）に変換する。
実際には、符号化および／または復号化の際の色変換工程は、予め算出した１−Ｄルックアップテーブル（ＬＵＴｓ）を用いて行われてもよい。

クロマエントロピーの低減
上述のように、Ｐ’およびＴ’ピクセル成分に光度の関数（例えば、Ｉ’）を掛ければ、クロマ的詳細の可視性はさらに改善されるかもしれない。例えば、ある実施形態において、変換された色度値は以下のように求めることができる。

ただし、ｇ（Ｉ’）は、ルマチャネル（Ｉ’）の線形または非線形関数を表している。ある実施形態において、ｇ（Ｉ’）＝Ｉ’である。

コンピュータシステム実装例
本発明の実施形態は、コンピュータシステム、電子回路およびコンポーネントで構成されたシステム、マイクロコントローラ、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）または他のコンフィギュラブルまたはプログラマブルロジックデバイス（ＰＬＤ）、離散時間またはデジタル信号プロセッサ（ＤＳＰ）、特定用途向けＩＣ（ＡＳＩＣ）などの集積回路（ＩＣ）デバイス、および／または、このようなシステム、デバイスまたはコンポーネントを１つ以上含む装置、を用いて実施し得る。このコンピュータおよび／またはＩＣは、本明細書に記載のようなエンハンストダイナミックレンジ（ＥＤＲ）を有するビデオ画像の階層符号化のための適応的再構成技術に関する命令を行い、制御し、または実行し得る。このコンピュータおよび／またはＩＣは、本明細書に記載の適応的再構成プロセスに関する様々なパラメータまたは値のいずれを演算してもよい。画像およびビデオ実施形態は、ハードウェア、ソフトウェア、ファームウェア、および、その様々な組み合わせで実施され得る。

本発明の特定の態様は、本発明の方法をプロセッサに行わせるためのソフトウェア命令を実行するコンピュータプロセッサを含む。例えば、ディスプレイ、エンコーダ、セットトップボックス、トランスコーダなどの中の１つ以上のプロセッサは、そのプロセッサがアクセス可能なプログラムメモリ内にあるソフトウェア命令を実行することによって、上記のようなエンハンストダイナミックレンジ（ＥＤＲ）を有するビデオ画像の階層符号化のための適応的再構成技術に関する方法を実装し得る。本発明は、プログラム製品形態で提供されてもよい。このプログラム製品は、データプロセッサによって実行された時に本発明の方法をデータプロセッサに実行させるための命令を含む１セットの、コンピュータが可読な信号を格納する任意の媒体を含み得る。本発明によるプログラム製品は、様々な形態をとり得る。例えば、このプログラム製品は、フロッピーディスク、ハードディスクドライブを含む磁気データ記憶媒体、ＣＤＲＯＭ、ＤＶＤを含む光学データ記憶媒体、ＲＯＭ、フラッシュＲＡＭなどを含む電子データ記憶媒体、などの物理的媒体を含み得る。このプログラム製品上のコンピュータ可読信号は、任意に、圧縮または暗号化されていてもよい。

上記においてあるコンポーネント（例えば、ソフトウェアモジュール、プロセッサ、アセンブリ、デバイス、回路など）に言及している場合、そのコンポーネントへの言及（「手段」への言及を含む）は、そうでないと明記されている場合を除いて、当該コンポーネントの機能を果たす（例えば、機能的に均等である）あらゆるコンポーネント（上記した本発明の実施形態例に出てくる機能を果たす開示構造に対して構造的に均等ではないコンポーネントも含む）を、当該コンポーネントの均等物として、含むものと解釈されるべきである。

均等物、拡張物、代替物、その他
エンハンストダイナミックレンジ（ＥＤＲ）を有するビデオ画像の階層符号化のための適応的再構成技術に関する実施形態例を上述した。この明細書中において、実装毎に異なり得る多数の詳細事項に言及しながら本発明の実施形態を説明した。従って、本発明が何たるか、また、本出願人が本発明であると意図するものを示す唯一且つ排他的な指標は、本願が特許になった際の請求の範囲（今後出されるあらゆる訂正を含む、特許となった特定請求項）である。当該請求項に含まれる用語に対して本明細書中に明示したあらゆる定義が、請求項内で使用される当該用語の意味を決定するものとする。よって、請求項において明示されていない限定事項、要素、性質、特徴、利点または属性は、その請求項の範囲をいかなる意味においても限定すべきではない。従って、本明細書および図面は、限定的ではなく、例示的であるとみなされるものである。

Claims

画像ブロックを含む入力エンハンストダイナミックレンジ（ＥＤＲ）画像のシーケンスを符号化する方法であって、
前記入力エンハンストダイナミックレンジ（ＥＤＲ）画像のシーケンスを受信する工程と、
前記入力ＥＤＲ画像の前記シーケンス内の少なくとも１つの入力画像において前記画像ブロックのうち１つ以上についてブロック複雑性尺度を算出する工程であって、前記ブロック複雑性尺度はピクセル値の変化を表す、工程と、
前記画像ブロックの第１の集合を構築する工程であって、前記第１の集合は算出したブロック複雑性尺度が所定の基準を満たす画像ブロックを含む、工程と、
前記画像ブロックの前記第１の集合中の各ブロックに対して、線形量子化モデルの傾き生成関数によって最適な傾き（ｋ（ｊ，ｎ））を決定する工程であって、前記最適な傾きは当該ブロックのための前記線形量子化モデルの最小の傾きを表す、工程と、
前記入力ＥＤＲ画像の前記シーケンスの各入力符号語（ｖ_c）であって、前記少なくとも１つの入力画像に含まれ、かつ、符号化されていてもよい各ピクセル値を表す各入力符号語（ｖ _c ）に対し、
画像ブロックの第２の集合を構築する工程であって、前記第２の集合は前記画像ブロックの前記第１の集合に属するブロックを含んでおり、かつ前記入力符号語が前記画像ブロックの最小および最大ピクセル値内にある、工程、
前記入力符号語について包絡線の傾き（ｋ（ｖ_c））を生成する工程であって、当該包絡線の傾きは、前記第２の集合中のブロック群の前記最適な傾きの中で最大の最適な傾きを用いて算出される、工程、および
全符号語についての前記包絡線の傾きの総和（ｋ）を算出する工程であって、前記全符号語は、前記入力ＥＤＲ画像の前記シーケンス内の最小符号語から最大符号語までの入力符号語をカバーする、工程と、
各入力符号語に対し、
累積傾斜（Ｋ（ｖ_c））を生成する工程であって、前記累積傾斜は、当該入力符号語を含む当該入力符号語までの包絡線の傾きの総和を含む、工程、および
前記入力符号語と出力符号語との間のマッピング関数を生成する工程であって、前記マッピング関数は、前記入力符号語の前記累積傾斜と前記全符号語の全包絡線の傾きの総和とから算出される工程と、を包含する方法。
さらに、
前記マッピング関数を前記入力ＥＤＲ画像に適用して、これにより、再構成した画像を生成する工程と、
前記再構成した画像を１つ以上のレイヤに分解する工程と、
１つ以上のビデオエンコーダを用いて前記１つ以上のレイヤを符号化する工程とを包含する、請求項１に記載の方法。
再構成されたピクセルｓとＬ個のレイヤとが与えられたとき、前記分解工程は前記ｓピクセルをｓ_lピクセル値にマッピングすることを含み、
ｓ_l＝Ｃｌｉｐ３（ｓ，ｐ_l，ｐ_l+1−１）−ｐ_l
ｌ＝０、１、．．．、Ｌ−１は、前記Ｌ個のレイヤのうちの１つを表し、Ｃｌｉｐ３（）は、ｐ_lおよびｐ_l+1−１の値の間において再構成したピクセルｓをクリッピングするクリッピング関数であり、ｐ_lは、レベルｌにおいて前記再構成したシーケンスの最小ピクセル値を表す、請求項２に記載の方法。
ｐ₀＝０、かつ、

であり、
Ｎ_jは、レベルｊにおいてビデオエンコーダのために利用可能な符号語の数を表している、請求項３に記載の方法。
前記線形量子化モデルは、

によって表される関数を含み、
ただし、ｖ_Lおよびｖ_Hは前記入力ＥＤＲ画像の前記シーケンス内の前記最小および最大符号語を表し、ｃ_Lおよびｃ_Hは最小および最大出力符号語を表し、ｋ（ｊ，ｎ）は前記入力ＥＤＲ画像の前記シーケンス内のｊ番目のフレームのｎ番目のブロックにおける量子化傾きを表し、ｖ_iは入力符号語を表し、ｓ_iは対応する出力符号語を表す、請求項１に記載の方法。
前記最適な傾きｋ（ｊ，ｎ）は、

を算出することによって生成され、ここで、Ｔ_thは所定の閾値であり、Ｂ（ｊ，ｎ）はフレームｊのブロックｎ内の最大ピクセル値を表し、Ａ（ｊ，ｎ）はフレームｊのブロックｎ内の最小ピクセル値を表す、請求項５に記載の方法。
ある画像ブロックの前記ブロック複雑性尺度を算出する工程は、前記画像ブロック内の最大および最小ピクセル値の差異を算出することを含み、前記第１の画像ブロックの集合はそのブロック複雑性尺度が０よりも大きい全ての画像ブロックを含む、請求項１に記載の方法。
前記ｖ_c符号語に対する包絡線の傾きｋ（ｖ_c）を生成する工程は、

を算出することを含み、ここで、ｋ（ｊ，ｎ）は前記入力ＥＤＲ画像シーケンスのフレームｊのブロックｎに対する最適な傾きを表し、θ（ｖ_c）は前記第２の画像ブロックの集合を表す、請求項１に記載の方法。
前記符号語ｖ_cに対する累積傾斜Ｋ（ｖ_c）を算出する工程は、

を算出することを含み、ここで、ｋ（ｉ）はｉ番目の入力符号語に対する前記包絡線の傾きを表す、請求項１に記載の方法。
前記入力符号語と前記出力符号語との間の前記マッピング関数￣付Ｋ（ｖ_c）を生成する工程は、

を算出することを含み、ここで、Ｋ（ｖ_c）は符号語ｖ_cに対する累積傾斜を表し、ｋは全符号語の全包絡線の傾きの総和を表し、ｃ_Lおよびｃ_Hは最小および最大出力符号語を表す、請求項１に記載の方法。
ＥＤＲ符号化システムにおいて、受信したマッピング済み出力符号語と推定ＥＤＲ符号語との間の逆方向マッピングを生成する方法であって、前記受信したマッピング済み出力符号語は請求項１に記載の方法によって生成され、
ある受信したマッピング済み出力符号語について、順方向マッピング関数を用いて、前記受信したマッピング済み出力符号語にマッピングされ得る全入力符号語を特定する工程と、
前記受信したマッピング済み出力符号語にマッピングされた、特定された前記全入力符号語の平均に基づいて算出された前記推定ＥＤＲ符号語に前記受信したマッピング済み出力符号語をマッピングすることによって、逆方向マッピングを生成する工程と、を包含する方法。
前記１つ以上のビデオエンコーダは、第１および第２のビデオエンコーダを含み、
前記第１のビデオエンコーダは第１のビット深度を用いて第１のレイヤを符号化し、前記第２のビデオエンコーダは第２のビット深度を用いて第２のレイヤを符号化し、前記第２のビット深度は前記第１のビット深度とは異なる、請求項２に記載の方法。
前記１つ以上のビデオエンコーダは、第１および第２のビデオエンコーダを含み、
前記第１のビデオエンコーダは第１の符号化フォーマットを用いて第１のレイヤを符号化し、前記第２のビデオエンコーダは第２の符号化フォーマットを用いて第２のレイヤを符号化し、前記第２の符号化フォーマットは前記第１の符号化フォーマットとは異なる、請求項２に記載の方法。
プロセッサを備え、請求項１から１３に記載の方法のいずれかを実行するように構成された装置。
請求項１から１３のいずれかに記載の方法を実行するためのコンピュータが実行可能な命令を格納した非一時的コンピュータ可読記憶媒体。