WO2018198767A1

WO2018198767A1 - 信号処理装置および方法、並びにプログラム

Info

Publication number: WO2018198767A1
Application number: PCT/JP2018/015158
Authority: WO
Inventors: 優樹山本; 徹知念; 辻　実
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2017-04-25
Filing date: 2018-04-11
Publication date: 2018-11-01
Anticipated expiration: 2019-10-25
Also published as: JPWO2018198767A1; JP7107305B2; RU2019132899A; EP3618463A4; BR112019021897A2; CN110537373B; US20200126582A1; EP3618463A1; KR20190140913A; JP2022137213A; RU2019132899A3; KR102506167B1; RU2763785C2; JP7388492B2; CN110537373A

Abstract

本技術は、より簡単に適切なスプレッド情報を得ることができるようにする信号処理装置および方法、並びにプログラムに関する。信号処理装置は、オーディオオブジェクトの処理対象のフレームのオブジェクト位置情報およびオーディオオブジェクトの処理対象のフレームとは異なる他のフレームのスプレッド情報と、ズーム情報と、オーディオオブジェクトの大きさ情報とのうちの何れかに基づいて、オーディオオブジェクトの処理対象のフレームのスプレッド情報を生成するスプレッド情報生成部を備える。本技術は符号化装置および復号装置に適用することができる。

Description

信号処理装置および方法、並びにプログラム

　本技術は、信号処理装置および方法、並びにプログラムに関し、特に、より簡単に適切なスプレッド情報を得ることができるようにした信号処理装置および方法、並びにプログラムに関する。

　従来、オブジェクトオーディオを扱える符号化方式として、例えば国際標準規格であるMPEG（Moving Picture Experts Group）-H Part 3:3D audio規格などが知られている（例えば、非特許文献１参照）。

　このような符号化方式では、オーディオオブジェクトの音の音像を広げるスプレッド処理を行うことができる。

　具体的には、符号化装置側では、ビットストリームにオーディオオブジェクトの位置を示すオブジェクト位置情報とともに、オーディオオブジェクトの音の音像の広がり度合いを示すスプレッド情報がオーディオオブジェクトのメタデータとして含められる。

　例えばオーディオオブジェクトの音の音像が水平方向および垂直方向に対称に広げられる場合、スプレッド情報は、水平方向および垂直方向への音像の広がり度合いを示す０度から１８０度までの範囲の任意の角度（以下、スプレッド角度とも称する）を示す１つの値からなる。

　これに対して、オーディオオブジェクトの音の音像が水平方向および垂直方向に非対称に広げられる場合、スプレッド情報は、水平方向のスプレッド角度と垂直方向のスプレッド角度を示す２つの値からなる。なお、水平方向のスプレッド角度および垂直方向のスプレッド角度は、ともに０度から１８０度までの範囲の角度とされる。

　このようなスプレッド情報は、オーディオオブジェクトのオーディオ信号のフレームごとに異なる値とすることができる。

　また、復号装置側では、ビットストリームから抽出されたスプレッド情報に基づいて、オーディオオブジェクトの音像を広げるレンダリング処理、すなわちスプレッド処理が行われる。このようなスプレッド処理を行えば、例えば大きく、近くにあるオブジェクトの音像の領域を広げ、小さく、遠くにあるオブジェクトの音像の領域を狭くすることができる。その結果、より臨場感の高いコンテンツ再生を実現することができる。

INTERNATIONAL STANDARD ISO/IEC 23008-3 First edition 2015-10-15 Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio

　しかしながら、適切なスプレッド情報を得ることは容易ではなかった。

　例えばスプレッド情報を、時間（フレーム）ごとやオーディオオブジェクトごとに人手で付与するのはコストが高い。また、場合によっては、そもそもスプレッド情報が付与されていないこともある。

　さらに、例えば復号側においてユーザ等によりズーム処理が行われると画面内におけるオブジェクトの大きさは変化するが、ビットストリームから得られたスプレッド情報をそのまま用いても音像の領域を適切な大きさに広げることができない。そうすると、画面内のオブジェクトの大きさと、そのオブジェクトに対応するオーディオオブジェクトの音像の領域の大きさとが対応せず、臨場感が損なわれてしまう。

　本技術は、このような状況に鑑みてなされたものであり、より簡単に適切なスプレッド情報を得ることができるようにするものである。

　本技術の一側面の信号処理装置は、オーディオオブジェクトの処理対象のフレームのオブジェクト位置情報および前記オーディオオブジェクトの前記処理対象のフレームとは異なる他のフレームのスプレッド情報と、ズーム情報と、前記オーディオオブジェクトの大きさ情報とのうちの何れかに基づいて、前記オーディオオブジェクトの前記処理対象のフレームのスプレッド情報を生成するスプレッド情報生成部を備える。

　前記スプレッド情報生成部には、前記オーディオオブジェクトの前記他のフレームの前記スプレッド情報と、前記オーディオオブジェクトの前記処理対象のフレームおよび前記他のフレームの前記オブジェクト位置情報とに基づいて前記処理対象のフレームの前記スプレッド情報を生成させることができる。

　前記オブジェクト位置情報を、基準位置から前記オーディオオブジェクトまでの距離とすることができる。

　前記スプレッド情報生成部には、前記処理対象のフレームにおける前記距離および前記他のフレームにおける前記距離の比と、前記他のフレームの前記スプレッド情報の正接との積の逆正接を前記処理対象のフレームの前記スプレッド情報として生成させることができる。

　前記スプレッド情報生成部には、前記ズーム情報と、前記オーディオオブジェクトの前記処理対象のフレームの前記スプレッド情報とに基づいて、ズーム後における前記オーディオオブジェクトの前記処理対象のフレームの前記スプレッド情報を生成させることができる。

　前記スプレッド情報生成部には、前記ズーム情報により定まるズーム前後における仮想スクリーンの位置および大きさの関係に基づいて、前記ズーム後における前記オーディオオブジェクトの前記処理対象のフレームの前記スプレッド情報を生成させることができる。

　前記スプレッド情報生成部には、前記大きさ情報と、前記オーディオオブジェクトの前記処理対象のフレームの前記オブジェクト位置情報とに基づいて、前記処理対象のフレームの前記スプレッド情報を生成させることができる。

　前記大きさ情報を、前記オーディオオブジェクトの中心から外殻までの距離とすることができる。

　前記スプレッド情報生成部には、前記大きさ情報と、前記処理対象のフレームの前記オブジェクト位置情報との比の逆正接を前記処理対象のフレームの前記スプレッド情報として生成させることができる。

　本技術の一側面の信号処理方法またはプログラムは、オーディオオブジェクトの処理対象のフレームのオブジェクト位置情報および前記オーディオオブジェクトの前記処理対象のフレームとは異なる他のフレームのスプレッド情報と、ズーム情報と、前記オーディオオブジェクトの大きさ情報とのうちの何れかに基づいて、前記オーディオオブジェクトの前記処理対象のフレームのスプレッド情報を生成するステップを含む。

　本技術の一側面においては、オーディオオブジェクトの処理対象のフレームのオブジェクト位置情報および前記オーディオオブジェクトの前記処理対象のフレームとは異なる他のフレームのスプレッド情報と、ズーム情報と、前記オーディオオブジェクトの大きさ情報とのうちの何れかに基づいて、前記オーディオオブジェクトの前記処理対象のフレームのスプレッド情報が生成される。

　本技術の一側面によれば、より簡単に適切なスプレッド情報を得ることができる。

　なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。

スプレッド情報の生成について説明する図である。符号化装置の構成例を示す図である。符号化処理を説明するフローチャートである。復号装置の構成例を示す図である。復号処理を説明するフローチャートである。スプレッド情報の生成について説明する図である。符号化処理を説明するフローチャートである。復号処理を説明するフローチャートである。ズームについて説明する図である。ズームに応じたオブジェクト位置情報の修正について説明する図である。復号装置の構成例を示す図である。復号処理を説明するフローチャートである。コンピュータの構成例を示す図である。

　以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
〈本技術について〉
　本技術は、オーディオオブジェクトのスプレッド情報を、オーディオオブジェクトのオブジェクト位置情報、ズーム情報、大きさ情報、異なる時刻のスプレッド情報など、得ようとするスプレッド情報とは異なる他の情報に基づいて生成することで、より簡単に適切なスプレッド情報を得ることができるようにするものである。

　以下では、マルチチャネルのオーディオ信号およびオーディオオブジェクトのオーディオ信号が所定の規格等に従って符号化されるものとして説明を行う。なお、以下では、オーディオオブジェクトを単にオブジェクトとも称することとする。

　例えば、各チャネルや各オブジェクトのオーディオ信号はフレームごとに符号化されて伝送される。

　すなわち、符号化されたオーディオ信号や、オーディオ信号の復号等に必要な情報が複数のエレメント（ビットストリームエレメント）に格納され、それらのエレメントからなるビットストリームが符号化側から復号側に伝送される。

　具体的には、例えば１フレーム分のビットストリームには、先頭から順番に複数個のエレメントが配置され、最後に当該フレームの情報に関する終端位置であることを示す識別子が配置される。

　そして、先頭に配置されたエレメントは、DSE（Data Stream Element）と呼ばれるアンシラリデータ領域とされ、DSEにはオーディオ信号のダウンミックスに関する情報や識別情報など、複数の各チャネルに関する情報が記述される。

　また、DSEの後に続く各エレメントには、符号化されたオーディオ信号が格納される。特に、シングルチャネルのオーディオ信号が格納されているエレメントはSCE（Single Channel Element）と呼ばれており、ペアとなる２つのチャネルのオーディオ信号が格納されているエレメントはCPE（Coupling Channel Element）と呼ばれている。各オブジェクトのオーディオ信号はSCEに格納される。

　本技術では、各オブジェクトのオーディオ信号のスプレッド情報が生成されてDSEに格納される。より詳細には、生成されたスプレッド情報を含むオブジェクトのメタデータがDSEに格納される。

　ここで、メタデータには、少なくともスプレッド情報とオブジェクト位置情報とが含まれている。

　スプレッド情報は、オブジェクトの音像の大きさの範囲を示す角度情報、すなわちオブジェクトの音の音像の広がり度合いを示すスプレッド角度である。換言すれば、スプレッド情報は、オブジェクトの領域の大きさを示す情報であるともいうことができる。

　また、オブジェクト位置情報は、３次元空間におけるオブジェクトの位置を示す情報であり、例えば基準位置（原点）から見たオブジェクトの位置を示す水平方向角度、垂直方向角度、および半径からなる座標情報とされる。

　水平方向角度は、ユーザがいる位置である基準位置から見たオブジェクトの水平方向の位置を示す水平方向の角度（方位角）、つまり水平方向における基準となる方向と基準位置から見たオブジェクトの方向とのなす角度である。

　ここでは、水平方向角度が０度であるときには、オブジェクトはユーザの真正面に位置しており、水平方向角度が９０度や－９０度であるときには、オブジェクトはユーザの真横に位置していることになる。また、水平方向角度が１８０度または－１８０度であるときには、オブジェクトはユーザの真後ろに位置していることになる。

　同様に垂直方向角度は、基準位置から見たオブジェクトの垂直方向の位置を示す垂直方向の角度（仰角）、つまり垂直方向における基準となる方向と基準位置から見たオブジェクトの方向とのなす角度である。

　また、半径は空間上における基準位置からオブジェクトの位置までの距離である。

　ところで、各オブジェクトについてフレームごとにスプレッド情報を人手で付与するのはコストが高い。例えば映画コンテンツでは多くのオブジェクトを長時間にわたり扱うため、人手によるコストは特に高くなるといえる。

　そこで本技術を適用した符号化装置では、オブジェクトの処理対象のフレームのスプレッド情報を、その処理対象のフレームとは時間的に異なる他のフレームのスプレッド情報と、オブジェクトの空間上の位置を示すオブジェクト位置情報とに基づいて生成するようにした。

　具体的には、例えばオブジェクトのオーディオ信号の最初のフレームなど、特定の１つのフレーム（以下、参照フレームとも称する）についてのみスプレッド情報が人手で付与される。そして、参照フレーム以外のフレームについては、オブジェクト位置情報と参照フレームのスプレッド情報に基づいて、符号化装置によりスプレッド情報が生成される。

　なお、コンテンツを構成するオーディオ信号の１つのフレームが参照フレームとされてもよいし、複数のフレームが参照フレームとされるようにしてもよい。特に、参照フレームを複数設ける場合には、等間隔に並ぶフレームが参照フレームとされてもよいし、不等間隔で並ぶ任意のフレームが参照フレームとされてもよい。また、もともとは参照フレームではないフレームが、そのフレームのスプレッド情報生成後、参照フレームとして用いられるようにしてもよい。

　さらに、ここではフレーム単位でスプレッド情報が生成される例について説明するが、数フレーム単位など、所定の時間単位でスプレッド情報が生成されてもよい。

　以下では、説明を簡単にするため、１つのフレームが参照フレームとされるものとして説明を続ける。

　例えば、オブジェクトの音の音像が水平方向および垂直方向に対称に広げられるものとし、フレームを示すフレームインデックスｉのスプレッド情報、すなわちスプレッド角度をs(i)と記すこととする。また、処理対象である現フレームを示すフレームインデックスｉをifrmと記し、参照フレームのフレームインデックスｉをrfrmと記すこととする。

　さらに、オブジェクトのフレームインデックスがｉであるフレームにおける、オブジェクト位置情報に含まれるオブジェクトの半径をr(i)と記すこととする。

　このような場合、例えば図１に示すようにオブジェクトの大きさは変化しないことが利用されて、現フレームifrmのスプレッド情報s(ifrm)が生成される。

　図１に示す例では、原点Ｏの位置が基準となる位置であるユーザの頭部の位置とされており、参照フレームrfrmでは点OB11の位置にあったオブジェクトが、現フレームifrmでは点OB21の位置に移動している。

　このとき、基準となる原点Ｏと点OB11とを結ぶ直線L11の長さ、つまり原点Ｏから点OB11までの距離は、参照フレームrfrmのオブジェクト位置情報に含まれる半径r(rfrm)となる。同様に、原点Ｏと点OB21とを結ぶ直線L21の長さ、つまり原点Ｏから点OB21までの距離は、現フレームifrmのオブジェクト位置情報に含まれる半径r(ifrm)となる。

　また、参照フレームrfrmのスプレッド情報により示されるスプレッド角度、すなわちスプレッド情報s(rfrm)は既知である。原点Ｏを通り、かつ直線L11とのなす角度がs(rfrm)である直線を直線L12とする。

　スプレッド情報s(rfrm)は、オブジェクトの音像の大きさの範囲、つまりオブジェクトの領域の範囲を示す角度情報であるから、オブジェクトの領域の端部分（外殻部分）は直線L12上に位置することになる。

　すなわち、点OB11を通り、かつ直線L11と垂直な直線を直線L13とし、直線L12と直線L13との交点を点OBE11とすると、この点OBE11の位置がオブジェクトの領域の端部分（外殻部分）の位置となる。したがって、点OB11から点OBE11までの長さ（距離）は、参照フレームrfrmにおけるオブジェクトの中心から外殻までの長さとなる。

　このような点OB11から点OBE11までの長さ、つまり直線L13の長さは、スプレッド情報s(rfrm)および半径r(rfrm)を用いて、r(rfrm)×tan(s(rfrm))と表すことができる。

　また、これから求めようとする現フレームifrmのスプレッド情報s(ifrm)について、原点Ｏを通り、かつ直線L21とのなす角度がs(ifrm)である直線を直線L22とする。さらに、点OB21を通り、かつ直線L21と垂直な直線を直線L23とし、直線L22と直線L23との交点を点OBE21とすると、点OBE21の位置が現フレームifrmにおけるオブジェクトの領域の端部分（外殻部分）の位置となる。

　したがって、点OB21から点OBE21までの長さ、つまり直線L23の長さは、現フレームifrmにおけるオブジェクトの中心から外殻までの長さとなり、スプレッド情報s(ifrm)および半径r(ifrm)を用いてr(ifrm)×tan(s(ifrm))と表すことができる。

　ここで、オブジェクトの大きさ、つまりオブジェクトの音の音像の領域の大きさはフレームによらず一定である（変化しない）とすると、点OB11から点OBE11までの長さと、点OB21から点OBE21までの長さとは等しくなる。すなわちr(rfrm)×tan(s(rfrm))＝r(ifrm)×tan(s(ifrm))が成立する。

　したがって、この関係から次式（１）により現フレームifrmの適切なスプレッド情報s(ifrm)を得ることができる。

　式（１）では、オブジェクトの現フレームifrmにおける半径r(ifrm)および参照フレームrfrmにおける半径r(rfrm)の比r(rfrm)/r(ifrm)と、オブジェクトの参照フレームrfrmのスプレッド情報s(rfrm)の正接との積tan(s(rfrm))×r(rfrm)/r(ifrm)が求められる。そして、その積tan(s(rfrm))×r(rfrm)/r(ifrm)の逆正接がオブジェクトの現フレームifrmのスプレッド情報s(ifrm)として生成される。

　このように現フレームifrmの半径r(ifrm)と、参照フレームrfrmのスプレッド情報s(rfrm)および半径r(rfrm)とに基づいて式（１）を計算すれば、簡単な演算により現フレームifrmの適切なスプレッド情報s(ifrm)を生成することができる。

　特に、この例ではオブジェクトのオーディオ信号のいくつかのフレームについてのみ人手でスプレッド情報を付与すればよいので、人手によるスプレッド情報の付与コストを大幅に削減することができる。

　なお、以上ではオブジェクトの音の音像が水平方向および垂直方向に対称に広げられる場合について説明したが、オブジェクトの音の音像が水平方向および垂直方向に非対称に広げられる場合についても同様の計算によりスプレッド情報を生成することができる。

　例えばフレームインデックスがｉであるフレームの水平方向のスプレッド情報、すなわち水平方向のスプレッド角度をs_width(i)と記し、フレームインデックスがｉであるフレームの垂直方向のスプレッド情報、すなわち垂直方向のスプレッド角度をs_height(i)と記すこととする。

　この場合、水平方向および垂直方向のそれぞれについて、上述した式（１）と同様の計算を行えばよい。

　すなわち、以下の式（２）を計算することで現フレームifrmの水平方向のスプレッド情報s_width(ifrm)を得ることができ、以下の式（３）を計算することで現フレームifrmの垂直方向のスプレッド情報s_height(ifrm)を得ることができる。

　以上のように、現フレームのオブジェクト位置情報と、参照フレームのオブジェクト位置情報およびスプレッド情報とを用いれば、より簡単に現フレームの適切なスプレッド情報を得ることができる。

〈符号化装置の構成例〉
　次に、本技術を適用した符号化装置の具体的な実施の形態について説明する。

　図２は、本技術を適用した符号化装置の構成例を示す図である。

　図２に示す符号化装置１１は、チャネルオーディオ符号化部２１、オブジェクトオーディオ符号化部２２、メタデータ入力部２３、スプレッド情報生成部２４、およびパッキング部２５を有している。

　チャネルオーディオ符号化部２１には、チャネル数がＭであるマルチチャネルの各チャネルのオーディオ信号が供給される。例えば各チャネルのオーディオ信号は、それらのチャネルに対応するマイクロフォンから供給される。図２では、文字「＃０」乃至「＃Ｍ－１」は、各チャネルのチャネル番号を表している。

　チャネルオーディオ符号化部２１は、供給された各チャネルのオーディオ信号を符号化し、符号化により得られた符号化データをパッキング部２５に供給する。

　オブジェクトオーディオ符号化部２２には、Ｎ個の各オブジェクトのオーディオ信号が供給される。例えば各オブジェクトのオーディオ信号は、それらのオブジェクトに取り付けられたマイクロフォンから供給される。図２では、文字「＃０」乃至「＃Ｎ－１」は、各オブジェクトのオブジェクト番号を表している。

　オブジェクトオーディオ符号化部２２は、供給された各オブジェクトのオーディオ信号を符号化し、得られた符号化データをパッキング部２５に供給する。

　メタデータ入力部２３は、各オブジェクトのメタデータをスプレッド情報生成部２４に供給する。

　例えばオブジェクトの参照フレームのメタデータには、オブジェクト位置情報およびスプレッド情報が含まれている。これに対して、オブジェクトの参照フレームではないフレームのメタデータには、オブジェクト位置情報は含まれているがスプレッド情報は含まれていない。

　スプレッド情報生成部２４は、メタデータ入力部２３から供給されたメタデータに基づいて、参照フレームではないフレームのスプレッド情報を生成し、メタデータに格納する。これにより、スプレッド情報生成部２４では、全てのフレームについてオブジェクト位置情報およびスプレッド情報が含まれたメタデータが得られることになる。

　スプレッド情報生成部２４は、オブジェクト位置情報およびスプレッド情報が含まれる各オブジェクトのメタデータをパッキング部２５に供給する。

　パッキング部２５は、チャネルオーディオ符号化部２１から供給された符号化データ、オブジェクトオーディオ符号化部２２から供給された符号化データ、およびスプレッド情報生成部２４から供給されたメタデータをパッキングしてビットストリームを生成し、出力する。

　このようにして得られるビットストリームには、フレームごとに各チャネルの符号化データ、各オブジェクトの符号化データ、および各オブジェクトのメタデータが含まれている。

　ここで、１フレーム分のビットストリームに格納されるＭ個の各チャネルのオーディオ信号、およびＮ個の各オブジェクトのオーディオ信号は、同時に再生されるべき同一フレームのオーディオ信号である。

〈符号化処理の説明〉
　次に、符号化装置１１により行われる処理について説明する。

　符号化装置１１は、複数の各チャネルのオーディオ信号および複数の各オブジェクトのオーディオ信号が１フレーム分ずつ供給されると、符号化処理を行って、符号化されたオーディオ信号が含まれるビットストリームを出力する。

　以下、図３のフローチャートを参照して、符号化装置１１による符号化処理について説明する。

　ステップＳ１１において、スプレッド情報生成部２４は、処理対象とするフレームが参照フレームであるか否かを判定する。

　例えばメタデータ入力部２３はユーザの入力操作を受けたり、外部との通信を行ったり、外部の記録領域からの読み出しを行ったりすることで、処理対象のフレームの各オブジェクトのメタデータを取得し、スプレッド情報生成部２４に供給する。

　スプレッド情報生成部２４は、メタデータ入力部２３から供給された各オブジェクトの処理対象のフレームのメタデータにスプレッド情報が含まれている場合、処理対象のフレームが参照フレームであると判定する。

　なお、ここでは説明を簡単にするため、全オブジェクトについて参照フレームとされるフレームが同じであるものとして説明を行うが、オブジェクトごとに参照フレームとされるフレームが異なる場合には、ステップＳ１１およびステップＳ１２の処理をオブジェクトごとに行えばよい。

　ステップＳ１１において、参照フレームであると判定された場合、スプレッド情報生成部２４は、メタデータ入力部２３から供給された各オブジェクトの処理対象のフレームのメタデータをそのままパッキング部２５に供給し、処理はステップＳ１３へと進む。

　これに対して、ステップＳ１１において参照フレームでないと判定された場合、処理はステップＳ１２へと進む。

　ステップＳ１２において、スプレッド情報生成部２４は、各オブジェクトについて、メタデータ入力部２３から供給されたメタデータに基づいて処理対象のフレームのスプレッド情報を生成する。

　例えばスプレッド情報生成部２４は、処理対象のフレームのメタデータに含まれるオブジェクト位置情報と、過去にメタデータ入力部２３から供給された参照フレームのメタデータに含まれるオブジェクト位置情報およびスプレッド情報とに基づいて上述した式（１）、または上述した式（２）および式（３）を計算することで、処理対象のフレームのスプレッド情報を生成する。

　スプレッド情報生成部２４は、各オブジェクトについてスプレッド情報を生成すると、生成したスプレッド情報を、それらの各オブジェクトのメタデータに格納し、オブジェクト位置情報およびスプレッド情報が含まれるメタデータをパッキング部２５に供給する。

　このようにして各オブジェクトについて、オブジェクト位置情報およびスプレッド情報が含まれるメタデータが得られると、その後、処理はステップＳ１３へと進む。

　ステップＳ１１において参照フレームであると判定されたか、またはステップＳ１２においてスプレッド情報が生成されると、ステップＳ１３の処理が行われる。

　すなわち、ステップＳ１３においてパッキング部２５は、スプレッド情報生成部２４から供給された各オブジェクトのメタデータをビットストリームのDSEに格納する。

　ステップＳ１４において、チャネルオーディオ符号化部２１は、供給された各チャネルのオーディオ信号を符号化し、その結果得られた各チャネルの符号化データをパッキング部２５に供給する。

　ステップＳ１５において、パッキング部２５はチャネルオーディオ符号化部２１から供給された各チャネルのオーディオ信号の符号化データを、ビットストリームのSCEまたはCPEに格納する。すなわち、ビットストリームにおいてDSEに続いて配置されている各エレメントに符号化データが格納される。

　ステップＳ１６において、オブジェクトオーディオ符号化部２２は、供給された各オブジェクトのオーディオ信号を符号化し、その結果得られた各オブジェクトの符号化データをパッキング部２５に供給する。

　ステップＳ１７において、パッキング部２５はオブジェクトオーディオ符号化部２２から供給された各オブジェクトのオーディオ信号の符号化データを、ビットストリームのSCEに格納する。すなわち、ビットストリームにおいてDSEよりも後に配置されているいくつかのエレメントに符号化データが格納される。

　以上の処理により、処理対象となっているフレームについて、全チャネルのオーディオ信号の符号化データ、および全オブジェクトのオーディオ信号のメタデータと符号化データが格納されたビットストリームが得られる。

　ステップＳ１８において、パッキング部２５は、得られた１フレーム分のビットストリームを出力する。

　ステップＳ１９において、符号化装置１１は処理を終了するか否かを判定する。例えば、全てのフレームについて符号化が終了した場合、ステップＳ１９において処理を終了すると判定される。

　ステップＳ１９において処理を終了しないと判定された場合、処理はステップＳ１１に戻り、次のフレームが処理対象のフレームとされて上述した処理が繰り返し行われる。

　これに対して、ステップＳ１９において処理を終了すると判定された場合、符号化装置１１の各部は行っている処理を停止し、符号化処理は終了する。

　以上のようにして符号化装置１１は、各オブジェクトの参照フレームではないフレームのスプレッド情報を生成してビットストリームに格納し、出力する。これにより、人手によるスプレッド情報付与のコストを低減させ、より簡単に適切なスプレッド情報を得ることができる。

〈第１の実施の形態の変形例１〉
〈復号装置の構成例〉
　なお、以上においては、符号化装置１１においてスプレッド情報を生成する例について説明したが、復号装置においてスプレッド情報を生成するようにしてもよい。そのような場合、符号化装置から出力されたビットストリームを入力とし、ビットストリームに含まれる符号化データを復号する復号装置は、例えば図４に示すように構成される。

　図４に示す復号装置１０１は、アンパッキング／復号部１１１、スプレッド情報生成部１１２、レンダリング部１１３、およびミキシング部１１４を有している。

　アンパッキング／復号部１１１は、符号化装置から出力されたビットストリームを取得するとともに、ビットストリームのアンパッキングおよび復号を行う。

　アンパッキング／復号部１１１は、アンパッキングおよび復号により得られた各オブジェクトのオーディオ信号をレンダリング部１１３に供給するとともに、アンパッキングおよび復号により得られた各オブジェクトのメタデータをスプレッド情報生成部１１２に供給する。なお、ここでは、参照フレームのメタデータにのみスプレッド情報が含まれており、参照フレームではないフレームのメタデータにはスプレッド情報は含まれていないものとする。

　また、アンパッキング／復号部１１１は、アンパッキングおよび復号により得られた各チャネルのオーディオ信号をミキシング部１１４に供給する。

　スプレッド情報生成部１１２は、アンパッキング／復号部１１１から供給された各オブジェクトのメタデータに基づいて、参照フレームではないフレームのスプレッド情報を生成し、メタデータに格納する。これにより、スプレッド情報生成部１１２では、全てのフレームについてオブジェクト位置情報およびスプレッド情報が含まれたメタデータが得られることになる。

　スプレッド情報生成部１１２は、オブジェクト位置情報およびスプレッド情報が含まれる各オブジェクトのメタデータをレンダリング部１１３に供給する。

　レンダリング部１１３は、アンパッキング／復号部１１１から供給された各オブジェクトのオーディオ信号、およびスプレッド情報生成部１１２から供給された各オブジェクトのメタデータに基づいてＭチャネルのオーディオ信号を生成し、ミキシング部１１４に供給する。このときレンダリング部１１３は、各オブジェクトの音像が、それらのオブジェクトのオブジェクト位置情報により示される位置に定位し、オブジェクトのスプレッド情報により示される広がり度合いで音像が広がるようにＭ個の各チャネルのオーディオ信号を生成する。

　ミキシング部１１４は、アンパッキング／復号部１１１から供給された各チャネルのオーディオ信号と、レンダリング部１１３から供給された各チャネルのオーディオ信号とをチャネルごとに重み付け加算し、最終的な各チャネルのオーディオ信号を生成する。ミキシング部１１４は、このようにして得られた最終的な各チャネルのオーディオ信号を、外部の各チャネルに対応するスピーカに供給し、音を再生させる。

〈復号処理の説明〉
　次に、復号装置１０１の動作について説明する。

　復号装置１０１は、符号化装置からビットストリームが供給されると、復号処理を行ってオーディオ信号を生成し、スピーカへと出力する。以下、図５のフローチャートを参照して、復号装置１０１により行われる復号処理について説明する。

　ステップＳ５１において、アンパッキング／復号部１１１は、符号化装置から送信されてきたビットストリームを１フレーム分だけ取得する。すなわち、処理対象とするフレームのビットストリームが受信される。

　ステップＳ５２において、アンパッキング／復号部１１１はフレーム復号処理を行う。

　すなわち、アンパッキング／復号部１１１は、ステップＳ５１で取得した処理対象のフレームのビットストリームをアンパッキングし、各チャネルの符号化データ、各オブジェクトの符号化データ、および各オブジェクトのメタデータを取得する。

　そして、アンパッキング／復号部１１１は、各チャネルの符号化データを復号し、その結果得られた各チャネルのオーディオ信号をミキシング部１１４に供給する。また、アンパッキング／復号部１１１は、各オブジェクトの符号化データを復号し、その結果得られた各オブジェクトのオーディオ信号をレンダリング部１１３に供給する。

　さらにアンパッキング／復号部１１１は、取得した各オブジェクトのメタデータをスプレッド情報生成部１１２に供給する。

　ステップＳ５３において、スプレッド情報生成部１１２は、処理対象とするフレームが参照フレームであるか否かを判定する。

　例えばスプレッド情報生成部１１２は、アンパッキング／復号部１１１から供給された各オブジェクトの処理対象のフレームのメタデータにスプレッド情報が含まれている場合、処理対象のフレームが参照フレームであると判定する。

　ステップＳ５３において、参照フレームであると判定された場合、スプレッド情報生成部１１２は、アンパッキング／復号部１１１から供給された各オブジェクトの処理対象のフレームのメタデータをそのままレンダリング部１１３に供給し、処理はステップＳ５５へと進む。

　これに対して、ステップＳ５３において参照フレームでないと判定された場合、処理はステップＳ５４へと進む。

　ステップＳ５４において、スプレッド情報生成部１１２は、各オブジェクトについて、アンパッキング／復号部１１１から供給されたメタデータに基づいて処理対象のフレームのスプレッド情報を生成する。

　例えばスプレッド情報生成部１１２は、処理対象のフレーム（現フレーム）のメタデータに含まれるオブジェクト位置情報と、過去に供給された参照フレームのメタデータに含まれるオブジェクト位置情報およびスプレッド情報とに基づいて上述した式（１）、または上述した式（２）および式（３）を計算することで、処理対象のフレームのスプレッド情報を生成する。

　スプレッド情報生成部１１２は、各オブジェクトについてスプレッド情報を生成すると、生成したスプレッド情報を、それらの各オブジェクトのメタデータに格納し、オブジェクト位置情報およびスプレッド情報が含まれるメタデータをレンダリング部１１３に供給する。

　このようにして各オブジェクトについて、オブジェクト位置情報およびスプレッド情報が含まれるメタデータが得られると、その後、処理はステップＳ５５へと進む。

　ステップＳ５３において参照フレームであると判定されたか、またはステップＳ５４においてスプレッド情報が生成されると、ステップＳ５５の処理が行われる。

　ステップＳ５５において、レンダリング部１１３は、アンパッキング／復号部１１１から供給されたオブジェクトのオーディオ信号、およびスプレッド情報生成部１１２から供給されたメタデータに基づいてオブジェクトのオーディオ信号のレンダリングを行う。

　例えばレンダリング部１１３は、各オブジェクトについて、スプレッド情報とオブジェクト位置情報に基づいて、VBAP（Vector Base Amplitude Pannning）により各チャネルのオーディオ信号を生成し、ミキシング部１１４に供給する。ステップＳ５５では、オブジェクトの音像がオブジェクト位置情報により示される位置に定位し、スプレッド情報により示される広がり度合いで音像が広がるようなオーディオ信号が生成される。

　ステップＳ５６において、ミキシング部１１４は、アンパッキング／復号部１１１から供給された各チャネルのオーディオ信号と、レンダリング部１１３から供給された各チャネルのオーディオ信号とをチャネルごとに重み付け加算し、外部のスピーカに供給する。これにより、各スピーカには、それらのスピーカに対応するチャネルのオーディオ信号が供給されるので、各スピーカは供給されたオーディオ信号に基づいて音を再生する。

　ステップＳ５７において、復号装置１０１は処理を終了するか否かを判定する。例えば、全てのフレームについてオーディオ信号のスピーカへの出力が終了した場合、ステップＳ５７において処理を終了すると判定される。

　ステップＳ５７において処理を終了しないと判定された場合、処理はステップＳ５１に戻り、次のフレームが処理対象のフレームとされて上述した処理が繰り返し行われる。

　これに対して、ステップＳ５７において処理を終了すると判定された場合、復号装置１０１の各部は行っている処理を停止し、復号処理は終了する。

　以上のようにして、復号装置１０１は、各オブジェクトの参照フレームではないフレームのスプレッド情報を生成してレンダリングを行う。

　これにより、人手によるスプレッド情報付与のコストを低減させ、より簡単に適切なスプレッド情報を得ることができる。また、復号装置１０１側で参照フレーム以外のフレームのスプレッド情報を生成するようにすれば、ビットストリームに参照フレーム以外のフレームのスプレッド情報を格納する必要がない。したがって、復号装置１０１に伝送するビットストリームのビットレートを低減させることができる。

〈第２の実施の形態〉
〈スプレッド情報の生成について〉
　ところで第１の実施の形態では、オブジェクトのオーディオ信号の一部のフレームに対して人手でスプレッド情報の付与が行われる場合について説明した。

　しかしながら、スプレッド情報が全く付与されていないコンテンツも数多く存在する。

　例えばオブジェクトオーディオを扱える符号化方式には、スプレッド情報をメタデータに含めるか否かをヘッダ部のフラグで切り替えることができるようになされているものもある。すなわち、スプレッド情報が付与されないビットストリームの存在が許容されている。

　また、そもそもスプレッド情報がビットストリームに含まれないオブジェクトオーディオの符号化方式も存在する。

　このような背景から、スプレッド情報が全ての時間（フレーム）において適切に付与されていないコンテンツが数多く存在し、その結果、それらのコンテンツについては臨場感の高い再生を行うことができなかった。

　そこで、オブジェクトのオブジェクト位置情報と、オブジェクトの大きさを示す大きさ情報とに基づいてスプレッド情報を生成することで、人手によるスプレッド情報の付与を行うことなく、適切なスプレッド情報を得ることができるようにしてもよい。

　例えば、いくつかのオブジェクトオーディオの符号化方式では、ビットストリームに各オブジェクトの大きさ情報が含まれているものがある。オブジェクトの大きさ情報がある場合、人手によるスプレッド情報の付与を行うことなく、オブジェクト位置情報と大きさ情報を用いてスプレッド情報を生成することができる。

　具体的には、例えばオブジェクトの音の音像が水平方向および垂直方向に対称に広げられるものとし、オブジェクトの中心から外殻（端部）までの距離を示す情報がオブジェクトの大きさ情報とされるものとする。以下では、フレームインデックスがｉであるフレームの大きさ情報をd(i)と記すこととする。

　この場合、例えば図６に示すように現フレームifrmにおけるオブジェクトの中心位置を点OB21とし、オブジェクトの端部分（外殻部分）の位置を点OBE21とすると、点OB21から点OBE21までの距離が大きさ情報d(ifrm)、すなわち大きさ情報により示される距離となる。なお、図６において図１における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　この例では、オブジェクト位置情報に含まれる半径r(ifrm)により点OB21の位置が定まる。また、点OB21の位置と、大きさ情報d(ifrm)とから点OBE21の位置が定まる。ここで、点OBE21は、原点Ｏと点OB21とを結ぶ直線L21に対して直交する直線上に位置しているものとする。すなわち、点OB21と点OBE21とを結ぶ直線L23は、直線L21に対して垂直な直線であるとする。

　このようにオブジェクトのオブジェクト位置情報と大きさ情報が与えられている場合、直線L21の長さであるr(ifrm)と、直線L23の長さであるd(ifrm)とが既知である。

　原点Ｏと点OBE21とを結ぶ直線を直線L22とすると、現フレームifrmのスプレッド情報s(ifrm)、すなわちスプレッド角度は直線L22と直線L21とのなす角度である。したがって、半径r(ifrm)および大きさ情報d(ifrm)を用いて次式（４）によりスプレッド情報s(ifrm)を求めることができる。

　式（４）では、オブジェクトの現フレームifrmの大きさ情報d(ifrm)と、オブジェクトの現フレームifrmの半径r(ifrm)との比d(ifrm)/r(ifrm)が求められ、その比d(ifrm)/r(ifrm)の逆正接がオブジェクトの現フレームifrmのスプレッド情報s(ifrm)として生成される。

　このようにオブジェクトの現フレームifrmの半径r(ifrm)と大きさ情報d(ifrm)に基づいて式（４）を計算すれば、簡単な演算によりオブジェクトの現フレームifrmの適切なスプレッド情報s(ifrm)を生成することができる。

　特に、この例ではスプレッド情報を人手で付与する必要がないので、スプレッド情報の付与コストを大幅に削減することができる。すなわち、スプレッド情報が付与されているフレームが１つもない場合であっても、全フレームに対して適切なスプレッド情報を簡単に生成することができる。これにより、スプレッド情報を用いて臨場感の高いコンテンツ再生を実現することができる。

　また、オブジェクトの音の音像が水平方向および垂直方向に非対称に広げられる場合についても式（４）と同様の計算によりスプレッド情報を生成することができる。

　すなわち、例えばオブジェクトの中心から水平方向にある外殻、つまり水平方向の端部分までの距離を水平方向距離とし、オブジェクトの中心から垂直方向にある外殻、つまり垂直方向の端部分までの距離を垂直方向距離とする。

　また、現フレームifrmのオブジェクトについて、水平方向距離d_width(ifrm)および垂直方向距離d_height(ifrm)が大きさ情報として含まれているとする。

　この場合、上述した式（４）と同様に、以下の式（５）を計算することで現フレームifrmの水平方向のスプレッド情報s_width(ifrm)を得ることができ、以下の式（６）を計算することで現フレームifrmの垂直方向のスプレッド情報s_height(ifrm)を得ることができる。

　式（５）では、現フレームifrmの半径r(ifrm)と、大きさ情報としての水平方向距離d_width(ifrm)とに基づいて水平方向のスプレッド情報s_width(ifrm)が算出される。同様に、式（６）では、現フレームifrmの半径r(ifrm)と、大きさ情報としての垂直方向距離d_height(ifrm)とに基づいて垂直方向のスプレッド情報s_height(ifrm)が算出される。

〈符号化処理の説明〉
　以上のようにオブジェクト位置情報と大きさ情報に基づいてスプレッド情報が生成される場合、図２に示した符号化装置１１では、メタデータ入力部２３からスプレッド情報生成部２４には、メタデータと大きさ情報が供給される。このとき、メタデータにはオブジェクト位置情報が含まれているが、スプレッド情報は含まれていない状態となっている。

　スプレッド情報生成部２４は、メタデータ入力部２３から供給されたオブジェクト位置情報および大きさ情報に基づいてスプレッド情報を生成する。

　このようにしてスプレッド情報が生成される場合、符号化装置１１では図７に示す符号化処理が行われる。以下、図７のフローチャートを参照して、符号化装置１１による符号化処理について説明する。

　ステップＳ８１において、スプレッド情報生成部２４はスプレッド情報を生成する。

　すなわち、メタデータ入力部２３はユーザの入力操作を受けたり、外部との通信を行ったり、外部の記録領域からの読み出しを行ったりすることで、処理対象のフレームの各オブジェクトのメタデータと大きさ情報を取得し、スプレッド情報生成部２４に供給する。

　すると、スプレッド情報生成部２４は、メタデータ入力部２３から供給されたメタデータおよび大きさ情報に基づいて、オブジェクトごとにスプレッド情報を生成する。

　具体的には、スプレッド情報生成部２４は、処理対象のフレームのメタデータに含まれるオブジェクト位置情報と、処理対象のフレームの大きさ情報とに基づいて上述した式（４）、または上述した式（５）および式（６）を計算することで、処理対象のフレームのスプレッド情報を生成する。

　そして、スプレッド情報生成部２４は、生成したスプレッド情報を、それらの各オブジェクトのメタデータに格納し、オブジェクト位置情報およびスプレッド情報が含まれるメタデータと、大きさ情報とをパッキング部２５に供給する。

　スプレッド情報が生成されると、その後、ステップＳ８２乃至ステップＳ８８の処理が行われて符号化処理は終了するが、これらの処理は図３のステップＳ１３乃至ステップＳ１９の処理と同様であるので、その説明は省略する。但し、ステップＳ８２では、メタデータとともにオブジェクトの大きさ情報もビットストリームのDSEに格納される。

　以上のようにして符号化装置１１は、オブジェクト位置情報と大きさ情報に基づいてスプレッド情報を生成してビットストリームに格納し、出力する。これにより、スプレッド情報付与のコストを低減させ、より簡単に適切なスプレッド情報を得ることができる。

〈第２の実施の形態の変形例１〉
〈復号処理の説明〉
　また、オブジェクト位置情報と大きさ情報に基づいてスプレッド情報が生成される場合、図４に示した復号装置１０１においてスプレッド情報を生成することも可能である。

　復号装置１０１においてスプレッド情報が生成される場合、復号装置１０１では図８に示す復号処理が行われる。以下、図８のフローチャートを参照して復号装置１０１による復号処理について説明する。

　なお、ステップＳ１１１およびステップＳ１１２の処理は、図５のステップＳ５１およびステップＳ５２の処理と同様であるので、その説明は省略する。

　但し、ステップＳ１１２では、アンパッキング／復号部１１１においてビットストリームのアンパッキングにより各オブジェクトのメタデータおよび大きさ情報が取得され、これらのメタデータおよび大きさ情報がスプレッド情報生成部１１２へと供給される。この場合、アンパッキングにより取得されたメタデータには、オブジェクト位置情報は含まれているが、スプレッド情報は含まれていない。

　ステップＳ１１３において、スプレッド情報生成部１１２は、各オブジェクトについてアンパッキング／復号部１１１から供給されたメタデータおよび大きさ情報に基づいて処理対象のフレームのスプレッド情報を生成する。

　例えばスプレッド情報生成部１１２は、処理対象のフレームのメタデータに含まれるオブジェクト位置情報と、処理対象のフレームの大きさ情報とに基づいて上述した式（４）、または上述した式（５）および式（６）を計算することで、処理対象のフレームのスプレッド情報を生成する。

　スプレッド情報生成部１１２は、各オブジェクトのスプレッド情報を生成すると、生成したスプレッド情報を、それらの各オブジェクトのメタデータに格納し、オブジェクト位置情報およびスプレッド情報が含まれるメタデータをレンダリング部１１３に供給する。

　ステップＳ１１３の処理が行われると、その後、ステップＳ１１４乃至ステップＳ１１６の処理が行われて復号処理は終了するが、これらの処理は図５のステップＳ５５乃至ステップＳ５７の処理と同様であるので、その説明は省略する。

　以上のようにして、復号装置１０１は各オブジェクトのオブジェクト位置情報および大きさ情報に基づいてスプレッド情報を生成し、レンダリングを行う。

　これにより、スプレッド情報付与のコストを低減させ、より簡単に適切なスプレッド情報を得ることができる。また、ビットストリームにスプレッド情報を格納する必要がないため、復号装置１０１に伝送するビットストリームのビットレートを低減させることができる。

〈第３の実施の形態〉
〈スプレッド情報の生成について〉
　ところで、いくつかのオブジェクトオーディオを扱える符号化方式では、ユーザが指定するズーム情報に基づいてオブジェクト位置情報を修正することで、ズームに対応したオブジェクトの移動を実現している。

　一方で、オブジェクトの音像（スプレッド）については、ズーム情報に応じてスプレッド情報を修正する等の処理は行われていない。そのため、例えばズームによりオブジェクトがユーザに近づいた場合でもオブジェクトの音像が広がることはなく、結果として臨場感が損なわれてしまうことになる。

　そこで、ズーム情報に基づいて、処理対象のフレームのスプレッド情報を適切に修正することで、より臨場感の高いコンテンツ再生を実現できるようにしてもよい。

　例えば復号側において、ユーザにより指定されたズーム情報に基づいて、オブジェクトのオブジェクト位置情報が修正され、ズームに対応したオブジェクトの移動が実現されるとする。

　具体的には、例えば図９の矢印A11に示すように、ズーム前の状態ではユーザU11の正面に位置し、点SCE11および点SCE12を水平方向の端点とする仮想的なスクリーンSC11にオブジェクトOB61が表示されているとする。

　ここで、オブジェクトOB61はオーディオオブジェクトに対応するオブジェクトであり、ユーザU11から見たオブジェクトOB61の垂直方向の位置を示す垂直方向角度（仰角）は０度であるものとする。つまり、オブジェクトOB61のオブジェクト位置情報により示される垂直方向角度は０度であるとする。

　また、ユーザU11は基準となる原点Ｏに位置しているものとし、原点Ｏを通りスクリーンSC11の面に対して垂直な直線L61と、スクリーンSC11との交点を点SCO11とする。

　ここで、点SCO11はスクリーンSC11の中心位置であり、ユーザU11から見た点SCO11の位置は、水平方向角度および垂直方向角度が０度となる位置である。

　この状態ではユーザU11から見てオブジェクトOB61は、右斜め前の方向に位置している。このとき、原点ＯとオブジェクトOB61とを結ぶ直線を直線L62とし、直線L61と直線L62とのなす角度をφとすると、ユーザU11から見たオブジェクトOB61の位置は、水平方向角度がφであり垂直方向角度が０度となる位置である。

　このような矢印A11に示す状態でユーザU11等がズーム操作を行い、ズーム情報が与えられたとする。

　ここでズーム情報は、例えばズーム後の仮想的なスクリーンSC21の中心位置とズーム倍率を示す情報など、ズーム前のスクリーンSC11に対するズーム後のスクリーンSC21の位置および大きさを特定可能な情報とされる。すなわち、ズーム情報はスクリーンSC11およびスクリーンSC21の位置と大きさの関係を特定可能な情報とされる。

　なお、ここでは説明を簡単にするため、ズーム前後においてスクリーンの中心位置は、ズーム前のユーザU11から見て垂直方向には変化（移動）しないものとする。

　このようなズーム情報から、スクリーンSC21の中心位置の点SCO21と、スクリーンSC21の水平方向の端である点SCE21および点SCE22が特定される。

　ズーム情報が供給されると、ズーム情報に基づいてオブジェクトOB61のオブジェクト位置情報が修正され、オブジェクトOB61の音像定位位置がズームに応じた位置に移動する。また、コンテンツの画像に対してズーム処理が行われる。

　これにより、あたかもユーザU11が仮想的なスクリーンSC21の正面に移動したかのような画像が表示され、音像の定位位置も変化する。すなわち、矢印M11に示すようにユーザU11が移動したかのような画像の表示制御および音像定位制御が行われる。

　ズーム処理が行われると、例えば矢印A12に示すようにユーザU11はスクリーンSC21の正面に位置することになるので、オブジェクトOB61はユーザU11から見て左斜め前の方向に位置することになる。

　例えばズーム後のユーザU11の位置、つまり原点Ｏを通りスクリーンSC21の面に対して垂直な直線を直線L63とする。このとき、直線L63とスクリーンSC21との交点は、スクリーンSC21の中心位置にある点SCO21となり、ズーム後のユーザU11から見た点SCO21の位置は、水平方向角度および垂直方向角度が０度となる位置である。

　また、ズーム後の原点ＯとオブジェクトOB61とを結ぶ直線を直線L64とする。直線L63と直線L64とのなす角度をφ’とすると、ズーム後のユーザU11から見たオブジェクトOB61の位置は、水平方向角度がφ’であり垂直方向角度が０度となる位置である。

　このようにズーム情報が供給されると、オブジェクトOB61の水平方向の位置を示す水平方向角度φはφ’に修正されることになる。

　具体的には、オブジェクトOB61のオブジェクト位置情報の修正後の水平方向角度φ’は、以下のようにして求められる。

　すなわち、例えば図１０の矢印A21に示すようにユーザU11の右前方にオブジェクトOB61がある状態でズームが行われ、ズーム後には図１０の矢印A22に示すようにユーザU11の左前方にオブジェクトOB61が位置する状態となったとする。なお、図１０において図９における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　例えば図１０の矢印A21に示すように、ズーム前におけるユーザU11の位置、すなわち原点Ｏおよび点SCE11を結ぶ直線と、直線L61とのなす角度をφ^repro _leftとする。同様に、ズーム前における原点Ｏおよび点SCE12を結ぶ直線と、直線L61とのなす角度をφ^repro _rightとする。これらの角度φ^repro _leftおよび角度φ^repro _rightは既知の情報である。

　また、ズーム前におけるユーザU11の位置、すなわち原点Ｏおよび点SCE21を結ぶ直線と、直線L61とのなす角度をφ^ZASource _leftとする。さらにズーム前における原点Ｏおよび点SCE22を結ぶ直線と、直線L61とのなす角度をφ^ZASource _rightとする。これらの角度φ^ZASource _leftおよび角度φ^ZASource _rightは、ズーム情報から求めることができる。

　さらに、ズーム前後においてユーザU11と仮想的なスクリーンとの相対的な位置関係が同じであるものとすると、矢印A22に示すように、ズーム後におけるユーザU11の位置、すなわち原点Ｏおよび点SCE21を結ぶ直線と、直線L63とのなす角度はφ^repro _leftとなる。同様に、ズーム後における原点Ｏおよび点SCE22を結ぶ直線と、直線L63とのなす角度はφ^repro _rightとなる。

　これらの角度φ^repro _left、角度φ^repro _right、角度φ^ZASource _left、および角度φ^ZASource _rightと、オブジェクトOB61の修正前のオブジェクト位置情報における水平方向角度φとを用いれば、オブジェクトOB61の修正後のオブジェクト位置情報における水平方向角度φ’を求めることができる。すなわち、次式（７）により水平方向角度φ’を求めることができる。

　なお、以上においてはズームの前後でスクリーンの中心位置が垂直方向に変化しない例について説明した。しかし、ズーム前後でスクリーンの中心位置が垂直方向にも変化する場合においても水平方向と同様にして、修正後のオブジェクト位置情報における垂直方向角度を求めることができる。

　例えばズーム前、つまり修正前のオブジェクト位置情報の垂直方向角度をθとし、ズーム後、つまり修正後のオブジェクト位置情報の垂直方向角度をθ’とするものとする。

　また、ズーム前後において、ユーザの位置、つまり原点Ｏおよび仮想的なスクリーンの中心を結ぶ直線と、原点Ｏおよび仮想的なスクリーンの上端を結ぶ直線とのなす角度がθ^repro _topであるとする。ズーム前後において、原点Ｏおよび仮想的なスクリーンの中心を結ぶ直線と、原点Ｏおよび仮想的なスクリーンの下端を結ぶ直線とのなす角度がθ^repro _bottomであるとする。これらの角度θ^repro _topおよび角度θ^repro _bottomは既知である。

　さらに、ズーム前の原点Ｏおよびズーム前の仮想的なスクリーンの中心を結ぶ直線と、ズーム前の原点Ｏおよびズーム後の仮想的なスクリーンの上端を結ぶ直線とのなす角度をθ^ZASource _topとする。同様に、ズーム前の原点Ｏおよびズーム前の仮想的なスクリーンの中心を結ぶ直線と、ズーム前の原点Ｏおよびズーム後の仮想的なスクリーンの下端を結ぶ直線とのなす角度をθ^ZASource _bottomとする。これらの角度θ^ZASource _topおよび角度θ^ZASource _bottomはズーム情報から求めることができる。

　この場合、角度θ^repro _top、角度θ^repro _bottom、角度θ^ZASource _top、および角度θ^ZASource _bottomと、オブジェクトの修正前のオブジェクト位置情報における垂直方向角度θとを用いれば、オブジェクトの修正後のオブジェクト位置情報における垂直方向角度θ’を求めることができる。すなわち、次式（８）により垂直方向角度θ’を求めることができる。

　オブジェクト位置情報の修正時には、ズーム情報および修正前のオブジェクト位置情報に基づいて式（７）や式（８）の計算等が行われて、オブジェクト位置情報に含まれる、オブジェクトの水平方向角度、垂直方向角度、および半径が修正される。

　ところで、ズーム前後におけるスプレッド角度の関係は、ズーム前後におけるオブジェクト位置情報により示される水平方向角度の関係や垂直方向角度の関係と同じである。そのため、式（７）や式（８）と同様の計算を行うことで、適切にスプレッド情報を修正することが可能である。すなわち、ズーム後の適切なスプレッド情報を生成することができる。

　具体的には、例えばオブジェクトの音の音像が水平方向および垂直方向に非対称に広げられるものとし、ズーム前の現フレームifrmのスプレッド情報としてスプレッド情報s_width(ifrm)およびスプレッド情報s_height(ifrm)が与えられているとする。

　また、ズーム後における現フレームifrmの水平方向のスプレッド角度をs’_width(ifrm)とし、ズーム後における現フレームifrmの垂直方向のスプレッド角度をs’_height(ifrm)とする。つまり、スプレッド情報s’_width(ifrm)およびスプレッド情報s’_height(ifrm)からなる情報を、ズーム情報に基づくズームに応じて修正した修正後（ズーム後）のスプレッド情報とする。

　この場合、式（７）におけるφおよびφ’をs_width(ifrm)およびs’_width(ifrm)に置き換えることで、修正後のスプレッド情報s’_width(ifrm)を得ることができる。同様に、式（８）におけるθおよびθ’をs_height(ifrm)およびs’_height(ifrm)に置き換えることで、修正後のスプレッド情報s’_height(ifrm)を得ることができる。

　すなわち、ズーム情報と、オブジェクトの現フレームifrmのズーム前（修正前）のスプレッド情報s_width(ifrm)に基づいて以下の式（９）を計算することで、修正後（ズーム後）のスプレッド情報s’_width(ifrm)を得ることができる。

　また、ズーム情報と、オブジェクトの現フレームifrmのズーム前（修正前）のスプレッド情報s_height(ifrm)に基づいて以下の式（１０）を計算することで、修正後のスプレッド情報s’_height(ifrm)を得ることができる。

　これらの式（９）と式（１０）によるスプレッド情報の修正は、ズーム情報により定まるズーム前の仮想的なスクリーンSC11とズーム後の仮想的なスクリーンSC21との位置および大きさの関係、並びにオブジェクトの現フレームifrmのズーム前のスプレッド情報に基づいて、オブジェクトの現フレームifrmのズーム後のスプレッド情報を生成しているともいうことができる。

　なお、ここでは例えばオブジェクトの音の音像が水平方向および垂直方向に非対称に広げられる場合を例として説明したが、音像が水平方向および垂直方向に対称に広げられる場合においても同様にしてスプレッド情報を修正することが可能である。

　そのような場合、例えば修正後のスプレッド情報をs’(ifrm)とすると、式（９）においてスプレッド情報s_width(ifrm)およびスプレッド情報s’_width(ifrm)をスプレッド情報s(ifrm)およびスプレッド情報s’(ifrm)に置き換えて計算を行えばよい。

〈復号装置の構成例〉
　以上において説明したようにズーム情報に基づいてオブジェクト位置情報およびスプレッド情報が修正される場合、復号装置は、例えば図１１に示すように構成される。なお、図１１において図４における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図１１に示す復号装置１０１は、アンパッキング／復号部１１１、スプレッド情報生成部１１２、レンダリング部１１３、およびミキシング部１１４を有している。また、図１１に示す復号装置１０１のスプレッド情報生成部１１２には、位置情報修正部１６１およびスプレッド情報修正部１６２が設けられている。

　図１１に示す復号装置１０１は、スプレッド情報生成部１１２に位置情報修正部１６１およびスプレッド情報修正部１６２を設けた点で図４に示した復号装置１０１と異なり、その他の点では図４に示した復号装置１０１と同じ構成となっている。

　この例では、アンパッキング／復号部１１１からスプレッド情報生成部１１２には、各オブジェクトの全フレームのメタデータが供給される。この場合、メタデータには、必ずオブジェクト位置情報とスプレッド情報が含まれている。また、スプレッド情報生成部１１２にはユーザ操作等に応じてズーム情報も供給される。

　スプレッド情報生成部１１２の位置情報修正部１６１は、供給されたズーム情報に基づいて、アンパッキング／復号部１１１から供給されたメタデータに含まれるオブジェクト位置情報を修正する。

　スプレッド情報生成部１１２のスプレッド情報修正部１６２は、供給されたズーム情報に基づいて、アンパッキング／復号部１１１から供給されたメタデータに含まれるスプレッド情報を修正する。換言すればスプレッド情報修正部１６２は、ズーム情報およびズーム前（修正前）のスプレッド情報に基づいて、ズーム後のスプレッド情報を生成する。

　スプレッド情報生成部１１２は、修正後のオブジェクト位置情報および修正後のスプレッド情報が含まれる各オブジェクトのメタデータをレンダリング部１１３に供給する。

〈復号処理の説明〉
　次に、図１１に示した復号装置１０１の動作について説明する。

　すなわち、以下、図１２のフローチャートを参照して、図１１に示した復号装置１０１による復号処理について説明する。

　なお、ステップＳ１４１およびステップＳ１４２の処理は、図５のステップＳ５１およびステップＳ５２の処理と同様であるので、その説明は省略する。但し、ステップＳ１４２では、各オブジェクトについて、オブジェクト位置情報およびスプレッド情報が含まれているメタデータがスプレッド情報生成部１１２に供給される。

　ステップＳ１４３において、位置情報修正部１６１は、供給されたズーム情報に基づいて、アンパッキング／復号部１１１から供給されたメタデータに含まれるオブジェクト位置情報を修正する。

　すなわち、位置情報修正部１６１はズーム情報と、アンパッキング／復号部１１１から供給されたメタデータに含まれるオブジェクト位置情報とに基づいて、オブジェクト位置情報に含まれる水平方向角度、垂直方向角度、および半径を修正する。

　具体的には、位置情報修正部１６１は上述した式（７）を計算することでオブジェクトの位置を示す修正後の水平方向角度φ’を算出するとともに、上述した式（８）を計算することでオブジェクトの位置を示す修正後の垂直方向角度θ’を算出する。また、位置情報修正部１６１は、オブジェクトの位置を示す半径をズーム倍率で除算することで、オブジェクトの位置を示す修正後の半径を算出する。

　ステップＳ１４４において、スプレッド情報修正部１６２は、供給されたズーム情報に基づいて、アンパッキング／復号部１１１から供給されたメタデータに含まれるスプレッド情報を修正する。すなわち、ズームに応じたズーム後のスプレッド情報が生成される。

　例えばアンパッキング／復号部１１１から供給されたメタデータのスプレッド情報として、スプレッド情報s_width(ifrm)およびスプレッド情報s_height(ifrm)が含まれているとする。この場合、スプレッド情報修正部１６２は、それらのスプレッド情報とズーム情報に基づいて、上述した式（９）および式（１０）を計算することで、修正後のスプレッド情報s’_width(ifrm)およびスプレッド情報s’_height(ifrm)を算出する。

　このようにしてオブジェクト位置情報およびスプレッド情報が修正されると、スプレッド情報生成部１１２は、修正後のオブジェクト位置情報および修正後のスプレッド情報が含まれた各オブジェクトのメタデータをレンダリング部１１３に供給する。

　なお、ズーム情報が供給されなかった場合、すなわちズームが行われない場合には、特にステップＳ１４３およびステップＳ１４４の処理は行われない。すなわち、オブジェクト位置情報およびスプレッド情報の修正は行われない。

　ステップＳ１４４の処理が行われると、その後、ステップＳ１４５乃至ステップＳ１４７の処理が行われて復号処理は終了するが、これらの処理は図５のステップＳ５５乃至ステップＳ５７の処理と同様であるので、その説明は省略する。

　以上のようにして、復号装置１０１は各オブジェクトのオブジェクト位置情報およびスプレッド情報を修正し、レンダリングを行う。

　これにより、適切なオブジェクト位置情報およびスプレッド情報を簡単に得ることができ、より臨場感の高いコンテンツ再生を実現することができる。

　また、以上において説明した第３の実施の形態と、第１の実施の形態や第２の実施の形態を組み合わせるようにしてもよい。

　例えば第２の実施の形態と第３の実施の形態とを組み合わせる場合には、図８を参照して説明した復号処理においてステップＳ１１３の処理が行われた後、図１２のステップＳ１４３およびステップＳ１４４の処理が行われ、その後、ステップＳ１１４乃至ステップＳ１１６の処理が行われる。

　このようにすることで、スプレッド情報がないフレームがあるときでも、ズーム情報に応じた適切なスプレッド情報を簡単に得ることができる。

〈コンピュータの構成例〉
　ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

　図１３は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

　コンピュータにおいて、CPU（Central Processing Unit）５０１，ROM（Read Only Memory）５０２，RAM（Random Access Memory）５０３は、バス５０４により相互に接続されている。

　バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、入力部５０６、出力部５０７、記録部５０８、通信部５０９、及びドライブ５１０が接続されている。

　入力部５０６は、キーボード、マウス、マイクロフォン、撮像素子などよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記録部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインターフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体５１１を駆動する。

　以上のように構成されるコンピュータでは、CPU５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５及びバス５０４を介して、RAM５０３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（CPU５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータでは、プログラムは、リムーバブル記録媒体５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ROM５０２や記録部５０８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　１１　符号化装置，　２２　オブジェクトオーディオ符号化部，　２３　メタデータ入力部，　２４　スプレッド情報生成部，　１０１　復号装置，　１１１　アンパッキング／復号部，　１１２　スプレッド情報生成部，　１１３　レンダリング部，　１６１　位置情報修正部，　１６２　スプレッド情報修正部

Claims

　オーディオオブジェクトの処理対象のフレームのオブジェクト位置情報および前記オーディオオブジェクトの前記処理対象のフレームとは異なる他のフレームのスプレッド情報と、ズーム情報と、前記オーディオオブジェクトの大きさ情報とのうちの何れかに基づいて、前記オーディオオブジェクトの前記処理対象のフレームのスプレッド情報を生成するスプレッド情報生成部を備える
　信号処理装置。
　前記スプレッド情報生成部は、前記オーディオオブジェクトの前記他のフレームの前記スプレッド情報と、前記オーディオオブジェクトの前記処理対象のフレームおよび前記他のフレームの前記オブジェクト位置情報とに基づいて前記処理対象のフレームの前記スプレッド情報を生成する
　請求項１に記載の信号処理装置。
　前記オブジェクト位置情報は、基準位置から前記オーディオオブジェクトまでの距離である
　請求項２に記載の信号処理装置。
　前記スプレッド情報生成部は、前記処理対象のフレームにおける前記距離および前記他のフレームにおける前記距離の比と、前記他のフレームの前記スプレッド情報の正接との積の逆正接を前記処理対象のフレームの前記スプレッド情報として生成する
　請求項３に記載の信号処理装置。
　前記スプレッド情報生成部は、前記ズーム情報と、前記オーディオオブジェクトの前記処理対象のフレームの前記スプレッド情報とに基づいて、ズーム後における前記オーディオオブジェクトの前記処理対象のフレームの前記スプレッド情報を生成する
　請求項１に記載の信号処理装置。
　前記スプレッド情報生成部は、前記ズーム情報により定まるズーム前後における仮想スクリーンの位置および大きさの関係に基づいて、前記ズーム後における前記オーディオオブジェクトの前記処理対象のフレームの前記スプレッド情報を生成する
　請求項５に記載の信号処理装置。
　前記スプレッド情報生成部は、前記大きさ情報と、前記オーディオオブジェクトの前記処理対象のフレームの前記オブジェクト位置情報とに基づいて、前記処理対象のフレームの前記スプレッド情報を生成する
　請求項１に記載の信号処理装置。
　前記大きさ情報は、前記オーディオオブジェクトの中心から外殻までの距離である
　請求項７に記載の信号処理装置。
　前記オブジェクト位置情報は、基準位置から前記オーディオオブジェクトまでの距離である
　請求項８に記載の信号処理装置。
　前記スプレッド情報生成部は、前記大きさ情報と、前記処理対象のフレームの前記オブジェクト位置情報との比の逆正接を前記処理対象のフレームの前記スプレッド情報として生成する
　請求項９に記載の信号処理装置。
　オーディオオブジェクトの処理対象のフレームのオブジェクト位置情報および前記オーディオオブジェクトの前記処理対象のフレームとは異なる他のフレームのスプレッド情報と、ズーム情報と、前記オーディオオブジェクトの大きさ情報とのうちの何れかに基づいて、前記オーディオオブジェクトの前記処理対象のフレームのスプレッド情報を生成する
　ステップを含む信号処理方法。
　オーディオオブジェクトの処理対象のフレームのオブジェクト位置情報および前記オーディオオブジェクトの前記処理対象のフレームとは異なる他のフレームのスプレッド情報と、ズーム情報と、前記オーディオオブジェクトの大きさ情報とのうちの何れかに基づいて、前記オーディオオブジェクトの前記処理対象のフレームのスプレッド情報を生成する
　ステップを含む処理をコンピュータに実行させるプログラム。