TWI607655B

TWI607655B - Coding apparatus and method, decoding apparatus and method, and program

Info

Publication number: TWI607655B
Application number: TW105117389A
Authority: TW
Inventors: Yuki Yamamoto; Toru Chinen; Minoru Tsuji
Original assignee: Sony Corp
Priority date: 2015-06-19
Filing date: 2016-06-02
Publication date: 2017-12-01
Also published as: HK1244384A1; EP3316599A1; EP3316599B1; RU2017143404A3; EP3316599A4; JP2024111209A; MX378540B; JP6915536B2; MY201775A; CA2989099C; CN113470665A; JP7205566B2; JP7726336B2; MX2017016228A; WO2016203994A1; CN107637097A; CN107637097B; CN113470665B; JP7509190B2; KR20180107307A

Description

編碼裝置及方法、解碼裝置及方法、以及程式

本技術係有關於編碼裝置及方法、解碼裝置及方法、以及程式，尤其是有關於，能夠獲得更高音質之聲音的編碼裝置及方法、解碼裝置及方法、以及程式。

先前，將音訊物件的音訊訊號，和該音訊物件的位置資訊等的後設資料予以壓縮(編碼)的MPEG(Moving Picture Experts Group)-H 3D Audio規格，已為人知(例如參照非專利文獻1)。

在該技術中，音訊物件的音訊訊號和後設資料，係每一音框地被編碼而被傳輸。此時，對音訊物件的音訊訊號的每1音框，最大可有1個後設資料被編碼而傳輸。亦即，隨著音框不同，有些會沒有後設資料。

又，已被編碼之音訊訊號和後設資料，係於解碼裝置中被解碼，基於解碼所得到的音訊訊號和後設資料而進行渲染。

亦即，在解碼裝置中，首先音訊訊號和後設資料會被解碼。解碼的結果，針對音訊訊號，係會獲得音框內的每一樣本的PCM(Pulse Code Modulation)樣本值。亦即，作為音訊訊號會獲得PCM資料。

另一方面，關於後設資料，係會獲得音框內的代表樣本的後設資料，具體而言係得到音框內的最後樣本的後設資料。

若如此獲得音訊訊號和後設資料，則解碼裝置內的渲染器，係基於音框內的代表樣本之作為後設資料的位置資訊，以使得音訊物件的音像被定位在該位置資訊所示之位置的方式，藉由VBAP(Vector Base Amplitude Panning)而算出VBAP增益。該VBAP增益，係針對再生側的每一揚聲器而被算出。

但是，音訊物件的後設資料，係如上述般地是音框內的代表樣本，亦即音框內的最後樣本的後設資料。因此，已被渲染器所算出的VBAP增益係為音框內的最後樣本的增益，音框內的其他樣本的VBAP增益係未被求出。因此，為了再生音訊物件的聲音，必須也要算出音訊訊號之代表樣本以外之樣本的VBAP增益。

於是，在渲染器中藉由內插處理而算出各樣本的VBAP增益。具體而言，針對每一揚聲器，根據目前音框的最後樣本的VBAP增益、和該目前音框之前一音框的最後樣本的VBAP增益，而將位於這些樣本之間的目前音框之樣本的VBAP增益，藉由線性內插而予以算出。

如此一來，音訊物件的音訊訊號上所被乘算的各樣本的VBAP增益係一旦按照每一揚聲器而被獲得，就可將音訊物件的聲音予以再生。

亦即，在解碼裝置中，每一揚聲器所被算出的VBAP增益，係被乘算至該音訊物件的音訊訊號然後被供給至各揚聲器，再生出聲音。

〔先前技術文獻〕〔非專利文獻〕

[非專利文獻1] ISO/IEC JTC1/SC29/WG11 N14747, August 2014, Sapporo, Japan, "Text of ISO/IEC 23008-3/DIS, 3D Audio"

然而，在上述的技術中，要獲得充分高音質的聲音，是困難的。

例如在VBAP中，係以使得已被算出之各揚聲器的VBAP增益的2次方和會是1的方式，進行正規化。藉由如此的正規化，音像的定位位置，係以再生空間中所定之基準點，例如聆賞附帶聲音之動態影像或樂曲等之內容的假想之使用者的頭部位置為中心，而位於半徑為1之球的表面上。

可是，由於音框內的代表樣本以外之樣本的VBAP增益係藉由內插處理而被算出，因此此種樣本的各揚聲器的VBAP增益的2次方和係不會變成1。因此，針對藉由內插處理而算出了VBAP增益的樣本，係在聲音之再生時，音像的位置是從假想的使用者來看，會在上述的球面的法線方向、或球的表面上的上下左右方向偏移。如此一來，在聲音再生時，在1音框之期間內，音訊物件的音像位置會搖擺或是定位感惡化，導致聲音的音質劣化。

尤其是，構成1音框的樣本數越多，目前音框的最後樣本位置、和該目前音框的前一音框的最後樣本位置之間的長度會變長。如此一來，藉由內插處理所被算出的各揚聲器的VBAP增益的2次方和與1的差會變大，音質的劣化會變大。

又，代表樣本以外之樣本的VBAP增益是藉由內插處理而算出時，音訊物件的運動速度越快，目前音框的最後樣本的VBAP增益、和該目前音框之前一音框的最後樣本的VBAP增益的差就會越大。如此一來，無法將音訊物件的運動做正確地渲染，而導致音質劣化。

甚至，在體育或電影等之實際的內容中，場景係會不連續地切換。在此種情況下，在場景的切換部分，音訊物件就會不連續地移動。可是，若如上述般地藉由內插處理而算出VBAP增益，則藉由內插處理算出VBAP增益的樣本之區間，亦即目前音框的最後樣本、和該目前音框之前一音框的最後樣本之間，關於聲音係會變成音訊物件是呈連續性移動。如此一來，無法將音訊物件的不連續移動藉由渲染而加以表現，其結果為，聲音的音質會劣化。

本技術係有鑑於此種狀況而研發，目的在於能夠獲得較高音質之聲音。

本技術之第1側面的解碼裝置，係具備：取得部，係取得將音訊物件的所定時間間隔之音框的音訊訊號予以編碼所得的編碼音訊資料、和前記音框的複數後設資料；和解碼部，係將前記編碼音訊資料予以解碼；和渲染部，係基於前記解碼所得之音訊訊號、和前記複數後設資料，來進行渲染。

前記後設資料中係可含有，表示前記音訊物件之位置的位置資訊。

可將前記複數後設資料之每一者，設成前記音訊訊號的前記音框內的複數樣本之每一者的後設資料。

可將前記複數後設資料之每一者，設成以將構成前記音框的樣本之數量除以前記複數後設資料之數量所得的樣本數之間隔而排列的複數樣本之每一者的後設資料。

可將前記複數後設資料之每一者，設成複數樣本索引之每一者所示的複數樣本之每一者的後設資料。

可將前記複數後設資料之每一者，設成以前記音框內的所定樣本數間隔而排列的複數樣本之每一者的後設資料。

前記複數後設資料中係可含有，用來進行基於後設資料而被算出之前記音訊訊號之樣本之增益之內插處理所需的後設資料。

本技術之第1側面的解碼方法或程式，係含有以下步驟：取得將音訊物件的所定時間間隔之音框的音訊訊號予以編碼所得的編碼音訊資料、和前記音框的複數後設資料；將前記編碼音訊資料予以解碼；基於前記解碼所得之音訊訊號、和前記複數後設資料，來進行渲染。

在本技術的第1側面中，將音訊物件的所定時間間隔之音框的音訊訊號予以編碼所得的編碼音訊資料、和前記音框的複數後設資料，會被取得；前記編碼音訊資料會被解碼，基於前記解碼所得之音訊訊號、和前記複數後設資料，來進行渲染。

本技術之第2側面的編碼裝置，係具備：編碼部，係將音訊物件的所定時間間隔之音框的音訊訊號，予以編碼；和生成部，係生成含有前記編碼所得之編碼音訊資料、和前記音框之複數後設資料的位元串流。

在編碼裝置中可以還設有：內插處理部，係對後設資料進行內插處理。

本技術之第2側面的編碼方法或程式，係含有以下步驟：將音訊物件的所定時間間隔之音框的音訊訊號，予以編碼；生成含有前記編碼所得之編碼音訊資料、和前記音框之複數後設資料的位元串流。

在本技術的第2側面中，音訊物件的所定時間間隔之音框的音訊訊號係被編碼；含有前記編碼所得之編碼音訊資料、和前記音框之複數後設資料的位元串流，係被生成。

若依據本技術的第1側面及第2側面，則可獲得較高音質之聲音。

此外，並非一定限定於這裡所記載的效果，亦可為本揭露中所記載之任一效果。

11‧‧‧編碼裝置

21‧‧‧音訊訊號取得部

22‧‧‧音訊訊號編碼部

23‧‧‧後設資料取得部

24‧‧‧內插處理部

25‧‧‧關連資訊取得部

26‧‧‧後設資料編碼部

27‧‧‧多工化部

28‧‧‧輸出部

51‧‧‧解碼裝置

52‧‧‧揚聲器系統

61‧‧‧取得部

62‧‧‧分離部

63‧‧‧音訊訊號解碼部

64‧‧‧後設資料解碼部

65‧‧‧增益算出部

66‧‧‧音訊訊號生成部

71‧‧‧追加後設資料旗標讀出部

72‧‧‧切換索引讀出部

73‧‧‧內插處理部

501‧‧‧CPU

502‧‧‧ROM

503‧‧‧RAM

504‧‧‧匯流排

505‧‧‧輸出入介面

506‧‧‧輸入部

507‧‧‧輸出部

508‧‧‧記錄部

509‧‧‧通訊部

510‧‧‧驅動機

511‧‧‧可移除式記錄媒體

[圖1]位元串流的說明圖。

[圖2]編碼裝置之構成例的圖示。

[圖3]說明編碼處理的流程圖。

[圖4]解碼裝置之構成例的圖示。

[圖5]說明解碼處理的流程圖。

[圖6]電腦之構成例的圖示。

以下，參照圖面，說明適用了本技術的實施形態。

〈第1實施形態〉〈關於本技術之概要〉

本技術係將音訊物件的音訊訊號、和該音訊物件的位置資訊等之後設資料，予以編碼而傳輸，在解碼側將這些音訊訊號和後設資料予以解碼而再生聲音等情況下，可獲得較高音質的聲音。此外，以下也將音訊物件簡稱為物件。

在本技術中，針對1音框之音訊訊號，是將複數後設資料、亦即2個以上的後設資料予以編碼而發送。

此處，後設資料係為，音訊訊號之音框內的樣本的後設資料，亦即對樣本所給予的後設資料。例如作為後設資料之位置資訊所示的空間內的音訊物件的位置，係表示以該後設資料所被給予的樣本為基礎的聲音之再生時序上的位置。

又，作為發送後設資料的方法有以下所示的3個方法，亦即可藉由個數指定方式、樣本指定方式、及自動切換方式所致之送訊方法之其中任一方法，來發送後設資料。又，後設資料送訊時，係可按照所定時間間隔之區間也就是每一音框或每一物件地，切換這些3個方式而發送後設資料。

(個數指定方式)

首先說明個數指定方式。

個數指定方式，係將表示對1音框而被發送之後設資料之數量的後設資料個數資訊，包含在位元串流語法中，將已被指定之個數的後設資料予以發送的方式。此外，表示構成1音框之樣本之數量的資訊，係被儲存在位元串流的標頭內。

又，所被發送的各後設資料，係為1音框內的哪個樣本的後設資料，將1音框予以等分時的位置等，係只要預先制定即可。

例如，假設構成1音框之樣本之數量係為2048樣本，每1音框係發送4個後設資料。此時，假設將1音框之區間，以送訊的後設資料之數量加以等分，將已被分割之區間境界之樣本位置的後設資料予以送出。亦即，是將以1音框之樣本數除以後設資料數所得的樣本數之間隔而排列的音框內的樣本的後設資料，予以發送。

此情況下，從音框開頭起，分別是有關於第512個樣本、第1024個樣本、第1536個樣本、及第2048個樣本的後設資料，會被發送。

其他，亦可為，令構成1音框之樣本之數量為S，令每1音框所被發送的後設資料之數量為A時，發送由S/2^(A-1)而定的樣本位置的後設資料。亦即，亦可發送，於音框內以S/2^(A-1)樣本間隔而排列的樣本之一部分或全部的後設資料。此時，例如後設資料數A=1時，係發送音框內的最後樣本的後設資料。

又，亦可每一以所定間隔而排列的樣本、亦即每所定樣本數地，發送後設資料。

(樣本指定方式)

接著，說明樣本指定方式。

在樣本指定方式中，除了上述的個數指定方式中所被發送的後設資料個數資訊以外，還有表示各後設資料之樣本位置的樣本索引，也被儲存在位元串流中而被發送。

例如構成1音框之樣本之數量為2048樣本，每1音框會發送4個後設資料。又，從音框開頭起，分別是有關於第128個樣本、第512個樣本、第1536個樣本、及第2048個樣本的後設資料，會被發送。

此情況下，位元串流中係儲存有：表示每1音框而被發送的後設資料之個數「4」的後設資料個數資訊、和表示從音框開頭起第128個樣本、第512個樣本、第1536個樣本、及第2048個樣本之每一者之樣本之位置的樣本索引之每一者。例如表示從音框開頭地128個樣本之位置的樣本索引之值，係為128等。

在樣本指定方式中，因為可以每音框地發送任意之樣本的後設資料，所以可以發送例如場景之切換位置之前後之樣本的後設資料。此情況下，可藉由渲染來表現物件的不連續之移動，可獲得高音質的聲音。

(自動切換方式)

再來說明自動切換方式。

在自動切換方式中，隨應於構成1音框之樣本之數量，亦即1音框之樣本數，隨各音框所被發送的後設資料之數量係會自動地切換。

例如1音框之樣本數為1024樣本時，於音框內以256樣本間隔而排列的各樣本的後設資料，係被發送。在此例子中，從音框開頭起，分別是有關於第256個樣本、第512個樣本、第768個樣本、及第1024個樣本，合計4個後設資料，會被發送。

又，例如1音框之樣本數為2048樣本時，於音框內以256樣本間隔而排列的各樣本的後設資料，係被發送。在此例中，合計8個的後設資料，會被發送。

若如此以個數指定方式、樣本指定方式、及自動切換方式之各方式而針對1音框發送2個以上的後設資料，則在構成音框的樣本之數量較多等情況下，可發送較多的後設資料。

藉此，藉由線性內插而被算出VBAP增益的樣本為連續排列的區間之長度會較短，可獲得較高音質的聲音。

例如藉由線性內插而被算出VBAP增益的樣本為連續排列的區間之長度若變得較短，則各揚聲器的VBAP增益之2次方和與1的差也會變小，因此物件之音像之定位感可被提升。

又，由於具有後設資料的樣本間之距離也變短，因此這些樣本中的VBAP增益之差也變小，可較正確地渲染物件之運動。甚至若具有後設資料的樣本間之距離變短，則場景之切換部分等，原本物件就是不連續地移動的期間中，關於聲音聽起來物件像是連續移動的這種期間，也可較為縮短。尤其是，在樣本指定方式下，藉由發送適切的樣本位置的後設資料，就可表現物件的不連續移動。

此外，以上所說明的個數指定方式、樣本指定方式、及自動切換方式的3個方式係可只使用任1個來發送後設資料，但亦可在這些3個方式之中將2種以上之方式，按照每一音框或每一物件地加以切換。

例如將個數指定方式、樣本指定方式、及自動切換方式之3個方式按照每一音框或每一物件地加以切換的情況下，則只要在位元串流中儲存，表示是藉由哪種方式來發送後設資料的切換索引即可。

此情況下，例如切換索引之值為0時係個數指定方式被選擇、亦即藉由個數指定方式來表示有後設資料被發送，切換索引之值為1時係表示樣本指定方式被選擇，切換索引之值為2時係表示自動切換方式被選擇等。以下假設，這些個數指定方式、樣本指定方式、及自動切換方式，是按照每一音框或每一物件地而被切換，而繼續說明。

又，在上述的MPEG-H 3D Audio規格所制定的音訊訊號和後設資料之送訊方法中，只有音框內的最後樣本的後設資料會被發送。因此，藉由內插處理而算出各樣本的VBAP增益的情況下，需要比目前音框還要前面的音框的最後樣本的VBAP增益。

因此，例如在再生側(解碼側)，即使想要進行從任意之音框之音訊訊號開始再生的隨機存取，由於比該隨機存取之音框還要前面的音框的VBAP增益係未被算出，因此無法進行VBAP增益的內插處理。基於如此理由，在MPEG-H 3D Audio規格中係無法進行隨機存取。

於是，在本技術中，是在各音框或任意之間隔之音框等中，將這些音框的後設資料，連同進行內插處理所必須之後設資料也一起發送，藉此，可以算出比目前音框還要前面的音框之樣本，或目前音框之開頭之樣本的VBAP增益。藉此，就可隨機存取。此外，以下，將連同通常的後設資料一起被發送的，用來進行內插處理所需的後設資料，特別稱為追加後設資料。

此處，連同目前音框的後設資料一起被發送的追加後設資料，係為例如目前音框之前一音框的最後樣本的後設資料，或目前音框之開頭之樣本的後設資料等。

又，為了容易每一音框地界定是否有追加後設資料，在位元串流內中係儲存有，針對各物件，每一音框地表示追加後設資料之有無的追加後設資料旗標。例如所定之音框之追加後設資料旗標之值為1時，則該音框中係有追加後設資料存在，追加後設資料旗標之值為0時，則該音框中係沒有追加後設資料存在等。

此外，基本上，同一音框之全部之物件的追加後設資料旗標之值係為相同值。

如此每一音框地發送追加後設資料旗標，同時因應需要而發送追加後設資料，就可針對有追加後設資料的音框，進行隨機存取。

此外，在被指定作為隨機存取之存取目標的音框中沒有追加後設資料時，則將時間上最靠近該音框、有追加後設資料的音框，當作隨機存取之存取目標即可。因此，藉由以適切的音框間隔等來發送追加後設資料，就可不讓使用者感到不自然而實現隨機存取。

以上雖然進行了追加後設資料之說明，但於已被指定作為隨機存取之存取目標的音框中，亦可不使用追加後設資料，就進行VBAP增益的內插處理。此時，可抑制音儲存追加後設資料而導致位元串流之資料量(位元率)之增大，同時可隨機存取。

具體而言，於已被指定作為隨機存取之存取目標的音框中，將比目前音框還要前面的音框的VBAP增益之值設成0，進行與目前音框中所被算出之VBAP增益之值的內插處理。此外，不限於此方法，亦可為，目前音框之各樣本的VBAP增益之值，全部都會變成和目前音框中所被算出之VBAP增益相同值的方式，來進行內插處理。另一方面，於未被指定作為隨機存取之存取目標的音框中，係和先前一樣，是使用比目前音框還要前面的音框的VBAP增益進行內插處理。

如此，基於是否為已被指定作為隨機存取之存取目標來進行VBAP增益的內插處理之切換，就可不使用追加後設資料，即可進行隨機存取。

此外，在上述的MPEG-H 3D Audio規格中，每一音框地，表示目前音框是否為，只使用位元串流內的目前音框之資料即可解碼及渲染的音框(稱為獨立音框)的獨立旗標(亦稱為indepFlag)，係被儲存在位元串流內。獨立旗標之值為1時，在解碼側，位元串流內的、比目前音框還要前面的音框之資料，及該資料之解碼所得的任何資訊都不必使用，就可進行解碼及渲染。

因此，獨立旗標之值為1時，必須不使用比目前音框還要前面的音框的VBAP增益，就可進行解碼及渲染。

於是，在獨立旗標之值為1的音框上，可以將上述之追加後設資料儲存在位元串流中，亦可進行上述的內插處理之切換。

如此，隨應於獨立旗標之值，來進行是否在位元串流內儲存追加後設資料之切換、或VBAP增益的內插處理之切換，就可在獨立旗標之值為1時，不使用比目前音框還要前面的音框的VBAP增益即可進行解碼及渲染。

甚至，在上述的MPEG-H 3D Audio規格中，說明了解碼所得之後設資料，係只有音框內的代表樣本、亦即最後樣本的後設資料。可是，原本在音訊訊號和後設資料之編碼側，被輸入至編碼裝置的壓縮(編碼)前的後設資料，也幾乎沒有針對音框內的全樣本而被定義。亦即，在音訊訊號之音框內的樣本中，根據編碼前之狀態而沒有後設資料的樣本也很多。

在現狀下，例如只有第0個樣本、第1024個樣本、第2048個樣本等以等間隔而排列的樣本具有後設資料，或只有第0個樣本、第138個樣本、第2044個樣本等以不等間隔而排列的樣本具有後設資料等等，是經常見到的。

如此情況下，隨著音框不同，具有後設資料的樣本有可能1個都不存在，關於此種音框係不會發送出後設資料。如此一來，於解碼側，針對具有後設資料的樣本是1個都沒有的音框，為了算出各樣本的VBAP增益，係必須要進行該音框以後的有後設資料之音框的VBAP增益之算出。其結果為，後設資料的解碼與渲染中會發生延遲，無法即時地進行解碼及渲染。

於是，在本技術中，係於編碼側，針對因應需要而具有後設資料的樣本間之各樣本，藉由內插處理(樣本內插)而求出這些樣本的後設資料，以使得在解碼側上可以即時地進行解碼及渲染。尤其是，在視訊遊戲等中，音訊再生的延遲係被要求越小越好。因此，藉由本技術而縮小解碼及渲染之延遲、亦即可以提升對遊戲操作等之互動性的意義是很大的。

此外，後設資料的內插處理，係亦可為例如：線性內插、使用高次函數的非線性內插等，可為任意之處理。

〈有關位元串流〉

其次，說明適用了以上所說明之本技術之較具體的實施形態。

從將各物件之音訊訊號和後設資料予以編碼的編碼裝置，係輸出例如圖1所示的位元串流。

在圖1所示的位元串流中，在開頭配置有標頭，在該標頭內係儲存有各物件之音訊訊號之構成1音框之樣本之數量，亦即表示1音框之樣本數的資訊(以下亦稱為樣本數資訊)。

然後，在位元串流中於標頭之後，配置有每一音框的資料。具體而言，在領域R10之部分係配置有，表示目前音框是否為獨立音框的獨立旗標。然後，在領域R11之部分係配置有，將同一音框之各物件之音訊訊號予以編碼所得的編碼音訊資料。

又，在領域R11後續的領域R12之部分係配置有，將同一音框之各物件的後設資料等予以編碼所得的編碼後設資料。

例如在領域R12內的領域R21之部分係配置有，1個物件之1音框份的編碼後設資料。

在此例中，在編碼後設資料之開頭係配置有追加後設資料旗標，在該追加後設資料旗標的後續，配置有切換索引。

然後，在切換索引之後配置有，後設資料個數資訊和樣本索引。此外，此處雖然只描繪1個樣本索引，但更詳細來說，樣本索引，係編碼後設資料中所被儲存之後設資料之數量有多少，就有多少被儲存在該編碼後設資料內。

在編碼後設資料中，切換索引所示之方式係為個數指定方式時，則切換索引的後續係會配置有後設資料個數資訊，但不配置樣本索引。

又，切換索引所示之方式係為樣本指定方式時，則切換索引的後續係會配置有後設資料個數資訊及樣本索引。再者，切換索引所示之方式係為自動切換方式時，則切換索引的後續係後設資料個數資訊和樣本索引都不會被配置。

因應需要而被配置的後設資料個數資訊或樣本索引後續的位置上，係配置有追加後設資料，然後該追加後設資料之後續，各樣本的後設資料係被配置達到所被定義之個數份。

此處，追加後設資料，係只有在追加後設資料旗標之值為1時才會被配置，追加後設資料旗標之值為0時則不會被配置。

在領域R12之部分，係與領域R21之部分中所被配置的編碼後設資料同樣之編碼後設資料，是按照每一物件而被排列而配置。

在位元串流中，係由領域R10之部分中所被配置之獨立旗標、和領域R11之部分中所被配置之各物件之編碼音訊資料、和領域R12之部分中所被配置之各物件之編碼後設資料，而構成1音框份的資料。

〈編碼裝置之構成例〉

接著，說明將圖1所示之位元串流予以輸出的編碼裝置之構成。圖2係適用了本技術之編碼裝置之構成例的圖示。

編碼裝置11係具有：音訊訊號取得部21、音訊訊號編碼部22、後設資料取得部23、內插處理部24、關連資訊取得部25、後設資料編碼部26、多工化部27、及輸出部28。

音訊訊號取得部21，係取得各物件之音訊訊號而供給至音訊訊號編碼部22。音訊訊號編碼部22，係將從音訊訊號取得部21所供給的音訊訊號以音框單位加以編碼，將其結果所得之各物件之每一音框的編碼音訊資料，供給至多工化部27。

後設資料取得部23，係將各物件之每一音框的後設資料，更詳細來說是將音框內的各樣本的後設資料加以取得，而供給至內插處理部24。此處，在後設資料中係含有例如：表示物件在空間內之位置的位置資訊、表示物件之重要度的重要度資訊、表示物件之音像之寬廣程度的資訊等。在後設資料取得部23中，各物件之音訊訊號之所定樣本(PCM樣本)的後設資料，係被取得。

內插處理部24，係對從後設資料取得部23所供給之後設資料進行內插處理，在音訊訊號的沒有後設資料的樣本之中，將全部之樣本或部分之特定之樣本的後設資料，予以生成。在內插處理部24中，為了使得1個物件的1音框之音訊訊號是具有複數後設資料，亦即1音框內的複數樣本是具有後設資料，而藉由內插處理而生成音框內的樣本的後設資料。

內插處理部24，係將藉由內插處理而得到的，各物件之每一音框的後設資料，供給至後設資料編碼部26。

關連資訊取得部25，係每一音框地，將表示是否把目前音框變成獨立音框的資訊(稱為獨立音框資訊)、或針對各物件，音訊訊號的每一音框地，將樣本數資訊、或表示以哪種方式發送後設資料的資訊、表示是否發送追加後設資料的資訊、表示發送哪個樣本的後設資料的資訊等，與後設資料有關連的資訊，當作關連資訊而加以取得。又，關連資訊取得部25，係基於已取得之關連資訊，針對各物件，每一音框地生成追加後設資料旗標、切換索引、後設資料個數資訊、及樣本索引之中必要的資訊，供給至後設資料編碼部26。

後設資料編碼部26，係基於從關連資訊取得部25所供給之資訊，來進行從內插處理部24所供給之後設資料的編碼，將其結果所得之各物件之每一音框的編碼後設資料、和從關連資訊取得部25所供給之資訊中所含之獨立音框資訊，供給至多工化部27。

多工化部27，係將從音訊訊號編碼部22所供給之編碼音訊資料、和從後設資料編碼部26所供給之編碼後設資料、和基於從後設資料編碼部26所供給之獨立音框資訊而得的獨立旗標，進行多工化而生成位元串流，供給至輸出部28。輸出部28，係將從多工化部27所供給之位元串流，予以輸出。亦即，位元串流會被發送。

〈編碼處理之說明〉

編碼裝置11，係一旦從外部被供給物件之音訊訊號，就進行編碼處理而輸出位元串流。以下，參照圖3的流程圖，說明編碼裝置11所做的編碼處理。此外，該編碼處理係針對音訊訊號的每一音框而進行。

於步驟S11中，音訊訊號取得部21，係取得1音框份的各物件之音訊訊號而供給至音訊訊號編碼部22。

於步驟S12中，音訊訊號編碼部22，係將從音訊訊號取得部21所供給之音訊訊號予以編碼，將其結果所得之各物件的1音框份的編碼音訊資料，供給至多工化部27。

例如音訊訊號編碼部22，係對音訊訊號進行MDCT(Modified Discrete Cosine Transform)等，以將音訊訊號從時間訊號轉換成頻率訊號。然後，音訊訊號編碼部22，係將藉由MDCT所得之MDCT係數予以編碼，將其結果所得之比例因數、側面資訊、及量化頻譜，當作將音訊訊號予以編碼所得的編碼音訊資料。

藉此，例如圖1所示之位元串流之領域R11之部分中所被儲存之各物件之編碼音訊資料，就被獲得。

於步驟S13中，後設資料取得部23，係針對各物件，將音訊訊號的每一音框的後設資料加以取得，供給至內插處理部24。

於步驟S14中，內插處理部24係對從後設資料取得部23所供給之後設資料進行內插處理，供給至後設資料編碼部26。

例如內插處理部24，係針對1個音訊訊號，基於作為所定之樣本之後設資料的位置資訊、和作為在時間上位於該所定之樣本之前的其他樣本之後設資料的位置資訊，藉由線性內插而算出位於這2個樣本之間的各樣本的位置資訊。同樣地，作為後設資料的重要度資訊或表示音像之寬廣程度的資訊等也是，會被進行線性內插等的內插處理，生成各樣本的後設資料。

此外，在後設資料的內插處理中，可以使得物件之1音框之音訊訊號之全樣本都具有後設資料而算出後設資料，也可以使得全樣本之中只有必要的樣本具有後設資料而算出後設資料。又，內插處理係不限於線性內插，亦可為非線性內插。

於步驟S15中，關連資訊取得部25，係針對各物件的音訊訊號之音框，取得與後設資料相關連的關連資訊。

然後，關連資訊取得部25，係基於已取得之關連資訊，每一物件地生成追加後設資料旗標、切換索引、後設資料個數資訊、及樣本索引之中必要的資訊，供給至後設資料編碼部26。

此外，亦可不是由關連資訊取得部25來生成追加後設資料旗標或切換索引等，而是由關連資訊取得部25將追加後設資料旗標或切換索引等從外部加以取得之。

於步驟S16中，後設資料編碼部26，係基於從關連資訊取得部25所供給之追加後設資料旗標、或切換索引、後設資料個數資訊、樣本索引等，而將從內插處理部24所供給之後設資料予以編碼。

在後設資料的編碼時，針對各物件，以使得在音訊訊號的畫格內的各樣本的後設資料之中，只有：樣本數資訊、或切換索引所示之方式、後設資料個數資訊、樣本索引等所決定的樣本位置的後設資料會發送的方式，而生成編碼後設資料。又，音框之開頭樣本的後設資料、或所被保持的前一音框的最後樣本的後設資料，係因應需要而被當成追加後設資料。

編碼後設資料中，係除了後設資料以外，還含有追加後設資料旗標及切換索引，且因應需要而會含有後設資料個數資訊或樣本索引、追加後設資料等。

藉此，例如圖1所示之位元串流之領域R12中所被儲存之各物件之編碼後設資料，就被獲得。例如領域R21中所被儲存之編碼後設資料，係為1個物件之1音框份的編碼後設資料。

此情況下，例如在物件之處理對象的音框中個數指定方式被選擇，且追加後設資料被發送時，由追加後設資料旗標、切換索引、後設資料個數資訊、追加後設資料、及後設資料所成之編碼後設資料，會被生成。

又，例如在物件之處理對象的音框中樣本指定方式被選擇，且追加後設資料未被發送時，由追加後設資料旗標、切換索引、後設資料個數資訊、樣本索引、及後設資料所成之編碼後設資料，會被生成。

再者，例如在物件之處理對象的音框中自動切換方式被選擇，且追加後設資料被發送時，由追加後設資料旗標、切換索引、追加後設資料、及後設資料所成之編碼後設資料，會被生成。

後設資料編碼部26，係將後設資料之編碼所得之各物件的編碼後設資料、和從關連資訊取得部25所供給之資訊中所含之獨立音框資訊，供給至多工化部27。

於步驟S17中，多工化部27，係將從音訊訊號編碼部22所供給之編碼音訊資料、和從後設資料編碼部26所供給之編碼後設資料、和基於從後設資料編碼部26所供給之獨立音框資訊而得的獨立旗標，進行多工化而生成位元串流，供給至輸出部28。

藉此，作為1音框份的位元串流，例如由圖1所示之位元串流的領域R10乃至領域R12之部分所成之位元串流，會被生成。

於步驟S18中，輸出部28，係將從多工化部27所供給之位元串流予以輸出，結束編碼處理。此外，位元串流之開頭部分被輸出時，係如圖1所示，含有樣本數資訊等的標頭也被輸出。

如以上所述，編碼裝置11係將音訊訊號予以編碼，同時，將後設資料予以編碼，將其結果所得之編碼音訊資料和編碼後設資料所成之位元串流，予以輸出。

此時，藉由對1訊框發送複數後設資料，於解碼側中，藉由內插處理而被算出VBAP增益的樣本的排列區間之長度就可較為縮短，可獲得較高音質的聲音。

又，藉由對後設資料進行內插處理，就可必定在1音框中發送1個以上的後設資料，於解碼側就可即時地進行解碼及渲染。甚至，藉由因應需要而發送追加後設資料，就可實現隨機存取。

〈解碼裝置之構成例〉

接下來，說明可將從編碼裝置11所輸出的位元串流予以接收(取得)而進行解碼的解碼裝置。例如適用了本技術的解碼裝置，係被構成如圖4所示。

此解碼裝置51上，係連接有被配置在再生空間的複數揚聲器所成之揚聲器系統52。解碼裝置51，係將藉由解碼及渲染所得之各聲道的音訊訊號，供給至構成揚聲器系統52的各聲道之揚聲器，而令聲音被再生。

解碼裝置51係具有：取得部61、分離部62、音訊訊號解碼部63、後設資料解碼部64、增益算出部65、及音訊訊號生成部66。

取得部61，係將從編碼裝置11所輸出的位元串流加以取得並供給至分離部62。分離部62，係將從取得部61所供給的位元串流，分離成獨立旗標和編碼音訊資料和編碼後設資料，將編碼音訊資料供給至音訊訊號解碼部63，同時將獨立旗標和編碼後設資料供給至後設資料解碼部64。

此外，分離部62，係因應需要，而從位元串流之標頭讀出樣本數資訊等之各種之資訊，供給至音訊訊號解碼部63或後設資料解碼部64。

音訊訊號解碼部63，係將從分離部62所供給之編碼音訊資料予以解碼，將其結果所得之各物件之音訊訊號，供給至音訊訊號生成部66。

後設資料解碼部64，係將從分離部62所供給之編碼後設資料予以解碼，將其結果所得之每一物件的音訊訊號之各音框的後設資料、和從分離部62所供給之獨立旗標，供給至增益算出部65。

後設資料解碼部64，係具有：從編碼後設資料讀出追加後設資料旗標的追加後設資料旗標讀出部71、和從編碼後設資料讀出切換索引的切換索引讀出部72。

增益算出部65，係基於預先保持的表示構成揚聲器系統52之各揚聲器之空間上之配置位置的配置位置資訊、和從後設資料解碼部64所供給之各物件之每一音框的後設資料與獨立旗標，而針對各物件，算出音訊訊號之音框內的樣本的VBAP增益。

又，增益算出部65，係具有：基於所定之樣本的VBAP增益，藉由內插處理而算出其他樣本的VBAP增益的內插處理部73。

增益算出部65，係針對各物件，將針對音訊訊號之音框內的每一樣本而被算出之VBAP增益，供給至音訊訊號生成部66。

音訊訊號生成部66，係基於從音訊訊號解碼部63所供給之各物件之音訊訊號、和從增益算出部65所供給之各物件之每一樣本的VBAP增益，而生成各聲道之音訊訊號，亦即供給至各聲道之揚聲器的音訊訊號。

音訊訊號生成部66，係將已生成之音訊訊號供給至構成揚聲器系統52的各揚聲器，令基於音訊訊號之聲音被輸出。

在解碼裝置51中，由增益算出部65及音訊訊號生成部66所成之區塊，係成為基於解碼所得之音訊訊號和後設資料而進行渲染的渲染器(渲染部)而發揮機能。

〈解碼處理之說明〉

解碼裝置51，係一旦從編碼裝置11有位元串流被發送過來，則接收(取得)該位元串流而進行解碼的解碼處理。以下，參照圖5的流程圖，說明解碼裝置51所致之解碼處理。此外，該解碼處理係針對音訊訊號的每一音框而進行。

於步驟S41中，取得部61，係將從編碼裝置11所輸出的位元串流取得1音框份並供給至分離部62。

於步驟S42中，分離部62，係將從取得部61 所供給的位元串流，分離成獨立旗標和編碼音訊資料和編碼後設資料，將編碼音訊資料供給至音訊訊號解碼部63，同時將獨立旗標和編碼後設資料供給至後設資料解碼部64。

此時，分離部62，係將從位元串流之標頭所讀出的樣本數資訊，供給至後設資料解碼部64。此外，樣本數資訊的供給時序，係設成位元串流之標頭被取得的時序即可。

於步驟S43中，音訊訊號解碼部63，係將從分離部62所供給之編碼音訊資料予以解碼，將其結果所得之各物件之1音框份的音訊訊號，供給至音訊訊號生成部66。

例如音訊訊號解碼部63，係將編碼音訊資料予以解碼而求出MDCT係數。具體而言，音訊訊號解碼部63係基於作為編碼音訊資料而被供給的比例因數、側面資訊、及量化頻譜，而算出MDCT係數。

又，音訊訊號解碼部63係基於MDCT係數，進行IMDCT(Inverse Modified Discrete Cosine Transform)，將其結果所得之PCM資料，當作音訊訊號而供給至音訊訊號生成部66。

編碼音訊資料之解碼一旦被進行，則在其後，進行編碼後設資料之解碼。亦即，於步驟S44中，後設資料解碼部64的追加後設資料旗標讀出部71，係從分離部62所供給之編碼後設資料，讀出追加後設資料旗標。

例如後設資料解碼部64，係將從分離部62被依序供給過來的編碼後設資料所對應之物件，依序視為處理對象之物件。追加後設資料旗標讀出部71，係從被視為處理對象之物件的編碼後設資料，讀出追加後設資料旗標。

於步驟S45中，後設資料解碼部64的切換索引讀出部72，係從分離部62所供給的、處理對象之物件的編碼後設資料，讀出切換索引。

於步驟S46中，切換索引讀出部72係判定，步驟S45中所讀出的切換索引所示之方式是否為個數指定方式。

於步驟S46中若判定為是個數指定方式，則於步驟S47中，後設資料解碼部64係從分離部62所供給的、處理對象之物件的編碼後設資料，讀出後設資料個數資訊。

處理對象之物件的編碼後設資料中係儲存有，如此而被讀出之後設資料個數資訊所示之數量的後設資料。

於步驟S48中，後設資料解碼部64係基於步驟S47中所讀出之後設資料個數資訊、和從分離部62所供給之樣本數資訊，而將處理對象之物件的音訊訊號的音框中的，所被發送過來的後設資料的樣本位置，加以界定。

例如樣本數資訊所示之數量的樣本所成之1訊框的區間，是被等分成後設資料個數資訊所示之後設資料數的區間，已被等分之各區間的最後樣本位置係被設成後設資料的樣本位置、亦即具有後設資料的樣本的位置。如此所被求出的樣本位置，係被設成編碼後設資料中所含之各後設資料的樣本位置、亦即具有這些後設資料的樣本。

此外，此處雖然說明，1訊框之區間係被，這些已被等分之區間的最後樣本的後設資料被發送的情形，但隨應於發送出哪個樣本的後設資料，而會從樣本數資訊與後設資料個數資訊算出各後設資料的樣本位置。

如此處理對象之物件之編碼後設資料中所含之後設資料之個數、和各後設資料之樣本位置一旦被界定，則其後，處理係前進至步驟S53。

另一方面，於步驟S46中若判定為不是個數指定方式，則於步驟S49中，切換索引讀出部72，係判定步驟S45中所讀出的切換索引所示之方式是否為樣本指定方式。

於步驟S49中若判定為是樣本指定方式，則於步驟S50中，後設資料解碼部64係從分離部62所供給的、處理對象之物件的編碼後設資料，讀出後設資料個數資訊。

於步驟S51中，後設資料解碼部64係從分離部62所供給的、處理對象之物件的編碼後設資料，讀出樣本索引。此時，樣本索引係被讀出，達到後設資料個數資訊所示之個數。

根據如此所被讀出的後設資料個數資訊和樣本索引，就可界定處理對象之物件的編碼後設資料中所被儲存的後設資料之個數、和這些後設資料的樣本位置。

處理對象之物件之編碼後設資料中所含之後設資料之個數、和各後設資料之樣本位置一旦被界定，則其後，處理係前進至步驟S53。

又，於步驟S49中若判定為不是樣本指定方式，亦即切換索引所示之方式係為自動切換方式時，則處理係往步驟S52前進。

於步驟S52中，後設資料解碼部64係基於從分離部62所供給之樣本數資訊，而將處理對象之物件的編碼後設資料中所含之後設資料之個數、和各後設資料的樣本位置加以界定，處理係往步驟S53前進。

例如在自動切換方式中，對構成1訊框的樣本之數量，所被發送之後設資料的個數、和各後設資料的樣本位置、亦即要發送哪個樣本的後設資料，是被預先決定。

因此，後設資料解碼部64，係可根據樣本數資訊，來界定處理對象之物件的編碼後設資料中所被儲存的後設資料之個數、和這些後設資料的樣本位置。

一旦進行了步驟S48、步驟S51、或步驟S52之處理，則於步驟S53中，後設資料解碼部64，係基於步驟S44中所讀出之追加後設資料旗標之值，來判定是否為追加後設資料。

於步驟S53中，若判定為是追加後設資料時，則於步驟S54中，後設資料解碼部64，係從處理對象之物件的編碼後設資料，讀出追加後設資料。一旦追加後設資料被讀出，則其後，處理係往步驟S55前進。

相對於此，於步驟S53中若判定為並非追加後設資料，則步驟S54之處理係被略過，處理係往步驟S55前進。

步驟S54中若追加後設資料已被讀出、或步驟S53中判定為沒有追加後設資料時，則於步驟S55中，後設資料解碼部64，係從處理對象之物件的編碼後設資料，讀出後設資料。

此時，從編碼後設資料中係會讀出後設資料，達到上述處理所界定的個數。

藉由以上之處理，針對處理對象之物件之1音框份的音訊訊號，就會進行後設資料與追加後設資料之讀出。

後設資料解碼部64，係將所讀出的各後設資料，供給至增益算出部65。此時，增益算出部65，係以可以界定哪個後設資料是哪個物件的哪個樣本的後設資料的方式，進行後設資料之供給。又，追加後設資料被讀出時，後設資料解碼部64，係也將讀出之追加後設資料，供給至增益算出部65。

於步驟S56中，後設資料解碼部64係判定是否針對所有的物件都已經進行了後設資料的讀出。

於步驟S56中，若判定為，尚未對所有的物件都進行了後設資料的讀出，則處理係返回步驟S44，重複進行上述處理。此時，尚未被視為處理對象的物件，係被視為新的處理對象之物件，從該物件之編碼後設資料讀出後設資料等。

相對於此，於步驟S56中若判定為針對全部的物件都已經進行了後設資料的讀出，則後設資料解碼部64，係將從分離部62所供給之獨立旗標，供給至增益算出部65，其後，處理係進入步驟S57，開始渲染。

亦即，於步驟S57中，增益算出部65，係基於從後設資料解碼部64所供給之後設資料或追加後設資料或獨立旗標，而算出VBAP增益。

例如增益算出部65，係可將各物件依序選擇成為處理對象之物件，然後將位於該處理對象之物件的音訊訊號的音框內的，後設資料所處的樣本，依序選擇成為處理對象之樣本。

增益算出部65，係針對處理對象之樣本，基於該樣本的作為後設資料的位置資訊所示的空間上的物件之位置、和配置位置資訊所示的揚聲器系統52的各揚聲器的空間上之位置，藉由VBAP而算出處理對象之樣本的各聲道、亦即各聲道之揚聲器的VBAP增益。

在VBAP中，藉由從位於物件之周圍的3個或2個揚聲器，以所定之增益而輸出聲音，就可使音像被定位在該物件之位置。此外，關於VBAP，係在例如「Ville Pulkki,“Virtual Sound Source Positioning Using Vector Base Amplitude Panning”,Journal of AES,vol.45,no.6,pp.456-466,1997」等中有詳細記載。

於步驟S58中，內插處理部73係進行內插處理，算出沒有後設資料之樣本的各揚聲器的VBAP增益。

例如在內插處理中，前一步驟S57中所算出之處理對象之樣本的VBAP增益、和比該處理對象之樣本在時間上還要前面的，處理對象之物件之相同音框或前一音框的後設資料所處的樣本(以下亦稱為參照樣本)的VBAP增益，會被使用。亦即，針對構成揚聲器系統52的每一揚聲器(聲道)，使用處理對象之樣本的VBAP增益、和參照樣本的VBAP增益，將位於這些處理對象之樣本、和參照樣本之間的各樣本的VBAP增益，藉由線性內插等而予以算出。

此外，例如隨機存取被指示時，或者是，從後設資料解碼部64所供給之獨立旗標之值為1時，且有追加後設資料的情況下，則增益算出部65係使用追加後設資料來進行VBAP增益之算出。

具體而言，例如假設在處理對象之物件之音訊訊號之音框內，位於最靠音框開頭側，具有後設資料的樣本，係被視為處理對象之樣本，該樣本的VBAP增益係已被算出。此時，關於比該音框還前面之音框係由於 VBAP增益未被算出，因此增益算出部65係使用追加後設資料，將該音框之開頭樣本或該音框之前一音框的最後樣本視為參照樣本，算出該參照樣本的VBAP增益。

然後，內插處理部73，係根據處理對象之樣本的VBAP增益、和參照樣本的VBAP增益，將位於這些處理對象之樣本與參照樣本之間的各樣本的VBAP增益，藉由內插處理而予以算出。

另一方面，例如隨機存取被指示時，或者是，從後設資料解碼部64所供給之獨立旗標之值為1時，且沒有追加後設資料的情況下，則不進行使用追加後設資料的VBAP增益之算出，而是進行內插處理的切換。

具體而言，例如假設在處理對象之物件之音訊訊號之音框內，位於最靠音框開頭側，具有後設資料的樣本，係被視為處理對象之樣本，該樣本的VBAP增益係已被算出。此時，關於比該音框還前面之音框係由於VBAP增益未被算出，因此增益算出部65係將該音框之開頭樣本或該音框之前一音框的最後樣本視為參照樣本，將該參照樣本的VBAP增益算出為0。

此外，不限於此方法，例如，亦可以使得所被內插的各樣本的VBAP增益，全部都變成與處理對象之樣本的VBAP增益相同值的方式，來進行內插處理。

如此，藉由切換VBAP增益的內插處理，即使在沒有追加後設資料的音框上，也可進行隨機存取、或獨立音框的解碼及渲染。

又，這裡雖然說明沒有後設資料之樣本的VBAP增益是藉由內插處理而被求出的例子，但於後設資料解碼部64中，針對沒有後設資料之樣本，亦可藉由內插處理來求出樣本的後設資料。此情況下，音訊訊號的全部樣本的後設資料係被獲得，因此在內插處理部73中係不進行VBAP增益的內插處理。

於步驟S59中，增益算出部65係判定，是否算出處理對象之物件的音訊訊號的音框內的全樣本的VBAP增益。

於步驟S59中，若判定為尚未算出全樣本的VBAP增益，則處理係返回步驟S57，重複上述處理。亦即，具有後設資料的下個樣本係被選擇成為處理對象之樣本，而算出VBAP增益。

相對於此，於步驟S59中，若判定為已經算出全樣本的VBAP增益，則於步驟S60中，增益算出部65係判定是否算出全物件的VBAP增益。

例如全部的物件都被視為處理對象之物件，針對這些物件，每一揚聲器的各樣本的VBAP增益都已經被算出時，則判定為已經算出全物件的VBAP增益。

於步驟S60中，若判定為尚未算出全物件的 VBAP增益，則處理係返回步驟S57，重複上述處理。

相對於此，於步驟S60若判定為已經算出全物件的VBAP增益時，則增益算出部65係將已算出之VBAP增益供給至音訊訊號生成部66，處理係往步驟S61前進。此情況下，每一揚聲器所被算出的、各物件的音訊訊號的畫格內的各樣本的VBAP增益，係被供給至音訊訊號生成部66。

於步驟S61中，音訊訊號生成部66，係基於從音訊訊號解碼部63所供給之各物件之音訊訊號、和從增益算出部65所供給之各物件之每一樣本的VBAP增益，而生成各聲道的音訊訊號。

例如音訊訊號生成部66，係對各物件的音訊訊號之每一者，將這些每一物件所得之相同揚聲器的VBAP增益之每一者乘算至每一樣本所得的訊號，予以加算，藉此以生成該揚聲器的音訊訊號。

具體而言，例如作為物件是有物件OB1乃至物件OB3的3個物件，作為構成這些物件之揚聲器系統52的所定之揚聲器SP1的VBAP增益，假設獲得VBAP增益G1乃至VBAP增益G3。此情況下，已被乘算VBAP增益G1的物件OB1的音訊訊號、已被乘算VBAP增益G2的物件OB2的音訊訊號、及已被乘算VBAP增益G3的物件OB3的音訊訊號係被加算，其結果所得之音訊訊號，係被視為被供給至揚聲器SP1的音訊訊號。

於步驟S62中，音訊訊號生成部66，係將步驟S61之處理所得之各揚聲器的音訊訊號，供給至揚聲器系統52的各揚聲器，基於這些音訊訊號而令聲音被再生，解碼處理係結束。藉此，藉由揚聲器系統52，就可再生出各物件的聲音。

如以上所述，解碼裝置51係將編碼音訊資料及編碼後設資料予以解碼，基於解碼所得之音訊訊號及後設資料來進行渲染，生成各揚聲器的音訊訊號。

在解碼裝置51中，在進行渲染時，對物件的音訊訊號的音框會獲得複數後設資料，因此可以較為縮短藉由內插處理而被算出VBAP增益的樣本的排列區間之長度。藉此，不只可以或的較高音質的聲音，還可即時地進行解碼和渲染。又，隨著音框而追加後設資料是被包含在編碼後設資料中，因此亦可實現隨機存取或獨立音框的解碼及渲染。又，在不含追加後設資料的音框也是，藉由切換VBAP增益的內插處理，亦可實現隨機存取或獨立音框的解碼及渲染。

順便一提，上述一連串處理，係可藉由硬體來執行，也可藉由軟體來執行。在以軟體來執行一連串之處理時，構成該軟體的程式，係可安裝至電腦。此處，電腦係包含：被組裝在專用硬體中的電腦、或藉由安裝各種程式而可執行各種機能的例如通用之個人電腦等。

圖6係以程式來執行上述一連串處理的電腦的硬體之構成例的區塊圖。

於電腦中，CPU(Central Processing Unit) 501、ROM(Read Only Memory)502、RAM(Random Access Memory)503，係藉由匯流排504而被彼此連接。

在匯流排504上係還連接有輸出入介面505。輸出入介面505上係連接有：輸入部506、輸出部507、記錄部508、通訊部509、及驅動機510。

輸入部506，係由鍵盤、滑鼠、麥克風、攝像元件等所成。輸出部507係由顯示器、揚聲器等所成。記錄部508，係由硬碟或非揮發性記憶體等所成。通訊部509係由網路介面等所成。驅動機510係驅動：磁碟、光碟、光磁碟、或半導體記憶體等之可移除式記錄媒體511。

在如以上構成的電腦中，藉由CPU501而例如將記錄部508中所記錄之程式透過輸出入介面505及匯流排504，而載入至RAM503裡並加以執行，就可進行上述一連串處理。

電腦(CPU501)所執行的程式，係可記錄在例如封裝媒體等之可移除式記錄媒體511中而提供。又，程式係可透過區域網路、網際網路、數位衛星播送這類有線或無線的傳輸媒體而提供。

在電腦中，程式係藉由將可移除式記錄媒體511裝著至驅動機510，就可透過輸出入介面505，安裝至記錄部508。又，程式係可透過有線或無線之傳輸媒體，以通訊部509接收之，安裝至記錄部508。除此以外，程式係可事前安裝在ROM502或記錄部508中。

此外，電腦所執行的程式，係可為依照本說明書所說明之順序而在時間序列上進行處理的程式，也可平行地，或呼叫進行時等必要之時序上進行處理的程式。

又，本技術的實施形態係不限定於上述實施形態，在不脫離本技術主旨的範圍內可做各種變更。

例如，本技術係亦可將1個機能透過網路而分擔給複數台裝置，採取共通進行處理的雲端運算之構成。

又，上述的流程圖中所說明的各步驟，係可由1台裝置來執行以外，亦可由複數台裝置來分擔執行。

甚至，若1個步驟中含有複數處理的情況下，該1個步驟中所含之複數處理，係可由1台裝置來執行以外，也可由複數台裝置來分擔執行。

甚至，本技術係亦可採取以下構成。

(1)

一種解碼裝置，係具備：取得部，係取得將音訊物件的所定時間間隔之音框的音訊訊號予以編碼所得的編碼音訊資料、和前記音框的複數後設資料；和解碼部，係將前記編碼音訊資料予以解碼；和渲染部，係基於前記解碼所得之音訊訊號、和前記複數後設資料，來進行渲染。

(2)

如(1)所記載之解碼裝置，其中，前記後設資料中係含有，表示前記音訊物件之位置的位置資訊。

(3)

如(1)或(2)所記載之解碼裝置，其中，前記複數後設資料之每一者，係為前記音訊訊號的前記音框內的複數樣本之每一者的後設資料。

(4)

如(3)所記載之解碼裝置，其中，前記複數後設資料之每一者係為，以將構成前記音框的樣本之數量除以前記複數後設資料之數量所得的樣本數之間隔而排列的複數樣本之每一者的後設資料。

(5)

如(3)所記載之解碼裝置，其中，前記複數後設資料之每一者係為，複數樣本索引之每一者所示的複數樣本之每一者的後設資料。

(6)

如(3)所記載之解碼裝置，其中，前記複數後設資料之每一者係為，以前記音框內的所定樣本數間隔而排列的複數樣本之每一者的後設資料。

(7)

如(1)乃至(6)之任一項所記載之解碼裝置，其中，前記複數後設資料中係含有，用來進行基於後設資料而被算出之前記音訊訊號之樣本之增益之內插處理所需的後設資料。

(8)

一種解碼方法，係含有以下步驟：取得將音訊物件的所定時間間隔之音框的音訊訊號予以編碼所得的編碼音訊資料、和前記音框的複數後設資料；將前記編碼音訊資料予以解碼；基於前記解碼所得之音訊訊號、和前記複數後設資料，來進行渲染。

(9)

一種程式，係令電腦執行包含以下步驟之處理：取得將音訊物件的所定時間間隔之音框的音訊訊號予以編碼所得的編碼音訊資料、和前記音框的複數後設資料；將前記編碼音訊資料予以解碼；基於前記解碼所得之音訊訊號、和前記複數後設資料，來進行渲染。

(10)

一種編碼裝置，係具備：編碼部，係將音訊物件的所定時間間隔之音框的音訊訊號，予以編碼；和生成部，係生成含有前記編碼所得之編碼音訊資料、和前記音框之複數後設資料的位元串流。

(11)

如(10)所記載之編碼裝置，其中，前記後設資料中係含有，表示前記音訊物件之位置的位置資訊。

(12)

如(10)或(11)所記載之編碼裝置，其中，前記複數後設資料之每一者，係為前記音訊訊號的前記音框內的複數樣本之每一者的後設資料。

(13)

如(12)所記載之編碼裝置，其中，前記複數後設資料之每一者係為，以將構成前記音框的樣本之數量除以前記複數後設資料之數量所得的樣本數之間隔而排列的複數樣本之每一者的後設資料。

(14)

如(12)所記載之編碼裝置，其中，前記複數後設資料之每一者係為，複數樣本索引之每一者所示的複數樣本之每一者的後設資料。

(15)

如(12)所記載之編碼裝置，其中，前記複數後設資料之每一者係為，以前記音框內的所定樣本數間隔而排列的複數樣本之每一者的後設資料。

(16)

如(10)乃至(15)之任一項所記載之編碼裝置，其中，前記複數後設資料中係含有，用來進行基於後設資料而被算出之前記音訊訊號之樣本之增益之內插處理所需的後設資料。

(17)

如(10)乃至(16)之任一項所記載之編碼裝置，其中，還具備：內插處理部，係對後設資料進行內插處理。

(18)

一種編碼方法，係含有以下步驟：將音訊物件的所定時間間隔之音框的音訊訊號，予以編碼；生成含有前記編碼所得之編碼音訊資料、和前記音框之複數後設資料的位元串流。

(19)

一種程式，係令電腦執行包含以下步驟之處理：將音訊物件的所定時間間隔之音框的音訊訊號，予以編碼；生成含有前記編碼所得之編碼音訊資料、和前記音框之複數後設資料的位元串流。