TWI720530B

TWI720530B - 使用信號白化或信號後處理之多重信號編碼器、多重信號解碼器及相關方法

Info

Publication number: TWI720530B
Application number: TW108123478A
Authority: TW
Inventors: 依萊尼弗托波勞; 馬庫斯穆爾特斯; 薩斯洽迪克; 葛倫馬可維希; 帕拉維瑪班; 斯里坎特寇斯; 史蒂芬拜爾; 薩斯洽迪斯曲; 喬根希瑞
Original assignee: 弗勞恩霍夫爾協會
Priority date: 2018-07-04
Filing date: 2019-07-03
Publication date: 2021-03-01
Also published as: JP2021529354A; CN112639967A; CA3105508A1; CA3105508C; KR102606259B1; MX2020014077A; US12367883B2; MY206514A; WO2020007719A1; RU2769788C1; TW202016924A; EP4336497B1; EP3818520A1; JP2024010207A; ES2971838T3; EP4336497A3; CN112639967B; US20210104249A1; AU2022235537B2; JP7384893B2

Abstract

一種用於編碼至少三個音訊信號的一多重信號編碼器，其包含：一信號預處理器（100），其係用於個別地預處理各音訊信號，以獲得至少三個經預處理音訊信號，其中，進行該預處理以致使一經預處理音訊信號相對於預處理前之該信號為白化；一適應性聯合信號處理器（200），其係用於對該至少三個經預處理音訊信號進行一處理，以獲得至少三個聯合地經處理信號或至少兩個聯合地經處理信號以及一未經處理信號；一信號編碼器（300），其係用於編碼各信號，以獲得一或多個經編碼信號；以及一輸出介面（400），其係用於發送或儲存包含一或多個經編碼信號、與該預處理相關之旁側資訊以及與該處理相關之旁側資訊的一經編碼多重信號音訊信號。

Description

使用信號白化或信號後處理之多重信號編碼器、多重信號解碼器及相關方法

應用領域

本領域大致關於用於使用信號白化或信號後處理之多重信號編碼器、多重信號解碼器及相關方法。

在MPEG USAC[1]中，兩個通道的聯合立體聲編碼係使用複雜預測(Complex Prediction)、MPS 2-1-2或以具有頻段限制或全頻段殘餘信號的統一立體聲(Unified Stereo)而進行。

‧MPEG環繞[2]階層式地結合OTT與TTT盒(Boxes)，以在有殘餘信號之傳輸或沒有殘餘信號之傳輸下來將多重通道音訊聯合編碼。

‧MPEG-H四通道元件[3]階層式地應用MPS2-1-2立體聲盒，隨後為建立一「固定」4x4混合樹的複雜預測/MS立體聲(Complex Prediction/MS Stereo)盒。

‧AC4[4]引入了新的3、4、5通道元件，其允許經由一發送混合矩陣以及隨後聯合立體聲編碼資訊重新混合所發送通道。

‧先前刊物建議使用如Karhunen-Loeve(KLT)轉換之正交轉換於增強多重通道音訊編碼[5]。

‧多重通道編碼工具(MCT)[6]其支援多於兩個通道的聯合編碼，使得可在修改型離散餘弦轉換(MDCT)領域中彈性且信號適應地連結通道編碼。這由迭代組合與立體聲響編碼技術之序連連接(concatenation)達成，立體聲響編碼技術諸如實質複雜立體聲預測以及兩個指定通道之旋轉立體聲編碼(KLT)。

在3D音訊背景中，揚聲器通道分佈在數個高度層中，造成水平與垂直通道對。如在USAC中定義之僅兩個通道的聯合編碼不足以考慮通道間的空間和知覺關係。MPEG環繞(Surround)係應用於一額外的預處理/後處理步驟，殘餘信號被個別地發送而沒有聯合立體聲編碼的可能性，例如，利用左右垂直殘餘信號之間的依附關係。引入在AC-4專用N通道元件，其允許對聯合編碼參數的有效編碼，但是沒有針對具有更多重通道的通用揚聲器設置，如對於新的沉浸式回放場景(7.1+4,22.2)所提出者。MPEG-H四通道元件也僅限於4個通道，且不能動態地應用於任意通道，但只能用於預先組配以及固定數量的通道。MCT引入了任意通道的信號適應性聯合通道編碼的彈性，但是立體聲處理係在視窗化和經轉換的非標準化(非白化)信號上進行。更進一步地，針對各立體聲盒的各頻帶中的預測係數或角度的編碼需要大量的位元。

發明概要

實施例係關於以信號適應性聯合通道處理的一MDCT式多重信號編碼與解碼系統，其中該信號可為一通道，且多重信號為多重通道信號，或可替代地為一音訊信號，該音訊信號為諸如一立體混響(Ambisonics)成分之一音場描述的一成分，亦即，在第一階層立體混響的W、X、Y、Z或在一較高階層立體混響描述的任何其它成分。信號亦可為一A格式(A-format)或B格式(B-format)或一聲場之描述之任何其它格式的一信號。

本發明的一目的為提供用於多重信號編碼或解碼的一改良且更彈性的概念。

此目標由請求項1的多重信號解碼器，請求項31的一多重信號解碼器、請求項43之用於進行多重信號編碼的一種方法、請求項44之用於進行多重信號解碼的一種方法、請求項45的一種電腦程式，或請求項46的一經編碼信號所達成。

本發明係基於藉由不對原始信號而對經預處理之音訊信號進行適應性聯合信號處理來判定一多信號編碼效率為實質增強，在此，執行此預處理以致使一預處理音訊信號相較於預處理前之信號為被白化。對於解碼器側，這代表了在聯合信號處理隨後進行一後處理以獲得至少三個經處理解碼信號。此等至少三個經處理解碼信號係根據被包括在編碼信號中的旁側資訊而被後處理，其中，該後處理係進行來致使該等經後處理信號相較於後處理前之信號白化較少。此後處理信號最終直接地或於進一步信號處理操作後，代表經解碼音訊信號，亦即，經解碼多重信號。

特別是對於沉浸式3D音訊格式，獲得利用複數個信號之性能的有效多重通道編碼以降低傳輸資料，同時保存整體知覺音訊品質。在一較佳實施中，在一多重通道系統中的一信號適應性聯合編碼係使用知覺地白化來進行，以及，此外，使用通道間階層差異(ILD)補償光譜來進行。一聯合編碼較佳地係使用一簡單每個頻帶中/側(M/S)轉換決策，其係基於針對一熵(entropy)編碼器之位元的一估測數量而被驅動。

一種用於編碼至少三個音訊信號的多重信號編碼器包含用於個別地預處理各音訊信號以獲得至少三個經預處理音訊信號的一信號預處理器，在此，進行預處理來致使該等經預處理音訊信號相較於預處理前之信號為白化。進行該至少三個經預處理音訊信號的一適應性聯合信號處理以獲得至少三個聯合地經處理信號。此處理在白化信號上操作。此預處理造成特定信號特徵的提取(extraction)，諸如一頻譜包封(envelope)或者如果不提取，將降低諸如一聯合立體聲或一聯合多重通道處理的聯合信號處理之效率。此外，為了增強聯合信號處理效率，對該等至少三個經預處理音訊信號的寬頻能量進行正規化，以致使各經預處理音訊信號具有正規化能量。此寬頻能量正規化係被發信進入經編碼音訊信號中作為旁側資訊，因此，此寬頻能量正規化可隨後在解碼器側被逆轉，以逆轉聯合立體聲或聯合多重通道信號處理。藉由此較佳額外寬頻能量正規化程序，適應性聯合信號處理的效能可被增強，因此頻帶的數量或甚至可經受中/側處理之完整訊框(frame)的數量，相對於左/右處理(雙單聲道處理)是實質增強的。經受普通立體聲或諸如中/側處理之多重通道處理的頻帶的數量或甚至完整訊框的數量越多，整體立體聲編碼處理的效能變得越來越增強。

從立體聲處理的觀點，當適應性聯合信號處理器必須適應性地對一頻帶或一訊框決定此頻帶或訊框將由「雙、單聲道」或左/右處理時，將會獲得最低效能。在此，左通道與右通道按照他們原本會被處理的方式被處理，但自然地是在白化與能量正規化的領域中。然而，當適應性聯合信號處理器適應性地針對一特定頻帶或訊框判定出有進行一中/側處理，中信號係藉由加總第一與第二通道來計算，且側信號係藉由計算通道對中的第一與第二通道之差異來計算。典型地，中信號為相對於其值範圍，相當於第一與第二通道之一者，但側信號將典型地為具有一小能量的信號，其可以被高效能地編碼，或甚至在較佳的狀況中，側信號可為零或接近零，以致使側信號之頻譜區域甚至可被量化為零，且因此被以高效的方式進行熵編碼。此熵編碼係由用於將各信號進行編碼的該信號編碼器來進行，以獲得一或多個經編碼信號，且多重信號編碼器的輸出介面發送或儲存包含一或多個經編碼信號、與預處理相關之旁側資訊，以及與適應性聯合信號處理相關之旁側資訊的一經編碼多重信號音訊信號。

於解碼器側，該信號解碼器典型地包含一熵編碼器將該至少三個經編碼信號編碼，典型地取決於一較佳包括位元分佈資訊。此位元分佈資訊係被包括作為在該經編碼多重信號音訊信號中的旁側資訊，且可例如由編碼器側藉由查找在輸入進入信號(熵)編碼器之信號的能量而得。於該多重信號解碼器內之信號解碼器的輸出係被輸入進入一聯合信號處理器，以根據被包括在該經編碼信號中的旁側資訊而進行一聯合信號處理以獲得該等至少三個經處理解碼信號。此聯合信號處理器較佳地復原在該編碼器側所進行的聯合信號處理，且典型地進行一逆轉立體聲或逆轉多重通道處理。於較佳實施中，該聯合信號處理器應用一處理操作以計算來自中/側信號的左/右信號。然而，當聯合信號處理器由旁側資訊判定出，一特定通道對中已經存在一雙聲道單聲道處理，此狀況應注意且在解碼器中使用以用於進一步處理。

於解碼器側的此聯合信號處理器可，如同於編碼器側的適應性聯合信號處理器，為於一級聯(cascaded)通道對樹或一簡化樹的模式下操作的一處理器。一簡化樹亦代表一些類型的級聯處理，但簡化樹與級聯通道對樹的不同點在於一經處理對之輸出不可作為另一待被處理對的輸入。

可能的情況是，對於被該聯合信號處理器於多重信號解碼器側使用以開始聯合信號處理的一第一通道對，在該編碼器側處理之最後通道對的此第一通道對，具有針對一特定頻帶的一旁側資訊，此旁側資訊指示雙聲道單聲道，但此等雙聲道單聲道信號可在之後於一通道對處理中作為一中信號或一旁側信號而被使用。此由相關於進行來獲得將在該解碼器側解碼的該等至少三個個別地經編碼通道的一配對處理所對應的旁側資訊而發訊。

實施例係關於以信號適應性聯合通道處理的一MDCT式多重信號編碼與解碼系統，其中，該信號可為一通道，且多重信號為一多重通道信號，或可替代地為一音訊信號，該音訊信號為諸如一立體混響(Ambisonics)成分之一音場描述的一成分，亦即，在第一階層立體混響的W、X、Y、Z或在一較高階層立體混響描述的任何其它成分。信號亦可為一A格式或B格式或一聲場之描述之任何其它格式的一信號。

接著，較佳實施例的進一步優點將被指出。編解碼器使用新的概念來融合如在[6]中所描述之藉由引入在[7]中所描述用於聯合立體聲編碼之概念的任何通道的信號適應性聯合編碼的彈性。其為：

a)用於進一步編碼之知覺白化信號的使用(類似於他們在語音編碼器中所使用的方式)。此具有幾個優點：

‧編解碼器架構之簡化

‧雜訊成形特徵/遮罩閾值的壓縮(compact)表示(例如，作為LPC係數)

‧統一轉換和語音編解碼器架構，因而能結合音訊/語音編碼

b)任意通道之ILD參數的使用以有效地編碼平移(panned)源

c)基於能量在經處理的通道之間靈活的位元分配。

編解碼器進一步使用頻率域雜訊成形(FDNS)以知覺地白化信號，如以在[8]中所描述之速率迴路(rate-loop)結合在[9]中所描述的頻譜封包扭曲(spectral envelope warping)者。編解碼器進一步使用ILD參數將FDNS白化頻譜正規化為平均能量層級。用於聯合編碼的通道對如在[6]中所描述的以一適應性方式而被選擇，在此，立體聲編碼由一頻帶方式(band-wise)M/S對左/右(L/R)決策來組成。頻帶方式M/S決策係當如在[7]中所述之於L/R及M/S模式中編碼時，基於在各頻帶中的估測位元率。在頻帶方式M/S處理通道之間的位元率分佈係基於能量。

100:信號處理器

102:視窗器

104:瞬態檢測器

106:LTP參數計算器

108:時間至頻率域轉換器

116:FDNS方塊

180:經預處理音訊信號

200:適應性聯合信號處理器

114a、114b、210、212、213、214、215、220、221、223、225、229、230、232a、232b、234、235、236、237、238、240、282、284、286、291、620、720、730、810、820、830:方塊

211、213、221、222、223、232、233、292、293、300:步驟

235:向量

300:信號編碼器

400:輸出介面

500:經編碼多重信號音訊信號

510:位元串流部

520:旁側資訊

530:旁側資訊

532:配對處理旁側資訊

534:能量縮放資訊

534a:旗標

536:位元分佈資訊、旁側資訊

550:預處理側資訊

600:輸入介面

700:信號解碼器

710:解量化階段

720:位元分配器

800:聯合信號處理器

900:後處理器

930:重疊加入處理器

1000:經解碼音訊信號

本發明的較佳實施例接著相對於附加圖式而描述，其中：圖1例示說明在一較佳實施中一單一通道預處理的一方塊圖；圖2例示說明在多重信號編碼器的一方塊圖的一較佳實施；圖3例示說明圖2之通道對選擇程序與交互相關向量的一較佳實施；圖4例示說明在一較佳實施中通道對的一索引策略；圖5a例示說明根據本發明之該多重信號編碼器的一較佳實施；圖5b例示一經編碼多重信號音訊信號訊框的的一概要表示；圖6例示說明由圖5a之適應性聯合信號處理器所進行的一程序；圖7例示說明由圖8之適應性聯合信號處理器所進行的一較佳實施；圖8例示說明由圖5之適應性聯合信號處理器所進行的另一較佳實施；圖9例示說明將由圖5之量化編碼處理器所使用之為了進行位元分配之目的的另一程序；圖10例示說明多重信號解碼器的一較佳實施的一方塊圖；圖11例示說明由圖10之聯合信號處理器進行的一較佳實施；圖12例示說明圖10的信號解碼器的一較佳實施；圖13例示說明於寬頻擴展或智能間隙填充(IGF)的背景(context)中，聯合信號處理器的另一較佳實施；圖14例示說明圖10的聯合信號處理器的又一較佳實施；圖15a例示說明由圖10的信號解碼器與聯合信號處理器所進行的較佳處理方塊；以及圖15b例示說明用於進行解白化操作與選擇性其它程序的後處理器的一實施。

圖5例示說明用於將至少三個音訊信號編碼的一多重信號編碼器的一較佳實施。該等至少三個音訊信號被輸入進入一信號處理器100用於個別地預處理各音訊信號，以獲得至少三個經預處理音訊信號180，其中，進行該預處理以致使該等經預處理音訊信號相對於在預處理前之對應信號為被白化的。該等至少三個經預處理音訊信號180被輸入進入一適應性聯合信號處理器200，適應性聯合信號處理器200係組配為用於進行對該等至少三個經預處理音訊信號進行一處理，以獲得至少三個聯合地經處理信號，或在一實施例中，至少兩個聯合地經處理信號以及一未經處理信號，如之後將會解釋者。多重信號編碼器包含一信號編碼器300，其係連接至該聯合信號處理器200的一輸出且其係組配於編碼由該聯合信號處理器200輸出的各信號以獲得一或多個經編碼信號。於該信號編碼器300的輸出處之此等經編碼信號被轉發至一輸出介面 400。該輸出介面400係組配為用於發送或儲存一經編碼多重信號音訊信號500，在此，於該輸出介面400的輸出處的該經編碼多重信號音訊信號500包含一或多個如由該信號編碼器300所產生的經編碼信號，相關於由該信號預處理器200所進行之預處理的旁側資訊520，亦即，白化資訊，以及額外地，該經編碼多重信號音訊信號額外地包含與由該適應性聯合信號處理器200所進行之處理相關的旁側資訊530，亦即，與適應性聯合信號處理相關的旁側資訊。

在一較佳實施中，該信號編碼器300包含一速率回圈處理器，其係由位元分佈資訊536所控制，該位元分佈資訊536係由該適應性聯合信號處理器200所產生，且其不僅被由方塊200轉發至方塊300，亦在該旁側資訊530內被轉發至該輸出介面400，且因而進入經編碼多重信號音訊信號。該經編碼多重信號音訊信號500典型地以一個接一個訊框的方式產生，在此，訊框化，且典型地在信號預處理器100中進行一對應視窗化與時域轉換。

該經編碼多重信號音訊信號500的一範例例示於圖5b中例示說明。圖5b例示說明針對如於方塊300所產生之個別地經編碼信號的一位元串流部510。方塊520係用於由方塊100所產生且轉發至輸出介面400的該預處理旁側資訊。此外，一聯合處理旁側資訊530係由圖5a的適應性聯合信號處理器200所產生，且被引入在圖5b中所例示的經編碼多重信號音訊信號訊框內。在圖5b例示中的右側，經編碼多重信號音訊信號的下一訊框將被寫入一序列位元串流，而在圖5b例示中的左側，經編碼多重信號音訊信號的一較早訊框將被寫入。

如之後將例示者，預處理包含暫時雜訊成形處理及/或頻率域雜訊成形處理或LTP(長期預測)處理或視窗處理操作。對應之預處理旁側資訊550可包含至少一暫時雜訊成形(TNS)資訊、頻率域雜訊成形(FDNS)資訊、長期預測(LTP)資訊或視窗或視窗資訊。

暫時雜訊成形包含頻率上一頻譜訊框的預測。具有較高頻率的一頻譜值係使用具有較低頻率的頻譜值的一權重組合來預測。TNS側資訊包含權重組合之權重，其亦被稱為透過頻率之預測得到的LPC係數。白化頻譜值為預測殘餘值，亦即，在原始頻譜值與預測頻譜值之間每個頻譜值的差異。於解碼器側，進行LPC合成濾波的一反向預測以將於編碼器側的TNS處理還原。

FDNS處理包含對於對應頻譜值使用權重因數的一訊框的權重頻譜值，在此權重值由從視窗化時間域信號之一方塊/訊框所計算而得的LPC係數所導出。FDNS旁側資訊包含由時間域信號所導出之LPC係數的表示。

對本發明亦為有用的另一種白化程序為使用縮放因數(scale factor)的一頻譜等化，以致使等化頻譜代表相較非等化版本為較白化之版本。旁側資訊將會是縮放因數使用來加權者，且反向程序包含使用所發送縮放因數來復原在解碼器側所作之等化。

另一種白化程序包含使用一反向濾波器對頻譜進行一反向濾波，反向濾波器係由如在語音編碼技術中已知者，從時間域訊框所導出之LPC係數所控制。旁側資訊為反向濾波器資訊且此反向濾波係在解碼器中使用所發送旁側資訊來還原。

另一種白化程序包含在時間域進行一LPC分析且計算時間域殘餘值，其接著被轉換至頻譜範圍。典型地，因此而得的頻譜值類似於由FDNS所得的頻譜值。在解碼器側，後處理包含使用所發送之LPC係數表示而進行LPC合成。

聯合處理器側資訊530包含，在一較佳實施中，一配對處理旁側資訊532，一能量縮放資訊534以及一位元分佈資訊536。該配對處理旁側資訊可包含下列至少一者：通道對旁側資訊位元、一完整中/側資訊或雙單聲道資訊或頻帶中/側資訊，以及，在頻帶中/側指示的狀況下，中/側遮罩針對在一訊框中的各頻寬指示該頻帶是由中/側處理或由左/右處理。配對處理旁側資訊可額外地包含智能間隙填充(IGF)或其它頻寬擴張資訊，諸如SBR(spectral band replication，頻譜帶複製)資訊等等。

能量縮放資訊534針對各個經白化，亦即，經預處理信號180，可包含一能量縮放值與一旗標，指示能量縮放為提升(upscaling)或縮小(downscaling)。在八個通道的狀況下，例如，方塊534將包含八個縮放值，諸如八個量化ILD值以及針對八個通道各者的八個旗標，指示出在編碼器中進行提升或縮小，或者需要在解碼器內進行。當在一訊框中的一特定經處理通道之實際能量低於在所有通道中針對該訊框之平均能量時，在編碼器中之提升為必要的，且當在該訊框中的一特定通道之實際能量高於在該訊框中所有通道的平均能量時，在編碼器中之提升為必要的。聯合處理旁側資訊可包含針對聯合地經處理信號各者的一位元分佈資訊或針對各個聯合地經處理信號，且若可取得一未經處理信號，且此位元分佈資訊係如圖5a所例示由信號編碼器300所使用，且其對應地由在圖10中所例示的所使用信號編碼器所使用，其經由一輸入介面從該編碼信號接收此位元串流資訊。

圖6例示說明該適應性聯合信號處理器的一較佳實施。該聯合信號處理器200係組配來進行對至少三個經預處理音訊信號的一寬頻能量正規化，以致使各經預處理音訊信號具有一經正規化能量。輸出介面400係組配為可包括，針對各經預處理音訊信號的一寬頻能量正規化值以作為一進一步旁側資訊，在此，此值對應於圖5b的能量縮放資訊534。圖6例示說明寬頻能量正規化的一較佳實施。在步驟211中，針對各通道計算一寬頻能量。進入方塊211的輸入由該經預處理(白化)通道所組成。結果為針對C_total通道的各通道之一寬頻能量值。在方塊212，一平均寬頻能量典型地由將個別值加在一起以及由將個別值除以通道的數目來計算。然而，可進行其它平均計算程序，諸如幾何平均或類似者。

在步驟213中，各通道被正規化。為了此目的，判定一縮放因數或值以及一提升或縮小資訊。因此步驟213係組配為可針對在534a所指示的各通道輸出縮放旗標。在方塊214，縮放比率的實際量化之判定在方塊212進行，且此量化縮放比率於534b處針對各通道輸出。此量化縮放比率亦被指示為通道間層級差異

(k)，亦即，對一特定通道k相對於具有平均能量之一參考通道。在方塊215，各通道的頻譜使用量化縮放比率來縮放。在方塊215中的縮放操作係藉由方塊213之輸出控制，亦即，藉由要進行提升或縮小的資訊來控制。方塊215的輸出代表針對各通道的一縮放頻譜。

圖7例示適應性聯合信號處理器200相對於級聯對處理的一較佳實施。適應性聯合信號處理器200如在方塊221內所指示的係組配來針對各個可能通道對之交互相關(cross-correlation)值的計算。方塊229例示說明選擇具有最高交互相關值的一對，且在方塊232a中，一聯合立體聲處理模式係針對此對而判定。一聯合立體聲處理模式可由下列各者組成：對完整訊框之中/側編碼、以頻帶方式的中/側編碼，亦即，在此對複數個頻帶的各頻帶判定、此頻帶將在中/側或L/R模式中處理、或對於實際訊框，一完整頻雙單聲道處理是否將針對此考量中的特定對進行。在方塊232b，針對所選定對之聯合立體聲處理實際使用在方塊232a中所判定的模式來進行。

在方塊235、238，繼續具有一完整樹或簡化樹處理的級聯處理或非級聯處理，直到一特定終止標準。在特定終止標準，藉由，例如方塊229與由方塊232a所輸出的一立體聲模式處理資訊產生一對指示，且輸入進入相對於圖5b中所解釋之配對處理旁側資532的位元串流中。

圖8例示說明用於準備由圖5b之信號編碼器300所進行之信號編碼處理之用途的適應性聯合信號處理器的一較佳實施。為此目的，適應性聯合信號處理器200針對在方塊282中的各立體聲經處理信號計算一信號能量。方塊282接收聯合立體聲經處理信號作為一輸入，且在未經受一立體聲處理之一通道的狀況下，因為此通道不會被發現有與任何其他通道有一充分交互關聯以形成一可用的通道對，此通道為具有一反轉或修改或非正規化能量進入方塊282的輸入。此一般被指示為「能量回歸(reverted)信號」但在圖6中進行的能量正規化，方塊215不必要完全地被回歸。對於處理一通道信號，其未被發現與另一通道一起使用以用於通道對處理存在特定的替代方案。一程序為在圖6的方塊215內進行縮放初始化反轉。另一程序僅部分地反轉縮放或另一程序為以某種不同的方式對縮放通道加權，視情況而定。

在方塊284，計算由適應性聯合信號處理器200輸出的所有信號的一總能量。在方塊286中針對各信號基於對各立體聲經處理信號的信號能量或若可取得一能量回歸或能量權重信號且基於由方塊284所輸出的總能量來計算一位元分佈資訊。由方塊286所產生的此旁側資訊536在一方面被轉發至圖5a的信號編碼器300，且額外地被經由邏輯連接530轉發至輸出介面400，以致使此位元分佈資訊被包括在圖5a或圖5b的經編碼多重信號音訊信號500內。

實際位元分配在一較佳實施例中基於在圖9中例示說明的程序所進行。在一第一程序中，指定對於非LFE(低頻加強)通道的位元最小數量，且若可取得，為低頻加強通道位元。無論一特定信號內容，信號編碼器300需要此等位元最小數量。剩餘的位元接著根據在圖8之方塊286所產生的位元分佈資訊536而被指定，且輸入進入方塊291。基於量化能量比率完成此指定，且較佳地使用量化能量比率而非一非量化能量。

在步驟292中，進行一精鍊(refinement)。當量化使得剩餘位元被指定，且結果為高於位元之可取得數量，在方塊291中必須進行位元指定的減法。然而，當能量比率的量化使得在方塊291的指定程序造成仍有位元將要被指定，此等位元可額外地在精鍊步驟292中給定或分佈。若在精鍊步驟之後，仍存在將被信號編碼器使用的任何位元，進行一最終捐贈步驟293，且最終捐贈步驟係對具有最大能量之該通道完成。在步驟293的輸出，可取得對各信號的指定位元預算。

在步驟300進行對各信號使用在步驟290、291、292、293的程序所產生之指定位元預算而量化與熵編碼。基本上，以一較高能量通道/信號較一較低能量通道/信號量化更精確的方式進行位元分配。重要地，位元分配並非使用原始信號或經白化信號完成，而是使用在適應性聯合信號處理器200之輸出處的信號而完成，由於聯合通道處理，此等信號相較於輸入該適應性聯合信號處理器的信號為具有不同的能量。在此前後文中，亦應該注意的是雖然一通道對處理為較佳實施，可選擇其他通道群組並以交互關聯構件處理。例如，三或甚至四通道的群組可以適應性聯合信號處理器的構件形成，且在一級聯完整程序或具有一簡化樹的級聯程序或一非級聯程序中對應地處理。

例示於方塊290、291、292、293中的位元分配以相同的方式在解碼器側藉由圖10的信號解碼器700使用如從編碼多重信號音訊信號500中提取的分佈資訊536而進行。

較佳實施例

在此實施中，編解碼器使用新的概念來融合任意通道的信號聯合編碼之彈性，如在[6]中所描述之引入在[7]中描述用於聯合立體聲編碼的概念。其為：

a)知覺白化信號的使用以用於進一步編碼(類似於他們在語音編碼器中使用的方式)。這有幾個優點：

‧簡化編解碼器架構

‧雜訊成形特性/遮罩閾值(例如作為LPC係數)的壓縮表示

‧統一轉換與語音編解碼器架構，因此實現組合的音訊/語音編碼

b)任意通道之ILD參數的使用以有效地編碼平移(panned)源

c)基於能量在經處理的通道之間靈活的位元分配。

編解碼器使用頻率域雜訊成形(FDNS)以知覺地白化信號，如以在[8]中所描述之速率迴路結合在[9]中所描述的頻譜封包扭曲(spectral envelope warping)。編解碼器進一步使用ILD參數將FDNS白化頻譜正規化為平均能量層級。用於聯合編碼的通道對如在[6]中所描述的以一適應性方式而被選擇，在此，立體聲編碼由一頻帶方式(band-wise)M/S對L/R決策來組成。頻帶方式M/S決策係當如在[7]中所述之於L/R及M/S模式中編碼時，基於各頻帶中估測位元率。在以經頻帶方式M/S處理後通道之間的位元率分佈係基於能量。

實施例係關於具有信號適應性聯合通道處理的一MDCT式多重信號編碼與解碼系統，且多重信號為多重通道信號，或可替代地，一音訊信號為諸如立體混響(Ambisonics)成分的一聲場描述之一成分，亦即在第一階層立體混響的W、X、Y、Z或在一較高階層之立體混響描述的任何其它成分。信號亦可為一A格式或B格式或一聲場之描述的任何其它格式之信號。因此，對於「通道」給出的相同揭露對於多重信號音訊信號的「成分」或其他「信號」亦為有效的。

編碼器單一通道處理至白化頻譜

如在圖1的方塊圖中所顯示的處理步驟後，各單一通道k被分析且轉換成為一白化MDCT域頻譜。

於[8]中描述時間域順瞬態偵測器(Transient Detector)、視窗化(Windowing)、MDCT、修改型離散正弦轉換(MDST)與OLA的處理方塊。MDCT與MDST形成調變複雜重疊轉換(Modulated Complex Lapped Transform，MCLT)；分離地進行的MDCT與MDST等笑於進行MCLT；「MCLT至MDCT」代表僅採用MCLT之MDCT部分並丟棄MDST。

暫時(Temporal)雜訊成形(TNS)係與類似於在[8]中描述所完成，且添加TND與頻率域雜訊成形(FDNS)的順序為適應性的。在圖式中2TNS盒子的存在將可被理解為可改變FDNS與TNS的順序。TNS和FDNS的順序的決定可以是例如[9]中描述者。

頻率域雜訊成形(FDNS)與FDNS參數的計算類似於在[9]中描述之程序。一差異在於用於在TNS為無效之訊框的FDNS參數係由MCLT頻譜計算而得。在TNS為有效之訊框中，MDST頻譜係從MDCT頻譜估計而得。

圖1例示說明信號處理器100的一較佳實施，其進行該至少三個音訊信號白化以獲得個別地預處理經白化信號180。信號預處理器100包含用於一通道k之時間域輸入信號的一輸入。此信號為進入視窗器(windower)102、一瞬態檢測器104與一LTP參數計算器106的輸入。瞬態檢測器104偵測是否該輸入信號的一目前部分為瞬態，且在此確認的狀況中，瞬態檢測器104控制該視窗器102設定一較小視窗長度。此視窗指示，亦即，其已經被選取之視窗長度亦被包括在旁側資訊中，且特定地，在圖5b的處理旁側資訊520中。此外，由方塊106所計算的LTP參數亦被引入旁側資訊方塊，且此等LTP參數可，例如，被使用來進行一些經解碼信號的後處理或其他習知所知的程序。視窗器140產生視窗化時間域訊框，其被引入一時間至頻率域轉換器108。時間至頻率域轉換器108較佳地進行一複數重疊轉換。從此複數重疊轉換，可導出實數部分以獲得一MDCT轉換的結果如方塊112所指示。方塊112的結果，亦即，MDCT頻譜被輸入至TNS方塊114a和一隨後地連接的FDNS方塊116中。可替代地，在沒有TNS方塊114a的情況下僅進行FDNS，或者反之亦然，或者在FDNS處理之後進行TNS處理，如方塊114b所指示者。典型地，方塊114a或方塊114b會存在。在方塊114b的輸出處，當方塊114a不存在時或當方塊114b不存在時，在方塊116的輸出處，針對各通道k獲得經白化各別處理的信號，亦即，經預處理的信號。TNS方塊114a或114b與FDNS方塊116產生並轉發經預處理資訊至旁側資訊520中。

在任何狀況中不必要在方塊108內有一複數轉換。此外，僅進行一MDCT的一時間至頻率域轉換器對於特定應用亦為足夠，且若需要該轉換的一虛部，此虛部亦可以根據具體情況由實部估計。TNS/FDNS處理的特徵在於，在TNS為無效的情況下，FDNS參數是從複數頻譜計算的，亦即，來自MCLT頻譜，而在訊框中，在TNS有效的情況下，MDST頻譜是從MDCT頻譜估計，因此對於頻域雜訊成形操作，總是具有可用的完整複數頻譜。

聯合通道編碼描述

在所描述系統中，在各通道被轉換至白化MDCT域，基於在[6]中描述的演算法，應用用於聯合編碼的任意通道間的不同相似性的信號自適應利用。從該過程，檢測並選擇將要使用頻帶方式M/S轉換來進行聯合編碼的各個通道對。

在圖2中給出了編碼系統的概要。為了簡化起見，方塊箭頭表示單一通道處理(亦即，處理方塊應用於各通道)且方塊「MDCT域分析」在圖1中詳細表示。

在以下的段落中，應用在每個訊框之演算法的各別步驟將更詳細地描述。在圖3中給出演算法描述的一資料流程圖。

應當注意的是，在系統的初始組態中，有一個通道遮罩指示出多重通道聯合編碼工具對通道為有效的。因此，對於存在LFE(低頻率效果/增強)通道的輸入，他們不被列入工具的處理步驟中的考量。

全部通道的能量正規化為平均能量

如果ILD存在的話，亦即若通道為平移，一M/S轉換為不夠的。我們藉由將所有通道之知覺地白化頻譜之振幅正規化為一平均能量層級

來避免此問題。

○針對各通道k=0,...,C _total計算能量E _k

在此N為頻譜係數的總數量

計算平均能量

若E _k>

(縮小)

將各通道頻譜正規化為平均能量

在此a為縮放縮放。縮放縮放為均勻地量化且發送至解碼器作為旁側資訊位元。

在此ILD _RANGE=1≪ILD _bits

接著給出量化縮放縮放，以此量化縮放縮放進行最終縮放

若E _k<

(提升)

以及

在此

(k)係如先前的範例所計算。

為了區別我們已在解碼器處縮小/提升且為了要回歸正規化，除了針對各通道的

值，發送一1位元旗標(0=縮小/1=提升)。ILD _RANGE指示出使用於所發送量化縮放值

的位元之數量，且此值為編碼器和解碼器已知的，且沒有在經編碼音訊信號中發送。

對於所有可能通道對之正規化通道間交互關聯值的計算

在此步驟中，為了要決定並選擇哪個通道對具有最高程度的相似度且因此是核備選擇作為用於立體聲聯合編碼的一對，計算針對各可能通道對的通道間正規化交互關聯值。針對各可能通道對的正規化交互關聯值如以下由交互頻譜給出

在此

N為每個訊框X _MDCT與Y _MDCT的頻譜係數之總數量，為所考量之通道對的各別頻譜。

針對各通道對之正規化交互關聯值係儲存在交互關聯向量中

在此，P=(C _total *(C _total-1))/2為可能對的最大數量。

如圖1中可見，取決於瞬態偵測器我們可具有不同方塊尺寸(例如，10或20ms視窗方塊尺寸)。因此通道間交互關聯係由針對兩個通道之頻譜解析度為相同來計算所給出。否則，接著將該值設定為0，因此確保沒有此等通道對被選擇用於聯合編碼。

使用唯一地表示各個通道對的索引策略。圖4中例示了用於索引六個輸入通道的一種策略的範例。

在整個演算法中保持相同的索引策略，亦如用於將通道對發訊至解碼器。針對將一通道對數量發訊所需之位元的數量為bits _idx=[log₂(P-1)]+1

通道對選擇與聯合地編碼立體聲處理

在計算完交互關聯向量後，將被考量為用於聯合編碼的第一通道對為具有最高交互關聯值且高於較佳地為0.3之最小值閾值。

經選擇通道對作為一立體聲編碼程序的輸入，亦即一頻帶方式M/S轉換。針對各頻譜帶，決定是否通道將會使用M/S或離散L/R編碼取決於針對各狀況的估計位元率。選擇在位元上較少需求之編碼方法。此程序在[7]中詳細描述。

此程序之輸出導致所選擇通道對之各個通道的一更新頻譜。此外，創建需要與解碼器共享之有關此通道對的資訊(旁側資訊)，亦即選擇哪種立體聲模式(全 M/S，雙單聲道或頻帶M/S)以及若頻帶M/S是選擇指示出M/S編碼(1)還是L/R(0)被選擇的各別遮罩的模式。針對接下來的步驟演算法有兩個變化：

○級聯通道對樹

對於此變化，更新針對來自所選擇通道對所改變頻譜(若我們有M/S轉換)之該等通道對的交互關聯向量。例如，在有6通道的案例中，若所選擇且經處理通道對為圖4索引為0者，代表以通道1編碼通道0，接著在立體聲處理後，我們將需要針對受影響的通道對，亦即索引0、1、2、3、4、5、6、7、8重新計算交互關聯。

接著，程序如先前描述的繼續：選擇具有最大交互關聯的通道對、確認其高於一最小閾值且應用立體聲操作。這代表通道為先前通道對的部分可被重新選擇來作為一新通道對的輸入，用字「級聯」。這在剩餘的關聯仍存在於一通道對的輸入與在空間域中代表一不同方向的另一任意通道之間時可能會發生。當然，沒有相同的通道對應該被選擇兩次。

當到達迭代(絕對最大值為P)最大允許數量或在更新交互關聯向量後沒有通道對值超過0.3的閾值(在任意通道沒有關聯)繼續該程序。

簡化樹

級聯通道對樹程序為理論上最佳，由於其視圖移除所有任意通道的關聯且提供最大能量緊縮。另一方面，通道對選擇的數量較

複雜導致額外的計算複雜度 (來自立體聲操作的M/S決策程序)且亦需針對各通道對發送額外的元資料(metadata)至解碼器。

對於簡化樹變化，不允許「級聯」。這確保了，當從以上描述處理開始，在更新交互關聯向量時，不重新計算先前通道對立體聲操作的受影響通道對的值，而是設置為0。因此，它不可能選擇已經是現有通道對的一部分之一個通道的通道對。

此為描述在圖2中「適應性聯合通道處理」方塊的變化。

此案例造成與具有預定義通道對的一系統(例如，L與R、近L與近R)類似的複雜度，由於可被選擇的最大通道對為

。

應當注意的是可能有些案例，其中一選擇通道對之立體聲操作不會改變通道的頻譜。這在當M/S決策演算法決定編碼模式應該為「雙-單聲道」的時候發生。在此案例中，涉及的任意通道再也不會備考量為一通道對，由於他們將會分離地被編碼。此外，更新交互關聯向量將會不具效果。繼續此處理，考量具有下一個最高值的通道對。在此案例中的步驟如以上描述繼續。

保留先前訊框的通道對選擇(立體聲樹)

在許多情況下，任意通道對的訊框與訊框之間的正規化交互關聯值可以是接近的，且因此選擇可以經常在此等接近值之間切換。這可能導致頻繁的通道對樹切換，這可能造成對輸出系統的可聽不穩定性。因此，選擇使用一穩定機制，在此僅當信號發生顯著變化並且任意通道之間的相似性改變時才選擇新的通道對。為了檢測這一點，比較目前訊框與前一訊框的向量的交互關聯向量，並且當差異大於一特定閾值時，則允許選擇新的通道對。

交互關聯向量矢量的在時間上的變化計算如下：

若C _diff>t，那麼如先前的步驟允許選擇將要被聯合地編碼的一新通道對。給出閾值的選擇為t=0.15 C _tot(C _tot-1)/2

若，另一方面，差異很小，那麼使用如先前訊框相同的通道對樹。針對各給定堆到對，頻帶方式M/S操作如先前描述地應用。然而，若給定通道對的正規化交互關聯值沒有超過0.3的閾值，那麼啟始產生一新樹之新通道對選擇。

單一通道的能量回歸

在針對通道對選擇之迭代處理終止之後，可能有些通道不是任何通道/對的部分，且因此被分離地編碼。對於該等通道，能量層級之初始正規化為平均能量層級被回歸回到他們原始的能量層級。取決於旗標發訊提升或縮小，此等通道之能量使用量化縮放比率之反相

來回歸。

用於多重通道處理的IGF

關於IGF分析，在立體聲通道對的狀況中，應用一額外的聯合立體聲處理，如在[10]中完整描述者。此為必要的，因為對於在IGF頻譜中的一特定目的地範圍中，該信號可高度相關於平移聲源。在針對此特定區域而選擇聲源區域並非有很好的關聯的案例中，雖然對於目的地區域能量為匹配，空間影像可能因為非相關來源區域而受影響。

因此，若核心區域的立體聲模式為與IGF區域的立體聲模式不同，或若核心的立體聲模式被標示為頻帶M/S，應用針對各通道對立體聲IGF。若不應用此等條件，那麼進行單一通道IGF分析。若有並非聯合地被編碼於一通道對中的單一通道，那麼他們亦會經歷一單一通道IGF分析。

各通道之用於編碼的可得位元的分佈

在聯合通道對立體聲處理的處理之後，各通道被量化且分離地藉由一熵編碼器編碼。因此，應當給出針對各通道之可得數量的位元。在此步驟中，使用經處理的通道的能量將可得位元的總數總可用比特分配給每個通道。

各通道的能量之計算在正規化步驟中描述，由於針對各通道的頻譜可能已經由於聯合處理而改變而重新計算。新能量標示為

。作為第一步驟，將會基於能量縮放分配的位元的計算為：

在此應當注意，在輸入亦由來自一LFE通道組成案例中，不考慮比率計算。對於LFE通道，僅當通道具有非零內容時才指派最小位元bits _LFE。該比率均勻地量化為：

rt _RANGE=1≪rt _bits

量化比率

儲存在將被使用在解碼器以指派相同數量的位元至各通道的位元串流中，以讀取所發送通道頻譜係數。

位元分佈策略在以下描述：

○針對各通道指定熵編碼器所需最小量的位元bits _min

○剩餘位元，亦即bits _remaining=bits _total-

使用量化比率

分割：

○因為量化比率，位元大致地被分配且因此其可為

。因此在一第二精鍊步驟中，差異bits _diff=bits _split-bits _total依據縮放地從通道位元bits _k中減去：

○

○在精鍊步驟之後相較於bits _total若仍有bits _split不一致(discrepancy)，差異(通常是非常少的位元)被捐贈給具有最大能量的通道。

接著解碼器遵循完全相同的程序，以便判定將要讀取的位元量以解碼各個通道的頻譜係數。rt _RANGE指示出用於位元分佈資訊bits _k的位元數量，並且此值對於編碼器和解碼器是已知的，並且不必在經編碼的音頻信號中發送。

各通道的量化與編碼

量化、雜訊填充(noise filling)以及熵編碼，包括如在[8]中所描述的速率迴路。速率迴路可使用估計G_est最佳化。P的功率頻譜(MCLT的大小)係使用於如在[8]中所描述的量化和智能間隙填充(IGF)中的色調/雜訊測量。由於經白化與頻帶M/S處理MDCT頻譜係使用於功率頻譜，相同的FDNS與M/S處理必須在MDST頻譜上完成。基於ILD的相同的正規化縮放必須針對MDST頻譜完成，由於其係為了MDCT所作。對於TNS為有效的訊框，使用於功率頻譜計算之MDST頻譜係由經白化與M/S處理MDCT頻譜所估計。

圖2例示說明編碼器的一較佳實施的一方塊圖，且特別是圖2之適應性聯合信號處理器200。所有的至少三個經處理音訊信號180被輸入進入一能量正規化方塊210，其於其輸出處產生通道能量比率旁側位元534，在一方面，其由量化比率組成，另一方面其由針對各通道只是出提升或縮小的旗標組成。然而，亦可進行沒有提升或縮小旗標的其它程序。

正規化通道被輸入進入一方塊220以進行一交互關聯向量計算以及通道對選擇。基於在方塊220的程序，其較佳地使用一級聯完整樹或級聯簡化樹處理一迭代程序，或可替代地，其可為一非迭代非級聯處理，對應立體聲操作於方塊240內進行，其可進行一完整頻帶或頻帶中/側處理或任何其它對應立體聲處理操作，諸如旋轉、縮放、任何加權或非加權線性或非線性組合等。

於方塊240的輸出處，一立體聲智能間隙填充(IGF)處理或任何其它頻寬擴張處理，諸如可進行頻譜頻帶複製處理或諧波頻寬處理。各別通道對之處理經由通道對旁側資訊位元發訊，且雖然未於圖2中例示，IGF或由方塊260所產生之一般頻寬擴張係數亦被寫入進入用於聯合處理旁側資訊530的位元串流內，且特別是針對圖5b之配對處理旁側資訊532。

圖2的最後接對為通道位元分佈處理器280，其計算位元分配比率，如例如在相對圖9中已解釋者。圖2例示說明信號編碼器300的一概要表示為一量化器與編碼器，係由通道位元比率旁側資訊530控制，且此外，輸出介面400或位元串流寫入器400其將信號解碼器300的結果與圖5b之所有所需旁側資訊位元520、530結合。

圖3例示說明由方塊210、220、240所進行的實質程序之一較佳實施。在一開始程序之後，如圖2或圖3中所指示地進行一ILD正規化。在步驟221，計算交互關聯向量。該交互關聯向量由針對各來自方塊210之0至N的輸出之可能通道對的正規化交互關聯值組成。對於圖4中的範例，在此有六個通道的狀況下檢測從0至14的15個不同的可能性。交互關聯向量的第一元件具有在通道0與通道1之間的交互關聯值，且例如，具有索引11之交互關聯向量的元件具有通道2與通道5之間的交互關聯值。

在步驟222，進行計算以判定是否維持該樹為已針對先前訊框所判定與否。為了此目的，計算交互關聯向量在時間上的變化，且較佳地，交互關聯向量個別差異之總和，且更特定地，計算差異量的大小。在步驟223中，判定是否該差異量的總和大於閾值。若為此種案例，那麼在步驟224中期標維持樹被設定為0，這代表不保留此樹而是計算一個新的樹。然而，當判定出總和小於閾值，方塊225設定該旗標維持樹=1，因此從先前訊框被判定之該樹亦應用在目前訊框。

在步驟226，檢查迭代終止標準。在判定出無法到達通道對(CP)的最大數量的案例中，其當然為當方塊226為第一次被存取的案例，且當旗標維持樹被設定為0如方塊228所判定者，程序以方塊229繼續已從交互關聯向量中選擇具有最大交互關聯之通道對。然而，當維持較早訊框的樹時，亦即，當維持樹等於1如已在方塊225、方塊230檢查者，判定「強制(forced)」通道對的交互關聯是否大於該閾值。若不是此案例，那麼程序以步驟227繼續，其代表，無論如何，雖然在方塊223中的程序判定為相反，仍須判定一個新的樹。方塊230中的評估與在方塊227中相應的後果可推翻在方塊223與225的判定。

在方塊231，判定具有最大交互關聯的通道對是否高於0.3。若為此案例，進行在方塊232的立體聲操作，其亦於圖2中240所指示。當在方塊233判定出立體聲操作為雙單聲道，在方塊234中將維持樹的值設定為等於0。然而，當判定出立體聲模式不同於雙單聲道，必須重新計算交互關聯向量235，由於已經進行一中/側操作且一立體聲操作方塊240(或232)的輸出由於該處理而為不同的。當實際上有中/側立體聲操作時，或一般地一立體聲操作不同於雙單聲道時，才必須更新CC向量235。

然而，當在方塊226中的檢查或在方塊231中的檢查造成一「否」答案，控制進行到方塊236以檢查是否存在一單一通道。若為此案例，亦即在一通道對處理中，若有發現未連同另一通道經處理的一單一通道，ILD正規化在方塊237反轉。可替代地，在方塊237中的反轉僅可為反轉的一部分或可為某種加權。

在迭代完成的案例中，且在方塊236與237也完成的案例中，程序終止且所有通道對已經被處理，於適應性聯合信號處理器的輸出處，有至少三個聯合地經處理信號，在方塊236造成一「否」回答的案例中，或當方塊236造成一「是」回答時，至少兩個聯合地經處理信號以及對應於一「單一通道」的未經處理信號。

解碼系統描述

解碼程序以解碼開始且以反轉聯合地編碼通道之頻譜的量化，接著如在在[11]或[12]6.2.2中描述的雜訊填充「MDCT式TCX」。分配給各通道之位元數量係基於被編碼在位元串流中的視窗長度、立體聲模式與位元速率比率

所判定。分配給各通道的位元數量應當在完整解碼該位元串流前知悉。

在智能間隙填充(IGF)方塊內，在一特定範圍頻譜內量化至零的線被稱做目標區塊(tile)者以被稱為來源區塊之來自一不同範圍頻譜之經處理內容填充。由於頻帶立體聲處理，立體聲表示(亦即，L/R或M/S)可能與來源及目標區塊不同。為了確保好品質，若來源區塊表示與目標區塊表示不同，那麼在於解碼器中間隙填充之前，處理來源區塊以轉換其成為目標區塊的表示。此程序已經在[10]中描述。IGF本身為，相對於[11]和[12]應用於經白化頻譜域而非原始頻譜域。相對於已知立體聲編解碼(例如，[10])，IGF應用於經白化、ILD補償頻譜域。

由位元串流發亦可知道是否有通道對被聯合地編碼。反向處理應該從形成於該編碼器中最後一對開始，特別是針對級聯通道對樹，為了轉換回各通道的原始經白化頻譜。針對各通道對，反向立體聲處理基於立體聲模式與頻帶M/S決策應用。

針對涉及於通道對且經聯合地編碼的的所有通道，頻譜被基於從解碼器所發送之

(k)值而受解正規化成為原始能量層級。

圖10例示說明用於解碼一經編碼信號500的多重信號解碼器的一較佳實施。多重信號解碼器包含一輸入介面600、用於編碼由該輸入介面600所輸出的該至少三個經編碼信號的一信號解碼器700。該多重信號解碼器包含一用於根據被包括在經編碼信號中的旁側資訊以進行一聯合信號處理的一聯合信號處理器800，以獲得至少三個經處理解碼信號。該多重信號解碼器包含根據被包括在經編碼信號中的旁側資訊而處理該至少三個經處理解碼後信號的一後處理器900。特定地，進行後處理以致使經後處理信號相較於後處理之前的信號為白化較低。經後處理信號代表，直接地或非直接地，經解碼音訊信號1000。

由該輸入介面600所提取且轉發至聯合信號處理器800的旁側資訊，為在圖5b中例示的旁側資訊530，且由該輸入介面600從經解碼多重信號音訊信號中所提取的旁側資訊，齊備轉發至該後處理處理器900以進行解白化操作為相對於圖5b中所例示說明與解釋的旁側資訊520。

聯合信號處理器800係組配為可提取或接收來自該輸入介面600之針對各聯合立體聲解碼信號的一能量正規化值。此針對各聯合立體聲解碼信號的一能量正規化值對應於圖5b的能量縮放資訊530。適應性聯合信號處理器200係組配為可使用一聯合立體聲旁側資訊或一聯合立體聲模式來配對處理820經解碼信號，如被包括在經解碼音訊信號500中的該聯合立體聲旁側資訊532所指示者，以於方塊820的輸出處獲得該聯合立體聲經解碼信號。在方塊830，一重新縮放操作，更特定地為該聯合立體聲經解碼信號的一能量重新縮放係使用該能量正規化值來進行，以在圖10的方塊800處的輸出處獲得經處理解碼信號。

為了確保如在方塊237相對於圖3所解釋之一通道有接收到一反轉ILD正規化，聯合信號處理器800係組配為可檢查從該經解碼信號提取之針對一特定信號的一能量正規化值是否具有一預定值。若為此種案例，當能量正規化值具有此預定值，不進行一能量重新縮放或僅對特定信號進行一縮減能量縮放，或針對此各別通道進行任何其他加權操作。

在一實施例中，信號解碼器700係組配為可從該輸入介面600接收針對各經編碼信號的一位元分佈值，如方塊620中所指示者。例示於圖12的536處的此位元分佈值係被轉發至方塊720，以致使該信號解碼器700判定所使用位元分佈。較佳地，同樣的步驟亦已在圖6與圖9之對於解碼器側處被解釋，亦即由信號解碼器700的構件所進行的步驟290、291、292、293以用於判定圖12之方塊720中所使用位元分佈。在方塊710/730中，為了獲得進入圖10之聯合信號處理器800的輸入，進行一個別解碼。

聯合信號處理器800使用被包括在該旁側資訊方塊532中的特定旁側資訊而具有一頻帶複製、頻寬擴展或智能間隙填充處理功能。此旁側資訊被轉發至方塊810且方塊820如方塊810所應用者，使用頻帶擴充程序的結果以進行聯合立體聲(解碼器)處理。在方塊810中，當頻寬擴張的一目的地範圍或IGF處理被指示為具有其他立體聲表示時，智能間隙填充程序係組配為可將一來源範圍從一立體聲表示轉換為另一立體聲表示。當目的地範圍被指示為具有一中/側立體聲模式，且當該來源範圍被指示為一L/R立體聲模式，L/R來源範圍立體聲模式被轉換成為一中/側來源範圍立體聲模式，且接著以該來源範圍之該中/側立體聲模式表示進行IGF處理。

圖14例示說明該聯合信號處理器800一較佳實施。該聯合信號處理器係組配為可提取經排序信號對資訊，如方塊630中所例示者。此提取可由輸入介面600進行或該聯合信號處理器可從該輸入介面的輸出提取此資訊，或可不以一特定輸入介面直接地提取資訊，如亦在針對其他相對於該聯合信號處理器或信號解碼器所描述之提取程序的案例。

在方塊820中，該聯合信號處理器從一最後信號對開始進行一較佳地級聯反向處理，在此「最後」的用字指由該編碼器判定及處理的處理順序。在解碼器中，「最後」信號對為第一個被處理的那一個。方塊820接收旁側資訊532，其針對由在方塊630中例示的信號對資訊所指示之各信號對，以及例如，以相對於圖4所解釋的方式來實施者，指示該特定對為雙單聲道、完整MS或以一相關聯MS遮罩的一頻帶MS程序。

在方塊820中的反向程序之後，在方塊830中對涉及通道對的信號再次取決於指示出對每個通道的一正規化資訊之旁側資訊534而進行一解正規化。在圖14中相對方塊830所例示之解正規化較佳地為使用能量正規化的一重新縮放，如當一旗標534a具有一第一值時縮小，而當旗標534a具有與第一值不同的第二值時進行縮放為提升。

圖15a例示說明一較佳實施為該信號解碼器的一方塊圖以及圖10的聯合信號處理器，且圖15b例示說明一方塊圖代表圖10支後處理器900的一較佳實施。

信號解碼器700包含一解碼器與用於被包括在該經編碼信號500中之頻譜的一解量化階段710。該信號解碼器700包含一位元分配器720，其接收，較佳地為每個經編碼信號的視窗長度、特定立體聲模式與位元分配資訊作為一旁側資訊。位元分配器720進行位元分配，特定地在一較佳實施中使用步驟290、291、292、293進行，在此每個經編碼信號的位元分配資訊在步驟291中使用，且在此對於視窗長度與立體聲模式的資訊被使用在方塊290或291中。

在方塊730，亦較佳地使用雜訊填充旁側資訊的雜訊填充係針對頻譜中被量化為零且並非在IGF範圍內之範圍而進行。雜訊填充較佳地被限制在由方塊710所輸出之信號的一低頻帶部分。在方塊810，且使用特定旁側資訊，進行一智能間隙填充或一般地頻帶擴充處理，其重要地在經白化頻譜上操作。

在方塊820且使用旁側資訊，反向立體聲處理器進形可還原在圖2項目240中所進行之處理的程序。最終解縮放使用被包括在旁側資訊中之每個通道的經發送量化ILD參數而進行。方塊830的輸出為進入後處理器之方塊 910的輸入，後處理器進行一反向TNS處理及/或一反向頻率域雜訊成形處理或任何其他解白化操作。方塊910的輸出為一簡單(straightforward)頻譜，其藉由一頻率至時間轉換器920被轉換成為時間域。對於鄰近訊框之方塊920的輸出被根據特定編碼或解碼規則重疊加入一重疊加入處理器930，以最終地從該重疊操作獲得經解碼音訊信號的多重性，或一般地，經解碼音訊信號1000。此信號1000可由各別通道組成或可由諸如一立體混響(Ambisonics)成分的聲場描述之一成分組成，或可由在一較高階層描述的任何其它成分組成。信號亦可為一A格式或B格式或一聲場之描述的任何其它格式描述的一信號。所有此等替代聯合地由於圖15b的解碼音訊信號1000所指示。

接著，進一步指出較佳實施例的優點與特定特徵。

本發明的範圍係可提供當處理知覺地白化與ILD補償信號時來自[6]之原則的一解決方案。

○如[8]中所描述之具有速率回圈FDNS與如在[9]中所描述之頻譜封包翹曲結合，提供簡單但非常有效的方法來分離量化雜訊與速率回圈之知覺成形。

○對FDNS白化頻譜的所有通道使用平均能量層級允許簡單且有效的方法來決定是否有如在[7]中所描述之針對被選擇用於聯合編碼之各通道對M/S處理的優點。

○針對用於所描述系統之各通道的編碼單一寬頻ILD已經足夠且因此相較於已知方案可達成節省位元。

○藉由選擇具有高度交互關聯信號的通道對以用於聯合編碼通常導致一完整頻譜M/S轉換，因此有節省一額外的平均位元作為針對各頻帶的發訊M/S或L/R通常會以發訊完整M/S轉換的一單一位元取代。

○基於經處理通道的能量彈性且簡單的位元分佈

較佳實施例的特徵

如在先前段落中所描述者，在此實施中，編解碼器使用新的方法來融合任意通道之信號適應性聯合編碼的彈性，如在[6]中所描述的藉由引入[7]所描述的概念以用於聯合立體聲編碼。所提出發明的新穎性歸納為以下差異：針對各通道對的聯合處理與在[6]中描述關於全球ILD補償的的多重通道處理不同。全球ILD將通道的層級在選擇通道對以及進行M/S決策與處理之前均一化，且因此使得特別是平移源的立體聲編碼更有效率。

針對各通道對的聯合處理與在[7]中描述關於全球ILD補償的的立體聲處理不同。在所提出的系統中，沒有針對各通道對的ILD補償。為了要能使用在[7]中所描述針對任意通道的M/S決策機制，對所有通道正規化成為一單一能量層級，亦即一平均能量層級。此正規化在選擇用於聯合處理的通道對之前發生。

在適應性通道對選擇程序之後，若有通道並非用於聯合處理之一通道對的一部分，他們的能量層級會被反轉成為初始能量層級。

針對熵編碼的位元分佈並未如在[7]內所描述的在各通道對上實施。替代地，所有通道的能量被考量且位元如同在此文件中各別段落中所描述地被分佈。

[6]中描述了一種自適應通道對選擇的明確「低複雜度」模式，在此在迭代通道對選擇程序期間，不允許作為通道對之一部分的單一通道，在通道對選擇程序的下一個迭代期間作為另一個通道對一部分。

使用針對各通道對之簡單頻帶M/S的優點且因而減少了需要在位元串流中被傳輸之資訊量藉由我們使用[6]的信號適應性通道對選擇的事實被增強。藉由選擇高度關聯通道以聯合地編碼，一寬頻M/S轉換對大多案件來說是最佳化的，亦即，M/S編碼是在所有頻帶使用。此可以單一位元發訊，且因而相較於一頻帶M/S決策需要顯著地較少發訊資訊。此顯著地降低了需要針對所有通道對而發送的總資訊位元量。

發明的實施例係關於具有知覺地白化與ILD補償頻譜之一多重通道系統的一信號適應性聯合編碼，在此聯合編碼由基於針對各熵編碼器的位元估計數值之一簡單每個頻帶M/S轉換決策所組成。

雖然一些態樣已經在一設備的上下文中描述，此等態樣很清楚地亦代表對應方法，在此一方塊或裝置對應於一方法步驟或依方法步驟的一特徵。類似地，在方法步驟的上下文中描述的態樣亦表示一對應方塊或或項目或特徵的描述。方法步驟中的一些或全部可以由(或使用)一硬體設備來執行，類似例如，一微處理器、一可程式化電腦或一電子電路。在一些實施例中，可由此種設備來執行最重要的方法步驟中的一些或多個。

本發明的編碼音訊信號可以儲存在數位儲存媒體上，或者可以在諸如一無線傳輸媒體的傳輸媒體或諸如網際網路的有線傳輸媒體上發送。

取決於某些實施需求，本發明的實施例可以在硬體或軟體中實施。可以使用數位儲存媒體來執行該實施，例如，軟碟、DVD、藍光、CD、ROM、PROM、EPROM、EEPROM或FLASH記憶體，其中儲存了電子可讀取控制信號，其與一可程式化電腦系統配合(或能夠配合)以致使可進行個別的方法。因此，數位儲存媒體可以是電腦可讀取的。

根據發明的一些實施例包含具有電子可讀控制信號的一資料載體，其可以與一可程式化電腦系統配合，以致使可進行在此描述的方法之一者。

通常本發明的實施例可實施為具有程式碼的一電腦程式產品，程式碼可操作來在當該電腦程式產品於一電腦上運行時，進行方法中的一者。程式碼通常例如儲存在一機器可讀載體上。

其他實施例包含可進行在此描述之方法中之一者的電腦程式，儲存於一機器可讀載體上。

換句話說，發明方法的一實施例因而為具有用於進行在此描述之方法中之一者的一程式碼的電腦程式，當該電腦程式於一電腦上運行時。

本發明方法的進一步實施例因而為一資料載體(或一數位儲存媒體或一電腦可讀媒體)，包含用於進行在此描述方法之一者的電腦程式記錄於其上。資料載體、數位儲存媒體或記錄媒體通常為實體的及/或非暫時性的。

本發明方法的進一步實施例因而為代表可進行在此描述方法之一者的電腦程式之一資料串流或一系列信號。資料串流或一系列信號例如可組配為可經由一資料通訊連接，例如藉由網際網路而被轉移。

進一步的實施例包含一處理構件，例如一電腦或一可程式或邏輯裝置，其係組配為或適用於可進行在此描述的方法之一者。

進一步的實施例包含具有可進行在此描述的方法之一者之電腦程式安裝於其上的一電腦。

根據本發明方法的進一步實施例包含一設備或一系統，其係組配為可轉移(例如，電子地或光學地) 可進行在此描述的方法之一者的一電腦程式至一接收器。接收者可例如為一電腦、一行動裝置、一記憶體裝置或類似者。設備或系統可例如包含用於將電腦程式轉移至該接收器的一檔案伺服器。

在一些實施例中，一可程式化邏輯裝置(例如，一現場可程式化閘極陣列)可被使用來進行在此描述的方法的一些或所有功能。在一些實施例中，一現場可程式化閘極陣列可與一微處理器配合以進行在此描述的方法中之一者。一般地，方法較佳地以任何硬體設備進行。

在此描述的設備可使用一硬體設備或使用一電腦或使用一硬體設備與一電腦之組合來實施。

在此描述之方法可使用一硬體設備或使用一電腦或使用一硬體設備與一電腦之組合來進行。

以上描述的實施例僅用於說明本發明的原理。應當理解的是，在此描述的佈置和細節的修改和變化對於習於此技藝的其他人員將是顯而易見的。因此，本發明的意欲僅以即將提出的專利請求項的範圍為限制，而不受在此之實施例的描述和解釋呈現的具體細節的限制。

References (all incorporated herein by reference in their entirety) 3GPP TS 26.445. (n.d.). Codec for Enhanced Voice Services (EVS); Detailed algorithmic description.

(December 2015). Codec for Encanced Voice Services (EVS); Detailed algorithmic description. 3GPP TS 26.445 V 12.5.0.

(September 2016). Codec for Encanced Voice Services (EVS); Detailed algorithmic description. 3GPP TS 26.445 V 13.3.0.

(2014-04). Digital Audio Compression (AC-4) Standard. ETSI TS 103 190 V1.1.1.

Disch, S., Nagel, F., Geiger, R., Thoshkahna, B. N., Schmidt, K., Bayer, S., et al. (2014). Patent No. PCT/EP2014/065106. International.

Herre, J., Hilpert, J., Achim, K., & Plogsties, J. (2015). MPEG-H 3D Audio-The New Standard for Coding of Immersive Spatial Audio. Journal of Selected Topics in Signal Processing, 5 (9), 770-779.

(2007). Information technology - MPEG audio technologies Part 1: MPEG Surround. ISO/IEC 23003-1.

(2012). Information technology - MPEG audio technologies Part 3: Unified speech and audio coding. ISO/IEC 23003-3.

Markovic, G., Fotopoulou, E., Multrus, M., Bayer, S., Fuchs, G., Herre, J., et al. (2017). Patent No. WO2017125544A1. International.

Markovic, G., Guillaume, F., Rettelbach, N., Helmrich, C., & Schubert, B. (2011). Patent No. 2676266 B1. EU. Sascha Dick, Schuh, F., Rettelbach , N., Schwegler, T., Fueg, R., Hilpert, J., et al. (2016). Patent No. PCT/EP2016/054900. Inernational.

Schuh, F., Dick, S., Füg, R., Helmrich, C. R., Rettelbach, N., & Schwegler, T. (September 20, 2016). Efficient Multichannel Audio Transform Coding with Low Delay and Complexity. AES Convention, 141. Los Angeles.

Yang, D., Ai, H., Kyriakakis, C., & Kuo, C. (2003, July). High-fidelity multichannel audio coding with Karhunen-Loeve transform. Transactions on Speech and Audio Processing, 11 (4), pp. 365-380.

100:信號預處理器