JP2011528135A

JP2011528135A - オーディオ／音声信号の符号化及び復号化方法とその装置

Info

Publication number: JP2011528135A
Application number: JP2011518646A
Authority: JP
Inventors: ミオ，ウン; フェキム，ジュン; サンソン，ホ; ヨンキム，ミ; ヒョンジュ，キ
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2008-07-14
Filing date: 2009-07-14
Publication date: 2011-11-10
Also published as: US9355646B2; US20140012589A1; IL210664A0; BRPI0916449A8; WO2010008185A3; US8532982B2; KR101756834B1; CN102150202A; EP2313888A2; US20100010807A1; US9728196B2; CN105913851B; CN105913851A; IL210664A; CN102150202B; MY154100A; WO2010008185A2; CN105957532A; EP2313888A4; MX2011000557A

Abstract

オーディオ／音声信号（オーディオ信号、音声信号、又はこれらの混合した信号）を効率的に符号化及び復号化する装置および方法を提供する。本発明によれば、入力オーディオ／音声信号を心理音響モデルの制御下で高周波数分解能信号及び／又は高時間分解能信号に変換し、適切な分解能を決定して音声発声モデルに基づいて量子化、符号化し、一方符号化された信号に含めた情報からその分解能を判定し、高周波数分解能信号と高時間分解能信号に分けて逆量子化、復号化する。
【選択図】図１

Description

本発明は、オーディオ／音声信号の符号化及び復号化方法と、その装置に関する。

コーデックは、音声コーデック（ｓｐｅｅｃｈｃｏｄｅｃ）とオーディオコーデック（ａｕｄｉｏｃｏｄｅｃ）に分類される。音声コーデックは、音声の発声モデルを用いて主に５０Ｈｚから７ｋＨｚに達する周波数帯域に該当する信号を符号化及び復号化する。このような音声コーデックは、一般的に声帯と声道をモデルとすることによって、音声信号を代表するパラメータを抽出して符号化及び復号化を行う。オーディオコーデックは、ＨＥ−ＡＡＣ（ＨｉｇｈＥｆｆｉｃｉｅｎｃｙ− ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ）のような心理音響モデルを適用して主に０Ｈｚから２４ＫＨｚに達する周波数帯域に該当する信号を符号化及び復号化する。このようなオーディオコーデックは、人の聴覚特性を用いて感度の低い信号を省略することによって符号化及び復号化を行う。

音声コーデックは音声信号を符号化及び復号化するのに適しているが、オーディオ信号を符号化及び復号化すると音質が低下してしまう恐れがある。また、オーディオコーデックは、オーディオ信号を符号化及び復号化する場合は圧縮効果に優れるものの、音声信号の符号化及び復号化において信号を圧縮する効率が落ちる。

オーディオ／音声信号、即ち、音声信号、オーディオ信号、及び音声信号とオーディオ信号が混合した信号のいずれもを効率的に符号化及び復号化する装置及び方法を提供する。

また、オーディオ／音声信号の符号化及び復号化に際して、少ないビットを使用しつつ、音質をより向上できる装置及び方法を提供する。

開示される実施形態に係るオーディオ／音声信号の符号化装置は、入力されたオーディオ又は音声信号を高周波数分解能信号及び／又は高時間分解能信号に変換する信号変換部と、前記信号変換部を制御する心理音響モデル部と、前記信号変換部で変換された信号を音声発声モデルに基づいて符号化する時間領域符号化部と、前記信号変換部及び／又は時間領域符号化部で出力された信号を量子化する量子化部と、を含む。

開示される他の実施形態に係るオーディオ／音声信号の符号化装置は、入力されたオーディオ又は音声入力信号のステレオ情報を処理するステレオ信号処理部と、前記入力されたオーディオ又は音声信号の高周波信号を処理する高周波信号処理部と、前記入力されたオーディオ又は音声信号を高周波数分解能信号及び／又は高時間分解能信号に変換する信号変換部と、前記信号変換部を制御する心理音響モデル部と、前記信号変換部で変換された信号を音声発声モデルに基づいて符号化する時間領域符号化部と、前記信号変換部及び／又は時間領域符号化部で出力された信号を量子化する量子化部と、を含む。

開示される更なる実施形態に係るオーディオ／音声信号の符号化装置は、入力オーディオ又は音声信号を高周波数分解能信号及び／又は高時間分解能信号に変換する信号変換部と、前記信号変換部を制御する心理音響モデル部と、前記変換された信号がローレートであるか否かを判断するローレート判断部と、前記判断の結果前記変換された信号がローレートである場合、前記変換された信号を音声発声モデルに基づいて符号化する時間領域符号化部と、前記変換された信号を成形する時間ノイズ成形部と、前記成形された信号のステレオ情報を符号化するハイレートステレオ部と、前記ハイレートステレオ部の出力信号及び／又は時間領域符号化の出力信号を量子化する量子化部と、を含む。

開示される実施形態に係るオーディオ／音声信号の復号化装置は、ビットストリームに含まれた時間領域符号化又は周波数領域符号化に関する情報に基づいて、現在のフレームの信号が高周波数分解能信号又は高時間分解能信号であるかを決定する分解能判断部と、前記分解能判断部において、前記信号が前記高周波数分解能信号であると決定した場合、前記ビットストリームを逆量子化する逆量子化部と、前記ビットストリームから逆線形予測に必要な付加情報を検出し復号化した後、前記付加情報を用いて高時間分解能信号を復元する時間領域復号化部と、前記時間領域復号化部の出力信号及び／又は前記逆量子化部の出力信号を時間領域のオーディオ又は音声信号に逆変換する逆信号変換部と、を含む。

開示される他の実施形態に係るオーディオ／音声信号の復号化装置は、ビットストリームを逆量子化する逆量子化部と、前記逆量子化された信号を復号化するハイレートステレオ復号化部と、前記ハイレートステレオ復号化部で復号化された信号を処理する時間ノイズ成形復号化部と、前記処理された信号を時間領域のオーディオ又は音声信号に逆変換する逆信号処理部とを含み、前記ビットストリームは、入力されたオーディオ又は音声信号が高周波数分解能信号及び／又は高時間分解能信号に変換されて生成されたものである。

開示される実施形態に係るオーディオ／音声信号の符号化方法は、少なくとも１つのオーディオ信号及び少なくとも１つの音声信号を受信するステップと、前記少なくとも１つの受信されたオーディオ信号及び前記少なくとも１つの受信された音声信号を少なくとも１つの周波数分解能信号及び少なくとも１つの時間分解能信号に変換するステップと、前記変換された信号を符号化するステップと、前記変換された信号及び前記符号化された信号のうち少なくとも１つを量子化するステップとを含む。

開示される実施形態に係るオーディオ／音声信号の復号化方法は、受信された信号のビットストリームに含まれた時間領域符号化又は周波数領域符号化に関する情報に基づいて、現在のフレームの信号が周波数分解能信号又は時間分解能信号であるかを決定するステップと、前記受信された信号が前記周波数分解能信号である場合、前記ビットストリームを逆量子化するステップと、前記ビットストリームの前記情報から逆線形予測を行って、前記情報を用いて前記時間分解能信号を復元するステップと、前記逆量子化された信号及び前記復元された時間分解能信号のうち少なくとも１つを時間領域のオーディオ信号又は音声信号に逆変換するステップと、を含む。

開示される実施形態によれば、信号変換部が、心理音響モデル部に制御されて、入力されたオーディオ又は音声信号を高周波数分解能信号及び／又は高時間分解能信号に変換し、分解能判断部が、ビットストリームに含まれた時間領域符号化又は周波数領域符号化に関する情報に基づいて、現在のフレームの信号が高周波数分解能信号又は高時間分解能信号であるかを決定するので、音声信号、オーディオ信号、及び音声信号とオーディオ信号が混合した信号を効率的に符号化及び復号化できる。

また、開示される実施形態によれば、オーディオ／音声信号の符号化及び復号化に際して、少ないビットを使用しつつ、音質をより向上できる。

本発明の一実施形態に係るオーディオ／音声信号の符号化装置の構成例を示す。本発明の一実施形態に係るオーディオ／音声信号の復号化装置の構成例を示す。本発明の一実施形態に係るオーディオ／音声信号の符号化装置の一例を示すブロック図である。本発明の一実施形態に係るオーディオ／音声信号の復号化装置の一例を示すブロック図である。本発明の一実施形態に係るオーディオ／音声信号の符号化装置の一例を示すブロック図である。本発明の一実施形態に係るオーディオ／音声信号の符号化装置の一例を示すブロック図である。本発明の一実施形態に係るオーディオ／音声信号の復号化装置の一例を示すブロック図である。本発明の一実施形態に係るオーディオ／音声信号の符号化装置の一例を示すブロック図である。本発明の一実施形態に係るオーディオ／音声信号の復号化装置の一例を示すブロック図である。本発明の一実施形態に係るオーディオ／音声信号の符号化装置の一例を示すブロック図である。本発明の一実施形態に係るオーディオ／音声信号の復号化装置の一例を示すブロック図である。本発明の一実施形態に係るオーディオ／音声信号の符号化装置の一例を示すブロック図である。本発明の一実施形態に係るオーディオ／音声信号の復号化装置の一例を示すブロック図である。本発明の一実施形態に係るオーディオ／音声信号の符号化装置の一例を示すブロック図である。本発明の一実施形態に係るオーディオ／音声信号の復号化装置の一例を示すブロック図である。本発明の一実施形態に係るオーディオ／音声信号の符号化方法の一例を示すフローチャートである。本発明の一実施形態に係るオーディオ／音声信号の復号化方法の一例を示すフローチャートである。

以下、添付された図面を参照して本発明の多様な実施形態を詳細に説明する。
図１は、オーディオ／音声信号の符号化装置の構成例を示す。
図１を参照すれば、本実施形態のオーディオ／音声信号の符号化装置は、信号変換部１１０、心理音響モデル部１２０、時間領域符号化部１３０、量子化部１４０、ステレオ信号処理部１５０、高周波信号処理部１６０、及びマルチプレクサ１７０を含む。

信号変換部１１０は、入力されたオーディオ又は音声信号を高周波数分解能信号（ｈｉｇｈｆｒｅｑｕｅｎｃｙｒｅｓｏｌｕｔｉｏｎｓｉｇｎａｌ）及び／又は高時間分解能信号（ｈｉｇｈｔｅｍｐｏｒａｌｒｅｓｏｌｕｔｉｏｎｓｉｇｎａｌ）に変換する。

心理音響モデル（ｐｓｙｃｈｏａｃｏｕｓｔｉｃｍｏｄｅｌｉｎｇ）部１２０は、信号変換部１１０が前記入力されたオーディオ又は音声信号を高周波数分解能信号及び／又は高時間分解能信号に変換するよう制御する。

より詳しくは、心理音響モデル部１２０は、量子化のためのマスキング閾値（ｍａｓｋｉｎｇｔｈｒｅｓｈｏｌｄ）を算定し、少なくとも前記算定したマスキング閾値に従って入力オーディオ信号又は音声信号を高周波数分解能信号及び／又は高時間分解能信号に変換するよう制御する。

時間領域符号化部１３０は、信号変換部１１０に変換された信号を音声発声モデルに基づいて符号化する。

特に、心理音響モデル部１２０は、時間領域符号化部１３０の制御のための情報信号を時間領域符号化部１３０に提供する。

このとき、時間領域符号化部１３０は、信号変換部１１０に変換された信号を、音声発声モデルを適用し且つ相関情報を除去して符号化する予測部（図示せず）を含む。このような予測部は、短区間予測器及び長区間予測器を含み得る。

量子化部１４０は、信号変換部１１０及び／又は時間領域符号化部１３０から出力された信号を量子化及び符号化する。

このとき、量子化部１４０は、相関情報が除去された信号をモデリングするためのＣＥＬＰ（ＣｏｄｅＥｘｃｉｔａｔｉｏｎＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ、符号励振線形予測）ユニット（図示せず）を含み得る。

ステレオ信号処理部１５０は前記入力オーディオ又は音声信号のステレオ情報を処理し、高周波信号処理部１６０は前記入力オーディオ又は音声信号の高周波数情報を処理する。

上記のように提案された実施形態をより詳細に説明すれば次の通りである。

信号変換部１１０によって、スペクトル係数は数個の周波数バンドに分かれて、心理音響モデル部１２０ではスペクトルの特性を分析して各周波数バンドの時間分解能又は周波数分解能を判別する。

特定の周波数バンドで高時間分解能がより適する場合には、その周波数バンドにおけるスペクトル係数が信号変換部１１０内に含まれた逆方向変換機、例えば、逆ＭＬＴ（ＩｎｖｅｒｓｅＭｏｄｕｌａｔｅｄＬａｐｐｅｄＴｒａｎｓｆｏｒｍ）によって時間領域信号に変換され、変換された信号は時間領域符号化部１３０で符号化される。

このとき、時間領域符号化部１３０は、短区間予測器及び長区間予測器を含み得る。

時間領域符号化部１３０は、入力信号が音声信号である場合に、より向上した時間分解能によって音声生成モジュールの特性を効果的に反映できる。より詳細には、短区間予測器は、信号変換部１１０から受信したデータを処理して時間領域におけるサンプルの間の短区間相関情報を除去し、また、長区間予測器は短区間予測された残余信号データを処理して長区間相関情報を除去する。

量子化部１４０は、入力されたビットレートのステップの大きさ（ｓｔｅｐ−ｓｉｚｅ）を算出する。量子化部１４０で得られた、量子化されたサンプル及び付加情報は、算術符号化（ａｒｉｔｈｍｅｔｉｃｃｏｄｉｎｇ）あるいはハフマン符号化（ＨｕｆｆｍａｎＣｏｄｉｎｇ）のような、統計的な相関情報を除去するツールを用いて処理される。

ステレオ信号処理部１５０は、３２ｋｂｉｔｓ／ｓｅｃよりも低いビットレートで動作し、一実施形態によれば、ステレオ信号処理部１５０はＭＰＥＧステレオ信号処理部を拡張したものが適用される。また、高周波信号処理部１６０は、高周波信号を効果的に符号化する。

マルチプレクサ１７０では、各モジュールの出力信号をビットストリーム形態にして出力する。このとき、ビットストリームは、算術符号化、ハフマン符号化、又はその他の圧縮方式を用いて生成される。

図２は、オーディオ／音声信号の復号化装置の構成例を示す。

図２を参照すれば、本実施形態のオーディオ／音声信号の復号化装置は、分解能判断部２１０、時間領域復号化部２２０、逆量子化部２３０、逆信号変換部２４０、高周波信号処理部２５０、及びステレオ信号処理部２６０を含む。

分解能判断部２１０は、ビットストリームに含まれた時間領域の符号化又は周波数領域の符号化に関する情報に基づいて、現在のフレームの信号が高周波数分解能信号又は高時間分解能信号であるかを決定する。

逆量子化部２３０は、分解能判断部２１０の出力信号によって前記ビットストリームを逆量子化する。

時間領域復号化部２２０は、逆量子化部２３０から逆量子化された信号を受信し、前記ビットストリームから逆線形予測（Ｉｎｖｅｒｓｅｌｉｎｅａｒｐｒｅｄｉｃｔｉｏｎ）に必要な付加情報を検出した後、前記逆量子化された信号と前記付加情報を用いて高時間分解能信号を復元する。

逆信号変換部２４０は、時間領域復号化部２２０から提供される信号及び／又は逆量子化部２３０で逆量子化された信号を時間領域のオーディオ又は音声信号に逆変換する。

このとき、逆信号変換部２４０では、例えば逆ＦＶ−ＭＬＴ（ＩｎｖｅｒｓｅＦｒｅｑｕｅｎｃｙＶａｒｙｉｎｇＭｏｄｕｌａｔｅｄＬａｐｐｅｄＴｒａｎｓｆｏｒｍ）を用いる。

高周波信号処理部２５０は逆変換された信号の高周波信号を処理し、ステレオ信号処理部２６０は前記逆変換された信号のステレオ情報を処理する。

一方、前記ビットストリームは、逆量子化部２３０、高周波信号処理部２５０、及びステレオ信号処理部２６０にも直接入力されて復号化される。

図３は、オーディオ／音声信号の符号化装置の一例を示すブロック図である。

図３を参照すれば、本実施形態のオーディオ／音声信号の符号化装置は、信号変換部３１０、心理音響モデル部３２０、時間ノイズ成形部３３０、ハイレートステレオ部３４０、量子化部３５０、及び高周波信号処理部３６０を含む。

信号変換部３１０は、入力されたオーディオ又は音声信号を高周波数分解能信号及び／又は高時間分解能信号に変換する。

このとき、信号変換部３１０では、例えばＭＤＣＴ（ＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）３１０を用いる。

心理音響モデル部３２０は、信号変換部３１０が前記入力されたオーディオ又は音声信号を高周波数分解能信号及び／又は高時間分解能信号に変換するように制御する。

時間ノイズ成形部３３０は、前記変換された信号の時間ノイズを成形（ｓｈａｐｉｎｇ）する。

ハイレートステレオ部３４０は、前記変換された信号のステレオ情報を符号化する。

量子化部３５０は、時間ノイズ成形部３３０及び／又はハイレートステレオ部３４０から出力された信号を量子化する。

高周波信号処理部３６０は、前記オーディオ又は音声信号の高周波信号を処理する。

マルチプレクサ３７０では、各モジュールの出力信号をビットストリームに出力する。このとき、ビットストリームは例えば算術符号化又はハフマン符号化のような圧縮方式を用いて生成する。

図４は、オーディオ／音声信号の復号化装置の一例を示すブロック図である。

図４を参照すれば、本実施形態のオーディオ／音声信号の復号化装置は、逆量子化４１０、ハイレートステレオ復号化部４２０、時間ノイズ成形復号化部４３０、逆信号変換部４４０、及び高周波信号処理部４５０を含む。

逆量子化部４１０はビットストリームを逆量子化する。

ステレオ復号化部４２０は前記逆量子化された信号を復号化し、時間ノイズ成形復号化部４３０は符号化装置で時間成形された信号を復号化する。

逆信号変換部４４０は、前記復号化された信号を時間領域のオーディオ又は音声信号に逆変換し、このとき、逆信号変換部４４０では例えば逆−ＭＤＣＴを用いる。

高周波信号処理部４５０は、前記復号化され逆変換された信号のうちの高周波信号分を処理する。

図５は、オーディオ／音声信号の符号化装置の一例を示すブロック図である。

図５を参照すれば、本実施形態のオーディオ／音声信号の符号化装置では、上記図１に示したオーディオ／音声信号の符号化装置では量子化部１４０にＣＥＬＰが含まれるのに対して、ＣＥＬＰが時間領域符号化部５２０に含まれる。

すなわち、時間領域符号化部５２０は、短区間予測器、長区間予測器、及びＣＥＬＰを含む。このとき、ＣＥＬＰは、相関情報が除去された信号をモデリングするためのコード励振モジュールを意味する。
時間領域符号化部５２０は、入力信号が音声信号である場合に、時間分解能の向上によって音声生成モジュールの特性を効果的に反映できる。

より詳細に説明すれば、信号変換部が高周波数分解能信号及び／又は高時間分解能信号を心理音響モデル部の制御に応じて高時間分解能信号に変換する場合には、前記高時間分解能信号に変換された信号がスペクトル量子化部５１０によって量子化されることなく、時間領域符号化部１３０で前記信号を符号化する。換言すると、時間領域符号化部１３０は、スペクトル量子化部５１０での高時間分解能信号の量子化を最小化する。

また、時間領域符号化部５２０はＣＥＬＰを含み、ＣＥＬＰは短区間相関情報及び長区間相関情報の残余信号を符号化する。

図６は、オーディオ／音声信号の符号化装置の一例を示すブロック図である。

図６を参照すれば、本実施形態のオーディオ／音声信号の符号化装置は、上記図１に示したオーディオ／音声信号の符号化装置にスイッチング部６１０をさらに含む。

スイッチング部６１０は、時間領域符号化又は周波数領域符号化に関する情報に基づいて、量子化部６２０による信号の量子化又は時間領域符号化部６３０による符号化を選択する。量子化部６２０は例えばスペクトル量子化部である。

また、図７は、オーディオ／音声信号の復号化装置の一例を示すブロック図である。

図７を参照すれば、本実施形態のオーディオ／音声信号の復号化装置は、上記図２に示したオーディオ／音声信号の復号化装置にスイッチング部７１０をさらに含む。すなわち、スイッチング部７１０は、分解能判断部の決定に応じて時間領域復号化部７３０又はスペクトル逆量子化部７２０におけるスイッチングを制御する。

図８は、オーディオ／音声信号の符号化装置の一例を示すブロック図である。

図８を参照すれば、本実施形態のオーディオ／音声信号の符号化装置は、上記図１に示したオーディオ／音声信号の符号化装置にダウンサンプリング部８１０をさらに含んで構成される。

ダウンサンプリング部８１０は、入力信号を低周波信号にダウンサンプリング（ｄｏｗｎｓａｍｐｌｉｎｇ）する。低周波信号は、ダウンサンプリングによって生成され、ダウンサンプリングは、入力信号がハイレート及びローレートのデュアルレート（ｄｕａｌｒａｔｅ）の場合に行われる。すなわち、低周波信号符号化方式のサンプリング周波数が、高周波信号処理部のサンプリングレートの１／２あるいは１／４に相当する低いサンプリングレートで動作する場合に必要である。本実施形態のようにステレオ信号処理部が含まれる場合には、ステレオ信号処理部でダウンミックス信号のためのＱＭＦ（ＱｕａｄｒａｔｕｒｅＭｉｒｒｏｒＦｉｌｔｅｒ）の合成時にダウンサンプリングを行う。

このとき、例えば、ハイレートは６４ｋｂｉｔｓ／ｓｅｃよりも大きいレートに該当し、ローレートは６４ｋｂｉｔｓ／ｓｅｃよりも小さいレートに該当する。

図９は、オーディオ／音声信号の復号化装置の一例を示すブロック図である。

本実施形態では、分解能判断部９１０は、ビットストリームに含まれた時間領域符号化又は周波数領域符号化に関する情報に基づいて、現在のフレームの信号が高周波数信号又は高時間信号であるかを決定する。

逆量子化部９２０は、分解能判断部９１０の出力信号によって前記ビットストリームを逆量子化する。

時間領域復号化部９３０は、逆量子化部９２０から符号化された残余信号を受信し、前記ビットストリームから逆線形予測に必要な付加情報を検出した後、前記残余信号と前記付加情報を用いて高時間分解能信号を復元する。

逆信号変換部９４０は、時間領域復号化部９３０から提供される信号及び／又は逆量子化部９２０で逆量子化された信号を時間領域のオーディオ又は音声信号に逆変換する。

このとき、図９に示したオーディオ／音声信号の復号化装置では、例えば高周波信号処理部９５０でアップサンプリング（ｕｐ−ｓａｍｐｌｉｎｇ）を行う。

図１０は、オーディオ／音声信号の符号化装置の一例を示すブロック図である。

図１０に示した実施形態のオーディオ／音声信号の符号化装置は、上記図５に示したオーディオ／音声信号の符号化装置にダウンサンプリング部１０１０をさらに含む。すなわち、低周波信号がダウンサンプリングを介して生成される。

ステレオ信号処理部１０２０を適用した場合には、ステレオ信号処理部１０２０でダウンミックス信号を生成するためのＱＭＦ合成（ｓｙｎｔｈｅｓｉｓ）時にダウンサンプリングを行う。また、時間領域符号化部１０３０は短区間予測器、長区間予測器、及びＣＥＬＰを含む。

図１１は、オーディオ／音声信号の復号化装置の一例を示すブロック図である。

本実施形態では、分解能判断部１１１０は、ビットストリームに含まれた時間領域符号化又は周波数領域符号化に関する情報に基づいて、現在のフレームの信号が高周波数分解能信号又は高時間分解能信号であるかを決定する。

分解能判断部１１１０が現在のフレームの信号を高周波数信号と決定した場合には、スペクトル逆量子化部１１３０は分解能判断部１１１０の出力信号によって前記ビットストリームを逆量子化する。

一方、分解能判断部１１１０が現在のフレームの信号を高時間分解能信号と決定した場合には、時間領域復号化部１１２０が高時間分解能信号を復元する。

逆信号変換部１１４０は、時間領域復号化部１１２０から提供される信号及び／又はスペクトル逆量子化部１１３０で逆量子化された信号を時間領域のオーディオ又は音声信号に逆変換する。

また、図１１に示したオーディオ／音声信号の復号化装置では、例えば高周波信号処理部１１５０がアップサンプリングを行う。

図１２は、オーディオ／音声信号の符号化装置の一例を示すブロック図である。

より詳細に説明すれば、図１２に示したオーディオ／音声信号の符号化装置は、上記図６に示したオーディオ／音声信号の符号化装置に、ダウンサンプリング部１２１０をさらに含む。すなわち、低周波信号がダウンサンプリングを介して生成される。

ステレオ信号処理部１２２０を適用した場合には、ステレオ信号処理部１２２０がＱＭＦ合成を行っている時に、ダウンサンプリング部１２１０がダウンサンプリングを行う。

図１２に示した符号化装置及び復号化装置のアップ／ダウンサンプリングファクター（ｕｐ／ｄｏｗｎ−ｓａｍｐｌｉｎｇｆａｃｔｏｒ）は、例えば１／２あるいは１／４である。すなわち、入力信号が４８ｋＨｚである場合には、アップ／ダウンサンプリングを介して２４ｋＨｚあるいは１２ｋＨｚにダウンサンプリングされる。

図１３は、オーディオ／音声信号の復号化装置の一例を示すブロック図である。

図１３を参照すれば、本実施形態のオーディオ／音声信号の復号化装置は、上記図２に示したオーディオ／音声信号の復号化装置にスイッチング部をさらに含む。すなわち、スイッチング部によって時間領域復号化部１３２０又はスペクトル逆量子化部１３１０をスイッチングする。

図１４は、オーディオ／音声信号の符号化装置の一例を示すブロック図である。

図１４に示したオーディオ／音声信号の符号化装置は、例えば、上記図１に示されたオーディオ／音声信号符号化装置及び上記図３に示されたオーディオ／音声信号符号化装置を統合した形態である。

すなわち、予め設定されたローレートとハイレートの定義によって、ローレート判断部１４３０の判断の結果がローレートである場合には、信号変換部１４１０、時間領域符号化部１４４０及び／又は量子化部１４７０が動作し、ハイレートである場合には、信号変換部１４１０、時間ノイズ成形部（ＴＮＳ）１４５０、及びハイレートステレオ部１４６０が動作する。

ステレオ信号処理部１４８１と高周波信号処理部１４９１は、例えば選択された基準によってオン／オフ（ｏｎ／ｏｆｆ）され、ハイレートステレオ部１４６０とステレオ信号処理部１４８１は例えば同時に動作しないよう実現される。
また、高周波信号処理部１４９１及びステレオ信号処理部１４８１は、例えば予め設定された情報に基づいて、各々、高周波信号処理判断部１４９０及びステレオ信号処理判断部１４８０の制御に応じて個別に動作する。

図１５は、オーディオ／音声信号の復号化装置の一例を示すブロック図である。

より詳細に説明すれば、図１５に示したオーディオ／音声信号の復号化装置は、上記図２に示したオーディオ／音声信号復号化装置及び上記図４に示したオーディオ／音声信号符号化装置を統合した形態である。

すなわち、ローレート判断部１５１０の判断に応じて、ハイレートである場合にはハイレートステレオ復号化部１５２０、時間ノイズ成形復号化部１５３０、及び逆信号変換部１５４０が動作し、ローレートである場合には、分解能判断部１５５０、時間領域復号化部１５６０、高周波信号処理部１５７０が動作する。また、高周波信号処理部１５７０及びステレオ信号処理部１５８０は、選択された情報に応じて各々、高周波信号処理判断部及びステレオ信号処理判断部の制御に応じて動作する。

図１６は、オーディオ／音声信号の符号化方法の一例を示すフローチャートである。

本実施形態では、入力されたオーディオ又は音声信号を周波数領域に変換し（Ｓ１６１０）、時間領域への変換が必要であるか否かを判断する（Ｓ１６２０）。

このとき、前記入力オーディオ又は音声信号をダウンサンプリングする過程をさらに含みうる。

ステップＳ１６２０の判断結果に応じて、入力オーディオ又は音声信号を高周波数分解能信号及び／又は高時間分解能信号に変換する。

すなわち、前記判断の結果、時間領域への変換が必要である場合には、高時間分解能信号に変換して量子化し（Ｓ１６３０）、前記判断の結果、時間領域への変換が必要ではない場合には、量子化及び符号化が行われる（Ｓ１６４０）。

図１７は、オーディオ／音声信号の復号化方法の一例を示すフローチャートである。

本実施形態では、現在のフレームの信号が高周波数分解能信号又は高時間分解能信号であるかを決定する（Ｓ１７１０）。

このとき、例えば、ビットストリームに含まれた時間領域符号化又は周波数領域符号化に関する情報に基づいて、現在のフレームの信号が高周波数信号又は高時間信号であるかを決定する。

その後、前記ビットストリームを逆量子化する（Ｓ１７２０）。

前記逆量子化された信号を受信し、前記ビットストリームから逆線形予測に必要な付加情報を検出した後、符号化された残余信号と前記付加情報を用いて高時間分解能信号を復元する（Ｓ１７３０）。

その後、前記時間領域復号化部から提供される復号化された信号及び／又は前記逆量子化部から提供される逆量子化された信号を時間領域のオーディオ又は音声信号に逆変換する（Ｓ１７４０）。

本発明に係るオーディオ／音声信号の符号化及び復号化方法とその装置は、多様なコンピュータ手段によって実現することのできるプログラム命令形態によって具現され、コンピュータ読み出し可能媒体に記録することができる。前記コンピュータ読み出し可能媒体は、コンピュータ読み出し可能な記録及びコンピュータ読み出し可能な伝送媒体を含み、プログラム命令、データファイル、データ構造などを単独で又は組み合わせて含む。前記媒体に記録されるプログラム命令は本発明のために特別に設計して構成されたものであるか、又は、コンピュータソフトウェアの当業者に公知されて使用可能になったものである。
コンピュータ読み出し可能記録媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク、及び磁気テープのような磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスクのような磁気媒体、及びＲＯＭ、ＲＡＭ、フラッシュメモリがあり、ネットワーク結合されたコンピュータシステムに配置され、その結果、コンピュータ読み出し可能なコードを分散した形で保存乃至実行できる。
コンピュータ読み出し可能な伝送媒体は、例えばインタネット経由の有線又は無線データ伝送により搬送波又は信号を伝送する。
また、本発明の一般的諸思想を具現するための機能プログラム、コード、及びコードセグメントは、本発明に係る分野の当業者にとっては、容易に想到できるであろう。

上述したように、本発明では具体的な構成要素などの特定事項と限定される実施形態及び図面によって説明したが、これは本発明のより全般的な理解を助けるために提供したものに過ぎず、本発明は、前記の実施形態に限定されるものではなく、本発明が属する分野で通常の知識を有する者であれば、このような記載から多様な修正及び変形が可能であろう。

従って、本発明の思想は説明した実施形態に限定して決定されてはならず、後述する特許請求の範囲だけでなくこの特許請求の範囲と均等又は等価的変形のある全てのものは本発明の思想の範疇に属するといえる。

１１０信号変換部
１２０心理音響モデル部
１３０時間領域符号化部
１４０量子化部
１５０ステレオ信号処理部
１６０高周波信号処理部
１７０マルチプレクサ
２１０分解能判断部
２２０時間領域復号化部
２３０逆量子化部
２４０逆信号変換部
２５０高周波信号処理部
２６０ステレオ信号処理部
３１０信号変換部
３２０心理音響モデル部
３３０時間ノイズ成形部
３４０ハイレートステレオ部
３５０量子化部
３６０高周波信号処理部
４１０逆量子化
４２０ハイレートステレオ復号化部
４３０時間ノイズ成形復号化部
４４０逆信号変換部
４５０高周波信号処理部
５１０スペクトル量子化部
５２０時間領域符号化部
６１０スイッチング部
６２０量子化部（スペクトル量子化部）
６３０時間領域符号化部
７１０スイッチング部
７２０スペクトル逆量子化部
７３０時間領域復号化部
８１０ダウンサンプリング部
９１０分解能判断部
９２０逆量子化部
９３０時間領域復号化部
９４０逆信号変換部
９５０高周波信号処理部
１０１０ダウンサンプリング部
１０２０ステレオ信号処理部
１０３０時間領域符号化部
１１１０分解能判断部
１１２０時間領域符号化部
１１３０スペクトル逆量子化部
１１４０逆信号変換部
１１５０高周波信号処理部
１２１０ダウンサンプリング部
１２２０ステレオ信号処理部
１３１０スペクトル逆量子化部
１３２０時間領域復号化部
１４１０信号変換部
１４２０心理音響モデル部
１４３０ローレート判断部
１４４０時間領域符号化部
１４５０時間ノイズ成形部（ＴＮＳ）
１４６０ハイレートステレオ部
１４７０量子化部
１４８０ステレオ信号処理判断部
１４８１ステレオ信号処理部
１４９０高周波信号処理判断部
１４９１高周波信号処理部
１５１０ローレート判断部
１５２０ハイレートステレオ復号化部
１５３０時間ノイズ成形復号化部
１５４０逆信号変換部
１５５０分解能判断部
１５６０時間領域復号化部
１５７０高周波信号処理部
１５８０ステレオ信号処理部

Claims

入力されたオーディオ又は音声信号を高周波数分解能信号及び／又は高時間分解能信号に変換する信号変換部と、
前記信号変換部を制御する心理音響モデル部と、
前記信号変換部で変換された信号を音声発声モデルに基づいて符号化する時間領域符号化部と、
前記信号変換部及び／又は時間領域符号化部で出力された信号を量子化する量子化部と、
を含むことを特徴とするオーディオ／音声信号の符号化装置。
前記量子化部は、相関情報が除去された信号をモデリングするためのＣＥＬＰ（ＣｏｄｅＥｘｃｉｔａｔｉｏｎＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ）を含むことを特徴とする請求項１に記載のオーディオ／音声信号の符号化装置。
入力されたオーディオ又は音声入力信号のステレオ情報を処理するステレオ信号処理部と、
前記入力されたオーディオ又は音声信号の高周波信号を処理する高周波信号処理部と、
前記入力されたオーディオ又は音声信号を高周波数分解能信号及び／又は高時間分解能信号に変換する信号変換部と、
前記信号変換部を制御する心理音響モデル部と、
前記信号変換部で変換された信号を音声発声モデルに基づいて符号化する時間領域符号化部と、
前記信号変換部及び／又は時間領域符号化部で出力された信号を量子化する量子化部と、
を含むことを特徴とするオーディオ／音声信号の符号化装置。
前記時間領域符号化部は、相関情報が除去された信号をモデリングするためのＣＥＬＰを含むことを特徴とする請求項３に記載のオーディオ／音声信号の符号化装置。
前記量子化部はスペクトル量子化部であり、
前記信号変換部で変換された前記オーディオ又は音声信号が高周波数分解能信号又は高時間分解能信号であるかに応じて、前記スペクトル量子化部及び前記時間領域符号化部のうちいずれか１つを選択するスイッチング部をさらに含むことを特徴とする請求項３に記載のオーディオ／音声信号の符号化装置。
前記オーディオ又は音声信号をダウンサンプリングするダウンサンプリング部をさらに含むことを特徴とする請求項３に記載のオーディオ／音声信号の符号化装置。
前記信号変換部は、ＦＶ−ＭＬＴ及びＭＤＣＴのうち少なくともいずれか１つを含むことを特徴とする請求項３に記載のオーディオ／音声信号の符号化装置。
前記心理音響モデル部は、前記量子化部に量子化時のノイズに関する情報を提供することを特徴とする請求項３に記載のオーディオ／音声信号の符号化装置。
前記時間領域符号化部は、前記信号変換部で変換された信号に対して音声発声モデルを適用して符号化し、相関情報を除去する予測部をさらに含むことを特徴とする請求項３に記載のオーディオ／音声信号の符号化装置。
ビットストリームに含まれた時間領域符号化又は周波数領域符号化に関する情報に基づいて、現在のフレームの信号が高周波数分解能信号又は高時間分解能信号であるかを決定する分解能判断部と、
前記分解能判断部において、前記信号が前記高周波数分解能信号であると決定した場合、前記ビットストリームを逆量子化する逆量子化部と、
前記ビットストリームから逆線形予測に必要な付加情報を検出し復号化した後、前記付加情報を用いて高時間分解能信号を復元する時間領域復号化部と、
前記時間領域復号化部の出力信号及び／又は前記逆量子化部の出力信号を、時間領域のオーディオ又は音声信号に逆変換する逆信号変換部と、
を含むことを特徴とするオーディオ／音声信号の復号化装置。
前記逆変換された信号の高周波数信号を処理する高周波信号処理部と、前記逆変換された信号のステレオ情報を処理するステレオ信号処理部のうち少なくとも１つをさらに含むことを特徴とする請求項１０に記載のオーディオ／音声信号の復号化装置。
入力されたオーディオ信号又は音声信号を高周波数分解能信号及び／又は高時間分解能信号に変換する信号変換部と、
前記信号変換部を制御する心理音響モデル部と、
前記変換された高周波数信号及び／又は高時間信号を成形する時間ノイズ成形部と、
前記変換された信号のステレオ情報を符号化するハイレートステレオ部と、
前記時間ノイズ成形部及び／又はハイレートステレオ部で出力された信号を量子化する量子化部と、
を含むことを特徴とするオーディオ／音声信号の符号化装置。
前記オーディオ又は音声信号の高周波信号を処理する高周波信号処理部をさらに含むことを特徴とする請求項１２に記載のオーディオ／音声信号の符号化装置。
ビットストリームを逆量子化する逆量子化部と、
前記逆量子化された信号を復号化するハイレートステレオ復号化部と、
前記ハイレートステレオ復号化部で復号化された信号を処理する時間ノイズ成形復号化部と、
前記処理された信号を時間領域のオーディオ又は音声信号に逆変換する逆信号処理部と、を含み、
前記ビットストリームは、入力されたオーディオ又は音声信号が高周波数分解能信号及び／又は高時間分解能信号に変換されて生成されたものであることを特徴とするオーディオ／音声信号の復号化装置。
前記逆変換された信号の高周波信号を処理する高周波信号処理部をさらに含む請求項１４に記載のオーディオ／音声信号の復号化装置。
入力オーディオ又は音声信号を高周波数分解能信号及び／又は高時間分解能信号に変換する信号変換部と、
前記信号変換部を制御する心理音響モデル部と、
前記変換された信号がローレートであるか否かを判断するローレート判断部と、
前記判断の結果前記変換された信号がローレートである場合、前記変換された信号を音声発声モデルに基づいて符号化する時間領域符号化部と、
前記変換された信号を成形する時間ノイズ成形部と、
前記成形された信号のステレオ情報を符号化するハイレートステレオ部と、
前記ハイレートステレオ部の出力信号及び／又は時間領域符号化の出力信号を量子化する量子化部と、
を含むことを特徴とするオーディオ／音声信号の符号化装置。
ステレオ信号処理部と、
選択された情報に基づいて前記ステレオ信号処理部の動作可否を判断するステレオ信号処理部判断部と、を更に含み、
前記ステレオ信号処理部は前記ステレオ信号処理部の動作が必要であると判断された場合、入力される高周波信号のステレオ情報を処理し、
高周波信号処理部と、
選択された情報に基づいて前記高周波信号処理部の動作可否を判断する高周波信号処理部判断部と、を更に含み、
前記高周波信号処理部は前記高周波信号処理部の動作が必要であると判断された場合、入力される高周波信号を処理する、
ことを特徴とする請求項１６に記載のオーディオ／音声信号の符号化装置。
入力されたオーディオ又は音声信号を高周波数分解能信号及び／又は高時間分解能信号に変換し、心理音響モデリングに応じて制御するステップと、
前記変換された信号を音声発声モデルに基づいて時間領域符号化するステップと、
前記変換された信号及び／又は前記時間領域符号化された信号を量子化するステップと、
を含むことを特徴とするオーディオ／音声信号の符号化方法。
ビットストリームに含まれた時間領域符号化又は周波数領域符号化に関する情報に基づいて、現在のフレームの信号が高周波数分解能信号又は高時間分解能信号であるかを決定するステップと、
前記信号が前記高周波数分解能信号であると決定した場合、前記ビットストリームを逆量子化するステップと、
前記ビットストリームから逆線形予測に必要な付加情報を検出し復号化した後、前記付加情報を用いて高時間分解能信号を復元するステップと、
前記復元された信号及び／又は前記逆量子化された信号を時間領域のオーディオ又は音声信号に逆変換するステップと、
を含むことを特徴とするオーディオ／音声信号の復号化方法。
少なくとも１つのオーディオ信号及び少なくとも１つの音声信号を受信するステップと、
前記少なくとも１つの受信されたオーディオ信号及び前記少なくとも１つの受信された音声信号を少なくとも１つの周波数分解能信号及び少なくとも１つの時間分解能信号に変換するステップと、
前記変換された信号を符号化するステップと、
前記変換された信号及び前記符号化された信号のうち少なくとも１つを量子化するステップと、
を含むことを特徴とするオーディオ／音声信号の符号化方法。
受信された信号のビットストリームに含まれた時間領域符号化又は周波数領域符号化に関する情報に基づいて、現在のフレームの信号が周波数分解能信号又は時間分解能信号であるかを決定するステップと、
前記受信された信号が前記周波数分解能信号である場合、前記ビットストリームを逆量子化するステップと、
前記ビットストリームの前記情報から逆線形予測を行って、前記情報を用いて前記時間分解能信号を復元するステップと、
前記逆量子化された信号及び前記復元された時間分解能信号のうち少なくとも１つを時間領域のオーディオ信号又は音声信号に逆変換するステップと、
を含むことを特徴とするオーディオ／音声信号の復号化方法。