[go: up one dir, main page]

JP2011528135A - オーディオ/音声信号の符号化及び復号化方法とその装置 - Google Patents

オーディオ/音声信号の符号化及び復号化方法とその装置 Download PDF

Info

Publication number
JP2011528135A
JP2011528135A JP2011518646A JP2011518646A JP2011528135A JP 2011528135 A JP2011528135 A JP 2011528135A JP 2011518646 A JP2011518646 A JP 2011518646A JP 2011518646 A JP2011518646 A JP 2011518646A JP 2011528135 A JP2011528135 A JP 2011528135A
Authority
JP
Japan
Prior art keywords
signal
audio
unit
resolution
encoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2011518646A
Other languages
English (en)
Inventor
ミ オ,ウン
フェ キム,ジュン
サン ソン,ホ
ヨン キム,ミ
ヒョン ジュ,キ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=41505940&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JP2011528135(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2011528135A publication Critical patent/JP2011528135A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

オーディオ/音声信号(オーディオ信号、音声信号、又はこれらの混合した信号)を効率的に符号化及び復号化する装置および方法を提供する。本発明によれば、入力オーディオ/音声信号を心理音響モデルの制御下で高周波数分解能信号及び/又は高時間分解能信号に変換し、適切な分解能を決定して音声発声モデルに基づいて量子化、符号化し、一方符号化された信号に含めた情報からその分解能を判定し、高周波数分解能信号と高時間分解能信号に分けて逆量子化、復号化する。
【選択図】図1

Description

本発明は、オーディオ/音声信号の符号化及び復号化方法と、その装置に関する。
コーデックは、音声コーデック(speech codec)とオーディオコーデック(audio codec)に分類される。音声コーデックは、音声の発声モデルを用いて主に50Hzから7kHzに達する周波数帯域に該当する信号を符号化及び復号化する。このような音声コーデックは、一般的に声帯と声道をモデルとすることによって、音声信号を代表するパラメータを抽出して符号化及び復号化を行う。オーディオコーデックは、HE−AAC(High Efficiency− Advanced Audio Coding)のような心理音響モデルを適用して主に0Hzから24KHzに達する周波数帯域に該当する信号を符号化及び復号化する。このようなオーディオコーデックは、人の聴覚特性を用いて感度の低い信号を省略することによって符号化及び復号化を行う。
音声コーデックは音声信号を符号化及び復号化するのに適しているが、オーディオ信号を符号化及び復号化すると音質が低下してしまう恐れがある。また、オーディオコーデックは、オーディオ信号を符号化及び復号化する場合は圧縮効果に優れるものの、音声信号の符号化及び復号化において信号を圧縮する効率が落ちる。
オーディオ/音声信号、即ち、音声信号、オーディオ信号、及び音声信号とオーディオ信号が混合した信号のいずれもを効率的に符号化及び復号化する装置及び方法を提供する。
また、オーディオ/音声信号の符号化及び復号化に際して、少ないビットを使用しつつ、音質をより向上できる装置及び方法を提供する。
開示される実施形態に係るオーディオ/音声信号の符号化装置は、入力されたオーディオ又は音声信号を高周波数分解能信号及び/又は高時間分解能信号に変換する信号変換部と、前記信号変換部を制御する心理音響モデル部と、前記信号変換部で変換された信号を音声発声モデルに基づいて符号化する時間領域符号化部と、前記信号変換部及び/又は時間領域符号化部で出力された信号を量子化する量子化部と、を含む。
開示される他の実施形態に係るオーディオ/音声信号の符号化装置は、入力されたオーディオ又は音声入力信号のステレオ情報を処理するステレオ信号処理部と、前記入力されたオーディオ又は音声信号の高周波信号を処理する高周波信号処理部と、前記入力されたオーディオ又は音声信号を高周波数分解能信号及び/又は高時間分解能信号に変換する信号変換部と、前記信号変換部を制御する心理音響モデル部と、前記信号変換部で変換された信号を音声発声モデルに基づいて符号化する時間領域符号化部と、前記信号変換部及び/又は時間領域符号化部で出力された信号を量子化する量子化部と、を含む。
開示される更なる実施形態に係るオーディオ/音声信号の符号化装置は、入力オーディオ又は音声信号を高周波数分解能信号及び/又は高時間分解能信号に変換する信号変換部と、前記信号変換部を制御する心理音響モデル部と、前記変換された信号がローレートであるか否かを判断するローレート判断部と、前記判断の結果前記変換された信号がローレートである場合、前記変換された信号を音声発声モデルに基づいて符号化する時間領域符号化部と、前記変換された信号を成形する時間ノイズ成形部と、前記成形された信号のステレオ情報を符号化するハイレートステレオ部と、前記ハイレートステレオ部の出力信号及び/又は時間領域符号化の出力信号を量子化する量子化部と、を含む。
開示される実施形態に係るオーディオ/音声信号の復号化装置は、ビットストリームに含まれた時間領域符号化又は周波数領域符号化に関する情報に基づいて、現在のフレームの信号が高周波数分解能信号又は高時間分解能信号であるかを決定する分解能判断部と、前記分解能判断部において、前記信号が前記高周波数分解能信号であると決定した場合、前記ビットストリームを逆量子化する逆量子化部と、前記ビットストリームから逆線形予測に必要な付加情報を検出し復号化した後、前記付加情報を用いて高時間分解能信号を復元する時間領域復号化部と、前記時間領域復号化部の出力信号及び/又は前記逆量子化部の出力信号を時間領域のオーディオ又は音声信号に逆変換する逆信号変換部と、を含む。
開示される他の実施形態に係るオーディオ/音声信号の復号化装置は、ビットストリームを逆量子化する逆量子化部と、前記逆量子化された信号を復号化するハイレートステレオ復号化部と、前記ハイレートステレオ復号化部で復号化された信号を処理する時間ノイズ成形復号化部と、前記処理された信号を時間領域のオーディオ又は音声信号に逆変換する逆信号処理部とを含み、前記ビットストリームは、入力されたオーディオ又は音声信号が高周波数分解能信号及び/又は高時間分解能信号に変換されて生成されたものである。
開示される実施形態に係るオーディオ/音声信号の符号化方法は、少なくとも1つのオーディオ信号及び少なくとも1つの音声信号を受信するステップと、前記少なくとも1つの受信されたオーディオ信号及び前記少なくとも1つの受信された音声信号を少なくとも1つの周波数分解能信号及び少なくとも1つの時間分解能信号に変換するステップと、前記変換された信号を符号化するステップと、前記変換された信号及び前記符号化された信号のうち少なくとも1つを量子化するステップとを含む。
開示される実施形態に係るオーディオ/音声信号の復号化方法は、受信された信号のビットストリームに含まれた時間領域符号化又は周波数領域符号化に関する情報に基づいて、現在のフレームの信号が周波数分解能信号又は時間分解能信号であるかを決定するステップと、前記受信された信号が前記周波数分解能信号である場合、前記ビットストリームを逆量子化するステップと、前記ビットストリームの前記情報から逆線形予測を行って、前記情報を用いて前記時間分解能信号を復元するステップと、前記逆量子化された信号及び前記復元された時間分解能信号のうち少なくとも1つを時間領域のオーディオ信号又は音声信号に逆変換するステップと、を含む。
開示される実施形態によれば、信号変換部が、心理音響モデル部に制御されて、入力されたオーディオ又は音声信号を高周波数分解能信号及び/又は高時間分解能信号に変換し、分解能判断部が、ビットストリームに含まれた時間領域符号化又は周波数領域符号化に関する情報に基づいて、現在のフレームの信号が高周波数分解能信号又は高時間分解能信号であるかを決定するので、音声信号、オーディオ信号、及び音声信号とオーディオ信号が混合した信号を効率的に符号化及び復号化できる。
また、開示される実施形態によれば、オーディオ/音声信号の符号化及び復号化に際して、少ないビットを使用しつつ、音質をより向上できる。
本発明の一実施形態に係るオーディオ/音声信号の符号化装置の構成例を示す。 本発明の一実施形態に係るオーディオ/音声信号の復号化装置の構成例を示す。 本発明の一実施形態に係るオーディオ/音声信号の符号化装置の一例を示すブロック図である。 本発明の一実施形態に係るオーディオ/音声信号の復号化装置の一例を示すブロック図である。 本発明の一実施形態に係るオーディオ/音声信号の符号化装置の一例を示すブロック図である。 本発明の一実施形態に係るオーディオ/音声信号の符号化装置の一例を示すブロック図である。 本発明の一実施形態に係るオーディオ/音声信号の復号化装置の一例を示すブロック図である。 本発明の一実施形態に係るオーディオ/音声信号の符号化装置の一例を示すブロック図である。 本発明の一実施形態に係るオーディオ/音声信号の復号化装置の一例を示すブロック図である。 本発明の一実施形態に係るオーディオ/音声信号の符号化装置の一例を示すブロック図である。 本発明の一実施形態に係るオーディオ/音声信号の復号化装置の一例を示すブロック図である。 本発明の一実施形態に係るオーディオ/音声信号の符号化装置の一例を示すブロック図である。 本発明の一実施形態に係るオーディオ/音声信号の復号化装置の一例を示すブロック図である。 本発明の一実施形態に係るオーディオ/音声信号の符号化装置の一例を示すブロック図である。 本発明の一実施形態に係るオーディオ/音声信号の復号化装置の一例を示すブロック図である。 本発明の一実施形態に係るオーディオ/音声信号の符号化方法の一例を示すフローチャートである。 本発明の一実施形態に係るオーディオ/音声信号の復号化方法の一例を示すフローチャートである。
以下、添付された図面を参照して本発明の多様な実施形態を詳細に説明する。
図1は、オーディオ/音声信号の符号化装置の構成例を示す。
図1を参照すれば、本実施形態のオーディオ/音声信号の符号化装置は、信号変換部110、心理音響モデル部120、時間領域符号化部130、量子化部140、ステレオ信号処理部150、高周波信号処理部160、及びマルチプレクサ170を含む。
信号変換部110は、入力されたオーディオ又は音声信号を高周波数分解能信号(high frequency resolution signal)及び/又は高時間分解能信号(high temporal resolution signal)に変換する。
心理音響モデル(psychoacoustic modeling)部120は、信号変換部110が前記入力されたオーディオ又は音声信号を高周波数分解能信号及び/又は高時間分解能信号に変換するよう制御する。
より詳しくは、心理音響モデル部120は、量子化のためのマスキング閾値(masking threshold)を算定し、少なくとも前記算定したマスキング閾値に従って入力オーディオ信号又は音声信号を高周波数分解能信号及び/又は高時間分解能信号に変換するよう制御する。
時間領域符号化部130は、信号変換部110に変換された信号を音声発声モデルに基づいて符号化する。
特に、心理音響モデル部120は、時間領域符号化部130の制御のための情報信号を時間領域符号化部130に提供する。
このとき、時間領域符号化部130は、信号変換部110に変換された信号を、音声発声モデルを適用し且つ相関情報を除去して符号化する予測部(図示せず)を含む。このような予測部は、短区間予測器及び長区間予測器を含み得る。
量子化部140は、信号変換部110及び/又は時間領域符号化部130から出力された信号を量子化及び符号化する。
このとき、量子化部140は、相関情報が除去された信号をモデリングするためのCELP(Code Excitation Linear Prediction、符号励振線形予測)ユニット(図示せず)を含み得る。
ステレオ信号処理部150は前記入力オーディオ又は音声信号のステレオ情報を処理し、高周波信号処理部160は前記入力オーディオ又は音声信号の高周波数情報を処理する。
上記のように提案された実施形態をより詳細に説明すれば次の通りである。
信号変換部110によって、スペクトル係数は数個の周波数バンドに分かれて、心理音響モデル部120ではスペクトルの特性を分析して各周波数バンドの時間分解能又は周波数分解能を判別する。
特定の周波数バンドで高時間分解能がより適する場合には、その周波数バンドにおけるスペクトル係数が信号変換部110内に含まれた逆方向変換機、例えば、逆MLT(Inverse Modulated Lapped Transform)によって時間領域信号に変換され、変換された信号は時間領域符号化部130で符号化される。
このとき、時間領域符号化部130は、短区間予測器及び長区間予測器を含み得る。
時間領域符号化部130は、入力信号が音声信号である場合に、より向上した時間分解能によって音声生成モジュールの特性を効果的に反映できる。より詳細には、短区間予測器は、信号変換部110から受信したデータを処理して時間領域におけるサンプルの間の短区間相関情報を除去し、また、長区間予測器は短区間予測された残余信号データを処理して長区間相関情報を除去する。
量子化部140は、入力されたビットレートのステップの大きさ(step−size)を算出する。量子化部140で得られた、量子化されたサンプル及び付加情報は、算術符号化(arithmetic coding)あるいはハフマン符号化(Huffman Coding)のような、統計的な相関情報を除去するツールを用いて処理される。
ステレオ信号処理部150は、32kbits/secよりも低いビットレートで動作し、一実施形態によれば、ステレオ信号処理部150はMPEGステレオ信号処理部を拡張したものが適用される。また、高周波信号処理部160は、高周波信号を効果的に符号化する。
マルチプレクサ170では、各モジュールの出力信号をビットストリーム形態にして出力する。このとき、ビットストリームは、算術符号化、ハフマン符号化、又はその他の圧縮方式を用いて生成される。
図2は、オーディオ/音声信号の復号化装置の構成例を示す。
図2を参照すれば、本実施形態のオーディオ/音声信号の復号化装置は、分解能判断部210、時間領域復号化部220、逆量子化部230、逆信号変換部240、高周波信号処理部250、及びステレオ信号処理部260を含む。
分解能判断部210は、ビットストリームに含まれた時間領域の符号化又は周波数領域の符号化に関する情報に基づいて、現在のフレームの信号が高周波数分解能信号又は高時間分解能信号であるかを決定する。
逆量子化部230は、分解能判断部210の出力信号によって前記ビットストリームを逆量子化する。
時間領域復号化部220は、逆量子化部230から逆量子化された信号を受信し、前記ビットストリームから逆線形予測(Inverse linear prediction)に必要な付加情報を検出した後、前記逆量子化された信号と前記付加情報を用いて高時間分解能信号を復元する。
逆信号変換部240は、時間領域復号化部220から提供される信号及び/又は逆量子化部230で逆量子化された信号を時間領域のオーディオ又は音声信号に逆変換する。
このとき、逆信号変換部240では、例えば逆FV−MLT(Inverse Frequency Varying Modulated Lapped Transform)を用いる。
高周波信号処理部250は逆変換された信号の高周波信号を処理し、ステレオ信号処理部260は前記逆変換された信号のステレオ情報を処理する。
一方、前記ビットストリームは、逆量子化部230、高周波信号処理部250、及びステレオ信号処理部260にも直接入力されて復号化される。
図3は、オーディオ/音声信号の符号化装置の一例を示すブロック図である。
図3を参照すれば、本実施形態のオーディオ/音声信号の符号化装置は、信号変換部310、心理音響モデル部320、時間ノイズ成形部330、ハイレートステレオ部340、量子化部350、及び高周波信号処理部360を含む。
信号変換部310は、入力されたオーディオ又は音声信号を高周波数分解能信号及び/又は高時間分解能信号に変換する。
このとき、信号変換部310では、例えばMDCT(Modified Discrete Cosine Transform)310を用いる。
心理音響モデル部320は、信号変換部310が前記入力されたオーディオ又は音声信号を高周波数分解能信号及び/又は高時間分解能信号に変換するように制御する。
時間ノイズ成形部330は、前記変換された信号の時間ノイズを成形(shaping)する。
ハイレートステレオ部340は、前記変換された信号のステレオ情報を符号化する。
量子化部350は、時間ノイズ成形部330及び/又はハイレートステレオ部340から出力された信号を量子化する。
高周波信号処理部360は、前記オーディオ又は音声信号の高周波信号を処理する。
マルチプレクサ370では、各モジュールの出力信号をビットストリームに出力する。このとき、ビットストリームは例えば算術符号化又はハフマン符号化のような圧縮方式を用いて生成する。
図4は、オーディオ/音声信号の復号化装置の一例を示すブロック図である。
図4を参照すれば、本実施形態のオーディオ/音声信号の復号化装置は、逆量子化410、ハイレートステレオ復号化部420、時間ノイズ成形復号化部430、逆信号変換部440、及び高周波信号処理部450を含む。
逆量子化部410はビットストリームを逆量子化する。
ステレオ復号化部420は前記逆量子化された信号を復号化し、時間ノイズ成形復号化部430は符号化装置で時間成形された信号を復号化する。
逆信号変換部440は、前記復号化された信号を時間領域のオーディオ又は音声信号に逆変換し、このとき、逆信号変換部440では例えば逆−MDCTを用いる。
高周波信号処理部450は、前記復号化され逆変換された信号のうちの高周波信号分を処理する。
図5は、オーディオ/音声信号の符号化装置の一例を示すブロック図である。
図5を参照すれば、本実施形態のオーディオ/音声信号の符号化装置では、上記図1に示したオーディオ/音声信号の符号化装置では量子化部140にCELPが含まれるのに対して、CELPが時間領域符号化部520に含まれる。
すなわち、時間領域符号化部520は、短区間予測器、長区間予測器、及びCELPを含む。このとき、CELPは、相関情報が除去された信号をモデリングするためのコード励振モジュールを意味する。
時間領域符号化部520は、入力信号が音声信号である場合に、時間分解能の向上によって音声生成モジュールの特性を効果的に反映できる。
より詳細に説明すれば、信号変換部が高周波数分解能信号及び/又は高時間分解能信号を心理音響モデル部の制御に応じて高時間分解能信号に変換する場合には、前記高時間分解能信号に変換された信号がスペクトル量子化部510によって量子化されることなく、時間領域符号化部130で前記信号を符号化する。換言すると、時間領域符号化部130は、スペクトル量子化部510での高時間分解能信号の量子化を最小化する。
また、時間領域符号化部520はCELPを含み、CELPは短区間相関情報及び長区間相関情報の残余信号を符号化する。
図6は、オーディオ/音声信号の符号化装置の一例を示すブロック図である。
図6を参照すれば、本実施形態のオーディオ/音声信号の符号化装置は、上記図1に示したオーディオ/音声信号の符号化装置にスイッチング部610をさらに含む。
スイッチング部610は、時間領域符号化又は周波数領域符号化に関する情報に基づいて、量子化部620による信号の量子化又は時間領域符号化部630による符号化を選択する。量子化部620は例えばスペクトル量子化部である。
また、図7は、オーディオ/音声信号の復号化装置の一例を示すブロック図である。
図7を参照すれば、本実施形態のオーディオ/音声信号の復号化装置は、上記図2に示したオーディオ/音声信号の復号化装置にスイッチング部710をさらに含む。すなわち、スイッチング部710は、分解能判断部の決定に応じて時間領域復号化部730又はスペクトル逆量子化部720におけるスイッチングを制御する。
図8は、オーディオ/音声信号の符号化装置の一例を示すブロック図である。
図8を参照すれば、本実施形態のオーディオ/音声信号の符号化装置は、上記図1に示したオーディオ/音声信号の符号化装置にダウンサンプリング部810をさらに含んで構成される。
ダウンサンプリング部810は、入力信号を低周波信号にダウンサンプリング(downsampling)する。低周波信号は、ダウンサンプリングによって生成され、ダウンサンプリングは、入力信号がハイレート及びローレートのデュアルレート(dual rate)の場合に行われる。すなわち、低周波信号符号化方式のサンプリング周波数が、高周波信号処理部のサンプリングレートの1/2あるいは1/4に相当する低いサンプリングレートで動作する場合に必要である。本実施形態のようにステレオ信号処理部が含まれる場合には、ステレオ信号処理部でダウンミックス信号のためのQMF(Quadrature Mirror Filter)の合成時にダウンサンプリングを行う。
このとき、例えば、ハイレートは64kbits/secよりも大きいレートに該当し、ローレートは64kbits/secよりも小さいレートに該当する。
図9は、オーディオ/音声信号の復号化装置の一例を示すブロック図である。
本実施形態では、分解能判断部910は、ビットストリームに含まれた時間領域符号化又は周波数領域符号化に関する情報に基づいて、現在のフレームの信号が高周波数信号又は高時間信号であるかを決定する。
逆量子化部920は、分解能判断部910の出力信号によって前記ビットストリームを逆量子化する。
時間領域復号化部930は、逆量子化部920から符号化された残余信号を受信し、前記ビットストリームから逆線形予測に必要な付加情報を検出した後、前記残余信号と前記付加情報を用いて高時間分解能信号を復元する。
逆信号変換部940は、時間領域復号化部930から提供される信号及び/又は逆量子化部920で逆量子化された信号を時間領域のオーディオ又は音声信号に逆変換する。
このとき、図9に示したオーディオ/音声信号の復号化装置では、例えば高周波信号処理部950でアップサンプリング(up−sampling)を行う。
図10は、オーディオ/音声信号の符号化装置の一例を示すブロック図である。
図10に示した実施形態のオーディオ/音声信号の符号化装置は、上記図5に示したオーディオ/音声信号の符号化装置にダウンサンプリング部1010をさらに含む。すなわち、低周波信号がダウンサンプリングを介して生成される。
ステレオ信号処理部1020を適用した場合には、ステレオ信号処理部1020でダウンミックス信号を生成するためのQMF合成(synthesis)時にダウンサンプリングを行う。また、時間領域符号化部1030は短区間予測器、長区間予測器、及びCELPを含む。
図11は、オーディオ/音声信号の復号化装置の一例を示すブロック図である。
本実施形態では、分解能判断部1110は、ビットストリームに含まれた時間領域符号化又は周波数領域符号化に関する情報に基づいて、現在のフレームの信号が高周波数分解能信号又は高時間分解能信号であるかを決定する。
分解能判断部1110が現在のフレームの信号を高周波数信号と決定した場合には、スペクトル逆量子化部1130は分解能判断部1110の出力信号によって前記ビットストリームを逆量子化する。
一方、分解能判断部1110が現在のフレームの信号を高時間分解能信号と決定した場合には、時間領域復号化部1120が高時間分解能信号を復元する。
逆信号変換部1140は、時間領域復号化部1120から提供される信号及び/又はスペクトル逆量子化部1130で逆量子化された信号を時間領域のオーディオ又は音声信号に逆変換する。
また、図11に示したオーディオ/音声信号の復号化装置では、例えば高周波信号処理部1150がアップサンプリングを行う。
図12は、オーディオ/音声信号の符号化装置の一例を示すブロック図である。
より詳細に説明すれば、図12に示したオーディオ/音声信号の符号化装置は、上記図6に示したオーディオ/音声信号の符号化装置に、ダウンサンプリング部1210をさらに含む。すなわち、低周波信号がダウンサンプリングを介して生成される。
ステレオ信号処理部1220を適用した場合には、ステレオ信号処理部1220がQMF合成を行っている時に、ダウンサンプリング部1210がダウンサンプリングを行う。
図12に示した符号化装置及び復号化装置のアップ/ダウンサンプリングファクター(up/down−sampling factor)は、例えば1/2あるいは1/4である。すなわち、入力信号が48kHzである場合には、アップ/ダウンサンプリングを介して24kHzあるいは12kHzにダウンサンプリングされる。
図13は、オーディオ/音声信号の復号化装置の一例を示すブロック図である。
図13を参照すれば、本実施形態のオーディオ/音声信号の復号化装置は、上記図2に示したオーディオ/音声信号の復号化装置にスイッチング部をさらに含む。すなわち、スイッチング部によって時間領域復号化部1320又はスペクトル逆量子化部1310をスイッチングする。
図14は、オーディオ/音声信号の符号化装置の一例を示すブロック図である。
図14に示したオーディオ/音声信号の符号化装置は、例えば、上記図1に示されたオーディオ/音声信号符号化装置及び上記図3に示されたオーディオ/音声信号符号化装置を統合した形態である。
すなわち、予め設定されたローレートとハイレートの定義によって、ローレート判断部1430の判断の結果がローレートである場合には、信号変換部1410、時間領域符号化部1440及び/又は量子化部1470が動作し、ハイレートである場合には、信号変換部1410、時間ノイズ成形部(TNS)1450、及びハイレートステレオ部1460が動作する。
ステレオ信号処理部1481と高周波信号処理部1491は、例えば選択された基準によってオン/オフ(on/off)され、ハイレートステレオ部1460とステレオ信号処理部1481は例えば同時に動作しないよう実現される。
また、高周波信号処理部1491及びステレオ信号処理部1481は、例えば予め設定された情報に基づいて、各々、高周波信号処理判断部1490及びステレオ信号処理判断部1480の制御に応じて個別に動作する。
図15は、オーディオ/音声信号の復号化装置の一例を示すブロック図である。
より詳細に説明すれば、図15に示したオーディオ/音声信号の復号化装置は、上記図2に示したオーディオ/音声信号復号化装置及び上記図4に示したオーディオ/音声信号符号化装置を統合した形態である。
すなわち、ローレート判断部1510の判断に応じて、ハイレートである場合にはハイレートステレオ復号化部1520、時間ノイズ成形復号化部1530、及び逆信号変換部1540が動作し、ローレートである場合には、分解能判断部1550、時間領域復号化部1560、高周波信号処理部1570が動作する。また、高周波信号処理部1570及びステレオ信号処理部1580は、選択された情報に応じて各々、高周波信号処理判断部及びステレオ信号処理判断部の制御に応じて動作する。
図16は、オーディオ/音声信号の符号化方法の一例を示すフローチャートである。
本実施形態では、入力されたオーディオ又は音声信号を周波数領域に変換し(S1610)、時間領域への変換が必要であるか否かを判断する(S1620)。
このとき、前記入力オーディオ又は音声信号をダウンサンプリングする過程をさらに含みうる。
ステップS1620の判断結果に応じて、入力オーディオ又は音声信号を高周波数分解能信号及び/又は高時間分解能信号に変換する。
すなわち、前記判断の結果、時間領域への変換が必要である場合には、高時間分解能信号に変換して量子化し(S1630)、前記判断の結果、時間領域への変換が必要ではない場合には、量子化及び符号化が行われる(S1640)。
図17は、オーディオ/音声信号の復号化方法の一例を示すフローチャートである。
本実施形態では、現在のフレームの信号が高周波数分解能信号又は高時間分解能信号であるかを決定する(S1710)。
このとき、例えば、ビットストリームに含まれた時間領域符号化又は周波数領域符号化に関する情報に基づいて、現在のフレームの信号が高周波数信号又は高時間信号であるかを決定する。
その後、前記ビットストリームを逆量子化する(S1720)。
前記逆量子化された信号を受信し、前記ビットストリームから逆線形予測に必要な付加情報を検出した後、符号化された残余信号と前記付加情報を用いて高時間分解能信号を復元する(S1730)。
その後、前記時間領域復号化部から提供される復号化された信号及び/又は前記逆量子化部から提供される逆量子化された信号を時間領域のオーディオ又は音声信号に逆変換する(S1740)。
本発明に係るオーディオ/音声信号の符号化及び復号化方法とその装置は、多様なコンピュータ手段によって実現することのできるプログラム命令形態によって具現され、コンピュータ読み出し可能媒体に記録することができる。前記コンピュータ読み出し可能媒体は、コンピュータ読み出し可能な記録及びコンピュータ読み出し可能な伝送媒体を含み、プログラム命令、データファイル、データ構造などを単独で又は組み合わせて含む。前記媒体に記録されるプログラム命令は本発明のために特別に設計して構成されたものであるか、又は、コンピュータソフトウェアの当業者に公知されて使用可能になったものである。
コンピュータ読み出し可能記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、フロプティカルディスクのような磁気媒体、及びROM、RAM、フラッシュメモリがあり、ネットワーク結合されたコンピュータシステムに配置され、その結果、コンピュータ読み出し可能なコードを分散した形で保存乃至実行できる。
コンピュータ読み出し可能な伝送媒体は、例えばインタネット経由の有線又は無線データ伝送により搬送波又は信号を伝送する。
また、本発明の一般的諸思想を具現するための機能プログラム、コード、及びコードセグメントは、本発明に係る分野の当業者にとっては、容易に想到できるであろう。
上述したように、本発明では具体的な構成要素などの特定事項と限定される実施形態及び図面によって説明したが、これは本発明のより全般的な理解を助けるために提供したものに過ぎず、本発明は、前記の実施形態に限定されるものではなく、本発明が属する分野で通常の知識を有する者であれば、このような記載から多様な修正及び変形が可能であろう。
従って、本発明の思想は説明した実施形態に限定して決定されてはならず、後述する特許請求の範囲だけでなくこの特許請求の範囲と均等又は等価的変形のある全てのものは本発明の思想の範疇に属するといえる。
110 信号変換部
120 心理音響モデル部
130 時間領域符号化部
140 量子化部
150 ステレオ信号処理部
160 高周波信号処理部
170 マルチプレクサ
210 分解能判断部
220 時間領域復号化部
230 逆量子化部
240 逆信号変換部
250 高周波信号処理部
260 ステレオ信号処理部
310 信号変換部
320 心理音響モデル部
330 時間ノイズ成形部
340 ハイレートステレオ部
350 量子化部
360 高周波信号処理部
410 逆量子化
420 ハイレートステレオ復号化部
430 時間ノイズ成形復号化部
440 逆信号変換部
450 高周波信号処理部
510 スペクトル量子化部
520 時間領域符号化部
610 スイッチング部
620 量子化部(スペクトル量子化部)
630 時間領域符号化部
710 スイッチング部
720 スペクトル逆量子化部
730 時間領域復号化部
810 ダウンサンプリング部
910 分解能判断部
920 逆量子化部
930 時間領域復号化部
940 逆信号変換部
950 高周波信号処理部
1010 ダウンサンプリング部
1020 ステレオ信号処理部
1030 時間領域符号化部
1110 分解能判断部
1120 時間領域符号化部
1130 スペクトル逆量子化部
1140 逆信号変換部
1150 高周波信号処理部
1210 ダウンサンプリング部
1220 ステレオ信号処理部
1310 スペクトル逆量子化部
1320 時間領域復号化部
1410 信号変換部
1420 心理音響モデル部
1430 ローレート判断部
1440 時間領域符号化部
1450 時間ノイズ成形部(TNS)
1460 ハイレートステレオ部
1470 量子化部
1480 ステレオ信号処理判断部
1481 ステレオ信号処理部
1490 高周波信号処理判断部
1491 高周波信号処理部
1510 ローレート判断部
1520 ハイレートステレオ復号化部
1530 時間ノイズ成形復号化部
1540 逆信号変換部
1550 分解能判断部
1560 時間領域復号化部
1570 高周波信号処理部
1580 ステレオ信号処理部

Claims (21)

  1. 入力されたオーディオ又は音声信号を高周波数分解能信号及び/又は高時間分解能信号に変換する信号変換部と、
    前記信号変換部を制御する心理音響モデル部と、
    前記信号変換部で変換された信号を音声発声モデルに基づいて符号化する時間領域符号化部と、
    前記信号変換部及び/又は時間領域符号化部で出力された信号を量子化する量子化部と、
    を含むことを特徴とするオーディオ/音声信号の符号化装置。
  2. 前記量子化部は、相関情報が除去された信号をモデリングするためのCELP(Code Excitation Linear Prediction)を含むことを特徴とする請求項1に記載のオーディオ/音声信号の符号化装置。
  3. 入力されたオーディオ又は音声入力信号のステレオ情報を処理するステレオ信号処理部と、
    前記入力されたオーディオ又は音声信号の高周波信号を処理する高周波信号処理部と、
    前記入力されたオーディオ又は音声信号を高周波数分解能信号及び/又は高時間分解能信号に変換する信号変換部と、
    前記信号変換部を制御する心理音響モデル部と、
    前記信号変換部で変換された信号を音声発声モデルに基づいて符号化する時間領域符号化部と、
    前記信号変換部及び/又は時間領域符号化部で出力された信号を量子化する量子化部と、
    を含むことを特徴とするオーディオ/音声信号の符号化装置。
  4. 前記時間領域符号化部は、相関情報が除去された信号をモデリングするためのCELPを含むことを特徴とする請求項3に記載のオーディオ/音声信号の符号化装置。
  5. 前記量子化部はスペクトル量子化部であり、
    前記信号変換部で変換された前記オーディオ又は音声信号が高周波数分解能信号又は高時間分解能信号であるかに応じて、前記スペクトル量子化部及び前記時間領域符号化部のうちいずれか1つを選択するスイッチング部をさらに含むことを特徴とする請求項3に記載のオーディオ/音声信号の符号化装置。
  6. 前記オーディオ又は音声信号をダウンサンプリングするダウンサンプリング部をさらに含むことを特徴とする請求項3に記載のオーディオ/音声信号の符号化装置。
  7. 前記信号変換部は、FV−MLT及びMDCTのうち少なくともいずれか1つを含むことを特徴とする請求項3に記載のオーディオ/音声信号の符号化装置。
  8. 前記心理音響モデル部は、前記量子化部に量子化時のノイズに関する情報を提供することを特徴とする請求項3に記載のオーディオ/音声信号の符号化装置。
  9. 前記時間領域符号化部は、前記信号変換部で変換された信号に対して音声発声モデルを適用して符号化し、相関情報を除去する予測部をさらに含むことを特徴とする請求項3に記載のオーディオ/音声信号の符号化装置。
  10. ビットストリームに含まれた時間領域符号化又は周波数領域符号化に関する情報に基づいて、現在のフレームの信号が高周波数分解能信号又は高時間分解能信号であるかを決定する分解能判断部と、
    前記分解能判断部において、前記信号が前記高周波数分解能信号であると決定した場合、前記ビットストリームを逆量子化する逆量子化部と、
    前記ビットストリームから逆線形予測に必要な付加情報を検出し復号化した後、前記付加情報を用いて高時間分解能信号を復元する時間領域復号化部と、
    前記時間領域復号化部の出力信号及び/又は前記逆量子化部の出力信号を、時間領域のオーディオ又は音声信号に逆変換する逆信号変換部と、
    を含むことを特徴とするオーディオ/音声信号の復号化装置。
  11. 前記逆変換された信号の高周波数信号を処理する高周波信号処理部と、前記逆変換された信号のステレオ情報を処理するステレオ信号処理部のうち少なくとも1つをさらに含むことを特徴とする請求項10に記載のオーディオ/音声信号の復号化装置。
  12. 入力されたオーディオ信号又は音声信号を高周波数分解能信号及び/又は高時間分解能信号に変換する信号変換部と、
    前記信号変換部を制御する心理音響モデル部と、
    前記変換された高周波数信号及び/又は高時間信号を成形する時間ノイズ成形部と、
    前記変換された信号のステレオ情報を符号化するハイレートステレオ部と、
    前記時間ノイズ成形部及び/又はハイレートステレオ部で出力された信号を量子化する量子化部と、
    を含むことを特徴とするオーディオ/音声信号の符号化装置。
  13. 前記オーディオ又は音声信号の高周波信号を処理する高周波信号処理部をさらに含むことを特徴とする請求項12に記載のオーディオ/音声信号の符号化装置。
  14. ビットストリームを逆量子化する逆量子化部と、
    前記逆量子化された信号を復号化するハイレートステレオ復号化部と、
    前記ハイレートステレオ復号化部で復号化された信号を処理する時間ノイズ成形復号化部と、
    前記処理された信号を時間領域のオーディオ又は音声信号に逆変換する逆信号処理部と、を含み、
    前記ビットストリームは、入力されたオーディオ又は音声信号が高周波数分解能信号及び/又は高時間分解能信号に変換されて生成されたものであることを特徴とするオーディオ/音声信号の復号化装置。
  15. 前記逆変換された信号の高周波信号を処理する高周波信号処理部をさらに含む請求項14に記載のオーディオ/音声信号の復号化装置。
  16. 入力オーディオ又は音声信号を高周波数分解能信号及び/又は高時間分解能信号に変換する信号変換部と、
    前記信号変換部を制御する心理音響モデル部と、
    前記変換された信号がローレートであるか否かを判断するローレート判断部と、
    前記判断の結果前記変換された信号がローレートである場合、前記変換された信号を音声発声モデルに基づいて符号化する時間領域符号化部と、
    前記変換された信号を成形する時間ノイズ成形部と、
    前記成形された信号のステレオ情報を符号化するハイレートステレオ部と、
    前記ハイレートステレオ部の出力信号及び/又は時間領域符号化の出力信号を量子化する量子化部と、
    を含むことを特徴とするオーディオ/音声信号の符号化装置。
  17. ステレオ信号処理部と、
    選択された情報に基づいて前記ステレオ信号処理部の動作可否を判断するステレオ信号処理部判断部と、を更に含み、
    前記ステレオ信号処理部は前記ステレオ信号処理部の動作が必要であると判断された場合、入力される高周波信号のステレオ情報を処理し、
    高周波信号処理部と、
    選択された情報に基づいて前記高周波信号処理部の動作可否を判断する高周波信号処理部判断部と、を更に含み、
    前記高周波信号処理部は前記高周波信号処理部の動作が必要であると判断された場合、入力される高周波信号を処理する、
    ことを特徴とする請求項16に記載のオーディオ/音声信号の符号化装置。
  18. 入力されたオーディオ又は音声信号を高周波数分解能信号及び/又は高時間分解能信号に変換し、心理音響モデリングに応じて制御するステップと、
    前記変換された信号を音声発声モデルに基づいて時間領域符号化するステップと、
    前記変換された信号及び/又は前記時間領域符号化された信号を量子化するステップと、
    を含むことを特徴とするオーディオ/音声信号の符号化方法。
  19. ビットストリームに含まれた時間領域符号化又は周波数領域符号化に関する情報に基づいて、現在のフレームの信号が高周波数分解能信号又は高時間分解能信号であるかを決定するステップと、
    前記信号が前記高周波数分解能信号であると決定した場合、前記ビットストリームを逆量子化するステップと、
    前記ビットストリームから逆線形予測に必要な付加情報を検出し復号化した後、前記付加情報を用いて高時間分解能信号を復元するステップと、
    前記復元された信号及び/又は前記逆量子化された信号を時間領域のオーディオ又は音声信号に逆変換するステップと、
    を含むことを特徴とするオーディオ/音声信号の復号化方法。
  20. 少なくとも1つのオーディオ信号及び少なくとも1つの音声信号を受信するステップと、
    前記少なくとも1つの受信されたオーディオ信号及び前記少なくとも1つの受信された音声信号を少なくとも1つの周波数分解能信号及び少なくとも1つの時間分解能信号に変換するステップと、
    前記変換された信号を符号化するステップと、
    前記変換された信号及び前記符号化された信号のうち少なくとも1つを量子化するステップと、
    を含むことを特徴とするオーディオ/音声信号の符号化方法。
  21. 受信された信号のビットストリームに含まれた時間領域符号化又は周波数領域符号化に関する情報に基づいて、現在のフレームの信号が周波数分解能信号又は時間分解能信号であるかを決定するステップと、
    前記受信された信号が前記周波数分解能信号である場合、前記ビットストリームを逆量子化するステップと、
    前記ビットストリームの前記情報から逆線形予測を行って、前記情報を用いて前記時間分解能信号を復元するステップと、
    前記逆量子化された信号及び前記復元された時間分解能信号のうち少なくとも1つを時間領域のオーディオ信号又は音声信号に逆変換するステップと、
    を含むことを特徴とするオーディオ/音声信号の復号化方法。
JP2011518646A 2008-07-14 2009-07-14 オーディオ/音声信号の符号化及び復号化方法とその装置 Pending JP2011528135A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1020080068377A KR101756834B1 (ko) 2008-07-14 2008-07-14 오디오/스피치 신호의 부호화 및 복호화 방법 및 장치
KR10-2008-0068377 2008-07-14
PCT/KR2009/003870 WO2010008185A2 (en) 2008-07-14 2009-07-14 Method and apparatus to encode and decode an audio/speech signal

Publications (1)

Publication Number Publication Date
JP2011528135A true JP2011528135A (ja) 2011-11-10

Family

ID=41505940

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011518646A Pending JP2011528135A (ja) 2008-07-14 2009-07-14 オーディオ/音声信号の符号化及び復号化方法とその装置

Country Status (10)

Country Link
US (3) US8532982B2 (ja)
EP (1) EP2313888A4 (ja)
JP (1) JP2011528135A (ja)
KR (1) KR101756834B1 (ja)
CN (3) CN102150202B (ja)
BR (1) BRPI0916449A8 (ja)
IL (1) IL210664A (ja)
MX (1) MX2011000557A (ja)
MY (1) MY154100A (ja)
WO (1) WO2010008185A2 (ja)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090006081A1 (en) * 2007-06-27 2009-01-01 Samsung Electronics Co., Ltd. Method, medium and apparatus for encoding and/or decoding signal
KR101756834B1 (ko) 2008-07-14 2017-07-12 삼성전자주식회사 오디오/스피치 신호의 부호화 및 복호화 방법 및 장치
TWI433137B (zh) * 2009-09-10 2014-04-01 Dolby Int Ab 藉由使用參數立體聲改良調頻立體聲收音機之聲頻信號之設備與方法
US20110087494A1 (en) * 2009-10-09 2011-04-14 Samsung Electronics Co., Ltd. Apparatus and method of encoding audio signal by switching frequency domain transformation scheme and time domain transformation scheme
CA3125378C (en) 2010-04-09 2023-02-07 Dolby International Ab Audio upmixer operable in prediction or non-prediction mode
CN105493182B (zh) 2013-08-28 2020-01-21 杜比实验室特许公司 混合波形编码和参数编码语音增强
CN103473836B (zh) * 2013-08-30 2015-11-25 福建星网锐捷通讯股份有限公司 一种面向安全的具有声音变调功能的室内机及其智能楼宇对讲系统
US9685166B2 (en) 2014-07-26 2017-06-20 Huawei Technologies Co., Ltd. Classification between time-domain coding and frequency domain coding
CN105957533B (zh) * 2016-04-22 2020-11-10 杭州微纳科技股份有限公司 语音压缩方法、语音解压方法及音频编码器、音频解码器
US10141009B2 (en) 2016-06-28 2018-11-27 Pindrop Security, Inc. System and method for cluster-based audio event detection
US9824692B1 (en) 2016-09-12 2017-11-21 Pindrop Security, Inc. End-to-end speaker recognition using deep neural network
WO2018053537A1 (en) 2016-09-19 2018-03-22 Pindrop Security, Inc. Improvements of speaker recognition in the call center
WO2018053531A1 (en) 2016-09-19 2018-03-22 Pindrop Security, Inc. Dimensionality reduction of baum-welch statistics for speaker recognition
CA3179080A1 (en) 2016-09-19 2018-03-22 Pindrop Security, Inc. Channel-compensated low-level features for speaker recognition
US10397398B2 (en) 2017-01-17 2019-08-27 Pindrop Security, Inc. Authentication using DTMF tones
CN108768587B (zh) * 2018-05-11 2021-04-27 Tcl华星光电技术有限公司 编码方法、设备及可读存储介质
WO2020159917A1 (en) 2019-01-28 2020-08-06 Pindrop Security, Inc. Unsupervised keyword spotting and word discovery for fraud analytics
US11019201B2 (en) 2019-02-06 2021-05-25 Pindrop Security, Inc. Systems and methods of gateway detection in a telephone network
WO2020164753A1 (en) 2019-02-13 2020-08-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder and decoding method selecting an error concealment mode, and encoder and encoding method
US11646018B2 (en) 2019-03-25 2023-05-09 Pindrop Security, Inc. Detection of calls from voice assistants
US12015637B2 (en) 2019-04-08 2024-06-18 Pindrop Security, Inc. Systems and methods for end-to-end architectures for voice spoofing detection
CN111341330B (zh) * 2020-02-10 2023-07-25 科大讯飞股份有限公司 音频编解码方法、存取方法及其相关设备及存储装置
WO2022046155A1 (en) * 2020-08-28 2022-03-03 Google Llc Maintaining invariance of sensory dissonance and sound localization cues in audio codecs

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08204576A (ja) * 1995-01-27 1996-08-09 Victor Co Of Japan Ltd 信号符号化装置及び信号復号化装置
JP2003525473A (ja) * 2000-02-29 2003-08-26 クゥアルコム・インコーポレイテッド 閉ループのマルチモードの混合領域の線形予測音声コーダ
JP2004004710A (ja) * 2002-04-11 2004-01-08 Matsushita Electric Ind Co Ltd 符号化装置および復号化装置
JP2006011456A (ja) * 2004-06-25 2006-01-12 Samsung Electronics Co Ltd 低ビット率符号化/復号化方法及び装置並びにコンピュータ可読媒体
WO2007066970A1 (en) * 2005-12-07 2007-06-14 Samsung Electronics Co., Ltd. Method, medium, and apparatus encoding and/or decoding an audio signal

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5651090A (en) * 1994-05-06 1997-07-22 Nippon Telegraph And Telephone Corporation Coding method and coder for coding input signals of plural channels using vector quantization, and decoding method and decoder therefor
JP3342996B2 (ja) * 1995-08-21 2002-11-11 三星電子株式会社 多チャネルオーディオ符号化器及び符号化方法
JP3522012B2 (ja) 1995-08-23 2004-04-26 沖電気工業株式会社 コード励振線形予測符号化装置
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
DE19730129C2 (de) * 1997-07-14 2002-03-07 Fraunhofer Ges Forschung Verfahren zum Signalisieren einer Rauschsubstitution beim Codieren eines Audiosignals
US6704705B1 (en) * 1998-09-04 2004-03-09 Nortel Networks Limited Perceptual audio coding
CA2356869C (en) * 1998-12-28 2004-11-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and devices for coding or decoding an audio signal or bit stream
US6947888B1 (en) 2000-10-17 2005-09-20 Qualcomm Incorporated Method and apparatus for high performance low bit-rate coding of unvoiced speech
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
US7240001B2 (en) * 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
CN1308913C (zh) * 2002-04-11 2007-04-04 松下电器产业株式会社 编码设备、解码设备及其方法
US7330812B2 (en) * 2002-10-04 2008-02-12 National Research Council Of Canada Method and apparatus for transmitting an audio stream having additional payload in a hidden sub-channel
JP2005141121A (ja) * 2003-11-10 2005-06-02 Matsushita Electric Ind Co Ltd オーディオ再生装置
EP1719115A1 (en) 2004-02-17 2006-11-08 Koninklijke Philips Electronics N.V. Parametric multi-channel coding with improved backwards compatibility
WO2005096273A1 (en) * 2004-04-01 2005-10-13 Beijing Media Works Co., Ltd Enhanced audio encoding/decoding device and method
CN1677490A (zh) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
WO2005096508A1 (en) 2004-04-01 2005-10-13 Beijing Media Works Co., Ltd Enhanced audio encoding and decoding equipment, method thereof
KR101037931B1 (ko) 2004-05-13 2011-05-30 삼성전자주식회사 2차원 데이터 처리를 이용한 음성 신호 압축 및 복원장치와 그 방법
CN101010726A (zh) * 2004-08-27 2007-08-01 松下电器产业株式会社 音频解码器、方法以及程序
KR20070056081A (ko) * 2004-08-31 2007-05-31 마츠시타 덴끼 산교 가부시키가이샤 스테레오 신호 생성 장치 및 스테레오 신호 생성 방법
US7548853B2 (en) 2005-06-17 2009-06-16 Shmunk Dmitry V Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
CN100561576C (zh) * 2005-10-25 2009-11-18 芯晟(北京)科技有限公司 一种基于量化信号域的立体声及多声道编解码方法与系统
KR100647336B1 (ko) * 2005-11-08 2006-11-23 삼성전자주식회사 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법
ATE429118T1 (de) * 2005-12-16 2009-05-15 Dolby Sweden Ab Vorrichtung zum erzeugen und interpretieren eines datenstroms mit einer reihe von segmenten unter verwendung von daten in nachfolgenden datenrahmen
US7809018B2 (en) * 2005-12-16 2010-10-05 Coding Technologies Ab Apparatus for generating and interpreting a data stream with segments having specified entry points
CN101136202B (zh) * 2006-08-29 2011-05-11 华为技术有限公司 音频信号处理系统、方法以及音频信号收发装置
KR101434198B1 (ko) * 2006-11-17 2014-08-26 삼성전자주식회사 신호 복호화 방법
KR100964402B1 (ko) 2006-12-14 2010-06-17 삼성전자주식회사 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치
KR100883656B1 (ko) 2006-12-28 2009-02-18 삼성전자주식회사 오디오 신호의 분류 방법 및 장치와 이를 이용한 오디오신호의 부호화/복호화 방법 및 장치
MY146431A (en) * 2007-06-11 2012-08-15 Fraunhofer Ges Forschung Audio encoder for encoding an audio signal having an impulse-like portion and stationary portion, encoding methods, decoder, decoding method, and encoded audio signal
US7761290B2 (en) * 2007-06-15 2010-07-20 Microsoft Corporation Flexible frequency and time partitioning in perceptual transform coding of audio
US8046214B2 (en) * 2007-06-22 2011-10-25 Microsoft Corporation Low complexity decoder for complex transform coding of multi-channel sound
US7885819B2 (en) * 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
CN101802907B (zh) * 2007-09-19 2013-11-13 爱立信电话股份有限公司 多信道音频的联合增强
US8831936B2 (en) * 2008-05-29 2014-09-09 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
KR101756834B1 (ko) * 2008-07-14 2017-07-12 삼성전자주식회사 오디오/스피치 신호의 부호화 및 복호화 방법 및 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08204576A (ja) * 1995-01-27 1996-08-09 Victor Co Of Japan Ltd 信号符号化装置及び信号復号化装置
JP2003525473A (ja) * 2000-02-29 2003-08-26 クゥアルコム・インコーポレイテッド 閉ループのマルチモードの混合領域の線形予測音声コーダ
JP2004004710A (ja) * 2002-04-11 2004-01-08 Matsushita Electric Ind Co Ltd 符号化装置および復号化装置
JP2006011456A (ja) * 2004-06-25 2006-01-12 Samsung Electronics Co Ltd 低ビット率符号化/復号化方法及び装置並びにコンピュータ可読媒体
WO2007066970A1 (en) * 2005-12-07 2007-06-14 Samsung Electronics Co., Ltd. Method, medium, and apparatus encoding and/or decoding an audio signal

Also Published As

Publication number Publication date
US9355646B2 (en) 2016-05-31
US20140012589A1 (en) 2014-01-09
IL210664A0 (en) 2011-03-31
BRPI0916449A8 (pt) 2017-11-28
WO2010008185A3 (en) 2010-05-27
US8532982B2 (en) 2013-09-10
KR101756834B1 (ko) 2017-07-12
CN102150202A (zh) 2011-08-10
EP2313888A2 (en) 2011-04-27
US20100010807A1 (en) 2010-01-14
US9728196B2 (en) 2017-08-08
CN105913851B (zh) 2019-12-24
CN105913851A (zh) 2016-08-31
IL210664A (en) 2014-07-31
CN102150202B (zh) 2016-08-03
MY154100A (en) 2015-04-30
WO2010008185A2 (en) 2010-01-21
CN105957532A (zh) 2016-09-21
EP2313888A4 (en) 2016-08-03
MX2011000557A (es) 2011-03-15
US20160254005A1 (en) 2016-09-01
CN105957532B (zh) 2020-04-17
KR20100007651A (ko) 2010-01-22

Similar Documents

Publication Publication Date Title
JP2011528135A (ja) オーディオ/音声信号の符号化及び復号化方法とその装置
JP6067601B2 (ja) 音声/音楽統合信号の符号化/復号化装置
JP6170520B2 (ja) オーディオ及び/またはスピーチ信号符号化及び/または復号化方法及び装置
KR101373004B1 (ko) 고주파수 신호 부호화 및 복호화 장치 및 방법
CN106796800B (zh) 音频编码器、音频解码器、音频编码方法和音频解码方法
CN1244907C (zh) 宽带语音编解码器中的高频增强层编码方法和装置
KR101221919B1 (ko) 오디오 신호 처리 방법 및 장치
CN101836253B (zh) 一种使用频谱倾斜控制成帧技术来计算带宽扩展数据的装置及方法
KR101435893B1 (ko) 대역폭 확장 기법 및 스테레오 부호화 기법을 이용한오디오 신호의 부호화/복호화 방법 및 장치
CN103180899B (zh) 立体声信号的编码装置、解码装置、编码方法及解码方法
KR20070002068A (ko) 음성 신호 코딩
WO2013168414A1 (ja) 音信号ハイブリッドエンコーダ、音信号ハイブリッドデコーダ、音信号符号化方法、及び音信号復号方法
KR101216098B1 (ko) 신호 처리 방법 및 장치
KR20090013571A (ko) 변환 부호화 방법 및 장치
KR101847076B1 (ko) 오디오/스피치 신호의 부호화 및 복호화 방법 및 장치
KR20080092823A (ko) 부호화/복호화 장치 및 방법
KR100587613B1 (ko) 오디오 신호 코딩장치 및 코딩방법
KR20050058024A (ko) 오디오 신호 코딩장치 및 코딩방법
KR20080034817A (ko) 부호화/복호화 장치 및 방법
HK1102036B (en) A module and a method for processing audio signals
KR20080114458A (ko) 신호 부호화 및 복호화 방법 및 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120713

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130523

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130604

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130904

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20131001

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131204

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140604

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20140612

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20140808