[go: up one dir, main page]

WO2012004998A1 - スペクトル係数コーディングの量子化パラメータを効率的に符号化する装置及び方法 - Google Patents

スペクトル係数コーディングの量子化パラメータを効率的に符号化する装置及び方法 Download PDF

Info

Publication number
WO2012004998A1
WO2012004998A1 PCT/JP2011/003884 JP2011003884W WO2012004998A1 WO 2012004998 A1 WO2012004998 A1 WO 2012004998A1 JP 2011003884 W JP2011003884 W JP 2011003884W WO 2012004998 A1 WO2012004998 A1 WO 2012004998A1
Authority
WO
WIPO (PCT)
Prior art keywords
zero vector
parameter
zero
unit
vector region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP2011/003884
Other languages
English (en)
French (fr)
Inventor
ゾンシアン リウ
正浩 押切
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Original Assignee
Panasonic Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp filed Critical Panasonic Corp
Priority to US13/807,129 priority Critical patent/US9240192B2/en
Priority to JP2012523770A priority patent/JP5629319B2/ja
Publication of WO2012004998A1 publication Critical patent/WO2012004998A1/ja
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio

Definitions

  • the time-domain signal S (n) is converted into a frequency-domain signal using a time-frequency conversion method (101) such as discrete Fourier transform (DFT) or modified discrete cosine transform (MDCT). Converted to S (f).
  • a time-frequency conversion method (101) such as discrete Fourier transform (DFT) or modified discrete cosine transform (MDCT). Converted to S (f).
  • the decoded frequency domain signal S 1- (f) is used to restore the decoded time domain signal S 1- (n), such as an inverse discrete Fourier transform (IDFT) or an inverse modified discrete cosine transform (IMDCT).
  • IDFT inverse discrete Fourier transform
  • IMDCT inverse modified discrete cosine transform
  • TCX In TCX [2], the residual / excitation signal is efficiently transformed and encoded in the frequency domain.
  • Some popular TCX codecs are 3GPP AMR-WB + and MPEG USAC. A simple configuration of the TCX codec is shown in FIG.
  • bit stream information is demultiplexed in (208).
  • FIG. 4 illustrates a simple configuration using split multi-rate vector quantization in the TCX codec.
  • a bitstream is usually formed in two ways. The first method is illustrated in FIG. 7, and the second method is illustrated in FIG.
  • the input signal S (f) is first divided into a certain number of vectors.
  • the global gain is then obtained by the number of bits available and the energy level of the spectrum.
  • the global gain is quantized by a scalar quantizer and S (f) / G is quantized by a multirate lattice vector quantizer.
  • the global gain index forms the first part, all codebook indication values are grouped together to form the second part, and all the indices in the code vector are one. Group together to form the last part.
  • the part If the number of zero vectors in the part is larger than Threshold, the part is classified as a zero vector region. Otherwise, a certain number of zero vectors and a certain number of adjacent non-zero vectors are congruent and classified as a non-zero vector region.
  • the indication value in the zero vector area can be designed in various ways, with the only requirement that the indication value can be identified on the decoder side.
  • the parameter to be transmitted is 1) Global gain quantization index 2) Codebook indication values for all vectors in the non-zero vector region 3) Code vector index for each of all vectors in the non-zero vector domain 4) Zero vector region indication value 5) Index (end index) of the end vector of the zero vector region (or the number of zero vectors in the zero vector region).
  • Threshold is determined by equation 3.
  • bit savings are achieved by the method proposed in the present invention (Bits save > 0).
  • time-domain signal S (n) is converted into a frequency-domain signal using a time-frequency conversion method (1001) such as discrete Fourier transform (DFT) or modified discrete cosine transform (MDCT). Converted to S (f).
  • a time-frequency conversion method such as discrete Fourier transform (DFT) or modified discrete cosine transform (MDCT). Converted to S (f).
  • all bit stream information is demultiplexed in (107).
  • the decoded frequency domain signal S 1- (f) is used to restore the decoded time domain signal S 1- (n), such as an inverse discrete Fourier transform (IDFT) or an inverse modified discrete cosine transform (IMDCT).
  • IDFT inverse discrete Fourier transform
  • IMDCT inverse modified discrete cosine transform
  • FIG. 11 and FIG. 12 illustrate the proposed implementation method of spectrum cluster analysis and codebook indication value encoder.
  • This method has 5 steps, and each step is illustrated with a drawing. In this illustration, there are a total of 22 vectors, and the vector index starts at 0 and ends at 21.
  • FIG. 13 shows an indication value table of the conventional split multi-rate lattice VQ and an indication value table of the method according to the present invention.
  • the indicated value of the zero vector region it can be seen that use of the indicated value were instructed Q 6 codebook.
  • a 2-bit codebook is used to quantize the possible Index_end. Therefore, the total number of bits used for the zero vector region is 8.
  • the codebook uses the indicated value of Qn + 1 (n 3 6), that is, the number of consumed bits is one bit greater than the original indicated value.
  • the representative value is determined by the following equation.
  • the total number of bits consumed for encoding all codebook indication values by the original method is as follows.
  • the total number of bits consumed for encoding all codebook indication values by the original method is as follows.
  • the Q0 instruction value of each zero vector is not transmitted, but the instruction value of the zero vector area and the quantized value of the end vector index (denoted as the end index) of the zero vector area are transmitted. .
  • the value of the end index is quantized by a code book—the number of representative values is indicated as N.
  • the range of possible values for the end index is divided into N parts. The minimum value in each part is selected as the representative value for that part.
  • the number of zero vectors is quantized as a scalar multiple of the value of the start index. It is desirable to learn the scalar value in advance so that each scalar value is represented by one of the code vectors in the codebook.
  • This embodiment has the advantage that it is possible to avoid rearranging the bitstreams in reverse order and the complexity is reduced.
  • the range of possible values of Index_end is from Min to Max.
  • Table 1 is a conventional instruction table
  • Table 2 is a zero vector area instruction table in the first embodiment. Even if the input signal has M (M> 1) vectors quantized by Qn (n 3 6) and there is no zero vector region, the maximum number of bits wasted compared to the conventional method is 1. One bit is consumed to indicate which table is used for the entire spectrum, so that there are only bits.
  • the global gain index, code vector index, and new codebook indication value are multiplexed (2509) and transmitted to the decoder side.
  • the feature of this embodiment is that the spectrum cluster analysis method is applied to hierarchical coding (hierarchical coding, embedded coding) of CELP and transform coding.
  • the codebook indication value is sent to the spectrum cluster analysis (2605). Information on the low density state of the spectrum is extracted by spectral cluster analysis and this information is used to convert the codebook indication value to another set of codebook indication values (2606).
  • the encoding and decoding process is almost the same as in the eighth embodiment except that the global gain index or the global gain itself is sent from the split multirate to the adaptive gain quantization block (2706). Rather than directly quantizing the global gain, the adaptive gain quantization method quantizes with the composite signal and split multirate lattice vector quantization so that the global gain can be more efficiently quantized over a smaller range. The relationship with the coding error signal to be used is used.
  • Step 1 Search for the maximum absolute value syn_max of the combined signal S syn (f).
  • Step 4 Transmit Index2-index1 within the narrowed range (preferably, the narrowed range is learned in advance using various signal sequences).
  • Embodiment 1 bits saved by the method proposed in Embodiment 1 are used to improve gain precision by applying adaptive vector gain correction to the global gain (2906). Is almost the same as in the first embodiment.
  • the spectrum cluster analysis (SCA) method can be applied to a codec that encodes a spectrum coefficient sequence in units of multiple frames (or in units of multiple subframes).
  • the bits saved by the SCA can be stored and used to encode the spectral coefficient sequence or some other parameter sequence in the next encoding stage.
  • bits saved from the spectrum cluster analysis can be used for FEC (frame erasure concealment) so that sound quality can be maintained in frame loss situations.
  • the present invention is also applicable to a case where a single processing program is actually used after recording or writing on a mechanically readable recording medium such as a memory, a disk, a tape, a CD, and a DVD. Thereby, the same operation and effect as the embodiment described here can be provided.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

 本発明は、スプリット・マルチレート格子ベクトル量子化の量子化パラメータを効率的に符号化するための装置と方法を発表する。本発明では、スプリット・マルチレート・ベクトル量子化されたスペクトルのスペクトル分析を行なうことによって、上記スペクトルは零ベクトル領域と非零ベクトル領域に分割される。零ベクトル領域については、零ベクトル各々の一連の指示値を送信する代わり、零ベクトル領域の指示値とその零ベクトル領域中の末尾のベクトルのインデックス(またはその零ベクトル領域中の零ベクトルの数)の量子化値が送信される。零ベクトル領域の指示値は、指示値が復号器側で識別できることを唯一の必要条件として、様々に設計可能である。終了インデックスまたは零ベクトルの数は、適応的に設計されたコードブックによって量子化され得る。本発明による方法を適用することによって、コードブック指示値の中から数ビットを節減できる。

Description

スペクトル係数コーディングの量子化パラメータを効率的に符号化する装置及び方法
 本発明は、ベクトル量子化を使用したオーディオ/音声符号化装置、オーディオ/音声復号装置及び オーディオ/音声符号化及び復号方法に関係する。
 オーディオ及び音声の符号化においては、変換符号化と線形予測符号化という二つの主要な符号化手法の形式がある。
 変換符号化は、離散フーリエ変換(DFT)または修正離散コサイン変換(MDCT)を使用するなどして、時間領域からスペクトル領域への信号の変換を行なう。個々のスペクトル係数が量子化され、符号化される。量子化または符号化の処理では、個々のスペクトル係数の知覚的重要度を決定するために、通常、心理音響モデルが適用され、そして個々のスペクトル係数は、それらの知覚的重要度に応じて量子化または符号化される。普及している変換コーデックをいくつか挙げると、MPEG MP3、MPEG AAC[1]及び Dolby AC3がある。変換符号化は、音楽または一般のオーディオ信号に対して有効である。変換コーデックの簡略な構成を図1に示す。
 図1に例示した符号器では、離散フーリエ変換(DFT)または修正離散コサイン変換(MDCT)などの時間-周波数変換方式(101)を用いて、時間領域の信号S(n)が周波数領域の信号S(f)に変換される。
 マスキング曲線を得るために、周波数領域の信号S(f)に対して心理音響モデル分析が行なわれる(103)。量子化ノイズが不可聴であることを確実にするように、心理音響モデル分析から得られたマスキング曲線に従って、周波数領域の信号S(f)に対して量子化が適用される(102)。
 個々の量子化パラメータは多重化され(104)、復号器側へ送信される。
 図1に例示した復号器では、最初に、すべてのビットストリーム情報が(105)において多重分離される。量子化パラメータは、復号された周波数領域の信号S(f)を復元するように逆量子化される(106)。
 復号された周波数領域の信号S(f)は、復号された時間領域の信号S(n)を復元するように、逆離散フーリエ変換(IDFT)または逆修正離散コサイン変換(IMDCT)などの周波数-時間変換方式(107)を用いて、時間領域へ戻すように変換される。
 一方、線形予測符号化は、時間領域における音声信号の予測可能な性質を利用し、入力された音声信号に対して線形予測を適用することによって残差/励起信号を得る。音声ピッチ周期の倍数である時間シフトにわたり共鳴効果と高類似度を有する、特に有声範囲の音声信号に対して、このモデル化は音声の非常に効率的な表現をもたらす。線形予測の後、残差/励起信号が、主に、TCXとCELPという二つの異なる方式によって符号化される。
 TCX[2]では、残差/励起信号は、周波数領域において効率的に変換され、符号化される。普及しているTCXコーデックをいくつか挙げると、3GPP AMR―WB+やMPEG USACがある。TCXコーデックの簡略な構成を図2に示す。 
 図2に例示した符号器では、時間領域における信号の予測可能な性質を利用するために、入力信号に対してLPC分析が行なわれる(201)。LPC分析から生じた個々のLPC係数が量子化され(202)、量子化インデックスが多重化されて(207)、復号器側へ送信される。逆量子化モジュール(203)からの逆量子化されたLPC係数を用いて、入力信号S(n)に対してLPC逆フィルタリングをかけることによって残差(励起)信号S(n)が得られる(204)。
 離散フーリエ変換(DET)または修正離散コサイン変換(MDCT)などの時間-周波数変換方式(205)を用いて、残差信号S(n)は周波数領域の信号S(f)に変換される。
 S(f)に対して量子化が適用され(206)、個々の量子化パラメータが多重化されて(207)、復号器側へ送信される。
 図2に例示した復号器では、最初に、ビットストリーム情報が(208)において多重分離される。
 量子化パラメータは、復号された周波数領域の残差信号S (f)を復元するように逆量子化される(210)。
 復号された周波数領域の残差信号S (f)は、復号された時間領域の残差信号S (n)を復元するように、逆離散フーリエ変換(IDFT)または逆修正離散コサイン変換(IMDCT)などの周波数-時間変換方式(211)を用いて、時間領域へ戻すように変換される。
 逆量子化モジュール(209)からの逆量子化されたLPCパラメータを用いて、復号された時間領域の残差信号S (n)はLPC合成フィルタ(212)によって処理されて、復号された時間領域の信号S(n)を得る。
 CELP符号化では、残差/励起信号は、何らかの所定のコードブックを使用して量子化される。そして音声品質をさらに向上させるために、元の信号とLPC合成後の信号との差分信号を周波数領域に変換してさらに符号化することがよく行なわれる。普及しているCELPコーデックをいくつか挙げると、ITU-T G.729.1 [3]やITU-T G.718 [4]がある。CELPと変換符号化の階層的符号化(階層符号化、エンベディッド符号化)の簡略な構成を図3に示す。
 図3に例示した符号器では、時間領域における信号の予測可能な性質を利用するために、入力信号に対してCELP符号化が行なわれる(301)。CELPパラメータを用いて、CELPローカル復号器(302)によって合成信号Ssyn(n)が復元される。予測誤差信号S(n)(入力信号と合成信号の差)が、入力信号から合成信号を引き算することによって得られる。
 離散フーリエ変換 (DFT)または修正離散コサイン変換(MDCT)などの時間-周波数変換方式(303)を用いて、予測誤差信号S(n)は周波数領域の信号S(f)に変換される。
 S(f)に対して量子化が適用され(304)、個々の量子化パラメータが多重化されて(305)、復号器側へ送信される。
 図3に例示した復号器では、最初に、すべてのビットストリーム情報が(306)において多重分離される。
 量子化パラメータは、復号された周波数領域の残差信号S (f)を復元するように逆量子化される(308)。
 復号された周波数領域の残差信号S (f)は、復号された時間領域の残差信号S (n)を復元するように、逆離散フーリエ変換(IDFT)または逆修正離散コサイン変換(IMDCT)などの周波数-時間変換方式(309)を用いて、時間領域へ戻すように変換される。
 CELPパラメータを用いて、CELP復号器は合成信号Ssyn(n)を復元し(307)、復号された時間領域の信号S(n)が、CELP合成信号Ssyn(n)と復号された予測誤差信号S (n)を加算することによって復元される。
 変換符号化及び線形予測符号化における変換符号化部は、通常、何らかの量子化法を利用することによって実行される。 
 ベクトル量子化法の一つは、スプリット・マルチレート格子VQまたは代数的VQ(AVQ)と名付けられている[5]。AMR―WB+[6]では、スプリット・マルチレート格子VQが、TCX領分におけるLPCの残差を量子化するために使用される(図4に示すように)。新たに標準化された音声コーデックであるITU―T G.718においても、スプリット・マルチレート格子VQが、MDCT領分におけるLPCの残差を第3の残差符号化層として量子化するために使用される。
 スプリット・マルチレート格子VQは、格子量子化器に基づいたベクトル量子化法である。具体的に、AMR―WB+[6]で使用されるスプリット・マルチレート格子VQの場合には、RE8格子と呼ばれるGosset格子のサブセットにより構成されるベクトル・コードブックを使用して、スペクトルが8個のスペクトル係数のブロックを単位として量子化される([5]を参照)。
 任意の格子のすべての点は、その格子のいわゆる2乗生成マトリクスGから、c=s・G(ここで、sは個々の整数値を含む線ベクトルであり、cは生成される格子点である)として生成可能である。
 ある定められたレート(比率)でのベクトル・コードブックを作るためには、ある定められた半径のある範囲(8次元)内の格子点のみが採取される。マルチレート・コードブックは、したがって、それぞれ異なる半径の範囲内の格子点の各サブセットを採取することによって作成され得る。 
 TCXコーデックにおいてスプリット・マルチレート・ベクトル量子化を利用した簡略な構成を図4に例示する。
 図4に例示した符号器では、時間領域における信号の予測可能な性質を利用するために、入力信号に対してLPC分析が行なわれる(401)。LPC分析から生じた個々のLPC係数が量子化され(402)、量子化インデックスが多重化されて(407)、復号器側へ送信される。逆量子化モジュール(403)からの逆量子化されたLPC係数を用いて、入力信号S(n)に対してLPC逆フィルタリングをかけることによって残差(励起)信号S(n)が得られる(404)。
 離散フーリエ変換(DET)または修正離散コサイン変換(MDCT)などの時間-周波数変換方式(405)を用いて、残差信号S(n)は周波数領域の信号S(f)に変換される。
 スプリット・マルチレート格子ベクトル量子化法がS(f)に対して適用され(406)、個々の量子化パラメータが多重化されて(407)、復号器側へ送信される。
 図4に例示した復号器では、最初に、すべてのビットストリーム情報が(408)において多重分離される。 
 量子化パラメータは、復号された周波数領域の残差信号S (f)を復元するように、スプリット・マルチレート格子ベクトル逆量子化法によって逆量子化される(410)。
 復号された周波数領域の残差信号S (f)は、復号された時間領域の残差信号S (n)を復元するように、逆離散フーリエ変換(IDFT)または逆修正離散コサイン変換(IMDCT)などの周波数-時間変換方式(411)を用いて、時間領域へ戻すように変換される。
 逆量子化モジュール(409)からの逆量子化されたLPCパラメータを用いて、復号された時間領域の残差信号S (n)はLPC合成フィルタ(412)によって処理されて、復号された時間領域の信号S(n)を得る。
 図5は、スプリット・マルチレート格子VQの処理を例示する。入力スペクトルS(f)は、最初に、ある数の8次元のブロック(またはベクトル)に分割され(501)、各ブロック(ベクトル)がマルチレート格子ベクトル量子化法によって量子化される(502)。量子化ステップにおいて、スペクトル全体の使用可能なビット数とエネルギー・レベルにより、グローバル利得が最初に計算される。次に、各ブロック(またはベクトル)ごとに、元のスペクトルとグローバル利得との間の比率がそれぞれ異なるコードブックによって量子化される。スプリット・マルチレート格子VQの個々の量子化パラメータは、グローバル利得の量子化インデックス、各ブロック(またはベクトル)についてのコードブック指示値及び各ブロック(またはベクトル)についてのコードベクトル・インデックスである。
 図6は、AMR―WB+[6]で採用されたスプリット・マルチレート格子VQのコードブックのリストの概要を示す。この表では、コードブックQ、Q、QまたはQが、基本コードブックである。ある格子点がこれらの基本コードブックに含まれていない場合には、基本コードブックのQまたはQ部分のみを使用して、Voronoi拡張[7]が適用される。例として、この表中で、Q5はQ3のVoronoi拡張であり、 Q6はQ4のVoronoi拡張である。
 各コードブックは、ある数のコードベクトルからなる。コードブック中のコードベクトル・インデックスは、あるビット数で表現される。このビット数は、下に示す式1によって得られる。
Figure JPOXMLDOC01-appb-M000001
 コードブックQ0には、一つのベクトル、零ベクトルしかなく、零ベクトルはベクトルの量子化値が0であることを意味する。したがって、コードベクトル・インデックスのために必要とされるビットはない。
 スプリット・マルチレート格子VQの量子化パラメータの3つのセット、すなわち、グローバル利得のインデックス、コードブックの指示値及びコードベクトルのインデックスがある。ビットストリーム は、通常、二つの方法で形成される。第1の方法を図7に例示し、第2の方法を図8に例示する。
 図7では、入力信号S(f)は最初にある数のベクトルに分割される。次に、当該スペクトルの使用可能なビット数とエネルギー・レベルにより、グローバル利得が得られる。グローバル利得はスカラー量子化器によって量子化され、S(f)/Gがマルチレート格子ベクトル量子化器によって量子化される。ビットストリームが形成されるとき、グローバル利得のインデックスが第1の部分を形成し、すべてのコードブック指示値が一グループにまとめられて第2の部分を形成し、コードベクトルのすべてのインデックスが一グループにまとめられて最後の部分を形成する。
 図8では、入力信号S(f)は最初にある数のベクトルに分割される。次に、当該スペクトルの使用可能なビット数とエネルギー・レベルにより、グローバル利得が得られる。グローバル利得はスカラー量子化器によって量子化され、S(f)/Gがマルチレート格子ベクトル量子化器によって量子化される。ビットストリームが形成されるとき、グローバル利得のインデックスが第1の部分を形成し、各ベクトルについてのコードブック指示値とそれに続くコードベクトル・インデックスが第2の部分を形成することになる。
Karl Heinz Brandenburg, "MP3 and AAC Explained", AES 17th International Conference, Florence, Italy, September 1999. Lefebvre, et al., "High quality coding of wideband audio signals using transform coded excitation (TCX)", IEEE International Conference on Acoustics, Speech, and Signal Processing, vol. 1, pp. I/193-I/196, Apr. 1994 ITU-T Recommendation G.729.1 (2007) "G.729-based embedded variable bit-rate coder: An 8-32kbit/s scalable wideband coder bitstream interoperable with G.729" T. Vaillancourt et al, "ITU-T EV-VBR: A Robust 8-32 kbit/s Scalable Coder for Error Prone Telecommunication Channels", in Proc. Eusipco, Lausanne, Switzerland, August 2008 M. Xie and J.-P. Adoul, "Embedded algebraic vector quantization (EAVQ) with application to wideband audio coding," IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Atlanta, GA, U.S.A, 1996, vol. 1, pp. 240-243 3GPP TS 26.290 "Extended AMR Wideband Speech Codec (AMR-WB+)" S. Ragot, B. Bessette and R. Lefebvre, "Low-complexity Multi-Rate Lattice Vector Quantization with Application to Wideband TCX Speech Coding at 32kbit/s," Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Montreal, QC, Canada, May, 2004, vol. 1, pp. 501-504
 使用可能なビット数が多くない場合、または量子化されるスペクトルのエネルギーがある周波数帯域に集中している場合、多数のベクトルが0(零ベクトル)として量子化されるため、復号されたスペクトル中に多数の零ベクトルを生じさせる、つまり、スペクトルが非常に低密度な状態になる。
 先行技術では、コードブック指示値とコードベクトル・インデックスは2進数に直接変換され、ビットストリームを形成する。
 したがって、すべてのベクトルに消費される総ビット数は、次のように計算可能である。
Figure JPOXMLDOC01-appb-M000002
 スペクトルの低密度状態が、可能なビット節減を成し遂げるために有効利用されていない、つまり、いくつかのビットが零ベクトルを指示するために浪費される。 
 本発明では、信号スペクトルの低密度状態を有効利用することによって、零ベクトルについてのAVQコードブック指示値を別の高効率のインデックスに変換する効率的な方法が取り入れられる。
 Q0は零ベクトルを指示するものであり、すべての他のコードブックは非零ベクトルを指示するものであるから、すべてのベクトルのコードブック指示値を分析することによってスペクトルの低密度状態の情報を獲得することができる。このステップはスペクトル・クラスター分析と名付けられ、その処理の詳細を以下に例示する。
 1)スペクトル中で、ある数の零ベクトル(Q0で量子化される)のみからなる零ベクトルの部分をすべて見つけ出し、各部分の中の零ベクトルの数をカウントする。
 2)当該部分の中の零ベクトルの数がThresholdよりも大きい場合には、その部分は零ベクトル領域として分類される。そうでなければ、 ある数の零ベクトルと隣接するある数の非零ベクトルとを合同させ、非零ベクトル領域として分類する。
 3)Thresholdは、零ベクトル領域の指示のために、及び零ベクトル領域の末尾のベクトルのインデックス(終了インデックス)の符号化のために使用される消費ビット数に従って決定される。
Figure JPOXMLDOC01-appb-M000003
 4)零ベクトル領域については、零ベクトルごとにQ0インデックスを送信する代わり、零ベクトル領域の指示値と零ベクトル領域の末尾のベクトルのインデックス(終了インデックス)が送信される。
 5)零ベクトル領域の指示値は、指示値が復号器側で識別できることを唯一の必要条件として、様々に設計可能である。
 6)末尾ベクトルのインデックス(終了インデックス)の値は、適応的に設計されたコードブックによって量子化される。このコードブック中で、末尾ベクトルのインデックス(終了インデックス)の可能な値の数に応じて、ある数の代表値が設計可能である。 
 図9に一例を例示する。この図では、わかりやすいように復号されたスペクトルが例示されている。この例では、二つの非零ベクトル領域と一つの零ベクトル領域の3つの部分がある。零ベクトル領域の先頭ベクトルのインデックスはIndex_startとして示され、零ベクトル領域の末尾ベクトのインデックスはIndex_endとして示される。上記ステップ3で言及したとおり、零ベクトル領域はある数の零ベクトルのみからなり、一方、非零ベクトル領域はある数の非零ベクトルのみからなることを前提とせず、非零ベクトル領域はある数の零ベクトルを有することも可能である。
 従来の方法の場合には、送信されるべきパラメータは、1)グローバル利得の量子化インデックス 2)すべてのベクトル各々のコードブック指示値 3)すべてのベクトル各々のコードベクトル・インデックスである。
 使用可能なビット数が、すべてのベクトル各々の上記パラメータを符号化するのに足りると仮定し)、これらのパラメータすべての符号化に使用される総消費ビット数は、次のとおり求められる:
Figure JPOXMLDOC01-appb-M000004
 零ベクトルはQ0によって量子化されるのだから、各零ベクトル当り1ビットが消費される。
 したがって、次式のとおりとなる。
 本発明で提案された方法の場合には、送信されるべきパラメータは、
 1)グローバル利得の量子化インデックス 
 2)非零ベクトル領域中のすべてのベクトル各々のコードブック指示値  
 3)非零ベクトル領域中のすべてのベクトル各々のコードベクトル・インデックス 
 4)零ベクトル領域の指示値
 5)零ベクトル領域の末尾ベクトルのインデックス(終了インデックス)(または零ベクトル領域中の零ベクトルの数)である。
 使用可能なビット数が、すべてのベクトル各々の上記パラメータを符号化するのに足りると仮定し、上記パラメータすべての符号化に使用される総消費ビット数は、次のとおり求められる。
Figure JPOXMLDOC01-appb-M000006
 本発明の方法を適用することによって、数ビットの節減を達成できる。本発明で提案された方法により節減されるビット数は、次のとおり計算される。
Figure JPOXMLDOC01-appb-M000007
 上記のスペクトル・クラスター分析ステップ2)において、零ベクトル領域中のベクトルの数がThresholdよりも大きいことが調べられる。
Figure JPOXMLDOC01-appb-M000008
 そしてThresholdは式3によって決定される。
 式3と式8の二つの式から、以下の結論を得ることができる。
Figure JPOXMLDOC01-appb-M000009
 したがって、本発明で提案された方法によってビット節減が達成される(Bitssave > 0)。
変換コーデックの簡略な構成を例示する。 TCXコーデックの簡略な構成を例示する。 階層コーデック(CELP+変換)の簡略な構成を例示する。 スプリット・マルチレート格子ベクトル量子化を利用したTCXコーデックの構成を例示する。 スプリット・マルチレート格子ベクトル量子化の処理を例示する。 スプリット・マルチレート格子VQのためのコードブックの表を示す。 ビットストリーム形成の一つの方法を例示する。 ビットストリーム形成の別の方法を例示する。 従来のスプリット・マルチレート格子VQに関する課題を例示する。 変換コーデックの提案された構成を例示する。 スペクトル・クラスター分析の実現の詳細を例示する。 コードブック指示値符号化の実現の詳細を例示する。 零ベクトル領域指示表を示す。 コードベクトル決定の実現の詳細を例示する。 コードベクトル決定の別の方法を例示する。 零ベクトル領域指示の別の方法を示す。 逆方向サーチの構想を例示する。 逆方向サーチ用の指示値表を示す。 逆方向サーチの実現の詳細を例示する。 消費するビット数をより少なくする別の指示値表を示す。 Index_endの可能な値の範囲を決定するための構想を例示する。 零ベクトル領域指示のために使用される二つの指示値表を示す。 異なる指示値表を使用するときの3つの条件を示す。 最後のベクトルまでの零ベクトル領域の指示値を含む指示値表を示す。 TCXコーデックの提案された構成を例示する。 階層コーデック(CELP+変換)の提案された構成を例示する。 適応利得量子化を含むCELP+変換コーデックの提案された構成を例示する。 CELP符号器のビットレートに応じた利得量子化のサーチ範囲の適応的決定の構想を例示する。 適応ベクトル利得補正を含む、提案された構成を例示する。
 図10~図29を用いて、本発明の主要原理を本節で説明する。当業者は、本発明の精神から逸脱しない範囲で本発明を修正し、適応させることができるであろう。図は、説明を容易にするために提示される。
 (実施形態1)
 図10は、スプリット・マルチレート格子ベクトル量子化の本発明による方式を適用した符号器と復号器を具備する、本発明によるコーデックを例示する。
 図10に例示した符号器では、離散フーリエ変換(DFT)または修正離散コサイン変換(MDCT)などの時間-周波数変換方式(1001)を用いて、時間領域の信号S(n)が周波数領域の信号S(f)に変換される。
 マスキング曲線を得るために、周波数領域の信号S(f)に対して心理音響モデル分析が行なわれる(1002)。量子化ノイズが不可聴であることを確実にするように、心理音響モデル分析から得られたマスキング曲線に従って、周波数領域の信号S(f)に対してスプリット・マルチレート格子ベクトル量子化が適用される(1003)。 
 スプリット・マルチレート格子ベクトル量子化は、グローバル利得の量子化インデックス、コードブック指示値及びコードベクトル・インデックスという、量子化パラメータの3つのセットをもつ。
 コードブック指示値は、スペクトル・クラスター分析(1004)へ送られる。スペクトルの低密度状態の情報が、スペクトル・クラスター分析によって抽出され、この情報が上記コードブック指示値をコードブック指示値の別のセットに変換するために使用される(1005)。
 グローバル利得インデックス、コードベクトル・インデックス及び新しいコードブック指示値が多重化されて(1006)、復号器側へ送信される。
 図10に例示した復号器では、最初に、すべてのビットストリーム情報が(107)において多重分離される。 
 新コードブック指示値は、元のコードブック指示値を復号するために使用される(1008)。グローバル利得インデックス、コードベクトル・インデックス及び元のコードブック指示値は、スプリット・マルチレート格子ベクトル逆量子化法(1009)によって、復号された周波数領域の信号S(f)を復元するように逆量子化される。
 復号された周波数領域の信号S(f)は、復号された時間領域の信号S(n)を復元するように、逆離散フーリエ変換(IDFT)または逆修正離散コサイン変換(IMDCT)などの周波数-時間変換方式(1010)を用いて、時間領域へ戻すように変換される。
 スペクトル・クラスター分析とコードブック指示値符号器の提案された実現方法を図11と図12に例示する。 
 図11には、スペクトル・クラスター分析の提案された実現方法が例示される。 
 この方法には5つのステップがあり、各ステップが図を用いて例示される。この図解では、全部で22個のベクトルがあり、ベクトル・インデックスは0から始まり21で終わる。
 1)22個のベクトル各々のすべてのコードブック指示値を分類する。コードブックQ0によって量子化されるベクトルは、零ベクトルであるというように。スペクトルの低密度状態の情報が、各ベクトルそれぞれのコードブック指示値を分析することによって抽出され得る。 
 2)ある数の零ベクトルの部分をすべて特定する。ある数の零ベクトルの部分は、ある数の零ベクトルのみからなる部分である。この例では、ある数の零ベクトルの部分が3つある(i=0、3-19、21)
 3)各零ベクトル部分中の零ベクトルの数をカウントする。本例では、第1の部分が1個の零ベクトルだけをもつ。第2の部分は17個の零ベクトルをもち、最後の部分は1個の零ベクトルをもつ。
 4)各零ベクトル部分中の零ベクトルの数をThresholdと比較する。Thresholdは、下の式によって決定される。
Figure JPOXMLDOC01-appb-M000010
 この例では、BitsindicationとBitsindex_endに、それぞれ、6ビットと2ビットが与えられるので、新しい符号化方式では消費ビット数は8である(詳細な説明は、以下に記載する)。したがって、Thresholdは8である。この例における3つの零ベクトル部分では、第1の部分と第3の部分の零ベクトルの数が上記Thresholdよりも小さい。第2の部分の零ベクトルの数は、上記Thresholdよりも大きい。
 5)グループ化。当該零ベクトル部分中の零ベクトルの数がThresholdよりも大きければ、その部分は零ベクトル領域として分類される。そうでなければ、それらの零ベクトルと隣接するある数の非零ベクトルが合同されて、非零ベクトル領域として分類される。本例では、第2の零ベクトル部分が零ベクトル領域として分類される。そして第1の部分と第3の部分とそれらに隣接する非零ベクトルが合同されて、非零ベクトル領域として分類される。このスペクトルは、二つの非零ベクトル領域と一つの零ベクトル領域の3つの領域に単純化可能である。
 図12には、コードブック指示値符号化のための提案された実現方法が例示される。この方法には5つのステップがあり、各ステップが図を用いて例示される。この図解では、図11におけるスペクトルが例としてなおも使用される。
 1)第1の非零ベクトル領域のコードブック指示値を符号化する。非零ベクトル領域では、ベクトル当りの個々のコードブック指示値が従来と同様に維持される。
 2)零ベクトル領域を指示する識別コードを割り当てる。零ベクトル領域では、零ベクトル各々のQ0指示値を送信するのではなく、零ベクトル領域の指示値と零ベクトル領域の終了インデックスが送信される。この例では、6ビットの指示値(111110)が、零ベクトル領域を指示するために使用される。 
 3)零ベクトル領域の末尾ベクトルのインデックスである、Index_endの値を符号化する。この例では、Index_endは、4つの代表値からなる2ビットのコードブックによって量子化される。各代表値は、Index_endの可能な値を示す。この例では、代表値が表中に示される。この表の決定の詳細は、後述部分で説明する。
 4)零ベクトル領域中の残りのベクトルのコードブック指示値を符号化する。ほとんどの場合、量子化されたIndex_endは、実際のIndex_endと厳密に一致しない。したがって、零ベクトル領域中の残りのベクトルを符号化する必要がある。残りのベクトルのコードブック指示値は、Q0指示値として与えられる。
 5)最後の非零ベクトル領域のコードブック指示値を符号化する。非零ベクトル領域では、ベクトル当りの個々のコードブック指示値が従来と同様に維持される。
 図13には、従来のスプリット・マルチレート格子VQの指示値表と本発明による方法の指示値表が示される。
 これらの二つの表から、零ベクトル領域の指示値は、Qコードブックを指示していた指示値を利用することがわかる。2ビットのコードブックが、可能なIndex_endを量子化するために使用される。したがって、零ベクトル領域に使用される総消費ビット数は8である。それ以後のコードブックQn(n 3 6)に関しては、コードブックはQn+1(n 3 6)の指示値を使用する、つまり、その消費ビット数は元の指示値よりも1ビット分多い。
 図14と図15は、2ビットのコードブックがどのように決定されるかを表わす二つの例を示す。
 図14は、図11で使用されたスペクトルを継続して用いている。図に示すように、Index_startは3であり、スペクトル中の総ベクトル数は22であり、零ベクトル領域のThresholdは8である。Index_endの可能な値の範囲は、11から21までである(21は、Index_startの後のすべてのベクトルが零ベクトルであることを意味する)。
 Index_end を2ビットのコードブックを用いて量子化するために、Index_endの可能な値の範囲に従って、代表値が適応的に決定される。Index_endの可能な値の範囲が4つの部分に分割される。各部分は、一つの代表値によって示される。各部分の幅(零ベクトルの数)は下の式によって決定される。
Figure JPOXMLDOC01-appb-M000011
 代表値は下の式によって決定される。
Figure JPOXMLDOC01-appb-M000012
 この例において、元の方法によってすべてのコードブック指示値を符号化するための総消費ビット数は、次のとおりになる。 
Figure JPOXMLDOC01-appb-M000013
 この例において、本発明による方法によってすべてのコードブック指示値を符号化するための総消費ビット数は、次のとおりになる。
Figure JPOXMLDOC01-appb-M000014
 本発明で提案された方法によって節減されるビット数は、次のとおりに計算される。
Figure JPOXMLDOC01-appb-M000015
 図15は、コードベクトルの幅を計算するための別の方法である(本文書において、スカラー値をもつ「コードベクトル」は、「代表値」とも表記される)。
 各部分の幅(零ベクトルの数)は、下の式によって決定される。
Figure JPOXMLDOC01-appb-M000016
 コードベクトルによって表わされるIndex_endの値は、下の式によって決定される。
Figure JPOXMLDOC01-appb-M000017
 この例において、元の方法によってすべてのコードブック指示値を符号化するための総消費ビット数は、次のとおりになる。 
Figure JPOXMLDOC01-appb-M000018
 この例において、提案された方法によってすべてのコードブック指示値を符号化するための総消費ビット数は、次のとおりになる。 
Figure JPOXMLDOC01-appb-M000019
 本発明で提案された方法によって節減されるビット数は、次のとおりに計算される。
Figure JPOXMLDOC01-appb-M000020
 コードベクトルを決定するための方法は、上述の例に限定されない。当業者は本発明の精神を逸脱しない範囲でその他の方法を修正し、適応させることができるであろう。 
 この実施形態では、スプリット・マルチレート・ベクトル量子化したスペクトルに対してスペクトル分析を行なうことによって、スペクトルは零ベクトル領域と非零ベクトル領域に分割される。
 零ベクトル領域では、零ベクトル各々のQ0指示値を送信するのではなく、零ベクトル領域の指示値と零ベクトル領域の末尾ベクトルのインデックス(終了インデックスと表記される)の量子化値が送信される。 
 零ベクトル領域の指示値は、それほど頻繁に使用されない、コードブック指示値の一つを使用する。元のコードブックは、他の指示値によって指示される。
 終了インデックスは、適応的に設計されたコードブックによって量子化される。終了インデックスのすべての可能な値が数個の部分に分けられ、各部分の長さは終了インデックスの可能な値の総数に従って適応的に決定される。各部分は、コードブックの代表値の一つによって表される。
 したがって、連続する零ベクトルに対して、本発明による方法を適用することによってビット節減が達成される。
 さらに、この実施形態では、終了インデックスの値は、コードブック―その代表値の数はNとして示される―によって量子化される。終了インデックスの可能な値の範囲が、N個の部分に分けられる。各部分における最小値が、その部分の代表値として選択される。
 したがって、終了インデックスのコードブックのために消費されるビット数は、固定されるという利点もある。しかし、代表値は、終了インデックスの可能な値の範囲に従って適応的に決定される―ということは、異なるシナリオに対して終了インデックスを効率的に量子化できる。 
 さらに、図16に示すとおり、零ベクトル領域とQ6の両方の指示が同じ指示値を利用する―ただし、零ベクトル領域とQ6を区別するためにもう1ビットが付加される。その他のコードブック指示値はすべて変わらない。
 この場合、零ベクトル領域の指示は、頻繁に使用されない、コードブック指示値の一つを使用する。そして、それが零ベクトル領域であるか、元のコードブック指示値であるかを示すために、もう1ビットが使用される。
 したがって、一つのコードブック指示値だけが変更され、その他のコードブックはすべて同じままであるという利点がある。この指示値が適切に(コードブック指示値としてあまり頻繁に使用されないものが)選択されるならば、もっと多くのビットが節減可能である。
 (実施形態2)
 零ベクトル領域がより低い周波数範囲にある場合には、終了インデックスの量子化に代えて、開始インデックス(零ベクトル領域中の先頭ベクトルのインデックス)が量子化される。終了インデックスが復号器側で知られるように、ビットストリームを逆順に並び替える。より多くのビットを節減する方法を利用できるように、開始インデックスの量子化と終了インデックスの量子化の間で節減ビット数を比較することが望ましい。
 図17に示すように、零ベクトル領域がより低い周波数範囲にあり、Cb_stepが実施形態1で例示される順方向サーチによって決定されるとすれば、次のようになる。 
Figure JPOXMLDOC01-appb-M000021
 代表値は下の式によって決定される。
Figure JPOXMLDOC01-appb-M000022
 条件によっては、Index_endの量子化値と実際値の間の誤差もまた大きくなる。この例では、次のようになる。 
Figure JPOXMLDOC01-appb-M000023
 したがって、終了インデックスの代わりに開始インデックスを量子化する方法が提案され、Index_end の値を復号器に知らせるために、一連のコードブック指示値を逆順に並び替える。
 図17に示した例については、このようになる。
Figure JPOXMLDOC01-appb-M000024
Figure JPOXMLDOC01-appb-M000025
Figure JPOXMLDOC01-appb-M000026
 実施形態1における方法は、Index_startと総ベクトル数によりCb_stepを決定するので、順方向サーチと名付けられる。本実施形態における方法は、Index_endによりCb_stepを決定するので、逆方向サーチと名付けられる。
 逆方向サーチ方法を指示するためには1ビット余計に消費されるが(逆方向サーチの指示のためには9ビット、順方向サーチの指示のためには8ビット)、順方向サーチ方法に対比して、逆方向サーチ方法によって節減されるビットは一つ多い。
Figure JPOXMLDOC01-appb-M000027
 図18には、従来のスプリット・マルチレート格子VQの指示値表と提案された方法の指示値表が示される。
 本発明の方法のコードブック表において、順方向サーチの指示値は変更されない。そして逆方向サーチは、順方向サーチの前に0を一つ追加することによって指示される。零ベクトル領域の前に零ベクトルが存在することはあり得ないので、 この指示値がQ0+順方向サーチ(0+111110)と誤って解釈されることはない。
 図19は、逆方向サーチ方法の詳細ステップを示す。逆方向サーチ方法には4つのステップがある。
 1)コードブック指示値のリスト中で零ベクトル領域を探索する。
 2)零ベクトル領域が特定された後、順方向サーチに対比して節減ビット数を比較する。そしてより多くの節減ビット数を達成する方法が選択される。
 3)逆方向サーチを使用すべきことが確認された後、コードブック指示値のリストを逆順に並び替え、主幹の実施形態において順方向サーチとして例示した方法と同様に、Cb_stepが決定される。
 4)本発明で提案された方法によって、コードブック指示値のリストを圧縮する 。
 復号器側では、コードブック指示値のリストを復元するために3つのステップがある。
 1)順方向サーチと同様に、Cb_stepを特定する。
 2)符号器側で行なわれた処理と逆の処理によって零ベクトル範囲を拡張する。
 3)逆方向サーチが使用されていることを指示値が示す場合、コードブック指示値のリストを逆順に並び替える。
 本実施形態では、零ベクトル領域がより低い周波数範囲にある場合に、終了インデックスの量子化の代わりに、開始インデックス(零ベクトル領域中の先頭ベクトルのインデックス)が量子化される。終了インデックスが復号器側で知られるように、ビットストリームを逆順に並び替える。より多くのビットを節減する方法を利用できるように、開始インデックスの量子化と終了インデックスの量子化の間で節減ビット数を比較することが望ましい。したがって、より多くのビット数の節減が達成可能である。  
 (実施形態3)
 実施形態2では、逆順並び替え処理がより多くの演算処理能力を必要とする。本実施形態では、コードブック指示値のリストを逆順に並び替えなくてすむ方法が提案される。
 逆方向サーチ方法では、Cb_stepは次の式で計算される。
Figure JPOXMLDOC01-appb-M000028
Figure JPOXMLDOC01-appb-M000029
 式43から、零ベクトルの数がIndex_startの値から得られるように、cv/(4-cv) の値を設計することができる。
 係数のセットが、一例として、次ように定義され得る。 
Figure JPOXMLDOC01-appb-M000030
 本実施形態では、ビットストリームを逆順に並び替える代わりに、零ベクトルの数は、開始インデックスの値のスカラー倍数として量子化される。各スカラー値が当該コードブック中のコードベクトルの一つによって表わされるように、スカラー値を予め学習させておくことが望ましい。本実施形態には、ビットストリームを逆順に並び替えることを避けることができ、複雑さが減少されるという利点がある。
 (実施形態4)
 本実施形態では、Index_endの可能な値の範囲に従って、消費ビット数を削減することができる。
 図20は、零ベクトル領域の表現に必要な総ビット数が、常に8ビットではなく、6または7または8ビットになり得る、新しい指示値表を示す。
 図21は、零ベクトル領域をもつ入力スペクトルについての、いくつかの条件を例示する。Minとして示されるIndex_endの最小可能値は、次のとおりである。
Figure JPOXMLDOC01-appb-M000031
 Maxとして示されるIndex_endの最大可能値は、次のとおりである。
Figure JPOXMLDOC01-appb-M000032
 つまり、Index_endの可能な値の範囲は、MinからMaxまである。
 Index_endの可能な値の総数としてLengthを定義すると、Lengthの値に従って、4つの異なるケースがある。
Figure JPOXMLDOC01-appb-M000033
 Index_end の値は、2ビットのコードブック (4つの代表値をもつ)によって量子化されることになる)。Index_end のすべての可能な値は4つの部分に分けられる。    
 各部分は一つの代表値によって表わされる。総消費ビット数=6+2=8
 本実施形態では、終了インデックスの可能な値の数に従って、コードベクトルを表現するビット数が適応的に決定される―例えば、可能な零ベクトル数の長さが1であれば、零ベクトル数を指示するためのビットは必要ないというように。本実施形態には、さらに多くのビットを節減できるという利点がある。  
 (実施形態5)
 実施形態1における零ベクトル領域の指示方法では、Qn(n36)の場合の各コードブック指示値は、従来の方法に対比して1ビット余分に消費する。入力信号がQn(n36)によって量子化されるM個のベクトルをもち、 零ベクトル領域がないとすれば、従来の方法に対比してM個の余分なビットがコードブック指示で浪費される。 
 本実施形態では、より効率のよい零ベクトル領域指示方法が提案される。
 図22に示すように、本実施形態では、二つの指示表が使用される。表1は従来の指示表であり、表2は実施形態1における零ベクトル領域指示表である。たとえ入力信号がQn(n36)によって量子化されるM(M>1)個のベクトルをもち、零ベクトル領域がないとしても、従来の方法に対比して浪費される最大ビット数が1ビットだけになるように、どちらの表がスペクトル全体に使用されるかを示すために1ビットが消費される。
 図23では、入力フレームは3つのケースに分類される。
Figure JPOXMLDOC01-appb-M000034
 表1が使用され、Q5よりも上位のコードブックを使用する最初のベクトルに対して指示が行なわれる。
 本実施形態における零ベクトル領域指示には、二つの指示値表が使用される。零ベクトル領域をもたないフレームについては、従来の表が使用される。
 零ベクトル領域をもつフレームについては、零ベクトル領域指示表が使用される。必要な場合には、どちらの表が使用されるのかを示すために1ビットが消費される。本実施形態では、零ベクトル領域が存在しないフレームの場合により上位のコードブックを指示するために浪費されるビット数が、1ビットに制限される。
 (実施形態6)
 最後のベクトルまでの零ベクトル領域をもつフレームについては、特別な指示値が使用される。それによって、Cb_stepに起因する零ベクトル数の誤差を回避できる。
 指示値表が図24に示される。最後のベクトルまでの零ベクトル領域をもつフレームについては、それを示すために指示値00111110が使用される。そしてIndex_endの値を指示するために必要なビット数の追加はない。
 本実施形態では、最後のベクトルまでの零ベクトル領域をもつフレームについては、終了インデックスの量子化誤差を回避できるように特別な指示値が使用される。したがって、最後のベクトルまでの零ベクトル領域をもつフレームの場合により多くのビット数節減が可能であるという利点がある。
 (実施形態7)
 本実施形態の特徴は、本発明による方法がTCXコーデックに適用されることである。
 提案された構想を図25に例示する。
 図25に例示した符号器では、時間領域における信号の予測可能な性質を利用するために、入力信号に対してLPC分析が行なわれる(2501)。LPC分析から生じた個々のLPC係数が量子化され(2502)、量子化インデックスが多重化されて(2509)、復号器側へ送信される。逆量子化モジュール(2503)からの量子化されたLPC係数を用いて、入力信号S(n)に対してLPC逆フィルタリングをかけることによって残差(励起)信号S(n)が得られる(2504)。
 離散フーリエ変換(DET)または修正離散コサイン変換(MDCT)などの時間-周波数変換方式(2505)を用いて、残差信号S(n)は周波数領域の信号S(f)に変換される。
 スプリット・マルチレート格子ベクトル量子化が、周波数領域の信号S(f)に対して適用される(2506)。
 スプリット・マルチレート格子ベクトル量子化は、グローバル利得の量子化インデックス、コードブック指示値及びコードベクトル・インデックスという、量子化パラメータの3つのセットをもつ。
 コードブック指示値は、スペクトル・クラスター分析(2507)へ送られる。スペクトルの低密度状態の情報が、スペクトル・クラスター分析によって抽出され、この情報が上記コードブック指示値をコードブック指示値の別のセットに変換するために使用される(2508)。
 グローバル利得インデックス、コードベクトル・インデックス及び新しいコードブック指示値が多重化されて(2509)、復号器側へ送信される。
 図25に例示した復号器では、最初に、すべてのビットストリーム情報が(2510)において多重分離される。
 新コードブック指示値は、元のコードブック指示値を復号するために使用される(2511)。グローバル利得インデックス、コードベクトル・インデックス及び元のコードブック指示値は、スプリット・マルチレート格子ベクトル逆量子化法(2512)によって、復号された周波数領域の信号S (f)を復元するように逆量子化される。
 復号された周波数領域の残差信号S (f)は、復号された時間領域の残差信号S (n)を復元するように、逆離散フーリエ変換(IDFT)または逆修正離散コサイン変換(IMDCT)などの周波数-時間変換方式(2530)を用いて、時間領域へ戻すように変換される。 
 逆量子化モジュール(2514)からの逆量子化されたLPCパラメータを用いて、復号された時間領域の残差信号S (n)はLPC合成フィルタ(212)によって処理されて、復号された時間領域の信号S(n)を得る。
 (実施形態8)
 本実施形態の特徴は、スペクトル・クラスター分析法がCELPと変換符号化の階層的符号化(階層符号化、エンベディッド符号化)に適用されることである。
 図26に例示した符号器では、時間領域における信号の予測可能な性質を利用するために、入力信号に対してCELP符号化が行なわれる(2601)。CELPパラメータを用いて、CELPローカル復号器(2602)によって合成信号Ssyn(n)が復元され、CELPパラメータは多重化されて(2607)、復号器側へ送信される。予測誤差信号S(n)(入力信号と合成信号の差)が、入力信号から合成信号を引き算することによって得られる。
 離散フーリエ変換 (DFT)または修正離散コサイン変換(MDCT)などの時間-周波数変換方式(2603)を用いて、予測誤差信号S(n)は周波数領域の信号S(f)に変換される。
 スプリット・マルチレート格子ベクトル量子化が、周波数領域の信号S(f)に対して適用される(2604)。
 スプリット・マルチレート格子ベクトル量子化は、グローバル利得の量子化インデックスと、コードブック指示値とコードベクトル・インデックスという、量子化パラメータの3つのセットをもつ。
 コードブック指示値は、スペクトル・クラスター分析(2605)へ送られる。スペクトルの低密度状態の情報が、スペクトル・クラスター分析によって抽出され、この情報が上記コードブック指示値をコードブック指示値の別のセットに変換するために使用される(2606)。
 グローバル利得インデックス、コードベクトル・インデックス及び新しいコードブック指示値が多重化されて(2607)、復号器側へ送信される。
 図26に例示した復号器では、最初に、すべてのビットストリーム情報が(2608)において多重分離される。
 新コードブック指示値は、元のコードブック指示値を復号するために使用される(2609)。グローバル利得インデックス、コードベクトル・インデックス及び元のコードブック指示値は、スプリット・マルチレート格子ベクトル逆量子化法(2610)によって、復号された周波数領域の信号S (f)を復元するように逆量子化される。
 復号された周波数領域の残差信号S (f)は、復号された時間領域の残差信号S (n)を復元するように、逆離散フーリエ変換(IDFT)または逆修正離散コサイン変換(IMDCT)などの周波数-時間変換方式(2611)を用いて、時間領域へ戻すように変換される。 
 CELPパラメータを用いて、CELP復号器は合成信号Ssyn(n)を復元し(2612)、復号された時間領域の信号S(n)が、CELP合成信号Ssyn(n)と復号された予測誤差信号S (n)を加算することによって復元される。
 (実施形態9)
 本実施形態では、図27に示すように、スペクトル・クラスター分析法が適応利得量子化法と組み合わされる。
 符号化及び復号処理は、グローバル利得のインデックスまたはグローバル利得自体がスプリット・マルチレートから適応利得量子化ブロック(2706)へ送られる以外は、実施形態8とほとんど同じである。グローバル利得を直接量子化するのではなく、適応利得量子化法は、グローバル利得がより小さな範囲でより効率よく量子化され得るように、合成信号と、スプリット・マルチレート格子ベクトル量子化によって量子化されるコーディング・エラー信号との関連性を利用する。
 AVQ利得量子化を実現するためには二つの方法がある
<方法1>
 ステップ1:合成信号Ssyn(f)の最大絶対値syn_maxを探索する。
 ステップ2:AVQ利得/syn_maxの比を計算する。
 ステップ3:狭められた範囲内でAVQ利得/syn_maxの比を量子化する(いろいろな信号系列を使用して、狭められた範囲を予め学習させておくことが望ましい)。
<方法2>
 ステップ1:合成信号Ssyn(f)の最大絶対値syn_maxを探索する。
 ステップ2:インデックス=Index1として、AVQ利得を量子化する。
 ステップ3:インデックス=Index2として、syn_maxを量子化する。
 ステップ4:狭められた範囲内でIndex2-index1を送信する(いろいろな信号系列を使用して、狭められた範囲を予め学習させておくことが望ましい)。
 CELPコア・ コーデックが多様なビットレートをもつ場合には、CELP符号器の多様なビットレートに対応する多様な狭められた範囲を設計することが望ましい。図28に示すように、CELP符号器のビットレートがより高くなるほど、元の信号に対比してエラー信号がより小さくなり、合成信号は元の信号により近づくため、エラー信号と合成信号との比はより小さくなる。つまり、上記の比のサーチ範囲が、より小さい範囲へ偏ることになる。
 本実施形態では、適応グローバル利得量子化法が取り入れられる。この方法は、以下のステップからなる。
 1)CELP合成信号Ssyn(f)の振幅情報を抽出する。
 2)抽出された振幅情報に従って、グローバル利得のサーチ範囲を狭める。 
 3)狭められた範囲内で利得を量子化する。
 利得のサーチ範囲が狭められるから、利得の量子化のために必要なビット数がより少なくてすむ。
 (実施形態10)
 本実施形態の特徴は、スペクトル・クラスター分析法により節減されたビットが、量子化されたベクトルの利得精密度を向上させるために利用されることである。
 図29は、スペクトルをより小さな帯域に分割し、各帯域に「利得補正係数」を付与することによって、グローバル利得により細かな分解を与えるために、節減されたビットを利用する符号器と復号器を具備する、本発明によるコーデックを例示する。
 符号化及び復号処理は、実施形態1において提案された方法により節減されたビットが、グローバル利得に対して適応ベクトル利得補正をかける(2906)ことによって利得精密度を向上させるために利用される以外は、実施形態1の場合とほとんど同じである。
 適応ベクトル利得補正は、スペクトル・クラスター分析法により節減されたビット数に応じて利得を補正するように設計される。節減されたビットがごく少ない場合には、スペクトルはより少数のサブバンドに分割され、サブバンド当りに一つの利得補正係数が算出される。一方、節減されたビットがかなり多い場合には、スペクトルはより多数のサブバンドに分割され、サブバンド当りに一つの利得補正係数が算出される。MからNまでインデックス付けされている個々の係数(係数列)をもつサブバンド当りの利得補正係数は、下の式で計算可能である。
Figure JPOXMLDOC01-appb-M000035
 得られた個々の利得補正係数は多重化されて(2907)、復号器側へ送信される。
 復号器側では、上記の利得補正係数が、下の式に従って、復号されたスペクトルS(f)を補正する(2911)ために使用される。
Figure JPOXMLDOC01-appb-M000036
 利得補正されたスペクトルS’(f)は、復号された時間領域の信号S(n)を復元するように、逆離散フーリエ変換(IDFT)または逆修正離散コサイン変換(IMDCT)などの周波数-時間変換方式(2912)を用いて、時間領域へ戻すように変換される。
 本実施形態では、スペクトル・クラスター分析から節減されたビットが、スペクトルをより小さな帯域に分割し、各帯域に「利得補正係数」を付与することによって、グローバル利得により細かな分解を与えるために利用される。利得補正係数を送信するように、節減されたビットを利用することによって、量子化性能の向上が可能になり、音質の向上が可能になる。
 スペクトル・クラスター分析法は、ステレオまたはマルチチャネル信号の符号化に適用可能である。例えば、本発明による方法は副信号の符号化に適用され、節減されたビットは主信号の符号化に利用される。これは、主信号は副信号よりも知覚的により重要であるから、主観的な質の向上をもたらすことになろう。
 さらに、スペクトル・クラスター分析(SCA)法は、複数フレーム単位で(または複数サブフレーム単位で)スペクトル係数列を符号化するコーデックに適用可能である。この適用では、次の符号化段階でのスペクトル係数列または何らか他のパラメータ列を符号化するために、SCAによって節減されたビットを蓄積して利用することができる。
 さらに、フレーム損失状況において音質を維持できるように、スペクトル・クラスター分析から節減されたビットをFEC(フレーム消失隠蔽)に利用できる。
 上述の実施形態のすべては、スプリット・マルチレート格子ベクトル量子化を使用するものとして説明されているが、本発明はスプリット・マルチレート格子ベクトル量子化の使用に限定されず、その他のスペクトル係数コーディング手法に適用可能である。当業者は、本発明の精神から逸脱しない範囲で本発明を修正し、適応させることができるであろう。 
 また、上述の実施形態の復号装置は、上述の実施形態の符号化装置から出力された符号化情報を使用する処理を実行するが、本発明はこれに限定されず、符号化情報が上記符号化装置から送信されていない場合にも、当該符号化データが必要なパラメータ及びデータを含む限り、復号装置は処理を実行できる。
 また、本発明による符号化装置及び復号装置は、移動通信システム中の通信端末装置及び基地局装置に搭載可能であり、それにより、上述した効果と同じ動作効果を有する通信端末装置、基地局装置及び移動通信システムを提供することができる。
 本発明がハードウェアにより実現される上述の実施形態により実施例を説明したが、本発明はハードウェアとの連携においてソフトウェアでも実現可能である。
 また、本発明は、単一の処理プログラムが、メモリー、ディスク、テープ、CD、及びDVDなどの機械的に読出し可能な記録媒体に記録後または書込み後に実働されるケースにも適用可能であり、それにより、ここで述べた実施形態と同じ動作及び効果を提供することができる。
 さらに、上述の各実施形態の記述において使用された各機能ブロックは、集積回路によって構成されたLSIとして、典型的に実現可能である。LSIは、個別のチップであることも、あるいは部分的にまたは完全に単一チップ上に含まれることも可能である。「LSI」がここでは採用されるが、集積化の様々な程度に応じて、これを「IC」、「システムLSI」、「超LSI」または「極超LSI」と言うこともできる。
 さらに、回路集積化の方法はLSIに限定されず、専用回路または汎用プロセッサを使用する実現も可能である。LSIの製造後に、LSI中の回路セルの接続と設定が再構成可能である、FPGA(フィールド・プログラマブル・ゲート・アレイ)または再構成可能なプロセッサの利用も可能である。
 さらに、半導体技術または派生的なその他の技術の進歩の結果、LSIに取って代わる集積回路技術が出現するならば、この技術を利用して機能ブロックの集積化を行なうことも当然可能である。バイオテクノロジーの応用も可能である。
 2010年7月6日出願の特願2010-154232の日本出願に含まれる明細書、図面及び要約書の開示内容は、すべて本願に援用される。
 本発明による符号化装置、復号装置並びに符号化及び復号方法は、移動通信システム中の無線通信端末装置や基地局装置、さらに遠隔会議端末装置、ビデオ会議端末装置及びボイス・オーバー・インターネット・プロトコル(VOIP)端末装置に適用可能である。

Claims (21)

  1.  入力信号のスペクトルを複数のサブバンドに分割する帯域分割部と、
     各サブバンド中の個々のスペクトル係数を量子化するベクトル量子化部と、 
     ベクトル量子化によって生成されたサブバンドの一連の指示値を分析することによって、前記スペクトルを零ベクトル領域と非零ベクトル領域に分割するスペクトル分析部と、
     前記零ベクトル領域中の零ベクトル各々の一連の指示値を零ベクトル領域の指示値とその零ベクトル領域の終了位置を示すパラメータに変換するパラメータ符号化部と、
     を具備するオーディオ/音声符号化装置。
  2.  前記零ベクトル領域中の零ベクトル各々の一連の指示値を零ベクトル領域の指示値とその零ベクトル領域中の零ベクトルの数を示すパラメータに変換するパラメータ符号化部に、前記パラメータ符号化部を置き換える、
     請求項1に記載のオーディオ/音声符号化装置。
  3.  前記パラメータ符号化部が、
     前記零ベクトル領域中の零ベクトル各々の一連の指示値を零ベクトル領域の指示値とその零ベクトル領域の終了位置を示すパラメータに変換する第1のパラメータ符号化部と、
     前記一連の指示値を逆順に並び替える逆順並び替え部と、
     零ベクトル各々の逆順に並び替えられた一連の指示値を変換する第2のパラメータ符号化部と、
     前記第1のパラメータ符号化部と前記第2のパラメータ符号化部のうちで、より少ないビット数を消費する符号化部を選択する選択部と、
     を具備するパラメータ符号化部に置き換えられた、
     請求項1に記載のオーディオ/音声符号化装置。
  4.  前記パラメータ符号化部が、
     前記零ベクトル領域中の零ベクトル各々の一連の指示値を零ベクトル領域の指示値と、その零ベクトル領域の終了位置を示すパラメータに変換する第1のパラメータ符号化部と、
     前記零ベクトル領域中の零ベクトル各々の一連の指示値を零ベクトル領域の指示値と予め決められたスカラー値のうちの一つに開始インデックスの値を掛けることによってその零ベクトル領域中の零ベクトルの数を示すパラメータに変換する第2のパラメータ符号化部と、
     前記第1のパラメータ符号化部と前記第2のパラメータ符号化部のうちで、より少ないビット数を消費する符号化部を選択する選択部と、
     を具備するパラメータ符号化部に置き換えられた、
     請求項1に記載のオーディオ/音声符号化装置。
  5.  零ベクトル領域の終了位置を示す前記パラメータは、
     前記終了位置の可能な値の数に従って、上記パラメータを量子化するためのビット数を適応的に割り当てるビット割当て部と、
     割り当てられたビットを使用して上記パラメータを量子化する量子化部と、
     によってさらに処理される、
     請求項1に記載のオーディオ/音声符号化装置。
  6.  前記入力スペクトルの最後のサブバンドまでの零ベクトル領域を指示する、零ベクトル領域の特別な指示値が含まれる、
     請求項1に記載のオーディオ/音声符号化装置。
  7.  符号化されたパラメータを生成するためにCELP符号器によって入力信号を符号化するCELP符号化部と、
     復号された信号を生成するために前記符号化されたパラメータを復号するCELPローカル復号部と、
     誤差信号を生成するために入力信号から前記復号された信号を引き算する引き算部と、
     前記誤差信号と前記復号された信号を時間領域から周波数領域へ変換する時間-周波数領域変換部と、
     前記誤差信号のスペクトル全体の平均エネルギーを示すグローバル利得を計算するグローバル利得計算部と、
     前記復号された信号のスペクトルから振幅情報を抽出する抽出部と、
     前記抽出された振幅情報に従って、前記グローバル利得の量子化のためのサーチ範囲を狭める狭化部と、
     前記狭められたサーチ範囲内で前記グローバル利得を量子化する量子化部と、
     周波数領域において前記量子化されたグローバル利得を使用して前記誤差信号を量子化するベクトル量子化部と、
     を具備するオーディオ/音声符号化装置。
  8.  前記零ベクトル領域中の零ベクトル各々の一連の指示値の前記変換により節減されたビットは、前記スペクトルをサブバンド分割し、少なくとも一つのサブバンドに利得補正係数を付与することによって、前記グローバル利得により細かな分解を与えるために利用される、
     請求項1に記載のオーディオ/音声符号化装置。
  9.  前記符号化装置は、ステレオまたはマルチチャネル入力信号の一つのチャネルまたは複数のチャネルの符号化に適用される、
     請求項1に記載のオーディオ/音声符号化装置。
  10.  前記符号化装置は、複数フレーム単位または複数サブフレーム単位でスペクトル係数列を符号化する符号器に適用される、
     請求項1に記載のオーディオ/音声符号化装置。
  11.  前記零ベクトル領域中の零ベクトル各々の一連の指示値の前記変換により節減されたビットは、フレーム消失隠蔽パラメータの符号化に利用される、
     請求項1に記載のオーディオ/音声符号化装置。
  12.  零ベクトル領域の指示値を復号する指示値復号部と、 
     その零ベクトル領域の終了位置を示すパラメータを復号する終了位置復号部と、
     零ベクトル領域の指示値とその零ベクトル領域の終了位置を示すパラメータをその零ベクトル領域中の零ベクトル各々の一連の指示値に変換するパラメータ変換部と、
     各サブバンド中の個々のスペクトル係数を逆量子化するベクトル逆量子化部と、 
     出力信号を生成するために、前記逆量子化されたスペクトル係数を時間領域へ変換する周波数-時間領域変換部と、
     を具備するオーディオ/音声復号装置。
  13.  零ベクトル領域の指示値とその零ベクトル領域中の零ベクトルの数を示すパラメータをその零ベクトル領域中の零ベクトル各々の一連の指示値に変換するパラメータ変換部に、
     前記パラメータ変換部を置き換える、
     請求項12に記載のオーディオ/音声復号装置。
  14.  オーディオ/音声符号化装置において前記零ベクトル領域中の零ベクトル各々の一連の指示値が逆順に並び替えられているか否かを示す選択情報を復号する選択パラメータ復号部と、
     前記選択情報が前記オーディオ/音声符号化装置での逆順並び替え処理を示す場合は、前記一連の指示値を逆順に並び替える逆順並び替え部と、
     をさらに具備する、
     請求項12に記載のオーディオ/音声復号装置。
  15.  零ベクトル領域の指示値とその零ベクトル領域の終了位置を示すパラメータをその零ベクトル領域中の零ベクトル各々の一連の指示値に変換する第1のパラメータ変換部と、 
     零ベクトル領域の指示値と予め決められたスカラー値のうちの一つに開始インデックスの値を掛けることによってその零ベクトル領域中の零ベクトルの数を示すパラメータをその零ベクトル領域中の零ベクトル各々の一連の指示値に変換する第2のパラメータ変換部と、
     前記第1のパラメータ変換部または前記第2のパラメータ変換部のどちらが適用されるかを示す選択情報を復号する選択パラメータ復号部と、
     をさらに具備する、
     請求項14に記載のオーディオ/音声復号装置。
  16.  復号された信号を生成するために、符号化されたパラメータを復号するCELP復号部と、
     前記復号された信号から振幅情報を抽出する抽出部と、
     前記抽出された振幅情報に従って、グローバル利得のためのサーチ範囲を狭める狭化部と、
     前記狭められたサーチ範囲内で前記グローバル利得を逆量子化する逆量子化部と、
     周波数領域において誤差信号を逆量子化するベクトル逆量子化部と、
     前記グローバル利得を掛けることによって前記復号された誤差信号のエネルギーを復元するエネルギー復元部と、 
     前記誤差信号を周波数領域から時間領域へ変換する周波数-時間領域変換部と、
     出力信号を生成するために前記復号された信号と前記復号された誤差信号とを加算する加算部と、
     を具備するオーディオ/音声復号装置。
  17.  前記復号されたスペクトルは、
     復号されたスペクトルをある数のサブバンドに分割する帯域分割部と、
     復号されたスペクトルを利得補正係数によってスケーリングする利得補正部と、
     によりさらに処理される、
     請求項12に記載のオーディオ/音声復号装置。
  18.  入力信号のスペクトルを複数のサブバンドに分割する帯域分割ステップと、
     各サブバンド中の個々のスペクトル係数を量子化するベクトル量子化ステップと、 
     ベクトル量子化によって生成されたサブバンドの一連の指示値を分析することによって、前記スペクトルを零ベクトル領域と非零ベクトル領域に分割するスペクトル分析ステップと、 
     前記零ベクトル領域中の零ベクトル各々の一連の指示値を零ベクトル領域の指示値とその零ベクトル領域の終了位置を示すパラメータに変換するパラメータ符号化ステップと、
     を含んでなるオーディオ/音声符号化方法。
  19.  符号化されたパラメータを生成するためにCELP符号器によって入力信号を符号化するCELP符号化ステップと、
     復号された信号を生成するために前記符号化されたパラメータを復号するCELPローカル復号ステップと、
     誤差信号を生成するために入力信号から前記復号された信号を引き算する引き算ステップと、
     前記誤差信号と前記復号された信号を時間領域から周波数領域へ変換する時間-周波数領域変換ステップと、
     前記誤差信号のスペクトル全体の平均エネルギーを示すグローバル利得を計算するグローバル利得計算ステップと、
     前記復号された信号のスペクトルから振幅情報を抽出する抽出ステップと、
     前記抽出された振幅情報に従って、前記グローバル利得の量子化のためのサーチ範囲を狭める狭化ステップと、
     前記狭められたサーチ範囲内で前記グローバル利得を量子化する量子化ステップと、
      周波数領域において前記量子化されたグローバル利得を使用して前記誤差信号を量子化するベクトル量子化ステップと、
     を含んでなるオーディオ/音声符号化方法。
  20.  零ベクトル領域の指示値を復号する指示値復号ステップと、 
     その零ベクトル領域の終了位置を示すパラメータを復号する終了位置復号ステップと、
     零ベクトル領域の指示値とその零ベクトル領域の終了位置を示すパラメータをその零ベクトル領域中の零ベクトル各々の一連の指示値に変換するパラメータ変換ステップと、
     各サブバンド中の個々のスペクトル係数を逆量子化するベクトル逆量子化ステップと、 出力信号を生成するために、前記逆量子化されたスペクトル係数を時間領域へ変換する周波数-時間領域変換ステップと、
     を含んでなるオーディオ/音声復号方法。
  21.  復号された信号を生成するために、符号化されたパラメータを復号するCELP復号ステップと、
     前記復号された信号から振幅情報を抽出する抽出ステップと、
     前記抽出された振幅情報に従って、グローバル利得のためのサーチ範囲を狭める狭化ステップと、
     前記狭められたサーチ範囲内で前記グローバル利得を逆量子化する逆量子化ステップと、
     周波数領域において誤差信号を逆量子化するベクトル逆量子化ステップと、
     前記グローバル利得を掛けることによって前記復号された誤差信号のエネルギーを復元するエネルギー復元ステップと、 
     前記誤差信号を周波数領域から時間領域へ変換する周波数-時間領域変換ステップと、
     出力信号を生成するために前記復号された信号と前記復号された誤差信号とを加算する加算ステップと、
     を含んでなるオーディオ/音声復号方法。
PCT/JP2011/003884 2010-07-06 2011-07-06 スペクトル係数コーディングの量子化パラメータを効率的に符号化する装置及び方法 Ceased WO2012004998A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US13/807,129 US9240192B2 (en) 2010-07-06 2011-07-06 Device and method for efficiently encoding quantization parameters of spectral coefficient coding
JP2012523770A JP5629319B2 (ja) 2010-07-06 2011-07-06 スペクトル係数コーディングの量子化パラメータを効率的に符号化する装置及び方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2010-154232 2010-07-06
JP2010154232 2010-07-06

Publications (1)

Publication Number Publication Date
WO2012004998A1 true WO2012004998A1 (ja) 2012-01-12

Family

ID=45440987

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/003884 Ceased WO2012004998A1 (ja) 2010-07-06 2011-07-06 スペクトル係数コーディングの量子化パラメータを効率的に符号化する装置及び方法

Country Status (4)

Country Link
US (1) US9240192B2 (ja)
JP (1) JP5629319B2 (ja)
TW (1) TW201209805A (ja)
WO (1) WO2012004998A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013118476A1 (ja) * 2012-02-10 2013-08-15 パナソニック株式会社 音響/音声符号化装置、音響/音声復号装置、音響/音声符号化方法および音響/音声復号方法
WO2013180164A1 (ja) * 2012-05-30 2013-12-05 日本電信電話株式会社 符号化方法、符号化装置、プログラム、および記録媒体
JP5738480B2 (ja) * 2012-04-02 2015-06-24 日本電信電話株式会社 符号化方法、符号化装置、復号方法、復号装置及びプログラム

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106507111B (zh) * 2016-11-17 2019-11-15 上海兆芯集成电路有限公司 使用残差补偿的视频编码方法以及使用该方法的装置
CN110503977A (zh) * 2019-07-12 2019-11-26 国网上海市电力公司 一种变电站设备音频信号采集分析系统
US11575896B2 (en) * 2019-12-16 2023-02-07 Panasonic Intellectual Property Corporation Of America Encoder, decoder, encoding method, and decoding method
CN113206673B (zh) * 2021-05-24 2024-04-02 上海海事大学 用于网络化控制系统信号量化的差分缩放方法及终端

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004120623A (ja) * 2002-09-27 2004-04-15 Ntt Docomo Inc 符号化装置、符号化方法、復号装置及び復号方法
JP2009153157A (ja) * 2006-02-17 2009-07-09 Fr Telecom 置換符号による特にベクトル量子化におけるディジタル信号の符号化/復号化の改善

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6006179A (en) * 1997-10-28 1999-12-21 America Online, Inc. Audio codec using adaptive sparse vector quantization with subband vector classification
WO2003091989A1 (en) * 2002-04-26 2003-11-06 Matsushita Electric Industrial Co., Ltd. Coding device, decoding device, coding method, and decoding method
EP2538405B1 (en) * 2006-11-10 2015-07-08 Panasonic Intellectual Property Corporation of America CELP-coded speech parameter decoding method and apparatus
CN101842832B (zh) 2007-10-31 2012-11-07 松下电器产业株式会社 编码装置和解码装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004120623A (ja) * 2002-09-27 2004-04-15 Ntt Docomo Inc 符号化装置、符号化方法、復号装置及び復号方法
JP2009153157A (ja) * 2006-02-17 2009-07-09 Fr Telecom 置換符号による特にベクトル量子化におけるディジタル信号の符号化/復号化の改善

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
MINJIE XIE ET AL.: "Embedded algebraic vecto rquantizers (EAVQ) with application to wideband speech coding, Acoustics, Speech, and Signal Processing, 1996. ICASSP-96.", CONFERENCE PROCEEDINGS., 1996 IEEE INTERNATIONAL CONFERENCE ON, May 1996 (1996-05-01), pages 240 - 243 *
S. RAGOT ET AL.: "Low- complexity multi-rate lattice vector quantization with application to wideband TCX speech coding at 32 kbit/s", ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 2004. PROCEEDINGS. (ICASSP '04). IEEE INTERNATIONAL CONFERENCE ON, May 2004 (2004-05-01), pages I-501 - I-504 *
SAIKAT CHATTERJEE ET AL.: "Split Vector Quantization of LSF Parameters using Conditional Pdf", ACOUSTICS, SPEECH AND SIGNAL PROCESSING, 2007. ICASSP 2007. IEEE INTERNATIONAL CONFERENCE ON, April 2007 (2007-04-01), pages IV-1101 - IV-1104 *
TONG SHI ET AL.: "On the use of splitting vectors with zero components for constrained encoder design, Communications, 1996.", ICC 96, CONFERENCE RECORD, CONVERGING TECHNOLOGIES FOR TOMORROW'S APPLICATIONS. 1996 IEEE INTERNATIONAL CONFERENCE ON, July 1996 (1996-07-01), pages 1542 - 1544 *
WOO-JIN HAN ET AL.: "Multicodebook split vector quantization of LSF parameters", SIGNAL PROCESSING LETTERS, IEEE, IEEE, December 2002 (2002-12-01), pages 418 - 421 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013118476A1 (ja) * 2012-02-10 2013-08-15 パナソニック株式会社 音響/音声符号化装置、音響/音声復号装置、音響/音声符号化方法および音響/音声復号方法
US9454972B2 (en) 2012-02-10 2016-09-27 Panasonic Intellectual Property Corporation Of America Audio and speech coding device, audio and speech decoding device, method for coding audio and speech, and method for decoding audio and speech
JP5738480B2 (ja) * 2012-04-02 2015-06-24 日本電信電話株式会社 符号化方法、符号化装置、復号方法、復号装置及びプログラム
WO2013180164A1 (ja) * 2012-05-30 2013-12-05 日本電信電話株式会社 符号化方法、符号化装置、プログラム、および記録媒体
CN104321813A (zh) * 2012-05-30 2015-01-28 日本电信电话株式会社 编码方法、编码装置、程序、以及记录介质

Also Published As

Publication number Publication date
US20130103394A1 (en) 2013-04-25
US9240192B2 (en) 2016-01-19
TW201209805A (en) 2012-03-01
JPWO2012004998A1 (ja) 2013-09-02
JP5629319B2 (ja) 2014-11-19

Similar Documents

Publication Publication Date Title
KR101435893B1 (ko) 대역폭 확장 기법 및 스테레오 부호화 기법을 이용한오디오 신호의 부호화/복호화 방법 및 장치
JP6170520B2 (ja) オーディオ及び/またはスピーチ信号符号化及び/または復号化方法及び装置
KR101139172B1 (ko) 스케일러블 음성 및 오디오 코덱들에서 양자화된 mdct 스펙트럼에 대한 코드북 인덱스들의 인코딩/디코딩을 위한 기술
CN102460570B (zh) 用于对音频信号进行编码和解码的方法及设备
CN103098126B (zh) 音频编码器、音频解码器及利用复预测处理多信道音频信号的相关方法
CN103052983B (zh) 音频或视频编码器、音频或视频解码器及编码和解码方法
JP5695074B2 (ja) 音声符号化装置および音声復号化装置
JP6027538B2 (ja) 音声符号化装置、音声復号装置、音声符号化方法及び音声復号方法
EP2814028B1 (en) Audio and speech coding device, audio and speech decoding device, method for coding audio and speech, and method for decoding audio and speech
JP5629319B2 (ja) スペクトル係数コーディングの量子化パラメータを効率的に符号化する装置及び方法
MX2015004022A (es) Aparato y metodo para codificar y decodificador una señal de audio codificada utilizando modelado de ruido temporal/de parche.
CN101276587A (zh) 声音编码装置及其方法和声音解码装置及其方法
WO2005096274A1 (en) An enhanced audio encoding/decoding device and method
CN101162584A (zh) 使用带宽扩展技术对音频信号编码和解码的方法和设备
EP3685375B1 (en) Method and device for efficiently distributing a bit-budget in a celp codec
CN1677492A (zh) 一种增强音频编解码装置及方法
WO2009022193A2 (en) Devices, methods and computer program products for audio signal coding and decoding
KR20160098597A (ko) 통신 시스템에서 신호 코덱 장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11803335

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2012523770

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 13807129

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 11803335

Country of ref document: EP

Kind code of ref document: A1