[go: up one dir, main page]

JP7261173B2 - 予測に基づく整形を使用したオーディオ信号の後処理のための装置および方法 - Google Patents

予測に基づく整形を使用したオーディオ信号の後処理のための装置および方法 Download PDF

Info

Publication number
JP7261173B2
JP7261173B2 JP2019553965A JP2019553965A JP7261173B2 JP 7261173 B2 JP7261173 B2 JP 7261173B2 JP 2019553965 A JP2019553965 A JP 2019553965A JP 2019553965 A JP2019553965 A JP 2019553965A JP 7261173 B2 JP7261173 B2 JP 7261173B2
Authority
JP
Japan
Prior art keywords
spectral
frames
filter
sequence
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019553965A
Other languages
English (en)
Other versions
JP2020512597A (ja
Inventor
サッシャ ディスヒ
クリスティアン ウーレ
ユールゲン ヘレ
ペーター プロカイン
パトリック ガンプ
アントニオス カランプルニオティス
ユリア ハーヴェンシュタイン
オリヴァー ヘルムート
ダニエル リヒター
Original Assignee
フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ filed Critical フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Publication of JP2020512597A publication Critical patent/JP2020512597A/ja
Application granted granted Critical
Publication of JP7261173B2 publication Critical patent/JP7261173B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Description

本願発明は、オーディオ信号処理に関し、かつ特に符号化アーチファクトを除去することによりオーディオ品質を高めるためのオーディオ信号後処理に関する。
オーディオ符号化は、心理音響的知識を使用してオーディオ信号における冗長性および無関係性を利用することを扱う信号圧縮の領域である。低ビットレート状態で、望ましくないアーチファクトがオーディオ信号にしばしば導入される。突出したアーチファクトはトランジェント信号成分によりトリガされる一時的なプレエコーおよびポストエコーである。
特に、ブロックベースのオーディオ処理において、例えば周波数領域変換符号化器内のスペクトル係数の量子化雑音は、1ブロックの全期間にわたって広がるので、これらプレエコーおよびポストエコーが生じる。ギャップ充填、パラメトリック空間オーディオ、または帯域幅拡張などのセミパラメトリック符号化ツールも、パラメーター駆動調整がサンプルの時間ブロック内で通常起こるため、パラメータ帯域に制限されたエコーアーチファクトにつながる可能性がある。
本願発明は、知覚変換符号化によって導入されたトランジェント現象の主観的な品質低下を低減または軽減する非誘導型ポストプロセッサに関する。
コーデック内のプレエコーおよびポストエコーアーチファクトを防ぐための最先端のアプローチには、変換コーデックのブロック切替および一時的なノイズ整形が含まれる。コーデックチェーンの背後にあるポストプロセッシング技術を使用して、プレエコーおよびポストエコーのアーチファクトを抑制する最先端のアプローチが非特許文献1に公開されている。
[1] Imen Samaali, Mania Turki-Hadj Alauane, Gael Mahe, "Temporal Envelope Correction for Attack Restoration in Low Bit-Rate Audio Coding", 17th European Signal Processing Conference (EUSIPCO 2009) , Scotland, August 24-28, 2009;および
[2] Jimmy Lapierre and Roch Lefebvre, "Pre-Echo Noise Reduction In Frequency-Domain Audio Codecs", ICASSP 2017, New Orleans.
アプローチの最初のクラスは、コーデックチェーン内に挿入する必要があるが、以前に符号化されたアイテム(アーカイブされたサウンド素材など)に事後的に適用することはできない。2番目のアプローチは本質的にデコーダにポストプロセッサとして実装されるが、エンコーダ側で元の入力信号から派生した制御情報が依然必要である。
本願発明の目的は、オーディオ信号の後処理のための改善された概念を提供することである。
この目的は、請求項1のオーディオ信号を後処理するための装置、請求項19のオーディオ信号を後処理する方法、または請求項20のコンピュータプログラムによって達成される。
本願発明の態様は、このようなより早い符号化/復号化操作は、知覚品質を低下させるが、トランジェントを完全に除去するわけではないので、より早い符号化および復号化を受けたオーディオ信号においてトランジェントが依然として局在化され得るという発見に基づいている。従って、オーディオ信号またはオーディオ信号の時間周波数表現を使用してトランジェント部分の時間的な位置を推定するためのトランジェント位置推定器が提供される。本願発明によれば、オーディオ信号の時間周波数表現を操作して、トランジェント位置の前の時間的位置における時間周波数表現のプレエコーを低減または除去するか、または実装に応じてトランジェント部分のアタックが増幅されるように、トランジェント位置での時間周波数表現、および、トランジェント位置の後に続き、時間周波数表現の整形を実行する。
本願発明によれば、検出されたトランジェント位置に基づいて、オーディオ信号の時間周波数表現内で信号操作が実行される。従って、非常に正確なトランジェント位置検出と、一方では対応する有用なプレエコー低減、そして他方では、アタックの増幅は、最終的な周波数時間変換により、フレーム全体での操作の自動スムージング/分散が行われるように周波数領域における処理演算によりおよび複数のフレームでのオーバーラップ加算演算により得られる。最終的に、これにより、オーディオ信号の操作による可聴クリック音が回避され、当然ながら、プレエコーのない、または一方のプレエコーの量が少なく、および/または他方のトランジェント部分についてシャープになったアタックを有するオーディオ信号が改善される。
好ましい実施形態は、知覚変換符号化によって導入されたトランジェントの主観的な品質低下を低減または軽減する非誘導型ポストプロセッサに関する。
本願発明のさらなる態様によれば、トランジェント位置推定器を特に必要とせずにトランジェント改善処理が実行される。この態様では、オーディオ信号を一連のスペクトルフレームを含むスペクトル表現に変換するための時間スペクトル変換器が使用される。次に、予測分析器は、スペクトルフレーム内の周波数にわたる予測の予測フィルタデータを計算し、前記予測フィルタデータによって制御される後続の整形フィルタは、スペクトルフレームを整形して、スペクトルフレーム内のトランジェント部分を強化する。オーディオ信号の後処理は、整形されたスペクトルフレームを含む一連のスペクトルフレームを時間領域に戻すためのスペクトル時間変換で完了する。
従って、時間領域の処理による可聴クリックなどが回避されるように、時間領域の表現ではなくスペクトル表現内で修正が行われる。さらに、スペクトルフレーム内の周波数に対する予測の予測フィルタリングデータを計算する予測分析器が使用されるという事実により、オーディオ信号の対応する時間領域エンベロープは、後続の整形によって自動的に影響を受ける。特に、整形は、スペクトル領域内での処理と、周波数に対する予測が使用されるという事実により、オーディオ信号の時間領域エンベロープが強化され、すなわち、時間領域エンベロープには、より高いピークとより深い谷があるようになされる。換言すれば、スムージングの反対は、実際にトランジェントを示す必要なく、トランジェントを自動的に強化する整形によって実行される。
おそらく、2種類の予測フィルタが導出される。第1の予測フィルタデータは、平坦化フィルタ特性の予測フィルタデータであり、第2の予測フィルタデータは、整形フィルタ特性の予測フィルタデータである。換言すれば、平坦化フィルタ特性は逆フィルタ特性であり、整形フィルタ特性は予測合成フィルタ特性である。しかしながら、これらのフィルタデータは両方とも、スペクトルフレーム内の周波数にわたって予測を実行することによって導出される。好ましくは、異なるフィルタ係数の導出のための時定数は異なるため、第1の予測フィルタ係数の計算には第1の時定数が使用され、第2の予測フィルタ係数の計算には第2の時定数が使用され、第2の時定数は第1の時定数より大きい。この処理は、再び、トランジェント信号部分が非トランジェント信号部分よりもはるかに影響を受けることを自動的に確認する。換言すれば、処理は明示的なトランジェント検出方法に依存しないが、異なる時定数に基づく平坦化とその後の整形により、非トランジェント部分よりもトランジェント部分の影響がはるかに大きくなる。
従って、本願発明によれば、周波数にわたる予測の適用により、(平滑化ではなく)時間領域エンベロープが強化される、自動的なトランジェント改善処理が得られる。
本願発明の実施形態は、さらなるガイダンス情報を必要とせずに動作する、以前に符号化された音声素材のポストプロセッサとして設計される。従って、これらの実施形態は、アーカイブされる前にこのアーカイブされた音声素材に適用された知覚符号化によって損なわれたアーカイブされた音声素材に適用することができる。
第1の態様の好ましい実施例は以下の主な処理ステップからなる。
信号内のトランジェント位置をガイドなしで検出して、トランジェント位置を見つける
トランジェントに先行するプレエコー期間と強度の推定
プレエコーアーチファクトをミュートするための適切な時間的ゲイン曲線の導出
トランジェント前の適応された時間ゲインカーブによる推定プレエコーのダッキング/ダンピング(プレエコーを緩和するため)
アタック時、アタックの分散を緩和
トーンまたはその他の準定常スペクトル帯域のダッキングからの除外
第2の態様の好ましい実施形態は、以下の主要な処理ステップからなる。
信号内のトランジェント位置をガイドなしで検出して、トランジェント位置を見つける(この手順はオプション)
周波数領域線形予測係数(FD-LPC)平坦化フィルタと後続のFD-LPC整形フィルタとの適用によるアタックエンベロープの鮮鋭化、平坦化フィルタは平滑化された時間エンベロープを表し、整形フィルタは平滑性の低い時間エンベロープを表し、両方のフィルタの予測ゲインが補償される。
好ましい実施形態は、マルチステップ処理チェーンの最後のステップとして無誘導のトランジェント強化を実装するポストプロセッサの実施形態である。他の強化技術、例えば、無誘導帯域幅拡張、スペクトルギャップ充填などを適用する場合、以前の強化ステージから導入される信号修正を含みかつ有効であるようにトランジェント強化はチェーンの最後にあることが好ましい。
本願発明のすべての態様は、ポストプロセッサとして実装することができ、1つ、2つ、または3つのモジュールを直列に計算するか、計算効率のために共通モジュール(例えば(I)STFT、トランジェント検出、トーン検出)を共有することができる。
本明細書で説明される2つの態様は、オーディオ信号の後処理のために互いに独立して、または一緒に使用できることに留意されたい。トランジェント位置検出とプレエコー低減およびアタック増幅に依存する第1の態様は、第2の態様なしで信号を強化するために使用できる。それに対応して、周波数にわたるLPC分析と周波数領域内の対応する整形フィルタリングに基づく第2の態様は、必ずしもトランジェント検出に依存せず、明示的なトランジェント位置検出器なしでトランジェントを自動的に強化する。この実施形態は、トランジェント位置検出器によって強化できるが、そのようなトランジェント位置検出器は必ずしも必要ではない。さらに、第2の態様は、第1の態様とは独立して適用できる。さらに、他の実施形態では、第2の態様は、第1の態様によって後処理されたオーディオ信号に適用できることを強調する必要がある。しかしながら、順序は次のように行うことができる。すなわち、最初のステップで第2の態様が適用され、その後、オーディオ信号を後処理してそのオーディオ品質を改善するために以前に導入された符号化アーチファクトを除去することにより第1の態様が適用される。
さらに、第1の態様には基本的に2つのサブ態様があることに注意されたい。第1のサブ態様は、トランジェント位置検出に基づくプレエコー低減であり、第2のサブ態様は、トランジェント位置検出に基づくアタック増幅である。好ましくは、両方のサブ態様は直列に組合わされ、さらにより好ましくは、プレエコー低減が最初に実行され、次にアタック増幅が実行される。しかしながら、他の実施形態では、2つの異なるサブアスペクトは、互いに独立して実装でき、場合によっては第2のサブアスペクトと組合せることができる。従って、プレエコーの低減は、アタックを増幅することなく、予測ベースのトランジェント強化処理と組合せることができる。他の実装では、プレエコー低減は実行されないが、必ずしもトランジェント位置検出を必要としない後続のLPCベースのトランジェント整形とともにアタック増幅が実行される。
組合わされた実施形態では、サブアスペクトと第2のアスペクトとの両方を含む第1のアスペクトが特定の順序で実行され、この順序は第1にプレエコー低減の実行、第2にアタック増幅の実行、および第3に周波数上のスペクトルフレームの予測に基づくLPCベースのアタック/トランジェント強化処理の実行からなる。
本願発明の好ましい実施例は、添付の図面に関連して以下に議論されている。
図1は第1の態様によるブロック図である。 図2aはトーン推定器に基づく第1の態様の好ましい実装を示す図である。 図2bはプレエコー幅推定に基づく第1の態様の好ましい実現を示す図である。 図2cはプレエコー閾値推定に基づく第1の態様の好ましい実施形態を示す図である。 図2dはプレエコー低減/除去に関する第1のサブ態様の好ましい実施形態を示す図である。 図3aは第1のサブ態様の好ましい実装を示す図である。 図3bは第1のサブ態様の好ましい実装を示す図である。 図4は第1のサブ態様のさらに好ましい実装を示す図である。 図5は本願発明の第1の態様の2つのサブ態様を示す図である。 図6aは第2のサブ態様上の概観を示す図である。 図6bはトランジェント部分および持続部分への分割に依存する第2のサブ態様の好ましい実装を示す図である。 図6cは図6bの分割のさらなる実施例を示す図である。 図6dは第2のサブ態様のさらなる実現を示す図である。 図6eは第2のサブ態様のさらなる実施例を示す図である。 図7は本願発明の第2の態様の実施例のブロック図を示す図である。 図8aは2つの異なるフィルタデータに基づく第2の態様の好ましい実装を示す図である。 図8bは2つの異なる予測フィルタデータの計算についての第2の態様の好ましい実施例を示す図である。 図8cは図7の整形フィルタの好ましい実装を示す図である。 図8dは図7の整形フィルタのさらなる実装を示す図である。 図8eは本願発明の第2の態様のさらなる実施例を示す図である。 図8fは異なる時定数を有するLPCフィルタ推定についての好ましい実装を示す図である。 図9は本願発明の第1の態様の第1のサブ態様および第2のサブ態様に依存し、さらに、本願発明の第1の態様に基づく手順の出力に基づいて実行される本願発明の第2の態様に付加的に依存する後処理手順についての好ましい実装の概要を示す図である。 図10aはトランジェント位置検出器の好ましい実装を示す図である。 図10bは図10aの検出関数計算についての好ましい実装を示す図である。 図10cは図10aの開始ピッカーの好ましい実現を示す図である。 図11はトランジェント強化ポストプロセッサとして第1のおよび/または第2の態様に関連する本願発明の一般的な設定を示す図である。 図12-1は移動平均フィルタリングを示す図である。 図12-2は、単極再帰平均およびハイパスフィルタリングを示す図である。 図12-3は、時間信号予測および残差を示す図である。 図12-4は、予測誤差の自己相関を示す図である。 図12-5は、LPCを有するスペクトルエンベロープ推定を示す図である。 図12-6は、LPCを有する時間エンベロープ推定を示す図である。 図12-7は、アタックトランジェント対周波数領域トランジェントを示す図である。 図12-8は、「周波数領域トランジェント」のスペクトルを示す図である。 図12-9は、トランジェント、開始およびアタックの間の区別を示す図である。 図12-10は、静かで同時のマスキングにおける絶対的な閾値を示す図である。 図12-11は、時間的なマスキングを示す図である。 図12-12は知覚オーディオエンコーダの一般的な構造を示す図である。 図12-13は知覚オーディオデコーダの一般的な構造を示す図である。 図12-14は知覚オーディオ符号化における帯域幅制限を示す図である。 図12-15は劣化したアタック特性を示す図である。 図12-16はプレエコーアーチファクトを示す図である。 図13-1はトランジェント強化アルゴリズムを示す図である。 図13-2はトランジェント検出:検出関数(カスタネット)を示す図である。 図13-3はトランジェント検出:検出関数(ファンク)を示す図である。 図13-4はプレエコー低減方法のブロック図を示す図である。 図13-5はトーン成分の検出を示す図である。 図13-6はプレエコー幅推定-図式的アプローチを示す図である。 図13-7はプレエコー幅推定-例を示す図である。 図13-8はプレエコー幅推定-検出関数を示す図である。 図13-9はプレエコー低減-スペクトル図(カスタネット)を示す図である。 図13-10はプレエコー閾値検出(カスタネット)を示す図である。 図13-11はトーン成分についてのプレエコー閾値検出を示す図である。 図13-12はプレエコー低減についてのパラメータ減衰曲線を示す図である。 図13-13はプレマスキング閾値のモデルを示す図である。 図13-14はプレエコー低減後の目標の大きさの計算を示す図である。 図13-15はプレエコー低減-スペクトログラム(グロッケンシュピール)を示す図である。 図13-16は適応トランジェントアタック強化を示す図である。 図13-17は適応トランジェントアタック強化についての減衰曲線を示す図である。 図13-18は自己相関窓関数を示す図である。 図13-19はLPC整形フィルタの時間領域伝達関数を示す図である。 図13-20はLPCエンベロープ整形-入出力信号を示す図である。
図1はトランジェント位置検出を使用するオーディオ信号を後処理するための装置を示す。特に、後処理をするための装置は一般的な枠組みに関して図11に示されるように掲載される。特に図11は10で示される低下したオーディオ信号の入力を示す。この入力はトランジェント強化ポストプロセッサ20に送られて、トランジェント強化ポストプロセッサ20は図11に30で示された強化されたオーディオ信号を出力する。
図1に示されたポストプロセッシング20のための装置はオーディオ信号を時間周波数表現に変換するための変換器100を含む。さらに装置はトランジェント位置の時間的位置を推定するためのトランジェント位置推定器120を含む。トランジェント位置推定器120は変換器100およびトランジェント位置推定120の間の接続により示される時間周波数表現を使用するか時間領域内のオーディオ信号を使用して動作する。この選択は図1における破線により示される。さらに、装置は時間周波数表現を操作するための信号操作器140を含む。信号操作器140はトランジェント位置の時間的に前の位置での時間周波数表現におけるプレエコーを低減または除去するように構成されており、トランジェント位置はトランジェント位置推定器120により示されている。選択的にあるいは付加的に、信号操作器140はトランジェント位置のアタックが増幅されるようにトランジェント位置において変換器100および信号操作器140の間の線により描かれるように時間周波数表現の整形を実行するように構成されている。
このように、図1における後処理のための装置はプレエコーを低減または除去するおよび/または時間周波数表現を整形してトランジェント位置のアタックを増幅する。
図2aはトーン推定器200を示す。特に、図1の信号操作器140は時間的にトランジェント位置に先行する時間周波数表現におけるトーン信号成分を検出するためのこの種のトーン推定器200を含む。特に、信号操作器140はトーン信号成分が検出される周波数において信号操作がトーン信号成分が検出されない周波数と比べて低減されあるいは遮断されるように周波数選択方法においてプレエコー低減または除去を適用するように構成されている。この実施例において、ブロック220により示されたようにプレエコー低減/除去は、トーン信号成分が検出される或るフレームの周波数位置において周波数選択的にオンオフが切替えられるかあるいは少なくとも徐々に減少される。これは一般的にトーン信号成分が同時にプレエコーまたはトランジェントとなり得ないのでトーン信号成分が操作されないことを確実にする。それどころか、トーン成分は、特定のフレームに関して、ピークエネルギーを持つ特定の周波数ビンであり、このフレーム内の他の周波数は低エネルギーしかない一方、これは、トランジェントの典型的な性質は、トランジェントが多くの周波数ビンに同時に影響を与える広帯域効果であるという事実による。
さらに、図2bに示されるように、信号操作器140は、プレエコー幅推定器240を含む。このブロックはトランジェント位置に先行するプレエコーの時間幅を推定するように構成されている。この推定はプレエコーを低減あるいは除去する努力においてトランジェント位置の前の正しい時間部分が信号操作器140により操作されることを確認する。時間的なプレエコー幅の推定は複数の後続のオーディオ信号フレームを含む時間周波数表現におけるプレエコー開始フレームを決定するためのオーディオ信号の時間上の信号エネルギーの発達に基づく。典型的に、時間上のオーディオ信号の信号エネルギーのこの種の発達は、増加するあるいは一定の信号エネルギーであるが、時間上のエネルギー発達の低下にはよらない。
図2bは、プレエコー低減または除去または図2dに述べられているようにプレエコー“ダッキング”が実行される本願発明の第1の態様の第1のサブ態様に従うポストプロセッシングの好ましい実施例のブロック図を示す。
障害のあるオーディオ信号が入力10に供給され、このオーディオ信号は特定のブロック長で動作しオーバーラップブロックで動作する短時間フーリエ変換分析器として好ましくは実装された変換器100に入力される。
さらに、図2aで述べられたようにトーン推定器200はプレエコーを低減または除去するためにブロック100によって生成された時間周波数表現にプレエコー回避カーブ160を適用するために備わったプレエコー回避ステージ320を制御するために備わっている。ブロック320の出力は周波数時間変換器370を使用して時間領域に再び変換される。この周波数時間変換器は好ましくはブロッキングアーチファクトを回避するために各ブロックから次のブロックまでフェードイン/フェードアウトするためのオーバーラップ加算演算を演算する逆短時間フーリエ変換合成ブロックとして実装されている。
ブロック370の結果は強化されたオーディオ信号30の出力である。
好ましくは、プレエコー回避曲線ブロック160は図2bのブロック240により決定されたプレエコー幅または図3a、図3b、図4に関連して議論されたように他のプレエコー特性等のプレエコーに関連する特性を集めるプレエコー推定器150により制御されている。
好ましくは、図3aにおいて概説したように、プレエコー回避曲線160はブロック100により生成されたように複数の時間フレームの各周波数ビンについて特定の周波数領域重み付け係数を有する重み付けマトリクスであると見なすことができる。図3aは図2dのプレエコー回避演算320に対応するスペクトル重み付け器320を制御する図2dのブロック160に対応するスペクトル重み付けマトリクス計算機300を制御するプレエコー閾値推定器260を示す。
好ましくは、プレエコー閾値推定器260は、プレエコー幅によって制御され、時間周波数表現に関する情報も受信する。同じことは、スペクトル重み付けマトリクス計算機300にも、そしてもちろん、最終的に、プレエコーが低減または除去される周波数領域出力信号を生成するために重み係数マトリクスを時間周波数表現に適用するスペクトル重み付け器320にも当てはまる。好ましくは、スペクトル重み付けマトリクス計算機300は700Hz以上および好ましくは800Hz以上である特定の周波数範囲において動作する。さらに、スペクトル重み付けマトリクス計算機300は図1の変換器100により適用されたようにプレエコー領域のみにオーバーラップ加算特性に依存するように重み付け係数の計算に制限される。さらに、プレエコー閾値推定器260は例えば図2bのブロック240により決定されたようにプレエコー幅内で時間周波数表現におけるスペクトル値についてプレエコー閾値を推定するように構成され、プレエコー閾値はプレエコー低減または除去に続いて生じるべき、すなわち、プレエコーなしで真の信号増幅に対応すべき対応するスペクトル値の増幅閾値を示す。
おそらく、プレエコー閾値推定器260はプレエコー幅の開始からトランジェント位置までの増加特性を有する重み付け曲線を使用してプレエコー閾値を決定するように構成されている。特にこの種の重み付け曲線はMpreによって示されたプレエコー幅に基づいて図3bにおけるブロック350によって決定される。次に、この重み付け曲線Cmはブロック340でスペクトル値に適用され、ブロック330によりスペクトル値が以前に平滑化されている。次にブロック360に示されるように、最小は全ての周波数インデックスkについて閾値として選択される。このように、好ましい実施例に従って、プレエコー閾値推定器260は時間周波数表現の複数の後続フレームにわたる時間周波数表現を平滑化330し、かつプレエコー幅の開始からトランジェント位置までの増加特性を有する重み付け曲線を使用する平滑化された時間周波数表現を重み付け(340)するように構成されている。この増加特性は通常「信号」、すなわちプレエコーアーチファクトのない信号の特定のエネルギーの増減が可能なことが確認される。
さらなる実施例において、信号操作器140は時間周波数表現のスペクトル値についての個々のスペクトル重みを計算するためのスペクトル重み計算機300,160を使用するように構成されている。さらに、スぺクトル重み付け器320はスペクトル重みを使用する時間周波数表現の重み付けスペクトル値を備えて操作された時間周波数表現を得る。このように、操作は重みを使用することによりおよび図1の変換器100により生成されたように個々の時間/周波数ビンを重み付けすることにより周波数領域内で実行される。
特に、スペクトル重みは、図4に示された特定の実施例において示されたように計算される。スペクトル重み付け器320は第1の入力として時間周波数表現Xk,mを受信し第2の入力としてスペクトル重みを受信する。これらのスペクトル重みはともにこのブロックへの入力である現実のスペクトル値および目標のスペクトル値を使用して生のスペクトル重みを決定するように構成された生の重み計算機450により計算されている。生の重み計算機は後に示される式4.18に示されるように演算を行うが、一方で実際の値に依存し、他方で目標値に依存する他の実装も有用である。さらに、その代わりにあるいはそれに加えて、スペクトル重みはアーチファクトを回避するためにかつ1フレームから他へ強すぎる変化を避けるために経時的に平滑化される。
好ましくは、生の重み計算機450への目標値はプレマスキングモデラー420により具体的に計算される。プレマスキングモデラー420は好ましくは後に定義される式4.26に従って好ましくは動作するが、心理音響効果に依存する他の実装も使用でき、トランジェントについて典型的に生じるプレマスキング特性に特に依存する。プレマスキングモデラー420は一方で特にプレマスキングタイプ音響効果に依存するマスクを計算するマスク推定器410により制御される。一実施例において、マスク推定器410は後に記述される式4.21に従って動作するが、代わりに他のマスク推定器は心理音響プレマスク効果に依存して適用できる。
さらに、減衰器430は、プレエコー幅の開始で複数のフレーム上の減衰曲線を使用してプレエコーの低減または制限をフェードインするために使用される。この減衰曲線はあるフレームにおける現実の値によりおよび決定されたプレエコー閾値thkにより好ましくは制御される。減衰器430は、プレエコー低減/制限がすぐに開始されるのではなくスムーズにフェードインされる旨を確認する。好ましい実装は式4.20に関連して後に示されるが、他の減衰操作は同様に有用である。好ましくは、減衰器430は例えばプレエコー幅推定器240により決定されるようにプレエコー幅Mpreにより制御される減衰曲線推定器440により制御される。後に議論される式4.19に従って減衰曲線推定器の実施例が動作するが、他の実施例も同様に有用である。最後に、現実の値とともに、ある重みが時間周波数表現に適用されかつ特に好ましい平滑に続く特定の時間/周波数ビンに適用されるブロック450により決定できるように、ブロック410、420、430、440によるこれら全ての動作はある目標値を計算するのに有用である。
自然に、目標値はプレマスキング心理音響効果なしでかついかなる減衰もなしで決定できる。目標値はちょうど閾値thkであるが、ブロック410、420、430、440により実行される特定の計算はスペクトルの重み320の出力信号における改良されたプレエコー軽減を生じることが見いだされた。
このように、プレエコー閾値以下の増幅度を有するスペクトル値が信号操作により影響されないように目標スペクトル値を決定することあるいはプレエコー領域のスペクトル値のダンピングがプレマスキングモデル410に基づき減少するようにプレマスキングモデル410,420を使用して目標スペクトル値を決定することは好ましい。
好ましくは、変換器100内で実行されるアルゴリズムは時間周波数表現が複素スペクトル値を含むように行われる。しかしながら、一方、信号操作器はブロック320の操作に続いて振幅値のみ変化し、位相は操作前と同じように実数値スペクトル重み値を複素スペクトル値に適用するように構成される。
図5は図1の信号操作器140の好ましい実装を示す。特に、信号操作器140は220で示されたトランジェント位置の前で動作するプレエコー低減器/除去器またはブロック500により示されたようにトランジェント位置の後で/トランジェント位置で動作するアタックアンプを含む。両ブロック220、500はトランジェント位置推定器120により決定されたようにトランジェント位置により制御される。本願発明の第1の態様に従って、プレエコー低減器220は第1のサブ態様に対応し、ブロック500は第2のサブ態様に対応する。両方の態様は互いに選択的に、すなわち、図5の破線で示されたように、他の態様なしで使用できる。しかしながら、他方、図5に示された特定の順序における両方の操作、すなわち、プレエコー低減器220が稼働しており、プレエコー低減器/除去器220の出力がアタックアンプ500に入力されること、が使用されることが好ましい。
図6aはアタックアンプ500の好ましい実施例を示す。また、アタックアンプ500はスペクトル重み計算機610および後続のスペクトル重み付け器620を含む。このように、信号操作器は時間周波数表現のトランジェントフレーム内の500のスペクトル値を増幅し、好ましくは時間周波数表現内のトランジェントフレームに続く1つ以上のフレーム内のスぺクトル値を付加的に増幅するように構成される。
好ましくは、信号操作器140は最小周波数上のスペクトル値を増幅のみ行うように構成され、この最小周波数は250Hz以上2kHz以下である。トランジェント位置の開始でのアタックは一般に信号の全高周波数範囲にわたって広がるので、増幅は上側境界周波数まで行える。
好ましくは、信号操作器140および、特に、図5のアタックアンプ500は一方はトランジェント部分、他方は持続部分内でフレームを分割するための分割器630を含む。トランジェント部分はスペクトル重み付けをなされ、さらにスペクトル重み付けはトランジェント部分に関する情報に依存して計算される。次に、トランジェント部分のみがスペクトル的に重み付けられ、かつ一方で図6bにおけるブロック610,620の結果およびドライバ630による出力としての持続部分はアタックが増幅されるオーディオ信号を出力するための結合器640内で最終的に結合される。このように、信号操作器140はトランジェント位置での時間周波数表現を持続部分とトランジェント部分とに分割630し、好ましくは同様にトランジェント位置に続くフレームをさらに分割するように構成される。信号操作器140はトランジェント部分の増幅のみを行い持続部分の増幅または操作は行わないように構成されている。
上述したように、信号操作器140はブロック680により示されたようにフェードアウト特性685を使用して時間的にトランジェント位置に続く時間周波数表現の時間部分をも増幅するように構成されている。特に、スペクトル重み計算機610はフェードアウト曲線Gm685に関して一方ではトランジェント部分に関し他方では持続部分に関する情報を受信し、さらに好ましくはスペクトル値Xk,mに対応する増幅度に関する情報を受信する重み係数決定器680を含む。好ましくは、重み係数決定器680は後で説明される式4.29に従って動作するが、トランジェント部分、持続部分およびフェードアウト特性685に関する情報による他の実施例が同様に使用される。
重み係数決定680に続いて、周波数にわたる平滑がブロック690において実行され、次に、ブロック690の出力において、個々の周波数値についての重み係数は時間/周波数表現をスペクトル的に重み付けするためにスペクトル重み付け器620により使用される用意がある。好ましくは、フェードアウト特性685の最大値により例えば決定されたように増幅された部分が決定され300%と150%の間である。好ましい実施形態では、2.2の最大増幅率が使用され、これは、いくつかのフレームにわたって値1まで減少し、図13-17に示されるように、このような減少は、例えば、60フレーム後に得られる。図13-17は指数関数的減衰の一種を示し、他の減衰、例えば線形減衰やコサイン減衰が同様に使用できる。
好ましくは、信号操作140の結果は図2dに示されたスペクトル時間変換器370を使用して周波数領域から時間領域に変換される。好ましくは、スペクトル時間変換器370は時間周波数表現の少なくとも2つの隣接フレームを含むオーバーラップ加算演算を適用するが、3または4フレームのオーバーラップが使用されるマルチオーバーラップ手順が同様に使用できる。
好ましくは、一方の変換器550および他方の他の変換器370は1ないし3msの間の同じホップサイズまたは2ないし6msの間のウィンドウ長を有する分析ウィンドウを適用する。さらに、好ましくは、一方ではオーバーラップ範囲、他方ではホップサイズ、または時間周波数変換器100および周波数時間変換器370により適用されたウィンドウは互いに等しい。
図7は本願発明の第2の態様に従うオーディオ信号の後処理20のための装置を示す。装置はオーディオ信号を一連のスペクトルフレームを含むスペクトル表現に変換するための時間スペクトル変換器700を含む。さらに、スペクトルフレーム内の周波数にわたって予測についての予測フィルタデータを計算するための予測分析器720が使用される。周波数にわたって動作する予測分析器720はフレームについてのフィルタデータを生成しかつフレームのためのこのフィルタデータはスペクトルフレーム内のトランジェント部分を強化するための整形フィルタ740フレームにより使用される。整形フィルタ740の出力は整形されたスペクトルフレームを含む一連のスペクトルフレームを時間領域に変換するためのスペクトル時間変換器760に転送される。
好ましくは、一方では予測分析器720または他方では整形フィルタ740は明確なトランジェント位置検出なしに動作する。代わりにブロック720により適用された周波数にわたる予測によりおよびブロック740により生成されたトランジェント位置を強化するための整形によりオーディオ信号の時間エンベロープは特定のトランジェント検出なしにトランジェント部分が自動的に強化されるように操作される。しかしながら、場合によっては、ブロック720,740を明示的なトランジェント位置検出によってサポートして、非トランジェント部分でオーディオ信号に何らかのアーチファクトが加えられていないことを確認することもできる。
好ましくは、予測分析器720は図8aに示されたようにフィルタ特性740aを平坦化するための第1の予測フィルタデータ720aおよびフィルタ特性740bを整形するための第2の予測フィルタデータ720bを計算するように構成される。特に予測分析器720は入力として一連のフレームの完全なフレームを受信し、平坦化されたフィルタデータ特性を得るか整形フィルタ特性を生成するかのために周波数にわたって予測分析のための操作を実行する。フィルタ特性の平坦化は最終的にFIR(有限インパルス応答)によって表わせる逆フィルタと類似するフィルタ特性であり、整形についての第2のフィルタデータは740bで示される合成またはIIRフィルタ特性(IIR=有限インパルス応答)に対応する。
好ましくは、第2のフィルタデータ720bにより示された整形の程度は第1のフィルタデータにより示された平坦化720aの度合いよりも大きく、その結果、両方の特性740a,740bを持つ整形フィルタの応用に続いて元の時間エンベロープよりも平坦度が小さい時間エンベロープにおいて生じる信号の一種の“オーバー整形”が得られる。これはまさにトランジェント強化に必要なものである。
図8aは、2つの異なるフィルタ特性、1つの整形フィルタおよび1つの平坦化フィルタが計算される状況を示し、他の実施形態は、単一の整形フィルタ特性に依存する。これは、当然ながら、先行する平坦化を行わずに信号を整形することができ、最終的には、自動的に改善されたトランジェントを有するオーバー整形信号が再び得られるという事実に起因する。このオーバー整形の効果は、トランジェント位置検出器によって制御することができるが、このトランジェント位置検出器は、トランジェント部分よりも少ない非トランジェント部分に自動的に影響を与える信号操作の好ましい実施のために必要とされない。両方の手続は、周波数にわたる予測はオーディオ信号のトランジェント性質を強化するために操作された時間領域信号の時間エンベロープに関する情報を得るために予測分析器720により適用されるという事実に十分に依存する。
この実施例において、自己相関信号800は図8bにおける800で示されたスペクトルフレームから計算される。第1の時定数を有するウィンドウはブロック802に示されたようにブロック800の結果をウィンドウ生成するために使用される。さらに、第1の時定数より大きい第2の時定数を有するウィンドウはブロック804に示されたようにブロック800によって得られた自己相関信号をウィンドウ生成するために使用される。結果よりブロック802から得られた信号、第1の予測フィルタデータはレビンソン・ダービン(Levinson-Durbin)再帰を適用することにより好ましくはブロック806により示されたように計算される。同様に、第2の予測フィルタデータ808はより大きい時定数を有するブロック804から計算される。再び、ブロック808は好ましくは同じLevinson-Durbinアルゴリズムを使用する。
自己相関信号が2つの異なる時定数を有するウィンドウでウィンドウ処理されるという事実により、-自動的な-トランジェント強化が得られる。典型的に、ウィンドウ生成は異なる時定数信号の1つの信号のクラス上に影響を有するのみであるが、信号の他の信号のクラス上に影響をもたらさないようになされる。トランジェント信号は2つの異なる時定数により現実に影響される一方、非トランジェント信号は、第2の大きな時定数を用いてウィンドウ生成すると、第1の時定数を用いてウィンドウ生成するのとほぼ同じ出力が得られるような自己相関信号を有する。図13および図18に関しては、これは、非トランジェント信号が、大きい時間遅延においていかなる有意なピークも有さず、従って、2つの異なる時定数を使用しても、これらの信号に関していかなる差も生じないという事実に起因する。しかしながら、これはトランジェント信号とは異なる。トランジェント信号は、より大きいタイムラグでピークを持っているため、実際には、図13および図18の1300で示されるようにより大きいタイムラグでピークを持つ自己相関信号に異なる時定数を適用し、例えば、異なる時定数を持つ異なるウィンドウ生成操作の異なる出力を生じる。
実装によれば、整形フィルタは多くの異なる方法により実装できる。1つの方法が図8cに示され、809で示されたように第1のフィルタデータ806により制御された一連の平坦化サブフィルタでありかつ810で示されたように第2のフィルタデータ808により制御される整形サブフィルタであり段階的に実装されたゲイン補償器811である。
しかしながら、2つの異なるフィルタ特性およびゲイン補償は1つの整形フィルタ740内で実装でき、整形フィルタ740の結合されたフィルタ特性は、一方では第1および第2のフィルタデータの両方に依存するフィルタ特性結合器820によって計算され、そしてさらに、他方では、最終的に同様に利得補償機能811も実装するために、第1のフィルタデータおよび第2のフィルタデータの利得に依存する。従って、結合フィルタが適用される図8dの実施形態に関して、フレームは単一の整形フィルタ740に入力され、出力は一方で両方のフィルタ特性を有し、他方でその上で実装されて利得補償機能を有する整形されたフレームである。
図8eは本願発明の第2の態様のさらなる実装を示し、図8dの結合整形フィルタ740の機能は図8cと一致して示されているが、図8eは現実に3つの分離ステージ809,810,811の実装であり得るが、同時に、分子と分母を備えたフィルタ特性を持つ単一のフィルタを使用して実際に実装される論理表現として見ることができ、分子は逆/平坦化フィルタ特性を有し分母は合成特性を有し、さらに後で決定される式4.33に示すように、ゲイン補償が含まれる。
図8fは、図8bのブロック802,804によって得られたウィンドウ化の機能性を示し、ここで、r (k) は自己相関信号であり、wlagはウィンドウ、r'(k) はウィンドウ化の出力、すなわち、ブロック802,804の出力であり、さらに、最後に、ウィンドウ関数が例示的に示されており、これは、図8fのaについてのある値を使用することによって設定され得る、二つの異なる時定数を有する指数関数減衰フィルタを表す。
このように、Levinson-Durbin再帰に先行する自己相関値にウィンドウを適用することは、局所時間的ピークでの時間サポートの拡張を生じる。特に、ガウス窓を使用する拡張は、図8fに示されている。ここでの実施形態は、異なる値4aの選択を介して後続の整形フィルタよりも局所非平坦エンベロープでの時間サポートのより大きな拡張を有する時間平坦化フィルタを導出するというアイデアに依存する。これらのフィルタを一緒に使用すると、信号の時間的なアタックがシャープになる。その結果、フィルタリングされたスペクトル領域のスペクトルエネルギーが保存されるように、フィルタの予測利得に対する補償が存在する。
このように、アタック整形に基づく周波数領域LPCの信号フローが図8aから図8eまでに示されるように得られる。
図9は図9におけるブロック100から370までに示された第1の態様と続いて、ブロック700から760に示された続いて実行される第2の態様との両方に依存する実施例の好ましい実装を示す。好ましくは、第2の態様は例えば512のフレームサイズで50%オーバーラップする大きなフレームサイズを使用する分離時間スペクトル変換に依存する。他方、第1の態様はトランジェント位置検出のためのより良い時間解像度を持つための小さいフレームサイズに依存する。この種の小さいフレームサイズは、例えば128サンプルのフレームサイズで50%オーバーラップする。しかしながら、一般的に、フレームサイズのアスペクトがより大きい(時間分解能は低いが周波数分解能は高い)一方、第1のアスペクトの時間分解能が対応するより低い周波数分解能でより高い第1のアスペクトと第2のアスペクトに対して別々の時間スペクトル変換を使用することが好ましい。
図10aは図1のトランジェント位置推定器120の好ましい実装を示す。トランジェント位置推定器120は従来技術として実装できるが、好ましい実施例において、最終的にフレームにおけるトランジェント開始の存在を示す各フレームの2進値が得られるように検出関数計算機1000および後に接続された開始ピッカーに依存する。
検出関数計算機1000は図10bに示されたいくつかのステップに依存する。これらはブロック1020においてエネルギー値の合計である。ブロック1030において時間エンベロープの計算が実行される。続いて、ステップ1040において各バンドパス信号時間エンベロープのハイパスフィルタリングが実行される。ステップ1050において周波数方向におけるハイパスフィルタ結果信号の合計が実行され、ブロック1060において最終的に検出関数が得られるように、時間的ポストマスキングについてのアカウントが実行される。
図10cはブロック1060により得られたように検出機能から開始ピッキングの好ましい方法を示す。ステップ1110において、極大値(ピーク)は検出機能(function)において発見される。ブロック1120において、閾値比較は或る最小閾値上であるさらなる遂行についてピークを保つだけのために遂行される。
ブロック1130において、各ピークの周囲の領域はこの領域から関連するピークを決定するためにより大きなピークについてスキャンされる。ピークの周囲の領域はピークの前の多くのlbフレームおよびピークの後の多くのlaフレームを拡張する(extends)。
ブロック1140において、最終的にトランジェント開始フレームインデックスmiが決定されるように閉じたピークが廃棄される。
続いて、提案されたトランジェント強化方法において利用される技術的および聴覚的概念が開示される。最初に、選択されたフィルタリング操作と線形予測に関するいくつかの基本的なデジタル信号処理技術を紹介し、次にトランジェントの定義を行う。次に、オーディオコンテンツの知覚符号化において利用される音響マスキングの心理音響概念が説明される。この部分は本願発明による強化方法の対象となる汎用知覚オーディオコーデックおよび誘導された圧縮アーチファクトの短い説明と近い。
Figure 0007261173000001
Figure 0007261173000002
Figure 0007261173000003
線形予測
線形予測(LP)はオーディオのエンコードのために有用な方法である。いくつかの過去の研究は音声生成過程[11, 12, 13]をモデル化できる能力を部分的に記述する一方、他は一般にオーディオ信号の分析のためにそれを適用する[14, 15, 16, 17] 。次のセクションは[11, 12, 13, 15, 18]に基づく。
Figure 0007261173000004
Figure 0007261173000005
Figure 0007261173000006
Figure 0007261173000007
Figure 0007261173000008
Figure 0007261173000009
Figure 0007261173000010
Figure 0007261173000011
Figure 0007261173000012
Figure 0007261173000013
Figure 0007261173000014
Figure 0007261173000015
Figure 0007261173000016
時間および周波数領域におけるエンベロープ評価
フィルタ係数が時間信号上で計算された場合、LPCフィルタの重要な特徴は、周波数領域における信号の特徴をモデル化するその能力である。時系列の予測と同等で、線形予測はシーケンスのスペクトルを近似する。予測次数に依存してLPCフィルタは信号周波数応答のより詳細なあるいはあまり詳細でないエンベロープを計算するのに使用できる。以下のセクションは[11, 12, 13, 14, 16, 17, 20, 21]に基づく。
Figure 0007261173000017
Figure 0007261173000018
Figure 0007261173000019
Figure 0007261173000020
Figure 0007261173000021
Figure 0007261173000022
トランジェント
文字通り、トランジェントの多くの異なる定義が見いだせる。ある人はそれを開始またはアタック[22、23、24、25]と呼ぶが、他の人はこれらの用語を使ってトランジェントを説明する[26、27]。このセクションはトランジェントを定義しこの開示の目的についてそれらを特徴付ける異なるアプローチを記述することを目的とする。
Figure 0007261173000023
MasriおよびBateman[28]はトランジェントをトランジェントの開始の前後の信号セグメントは非相関性が高い信号時間エンベロープ内における急激な変化として記述する。打楽器のトランジェント事象を含む狭い時間フレームの周波数スペクトルはしばしば図2.7(b)におけるカスタネットトランジェントのスペクトログラムに見られる全周波数にわたって大きなエネルギーバーストを示す。他の文献[23,29,25]はいくつかの隣接する周波数帯域において同時に出現するエネルギーの激しい増加を伴って時間フレームに対応する信号の時間周波数表現におけるトランジェントをも特徴付ける。RodetおよびJaillet[25]はさらに信号の全体的なエネルギーは主に低周波領域に集中しているため、このエネルギーの急激な増加はより高い周波数で特に顕著であると述べている。
Figure 0007261173000024
Suresh Babuら[27]はさらにアタックトランジェントと周波数領域トランジェントとの間を区別する。これらは、前述のように、時間領域のエネルギー変化ではなく、隣接する時間フレーム間のスペクトルエンベロープの急激な変化によって周波数領域のトランジェントを特徴付ける。これらの信号事象は例えばバイオリンのような湾曲した楽器や人の会話により提供された音のピッチを変化することにより生成できる。図12-7はアタックトランジェントおよび周波数領域トランジェントの間の相違を示す。(c)における信号はバイオリンにより生成されたオーディオ信号を表す。垂直破線は存在する信号のピッチ変化の瞬間、すなわち新たなトーンの開始や周波数領域トランジェントをそれぞれ示す。(a)のカスタネットによるアタックトランジェントとは対照的に、この新しいノートの開始は、信号振幅の顕著な変化を引き起こさない。スペクトル内容のこの変化の瞬間は(d)におけるスペクトログラムに見ることができる。しかしながら、トランジェントの前後のスペクトルの相違は一方は前の時間フレームのスペクトルであり他方は周波数領域トランジェントの開始後の図12-7(c)におけるバイオリン信号の2つのスペクトルを示す図2.8においてより明白である。ハーモニック成分は2つのスペクトルの間で異なることが際立つ。しかしながら、周波数領域トランジェントの知覚符号化はこの論文に示される復元アルゴリズムにより対処されかつそれ故無視される。これ以降、トランジェントという言い回しはアタックトランジェントのみを表すように使用される。
トランジェント、開始およびアタックの相違
トランジェント、開始およびアタックの概念の間の相違は、この論文に採用されるBelloら[26]に見出すことができる。これらの語句の相違はカスタネットにより生成されるトランジェント信号の例を使用して図12-9に示される。
・一般に、トランジェントの概念は依然著者らにより包括的に定義されていない が、それらは区別可能な瞬間よりも短い瞬間として特徴付けている。このトラ ンジェント周期において信号の増幅は相対的に予測不能な方法で急速に立ち上 がる。しかしながら、それは、増幅後のトランジェントの終了がそのピークに 達するところで正確に定義されない。それらのかなり非公式な定義において、 増幅減衰の部分をトランジェント間隔に含む。この特性評価により、アコース ティック楽器はトランジェントを生成し、その間、それらは励起し(例えば、 ギターの弦が弾かれたり、スネアドラムが叩かれたとき)、その後、減衰する 。この最初の減衰の後、次のより遅い信号減衰は、楽器本体の共振周波数によ ってのみ引き起こされる。
・開始は、信号の振幅が上昇し始める瞬間である。この文献について、開始はト ランジェントの開始時間として定義される。
・トランジェントのアタックは増幅度が増大する間の開始とピークとの間のトランジェント内の期間である。
心理音響学
このセクションでは、知覚オーディオ符号化と、後で説明するトランジェント強化アルゴリズムで使用される心理音響概念への基本的な入門を提供する。心理音響学の目的は、“音響信号の測定可能な物理的特性と、これらの音響が聴取者に呼び起こす内部知覚”との関係を記述することである[32]。人間の聴覚には限界があり、オーディオコンテンツの符号化プロセスで知覚オーディオ符号化器がこれを活用して、符号化されたオーディオ信号のビットレートを大幅に低減できる。知覚的オーディオ符号化の目標は、デコードされたオーディオ信号が元の信号に正確にまたはできるだけ近く聞こえるようにオーディオ素材をエンコードすることであるが[1]、それでもいくつかの可聴符号化アーチファクトが生じる可能性がある。これらのアーティファクトの起源を理解するために必要な背景と、知覚オーディオ符号化器によって使用される心理音響モデルがこのセクションでどのように提供されるかを説明する。読者は、心理音響学に関するより詳細な説明について[33、34]を参照されたい。
同時マスキング
同時マスキングとは、両方の音の周波数が近い場合に、強い音(マスカー)が同時に聞こえると、1つの音(マスキー)が人間の聞き手に聞こえない心理音響現象を指す。この現象を説明するために広く使用されている例は、道路脇の2人の間の会話である。干渉するノイズがないため、お互いを完全に知覚できるが、車やトラックが通過する場合は、お互いを理解し続けるために、声量を上げる必要がある。
同時マスキングの概念は、人間の聴覚システムの機能を調べることで説明できる。プローブ音が聴取者に提示されると、蝸牛内の基底膜(BM)に沿って進行波を誘発し、楕円形のウィンドウの基部から端の頂点まで広がる[17]。楕円形のウィンドウから始まり、進行波の垂直変位は最初ゆっくりと上昇し、特定の位置で最大値に達し、その後急激に低下する[33、34]。最大変位の位置は、刺激の周波数に依存する。BMは、ベースで狭くて硬く、頂点で約3倍広くて硬くない。このように、BMに沿ったすべての位置は特定の周波数に最も敏感であり、高周波信号成分はベースの近くで最大変位を引き起こし、BMの頂点の近くで低周波数を引き起こす。この特定の周波数は、しばしば特性周波数(CF)と呼ばれる[33、34、35、36]。このように、蝸牛は、聴覚フィルタと呼ばれる非対称周波数応答を持つ非常にオーバーラップし合ったバンドパスフィルタのバンクを備えた周波数分析器と見なすことができる[17、33、34、37]。これらの聴覚フィルタの通過帯域は、臨界帯域幅と呼ばれる不均一な帯域幅を示す。臨界帯域の概念は、最初に[38、39] 1933年にFletcherによって導入された。彼は、ノイズ信号と同時に提示されるプローブ音の可聴性は、プローブ音に周波数が近いノイズエネルギーの量にのみ依存すると推測した。この周波数領域の信号対雑音比(SNR)が特定のしきい値を下回る場合、つまりノイズ信号のエネルギーがプローブ音のエネルギーよりもある程度高い場合、プローブ信号は人間の聴者には不可聴となる[17、33、34]。しかしながら、同時マスキングは1つの単一の臨界帯域内でのみ発生するわけではない。実際、臨界帯域のCFにあるマスカーは、この臨界帯域の境界の外側にあるマスキーの可聴性にも影響を及ぼすが、その程度はそれほど大きくはない[17]。同時マスキング効果を図12-10に示す。破曲線は、“他の音がない場合に人間の聴者が狭帯域音を検出するために必要な最小音圧レベルを説明する”静かな状態でのしきい値を表す[32]。黒い曲線は、暗い灰色のバーとして描かれた狭帯域ノイズマスカーに対応する同時マスキング閾値である。音圧レベルがマスキーの特定の周波数での同時マスキング閾値よりも小さい場合、プローブ音(薄い灰色のバー)はマスカーによってマスクされる。
時間マスキング
マスキングは、マスカーとマスキーが同時に提示される場合だけでなく、時間的に分離されている場合にも有効である。プローブ音は、マスカーが存在する期間の前後にマスクすることができ[40]、これは、プレマスキングおよびポストマスキングと呼ばれる。時間的なマスキング効果の図を図2.11に示す。マスキング音の開始前にプレマスキングが行われ、マスキング音は、t の負の値に対して示される。プレマスキング期間の後、同時マスキングが有効になり、マスカーがオンになった直後にオーバーシュート効果があり、同時マスキング閾値が一時的に増加する[37]。マスカーがオフになった後(t の正の値を示す)、ポストマスキングが有効になる。プレマスキングは、提示された音の知覚を生成するために聴覚システムが必要とする統合時間で説明できる[40]。さらに、より大きな音は、より弱い音よりも聴覚システムによってより速く処理される[33]。プレマスキングが発生する期間は、特定の聴者のトレーニング量に大きく依存し[17, 34] 、最大20ミリ秒[33]持続するが、マスカー開始前の1~5ミリ秒の期間でのみ重要である[17, 37] 。ポストマスキングの量は、マスカーとプローブ音の両方の周波数、マスカーのレベルと持続時間、およびプローブ音とマスカーがオフになる瞬間の間の期間に依存する[17, 34]。Moore[34]によると、ポストマスキングは少なくとも20ミリ秒間有効であり、他の研究では約200ミリ秒までのさらに長い持続時間を示す[33]。さらに、PainterとSpaniasは、ポストマスキングは「マスカーとプローブの周波数関係が変化したときに観察できる同時マスキングと同様の周波数依存の動作も示す」と述べている[17, 34]。
知覚オーディオ符号化
知覚オーディオ符号化の目的はオーディオ信号を、結果として生じるビットレートが元のオーディオと比較して可能な限り小さくなるが、再構成された(復号化された)信号が非圧縮信号[1, 17, 32, 37, 41, 42]と区別されるべきでない透過的な音質を維持するように圧縮することである。これは人間の聴覚システムのいくつかの制限を利用して入力信号から冗長かつ無関係な情報を除去することで行われる。冗長性は例えば後続の信号サンプル、スペクトル係数または異なる音声チャンネル間の相関を利用することによりおよび適当なエントロピー符号化により除去できる一方、非相関性はスペクトル係数の量子化により処理することが可能である。
知覚オーディオ符号化器の一般的構造
モノラル知覚オーディオ符号化器の基本的構造は、図12-12に描かれている。最初に、入力オーディオ信号は分析フィルタバンクを適用することで周波数領域表現に変換される。このようにして、受信したスペクトル係数を「周波数成分に応じて」選択的に量子化することができる[32]。量子化ブロックはスペクトル係数の連続値を値の離散セットにまるめて符号化オーディオ信号におけるデータ量を削減する。このようにして、復号化器において元の信号の正確な値を再構成することは不可能であるので、圧縮は非可逆となる。この量子化誤差の導入は量子化雑音として言及される付加雑音信号とみなすことができる。量子化は、各分析ウィンドウにおける各スペクトル係数について時間および同時マスキング閾値を計算する知覚モデルの出力により導かれる。静寂下における絶対的閾値は“16ビット整数値における±1最下位ビットのピークの大きさを有する4kHzの信号がヒアリングでの絶対的閾値である”[31]ことを仮定することにより利用することも可能である。ビット割当てブロックにおいて、これらのマスキング閾値は含まれる量子化雑音が人間の聴者が非可聴になるように必要なビットの数を決定するのに使用される。さらに、計算されたマスキング閾値を下回るスペクトル係数(およびそれ故人間の聴覚上の認識に無関係である)は送信されるべき必要がなく0に量子化できる。量子化されたスペクトル係数は従って信号データにおける冗長性を削減する(例えばハフマン符号化または算術符号化により)エントロピー符号化される。最終的に符号化オーディオ信号のみならず量子化スケール係数に類似の付加サイド情報は単一ビットストリームを形成するようにマルチプレックスされ、レシーバに送信される。レシーバ側でのオーディオ復号化器(図12-13参照)は入力ビットストリームをデマルチプレックスすることにより逆演算を行い、スケール係数を転送するとともにスペクトル値を再構成し、合成フィルタバンクをエンコーダの分析フィルタバンクに相補的に適用し、結果物としての出力時間信号を再構成する。
トランジェント符号化アーチファクト
復号化オーディオ信号の透過サウンド品質を生成するための知覚オーディオ符号化の目標にもかかわらず、それは依然可聴アーチファクトを示す。トランジェントの認識された品質に影響するこれらのアーチファクトのいくつかは後述する。
バーディーと帯域幅の制限
オーディオ信号ブロックの量子化について提供するために、ビット割当てプロセスについて利用できるビットの量は限られている。1つのフレームのビット要求が高すぎる場合、いくつかのスペクトル係数をゼロに量子化することにより削除できる[1、43、44]。これは、本質的に一部の高周波コンテンツの一時的な損失を引き起こし、主に低ビットレートコーディングの場合、または非常に要求の厳しい信号、たとえば頻繁なトランジェント事象を伴う信号を処理する場合に問題になる。ビットの割当てはブロックごとに異なるため、スペクトル係数の周波数成分は1つのフレームで削除され、次のフレームに存在する場合がある。誘導されたスペクトルのギャップは“バーディー”と呼ばれ、図2.14の下側の図で見ることができる。特に、トランジェントのエンコードは、これらの信号部分のエネルギーが周波数スペクトル全体に拡散するため、バーディアーチファクトを生成する傾向がある。一般的なアプローチは、エンコード処理の前にオーディオ信号の帯域幅を制限し、LFコンテンツの量子化に利用可能なビットを節約することであり、これは図2.14の符号化信号でも示されている。このトレードオフは、一般に許容される帯域幅の一定の損失よりも、バーディーが知覚される音質に大きな影響を与えるため、適している。しかしながら、帯域幅の制限があっても、依然バーディーが発生する可能性はある。後で説明するトランジェント強化方法自体は、スペクトルギャップの修正や符号化信号の帯域幅の拡大を目的とするものではないが、高周波の損失はエネルギーの減少とトランジェントアタックの劣化を引き起こし(図12-15を参照)、これは、後で説明するアタック強化方法の対象である。
プレエコー
他の共通の圧縮アーチファクトはいわゆるプレエコーである[1, 17, 20, 43, 44]。プレエコーは、信号ブロックの終わり近くで信号エネルギーの急激な増加(すなわちトランジェント現象)が発生した場合に発生する。トランジェント信号部分に含まれる実質的なエネルギーは広範囲の周波数に分散され、これにより心理音響モデルで比較的高いマスキングしきい値が推定され、スペクトル係数の量子化に数ビットのみが割当てられる。その後、追加された大量の量子化ノイズは、復号化プロセスで信号ブロックの期間全体に広がる。定常信号の場合、量子化ノイズは完全にマスクされていると見なされるが、トランジェントを含む信号ブロックの場合、量子化ノイズはトランジェント開始に先行し、“プレマスキング[...]期間を超えて延長する場合”[1]トランジェント開始に先行して聞こえる可能性がある。プレエコーを扱ういくつかの提案された方法があるが、これらのアーチファクトは依然現在の研究の対象となる。図12-16は、カスタネットトランジェントについてのプレエコーアーチファクトの例を示す。点線の黒い曲線は、トランジェント開始前に実質的な信号エネルギーがない元の信号の波形である。従って、符号化された信号のトランジェントに先行する誘導プレエコー(灰色の曲線)は同時にマスクされず、元の信号と直接比較しなくても知覚できる。プレエコーノイズの補足的な低減のために提案された方法は、後に提示される。
過去数年にわたって提案されたトランジェントの品質を強化するいくつかのアプローチが存在する。これらの強化方法は、オーディオコーデックに統合された方法と、デコードされたオーディオ信号に関する後処理モジュールとして機能する方法に分類できる。以前の研究の概観およびトランジェント強化のみならずトランジェント事象の検出に関する方法は以下に示される。
Figure 0007261173000025
Figure 0007261173000026
Figure 0007261173000027
Figure 0007261173000028
他の検出方法は、信号波形の予測可能性を使用して、トランジェントと定常状態の信号部分とを区別するために、時間領域での線形予測に基づいている[45]。線形予測を使用する1つの方法は、2006年にLeeとKuo [46]によって提案された。入力信号をいくつかのサブバンドに分解して、結果の各狭帯域信号の検出関数を計算する。検出関数は、式(2.10)に従って逆フィルタで狭帯域信号をフィルタリングした後の出力として取得される。後続のピーク選択アルゴリズムは、結果の予測誤差信号の極大値を各サブバンド信号の開始時間候補として決定し、それを使用して広帯域信号についての単一のトランジェント開始時間を決定する。
Figure 0007261173000029
Figure 0007261173000030
Figure 0007261173000031
Figure 0007261173000032
トランジェント検出
実施例において、トランジェントの強化についての方法は常に信号を修正するよりもトランジェント事象にもっぱら適用される。従って、トランジェントの瞬間が検出される。この作業のためにトランジェント検出方法が実装され、個々のオーディオ信号が別々に調整される。これは、このセクションで後述するトランジェント検出方法の特定のパラメータとしきい値とが、特定のサウンドファイルごとに特別に調整され、トランジェント信号部分の最適な検出が行われることを意味する。この検出の結果は各フレームについての2進値であり、トランジェント開始の存在を示す。
実装されたトランジェント検出方法は2つの分離したステージに分割できる。好適な検出機能の計算およびその入力信号として検出機能を使用する開始ピッキング方法である。トランジェント検出のリアルタイム処理アルゴリズムへの組込みについて後続のプレエコー低減方法が検出されたトランジェント開始に先行する時間間隔において動作するので、適切な先読みが必要である。
Figure 0007261173000033
Figure 0007261173000034
Figure 0007261173000035
Figure 0007261173000036
Figure 0007261173000037
Figure 0007261173000038
プレエコー低減
この強化ステージの目的はトランジェントの開始前の或る期間において可聴であるプレエコーとして知られる符号化アーチファクトを低減することである。プレエコー低減アルゴリズムの概観は図4.4において示される。プレエコー低減ステージは入力信号としてSTFT分析Xk,m(100)後の出力のみならず以前に検出されたトランジェント開始フレームインデックスmiを得る。最悪の場合、プレエコーはトランジェント事象の前に(コーデックサンプリングレートにかかわらず2048サンプルである)エンコーダ側で長いブロック分析ウィンドウの長さまでに開始する。ウィンドウの時間間隔は特定のエンコーダのサンプリング周波数に依存する。最悪の場合のシナリオに関し、8kHzの最小コーデックサンプリング周波数が仮定される。復号化されリサンプリングされた入力信号snについて44.1kHzのサンプリング レートで長い分析ウィンドウの長さ(およびそれゆえにプレエコー領域のポテンシャル範囲)は時間信号snのNlong = 2048・44.1 kHz/8 kHz = 11290サンプル(または256 ms)に対応する。この章で記述された強化方法は時間周波数表現Xk,m上で機能するので、NlongはMlong = ( Nlong - L)/( N - L) = (11290 -64)/ (128 -64) = 176フレームに変換されるべきである。NおよびLは図13-1におけるフレームサイズおよびSTFT分析ブロック(100)のオーバーラップである。Mlongはプレエコー幅の上側境界としてセットされ、かつ検出されたトランジェント開始フレームmiの前のプレエコー開始フレームについてサーチ領域を制限するために使用される。この作業について、リサンプリングの前の復号化された信号のサンプリングレートが検証データ(ground truth)として得られ、プレエコー幅についての上側境界がエンコードsnに使用された特定のコーデックに適合される。
プレエコーの現実の幅を評価する前に、トランジェントに先行するトーン周波数成分が検出される(200)。その後、プレエコー幅がトランジェントフレームの前のMlongフレームの領域内で決定(240)される。この評価とともにプレエコー領域における信号エンベロープについての閾値が計算(260)でき、その大きさの値がこの閾値を超えるこれらのスペクトル係数におけるエネルギーを減少させる。最終的なプレエコー低減について、Xk,mのプレエコー領域要素ごとに乗算される各kおよびmについての乗算係数を含むスペクトル重みマトリクスが計算される(450)。
トランジェントに先行するトーン信号成分の検出
次のサブセクションで説明するように、トランジェント開始前のトーン周波数成分に対応する後続の検出されたスペクトル係数は、次のプレエコー幅の推定に使用される。プレエコーアーチファクトは現在のトーン成分によってマスクされる可能性が高いため、これらのトーンスペクトル係数のエネルギー削減をスキップするために、次のプレエコー削減アルゴリズムでそれらを使用することも有益である。しかしながら、場合によっては、トーン係数のスキップにより、検出されたトーン周波数の近くのいくつかの周波数で可聴エネルギーが増加するという形で追加のアーチファクトが導入されるため、この実施形態におけるプレエコー低減方法ではこの方法は省略されている。
Figure 0007261173000039
Figure 0007261173000040
Figure 0007261173000041
Figure 0007261173000042
Figure 0007261173000043
Figure 0007261173000044
Figure 0007261173000045
図13-6は、プレエコー推定方法の概略図を示す。推定方法は、誘導されたプレエコーがトランジェントの開始前に時間エンベロープの振幅を増加させるという仮定に従う。これは、図13-6の2つの垂直破線の間の領域に示されている。符号化されたオーディオ信号の復号化プロセスでは、量子化ノイズは合成ブロック全体に均等に拡散されるのではなく、使用される窓関数の特定の形式によって整形される。従って、誘導されたプレエコーは、振幅の急激な増加ではなく、緩やかな上昇を引き起こす。プレエコーの開始前に、信号には無音または前に発生した別の音響事象の持続部分のような他の信号成分が含まれている場合がある。そのため、プレエコー幅推定法の目的は、信号振幅の上昇が、誘導された量子化雑音、つまりプレエコーアーチファクトの開始に対応する時点を見つけることである。
Figure 0007261173000046
Figure 0007261173000047
Figure 0007261173000048
Figure 0007261173000049
Figure 0007261173000050
Figure 0007261173000051
Figure 0007261173000052
Figure 0007261173000053
Figure 0007261173000054
Figure 0007261173000055
Figure 0007261173000056
Figure 0007261173000057
Figure 0007261173000058
Figure 0007261173000059
Figure 0007261173000060
Figure 0007261173000061
Figure 0007261173000062
Figure 0007261173000063
Figure 0007261173000064
Figure 0007261173000065
トランジェントアタックの強化
このセクションで議論された方法は低下したトランジェントアタックを強化するとともにトランジェント事象の増幅を強調することが目的である。
Figure 0007261173000066
Figure 0007261173000067
Figure 0007261173000068
Figure 0007261173000069
Figure 0007261173000070
Figure 0007261173000071
Figure 0007261173000072
Figure 0007261173000073
Figure 0007261173000074
Figure 0007261173000075
Figure 0007261173000076
特に第1の態様に関するさらなる実施例は、以下に開示される。
1.オーディオ信号の後処理(20)のための装置であって、
オーディオ信号を時間周波数表現に変換するための変換器(100)と、
オーディオ信号または時間周波数表現を使用するトランジェント部分の時間的位置を推定するためのトランジェント位置推定器(120)と、
時間周波数表現を操作するための信号操作器(140)であって、信号操作器はトランジェント位置の前の時間的位置における時間周波数表現におけるプレエコーを低減(220)または除去するか、あるいはトランジェント位置での時間周波数表現を整形(500)してトランジェント位置の攻撃を増幅するように構成されている。
2.実施例1の装置であって、
信号操作器(140)は時間内にトランジェント部分に先行する時間周波数表現におけるトーン信号成分を検出するためのトーン推定器(200)を含み、かつ、
前記信号操作器(140)はトーン信号成分が検出される周波数で信号操作が低減されるかトーン信号成分が検出されない周波数と比較して低減されるか遮断されるように、周波数選択方法におけるプレエコー低減または除去を適用するように構成されている。
3.実施例1または2の装置であって、前記信号操作器(140)はオーディオ信号超過時間の信号エネルギーの発達に基づいてトランジェント位置に先行するプレエコーの時間幅を推定して複数の後続のオーディオ信号フレームを含む時間周波数表現におけるプレエコー開始フレームを決定するプレエコー幅推定器(240)を含む。
4.先行する実施例の1つの装置であって、
信号操作器(140)はプレエコー幅内の時間周波数表現におけるスペクトル値についてのプレエコー閾値を推定するためのプレエコー閾値推定器(260)を含み、プレエコー閾値はプレエコー低減または除去に後続する対応するスペクトル値の増幅閾値を示す。
5.前記プレエコー閾値推定器(260)はプレエコー幅の開始からトランジェント位置までの増加特性を有する重み付け曲線を使用してプレエコー閾値を決定するように構成されている。
6.先行する実施例の1つの装置であって、プレエコー閾値推定器(260)は
時間周波数表現の複数の後続のフレーム上の時間周波数表現を平滑(330)し、かつ
プレエコー幅の開始からトランジェント位置への増加特性を有する重み付け曲線を使用する平滑された時間周波数表現を重み付けする(340)ように構成されている。
7.先行する実施例の1つの装置であって、信号操作器(140)は
時間周波数表現のスペクトル値についての個々のスペクトル重みを計算するためのスペクトル重み計算機(300、160)と、
スペクトル重みを使用する時間周波数表現の重み付けスペクトル値について操作された時間周波数表現を得るためのスペクトル重み付け器(320)とを含む。
8.実施例7の装置であって、
スペクトル重み計算機(300)は、
現実のスペクトル値および目標スペクトル値を使用する生のスペクトル重みを決定(450)するか、あるいは
時間周波数表現のフレーム内での周波数における生のスペクトル重みを平滑(460)するか、あるいは
プレエコー幅の開始での複数のフレーム上の減衰曲線を使用するプレエコーの低減または除去をフェードイン(430)するか、あるいは
プレエコー閾値以下の増幅度を有するスペクトル値が信号操作により影響されないように目標スペクトル値を決定(420)するか、あるいは
プレエコー領域におけるスペクトル値の減衰がプレマスキングモデル(410)に基づいて低減されないようにプレマスキングモデル(410)を使用して目標スペクトル値を決定する、ように構成されている。
9.先行する実施例の1つの装置であって、
時間周波数表現は複素スペクトル値を含み、
信号操作器(140)は実スペクトル重み値を複素スペクトル値に適用するように構成されている。
10.先行する実施例の1つの装置であって、
信号操作器(140)は、時間周波数表現のトランジェントフレーム内のスペクトル値を増幅する(500)ように構成されている。
11.先行する実施例の1つの装置であって、
信号操作器(140)は、最小周波数上のスペクトル値を増幅のみ行うように構成され、最小周波数は250Hz以上2kHz以下である。
12.先行する実施例の1つの装置であって、
信号操作器(140)はトランジェント位置での時間周波数表現を持続部分およびトランジェント部分に駆動(630)するように構成されており、
前記信号操作器(140)は前記トランジェント部分の増幅のみを行い、前記持続部分を増幅しないように構成されている。
13.前記信号操作器(140)はフェードアウト特性(685)を使用する時間内のトランジェント位置に後続する時間周波数表現の時間部分をも増幅するように構成されている。
14.先行する実施例の1つの装置であって、
前記信号操作器(140)は、スペクトル値の延長部分を使用するスペクトル値、増幅されたトランジェント部分、およびスペクトル値の大きさのためのスペクトル重み係数を計算(680)するように構成され、増幅部分の増幅量は既定で300%と150%との間であり、あるいは前記スペクトルの重みは周波数にわたって平滑(690)されている。
15.先行する実施例の1つの装置であって、
操作された時間周波数表現を時間周波数表現の少なくとも隣接するフレームを含むオーバーラップ加算演算を使用して時間領域に変換(370)するためのスペクトル時間変換器をさらに含む、先行する実施例の1つの装置。
16.先行する実施例の1つの装置であって、変換器(100)は1~3msの間のホップサイズまたは2~6msの間のウィンドウ長を有する分析ウィンドウを適用するように構成されるか、
前記スペクトル時間変換器(370)はオーバーラップウィンドウのオーバーラップの大きさや、1~3msの間の変換器が使用するホップの大きさに対応するオーバーラップウィンドウのオーバーラップ範囲を使用するように構成されるか、2~6msの間のウィンドウ長を有する合成ウィンドウを使用するように構成されるか、あるいは、前記分析ウィンドウと前記合成ウィンドウとは互いに同一である装置。
17.オーディオ信号を後処理(20)するための方法であって、
オーディオ信号を時間周波数表現に変換(100)するステップと、
オーディオ信号または時間周波数表現を使用してトランジェント部分の時間的なトランジェント位置を推定(120)するステップと、
時間周波数表現を操作(140)し、トランジェント位置より時間的に前の位置で時間周波数表現におけるプレエコーを低減(220)または除去するかトランジェント位置での時間周波数表現の整形(500)を実行してトランジェント位置の攻撃を増幅するステップとを含む、オーディオ信号の後処理(20)の方法。
18.コンピュータまたはプロセッサで実行するときに、実施例17の方法を実行するためのコンピュータプログラム。
いくつかの態様は装置の文脈で説明されたが、これらの態様は対応する方法の説明も表し、ブロックまたはデバイスが方法ステップまたは方法ステップの特徴に対応することは明らかである。同様に、方法ステップの文脈で説明される態様は、対応するブロックまたはアイテムまたは対応する装置の特徴の説明も表す。
特定の実装要件に応じて、本願発明の実施形態は、ハードウェアまたはソフトウェアで実装することができる。実装は、それぞれの方法が実行されるように、プログラム可能なコンピューターシステムと連携(または協働)することができるデジタル記憶媒体、たとえば記憶され電気的に可読な制御信号を有するフロッピーディスク(登録商標)、DVD、CD、ROM、PROM、EPROM、EEPROMまたはフラッシュメモリを使用して実行できる。
本願発明によるいくつかの実施形態は、本明細書に記載の方法の1つが実行されるように、プログラム可能なコンピュータシステムと協働することができる電子的に読取り可能な制御信号を有するデータキャリアを含む。
一般に、本願発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実装することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに方法の1つを実行するように動作する。プログラムコードは、例えば、機械読み取り可能なキャリアに保存されてもよい。
他の実施形態は、機械可読キャリアまたは非一時的記憶媒体に記憶された、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを含む。
換言すれば、本願発明の方法の実施形態は、それ故、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載の方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
従って、本願発明の方法のさらなる実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを記録したデータキャリア(またはデジタル記憶媒体、またはコンピュータ可読媒体)である。
従って、本願発明の方法のさらなる実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号シーケンスは、たとえば、インターネットなどのデータ通信接続を介して転送されるように構成されてもよい。
さらなる実施形態は、本明細書に記載の方法の1つを実行するように構成または適合された処理手段、例えばコンピュータ、またはプログラマブルロジックデバイスを含む。
さらなる実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムをインストールしたコンピュータを含む。
いくつかの実施形態では、プログラマブルロジックデバイス(例えば、フィールドプログラマブルゲートアレイ)を使用して、本明細書に記載の方法の機能の一部またはすべてを実行することができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書に記載の方法の1つを実行するためにマイクロプロセッサと協働してもよい。一般に、これらの方法は、任意のハードウェア装置によって実行されることが好ましい。
上述の実施例は、本願発明の原理を単に説明しているにすぎない。本明細書に記載の配置および詳細の修正および変更は、他の当業者には明らかであることを理解されたい。従って、本明細書の実施形態の説明および説明として提示される特定の詳細によってではなく、差し迫った特許請求の範囲によってのみ制限されることが意図されている。
参考文献
[1] K. Brandenburg, "MP3 and AAC explained," in Audio Engineering Society Conference:
17th International Conference: High-Quality Audio Coding, September 1999.

[2] K. Brandenburg and G. Stoll, "ISO/MPEG-1 audio: A generic standard for coding
of high-quality digital audio," J. Audio Eng. Soc., vol. 42, pp. 780-792, October 1994.

[3] ISO/IEC 11172-3, "MPEG-1: Coding of moving pictures and associated audio
for digital storage media at up to about 1.5 mbit/s - part 3: Audio," international
standard, ISO/IEC, 1993. JTC1/SC29/WG11.

[4] ISO/IEC 13818-1, "Information technology - generic coding of moving pictures
and associated audio information: Systems," international standard, ISO/IEC, 2000. ISO/IEC JTC1/SC29.

[5] J. Herre and J. D. Johnston, "Enhancing the performance of perceptual audio
coders by using temporal noise shaping (TNS)," in 101st Audio Engineering Society
Convention, no. 4384, AES, November 1996.

[6] B. Edler, "Codierung von audiosignalen mit uberlappender transformation und
adaptiven fensterfunktionen," Frequenz - Zeitschrift fur Telekommunikation,
vol. 43, pp. 253-256, September 1989.

[7] I. Samaali, M. T.-H. Alouane, and G. Mahe, "Temporal envelope correction for attack
restoration im low bit-rate audio coding," in 17th European Signal Processing
Conference (EUSIPCO), (Glasgow, Scotland), IEEE, August 2009.

[8] J. Lapierre and R. Lefebvre, "Pre-echo noise reduction in frequency-domain audio
codecs," in 42nd IEEE International Conference on Acoustics, Speech and Signal
Processing, pp. 686-690, IEEE, March 2017.

[9] A. V. Oppenheim and R. W. Schafer, Discrete-Time Signal Processing. Harlow,
UK: Pearson Education Limited, 3. ed., 2014.

[10] J. G. Proakis and D. G. Manolakis, Digital Signal Processing - Principles, Algorithms,
and Applications. New Jersey, US: Pearson Education Limited, 4. ed., 2007.

[11] J. Benesty, J. Chen, and Y. Huang, Springer handbook of speech processing, ch. 7.
Linear Prediction, pp. 121-134. Berlin: Springer, 2008.

[12] J. Makhoul, "Spectral analysis of speech by linear prediction," in IEEE Transactions
on Audio and Electroacoustics, vol. 21, pp. 140-148, IEEE, June 1973.

[13] J. Makhoul, "Linear prediction: A tutorial review," in Proceedings of the IEEE,
vol. 63, pp. 561-580, IEEE, April 2000.

[14] M. Athineos and D. P.W. Ellis, "Frequency-domain linear prediction for temporal
features," in IEEE Workshop on Automatic Speech Recognition and Understanding,
pp. 261-266, IEEE, November 2003.

[15] F. Keiler, D. Arfib, and U. Zolzer, "Efficient linear prediction for digital audio
effects," in COST G-6 Conference on Digital Audio Effects (DAFX-00), (Verona,
Italy), December 2000.

[16] J. Makhoul, "Spectral linear prediction: Properties and applications," in IEEE
Transactions on Acoustics, Speech, and Signal Processing, vol. 23, pp. 283-296,
IEEE, June 1975.

[17] T. Painter and A. Spanias, "Perceptual coding of digital audio," in Proceedings of
the IEEE, vol. 88, April 2000.

[18] J. Makhoul, "Stable and efficient lattice methods for linear prediction," in
IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. ASSP-25,
pp. 423-428, IEEE, October 1977.

[19] N. Levinson, "The wiener rms (root mean square) error criterion in filter design
and prediction," Journal of Mathematics and Physics, vol. 25, pp. 261-278, April
1946.

[20] J. Herre, "Temporal noise shaping, qualtization and coding methods in perceptual
audio coding: A tutorial introduction," in Audio Engineering Society Conference:
17th International Conference: High-Quality Audio Coding, vol. 17, AES, August
1999.

[21] M. R. Schroeder, "Linear prediction, entropy and signal analysis," IEEE ASSP
Magazine, vol. 1, pp. 3-11, July 1984.

[22] L. Daudet, S. Molla, and B. Torresani, "Transient detection and encoding using
wavelet coeffcient trees," Colloques sur le Traitement du Signal et des Images,
September 2001.

[23] B. Edler and O. Niemeyer, "Detection and extraction of transients for audio coding,"
in Audio Engineering Society Convention 120, no. 6811, (Paris, France), May 2006.

[24] J. Kliewer and A. Mertins, "Audio subband coding with improved representation
of transient signal segments," in 9th European Signal Processing Conference, vol. 9, (Rhodes), pp. 1-4, IEEE, September 1998.

[25] X. Rodet and F. Jaillet, "Detection and modeling of fast attack transients," in
Proceedings of the International Computer Music Conference, (Havana, Cuba),
pp. 30-33, 2001.

[26] J. P. Bello, L. Daudet, S. Abdallah, C. Duxbury, and M. Davies, "A tutorial on
onset detection in music signals," IEEE Transactions on Speech and Audio Processing,
vol. 13, pp. 1035-1047, September 2005.

[27] V. Suresh Babu, A. K. Malot, V. Vijayachandran, and M. Vinay, "Transient detection
for transform domain coders," in Audio Engineering Society Convention 116, no. 6175, (Berlin, Germany), May 2004.

[28] P. Masri and A. Bateman, "Improved modelling of attack transients in music
analysis-resynthesis," in International Computer Music Conference, pp. 100-103,
January 1996.

[29] M. D. Kwong and R. Lefebvre, "Transient detection of audio signals based on an
adaptive comb filter in the frequency domain," in Conference on Signals, Systems
and Computers, 2004. Conference Record of the Thirty-Seventh Asilomar, vol. 1,
pp. 542-545, IEEE, November 2003.

[30] X. Zhang, C. Cai, and J. Zhang, "A transient signal detection technique based
on flatness measure," in 6th International Conference on Computer Science and
Education, (Singapore), pp. 310-312, IEEE, August 2011.

[31] J. D. Johnston, "Transform coding of audio signals using perceptual noise criteria,"
IEEE Journal on Selected Areas in Communications, vol. 6, pp. 314-323,
February 1988.

[32] J. Herre and S. Disch, Academic press library in Signal processing, vol. 4, ch. 28.
Perceptual Audio Coding, pp. 757-799. Academic press, 2014.

[33] H. Fastl and E. Zwicker, Psychoacoustics - Facts and Models. Heidelberg:
Springer, 3. ed., 2007.

[34] B. C. J. Moore, An Introduction to the Psychology of Hearing. London: Emerald,
6. ed., 2012.

[35] P. Dallos, A. N. Popper, and R. R. Fay, The Cochlea. New York: Springer, 1. ed.,
1996.

[36] W. M. Hartmann, Signals, Sound, and Sensation. Springer, 5. ed., 2005.

[37] K. Brandenburg, C. Faller, J. Herre, J. D. Johnston, and B. Kleijn, "Perceptual
coding of high-quality digital audio," in IEEE Transactions on Acoustics, Speech,
and Signal Processing, vol. 101, pp. 1905-1919, IEEE, September 2013.

[38] H. Fletcher andW. A. Munson, "Loudness, its definition, measurement and calculation," The Bell System Technical Journal, vol. 12, no. 4, pp. 377-430, 1933.

[39] H. Fletcher, "Auditory patterns," Reviews of Modern Physics, vol. 12, no. 1,
pp. 47-65, 1940.

[40] M. Bosi and R. E. Goldberg, Introduction to Digital Audio Coding and Standards.
Kluwer Academic Publishers, 1. ed., 2003.
[41] P. Noll, "MPEG digital audio coding," IEEE Signal Processing Magazine, vol. 14,
pp. 59-81, September 1997.

[42] D. Pan, "A tutorial on MPEG/audio compression," IEEE MultiMedia, vol. 2, no. 2,
pp. 60-74, 1995.

[43] M. Erne, "Perceptual audio coders "what to listen for"," in 111st Audio Engineering
Society Convention, no. 5489, AES, September 2001.

[44] C.-M. Liu, H.-W. Hsu, and W. Lee, "Compression artifacts in perceptual audio
coding," in IEEE Transactions on Audio, Speech, and Language Processing,
vol. 16, pp. 681-695, IEEE, May 2008.

[45] L. Daudet, "A review on techniques for the extraction of transients in musical
signals," in Proceedings of the Third international conference on Computer Music,
pp. 219-232, September 2005.

[46] W.-C. Lee and C.-C. J. Kuo, "Musical onset detection based on adaptive linear
prediction," in IEEE International Conference on Multimedia and Expo, (Toronto,
Ontario), pp. 957-960, IEEE, July 2006.

[47] M. Link, "An attack processing of audio signals for optimizing the temporal characteristics of a low bit-rate audio coding system," in Audio Engineering Society
Convention, vol. 95, October 1993.

[48] T. Vaupel, Ein Beitrag zur Transformationscodierung von Audiosignalen unter
Verwendung der Methode der "Time Domain Aliasing Cancellation (TDAC)" und
einer Signalkompandierung im Zeitbereich. Ph.d. thesis, Universitat Duisburg,
Duisburg, Germany, April 1991.

[49] G. Bertini, M. Magrini, and T. Giunti, "A time-domain system for transient enhancement in recorded music," in 14th European Signal Processing Conference
(EUSIPCO), (Florence, Italy), IEEE, September 2013.

[50] C. Duxbury, M. Sandler, and M. Davies, "A hybrid approach to musical note onset
detection," in Proc. of the 5th Int. Conference on Digital Audio Effects (DAFx-02),
(Hamburg, Germany), pp. 33-38, September 2002.

[51] A. Klapuri, "Sound onset detection by applying psychoacoustic knowledge," in
Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal
Processing, March 1999.

[52] S. L. Goh and D. P. Mandic, "Nonlinear adaptive prediction of complex-valued
signals by complex-valued PRNN," in IEEE Transactions on Signal Processing,
vol. 53, pp. 1827-1836, IEEE, May 2005.

[53] S. Haykin and L. Li, "Nonlinear adaptive prediction of nonstationary signals," in
IEEE Transactions on Signal Processing, vol. 43, pp. 526-535, IEEE, February
1995.

[54] D. P. Mandic, S. Javidi, S. L. Goh, and K. Aihara, "Complex-valued prediction of
wind profile using augmented complex statistics," in Renewable Energy, vol. 34,
pp. 196-201, Elsevier Ltd., January 2009.

[55] B. Edler, "Parametrization of a pre-masking model." Personal communication,
November 22, 2016.

[56] ITU-R Recommendation BS.1116-3, "Method for the subjective assessment of
small impairments in audio systems," recommendation, International Telecommunication
Union, Geneva, Switzerland, February 2015.

[57] ITU-R Recommendation BS.1534-3, "Method for the subjective assessment of
intermediate quality level of audio systems," recommendation, International
Telecommunication Union, Geneva, Switzerland, October 2015.

[58] ITU-R Recommendation BS.1770-4, "Algorithms to measure audio programme
loudness and true-peak audio level," recommendation, International Telecommunication
Union, Geneva, Switzerland, October 2015.

[59] S. M. Ross, Introduction to Probability and Statistics for Engineers and Scientists. Elsevier, 3. ed., 2004.

Claims (15)

  1. オーディオ信号をスペクトルフレームのシーケンスを含むスペクトル表現に変換するための時間スペクトル変換器(700)であって、前記スペクトルフレームのシーケンスの各スペクトルフレームはスペクトル値を有する、時間スペクトル変換器(700)と、
    前記時間スペクトル変換器(700)によって得られた前記スペクトルフレームのシーケンスのうちのスペクトルフレーム内の周波数に対する予測のための予測フィルタ係数を計算するための予測分析器(720)であって、前記周波数に対する予測は前記フレームのスペクトル値を、前記予測フィルタ係数を用いて前記フレームの1つ以上の他のスペクトル値から予測する、予測分析器(720)と、
    前記時間スペクトル変換器(700)によって得られた前記スペクトルフレームのシーケンスのうちの前記スペクトルフレームを整形して整形されたスペクトルフレームを得るための、前記予測フィルタ係数によって制御される整形フィルタ(740)であって、
    前記予測分析器(720)は、時間スペクトル変換器によって得られた前記スペクトルフレームのシーケンスのうちの前記スペクトルフレームから、平坦化フィルタ特性(740a)のための第1の予測フィルタ係数を計算(720a)し、且つ整形フィルタ特性(740b)のための第2の予測フィルタ係数を計算(720b)するように構成され、ここで前記予測フィルタ係数は前記第1の予測フィルタ係数および前記第2の予測フィルタ係数を用いて決定され、前記第2の予測フィルタ係数によって得られる整形の度合いは前記第1の予測フィルタ係数によって得られる平坦化の度合いよりも大きくて、前記スペクトルフレームのシーケンスのうちの前記スペクトルフレーム内のトランジェント部分が前記整形されたスペクトルフレームにおいて強調されるようになっている、整形フィルタ(740)と、
    前記整形されたスペクトルフレームを含む整形されたスペクトルフレームのシーケンスを時間領域に変換するためのスペクトル時間変換器(760)と、
    を備える、オーディオ信号を後処理(20)するための装置。
  2. 前記予測分析器(720)は、
    前記スペクトルフレームのシーケンスのうちの前記スペクトルフレームから自己相関関数を計算(800)し、
    第1の時定数を有するウィンドウで前記自己相関関数をウィンドウ処理(802)して第1の結果信号を取得し、
    前記第1の結果信号から前記第1の予測フィルタ係数(720a)を計算(806)し、
    第2の時定数を有するウィンドウで前記自己相関関数をウィンドウ処理(804)して第2の結果信号を取得し、
    前記第2の結果信号から前記第2の予測フィルタ係数を計算(808)するように構成され、
    前記第2の時定数は前記第1の時定数より大きい、
    請求項1に記載の装置。
  3. 前記平坦化フィルタ特性(740a)は、前記スペクトルフレームのシーケンスのうちの前記スペクトルフレームに適用されると前記スペクトルフレームのシーケンスのうちの前記スペクトルフレームの時間エンベロープに比べると時間エンベロープがより平坦な修正されたスペクトルフレームをもたらす、分析FIRフィルタ特性または全零フィルタ特性であり、
    前記整形フィルタ特性(740b)は、前記スペクトルフレームのシーケンスのうちの前記スペクトルフレームに適用されると前記スペクトルフレームのシーケンスのうちの前記スペクトルフレームの時間エンベロープに比べると時間エンベロープがより平坦でない修正されたスペクトルフレームをもたらす、合成IIRフィルタ特性または全極フィルタ特性である、
    請求項1または2に記載の装置。
  4. 前記予測分析器(720)は、
    前記スペクトルフレームのシーケンスのうちの前記スペクトルフレームから自己相関関数を計算(800)し、
    第2の時定数を有するウィンドウを使用して前記自己相関関数をウィンドウ処理(804)し、
    前記第2の時定数を使用してウィンドウ処理されたウィンドウ処理済自己相関関数から前記第2の予測フィルタ係数を計算(808)する
    ように構成され、かつ
    前記整形フィルタ(740)は、前記第2の予測フィルタ係数を使用して、前記スペクトルフレームのシーケンスのうちの前記スペクトルフレームを整形するように構成される、または、
    前記予測分析器(720)は、
    前記スペクトルフレームのシーケンスのうちの前記スペクトルフレームから自己相関関数を計算(800)し、
    第1の時定数および前記第1の時定数より大きい第2の時定数を有するウィンドウを使用して前記自己相関関数をウィンドウ処理(802,804)し、
    前記第1の時定数を使用してウィンドウ処理されたウィンドウ処理済自己相関関数から前記第1の予測フィルタ係数を計算(806,808)するとともに、前記第2の時定数を使用してウィンドウ処理されたウィンドウ処理済自己相関関数から前記第2の予測フィルタ係数を計算するように構成され、かつ
    前記整形フィルタ(740)は前記第2の予測フィルタ係数および前記第1の予測フィルタ係数を使用して前記スペクトルフレームのシーケンスのうちの前記スペクトルフレームを整形するように構成される、
    請求項1に記載の装置。
  5. 前記整形フィルタ(740)は2つの制御可能なサブフィルタ(809,810)のカスケードを含み、第1のサブフィルタ(809)は前記平坦化フィルタ特性(740a)を有する平坦化フィルタであり、第2のサブフィルタ(810)は前記整形フィルタ特性(740b)を有する整形フィルタであり、
    前記2つの制御可能なサブフィルタ(809,810)はいずれも、前記予測分析器(720)により導出される前記予測フィルタ係数によって制御され、前記第1のサブフィルタ(809)は前記第1の予測フィルタ係数によって制御され、前記第2のサブフィルタ(810)は前記第2の予測フィルタ係数によって制御される、あるいは
    前記整形フィルタ(740)は、前記平坦化フィルタ特性(740a)および前記整形フィルタ特性(740b)を組み合わせる(820)ことにより導出されるミックスフィルタ特性を有するフィルタであり、
    前記ミックスフィルタ特性は、前記第1の予測フィルタ係数および前記第2のフィルタ係数を組み合わせることによって導出される前記予測フィルタ係数により制御される、
    請求項1ないし4の1項に記載の装置。
  6. 前記予測分析器(720)は前記スペクトルフレームのシーケンスのうちの前記スペクトルフレームから導出される前記自己相関関数にレビンソン・ダービン・アルゴリズムを適用する(806,808)ように構成される、請求項2または4の1項に記載の装置。
  7. 前記整形フィルタ(740)はゲイン補償を適用して、前記整形されたスペクトルフレームのシーケンスのうちの前記整形されたスペクトルフレームのエネルギーが、前記時間スペクトル変換器(700)によって生成された前記スペクトルフレームのシーケンスのうちの前記スペクトルフレームのエネルギーに等しくなるように構成される請求項1ないし6の1項に記載の装置。
  8. 前記整形フィルタ(740)は、平坦化ゲインを有する前記平坦化フィルタ特性(740a)および整形ゲインを有する前記整形フィルタ特性(740b)を適用するように構成され、かつ、
    前記整形フィルタ(740)は、前記平坦化ゲインおよび前記整形ゲインの影響を補償するための前記ゲイン補償を実行するように構成される、
    請求項7に記載の装置。
  9. 前記予測分析器(720)は平坦化ゲインおよび整形ゲインを計算するように構成され、
    前記2つの制御可能なサブフィルタ(809,810)の前記カスケードはさらに、前記平坦化ゲインおよび/または前記整形ゲインから導出されたゲインを適用するための、前記2つの制御可能なサブフィルタ(809,810)のうちの少なくとも1つに含まれた別個のゲインステージ(811)またはゲイン機能を含む、あるいは
    前記ミックスフィルタ特性を有する前記フィルタ(740)は、前記平坦化ゲインおよび/または前記整形ゲインから導出されたゲインを適用するように構成される、
    請求項5に記載の装置。
  10. 前記予測分析器(720)は前記フレームのシーケンスのうちの複数のフレームについて前記予測フィルタ係数を計算して、
    前記予測フィルタ係数によって制御される前記整形フィルタ(740)が、前記複数のフレームのうちのトランジェント部分を含む第1のフレームについて信号操作を実行し、また
    前記整形フィルタ(740)が、前記複数のフレームのうちのトランジェント部分を含まない、前記第1のフレームとは異なる第2のフレームについて、信号操作を実行しないまたは前記第1のフレームについての信号操作よりも小さい信号操作を実行するように構成される、請求項1ないし9の1項に記載の装置。
  11. 前記スペクトル時間変換器(760)は、前記整形されたスペクトルフレームのシーケンスのうちの少なくとも2つの隣接する整形されたスペクトルフレームが関連するオーバーラップ加算演算を適用するように構成される、請求項1ないし10の1項に記載の装置。
  12. 前記時間スペクトル変換器(700)は、分析ウィンドウを適用するように構成され、
    前記スペクトル時間変換器(760)は、合成ウィンドウを用するように構成され、
    前記分析ウィンドウと前記合成ウィンドウとは互いに等しい
    請求項1ないし11の1項に記載の装置。
  13. 前記平坦化フィルタ特性(740a)は、前記スペクトルフレームのシーケンスのうちの前記スペクトルフレームに適用されると、前記スペクトルフレームのシーケンスのうちの前記スペクトルフレームの時間エンベロープと比較して時間エンベロープがより平坦な修正スペクトルフレームをもたらす、逆フィルタ特性であり、
    前記整形フィルタ特性(740b)は、前記スペクトルフレームのシーケンスのうちの前記スペクトルフレームに適用されると、前記スペクトルフレームのシーケンスのうちの前記スペクトルフレームの時間エンベロープと比較して時間エンベロープがより平坦でない修正スペクトルフレームをもたらす、合成フィルタ特性である、
    請求項1または2に記載の装置。
  14. オーディオ信号をスペクトルフレームのシーケンスを含むスペクトル表現に変換するステップ(700)であって、前記スペクトルフレームのシーケンスの各スペクトルフレームはスペクトル値を有する、スペクトル表現に変換するステップ(700)と、
    前記スペクトル表現に変換するステップ(700)によって得られた前記スペクトルフレームのシーケンスのうちのスペクトルフレーム内の周波数に対する予測のための予測フィルタ係数を計算するステップ(720)であって、前記周波数に対する予測は前記スペクトルフレームのシーケンスのうちの前記フレームのスペクトル値を、前記予測フィルタ係数を使用して前記スペクトルフレームのシーケンスのうちの前記フレームの1つ以上の他のスペクトル値から予測する、計算するステップ(720)と、
    整形されたスペクトルフレームを得るために、前記予測フィルタ係数に応答して前記スペクトル表現に変換するステップ(700)によって得られた前記スペクトルフレームのシーケンスのうちの前記スペクトルフレームを整形するステップ(740)であって、
    前記計算するステップ(720)は、前記スペクトル表現に変換するステップ(700)によって得られた前記スペクトルフレームのシーケンスのうちの前記スペクトルフレームから、平坦化フィルタ特性(740a)のための第1の予測フィルタ係数を計算するステップ(720a)と、整形フィルタ特性(740b)のための第2の予測フィルタ係数を計算するステップ(720b)とを含み、ここで前記予測フィルタ係数は前記第1の予測フィルタ係数および前記第2の予測フィルタ係数を用いて決定され、前記第2の予測フィルタ係数によって得られた整形の度合いは前記第1の予測フィルタ係数によって得られた平坦化の度合いよりも大きく、前記スペクトルフレームのシーケンスのうちの前記スペクトルフレーム内のトランジェント部分が前記整形されたスペクトルフレームにおいて強調される、前記スペクトルフレームを整形するステップ(740)と、
    前記整形されたスペクトルフレームを含む整形されたスペクトルフレームのシーケンスを時間領域に変換するステップ(760)と、
    を含む、オーディオ信号を後処理する(20)ための方法。
  15. コンピュータまたはプロセッサ上で動作するときに、請求項14の方法を実行するためのコンピュータプログラム。
JP2019553965A 2017-03-31 2018-03-29 予測に基づく整形を使用したオーディオ信号の後処理のための装置および方法 Active JP7261173B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP17164332 2017-03-31
EP17164332.3 2017-03-31
EP17183135.7 2017-07-25
EP17183135.7A EP3382701A1 (en) 2017-03-31 2017-07-25 Apparatus and method for post-processing an audio signal using prediction based shaping
PCT/EP2018/025084 WO2018177613A1 (en) 2017-03-31 2018-03-29 Apparatus and method for post-processing an audio signal using prediction based shaping

Publications (2)

Publication Number Publication Date
JP2020512597A JP2020512597A (ja) 2020-04-23
JP7261173B2 true JP7261173B2 (ja) 2023-04-19

Family

ID=58644790

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019553965A Active JP7261173B2 (ja) 2017-03-31 2018-03-29 予測に基づく整形を使用したオーディオ信号の後処理のための装置および方法

Country Status (6)

Country Link
US (1) US11562756B2 (ja)
EP (2) EP3382701A1 (ja)
JP (1) JP7261173B2 (ja)
CN (1) CN110709926B (ja)
RU (1) RU2732995C1 (ja)
WO (1) WO2018177613A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3382701A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using prediction based shaping
WO2021226342A1 (en) 2020-05-06 2021-11-11 Dolby Laboratories Licensing Corporation Audio watermark to indicate post-processing
CN113571080B (zh) * 2021-02-08 2024-11-08 腾讯科技(深圳)有限公司 语音增强方法、装置、设备及存储介质
CN113343952B (zh) * 2021-08-05 2021-11-05 北京科技大学 一种瞬态特征时频分析与重构方法
CN114242092A (zh) * 2021-11-05 2022-03-25 福建超智集团有限公司 一种监控环境中提高语音播报扩声增益的智能处理方法和系统
CN117939384B (zh) * 2024-03-22 2024-07-19 深圳市东微智能科技股份有限公司 设备检测方法、装置、终端设备以及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011048792A1 (ja) 2009-10-21 2011-04-28 パナソニック株式会社 音響信号処理装置、音響符号化装置および音響復号装置
JP2015525893A (ja) 2012-06-28 2015-09-07 フラウンホーファーゲゼルシャフトツール フォルデルング 改良された確率分布推定を使用する線形予測に基づくオーディオ符号化
JP2015184470A (ja) 2014-03-24 2015-10-22 株式会社Nttドコモ 音声復号装置、音声符号化装置、音声復号方法、音声符号化方法、音声復号プログラム、および音声符号化プログラム

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2689739B2 (ja) * 1990-03-01 1997-12-10 日本電気株式会社 秘話装置
EP0796489B1 (en) 1994-11-25 1999-05-06 Fleming K. Fink Method for transforming a speech signal using a pitch manipulator
US5825320A (en) 1996-03-19 1998-10-20 Sony Corporation Gain control method for audio encoding device
US6263312B1 (en) 1997-10-03 2001-07-17 Alaris, Inc. Audio compression and decompression employing subband decomposition of residual signal and distortion reduction
US5913191A (en) 1997-10-17 1999-06-15 Dolby Laboratories Licensing Corporation Frame-based audio coding with additional filterbank to suppress aliasing artifacts at frame boundaries
US6842733B1 (en) * 2000-09-15 2005-01-11 Mindspeed Technologies, Inc. Signal processing system for filtering spectral content of a signal for speech coding
BR0107420A (pt) * 2000-11-03 2002-10-08 Koninkl Philips Electronics Nv Processos de codificação de um sinal de entrada e de decodificação, sinal modificado modelado, meio de armazenagem, decodificador, reprodutor de áudio, e ,aparelho para codificação de sinais
US7460993B2 (en) 2001-12-14 2008-12-02 Microsoft Corporation Adaptive window-size selection in transform coding
KR100462615B1 (ko) * 2002-07-11 2004-12-20 삼성전자주식회사 적은 계산량으로 고주파수 성분을 복원하는 오디오 디코딩방법 및 장치
US7460990B2 (en) * 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
FR2888704A1 (ja) 2005-07-12 2007-01-19 France Telecom
DE102006051673A1 (de) * 2006-11-02 2008-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Nachbearbeiten von Spektralwerten und Encodierer und Decodierer für Audiosignale
EP2015293A1 (en) * 2007-06-14 2009-01-14 Deutsche Thomson OHG Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain
EP2410519B1 (en) 2008-07-11 2019-09-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for encoding and decoding an audio signal and computer programs
EP2953131B1 (en) 2009-01-28 2017-07-26 Dolby International AB Improved harmonic transposition
EP2214165A3 (en) 2009-01-30 2010-09-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for manipulating an audio signal comprising a transient event
JP4921611B2 (ja) * 2009-04-03 2012-04-25 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
JP4932917B2 (ja) 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
CN101908342B (zh) * 2010-07-23 2012-09-26 北京理工大学 利用频域滤波后处理进行音频暂态信号预回声抑制的方法
ES2534972T3 (es) * 2011-02-14 2015-04-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Predicción lineal basada en esquema de codificación utilizando conformación de ruido de dominio espectral
JP5633431B2 (ja) 2011-03-02 2014-12-03 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
WO2013075753A1 (en) 2011-11-25 2013-05-30 Huawei Technologies Co., Ltd. An apparatus and a method for encoding an input signal
EP2786377B1 (en) 2011-11-30 2016-03-02 Dolby International AB Chroma extraction from an audio codec
JP5898534B2 (ja) 2012-03-12 2016-04-06 クラリオン株式会社 音響信号処理装置および音響信号処理方法
FR2992766A1 (fr) 2012-06-29 2014-01-03 France Telecom Attenuation efficace de pre-echos dans un signal audionumerique
EP2717261A1 (en) * 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for backward compatible multi-resolution spatial-audio-object-coding
US9135920B2 (en) 2012-11-26 2015-09-15 Harman International Industries, Incorporated System for perceived enhancement and restoration of compressed audio signals
FR3000328A1 (fr) 2012-12-21 2014-06-27 France Telecom Attenuation efficace de pre-echos dans un signal audionumerique
CA2898677C (en) * 2013-01-29 2017-12-05 Stefan Dohla Low-frequency emphasis for lpc-based coding in frequency domain
MY185210A (en) 2013-02-20 2021-04-30 Fraunhofer Ges Forschung Apparatus and method for generating an encoded signal or for decoding an encoded audio signal using a multi overlap portion
EP2830056A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding an audio signal with intelligent gap filling in the spectral domain
DK2916321T3 (en) 2014-03-07 2018-01-15 Oticon As Processing a noisy audio signal to estimate target and noise spectral variations
EP2980798A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Harmonicity-dependent controlling of a harmonic filter tool
BR112017018145B1 (pt) 2015-02-26 2023-11-28 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E. V Aparelho e método para processamento de um sinal de áudio para obter um sinal de áudio processado utilizando um envelope de domínio de tempo alvo
WO2017080835A1 (en) 2015-11-10 2017-05-18 Dolby International Ab Signal-dependent companding system and method to reduce quantization noise
EP3182410A3 (en) 2015-12-18 2017-11-01 Dolby International AB Enhanced block switching and bit allocation for improved transform audio coding
EP3382701A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using prediction based shaping
EP3382700A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using a transient location detection

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011048792A1 (ja) 2009-10-21 2011-04-28 パナソニック株式会社 音響信号処理装置、音響符号化装置および音響復号装置
JP2015525893A (ja) 2012-06-28 2015-09-07 フラウンホーファーゲゼルシャフトツール フォルデルング 改良された確率分布推定を使用する線形予測に基づくオーディオ符号化
JP2015184470A (ja) 2014-03-24 2015-10-22 株式会社Nttドコモ 音声復号装置、音声符号化装置、音声復号方法、音声符号化方法、音声復号プログラム、および音声符号化プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Jing Wang et al.,"Quality enhancement of coded transient audio with a post-filter in frequency domain",Proceedings of IEEE 10th International Conference on Signal Processing,2010年10月24日,pp.506-509

Also Published As

Publication number Publication date
CN110709926A (zh) 2020-01-17
WO2018177613A1 (en) 2018-10-04
US11562756B2 (en) 2023-01-24
CN110709926B (zh) 2023-08-15
EP3602548C0 (en) 2025-05-21
EP3602548A1 (en) 2020-02-05
JP2020512597A (ja) 2020-04-23
BR112019020491A2 (pt) 2020-04-28
RU2732995C1 (ru) 2020-09-28
US20200013421A1 (en) 2020-01-09
EP3382701A1 (en) 2018-10-03
EP3602548B1 (en) 2025-05-21

Similar Documents

Publication Publication Date Title
JP7055542B2 (ja) トランジェント位置検出を使用したオーディオ信号の後処理のための装置
JP7261173B2 (ja) 予測に基づく整形を使用したオーディオ信号の後処理のための装置および方法
CN107925388B (zh) 后置处理器、预处理器、音频编解码器及相关方法
JP6026678B2 (ja) 高度なスペクトラム拡張を使用して量子化ノイズを低減するための圧縮伸張装置および方法
CN110914902B (zh) 用于确定与音频信号的频谱增强处理有关的预定特性的装置和方法
CN101390159A (zh) 在解码器和相应设备中可靠识别和衰减数字信号中的回声的方法
US10170126B2 (en) Effective attenuation of pre-echoes in a digital audio signal
JP2021502592A (ja) スケールパラメータのダウンサンプリングまたは補間を使用してオーディオ信号をエンコードおよびデコードするための装置および方法
JP6728142B2 (ja) デジタルオーディオ信号におけるプレエコーを識別し、減衰させる方法及び装置
RU2786712C1 (ru) Аудиопроцессор и способ генерирования аудиосигнала с улучшенной частотной характеристикой с использованием импульсной обработки
Füg Advanced Temporal Noise Shaping Techniques for Transform Audio Coding
HK40072038A (en) Companding apparatus and method to reduce quantization noise using advanced spectral extension
BR112019020515B1 (pt) Aparelho para pós-processamento de um sinal de áudio usando uma detecção de localização transiente
BR112019020491B1 (pt) Aparelho e método para pós-processamento de um sinal de áudio usando formato com base em previsão
HK40014531B (en) Apparatus and method for processing an audio signal
HK40014531A (en) Apparatus and method for processing an audio signal

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191203

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191202

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210105

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210329

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210705

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210914

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220114

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20220114

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20220117

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20220207

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20220208

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20220408

C211 Notice of termination of reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C211

Effective date: 20220412

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20220628

C13 Notice of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: C13

Effective date: 20220802

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20221101

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230131

C23 Notice of termination of proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C23

Effective date: 20230214

C03 Trial/appeal decision taken

Free format text: JAPANESE INTERMEDIATE CODE: C03

Effective date: 20230314

C30A Notification sent

Free format text: JAPANESE INTERMEDIATE CODE: C3012

Effective date: 20230314

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230407

R150 Certificate of patent or registration of utility model

Ref document number: 7261173

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150