JP7261173B2 - 予測に基づく整形を使用したオーディオ信号の後処理のための装置および方法 - Google Patents
予測に基づく整形を使用したオーディオ信号の後処理のための装置および方法 Download PDFInfo
- Publication number
- JP7261173B2 JP7261173B2 JP2019553965A JP2019553965A JP7261173B2 JP 7261173 B2 JP7261173 B2 JP 7261173B2 JP 2019553965 A JP2019553965 A JP 2019553965A JP 2019553965 A JP2019553965 A JP 2019553965A JP 7261173 B2 JP7261173 B2 JP 7261173B2
- Authority
- JP
- Japan
- Prior art keywords
- spectral
- frames
- filter
- sequence
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/03—Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
- G10L19/025—Detection of transients or attacks for time/frequency resolution switching
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Description
信号内のトランジェント位置をガイドなしで検出して、トランジェント位置を見つける
トランジェントに先行するプレエコー期間と強度の推定
プレエコーアーチファクトをミュートするための適切な時間的ゲイン曲線の導出
トランジェント前の適応された時間ゲインカーブによる推定プレエコーのダッキング/ダンピング(プレエコーを緩和するため)
アタック時、アタックの分散を緩和
トーンまたはその他の準定常スペクトル帯域のダッキングからの除外
信号内のトランジェント位置をガイドなしで検出して、トランジェント位置を見つける(この手順はオプション)
周波数領域線形予測係数(FD-LPC)平坦化フィルタと後続のFD-LPC整形フィルタとの適用によるアタックエンベロープの鮮鋭化、平坦化フィルタは平滑化された時間エンベロープを表し、整形フィルタは平滑性の低い時間エンベロープを表し、両方のフィルタの予測ゲインが補償される。
線形予測(LP)はオーディオのエンコードのために有用な方法である。いくつかの過去の研究は音声生成過程[11, 12, 13]をモデル化できる能力を部分的に記述する一方、他は一般にオーディオ信号の分析のためにそれを適用する[14, 15, 16, 17] 。次のセクションは[11, 12, 13, 15, 18]に基づく。
フィルタ係数が時間信号上で計算された場合、LPCフィルタの重要な特徴は、周波数領域における信号の特徴をモデル化するその能力である。時系列の予測と同等で、線形予測はシーケンスのスペクトルを近似する。予測次数に依存してLPCフィルタは信号周波数応答のより詳細なあるいはあまり詳細でないエンベロープを計算するのに使用できる。以下のセクションは[11, 12, 13, 14, 16, 17, 20, 21]に基づく。
文字通り、トランジェントの多くの異なる定義が見いだせる。ある人はそれを開始またはアタック[22、23、24、25]と呼ぶが、他の人はこれらの用語を使ってトランジェントを説明する[26、27]。このセクションはトランジェントを定義しこの開示の目的についてそれらを特徴付ける異なるアプローチを記述することを目的とする。
トランジェント、開始およびアタックの概念の間の相違は、この論文に採用されるBelloら[26]に見出すことができる。これらの語句の相違はカスタネットにより生成されるトランジェント信号の例を使用して図12-9に示される。
・一般に、トランジェントの概念は依然著者らにより包括的に定義されていない が、それらは区別可能な瞬間よりも短い瞬間として特徴付けている。このトラ ンジェント周期において信号の増幅は相対的に予測不能な方法で急速に立ち上 がる。しかしながら、それは、増幅後のトランジェントの終了がそのピークに 達するところで正確に定義されない。それらのかなり非公式な定義において、 増幅減衰の部分をトランジェント間隔に含む。この特性評価により、アコース ティック楽器はトランジェントを生成し、その間、それらは励起し(例えば、 ギターの弦が弾かれたり、スネアドラムが叩かれたとき)、その後、減衰する 。この最初の減衰の後、次のより遅い信号減衰は、楽器本体の共振周波数によ ってのみ引き起こされる。
・開始は、信号の振幅が上昇し始める瞬間である。この文献について、開始はト ランジェントの開始時間として定義される。
・トランジェントのアタックは増幅度が増大する間の開始とピークとの間のトランジェント内の期間である。
このセクションでは、知覚オーディオ符号化と、後で説明するトランジェント強化アルゴリズムで使用される心理音響概念への基本的な入門を提供する。心理音響学の目的は、“音響信号の測定可能な物理的特性と、これらの音響が聴取者に呼び起こす内部知覚”との関係を記述することである[32]。人間の聴覚には限界があり、オーディオコンテンツの符号化プロセスで知覚オーディオ符号化器がこれを活用して、符号化されたオーディオ信号のビットレートを大幅に低減できる。知覚的オーディオ符号化の目標は、デコードされたオーディオ信号が元の信号に正確にまたはできるだけ近く聞こえるようにオーディオ素材をエンコードすることであるが[1]、それでもいくつかの可聴符号化アーチファクトが生じる可能性がある。これらのアーティファクトの起源を理解するために必要な背景と、知覚オーディオ符号化器によって使用される心理音響モデルがこのセクションでどのように提供されるかを説明する。読者は、心理音響学に関するより詳細な説明について[33、34]を参照されたい。
同時マスキングとは、両方の音の周波数が近い場合に、強い音(マスカー)が同時に聞こえると、1つの音(マスキー)が人間の聞き手に聞こえない心理音響現象を指す。この現象を説明するために広く使用されている例は、道路脇の2人の間の会話である。干渉するノイズがないため、お互いを完全に知覚できるが、車やトラックが通過する場合は、お互いを理解し続けるために、声量を上げる必要がある。
マスキングは、マスカーとマスキーが同時に提示される場合だけでなく、時間的に分離されている場合にも有効である。プローブ音は、マスカーが存在する期間の前後にマスクすることができ[40]、これは、プレマスキングおよびポストマスキングと呼ばれる。時間的なマスキング効果の図を図2.11に示す。マスキング音の開始前にプレマスキングが行われ、マスキング音は、t の負の値に対して示される。プレマスキング期間の後、同時マスキングが有効になり、マスカーがオンになった直後にオーバーシュート効果があり、同時マスキング閾値が一時的に増加する[37]。マスカーがオフになった後(t の正の値を示す)、ポストマスキングが有効になる。プレマスキングは、提示された音の知覚を生成するために聴覚システムが必要とする統合時間で説明できる[40]。さらに、より大きな音は、より弱い音よりも聴覚システムによってより速く処理される[33]。プレマスキングが発生する期間は、特定の聴者のトレーニング量に大きく依存し[17, 34] 、最大20ミリ秒[33]持続するが、マスカー開始前の1~5ミリ秒の期間でのみ重要である[17, 37] 。ポストマスキングの量は、マスカーとプローブ音の両方の周波数、マスカーのレベルと持続時間、およびプローブ音とマスカーがオフになる瞬間の間の期間に依存する[17, 34]。Moore[34]によると、ポストマスキングは少なくとも20ミリ秒間有効であり、他の研究では約200ミリ秒までのさらに長い持続時間を示す[33]。さらに、PainterとSpaniasは、ポストマスキングは「マスカーとプローブの周波数関係が変化したときに観察できる同時マスキングと同様の周波数依存の動作も示す」と述べている[17, 34]。
知覚オーディオ符号化の目的はオーディオ信号を、結果として生じるビットレートが元のオーディオと比較して可能な限り小さくなるが、再構成された(復号化された)信号が非圧縮信号[1, 17, 32, 37, 41, 42]と区別されるべきでない透過的な音質を維持するように圧縮することである。これは人間の聴覚システムのいくつかの制限を利用して入力信号から冗長かつ無関係な情報を除去することで行われる。冗長性は例えば後続の信号サンプル、スペクトル係数または異なる音声チャンネル間の相関を利用することによりおよび適当なエントロピー符号化により除去できる一方、非相関性はスペクトル係数の量子化により処理することが可能である。
モノラル知覚オーディオ符号化器の基本的構造は、図12-12に描かれている。最初に、入力オーディオ信号は分析フィルタバンクを適用することで周波数領域表現に変換される。このようにして、受信したスペクトル係数を「周波数成分に応じて」選択的に量子化することができる[32]。量子化ブロックはスペクトル係数の連続値を値の離散セットにまるめて符号化オーディオ信号におけるデータ量を削減する。このようにして、復号化器において元の信号の正確な値を再構成することは不可能であるので、圧縮は非可逆となる。この量子化誤差の導入は量子化雑音として言及される付加雑音信号とみなすことができる。量子化は、各分析ウィンドウにおける各スペクトル係数について時間および同時マスキング閾値を計算する知覚モデルの出力により導かれる。静寂下における絶対的閾値は“16ビット整数値における±1最下位ビットのピークの大きさを有する4kHzの信号がヒアリングでの絶対的閾値である”[31]ことを仮定することにより利用することも可能である。ビット割当てブロックにおいて、これらのマスキング閾値は含まれる量子化雑音が人間の聴者が非可聴になるように必要なビットの数を決定するのに使用される。さらに、計算されたマスキング閾値を下回るスペクトル係数(およびそれ故人間の聴覚上の認識に無関係である)は送信されるべき必要がなく0に量子化できる。量子化されたスペクトル係数は従って信号データにおける冗長性を削減する(例えばハフマン符号化または算術符号化により)エントロピー符号化される。最終的に符号化オーディオ信号のみならず量子化スケール係数に類似の付加サイド情報は単一ビットストリームを形成するようにマルチプレックスされ、レシーバに送信される。レシーバ側でのオーディオ復号化器(図12-13参照)は入力ビットストリームをデマルチプレックスすることにより逆演算を行い、スケール係数を転送するとともにスペクトル値を再構成し、合成フィルタバンクをエンコーダの分析フィルタバンクに相補的に適用し、結果物としての出力時間信号を再構成する。
復号化オーディオ信号の透過サウンド品質を生成するための知覚オーディオ符号化の目標にもかかわらず、それは依然可聴アーチファクトを示す。トランジェントの認識された品質に影響するこれらのアーチファクトのいくつかは後述する。
オーディオ信号ブロックの量子化について提供するために、ビット割当てプロセスについて利用できるビットの量は限られている。1つのフレームのビット要求が高すぎる場合、いくつかのスペクトル係数をゼロに量子化することにより削除できる[1、43、44]。これは、本質的に一部の高周波コンテンツの一時的な損失を引き起こし、主に低ビットレートコーディングの場合、または非常に要求の厳しい信号、たとえば頻繁なトランジェント事象を伴う信号を処理する場合に問題になる。ビットの割当てはブロックごとに異なるため、スペクトル係数の周波数成分は1つのフレームで削除され、次のフレームに存在する場合がある。誘導されたスペクトルのギャップは“バーディー”と呼ばれ、図2.14の下側の図で見ることができる。特に、トランジェントのエンコードは、これらの信号部分のエネルギーが周波数スペクトル全体に拡散するため、バーディアーチファクトを生成する傾向がある。一般的なアプローチは、エンコード処理の前にオーディオ信号の帯域幅を制限し、LFコンテンツの量子化に利用可能なビットを節約することであり、これは図2.14の符号化信号でも示されている。このトレードオフは、一般に許容される帯域幅の一定の損失よりも、バーディーが知覚される音質に大きな影響を与えるため、適している。しかしながら、帯域幅の制限があっても、依然バーディーが発生する可能性はある。後で説明するトランジェント強化方法自体は、スペクトルギャップの修正や符号化信号の帯域幅の拡大を目的とするものではないが、高周波の損失はエネルギーの減少とトランジェントアタックの劣化を引き起こし(図12-15を参照)、これは、後で説明するアタック強化方法の対象である。
他の共通の圧縮アーチファクトはいわゆるプレエコーである[1, 17, 20, 43, 44]。プレエコーは、信号ブロックの終わり近くで信号エネルギーの急激な増加(すなわちトランジェント現象)が発生した場合に発生する。トランジェント信号部分に含まれる実質的なエネルギーは広範囲の周波数に分散され、これにより心理音響モデルで比較的高いマスキングしきい値が推定され、スペクトル係数の量子化に数ビットのみが割当てられる。その後、追加された大量の量子化ノイズは、復号化プロセスで信号ブロックの期間全体に広がる。定常信号の場合、量子化ノイズは完全にマスクされていると見なされるが、トランジェントを含む信号ブロックの場合、量子化ノイズはトランジェント開始に先行し、“プレマスキング[...]期間を超えて延長する場合”[1]トランジェント開始に先行して聞こえる可能性がある。プレエコーを扱ういくつかの提案された方法があるが、これらのアーチファクトは依然現在の研究の対象となる。図12-16は、カスタネットトランジェントについてのプレエコーアーチファクトの例を示す。点線の黒い曲線は、トランジェント開始前に実質的な信号エネルギーがない元の信号の波形である。従って、符号化された信号のトランジェントに先行する誘導プレエコー(灰色の曲線)は同時にマスクされず、元の信号と直接比較しなくても知覚できる。プレエコーノイズの補足的な低減のために提案された方法は、後に提示される。
実施例において、トランジェントの強化についての方法は常に信号を修正するよりもトランジェント事象にもっぱら適用される。従って、トランジェントの瞬間が検出される。この作業のためにトランジェント検出方法が実装され、個々のオーディオ信号が別々に調整される。これは、このセクションで後述するトランジェント検出方法の特定のパラメータとしきい値とが、特定のサウンドファイルごとに特別に調整され、トランジェント信号部分の最適な検出が行われることを意味する。この検出の結果は各フレームについての2進値であり、トランジェント開始の存在を示す。
この強化ステージの目的はトランジェントの開始前の或る期間において可聴であるプレエコーとして知られる符号化アーチファクトを低減することである。プレエコー低減アルゴリズムの概観は図4.4において示される。プレエコー低減ステージは入力信号としてSTFT分析Xk,m(100)後の出力のみならず以前に検出されたトランジェント開始フレームインデックスmiを得る。最悪の場合、プレエコーはトランジェント事象の前に(コーデックサンプリングレートにかかわらず2048サンプルである)エンコーダ側で長いブロック分析ウィンドウの長さまでに開始する。ウィンドウの時間間隔は特定のエンコーダのサンプリング周波数に依存する。最悪の場合のシナリオに関し、8kHzの最小コーデックサンプリング周波数が仮定される。復号化されリサンプリングされた入力信号snについて44.1kHzのサンプリング レートで長い分析ウィンドウの長さ(およびそれゆえにプレエコー領域のポテンシャル範囲)は時間信号snのNlong = 2048・44.1 kHz/8 kHz = 11290サンプル(または256 ms)に対応する。この章で記述された強化方法は時間周波数表現Xk,m上で機能するので、NlongはMlong = ( Nlong - L)/( N - L) = (11290 -64)/ (128 -64) = 176フレームに変換されるべきである。NおよびLは図13-1におけるフレームサイズおよびSTFT分析ブロック(100)のオーバーラップである。Mlongはプレエコー幅の上側境界としてセットされ、かつ検出されたトランジェント開始フレームmiの前のプレエコー開始フレームについてサーチ領域を制限するために使用される。この作業について、リサンプリングの前の復号化された信号のサンプリングレートが検証データ(ground truth)として得られ、プレエコー幅についての上側境界がエンコードsnに使用された特定のコーデックに適合される。
次のサブセクションで説明するように、トランジェント開始前のトーン周波数成分に対応する後続の検出されたスペクトル係数は、次のプレエコー幅の推定に使用される。プレエコーアーチファクトは現在のトーン成分によってマスクされる可能性が高いため、これらのトーンスペクトル係数のエネルギー削減をスキップするために、次のプレエコー削減アルゴリズムでそれらを使用することも有益である。しかしながら、場合によっては、トーン係数のスキップにより、検出されたトーン周波数の近くのいくつかの周波数で可聴エネルギーが増加するという形で追加のアーチファクトが導入されるため、この実施形態におけるプレエコー低減方法ではこの方法は省略されている。
このセクションで議論された方法は低下したトランジェントアタックを強化するとともにトランジェント事象の増幅を強調することが目的である。
オーディオ信号を時間周波数表現に変換するための変換器(100)と、
オーディオ信号または時間周波数表現を使用するトランジェント部分の時間的位置を推定するためのトランジェント位置推定器(120)と、
時間周波数表現を操作するための信号操作器(140)であって、信号操作器はトランジェント位置の前の時間的位置における時間周波数表現におけるプレエコーを低減(220)または除去するか、あるいはトランジェント位置での時間周波数表現を整形(500)してトランジェント位置の攻撃を増幅するように構成されている。
信号操作器(140)は時間内にトランジェント部分に先行する時間周波数表現におけるトーン信号成分を検出するためのトーン推定器(200)を含み、かつ、
前記信号操作器(140)はトーン信号成分が検出される周波数で信号操作が低減されるかトーン信号成分が検出されない周波数と比較して低減されるか遮断されるように、周波数選択方法におけるプレエコー低減または除去を適用するように構成されている。
信号操作器(140)はプレエコー幅内の時間周波数表現におけるスペクトル値についてのプレエコー閾値を推定するためのプレエコー閾値推定器(260)を含み、プレエコー閾値はプレエコー低減または除去に後続する対応するスペクトル値の増幅閾値を示す。
時間周波数表現の複数の後続のフレーム上の時間周波数表現を平滑(330)し、かつ
プレエコー幅の開始からトランジェント位置への増加特性を有する重み付け曲線を使用する平滑された時間周波数表現を重み付けする(340)ように構成されている。
時間周波数表現のスペクトル値についての個々のスペクトル重みを計算するためのスペクトル重み計算機(300、160)と、
スペクトル重みを使用する時間周波数表現の重み付けスペクトル値について操作された時間周波数表現を得るためのスペクトル重み付け器(320)とを含む。
スペクトル重み計算機(300)は、
現実のスペクトル値および目標スペクトル値を使用する生のスペクトル重みを決定(450)するか、あるいは
時間周波数表現のフレーム内での周波数における生のスペクトル重みを平滑(460)するか、あるいは
プレエコー幅の開始での複数のフレーム上の減衰曲線を使用するプレエコーの低減または除去をフェードイン(430)するか、あるいは
プレエコー閾値以下の増幅度を有するスペクトル値が信号操作により影響されないように目標スペクトル値を決定(420)するか、あるいは
プレエコー領域におけるスペクトル値の減衰がプレマスキングモデル(410)に基づいて低減されないようにプレマスキングモデル(410)を使用して目標スペクトル値を決定する、ように構成されている。
時間周波数表現は複素スペクトル値を含み、
信号操作器(140)は実スペクトル重み値を複素スペクトル値に適用するように構成されている。
信号操作器(140)は、時間周波数表現のトランジェントフレーム内のスペクトル値を増幅する(500)ように構成されている。
信号操作器(140)は、最小周波数上のスペクトル値を増幅のみ行うように構成され、最小周波数は250Hz以上2kHz以下である。
信号操作器(140)はトランジェント位置での時間周波数表現を持続部分およびトランジェント部分に駆動(630)するように構成されており、
前記信号操作器(140)は前記トランジェント部分の増幅のみを行い、前記持続部分を増幅しないように構成されている。
前記信号操作器(140)は、スペクトル値の延長部分を使用するスペクトル値、増幅されたトランジェント部分、およびスペクトル値の大きさのためのスペクトル重み係数を計算(680)するように構成され、増幅部分の増幅量は既定で300%と150%との間であり、あるいは前記スペクトルの重みは周波数にわたって平滑(690)されている。
操作された時間周波数表現を時間周波数表現の少なくとも隣接するフレームを含むオーバーラップ加算演算を使用して時間領域に変換(370)するためのスペクトル時間変換器をさらに含む、先行する実施例の1つの装置。
前記スペクトル時間変換器(370)はオーバーラップウィンドウのオーバーラップの大きさや、1~3msの間の変換器が使用するホップの大きさに対応するオーバーラップウィンドウのオーバーラップ範囲を使用するように構成されるか、2~6msの間のウィンドウ長を有する合成ウィンドウを使用するように構成されるか、あるいは、前記分析ウィンドウと前記合成ウィンドウとは互いに同一である装置。
オーディオ信号を時間周波数表現に変換(100)するステップと、
オーディオ信号または時間周波数表現を使用してトランジェント部分の時間的なトランジェント位置を推定(120)するステップと、
時間周波数表現を操作(140)し、トランジェント位置より時間的に前の位置で時間周波数表現におけるプレエコーを低減(220)または除去するかトランジェント位置での時間周波数表現の整形(500)を実行してトランジェント位置の攻撃を増幅するステップとを含む、オーディオ信号の後処理(20)の方法。
17th International Conference: High-Quality Audio Coding, September 1999.
[2] K. Brandenburg and G. Stoll, "ISO/MPEG-1 audio: A generic standard for coding
of high-quality digital audio," J. Audio Eng. Soc., vol. 42, pp. 780-792, October 1994.
[3] ISO/IEC 11172-3, "MPEG-1: Coding of moving pictures and associated audio
for digital storage media at up to about 1.5 mbit/s - part 3: Audio," international
standard, ISO/IEC, 1993. JTC1/SC29/WG11.
[4] ISO/IEC 13818-1, "Information technology - generic coding of moving pictures
and associated audio information: Systems," international standard, ISO/IEC, 2000. ISO/IEC JTC1/SC29.
[5] J. Herre and J. D. Johnston, "Enhancing the performance of perceptual audio
coders by using temporal noise shaping (TNS)," in 101st Audio Engineering Society
Convention, no. 4384, AES, November 1996.
[6] B. Edler, "Codierung von audiosignalen mit uberlappender transformation und
adaptiven fensterfunktionen," Frequenz - Zeitschrift fur Telekommunikation,
vol. 43, pp. 253-256, September 1989.
[7] I. Samaali, M. T.-H. Alouane, and G. Mahe, "Temporal envelope correction for attack
restoration im low bit-rate audio coding," in 17th European Signal Processing
Conference (EUSIPCO), (Glasgow, Scotland), IEEE, August 2009.
[8] J. Lapierre and R. Lefebvre, "Pre-echo noise reduction in frequency-domain audio
codecs," in 42nd IEEE International Conference on Acoustics, Speech and Signal
Processing, pp. 686-690, IEEE, March 2017.
[9] A. V. Oppenheim and R. W. Schafer, Discrete-Time Signal Processing. Harlow,
UK: Pearson Education Limited, 3. ed., 2014.
[10] J. G. Proakis and D. G. Manolakis, Digital Signal Processing - Principles, Algorithms,
and Applications. New Jersey, US: Pearson Education Limited, 4. ed., 2007.
[11] J. Benesty, J. Chen, and Y. Huang, Springer handbook of speech processing, ch. 7.
Linear Prediction, pp. 121-134. Berlin: Springer, 2008.
[12] J. Makhoul, "Spectral analysis of speech by linear prediction," in IEEE Transactions
on Audio and Electroacoustics, vol. 21, pp. 140-148, IEEE, June 1973.
[13] J. Makhoul, "Linear prediction: A tutorial review," in Proceedings of the IEEE,
vol. 63, pp. 561-580, IEEE, April 2000.
[14] M. Athineos and D. P.W. Ellis, "Frequency-domain linear prediction for temporal
features," in IEEE Workshop on Automatic Speech Recognition and Understanding,
pp. 261-266, IEEE, November 2003.
[15] F. Keiler, D. Arfib, and U. Zolzer, "Efficient linear prediction for digital audio
effects," in COST G-6 Conference on Digital Audio Effects (DAFX-00), (Verona,
Italy), December 2000.
[16] J. Makhoul, "Spectral linear prediction: Properties and applications," in IEEE
Transactions on Acoustics, Speech, and Signal Processing, vol. 23, pp. 283-296,
IEEE, June 1975.
[17] T. Painter and A. Spanias, "Perceptual coding of digital audio," in Proceedings of
the IEEE, vol. 88, April 2000.
[18] J. Makhoul, "Stable and efficient lattice methods for linear prediction," in
IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. ASSP-25,
pp. 423-428, IEEE, October 1977.
[19] N. Levinson, "The wiener rms (root mean square) error criterion in filter design
and prediction," Journal of Mathematics and Physics, vol. 25, pp. 261-278, April
1946.
[20] J. Herre, "Temporal noise shaping, qualtization and coding methods in perceptual
audio coding: A tutorial introduction," in Audio Engineering Society Conference:
17th International Conference: High-Quality Audio Coding, vol. 17, AES, August
1999.
[21] M. R. Schroeder, "Linear prediction, entropy and signal analysis," IEEE ASSP
Magazine, vol. 1, pp. 3-11, July 1984.
[22] L. Daudet, S. Molla, and B. Torresani, "Transient detection and encoding using
wavelet coeffcient trees," Colloques sur le Traitement du Signal et des Images,
September 2001.
[23] B. Edler and O. Niemeyer, "Detection and extraction of transients for audio coding,"
in Audio Engineering Society Convention 120, no. 6811, (Paris, France), May 2006.
[24] J. Kliewer and A. Mertins, "Audio subband coding with improved representation
of transient signal segments," in 9th European Signal Processing Conference, vol. 9, (Rhodes), pp. 1-4, IEEE, September 1998.
[25] X. Rodet and F. Jaillet, "Detection and modeling of fast attack transients," in
Proceedings of the International Computer Music Conference, (Havana, Cuba),
pp. 30-33, 2001.
[26] J. P. Bello, L. Daudet, S. Abdallah, C. Duxbury, and M. Davies, "A tutorial on
onset detection in music signals," IEEE Transactions on Speech and Audio Processing,
vol. 13, pp. 1035-1047, September 2005.
[27] V. Suresh Babu, A. K. Malot, V. Vijayachandran, and M. Vinay, "Transient detection
for transform domain coders," in Audio Engineering Society Convention 116, no. 6175, (Berlin, Germany), May 2004.
[28] P. Masri and A. Bateman, "Improved modelling of attack transients in music
analysis-resynthesis," in International Computer Music Conference, pp. 100-103,
January 1996.
[29] M. D. Kwong and R. Lefebvre, "Transient detection of audio signals based on an
adaptive comb filter in the frequency domain," in Conference on Signals, Systems
and Computers, 2004. Conference Record of the Thirty-Seventh Asilomar, vol. 1,
pp. 542-545, IEEE, November 2003.
[30] X. Zhang, C. Cai, and J. Zhang, "A transient signal detection technique based
on flatness measure," in 6th International Conference on Computer Science and
Education, (Singapore), pp. 310-312, IEEE, August 2011.
[31] J. D. Johnston, "Transform coding of audio signals using perceptual noise criteria,"
IEEE Journal on Selected Areas in Communications, vol. 6, pp. 314-323,
February 1988.
[32] J. Herre and S. Disch, Academic press library in Signal processing, vol. 4, ch. 28.
Perceptual Audio Coding, pp. 757-799. Academic press, 2014.
[33] H. Fastl and E. Zwicker, Psychoacoustics - Facts and Models. Heidelberg:
Springer, 3. ed., 2007.
[34] B. C. J. Moore, An Introduction to the Psychology of Hearing. London: Emerald,
6. ed., 2012.
[35] P. Dallos, A. N. Popper, and R. R. Fay, The Cochlea. New York: Springer, 1. ed.,
1996.
[36] W. M. Hartmann, Signals, Sound, and Sensation. Springer, 5. ed., 2005.
[37] K. Brandenburg, C. Faller, J. Herre, J. D. Johnston, and B. Kleijn, "Perceptual
coding of high-quality digital audio," in IEEE Transactions on Acoustics, Speech,
and Signal Processing, vol. 101, pp. 1905-1919, IEEE, September 2013.
[38] H. Fletcher andW. A. Munson, "Loudness, its definition, measurement and calculation," The Bell System Technical Journal, vol. 12, no. 4, pp. 377-430, 1933.
[39] H. Fletcher, "Auditory patterns," Reviews of Modern Physics, vol. 12, no. 1,
pp. 47-65, 1940.
[40] M. Bosi and R. E. Goldberg, Introduction to Digital Audio Coding and Standards.
Kluwer Academic Publishers, 1. ed., 2003.
[41] P. Noll, "MPEG digital audio coding," IEEE Signal Processing Magazine, vol. 14,
pp. 59-81, September 1997.
[42] D. Pan, "A tutorial on MPEG/audio compression," IEEE MultiMedia, vol. 2, no. 2,
pp. 60-74, 1995.
[43] M. Erne, "Perceptual audio coders "what to listen for"," in 111st Audio Engineering
Society Convention, no. 5489, AES, September 2001.
[44] C.-M. Liu, H.-W. Hsu, and W. Lee, "Compression artifacts in perceptual audio
coding," in IEEE Transactions on Audio, Speech, and Language Processing,
vol. 16, pp. 681-695, IEEE, May 2008.
[45] L. Daudet, "A review on techniques for the extraction of transients in musical
signals," in Proceedings of the Third international conference on Computer Music,
pp. 219-232, September 2005.
[46] W.-C. Lee and C.-C. J. Kuo, "Musical onset detection based on adaptive linear
prediction," in IEEE International Conference on Multimedia and Expo, (Toronto,
Ontario), pp. 957-960, IEEE, July 2006.
[47] M. Link, "An attack processing of audio signals for optimizing the temporal characteristics of a low bit-rate audio coding system," in Audio Engineering Society
Convention, vol. 95, October 1993.
[48] T. Vaupel, Ein Beitrag zur Transformationscodierung von Audiosignalen unter
Verwendung der Methode der "Time Domain Aliasing Cancellation (TDAC)" und
einer Signalkompandierung im Zeitbereich. Ph.d. thesis, Universitat Duisburg,
Duisburg, Germany, April 1991.
[49] G. Bertini, M. Magrini, and T. Giunti, "A time-domain system for transient enhancement in recorded music," in 14th European Signal Processing Conference
(EUSIPCO), (Florence, Italy), IEEE, September 2013.
[50] C. Duxbury, M. Sandler, and M. Davies, "A hybrid approach to musical note onset
detection," in Proc. of the 5th Int. Conference on Digital Audio Effects (DAFx-02),
(Hamburg, Germany), pp. 33-38, September 2002.
[51] A. Klapuri, "Sound onset detection by applying psychoacoustic knowledge," in
Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal
Processing, March 1999.
[52] S. L. Goh and D. P. Mandic, "Nonlinear adaptive prediction of complex-valued
signals by complex-valued PRNN," in IEEE Transactions on Signal Processing,
vol. 53, pp. 1827-1836, IEEE, May 2005.
[53] S. Haykin and L. Li, "Nonlinear adaptive prediction of nonstationary signals," in
IEEE Transactions on Signal Processing, vol. 43, pp. 526-535, IEEE, February
1995.
[54] D. P. Mandic, S. Javidi, S. L. Goh, and K. Aihara, "Complex-valued prediction of
wind profile using augmented complex statistics," in Renewable Energy, vol. 34,
pp. 196-201, Elsevier Ltd., January 2009.
[55] B. Edler, "Parametrization of a pre-masking model." Personal communication,
November 22, 2016.
[56] ITU-R Recommendation BS.1116-3, "Method for the subjective assessment of
small impairments in audio systems," recommendation, International Telecommunication
Union, Geneva, Switzerland, February 2015.
[57] ITU-R Recommendation BS.1534-3, "Method for the subjective assessment of
intermediate quality level of audio systems," recommendation, International
Telecommunication Union, Geneva, Switzerland, October 2015.
[58] ITU-R Recommendation BS.1770-4, "Algorithms to measure audio programme
loudness and true-peak audio level," recommendation, International Telecommunication
Union, Geneva, Switzerland, October 2015.
[59] S. M. Ross, Introduction to Probability and Statistics for Engineers and Scientists. Elsevier, 3. ed., 2004.
Claims (15)
- オーディオ信号をスペクトルフレームのシーケンスを含むスペクトル表現に変換するための時間スペクトル変換器(700)であって、前記スペクトルフレームのシーケンスの各スペクトルフレームはスペクトル値を有する、時間スペクトル変換器(700)と、
前記時間スペクトル変換器(700)によって得られた前記スペクトルフレームのシーケンスのうちのスペクトルフレーム内の周波数に対する予測のための予測フィルタ係数を計算するための予測分析器(720)であって、前記周波数に対する予測は前記フレームのスペクトル値を、前記予測フィルタ係数を用いて前記フレームの1つ以上の他のスペクトル値から予測する、予測分析器(720)と、
前記時間スペクトル変換器(700)によって得られた前記スペクトルフレームのシーケンスのうちの前記スペクトルフレームを整形して整形されたスペクトルフレームを得るための、前記予測フィルタ係数によって制御される整形フィルタ(740)であって、
前記予測分析器(720)は、時間スペクトル変換器によって得られた前記スペクトルフレームのシーケンスのうちの前記スペクトルフレームから、平坦化フィルタ特性(740a)のための第1の予測フィルタ係数を計算(720a)し、且つ整形フィルタ特性(740b)のための第2の予測フィルタ係数を計算(720b)するように構成され、ここで前記予測フィルタ係数は前記第1の予測フィルタ係数および前記第2の予測フィルタ係数を用いて決定され、前記第2の予測フィルタ係数によって得られる整形の度合いは前記第1の予測フィルタ係数によって得られる平坦化の度合いよりも大きくて、前記スペクトルフレームのシーケンスのうちの前記スペクトルフレーム内のトランジェント部分が前記整形されたスペクトルフレームにおいて強調されるようになっている、整形フィルタ(740)と、
前記整形されたスペクトルフレームを含む整形されたスペクトルフレームのシーケンスを時間領域に変換するためのスペクトル時間変換器(760)と、
を備える、オーディオ信号を後処理(20)するための装置。 - 前記予測分析器(720)は、
前記スペクトルフレームのシーケンスのうちの前記スペクトルフレームから自己相関関数を計算(800)し、
第1の時定数を有するウィンドウで前記自己相関関数をウィンドウ処理(802)して第1の結果信号を取得し、
前記第1の結果信号から前記第1の予測フィルタ係数(720a)を計算(806)し、
第2の時定数を有するウィンドウで前記自己相関関数をウィンドウ処理(804)して第2の結果信号を取得し、
前記第2の結果信号から前記第2の予測フィルタ係数を計算(808)するように構成され、
前記第2の時定数は前記第1の時定数より大きい、
請求項1に記載の装置。 - 前記平坦化フィルタ特性(740a)は、前記スペクトルフレームのシーケンスのうちの前記スペクトルフレームに適用されると前記スペクトルフレームのシーケンスのうちの前記スペクトルフレームの時間エンベロープに比べると時間エンベロープがより平坦な修正されたスペクトルフレームをもたらす、分析FIRフィルタ特性または全零フィルタ特性であり、
前記整形フィルタ特性(740b)は、前記スペクトルフレームのシーケンスのうちの前記スペクトルフレームに適用されると前記スペクトルフレームのシーケンスのうちの前記スペクトルフレームの時間エンベロープに比べると時間エンベロープがより平坦でない修正されたスペクトルフレームをもたらす、合成IIRフィルタ特性または全極フィルタ特性である、
請求項1または2に記載の装置。 - 前記予測分析器(720)は、
前記スペクトルフレームのシーケンスのうちの前記スペクトルフレームから自己相関関数を計算(800)し、
第2の時定数を有するウィンドウを使用して前記自己相関関数をウィンドウ処理(804)し、
前記第2の時定数を使用してウィンドウ処理されたウィンドウ処理済自己相関関数から前記第2の予測フィルタ係数を計算(808)する
ように構成され、かつ
前記整形フィルタ(740)は、前記第2の予測フィルタ係数を使用して、前記スペクトルフレームのシーケンスのうちの前記スペクトルフレームを整形するように構成される、または、
前記予測分析器(720)は、
前記スペクトルフレームのシーケンスのうちの前記スペクトルフレームから自己相関関数を計算(800)し、
第1の時定数および前記第1の時定数より大きい第2の時定数を有するウィンドウを使用して前記自己相関関数をウィンドウ処理(802,804)し、
前記第1の時定数を使用してウィンドウ処理されたウィンドウ処理済自己相関関数から前記第1の予測フィルタ係数を計算(806,808)するとともに、前記第2の時定数を使用してウィンドウ処理されたウィンドウ処理済自己相関関数から前記第2の予測フィルタ係数を計算するように構成され、かつ
前記整形フィルタ(740)は前記第2の予測フィルタ係数および前記第1の予測フィルタ係数を使用して前記スペクトルフレームのシーケンスのうちの前記スペクトルフレームを整形するように構成される、
請求項1に記載の装置。 - 前記整形フィルタ(740)は2つの制御可能なサブフィルタ(809,810)のカスケードを含み、第1のサブフィルタ(809)は前記平坦化フィルタ特性(740a)を有する平坦化フィルタであり、第2のサブフィルタ(810)は前記整形フィルタ特性(740b)を有する整形フィルタであり、
前記2つの制御可能なサブフィルタ(809,810)はいずれも、前記予測分析器(720)により導出される前記予測フィルタ係数によって制御され、前記第1のサブフィルタ(809)は前記第1の予測フィルタ係数によって制御され、前記第2のサブフィルタ(810)は前記第2の予測フィルタ係数によって制御される、あるいは
前記整形フィルタ(740)は、前記平坦化フィルタ特性(740a)および前記整形フィルタ特性(740b)を組み合わせる(820)ことにより導出されるミックスフィルタ特性を有するフィルタであり、
前記ミックスフィルタ特性は、前記第1の予測フィルタ係数および前記第2のフィルタ係数を組み合わせることによって導出される前記予測フィルタ係数により制御される、
請求項1ないし4の1項に記載の装置。 - 前記予測分析器(720)は前記スペクトルフレームのシーケンスのうちの前記スペクトルフレームから導出される前記自己相関関数にレビンソン・ダービン・アルゴリズムを適用する(806,808)ように構成される、請求項2または4の1項に記載の装置。
- 前記整形フィルタ(740)はゲイン補償を適用して、前記整形されたスペクトルフレームのシーケンスのうちの前記整形されたスペクトルフレームのエネルギーが、前記時間スペクトル変換器(700)によって生成された前記スペクトルフレームのシーケンスのうちの前記スペクトルフレームのエネルギーに等しくなるように構成される請求項1ないし6の1項に記載の装置。
- 前記整形フィルタ(740)は、平坦化ゲインを有する前記平坦化フィルタ特性(740a)および整形ゲインを有する前記整形フィルタ特性(740b)を適用するように構成され、かつ、
前記整形フィルタ(740)は、前記平坦化ゲインおよび前記整形ゲインの影響を補償するための前記ゲイン補償を実行するように構成される、
請求項7に記載の装置。 - 前記予測分析器(720)は平坦化ゲインおよび整形ゲインを計算するように構成され、
前記2つの制御可能なサブフィルタ(809,810)の前記カスケードはさらに、前記平坦化ゲインおよび/または前記整形ゲインから導出されたゲインを適用するための、前記2つの制御可能なサブフィルタ(809,810)のうちの少なくとも1つに含まれた別個のゲインステージ(811)またはゲイン機能を含む、あるいは
前記ミックスフィルタ特性を有する前記フィルタ(740)は、前記平坦化ゲインおよび/または前記整形ゲインから導出されたゲインを適用するように構成される、
請求項5に記載の装置。 - 前記予測分析器(720)は前記フレームのシーケンスのうちの複数のフレームについて前記予測フィルタ係数を計算して、
前記予測フィルタ係数によって制御される前記整形フィルタ(740)が、前記複数のフレームのうちのトランジェント部分を含む第1のフレームについて信号操作を実行し、また
前記整形フィルタ(740)が、前記複数のフレームのうちのトランジェント部分を含まない、前記第1のフレームとは異なる第2のフレームについて、信号操作を実行しないまたは前記第1のフレームについての信号操作よりも小さい信号操作を実行するように構成される、請求項1ないし9の1項に記載の装置。 - 前記スペクトル時間変換器(760)は、前記整形されたスペクトルフレームのシーケンスのうちの少なくとも2つの隣接する整形されたスペクトルフレームが関連するオーバーラップ加算演算を適用するように構成される、請求項1ないし10の1項に記載の装置。
- 前記時間スペクトル変換器(700)は、分析ウィンドウを適用するように構成され、
前記スペクトル時間変換器(760)は、合成ウィンドウを適用するように構成され、
前記分析ウィンドウと前記合成ウィンドウとは互いに等しい、
請求項1ないし11の1項に記載の装置。 - 前記平坦化フィルタ特性(740a)は、前記スペクトルフレームのシーケンスのうちの前記スペクトルフレームに適用されると、前記スペクトルフレームのシーケンスのうちの前記スペクトルフレームの時間エンベロープと比較して時間エンベロープがより平坦な修正スペクトルフレームをもたらす、逆フィルタ特性であり、
前記整形フィルタ特性(740b)は、前記スペクトルフレームのシーケンスのうちの前記スペクトルフレームに適用されると、前記スペクトルフレームのシーケンスのうちの前記スペクトルフレームの時間エンベロープと比較して時間エンベロープがより平坦でない修正スペクトルフレームをもたらす、合成フィルタ特性である、
請求項1または2に記載の装置。 - オーディオ信号をスペクトルフレームのシーケンスを含むスペクトル表現に変換するステップ(700)であって、前記スペクトルフレームのシーケンスの各スペクトルフレームはスペクトル値を有する、スペクトル表現に変換するステップ(700)と、
前記スペクトル表現に変換するステップ(700)によって得られた前記スペクトルフレームのシーケンスのうちのスペクトルフレーム内の周波数に対する予測のための予測フィルタ係数を計算するステップ(720)であって、前記周波数に対する予測は前記スペクトルフレームのシーケンスのうちの前記フレームのスペクトル値を、前記予測フィルタ係数を使用して前記スペクトルフレームのシーケンスのうちの前記フレームの1つ以上の他のスペクトル値から予測する、計算するステップ(720)と、
整形されたスペクトルフレームを得るために、前記予測フィルタ係数に応答して前記スペクトル表現に変換するステップ(700)によって得られた前記スペクトルフレームのシーケンスのうちの前記スペクトルフレームを整形するステップ(740)であって、
前記計算するステップ(720)は、前記スペクトル表現に変換するステップ(700)によって得られた前記スペクトルフレームのシーケンスのうちの前記スペクトルフレームから、平坦化フィルタ特性(740a)のための第1の予測フィルタ係数を計算するステップ(720a)と、整形フィルタ特性(740b)のための第2の予測フィルタ係数を計算するステップ(720b)とを含み、ここで前記予測フィルタ係数は前記第1の予測フィルタ係数および前記第2の予測フィルタ係数を用いて決定され、前記第2の予測フィルタ係数によって得られた整形の度合いは前記第1の予測フィルタ係数によって得られた平坦化の度合いよりも大きく、前記スペクトルフレームのシーケンスのうちの前記スペクトルフレーム内のトランジェント部分が前記整形されたスペクトルフレームにおいて強調される、前記スペクトルフレームを整形するステップ(740)と、
前記整形されたスペクトルフレームを含む整形されたスペクトルフレームのシーケンスを時間領域に変換するステップ(760)と、
を含む、オーディオ信号を後処理する(20)ための方法。 - コンピュータまたはプロセッサ上で動作するときに、請求項14の方法を実行するためのコンピュータプログラム。
Applications Claiming Priority (5)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| EP17164332 | 2017-03-31 | ||
| EP17164332.3 | 2017-03-31 | ||
| EP17183135.7 | 2017-07-25 | ||
| EP17183135.7A EP3382701A1 (en) | 2017-03-31 | 2017-07-25 | Apparatus and method for post-processing an audio signal using prediction based shaping |
| PCT/EP2018/025084 WO2018177613A1 (en) | 2017-03-31 | 2018-03-29 | Apparatus and method for post-processing an audio signal using prediction based shaping |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2020512597A JP2020512597A (ja) | 2020-04-23 |
| JP7261173B2 true JP7261173B2 (ja) | 2023-04-19 |
Family
ID=58644790
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2019553965A Active JP7261173B2 (ja) | 2017-03-31 | 2018-03-29 | 予測に基づく整形を使用したオーディオ信号の後処理のための装置および方法 |
Country Status (6)
| Country | Link |
|---|---|
| US (1) | US11562756B2 (ja) |
| EP (2) | EP3382701A1 (ja) |
| JP (1) | JP7261173B2 (ja) |
| CN (1) | CN110709926B (ja) |
| RU (1) | RU2732995C1 (ja) |
| WO (1) | WO2018177613A1 (ja) |
Families Citing this family (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP3382701A1 (en) * | 2017-03-31 | 2018-10-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for post-processing an audio signal using prediction based shaping |
| WO2021226342A1 (en) | 2020-05-06 | 2021-11-11 | Dolby Laboratories Licensing Corporation | Audio watermark to indicate post-processing |
| CN113571080B (zh) * | 2021-02-08 | 2024-11-08 | 腾讯科技(深圳)有限公司 | 语音增强方法、装置、设备及存储介质 |
| CN113343952B (zh) * | 2021-08-05 | 2021-11-05 | 北京科技大学 | 一种瞬态特征时频分析与重构方法 |
| CN114242092A (zh) * | 2021-11-05 | 2022-03-25 | 福建超智集团有限公司 | 一种监控环境中提高语音播报扩声增益的智能处理方法和系统 |
| CN117939384B (zh) * | 2024-03-22 | 2024-07-19 | 深圳市东微智能科技股份有限公司 | 设备检测方法、装置、终端设备以及存储介质 |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2011048792A1 (ja) | 2009-10-21 | 2011-04-28 | パナソニック株式会社 | 音響信号処理装置、音響符号化装置および音響復号装置 |
| JP2015525893A (ja) | 2012-06-28 | 2015-09-07 | フラウンホーファーゲゼルシャフトツール フォルデルング | 改良された確率分布推定を使用する線形予測に基づくオーディオ符号化 |
| JP2015184470A (ja) | 2014-03-24 | 2015-10-22 | 株式会社Nttドコモ | 音声復号装置、音声符号化装置、音声復号方法、音声符号化方法、音声復号プログラム、および音声符号化プログラム |
Family Cites Families (38)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2689739B2 (ja) * | 1990-03-01 | 1997-12-10 | 日本電気株式会社 | 秘話装置 |
| EP0796489B1 (en) | 1994-11-25 | 1999-05-06 | Fleming K. Fink | Method for transforming a speech signal using a pitch manipulator |
| US5825320A (en) | 1996-03-19 | 1998-10-20 | Sony Corporation | Gain control method for audio encoding device |
| US6263312B1 (en) | 1997-10-03 | 2001-07-17 | Alaris, Inc. | Audio compression and decompression employing subband decomposition of residual signal and distortion reduction |
| US5913191A (en) | 1997-10-17 | 1999-06-15 | Dolby Laboratories Licensing Corporation | Frame-based audio coding with additional filterbank to suppress aliasing artifacts at frame boundaries |
| US6842733B1 (en) * | 2000-09-15 | 2005-01-11 | Mindspeed Technologies, Inc. | Signal processing system for filtering spectral content of a signal for speech coding |
| BR0107420A (pt) * | 2000-11-03 | 2002-10-08 | Koninkl Philips Electronics Nv | Processos de codificação de um sinal de entrada e de decodificação, sinal modificado modelado, meio de armazenagem, decodificador, reprodutor de áudio, e ,aparelho para codificação de sinais |
| US7460993B2 (en) | 2001-12-14 | 2008-12-02 | Microsoft Corporation | Adaptive window-size selection in transform coding |
| KR100462615B1 (ko) * | 2002-07-11 | 2004-12-20 | 삼성전자주식회사 | 적은 계산량으로 고주파수 성분을 복원하는 오디오 디코딩방법 및 장치 |
| US7460990B2 (en) * | 2004-01-23 | 2008-12-02 | Microsoft Corporation | Efficient coding of digital media spectral data using wide-sense perceptual similarity |
| FR2888704A1 (ja) | 2005-07-12 | 2007-01-19 | France Telecom | |
| DE102006051673A1 (de) * | 2006-11-02 | 2008-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Nachbearbeiten von Spektralwerten und Encodierer und Decodierer für Audiosignale |
| EP2015293A1 (en) * | 2007-06-14 | 2009-01-14 | Deutsche Thomson OHG | Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain |
| EP2410519B1 (en) | 2008-07-11 | 2019-09-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and apparatus for encoding and decoding an audio signal and computer programs |
| EP2953131B1 (en) | 2009-01-28 | 2017-07-26 | Dolby International AB | Improved harmonic transposition |
| EP2214165A3 (en) | 2009-01-30 | 2010-09-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and computer program for manipulating an audio signal comprising a transient event |
| JP4921611B2 (ja) * | 2009-04-03 | 2012-04-25 | 株式会社エヌ・ティ・ティ・ドコモ | 音声復号装置、音声復号方法、及び音声復号プログラム |
| JP4932917B2 (ja) | 2009-04-03 | 2012-05-16 | 株式会社エヌ・ティ・ティ・ドコモ | 音声復号装置、音声復号方法、及び音声復号プログラム |
| CN101908342B (zh) * | 2010-07-23 | 2012-09-26 | 北京理工大学 | 利用频域滤波后处理进行音频暂态信号预回声抑制的方法 |
| ES2534972T3 (es) * | 2011-02-14 | 2015-04-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Predicción lineal basada en esquema de codificación utilizando conformación de ruido de dominio espectral |
| JP5633431B2 (ja) | 2011-03-02 | 2014-12-03 | 富士通株式会社 | オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム |
| WO2013075753A1 (en) | 2011-11-25 | 2013-05-30 | Huawei Technologies Co., Ltd. | An apparatus and a method for encoding an input signal |
| EP2786377B1 (en) | 2011-11-30 | 2016-03-02 | Dolby International AB | Chroma extraction from an audio codec |
| JP5898534B2 (ja) | 2012-03-12 | 2016-04-06 | クラリオン株式会社 | 音響信号処理装置および音響信号処理方法 |
| FR2992766A1 (fr) | 2012-06-29 | 2014-01-03 | France Telecom | Attenuation efficace de pre-echos dans un signal audionumerique |
| EP2717261A1 (en) * | 2012-10-05 | 2014-04-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoder, decoder and methods for backward compatible multi-resolution spatial-audio-object-coding |
| US9135920B2 (en) | 2012-11-26 | 2015-09-15 | Harman International Industries, Incorporated | System for perceived enhancement and restoration of compressed audio signals |
| FR3000328A1 (fr) | 2012-12-21 | 2014-06-27 | France Telecom | Attenuation efficace de pre-echos dans un signal audionumerique |
| CA2898677C (en) * | 2013-01-29 | 2017-12-05 | Stefan Dohla | Low-frequency emphasis for lpc-based coding in frequency domain |
| MY185210A (en) | 2013-02-20 | 2021-04-30 | Fraunhofer Ges Forschung | Apparatus and method for generating an encoded signal or for decoding an encoded audio signal using a multi overlap portion |
| EP2830056A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding or decoding an audio signal with intelligent gap filling in the spectral domain |
| DK2916321T3 (en) | 2014-03-07 | 2018-01-15 | Oticon As | Processing a noisy audio signal to estimate target and noise spectral variations |
| EP2980798A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Harmonicity-dependent controlling of a harmonic filter tool |
| BR112017018145B1 (pt) | 2015-02-26 | 2023-11-28 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E. V | Aparelho e método para processamento de um sinal de áudio para obter um sinal de áudio processado utilizando um envelope de domínio de tempo alvo |
| WO2017080835A1 (en) | 2015-11-10 | 2017-05-18 | Dolby International Ab | Signal-dependent companding system and method to reduce quantization noise |
| EP3182410A3 (en) | 2015-12-18 | 2017-11-01 | Dolby International AB | Enhanced block switching and bit allocation for improved transform audio coding |
| EP3382701A1 (en) * | 2017-03-31 | 2018-10-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for post-processing an audio signal using prediction based shaping |
| EP3382700A1 (en) * | 2017-03-31 | 2018-10-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for post-processing an audio signal using a transient location detection |
-
2017
- 2017-07-25 EP EP17183135.7A patent/EP3382701A1/en not_active Withdrawn
-
2018
- 2018-03-29 JP JP2019553965A patent/JP7261173B2/ja active Active
- 2018-03-29 EP EP18714689.9A patent/EP3602548B1/en active Active
- 2018-03-29 RU RU2019134577A patent/RU2732995C1/ru active
- 2018-03-29 CN CN201880036642.3A patent/CN110709926B/zh active Active
- 2018-03-29 WO PCT/EP2018/025084 patent/WO2018177613A1/en not_active Ceased
-
2019
- 2019-09-17 US US16/573,519 patent/US11562756B2/en active Active
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2011048792A1 (ja) | 2009-10-21 | 2011-04-28 | パナソニック株式会社 | 音響信号処理装置、音響符号化装置および音響復号装置 |
| JP2015525893A (ja) | 2012-06-28 | 2015-09-07 | フラウンホーファーゲゼルシャフトツール フォルデルング | 改良された確率分布推定を使用する線形予測に基づくオーディオ符号化 |
| JP2015184470A (ja) | 2014-03-24 | 2015-10-22 | 株式会社Nttドコモ | 音声復号装置、音声符号化装置、音声復号方法、音声符号化方法、音声復号プログラム、および音声符号化プログラム |
Non-Patent Citations (1)
| Title |
|---|
| Jing Wang et al.,"Quality enhancement of coded transient audio with a post-filter in frequency domain",Proceedings of IEEE 10th International Conference on Signal Processing,2010年10月24日,pp.506-509 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN110709926A (zh) | 2020-01-17 |
| WO2018177613A1 (en) | 2018-10-04 |
| US11562756B2 (en) | 2023-01-24 |
| CN110709926B (zh) | 2023-08-15 |
| EP3602548C0 (en) | 2025-05-21 |
| EP3602548A1 (en) | 2020-02-05 |
| JP2020512597A (ja) | 2020-04-23 |
| BR112019020491A2 (pt) | 2020-04-28 |
| RU2732995C1 (ru) | 2020-09-28 |
| US20200013421A1 (en) | 2020-01-09 |
| EP3382701A1 (en) | 2018-10-03 |
| EP3602548B1 (en) | 2025-05-21 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7055542B2 (ja) | トランジェント位置検出を使用したオーディオ信号の後処理のための装置 | |
| JP7261173B2 (ja) | 予測に基づく整形を使用したオーディオ信号の後処理のための装置および方法 | |
| CN107925388B (zh) | 后置处理器、预处理器、音频编解码器及相关方法 | |
| JP6026678B2 (ja) | 高度なスペクトラム拡張を使用して量子化ノイズを低減するための圧縮伸張装置および方法 | |
| CN110914902B (zh) | 用于确定与音频信号的频谱增强处理有关的预定特性的装置和方法 | |
| CN101390159A (zh) | 在解码器和相应设备中可靠识别和衰减数字信号中的回声的方法 | |
| US10170126B2 (en) | Effective attenuation of pre-echoes in a digital audio signal | |
| JP2021502592A (ja) | スケールパラメータのダウンサンプリングまたは補間を使用してオーディオ信号をエンコードおよびデコードするための装置および方法 | |
| JP6728142B2 (ja) | デジタルオーディオ信号におけるプレエコーを識別し、減衰させる方法及び装置 | |
| RU2786712C1 (ru) | Аудиопроцессор и способ генерирования аудиосигнала с улучшенной частотной характеристикой с использованием импульсной обработки | |
| Füg | Advanced Temporal Noise Shaping Techniques for Transform Audio Coding | |
| HK40072038A (en) | Companding apparatus and method to reduce quantization noise using advanced spectral extension | |
| BR112019020515B1 (pt) | Aparelho para pós-processamento de um sinal de áudio usando uma detecção de localização transiente | |
| BR112019020491B1 (pt) | Aparelho e método para pós-processamento de um sinal de áudio usando formato com base em previsão | |
| HK40014531B (en) | Apparatus and method for processing an audio signal | |
| HK40014531A (en) | Apparatus and method for processing an audio signal |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191203 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191202 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201120 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210105 |
|
| A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20210329 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210705 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20210914 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220114 |
|
| C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20220114 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20220117 |
|
| A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20220207 |
|
| C21 | Notice of transfer of a case for reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C21 Effective date: 20220208 |
|
| A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20220408 |
|
| C211 | Notice of termination of reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C211 Effective date: 20220412 |
|
| C22 | Notice of designation (change) of administrative judge |
Free format text: JAPANESE INTERMEDIATE CODE: C22 Effective date: 20220628 |
|
| C13 | Notice of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: C13 Effective date: 20220802 |
|
| A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20221101 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230131 |
|
| C23 | Notice of termination of proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C23 Effective date: 20230214 |
|
| C03 | Trial/appeal decision taken |
Free format text: JAPANESE INTERMEDIATE CODE: C03 Effective date: 20230314 |
|
| C30A | Notification sent |
Free format text: JAPANESE INTERMEDIATE CODE: C3012 Effective date: 20230314 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230407 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7261173 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |